JP2000172291A

JP2000172291A - 音声認識装置

Info

Publication number: JP2000172291A
Application number: JP10343148A
Authority: JP
Inventors: Hiroaki Ogawa; 浩明小川; Hitoshi Honda; 等本田; Hironaga Tsutsumi; 洪長包; Yoshikazu Takahashi; 良和高橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1998-12-02
Filing date: 1998-12-02
Publication date: 2000-06-23

Abstract

(57)【要約】【課題】ノイズ環境下でもより高精度の音声認識が可
能な音声認識装置を提供すること。【解決手段】マイクロフォン１０１で収集された音声
データのパワースペクトルをパワースペクトル１０４で
算出し、音声区間判定部１１０で、パワースペクトルに
音声の非認識時に、音声区間判定部１１０でスイッチＳ
１を固定端子Ｃ側に切り替え、平均スペクトル算出部１
０５で平均スペクトルを算出して、音響モデル決定部１
０６で音響モデルバッファ１０７に収録されている２以
上の不特定話者用サブワード音響モデルを決定する。音
声区間判定部１１０でパワースペクトルに音声の認識時
に、スイッチＳ１を固定端子Ｂ側に切り替え、マッチン
グ部１０９でパワースペクトルの音声に対して認識語彙
辞書１０８の認識語彙と音響モデルバッファ１０７の音
響モデルにしたがって音声の各単語を認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ノイズ環境下で
利用される音声認識装置に関し、特に、ノイズ環境によ
る音響モデルの切替機構を備えることにより、ノイズを
少ない環境からノイズの多い環境まで高い認識率を達成
することができるようにした音声認識装置に関する。

【０００２】

【従来の技術】近年、音声認識技術の発達により、様々
な電気製品などで音声認識が用いられるようになってき
た。たとえば、カーナビゲーションシステムでは、安全
性と利便性とから音声認識がユーザインタフェースとし
て使用されている。このようなカーナビゲーションシス
テムの例として、たとえば、「音声認識オプションユニ
ットＮＶＡ−ＶＲ１（ソニー株式会社製）」、「音声認
識内蔵型カーナビゲーションシステムＮＶＸ−Ｗ９００
（ソニー株式会社製）」などが実用化されている。ま
た、近年、携帯電話などにも音声認識が使用されてい
る。

【０００３】このように、音声認識システムは、様々な
場所で使用されてきている。このため、様々なノイズ環
境で動作することが求められている。たとえば、カーナ
ビゲーション用音声認識システムでは、停車時などの比
較的ノイズの少ない環境から高速道路を走行するような
ノイズの多い環境まで様々に環境ノイズは変化する。さ
らに、たとえば、携帯電話では、利用者の行く先々まで
ノイズ環境はさらに変化する。

【０００４】このようなノイズ環境下での音声認識性能
の向上手法として、特徴量を正規化する方法がある。特
徴量の正規化は、ノイズを含む音声から得られた特徴量
をできるだけノイズのない状態で得られるべき特徴量に
近づける方法である。たとえば、スペクトルサブトラク
ション法（Spectral Subtraction）が広く知られてい
る。

【０００５】このスペクトルサブトラクション法では、
音声の発話中のノイズの平均スペクトルを指定して、音
声の入力があると、その音声からノイズの平均スペクト
ルが差し引かれ（Subtract）、その残りを真の音声成分
として、特徴スペクトルが算出される。ノイズの簡単な
推定方法としては、たとえば、音声の発話がされる前の
入力（音声区間の前の入力）を、ノイズとして、そのノ
イズの平均スペクトルを算出すればよい。

【０００６】なお、スペクトルサブトラクションについ
ては、たとえば、S．F．boll、「Suppression of Aco
ustic Noise in Spectral Subtraction」、ＩＥＥ
ＥTransactions on Acoustics、Speech、and Signa
l Processing、Vol．ASSP−２７、No．２１９７９や、
P．Lockwood and J．Boudy、「Experiments with
a Nonlinear Spectral Subtracter 、Hidden Ma
rkov Models andthe projection、for robust spe
ech recognition in cars」、Speech Communicatio
n、 Vol．１１、１９９２などに、その詳細が記載され
ている。

【０００７】特徴量の正規化を行うことにより、音声認
識率を向上するが、特徴量の完全な正規化は困難である
ため、実際のところ、ノイズ環境下により特徴量が変化
してしまう。このため、ノイズの無い音声から作成され
た音響モデルを用いてノイズのある音声を正規化して得
られた特徴量から音声認識を行うと、認識率は低下して
しまう。そこで、音響モデルをノイズのある音声から作
成すると、ノイズのある音声に対する認識率は向上する
が、今度はノイズのない音声に対する認識率は低下して
しまう。

【０００８】たとえば、音響もモデルとしてHMM（Hidde
n Markov Model）を用いた場合の実験結果を以下の
［表１］示す。

【０００９】

【表１】

【００１０】上記「表１」の表すように、ノイズのない
音声を学習した音響モデル（Ｍｃ）は、アイドリングノ
イズ、つまり、ノイズの少ない環境において、高い認識
率を示し、ノイズのある音声を学習した音響モデル（Ｍ
ｈ）は、市街地、高速道路などのノイズの多い環境でよ
い認識率を示す。

【００１１】一方、話者が語彙を登録するテンプレート
マッチングタイプの認識装置においては、利用者が様々
なノイズ環境で実際に音声を発話し、その発話をノイズ
の識別結果とともに保存する音声認識方法が、特開平０
５−６６７９０号公報により開示されている。この公報
の場合には、利用者は想定される利用環境で音声を登録
する必要があるので、たとえば、車両に搭載される音声
認識装置では、低速走行の比較的ノイズが小さい環境で
の登録や、高速走行でノイズの大きい環境での音声の登
録を行う。さらに、この方法で音声認識を行う場合に
は、背景ノイズを認識装置に与えて音声認識装置は、背
景ノイズを識別して認識を行う。

【００１２】

【発明が解決しようとする課題】しかしながら、通常、
音響モデルを１種類しか用いないので、前述のように音
響モデルに合った環境では、よい認識率が択られるが、
音響モデルに合わない環境では、認識率が低下するとい
う課題があった。さらに、できるだけ多くのノイズ環境
を音響モデルに学習させた場合に、大きく認識率の落ち
るノイズ環境は減少するものの、全体的に認識率が若干
低下してしまうという課題も合った。また、上記公報の
場合には、複数のノイズ環境下で利用者は発話登録を行
う必要があるが、より大語彙の音声認識を行うために
は、すべての語彙を各ノイズ環境で発話する必要があ
る。これは、利用者にとっては、非常に大きな負担とな
る。

【００１３】加えて、背景ノイズをマイクからの入力を
用いて判断する場合に、利用者の声が背景ノイズに重な
ってしまうと、背景ノイズの判断を誤ってしまうという
課題があった。また、背景ノイズをマイクからの入力を
用いて判断する以外に、より簡単な方法で背景ノイズを
推定する方法がさらなる計算量削減のために求められて
いる。

【００１４】なお、車載用音声認識装置に関して、あら
かじめ路面状況に応じた複数のノイズ用スペクトルパタ
ーンの中から、現在走行中の路面状況に応じた１つのノ
イズスペクトルパターンを選択し、その選択したノイズ
スペクトルパターンに基づきマイク入力のスペクトルパ
ターンから演算によりノイズのスペクトルパターンを除
去して音声のみのスペクトルパターンを得ることが、特
開平０６−６７６９０号公報に開示されているが、この
公報の場合には、音声波形自体の補償処理に関する技術
内容であり、上記課題に対する解決策の指針にならな
い。

【００１５】また、特開平０７−２９５５８５号公報に
よる車載用音声認識装置では、雑音を含んだ登録パター
ンに対して雑音を除去して登録パターンを出力するよう
にあらかじめ学習されているニューラルネットワークを
登録パターンごとに設け、各ニューラルネットワークか
らは、そのニューラルネットワークに対応する登録パタ
ーンであれば、雑音を的確に除去して登録パターンを出
力できる一方、そのニューラルネットワークに対応しな
いパターンであれば、登録パターンでないと認識して登
録パターンとは異なるパターンを出力することが開示さ
れている。しかし、この公報の場合は、ニューラルネッ
トワークを用いた特殊な音声波形自体の補償処理であ
り、この情報の場合も上記特開平０６−６７６９０号公
報の場合と同様に、上記課題に対する解決策の指針にな
らない。

【００１６】この発明は、上記従来の課題を解決するた
めになされたもので、利用者は複雑な登録を全く必要と
することなく、背景雑音を測定して、自動的、かつ簡便
に複数の音響モデルを選択することによりノイズ環境環
境下でもさらに高精度の音声認識が可能となる音声認識
装置を提供することを目的とする。

【００１７】

【課題を解決するための手段】上記目的を達成するため
に、この発明の音声認識装置は、２セット以上の不特定
話者用サブワード音響モデルを収録した音響モデルバッ
ファと、マイクロフォンから集音した音声データから音
響特徴量を算出する音響特徴量算出手段と、音声認識時
に上記音響特徴量算出手段により算出された音響特徴量
に対して上記音響モデルバッファに収録された音響モデ
ルと認識語彙にしたがって音声認識を行って、上記算出
された音響特徴量に対するノイズ補償機能を呈するノイ
ズ補償手段と、上記音声の非認識時に環境ノイズを判定
して上記音響モデルバッファに収録された音響モデルを
選択する音響モデル選択手段とを備えることを特徴とす
る。

【００１８】

【発明の実施の形態】以下、この発明による音声認識装
置の実施の形態について図面に基づき説明する。図１は
この発明による第１実施の形態の構成を示すブロック図
である。この図１において、マイクロフォン１０１から
入力された音声はアナログの電気信号（音声信号）に変
換され、この音声信号は、Ａ／Ｄ（アナログ／ディジタ
ル）変換器１０２に入力されて、ディジタル信号に変換
される。このＡ／Ｄ変換に際して、たとえば、１２ＫHz
でサンプリングされてディジタル化され、フレーム生成
部１０３に入力される。

【００１９】フレーム生成部１０３において、１０ｍｓ
ｅｃごとに長さ２５ｍｓｅｃの音声フレームに変換され
る。つまり、隣り合う音声フレーム間は１５ｍｓｅｃで
オーバラップするようになっている。フレーム生成部１
０３で生成された音声フレームは次段のパワースペクト
ル算出部１０４でパワースペクトルに変換される。この
第１実施の形態では、パワースペクトル算出部１０４に
よる音響特徴量の算出にパワースペクトルを算出する場
合を例示している。これらのＡ／Ｄ変換器１０２と、フ
レーム生成部１０３と、パワースペクトル算出部１０４
とにより、音響特徴量算出手段を構成している。

【００２０】このパワースペクトル算出部１０４の出力
端は、音響モデルの切替スイッチとしてのスイッチＳ１
の可動端子Aに接続されている。スイッチＳ１は上記固
定端子Ａの他に二つの固定端子B、Cを有しており、固定
端子Ｃは平均スペクトル算出部１０５の入力端に接続さ
れている。固定端子Ｂは、マッチング部１０９の入力端
に接続されている。スイッチＳ１の可動端子Ａは音声区
間判定部１１０の出力により、固定端子Ｂから固定端子
Ｃに切り替え、かつ固定端子Ｃから固定端子Ｂに切り替
るようになっている。

【００２１】すなわち、この音声区間判定部１１０は、
パワースペクトル算出部１０４で音声フレームから算出
されたパワースペクトルから音声が発話されているか、
否かの判断を行い、音声を認識していない間は、音声ス
ペクトルから背景ノイズを測定するために音声区間判定
部１１０から指示がスイッチＳ１に出力され、スイッチ
Ｓ１の可動端子Aを固定端子C側に切り替え、パワースペ
クトルが平均スペクトル算出部１０５に送出されるよう
にしている。音声区間判定部１１０がパワースペクトル
から発話による音声データ含まれていると判定すると、
音声区間判定部１１０はスイッチＳ１の可動端子Aを固
定端子Cから固定端子B側に切り替え、パワースペクトル
算出部１０４からスイッチＳ１の可動端子Aと固定端子C
を通して、パワースペクトルがマッチング部１０９に送
出されることになる。平均スペクトル算出部１０５で
は、パワースペクトルから次の式（１）のように音声ス
ペクトルの平均スペクトルを求める。

【００２２】

【数１】Ｍ（ｔ）＝ｓ＊Ｍ（ｔ-１）＋（１-ｓ）Ｘ（ｔ）………（１）ここで、Ｍ（ｔ）は時刻ｔにおける平均スペクトルであ
る。Ｘ（ｔ）は時刻ｔにおける観測スペクトルである。
ｓは１以下の正の実数で、０．９に設定される。

【００２３】平均スペクトル算出部１０５で算出された
平均スペクトルＭ（ｔ）は、音響モデル決定部１０６に
送出される。この音響モデル決定部１０６は、あらかじ
め求められたＮ（正の整数）種類の音響モデルに対応す
るＮ個のノイズの平均スペクトルＭ’（１）…Ｍ’
（Ｎ）と比較して、次の式（２）のような音響モデルｋ
（ｔ）を選択する。

【００２４】

【数２】ｋ（ｔ）＝ａｒｇｍａｘ｛Ｍ（ｔ）-Ｍ’（ｋ）｝＊｛Ｍ（ｔ）-Ｍ’（ｋ）｝ ……（２）ここで、１≦ｋ≦Ｎである。

【００２５】この音響モデル決定部１０６で選択された
音響モデルｋにより時刻ｔにおける適切な音響モデルが
音響モデルバッファ１０７に収納されている音響モデル
を決定する。２セット以上の不特定話者用サブワード音
響モデルを収録した音響モデルバッファと、音声に対す
る単語を認識するための認識語彙を収録した認識語彙辞
書と、マイクロフォンから収音した音声データから音響
特徴量を算出する音響特徴量算出手段と、音声認識時に
上記音響特徴量算出手段により算出された音響特徴量に
対して上記音響モデルバッファに収録された音響モデル
と上記認識語彙辞書に収録された認識語彙にしたがって
音声認識を行って、入力音声に対するノイズ補償機能を
呈するノイズ補償手段と、上記音声区間判定部１１０
と、平均スペクトル算出部１０５と、スイッチＳ１と、
音響モデル決定手段１０６とにより、音響モデル選択手
段手段を構成している。この音響モデルの選択の際に、
ユークリッド距離を利用して音響モデルを選択するよう
にしている。

【００２６】この音響モデルバッファ１０７から音響モ
デルを選択するために、音響モデルバッファ１０７に収
納される音響モデルに不特定話者用サブワード音響モデ
ルを利用する。この不特定話者用サブワード音響モデル
は、多数の話者から収集した大量の音声データから学習
され、想定されるノイズ環境における音声データをあら
かじめ大量に音響モデルバッファ１０７に収録してお
き、この音声データにノイズ処理を施して得られた大量
の音声データを用いて音響モデルを学習し、このように
して得られた不特定話者用サブワード音声モデルを認識
に用いることにより、利用者はノイズ環境での音声の登
録を行う必要がなくなる。

【００２７】また、この音響モデルの認識時における背
景ノイズの測定を行うためにマイクロフォン１０１から
集音する場合に、音声区間判定手段１１０を用いてスイ
ッチＳ１の可動端子Ａを固定端子Ｃ側に接続するように
切り替えているから、利用者の音声を含む音声区間をノ
イズの種類の判定に含めないことになる。したがって、
背景ノイズの判定精度をより一層高精度にすることがで
きる。

【００２８】次に、マイクロフォン１０１で集音され
て、Ａ／Ｄ変換器１０２で音声信号をディジタル変換
後、フレーム生成部１０３で音声フレームを生成し、そ
の音声フレームをパワースペクトル算出部１０４で変換
されたパワースペクトルに音声区間判定部１１０で音声
認識が判定されることにより、音声認識が始まると、音
声区間判定部１１０からスイッチＳ１に指示が出され
る。この指示により、スイッチＳ１の可動端子Ａは固定
端子Ｃから固定端子Ｂ側に切り替えられる。したがっ
て、パワースペクトル算出部１０４の出力端はスイッチ
Ｓ１の可動端子Ａと固定端子Ｂを通してマッチング部１
０９の入力端に接続され、上記音響モデルバッファ１０
７からの音響モデルの選択プロセスは停止する。

【００２９】パワースペクトル算出部１０４の出力端が
スイッチＳ１を通してマッチング部１０９の入力端に接
続されることにより、パワースペクトル算出部１０４か
ら出力されるパワースペクトルがマッチング部１０９に
入力される。このマッチング部１０９には、音声に対す
る単語を認識するために、認識語彙を収録した認識語彙
辞書１０８と上記音響モデルバッファ１０７も接続され
ている。これらのマッチング部１０９と、認識語彙辞書
１０８とにより、入力音声に対する認識を行って、入力
音声に対するノイズの補償を可能にするノイズ補償手段
としての機能を呈するようにしている。

【００３０】したがって、マッチング部１０９におい
て、パワースペクトル算出部１０４から出力されるパワ
ースペクトル、換言すれば、音響スペクトル列は認識語
彙辞書１０８の認識語彙と音響モデルバッファ１０７に
収録されているパワースペクトル算出部１０４から出力
される音響モデルにしたがって、各単語の認識スコアが
計算される。このスコアの計算の結果、最もスコアの良
い値が音響スペクトルの認識結果として、マッチング部
１０９から出力される。このように、第１実施の形態で
は、音声判定区間１１０を用いているから背景ノイズの
判定がさらに正確になり、その結果、より高精度な音声
認識が可能となる。

【００３１】なお、上述した第１実施の形態では、音声
の発話のない区間の平均パワースぺクトル量を求め、そ
の平均パワースぺクトル量に基いて音響モデルを選択し
た。しかしながら、次に説明する第２実施の形態のよう
に、音声の発話のない区間の平均パワースぺクトル量と
音声の発話のある区間の平均パワースぺクトル量の双方
を求め、これら双方の平均パワースぺクトル量からＳＮ
比を算出し、その算出されたＳＮ比に基いて音響モデル
を選択することも可能である。図２は、この発明による
第２実施の形態の構成を示すブロック図であり、図１に
対応する部材には３００番台の符号を付して、再度の詳
述を避け、図１とは異なる部分を主体に述べることにす
る。

【００３２】図２に示すように、パワースぺクトル算出
部３０４の出力端は平均スぺクトル算出部３０５の入力
端に接続され常時パワースぺクトルが平均スぺクトル算
出部３０５に供給されるように構成されている。スイッ
チＳ２は、パワースぺクトル算出部３０４の出力端に接
続された可動端子Ａ１とマッチング部３０９の入力端に
接続された固定端子Ｂ１を有しており、可動端子Ａ１と
固定端子Ｂ１の接続、非接続は、音声区間判定部３１０
による音声の発話の有無の判定結果によって制御される
ように構成されている。すなわち、音声区間判定部３１
０が音声の発話のある旨の判定時に、音声区間判定部３
１０からの指示によって可動端子Ａ１と固定端子Ｂ１を
接続状態に切り替えてパワースぺクトル算出部３０４か
ら出力されるパワースぺクトルがマッチング３０９に導
かれ、音声区間判定部３１０が音声の発話のない旨の判
定時には、音声区間判定部３１０からの指示によって可
動端子Ａ１と固定端子Ｂ１を非接続状態に切り替えてマ
ッチング３０９に対するパワースぺクトルの入力を停止
するようにしている。

【００３３】平均スぺクトル算出部３０５は、上記音声
区間判定手段１１０により上記音声の発話のない状態で
ある旨の判定時には、上記パワースぺクトル算出部３０
４から出力されるパワースぺクトルから音声のない区間
の平均スペクトル量Ｎ（Ｎはノイズの平均スぺクトル量
に相当）を算出するように構成されている。また、平均
スぺクトル算出部３０５は、上記音声区間判定手段１１
０による音声の発話の判定時には、パワースぺクトル算
出部３０４から出力されるパワースぺクトルから音声の
ある区間の平均スペクトル量（Ｓ＋Ｎ１）を算出するよ
うに構成されている（ただし、Ｓは音声の平均スペクト
ル量、Ｎ１はノイズの平均スぺクトル量に相当）。そし
て、平均スぺクトル算出部３０５は、上記平均スペクト
ル量Ｎと、平均スペクトル量（Ｓ＋Ｎ１）とに基いて次
の式（３）のようにＳＮ比を近似的に求めるように構成
されている。

【００３４】

【数３】２０＊ｌｏｇ１０（（Ｓ＋Ｎ１）−Ｎ）／Ｎ）［ｄＢ］……（３）

【００３５】音響モデル決定部３０６は、上記平均スペ
クトル算出部３０５の算出結果、すなわち上記ＳＮ比に
基いて上記音響モデルバッファ３０７に収録されている
音響モデルを選択するように構成されている。例えば、
高速道路用の音響モデルはＳＮ比が５ｄＢよりも小さい
場合、市街地走行用の音響モデルはＳＮ比が５ｄＢ以上
１０ｄＢ以下の場合、アイドリング時のノイズで学習し
た音響モデルはＳＮ比が１０ｄＢよりも大きい場合など
と関連づけて選択するようになっている。

【００３６】上述した第２実施の形態によれば、例えば
次のような問題を解決することができる。すなわち、比
較的静かな環境であっても話者の声が小さいと、ノイズ
が支配的になり、ノイズが大きな場合と同等の結果を招
き認識率が低下してしまうという問題が生じる。この場
合、第２実施の形態のようにＳＮ比に基いて音響モデル
を選択するようにすれば、話者の声が小さくても最適な
音響モデルを選択して決定することができ、上記問題を
解決することができる。

【００３７】なお、第１、第２実施の形態では、音響特
徴量にパワースペクトルを用いた場合の説明であるが、
メル周波数ケプストラムなどの他の音響特徴量を用いて
も、パワースペクトルを用いた場合と同様の効果が得ら
れる。また、上記第１、第２実施の形態では、マッチン
グ部１０９で単語認識を行っている場合の説明である
が、連続音声認識やキーワードスポッティングにおいて
も、この発明を容易に実施することができる。さらに、
音響モデルの選択の際に、上記第１実施の形態では、ユ
ークリッド距離を利用しているものとして説明を進めた
が、この発明では、バタチャリア距離や、マハラノビス
距離などを利用することもできる。

【００３８】また、この発明においては、音響モデルに
対する背景ノイズの種類は、音響モデル学習時にすべて
明らかであるから、背景ノイズの各種類に対して「晴れ
の高速道路」などと名前を付けて、音響モデル決定部１
０６の代わりに、手動型のロータリスイッチを設置する
ことによって、音響モデルとしてＨＭＭとすることもで
きる。

【００３９】次に、この発明による第３実施の形態につ
いて説明する。図３はこの発明による第３実施の形態の
構成を示すブロック図である。この図３に示す第３実施
の形態では、車中で使用されることを前提とした実施の
形態であって、図１に対応する部材には、２００番台の
符号を付して、再度の詳述を避け、図１とは異なる部分
を主体に述べることにする。

【００４０】この図３に示す第３実施の形態では、マイ
クロフォン２０１から収集したデータのうち、背景ノイ
ズを判断しない場合に、音響認識装置が移動体の速度を
測定して、その速度に合わせて音響モデルを選択するこ
とにより、背景ノイズの判定を大きく簡略化する場合に
適した実施の形態である。この図３を図１と比較しても
明らかなように、図３では図１で示した音響モデル選択
手段における音声区間判定部１１０とスイッチＳ１が省
略されている。

【００４１】これに伴い、図３では、パワースペクトル
算出部２０４から出力されるパワースペクトルは直接マ
ッチング部２０９に入力する構成としている。また、図
１では、音響モデル選択手段において、平均スペクトル
算出部１０５によりノイズの平均スペクトルに基づいて
音響モデルを決定していたのに対して、この図３では、
車速パルス測定部２０５により、移動体としての車量の
車速パルスを測定して、測定した車速パルスを背景ノイ
ズ判定部２０６に出力する。背景ノイズ判定部２０６は
車速パルスからノイズレベルを測定して、音響モデルバ
ッファ２０７に収録されている音響モデルを選択する。
すなわち、この第３実施の形態では、音響モデル選択手
段として、移動体速度検出手段としての車速パルス測定
部２０５と、背景ノイズ判定部２０６とにより構成して
いる。

【００４２】この車速パルス測定部２０５で得られた車
速パルスは、車両において測定できる信号であり、車両
では、タイアの回転数を周知の技術により測定できるた
め、車両のある程度の走行速度を計算することができ
る。車速パルス測定部２０５では、測定した車速パルス
から車両の速度を計算し、計算結果を背景ノイズ判定部
２０６に出力することにより、音響モデルバッファ２０
７にあらかじめ収録されている音響モデルを決定する。

【００４３】この際、音響モデルバッファアイドル２０
７は、あらかじめアイドリング状態のノイズを含む音声
を学習した音響モデル、市街地を走行した際のノイズを
含む音声を学習した音響モデルの３種類の音響モデルを
保存している。したがって、車速パルス測定部２０５で
測定した車速パルスにより推定された車両の速度から音
響ノイズ判定部２０６は音響モデルバッファ２０７から
適切な音響モデルを決定する。このように、第３実施の
形態では、マイクロフォン２０１から集音される音声信
号に対する背景ノイズを判定しない場合に、移動体の速
度を測定して、その速度に合わせて音響モデルを選択す
ることにより、背景ノイズの判定を簡略化することがで
きる。

【００４４】なお、この第３実施の形態では、音響モデ
ルバッファ２０７に収録されている音響モデルは３種類
の場合について説明しているが、音響モデルの種類の増
減は可能である。また、この第３実施の形態では、車両
の走行状態は、車速パルス想定部２０５により、車速パ
ルスを測定するようにしているが、ＧＰＳ（Global Po
sitioning System）による測位情報や、車両自体から
の情報の入力なども利用可能である。さらに、この第３
実施の形態では、マイクロフォン２０１から収集したデ
ータのうち、背景ノイズを判断しない場合に、車両の速
度を測定して、その速度に合わせて音響モデルを選択す
ることにより、背景ノイズの判定を大きく簡略化する場
合に適した実施の形態として説明してきたが、マイクロ
フォン２０１から集音された音声信号の各単語をマッチ
ング部２０９で上記第１実施の形態と同様に認識するこ
とができるのは、いうまでもない。

【００４５】

【発明の効果】以上のように、この発明によれば、２セ
ット以上の不特定話者用サブワード音響モデルを音響モ
デルバッファに収録しておき、環境ノイズ測定手段によ
り測定した環境ノイズに応じて自動的に複数の音響モデ
ルを選択するようにしたので、ノイズ環境からでも高精
度に音声認識が可能となるとともに、利用者は複雑な登
録を全く必要としないために、簡便に音声認識装置を使
用することができる。

【図面の簡単な説明】

【図１】この発明による音声認識装置の第１実施の形態
の構成を示すブロック図である。

【図２】この発明による音声認識装置の第２実施の形態
の構成を示すブロック図である。

【図３】この発明による音声認識装置の第３実施の形態
の構成を示すブロック図である。

【符号の説明】

１０１、２０１、３０１……マイクロフォン、１０２、
２０２、３０２……Ａ／Ｄ変換器、１０３、２０３、３
０３……フレーム生成部、１０４、２０４、３０４……
パワースペクトル算出部、１０５、３０５……平均スペ
クトル算出部、１０６、３０６……音響モデル決定部、
１０７、２０７、３０７……音響モデルバッファ、１０
８、２０８、３０８……認識語彙辞書、１０９、２０
９、３０９……マッチング部、１１０、３１０……音声
区間判定部、２０５……車速パルス、２０６……背景ノ
イズ判定部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者高橋良和東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 2F029 AA02 AB01 AB07 AB09 AC18 5D015 CC11 GG00 HH11 HH21 HH23 5H180 AA01 CC12 FF04 9A001 HH15 HH17 JJ78

Claims

【特許請求の範囲】

【請求項１】２セット以上の不特定話者用サブワード
音響モデルを収録した音響モデルバッファと、マイクロフォンから集音した音声データから音響特徴量
を算出する音響特徴量算出手段と、音声認識時に上記音響特徴量算出手段により算出された
音響特徴量に対して上記音響モデルバッファに収録され
た音響モデルと認識語彙にしたがって音声認識を行っ
て、上記算出された音響特徴量に対するノイズ補償機能
を呈するノイズ補償手段と、上記音声の非認識時に環境ノイズを判定して上記音響モ
デルバッファに収録された音響モデルを選択する音響モ
デル選択手段と、を備えることを特徴とする音声認識装置。
【請求項２】上記音響モデル選択手段は、上記音声認
識をしていない状態時に移動体の速度を測定する移動体
速度測定手段と、上記移動体速度測定手段により測定さ
れた移動体の速度に応じて環境ノイズを判定して、その
判定した環境ノイズに応じて上記音響モデルバッファか
ら音響モデルを選択する背景ノイズ判定部とを備えるこ
とを特徴とする請求項１記載の音声認識装置。
【請求項３】移動体速度測定手段は、車両の走行速度
を測定して車速に応じたパルスを発生する車速パルス測
定部であることを特徴とする請求項２記載の音声認識装
置。
【請求項４】移動体速度測定手段は、ＧＰＳによる測
位情報を利用することを特徴とする請求項２記載の音声
認識装置。
【請求項５】上記音響モデル選択手段は、上記マイク
ロフォンにより集音した音声データから音声の発話の有
無を判定する音声区間判定部と、上記音声区間判定部に
より上記音声の発話のない状態である旨の判定時に上記
音響特徴量算出手段から出力される上記音響特徴量から
上記音声のない区間の平均スペクトル量を算出する平均
スペクトル算出部と、上記平均スペクトル算出部の算出
結果により上記音響モデルバッファに収録されている音
響モデルを選択する音響モデル決定部と、上記音声区間
判定部により上記音声の発話のない状態である旨の判定
時に上記音声区間判定部により上記上記音響特徴量算出
手段から出力される上記音響特徴量を上記平均スペクト
ル算出部に導き、かつ上記音声区間判定部により上記音
声の発話の判定時に上記音声区間判定部により上記上記
音響特徴量算出手段から出力される上記音響特徴量を上
記ノイズ補償手段に導くように切り替るスイッチとを備
えることを特徴とする請求項１記載の音声認識装置。
【請求項６】上記音響モデル決定部は、上記平均スペ
クトル算出部の算出結果により上記音響モデルバッファ
にあらかじめ収録されているアイドリング状態のノイズ
を含む音声を学習した第１の音響モデルと、市街地を走
行した際のノイズを含む音声を学習した第２の音響モデ
ルと、高速道路を走行した際のノイズを含む音声を学習
した第３の音響モデルとのうちの所定の音響モデルを決
定することを特徴とする請求項５記載の音声認識装置。
【請求項７】上記音響モデル決定部は、手動によるロ
ータリスイッチを用いることを特徴とする請求項５記載
の音声認識装置。
【請求項８】上記音響モデル選択手段は、上記マイク
ロフォンにより集音した音声データから音声の発話の有
無を判定する音声区間判定部と、上記音声区間判定部に
より上記音声の発話のない状態である旨の判定時に上記
音響特徴量算出手段から出力される上記音響特徴量から
上記音声のない区間の平均スペクトル量を算出し、上記
音声区間判定部による音声の発話の判定時に上記音響特
徴量算出手段から出力される上記音響特徴量から上記音
声のある区間の平均スペクトル量を算出し、かつ上記音
声のない区間の平均スぺクトル量、すなわちノイズの平
均スぺクトル量と、上記音声のある区間の平均スぺクト
ル量、すなわちノイズおよび音声の和の平均スぺクトル
量とに基いてＳＮ比を算出する平均スペクトル算出部
と、上記平均スペクトル算出部の算出結果により上記音
響モデルバッファに収録されている音響モデルを選択す
る音響モデル決定部と、上記音声区間判定部により上記
音声の発話の判定時にのみ上記音声区間判定部により上
記音響特徴量算出手段から出力される上記音響特徴量を
上記ノイズ補償手段に導くように切り替るスイッチとを
備えることを特徴とする請求項１記載の音声認識装置。
【請求項９】上記音響モデル決定部は、上記平均スペ
クトル算出部の算出結果により上記音響モデルバッファ
にあらかじめ収録されているアイドリング状態のノイズ
を含む音声を学習した第１の音響モデルと、市街地を走
行した際のノイズを含む音声を学習した第２の音響モデ
ルと、高速道路を走行した際のノイズを含む音声を学習
した第３の音響モデルとのうちの所定の音響モデルを決
定することを特徴とする請求項８記載の音声認識装置。
【請求項１０】上記音響モデル決定部は、手動による
ロータリスイッチを用いることを特徴とする請求項８記
載の音声認識装置。
【請求項１１】上記ノイズ補償手段は、音声に対する
単語を認識するための認識語彙を収録した認識語彙辞書
と、上記音声認識時に上記音響特徴量算出手段により算
出された音響特徴量に対して上記音響モデルバッファに
収録された音響モデルと上記認識語彙辞書に収録された
認識語彙にしたがって上記算出された音響特徴量に対す
るノイズ補償機能を呈するマッチング部とを備えること
を特徴とする請求項１記載の音声認識装置。
【請求項１２】上記音響特徴量は、メル周波数ケプス
トラムであることを特徴とする請求項１記載の音声認識
装置。
【請求項１３】上記音響特徴量算出手段は、上記マイ
クロフォンから収集された音声データをディジタル信号
に変換するアナログ／ディジタル変換器と、上記アナロ
グ／ディジタル変換器の出力信号を所定の時間間隔で所
定の長さの時間でフレーム化するフレーム生成部と、上
記フレーム生成部で生成されたフレームごとのパワース
ペクトルを算出するパワースペクトル算出部とを備える
ことを特徴とする請求項１記載の音声認識装置。
【請求項１４】上記音響モデルは、利用者により切り
替えることを特徴とする請求項１記載の音声認識装置。
【請求項１５】上記音響モデルは、ＨＭＭであること
を特徴とする請求項１記載の音声認識装置。