JP3826032B2

JP3826032B2 - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP3826032B2
Application number: JP2001401615A
Authority: JP
Inventors: 亮典小柴
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-12-28
Filing date: 2001-12-28
Publication date: 2006-09-27
Anticipated expiration: 2021-12-28
Also published as: US7447634B2; EP1326233A2; US7260527B2; US20030125943A1; US7415408B2; EP1326233A3; JP2003202887A; US20070233476A1; US20070233475A1; US7409341B2; US20070233480A1

Description

【０００１】
【発明の属する技術分野】
本発明は、認識対象語彙以外の環境雑音をリジェクトするものに好適な音声認識装置、音声認識方法及び音声認識プログラムに関する。
【０００２】
【従来の技術】
近年、音声認識技術の性能向上に伴い、実環境における音声認識エンジンの実用が活発になってきている。特に、カーナビゲーションシステムやモバイル機器など入力装置が限定されるような状況において、音声認識への期待は大きい。このような環境で音声認識に強く望まれる機能のひとつとして、音声を常時取り込み、予め登録されている語彙が入力された場合にのみ所定の処理に移行するハンズフリー機能が挙げられる。
【０００３】
実環境における音声の常時取り込みを行う場合、例えばカーナビゲーションシステムでは、走行雑音、クラクション、他の車の走行音など、さまざまな環境雑音が認識エンジンに入力される。このため音声認識エンジンには、利用者の発声を正しく認識すると同時に、さまざまな環境雑音などの非音声をリジェクトする機能が要求されることになる。
【０００４】
従来の音声認識装置においては、音素モデルを基に作成した認識対象語彙と入力音声から抽出した特徴量とを比較し、比較結果の数値（以下、尤度という）が最も高い値の語彙を音声認識結果として出力する。このとき、認識対象語彙が入力された時の尤度と環境雑音が入力された時の尤度を比較すると、環境雑音等の入力に対しては、尤度が比較的小さな値となる。従って、所定の閾値を設定することで、非音声をリジェクトすることができる。しかしながら、その一方で、実環境が認識対象語彙を作成した環境と異なる場合には、認識対象語彙が入力された場合にも尤度が小さくなることがあり、認識対象語彙までリジェクトしてしまうことがある。
【０００５】
そこで、音声認識エンジンへの非登録語彙の入力をリジェクトする手法として、電子情報通信学会論文誌、Ｄ−ＩＩ、Ｖｏｌ．Ｊ７５−Ｄ−ＩＩ、Ｎｏ．１２、ｐｐ．２００２−２００９に掲載された「音節認識を用いた尤度補正による未知発話のリジェクション」（以下、文献１と称す）に述べられて方法が採用されることがある。
【０００６】
この文献１の方法は、入力音声を認識対象語彙と照合して尤度を計算するのと同時に、予め記憶されている認識単位に対して音素モデルの全てを用いて、最適音素系列を求め尤度を得る。
【０００７】
この場合、実環境が認識対象語彙及び予め記憶されている認識単位である音素モデルを作成した環境と異なる場合であっても、入力音声に生じた環境の影響は最適音素系列の尤度にも認識対象語彙の尤度にもどちらにも現れるので、最適音素系列の尤度から認識対象語彙との照合によって求めた尤度を引いた値は、殆ど変化しないものと考えることができ、確実なリジェクションが可能である。
【０００８】
しかしながら、入力される音声が未知発話の場合には問題ないが、音素モデルにない例えばクラクションの音等の場合には、最適音素系列の尤度も認識語彙の尤度も極めて小さな値となってしまう。この場合、最適音素系列の尤度と認識語彙の尤度の差が相対的に小さくなることがある、このような場合には、閾値判定ではリジェクトすることはできない。
【０００９】
更に、特開平１１−２８８２９５号公報にて開示された「音声認識雑音除去方式」（以下、文献２と称す）が採用されることがある。この提案では、予め認識対象となる単語群を認識対象語彙として記憶するのと同時に、雑音と誤認識されやすい単語群をも環境雑音を考慮した認識対象語彙として記憶するようになっている。
【００１０】
そして、文献２の方法では、入力された音声と記憶されたこれらの認識対象語彙との照合の結果、照合尤度が最大となる単語が認識対象語彙内の単語であればそのまま認識結果を出力し、逆に、環境雑音を考慮した認識対象語彙内の単語であれば入力された音声を雑音と判断してリジェクト判定するようになっている。
【００１１】
しかしながら、この提案では、認識対象となる単語群に加えて雑音と誤認識されやすい単語群を環境雑音を考慮した認識対象語彙として記憶させる必要がある。音声認識が使用される環境が不特定である場合には、全ての雑音環境に対して雑音と誤認識されやすい単語を準備することは実質的に不可能である。
【００１２】
【発明が解決しようとする課題】
このように、上述した従来の音声認識装置においては、不特定の雑音下で使用される場合には、音声を含まない環境雑音のみの入力に対して十分なリジェクト性能が得られないという問題点があった。
【００１３】
本発明はこのような事情を考慮してなされたもので、雑音環境によらず高い精度で雑音による誤動作を防止することができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
【００１４】
【課題を解決するための手段】
本発明に係る音声認識装置は、入力される信号から音声区間を検出する音声区間検出部と、入力音声を分析して音声の特徴を表す特徴量時系列を抽出する特徴量抽出部と、予め定めた認識対象語彙を記憶する認識対象語彙記憶部と、前記認識対象語彙記憶部に記憶された認識対象語彙毎に前記特徴量抽出部で求まる特徴量時系列と比較照合し登録語彙尤度を求める認識対象語彙照合部と、認識単位標準パターンを記憶する認識単位標準パターン記憶部と、前記認識単位標準パターン記憶部に記憶された前記認識単位標準パターンのうち環境雑音に適応した１つ以上の認識単位標準パターンを選択する環境適応認識単位選択部と、前記環境適応認識単位選択部で選択された前記１つ以上の認識単位標準パターンを連結させて前記特徴量抽出部で求まる特徴量時系列と比較照合し環境雑音尤度を求める環境適応雑音モデル照合部と、前記認識対象語彙照合部で求めた登録語彙尤度と前記環境適応雑音モデル照合部で得られた環境雑音尤度とに基づいて、入力が雑音であるか否かを判定するリジェクト判定部とを具備し、前記環境適応認識単位選択部は、前記リジェクト判定部により入力された信号が雑音であると判定された場合には、入力信号に適応して前記認識単位標準パターン記憶部に記憶された標準パターンを選択しなおすことを特徴とする。
【００１５】
本発明の請求項１において、入力された信号は、音声区間検出部によって音声区間が検出される。特徴量抽出部は、入力音声を分析して音声の特徴を表す特徴量時系列を抽出する。認識対象語彙照合部は、認識対象語彙記憶部に記憶された認識対象語彙毎に特徴量時系列と比較照合し、登録語彙尤度を求める。一方、環境適応雑音モデル記憶部は、環境雑音に適応した環境適応雑音モデルを記憶している。環境適応雑音モデル照合部は、環境適応雑音モデルを特徴量時系列と比較照合して環境雑音尤度を求める。登録語彙尤度と環境雑音尤度とはリジェクト判定部において比較されて、これにより、入力が雑音であるか否かが判定される。雑音モデル適応部は、リジェクト判定部により入力された信号が雑音であると判定された場合には、入力信号に適応して環境適応雑音モデルを更新する。これにより、環境適応雑音モデルは実環境に即したものとなる。
【００１６】
本発明の請求項３において入力された信号は、音声区間検出部によって音声区間が検出される。特徴量抽出部は、入力音声を分析して音声の特徴を表す特徴量時系列を抽出する。認識対象語彙照合部は、認識対象語彙記憶部に記憶された認識対象語彙毎に特徴量時系列と比較照合し、登録語彙尤度を求める。一方、認識単位標準パターン記憶部は、認識単位標準パターンを記憶する。環境適応認識単位選択部は、記憶されている認識単位標準パターンのうち環境雑音に適応した１つ以上の認識単位標準パターンを選択する。選択された１つ以上の認識単位標準パターンは連結され、環境適応雑音モデル照合部において、特徴量時系列と比較照合されて環境雑音尤度が得られる。登録語彙尤度と環境雑音尤度とはリジェクト判定部において比較されて、これにより、入力が雑音であるか否かが判定される。環境適応認識単位選択部は、リジェクト判定部により入力された信号が雑音であると判定された場合には、入力信号に適応して、認識単位標準パターン記憶部に記憶された標準パターンを選択しなおす。これにより、選択されて連結された認識単位標準パターンは実環境に即したものとなる。
【００１７】
なお、装置に係る本発明は方法に係る発明としても成立する。
【００１８】
また、装置に係る本発明は、コンピュータに当該発明に相当する処理を実行させるためのプログラムとしても成立する。
【００１９】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は本発明の一実施の形態に係る音声認識装置を概略的に示すブロック図である。
【００２０】
本実施の形態は認識対象となる単語群を認識対象語彙として記憶するのと共に、環境に適応した雑音のモデル（以下、環境適応雑音モデルという）を記憶するようになっている。そして、環境適応雑音モデルをリジェクト判定結果に基づいて適応的に更新することにより、全ての実環境における環境雑音を考慮したリジェクト性能を得るようにしたものである。
【００２１】
図１において、音声区間検出部１０１は、入力された信号を分析して音声区間を検出し、検出した音声区間の信号を特徴量抽出部１０２に出力する。特徴量抽出部１０２は、入力された音声区間の信号を音響分析することにより、特徴量の時系列を抽出する。
【００２２】
例えば、特徴量抽出部１０２は、入力音声を予め定められた複数の周波数帯域毎に周波数分析し、各周波数帯毎の分析結果を特徴ベクトル（特徴パラメータ）として得る。特徴ベクトル（特徴パラメータ）はフレームと呼ばれる固定の時間長を単位に求められ、特徴量抽出部１０２は音声区間の特徴ベクトル系列（特徴ベクトル時系列）を得る。特徴量抽出部１０２によって抽出された特徴量の時系列は、認識対象語彙照合部１０４及び環境適応雑音モデル照合部１０６に供給される。
【００２３】
なお、音声認識に使用される代表的な特徴ベクトルとしては、バンドパスフィルタ又はフーリエ変換によって得られるパワースペクトラムや、ＬＰＣ（線形予測）分析によって求められるケプストラム計数等が良く知られている。ただし、本実施の形態では、使用する特徴ベクトルの種類は問わない。
【００２４】
認識対象語彙記憶部１０３は、認識対象となる単語群である認識対象語彙を記憶する。この認識対象語彙は音素モデルを基にして作成されたものである。認識対象語彙照合部１０４は、認識対象語彙記憶部１０３から認識対象語彙を読出し、認識対象語彙毎に特徴量抽出部１０２で得られた特徴量の時系列とを照合して尤度（以下、登録語彙尤度という）を求める。認識対象語彙照合部１０４は求めた登録語彙尤度をリジェクト判定部１０７に出力する。
【００２５】
なお、照合尤度の計算方法としては、電子情報通信学会、中川聖一著「確率モデルによる音声認識」（以下、文献３と称す）に詳細に記載されているようなＨＭＭに基づく方法や、ＤＰマッチングに基づく方法等を用いることができる。
【００２６】
一方、環境適応雑音モデル記憶部１０５は、予め環境に適応した雑音モデル（環境適応雑音モデル）を記憶している。環境雑音モデルとしては種々のものが考えられる。例えば、環境雑音モデルとして単語（語彙）の集合であってもよく、上述した文献３のＨＭＭであってもよく、平均μと分散σとで表されるガウス分布であってもよく、ＧＭＭであってもよく、また、離散モデルであってもよい。
【００２７】
環境適応雑音モデル照合部１０６は、環境適応雑音モデル記憶部１０５から読出した環境適応雑音モデルと特徴量抽出部１０２で得られた特徴量の時系列とを照合して尤度（以下、環境雑音尤度という）を求める。環境適応雑音モデル照合部１０６は求めた環境雑音尤度をリジェクト判定部１０７に出力する。
【００２８】
リジェクト判定部１０７は、認識対象語彙照合部１０４からの登録語彙尤度と環境適応雑音モデル照合部１０６からの環境雑音尤度とを比較して、入力音声のリジェクト判定を行う。例えば、リジェクト判定部１０７は、登録語彙尤度と環境雑音尤度とを大小比較し、登録語彙尤度の方が大きい場合には選択された認識対象語彙を音声認識結果として出力し、環境雑音尤度の方が大きい場合には入力音声は雑音であるものと判断してリジェクトする。
【００２９】
本実施の形態においては、リジェクト判定部１０７は、判定結果を雑音モデル適応部１０８に出力するようになっている。雑音モデル適応部１０８は、入力音声が雑音であると判定された場合には、環境適応雑音モデル記憶部１０５に記憶された環境適応雑音モデルを入力に応じて適応的に更新するようになっている。
【００３０】
例えば、リジェクト判定部１０７は、環境適応雑音モデル記憶部１０５に記憶されている環境雑音モデルを、入力音声の特徴量の時系列（特徴ベクトル時系列）に一致させる。
【００３１】
次に、このように構成された実施の形態の動作について図２の説明図を参照して説明する。図２は環境適応雑音モデルをガウス分布によって表した例を示している。
【００３２】
音声区間検出部１０１において検出された音声区間の信号は、特徴量抽出部１０２に与えられて、予め定められた複数の周波数帯域毎に周波数分析される。これにより、特徴量抽出部１０２は、入力音声を特徴ベクトル系列（特徴ベクトル時系列）に変換して、認識対象語彙照合部１０４及び環境適応雑音モデル１０６に供給する。
【００３３】
認識対象語彙照合部１０４は、認識対象語彙記憶部１０３に記憶された認識対象語彙毎に入力された特徴ベクトル時系列との間で照合を行い、登録語彙尤度を算出する。
【００３４】
一方、環境適応雑音モデル照合部１０６は、環境適応雑音モデル記憶部１０５に記憶されている環境適応雑音モデルを読出して、入力された特徴ベクトル時系列との間で環境雑音尤度を計算する。
【００３５】
認識対象語彙照合部１０４及び環境適応雑音モデル照合部１０６において算出された照合尤度はリジェクト判定部１０７に供給される。リジェクト判定部１０７は、例えば登録語彙尤度と環境雑音尤度との大小関係を比較することでリジェクト判定を行う。
【００３６】
例えば、上記文献３に示されるＨＭＭを基づく方法を採用した場合には、認識対象語彙 i の登録語彙尤度をＳｉ、環境適応雑音モデルを用いた環境雑音尤度をＳｎｓとし、登録語彙尤度Ｓｉのうち最大値ｍａｘ（Ｓｉ）（最大登録語彙尤度）を与える認識対象語彙を選択し、選択した登録対象語彙の登録語彙尤度Ｓｉが環境雑音尤度Ｓｎｓよりも大きい場合には、入力音声は雑音ではないものと判定し、選択した認識対象語彙を音声認識結果として出力する。
【００３７】
逆に、リジェクト判定部１０７は、環境雑音尤度Ｓｎｓが最大登録語彙尤度Ｓｉよりも大きい場合には、入力音声は雑音であるものと判定して、入力音声をリジェクトする。
【００３８】
本実施の形態においては、リジェクト判定部１０７の判定結果は雑音モデル適応部１０８に供給される。雑音モデル適応部１０８は、環境雑音モデルが環境雑音に対して適応するように更新する。
【００３９】
いま、環境適応雑音モデルが例えば図２に示すガウス分布（平均μ、分散σ）で表されるものとする。図２の細線は環境適応雑音モデルの分布を示し、太線は入力音声の分布をしている。図２の細線にて示す環境適応雑音モデルに対して太線で示す入力音声が入力されたことによって、リジェクト判定部１０７が入力音声は雑音であることを判定するものとする。図２の状態では、図２の斜線領域に分布する入力音声については、環境雑音尤度Ｓｎｓは小さな値となり、本来リジェクトされるべきものであるにも拘わらず、リジェクト判定部１０７においてリジェクトされない。
【００４０】
しかし、本実施の形態においては、雑音モデル適応部１０８が環境適応雑音モデルを適応的に変化させている。例えば、雑音モデル適応部１０８は、環境適応雑音モデルを入力音声に一致させる。即ち、雑音モデル適応部１０８は、リジェクト判定部１０７によって雑音と判定された入力音声に対して、特徴量時系列の平均と分散を計算し、環境適応雑音モデル記憶部１０５に記憶されている環境適応雑音モデルの平均と分散の値を計算した値に置き換える。つまり、この場合には、図２の細線の分布は太線の分布に一致することになる。
【００４１】
そうすると、以後、図２の太線内の斜線部に分布する入力音声についても、リジェクト判定部１０７によってリジェクト判定されることとなる。
【００４２】
このように、本実施の形態においては、所定の雑音モデルを判定結果に基づいて適応的に更新しており、実環境に即した雑音モデルを用いたリジェクト判定を可能にすることができる。音声信号が雑音であると判定された場合には、雑音モデルを環境に適応させることにより、予め雑音モデルを学習した環境と異なる不特定の環境下でも、高い精度で雑音入力をリジェクトすることが可能になる。これにより、雑音環境によらず高い精度で雑音による誤動作を防止することができる。
【００４３】
なお、本実施の形態においては、環境適応雑音モデル及び環境適応の方法について限定されるものではない。
【００４４】
図３は本発明の第２の実施形態に係る音声認識装置を概略的に示すブロック図である。図３において図１と同一の構成要素には同一符号を付して説明を省略する。
【００４５】
第１の実施の形態においては、雑音モデル適応部１０８は、予め記憶された雑音モデルを入力雑音に応じて更新することにより環境雑音に適応させるようになっている。これに対し、本実施の形態は、予め認識単位標準パターンを記憶しておき、この認識単位標準パターンの中から環境雑音に一致するパターンを選択することで環境適応するようになっている。
【００４６】
本実施の形態は、図１における環境適応雑音モデル記憶部１０５及び雑音モデル適応部１０８に代えて、認識単位標準パターン記憶部２０５及び環境適応雑音モデル選択部２０８を設けた点が第１の実施の形態と異なる。
【００４７】
認識単位標準パターン記憶部２０５には、音素モデルの集合であり、予め認識の単位となる標準パターンが登録されている。認識単位となる標準パターンを表すモデルとしては、文献３に示されたＨＭＭを用いることができる。
【００４８】
環境適応雑音モデル選択部２０８は、リジェクト判定部１０７によって入力音声が雑音であるものと判定された場合には、認識単位標準パターン記憶部２０５から読出す標準パターンの選択を変更して、以後環境適応雑音モデル照合部１０６に与えるようになっている。
【００４９】
例えば、環境適応雑音モデル選択部２０８は、リジェクト判定部１０７において入力音声が雑音であると判定された場合には、特徴量抽出部１０２で求まる特徴量時系列と認識単位標準パターン記憶部２０５に記憶された認識単位標準パターンとの間で照合を行って尤度を計算し、尤度の大小関係に応じて認識単位標準パターンを順位付け、順位が上位のパターンから予め定められた個数だけ選択するようになっている。
【００５０】
なお、環境適応雑音モデル照合部１０６は、環境適応雑音モデル選択部２０８で選択された複数の認識単位標準パターンを連結させて、新たな入力に対して環境雑音尤度を算出するようになっている。
【００５１】
次に、このように構成された実施の形態の動作について説明する。
【００５２】
いま、リジェクト判定部１０７において、入力音声が雑音であると判定されるものとする。この判定結果は環境適応雑音モデル選択部２０８に与えられる。環境適応雑音モデル選択部２０８は、認識単位標準パターン記憶部２０７から選択するパターンを変更する。
【００５３】
例えば、環境適応雑音モデル選択部２０８は、入力音声の特徴量時系列と認識単位標準パターン記憶部２０５に記憶された認識単位標準パターンとの間で照合を行って尤度を計算する。そして、尤度の大小関係に応じて認識単位標準パターンを順位付け、順位が上位のパターンから予め定められた個数だけ選択する。これにより、環境適応雑音モデルは、入力音声の特徴量時系列に近似したパターンに変化する。
【００５４】
こうして、以後、環境適応雑音モデルは、実環境に即したものとなる。環境適応雑音モデル照合部１０６は、選択された複数の認識単位標準パターンを連結させて、環境雑音尤度を算出する。これにより、リジェクト判定部１０７によって入力雑音を確実にリジェクトすることが可能となる。
【００５５】
このように、本実施の形態においては、認識単位標準パターンから所定個数のパターンを選択することで環境適応雑音モデルを作成し、リジェクト判定された場合には、認識単位標準パターンの選択を適応的に変更することで、実環境に即した環境適応雑音モデルを得ている。これにより、雑音環境によらず高い精度で雑音による誤動作を防止することができる。
【００５６】
なお、本実施の形態においては、第１の実施の形態と異なり、認識単位標準パターンは音素モデルを基に作成しており、雑音モデルを新たに作成する必要はない。また、本実施の形態においては、音素モデルに基づく認識単位標準パターンの一部を選択することにより雑音モデルを作成しており、入力音声に拘わらず環境雑音尤度が登録語彙尤度よりも常に高い値になってしまうことはなく、確実なリジェクト判定が可能であるという利点を有する。
【００５７】
図４は本発明の第３の実施形態に係る音声認識装置を概略的に示すブロック図である。図４において図３と同一の構成要素には同一符号を付して説明を省略する。
【００５８】
本実施の形態は登録語彙尤度及び環境雑音尤度だけでなく、最適音素系列の照合によって求めた尤度（以下、最適尤度という）も用いることにより、リジェクト判定を一層確実に行うようにしたものである。
【００５９】
本実施の形態においては、特徴量抽出部１０２によって音声区間の信号から抽出された特徴ベクトル時系列は、認識対象語彙照合部３０３及び環境適応雑音モデル照合部３０５に与えられると共に、最適音素系列照合部３０４にも与えられる。
【００６０】
認識単位標準パターン記憶部２０５は、音素モデルの集合であり、認識単位となる標準パターンを記憶する。認識単位標準パターン記憶部２０５に記憶される認識単位標準パターンとしては、モノフォン、ダイフォンあるいはトライフォン等毎に予め学習された隠れマルコフモデル等を用いるのが代表的である。なお、本実施の形態では、使用する認識単位や認識単位標準パターンの種類は問わない。認識対象語彙記憶部１０３は、認識対象となる認識対象語彙を記憶するようになっている。
【００６１】
最適音素系列照合部３０４は、認識単位標準パターン記憶部２０５に記憶された認識単位標準パターンを語彙制約なしで連結させて、特徴量抽出部１０２から入力された特徴ベクトル時系列との間で照合尤度を求め、最大尤度（最適尤度）を与える認識単位標準パターンの連結結果とその最適尤度を出力する。最適音素系列照合部３０４の出力は登録語彙尤度補正／正規化部３０９、環境雑音尤度補正／正規化部３１１及び環境適応認識単位選択部３０８に供給される。
【００６２】
環境適応認識単位選択部３０８は、認識単位標準パターン記憶部２０５から、予め、実雑音環境において頻繁に出現する認識単位標準パターンを選択して環境適応雑音モデル照合部３０５に出力するようになっている。また、環境適応認識単位選択部３０８は、最適音素系列照合部３０４の出力、照合尤度によるリジェクト判定部３１２の判定結果及び環境適応雑音モデルによるリジェクト判定部３１３の出力に基づいて、選択する認識単位標準パターンを適応的に選択しなおすようになっている。
【００６３】
認識対象語彙照合部３０３は、認識対象語彙記憶部３０６に記憶された認識対象語彙毎に、認識単位標準パターン記憶部２０５に記憶された認識単位標準パターンを連結させて、最適音素系列照合部３０４から入力される最適音素系列照合の途中経過を用いて単語スポッティングを行い、特徴量抽出部１０２から入力される特徴ベクトル時系列との間で照合して尤度（登録語彙尤度）を求め、登録語彙尤度及びスポッティングによって得られた認識語彙の継続時間長を出力する。
【００６４】
図５は単語スポッティングの概念を示す説明図である。通常の会話等においては、登録語彙の前後に例えば無意味な音素列が付加されることがある。単位スポッティングは、入力音声から登録語彙を抽出する処理である。図５に示すように、認識対象語彙照合と同時及び前後のタイミングで最適音素系列照合を行うことで、登録語彙を抽出することができる。なお、単語スポッティングの手法としては、電子情報通信学会、中川聖一著「確率モデルによる音声認識」等に詳述されている方法を用いることができる。
【００６５】
登録語彙尤度補正／正規化部３０９は、認識対象語彙照合部３０３からの認識対象語彙毎の登録語彙尤度を、最適音素系列照合部３０４からの最適尤度及び認識対象語彙照合部３０３からの認識対象語彙毎の継続時間長を用いて補正及び正規化する。
【００６６】
図６は照合尤度補正／正規化の概念を説明するための説明図である。
【００６７】
図６では認識単位標準パターンとして音節を用いている。認識対象語彙照合部３０３では、最適音素系列照合部３０４の照合の途中経過を用いて、単語スポッティングにより登録語彙尤度を計算していることから、最適尤度Ｓｏｐｔと登録語彙尤度Ｓｉとの差を計算することにより、検出された発声区間の中で認識対象語彙に最もよくマッチする部分の照合スコアを求めることができる。
【００６８】
これをスポッティングされた認識対象語彙の継続時間長Ｔｉで正規化することにより、発声区間中の認識対象語彙にマッチする区間の単位時間当たりの平均照合尤度（補正／正規化後の登録語彙尤度Ｐｉ＝（Ｓｏｐｔ−Ｓｉ）／Ｔｉ）を計算することができる。
【００６９】
ここで、補正／正規化尤度Ｐｉの値が小さいほど認識対象語彙のマッチング結果が、最適音素系列照合部のマッチング結果に近いと考えられるので、認識語彙らしいということになる。
【００７０】
認識結果決定部３１０は、登録語彙尤度補正／正規化部３０９からの認識対象語彙毎の補正／正規化された平均照合尤度同士を比較し、尤度の大小関係から認識対象語彙を決定する。照合尤度によるリジェクト判定部３１２は、認識結果決定部３１０によって決定された認識対象語彙についての補正／正規化照合尤度を、予め定めた閾値と比較し、その大小関係から入力された発声が雑音であるか否かを判定する。リジェクト判定部３１２は入力が音声であるものと判定した場合には決定された認識対象語彙を環境適応雑音モデルによるリジェクト判定部３１３に出力する。リジェクト判定部３１２からの判定結果は環境適応認識単位選択部３０８にも供給される。また、リジェクト判定部３１２は入力が雑音であるものと判定した場合には、リジェクト結果を出力する。
【００７１】
一方、環境適応雑音モデル照合部３０５は、環境適応認識単位選択部３０８によって選択された認識単位標準パターンを連結させて、最適音素系列照合部３０４から入力される最適音素系列照合の途中経過を用いて単語スポッティングを行い、特徴量抽出部１０２から入力された特徴ベクトル時系列との間で照合して尤度を求め、最大尤度となる認識単位標準パターンの連結結果の照合尤度（環境雑音尤度）及びその継続時間長を出力する。
【００７２】
環境雑音尤度補正／正規化部３１１は、環境適応雑音モデル照合部３０５からの環境雑音尤度を、最適音素系列照合部３０４からの最適尤度と環境適応雑音モデル照合部３０５からの環境適応雑音モデルの継続時間長とを用いて、図６と同様の手法によって補正／正規化する。環境雑音尤度補正／正規化部３１１は、補正／正規化後の環境雑音尤度を環境適応雑音モデルによるリジェクト判定部３１３に出力する。
【００７３】
環境適応雑音モデルによるリジェクト判定部３１３は、照合尤度によるリジェクト判定部３１２によって入力音声が雑音ではないと判断された場合に、補正／正規化後の登録語彙尤度と、補正／正規化後の環境雑音尤度とを比較し、両者の大小関係から入力された音声が認識対象語彙であるか雑音であるかを判定し、判定結果を環境適応認識単位選択部３０８に出力するようになっている。また、環境適応雑音モデルによるリジェクト判定部３１３は、登録語彙尤度の方が小さい場合には決定された認識対象語彙を音声認識結果として出力する。
【００７４】
環境適応認識単位選択部３０８は、照合尤度によるリジェクト判定部３１２又は環境適応雑音モデルによるリジェクト判定部３１３により入力音声が雑音であると判定された場合には、判定結果を受け取り、最適音素系列照合に基づく認識単位標準パターンの連結結果を用いて、環境適応認識単位選択部３０８によって選択された認識単位標準パターンの出現頻度を更新し、新たに認識単位標準パターンを選択しなおすようになっている。
【００７５】
次に、このように構成された実施の形態の動作について図７乃至図１０を参照して説明する。図７はリジェクト判定までの動作を説明するためのフローチャートであり、図８は環境適応雑音モデルによるリジェクト判定部の動作を説明するための説明図である。
【００７６】
図７のステップ４００において音声が入力される。音声区間の信号は、特徴量抽出部１０２において特徴ベクトル系列（特徴ベクトル時系列）に変換される。音声区間の特徴ベクトル時系列は、認識対象語彙照合部３０３、最適音素系列照合部３０４及び環境適応雑音モデル照合部３０５に供給される。
【００７７】
各照合部３０３，３０４，３０５において、予め認識単位標準パターン記憶部２０５に記憶されている認識単位標準パターンを連結したものと比較照合され、夫々尤度が計算される。
【００７８】
最適音素系列照合部３０４は、認識単位標準パターン記憶部２０５に記憶された認識単位標準パターンを語彙制約なしで連結し、特徴量抽出部１０２からの特徴ベクトル時系列との間で尤度を計算し、最大尤度を与える標準パターン連結結果及びその尤度（最適尤度）を出力する。なお、尤度計算の方法としては、上述したように認識単位標準パターンに隠れマルコフモデルを用いる場合には、Ｖｉｔｅｒｂｉアルゴリズム等が用いられる。
【００７９】
認識対象語彙照合部３０３は、認識単位標準パターン記憶部２０５に記憶された認識単位標準パターンを認識対象語彙記憶部１０３に記憶された認識対象語彙に基づいて連結し、最適音素系列照合部３０４から入力される最適音素系列照合の途中経過を用いて単語スポッティングを行い、特徴量抽出部１０２からの特徴ベクトル時系列との間で尤度を計算する。認識対象語彙毎の単語スポッティングによる照合尤度は、スポッティングによって求まる継続時間長と共に認識対象語彙補正／正規化部３０９に与えられる。
【００８０】
一方、環境適応雑音モデル照合部３０５は、認識単位標準パターン記憶部２０５に記憶された認識単位標準パターンのうち、予め環境適応認識単位選択部３０８において雑音環境に適応して選択された標準パターンのみを連結し、最適音素系列照合部３０４からの最適音素系列照合の途中経過を用いて単語スポッティングを行い、特徴量抽出部１０２の特徴ベクトル時系列との間で尤度を計算する。求められた最大尤度を与える連結結果の尤度及びスポッティングによる環境適応雑音モデルの継続時間長は、環境雑音尤度補正／正規化部３１１に与えられる。
【００８１】
ステップ４０１において、登録語彙尤度補正／正規化部３０９は、認識対象語彙毎の登録語彙尤度Ｓｉ、継続時間長Ｔｉ及び最適音素系列照合部３０４からの最適尤度Ｓｏｐｔを用いて、補正／正規化後の登録語彙尤度Ｐｉ＝（Ｓｏｐｔ−Ｓｉ）／Ｔｉを算出する。
【００８２】
次のステップ４０２において、認識結果決定部３１０は、補正／正規化された認識対象語彙の尤度（登録語彙尤度）を認識対象語彙相互間で比較して、最小となる補正／正規化尤度を持つ認識対象語彙を決定する。
【００８３】
次に、ステップ４０３において、照合尤度によるリジェクト判定部３１２は、認識結果決定部３１０で選択された認識対象語彙の補正／正規化後の登録語彙尤度と予め定められた閾値とを比較し、入力音声が雑音であるか否かを判定する。即ち、補正／正規化後の尤度Ｐｉが閾値に比較して大きい場合には、入力音声は雑音であると判定され、リジェクト結果が出力される（ステップ４０７）。逆に、補正／正規化後の尤度Ｐｉが閾値に比較して小さい場合には、入力音声は雑音ではないと判定され、環境適応雑音モデルによるリジェクト判定部３１３に与えられる。
【００８４】
一方、環境雑音尤度補正／正規化部３１１では、ステップ４０４において、登録語彙尤度補正／正規化部３０９と同様に、環境適応雑音モデルの照合尤度（環境雑音尤度）Ｓｎｓ、継続時間長Ｔｎｓ及び最適音素系列照合部３０４からの最適尤度Ｓｏｐｔを用いて、補正／正規化後の環境雑音尤度Ｐｎｓ＝（Ｓｏｐｔ−Ｓｎｓ）／Ｔｎｓが計算される。
【００８５】
環境適応雑音モデルによるリジェクト判定部３１３は、次のステップ４０５において、照合尤度によるリジェクト判定部３１２で雑音でないと判定された入力音声に対して、認識結果決定部３１０で選択された認識対象語彙についての補正／正規化後の登録語彙尤度Ｐｉと、補正／正規化後の環境雑音尤度Ｐｎｓとの大小比較を行う。Ｐｉ＞Ｐｎｓとなる場合には、環境適応雑音モデルの方が最適音素系列照合尤度に近いと考えられるので、リジェクト判定部３１３は、入力音声は雑音であると判定する（ステップ４０７）。逆に、Ｐｉ＜＝Ｐｎｓとなる場合には、リジェクト判定部３１３は、入力音声は雑音ではなく、認識結果決定部３１０で選択された認識対象語彙の発声であると判定し、ステップ４０６において選択された認識対象語彙を音声認識結果として出力する。
【００８６】
次に、図８を参照して、認識対象語彙入力があった場合と環境雑音が入力された場合とにおける環境適応雑音モデルによるリジェクト判定部３１３の動作について具体例を用いて説明する。
【００８７】
図８（ａ）は認識対象語彙として「こうべ」が入力された場合を示している。認識対象語彙が入力された場合には、認識対象語彙から補正／正規化後の登録語彙尤度が最小となる認識対象語彙「こうべ」が選択される。いま、その補正／正規化尤度をＰｗとする。
【００８８】
一方、環境適応雑音モデルの照合については、環境に適応して選択された認識単位を組み合わせて補正／正規化後の環境雑音尤度が最小となる組み合わせが決定される。例えば、選択されている音素が「う」，「す」，「ふ」で、補正／正規化後の環境雑音尤度が最小となる組み合わせの結果が「ふすす」で、その時の補正／正規化尤度がＰｎｓであるものとする。
【００８９】
入力が「こうべ」である場合には、認識対象語彙「こうべ」の補正／正規化尤度Ｐｗは、環境適応雑音モデル「ふすす」の補正／正規化尤度Ｐｎｓよりも小さくなるので、認識結果として「こうべ」が出力される。
【００９０】
一方、図８（ｂ）に示すように、雑音が入力された場合には、上記の例と同様に認識対象語彙から補正／正規化後の登録語彙尤度が最小となる語彙「こうべ」が選択されたとしても、環境雑音に対して適応的に選択された音素モデル「う」，「す」，「ふ」の組み合わせ（ここでは「ふすす」とする）の補正／正規化後の環境雑音尤度よりも大きくなり、結果としてリジェクトすることができる。
【００９１】
次に、リジェクト判定結果に基づいて環境適応雑音モデルを選択する動作について説明する。
【００９２】
入力音声が照合尤度によるリジェクト判定部３１２又は環境適応雑音モデルによるリジェクト判定部３１３において雑音であると判定された場合には、最適音素系列照合部３０４で求まる認識単位標準パターンの連結結果は、認識単位標準パターンを、入力された環境雑音に対して最大尤度となるようにパターンマッチングしたものになる。つまり、予め学習された認識単位標準パターン記憶部２０５の中で、入力された雑音環境の音響特性を最も模擬したパターンが選択されることになる。
【００９３】
そこで、最適音素系列照合部３０４の結果を用いて、新たに環境適応認識単位選択部３０８において認識単位標準パターンを選択しなおすことで、音声認識装置が使用されている雑音環境に適応した雑音モデルを作成することができる。
【００９４】
図９は入力音声が雑音と判定された場合の環境適応の様子を簡単な例で説明するための説明図である。
【００９５】
入力音声が雑音であると判定された場合には、環境適応認識単位選択部３０８は、最適音素系列照合部３０４で用いられた認識単位標準パターンの統計と過去の履歴を用いて、各認識単位標準パターンの雑音環境における出現頻度を更新し、この結果出現頻度が上位となった標準パターンを次回の雑音モデルとして用いる。このように、入力音声が雑音であると判定された場合に雑音にマッチした標準パターンを選択することにより、雑音モデルは常に環境雑音に適応させることができる。
【００９６】
図９の例では初期の認識単位標準パターンとして、出現割合が上位の３つのパターンす，ふ，あが用いられている例を示している。また、図９では、リジェクト判定の結果出現割合が変化し、雑音判定１の結果として、認識単位標準パターンす，ふ，ずを用いたことを示している。更に、雑音判定２の結果として、認識単位標準パターンふ，す，うが用いられることを示している。
【００９７】
なお、環境適応認識単位選択部３０８は、最適音素系列照合部３０４で用いられた認識単位標準パターンの統計と過去の履歴を用いることなく、最適音素系列照合部３０４から得られた認識単位標準パターンをそのまま次回の雑音モデルとして設定してもよい。
【００９８】
本実施の形態は補正／正規化後の登録語彙尤度によるリジェクト判定と補正／正規化後の環境雑音尤度によるリジェクト判定を行っている。図１０はこれらの２つのリジェクト判定による効果を説明するための説明図である。
【００９９】
図１０は縦軸に照合結果の尤度をとり、実環境として考えられる３つの状況（ａ），（ｂ），（ｃ）について、最適音素系列照合による尤度（最適尤度）、認識対象語彙の最大尤度（登録語彙尤度）及び環境適応雑音モデルの尤度（環境雑音尤度）を示している。なお、図１０では、説明を簡略化するため、認識対象語彙の単語スポッティングによる継続時間長と環境適応雑音モデルの単語スポッティングによる継続時間長は相互に等しいものとする。この場合には、環境適応雑音モデルによるリジェクト判定は、登録語彙尤度及び環境雑音尤度の補正尤度で行えばよい。
【０１００】
発声が入力された場合には、図１０（ａ）に示すように、標準パターンの連結に最も自由度が高い最適音素系列照合の最適尤度が最大になる。入力された発声が認識対象語彙に含まれている場合には、該当する認識対象語彙の登録語彙尤度が、最適尤度とほぼ等しくなることが期待される。逆に、環境適応した雑音モデルでは、雑音にマッチした標準パターンしか持たないため、その環境雑音尤度は、正解語彙が発声された場合には小さくなる。
【０１０１】
この結果、認識対象語彙の補正／正規化後の登録語彙尤度と補正／正規化後の環境雑音尤度との大小比較では、補正／正規化後の登録語彙尤度の方が小さくなり、環境適応雑音モデルによるリジェクト判定ではリジェクトされることはなく、リジェクトの判定は、登録語彙尤度によるリジェクト判定に依存する。
【０１０２】
次に雑音が入力された場合のうち、認識単位標準パターンが環境雑音を音響的にモデル化したパターンを持つ場合について説明する。
【０１０３】
この場合には、認識単位標準パターンが環境雑音にマッチしたモデルを持つことから、図１０（ｂ）に示すように、人の発声が入力された場合と同様に、最適音素系列照合の最適尤度は大きな値をとることが期待される。一方、認識対象語彙は、入力が環境雑音であるため、認識対象語彙が入力された場合に比べて小さな登録語彙尤度となり、その結果補正／正規化後の登録語彙尤度は大きくなるため、照合尤度によるリジェクト判定によってリジェクト判定される。
【０１０４】
また、照合尤度によるリジェクト判定によりリジェクト判定されない場合にも、環境適応雑音モデルによる環境雑音尤度は、最適尤度とほぼ等しい値を取ることが期待されるので、環境適応雑音モデルによるリジェクト判定によりリジェクトすることができる。
【０１０５】
次に雑音が入力された場合のうち、認識単位標準パターンが環境雑音を音響的にモデル化したパターンを持たない場合について説明する。
【０１０６】
この場合には、認識単位標準パターンは雑音環境にマッチしたモデルを持たないことから、図１０（ｃ）に示すように、最適尤度も認識対象語彙の登録語彙尤度も小さな値となり、その結果、補正／正規化後の登録語彙尤度が小さくなり、照合尤度によるリジェクト判定ではリジェクト判定できない場合がある。
【０１０７】
しかし、環境雑音適応モデルによる照合結果を用いる場合には、入力が雑音と判定されると、認識単位標準パターンから現在の雑音環境で頻出する標準パターンが選択され、これを用いて環境雑音尤度を求めることから、環境雑音尤度は最適尤度と近い値となる。従って、この場合には、環境適応雑音モデルによるリジェクト判定により、入力を雑音と判定することが可能となる。
【０１０８】
このように、本実施の形態においては、第１及び第２の実施の形態と同様の効果が得られると共に、環境適応雑音モデルによるリジェクト判定と認識対象語彙の登録語彙尤度によるリジェクト判定とを同時に用いており、高い精度で環境雑音の入力をリジェクト判定することができる。
【０１０９】
【発明の効果】
以上説明したように本発明によれば、雑音環境によらず高い精度で雑音による誤動作を防止することができるという効果を有する。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態に係る音声認識装置を示すブロック図。
【図２】第１の実施の形態の作用を説明するための説明図。
【図３】本発明の第２の実施の形態を示すブロック図
【図４】本発明の第３の実施の形態を示すブロック図。
【図５】単語スポッティングの概念を説明するための説明図。
【図６】照合尤度補正／正規化の概念を説明するための説明図。
【図７】第３の実施の形態の動作を説明するためのフローチャート。
【図８】第３の実施の形態の動作を説明するための説明図。
【図９】雑音判定時の雑音モデル選択（環境適応）の様子を説明するための説明図。
【図１０】第３の実施の形態の効果を説明するための説明図。
【符号の説明】
１０１…音声区間検出部
１０２…特徴量抽出部
１０３…認識対象語彙記憶部
１０４…認識対象語彙照合部
１０５…環境適応雑音モデル記憶部
１０６…環境適応雑音モデル照合部
１０７…リジェクト判定部
１０８…雑音モデル適応部

Claims

入力される信号から音声区間を検出する音声区間検出部と、
入力音声を分析して音声の特徴を表す特徴量時系列を抽出する特徴量抽出部と、
予め定めた認識対象語彙を記憶する認識対象語彙記憶部と、
前記認識対象語彙記憶部に記憶された認識対象語彙毎に前記特徴量抽出部で求まる特徴量時系列と比較照合し登録語彙尤度を求める認識対象語彙照合部と、
認識単位標準パターンを記憶する認識単位標準パターン記憶部と、
前記認識単位標準パターン記憶部に記憶された前記認識単位標準パターンのうち環境雑音に適応した１つ以上の認識単位標準パターンを選択する環境適応認識単位選択部と、
前記環境適応認識単位選択部で選択された前記１つ以上の認識単位標準パターンを連結させて前記特徴量抽出部で求まる特徴量時系列と比較照合し環境雑音尤度を求める環境適応雑音モデル照合部と、
前記認識対象語彙照合部で求めた登録語彙尤度と前記環境適応雑音モデル照合部で得られた環境雑音尤度とに基づいて、入力が雑音であるか否かを判定するリジェクト判定部とを具備し、
前記環境適応認識単位選択部は、前記リジェクト判定部により入力された信号が雑音であると判定された場合には、入力信号に適応して前記認識単位標準パターン記憶部に記憶された標準パターンを選択しなおすことを特徴とする音声認識装置。
前記認識単位標準パターンは、音素モデルであることを特徴とする請求項１に記載の音声認識装置。
前記リジェクト判定部は、前記認識対象語彙照合部で求めた登録語彙尤度と前記環境適応雑音モデル照合部で得られた環境雑音尤度とを比較することで、入力が雑音であるか否かを判定することを特徴とする請求項１に記載の音声認識装置。
前記リジェクト判定部は、前記認識対象語彙照合部で求められた登録語彙尤度を用いてリジェクト判定する第１の判定部と、
前記環境適応雑音モデル照合部で求められた環境雑音尤度を用いてリジェクト判定する第２の判定部とを具備したことを特徴とする請求項１に記載の音声認識装置。
前記第１の判定部は、前記認識対象語彙照合部で求められた登録語彙尤度を所定の閾値と大小比較することでリジェクト判定し、
前記第２の判定部は、前記第１の判定部によって音声であると判定された入力について、前記環境適応雑音モデル照合部で求められた環境雑音尤度を用いてリジェクト判定することを特徴とする請求項４に記載の音声認識装置。
入力される信号から音声区間を検出する音声区間検出ステップと、
入力音声を分析して音声の特徴を表す特徴量時系列を抽出する特徴量抽出ステップと、
予め定めた認識対象語彙を記憶する認識対象語彙記憶部から読出した前記認識対象語彙毎に抽出された前記特徴量時系列と比較照合し登録語彙尤度を求める認識対象語彙照合ステップと、
認識単位標準パターンを記憶する認識単位標準パターン記憶部から前記認識単位標準パターンのうち環境雑音に適応した１つ以上の認識単位標準パターンを選択する環境適応認識単位選択ステップと、
選択された前記１つ以上の認識単位標準パターンを連結させて前記特徴量時系列と比較照合し環境雑音尤度を求める環境適応雑音モデル照合ステップと、
求められた前記登録語彙尤度と前記環境雑音尤度とに基づいて、入力が雑音であるか否かを判定するリジェクト判定ステップと、
入力された信号が雑音であると判定された場合には、入力信号に適応して前記認識単位標準パターン記憶部に記憶された標準パターンを選択しなおすステップとを具備したことを特徴とする音声認識方法。
コンピュータに、
入力される信号から音声区間を検出する音声区間検出処理と、
入力音声を分析して音声の特徴を表す特徴量時系列を抽出する特徴量抽出処理と、
予め定めた認識対象語彙を記憶する認識対象語彙記憶部から読出した前記認識対象語彙毎に抽出された前記特徴量時系列と比較照合し登録語彙尤度を求める認識対象語彙照合処理と、
認識単位標準パターンを記憶する認識単位標準パターン記憶部から前記認識単位標準パターンのうち環境雑音に適応した１つ以上の認識単位標準パターンを選択する環境適応認識単位選択処理と、
選択された前記１つ以上の認識単位標準パターンを連結させて前記特徴量時系列と比較照合し環境雑音尤度を求める環境適応雑音モデル照合処理と、
求められた前記登録語彙尤度と前記環境雑音尤度とに基づいて、入力が雑音であるか否かを判定するリジェクト判定処理と、
入力された信号が雑音であると判定された場合には、入力信号に適応して前記認識単位標準パターン記憶部に記憶された標準パターンを選択しなおす処理とを実行させるための音声認識プログラム。