JP2007017736A

JP2007017736A - 音声認識装置

Info

Publication number: JP2007017736A
Application number: JP2005199791A
Authority: JP
Inventors: Toshiyuki Hanazawa; 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-07-08
Filing date: 2005-07-08
Publication date: 2007-01-25

Abstract

【課題】認識対象である音声に背景雑音が付加されている音声区間のパターンマッチングをする場合において、背景雑音が街中の人声の場合や、ガベジモデル学習時に使用したデータ以外の音声であっても、ガベジモデルが正しい音声区間とマッチすることを防止し、誤認識率を低下させる音声認識装置を得る。
【解決手段】入力データの特徴量に基づき、認識対象の音声である可能性の高い区間に対してはガベジモデルに対する尤度を低くする補正を、認識対象の音声である可能性の低い区間に対してはガベジモデルに対する尤度を高くする補正を行い、補正後の尤度を用いてパターンマッチングを行う。
【選択図】図１

Description

本発明は、背景雑音下の認識性能を改善する音声認識装置に関する。

音声認識は、入力信号から音声区間を切り出して予め用意してある標準パターンとパターンマッチングを行うことによってなされる。音声区間の切り出しは、入力信号のパワーを用い、パワーが所定の閾値以上になった区間を切り出すのが一般的である。しかし、背景雑音下では背景雑音のパワーが閾値を超え、正しい音声区間の前後に雑音区間を付加した音声区間を切り出すことがあり、誤認識の原因となるという問題があった。特にパワーが時間と共に変動する背景雑音が存在する状況下では閾値の調整だけでは正しい音声区間を切り出すことが困難であるといった問題があった。

上述の問題を解決するために、従来の音声認識装置においては音声区間として背景雑音を含めて切り出し、背景雑音の音声パターンをモデル化したガベジモデルと認識対象の音声をモデル化した認識対象語彙モデルとを用い、背景雑音込みで認識処理を行っていた。

「携帯電話音に含まれる雑音のモデル化による音声区間検出誤りの削減」平成１３年１０月日本音響学会講演論文集、ｐｐ．４１−４２

従来の音声認識装置は、ガベジモデル学習時に使用したデータ以外の背景雑音に対しては、背景雑音のモデル化が十分でなく認識率が低下するといった問題があった。

この発明は上述の問題を解決するためになされたものであり、入力データの特徴ベクトルを算出する分析手段と、背景雑音に対応する音パターンをモデル化したガベジモデルを記録している第１のデータベースと、認識対象に対応する音声パターンをモデル化した認識対象語彙モデルを記憶している第２のデータベースと、入力データの特徴量に基づいて補正値を算出する補正値算出手段と、特徴ベクトルを用いて、前記入力データと前記ガベジモデルとの尤度である第１の尤度および入力データと認識対象語彙モデルとの尤度である第２の尤度とを算出するとともに、第１の尤度を補正値に基づき補正し、補正後の第１の尤度および前記第２の尤度を使用して第２のデータベース内の認識対象語彙モデルを照合結果として出力する照合手段とを備えたものである。

この発明は、入力データの特徴量に基づいて、入力データとガベジモデルとの尤度を補正する構成になっているため、ガベジモデル学習時に使用したデータ以外の背景雑音が付加されたような音声区間に対しても誤認識率が低下するという効果がある。

実施の形態１．
図１はこの発明を実施するための実施の形態１における音声認識装置を示す図である。図１において１は信号の入力端、２は入力信号をＡ／Ｄ変換しフレームと呼ぶ所定の時間区間ごとに分割し、フレーム毎にパワーと特徴ベクトルを算出する分析手段、３は分析手段２の出力から尤度の補正値を算出する補正値算出手段である。４はパターンマッチングを行う照合手段、５は背景雑音に対応する音パターンをモデル化した複数のガベジモデルを記録しているガベジモデルデータベース、６は認識対象に対応する音声パターンをモデル化した複数の認識対象語彙モデルを記録している認識対象語彙データベース、７は照合手段４が算出した認識結果を出力する出力端である。

次にこのように構成された音声認識装置において、図２〜図４を用いて単語認識を行う動作について説明する。図２、図３、図４はそれぞれこの実施の形態１における分析手段２、補正値算出手段３、照合手段４の動作を示すフローチャートである。入力端１に入力された音の入力信号は分析手段２に入力される（ｓｔ１０１）。分析手段２はこの入力信号をＡ／Ｄ変換した後、フレームと呼ばれる数１０ｍｓ程度の区間に分割する（ｓｔ１０２）。その後、各フレームについてパワーＰおよび特徴ベクトルＸを算出する（ｓｔ１０３、ｓｔ１０４）。パワーＰの算出式を（数１）に示す。ここで特徴ベクトルとは、音信号の特徴量をあらわすベクトルであり、例えばＬＰＣ（Linear Predictive Coding）ケプストラムを用いるものとする。また、ＬＰＣ以外の特徴ベクトルとして、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）等の特徴ベクトルを用いても良い。

数１において、
Ｐ：フレームのパワー
ｎ：フレーム内のデータの総数
ｙ（ｉ）：フレーム内のｉ番目の振幅値
である。

また分析手段２はパワーＰが予め定めた所定の閾値を超えた時間から、所定の閾値を所定の回数下回った時間までの入力信号を音声区間として切り出す（ｓｔ１０５）。その後、この切り出した音声区間の総フレームを補正値算出手段３に出力すると共に（ｓｔ１０６）、この音声区間内の特徴ベクトルの時系列Ｘ（ｔ）：（ｔ＝１，２，…，Ｔ）を照合手段４へ出力する（ｓｔ１０７）。ここで、Ｔは音声区間内の総フレーム数である。また、音声区間には、認識対象とする音声の前後に騒音が含まれている場合がある。

補正値算出手段３は分析手段２からの音声区間の総フレームの入力をうけ（ｓｔ２０１）、各フレームの特徴量から、フレームが認識対象の音声である可能性を示す音声度Ｖを算出する。音声度Ｖは、フレームが音声で有る可能性が高いほど大きくなり、非音声である可能性が高いほど小さくなるものとする。また、フレームが音声である可能性が非音声である可能性より高い場合には正の値をとり、逆に非音声である可能性が音声である可能性より高い場合には負の値をとるものとする。

次に音声度Ｖの算出方法について説明する。図５に補正値算出手段３の構成を表す図を示す。図５において、３ａは認識対象である有声音および背景雑音である有声音のピッチ周波数、フォルマント周波数及び帯域幅の特徴量をガウス分布でモデル化した複数の有声区間音声モデルを記録している有声区間音声データベース、３ｂは背景雑音である有声音について、３ａと同じ特徴量を同様にモデル化した複数の有声区間非音声モデルを記録している有声区間非音声データベースである。３ｃは認識対象である無声音のスペクトルをガウス分布でモデル化した複数の無声区間音声モデルが記録されている無声区間音声データベース、３ｄは背景雑音である無声音について３ｃと同じ特徴量を同様にモデル化した複数の無声区間非音声モデルを記録している無声区間非音声データベースである。３ｅはフレームが有声音か無声音かの判定をする判定部、３ｆは判定部３ｅが判定を行ったフレームの音声度を算出する音声度算出部、３ｇは音声度算出部３ｆが算出した音声度に基づいて補正値を算出する補正値算出部である。

判定部３ｅは音声区間のフレームを有声音または無声音と判定するための特徴量であるフレームのスペクトルの傾き及びピッチ性を算出する。スペクトルの傾きはフレームをFFT(First Fourier Transform)してパワースペクトルを求め、スペクトルの低域と高域の比をとることによって算出する。またピッチ性はフレームの自己相関係数を求め自己相関係数のピーク値を求めることによって算出する。そしてスペクトルの傾きが所定の閾値Ｔｓ以上、ピッチ性が所定の閾値Ｔｐ以上であれば有声音と判定し、それ以外の場合は無声音と判定する（ｓｔ２０２）。

音声度算出部３ｆは判定部３ｅがフレームを有声音と判定した場合には、フレームのピッチ周波数、フォルマント周波数及び帯域幅を用いて、フレームと各有声区間音声モデルとの尤度を算出し、算出した尤度の最大値Ｌ１ｖを求める。同様にして、フレームと各有声区間非音声モデルとの尤度の最大値Ｌ１ｎを算出する。これらを用いて、（数２）より音声度Ｖを算出する（ｓｔ２０３）。

（数２）において、
Ｖ：フレームの音声度
ａ：正の定数
Ｌ１ｖ：フレームと各有声区間音声モデルとの尤度の最大値
Ｌ１ｎ：フレームと各有声区間非音声モデルとの尤度の最大値
である。

また、判定部３ｅがフレームを無声音と判定した場合は、フレームのスペクトルを用いて、フレームと各無声区間音声モデルとの尤度を算出し、算出した尤度の最大値Ｌ２ｖを求める。同様に、フレームと各無声区間音声モデルとの尤度の最大値Ｌ２ｎを算出する。これらを用いて、（数３）より音声度Ｖを算出する（ｓｔ２０４）。

（数３）において、
Ｖ：フレームの音声度
ｂ：正の定数
Ｌ２ｖ：フレームと各無声区間音声モデルとの尤度の最大値
Ｌ２ｎ：フレームと各無声区間非音声モデルとの尤度の最大値
である。

次に補正値算出部３ｇは音声度Ｖに基づいて、照合手段４でパターンマッチングをおこなう際に使用する補正値Ｍを（数４）によって算出する（ｓｔ２０５）。

（数４）において、
Ｍ：フレームの補正値
ｆ()：原点をとおる減少関数
である。また、（数４）におけるｆ()は、例えば（数５）で与えられる。

（数５）において、ｃは正定数である。また（数５）ではｆ()は、原点をとおる単調減少の直線となっているが、原点をとおる単調減少の曲線であっても良い。

（数４）および（数５）から明らかなように、補正値Ｍは音声度Ｖが正、すなわち音声である可能性が高い場合には負の値となり、逆に音声度Ｖが負、すなわち非音声である可能性が高い場合には正の値をとる。

補正値算出手段３は音声区間の総フレームに対してｓｔ２０２〜ｓｔ２０５を繰り返すことにより補正値の時系列Ｍ（ｔ）：（ｔ＝１，２，…，Ｔ）を算出する（ｓｔ２０６）。その後、この補正値の時系列Ｍ（ｔ）を照合手段４へ出力する（ｓｔ２０７）。

照合手段４は、分析手段２からの特徴ベクトルの時系列Ｘ（ｔ）、補正値算出手段３からの補正値の時系列Ｍ（ｔ）、ガベジモデルデータベース５に記録されているガベジモデルおよび認識対象語彙データベース６に記録されている認識対象語彙モデルを用いてパターンマッチングを行う。ここで、ガベジモデルデータベース５に記憶されているガベジモデルは背景雑音をＨＭＭ（Hidden Markov Model）でモデル化したものである。モデル化されている背景雑音は、例えば屋外の携帯電話から入力された音声を認識する場合、屋外の種々の背景騒音を収集してモデル化されたものである。また、車内のカーナビゲーションシステムにおいて運転手等の音声を認識する場合は、車内の種々の騒音、例えば、ウィンカ音やエンジン音などの背景雑音を収集してモデル化しておく。また、認識対象語彙データベース６に記録されている認識対象語彙モデルは単語単位の連続分布ＨＭＭで構成されている。

さらに、各ガベジモデル及び各認識対象語彙モデルは、音素に対応する複数の時間区間に分割されており、この区間毎のフレームの特徴ベクトルの平均値及び分散が記録されている。尚、この分割される区間は音素に対応する時間区間に分割されるのではなく、所定長の時間幅で分割されていても良い。また、時間幅は一定ではなく、それぞれ異なる時間幅であっても良い。

次に、パターンマッチングの手法について説明する。照合手段４は、分析手段２からの音声区間の特徴ベクトルの時系列Ｘ（ｔ）の入力を受け（ｓｔ３０１）、Ｘ（ｔ）とガベジモデルデータベース５に記録されているガベジモデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームとガベジモデルとの尤度の時系列Ｌｇ（ｔ）を算出する（ｓｔ３０２）。さらに、音声区間の特徴ベクトルＸ（ｔ）と認識対象語彙データベース６に記録されている認識対象語彙モデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと各認識対象語彙モデルとの尤度の時系列Ｌｗ（ｔ）を算出する（ｓｔ３０３）。

ｓｔ３０２とｓｔ３０３を各ガベジモデル及び各認識対象語彙モデルに対し行うことにより、音声区間の総フレームと各ガベジモデルとの尤度の時系列Ｌｇ（ｓｇ，ｔ）：（ｓｇ＝１，２，…，Ｎｇ）及び音声区間の総フレームと各認識対象語彙モデルとの尤度の時系列Ｌｗ（ｓｗ，ｔ）：（ｓｗ＝１，２，…，Ｎｗ）が算出される（ｓｔ３０４）。ここで、Ｎｇはガベジモデルの総数、Ｎｗは認識対象語彙モデルの総数である。

次に、照合手段４は補正値算出手段３からの補正値の時系列Ｍ（ｔ）の入力受け（ｓｔ３０５）、音声区間のフレームとガベジモデルとの尤度の時系列を（数６）のように補正する（ｓｔ３０６）。

（数６）において、
Ｌ’ｇ（ｓｇ，ｔ）：補正後の音声区間の総フレームと各ガベジモデルとの尤度の時系列
Ｌｇ（ｓｇ，ｔ）：音声区間の総フレームと各ガベジモデルとの尤度の時系列
Ｍ（ｔ）：補正値の時系列

（数６）から明らかなように、フレームとガベジモデルとの尤度は、補正値Ｍ（ｔ）が正の区間、すなわち非音声である可能性が音声である可能性より高いと判断された区間に関しては大きくなるように補正され、補正値Ｍ（ｔ）が負の区間、すなわち音声である可能性が非音声である可能性より高い区間に関しては小さくなるように補正される。

また照合手段４は、図６に示すような認識対象語彙モデルの前後にガベジモデルを接続したモデルの連鎖を算出しておく（ｓｔ３０７）。図６はこの音声認識装置が認識し得る全ての状態を示すものである。図６においては、認識対象語彙モデルの前後にガベジモデルが接続した状態を表しているが、連鎖の状態はこの順番に限られない。すなわち、認識対象語彙モデルの前後にガベジモデルが接続していない状態でも良い。

図６に示す認識対象語彙モデルとガベジモデルの連鎖と、補正後の音声区間の総フレームと各ガベジモデルとの尤度の時系列Ｌ’ｇ（ｓｇ，ｔ）及び音声区間の総フレームと認識対象語彙モデルとの尤度の時系列Ｌｗ（ｓｗ，ｔ）とをビタビアルゴリズム等のアルゴリズムを用いてパターンマッチングを行う（ｓｔ３０８）。即ち、照合手段４は音声区間の総フレームの尤度和が最大になるガベジモデルと認識対象語彙モデルの組み合わせを選出し、その認識対象語彙モデルを認識結果として出力端７へ出力する（ｓｔ３０９）。

以上により、この実施の形態１による音声認識装置は、音声区間のフレームとガベジモデルとの尤度を入力データの特徴量から算出した補正値に基づいて補正する構成になっているので、ガベジモデルが認識対象である音声とマッチすることを抑制でき、ガベジモデル学習時に使用したデータ以外の背景雑音に対しても、誤認識率を低下させる効果を奏する。

実施の形態２．
実施の形態１におけるガベジモデルデータベース５は、図７に示すように、この音声認識装置の使用が想定される環境下での背景雑音に対応する音パターンをモデル化した複数の既知騒音用ガベジモデルを記録した既知騒音データベース５ａと、それ以外の各種の背景雑音に対応する音パターンをモデル化した複数の未知騒音用ガベジモデルを記録した未知騒音データベース５ｂと、に分かれていても良い。既知騒音用ガベジモデルは、この音声認識装置が使用されると想定される環境での背景雑音のデータにより予め学習されており、未知騒音用ガベジモデルは、既知騒音用ガベジモデルが学習した背景雑音以外の一般的な背景雑音のデータにより予め学習されているものとする。また、既知騒音用ガベジモデルは未知騒音用ガベジモデルよりも大量のデータを用いて学習されており、モデルの精度は既知騒音用ガベジモデルのほうが未知騒音用ガベジモデルよりも高いものとする。さらにまた、既知騒音用ガベジモデルおよび未知騒音用ガベジモデルは実施の形態１のガベジモデルと同様に、複数の区間に分割されており、この区間毎のフレームの特徴ベクトルの平均値および分散も併せて記録されている。その他の構成は実施の形態１と同様であるので説明を省略する。

次にこのように構成された音声認識装置の動作について図２、図３、図８を用いて説明する。図８は本実施の形態における照合手段４の動作を示すフローチャートである。また、分析手段２および補正値算出手段３の動作は実施の形態１と同様なので図２、図３を用いて説明する。

分析手段２は実施の形態１と同様に、入力端１からの入力信号を受け、音声区間のフレームを補正値算出手段３へ出力すると共に、特徴ベクトルの時系列Ｘ（ｔ）を照合手段４へ出力する（ｓｔ１０１〜ｓｔ１０７）。補正値算出手段３も実施の形態１と同様に、音声区間のフレームの入力を受け、照合手段４へ補正値の時系列Ｍ（ｔ）を出力する（ｓｔ２０１〜ｓｔ２０７）。

照合手段４は、音声区間の特徴ベクトルＸ（ｔ）の入力を受け（ｓｔ４０１）、既知騒音データベース５ａおよび未知騒音データベース５ｂに記録されている既知騒音用ガベジモデルと未知騒音用ガベジモデルで構成される各ガベジモデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと各ガベジモデルとの尤度の時系列Ｌｇ（ｔ）を算出する（ｓｔ４０２）。さらに、音声区間の特徴ベクトルＸ（ｔ）と認識対象語彙データベース６に記録されている認識対象語彙モデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと認識対象語彙モデルとの尤度の時系列Ｌｗ（ｔ）を算出する（ｓｔ４０３）。

ｓｔ４０２とｓｔ４０３を各既知騒音用ガベジモデル、各未知騒音用ガベジモデル及び各認識対象語彙モデルに対し行うことにより、音声区間の総フレームと既知騒音用ガベジモデルおよび未知騒音用ガベジモデルとの尤度の時系列Ｌｇ（ｓｇ，ｔ）：（ｓｇ＝１，２，…，Ｎｇ）及び音声区間の総フレームと各認識対象語彙モデルとの尤度の時系列Ｌｗ（ｓｗ，ｔ）：（ｓｗ＝１，２，…，Ｎｗ）を算出する（ｓｔ４０４）。従って、Ｌｇ（ｓｇ，ｔ）には既知騒音用ガベジモデルおよび未知騒音用ガベジモデルに対する尤度が含まれることになる。すなわち、Ｎｇは既知騒音用ガベジモデルの総数と、未知騒音用ガベジモデルの総数との和である。次に、補正値算出手段３からの補正値Ｍ（ｔ）の入力を受けると（ｓｔ４０５）、Ｌｇ（ｓｇ、ｔ）が既知騒音ガベジモデルに対する尤度か、未知騒音ガベジモデルに対する尤度かであるかの判定を行う。すなわち、ｓｇ番目のガベジモデルが既知騒音用ガベジモデルに属するか、未知騒音用ガベジモデルに属するかの判定を行う（ｓｔ４０６）。ｓｇ番目のガベジモデルが未知騒音ガベジモデルに属するときは、Ｍ（ｔ）を用いて尤度を補正する（ｓｔ４０７）。また、ｓｇ番目のガベジモデルが既知騒音ガベジモデルに属するときは尤度の補正は行わない。（数７）に尤度の補正式を示す。

（数７）から明らかなように、既知騒音用ガベジモデルに対する尤度は補正されず、未知騒音用ガベジモデルに対する尤度は、音声度Ｖ（ｔ）に基づいて算出されたＭ（ｔ）を用いて補正される。

次に、実施の形態１におけるｓｔ３０７〜ｓｔ３０９と同様に、図６に示すような認識対象語彙モデルの前後にガベジモデルを接続したモデルの連鎖を算出し、ビタビアルゴリズム等のアルゴリズムを用いてパターンマッチングを行い、パターンマッチングの結果、音声区間の総フレームの尤度和が最大になるガベジモデルと認識対象語彙モデルの組み合わせを選択し、その認識対象語彙モデルを認識結果として出力端７へ出力する（ｓｔ４０８〜ｓｔ４１０）。本実施の形態においては、図６に示す各ガベジモデルはそれぞれ既知騒音用ガベジモデルまたは未知騒音用ガベジモデルである。

一般に、大量の音声データで学習した精度の高いモデルに対する尤度は補正を行わなくても有効な尤度が計算できるために、尤度を補正することによって逆に悪影響を及ぼす可能性がある。しかし、この実施の形態２における音声認識装置は、この音声認識装置の使用が想定される環境で大量に収集した背景雑音のデータで学習している精度の高い既知騒音ガベジモデルに対する尤度は補正せずに、精度の低い未知騒音ガベジモデルに対する尤度のみを補正しているので、補正による悪影響を低減することができる。従って、音声認識装置の使用が想定される環境下での背景雑音と、それ以外の背景雑音の両方に対して誤認識率を低下させる効果を奏する。また、ガベジモデルの分類は上述の分類に限定されるものではなく、精度の大きく異なる２種類のガベジモデルに分類されていれば同様の効果を奏する。さらにまた、ガベジモデルを背景雑音の種類で分類せずに、モデルの精度のみで分類しても良い。

実施の形態３．
実施の形態１におけるガベジモデルデータベース５は、図９に示すように、街中等の人の声の背景雑音に対応する音声パターンである複数の音声用ガベジモデルを記録している音声用データベース５ｃと、人の声以外の背景雑音に対応する音パターンである複数の非音声用ガベジモデルを記録している非音声用データベース５ｄと、に分かれていても良い。非音声用ガベジモデルは、実施の形態１のガベジモデルと同様に、この音声認識装置が使用されると想定される環境での背景雑音のデータを予め学習しておく。また、音声用ガベジモデルおよび非音声用ガベジモデルは実施の形態１のガベジモデルと同様に、複数の区間に分割されており、この区間毎のフレームの特徴ベクトルの平均値および分散も併せて記録されている。また分析手段２は音声区間の総フレームに加え、音声区間のパワーも補正値算出手段３へ出力する構成になっている。その他の構成は実施の形態１と同様であるので、説明を省略する。

次にこのように構成された音声認識装置の動作について図１０、図１１、図１２を用いて説明する。図１０、図１１、図１２はそれぞれこの実施の形態３における分析手段２、補正値算出手段３、照合手段４の動作を示すフローチャートである。分析手段２は実施の形態１のｓｔ１０１からｓｔ１０５と同様に、入力端子１からの入力信号を受けると、音声区間を切り出し、この音声区間の総フレームに対して特徴ベクトルの時系列Ｘ（ｔ）およびパワーの時系列Ｐ（ｔ）を算出する（ｓｔ５０１〜ｓｔ５０５）。その後、音声区間の総フレーム及びパワーの時系列Ｐ（ｔ）を補正値算出手段３へ出力すると共に（ｓｔ５０６）、特徴ベクトルの時系列Ｘ（ｔ）を照合手段４へ出力する（ｓｔ５０７）。

補正値算出手段３は分析手段２から音声区間の総フレーム及びパワーの時系列Ｐ（ｔ）の入力を受けると（ｓｔ６０１）、実施の形態１のｓｔ２０２〜ｓｔ２０４と同様に音声度Ｖを算出する（ｓｔ６０２〜ｓｔ６０４）。この音声度に基づいて実施の形態１における補正値Ｍの算出方法と同様の方法で、非音声用ガベジモデルに対する非音声用補正値Ｍｎを算出する（ｓｔ６０５）。次に、パワーＰに基づいて、音声用ガベジモデルに対する音声用補正値Ｍｈを（数８）によって算出する（ｓｔ６０６）。

数８において、
ｄ：正の定数
Ｐ１：正の定数
Ｐ：フレームのパワー
である。

（数８）から明らかなように、音声用ガベジモデルに対する補正値ＭｈはパワーＰが所定の閾値Ｐ１より大きいフレームでは負の値をとり、小さい場合には正の値をとる。Ｐ１は、例えば、この音声認識装置が使用される状況での話者の音声データのパワー等を用いて決定される。

さらに、補正値算出手段３は音声区間の総フレームに対してｓｔ６０２〜ｓｔ６０６を繰り返すことにより、各フレームのＭｈおよびＭｎを算出し、音声用ガベジモデルに対する音声用補正値の時系列Ｍｈ（ｔ）および非音声用ガベジモデルに対する非音声用補正値の時系列Ｍｎ（ｔ）を算出し（ｓｔ６０７）、これらを照合手段４へ出力する（ｓｔ６０８）。

照合手段４は、分析手段２からの音声区間の特徴ベクトルＸ（ｔ）の入力を受け（ｓｔ７０１）、Ｘ（ｔ）と音声用データベース５ｃおよび非音声用データベース５ｄに記録されている音声用ガベジモデルと非音声用ガベジモデルで構成される各ガベジモデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと各ガベジモデルとの尤度の時系列Ｌｇ（ｔ）を算出する（ｓｔ７０２）。さらに、音声区間の特徴ベクトルＸ（ｔ）と認識対象語彙データベース６に記録されている認識対象語彙モデルの特徴ベクトルの平均値及び分散を用いて、音声区間のフレームと各認識対象語彙モデルとの尤度の時系列Ｌｗ（ｔ）を算出する（ｓｔ７０３）。

ｓｔ７０２とｓｔ７０３を各音声用ガベジモデル、各非音声用ガベジモデル及び各認識対象語彙モデルに対し行うことにより、音声区間の総フレームと音声用ガベジモデルとの尤度の時系列Ｌｇ（ｓｇ，ｔ）：（ｓｇ＝１，２，…，Ｎｇ）及び、音声区間の総フレームと各認識対象語彙モデルとの尤度の時系列Ｌｗ（ｓｗ，ｔ）：（ｓｗ＝１，２，…，Ｎｗ）を算出する（ｓｔ７０４）。従って、Ｌｇ（ｓｇ，ｔ）には音声用ガベジモデルおよび非音声用ガベジモデルに対する尤度が含まれることになる。すなわち、Ｎｇは音声用ガベジモデルの総数と非音声用ガベジモデルの総数との和である。次に、補正値算出手段３からの音声用補正値の時系列Ｍｈ（ｔ）および非音声用補正値の時系列Ｍｎ（ｔ）を受けると（ｓｔ７０５）、Ｌｇ（ｓｇ、ｔ）が音声用ガベジモデルに対する尤度か、非音声用ガベジモデルに対する尤度であるかの判定を行う。すなわち、ｓｇ番目のガベジモデルが音声用ガベジモデルに属するか、非音声用ガベジモデルに属するかの判定を行う（ｓｔ７０６）。ｓｇ番目のガベジモデルが音声用ガベジモデルに属するときは、音声用補正値Ｍｈ（ｔ）を用いて尤度を補正し（ｓｔ７０７）、非音声用ガベジモデルに属するときは非音声用補正値Ｍｎ（ｔ）を用いて尤度を補正する（ｓｔ７０８）。（数９）に尤度の補正式を示す。

（数９）から明らかなように、音声用ガベジモデルに対する尤度はフレームのパワーＰ（ｔ）に基づいて算出されたＭｈ（ｔ）を用いて補正され、非音声用ガベジモデルに対する尤度は音声度Ｖ（ｔ）に基づいて算出されたＭｎ（ｔ）を用いて補正される。

次に、実施の形態１と同様に、図６に示すような認識対象語彙モデルの前後にガベジモデルを接続したモデルの連鎖を算出し（ｓｔ７０９）、ビタビアルゴリズムを等のアルゴリズムを用いてパターンマッチングを行う（ｓｔ７１０）。本実施の形態における図６の各ガベジモデルはそれぞれ音声用ガベジモデルまたは非音声用ガベジモデルである。

照合手段４は、パターンマッチングの結果、音声区間の総フレームの尤度和が最大になるガベジモデルと認識対象語彙モデルの組み合わせを選択し、その認識対象語彙モデルを認識結果として出力端７へ出力する（ｓｔ７１１）。

この実施の形態３による音声認識装置は、音声度Ｖでは判別が困難な人の声に対応する背景雑音について、フレームのパワーＰを用いて補正値を算出している。通常、認識対象とする人の声は入力端１の付近で発生するため、背景雑音のよりもパワーＰが大きい場合が多い。従って、本実施の形態のような構成にすることにより、人の声による背景雑音が音声区間に付加されている場合においても、誤認識率を低下させる効果を奏する。

この発明の実施の形態１における音声認識装置を示す図である。この発明の実施の形態１、２における分析手段２の動作を示すフローチャートである。この発明の実施の形態１、２における補正値算出手段３の動作を示すフローチャートである。この発明の実施の形態１における照合手段４の動作を示すフローチャートである。この発明の実施の形態１〜３における補正値算出手段３の構成を示す図である。この発明の実施の形態１〜３におけるモデルの連鎖を示す図である。この発明の実施の形態２における音声認識装置を示す図である。この発明の実施の形態２における照合手段４の動作を示すフローチャートである。この実施の形態３における音声認識装置を示す図である。この実施の形態３における分析手段２の動作を示すフローチャートである。この実施の形態３における補正値算出手段３の動作を示すフローチャートである。この実施の形態３における照合手段４の動作を示すフローチャートである。

符号の説明

２分析手段、３補正値算出手段、３ａ有声区間音声モデルデータベース、３ｂ有声区間非音声データベース、３ｃ無声区間音声データベース、３ｄ無声区間非音声データベース、４照合手段、５ガベジモデルデータベース、５ａ既知騒音データベース、５ｂ未知騒音データベース、５ｃ音声用データベース、５ｃ非音声用データベース、６認識対象語彙データベース

Claims

入力データの特徴ベクトルを算出する分析手段と、
背景雑音に対応する音パターンをモデル化したガベジモデルを記録している第１のデータベースと、
認識対象に対応する音声パターンをモデル化した認識対象語彙モデルを記憶している第２のデータベースと、
前記入力データの特徴量に基づいて補正値を算出する補正値算出手段と、
前記特徴ベクトルを用いて、前記入力データと前記ガベジモデルとの尤度である第１の尤度および前記入力データと前記認識対象語彙モデルとの尤度である第２の尤度とを算出するとともに、前記第１の尤度を前記補正値に基づき補正し、補正後の第１の尤度および前記第２の尤度を使用して前記第２のデータベース内の認識対象語彙モデルを照合結果として出力する照合手段と、
を有することを特徴とした音声認識装置。
入力データの特徴ベクトルを算出する分析手段と、
背景雑音に対応する音パターンをモデル化した第１のガベジモデルを記録している第１のデータベースと、
前記背景雑音とは異なる種類の背景雑音に対応する音パターンを前記第１のガベジモデルよりも低精度でモデル化した第２のガベジモデルを記録している第２のデータベースと、
認識対象に対応する音声パターンをモデル化した認識対象語彙モデルを記憶している第３のデータベースと、
前記入力データの特徴量に基づいて補正値を算出する補正値算出手段と、
前記特徴ベクトルを用いて、前記入力データと前記第１のガベジモデルとの尤度である第１の尤度および前記入力データと前記第２のガベジモデルとの尤度である第２の尤度および前記入力データと前記認識対象語彙モデルとの尤度である第３の尤度とを算出すると共に、前記第２の尤度を前記補正値に基づき補正し、第１の尤度および補正後の第２の尤度および前記第３の尤度を使用して前記第３のデータベース内の認識対象語彙モデルを照合結果として出力する照合手段と、
を有することを特徴とした音声認識装置。
前記補正値算出手段は、
前記入力データのスペクトルの傾きまたはピッチ性に基づいて、前記入力データが有声音か無声音かを判定し、この判定結果に基づいて前記補正値を算出することを特徴とした請求項１または請求項２に記載の音声認識装置。
前記補正値算出手段は、
前記入力データを有声音と判定した場合には、前記入力データのピッチ周波数またはフォルマント周波数または帯域幅に基づいて前記補正値を算出し、
前記入力データを無声音と判定した場合には、前記入力データのスペクトルに基づいて前記補正値を算出することを特徴とした請求項３に記載の音声認識装置。
前記補正値算出手段は、
認識対象の音声である有声音のピッチ周波数またはフォルマント周波数または帯域幅をモデル化した有声区間音声モデルを記録した第４のデータベースと、
背景雑音である有声音のピッチ周波数またはフォルマント周波数または帯域幅をモデル化した有声区間非音声モデルを記録した第５のデータベースと、
認識対象の音声である無声音のスペクトルをモデル化した無声区間音声モデルを記録した第６のデータベースと、
背景雑音である無声音のスペクトルをモデル化した無声区間非音声モデルを記録した第７のデータベースとを有し、
前記入力データを有声音と判定した場合には、前記入力データのピッチ周波数またはフォルマント周波数または帯域幅を用いて、前記入力データと前記有声区間音声モデルとの尤度である第４の尤度および前記入力データと前記有声区間非音声モデルとの尤度である第５の尤度を算出すると共に、前記第４の尤度と前記第５との尤度に基づいて前記補正値を算出し、
前記入力データを無声音と判定した場合には、前記入力データのスペクトルを用いて前記入力データと前記無声区間音声モデルとの尤度である第６の尤度および前記入力データと前記無声区間非音声モデルとの尤度である第７の尤度を算出すると共に、前記第６の尤度と前記第７の尤度とに基づいて前記補正値を算出することを特徴とする請求項３に記載の音声認識装置。
入力データの特徴ベクトルを算出する分析手段と、
人声の背景雑音に対応する音声パターンをモデル化した音声用ガベジモデルを記録している第１のデータベースと、
人声以外の背景雑音に対応する音パターンをモデル化した非音声用ガベジモデルを記録している第２のデータベースと、
認識対象に対応する音声パターンをモデル化した複数の認識対象語彙モデルを記憶している第３のデータベースと、
前記入力データのパワーに基づいて音声用補正値を、前記入力データの特徴量に基づいて非音声用補正値を算出する補正値算出手段と、
前記特徴ベクトルを用いて、前記入力データと前記音声用ガベジモデルとの尤度である第１の尤度および前記入力データと前記非音声用ガベジモデルとの尤度である第２の尤度および前記入力データと前記認識対象語彙モデルとの尤度である第３の尤度とを算出するとともに、前記第１の尤度を前記音声用補正値に、前記第２の尤度を前記非音声用補正値に基づき補正し、補正後の第１の尤度および補正後の第２の尤度および前記第３の尤度を使用して前記第３のデータベース内の認識対象語彙モデルを照合結果として出力する照合手段と、
を有することを特徴とした音声認識装置。
前記補正値算出手段は、
前記入力データのスペクトルの傾きまたはピッチ性に基づいて、前記入力データが有声音か無声音かを判定し、この判定結果に基づいて前記非音声用補正値を算出することを特徴とした請求項６に記載の音声認識装置。
前記補正値算出手段は、
前記入力データを有声音と判定した場合には、前記入力データのピッチ周波数またはフォルマント周波数または帯域幅に基づいて前記非音声用補正値を算出し、
前記入力データを無声音と判定した場合には、前記入力データのスペクトルに基づいて前記非音声用補正値を算出することを特徴とした請求項７に記載の音声認識装置。
前記補正値算出手段は、
認識対象の音声である有声音のピッチ周波数またはフォルマント周波数または帯域幅をモデル化した複数の有声区間音声モデルを記録した第４のデータベースと、
背景雑音である有声音のピッチ周波数またはフォルマント周波数または帯域幅をモデル化した複数の有声区間非音声モデルを記録した第５のデータベースと、
認識対象の音声である無声音のスペクトルをモデル化した複数の無声区間音声モデルを記録した第６のデータベースと、
背景雑音である無声音のスペクトルをモデル化した複数の無声区間非音声モデルを記録した第７のデータベースを有し、
前記入力データを有声音と判定した場合には、前記入力データのピッチ周波数またはフォルマント周波数または帯域幅を用いて、前記入力データと前記有声区間音声モデルとの尤度である第４の尤度および前記入力データと前記有声区間非音声モデルとの尤度である第５の尤度を算出すると共に、前記第４の尤度と前記第５との尤度に基づいて前記非音声用補正値を算出し、
前記入力データを無声音と判定した場合には、前記入力データのスペクトルを用いて、前記入力データと前記無声区間音声モデルとの尤度である第６の尤度および前記入力データと前記無声区間非音声モデルとの尤度である第７の尤度を算出すると共に、前記第６の尤度と前記第７の尤度とに基づいて前記非音声用補正値を算出することを特徴とする請求項７に記載の音声認識装置。