JP2004184856A

JP2004184856A - 音声認識装置

Info

Publication number: JP2004184856A
Application number: JP2002353914A
Authority: JP
Inventors: Shigeki Aoshima; 滋樹青島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2002-12-05
Filing date: 2002-12-05
Publication date: 2004-07-02

Abstract

【課題】本発明は、音声認識装置に関し、入力される音声の認識率を高く維持することを目的とする。
【解決手段】入力マイク１２に入力された音声及び騒音を静的特徴パラメータ及びΔ特徴パラメータを用いてパラメータ化し、静的特徴パラメータについてのＬＰＣケプストラム距離に重み係数αを乗じて得た値とΔ特徴パラメータについてのデルタケプストラム距離に重み係数βを乗じて得た値とを加算し、その加算距離が最小となる音素を最適な音素として選択する。この際、非音声区間における入力騒音の時間変動の分散が大きいほど、重み係数αを大きくしかつ重み係数β（＝１−α）を小さくする。これにより、入力騒音の時間変動の分散が異なることに起因する音声の認識率の低下を抑制する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置に係り、特に、騒音下で入力される音声の認識率の向上を図るうえで好適な音声認識装置に関する。
【０００２】
【従来の技術】
従来より、音声の特徴を捉えるパラメータとして、時間に関して静的な特徴を捉えるＬＰＣ（線形予測符号化）ケプストラムと時間に関して動的な特徴を捉えるデルタケプストラムとの双方を用いることにより、人間の話す音声を認識する音声認識装置が知られている（例えば、特許文献１参照）。ＬＰＣケプストラムは、線形予測分析に基づく対数パワースペクトル包絡の逆フーリエ変換係数（ケプストラム係数）で定義され、入力音声から得られたケプストラム係数と辞書内のケプストラム係数との距離（ＬＰＣケプストラム距離）に基づいて音声の認識を行うものであり、主に母音等の時間に関して静的な同一波形のスペクトラムが繰り返される音素を認識し易い。また、デルタケプストラムは、ＬＰＣケプストラムにより得られた時間的に異なる数フレームのケプストラムの一次回帰係数で定義され、デルタケプストラム係数の距離（デルタケプストラム距離）に基づいて音声の認識を行うものであり、主に子音から母音への時間に関して動的に変動するスペクトラムの音素を認識し易い。
【０００３】
上記従来の音声認識装置において、音声認識は、ＬＰＣケプストラム距離とデルタケプストラム距離とをそれぞれ重み付けして加算した距離に基づいて行われる。この際、各パラメータの重み係数は、所定時間内における入力音声の音声パワーの平均と騒音パワーの平均との比（Ｓ／Ｎ比）に応じて決定される。具体的には、定常的な騒音がＬＰＣケプストラム距離に影響を与え易く、デルタケプストラム距離に影響を与え難い点を考慮して、騒音パワーが大きく、Ｓ／Ｎ比が小さい場合には、ＬＰＣケプストラム距離側の重み係数を小さくし、デルタケプストラム距離側の重み係数を大きくする。一方、騒音パワーが小さく、Ｓ／Ｎ比が大きい場合には、ＬＰＣケプストラム距離側の重み係数を大きくし、デルタケプストラム距離側の重み係数を小さくする。従って、上記従来の音声認識装置によれば、時間的に静的な騒音を考慮して効果的な音声認識を行うことができる。
【０００４】
【特許文献１】
特開平８−２１１８９７号公報
【０００５】
【発明が解決しようとする課題】
ところで、車室内で観測される騒音のパワーが時間的に安定しており、定常的なものではある場合には、大きく変動する場合に比して、騒音がデルタケプストラム距離に与える影響は小さい。しかし、現実の車室内においては騒音パワーは時間的に大きく変動するものであるので、騒音がデルタケプストラム距離に与える影響は大きい。すなわち、騒音パワーの時間変動の分散が大きいほど、ケプストラムの一次微分に対応するデルタケプストラム距離がその騒音の影響を受け易くなる。また、騒音の周波数スペクトルが特定帯域に集中している度合いが大きいほど、騒音がＬＰＣケプストラム距離に与える影響は大きく、デルタケプストラム距離に与える影響は小さい。この点、入力音声の認識率の向上を図るうえでは、騒音パワーの時間変動の分散や周波数スペクトルの集中度合いに応じて各パラメータの重み係数を変動することが望ましい。
【０００６】
しかしながら、上記した特許文献１記載の音声認識装置において、各パラメータの重み係数の変更はＳ／Ｎ比の大きさに応じて行われるだけであり、騒音パワーの時間変動の分散や周波数スペクトルの集中度合い等が異なっていても、所定時間内におけるＳ／Ｎ比が同一であれば、各パラメータの重み係数は同一となる。このため、かかる音声認識装置では、騒音パワーの時間変動の分散等が重み係数に考慮されないことに起因して、入力音声の認識率の低下を招く不都合が生ずる。
【０００７】
本発明は、上述の点に鑑みてなされたものであり、入力される音声の認識率を高く維持することが可能な音声認識装置を提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記の目的は、請求項１に記載する如く、入力音声を少なくとも時間に関して静的な特徴を捉える静的特徴パラメータと時間に関して動的な特徴を捉える動的特徴パラメータとを用いてパラメータ化し、所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
音声入力前において入力騒音のパワーの時間変動の分散の度合いを算出する騒音特徴算出手段と、
前記騒音特徴算出手段により算出された前記分散の度合いに応じて、前記静的特徴パラメータ及び前記動的特徴パラメータの各特徴パラメータに乗ずるそれぞれの重み係数を変更する重み係数変更手段と、
を備える音声認識装置により達成される。
【０００９】
本発明において、音声の入力前において入力騒音のパワーの時間変動の分散の度合いが算出される。騒音パワーの時間変動の分散が大きいほど、その騒音が動的特徴パラメータに与える影響は大きい。本発明において、静的特徴パラメータに乗ずる重み係数および動的特徴パラメータに乗ずる重み係数はそれぞれ、算出された入力騒音パワーの時間変動分散の度合いに応じて変更される。この際、騒音が動的特徴パラメータに与えた影響を打ち消すように静的特徴パラメータ及び動的特徴パラメータに乗ずるそれぞれの重み係数を適当に変更することとすれば、入力音声を適切にパラメータ化することができる。従って、例えば車室内等の騒音パワーが時間的に変動する際にも、入力される音声の認識率を高く維持することができる。
【００１０】
この場合、請求項２に記載する如く、請求項１記載の音声認識装置において、前記重み係数変更手段は、前記騒音特徴算出手段により算出された前記分散の度合いが大きいほど、前記静的特徴パラメータに乗ずる重み係数を大きくしかつ前記動的特徴パラメータに乗ずる重み係数を小さくすることとすればよい。
【００１１】
上記の目的は、請求項３に記載する如く、入力音声を少なくとも時間に関して静的な特徴を捉える静的特徴パラメータと時間に関して動的な特徴を捉える動的特徴パラメータとを用いてパラメータ化し、所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
音声入力前において入力騒音のスペクトルの平滑度又は集中度の度合いを算出する騒音特徴算出手段と、
前記騒音特徴算出手段により算出された前記平滑度又は集中度の度合いに応じて、前記静的特徴パラメータ及び前記動的特徴パラメータの各特徴パラメータに乗ずるそれぞれの重み係数を変更する重み係数変更手段と、
を備える音声認識装置により達成される。
【００１２】
本発明において、音声入力前において入力騒音のスペクトルの平滑度又は集中度の度合いが算出される。入力騒音のスペクトルの平滑度が低く或いは集中度が高いほど、その騒音が動的特徴パラメータに与える影響は小さい。本発明において、静的特徴パラメータに乗ずる重み係数および動的特徴パラメータに乗ずる重み係数はそれぞれ、算出された入力騒音スペクトルの平滑度又は集中度の度合いに応じて変更される。この際、騒音が動的特徴パラメータに与えた影響を打ち消すように静的特徴パラメータ及び動的特徴パラメータに乗ずるそれぞれの重み係数を適当に変更することとすれば、入力音声を適切にパラメータ化することができる。従って、騒音スペクトルが周波数的にばらつく場合にも、入力される音声の認識率を高く維持することができる。
【００１３】
この場合、請求項４に記載する如く、請求項３記載の音声認識装置において、前記重み係数変更手段は、前記騒音特徴算出手段により算出された前記平滑度の度合いが小さいほど或いは集中度の度合いが大きいほど、前記静的特徴パラメータに乗ずる重み係数を小さくしかつ前記動的特徴パラメータに乗ずる重み係数を大きくすることとすればよい。
【００１４】
上記の目的は、請求項５に記載する如く、入力音声を高い周波数成分を優先的に通過させる高域強調フィルタを通した後に所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
音声入力前において入力騒音の特徴を算出する騒音特徴算出手段と、
前記騒音特徴算出手段により算出された前記入力騒音の特徴に応じて前記高域強調フィルタの特性を変更するフィルタ特性変更手段と、
を備える音声認識装置により達成される。
【００１５】
本発明において、音声の入力前において入力騒音の特徴が算出される。入力音声は、入力騒音の特徴に応じた形状を有している。本発明において、入力騒音が音響分析される前に通過する高域強調フィルタの特性は、算出された入力騒音の特徴に応じて変更される。この際、入力音声での騒音の影響が排除されるように高域強調フィルタの特性を変更することとすれば、入力音声の特徴抽出を適切に行うことができる。従って、人間の発する音声と共に入力される騒音の特徴の如何にかかわらず、入力される音声の認識率を高く維持することができる。
【００１６】
また、上記の目的は、請求項６に記載する如く、マイクに入力される入力音声を所定辞書内のデータと比較することにより音声の認識を行う音声認識手段を備える音声認識装置であって、
発声者が実際に音声を発した際における口と前記マイクとの間の周波数成分歪に従った特性を有し、前記入力音声および前記所定辞書内のデータの何れか一方をフィルタ処理する補正フィルタを備え、
前記音声認識手段は、前記補正フィルタによりフィルタ処理された前記入力音声又は前記所定辞書内のデータに基づいて音声認識を行う音声認識装置により達成される。
【００１７】
例えば車室内において、発声者の口とマイクとの距離が所定距離近傍であると、入力音声のうちの特定帯域の周波数成分に歪みが生じ、音声認識が劣化する。本発明において、入力音声及び所定辞書内のデータの何れか一方は、発声者が実際に音声を発した際における口とマイクとの間の周波数成分歪に従った特性を有する補正フィルタによりフィルタ処理される。そして、音声認識は、かかるフィルタ処理された入力音声又は所定辞書内のデータに基づいて行われる。従って、入力音声が発声者の口とマイクとの離間に起因する歪み成分を有している場合にも、その歪み成分に従って補正フィルタの特性を変更することとすれば、入力される音声の認識率を高く維持することができる。
【００１８】
この場合、請求項７に記載する如く、請求項６記載の音声認識装置において、前記補正フィルタは、発声者が実際に所定の音声を発した際における前記マイクに入力される入力音声の特徴と、前記所定辞書内に予め格納されている前記所定の音声に対応した音声の特徴との比較結果に基づいて推定された前記周波数成分歪に従った特性を有するように作成されることとしてもよい。
【００１９】
【発明の実施の形態】
図１は、本発明の一実施例である音声認識装置１０のブロック構成図を示す。本実施例の音声認識装置１０は、例えば車両に搭載されており、ナビゲーション装置等の車両搭乗者の発する音声を認識する装置である。図１に示す如く、音声認識装置１０は、車両搭乗者の発する音声が入力される入力マイク１２を備えている。入力マイク１２は、外部から入力される騒音を含む音声を電気的な音声信号に変換する。入力マイク１２には、高域強調フィルタ１４が接続されている。高域強調フィルタ１４は、人間の聴覚特性を考慮し、具体的には入力マイク１２に入力された音声のうち周波数成分の高い領域を優先的に透過するフィルタ特性を有している。
【００２０】
高域強調フィルタ１４には、高域強調フィルタ変換テーブル１６に接続する高域強調変更部１８が接続されている。高域強調フィルタ変換テーブル１６には、騒音特徴と高域強調フィルタ１４の特性とが対応して格納されている。高域強調変更部１８は、後に詳述する如く、高域強調フィルタ変換テーブル１６を参照することにより、高域強調フィルタ１４の特性を、入力マイク１２に入力される騒音の特徴に従った特性に変更する部位である。すなわち、高域強調フィルタ１４は、入力される騒音の特徴に応じて特性変更され、入力マイク１２に入力された音声から騒音を取り除く機能を有する。
【００２１】
高域強調フィルタ１４には、また、補正フィルタ２０が接続されている。補正フィルタ２０は、後に詳述する如く、入力マイク１２と該入力マイク１２へ向けて音声を発する車両搭乗者の口との離間に起因する周波数成分歪に従った特性を有し、かかる周波数成分歪を入力マイク１２に入力された音声から取り除く機能を有する。補正フィルタ２０は、後述する手法に従って特性変更される。
【００２２】
補正フィルタ２０には、スペクトル分析部２２が接続されている。スペクトル分析部２２は、入力マイク１２に入力された音声及び騒音をＦＦＴ処理等によりスペクトル分析し、単位周波数ごとのパワーを算出する。スペクトル分析部２２には、特徴抽出部２４が接続されている。特徴抽出部２４は、スペクトル分析部２２による解析結果から、入力マイク１２に入力された音声の特徴部分を抽出する処理を実行する。具体的には、特徴抽出部２４は、入力音声の時間に関して静的な特徴を捉える静的特徴パラメータ、及び、時間に関して一次の動的な特徴を捉えるΔ特徴パラメータの２つのパラメータを入力音声の特徴パラメータとして算出する。
【００２３】
静的特徴パラメータは、線形予測分析に基づく対数パワースペクトル包絡のケプストラム係数で定義されるＬＰＣケプストラムから求められるパラメータであり、所定数のＬＰＣケプストラム係数で表現される。また、Δ特徴パラメータは、例えば５フレーム程度の各ＬＰＣケプストラムの一次回帰係数で定義されるデルタケプストラムから求められるパラメータである。
【００２４】
特徴抽出部２４には、音素認識部２６が接続されている。音素認識部２６には、スペクトル辞書２８及び音素ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）３０が接続されている。スペクトル辞書２８には、予め学習により用意された、子音と母音とを分離した半音節ごとのスペクトルデータ（具体的には、静的特徴パラメータ及びΔ特徴パラメータ）が標準パターンとして格納されている。また、音素ＨＭＭ３０には、音素のスペクトル変化特性を音声単位として統計的にモデル化した状態遷移構造を持つデータが格納されている。
【００２５】
音素認識部２６は、スペクトル辞書２８のスペクトルデータ及び音素ＨＭＭ３０の音素モデルデータを参照して、特徴抽出部２４で抽出された音声の特徴が一致する音素を認識する。具体的には、まず、特徴抽出部２４で抽出された入力音声の音素とスペクトル辞書２８に格納されている音素との間の、静的特徴パラメータについての距離（以下、ＬＰＣケプストラム距離と称す）及びΔ特徴パラメータについての距離（以下、デルタケプストラム距離と称す）をそれぞれ求め、次に、次式（１）に従って、後述の如く算出された重み係数を乗じて得たＬＰＣケプストラム距離とデルタケプストラム距離とを加算することにより距離ｄ_ｓｕｍを求める。そして、その距離ｄ_ｓｕｍが最小となる音素を最適な音素として選択し出力する。
【００２６】
ｄ_ｓｕｍ＝α（ｔ）・ｄ（ｃ）＋β（ｔ）・ｄ（Δｃ）・・・（１）
但し、ｄ（ｃ）はＬＰＣケプストラム距離であり、ｄ（Δｃ）はデルタケプストラム距離であり、また、α（ｔ），β（ｔ）は時刻ｔにおけるＬＰＣケプストラム距離およびデルタケプストラム距離に乗ずるそれぞれの重み係数であり、０≦α（ｔ）≦１、０≦β（ｔ）≦１、及びα（ｔ）＋β（ｔ）＝１を満たす値である。
【００２７】
音素認識部２６には、また、単語認識部３２が接続されている。単語認識部３２には、単語辞書３４が接続されている。単語辞書３４には、予め学習により用意された、単語ごとのスペクトルデータが標準パターンとして格納されている。単語認識部３２は、単語辞書３４の標準パターンを参照して、音素認識部２６で認識された音素から、入力マイク１２に入力された音声としての単語を認識する。そして、認識した単語をナビゲーション装置等へ出力する。
【００２８】
スペクトル分析部２２には、騒音平滑化部３６が接続されている。騒音平滑化部３６は、入力マイク１２に人間の音声が入力されない一方で騒音が入力される区間（以下、非音声区間と称す）において上記したスペクトル分析部２２が算出した入力騒音スペクトルを複数のフレームの平均化により平滑化する機能を有する。騒音平滑化部３６には、上記した高域強調変更部１８および集中度合い算出部３８が接続されている。高域強調変更部１８は、騒音平滑化部３６から供給される入力騒音スペクトルの特徴に基づいて、高域強調フィルタ変換テーブル１６を参照して高域強調フィルタ１４の特性を設定する。また、集中度合い算出部３８は、騒音平滑化部３６から供給された入力騒音スペクトルの、特定周波数帯域への集中度合い、すなわち、平滑度合いを算出する。
【００２９】
また、入力マイク１２には、パワー計算部４０が接続されている。パワー計算部４０は、非音声区間において入力マイク１２に入力される騒音のパワーを算出する。パワー計算部４０には、パワー分散算出部４２が接続されている。パワー分散算出部４２は、非音声区間において入力マイク１２に入力された騒音のパワーピーク値の平均値からの偏差、すなわち、騒音パワーの時間変動の分散を算出する。
【００３０】
上記した集中度合い算出部３８およびパワー分散算出部４２には、重み係数マトリックス部４４が接続されている。重み係数マトリックス部４４には、集中度合い算出部３８で算出された入力騒音スペクトルの、特定周波数帯域への集中度合い、及び、パワー分散算出部４２で算出された騒音パワーの時間変動の分散の度合いと、上記したＬＰＣケプストラム距離ｄ（ｃ）に乗ずる重み係数α、及び、デルタケプストラム距離ｄ（Δｃ）に乗ずる重み係数βとが対応して格納されている。
【００３１】
重み係数マトリックス部４４には、静的特徴パラメータ重み係数算出部４６及びΔ特徴パラメータ重み係数算出部４８が接続されている。静的特徴パラメータ重み係数算出部４６は、入力騒音スペクトルの特定周波数帯域への集中度合い、及び、騒音パワーの時間変動の分散の度合いに基づいて、後に詳述する如く、重み係数マトリックス部４４を参照することにより、ＬＰＣケプストラム距離ｄ（ｃ）に乗ずる重み係数αを算出する。また、Δ特徴パラメータ重み係数算出部４８は、入力騒音スペクトルの特定周波数帯域への集中度合い、及び、騒音パワーの時間変動の分散の度合いに基づいて、後に詳述する如く、重み係数マトリックス部４４を参照することにより、デルタケプストラム距離ｄ（Δｃ）に乗ずる重み係数βを算出する。尚、同時期に算出される重み係数αとβとの間には、α＋β＝１が成立する。
【００３２】
静的特徴パラメータ重み係数算出部４６及びΔ特徴パラメータ重み係数算出部４８には、上記した音素認識部２６が接続されている。音素認識部２６は、特徴抽出部２４で抽出された入力音声とスペクトル辞書２８に格納されている音素との間の、ＬＰＣケプストラム距離及びデルタケプストラム距離をそれぞれ求めた後、それらの距離に各重み係数算出部４６，４８から供給された重み係数α，βを乗じたものを加算することにより距離ｄ_ｓｕｍを求め、最適な音素を選択し出力する。
【００３３】
図２は、入力騒音パワーの時間変化の一例を表した図を示す。尚、図２においては、入力騒音パワーの時間平均値が点線で示されており、入力騒音パワーのピーク値の平均値に対する偏差がσで示されている。また、図３は、入力騒音の周波数特性の一例を表した図を示す。尚、図３（Ａ）には入力騒音が比較的平坦なスペクトル形状を有する場合を、図３（Ｂ）には入力騒音が比較的特定帯域に集中したスペクトル形状を有する場合を、それぞれ示している。
【００３４】
ところで、入力マイク１２に入力される騒音パワーの偏差σが小さく、そのパワー分散値が小さいほど、騒音パワーが時間的に安定していると判断できるので、その騒音が時間に関して動的な特徴を捉えるデルタケプストラムに与える影響は小さい。すなわち、騒音のパワー分散の度合いが大きいほど、騒音パワーが時間変動していると判断できるので、その騒音がデルタケプストラムに与える影響は大きい。従って、騒音パワーにかかわらず入力マイク１２に入力される音声の認識率を高く維持するうえでは、騒音パワーの時間平均値が同一であってもその分散の度合いが異なる場合には、騒音によりデルタケプストラムの受ける影響が均一化するように、その分散の度合いに応じてＬＰＣケプストラム距離ｄ（ｃ）に乗ずる重み係数α及びデルタケプストラム距離ｄ（Δｃ）に乗ずる重み係数βをそれぞれα＋β＝１が満たされる範囲で変更することが望ましい。
【００３５】
また、入力マイク１２に入力される騒音の周波数スペクトルが特定帯域に集中している度合いが大きい（図３においては同図（Ａ）に示す場合に比べて同図（Ｂ）に示す場合）ほど、すなわち、騒音の周波数スペクトルが平坦でなくその平滑度が低いほど、その騒音がＬＰＣケプストラムに与える影響は大きく、デルタケプストラムに与える影響は小さい。従って、騒音パワーにかかわらず入力マイク１２に入力される音声の認識率を高く維持するうえでは、騒音によりＬＰＣケプストラムが受ける影響及びデルタケプストラムが受ける影響を均一化すべく、その周波数スペクトルの集中度合い（平滑度合い）に応じてＬＰＣケプストラム距離ｄ（ｃ）に乗ずる重み係数α及びデルタケプストラム距離ｄ（Δｃ）に乗ずる重み係数βをそれぞれα＋β＝１が満たされる範囲で変更することが望ましい。
【００３６】
そこで、本実施例の音声認識装置１０は、入力騒音パワーの時間変動の分散の度合いに応じて重み係数α，βを変更すると共に、入力騒音スペクトルの特定周波数帯域への集中度合いに応じて重み係数α，βを変更する点に第１の特徴を有している。
【００３７】
図４は、本実施例における、騒音パワーの時間変動の分散度合い，騒音の周波数スペクトルの特定帯域への集中度合いと、静的特徴パラメータについてのＬＰＣケプストラム距離に乗ずる重み係数α，Δ特徴パラメータについてのデルタケプストラム距離に乗ずる重み係数βとの関係を表すマップを示す。尚、図４（Ａ）には重み係数αに関するマップを、また、図４（Ｂ）には重み係数βに関するマップを、それぞれ示す。尚、重み係数α，βはα＋β＝１を満たすので、同図（Ａ）に示すマップと同図（Ｂ）に示すマップとは互いに関連するマップとなる。
【００３８】
本実施例において、重み係数マトリックス部４４には、図４（Ａ）及び（Ｂ）に示すマップが格納されている。これらのマップは、騒音パワーの分散の度合いが大きくなるほど重み係数αが大きくなりかつ重み係数βが小さくなるように設定されていると共に、騒音の周波数スペクトルの特定帯域への集中度合いが大きい（すなわち、平滑度が低い）ほど重み係数が小さくなりかつ重み係数βが大きくなるように設定されている。
【００３９】
この場合、静的特徴パラメータ重み係数算出部４６は、騒音パワーの分散の度合いが大きいほど大きな重み係数αを算出し、Δ特徴パラメータ重み係数算出部４８は、騒音パワーの分散の度合いが大きいほど小さな重み係数βを算出することとなる。かかる構成においては、騒音パワーの分散度合いが小さくデルタケプストラム距離が受ける影響が小さいほど、そのデルタケプストラム距離に乗ずる重み係数βは大きくなり、一方、上記した分散度合いが大きくデルタケプストラム距離が受ける影響が大きいほど、そのデルタケプストラム距離に乗ずる重み係数βは小さくなる。
【００４０】
このため、騒音パワーの分散度合いが異なっていても、入力マイク１２に入力された音声の音素を認識する際の上記（１）式に示す距離ｄ_ｓｕｍが騒音パワーの分散による影響を受けることは回避される。従って、本実施例の音声認識装置１０によれば、騒音パワーの分散が異なっていても、その分散の度合いに応じて重み係数α，βを変更することによりデルタケプストラムが受ける影響を均一化することができ、その結果、騒音パワーが時間変動する状況でも入力マイク１２に入力される音声の認識率を高く維持することができる。すなわち、騒音パワーの分散が異なることに起因する音声の認識率の低下を抑制することが可能となっている。
【００４１】
また、静的特徴パラメータ重み係数算出部４６は、騒音の周波数スペクトルの特定帯域への集中度合いが大きいほど小さな重み係数αを算出し、Δ特徴パラメータ重み係数算出部４８は、騒音の周波数スペクトルの特定帯域への集中度合いが大きいほど大きな重み係数βを算出することとなる。かかる構成においては、騒音の周波数スペクトルの特定帯域への集中度合いが小さいことによりＬＰＣケプストラム距離が受ける影響が小さくかつデルタケプストラム距離が受ける影響が大きいほど、ＬＰＣケプストラム距離に乗ずる重み係数αは大きくかつデルタケプストラム距離に乗ずる重み係数βは小さくなり、一方、騒音の周波数スペクトルの特定帯域への集中度合いが大きいことによりＬＰＣケプストラム距離が受ける影響が大きくかつデルタケプストラム距離が受ける影響が小さいほど、ＬＰＣケプストラム距離に乗ずる重み係数αは小さくかつデルタケプストラム距離に乗ずる重み係数βは大きくなる。
【００４２】
このため、騒音の周波数スペクトルの特定帯域への集中度合いが異なっていても、入力マイク１２に入力された音声の音素を認識する際の上記（１）式に示す距離ｄ_ｓｕｍが騒音の周波数スペクトルの特定帯域への集中度による影響を受けることは回避される。従って、本実施例の音声認識装置１０によれば、騒音の周波数スペクトルの特定帯域への集中度が異なっていても、その集中度の度合いに応じて重み係数α，βを変更することによりＬＰＣケプストラム及びデルタケプストラムが受ける影響を均一化することができ、その結果、騒音の周波数スペクトルが周波数的にばらつく場合にも入力マイク１２に入力される音声の認識率を高く維持することができる。すなわち、騒音の周波数スペクトルの特定帯域への集中度が異なることに起因する音声の認識率の低下を抑制することが可能となっている。
【００４３】
図５は、本実施例において音声認識装置１０が実行する制御ルーチンの一例のフローチャートを示す。図５に示すルーチンが起動されると、まずステップ１００の処理が実行される。
【００４４】
ステップ１００では、スペクトル分析部２２で入力マイク１２に入力された音声及び雑音をＦＦＴ処理等によりスペクトル分析を行う処理が実行される。ステップ１０２では、上記ステップ１００で行われたスペクトル解析結果に基づいて現時点で入力マイク１２に雑音と共に音声が入力されているかの判定を行う。その結果、入力マイク１２に雑音のみが入力されており、音声が入力されていないと判別された場合は、非音声区間として、次にステップ１０４の処理が実行される。
【００４５】
ステップ１０４では、入力マイク１２に入力された騒音から非音声区間における騒音の特徴を学習する処理が実行される。ステップ１０６では、パワー計算部４０で入力騒音のパワーを算出する処理が実行される。ステップ１０８では、パワー分散算出部４２で、上記ステップ１０６で算出された入力騒音のパワーの時間変動の分散を算出する処理が実行される。
【００４６】
ステップ１１０では、スペクトル分析部２２で入力騒音の周波数スペクトルを算出する処理が実行される。ステップ１１２では、集中度合い算出部３８で、上記ステップ１１０で算出された入力騒音の周波数スペクトルの特定周波数帯域への集中度合いを算出する処理が実行される。
【００４７】
上記ステップ１０４〜１１２の処理が実行された後、上記ステップ１０２において入力マイク１２に雑音と共に音声が入力されていると判別された場合は、次にステップ１１４の処理が実行される。
【００４８】
ステップ１１４では、静的特徴パラメータについてのＬＰＣケプストラム距離に乗ずる重み係数α、及び、Δ特徴パラメータについてのデルタケプストラム距離に乗ずる重み係数βを、上記ステップ１０８で算出した騒音パワーの時間変動の分散の度合い及び上記ステップ１１２で算出した騒音の周波数スペクトルの特定帯域への集中度合いそれぞれに応じて変更する処理が実行される。本ステップ１１４の処理が実行されると、以後、算出された重み係数α，βを用いて音声の特徴抽出のための距離ｄ_ｓｕｍが算出され、音声認識処理が実行される。
【００４９】
上記図５に示すルーチンによれば、非音声区間において算出される騒音の特徴、具体的には、騒音パワーの時間変動の分散の度合い及び騒音の周波数スペクトルの特定帯域への集中度合いの双方に応じて重み係数α，βを変更することができる。このため、本実施例の音声認識装置１０によれば、上記した騒音に関する分散の度合いや集中度合いの違いに起因する入力マイク１２に入力される音声の認識率の低下を抑制することができ、その認識率を高く維持することが可能となっている。
【００５０】
図６は、騒音の周波数スペクトルの形状が異なる状況を表した図を示す。一般に、車室内で観測される騒音は、車両のエンジン回転数や速度の違い等に応じて異なる特徴を有し、その周波数スペクトルは、図６に実線及び破線で示す如く、その違い等に応じて異なる形状を有する。本実施例において、音声認識装置１０は、音声のうち人間の聴覚特性を考慮した周波数成分の高い領域を優先的に透過するフィルタ特性を有する高域強調フィルタ１４を有している。仮に、この高域強調フィルタ１４の特性が予め一の特性に限定されたものであると、入力マイク１２に同一の特徴を有する音声が入力されても入力騒音の特徴が異なる場合には、高域強調フィルタ１４から出力される音声信号が異なる特徴を有するものとなり、音声の認識率の低下を招くこととなる。
【００５１】
そこで、本実施例の音声認識装置１０は、入力騒音の特徴、具体的には、周波数スペクトルの形状に応じて高域強調フィルタ１４のフィルタ特性を変更する点に第２の特徴を有している。
【００５２】
図７は、本実施例において、図６に実線及び破線で示す特徴を有する騒音が入力される場合の、高域強調フィルタ１４のフィルタ特性を表した図を示す。尚、図７には、入力騒音が図６に実線で示す特徴を有する場合を実線で、入力騒音が図６に破線で示す特徴を有する場合を破線で、それぞれ示している。
【００５３】
本実施例において、音声認識装置１０は、高域強調フィルタ１４のフィルタ特性を変更する高域強調変更部１８、及び、騒音の周波数スペクトル形状と高域強調フィルタ１４のフィルタ特性との関係を格納する高域強調フィルタ変換テーブル１６を備えている。この高域強調フィルタ変換テーブル１６に格納される関係は、図６に示す特性と図７に示す特性との関係の如く、騒音パワーが周波数にかかわらず一定となるものである。騒音平滑化部３６は、非音声区間においてスペクトル分析部２２により算出された入力騒音の周波数スペクトルを平滑化した後、その信号を高域強調変更部１８に供給する。高域強調変更部１８は、騒音平滑化部３６から供給された入力騒音の平坦な周波数スペクトルから、高域強調フィルタ変換テーブル１６を参照して高域強調フィルタ１４のフィルタ特性を抽出し、かかるフィルタ特性が実現されるように高域強調フィルタ１４の特性を変更する。
【００５４】
かかる構成においては、入力騒音の周波数スペクトルの形状に合わせて、その騒音の影響が排除されるように高域強調フィルタ１４の特性が変更されるため、入力マイク１２に入力される音声が同一の特徴を有する場合には、その入力騒音の特徴が異なっていても、高域強調フィルタ１４から出力される音声信号は、騒音の特徴如何にかかわらず同一の特徴を有するものとなる。このため、本実施例の音声認識装置１０によれば、入力マイク１２に入力される音声の特徴を適切に抽出することができ、これにより、入力騒音の特徴如何にかかわらず入力音声の認識率を高く維持することが可能となっている。
【００５５】
図８は、発声する人間と入力マイク１２との位置関係に応じて入力音声に周波数成分の歪みが生ずる状況を説明するための図を示す。また、図９は、周波数成分の歪みが生じた際の周波数スペクトルを表した図を示す。
【００５６】
一般に、車室内において発声する人間の口と入力マイク１２との距離が５０ｃｍ近傍であると、主として５００Ｈｚ以下の周波数成分に歪みが生ずる（図８及び図９参照）。一方、スペクトル辞書２８に標準パターンとして格納されている音声のスペクトルデータは、音声が実際に車室内で発せられた際に学習されたものではなく、人間がマイクに接近して音声が発せられた際に学習されたものであるので、人間の口とマイクとの距離による周波数成分歪を含まないものである。このため、音声認識処理が人間の口と入力マイク１２との距離による周波数成分歪を考慮することなく行われるものとすると、音声の認識率の低下を招くこととなる。
【００５７】
そこで、本実施例の音声認識装置１０は、人間の口と入力マイク１２との距離による周波数成分歪を推定し、その周波数成分歪に従った特性を有する補正フィルタを作成することにより、かかる周波数成分歪を考慮した音声認識処理を行う点に第３の特徴を有している。
【００５８】
本実施例において、音声認識装置１０は、スペクトル分析部２２の前段に設けられた補正フィルタ２０を備えている。補正フィルタ２０は、最初は、高域強調フィルタ１４から供給された音声信号を全通過させる特性を有し、その後、以下に示す手法に従って変更された特性を有することとなる。以下、補正フィルタ２０の特性を変更する手法について説明する。
【００５９】
まず、人間の口と入力マイク１２との距離による周波数成分歪を推定すべく、実際の車室内で乗員に通常音声を発する状態（運転姿勢）で認識し易いコマンド語や学習用単語を発声させる。かかる単語が発声されると、音声認識装置１０において音声のスペクトル分析が行われた後、その入力音声スペクトルと、スペクトル辞書２８に標準パターンとして格納され学習されているその単語の音声スペクトルとが比較される。この場合、入力音声スペクトルには５００Ｈｚ以下の周波数成分歪が重畳している一方、スペクトル辞書２８の音声スペクトルにはかかる周波数成分歪が重畳していないので、両スペクトルの差分から５００Ｈｚ以下の周波数成分歪が推定される。
【００６０】
尚、口−入力マイク１２間の周波数成分歪は、発声単語の違いにより変動するものではなく、発声環境（主に、発声する人間の口と入力マイク１２との距離）に応じて変動するものであるので、予め特定の単語を発声することにより周波数成分歪が推定されれば、他の単語を発声する際にもその推定された周波数成分歪と同一の歪成分が入力音声に重畳することとなる。音声認識装置１０は、上記の如く推定された人間の口−入力マイク１２間の５００Ｈｚ以下の周波数成分歪に基づいて、入力マイク１２に入力された音声からその歪成分が除去されるような特性を有するように補正フィルタ２０を作成し、補正フィルタ２０のフィルタ特性を変更する。
【００６１】
補正フィルタ２０のフィルタ特性が変更されると、以後、補正フィルタ２０は、入力マイク１２に音声が入力された際、その入力音声信号を変更後のフィルタ特性に従ってフィルタ処理し、スペクトル分析部２２に供給する。スペクトル分析部２２に供給された入力音声信号は、スペクトル分析および特徴抽出が行われた後に、音素認識部２６でスペクトル辞書２８内のスペクトルデータと比較される。
【００６２】
スペクトル分析部２２には、５００Ｈｚ以下の周波数成分歪が重畳されていない入力音声信号が供給されるので、入力音声スペクトルとスペクトル辞書２８内の音声スペクトルとの比較は、口−入力マイク１２間の周波数成分歪を除去したうえで行われる。従って、本実施例の音声認識装置１０によれば、音声認識が口−入力マイク１２間の周波数成分歪を考慮して行われるので、入力マイク１２に入力される音声に口−入力マイク１２間の周波数成分歪が重畳している場合にも、かかる周波数成分歪が存在することに起因する音声認識の劣化を抑制することができ、かかる周波数成分歪が存在しても入力マイク１２に入力される音声の認識率を高く維持することが可能となっている。
【００６３】
尚、人間の口−入力マイク１２間の周波数成分歪は、上記の如く、発声環境（主に、発声する人間の口と入力マイク１２との距離）に応じて変動するものである。このため、音声認識の劣化を確実に発声者が異なること或いは入力マイク１２の配設位置の変更等により口−入力マイク１２間の距離が従前のものと異なるものとなったときには、音声認識の劣化を確実に抑制するうえで、再度、周波数成分歪を推定し、補正フィルタ２０のフィルタ特性を変更することが好適である。
【００６４】
尚、上記の実施例においては、Δ特徴パラメータが特許請求の範囲に記載した「動的特徴パラメータ」に、スペクトル辞書２８が特許請求の範囲に記載した「所定辞書」に、それぞれ相当していると共に、音声認識装置１０のパワー分散算出部４２及び集中度合い算出部３８がそれぞれ上記図５に示すルーチン中ステップ１０８，１１２の処理を実行することにより特許請求の範囲の請求項１乃至４に記載した「騒音特徴算出手段」が、静的特徴パラメータ重み係数算出部４６及びΔ特徴パラメータ重み係数算出部４８がステップ１１４の処理を実行することにより特許請求の範囲に記載した「重み係数変更手段」が、それぞれ実現されている。
【００６５】
また、上記の実施例においては、スペクトル分析部２２が非音声区間における入力音声の周波数スペクトルを算出し、騒音平滑化部３６がその周波数スペクトルを平滑化することにより特許請求の範囲の請求項５に記載した「騒音特徴算出手段」が、高域強調変更部１８が騒音平滑化部３６からの入力騒音の周波数スペクトルから、高域強調フィルタ変換テーブル１６を参照して高域強調フィルタ１４のフィルタ特性を変更することにより特許請求の範囲に記載した「フィルタ特性変更手段」が、それぞれ実現されている。
【００６６】
ところで、上記の実施例においては、入力騒音パワーの時間変動の分散の度合いに応じて重み係数α，βを変更することとしているが、かかる変更を行う前提として、重み係数α，βを入力音声のパワーと入力騒音のパワーとの比（Ｓ／Ｎ比）や入力騒音のパワー平均値等に応じて変更する構成に適用することが好適である。これは、Ｓ／Ｎ比や入力騒音のパワーが同一であっても、入力騒音パワーの時間変動分散の度合いに応じて重み係数α，βが異なるものとなるので、音声の認識率が向上することとなるからである。
【００６７】
また、上記の実施例においては、人間の口と入力マイク１２との距離による周波数の歪成分を入力マイク１２に入力された音声信号から除去し、かかる周波数成分歪を除去した音声信号による入力音声スペクトルをスペクトル辞書２８内の音声スペクトルと比較することにより音声認識を行うこととしているが、かかる周波数成分歪をスペクトル辞書２８内の音声スペクトル側に付加し、この音声スペクトルと周波数成分歪が重畳したままの入力音声スペクトルとを比較することにより音声認識を行うこととしてもよい。
【００６８】
更に、上記の実施例においては、音声の特徴を捉える特徴パラメータとして、時間に関して静的な特徴を捉える静的特徴パラメータ、及び、時間に関して一次の動的な特徴を捉えるΔ特徴パラメータの２つのパラメータを用い、それらに関する重み係数α，βを変更することとしているが、本発明はこれに限定されるものではなく、更に時間に関して二次の動的な特徴を捉える二次のΔ特徴パラメータを音声の特徴パラメータとして用いることとし、３つの特徴パラメータの各重み係数α，β，γを変更することとしてもよい。
【００６９】
【発明の効果】
上述の如く、請求項１及び２記載の発明によれば、騒音パワーが時間変動する際にも、入力される音声の認識率を高く維持することができる。
【００７０】
請求項３及び４記載の発明によれば、騒音スペクトルが周波数的にばらつく場合にも、入力される音声の認識率を高く維持することができる。
【００７１】
請求項５記載の発明によれば、騒音の特徴の如何にかかわらず、入力される音声の認識率を高く維持することができる。
【００７２】
また、請求項６及び７記載の発明によれば、入力音声が発声者の口とマイクとの離間に起因する歪み成分を有している場合にも、入力される音声の認識率を高く維持することができる。
【図面の簡単な説明】
【図１】本発明の一実施例である音声認識装置のブロック構成図である。
【図２】入力騒音パワーの時間変化を表した図である。
【図３】入力騒音の周波数特性を表した図である。
【図４】（Ａ）は、騒音パワーの時間変動の分散度合い及び騒音の周波数スペクトルの特定帯域への集中度合いと静的特徴パラメータについてのＬＰＣケプストラム距離に乗ずる重み係数αとの関係を表すマップである。また、（Ｂ）は、騒音パワーの時間変動の分散度合い及び騒音の周波数スペクトルの特定帯域への集中度合いとΔ特徴パラメータについてのデルタケプストラム距離に乗ずる重み係数βとの関係を表すマップである。
【図５】本実施例において音声認識装置で実行される制御ルーチンのフローチャートである。
【図６】騒音の周波数スペクトルの形状が異なる状況を表した図である。
【図７】本実施例において、図６に実線及び破線で示す特徴を有する騒音が入力される場合の、高域強調フィルタのフィルタ特性を表した図である。
【図８】発声する人間と入力マイクとの位置関係に応じて入力音声に周波数成分の歪みが生ずる状況を説明するための図である。
【図９】周波数成分の歪みが生じた際の周波数スペクトルを表した図である。
【符号の説明】
１０音声認識装置
１２入力マイク
１４高域強調フィルタ
２０補正フィルタ
２６音素認識部
２８スペクトル辞書
３８集中度合い算出部
４２パワー分散算出部
４４重み係数マトリックス部
４６静的特徴パラメータ重み係数算出部
４８ Δ特徴パラメータ重み係数算出部

Claims

入力音声を少なくとも時間に関して静的な特徴を捉える静的特徴パラメータと時間に関して動的な特徴を捉える動的特徴パラメータとを用いてパラメータ化し、所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
音声入力前において入力騒音のパワーの時間変動の分散の度合いを算出する騒音特徴算出手段と、
前記騒音特徴算出手段により算出された前記分散の度合いに応じて、前記静的特徴パラメータ及び前記動的特徴パラメータの各特徴パラメータに乗ずるそれぞれの重み係数を変更する重み係数変更手段と、
を備えることを特徴とする音声認識装置。
前記重み係数変更手段は、前記騒音特徴算出手段により算出された前記分散の度合いが大きいほど、前記静的特徴パラメータに乗ずる重み係数を大きくしかつ前記動的特徴パラメータに乗ずる重み係数を小さくすることを特徴とする請求項１記載の音声認識装置。
入力音声を少なくとも時間に関して静的な特徴を捉える静的特徴パラメータと時間に関して動的な特徴を捉える動的特徴パラメータとを用いてパラメータ化し、所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
音声入力前において入力騒音のスペクトルの平滑度又は集中度の度合いを算出する騒音特徴算出手段と、
前記騒音特徴算出手段により算出された前記平滑度又は集中度の度合いに応じて、前記静的特徴パラメータ及び前記動的特徴パラメータの各特徴パラメータに乗ずるそれぞれの重み係数を変更する重み係数変更手段と、
を備えることを特徴とする音声認識装置。
前記重み係数変更手段は、前記騒音特徴算出手段により算出された前記平滑度の度合いが小さいほど或いは集中度の度合いが大きいほど、前記静的特徴パラメータに乗ずる重み係数を小さくしかつ前記動的特徴パラメータに乗ずる重み係数を大きくすることを特徴とする請求項３記載の音声認識装置。
入力音声を高い周波数成分を優先的に通過させる高域強調フィルタを通した後に所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
音声入力前において入力騒音の特徴を算出する騒音特徴算出手段と、
前記騒音特徴算出手段により算出された前記入力騒音の特徴に応じて前記高域強調フィルタの特性を変更するフィルタ特性変更手段と、
を備えることを特徴とする音声認識装置。
マイクに入力される入力音声を所定辞書内のデータと比較することにより音声の認識を行う音声認識手段を備える音声認識装置であって、
発声者が実際に音声を発した際における口と前記マイクとの間の周波数成分歪に従った特性を有し、前記入力音声および前記所定辞書内のデータの何れか一方をフィルタ処理する補正フィルタを備え、
前記音声認識手段は、前記補正フィルタによりフィルタ処理された前記入力音声又は前記所定辞書内のデータに基づいて音声認識を行うことを特徴とする音声認識装置。
前記補正フィルタは、発声者が実際に所定の音声を発した際における前記マイクに入力される入力音声の特徴と、前記所定辞書内に予め格納されている前記所定の音声に対応した音声の特徴との比較結果に基づいて推定された前記周波数成分歪に従った特性を有するように作成されることを特徴とする請求項６記載の音声認識装置。