JP2004184856A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2004184856A
JP2004184856A JP2002353914A JP2002353914A JP2004184856A JP 2004184856 A JP2004184856 A JP 2004184856A JP 2002353914 A JP2002353914 A JP 2002353914A JP 2002353914 A JP2002353914 A JP 2002353914A JP 2004184856 A JP2004184856 A JP 2004184856A
Authority
JP
Japan
Prior art keywords
input
noise
voice
feature
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002353914A
Other languages
English (en)
Inventor
Shigeki Aoshima
滋樹 青島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2002353914A priority Critical patent/JP2004184856A/ja
Publication of JP2004184856A publication Critical patent/JP2004184856A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】本発明は、音声認識装置に関し、入力される音声の認識率を高く維持することを目的とする。
【解決手段】入力マイク12に入力された音声及び騒音を静的特徴パラメータ及びΔ特徴パラメータを用いてパラメータ化し、静的特徴パラメータについてのLPCケプストラム距離に重み係数αを乗じて得た値とΔ特徴パラメータについてのデルタケプストラム距離に重み係数βを乗じて得た値とを加算し、その加算距離が最小となる音素を最適な音素として選択する。この際、非音声区間における入力騒音の時間変動の分散が大きいほど、重み係数αを大きくしかつ重み係数β(=1−α)を小さくする。これにより、入力騒音の時間変動の分散が異なることに起因する音声の認識率の低下を抑制する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置に係り、特に、騒音下で入力される音声の認識率の向上を図るうえで好適な音声認識装置に関する。
【0002】
【従来の技術】
従来より、音声の特徴を捉えるパラメータとして、時間に関して静的な特徴を捉えるLPC(線形予測符号化)ケプストラムと時間に関して動的な特徴を捉えるデルタケプストラムとの双方を用いることにより、人間の話す音声を認識する音声認識装置が知られている(例えば、特許文献1参照)。LPCケプストラムは、線形予測分析に基づく対数パワースペクトル包絡の逆フーリエ変換係数(ケプストラム係数)で定義され、入力音声から得られたケプストラム係数と辞書内のケプストラム係数との距離(LPCケプストラム距離)に基づいて音声の認識を行うものであり、主に母音等の時間に関して静的な同一波形のスペクトラムが繰り返される音素を認識し易い。また、デルタケプストラムは、LPCケプストラムにより得られた時間的に異なる数フレームのケプストラムの一次回帰係数で定義され、デルタケプストラム係数の距離(デルタケプストラム距離)に基づいて音声の認識を行うものであり、主に子音から母音への時間に関して動的に変動するスペクトラムの音素を認識し易い。
【0003】
上記従来の音声認識装置において、音声認識は、LPCケプストラム距離とデルタケプストラム距離とをそれぞれ重み付けして加算した距離に基づいて行われる。この際、各パラメータの重み係数は、所定時間内における入力音声の音声パワーの平均と騒音パワーの平均との比(S/N比)に応じて決定される。具体的には、定常的な騒音がLPCケプストラム距離に影響を与え易く、デルタケプストラム距離に影響を与え難い点を考慮して、騒音パワーが大きく、S/N比が小さい場合には、LPCケプストラム距離側の重み係数を小さくし、デルタケプストラム距離側の重み係数を大きくする。一方、騒音パワーが小さく、S/N比が大きい場合には、LPCケプストラム距離側の重み係数を大きくし、デルタケプストラム距離側の重み係数を小さくする。従って、上記従来の音声認識装置によれば、時間的に静的な騒音を考慮して効果的な音声認識を行うことができる。
【0004】
【特許文献1】
特開平8−211897号公報
【0005】
【発明が解決しようとする課題】
ところで、車室内で観測される騒音のパワーが時間的に安定しており、定常的なものではある場合には、大きく変動する場合に比して、騒音がデルタケプストラム距離に与える影響は小さい。しかし、現実の車室内においては騒音パワーは時間的に大きく変動するものであるので、騒音がデルタケプストラム距離に与える影響は大きい。すなわち、騒音パワーの時間変動の分散が大きいほど、ケプストラムの一次微分に対応するデルタケプストラム距離がその騒音の影響を受け易くなる。また、騒音の周波数スペクトルが特定帯域に集中している度合いが大きいほど、騒音がLPCケプストラム距離に与える影響は大きく、デルタケプストラム距離に与える影響は小さい。この点、入力音声の認識率の向上を図るうえでは、騒音パワーの時間変動の分散や周波数スペクトルの集中度合いに応じて各パラメータの重み係数を変動することが望ましい。
【0006】
しかしながら、上記した特許文献1記載の音声認識装置において、各パラメータの重み係数の変更はS/N比の大きさに応じて行われるだけであり、騒音パワーの時間変動の分散や周波数スペクトルの集中度合い等が異なっていても、所定時間内におけるS/N比が同一であれば、各パラメータの重み係数は同一となる。このため、かかる音声認識装置では、騒音パワーの時間変動の分散等が重み係数に考慮されないことに起因して、入力音声の認識率の低下を招く不都合が生ずる。
【0007】
本発明は、上述の点に鑑みてなされたものであり、入力される音声の認識率を高く維持することが可能な音声認識装置を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記の目的は、請求項1に記載する如く、入力音声を少なくとも時間に関して静的な特徴を捉える静的特徴パラメータと時間に関して動的な特徴を捉える動的特徴パラメータとを用いてパラメータ化し、所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
音声入力前において入力騒音のパワーの時間変動の分散の度合いを算出する騒音特徴算出手段と、
前記騒音特徴算出手段により算出された前記分散の度合いに応じて、前記静的特徴パラメータ及び前記動的特徴パラメータの各特徴パラメータに乗ずるそれぞれの重み係数を変更する重み係数変更手段と、
を備える音声認識装置により達成される。
【0009】
本発明において、音声の入力前において入力騒音のパワーの時間変動の分散の度合いが算出される。騒音パワーの時間変動の分散が大きいほど、その騒音が動的特徴パラメータに与える影響は大きい。本発明において、静的特徴パラメータに乗ずる重み係数および動的特徴パラメータに乗ずる重み係数はそれぞれ、算出された入力騒音パワーの時間変動分散の度合いに応じて変更される。この際、騒音が動的特徴パラメータに与えた影響を打ち消すように静的特徴パラメータ及び動的特徴パラメータに乗ずるそれぞれの重み係数を適当に変更することとすれば、入力音声を適切にパラメータ化することができる。従って、例えば車室内等の騒音パワーが時間的に変動する際にも、入力される音声の認識率を高く維持することができる。
【0010】
この場合、請求項2に記載する如く、請求項1記載の音声認識装置において、前記重み係数変更手段は、前記騒音特徴算出手段により算出された前記分散の度合いが大きいほど、前記静的特徴パラメータに乗ずる重み係数を大きくしかつ前記動的特徴パラメータに乗ずる重み係数を小さくすることとすればよい。
【0011】
上記の目的は、請求項3に記載する如く、入力音声を少なくとも時間に関して静的な特徴を捉える静的特徴パラメータと時間に関して動的な特徴を捉える動的特徴パラメータとを用いてパラメータ化し、所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
音声入力前において入力騒音のスペクトルの平滑度又は集中度の度合いを算出する騒音特徴算出手段と、
前記騒音特徴算出手段により算出された前記平滑度又は集中度の度合いに応じて、前記静的特徴パラメータ及び前記動的特徴パラメータの各特徴パラメータに乗ずるそれぞれの重み係数を変更する重み係数変更手段と、
を備える音声認識装置により達成される。
【0012】
本発明において、音声入力前において入力騒音のスペクトルの平滑度又は集中度の度合いが算出される。入力騒音のスペクトルの平滑度が低く或いは集中度が高いほど、その騒音が動的特徴パラメータに与える影響は小さい。本発明において、静的特徴パラメータに乗ずる重み係数および動的特徴パラメータに乗ずる重み係数はそれぞれ、算出された入力騒音スペクトルの平滑度又は集中度の度合いに応じて変更される。この際、騒音が動的特徴パラメータに与えた影響を打ち消すように静的特徴パラメータ及び動的特徴パラメータに乗ずるそれぞれの重み係数を適当に変更することとすれば、入力音声を適切にパラメータ化することができる。従って、騒音スペクトルが周波数的にばらつく場合にも、入力される音声の認識率を高く維持することができる。
【0013】
この場合、請求項4に記載する如く、請求項3記載の音声認識装置において、前記重み係数変更手段は、前記騒音特徴算出手段により算出された前記平滑度の度合いが小さいほど或いは集中度の度合いが大きいほど、前記静的特徴パラメータに乗ずる重み係数を小さくしかつ前記動的特徴パラメータに乗ずる重み係数を大きくすることとすればよい。
【0014】
上記の目的は、請求項5に記載する如く、入力音声を高い周波数成分を優先的に通過させる高域強調フィルタを通した後に所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
音声入力前において入力騒音の特徴を算出する騒音特徴算出手段と、
前記騒音特徴算出手段により算出された前記入力騒音の特徴に応じて前記高域強調フィルタの特性を変更するフィルタ特性変更手段と、
を備える音声認識装置により達成される。
【0015】
本発明において、音声の入力前において入力騒音の特徴が算出される。入力音声は、入力騒音の特徴に応じた形状を有している。本発明において、入力騒音が音響分析される前に通過する高域強調フィルタの特性は、算出された入力騒音の特徴に応じて変更される。この際、入力音声での騒音の影響が排除されるように高域強調フィルタの特性を変更することとすれば、入力音声の特徴抽出を適切に行うことができる。従って、人間の発する音声と共に入力される騒音の特徴の如何にかかわらず、入力される音声の認識率を高く維持することができる。
【0016】
また、上記の目的は、請求項6に記載する如く、マイクに入力される入力音声を所定辞書内のデータと比較することにより音声の認識を行う音声認識手段を備える音声認識装置であって、
発声者が実際に音声を発した際における口と前記マイクとの間の周波数成分歪に従った特性を有し、前記入力音声および前記所定辞書内のデータの何れか一方をフィルタ処理する補正フィルタを備え、
前記音声認識手段は、前記補正フィルタによりフィルタ処理された前記入力音声又は前記所定辞書内のデータに基づいて音声認識を行う音声認識装置により達成される。
【0017】
例えば車室内において、発声者の口とマイクとの距離が所定距離近傍であると、入力音声のうちの特定帯域の周波数成分に歪みが生じ、音声認識が劣化する。本発明において、入力音声及び所定辞書内のデータの何れか一方は、発声者が実際に音声を発した際における口とマイクとの間の周波数成分歪に従った特性を有する補正フィルタによりフィルタ処理される。そして、音声認識は、かかるフィルタ処理された入力音声又は所定辞書内のデータに基づいて行われる。従って、入力音声が発声者の口とマイクとの離間に起因する歪み成分を有している場合にも、その歪み成分に従って補正フィルタの特性を変更することとすれば、入力される音声の認識率を高く維持することができる。
【0018】
この場合、請求項7に記載する如く、請求項6記載の音声認識装置において、前記補正フィルタは、発声者が実際に所定の音声を発した際における前記マイクに入力される入力音声の特徴と、前記所定辞書内に予め格納されている前記所定の音声に対応した音声の特徴との比較結果に基づいて推定された前記周波数成分歪に従った特性を有するように作成されることとしてもよい。
【0019】
【発明の実施の形態】
図1は、本発明の一実施例である音声認識装置10のブロック構成図を示す。本実施例の音声認識装置10は、例えば車両に搭載されており、ナビゲーション装置等の車両搭乗者の発する音声を認識する装置である。図1に示す如く、音声認識装置10は、車両搭乗者の発する音声が入力される入力マイク12を備えている。入力マイク12は、外部から入力される騒音を含む音声を電気的な音声信号に変換する。入力マイク12には、高域強調フィルタ14が接続されている。高域強調フィルタ14は、人間の聴覚特性を考慮し、具体的には入力マイク12に入力された音声のうち周波数成分の高い領域を優先的に透過するフィルタ特性を有している。
【0020】
高域強調フィルタ14には、高域強調フィルタ変換テーブル16に接続する高域強調変更部18が接続されている。高域強調フィルタ変換テーブル16には、騒音特徴と高域強調フィルタ14の特性とが対応して格納されている。高域強調変更部18は、後に詳述する如く、高域強調フィルタ変換テーブル16を参照することにより、高域強調フィルタ14の特性を、入力マイク12に入力される騒音の特徴に従った特性に変更する部位である。すなわち、高域強調フィルタ14は、入力される騒音の特徴に応じて特性変更され、入力マイク12に入力された音声から騒音を取り除く機能を有する。
【0021】
高域強調フィルタ14には、また、補正フィルタ20が接続されている。補正フィルタ20は、後に詳述する如く、入力マイク12と該入力マイク12へ向けて音声を発する車両搭乗者の口との離間に起因する周波数成分歪に従った特性を有し、かかる周波数成分歪を入力マイク12に入力された音声から取り除く機能を有する。補正フィルタ20は、後述する手法に従って特性変更される。
【0022】
補正フィルタ20には、スペクトル分析部22が接続されている。スペクトル分析部22は、入力マイク12に入力された音声及び騒音をFFT処理等によりスペクトル分析し、単位周波数ごとのパワーを算出する。スペクトル分析部22には、特徴抽出部24が接続されている。特徴抽出部24は、スペクトル分析部22による解析結果から、入力マイク12に入力された音声の特徴部分を抽出する処理を実行する。具体的には、特徴抽出部24は、入力音声の時間に関して静的な特徴を捉える静的特徴パラメータ、及び、時間に関して一次の動的な特徴を捉えるΔ特徴パラメータの2つのパラメータを入力音声の特徴パラメータとして算出する。
【0023】
静的特徴パラメータは、線形予測分析に基づく対数パワースペクトル包絡のケプストラム係数で定義されるLPCケプストラムから求められるパラメータであり、所定数のLPCケプストラム係数で表現される。また、Δ特徴パラメータは、例えば5フレーム程度の各LPCケプストラムの一次回帰係数で定義されるデルタケプストラムから求められるパラメータである。
【0024】
特徴抽出部24には、音素認識部26が接続されている。音素認識部26には、スペクトル辞書28及び音素HMM(Hidden Markov Model)30が接続されている。スペクトル辞書28には、予め学習により用意された、子音と母音とを分離した半音節ごとのスペクトルデータ(具体的には、静的特徴パラメータ及びΔ特徴パラメータ)が標準パターンとして格納されている。また、音素HMM30には、音素のスペクトル変化特性を音声単位として統計的にモデル化した状態遷移構造を持つデータが格納されている。
【0025】
音素認識部26は、スペクトル辞書28のスペクトルデータ及び音素HMM30の音素モデルデータを参照して、特徴抽出部24で抽出された音声の特徴が一致する音素を認識する。具体的には、まず、特徴抽出部24で抽出された入力音声の音素とスペクトル辞書28に格納されている音素との間の、静的特徴パラメータについての距離(以下、LPCケプストラム距離と称す)及びΔ特徴パラメータについての距離(以下、デルタケプストラム距離と称す)をそれぞれ求め、次に、次式(1)に従って、後述の如く算出された重み係数を乗じて得たLPCケプストラム距離とデルタケプストラム距離とを加算することにより距離dsumを求める。そして、その距離dsumが最小となる音素を最適な音素として選択し出力する。
【0026】
sum=α(t)・d(c)+β(t)・d(Δc) ・・・(1)
但し、d(c)はLPCケプストラム距離であり、d(Δc)はデルタケプストラム距離であり、また、α(t),β(t)は時刻tにおけるLPCケプストラム距離およびデルタケプストラム距離に乗ずるそれぞれの重み係数であり、0≦α(t)≦1、0≦β(t)≦1、及びα(t)+β(t)=1を満たす値である。
【0027】
音素認識部26には、また、単語認識部32が接続されている。単語認識部32には、単語辞書34が接続されている。単語辞書34には、予め学習により用意された、単語ごとのスペクトルデータが標準パターンとして格納されている。単語認識部32は、単語辞書34の標準パターンを参照して、音素認識部26で認識された音素から、入力マイク12に入力された音声としての単語を認識する。そして、認識した単語をナビゲーション装置等へ出力する。
【0028】
スペクトル分析部22には、騒音平滑化部36が接続されている。騒音平滑化部36は、入力マイク12に人間の音声が入力されない一方で騒音が入力される区間(以下、非音声区間と称す)において上記したスペクトル分析部22が算出した入力騒音スペクトルを複数のフレームの平均化により平滑化する機能を有する。騒音平滑化部36には、上記した高域強調変更部18および集中度合い算出部38が接続されている。高域強調変更部18は、騒音平滑化部36から供給される入力騒音スペクトルの特徴に基づいて、高域強調フィルタ変換テーブル16を参照して高域強調フィルタ14の特性を設定する。また、集中度合い算出部38は、騒音平滑化部36から供給された入力騒音スペクトルの、特定周波数帯域への集中度合い、すなわち、平滑度合いを算出する。
【0029】
また、入力マイク12には、パワー計算部40が接続されている。パワー計算部40は、非音声区間において入力マイク12に入力される騒音のパワーを算出する。パワー計算部40には、パワー分散算出部42が接続されている。パワー分散算出部42は、非音声区間において入力マイク12に入力された騒音のパワーピーク値の平均値からの偏差、すなわち、騒音パワーの時間変動の分散を算出する。
【0030】
上記した集中度合い算出部38およびパワー分散算出部42には、重み係数マトリックス部44が接続されている。重み係数マトリックス部44には、集中度合い算出部38で算出された入力騒音スペクトルの、特定周波数帯域への集中度合い、及び、パワー分散算出部42で算出された騒音パワーの時間変動の分散の度合いと、上記したLPCケプストラム距離d(c)に乗ずる重み係数α、及び、デルタケプストラム距離d(Δc)に乗ずる重み係数βとが対応して格納されている。
【0031】
重み係数マトリックス部44には、静的特徴パラメータ重み係数算出部46及びΔ特徴パラメータ重み係数算出部48が接続されている。静的特徴パラメータ重み係数算出部46は、入力騒音スペクトルの特定周波数帯域への集中度合い、及び、騒音パワーの時間変動の分散の度合いに基づいて、後に詳述する如く、重み係数マトリックス部44を参照することにより、LPCケプストラム距離d(c)に乗ずる重み係数αを算出する。また、Δ特徴パラメータ重み係数算出部48は、入力騒音スペクトルの特定周波数帯域への集中度合い、及び、騒音パワーの時間変動の分散の度合いに基づいて、後に詳述する如く、重み係数マトリックス部44を参照することにより、デルタケプストラム距離d(Δc)に乗ずる重み係数βを算出する。尚、同時期に算出される重み係数αとβとの間には、α+β=1が成立する。
【0032】
静的特徴パラメータ重み係数算出部46及びΔ特徴パラメータ重み係数算出部48には、上記した音素認識部26が接続されている。音素認識部26は、特徴抽出部24で抽出された入力音声とスペクトル辞書28に格納されている音素との間の、LPCケプストラム距離及びデルタケプストラム距離をそれぞれ求めた後、それらの距離に各重み係数算出部46,48から供給された重み係数α,βを乗じたものを加算することにより距離dsumを求め、最適な音素を選択し出力する。
【0033】
図2は、入力騒音パワーの時間変化の一例を表した図を示す。尚、図2においては、入力騒音パワーの時間平均値が点線で示されており、入力騒音パワーのピーク値の平均値に対する偏差がσで示されている。また、図3は、入力騒音の周波数特性の一例を表した図を示す。尚、図3(A)には入力騒音が比較的平坦なスペクトル形状を有する場合を、図3(B)には入力騒音が比較的特定帯域に集中したスペクトル形状を有する場合を、それぞれ示している。
【0034】
ところで、入力マイク12に入力される騒音パワーの偏差σが小さく、そのパワー分散値が小さいほど、騒音パワーが時間的に安定していると判断できるので、その騒音が時間に関して動的な特徴を捉えるデルタケプストラムに与える影響は小さい。すなわち、騒音のパワー分散の度合いが大きいほど、騒音パワーが時間変動していると判断できるので、その騒音がデルタケプストラムに与える影響は大きい。従って、騒音パワーにかかわらず入力マイク12に入力される音声の認識率を高く維持するうえでは、騒音パワーの時間平均値が同一であってもその分散の度合いが異なる場合には、騒音によりデルタケプストラムの受ける影響が均一化するように、その分散の度合いに応じてLPCケプストラム距離d(c)に乗ずる重み係数α及びデルタケプストラム距離d(Δc)に乗ずる重み係数βをそれぞれα+β=1が満たされる範囲で変更することが望ましい。
【0035】
また、入力マイク12に入力される騒音の周波数スペクトルが特定帯域に集中している度合いが大きい(図3においては同図(A)に示す場合に比べて同図(B)に示す場合)ほど、すなわち、騒音の周波数スペクトルが平坦でなくその平滑度が低いほど、その騒音がLPCケプストラムに与える影響は大きく、デルタケプストラムに与える影響は小さい。従って、騒音パワーにかかわらず入力マイク12に入力される音声の認識率を高く維持するうえでは、騒音によりLPCケプストラムが受ける影響及びデルタケプストラムが受ける影響を均一化すべく、その周波数スペクトルの集中度合い(平滑度合い)に応じてLPCケプストラム距離d(c)に乗ずる重み係数α及びデルタケプストラム距離d(Δc)に乗ずる重み係数βをそれぞれα+β=1が満たされる範囲で変更することが望ましい。
【0036】
そこで、本実施例の音声認識装置10は、入力騒音パワーの時間変動の分散の度合いに応じて重み係数α,βを変更すると共に、入力騒音スペクトルの特定周波数帯域への集中度合いに応じて重み係数α,βを変更する点に第1の特徴を有している。
【0037】
図4は、本実施例における、騒音パワーの時間変動の分散度合い,騒音の周波数スペクトルの特定帯域への集中度合いと、静的特徴パラメータについてのLPCケプストラム距離に乗ずる重み係数α,Δ特徴パラメータについてのデルタケプストラム距離に乗ずる重み係数βとの関係を表すマップを示す。尚、図4(A)には重み係数αに関するマップを、また、図4(B)には重み係数βに関するマップを、それぞれ示す。尚、重み係数α,βはα+β=1を満たすので、同図(A)に示すマップと同図(B)に示すマップとは互いに関連するマップとなる。
【0038】
本実施例において、重み係数マトリックス部44には、図4(A)及び(B)に示すマップが格納されている。これらのマップは、騒音パワーの分散の度合いが大きくなるほど重み係数αが大きくなりかつ重み係数βが小さくなるように設定されていると共に、騒音の周波数スペクトルの特定帯域への集中度合いが大きい(すなわち、平滑度が低い)ほど重み係数が小さくなりかつ重み係数βが大きくなるように設定されている。
【0039】
この場合、静的特徴パラメータ重み係数算出部46は、騒音パワーの分散の度合いが大きいほど大きな重み係数αを算出し、Δ特徴パラメータ重み係数算出部48は、騒音パワーの分散の度合いが大きいほど小さな重み係数βを算出することとなる。かかる構成においては、騒音パワーの分散度合いが小さくデルタケプストラム距離が受ける影響が小さいほど、そのデルタケプストラム距離に乗ずる重み係数βは大きくなり、一方、上記した分散度合いが大きくデルタケプストラム距離が受ける影響が大きいほど、そのデルタケプストラム距離に乗ずる重み係数βは小さくなる。
【0040】
このため、騒音パワーの分散度合いが異なっていても、入力マイク12に入力された音声の音素を認識する際の上記(1)式に示す距離dsumが騒音パワーの分散による影響を受けることは回避される。従って、本実施例の音声認識装置10によれば、騒音パワーの分散が異なっていても、その分散の度合いに応じて重み係数α,βを変更することによりデルタケプストラムが受ける影響を均一化することができ、その結果、騒音パワーが時間変動する状況でも入力マイク12に入力される音声の認識率を高く維持することができる。すなわち、騒音パワーの分散が異なることに起因する音声の認識率の低下を抑制することが可能となっている。
【0041】
また、静的特徴パラメータ重み係数算出部46は、騒音の周波数スペクトルの特定帯域への集中度合いが大きいほど小さな重み係数αを算出し、Δ特徴パラメータ重み係数算出部48は、騒音の周波数スペクトルの特定帯域への集中度合いが大きいほど大きな重み係数βを算出することとなる。かかる構成においては、騒音の周波数スペクトルの特定帯域への集中度合いが小さいことによりLPCケプストラム距離が受ける影響が小さくかつデルタケプストラム距離が受ける影響が大きいほど、LPCケプストラム距離に乗ずる重み係数αは大きくかつデルタケプストラム距離に乗ずる重み係数βは小さくなり、一方、騒音の周波数スペクトルの特定帯域への集中度合いが大きいことによりLPCケプストラム距離が受ける影響が大きくかつデルタケプストラム距離が受ける影響が小さいほど、LPCケプストラム距離に乗ずる重み係数αは小さくかつデルタケプストラム距離に乗ずる重み係数βは大きくなる。
【0042】
このため、騒音の周波数スペクトルの特定帯域への集中度合いが異なっていても、入力マイク12に入力された音声の音素を認識する際の上記(1)式に示す距離dsumが騒音の周波数スペクトルの特定帯域への集中度による影響を受けることは回避される。従って、本実施例の音声認識装置10によれば、騒音の周波数スペクトルの特定帯域への集中度が異なっていても、その集中度の度合いに応じて重み係数α,βを変更することによりLPCケプストラム及びデルタケプストラムが受ける影響を均一化することができ、その結果、騒音の周波数スペクトルが周波数的にばらつく場合にも入力マイク12に入力される音声の認識率を高く維持することができる。すなわち、騒音の周波数スペクトルの特定帯域への集中度が異なることに起因する音声の認識率の低下を抑制することが可能となっている。
【0043】
図5は、本実施例において音声認識装置10が実行する制御ルーチンの一例のフローチャートを示す。図5に示すルーチンが起動されると、まずステップ100の処理が実行される。
【0044】
ステップ100では、スペクトル分析部22で入力マイク12に入力された音声及び雑音をFFT処理等によりスペクトル分析を行う処理が実行される。ステップ102では、上記ステップ100で行われたスペクトル解析結果に基づいて現時点で入力マイク12に雑音と共に音声が入力されているかの判定を行う。その結果、入力マイク12に雑音のみが入力されており、音声が入力されていないと判別された場合は、非音声区間として、次にステップ104の処理が実行される。
【0045】
ステップ104では、入力マイク12に入力された騒音から非音声区間における騒音の特徴を学習する処理が実行される。ステップ106では、パワー計算部40で入力騒音のパワーを算出する処理が実行される。ステップ108では、パワー分散算出部42で、上記ステップ106で算出された入力騒音のパワーの時間変動の分散を算出する処理が実行される。
【0046】
ステップ110では、スペクトル分析部22で入力騒音の周波数スペクトルを算出する処理が実行される。ステップ112では、集中度合い算出部38で、上記ステップ110で算出された入力騒音の周波数スペクトルの特定周波数帯域への集中度合いを算出する処理が実行される。
【0047】
上記ステップ104〜112の処理が実行された後、上記ステップ102において入力マイク12に雑音と共に音声が入力されていると判別された場合は、次にステップ114の処理が実行される。
【0048】
ステップ114では、静的特徴パラメータについてのLPCケプストラム距離に乗ずる重み係数α、及び、Δ特徴パラメータについてのデルタケプストラム距離に乗ずる重み係数βを、上記ステップ108で算出した騒音パワーの時間変動の分散の度合い及び上記ステップ112で算出した騒音の周波数スペクトルの特定帯域への集中度合いそれぞれに応じて変更する処理が実行される。本ステップ114の処理が実行されると、以後、算出された重み係数α,βを用いて音声の特徴抽出のための距離dsumが算出され、音声認識処理が実行される。
【0049】
上記図5に示すルーチンによれば、非音声区間において算出される騒音の特徴、具体的には、騒音パワーの時間変動の分散の度合い及び騒音の周波数スペクトルの特定帯域への集中度合いの双方に応じて重み係数α,βを変更することができる。このため、本実施例の音声認識装置10によれば、上記した騒音に関する分散の度合いや集中度合いの違いに起因する入力マイク12に入力される音声の認識率の低下を抑制することができ、その認識率を高く維持することが可能となっている。
【0050】
図6は、騒音の周波数スペクトルの形状が異なる状況を表した図を示す。一般に、車室内で観測される騒音は、車両のエンジン回転数や速度の違い等に応じて異なる特徴を有し、その周波数スペクトルは、図6に実線及び破線で示す如く、その違い等に応じて異なる形状を有する。本実施例において、音声認識装置10は、音声のうち人間の聴覚特性を考慮した周波数成分の高い領域を優先的に透過するフィルタ特性を有する高域強調フィルタ14を有している。仮に、この高域強調フィルタ14の特性が予め一の特性に限定されたものであると、入力マイク12に同一の特徴を有する音声が入力されても入力騒音の特徴が異なる場合には、高域強調フィルタ14から出力される音声信号が異なる特徴を有するものとなり、音声の認識率の低下を招くこととなる。
【0051】
そこで、本実施例の音声認識装置10は、入力騒音の特徴、具体的には、周波数スペクトルの形状に応じて高域強調フィルタ14のフィルタ特性を変更する点に第2の特徴を有している。
【0052】
図7は、本実施例において、図6に実線及び破線で示す特徴を有する騒音が入力される場合の、高域強調フィルタ14のフィルタ特性を表した図を示す。尚、図7には、入力騒音が図6に実線で示す特徴を有する場合を実線で、入力騒音が図6に破線で示す特徴を有する場合を破線で、それぞれ示している。
【0053】
本実施例において、音声認識装置10は、高域強調フィルタ14のフィルタ特性を変更する高域強調変更部18、及び、騒音の周波数スペクトル形状と高域強調フィルタ14のフィルタ特性との関係を格納する高域強調フィルタ変換テーブル16を備えている。この高域強調フィルタ変換テーブル16に格納される関係は、図6に示す特性と図7に示す特性との関係の如く、騒音パワーが周波数にかかわらず一定となるものである。騒音平滑化部36は、非音声区間においてスペクトル分析部22により算出された入力騒音の周波数スペクトルを平滑化した後、その信号を高域強調変更部18に供給する。高域強調変更部18は、騒音平滑化部36から供給された入力騒音の平坦な周波数スペクトルから、高域強調フィルタ変換テーブル16を参照して高域強調フィルタ14のフィルタ特性を抽出し、かかるフィルタ特性が実現されるように高域強調フィルタ14の特性を変更する。
【0054】
かかる構成においては、入力騒音の周波数スペクトルの形状に合わせて、その騒音の影響が排除されるように高域強調フィルタ14の特性が変更されるため、入力マイク12に入力される音声が同一の特徴を有する場合には、その入力騒音の特徴が異なっていても、高域強調フィルタ14から出力される音声信号は、騒音の特徴如何にかかわらず同一の特徴を有するものとなる。このため、本実施例の音声認識装置10によれば、入力マイク12に入力される音声の特徴を適切に抽出することができ、これにより、入力騒音の特徴如何にかかわらず入力音声の認識率を高く維持することが可能となっている。
【0055】
図8は、発声する人間と入力マイク12との位置関係に応じて入力音声に周波数成分の歪みが生ずる状況を説明するための図を示す。また、図9は、周波数成分の歪みが生じた際の周波数スペクトルを表した図を示す。
【0056】
一般に、車室内において発声する人間の口と入力マイク12との距離が50cm近傍であると、主として500Hz以下の周波数成分に歪みが生ずる(図8及び図9参照)。一方、スペクトル辞書28に標準パターンとして格納されている音声のスペクトルデータは、音声が実際に車室内で発せられた際に学習されたものではなく、人間がマイクに接近して音声が発せられた際に学習されたものであるので、人間の口とマイクとの距離による周波数成分歪を含まないものである。このため、音声認識処理が人間の口と入力マイク12との距離による周波数成分歪を考慮することなく行われるものとすると、音声の認識率の低下を招くこととなる。
【0057】
そこで、本実施例の音声認識装置10は、人間の口と入力マイク12との距離による周波数成分歪を推定し、その周波数成分歪に従った特性を有する補正フィルタを作成することにより、かかる周波数成分歪を考慮した音声認識処理を行う点に第3の特徴を有している。
【0058】
本実施例において、音声認識装置10は、スペクトル分析部22の前段に設けられた補正フィルタ20を備えている。補正フィルタ20は、最初は、高域強調フィルタ14から供給された音声信号を全通過させる特性を有し、その後、以下に示す手法に従って変更された特性を有することとなる。以下、補正フィルタ20の特性を変更する手法について説明する。
【0059】
まず、人間の口と入力マイク12との距離による周波数成分歪を推定すべく、実際の車室内で乗員に通常音声を発する状態(運転姿勢)で認識し易いコマンド語や学習用単語を発声させる。かかる単語が発声されると、音声認識装置10において音声のスペクトル分析が行われた後、その入力音声スペクトルと、スペクトル辞書28に標準パターンとして格納され学習されているその単語の音声スペクトルとが比較される。この場合、入力音声スペクトルには500Hz以下の周波数成分歪が重畳している一方、スペクトル辞書28の音声スペクトルにはかかる周波数成分歪が重畳していないので、両スペクトルの差分から500Hz以下の周波数成分歪が推定される。
【0060】
尚、口−入力マイク12間の周波数成分歪は、発声単語の違いにより変動するものではなく、発声環境(主に、発声する人間の口と入力マイク12との距離)に応じて変動するものであるので、予め特定の単語を発声することにより周波数成分歪が推定されれば、他の単語を発声する際にもその推定された周波数成分歪と同一の歪成分が入力音声に重畳することとなる。音声認識装置10は、上記の如く推定された人間の口−入力マイク12間の500Hz以下の周波数成分歪に基づいて、入力マイク12に入力された音声からその歪成分が除去されるような特性を有するように補正フィルタ20を作成し、補正フィルタ20のフィルタ特性を変更する。
【0061】
補正フィルタ20のフィルタ特性が変更されると、以後、補正フィルタ20は、入力マイク12に音声が入力された際、その入力音声信号を変更後のフィルタ特性に従ってフィルタ処理し、スペクトル分析部22に供給する。スペクトル分析部22に供給された入力音声信号は、スペクトル分析および特徴抽出が行われた後に、音素認識部26でスペクトル辞書28内のスペクトルデータと比較される。
【0062】
スペクトル分析部22には、500Hz以下の周波数成分歪が重畳されていない入力音声信号が供給されるので、入力音声スペクトルとスペクトル辞書28内の音声スペクトルとの比較は、口−入力マイク12間の周波数成分歪を除去したうえで行われる。従って、本実施例の音声認識装置10によれば、音声認識が口−入力マイク12間の周波数成分歪を考慮して行われるので、入力マイク12に入力される音声に口−入力マイク12間の周波数成分歪が重畳している場合にも、かかる周波数成分歪が存在することに起因する音声認識の劣化を抑制することができ、かかる周波数成分歪が存在しても入力マイク12に入力される音声の認識率を高く維持することが可能となっている。
【0063】
尚、人間の口−入力マイク12間の周波数成分歪は、上記の如く、発声環境(主に、発声する人間の口と入力マイク12との距離)に応じて変動するものである。このため、音声認識の劣化を確実に発声者が異なること或いは入力マイク12の配設位置の変更等により口−入力マイク12間の距離が従前のものと異なるものとなったときには、音声認識の劣化を確実に抑制するうえで、再度、周波数成分歪を推定し、補正フィルタ20のフィルタ特性を変更することが好適である。
【0064】
尚、上記の実施例においては、Δ特徴パラメータが特許請求の範囲に記載した「動的特徴パラメータ」に、スペクトル辞書28が特許請求の範囲に記載した「所定辞書」に、それぞれ相当していると共に、音声認識装置10のパワー分散算出部42及び集中度合い算出部38がそれぞれ上記図5に示すルーチン中ステップ108,112の処理を実行することにより特許請求の範囲の請求項1乃至4に記載した「騒音特徴算出手段」が、静的特徴パラメータ重み係数算出部46及びΔ特徴パラメータ重み係数算出部48がステップ114の処理を実行することにより特許請求の範囲に記載した「重み係数変更手段」が、それぞれ実現されている。
【0065】
また、上記の実施例においては、スペクトル分析部22が非音声区間における入力音声の周波数スペクトルを算出し、騒音平滑化部36がその周波数スペクトルを平滑化することにより特許請求の範囲の請求項5に記載した「騒音特徴算出手段」が、高域強調変更部18が騒音平滑化部36からの入力騒音の周波数スペクトルから、高域強調フィルタ変換テーブル16を参照して高域強調フィルタ14のフィルタ特性を変更することにより特許請求の範囲に記載した「フィルタ特性変更手段」が、それぞれ実現されている。
【0066】
ところで、上記の実施例においては、入力騒音パワーの時間変動の分散の度合いに応じて重み係数α,βを変更することとしているが、かかる変更を行う前提として、重み係数α,βを入力音声のパワーと入力騒音のパワーとの比(S/N比)や入力騒音のパワー平均値等に応じて変更する構成に適用することが好適である。これは、S/N比や入力騒音のパワーが同一であっても、入力騒音パワーの時間変動分散の度合いに応じて重み係数α,βが異なるものとなるので、音声の認識率が向上することとなるからである。
【0067】
また、上記の実施例においては、人間の口と入力マイク12との距離による周波数の歪成分を入力マイク12に入力された音声信号から除去し、かかる周波数成分歪を除去した音声信号による入力音声スペクトルをスペクトル辞書28内の音声スペクトルと比較することにより音声認識を行うこととしているが、かかる周波数成分歪をスペクトル辞書28内の音声スペクトル側に付加し、この音声スペクトルと周波数成分歪が重畳したままの入力音声スペクトルとを比較することにより音声認識を行うこととしてもよい。
【0068】
更に、上記の実施例においては、音声の特徴を捉える特徴パラメータとして、時間に関して静的な特徴を捉える静的特徴パラメータ、及び、時間に関して一次の動的な特徴を捉えるΔ特徴パラメータの2つのパラメータを用い、それらに関する重み係数α,βを変更することとしているが、本発明はこれに限定されるものではなく、更に時間に関して二次の動的な特徴を捉える二次のΔ特徴パラメータを音声の特徴パラメータとして用いることとし、3つの特徴パラメータの各重み係数α,β,γを変更することとしてもよい。
【0069】
【発明の効果】
上述の如く、請求項1及び2記載の発明によれば、騒音パワーが時間変動する際にも、入力される音声の認識率を高く維持することができる。
【0070】
請求項3及び4記載の発明によれば、騒音スペクトルが周波数的にばらつく場合にも、入力される音声の認識率を高く維持することができる。
【0071】
請求項5記載の発明によれば、騒音の特徴の如何にかかわらず、入力される音声の認識率を高く維持することができる。
【0072】
また、請求項6及び7記載の発明によれば、入力音声が発声者の口とマイクとの離間に起因する歪み成分を有している場合にも、入力される音声の認識率を高く維持することができる。
【図面の簡単な説明】
【図1】本発明の一実施例である音声認識装置のブロック構成図である。
【図2】入力騒音パワーの時間変化を表した図である。
【図3】入力騒音の周波数特性を表した図である。
【図4】(A)は、騒音パワーの時間変動の分散度合い及び騒音の周波数スペクトルの特定帯域への集中度合いと静的特徴パラメータについてのLPCケプストラム距離に乗ずる重み係数αとの関係を表すマップである。また、(B)は、騒音パワーの時間変動の分散度合い及び騒音の周波数スペクトルの特定帯域への集中度合いとΔ特徴パラメータについてのデルタケプストラム距離に乗ずる重み係数βとの関係を表すマップである。
【図5】本実施例において音声認識装置で実行される制御ルーチンのフローチャートである。
【図6】騒音の周波数スペクトルの形状が異なる状況を表した図である。
【図7】本実施例において、図6に実線及び破線で示す特徴を有する騒音が入力される場合の、高域強調フィルタのフィルタ特性を表した図である。
【図8】発声する人間と入力マイクとの位置関係に応じて入力音声に周波数成分の歪みが生ずる状況を説明するための図である。
【図9】周波数成分の歪みが生じた際の周波数スペクトルを表した図である。
【符号の説明】
10 音声認識装置
12 入力マイク
14 高域強調フィルタ
20 補正フィルタ
26 音素認識部
28 スペクトル辞書
38 集中度合い算出部
42 パワー分散算出部
44 重み係数マトリックス部
46 静的特徴パラメータ重み係数算出部
48 Δ特徴パラメータ重み係数算出部

Claims (7)

  1. 入力音声を少なくとも時間に関して静的な特徴を捉える静的特徴パラメータと時間に関して動的な特徴を捉える動的特徴パラメータとを用いてパラメータ化し、所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
    音声入力前において入力騒音のパワーの時間変動の分散の度合いを算出する騒音特徴算出手段と、
    前記騒音特徴算出手段により算出された前記分散の度合いに応じて、前記静的特徴パラメータ及び前記動的特徴パラメータの各特徴パラメータに乗ずるそれぞれの重み係数を変更する重み係数変更手段と、
    を備えることを特徴とする音声認識装置。
  2. 前記重み係数変更手段は、前記騒音特徴算出手段により算出された前記分散の度合いが大きいほど、前記静的特徴パラメータに乗ずる重み係数を大きくしかつ前記動的特徴パラメータに乗ずる重み係数を小さくすることを特徴とする請求項1記載の音声認識装置。
  3. 入力音声を少なくとも時間に関して静的な特徴を捉える静的特徴パラメータと時間に関して動的な特徴を捉える動的特徴パラメータとを用いてパラメータ化し、所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
    音声入力前において入力騒音のスペクトルの平滑度又は集中度の度合いを算出する騒音特徴算出手段と、
    前記騒音特徴算出手段により算出された前記平滑度又は集中度の度合いに応じて、前記静的特徴パラメータ及び前記動的特徴パラメータの各特徴パラメータに乗ずるそれぞれの重み係数を変更する重み係数変更手段と、
    を備えることを特徴とする音声認識装置。
  4. 前記重み係数変更手段は、前記騒音特徴算出手段により算出された前記平滑度の度合いが小さいほど或いは集中度の度合いが大きいほど、前記静的特徴パラメータに乗ずる重み係数を小さくしかつ前記動的特徴パラメータに乗ずる重み係数を大きくすることを特徴とする請求項3記載の音声認識装置。
  5. 入力音声を高い周波数成分を優先的に通過させる高域強調フィルタを通した後に所定辞書内のデータと比較することにより音声の認識を行う音声認識装置であって、
    音声入力前において入力騒音の特徴を算出する騒音特徴算出手段と、
    前記騒音特徴算出手段により算出された前記入力騒音の特徴に応じて前記高域強調フィルタの特性を変更するフィルタ特性変更手段と、
    を備えることを特徴とする音声認識装置。
  6. マイクに入力される入力音声を所定辞書内のデータと比較することにより音声の認識を行う音声認識手段を備える音声認識装置であって、
    発声者が実際に音声を発した際における口と前記マイクとの間の周波数成分歪に従った特性を有し、前記入力音声および前記所定辞書内のデータの何れか一方をフィルタ処理する補正フィルタを備え、
    前記音声認識手段は、前記補正フィルタによりフィルタ処理された前記入力音声又は前記所定辞書内のデータに基づいて音声認識を行うことを特徴とする音声認識装置。
  7. 前記補正フィルタは、発声者が実際に所定の音声を発した際における前記マイクに入力される入力音声の特徴と、前記所定辞書内に予め格納されている前記所定の音声に対応した音声の特徴との比較結果に基づいて推定された前記周波数成分歪に従った特性を有するように作成されることを特徴とする請求項6記載の音声認識装置。
JP2002353914A 2002-12-05 2002-12-05 音声認識装置 Pending JP2004184856A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002353914A JP2004184856A (ja) 2002-12-05 2002-12-05 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002353914A JP2004184856A (ja) 2002-12-05 2002-12-05 音声認識装置

Publications (1)

Publication Number Publication Date
JP2004184856A true JP2004184856A (ja) 2004-07-02

Family

ID=32755092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002353914A Pending JP2004184856A (ja) 2002-12-05 2002-12-05 音声認識装置

Country Status (1)

Country Link
JP (1) JP2004184856A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107408A (ja) * 2006-10-23 2008-05-08 Mitsubishi Electric Corp 音声認識装置
JP2008225056A (ja) * 2007-03-13 2008-09-25 Alpine Electronics Inc 音声明瞭度改善装置およびその騒音レベル推定方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107408A (ja) * 2006-10-23 2008-05-08 Mitsubishi Electric Corp 音声認識装置
JP2008225056A (ja) * 2007-03-13 2008-09-25 Alpine Electronics Inc 音声明瞭度改善装置およびその騒音レベル推定方法

Similar Documents

Publication Publication Date Title
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
EP1760696B1 (en) Method and apparatus for improved estimation of non-stationary noise for speech enhancement
JP5738020B2 (ja) 音声認識装置及び音声認識方法
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
Kathania et al. Study of formant modification for children ASR
WO2011024572A1 (ja) 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JPH0612089A (ja) 音声認識方法
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
JPWO2007141923A1 (ja) ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
US8423360B2 (en) Speech recognition apparatus, method and computer program product
TWI578307B (zh) 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法
Biswas et al. Hindi vowel classification using GFCC and formant analysis in sensor mismatch condition
JP2007206603A (ja) 音響モデルの作成方法
JP2001215992A (ja) 音声認識装置
Kasap et al. A unified approach to speech enhancement and voice activity detection
JP2004184856A (ja) 音声認識装置
Kato et al. Using hidden Markov models for speech enhancement
JP4517457B2 (ja) 音声認識装置、及び音声認識方法
WO2004111999A1 (en) An amplitude warping approach to intra-speaker normalization for speech recognition
Yao et al. A speech processing front-end with eigenspace normalization for robust speech recognition in noisy automobile environments.
JPS60114900A (ja) 有音・無音判定法
JPH07121197A (ja) 学習式音声認識方法