JP2005070367A

JP2005070367A - 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器

Info

Publication number: JP2005070367A
Application number: JP2003299346A
Authority: JP
Inventors: Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2003-08-22
Filing date: 2003-08-22
Publication date: 2005-03-17
Anticipated expiration: 2023-08-22
Also published as: WO2005020212A1; JP4301896B2; CN1839427A; CN1839427B

Abstract

【課題】高騒音環境下においても音声区間の検出ができないことによる悪影響を低減でき、雑音区間が全くない音声が入力された場合や、発声中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる信号分析装置を提供する。
【解決手段】入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段と、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、前記抽出された帯域エネルギーを、帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段とを、有する信号分析装置である。
【選択図】図４

Description

本発明は、入力された音声・音響信号を分析する信号分析装置、および信号処理装置、並びに信号分析装置を用いた音声認識装置に関する。

音声認識に用いられる信号分析手段では、信号の入力から数十ミリ秒程度の区間を、数ミリ秒から数十ミリ秒程度の間隔でずらしながら、信号を抽出し、分析フレームとする。次に、各分析フレームにおける入力信号の波形から、音響パラメータを計算し、時系列の音響パラメータを得る。

特定話者音声認識では、得られた時系列の音響パラメータを、予め登録した音響パラメータの時系列パターン（標準パターン）と照合する。入力信号の音響パラメータに最も類似した標準パターンを認識結果とする。

不特定話者音声認識の場合には、予め大量のデータから、音響パラメータを計算し、音声単位ごとに計算した音響パラメータの統計量を求め、確率的音響モデルを作成する。同時に、この音声単位ごとの確率的音響モデルを連結して、単語モデルまたは文章モデルを作成する。入力信号から分析された音響パラメータについて、前記単語モデルまたは文章モデルに対する確率尤度を計算し、比較して、最も高い確率尤度の単語モデルまたは文章モデルを認識結果とする。ここでいう音声単位としては、例えば音素、音節、または単語などの単位が用いられる。

このように、音声認識を行うためには、音響パラメータを求める信号分析技術は、認識性能を決める重要な技術である。このため、雑音や回線の回線特性などの歪による影響を受けにくい信号分析技術が必要とされる。非特許文献１には、このような信号分析技術として用いられる、帯域エネルギーをケプストラム係数に変換するＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）が示されている。

図１は、ＭＦＣＣを求めるための手順を示すフローチャートである。以下、図１を用いて、ＭＦＣＣの分析方法を説明する。ＭＦＣＣでは、まず、分析フレームごとに音声波形を信号分析器に入力する（ステップＳ１０１）。次に、フレームの切り出し区間の両端に急激な変化が起こらないように、ハミング窓関数を掛ける（ステップＳ１０２）。次に、ＦＦＴ（ＦｉｒｓｔＦｏｕｒｉｏｒＴｒａｎｓｆｏｒｍ：高速フーリエ変換）を用いて、各フレームにおける線形周波数軸上のエネルギーを求める（ステップＳ１０３）。この線形周波数軸上のエネルギーは、メル周波数軸上で等分割した帯域ごとにまとめられ、帯域エネルギーに変換される（ステップＳ１０４）。変換された帯域エネルギーは、帯域ごとに、対数変換される（ステップＳ１０５）。次に、各帯域におけるパワーをコサイン変換することで、ＭＦＣＣが求められる（ステップＳ１０６）。求められたＭＦＣＣは、信号分析器から出力される（ステップＳ１０７）。このように、メル周波数軸上で等分割して求められたケプストラム係数を、メル周波数ケプストラム係数（ＭＦＣＣ）という。メル周波数は、人間の聴覚特性に準じた周波数単位であり、低い周波数での分解能が、高い周波数での分解能に比べて細かくなる。このため、同じ次数のケプストラムであれば、線形周波数軸を用いた場合に比べて、音声認識性能に優れることが知られている。

なお、本明細書中では、ステップＳ１０１〜ステップＳ１０５を、周波数分析ステップ（ステップＳ２０１）と、ステップＳ１０６からステップＳ１０７を、パラメータ変換ステップ（ステップＳ２０２）と、いう場合がある。

しかし、実際に音声認識は、家庭、オフィス、自動車、屋外などの背景雑音、または装置自身から発生する冷却ファンなどの騒音や、電磁的に波形に混入する加法的な騒音などの加法性雑音の存在下で行われる。さらに、マイクロホンあるいは音声伝達回路などの伝達特性や、話者がマイクロホンに向かう際の距離や角度が異なることによる音響特性の変化などの乗法的な歪が存在する。ＭＦＣＣは、これらの騒音や歪の影響を受けやすい。このため、ＭＦＣＣを用いた音声認識では、騒音の大きな環境下で使用する場合や回線特性の歪が大きい使用方法をする場合には、認識性能が大幅に低下するという問題がある。これらの騒音や歪の影響を低減させるために、以下に述べるような信号分析方法が用いられている。

[ＳＳ法、及びその簡易化手法]
非特許文献２には、加法性雑音の影響を少なくする方法として、スペクトル減算（ＳＳ：ｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ）法が開示されている。この方法は、入力音声信号を周波数分析して入力の振幅スペクトルまたはパワー（２乗）スペクトルを求め、雑音区間で推定された推定雑音スペクトルに所定の係数αを乗じ、このスペクトル減算係数αを乗じた後の推定雑音スペクトルを入力スペクトルから減じることで、雑音成分を抑圧する方法である。この方法では、音声品質を向上させるためには、多数の帯域に分割して処理をする必要がある。
また、特許文献１には、このＳＳ法を改善し、帯域分割を少なくして雑音成分を抑圧する方法が開示されている。

[ＣＭＳ法]
非特許文献１には、乗法性の歪の影響を低減する方法として、ＣＭＳ法（ＣｅｐｓｔｒｕｍＭｅａｎＳｕｂｔｒａｃｔｉｏｎ：ケプストラム平均除法）が開示されている。この方法は、ＣＭＮ法（ＣｅｐｓｔｒｕｍＭｅａｎＮｏｒｍａｌｉｚａｔｉｏｎ：ケプストラム平均正規化法）とも呼ばれる。これは、乗法性歪が、発声された音声のケプストラムの長時間平均として得られる、という仮定に基づく。具体的には、ケプストラム係数から、入力音声のケプストラム係数の平均値を差し引いて、回線やマイクロホンなどの音響系の特性に基づく歪の影響を低減できる。このことは、ケプストラムのコサイン変換である対数スペクトルの歪を差し引くことと等価である。

しかし、実際の入力音声においては、音声の音源位置と雑音の音源位置とが異なる。音声区間と雑音区間とでは、正規化すべき回線特性が異なるため、音声区間の平均ケプストラムを雑音区間に適用することは、雑音区間のケプストラムを不安定にし、認識性能に悪影響を及ぼすという問題がある。このため、雑音区間に適用できるＣＭＳ法の改良法が検討されている。

[Ｅ−ＣＭＮ法]
非特許文献３および特許文献２には、ＣＭＳ法の改良法であるＥ−ＣＭＮ法が提案されている。Ｅ−ＣＭＮ法は、音声区間のケプストラム平均と、非音声区間のケプストラム平均とを別個に求め、音声区間と、非音声区間とで、別個に正規化処理を行う。この方法により、誤認識率を低減させることができる。

[音声検出]
上記したＳＳ法、その簡易化手法、Ｅ−ＣＭＮ法は、いずれの方法においても、音声区間と非音声区間とを区別するために、音声検出を必要とする。音声検出技術は、携帯電話に用いる音声通信の規格などに標準的な方法が開示されている。音声検出は、一般に、入力信号の短時間におけるエネルギーの変化、スペクトル形状の変化などに基づいて、入力信号を、音声区間と、雑音区間とに時間的に分割する。

特開２００１−２２８８９３号公報（特許請求の範囲、段落００２７〜００２９）特開平１０−２５４４９４号公報（特許請求の範囲）

鹿野清宏ら編著、「音声認識システム」、第１版、株式会社オーム社、平成１３年５月１５日、ｐ．１３−１５ S. Boll, 「Suppression of acoustic noise in speech using spectral subtraction」, IEEE Trans. ASSP, 1979, vol. ASSP-27, no. 2, pp. 113-120 庄境誠、外２名、「ケプストラム平均正規化法とＨＭＭ合成法に基づくモデル適応化法Ｅ−ＣＭＮ／ＰＭＣと自動車内音声認識への適用」、電子情報通信学会論文誌、社団法人電子情報通信学会、１９９７、第Ｊ８０−Ｄ−ＩＩ巻、第１０号、ｐ．２６３６−２６４４

しかし、上記信号分析方法、およびこれらの分析方法に使用する音声認識方法には、以下のような問題がある。

[ＳＳ法、及びその簡易化手法に関する問題点]
ＳＳ法では、雑音区間のスペクトルを、音声区間で減算するので、雑音の少ない環境での入力音声を推定する場合には、優れる。しかし、雑音区間においては、雑音のパワーは小さくなるが、雑音のスペクトル形状自体は変わらない。現在主流である統計に基づく音声認識を行う場合には、予め統計的に学習した雑音とは、異なるスペクトル形状の雑音が入力すると、雑音区間の照合精度が低下する。このため、雑音区間を音声区間と誤って照合するため、全体として高い認識精度が得られない。この認識精度の低下を防ぐためには、何らかの適応的なスペクトル補正が必要となる。その方法の一つが、Ｅ−ＣＭＮ法のように雑音スペクトルを正規化する方法である。しかし、Ｅ−ＣＭＮ法には、以下のような問題がある。

[Ｅ−ＣＭＮ法に関する問題点]
上記したように、Ｅ−ＣＭＮ法では、音声区間と雑音区間とで、独立にケプストラム平均を求めるので、より正確に回線特性を正規化できる。特にこの方法によると、雑音区間のスペクトル形状を平坦化できるので、ＳＳ法では解決できない、雑音区間の照合精度を改善することができる。
しかし、音声区間と雑音区間との判断は、音声区間の検出精度に依存する。このために、高騒音環境では、音声区間の切り出し精度が低下し、誤ったケプストラム平均値を元に正規化を行うため、認識精度に悪影響を及ぼすという問題がある。以下に、音声検出の問題点を述べる。

[雑音区間の長さ]
ＳＳ法やＥ−ＣＭＮ法では、雑音スペクトルの推定は、音声区間を検出する際に、雑音区間と判断された区間に対して行われる。しかし、実際に信号分析装置を使用する環境において、装置が動作を開始したすぐ後に、音声が発声された場合には、雑音スペクトルを推定するための十分な雑音区間長が得られない。このため、雑音の適応ができない、あるいは誤った雑音を適応するという問題がある。

[音声区間検出の困難性]
静かな環境では、音声区間と雑音区間とは容易に分離できる。このため、音声パワーの時間変化を利用すれば、発声区間を検出するのは比較的容易である。しかし、高騒音環境で、ＳＮ比が低い場合には、音声区間の始点や終点の精度が低下する、発声の区間内であっても、音声は、音声のパワーが大きい一部の区間を除けば、ほとんどの部分が雑音に埋もれる。このため、音声区間と非音声区間との差が曖昧になり、音声区間を検出することが困難となる。

このようなＳＮ比が低い音声の発声区間を周波数分析し、対数変換したスペクトルを観察すると、音声のパワーが優位な周波数帯域では、音声のスペクトルが表される。一方、それ以外の雑音のパワーが優位な周波数帯域では、雑音のスペクトルが表される。すなわち、音声の発声区間であっても、帯域により、雑音を表している場合がある。このため、従来の方法のように、全周波数帯域を一括して音声区間と雑音区間とを分離する方法では、回線歪を受けた音声のスペクトル平均を正確に求めることは、難しい。逆に、音声区間が検出できない場合には、本来の音声区間も、雑音区間として処理される。このため、雑音のスペクトル平均さえも正確に求めることもできない。

すなわち、本発明の目的は、高騒音環境下においても音声区間の検出ができないことによる悪影響を低減できる信号分析装置を提供することにある。
また、本発明の別の目的は、雑音区間が全くない音声が入力された場合や、発声中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる信号分析装置を提供することにある。

上記課題を解決するために、本発明の信号分析装置は、入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段と、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、前記抽出された帯域エネルギーを、帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段と、を、有する。

この構成によれば、抽出された帯域エネルギーが、帯域ごとに正規化される。この結果、音声区間の検出を明確に行わなくても、信号分析ができるので、音声区間の検出誤りを避けることができる。また、雑音区間が短い場合に生ずる、雑音の適応ができない、あるいは誤った雑音を適応するというという問題を回避できる。
ここで、正規化とは、雑音の種類や大きさ、回線の特性、マイクへの入力感度などの環境の要因により生ずる、入力される信号のエネルギー分布が移動する量を少なくすることを意味する。具体的には、正規化は、信号のエネルギー分布の平均を減算して、直流成分を減衰させる方法、環境雑音の値を減算する方法などにより行う。また、本明細書中では、正規化には、入力レベルのエネルギー分布の広がり方を制御することも含まれる。

本発明の信号分析装置は、前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、直流成分を減衰させる低域遮断フィルタで構成されていてもよい。この構成によれば、入力信号の直流成分を含めて低周波成分を減衰するので、最も簡単な構成で正規化することができる。

本発明の信号分析装置は、前記抽出された帯域エネルギーの系列から、帯域ごとの条件付平均値を、第１のレベルとして計算するレベル計算手段を、有し、前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の第１のレベルを所定の係数で乗じた値を減算するものであってもよい。

この構成によれば、計算された第１のレベルを用いて、入力信号の当該帯域エネルギーが正規化される。すなわち、帯域ごとに、より正確な正規化を行うことができる。

なお、帯域エネルギーの平均値は、信号レベルと雑音レベルの２つに限られず、雑音Ａのレベルと雑音Ｂのレベル、あるいは特定の信号Ｘのレベルと特定の信号Ｙのレベルなど、信号分析装置の使用環境や使用用途により、２つ、あるいは３つ以上のレベルに分類することができる。本明細書中では、これら複数のレベルのうち、基準となるレベルを第１のレベルと呼び、それ以外のレベルを、第２のレベル、第３のレベルなどという。なお、本明細書中では、主として、第１のレベルとして雑音のレベルを、第２のレベルとして音声のレベルを、用いている。

雑音レベルは、入力された帯域エネルギーのうち、雑音を表現していると想定される、エネルギー分布が相対的にエネルギーが低い集合の平均を示し、音声レベルは、同じく、音声を表現していると推定される、エネルギー分布が相対的にエネルギーが高い集合の平均を示す。本明細書中で、これらの雑音レベルまたは音声レベルのように、エネルギーの高低のような条件の下で分割したエネルギーの平均を「条件付平均」ということがある。

本発明の信号分析装置において、雑音と音声のような条件を採用した場合、エネルギー分布の中で、相対的にエネルギーの低い集合と高い集合とを、離散的に区分するのではなく、中間的な入力範囲を連続的に扱うことが望ましい。すなわち、音声区間を検出せずに、フレームごとに、帯域エネルギーの大きさから、音声らしさ、雑音らしさを連続値で判断することが望ましい。

また、上記信号分析装置は、前記レベル計算手段では、前記第１のレベルの計算に加え、前記抽出された帯域エネルギーの系列から、第１のレベルとは異なる、帯域ごとの条件付き平均値の少なくとも１つを、第２のレベルとして計算し、前記正規化手段では、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域の第１のレベルおよび第２のレベルをそれぞれ所定の係数で乗じた値を減算するものであってもよい。

この構成によれば、計算された第１のレベルと第２のレベルとを用いて、帯域エネルギーが正規化され、計算された音声レベルを用いて、帯域エネルギーからの減算量が決定されるので、より正確な正規化が可能となる。なお、第１のレベルとは異なる、帯域ごとの条件付き平均値は、１つには限られず、複数あってもよい。

上記信号分析装置は、前記帯域エネルギーの値に応じて１つまたは複数の正規化係数を求める正規化係数取得手段をさらに有し、前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の前記第１のレベルまたは前記第１のレベルおよび複数のレベルに前記正規化係数を乗じた値を減算するものであってもよい。

この構成によると、１つまたは複数の帯域ごとの条件付平均値に対応する、帯域エネルギーの値に応じた１つまたは複数の正規化係数が求められる。この結果、１つまたは複数の条件付平均値を反映して減算量を調整できるので、より正確な正規化が可能となる。

本発明の信号処理装置は、信号の正規化を逐次的に行う信号処理装置であって、入力信号に基づいて第１のレベルを更新し、記憶するレベル計算手段と、前記第１のレベルに所定の係数を乗じた値を、入力信号から減算する正規化手段と、前記第１のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得手段とを、備え、前記レベル計算手段では、前記更新係数を用いて、第１のレベルを、入力信号に近づけることにより、第１のレベルを、入力信号の条件付平均値とするものである。

この構成によれば、例えば特定の周波数帯域における入力信号などの、一次元の入力信号についても、正規化して、信号処理を行うことができる。すなわち、入力エネルギーのエネルギー分布の広がりを入力エネルギーの高低などから検出し、更新係数を求めて、第１のレベルを、入力信号に近づけることにより、入力信号のエネルギー分布が、環境により変動することを抑制できる。

上記信号処理装置は、前記第１のレベルと前記入力信号との差に基づいて、正規化係数を取得する正規化係数取得手段を備え、前記正規化手段では、前記第１のレベルに正規化係数を乗じた値を、入力信号から減算し、入力レベルに応じて減算量を制御するものであってもよい。

また、上記信号処理装置は、前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、前記更新係数取得手段では、前記第１のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、前記レベル計算手段では、前記複数のレベルの更新係数を用いて、前記求められた複数のレベルを、更新して、入力の分布に適した正規化を行うものであってもよい。

さらに、上記信号処理装置は、前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、前記更新係数取得手段では、前記第１のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、前記正規化係数取得手段では、複数のレベルに対応した複数の正規化係数を求め、前記正規化手段では、前記複数のレベルのそれぞれに対応した正規化係数を、それぞれのレベルに乗じた値を、入力信号から減算し、入力のレベルに応じて適した正規化を行うものであってもよい。

上記信号分析装置は、各帯域でのレベル計算手段および正規化手段では、上記信号分析装置を用いる構成としてもよい。すなわち、各帯域での信号処理手段として、本発明の信号処理装置を用いることができる。

上記信号分析装置は、低周波に属する帯域と、高周波に属する帯域とでは、所定の係数を異なる値とすることができる。この構成によれば、雑音領域と音声領域とのように、周波数により信号のエネルギー分布が異なる場合に、正確に正規化できる。

上記の信号分析装置は、各時刻の入力信号から得られた帯域ごとの帯域エネルギーを、対数エネルギーとして処理するものであれば好ましい。対数で正規化を行うと、回線特性による歪の影響を除去することができるからである。

本発明の音声認識装置は、上記信号分析装置と、信号分析装置から得られた帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手段を有し、前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識部とを、有するものである。本発明の信号分析装置を用いると、雑音や回線特性による歪に強い音響パラメータが得られるので、音声認識装置に用いると、音声認識精度を向上させることができる。

上記音声認識装置は、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）パラメータの抽出過程において、各帯域エネルギーの正規化を行うものであってもよい。この構成によると、正規化された帯域エネルギーからケプストラムパラメータへ線形変換を行うことにより、正規化されたケプストラム係数を求めることができる。

上記信号分析装置をコンピュータに実行させるための信号分析プログラムであってもよいし、上記信号処理装置をコンピュータに実行させるための信号分析プログラムであってもよい。また、上記音声認識装置をコンピュータに実行させるための音声認識プログラムであってもよい。
またこれらのプログラムを記録したコンピュータ読み取り可能な記録媒体であってもよい。

また、上記音声認識装置を有する電子機器であって、入力信号に含まれる音声信号を前記音声認識装置により認識した結果に基づいて、機能を選択し、実行するものであってもよい。本発明の電子機器は、雑音や回線特性による歪の影響を受けにくい。この結果、家庭で使用する音声認識型のリモコンや、携帯電話などの電子機器として利用するのが好ましい。

本発明の信号分析装置は、以下の効果を有する。
（１）本発明では、全周波数帯域における音声区間を検出せずに、周波数帯域ごとに得られた各時刻の入力信号からの帯域エネルギーを用いて、帯域ごとに別個に、条件付帯域エネルギーのレベルを計算し、各帯域エネルギーを正規化する。すなわち、音声の発声区間であっても、雑音エネルギーが優位な帯域については、雑音区間として処理され、音声のエネルギーが優位な帯域のみが音声区間として処理される。この結果、入力信号の回線特性をより正確に正規化できる。

本発明の信号分析装置においても、音声と雑音とが混在する場合には、帯域ごとの音声と雑音との判断を誤る場合はある。しかし、帯域ごとに別個に、音声と雑音とを区別するので、帯域全体で、音声と雑音とを区別する場合に比べて、その影響を低減できる。すなわち、本発明の構成によれば、音声区間と雑音区間との区間検出誤りを低減できる。

（２）本発明の信号分析装置では、帯域ごとに帯域エネルギーの正規化を行う際に、対数スペクトル領域で、正規化処理を行う。対数スペクトル領域で正規化処理を行うと、対数スペクトルの線形変換（コサイン変換）であるケプストラム係数で補正を行うＣＭＮ法と同様の効果が得られる。この結果、マイクロホンなどの影響による回線特性の歪を正規化することができる。すなわち、音声認識時の雑音スペクトルが、学習時の雑音スペクトルと異なっていても、認識精度が大幅に劣化することを防止できる。なお、ＳＳ法のように、振幅レベルで減算を行うこともできるが、回線特性の歪を正規化することができない。

また、本発明の信号分析装置では、帯域ごとに雑音レベルと音声レベルとを別個に求めて、帯域ごとの雑音レベルまたは帯域ごとの音声レベルを正規化するので、Ｅ−ＣＭＮ法と同様の効果が得られる。

（３）本発明の信号分析装置では、抽出された帯域エネルギーの系列から、音声と雑音との判断を行う。すなわち、発声区間であっても、一部の帯域は、雑音として判断される。このため、スペクトル形状の異なる音素からなる発声であれば、音声発声区間内に、ほぼ全周波数帯域の雑音レベルの推定が完了する。すなわち、本発明の信号分析装置では、雑音区間が存在しなくても、雑音レベルの推定が可能となる。

本発明の信号分析装置は、特に、電池駆動を前提とした携帯型機器に用いることが望ましい。電池駆動をする携帯型機器では、電池の消費量を抑えるために、発声のときだけ、入力信号が分析される。すなわち、雑音区間が存在しない使用態様であっても、等価的に雑音スペクトルが推定できるので、回線特性の歪のみならず、雑音などの歪も正規化することができる。

以下に、本発明を実施するための最良の形態を、図面を参照しながら説明する。なお、本発明は、これらによって限定されるものではない。本発明を実施するための最良の形態は、ＭＦＣＣ法と、Ｅ−ＣＭＮ法と、比較しながら説明する。

[ＭＦＣＣ法の構成]
図２は、従来のＭＦＣＣ分析を行う信号分析装置の構成を示すブロック図である。図中、１０１は、周波数分析手段を、１０２は、パラメータ変換手段を示す。周波数分析手段１０１では、図１の周波数分析ステップ（ステップＳ２０１）の処理を行い、パラメータ変換手段１０２では、図１のパラメータ変換ステップ（ステップＳ２０２）の処理を行う。

[Ｅ−ＣＭＮ法の構成]
図３は、ＭＦＣＣ法を用いた従来のＥ−ＣＭＮ法による分析を行う信号分析装置の構成を示すブロック図である。この図では、図３のＭＦＣＣ分析を行う信号分析装置の構成に、さらに入力信号から、音声区間を検出する音声区間検出手段２０３と、平均更新手段２０１と、減算処理手段２０２とが追加された構成となっている。入力された音声は、周波数分析手段１０１とパラメータ計算手段１０２とで、処理することにより、ＭＦＣＣが求められる。入力された音声は、同時に音声区間検出手段２０３で、音声区間が検出される。平均更新手段では、パラメータ計算手段１０２から、得られた平均ケプストラムを、音声区間検出手段２０３で得られた音声区間情報を用いて、更新する。具体的には、音声区間であれば、音声の平均ケプストラムを更新し、非音声区間であれば、雑音の平均ケプストラムを更新する。減算処理手段２０２では、音声区間検出手段２０３で得られた音声区間情報を用いて、音声区間であればパラメータ計算手段１０２から出力された現在のケプストラムから、音声の平均ケプストラムを減算し、非音声区間であれば、パラメータ計算手段１０２から出力された現在のケプストラムから、雑音の平均ケプストラムを減算する。

音声区間検出方法としては、フレームごとの短時間信号パワーや、フレームごとのスペクトルの概形を用いて、音声区間を検出することが一般に行われている。これらの方法には、携帯電話などの音声通話に用いられる標準的な方法が用いられている。

[本発明の構成]
図４は、本発明の信号分析装置の構成を示す図である。本発明では、図４のＭＦＣＣ分析に用いる信号分析装置の周波数分析手段１０１と、パラメータ計算手段１０２との間に、帯域ごとに、更新係数取得手段３０１と、レベル計算手段３０２と、正規化手段３０３と、正規化係数取得手段３０４と、が設けられている。また、本発明の周波数帯域分析手段１０１は、入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段３０５と、この各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段３０６とから構成される。

更新係数取得手段３０１では、信号が入力される時刻より前に計算された雑音レベルや音声レベルと、前記周波数分析手段１０１で求めた現在の帯域ごとの帯域エネルギーとを比較し、レベル計算手段３０２でレベルの更新に用いられる更新係数を得る。

レベル計算手段３０２では、前記更新係数取得手段３０１で得られた更新係数を用いて、入力エネルギーと、雑音レベルや音声レベルとの差をもとに、雑音レベルや音声レベルを更新し、記憶する。具体的な方法は、後述する。

正規化係数取得手段３０４では、上記更新係数取得理手段３０１と同様に、信号が入力される時刻より前に計算された雑音レベルや音声レベルと、前記周波数分析手段１０１で求めた現在の帯域ごとの帯域エネルギーとを比較し、正規化手段３０３で用いる正規化係数を計算する。

正規化手段３０３では、前記正規化係数取得手段３０４で求めた正規化係数と、前記レベル計算手段３０２で求めた音声レベルや雑音レベルを用いて、前記周波数分析手段１０１で求めた現在の帯域エネルギーを正規化し、出力する。

この実施形態では、更新係数取得手段３０１と正規化係数取得手段３０４とを別の構成にしているが、両者は類似した処理を行うため、更新係数取得手段３０１と正規化係数取得手段３０４とを、同一の構成としてもよい。

ＣＭＳ法やＥ−ＣＭＮ法の文献における実装では、単語や文章を発声した時の毎回の音声を蓄えて、その音声レベルのレベルを求めて正規化して認識を行う、あるいは１回前の発声のレベルを用いて正規化をするように記載されている。しかし、発声が終了してから認識処理を行うのは、応答が遅いために現実的ではない。また、携帯型の装置などでは、１回前の使用環境が、現在の使用環境と同じである保証はない。そこで、本実施の形態では、発声ごとのレベルや、１回前の発声のレベルではなく、実時間に雑音レベルなどを更新し、この更新された雑音レベルを用いて、実時間で帯域エネルギーを正規化する態様を説明する。なお、本発明の信号分析装置は、発声ごとのレベルや、１回前の発声のレベルを用いて帯域エネルギーを正規化することとしてもよい。

[動作]
図５は、本発明にかかる信号分析処理の流れを示すフローチャートである。図６は、本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規化係数、正規化帯域エネルギーとの対応関係を示す図である。以下に、本発明の信号分析の処理を図５と図６を用いて、詳細に説明する。なお、雑音は低いエネルギーで、音声は高いエネルギーであることを利用して、更新係数や正規化係数を適用する。

周波数分析ステップ（ステップＳ２０１）と、パラメータ分析ステップ（ステップＳ２０２）とで、行う処理は図１の処理と同様である。

本発明の信号分析装置は、２以上の帯域に分割できれば、原理的には動作する。また、周波数軸としては、メル周波数軸以外にも、パーク周波数軸や線形周波数軸であっても、動作する。なお、音声認識を目的として、信号分析を行う場合には、周波数分析における帯域分割数や周波数スケールは、ＭＦＣＣに準拠した値でよく、分割数は１０から３０程度が妥当である。例えば、１１ｋＨｚでサンプリングした音声であれば、メル周波数軸上で２４帯域に分割し、１２次元のケプストラムへ変換する構成であれば、有効であることが、実験により確認されている。従来のＭＦＣＣの処理における周波数分析ステップと、パラメータ変換ステップの処理を、本発明の信号分析装置に流用することで、処理量が増加することを抑制できる。

ステップＳ２０３〜ステップＳ２０５で行う処理は、帯域ごとに独立して行われる。係数取得ステップ（ステップＳ２０３）では、周波数分析ステップ（ステップＳ２０１）で求められた帯域エネルギーと、入力信号の入力時刻以前に求められた帯域ごとの雑音レベルとの差から、更新係数および正規化係数を求める。次に、帯域ごとに求められた更新係数を元に、前記帯域の雑音レベルを更新する（ステップＳ２０４）。次に、ステップＳ２０４で更新された、帯域の雑音レベルと、正規化係数を用いて、その帯域の帯域エネルギーを正規化する（ステップＳ２０５）。正規化された帯域エネルギーは、ケプストラム係数に変換する（ステップＳ２０２）。

なお、本実施形態では、音声認識に一般的に用いられるケプストラム係数に変換した。しかし、必ずしもケプストラム係数に変換する必要はなく、正規化されたエネルギーをそのまま出力する構成としてもよい。

[更新基準]
次に、図６を用いて、更新係数を用いて、帯域エネルギーにおける雑音レベルを更新する方法について説明する。図６（ｃ）は、入力帯域エネルギーと更新係数との関係を示す図である。
なお、雑音レベルを推定する方法としては、入力エネルギーのヒストグラムを計算して、下方の数％を雑音レベルとして採用する方法もある。しかし、ヒストグラムを計算するためにはある程度長い入力が必要となる。このため、次に説明する、実時間で逐次的に雑音レベルを更新する処理を行うのが、好ましい。

時刻ｔでの雑音レベルをＮ（ｔ）、入力帯域エネルギーをＥ（ｔ）、更新係数をα（ｔ）とすると、雑音レベルＮ（ｔ）の更新は例えば次のように行う。なお、雑音レベル、入力帯域エネルギーの単位は、デシベル（ｄＢ）を基準と考える。

Ｎ（ｔ）＝（１−α（ｔ））＊Ｎ（ｔ−１）＋α（ｔ）＊Ｅ（ｔ）…式（１）

α（ｔ）＝０（Ｎ（ｔ−１）＋Ｒ＜Ｅ（ｔ）のとき）

α（ｔ）＝Ａ＊（１−（Ｅ（ｔ）−Ｎ（ｔ−１））／Ｒ）
（Ｎ（ｔ−１）＜Ｅ（ｔ）≦ Ｎ（ｔ−１）＋Ｒのとき）

α（ｔ）＝Ａ（Ｅ（ｔ）≦ Ｎ（ｔ−１）のとき）

ここで、Ａは、最大の更新係数を示し、０以上、１以下の値である。Ａは、例えば０．０２程度の値とする。Ｒは、雑音と音声のエネルギーの境界範囲を示し、例えば２ｄＢ程度とする。この更新係数は、入力された帯域エネルギーの時系列の中で、特に低いエネルギーが分布している場合の平均値を求めることができるので、雑音レベルを更新することができる。

上記式において、（α（ｔ）／Ａ）は、雑音らしさ示す指標と考えることができる。
雑音レベルの初期値Ｎ（０）を、Ｎ（０）＝Ｅ（１）とすれば、素早い立ち上がり特性が得られ、良い認識結果が得られることが、実験的に確かめられている。

上記の式を用いて雑音レベルを更新すれば、雑音の下方への変化に対しては、比較的速く追従し、上方への変化に対しては、徐々に追従速度が遅くなり、１フレームの間にＲ（ｄＢ）よりも大きな雑音の増加がある場合は、全く追従しない。このような雑音の変化速度への追従は、ＡとＲのパラメータによって制御することができる。Ａを０．０２とした場合は、０．５Ｈｚ程度よりも遅い雑音の変化に対しては、上方へも追従するようになる。一般に音声の変化速度は、１秒間に数個から十数個の音素が入れ替わることから、数Ｈｚから数十Ｈｚの成分が多い。一方、背景雑音はそれよりも遅い場合が多い。ただし、突発性の雑音により、急激に雑音エネルギーが上昇することがあると、その後追従できなくなる。このため、α（ｔ）の下限を０ではなく、微小な値、例えば０．００１程度とすることで、数秒の後に追従するように設定することができる。
これらのパラメータの動作確認には、帯域ごとのエネルギー変化速度を調整した人工的なデータを入力することにより、追従速度を確認することができる。

時刻ｔでの音声レベルをＳ（ｔ）、入力帯域エネルギーをＥ（ｔ）、更新係数をγ（ｔ）とすると、音声レベルＳ（ｔ）の更新は例えば次のように行う。

Ｓ（ｔ）＝（１−γ（ｔ））＊Ｎ（ｔ−１）＋γ（ｔ）＊Ｅ（ｔ）… 式２

γ（ｔ）＝Ｃ（Ｎ（ｔ−１）＋Ｒ＜Ｅ（ｔ）のとき）

γ（ｔ）＝Ｃ＊（Ｅ（ｔ）−Ｎ（ｔ−１）／Ｒ）
（Ｎ（ｔ−１）＜Ｅ（ｔ）≦ Ｎ（ｔ−１）＋Ｒのとき）

γ（ｔ）＝０（Ｅ（ｔ）≦ Ｎ（ｔ−１）のとき）

ここで、Ｃは、最大の更新係数を示し、１以下の値である。Ｃは、上記Ａと同様に、例えば０．０２程度の値とする。Ｒは、雑音と音声のエネルギーの境界範囲を示し、上記雑音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。この更新係数は、入力された帯域エネルギーの時系列の中で、特に高いエネルギーが分布している場合の平均値を求めることができるので、音声レベルを更新することができる。
初期値Ｓ（０）には、前回の発声における最後のＳ（ｔ）を用いることが好ましい。最後のＳ（ｔ）が得られない場合には、Ｓ（０）＝０を用いることで、よい結果が得られることが、実験的に確認されている。ここで、（γ（ｔ）／Ｃ）は、音声らしさを示す指標と考えることができる。

音声レベルに関しては、更新を行わず、固定的な値を用いることもできる。この場合には、多量の音声データから、平均的な音声レベルを計算して用いることが、効果的である。

雑音レベルと音声レベルとを更新するためには、入力信号の時系列から雑音区間か、音声区間かを判断することが必要である。式１および式２では、両区間の検出は２値的に求めるのではなく、中間的な値をとることができる（図６（ｃ））。雑音区間と音声区間との判断は、周波数帯域ごとに行われる。このため、各帯域で判断された雑音区間と音声区間とは、他の帯域で判断された雑音区間と音声区間とは異なる。さらに、各帯域で判断された雑音区間と音声区間とは、実際の話者の発声区間とも異なる。

更新係数は、全ての周波数帯域で共通である必要はない。帯域ごとに異なる更新係数を、予め保持しておくことにより、帯域ごとに最適な更新係数を適応をすることができる。
例えば、低周波数帯域での雑音が比較的ゆっくりと変動する場合には、低周波数帯域の更新係数の最大値Ａを小さくすることで、音声入力に対して誤って追従して更新される危険性が少なくなる。

［雑音レベル、音声レベルの簡略取得例］
雑音レベルを求める方法として、入力時刻まで入力エネルギーの最小値を雑音レベルとすることもできる。これは、上記式（１）において、エネルギーの境界範囲を０ｄＢとし、最大の更新係数１とした場合と考えることができる。また、音声レベルについても、入力時刻まで入力エネルギーの最小値を音声レベルとすることもできる。これは、雑音は低いエネルギーで、音声は高いエネルギーであることを利用したものである。
雑音レベル、音声レベルを求める方法としては、この例に限られるものではなく、エネルギー分布の範囲内で、低い値と高い値とを求めることができる方法であれば、雑音レベル、音声レベルを求めることができる。

［正規化基準］
次に、図６を用いて、正規化係数を用いて、帯域エネルギーを正規化する方法について説明する。図６（ｂ）は、入力帯域エネルギーと正規化係数との関係を示す図である。

時刻ｔでの雑音レベルをＮ（ｔ）、入力帯域エネルギーをＥ（ｔ）、正規化係数をβ（ｔ）とすると、正規化帯域エネルギーＥ’（ｔ）の更新は例えば次の式により求められる。なお、雑音レベル、エネルギーの単位は、デシベル（ｄＢ）とする。

Ｅ’（ｔ）＝Ｅ（ｔ）−β（ｔ）＊Ｎ（ｔ）… 式３

β（ｔ）＝０（Ｎ（ｔ−１）＋Ｒ＜Ｅ（ｔ）のとき）

β（ｔ）＝Ｂ＊（１−（Ｅ（ｔ）−Ｎ（ｔ−１））／Ｒ）
（Ｎ（ｔ−１）＜Ｅ（ｔ）≦ Ｎ（ｔ−１）＋Ｒのとき）

β（ｔ）＝Ｂ（Ｅ（ｔ） ≦ Ｎ（ｔ−１）のとき）

ここで、Ｂは、最大の減算量を示し、１以下の値である。Ｂは、例えば０．５程度の値とする。Ｒは、雑音と音声のエネルギーの境界範囲を示し、例えば２ｄＢ程度とする。上記更新係数での境界領域と同じ値としてもよいし、異なる値としてもよい。

次に、雑音レベルに加え、音声レベルＳ（ｔ）を用いて、帯域エネルギーを正規化する方法を説明する。音声レベルを用いた帯域エネルギーの正規化は、例えば、下式により計算できる。

Ｅ’（ｔ）＝Ｅ（ｔ）−β（ｔ）＊Ｎ（ｔ）−δ（ｔ）＊Ｓ（ｔ）… 式４

δ（ｔ）＝Ｄ（Ｎ（ｔ−１）＋Ｒ＜Ｅ（ｔ）のとき）

δ（ｔ）＝Ｄ＊（Ｅ（ｔ）−Ｎ（ｔ−１））／Ｒ
（Ｎ（ｔ−１）＜Ｅ（ｔ）≦ Ｎ（ｔ−１）＋Ｒのとき）

δ（ｔ）＝０（Ｅ（ｔ） ≦ Ｎ（ｔ−１）のとき）

ここで、Ｄは、最大の減算量を示し、１以下の値である。Ｃは、上記Ｂと同様に、例えば０．５程度の値とする。Ｒは、雑音と音声のエネルギーの境界範囲を示し、上記雑音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。

この例では、入力エネルギーＥ（ｔ）と、雑音レベルＮ（ｔ）との差を用いて、音声レベルの正規化係数を求めた。この方法を用いると、話者や回線の特性による認識精度の低下を低減できる。なお、入力エネルギーＥ（ｔ）と、音声レベルＳ（ｔ）との差を用いて、音声レベルの正規化係数を求めることもできる。

この例では、帯域エネルギーを正規化するために、音声レベルや雑音レベルに所定の計算で求めた係数を掛けて減算する方法を示した。しかし、正規化を行うためには、この方法に限られず、例えば、入力エネルギーを音声レベルで割るなどの除法による方法でも、正規化の効果が得られる場合がある。入力のダイナミックレンジや環境変化の大きさに応じて、適宜正規化方法を変える構成としてもよい。

図６（ａ）は、式３と式４とを用いて、入力された帯域エネルギーに対する正規化帯域エネルギーの関係を示す図である。雑音レベルと音声レベルとを両方用いる場合を、Ｅ’＝Ｅ−β＊Ｎーδ＊Ｓのグラフに示す。Ｄ＝０とした場合雑音のエネルギーだけを用いる場合を、Ｅ’＝Ｅ−β＊Ｎのグラフに示す。各帯域の雑音レベルと音声レベルの大きさに応じて、適宜適用する正規化係数を変えて、帯域エネルギーを正規化することができる。この他にも、使用する環境が、非常に雑音の安定した場所である場合などには、雑音の適用は必要なくなるので、Ｂ＝０とすることで、音声レベルのみを使用することができる。

［低域遮断フィルタを用いる場合］
雑音と音声との境界領域の幅Ｒ（ｄＢ）を非常に大きな値とした場合には、ほぼ全区間で雑音レベルを一定の更新係数Ａで更新し、ほぼ全区間の入力帯域エネルギーに対して一定の正規化係数Ｂで減算することになる。これを簡単に実現するには、図１５に示すように、各帯域に低域遮断フィルタを設ける構成とすればよい。図１５は、正規化手段として低域遮断フィルタ３０７を用いた本発明の信号分析手段の構成を示す図である。すなわち、入力信号を周波数分析した後、各帯域のエネルギーについて低域遮断を行い、その後音声パラメータへと変換することにより、ある程度の正規化の効果が得られる。この場合の低域遮断フィルタは、音声によるスペクトルの変化速度である１Ｈｚから１０Ｈｚ程度よりも低い周波数、すなわち１Ｈｚ以下が好ましい。

この構成の実現の例として、ｔをフレーム、低域遮断フィルタへの入力をｘ（ｔ）、出力をｙ（ｔ）として、

ｙ（ｔ）＝ｘ（ｔ）−ｚ（ｔ）
ｚ（ｔ）＝ｘ（ｔ）*０．０２＋ｚ（ｔ）*０．９８

のような処理を行うと、フレーム周期が１０ｍｓであれば、０．５Ｈｚで、−１ｄＢ、０．２４Ｈｚで、約−３ｄＢ、０Ｈｚで、−５．７ｄＢの減衰特性となる。この構成の実現するためには、上記式に従うものに限られない。
また、周波数帯域の低域と高域とで、雑音の変化速度が異なるような環境では、帯域ごとに異なる特性の低域遮断フィルタで構成することにより、より使用環境に適した性能改善を図ることができる。

［スペクトルからみた本実施の形態の動作］
次に、本発明の実施の形態を、図に基づいてスペクトルの視点で説明する。

図７は、音声波形を含む音響信号の例を示す図である。図中、横軸は時間を、縦軸は振幅を示す。この図では、時間ｔ１からｔ２の区間が発声区間を表し、表示されている時間の全体に騒音が含まれていることを示している。

図８は、図７に示した音声波形を含む音響信号のスペクトログラムを簡略化した図である。図中、横軸は時間を、縦軸は周波数を示す。時間ｔ１からｔ２の区間が発声区間を表す。実際のスペクトルは、連続値であるが、この図の例では、簡単のため他の部分より相対的にエネルギーが高い領域を、閉曲線で閉じ、網掛けで、示している。

図９は、図８に示したスペクトルを従来のＥ−ＣＭＮ法を用いて正規化する場合の正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区切りは、分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは、周波数帯域を示す。他の部分より相対的にエネルギーが高い領域を、閉曲線で閉じている。また、網掛けされている部分は、音声区間としての適用範囲であり、それ以外の部分は雑音区間としての適用範囲である。

Ｅ−ＣＭＮ法を用いる場合、ケプストラム係数を正規化するに際して、周波数帯域を選択して正規化することはできない。このため、音声区間と判断された時間ｔ１からｔ２の区間では、音声のケプストラム係数が更新され、それ以外の区間では、雑音のケプストラム係数が更新される。更新されたケプストラム係数を用いて、それぞれの区間のケプストラムを正規化する。このため、音声区間に、雑音が含まれている場合には、誤ってケプストラム係数が更新されることになる。

図１０は、図８に示したスペクトルを、本発明の信号分析装置を用いて正規化する場合の正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区切りは、分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは、周波数帯域を示す。また、網掛けされている部分は、音声区間としての適用範囲であり、それ以外の部分は雑音区間としての適用範囲である。

本発明の場合、帯域ごとに音声区間と雑音区間とを判断する。この結果、音声の発声区間（ｔ１〜ｔ２）に、関係なく、周囲の雑音より高いエネルギーを持つ帯域とフレーム（図の網掛け部分）では、その帯域の音声レベルが更新され、この更新された音声レベルを用いて帯域エネルギーが正規化される。それ以外の部分では、音声の発声区間（ｔ１〜ｔ２）であっても、エネルギーが低く、雑音区間と判断されるので、その帯域の雑音レベルが更新され、この更新された雑音レベルを用いて帯域エネルギーが正規化される。

すなわち、本発明によれば、音声区間判断の際に、従来のように明らかな非音声区間が存在しなくてもよい。複数の種類の音素が含まれる音声であれば、音声区間に含まれる全ての帯域において、雑音レベルを更新できる。

なお、図１０では、簡単のため、図中に網掛け部分を設けて、音声区間と雑音区間とは、明確な境界が存在するように図示した。しかし、式１〜式４からわかるように、音声区間と雑音区間とは、明確な境界が存在しない。実際は、帯域エネルギーの雑音レベルＮ（ｔ）からＮ（ｔ）＋Ｒの範囲で、徐々に切り替わるように処理を行う。Ｒ＝０の場合にのみ、図１０のような明確な境界が形成される。

［雑音区間のない入力の例］
図１１は、図７に示す音声波形を含む音響信号が入力された場合に、Ｅ−ＣＭＮ法による雑音スペクトルの適応が進行する様子を示す図である。図１２は、図７に示す音声波形を含む音響信号が入力された場合に、本発明の信号分析装置による雑音スペクトルの適応が進行する様子を示す図である。図中、網掛け部分は、雑音が正しく推定された帯域とフレームとを示す。

ここでは、特に雑音区間がない入力の例として、発声開始時刻と同じ時刻ｔ１から装置への入力が開始した場合を示す。電池駆動の携帯型装置では、音声入力が、ボタンなどの指示で開始する。このような場合に、雑音区間がない入力が行われると、考えられる。

無響室などの特殊な場合を除き、入力雑音のレベルが事前にわからない実環境用のシステムにおいて、雑音区間が存在しない入力音声に対しての音声切り出しは不可能である。この場合に、最初の入力フレームを、音声と解釈するか、雑音と解釈するかは、システムの設計による。

最初の入力フレームを雑音と解釈するシステムの場合に、Ｅ−ＣＭＮ法を適用すると、図１１の時刻ｔ１からｔ２までの発声区間は、全て雑音区間として認識される。このため、誤った雑音スペクトルが推定される。これにより、第１発声は、雑音として平坦化されるため、認識することができなくなる。そして、音声の入力が終わるｔ２以後に、本来の雑音レベルの推定がされる。

一方、最初の入力フレームを音声と解釈するシステムの場合であっても、Ｅ−ＣＭＮ法を適用すると、図１１の時刻ｔ１からｔ２までの発声区間雑音スペクトルが推定できない。このため、ｔ２付近の語尾の認識精度に問題を生ずる。

最初の入力フレームを雑音と解釈するシステムの場合に、本発明の信号分析装置を用いると、音声の優位な帯域では、雑音スペクトルの推定誤りを生ずる。しかし、スペクトル形状が変化し、帯域の音声パワーが雑音パワー以下になった時点で、その帯域の雑音パワーが推定される。図１２の例では、発声に終了する時刻ｔ２よりも早い時刻ｔ３で、雑音パワーの推定が終了する。したがって、時刻ｔ３からｔ２の間では、正しく雑音スペクトルを正規化できる。すなわち、本発明の信号分析装置を用いると、Ｅ−ＣＭＮ法を用いる場合よりも、早く正しい正規化が可能となる。また、雑音の推定が完了した帯域では、完了時刻以降に、その帯域のパワーが上昇すると、音声パワーが推定されるので、発声の途中から、精度の良い音声認識が可能となる。

このように、本発明の信号分析装置を用いると、ボタンなどによって音声入力開始を指示する装置であっても、最初の発声から高精度の音声認識を行うことができる。

以上説明したように、本発明の信号分析装置では、音声発声中にも雑音スペクトルの推定ができる。この結果、発音中に、徐々に雑音スペクトルが変化するような場合でも、その変化がゆっくりと進むものであれば、雑音の変化に適応して、正規化を行うことができる。したがって、本発明の信号分析装置を音声認識装置に適用すれば、より安定した音声認識ができる音声認識装置が得られる。

［音声認識装置とその認識方法］
図１３は、本発明の音声認識装置を用いた音声認識システムの例を示すブロック図である。音声認識システムは、一般に音響モデル学習装置４０１と、音声認識装置４０２とを有して構成される。

音声データベース４０３は、音響モデルを学習するためのものである。主として、パーソナルコンピュータや、ワークステーションの固定ディスクなどに格納されている。４０４は、本発明の信号分析装置を用いた信号分析手段である。実際は、図６に示す構成のものや、図６で示す構成に、さらに音響パラメータの時間的な変化量を求める部分を追加した構成で、使用される。４０５は、音響モデル学習手段であり、音声データベースの発声内容を記録した言語データベース４０６と、前記信号分析手段４０４の出力から、統計的に各音素あるいは各音節といった音声単位毎に統計を求める。モデルは一般に隠れマルコフモデルを用いる場合が一般的である。

４０７は、音響モデル学習手段４０５で求めた音響モデルを示す。４０８は別途作成した言語辞書である。言語辞書４０８は、単語を音素列で表した単語辞書や、単語間の接続制限を規定した文法データを含む。言語辞書４０８の作成は、手作業で行ってもよく、言語データベース４０６に含まれる文章から単語間の接続確率を統計で求めてもよい。

４０９は、信号分析装置４０４と同様の信号分析を行う信号分析手段である。４１０は、尤度演算手段を示し、前記音響モデル４０７の各統計量と、信号分析手段４０９で求めた音響パラメータから、各時刻の入力信号に対する各音声単位の尤度を求める。４１１は、照合手段であり、求められた各音声単位の尤度の時系列から尤もらしい言語的な仮説の尤度を計算し、尤度の高い順に候補を出力する。音声認識方法としては尤度演算や照合手段を明確に分離しない実装もあり得る。

［プログラム、電子機器］
音声認識は、一般に、汎用あるいは信号処理用のＣＰＵを用いて、デジタル処理で、実行される。図１４は、本発明の音声認識装置や、本発明の音声認識装置を含んだ電子機器の構成を示す図である。

５０１は、パーソナルコンピュータを始めデジタル機器におけるデータやアドレスのバスを示す。各処理手段は、このバスに接続されており、各々の処理を行う。５０２は、ボタンやキーボード、マイクなどの複数の入力手段を示す。音声入力は、マイクから入力される場合に限られず、別の機器で電気信号に変換されたものを、通信回線を介して入力する場合もある。５０３は、入力手段５０２からの指示に従い、機器を制御し、また入力された音声を音声認識するＣＰＵを示す。５０４は、ＣＰＵが処理するための作業用のメモリ、および、音声認識プログラムを含むプログラムメモリである。５０５は、ディスプレイやブザー、スピーカ、ランプなどの出力装置である。音声を認識した結果は、候補として表示される場合もあるし、認識結果を受けて何らかの処理が行われる場合もあり、さらには処理された結果を表示する場合もある。この電子機器が携帯電話の場合は、これらの処理ブロックに、図示しない無線通信手段が追加される。パーソナルコンピュータや携帯型情報機器などでは、通信手段や外部記憶装置などが追加される。

音声認識装置により認識した結果に基づいて、機能を選択し、実行する例としては、例えばテレビのチャンネルを切り替える、ビデオ装置の再生や停止などの操作、エアコンの温度設定などが挙げられる。また、情報端末の場合であれば、通信の制御、プログラムの実行制御、文字の入力などが挙げられる。

信号分析プログラムあるいは音声認識プログラムを含むこれらの装置の制御プログラムは、プログラム記録媒体に記録された情報処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、ＲＡＭ（ランダム・アクセル・メモリ）とは別体に設けられたＲＯＭ（リード・オンリー・メモリ）でなるプログラムメディアである。または、外部補助記録装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから情報処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、上記ＲＡＭに設けられたプログラム記憶エリア（図示せず）にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからＲＡＭの上記プログラム記録エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているもとする。
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク、ハードディクス等の磁気ディスクやＣＤ（コンパクトディスク）−ＲＯＭ、ＭＯ（光磁気）ディスク、ＭＤ(ミニディスク)、ＤＶＤ（デジタル多用途ディスク）等の光ディスクのディスク系、ＩＣ（集積回路）カードや光カード等のカード系、マスクＲＯＭ、ＥＰＲＯＭ（紫外線消去型ＲＯＭ）、ＥＥＰＲＯＭ（電気的消去型ＲＯＭ）、フラッシュＲＯＭ等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
また、上記実施の形態における音声認識装置あるいは電子機器は、モデムを備えてインターネットを含む通信ネットワークと接続可能となっている。この場合、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。

図１は、ＭＦＣＣを求めるための手順を示すフローチャートである。図２は、従来のＭＦＣＣ分析を行う信号分析装置の構成を示すブロック図である。図３は、ＭＦＣＣ法を用いた従来のＥ−ＣＭＮ法による分析を行う信号分析装置の構成を示すブロック図である。図４は、本発明の信号分析装置の構成を示す図である。図５は、本発明にかかる信号分析処理の流れを示すフローチャートである。図６は、本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規化係数、正規化帯域エネルギーとの対応関係を示す図である。図６（ａ）は、式３と式４とを用いて、入力された帯域エネルギーに対する正規化帯域エネルギーの関係を示す図である。図６（ｂ）は、入力帯域エネルギーと正規化係数との関係を示す図である。図６（ｃ）は、入力帯域エネルギーと更新係数との関係を示す図である。図７は、音声波形を含む音響信号の例を示す図である。図８は、図７に示した音声波形を含む音響信号のスペクトログラムを簡略化した図である。図９は、図８に示したスペクトルを従来のＥ−ＣＭＮ法を用いて正規化する場合の正規化処理を行う範囲を示す図である。図１０は、図８に示したスペクトルを、本発明の信号分析装置を用いて正規化する場合の正規化処理を行う範囲を示す図である。図１１は、図７に示す音声波形を含む音響信号が入力された場合に、Ｅ−ＣＭＮ法による雑音スペクトルの適応が進行する様子を示す図である。図１２は、図７に示す音声波形を含む音響信号が入力された場合に、本発明の信号分析装置による雑音スペクトルの適応が進行する様子を示す図である。図１３は、本発明の音声認識装置を用いた音声認識システムの例を示すブロック図である。図１４は、本発明の音声認識装置や、本発明の音声認識装置を含んだ電子機器の構成を示す図である。図１５は、正規化手段として低域遮断フィルタを用いた本発明の信号分析手段の構成を示す図である。

符号の説明

１０１周波数分析手段
１０２パラメータ変換手段
２０１平均更新手段
２０２減算処理手段
２０３音声区間検出手段
３０１更新係数取得手段
３０２レベル計算手段
３０３正規化手段
３０４正規化係数取得手段
３０５周波数帯域分割手段
３０６帯域エネルギー抽出手段
３０７低域遮断フィルタ
４０１音響モデル学習装置
４０２音声認識装置
４０３音声データベース
４０４信号分析手段
４０５音響モデル学習手段
４０６言語データベース
４０７音響モデル
４０８言語辞書
４０９信号分析手段
４１０尤度演算手段
４１１照合手段
５０１バス
５０２入力手段
５０３ＣＰＵ
５０４プログラムメモリ
５０５出力手段

Claims

入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段と、
前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、
前記抽出された帯域エネルギーを、帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段と、
を、有する信号分析装置。
請求項１に記載の信号分析装置であって、
前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、直流成分を減衰させる低域遮断フィルタで構成されていることを特徴とする信号分析装置。
請求項１に記載の信号分析装置であって、
前記抽出された帯域エネルギーの系列から、帯域ごとの条件付平均値を、第１のレベルとして計算するレベル計算手段を、有し、
前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の第１のレベルを所定の係数で乗じた値を減算する
ことを特徴とする信号分析装置。
請求項３に記載の信号分析装置であって、
前記レベル計算手段では、前記第１のレベルの計算に加え、前記抽出された帯域エネルギーの系列から、第１のレベルとは異なる、帯域ごとの条件付き平均値の少なくとも１つを、第２のレベルとして計算し、
前記正規化手段では、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域の第１のレベルおよび第２のレベルをそれぞれ所定の係数で乗じた値を減算する
ことを特徴とする信号分析装置。
請求項３または４に記載の信号分析装置であって、
前記帯域エネルギーの値に応じて１つまたは複数の正規化係数を求める正規化係数取得手段をさらに有し、
前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の前記第１のレベルまたは前記第１のレベルおよび複数のレベルに前記正規化係数を乗じた値を減算する
ことを特徴とする信号分析装置。
請求項４または５に記載の信号分析装置であって、
前記第１のレベルが、音声を含まない背景雑音の、帯域ごとの条件付き平均値であり、
前記第２のレベルが、音声の、帯域ごとの条件付き平均値であることを特徴とする信号分析装置。
信号の正規化を逐次的に行う信号処理装置であって、
入力信号に基づいて第１のレベルを更新し、記憶するレベル計算手段と、
前記第１のレベルに所定の係数を乗じた値を、入力信号から減算する正規化手段と、
前記第１のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得手段とを、備え、
前記レベル計算手段では、前記更新係数を用いて、第１のレベルを、入力信号に近づけることにより、
第１のレベルを、入力信号の条件付平均値とすることを特徴とする信号処理装置。
請求項７に記載の信号処理装置であって、
前記第１のレベルと前記入力信号との差に基づいて、正規化係数を取得する正規化係数取得手段を備え、
前記正規化手段では、前記第１のレベルに正規化係数を乗じた値を、入力信号から減算し、
入力レベルに応じて減算量を制御することを特徴とする信号処理装置。
請求項７に記載の信号処理装置であって、
前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、
前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、
前記更新係数取得手段では、前記第１のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、
前記レベル計算手段では、前記複数のレベルの更新係数を用いて、前記求められた複数のレベルを、更新して、
入力の分布に適した正規化を行うことを特徴とする信号処理装置。
請求項８に記載の信号処理装置であって、
前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、
前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、
前記更新係数取得手段では、前記第１のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、
前記正規化係数取得手段では、複数のレベルに対応した複数の正規化係数を求め、
前記正規化手段では、前記複数のレベルのそれぞれに対応した正規化係数を、それぞれのレベルに乗じた値を、入力信号から減算し、
入力のレベルに応じて適した正規化を行うことを特徴とする信号処理装置。
請求項３ないし６のいずれかに記載の信号分析装置であって、
各帯域でのレベル計算手段および正規化手段では、
請求項７ないし１０のいずれかに記載の信号処理装置を用いることを特徴とする信号分析装置。
請求項１１に記載の信号分析装置であって、
低周波に属する帯域と、高周波に属する帯域とでは、所定の係数を異なる値とすることを特徴とする信号分析装置。
各時刻の入力信号から得られた帯域ごとの帯域エネルギーを、対数エネルギーとして処理することを特徴とする請求項１ないし６、請求項１１または１２のいずれかに記載の信号分析装置。
請求項１ないし８、請求項１１ないし１３のいずれかに記載の信号分析装置と、
信号分析装置から得られた帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手段を有し、
前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識部とを、有する音声認識装置。
ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）パラメータの抽出過程において、各帯域エネルギーの正規化を行うことを特徴とする請求項１４に記載の音声認識装置。
請求項1ないし６、請求項１１ないし１３のいずれかに記載の信号分析装置をコンピュータに実行させるための信号分析プログラム。
請求項７ないし１０のいずれかに記載の信号処理装置をコンピュータに実行させるための信号分析プログラム。
請求項１４または１５に記載の音声認識装置をコンピュータに実行させるための音声認識プログラム。
請求項１７に記載の信号分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１８に記載の信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１９に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１４または１５に記載の音声認識装置を有する電子機器であって、
入力信号に含まれる音声信号を前記音声認識装置により認識した結果に基づいて、機能を選択し、実行することを特徴とする電子機器。