JP2004531767A5

JP2004531767A5 -

Info

Publication number: JP2004531767A5
Application number: JP2003505912A
Authority: JP
Filing date: 2002-06-14
Publication date: 2008-04-17
Anticipated expiration: 2022-06-14

Description

発話特徴抽出システム

（発明の背景）
本発明は、発話認識、音声識別、音声認証システムにおいて使用するための発話特徴抽出システムに関する。より詳細には、本発明は、低減されたエラーレートを有する発話認識システムまたは他の発話処理システムを作成するために使用され得る発話特徴処理システムに関する。

一般的に、発話認識システムは、発話者の音声信号を解析することによって発話された語を識別することを試みる装置である。発話は、特徴が抽出される電気的形態に変換される。次いで、システムは、公知の発話ユニットに関連付けられた以前に格納されたモデルのシーケンスに特徴のシーケンスを整合させることを試みる。特定の規則に従って、特徴のシーケンスがモデルのシーケンスに対応する場合、対応する語は、発話認識システムによって認識されているとみなされる。

しかし、バックグランド音（ラジオ、車の騒音、または他の付近の発話者）は、音声から有用な特徴を抽出することが困難であり得る。さらに、異なるマイクロホン、電話受話器または電話回線の使用等の周囲の条件の変化は、システム性能と干渉し得る。あるいは、発話者の距離、発話者間の差異、発話者の抑揚または強調、および発話者の健康であっても、システム性能に悪影響を与え得る。いくつかのこれらの問題のさらなる説明は、ＲｉｃｈａｒｄＡ．Ｑｕｉｎｎｅｌｌによる、「ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＮｏＬｏｎｇｅｒａＤｒｅａｍ，ＢｕｔＳｔｉｌｌａＣｈａｌｌｅｎｇｅ，」ＥＤＭＭａｇａｚｉｎｅ，１９９５年１月１９日、４１〜４６頁を参照のこと。

ほとんどの発話認識システムでは、発話特徴は、ケプストラム解析によって抽出され、ケプストラム解析は、特定の周波数帯域におけるエネルギーを測定することを含む。この解析の結果は、これらの帯域の信号の振幅を反映する。連続的な期間にわたるこれらの振幅変化の解析は、振幅変調信号としてモデル化され得る。

人間の耳が、受信された発話信号の周波数変調および振幅変調に敏感であるが、この周波数変調された量は、ケプストラム解析を実行するシステムにおいて部分的のみ反映される。

従って、発話の周波数変調特徴および以前から公知の振幅変調特徴をキャプチャすることが可能である発話特徴抽出システムを提供することが望ましい。

入力発話信号の周波数変調特徴に関する情報を提供する特徴抽出システムを組み込む発話認識および他の発話処理システムを提供することもまた望ましい。

（発明の要旨）
上記観点から、本発明の目的は、発話の周波数変調特徴および以前から公知の振幅変調特徴をキャプチャすることが可能な発話特徴抽出システムを提供することである。

本発明のさらなる目的は、入力発話信号の周波数変調特徴に関する情報を提供する特徴抽出システムを組み込む発話認識および他の発話処理システムを提供することである。

本発明は、発話の周波数変調特徴および振幅特徴を反映する発話特徴抽出システムを提供する。これは、一実施形態では、線形周波数スケール（「線形スケール」）に従って、隣接する周波数帯域において配置された複数の複素バンドパスフィルタを含むフィルタ抽出ステージによってなされる。複数の複素バンドパスフィルタは、複数のペアに分割される。１つのペアは、隣接する周波数帯域において２つの複素バンドパスフィルタを含む。各ペアに対して、より高い周波数（「一次周波数」）においてフィルタの出力は、より低い周波数（「二次フィルタ」）におけるフィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。

別の実施形態では、特徴抽出位相は、対数（または指数）周波数スケール（「対数スケール」）に従って配置された複数の複素バンドパスフィルタを含む。フィルタ対の一次フィルタは、対数スケールに沿った種々の周波数に中心がある。各ペアの一次フィルタに対応する二次フィルタは、一次フィルタよりも所定の周波数だけ低いところに中心がある。各ペアに対して、一次フィルタの出力は、二次フィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。

さらに別の実施形態では、複数のバンドパスフィルタがメルスケール（ｍｅｌ−ｓｃａｌｅ）に従って配置される。フィルタ対の一次フィルタは、メルスケールに沿った種々の周波数に中心がある。各ペアの一次フィルタに対応する二次フィルタは、一次フィルタよりも所定の周波数だけ低いところに中心がある。各ペアに対して、一次フィルタの出力は、二次フィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。

さらに別の実施形態では、複数のバンドパスフィルタが、上述の線形およびログスケールメルスケール（ｍｅｌ−ｓｃａｌｅ）に従って配置される。バンドパスフィルタのペアの部分は、線形スケールに従って隣接する周波数帯域に配置される。これらの対の各々に対して、一次フィルタの出力は、二次フィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。

バンドパスフィルタの残りの対の一次フィルタは、対数スケールに沿った種々の周波数に中心があり、一次フィルタに対応する二次フィルタは、一次フィルタよりも所定の周波数だけ低いところに中心がある。これらの対の各々に対して、一次フィルタの出力は、二次フィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。

上述の実施形態に対して、ロウパスフィルタの各々は、２つの成分（ロウパスフィルタ出力が生成された隣接するバンドパスフィルタを通過した信号の周波数に実質的に敏感であるＦＭ成分、および、隣接するバンドパスフィルタを通過した信号の振幅に実質的に敏感であるＡＭ成分）を計算するために処理される。ＦＭ成分は、ロウパスフィルタ出力を生成するために使用された隣接するバンドパスフィルタの出力の位相差を反映する。

次いで、ＡＭおよびＦＭ成分は、離散コサイン変換、メルスケール変換、平均規格化、デルタおよび加速度解析、線形判別分析、主成分解析等の公知の特徴分析を用いて処理され、統計的処理、あるいは他の認識または識別方法に対して適用可能な発話特徴を生成する。代替的な実施形態では、複数の複素バンドパスフィルタは、高速フーリエ変換（ＦＦＴ）または他のデジタル信号処理（ＤＳＰ）技術を用いてインプリメントされ得る。

さらに、本発明の方法および装置は、発話認識システムにおけるケプストラル解析を実行することに加えて使用され得る。本発明の上記および他の目的が、添付の図面を考慮して、以下の詳細な説明の考慮によって明らかになる。その図面では、同様な参照符号は同様の部品を指す。

（発明の詳細な説明）
図１を参照すると、例示的なスピーチ認識システム５の一般的な記載は、本発明のスピーチ抽出システムを取り込むことが記載される。当業者に明らかなように、本発明のスピーチ特徴抽出システムはまた、話し手の識別、認証、および他の音声処理システムにおいて用いられ得る。

システム５は、プリフィルタリングステージ１０、特徴抽出ステージ１２、統計処理ステージ１４、およびエネルギーステージ１６の４つのステージを含む。

プリフィルタリングステージ１０、統計処理ステージ１４、およびエネルギーステージ１６は、当業者に公知のスピーチ処理技術を利用し、本発明の部分を形成しない。特徴抽出ステージ１２は、本発明のスピーチ特徴抽出システムを取り込み、以下に記載されるように、当業者に公知である特徴拡張技術を含む。

音声スピーチ信号は、マイクロホン、受話器、または他のデバイスによって電気的な信号に変換され、システム５に入力スピーチ信号として提供される。本発明の好適な実施形態において、電気的な信号は、サンプリングされるか、またはデジタル化され、音声スピーチを表すデジタル信号（ＩＮ）を提供する。プリフィルタリングステージ１０は、音声信号ＩＮの高周波コンポーネントを増幅して、プリフィルタリングされた信号は、次に、特徴抽出ステージ１２に提供される。

特徴抽出ステージ１２は、プリフィルタリングされた信号Ｘを処理して、スピーチ認識のために役立ち得る入力信号ＩＮの特性に関係した特徴ベクトルのシーケンスを生成する。特徴抽出ステージ１２の出力は、特徴ベクトルのシーケンスと好適な統計的なモデルとを比較して、入力信号ＩＮにおいてワードまたは他のスピーチユニットを識別する統計処理ステージ１４によって用いられる。特徴ベクトルは、例えば、Ｊｅｌｉｎｅｋの「ＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｓｆｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ」、ＴｈｅＭＩＴＰｒｅｓｓ、１９９７、ｐｐ．１５−３７に記載される隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）といった公知の技術を用いてモデルと比較される。統計処理ステージ１４の出力は、認識されたワードまたは特定のアプリケーションによる他の適切な出力である。

ステージ１４における統計処理は、ローカルに実行されるか、またはステージ１０、１２の処理が実行される場合に関連して、遠隔位置で実行され得る。例えば、特徴ベクトルのシーケンスは、統計処理のために遠隔サーバに転送され得る。

図１の例示のスピーチ認識システムは、好適には、入力信号ＩＮのフレームにおいて総エネルギーを示す出力信号を提供するエネルギーステージ１６をさらに含む。統計処理ステージ１４は、この総エネルギー情報を用いて、入力信号に含まれるスピーチの改善された認識を提供し得る。

ここで図２を参照すると、プリフィルタリングステージ１０および特徴抽出ステージ１２は、より詳細に記載される。プリフィルタリングステージ１０は、入力信号の高周波コンポーネントを増幅するハイパスフィルタである。プリフィルタリングステージ１０は、１サンプル遅延素子２１、乗算器２３、および加算器２４を含む。乗算器２３は、典型的に−０．９７の固定値を有する定数ｋ_ｆによって１サンプル遅延された信号を乗算する。プリフィルタリングステージ１０の出力Ｘは、バンドパスフィルタ３０_１、３０_２、．．．３０_ｎのバンクにおけるサンプリングレートにおいて出力される。

一実施形態において、バンドパスフィルタ３０_１、３０_２、．．．３０_ｎは、近接した周波数バンドにおいて位置付けられる。図５のグラフ７２において示されるように線形周波数スケール（「線形スケール」）６８によってバンドパスフィルタ３０_１、３０_２、．．．３０_ｎの間隔があけられる。用語「線形周波数スケール」は、通常かつ従来の意味（すなわち、実際の周波数分割は不規則に間隔があけられる）に従って本明細書中に用いられる。複数の複素バンドパスフィルタ３０_１、３０_２、．．．３０_ｎは、ペアＰ_１−２に分割される。ペア（Ｐ_１またはＰ_２）は、隣接した周波数バンドにそれぞれ２つの複素バンドパスフィルタ（３０_１−２または３０_３−４）を含む。全てのペア（Ｐ_１またはＰ_２）について、高周波数バンド（３０_２または３０_４）におけるフィルタの出力（「一次フィルタ」として以下に言及される）は、より低い周波数バンド（３０_１または３０_３）におけるフィルタの出力の共役によって乗算される（「二次フィルタ」として以下に言及される）。結果として生じる信号は、ロウパスフィルタリングされる。

バンドバスフィルタ３０_１、３０_２、．．．３０_ｎの数および周波数バンドの幅は、好適には、スピーチ処理システムのアプリケーションによって選択される。例えば、電話技術のアプリケーションに役立つシステムは、ほぼ１００Ｈｚ離れた中心周波数を有する約４０のバンドパスフィルタ３０_１、３０_２、．．．３０_ｎを利用する。例えば、フィルタ３０_１は５０Ｈｚの中心周波数を有し、フィルタ３０_２は１５０Ｈｚの中心周波数を有し、フィルタ３０_３は２５０Ｈｚの中心周波数を有し得、ゆえに、フィルタ３０_４０の中心周波数は３９５０Ｈｚである。各フィルタのバンド幅は、数百ヘルツであり得る。

別の実施形態において、図６のグラフ７０に示されるように、バンドパスフィルタ３０_１、３０_２、．．．３０_１０８は、例えば、対数的（または指数関数的）周波数スケール７４（「対数スケール」）といった非線形周波数スケールによって構成される。用語対数的周波数は、通常かつ従来の意味によって本明細書中に用いられる。

経験的な証明は、図５の線形スケール６８の代わりに図６の対数スケール７４を用いることが音声認識性能を改良することを示唆する。すなわち、なぜなら、人間の耳は、音声スペクトルを超える周波数を非線形に消滅するからである。線形スケール６８の代わりに対数スケールを用いる別の利点は、対数スケール７４がさらなるバンドパスフィルタ３０_１、３０_２、．．．３０_ｎを用いることなく周波数スペクトルのより広い領域をカバーし得る。

バンドパスフィルタ３０_{１−１０８}のペアＰ_１−５４は、対数スケール７４によって間隔があけられる。ペアＰ_１はフィルタ３０_１および３０_２を含み、ペアＰ_１０はフィルタ３０_１９を含み、ペアＰ_５４はフィルタ３０_１０７および３０_１０８を含む。この構成において、フィルタ３０_１、３０_２０および３０_１０８は一次フィルタであり、フィルタ３０_１９、および３０_１０７は二次フィルタである。

１つの好適な実施形態において、一次フィルタ３０_２、３０_２０、．．．３０_１０８は、対数スケール７４に沿った多様な周波数に中心があり、二次フィルタ３０_１、３０_３、．．．３０_１０７は、それぞれ、対応する一次フィルタ３０_２、３０_４、．．．３０_１０８よりも１００ヘルツ（Ｈｚ）だけ低いところに中心がある。図６のグラフ７０を作成するために例示のＭＡＴＬＡＢコードは以下に示される。

別の実施形態において、一次フィルタ３０_２、３０_２０、．．．３０_１０８および二次フィルタ３０_１、３０_３、．．．３０_１０７の中心周波数は、別々および独立したアルゴリズムを用いて配置され得、二次フィルタ３０_１、３０_３、．．．３０_１０７がそれらの対応する一次フィルタ３０_２、３０_２０、．．．３０_１０８よりも１００ヘルツ（Ｈｚ）だけ低いところに中心がある。

一実施形態において、バンドパスフィルタ３０_{１−１０８}は、三角形状である。別の実施形態において、バンドパスフィルタ３０_{１−１０８}は、特定の音声認識システムの必要性による多様な形状であり得る。

対数スケール７４は、０〜４０００Ｈｚの領域に示され得る。全てのペアＰ_１−５４に対して、一次フィルタ３０_２、３０_２０、．．．３０_１０８の出力は、二次フィルタ３０_１、３０_３、．．．３０_１０７の出力の共役によって乗算される。結果として生じる信号は、ロウパスフィルタリングされる。

ペアＰ_１−５４は、高い周波数よりも低い周波数においてより多くのペアＰ_１−５４を含むように構成される。例えば、５００〜１０００Ｈｚの周波数領域において７つのペア（Ｐ_{１６−２２}）があり、３０００〜３５００Ｈｚの周波数領域において３つだけのペア（Ｐ_{４９−５１}）がある。従って、より低い周波数においてオーバーサンプリングが実行されているが、より高い周波数において少なくともいくつかのサンプリングが実行されている。対数スケール７４に沿ったペアＰ_１−５４の集中は、特定の音声認識システムの必要性によって変化され得る。

デジタル信号処理設計の当業者に明らかであるように、前述の実施形態のバンドパスフィルタは、任意の多くのソフトウェアまたはハードウェア技術を用いてインプリメントされ得る。例えば、複数の複素フィルタは、高速フーリエ変換（ＦＦＴ）、チャープＺ変換、他の周波数ドメイン分析技術を用いてインプリメントされ得る。

代替の実施形態において、図７に記載されるように、バンドパスフィルタ３０_１、３０_２、．．．３０_ｎは、例えば、メルスケールといった非線形周波数スケールによって構成される。メルスケール８０は、音声認識システムの技術において周知であり、典型的に等式

によって定義される。ここで、ｆは、線形スケール６８による周波数を表し、Ｍｅｌ（ｆ）は、それに対応するメルスケール８０の周波数を表す。

図７は、メルスケール８０によって間隔があけられたバンドパスフィルタ３０_１−９を示すグラフ８４の一実施形態を示す。中心周波数（ＣＦ_１−９）は、上述の等式を用いることによって計算されるＭｅｌ（ｆ）値である。典型的に、フィルタ３０_１−９は、ゼロからナイキスト（Ｎｙｑｕｉｓｔ）周波数までの全体の周波数領域に広がる。一実施形態において、フィルタ３０_１−９は、同じバンド幅を有する。別の実施形態において、フィルタ３０_１−９は異なるバンド幅を有し得る。

図８に記載される、さらに別の実施形態において、バンドパスフィルタ３０_１−８は線形６８および非線形７４の周波数スケールの組み合わせによって間隔があけられる。バンドパスフィルタ３０_１−４（Ｐ_１−２）は、線形周波数６８によって隣接した周波数バンドに構成される。

一次フィルタ３０_６および３０_８は、対数スケール７４に沿って中心がある。二次フィルタ３０_５および３０_７は、３０_６および３０_８の中心周波数よりも１００Ｈｚだけ低い周波数に中心がある。これらのペア（Ｐ_１またはＰ_２）のそれぞれについて、一次フィルタ（３０_６および３０_８）の出力は、二次フィルタ（３０_５および３０_７）の出力の共役によってそれぞれ乗算され、結果的に生じる信号は、ロウパスフィルタリングされる。

図２を再度参照すると、ブロック４０_１−２０は、バンドパスフィルタ３０_１、３０_２、．．．３０_ｎ−１の出力信号の複素共役を提供する。乗算器ブロック４２_１−２０は、近似のより高い周波数のバンドパスフィルタ３０_２、３０_４、３０_６、．．．３０_４０の出力によって複素共役を乗算する。つぎに、出力信号Ｚ_１−２０は、一連のロウパスフィルタ４４_１−２２を通される。ロウパスフィルタの出力は、典型的に、特徴フレームレートにおいてのみ生成される。例えば、８ｋＨｚの入力スピーチサンプリングレートにおいて、ロウパスフィルタの出力は、１０ミリ秒毎に１度の特徴フレームレートにおいて計算されるだけである。

ロウパスフィルタ４４_１−２２の各出力は、実数のコンポーネントＲおよび虚数のコンポーネントＩを有する複素信号である。ブロック４６_１−２０は、ロウパスフィルタ出力の実数および虚数のコンポーネントを処理し、等式（１）および（２）、

に示されるように出力信号Ａ_１−２０およびＦ_１−２０を提供し、ここで、Ｒ_ｉおよびＩ_ｉは対応するロウパスフィルタ出力の実数および虚数のコンポーネントである。出力信号Ａ_ｉは、ロウパスフィルタ出力の振幅の関数であり、Ｆ_ｉはロウパスフィールドルタ出力が生成された隣接したバンドパスフィルタによって通過される信号の周波数の関数である。入力信号の振幅および周波数を示す２つのセットの信号を計算することによって、本発明のスピーチ特徴抽出システムを組み込むスピーチ認識システムは、減少されるエラーレートを提供するように期待される。

次に、振幅信号Ａ_１−２０および周波数信号Ｆ_１−２０は、例えば、離散コサイン変換、メルスケール変換、平均規格化、デルタおよび加速度分析、線形判別分析、ならびに、当該分野において本来公知である主要コンポーネント分析を用いて、特徴拡張コンポーネント１２ｂにおける従来の特徴拡張技術を用いて処理される。本発明のスピーチ抽出システムに組み込む本発明のスピーチ認識システムの好適な実施形態は、本明細書中で以下に記載されるように、離散コサイン変換およびデルタ特徴技術を利用する。

さらに図２を参照すると、特徴拡張コンポーネント１２ｂは、出力信号Ａ_１−２０およびＦ_１−２０を受信し、それぞれ離散コサイン変換（ＤＣＴ）ブロック５０および５４を用いてそれらの信号を処理する。ＤＣＴ５０および５４は、信号Ａ_１−２０およびＦ_１−２０の分散行列を対角化するように試みる。これは、ＤＣＴ５０の出力信号Ｂ_０−１９およびＤＣＴ５４の出力信号Ｃ_０−１９における特徴を無相関するために役立つ。次に、出力信号Ｂ_０−１９およびＣ_０−１９の各セットは統計的な処理ステージ１４に入力される。出力信号Ｂ_０−１９を提供するように入力信号Ａ_０−２０上のＤＣＴ５０によって実行される関数は等式（３）によって示され、出力信号Ｃ_０−１９を提供するように入力信号Ｆ_１−２０上のＤＣＴ５４によって実行される関数は等式（４）によって示される。

等式（３）および（４）において、Ｎは、入力信号ベクトルＡおよびＦの各々を構成する要素の総数（例えば、図２においてＮ＝２０）に等しく、ｎは０からＮ−１のインデックス（例えば、図２の実施形態においてｎ＝０〜１９）であり、ｒは出力信号ＢおよびＣのインデックス（例えば、図２の実施形態においてｒ＝０〜１９）である。従って、各ベクトル出力信号Ｂ_ｒについて、入力信号Ａ_１−２０の各ベクトルは、コサイン関数およびＤ（ｒ）によって乗算され、等式（３）において示されるように共に加算される。各ベクトル出力信号Ｃ_ｒについて、入力信号Ｓ_１−２０の各ベクトルは、コサイン関数およびＤ（ｒ）によって乗算され、等式（４）において示されるように共に加算される。Ｄ（ｒ）は、等式

によって得られる係数である。

出力信号Ｂ_０−１９およびＣ_０−１９はまた、それぞれデルタブロック５２および５６に入力される。デルタブロック５２および５６のそれぞれは、連続する特徴フレーム間の特徴ベクトル値の測定間の差を取得し、この差がスピーチ認識性能を拡張するように用いられ得る。いくつかの差の式は、当該分野に公知であるように、デルタブロック５２および５６によって用いられ得る。例えば、デルタブロック５２および５６は、２つの連続する特徴フレーム間の差を取得し得る。デルタブロック５２および５６の出力信号は、統計処理ステージ１４に入力される。

式

によって、入力スピーチ信号ＩＮの各フレームの総エネルギーの対数（Ｅで表される）を計算するための図２のエネルギーステージ１６は、既に公知の技術である。

式（７）は、エネルギーブロック１６が前のＬサンプリング間隔（例えば、Ｋ＝２２０、Ｔ＝１／８０００秒）の間の入力信号ＩＮの値の正方形の和を取得し、Ｋで和を割って、最終的な結果の対数を取得することを示す。エネルギーブロック１６はフレーム毎（例えば、１０ミリ秒）にこの計算を実行し、統計処理ブロック１４に入力としての結果を提供する。

ここで、図３を参照すると、本発明の特徴抽出システムにおける使用に適した例示の複素バンドパスフィルタ３０’が記載される。フィルタ３０’は、加算器３１、乗算器３２、および１サンプル遅延素子３３を含む。乗算器３２は、１サンプル遅延出力Ｙに複素係数Ｇを掛けて、結果として、入力信号Ｘに足されて、出力信号Ｙを生成する。

本発明の特徴抽出システムの代替の実施形態は、図４に関して記載される。図４の実施形態は、図２の実施形態に類似しており、フィルタリングステージ１０、統計処理ステージ１４、およびエネルギーステージ１６を含み、上述されるように実質的に動作する。しかし、図４の実施形態は、特徴抽出ステージ１２’が特徴抽出システム１２a’内でさらなる回路部を含むという前述される実施形態とは異なり、特徴ベクトルはさらなる情報を含む。

例えば、特徴抽出ステージ１２ａ’は、バンドパスフィルタ３０１−４１のバンクおよび共役ブロック４０１−４０を含む。各バンドパスフィルタの出力は、乗算器４２１−４０によるより低い隣接したバンドパスフィルタの出力の共役と組み合わされ、計算ブロック４６１−４０は、ベクトルが２０の代わりに４０の素子の長さを有することを除いて、上述されるようにベクトルＡおよびＦを計算する。ＤＣＴ５０および５４、ならびに、特徴拡張コンポーネント１２ｂ’のデルタブロック５２および５６は、４０の素子入力ベクトルを承認して、４０の素子ベクトルを統計処理ブロック１４に出力する。バンドパスフィルタ３０１−４１が例えば対数スケールまたはメルスケールといった非線型周波数スケールによって構成される場合、図４に示される構成は適用できないことは理解される。

本発明は、意図された音声処理アプリケーションによってバンドパスフィルタ３０の任意の数、ならびに、共役ブロック４０、乗算器４２、ロウパスフィルタ４４、およびブロック４６の対応する数を含み、各ロウパスフィルタの出力信号ＡおよびＦを提供し得る。特徴抽出ステージを含む。さらに、信号ＡおよびＦは、重み付された様態で組み合わされ得、信号の一部のみが使用され得る。例えば、一周波数ドメインにおける振幅信号、ならびに、別の周波数ドメインにおける振幅と周波数との組み合わせのみを用いることは利点があり得る。

本発明の好適な例示の実施形態が上述され、多様な変化および変更が本発明から逸脱することなくなされることは、当業者によって理解され、本発明の実際の意図および範囲内に含まれるような全ての変化および変更をカバーすることが、添付の特許請求の範囲において意図される。

図１は、本発明の発話特徴抽出システムを組み込む例示的な発話認識システムのブロック図である。図２は、図１の発話認識システムの詳細なブロック図である。図３は、本発明の特徴抽出システムをインプリメントするために適するバンドパスフィルタの詳細なブロック図である。図４は、本発明の代替的な発話特徴抽出システムを含む発話認識の代替的な実施形態の詳細なブロック図である。図５は、線形的な周波数スケールに従って配置されたバンドパスフィルタ周波数を示すグラフである。図６は、対数周波数スケールに従って配置されたバンドパスフィルタのペアを示すグラフである。図７は、メルスケールに従って配置されたバンドパスフィルタのペアを示すグラフである。図８は、線形および対数周波数スケールの組み合わせに従って配置されたバンドパスフィルタ周波数を示すグラフである。

Claims

周波数特徴および振幅特徴を有する入力発話信号から特徴を抽出する装置であって、
該装置は、
該入力発話信号を受信するように適合された第１および第２のバンドパスフィルタであって、該第１のバンドパスフィルタは、第１の信号を提供し、該第２のバンドパスフィルタは、第２の信号を提供し、該第１のバンドパスフィルタおよび該第２のバンドパスフィルタは、隣接した周波数帯域を有する、第１および第２のバンドパスフィルタと、
該第２のバンドパスフィルタに接続された共役回路であって、該第２の信号の共役である第３の信号を提供する共役回路と、
該第１のバンドパスフィルタおよび該共役回路に接続された乗算器であって、該第１の信号と該第３の信号との積である第４の信号を提供する乗算器と、
該乗算器に接続されたフィルタ手段であって、該第４の信号をフィルタリングして、該入力発話信号の該周波数特徴に対応する第５の信号と、該入力発話信号の該振幅特徴に対応する第６の信号とを出力するフィルタ手段と
を備える、装置。
前記フィルタ手段は、ロウパスフィルタを含む、請求項１に記載の装置。
前記入力発話信号と前記第１および第２のバンドパスフィルタとの間に接続されたハイパスフィルタをさらに備える、請求項１に記載の装置。
前記ロウパスフィルタは、実数部Ｒおよび虚数部Ｉを有する信号を提供し、前記フィルタ手段は、Ａ＝ｌｏｇＲおよびＦ＝Ｉ／Ｓｑｒｔ（Ｒ^２＋Ｉ^２）を計算する回路をさらに備える、請求項２に記載の装置。
前記第１のバンドパスフィルタおよび第２のバンドパスフィルタの各々は、遅延エレメントと、複素乗算器と、加算器とを備える、請求項１に記載の装置。
前記加算器は、前記入力発話信号を受信し、出力信号を出力し、該加算器は、該入力発話信号と、該出力信号に複素係数を乗算したものの遅延されたサンプルを含む信号とを加算する、請求項５に記載の装置。
離散コサイン変換、メルスケール変換、平均規格化、デルタおよび加速度解析、線形判別解析、または主成分解析などの１つ以上の特徴強調手法を実行する回路をさらに備える、請求項４に記載の装置。
前記１つ以上の特徴強調手法を実行する回路の出力を統計的に処理して、該出力を複数の所定のモデルと比較する回路をさらに備える、請求項７に記載の装置。
前記１つ以上の特徴強調手法を実行する回路は、ＡおよびＦの離散コサイン変換を計算する回路を備える、請求項７に記載の装置。
前記１つ以上の特徴強調手法を実行する回路は、Ａの連続する離散コサイン変換間の差を計算し、Ｆの連続する離散コサイン変換間の差を計算する回路をさらに備える、請求項７に記載の装置。
音を電気信号に変換するトランスデューサと、
該電気信号をデジタル信号に変換するサンプラーと
をさらに備え、前記入力発話信号は、該デジタル信号を含む、請求項１に記載の装置。
デジタルプロセッサをさらに備え、前記第１および第２のバンドパスフィルタと、前記共役回路と、前記乗算器と、前記フィルタ手段とは、該デジタルプロセッサ上で実行されるように適合されたアルゴリズムを含む、請求項１に記載の装置。
線形スケールでの前記第１のバンドパスフィルタの中心周波数は、対数スケールでの対応する周波数に変換され、前記第２のバンドパスフィルタの中心周波数は、該第１のバンドパスフィルタの該周波数より所定の周波数だけ低い周波数に選択される、請求項１に記載の装置。
前記第２のフィルタの中心周波数は、前記第１のフィルタの中心周波数より１００ヘルツだけ低い周波数である、請求項１３に記載の装置。
前記第１のフィルタの帯域と前記第２のフィルタの帯域とは重なる、請求項１３に記載の装置。
前記第１のフィルタの帯域幅と前記第２のフィルタの帯域幅とは同じである、請求項１３に記載の装置。
線形スケールでの前記第１のバンドパスフィルタの中心周波数は、メルスケールでの対応する周波数に変換され、前記第２のバンドパスフィルタの中心周波数は、該第１のバンドパスフィルタの該周波数よりも所定の周波数だけ低い周波数に選択される、請求項１に記載の装置。
前記第２のフィルタの中心周波数は、前記第１のフィルタの中心周波数より１００ヘルツだけ低い周波数である、請求項１７に記載の装置。
前記第１のフィルタの帯域と前記第２のフィルタの帯域とは重なる、請求項１７に記載の装置。
前記メルスケールは、式

によって定義される、請求項１７に記載の装置。
前記第１のフィルタの帯域幅と前記第２のフィルタの帯域幅とは同じである、請求項１７に記載の装置。
前記第１および第２のバンドパスフィルタは、高速フーリエ変換を用いてインプリメントされる、請求項１に記載の装置。
入力発話信号から特徴を抽出するための方法であって、
該方法は、
第１のバンドパスフィルタと第２のバンドパスフィルタとを用いて、該入力発話信号を、第１の周波数帯域における第１の信号と第２の周波数帯域における第２の信号とに分離することであって、該第１のバンドパスフィルタおよび該第２のバンドパスフィルタは、隣接した周波数帯域を有する、ことと、
共役回路を用いて該第１の信号の共役をとることと、
乗算器を用いて該第１の信号の該共役と該第２の信号とを乗算することにより、第３の信号を提供することと、
フィルタ手段を用いて該第３の信号を処理することにより、該入力発話信号における周波数特徴に対応する周波数成分と、該入力発話信号における振幅特徴に対応する振幅成分とを生成することと
を包含する、方法。
前記入力発話信号を処理することにより前記第１および第２の信号を生成する前に、ハイパスフィルタを用いて該入力発話信号をハイパスフィルタリングすることをさらに包含する、請求項２３に記載の方法。
前記フィルタ手段を用いて前記第３の信号を処理することは、ロウパスフィルタを用いて該第３の信号をロウパスフィルタリングすることをさらに包含する、請求項２３に記載の方法。
前記第３の信号をロウパスフィルタリングすることは、実数部Ｒおよび虚数部Ｉを有する信号を提供し、前記第３の信号を処理することは、Ａ＝ｌｏｇＲおよびＦ＝Ｉ／Ｓｑｒｔ（Ｒ^２＋Ｉ^２）を計算することを包含する、請求項２５に記載の方法。
第１の回路を用いて、一連の特徴ベクトルを生成するための特徴強調手法を用いて前記第３の信号を処理することをさらに包含する、請求項２６に記載の方法。
第２の回路を用いて、前記一連の特徴ベクトルを複数の所定のモデルと比較することによって該一連の特徴ベクトルを統計的に処理することをさらに包含する、請求項２７に記載の方法。
第３の回路を用いてＡおよびＦの離散コサイン変換を計算することをさらに包含する、請求項２７に記載の方法。
第４の回路を用いて、Ａの連続する離散コサイン変換間の差およびＦの連続する離散コサイン変換間の差を計算することをさらに包含する、請求項２９に記載の方法。
第５の回路を用いて、前記連続する離散コサイン変換間の差を統計的に処理して、該差を複数の所定のパターンと比較することをさらに包含する、請求項３０に記載の方法。
トランスデューサを用いて音を電気的信号に変換することと、
サンプラーを用いて該電気信号をサンプリングすることにより、デジタル信号を提供することと
をさらに包含し、前記入力発話信号は、該デジタル信号を含む、請求項２３に記載の方法。
変換手段を用いて、線形スケールでの前記第１の周波数帯域の中心周波数を対数スケールでの対応する周波数に変換することと、選択手段を用いて、前記第２の周波数帯域の中心周波数を該第１の周波数帯域の該周波数よりも所定の周波数だけ低い周波数に選択することとを包含する、請求項２３に記載の方法。
前記第２の周波数帯域の中心周波数は、前記第１の周波数帯域の中心周波数よりも１００ヘルツだけ低い周波数である、請求項３３に記載の方法。
前記第１の周波数帯域と前記第２の周波数帯域とは重なる、請求項３３に記載の方法。
変換手段を用いて、線形スケールでの前記第１の周波数帯域の中心周波数をメルスケールでの対応する周波数に変換することと、選択手段を用いて、前記第２の周波数帯域の中心周波数を該第１の周波数帯域の該周波数よりも所定の周波数だけ低い周波数に選択することとを包含する、請求項２３に記載の方法。
前記第２の周波数帯域の中心周波数は、前記第１の周波数帯域の中心周波数よりも１００ヘルツだけ低い周波数である、請求項３６に記載の方法。
前記第１の周波数帯域と前記第２の周波数帯域とは重なる、請求項３６に記載の方法。