JP2016500847A

JP2016500847A - デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム

Info

Publication number: JP2016500847A
Application number: JP2015539586A
Authority: JP
Inventors: ジョンクローカー，; ジャネットスリフカ，; リチャードエス．マクゴワン，
Original assignee: エライザコーポレイション
Priority date: 2012-10-31
Filing date: 2013-08-16
Publication date: 2016-01-14
Also published as: US9311929B2; EP2915167A1; EP2915167A4; IL237020B; US20140122067A1; WO2014070283A1

Abstract

音声分析システムは、音声フォルマントを音声信号のデジタル化されたバージョンから正確に抽出することによって、音声信号を再構成するために、１つ以上のデジタルプロセッサを使用する。本システムは、音声信号のデジタルバージョンの音声共鳴の推定瞬時周波数および推定瞬時帯域幅をリアルタイムで決定することによって、フォルマントを抽出する。本システムは、音声信号の帯域幅の実質的に全てが包含されることを確実にするために、重複帯域幅を有する複数の複素デジタルフィルタを並行して使用して、デジタル音声信号をデジタル的にフィルタ処理する。重複複素デジタルフィルタの本仮想チェーンは、対応する複数の複素フィルタ処理信号を生成する。第１の推定周波数および第１の推定帯域が、フィルタ処理信号の各々に対して生成され、入力音声信号の音声共鳴が、そこから識別される。

Description

（関連出願への相互参照）
本願は、同時係属中の米国特許出願第１２／６２９，００６号（２００９年１２月１日出願）の一部継続（ＣＩＰ）であり、その出願は、参照によって本明細書に援用される。

（発明の分野）
本発明は、概して、音声認識の分野に関し、より具体的には、音声認識信号処理および分析のためのシステムに関する。

（発明の背景）
現代の人間のコミュニケーションは、遠距離にわたる音声のデジタル表現の伝送にますます依存している。本デジタル表現は、人間の声に関する情報のわずかしか含まないが、それにもかかわらず、人間は、デジタル音声信号を完璧に理解することが可能である。

自動電話案内および他の双方向音声応答システム（ＩＶＲ）等のいくつかの通信システムは、デジタル音声信号を理解するためにコンピュータに依存する。そのようなシステムは、人間の音声に固有の音ならびに意味を認識し、それによって、デジタル化音響信号の音声内容を抽出する。医療および健康管理分野では、デジタル化音響信号から音声内容を正しく抽出することは、死活問題となり得、正確な信号分析および解釈を特に重要にする。

音声内容を抽出するように音声信号を分析することへの１つのアプローチは、音声産出中の声道の音響的特性をモデル化することに基づく。概して、音声産出中に、声道の構成は、一式の音声共鳴で構成される音響音声信号を決定する。これらの音声共鳴は、音声信号から音声内容を抽出するように分析することができる。

音声産出中の声道の音響的特性を正確に決定するために、各音声共鳴の周波数および帯域幅が必要とされる。概して、周波数は、声道内の空洞のサイズに対応し、帯域幅は、声道の音響損失に対応する。ともに、これら２つのパラメータは、音声のフォルマントを決定する。

音声産出中に、音声共鳴周波数および帯域幅は、約数ミリ秒で迅速に変化する場合がある。大抵の場合、音声信号の音声内容は、連続音声共鳴の関数であるため、音声共鳴の変化は、変化するのと少なくとも同じくらい迅速に捕捉および分析されなければならない。したがって、正確な音声分析は、音声産出と同じ時間的尺度で、つまり約数ミリ秒で、各音声共鳴の周波数および帯域幅の両方の同時決定を必要とする。しかしながら、この時間的尺度での音声共鳴の周波数および帯域幅の同時決定は困難だと分かっている。

フォルマント推定における先行研究は、音声信号における音声共鳴の周波数のみを見出すことに関与してきた。これらの周波数指向の方法は、高時間分解能周波数推定値に対する瞬時周波数を使用する。しかしながら、周波数推定のためのこれらの方法は、融通性が限定され、音声共鳴を完全には説明しない。

例えば、Ｎｅｌｓｏｎらは、ＤｏｕｇｌａｓＪ．Ｎｅｌｓｏｎによる、２００３年６月１０日の「Ｍｅｔｈｏｄｏｆｅｓｔｉｍａｔｉｎｇｓｉｇｎａｌｆｒｅｑｕｅｎｃｙ」に対する米国特許第６，５７７，９６８号、ＤｏｕｇｌａｓＪ．ＮｅｌｓｏｎおよびＤａｖｉｄＣｈａｒｌｅｓＳｍｉｔｈによる、２００８年１１月２５日の「Ｍｅｔｈｏｄｏｆｇｅｎｅｒａｔｉｎｇｔｉｍｅ−ｆｒｅｑｕｅｎｃｙｓｉｇｎａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｐｒｅｓｅｒｖｉｎｇｐｈａｓｅｉｎｆｏｒｍａｔｉｏｎ」に対する米国特許第７，４５７，７５６号、およびＤｏｕｇｌａｓＪ．Ｎｅｌｓｏｎによる、２００９年２月１７日の「Ｍｅｔｈｏｄｏｆｒｅｍｏｖｉｎｇｎｏｉｓｅａｎｄｉｎｔｅｒｆｅｒｅｎｃｅｆｒｏｍｓｉｇｎａｌｕｓｉｎｇｐｅａｋｐｉｃｋｉｎｇ」に対する米国特許第７，４９２，８１４号を含む、いくつかの方法を開発してきた。

概して、Ｎｅｌｓｏｎの方法と一致するシステム（「Ｎｅｌｓｏｎ型システム」）は、音声処理における一般的な変換である、短時間フーリエ変換（ＳＴＦＴ）の計算を強化するために、瞬時周波数を使用する。Ｎｅｌｓｏｎ型システムでは、瞬時周波数は、複素信号の位相の時間導関数として計算される。Ｎｅｌｓｏｎ型システムのアプローチは、遅延した全スペクトルの共役積から瞬時周波数を算出する。ＳＴＦＴにおいて各時間周波数要素の瞬時周波数を算出すると、Ｎｅｌｓｏｎ型システムのアプローチは、各要素のエネルギーをその瞬時周波数に再マップする。このＮｅｌｓｏｎ型再マッピングは、同じ瞬時周波数の周囲に集まる複数の周波数帯にわたって以前に分布したエネルギーを伴う、集中ＳＴＦＴをもたらす。

ＡｕｇｅｒおよびＦｌａｎｄｒｉｎも、Ｆ．ＡｕｇｅｒａｎｄＰ．Ｆｌａｎｄｒｉｎ，「Ｉｍｐｒｏｖｉｎｇｔｈｅｒｅａｄａｂｉｌｉｔｙｏｆｔｉｍｅ−ｆｒｅｑｕｅｎｃｙａｎｄｔｉｍｅ−ｓｃａｌｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙｔｈｅｒｅａｓｓｉｇｎｍｅｎｔｍｅｔｈｏｄ，」ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ４３，ｎｏ．５（Ｍａｙ１９９５）：１０６８−１０８９で説明されているアプローチ（「Ａｕｇｅｒ／Ｆｌａｎｄｒｉｎ」）を開発した。Ａｕｇｅｒ／Ｆｌａｎｄｒｉｎアプローチと一致するシステム（「Ａｕｇｅｒ／Ｆｌａｎｄｒｉｎ型システム」）は、Ｎｅｌｓｏｎ型システムの集中短時間フーリエ変換（ＳＴＦＴ）の代替案を提供する。概して、Ａｕｇｅｒ／Ｆｌａｎｄｒｉｎ型システムは、異なる窓関数を伴ういくつかのＳＴＦＴを算出する。Ａｕｇｅｒ／Ｆｌａｎｄｒｉｎ型システムは、位相の時間導関数を得るために、ＳＴＦＴにおいて窓関数の導関数を使用し、共役積は、エネルギーによって正規化される。Ａｕｇｅｒ／Ｆｌａｎｄｒｉｎ型システムは、導関数が離散実装において推定されないため、Ｎｅｌｓｏｎ型システムのアプローチよりも正確な瞬時周波数の解決法を生じる。

しかしながら、ＳＴＦＴアプローチの延長として、Ｎｅｌｓｏｎ型およびＡｕｇｅｒ／Ｆｌａｎｄｒｉｎ型システムの両方は、人間の発話を効果的にモデル化するための必要な融通性が不足している。例えば、Ｎｅｌｓｏｎ型およびＡｕｇｅｒ／Ｆｌａｎｄｒｉｎ型システムの両方の変換は、音声信号のフィルタバンクを最適化する能力を限定する、ＳＴＦＴ全体の窓長さおよび周波数間隔を決定する。また、両方の種類が信号成分の瞬時周波数を見出す一方で、いずれの種類も信号成分の瞬時帯域幅を見出さない。したがって、Ｎｅｌｓｏｎ型およびＡｕｇｅｒ／Ｆｌａｎｄｒｉｎ型アプローチの両方は、音声処理における有用性を限定する、有意な欠点を抱えている。

ＧａｒｄｎｅｒおよびＭｏｇｎａｓｃｏは、Ｔ．Ｊ．ＧａｒｄｎｅｒａｎｄＭ．Ｏ．Ｍａｇｎａｓｃｏ，「Ｉｎｓｔａｎｔａｎｅｏｕｓｆｒｅｑｕｅｎｃｙｄｅｃｏｍｐｏｓｉｔｉｏｎ：Ａｎａｐｐｌｉｃａｔｉｏｎｔｏｓｐｅｃｔｒａｌｌｙｓｐａｒｓｅｓｏｕｎｄｓｗｉｔｈｆａｓｔｆｒｅｑｕｅｎｃｙｍｏｄｕｌａｔｉｏｎｓ，」ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ１１７，ｎｏ．５（２００５）：２８９６−２９０３の中で、代替アプローチ（「Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏ」）を説明している。Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏアプローチと一致するシステム（「Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏ型システム」）は、上記のＮｅｌｓｏｎアプローチと同様に、その瞬時周波数に再マップされた各フィルタからのエネルギーを伴う、極めて冗長な複素フィルタバンクを使用する。Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏ型システムはまた、表現の周波数分解能をさらに強化するために、いくつかの基準を使用する。

つまり、Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏ型システムは、推定瞬時周波数から遠い中心周波数を用いたフィルタを破棄し、信号成分周波数を中心としないフィルタからの周波数推定誤差を低減することができる。Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏ型システムはまた、低エネルギー周波数推定値を除去するために振幅閾値を使用し、フィルタバンクにおけるフィルタの帯域幅を最適化して、隣接フィルタの周波数推定値の一致を最大限化する。次いで、Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏ型システムは、フィルタにわたる高い一致が良好な周波数推定値を示す、分析の質の尺度として一致を使用する。

しかしながら、Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏ型システムも、有意な欠点を抱えている。第１に、Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏ型システムは、瞬時帯域幅計算に対処せず、したがって、音声フォルマンとの重要な部分を見落とす。第２に、一致アプローチは、一群の周波数推定値が相互と簡潔に一致するが、それにもかかわらず、真の共振周波数の不正確な推定値を提供するときに、誤差を確定し得る。これらの理由の両方で、Ｇａｒｄｎｅｒ／Ｍｏｇｎａｓｃｏ型システムは、音声処理用途、特に、短時間尺度にわたってより高い精度を必要とする用途において、限定された有用性を提供する。

上記の方法は、瞬時帯域幅も決定することなく、瞬時周波数を決定しようとするが、ＰｏｔａｍｉａｎｏｓおよびＭａｒａｇｏｓは、音声信号のフォルマントの周波数および帯域幅の両方を得るための方法を開発した。Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓアプローチは、ＡｌｅｘａｎｄｒｏｓＰｏｔａｍｉａｎｏｓａｎｄＰｅｔｒｏｓＭａｒａｇｏｓ，「Ｓｐｅｅｃｈｆｏｒｍａｎｔｆｒｅｑｕｅｎｃｙａｎｄｂａｎｄｗｉｄｔｈｔｒａｃｋｉｎｇｕｓｉｎｇｍｕｌｔｉｂａｎｄｅｎｅｒｇｙｄｅｍｏｄｕｌａｔｉｏｎ，」ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ９，ｎｏ．６（１９９６）：３７９５−３８０６（「Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓ」）で説明されている。

Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓアプローチと一致するシステム（「Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓ型システム」）は、実数値ガボールフィルタのフィルタバンクを使用し、エネルギー分離アルゴリズムを使用して、各時間サンプルで瞬時周波数を計算し、信号を瞬時周波数および振幅包絡線に復調する。Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓ型システムでは、次いで、瞬時周波数は、約１０ｍｓの時間窓を用いて、周波数の短時間推定値を求めるように時間平均される。Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓ型システムでは、帯域幅推定は、単純に、時間窓にわたる瞬時周波数の標準偏差である。

したがって、Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓ型システムは、（変換よりもむしろ）フィルタバンクの融通性を提供するが、Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓ型システムは、標準偏差を使用することによって、瞬時帯域幅を間接的に推定するのみである。つまり、標準偏差が時間平均を必要とするため、Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓ型システムにおける帯域幅推定値は瞬間的ではない。帯域幅が瞬間的ではないため、周波数および帯域幅推定値は、リアルタイム音声認識にとって実用的であるよりも長い時間にわたって平均されなければならない。したがって、Ｐｏｔａｍｉａｎｏｓ／Ｍａｒａｇｏｓ型システムはまた、リアルタイム音声処理に好まれる時間的尺度で音声フォルマントを決定することができない。

米国特許第６，５７７，９６８号明細書米国特許第７，４５７，７５６号明細書米国特許第７，４９２，８１４号明細書

Ｆ．ＡｕｇｅｒａｎｄＰ．Ｆｌａｎｄｒｉｎ，「Ｉｍｐｒｏｖｉｎｇｔｈｅｒｅａｄａｂｉｌｉｔｙｏｆｔｉｍｅ−ｆｒｅｑｕｅｎｃｙａｎｄｔｉｍｅ−ｓｃａｌｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙｔｈｅｒｅａｓｓｉｇｎｍｅｎｔｍｅｔｈｏｄ，」ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ４３，ｎｏ．５（Ｍａｙ１９９５）：１０６８−１０８９Ｔ．Ｊ．ＧａｒｄｎｅｒａｎｄＭ．Ｏ．Ｍａｇｎａｓｃｏ，「Ｉｎｓｔａｎｔａｎｅｏｕｓｆｒｅｑｕｅｎｃｙｄｅｃｏｍｐｏｓｉｔｉｏｎ：Ａｎａｐｐｌｉｃａｔｉｏｎｔｏｓｐｅｃｔｒａｌｌｙｓｐａｒｓｅｓｏｕｎｄｓｗｉｔｈｆａｓｔｆｒｅｑｕｅｎｃｙｍｏｄｕｌａｔｉｏｎｓ，」ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ１１７，ｎｏ．５（２００５）：２８９６−２９０３ＡｌｅｘａｎｄｒｏｓＰｏｔａｍｉａｎｏｓａｎｄＰｅｔｒｏｓＭａｒａｇｏｓ，「Ｓｐｅｅｃｈｆｏｒｍａｎｔｆｒｅｑｕｅｎｃｙａｎｄｂａｎｄｗｉｄｔｈｔｒａｃｋｉｎｇｕｓｉｎｇｍｕｌｔｉｂａｎｄｅｎｅｒｇｙｄｅｍｏｄｕｌａｔｉｏｎ，」ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ９，ｎｏ．６（１９９６）：３７９５−３８０６

概略すると、開示されるシステムは、実質的に、その帯域幅にわたって、音声信号をデジタル的にフィルタ処理し、音声信号内に生じる共鳴の推定瞬時周波数および瞬時帯域幅情報をリアルタイムで生成することによって、デジタル音声入力信号からフォルマントを抽出する。アナログ音声信号を受信し、サンプルをサンプリングし、デジタル化すると、少なくとも１つのデジタルプロセッサは、複数の計算的に実装される複素デジタルフィルタを使用して、音声信号をフィルタ処理し、複数の複素デジタルフィルタ処理信号を生成するようにプログラムされる。デジタルフィルタ毎の帯域幅および中心周波数は、相互に重複するフィルタの仮想チェーンを形成し、実質的に、音声信号の関連帯域幅全体が、チェーンによってフィルタ処理されることを確実にするように、選定されることができる。フィルタ処理デジタル信号毎に、少なくとも１つのデジタルプロセッサは、音声信号の実数成分および虚数成分を再構成する。音声信号の単一遅れ遅延もまた、選択したフィルタ処理信号に基づいて生成される。音声信号中に生じる音声共鳴の推定周波数および帯域幅は、それらの共鳴の推定周波数および帯域幅に基づいて、デジタルプロセッサによって、リアルタイムで識別される。

本発明の１つの一般的側面では、音声処理システムは、デジタル音声信号から、音声内容を抽出する。音声内容は、少なくとも１つのフォルマントによって特徴付けられ、少なくとも１つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられる。音声信号は、少なくとも１つのフォルマントのうちの１つ以上のシーケンスを含む。音声処理システムは、少なくとも１つのデジタルプロセッサを含み、少なくとも１つのデジタルプロセッサは、少なくとも１つの読み取り可能な記憶媒体上に記憶される命令を用いてプログラムされる。少なくとも１つのデジタルプロセッサによる命令の実行は、デジタルプロセッサに、デジタル音声信号から、少なくとも１つのフォルマントのうちの１つ以上のシーケンスのそれぞれ１つを抽出するステップを含む、方法を行わせる。抽出プロセスはさらに、複数の複素デジタルフィルタを使用して、デジタル音声信号をフィルタ処理するステップであって、複数のデジタルフィルタは、そのデジタルフィルタ処理機能を並行して行うために実装される、ステップを含む。デジタルフィルタはそれぞれ、デジタル音声信号の総帯域幅の増分部分を包含する、所定の帯域幅を有する。各所定の帯域幅は、所定の帯域幅の少なくとも１つの他の帯域幅と重複する。複素デジタルフィルタはそれぞれ、複数の複素デジタルフィルタ処理信号のうちの１つを生成する。複素デジタルフィルタ処理信号はそれぞれ、実数成分および虚数成分を含む。

抽出プロセスはさらに、複数のデジタルフィルタ処理信号のそれぞれの単一遅れ遅延と組み合わせて、複数のデジタルフィルタ処理信号のそれぞれから形成される積集合を使用して、複数のデジタルフィルタ処理信号のそれぞれから、瞬時周波数および推定瞬時帯域幅を推定するステップを含む。抽出プロセスはさらに、推定瞬時周波数および推定瞬時帯域幅に基づいて、少なくとも１つのフォルマントのうちの１つとして、デジタル音声信号の１つ以上のフォルマントのシーケンスのそれぞれを識別するステップを含む。本システムは、次いで、フォルマントの識別されたシーケンスに基づいて、デジタル音声信号の音声内容を再構成する。

さらなる実施形態では、複数の複素デジタルフィルタの重複する所定の帯域幅は、統合すると、実質的に、デジタル音声信号の帯域幅にわたって延在する。

別の実施形態では、複数の複素デジタルフィルタのうちの少なくとも１つは、有限インパルス応答（ＦＩＲ）フィルタを特徴とする。

別の実施形態では、複数の複素デジタルフィルタのうちの少なくとも１つは、無限インパルス応答（ＩＩＲ）フィルタを特徴とする。

さらなる実施形態では、複数の複素デジタルフィルタのうちの少なくとも１つは、ガンマトーンフィルタを特徴とする。

本発明の別の側面では、複素デジタルフィルタのそれぞれの所定の帯域幅はさらに、所定の中心周波数によって特徴付けられる。複素デジタルフィルタの所定の中心周波数はそれぞれ、それと重複する所定の帯域幅を有する複数の複素デジタルフィルタのうちの少なくとも１つの所定の中心周波数から所定の中心周波数間隔だけ分離される。一実施形態では、所定の中心周波数間隔は、約２％である。別の実施形態では、チェーンを形成する複素フィルタのそれぞれの所定の帯域幅は、その所定の中心周波数の約０．７５である。

一実施形態では、少なくとも１つのデジタルプロセッサは、汎用マイクロプロセッサである。代替実施形態では、少なくとも１つのデジタルプロセッサは、該フィルタ処理ステップおよび該推定ステップに固有の具体的計算を取り扱うように設計される計算リソースを有する、デジタル信号プロセッサ（ＤＳＰ）である。

さらなる実施形態では、生成プロセスはさらに、所定の期間にわたって、複数のデジタルフィルタ処理信号毎に形成される積集合を積分し、デジタルフィルタ処理信号毎に推定瞬時周波数および瞬時帯域幅を生成するステップを含む。

別の実施形態では、生成ステップはさらに、第１に、補正されるデジタルフィルタ処理信号を生成したデジタルフィルタのうちの１つの帯域幅に重複する帯域幅を有するデジタルフィルタによって生成される、デジタルフィルタ処理信号の２つに対する推定瞬時周波数間の差異を決定し、第２に、次いで、決定された差異を所定の中心周波数間隔で除算することによって、複素デジタルフィルタのうちの１つによって生成されたデジタルフィルタ処理信号の１つ毎に、推定瞬時帯域幅を補正するステップを含む。

本発明の別の側面では、積分積集合は、積分カーネルを使用して、複数の複素デジタルフィルタ処理信号毎に形成され、積分積集合は、少なくとも１つのゼロ遅れ複素積および少なくとも１つの単一遅れ複素積を有する。

なおも別の実施形態では、積分積集合は、少なくとも１つの単一遅れ複素積の代わりに、少なくとも１つのゼロ遅れ複素積および少なくとも１つの２以上遅れ複素積を有する。

本発明のさらに別の側面では、装置は、デジタル化された音声信号内に埋め込まれた音声内容を抽出し、音声内容は、少なくとも１つのフォルマントによって特徴付けられ、少なくとも１つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられる。音声信号は、少なくとも１つのフォルマントのうちの１つ以上のシーケンスを含む。本装置は、プログラム命令によって、デジタル音声信号のサンプルを受信し、それに作用するように構成される、再構成プロセッサを含む。再構成プロセッサは、複数の複素デジタルフィルタを計算的に実装し、複数の複素デジタルフィルタは、デジタル音声信号の各サンプルに並行してその処理を行うように実装される。複素デジタルフィルタはそれぞれ、複数の複素フィルタの少なくとも１つの他のフィルタの帯域幅と重複する帯域幅によって特徴付けられる。複素デジタルフィルタはそれぞれ、出力として、複数のデジタルフィルタ処理信号のうちの１つを生成する。処理されたデジタル音声信号のサンプル毎の離散値から構成される、デジタルフィルタ処理信号はそれぞれ、実数成分および虚数成分を含む。

本装置はさらに、プログラム命令によって、再構成プロセッサから、複数のデジタルフィルタ処理信号を受信するように構成される、推定器プロセッサを含み、推定器プロセッサは、推定器プロセスを計算的に実装し、推定器プロセスは、生成されたデジタルフィルタ処理信号の１つ毎にインスタンス化され、推定器プロセスの各インスタンス化は、複数のデジタルフィルタ処理信号のそれぞれから形成される積集合を使用して、複数のデジタルフィルタ処理信号のそれぞれから、推定瞬時周波数および推定瞬時帯域幅を生成するように構成される。

本装置はさらに、プログラム命令によって、推定器プロセッサから、複数のデジタルフィルタ処理信号毎の推定される瞬時周波数および瞬時帯域幅推定値を受信するように構成される、後処理プロセッサを含む。後処理プロセッサはさらに、プログラム命令によって、複数のフィルタ処理信号の受信した推定瞬時周波数および推定瞬時帯域幅に基づいて、デジタル音声信号の１つ以上のフォルマントのシーケンスのそれぞれを少なくとも１つのフォルマントのうちの１つとして識別するように構成される。後処理プロセッサはまた、プログラム命令によって、識別されたフォルマントを使用して、デジタル音声信号の音声内容を再構成するように構成される。

ある実施形態では、推定器プロセスの各インスタンス化はさらに、所定の期間にわたって、複数のフィルタ処理信号毎に形成される積集合を積分し、フィルタ処理信号毎に、推定瞬時周波数および瞬時帯域幅を生成するように構成される、計算的に実装される積分カーネルを備える。

一実施形態では、積分カーネルは、二次ガンマＩＩＲフィルタを特徴とする。

別の実施形態では、複数のデジタルフィルタ処理信号のそれぞれから推定される瞬時周波数および推定瞬時帯域幅は、複数のデジタルフィルタ処理信号のそれぞれの少なくとも１つの単一遅れ遅延と組み合わせて、複数のフィルタ処理信号のそれぞれから推定器プロセスによって形成される積集合を使用して生成される。

さらなる実施形態では、推定器プロセッサはさらに、推定器プロセッサから、推定瞬時周波数および推定瞬時帯域幅を受信する、補正プロセスを実装するように構成される。補正プロセスは、所定の中心周波数間隔で除算されたチェーン内の２つの隣接する複素フィルタに対する推定瞬時周波数間の差異を使用して、フィルタ処理信号毎の補正された推定瞬時帯域幅を後処理モジュールに提供する。

なおも別の実施形態では、補正プロセスはさらに、フィルタ処理信号毎に補正された帯域幅を最良適合式に当てはめることによって、フィルタ処理信号毎に補正された推定瞬時周波数を後処理プロセッサに提供する。

別の実施形態では、再構成プロセッサ、推定器プロセッサ、および後処理プロセッサは、１つ以上のデジタルプロセッサとして実装される。

代替実施形態では、１つ以上のデジタルプロセッサのうちの少なくとも１つは、汎用マイクロプロセッサである。

なおも別の代替実施形態では、再構成プロセッサ、推定器プロセッサ、および後処理プロセッサは、１つ以上のＤＳＰ構成要素として実装される。

本明細書で説明される実施形態は、以下の図と併せて、詳細な説明を参照することによってより完全に理解される。
図１ａは、人間の声道の切断図である。図１ｂは、複素音響共鳴音声分析システムを含む、音声処理システムの高レベルブロック図である。図２は、信号変換および過程組織をハイライトする、図１ｂの音声処理システムの実施形態のブロック図である。図３ａは、図２の音声処理システムの音声共鳴分析プロセスの単一デジタルプロセッサベースの実装の実施形態のブロック図である。図３ｂは、図２の音声処理システムの音声共鳴分析プロセスの分散型デジタルプロセッサベースの実装の実施形態のブロック図である。図４は、音声共鳴分析プロセスの複素ガンマトーンフィルタの実施形態のブロック図である。図５は、音声処理方法の動作ステップを描写する高レベルフロー図である。図６−９は、複素音響音声共鳴分析方法の実施形態の動作ステップを描写する高レベルフロー図である。図６−９は、複素音響音声共鳴分析方法の実施形態の動作ステップを描写する高レベルフロー図である。図６−９は、複素音響音声共鳴分析方法の実施形態の動作ステップを描写する高レベルフロー図である。図６−９は、複素音響音声共鳴分析方法の実施形態の動作ステップを描写する高レベルフロー図である。

（詳細な説明）
図１ａは、人間の声道１０の切断図を図示する。示されるように、声道１０は、音波１２を産出する。音波１２の質は、音声産出中の声道１０の構成によって決定される。具体的には、図示されるように、声道１０は、それぞれ音波１２を生成することに寄与する、４つの共振器１、２、３、４を含む。４つの図示した共振器は、咽頭共振器１、口腔共振器２、口唇共振器３、鼻腔共振器４である。４つ全ての共振器は、個別に、かつともに、音声産出中に音声共鳴を生成する。これらの音声共鳴は、音波１２を形成するように寄与する。

図１ｂは、本発明の一実施形態による、音声処理システム１００の実施例を図示する。総括的には、音声処理システム１００は、「入力捕捉および前処理」、「処理および分析」、および「後処理」という３つの一般的処理段階で動作する。音声処理システム１００は、トランジスタ、インダクタ、レジスタ、およびキャパシタ等の標準的アナログハードウェア構成要素、汎用マイクロプロセッサ（μＰ）および／または特定用途向けデジタル信号プロセッサ（ＤＳＰ）等の１つ以上のデジタルプロセッサ、あるいは前述の全ての組み合わせを使用して実装されることができる。各処理段階は、以下にさらに詳細に説明される。

処理段階のアナログ実装の場合、処理段階によって提供される機能は、ハードウェアを通過するにつれて、構成要素自体によって、信号に行われる。デジタル実装の場合、プロセスは、概して、分析される音声信号のデジタルサンプルに計算的に行われる。計算は、デジタルプロセッサと別個またはその中に統合される読み取り可能なメモリ構成要素上に記憶されるプログラム命令に基づいて、１つ以上のそのようなプロセッサによって行われる。

ＤＳＰとマイクロプロセッサ構成要素との間の差異は、主に、目の前にあるタスクに特有の計算を行うために利用可能な専用リソースのタイプである。汎用マイクロプロセッサは、典型的には、汎用計算リソースを有する。ＤＳＰ構成要素は、信号処理のために典型的に要求される計算を行うようにより具体的に調整される、計算リソースを有する傾向にあって、したがって、より高速であるが、また、より高価でもある傾向にある。両タイプの処理構成要素とも、より低速であって、かつ安価である傾向にある汎用プロセッサと、より高速であるが、より高価でもある傾向にあるＤＳＰ構成要素を用いて、本明細書に説明されるような処理段階に必要な計算を行うことが可能である。したがって、以降における用語「デジタルプロセッサ」の使用は、汎用マイクロプロセッサおよび特定用途向けＤＳＰの両方を含む、本明細書に説明されるような処理段階に要求される計算を行うことが可能な任意のタイプの処理構成要素を包含することが意図されるであろう。

音声信号を分析し、解釈するために、一部の音声が最初に捕捉されなければならない。したがって、プロセスの第１の段階は、概して、「入力捕捉および前処理」である。図示されるように、音声処理システム１００は、声道１０から生じる音波１２を捕捉するように構成される。上記で説明されるように、人間の声道は、種々の場所で共鳴を生成する。この段階では、声道１０が音波１２を生成する。入力処理モジュール１１０は、音波１２を検出し、捕捉し、デジタル音声信号に変換する。

より具体的には、その他の点では従来的な入力処理モジュール１１０が、入力ポート１１２を通して音波１２を捕捉する。入力ポート１１２は、従来のマイクロホンまたは他の好適なデバイス等のその他の点では従来的な入力ポートおよび／またはデバイスである。入力ポート１１２は、音波１２を捕捉し、音声に基づいてアナログ信号１１４を生成する。

入力処理モジュール１１０はまた、デジタル配信モジュール１１６も含む。一実施形態では、デジタル配信モジュール１１６は、入力信号をデジタル化し、配信するように構成される、その他の点では従来的なデバイスまたはシステムである。モジュール１１６は、当業者に公知である、別個または統合されたアナログデジタル交換機（ＡＤＣ）であり得る。示されるように、デジタル配信モジュール１１６は、アナログ信号１１４を受信し、アナログ信号１１４のデジタル化されたサンプルから成る、出力信号１２０を生成し、サンプルは、典型的には、実質的に、一定サンプリングレートで生成される。図示した実施形態では、出力信号１２０は、入力処理モジュール１１０の出力である。

本明細書で説明される本発明の音声共鳴分析モジュール１３０は、後処理モジュール１４０による付加的な音声処理のために好適な出力信号を形成する、音声信号１２０を受信する。以下でより詳細に説明されるように、音声共鳴分析モジュール１３０は、音声信号１２０を複素音声信号に再構成する。再構成された音声信号を使用して、音声共鳴分析モジュール１３０は、複素音声信号の音声共鳴の周波数および帯域幅を推定し、信号を補正またはさらに処理して、それらの推定値の精度を強化することができる。

音声共鳴分析モジュール１３０は、多種多様の変換、強化、および音声共鳴分析モジュール１３０によって生成された出力信号内のフォルマントの識別を含む、他の後処理機能を果たすように構成することができる、後処理モジュール１４０に、その出力を渡す。いくつかの実施形態では、後処理モジュール１４０は、その他の点では従来的な後処理モジュールである。以下の図は、本発明を説明する付加的な詳細を提供する。

図２は、再構成、推定、および分析／補正といった３つの広範な処理副段階を捕捉する表現において、処理および分析段階を提示する。具体的には、図２は、システム１００の別の図を示す。入力処理モジュール１１０は、実アナログ音響（すなわち、音、音声、または他の雑音）を受信し、音響信号を捕捉し、それをサンプリングされたデジタル形式に変換し、結果として生じたデジタル音声信号１２０を音声共鳴分析モジュール１３０に渡す。

当業者は、人間の音声等の音響共鳴場を複素信号としてモデル化することができ、したがって、実数成分および虚数成分を用いて表すことができることを理解するであろう。概して、入力処理モジュール１１０への入力は、伝送中に複素情報を失った、例えば、図１の声道を表す点１０からの実アナログ信号である。示されるように、モジュール１１０の出力信号、音声信号１２０（Ｘとして示される）は、アナログ入力信号のサンプリングされたデジタル表現であり、元の信号情報のうちの一部が欠けている。

音声信号１２０（信号Ｘ）は、本明細書では「音声共鳴分析」と呼ばれる、本明細書で開示される本発明の３段階の処理への入力である。具体的には、再構成プロセス２１０は、各共鳴の虚数成分および実数成分が再構成されるように、信号１２０を受信し、再構成する。この段階は、図３ａ、３ｂ、および４に関して以下でより詳細に説明される。示されるように、再構成プロセス２１０の出力は、それぞれ実数成分Ｙ_Ｒおよび虚数成分Ｙ_Ｉを含む、複数の再構成されたデジタル信号Ｙ_ｎである。

再構成プロセス２１０の出力は、本明細書で開示される本発明の次の広範な段階の処理への入力である。具体的には、推定器プロセス２１０は、再構成段階の出力である、信号Ｙ_ｎを受信する。非常に一般的に、推定器プロセス２１０は、再構成された音声信号の個々の音声共鳴のうちの１つ以上の瞬時周波数および瞬時帯域幅を推定するために、再構成された信号を使用する。この段階は、図３ａおよび３ｂに関して以下でより詳細に説明される。示されるように、推定器プロセス２１０の出力は、複数の推定される周波数

および推定帯域

である。

推定器プロセス２１０の出力は、本明細書で開示される本発明の次の広範な段階の処理への入力である。具体的には、分析および補正プロセス２３０は、推定段階の出力である、複数の推定周波数および帯域幅を受信する。非常に一般的に、モジュール２３０は、改訂された推定値を生成するために、推定周波数および帯域幅を使用する。一実施形態では、改訂された推定周波数および帯域幅は、本発明の新規の補正方法の結果である。代替実施形態では、それら自体が新規の推定および分析方法の結果である、改訂された推定周波数および帯域幅は、さらなる改良のために後処理モジュール１４０に渡される。この段階は、図３ａおよび３ｂに関してより詳細に説明される。

一般に、以下でより詳細に説明されるように、分析および補正プロセス２３０の出力は、音声共鳴を推定するための従来技術のシステムおよび方法と比べて、有意な改善を提供する。本明細書で説明される本発明に従って構成されると、音声処理システムは、人間の音声のより正確な表現を産出し、それに影響することができる。これらのフォルマントを捕捉することの向上した精度は、これらの表現に依存する音声用途において、より良好な性能をもたらす。

より具体的には、本明細書で提示される本発明は、全体を通して複素数を使用する、デジタル的に表された伝達関数の多重オブジェクト並列処理チェーンを用いて、個々の音声共鳴を決定する。音響共鳴の性質に基づいて、本発明は、高い時間分解能で音声共鳴の周波数および帯域幅を抽出するように最適化される。

図３ａおよび３ｂは、デジタル処理構成要素とともに実装される、本発明の実施形態をさらに詳細に図示する。図３ａでは、音声分析プロセス１３０の全て（すなわち、再構成プロセス２１０、推定器プロセス２２０、ならびに分析および補正プロセス２３０）が、単一デジタルプロセッサ１３０ｐによって行われる。図３ｂでは、処理リソースは、前述の音声分析プロセスのそれぞれが、別個のデジタルプロセッサ、すなわち、再構成プロセッサ２１０ｐ、推定器プロセッサ２２０ｐ、ならびに分析および補正プロセッサ２３０によって行われるように、より分散される。当業者は、そのような計算リソースの分散は、主に、計算が行われなければならないスピード対計算処理量を増加させるために複数の構成要素を使用するコスト等の設計上の考慮点に基づくことを理解するであろう。

当業者は、さらなる実施形態が、複素デジタルフィルタ関数３１０によって表される計算プロセス毎に別個のプロセッサを採用することができ、推定器プロセス３２０がそれぞれ、別個のプロセッサとして実装されることができることを理解するであろう。別の実施形態は、単一デジタルプロセッサとともに、複素デジタルフィルタ関数３１０および推定器３２０の各対合を実装することができる。

概して、音声認識システム１００は、上記で説明されるように、音声信号１２０を生成するように構成される、入力処理プロセス１１０を含む。図示されるように、再構成モジュール２１０は、音声信号１２０を受信する。一実施形態では、音声信号１２０は、サンプリングされ、デジタル化されたマイクロホンまたはネットワークソースからのデジタル音声信号である。一実施形態では、音声信号１２０は、精度およびサンプリング周波数において比較的低く、例えば、８ビットサンプリングである。再構成プロセス２１０は、音響共鳴の一般的モデルを使用して、音響音声共鳴を再構成する。

例えば、音響共鳴は、複素指数関数として数学的にモデル化することができる。

式中、ｆは、共鳴の周波数（ヘルツ単位）であり、βは、帯域幅（ヘルツ単位）である。慣例により、βは、ほぼ測定可能な半値全幅帯域幅である。さらに、複素音響伝送は、（実）正弦波によって適切に表すことができる。したがって、信号捕捉過程は、複素源の実数（または虚数）部分を取り出すことの同等物であるが、それも瞬間情報を失う。以下でより詳細に説明されるように、再構成モジュール２１０は、音響音声共鳴の元の複素表現を再生成する。

図示した実施形態では、再構成プロセス２１０は、複数の複素デジタルフィルタ（ＣＦ）３１０を含む。これらの複素フィルタはそれぞれ、各フィルタの挙動を特徴付ける伝達関数として、デジタル的に実装され、それぞれ、同時に、処理されるデジタル音声信号の各サンプルに計算的に適用される。複素デジタルフィルタ３１０の一実施形態は、以下の図４に関してより詳細に説明される。概して、再構成プロセス２１０は、複数の再構成された信号Ｙ_ｎを生成し、そのそれぞれは、実数部（Ｙ_Ｒ）および虚数部（Ｙ_Ｉ）を含む。

示されるように、システム１００は、図示した実施形態では、そのそれぞれが再構成された信号Ｙ_ｎの１つの連続サンプルを受信するように構成される、複数の推定器オブジェクトまたはインスタンス化３２０を含む、推定器プロセス２２０を含む。図示した実施形態では、各推定器オブジェクト３２０は、積分カーネル３２２を含む。代替実施形態では、プロセス２１０は、１つ以上の積分カーネル３２２を伴って構成することができる、推定器オブジェクト３２０の単一のインスタンス化を含む。代替実施形態では、推定器オブジェクト３２０は、積分カーネル３２２を含まない。当業者は、推定器プロセスによって行われる計算が、推定器プロセスのｎ個のインスタンス化を同時に起動することによって、並行して行われることができることを理解するであろう、用語「オブジェクト」は、便宜上、ｎ個の信号毎の推定器プロセスのこれらの別個のインスタンス化を説明するために使用されるが、そのようなプロセスが、必ずしも、「オブジェクト指向プログラミング」の結果でなければならないことを意図するものではない。

概して、推定器オブジェクト３２０は、音響共鳴の性質を使用して、再構成された信号に基づく推定瞬時周波数および帯域幅を生成する。上記で説明される複素音響共鳴の式は、非常に単純化形態に分解することができる。

これは、周波数ｆにおける、帯域幅βを伴う共鳴の場合である。ｅ^−ａｔ族の式も異なる式によってモデル化することができる。

これは、強制関数ｘの場合である。ｘ（ｔ）がゼロであり、声門からのインパルスへの声道共鳴のリンギング応答の場合のように、例えば、一実施形態では、システム１００は、再構成された共鳴ｙの２つのサンプルに基づいて、係数ａを決定することができ、係数ａから、以下でより詳細に説明されるように、周波数および帯域幅を推定することができる。ｘが変数である、同様に以下でより詳細に説明される代替実施形態で、または騒々しい動作環境中で、システム１００は、自己回帰結果を計算して係数ａを決定することができる。

図示した実施形態では、各推定器オブジェクト３２０は、その周波数および帯域幅推定の結果を分析および補正プロセス２３０に渡す。概して、プロセス２３０は、複数の瞬時周波数および帯域幅推定値を受信し、以下でより詳細に説明される、ある構成に基づいて、これらの推定値を補正する。

示されるように、モジュール１３０は、一実施形態では、付加的な処理のためにシステム１００が後処理モジュール１４０に送信する、出力３４０を産出する。実施形態では、出力３４０は、複数の周波数および帯域幅である。

したがって、概して、システム１００は、複数の音声共鳴を含む音声信号を受信し、音声共鳴を再構成し、瞬時周波数および帯域幅を推定し、さらなる処理、分析、および解釈のために、処理された瞬時周波数および帯域幅情報を後処理モジュール上に渡す。上記で説明されるように、分析および処理の第１の位相は、より詳細に示された、図４の一実施形態の再構成である。

図４は、一実施形態による、複素ガンマトーンデジタルフィルタ３１０の概念的動作を図示するブロック図である。具体的には、フィルタ３１０は、入力音声信号１２０を受信し、音声信号１２０を２つに二次的入力信号４１２および４１４に分割し、二次的入力信号４１２および４１４を一連のフィルタ４２０に通過させる。図示した実施形態では、フィルタ３１０は、単一の一連のフィルタ４２０を含む。代替実施形態では、フィルタ３１０は、図示した一連のフィルタと平行に（一連として）配設される、１つ以上の付加的な一連のフィルタ４２０を含む。

図示した実施形態では、一連のフィルタ４２０は、４フィルタ分の長さである。そのように構成されると、第１のフィルタ４２０の出力は、次のフィルタ４２０への入力としての機能を果たし、その出力は、次のフィルタ４２０への入力としての機能を果たす等となる。

一実施形態では、各フィルタ４２０は、２つのフィルタセクション４２２および４２４から成る複素直交フィルタである。図示した実施形態では、フィルタ４２０は、２つのセクション４２２および２つのセクション４２４を伴って示されている。代替実施形態では、フィルタ４２０は、それぞれ以下で説明されるように動作するように構成される、単一のセクション４２２および単一のセクション４２４を含む。一実施形態では、各フィルタセクション４２２および４２４は、以下でより詳細に説明される、その入力信号で変換を行うように構成される回路である。各フィルタセクション４２２および４２４は、実数出力を産出し、その一方は、フィルタ４２０の出力の実部に該当し、その他方は、フィルタ４２０の出力の虚数部に該当する。

一実施形態では、フィルタ４２０は、有限インパルス応答（ＦＩＲ）フィルタである。一実施形態では、フィルタ４２０は、無限インパルス応答（ＩＩＲ）フィルタである。好ましい実施形態では、一連の４つのフィルタ４２０は、複素指数関数を伴う四次ガンマ包絡関数である、複素ガンマトーンフィルタである。代替実施形態では、再構成モジュール３１０は、一連の中のフィルタ４２０の数に対応する、ガンマ関数の他の次数を伴って構成される。

概して、四次ガンマトーンフィルタインパルス応答は、以下の項、すなわち、
ｇ_ｎ（ｔ）＝複素ガンマトーンフィルタｎ
ｂ_ｎ＝フィルタｎの帯域幅パラメータ
ｆ_ｎ＝フィルタｎの中心周波数
の関数であり、以下によって求められる。

したがって、一実施形態では、フィルタ４２０の出力は、サンプリング周波数におけるＮ個の複素数の出力である。したがって、複素数値フィルタの使用は、実数信号への複素フィルタの応答も複雑であるため、実数値入力単数をその分析的表現に変換する必要性を排除する。したがって、フィルタ４２０は、複素ドメインにおいて過程全体を統一するように構成することができるため、フィルタ３１０は、明確に異なる処理利点を提供する。

また、各フィルタ４２０は、各フィルタ４２０に対するフィルタ関数、フィルタ窓関数、フィルタ中心周波数、およびフィルタ帯域幅を含む、いくつかの構成オプションを伴って独立して構成することができる。一実施形態では、フィルタ中心周波数および／またはフィルタ帯域幅は、所定の範囲の周波数および／または帯域幅から選択される。一実施形態では、各フィルタ４２０は、同じ関数形式を伴って構成される。好ましい実施形態では、各フィルタは、四次ガンマ包絡として構成される。

一実施形態では、各フィルタ４２０のフィルタ帯域幅およびフィルタ間隔は、全体的な分析精度を最適化するように構成される。したがって、各フィルタのフィルタ窓機能、中心周波数、および帯域幅を特定する能力は、個別に、特に音声信号を分析するよう、フィルタ３１０を最適化することにおいて有意な融通性を与える。好ましい実施形態では、各フィルタ４２０は、（５００Ｈｚでの飽和を伴う）中心周波数の４分の３の２％中心周波数間隔およびフィルタ帯域幅を伴って構成される。一実施形態では、フィルタ３１０は、直角位相における一次ガンマトーンフィルタ４２０のチェーンとして実装される、四次複素ガンマトーンフィルタである。

以下は、四次ガンマトーンフィルタを作成するために一次ガンマトーンフィルタのチェーンを使用することの数学的正当化である。複素入力

について、一次複素ガンマトーンフィルタ４２０の複素カーネルは、

として表すことができ、

一実施形態では、フィルタセクション４２２および４２４は、それぞれ、以下のように入力信号を伴って構成される。

組み合わせられると、出力

を用いて、一次複素ガンマトーンフィルタを実施する。

したがって、一実施形態では、四次複素ガンマトーンフィルタは、一次フィルタ４２０の４回の反復である。

図示した実施形態では、例えば、各フィルタ４２０は、一次ガンマトーンフィルタとして構成される。具体的には、フィルタ３１０は、入力信号１２０を受信し、受信した信号を指定された実数および虚数信号に分割する。図示した実施形態では、スプリッタ４１０は、信号１２０を実数信号４１２および虚数信号４１４を分割する。代替実施形態では、スプリッタ４１０が省略され、フィルタ４２０が信号１２０に直接影響する。図示した実施形態では、実数信号４１２および「虚数」信号４１４の両方は、入力信号１２０の複素成分を表す、実数値信号である。

図示した実施形態では、実数信号４１２は、実数フィルタセクション４２２および虚数フィルタ４２４への入力信号である。図示した実施形態では、セクション４２２は、信号４１２からＧ_Ｒを計算し、セクション４２４は、信号４１２からＧ_Ｉを計算する。同様に、虚数信号４１４は、実数フィルタセクション４２２および虚数フィルタセクション４２４への入力信号である。図示した実施形態では、セクション４２２は、信号４１４からＧ_Ｒを計算し、セクション４２４は、信号４１４からＧ_Ｉを計算する。

示されるように、フィルタ４２０は、セクション４２２および４２４からの出力を組み合わせる。具体的には、フィルタ４２０は、信号減算器４３０および信号加算器４３２を含む。図示した実施形態では、減算器４３０および加算器４３２は、セクション４２２および４２４からの信号出力を減算または加算するように構成される。当業者は、２つの信号を加算および／または減算するために好適な種々の機構があることを理解するであろう。示されるように、減算器４３０は、実数フィルタセクション４２２（信号４１２が入力される）の出力から虚数フィルタセクション４２４（信号４１４が入力される）の出力を減算するように構成される。減算器４３０の出力は、フィルタ４２０の出力の実数成分Ｙ_Ｒである。

同様に、加算器４３２は、虚数フィルタセクション４２４（信号４１２が入力される）の出力を、実数フィルタセクション４２２（信号４１４が入力される）の出力に加算するように構成される。加算器４３２の出力は、フィルタ４２０の出力の虚数成分Ｙ_Ｉの実数値である。示されるように、モジュール４００は、４つのフィルタ４２０を含み、その出力は、実数成分４４０および虚数成分４４２である。上記で説明されるように、実数成分４４０および虚数成分４４２は、さらなる処理および分析のために推定器モジュールに渡される。

前述のフィルタ実装は、デジタルプロセッサによって実行され、複素デジタルフィルタ３１０の出力を生成する、計算プロセスとして実現され、その計算プロセスの各インスタンス化は、複数のフィルタの帯域幅が、相互に重複され、分析されることになるデジタル音声信号の帯域幅全体の包含を確実にすることができるように、その独自の帯域幅および中心周波数を有することは、当業者によって理解されるであろう。仮想チェーンとして、デジタルフィルタ３１０の隣接するインスタンス化の帯域幅を重複させることによって、入力音声信号内に含有される共鳴情報が、検出されずに通過することはないであろう。

ここで３ａおよび３ｂに戻ると、システム１００の図示した実施形態では、推定器プロセス２１０は、複数の推定器オブジェクトまたはインスタンス化３２０を含む。上記で説明されるように、各推定器オブジェクト３２０は、再構成モジュール２１０の複素デジタルフィルタ３１０のうちの１つから実数成分（Ｙ_Ｒ）および（実数値の）虚数成分（Ｙ_Ｉ）を受信する。一実施形態では、各推定器オブジェクト３２０は、その推定器オブジェクト３２０への入力を生成した特定の複素デジタルフィルタ３１０の構成を受信するか、またはそうでなければ認識する。一実施形態では、各推定器オブジェクト３２０は、複素フィルタ３１０と関連付けられ、フィルタ関数、フィルタ中心周波数、およびフィルタ帯域幅を含む、複素フィルタ３１０の構成設定を認識する。

図示した実施形態では、各推定器オブジェクト３２０はまた、付加的計算プロセスを各推定器オブジェクト３２０によって行われるものに追加する、積分カーネル３２２も含む。代替実施形態では、各推定器オブジェクト３２０は、積分カーネル３２２なしで動作する。一実施形態では、少なくとも１つの積分カーネル３２２は、二次ガンマＩＩＲフィルタである。概して、各積分カーネル３２２は、入力として実数および虚数成分を受信するように、および受信した入力に基づいてゼロ遅れ遅延および変数遅れ遅延を計算するように構成される。

各推定器オブジェクト３２０は、以下で説明される方法を使用して、一式の積を形成して周波数および帯域幅を推定するために、フィルタ処理信号の変数遅延を使用する。推定器オブジェクト３２０のいくつかの実施形態があり、例えば、推定器オブジェクト３２０は、図示されるように、積分カーネル３２２を含有してもよい。明確にするために、増加するレベルの複雑性を伴うシステムの３つの代替的実施形態が、ここで紹介されている。

第１の実施形態では、各推定器オブジェクト３２０は、積分カーネル３２２がない入力音声信号１２０の音声共鳴の推定周波数および推定帯域を生成する。推定周波数および帯域幅は、推定器オブジェクト３２０と関連付けられるＣＦ３１０からの現在のフィルタ処理信号出力と、そのフィルタ処理信号出力の単一遅れ遅延のみに基づく。一実施形態では、複数のフィルタ３１０および関連推定器オブジェクト３２０は、各時間サンプルにおいて複数の推定周波数および帯域幅を生成する。

第２の実施形態では、各推定器オブジェクト３２０は、積分積集合を形成する積分カーネル３２２を含む。積分積集合に基づいて、推定器オブジェクト３２０は、入力音声信号１２０の音声共鳴の推定周波数および推定帯域を生成する。各積分カーネル３２２は、フィルタ処理信号出力および積分の長さに対するフィルタ処理信号出力の単一遅延の積を更新することによって、積分積集合を形成する。一実施形態では、複数のフィルタ３１０および関連推定器オブジェクト３２０は、積分カーネル３２２によって経時的に平滑化される、各時間サンプルにおける複数の推定周波数および帯域幅を生成する。

第３の実施形態では、積分積集合は、積分積集合の中の積の数を増加させる、少なくとも２の遅れ複素積を有する。これら３つの実施形態は、以下でより詳細に説明される。

上記で紹介される第１の実施形態では、推定器オブジェクト３２０は、積分カーネル３２２を用いずにＣＦ３１０の出力を使用して、単一遅れ積集合を算出する。この実施形態では、各時点で単一の共鳴を抽出し、単一遅延を使用して入力音声信号１０２の瞬時周波数および帯域幅を求めるために、ｙがＣＦ３１０の複素出力である、積集合

が使用される。推定器オブジェクト３２０は、以下の式を使用して、単一遅れ積集合を伴う瞬時周波数

および瞬時帯域幅

を算出する。

式中、ｄｔは、サンプリング間隔である。好ましい実施形態では、１つ以上の推定器オブジェクト３２０は、各ＣＦ３１０出力に基づいて、単一遅れ積集合から瞬時周波数および帯域幅を計算する。

代替実施形態（例えば、上記で紹介される第２および第３の実施形態）では、推定器オブジェクト３２０は、積分カーネル３２２を使用して、変数遅延の積分積集合を算出する。積分積集合は、入力音声信号１０２の音声共鳴の瞬時周波数および帯域幅を算出するために使用される。好ましい実施形態では、１つ以上の推定器オブジェクト３２０は、各ＣＦ３１０出力に基づいて積分積集合を計算する。

推定器オブジェクト３２０の積分積集合は、実施形態に応じて、ゼロ遅れ積、単一遅れ積、および少なくとも２の遅れ積を含むことができる。これらの実施形態では、積分積集合は、以下の定義を伴う積分積行列として構成される。
Ф_Ｎ（ｔ）＝Ｎ遅延を伴う積分積行列
φ_ｍ，ｎ（ｔ）＝遅延ｍ，ｎ≦Ｎを伴う積分積行列要素
ｙ＝再構成モジュール２１０におけるＣＦ３１２の複素信号出力
ｋ＝推定器モジュール３２０内の積分カーネル３２２
推定器オブジェクト３２０は、各サンプリング時間に積分積行列の要素を更新し、時間積分は、長さｌの積分カーネルｋ［τ］上で各要素について別々に行われる。

Ｎ遅延を伴う全積分積集合は、Ｎ＋１×Ｎ＋１行列である。

したがって、１という最大遅延（すなわち、単一遅れ）について、積分積集合は、２×２行列である。

したがって、要素φ_０，０は、ゼロ遅れ複素積であり、要素φ_０，１、φ_１，１、およびφ_１，０は、単一遅れ複素積である。加えて、２という最大遅延（すなわち、少なくとも２の遅れ）について、積分積集合は、上記からのゼロ遅れおよび単一遅れ積、ならびに２遅れ積の付加的な列および行、φ_０，２、φ_１，２、φ_２，２、φ_２，１、およびφ_２，０から成る、３×３行列である。概して、付加的な遅れは、後続の周波数および帯域幅推定値の精密度を向上させる。当業者は、付加的な遅れによって獲得される精密度と、付加的な要素を算出するために必要とされる力／時間との間に、計算的トレードオフがあることを理解するであろう。

この実施形態では、推定器オブジェクト３２０は、積分積集合を計算するために時間積分を使用するように構成される。概して、複素時間積分は、音声共鳴の推定値の融通の利く最適化を提供する。例えば、時間積分は、声門強制とは無関係に、声門期間にわたる共鳴推定値を平均して、より正確な共鳴値を得るために使用することができる。

関数ｋは、応答速度を保ちながら信号対雑音比を最適化するように選択される。好ましい実施形態では、積分カーネル３２２は、二次ガンマ関数としてｋを構成する。一実施形態では、積分カーネル３２２は、二次ガンマＩＩＲフィルタである。代替実施形態では、積分カーネル３２２は、その他の点では従来的なＦＩＲまたはＩＩＲフィルタである。

上記で紹介される、単一遅延積分積集合を伴う第２の実施形態では、推定器オブジェクト３２０は、以下の式を用いて、単一遅延積分積行列の要素を使用して瞬時周波数

および瞬時帯域幅

を計算する。

この実施形態では、

は、共鳴の極モデルと関連付けられる推定帯域である。当業者は、他のモデルも採用できることを理解するであろう。

周波数および帯域幅推定のためのこれらの式は、上記で説明される第１の実施形態における式と同等であり、積分窓ｋは、クロネッカーのデルタ関数として構成され、本質的に積分カーネルを除去し、同等の積行列要素をもたらすことに留意されたい。

上記で紹介される第３の実施形態では、推定器モジュール３２０は、各サンプル時間で複素フィルタにつきより多くの共鳴の性質を推定するために、付加的な遅延を伴う積分積集合を使用する。これは、密接に離間した共鳴を検出する際に使用することができる。

要約すれば、再構成モジュール３１０は、音響音声信号の近似複素再構成を提供する。推定器オブジェクト３２０は、概して、音響共鳴の性質に部分的に基づいて、共鳴の瞬時周波数および帯域幅を算出するために、モジュール３１０の出力である再構成信号を使用する。

図示した実施形態では、分析および補正モジュール３３０は、複数の推定周波数および帯域幅ならびに推定器オブジェクト３２０からの積集合を受信する。概して、分析および補正モジュール３３０は、回帰分析を使用して、周波数および帯域幅計算の誤差推定値を提供する。分析および補正モジュールは、さらなる処理、分析、および解釈のための１つ以上の補正周波数および帯域幅推定値３４０を生成するために、認識モジュール３１０の中のフィルタの性質を使用する。

一実施形態では、分析および補正モジュール２３０は、複素自動回帰問題として積分積集合の出力を処理する。つまり、モジュール３３０は、適合の統計的尺度を加算して、複素音響共鳴の最良の差分式モデルを算出する。より具体的には、一実施形態では、分析および補正モジュール３３０は、以下の式を用いて、複素ドメインの中の回帰分析の性質を使用して推定オブジェクト３２０から誤差推定値を計算する。

誤差ｒは、周波数推定値の適合度の尺度である。一実施形態では、モジュール３３０は、共鳴に起因するものに対比して、雑音に起因する瞬時周波数を識別するためにｒを使用する。推定値の精度を増大させる際のこの情報の使用は、以下で論議される。

誤差推定値に加えて、分析および補正モジュール２３０の実施形態はまた、１つ以上の推定器オブジェクト３２０からの推定値を使用することによって、共鳴の補正瞬時帯域幅を推定する。好ましい実施形態では、モジュール２３０は、中心周波数において密接に離間した対応する複素フィルタ３１２を用いて推定器オブジェクト３２０によって決定されるような、複数対の周波数推定値を使用して、補正瞬時帯域幅を推定する。概して、この推定値は、上記で説明される単一フィルタベースの推定値よりも良好に共鳴の帯域幅を概算する。

具体的には、モジュール２３０は、２つの隣接する推定器モジュールにわたる中心周波数の変化に対する周波数推定値の差を使用して、より正確な帯域幅推定値を計算するように構成することができる。

第ｎの推定器モジュール３２０からの補正瞬時帯域幅推定値

は、以下の式を用いて、対応する複素フィルタ３１２の選択された帯域幅ｂ_ｎを使用して推定することができる。

式中、一実施形態では、実験的に求められる好ましい係数は、以下の通りである。

具体的には各ＣＦ３１０が複素ガンマトーンフィルタである、一実施形態では、部分的に複素フィルタ３１０の非対称周波数応答により、推定瞬時周波数を元の共鳴の正確な値から歪曲され得る。したがって、モジュール２３０は、推定器オブジェクト３２０に由来する推定瞬時周波数の誤差を補正するために、上記で説明される手順を使用して得られる補正帯域幅推定値を使用するように構成することができる。例えば、一実施形態では、中心周波数ｆ、帯域幅ｂ、および未補正周波数推定値

を伴うＣＦ３１０の場合、周波数推定値補正のための最良適合式は、以下となる。

式中、

は、フィルタ帯域幅に対する推定共鳴帯域幅の比である。一実施形態では、定数は実験的に求められる。例えば、ｂ＜５００である場合、以下となる。

ｂ＝５００の場合、以下となる。

したがって、分析および補正プロセス２３０は、推定器オブジェクト３２０によって生成される推定共鳴周波数および帯域幅の精度を向上させるように構成することができる。したがって、向上した推定値を音声認識処理および解釈のために転送することができ、推定値に対する向上した結果は、従来技術のアプローチによって生成される。

例えば、一実施形態では、後処理モジュール１４０は、分析および補正モジュール２３０から受信される複数の推定値に閾値化演算を行う。一実施形態では、閾値化演算は、信号対雑音性能を向上させるために、所定の範囲外の推定値を破棄する。一実施形態では、モジュール１４０は、過剰決定されたデータ集合を低減するように、受信した推定値を合計する。当業者は、モジュール１４０は、他の好適な後処理演算を採用するように構成できることを理解するであろう。

したがって、概して、システム１００は、上記で説明される音声信号過程および分析の３つ全ての段階、すなわち、再構成、推定、および分析／補正を行うように構成することができる。以下のフロー図は、これらの段階をさらに詳細に説明する。ここで図５を参照すると、図示した過程は、音声認識システムが音声信号を受信する、入力補正および前処理段階において、ブロック５０５から始まる。例えば、再構成プロセス２１０は、（図２の）入力処理モジュール１１０から音声信号を受信する。

次に、過程は、処理および分析段階に入る。具体的には、ブロック５１０で示されるように、再構成プロセス２１０が受信した音声信号を再構成する。次に、ブロック５１５で示されるように、推定器プロセス２１０は、再構成された音声信号の音声共鳴の周波数および帯域幅を推定する。次に、ブロック５２０で示されるように、分析および補正プロセス２３０は、音声共鳴の推定周波数および帯域幅に分析ならびに補正演算を行う。

次に、過程は、後処理段階に入る。具体的には、ブロック５２５で示されるように、後処理モジュール１４０は、音声共鳴の補正周波数および帯域幅に後処理を行う。この過程の特定の実施形態は、以下でより詳細に説明される。

ここで図６を参照すると、図示した過程は、上記のようにブロック５０５から始まる。次に、ブロック６１０で示されるように、再構成プロセス２１０は、ブロック５０５で説明されるように受信される、受信した音声信号の音声共鳴信号に基づいて、複数のフィルタ処理信号を生成する。好ましい実施形態では、複数のフィルタ処理信号のそれぞれは、上記で説明されるように（実数および複素）音声信号である。

次に、ブロック６１５で示されるように、推定器プロセス２１０は、ブロック６１０で説明されるように生成される、フィルタ処理信号のうちの１つを選択する。次に、ブロック６２０で示されるように、推定器プロセス２１０は、選択したフィルタ処理信号の音声共鳴の単一遅れ遅延を生成する。

次に、ブロック６２５で示されるように、推定器プロセス２１０は、フィルタ処理信号および選択したフィルタ処理信号の単一遅れ遅延に基づいて、音声共鳴の第１の推定周波数を生成する。次に、ブロック６３０で示されるように、推定器プロセス２１０は、フィルタ処理信号および選択したフィルタ処理信号の単一遅れ遅延に基づいて、音声共鳴の第１の推定帯域を生成する。したがって、図６のフロー図は、音声信号の音声共鳴の推定周波数および帯域幅を生成する過程を説明する。

ここで図７を参照すると、図示した過程は、ブロック５０５、６１０、および６１５で示されるように、上記で説明されるように進む。次に、ブロック７２０で示されるように、推定器プロセス２１０は、ブロック６１５で説明されるように選択される、フィルタ処理信号に基づいて、少なくとも１つのゼロ遅れ積分複素積を生成する。次に、ブロック７２５で示されるように、推定器プロセス２１０は、選択したフィルタ処理信号に基づいて、少なくとも１つの単一遅れ積分複素積を生成する。

次に、ブロック７３０で示されるように、推定器プロセス２１０は、ゼロ遅れおよび単一遅れ積分複素積に基づいて、第１の推定周波数を生成する。次に、ブロック７３５で示されるように、推定器プロセス２１０は、ゼロ遅れおよび単一遅れ積分複素積に基づいて、第１の推定帯域を生成する。

ここで図８を参照すると、図示した過程は、ブロック５０５、６１０、６１５、および７２０で示されるように、上記で説明されるように進む。次に、ブロック８２５で示されるように、推定器プロセス２１０は、選択したフィルタ処理信号に基づいて、少なくとも１つの少なくとも２の遅れ積分複素積を生成する。

次に、ブロック８３０で示されるように、推定器プロセス２１０は、ゼロ遅れおよび少なくとも２の遅れ積分複素積に基づいて、第１の推定周波数を生成する。次に、ブロック８３５で示されるように、推定器プロセス２１０は、ゼロ遅れおよび少なくとも２の遅れ積分複素積に基づいて、第１の推定帯域を生成する。

ここで図９を参照すると、図示した過程は、ブロック５０５で示されるように、上記で説明されるように始まる。次に、ブロック９１０で示されるように、再構成プロセス２１０は、第１および第２の帯域幅を選択する。上記で説明されるように、一実施形態では、再構成プロセス２１０は、第１の複素フィルタを構成するために使用される第１の帯域幅、および第２の複素フィルタを構成するために使用される第２の帯域幅を選択する。

次に、ブロック９１５で示されるように、再構成プロセス２１０は、第１および第２の中心周波数を選択する。上記で説明されるように、一実施形態では、再構成プロセス２１０は、第１の複素フィルタを構成するために使用される第１の中心周波数および第２の複素フィルタを構成するために使用される第２の中心周波数を選択する。次に、ブロック９２０で示されるように、再構成プロセス２１０は、第１および第２のフィルタ処理信号を生成する。上記で説明されるように、一実施形態では、第１のフィルタは、第１のフィルタ処理信号を生成し、第２のフィルタは、第２のフィルタ処理信号を生成する。

次に、ブロック９２５で示されるように、推定器プロセス２１０は、第１および第２の推定周波数を生成する。上記で説明されるように、一実施形態では、推定器プロセス２１０は、第１のフィルタ処理信号に基づいて第１の推定周波数を生成し、第２のフィルタ処理信号に基づいて第２の推定周波数を生成する。

次に、ブロック９３０で示されるように、推定器プロセス２１０は、第１および第２の推定帯域を生成する。上記で説明されるように、一実施形態では、推定器プロセス２１０は、第１のフィルタ処理信号に基づいて第１の推定帯域を生成し、第２のフィルタ処理信号に基づいて第２の推定帯域を生成する。

次に、ブロック９３５で示されるように、分析および補正プロセス２３０は、第１および第２の推定周波数、第１および第２の中心周波数、ならびに第１の選択された帯域幅に基づいて、第３の推定帯域を生成する。次に、ブロック９４０で示されるように、分析および補正プロセス２３０は、第３の推定帯域、第１の推定周波数、第１の中心周波数、および第１の選択された帯域幅に基づいて、第３の推定周波数を生成する。

請求されるような本発明の精神および範囲から逸脱することなく、他の修正および実装が当業者に想起されるであろう。したがって、上記の説明は、以下の請求項に示されるものを除いて、本発明を限定することを目的としていない。

Claims

音声内容をデジタル音声信号から抽出するための音声処理システムであって、前記音声内容は、少なくとも１つのフォルマントによって特徴付けられ、前記少なくとも１つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも１つのフォルマントのうちの１つ以上についてのシーケンスを含み、前記音声処理システムは、
少なくとも１つのデジタルプロセッサ
を含み、前記少なくとも１つのデジタルプロセッサは、少なくとも１つの読み取り可能な記憶媒体上に記憶される命令でプログラムされ、前記少なくとも１つのデジタルプロセッサによる前記命令の実行は、前記少なくとも１つのデジタルプロセッサに、
前記デジタル音声信号から、前記少なくとも１つのフォルマントのうちの１つ以上の前記シーケンスのそれぞれ１つを抽出することであって、前記抽出することは、
複数の複素デジタルフィルタを使用して、前記デジタル音声信号をフィルタ処理することであって、前記複数のデジタルフィルタは、そのデジタルフィルタ処理機能を並行して行うように実装され、前記デジタルフィルタはそれぞれ、前記デジタル音声信号の総帯域幅の増分部分を包含する所定の帯域幅を有し、各所定の帯域幅は、前記所定の帯域幅の少なくとも１つの他の帯域幅と重複し、前記複素デジタルフィルタはそれぞれ、複数の複素デジタルフィルタ処理信号のうちの１つを生成し、前記複素デジタルフィルタ処理信号はそれぞれ、実数成分および虚数成分を含む、ことと、
前記複数のデジタルフィルタ処理信号のそれぞれの単一遅れ遅延と組み合わせて前記複数のデジタルフィルタ処理信号のそれぞれから形成される積集合を使用して、前記複数のデジタルフィルタ処理信号のそれぞれから推定瞬時周波数および推定瞬時帯域幅を生成することと、
前記推定瞬時周波数および推定瞬時帯域幅に基づいて、前記少なくとも１つのフォルマントのうちの１つとして、前記デジタル音声信号の１つ以上のフォルマントの前記シーケンスのそれぞれを識別することと
をさらに含む、ことと、
前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の音声内容を再構成することと
を含む方法を行わせる、音声処理システム。
前記複数の複素デジタルフィルタの前記重複する所定の帯域幅は、まとめると、実質的に、前記デジタル音声信号の前記帯域幅に及ぶ、請求項１に記載の音声処理システム。
前記複数の複素デジタルフィルタのうちの少なくとも１つは、有限インパルス応答（ＦＩＲ）フィルタの特性を示す、請求項１に記載のデジタル音声処理システム。
前記複数の複素デジタルフィルタのうちの少なくとも１つは、無限インパルス応答（ＩＩＲ）フィルタの特性を示す、請求項１に記載の音声処理システム。
前記複数の複素デジタルフィルタのうちの少なくとも１つは、ガンマトーンフィルタの特性を示す、請求項１に記載の音声処理システム。
前記複素デジタルフィルタのそれぞれの前記所定の帯域幅はさらに、所定の中心周波数によって特徴付けられ、前記複素デジタルフィルタの前記所定の中心周波数は、それと重複する所定の帯域幅を有する前記複数の複素デジタルフィルタのうちの少なくとも１つの所定の中心周波数から所定の中心周波数間隔だけ分離されている、請求項１に記載の音声処理システム。
前記所定の中心周波数間隔は、約２％である、請求項６に記載の音声処理システム。
前記複数の複素フィルタのそれぞれの前記所定の帯域幅は、その所定の中心周波数の約０．７５である、請求項７に記載の音声処理システム。
前記少なくとも１つのデジタルプロセッサは、汎用マイクロプロセッサである、請求項１に記載の音声処理システム。
前記少なくとも１つのデジタルプロセッサは、前記フィルタ処理することおよび前記推定することに固有の特定の計算を取り扱うように設計された計算リソースを有するデジタル信号プロセッサ（ＤＳＰ）である、請求項１に記載の音声処理システム。
前記生成することはさらに、所定の期間にわたって、前記複数のデジタルフィルタ処理信号の各々に対して形成される前記積集合を積分することにより、デジタルフィルタ処理信号の各々に対して前記推定瞬時周波数および前記瞬時帯域幅を生成することを含む、請求項１に記載の音声処理システム。
前記生成することはさらに、前記複素デジタルフィルタのうちの１つによって生成された前記デジタルフィルタ処理信号の各１つに対して、前記推定瞬時帯域幅を補正することを含み、前記補正することはさらに、
補正される前記デジタルフィルタ処理信号を生成した前記デジタルフィルタのうちの１つの帯域幅に重複する帯域幅を有するデジタルフィルタによって生成される前記デジタルフィルタ処理信号の２つに対する前記推定瞬時周波数間の差異を決定することと、
前記決定された差異を前記所定の中心周波数間隔で除算することと
を含む、請求項６に記載の音声処理システム。
音声内容をデジタル音声信号から抽出するための音声処理システムであって、前記音声内容は、少なくとも１つのフォルマントによって特徴付けられ、前記少なくとも１つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも１つのフォルマントのうちの１つ以上についてのシーケンスを含み、前記音声処理システムは、
少なくとも１つのデジタルプロセッサ
を含み、前記少なくとも１つのデジタルプロセッサは、少なくとも１つの読み取り可能な記憶媒体上に記憶される命令でプログラムされ、前記少なくとも１つのデジタルプロセッサによる前記命令の実行は、前記少なくとも１つのデジタルプロセッサに、
前記デジタル音声信号から、フォルマントの前記シーケンスのそれぞれ１つを抽出することであって、前記抽出することは、
重複帯域幅を伴って実装される複数の複素デジタルフィルタを用いて、前記音声共鳴信号をフィルタ処理することにより、仮想並列処理チェーンを形成し、実数成分および虚数成分を有する複数の複素デジタルフィルタ処理信号を生成することと、
積分カーネルを使用して、前記複数の複素デジタルフィルタ処理信号の各々に対して、積分積集合を形成することであって、前記積分積集合は、少なくとも１つのゼロ遅れ複素積および少なくとも１つの単一遅れ複素積を有する、ことと、
前記積分積集合のそれぞれから、推定瞬時周波数および推定瞬時帯域幅を生成することと、
前記推定瞬時周波数および推定瞬時帯域幅に基づいて、前記少なくとも１つのフォルマントのうちの１つとして、前記デジタル音声信号の１つ以上のフォルマントの前記シーケンスのそれぞれを識別することと
をさらに含む、ことと、
前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の前記音声内容を再構成することと
を含む方法を行わせる、音声処理システム。
前記仮想並列処理チェーンの前記複数の複素デジタルフィルタのうちの少なくとも１つは、有限インパルス応答（ＦＩＲ）フィルタの特性を示す、請求項１３に記載の音声処理システム。
前記仮想並列処理チェーンの前記複数の複素デジタルフィルタのうちの少なくとも１つは、無限インパルス応答（ＩＩＲ）フィルタの特性を示す、請求項１３に記載の音声処理システム。
前記仮想並列処理チェーンの前記複数の複素デジタルフィルタのうちの少なくとも１つは、ガンマトーンフィルタの特性を示す、請求項１３に記載の音声処理システム。
前記複数の複素デジタルフィルタは、そのデジタルフィルタ処理機能を並行して行うように実装され、
前記複数の複素デジタルフィルタは、まとめると実質的に前記デジタル音声信号の前記帯域幅に及ぶ重複帯域幅を有するように実装される、請求項１３に記載の音声処理システム。
前記複素デジタルフィルタはそれぞれ、所定の帯域幅および所定の中心周波数によって特徴付けられ、前記複素デジタルフィルタのそれぞれの所定の中心周波数は、前記仮想処理チェーンにおいて前記複素デジタルフィルタに隣接する複数の複素デジタルフィルタの前記所定の中心周波数から分離されている、請求項１３に記載の音声処理システム。
前記複素デジタルフィルタの重複帯域幅間の前記所定の中心周波数の間隔は、約２％である、請求項１８に記載の音声処理システム。
前記並列処理チェーンを形成する前記複素デジタルフィルタのそれぞれの前記所定の帯域幅は、その所定の中心周波数の０．７５である、請求項１８に記載の音声処理システム。
前記積分カーネルは、二次ガンマＩＩＲフィルタの特性を示す、請求項１３に記載の音声処理システム。
前記積分積集合は、前記少なくとも１つの単一遅れ複素積の代わりに、少なくとも１つのゼロ遅れ複素積および少なくとも１つの２以上遅れ複素積を有する、請求項１３に記載の音声処理システム。
前記生成することはさらに、所定の期間にわたって、前記複数のデジタルフィルタ処理信号の各々に対して形成される前記積集合を積分することにより、デジタルフィルタ処理信号の各々に対して前記推定瞬時周波数および前記瞬時帯域幅を生成することを含む、請求項１３に記載の音声処理システム。
前記生成することはさらに、前記複素デジタルフィルタのうちの１つによって生成された前記デジタルフィルタ処理信号の各１つに対して、前記推定瞬時帯域幅を補正することを含み、前記補正ことはさらに、
補正される前記デジタルフィルタ処理信号を生成した前記デジタルフィルタのうちの１つの帯域幅に重複する帯域幅を有するデジタルフィルタによって生成される前記デジタルフィルタ処理信号の２つに対する前記推定瞬時周波数間の差異を決定することと、
前記決定された差異を前記所定の中心周波数間隔で除算することと
を含む、請求項１８に記載の音声処理システム。
デジタル化された音声信号内の音声内容を抽出するための装置であって、前記音声内容は、少なくとも１つのフォルマントによって特徴付けられ、前記少なくとも１つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも１つのフォルマントのうちの１つ以上のシーケンスを含み、前記装置は、
前記デジタル音声信号のサンプルを受信し、それに対して動作するようにプログラム命令によって構成された再構成プロセッサであって、前記再構成プロセッサは、複数の複素デジタルフィルタを計算的に実装し、前記複数の複素デジタルフィルタは、前記デジタル音声信号の各サンプルに対して、並行してその処理を行うように実装され、前記複素デジタルフィルタはそれぞれ、前記複数の複素フィルタの少なくとも１つの他のフィルタの帯域幅と重複する帯域幅によって特徴付けられ、前記複素デジタルフィルタはそれぞれ、出力として、複数のデジタルフィルタ処理信号のうちの１つを生成し、前記デジタルフィルタ処理信号はそれぞれ、処理された前記デジタル音声信号の各サンプルに対する離散（ｄｉｓｃｒｅｅｔ）値を備え、前記デジタルフィルタ処理信号はそれぞれ、実数成分および虚数成分を含む、再構成プロセッサと、
前記再構成プロセッサから前記複数のデジタルフィルタ処理信号を受信するようにプログラム命令によって構成された推定器プロセッサであって、前記推定器プロセッサは、推定器オブジェクトを計算的に実装し、前記推定器オブジェクトは、前記生成されたデジタルフィルタ処理信号の１つ毎にインスタンス化され、前記推定器オブジェクトの各インスタンス化は、前記複数のデジタルフィルタ処理信号のそれぞれから形成される積集合を使用して、前記複数のデジタルフィルタ処理信号のそれぞれから、推定瞬時周波数および推定瞬時帯域幅を生成するように構成されている、推定器プロセッサと、
前記推定器プロセッサから、前記複数のデジタルフィルタ処理信号の各々に対する前記推定瞬時周波数および瞬時帯域幅推定値を受信するようにプログラム命令によって構成された後処理プロセッサであって、前記後処理プロセッサはさらに、前記複数のフィルタ処理信号の前記受信した推定瞬時周波数および推定瞬時帯域幅に基づいて、前記デジタル音声信号の１つ以上のフォルマントの前記シーケンスのそれぞれを前記少なくとも１つのフォルマントのうちの１つとして識別するようにプログラム命令によって構成され、前記後処理プロセッサはまた、前記識別されたフォルマントを使用して、前記デジタル音声信号の前記音声内容を再構成するようにプログラム命令によって構成されている、後処理プロセッサと
を備える、装置。
前記推定器オブジェクトの各インスタンス化はさらに、計算的に実装された積分カーネルを含み、前記積分カーネルは、所定の期間にわたって、前記複数のフィルタ処理信号の各々に対して形成される前記積集合を積分し、フィルタ処理信号の各々に対して前記推定瞬時周波数および前記瞬時帯域幅を生成するように構成されている、請求項２５に記載の装置。
前記積分カーネルは、二次ガンマＩＩＲフィルタの特性を示す、請求項２６に記載の装置。
前記複数のデジタルフィルタ処理信号のそれぞれからの前記推定瞬時周波数および前記推定瞬時帯域幅は、前記複数のデジタルフィルタ処理信号のそれぞれの少なくとも１つの単一遅れ遅延と組み合わせて、前記複数のフィルタ処理信号のそれぞれから前記推定器オブジェクトによって形成される積集合を使用して生成される、請求項２６に記載の装置。
前記複数のデジタルフィルタ処理信号のそれぞれからの前記推定瞬時周波数および前記推定瞬時帯域幅は、前記複数のデジタルフィルタ処理信号のそれぞれの２以上遅れ遅延と組み合わせて、前記複数のフィルタ処理信号のそれぞれから前記推定器オブジェクトによって形成される積集合を使用して生成される、請求項２６に記載の装置。
前記再構成プロセッサによって計算的に実装される前記複素デジタルフィルタのうちの少なくとも１つは、ガンマトーンフィルタの特性を示す、請求項２５に記載の装置。
前記複素デジタルフィルタはそれぞれ、所定の帯域幅および所定の中心周波数を含み、前記複素デジタルフィルタのそれぞれの所定の中心周波数は、それと重複する帯域幅を有するそれらの複素デジタルフィルタの前記所定の中心周波数から所定の中心周波数間隔だけ分離されている、請求項２５に記載の装置。
前記所定の中心周波数間隔は、約２％である、請求項３０に記載の装置。
前記複素デジタルフィルタのそれぞれの前記所定の帯域幅は、その所定の中心周波数の約０．７５である、請求項３２に記載の装置。
前記推定器プロセッサはさらに、前記推定器プロセッサから、前記推定瞬時周波数および前記推定瞬時帯域幅を受信する補正プロセスを実装するように構成され、前記補正プロセスは、前記所定の中心周波数間隔で除算された、前記チェーンにおける２つの隣接する複素フィルタに対する前記推定瞬時周波数間の差異を使用して、前記フィルタ処理信号の各々に対する補正された推定瞬時帯域幅を前記後処理モジュールに提供する、請求項３１に記載の装置。
前記補正プロセスはさらに、前記フィルタ処理信号毎に補正された帯域幅を最良適合式に当てはめることによって、前記フィルタ処理信号毎に補正された推定瞬時周波数を前記後処理プロセッサに提供する、請求項３４に記載の装置。
前記再構成プロセッサ、前記推定器プロセッサ、および前記後処理プロセッサは、１つ以上のデジタルプロセッサとして実装されている、請求項２５に記載の装置。
前記１つ以上のデジタルプロセッサのうちの少なくとも１つは、汎用マイクロプロセッサである、請求項２５に記載の装置。
前記再構成プロセッサ、前記推定器プロセッサ、および前記後処理プロセッサは、１つ以上のＤＳＰ構成要素として実装される、請求項２５に記載の装置。