JP2013512475A5

JP2013512475A5 - フォルマントの速い抽出のための複数の並列複素フィルタを用いる音声認識

Info

Publication number: JP2013512475A5
Application number: JP2012542014A
Authority: JP
Filing date: 2010-10-28
Publication date: 2013-12-05
Anticipated expiration: 2030-10-28

Description

さらに別の好ましい実施形態において、再構成モジュールは、複数の複素フィルタを含み、各複素フィルタは、第１の選択された帯域幅と、第１の選択された中心周波数とを有する。別の好ましい実施形態において、各複素フィルタは、複数の帯域幅のうちの選択された帯域幅であって、複数の帯域幅は、第１の所定の範囲内に分布する、選択された帯域幅と、複数の中心周波数のうちの選択された中心周波数であって、複数の中心周波数は、第２の所定の範囲内に分布する、選択された中心周波数とを備える。別の好ましい実施形態において、各複素フィルタは、第１の選択された帯域幅および第１の選択された中心周波数であって、分析精度を最適化するように構成される、第１の選択された帯域幅および第１の選択された中心周波数を備える。
本発明は、例えば以下の項目を提供する。
（項目１）
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための方法であって、該方法は、
実数成分を有する音声共鳴信号を受信することと、
複数のフィルタ処理信号を生成するために該音声共鳴信号をフィルタ処理することであって、それにより、該音声共鳴信号の該実数成分および虚数成分が再構成される、ことと、
該複数のフィルタ処理信号のうちの第１のフィルタ処理信号および該第１のフィルタ処理信号の単一遅れ遅延に基づいて、該音声共鳴信号の音声共鳴についての第１の推定周波数および第１の推定帯域幅を生成することと
を含む、方法。
（項目２）
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、前記複数のフィルタ処理信号のうちの１つを生成する、項目１に記載の方法。
（項目３）
前記複数のフィルタ処理信号および該複数のフィルタ処理信号の複数の単一遅れ遅延に基づいて、複数の推定周波数および複数の推定帯域幅を生成することをさらに含む、項目１に記載の方法。
（項目４）
前記フィルタバンクは、複数の有限インパルス応答（ＦＩＲ）フィルタを含む、項目１に記載の方法。
（項目５）
前記フィルタバンクは、複数の無限インパルス応答（ＩＩＲ）フィルタを含む、項目１に記載の方法。
（項目６）
前記フィルタバンクは、複数の複素ガンマトーンフィルタを含む、項目１に記載の方法。
（項目７）
各複素フィルタは、第１の選択された帯域幅と、第１の選択された中心周波数とを含む、項目１に記載の方法。
（項目８）
各複素フィルタは、
複数の帯域幅のうちの１つの選択された帯域幅であって、該複数の帯域幅は第１の所定の範囲内に分布する、１つの選択された帯域幅と、
複数の中心周波数のうちの１つの選択された中心周波数であって、該複数の中心周波数は第２の所定の範囲内に分布する、１つの選択された中心周波数と
を備える、項目１に記載の方法。
（項目９）
各複素フィルタは、
第１の選択された帯域幅および第１の選択された中心周波数を備え、該第１の選択された帯域幅および第１の選択された中心周波数は、分析精度を最適化するように構成される、項目１に記載の方法。
（項目１０）
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための方法であって、該方法は、
実数成分を有する音声共鳴信号を受信することと、
複数のフィルタ処理信号を生成するために該音声共鳴信号をフィルタ処理することであって、それにより、該音声共鳴信号の該実数成分および虚数成分が再構成される、ことと、
第１の積分積集合を形成することであって、該形成することは、積分カーネルによって行われ、該第１の積分積集合は、該複数のフィルタ処理信号のうちの第１のフィルタ処理信号に基づいており、該第１の積分積集合は、
少なくとも１つのゼロ遅れ複素積と、
少なくとも１つの単一遅れ複素積と
を有する、ことと、
該第１の積分積集合に基づいて、該音声共鳴信号の音声共鳴についての第１の推定周波数および第１の推定帯域幅を生成することと
を含む、方法。
（項目１１）
複数の積分積集合を形成することであって、各積分積集合は、前記複数のフィルタ処理信号のうちの１つに基づいており、各積分積集合は、
少なくとも１つのゼロ遅れ複素積と、
少なくとも１つの単一遅れ複素積と
を有する、ことと、
該複数の積分積集合に基づいて、複数の推定周波数および複数の推定帯域幅を生成することと
をさらに含む、項目１０に記載の方法。
（項目１２）
フィルタ処理することは、複数の有限インパルス応答（ＦＩＲ）フィルタを有するフィルタバンクによって行われる、項目１０に記載の方法。
（項目１３）
フィルタ処理することは、複数の無限インパルス応答（ＩＩＲ）フィルタを有するフィルタバンクによって行われる、項目１０に記載の方法。
（項目１４）
フィルタ処理することは、複数の複素ガンマトーンフィルタを有するフィルタバンクによって行われる、項目１０に記載の方法。
（項目１５）
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、前記複数のフィルタ処理信号のうちの１つを生成する、項目１０に記載の方法。
（項目１６）
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、第１の選択された帯域幅および第１の選択された中心周波数を有する、項目１０に記載の方法。
（項目１７）
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、
複数の帯域幅のうちの１つの選択された帯域幅であって、該複数の帯域幅は第１の所定の範囲内に分布する、１つの選択された帯域幅と、
複数の中心周波数のうちの１つの選択された中心周波数であって、該複数の中心周波数は第２の所定の範囲内に分布する、１つの選択された中心周波数と
を有する、項目１０に記載の方法。
（項目１８）
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、
複数の帯域幅のうちの１つの選択された帯域幅であって、分析精度を最適化するように構成される、１つの選択された帯域幅と、
複数の中心周波数のうちの１つの選択された中心周波数であって、分析精度を最適化するように構成される、１つの選択された中心周波数と
を有する、項目１０に記載の方法。
（項目１９）
前記積分カーネルは、二次ガンマＩＩＲフィルタである、項目１０に記載の方法。
（項目２０）
前記第１のフィルタ処理信号は、第１の選択された帯域幅および第１の中心周波数を有する第１のフィルタによって形成される、項目１０に記載の方法であって、該方法は、
第２の推定周波数および第２の推定帯域幅を生成することであって、該生成することは、前記複数のフィルタ処理信号のうちの第２のフィルタ処理信号に基づいており、該第２のフィルタ処理信号は、第２の選択された帯域幅および第２の中心周波数を有する第２のフィルタによって形成される、ことと、
第３の推定帯域幅を生成することであって、該生成することは、
前記第１および第２の推定周波数と、
該第１の選択された帯域幅と、
該第１および第２の中心周波数と
に基づいている、ことと
をさらに含む、方法。
（項目２１）
前記第１のフィルタ処理信号は、第１の選択された帯域幅および第１の中心周波数を有する第１のフィルタによって形成される、項目１０に記載の方法であって、該方法は、
第２の推定周波数および第２の推定帯域幅を生成することであって、該生成することは、前記複数のフィルタ処理信号のうちの第２のフィルタ処理信号に基づいており、該第２のフィルタ処理信号は、第２の選択された帯域幅および第２の中心周波数を有する第２のフィルタによって形成される、ことと、
第３の推定帯域幅を生成することであって、該生成することは、
前記第１および第２の推定周波数と、
該第１の選択された帯域幅と、
該第１および第２の中心周波数と
に基づいている、ことと、
第３の推定周波数を生成することであって、該生成することは、
第３の推定帯域幅と、
該第１の推定周波数と、
該第１の選択された周波数と、
該第１の選択された帯域幅と
に基づいている、ことと
をさらに含む、方法。
（項目２２）
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための方法であって、
実数成分を有する音声共鳴信号を受信することと、
複数のフィルタ処理信号を生成するために該音声共鳴信号をフィルタ処理することであって、それにより、該音声共鳴信号の該実数成分および虚数成分が再構成される、ことと、
第１の積分積集合を形成することであって、該形成することは、積分カーネルによって行われ、該第１の積分積集合は、該複数のフィルタ処理信号のうちの第１のフィルタ処理信号に基づいており、該第１の積分積集合は、
少なくとも１つのゼロ遅れ複素積と、
少なくとも１つの２以上遅れ複素積と
を有する、ことと、
該第１の積分積集合に基づいて、該音声共鳴信号の音声共鳴についての第１の推定周波数および第１の推定帯域幅を生成することと
を含む、方法。
（項目２３）
複数の積分積集合を形成することであって、各積分積集合は、前記複数のフィルタ処理信号のうちの１つに基づいており、各積分積集合は、
少なくとも１つのゼロ遅れ複素積と、
少なくとも１つの２以上遅れ複素積と
を有する、ことと、
該複数の積分積集合に基づいて、複数の推定周波数および複数の推定帯域幅を生成することと
をさらに含む、項目２２に記載の方法。
（項目２４）
フィルタ処理することは、複数の有限インパルス応答（ＦＩＲ）フィルタを有するフィルタバンクによって行われる、項目２２に記載の方法。
（項目２５）
フィルタ処理することは、複数の無限インパルス応答（ＩＩＲ）フィルタを有するフィルタバンクによって行われる、項目２２に記載の方法。
（項目２６）
フィルタ処理することは、複数の複素ガンマトーンフィルタを有するフィルタバンクによって行われる、項目２２に記載の方法。
（項目２７）
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、前記複数のフィルタ処理信号のうちの１つを生成する、項目２２に記載の方法。
（項目２８）
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、第１の選択された帯域幅および第１の選択された中心周波数を有する、項目２２に記載の方法。
（項目２９）
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、
複数の帯域幅のうちの１つの選択された帯域幅であって、該複数の帯域幅は第１の所定の範囲内に分布する、１つの選択された帯域幅と、
複数の中心周波数のうちの１つの選択された中心周波数であって、該複数の中心周波数は、第２の所定の範囲内に分布する、１つの選択された中心周波数と
を有する、項目２２に記載の方法。
（項目３０）
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、
複数の帯域幅のうちの１つの選択された帯域幅であって、分析精度を最適化するように構成される１つの選択された帯域幅と、
複数の中心周波数のうちの１つの選択された中心周波数であって、分析精度を最適化するように構成される１つの選択された中心周波数と
を有する、項目２２に記載の方法。
（項目３１）
前記積分カーネルは、二次ガンマＩＩＲフィルタである、項目２２に記載の方法。
（項目３２）
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための方法であって、
第１のフィルタ処理信号に基づいて、該音声共鳴の第１の推定周波数および第１の推定帯域幅を生成することであって、該第１のフィルタ処理信号は、第１の選択された帯域幅および第１の中心周波数を有する第１の複素フィルタによって形成される、ことと、
第２のフィルタ処理信号に基づいて、該音声共鳴の第２の推定周波数および第２の推定帯域幅を生成することであって、該第２のフィルタ処理信号は、第２の選択された帯域幅および第２の中心周波数を有する第２の複素フィルタによって形成される、ことと、
該音声共鳴についての第３の推定帯域幅を生成することであって、該生成することは、
該第１および第２の推定周波数と、
該第１の選択された帯域幅と、
該第１および第２の中心周波数と
に基づいている、ことと
を含む、方法。
（項目３３）
前記音声共鳴についての第３の推定周波数を生成することをさらに含み、該生成することは、
前記第３の推定帯域幅と、
前記第１の推定周波数と、
前記第１の中心周波数と、
前記第１の選択された帯域幅と
に基づいている、項目３２に記載の方法。
（項目３４）
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための装置であって、該装置は、
実数成分を有する音声共鳴信号を受信するように構成される再構成モジュールであって、該再構成モジュールは、複数のフィルタ処理信号を生成するために該音声共鳴信号をフィルタ処理するようにさらに構成され、それにより、該音声共鳴信号の該実数成分および虚数成分が再構成される、再構成モジュールと、
該再構成モジュールに連結される推定器モジュールであって、該再構成モジュールが、該複数のフィルタ処理信号のうちの第１のフィルタ処理信号および該第１のフィルタ処理信号の単一遅れ遅延の両方に基づいて、該音声共鳴信号の音声共鳴についての第１の推定周波数および第１の推定帯域幅を生成するように構成される、推定器モジュールと
を備える、装置。
（項目３５）
前記再構成モジュールは、複数の複素フィルタを有するフィルタバンクを含み、各複素フィルタは、前記複数のフィルタ処理信号のうちの１つを生成するように構成される、項目３４に記載の装置。
（項目３６）
前記推定器モジュールは、前記複数のフィルタ処理信号および該複数のフィルタ処理信号の複数の単一遅れ遅延の両方に基づいて、複数の推定周波数および複数の推定帯域幅を生成するようにさらに構成される、項目３４に記載の装置。
（項目３７）
前記再構成モジュールは、複数の有限インパルス応答（ＦＩＲ）フィルタを含む、項目３４に記載の装置。
（項目３８）
前記再構成モジュールは、複数の無限インパルス応答（ＩＩＲ）フィルタを含む、項目３４に記載の装置。
（項目３９）
前記再構成モジュールは、複数の複素ガンマトーンフィルタを含む、項目３４に記載の装置。
（項目３８）
前記再構成モジュールは、複数の複素フィルタを含み、各複素フィルタは、第１の選択された帯域幅および第１の選択された中心周波数を有する、項目３４に記載の装置。
（項目３９）
各複素フィルタは、
複数の帯域幅のうちの１つの選択された帯域幅であって、該複数の帯域幅は第１の所定の範囲内に分布する、１つの選択された帯域幅と、
複数の中心周波数のうちの１つの選択された中心周波数であって、該複数の中心周波数は第２の所定の範囲内に分布する、１つの選択された中心周波数と
備える、項目３４に記載の装置。
（項目４０）
各複素フィルタは、
第１の選択された帯域幅および第１の選択された中心周波数を備え、該第１の選択された帯域幅および第１の選択された中心周波数は、分析精度を最適化するように構成される、項目３４に記載の装置。

入力処理モジュール１１０はまた、デジタル配信モジュール１１６も含む。一実施形態において、デジタル配信モジュール１１６は、入力信号をデジタル化し、配信するように構成される、別様に従来的なデバイスまたはシステムである。示されるように、デジタル配信モジュール１１６は、アナログ信号１１４を受信し、出力信号１２０を生成する。図示された実施形態において、出力信号１２０は、入力処理モジュール１１０の出力である。

当業者であれば、人間の音声等の音響共鳴場を複素信号としてモデル化することができ、したがって、実数成分および虚数成分を用いて表すことができることを理解するであろう。概して、入力処理モジュール１１０への入力は、伝送中に複素情報を失った、例えば、図１の声道を表す点１０からの実数アナログ信号である。示されるように、モジュール１１０の出力信号、音声信号１２０（Ｘとして示される）は、アナログ入力信号のデジタル表現であり、元の信号情報のうちのいくらかが欠けている。

推定器モジュール２２０の出力は、本明細書で開示される本発明の次の広い段階の処理への入力である。具体的には、分析及び補正モジュール２３０は、推定段階の出力である複数の推定周波数および帯域幅を受信する。非常に一般的に、モジュール２３０は、改訂された推定値を生成するために、推定周波数および帯域幅を使用する。一実施形態において、改訂された推定周波数および帯域幅は、本発明の新規の補正方法の結果である。代替実施形態において、それら自体が新規の推定および分析方法の結果である、改訂された推定周波数および帯域幅は、さらなる改良のために後処理モジュール１４０に渡される。この段階は、図３に関してより詳細に説明される。

は、共鳴の周波数（ヘルツ単位）であり、βは、帯域幅（ヘルツ単位）である。慣例により、βは、およそ測定可能な半値全幅帯域幅である。さらに、複素音響伝送は、（実）正弦波によって適切に表すことができる。したがって、信号捕捉過程は、複素源の実数（または虚数）部分を取り出すことの同等物であるが、それはまた瞬間情報を失う。以下でより詳細に説明されるように、再構成モジュール２１０は、音響音声共鳴の元の複素表現を再生成する。

上記で紹介された第１の実施形態において、推定器モジュール３２０は、積分カーネル３２２を用いずにＣＦ３１０の出力を使用して、単一遅れ積集合を算出する。この実施形態において、各時点で単一の共鳴を抽出し、単一遅延を使用して入力音声信号１０２の瞬時周波数および帯域幅を求めるために、ｙがＣＦ３１０の複素出力である積集合

式中、ｄｔは、サンプリング間隔である。好ましい実施形態において、１つ以上の推定器モジュール３２０は、各ＣＦ３１０出力に基づいて、単一遅れ積集合から瞬時周波数および帯域幅を計算する。

代替実施形態（例えば、上記で紹介される第２および第３の実施形態）において、推定器モジュール３２０は、積分カーネル３２２を使用して、可変遅延の積分積集合を算出する。積分積集合は、入力音声信号３０２の音声共鳴についての瞬時周波数および帯域幅を算出するために使用される。好ましい実施形態において、１つ以上の推定器モジュール３２０は、各ＣＦ３１０出力に基づいて積分積集合を計算する。

推定器モジュール３２０の積分積集合は、実施形態に応じて、ゼロ遅れ積、単一遅れ積、および少なくとも２の遅れ積を含むことができる。これらの実施形態において、積分積集合は、以下の定義による積分積行列として構成される：
Ф_Ｎ（ｔ）＝Ｎ個の遅延を有する積分積行列
φ_ｍ，ｎ（ｔ）＝遅延を有する積分積行列要素（ｍ，ｎ≦Ｎ）
ｙ＝再構成モジュール２１０におけるＣＦ３１０の複素信号出力
ｋ＝推定器モジュール３２０内の積分カーネル３２２推定器モジュール３２０は、各サンプリング時間において積分積行列の要素を更新し、時間積分は、長さｌの積分カーネルｋ［τ］上で各要素について、以下のように、別々に行われる：

一実施形態において、分析及び補正モジュール２３０は、複素自己回帰問題として積分積集合の出力を処理する。つまり、モジュール２３０は、適合の統計的尺度を加算して、複素音響共鳴の最良の差分式モデルを算出する。より具体的には、一実施形態において、分析及び補正モジュール２３０は、以下の式を用いて、複素数領域の中の回帰分析の性質を使用して推定モジュール３２０から誤差推定値を計算する。

誤差ｒは、周波数推定値の適合度の尺度である。一実施形態において、モジュール２３０は、共鳴に起因する瞬時周波数と対比して、雑音に起因する瞬時周波数を識別するためにｒを使用する。推定値の精度を増大させる際のこの情報の使用は、以下において論議される。

誤差推定値に加えて、分析及び補正モジュール２３０の実施形態はまた、１つ以上の推定器モジュール３２０からの推定値を使用することによって、共鳴の補正瞬時帯域幅を推定する。好ましい実施形態において、モジュール２３０は、中心周波数において近接して間隔があいている対応する複素フィルタ３１０を用いて推定器モジュール３２０によって決定されるような、複数対の周波数推定値を使用して、補正瞬時帯域幅を推定する。概して、この推定値は、上記で説明された単一フィルタベースの推定値よりも良好に共鳴の帯域幅を概算する。

具体的には、モジュール２３０は、２つの隣接する推定器モジュールにわたる中心周波数の変化に対する周波数推定値の差

は、以下の式を用いて、対応する複素フィルタ３１０選択された帯域幅ｂ_ｎを使用して推定することができる。

具体的には、各ＣＦ３１０が複素ガンマトーンフィルタである一実施形態において、部分的に複素フィルタ３１０の非対称周波数応答により、推定瞬時周波数を元の共鳴の正確な値からゆがめられ得る。したがって、モジュール２３０は、推定器モジュール３２０に由来する推定瞬時周波数の誤差を補正するために、上記で説明された手順を使用して得られる補正帯域幅推定値を使用するように構成することができる。例えば、一実施形態において、中心周波数

を有するＣＦ３１０について、周波数推定値補正のための最適適合式は、

したがって、システム１００は、概して、上記で説明された音声信号過程および分析の３つ全ての段階、すなわち、再構成、推定、および分析／補正を行うように構成されることができる。以下のフロー図は、これらの段階をさらに詳細に説明する。ここで図５を参照すると、図示した過程は、音声認識システムが音声信号を受信する、入力補正および前処理段階において、ブロック５０５から始まる。例えば、再構成モジュール２１０は、（図２の）入力処理モジュール１１０から音声信号を受信する。

次に、ブロック６２５に示されるように、推定器モジュール２２０は、フィルタ処理信号、および選択したフィルタ処理信号の単一遅れ遅延に基づいて、音声共鳴の第１の推定周波数を生成する。次に、ブロック６３０に示されるように、推定器モジュール２２０は、フィルタ処理信号、および選択したフィルタ処理信号の単一遅れ遅延に基づいて、音声共鳴の第１の推定帯域幅を生成する。したがって、図６のフローダイヤグラムは、音声信号の音声共鳴の推定周波数および帯域幅を生成する過程を説明する。

Claims

デジタル音声信号から音声内容を抽出するための方法であって、前記音声内容が少なくとも１つのフォルマントによって特徴付けられ、前記少なくとも１つのフォルマントの各々は、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも１つのフォルマントのうちの１つ以上のシーケンスを含み、前記方法は、
前記デジタル音声信号から前記少なくとも１つのフォルマントのうちの前記１つ以上のシーケンスの各々を抽出することであって、前記抽出することは、
複数の複素フィルタを用いて前記デジタル音声信号をフィルタ処理することであって、前記複数の複素フィルタが、処理連鎖として並列に実装され、前記複素フィルタの各々は、前記連鎖において自身に隣接する前記複数の複素フィルタのうちの他の少なくとも１つと重なる帯域幅を有し、前記複素フィルタの各々は、各々が実数成分および虚数成分を含む複数の複素フィルタ処理された信号のうちの１つを生成する、ことと、
前記複数のフィルタ処理された信号の各々から形成された積集合と前記複数のフィルタ処理された信号の各々の単一遅れ遅延との組み合わせを用いて、前記複数のフィルタ処理された信号の各々から、推定された瞬時周波数および推定された瞬時帯域幅を生成することと、
前記推定された瞬時周波数および前記推定された瞬時帯域幅に基づいて、前記少なくとも１つのフォルマントのうちの１つとして、前記デジタル音声信号の前記１つ以上のフォルマントのシーケンスの各々を識別することと
をさらに含む、ことと、
音声処理システムを用いて、前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の前記音声内容を再構成することと
を含む、方法。
前記複数の複素フィルタによって形成された前記連鎖の前記重なる帯域幅は、実質的に前記デジタル音声信号の前記帯域幅にわたって延在する、請求項１に記載の方法。
前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも１つは、有限インパルス応答（ＦＩＲ）フィルタである、請求項１に記載の方法。
前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも１つは、無限インパルス応答（ＩＩＲ）フィルタである、請求項１に記載の方法。
前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも１つは、ガンマトーンフィルタである、請求項１に記載の方法。
前記連鎖を形成する前記複素フィルタの各々は、所定の帯域幅および所定の中心周波数を含み、前記複素フィルタの各々の前記所定の中心周波数は、所定の中心周波数間隔だけ、自身に隣接する他の複素フィルタの前記所定の中心周波数から分離される、請求項１に記載の方法。
前記所定の中心周波数間隔は、約２％である、請求項６に記載の方法。
前記連鎖を形成する前記複素フィルタの各々の前記所定の帯域幅は、自身の所定の中心周波数の約０．７５である、請求項６に記載の方法。
デジタル音声信号から音声内容を抽出するための方法であって、前記音声内容が少なくとも１つのフォルマントによって特徴付けられ、前記少なくとも１つのフォルマントの各々は、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも１つのフォルマントのうちの１つ以上のシーケンスを含み、前記方法は、
前記デジタル音声信号から前記フォルマントのシーケンスの各々を抽出することであって、前記抽出することは、
実数成分および虚数成分を有する複数の複素フィルタ処理された信号を生成するように、複数の複素フィルタを用いて音声共鳴信号をフィルタ処理することと、
前記複数の複素フィルタの各々に対する積分積集合を形成することであって、前記形成することが、積分カーネルによって行われ、積分積集合は、少なくとも１つのゼロ遅れ複素積と、少なくとも１つの単一遅れ複素積とを有する、ことと、
前記積分積集合の各々から、推定された瞬時周波数および推定された瞬時帯域幅を生成することと、
前記推定された瞬時周波数および前記推定された瞬時帯域幅に基づいて、前記少なくとも１つのフォルマントのうちの１つとして、前記デジタル音声信号の前記１つ以上のフォルマントのシーケンスの各々を識別することと
をさらに含む、ことと、
音声処理システムを用いて、前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の前記音声内容を再構成することと
を含む、方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも１つは、有限インパルス応答（ＦＩＲ）フィルタである、請求項９に記載の方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも１つは、無限インパルス応答（ＩＩＲ）フィルタである、請求項９に記載の方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも１つは、ガンマトーンフィルタである、請求項９に記載の方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記複数の複素フィルタによって形成された前記連鎖の重なる帯域幅は、実質的に前記デジタル音声信号の前記帯域幅にわたって延在する、請求項９に記載の方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複素フィルタの各々は、所定の帯域幅および所定の中心周波数を含み、前記複素フィルタの各々の前記所定の中心周波数は、所定の中心周波数間隔だけ、自身に隣接する他の複素フィルタの前記所定の中心周波数から分離される、請求項９に記載の方法。
前記連鎖を形成する前記複素フィルタのうちの隣接する複素フィルタの間の前記所定の中心周波数間隔は、約２％である、請求項１４に記載の方法。
前記連鎖を形成する前記複素フィルタの各々の前記所定の帯域幅は、自身の所定の中心周波数の約０．７５である、請求項１４に記載の方法。
前記積分カーネルは、二次ガンマＩＩＲフィルタである、請求項９に記載の方法。
デジタル音声信号から音声内容を抽出するための方法であって、前記音声内容が少なくとも１つのフォルマントによって特徴付けられ、前記少なくとも１つのフォルマントの各々は、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも１つのフォルマントのうちの１つ以上のシーケンスを含み、前記方法は、
前記デジタル音声信号から前記フォルマントのシーケンスの各々を抽出することであって、前記抽出することは、
実数成分および虚数成分を有する複数の複素フィルタ処理された信号を生成するように、複数の複素フィルタを用いて音声共鳴信号をフィルタ処理することと、
前記複数の複素フィルタの各々に対する積分積集合を形成することであって、前記形成することが、積分カーネルによって行われ、前記積分積集合は、少なくとも１つのゼロ遅れ複素積と、少なくとも１つの２以上の遅れ複素積とを有する、ことと、
前記積分積集合の各々から、推定された瞬時周波数および推定された瞬時帯域幅を生成することと、
前記推定された瞬時周波数および前記推定された瞬時帯域幅に基づいて、前記少なくとも１つのフォルマントのうちの１つとして、前記デジタル音声信号の前記１つ以上のフォルマントのシーケンスの各々を識別することと
をさらに含む、ことと、
音声処理システムを用いて、前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の前記音声内容を再構成することと
を含む、方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも１つは、有限インパルス応答（ＦＩＲ）フィルタである、請求項１８に記載の方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも１つは、無限インパルス応答（ＩＩＲ）フィルタである、請求項１８に記載の方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも１つは、ガンマトーンフィルタである、請求項１８に記載の方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記複数の複素フィルタによって形成された前記連鎖の重なる帯域幅は、実質的に前記デジタル音声信号の前記帯域幅にわたって延在する、請求項１８に記載の方法。
前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複素フィルタの各々は、所定の帯域幅および所定の中心周波数を含み、前記複素フィルタの各々の前記所定の中心周波数は、所定の中心周波数間隔だけ、自身に隣接する他の複素フィルタの前記所定の中心周波数から分離される、請求項１８に記載の方法。
前記連鎖を形成する前記複素フィルタのうちの隣接する複素フィルタの間の前記所定の中心周波数間隔は、約２％である、請求項２３に記載の方法。
前記積分カーネルは、二次ガンマＩＩＲフィルタである、請求項１８に記載の方法。
デジタル化音声信号内の音声内容を認識するための装置であって、前記音声内容が少なくとも１つのフォルマントによって特徴付けられ、前記少なくとも１つのフォルマントの各々は、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも１つのフォルマントのうちの１つ以上のシーケンスを含み、前記装置は、
デジタル音声信号を受信するように構成された再構成モジュールであって、前記再構成モジュールは、複数の複素フィルタを含み、前記複数の複素フィルタが、処理連鎖として並列に実装され、前記複素フィルタの各々は、前記連鎖において自身に隣接する前記複数の複素フィルタのうちの他の少なくとも１つと重なる帯域幅を有し、前記複素フィルタの各々は、実数成分および虚数成分を含む複数のフィルタ処理された信号のうちの１つを生成する、再構成モジュールと、
前記再構成モジュールから前記複数のフィルタ処理された信号を受信するように連結された推定器モジュールであって、前記推定器モジュールは、前記複数のフィルタ処理された信号の各々から形成された積集合と前記複数のフィルタ処理された信号の各々の単一遅れ遅延との組み合わせを用いて、前記複数のフィルタ処理された信号の各々から、推定された瞬時周波数および推定された瞬時帯域幅を生成するように構成されている、推定器モジュールと、
前記複数のフィルタ処理された信号の各々に対する、前記推定された瞬時周波数および瞬時帯域幅の推定を受信するように構成された音声処理システムの後処理モジュールであって、前記後処理モジュールは、前記複数のフィルタ処理された信号の前記推定された瞬時周波数および前記推定された瞬時帯域幅に基づいて、前記少なくとも１つのフォルマントのうちの１つとして、前記デジタル音声信号の前記１つ以上のフォルマントのシーケンスの各々を識別し、かつ前記識別されたフォルマントを用いて、前記デジタル音声信号の前記音声内容を再構成する、後処理モジュールと
を含む、装置。
前記推定器モジュールは、フィルタ処理された信号の各々に対する前記推定された瞬時周波数および前記推定された瞬時帯域幅を生成するために、所定の期間にわたって前記複数のフィルタ処理された信号の各々に対して形成された前記積集合を積分するように構成された積分カーネルをさらに含む、請求項２６に記載の装置。
前記積分カーネルは、二次ガンマＩＩＲフィルタである、請求項２７に記載の装置。
前記複数のフィルタ処理された信号の各々からの前記推定された瞬時周波数および前記推定された瞬時帯域幅は、前記複数のフィルタ処理された信号の各々から形成された積集合と前記複数の信号の各々の２以上の遅れ遅延との組み合わせを用いて生成される、請求項２７に記載の装置。
前記再構成モジュールの前記複素フィルタのうちの少なくとも１つは、ガンマトーンフィルタである、請求項２６に記載の装置。
前記連鎖を形成する前記複素フィルタの各々は、所定の帯域幅および所定の中心周波数を含み、前記複素フィルタの各々の前記所定の中心周波数は、所定の中心周波数間隔だけ、自身に隣接する他の複素フィルタの前記所定の中心周波数から分離される、請求項２６に記載の装置。
前記所定の中心周波数間隔は、約２％である、請求項３１に記載の装置。
前記連鎖を形成する前記複素フィルタの各々の前記所定の帯域幅は、自身の所定の中心周波数の約０．７５である、請求項３２に記載の装置。
前記生成することは、フィルタ処理された信号の各々に対する前記推定された瞬時周波数および前記推定された瞬時帯域幅を生成するために、所定の期間にわたって前記複数のフィルタ処理された信号の各々に対して形成された前記積集合を積分することをさらに含む、請求項１に記載の方法。
前記複数のフィルタ処理された信号の各々からの前記推定された瞬時周波数および前記推定された瞬時帯域幅は、前記複数のフィルタ処理された信号の各々から形成された積集合と前記複数の信号の各々の２以上の遅れ遅延との組み合わせを用いて生成される、請求項３４に記載の方法。
前記生成することは、前記所定の中心周波数間隔にわたって、前記連鎖における２つの隣接する複素フィルタに対する前記推定された瞬時周波数の間の差異を用いて、前記フィルタ処理された信号の各々に対する前記推定された瞬時帯域幅を補正することをさらに含む、請求項６に記載の方法。
前記生成することは、最適適合式に前記フィルタ処理された信号の各々に対する前記補正された帯域幅を適用することによって、前記フィルタ処理された信号の各々に対する前記推定された瞬時周波数の精度を向上させることをさらに含む、請求項３６に記載の方法。
前記生成することは、前記所定の中心周波数間隔にわたって、前記連鎖における２つの隣接する複素フィルタに対する前記推定された瞬時周波数の間の差異を用いて、前記フィルタ処理された信号の各々に対する前記推定された瞬時帯域幅を補正することをさらに含む、請求項２３に記載の方法。
前記生成することは、最適適合式に前記フィルタ処理された信号の各々に対する前記補正された帯域幅を適用することによって、前記フィルタ処理された信号の各々に対する前記推定された瞬時周波数の精度を向上させることをさらに含む、請求項３８に記載の方法。
前記推定器モジュールから前記推定された瞬時周波数および前記推定された瞬時帯域幅を受信するように連結された補正モジュールをさらに含み、前記補正モジュールは、前記所定の中心周波数間隔にわたって、前記連鎖における２つの隣接する複素フィルタに対する前記推定された瞬時周波数の間の差異を用いて、前記フィルタ処理された信号の各々に対する補正された推定された瞬時帯域幅を前記後処理モジュールに提供する、請求項３１に記載の装置。
前記補正モジュールは、さらに、最適適合式に前記フィルタ処理された信号の各々に対する前記補正された帯域幅を適用することによって、前記フィルタ処理された信号の各々に対する補正された推定された瞬時周波数を前記後処理モジュールに提供する、請求項４０に記載の装置。