JP2013512475A5 - フォルマントの速い抽出のための複数の並列複素フィルタを用いる音声認識 - Google Patents

フォルマントの速い抽出のための複数の並列複素フィルタを用いる音声認識 Download PDF

Info

Publication number
JP2013512475A5
JP2013512475A5 JP2012542014A JP2012542014A JP2013512475A5 JP 2013512475 A5 JP2013512475 A5 JP 2013512475A5 JP 2012542014 A JP2012542014 A JP 2012542014A JP 2012542014 A JP2012542014 A JP 2012542014A JP 2013512475 A5 JP2013512475 A5 JP 2013512475A5
Authority
JP
Japan
Prior art keywords
bandwidth
complex filters
complex
chain
filtered signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012542014A
Other languages
English (en)
Other versions
JP5975880B2 (ja
JP2013512475A (ja
Filing date
Publication date
Priority claimed from US12/629,006 external-priority patent/US8311812B2/en
Application filed filed Critical
Publication of JP2013512475A publication Critical patent/JP2013512475A/ja
Publication of JP2013512475A5 publication Critical patent/JP2013512475A5/ja
Application granted granted Critical
Publication of JP5975880B2 publication Critical patent/JP5975880B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

さらに別の好ましい実施形態において、再構成モジュールは、複数の複素フィルタを含み、各複素フィルタは、第1の選択された帯域幅と、第1の選択された中心周波数とを有する。別の好ましい実施形態において、各複素フィルタは、複数の帯域幅のうちの選択された帯域幅であって、複数の帯域幅は、第1の所定の範囲内に分布する、選択された帯域幅と、複数の中心周波数のうちの選択された中心周波数であって、複数の中心周波数は、第2の所定の範囲内に分布する、選択された中心周波数とを備える。別の好ましい実施形態において、各複素フィルタは、第1の選択された帯域幅および第1の選択された中心周波数であって、分析精度を最適化するように構成される、第1の選択された帯域幅および第1の選択された中心周波数を備える。
本発明は、例えば以下の項目を提供する。
(項目1)
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための方法であって、該方法は、
実数成分を有する音声共鳴信号を受信することと、
複数のフィルタ処理信号を生成するために該音声共鳴信号をフィルタ処理することであって、それにより、該音声共鳴信号の該実数成分および虚数成分が再構成される、ことと、
該複数のフィルタ処理信号のうちの第1のフィルタ処理信号および該第1のフィルタ処理信号の単一遅れ遅延に基づいて、該音声共鳴信号の音声共鳴についての第1の推定周波数および第1の推定帯域幅を生成することと
を含む、方法。
(項目2)
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、前記複数のフィルタ処理信号のうちの1つを生成する、項目1に記載の方法。
(項目3)
前記複数のフィルタ処理信号および該複数のフィルタ処理信号の複数の単一遅れ遅延に基づいて、複数の推定周波数および複数の推定帯域幅を生成することをさらに含む、項目1に記載の方法。
(項目4)
前記フィルタバンクは、複数の有限インパルス応答(FIR)フィルタを含む、項目1に記載の方法。
(項目5)
前記フィルタバンクは、複数の無限インパルス応答(IIR)フィルタを含む、項目1に記載の方法。
(項目6)
前記フィルタバンクは、複数の複素ガンマトーンフィルタを含む、項目1に記載の方法。
(項目7)
各複素フィルタは、第1の選択された帯域幅と、第1の選択された中心周波数とを含む、項目1に記載の方法。
(項目8)
各複素フィルタは、
複数の帯域幅のうちの1つの選択された帯域幅であって、該複数の帯域幅は第1の所定の範囲内に分布する、1つの選択された帯域幅と、
複数の中心周波数のうちの1つの選択された中心周波数であって、該複数の中心周波数は第2の所定の範囲内に分布する、1つの選択された中心周波数と
を備える、項目1に記載の方法。
(項目9)
各複素フィルタは、
第1の選択された帯域幅および第1の選択された中心周波数を備え、該第1の選択された帯域幅および第1の選択された中心周波数は、分析精度を最適化するように構成される、項目1に記載の方法。
(項目10)
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための方法であって、該方法は、
実数成分を有する音声共鳴信号を受信することと、
複数のフィルタ処理信号を生成するために該音声共鳴信号をフィルタ処理することであって、それにより、該音声共鳴信号の該実数成分および虚数成分が再構成される、ことと、
第1の積分積集合を形成することであって、該形成することは、積分カーネルによって行われ、該第1の積分積集合は、該複数のフィルタ処理信号のうちの第1のフィルタ処理信号に基づいており、該第1の積分積集合は、
少なくとも1つのゼロ遅れ複素積と、
少なくとも1つの単一遅れ複素積と
を有する、ことと、
該第1の積分積集合に基づいて、該音声共鳴信号の音声共鳴についての第1の推定周波数および第1の推定帯域幅を生成することと
を含む、方法。
(項目11)
複数の積分積集合を形成することであって、各積分積集合は、前記複数のフィルタ処理信号のうちの1つに基づいており、各積分積集合は、
少なくとも1つのゼロ遅れ複素積と、
少なくとも1つの単一遅れ複素積と
を有する、ことと、
該複数の積分積集合に基づいて、複数の推定周波数および複数の推定帯域幅を生成することと
をさらに含む、項目10に記載の方法。
(項目12)
フィルタ処理することは、複数の有限インパルス応答(FIR)フィルタを有するフィルタバンクによって行われる、項目10に記載の方法。
(項目13)
フィルタ処理することは、複数の無限インパルス応答(IIR)フィルタを有するフィルタバンクによって行われる、項目10に記載の方法。
(項目14)
フィルタ処理することは、複数の複素ガンマトーンフィルタを有するフィルタバンクによって行われる、項目10に記載の方法。
(項目15)
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、前記複数のフィルタ処理信号のうちの1つを生成する、項目10に記載の方法。
(項目16)
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、第1の選択された帯域幅および第1の選択された中心周波数を有する、項目10に記載の方法。
(項目17)
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、
複数の帯域幅のうちの1つの選択された帯域幅であって、該複数の帯域幅は第1の所定の範囲内に分布する、1つの選択された帯域幅と、
複数の中心周波数のうちの1つの選択された中心周波数であって、該複数の中心周波数は第2の所定の範囲内に分布する、1つの選択された中心周波数と
を有する、項目10に記載の方法。
(項目18)
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、
複数の帯域幅のうちの1つの選択された帯域幅であって、分析精度を最適化するように構成される、1つの選択された帯域幅と、
複数の中心周波数のうちの1つの選択された中心周波数であって、分析精度を最適化するように構成される、1つの選択された中心周波数と
を有する、項目10に記載の方法。
(項目19)
前記積分カーネルは、二次ガンマIIRフィルタである、項目10に記載の方法。
(項目20)
前記第1のフィルタ処理信号は、第1の選択された帯域幅および第1の中心周波数を有する第1のフィルタによって形成される、項目10に記載の方法であって、該方法は、
第2の推定周波数および第2の推定帯域幅を生成することであって、該生成することは、前記複数のフィルタ処理信号のうちの第2のフィルタ処理信号に基づいており、該第2のフィルタ処理信号は、第2の選択された帯域幅および第2の中心周波数を有する第2のフィルタによって形成される、ことと、
第3の推定帯域幅を生成することであって、該生成することは、
前記第1および第2の推定周波数と、
該第1の選択された帯域幅と、
該第1および第2の中心周波数と
に基づいている、ことと
をさらに含む、方法。
(項目21)
前記第1のフィルタ処理信号は、第1の選択された帯域幅および第1の中心周波数を有する第1のフィルタによって形成される、項目10に記載の方法であって、該方法は、
第2の推定周波数および第2の推定帯域幅を生成することであって、該生成することは、前記複数のフィルタ処理信号のうちの第2のフィルタ処理信号に基づいており、該第2のフィルタ処理信号は、第2の選択された帯域幅および第2の中心周波数を有する第2のフィルタによって形成される、ことと、
第3の推定帯域幅を生成することであって、該生成することは、
前記第1および第2の推定周波数と、
該第1の選択された帯域幅と、
該第1および第2の中心周波数と
に基づいている、ことと、
第3の推定周波数を生成することであって、該生成することは、
第3の推定帯域幅と、
該第1の推定周波数と、
該第1の選択された周波数と、
該第1の選択された帯域幅と
に基づいている、ことと
をさらに含む、方法。
(項目22)
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための方法であって、
実数成分を有する音声共鳴信号を受信することと、
複数のフィルタ処理信号を生成するために該音声共鳴信号をフィルタ処理することであって、それにより、該音声共鳴信号の該実数成分および虚数成分が再構成される、ことと、
第1の積分積集合を形成することであって、該形成することは、積分カーネルによって行われ、該第1の積分積集合は、該複数のフィルタ処理信号のうちの第1のフィルタ処理信号に基づいており、該第1の積分積集合は、
少なくとも1つのゼロ遅れ複素積と、
少なくとも1つの2以上遅れ複素積と
を有する、ことと、
該第1の積分積集合に基づいて、該音声共鳴信号の音声共鳴についての第1の推定周波数および第1の推定帯域幅を生成することと
を含む、方法。
(項目23)
複数の積分積集合を形成することであって、各積分積集合は、前記複数のフィルタ処理信号のうちの1つに基づいており、各積分積集合は、
少なくとも1つのゼロ遅れ複素積と、
少なくとも1つの2以上遅れ複素積と
を有する、ことと、
該複数の積分積集合に基づいて、複数の推定周波数および複数の推定帯域幅を生成することと
をさらに含む、項目22に記載の方法。
(項目24)
フィルタ処理することは、複数の有限インパルス応答(FIR)フィルタを有するフィルタバンクによって行われる、項目22に記載の方法。
(項目25)
フィルタ処理することは、複数の無限インパルス応答(IIR)フィルタを有するフィルタバンクによって行われる、項目22に記載の方法。
(項目26)
フィルタ処理することは、複数の複素ガンマトーンフィルタを有するフィルタバンクによって行われる、項目22に記載の方法。
(項目27)
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、前記複数のフィルタ処理信号のうちの1つを生成する、項目22に記載の方法。
(項目28)
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、第1の選択された帯域幅および第1の選択された中心周波数を有する、項目22に記載の方法。
(項目29)
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、
複数の帯域幅のうちの1つの選択された帯域幅であって、該複数の帯域幅は第1の所定の範囲内に分布する、1つの選択された帯域幅と、
複数の中心周波数のうちの1つの選択された中心周波数であって、該複数の中心周波数は、第2の所定の範囲内に分布する、1つの選択された中心周波数と
を有する、項目22に記載の方法。
(項目30)
フィルタ処理することは、複数の複素フィルタを有するフィルタバンクによって行われ、各複素フィルタは、
複数の帯域幅のうちの1つの選択された帯域幅であって、分析精度を最適化するように構成される1つの選択された帯域幅と、
複数の中心周波数のうちの1つの選択された中心周波数であって、分析精度を最適化するように構成される1つの選択された中心周波数と
を有する、項目22に記載の方法。
(項目31)
前記積分カーネルは、二次ガンマIIRフィルタである、項目22に記載の方法。
(項目32)
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための方法であって、
第1のフィルタ処理信号に基づいて、該音声共鳴の第1の推定周波数および第1の推定帯域幅を生成することであって、該第1のフィルタ処理信号は、第1の選択された帯域幅および第1の中心周波数を有する第1の複素フィルタによって形成される、ことと、
第2のフィルタ処理信号に基づいて、該音声共鳴の第2の推定周波数および第2の推定帯域幅を生成することであって、該第2のフィルタ処理信号は、第2の選択された帯域幅および第2の中心周波数を有する第2の複素フィルタによって形成される、ことと、
該音声共鳴についての第3の推定帯域幅を生成することであって、該生成することは、
該第1および第2の推定周波数と、
該第1の選択された帯域幅と、
該第1および第2の中心周波数と
に基づいている、ことと
を含む、方法。
(項目33)
前記音声共鳴についての第3の推定周波数を生成することをさらに含み、該生成することは、
前記第3の推定帯域幅と、
前記第1の推定周波数と、
前記第1の中心周波数と、
前記第1の選択された帯域幅と
に基づいている、項目32に記載の方法。
(項目34)
音声共鳴信号の音声共鳴についての瞬時周波数および瞬時帯域幅を決定するための装置であって、該装置は、
実数成分を有する音声共鳴信号を受信するように構成される再構成モジュールであって、該再構成モジュールは、複数のフィルタ処理信号を生成するために該音声共鳴信号をフィルタ処理するようにさらに構成され、それにより、該音声共鳴信号の該実数成分および虚数成分が再構成される、再構成モジュールと、
該再構成モジュールに連結される推定器モジュールであって、該再構成モジュールが、該複数のフィルタ処理信号のうちの第1のフィルタ処理信号および該第1のフィルタ処理信号の単一遅れ遅延の両方に基づいて、該音声共鳴信号の音声共鳴についての第1の推定周波数および第1の推定帯域幅を生成するように構成される、推定器モジュールと
を備える、装置。
(項目35)
前記再構成モジュールは、複数の複素フィルタを有するフィルタバンクを含み、各複素フィルタは、前記複数のフィルタ処理信号のうちの1つを生成するように構成される、項目34に記載の装置。
(項目36)
前記推定器モジュールは、前記複数のフィルタ処理信号および該複数のフィルタ処理信号の複数の単一遅れ遅延の両方に基づいて、複数の推定周波数および複数の推定帯域幅を生成するようにさらに構成される、項目34に記載の装置。
(項目37)
前記再構成モジュールは、複数の有限インパルス応答(FIR)フィルタを含む、項目34に記載の装置。
(項目38)
前記再構成モジュールは、複数の無限インパルス応答(IIR)フィルタを含む、項目34に記載の装置。
(項目39)
前記再構成モジュールは、複数の複素ガンマトーンフィルタを含む、項目34に記載の装置。
(項目38)
前記再構成モジュールは、複数の複素フィルタを含み、各複素フィルタは、第1の選択された帯域幅および第1の選択された中心周波数を有する、項目34に記載の装置。
(項目39)
各複素フィルタは、
複数の帯域幅のうちの1つの選択された帯域幅であって、該複数の帯域幅は第1の所定の範囲内に分布する、1つの選択された帯域幅と、
複数の中心周波数のうちの1つの選択された中心周波数であって、該複数の中心周波数は第2の所定の範囲内に分布する、1つの選択された中心周波数と
備える、項目34に記載の装置。
(項目40)
各複素フィルタは、
第1の選択された帯域幅および第1の選択された中心周波数を備え、該第1の選択された帯域幅および第1の選択された中心周波数は、分析精度を最適化するように構成される、項目34に記載の装置。
入力処理モジュール110はまた、デジタル配信モジュール116も含む。一実施形態において、デジタル配信モジュール116は、入力信号をデジタル化し、配信するように構成される、別様に従来的なデバイスまたはシステムである。示されるように、デジタル配信モジュール116は、アナログ信号114を受信し、出力信号120を生成する。図示された実施形態において、出力信号120は、入力処理モジュール110の出力である。
当業者であれば、人間の音声等の音響共鳴場を複素信号としてモデル化することができ、したがって、実数成分および虚数成分を用いて表すことができることを理解するであろう。概して、入力処理モジュール110への入力は、伝送中に複素情報を失った、例えば、図1の声道を表す点10からの実数アナログ信号である。示されるように、モジュール110の出力信号、音声信号120(Xとして示される)は、アナログ入力信号のデジタル表現であり、元の信号情報のうちのいくらかが欠けている。
推定器モジュール220の出力は、本明細書で開示される本発明の次の広い段階の処理への入力である。具体的には、分析及び補正モジュール230は、推定段階の出力である複数の推定周波数および帯域幅を受信する。非常に一般的に、モジュール230は、改訂された推定値を生成するために、推定周波数および帯域幅を使用する。一実施形態において、改訂された推定周波数および帯域幅は、本発明の新規の補正方法の結果である。代替実施形態において、それら自体が新規の推定および分析方法の結果である、改訂された推定周波数および帯域幅は、さらなる改良のために後処理モジュール140に渡される。この段階は、図3に関してより詳細に説明される。
Figure 2013512475
は、共鳴の周波数(ヘルツ単位)であり、βは、帯域幅(ヘルツ単位)である。慣例により、βは、およそ測定可能な半値全幅帯域幅である。さらに、複素音響伝送は、(実)正弦波によって適切に表すことができる。したがって、信号捕捉過程は、複素源の実数(または虚数)部分を取り出すことの同等物であるが、それはまた瞬間情報を失う。以下でより詳細に説明されるように、再構成モジュール210は、音響音声共鳴の元の複素表現を再生成する。
上記で紹介された第1の実施形態において、推定器モジュール320は、積分カーネル322を用いずにCF310の出力を使用して、単一遅れ積集合を算出する。この実施形態において、各時点で単一の共鳴を抽出し、単一遅延を使用して入力音声信号102の瞬時周波数および帯域幅を求めるために、yがCF310の複素出力である積集合
Figure 2013512475
式中、dtは、サンプリング間隔である。好ましい実施形態において、1つ以上の推定器モジュール320は、各CF310出力に基づいて、単一遅れ積集合から瞬時周波数および帯域幅を計算する。
代替実施形態(例えば、上記で紹介される第2および第3の実施形態)において、推定器モジュール320は、積分カーネル322を使用して、可変遅延の積分積集合を算出する。積分積集合は、入力音声信号302の音声共鳴についての瞬時周波数および帯域幅を算出するために使用される。好ましい実施形態において、1つ以上の推定器モジュール320は、各CF310出力に基づいて積分積集合を計算する。
推定器モジュール320の積分積集合は、実施形態に応じて、ゼロ遅れ積、単一遅れ積、および少なくとも2の遅れ積を含むことができる。これらの実施形態において、積分積集合は、以下の定義による積分積行列として構成される:
Ф(t)=N個の遅延を有する積分積行列
φm,n(t)=遅延を有する積分積行列要素(m,n≦N)
y=再構成モジュール210におけるCF310の複素信号出力
k=推定器モジュール320内の積分カーネル322推定器モジュール320は、各サンプリング時間において積分積行列の要素を更新し、時間積分は、長さlの積分カーネルk[τ]上で各要素について、以下のように、別々に行われる:
一実施形態において、分析及び補正モジュール230は、複素自己回帰問題として積分積集合の出力を処理する。つまり、モジュール230は、適合の統計的尺度を加算して、複素音響共鳴の最良の差分式モデルを算出する。より具体的には、一実施形態において、分析及び補正モジュール230は、以下の式を用いて、複素数領域の中の回帰分析の性質を使用して推定モジュール320から誤差推定値を計算する。
Figure 2013512475
誤差rは、周波数推定値の適合度の尺度である。一実施形態において、モジュール230は、共鳴に起因する瞬時周波数と対比して、雑音に起因する瞬時周波数を識別するためにrを使用する。推定値の精度を増大させる際のこの情報の使用は、以下において論議される。
誤差推定値に加えて、分析及び補正モジュール230の実施形態はまた、1つ以上の推定器モジュール320からの推定値を使用することによって、共鳴の補正瞬時帯域幅を推定する。好ましい実施形態において、モジュール230は、中心周波数において近接して間隔があいている対応する複素フィルタ310を用いて推定器モジュール320によって決定されるような、複数対の周波数推定値を使用して、補正瞬時帯域幅を推定する。概して、この推定値は、上記で説明された単一フィルタベースの推定値よりも良好に共鳴の帯域幅を概算する。
具体的には、モジュール230は、2つの隣接する推定器モジュールにわたる中心周波数の変化に対する周波数推定値の差
Figure 2013512475
は、以下の式を用いて、対応する複素フィルタ310選択された帯域幅bを使用して推定することができる。
Figure 2013512475
具体的には、各CF310が複素ガンマトーンフィルタである一実施形態において、部分的に複素フィルタ310の非対称周波数応答により、推定瞬時周波数を元の共鳴の正確な値からゆがめられ得る。したがって、モジュール230は、推定器モジュール320に由来する推定瞬時周波数の誤差を補正するために、上記で説明された手順を使用して得られる補正帯域幅推定値を使用するように構成することができる。例えば、一実施形態において、中心周波数
Figure 2013512475
を有するCF310について、周波数推定値補正のための最適適合式は、
したがって、システム100は、概して、上記で説明された音声信号過程および分析の3つ全ての段階、すなわち、再構成、推定、および分析/補正を行うように構成されることができる。以下のフロー図は、これらの段階をさらに詳細に説明する。ここで図5を参照すると、図示した過程は、音声認識システムが音声信号を受信する、入力補正および前処理段階において、ブロック505から始まる。例えば、再構成モジュール210は、(図2の)入力処理モジュール110から音声信号を受信する。
次に、ブロック625に示されるように、推定器モジュール220は、フィルタ処理信号、および選択したフィルタ処理信号の単一遅れ遅延に基づいて、音声共鳴の第1の推定周波数を生成する。次に、ブロック630に示されるように、推定器モジュール220は、フィルタ処理信号、および選択したフィルタ処理信号の単一遅れ遅延に基づいて、音声共鳴の第1の推定帯域幅を生成する。したがって、図6のフローダイヤグラムは、音声信号の音声共鳴の推定周波数および帯域幅を生成する過程を説明する。

Claims (41)

  1. デジタル音声信号から音声内容を抽出するための方法であって、前記音声内容が少なくとも1つのフォルマントによって特徴付けられ、前記少なくとも1つのフォルマントの各々は、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも1つのフォルマントのうちの1つ以上のシーケンスを含み、前記方法は、
    前記デジタル音声信号から前記少なくとも1つのフォルマントのうちの前記1つ以上のシーケンスの各々を抽出することであって、前記抽出することは、
    複数の複素フィルタを用いて前記デジタル音声信号をフィルタ処理することであって、前記複数の複素フィルタが、処理連鎖として並列に実装され、前記複素フィルタの各々は、前記連鎖において自身に隣接する前記複数の複素フィルタのうちの他の少なくとも1つと重なる帯域幅を有し、前記複素フィルタの各々は、各々が実数成分および虚数成分を含む複数の複素フィルタ処理された信号のうちの1つを生成する、ことと、
    前記複数のフィルタ処理された信号の各々から形成された積集合と前記複数のフィルタ処理された信号の各々の単一遅れ遅延との組み合わせを用いて、前記複数のフィルタ処理された信号の各々から、推定された瞬時周波数および推定された瞬時帯域幅を生成することと、
    前記推定された瞬時周波数および前記推定された瞬時帯域幅に基づいて、前記少なくとも1つのフォルマントのうちの1つとして、前記デジタル音声信号の前記1つ以上のフォルマントのシーケンスの各々を識別することと
    をさらに含む、ことと、
    音声処理システムを用いて、前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の前記音声内容を再構成することと
    を含む、方法。
  2. 前記複数の複素フィルタによって形成された前記連鎖の前記重なる帯域幅は、実質的に前記デジタル音声信号の前記帯域幅にわたって延在する、請求項1に記載の方法。
  3. 前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも1つは、有限インパルス応答(FIR)フィルタである、請求項1に記載の方法。
  4. 前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも1つは、無限インパルス応答(IIR)フィルタである、請求項1に記載の方法。
  5. 前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも1つは、ガンマトーンフィルタである、請求項1に記載の方法。
  6. 前記連鎖を形成する前記複素フィルタの各々は、所定の帯域幅および所定の中心周波数を含み、前記複素フィルタの各々の前記所定の中心周波数は、所定の中心周波数間隔だけ、自身に隣接する他の複素フィルタの前記所定の中心周波数から分離される、請求項1に記載の方法。
  7. 前記所定の中心周波数間隔は、約2%である、請求項6に記載の方法。
  8. 前記連鎖を形成する前記複素フィルタの各々の前記所定の帯域幅は、自身の所定の中心周波数の約0.75である、請求項6に記載の方法。
  9. デジタル音声信号から音声内容を抽出するための方法であって、前記音声内容が少なくとも1つのフォルマントによって特徴付けられ、前記少なくとも1つのフォルマントの各々は、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも1つのフォルマントのうちの1つ以上のシーケンスを含み、前記方法は、
    前記デジタル音声信号から前記フォルマントのシーケンスの各々を抽出することであって、前記抽出することは、
    実数成分および虚数成分を有する複数の複素フィルタ処理された信号を生成するように、複数の複素フィルタを用いて音声共鳴信号をフィルタ処理することと、
    前記複数の複素フィルタの各々に対する積分積集合を形成することであって、前記形成することが、積分カーネルによって行われ、積分積集合は、少なくとも1つのゼロ遅れ複素積と、少なくとも1つの単一遅れ複素積とを有する、ことと、
    前記積分積集合の各々から、推定された瞬時周波数および推定された瞬時帯域幅を生成することと、
    前記推定された瞬時周波数および前記推定された瞬時帯域幅に基づいて、前記少なくとも1つのフォルマントのうちの1つとして、前記デジタル音声信号の前記1つ以上のフォルマントのシーケンスの各々を識別することと
    をさらに含む、ことと、
    音声処理システムを用いて、前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の前記音声内容を再構成することと
    を含む、方法。
  10. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも1つは、有限インパルス応答(FIR)フィルタである、請求項9に記載の方法。
  11. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも1つは、無限インパルス応答(IIR)フィルタである、請求項9に記載の方法。
  12. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも1つは、ガンマトーンフィルタである、請求項9に記載の方法。
  13. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記複数の複素フィルタによって形成された前記連鎖の重なる帯域幅は、実質的に前記デジタル音声信号の前記帯域幅にわたって延在する、請求項9に記載の方法。
  14. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複素フィルタの各々は、所定の帯域幅および所定の中心周波数を含み、前記複素フィルタの各々の前記所定の中心周波数は、所定の中心周波数間隔だけ、自身に隣接する他の複素フィルタの前記所定の中心周波数から分離される、請求項9に記載の方法。
  15. 前記連鎖を形成する前記複素フィルタのうちの隣接する複素フィルタの間の前記所定の中心周波数間隔は、約2%である、請求項14に記載の方法。
  16. 前記連鎖を形成する前記複素フィルタの各々の前記所定の帯域幅は、自身の所定の中心周波数の約0.75である、請求項14に記載の方法。
  17. 前記積分カーネルは、二次ガンマIIRフィルタである、請求項9に記載の方法。
  18. デジタル音声信号から音声内容を抽出するための方法であって、前記音声内容が少なくとも1つのフォルマントによって特徴付けられ、前記少なくとも1つのフォルマントの各々は、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも1つのフォルマントのうちの1つ以上のシーケンスを含み、前記方法は、
    前記デジタル音声信号から前記フォルマントのシーケンスの各々を抽出することであって、前記抽出することは、
    実数成分および虚数成分を有する複数の複素フィルタ処理された信号を生成するように、複数の複素フィルタを用いて音声共鳴信号をフィルタ処理することと、
    前記複数の複素フィルタの各々に対する積分積集合を形成することであって、前記形成することが、積分カーネルによって行われ、前記積分積集合は、少なくとも1つのゼロ遅れ複素積と、少なくとも1つの2以上の遅れ複素積とを有する、ことと、
    前記積分積集合の各々から、推定された瞬時周波数および推定された瞬時帯域幅を生成することと、
    前記推定された瞬時周波数および前記推定された瞬時帯域幅に基づいて、前記少なくとも1つのフォルマントのうちの1つとして、前記デジタル音声信号の前記1つ以上のフォルマントのシーケンスの各々を識別することと
    をさらに含む、ことと、
    音声処理システムを用いて、前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の前記音声内容を再構成することと
    を含む、方法。
  19. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも1つは、有限インパルス応答(FIR)フィルタである、請求項18に記載の方法。
  20. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも1つは、無限インパルス応答(IIR)フィルタである、請求項18に記載の方法。
  21. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複数の複素フィルタのうちの少なくとも1つは、ガンマトーンフィルタである、請求項18に記載の方法。
  22. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記複数の複素フィルタによって形成された前記連鎖の重なる帯域幅は、実質的に前記デジタル音声信号の前記帯域幅にわたって延在する、請求項18に記載の方法。
  23. 前記複数の複素フィルタは、処理連鎖として並列に実装され、前記連鎖を形成する前記複素フィルタの各々は、所定の帯域幅および所定の中心周波数を含み、前記複素フィルタの各々の前記所定の中心周波数は、所定の中心周波数間隔だけ、自身に隣接する他の複素フィルタの前記所定の中心周波数から分離される、請求項18に記載の方法。
  24. 前記連鎖を形成する前記複素フィルタのうちの隣接する複素フィルタの間の前記所定の中心周波数間隔は、約2%である、請求項23に記載の方法。
  25. 前記積分カーネルは、二次ガンマIIRフィルタである、請求項18に記載の方法。
  26. デジタル化音声信号内の音声内容を認識するための装置であって、前記音声内容が少なくとも1つのフォルマントによって特徴付けられ、前記少なくとも1つのフォルマントの各々は、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも1つのフォルマントのうちの1つ以上のシーケンスを含み、前記装置は、
    デジタル音声信号を受信するように構成された再構成モジュールであって、前記再構成モジュールは、複数の複素フィルタを含み、前記複数の複素フィルタが、処理連鎖として並列に実装され、前記複素フィルタの各々は、前記連鎖において自身に隣接する前記複数の複素フィルタのうちの他の少なくとも1つと重なる帯域幅を有し、前記複素フィルタの各々は、実数成分および虚数成分を含む複数のフィルタ処理された信号のうちの1つを生成する、再構成モジュールと、
    前記再構成モジュールから前記複数のフィルタ処理された信号を受信するように連結された推定器モジュールであって、前記推定器モジュールは、前記複数のフィルタ処理された信号の各々から形成された積集合と前記複数のフィルタ処理された信号の各々の単一遅れ遅延との組み合わせを用いて、前記複数のフィルタ処理された信号の各々から、推定された瞬時周波数および推定された瞬時帯域幅を生成するように構成されている、推定器モジュールと、
    前記複数のフィルタ処理された信号の各々に対する、前記推定された瞬時周波数および瞬時帯域幅の推定を受信するように構成された音声処理システムの後処理モジュールであって、前記後処理モジュールは、前記複数のフィルタ処理された信号の前記推定された瞬時周波数および前記推定された瞬時帯域幅に基づいて、前記少なくとも1つのフォルマントのうちの1つとして、前記デジタル音声信号の前記1つ以上のフォルマントのシーケンスの各々を識別し、かつ前記識別されたフォルマントを用いて、前記デジタル音声信号の前記音声内容を再構成する、後処理モジュールと
    を含む、装置。
  27. 前記推定器モジュールは、フィルタ処理された信号の各々に対する前記推定された瞬時周波数および前記推定された瞬時帯域幅を生成するために、所定の期間にわたって前記複数のフィルタ処理された信号の各々に対して形成された前記積集合を積分するように構成された積分カーネルをさらに含む、請求項26に記載の装置。
  28. 前記積分カーネルは、二次ガンマIIRフィルタである、請求項27に記載の装置。
  29. 前記複数のフィルタ処理された信号の各々からの前記推定された瞬時周波数および前記推定された瞬時帯域幅は、前記複数のフィルタ処理された信号の各々から形成された積集合と前記複数の信号の各々の2以上の遅れ遅延との組み合わせを用いて生成される、請求項27に記載の装置。
  30. 前記再構成モジュールの前記複素フィルタのうちの少なくとも1つは、ガンマトーンフィルタである、請求項26に記載の装置。
  31. 前記連鎖を形成する前記複素フィルタの各々は、所定の帯域幅および所定の中心周波数を含み、前記複素フィルタの各々の前記所定の中心周波数は、所定の中心周波数間隔だけ、自身に隣接する他の複素フィルタの前記所定の中心周波数から分離される、請求項26に記載の装置。
  32. 前記所定の中心周波数間隔は、約2%である、請求項31に記載の装置。
  33. 前記連鎖を形成する前記複素フィルタの各々の前記所定の帯域幅は、自身の所定の中心周波数の約0.75である、請求項32に記載の装置。
  34. 前記生成することは、フィルタ処理された信号の各々に対する前記推定された瞬時周波数および前記推定された瞬時帯域幅を生成するために、所定の期間にわたって前記複数のフィルタ処理された信号の各々に対して形成された前記積集合を積分することをさらに含む、請求項1に記載の方法。
  35. 前記複数のフィルタ処理された信号の各々からの前記推定された瞬時周波数および前記推定された瞬時帯域幅は、前記複数のフィルタ処理された信号の各々から形成された積集合と前記複数の信号の各々の2以上の遅れ遅延との組み合わせを用いて生成される、請求項34に記載の方法。
  36. 前記生成することは、前記所定の中心周波数間隔にわたって、前記連鎖における2つの隣接する複素フィルタに対する前記推定された瞬時周波数の間の差異を用いて、前記フィルタ処理された信号の各々に対する前記推定された瞬時帯域幅を補正することをさらに含む、請求項6に記載の方法。
  37. 前記生成することは、最適適合式に前記フィルタ処理された信号の各々に対する前記補正された帯域幅を適用することによって、前記フィルタ処理された信号の各々に対する前記推定された瞬時周波数の精度を向上させることをさらに含む、請求項36に記載の方法。
  38. 前記生成することは、前記所定の中心周波数間隔にわたって、前記連鎖における2つの隣接する複素フィルタに対する前記推定された瞬時周波数の間の差異を用いて、前記フィルタ処理された信号の各々に対する前記推定された瞬時帯域幅を補正することをさらに含む、請求項23に記載の方法。
  39. 前記生成することは、最適適合式に前記フィルタ処理された信号の各々に対する前記補正された帯域幅を適用することによって、前記フィルタ処理された信号の各々に対する前記推定された瞬時周波数の精度を向上させることをさらに含む、請求項38に記載の方法。
  40. 前記推定器モジュールから前記推定された瞬時周波数および前記推定された瞬時帯域幅を受信するように連結された補正モジュールをさらに含み、前記補正モジュールは、前記所定の中心周波数間隔にわたって、前記連鎖における2つの隣接する複素フィルタに対する前記推定された瞬時周波数の間の差異を用いて、前記フィルタ処理された信号の各々に対する補正された推定された瞬時帯域幅を前記後処理モジュールに提供する、請求項31に記載の装置。
  41. 前記補正モジュールは、さらに、最適適合式に前記フィルタ処理された信号の各々に対する前記補正された帯域幅を適用することによって、前記フィルタ処理された信号の各々に対する補正された推定された瞬時周波数を前記後処理モジュールに提供する、請求項40に記載の装置。
JP2012542014A 2009-12-01 2010-10-28 フォルマントの速い抽出のための複数の並列複素フィルタを用いる音声認識 Active JP5975880B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/629,006 2009-12-01
US12/629,006 US8311812B2 (en) 2009-12-01 2009-12-01 Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel
PCT/US2010/054572 WO2011068608A2 (en) 2009-12-01 2010-10-28 Complex acoustic resonance speech analysis system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015170555A Division JP2016006536A (ja) 2009-12-01 2015-08-31 複素音響共鳴音声分析システム

Publications (3)

Publication Number Publication Date
JP2013512475A JP2013512475A (ja) 2013-04-11
JP2013512475A5 true JP2013512475A5 (ja) 2013-12-05
JP5975880B2 JP5975880B2 (ja) 2016-08-24

Family

ID=44069521

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2012542014A Active JP5975880B2 (ja) 2009-12-01 2010-10-28 フォルマントの速い抽出のための複数の並列複素フィルタを用いる音声認識
JP2015170555A Pending JP2016006536A (ja) 2009-12-01 2015-08-31 複素音響共鳴音声分析システム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2015170555A Pending JP2016006536A (ja) 2009-12-01 2015-08-31 複素音響共鳴音声分析システム

Country Status (5)

Country Link
US (1) US8311812B2 (ja)
EP (1) EP2507791A4 (ja)
JP (2) JP5975880B2 (ja)
IL (2) IL219789B (ja)
WO (1) WO2011068608A2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010031109A1 (en) * 2008-09-19 2010-03-25 Newsouth Innovations Pty Limited Method of analysing an audio signal
US9311929B2 (en) * 2009-12-01 2016-04-12 Eliza Corporation Digital processor based complex acoustic resonance digital speech analysis system
CN104749432B (zh) * 2015-03-12 2017-06-16 西安电子科技大学 基于聚焦s变换的多分量非平稳信号瞬时频率估计方法
CN106601249B (zh) * 2016-11-18 2020-06-05 清华大学 一种基于听觉感知特性的数字语音实时分解/合成方法
TW201921336A (zh) 2017-06-15 2019-06-01 大陸商北京嘀嘀無限科技發展有限公司 用於語音辨識的系統和方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3649765A (en) * 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
US4192210A (en) * 1978-06-22 1980-03-11 Kawai Musical Instrument Mfg. Co. Ltd. Formant filter synthesizer for an electronic musical instrument
NL188189C (nl) * 1979-04-04 1992-04-16 Philips Nv Werkwijze ter bepaling van stuursignalen voor besturing van polen van een louter-polen filter in een spraaksynthese-inrichting.
CA1250368A (en) * 1985-05-28 1989-02-21 Tetsu Taguchi Formant extractor
JPS63501603A (ja) * 1985-10-30 1988-06-16 セントラル インステイチユ−ト フオ ザ デフ スピ−チ処理装置および方法
JPH0679227B2 (ja) * 1986-09-02 1994-10-05 株式会社河合楽器製作所 電子楽器
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
US6098036A (en) * 1998-07-13 2000-08-01 Lockheed Martin Corp. Speech coding system and method including spectral formant enhancer
US6233552B1 (en) * 1999-03-12 2001-05-15 Comsat Corporation Adaptive post-filtering technique based on the Modified Yule-Walker filter
JP3417880B2 (ja) * 1999-07-07 2003-06-16 科学技術振興事業団 音源情報の抽出方法及び装置
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
US6577968B2 (en) 2001-06-29 2003-06-10 The United States Of America As Represented By The National Security Agency Method of estimating signal frequency
EP1280138A1 (de) * 2001-07-24 2003-01-29 Empire Interactive Europe Ltd. Verfahren zur Analyse von Audiosignalen
KR100881548B1 (ko) 2002-06-27 2009-02-02 주식회사 케이티 사용자상태 기반 호처리 방법
US7624195B1 (en) 2003-05-08 2009-11-24 Cisco Technology, Inc. Method and apparatus for distributed network address translation processing
US6970547B2 (en) 2003-05-12 2005-11-29 Onstate Communications Corporation Universal state-aware communications
US7522594B2 (en) 2003-08-19 2009-04-21 Eye Ball Networks, Inc. Method and apparatus to permit data transmission to traverse firewalls
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint
KR100600628B1 (ko) 2004-08-06 2006-07-13 주식회사 케이티 통화 시스템 및 통화 연결 방법
KR100634526B1 (ko) * 2004-11-24 2006-10-16 삼성전자주식회사 포만트 트래킹 장치 및 방법
US7672835B2 (en) * 2004-12-24 2010-03-02 Casio Computer Co., Ltd. Voice analysis/synthesis apparatus and program
US7492814B1 (en) 2005-06-09 2009-02-17 The U.S. Government As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal using peak picking
US7457756B1 (en) 2005-06-09 2008-11-25 The United States Of America As Represented By The Director Of The National Security Agency Method of generating time-frequency signal representation preserving phase information
JP4766976B2 (ja) 2005-09-29 2011-09-07 富士通株式会社 ノード間接続方法及び装置
US20070112954A1 (en) 2005-11-15 2007-05-17 Yahoo! Inc. Efficiently detecting abnormal client termination
KR100717625B1 (ko) * 2006-02-10 2007-05-15 삼성전자주식회사 음성 인식에서의 포먼트 주파수 추정 방법 및 장치
US8150065B2 (en) * 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
DE602006008158D1 (de) * 2006-09-29 2009-09-10 Honda Res Inst Europe Gmbh Gemeinsame Schätzung von Formant-Trajektorien mittels Bayesischer Techniken und adaptiver Segmentierung

Similar Documents

Publication Publication Date Title
JP2013512475A5 (ja) フォルマントの速い抽出のための複数の並列複素フィルタを用いる音声認識
US20060072766A1 (en) Reverberation removal
US10566002B1 (en) System and method for identifying and processing audio signals
Zheng et al. Single-lead fetal electrocardiogram estimation by means of combining R-peak detection, resampling and comb filter
JP2016006536A (ja) 複素音響共鳴音声分析システム
CN108011615B (zh) 一种信号处理的方法和装置
FR3031225A1 (fr) Procede de separation ameliore et produit programme d'ordinateur
Lobov et al. Digital compensation for uneven frequency response of analog filters from the hybrid filter bank
US9311929B2 (en) Digital processor based complex acoustic resonance digital speech analysis system
CN107210029A (zh) 用于处理一连串信号以进行复调音符辨识的方法和装置
CN109387874B (zh) 一种混合相位子波提取方法
TWI421858B (zh) 用於處理音頻訊號的系統及方法
CN106356069B (zh) 一种信号处理方法和装置
CN109272054B (zh) 一种基于独立性的振动信号去噪方法及系统
Pachori et al. Time-frequency analysis using time-order representation and Wigner distribution
EP1026509A3 (en) Method and apparatus for determining harmonics in electric network
US6831467B2 (en) QSD recovery of superposed transient responses
JP2001312289A (ja) 帯域分割用フィルタ回路ならびにそれを用いた信号分析装置および信号加工装置
CN110287948B (zh) 一种基于能量分离的魏格纳-维利时频分解方法
EP1714273A1 (fr) Procede de restauration de partiels d'un signal sonore
Laurenti et al. A method for spectrum separation and envelope estimation of the residual in spectrum modeling of musical sound
Nakamura et al. Unaliasing of Recorded Signals Based on Blind Source Separation
US20030055609A1 (en) QSD apparatus and method for recovery of transient response obscured by superposition
WO2015024940A1 (en) Enhanced estimation of at least one target signal
Lysaght et al. Modal distribution synthesis from sub-sampled autocorrelation function