JP2016500847A - デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム - Google Patents

デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム Download PDF

Info

Publication number
JP2016500847A
JP2016500847A JP2015539586A JP2015539586A JP2016500847A JP 2016500847 A JP2016500847 A JP 2016500847A JP 2015539586 A JP2015539586 A JP 2015539586A JP 2015539586 A JP2015539586 A JP 2015539586A JP 2016500847 A JP2016500847 A JP 2016500847A
Authority
JP
Japan
Prior art keywords
digital
bandwidth
complex
filter
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015539586A
Other languages
English (en)
Inventor
ジョン クローカー,
ジョン クローカー,
ジャネット スリフカ,
ジャネット スリフカ,
リチャード エス. マクゴワン,
リチャード エス. マクゴワン,
Original Assignee
エライザ コーポレイション
エライザ コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エライザ コーポレイション, エライザ コーポレイション filed Critical エライザ コーポレイション
Publication of JP2016500847A publication Critical patent/JP2016500847A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音声分析システムは、音声フォルマントを音声信号のデジタル化されたバージョンから正確に抽出することによって、音声信号を再構成するために、1つ以上のデジタルプロセッサを使用する。本システムは、音声信号のデジタルバージョンの音声共鳴の推定瞬時周波数および推定瞬時帯域幅をリアルタイムで決定することによって、フォルマントを抽出する。本システムは、音声信号の帯域幅の実質的に全てが包含されることを確実にするために、重複帯域幅を有する複数の複素デジタルフィルタを並行して使用して、デジタル音声信号をデジタル的にフィルタ処理する。重複複素デジタルフィルタの本仮想チェーンは、対応する複数の複素フィルタ処理信号を生成する。第1の推定周波数および第1の推定帯域が、フィルタ処理信号の各々に対して生成され、入力音声信号の音声共鳴が、そこから識別される。

Description

(関連出願への相互参照)
本願は、同時係属中の米国特許出願第12/629,006号(2009年12月1日出願)の一部継続(CIP)であり、その出願は、参照によって本明細書に援用される。
(発明の分野)
本発明は、概して、音声認識の分野に関し、より具体的には、音声認識信号処理および分析のためのシステムに関する。
(発明の背景)
現代の人間のコミュニケーションは、遠距離にわたる音声のデジタル表現の伝送にますます依存している。本デジタル表現は、人間の声に関する情報のわずかしか含まないが、それにもかかわらず、人間は、デジタル音声信号を完璧に理解することが可能である。
自動電話案内および他の双方向音声応答システム(IVR)等のいくつかの通信システムは、デジタル音声信号を理解するためにコンピュータに依存する。そのようなシステムは、人間の音声に固有の音ならびに意味を認識し、それによって、デジタル化音響信号の音声内容を抽出する。医療および健康管理分野では、デジタル化音響信号から音声内容を正しく抽出することは、死活問題となり得、正確な信号分析および解釈を特に重要にする。
音声内容を抽出するように音声信号を分析することへの1つのアプローチは、音声産出中の声道の音響的特性をモデル化することに基づく。概して、音声産出中に、声道の構成は、一式の音声共鳴で構成される音響音声信号を決定する。これらの音声共鳴は、音声信号から音声内容を抽出するように分析することができる。
音声産出中の声道の音響的特性を正確に決定するために、各音声共鳴の周波数および帯域幅が必要とされる。概して、周波数は、声道内の空洞のサイズに対応し、帯域幅は、声道の音響損失に対応する。ともに、これら2つのパラメータは、音声のフォルマントを決定する。
音声産出中に、音声共鳴周波数および帯域幅は、約数ミリ秒で迅速に変化する場合がある。大抵の場合、音声信号の音声内容は、連続音声共鳴の関数であるため、音声共鳴の変化は、変化するのと少なくとも同じくらい迅速に捕捉および分析されなければならない。したがって、正確な音声分析は、音声産出と同じ時間的尺度で、つまり約数ミリ秒で、各音声共鳴の周波数および帯域幅の両方の同時決定を必要とする。しかしながら、この時間的尺度での音声共鳴の周波数および帯域幅の同時決定は困難だと分かっている。
フォルマント推定における先行研究は、音声信号における音声共鳴の周波数のみを見出すことに関与してきた。これらの周波数指向の方法は、高時間分解能周波数推定値に対する瞬時周波数を使用する。しかしながら、周波数推定のためのこれらの方法は、融通性が限定され、音声共鳴を完全には説明しない。
例えば、Nelsonらは、Douglas J.Nelsonによる、2003年6月10日の「Method of estimating signal frequency」に対する米国特許第6,577,968号、Douglas J. NelsonおよびDavid Charles Smithによる、2008年11月25日の「Method of generating time−frequency signal representation preserving phase information」に対する米国特許第7,457,756号、およびDouglas J. Nelsonによる、2009年2月17日の「Method of removing noise and interference from signal using peak picking」に対する米国特許第7,492,814号を含む、いくつかの方法を開発してきた。
概して、Nelsonの方法と一致するシステム(「Nelson型システム」)は、音声処理における一般的な変換である、短時間フーリエ変換(STFT)の計算を強化するために、瞬時周波数を使用する。Nelson型システムでは、瞬時周波数は、複素信号の位相の時間導関数として計算される。Nelson型システムのアプローチは、遅延した全スペクトルの共役積から瞬時周波数を算出する。STFTにおいて各時間周波数要素の瞬時周波数を算出すると、Nelson型システムのアプローチは、各要素のエネルギーをその瞬時周波数に再マップする。このNelson型再マッピングは、同じ瞬時周波数の周囲に集まる複数の周波数帯にわたって以前に分布したエネルギーを伴う、集中STFTをもたらす。
AugerおよびFlandrinも、F. Auger and P. Flandrin,「Improving the readability of time−frequency and time−scale representations by the reassignment method,」Signal Processing, IEEE Transactions on 43, no. 5(May 1995):1068−1089で説明されているアプローチ(「Auger/Flandrin」)を開発した。Auger/Flandrinアプローチと一致するシステム(「Auger/Flandrin型システム」)は、Nelson型システムの集中短時間フーリエ変換(STFT)の代替案を提供する。概して、Auger/Flandrin型システムは、異なる窓関数を伴ういくつかのSTFTを算出する。Auger/Flandrin型システムは、位相の時間導関数を得るために、STFTにおいて窓関数の導関数を使用し、共役積は、エネルギーによって正規化される。Auger/Flandrin型システムは、導関数が離散実装において推定されないため、Nelson型システムのアプローチよりも正確な瞬時周波数の解決法を生じる。
しかしながら、STFTアプローチの延長として、Nelson型およびAuger/Flandrin型システムの両方は、人間の発話を効果的にモデル化するための必要な融通性が不足している。例えば、Nelson型およびAuger/Flandrin型システムの両方の変換は、音声信号のフィルタバンクを最適化する能力を限定する、STFT全体の窓長さおよび周波数間隔を決定する。また、両方の種類が信号成分の瞬時周波数を見出す一方で、いずれの種類も信号成分の瞬時帯域幅を見出さない。したがって、Nelson型およびAuger/Flandrin型アプローチの両方は、音声処理における有用性を限定する、有意な欠点を抱えている。
GardnerおよびMognascoは、T. J. Gardner and M. O. Magnasco,「Instantaneous frequency decomposition:An application to spectrally sparse sounds with fast frequency modulations,」The Journal of the Acoustical Society of America 117, no. 5(2005):2896−2903の中で、代替アプローチ(「Gardner/Mognasco」)を説明している。Gardner/Mognascoアプローチと一致するシステム(「Gardner/Mognasco型システム」)は、上記のNelsonアプローチと同様に、その瞬時周波数に再マップされた各フィルタからのエネルギーを伴う、極めて冗長な複素フィルタバンクを使用する。Gardner/Mognasco型システムはまた、表現の周波数分解能をさらに強化するために、いくつかの基準を使用する。
つまり、Gardner/Mognasco型システムは、推定瞬時周波数から遠い中心周波数を用いたフィルタを破棄し、信号成分周波数を中心としないフィルタからの周波数推定誤差を低減することができる。Gardner/Mognasco型システムはまた、低エネルギー周波数推定値を除去するために振幅閾値を使用し、フィルタバンクにおけるフィルタの帯域幅を最適化して、隣接フィルタの周波数推定値の一致を最大限化する。次いで、Gardner/Mognasco型システムは、フィルタにわたる高い一致が良好な周波数推定値を示す、分析の質の尺度として一致を使用する。
しかしながら、Gardner/Mognasco型システムも、有意な欠点を抱えている。第1に、Gardner/Mognasco型システムは、瞬時帯域幅計算に対処せず、したがって、音声フォルマンとの重要な部分を見落とす。第2に、一致アプローチは、一群の周波数推定値が相互と簡潔に一致するが、それにもかかわらず、真の共振周波数の不正確な推定値を提供するときに、誤差を確定し得る。これらの理由の両方で、Gardner/Mognasco型システムは、音声処理用途、特に、短時間尺度にわたってより高い精度を必要とする用途において、限定された有用性を提供する。
上記の方法は、瞬時帯域幅も決定することなく、瞬時周波数を決定しようとするが、PotamianosおよびMaragosは、音声信号のフォルマントの周波数および帯域幅の両方を得るための方法を開発した。Potamianos/Maragosアプローチは、Alexandros Potamianos and Petros Maragos,「Speech formant frequency and bandwidth tracking using multiband energy demodulation,」The Journal of the Acoustical Society of America 9, no. 6(1996):3795−3806(「Potamianos/Maragos」)で説明されている。
Potamianos/Maragosアプローチと一致するシステム(「Potamianos/Maragos型システム」)は、実数値ガボールフィルタのフィルタバンクを使用し、エネルギー分離アルゴリズムを使用して、各時間サンプルで瞬時周波数を計算し、信号を瞬時周波数および振幅包絡線に復調する。Potamianos/Maragos型システムでは、次いで、瞬時周波数は、約10msの時間窓を用いて、周波数の短時間推定値を求めるように時間平均される。Potamianos/Maragos型システムでは、帯域幅推定は、単純に、時間窓にわたる瞬時周波数の標準偏差である。
したがって、Potamianos/Maragos型システムは、(変換よりもむしろ)フィルタバンクの融通性を提供するが、Potamianos/Maragos型システムは、標準偏差を使用することによって、瞬時帯域幅を間接的に推定するのみである。つまり、標準偏差が時間平均を必要とするため、Potamianos/Maragos型システムにおける帯域幅推定値は瞬間的ではない。帯域幅が瞬間的ではないため、周波数および帯域幅推定値は、リアルタイム音声認識にとって実用的であるよりも長い時間にわたって平均されなければならない。したがって、Potamianos/Maragos型システムはまた、リアルタイム音声処理に好まれる時間的尺度で音声フォルマントを決定することができない。
米国特許第6,577,968号明細書 米国特許第7,457,756号明細書 米国特許第7,492,814号明細書
F. Auger and P. Flandrin,「Improving the readability of time−frequency and time−scale representations by the reassignment method,」Signal Processing, IEEE Transactions on 43, no. 5(May 1995):1068−1089 T. J. Gardner and M. O. Magnasco,「Instantaneous frequencydecomposition:An application to spectrally sparse sounds with fast frequency modulations,」The Journal of the Acoustical Society of America 117, no. 5(2005):2896−2903 Alexandros Potamianos and Petros Maragos,「Speech formant frequency and bandwidth tracking using multiband energy demodulation,」The Journal of the Acoustical Society of America 9, no. 6(1996):3795−3806
概略すると、開示されるシステムは、実質的に、その帯域幅にわたって、音声信号をデジタル的にフィルタ処理し、音声信号内に生じる共鳴の推定瞬時周波数および瞬時帯域幅情報をリアルタイムで生成することによって、デジタル音声入力信号からフォルマントを抽出する。アナログ音声信号を受信し、サンプルをサンプリングし、デジタル化すると、少なくとも1つのデジタルプロセッサは、複数の計算的に実装される複素デジタルフィルタを使用して、音声信号をフィルタ処理し、複数の複素デジタルフィルタ処理信号を生成するようにプログラムされる。デジタルフィルタ毎の帯域幅および中心周波数は、相互に重複するフィルタの仮想チェーンを形成し、実質的に、音声信号の関連帯域幅全体が、チェーンによってフィルタ処理されることを確実にするように、選定されることができる。フィルタ処理デジタル信号毎に、少なくとも1つのデジタルプロセッサは、音声信号の実数成分および虚数成分を再構成する。音声信号の単一遅れ遅延もまた、選択したフィルタ処理信号に基づいて生成される。音声信号中に生じる音声共鳴の推定周波数および帯域幅は、それらの共鳴の推定周波数および帯域幅に基づいて、デジタルプロセッサによって、リアルタイムで識別される。
本発明の1つの一般的側面では、音声処理システムは、デジタル音声信号から、音声内容を抽出する。音声内容は、少なくとも1つのフォルマントによって特徴付けられ、少なくとも1つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられる。音声信号は、少なくとも1つのフォルマントのうちの1つ以上のシーケンスを含む。音声処理システムは、少なくとも1つのデジタルプロセッサを含み、少なくとも1つのデジタルプロセッサは、少なくとも1つの読み取り可能な記憶媒体上に記憶される命令を用いてプログラムされる。少なくとも1つのデジタルプロセッサによる命令の実行は、デジタルプロセッサに、デジタル音声信号から、少なくとも1つのフォルマントのうちの1つ以上のシーケンスのそれぞれ1つを抽出するステップを含む、方法を行わせる。抽出プロセスはさらに、複数の複素デジタルフィルタを使用して、デジタル音声信号をフィルタ処理するステップであって、複数のデジタルフィルタは、そのデジタルフィルタ処理機能を並行して行うために実装される、ステップを含む。デジタルフィルタはそれぞれ、デジタル音声信号の総帯域幅の増分部分を包含する、所定の帯域幅を有する。各所定の帯域幅は、所定の帯域幅の少なくとも1つの他の帯域幅と重複する。複素デジタルフィルタはそれぞれ、複数の複素デジタルフィルタ処理信号のうちの1つを生成する。複素デジタルフィルタ処理信号はそれぞれ、実数成分および虚数成分を含む。
抽出プロセスはさらに、複数のデジタルフィルタ処理信号のそれぞれの単一遅れ遅延と組み合わせて、複数のデジタルフィルタ処理信号のそれぞれから形成される積集合を使用して、複数のデジタルフィルタ処理信号のそれぞれから、瞬時周波数および推定瞬時帯域幅を推定するステップを含む。抽出プロセスはさらに、推定瞬時周波数および推定瞬時帯域幅に基づいて、少なくとも1つのフォルマントのうちの1つとして、デジタル音声信号の1つ以上のフォルマントのシーケンスのそれぞれを識別するステップを含む。本システムは、次いで、フォルマントの識別されたシーケンスに基づいて、デジタル音声信号の音声内容を再構成する。
さらなる実施形態では、複数の複素デジタルフィルタの重複する所定の帯域幅は、統合すると、実質的に、デジタル音声信号の帯域幅にわたって延在する。
別の実施形態では、複数の複素デジタルフィルタのうちの少なくとも1つは、有限インパルス応答(FIR)フィルタを特徴とする。
別の実施形態では、複数の複素デジタルフィルタのうちの少なくとも1つは、無限インパルス応答(IIR)フィルタを特徴とする。
さらなる実施形態では、複数の複素デジタルフィルタのうちの少なくとも1つは、ガンマトーンフィルタを特徴とする。
本発明の別の側面では、複素デジタルフィルタのそれぞれの所定の帯域幅はさらに、所定の中心周波数によって特徴付けられる。複素デジタルフィルタの所定の中心周波数はそれぞれ、それと重複する所定の帯域幅を有する複数の複素デジタルフィルタのうちの少なくとも1つの所定の中心周波数から所定の中心周波数間隔だけ分離される。一実施形態では、所定の中心周波数間隔は、約2%である。別の実施形態では、チェーンを形成する複素フィルタのそれぞれの所定の帯域幅は、その所定の中心周波数の約0.75である。
一実施形態では、少なくとも1つのデジタルプロセッサは、汎用マイクロプロセッサである。代替実施形態では、少なくとも1つのデジタルプロセッサは、該フィルタ処理ステップおよび該推定ステップに固有の具体的計算を取り扱うように設計される計算リソースを有する、デジタル信号プロセッサ(DSP)である。
さらなる実施形態では、生成プロセスはさらに、所定の期間にわたって、複数のデジタルフィルタ処理信号毎に形成される積集合を積分し、デジタルフィルタ処理信号毎に推定瞬時周波数および瞬時帯域幅を生成するステップを含む。
別の実施形態では、生成ステップはさらに、第1に、補正されるデジタルフィルタ処理信号を生成したデジタルフィルタのうちの1つの帯域幅に重複する帯域幅を有するデジタルフィルタによって生成される、デジタルフィルタ処理信号の2つに対する推定瞬時周波数間の差異を決定し、第2に、次いで、決定された差異を所定の中心周波数間隔で除算することによって、複素デジタルフィルタのうちの1つによって生成されたデジタルフィルタ処理信号の1つ毎に、推定瞬時帯域幅を補正するステップを含む。
本発明の別の側面では、積分積集合は、積分カーネルを使用して、複数の複素デジタルフィルタ処理信号毎に形成され、積分積集合は、少なくとも1つのゼロ遅れ複素積および少なくとも1つの単一遅れ複素積を有する。
なおも別の実施形態では、積分積集合は、少なくとも1つの単一遅れ複素積の代わりに、少なくとも1つのゼロ遅れ複素積および少なくとも1つの2以上遅れ複素積を有する。
本発明のさらに別の側面では、装置は、デジタル化された音声信号内に埋め込まれた音声内容を抽出し、音声内容は、少なくとも1つのフォルマントによって特徴付けられ、少なくとも1つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられる。音声信号は、少なくとも1つのフォルマントのうちの1つ以上のシーケンスを含む。本装置は、プログラム命令によって、デジタル音声信号のサンプルを受信し、それに作用するように構成される、再構成プロセッサを含む。再構成プロセッサは、複数の複素デジタルフィルタを計算的に実装し、複数の複素デジタルフィルタは、デジタル音声信号の各サンプルに並行してその処理を行うように実装される。複素デジタルフィルタはそれぞれ、複数の複素フィルタの少なくとも1つの他のフィルタの帯域幅と重複する帯域幅によって特徴付けられる。複素デジタルフィルタはそれぞれ、出力として、複数のデジタルフィルタ処理信号のうちの1つを生成する。処理されたデジタル音声信号のサンプル毎の離散値から構成される、デジタルフィルタ処理信号はそれぞれ、実数成分および虚数成分を含む。
本装置はさらに、プログラム命令によって、再構成プロセッサから、複数のデジタルフィルタ処理信号を受信するように構成される、推定器プロセッサを含み、推定器プロセッサは、推定器プロセスを計算的に実装し、推定器プロセスは、生成されたデジタルフィルタ処理信号の1つ毎にインスタンス化され、推定器プロセスの各インスタンス化は、複数のデジタルフィルタ処理信号のそれぞれから形成される積集合を使用して、複数のデジタルフィルタ処理信号のそれぞれから、推定瞬時周波数および推定瞬時帯域幅を生成するように構成される。
本装置はさらに、プログラム命令によって、推定器プロセッサから、複数のデジタルフィルタ処理信号毎の推定される瞬時周波数および瞬時帯域幅推定値を受信するように構成される、後処理プロセッサを含む。後処理プロセッサはさらに、プログラム命令によって、複数のフィルタ処理信号の受信した推定瞬時周波数および推定瞬時帯域幅に基づいて、デジタル音声信号の1つ以上のフォルマントのシーケンスのそれぞれを少なくとも1つのフォルマントのうちの1つとして識別するように構成される。後処理プロセッサはまた、プログラム命令によって、識別されたフォルマントを使用して、デジタル音声信号の音声内容を再構成するように構成される。
ある実施形態では、推定器プロセスの各インスタンス化はさらに、所定の期間にわたって、複数のフィルタ処理信号毎に形成される積集合を積分し、フィルタ処理信号毎に、推定瞬時周波数および瞬時帯域幅を生成するように構成される、計算的に実装される積分カーネルを備える。
一実施形態では、積分カーネルは、二次ガンマIIRフィルタを特徴とする。
別の実施形態では、複数のデジタルフィルタ処理信号のそれぞれから推定される瞬時周波数および推定瞬時帯域幅は、複数のデジタルフィルタ処理信号のそれぞれの少なくとも1つの単一遅れ遅延と組み合わせて、複数のフィルタ処理信号のそれぞれから推定器プロセスによって形成される積集合を使用して生成される。
さらなる実施形態では、推定器プロセッサはさらに、推定器プロセッサから、推定瞬時周波数および推定瞬時帯域幅を受信する、補正プロセスを実装するように構成される。補正プロセスは、所定の中心周波数間隔で除算されたチェーン内の2つの隣接する複素フィルタに対する推定瞬時周波数間の差異を使用して、フィルタ処理信号毎の補正された推定瞬時帯域幅を後処理モジュールに提供する。
なおも別の実施形態では、補正プロセスはさらに、フィルタ処理信号毎に補正された帯域幅を最良適合式に当てはめることによって、フィルタ処理信号毎に補正された推定瞬時周波数を後処理プロセッサに提供する。
別の実施形態では、再構成プロセッサ、推定器プロセッサ、および後処理プロセッサは、1つ以上のデジタルプロセッサとして実装される。
代替実施形態では、1つ以上のデジタルプロセッサのうちの少なくとも1つは、汎用マイクロプロセッサである。
なおも別の代替実施形態では、再構成プロセッサ、推定器プロセッサ、および後処理プロセッサは、1つ以上のDSP構成要素として実装される。
本明細書で説明される実施形態は、以下の図と併せて、詳細な説明を参照することによってより完全に理解される。
図1aは、人間の声道の切断図である。 図1bは、複素音響共鳴音声分析システムを含む、音声処理システムの高レベルブロック図である。 図2は、信号変換および過程組織をハイライトする、図1bの音声処理システムの実施形態のブロック図である。 図3aは、図2の音声処理システムの音声共鳴分析プロセスの単一デジタルプロセッサベースの実装の実施形態のブロック図である。 図3bは、図2の音声処理システムの音声共鳴分析プロセスの分散型デジタルプロセッサベースの実装の実施形態のブロック図である。 図4は、音声共鳴分析プロセスの複素ガンマトーンフィルタの実施形態のブロック図である。 図5は、音声処理方法の動作ステップを描写する高レベルフロー図である。 図6−9は、複素音響音声共鳴分析方法の実施形態の動作ステップを描写する高レベルフロー図である。 図6−9は、複素音響音声共鳴分析方法の実施形態の動作ステップを描写する高レベルフロー図である。 図6−9は、複素音響音声共鳴分析方法の実施形態の動作ステップを描写する高レベルフロー図である。 図6−9は、複素音響音声共鳴分析方法の実施形態の動作ステップを描写する高レベルフロー図である。
(詳細な説明)
図1aは、人間の声道10の切断図を図示する。示されるように、声道10は、音波12を産出する。音波12の質は、音声産出中の声道10の構成によって決定される。具体的には、図示されるように、声道10は、それぞれ音波12を生成することに寄与する、4つの共振器1、2、3、4を含む。4つの図示した共振器は、咽頭共振器1、口腔共振器2、口唇共振器3、鼻腔共振器4である。4つ全ての共振器は、個別に、かつともに、音声産出中に音声共鳴を生成する。これらの音声共鳴は、音波12を形成するように寄与する。
図1bは、本発明の一実施形態による、音声処理システム100の実施例を図示する。総括的には、音声処理システム100は、「入力捕捉および前処理」、「処理および分析」、および「後処理」という3つの一般的処理段階で動作する。音声処理システム100は、トランジスタ、インダクタ、レジスタ、およびキャパシタ等の標準的アナログハードウェア構成要素、汎用マイクロプロセッサ(μP)および/または特定用途向けデジタル信号プロセッサ(DSP)等の1つ以上のデジタルプロセッサ、あるいは前述の全ての組み合わせを使用して実装されることができる。各処理段階は、以下にさらに詳細に説明される。
処理段階のアナログ実装の場合、処理段階によって提供される機能は、ハードウェアを通過するにつれて、構成要素自体によって、信号に行われる。デジタル実装の場合、プロセスは、概して、分析される音声信号のデジタルサンプルに計算的に行われる。計算は、デジタルプロセッサと別個またはその中に統合される読み取り可能なメモリ構成要素上に記憶されるプログラム命令に基づいて、1つ以上のそのようなプロセッサによって行われる。
DSPとマイクロプロセッサ構成要素との間の差異は、主に、目の前にあるタスクに特有の計算を行うために利用可能な専用リソースのタイプである。汎用マイクロプロセッサは、典型的には、汎用計算リソースを有する。DSP構成要素は、信号処理のために典型的に要求される計算を行うようにより具体的に調整される、計算リソースを有する傾向にあって、したがって、より高速であるが、また、より高価でもある傾向にある。両タイプの処理構成要素とも、より低速であって、かつ安価である傾向にある汎用プロセッサと、より高速であるが、より高価でもある傾向にあるDSP構成要素を用いて、本明細書に説明されるような処理段階に必要な計算を行うことが可能である。したがって、以降における用語「デジタルプロセッサ」の使用は、汎用マイクロプロセッサおよび特定用途向けDSPの両方を含む、本明細書に説明されるような処理段階に要求される計算を行うことが可能な任意のタイプの処理構成要素を包含することが意図されるであろう。
音声信号を分析し、解釈するために、一部の音声が最初に捕捉されなければならない。したがって、プロセスの第1の段階は、概して、「入力捕捉および前処理」である。図示されるように、音声処理システム100は、声道10から生じる音波12を捕捉するように構成される。上記で説明されるように、人間の声道は、種々の場所で共鳴を生成する。この段階では、声道10が音波12を生成する。入力処理モジュール110は、音波12を検出し、捕捉し、デジタル音声信号に変換する。
より具体的には、その他の点では従来的な入力処理モジュール110が、入力ポート112を通して音波12を捕捉する。入力ポート112は、従来のマイクロホンまたは他の好適なデバイス等のその他の点では従来的な入力ポートおよび/またはデバイスである。入力ポート112は、音波12を捕捉し、音声に基づいてアナログ信号114を生成する。
入力処理モジュール110はまた、デジタル配信モジュール116も含む。一実施形態では、デジタル配信モジュール116は、入力信号をデジタル化し、配信するように構成される、その他の点では従来的なデバイスまたはシステムである。モジュール116は、当業者に公知である、別個または統合されたアナログデジタル交換機(ADC)であり得る。示されるように、デジタル配信モジュール116は、アナログ信号114を受信し、アナログ信号114のデジタル化されたサンプルから成る、出力信号120を生成し、サンプルは、典型的には、実質的に、一定サンプリングレートで生成される。図示した実施形態では、出力信号120は、入力処理モジュール110の出力である。
本明細書で説明される本発明の音声共鳴分析モジュール130は、後処理モジュール140による付加的な音声処理のために好適な出力信号を形成する、音声信号120を受信する。以下でより詳細に説明されるように、音声共鳴分析モジュール130は、音声信号120を複素音声信号に再構成する。再構成された音声信号を使用して、音声共鳴分析モジュール130は、複素音声信号の音声共鳴の周波数および帯域幅を推定し、信号を補正またはさらに処理して、それらの推定値の精度を強化することができる。
音声共鳴分析モジュール130は、多種多様の変換、強化、および音声共鳴分析モジュール130によって生成された出力信号内のフォルマントの識別を含む、他の後処理機能を果たすように構成することができる、後処理モジュール140に、その出力を渡す。いくつかの実施形態では、後処理モジュール140は、その他の点では従来的な後処理モジュールである。以下の図は、本発明を説明する付加的な詳細を提供する。
図2は、再構成、推定、および分析/補正といった3つの広範な処理副段階を捕捉する表現において、処理および分析段階を提示する。具体的には、図2は、システム100の別の図を示す。入力処理モジュール110は、実アナログ音響(すなわち、音、音声、または他の雑音)を受信し、音響信号を捕捉し、それをサンプリングされたデジタル形式に変換し、結果として生じたデジタル音声信号120を音声共鳴分析モジュール130に渡す。
当業者は、人間の音声等の音響共鳴場を複素信号としてモデル化することができ、したがって、実数成分および虚数成分を用いて表すことができることを理解するであろう。概して、入力処理モジュール110への入力は、伝送中に複素情報を失った、例えば、図1の声道を表す点10からの実アナログ信号である。示されるように、モジュール110の出力信号、音声信号120(Xとして示される)は、アナログ入力信号のサンプリングされたデジタル表現であり、元の信号情報のうちの一部が欠けている。
音声信号120(信号X)は、本明細書では「音声共鳴分析」と呼ばれる、本明細書で開示される本発明の3段階の処理への入力である。具体的には、再構成プロセス210は、各共鳴の虚数成分および実数成分が再構成されるように、信号120を受信し、再構成する。この段階は、図3a、3b、および4に関して以下でより詳細に説明される。示されるように、再構成プロセス210の出力は、それぞれ実数成分Yおよび虚数成分Yを含む、複数の再構成されたデジタル信号Yである。
再構成プロセス210の出力は、本明細書で開示される本発明の次の広範な段階の処理への入力である。具体的には、推定器プロセス210は、再構成段階の出力である、信号Yを受信する。非常に一般的に、推定器プロセス210は、再構成された音声信号の個々の音声共鳴のうちの1つ以上の瞬時周波数および瞬時帯域幅を推定するために、再構成された信号を使用する。この段階は、図3aおよび3bに関して以下でより詳細に説明される。示されるように、推定器プロセス210の出力は、複数の推定される周波数
Figure 2016500847
および推定帯域
Figure 2016500847
である。
推定器プロセス210の出力は、本明細書で開示される本発明の次の広範な段階の処理への入力である。具体的には、分析および補正プロセス230は、推定段階の出力である、複数の推定周波数および帯域幅を受信する。非常に一般的に、モジュール230は、改訂された推定値を生成するために、推定周波数および帯域幅を使用する。一実施形態では、改訂された推定周波数および帯域幅は、本発明の新規の補正方法の結果である。代替実施形態では、それら自体が新規の推定および分析方法の結果である、改訂された推定周波数および帯域幅は、さらなる改良のために後処理モジュール140に渡される。この段階は、図3aおよび3bに関してより詳細に説明される。
一般に、以下でより詳細に説明されるように、分析および補正プロセス230の出力は、音声共鳴を推定するための従来技術のシステムおよび方法と比べて、有意な改善を提供する。本明細書で説明される本発明に従って構成されると、音声処理システムは、人間の音声のより正確な表現を産出し、それに影響することができる。これらのフォルマントを捕捉することの向上した精度は、これらの表現に依存する音声用途において、より良好な性能をもたらす。
より具体的には、本明細書で提示される本発明は、全体を通して複素数を使用する、デジタル的に表された伝達関数の多重オブジェクト並列処理チェーンを用いて、個々の音声共鳴を決定する。音響共鳴の性質に基づいて、本発明は、高い時間分解能で音声共鳴の周波数および帯域幅を抽出するように最適化される。
図3aおよび3bは、デジタル処理構成要素とともに実装される、本発明の実施形態をさらに詳細に図示する。図3aでは、音声分析プロセス130の全て(すなわち、再構成プロセス210、推定器プロセス220、ならびに分析および補正プロセス230)が、単一デジタルプロセッサ130pによって行われる。図3bでは、処理リソースは、前述の音声分析プロセスのそれぞれが、別個のデジタルプロセッサ、すなわち、再構成プロセッサ210p、推定器プロセッサ220p、ならびに分析および補正プロセッサ230によって行われるように、より分散される。当業者は、そのような計算リソースの分散は、主に、計算が行われなければならないスピード対計算処理量を増加させるために複数の構成要素を使用するコスト等の設計上の考慮点に基づくことを理解するであろう。
当業者は、さらなる実施形態が、複素デジタルフィルタ関数310によって表される計算プロセス毎に別個のプロセッサを採用することができ、推定器プロセス320がそれぞれ、別個のプロセッサとして実装されることができることを理解するであろう。別の実施形態は、単一デジタルプロセッサとともに、複素デジタルフィルタ関数310および推定器320の各対合を実装することができる。
概して、音声認識システム100は、上記で説明されるように、音声信号120を生成するように構成される、入力処理プロセス110を含む。図示されるように、再構成モジュール210は、音声信号120を受信する。一実施形態では、音声信号120は、サンプリングされ、デジタル化されたマイクロホンまたはネットワークソースからのデジタル音声信号である。一実施形態では、音声信号120は、精度およびサンプリング周波数において比較的低く、例えば、8ビットサンプリングである。再構成プロセス210は、音響共鳴の一般的モデルを使用して、音響音声共鳴を再構成する。
例えば、音響共鳴は、複素指数関数として数学的にモデル化することができる。
Figure 2016500847
式中、fは、共鳴の周波数(ヘルツ単位)であり、βは、帯域幅(ヘルツ単位)である。慣例により、βは、ほぼ測定可能な半値全幅帯域幅である。さらに、複素音響伝送は、(実)正弦波によって適切に表すことができる。したがって、信号捕捉過程は、複素源の実数(または虚数)部分を取り出すことの同等物であるが、それも瞬間情報を失う。以下でより詳細に説明されるように、再構成モジュール210は、音響音声共鳴の元の複素表現を再生成する。
図示した実施形態では、再構成プロセス210は、複数の複素デジタルフィルタ(CF)310を含む。これらの複素フィルタはそれぞれ、各フィルタの挙動を特徴付ける伝達関数として、デジタル的に実装され、それぞれ、同時に、処理されるデジタル音声信号の各サンプルに計算的に適用される。複素デジタルフィルタ310の一実施形態は、以下の図4に関してより詳細に説明される。概して、再構成プロセス210は、複数の再構成された信号Yを生成し、そのそれぞれは、実数部(Y)および虚数部(Y)を含む。
示されるように、システム100は、図示した実施形態では、そのそれぞれが再構成された信号Yの1つの連続サンプルを受信するように構成される、複数の推定器オブジェクトまたはインスタンス化320を含む、推定器プロセス220を含む。図示した実施形態では、各推定器オブジェクト320は、積分カーネル322を含む。代替実施形態では、プロセス210は、1つ以上の積分カーネル322を伴って構成することができる、推定器オブジェクト320の単一のインスタンス化を含む。代替実施形態では、推定器オブジェクト320は、積分カーネル322を含まない。当業者は、推定器プロセスによって行われる計算が、推定器プロセスのn個のインスタンス化を同時に起動することによって、並行して行われることができることを理解するであろう、用語「オブジェクト」は、便宜上、n個の信号毎の推定器プロセスのこれらの別個のインスタンス化を説明するために使用されるが、そのようなプロセスが、必ずしも、「オブジェクト指向プログラミング」の結果でなければならないことを意図するものではない。
概して、推定器オブジェクト320は、音響共鳴の性質を使用して、再構成された信号に基づく推定瞬時周波数および帯域幅を生成する。上記で説明される複素音響共鳴の式は、非常に単純化形態に分解することができる。
Figure 2016500847
これは、周波数fにおける、帯域幅βを伴う共鳴の場合である。e−at族の式も異なる式によってモデル化することができる。
Figure 2016500847
これは、強制関数xの場合である。x(t)がゼロであり、声門からのインパルスへの声道共鳴のリンギング応答の場合のように、例えば、一実施形態では、システム100は、再構成された共鳴yの2つのサンプルに基づいて、係数aを決定することができ、係数aから、以下でより詳細に説明されるように、周波数および帯域幅を推定することができる。xが変数である、同様に以下でより詳細に説明される代替実施形態で、または騒々しい動作環境中で、システム100は、自己回帰結果を計算して係数aを決定することができる。
図示した実施形態では、各推定器オブジェクト320は、その周波数および帯域幅推定の結果を分析および補正プロセス230に渡す。概して、プロセス230は、複数の瞬時周波数および帯域幅推定値を受信し、以下でより詳細に説明される、ある構成に基づいて、これらの推定値を補正する。
示されるように、モジュール130は、一実施形態では、付加的な処理のためにシステム100が後処理モジュール140に送信する、出力340を産出する。実施形態では、出力340は、複数の周波数および帯域幅である。
したがって、概して、システム100は、複数の音声共鳴を含む音声信号を受信し、音声共鳴を再構成し、瞬時周波数および帯域幅を推定し、さらなる処理、分析、および解釈のために、処理された瞬時周波数および帯域幅情報を後処理モジュール上に渡す。上記で説明されるように、分析および処理の第1の位相は、より詳細に示された、図4の一実施形態の再構成である。
図4は、一実施形態による、複素ガンマトーンデジタルフィルタ310の概念的動作を図示するブロック図である。具体的には、フィルタ310は、入力音声信号120を受信し、音声信号120を2つに二次的入力信号412および414に分割し、二次的入力信号412および414を一連のフィルタ420に通過させる。図示した実施形態では、フィルタ310は、単一の一連のフィルタ420を含む。代替実施形態では、フィルタ310は、図示した一連のフィルタと平行に(一連として)配設される、1つ以上の付加的な一連のフィルタ420を含む。
図示した実施形態では、一連のフィルタ420は、4フィルタ分の長さである。そのように構成されると、第1のフィルタ420の出力は、次のフィルタ420への入力としての機能を果たし、その出力は、次のフィルタ420への入力としての機能を果たす等となる。
一実施形態では、各フィルタ420は、2つのフィルタセクション422および424から成る複素直交フィルタである。図示した実施形態では、フィルタ420は、2つのセクション422および2つのセクション424を伴って示されている。代替実施形態では、フィルタ420は、それぞれ以下で説明されるように動作するように構成される、単一のセクション422および単一のセクション424を含む。一実施形態では、各フィルタセクション422および424は、以下でより詳細に説明される、その入力信号で変換を行うように構成される回路である。各フィルタセクション422および424は、実数出力を産出し、その一方は、フィルタ420の出力の実部に該当し、その他方は、フィルタ420の出力の虚数部に該当する。
一実施形態では、フィルタ420は、有限インパルス応答(FIR)フィルタである。一実施形態では、フィルタ420は、無限インパルス応答(IIR)フィルタである。好ましい実施形態では、一連の4つのフィルタ420は、複素指数関数を伴う四次ガンマ包絡関数である、複素ガンマトーンフィルタである。代替実施形態では、再構成モジュール310は、一連の中のフィルタ420の数に対応する、ガンマ関数の他の次数を伴って構成される。
概して、四次ガンマトーンフィルタインパルス応答は、以下の項、すなわち、
(t)=複素ガンマトーンフィルタn
=フィルタnの帯域幅パラメータ
=フィルタnの中心周波数
の関数であり、以下によって求められる。
Figure 2016500847
したがって、一実施形態では、フィルタ420の出力は、サンプリング周波数におけるN個の複素数の出力である。したがって、複素数値フィルタの使用は、実数信号への複素フィルタの応答も複雑であるため、実数値入力単数をその分析的表現に変換する必要性を排除する。したがって、フィルタ420は、複素ドメインにおいて過程全体を統一するように構成することができるため、フィルタ310は、明確に異なる処理利点を提供する。
また、各フィルタ420は、各フィルタ420に対するフィルタ関数、フィルタ窓関数、フィルタ中心周波数、およびフィルタ帯域幅を含む、いくつかの構成オプションを伴って独立して構成することができる。一実施形態では、フィルタ中心周波数および/またはフィルタ帯域幅は、所定の範囲の周波数および/または帯域幅から選択される。一実施形態では、各フィルタ420は、同じ関数形式を伴って構成される。好ましい実施形態では、各フィルタは、四次ガンマ包絡として構成される。
一実施形態では、各フィルタ420のフィルタ帯域幅およびフィルタ間隔は、全体的な分析精度を最適化するように構成される。したがって、各フィルタのフィルタ窓機能、中心周波数、および帯域幅を特定する能力は、個別に、特に音声信号を分析するよう、フィルタ310を最適化することにおいて有意な融通性を与える。好ましい実施形態では、各フィルタ420は、(500Hzでの飽和を伴う)中心周波数の4分の3の2%中心周波数間隔およびフィルタ帯域幅を伴って構成される。一実施形態では、フィルタ310は、直角位相における一次ガンマトーンフィルタ420のチェーンとして実装される、四次複素ガンマトーンフィルタである。
以下は、四次ガンマトーンフィルタを作成するために一次ガンマトーンフィルタのチェーンを使用することの数学的正当化である。複素入力
Figure 2016500847
について、一次複素ガンマトーンフィルタ420の複素カーネルは、
Figure 2016500847
として表すことができ、
Figure 2016500847
一実施形態では、フィルタセクション422および424は、それぞれ、以下のように入力信号を伴って構成される。
Figure 2016500847
組み合わせられると、出力
Figure 2016500847
を用いて、一次複素ガンマトーンフィルタを実施する。
Figure 2016500847
したがって、一実施形態では、四次複素ガンマトーンフィルタは、一次フィルタ420の4回の反復である。
Figure 2016500847
図示した実施形態では、例えば、各フィルタ420は、一次ガンマトーンフィルタとして構成される。具体的には、フィルタ310は、入力信号120を受信し、受信した信号を指定された実数および虚数信号に分割する。図示した実施形態では、スプリッタ410は、信号120を実数信号412および虚数信号414を分割する。代替実施形態では、スプリッタ410が省略され、フィルタ420が信号120に直接影響する。図示した実施形態では、実数信号412および「虚数」信号414の両方は、入力信号120の複素成分を表す、実数値信号である。
図示した実施形態では、実数信号412は、実数フィルタセクション422および虚数フィルタ424への入力信号である。図示した実施形態では、セクション422は、信号412からGを計算し、セクション424は、信号412からGを計算する。同様に、虚数信号414は、実数フィルタセクション422および虚数フィルタセクション424への入力信号である。図示した実施形態では、セクション422は、信号414からGを計算し、セクション424は、信号414からGを計算する。
示されるように、フィルタ420は、セクション422および424からの出力を組み合わせる。具体的には、フィルタ420は、信号減算器430および信号加算器432を含む。図示した実施形態では、減算器430および加算器432は、セクション422および424からの信号出力を減算または加算するように構成される。当業者は、2つの信号を加算および/または減算するために好適な種々の機構があることを理解するであろう。示されるように、減算器430は、実数フィルタセクション422(信号412が入力される)の出力から虚数フィルタセクション424(信号414が入力される)の出力を減算するように構成される。減算器430の出力は、フィルタ420の出力の実数成分Yである。
同様に、加算器432は、虚数フィルタセクション424(信号412が入力される)の出力を、実数フィルタセクション422(信号414が入力される)の出力に加算するように構成される。加算器432の出力は、フィルタ420の出力の虚数成分Yの実数値である。示されるように、モジュール400は、4つのフィルタ420を含み、その出力は、実数成分440および虚数成分442である。上記で説明されるように、実数成分440および虚数成分442は、さらなる処理および分析のために推定器モジュールに渡される。
前述のフィルタ実装は、デジタルプロセッサによって実行され、複素デジタルフィルタ310の出力を生成する、計算プロセスとして実現され、その計算プロセスの各インスタンス化は、複数のフィルタの帯域幅が、相互に重複され、分析されることになるデジタル音声信号の帯域幅全体の包含を確実にすることができるように、その独自の帯域幅および中心周波数を有することは、当業者によって理解されるであろう。仮想チェーンとして、デジタルフィルタ310の隣接するインスタンス化の帯域幅を重複させることによって、入力音声信号内に含有される共鳴情報が、検出されずに通過することはないであろう。
ここで3aおよび3bに戻ると、システム100の図示した実施形態では、推定器プロセス210は、複数の推定器オブジェクトまたはインスタンス化320を含む。上記で説明されるように、各推定器オブジェクト320は、再構成モジュール210の複素デジタルフィルタ310のうちの1つから実数成分(Y)および(実数値の)虚数成分(Y)を受信する。一実施形態では、各推定器オブジェクト320は、その推定器オブジェクト320への入力を生成した特定の複素デジタルフィルタ310の構成を受信するか、またはそうでなければ認識する。一実施形態では、各推定器オブジェクト320は、複素フィルタ310と関連付けられ、フィルタ関数、フィルタ中心周波数、およびフィルタ帯域幅を含む、複素フィルタ310の構成設定を認識する。
図示した実施形態では、各推定器オブジェクト320はまた、付加的計算プロセスを各推定器オブジェクト320によって行われるものに追加する、積分カーネル322も含む。代替実施形態では、各推定器オブジェクト320は、積分カーネル322なしで動作する。一実施形態では、少なくとも1つの積分カーネル322は、二次ガンマIIRフィルタである。概して、各積分カーネル322は、入力として実数および虚数成分を受信するように、および受信した入力に基づいてゼロ遅れ遅延および変数遅れ遅延を計算するように構成される。
各推定器オブジェクト320は、以下で説明される方法を使用して、一式の積を形成して周波数および帯域幅を推定するために、フィルタ処理信号の変数遅延を使用する。推定器オブジェクト320のいくつかの実施形態があり、例えば、推定器オブジェクト320は、図示されるように、積分カーネル322を含有してもよい。明確にするために、増加するレベルの複雑性を伴うシステムの3つの代替的実施形態が、ここで紹介されている。
第1の実施形態では、各推定器オブジェクト320は、積分カーネル322がない入力音声信号120の音声共鳴の推定周波数および推定帯域を生成する。推定周波数および帯域幅は、推定器オブジェクト320と関連付けられるCF310からの現在のフィルタ処理信号出力と、そのフィルタ処理信号出力の単一遅れ遅延のみに基づく。一実施形態では、複数のフィルタ310および関連推定器オブジェクト320は、各時間サンプルにおいて複数の推定周波数および帯域幅を生成する。
第2の実施形態では、各推定器オブジェクト320は、積分積集合を形成する積分カーネル322を含む。積分積集合に基づいて、推定器オブジェクト320は、入力音声信号120の音声共鳴の推定周波数および推定帯域を生成する。各積分カーネル322は、フィルタ処理信号出力および積分の長さに対するフィルタ処理信号出力の単一遅延の積を更新することによって、積分積集合を形成する。一実施形態では、複数のフィルタ310および関連推定器オブジェクト320は、積分カーネル322によって経時的に平滑化される、各時間サンプルにおける複数の推定周波数および帯域幅を生成する。
第3の実施形態では、積分積集合は、積分積集合の中の積の数を増加させる、少なくとも2の遅れ複素積を有する。これら3つの実施形態は、以下でより詳細に説明される。
上記で紹介される第1の実施形態では、推定器オブジェクト320は、積分カーネル322を用いずにCF310の出力を使用して、単一遅れ積集合を算出する。この実施形態では、各時点で単一の共鳴を抽出し、単一遅延を使用して入力音声信号102の瞬時周波数および帯域幅を求めるために、yがCF310の複素出力である、積集合
Figure 2016500847
が使用される。推定器オブジェクト320は、以下の式を使用して、単一遅れ積集合を伴う瞬時周波数
Figure 2016500847
および瞬時帯域幅
Figure 2016500847
を算出する。
Figure 2016500847
式中、dtは、サンプリング間隔である。好ましい実施形態では、1つ以上の推定器オブジェクト320は、各CF310出力に基づいて、単一遅れ積集合から瞬時周波数および帯域幅を計算する。
代替実施形態(例えば、上記で紹介される第2および第3の実施形態)では、推定器オブジェクト320は、積分カーネル322を使用して、変数遅延の積分積集合を算出する。積分積集合は、入力音声信号102の音声共鳴の瞬時周波数および帯域幅を算出するために使用される。好ましい実施形態では、1つ以上の推定器オブジェクト320は、各CF310出力に基づいて積分積集合を計算する。
推定器オブジェクト320の積分積集合は、実施形態に応じて、ゼロ遅れ積、単一遅れ積、および少なくとも2の遅れ積を含むことができる。これらの実施形態では、積分積集合は、以下の定義を伴う積分積行列として構成される。
Ф(t)=N遅延を伴う積分積行列
φm,n(t)=遅延m,n≦Nを伴う積分積行列要素
y=再構成モジュール210におけるCF312の複素信号出力
k=推定器モジュール320内の積分カーネル322
推定器オブジェクト320は、各サンプリング時間に積分積行列の要素を更新し、時間積分は、長さlの積分カーネルk[τ]上で各要素について別々に行われる。
Figure 2016500847
N遅延を伴う全積分積集合は、N+1×N+1行列である。
Figure 2016500847
したがって、1という最大遅延(すなわち、単一遅れ)について、積分積集合は、2×2行列である。
Figure 2016500847
したがって、要素φ0,0は、ゼロ遅れ複素積であり、要素φ0,1、φ1,1、およびφ1,0は、単一遅れ複素積である。加えて、2という最大遅延(すなわち、少なくとも2の遅れ)について、積分積集合は、上記からのゼロ遅れおよび単一遅れ積、ならびに2遅れ積の付加的な列および行、φ0,2、φ1,2、φ2,2、φ2,1、およびφ2,0から成る、3×3行列である。概して、付加的な遅れは、後続の周波数および帯域幅推定値の精密度を向上させる。当業者は、付加的な遅れによって獲得される精密度と、付加的な要素を算出するために必要とされる力/時間との間に、計算的トレードオフがあることを理解するであろう。
この実施形態では、推定器オブジェクト320は、積分積集合を計算するために時間積分を使用するように構成される。概して、複素時間積分は、音声共鳴の推定値の融通の利く最適化を提供する。例えば、時間積分は、声門強制とは無関係に、声門期間にわたる共鳴推定値を平均して、より正確な共鳴値を得るために使用することができる。
関数kは、応答速度を保ちながら信号対雑音比を最適化するように選択される。好ましい実施形態では、積分カーネル322は、二次ガンマ関数としてkを構成する。一実施形態では、積分カーネル322は、二次ガンマIIRフィルタである。代替実施形態では、積分カーネル322は、その他の点では従来的なFIRまたはIIRフィルタである。
上記で紹介される、単一遅延積分積集合を伴う第2の実施形態では、推定器オブジェクト320は、以下の式を用いて、単一遅延積分積行列の要素を使用して瞬時周波数
Figure 2016500847
および瞬時帯域幅
Figure 2016500847
を計算する。
Figure 2016500847
この実施形態では、
Figure 2016500847
は、共鳴の極モデルと関連付けられる推定帯域である。当業者は、他のモデルも採用できることを理解するであろう。
周波数および帯域幅推定のためのこれらの式は、上記で説明される第1の実施形態における式と同等であり、積分窓kは、クロネッカーのデルタ関数として構成され、本質的に積分カーネルを除去し、同等の積行列要素をもたらすことに留意されたい。
Figure 2016500847
上記で紹介される第3の実施形態では、推定器モジュール320は、各サンプル時間で複素フィルタにつきより多くの共鳴の性質を推定するために、付加的な遅延を伴う積分積集合を使用する。これは、密接に離間した共鳴を検出する際に使用することができる。
要約すれば、再構成モジュール310は、音響音声信号の近似複素再構成を提供する。推定器オブジェクト320は、概して、音響共鳴の性質に部分的に基づいて、共鳴の瞬時周波数および帯域幅を算出するために、モジュール310の出力である再構成信号を使用する。
図示した実施形態では、分析および補正モジュール330は、複数の推定周波数および帯域幅ならびに推定器オブジェクト320からの積集合を受信する。概して、分析および補正モジュール330は、回帰分析を使用して、周波数および帯域幅計算の誤差推定値を提供する。分析および補正モジュールは、さらなる処理、分析、および解釈のための1つ以上の補正周波数および帯域幅推定値340を生成するために、認識モジュール310の中のフィルタの性質を使用する。
一実施形態では、分析および補正モジュール230は、複素自動回帰問題として積分積集合の出力を処理する。つまり、モジュール330は、適合の統計的尺度を加算して、複素音響共鳴の最良の差分式モデルを算出する。より具体的には、一実施形態では、分析および補正モジュール330は、以下の式を用いて、複素ドメインの中の回帰分析の性質を使用して推定オブジェクト320から誤差推定値を計算する。
Figure 2016500847
誤差rは、周波数推定値の適合度の尺度である。一実施形態では、モジュール330は、共鳴に起因するものに対比して、雑音に起因する瞬時周波数を識別するためにrを使用する。推定値の精度を増大させる際のこの情報の使用は、以下で論議される。
誤差推定値に加えて、分析および補正モジュール230の実施形態はまた、1つ以上の推定器オブジェクト320からの推定値を使用することによって、共鳴の補正瞬時帯域幅を推定する。好ましい実施形態では、モジュール230は、中心周波数において密接に離間した対応する複素フィルタ312を用いて推定器オブジェクト320によって決定されるような、複数対の周波数推定値を使用して、補正瞬時帯域幅を推定する。概して、この推定値は、上記で説明される単一フィルタベースの推定値よりも良好に共鳴の帯域幅を概算する。
具体的には、モジュール230は、2つの隣接する推定器モジュールにわたる中心周波数の変化に対する周波数推定値の差を使用して、より正確な帯域幅推定値を計算するように構成することができる。
Figure 2016500847
第nの推定器モジュール320からの補正瞬時帯域幅推定値
Figure 2016500847
は、以下の式を用いて、対応する複素フィルタ312の選択された帯域幅bを使用して推定することができる。
Figure 2016500847
式中、一実施形態では、実験的に求められる好ましい係数は、以下の通りである。
Figure 2016500847
具体的には各CF310が複素ガンマトーンフィルタである、一実施形態では、部分的に複素フィルタ310の非対称周波数応答により、推定瞬時周波数を元の共鳴の正確な値から歪曲され得る。したがって、モジュール230は、推定器オブジェクト320に由来する推定瞬時周波数の誤差を補正するために、上記で説明される手順を使用して得られる補正帯域幅推定値を使用するように構成することができる。例えば、一実施形態では、中心周波数f、帯域幅b、および未補正周波数推定値
Figure 2016500847
を伴うCF310の場合、周波数推定値補正のための最良適合式は、以下となる。
Figure 2016500847
式中、
Figure 2016500847
は、フィルタ帯域幅に対する推定共鳴帯域幅の比である。一実施形態では、定数は実験的に求められる。例えば、b<500である場合、以下となる。
Figure 2016500847
b=500の場合、以下となる。
Figure 2016500847
したがって、分析および補正プロセス230は、推定器オブジェクト320によって生成される推定共鳴周波数および帯域幅の精度を向上させるように構成することができる。したがって、向上した推定値を音声認識処理および解釈のために転送することができ、推定値に対する向上した結果は、従来技術のアプローチによって生成される。
例えば、一実施形態では、後処理モジュール140は、分析および補正モジュール230から受信される複数の推定値に閾値化演算を行う。一実施形態では、閾値化演算は、信号対雑音性能を向上させるために、所定の範囲外の推定値を破棄する。一実施形態では、モジュール140は、過剰決定されたデータ集合を低減するように、受信した推定値を合計する。当業者は、モジュール140は、他の好適な後処理演算を採用するように構成できることを理解するであろう。
したがって、概して、システム100は、上記で説明される音声信号過程および分析の3つ全ての段階、すなわち、再構成、推定、および分析/補正を行うように構成することができる。以下のフロー図は、これらの段階をさらに詳細に説明する。ここで図5を参照すると、図示した過程は、音声認識システムが音声信号を受信する、入力補正および前処理段階において、ブロック505から始まる。例えば、再構成プロセス210は、(図2の)入力処理モジュール110から音声信号を受信する。
次に、過程は、処理および分析段階に入る。具体的には、ブロック510で示されるように、再構成プロセス210が受信した音声信号を再構成する。次に、ブロック515で示されるように、推定器プロセス210は、再構成された音声信号の音声共鳴の周波数および帯域幅を推定する。次に、ブロック520で示されるように、分析および補正プロセス230は、音声共鳴の推定周波数および帯域幅に分析ならびに補正演算を行う。
次に、過程は、後処理段階に入る。具体的には、ブロック525で示されるように、後処理モジュール140は、音声共鳴の補正周波数および帯域幅に後処理を行う。この過程の特定の実施形態は、以下でより詳細に説明される。
ここで図6を参照すると、図示した過程は、上記のようにブロック505から始まる。次に、ブロック610で示されるように、再構成プロセス210は、ブロック505で説明されるように受信される、受信した音声信号の音声共鳴信号に基づいて、複数のフィルタ処理信号を生成する。好ましい実施形態では、複数のフィルタ処理信号のそれぞれは、上記で説明されるように(実数および複素)音声信号である。
次に、ブロック615で示されるように、推定器プロセス210は、ブロック610で説明されるように生成される、フィルタ処理信号のうちの1つを選択する。次に、ブロック620で示されるように、推定器プロセス210は、選択したフィルタ処理信号の音声共鳴の単一遅れ遅延を生成する。
次に、ブロック625で示されるように、推定器プロセス210は、フィルタ処理信号および選択したフィルタ処理信号の単一遅れ遅延に基づいて、音声共鳴の第1の推定周波数を生成する。次に、ブロック630で示されるように、推定器プロセス210は、フィルタ処理信号および選択したフィルタ処理信号の単一遅れ遅延に基づいて、音声共鳴の第1の推定帯域を生成する。したがって、図6のフロー図は、音声信号の音声共鳴の推定周波数および帯域幅を生成する過程を説明する。
ここで図7を参照すると、図示した過程は、ブロック505、610、および615で示されるように、上記で説明されるように進む。次に、ブロック720で示されるように、推定器プロセス210は、ブロック615で説明されるように選択される、フィルタ処理信号に基づいて、少なくとも1つのゼロ遅れ積分複素積を生成する。次に、ブロック725で示されるように、推定器プロセス210は、選択したフィルタ処理信号に基づいて、少なくとも1つの単一遅れ積分複素積を生成する。
次に、ブロック730で示されるように、推定器プロセス210は、ゼロ遅れおよび単一遅れ積分複素積に基づいて、第1の推定周波数を生成する。次に、ブロック735で示されるように、推定器プロセス210は、ゼロ遅れおよび単一遅れ積分複素積に基づいて、第1の推定帯域を生成する。
ここで図8を参照すると、図示した過程は、ブロック505、610、615、および720で示されるように、上記で説明されるように進む。次に、ブロック825で示されるように、推定器プロセス210は、選択したフィルタ処理信号に基づいて、少なくとも1つの少なくとも2の遅れ積分複素積を生成する。
次に、ブロック830で示されるように、推定器プロセス210は、ゼロ遅れおよび少なくとも2の遅れ積分複素積に基づいて、第1の推定周波数を生成する。次に、ブロック835で示されるように、推定器プロセス210は、ゼロ遅れおよび少なくとも2の遅れ積分複素積に基づいて、第1の推定帯域を生成する。
ここで図9を参照すると、図示した過程は、ブロック505で示されるように、上記で説明されるように始まる。次に、ブロック910で示されるように、再構成プロセス210は、第1および第2の帯域幅を選択する。上記で説明されるように、一実施形態では、再構成プロセス210は、第1の複素フィルタを構成するために使用される第1の帯域幅、および第2の複素フィルタを構成するために使用される第2の帯域幅を選択する。
次に、ブロック915で示されるように、再構成プロセス210は、第1および第2の中心周波数を選択する。上記で説明されるように、一実施形態では、再構成プロセス210は、第1の複素フィルタを構成するために使用される第1の中心周波数および第2の複素フィルタを構成するために使用される第2の中心周波数を選択する。次に、ブロック920で示されるように、再構成プロセス210は、第1および第2のフィルタ処理信号を生成する。上記で説明されるように、一実施形態では、第1のフィルタは、第1のフィルタ処理信号を生成し、第2のフィルタは、第2のフィルタ処理信号を生成する。
次に、ブロック925で示されるように、推定器プロセス210は、第1および第2の推定周波数を生成する。上記で説明されるように、一実施形態では、推定器プロセス210は、第1のフィルタ処理信号に基づいて第1の推定周波数を生成し、第2のフィルタ処理信号に基づいて第2の推定周波数を生成する。
次に、ブロック930で示されるように、推定器プロセス210は、第1および第2の推定帯域を生成する。上記で説明されるように、一実施形態では、推定器プロセス210は、第1のフィルタ処理信号に基づいて第1の推定帯域を生成し、第2のフィルタ処理信号に基づいて第2の推定帯域を生成する。
次に、ブロック935で示されるように、分析および補正プロセス230は、第1および第2の推定周波数、第1および第2の中心周波数、ならびに第1の選択された帯域幅に基づいて、第3の推定帯域を生成する。次に、ブロック940で示されるように、分析および補正プロセス230は、第3の推定帯域、第1の推定周波数、第1の中心周波数、および第1の選択された帯域幅に基づいて、第3の推定周波数を生成する。
請求されるような本発明の精神および範囲から逸脱することなく、他の修正および実装が当業者に想起されるであろう。したがって、上記の説明は、以下の請求項に示されるものを除いて、本発明を限定することを目的としていない。

Claims (38)

  1. 音声内容をデジタル音声信号から抽出するための音声処理システムであって、前記音声内容は、少なくとも1つのフォルマントによって特徴付けられ、前記少なくとも1つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも1つのフォルマントのうちの1つ以上についてのシーケンスを含み、前記音声処理システムは、
    少なくとも1つのデジタルプロセッサ
    を含み、前記少なくとも1つのデジタルプロセッサは、少なくとも1つの読み取り可能な記憶媒体上に記憶される命令でプログラムされ、前記少なくとも1つのデジタルプロセッサによる前記命令の実行は、前記少なくとも1つのデジタルプロセッサに、
    前記デジタル音声信号から、前記少なくとも1つのフォルマントのうちの1つ以上の前記シーケンスのそれぞれ1つを抽出することであって、前記抽出することは、
    複数の複素デジタルフィルタを使用して、前記デジタル音声信号をフィルタ処理することであって、前記複数のデジタルフィルタは、そのデジタルフィルタ処理機能を並行して行うように実装され、前記デジタルフィルタはそれぞれ、前記デジタル音声信号の総帯域幅の増分部分を包含する所定の帯域幅を有し、各所定の帯域幅は、前記所定の帯域幅の少なくとも1つの他の帯域幅と重複し、前記複素デジタルフィルタはそれぞれ、複数の複素デジタルフィルタ処理信号のうちの1つを生成し、前記複素デジタルフィルタ処理信号はそれぞれ、実数成分および虚数成分を含む、ことと、
    前記複数のデジタルフィルタ処理信号のそれぞれの単一遅れ遅延と組み合わせて前記複数のデジタルフィルタ処理信号のそれぞれから形成される積集合を使用して、前記複数のデジタルフィルタ処理信号のそれぞれから推定瞬時周波数および推定瞬時帯域幅を生成することと、
    前記推定瞬時周波数および推定瞬時帯域幅に基づいて、前記少なくとも1つのフォルマントのうちの1つとして、前記デジタル音声信号の1つ以上のフォルマントの前記シーケンスのそれぞれを識別することと
    をさらに含む、ことと、
    前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の音声内容を再構成することと
    を含む方法を行わせる、音声処理システム。
  2. 前記複数の複素デジタルフィルタの前記重複する所定の帯域幅は、まとめると、実質的に、前記デジタル音声信号の前記帯域幅に及ぶ、請求項1に記載の音声処理システム。
  3. 前記複数の複素デジタルフィルタのうちの少なくとも1つは、有限インパルス応答(FIR)フィルタの特性を示す、請求項1に記載のデジタル音声処理システム。
  4. 前記複数の複素デジタルフィルタのうちの少なくとも1つは、無限インパルス応答(IIR)フィルタの特性を示す、請求項1に記載の音声処理システム。
  5. 前記複数の複素デジタルフィルタのうちの少なくとも1つは、ガンマトーンフィルタの特性を示す、請求項1に記載の音声処理システム。
  6. 前記複素デジタルフィルタのそれぞれの前記所定の帯域幅はさらに、所定の中心周波数によって特徴付けられ、前記複素デジタルフィルタの前記所定の中心周波数は、それと重複する所定の帯域幅を有する前記複数の複素デジタルフィルタのうちの少なくとも1つの所定の中心周波数から所定の中心周波数間隔だけ分離されている、請求項1に記載の音声処理システム。
  7. 前記所定の中心周波数間隔は、約2%である、請求項6に記載の音声処理システム。
  8. 前記複数の複素フィルタのそれぞれの前記所定の帯域幅は、その所定の中心周波数の約0.75である、請求項7に記載の音声処理システム。
  9. 前記少なくとも1つのデジタルプロセッサは、汎用マイクロプロセッサである、請求項1に記載の音声処理システム。
  10. 前記少なくとも1つのデジタルプロセッサは、前記フィルタ処理することおよび前記推定することに固有の特定の計算を取り扱うように設計された計算リソースを有するデジタル信号プロセッサ(DSP)である、請求項1に記載の音声処理システム。
  11. 前記生成することはさらに、所定の期間にわたって、前記複数のデジタルフィルタ処理信号の各々に対して形成される前記積集合を積分することにより、デジタルフィルタ処理信号の各々に対して前記推定瞬時周波数および前記瞬時帯域幅を生成することを含む、請求項1に記載の音声処理システム。
  12. 前記生成することはさらに、前記複素デジタルフィルタのうちの1つによって生成された前記デジタルフィルタ処理信号の各1つに対して、前記推定瞬時帯域幅を補正することを含み、前記補正することはさらに、
    補正される前記デジタルフィルタ処理信号を生成した前記デジタルフィルタのうちの1つの帯域幅に重複する帯域幅を有するデジタルフィルタによって生成される前記デジタルフィルタ処理信号の2つに対する前記推定瞬時周波数間の差異を決定することと、
    前記決定された差異を前記所定の中心周波数間隔で除算することと
    を含む、請求項6に記載の音声処理システム。
  13. 音声内容をデジタル音声信号から抽出するための音声処理システムであって、前記音声内容は、少なくとも1つのフォルマントによって特徴付けられ、前記少なくとも1つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも1つのフォルマントのうちの1つ以上についてのシーケンスを含み、前記音声処理システムは、
    少なくとも1つのデジタルプロセッサ
    を含み、前記少なくとも1つのデジタルプロセッサは、少なくとも1つの読み取り可能な記憶媒体上に記憶される命令でプログラムされ、前記少なくとも1つのデジタルプロセッサによる前記命令の実行は、前記少なくとも1つのデジタルプロセッサに、
    前記デジタル音声信号から、フォルマントの前記シーケンスのそれぞれ1つを抽出することであって、前記抽出することは、
    重複帯域幅を伴って実装される複数の複素デジタルフィルタを用いて、前記音声共鳴信号をフィルタ処理することにより、仮想並列処理チェーンを形成し、実数成分および虚数成分を有する複数の複素デジタルフィルタ処理信号を生成することと、
    積分カーネルを使用して、前記複数の複素デジタルフィルタ処理信号の各々に対して、積分積集合を形成することであって、前記積分積集合は、少なくとも1つのゼロ遅れ複素積および少なくとも1つの単一遅れ複素積を有する、ことと、
    前記積分積集合のそれぞれから、推定瞬時周波数および推定瞬時帯域幅を生成することと、
    前記推定瞬時周波数および推定瞬時帯域幅に基づいて、前記少なくとも1つのフォルマントのうちの1つとして、前記デジタル音声信号の1つ以上のフォルマントの前記シーケンスのそれぞれを識別することと
    をさらに含む、ことと、
    前記識別されたフォルマントのシーケンスに基づいて、前記デジタル音声信号の前記音声内容を再構成することと
    を含む方法を行わせる、音声処理システム。
  14. 前記仮想並列処理チェーンの前記複数の複素デジタルフィルタのうちの少なくとも1つは、有限インパルス応答(FIR)フィルタの特性を示す、請求項13に記載の音声処理システム。
  15. 前記仮想並列処理チェーンの前記複数の複素デジタルフィルタのうちの少なくとも1つは、無限インパルス応答(IIR)フィルタの特性を示す、請求項13に記載の音声処理システム。
  16. 前記仮想並列処理チェーンの前記複数の複素デジタルフィルタのうちの少なくとも1つは、ガンマトーンフィルタの特性を示す、請求項13に記載の音声処理システム。
  17. 前記複数の複素デジタルフィルタは、そのデジタルフィルタ処理機能を並行して行うように実装され、
    前記複数の複素デジタルフィルタは、まとめると実質的に前記デジタル音声信号の前記帯域幅に及ぶ重複帯域幅を有するように実装される、請求項13に記載の音声処理システム。
  18. 前記複素デジタルフィルタはそれぞれ、所定の帯域幅および所定の中心周波数によって特徴付けられ、前記複素デジタルフィルタのそれぞれの所定の中心周波数は、前記仮想処理チェーンにおいて前記複素デジタルフィルタに隣接する複数の複素デジタルフィルタの前記所定の中心周波数から分離されている、請求項13に記載の音声処理システム。
  19. 前記複素デジタルフィルタの重複帯域幅間の前記所定の中心周波数の間隔は、約2%である、請求項18に記載の音声処理システム。
  20. 前記並列処理チェーンを形成する前記複素デジタルフィルタのそれぞれの前記所定の帯域幅は、その所定の中心周波数の0.75である、請求項18に記載の音声処理システム。
  21. 前記積分カーネルは、二次ガンマIIRフィルタの特性を示す、請求項13に記載の音声処理システム。
  22. 前記積分積集合は、前記少なくとも1つの単一遅れ複素積の代わりに、少なくとも1つのゼロ遅れ複素積および少なくとも1つの2以上遅れ複素積を有する、請求項13に記載の音声処理システム。
  23. 前記生成することはさらに、所定の期間にわたって、前記複数のデジタルフィルタ処理信号の各々に対して形成される前記積集合を積分することにより、デジタルフィルタ処理信号の各々に対して前記推定瞬時周波数および前記瞬時帯域幅を生成することを含む、請求項13に記載の音声処理システム。
  24. 前記生成することはさらに、前記複素デジタルフィルタのうちの1つによって生成された前記デジタルフィルタ処理信号の各1つに対して、前記推定瞬時帯域幅を補正することを含み、前記補正ことはさらに、
    補正される前記デジタルフィルタ処理信号を生成した前記デジタルフィルタのうちの1つの帯域幅に重複する帯域幅を有するデジタルフィルタによって生成される前記デジタルフィルタ処理信号の2つに対する前記推定瞬時周波数間の差異を決定することと、
    前記決定された差異を前記所定の中心周波数間隔で除算することと
    を含む、請求項18に記載の音声処理システム。
  25. デジタル化された音声信号内の音声内容を抽出するための装置であって、前記音声内容は、少なくとも1つのフォルマントによって特徴付けられ、前記少なくとも1つのフォルマントはそれぞれ、瞬時周波数および瞬時帯域幅によって特徴付けられ、前記音声信号は、前記少なくとも1つのフォルマントのうちの1つ以上のシーケンスを含み、前記装置は、
    前記デジタル音声信号のサンプルを受信し、それに対して動作するようにプログラム命令によって構成された再構成プロセッサであって、前記再構成プロセッサは、複数の複素デジタルフィルタを計算的に実装し、前記複数の複素デジタルフィルタは、前記デジタル音声信号の各サンプルに対して、並行してその処理を行うように実装され、前記複素デジタルフィルタはそれぞれ、前記複数の複素フィルタの少なくとも1つの他のフィルタの帯域幅と重複する帯域幅によって特徴付けられ、前記複素デジタルフィルタはそれぞれ、出力として、複数のデジタルフィルタ処理信号のうちの1つを生成し、前記デジタルフィルタ処理信号はそれぞれ、処理された前記デジタル音声信号の各サンプルに対する離散(discreet)値を備え、前記デジタルフィルタ処理信号はそれぞれ、実数成分および虚数成分を含む、再構成プロセッサと、
    前記再構成プロセッサから前記複数のデジタルフィルタ処理信号を受信するようにプログラム命令によって構成された推定器プロセッサであって、前記推定器プロセッサは、推定器オブジェクトを計算的に実装し、前記推定器オブジェクトは、前記生成されたデジタルフィルタ処理信号の1つ毎にインスタンス化され、前記推定器オブジェクトの各インスタンス化は、前記複数のデジタルフィルタ処理信号のそれぞれから形成される積集合を使用して、前記複数のデジタルフィルタ処理信号のそれぞれから、推定瞬時周波数および推定瞬時帯域幅を生成するように構成されている、推定器プロセッサと、
    前記推定器プロセッサから、前記複数のデジタルフィルタ処理信号の各々に対する前記推定瞬時周波数および瞬時帯域幅推定値を受信するようにプログラム命令によって構成された後処理プロセッサであって、前記後処理プロセッサはさらに、前記複数のフィルタ処理信号の前記受信した推定瞬時周波数および推定瞬時帯域幅に基づいて、前記デジタル音声信号の1つ以上のフォルマントの前記シーケンスのそれぞれを前記少なくとも1つのフォルマントのうちの1つとして識別するようにプログラム命令によって構成され、前記後処理プロセッサはまた、前記識別されたフォルマントを使用して、前記デジタル音声信号の前記音声内容を再構成するようにプログラム命令によって構成されている、後処理プロセッサと
    を備える、装置。
  26. 前記推定器オブジェクトの各インスタンス化はさらに、計算的に実装された積分カーネルを含み、前記積分カーネルは、所定の期間にわたって、前記複数のフィルタ処理信号の各々に対して形成される前記積集合を積分し、フィルタ処理信号の各々に対して前記推定瞬時周波数および前記瞬時帯域幅を生成するように構成されている、請求項25に記載の装置。
  27. 前記積分カーネルは、二次ガンマIIRフィルタの特性を示す、請求項26に記載の装置。
  28. 前記複数のデジタルフィルタ処理信号のそれぞれからの前記推定瞬時周波数および前記推定瞬時帯域幅は、前記複数のデジタルフィルタ処理信号のそれぞれの少なくとも1つの単一遅れ遅延と組み合わせて、前記複数のフィルタ処理信号のそれぞれから前記推定器オブジェクトによって形成される積集合を使用して生成される、請求項26に記載の装置。
  29. 前記複数のデジタルフィルタ処理信号のそれぞれからの前記推定瞬時周波数および前記推定瞬時帯域幅は、前記複数のデジタルフィルタ処理信号のそれぞれの2以上遅れ遅延と組み合わせて、前記複数のフィルタ処理信号のそれぞれから前記推定器オブジェクトによって形成される積集合を使用して生成される、請求項26に記載の装置。
  30. 前記再構成プロセッサによって計算的に実装される前記複素デジタルフィルタのうちの少なくとも1つは、ガンマトーンフィルタの特性を示す、請求項25に記載の装置。
  31. 前記複素デジタルフィルタはそれぞれ、所定の帯域幅および所定の中心周波数を含み、前記複素デジタルフィルタのそれぞれの所定の中心周波数は、それと重複する帯域幅を有するそれらの複素デジタルフィルタの前記所定の中心周波数から所定の中心周波数間隔だけ分離されている、請求項25に記載の装置。
  32. 前記所定の中心周波数間隔は、約2%である、請求項30に記載の装置。
  33. 前記複素デジタルフィルタのそれぞれの前記所定の帯域幅は、その所定の中心周波数の約0.75である、請求項32に記載の装置。
  34. 前記推定器プロセッサはさらに、前記推定器プロセッサから、前記推定瞬時周波数および前記推定瞬時帯域幅を受信する補正プロセスを実装するように構成され、前記補正プロセスは、前記所定の中心周波数間隔で除算された、前記チェーンにおける2つの隣接する複素フィルタに対する前記推定瞬時周波数間の差異を使用して、前記フィルタ処理信号の各々に対する補正された推定瞬時帯域幅を前記後処理モジュールに提供する、請求項31に記載の装置。
  35. 前記補正プロセスはさらに、前記フィルタ処理信号毎に補正された帯域幅を最良適合式に当てはめることによって、前記フィルタ処理信号毎に補正された推定瞬時周波数を前記後処理プロセッサに提供する、請求項34に記載の装置。
  36. 前記再構成プロセッサ、前記推定器プロセッサ、および前記後処理プロセッサは、1つ以上のデジタルプロセッサとして実装されている、請求項25に記載の装置。
  37. 前記1つ以上のデジタルプロセッサのうちの少なくとも1つは、汎用マイクロプロセッサである、請求項25に記載の装置。
  38. 前記再構成プロセッサ、前記推定器プロセッサ、および前記後処理プロセッサは、1つ以上のDSP構成要素として実装される、請求項25に記載の装置。
JP2015539586A 2012-10-31 2013-08-16 デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム Pending JP2016500847A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/665,486 US9311929B2 (en) 2009-12-01 2012-10-31 Digital processor based complex acoustic resonance digital speech analysis system
US13/665,486 2012-10-31
PCT/US2013/055347 WO2014070283A1 (en) 2012-10-31 2013-08-16 A digital processor based complex acoustic resonance digital speech analysis system

Publications (1)

Publication Number Publication Date
JP2016500847A true JP2016500847A (ja) 2016-01-14

Family

ID=50548148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015539586A Pending JP2016500847A (ja) 2012-10-31 2013-08-16 デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム

Country Status (5)

Country Link
US (1) US9311929B2 (ja)
EP (1) EP2915167A4 (ja)
JP (1) JP2016500847A (ja)
IL (1) IL237020B (ja)
WO (1) WO2014070283A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102032365B1 (ko) * 2016-05-03 2019-10-16 한국전자통신연구원 디지털 rf 신호 수신 장치 및 방법
US10193683B2 (en) 2016-07-20 2019-01-29 Intel Corporation Methods and devices for self-interference cancelation
US11223376B2 (en) * 2017-02-27 2022-01-11 Apple Inc. Frequency dependent envelope tracking
CN111245399B (zh) * 2020-02-14 2023-06-23 北京数码视讯软件技术发展有限公司 抑制窄带干扰的滤波器的设计方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124696A (ja) * 1997-07-01 1999-01-29 Atr Ningen Joho Tsushin Kenkyusho:Kk 信号分析方法および信号分析装置
JP2007156337A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム
US20110131039A1 (en) * 2009-12-01 2011-06-02 Kroeker John P Complex acoustic resonance speech analysis system

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL188189C (nl) * 1979-04-04 1992-04-16 Philips Nv Werkwijze ter bepaling van stuursignalen voor besturing van polen van een louter-polen filter in een spraaksynthese-inrichting.
CA1250368A (en) * 1985-05-28 1989-02-21 Tetsu Taguchi Formant extractor
JP3417880B2 (ja) * 1999-07-07 2003-06-16 科学技術振興事業団 音源情報の抽出方法及び装置
US6577968B2 (en) 2001-06-29 2003-06-10 The United States Of America As Represented By The National Security Agency Method of estimating signal frequency
KR20040001131A (ko) 2002-06-27 2004-01-07 주식회사 하이닉스반도체 반도체소자의 제조방법
US7624195B1 (en) 2003-05-08 2009-11-24 Cisco Technology, Inc. Method and apparatus for distributed network address translation processing
US6970547B2 (en) 2003-05-12 2005-11-29 Onstate Communications Corporation Universal state-aware communications
US7522594B2 (en) 2003-08-19 2009-04-21 Eye Ball Networks, Inc. Method and apparatus to permit data transmission to traverse firewalls
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint
KR20050072976A (ko) 2004-01-08 2005-07-13 주식회사 팬택 이동통신 단말기의 통화감도 개선용 도금구조
KR100600628B1 (ko) 2004-08-06 2006-07-13 주식회사 케이티 통화 시스템 및 통화 연결 방법
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
KR100634526B1 (ko) * 2004-11-24 2006-10-16 삼성전자주식회사 포만트 트래킹 장치 및 방법
US7457756B1 (en) 2005-06-09 2008-11-25 The United States Of America As Represented By The Director Of The National Security Agency Method of generating time-frequency signal representation preserving phase information
US7492814B1 (en) 2005-06-09 2009-02-17 The U.S. Government As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal using peak picking
JP4766976B2 (ja) 2005-09-29 2011-09-07 富士通株式会社 ノード間接続方法及び装置
US20070112954A1 (en) 2005-11-15 2007-05-17 Yahoo! Inc. Efficiently detecting abnormal client termination
KR100731330B1 (ko) 2006-02-10 2007-06-21 두산중공업 주식회사 용융탄산염 연료전지의 분리판 및 그의 제조방법
US8150065B2 (en) * 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
EP1930879B1 (en) * 2006-09-29 2009-07-29 Honda Research Institute Europe GmbH Joint estimation of formant trajectories via bayesian techniques and adaptive segmentation
JP4469883B2 (ja) * 2007-08-17 2010-06-02 株式会社東芝 音声合成方法及びその装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124696A (ja) * 1997-07-01 1999-01-29 Atr Ningen Joho Tsushin Kenkyusho:Kk 信号分析方法および信号分析装置
JP2007156337A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム
US20110131039A1 (en) * 2009-12-01 2011-06-02 Kroeker John P Complex acoustic resonance speech analysis system

Also Published As

Publication number Publication date
US9311929B2 (en) 2016-04-12
EP2915167A1 (en) 2015-09-09
EP2915167A4 (en) 2016-07-20
IL237020B (en) 2018-10-31
US20140122067A1 (en) 2014-05-01
WO2014070283A1 (en) 2014-05-08

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN105788607B (zh) 应用于双麦克风阵列的语音增强方法
CN107408394B (zh) 确定在主信道与参考信道之间的噪声功率级差和声音功率级差
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
KR101831078B1 (ko) 보이스 활성화 탐지 방법 및 장치
KR20140079369A (ko) 사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법
JP2016006536A (ja) 複素音響共鳴音声分析システム
JP2016500847A (ja) デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム
Kumar Comparative performance evaluation of greedy algorithms for speech enhancement system
FR3031225A1 (fr) Procede de separation ameliore et produit programme d&#39;ordinateur
JPH03266899A (ja) 雑音抑圧装置
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
CN107210029A (zh) 用于处理一连串信号以进行复调音符辨识的方法和装置
TWI767696B (zh) 自我語音抑制裝置及方法
Shenoy et al. Spectral zero-crossings: Localization properties and applications
JP2013512475A5 (ja) フォルマントの速い抽出のための複数の並列複素フィルタを用いる音声認識
Slaney An introduction to auditory model inversion
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
Bagchi et al. Extending instantaneous de-mixing algorithms to anechoic mixtures
Slaney Pattern playback in the 90s
Douglas et al. Single-channel Wiener filtering of deterministic signals in stochastic noise using the panorama
Childers et al. Co--Channel speech separation
Mustière et al. Low-cost modifications of Rao-Blackwellized particle filters for improved speech denoising
Sharma et al. Time-varying sinusoidal demodulation for non-stationary modeling of speech
EP2840570A1 (en) Enhanced estimation of at least one target signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170727

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171026

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180320