JP4691079B2

JP4691079B2 - 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体

Info

Publication number: JP4691079B2
Application number: JP2007229884A
Authority: JP
Inventors: 雅清藤本; 健太郎石塚; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-09-05
Filing date: 2007-09-05
Publication date: 2011-06-01
Anticipated expiration: 2027-09-05
Also published as: JP2009063700A

Description

この発明は、音響信号の中で音声信号が存在する区間を推定するための音声信号区間推定方法に関する。

音声信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音声信号処理技術の多くにおいては、処理対象とする音声信号以外の信号（雑音など）が含まれる音響信号から、処理対象とする音声信号が存在する区間を推定する必要がある。この音声信号区間推定の精度がその後の処理の効果に大きく影響する。音声信号区間推定技術は、あらゆる音声信号処理技術の基礎となる技術である。

非特許文献１は、入力となる音響信号の周波数スペクトル、信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、信号波形の零交差数、およびそれらの時間微分などの特徴量を利用した音声信号区間推定方法を開示している。これらの音響特徴量を用いた音声信号区間推定方法では、入力される音響信号を２５ｍｓ程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴量を算出し、その値が別途定めた閾値を超える場合には音声区間、そうでなければ非音声区間として判定する。

非特許文献２は、入力となる音響信号にWiener filter理論に基づく雑音除去を適用し、雑音除去後の信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、周波数スペクトルの分散値などの特徴量を利用した音声信号区間推定方法を開示している。これらの音響特徴量を用いた音声信号区間推定方法では、入力される音響信号を２５ｍｓ程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴量を算出し、その値が別途定めた閾値を超える場合には音声区間、そうでなければ非音声区間として判定する。

非特許文献３は、信号の状態遷移を定義した音声信号区間推定方法を開示している。この方法では、入力となる音響信号が時間経過とともに音声状態、および非音声状態を遷移する信号であると見なす。音声状態、および非音声状態の状態遷移は、入力信号が音声状態に属する確率、非音声状態に属する確率を基準として決定され、音声状態に属する信号のみを出力する。また、音声状態、非音声状態の構成は適応的に行われる。

非特許文献４は、音響信号波形の基本周波数を推定し、推定された基本周波数に基づき音響信号の周期性成分と非周期性成分を分離し、分離された周期性成分と非周期性成分の比を計算し、その比に基づいて目的信号の存在区間を検出する音声信号区間推定方法を開示している。
Benyassine, A., Shlomot, E., and Su, H-Y. "ITU-T recommendation G.729 Annex B:A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications,"IEEE Communications Magazine, pp.64-73, September 1997. ETSI ES 202 050 v.1.1.4,"Speech processing, Transmission and Quality aspects(STQ), Distributed Speech Recognition; Advanced Front-end feature extraction algorithm; Compression algorithms,"November 2005. 藤本雅清，石塚健太郎，加藤比呂子，"音声と雑音両方の状態遷移過程を有する雑音下音声区間検出，"電子情報通信学会，音声研究会，SP2006-87, pp.13-18, December 2006. Kentaro Ishizuka and Tomohiro Nakatani,"Study of noise robust voice activity detection based on periodic component to aperiodic component ratio,"Proceedings of ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition(SAPA2006), pp.65-70, 2006.

上記非特許文献１および上記非特許文献２に記載の技術は、入力音響信号に含まれる雑音信号の特徴が、定常的なものであるという前提のもとで音声信号区間推定を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴をもっている。すなわち、雑音信号の統計的な特徴が、時間の経過に伴い変動する。そのため、上記非特許文献１および上記非特許文献２に記載の技術では、雑音の時間変動に対応できず、高精度に音声信号区間の推定を行うことができない。

上記非特許文献３に記載の技術は、並列カルマンフィルタ、および並列カルマンスムーザを用いて非定常的な雑音を逐次推定し、かつ音声／非音声の確率モデルを逐次更新することにより観測信号の尤度を計算し、それに基づき音声信号区間の推定を行う。しかし、この方法では、比較的緩やかな変化をする雑音には対処できるが、突発的な雑音や、急激な時間変化を有する雑音に対応することが難しい。

上記非特許文献４に記載の技術は、音響信号の周期性成分と非周期性成分を分離し、分離された周期性成分と非周期性成分の比を計算し、その比に基づいて目的信号の存在区間を検出する。この方法では、雑音に周期的な成分が含まれている場合、性能が劣化するが、そうでない場合は、突発的、急激な変化を有する雑音に対して頑健である。

それゆえに、本発明の目的は、定常雑音、緩やかな変化を有する非定常雑音に加え、突発的、急激な変化を有する雑音、周期的成分を含む雑音に対しても頑健である音声信号区間推定技術を提供することにある。

上記課題を解決するため、本発明では、２系統の音響信号分析を行い、この２系統の分析結果を重み付け合成して得られる結果を用いて、音声状態に属する確率と非音声状態に属する確率を求める。これらの確率から、音声信号区間であるか否かを判定する。具体的には、入力の音響信号をフレーム単位に分割し、フレームの音響特徴量から、前記フレームの音声状態確率および非音声状態確率を求め（第１音響信号分析）、他方、入力の音響信号をフレーム単位に分割し、フレームの基本周波数に含まれる周期性成分および非周期性成分から、前記フレームの音声状態確率および非音声状態確率を求める（第２音響信号分析）。そして、第１音響信号分析で得られた上記フレームの音声状態確率／非音声状態確率と、第２音響信号分析で得られた上記フレームの音声状態確率／非音声状態確率とを用いて、それぞれに対して重み付けする重みを求める（重み算出）。さらに、第１音響信号分析で得られた上記フレームの音声状態確率と、第２音響信号分析で得られた上記フレームの音声状態確率とを、上記算出された重みによって重み付けして合成した音声状態合成確率と、第１音響信号分析で得られた上記フレームの非音声状態確率と、第２音響信号分析で得られた上記フレームの非音声状態確率とを、上記算出された重みによって重み付けして合成した非音声状態合成確率とを求め、この音声状態合成確率と、この非音声状態合成確率と、音声状態と非音声状態との間の状態遷移モデルとに基づいて、上記フレームが音声状態に属する確率（音声状態尤度）と上記フレームが非音声状態に属する確率（非音声状態尤度）を求める。この音声状態尤度と非音声状態尤度とから、上記フレームが音声信号区間であるか否かを判定するのであり、上記重みを、第１音響信号分析によって得られたフレームの音声状態確率／非音声状態確率に重み付けする重みαと、第２音響信号分析によって得られたフレームの音声状態確率／非音声状態確率に重み付けする重みβとを、第１音響信号分析によって得られたフレームの音声状態確率とその非音声状態確率との差と、第２音響信号分析によって得られたフレームの音声状態確率とその非音声状態確率との差とに応じて按分して求める。

本発明は、２系統の異なる音響信号分析を行うが、第１音響信号分析は、上記非特許文献３に記載の技術に相当し、第２音響信号分析は、上記非特許文献４に記載の技術に相当し、これらを重み付け合成して得られる結果に基づいて音声信号区間推定を行う。重み付け合成に用いる重みは、２系統の異なる音響信号分析で得られた分析結果に応じて適応的に決定される。

また、本発明の音声信号区間推定装置としてコンピュータを機能させる音声信号区間推定プログラムによって、コンピュータを音声信号区間推定装置として作動処理させることができる。そして、この音声信号区間推定プログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音声信号区間推定装置として機能させることや、音声信号区間推定プログラムを流通させることなどが可能になる。

本発明に拠れば、上記非特許文献３に記載の技術に相当する第１音響信号分析と、上記非特許文献４に記載の技術に相当する第２音響信号分析とを行い、これらを重み付け合成して得られる結果に基づいて音声信号区間推定を行うから、各々の長所を生かし短所を克服することになり、入力の音響信号に含まれる雑音が、定常雑音、緩やかな変化を有する非定常雑音のみならず、突発的、急激な変化を有する雑音、周期的成分を含む雑音であっても、音声信号区間を正確に推定することができる。

以下、図面を参照しつつ、本発明の一実施形態について説明する。なお、以下の説明に用いる図面では、同一の構成要素には同一の符号を記してある。それらの名称、機能も同一であり、それらについての説明は繰り返さない。以下の説明において、明細書中で使用する記号「＾」、「〜」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においては、これらの記号は本来の位置に記述している。以下の説明において、ベクトルについては例えば「ベクトルＡ」等のように直前に「ベクトル」等を付与して記載するが、式中ではいずれも太字で記載する。また、ベクトルの各要素単位で行われる処理は、特に断りが無い限り、全てのベクトルの全ての要素に対して適用されるものとする。

以下、音声信号区間推定装置・方法の実施形態を説明する。音声信号区間推定装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現される。ここではコンピュータ（汎用機）で実現する場合として説明する。

音声信号区間推定装置のハードウェア構成例を説明する。
音声信号区間推定装置は、キーボード、ポインティングデバイスなどが接続可能な入力部と、液晶ディスプレイ、ＣＲＴ（Cathode Ray Tube）ディスプレイなどが接続可能な出力部と、音声信号区間推定装置外部に通信可能な通信装置（例えば通信ケーブル、ＬＡＮカード、ルータ、モデムなど）が接続可能な通信部と、ＣＰＵ（Central Processing Unit）〔ＤＳＰ（Digital Signal Processor）でも良い。またキャッシュメモリやレジスタなどを備えていてもよい。〕と、メモリであるＲＡＭ、ＲＯＭや、ハードディスク、光ディスク、半導体メモリなどである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、音声信号区間推定装置に、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）などの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。

また、音声信号区間推定装置には、例えば音声、音楽、雑音などの音を受音する音響信号収音手段（例えばマイクロホン）を接続可能であって、マイクロホンによって得られた（アナログ）信号の入力を受ける信号入力部、および、再生信号を音として出力する音響出力装置（例えばスピーカ）を接続可能であって、スピーカに入力する信号（再生信号をＤ／Ａ変換したもの）を出力するための信号出力部を設ける構成とすることも可能である。この場合、信号入力部にはマイクロホンが接続され、信号出力部にはスピーカが接続する。

音声信号区間推定装置の外部記憶装置には、音声信号区間推定のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい。〕。また、このプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶手段を単に「○○記憶部」と呼ぶことにする。
この実施形態では、予め主記憶部に、離散信号である音響信号を記憶しておく。なお、データとしての音響信号は、予め主記憶部に記憶されているものに限らず、他の収音装置によって収音されたアナログ信号が離散信号に変換されたものでもよいし、音声信号区間推定装置のマイクロホンによって収音されたアナログ信号が離散信号に変換されたものでもよい。アナログ信号から離散信号への変換は公知のＡ／Ｄ変換、量子化等により実現されるから説明を略する。
また、この実施形態では、後述する閾値ＴＨも、予め主記憶部に記憶しておく。

音声信号区間推定装置の外部記憶装置〔あるいはＲＯＭなど〕には、後述する第１音響信号分析のためのプログラム、後述する第２音響信号分析のためのプログラム、第１音響信号分析の結果と第２音響信号分析の結果に対する重みを求めるためのプログラム、第１音響信号分析の結果（音声状態のもの）および第２音響信号分析の結果（音声状態のもの）に対する重み付けで得られる音声状態合成確率と、第１音響信号分析の結果（非音声状態のもの）および第２音響信号分析の結果（非音声状態のもの）に対する重み付けで得られる非音声状態合成確率とを用いて、音響信号が音声状態に属する確率と非音声状態に属する確率の比を求めるためのプログラム、この比の値から音響信号が音声信号区間あるいは非音声信号区間であることを判別するためのプログラム、その他、各プログラムに基づく処理によって必要となる制御を行うためのプログラムなどが記憶されている。

音声信号区間推定装置では、上記各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭに読み込まれて、ＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（第１音響信号分析部、第２音響信号分析部、重み算出部、音声状態／非音声状態合成確率比算出部、音声信号区間推定部）を実現することで、音声信号区間推定が実現される。

＜音声信号区間推定装置の構成＞
本発明による音声信号区間推定の一実施形態を図１に示す。図中符号１０は、この発明の一実施形態である音声信号区間推定装置の機能構成を示す。音声信号区間推定装置（１０）は、入力の音響信号（１３）に対して並列カルマンフィルタ／並列カルマンスムーザを用いて確率計算を行う第１音響信号分析部（１４）と、音響信号（１３）の周期性成分と非周期性成分の比を用いて確率計算を行う第２音響信号分析部（１５）と、それぞれの確率の重みを計算する重み算出部（１６）と、算出された重みを用いて、音響信号（１３）が音声状態に属する合成確率と非音声状態に属する合成確率を算出し、それぞれの比を求める音声状態／非音声状態合成確率比算出部（１７）と、音声状態／非音声状態合成確率比に基づき音声／非音声識別を行う音声信号区間推定部（１８）とを含む。

第１音響信号分析装置（１４）および第２音響信号分析装置（１５）へ入力される音響信号（１３）は、例えば８，０００Ｈｚのサンプリングレートでサンプリングされ、離散信号に変換された音響信号である。この音響信号（１３）は、目的信号である音声信号（１１）に雑音信号（１２）が重畳した音となっている。以下、音響信号（１３）を「入力信号」、音声信号（１１）を「クリーン音声」、雑音信号（１２）を「雑音」と呼ぶ。

音声信号区間推定装置（１０）は、入力信号（１３）を受けて、音声信号区間推定結果（１９）を出力する。音声信号区間推定結果（１９）は、フレーム単位の音響信号が音声状態に属すれば１を、非音声状態に属すれば０を取る。音声信号区間推定装置（１０）は、音声信号区間推定結果（１９）の値を入力信号（１３）にかけ合わせた信号を出力してもよい。すなわち、音声状態に属するフレームの入力信号（１３）の値は保持され、非音声状態に属するフレームでは、信号の値が全て０に置換される。

＜第１音響信号分析部（１４）の構成＞
第１音響信号分析部（１４）は図２に示すように、入力信号（１３）を受けて、音声信号区間推定に用いる音響特徴量を抽出するための音響特徴量抽出部（２０）と、確率モデルパラメータを推定し、得られた確率モデルパラメータにより構成される確率モデルを用いた入力信号（１３）の確率計算を行うための、確率推定部（２１）とを含む。

音響特徴量抽出部（２０）は、時間軸方向に一定時間幅で始点を移動させながら、入力信号（１３）から一定時間長の音響信号をフレームとして切り出す。例えば１６０サンプル点（８，０００Ｈｚ×２０ｍｓ）長の音響信号を、８０サンプル点（８，０００Ｈｚ×１０ｍｓ）ずつ始点を移動させながら切り出す。音響特徴量抽出部（２０）は、切り出された音響信号に対して高速フーリエ変換および、２４次元のメルフィルタバンク分析を適用して、２４次元の対数メルスペクトルを要素に持つベクトルＧ_ｔ＝{ｇ_t,0，…，ｇ_t,φ，…，ｇ_t,23}（図３の３０１）を算出し、これを出力する。ベクトルＧ_ｔは、切り出しの始点の時刻がｔのフレームにおける音響特徴量を表す。φはベクトルの要素番号を示す。以下、ｔをフレーム時刻と呼ぶことにする。
なお、音響特徴量としては、対数メルスペクトルに限定するものではなく、ケプストラム係数などとすることができる。但し、後述する第２音響信号分析部（１５）が用いる音響特徴量（基本周波数）以外の音響特徴量とするのがよい。

音響特徴量抽出部（２０）の出力である２４次元の対数メルスペクトル（３０１）は、確率推定部（２１）の入力となる。確率推定部（２１）は、入力されたフレームに対して並列非線形カルマンフィルタ、および並列カルマンスムーザを適用し、雑音パラメータを推定する。推定された雑音パラメータを用いて、非音声（雑音＋無音）、および、音声（雑音＋クリーン音声）の確率モデルを生成し、対数メルスペクトル（３０１）を各確率モデルに入力した際の確率を計算する。

＜確率推定部（２１）の構成＞
確率推定部（２１）は図３に示すように、前向き推定部（３０２）と、後ろ向き推定部（３０３）と、ＧＭＭ（Gaussian Mixture Model）記憶部（３０４）と、パラメータ記憶部（３０５）を含む。

ＧＭＭ記憶部（３０４）は、あらかじめ用意した無音信号とクリーン音声信号の各音響モデルである無音ＧＭＭ（３０６）およびクリーン音声ＧＭＭ（３０７）を記憶する。以下、無音ＧＭＭ（３０６）およびクリーン音声ＧＭＭ（３０７）を単にＧＭＭ（３０６，３０７）などと表記する。ＧＭＭ（３０６，３０７）の構成方法は公知の技術であるので、説明を省略する。ＧＭＭ（３０８，３０７）はそれぞれ複数の正規分布（たとえば３２個）を含有しており、それぞれの正規分布は、混合重みｗ_j,k 、平均μ_S,j,k,φ、分散Σ_S,j,k,φをパラメータとして構成され、ｊはＧＭＭの種別（ｊ＝０：無音ＧＭＭ，ｊ＝１：クリーン音声ＧＭＭ）、ｋは各正規分布の番号を示す。各パラメータは、前向き推定部（３０２）と後向き推定部（３０３）への入力となる。

パラメータ記憶部（３０５）は、初期雑音モデル推定用バッファ（３０８）と、雑音モデル推定用バッファ（３０９）とを含む。

＜前向き推定部（３０２）の構成＞
前向き推定部（３０２）は図４に示す流れで処理を行う。この処理を並列非線形カルマンフィルタと呼ぶ。

まず、フレーム判定処理（Ｓ４０１）にてフレーム時刻ｔがｔ＜１０であれば、雑音初期モデル推定用バッファリング処理（Ｓ４０２）にて初期雑音モデル推定用バッファ（３０８）に、対数メルスペクトルｇ_t,φを記憶する。

フレーム判定処理（Ｓ４０１）にてｔ＝１０であれば、雑音初期モデル推定用バッファ読出処理（Ｓ４０３）にて初期雑音モデル推定用バッファ（３０８）からｇ_0,φ，…，ｇ_9,φを取り出し、初期雑音モデル推定処理（Ｓ４０４）にて初期の雑音モデルパラメータＮ^init _φ，Σ^init _Ｎφを下記各式で推定し、これらを雑音モデル推定用バッファ（３０９）に記憶する。

また、フレーム判定処理（Ｓ４０１）にてｔ＞１０であれば、雑音モデル推定用バッファ読出処理（Ｓ４０５）にて雑音モデル推定用バッファ（３０９）から１フレーム時刻前の推定結果＾Ｎ_t-1,φ，＾Σ_Ｎ,t-1,φを取り出す。

パラメータ予測処理（Ｓ４０６）にて、１フレーム時刻前の推定結果から現在のフレーム時刻のパラメータを下記各式のランダムウォーク過程により予測する。下記各式において、Ｎ^pred _t,φ，Σ^pred _Ｎ,t,φはフレーム時刻ｔにおける予測値である。εは小さな値（例えば０．００１）とする。

ｔ＝１０の場合は下記各式で予測処理を行う。

次に、パラメータ更新処理（Ｓ４０７）にてパラメータの更新を行う。パラメータの更新には、入力信号の対数メルスペクトルｇ_t,φ、パラメータ予測処理（Ｓ４０６）の予測結果に加え、無音信号およびクリーン音声の各パラメータを必要とし、これはＧＭＭ（３０６，３０７）のパラメータμ_S,j,k,φ，Σ_S,j,k,φを利用する。ここで、各ＧＭＭは複数の異なる正規分布を持ち、複数のパラメータμ_S,j,k,φ，Σ_S,j,k,φが存在するため、複数のパラメータそれぞれを用いた並列更新処理を行う。すなわち、それぞれのＧＭＭに含まれる正規分布の合計数と同数の更新結果を得る。更新処理は下記各式で行う。下記各式において、＾Ｎ_t,j,k,φ，＾Σ_Ｎ,t,j,kはそれぞれ更新されたパラメータである。

次に確率モデルパラメータ生成処理（Ｓ４０８）にて、ＧＭＭ（３０６，３０７）のパラメータ、およびパラメータ更新処理（Ｓ４０７）で得られた複数のパラメータ更新結果＾Ｎ_t,j,k,φ，＾Σ_Ｎ,t,j,k,φを用いて、フレーム時刻ｔにおける雑音環境に適合した、非音声（雑音＋無音）、および、音声（雑音＋クリーン音声）の各確率モデル（ＧＭＭ）を生成する。それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）のモデルパラメータは下記各式で得られる。下記各式において、μ_g,t,j,k,φ、Σ_g,t,j,k,φはそれぞれフレーム時刻ｔにおける非音声（ｊ＝０）、および、音声（ｊ＝１）のＧＭＭのモデルパラメータである。また、それぞれのＧＭＭモデルパラメータは、正規分布ｋの平均、分散に相当し、混合重みには、ＧＭＭ（３０６，３０７）のパラメータｗ_j,kをそのまま流用する。

次に、出力確率算出処理（Ｓ４０９）にて、入力信号（１３）の対数メルスペクトルベクトルＧ_ｔ（３０１）を生成された非音声、音声それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）に入力した際の出力確率を求める。まず、非音声、音声それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）全体における出力確率ｂ_1,j(Ｇ_ｔ)は、下記各式で得られる。下記各式のｗ_j,kｂ_1,j,k(Ｇ_ｔ)は、非音声、音声それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）に含まれる各正規分布ｋの出力確率である。

ｗ_j,kｂ_1,j,k(Ｇ_ｔ)の合計が１になるよう次式で正規化を行う。次式のｗ_g,j,kは、正規化された各ＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）の各正規分布ｋの出力確率である。

次に、第１加重平均処理（Ｓ４１０）にて、パラメータ更新処理（Ｓ４０７）で得られた複数のパラメータ更新結果を出力確率算出処理（Ｓ４０９）で得られた正規化出力確率ｗ_g,j,kを用いて、加重平均することにより、それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）に対応する雑音パラメータ推定結果＾Ｎ_t,j,φ，＾Σ_Ｎ,t,j,φを得る。この加重平均は下記各式で行う。

次に、第２加重平均処理（Ｓ４１１）にて、第１加重平均処理（Ｓ４１０）にて得られた各ＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）に対応する雑音パラメータ推定結果＾Ｎ_t,j,φ，＾Σ_Ｎ,t,j,φを、出力確率算出処理（Ｓ４０９）で得られた出力確率ｂ_1,j(Ｇ_ｔ)を用いて加重平均することにより、フレーム時刻ｔにおける雑音パラメータ推定結果＾Ｎ_t,φ，＾Σ_Ｎ,t,φが得られ、次のフレーム時刻の雑音パラメータ推定に利用する。この加重平均は下記各式で行う。

雑音モデル推定用バッファリング処理（Ｓ４１２）にて、雑音モデル推定用バッファ（３０９）に当該フレーム時刻のｇ_t,φ，Ｎ^pred _t,φ，Σ^pred _Ｎ,t,φ，＾Ｎ_t,j,k,φ，＾Σ_Ｎ,t,j,k,φ，＾Ｎ_t,φ，＾Σ_Ｎ,t,φを記憶する。

式（３），（４）の予測処理、および式（７）〜（１２）の更新処理は、従来の非線形カルマンフィルタであるが、本発明では、ＧＭＭ（３０６，３０７）のパラメータを用いて複数のフィルタを構成する並列推定手段と、複数の推定結果を加重平均する手段とを含んでおり、より正確な雑音モデルのパラメータ推定が実現される。

＜後向き推定部（３０３）の構成＞
後向き推定部（３０３）は図５に示す流れで処理を行う。この処理を並列カルマンスムーザと呼ぶ。

第１判定処理（Ｓ５０１）にて、ｔ＜１０であれば、第１設定処理（Ｓ５０２）にて変数tbに０を設定して処理を終了し、そうでなければ、第２判定処理（Ｓ５０３）にてtbの値を判定する。

第２判定処理（Ｓ５０３）にて、tbの値が後向き推定に要するフレーム数Ｂ（例えばＢ＝５）未満であれば、第２設定処理（Ｓ５０４）にてtbの値を１加算して処理を終了し、tbの値がＢ以上であれば、第３設定処理（Ｓ５０５）にて後向き推定用のカウンタbwの値にＢを設定する。

雑音モデル推定用バッファ読出処理（Ｓ５０６）にて、雑音モデル推定用バッファ（３０９）からフレーム時刻ｓ＝ｔ−Ｂ＋bwのパラメータＮ^pred _s,φ，Σ^pred _Ｎ,s,φ、フレーム時刻ｓ−１のパラメータｇ_s-1,φ，＾Ｎ_s-1,j,k,φ，＾Σ_{Ｎ,s-1,j,k,φ}を取り出す。但し、bw＝Ｂ、すなわちフレーム時刻ｓ＝ｔの場合は、雑音モデル推定用バッファ（３０９）から＾Ｎ_t,j,k,φ，＾Σ_Ｎ,t,j,k,φ，＾Ｎ_t,φ，＾Σ_Ｎ,t,φを取り出し、〜Ｎ_s,j,k,φ＝＾Ｎ_t,j,k,φ，〜Σ_Ｎ,s,j,k,φ＝＾Σ_Ｎ,t,j,k,φ，〜Ｎ_s,φ＝＾Ｎ_t,φ，〜Σ_Ｎ,s,φ＝＾Σ_Ｎ,t,φと定義する。

パラメータ平滑処理（Ｓ５０７）にて、後向き推定を用いて次式によるパラメータの再推定（平滑化）を行う。次式において、〜Ｎ_s-1,j,k,φ，〜Σ_{Ｎ,s-1,j,k,φ}は、平滑化されたパラメータである。

次に確率モデルパラメータ生成処理（Ｓ５０８）にて、ＧＭＭ（３０６，３０７）のパラメータ、およびパラメータ平滑処理（Ｓ５０７）で得られた複数のパラメータ平滑結果〜Ｎ_s-1,j,k,φ，〜Σ_{Ｎ,s-1,j,k,φ}を用いて、フレーム時刻ｓ−１における雑音環境に適合した、非音声（雑音＋無音）、および、音声（雑音＋クリーン音声）の各確率モデル（ＧＭＭ）を生成する。それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）のモデルパラメータは下記各式により得られる。下記各式において、μ_g,s-1,j,k,φ，Σ_g,s-1,j,k,φはそれぞれフレーム時刻ｓ−１における非音声（ｊ＝０）、および、音声（ｊ＝１）のＧＭＭのモデルパラメータである。また、それぞれのＧＭＭモデルパラメータは、正規分布ｋの平均、分散に相当し、混合重みには、ＧＭＭ（３０６，３０７）のパラメータｗ_j,kをそのまま流用する。

次に、出力確率算出処理（Ｓ５０９）にて、フレーム時刻ｓ−１における入力信号（１３）の対数メルスペクトルベクトルＧ_s-1(３０１)を生成された非音声、音声それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）に入力した際の出力確率を求める。

まず、非音声、音声それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）全体における出力確率ｂ_1,j(Ｇ_s-1)は、下記各式により得られる。下記各式のｗ_j,kｂ_1,j,k(Ｇ_s-1)は、非音声、音声それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）に含まれる各正規分布ｋの出力確率である。

ｗ_j,kｂ_1,j,k(Ｇ_s-1)の合計が１になるよう次式で正規化を行う。次式のｗ_g,j,kは、正規化された各ＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）の各正規分布ｋの出力確率である。

次に、第１加重平均処理（Ｓ５１０）にて、パラメータ平滑処理（Ｓ５０７）で得られた複数のパラメータ平滑結果を出力確率算出処理（Ｓ５０９）で得られた正規化出力確率ｗ_g,j,kを用いて、加重平均することにより、それぞれのＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）に対応する雑音パラメータ平滑結果〜Ｎ_s-1,j,φ，〜Σ_N,s-1,j,φを得る。加重平均は下記各式により行う。

次に、第２加重平均処理（Ｓ５１１）にて、第１加重平均処理（Ｓ５１０）にて得られた各ＧＭＭ（非音声ＧＭＭ、音声ＧＭＭ）に対応する雑音パラメータ平滑結果〜Ｎ_s-1,j,φ，〜Σ_N,s-1,j,φを、出力確率算出処理（Ｓ５０９）で得られた出力確率ｂ_1,j(Ｇ_S-1)を用いて加重平均することにより、フレーム時刻ｓ−１における雑音パラメータ平滑結果〜Ｎ_s-1,φ，〜Σ_N,s-1,φが得られ、次のフレーム時刻の雑音パラメータ推定に用いる。この加重平均は下記各式で行う。

第４設定処理（Ｓ５１２）にて、bwの値を１減算（すなわち時刻ｓの値を１減算）する。

第３判定処理（Ｓ５１３）にて、bw＞０であれば、雑音モデル推定用バッファ読出処理（Ｓ５０６）にもどり、そうでなければ、処理を終了する。

確率推定部（２１）は、前向き推定部（３０２）（並列非線形カルマンフィルタ）、後向き推定部（３０３）（並列カルマンスムーザ）により得られた出力確率を出力パラメータ（３１０）として出力し、重み算出部（１６）、音声状態／非音声状態合成確率比算出部（１７）への入力とする。すなわち、出力パラメータ（３１０）は、フレーム時刻ｔから過去のフレーム時刻ｔ−Ｂにおける出力確率ｂ_1,j(Ｇ_ｔ)，…，ｂ_1,j(Ｇ_t-B)により構成される。

＜第２音響信号分析部（１５）の構成＞
第２音響信号分析部（１５）は、図６に示すように、音響信号切出手段（６０）と、離散フーリエ変換手段（６０２）と、パワー算出手段（６０３）と、基本周波数推定手段（６０４）と、周期性成分パワー算出手段（６０５）と、減算手段（６０７）と、除算手段（６０９）と、確率算出手段（６１１）と、ＧＭＭ記憶部（６１２）によって構成される。また、処理の手順を、図７に示す。

音響信号切出手段（６０１）は、時間軸方向に一定時間幅で始点を移動させながら、入力信号（１３）から一定時間長の音響信号をフレームとして切り出す（Ｓ７０１）。例えばサンプリング周波数が８，０００Ｈｚの場合、１６０サンプル点（８，０００Ｈｚ×２０ｍｓ）の離散信号を８０サンプル点（８，０００Ｈｚ×１０ｍｓ）ずつ始点を移動しながら、例えば以下のハニング窓ｗ(ｎ)を乗じて切り出す。ここでｎはｎ番目のサンプル点を表し、Ｌは切り出し波形のサンプル点数（上述の例では１６０点）を表す。なお、音響信号切出手段（６０１）が切り出すフレーム長は、音響特徴量抽出部（２０）が切り出すフレーム長と同じとすることに絶対的要請があるものではないが、処理を簡便に行うなどの観点からは、同じとするのがよい。この結果得られた信号を音響信号切出手段（６０１）の出力とする。

離散フーリエ変換手段（６０２）は、音響信号切出手段（６０１）の出力である、切り出された音響信号に対し、離散フーリエ変換を行い、時間領域の信号波形から周波数領域の周波数スペクトルに変換する（Ｓ７０２）。音響信号切出手段（６０１）の時間シフトｔ番目の出力信号をｘ_t(ｎ)とすると、そのスペクトルＸ_t(ｋ)は次式で表される。ここでｋはサンプリング周波数をＭ等分した離散点を表し、Ｍは例えば２５６を用いる。なお、時間シフトｔは、上記音響特徴量抽出部（２０）が切り出すフレーム時刻ｔと同期させる。このようにして得られた周波数スペクトルＸ_t(ｋ)を離散フーリエ変換手段（６０２）の出力とする。

パワー算出手段（６０３）は、音響信号切出手段（６０１）の出力である、切り出された音響信号全体のパワーを、離散フーリエ変換手段（６０２）の出力である周波数スペクトルから、もしくは切出された音響信号から直接算出する（Ｓ７０３）。周波数スペクトルからの算出は、式（４４）により行う。ここでρ_ｔは信号全体のパワーを表す。音響信号波形からの算出は、式（４５）により行う。このようにして算出された信号全体のパワーρ_ｔをパワー算出手段（６０３）の出力とする。

基本周波数推定手段（６０４）は、パワー算出手段（６０３）の出力である信号全体のパワーと、離散フーリエ変換手段（６０２）の出力である周波数スペクトルを入力とし、音響信号切出手段（６０１）の出力である音響信号の時間領域における信号波形の基本周波数を推定する（Ｓ７０４）。周波数スペクトルを用いた場合の基本周波数の推定は、例えば音声の倍音成分のパワーを最大化するような推定方法によって行う（参考文献１参照）。ｆ０_ｔを推定基本周波数に対応する周波数スペクトルのビンの番号、（）内を最大化するｊを出力する関数をargmax，ｖ_ｔをＭ／ｊの整数部分を表す関数とすると、式（４６）によって基本周波数が推定される。このｆ０_ｔを基本周波数推定手段（６０４）の出力とする。
（参考文献１）Nakatani,T. and Irino,T.,“Robust and accurate fundamental frequency estimation based on dominant harmonic components,”Journal of the Acoustical Society of America, Vol.116,pp.3690-3700,2004.

なお、周波数スペクトルを用いないで推定する場合には、例えば自己相関法によって推定を行う（参考文献２参照）。自己相関法では、まず自己相関関数を求める。切り出し波形のサンプル点数をＬ、そのｊ番目のサンプル点の信号の振幅をｘ_t(ｊ)としたときに、自己相関関数の係数ｃ_t(ｊ)は式（４７）に従って求まる。これをｊ＝１,…,Ｌについて求める。次に、この自己相関関数の係数におけるｊの一定の探索範囲内、例えば１６＜ｊ＜１６０（サンプリング周波数８，０００Ｈｚの場合の５０Ｈｚから５００Ｈｚの周期に該当）の範囲内においてｃ_t(ｊ)が最大となるｊを検出する。その結果得られたｊは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号（例えば正弦波）の場合にはその周期長に相当する値になる。このようなｊを基本周波数推定手段（６０４）の出力とすればよい。
（参考文献２）Quatieri,T.F.,“Discrete-time Speech Signal Processing principles and practice,”Prentice-Hall, 2002; 504乃至505頁.

周期性成分パワー算出手段（６０５）は、離散フーリエ変換手段（６０２）の出力である周波数スペクトルと、パワー算出手段（６０３）の出力である音響信号のパワーと、基本周波数推定手段（６０４）の出力である基本周波数を入力として、音響信号切出手段（６０１）の出力である音響信号の周期性成分のパワー（６０６）を推定する（Ｓ７０５）。周期性成分のパワー＾ρ_t ^pは、ｆ０_ｔを推定基本周波数に対応する周波数スペクトルのビンの番号、ｖ_ｔをＭ／ｊの整数部分を表す関数とすると、下記各式によって求めることができる。これを周期性成分パワー算出手段（６０５）の出力とする。

この周期性成分のパワー（６０６）は、周波数スペクトルを用いずに、音響信号切出手段（６０１）の出力である音響信号からも推定することができる。その推定は以下のようにして行う。まず、基本周波数推定手段（６０４）の出力を用いて、ｚ領域での表現において、式（５０）で表される周波数特性を持つ櫛型フィルタを構成する。

次に、この櫛型フィルタを音響信号切出手段（６０１）の出力である音響信号に適用し、櫛型フィルタの周波数特性における零点に相当する部分（基本周波数成分とその整数倍の周波数成分）のパワーが抑圧された離散信号を得る。この結果得られた信号のパワー（非周期性成分パワー）を＾ρ_t ^aとすると、周期性成分のパワー＾ρ_t ^p（６０６）は、次式によって推定できる。これを周期性成分パワー算出手段（６０５）の出力としても良い。

減算手段（６０７）は、パワー算出手段（６０３）の出力である音響信号切出手段（６０１）の出力のパワー値から、周期性成分パワー算出手段（６０５）の出力を減算することで、周期性成分以外の、非周期性成分のパワー（６０８）を推定する（Ｓ７０６）。つまり、推定される非周期性成分パワーを＾ρ_t ^aとすると、式（５２）によって推定を行う。

なお、周期性成分パワー（６０６）と非周期性成分パワー（６０８）は合算するとρ_ｔに等しくなるので、この性質を利用して、周期性成分パワー（６０６）を先に求める方法以外に、下記各式のように非周期性成分のパワー（６０８）を先に求めてから、減算手段により周期性成分のパワー（６０６）を求めても良い。

除算手段（６０９）は、上述のようにして得られた周期性成分パワー（６０６）と非周期性成分パワー（６０８）を入力とし、これらの比を取り、これを出力とする（Ｓ７０７）。出力となる比の値（６１０）は、式（５５）により算出する。

確率算出手段（６１１）は、除算手段（６０９）で得られた周期性成分パワーと非周期性成分パワーの比（６１０）と、ＧＭＭ記憶部（６１２）に記憶される、あらかじめ用意した無音信号とクリーン音声信号の各音響モデルである無音ＧＭＭ（６１３）およびクリーン音声ＧＭＭ（６１４）に基づき、入力信号（１３）が非音声（無音）状態に属する確率と音声（クリーン音声）状態に属する確率を算出する。以下、無音ＧＭＭ（６１３）およびクリーン音声ＧＭＭ（６１４）を単にＧＭＭ（６１３，６１４）などと表記する。ＧＭＭ（６１３，６１４）はそれぞれ複数の正規分布（たとえば３２個）を含有しており、それぞれの正規分布は、混合重みｗ_j,k，平均μ_R,j,k、分散Σ_R,j,kをパラメータとして構成され、ｊはＧＭＭの種別（ｊ＝０：無音ＧＭＭ，ｊ＝１：クリーン音声ＧＭＭ）、ｋは各正規分布の番号を示す。各パラメータは、確率算出手段（６１１）への入力となる。

周期性成分パワーと非周期性成分パワーの比（６１０）を無音ＧＭＭ（６１３）、クリーン音声ＧＭＭ（６１４）に入力した際の出力確率は、下記各式により得られる。

確率算出手段（６１１）は、式（５６）で得られた確率ｂ_2,j(Ｒ_t(ａ，ｐ))を出力パラメータ（６１５）として出力し、重み算出部（１６）、音声状態／非音声状態合成確率算出部（１７）への入力とする。

＜重み算出部（１６）の構成＞
重み算出部（１６）は、第１音響信号分析部（１４）の出力パラメータ（３１０）と第２音響信号分析部（１５）の出力パラメータ（６１５）を入力として、これらの出力パラメータに係るフレームにおいて、どちらの出力パラメータを重視するかを表す、重みγを算出し、この重みγを出力する。重み算出部（１６）は、図８に示す流れで処理を行う。

まず、第１判定処理（Ｓ８０１）で、(b_1,0(G_t) ＞ b_1,1(G_t) AND b_2,0(R_t(a,p)) ＞ b_2,1(R_t(a,p))) OR (b_1,0(G_t) ≦ b_1,1(G_t) AND b_2,0(R_t(a,p)) ≦ b_2,1(R_t(a,p)))の判別を行い、この判別が真であれば、第２判定処理（Ｓ８０２）の判別を行う。第２判定処理（Ｓ８０２）で、|b_1,0(G_t) - b_1,1(G_t)| ＞ |b_2,0(R_t(a,p)) - b_2,1(R_t(a,p))|の判別を行い、この判別が真であれば、第１設定処理（Ｓ８０３）にてγ＝１を設定し、この判別が偽であれば第２設定処理（Ｓ８０４）にてγ＝０を設定する。また、第１判定処理（Ｓ８０１）の判別が偽であれば、第３設定処理（Ｓ８０５）にて次式によりγを決定する。なお、第１判定処理（Ｓ８０１）では、(b_1,0(G_t) ≧ b_1,1(G_t) AND b_2,0(R_t(a,p)) ≧ b_2,1(R_t(a,p))) OR (b_1,0(G_t) ＜ b_1,1(G_t) AND b_2,0(R_t(a,p)) ＜ b_2,1(R_t(a,p)))の判別を行うとしてもよい。また、第２判定処理（Ｓ８０２）では、|b_1,0(G_t) - b_1,1(G_t)| ≧ |b_2,0(R_t(a,p)) - b_2,1(R_t(a,p))|の判別を行うとしてもよい。

＜音声状態／非音声状態合成確率比算出部（１７）の構成＞
重み算出部（１６）で得られた重みγと、第２音響信号分析部（１４）の出力パラメータ（３１０）と、第２音響信号分析部（１５）の出力パラメータ（６１５）を用いて、音声状態／非音声状態の合成確率ｂ_j(Ｇ_t，Ｒ_t(ａ，ｐ))を次式によって得ることができる。

ここで図９に示す符号９０は有限状態機械により表現された、音声状態／非音声状態の状態遷移モデルであり、非音声状態Ｈ₀(９１)と、音声状態Ｈ₁(９２)と、各状態への状態遷移確率ａ_i,j(９３〜９６)とを含む（ｉは状態遷移元の状態番号、ｊは状態遷移先の状態番号）。

音声状態／非音声状態合成確率比算出部（１７）は、音声状態／非音声状態の合成確率ｂ_j(Ｇ_t，Ｒ_t(ａ，ｐ))および、音声状態／非音声状態の状態遷移モデル（９０）に基づき、音声状態／非音声状態合成確率比（１０５）を算出する。

状態番号０は非音声状態を、状態番号１は音声状態をそれぞれ示し、状態遷移確率ａ_i,j(９３〜９６)は、ａ_i,0 ＋ａ_i,1 ＝１を満たす。

音声状態／非音声状態合成確率比算出部（１７）は、図１０に示す構成となっており、確率比算出部（１０１）と、パラメータ記憶部（１０２）とを含む。

パラメータ記憶部（１０２）は、確率比算出用バッファ（１０３）と、状態遷移確率テーブル（１０４）とを含み、状態遷移確率テーブル（１０４）は、非音声状態Ｈ₀(９１)、および音声状態Ｈ₁(９２)への状態遷移確率ａ_i,j(９３〜９６)の値を持つ。

音声状態／非音声状態合成確率比算出部（１７）は、確率推定部（２１）の後向き推定部（３０３）の場合と同様に、フレーム時刻ｔよりＢフレーム遡ったフレーム時刻ｓ＝ｔ−Ｂに視点を移して処理を行う。まず、フレーム時刻ｓにおける信号の状態をｑ_ｓ＝Ｈ_ｊと定義すると、音声状態合成確率と非音声状態合成確率の比Ｌ(ｓ)（符号１０５）は次式により得られる。次式において、Ｇ_0:s＝{Ｇ₀，…，Ｇ_ｓ}，Ｒ_0:s(ａ，ｐ)＝{Ｒ₀(ａ，ｐ)，…，Ｒ_s(ａ，ｐ)}である。

確率比Ｌ(ｓ)(符号１０５)はベイズの定理により次式のように展開される。

また、雑音信号Ｎ_0:s＝{Ｎ₀，…，Ｎ_ｓ}の時間変動を考慮すると、式（６１）は次式のように拡張される。但し、Ｎ_m〔m=0,…,s〕はフレーム時刻ｍでのサンプル系列からなるベクトルである。

上式は、過去のフレーム時刻の状態を考慮した再帰式（１次マルコフ過程）により、次式のように展開される。

式（６３）において、ｐ(ｑ_s＝Ｈ_ｊ｜ｑ_s-1＝Ｈ_ｉ)＝ａ_i,j，ｐ(Ｇ_s，Ｒ_s(ａ，ｐ)｜ｑ_s＝Ｈ_ｊ，Ｎ_s)＝ｂ_j(Ｇ_s，Ｒ_s(ａ，ｐ))，ｐ(Ｎ_s｜Ｎ_s-1)＝１に相当し、確率ｐ(Ｇ_s，Ｒ_s(ａ，ｐ)，ｑ_s＝Ｈ_ｊ，Ｎ_s)は、時間順方向に算出される前向き確率α_s,jに相当する。すなわち式（６３）は、次式の再帰式により得られる。

次に、フレーム時刻ｓより未来のフレーム時刻、すなわちフレーム時刻ｓ＋１，…，ｔ＝ｓ＋Ｂにおける状態の影響を考慮すると、確率比Ｌ(ｓ)（符号１０５）は、次式のように表現される。

式（６５）の確率ｐ(Ｇ_s+1:t，Ｒ_s+1:t(ａ，ｐ)，Ｎ_s+1:t｜ｑ_ｓ＝Ｈ_ｉ，Ｎ_ｓ)は、フレーム時刻ｓより未来のフレーム時刻の状態を考慮した再帰式（１次マルコフ過程）により、次式のように展開される。

式（６６）において、ｐ(ｑ_s+1＝Ｈ_ｊ｜ｑ_ｓ＝Ｈ_ｉ)＝ａ_i,j，ｐ(Ｇ_s+1，Ｒ_s+1(ａ，ｐ)｜ｑ_s+1＝Ｈ_ｊ，Ｎ_s+1)＝ｂ_j(Ｇ_s+1，Ｒ_s+1(ａ，ｐ))，ｐ(Ｎ_s+1｜Ｎ_s)＝１に相当し、確率ｐ(Ｇ_s+1:t，Ｒ_s+1:t(ａ，ｐ)，Ｎ_s+1:t｜ｑ_ｓ＝Ｈ_ｉ，Ｎ_ｓ)は、時間逆方向に算出される後向き確率β_s,i に相当する。すなわち式（６６）は、次式の再帰式により得られる。

よって、確率比Ｌ(ｓ)（符号１０５）は、

により算出される。すなわち、確率比算出部（１０１）は、フレーム時刻ｔよりもＢフレーム過去のフレーム時刻ｓ＝ｔ−Ｂにおける前向き確率α_s,j、および後向き確率β_s,iを算出して、音声状態／非音状態確率比Ｌ(ｓ)（符号１０５）を得る。それぞれの算出は、図１１の処理に従う。なお、この実施形態では、音声状態／非音状態確率比Ｌ(ｓ)（符号１０５）を出力する構成であるが、必ずしもこれに限定されず、後述する音声信号区間推定部（１８）での判定処理にもよるが、α_s,1・β_s,1およびα_s,0・β_s,0を出力するようにしてもよい。

後向き確率β_s,iは、確率推定部（２１）の後向き推定部（３０３）と同様にＢフレーム未来のフレーム時刻から遡って、現在のフレーム時刻の確率を算出する。

先ず、第１判定処理（Ｓ１１０１）にて、ｔ＜１０＋Ｂ、すなわちｓ＜１０であれば、初期値設定処理（Ｓ１１０２）にて前向き確率α_s,jを以下のように設定する。

確率比算出用バッファリング処理（Ｓ１１０３）にて、確率比算出用バッファ（１０３）に前向き確率α_s,jを記憶する。第１判定処理（Ｓ１１０１）にて、ｔ＜１０＋Ｂでなければ、確率比算出用バッファ読出処理（Ｓ１１０４）にて、確率比算出用バッファ（１０３）よりフレーム時刻ｓ−１の前向き確率α_s-1,jを取り出す。

前向き確率算出処理（Ｓ１１０５）にて、状態遷移確率テーブル（１０４）より状態遷移確率ａ_i,j(９３〜９６)を取り出し、フレーム時刻ｓの前向き確率α_s,jを式（６４）に従って算出する。

第１設定処理（Ｓ１１０６）にて後向き確率算出用のカウンタbwの値にＢを設定する。

後向き確率算出処理（Ｓ１１０７）にて、状態遷移確率テーブル（６４）より状態遷移確率ａ_i,j(９３〜９６)を取り出し、フレーム時刻ｓ＋bw−１の後向き確率β_s+bw-1,iを式（６７）に従って算出する。また、bw＝Ｂの場合は、初期値を式（７１）で与える。

第２設定処理（Ｓ１１０８）にて、bwの値を１減算する。

第２判定処理（Ｓ１１０９）にて、bw＞０であれば、後向き確率算出処理（Ｓ１１０７）にもどり、そうでなければ、確率比算出処理（Ｓ１１１０）に移行する。この時点で、フレーム時刻ｓにおける後向き確率β_s,iが得られる。

確率比算出処理（Ｓ１１１０）にて、フレーム時刻ｓにおける音声状態／非音状態確率比Ｌ(ｓ)（符号１０５）を式（６８）に従って算出する。

確率比算出用バッファリング処理（Ｓ１１０３）にて、確率比算出用バッファ（１０３）に前向き確率α_s,jを記憶する。

＜音声信号区間推定部（１８）＞
音声信号区間推定部（１８）にて、音声状態／非音状態確率比算出部（１７）の出力である、音声状態／非音状態確率比Ｌ(ｓ)（符号１０５）を受けて、フレーム時刻ｓのフレームが音声状態に属するか非音声状態に属するかを判定する。

音声状態／非音状態確率比Ｌ(ｓ)（符号１０５）の値が、別途設定された閾値ＴＨ以上（あるいは、閾値ＴＨより大）であれば、フレーム時刻ｓのフレームが音声状態に属すると判断して１を音声信号区間推定結果（１９）として出力し、閾値ＴＨ未満（あるいは、閾値ＴＨ以下）であれば、フレーム時刻ｓのフレームが非音声状態に属すると判断して０を音声信号区間推定結果（１９）として出力する。閾値ＴＨの値は、事前に固定された値に決定しておいても、入力信号（１３）の特徴に応じて適応的に決定しても良い。
なお、音声状態／非音状態確率比Ｌ(ｓ)（符号１０５）の値と閾値ＴＨとの比較判定に限定されるものではなく、α_s,1・β_s,1とα_s,0・β_s,0との大小関係を比較して判定するようにしてもよい。

＜変更例＞
上記実施の形態において、パラメータ予測処理（Ｓ４０６）にて、ランダムウォーク過程により１時刻前の推定結果より現在の時刻のパラメータを予測しているが、自己回帰法（線形予測法）などを用いて予測してもよい。この場合、自己回帰係数の次数に応じて最終的な雑音モデルパラメータ推定性能が向上することが期待される。

上記実施の形態において、第１加重平均処理（Ｓ４１０，Ｓ５１０）および、第２加重平均処理（Ｓ４１１，Ｓ５１１）にて、加重平均ではなく、最大の重みを持つ推定結果をそのまま使用してもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。

上記実施の形態において、ＧＭＭ（３０６，３０７，６１３，６１４）の代わりに、音声信号の確率モデルとしてＨＭＭ（Hidden Markov Model）等の他の確率モデルを用いてもよい。

上記実施の形態において、音声信号区間推定部（１８）における閾値判定後に、音声信号区間、および非音声信号区間の継続長を調査して、音声信号区間推定結果（１９）を自動訂正する処理を接続してもよい。この場合、突発的な識別誤りを訂正することができるため、音声信号区間推定の性能が向上することが期待される。

以上の実施形態の他、本発明である音声信号区間推定装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記音声信号区間推定装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記音声信号区間推定装置における処理機能をコンピュータによって実現する場合、音声信号区間推定装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声信号区間推定装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音声信号区間推定装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の音声信号区間検出装置に入力し、音声信号区間を検出する実施例を示す。以下実験方法、および結果について説明する。

本実験では、提案手法の評価は、音声区間検出の評価用に設計されたデータベースCENSREC-1-Cを用いて行う。データベースCENSREC-1-Cについては、参考文献３を参照のこと。
（参考文献３）北岡教英，山田武志，柘植覚，宮島千代美，西浦敬信，中山雅人，藤本雅清，山本一公，滝口哲也，黒岩眞吾，武田一哉，中村哲，“CENSREC-1-C：雑音下音声区間検出評価基盤の構築，”情報処理学会研究報告，SLP-63-1,pp.1-6,Oct.2006.

CENSREC-1-Cは、人工的に作成したシミュレーションデータと、実環境で収録した実データの２種類のデータを含んでおり、本実験では、実環境における音声品質劣化の影響（雑音及び、発声変形の影響等）を調査するため、実データを用いて評価を行う。

CENSREC-1-Cの実データの収録は、学生食堂（Restaurant）と高速道路付近（Street）の２種類の環境で行われており、ＳＮＲはそれぞれ、ＨｉｇｈＳＮＲ（平均騒音レベル約６０ｄＢ（Ａ）であり、ＳＮＲレベルで５〜１５ｄＢ程度である。）とＬｏｗＳＮＲ（平均騒音レベル約７０ｄＢ（Ａ）であり、ＳＮＲレベルで０〜５ｄＢ程度である。）である。音声データは、１名の話者が１〜１２桁の連続数字を８〜１０回、約２秒間隔で発話した音声を１ファイルとして収録しており、各環境において話者１名あたり４ファイルを収録している。発話者は１０名（男女各５名）である（ただし評価対象は男性１名を除く９名分のデータ）。それぞれの信号は、サンプリング周波数は８，０００Ｈｚ、量子化ビット数１６ビットで離散サンプリングされたものである。この音響信号に対して、１フレームの時間長を２５ｍｓ（２００サンプル点）とし、１０ｍｓ（８０サンプル点）ごとにフレームの始点を移動させて、第１音響信号分析部（１４）、第２音響信号分析部（１５）を適用した。

ＧＭＭ（３０６，３０７）には、２４次元の対数メルスペクトルを音響特徴量とする混合分布数３２のモデルを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。ＧＭＭ（６１３，６１４）には、１次元の周期性成分パワーと非周期性成分パワーの比（６１０）を音響特徴量とする混合分布数３２のモデルを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。

パラメータ予測処理（Ｓ４０６）においてεのパラメータ値には０．００１を設定し、処理（Ｓ５０３）において、後向き推定に要するフレーム数Ｂには５を設定した。状態遷移確率テーブル（１０４）において、状態遷移確率ａ_i,j(９３〜９６)の値にはそれぞれ、０．８，０．２，０．９，０．１を設定した。音声信号区間推定部（１８）において、閾値ＴＨの値には１０を設定した。

性能の評価は次式の区間検出正解率Correct rateと区間検出正解精度Accuracyで行った。

上式のＮは総発話区間数、Ｎ_ｃは正解発話区間検出数、Ｎ_ｆは誤発話区間検出数である。Correct rateは、発話区間をどれだけ多く検出できるかを評価する尺度である。Accuracyは、発話区間をどれだけ過不足なく検出できるかを評価する尺度であり、式（７３）に従い負値を取ることも許容する。

図１２は、評価結果であり、図１２（ａ）、図１２（ｂ）、図１２（ｃ）は、それぞれCENSREC-1-Cデータベースに規定されたベースライン、上記非特許文献１、上記非特許文献２に開示された方法による結果であり、図１２（ｄ）は本発明による結果を示す。
図１２の結果から、本発明により従来技術に比べて極めて高い性能を得られることが明らかとなった。

本発明による音声信号区間推定装置の一実施形態の機能構成例を示す図。第１音響信号分析部の機能構成例を示す図。確率推定部の機能構成例を示す図。前向き推定部の処理フロー。後向き推定部の処理フロー。第２音響信号分析部の機能構成例を示す図。第２音響信号分析部の処理フロー。重み算出部の処理フロー。音声状態／非音声状態の状態遷移モデル。音声／非音声状態合成確率比算出部の機能構成例を示す図。音声／非音声状態合成確率比算出部の処理フロー。本発明と従来技術による音声信号区間推定の比較実験結果。

符号の説明

１０音声信号区間推定装置
１４第１音響信号分析部
１５第２音響信号分析部
１６重み算出部
１７音声状態／非音声状態合成確率比算出部
１８音声信号区間推定部

Claims

音響信号において音声信号が存在する区間（以下、音声信号区間という。）を推定する音声信号区間推定装置であって、
上記音響信号をフレーム単位に分割し、フレームの音響特徴量から、前記フレームの音声状態確率および非音声状態確率を求める第１音響信号分析手段と、
上記音響信号をフレーム単位に分割し、フレームの基本周波数に含まれる周期性成分および非周期性成分から、前記フレームの音声状態確率および非音声状態確率を求める第２音響信号分析手段と、
上記第１音響信号分析手段によって得られた上記フレームの音声状態確率／非音声状態確率と、上記第２音響信号分析手段によって得られた上記フレームの音声状態確率／非音声状態確率とを用いて、それぞれに対して重み付けする重みを求める重み算出手段と、
上記第１音響信号分析手段によって得られた上記フレームの音声状態確率と、上記第２音響信号分析手段によって得られた上記フレームの音声状態確率とを、上記重み算出手段によって得られた重みによって重み付けして合成した音声状態合成確率と、上記第１音響信号分析手段によって得られた上記フレームの非音声状態確率と、上記第２音響信号分析手段によって得られた上記フレームの非音声状態確率とを、上記重み算出手段によって得られた重みによって重み付けして合成した非音声状態合成確率とを求め、上記音声状態合成確率と、上記非音声状態合成確率と、音声状態と非音声状態との間の状態遷移モデルとに基づき、上記フレームが音声状態に属する確率（以下、音声状態尤度という。）と上記フレームが非音声状態に属する確率（以下、非音声状態尤度という。）を求める音声状態確率／非音声状態確率算出手段と、
上記音声状態確率／非音声状態確率算出手段によって得られた上記音声状態尤度と上記非音声状態尤度から、上記フレームが音声信号区間であるか否かを判定する音声信号区間推定手段とを備え、
上記重み算出手段は、
上記第１音響信号分析手段によって得られた上記フレームの音声状態確率／非音声状態確率に重み付けする重みαと、上記第２音響信号分析手段によって得られた上記フレームの音声状態確率／非音声状態確率に重み付けする重みβとを、上記第１音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差と、上記第２音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差とに応じて按分して求める
ことを特徴とする音声信号区間推定装置。
上記重み算出手段は、
上記第１音響信号分析手段によって得られた上記フレームの音声状態確率がその非音声状態確率以上あるいはより大であり、かつ、上記第２音響信号分析手段によって得られた上記フレームの音声状態確率がその非音声状態確率以上あるいはより大である場合、あるいは、上記第１音響信号分析手段によって得られた上記フレームの音声状態確率がその非音声状態確率未満あるいは以下であり、かつ、上記第２音響信号分析手段によって得られた上記フレームの音声状態確率がその非音声状態確率未満あるいは以下である場合において、上記第１音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差が、上記第２音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差以上あるいはより大である場合には、上記重みβを０とし、上記第１音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差が、上記第２音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差未満あるいは以下である場合には、上記重みαを０とする
ことを特徴とする請求項１に記載の音声信号区間推定装置。
上記第１音響信号分析手段が、
上記音響信号をフレーム単位に分割し、フレームの音響特徴量を求める音響特徴量抽出手段と、
予め用意した無音信号とクリーン音声信号の各音響モデルである無音確率モデルおよびクリーン音声確率モデルと、上記音響特徴量抽出手段によって得られた音響特徴量とを用いて並列カルマンフィルタ処理および並列カルマンスムーザ処理を行うことで、音声信号の確率モデル（以下、音声確率モデルという。）と非音声信号の確率モデル（以下、非音声確率モデルという。）を生成し、上記音響特徴量に前記音声確率モデルを適用して上記フレームの音声状態確率を求め、上記音響特徴量に前記非音声確率モデルを適用して上記フレームの非音声状態確率を求める確率推定手段と
を備えたことを特徴とする請求項１または請求項２に記載の音声信号区間推定装置。
上記第２音響信号分析手段が、
上記フレームの基本周波数に含まれる周期性成分を求める周期性成分算出手段と、
上記フレームの基本周波数に含まれる非周期性成分を求める非周期性成分算出手段と、
上記周期性成分算出手段によって得られた周期性成分と上記非周期性成分算出手段によって得られた非周期性成分との比（以下、周期性成分・非周期性成分比という。）を算出する周期性成分・非周期性成分比算出手段と、
上記周期性成分・非周期性成分比算出手段によって得られた上記周期性成分・非周期性成分比と、予め用意した無音信号とクリーン音声信号の各音響モデルである無音確率モデルおよびクリーン音声確率モデルとを用いて、前記フレームの音声状態確率および非音声状態確率を求める確率算出手段と
を備えたことを特徴とする請求項１から請求項３のいずれかに記載の音声信号区間推定装置。
上記音声状態確率／非音声状態確率算出手段は、
上記音声状態尤度を、上記状態遷移モデル上の１次マルコフ過程の前向き確率と後向き確率との積として求め、
上記非音声状態尤度を、上記状態遷移モデル上の１次マルコフ過程の前向き確率と後向き確率との積として求める
ことを特徴とする請求項１から請求項４のいずれかに記載の音声信号区間推定装置。
音響信号において音声信号が存在する区間（以下、音声信号区間という。）を推定する音声信号区間推定方法であって、
第１音響信号分析手段が、上記音響信号をフレーム単位に分割し、フレームの音響特徴量から、前記フレームの音声状態確率および非音声状態確率を求める第１音響信号分析ステップと、
第２音響信号分析手段が、上記音響信号をフレーム単位に分割し、フレームの基本周波数に含まれる周期性成分および非周期性成分から、前記フレームの音声状態確率および非音声状態確率を求める第２音響信号分析ステップと、
重み算出手段が、上記第１音響信号分析手段によって得られた上記フレームの音声状態確率／非音声状態確率と、上記第２音響信号分析手段によって得られた上記フレームの音声状態確率／非音声状態確率とを用いて、それぞれに対して重み付けする重みを求める重み算出ステップと、
音声状態確率／非音声状態確率算出手段が、上記第１音響信号分析ステップによって得られた上記フレームの音声状態確率と、上記第２音響信号分析ステップによって得られた上記フレームの音声状態確率とを、上記重み算出ステップによって得られた重みによって重み付けして合成した音声状態合成確率と、上記第１音響信号分析ステップによって得られた上記フレームの非音声状態確率と、上記第２音響信号分析ステップによって得られた上記フレームの非音声状態確率とを、上記重み算出ステップによって得られた重みによって重み付けして合成した非音声状態合成確率とを求め、上記音声状態合成確率と、上記非音声状態合成確率と、音声状態と非音声状態との間の状態遷移モデルとに基づき、上記フレームが音声状態に属する確率（以下、音声状態尤度という。）と上記フレームが非音声状態に属する確率（以下、非音声状態尤度という。）を求める音声状態確率／非音声状態確率算出ステップと、
音声信号区間推定手段が、上記音声状態確率／非音声状態確率算出ステップによって得られた上記音声状態尤度と上記非音声状態尤度から、上記フレームが音声信号区間であるか否かを判定する音声信号区間推定ステップと、を備え、
上記重み算出ステップは、
上記第１音響信号分析ステップによって得られた上記フレームの音声状態確率／非音声状態確率に重み付けする重みαと、上記第２音響信号分析ステップによって得られた上記フレームの音声状態確率／非音声状態確率に重み付けする重みβとを、上記第１音響信号分析ステップによって得られた上記フレームの音声状態確率とその非音声状態確率との差と、上記第２音響信号分析ステップによって得られた上記フレームの音声状態確率とその非音声状態確率との差とに応じて按分して求める
ことを特徴とする音声信号区間推定方法。
上記重み算出ステップは、
上記第１音響信号分析ステップによって得られた上記フレームの音声状態確率がその非音声状態確率以上あるいはより大であり、かつ、上記第２音響信号分析ステップによって得られた上記フレームの音声状態確率がその非音声状態確率以上あるいはより大である場合、あるいは、上記第１音響信号分析ステップによって得られた上記フレームの音声状態確率がその非音声状態確率未満あるいは以下であり、かつ、上記第２音響信号分析ステップによって得られた上記フレームの音声状態確率がその非音声状態確率未満あるいは以下である場合において、上記第１音響信号分析ステップによって得られた上記フレームの音声状態確率とその非音声状態確率との差が、上記第２音響信号分析ステップによって得られた上記フレームの音声状態確率とその非音声状態確率との差以上あるいはより大である場合には、上記重みβを０とし、上記第１音響信号分析ステップによって得られた上記フレームの音声状態確率とその非音声状態確率との差が、上記第２音響信号分析ステップによって得られた上記フレームの音声状態確率とその非音声状態確率との差未満あるいは以下である場合には、上記重みαを０とする
ことを特徴とする請求項６に記載の音声信号区間推定方法。
上記第１音響信号分析ステップは、
音響特徴量抽出手段が、上記音響信号をフレーム単位に分割し、フレームの音響特徴量を求める音響特徴量抽出ステップと、
確率推定手段が、予め用意した無音信号とクリーン音声信号の各音響モデルである無音確率モデルおよびクリーン音声確率モデルと、上記音響特徴量抽出ステップによって得られた音響特徴量とを用いて並列カルマンフィルタ処理および並列カルマンスムーザ処理を行うことで、音声信号の確率モデル（以下、音声確率モデルという。）と非音声信号の確率モデル（以下、非音声確率モデルという。）を生成し、上記音響特徴量に前記音声確率モデルを適用して上記フレームの音声状態確率を求め、上記音響特徴量に前記非音声確率モデルを適用して上記フレームの非音声状態確率を求める確率推定ステップと
を備えたことを特徴とする請求項６または請求項７に記載の音声信号区間推定方法。
上記第２音響信号分析ステップは、
周期性成分算出手段が、上記フレームの基本周波数に含まれる周期性成分を求める周期性成分算出ステップと、
非周期性成分算出手段が、上記フレームの基本周波数に含まれる非周期性成分を求める非周期性成分算出ステップと、
周期性成分・非周期性成分比算出手段が、上記周期性成分算出ステップによって得られた周期性成分と上記非周期性成分算出ステップによって得られた非周期性成分との比（以下、周期性成分・非周期性成分比という。）を算出する周期性成分・非周期性成分比算出ステップと、
確率算出手段が、上記周期性成分・非周期性成分比算出ステップによって得られた上記周期性成分・非周期性成分比と、予め用意した無音信号とクリーン音声信号の各音響モデルである無音確率モデルおよびクリーン音声確率モデルとを用いて、前記フレームの音声状態確率および非音声状態確率を求める確率算出ステップと
を備えたことを特徴とする請求項６から請求項８のいずれかに記載の音声信号区間推定方法。
上記音声状態確率／非音声状態確率算出ステップは、
上記音声状態尤度を、上記状態遷移モデル上の１次マルコフ過程の前向き確率と後向き確率との積として求め、
上記非音声状態尤度を、上記状態遷移モデル上の１次マルコフ過程の前向き確率と後向き確率との積として求める
ことを特徴とする請求項６から請求項９のいずれかに記載の音声信号区間推定方法。
請求項１から請求項５のいずれかに記載された音声信号区間推定装置としてコンピュータを機能させるための音声信号区間推定プログラム。
請求項１１に記載の音声信号区間推定プログラムを記録した、コンピュータに読み取り可能な記録媒体。