JP2008145923A

JP2008145923A - 音声信号区間推定装置、その方法、そのプログラム及び記録媒体

Info

Publication number: JP2008145923A
Application number: JP2006335536A
Authority: JP
Inventors: Masakiyo Fujimoto; 雅清藤本; Kentaro Ishizuka; 健太郎石塚; Hiroko Kato; 比呂子加藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-12-13
Filing date: 2006-12-13
Publication date: 2008-06-26
Anticipated expiration: 2026-12-13
Also published as: JP4673828B2

Abstract

【課題】雑音信号の統計的性質が時間に伴い変化する非定常雑音においても、信号の状態遷移を正確に把握して高精度に音声信号区間を推定することができる音声信号区間推定技術を提供する。
【解決手段】音響信号分析部１０にて、入力信号を一定区間単位で切り出したフレームごとに音響特徴量を抽出する。クリーン音声信号と無音信号の確率モデル（ＧＭＭ）を利用し、前向き推定部３０と後向き推定部４０にて、雑音モデルパラメータの推定をＧＭＭに含まれる複数の正規分布ごとに並列処理により、かつ時間軸に対し順方向だけでなく逆方向にも行う。推定された雑音モデルパラメータに基づき音声／非音声の出力確率及び雑音状態遷移確率を算出する。状態確率比算出部６０にてフレーム毎に非音声状態確率に対する音声確率の比を算出し、音声信号区間推定部７０にて算出された確率比と閾値を比較して、フレームごとに音声状態であるか非音声状態であるかを判定する。
【選択図】図１

Description

本発明は、音声信号と雑音信号が含まれる音響信号から、上記音声信号が存在する区間の推定を、音声状態確率、非音声状態確率を求めて行う音声信号区間推定装置、その方法、そのプログラム及びそのプログラムを記憶する記録媒体に関する。

音声信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音声信号処理技術の多くにおいては、処理対象とする音声信号以外の信号、つまり雑音信号が含まれる音響信号から、処理対象とする音声信号が存在する区間を推定する必要があり、この区間推定の精度がその後の処理の効果にも大きく影響する。よって、あらゆる音声信号処理技術の基礎となる技術であり、早急に解決されるべき問題である。
後掲の非特許文献１には、入力となる音響信号の周波数スペクトル、信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、信号波形の零交差数、およびそれらの時間微分などの特徴量を利用した音声信号区間推定方法が開示されている。これらの音響特徴を用いた音声信号区間推定方法では、入力される音響信号を２５ｍｓ程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴を算出し、その値が別途定めた閾値を超える場合には音声区間、そうでなければ非音声区間として判定する。

後掲の非特許文献２には、入力となる音響信号にWiener filter理論に基づく雑音除去を適用し、雑音除去後の信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、周波数スペクトルの分散値などの特徴量を利用した音声信号区間推定方法が開示されている。これらの音響特徴を用いた音声信号区間推定方法では、入力される音響信号を２５ｍｓ程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴を算出し、その値が別途定めた閾値を超える場合には音声区間、そうでなければ非音声区間として判定する。
後掲の非特許文献３には、信号の状態遷移を定義した音声信号区間推定方法が開示されている。この方法では、入力となる音響信号が時間経過とともに音声状態、および非音声状態を遷移する信号であると見なす。音声状態、および非音声状態の状態遷移は、入力信号が音声状態に属する確率、非音声状態に属する確率を基準として決定され、音声状態に属する信号のみを出力する。
また、音声信号区間推定の性能を改善させるための技術として、入力となる音響信号に含まれる、雑音信号を正確に推定する技術が必要となる。このような技術において、信号の統計的な特徴が時々刻々と変化する、非定常的な雑音信号の逐次推定技術が極めて重要である。

後掲の非特許文献４には、時系列パラメータの一般的な逐次推定方法であるカルマンフィルタが開示されている。この方法では、過去の時刻のパラメータが現在の時刻のパラメータに与える影響を考慮することにより最適なパラメータ推定結果を得る。
後掲の非特許文献５には、前記カルマンフィルタを発展させて非線形モデルにおいても推定が行えるようにした拡張（非線形）カルマンフィルタが開示されている。また、同じく前記カルマンフィルタの発展形であるカルマンスムーザについても開示されている。カルマンスムーザにおいては、過去の時刻だけでなく、未来の時刻のパラメータの関係を考慮することにより、より正確なパラメータ推定結果を得る。
Benyassine,A.,Shlomot,E.,and Su,H-Y."ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70digital simultaneous voice and data applications,"IEEE Communications Magazine, pp.64-73, September,1997. ETSI ES 202 050 v.1.1.4 "Speech processing,Transmission and Quality aspects(STQ), Advanced Distributed Speech Recognition; Front-end feature extraction algorithm; Compression algorithms,"Nov.2005. Sohn,J.,Kim,N.S.and Sung. W."A Statistical Model-Based Voice Activity Detection,"IEEE Signal Processing Letters,Vol.6,No.1,pp.1-3,January,1999. Kalman,R.E."A New Approach to Linear Filtering and Prediction Problems,"Transactions of the ASME-Journal of Basic Engineering,Vol.82,Series D,pp.35-45,1960. 片山徹、応用カルマンフィルタ、第５章及び第７章、朝倉書店、1983

非特許文献１、非特許文献２、および非特許文献３に記載の技術は、入力音響信号に含まれる雑音信号の特徴が、定常的なものであるという前提のもとで音声信号区間推定を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴をもっている。すなわち、雑音信号の統計的な特徴が、時間の経過に伴い変動する。そのため、非特許文献１、非特許文献２、および非特許文献３に記載の技術では、雑音の時間変動に対応できず、高精度に音声信号区間の推定を行うことができない。
非定常的な雑音信号の推定について、非特許文献４、および非特許文献５に記載の技術では、カルマンフィルタ、およびカルマンスムーザを用いて目的信号の逐次推定を行う。前者のカルマンフィルタは時間に対して順方向に推定を行う方法であり、後者のカルマンスムーザはカルマンフィルタの推定結果を時間に対して逆方向に再推定を行う方法である。しかし、これらの逐次推定方法は、各時刻において１つの推定結果のみを出力する。つまり、ある時刻で致命的な誤差が発生した場合、その誤差が以降の時刻の推定結果に影響を与え、誤差の回復が困難となる。

また、非特許文献３に記載の技術は、入力音響信号が音声状態と非音声状態に相互に状態遷移することに着目して、音声信号区間推定を行う技術である。しかし、遷移先の状態の決定は、過去の信号の状態のみに依存し、未来の信号の状態に対する影響を考慮しておらず、信号の正確な状態遷移を表現できない。
それゆえに、本発明の目的は、入力音響信号に含まれる非定常的な雑音信号の推定を行って定常的な雑音信号以外にも適用可能であり、さらに入力音響信号の過去、現在のみでなく、未来の時刻における状態の影響を考慮した、高精度な音声信号区間を推定する装置、その方法、そのプログラム及び記録媒体を提供することにある。

本発明の音声信号区間推定装置は、音響信号分析部、無雑音モデル記憶部、前向き推定部、後向き推定部、パラメータ記憶部、状態確率比算出部、及び音声信号区間推定部を具備する。
音声信号分析部は、前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する。
無雑音モデル記憶部は、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ：Gaussian Mixture Model）パラメータを記憶する。
前向き推定部は、前記音声特徴量と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定して出力する。

後向き推定部は、前記前向き推定部から出力された雑音モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声（雑音＋クリーン音声）と非音声（雑音＋無音）それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出し出力するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の１フレーム前から現フレームへの雑音状態遷移確率を算出し出力する。

パラメータ記憶部は、前向き推定部及び後向き推定部における処理の過程で得られた計算結果を記憶する。
状態確率比算出部は、前記音声と非音声それぞれの出力確率と前記雑音状態遷移確率とが入力され、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を出力する。
音声信号区間推定部は、前記状態確率の比が入力され、フレームごとにしきい値と比較して、音声状態か非音声状態のいずれかを比較結果として出力する。

本発明の音声信号区間推定装置は、無音信号及びクリーン音声信号それぞれの確率モデル（ＧＭＭ）に含まれる複数の正規分布ごとに、複数の雑音パラメータを時間に対して順方向に推定し、更に逆方向にも推定し、得られた複数の推定結果について加重平均をとることによりその時刻の雑音パラメータを決定する。そのため、雑音信号の統計的性質が時間に伴い変化する非定常雑音においても、信号の状態遷移を正確に把握して高精度に音声信号区間を推定でき、また、ある時刻で大きな誤差が生じたとしても、以降の時刻にその影響を及ぼすことなく推定をすることができる。

以下、図面を参照しつつ、本発明の実施例について説明する。なお、以下の説明に用いる図面では、同一の部品には同一の符号を記してある。それらの名称、機能も同一であり、それらについての説明は繰り返さない。
以下の説明において、テキスト中で使用する記号「＾」「〜」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。以下の説明において、ベクトルについては例えば「ベクトルＡ」のように直前に「ベクトル」を付与して記載する。また、ベクトルの各要素単位で行われる処理は、特に断りが無い限り、ベクトルの全ての要素に対して適用されるものとする。

〔第１実施形態〕
図１は、本発明の音声信号区間推定装置１の機能構成例である。
音声信号区間推定装置１は、音響結合量分析部１０、無雑音モデル記憶部２０、前向き推定部３０、後向き推定部４０、パラメータ記憶部５０、状態確率比算出部６０、音声信号区間推定部７０から構成される。
音響結合量分析部１０は、音声信号と雑音信号が重畳された音響信号Ｏ(t)が入力され、まず、この音響信号Ｏ(t)を時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出す。例えば、１６０サンプル点長（サンプリング周波数８０００Ｈｚで時間長２０ｍｓ）の音響信号を８０サンプル点（サンプリング周波数８０００Ｈｚで時間長１０ｍｓ）ずつ始点を移動させながら切り出す。
そして、切り出された音響信号に対して高速フーリエ変換及び２４次元のメルフィルタバンク分析を適用し、２４次元の対数メルスペクトルを要素に持つ、ベクトルＯ_ｔ＝{Ｏ_t、0，・・・，Ｏ_t、l，・・・，Ｏ_t、23}（時刻ｔのフレームにおける音声特徴量、ｌはベクトルの要素番号）を算出し出力する。

なお、本発明では音声信号（及び無音信号、クリーン音声信号）、雑音信号を次のように定義する。
雑音が全く存在しない防音室等で録音を行っても、録音された信号には極微小で白色的な雑音が観測される。本発明では、このような環境において観測される信号を無音信号と定義する。
従って、無音信号も雑音の一種であるといえるが、この雑音は録音機材等の電気回路や転送系などの電気的要因により発生する雑音である。一方、自動車の走行音や風の音などは、音波が大気中を伝わって観測される音響的要因により発生する雑音である。本発明では、電気的要因による雑音と音響的要因による雑音とを区別し、後者のみを雑音信号と定義する。

また、無音信号が観測されている環境において発話を行うと、発話音声信号が無音信号に重畳された形で観測される。本発明ではこの重畳された信号をクリーン音声信号と定義する。
そして、雑音信号が存在しない環境では、連続する無音信号の合間にクリーン音声信号が観測される。本発明では、これら無音信号とクリーン音声信号を総称して音声信号と定義する。
無雑音モデル記憶部２０は、あらかじめ用意したクリーン音声信号、無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ：Gaussian Mixture Model）を記憶する。複数の正規分布の数は多いほど推定精度の向上に寄与するが、処理速度上の問題とのトレードオフから実効的には２〜５１２個の間の値が望ましく、３２個程度が最も望ましい。
それぞれの正規分布は混合重みｗ_j,k、平均μ^S _j,k,l、分散σ^S _j,k,lをパラメータとして構成される。ここで、ｊはＧＭＭの種別（ｊ＝０：無音ＧＭＭ、ｊ＝１：クリーン音声ＧＭＭ）であり、ｋは各正規分布の番号である。

なお、ＧＭＭの構成方法については公知の技術なので説明を省略する。
図２は前向き推定部３０の機能構成例である。
前向き推定部３０は、雑音モデルパラメータ予測部３１、雑音モデルパラメータ更新部３２、前向き確率モデルパラメータ生成部３３、前向き音声／非音声出力確率算出部３４、前向き第１加重平均算出部３５、前向き雑音状態遷移確率推定部３６、前向き第２加重平均算出部３７から構成される。
雑音モデルパラメータ予測部３１は、前記音声特徴量Ｏ_t,lと時刻ｔ−１における前向き第２加重平均値^Ｎ_t-1,l、^σ^N _t-1、lとが入力され、平均値Ｎ_t,l ^predと分散値σ^N _t,l ^predとからなる雑音モデルパラメータ予測値を出力する。

具体的処理について、図３の処理手順に従い説明する。
まず、フレーム判定処理Ｓ３０１においてｔ＜１０であれば、バッファリング処理Ｓ３０２においてパラメータ記憶部５０に前記音響特徴量Ｏ_t,lを記憶する。フレーム判定処理Ｓ３０１においてｔ＝１０であれば、読み出し処理Ｓ３０３においてパラメータ記憶部５０からＯ_0,l、・・・、Ｏ_9,lを読み出し、初期パラメータ推定処理Ｓ３０４において初期の雑音モデルパラメータＮ_l ^init、σ^N _l ^initを以下のように推定する。

また、フレーム判定処理Ｓ３０１においてｔ＞１０であれば、読み出し処理Ｓ３０５においてパラメータ記憶部５０から１時刻前の前向き第２加重平均値^Ｎ_t-1,l、^σ^N _t-1、lを読み出す。
なお、Ｓ３０１〜３０５の処理においてｔ＝１０を基準に判定しているが、これは最も望ましい基準値としての例示であり、実効的にはｔ＝１〜２０の範囲で適宜設定してよい。
ｔ≧１０の場合は、次にパラメータ予測処理Ｓ３０６を行う。ｔ＞１０の場合は時刻ｔ−１における推定結果から現在の時刻の雑音モデルパラメータを以下のランダムウォーク過程により予測する。

上式において、Ｎ_t,l ^predとσ^N _t,l ^predは時刻ｔにおける雑音モデルパラメータ予測値であり、またεは雑音の変化の度合いを表す定数で実効的には０．０００１〜０．００１の間の値に設定するのが望ましく、０．００１程度が最も望ましい。また、ｔ＝１０の場合は以下のように予測する。

雑音モデルパラメータ更新部３２は、前記音声特徴量Ｏ_t,lと前記雑音モデルパラメータ予測値Ｎ_t,l ^pred、σ^N _t,l ^predと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμ^S _j,k,l、σ^S _j,k,lとが入力され、平均値^Ｎ_t,j,k,lと分散値^σ^N _{t、j、k、l}とからなる雑音モデルパラメータ更新値を出力する。

具体的処理について、図３の処理手順に従い説明する。
パラメータ更新処理Ｓ３０７においては、前記クリーン音声信号、無音信号それぞれの確率モデルパラメータは正規分布ごとに複数存在するため、これら複数のパラメータを使って、かつそれぞれ並行して前記雑音モデルパラメータ予測値の更新処理を行う。すなわち、前記クリーン音声信号、無音信号それぞれの確率モデルに含まれる正規分布の合計数と同数の更新結果を得る。更新処理は次式により行う。

式(11)と式(12)で求められた^Ｎ_t,j,k,lと^σ^N _{t、j、k、l}とが雑音モデルパラメータ更新値である。
前向き確率モデルパラメータ生成部３３は、前記雑音モデルパラメータ更新値^Ｎ_t,j,k,l、^σ^N _{t、j、k、l}と前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμ^S _j,k,l、σ^S _j,k,lとが入力され、平均値μ^O _t,j,k,lと分散値σ^O _{t、j、k、l}とからなる前向き確率モデルパラメータを出力する。

具体的処理について、図３の処理手順に従い説明する。
確率モデルパラメータ生成処理Ｓ３０８では、時刻ｔにおける雑音環境に適合した、音声（雑音＋クリーン音声：ｊ＝１）、非音声（雑音＋無音：ｊ＝０）それぞれの確率モデルパラメータμ^O _t,j,k,l、σ^O _{t、j、k、l}を次式により生成する。

なお、ここでの混合重みは前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みｗ_j,kであるものとして以降の処理を行う。
前向き音声／非音声出力確率算出部３４は、前記音声特徴量Ｏ_t,lと前記音声、非音声それぞれの確率モデルパラメータμ^O _t,j,k,l、σ^O _{t、j、k、l}と前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みｗ_j,kとが入力され、時刻ｔにおける音声・非音声の前向き出力確率ｂ_ｊ(Ｏ_ｔ）と、この前向き出力確率ｂ_ｊ(Ｏ_ｔ）を前記正規分布ｋごとに分解して正規化した前向き正規化出力確率ｗ^OF _j,kとを出力する。

具体的処理について、図３の処理手順に従い説明する。
出力確率算出処理Ｓ３０９では、前記音声特徴量Ｏ_t,lをＳ３０８の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の前向き出力確率ｂ_ｊ(Ｏ_ｔ）を次式により求める。

また、上式のｗ_j,kｂ_j,k(Ｏ_ｔ)は、音声、非音声それぞれの確率モデルに含まれる各正規分布ｋの出力確率であり、ｗ_j,kｂ_j,k(Ｏ_ｔ)の合計が１になるよう次式で正規化を行う。

上式のｗ^OF _j,kが、音声、非音声それぞれの確率モデルに含まれる各正規分布ｋの前向き正規化出力確率である。
前向き第１加重平均算出部３５は、前記雑音モデルパラメータ更新値^Ｎ_t,j,k,l、^σ^N _{t、j、k、l}と前記前向き正規化出力確率ｗ^OF _j,kとが入力され、平均値^Ｎ_t,j,lと分散値^σ^N _t、j、lとからなる雑音モデルパラメータの前向き第１加重平均値を出力する。

具体的処理について、図３の処理手順に従い説明する。
第１加重平均処理Ｓ３１０では、パラメータ更新処理Ｓ３０７で得られた複数の雑音モデルパラメータ更新結果を出力確率算出処理Ｓ３０９で得られた前向き正規化出力確率ｗ^OF _j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である前向き第１加重平均値^Ｎ_t,j,l、^σ^N _t、j、lを得る。加重平均は次式により行う。

前向き雑音状態遷移確率算出部３６は、前記雑音モデルパラメータ更新値^Ｎ_t,j,k,lと前記前向き正規化出力確率ｗ^OF _j,kと時刻ｔ−１における前向き第２加重平均値^Ｎ_t-1,lとが入力され、前向き雑音状態遷移確率ｃ_t,jを出力する。

具体的処理について、図３の処理手順に従い説明する。
状態遷移確率算出処理Ｓ３１１では、まず、時刻ｔ−１における推定結果（前向き第２加重平均値^Ｎ_t-1,l）から時刻ｔにおける推定結果^Ｎ_t,j,lへの状態遷移確率ｄ_t,jを次式により算出する。

そして、ｄ_t,jの合計が１になるように次式で正規化を行い、前向き雑音状態遷移確率ｃ_t,jを得る。

前向き第２加重平均算出部３７は、前記前向き第１加重平均値^Ｎ_t,j,l、^σ^N _t、j、lと前記前向き出力確率ｂ_ｊ(Ｏ_ｔ）と前記前向き雑音状態遷移確率ｃ_t,jとが入力され、平均値^Ｎ_t,lと分散値^σ^N _t、lとからなる時刻ｔにおける前向き第２加重平均値を出力する。

具体的処理について、図３の処理手順に従い説明する。
第２加重平均処理Ｓ３１２では、第１加重平均処理Ｓ３１０で得られた前向き第１加重平均値^Ｎ_t,j,l、^σ^N _t、j、lを、出力確率算出処理Ｓ３０９で得られた前向き出力確率ｂ_ｊ(Ｏ_ｔ）、及び状態遷移確率算出処理Ｓ３１１で得られた前向き雑音状態遷移確率ｃ_t,jとを用いて加重平均することにより、時刻ｔにおける雑音モデルパラメータ推定結果である前向き第２加重平均値^Ｎ_t,l、^σ^N _t、lを算出し、次の時刻の雑音パラメータの推定に利用する。加重平均は次式により行う。

最後にＳ３１３のバッファリング処理で、Ｓ３０１〜３１２の処理により得られた当該時刻ｔにおける音声特徴量Ｏ_t,l、雑音モデルパラメータ予測値Ｎ_t,l ^pred、σ^N _t,l ^pred、雑音モデルパラメータ更新値^Ｎ_t,j,k,l、^σ^N _{t、j、k、l}、及び前向き第２加重平均値^Ｎ_t,l、^σ^N _t、lがパラメータ記憶部５０に記憶される。
式(3)(4)の予測処理、及び式(7)〜(12)の更新処理は、従来の非線形カルマンフィルタと計算式の構成自体は同様であるが、本発明ではクリーン音声信号、無音信号それぞれのＧＭＭに含まれる複数の正規分布ごとに複数のフィルタを構成し、これらを利用することにより得られる複数の推定結果を加重平均する（並列非線形カルマンフィルタ）。このような処理を行うことによって、より正確な雑音モデルのパラメータ推定が実現される。

図４は後向き推定部４０の機能構成例である。
後向き推定部４０は、雑音モデルパラメータ再推定部４２、後向き確率モデルパラメータ生成部４３、後向き音声／非音声出力確率算出部４４、後向き第１加重平均算出部４５、後向き雑音状態遷移確率推定部４６、後向き第２加重平均算出部４７から構成される。
雑音モデルパラメータ再推定部４２は、パラメータ記憶部５０に記憶された時刻ｓにおける雑音モデルパラメータ予測値Ｎ_s,l ^pred、σ^N _s,l ^pred、時刻ｓ−１における雑音モデルパラメータ更新値^Ｎ_s-1,j,k,l、^σ^N _{s-1、j、k、l}及び時刻ｓにおける雑音モデルパラメータ再推定値〜Ｎ_s,j,k,l、〜σ^N _{s、j、k、l}とが入力され、平均値〜Ｎ_s-1,j,k,lと分散値〜σ^N _{s-1、j、k、l}とからなる時刻ｓ−１における雑音モデルパラメータ再推定値を出力する。

具体的処理について、図５の処理手順に従い説明する。
まず、フレーム判定処理Ｓ４０１においてｔ＜１０であれば、変数設定処理Ｓ４０２において変数ｔｂを０に設定して処理を終了する。ｔ≧１０の場合、変数判定処理Ｓ４０３においてｔｂが後向き推定に要するフレーム数Ｂ未満であれば変数書替処理Ｓ４０４にてｔｂの値を１加算して処理を終了し、ｔｂの値がＢ以上であれば変数設定処理Ｓ４０５において後向き推定用カウンタ値ｂｗにＢを設定する。Ｂは大きいほど推定精度向上に寄与する反面、処理速度を損なうため、実効的には１〜１０の間の値に設定するのが望ましく、１０程度が最も望ましい。

次に読み出し処理Ｓ４０６において、パラメータ記憶部５０から前向き推定部３０において算出された時刻ｓ＝ｔ−Ｂ＋ｂｗにおける雑音モデルパラメータ予測値Ｎ_s,l ^pred、σ^N _s,l ^pred、時刻ｓ−１における音響特徴量Ｏ_s-1,l、時刻ｓ−１における雑音モデルパラメータ更新値^Ｎ_s-1,j,k,l、^σ^N _{s-1、j、k、l}、及び後向き推定部４０において算出された時刻ｓ＝ｔ−Ｂ＋ｂｗにおける雑音モデルパラメータ再推定値〜Ｎ_s,j,k,l、〜σ^N _{s、j、k、l}を読み出す。なお、ｂｗ＝Ｂ、すなわち時刻ｓ＝ｔの場合は、^Ｎ_t,j,k,l、^σ^N _{t、j、k、l}、^Ｎ_t,l、^σ^N _t、lを読み出し、〜Ｎ_s,j,k,l＝^Ｎ_t,j,k,l、〜σ^N _{s、j、k、l}＝^σ^N _{t、j、k、l}、〜Ｎ_s,l＝^Ｎ_t,l、〜σ^N _s、l＝^σ^N _t、lとする。
そして、パラメータ平滑処理Ｓ４０７において、後向き推定を用いて次式によるパラメータの再推定（平滑化）を行う。

式(27)と式(28)で求められた〜Ｎ_s-1,j,k,lと〜σ^N _{s-1、j、k、l}とが雑音モデルパラメータ再推定値である。なお、〜Ｎ_s-1,j,k,lと〜σ^N _{s-1、j、k、l}は次回の平滑処理のためにパラメータ記憶部５０に記憶する。
後向き確率モデルパラメータ生成部４３は、前記雑音モデルパラメータ再推定値〜Ｎ_s-1,j,k,l、〜σ^N _{s-1、j、k、l}と前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμ^S _j,k,l、σ^S _j,k,lとが入力され、平均値μ^O _s-1,j,k,lと分散値σ^O _{s-1、j、k、l}とからなる後向き確率モデルパラメータを出力する。

具体的処理について、図５の処理手順に従い説明する。
確率モデルパラメータ生成処理Ｓ４０８では、時刻ｓ−１における雑音環境に適合した、音声（雑音＋クリーン音声：ｊ＝１）、非音声（雑音＋無音：ｊ＝０）それぞれの確率モデルパラメータμ^O _s-1,j,k,l、σ^O _{s-1、j、k、l}を次式により生成する。

なお、ここでの混合重みについても前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みｗ_j,kであるものとして以降の処理を行う。
後向き音声／非音声出力確率算出部４４は、前記音声特徴量Ｏ_s-1,lと前記音声、非音声それぞれの確率モデルパラメータμ^O _s-1,j,k,l、σ^O _{s-1、j、k、l}と前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みｗ_j,kとが入力され、時刻ｓ−１における音声・非音声の出力確率ｂ_ｊ(Ｏ_s-1）と、この出力確率ｂ_ｊ(Ｏ_s-1）を前記正規分布ｋごとに分解して正規化した後向き正規化出力確率ｗ^OB _j,kとを出力する。

具体的処理について、図５の処理手順に従い説明する。
出力確率算出処理Ｓ４０９では、前記音声特徴量Ｏ_s-1,lをＳ４０８の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の出力確率ｂ_ｊ(Ｏ_s-1）を次式により求める。

また、上式のｗ_j,kｂ_j,k(Ｏ_s-1)は、音声、非音声それぞれの確率モデルに含まれる各正規分布ｋの出力確率であり、ｗ_j,kｂ_j,k(Ｏ_s-1)の合計が１になるよう次式で正規化を行う。

上式のｗ^OB _j,kが、音声、非音声それぞれの確率モデルに含まれる各正規分布ｋの後向き正規化出力確率である。
後向き第１加重平均算出部４５は、前記雑音モデルパラメータ再推定値〜Ｎ_s-1,j,k,l、〜σ^N _{s-1、j、k、l}と前記後向き正規化出力確率ｗ^OB _j,kとが入力され、平均値〜Ｎ_s-1,j,lと分散値〜σ^N _s-1、j、lとからなる雑音モデルパラメータの後向き第１加重平均値を出力する。

具体的処理について、図５の処理手順に従い説明する。
第１加重平均処理Ｓ４１０では、パラメータ平滑処理Ｓ４０７で得られた複数の雑音モデルパラメータ更新結果を出力確率算出処理Ｓ４０９で得られた後向き正規化出力確率ｗ^OB _j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である後向き第１加重平均値〜Ｎ_s-1,j,l、〜σ^N _s-1、j、lを得る。加重平均は次式により行う。

後向き雑音状態遷移確率算出部４６は、時刻ｓにおける後向き第２加重平均値〜Ｎ_s,lと時刻ｓ−１における前記雑音モデルパラメータ再推定値〜Ｎ_s-1,j,k,lと時刻ｓ−１における後向き第1加重平均値〜Ｎ_s-1,j,lと前記後向き正規化出力確率ｗ^OB _j,kとが入力され、雑音状態遷移確率ｃ_s,jを出力する。

具体的処理について、図５の処理手順に従い説明する。
状態遷移確率算出処理Ｓ４１１では、まず、時刻ｓ−１における推定結果（後向き第１加重平均値〜Ｎ_s-1,j,l）から時刻ｓにおける推定結果〜Ｎ_s,lへの状態遷移確率ｄ_s,jを次式により算出する。

そして、ｄ_s,jの合計が１になるように次式で正規化を行い、雑音状態遷移確率ｃ_s,jを得る。

後向き第２加重平均算出部４７は、前記後向き第１加重平均値〜Ｎ_s-1,j,l、〜σ^N _s-1、j、lと前記出力確率ｂ_ｊ(Ｏ_s-1）と前記雑音状態遷移確率ｃ_s,jとが入力され、平均値〜Ｎ_s-1,lと分散値〜σ^N _s-1、lとからなる時刻ｓ−１における後向き第２加重平均値を出力する。

具体的処理について、図５の処理手順に従い説明する。
第２加重平均処理Ｓ４１２では、第１加重平均処理Ｓ４１０で得られた後向き第１加重平均値^Ｎ_s-1,j,l、^σ^N _s-1、j、lを、出力確率算出処理Ｓ４０９で得られた出力確率ｂ_ｊ(Ｏ_s-1）、及び状態遷移確率算出処理Ｓ４１１で得られた雑音状態遷移確率ｃ_s,jとを用いて加重平均することにより、時刻ｓ−１における雑音モデルパラメータ推定結果である後向き第２加重平均値〜Ｎ_s-1,l、〜σ^N _s-1、lを算出し、次の時刻の雑音パラメータの推定に利用する。加重平均は次式により行う。

そして、変数書替処理Ｓ４１３において、ｂｗの値を１減算（すなわち時刻ｓの値を１減算）し、変数判定処理Ｓ４１４において、ｂｗ＞０であれば処理Ｓ４０６に戻り、そうでなければ処理を終了する。
後向き推定部４０の各処理で得られた結果のうち、出力確率算出処理Ｓ４０９で得られた出力確率ｂ_ｊ(Ｏ_s-1）と状態遷移確率算出処理Ｓ４１１で得られた雑音状態遷移確率ｃ_s,jとが、状態確率比算出部６０における処理に使用される。

式 (26)〜(28)の平滑処理は、従来のカルマンスムーザと計算式の構成自体は同様であるが、本発明ではクリーン音声信号、無音信号それぞれのＧＭＭに含まれる複数の正規分布ごとに複数のフィルタを構成し、これらを利用することにより得られる複数の推定結果を加重平均する（並列カルマンスムーザ）。このような処理を行うことによって、より正確な雑音モデルのパラメータ推定が実現される。
パラメータ記憶部５０は、前向き推定部３０と後向き推定部４０における処理の過程で得られた計算結果を記憶する。

図６は状態確率比算出部６０の機能構成例である。
状態確率比算出部６０は、音声状態遷移確率テーブル６１、前向き確率算出部６２、後向き確率算出部６３、確率比算出用バッファ６４、確率比算出部６５から構成される。
音声状態遷移確率テーブル６１は、有限状態機械により表現された音声／非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率ａ_i,jを記憶する。

図７は、音声状態／非音声状態の状態遷移モデルであり、非音声状態Ｈ_０と音声状態Ｈ_１と各状態への音声状態遷移確率ａ_i,jとを含む（ｉは状態遷移元の状態番号、ｊは状態遷移先の状態番号で、状態番号０は非音声状態を、状態番号１は音声状態を示す）。ａ_i,jは音声状態確率及び非音声状態確率を求める上での基準となる値で、定数を設定しても入力信号の特徴に応じて適応的に決定しても構わないが、本発明においては定数を設定し、これを音声状態遷移確率テーブル６１に記憶して音声状態確率及び非音声状態確率の計算に使用する。この。設定するａ_i,jはａ_i,0＋ａ_i,1＝１を満たす値で、ａ_0,0及びａ_1,1を0.5〜0.9の範囲で、ａ_0,1及びａ_1,0を0.5〜0.1の範囲で設定するのが望ましく、ａ_0,0＝0.8、ａ_0,1＝0.2、ａ_1,0＝0.1、ａ_1,1＝0.9程度が最も望ましい。
前向き確率算出部６２は、前記出力確率ｂ_ｊ(Ｏ_s-1）と前記雑音状態遷移確率ｃ_s,jと、音声状態遷移確率ａ_i,jと、時刻ｓ−１の前向き確率α_s-1、jとが入力され、時刻ｓの前向き確率α_s、jを出力する。

具体的処理について、図８の処理手順に従い説明する。
音声状態確率及び非音声状態確率の算出は、まず前向き確率α_s、jを求め、続いて後向き確率β_s、jを求めて、それらの積をとることによって求める。そして、現在の時刻ｓの後向き確率β_s、jは、前記後向き推定部４０における計算と同様にＢフレーム未来の時刻ｓ＋Ｂから遡って算出する。
そこで、変数判定処理Ｓ６０１においては、例えばｔ＜１０＋Ｂ、すなわちｓ＜１０の場合は初期値設定処理Ｓ６０２において前向き確率α_s、jを以下のように設定し、それらをバッファリング処理Ｓ６０３において確率比算出用バッファ６４に記憶して処理を終了する。
α_s,0＝１ (42)
α_s,1＝０ (43)
ｔ＜１０＋Ｂでない場合、すなわちｓ≧１０の場合は、読み出し処理Ｓ６０４において、確率比算出用バッファ６４から時刻ｓ−１の前向き確率確率α_s-1、jを読み出す。

次に、前向き確率算出処理Ｓ６０５において音声状態遷移確率テーブル６１から音声状態確率ａ_i,jを読み出し、これと時刻ｓ−１の前記出力確率ｂ_ｊ(Ｏ_s-1）と時刻ｓの前記雑音状態遷移確率ｃ_s,jと時刻ｓ−１の前記前向き確率α_s-1、jとから次式により時刻ｓの前向き確率α_s、jを算出し、これらをバッファリング処理６０６において確率比算出用バッファ６４に記憶する。

後向き確率算出部６３は、時刻ｓ＋１の前記出力確率ｂ_ｊ(Ｏ_s+1）と時刻ｓ＋１の前記雑音状態遷移確率ｃ_s+1,jと、音声状態遷移確率ａ_i,jと、時刻ｓ＋１の後向き確率β_s+1、iとが入力され、時刻ｓの後向き確率β_s、iを出力する。

具体的処理について、図８の処理手順に従い説明する。
まず、変数設定処理Ｓ６０７において、後向き確率算出用のカウンタｂｗの値をＢに設定する。
次に、後向き確率算出処理Ｓ６０８において音声状態遷移確率テーブル６１から音声状態確率ａ_i,jを読み出し、これと時刻ｓ＋ｂｗの前記出力確率ｂ_ｊ(Ｏ_s+bw）と時刻ｓの前記雑音状態遷移確率ｃ_s+bw,jと時刻ｓ＋ｂｗの前記後向き確率β_bw、jとから時刻ｓ＋ｂｗ−１の後向き確率β_s+bw-1、iを次式により算出する。なお、ｂｗ＝Ｂの場合は初期値β_s+B,i＝１を与える。

そして、変数書替処理Ｓ６０９においてｂｗの値を１減算し、変数判定処理Ｓ６１０においてｂｗ＞０であれば処理Ｓ６０７に戻り、そうでなければこの時点で時刻ｓにおける後向き確率β_s,iが得られるので、これをバッファリング処理Ｓ６１１において確率比算出用バッファ６４に記憶し、確率比算出処理Ｓ６１２に移行する。
確率比算出用バッファ６４は、前向き確率算出部６２で算出された前向き確率α_s、jと、後向き確率算出部６３で算出されたと後向き確率β_s,iを記憶する。

確率比算出部６５は、前記前向き確率α_s、jと前記後向き確率β_s,iとが入力され、図８の確率比算出処理Ｓ６１２において、非音声状態の確率に対する音声状態の確率の比Ｌ(s)を次式により算出する。

つまり、状態確率比算出部６０は、該当時刻ｔよりもＢフレーム過去の時刻ｓ＝ｔ−Ｂにおける前向き確率α_s、j、後向き確率β_s,i、及び非音声状態の確率に対する音声状態の確率の比Ｌ(s)を算出することになる。

なお、式(46)は以下に示す過程を経て導かれる。
まず、時刻ｓにおける信号の状態をｑ_ｓ＝Ｈ_ｊと定義すると、音声状態確率と非音声状態の確率の比Ｌ(s)は次式により得られる。

上式において、Ｏ_0:s＝{Ｏ₀，・・・，Ｏ_s}であり、確率比Ｌ(s)はベイズの定理により次式のように展開される。

また、雑音信号Ｎ_0:s＝{Ｎ₀，・・・，Ｎ_s}の時間変動を考慮すると、上式は次式のように拡張される。

上式は、過去の時刻の状態を考慮した再帰式（１次マルコフ過程）により、次式のように展開される。

上式において、ｐ(ｑ_ｓ＝Ｈ_ｊ|ｑ_s-1＝Ｈ_ｉ)＝ａ_i,j、ｐ(Ｏ_ｓ|ｑ_ｓ＝Ｈ_ｊ,Ｎ_ｓ)＝ｂ_ｊ(Ｏ_ｓ)、ｐ(Ｎ_ｓ|ｑ_ｓ＝Ｈ_ｊ,Ｎ_s-1)＝ｃ_s,jに相当し、またｐ(Ｏ_ｓ,ｑ_ｓ＝Ｈ_ｊ,Ｎ_ｓ)は時間軸方向に算出される前向き確率α_s、jに相当する。すなわち上式は、次式の再帰式により得られる。

次に、時刻ｓより未来の時刻、すなわち時刻ｓ＋１，・・・，ｔ＝ｓ＋Ｂにおける状態の影響を考慮すると、確率比Ｌ(s)は次式のように表現される。

上式の確率ｐ(Ｏ_s+1:t,Ｎ_s+1:t|ｑ_ｓ＝Ｈ_ｉ,Ｎ_ｓ)は、時刻ｓより未来の時刻の状態を考慮した再帰式（１次マルコフ過程）により、次式のように展開される。

上式において、ｐ(ｑ_S+1＝Ｈ_ｊ|ｑ_s＝Ｈ_ｉ)＝ａ_i,j、ｐ(Ｏ_S+1|ｑ_S+1＝Ｈ_ｊ,Ｎ_S+1) ＝ｂ_ｊ(Ｏ_S+1)、ｐ(Ｎ_S+1|ｑ_S+1＝Ｈ_ｊ,Ｎ_s)＝ｃ_S+1,jに相当し、またｐ(Ｏ_S+1:t,Ｎ_S+1:t|ｑ_ｓ＝Ｈ_ｉ,Ｎ_ｓ)は時間軸方向に算出される後向き確率β_s、ｉに相当する。すなわち上式は、次式の再帰式により得られる。

つまり、式(52)に式(50)(51)及び式(52)(53)を適用することにより、式(46)が導かれる。

図９は音声信号区間推定部７０の機能構成例である。
音声信号区間推定部７０は、Ｌ(s)レジスタ７１、閾値ＴＨレジスタ７２、比較部７３から構成される。
Ｌ(s)レジスタ７１は、状態確率比算出部６０において算出された前記非音声状態の確率に対する音声状態の確率の比Ｌ(s）を入力し記憶する。
閾値ＴＨレジスタ７２は、比較部７３において前記確率比Ｌ(s)が音声状態に属するか非音声状態に属するかを判断する閾値ＴＨを記憶する。なお、閾値ＴＨの値は、事前に固定された値に決定しておいても、入力信号の特徴に応じて適応的に決定してもよい。固定値を設定する場合は、一般的には１０程度の値に設定するのが最も望ましいが、用途に応じ0.5〜10,000の範囲で適宜設定して構わない。
比較部７３は、Ｌ(s)レジスタ７１から前記確率比Ｌ(s)を読み出すとともに、閾値レジスタ７２から閾値ＴＨを読み出し、時刻ｓのフレームが音声状態に属するか非音声状態に属するかを判定し、判定結果を出力する。
具体的には、例えばＬ(s)の値が閾値ＴＨ以上であれば、時刻ｓのフレームが音声状態に属すると判断して１を出力し、閾値ＴＨ未満であれば、時刻ｓのフレームが非音声状態に属すると判断して０を出力する。

〔第２実施形態〕
本発明の第２実施形態は、第１実施形態における前向き第１加重平均算出部３５、前向き第２加重平均算出部３７、後向き第１加重平均算出部４５、及び後向き第２加重平均算出部４７における計算方法が異なるもので、装置構成は第１実施形態と同様である。
従って、機能構成例については第１実施形態における上記それぞれの部位の番号が異なるのみであるため、図を分けずに前向き推定部に係る図２及び後向き推定部に係る図４に第２実施形態における部位番号をカッコ書きで記すにとどめる。
前向き第１加重平均算出部１３５は、前記雑音モデルパラメータ更新値^Ｎ_t,j,k,l、^σ^N _{t、j、k、l}と前記前向き正規化出力確率ｗ^OF _j,kとが入力され、平均値^Ｎ_t,j,lと分散値^σ^N _t、j、lとからなる雑音モデルパラメータの前向き第１加重平均値を出力する。

この実施形態では、前記正規分布ｋごとに算出される前記前向き正規化出力確率ｗ^OF _j,kの中で最も確率の高いｗ^OF _j,kに該当する正規分布ｋの前記雑音モデルパラメータ更新値^Ｎ_t,j,k,l、^σ^N _{t、j、k、l}を、前向き第１加重平均値^Ｎ_t,j,l、^σ^N _t、j、lとして出力する。
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、前向き正規化出力確率が各正規分布について確率差が小さい場合には特定の正規分布において突出して確率が高い場合と比べて他の正規分布を無視することによる影響が大きくなるため、この実施形態の利用に際しては特定の正規分布における確率がその他の正規分布に比べて十分に高いことが望ましい。
前向き第２加重平均算出部１３７は、前記前向き第１加重平均値^Ｎ_t,j,l、^σ^N _t、j、lと前記前向き出力確率ｂ_ｊ(Ｏ_ｔ）と前記前向き雑音状態遷移確率ｃ_t,jとが入力され、平均値^Ｎ_t,lと分散値^σ^N _t、lとからなる時刻ｔにおける前向き第２加重平均値を出力する。

この実施形態では、前記音声及び非音声について算出される前記前向き雑音状態遷移確率ｃ_t,jのうち、確率の高い音声又は非音声の前向き第１加重平均値^Ｎ_t,j,l、^σ^N _t、j、lを、前向き第２加重平均値^Ｎ_t,j,l、^σ^N _t、j、lとして出力する。
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、両者の確率差が小さい場合には一方を無視することによる影響が大きくなるため、この実施形態の利用に際しては双方の確率差が十分に大きいことが望ましい。
以上、前向き第１加重平均算出部１３５及び後向き第１加重平均算出部１３７について記したが、後向き第１加重平均算出部１４５及び後向き第２加重平均算出部１４７についても前向き第１加重平均算出部１３５及び前向き第２加重平均算出部１３７と同様な処理を行うことができる。

〔変更例〕
上記実施の形態において、パラメータ予測処理Ｓ３０６において、ランダムウォーク過程により１時刻前の推定結果より現在の時刻のパラメータを予測しているが、自己回帰法（線形予測法）などを用いて予測してもよい。この場合、自己回帰係数の次数に応じて最終的な雑音モデルパラメータ推定性能が向上することが期待される。
また、上記実施の形態において、音声信号区間推定部７０における閾値判定後に、図９に破線で示すように音声信号区間及び非音声信号区間の継続長を調査して音声信号区間推定結果を自動訂正する突発異常検出補正部７４を接続してもよい。又は、同じく図９に破線で示すように、音声状態／非音声状態の判定結果と入力信号Ｏ(t)とを掛け合わせた信号を出力するようにし、突発異常検出補正部７４と同様に作用させてもよい。音声信号区間推定部７０をこのように構成することにより、突発的な識別誤りを訂正することができるため、音声信号区間推定の性能が向上することが期待される。

〔発明の実験結果〕
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の音声信号区間検出装置に入力し、音声信号区間を検出する実施例を示す。以下、実験方法及び結果について説明する。
本実験では、日本語旅行対話音声データベースに収録されたクリーン音声2,292文のデータをクリーン音声とし、空港ロビーにて収録した騒音を雑音として、それぞれを信号対雑音比０ｄＢで人工的に加算した信号を入力信号Ｏ(t)として作成した。それぞれの信号は、サンプリング周波数8,000Ｈｚ、量子化ビット数１６ビットで離散サンプリングした。この入力音響信号に対し、１フレームの時間長を２０ｍｓ（１６０サンプル点）とし、１０ｍｓ（８０サンプル点）ごとにフレームの始点を移動させて、音響信号分析部１１を適用し、２４次元のメルスペクトルを音響特徴量として抽出した。

ＧＭＭには２４次元の対数メルスペクトルを音響特徴量とする混合分布数６４のモデルを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。パラメータ予測処理Ｓ３０６においてεのパラメータ値には0.001を設定し、処理Ｓ４０３において後向き推定に要するフレーム数Ｂには５を設定した。音声状態遷移確率テーブル６１において、音声状態遷移確率ａ_i,jの値にはそれぞれ0.8,0.2,0.9,0.1を設定した。音声信号区間推定部７０において、閾値ＴＨの値には１０を設定した。
性能の評価は、次式のFalse acceptanceとFalse rejectionの調和平均であるHarmonic meanにより行った。False acceptanceは、非音声区間を誤って音声区間と識別した割合、False rejectionは、音声区間を誤って非音声区間と識別した割合である。評価尺度にHarmonic meanを用いて、本発明の性能評価と従来技術との性能の比較を行った。

図１０に実験結果を示す。図１０の縦軸はHarmonic meanを示しており、値が小さいほど性能が高いことを示す。横軸は各音声信号区間推定方法を示しており、８１、８２、８３はそれぞれ非特許文献１、非特許文献２、非特許文献３に開示された方法による結果であり、８４は本発明の第１実施形態による結果を示す。
図１０の結果から、本発明により従来技術に比べて高い性能が得られることが明らかとなった。

本発明による音声信号区間推定装置の構成図。本発明による音声信号区間推定装置における前向き推定部の構成図。本発明による音声信号区間推定装置における前向き推定部の処理手順。本発明による音声信号区間推定装置における後向き推定部の構成図。本発明による音声信号区間推定装置における後向き推定部の処理手順。本発明による音声信号区間推定装置における状態確率比算出部の構成図。音声状態／非音声状態の状態遷移モデルを示す図。本発明による音声信号区間推定装置における状態確率比算出部の処理手順。本発明による音声信号区間推定装置における音声信号区間推定部の構成図。本発明による音声信号区間推定の実験結果。

Claims

音声信号と雑音信号とを含む入力信号において、音声信号が存在する時間区間を検出、推定する音声信号区間推定装置であり、
前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する音響信号分析部と、
クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ：Gaussian Mixture Model）パラメータを記憶する無雑音モデル記憶部と、
前記音声特徴量と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定して出力する前向き推定部と、
前記前向き推定部から出力された雑音モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声（雑音＋クリーン音声）と非音声（雑音＋無音）それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出し出力するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の１フレーム前から現フレームへの雑音状態遷移確率を算出し出力する後向き推定部と、
前向き推定部及び後向き推定部における処理の過程で得られた計算結果を記憶するパラメータ記憶部と、
前記音声と非音声それぞれの出力確率と前記雑音状態遷移確率とが入力され、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を出力する状態確率比算出部と、
前記状態確率の比が入力され、フレームごとにしきい値と比較して、音声状態か非音声状態のいずれかを比較結果として出力する音声信号区間推定部と、
を具備することを特徴とする音声信号区間推定装置。
請求項１に記載の音声信号区間推定装置において、
前記前向き推定部は、
前記音響特徴量と１フレーム前の前向き第２加重平均値とが入力され、過去の時刻から現在の時刻に向けて現フレームの雑音モデルパラメータ予測値を計算し出力する雑音モデルパラメータ予測部と、
前記音響特徴量と前記雑音モデルパラメータ予測値と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、雑音モデルパラメータの更新処理を前記無雑音モデル記憶部に記憶された各確率モデルの複数の正規分布ごとに並列に行って、雑音モデルパラメータ更新値を出力する雑音モデルパラメータ更新部と、
前記雑音モデルパラメータ更新値と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームを単位とする当該時刻の雑音環境に適合した音声（雑音＋クリーン音声）確率モデルパラメータと非音声（雑音＋無音）確率モデルパラメータとを生成して出力する前向き確率モデルパラメータ生成部と、
前記音響特徴量と前記前向き確率モデルパラメータ生成部から出力される各確率モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出して出力する前向き音声／非音声出力確率算出部と、
前記雑音モデルパラメータ更新値と前記前向き正規化出力確率とが入力され、雑音モデルパラメータの前向き第１加重平均値を算出して出力する前向き第１加重平均算出部と、
１フレーム前の前向き第２加重平均値と前記雑音モデルパラメータ更新値と前記前向き正規化出力確率と前記前向き第１加重平均値とが入力され、１フレーム前の推定結果から現フレームの推定結果への前向き雑音状態遷移確率を算出して出力する前向き雑音状態遷移確率算出部と、
前記前向き第１加重平均値と前記音声と非音声それぞれの前向き出力確率と前記前向き雑音状態遷移確率とが入力され、現フレームの前向き第２加重平均値を算出して出力する前向き第２加重平均算出部と、
を具備し、
前記後向き推定部は、
１フレーム後の前記雑音モデルパラメータ予測値と現フレームの前記雑音モデルパラメータ更新値と１フレーム後の雑音モデルパラメータ再推定値とが入力され、現フレームの前向き雑音モデルパラメータの再推定処理を前記無雑音モデル記憶部に記憶された各確率モデルの複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を出力する雑音モデルパラメータ再推定部と、
前記雑音モデルパラメータ再推定値と、前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームを単位とする当該時刻の雑音環境に適合した音声（雑音＋クリーン音声）確率モデルパラメータと非音声（雑音＋無音）確率モデルパラメータとを生成して出力する後向き確率モデルパラメータ生成部と、
前記音響特徴量と前記後向き確率モデルパラメータ生成部から出力される各確率モデルパラメータと、前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出して出力する後向き音声／非音声出力確率算出部と、
前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率とが入力され、雑音モデルパラメータの後向き第１加重平均値を算出して出力する後向き第１加重平均算出部と、
１フレーム前の後向き第２加重平均値と前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率と前記後向き第１加重平均値とが入力され、１フレーム前の推定結果から現フレームの推定結果への雑音状態遷移確率を算出して出力する後向き雑音状態遷移確率算出部と、
前記後向き第１加重平均値と前記音声、非音声それぞれの出力確率と前記雑音状態遷移確率とが入力され、現フレームの後向き第２加重平均値を算出して出力する後向き第２加重平均算出部と、
を具備することを特徴とする音声信号区間推定装置。
請求項１又は２に記載の音声信号区間推定装置において、
前記状態確率比算出部は、
有限状態機械により表現された音声／非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率を記憶する音声状態遷移確率テーブルと、
現フレームの前記音声と非音声それぞれの出力確率と現フレームの前記雑音状態遷移確率と前記音声状態遷移確率と１フレーム前の前向き確率とが入力され、現フレームの前向き確率を算出して出力する前向き確率算出部と、
１フレーム後の前記音声と非音声それぞれの出力確率と１フレーム後の前記雑音状態遷移確率と、前記音声状態遷移確率と１フレーム後の後向き確率とが入力され、現フレームの後向き確率を算出して出力する後向き確率算出部と、
前向き確率算出部及び後向き確率算出部における処理の過程で得られた前向き確率及び後向き確率を記憶する確率比算出用バッファと、
前記現フレームの前向き確率と前記現フレームの後向き確率とが入力され、非音声状態確率に対する音声状態確率の比を算出して出力する確率比算出部と、
を具備することを特徴とする音声信号区間推定装置。
請求項２又は３に記載の音声信号区間推定装置において、
前記前向き第１加重平均算出部は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第１加重平均値として出力するものであり、
前記前向き第２加重平均算出部は、前記前向き第１加重平均値の中で最大の前記前向き雑音状態遷移確率を持つ前向き第１加重平均値を現フレームの前向き第２加重平均値として出力するものであり、
前記後向き第１加重平均算出部は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第１加重平均値として出力するものであり、
前記後向き第２加重平均算出部は、前記後向き第１加重平均値の中で最大の前記状態遷移確率を持つ後向き第１加重平均値を現フレームの後向き第２加重平均値として出力するものであることを特徴とする音声信号区間推定装置。
音声信号と雑音信号とを含む入力信号において、音声信号が存在する時間区間を検出、推定する音声信号区間推定方法であり、
音声信号分析部が、前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する過程と、
前向き推定部が、前記音声特徴量と、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ：Gaussian Mixture Model）パラメータとから、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定する過程と、
後向き推定部が、前記前向き推定部から出力された雑音モデルパラメータと、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ）パラメータとから、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声（雑音＋クリーン音声）と非音声（雑音＋無音）それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の１フレーム前から現フレームへの雑音状態遷移確率を算出する過程と、
状態確率比算出部が、前記音声と非音声それぞれの出力確率と前記雑音状態遷移確率とから、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を算出する過程と、
音声信号区間推定部が、前記状態確率の比をフレームごとにしきい値と比較して、音声状態と非音声状態のいずれであるかを推定する過程と、
からなることを特徴とする音声信号区間推定方法。
請求項５に記載の音声信号区間推定方法において、
前記前向き推定部が雑音モデルパラメータを逐次推定する過程は、
雑音モデルパラメータ予測部が、前記音響特徴量と１フレーム前の前向き第２加重平均値とから、過去の時刻から現在の時刻に向けて現フレームの雑音モデルパラメータ予測値を算出する過程と、
雑音モデルパラメータ更新部が、前記音響特徴量と、前記雑音モデルパラメータ予測値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ）パラメータとから、雑音モデルパラメータの更新処理を前記正規分布ごとに並列に行って、雑音モデルパラメータ更新値を算出する過程と、
前向き確率モデルパラメータ生成部が、前記雑音モデルパラメータ更新値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ）パラメータとから、前記フレームを単位とする当該時刻の雑音環境に適合した音声（雑音＋クリーン音声）確率モデルパラメータと非音声（雑音＋無音）確率モデルパラメータとを生成する過程と、
前向き音声／非音声出力確率算出部が、前記音響特徴量と、前記前向き確率モデルパラメータ生成部で算出された各確率モデルパラメータと、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ）パラメータとから、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出する過程と、
前向き第１加重平均算出部が、前記雑音モデルパラメータ更新値と前記前向き正規化出力確率とから、雑音モデルパラメータの前向き第１加重平均値を算出する過程と、
前向き雑音状態遷移確率算出部が、１フレーム前の前向き第２加重平均値と前記雑音モデルパラメータ更新値と前記前向き正規化出力確率と前記前向き第１加重平均値とから、１フレーム前の推定結果から現フレームの推定結果への前向き雑音状態遷移確率を算出する過程と、
前向き第２加重平均算出部が、前記前向き第１加重平均値と前記音声と非音声それぞれの前向き出力確率と前記前向き雑音状態遷移確率とから、現フレームの前向き第２加重平均値を算出する過程と、
からなり、
前記後向き推定部が出力確率と雑音状態遷移確率を算出する過程は、
雑音モデルパラメータ再推定部が、１フレーム後の前記雑音モデルパラメータ予測値と現フレームの前記雑音モデルパラメータ更新値と１フレーム後の雑音モデルパラメータ再推定値とから、現フレームの前向き雑音モデルパラメータの再推定処理を、前記クリーン音声信号と無音信号それぞれの確率モデルに含まれる複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を算出する過程と、
後向き確率モデルパラメータ生成部が、前記雑音モデルパラメータ再推定値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ）パラメータとから、前記フレームを単位とする当該時刻の雑音環境に適合した音声（雑音＋クリーン音声）確率モデルパラメータと非音声（雑音＋無音）確率モデルパラメータとを生成する過程と、
後向き音声／非音声出力確率算出部が、前記音響特徴量と前記後向き確率モデルパラメータ生成部で算出された各確率モデルパラメータと、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル（ＧＭＭ）パラメータとから、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出する過程と、
後向き第１加重平均算出部が、前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率とから、雑音モデルパラメータの後向き第１加重平均値を算出する過程と、
後向き雑音状態遷移確率算出部が、１フレーム前の後向き第２加重平均値と前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率と前記後向き第１加重平均値とから、１フレーム前の推定結果から現フレームの推定結果への雑音状態遷移確率を算出する過程と、
後向き第２加重平均算出部が、前記後向き第１加重平均値と前記音声、非音声それぞれの出力確率と前記雑音状態遷移確率とから、現フレームの後向き第２加重平均値を算出する過程と、
からなることを特徴とする音声信号区間推定方法。
請求項５又は６に記載の音声信号区間推定方法において、
前記状態確率比算出部が非音声状態確率に対する音声状態確率の比を算出する過程は、
前向き確率算出部が、現フレームの前記音声と非音声それぞれの出力確率と現フレームの前記雑音状態遷移確率と有限状態機械により表現された音声／非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率と１フレーム前の前向き確率とから、現フレームの前向き確率を算出する過程と、
後向き確率算出部が、１フレーム後の前記音声と非音声それぞれの出力確率と１フレーム後の前記雑音状態遷移確率と前記音声状態遷移確率と１フレーム後の後向き確率とから、現フレームの後向き確率を算出する過程と、
確率比算出部が、前記現フレームの前向き確率と前記現フレームの後向き確率とから非音声状態確率に対する音声状態確率の比を算出する過程と、
からなることを特徴とする音声信号区間推定方法。
請求項６又は７に記載の音声信号区間推定方法において、
前記前向き第１加重平均算出部が前向き第１加重平均値を算出する過程は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第１加重平均値として算出する過程であり、
前記前向き第２加重平均算出部が前向き第２加重平均値を算出する過程は、前記前向き第１加重平均値の中で最大の前記前向き雑音状態遷移確率を持つ前向き第１加重平均値を現フレームの前向き第２加重平均値として算出する過程であり、
前記後向き第１加重平均算出部が後向き第１加重平均値を算出する過程は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第１加重平均値として算出する過程であり、
前記後向き第２加重平均算出部が後向き第２加重平均値を算出する過程は、前記後向き第１加重平均値の中で最大の前記状態遷移確率を持つ後向き第１加重平均値を現フレームの後向き第２加重平均値として算出する過程であることを特徴とする音声信号区間推定方法。
請求項１〜４のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
請求項９に記載したプログラムを記録したコンピュータが読み取り可能な記録媒体。