JP2008145923A - 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 - Google Patents

音声信号区間推定装置、その方法、そのプログラム及び記録媒体 Download PDF

Info

Publication number
JP2008145923A
JP2008145923A JP2006335536A JP2006335536A JP2008145923A JP 2008145923 A JP2008145923 A JP 2008145923A JP 2006335536 A JP2006335536 A JP 2006335536A JP 2006335536 A JP2006335536 A JP 2006335536A JP 2008145923 A JP2008145923 A JP 2008145923A
Authority
JP
Japan
Prior art keywords
probability
speech
noise
backward
model parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006335536A
Other languages
English (en)
Other versions
JP4673828B2 (ja
Inventor
Masakiyo Fujimoto
雅清 藤本
Kentaro Ishizuka
健太郎 石塚
Hiroko Kato
比呂子 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006335536A priority Critical patent/JP4673828B2/ja
Publication of JP2008145923A publication Critical patent/JP2008145923A/ja
Application granted granted Critical
Publication of JP4673828B2 publication Critical patent/JP4673828B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract


【課題】雑音信号の統計的性質が時間に伴い変化する非定常雑音においても、信号の状態遷移を正確に把握して高精度に音声信号区間を推定することができる音声信号区間推定技術を提供する。
【解決手段】音響信号分析部10にて、入力信号を一定区間単位で切り出したフレームごとに音響特徴量を抽出する。クリーン音声信号と無音信号の確率モデル(GMM)を利用し、前向き推定部30と後向き推定部40にて、雑音モデルパラメータの推定をGMMに含まれる複数の正規分布ごとに並列処理により、かつ時間軸に対し順方向だけでなく逆方向にも行う。推定された雑音モデルパラメータに基づき音声/非音声の出力確率及び雑音状態遷移確率を算出する。状態確率比算出部60にてフレーム毎に非音声状態確率に対する音声確率の比を算出し、音声信号区間推定部70にて算出された確率比と閾値を比較して、フレームごとに音声状態であるか非音声状態であるかを判定する。
【選択図】図1

Description

本発明は、音声信号と雑音信号が含まれる音響信号から、上記音声信号が存在する区間の推定を、音声状態確率、非音声状態確率を求めて行う音声信号区間推定装置、その方法、そのプログラム及びそのプログラムを記憶する記録媒体に関する。
音声信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音声信号処理技術の多くにおいては、処理対象とする音声信号以外の信号、つまり雑音信号が含まれる音響信号から、処理対象とする音声信号が存在する区間を推定する必要があり、この区間推定の精度がその後の処理の効果にも大きく影響する。よって、あらゆる音声信号処理技術の基礎となる技術であり、早急に解決されるべき問題である。
後掲の非特許文献1には、入力となる音響信号の周波数スペクトル、信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、信号波形の零交差数、およびそれらの時間微分などの特徴量を利用した音声信号区間推定方法が開示されている。これらの音響特徴を用いた音声信号区間推定方法では、入力される音響信号を25ms程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴を算出し、その値が別途定めた閾値を超える場合には音声区間、そうでなければ非音声区間として判定する。
後掲の非特許文献2には、入力となる音響信号にWiener filter理論に基づく雑音除去を適用し、雑音除去後の信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、周波数スペクトルの分散値などの特徴量を利用した音声信号区間推定方法が開示されている。これらの音響特徴を用いた音声信号区間推定方法では、入力される音響信号を25ms程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴を算出し、その値が別途定めた閾値を超える場合には音声区間、そうでなければ非音声区間として判定する。
後掲の非特許文献3には、信号の状態遷移を定義した音声信号区間推定方法が開示されている。この方法では、入力となる音響信号が時間経過とともに音声状態、および非音声状態を遷移する信号であると見なす。音声状態、および非音声状態の状態遷移は、入力信号が音声状態に属する確率、非音声状態に属する確率を基準として決定され、音声状態に属する信号のみを出力する。
また、音声信号区間推定の性能を改善させるための技術として、入力となる音響信号に含まれる、雑音信号を正確に推定する技術が必要となる。このような技術において、信号の統計的な特徴が時々刻々と変化する、非定常的な雑音信号の逐次推定技術が極めて重要である。
後掲の非特許文献4には、時系列パラメータの一般的な逐次推定方法であるカルマンフィルタが開示されている。この方法では、過去の時刻のパラメータが現在の時刻のパラメータに与える影響を考慮することにより最適なパラメータ推定結果を得る。
後掲の非特許文献5には、前記カルマンフィルタを発展させて非線形モデルにおいても推定が行えるようにした拡張(非線形)カルマンフィルタが開示されている。また、同じく前記カルマンフィルタの発展形であるカルマンスムーザについても開示されている。カルマンスムーザにおいては、過去の時刻だけでなく、未来の時刻のパラメータの関係を考慮することにより、より正確なパラメータ推定結果を得る。
Benyassine,A.,Shlomot,E.,and Su,H-Y."ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70digital simultaneous voice and data applications,"IEEE Communications Magazine, pp.64-73, September,1997. ETSI ES 202 050 v.1.1.4 "Speech processing,Transmission and Quality aspects(STQ), Advanced Distributed Speech Recognition; Front-end feature extraction algorithm; Compression algorithms,"Nov.2005. Sohn,J.,Kim,N.S.and Sung. W."A Statistical Model-Based Voice Activity Detection,"IEEE Signal Processing Letters,Vol.6,No.1,pp.1-3,January,1999. Kalman,R.E."A New Approach to Linear Filtering and Prediction Problems,"Transactions of the ASME-Journal of Basic Engineering,Vol.82,Series D,pp.35-45,1960. 片山 徹、応用カルマンフィルタ、第5章及び第7章、朝倉書店、1983
非特許文献1、非特許文献2、および非特許文献3に記載の技術は、入力音響信号に含まれる雑音信号の特徴が、定常的なものであるという前提のもとで音声信号区間推定を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴をもっている。すなわち、雑音信号の統計的な特徴が、時間の経過に伴い変動する。そのため、非特許文献1、非特許文献2、および非特許文献3に記載の技術では、雑音の時間変動に対応できず、高精度に音声信号区間の推定を行うことができない。
非定常的な雑音信号の推定について、非特許文献4、および非特許文献5に記載の技術では、カルマンフィルタ、およびカルマンスムーザを用いて目的信号の逐次推定を行う。前者のカルマンフィルタは時間に対して順方向に推定を行う方法であり、後者のカルマンスムーザはカルマンフィルタの推定結果を時間に対して逆方向に再推定を行う方法である。しかし、これらの逐次推定方法は、各時刻において1つの推定結果のみを出力する。つまり、ある時刻で致命的な誤差が発生した場合、その誤差が以降の時刻の推定結果に影響を与え、誤差の回復が困難となる。
また、非特許文献3に記載の技術は、入力音響信号が音声状態と非音声状態に相互に状態遷移することに着目して、音声信号区間推定を行う技術である。しかし、遷移先の状態の決定は、過去の信号の状態のみに依存し、未来の信号の状態に対する影響を考慮しておらず、信号の正確な状態遷移を表現できない。
それゆえに、本発明の目的は、入力音響信号に含まれる非定常的な雑音信号の推定を行って定常的な雑音信号以外にも適用可能であり、さらに入力音響信号の過去、現在のみでなく、未来の時刻における状態の影響を考慮した、高精度な音声信号区間を推定する装置、その方法、そのプログラム及び記録媒体を提供することにある。
本発明の音声信号区間推定装置は、音響信号分析部、無雑音モデル記憶部、前向き推定部、後向き推定部、パラメータ記憶部、状態確率比算出部、及び音声信号区間推定部を具備する。
音声信号分析部は、前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する。
無雑音モデル記憶部は、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータを記憶する。
前向き推定部は、前記音声特徴量と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定して出力する。
後向き推定部は、前記前向き推定部から出力された雑音モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声(雑音+クリーン音声)と非音声(雑音+無音)それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出し出力するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の1フレーム前から現フレームへの雑音状態遷移確率を算出し出力する。
パラメータ記憶部は、前向き推定部及び後向き推定部における処理の過程で得られた計算結果を記憶する。
状態確率比算出部は、前記音声と非音声それぞれの出力確率と前記雑音状態遷移確率とが入力され、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を出力する。
音声信号区間推定部は、前記状態確率の比が入力され、フレームごとにしきい値と比較して、音声状態か非音声状態のいずれかを比較結果として出力する。
本発明の音声信号区間推定装置は、無音信号及びクリーン音声信号それぞれの確率モデル(GMM)に含まれる複数の正規分布ごとに、複数の雑音パラメータを時間に対して順方向に推定し、更に逆方向にも推定し、得られた複数の推定結果について加重平均をとることによりその時刻の雑音パラメータを決定する。そのため、雑音信号の統計的性質が時間に伴い変化する非定常雑音においても、信号の状態遷移を正確に把握して高精度に音声信号区間を推定でき、また、ある時刻で大きな誤差が生じたとしても、以降の時刻にその影響を及ぼすことなく推定をすることができる。
以下、図面を参照しつつ、本発明の実施例について説明する。なお、以下の説明に用いる図面では、同一の部品には同一の符号を記してある。それらの名称、機能も同一であり、それらについての説明は繰り返さない。
以下の説明において、テキスト中で使用する記号「^」「〜」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。以下の説明において、ベクトルについては例えば「ベクトルA」のように直前に「ベクトル」を付与して記載する。また、ベクトルの各要素単位で行われる処理は、特に断りが無い限り、ベクトルの全ての要素に対して適用されるものとする。
〔第1実施形態〕
図1は、本発明の音声信号区間推定装置1の機能構成例である。
音声信号区間推定装置1は、音響結合量分析部10、無雑音モデル記憶部20、前向き推定部30、後向き推定部40、パラメータ記憶部50、状態確率比算出部60、音声信号区間推定部70から構成される。
音響結合量分析部10は、音声信号と雑音信号が重畳された音響信号O(t)が入力され、まず、この音響信号O(t)を時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出す。例えば、160サンプル点長(サンプリング周波数8000Hzで時間長20ms)の音響信号を80サンプル点(サンプリング周波数8000Hzで時間長10ms)ずつ始点を移動させながら切り出す。
そして、切り出された音響信号に対して高速フーリエ変換及び24次元のメルフィルタバンク分析を適用し、24次元の対数メルスペクトルを要素に持つ、ベクトルO={Ot、0,・・・,Ot、l,・・・,Ot、23}(時刻tのフレームにおける音声特徴量、lはベクトルの要素番号)を算出し出力する。
なお、本発明では音声信号(及び無音信号、クリーン音声信号)、雑音信号を次のように定義する。
雑音が全く存在しない防音室等で録音を行っても、録音された信号には極微小で白色的な雑音が観測される。本発明では、このような環境において観測される信号を無音信号と定義する。
従って、無音信号も雑音の一種であるといえるが、この雑音は録音機材等の電気回路や転送系などの電気的要因により発生する雑音である。一方、自動車の走行音や風の音などは、音波が大気中を伝わって観測される音響的要因により発生する雑音である。本発明では、電気的要因による雑音と音響的要因による雑音とを区別し、後者のみを雑音信号と定義する。
また、無音信号が観測されている環境において発話を行うと、発話音声信号が無音信号に重畳された形で観測される。本発明ではこの重畳された信号をクリーン音声信号と定義する。
そして、雑音信号が存在しない環境では、連続する無音信号の合間にクリーン音声信号が観測される。本発明では、これら無音信号とクリーン音声信号を総称して音声信号と定義する。
無雑音モデル記憶部20は、あらかじめ用意したクリーン音声信号、無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)を記憶する。複数の正規分布の数は多いほど推定精度の向上に寄与するが、処理速度上の問題とのトレードオフから実効的には2〜512個の間の値が望ましく、32個程度が最も望ましい。
それぞれの正規分布は混合重みwj,k、平均μS j,k,l、分散σS j,k,lをパラメータとして構成される。ここで、jはGMMの種別(j=0:無音GMM、j=1:クリーン音声GMM)であり、kは各正規分布の番号である。
なお、GMMの構成方法については公知の技術なので説明を省略する。
図2は前向き推定部30の機能構成例である。
前向き推定部30は、雑音モデルパラメータ予測部31、雑音モデルパラメータ更新部32、前向き確率モデルパラメータ生成部33、前向き音声/非音声出力確率算出部34、前向き第1加重平均算出部35、前向き雑音状態遷移確率推定部36、前向き第2加重平均算出部37から構成される。
雑音モデルパラメータ予測部31は、前記音声特徴量Ot,lと時刻t−1における前向き第2加重平均値^Nt-1,l、^σN t-1、lとが入力され、平均値Nt,l predと分散値σN t,l predとからなる雑音モデルパラメータ予測値を出力する。
具体的処理について、図3の処理手順に従い説明する。
まず、フレーム判定処理S301においてt<10であれば、バッファリング処理S302においてパラメータ記憶部50に前記音響特徴量Ot,lを記憶する。フレーム判定処理S301においてt=10であれば、読み出し処理S303においてパラメータ記憶部50からO0,l、・・・、O9,lを読み出し、初期パラメータ推定処理S304において初期の雑音モデルパラメータNl init、σN l initを以下のように推定する。
Figure 2008145923
また、フレーム判定処理S301においてt>10であれば、読み出し処理S305においてパラメータ記憶部50から1時刻前の前向き第2加重平均値^Nt-1,l、^σN t-1、lを読み出す。
なお、S301〜305の処理においてt=10を基準に判定しているが、これは最も望ましい基準値としての例示であり、実効的にはt=1〜20の範囲で適宜設定してよい。
t≧10の場合は、次にパラメータ予測処理S306を行う。t>10の場合は時刻t−1における推定結果から現在の時刻の雑音モデルパラメータを以下のランダムウォーク過程により予測する。
Figure 2008145923
上式において、Nt,l predとσN t,l predは時刻tにおける雑音モデルパラメータ予測値であり、またεは雑音の変化の度合いを表す定数で実効的には0.0001〜0.001の間の値に設定するのが望ましく、0.001程度が最も望ましい。また、t=10の場合は以下のように予測する。
Figure 2008145923
雑音モデルパラメータ更新部32は、前記音声特徴量Ot,lと前記雑音モデルパラメータ予測値Nt,l pred、σN t,l predと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμS j,k,l、σS j,k,lとが入力され、平均値^Nt,j,k,lと分散値^σN t、j、k、lとからなる雑音モデルパラメータ更新値を出力する。
具体的処理について、図3の処理手順に従い説明する。
パラメータ更新処理S307においては、前記クリーン音声信号、無音信号それぞれの確率モデルパラメータは正規分布ごとに複数存在するため、これら複数のパラメータを使って、かつそれぞれ並行して前記雑音モデルパラメータ予測値の更新処理を行う。すなわち、前記クリーン音声信号、無音信号それぞれの確率モデルに含まれる正規分布の合計数と同数の更新結果を得る。更新処理は次式により行う。
Figure 2008145923
式(11)と式(12)で求められた^Nt,j,k,lと^σN t、j、k、lとが雑音モデルパラメータ更新値である。
前向き確率モデルパラメータ生成部33は、前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμS j,k,l、σS j,k,lとが入力され、平均値μO t,j,k,lと分散値σO t、j、k、lとからなる前向き確率モデルパラメータを出力する。
具体的処理について、図3の処理手順に従い説明する。
確率モデルパラメータ生成処理S308では、時刻tにおける雑音環境に適合した、音声(雑音+クリーン音声:j=1)、非音声(雑音+無音:j=0)それぞれの確率モデルパラメータμO t,j,k,l、σO t、j、k、lを次式により生成する。
Figure 2008145923
なお、ここでの混合重みは前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kであるものとして以降の処理を行う。
前向き音声/非音声出力確率算出部34は、前記音声特徴量Ot,lと前記音声、非音声それぞれの確率モデルパラメータμO t,j,k,l、σO t、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kとが入力され、時刻tにおける音声・非音声の前向き出力確率b(O)と、この前向き出力確率b(O)を前記正規分布kごとに分解して正規化した前向き正規化出力確率wOF j,kとを出力する。
具体的処理について、図3の処理手順に従い説明する。
出力確率算出処理S309では、前記音声特徴量Ot,lをS308の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の前向き出力確率b(O)を次式により求める。
Figure 2008145923
また、上式のwj,kj,k(O)は、音声、非音声それぞれの確率モデルに含まれる各正規分布kの出力確率であり、wj,kj,k(O)の合計が1になるよう次式で正規化を行う。
Figure 2008145923
上式のwOF j,kが、音声、非音声それぞれの確率モデルに含まれる各正規分布kの前向き正規化出力確率である。
前向き第1加重平均算出部35は、前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lと前記前向き正規化出力確率wOF j,kとが入力され、平均値^Nt,j,lと分散値^σN t、j、lとからなる雑音モデルパラメータの前向き第1加重平均値を出力する。
具体的処理について、図3の処理手順に従い説明する。
第1加重平均処理S310では、パラメータ更新処理S307で得られた複数の雑音モデルパラメータ更新結果を出力確率算出処理S309で得られた前向き正規化出力確率wOF j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である前向き第1加重平均値^Nt,j,l、^σN t、j、lを得る。加重平均は次式により行う。
Figure 2008145923
前向き雑音状態遷移確率算出部36は、前記雑音モデルパラメータ更新値^Nt,j,k,lと前記前向き正規化出力確率wOF j,kと時刻t−1における前向き第2加重平均値^Nt-1,lとが入力され、前向き雑音状態遷移確率ct,jを出力する。
具体的処理について、図3の処理手順に従い説明する。
状態遷移確率算出処理S311では、まず、時刻t−1における推定結果(前向き第2加重平均値^Nt-1,l)から時刻tにおける推定結果^Nt,j,lへの状態遷移確率dt,jを次式により算出する。
Figure 2008145923
そして、dt,jの合計が1になるように次式で正規化を行い、前向き雑音状態遷移確率ct,jを得る。
Figure 2008145923
前向き第2加重平均算出部37は、前記前向き第1加重平均値^Nt,j,l、^σN t、j、lと前記前向き出力確率b(O)と前記前向き雑音状態遷移確率ct,jとが入力され、平均値^Nt,lと分散値^σN t、lとからなる時刻tにおける前向き第2加重平均値を出力する。
具体的処理について、図3の処理手順に従い説明する。
第2加重平均処理S312では、第1加重平均処理S310で得られた前向き第1加重平均値^Nt,j,l、^σN t、j、lを、出力確率算出処理S309で得られた前向き出力確率b(O)、及び状態遷移確率算出処理S311で得られた前向き雑音状態遷移確率ct,jとを用いて加重平均することにより、時刻tにおける雑音モデルパラメータ推定結果である前向き第2加重平均値^Nt,l、^σN t、lを算出し、次の時刻の雑音パラメータの推定に利用する。加重平均は次式により行う。
Figure 2008145923
最後にS313のバッファリング処理で、S301〜312の処理により得られた当該時刻tにおける音声特徴量Ot,l、雑音モデルパラメータ予測値Nt,l pred、σN t,l pred、雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、l、及び前向き第2加重平均値^Nt,l、^σN t、lがパラメータ記憶部50に記憶される。
式(3)(4)の予測処理、及び式(7)〜(12)の更新処理は、従来の非線形カルマンフィルタと計算式の構成自体は同様であるが、本発明ではクリーン音声信号、無音信号それぞれのGMMに含まれる複数の正規分布ごとに複数のフィルタを構成し、これらを利用することにより得られる複数の推定結果を加重平均する(並列非線形カルマンフィルタ)。このような処理を行うことによって、より正確な雑音モデルのパラメータ推定が実現される。
図4は後向き推定部40の機能構成例である。
後向き推定部40は、雑音モデルパラメータ再推定部42、後向き確率モデルパラメータ生成部43、後向き音声/非音声出力確率算出部44、後向き第1加重平均算出部45、後向き雑音状態遷移確率推定部46、後向き第2加重平均算出部47から構成される。
雑音モデルパラメータ再推定部42は、パラメータ記憶部50に記憶された時刻sにおける雑音モデルパラメータ予測値Ns,l pred、σN s,l pred、時刻s−1における雑音モデルパラメータ更新値^Ns-1,j,k,l、^σN s-1、j、k、l及び時刻sにおける雑音モデルパラメータ再推定値〜Ns,j,k,l、〜σN s、j、k、lとが入力され、平均値〜Ns-1,j,k,lと分散値〜σN s-1、j、k、lとからなる時刻s−1における雑音モデルパラメータ再推定値を出力する。
具体的処理について、図5の処理手順に従い説明する。
まず、フレーム判定処理S401においてt<10であれば、変数設定処理S402において変数tbを0に設定して処理を終了する。t≧10の場合、変数判定処理S403においてtbが後向き推定に要するフレーム数B未満であれば変数書替処理S404にてtbの値を1加算して処理を終了し、tbの値がB以上であれば変数設定処理S405において後向き推定用カウンタ値bwにBを設定する。Bは大きいほど推定精度向上に寄与する反面、処理速度を損なうため、実効的には1〜10の間の値に設定するのが望ましく、10程度が最も望ましい。
次に読み出し処理S406において、パラメータ記憶部50から前向き推定部30において算出された時刻s=t−B+bwにおける雑音モデルパラメータ予測値Ns,l pred、σN s,l pred、時刻s−1における音響特徴量Os-1,l、時刻s−1における雑音モデルパラメータ更新値^Ns-1,j,k,l、^σN s-1、j、k、l、及び後向き推定部40において算出された時刻s=t−B+bwにおける雑音モデルパラメータ再推定値〜Ns,j,k,l、〜σN s、j、k、lを読み出す。なお、bw=B、すなわち時刻s=tの場合は、^Nt,j,k,l、^σN t、j、k、l、^Nt,l、^σN t、lを読み出し、〜Ns,j,k,l=^Nt,j,k,l、〜σN s、j、k、l=^σN t、j、k、l、〜Ns,l=^Nt,l、〜σN s、l=^σN t、lとする。
そして、パラメータ平滑処理S407において、後向き推定を用いて次式によるパラメータの再推定(平滑化)を行う。
Figure 2008145923
式(27)と式(28)で求められた〜Ns-1,j,k,lと〜σN s-1、j、k、lとが雑音モデルパラメータ再推定値である。なお、〜Ns-1,j,k,lと〜σN s-1、j、k、lは次回の平滑処理のためにパラメータ記憶部50に記憶する。
後向き確率モデルパラメータ生成部43は、前記雑音モデルパラメータ再推定値〜Ns-1,j,k,l、〜σN s-1、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμS j,k,l、σS j,k,lとが入力され、平均値μO s-1,j,k,lと分散値σO s-1、j、k、lとからなる後向き確率モデルパラメータを出力する。
具体的処理について、図5の処理手順に従い説明する。
確率モデルパラメータ生成処理S408では、時刻s−1における雑音環境に適合した、音声(雑音+クリーン音声:j=1)、非音声(雑音+無音:j=0)それぞれの確率モデルパラメータμO s-1,j,k,l、σO s-1、j、k、lを次式により生成する。
Figure 2008145923
なお、ここでの混合重みについても前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kであるものとして以降の処理を行う。
後向き音声/非音声出力確率算出部44は、前記音声特徴量Os-1,lと前記音声、非音声それぞれの確率モデルパラメータμO s-1,j,k,l、σO s-1、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kとが入力され、時刻s−1における音声・非音声の出力確率b(Os-1)と、この出力確率b(Os-1)を前記正規分布kごとに分解して正規化した後向き正規化出力確率wOB j,kとを出力する。
具体的処理について、図5の処理手順に従い説明する。
出力確率算出処理S409では、前記音声特徴量Os-1,lをS408の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の出力確率b(Os-1)を次式により求める。
Figure 2008145923
また、上式のwj,kj,k(Os-1)は、音声、非音声それぞれの確率モデルに含まれる各正規分布kの出力確率であり、wj,kj,k(Os-1)の合計が1になるよう次式で正規化を行う。
Figure 2008145923
上式のwOB j,kが、音声、非音声それぞれの確率モデルに含まれる各正規分布kの後向き正規化出力確率である。
後向き第1加重平均算出部45は、前記雑音モデルパラメータ再推定値〜Ns-1,j,k,l、〜σN s-1、j、k、lと前記後向き正規化出力確率wOB j,kとが入力され、平均値〜Ns-1,j,lと分散値〜σN s-1、j、lとからなる雑音モデルパラメータの後向き第1加重平均値を出力する。
具体的処理について、図5の処理手順に従い説明する。
第1加重平均処理S410では、パラメータ平滑処理S407で得られた複数の雑音モデルパラメータ更新結果を出力確率算出処理S409で得られた後向き正規化出力確率wOB j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である後向き第1加重平均値〜Ns-1,j,l、〜σN s-1、j、lを得る。加重平均は次式により行う。
Figure 2008145923
後向き雑音状態遷移確率算出部46は、時刻sにおける後向き第2加重平均値〜Ns,lと時刻s−1における前記雑音モデルパラメータ再推定値〜Ns-1,j,k,lと時刻s−1における後向き第1加重平均値〜Ns-1,j,lと前記後向き正規化出力確率wOB j,kとが入力され、雑音状態遷移確率cs,jを出力する。
具体的処理について、図5の処理手順に従い説明する。
状態遷移確率算出処理S411では、まず、時刻s−1における推定結果(後向き第1加重平均値〜Ns-1,j,l)から時刻sにおける推定結果〜Ns,lへの状態遷移確率ds,jを次式により算出する。
Figure 2008145923
そして、ds,jの合計が1になるように次式で正規化を行い、雑音状態遷移確率cs,jを得る。
Figure 2008145923
後向き第2加重平均算出部47は、前記後向き第1加重平均値〜Ns-1,j,l、〜σN s-1、j、lと前記出力確率b(Os-1)と前記雑音状態遷移確率cs,jとが入力され、平均値〜Ns-1,lと分散値〜σN s-1、lとからなる時刻s−1における後向き第2加重平均値を出力する。
具体的処理について、図5の処理手順に従い説明する。
第2加重平均処理S412では、第1加重平均処理S410で得られた後向き第1加重平均値^Ns-1,j,l、^σN s-1、j、lを、出力確率算出処理S409で得られた出力確率b(Os-1)、及び状態遷移確率算出処理S411で得られた雑音状態遷移確率cs,jとを用いて加重平均することにより、時刻s−1における雑音モデルパラメータ推定結果である後向き第2加重平均値〜Ns-1,l、〜σN s-1、lを算出し、次の時刻の雑音パラメータの推定に利用する。加重平均は次式により行う。
Figure 2008145923
そして、変数書替処理S413において、bwの値を1減算(すなわち時刻sの値を1減算)し、変数判定処理S414において、bw>0であれば処理S406に戻り、そうでなければ処理を終了する。
後向き推定部40の各処理で得られた結果のうち、出力確率算出処理S409で得られた出力確率b(Os-1)と状態遷移確率算出処理S411で得られた雑音状態遷移確率cs,jとが、状態確率比算出部60における処理に使用される。
式 (26)〜(28)の平滑処理は、従来のカルマンスムーザと計算式の構成自体は同様であるが、本発明ではクリーン音声信号、無音信号それぞれのGMMに含まれる複数の正規分布ごとに複数のフィルタを構成し、これらを利用することにより得られる複数の推定結果を加重平均する(並列カルマンスムーザ)。このような処理を行うことによって、より正確な雑音モデルのパラメータ推定が実現される。
パラメータ記憶部50は、前向き推定部30と後向き推定部40における処理の過程で得られた計算結果を記憶する。
図6は状態確率比算出部60の機能構成例である。
状態確率比算出部60は、音声状態遷移確率テーブル61、前向き確率算出部62、後向き確率算出部63、確率比算出用バッファ64、確率比算出部65から構成される。
音声状態遷移確率テーブル61は、有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率ai,jを記憶する。
図7は、音声状態/非音声状態の状態遷移モデルであり、非音声状態Hと音声状態Hと各状態への音声状態遷移確率ai,jとを含む(iは状態遷移元の状態番号、jは状態遷移先の状態番号で、状態番号0は非音声状態を、状態番号1は音声状態を示す)。ai,jは音声状態確率及び非音声状態確率を求める上での基準となる値で、定数を設定しても入力信号の特徴に応じて適応的に決定しても構わないが、本発明においては定数を設定し、これを音声状態遷移確率テーブル61に記憶して音声状態確率及び非音声状態確率の計算に使用する。この。設定するai,jはai,0+ai,1=1を満たす値で、a0,0及びa1,1を0.5〜0.9の範囲で、a0,1及びa1,0を0.5〜0.1の範囲で設定するのが望ましく、a0,0=0.8、a0,1=0.2、a1,0=0.1、a1,1=0.9程度が最も望ましい。
前向き確率算出部62は、前記出力確率b(Os-1)と前記雑音状態遷移確率cs,jと、音声状態遷移確率ai,jと、時刻s−1の前向き確率αs-1、jとが入力され、時刻sの前向き確率αs、jを出力する。
具体的処理について、図8の処理手順に従い説明する。
音声状態確率及び非音声状態確率の算出は、まず前向き確率αs、jを求め、続いて後向き確率βs、jを求めて、それらの積をとることによって求める。そして、現在の時刻sの後向き確率βs、jは、前記後向き推定部40における計算と同様にBフレーム未来の時刻s+Bから遡って算出する。
そこで、変数判定処理S601においては、例えばt<10+B、すなわちs<10の場合は初期値設定処理S602において前向き確率αs、jを以下のように設定し、それらをバッファリング処理S603において確率比算出用バッファ64に記憶して処理を終了する。
αs,0=1 (42)
αs,1=0 (43)
t<10+Bでない場合、すなわちs≧10の場合は、読み出し処理S604において、確率比算出用バッファ64から時刻s−1の前向き確率確率αs-1、jを読み出す。
次に、前向き確率算出処理S605において音声状態遷移確率テーブル61から音声状態確率ai,jを読み出し、これと時刻s−1の前記出力確率b(Os-1)と時刻sの前記雑音状態遷移確率cs,jと時刻s−1の前記前向き確率αs-1、jとから次式により時刻sの前向き確率αs、jを算出し、これらをバッファリング処理606において確率比算出用バッファ64に記憶する。
Figure 2008145923
後向き確率算出部63は、時刻s+1の前記出力確率b(Os+1)と時刻s+1の前記雑音状態遷移確率cs+1,jと、音声状態遷移確率ai,jと、時刻s+1の後向き確率βs+1、iとが入力され、時刻sの後向き確率βs、iを出力する。
具体的処理について、図8の処理手順に従い説明する。
まず、変数設定処理S607において、後向き確率算出用のカウンタbwの値をBに設定する。
次に、後向き確率算出処理S608において音声状態遷移確率テーブル61から音声状態確率ai,jを読み出し、これと時刻s+bwの前記出力確率b(Os+bw)と時刻sの前記雑音状態遷移確率cs+bw,jと時刻s+bwの前記後向き確率βbw、jとから時刻s+bw−1の後向き確率βs+bw-1、iを次式により算出する。なお、bw=Bの場合は初期値βs+B,i=1を与える。
Figure 2008145923
そして、変数書替処理S609においてbwの値を1減算し、変数判定処理S610においてbw>0であれば処理S607に戻り、そうでなければこの時点で時刻sにおける後向き確率βs,iが得られるので、これをバッファリング処理S611において確率比算出用バッファ64に記憶し、確率比算出処理S612に移行する。
確率比算出用バッファ64は、前向き確率算出部62で算出された前向き確率αs、jと、後向き確率算出部63で算出されたと後向き確率βs,iを記憶する。
確率比算出部65は、前記前向き確率αs、jと前記後向き確率βs,iとが入力され、図8の確率比算出処理S612において、非音声状態の確率に対する音声状態の確率の比L(s)を次式により算出する。
Figure 2008145923
つまり、状態確率比算出部60は、該当時刻tよりもBフレーム過去の時刻s=t−Bにおける前向き確率αs、j、後向き確率βs,i、及び非音声状態の確率に対する音声状態の確率の比L(s)を算出することになる。
なお、式(46)は以下に示す過程を経て導かれる。
まず、時刻sにおける信号の状態をq=Hと定義すると、音声状態確率と非音声状態の確率の比L(s)は次式により得られる。
Figure 2008145923
上式において、O0:s={O0,・・・,Os}であり、確率比L(s)はベイズの定理により次式のように展開される。
Figure 2008145923
また、雑音信号N0:s={N0,・・・,Ns}の時間変動を考慮すると、上式は次式のように拡張される。
Figure 2008145923
上式は、過去の時刻の状態を考慮した再帰式(1次マルコフ過程)により、次式のように展開される。
Figure 2008145923
上式において、p(q=H|qs-1=H)=ai,j、p(O|q=H,N)=b(O)、p(N|q=H,Ns-1)=cs,jに相当し、またp(O,q=H,N)は時間軸方向に算出される前向き確率αs、jに相当する。すなわち上式は、次式の再帰式により得られる。
Figure 2008145923
次に、時刻sより未来の時刻、すなわち時刻s+1,・・・,t=s+Bにおける状態の影響を考慮すると、確率比L(s)は次式のように表現される。
Figure 2008145923
上式の確率p(Os+1:t,Ns+1:t|q=H,N)は、時刻sより未来の時刻の状態を考慮した再帰式(1次マルコフ過程)により、次式のように展開される。
Figure 2008145923
上式において、p(qS+1=H|qs=H)=ai,j、p(OS+1|qS+1=H,NS+1) =b(OS+1)、p(NS+1|qS+1=H,Ns)=cS+1,jに相当し、またp(OS+1:t,NS+1:t|q=H,N)は時間軸方向に算出される後向き確率βs、iに相当する。すなわち上式は、次式の再帰式により得られる。
Figure 2008145923
つまり、式(52)に式(50)(51)及び式(52)(53)を適用することにより、式(46)が導かれる。
図9は音声信号区間推定部70の機能構成例である。
音声信号区間推定部70は、L(s)レジスタ71、閾値THレジスタ72、比較部73から構成される。
L(s)レジスタ71は、状態確率比算出部60において算出された前記非音声状態の確率に対する音声状態の確率の比L(s)を入力し記憶する。
閾値THレジスタ72は、比較部73において前記確率比L(s)が音声状態に属するか非音声状態に属するかを判断する閾値THを記憶する。なお、閾値THの値は、事前に固定された値に決定しておいても、入力信号の特徴に応じて適応的に決定してもよい。固定値を設定する場合は、一般的には10程度の値に設定するのが最も望ましいが、用途に応じ0.5〜10,000の範囲で適宜設定して構わない。
比較部73は、L(s)レジスタ71から前記確率比L(s)を読み出すとともに、閾値レジスタ72から閾値THを読み出し、時刻sのフレームが音声状態に属するか非音声状態に属するかを判定し、判定結果を出力する。
具体的には、例えばL(s)の値が閾値TH以上であれば、時刻sのフレームが音声状態に属すると判断して1を出力し、閾値TH未満であれば、時刻sのフレームが非音声状態に属すると判断して0を出力する。
〔第2実施形態〕
本発明の第2実施形態は、第1実施形態における前向き第1加重平均算出部35、前向き第2加重平均算出部37、後向き第1加重平均算出部45、及び後向き第2加重平均算出部47における計算方法が異なるもので、装置構成は第1実施形態と同様である。
従って、機能構成例については第1実施形態における上記それぞれの部位の番号が異なるのみであるため、図を分けずに前向き推定部に係る図2及び後向き推定部に係る図4に第2実施形態における部位番号をカッコ書きで記すにとどめる。
前向き第1加重平均算出部135は、前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lと前記前向き正規化出力確率wOF j,kとが入力され、平均値^Nt,j,lと分散値^σN t、j、lとからなる雑音モデルパラメータの前向き第1加重平均値を出力する。
この実施形態では、前記正規分布kごとに算出される前記前向き正規化出力確率wOF j,kの中で最も確率の高いwOF j,kに該当する正規分布kの前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lを、前向き第1加重平均値^Nt,j,l、^σN t、j、lとして出力する。
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、前向き正規化出力確率が各正規分布について確率差が小さい場合には特定の正規分布において突出して確率が高い場合と比べて他の正規分布を無視することによる影響が大きくなるため、この実施形態の利用に際しては特定の正規分布における確率がその他の正規分布に比べて十分に高いことが望ましい。
前向き第2加重平均算出部137は、前記前向き第1加重平均値^Nt,j,l、^σN t、j、lと前記前向き出力確率b(O)と前記前向き雑音状態遷移確率ct,jとが入力され、平均値^Nt,lと分散値^σN t、lとからなる時刻tにおける前向き第2加重平均値を出力する。
この実施形態では、前記音声及び非音声について算出される前記前向き雑音状態遷移確率ct,jのうち、確率の高い音声又は非音声の前向き第1加重平均値^Nt,j,l、^σN t、j、lを、前向き第2加重平均値^Nt,j,l、^σN t、j、lとして出力する。
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、両者の確率差が小さい場合には一方を無視することによる影響が大きくなるため、この実施形態の利用に際しては双方の確率差が十分に大きいことが望ましい。
以上、前向き第1加重平均算出部135及び後向き第1加重平均算出部137について記したが、後向き第1加重平均算出部145及び後向き第2加重平均算出部147についても前向き第1加重平均算出部135及び前向き第2加重平均算出部137と同様な処理を行うことができる。
〔変更例〕
上記実施の形態において、パラメータ予測処理S306において、ランダムウォーク過程により1時刻前の推定結果より現在の時刻のパラメータを予測しているが、自己回帰法(線形予測法)などを用いて予測してもよい。この場合、自己回帰係数の次数に応じて最終的な雑音モデルパラメータ推定性能が向上することが期待される。
また、上記実施の形態において、音声信号区間推定部70における閾値判定後に、図9に破線で示すように音声信号区間及び非音声信号区間の継続長を調査して音声信号区間推定結果を自動訂正する突発異常検出補正部74を接続してもよい。又は、同じく図9に破線で示すように、音声状態/非音声状態の判定結果と入力信号O(t)とを掛け合わせた信号を出力するようにし、突発異常検出補正部74と同様に作用させてもよい。音声信号区間推定部70をこのように構成することにより、突発的な識別誤りを訂正することができるため、音声信号区間推定の性能が向上することが期待される。
〔発明の実験結果〕
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の音声信号区間検出装置に入力し、音声信号区間を検出する実施例を示す。以下、実験方法及び結果について説明する。
本実験では、日本語旅行対話音声データベースに収録されたクリーン音声2,292文のデータをクリーン音声とし、空港ロビーにて収録した騒音を雑音として、それぞれを信号対雑音比0dBで人工的に加算した信号を入力信号O(t)として作成した。それぞれの信号は、サンプリング周波数8,000Hz、量子化ビット数16ビットで離散サンプリングした。この入力音響信号に対し、1フレームの時間長を20ms(160サンプル点)とし、10ms(80サンプル点)ごとにフレームの始点を移動させて、音響信号分析部11を適用し、24次元のメルスペクトルを音響特徴量として抽出した。
GMMには24次元の対数メルスペクトルを音響特徴量とする混合分布数64のモデルを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。パラメータ予測処理S306においてεのパラメータ値には0.001を設定し、処理S403において後向き推定に要するフレーム数Bには5を設定した。音声状態遷移確率テーブル61において、音声状態遷移確率ai,jの値にはそれぞれ0.8,0.2,0.9,0.1を設定した。音声信号区間推定部70において、閾値THの値には10を設定した。
性能の評価は、次式のFalse acceptanceとFalse rejectionの調和平均であるHarmonic meanにより行った。False acceptanceは、非音声区間を誤って音声区間と識別した割合、False rejectionは、音声区間を誤って非音声区間と識別した割合である。評価尺度にHarmonic meanを用いて、本発明の性能評価と従来技術との性能の比較を行った。
Figure 2008145923
図10に実験結果を示す。図10の縦軸はHarmonic meanを示しており、値が小さいほど性能が高いことを示す。横軸は各音声信号区間推定方法を示しており、81、82、83はそれぞれ非特許文献1、非特許文献2、非特許文献3に開示された方法による結果であり、84は本発明の第1実施形態による結果を示す。
図10の結果から、本発明により従来技術に比べて高い性能が得られることが明らかとなった。
本発明による音声信号区間推定装置の構成図。 本発明による音声信号区間推定装置における前向き推定部の構成図。 本発明による音声信号区間推定装置における前向き推定部の処理手順。 本発明による音声信号区間推定装置における後向き推定部の構成図。 本発明による音声信号区間推定装置における後向き推定部の処理手順。 本発明による音声信号区間推定装置における状態確率比算出部の構成図。 音声状態/非音声状態の状態遷移モデルを示す図。 本発明による音声信号区間推定装置における状態確率比算出部の処理手順。 本発明による音声信号区間推定装置における音声信号区間推定部の構成図。 本発明による音声信号区間推定の実験結果。

Claims (10)

  1. 音声信号と雑音信号とを含む入力信号において、音声信号が存在する時間区間を検出、推定する音声信号区間推定装置であり、
    前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する音響信号分析部と、
    クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータを記憶する無雑音モデル記憶部と、
    前記音声特徴量と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定して出力する前向き推定部と、
    前記前向き推定部から出力された雑音モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声(雑音+クリーン音声)と非音声(雑音+無音)それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出し出力するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の1フレーム前から現フレームへの雑音状態遷移確率を算出し出力する後向き推定部と、
    前向き推定部及び後向き推定部における処理の過程で得られた計算結果を記憶するパラメータ記憶部と、
    前記音声と非音声それぞれの出力確率と前記雑音状態遷移確率とが入力され、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を出力する状態確率比算出部と、
    前記状態確率の比が入力され、フレームごとにしきい値と比較して、音声状態か非音声状態のいずれかを比較結果として出力する音声信号区間推定部と、
    を具備することを特徴とする音声信号区間推定装置。
  2. 請求項1に記載の音声信号区間推定装置において、
    前記前向き推定部は、
    前記音響特徴量と1フレーム前の前向き第2加重平均値とが入力され、過去の時刻から現在の時刻に向けて現フレームの雑音モデルパラメータ予測値を計算し出力する雑音モデルパラメータ予測部と、
    前記音響特徴量と前記雑音モデルパラメータ予測値と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、雑音モデルパラメータの更新処理を前記無雑音モデル記憶部に記憶された各確率モデルの複数の正規分布ごとに並列に行って、雑音モデルパラメータ更新値を出力する雑音モデルパラメータ更新部と、
    前記雑音モデルパラメータ更新値と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する前向き確率モデルパラメータ生成部と、
    前記音響特徴量と前記前向き確率モデルパラメータ生成部から出力される各確率モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出して出力する前向き音声/非音声出力確率算出部と、
    前記雑音モデルパラメータ更新値と前記前向き正規化出力確率とが入力され、雑音モデルパラメータの前向き第1加重平均値を算出して出力する前向き第1加重平均算出部と、
    1フレーム前の前向き第2加重平均値と前記雑音モデルパラメータ更新値と前記前向き正規化出力確率と前記前向き第1加重平均値とが入力され、1フレーム前の推定結果から現フレームの推定結果への前向き雑音状態遷移確率を算出して出力する前向き雑音状態遷移確率算出部と、
    前記前向き第1加重平均値と前記音声と非音声それぞれの前向き出力確率と前記前向き雑音状態遷移確率とが入力され、現フレームの前向き第2加重平均値を算出して出力する前向き第2加重平均算出部と、
    を具備し、
    前記後向き推定部は、
    1フレーム後の前記雑音モデルパラメータ予測値と現フレームの前記雑音モデルパラメータ更新値と1フレーム後の雑音モデルパラメータ再推定値とが入力され、現フレームの前向き雑音モデルパラメータの再推定処理を前記無雑音モデル記憶部に記憶された各確率モデルの複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を出力する雑音モデルパラメータ再推定部と、
    前記雑音モデルパラメータ再推定値と、前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する後向き確率モデルパラメータ生成部と、
    前記音響特徴量と前記後向き確率モデルパラメータ生成部から出力される各確率モデルパラメータと、前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出して出力する後向き音声/非音声出力確率算出部と、
    前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率とが入力され、雑音モデルパラメータの後向き第1加重平均値を算出して出力する後向き第1加重平均算出部と、
    1フレーム前の後向き第2加重平均値と前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率と前記後向き第1加重平均値とが入力され、1フレーム前の推定結果から現フレームの推定結果への雑音状態遷移確率を算出して出力する後向き雑音状態遷移確率算出部と、
    前記後向き第1加重平均値と前記音声、非音声それぞれの出力確率と前記雑音状態遷移確率とが入力され、現フレームの後向き第2加重平均値を算出して出力する後向き第2加重平均算出部と、
    を具備することを特徴とする音声信号区間推定装置。
  3. 請求項1又は2に記載の音声信号区間推定装置において、
    前記状態確率比算出部は、
    有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率を記憶する音声状態遷移確率テーブルと、
    現フレームの前記音声と非音声それぞれの出力確率と現フレームの前記雑音状態遷移確率と前記音声状態遷移確率と1フレーム前の前向き確率とが入力され、現フレームの前向き確率を算出して出力する前向き確率算出部と、
    1フレーム後の前記音声と非音声それぞれの出力確率と1フレーム後の前記雑音状態遷移確率と、前記音声状態遷移確率と1フレーム後の後向き確率とが入力され、現フレームの後向き確率を算出して出力する後向き確率算出部と、
    前向き確率算出部及び後向き確率算出部における処理の過程で得られた前向き確率及び後向き確率を記憶する確率比算出用バッファと、
    前記現フレームの前向き確率と前記現フレームの後向き確率とが入力され、非音声状態確率に対する音声状態確率の比を算出して出力する確率比算出部と、
    を具備することを特徴とする音声信号区間推定装置。
  4. 請求項2又は3に記載の音声信号区間推定装置において、
    前記前向き第1加重平均算出部は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第1加重平均値として出力するものであり、
    前記前向き第2加重平均算出部は、前記前向き第1加重平均値の中で最大の前記前向き雑音状態遷移確率を持つ前向き第1加重平均値を現フレームの前向き第2加重平均値として出力するものであり、
    前記後向き第1加重平均算出部は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第1加重平均値として出力するものであり、
    前記後向き第2加重平均算出部は、前記後向き第1加重平均値の中で最大の前記状態遷移確率を持つ後向き第1加重平均値を現フレームの後向き第2加重平均値として出力するものであることを特徴とする音声信号区間推定装置。
  5. 音声信号と雑音信号とを含む入力信号において、音声信号が存在する時間区間を検出、推定する音声信号区間推定方法であり、
    音声信号分析部が、前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する過程と、
    前向き推定部が、前記音声特徴量と、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータとから、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定する過程と、
    後向き推定部が、前記前向き推定部から出力された雑音モデルパラメータと、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声(雑音+クリーン音声)と非音声(雑音+無音)それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の1フレーム前から現フレームへの雑音状態遷移確率を算出する過程と、
    状態確率比算出部が、前記音声と非音声それぞれの出力確率と前記雑音状態遷移確率とから、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を算出する過程と、
    音声信号区間推定部が、前記状態確率の比をフレームごとにしきい値と比較して、音声状態と非音声状態のいずれであるかを推定する過程と、
    からなることを特徴とする音声信号区間推定方法。
  6. 請求項5に記載の音声信号区間推定方法において、
    前記前向き推定部が雑音モデルパラメータを逐次推定する過程は、
    雑音モデルパラメータ予測部が、前記音響特徴量と1フレーム前の前向き第2加重平均値とから、過去の時刻から現在の時刻に向けて現フレームの雑音モデルパラメータ予測値を算出する過程と、
    雑音モデルパラメータ更新部が、前記音響特徴量と、前記雑音モデルパラメータ予測値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、雑音モデルパラメータの更新処理を前記正規分布ごとに並列に行って、雑音モデルパラメータ更新値を算出する過程と、
    前向き確率モデルパラメータ生成部が、前記雑音モデルパラメータ更新値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成する過程と、
    前向き音声/非音声出力確率算出部が、前記音響特徴量と、前記前向き確率モデルパラメータ生成部で算出された各確率モデルパラメータと、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出する過程と、
    前向き第1加重平均算出部が、前記雑音モデルパラメータ更新値と前記前向き正規化出力確率とから、雑音モデルパラメータの前向き第1加重平均値を算出する過程と、
    前向き雑音状態遷移確率算出部が、1フレーム前の前向き第2加重平均値と前記雑音モデルパラメータ更新値と前記前向き正規化出力確率と前記前向き第1加重平均値とから、1フレーム前の推定結果から現フレームの推定結果への前向き雑音状態遷移確率を算出する過程と、
    前向き第2加重平均算出部が、前記前向き第1加重平均値と前記音声と非音声それぞれの前向き出力確率と前記前向き雑音状態遷移確率とから、現フレームの前向き第2加重平均値を算出する過程と、
    からなり、
    前記後向き推定部が出力確率と雑音状態遷移確率を算出する過程は、
    雑音モデルパラメータ再推定部が、1フレーム後の前記雑音モデルパラメータ予測値と現フレームの前記雑音モデルパラメータ更新値と1フレーム後の雑音モデルパラメータ再推定値とから、現フレームの前向き雑音モデルパラメータの再推定処理を、前記クリーン音声信号と無音信号それぞれの確率モデルに含まれる複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を算出する過程と、
    後向き確率モデルパラメータ生成部が、前記雑音モデルパラメータ再推定値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成する過程と、
    後向き音声/非音声出力確率算出部が、前記音響特徴量と前記後向き確率モデルパラメータ生成部で算出された各確率モデルパラメータと、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出する過程と、
    後向き第1加重平均算出部が、前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率とから、雑音モデルパラメータの後向き第1加重平均値を算出する過程と、
    後向き雑音状態遷移確率算出部が、1フレーム前の後向き第2加重平均値と前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率と前記後向き第1加重平均値とから、1フレーム前の推定結果から現フレームの推定結果への雑音状態遷移確率を算出する過程と、
    後向き第2加重平均算出部が、前記後向き第1加重平均値と前記音声、非音声それぞれの出力確率と前記雑音状態遷移確率とから、現フレームの後向き第2加重平均値を算出する過程と、
    からなることを特徴とする音声信号区間推定方法。
  7. 請求項5又は6に記載の音声信号区間推定方法において、
    前記状態確率比算出部が非音声状態確率に対する音声状態確率の比を算出する過程は、
    前向き確率算出部が、現フレームの前記音声と非音声それぞれの出力確率と現フレームの前記雑音状態遷移確率と有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率と1フレーム前の前向き確率とから、現フレームの前向き確率を算出する過程と、
    後向き確率算出部が、1フレーム後の前記音声と非音声それぞれの出力確率と1フレーム後の前記雑音状態遷移確率と前記音声状態遷移確率と1フレーム後の後向き確率とから、現フレームの後向き確率を算出する過程と、
    確率比算出部が、前記現フレームの前向き確率と前記現フレームの後向き確率とから非音声状態確率に対する音声状態確率の比を算出する過程と、
    からなることを特徴とする音声信号区間推定方法。
  8. 請求項6又は7に記載の音声信号区間推定方法において、
    前記前向き第1加重平均算出部が前向き第1加重平均値を算出する過程は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第1加重平均値として算出する過程であり、
    前記前向き第2加重平均算出部が前向き第2加重平均値を算出する過程は、前記前向き第1加重平均値の中で最大の前記前向き雑音状態遷移確率を持つ前向き第1加重平均値を現フレームの前向き第2加重平均値として算出する過程であり、
    前記後向き第1加重平均算出部が後向き第1加重平均値を算出する過程は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第1加重平均値として算出する過程であり、
    前記後向き第2加重平均算出部が後向き第2加重平均値を算出する過程は、前記後向き第1加重平均値の中で最大の前記状態遷移確率を持つ後向き第1加重平均値を現フレームの後向き第2加重平均値として算出する過程であることを特徴とする音声信号区間推定方法。
  9. 請求項1〜4のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
  10. 請求項9に記載したプログラムを記録したコンピュータが読み取り可能な記録媒体。
JP2006335536A 2006-12-13 2006-12-13 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 Active JP4673828B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006335536A JP4673828B2 (ja) 2006-12-13 2006-12-13 音声信号区間推定装置、その方法、そのプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006335536A JP4673828B2 (ja) 2006-12-13 2006-12-13 音声信号区間推定装置、その方法、そのプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2008145923A true JP2008145923A (ja) 2008-06-26
JP4673828B2 JP4673828B2 (ja) 2011-04-20

Family

ID=39606147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006335536A Active JP4673828B2 (ja) 2006-12-13 2006-12-13 音声信号区間推定装置、その方法、そのプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4673828B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210647A (ja) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 雑音除去装置、その方法、そのプログラム及び記録媒体
WO2011024572A1 (ja) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP2012123185A (ja) * 2010-12-08 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置とその方法とプログラム
CN107799113A (zh) * 2017-09-26 2018-03-13 广东欧珀移动通信有限公司 音频处理方法、装置、存储介质及移动终端

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101901654B1 (ko) * 2015-12-23 2018-09-27 (주) 우림인포텍 전후방향 동향 통합 시계열 예측 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 기록 매체

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738454A (ja) * 1993-05-19 1995-02-07 N T T Idou Tsuushinmou Kk 雑音軽減方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム
JP2004503983A (ja) * 2000-06-16 2004-02-05 エイティー アンド ティー ラボラトリーズ−ケンブリッジ リミテッド 信号を抽出する方法
JP2006005918A (ja) * 2004-05-26 2006-01-05 Honda Research Inst Europe Gmbh 調波ノイズの減法キャンセル方法
JP2006154819A (ja) * 2004-11-25 2006-06-15 Lg Electronics Inc 音声判別方法
JP2006201287A (ja) * 2005-01-18 2006-08-03 Advanced Telecommunication Research Institute International 雑音抑圧装置及び音声認識システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738454A (ja) * 1993-05-19 1995-02-07 N T T Idou Tsuushinmou Kk 雑音軽減方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム
JP2004503983A (ja) * 2000-06-16 2004-02-05 エイティー アンド ティー ラボラトリーズ−ケンブリッジ リミテッド 信号を抽出する方法
JP2006005918A (ja) * 2004-05-26 2006-01-05 Honda Research Inst Europe Gmbh 調波ノイズの減法キャンセル方法
JP2006154819A (ja) * 2004-11-25 2006-06-15 Lg Electronics Inc 音声判別方法
JP2006201287A (ja) * 2005-01-18 2006-08-03 Advanced Telecommunication Research Institute International 雑音抑圧装置及び音声認識システム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210647A (ja) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 雑音除去装置、その方法、そのプログラム及び記録媒体
WO2011024572A1 (ja) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
GB2485926A (en) * 2009-08-28 2012-05-30 Ibm Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program
GB2485926B (en) * 2009-08-28 2013-06-05 Ibm Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program
US8468016B2 (en) 2009-08-28 2013-06-18 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
JP2013178575A (ja) * 2009-08-28 2013-09-09 Internatl Business Mach Corp <Ibm> 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
US8930185B2 (en) 2009-08-28 2015-01-06 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
JP2012123185A (ja) * 2010-12-08 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置とその方法とプログラム
CN107799113A (zh) * 2017-09-26 2018-03-13 广东欧珀移动通信有限公司 音频处理方法、装置、存储介质及移动终端

Also Published As

Publication number Publication date
JP4673828B2 (ja) 2011-04-20

Similar Documents

Publication Publication Date Title
Tan et al. Low-complexity variable frame rate analysis for speech recognition and voice activity detection
US9208780B2 (en) Audio signal section estimating apparatus, audio signal section estimating method, and recording medium
Wan et al. Dual extended Kalman filter methods
US7590526B2 (en) Method for processing speech signal data and finding a filter coefficient
EP2431972B1 (en) Method and apparatus for multi-sensory speech enhancement
EP1995723B1 (en) Neuroevolution training system
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
JP4856662B2 (ja) 雑音除去装置、その方法、そのプログラム及び記録媒体
Kim et al. Cepstrum-domain acoustic feature compensation based on decomposition of speech and noise for ASR in noisy environments
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
EP1160768A2 (en) Robust features extraction for speech processing
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
Dionelis et al. Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation
Cheng et al. Improving piano note tracking by HMM smoothing
JP4755555B2 (ja) 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
Katsir et al. Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation
JP2013114151A (ja) 雑音抑圧装置、方法及びプログラム
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
Hirsch et al. A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms
Sehr et al. Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110121

R150 Certificate of patent or registration of utility model

Ref document number: 4673828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350