JP2008145923A - 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 - Google Patents
音声信号区間推定装置、その方法、そのプログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2008145923A JP2008145923A JP2006335536A JP2006335536A JP2008145923A JP 2008145923 A JP2008145923 A JP 2008145923A JP 2006335536 A JP2006335536 A JP 2006335536A JP 2006335536 A JP2006335536 A JP 2006335536A JP 2008145923 A JP2008145923 A JP 2008145923A
- Authority
- JP
- Japan
- Prior art keywords
- probability
- speech
- noise
- backward
- model parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【課題】雑音信号の統計的性質が時間に伴い変化する非定常雑音においても、信号の状態遷移を正確に把握して高精度に音声信号区間を推定することができる音声信号区間推定技術を提供する。
【解決手段】音響信号分析部10にて、入力信号を一定区間単位で切り出したフレームごとに音響特徴量を抽出する。クリーン音声信号と無音信号の確率モデル(GMM)を利用し、前向き推定部30と後向き推定部40にて、雑音モデルパラメータの推定をGMMに含まれる複数の正規分布ごとに並列処理により、かつ時間軸に対し順方向だけでなく逆方向にも行う。推定された雑音モデルパラメータに基づき音声/非音声の出力確率及び雑音状態遷移確率を算出する。状態確率比算出部60にてフレーム毎に非音声状態確率に対する音声確率の比を算出し、音声信号区間推定部70にて算出された確率比と閾値を比較して、フレームごとに音声状態であるか非音声状態であるかを判定する。
【選択図】図1
Description
後掲の非特許文献1には、入力となる音響信号の周波数スペクトル、信号の全帯域のエネルギーおよび帯域分割後の各帯域のエネルギー、信号波形の零交差数、およびそれらの時間微分などの特徴量を利用した音声信号区間推定方法が開示されている。これらの音響特徴を用いた音声信号区間推定方法では、入力される音響信号を25ms程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴を算出し、その値が別途定めた閾値を超える場合には音声区間、そうでなければ非音声区間として判定する。
後掲の非特許文献3には、信号の状態遷移を定義した音声信号区間推定方法が開示されている。この方法では、入力となる音響信号が時間経過とともに音声状態、および非音声状態を遷移する信号であると見なす。音声状態、および非音声状態の状態遷移は、入力信号が音声状態に属する確率、非音声状態に属する確率を基準として決定され、音声状態に属する信号のみを出力する。
また、音声信号区間推定の性能を改善させるための技術として、入力となる音響信号に含まれる、雑音信号を正確に推定する技術が必要となる。このような技術において、信号の統計的な特徴が時々刻々と変化する、非定常的な雑音信号の逐次推定技術が極めて重要である。
後掲の非特許文献5には、前記カルマンフィルタを発展させて非線形モデルにおいても推定が行えるようにした拡張(非線形)カルマンフィルタが開示されている。また、同じく前記カルマンフィルタの発展形であるカルマンスムーザについても開示されている。カルマンスムーザにおいては、過去の時刻だけでなく、未来の時刻のパラメータの関係を考慮することにより、より正確なパラメータ推定結果を得る。
Benyassine,A.,Shlomot,E.,and Su,H-Y."ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70digital simultaneous voice and data applications,"IEEE Communications Magazine, pp.64-73, September,1997. ETSI ES 202 050 v.1.1.4 "Speech processing,Transmission and Quality aspects(STQ), Advanced Distributed Speech Recognition; Front-end feature extraction algorithm; Compression algorithms,"Nov.2005. Sohn,J.,Kim,N.S.and Sung. W."A Statistical Model-Based Voice Activity Detection,"IEEE Signal Processing Letters,Vol.6,No.1,pp.1-3,January,1999. Kalman,R.E."A New Approach to Linear Filtering and Prediction Problems,"Transactions of the ASME-Journal of Basic Engineering,Vol.82,Series D,pp.35-45,1960. 片山 徹、応用カルマンフィルタ、第5章及び第7章、朝倉書店、1983
非定常的な雑音信号の推定について、非特許文献4、および非特許文献5に記載の技術では、カルマンフィルタ、およびカルマンスムーザを用いて目的信号の逐次推定を行う。前者のカルマンフィルタは時間に対して順方向に推定を行う方法であり、後者のカルマンスムーザはカルマンフィルタの推定結果を時間に対して逆方向に再推定を行う方法である。しかし、これらの逐次推定方法は、各時刻において1つの推定結果のみを出力する。つまり、ある時刻で致命的な誤差が発生した場合、その誤差が以降の時刻の推定結果に影響を与え、誤差の回復が困難となる。
それゆえに、本発明の目的は、入力音響信号に含まれる非定常的な雑音信号の推定を行って定常的な雑音信号以外にも適用可能であり、さらに入力音響信号の過去、現在のみでなく、未来の時刻における状態の影響を考慮した、高精度な音声信号区間を推定する装置、その方法、そのプログラム及び記録媒体を提供することにある。
音声信号分析部は、前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する。
無雑音モデル記憶部は、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータを記憶する。
前向き推定部は、前記音声特徴量と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定して出力する。
状態確率比算出部は、前記音声と非音声それぞれの出力確率と前記雑音状態遷移確率とが入力され、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を出力する。
音声信号区間推定部は、前記状態確率の比が入力され、フレームごとにしきい値と比較して、音声状態か非音声状態のいずれかを比較結果として出力する。
以下の説明において、テキスト中で使用する記号「^」「〜」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。以下の説明において、ベクトルについては例えば「ベクトルA」のように直前に「ベクトル」を付与して記載する。また、ベクトルの各要素単位で行われる処理は、特に断りが無い限り、ベクトルの全ての要素に対して適用されるものとする。
図1は、本発明の音声信号区間推定装置1の機能構成例である。
音声信号区間推定装置1は、音響結合量分析部10、無雑音モデル記憶部20、前向き推定部30、後向き推定部40、パラメータ記憶部50、状態確率比算出部60、音声信号区間推定部70から構成される。
音響結合量分析部10は、音声信号と雑音信号が重畳された音響信号O(t)が入力され、まず、この音響信号O(t)を時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出す。例えば、160サンプル点長(サンプリング周波数8000Hzで時間長20ms)の音響信号を80サンプル点(サンプリング周波数8000Hzで時間長10ms)ずつ始点を移動させながら切り出す。
そして、切り出された音響信号に対して高速フーリエ変換及び24次元のメルフィルタバンク分析を適用し、24次元の対数メルスペクトルを要素に持つ、ベクトルOt={Ot、0,・・・,Ot、l,・・・,Ot、23}(時刻tのフレームにおける音声特徴量、lはベクトルの要素番号)を算出し出力する。
雑音が全く存在しない防音室等で録音を行っても、録音された信号には極微小で白色的な雑音が観測される。本発明では、このような環境において観測される信号を無音信号と定義する。
従って、無音信号も雑音の一種であるといえるが、この雑音は録音機材等の電気回路や転送系などの電気的要因により発生する雑音である。一方、自動車の走行音や風の音などは、音波が大気中を伝わって観測される音響的要因により発生する雑音である。本発明では、電気的要因による雑音と音響的要因による雑音とを区別し、後者のみを雑音信号と定義する。
そして、雑音信号が存在しない環境では、連続する無音信号の合間にクリーン音声信号が観測される。本発明では、これら無音信号とクリーン音声信号を総称して音声信号と定義する。
無雑音モデル記憶部20は、あらかじめ用意したクリーン音声信号、無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)を記憶する。複数の正規分布の数は多いほど推定精度の向上に寄与するが、処理速度上の問題とのトレードオフから実効的には2〜512個の間の値が望ましく、32個程度が最も望ましい。
それぞれの正規分布は混合重みwj,k、平均μS j,k,l、分散σS j,k,lをパラメータとして構成される。ここで、jはGMMの種別(j=0:無音GMM、j=1:クリーン音声GMM)であり、kは各正規分布の番号である。
図2は前向き推定部30の機能構成例である。
前向き推定部30は、雑音モデルパラメータ予測部31、雑音モデルパラメータ更新部32、前向き確率モデルパラメータ生成部33、前向き音声/非音声出力確率算出部34、前向き第1加重平均算出部35、前向き雑音状態遷移確率推定部36、前向き第2加重平均算出部37から構成される。
雑音モデルパラメータ予測部31は、前記音声特徴量Ot,lと時刻t−1における前向き第2加重平均値^Nt-1,l、^σN t-1、lとが入力され、平均値Nt,l predと分散値σN t,l predとからなる雑音モデルパラメータ予測値を出力する。
まず、フレーム判定処理S301においてt<10であれば、バッファリング処理S302においてパラメータ記憶部50に前記音響特徴量Ot,lを記憶する。フレーム判定処理S301においてt=10であれば、読み出し処理S303においてパラメータ記憶部50からO0,l、・・・、O9,lを読み出し、初期パラメータ推定処理S304において初期の雑音モデルパラメータNl init、σN l initを以下のように推定する。
なお、S301〜305の処理においてt=10を基準に判定しているが、これは最も望ましい基準値としての例示であり、実効的にはt=1〜20の範囲で適宜設定してよい。
t≧10の場合は、次にパラメータ予測処理S306を行う。t>10の場合は時刻t−1における推定結果から現在の時刻の雑音モデルパラメータを以下のランダムウォーク過程により予測する。
パラメータ更新処理S307においては、前記クリーン音声信号、無音信号それぞれの確率モデルパラメータは正規分布ごとに複数存在するため、これら複数のパラメータを使って、かつそれぞれ並行して前記雑音モデルパラメータ予測値の更新処理を行う。すなわち、前記クリーン音声信号、無音信号それぞれの確率モデルに含まれる正規分布の合計数と同数の更新結果を得る。更新処理は次式により行う。
前向き確率モデルパラメータ生成部33は、前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμS j,k,l、σS j,k,lとが入力され、平均値μO t,j,k,lと分散値σO t、j、k、lとからなる前向き確率モデルパラメータを出力する。
確率モデルパラメータ生成処理S308では、時刻tにおける雑音環境に適合した、音声(雑音+クリーン音声:j=1)、非音声(雑音+無音:j=0)それぞれの確率モデルパラメータμO t,j,k,l、σO t、j、k、lを次式により生成する。
前向き音声/非音声出力確率算出部34は、前記音声特徴量Ot,lと前記音声、非音声それぞれの確率モデルパラメータμO t,j,k,l、σO t、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kとが入力され、時刻tにおける音声・非音声の前向き出力確率bj(Ot)と、この前向き出力確率bj(Ot)を前記正規分布kごとに分解して正規化した前向き正規化出力確率wOF j,kとを出力する。
出力確率算出処理S309では、前記音声特徴量Ot,lをS308の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の前向き出力確率bj(Ot)を次式により求める。
前向き第1加重平均算出部35は、前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lと前記前向き正規化出力確率wOF j,kとが入力され、平均値^Nt,j,lと分散値^σN t、j、lとからなる雑音モデルパラメータの前向き第1加重平均値を出力する。
第1加重平均処理S310では、パラメータ更新処理S307で得られた複数の雑音モデルパラメータ更新結果を出力確率算出処理S309で得られた前向き正規化出力確率wOF j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である前向き第1加重平均値^Nt,j,l、^σN t、j、lを得る。加重平均は次式により行う。
状態遷移確率算出処理S311では、まず、時刻t−1における推定結果(前向き第2加重平均値^Nt-1,l)から時刻tにおける推定結果^Nt,j,lへの状態遷移確率dt,jを次式により算出する。
第2加重平均処理S312では、第1加重平均処理S310で得られた前向き第1加重平均値^Nt,j,l、^σN t、j、lを、出力確率算出処理S309で得られた前向き出力確率bj(Ot)、及び状態遷移確率算出処理S311で得られた前向き雑音状態遷移確率ct,jとを用いて加重平均することにより、時刻tにおける雑音モデルパラメータ推定結果である前向き第2加重平均値^Nt,l、^σN t、lを算出し、次の時刻の雑音パラメータの推定に利用する。加重平均は次式により行う。
式(3)(4)の予測処理、及び式(7)〜(12)の更新処理は、従来の非線形カルマンフィルタと計算式の構成自体は同様であるが、本発明ではクリーン音声信号、無音信号それぞれのGMMに含まれる複数の正規分布ごとに複数のフィルタを構成し、これらを利用することにより得られる複数の推定結果を加重平均する(並列非線形カルマンフィルタ)。このような処理を行うことによって、より正確な雑音モデルのパラメータ推定が実現される。
後向き推定部40は、雑音モデルパラメータ再推定部42、後向き確率モデルパラメータ生成部43、後向き音声/非音声出力確率算出部44、後向き第1加重平均算出部45、後向き雑音状態遷移確率推定部46、後向き第2加重平均算出部47から構成される。
雑音モデルパラメータ再推定部42は、パラメータ記憶部50に記憶された時刻sにおける雑音モデルパラメータ予測値Ns,l pred、σN s,l pred、時刻s−1における雑音モデルパラメータ更新値^Ns-1,j,k,l、^σN s-1、j、k、l及び時刻sにおける雑音モデルパラメータ再推定値〜Ns,j,k,l、〜σN s、j、k、lとが入力され、平均値〜Ns-1,j,k,lと分散値〜σN s-1、j、k、lとからなる時刻s−1における雑音モデルパラメータ再推定値を出力する。
まず、フレーム判定処理S401においてt<10であれば、変数設定処理S402において変数tbを0に設定して処理を終了する。t≧10の場合、変数判定処理S403においてtbが後向き推定に要するフレーム数B未満であれば変数書替処理S404にてtbの値を1加算して処理を終了し、tbの値がB以上であれば変数設定処理S405において後向き推定用カウンタ値bwにBを設定する。Bは大きいほど推定精度向上に寄与する反面、処理速度を損なうため、実効的には1〜10の間の値に設定するのが望ましく、10程度が最も望ましい。
そして、パラメータ平滑処理S407において、後向き推定を用いて次式によるパラメータの再推定(平滑化)を行う。
後向き確率モデルパラメータ生成部43は、前記雑音モデルパラメータ再推定値〜Ns-1,j,k,l、〜σN s-1、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータμS j,k,l、σS j,k,lとが入力され、平均値μO s-1,j,k,lと分散値σO s-1、j、k、lとからなる後向き確率モデルパラメータを出力する。
確率モデルパラメータ生成処理S408では、時刻s−1における雑音環境に適合した、音声(雑音+クリーン音声:j=1)、非音声(雑音+無音:j=0)それぞれの確率モデルパラメータμO s-1,j,k,l、σO s-1、j、k、lを次式により生成する。
後向き音声/非音声出力確率算出部44は、前記音声特徴量Os-1,lと前記音声、非音声それぞれの確率モデルパラメータμO s-1,j,k,l、σO s-1、j、k、lと前記クリーン音声信号、無音信号それぞれの確率モデルパラメータにおける混合重みwj,kとが入力され、時刻s−1における音声・非音声の出力確率bj(Os-1)と、この出力確率bj(Os-1)を前記正規分布kごとに分解して正規化した後向き正規化出力確率wOB j,kとを出力する。
出力確率算出処理S409では、前記音声特徴量Os-1,lをS408の処理で生成された前記音声、非音声それぞれの確率モデルに入力した際の、前記音声、非音声それぞれの確率モデル全体における音声、非音声の出力確率bj(Os-1)を次式により求める。
後向き第1加重平均算出部45は、前記雑音モデルパラメータ再推定値〜Ns-1,j,k,l、〜σN s-1、j、k、lと前記後向き正規化出力確率wOB j,kとが入力され、平均値〜Ns-1,j,lと分散値〜σN s-1、j、lとからなる雑音モデルパラメータの後向き第1加重平均値を出力する。
第1加重平均処理S410では、パラメータ平滑処理S407で得られた複数の雑音モデルパラメータ更新結果を出力確率算出処理S409で得られた後向き正規化出力確率wOB j,kを用いて加重平均することにより、音声、非音声それぞれの確率モデルに対応する雑音パラメータ推定結果である後向き第1加重平均値〜Ns-1,j,l、〜σN s-1、j、lを得る。加重平均は次式により行う。
状態遷移確率算出処理S411では、まず、時刻s−1における推定結果(後向き第1加重平均値〜Ns-1,j,l)から時刻sにおける推定結果〜Ns,lへの状態遷移確率ds,jを次式により算出する。
第2加重平均処理S412では、第1加重平均処理S410で得られた後向き第1加重平均値^Ns-1,j,l、^σN s-1、j、lを、出力確率算出処理S409で得られた出力確率bj(Os-1)、及び状態遷移確率算出処理S411で得られた雑音状態遷移確率cs,jとを用いて加重平均することにより、時刻s−1における雑音モデルパラメータ推定結果である後向き第2加重平均値〜Ns-1,l、〜σN s-1、lを算出し、次の時刻の雑音パラメータの推定に利用する。加重平均は次式により行う。
後向き推定部40の各処理で得られた結果のうち、出力確率算出処理S409で得られた出力確率bj(Os-1)と状態遷移確率算出処理S411で得られた雑音状態遷移確率cs,jとが、状態確率比算出部60における処理に使用される。
パラメータ記憶部50は、前向き推定部30と後向き推定部40における処理の過程で得られた計算結果を記憶する。
状態確率比算出部60は、音声状態遷移確率テーブル61、前向き確率算出部62、後向き確率算出部63、確率比算出用バッファ64、確率比算出部65から構成される。
音声状態遷移確率テーブル61は、有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率ai,jを記憶する。
前向き確率算出部62は、前記出力確率bj(Os-1)と前記雑音状態遷移確率cs,jと、音声状態遷移確率ai,jと、時刻s−1の前向き確率αs-1、jとが入力され、時刻sの前向き確率αs、jを出力する。
音声状態確率及び非音声状態確率の算出は、まず前向き確率αs、jを求め、続いて後向き確率βs、jを求めて、それらの積をとることによって求める。そして、現在の時刻sの後向き確率βs、jは、前記後向き推定部40における計算と同様にBフレーム未来の時刻s+Bから遡って算出する。
そこで、変数判定処理S601においては、例えばt<10+B、すなわちs<10の場合は初期値設定処理S602において前向き確率αs、jを以下のように設定し、それらをバッファリング処理S603において確率比算出用バッファ64に記憶して処理を終了する。
αs,0=1 (42)
αs,1=0 (43)
t<10+Bでない場合、すなわちs≧10の場合は、読み出し処理S604において、確率比算出用バッファ64から時刻s−1の前向き確率確率αs-1、jを読み出す。
まず、変数設定処理S607において、後向き確率算出用のカウンタbwの値をBに設定する。
次に、後向き確率算出処理S608において音声状態遷移確率テーブル61から音声状態確率ai,jを読み出し、これと時刻s+bwの前記出力確率bj(Os+bw)と時刻sの前記雑音状態遷移確率cs+bw,jと時刻s+bwの前記後向き確率βbw、jとから時刻s+bw−1の後向き確率βs+bw-1、iを次式により算出する。なお、bw=Bの場合は初期値βs+B,i=1を与える。
確率比算出用バッファ64は、前向き確率算出部62で算出された前向き確率αs、jと、後向き確率算出部63で算出されたと後向き確率βs,iを記憶する。
まず、時刻sにおける信号の状態をqs=Hjと定義すると、音声状態確率と非音声状態の確率の比L(s)は次式により得られる。
音声信号区間推定部70は、L(s)レジスタ71、閾値THレジスタ72、比較部73から構成される。
L(s)レジスタ71は、状態確率比算出部60において算出された前記非音声状態の確率に対する音声状態の確率の比L(s)を入力し記憶する。
閾値THレジスタ72は、比較部73において前記確率比L(s)が音声状態に属するか非音声状態に属するかを判断する閾値THを記憶する。なお、閾値THの値は、事前に固定された値に決定しておいても、入力信号の特徴に応じて適応的に決定してもよい。固定値を設定する場合は、一般的には10程度の値に設定するのが最も望ましいが、用途に応じ0.5〜10,000の範囲で適宜設定して構わない。
比較部73は、L(s)レジスタ71から前記確率比L(s)を読み出すとともに、閾値レジスタ72から閾値THを読み出し、時刻sのフレームが音声状態に属するか非音声状態に属するかを判定し、判定結果を出力する。
具体的には、例えばL(s)の値が閾値TH以上であれば、時刻sのフレームが音声状態に属すると判断して1を出力し、閾値TH未満であれば、時刻sのフレームが非音声状態に属すると判断して0を出力する。
本発明の第2実施形態は、第1実施形態における前向き第1加重平均算出部35、前向き第2加重平均算出部37、後向き第1加重平均算出部45、及び後向き第2加重平均算出部47における計算方法が異なるもので、装置構成は第1実施形態と同様である。
従って、機能構成例については第1実施形態における上記それぞれの部位の番号が異なるのみであるため、図を分けずに前向き推定部に係る図2及び後向き推定部に係る図4に第2実施形態における部位番号をカッコ書きで記すにとどめる。
前向き第1加重平均算出部135は、前記雑音モデルパラメータ更新値^Nt,j,k,l、^σN t、j、k、lと前記前向き正規化出力確率wOF j,kとが入力され、平均値^Nt,j,lと分散値^σN t、j、lとからなる雑音モデルパラメータの前向き第1加重平均値を出力する。
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、前向き正規化出力確率が各正規分布について確率差が小さい場合には特定の正規分布において突出して確率が高い場合と比べて他の正規分布を無視することによる影響が大きくなるため、この実施形態の利用に際しては特定の正規分布における確率がその他の正規分布に比べて十分に高いことが望ましい。
前向き第2加重平均算出部137は、前記前向き第1加重平均値^Nt,j,l、^σN t、j、lと前記前向き出力確率bj(Ot)と前記前向き雑音状態遷移確率ct,jとが入力され、平均値^Nt,lと分散値^σN t、lとからなる時刻tにおける前向き第2加重平均値を出力する。
このように処理することで、加重平均の計算をせずに済むため、処理の高速化を図ることができる。ただし、両者の確率差が小さい場合には一方を無視することによる影響が大きくなるため、この実施形態の利用に際しては双方の確率差が十分に大きいことが望ましい。
以上、前向き第1加重平均算出部135及び後向き第1加重平均算出部137について記したが、後向き第1加重平均算出部145及び後向き第2加重平均算出部147についても前向き第1加重平均算出部135及び前向き第2加重平均算出部137と同様な処理を行うことができる。
上記実施の形態において、パラメータ予測処理S306において、ランダムウォーク過程により1時刻前の推定結果より現在の時刻のパラメータを予測しているが、自己回帰法(線形予測法)などを用いて予測してもよい。この場合、自己回帰係数の次数に応じて最終的な雑音モデルパラメータ推定性能が向上することが期待される。
また、上記実施の形態において、音声信号区間推定部70における閾値判定後に、図9に破線で示すように音声信号区間及び非音声信号区間の継続長を調査して音声信号区間推定結果を自動訂正する突発異常検出補正部74を接続してもよい。又は、同じく図9に破線で示すように、音声状態/非音声状態の判定結果と入力信号O(t)とを掛け合わせた信号を出力するようにし、突発異常検出補正部74と同様に作用させてもよい。音声信号区間推定部70をこのように構成することにより、突発的な識別誤りを訂正することができるため、音声信号区間推定の性能が向上することが期待される。
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の音声信号区間検出装置に入力し、音声信号区間を検出する実施例を示す。以下、実験方法及び結果について説明する。
本実験では、日本語旅行対話音声データベースに収録されたクリーン音声2,292文のデータをクリーン音声とし、空港ロビーにて収録した騒音を雑音として、それぞれを信号対雑音比0dBで人工的に加算した信号を入力信号O(t)として作成した。それぞれの信号は、サンプリング周波数8,000Hz、量子化ビット数16ビットで離散サンプリングした。この入力音響信号に対し、1フレームの時間長を20ms(160サンプル点)とし、10ms(80サンプル点)ごとにフレームの始点を移動させて、音響信号分析部11を適用し、24次元のメルスペクトルを音響特徴量として抽出した。
性能の評価は、次式のFalse acceptanceとFalse rejectionの調和平均であるHarmonic meanにより行った。False acceptanceは、非音声区間を誤って音声区間と識別した割合、False rejectionは、音声区間を誤って非音声区間と識別した割合である。評価尺度にHarmonic meanを用いて、本発明の性能評価と従来技術との性能の比較を行った。
Claims (10)
- 音声信号と雑音信号とを含む入力信号において、音声信号が存在する時間区間を検出、推定する音声信号区間推定装置であり、
前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する音響信号分析部と、
クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータを記憶する無雑音モデル記憶部と、
前記音声特徴量と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定して出力する前向き推定部と、
前記前向き推定部から出力された雑音モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声(雑音+クリーン音声)と非音声(雑音+無音)それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出し出力するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の1フレーム前から現フレームへの雑音状態遷移確率を算出し出力する後向き推定部と、
前向き推定部及び後向き推定部における処理の過程で得られた計算結果を記憶するパラメータ記憶部と、
前記音声と非音声それぞれの出力確率と前記雑音状態遷移確率とが入力され、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を出力する状態確率比算出部と、
前記状態確率の比が入力され、フレームごとにしきい値と比較して、音声状態か非音声状態のいずれかを比較結果として出力する音声信号区間推定部と、
を具備することを特徴とする音声信号区間推定装置。 - 請求項1に記載の音声信号区間推定装置において、
前記前向き推定部は、
前記音響特徴量と1フレーム前の前向き第2加重平均値とが入力され、過去の時刻から現在の時刻に向けて現フレームの雑音モデルパラメータ予測値を計算し出力する雑音モデルパラメータ予測部と、
前記音響特徴量と前記雑音モデルパラメータ予測値と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、雑音モデルパラメータの更新処理を前記無雑音モデル記憶部に記憶された各確率モデルの複数の正規分布ごとに並列に行って、雑音モデルパラメータ更新値を出力する雑音モデルパラメータ更新部と、
前記雑音モデルパラメータ更新値と前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する前向き確率モデルパラメータ生成部と、
前記音響特徴量と前記前向き確率モデルパラメータ生成部から出力される各確率モデルパラメータと前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出して出力する前向き音声/非音声出力確率算出部と、
前記雑音モデルパラメータ更新値と前記前向き正規化出力確率とが入力され、雑音モデルパラメータの前向き第1加重平均値を算出して出力する前向き第1加重平均算出部と、
1フレーム前の前向き第2加重平均値と前記雑音モデルパラメータ更新値と前記前向き正規化出力確率と前記前向き第1加重平均値とが入力され、1フレーム前の推定結果から現フレームの推定結果への前向き雑音状態遷移確率を算出して出力する前向き雑音状態遷移確率算出部と、
前記前向き第1加重平均値と前記音声と非音声それぞれの前向き出力確率と前記前向き雑音状態遷移確率とが入力され、現フレームの前向き第2加重平均値を算出して出力する前向き第2加重平均算出部と、
を具備し、
前記後向き推定部は、
1フレーム後の前記雑音モデルパラメータ予測値と現フレームの前記雑音モデルパラメータ更新値と1フレーム後の雑音モデルパラメータ再推定値とが入力され、現フレームの前向き雑音モデルパラメータの再推定処理を前記無雑音モデル記憶部に記憶された各確率モデルの複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を出力する雑音モデルパラメータ再推定部と、
前記雑音モデルパラメータ再推定値と、前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成して出力する後向き確率モデルパラメータ生成部と、
前記音響特徴量と前記後向き確率モデルパラメータ生成部から出力される各確率モデルパラメータと、前記無雑音モデル記憶部に記憶された各確率モデルパラメータとが入力され、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出して出力する後向き音声/非音声出力確率算出部と、
前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率とが入力され、雑音モデルパラメータの後向き第1加重平均値を算出して出力する後向き第1加重平均算出部と、
1フレーム前の後向き第2加重平均値と前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率と前記後向き第1加重平均値とが入力され、1フレーム前の推定結果から現フレームの推定結果への雑音状態遷移確率を算出して出力する後向き雑音状態遷移確率算出部と、
前記後向き第1加重平均値と前記音声、非音声それぞれの出力確率と前記雑音状態遷移確率とが入力され、現フレームの後向き第2加重平均値を算出して出力する後向き第2加重平均算出部と、
を具備することを特徴とする音声信号区間推定装置。 - 請求項1又は2に記載の音声信号区間推定装置において、
前記状態確率比算出部は、
有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率を記憶する音声状態遷移確率テーブルと、
現フレームの前記音声と非音声それぞれの出力確率と現フレームの前記雑音状態遷移確率と前記音声状態遷移確率と1フレーム前の前向き確率とが入力され、現フレームの前向き確率を算出して出力する前向き確率算出部と、
1フレーム後の前記音声と非音声それぞれの出力確率と1フレーム後の前記雑音状態遷移確率と、前記音声状態遷移確率と1フレーム後の後向き確率とが入力され、現フレームの後向き確率を算出して出力する後向き確率算出部と、
前向き確率算出部及び後向き確率算出部における処理の過程で得られた前向き確率及び後向き確率を記憶する確率比算出用バッファと、
前記現フレームの前向き確率と前記現フレームの後向き確率とが入力され、非音声状態確率に対する音声状態確率の比を算出して出力する確率比算出部と、
を具備することを特徴とする音声信号区間推定装置。 - 請求項2又は3に記載の音声信号区間推定装置において、
前記前向き第1加重平均算出部は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第1加重平均値として出力するものであり、
前記前向き第2加重平均算出部は、前記前向き第1加重平均値の中で最大の前記前向き雑音状態遷移確率を持つ前向き第1加重平均値を現フレームの前向き第2加重平均値として出力するものであり、
前記後向き第1加重平均算出部は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第1加重平均値として出力するものであり、
前記後向き第2加重平均算出部は、前記後向き第1加重平均値の中で最大の前記状態遷移確率を持つ後向き第1加重平均値を現フレームの後向き第2加重平均値として出力するものであることを特徴とする音声信号区間推定装置。 - 音声信号と雑音信号とを含む入力信号において、音声信号が存在する時間区間を検出、推定する音声信号区間推定方法であり、
音声信号分析部が、前記入力信号を一定区間ごとに切り出したフレームごとに音声特徴量を抽出する過程と、
前向き推定部が、前記音声特徴量と、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM:Gaussian Mixture Model)パラメータとから、過去の時刻から現在の時刻に向かって並列非線形カルマンフィルタにより現在時刻の雑音モデルパラメータを逐次推定する過程と、
後向き推定部が、前記前向き推定部から出力された雑音モデルパラメータと、クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、未来の時刻から現在の時刻に向かって並列カルマンスムーザにより現在時刻の雑音モデルパラメータを逐次後向き推定し、この後向き推定した雑音モデルパラメータに基づき音声(雑音+クリーン音声)と非音声(雑音+無音)それぞれの確率モデルパラメータを逐次推定して音声と非音声それぞれの出力確率を算出するとともに、この出力確率と前記後向き推定した雑音モデルパラメータとから雑音モデルパラメータの推定結果の1フレーム前から現フレームへの雑音状態遷移確率を算出する過程と、
状態確率比算出部が、前記音声と非音声それぞれの出力確率と前記雑音状態遷移確率とから、音声状態確率と非音声状態確率とを算出して、非音声状態確率に対する音声状態確率の比を算出する過程と、
音声信号区間推定部が、前記状態確率の比をフレームごとにしきい値と比較して、音声状態と非音声状態のいずれであるかを推定する過程と、
からなることを特徴とする音声信号区間推定方法。 - 請求項5に記載の音声信号区間推定方法において、
前記前向き推定部が雑音モデルパラメータを逐次推定する過程は、
雑音モデルパラメータ予測部が、前記音響特徴量と1フレーム前の前向き第2加重平均値とから、過去の時刻から現在の時刻に向けて現フレームの雑音モデルパラメータ予測値を算出する過程と、
雑音モデルパラメータ更新部が、前記音響特徴量と、前記雑音モデルパラメータ予測値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、雑音モデルパラメータの更新処理を前記正規分布ごとに並列に行って、雑音モデルパラメータ更新値を算出する過程と、
前向き確率モデルパラメータ生成部が、前記雑音モデルパラメータ更新値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成する過程と、
前向き音声/非音声出力確率算出部が、前記音響特徴量と、前記前向き確率モデルパラメータ生成部で算出された各確率モデルパラメータと、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームごとに音声、非音声それぞれの前向き出力確率と、この前向き出力確率を前記正規分布ごとに分解した前向き正規化出力確率とを算出する過程と、
前向き第1加重平均算出部が、前記雑音モデルパラメータ更新値と前記前向き正規化出力確率とから、雑音モデルパラメータの前向き第1加重平均値を算出する過程と、
前向き雑音状態遷移確率算出部が、1フレーム前の前向き第2加重平均値と前記雑音モデルパラメータ更新値と前記前向き正規化出力確率と前記前向き第1加重平均値とから、1フレーム前の推定結果から現フレームの推定結果への前向き雑音状態遷移確率を算出する過程と、
前向き第2加重平均算出部が、前記前向き第1加重平均値と前記音声と非音声それぞれの前向き出力確率と前記前向き雑音状態遷移確率とから、現フレームの前向き第2加重平均値を算出する過程と、
からなり、
前記後向き推定部が出力確率と雑音状態遷移確率を算出する過程は、
雑音モデルパラメータ再推定部が、1フレーム後の前記雑音モデルパラメータ予測値と現フレームの前記雑音モデルパラメータ更新値と1フレーム後の雑音モデルパラメータ再推定値とから、現フレームの前向き雑音モデルパラメータの再推定処理を、前記クリーン音声信号と無音信号それぞれの確率モデルに含まれる複数の正規分布ごとに並列に、未来の時刻から現在の時刻に向けて行って、雑音モデルパラメータ再推定値を算出する過程と、
後向き確率モデルパラメータ生成部が、前記雑音モデルパラメータ再推定値と、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームを単位とする当該時刻の雑音環境に適合した音声(雑音+クリーン音声)確率モデルパラメータと非音声(雑音+無音)確率モデルパラメータとを生成する過程と、
後向き音声/非音声出力確率算出部が、前記音響特徴量と前記後向き確率モデルパラメータ生成部で算出された各確率モデルパラメータと、前記クリーン音声信号と無音信号それぞれの、複数の正規分布を含有する混合正規分布に基づく確率モデル(GMM)パラメータとから、前記フレームごとに音声、非音声それぞれの出力確率と、この出力確率を前記正規分布ごとに分解した後向き正規化出力確率とを算出する過程と、
後向き第1加重平均算出部が、前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率とから、雑音モデルパラメータの後向き第1加重平均値を算出する過程と、
後向き雑音状態遷移確率算出部が、1フレーム前の後向き第2加重平均値と前記雑音モデルパラメータ再推定値と前記後向き正規化出力確率と前記後向き第1加重平均値とから、1フレーム前の推定結果から現フレームの推定結果への雑音状態遷移確率を算出する過程と、
後向き第2加重平均算出部が、前記後向き第1加重平均値と前記音声、非音声それぞれの出力確率と前記雑音状態遷移確率とから、現フレームの後向き第2加重平均値を算出する過程と、
からなることを特徴とする音声信号区間推定方法。 - 請求項5又は6に記載の音声信号区間推定方法において、
前記状態確率比算出部が非音声状態確率に対する音声状態確率の比を算出する過程は、
前向き確率算出部が、現フレームの前記音声と非音声それぞれの出力確率と現フレームの前記雑音状態遷移確率と有限状態機械により表現された音声/非音声の状態遷移モデルにおいて適宜設定した音声状態遷移確率と1フレーム前の前向き確率とから、現フレームの前向き確率を算出する過程と、
後向き確率算出部が、1フレーム後の前記音声と非音声それぞれの出力確率と1フレーム後の前記雑音状態遷移確率と前記音声状態遷移確率と1フレーム後の後向き確率とから、現フレームの後向き確率を算出する過程と、
確率比算出部が、前記現フレームの前向き確率と前記現フレームの後向き確率とから非音声状態確率に対する音声状態確率の比を算出する過程と、
からなることを特徴とする音声信号区間推定方法。 - 請求項6又は7に記載の音声信号区間推定方法において、
前記前向き第1加重平均算出部が前向き第1加重平均値を算出する過程は、前記雑音モデルパラメータ更新値の中で最大の前記前向き正規化出力確率を持つ雑音モデルパラメータ更新値を雑音モデルパラメータの前向き第1加重平均値として算出する過程であり、
前記前向き第2加重平均算出部が前向き第2加重平均値を算出する過程は、前記前向き第1加重平均値の中で最大の前記前向き雑音状態遷移確率を持つ前向き第1加重平均値を現フレームの前向き第2加重平均値として算出する過程であり、
前記後向き第1加重平均算出部が後向き第1加重平均値を算出する過程は、前記雑音モデルパラメータ再推定値の中で最大の前記後向き正規化出力確率を持つ雑音モデルパラメータ再推定値を雑音モデルパラメータの後向き第1加重平均値として算出する過程であり、
前記後向き第2加重平均算出部が後向き第2加重平均値を算出する過程は、前記後向き第1加重平均値の中で最大の前記状態遷移確率を持つ後向き第1加重平均値を現フレームの後向き第2加重平均値として算出する過程であることを特徴とする音声信号区間推定方法。 - 請求項1〜4のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
- 請求項9に記載したプログラムを記録したコンピュータが読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006335536A JP4673828B2 (ja) | 2006-12-13 | 2006-12-13 | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006335536A JP4673828B2 (ja) | 2006-12-13 | 2006-12-13 | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008145923A true JP2008145923A (ja) | 2008-06-26 |
JP4673828B2 JP4673828B2 (ja) | 2011-04-20 |
Family
ID=39606147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006335536A Active JP4673828B2 (ja) | 2006-12-13 | 2006-12-13 | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4673828B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210647A (ja) * | 2008-02-29 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 雑音除去装置、その方法、そのプログラム及び記録媒体 |
WO2011024572A1 (ja) * | 2009-08-28 | 2011-03-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
JP2012123185A (ja) * | 2010-12-08 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 雑音抑圧装置とその方法とプログラム |
CN107799113A (zh) * | 2017-09-26 | 2018-03-13 | 广东欧珀移动通信有限公司 | 音频处理方法、装置、存储介质及移动终端 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101901654B1 (ko) * | 2015-12-23 | 2018-09-27 | (주) 우림인포텍 | 전후방향 동향 통합 시계열 예측 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 기록 매체 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0738454A (ja) * | 1993-05-19 | 1995-02-07 | N T T Idou Tsuushinmou Kk | 雑音軽減方法 |
JPH10254476A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法 |
JP2002140096A (ja) * | 2000-06-02 | 2002-05-17 | Canon Inc | 信号処理システム |
JP2004503983A (ja) * | 2000-06-16 | 2004-02-05 | エイティー アンド ティー ラボラトリーズ−ケンブリッジ リミテッド | 信号を抽出する方法 |
JP2006005918A (ja) * | 2004-05-26 | 2006-01-05 | Honda Research Inst Europe Gmbh | 調波ノイズの減法キャンセル方法 |
JP2006154819A (ja) * | 2004-11-25 | 2006-06-15 | Lg Electronics Inc | 音声判別方法 |
JP2006201287A (ja) * | 2005-01-18 | 2006-08-03 | Advanced Telecommunication Research Institute International | 雑音抑圧装置及び音声認識システム |
-
2006
- 2006-12-13 JP JP2006335536A patent/JP4673828B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0738454A (ja) * | 1993-05-19 | 1995-02-07 | N T T Idou Tsuushinmou Kk | 雑音軽減方法 |
JPH10254476A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法 |
JP2002140096A (ja) * | 2000-06-02 | 2002-05-17 | Canon Inc | 信号処理システム |
JP2004503983A (ja) * | 2000-06-16 | 2004-02-05 | エイティー アンド ティー ラボラトリーズ−ケンブリッジ リミテッド | 信号を抽出する方法 |
JP2006005918A (ja) * | 2004-05-26 | 2006-01-05 | Honda Research Inst Europe Gmbh | 調波ノイズの減法キャンセル方法 |
JP2006154819A (ja) * | 2004-11-25 | 2006-06-15 | Lg Electronics Inc | 音声判別方法 |
JP2006201287A (ja) * | 2005-01-18 | 2006-08-03 | Advanced Telecommunication Research Institute International | 雑音抑圧装置及び音声認識システム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210647A (ja) * | 2008-02-29 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 雑音除去装置、その方法、そのプログラム及び記録媒体 |
WO2011024572A1 (ja) * | 2009-08-28 | 2011-03-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
GB2485926A (en) * | 2009-08-28 | 2012-05-30 | Ibm | Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program |
GB2485926B (en) * | 2009-08-28 | 2013-06-05 | Ibm | Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program |
US8468016B2 (en) | 2009-08-28 | 2013-06-18 | International Business Machines Corporation | Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program |
JP2013178575A (ja) * | 2009-08-28 | 2013-09-09 | Internatl Business Mach Corp <Ibm> | 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム |
US8930185B2 (en) | 2009-08-28 | 2015-01-06 | International Business Machines Corporation | Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program |
JP2012123185A (ja) * | 2010-12-08 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 雑音抑圧装置とその方法とプログラム |
CN107799113A (zh) * | 2017-09-26 | 2018-03-13 | 广东欧珀移动通信有限公司 | 音频处理方法、装置、存储介质及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
JP4673828B2 (ja) | 2011-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | Low-complexity variable frame rate analysis for speech recognition and voice activity detection | |
US9208780B2 (en) | Audio signal section estimating apparatus, audio signal section estimating method, and recording medium | |
Wan et al. | Dual extended Kalman filter methods | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
EP2431972B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
EP1995723B1 (en) | Neuroevolution training system | |
Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
JP4856662B2 (ja) | 雑音除去装置、その方法、そのプログラム及び記録媒体 | |
Kim et al. | Cepstrum-domain acoustic feature compensation based on decomposition of speech and noise for ASR in noisy environments | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
EP1160768A2 (en) | Robust features extraction for speech processing | |
JP2000099080A (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
JP4673828B2 (ja) | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP5713818B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
Dionelis et al. | Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation | |
Cheng et al. | Improving piano note tracking by HMM smoothing | |
JP4755555B2 (ja) | 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体 | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation | |
JP2013114151A (ja) | 雑音抑圧装置、方法及びプログラム | |
JP4691079B2 (ja) | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 | |
Hirsch et al. | A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms | |
Sehr et al. | Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4673828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |