JP4690912B2 - 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 - Google Patents
目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4690912B2 JP4690912B2 JP2006057256A JP2006057256A JP4690912B2 JP 4690912 B2 JP4690912 B2 JP 4690912B2 JP 2006057256 A JP2006057256 A JP 2006057256A JP 2006057256 A JP2006057256 A JP 2006057256A JP 4690912 B2 JP4690912 B2 JP 4690912B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- value
- model
- variance
- discrete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Benyassine, A., Shlomot, E., and Su, H-Y. "ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications", IEEE Communication Magazine, pp. 64-73, September, 1997.
本発明はこのような点に鑑みてなされたものであり、目的信号が存在する区間を高精度に推定することを可能にする技術を提供することを目的とする。
また、本発明において好ましくは、結合モデルの次数である第1パラメータを選択し、離散混合信号を用い、当該第1パラメータが代入された結合モデルの数値的最適化を行って当該結合モデルの第2パラメータを算出し、所定の選択基準に従い、第1パラメータ及び第2パラメータの少なくとも一部から最適なパラメータを推定する。
また、本発明において好ましくは、統計モデルの適切さの客観的尺度を用いてパラメータを選択する。
またさらに、本発明において好ましくは、次数m,p,qを選択し、離散混合信号を用い、当該次数m,p,qが代入された式(1),(2)に示す結合モデルの数値的最適化を行って予測誤差εnと分散値σn 2とを算出する。そして、
また、本発明において好ましくは、混合信号分析手段は、離散混合信号と変動モデルとノイズ振幅を示すノイズパラメータの分散値とを用いてカルマンフィルタ処理を行い、その処理結果を用いて暫定目的信号を算出し、暫定目的信号と分散変動モデルとを用いて結合モデルのパラメータを推定する。ここで、カルマンフィルタ処理は、離散混合信号からノイズ信号を大雑把に除去する処理である。そのため、その処理結果から生成される暫定目的信号には、目的信号の特徴が多く含まれている。そのため、このような暫定目的信号と分散変動モデルとを用いることにより、目的信号の立ち上がり部分の特徴を適格に反映させたパラメータ推定が可能となる。また、ノイズパラメータの分散値は任意に設定可能な値である。この分散値を調整することにより、カルマンフィルタで排除されるノイズの振幅を調整できる。その結果、パラメータ推定処理の最適化も可能となる。
以下、本発明の第1の実施の形態を図面を参照して説明する。
まず、本形態の原理について説明する。
図8(a)は、無雑音状態の音声信号(「目的信号」に相当)を例示した図である。ここで、横軸は時間を示し、縦軸は振幅を示している。また、図8(b)は、この音声信号の分布状態を例示した図である。ここで、横軸は振幅を示し、縦軸は頻度を示している。図8(b)に例示するように、音声信号の分布は、裾が重く(通常の正規分布よりも裾が広がり)、中心がやや歪み鋭く尖った形状をしている。
通常、音声信号の推定は、自己回帰モデル〔AR(Autoregressive)モデル〕を用いて行われる(例えば、「古井貞煕,”音声情報処理”,森北出版株式会社,p26−38,1998」参照)。図8(c)(d)は、このARモデルの予測誤差に対応する1次階差系列の分布形状を示した図である。ここで、図8(c)の横軸は時間を示し、縦軸は振幅を示す。また、図8(d)の横軸は、この系列の正規分布の確率変数値を示し、縦軸は頻度を示す。
これらの図に示すように、この系列の分布は、裾が重く中心がやや歪み鋭く尖った形状となる。これは、ARモデルの推定誤差成分に音声信号の特徴が多く残存する傾向を示している。すなわち、ARモデルでは、正確に音声信号をモデル化することが困難である。
以上より、離散混合信号の時系列変動を示す変動モデルと、離散混合信号の分散の時系列変動を示す分散変動モデルを結合した結合モデルを用いれば、音声信号のような目的信号と雑音信号のようなノイズ信号とが混在した混合信号を捉えることができるものと考えられる。本形態では、このような結合モデルを用いて目的信号区間の推定を行う。
図1は、本形態の目的信号区間推定装置1の基本構成を例示した概念図である。
目的信号区間推定装置1は、目的信号とノイズ信号とが混合した混合信号を分析する混合信号分析装置10と、その出力値から目的信号区間を推定する目的信号区間推定部20とを有している。
まず、混合信号分析装置10の離散混合信号メモリ11に混合信号(目的信号+ノイズ信号)を所定のサンプリング周波数でサンプリングした離散混合信号を格納する。次に、格納された離散混合信号が、混合信号分析装置10の混合信号分析部12に入力される。ここで混合信号分析部12は、離散混合信号の時系列変動を示す変動モデルと離散混合信号の分散の時系列変動を示す分散変動モデルとを結合した結合モデル12aの演算が可能なように構成されている。そして、混合信号分析部12は、入力された離散混合信号と結合モデル12aとを用いて、当該結合モデル12aのパラメータを推定し、当該パラメータを特定する情報を出力する。
次に、目的信号区間推定部20に、離散混合信号メモリ11から抽出された離散混合信号と、混合信号分析装置10で推定されたパラメータとが入力される。そして、目的信号区間推定部20は、これらを用いて目的信号区間を推定し、それを示す目的信号区間情報を出力する。
〔詳細〕
次に、本形態の詳細を説明する。
本形態の例では、変動モデルとして自己回帰モデル(ARモデル)を採用し、分散変動モデルとして一般化自己回帰条件付分散不均一モデル〔GARCH(Generalized Autoregressive Conditional Heteroskedasticity)モデル〕(例えば、「Bollerslev, T. "Generalized autoregressive conditional heteroskedasticity" , Journal of Econometrics, 31, 307-327.」等参照)を採用する。そして、結合モデルを
図2は、本形態における目的信号区間推定装置100の構成を例示したブロック図である。
図2に例示するように、この例の目的信号区間推定装置100は、CPU(Central Processing Unit)101、入力部102、出力部103、補助記憶装置104、RAM(Random Access Memory)105、ROM(Read Only Memory)106及びバス107を有している。
この例のCPU101は、制御部101a、演算部101b及びレジスタ101cを有し、レジスタ101cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部102は、データが入力される入力インタフェース、キーボード、マウス等であり、出力部103は、データを出力する出力インタフェース、ディスプレイ等である。補助記憶装置104は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、本形態の目的信号区間推定処理をCPU101に実行させるためのプログラムを格納したプログラム領域104a、音響信号等の各種データが格納されるデータ領域104bを有している。また、RAM105は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、プログラム領域105a及びデータ領域105bを有している。また、バス107は、CPU101、入力部102、出力部103、補助記憶装置104、RAM105及びROM106を通信可能に接続している。
次に、プログラム領域104a,105aに格納されるプログラムについて説明する。
このプログラムは、観測された混合信号を所定のサンプリング周波数でサンプリングして離散離散混合信号を抽出するための混合信号切出プログラムと、離散混合信号が入力され、当該離散混合信号と、離散混合信号の時系列変動を示す変動モデル及び離散混合信号の分散の時系列変動を示す分散変動モデルを結合した結合モデルとを用いて、当該結合モデルのパラメータを推定し、当該パラメータを特定する情報を出力するための混合信号分析プログラムと、当該パラメータの少なくとも一部を用いて目的信号区間を推定するための目的信号区間推定プログラムとを有している。
さらに、この例のマスク生成プログラムは、入力されたパラメータの平均値を算出して出力するための平均値算出プログラムと、当該平均値を用いて時間領域マスクを算出して出力するための関数設定プログラムとに対し、各処理を実行させ、その処理結果を返してもらうことができるように構成されている。
なお、上述した各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、上記のプログラム単体でその機能を実現できるものでもよいし、上記のプログラムが他のライブラリ(記載していない)を読み出して各機能を実現するものでもよい。
CPU101は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置104のプログラム領域104aに格納されている上述プログラムをRAM105のプログラム領域105aに書き込む。同様にCPU101は、補助記憶装置104のデータ領域14bに格納されている各種データを、RAM105のデータ領域105bに書き込む。そして、このプログラムやデータが書き込まれたRAM105上のアドレスがCPU101のレジスタ101cに格納される。CPU101の制御部101aは、レジスタ101cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM105上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部101bに順次実行させ、その演算結果をレジスタ101cに格納していく。
ここで、混合信号分析部120は、次数推定部121、パラメータ推定部122及びパラメータ選択部123を有している。また、パラメータ推定部122は、モデル値算出部122a及び数値的最適化部122bを有し、パラメータ選択部123は、選択基準値算出部123a及び比較部123bを有している。また、目的信号区間推定部130は、マスク生成部131及びマスク適用部132を有している。また、マスク生成部131は、平均値算出部131a及び関数設定部131bを有している。さらにメモリ140は、領域141〜145を有している。
〔処理〕
次に、本形態における目的信号区間推定処理について説明する。
図6は、本形態における目的信号区間推定処理を説明するためのフローチャートである。以下、この図に沿って、この目的信号区間推定処理の全体を説明する。なお、各処理の詳細は後述する。
まず、メモリ140のデータを初期化される。次に、混合信号切出部110にマイクロホン等のセンサで観測された混合信号yが入力される。混合信号切出部110は、これを所定のサンプリング周波数でサンプリングした離散混合信号yn(n=1,...,N、Nはサンプル数)を抽出し、これらをメモリ140の領域141(「離散混合信号メモリ」に相当)に格納する(ステップS1)。次に、混合信号分析部120において、メモリ140の領域141から離散混合信号ynを読み込み、当該離散混合信号ynと結合モデルとを用いて、当該結合モデルのパラメータを推定する(ステップS2)。なお、この例の結合モデルは、離散混合信号の時系列変動を示すARモデルと、離散混合信号の分散の時系列変動を示すGARCHモデルとを結合した式(3)(4)に示すモデルである。そして、混合信号分析部120は、当該パラメータを特定する情報を出力する。混合信号分析部120から出力されたパラメータを特定する情報は、制御部160に入力される。制御部160は、この情報が特定するパラメータ中の所定のパラメータを選択し、それを示す情報を目的信号区間推定部130に与える。この情報を受けた目的信号区間推定部130は、これによって特定されるパラメータをメモリ140の領域142から読み込む。そして、マスク生成部130のマスク生成部131は、当該パラメータを用いて時間領域マスクInを生成し、当該時間領域マスクInを出力してメモリ140の領域144に格納する(ステップS3)。
<ステップS2の処理の詳細>
図7は、図6におけるステップS2の処理の詳細を説明するためのフローチャートである。以下、この図に沿ってステップS2の処理の詳細を説明していく。
[次数mの選択方法の例示]
次数mとしては、例えばAIC=(−1/2)(N−m)log{σ(m)2}を最小にするものが選択される。なお、σ(m)2は、自己回帰モデルの予測誤差の分散値である。また、例えばこの計算においてmが10を超えるような場合には、以下のようにノイズ信号のスペクトルSf(fは周波数)を算出し、物理的に妥当なスペクトルSfのピークが得られると認識されるmが次数mとして選択されるように設定しておいてもよい。
次に、ステップS11でメモリ140の領域142に格納された結合モデルの次数(m,p,q)がパラメータ推定部122のモデル値算出部122aに読み込まれ、モデル値算出部122aは、この次数(m,p,q)を式(3)(4)で示される結合モデルに代入する。そして、モデル値算出部122aは、この次数(m,p,q)が代入された結合モデルCM(m,p,q)を一時メモリ150に格納する(ステップS12)。
選択基準値算出部123aは、
次に、パラメータ選択部123は、ステップS1の処理前に行われる初期化後初めてAIC(m,p,q)の算出が行われたのか否かを判断する(ステップS15)。具体的には、例えば、1回目のAIC(m,p,q)の算出後、1回目のAIC(m,p,q)の算出を行ったことを示すフラグを一時メモリ150に格納しておき、2回目のAIC(m,p,q)の算出後、このフラグを2回以上AIC(m,p,q)の算出を行ったことを示すフラグに切り替えることとしておく。そして、パラメータ選択部123は、このフラグを参照することにより、AIC(m,p,q)の算出が1回目であるか否かを判断する。
一方、AIC(m,p,q)の算出が1回でないと判断された場合、メモリ140の領域143に格納されたmin{AIC(m,p,q)}と、ステップS14で一時メモリ150に格納されたAIC(m,p,q)とが比較部123bに読み込まれる。そして、比較部123bは、AIC(m,p,q)<min{AIC(m,p,q)}であるか否かを判断する(ステップS17)。ここで、AIC(m,p,q)<min{AIC(m,p,q)}でない場合、一時メモリ150のAIC(m,p,q)が破棄され(ステップS18)、処理がステップS11に戻される。一方、AIC(m,p,q)<min{AIC(m,p,q)}であった場合、パラメータ選択部123は、一時メモリ150に格納されたAIC(m,p,q)をmin{AIC(m,p,q)}としてメモリ140の領域143に上書き保存し(ステップS19)、一時メモリ150のAIC(m,p,q)を破棄する。なお、min{AIC(m,p,q)}は対応する次数(m,p,q)に対応付けて格納される。
次に、図6におけるステップS3の処理の詳細を説明する。
ステップS21においてパラメータ選択部123から出力されたmin{AIC(m,p,q)}に対応する分散値σn 2を特定する情報は、制御部160から目的信号区間推定部130に送られ、目的信号区間推定部130は、これによって特定される分散値σn 2をメモリ140の領域142から読み込む。また、目的信号区間推定部130は、メモリ140の領域141からサンプル数Nも読み込む。
次に、目的信号区間推定部130のマスク生成部131の平均値算出部131aにおいて、分散値σn 2の平均値
を算出し、この平均値μと分散値σn 2とを一時メモリ150に格納する。
そして、一時メモリ150から平均値μと分散値σn 2とが関数設定部131bに読み込まれ、関数設定部131bは、当該平均値μをしきい値として高レベル値或いは低レベル値を出力する時間領域マスクInを生成する。この例の場合、σn 2≧μとなるnに対してIn=1となり、σn 2<μとなるnに対してIn=0となる時間領域マスクInを生成する。そして、このように生成された時間領域マスクInはメモリ140の領域144に格納される。
この実験では、離散混合信号ynとして、「(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ」によって提供されている「雑音下音声認識評価環境(通称 AURORA−2J)」に含まれる音響信号を離散サンプリングしたものを用いた。この音響信号は、目的信号である男女1名の数字読み上げ音声に、ノイズ信号である車内雑音や地下鉄騒音をそれぞれ信号対雑音比0dBと10dBで加算した信号である。また、この音響信号の離散サンプリングは、サンプリング周波数8kHz、量子化ビット数16ビットで行われた。
ARモデルのAIC(m)は、次数mが大きくなるほど小さくなる。これは、次数mが大きいほどモデルが実データに近くなることを示している。しかし、本形態で要求されるARモデルは、それがノイズ信号を特徴付けられる程度のものであればよい。また、次数mが大きくなればなるほど演算量が大きくなるため、次数mはできるだけ小さいほうがよい。本形態では、以下のように妥当な次数mを決定した。
まず、ノイズ信号の周波数帯域における分析を試みる。ARモデルの係数Akと予測誤差の分散値σ(m)2とを用い、前述の式(5)のようにノイズ信号のスペクトルSf(fは周波数)を推定する。
また、同様な理由により、この実験では、GARCHモデルに対応する次数p,qを、(p,q)=(1,1),(1,2),(2,1),(2,2)の範囲で探索するものとする。
図10(a)は、目的信号にノイズ信号が混合した混合信号(この例では音響信号)に適用するモデルとAICの値との関係を示した表である。ここで、行の項目である「AR(8)」は次数8のARモデルのみを用いた場合を、「GARCH(1,1)」はモデルとして次数(p,q)=(1,1)のGARCHモデルのみを用いた場合を、「GARCH(2,1)」はモデルとして次数(p,q)=(2,1)のGARCHモデルのみを用いた場合を、「GARCH(1,2)」はモデルとして次数(p,q)=(1,2)のGARCHモデルのみを用いた場合を、「AR(8)+GARCH(2,1)」は、モデルとして次数8のARモデルと次数(p,q)=(2,1)のGARCHモデルとの結合モデルを用いた場合を、それぞれ示している。また、列の項目である「Car noise SNR 10dB」はノイズ信号としてSNR10dBの車内雑音を用いた場合を、「Subway noise SNR 10dB」はノイズ信号としてSNR10dBの地下鉄騒音を用いた場合を、それぞれ示している。そして、この表の値は、それぞれの項目に対応するAICの値である。
第2の実施の形態:
次に、本発明の第2の実施の形態を図面を説明する。
本形態は、第1の実施の形態の変形例である。第1の実施の形態との相違点は、結合モデルへの離散混合信号の適用の仕方である。すなわち、第1の実施の形態では、観測された離散混合信号(目的信号とノイズ信号とが混合する)に対し、変動モデル(例えばARモデル)のノイズ項に分散変動モデル(例えば、GARCHモデル)が加わった結合モデルを直接適用し、この結合モデルのパラメータを抽出していた。しかし、第2の実施の形態では、離散混合信号を目的信号とノイズ信号との和と考え、結合モデルを変動モデルと分散変動モデルとの和として考える。そしてまず、離散混合信号と、結合モデルを構成する変動モデルとノイズ振幅を示すノイズパラメータの分散値とを用い、カルマンフィルタ処理を行う。つまり、まず、離散混合信号に変動モデルを適用し、変動モデルの大雑把なパラメータを抽出する。次に、このパラメータが代入された結合モデルを状態空間表現し、カルマンフィルタの逐次処理のためのパラメータを抽出する。そして、抽出したパラメータと、任意に設定可能なノイズ振幅を示すノイズパラメータの分散値とを用い、カルマンフィルタ処理を実行し、離散混合信号から大雑把にノイズ信号を除去する。その後、カルマンフィルタ処理により大雑把にノイズ信号が除去された信号を用い、暫定的な目的信号(「暫定目的信号」と呼ぶ)を算出する。そして、この暫定目的信号に分散変動モデルを適用し、結合モデルのパラメータを推定する。このように目的信号の特徴を多く含む暫定目的信号を抽出し、これに分散変動モデルを適用することにより、目的信号の立ち上がり部分の特徴を容易かつ的確に抽出することができる。また、ノイズパラメータは任意に設定できるパラメータであるため、カルマンフィルタ処理により排除されるノイズ信号の振幅も調整できる。これにより、暫定目的信号に分散変動モデルを適用する処理を最適化できる。
上述のように、本形態では、変動モデルと分散変動モデルとの和からなる構造的な結合モデルを用いる。すなわち、このモデルでは、目的信号をxnとし、ノイズ信号をznとし、離散混合信号をynとした場合に(n=1,...,N、Nはサンプル数)、
yn=xn+zn …(6)
となると仮定する。なお、以下の例では、変動モデルとしてARモデル
ここで、式(6)を状態空間表現で表すと次のようになる。
観測方程式:Zn=Hξn+wn …(9)
状態方程式:ξn=Fξn-1+γεn …(10)
ここで、本形態の例では、Hは単位行列(=[1])であり、wnは平均0、分散δの正規分布に従うノイズの振幅を示すノイズパラメータN(0,δ)である。また、ξn=(x1,x2,...,xm)'であり、・’は・の転置を示す。また、γ
はγ=(1,0,...,0)であり、Fは
〔カルマンフィルタのアルゴリズム〕
この場合、カルマンフィルタのアルゴリズムは以下のようになる。
一期先予測過程:
ξn|n-1=Fξn-1|n-1 …(12)
Vn|n-1=FVn-1|n-1F’+γQγ’ …(13)
フィルタリング過程:
K=Vn|n-1H’(HVn|n-1H’+Δ)-1 …(14)
ξn|n=ξn|n-1+K(yn‐Hξn|n-1) …(15)
Vn|n=(I‐KH)Vn|n-1 …(16)
なお、・α|βはβ時点の情報を用いて生成されたα時点の・を意味する。また、Δは、分散δを要素とする対角行列である。また、Iは単位行列を意味する。式(12)〜(16)の処理を逐次的に繰り返すことにより、ξn|n,Vn|n(n=1,...,N)が得られる。
次に、本形態の構成について説明する。本形態の目的信号区間推定装置は、第1の実施の形態の目的信号区間推定装置100の混合信号分析部120を、カルマンフィルタを用いるものに置き換えた構成を採る。以下では、第1の実施の形態との相違点である混合信号分析部の構成を中心に説明し、第1の実施の形態と共通するその他の事項については説明を省略する。
図11は、第2の実施の形態における混合信号分析部220の構成を例示したブロック図である。なお、図11において第1の実施の形態と共通する事項については、第1の実施の形態で用いたのと同じ符号を付した。
〔本形態の処理〕
次に第2の実施の形態における混合信号分析部220の処理について説明する。なお、その他の処理については第1の実施の形態と同様であるため説明を省略する。また、次数m,p,qは、例えば、第1の実施の形態と同様に求めてもよいが、本形態では、説明の簡略化のため、次数m,p,qが既にメモリ140の領域242に格納されているものとする。また、任意に選択されたノイズパラメータwn=N(0,δ)の分散δもメモリ140の領域244に格納されているものとする。
まず、カルマンフィルタ部322の変動モデル適用部322aが、メモリ140のメモリ140の領域141から離散混合信号yn(n=1,...,N)を読み込み、領域242から次数mを読み込む。そして、変動モデル適用部322aは、読み込んだ離散混合信号ynを用い、次数mが代入された式(7)のパラメータAk(k=1,...,m)を推定する(ステップS31)。なお、この推定には、例えば、最小2乗法やユールウォーカー法や数値的最適化法等を用いることができる。なお、数値的最適化には、例えば、MATLAB(登録商標)のOptimization Toolbox等を用いる。推定されたパラメータAkは一時メモリ150に格納される。
次に、制御部160が、nに1を代入し、これを一時メモリ150に格納する(ステップS33)。そして、一期先予測部322bが、一時メモリ150からn,F,ξn−1|n−1を読み込み、前述の式(12)(13)の演算を行い、ξn|n-1及びVn|n-1を求める(ステップS34)。なお、本形態では、式(7)のARモデルのεnの未知分散σn 2をQとして用いる。また、ξ0|0及びV0|0には任意の初期値を用いる。生成されたVn|n-1は、一時メモリ150に格納され、ξn|n-1は一時メモリ150及びメモリ140に格納される。
pzn=yn-Hξn|n-1 …(17)
の演算によって、暫定目的信号pznを生成する(ステップS36)。生成された暫定目的信号pznは、メモリ140の領域245に格納される。
次に、制御部160は、一時メモリ150に格納されたnがNであるか否かを判断する。ここで、n=Nでなければ、制御部160は、n+1を新たなnとして一時メモリ150に格納し、処理をステップS34に戻す。一方、n=Nであれば、制御部160は、パラメータ推定部324にトリガを与える。
暫定目的信号pzn(n=1,...,N)を読み込む。そして、パラメータ推定部324は、読み込んだ暫定目的信号pznを用いて、式(8)の分散変動モデルの数値的最適化を行い、パラメータσn 2,κ,Gi,Rj,εn−jを算出し、メモリ140の領域246に格納する。なお、数値的最適化には、例えば、MATLAB(登録商標)のOptimization Toolbox等を用いる。その後の処理は第1の実施の形態と同様である。
〔実験結果〕
次に、第2の実施の形態の目的信号区間推定装置を実際に適用した場合の実験結果を示す。
音声信号(目的信号)と雑音信号(ノイズ信号)が混在する音響信号として、旅行対話データベースから生成したサンプリングレート8kHz、量子化ビット数l6ビットで離散化された波形ファイル2292ファイルに、信号対雑音比(SNR)0dBで環境雑音を加えたものを用いた。なお、この環境雑音は、新宿駅東口で独自に収録したものである。
<環境雑音に対するモデル推定>
データの最初の2000点には雑音のみが含まれると仮定してARモデル推定を行った(ステップS31に相当)。高次の次数は必要ないので、高々10次まででAIC最小の次数をもつARモデルを用いた。そして、これによって得られた係数Akをカルマンフィルタの状態遷移行列Fに代入する(ステップS32に相当)。
GARCHモデルについては、GARCH(l,l)で分散変動の特徴は十分に捉えられるので、その次数に固定した。
<目的信号区間推定>
この実験では、最初の2000点が背景雑音の情報となるため、その部分に対し、GARCH(1,1)モデルを適用し、そのときの条件付分散値の平均値μ2000と、標準偏差
Recall:正解の音声信号区間を推定できた割合(正解の音声信号区間中で正解した音声信号数/正解の音声信号区間の長さ)
Precision:推定した音声信号区間のうち正解だった割合(推定した音声信号区間中で正解した音声信号数/推定した音声信号区間の長さ)
という指標を導入した。また、正解データとして、人間が書き起こした10ms単位の正解VADファイル(音声区間を1、非音声区間を0と数量化したもの)を用いた。
〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、目的信号は特に音声信号に限定されるものでなく、光信号や電気信号等であってもよい。同様にノイズ信号は特に雑音信号や騒音信号に限定されるものではない。
同様に、本形態では、分散変動モデルとしてGARCHモデルを例示したが、離散混合信号の分散の時系列変動を示すモデルであればどのようなモデルを分散変動モデルとして適用してもよい。例えば、ARCHモデル、拡張一般化自己回帰条件付分散不均一モデル(EGARCHモデル)、Stochastic volatilityモデル、Non-Gaussian extension of a stochastic volatilityモデル、確率的ボラティリティモデル等(例えば、「Nagahara, Y. and Kitagawa, G. "A non-Gaussian stochastic volatility model", Journal of Computer Finance,2, 33-47, 1998」等参照)を分散変動モデルとして用いてもよい。
さらに、本形態の目的信号区間推定装置で目的信号が存在する区間を推定した後、その区間が本当に音声等の目的信号の区間であるかどうかを確認する手順を実行することとしてもよい(例えば、「Nima Mesgarani, Sihhab Shamma, Malcolm Slaney, "SPEECH DISCRIMINATION BASED ON MULTISCALE SPECTRO-TEMPORAL MODULATIONS", IEEE, ICASSP2004, pp601-604」等参照)。これにより、より正確に目的信号の区間を検出することができる。
さらに、本形態では、入力された混合信号yに対応する全ての離散混合信号ynをまとめて処理の対象としたが、混合信号切出部110において、所定のサンプル点長を1フレームとし、メモリ140の領域141に格納されている離散混合信号ynをフレームごとに分割し、混合信号分析部120及び目的信号区間推定部130での処理を、このフレーム単位で実行することとしてもよい。
また、上述の処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また上述のプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
10 混合信号分析装置
Claims (16)
- 音声信号である目的信号が存在する区間を推定する目的信号区間推定装置であって、
前記目的信号とノイズ信号とが混合した観測された時系列信号である混合信号を各サンプリング点でサンプリングした離散混合信号を格納する離散混合信号メモリと、
前記離散混合信号を用い、或るサンプル点での離散混合信号をそれよりも過去の各サンプル点での離散混合信号を各係数で重み付けした値と当該或るサンプル点での予測誤差の線形和で推定するモデルである変動モデル及び前記或るサンプル点での離散混合信号の分散値をそれよりも過去の各サンプル点での離散混合信号の分散値を各係数で重み付けした値と前記過去の各サンプル点での前記予測誤差のべき乗値を各係数で重み付けした値との線形和で推定するモデルである分散変動(ボラティリティ)モデルからなる結合モデルの前記或るサンプル点での分散値を推定し、推定した前記或るサンプル点での分散値を特定する情報を出力する混合信号分析手段と、
前記混合信号分析手段から出力された情報から特定される複数のサンプル点での前記分散値に対応する値をしきい値とし、前記分散値が前記しきい値以上であるサンプル点での値が高レベル値となり、かつ、前記分散値が前記しきい値未満であるサンプル点での値が低レベル値となる時間領域マスクを生成するマスク生成手段と、
サンプル点ごとに前記時間領域マスクを前記離散混合信号に乗じ、その適用結果を出力するマスク適用手段と、
を有する目的信号区間推定装置。 - 請求項1の目的信号区間推定装置であって、
前記変動モデルは自己回帰モデルであり、前記分散変動モデルは一般化自己回帰条件付分散不均一モデルである
ことを特徴とする目的信号区間推定装置。 - 請求項1又は2の目的信号区間推定装置であって、
前記混合信号分析手段が、
前記結合モデルの次数を選択する次数推定手段と、
前記離散混合信号と前記次数とが入力され、当該離散混合信号を用い、当該次数が代入された前記結合モデルの数値的最適化を行って当該次数に対応する当該結合モデルの分散値及び予測誤差を算出するパラメータ推定手段と、
前記次数及び前記次数に対応する前記結合モデルの前記分散値並びに前記予測誤差を入力とし、赤池の情報量規準又は最終予測誤差基準又はベイス情報量規準に従って、前記或るサンプル点での分散値を特定する情報を出力するパラメータ選択手段と
を有する目的信号区間推定装置。 - 音声信号である目的信号が存在する区間を推定する目的信号区間推定装置であって、
前記目的信号とノイズ信号とが混合した観測された時系列信号である前記混合信号を各サンプリング点でサンプリングした離散混合信号を格納する離散混合信号メモリと、
前記離散混合信号にカルマンフィルタを適用することで前記離散混合信号からノイズ信号成分を抑制した暫定目的信号を生成する暫定目的信号生成手段と、
前記暫定目的信号を用い、或るサンプル点での暫定目的信号の分散値をそれよりも過去の各サンプル点での離散混合信号の分散値を各係数で重み付けした値と前記過去の各サンプル点での予測誤差のべき乗値を各係数で重み付けした値との線形和で推定するモデルである分散変動(ボラティリティ)モデルの前記或るサンプル点での分散値を推定し、推定した前記或るサンプル点での分散値を特定する情報を出力するパラメータ推定手段と、
前記パラメータ推定手段から出力された情報から特定される複数のサンプル点での前記分散値に対応する値をしきい値とし、前記分散値が前記しきい値以上であるサンプル点での値が高レベル値となり、かつ、前記分散値が前記しきい値未満であるサンプル点での値が低レベル値となる時間領域マスクを生成するマスク生成手段と、
サンプル点ごとに前記時間領域マスクを前記離散混合信号に乗じ、その適用結果を出力するマスク適用手段と、
を有する目的信号区間推定装置。 - 請求項6の目的信号区間推定装置であって、
前記分散変動モデルは一般化自己回帰条件付分散不均一モデルである
ことを特徴とする目的信号区間推定装置。 - 音声信号である目的信号が存在する区間を推定する目的信号区間推定方法であって、
前記目的信号とノイズ信号とが混合した観測された時系列信号である混合信号を各サンプリング点でサンプリングした離散混合信号を離散混合信号メモリに格納する格納ステップと、
混合信号分析手段が、前記離散混合信号を用い、或るサンプル点での離散混合信号をそれよりも過去の各サンプル点での離散混合信号を各係数で重み付けした値と当該或るサンプル点での予測誤差の線形和で推定するモデルである変動モデル及び前記或るサンプル点での離散混合信号の分散値をそれよりも過去の各サンプル点での離散混合信号の分散値を各係数で重み付けした値と前記過去の各サンプル点での前記予測誤差のべき乗値を各係数で重み付けした値との線形和で推定するモデルである分散変動(ボラティリティ)モデルからなる結合モデルの前記或るサンプル点での分散値を推定し、推定した前記或るサンプル点での分散値を特定する情報を出力する混合信号分析ステップと、
マスク生成手段が、前記混合信号分析ステップで出力された情報から特定される複数のサンプル点での前記分散値に対応する値をしきい値とし、前記分散値が前記しきい値以上であるサンプル点での値が高レベル値となり、かつ、前記分散値が前記しきい値未満であるサンプル点での値が低レベル値となる時間領域マスクを生成するマスク生成ステップと、
マスク適用手段が、サンプル点ごとに前記時間領域マスクを前記離散混合信号に乗じ、その適用結果を出力するマスク適用ステップと、
を有する目的信号区間推定方法。 - 請求項8の目的信号区間推定方法であって、
前記変動モデルは自己回帰モデルであり、前記分散変動モデルは一般化自己回帰条件付分散不均一モデルである
ことを特徴とする目的信号区間推定方法。 - 請求項8又は9の目的信号区間推定方法であって、
前記混合信号分析ステップは、
次数推定手段が、前記結合モデルの次数を選択する次数推定ステップと、
パラメータ推定手段が、前記離散混合信号と前記次数とを入力とし、当該離散混合信号を用い、当該次数が代入された前記結合モデルの数値的最適化を行って当該次数に対応する当該結合モデルの分散値及び予測誤差を算出するパラメータ推定ステップと、
パラメータ選択手段が、前記次数及び前記次数に対応する前記結合モデルの前記分散値並びに前記予測誤差を入力とし、赤池の情報量規準又は最終予測誤差基準又はベイス情報量規準に従って、前記或るサンプル点での分散値を特定する情報を出力するパラメータ選択ステップと、
を有する目的信号区間推定方法。 - 請求項8から10の何れかの目的信号区間推定方法であって、
前記混合信号分析ステップは、
前記離散混合信号を用い、ynをサンプリング点n(n=1,...,N、Nはサンプル数)における離散混合信号とし、C,κを定数とし、m,p,q(m∈{1,...,M},p∈{1,...,P},q∈{1,...,Q})を次数とし、Ak,Gi,Rjをk,i,jごとに定まる係数とし、εnをnごとに定まる予測誤差とし、σn 2をynの分散値とした場合における、結合モデル
ことを特徴とする目的信号区間推定方法。 - 音声信号である目的信号が存在する区間を推定する目的信号区間推定方法であって、
前記目的信号とノイズ信号とが混合した観測された時系列信号である混合信号を各サンプリング点でサンプリングした離散混合信号を離散混合信号メモリに格納する格納ステップと、
暫定目的信号生成手段が、前記離散混合信号にカルマンフィルタを適用することで前記離散混合信号からノイズ信号成分を抑制した暫定目的信号を生成する暫定目的信号生成ステップと、
パラメータ推定手段が、前記暫定目的信号を用い、或るサンプル点での暫定目的信号の分散値をそれよりも過去の各サンプル点での離散混合信号の分散値を各係数で重み付けした値と前記過去の各サンプル点での予測誤差のべき乗値を各係数で重み付けした値との線形和で推定するモデルである分散変動(ボラティリティ)モデルの前記或るサンプル点での分散値を推定し、推定した前記或るサンプル点での分散値を特定する情報を出力するパラメータ推定ステップと、
マスク生成手段が、前記パラメータ推定ステップで出力された情報から特定される複数のサンプル点での前記分散値に対応する値をしきい値とし、前記分散値が前記しきい値以上であるサンプル点での値が高レベル値となり、かつ、前記分散値が前記しきい値未満であるサンプル点での値が低レベル値となる時間領域マスクを生成するマスク生成ステップと、
マスク適用手段が、サンプル点ごとに前記時間領域マスクを前記離散混合信号に乗じ、その適用結果を出力するマスク適用ステップと、
を有する目的信号区間推定方法。 - 請求項13の目的信号区間推定方法であって、
前記分散変動モデルは一般化自己回帰条件付分散不均一モデルである
ことを特徴とする目的信号区間推定方法。 - 請求項1から7の何れかに記載の目的信号区間推定装置としてコンピュータを機能させるためのプログラム。
- 請求項15に記載のプログラムを格納したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006057256A JP4690912B2 (ja) | 2005-07-06 | 2006-03-03 | 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005197482 | 2005-07-06 | ||
JP2005197482 | 2005-07-06 | ||
JP2006057256A JP4690912B2 (ja) | 2005-07-06 | 2006-03-03 | 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007041508A JP2007041508A (ja) | 2007-02-15 |
JP4690912B2 true JP4690912B2 (ja) | 2011-06-01 |
Family
ID=37799517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006057256A Expired - Fee Related JP4690912B2 (ja) | 2005-07-06 | 2006-03-03 | 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4690912B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009110574A1 (ja) * | 2008-03-06 | 2009-09-11 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
US8527266B2 (en) * | 2008-03-21 | 2013-09-03 | Tokyo University Of Science Educational Foundation Administrative Organization | Noise suppression device and noise suppression method |
JP7439908B2 (ja) * | 2020-03-30 | 2024-02-28 | 日本電気株式会社 | フィルタリング装置、制御システム、フィルタリング方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000504434A (ja) * | 1996-02-01 | 2000-04-11 | テレフオンアクチーボラゲツト エル エム エリクソン(パブル) | ノイズのある音声パラメータを強化する方法および装置 |
JP2005135347A (ja) * | 2003-10-31 | 2005-05-26 | Tokyo Electric Power Co Inc:The | 燃料フォワードカーブ推定方法及び推定された燃料フォワードカーブを使用するシステム |
-
2006
- 2006-03-03 JP JP2006057256A patent/JP4690912B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000504434A (ja) * | 1996-02-01 | 2000-04-11 | テレフオンアクチーボラゲツト エル エム エリクソン(パブル) | ノイズのある音声パラメータを強化する方法および装置 |
JP2005135347A (ja) * | 2003-10-31 | 2005-05-26 | Tokyo Electric Power Co Inc:The | 燃料フォワードカーブ推定方法及び推定された燃料フォワードカーブを使用するシステム |
Also Published As
Publication number | Publication date |
---|---|
JP2007041508A (ja) | 2007-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
Singh et al. | Multimedia analysis for disguised voice and classification efficiency | |
EP1465160B1 (en) | Method of noise estimation using incremental bayesian learning | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP2004264816A (ja) | 再帰的構成における反復ノイズ推定法 | |
JP4856662B2 (ja) | 雑音除去装置、その方法、そのプログラム及び記録媒体 | |
US20100076759A1 (en) | Apparatus and method for recognizing a speech | |
JP4691082B2 (ja) | 線形予測モデル次数決定装置、線形予測モデル次数決定方法、そのプログラムおよび記録媒体 | |
EP1443495A1 (en) | Method of speech recognition using hidden trajectory hidden markov models | |
EP1693826B1 (en) | Vocal tract resonance tracking using a nonlinear predictor | |
KR20040088364A (ko) | 잔여 모델을 사용하여 포먼트 트랙킹을 하기 위한 방법 및장치 | |
JP4690912B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 | |
WO2021014612A1 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
Chaudhari et al. | Multigrained modeling with pattern specific maximum likelihood transformations for text-independent speaker recognition | |
KR20070085788A (ko) | 신호 속성들을 사용한 효율적인 오디오 코딩 | |
JP4630183B2 (ja) | 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム | |
Nandwana et al. | Analysis and mitigation of vocal effort variations in speaker recognition | |
JP2017134197A (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
JP7176629B2 (ja) | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム | |
JP2005157350A (ja) | 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置 | |
WO2020162238A1 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP4691079B2 (ja) | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 | |
Sadeghi et al. | The effect of different acoustic noise on speech signal formant frequency location | |
JP4685735B2 (ja) | 音響信号区間検出方法、装置、プログラム及びその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100702 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110218 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140225 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |