JP4690912B2 - 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 - Google Patents

目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP4690912B2
JP4690912B2 JP2006057256A JP2006057256A JP4690912B2 JP 4690912 B2 JP4690912 B2 JP 4690912B2 JP 2006057256 A JP2006057256 A JP 2006057256A JP 2006057256 A JP2006057256 A JP 2006057256A JP 4690912 B2 JP4690912 B2 JP 4690912B2
Authority
JP
Japan
Prior art keywords
signal
value
model
variance
discrete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006057256A
Other languages
English (en)
Other versions
JP2007041508A (ja
Inventor
比呂子 加藤
健太郎 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006057256A priority Critical patent/JP4690912B2/ja
Publication of JP2007041508A publication Critical patent/JP2007041508A/ja
Application granted granted Critical
Publication of JP4690912B2 publication Critical patent/JP4690912B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、ノイズ信号を含む混合信号から所定の性質を有する目的信号が存在する区間を推定する技術に係わり、特に、信号の分散が変動する(分散変動:ボラティリティ)性質を有する目的信号が存在する区間を推定する技術に関する。
車内や駅構内での雑音を背景にして収録された会話から音声を取り出したり、騒音の中で発せられた音声を携帯電話で符号化したりする場合、それらの雑音を抑圧し、高精度かつ高速に会話等の目的信号が存在する区間を推定する技術が必要となる。このような従来技術の代表例としては、例えば、VAD(Voice Activity Detector) algorithm(例えば、「非特許文献1」参照)を例示できる。このような従来の音響区間推定技術では、特徴量として信号の周波数スペクトル、全帯域エネルギー、帯域分割後の各帯域のエネルギー、信号波形の零交差数及びそれらの時間微分等を用い、この特徴量と所定の閾値とを比較すること等により音響区間の推定を行っていた。
Benyassine, A., Shlomot, E., and Su, H-Y. "ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications", IEEE Communication Magazine, pp. 64-73, September, 1997.
しかし、上述のような特徴量は雑音等のノイズ信号と目的信号とで類似する場合もある。そのため、従来方法では目的信号が存在する区間を高精度に推定することは困難であった。
本発明はこのような点に鑑みてなされたものであり、目的信号が存在する区間を高精度に推定することを可能にする技術を提供することを目的とする。
本発明では、目的信号とノイズ信号とが混合した混合信号を処理対象とする。なお「目的信号」とは、信号の分散が変動する性質を有する信号を意味する。本発明では、観測された混合信号をサンプリングした離散混合信号と、離散混合信号の時系列変動を示す変動モデル及び離散混合信号の分散の時系列変動を示す分散変動モデルを結合した結合モデルとを用いて、当該結合モデルのパラメータを推定する。なお、「モデル」とは、サンプリング点間における信号値の関係をモデル化した関係式である。また「推定する」とは推定値を算出することを意味する。
ここで、離散混合信号の時系列変動を示す変動モデルは、ノイズ信号の大雑把な特性を捉えることができる。また、離散混合信号の分散の時系列変動を示す分散変動モデルは、目的信号の特性を捉えることができると考えられる。よって、この変動モデルと分散変動モデルとを結合した結合モデルは、目的信号とノイズ信号とが混合した実際の混合信号を表現することが可能である。そのため、この結合モデルが実際の離散混合信号に対して適切なものとのなるように当該結合モデルのパラメータを推定することも可能である。そして、このように推定したパラメータは、目的信号の特性を捉えることができる分散変動モデルを特定することになるため、混合信号における目的信号が存在する区間を推定することも可能となる。
また、本発明において好ましくは、所定のサンプル点長を1フレームとして離散混合信号をフレームごとに分割する。そして、フレームごとに当該離散混合信号と結合モデルとを用いて当該結合モデルのパラメータを推定する。これにより、離散混合信号のサンプル数が演算許容範囲を超え、パラメータ算出過程における演算結果が発散してしまうことを防止できる。
また、本発明において好ましくは、結合モデルの次数である第1パラメータを選択し、離散混合信号を用い、当該第1パラメータが代入された結合モデルの数値的最適化を行って当該結合モデルの第2パラメータを算出し、所定の選択基準に従い、第1パラメータ及び第2パラメータの少なくとも一部から最適なパラメータを推定する。
またさらに、本発明において好ましくは、変動モデルが、自己回帰モデルであり、分散変動モデルが、一般化自己回帰条件付分散不均一モデルである。そして、結合モデルが、yをサンプリング点n(n=1,...,N、Nはサンプル数)における離散混合信号とし、C,κを定数とし、m,p,q(m∈{1,...,M},p∈{1,...,P},q∈{1,...,Q})を次数とし、A,G,Rをk,i,jごとに定まる係数とし、εをnごとに定まる予測誤差とし、σ をyの分散値とした場合における、
Figure 0004690912
である。
また、本発明において好ましくは、統計モデルの適切さの客観的尺度を用いてパラメータを選択する。
またさらに、本発明において好ましくは、次数m,p,qを選択し、離散混合信号を用い、当該次数m,p,qが代入された式(1),(2)に示す結合モデルの数値的最適化を行って予測誤差εと分散値σ とを算出する。そして、
Figure 0004690912
を最小にする分散値σ を、結合モデルのパラメータとして推定する。
また、本発明において好ましくは、混合信号分析手段は、離散混合信号と変動モデルとノイズ振幅を示すノイズパラメータの分散値とを用いてカルマンフィルタ処理を行い、その処理結果を用いて暫定目的信号を算出し、暫定目的信号と分散変動モデルとを用いて結合モデルのパラメータを推定する。ここで、カルマンフィルタ処理は、離散混合信号からノイズ信号を大雑把に除去する処理である。そのため、その処理結果から生成される暫定目的信号には、目的信号の特徴が多く含まれている。そのため、このような暫定目的信号と分散変動モデルとを用いることにより、目的信号の立ち上がり部分の特徴を適格に反映させたパラメータ推定が可能となる。また、ノイズパラメータの分散値は任意に設定可能な値である。この分散値を調整することにより、カルマンフィルタで排除されるノイズの振幅を調整できる。その結果、パラメータ推定処理の最適化も可能となる。
また、本発明において好ましくは、推定されたパラメータ中の所定のパラメータを用いて時間領域マスクを生成し、当該時間領域マスクと当該混合信号とを被演算子とした演算を行い、その演算結果を出力する。このように出力された演算結果は、目的信号が存在する区間の混合信号の推定値となる。
本発明では、目的信号とノイズ信号とが混合した混合信号における当該目的信号が存在する区間を高精度で推定することができる。
第1の実施の形態:
以下、本発明の第1の実施の形態を図面を参照して説明する。
〔原理〕
まず、本形態の原理について説明する。
図8(a)は、無雑音状態の音声信号(「目的信号」に相当)を例示した図である。ここで、横軸は時間を示し、縦軸は振幅を示している。また、図8(b)は、この音声信号の分布状態を例示した図である。ここで、横軸は振幅を示し、縦軸は頻度を示している。図8(b)に例示するように、音声信号の分布は、裾が重く(通常の正規分布よりも裾が広がり)、中心がやや歪み鋭く尖った形状をしている。
通常、音声信号の推定は、自己回帰モデル〔AR(Autoregressive)モデル〕を用いて行われる(例えば、「古井貞煕,”音声情報処理”,森北出版株式会社,p26−38,1998」参照)。図8(c)(d)は、このARモデルの予測誤差に対応する1次階差系列の分布形状を示した図である。ここで、図8(c)の横軸は時間を示し、縦軸は振幅を示す。また、図8(d)の横軸は、この系列の正規分布の確率変数値を示し、縦軸は頻度を示す。
これらの図に示すように、この系列の分布は、裾が重く中心がやや歪み鋭く尖った形状となる。これは、ARモデルの推定誤差成分に音声信号の特徴が多く残存する傾向を示している。すなわち、ARモデルでは、正確に音声信号をモデル化することが困難である。
一方、ファイナンスの分野では、株の収益率の分散変動(ボラティリティ)を捉えたモデル化や分析が行われている(例えば、「Nagahara, Y. and Kitagawa, G. "A non-Gaussian stochastic volatility model", Journal of Computer Finance,2, 33-47, 1998」等参照)。株の収益率は、ブラックマンデー等の偶発的突発的経済事情により、その分散変動が急激に変動するが、音声信号も声門部の非線形的な変動に影響されるという点でこれに類似する特徴を有する。従って、音声信号のモデル化において、分散変動を捉えた分散不均一なモデルを適用することは妥当であると考えられる。
これに対し、車内や騒音等の雑音信号(「ノイズ信号」に相当)は比較的定常である。よって、雑音信号は、離散混合信号の時系列変動を示すモデルであれば捉えることが可能であると考えられる。例えば、雑音信号は、通常の線形ARモデルで記述されるカラードノイズとして捉えることが可能である。
以上より、離散混合信号の時系列変動を示す変動モデルと、離散混合信号の分散の時系列変動を示す分散変動モデルを結合した結合モデルを用いれば、音声信号のような目的信号と雑音信号のようなノイズ信号とが混在した混合信号を捉えることができるものと考えられる。本形態では、このような結合モデルを用いて目的信号区間の推定を行う。
〔基本構成・動作〕
図1は、本形態の目的信号区間推定装置1の基本構成を例示した概念図である。
目的信号区間推定装置1は、目的信号とノイズ信号とが混合した混合信号を分析する混合信号分析装置10と、その出力値から目的信号区間を推定する目的信号区間推定部20とを有している。
まず、混合信号分析装置10の離散混合信号メモリ11に混合信号(目的信号+ノイズ信号)を所定のサンプリング周波数でサンプリングした離散混合信号を格納する。次に、格納された離散混合信号が、混合信号分析装置10の混合信号分析部12に入力される。ここで混合信号分析部12は、離散混合信号の時系列変動を示す変動モデルと離散混合信号の分散の時系列変動を示す分散変動モデルとを結合した結合モデル12aの演算が可能なように構成されている。そして、混合信号分析部12は、入力された離散混合信号と結合モデル12aとを用いて、当該結合モデル12aのパラメータを推定し、当該パラメータを特定する情報を出力する。
次に、目的信号区間推定部20に、離散混合信号メモリ11から抽出された離散混合信号と、混合信号分析装置10で推定されたパラメータとが入力される。そして、目的信号区間推定部20は、これらを用いて目的信号区間を推定し、それを示す目的信号区間情報を出力する。
〔詳細〕
次に、本形態の詳細を説明する。
<本形態で取り扱うモデル>
本形態の例では、変動モデルとして自己回帰モデル(ARモデル)を採用し、分散変動モデルとして一般化自己回帰条件付分散不均一モデル〔GARCH(Generalized Autoregressive Conditional Heteroskedasticity)モデル〕(例えば、「Bollerslev, T. "Generalized autoregressive conditional heteroskedasticity" , Journal of Econometrics, 31, 307-327.」等参照)を採用する。そして、結合モデルを
Figure 0004690912
とする。なお、ここでは、yをサンプリング点n(n=1,...,N、Nはサンプル数)における離散混合信号とし、C,κを定数とし、m,p,q(m∈{1,...,M},p∈{1,...,P},q∈{1,...,Q})を次数とし、A,G,Rをk,i,jごとに定まる係数とし、εをnごとに定まる予測誤差とし、σ をyの分散値としている。
<ハードウェア構成>
図2は、本形態における目的信号区間推定装置100の構成を例示したブロック図である。
図2に例示するように、この例の目的信号区間推定装置100は、CPU(Central Processing Unit)101、入力部102、出力部103、補助記憶装置104、RAM(Random Access Memory)105、ROM(Read Only Memory)106及びバス107を有している。
この例のCPU101は、制御部101a、演算部101b及びレジスタ101cを有し、レジスタ101cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部102は、データが入力される入力インタフェース、キーボード、マウス等であり、出力部103は、データを出力する出力インタフェース、ディスプレイ等である。補助記憶装置104は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、本形態の目的信号区間推定処理をCPU101に実行させるためのプログラムを格納したプログラム領域104a、音響信号等の各種データが格納されるデータ領域104bを有している。また、RAM105は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、プログラム領域105a及びデータ領域105bを有している。また、バス107は、CPU101、入力部102、出力部103、補助記憶装置104、RAM105及びROM106を通信可能に接続している。
<プログラム構成>
次に、プログラム領域104a,105aに格納されるプログラムについて説明する。
このプログラムは、観測された混合信号を所定のサンプリング周波数でサンプリングして離散離散混合信号を抽出するための混合信号切出プログラムと、離散混合信号が入力され、当該離散混合信号と、離散混合信号の時系列変動を示す変動モデル及び離散混合信号の分散の時系列変動を示す分散変動モデルを結合した結合モデルとを用いて、当該結合モデルのパラメータを推定し、当該パラメータを特定する情報を出力するための混合信号分析プログラムと、当該パラメータの少なくとも一部を用いて目的信号区間を推定するための目的信号区間推定プログラムとを有している。
ここで、混合信号分析プログラムは、結合モデルの次数である第1パラメータを選択し、当該第1パラメータを出力するための次数推定プログラムと、離散混合信号と第1パラメータとが入力され、当該離散混合信号を用い、当該第1パラメータが代入された結合モデルの数値的最適化を行って当該結合モデルの第2パラメータを算出し、当該第2パラメータを出力するためのパラメータ推定プログラムと、第1パラメータ及び第2パラメータの少なくとも一部が入力され、所定の選択基準に従い、最適なパラメータを選択し、選択したパラメータを特定する情報を出力するためのパラメータ選択プログラムとに対し、各処理を実行させ、その処理結果を返してもらうことができるように構成されている。
さらに、パラメータ推定プログラムは、入力された第1パラメータを結合モデルの次数として代入し、その代入結果を出力するためのモデル値算出プログラムと、離散混合信号と第1パラメータが代入された結合モデルとを入力とし、数値的最適化を行い、当該結合モデルの第2パラメータを算出して出力するための数値的最適化プログラムとに対し、各処理を実行させ、その処理結果を返してもらうことができるように構成されている。なお、数値的最適化プログラムとしては、例えば、MATLAB(登録商標)のOptimization Toolbox等を例示できる。また、この例の結合モデルは、数値的最適化プログラムに組み込まれているものとするが、結合モデルをメモリ140に格納しておき、これを読み込んで使用する構成としてもよい。
また、パラメータ選択プログラムは、第1パラメータ及び第2パラメータの少なくとも一部が入力され、所定の選択基準での評価に用いられる評価式を演算し、その演算結果を出力するための選択基準値算出プログラムと、上記の評価式が入力され、その比較を行い、その比較結果を出力するための比較プログラムとに対し、各処理を実行させ、その処理結果を返してもらうことができるように構成されている。なお、選択基準として赤池の情報量規準(AIC Akaike's Information Criteria、「Akaike,H. "A new look at statistical model indentification",IEEE Trans. Auto. Cont., 19, 716-723, 1974 」等参照)を用いる場合、評価式は、AIC=‐2・(モデルの最大対数尤度)+ 2・(モデルの自由パラメータ数)となる。
また、目的信号区間推定プログラムは、混合信号分析プログラムを用いて推定されたパラメータ中の所定のパラメータが入力され、当該パラメータを用いて時間領域マスクを生成し、当該時間領域マスクを出力するためのマスク生成プログラムと、時間領域マスクと混合信号とが入力され、当該時間領域マスクと当該混合信号とを被演算子とした演算を行い、その演算結果を出力するためのマスク適用プログラムとに対し、各処理を実行させ、その処理結果を返してもらうことができるように構成されている。
さらに、この例のマスク生成プログラムは、入力されたパラメータの平均値を算出して出力するための平均値算出プログラムと、当該平均値を用いて時間領域マスクを算出して出力するための関数設定プログラムとに対し、各処理を実行させ、その処理結果を返してもらうことができるように構成されている。
なお、上述した各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、上記のプログラム単体でその機能を実現できるものでもよいし、上記のプログラムが他のライブラリ(記載していない)を読み出して各機能を実現するものでもよい。
<ハードウェアとソフトウェアとの協働>
CPU101は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置104のプログラム領域104aに格納されている上述プログラムをRAM105のプログラム領域105aに書き込む。同様にCPU101は、補助記憶装置104のデータ領域14bに格納されている各種データを、RAM105のデータ領域105bに書き込む。そして、このプログラムやデータが書き込まれたRAM105上のアドレスがCPU101のレジスタ101cに格納される。CPU101の制御部101aは、レジスタ101cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM105上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部101bに順次実行させ、その演算結果をレジスタ101cに格納していく。
図3は、このようにCPU101に上述のプログラムが読み込まれることにより構成される目的信号区間推定装置100の機能構成を例示したブロック図である。また、図4は、図3の混合信号分析部120の詳細構成を説明するためのブロック図であり、図5は、目的信号区間推定部130の詳細構成を説明するためのブロック図である。なお、図3〜5における実線の矢印はデータの流れを示すが、制御部160に出入りするデータの流れに対応する矢印は省略してある。また、図3における破線の矢印は、論理的な情報の流れを示す。
これらの図に示すように、この例の目的信号区間推定装置100は、混合信号切出部110、混合信号分析部120、目的信号区間推定部130、メモリ140、一時メモリ150及び制御部160を有している。なお、混合信号分析部120及びメモリ140は、「混合信号分析装置」を構成する。
ここで、混合信号分析部120は、次数推定部121、パラメータ推定部122及びパラメータ選択部123を有している。また、パラメータ推定部122は、モデル値算出部122a及び数値的最適化部122bを有し、パラメータ選択部123は、選択基準値算出部123a及び比較部123bを有している。また、目的信号区間推定部130は、マスク生成部131及びマスク適用部132を有している。また、マスク生成部131は、平均値算出部131a及び関数設定部131bを有している。さらにメモリ140は、領域141〜145を有している。
なお、メモリ140は、レジスタ101c、RAM105のデータ領域105b及び補助記憶装置104のデータ領域104b等に相当する。また、混合信号切出部110、混合信号分析部120、目的信号区間推定部130及び制御部160は、CPU101に上述したプログラムが読み込まれることにより構成されるものである。そして、この例の目的信号区間推定装置100は、制御部160の制御のもと以下に示す各処理を実行する。
〔処理〕
次に、本形態における目的信号区間推定処理について説明する。
<処理の全体>
図6は、本形態における目的信号区間推定処理を説明するためのフローチャートである。以下、この図に沿って、この目的信号区間推定処理の全体を説明する。なお、各処理の詳細は後述する。
まず、メモリ140のデータを初期化される。次に、混合信号切出部110にマイクロホン等のセンサで観測された混合信号yが入力される。混合信号切出部110は、これを所定のサンプリング周波数でサンプリングした離散混合信号y(n=1,...,N、Nはサンプル数)を抽出し、これらをメモリ140の領域141(「離散混合信号メモリ」に相当)に格納する(ステップS1)。次に、混合信号分析部120において、メモリ140の領域141から離散混合信号yを読み込み、当該離散混合信号yと結合モデルとを用いて、当該結合モデルのパラメータを推定する(ステップS2)。なお、この例の結合モデルは、離散混合信号の時系列変動を示すARモデルと、離散混合信号の分散の時系列変動を示すGARCHモデルとを結合した式(3)(4)に示すモデルである。そして、混合信号分析部120は、当該パラメータを特定する情報を出力する。混合信号分析部120から出力されたパラメータを特定する情報は、制御部160に入力される。制御部160は、この情報が特定するパラメータ中の所定のパラメータを選択し、それを示す情報を目的信号区間推定部130に与える。この情報を受けた目的信号区間推定部130は、これによって特定されるパラメータをメモリ140の領域142から読み込む。そして、マスク生成部130のマスク生成部131は、当該パラメータを用いて時間領域マスクIを生成し、当該時間領域マスクIを出力してメモリ140の領域144に格納する(ステップS3)。
次に、目的信号区間推定部130のマスク適用部132において、メモリ140の領域144から時間領域マスクIを読み込み、領域141から離散混合信号y(n=1,...,N)を読み込む。そして、マスク適用部132は、当該時間領域マスクIと当該混合信号yとを被演算子とした演算y・I(この例では乗算)を行い、その演算結果y・Iを出力し(ステップS4)、メモリ140の領域145に格納する。なお、この演算結果y・Iは、目的信号が存在する区間を示す情報となる。
<ステップS2の処理の詳細>
図7は、図6におけるステップS2の処理の詳細を説明するためのフローチャートである。以下、この図に沿ってステップS2の処理の詳細を説明していく。
まず、混合信号分析部120の次数推定部121において、結合モデルの次数(m,p,q)(m∈{1,...,M}, p∈{1,...,P},q∈{1,...,Q})を選択し、この次数の組(m,p,q)をメモリ140の領域142に格納する(ステップS11)。なお、当該次数(m,p,q)は第1パラメータに相当する。また、この例のステップS2の処理では次数mの値を固定とする。
[次数mの選択方法の例示]
次数mとしては、例えばAIC=(−1/2)(N−m)log{σ(m)2}を最小にするものが選択される。なお、σ(m)は、自己回帰モデルの予測誤差の分散値である。また、例えばこの計算においてmが10を超えるような場合には、以下のようにノイズ信号のスペクトルS(fは周波数)を算出し、物理的に妥当なスペクトルSのピークが得られると認識されるmが次数mとして選択されるように設定しておいてもよい。
Figure 0004690912
ただし、この式におけるexp(α)はネピア数eのα乗を意味し、iは虚数単位を意味する。また、Aは自己回帰モデルの係数である。この係数Aは、例えば、予め取得しておいた背景雑音等を用い、Yule-Walker法等により推定することができる。なお、この係数は式(3)(4)に示した結合モデルの係数Aの初期値としたり固定値としてもよい(「次数mの選択方法の例示」の説明終わり)。
次に、ステップS11でメモリ140の領域142に格納された結合モデルの次数(m,p,q)がパラメータ推定部122のモデル値算出部122aに読み込まれ、モデル値算出部122aは、この次数(m,p,q)を式(3)(4)で示される結合モデルに代入する。そして、モデル値算出部122aは、この次数(m,p,q)が代入された結合モデルCM(m,p,q)を一時メモリ150に格納する(ステップS12)。
次に、この次数(m,p,q)が代入された結合モデルCM(m,p,q)と、メモリ140の領域141の離散混合信号yとが数値的最適化部122bに読み込まれる。数値的最適化部122bは、この離散混合信号yを用い、次数(m,p,q)が代入された結合モデルCM(m,p,q)の数値的最適化を行い、当該結合モデルの定数C,κ、係数A,G,R、予測誤差ε,εn−j、分散値σ 2(n=1,...,N)を算出し、これらをこの次数(m,p,q)に対応付けてメモリ140の領域142に格納する(ステップS13)。なお、定数C,κ、係数A,G,R、予測誤差ε,εn−j、分散値σ が第2パラメータに相当する。
次に、メモリ140の領域141に格納された離散混合信号yのサンプル数Nと、領域142に格納された次数m,p,qと、これらに対応付けられている分散値σ と予測誤差εとが、パラメータ選択部123の選択基準値算出部123aに読み込まれる。
選択基準値算出部123aは、
Figure 0004690912
を計算してその結果を一時メモリ150に格納する(ステップS14)。
次に、パラメータ選択部123は、ステップS1の処理前に行われる初期化後初めてAIC(m,p,q)の算出が行われたのか否かを判断する(ステップS15)。具体的には、例えば、1回目のAIC(m,p,q)の算出後、1回目のAIC(m,p,q)の算出を行ったことを示すフラグを一時メモリ150に格納しておき、2回目のAIC(m,p,q)の算出後、このフラグを2回以上AIC(m,p,q)の算出を行ったことを示すフラグに切り替えることとしておく。そして、パラメータ選択部123は、このフラグを参照することにより、AIC(m,p,q)の算出が1回目であるか否かを判断する。
ここで、AIC(m,p,q)の算出が1回であると判断された場合、パラメータ選択部123は、一時メモリ150に格納された1回目のAIC(m,p,q)をメモリ140の領域143に格納し(ステップS16)、処理がステップS11に戻される。なお、このAIC(m,p,q)は、AIC(m,p,q)の最小値min{AIC(m,p,q)}の暫定値となる。また、この値は対応する次数(m,p,q)に対応付けて格納される。
一方、AIC(m,p,q)の算出が1回でないと判断された場合、メモリ140の領域143に格納されたmin{AIC(m,p,q)}と、ステップS14で一時メモリ150に格納されたAIC(m,p,q)とが比較部123bに読み込まれる。そして、比較部123bは、AIC(m,p,q)<min{AIC(m,p,q)}であるか否かを判断する(ステップS17)。ここで、AIC(m,p,q)<min{AIC(m,p,q)}でない場合、一時メモリ150のAIC(m,p,q)が破棄され(ステップS18)、処理がステップS11に戻される。一方、AIC(m,p,q)<min{AIC(m,p,q)}であった場合、パラメータ選択部123は、一時メモリ150に格納されたAIC(m,p,q)をmin{AIC(m,p,q)}としてメモリ140の領域143に上書き保存し(ステップS19)、一時メモリ150のAIC(m,p,q)を破棄する。なお、min{AIC(m,p,q)}は対応する次数(m,p,q)に対応付けて格納される。
なお、制御部160は、探索予定の全ての次数(m,p,q)についての探索が終了したか否かを判断する(ステップS20)。例えば、予めm=8,p∈{1,2},q∈{1,2}の範囲の探索を行うことと設定されていた場合、次数(m,p,q)=(8,1,1),(8,1,2),(8,2,1),(8,2,2)の全てについて上述のステップS11以降の処理が実行されたか否かを判断する。ここで、探索予定の全ての次数(m,p,q)についての探索が終了していないと判断された場合には、ステップS11の処理に戻される。一方、探索予定の全ての次数(m,p,q)についての探索が終了したと判断された場合には、パラメータ選択部123は、メモリ140の領域143に格納されたmin{AIC(m,p,q)}に対応付けられた次数(m,p,q)を特定する。次に、パラメータ選択部123は、特定した次数(m,p,q)と領域142において対応付けられている分散値σ を結合モデルのパラメータとして選択し、これを特定する情報を制御部160に出力する(ステップS21)。
<ステップS3の処理の詳細>
次に、図6におけるステップS3の処理の詳細を説明する。
ステップS21においてパラメータ選択部123から出力されたmin{AIC(m,p,q)}に対応する分散値σ を特定する情報は、制御部160から目的信号区間推定部130に送られ、目的信号区間推定部130は、これによって特定される分散値σ をメモリ140の領域142から読み込む。また、目的信号区間推定部130は、メモリ140の領域141からサンプル数Nも読み込む。
次に、目的信号区間推定部130のマスク生成部131の平均値算出部131aにおいて、分散値σ の平均値
Figure 0004690912

を算出し、この平均値μと分散値σ とを一時メモリ150に格納する。
そして、一時メモリ150から平均値μと分散値σ とが関数設定部131bに読み込まれ、関数設定部131bは、当該平均値μをしきい値として高レベル値或いは低レベル値を出力する時間領域マスクIを生成する。この例の場合、σ ≧μとなるnに対してI=1となり、σ <μとなるnに対してI=0となる時間領域マスクIを生成する。そして、このように生成された時間領域マスクIはメモリ140の領域144に格納される。
<実験に用いたデータ>
この実験では、離散混合信号yとして、「(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ」によって提供されている「雑音下音声認識評価環境(通称 AURORA−2J)」に含まれる音響信号を離散サンプリングしたものを用いた。この音響信号は、目的信号である男女1名の数字読み上げ音声に、ノイズ信号である車内雑音や地下鉄騒音をそれぞれ信号対雑音比0dBと10dBで加算した信号である。また、この音響信号の離散サンプリングは、サンプリング周波数8kHz、量子化ビット数16ビットで行われた。
<次数(m,p,q)の探索範囲>
ARモデルのAIC(m)は、次数mが大きくなるほど小さくなる。これは、次数mが大きいほどモデルが実データに近くなることを示している。しかし、本形態で要求されるARモデルは、それがノイズ信号を特徴付けられる程度のものであればよい。また、次数mが大きくなればなるほど演算量が大きくなるため、次数mはできるだけ小さいほうがよい。本形態では、以下のように妥当な次数mを決定した。
まず、ノイズ信号の周波数帯域における分析を試みる。ARモデルの係数Aと予測誤差の分散値σ(m)とを用い、前述の式(5)のようにノイズ信号のスペクトルS(fは周波数)を推定する。
図9(a)は、車内雑音のスペクトルSを示したグラフであり、(b)は、地下鉄騒音のスペクトルSを示したグラフである。ここで、縦軸はS(dB)であり、横軸は周波数f(0から0.5サンプリング時間)である。また、各グラフの上に記載された1から20までの数字は次数mを示している。これらによると、高々次数m=8程度で主なスペクトルの特徴を捉えられることが分かる。従って、この実験ではm=8を採用し、次数mの値は固定とする。
また、同様な理由により、この実験では、GARCHモデルに対応する次数p,qを、(p,q)=(1,1),(1,2),(2,1),(2,2)の範囲で探索するものとする。
<実験結果>
図10(a)は、目的信号にノイズ信号が混合した混合信号(この例では音響信号)に適用するモデルとAICの値との関係を示した表である。ここで、行の項目である「AR(8)」は次数8のARモデルのみを用いた場合を、「GARCH(1,1)」はモデルとして次数(p,q)=(1,1)のGARCHモデルのみを用いた場合を、「GARCH(2,1)」はモデルとして次数(p,q)=(2,1)のGARCHモデルのみを用いた場合を、「GARCH(1,2)」はモデルとして次数(p,q)=(1,2)のGARCHモデルのみを用いた場合を、「AR(8)+GARCH(2,1)」は、モデルとして次数8のARモデルと次数(p,q)=(2,1)のGARCHモデルとの結合モデルを用いた場合を、それぞれ示している。また、列の項目である「Car noise SNR 10dB」はノイズ信号としてSNR10dBの車内雑音を用いた場合を、「Subway noise SNR 10dB」はノイズ信号としてSNR10dBの地下鉄騒音を用いた場合を、それぞれ示している。そして、この表の値は、それぞれの項目に対応するAICの値である。
それぞれのモデルのAIC値からモデルにより表現される混合信号の構造を推察すると、ARモデルとGARCHモデルとを混合した混合モデルを適用した場合のAIC値は、ARモデル単体やGARCHモデル単体を適用した場合のAIC値よりも格段に小さい。これは、混合モデルのほうがARモデル単体やGARCHモデル単体よりも音響信号の性質により合致していることが分かる。すなわち、音響信号がカラードノイズ的性質と分散不均一な非ガウス性の両方の性質を有した信号であることが確認できる。従って、音響信号に対するモデル化は、離散混合信号の時系列変動を示すモデルと離散混合信号の分散の時系列変動を示すモデルとを組み合わせることが効果的であることが分かる。
図10(b)は、ノイズ信号が車内雑音である場合の音響信号(混合信号)を示した図である。ここで、横軸はサンプリング点nを示し、縦軸は振幅を示す。また、図10(c)は、本形態の目的信号区間推定装置で算出された分散値σ の平方根、すなわち標準偏差σを示した図である。ここで、横軸はサンプリング点nを示し、縦軸は標準偏差σの値を示す。また、図10(d)は、本形態の目的信号区間推定装置で算出された時間領域マスクIを図10(b)の音響信号y(混合信号)に乗じた系列を示した図である。横軸・縦軸は図10(b)と同じである。また、図10(e)は、無雑音の場合の音響信号(目的信号)を示した図である。横軸・縦軸は図10(b)と同じである。
ここで図10(d)に示す波形と図10(e)に示す波形とを比較すると分かるように、図10(d)に示す波形、すなわち、本形態の目的信号区間推定装置で算出された時間領域マスクIを音響信号に乗じた波形は、目的信号が存在する区間を表現している。これは、本形態の目的信号区間推定装置により、ノイズ信号を含む混合信号から目的信号が存在する区間を推定することができることを示している。
第2の実施の形態:
次に、本発明の第2の実施の形態を図面を説明する。
〔原理〕
本形態は、第1の実施の形態の変形例である。第1の実施の形態との相違点は、結合モデルへの離散混合信号の適用の仕方である。すなわち、第1の実施の形態では、観測された離散混合信号(目的信号とノイズ信号とが混合する)に対し、変動モデル(例えばARモデル)のノイズ項に分散変動モデル(例えば、GARCHモデル)が加わった結合モデルを直接適用し、この結合モデルのパラメータを抽出していた。しかし、第2の実施の形態では、離散混合信号を目的信号とノイズ信号との和と考え、結合モデルを変動モデルと分散変動モデルとの和として考える。そしてまず、離散混合信号と、結合モデルを構成する変動モデルとノイズ振幅を示すノイズパラメータの分散値とを用い、カルマンフィルタ処理を行う。つまり、まず、離散混合信号に変動モデルを適用し、変動モデルの大雑把なパラメータを抽出する。次に、このパラメータが代入された結合モデルを状態空間表現し、カルマンフィルタの逐次処理のためのパラメータを抽出する。そして、抽出したパラメータと、任意に設定可能なノイズ振幅を示すノイズパラメータの分散値とを用い、カルマンフィルタ処理を実行し、離散混合信号から大雑把にノイズ信号を除去する。その後、カルマンフィルタ処理により大雑把にノイズ信号が除去された信号を用い、暫定的な目的信号(「暫定目的信号」と呼ぶ)を算出する。そして、この暫定目的信号に分散変動モデルを適用し、結合モデルのパラメータを推定する。このように目的信号の特徴を多く含む暫定目的信号を抽出し、これに分散変動モデルを適用することにより、目的信号の立ち上がり部分の特徴を容易かつ的確に抽出することができる。また、ノイズパラメータは任意に設定できるパラメータであるため、カルマンフィルタ処理により排除されるノイズ信号の振幅も調整できる。これにより、暫定目的信号に分散変動モデルを適用する処理を最適化できる。
〔本形態の結合モデル〕
上述のように、本形態では、変動モデルと分散変動モデルとの和からなる構造的な結合モデルを用いる。すなわち、このモデルでは、目的信号をxとし、ノイズ信号をzとし、離散混合信号をyとした場合に(n=1,...,N、Nはサンプル数)、
yn=xn+zn …(6)
となると仮定する。なお、以下の例では、変動モデルとしてARモデル
Figure 0004690912
を用い、分散変動モデルとしてGARCHモデル
Figure 0004690912
を用いる。なお、εは平均0,未知分散σ の正規分布に従う。また、νnは、独立同一分布に従う係数である。
ここで、式(6)を状態空間表現で表すと次のようになる。
観測方程式:Zn=Hξn+wn …(9)
状態方程式:ξn=Fξn-1+γεn …(10)
ここで、本形態の例では、Hは単位行列(=[1])であり、wは平均0、分散δの正規分布に従うノイズの振幅を示すノイズパラメータN(0,δ)である。また、ξn=(x1,x2,...,xm)'であり、・’は・の転置を示す。また、γ
はγ=(1,0,...,0)であり、Fは
Figure 0004690912
の状態遷移行列である。
〔カルマンフィルタのアルゴリズム〕
この場合、カルマンフィルタのアルゴリズムは以下のようになる。
一期先予測過程:
ξn|n-1=Fξn-1|n-1 …(12)
Vn|n-1=FVn-1|n-1F’+γQγ’ …(13)
フィルタリング過程:
K=Vn|n-1H’(HVn|n-1H’+Δ)-1 …(14)
ξn|nn|n-1+K(yn‐Hξn|n-1) …(15)
Vn|n=(I‐KH)Vn|n-1 …(16)
なお、・α|βはβ時点の情報を用いて生成されたα時点の・を意味する。また、Δは、分散δを要素とする対角行列である。また、Iは単位行列を意味する。式(12)〜(16)の処理を逐次的に繰り返すことにより、ξn|n,Vn|n(n=1,...,N)が得られる。
〔本形態の構成〕
次に、本形態の構成について説明する。本形態の目的信号区間推定装置は、第1の実施の形態の目的信号区間推定装置100の混合信号分析部120を、カルマンフィルタを用いるものに置き換えた構成を採る。以下では、第1の実施の形態との相違点である混合信号分析部の構成を中心に説明し、第1の実施の形態と共通するその他の事項については説明を省略する。
図11は、第2の実施の形態における混合信号分析部220の構成を例示したブロック図である。なお、図11において第1の実施の形態と共通する事項については、第1の実施の形態で用いたのと同じ符号を付した。
図11に例示するように、混合信号分析部220は、カルマンフィルタ部322、暫定目的信号生成部323及びパラメータ推定部324を有しており、メモリ140及び一時メモリ150とのデータのやり取りが可能なように構成されている。また、カルマンフィルタ部322は、変動モデル適用部322a、一期先予測部322b及びフィルタリング部322cを有している。なお、混合信号分析部220は、制御部160の制御のもと各処理を実行する。
〔本形態の処理〕
次に第2の実施の形態における混合信号分析部220の処理について説明する。なお、その他の処理については第1の実施の形態と同様であるため説明を省略する。また、次数m,p,qは、例えば、第1の実施の形態と同様に求めてもよいが、本形態では、説明の簡略化のため、次数m,p,qが既にメモリ140の領域242に格納されているものとする。また、任意に選択されたノイズパラメータw=N(0,δ)の分散δもメモリ140の領域244に格納されているものとする。
図12は、第2の実施の形態における混合信号分析処理の詳細を説明するためのフローチャートである。なお、混合信号分析処理は、第1の実施の形態におけるステップS2の処理に相当する処理である。
まず、カルマンフィルタ部322の変動モデル適用部322aが、メモリ140のメモリ140の領域141から離散混合信号y(n=1,...,N)を読み込み、領域242から次数mを読み込む。そして、変動モデル適用部322aは、読み込んだ離散混合信号yを用い、次数mが代入された式(7)のパラメータA(k=1,...,m)を推定する(ステップS31)。なお、この推定には、例えば、最小2乗法やユールウォーカー法や数値的最適化法等を用いることができる。なお、数値的最適化には、例えば、MATLAB(登録商標)のOptimization Toolbox等を用いる。推定されたパラメータAは一時メモリ150に格納される。
次に、一期先予測部322bが、一時メモリ150からパラメータA(k=1,...,m)を読み込み、式(11)に従い状態遷移行列Fを生成し(ステップS32)、一時メモリ150に格納する。
次に、制御部160が、nに1を代入し、これを一時メモリ150に格納する(ステップS33)。そして、一期先予測部322bが、一時メモリ150からn,F,ξn−1|n−1を読み込み、前述の式(12)(13)の演算を行い、ξn|n-1及びVn|n-1を求める(ステップS34)。なお、本形態では、式(7)のARモデルのεの未知分散σ をQとして用いる。また、ξ0|0及びV0|0には任意の初期値を用いる。生成されたVn|n-1は、一時メモリ150に格納され、ξn|n-1は一時メモリ150及びメモリ140に格納される。
次に、フィルタリング部322cが、一時メモリ150からVn|n-1を読み込み、前述の式(14)の演算を行ってKを求め、一時メモリ150に格納する。さらに、フィルタリング部322cは、一時メモリ150からξn|n-1を読み込み、メモリ140の領域141から離散混合信号yを読み込み、領域243から分散δを読み込み、式(15)の演算を行ってξn|nを求め、一時メモリ150及び領域244に格納する。さらに、フィルタリング部322cは、一時メモリ150からKとVn|n-1とを読み込み、式(16)の演算を行ってVn|nを求め、一時メモリ150に格納する(ステップS35)。
次に、暫定目的信号生成部323が、メモリ140の領域141から離散混合信号yを読み込み、領域244からξn|n−1を読み込み、
pzn=yn-Hξn|n-1 …(17)
の演算によって、暫定目的信号pzを生成する(ステップS36)。生成された暫定目的信号pzは、メモリ140の領域245に格納される。
次に、制御部160は、一時メモリ150に格納されたnがNであるか否かを判断する。ここで、n=Nでなければ、制御部160は、n+1を新たなnとして一時メモリ150に格納し、処理をステップS34に戻す。一方、n=Nであれば、制御部160は、パラメータ推定部324にトリガを与える。
このトリガを与えられたパラメータ推定部324は、メモリ140の領域245から
暫定目的信号pz(n=1,...,N)を読み込む。そして、パラメータ推定部324は、読み込んだ暫定目的信号pzを用いて、式(8)の分散変動モデルの数値的最適化を行い、パラメータσ ,κ,G,R,εn−jを算出し、メモリ140の領域246に格納する。なお、数値的最適化には、例えば、MATLAB(登録商標)のOptimization Toolbox等を用いる。その後の処理は第1の実施の形態と同様である。
〔実験結果〕
次に、第2の実施の形態の目的信号区間推定装置を実際に適用した場合の実験結果を示す。
<実験に用いたデータ>
音声信号(目的信号)と雑音信号(ノイズ信号)が混在する音響信号として、旅行対話データベースから生成したサンプリングレート8kHz、量子化ビット数l6ビットで離散化された波形ファイル2292ファイルに、信号対雑音比(SNR)0dBで環境雑音を加えたものを用いた。なお、この環境雑音は、新宿駅東口で独自に収録したものである。
<環境雑音に対するモデル推定>
データの最初の2000点には雑音のみが含まれると仮定してARモデル推定を行った(ステップS31に相当)。高次の次数は必要ないので、高々10次まででAIC最小の次数をもつARモデルを用いた。そして、これによって得られた係数Aをカルマンフィルタの状態遷移行列Fに代入する(ステップS32に相当)。
<暫定目的信号に対するモデル>
GARCHモデルについては、GARCH(l,l)で分散変動の特徴は十分に捉えられるので、その次数に固定した。
<目的信号区間推定>
この実験では、最初の2000点が背景雑音の情報となるため、その部分に対し、GARCH(1,1)モデルを適用し、そのときの条件付分散値の平均値μ2000と、標準偏差
Figure 0004690912
を求め、関数設定部131b(図5)で、以下の時間領域マスクI(n=2001,...N)を生成することとした。
Figure 0004690912
また、目的信号区間検出の精度を調べるために、
Recall:正解の音声信号区間を推定できた割合(正解の音声信号区間中で正解した音声信号数/正解の音声信号区間の長さ)
Precision:推定した音声信号区間のうち正解だった割合(推定した音声信号区間中で正解した音声信号数/推定した音声信号区間の長さ)
という指標を導入した。また、正解データとして、人間が書き起こした10ms単位の正解VADファイル(音声区間を1、非音声区間を0と数量化したもの)を用いた。
状態空間表現のノイズパラメータw=N(0,δ)の分散δを0.1,0.5,0.8,0と変化させた場合のRccallとPrecisionの値を表1に示す。この表から、分散δが小さいと、RecallがPrecisionに勝る。RecallとPrecisionとのバランスを考慮した分散δを設定するのが好ましい。
Figure 0004690912
8kHz音声をCS-ACELP方式で符号化する手法に付随する音声区間検出技術ITU-T G.729 AnneX Bによる同じデータに対する目的信号区間検出の精度は、Recall=63.91%,Precision=74.97%である。表1の結果は、その値よりもよい精度で目的信号区間の検出ができていることを示している。
〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、目的信号は特に音声信号に限定されるものでなく、光信号や電気信号等であってもよい。同様にノイズ信号は特に雑音信号や騒音信号に限定されるものではない。
また、本形態では、変動モデルとしてARモデルを例示したが、離散混合信号の時系列変動を示すモデルであればどのようなモデルを変動モデルとして用いてもよい。例えば、線形ARモデル、時変係数ARモデル、非線形ARモデル、非ガウス性を含むARモデルだけではなく、GARCHモデル等を変動モデルとして用いてもよい。
同様に、本形態では、分散変動モデルとしてGARCHモデルを例示したが、離散混合信号の分散の時系列変動を示すモデルであればどのようなモデルを分散変動モデルとして適用してもよい。例えば、ARCHモデル、拡張一般化自己回帰条件付分散不均一モデル(EGARCHモデル)、Stochastic volatilityモデル、Non-Gaussian extension of a stochastic volatilityモデル、確率的ボラティリティモデル等(例えば、「Nagahara, Y. and Kitagawa, G. "A non-Gaussian stochastic volatility model", Journal of Computer Finance,2, 33-47, 1998」等参照)を分散変動モデルとして用いてもよい。
また、本形態では、選択基準値算出部123aにおいて赤池の情報量規準を用いることとしたが、統計モデルの適切さの客観的尺度あれば他の尺度を用いることもでき、最終予測誤差基準FPE(final predictive error)、ベイス情報量規準(BIC)、その他の基準を用いてパラメータの選択を行うこととしてもよい(例えば、「Allan D. R. McQuarrie,"Regression and Time Series Model Selection", World Scientific」参照)。
さらに、本形態の目的信号区間推定装置で目的信号が存在する区間を推定した後、その区間が本当に音声等の目的信号の区間であるかどうかを確認する手順を実行することとしてもよい(例えば、「Nima Mesgarani, Sihhab Shamma, Malcolm Slaney, "SPEECH DISCRIMINATION BASED ON MULTISCALE SPECTRO-TEMPORAL MODULATIONS", IEEE, ICASSP2004, pp601-604」等参照)。これにより、より正確に目的信号の区間を検出することができる。
また、本形態では、パラメータのうち分散値を目的信号の区間検出に用いたが、他のパラメータを用いて目的信号の区間検出を行うこととしてもよい。
さらに、本形態では、入力された混合信号yに対応する全ての離散混合信号yをまとめて処理の対象としたが、混合信号切出部110において、所定のサンプル点長を1フレームとし、メモリ140の領域141に格納されている離散混合信号yをフレームごとに分割し、混合信号分析部120及び目的信号区間推定部130での処理を、このフレーム単位で実行することとしてもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上述の処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また上述のプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明の産業上の利用分野としては、車内や駅構内での雑音を背景に会話を収録してそこから音声を取り出す音響処理分野や、騒音の中で発せられた音声を携帯電話で符号化する分野等を例示できる。
図1は、第1の実施の形態の目的信号区間推定装置の基本構成を例示した概念図である。 図2は、第1の実施の形態における目的信号区間推定装置の構成を例示したブロック図である。 図3は、CPUに本形態のプログラムが読み込まれることにより構成される目的信号区間推定装置の機能構成を例示したブロック図である。 図4は、図3の混合信号分析部の詳細構成を説明するためのブロック図である。 図5は、目的信号区間推定部の詳細構成を説明するためのブロック図である。 図6は、本形態における目的信号区間推定処理を説明するためのフローチャートである。 図7は、図6におけるステップS2の処理の詳細を説明するためのフローチャートである。 図8(a)は、無雑音状態の音声信号を例示した図である。ここで、横軸は時間を示し、縦軸は振幅を示している。図8(b)は、この音声信号の分布状態を例示した図である。 図9(a)は、車内雑音のスペクトルSを示したグラフであり、(b)は、地下鉄騒音のスペクトルSを示したグラフである。 図10(a)は、目的信号にノイズ信号が混合した混合信号に適用するモデルとAICの値との関係を示した表である。図10(b)は、ノイズ信号が車内雑音である場合の音響信号を示した図である。図10(c)は、本形態の目的信号区間推定装置で算出された分散値σ の平方根、すなわち標準偏差σを示した図である。図10(d)は、本形態の目的信号区間推定装置で算出された時間領域マスクIを図10(b)の音響信号yに乗じた系列を示した図である。図10(e)は、無雑音の場合の音響信号(目的信号)を示した図である。 第2の実施の形態における混合信号分析部の構成を例示したブロック図である。 第2の実施の形態における混合信号分析部の処理を説明するためのフローチャートである。
符号の説明
1,100,200 目的信号区間推定装置
10 混合信号分析装置

Claims (16)

  1. 音声信号である目的信号が存在する区間を推定する目的信号区間推定装置であって、
    前記目的信号とノイズ信号とが混合した観測された時系列信号である混合信号を各サンプリング点でサンプリングした離散混合信号を格納する離散混合信号メモリと、
    前記離散混合信号を用い、或るサンプル点での離散混合信号をそれよりも過去の各サンプル点での離散混合信号を各係数で重み付けした値と当該或るサンプル点での予測誤差の線形和で推定するモデルである変動モデル及び前記或るサンプル点での離散混合信号の分散値をそれよりも過去の各サンプル点での離散混合信号の分散値を各係数で重み付けした値と前記過去の各サンプル点での前記予測誤差のべき乗値を各係数で重み付けした値との線形和で推定するモデルである分散変動(ボラティリティ)モデルからなる結合モデルの前記或るサンプル点での分散値を推定し、推定した前記或るサンプル点での分散値を特定する情報を出力する混合信号分析手段と、
    前記混合信号分析手段から出力された情報から特定される複数のサンプル点での前記分散値に対応する値をしきい値とし、前記分散値が前記しきい値以上であるサンプル点での値が高レベル値となり、かつ、前記分散値が前記しきい値未満であるサンプル点での値が低レベル値となる時間領域マスクを生成するマスク生成手段と、
    サンプル点ごとに前記時間領域マスクを前記離散混合信号に乗じ、その適用結果を出力するマスク適用手段と、
    を有する目的信号区間推定装置
  2. 請求項1の目的信号区間推定装置であって、
    前記変動モデルは自己回帰モデルであり、前記分散変動モデルは一般化自己回帰条件付分散不均一モデルである
    ことを特徴とする目的信号区間推定装置
  3. 請求項1又は2の目的信号区間推定装置であって、
    前記混合信号分析手段が、
    前記結合モデルの次数を選択する次数推定手段と、
    前記離散混合信号と前記次数とが入力され、当該離散混合信号を用い、当該次数が代入された前記結合モデルの数値的最適化を行って当該次数に対応する当該結合モデルの分散値及び予測誤差を算出するパラメータ推定手段と、
    前記次数及び前記次数に対応する前記結合モデルの前記分散値並びに前記予測誤差を入力とし、赤池の情報量規準又は最終予測誤差基準又はベイス情報量規準に従って、前記或るサンプル点での分散値を特定する情報を出力するパラメータ選択手段と
    を有する目的信号区間推定装置
  4. 請求項1から3の何れかの目的信号区間推定装置であって、
    前記混合信号分析手段は、
    前記離散混合信号を用い、yをサンプリング点n(n=1,...,N、Nはサンプル数)における離散混合信号とし、C,κを定数とし、m,p,q(m∈{1,...,M},p∈{1,...,P},q∈{1,...,Q})を次数とし、A,G,Rをk,i,jごとに定まる係数とし、εをnごとに定まる予測誤差とし、σ をyの分散値とした場合における、結合モデル
    Figure 0004690912
    の前記或るサンプル点nでの分散値σ を推定し、推定した分散値σ を特定する情報を出力する手段である
    ことを特徴とする目的信号区間推定装置
  5. 請求項4の目的信号区間推定装置であって、
    混合信号分析手段が、
    前記結合モデルの次数m,p,qを選択する次数推定手段と、
    前記離散混合信号と前記次数m,p,qとが入力され、当該離散混合信号を用い、当該次数m,p,qが代入された前記結合モデルの数値的最適化を行って当該次数m,p,qに対応する当該結合モデルの分散値σ 及び予測誤差εを算出するパラメータ推定手段と、
    Figure 0004690912
    を最小にする前記次数m,p,qに対応する前記分散値σ を特定する情報を出力するパラメータ選択手段と
    を有する目的信号区間推定装置
  6. 音声信号である目的信号が存在する区間を推定する目的信号区間推定装置であって、
    前記目的信号とノイズ信号とが混合した観測された時系列信号である前記混合信号を各サンプリング点でサンプリングした離散混合信号を格納する離散混合信号メモリと、
    前記離散混合信号にカルマンフィルタを適用することで前記離散混合信号からノイズ信号成分を抑制した暫定目的信号を生成する暫定目的信号生成手段と、
    前記暫定目的信号を用い、或るサンプル点での暫定目的信号の分散値をそれよりも過去の各サンプル点での離散混合信号の分散値を各係数で重み付けした値と前記過去の各サンプル点での予測誤差のべき乗値を各係数で重み付けした値との線形和で推定するモデルである分散変動(ボラティリティ)モデルの前記或るサンプル点での分散値を推定し、推定した前記或るサンプル点での分散値を特定する情報を出力するパラメータ推定手段と、
    前記パラメータ推定手段から出力された情報から特定される複数のサンプル点での前記分散値に対応する値をしきい値とし、前記分散値が前記しきい値以上であるサンプル点での値が高レベル値となり、かつ、前記分散値が前記しきい値未満であるサンプル点での値が低レベル値となる時間領域マスクを生成するマスク生成手段と、
    サンプル点ごとに前記時間領域マスクを前記離散混合信号に乗じ、その適用結果を出力するマスク適用手段と、
    を有する目的信号区間推定装置
  7. 請求項6の目的信号区間推定装置であって、
    前記分散変動モデルは一般化自己回帰条件付分散不均一モデルである
    ことを特徴とする目的信号区間推定装置
  8. 音声信号である目的信号が存在する区間を推定する目的信号区間推定方法であって、
    前記目的信号とノイズ信号とが混合した観測された時系列信号である混合信号を各サンプリング点でサンプリングした離散混合信号を離散混合信号メモリに格納する格納ステップと、
    混合信号分析手段が、前記離散混合信号を用い、或るサンプル点での離散混合信号をそれよりも過去の各サンプル点での離散混合信号を各係数で重み付けした値と当該或るサンプル点での予測誤差の線形和で推定するモデルである変動モデル及び前記或るサンプル点での離散混合信号の分散値をそれよりも過去の各サンプル点での離散混合信号の分散値を各係数で重み付けした値と前記過去の各サンプル点での前記予測誤差のべき乗値を各係数で重み付けした値との線形和で推定するモデルである分散変動(ボラティリティ)モデルからなる結合モデルの前記或るサンプル点での分散値を推定し、推定した前記或るサンプル点での分散値を特定する情報を出力する混合信号分析ステップと、
    マスク生成手段が、前記混合信号分析ステップで出力された情報から特定される複数のサンプル点での前記分散値に対応する値をしきい値とし、前記分散値が前記しきい値以上であるサンプル点での値が高レベル値となり、かつ、前記分散値が前記しきい値未満であるサンプル点での値が低レベル値となる時間領域マスクを生成するマスク生成ステップと、
    マスク適用手段が、サンプル点ごとに前記時間領域マスクを前記離散混合信号に乗じ、その適用結果を出力するマスク適用ステップと、
    を有する目的信号区間推定方法
  9. 請求項目的信号区間推定方法であって、
    前記変動モデルは自己回帰モデルであり、前記分散変動モデルは一般化自己回帰条件付分散不均一モデルである
    ことを特徴とする目的信号区間推定方法
  10. 請求項又は目的信号区間推定方法であって、
    前記混合信号分析ステップは、
    次数推定手段が、前記結合モデルの次数を選択する次数推定ステップと、
    パラメータ推定手段が、前記離散混合信号と前記次数とを入力とし、当該離散混合信号を用い、当該次数が代入された前記結合モデルの数値的最適化を行って当該次数に対応する当該結合モデルの分散値及び予測誤差を算出するパラメータ推定ステップと、
    パラメータ選択手段が、前記次数及び前記次数に対応する前記結合モデルの前記分散値並びに前記予測誤差を入力とし、赤池の情報量規準又は最終予測誤差基準又はベイス情報量規準に従って、前記或るサンプル点での分散値を特定する情報を出力するパラメータ選択ステップと、
    を有する目的信号区間推定方法
  11. 請求項から10の何れかの目的信号区間推定方法であって、
    前記混合信号分析ステップは、
    前記離散混合信号を用い、yをサンプリング点n(n=1,...,N、Nはサンプル数)における離散混合信号とし、C,κを定数とし、m,p,q(m∈{1,...,M},p∈{1,...,P},q∈{1,...,Q})を次数とし、A,G,Rをk,i,jごとに定まる係数とし、εをnごとに定まる予測誤差とし、σ をyの分散値とした場合における、結合モデル
    Figure 0004690912
    の前記或るサンプル点nでの分散値σ を推定し、推定した分散値σ を特定する情報を出力するステップである
    ことを特徴とする目的信号区間推定方法
  12. 請求項1目的信号区間推定方法であって、
    混合信号分析ステップが、
    次数推定手段が、前記結合モデルの次数m,p,qを選択する次数推定ステップと、
    パラメータ推定手段が、前記離散混合信号と前記次数m,p,qとを入力とし、当該離散混合信号を用い、当該次数m,p,qが代入された前記結合モデルの数値的最適化を行って当該次数m,p,qに対応する当該結合モデルの分散値σ 及び予測誤差εを算出するパラメータ推定ステップと、
    パラメータ選択手段が、
    Figure 0004690912
    を最小にする前記次数m,p,qに対応する前記分散値σ を特定する情報を出力するパラメータ選択ステップと
    を有する目的信号区間推定方法
  13. 音声信号である目的信号が存在する区間を推定する目的信号区間推定方法であって、
    前記目的信号とノイズ信号とが混合した観測された時系列信号である混合信号を各サンプリング点でサンプリングした離散混合信号を離散混合信号メモリに格納する格納ステップと、
    暫定目的信号生成手段が、前記離散混合信号にカルマンフィルタを適用することで前記離散混合信号からノイズ信号成分を抑制した暫定目的信号を生成する暫定目的信号生成ステップと、
    パラメータ推定手段が、前記暫定目的信号を用い、或るサンプル点での暫定目的信号の分散値をそれよりも過去の各サンプル点での離散混合信号の分散値を各係数で重み付けした値と前記過去の各サンプル点での予測誤差のべき乗値を各係数で重み付けした値との線形和で推定するモデルである分散変動(ボラティリティ)モデルの前記或るサンプル点での分散値を推定し、推定した前記或るサンプル点での分散値を特定する情報を出力するパラメータ推定ステップと、
    マスク生成手段が、前記パラメータ推定ステップで出力された情報から特定される複数のサンプル点での前記分散値に対応する値をしきい値とし、前記分散値が前記しきい値以上であるサンプル点での値が高レベル値となり、かつ、前記分散値が前記しきい値未満であるサンプル点での値が低レベル値となる時間領域マスクを生成するマスク生成ステップと、
    マスク適用手段が、サンプル点ごとに前記時間領域マスクを前記離散混合信号に乗じ、その適用結果を出力するマスク適用ステップと、
    を有する目的信号区間推定方法
  14. 請求項1目的信号区間推定方法であって、
    前記分散変動モデルは一般化自己回帰条件付分散不均一モデルである
    ことを特徴とする目的信号区間推定方法
  15. 請求項1から7の何れかに記載目的信号区間推定装置としてコンピュータを機能させるためのプログラム。
  16. 請求項15に記載のプログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2006057256A 2005-07-06 2006-03-03 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 Expired - Fee Related JP4690912B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006057256A JP4690912B2 (ja) 2005-07-06 2006-03-03 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005197482 2005-07-06
JP2005197482 2005-07-06
JP2006057256A JP4690912B2 (ja) 2005-07-06 2006-03-03 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2007041508A JP2007041508A (ja) 2007-02-15
JP4690912B2 true JP4690912B2 (ja) 2011-06-01

Family

ID=37799517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006057256A Expired - Fee Related JP4690912B2 (ja) 2005-07-06 2006-03-03 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4690912B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110574A1 (ja) * 2008-03-06 2009-09-11 日本電信電話株式会社 信号強調装置、その方法、プログラム及び記録媒体
US8527266B2 (en) * 2008-03-21 2013-09-03 Tokyo University Of Science Educational Foundation Administrative Organization Noise suppression device and noise suppression method
JP7439908B2 (ja) * 2020-03-30 2024-02-28 日本電気株式会社 フィルタリング装置、制御システム、フィルタリング方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000504434A (ja) * 1996-02-01 2000-04-11 テレフオンアクチーボラゲツト エル エム エリクソン(パブル) ノイズのある音声パラメータを強化する方法および装置
JP2005135347A (ja) * 2003-10-31 2005-05-26 Tokyo Electric Power Co Inc:The 燃料フォワードカーブ推定方法及び推定された燃料フォワードカーブを使用するシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000504434A (ja) * 1996-02-01 2000-04-11 テレフオンアクチーボラゲツト エル エム エリクソン(パブル) ノイズのある音声パラメータを強化する方法および装置
JP2005135347A (ja) * 2003-10-31 2005-05-26 Tokyo Electric Power Co Inc:The 燃料フォワードカーブ推定方法及び推定された燃料フォワードカーブを使用するシステム

Also Published As

Publication number Publication date
JP2007041508A (ja) 2007-02-15

Similar Documents

Publication Publication Date Title
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
Singh et al. Multimedia analysis for disguised voice and classification efficiency
EP1465160B1 (en) Method of noise estimation using incremental bayesian learning
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
JP2004264816A (ja) 再帰的構成における反復ノイズ推定法
JP4856662B2 (ja) 雑音除去装置、その方法、そのプログラム及び記録媒体
US20100076759A1 (en) Apparatus and method for recognizing a speech
JP4691082B2 (ja) 線形予測モデル次数決定装置、線形予測モデル次数決定方法、そのプログラムおよび記録媒体
EP1443495A1 (en) Method of speech recognition using hidden trajectory hidden markov models
EP1693826B1 (en) Vocal tract resonance tracking using a nonlinear predictor
KR20040088364A (ko) 잔여 모델을 사용하여 포먼트 트랙킹을 하기 위한 방법 및장치
JP4690912B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体
WO2021014612A1 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
Chaudhari et al. Multigrained modeling with pattern specific maximum likelihood transformations for text-independent speaker recognition
KR20070085788A (ko) 신호 속성들을 사용한 효율적인 오디오 코딩
JP4630183B2 (ja) 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム
Nandwana et al. Analysis and mitigation of vocal effort variations in speaker recognition
JP2017134197A (ja) パラメータ調整システム、パラメータ調整方法、プログラム
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム
JP2005157350A (ja) 区分的線形近似を用いた連続値声道共鳴追跡の方法および装置
WO2020162238A1 (ja) 音声認識装置、音声認識方法、プログラム
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
JP4685735B2 (ja) 音響信号区間検出方法、装置、プログラム及びその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110218

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees