JP4617497B2 - 雑音抑圧装置、コンピュータプログラム、及び音声認識システム - Google Patents

雑音抑圧装置、コンピュータプログラム、及び音声認識システム Download PDF

Info

Publication number
JP4617497B2
JP4617497B2 JP2005356665A JP2005356665A JP4617497B2 JP 4617497 B2 JP4617497 B2 JP 4617497B2 JP 2005356665 A JP2005356665 A JP 2005356665A JP 2005356665 A JP2005356665 A JP 2005356665A JP 4617497 B2 JP4617497 B2 JP 4617497B2
Authority
JP
Japan
Prior art keywords
noise
frame
parameter
unit
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005356665A
Other languages
English (en)
Other versions
JP2007041499A (ja
Inventor
雅清 藤本
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005356665A priority Critical patent/JP4617497B2/ja
Publication of JP2007041499A publication Critical patent/JP2007041499A/ja
Application granted granted Critical
Publication of JP4617497B2 publication Critical patent/JP4617497B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、雑音が発生する実環境下での音声認識技術に関し、特に、非定常的な雑音が発生する環境下での音声認識率を改善するための雑音抑圧装置及びそれを使用した音声認識システムに関する。
人間にとって容易かつ自然なヒューマンマシンインタフェースを実現するための技術として、音声認識技術が研究されている。近年では、大規模な音声・テキストデータベースと統計確率的な音声認識手法とにより、高い認識率での音声認識が実現されるようになった。今日ではさらに、人間と機械とが接する実環境下において、高速にかつ高い認識率で音声認識を実現するための応用技術開発が進められている。
実環境が実験室等の環境と大きく異なる点の一つに、雑音の存在がある。雑音は、無視できない音量で、絶え間なく、かつ不規則に発生し、時間の経過とともに変動する。雑音は、音声認識を行なう際の妨げとなる。雑音が発生する実環境下での音声認識率を改善することは、音声認識の応用技術開発を行なう上で、早急に解決されるべき問題である。
雑音が発生する環境下での音声認識率を改善するための技術の一つに、時間の経過に対し定常的な性質を持つ雑音について、音声認識の前処理の段階で雑音を推定し抑圧する技術がある。
後掲の非特許文献1には、定常的な雑音の一般的な抑圧方法であるスペクトルサブトラクション法が開示されている。この方法では、発話の前の区間において観測された雑音の振幅スペクトルと発話中の区間における雑音の振幅スペクトルとが同じであると仮定する。そしてこの仮定に基づき、発話時に観測された音声信号の振幅スペクトルから、発話直前に観測された雑音の振幅スペクトルを減算して、雑音を抑圧する。
後掲の非特許文献2には、分散型音声認識における雑音抑圧方法が開示されている。この方法では、発話直前に観測された雑音の振幅スペクトルを用いて、ウィナフィルタ理論に基づく雑音の抑圧を行なう。
音声認識の前処理の段階において雑音を逐次的に推定し抑圧する技術もある。後掲の非特許文献3には、逐次EM(Expectation Maximization)アルゴリズムを適用して雑音の最尤推定値を逐次的に求める方法が開示されている。逐次EMアルゴリズムを用いて逐次的に雑音を推定する方法では、雑音の時間変動に対処しつつ高精度に雑音の推定及び抑圧を行なうことができる。
後掲の非特許文献4及び非特許文献5に開示された、カルマンフィルタを用いて雑音の推定値を逐次的に求める方法も一般的に用いられている。この方法では、一期先予測とフィルタリングとを交互に行なうことによって、雑音を逐次的に推定し抑圧する。
また、雑音環境下での音声認識率を改善するための技術として、雑音を考慮した確率モデルを用いて適応的に音声認識を行なう技術がある。例えば後掲の特許文献1には、パーティクルフィルタと呼ばれる逐次推定法を用いて、雑音パラメータの推定と、HMM(Hidden Markov Model:隠れマルコフモデル)を構成する隠れ状態の時間的成長とを行ない、当該HMMに基づく音声認識を行なう音声認識システムが開示されている。
S.F.ボル:「スペクトルサブトラクションを用いた、音声内の音響ノイズの抑圧」、IEEE Trans. ASSP、Vol.27、No.2、113−120頁、1979年(S.F.Boll: "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. ASSP, Vol. 27, No. 2, pp. 113-120, 1979) 欧州電気通信標準化機構(ETSI:European Telecommunications Standards Institute)勧告 ES 202 050 V1.1.3 "音声の処理、伝送、及び品質の局面(STQ),分配型音声認識:上級フロントエンド 特徴抽出アルゴリズム;圧縮アルゴリズム"、2003年11月(ETSI ES 202 050 V1.1.3, "Speech Processing, Transmission and Quality Aspects (STQ), Distributed Speech Recognition: Advanced Front-end Feature Extraction Algorithm; Compression Algorithms," Nov. 2003.) M.アフィフィ、O.シオアン:「ロバスト音声認識のための最適な忘却による逐次推定」、IEEE Trans. SAP、Vol.12、No.1、19−26頁、2004年(M.Afify, O.Siohan: "Sequential Estimation with Optimal Forgetting for Robust Speech Recognition," IEEE Trans. SAP, Vol. 12, No.1, pp. 19-26, 2004) 有本 卓:「カルマンフィルター」、産業図書 中野 道雄 監修、西山 清 著:「パソコンで解くカルマンフィルタ」、丸善 特開2002−251198号公報
非特許文献1及び非特許文献2に記載の技術はいずれも、雑音が定常的なものであるという前提のもとで雑音の推定及び抑圧を行なう技術である。しかし、実環境において雑音の多くは非定常である。すなわち、雑音の音響的特徴は時間の経過に伴い変動する。そのため、非特許文献1及び非特許文献2に記載の技術では、雑音の時間変動に対応できず、高精度に雑音を抑圧することができない。
非特許文献3に記載の技術では、逐次EMアルゴリズムが用いられている。逐次EMアルゴリズムで雑音を推定する場合、観測された音声信号のフレーム毎に、そのフレームにおけるパラメータが尤度関数の局所最適値に収束するまで反復計算を行なう必要がある。そのため、雑音が変動する度に膨大な量の計算が必要となり、計算に時間を要する。よって、この手法により実時間で雑音を推定し抑圧するのは困難である。
非特許文献4及び非特許文献5に記載の技術では、カルマンフィルタを用いて雑音を推定する。この推定方法は、一期先予測とフィルタリングとを交互に行なう方法であり、逐次EMアルゴリズムのような反復計算を必要とはしない。しかし、カルマンフィルタを用いた手法は、雑音の事後確率分布が単一正規分布であるものとして確率分布を推定する。真の事後確率分布が混合分布であった場合には、単一正規分布で近似される。そのため、精度が劣化する。
特許文献1に記載の音声認識システムのように、雑音を考慮したモデルを用いて音声認識を行なう技術では、雑音が重畳された音声と確率モデルとのマッチングが行なわれる。そのため、例えば音響モデル適応など、雑音のない音声に基づいて行なうべき前処理を実行できない。
それゆえに、本発明の目的は、非定常雑音が発生する環境下での音声認識率を改善し、かつ雑音を短時間で抑圧することができる雑音抑圧装置を提供することである。
本発明の第1の局面に係る雑音抑圧装置は、雑音が発生する環境下での目的音声の観測により得られる観測信号における雑音の成分を抑圧するための装置である。この雑音抑圧装置は、観測信号について所定周期ごとにフレーム化された所定時間長のフレームよりそれぞれ抽出される特徴量を受け、雑音の時間推移に関し所定の拘束条件の設けられた複数のパーティクルを有するパーティクルフィルタを用いて、雑音を表す確率分布の推定パラメータをフレームごとに逐次生成するための雑音推定手段と、観測信号の特徴量と、推定パラメータと、目的音声に関する所定の音響モデルとを用いて、フレームごとに目的音声の推定特徴量を算出するための目的音声推定手段とを含む。
好ましくは、雑音推定手段は、雑音の初期分布を推定し、複数のパーティクルの各々において、初期フレームの雑音を表す確率分布の推定パラメータを初期分布にしたがった確率でそれぞれ設定するための初期パラメータ設定手段と、各パーティクルにおいて、第1のフレームでの推定パラメータと当該第1のフレームに先行する所定数のフレームでの推定パラメータとから、拘束条件に基づき当該推定パラメータに対する変更量を算出するための変更量算出手段と、音響モデルと、観測信号の特徴量と、変更量算出手段により算出された変更量とを基に、拡張カルマンフィルタを用いて、各パーティクルにおける第1のフレームの推定パラメータを、それぞれ第1のフレームに後続する第2のフレームに対応するものに更新するための更新手段と、第2のフレームにおける複数のパーティクルの各々に対する重みを算出するための重み算出手段と、更新手段により更新された雑音の推定パラメータと重み算出手段により算出された重みとを用いて、第2のフレームにおける雑音を表す確率分布の推定パラメータを生成するための手段とを含む。
より好ましくは、拘束条件は、推定パラメータに対する過去のフレームのフィードバックを含む。第1のフレーム及び当該第1のフレームに先行する所定数のフレームにおける推定パラメータの平均を求め、推定パラメータの平均と第1フレームにおける推定パラメータとの差分を基に、変更量を算出するための手段を含む。
雑音抑圧装置はさらに、第1のフレームについて、各パーティクルにおける推定パラメータと当該パーティクルに対する重みとを用いて、第1のフレームでの推定パラメータの加重平均を算出するための加重平均算出手段を含んでもよい。更新手段は、音響モデルと、観測信号の特徴量と、変更量及び加重平均とを基に、拡張カルマンフィルタを用いて、各パーティクルにおける第1のフレームの推定パラメータを、それぞれ第1のフレームに後続する第2のフレームに対応するものに更新するための手段を含む。
さらに好ましくは、雑音抑圧装置はさらに、変更量算出手段が変更量を算出するのに使用するフレームの数を、予め定められた複数種類の数の中から、所定の確率モデルにしたがってフレームごとに選択するためのフレーム数選択手段を含む。
確率モデルは、変更量算出手段が変更量を算出するのに使用するフレームの数からの変化量の絶対値に対する単調減少関数として、次のフレームで変更量算出手段が変更量を算出するのに使用するフレームの数が選択される確率を割当てるものであってもよい。
フレーム数選択手段は、互いに異なる、予め定められた複数種類の自然数にそれぞれ対応付けられた複数の状態を準備するための手段と、複数の状態の間での状態遷移確率を決定するための状態遷移確率決定手段とを含んでもよい。変更量算出手段が変更量を算出するのに用いるフレームの数は、複数の状態の中から選択された状態に対応付けられた自然数である。フレーム数選択手段はさらに、変更量算出手段が変更量を算出するのに用いたフレームの数に対応する状態から、状態遷移確率にしたがって次の状態を選択するための手段と、選択された状態に対応する自然数を、次のフレームで変更量算出手段が使用する際に使用するフレームの数に設定するための手段とを含む。
準備するための手段は、互いに異なる、予め定められた複数種類の自然数にそれぞれ対応付けられた複数の状態を準備し、状態の各々に対し所定の順序にしたがい番号を付与するための手段を含んでもよい。状態遷移確率決定手段は、複数の状態のうちの任意の二つの組合せに対し、それら二つの状態にそれぞれ付与された二つの番号の差の絶対値に対する単調減少関数として、それら二つの状態の間での状態遷移確率を決定する。
付与するための手段は、状態の各々に対し、自然数の昇順又は降順に番号を付与してもよい。
好ましくは、拘束条件は、所定の制御パラメータにより規定される。雑音抑圧装置はさらに、制御パラメータの値を、予め定められた複数種類の数の中から、所定の確率モデルにしたがってフレームごとに選択するための制御パラメータ値選択手段を含む。
より好ましくは、確率モデルは、拘束条件を規定する制御パラメータの値からの変化量の絶対値に対する単調減少関数として、次のフレームでの拘束条件を規定する制御パラメータの値が選択される確率を割当てる。
より好ましくは、制御パラメータ値選択手段は、互いに異なる、予め定められた複数種類の値にそれぞれ対応付けられた複数の状態を準備するための手段と、複数の状態の間での状態遷移確率を決定するための状態遷移確率決定手段とを含む。制御パラメータの値は、複数の状態の中から選択された状態に対応付けられた値であり、制御パラメータ値選択手段はさらに、拘束条件を規定する制御パラメータの値に対応する状態から、状態遷移確率にしたがって次の状態を選択するための手段と、選択された状態に対応する値を、次のフレームでの拘束条件を規定する制御パラメータに設定するための手段とを含む。
さらに好ましくは、準備するための手段は、互いに異なる、予め定められた複数種類の値にそれぞれ対応付けられた複数の状態を準備し、状態の各々に対し所定の順序にしたがい番号を付与するための手段を含む。状態遷移確率決定手段は、複数の状態のうちの任意の二つの組合せに対し、それら二つの状態にそれぞれ付与された番号の差の絶対値の単調減少関数として、それら二つの状態の間での状態遷移確率を決定する。
付与するための手段は、状態の各々に対し、値の昇順又は降順に番号を付与してもよい。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを本発明の第1の局面に係るいずれかの雑音抑圧装置として動作させる。
本発明の第3の局面に係る音声認識システムは、本発明の第1の局面に係るいずれかの雑音抑圧装置と、雑音抑圧装置により算出される目的音声の推定特徴量を受けて、目的音声に関する所定の音響モデルと、認識対象言語に関する所定の言語モデルとを用いて、目的音声に関する音声認識を行なうための音声認識手段とを含む。
[第1の実施の形態]
以下、図面を参照しつつ、本発明の一実施の形態について説明する。なお、以下の説明に用いる図面では、同一の部品には同一の符号を付してある。それらの名称及び機能も同一である。したがって、それらについての説明は繰返さない。以下の説明のテキスト中で使用する記号「^」等は、本来はその直後の文字の直上に記載すべきものであるが、テキスト記法の制限により当該文字の直前に記載する。式中では、これらの記号等は本来の位置に記載してある。また以下の説明のテキスト中では、ベクトル又は行列については例えば「ベクトルXt」、「行列ΣW」等のように直前に「ベクトル」、「行列」等を付した通常のテキストの形で記載するが、式中ではいずれも太字で記載する。
[構成]
〈音声認識システム全体の構成〉
図1に、本実施の形態に係る音声認識システム100全体の構成を示す。図1を参照して、この音声認識システム100は、音源102が発生する音122から音声認識に用いる音声の特徴を表す特徴量ベクトル126を抽出するための前処理部104と、前処理部104に接続され、音声の特徴と音素との関係を表す確率モデル(音響モデル)を準備するための前処理用音響モデル部106と、認識対象の言語における単語の連接確率等を表す確率モデル(言語モデル)を準備するための言語モデル部108と、言語モデル部108の言語モデル及び所定の音響モデルを用いて、前処理部104から出力された特徴量に対応する単語等を探索するための探索部110と、探索部110に接続され、探索部110による探索に用いられる音響モデルを準備するための認識用音響モデル部109とを含む。
音声認識システム100はさらに、前処理部104による特徴量ベクトル126の抽出に用いられ、後述する状態空間モデルにおける拘束条件を定めるための係数からなる、拘束条件パラメータ138を含む。
音源102は、認識されるべき音声(目的音声)120を発話する話者116と、話者116の周囲で雑音121を発生する雑音源118とを含む。音源102が発生し前処理部104により収録される音122は、話者116の発話により発生する雑音のない目的音声120と雑音121とが重畳した音となる。本明細書では、目的音声120を「クリーン音声」と呼ぶ。これに対して、前処理部104に到達し、前処理部104により収録される音122、すなわち、クリーン音声120と雑音121とが重畳した音122を、「雑音重畳音声」と呼ぶ。
前処理部104は、雑音重畳音声122を収録し、その結果得られる観測信号に所定の信号処理を施すことにより、観測信号に関する所定の特徴量ベクトル(以下、この特徴量ベクトルを単に「観測信号の特徴量」と呼ぶことがある。)124を抽出するための計測部112と、計測部112により抽出された観測信号の特徴量124に含まれる雑音の成分を、前処理用音響モデル部106により準備される音響モデルと拘束条件パラメータ138とを用いて抑圧するための雑音抑圧部114とを含む。
計測部112は、観測信号を時間長数10ミリ秒のフレームごとに対数メルフィルタバンク分析し、得られる対数メルスペクトルを要素とするベクトルを観測信号の特徴量124として出力する。
雑音抑圧部114は、前処理用音響モデル部106により準備される音響モデルと拘束条件パラメータ138とを用いて、観測信号の特徴量124を基に、クリーン音声120の特徴量ベクトルをフレームごとに逐次推定する機能を持つ。そしてこの逐次推定によって得られる特徴量ベクトルを、音声認識に用いる音声の特徴量ベクトル126として探索部110に出力する。この際、まず雑音121の特徴量ベクトルを推定し、その結果を基にクリーン音声120の特徴量ベクトルを推定する。なお、本明細書では、特徴量ベクトル126によって表される音声を「推定クリーン音声」と呼ぶ。また、特徴量ベクトル126を「推定クリーン音声の特徴量」と呼ぶ。
探索部110は、推定クリーン音声の特徴量126を用いて、認識用音響モデル部109により準備された音響モデルと、言語モデル部108により準備された言語モデルとを基に、適合する目的言語の単語等を探索し、その結果を認識出力128として出力する。
〈前処理用の音響モデル〉
以下に、前処理用音響モデル部106により準備される音響モデルについて説明する。図1に示す前処理用音響モデル部106は、クリーン音声120に対する音響モデルとして、ガウス混合モデル(GMM:Gaussian Mixture Model)130を準備し保持する。前処理用音響モデル部106は、予め用意されたクリーン音声120に関する学習データを記憶するための学習データ記憶部132と、学習データ記憶部132内の学習データを用いてGMM130に対する学習を行なうためのモデル学習部134と、モデル学習部134による学習で得られるGMM130を記憶するためのGMM記憶部136とを含む。
図2に、GMM130の概念を模式的に示す。図2を参照して、GMM130は、時系列信号を、一つの定常信号源(状態)によりモデル化した確率モデルである。このGMM130においては、クリーン音声120の特徴量ベクトルとして出力される可能性のあるベクトルと、そのベクトルが出力される確率(以下、単に「出力確率」と呼ぶ。)とが定義される。出力確率は混合正規分布140によって表現される。GMM130における混合正規分布140は、複数の要素分布148A,148B,…,148Kを含む。これらの要素分布148A,148B,…,148Kはいずれも単一正規分布である。例えば、混合正規分布140に含まれるある要素分布150をktとする。要素分布ktは、単一正規分布であり、分布の平均μS,ktと分散ΣS,ktとにより表現される。この要素分布kt150にしたがった確率で出力されるパラメータのベクトルをベクトルSkt,tとする。以下の説明では、GMM130から出力されるパラメータベクトルSkt,tを、「(GMM130の)出力パラメータ」と呼ぶ。
〈状態空間モデル〉
以下に、状態空間モデルについて説明する。状態空間モデルは、観測信号の生成過程を表した観測方程式と、処理の対象の変化する過程(以下、この過程を「状態遷移過程」と呼ぶ。)を表した状態方程式とからなる動的モデルである。図3に状態空間モデル160を模式的に示す。
時刻tのフレーム(以下、単に「第tフレーム」と呼ぶ。)における観測信号の特徴量124(図1参照)をXtとする。観測信号の特徴量Xtは、上記のとおり雑音重畳音声122から得られる対数メルスペクトルを要素に持つベクトルである。この観測信号の特徴量Xtは、クリーン音声120と雑音121とが重畳した音の対数メルスペクトルを要素に持つ。ここに、第tフレームにおけるクリーン音声120の対数メルスペクトルを要素に持つベクトルをクリーン音声の特徴量ベクトルStとする。また、雑音121の対数メルスペクトルを要素に持つベクトルを雑音の特徴量ベクトルNtとする。ベクトルXt、St、及びNtの次元数は同一である。なお、以下に説明する処理はこれらベクトル及び行列の要素についてそれぞれ行なわれるが、以下の説明では、簡単のために各要素を特に区別して言及することはしない。
まず、状態空間モデル160における観測信号の生成過程について説明する。観測信号の特徴量Xtは、計測によって得られる既知のベクトルである。これに対し、クリーン音声の特徴量ベクトルStと雑音の特徴量ベクトルNtとはいずれも、計測によっては得ることのできない未知のベクトルである。
ここで、クリーン音声120の出力過程がGMMでモデル化できるものと仮定する。すなわち、第tフレームにおけるクリーン音声の特徴量ベクトルStが、GMM130内のある要素分布kt150(図2参照)にしたがって出力される出力パラメータベクトルSkt,tにより表現されるものと仮定する。ただし、クリーン音声の特徴量ベクトルStと出力パラメータベクトルSkt,tとの間には誤差が存在する。この誤差もまたベクトルである。この誤差を誤差ベクトルVtとする。誤差ベクトルVtは、次の式に示すように、平均が0で分散がΣS,ktの単一正規分布で表現される確率分布にしたがう値を要素に持つものとする。
Figure 0004617497
ただし、この式においてΣS,ktはGMM130内のある要素分布kt150より得られるパラメータの共分散行列を表し、記号「〜」は左辺の値が右辺に示される確率分布にしたがうことを示す。すなわち、左辺の値が右辺に示す確率分布にしたがったサンプリングにより推定できることを示す。また、この式において、「N(μ,Σ)」は、平均がμで分散がΣの単一正規分布を表す。
上記の仮定に基づき、観測信号の特徴量Xt124の生成過程は、雑音の特徴量ベクトルNt、出力パラメータベクトルSkt,t、及び誤差ベクトルVtを用いて、次の式(1)に示す観測方程式により表現されるものとする。
Figure 0004617497
なお、式(1)でIは単位ベクトルを表す。また、ベクトルの対数、ベクトルの指数演算
はそれぞれ、ベクトルの各要素について対数をとり、又は指数計算し、その結果を成分と
するベクトルを表すものとする。
次に、状態空間モデル160における処理対象の状態遷移過程について述べる。状態空間モデル160においては、雑音の特徴量ベクトルNtが処理の対象になる。ここで、雑音の特徴量ベクトルNtがランダムウォーク過程にしたがって変化するものと仮定する。すなわち、第t−1フレームにおける雑音の特徴量ベクトルNt-1が第tフレームにおける雑音の特徴量ベクトルNtとの間に、ランダムな変化が生じるものと仮定する。このランダムな変化を表すベクトルをランダムガウス雑音ベクトルWtとする。ランダムガウス雑音ベクトルWtは、平均が0で分散がΣwの単一正規分布で表現される確率分布にしたがう値を要素に持つランダムガウス雑音であるものとする。
Figure 0004617497
ただし、この式においてΣWは、ランダムガウス雑音ベクトルWtの共分散行列を表す。
上記の仮定に基づき雑音の特徴量ベクトルNtの状態遷移過程を表現する状態方程式を定義すると、状態方程式は、次の式(2)のようになる。
Figure 0004617497
しかし、ランダムウォーク過程に基づく上記の仮定では、雑音の特徴量ベクトルNtの変化をランダムガウス雑音ベクトルWtで規定している。そのため、式(2)に示す状態方程式では、雑音の特徴量ベクトルNtの時間変化を正確に表現することはできない。そこで、本実施の形態では、図1に示す拘束条件パラメータ138を用いて、雑音の特徴量ベクトルNtの変化に対し、拘束条件を設ける。拘束条件及びそのための拘束条件パラメータ138の詳細については、後述する。
〈雑音抑圧部114の構成〉
図4に、雑音抑圧部114(図1参照)の構成をブロック図で示す。図4を参照して、雑音抑圧部114は、観測信号の特徴量Xt124、GMM130、及び拘束条件パラメータ138を用いて、雑音の特徴量ベクトルNtの出力される確率を表す確率分布(以下、「雑音確率分布」と呼ぶ。)をフレームごとに逐次的に推定し、雑音確率分布を表すパラメータ(以下、このパラメータを「雑音確率分布の推定パラメータ」と呼ぶ。)を生成するための雑音確率分布推定部200を含む。雑音抑圧部114はさらに、雑音確率分布推定部200により出力された雑音確率分布の推定パラメータ206及びGMM130を基に、観測信号の特徴量Xt124の出力される確率を表す確率分布(以下、「観測信号分布」と呼ぶ。)を推定し、観測信号確率分布を表すパラメータ208(以下、このパラメータを「観測信号分布のパラメータ」と呼ぶ。)を生成するための観測信号分布推定部202と、雑音確率分布の推定パラメータ206、観測信号分布のパラメータ208、及びGMM130を基に、推定クリーン音声の特徴量126を生成するためのクリーン音声推定部204とを含む。
雑音確率分布推定部200は、雑音確率分布をフレームごとに逐次推定し、雑音確率分布の推定パラメータ206を出力する機能を持つ。ここに、観測信号の特徴量X0,…,Xtからなるベクトルの系列を系列X0:t={X0,…,Xt}とし、雑音の特徴量ベクトルN0,…,Ntからなるベクトルの系列を系列N0:t={N0,…,Nt}とする。観測信号ベクトルの系列X0:tが与えられた時の系列N0:tの事後確率分布p(N0:t|X0:t)は、1次マルコフ連鎖を用いて、次の式(3)のように表される。
Figure 0004617497
したがって雑音の特徴量ベクトルNtの確率分布を逐次推定する問題は、観測信号ベクトルの系列X0:tが与えられた時の事後確率p(N0:t|X0:t)を最大にするような系列N0:tを推定する問題に帰着する。雑音確率分布推定部200は、観測信号の特徴量Xt124と、GMM130と、状態空間モデル160と、雑音の状態遷移に関する上記の拘束条件パラメータ138とに基づきこの推定を行なう。その際、雑音確率分布推定部200は、パーティクルフィルタと呼ばれる手法を用いる。この推定法は、ある状態空間モデルにより表現される状態空間内に、局限された状態空間(パーティクル)を多数生成して各パーティクルにおいてパラメータの確率分布を推定し、そして各パーティクルを用いて、状態空間内におけるパラメータの確率分布を近似的に表現する手法である。
観測信号分布推定部202は、観測信号分布のパラメータ208として、各パーティクルにおける観測信号分布の平均ベクトル及び共分散行列を算出する機能を持つ。観測信号分布のパラメータ208の算出には、例えば、VTS(Vector Taylor Series)法と呼ばれるHMM合成法が用いられる。
クリーン音声推定部204は、フレームごとに、各パーティクルにおけるクリーン音声のパラメータを推定し、推定クリーン音声の特徴量126を、それら推定されたパラメータの重み付き和によって算出する機能を持つ。推定クリーン音声の特徴量126の算出には、例えば、最小2乗誤差(Minimum Mean Square Error:MMSE)推定法が用いられる。クリーン音声推定部204はさらに、雑音確率分布推定部200に、次のフレームへの移行に関する要求210を発行する機能を持つ。
〈パーティクルフィルタ〉
以下に、パーティクルフィルタについて説明する。この手法では、多数のパーティクルにおける初期的なパラメータを、ランダムなサンプリングにより、又は当該パラメータの初期的な状態を表す確率分布からのサンプリングにより決定する。そして、以下の処理をフレームごとに行なう。すなわち、あるフレームに対応して各パーティクルにおいてパラメータが決定されると、まず、各パーティクルのパラメータを当該フレームに後続するフレームに対応するものに更新する。続いて、更新の尤度に応じて各パーティクルに対して重みを付与する。続いて、更新後のパーティクルにおけるパラメータの確率分布にしたがい、当該後続のフレームに対応する各パーティクルのパラメータを再サンプリングする。続いて、再サンプリングされたパラメータを基に、当該後続のフレームに対応する各パーティクルのパラメータを決定する。以上の処理をフレームごとに行なうことにより、逐次的に各パーティクルにおけるパラメータを決定する。
パーティクルフィルタにおいて、状態空間モデル160におけるパラメータはそれぞれ、パーティクルにおけるパラメータの重み付き和によって近似的に表現される。ここに、パーティクルの数をJ個とし、第tフレームでの、j(1≦j≦J)番目のパーティクルにおける雑音の特徴量ベクトルをベクトルNt (j)とする。さらに、第tフレームにおけるj番目のパーティクルに対する重みをwt (j)とする。式(3)に示す事後確率分布p(N0:t|X0:t)は、次の式(4)に示すモンテカルロサンプリングにより近似的に表現される。
Figure 0004617497
なお、この式においてδ()は、Dirac-delta関数を表す。
j番目のパーティクルにおける雑音の特徴量ベクトルの系列N0:t (j)を出力する確率分布をq(N0:t (j)|X0:t)とすると、パーティクルに対する重みwt (j)は、次の式(5)により与えられる。
Figure 0004617497
確率分布q(N0:t (j)|X0:t)は、次の式(6)に示す連鎖モデルで表現されるものとする。
Figure 0004617497
また、上記の式(3)の事後確率分布p(N0:t|X0:t)は、ベイズ則により次の式(7)のように表現できる。
Figure 0004617497
したがって、式(5)、式(6)、及び式(7)より、パーティクルに対する重みwt (j)は、式(8)によって与えられることになる。
Figure 0004617497
ここで、p(Nt (j)|Nt-1 (j))=q(Nt (j)|N0:t-1 (j),X0:t)と仮定すると、式(8)より、式(9)が得られる。
Figure 0004617497
式(9)のp(Xt|Nt (j))は、次の式(10)に示す確率密度関数によりモデル化される。
Figure 0004617497
雑音確率分布推定部200は、雑音確率分布の推定パラメータ206として、パーティクルj(1≦j≦J)ごとに、パーティクルにおける雑音の特徴量ベクトルNt (j)に関する式(4)における確率密度関数p(N0:t (j)|X0:t)のパラメータと、そのパーティクルに対する重みwt (j)とを、図3に示す状態空間モデル160に基づいて逐次的に算出する。確率密度関数p(N0:t (j)|X0:t)のパラメータは、そのパーティクルにおける雑音の特徴量ベクトルNt (j)の平均ベクトル^Nt (j)と共分散行列ΣNt (j)とを含む。以下、確率密度関数p(N0:t|X0:t)の平均ベクトル^Nt (j)と共分散行列ΣNt (j)とを、「(j番目の)パーティクルにおける雑音のパラメータ」と呼ぶ。
〈状態遷移過程に対する拘束条件〉
上記のとおり、式(2)に示す状態方程式では、雑音の特徴量ベクトルNtの時間変化を正確に表現することはできない。そこで、本実施の形態では、各パーティクルにおける雑音の特徴量ベクトルNt (j)(1≦j≦J)の変化に対し、次の式(11)に示す状態方程式を導入する。
Figure 0004617497
この状態方程式(11)において第1項と第2項とは、第t+1フレームにおけるパーティクルの散らばりを抑制するための拘束条件である。以下この拘束条件を第1の拘束条件と呼ぶ。また、状態方程式(11)において第3項は、j番目のパーティクルにおける雑音の特徴量ベクトルの時間推移に対する拘束条件である。以下、この拘束条件を第2の拘束条件と呼ぶ。
状態方程式(11)においてαは忘却係数であり、βは第2の拘束条件に対するスケーリング係数である。
第1の拘束条件において、ベクトル^Ntは、第tフレームの各パーティクルにおける雑音の特徴量ベクトルNt (1),…,Nt (J)の加重平均であり、次の式(12)により与えられる。
Figure 0004617497
すなわち、第1の拘束条件により、各パーティクルにおける雑音の特徴量ベクトルは、加重平均ベクトル^Ntに近づくよう補正される。
第2の拘束条件において、ベクトルμNt (j)は、j番目のパーティクルにおける過去Tフレーム分の雑音の特徴量ベクトルNt-T+1 (j),…,Nt (j)の平均(Polyak Average)であり、次の式(13)により与えられる。
Figure 0004617497
すなわち、第2の拘束条件により、パーティクルにおける雑音の特徴量ベクトルにそれぞれ、そのパーティクルにおけるPolyak AverageベクトルμNt (j)がフィードバックされる。本実施の形態では、式(11)に示す状態方程式の忘却係数α及び第2の拘束条件に対するスケーリング係数βと、式(13)におけるフレーム数Tとが、図1に示す拘束条件パラメータ138として与えられる。
雑音確率分布推定部200は、観測方程式(1)と上記の状態方程式(11)とにより表される状態空間モデルに基づくパーティクルフィルタを用いて、雑音確率分布の逐次推定を行なう。
〈雑音確率分布推定部200の構成〉
図5に、雑音確率分布推定部200の構成をブロック図で示す。図5を参照して、雑音確率分布推定部200は、クリーン音声推定部204からの要求210を受けて、観測信号の特徴量124から処理対象となるフレームを選択し、当該フレームに対応する観測信号の特徴量124をフレームに応じた出力先に与えるためのフレーム選択部220を含む。
雑音確率分布推定部200はさらに、フレーム選択部220から観測信号の特徴量124を受けて、初期的な状態における雑音を表す確率分布(以下、「雑音初期分布」と呼ぶ。)を推定し、多数(J個)のパーティクルについて、t=0のフレーム(以下、このフレームを「初期フレーム」と呼ぶ。)における雑音確率分布の推定パラメータ206を決定するための雑音初期分布推定部222と、フレーム選択部220から観測信号の特徴量124を受け、各パーティクルについて、t(t≧1)番目のフレームにおける雑音確率分布の推定パラメータ206を、逐次的に算出するための逐次計算部224とを含む。
フレーム選択部220は、要求210が与えられる度に、処理対象のフレームを順次選択する。フレーム選択部220は、処理対象として初期フレームを選択すると、観測信号の特徴量Xt124のうち最初の所定フレーム分(例えば10フレーム分)を、雑音初期分布推定部222に与える。またフレーム選択部220は、処理対象としてその他(t≧1)のフレームを選択すると、そのフレームにおける観測信号の特徴量Xt124を逐次計算部224に与える。
雑音初期分布推定部222は、雑音初期分布のパラメータを、以下のようにして推定する。
すなわち、雑音初期分布推定部222は、雑音初期分布が、単一正規分布であるものとみなして、雑音初期分布を推定する。雑音の初期値ベクトルをベクトルN0とし、雑音初期分布をp(N0)とする。雑音初期分布p(N0)における平均ベクトルをμNとし、共分散行列を行列ΣNとすると、雑音初期分布p(N0)は次の式(14)のように表される。
Figure 0004617497
雑音初期分布推定部222は、最初の所定フレーム分の区間の観測信号の特徴量Xt124が雑音121の成分のみからなるものとみなし、式(14)に示す雑音初期分布p(N0)の平均ベクトルμNと共分散行列ΣNとを推定する。例えば、0≦t≦9の10フレーム分の区間が雑音121の成分のみからなる区間に該当する場合、雑音初期分布推定部222は、平均ベクトルμNと共分散行列ΣNとをそれぞれ、次の式(15)と式(16)とによって算出する。ただし、式(16)においてベクトルの右肩に付した「T」は転置を表す。
Figure 0004617497
そして雑音初期分布推定部222は、初期フレーム(t=0)でのj番目のパーティクルにおける雑音のパラメータであるベクトルN0 (j)と共分散行列ΣN0 (j)とを、それぞれ、式(17)及び式(18)のように設定する。
Figure 0004617497
すなわち、雑音初期分布推定部222は、j番目のパーティクルにおける雑音の特徴量ベクトルN0 (j)を、初期分布p(N0)からのサンプリングによって生成し、共分散行列ΣN0 (j)を、初期分布p(N0)の共分散行列ΣNに設定する。雑音初期分布推定部222は、式(17)と式(18)とに示す設定をパーティクルj(1≦j≦J)ごとに行なう。
逐次計算部224は、GMM130から出力パラメータ240をサンプリングするためのGMMサンプリング部226を含む。逐次計算部224はさらに、観測信号の特徴量124を受けて、各パーティクルにおける雑音のパラメータを更新するための更新部230と、更新後のパーティクルに対する重みを算出するための重み算出部232と、算出された重みに基づき、パーティクルにおける雑音のパラメータを再サンプリングするための再サンプリング部234と、再サンプリングされた各パーティクル及び第t−1フレームにおける各パーティクルに基づき、各パーティクルにおける雑音のパラメータを決定し、雑音確率分布の推定パラメータ206を生成するための推定パラメータ生成部236とを含む。
GMMサンプリング部226は、パーティクルj(1≦j≦J)ごとに、GMM130(図2参照)内の混合分布140から、パーティクルに対応する要素分布kt (j)を、その混合重みに基づいてサンプリングする。GMMサンプリング部226はさらに、出力パラメータベクトルS(j) kt (j) ,tを、要素分布kt (j)からサンプリングして、更新部230に与える。ここにGMM130における要素分布148A,…,148Kの混合重みをPS,ktとすると、要素分布kt (j)は、混合重みPS,ktを出力確率とする確率分布にしたがう。すなわち、GMM130から次の式(19)に示すサンプリングによって得られる。
Figure 0004617497
要素分布kt (j)の平均ベクトルをベクトルμkt (j)とし、要素分布kt (j)の共分散行列を行列ΣS,kt (j)とすると、j番目のパーティクルにおけるGMM130の出力パラメータベクトルS(j) kt (j) ,tは、要素分布kt (j)から、次の式(20)に示すサンプリングによって得られる。
Figure 0004617497
なお、フレーム選択部220はさらに、GMMサンプリング部226に対し、第tフレームにおけるGMMの出力パラメータのサンプリングを要求する機能を持つ。
更新部230は、上記の観測方程式(1)及び状態方程式(11)からなる動的モデルを状態空間モデルとする拡張カルマンフィルタによって、第t−1フレームに対応する各パーティクルにおける雑音のパラメータを、第tフレームに対応するものに更新する機能を持つ。この際、拘束条件パラメータ138と、状態空間モデル160(図3)と、GMMサンプリング部226によりサンプリングされた出力パラメータS(j) kt (j) ,tとを基にパラメータの更新を行なう。なお、拡張カルマンフィルタは、観測方程式(1)に示すように非線形項を含む状態空間モデルに対応したカルマンフィルタである。
図6に、更新部230の構成をブロック図で示す。図6を参照して、更新部230は、第t−1フレームの雑音確率分布の推定パラメータ206を基に、第t−1フレームについて、状態方程式(11)の上記した第1の拘束条件に係る加重平均ベクトル^Nt-1を上記の式(12)を用いて算出するための加重平均算出部250を含む。
更新部230はさらに、第t−1フレーム以前の各フレームについて、各パーティクルにおける雑音のパラメータを、パーティクルごとに蓄積するためのバッファメモリ部252と、バッファメモリ部252に蓄積された雑音のパラメータ及び拘束条件パラメータ138により定められるフレーム数Tを基に、各パーティクルについて、第t−1フレームにおける、上記の式(13)に示すTフレーム分のPolyak AverageベクトルμNt-1 (j)を算出するためのPolyak Average算出部254と、Polyak AverageベクトルμNt-1 (j)と第t−1フレームにおける雑音確率分布の推定パラメータ206とを基に、状態方程式(11)の第2の拘束条件におけるフィードバック分に対応するベクトルを算出するための、フィードバック部256とを含む。フィードバック部256は、Polyak AverageベクトルμNt-1 (j)と第t−1フレームにおける平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。
更新部230はさらに、観測方程式(1)と状態方程式(11)とからなるモデルを状態空間モデルとする拡張カルマンフィルタを用いて、第t−1フレームに対応するパーティクルにおける雑音のパラメータを、第tフレームに対応するものに更新するための拡張カルマンフィルタ部258とを含む。拡張カルマンフィルタ部258は、j番目のパーティクルにおける雑音のパラメータの更新に、第tフレームにおける観測信号の特徴量Xt124と、j番目のパーティクルにおけるGMM130(図2参照)の出力パラメータベクトルS(j) kt (j) ,tと、拘束条件パラメータ138として与えられる忘却係数α及びスケーリング係数βと、加重平均ベクトル^Nt-1と、差分μNt-1 (j)−^Nt-1 (j)とを用いる。
本実施の形態における拡張カルマンフィルタの分布更新式を、以下の式(21)〜式(26)に示す。なお、これらの数式において第t−1フレームに対応するパラメータから予測される第tフレームにおけるパラメータについては添え字として「t|t-1」を付してある。
Figure 0004617497
ただし、行列ΣWは、前述したとおり、第t−1フレームから第tフレームへの状態変化の際に雑音の特徴量ベクトルNtに生じるランダムガウス雑音ベクトルWt-1の共分散行列を表す。
再び図5を参照して、重み算出部232は、第tフレームでの観測信号の特徴量ベクトルXt124と、第tフレームの各パーティクルにおけるGMM130の出力パラメータベクトルS(j) kt (j) ,tと、当該フレームの当該パーティクルにおける雑音のパラメータである平均ベクトル^Nt (j)及び共分散行列ΣNt (j)と、第t−1フレームのパーティクルに対する重みwt-1 (j)とを基に、上記の式(9)及び式(10)に示す算出方法を用いて、第tフレームのパーティクルに対する重みwt (j)を算出する機能を持つ。なお、重みwt (j)(1≦j≦J)は、Σj=1〜Jt (j)=1となるように正規化される。
再サンプリング部234は、パラメータが更新されたパーティクルにおける雑音の確率分布にしたがい、第tフレームに対応する各パーティクルにおける雑音のパラメータを再サンプリングする機能を持つ。この際、再サンプリング部234は、微小な重みwt (j)しか与えられていないパーティクルにおける雑音の確率分布からは、雑音のパラメータの再サンプリングを行なわない。一方、大きな重みwt (j)が与えられているパーティクルにおける確率分布からは、重みwt (j)の大きさに応じた回数再サンプリングを行ない、得られた雑音のパラメータをそれぞれ、当該再サンプリングの回数と同数のパーティクルに割当てる。ただし再サンプリングの全回数及びパーティクルの全数は一定(J)である。このようにするのは、各パーティクルに割当てられる重みが、上記の式(9)から分かるように観測信号の特徴量Xt124の尤度に対応しているからである。
推定パラメータ生成部236は、マルコフ連鎖モンテカルロ法のMetropolis-Hastingsアルゴリズムにより、第tフレームに対応するパーティクルを再生成する機能を持つ。図7に、推定パラメータ生成部236の構成をブロック図で示す。図7を参照して、推定パラメータ生成部236は、第t−1フレームに対応する各パーティクルにおける雑音のパラメータを、第tフレームに対応するものに再更新するための再更新部262を含む。再更新部262は、再サンプリング部234による再サンプリングで得られた各パーティクルにおける雑音のパラメータを用いて、状態空間モデル160における雑音確率分布を生成する。そして、当該生成した確率分布と拘束条件パラメータ138とに基づき、図6に示す更新部230と同様の手法を用いて、上記の式(21)〜式(26)に示す分布更新式により表される拡張カルマンフィルタによって、各パーティクルにおける雑音のパラメータの再更新を行なう。
推定パラメータ生成部236はさらに、再更新されたパーティクルに対する重み(これを以下「wt *(j)」とする。)を上記の式(9)及び式(10)に示す算出方法を用いて算出するための重み再計算部264を含む。
推定パラメータ生成部236はさらに、再サンプリングされたパーティクルに対する重みwt (j)及び再更新されたパーティクルに対する重みwt *(j)から、再更新された雑音のパラメータを許容するか否かの判定に用いる許容確率νを算出するための許容確率算出部266と、所定の乱数発生方法により0から1までの閉区間内の乱数uを発生させるための乱数発生部268と、許容確率νと乱数uとに基づき、第tフレームに対応するパーティクルにおけるパラメータとして、再サンプリングされたパーティクルにおける雑音のパラメータと、再更新されたパーティクルにおける雑音のパラメータとの一方を選択するためのパラメータ選択部270とを含む。
許容確率算出部266は、重みwt (j)及び重みwt *(j)から次の式(27)にしたがって、許容確率νを算出する機能を持つ。
Figure 0004617497
パラメータ選択部270は、乱数uが許容確率ν以下であれば、当該パーティクルにおける雑音のパラメータ及びその重みを再更新で得られた新たなパラメータ及びその重みに変更する機能を持つ。
〈コンピュータによる実現〉
以下の説明からも明らかなように、図1に示す音声認識システム100の前処理部104、前処理用音響モデル部106、及び探索部110は、いずれもコンピュータハードウェアと、その上で実行されるプログラムと、コンピュータハードウェアに格納されたデータとにより実現可能である。図8に、前処理部104(図1参照)に含まれる雑音抑圧部114が行なう雑音抑圧処理を実現するコンピュータプログラムの制御構造をフローチャートで示す。
図8を参照して、雑音抑圧処理が開始されると、ステップ302において、初期状態における雑音の特徴量N0の各要素の値に対応する初期分布を推定する。すなわち、上記の式(15)及び式(16)に示す算出方法により、式(4)に示す雑音初期分布p(N0)のパラメータである平均ベクトルμN及び共分散行列ΣNを算出する。さらに、式(17)及び式(18)にしたがい雑音初期分布p(N0)からベクトルN0 (j)(j=1,…,J)をサンプリングし、初期フレームの各パーティクルにおける雑音のパラメータを推定する。
ステップ304では、雑音抑圧の対象となるフレームを次のフレームに移行させる。以下の説明では、移行後のフレームが第tフレームであるものとする。ステップ306では、パーティクルフィルタを用いて、処理対象のフレームについて、各パーティクルにおける雑音のパラメータを推定する。すなわち、確率密度関数p(N0:t (j)|X0:t)のパラメータである平均ベクトル^Nt (j)及び共分散行列ΣNt (j)を推定し、さらに、各パーティクルに対する重みwt (j)を定めて、雑音確率分布の推定パラメータ206を生成する。このステップでの処理については、図9を用いて後述する。
ステップ308では、観測信号分布のパラメータ208を推定する。すなわち、ステップ306で定めた各パーティクルの雑音のパラメータ^Nt (j)、及びΣNt (j)を用いて、各パーティクルにおける観測信号の特徴量Xt124の確率分布を推定する。さらに、GMM130を構成する要素分布k(1≦k≦K)ごとに、パーティクルにおける観測信号の特徴量Xt124の確率分布の平均ベクトルμXkt (j) ,tと、共分散行列ΣXk,t (j)とを算出する。
ステップ310では、MMSE推定法により、第tフレームにおける推定クリーン音声の特徴量126を算出する。すなわちまず、ステップ306及びステップ308の処理で得られたパラメータを用いて、MMSE推定法によって、MMSE推定値ベクトル^Stを算出し、推定クリーン音声の特徴量126(図1参照)として出力する。
Figure 0004617497
この式において、P(k|Xt,(j))は、j番目のパーティクルにおける、GMM130内の要素分布kに対する混合重みを表す。混合重みP(k|Xt,(j))は、次の数式により算出される。
Figure 0004617497
ステップ312では、終了判定を行なう。すなわち第tフレームが最終のフレームであれば雑音抑圧処理を終了する。さもなければステップ304に戻る。
図9に、ステップ306(図8参照)において行なわれる雑音確率分布の推定パラメータ206の生成処理を実現するプログラムの制御構造をフローチャートで示す。図9を参照して、雑音確率分布の推定パラメータの生成処理が開始されると、ステップ320において、拡張カルマンフィルタによる更新を行なう際の雑音121の状態遷移過程に対する第1及び第2の拘束条件に係るパラメータベクトルを算出する。すなわち、第t−1フレームのパーティクルでの雑音のパラメータの加重平均ベクトル^Nt-1を式(12)を用いて算出する。そして、パーティクルの各々において、過去Tフレーム分の当該パーティクルにおける雑音のパラメータからPolyak AverageベクトルμNt-1 (j)を算出し、平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。
ステップ322では、式(21)〜式(26)に示す拡張カルマンフィルタを用いて、第t−1フレームのパーティクルにおける雑音確率分布から、第tフレームの各パーティクルにおける雑音のパラメータを推定する。
ステップ324では、第tフレームの各パーティクルに対する重みwt (j)を、式(9)及び式(10)によって算出する。そして、重みwt (j)を正規化する。ステップ326では、各パーティクルに対する重みwt (j)を基に、各パーティクルからの再サンプリングの回数を決定し、当該パーティクルにおける雑音確率分布に基づいてパラメータを再サンプリングする。ステップ328では、Metropolis-Hastingsアルゴリズムを用いて第tフレームのパーティクルを再生成する。
図10にステップ328(図9参照)における処理の詳細をフローチャートで示す。図10を参照して、ステップ328における処理が開始されると、ステップ340において、図9に示すステップ320と同様に、加重平均ベクトル^Nt-1を、式(12)に示す算出方法で算出する。そして、パーティクルの各々において、過去Tフレーム分の当該パーティクルにおける雑音のパラメータからPolyak AverageベクトルμNt-1 (j)を算出し、平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。
続くステップ342では、ステップ326(図9参照)での再サンプリングで得られた各パーティクルにおける雑音パラメータにより表現される雑音確率分布を用いて、式(21)〜式(26)に示す拡張カルマンフィルタにより、各パーティクルにおける雑音のパラメータの再更新を行なう。すなわち、第tフレームのパーティクルを新たに準備し、ステップ322(図9参照)での処理と同様の処理により、第t−1フレームのパーティクルに対応するパラメータから、第tフレームのパーティクルに対応するパラメータへの再更新を行ない、準備したパーティクルのパラメータに設定する。ステップ344では、ステップ342で準備したパーティクルに対する重みwt *(j)を、図9に示すステップ324の処理と同様の処理で算出し正規化する。
ステップ346では、ステップ324の処理で算出された重みwt (j)と、ステップ344で算出された重みwt *(j)との比較により、ステップ342で準備されたパーティクルの許容確率νを定める。ステップ348では、区間[0,1]の値からなる一様な集合U[0,1]の中から任意の値を選択することにより乱数uを発生する。ステップ350では、ステップ348で発生した乱数uの値と、ステップ346で定めた許容確率νの値とを比較する。uが許容確率の値以下であれば、ステップ352へ進む。さもなければステップ354に進む。ステップ352では、ステップ342で準備されたパーティクルを許容する。すなわち、ステップ326での再サンプリングで得られたパラメータを、準備されたパーティクルのパラメータで置換して処理を終了する。ステップ354では、ステップ342で準備されたパーティクルを棄却する。すなわち、準備されたパーティクル及びそのパラメータを棄却し、処理を終了する。
[動作]
本実施の形態に係る音声認識システム100は以下のように動作する。
まず、図5に示す雑音確率分布推定部200が、初期フレーム(t=0)における雑音確率分布の推定パラメータ206を生成する動作について説明する。図1に示す計測部112が、音源102から雑音重畳音声122を受け、観測信号の特徴量Xt124を抽出する。抽出された特徴量Xt124は、雑音抑圧部114の図5に示す雑音確率分布推定部200に与えられる。図5を参照して、雑音確率分布推定部200のフレーム選択部220は、特徴量Xt124のうち最初の10フレーム分を、雑音初期分布推定部222に与える。雑音初期分布推定部222は、上記の式(14)〜式(16)に示す処理により雑音初期分布p(N0)を推定する。さらに、雑音初期分布p(N0)から、上記の式(17)及び式(18)に示すサンプリングをJ回行なう。このサンプリングによって、各パーティクルにおける雑音の初期的なパラメータであるベクトルN0 (j)及び共分散行列ΣN0 (j)が決定される。雑音確率分布推定部200は、これらのパラメータを、初期フレームにおける雑音確率分布の推定パラメータ206として出力する。
次に、雑音確率分布推定部200の逐次推定部224が、第tフレーム(t≧1)における雑音確率分布の推定パラメータ206を生成する動作について説明する。図5を参照して、次のフレームの処理の開始要求210に応答して、フレーム選択部220は、GMMサンプリング部226に、第tフレームにおけるGMMの出力パラメータのサンプリングを要求するとともに、観測信号の特徴量Xt124を更新部230に与える。
GMMサンプリング部226は、GMM130から、出力パラメータベクトルS(j) kt (j) ,tのサンプリングを行なう。例えば、j番目のパーティクルにおいて、GMMサンプリング部226が、図2に示すGMM130内の混合正規分布140の中から、混合重みにしたがった確率で要素分布kt (j)のサンプリングを行なう。その結果、要素分布kt (j)として、要素分布150がサンプリングされたものとする。GMMサンプリング部226はさらに、要素分布kt (j)により表される出力確率の分布にしたがい、出力パラメータベクトルS(j) kt (j) ,tをサンプリングする。GMMサンプリング部226は、総数Jの各パーティクルにおける出力パラメータベクトルS(j) kt (j) ,tをそれぞれ、以上の手順でサンプリングし、図5に示す更新部230に与える。
図11に、逐次計算部224によるパラメータの更新、及び再サンプリングの概要を模式的に示す。図11においては、ある雑音のパラメータが左右方向に分布し、時間が上から下に進行する。また、図11においては、パーティクルを白抜きの丸印と黒塗りの丸印とによって模式的に示す。例えば、白抜きの丸印で示すパーティクルが重みwt (j)の値の微小なパーティクルであり、黒塗りの丸印で示すパーティクルが重みwt (j)の値の大きなパーティクルであるものとする。
図11を参照して、第t−1フレームに対応するパーティクルにより状態空間420が近似的に表現されているものとする。更新部230は、以下のようにして、状態空間420内の各パーティクルにおける雑音のパラメータを、第tフレームに対応する状態空間430内の各パーティクルにおける雑音のパラメータに更新する。
まず、図6に示す更新部230の拡張カルマンフィルタ部258は、第t−1フレームの各パーティクルにおける推定確率分布の推定パラメータ206を取得する。取得された推定確率分布の推定パラメータ206は、加重平均算出部250、バッファメモリ252、及びフィードバック部256に与えられる。なお、この時点で、バッファメモリ252には、少なくとも第t−1フレーム以前のTフレーム分について、推定確率分布の推定パラメータ206が格納されている。
図6に示す加重平均算出部250は、推定確率分布の推定パラメータ206が与えられると、式(12)に示す加重平均ベクトル^Nt-1を算出する。この加重平均ベクトル^Nt-1をに基づき、式(11)に示す状態方程式における第1の拘束条件を導入して、雑音の平均ベクトルを補正すると、補正後の雑音確率分布における雑音のパラメータは、補正前の平均ベクトル^Nt-1 (j)より、加重平均ベクトル^Nt-1に近づく。したがって、パーティクルの散らばりが抑制される。
新たな推定確率分布の推定パラメータ206がバッファメモリ部252に蓄積されると、Polyak Average算出部254は、バッファメモリ部252に蓄積されているTフレーム分の推定確率分布のパラメータ206を用いて、各パーティクルにおける式(13)に示すPolyak AverageベクトルμNt (j)を算出する。算出したPolyak AverageベクトルμNt-1 (j)は、フィードバック部256に与えられる。フィードバック部256は、各パーティクルにおいて、Polyak AverageベクトルμNt-1 (j)と、平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。なお、バッファメモリ部252に推定確率分布の推定パラメータ206がTフレーム分蓄積されていない場合、Polyak Average算出部254は、バッファメモリ部252に蓄積されているだけのフレーム分の雑音確率分布の推定パラメータ206を用いて、Polyak AverageベクトルμNt (j)を算出する。
図12に、Polyak Average及びフィードバックの概念を模式的に示す。図12(A)及び(B)はいずれも、j番目のパーティクルにおけるPolyak AverageベクトルμNt (j)とそのパーティクルに対応する雑音の特徴量ベクトルNt-4 (j),…,Nt+1 (j)との関係を表している。なお、図12(A)は、雑音の特徴量ベクトルの時間遷移が緩やかである場合を示し、図12(B)は、時間遷移が激しい場合を示す。これらの図において、時間は左から右に進行し、雑音の特徴量は上下方向に変化する。図12(A)及び図(B)においては、第tフレームにおけるPolyak AverageベクトルμNt (j)を、白抜きの丸印で示す。なお、この図に示すPolyak AverageベクトルμNt (j)においては、T=5フレーム分であるものとする。
図12(A)を参照して、第t−1フレームにおける雑音の特徴量Nt-1 (j)と、Polyak AverageベクトルμNt (j)との間には、差分μNt (j)−Nt (j)が生じる。図12(B)に示すような時間遷移の激しい場合においても同様に、雑音の特徴量Nt (j)と、Polyak AverageベクトルμNt (j)との間には、差分μNt (j)−Nt (j)が生じる。図12(A)における雑音の特徴量ベクトルNt-4 (j),…,Nt (j)の変動に比べて、図12(B)における雑音の特徴量ベクトルNt-4 (j),…,Nt (j)の変動は大きい。すなわち図12(A)における雑音の特徴量ベクトルNt-4 (j),…,Nt (j)同士の差異は、図12(B)における当該それらの差異より小さい。
Polyak AverageベクトルμNt (j)は、Nt-4 (j),…,Nt (j)の平均である。そのため、Polyak AverageベクトルμNt (j)のとり得る範囲は、Nt-4 (j),…,Nt (j)の最小から最大までの範囲である。したがって、図12(A)に示すように、これらの特徴量ベクトル同士の差異が小さければ、その分Polyak AverageベクトルμNt-1 (j)のとり得る範囲は狭くなる。差分μNt-1 (j)−Nt-1 (j)の変動幅は自ずから小さくなる。これに対して、図12(B)に示すように雑音の特徴量ベクトル同士の差異が大きければ、その分Polyak AverageベクトルμNt (j)のとり得る範囲は広くなる。差分μNt (j)−Nt (j)の変動幅も自ずから大きくなる。すなわち、差分μNt (j)−Nt (j)は、過去Tフレーム分の雑音の変化を反映する。この差分に基づき、次のフレームにおける雑音の特徴量ベクトルNt+1 (j)を予測すると、過去Tフレーム分の雑音の変化が反映された特徴量ベクトルが得られる。
拡張カルマンフィルタ部258(図6参照)は、加重平均ベクトル^Nt-1と、差分ベクトルμNt-1 (j)−Nt-1 (j)と、拘束条件パラメータ138により定められる忘却係数α及びスケーリング係数βと、観測信号の特徴量Xt124と、出力パラメータ240とを基に、式(21)〜式(26)により示す拡張カルマンフィルタによって各パーティクルの更新を行なう。
この更新において、式(21)に示す、雑音の一期先予測パラメータNt|t-1 (j)においては、^Nt-1 (j)の散らばりが抑制される。また、過去Tフレーム分のパラメータの変動がフィードバックされる。すなわち、過去の変動が大きかった場合には、一期先予測パラメータNt|t-1 (j)の変動も大きくなる。反対に過去の変動が小さかった場合には、一期先予測パラメータNt|t-1 (j)の変動も小さくなる。したがって、パラメータの時間推移に対する拘束条件が、過去のパラメータの変動によって強化される。
以上のようにして、各パーティクルの更新を行なわれることにより、図11に示す状態空間420内の各パーティクルは更新され、パラメータが更新されたパーティクルにより第tフレームに対応する状態空間430が表現される。
これに応答して、重み算出部232が、状態空間430内の各パーティクルに対する重みwt (j)を、式(22)及び式(23)によって算出する。再サンプリング部234は、重みwt (j)に基づき、パーティクルにおける雑音のパラメータを再サンプリングする。この際、再サンプリング部234はまず、状態空間430内の各パーティクルからの再サンプリングの回数を、パーティクルに対する重みwt (j)に応じてパーティクルごとに設定する。白抜きの丸印で表される重みの微小なパーティクルからのサンプリングの回数を0に設定する。また、黒塗りの丸印で表される重みの大きなパーティクルからのサンプリングの回数を、重みの大きさに応じて1〜3に設定する。続いて、状態空間430内のパーティクルにおける雑音確率分布に基づき、設定された回数ずつ、雑音のパラメータの再サンプリングを行なう。このようにして、第tフレームに対応する新たな状態空間440を表現するパーティクルがそれぞれ形成される。
再サンプリング部234によるこのような再サンプリングが繰返し行なわれると、あるフレームに対応するパーティクルの多くにおける雑音のパラメータが、それ以前の時点のフレームに対応する少数のパーティクルにおける雑音のパラメータの確率分布からサンプリングされたものとなるおそれがある。そこで、推定パラメータ生成部236は、Metropolis-Hastingsアルゴリズムを用いて、新たに第tフレームに対応するパーティクルにおけるパラメータを生成することにより、このような事態を防止する。図7に示す再更新部262は、状態空間440における雑音確率分布にしたがい、第t−1フレームに対応する状態空間420内のパーティクルにおける雑音のパラメータを再更新する。重み再計算部264は、再更新されたパーティクルに対する重みwt *(j)を算出する。許容確率算出部266は、再更新されたパーティクルに対する重みwt *(j)と、再サンプリングされたパーティクルに対する重みwt (j)とを基に、許容確率νを算出する。パラメータ選択部270は、許容確率νと、乱数発生部268が発生した[0,1]の区間の乱数uとを比較し、乱数uが許容確率ν以下であれば、再サンプリングされたパーティクルにおけるパラメータを、再更新されたパーティクルにおけるパラメータで置換する。さもなければ、再更新されたパーティクルにおけるパラメータを棄却する。
以上のような動作をフレームごとに繰返すことにより、各フレームに対応して、各パーティクルにおける雑音のパラメータである、平均ベクトル^Nt (j)及び共分散行列ΣNt (j)が推定される。各パーティクルにおける雑音のパラメータである平均ベクトル^Nt (j)及び共分散行列ΣNt (j)と、各パーティクルに対する重みwt (j)とが、雑音確率分布の推定パラメータ206となる。雑音確率分布推定部200は、雑音確率分布の推定パラメータ206と観測信号の特徴量ベクトルXt124とを、フレームごとに、図4に示す観測信号分布推定部202に与える。
図4を参照して、観測信号分布推定部202は、観測信号分布のパラメータ208として、VTS法によって、第tフレームに対応する各パーティクルにおける観測信号分布の平均ベクトル及び共分散行列を生成する。これにより、各パーティクルにおいて雑音の確率分布と観測信号の確率分布とが推定されたことになる。クリーン音声推定部204は、MMSE推定法により、第tフレームに対応する各パーティクルにおいて、クリーン音声120のMMSE推定値ベクトル^St (j)を算出する。さらに、MMSE推定値ベクトル^St (j)と重みwt (j)とを用いて、第tフレームにおける推定クリーン音声の特徴量ベクトル^St126を算出し、図1に示す探索部110に出力する。
図1に示す探索部110は、推定クリーン音声の特徴量ベクトル^St126を用いて、認識用音響モデル部109に保持された音響モデルと、言語モデル部108に保持された言語モデルとを基に、適合する目的言語の単語等を探索し、その結果を認識出力128として出力する。
[第2の実施の形態]
式(1)に示す観測方程式と式(11)に示す状態方程式とに基づく状態空間モデル160(図3参照)は、過去の第tフレームでのj番目のパーティクルにおける雑音の特徴量ベクトルNt (j)の時間変化状況に応じて未来のパラメータを予測するモデルである。第1の実施の形態においては、拘束条件パラメータ138(図1参照)を時間固定のものとして扱っており、状態方程式(11)を時間変化に対して定常的なものとして、未来のパラメータを予測した。しかし、非定常雑音の時間変化の様相は時々刻々と変化するため、拘束条件パラメータもまた、時間の経過に伴い変化することが望ましい。そこで、以下に説明する第2の実施の形態では、それぞれ異なるパラメータの設定された複数の状態空間モデルの中から、未来予測に最適な状態空間モデルをフレームごとに選ぶ。そして各フレームにおいて選択した状態空間モデルを適用し、パーティクルの更新を行なう。
[構成]
図13に、本実施の形態に係る音声認識システムにおいて、図1に示す前処理部104に代えて用いられる前処理部500の構成を示す。図13を参照して、前処理部500は、図1に示す前処理部104のものと同一の計測部112と、GMM130を用い、複数の状態空間モデルを選択的に適用して計測部112の出力する観測信号の特徴量124に含まれる雑音の成分を抑圧するための雑音抑圧部510とを含む。雑音抑圧部510は、図1に示す前処理部104と異なり、拘束条件パラメータとして所与のものを使用しない。その代り雑音抑圧部510は、後述のとおり、フレームの移行時に逐次的に拘束条件パラメータを決定し、当該拘束条件パラメータを使用して雑音の抑圧を行なう。
図14に、本実施の形態に係る雑音抑圧部510の構成をブロック図で示す。図14を参照して、雑音抑圧部510は、第1の実施の形態に係る雑音抑圧部114のものとそれぞれ同一の雑音確率分布推定部200、観測信号分布推定部202、及びクリーン音声推定部204を含む。雑音抑圧部510はさらに、クリーン音声推定部204により発行される次のフレームへの移行に関する要求210を受けるように接続され、フレームが移行する度にそのフレームに対応する拘束条件パラメータ522を決定し、雑音確率分布推定部200に与えるための拘束条件パラメータ決定部520を含む。
図15に、拘束条件パラメータ決定部520の構成をブロック図で示す。拘束条件パラメータ決定部520は、要求210を受ける度に忘却係数α、スケーリング係数β、及びフレーム数Tの値をそれぞれ決定するためのα決定部530、β決定部532、及びT決定部534と、α決定部530により決定された忘却係数α、β決定部532により決定されたスケーリング係数β、及びT決定部534により決定されたフレーム数Tを、拘束条件パラメータ522として出力し雑音確率分布推定部200(図14参照)に与えるための拘束条件パラメータ出力部536とを含む。
α決定部530、β決定部532、及びT決定部534はそれぞれ、忘却係数α、スケーリング係数β、及びフレーム数Tのとり得る値を一覧にしたα状態−パラメータ表540、β状態−パラメータ表544、及びT状態−パラメータ表548と、要求210を受ける度にα状態−パラメータ表540、β状態−パラメータ表544、及びT状態−パラメータ表548を用いてそれぞれ、忘却係数α、スケーリング係数β、及びフレーム数Tの値をエルゴディックモデルによる確率分布にしたがって選択し出力するためのエルゴディックモデル部542、546、及び550とを含む。
α状態−パラメータ表540、β状態−パラメータ表544、及びT状態−パラメータ表548の例を、それぞれ図16(A)、(B)、及び(C)に示す。図16(A)を参照して、α状態−パラメータ表540の各行は、忘却係数αの状態に対応している。また、α状態−パラメータ表540には、状態番号の欄と、忘却係数αの欄とが設けられている。すなわち、α状態−パラメータ表540は、忘却係数αが4つの状態を有し、一つの状態が一つの状態番号と忘却係数αのとり得る一つのパラメータ値との組により構成されていることを表す。なお状態番号は、対応のパラメータ値が小さな状態ほど若い番号となるように予め付与される。
図16(B)に示すβ状態−パラメータ表544、及び図16(C)に示すT状態−パラメータ表548もまた、α状態−パラメータ表540と類似の構成である。ただし、列挙されているパラメータ値はそれぞれ、スケーリング係数βに対応するもの、及びフレーム数Tに対応するものになっている。
図17に、忘却係数αの状態遷移過程を模式的に示す。図17を参照して、忘却係数αの状態遷移過程は、エルゴディックモデルによってモデル化されている。忘却係数αを出力しうる状態番号1〜4の状態がある。これらの状態はそれぞれ、α状態−パラメータ表540により、忘却係数αのとり得るパラメータ値に対応している。フレームが移行する度に、これらの状態のうち一つが忘却係数αのパラメータ値を出力する。フレーム移行前の状態からある確率で他の状態に状態が遷移し、遷移先の状態がパラメータαを出力する。この状態遷移を矢印で示す。本実施の形態では、自己ループを含めすべての状態の間の遷移が許容される。
エルゴディックモデル部542は、忘却係数αの状態を、フレーム移行の度に状態番号1〜4のいずれかの状態へ遷移させることによって、各フレームにおける忘却係数αの値を決定する。
エルゴディックモデル部542、546、及び550は、対応のパラメータが異なることを除けば、いずれも同一の機能を有し独立に動作する。エルゴディックモデル部542、546、及び550を代表して、α決定部530のエルゴディックモデル部542の構成を図18にブロック図で示す。図18を参照して、エルゴディックモデル部542は、α状態−パラメータ表540における各状態の状態番号と所定のパラメータγ(1≧γ>0)570とをもとに、各状態間の遷移に対し状態遷移確率を割当てるための状態遷移確率割当部572と、状態遷移確率割当部572が割当てた状態遷移確率を一覧にした状態遷移確率表574と、フレーム移行の要求210を受ける度に、状態遷移確率表574を用いてフレーム移行前の状態から各状態への状態遷移確率を決定するための状態遷移確率決定部562と、状態遷移確率決定部562が決定したフレーム移行前の状態から各状態への状態遷移確率をもとにフレーム移行後の状態を選択し、その状態番号を出力するための状態遷移部564と、状態遷移部564により出力された状態番号を記憶するための状態番号記憶部560と、状態遷移部564により出力された状態番号に対応するパラメータ値をα状態−パラメータ表540から読出して、拘束条件パラメータ出力部536に出力するためのパラメータ読出部566とを含む。
状態遷移確率割当部572は、α状態−パラメータ表540が準備された時点で、α状態−パラメータ表540の状態のうちの任意の二つの組合せに対し、当該二つの状態の状態番号の差の絶対値の単調減少関数として、当該二つの状態間での状態遷移確率を決定する。図20に、状態番号とパラメータの値との関係を概略的に示す。図20を参照して、第tフレーム及び第t+1フレームにおける状態の状態番号をそれぞれ、mt (j)、nt+1 (j)とする。状態遷移確率割当部572は、α状態−パラメータ表540(図16(A)参照)の行ごとに、状態番号mt (j)からその行の状態番号をnt+1 (j)とした場合の状態番号の変化量dmn,t (j)=|nt+1 (j)−mt (j)|を算出する。そしてパラメータγ570を用い、次の数式によって、自己ループへの状態遷移確率を1とした場合の状態mt (j)から状態nt+1 (j)への状態遷移確率の相対量(以下、この量を「(状態遷移確率の)割当量」と呼ぶ。)amn,t (j)を決定する。
Figure 0004617497
そして、Σnmn,t (j)=1となるよう割当量amn,t (j)を正規化し、正規化後の割当量amn,t (j)を、mt (j)とnt+1 (j)との間の状態遷移確率とし、状態遷移確率表574に格納する。
図19に状態遷移確率表574の一例を示す。図19を参照して、この状態遷移確率表574は、状態数4のエルゴディックモデルにおいて、パラメータγ570の値を0.5に設定した場合の各状態間の状態遷移確率を示すものである。状態遷移確率表574の各行は遷移前の状態に対応しており、各欄は遷移先の状態に対応している。状態遷移確率表574のどの行においても、その行の状態番号と同じ状態番号に対応する欄に格納される状態遷移確率が、状態遷移確率の最大値をとっている。すなわち、他の状態に遷移するよりも自己ループする確率がより高く設定される。
再び図18を参照して、状態遷移確率決定部562は、要求210が与えられる度に、状態番号記憶部560に記憶されている状態番号を参照し、さらに、状態遷移確率表574の当該状態番号の行を読出して、状態遷移部564に与える。
状態遷移部564は、状態遷移確率表574の、状態遷移確率決定部562より与えられた行における各欄に表される状態遷移確率にしたがったモンテカルロサンプリングにより、遷移先の状態を選択し、選択した状態の状態番号を状態番号記憶部560及びパラメータ読出部566に与える機能を持つ。パラメータ読出部566は、状態遷移部564により出力された状態番号に対応する状態のパラメータ値を、α状態−パラメータ表540より読出して出力する機能を持つ。状態番号記憶部560は、状態遷移部564が出力した状態番号を記憶する。この番号は、次のフレーム移行時に、状態遷移確率決定部562により参照される。
〈コンピュータによる実現〉
以下の説明からも明らかなように、図13に示す前処理部500は、図1に示す前処理部104と同様に、コンピュータハードウェアと、その上で実行されるプログラムと、コンピュータハードウェアに格納されたデータとにより実現可能である。図21に、前処理部500に含まれる雑音抑圧部510(図14参照)が行なう雑音抑圧処理を実現するコンピュータプログラムの制御構造をフローチャートで示す。
図21を参照して、本実施の形態に係る雑音抑圧処理を実現するコンピュータプログラムの制御構造は、図8に示す第1の実施の形態に係る雑音抑圧処理を実現するコンピュータプログラムの制御構造と類似する。ただし、本実施の形態に係る雑音抑圧処理においては、ステップ304において次のフレームへ処理対象を移行した後、ステップ600に進む。ステップ600では、移行後のフレームで雑音の確率分布の推定に使用する拘束条件パラメータ522を決定し、ステップ306に進む。なお、ステップ306では、ステップ600で決定された拘束条件パラメータ522を使用して処理を行なうことになる。
ステップ600において、拘束条件パラメータ522を決定する処理は、忘却係数α、スケーリング係数β、及びフレーム数Tに対し、同様の処理がそれぞれ独立に実行される。図22に、これら独立に実行される処理を代表して、忘却係数αを決定する処理の制御構造をフローチャートで示す。図22を参照して、忘却係数αを決定する処理が開始されると、ステップ620において、予め記憶しておいた移行前のフレームにおいて忘却係数αを出力した状態の状態番号mt-1 (j)を取得する。ステップ622では、状態遷移確率表574(図19参照)の、ステップ620で取得した状態番号に対応する行を参照し、状態番号mt-1 (j)の状態と各状態との間の状態遷移確率の割当を読出す。
ステップ624では、ステップ622で読出した状態遷移確率にしたがい、状態番号nt (j)に関するモンテカルロサンプリングを実行し、サンプリングにより選択された状態番号nt (j)の状態を遷移先の状態として選択する。ステップ626では、ステップ624で選択された状態番号nt (j)の状態から忘却係数αの値を出力し、処理を終了する。
[動作]
本実施の形態に係る雑音抑圧部510は、フレーム移行の要求がある度に拘束条件パラメータ決定部520が拘束条件パラメータ522を決定し更新する。また、雑音確率分布推定部200は、式(11)に示す状態方程式における第1の拘束条件を導入して、雑音の平均ベクトルを補正する際各パーティクルにおける式(13)に示すPolyak AverageベクトルμNt (j)を算出する際、並びに式(21)〜式(26)により示す拡張カルマンフィルタによって各パーティクルの更新を行なう際に、更新された拘束条件パラメータ522を使用して処理を実行する。これらの点を除き、雑音抑圧部510は、第1の実施の形態に係る雑音抑圧部114と同一の動作を実行する。拘束条件パラメータ決定部520の図15に示すエルゴディックモデル部542、546、及び550に要求210が与えられると、エルゴディックモデル部542、546、及び550はそれぞれ独立に動作し、忘却係数α、スケーリング係数β、及びフレーム数Tの値をそれぞれ決定する。
以下、エルゴディックモデル部542、546、及び550を代表して、α決定部530のエルゴディックモデル部542の動作を説明する。まず、図18に示すエルゴディックモデル部542の状態遷移確率割当部572が状態遷移確率の割当を予め決定し、状態遷移確率表574(図19参照)を生成する動作について説明する。
図18を参照して、エルゴディックモデル部542にα状態−パラメータ表540とパラメータγ570とが与えられると、状態遷移確率割当部572は、α状態−パラメータ表540(図16(A)参照)の一つ目の行を処理対象に定める。そして、当該遷移前状態の状態番号と、α状態−パラメータ表540の各行における状態番号とを基に、遷移前状態と各状態との間の状態番号の変化量dmn,t (j)を算出する。例えば、状態遷移時に自己ループする場合、状態番号の変化量dmn,t (j)=0となる。
各遷移先状態について変化量dmn,t (j)を算出すると、状態遷移確率割当部572は次に、パラメータγ570を状態番号の変化量dmn,t (j)でべき乗して割当量amn,t (j)を算出する。パラメータγ570の値が1>γ>0に設定されていれば、自己ループにおいて状態番号の変化量dmn,t (j)は0となり、割当量amn,t (j)は、最大値γ0=1となる。自己以外への状態遷移では、状態番号の変化量dmn,t (j)の値が大きくなるほど小さくなる。パラメータγ570の値が1に設定されていれば、割当量amn,t (j)は、状態番号の変化量dmn,t (j)の値に関係なくamn,t (j)=1となる。
状態遷移確率割当部572はさらに、割当量amn,t (j)の各々を、Σnmn,t (j)=1となるよう正規化する。このようにして算出された正規化後の割当量amn,t (j)の各々を、状態遷移確率表574の遷移先の1行目の対応する欄に格納する。そして、α状態−パラメータ表540(図16(A)参照)の次の行を処理対象に定める。
パラメータγ570が1>γ>0に設定されていれば、各状態への状態遷移確率は、自己ループにおいて最大値となり、自己ループ以外の状態遷移においては、dmn,t (j)の値が大きくなるほど低い値となる。α状態−パラメータ表540においては、出力するパラメータ値が小さな状態ほど若い状態番号が付与されている。状態番号の変化量dmn,t (j)が小さければ、その分フレーム移行前後での忘却係数αの値の変動は小さく、状態番号の変化量dmn,t (j)が大きければその分忘却係数αの値の変動は大きくなる。したがって、パラメータγ570を1>γ>0に設定すると、各状態への状態遷移確率は、忘却係数αの値の変動が小さい状態に遷移する確率が高くなるように割当てられる。これに対し、パラメータγ570を1に設定すると、割当量amn,t (j)は、状態番号の変化量dmn,t (j)の値に関係なくamn,t (j)=1となる。そのため各状態への状態遷移確率は全て同じ確率になる。
この動作を繰返すことによりα状態−パラメータ表540の全ての行について処理が終了すると、状態遷移確率割当部572は動作を完了する。以上の一連の動作は、図15に示すエルゴディックモデル部542、546、及び550においてそれぞれ独立に実行される。
次に、エルゴディックモデル部542がフレーム移行の要求210を受けてフレーム移行後のフレームにおける忘却係数αの値を決定する動作を説明する。図14に示すクリーン音声推定部204が次のフレームへの移行の要求210を発行すると、要求210は、雑音確率分布推定部200に与えられるばかりでなく、拘束条件パラメータ決定部520の図18に示す状態遷移確率決定部562にも与えられる。状態遷移確率決定部562に要求210が与えられる時点では既に、状態番号記憶部560は、フレーム移行前の状態について、その状態番号mt (j)を記憶している。状態遷移確率決定部562は、要求210に応答して、状態番号mt (j)を状態番号記憶部560から読出す。そして、状態遷移確率表574(図19参照)の状態番号mt (j)の行を読出し、状態遷移部564に与える。
状態遷移部564は、与えられた行の各欄に格納されている、各状態への状態遷移確率にしたがったモンテカルロサンプリングにより遷移先の状態を選択する。そして選択した状態の状態番号を状態番号記憶部560及びパラメータ読出部566に与える。状態遷移部564が状態を選択すると、パラメータ読出部566は、状態遷移部564により選択された状態のパラメータ値を、α状態−パラメータ表540より読出して出力する。状態番号記憶部560は、状態遷移部564が出力した状態番号を記憶する。
以上の処理と同様の処理を図15に示すβ決定部532及びT決定部534もまた、要求210に応答して実行する。拘束条件パラメータ出力部536は、α決定部530から忘却係数αを、β決定部532からスケーリング係数βを、T決定部からフレーム数Tを受けると、それらをまとめて拘束条件パラメータ522として、図14に示す雑音確率分布推定部200に与える。雑音確率分布推定部200は、第1の実施の形態と同様の動作で雑音確率分布の推定パラメータ206を逐次的に生成し、観測信号の特徴量ベクトルXt124とともに、フレームごとに、図14に示す観測信号分布推定部202に与える。
雑音確率分布の推定パラメータ206を生成する際の処理において、状態空間モデル160を形成する状態方程式(11)における拘束条件パラメータは、処理対象のフレームごとに再設定される。これにより、フレームごとに状態空間モデルが変動するため、時間の推移とともに変動する非定常雑音をより適切に推定することが可能になる。
[実験]
本発明の第1及び第2の実施の形態に係る音声認識システムによる効果を確認するために、観測信号からの雑音の推定実験と、観測信号の認識実験とを行なった。以下、実験方法及び結果について説明する。
本実験では、日本語の雑音下音声認識評価用共通データベースに収録されたクリーン音声1001文のデータに、雑音を人工的に加算して、雑音重畳音声122(図1参照)の試料を生成した。また加算する雑音には、それぞれ実環境で収録された工場雑音と道路工事雑音とを使用した。本実験では、雑音を加算していない試料と、クリーン音声に雑音をそれぞれ20dB、15dB、10dB、5dB、及び0dBのSNR(Signal-to-Noise Ratio)で加算した試料とを用意した。用意した各試料を23次対数メルフィルタバンク処理し、得られた23次対数メルスペクトルの各成分を要素とするベクトルをそれぞれ生成し、認識対象の特徴量ベクトルとした。
認識実験では、比較のために、上記の各試料から、本実施の形態に係る雑音抑圧処理の方法を含む次の各方法で、探索に用いる特徴量を生成した。すなわち、パーティクルフィルタを用いて雑音確率分布の逐次推定を行ない、得られた雑音確率分布のパラメータを用いてMMSE推定法により特徴量を生成した。また、雑音確率分布の逐次推定を行なうにあたり、パーティクルフィルタとして、次の3種のものを用いた。すなわち、状態遷移過程にランダムウォーク過程を仮定し上記の状態方程式(2)を導入したパーティクルフィルタ(PF1)と、状態遷移過程に時間固定の拘束条件パラメータ138に基づく拘束条件を設定し上記の状態方程式(11)を導入したパーティクルフィルタ(PF2)と、時間変動する拘束条件パラメータ522に基づく拘束条件を設定し上記の状態方程式(11)を導入したパーティクルフィルタ(PF3)とである。
第1の実施の形態に係るパーティクルフィルタは、PF2のパーティクルフィルタであり、第2の実施の形態に係るパーティクルフィルタはPF3である。本認識実験ではさらに、比較のために外乱抑圧処理を行なわない観測信号の特徴量(HTK)と、非特許文献2に記載の方式で雑音抑圧処理を施した観測信号の特徴量(ETSI)と、パーティクルフィルタを用いた雑音確率分布の逐次推定を行なわずにMMSE推定法により特徴量を生成する方式で雑音抑圧処理を施した観測信号の特徴量(MMSE)と、逐次EMアルゴリズムによる雑音の逐次推定の結果を用いて雑音抑圧処理を施した観測信号の特徴量(SEM:Sequential Expectation Maximization)とを用いた探索も行なった。
上記のいずれのパーティクルフィルタを用いて処理を行なう場合にも、GMM130(図1参照)には、混合分布数512のモデルを用いた。この処理においては、ランダムガウス雑音ベクトルWtの共分散行列を、ΣW=diag(0.0001)に設定した。また、処理に用いるパーティクルの総数Jを50に設定した。
なお、第1の実施の形態に係るパーティクルフィルタ(PF2)を用いて処理を行なう際、拘束条件パラメータ138には次の値を用いた。すなわち工場雑音環境下では、忘却係数α、フィードバック係数β、及びフレーム数Tのパラメータ値にそれぞれ、0.20、0.5、10を使用した。道路工事雑音環境下では、忘却係数α、フィードバック係数β、及びフレーム数Tのパラメータ値にそれぞれ、0.20、0.5、20を使用した。
第2の実施の形態に係るパーティクルフィルタ(PF3)を用いて処理を行なう際、状態遷移確率の割当に使用するパラメータγには0.6を使用した。
抑圧後の推定クリーン音声を用いた音声認識を行なう際の特徴量には、0次を含む13次MFCC(Mel Frequency Cepstrum Coefficient)と、1次及び2次の回帰係数とを含む39次元の特徴量を用いた。また、図1に示す認識用音響モデル109には、16状態20混合分布のHMMを用いた。
この認識実験における処理に、市販のクロック周波数3.2ギガヘルツ、32ビットのCPU(Central Processing Unit)を用いた場合、PF1、PF2、及びPF3のいずれのパーティクルフィルタを用いた場合も、処理に要した時間は、観測信号における実時間と同程度であった。すなわち、認識処理を実時間で処理できることが明らかとなった。逐次EMアルゴリズムによる雑音の推定の結果を用いて雑音抑圧処理を施した場合(SEM)、その処理に要した時間は、結果が収束するまでの処理の反復回数がデータに依存して変化する。本実験においては処理時間は実時間の2倍〜4倍であった。
図23に、雑音の推定実験の結果を示す。図13は、工場雑音の各フレームにおける、対数メルフィルタバンクの1番目のフィルタによる出力値(以下、「真の雑音」と呼ぶ。)と、パーティクルフィルタを用いた雑音抑圧処理において当該出力値に対応する推定結果とを示すグラフである。このグラフにおいては、比較のため、状態遷移過程にランダムウォーク過程を仮定したパーティクルフィルタと、第1の実施の形態に係るパーティクルフィルタ(PF2)とによる推定結果を示す。このグラフの横軸は、フレーム番号を表す。すなわちグラフ上、左から右に進むにしたがい時間が経過する。
図23を参照して、このグラフにおいて、44フレームまでの区間は、雑音121のみが観測された区間であった。また、45フレーム以降の区間は、雑音121と目的音声120との重畳した雑音重畳音声が観測された区間であった。雑音のみの区間においては、ランダムウォーク過程を仮定したパーティクルフィルタによる処理結果も、本実施の形態に係るパーティクルフィルタによる処理結果も、真の雑音に近い時間軌跡となっている。よってこの区間では、いずれの処理方法でも時間変動が推定できていることが分かる。しかし、雑音重畳音声が観測された区間において、本実施の形態に係るパーティクルフィルタによる雑音の推定誤差は、ランダムウォーク過程を導入したパーティクルフィルタによる雑音の推定誤差より小さくなっている。よって、本実施の形態に係る雑音抑圧処理により、特に雑音重畳音声が観測される区間において雑音が高精度に推定され、抑圧されることが分かる。
表1及び表2に、各試料に対する認識実験で得られた単語認識率を、上記の処理方法別に示す。
Figure 0004617497
Figure 0004617497
表1及び表2を参照して、パーティクルフィルタPF1、PF2、又はPF3による雑音抑圧処理を行なうことで、高い単語認識率が得られることが分かる。中でも上記第1の実施の形態に係るパーティクルフィルタPF2及び第2の実施の形態に係るパーティクルフィルタPF3は、他のいずれの処理方法より高い単語認識率が得られることが分かる。よって、第1の実施の形態及び第2の実施の形態に係る拘束条件が有効な作用を奏したことは明らかである。特に第2の実施の形態に係るパーティクルフィルタPF3による処理を施した試料に対する認識結果は、最良の結果を示しており、また、第1の実施の形態に係るパーティクルフィルタ(PF2)による処理を施した試料に対する認識結果よりもさらに高い。よって、拘束条件パラメータを時間変動させることが、有効な作用を奏したこともまた明らかとなった。
以上の実験結果から、本実施の形態の雑音抑圧処理により、非定常な雑音と目的音声とが重畳する環境下での音声認識率が改善され、かつ実時間処理が可能になることが明らかとなった。
表3及び表4に、第2の実施の形態に係るパーティクルフィルタ(PF3)において、パラメータγ570を変化させた場合の単語認識率を示す。
Figure 0004617497
Figure 0004617497
表3及び表4より、パラメータγを変化させても、雑音種別、SNRに関わらず音声認識率の変動は1%以下であった。単語認識率に対するパラメータγの依存性は低いと言える。したがって、拘束条件パラメータに含まれる忘却係数α、スケーリング係数β、及びフレーム数Tのフレームごとの変動を許容すること自体が、音声認識率の改善に寄与することと考えられる。
[変形例等]
なお、上記各実施の形態においては、パーティクルフィルタによる処理を雑音の抑圧に用いている。そのため、雑音抑圧後の推定クリーン音声のパラメータを用いて探索を行なう前に、さらに音響モデル適応を行なうこともできる。音響モデル適応により、推定クリーン音声に適合した音響モデルを探索に用いることができるようになる。したがって、音声認識率が向上することが期待される。
また、上記各実施の形態においては、前処理用の音響モデルにGMMを用いたが、前処理用の音響モデルにHMMを用いてもよい。この場合、上記の式(20)に示す要素分布のサンプリングに先立ち、HMMの遷移確率にしたがって状態のサンプリングを行なえばよい。
上記第1の実施の形態では、図6に示すPolyak Average算出部254は、拘束条件パラメータ138により定められたTフレーム分のPolyak Averageを算出した。しかし、第1の実施の形態においては、バッファメモリ部252が雑音確率分布の推定パラメータ206をTフレーム分保持し、Polyak Average算出部254がバッファメモリ部252に保持されている当該Tフレーム分の雑音確率分布の推定パラメータ206を基にPolyak Averageを算出するようにしてもよい。
上記第2の実施の形態では、状態番号がパラメータ値の昇順に付与されていた。しかしパラメータ値の降順に付与されていても、昇順に付与された場合と同様に動作する。
また、上記第2の実施の形態では、拘束条件パラメータの状態遷移確率は、直前のフレームに対応する状態に依存して決定された。しかし、本発明はこのような実施の形態には限定されない。例えば、直前のフレームのみでなく、より過去の状態の影響を考慮して、拘束条件パラメータに関する状態遷移確率の決定を行なうようにしてもよい。
また、上記第2の実施の形態では、各エルゴディックモデル部は、全ての状態間での状態遷移に関し状態遷移確率の割当を予め決定しておき、フレームを移行するたびに決定された状態遷移確率の割当にしたがって、フレーム移行後の拘束条件パラメータの値を決定した。しかし、本発明はこのような実施の形態には限定されない。例えば、フレームを移行する度に、状態遷移確率の割当を決定するようにしてもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の一実施の形態に係る音声認識システム100の構成を示す概略図である。 GMM130の概念を示す概略図である。 観測信号の状態空間モデル160の概念を示す概略図である。 雑音抑圧部114の構成を示すブロック図である。 雑音確率分布推定部200の構成を示すブロック図である。 更新部230の構成を示すブロック図である。 推定パラメータ生成部236の構成を示すブロック図である。 雑音抑圧処理の制御構造を示すフローチャートである。 雑音確率分布の推定パラメータ206の生成処理の制御構造を示すフローチャートである。 Metropolis-Hastingsアルゴリズムによるサンプリング処理の制御構造を示すフローチャートである。 パーティクルフィルタによる処理の概要を示す図である。 Polyak Average及びフィードバックの概念を示す模式図である。 本発明の第2の実施の形態に係る前処理部500の構成を示す図である。 第2の実施の形態に係る雑音抑圧部510の構成示すブロック図である。 拘束条件パラメータ決定部520の構成を示すブロック図である。 状態−パラメータ表540、544、及び548の一例を示す図である。 エルゴディックモデルの概念を示す図である。 エルゴディックモデル部542の構成を示すブロック図である。 状態遷移確率表574の一例を示す図である。 拘束条件パラメータαの状態遷移の概要を示す図である。 第2の実施の形態に係る雑音抑圧処理の制御構造を示すフローチャートである。 拘束条件パラメータの決定処理の制御構造を示すブロック図である。 第1の実施の形態に係る雑音抑圧処理による工場雑音の推定実験の結果を示す図である。
符号の説明
100 音声認識システム
102 音源
104,500 前処理部
106 前処理用音響モデル部
108 言語モデル部
109 認識用音響モデル部
110 探索部
112 計測部
114,510 雑音抑圧部
116 話者
118 雑音源
120 クリーン音声
121 雑音
122 雑音重畳音声
124 観測信号の特徴量
126 推定クリーン音声の特徴量
130 GMM
132 学習データ記憶部
134 モデル学習部
136 GMM記憶部
138,522 拘束条件パラメータ
160 状態空間モデル
200 雑音確率分布推定部
202 観測信号分布推定部
204 クリーン音声推定部
220 フレーム選択部
222 雑音初期分布推定部
224 逐次計算部
226 GMMサンプリング部
230 更新部
232 重み算出部
234 再サンプリング部
236 推定パラメータ生成部
240 出力パラメータ
250 加重平均算出部
252 バッファメモリ部
254 Polyak Average算出部
256 フィードバック部
258 拡張カルマンフィルタ部
262 再更新部
264 重み再計算部
266 許容確率算出部
268 乱数発生部
270 パラメータ選択部
520 拘束条件パラメータ決定部
530 α決定部
532 β決定部
534 T決定部
536 拘束条件パラメータ出力部
540 α状態−パラメータ表
542,546,550 エルゴディックモデル部
544 β状態−パラメータ表
548 T状態−パラメータ表
560 状態番号記憶部
562 状態遷移確率決定部
564 状態遷移部
566 パラメータ読出部
570 パラメータγ
572 状態遷移確率割当部
574 状態遷移確率表

Claims (7)

  1. 雑音が発生する環境下での目的音声の観測により得られる観測信号における雑音の成分を抑圧するための雑音抑圧装置であって、
    前記観測信号について所定周期ごとにフレーム化された所定時間長のフレームよりそれぞれ抽出される特徴量を受け、前記雑音の時間推移に関し所定の拘束条件の設けられた複数のパーティクルを有するパーティクルフィルタを用いて、前記雑音を表す確率分布の推定パラメータを前記フレームごとに逐次生成するための雑音推定手段と、
    前記観測信号の特徴量と、前記推定パラメータと、前記目的音声に関する所定の音響モデルとを用いて、前記フレームごとに前記目的音声の推定特徴量を算出するための目的音声推定手段とを含み、
    前記雑音推定手段は、
    前記雑音の初期分布を推定し、前記複数のパーティクルの各々において、初期フレームの雑音を表す確率分布の推定パラメータを前記初期分布にしたがった確率でそれぞれ設定するための初期パラメータ設定手段と、
    各パーティクルにおいて、第1のフレームでの前記推定パラメータと当該第1のフレームに先行する所定数のフレームでの前記推定パラメータとから、前記拘束条件に基づき当該推定パラメータに対する変更量を算出するための変更量算出手段と、
    前記音響モデルと、前記観測信号の特徴量と、前記変更量算出手段により算出された変更量とを基に、拡張カルマンフィルタを用いて、各パーティクルにおける前記第1のフレームの推定パラメータを、それぞれ当該第1のフレームに後続する第2のフレームに対応するものに更新するための更新手段と、
    前記第2のフレームにおける前記複数のパーティクルの各々に対する重みを算出するための重み算出手段と、
    前記更新手段により更新された雑音の推定パラメータと前記重み算出手段により算出された重みとを用いて、前記第2のフレームにおける前記雑音を表す確率分布の推定パラメータを生成するための手段とを含み、
    前記拘束条件は、前記推定パラメータに対する過去のフレームからのフィードバックを含み、
    前記変更量算出手段は、各パーティクルについて、前記第1のフレーム及び当該第1のフレームに先行する所定数のフレームにおける前記推定パラメータの平均を求め、当該推定パラメータの平均と前記第1フレームにおける前記推定パラメータとの差分を基に、前記変更量を算出するための手段を含む、雑音抑圧装置。
  2. さらに、前記変更量算出手段が前記変更量を算出するのに使用するフレームの数を、予め定められた複数種類の数の中から、所定の確率モデルにしたがってフレームごとに選択するためのフレーム数選択手段を含む、請求項1に記載の雑音抑圧装置。
  3. 前記確率モデルは、前記変更量算出手段が前記変更量を算出するのに使用するフレームの数からの変化量の絶対値に対する単調減少関数として、次のフレームで前記変更量算出手段が前記変更量を算出するのに使用するフレームの数が選択される確率を割当てる、請求項に記載の雑音抑圧装置。
  4. 前記フレーム数選択手段は、
    互いに異なる、予め定められた複数種類の自然数にそれぞれ対応付けられた複数の状態を準備するための手段と、
    前記複数の状態の間での状態遷移確率を決定するための状態遷移確率決定手段とを含み、
    前記変更量算出手段が前記変更量を算出するのに用いるフレームの数は、前記複数の状態の中から選択された状態に対応付けられた自然数であり、
    前記フレーム数選択手段はさらに、
    前記変更量算出手段が前記変更量を算出するのに用いたフレームの数に対応する状態から、前記状態遷移確率にしたがって次の状態を選択するための手段と、
    当該選択された状態に対応する自然数を、次のフレームで前記変更量算出手段が使用する際に使用する前記フレームの数に設定するための手段とを含む、請求項に記載の雑音抑圧装置。
  5. 前記準備するための手段は、互いに異なる、予め定められた複数種類の自然数にそれぞれ対応付けられた複数の状態を準備し、当該状態の各々に対し所定の順序にしたがい番号を付与するための手段を含み、
    前記状態遷移確率決定手段は、前記複数の状態のうちの任意の二つの組合せに対し、当該二つの状態にそれぞれ付与された二つの番号の差の絶対値に対する単調減少関数として、当該二つの状態の間での状態遷移確率を決定する、請求項に記載の雑音抑圧装置。
  6. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項のいずれかに記載の雑音抑圧装置として動作させる、コンピュータプログラム。
  7. 請求項1〜請求項のいずれかに記載の雑音抑圧装置と、
    前記雑音抑圧装置により算出される前記目的音声の推定特徴量を受けて、前記目的音声に関する所定の音響モデルと、認識対象言語に関する所定の言語モデルとを用いて、前記目的音声に関する音声認識を行なうための音声認識手段とを含む、音声認識システム。
JP2005356665A 2005-07-01 2005-12-09 雑音抑圧装置、コンピュータプログラム、及び音声認識システム Active JP4617497B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005356665A JP4617497B2 (ja) 2005-07-01 2005-12-09 雑音抑圧装置、コンピュータプログラム、及び音声認識システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005193470 2005-07-01
JP2005356665A JP4617497B2 (ja) 2005-07-01 2005-12-09 雑音抑圧装置、コンピュータプログラム、及び音声認識システム

Publications (2)

Publication Number Publication Date
JP2007041499A JP2007041499A (ja) 2007-02-15
JP4617497B2 true JP4617497B2 (ja) 2011-01-26

Family

ID=37799510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005356665A Active JP4617497B2 (ja) 2005-07-01 2005-12-09 雑音抑圧装置、コンピュータプログラム、及び音声認識システム

Country Status (1)

Country Link
JP (1) JP4617497B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100853171B1 (ko) 2007-02-28 2008-08-20 포항공과대학교 산학협력단 구속 순차 em 알고리즘을 이용한 깨끗한 음성 복원을위한 음성 강조 방법
JP2008298844A (ja) * 2007-05-29 2008-12-11 Advanced Telecommunication Research Institute International 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP4856662B2 (ja) * 2008-02-29 2012-01-18 日本電信電話株式会社 雑音除去装置、その方法、そのプログラム及び記録媒体
US8527266B2 (en) * 2008-03-21 2013-09-03 Tokyo University Of Science Educational Foundation Administrative Organization Noise suppression device and noise suppression method
WO2013118192A1 (ja) * 2012-02-10 2013-08-15 三菱電機株式会社 雑音抑圧装置
CN111063342B (zh) * 2020-01-02 2022-09-30 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
EP4202360A1 (en) * 2020-08-24 2023-06-28 Furuno Electric Co., Ltd. Ship navigation assistance device, ship navigation assistance method, and ship navigation assistance program
WO2022044609A1 (ja) * 2020-08-24 2022-03-03 古野電気株式会社 船舶航行支援装置、船舶航行支援方法、および、船舶航行支援プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251198A (ja) * 2000-12-19 2002-09-06 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム
JP2006201287A (ja) * 2005-01-18 2006-08-03 Advanced Telecommunication Research Institute International 雑音抑圧装置及び音声認識システム
JP2006243290A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251198A (ja) * 2000-12-19 2002-09-06 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム
JP2006201287A (ja) * 2005-01-18 2006-08-03 Advanced Telecommunication Research Institute International 雑音抑圧装置及び音声認識システム
JP2006243290A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム

Also Published As

Publication number Publication date
JP2007041499A (ja) 2007-02-15

Similar Documents

Publication Publication Date Title
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP4617497B2 (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
US10347241B1 (en) Speaker-invariant training via adversarial learning
EP1515305B1 (en) Noise adaption for speech recognition
JP4512848B2 (ja) 雑音抑圧装置及び音声認識システム
KR101217525B1 (ko) 비터비 디코더와 이를 이용한 음성 인식 방법
EP1160768A2 (en) Robust features extraction for speech processing
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP6725186B2 (ja) 学習装置、音声区間検出装置および音声区間検出方法
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
EP0862162A2 (en) Speech recognition using nonparametric speech models
JP2010078650A (ja) 音声認識装置及びその方法
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
KR20160045673A (ko) 정량적 f0 패턴 생성 장치 및 방법, 그리고 f0 패턴 생성을 위한 모델 학습 장치 및 방법
JP2008298844A (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP5070591B2 (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP5885210B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
Koriyama et al. Utterance-level sequential modeling for deep Gaussian process based speech synthesis using simple recurrent unit
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
Yu et al. Hidden Markov models and the variants
JP2008064849A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2010054588A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP6137479B2 (ja) 音声信号解析装置、方法、及びプログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Windmann et al. Parameter estimation of a state-space model of noise for robust speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070530

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101005

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4617497

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250