JP5713818B2

JP5713818B2 - 雑音抑圧装置、方法及びプログラム

Info

Publication number: JP5713818B2
Application number: JP2011142230A
Authority: JP
Inventors: 雅清藤本; 渡部　晋治; 晋治渡部; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-06-27
Filing date: 2011-06-27
Publication date: 2015-05-07
Anticipated expiration: 2031-06-27
Also published as: JP2013007975A

Description

本発明は入力音響信号に含まれる雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。

処理対象とする音声信号や、音声信号以外の信号（以下「雑音信号」という）を含む音響信号から音声信号を聞き取りやすくするために雑音信号を抑制する従来技術が知られている。特に、自動音声認識技術を実際の環境で利用する場合においては、正しく音声認識を行うために、音響信号から雑音信号を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。

非特許文献１が雑音抑圧に係る従来技術として知られている。非特許文献１は、予め推定した音声信号と雑音信号の確率モデルから音響信号の確率モデルを生成し、確率モデルと音響信号全体の統計量との差分をテイラー展開で表現する。ＥＭアルゴリズム（以下「期待値最大化法」ともいう）を用いてその差分を推定し音響信号の確率モデルを最適化する。その後、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている。

P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylorseries approach for environment-independent speech recognition", in Proceedings of ICASSP '96, May 1996, vol. II, pp. 733-736

従来技術において雑音信号の確率モデルを推定するためには、雑音信号のみの学習データが必要となる。しかし、通常、雑音抑圧を行う際に観測可能な信号は、雑音信号と音声信号が混合された音響信号のみであり、雑音信号のみを単独で観測することは難しい。このため、従来技術では、音声信号が存在せず、雑音信号のみが存在する時間区間を推定することにより雑音信号のみの学習データを得ていた。しかしながら、このような方法では、音声信号が存在する時間区間における雑音信号を学習データとして利用することができず、当該区間で発生した雑音信号の変化や特徴を雑音信号の確率モデルに反映することができない。そのため、雑音信号の分布を正確に推定、表現することが難しい。

本発明は、音声信号の存在有無に関わらず、雑音信号を学習データとして利用し、より多くの雑音信号の変化や特徴を雑音信号の確率モデルに反映することができ、より正確に雑音信号を抑圧することができる雑音抑圧技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する。音響信号の音響特徴を抽出する。雑音を含まない音声信号の確率モデル（以下「音声モデル」という）と音響信号の音響特徴とを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル（以下「雑音モデル」という）を教師無し学習する。雑音モデルを用いて音響信号の雑音信号を抑圧する。

本発明に係る雑音抑圧技術は、より正確に雑音信号を抑圧することができるという効果を奏する。

雑音抑圧装置１００の機能ブロック図。雑音抑圧装置１００の処理フローを示す図。音響特徴抽出部１０４の処理フローを示す図。雑音モデル推定部１０５の機能ブロック図。雑音モデル推定部１０５の処理フローを示す図。雑音モデルパラメータ推定手段３０６の機能ブロック図。雑音モデルパラメータ推定手段３０６の処理フローを示す図。雑音抑圧部１０６の機能ブロック図。雑音抑圧フィルタ推定手段の処理フローを示す図。雑音抑圧フィルタ適用手段の処理フローを示す図。本発明による雑音モデルの推定例を示す図。本発明による雑音抑圧例を示す図。本発明による音響信号に含まれる音声信号に対する雑音抑圧信号を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「⁻」は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態に係る雑音抑圧装置１００＞
図１及び図２を用いて第一実施形態に係る雑音抑圧装置１００を説明する。

図１に示すように雑音抑圧装置１００は、音響特徴抽出部１０４と、音声モデルを構成する無音ＧＭＭ（混合正規分布：Gaussian mixture model）とクリーン音声ＧＭＭとが格納されるＧＭＭ記憶部１０７と、雑音モデル推定部１０５と、雑音抑圧部１０６とを含む。雑音抑圧装置１００は、音声信号と雑音信号とが混合された音響信号ｏ_τを収録し、または、入力され、音響信号ｏ_τから雑音信号を抑圧した雑音抑圧信号^ｓ_τを出力する。但し、τは離散信号のサンプル点を表す。以下、本実施形態の概要を説明する。

図２に示すように音響特徴抽出部１０４は音響信号から雑音抑圧を実施するための複素数スペクトルと対数メルスペクトルとを抽出する（ｓ１０４）。雑音モデル推定部１０５は対数メルスペクトルとＧＭＭ記憶部１０７で主記憶上に保持された無音ＧＭＭとクリーン音声ＧＭＭとを用いて雑音信号の確率モデル（以下「雑音モデル」という）である雑音ＧＭＭを推定する（ｓ１０５）。雑音抑圧部１０６は、複素数スペクトルと、対数メルスペクトルと、無音ＧＭＭと、クリーン音声ＧＭＭと、雑音ＧＭＭとを用いて雑音抑圧フィルタを設計し、音響信号から雑音信号を抑圧して雑音抑圧信号を得る（ｓ１０６）。以下、各部の詳細を説明する。

＜音響特徴抽出部１０４＞
音響特徴抽出部１０４は、音響信号の音響特徴を抽出する（ｓ１０４）。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部１０４は、例えば、図３に示す流れで処理を行う。

まず、ある周波数（例えば１６，０００Ｈｚ）で標本化された音響信号ｏ_τを時間軸方向に一定時間幅（シフト幅）で始点を移動させながら、一定時間長（フレーム幅）の音響信号をフレームとして切り出す（ｓ２０１）。例えばフレーム幅Ｆｒａｍｅ＝３２０個のサンプル点（１６，０００Ｈｚ×２０ｍｓ）の音響信号ｏ_ｔ＝｛ｏ_ｔ，０，ｏ_ｔ，１，…，ｏ_ｔ，ｎ，…，ｏ_{ｔ，３１９}｝を、シフト幅Ｓｈｉｆｔ＝１６０個のサンプル点（１６，０００Ｈｚ×１０ｍｓ）ずつ始点を移動させながら切り出す。ここでｔはフレーム番号、ｎはフレーム内のｎ番目のサンプル点を表す。フレーム単位の音響信号をｏ_ｔとし、以下のように表す。
o_t={o_t,0,o_t,1,…,o_t,n,…,o_t,Frame-1}
なお、複数チャネルの音響信号を入力とする場合には、チャネル毎にフレームを切り出せばよい。また、フレームを切り出す際に、例えば以下のハミング窓のような窓関数ｗ_ｎを掛け合わせて切り出してもよい。

次に、音響特徴抽出部１０４は音響信号ｏ_ｔに対してＭ点（但し、Ｍは２のべき乗、かつ、フレーム幅Ｆｒａｍｅ以上の値を設定する必要があり、例えば５１２とする）の高速フーリエ変換処理を適用して、複素数スペクトルＳｐｃ_ｔ＝｛Ｓｐｃ_ｔ，０，…，Ｓｐｃ_ｔ，ｍ，…，Ｓｐｃ_{ｔ，Ｍ−１}｝（但し、ｍは周波数ビンの番号である）を得る（ｓ２０２）。

次に、音響特徴抽出部１０４は、Ｓｐｃ_ｔ，ｍの絶対値に対してメルフィルタバンク分析を行い（ｓ２０３）、フィルタバンクの出力に対し、対数化処理を適用する（ｓ２０４）。このような処理により、Ｒ次元（例えばＲ＝２４）の対数メルスペクトルを要素に持つベクトル（以下、このベクトルを単に「対数メルスペクトル」という）Ｏ_ｔ＝｛Ｏ_ｔ，０，…，Ｏ_ｔ，ｒ，…，Ｏ_{ｔ，Ｒ−１}｝を算出する。但しｒはベクトルの要素番号を示す。すなわち、音響特徴抽出部１０４の出力は複素数スペクトルＳｐｃ_ｔと、対数メルスペクトルＯ_ｔとである。複素数スペクトルＳｐｃ_ｔは、雑音抑圧部１０６の入力となり、対数メルスペクトルＯ_ｔは、雑音モデル推定部１０５と、雑音抑圧部１０６との入力となる。

＜ＧＭＭ記憶部１０７＞
図示しない記憶部には、雑音を含まない音声信号の確率モデル（以下「音声モデル」という）が予め記憶される。例えば、記憶部の一部であるＧＭＭ記憶部１０７には、音声モデルとして無音ＧＭＭとクリーン音声ＧＭＭが格納される。なお、無音ＧＭＭは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたＧＭＭであり、クリーン音声ＧＭＭは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたＧＭＭである。

無音ＧＭＭ及びクリーン音声ＧＭＭは次式により与えられる。

上式において、ｊは無音ＧＭＭと、クリーン音声ＧＭＭとを識別するインデックスであり、ｊ＝０は無音ＧＭＭを、ｊ＝１はクリーン音声ＧＭＭを示す。また、ｋは無音ＧＭＭもしくはクリーン音声ＧＭＭに含まれる正規分布の番号、Ｋは総正規分布数である（例えばＫ＝１２８）。また、Ｓ_ｔは雑音を含まない音声信号の対数メルスペクトルであり、ｂ_Ｓ，ｊ（Ｓ_ｔ）は無音ＧＭＭもしくはクリーン音声ＧＭＭの尤度である。なお、下付文字Ｓは、後述する雑音ＧＭＭや音声信号と雑音信号を含む音響信号のＧＭＭとは異なる音響モデル（無音ＧＭＭまたはクリーン音声ＧＭＭ等）に係る尤度やパラメータであることを示している。また、ｗ_{Ｓ，ｊ，ｋ}と、μ_{Ｓ，ｊ，ｋ}と、Σ_{Ｓ，ｊ，ｋ}とは、それぞれ無音ＧＭＭもしくはクリーン音声ＧＭＭの混合重みと、平均ベクトルと、対角分散行列である。また、関数Ｎ（・）は、次式で与えられる多次元正規分布の確率密度関数である。

一方、雑音モデルとして、雑音信号のＧＭＭ（以下「雑音ＧＭＭ」という）を用いることができる。雑音ＧＭＭは次式により与えられる。

上式において、ｌは雑音ＧＭＭに含まれる正規分布の番号、Ｌは総正規分布数である（例えばＬ＝４）。また、Ｎ_ｔは雑音の対数メルスペクトルであり、ｂ_Ｎ（Ｎ_ｔ）は、雑音ＧＭＭの尤度であり、ｗ_Ｎ，ｌと、μ_Ｎ，ｌと、Σ_Ｎ，ｌとは、それぞれ雑音ＧＭＭの混合重みと、平均ベクトルと、対角分散行列である。以後、雑音ＧＭＭのパラメータセット（以下「雑音モデルパラメータ」ともいう）をλ＝｛ｗ_Ｎ，ｌ，μ_Ｎ，ｌ，Σ_Ｎ，ｌ｝と定義する。なお、下付文字Ｎは、雑音ＧＭＭに係る尤度やパラメータであることを示している。

非特許文献１では、雑音信号の特徴が定常的かつ、その分布が単峰性であるという前提のもとで雑音抑圧を行っている。一方、本実施形態では、雑音信号が、多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音モデルを単一の正規分布ではなく、ＧＭＭにて表現している。なお、後述の雑音モデル推定部１０５において、雑音モデルを教師無し学習する。

＜雑音モデル推定部１０５＞
雑音モデル推定部１０５は、対数メルスペクトルＯ_ｔと無音ＧＭＭとクリーン音声ＧＭＭとを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音ＧＭＭを教師無し学習する（ｓ１０５）。本実施形態では、雑音信号そのものではなく、雑音信号の音響特徴（対数メルスペクトル）を推定し、これを用いて、雑音ＧＭＭを学習する。

例えば、雑音モデル推定部１０５において、雑音ＧＭＭは入れ子構造となった２種類のＥＭアルゴリズムにより推定する。以後、この２種類のＥＭアルゴリズムを、それぞれ第一ＥＭアルゴリズム及び第二ＥＭアルゴリズムと呼ぶこととする。ＥＭアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数（対数尤度関数）の期待値を計算するExpectation-step（Ｅ−ｓｔｅｐ）と、コスト関数を最大化するMaximization-step（Ｍ−ｓｔｅｐ）とを、収束条件を満たすまで繰り返すことによりパラメータを最適推定する。

第一ＥＭアルゴリズムにおいて、音響信号を用いて、雑音信号と音声信号とを含む音響信号の確率モデル（以下「音響モデル」ともいう）の尤度が最大となるように、収束条件を満たすまで、後述する確率モデル生成処理（ｓ３０３）と第一期待値計算処理（ｓ３０４）と雑音信号推定処理（ｓ３０５）と雑音モデルパラメータ推定処理（ｓ３０６）とを繰り返す（図５参照）。

第二ＥＭアルゴリズムは後述する雑音モデルパラメータ推定手段３０６において実施され、推定した雑音信号を用いて、雑音ＧＭＭの尤度が最大となるように、収束条件を満たすまで、後述する第二期待値計算処理（ｓ４０３）と雑音ＧＭＭのパラメータ更新処理（ｓ４０４）を繰り返す（図７参照）。

以下、図４及び図５を用いて雑音モデル推定部１０５の詳細を説明する。

雑音モデル推定部１０５は、例えば図４に示すように第一初期値推定手段３０２と確率モデル生成手段３０３と第一期待値計算手段３０４と雑音信号推定手段３０５と雑音モデルパラメータ推定手段３０６と第一収束判定手段３０７とを含む。

（第一初期値推定手段３０２）
まず第一初期値推定手段３０２は、第一ＥＭアルゴリズムの繰り返し回数を示すインデックスｉを初期化する（ｓ３０１）。次に第一初期値推定手段３０２は、対数メルスペクトルＯ_ｔを受け取り、第一ＥＭアルゴリズムにおける雑音モデルパラメータの初期値λ^{（ｉ＝０）}＝｛ｗ^{（ｉ＝０）} _Ｎ，ｌ，ｗ^{（ｉ＝０）} _Ｎ，ｌ，ｗ^{（ｉ＝０）} _Ｎ，ｌ｝を次式により推定し（ｓ３０２）、確率モデル生成手段３０３に出力する。但し、Ａは初期値推定に要するフレーム数である（例えばＡ＝１０）。

上式において、添え字（ｉ）はｉ回目の繰り返し推定におけるパラメータであることを示す。なお、ｄｉａｇはかっこ内を要素とする対角行列を、上付き文字Ｔは転置を表す。

（確率モデル生成手段３０３）
確率モデル生成手段３０３は、雑音ＧＭＭとクリーン音声ＧＭＭと無音ＧＭＭとを用いて、音響モデルを生成する（ｓ３０３）。例えば、確率モデル生成手段３０３は、ｉ回目の繰り返し推定における雑音モデルパラメータλ^（ｉ）を第一初期値推定手段３０２または第一収束判定手段３０７から受け取り、無音ＧＭＭとクリーン音声ＧＭＭのパラメータ（ｗ_{Ｓ，ｊ，ｋ}，μ_{Ｓ，ｊ，ｋ}，Σ_{Ｓ，ｊ，ｋ}）をＧＭＭ記憶部１０７から受け取り、これらの値を利用して、対数メルスペクトルＯ_ｔの確率モデルを以下のようなＧＭＭで構成する。

上式において、ｂ_Ｏ，ｊ ^（ｉ）（Ｏ_ｔ）は、確率モデル生成手段３０３にて生成される（対数メルスペクトルＯ_ｔの）確率モデルの尤度であり、ｗ_{Ｏ，ｊ，ｋ，ｌ} ^（ｉ）とμ_{Ｏ，ｊ，ｋ，ｌ} ^（ｉ）とΣ_{Ｏ，ｊ，ｋ，ｌ} ^（ｉ）とは、雑音モデルパラメータλ^（ｉ）＝｛ｗ^（ｉ） _Ｎ，ｌ，μ^（ｉ） _Ｎ，ｌ，Σ^（ｉ） _Ｎ，ｌ｝と、無音ＧＭＭもしくはクリーン音声ＧＭＭのパラメータ（ｗ_{Ｓ，ｊ，ｋ}，μ_{Ｓ，ｊ，ｋ}，Σ_{Ｓ，ｊ，ｋ}）とから生成された対数メルスペクトルＯ_ｔの確率モデルの混合重みと、平均ベクトルと、対角分散行列とであり、次式で与えられる。

上式において、関数ｌｏｇ（・）とｅｘｐ（・）は、ベクトルの要素毎に演算を行う。また、⁻１は全ての要素が１のベクトル、Ｉは単位行列、Ｈ_{ｊ，ｋ，ｌ} ^（ｉ）は、式（１０）の関数ｈ（・）のヤコビ行列である。なお、下付文字Ｏは、音声信号と雑音信号を含む音響信号のＧＭＭに係る尤度やパラメータであることを示している。確率モデル生成手段３０３は、式（９）〜（１２）で求めた音響モデルのパラメータであるｗ_{Ｏ，ｊ，ｋ，ｌ} ^（ｉ）とμ_{Ｏ，ｊ，ｋ，ｌ} ^（ｉ）とΣ_{Ｏ，ｊ，ｋ，ｌ} ^（ｉ）とを第一期待値計算手段３０４に出力する。

（第一期待値計算手段３０４）
第一期待値計算手段３０４は、音響モデルのパラメータであるｗ_{Ｏ，ｊ，ｋ，ｌ} ^（ｉ）とμ_{Ｏ，ｊ，ｋ，ｌ} ^（ｉ）とΣ_{Ｏ，ｊ，ｋ，ｌ} ^（ｉ）とを確率モデル生成手段３０３から受け取り、音響信号の対数メルスペクトルＯ_ｔを音響特徴抽出部１０４から受け取り、ｉ回目の繰り返し推定における対数メルスペクトルＯ_ｔの確率モデルのコスト関数Ｑ_１（）の期待値を次式により計算する（Ｅ−ｓｔｅｐ）（ｓ３０４）。

なお、上式において、Ｏ_{０：Ｔ−１}＝｛Ｏ_０，…，Ｏ_ｔ，…，Ｏ_Ｔ−１｝であり、Ｔは対数メルスペクトルＯ_ｔの総フレーム数、Ｐ^（ｉ） _ｔ，ｊとＰ^（ｉ） _{ｔ，ｊ，ｋ，ｌ}は、それぞれ次式で与えられるフレームｔにおけるＧＭＭ種別ｊ、もしくは正規分布番号ｋと、ｌとに対する事後確率である。特に、Ｐ^（ｉ） _{ｔ，ｊ＝０}を音声非存在確率、Ｐ^（ｉ） _{ｔ，ｊ＝１}を音声存在確率と定義する。

第一期待値計算手段３０４は、求めた第一期待値Ｑ_１を第一収束判定手段３０７に、Ｐ^（ｉ） _ｔ，ｊとＰ^（ｉ） _{ｔ，ｊ，ｋ，ｌ}とを雑音信号推定手段３０５に出力する。

（雑音信号推定手段３０５）
雑音信号推定手段３０５は、音響信号を用いて、雑音信号を推定する（ｓ３０５）。例えば、雑音信号推定手段３０５は、Ｐ^（ｉ） _ｔ，ｊとＰ^（ｉ） _{ｔ，ｊ，ｋ，ｌ}を第一期待値計算手段３０４から受け取り、音響信号の対数メルスペクトルＯ_ｔを音響特徴抽出部１０４から受け取り、雑音モデルパラメータλ^（ｉ）を更新するために用いる雑音信号の対数メルスペクトルＮ^（ｉ） _ｔを推定し、雑音モデルパラメータ推定手段３０６に出力する。雑音の対数メルスペクトルＮ^（ｉ） _ｔは、次式により推定される。

（雑音モデルパラメータ推定手段３０６）
雑音モデルパラメータ推定手段３０６は、雑音信号の対数メルスペクトルＮ^（ｉ） _ｔを学習データとして、雑音モデルパラメータλ^（ｉ）を推定し（Ｍ−ｓｔｅｐ）（ｓ３０６）、推定した雑音モデルパラメータを第一収束判定手段３０７に出力する。雑音モデルパラメータλ^（ｉ）の具体的な推定方法については後述する。

（第一収束判定手段３０７）
第一収束判定手段３０７は、第一期待値計算手段３０４から第一期待値Ｑ_１を受け取り、この値を用いて収束条件を満たすか否かを判定し（ｓ３０７）、満たす場合はλ＝λ^（ｉ）としλを出力し雑音モデル推定部１０５の処理を終了する。満たさない場合はλ^（ｉ）を確率モデル生成手段３０３に出力し、ｉ←ｉ＋１（ｓ３０８）として、繰り返し処理を行うように各部に制御信号を出力し、ｓ３０３〜ｓ３０６の処理を繰り返す。例えば、収束条件は、最新の第一期待値Ｑ_１（Ｏ_{０：Ｔ−１}，λ^（ｉ））と一つ前の第一期待値Ｑ_１（Ｏ_{０：Ｔ−１}，λ^{（ｉ−１）}）との差が所定値以下である場合や、繰り返し回数ｉが所定値以上になった場合等とすることができる。例えば以下の式で表すことができる。

であり、η_１＝０．０００１とする。

＜雑音モデルパラメータ推定手段３０６の詳細＞
雑音モデルパラメータ推定手段３０６は、例えば図６に示すように第二初期値推定手段４０２と第二期待値計算手段４０３とパラメータ更新手段４０４と第二収束判定手段４０５とを含む。雑音モデルパラメータ推定手段３０６は、図７に示す処理フローで処理を行い、雑音信号推定手段３０５で推定した雑音の対数メルスペクトルＮ^（ｉ） _ｔと、第二ＥＭアルゴリズムにより、雑音モデルパラメータλ^（ｉ）を推定する。以下、図６及び図７を用いて雑音モデルパラメータ推定手段３０６の詳細を説明する。

（第二初期値推定手段４０２）
第二初期値推定手段４０２は、まず第二ＥＭアルゴリズムの繰り返し回数を示すインデックスｉｉを初期化する（ｓ４０１）。次に第二初期値推定手段４０２は、雑音の対数メルスペクトルＮ^（ｉ） _ｔを受け取り、この値を用いて、第二ＥＭアルゴリズムにおける雑音モデルパラメータλ^（ｉｉ）の初期値λ⁽ⁱⁱ⁼⁰⁾={w⁽ⁱⁱ⁼⁰⁾ _N,l,μ⁽ⁱⁱ⁼⁰⁾ _N,l,Σ⁽ⁱⁱ⁼⁰⁾ _N,l}を次式により推定し、第二期待値計算手段４０３に出力する。

上式において、添え字（ｉｉ）はｉｉ回目の繰り返し推定におけるパラメータであることを示す。また、ＧａｕｓｓＲａｎｄ（・）は正規乱数の発生器である。

（第二期待値計算手段４０３）
第二期待値計算手段４０３は、雑音の対数メルスペクトルＮ^（ｉ） _ｔを雑音信号推定手段３０５から受け取り、第二ＥＭアルゴリズムにおける雑音モデルパラメータλ^（ｉｉ）を第二初期値推定手段４０２または第二収束判定手段４０５から受け取り、ｉｉ回目の繰り返し推定における雑音ＧＭＭのコスト関数Ｑ_２（）の期待値を次式により計算し（Ｅ−ｓｔｅｐ）（ｓ４０３）、第二収束判定手段４０５に出力する。

上式において、Ｎ^（ｉ） _{０：Ｔ−１}＝｛Ｎ^（ｉ） _０，…，Ｎ^（ｉ） _ｔ，…，Ｎ^（ｉ） _Ｔ−１｝であり、Ｐ^（ｉｉ） _ｔ，ｌは、次式で与えられるフレームｔにおける正規分布番号ｌに対する事後確率である。

第二期待値計算手段４０３は、求めたＰ^（ｉｉ） _ｔ，ｌをパラメータ更新手段４０４に出力する。

（パラメータ更新手段４０４）
パラメータ更新手段４０４は、Ｐ^（ｉｉ） _ｔ，ｌを受け取り、雑音の対数メルスペクトルＮ^（ｉ） _ｔを雑音信号推定手段３０５から受け取り、雑音モデルパラメータλ^（ｉｉ）を次式により更新し（Ｍ−ｓｔｅｐ）（ｓ４０４）、更新した雑音モデルパラメータλ^（ｉｉ）を第二収束判定手段４０５に出力する。

（第二収束判定手段４０５）
第二収束判定手段４０５は、第二期待値計算手段４０３から第二期待値Ｑ_２を受け取り、この値を用いて収束条件を満たすか否かを判定し（ｓ４０５）、満たす場合はλ^（ｉ）＝λ^（ｉｉ）としλ^（ｉ）を出力し雑音モデルパラメータ推定手段３０６の処理を終了する。満たさない場合はλ^（ｉｉ）を第二期待値計算手段４０３に出力し、ｉｉ←ｉｉ＋１（ｓ４０６）として、繰り返し処理を行うように各部に制御信号を出力し、ｓ４０３、ｓ４０４の処理を繰り返す。例えば、収束条件は、最新の第二期待値Ｑ_２（Ｏ_{０：Ｔ−１}，λ^（ｉ））と一つ前の第二期待値Ｑ_２（Ｏ_{０：Ｔ−１}，λ^{（ｉ−１）}）との差が所定値以下である場合や、繰り返し回数ｉｉが所定値以上になった場合等とすることができる。例えば以下の式で表すことができる。

であり、η_２＝０．０００１とする。

＜雑音抑圧部１０６＞
雑音抑圧部１０６は、雑音ＧＭＭを用いて音響信号の雑音信号を抑圧する（ｓ１０６）。例えば、図８に示すように雑音抑圧部１０６は、雑音抑圧フィルタ推定手段５０１と雑音抑圧フィルタ適用手段５０２を含む。雑音抑圧フィルタ推定手段５０１は音響信号の対数メルスペクトルＯ_ｔと、無音ＧＭＭとクリーン音声ＧＭＭのパラメータ｛ｗ_{Ｓ，ｊ，ｋ}，μ_{Ｓ，ｊ，ｋ}，Σ_{Ｓ，ｊ，ｋ}｝と、雑音モデルパラメータλとを受け取り、雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍを推定する。雑音抑圧フィルタ適用手段５０２は、複素数スペクトルＳｐｃ_ｔと、雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍとを受け取り、雑音を抑圧して雑音抑圧信号＾ｓ_τを得る。以下、各手段の詳細を説明する。

（雑音抑圧フィルタ推定手段５０１）
雑音抑圧フィルタ推定手段５０１は図９に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段５０１は、無音ＧＭＭとクリーン音声ＧＭＭのパラメータと、雑音モデルパラメータを受け取り、これらの値を用いて、音響信号の対数メルスペクトルＯ_ｔの確率モデルのパラメータを以下のように生成する（ｓ６０１）。

次に、雑音抑圧フィルタ推定手段５０１は、音声非存在／存在確率Ｐ^（ｉ） _ｔ，ｊと事後確率Ｐ_{ｔ，ｊ，ｋ，ｌ}とを、求めた対数メルスペクトルＯ_ｔの確率モデルのパラメータと対数メルスペクトルＯ_ｔとを用いて計算する（ｓ６０２）。

次に、雑音抑圧フィルタ推定手段５０１は、無音ＧＭＭのパラメータとクリーン音声ＧＭＭのパラメータと雑音モデルパラメータと音声非存在／存在確率Ｐ^（ｉ） _ｔ，ｊと事後確率Ｐ_{ｔ，ｊ，ｋ，ｌ}とを用いて、メル周波数軸上での雑音抑圧フィルタＷ^Ｍｅｌ _ｔ，ｒを次式のように推定する（ｓ６０３）。

上式はベクトルの要素毎の表記である。

次に、雑音抑圧フィルタ推定手段５０１は、メル周波数軸上での雑音抑圧フィルタＷ^Ｍｅｌ _ｔ，ｒを線形周波数軸上での雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍに変換し（ｓ６０４）、雑音抑圧フィルタ適用手段５０２に出力する。なお、変換は３次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定することにより行う。

（雑音抑圧フィルタ適用手段５０２）
雑音抑圧フィルタ適用手段５０２は図１０に示す流れで処理を行う。雑音抑圧フィルタ適用手段５０２は、雑音抑圧フィルタ推定手段５０１から雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍを受け取り、音響特徴抽出部１０４から受け取った複素数スペクトルＳｐｃ_ｔに対して雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル＾Ｓ_ｔ，ｍを得る（ｓ７０１）。

上式はベクトルの要素毎の表記である。

次に、雑音抑圧フィルタ適用手段５０２は、複素数スペクトル＾Ｓ_ｔ，ｍに対して逆高速フーリエ変換を適用することにより、フレームｔにおける雑音抑圧信号＾ｓ_ｔ，ｎを得る（ｓ７０２）。

次に、雑音抑圧フィルタ適用手段５０２は、各フレームの雑音抑圧信号＾ｓ_ｔ，ｎを次式のように窓関数ｗ_ｎを解除しながら連結して連続した雑音抑圧信号＾ｓ_τを得て（ｓ７０３）、これを雑音抑圧装置１００の出力値として出力する。

＜効果＞
このような構成とすることで、雑音信号のみが存在する時間区間における雑音信号だけでなく、雑音信号と音声信号とが何れも存在する時間区間における雑音信号を学習データとして利用できる。言い換えると、音声信号の存在有無に関わらず、雑音信号を学習データとして利用できる。これにより、より多くの雑音信号の変化や特徴を雑音信号の確率モデルに反映することができ、より正確に雑音信号をモデル化し、高精度に雑音抑圧を実施することができる。なお、推定された雑音信号には誤差が含まれる可能性があるが、確率モデルの推定においては、学習データの統計的な性質を推定してモデル化を行っているため、誤差の問題は致命的な問題とならない。

また、非特許文献１では、収音された音響信号全体を用いて、ＥＭアルゴリズムにより音響信号の確率モデルを最適化する方法が開示されているが、音響信号に含まれる雑音信号の特徴が定常的かつ、その分布（頻度分布もしくは確率分布）が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴を持ち、その分布は多峰性であることが多い。そのため、非特許文献１記載の技術では、非定常的な特徴を持ち、その分布が多峰性である雑音信号に対応できず、十分な雑音抑圧性能が得られない場合がある。

本実施形態においては、雑音信号の分布が単峰性ではなく、多峰性であるという前提に基づいて、雑音信号の確率モデルを単一の正規分布ではなく、ＧＭＭにて表現し、雑音信号の確率モデルをＥＭアルゴリズムにより推定している。このような構成とすることで、非定常的な特徴を持ち、その分布が多峰性である雑音信号を適切にモデル化することができ、雑音信号を効果的に抑圧することができる。なお、非定常的な特徴を持ち、その分布が多峰性である雑音信号をモデル化しようとすると、単峰性である雑音信号をモデル化しようとする場合よりもモデルが複雑となり、必要なデータが多くなるが、上述の通り、本実施形態においては、音声信号の存在有無に関わらず、雑音信号を学習データとして利用できるため、多くのデータを取得することができ、最適な雑音抑圧フィルタを設計することができる。

よって、本実施形態のような構成とすることで、様々な雑音が存在する環境であっても音響信号より雑音信号を抑圧して目的とする音声信号を高品質で取り出すことができる。

［シミュレーション結果］
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。

本実験では、評価用データには、IPA（Information-technology promotion agency, Japan) -98-TestSetのうち、男性２３名が発声したデータ１００文を用いており、これらの音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれＳ／Ｎ比０ｄＢ、５ｄＢ、１０ｄＢにて計算機上で重畳した。すなわち、雑音三種類×Ｓ／Ｎ比三種類の九種類の評価データを作成した。それぞれの音声データは、サンプリング周波数１６，０００Ｈｚ、量子化ビット数１６ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、１フレームの時間長を２０ｍｓ（Ｆｒａｍｅ＝３２０サンプル点）とし、１０ｍｓ（Ｓｈｉｆｔ＝１６０サンプル点）毎にフレームの始点を移動させて、音響特徴抽出部１０４を適用した。

無音ＧＭＭ、クリーン音声ＧＭＭには、Ｒ＝２４次元の対数メルスペクトルを音響特徴量とする混合分布数Ｋ＝１２８のＧＭＭを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。雑音ＧＭＭの混合分布数Ｌは、１、２、３、４の４種類の値を与え、それぞれの場合の結果を比較する。

性能の評価は音声認識により行い、評価尺度は次式の単語誤り率ＷＥＲで行った。

上式のＮは総単語数、Ｄは脱落誤り単語数、Ｓは置換誤り単語数、Ｉは挿入誤り単語数であり、ＷＥＲの値が小さい程音声認識性能が高いことを示す。

音声認識は、有限状態トランスデューサーに基づく認識器（T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365）により行い、音響モデルには話者独立のＴｒｉｐｈｏｎｅＨＭＭを用いており、各ＨＭＭの構造は３状態のＬｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭであり、各状態は１６の正規分布を持つ。ＨＭＭ全体の状態数は２，０００である。音声認識の音響特徴量は、１フレームの時間長を２０ｍｓ（Ｆｒａｍｅ＝３２０）とし、１０ｍｓ（Ｓｈｉｆｔ＝１６０サンプル点）毎にフレームの始点を移動させて分析した１２次元のＭＦＣＣ（Mel-frequency cepstral coefficient）、対数パワー値、各々の１次及び２次の回帰係数を含む合計３９次元のベクトルである。また、言語モデルにはＴｒｉ−ｇｒａｍを用い、語彙数は２０，０００単語である。

図１１は、雑音モデルの推定例であり、８０１〜８０５は、それぞれ、非特許文献１に開示された方法と、本発明（Ｌ＝１，２，３，４）とによる雑音モデルの推定結果を示しており、８番目のメルフィルタ（中心周波数１，０２２Ｈｚ）から得られた雑音の対数メルスペクトルの分布を示している。各図において、破線は、雑音の対数メルスペクトルのヒストグラム、実線は各手法により推定された雑音の確率モデルの形状、点線は雑音ＧＭＭを構成する、各要素分布の形状を示している。縦軸は、正規化された頻度、もしくは確率を示しており、横軸は８番目のメルフィルタから得られた雑音メルスペクトルの値を示している。

図１１の結果より、本発明により、非特許文献１に開示された方法に比べて、雑音の対数メルスペクトルのヒストグラムに近い形状の雑音確率モデルが推定できることが明らかとなった。特に、８０４（Ｌ＝３）と、８０５（Ｌ＝４）との結果は、雑音の対数メルスペクトルのヒストグラムとほぼ同等の形状を示している。

図１２は、音声信号の波形と、入力音響信号の波形（空港ロビー雑音、Ｓ／Ｎ比０ｄＢ）と、本発明（Ｌ＝１，２，３，４）による雑音抑圧信号の波形で、本発明により効果的に雑音が抑圧されていることが分かる。

また、図１３は、雑音抑圧の結果を示す。非特許文献１に開示された方法と、本発明（Ｌ＝１，２，３，４）とによる音声認識の評価結果を示している。図１３の結果から、本発明により従来技術に比べて高い性能を得られることが明らかとなった。

＜その他の実施形態＞
上記実施形態において、音響特徴抽出部１０４のフレーム切り出し処理ｓ２０１にて窓関数ｗ_ｎにはハミング窓以外に方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。

上記実施形態において、記憶部に予め記憶される音声モデルとして、無音ＧＭＭ、クリーン音声ＧＭＭの代わりに、ＨＭＭ（Hidden Markov model）等の他の確率モデルを用いてもよい。また、記憶部に記憶される音声モデルとして、無音ＧＭＭ、クリーン音声ＧＭＭの２つのＧＭＭだけでなく、より多くのＧＭＭを用いてもよい。例えば、無音ＧＭＭ、無声音ＧＭＭ、有声音ＧＭＭや、音素毎のＧＭＭを用いてもよい。

上記実施形態において、雑音ＧＭＭの代わりに、雑音モデルとしてＨＭＭ等の他の確率モデルを用いてもよい。このとき、ＨＭＭの各状態を混合正規分布（ＧＭＭ）等で表現すれば、第一実施形態と同様に分布が多峰性である雑音信号をモデル化することができる。

上記実施形態において、雑音抑圧フィルタ推定手段５０１の雑音抑圧フィルタ推定処理ｓ６０３にて、重み付け平均ではなく、最大の重みを持つ推定結果をそのまま使用してもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。

上記実施形態において、各部、各手段間で直接信号を入出力しているが、図示しない記憶部に格納しておき、記憶部を介して信号を受け渡しを行う構成としてもよい。

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述した雑音抑圧装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置（各種実施例で図に示した機能構成をもつ装置）として機能させるためのプログラム、またはその処理手順（各実施例で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

本発明は、自動音声認識の前段において、音響信号から雑音を抑圧し、雑音抑圧信号を用いて自動音声認識に利用することができる。また、ＴＶ会議システム等の通話システムや録音システムにおいて、受信または収録した音響信号から雑音信号を抑圧する際に利用することができる。

Claims

雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧装置であって、
フレームごとの前記音響信号の音響特徴Ｏ _ｔ（ｔはフレーム番号）を抽出する音響特徴抽出部と、
雑音を含まない音声信号の確率モデル（以下「音声モデル」という）が記憶される記憶部と、
前記フレームごとの音響信号の音響特徴Ｏ _ｔと前記音声モデルを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル（以下「雑音モデル」という）を教師無し学習する雑音モデル推定部と、
音声モデルと雑音モデルを用いて前記音響信号の雑音信号を抑圧する雑音抑圧部と、を含み、
前記雑音モデル推定部は、
音響特徴Ｏ _ｔの確率モデルの尤度をｂ _Ｏ，ｊ ^（ｉ）（Ｏ _ｔ）とし、多次元正規分布の確率密度関数をＮ（・）とし、前記フレームごとの音響信号の音響特徴Ｏ _ｔの確率モデルを

としたときの当該確率モデルのパラメータである混合重みｗ ^（i） _{Ｏ，ｊ，ｋ，ｌ} と平均ベクトルμ ^（i） _{Ｏ，ｊ，ｋ，ｌ} と対角分散行列Σ ^（i） _{Ｏ，ｊ，ｋ，ｌ} とを、前記音声モデルのパラメータを用いて計算する確率モデル生成手段と、
前記音響特徴Ｏ _ｔの確率モデルのパラメータである混合重みｗ ^（i） _{Ｏ，ｊ，ｋ，ｌ} と平均ベクトルμ ^（i） _{Ｏ，ｊ，ｋ，ｌ} と対角分散行列Σ ^（i） _{Ｏ，ｊ，ｋ，ｌ} とを用いて、

と、

により事後確率であるＰ ^（i） _ｔ，ｊとＰ ^（i） _{ｔ，ｊ、ｋ、ｌ} を計算する第一期待値計算手段と、
前記事後確率Ｐ ^（ｉ） _ｔ，ｊと前記事後確率Ｐ ^（ｉ） _{ｔ，ｊ，ｋ，ｌ} と前記音響信号の音響特徴Ｏ _ｔと前記音響特徴Ｏ _ｔの確率モデルのパラメータである平均ベクトルμ ^（i） _{Ｏ，ｊ，ｋ，ｌ} とを用いて、

により前記フレームごとの音響信号に含まれる雑音信号の特徴量を計算する雑音信号推定手段と、
複数フレームについて計算された前記フレームごとの雑音信号の特徴量を学習データとして、前記雑音モデルのパラメータを推定する雑音モデルパラメータ推定手段と、を含み、
前記音響信号を用いて、前記音響特徴Ｏ _ｔの確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで確率モデル生成手段と第一期待値計算手段と雑音信号推定手段と雑音モデルパラメータ推定手段の処理を繰り返す、
雑音抑圧装置。
請求項１記載の雑音抑圧装置であって、
雑音信号の特徴量をＮ ^（i） _ｔとし、前記雑音モデルパラメータ推定手段は、雑音モデルのパラメータである混合重みｗ ^（ii） _N，ｌ、平均ベクトルμ ^（ii） _N，ｌ及び対角分散行列Σ ^（ii） _N，ｌを用いて、

である事後確率Ｐ ^（ii） _ｔ，ｊを計算する第二期待値計算手段と、

により雑音モデルのパラメータを計算するパラメータ更新手段と、
を含む、
雑音抑圧装置。
請求項１または２記載の雑音抑圧装置であって、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記雑音モデル推定部は、前記雑音モデルを教師無し学習する、
雑音抑圧装置。
雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧方法であって、
フレームごとの前記音響信号の音響特徴Ｏ _ｔ（ｔはフレーム番号）を抽出する音響特徴抽出ステップと、
前記フレームごとの音響信号の音響特徴Ｏ _ｔと雑音を含まない音声信号の確率モデル（以下「音声モデル」という）を用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル（以下「雑音モデル」という）を教師無し学習する雑音モデル推定ステップと、
雑音モデルを用いて前記音響信号の雑音信号を抑圧する雑音抑圧ステップと、を含み
前記雑音モデル推定ステップは、
音響特徴Ｏ _ｔの確率モデルの尤度をｂ _Ｏ，ｊ ^（ｉ）（Ｏ _ｔ）とし、多次元正規分布の確率密度関数をＮ（・）とし、前記フレームごとの音響信号の音響特徴Ｏ _ｔの確率モデルを

としたときの当該確率モデルのパラメータである混合重みｗ ^（i） _{Ｏ，ｊ，ｋ，ｌ} と平均ベクトルμ ^（i） _{Ｏ，ｊ，ｋ，ｌ} と対角分散行列Σ ^（i） _{Ｏ，ｊ，ｋ，ｌ} とを、前記音声モデルのパラメータを用いて計算する確率モデル生成サブステップと、
前記音響特徴Ｏ _ｔの確率モデルのパラメータである混合重みｗ ^（i） _{Ｏ，ｊ，ｋ，ｌ} と平均ベクトルμ ^（i） _{Ｏ，ｊ，ｋ，ｌ} と対角分散行列Σ ^（i） _{Ｏ，ｊ，ｋ，ｌ} とを用いて、

と、

により事後確率であるＰ ^（i） _ｔ，ｊとＰ ^（i） _{ｔ，ｊ、ｋ、ｌ} を計算する第一期待値計算サブステップと、
前記事後確率Ｐ ^（ｉ） _ｔ，ｊと前記事後確率Ｐ ^（ｉ） _{ｔ，ｊ，ｋ，ｌ} と前記音響信号の音響特徴Ｏ _ｔと前記音響特徴Ｏ _ｔの確率モデルのパラメータである平均ベクトルμ ^（i） _{Ｏ，ｊ，ｋ，ｌ} とを用いて、

により前記フレームごとの音響信号に含まれる雑音信号の特徴量を計算する雑音信号推定サブステップと、
複数フレームについて計算された前記フレームごとの雑音信号の特徴量を学習データとして、前記雑音モデルのパラメータを推定する雑音モデルパラメータ推定サブステップと、を含み、
前記音響信号を用いて、前記音響特徴Ｏ _ｔの確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで確率モデル生成サブステップと第一期待値計算サブステップと雑音信号推定サブステップと雑音モデルパラメータ推定サブステップの処理を繰り返す、
を含む雑音抑圧方法。
請求項４記載の雑音抑圧方法であって、
雑音信号の特徴量をＮ^（i） _ｔとし、前記雑音モデルパラメータ推定サブステップは、雑音モデルのパラメータである混合重みｗ^（ii） _N，ｌ、平均ベクトルμ^（ii） _N，ｌ及び対角分散行列Σ^（ii） _N，ｌを用いて、

である事後確率Ｐ^（ii） _ｔ，ｊを計算する第二期待値計算サブステップと、

により雑音モデルのパラメータを計算するパラメータ更新サブステップと、
を含む、
雑音抑圧方法。
請求項４または５記載の雑音抑圧方法であって、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記雑音モデル推定ステップにおいて、前記雑音モデルを教師無し学習する、
雑音抑圧方法。
請求項１から３記載の雑音抑圧装置として、コンピュータを機能させるためのプログラム。