JP5713818B2 - 雑音抑圧装置、方法及びプログラム - Google Patents

雑音抑圧装置、方法及びプログラム Download PDF

Info

Publication number
JP5713818B2
JP5713818B2 JP2011142230A JP2011142230A JP5713818B2 JP 5713818 B2 JP5713818 B2 JP 5713818B2 JP 2011142230 A JP2011142230 A JP 2011142230A JP 2011142230 A JP2011142230 A JP 2011142230A JP 5713818 B2 JP5713818 B2 JP 5713818B2
Authority
JP
Japan
Prior art keywords
noise
signal
model
acoustic
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011142230A
Other languages
English (en)
Other versions
JP2013007975A (ja
Inventor
雅清 藤本
雅清 藤本
渡部 晋治
晋治 渡部
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011142230A priority Critical patent/JP5713818B2/ja
Publication of JP2013007975A publication Critical patent/JP2013007975A/ja
Application granted granted Critical
Publication of JP5713818B2 publication Critical patent/JP5713818B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は入力音響信号に含まれる雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。
処理対象とする音声信号や、音声信号以外の信号(以下「雑音信号」という)を含む音響信号から音声信号を聞き取りやすくするために雑音信号を抑制する従来技術が知られている。特に、自動音声認識技術を実際の環境で利用する場合においては、正しく音声認識を行うために、音響信号から雑音信号を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。
非特許文献1が雑音抑圧に係る従来技術として知られている。非特許文献1は、予め推定した音声信号と雑音信号の確率モデルから音響信号の確率モデルを生成し、確率モデルと音響信号全体の統計量との差分をテイラー展開で表現する。EMアルゴリズム(以下「期待値最大化法」ともいう)を用いてその差分を推定し音響信号の確率モデルを最適化する。その後、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている。
P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylorseries approach for environment-independent speech recognition", in Proceedings of ICASSP '96, May 1996, vol. II, pp. 733-736
従来技術において雑音信号の確率モデルを推定するためには、雑音信号のみの学習データが必要となる。しかし、通常、雑音抑圧を行う際に観測可能な信号は、雑音信号と音声信号が混合された音響信号のみであり、雑音信号のみを単独で観測することは難しい。このため、従来技術では、音声信号が存在せず、雑音信号のみが存在する時間区間を推定することにより雑音信号のみの学習データを得ていた。しかしながら、このような方法では、音声信号が存在する時間区間における雑音信号を学習データとして利用することができず、当該区間で発生した雑音信号の変化や特徴を雑音信号の確率モデルに反映することができない。そのため、雑音信号の分布を正確に推定、表現することが難しい。
本発明は、音声信号の存在有無に関わらず、雑音信号を学習データとして利用し、より多くの雑音信号の変化や特徴を雑音信号の確率モデルに反映することができ、より正確に雑音信号を抑圧することができる雑音抑圧技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する。音響信号の音響特徴を抽出する。雑音を含まない音声信号の確率モデル(以下「音声モデル」という)と音響信号の音響特徴とを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル(以下「雑音モデル」という)を教師無し学習する。雑音モデルを用いて音響信号の雑音信号を抑圧する。
本発明に係る雑音抑圧技術は、より正確に雑音信号を抑圧することができるという効果を奏する。
雑音抑圧装置100の機能ブロック図。 雑音抑圧装置100の処理フローを示す図。 音響特徴抽出部104の処理フローを示す図。 雑音モデル推定部105の機能ブロック図。 雑音モデル推定部105の処理フローを示す図。 雑音モデルパラメータ推定手段306の機能ブロック図。 雑音モデルパラメータ推定手段306の処理フローを示す図。 雑音抑圧部106の機能ブロック図。 雑音抑圧フィルタ推定手段の処理フローを示す図。 雑音抑圧フィルタ適用手段の処理フローを示す図。 本発明による雑音モデルの推定例を示す図。 本発明による雑音抑圧例を示す図。 本発明による音響信号に含まれる音声信号に対する雑音抑圧信号を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「」は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態に係る雑音抑圧装置100>
図1及び図2を用いて第一実施形態に係る雑音抑圧装置100を説明する。
図1に示すように雑音抑圧装置100は、音響特徴抽出部104と、音声モデルを構成する無音GMM(混合正規分布:Gaussian mixture model)とクリーン音声GMMとが格納されるGMM記憶部107と、雑音モデル推定部105と、雑音抑圧部106とを含む。雑音抑圧装置100は、音声信号と雑音信号とが混合された音響信号oτを収録し、または、入力され、音響信号oτから雑音信号を抑圧した雑音抑圧信号^sτを出力する。但し、τは離散信号のサンプル点を表す。以下、本実施形態の概要を説明する。
図2に示すように音響特徴抽出部104は音響信号から雑音抑圧を実施するための複素数スペクトルと対数メルスペクトルとを抽出する(s104)。雑音モデル推定部105は対数メルスペクトルとGMM記憶部107で主記憶上に保持された無音GMMとクリーン音声GMMとを用いて雑音信号の確率モデル(以下「雑音モデル」という)である雑音GMMを推定する(s105)。雑音抑圧部106は、複素数スペクトルと、対数メルスペクトルと、無音GMMと、クリーン音声GMMと、雑音GMMとを用いて雑音抑圧フィルタを設計し、音響信号から雑音信号を抑圧して雑音抑圧信号を得る(s106)。以下、各部の詳細を説明する。
<音響特徴抽出部104>
音響特徴抽出部104は、音響信号の音響特徴を抽出する(s104)。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部104は、例えば、図3に示す流れで処理を行う。
まず、ある周波数(例えば16,000Hz)で標本化された音響信号oτを時間軸方向に一定時間幅(シフト幅)で始点を移動させながら、一定時間長(フレーム幅)の音響信号をフレームとして切り出す(s201)。例えばフレーム幅Frame=320個のサンプル点(16,000Hz×20ms)の音響信号o={ot,0,ot,1,…,ot,n,…,ot,319}を、シフト幅Shift=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。ここでtはフレーム番号、nはフレーム内のn番目のサンプル点を表す。フレーム単位の音響信号をoとし、以下のように表す。
ot={ot,0,ot,1,…,ot,n,…,ot,Frame-1}
なお、複数チャネルの音響信号を入力とする場合には、チャネル毎にフレームを切り出せばよい。また、フレームを切り出す際に、例えば以下のハミング窓のような窓関数wを掛け合わせて切り出してもよい。
Figure 0005713818
次に、音響特徴抽出部104は音響信号oに対してM点(但し、Mは2のべき乗、かつ、フレーム幅Frame以上の値を設定する必要があり、例えば512とする)の高速フーリエ変換処理を適用して、複素数スペクトルSpc={Spct,0,…,Spct,m,…,Spct,M−1}(但し、mは周波数ビンの番号である)を得る(s202)。
次に、音響特徴抽出部104は、Spct,mの絶対値に対してメルフィルタバンク分析を行い(s203)、フィルタバンクの出力に対し、対数化処理を適用する(s204)。このような処理により、R次元(例えばR=24)の対数メルスペクトルを要素に持つベクトル(以下、このベクトルを単に「対数メルスペクトル」という)O={Ot,0,…,Ot,r,…,Ot,R−1}を算出する。但しrはベクトルの要素番号を示す。すなわち、音響特徴抽出部104の出力は複素数スペクトルSpcと、対数メルスペクトルOとである。複素数スペクトルSpcは、雑音抑圧部106の入力となり、対数メルスペクトルOは、雑音モデル推定部105と、雑音抑圧部106との入力となる。
<GMM記憶部107>
図示しない記憶部には、雑音を含まない音声信号の確率モデル(以下「音声モデル」という)が予め記憶される。例えば、記憶部の一部であるGMM記憶部107には、音声モデルとして無音GMMとクリーン音声GMMが格納される。なお、無音GMMは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたGMMであり、クリーン音声GMMは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたGMMである。
無音GMM及びクリーン音声GMMは次式により与えられる。
Figure 0005713818
上式において、jは無音GMMと、クリーン音声GMMとを識別するインデックスであり、j=0は無音GMMを、j=1はクリーン音声GMMを示す。また、kは無音GMMもしくはクリーン音声GMMに含まれる正規分布の番号、Kは総正規分布数である(例えばK=128)。また、Sは雑音を含まない音声信号の対数メルスペクトルであり、bS,j(S)は無音GMMもしくはクリーン音声GMMの尤度である。なお、下付文字Sは、後述する雑音GMMや音声信号と雑音信号を含む音響信号のGMMとは異なる音響モデル(無音GMMまたはクリーン音声GMM等)に係る尤度やパラメータであることを示している。また、wS,j,kと、μS,j,kと、ΣS,j,kとは、それぞれ無音GMMもしくはクリーン音声GMMの混合重みと、平均ベクトルと、対角分散行列である。また、関数N(・)は、次式で与えられる多次元正規分布の確率密度関数である。
Figure 0005713818
一方、雑音モデルとして、雑音信号のGMM(以下「雑音GMM」という)を用いることができる。雑音GMMは次式により与えられる。
Figure 0005713818
上式において、lは雑音GMMに含まれる正規分布の番号、Lは総正規分布数である(例えばL=4)。また、Nは雑音の対数メルスペクトルであり、b(N)は、雑音GMMの尤度であり、wN,lと、μN,lと、ΣN,lとは、それぞれ雑音GMMの混合重みと、平均ベクトルと、対角分散行列である。以後、雑音GMMのパラメータセット(以下「雑音モデルパラメータ」ともいう)をλ={wN,l,μN,l,ΣN,l}と定義する。なお、下付文字Nは、雑音GMMに係る尤度やパラメータであることを示している。
非特許文献1では、雑音信号の特徴が定常的かつ、その分布が単峰性であるという前提のもとで雑音抑圧を行っている。一方、本実施形態では、雑音信号が、多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音モデルを単一の正規分布ではなく、GMMにて表現している。なお、後述の雑音モデル推定部105において、雑音モデルを教師無し学習する。
<雑音モデル推定部105>
雑音モデル推定部105は、対数メルスペクトルOと無音GMMとクリーン音声GMMとを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音GMMを教師無し学習する(s105)。本実施形態では、雑音信号そのものではなく、雑音信号の音響特徴(対数メルスペクトル)を推定し、これを用いて、雑音GMMを学習する。
例えば、雑音モデル推定部105において、雑音GMMは入れ子構造となった2種類のEMアルゴリズムにより推定する。以後、この2種類のEMアルゴリズムを、それぞれ第一EMアルゴリズム及び第二EMアルゴリズムと呼ぶこととする。EMアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation-step(E−step)と、コスト関数を最大化するMaximization-step(M−step)とを、収束条件を満たすまで繰り返すことによりパラメータを最適推定する。
第一EMアルゴリズムにおいて、音響信号を用いて、雑音信号と音声信号とを含む音響信号の確率モデル(以下「音響モデル」ともいう)の尤度が最大となるように、収束条件を満たすまで、後述する確率モデル生成処理(s303)と第一期待値計算処理(s304)と雑音信号推定処理(s305)と雑音モデルパラメータ推定処理(s306)とを繰り返す(図5参照)。
第二EMアルゴリズムは後述する雑音モデルパラメータ推定手段306において実施され、推定した雑音信号を用いて、雑音GMMの尤度が最大となるように、収束条件を満たすまで、後述する第二期待値計算処理(s403)と雑音GMMのパラメータ更新処理(s404)を繰り返す(図7参照)。
以下、図4及び図5を用いて雑音モデル推定部105の詳細を説明する。
雑音モデル推定部105は、例えば図4に示すように第一初期値推定手段302と確率モデル生成手段303と第一期待値計算手段304と雑音信号推定手段305と雑音モデルパラメータ推定手段306と第一収束判定手段307とを含む。
(第一初期値推定手段302)
まず第一初期値推定手段302は、第一EMアルゴリズムの繰り返し回数を示すインデックスiを初期化する(s301)。次に第一初期値推定手段302は、対数メルスペクトルOを受け取り、第一EMアルゴリズムにおける雑音モデルパラメータの初期値λ(i=0)={w(i=0) N,l,w(i=0) N,l,w(i=0) N,l}を次式により推定し(s302)、確率モデル生成手段303に出力する。但し、Aは初期値推定に要するフレーム数である(例えばA=10)。
Figure 0005713818
Figure 0005713818
Figure 0005713818
上式において、添え字(i)はi回目の繰り返し推定におけるパラメータであることを示す。なお、diagはかっこ内を要素とする対角行列を、上付き文字Tは転置を表す。
(確率モデル生成手段303)
確率モデル生成手段303は、雑音GMMとクリーン音声GMMと無音GMMとを用いて、音響モデルを生成する(s303)。例えば、確率モデル生成手段303は、i回目の繰り返し推定における雑音モデルパラメータλ(i)を第一初期値推定手段302または第一収束判定手段307から受け取り、無音GMMとクリーン音声GMMのパラメータ(wS,j,k,μS,j,k,ΣS,j,k)をGMM記憶部107から受け取り、これらの値を利用して、対数メルスペクトルOの確率モデルを以下のようなGMMで構成する。
Figure 0005713818
上式において、bO,j (i)(O)は、確率モデル生成手段303にて生成される(対数メルスペクトルOの)確率モデルの尤度であり、wO,j,k,l (i)とμO,j,k,l (i)とΣO,j,k,l (i)とは、雑音モデルパラメータλ(i)={w(i) N,l,μ(i) N,l,Σ(i) N,l}と、無音GMMもしくはクリーン音声GMMのパラメータ(wS,j,k,μS,j,k,ΣS,j,k)とから生成された対数メルスペクトルOの確率モデルの混合重みと、平均ベクトルと、対角分散行列とであり、次式で与えられる。
Figure 0005713818
Figure 0005713818
Figure 0005713818
Figure 0005713818
上式において、関数log(・)とexp(・)は、ベクトルの要素毎に演算を行う。また、1は全ての要素が1のベクトル、Iは単位行列、Hj,k,l (i)は、式(10)の関数h(・)のヤコビ行列である。なお、下付文字Oは、音声信号と雑音信号を含む音響信号のGMMに係る尤度やパラメータであることを示している。確率モデル生成手段303は、式(9)〜(12)で求めた音響モデルのパラメータであるwO,j,k,l (i)とμO,j,k,l (i)とΣO,j,k,l (i)とを第一期待値計算手段304に出力する。
(第一期待値計算手段304)
第一期待値計算手段304は、音響モデルのパラメータであるwO,j,k,l (i)とμO,j,k,l (i)とΣO,j,k,l (i)とを確率モデル生成手段303から受け取り、音響信号の対数メルスペクトルOを音響特徴抽出部104から受け取り、i回目の繰り返し推定における対数メルスペクトルOの確率モデルのコスト関数Q()の期待値を次式により計算する(E−step)(s304)。
Figure 0005713818
なお、上式において、O0:T−1={O,…,O,…,OT−1}であり、Tは対数メルスペクトルOの総フレーム数、P(i) t,jとP(i) t,j,k,lは、それぞれ次式で与えられるフレームtにおけるGMM種別j、もしくは正規分布番号kと、lとに対する事後確率である。特に、P(i) t,j=0を音声非存在確率、P(i) t,j=1を音声存在確率と定義する。
Figure 0005713818
Figure 0005713818
第一期待値計算手段304は、求めた第一期待値Qを第一収束判定手段307に、P(i) t,jとP(i) t,j,k,lとを雑音信号推定手段305に出力する。
(雑音信号推定手段305)
雑音信号推定手段305は、音響信号を用いて、雑音信号を推定する(s305)。例えば、雑音信号推定手段305は、P(i) t,jとP(i) t,j,k,lを第一期待値計算手段304から受け取り、音響信号の対数メルスペクトルOを音響特徴抽出部104から受け取り、雑音モデルパラメータλ(i)を更新するために用いる雑音信号の対数メルスペクトルN(i) を推定し、雑音モデルパラメータ推定手段306に出力する。雑音の対数メルスペクトルN(i) は、次式により推定される。
Figure 0005713818
(雑音モデルパラメータ推定手段306)
雑音モデルパラメータ推定手段306は、雑音信号の対数メルスペクトルN(i) を学習データとして、雑音モデルパラメータλ(i)を推定し(M−step)(s306)、推定した雑音モデルパラメータを第一収束判定手段307に出力する。雑音モデルパラメータλ(i)の具体的な推定方法については後述する。
(第一収束判定手段307)
第一収束判定手段307は、第一期待値計算手段304から第一期待値Qを受け取り、この値を用いて収束条件を満たすか否かを判定し(s307)、満たす場合はλ=λ(i)としλを出力し雑音モデル推定部105の処理を終了する。満たさない場合はλ(i)を確率モデル生成手段303に出力し、i←i+1(s308)として、繰り返し処理を行うように各部に制御信号を出力し、s303〜s306の処理を繰り返す。例えば、収束条件は、最新の第一期待値Q(O0:T−1,λ(i))と一つ前の第一期待値Q(O0:T−1,λ(i−1))との差が所定値以下である場合や、繰り返し回数iが所定値以上になった場合等とすることができる。例えば以下の式で表すことができる。
Figure 0005713818
であり、η=0.0001とする。
<雑音モデルパラメータ推定手段306の詳細>
雑音モデルパラメータ推定手段306は、例えば図6に示すように第二初期値推定手段402と第二期待値計算手段403とパラメータ更新手段404と第二収束判定手段405とを含む。雑音モデルパラメータ推定手段306は、図7に示す処理フローで処理を行い、雑音信号推定手段305で推定した雑音の対数メルスペクトルN(i) と、第二EMアルゴリズムにより、雑音モデルパラメータλ(i)を推定する。以下、図6及び図7を用いて雑音モデルパラメータ推定手段306の詳細を説明する。
(第二初期値推定手段402)
第二初期値推定手段402は、まず第二EMアルゴリズムの繰り返し回数を示すインデックスiiを初期化する(s401)。次に第二初期値推定手段402は、雑音の対数メルスペクトルN(i) を受け取り、この値を用いて、第二EMアルゴリズムにおける雑音モデルパラメータλ(ii)の初期値λ(ii=0)={w(ii=0) N,l(ii=0) N,l(ii=0) N,l}を次式により推定し、第二期待値計算手段403に出力する。
Figure 0005713818
Figure 0005713818
Figure 0005713818
Figure 0005713818
Figure 0005713818
上式において、添え字(ii)はii回目の繰り返し推定におけるパラメータであることを示す。また、GaussRand(・)は正規乱数の発生器である。
(第二期待値計算手段403)
第二期待値計算手段403は、雑音の対数メルスペクトルN(i) を雑音信号推定手段305から受け取り、第二EMアルゴリズムにおける雑音モデルパラメータλ(ii)を第二初期値推定手段402または第二収束判定手段405から受け取り、ii回目の繰り返し推定における雑音GMMのコスト関数Q()の期待値を次式により計算し(E−step)(s403)、第二収束判定手段405に出力する。
Figure 0005713818
上式において、N(i) 0:T−1={N(i) ,…,N(i) ,…,N(i) T−1}であり、P(ii) t,lは、次式で与えられるフレームtにおける正規分布番号lに対する事後確率である。
Figure 0005713818
第二期待値計算手段403は、求めたP(ii) t,lをパラメータ更新手段404に出力する。
(パラメータ更新手段404)
パラメータ更新手段404は、P(ii) t,lを受け取り、雑音の対数メルスペクトルN(i) を雑音信号推定手段305から受け取り、雑音モデルパラメータλ(ii)を次式により更新し(M−step)(s404)、更新した雑音モデルパラメータλ(ii)を第二収束判定手段405に出力する。
Figure 0005713818
Figure 0005713818
Figure 0005713818
(第二収束判定手段405)
第二収束判定手段405は、第二期待値計算手段403から第二期待値Qを受け取り、この値を用いて収束条件を満たすか否かを判定し(s405)、満たす場合はλ(i)=λ(ii)としλ(i)を出力し雑音モデルパラメータ推定手段306の処理を終了する。満たさない場合はλ(ii)を第二期待値計算手段403に出力し、ii←ii+1(s406)として、繰り返し処理を行うように各部に制御信号を出力し、s403、s404の処理を繰り返す。例えば、収束条件は、最新の第二期待値Q(O0:T−1,λ(i))と一つ前の第二期待値Q(O0:T−1,λ(i−1))との差が所定値以下である場合や、繰り返し回数iiが所定値以上になった場合等とすることができる。例えば以下の式で表すことができる。
Figure 0005713818
であり、η=0.0001とする。
<雑音抑圧部106>
雑音抑圧部106は、雑音GMMを用いて音響信号の雑音信号を抑圧する(s106)。例えば、図8に示すように雑音抑圧部106は、雑音抑圧フィルタ推定手段501と雑音抑圧フィルタ適用手段502を含む。雑音抑圧フィルタ推定手段501は音響信号の対数メルスペクトルOと、無音GMMとクリーン音声GMMのパラメータ{wS,j,k,μS,j,k,ΣS,j,k}と、雑音モデルパラメータλとを受け取り、雑音抑圧フィルタWLin t,mを推定する。雑音抑圧フィルタ適用手段502は、複素数スペクトルSpcと、雑音抑圧フィルタWLin t,mとを受け取り、雑音を抑圧して雑音抑圧信号^sτを得る。以下、各手段の詳細を説明する。
(雑音抑圧フィルタ推定手段501)
雑音抑圧フィルタ推定手段501は図9に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段501は、無音GMMとクリーン音声GMMのパラメータと、雑音モデルパラメータを受け取り、これらの値を用いて、音響信号の対数メルスペクトルOの確率モデルのパラメータを以下のように生成する(s601)。
Figure 0005713818
Figure 0005713818
Figure 0005713818
Figure 0005713818
次に、雑音抑圧フィルタ推定手段501は、音声非存在/存在確率P(i) t,jと事後確率Pt,j,k,lとを、求めた対数メルスペクトルOの確率モデルのパラメータと対数メルスペクトルOとを用いて計算する(s602)。
Figure 0005713818
Figure 0005713818
次に、雑音抑圧フィルタ推定手段501は、無音GMMのパラメータとクリーン音声GMMのパラメータと雑音モデルパラメータと音声非存在/存在確率P(i) t,jと事後確率Pt,j,k,lとを用いて、メル周波数軸上での雑音抑圧フィルタWMel t,rを次式のように推定する(s603)。
Figure 0005713818
上式はベクトルの要素毎の表記である。
次に、雑音抑圧フィルタ推定手段501は、メル周波数軸上での雑音抑圧フィルタWMel t,rを線形周波数軸上での雑音抑圧フィルタWLin t,mに変換し(s604)、雑音抑圧フィルタ適用手段502に出力する。なお、変換は3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定することにより行う。
(雑音抑圧フィルタ適用手段502)
雑音抑圧フィルタ適用手段502は図10に示す流れで処理を行う。雑音抑圧フィルタ適用手段502は、雑音抑圧フィルタ推定手段501から雑音抑圧フィルタWLin t,mを受け取り、音響特徴抽出部104から受け取った複素数スペクトルSpcに対して雑音抑圧フィルタWLin t,mを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル^St,mを得る(s701)。
Figure 0005713818
上式はベクトルの要素毎の表記である。
次に、雑音抑圧フィルタ適用手段502は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧信号^st,nを得る(s702)。
次に、雑音抑圧フィルタ適用手段502は、各フレームの雑音抑圧信号^st,nを次式のように窓関数wを解除しながら連結して連続した雑音抑圧信号^sτを得て(s703)、これを雑音抑圧装置100の出力値として出力する。
Figure 0005713818
Figure 0005713818
<効果>
このような構成とすることで、雑音信号のみが存在する時間区間における雑音信号だけでなく、雑音信号と音声信号とが何れも存在する時間区間における雑音信号を学習データとして利用できる。言い換えると、音声信号の存在有無に関わらず、雑音信号を学習データとして利用できる。これにより、より多くの雑音信号の変化や特徴を雑音信号の確率モデルに反映することができ、より正確に雑音信号をモデル化し、高精度に雑音抑圧を実施することができる。なお、推定された雑音信号には誤差が含まれる可能性があるが、確率モデルの推定においては、学習データの統計的な性質を推定してモデル化を行っているため、誤差の問題は致命的な問題とならない。
また、非特許文献1では、収音された音響信号全体を用いて、EMアルゴリズムにより音響信号の確率モデルを最適化する方法が開示されているが、音響信号に含まれる雑音信号の特徴が定常的かつ、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴を持ち、その分布は多峰性であることが多い。そのため、非特許文献1記載の技術では、非定常的な特徴を持ち、その分布が多峰性である雑音信号に対応できず、十分な雑音抑圧性能が得られない場合がある。
本実施形態においては、雑音信号の分布が単峰性ではなく、多峰性であるという前提に基づいて、雑音信号の確率モデルを単一の正規分布ではなく、GMMにて表現し、雑音信号の確率モデルをEMアルゴリズムにより推定している。このような構成とすることで、非定常的な特徴を持ち、その分布が多峰性である雑音信号を適切にモデル化することができ、雑音信号を効果的に抑圧することができる。なお、非定常的な特徴を持ち、その分布が多峰性である雑音信号をモデル化しようとすると、単峰性である雑音信号をモデル化しようとする場合よりもモデルが複雑となり、必要なデータが多くなるが、上述の通り、本実施形態においては、音声信号の存在有無に関わらず、雑音信号を学習データとして利用できるため、多くのデータを取得することができ、最適な雑音抑圧フィルタを設計することができる。
よって、本実施形態のような構成とすることで、様々な雑音が存在する環境であっても音響信号より雑音信号を抑圧して目的とする音声信号を高品質で取り出すことができる。
[シミュレーション結果]
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。
本実験では、評価用データには、IPA(Information-technology promotion agency, Japan) -98-TestSetのうち、男性23名が発声したデータ100文を用いており、これらの音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれS/N比0dB、5dB、10dBにて計算機上で重畳した。すなわち、雑音三種類×S/N比三種類の九種類の評価データを作成した。それぞれの音声データは、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、1フレームの時間長を20ms(Frame=320サンプル点)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて、音響特徴抽出部104を適用した。
無音GMM、クリーン音声GMMには、R=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=128のGMMを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。雑音GMMの混合分布数Lは、1、2、3、4の4種類の値を与え、それぞれの場合の結果を比較する。
性能の評価は音声認識により行い、評価尺度は次式の単語誤り率WERで行った。
Figure 0005713818
上式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程音声認識性能が高いことを示す。
音声認識は、有限状態トランスデューサーに基づく認識器(T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365)により行い、音響モデルには話者独立のTriphoneHMMを用いており、各HMMの構造は3状態のLeft−to−right型HMMであり、各状態は16の正規分布を持つ。HMM全体の状態数は2,000である。音声認識の音響特徴量は、1フレームの時間長を20ms(Frame=320)とし、10ms(Shift=160サンプル点)毎にフレームの始点を移動させて分析した12次元のMFCC(Mel-frequency cepstral coefficient)、対数パワー値、各々の1次及び2次の回帰係数を含む合計39次元のベクトルである。また、言語モデルにはTri−gramを用い、語彙数は20,000単語である。
図11は、雑音モデルの推定例であり、801〜805は、それぞれ、非特許文献1に開示された方法と、本発明(L=1,2,3,4)とによる雑音モデルの推定結果を示しており、8番目のメルフィルタ(中心周波数1,022Hz)から得られた雑音の対数メルスペクトルの分布を示している。各図において、破線は、雑音の対数メルスペクトルのヒストグラム、実線は各手法により推定された雑音の確率モデルの形状、点線は雑音GMMを構成する、各要素分布の形状を示している。縦軸は、正規化された頻度、もしくは確率を示しており、横軸は8番目のメルフィルタから得られた雑音メルスペクトルの値を示している。
図11の結果より、本発明により、非特許文献1に開示された方法に比べて、雑音の対数メルスペクトルのヒストグラムに近い形状の雑音確率モデルが推定できることが明らかとなった。特に、804(L=3)と、805(L=4)との結果は、雑音の対数メルスペクトルのヒストグラムとほぼ同等の形状を示している。
図12は、音声信号の波形と、入力音響信号の波形(空港ロビー雑音、S/N比0dB)と、本発明(L=1,2,3,4)による雑音抑圧信号の波形で、本発明により効果的に雑音が抑圧されていることが分かる。
また、図13は、雑音抑圧の結果を示す。非特許文献1に開示された方法と、本発明(L=1,2,3,4)とによる音声認識の評価結果を示している。図13の結果から、本発明により従来技術に比べて高い性能を得られることが明らかとなった。
<その他の実施形態>
上記実施形態において、音響特徴抽出部104のフレーム切り出し処理s201にて窓関数wにはハミング窓以外に方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。
上記実施形態において、記憶部に予め記憶される音声モデルとして、無音GMM、クリーン音声GMMの代わりに、HMM(Hidden Markov model)等の他の確率モデルを用いてもよい。また、記憶部に記憶される音声モデルとして、無音GMM、クリーン音声GMMの2つのGMMだけでなく、より多くのGMMを用いてもよい。例えば、無音GMM、無声音GMM、有声音GMMや、音素毎のGMMを用いてもよい。
上記実施形態において、雑音GMMの代わりに、雑音モデルとしてHMM等の他の確率モデルを用いてもよい。このとき、HMMの各状態を混合正規分布(GMM)等で表現すれば、第一実施形態と同様に分布が多峰性である雑音信号をモデル化することができる。
上記実施形態において、雑音抑圧フィルタ推定手段501の雑音抑圧フィルタ推定処理s603にて、重み付け平均ではなく、最大の重みを持つ推定結果をそのまま使用してもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。
上記実施形態において、各部、各手段間で直接信号を入出力しているが、図示しない記憶部に格納しておき、記憶部を介して信号を受け渡しを行う構成としてもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した雑音抑圧装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
本発明は、自動音声認識の前段において、音響信号から雑音を抑圧し、雑音抑圧信号を用いて自動音声認識に利用することができる。また、TV会議システム等の通話システムや録音システムにおいて、受信または収録した音響信号から雑音信号を抑圧する際に利用することができる。

Claims (7)

  1. 雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧装置であって、
    フレームごとの前記音響信号の音響特徴 (tはフレーム番号)を抽出する音響特徴抽出部と、
    雑音を含まない音声信号の確率モデル(以下「音声モデル」という)が記憶される記憶部と、
    前記フレームごとの音響信号の音響特徴 と前記音声モデルを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル(以下「雑音モデル」という)を教師無し学習する雑音モデル推定部と、
    音声モデルと雑音モデルを用いて前記音響信号の雑音信号を抑圧する雑音抑圧部と、を含み、
    前記雑音モデル推定部は、
    音響特徴O の確率モデルの尤度をb O,j (i) (O )とし、多次元正規分布の確率密度関数をN(・)とし、前記フレームごとの音響信号の音響特徴O の確率モデルを
    Figure 0005713818

    としたときの当該確率モデルのパラメータである混合重みw (i) O,j,k,l と平均ベクトルμ (i) O,j,k,l と対角分散行列Σ (i) O,j,k,l とを、前記音声モデルのパラメータを用いて計算する確率モデル生成手段と、
    前記音響特徴O の確率モデルのパラメータである混合重みw (i) O,j,k,l と平均ベクトルμ (i) O,j,k,l と対角分散行列Σ (i) O,j,k,l とを用いて、
    Figure 0005713818

    と、
    Figure 0005713818

    により事後確率であるP (i) t,j とP (i) t,j、k、l を計算する第一期待値計算手段と、
    前記事後確率P (i) t,j と前記事後確率P (i) t,j,k,l と前記音響信号の音響特徴O と前記音響特徴O の確率モデルのパラメータである平均ベクトルμ (i) O,j,k,l とを用いて、
    Figure 0005713818

    により前記フレームごとの音響信号に含まれる雑音信号の特徴量を計算する雑音信号推定手段と、
    複数フレームについて計算された前記フレームごとの雑音信号の特徴量を学習データとして、前記雑音モデルのパラメータを推定する雑音モデルパラメータ推定手段と、を含み、
    前記音響信号を用いて、前記音響特徴O の確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで確率モデル生成手段と第一期待値計算手段と雑音信号推定手段と雑音モデルパラメータ推定手段の処理を繰り返す、
    雑音抑圧装置。
  2. 請求項1記載の雑音抑圧装置であって、
    雑音信号の特徴量をN (i) とし、前記雑音モデルパラメータ推定手段は、雑音モデルのパラメータである混合重みw (ii) N,l 、平均ベクトルμ (ii) N,l 及び対角分散行列Σ (ii) N,l を用いて、
    Figure 0005713818

    である事後確率P (ii) t,j を計算する第二期待値計算手段と、
    Figure 0005713818

    Figure 0005713818

    Figure 0005713818

    により雑音モデルのパラメータを計算するパラメータ更新手段と、
    を含む、
    雑音抑圧装置。
  3. 請求項1または2記載の雑音抑圧装置であって、
    前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記雑音モデル推定部は、前記雑音モデルを教師無し学習する、
    雑音抑圧装置。
  4. 雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧方法であって、
    フレームごとの前記音響信号の音響特徴 (tはフレーム番号)を抽出する音響特徴抽出ステップと、
    前記フレームごとの音響信号の音響特徴 と雑音を含まない音声信号の確率モデル(以下「音声モデル」という)を用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル(以下「雑音モデル」という)を教師無し学習する雑音モデル推定ステップと、
    雑音モデルを用いて前記音響信号の雑音信号を抑圧する雑音抑圧ステップと、を含み
    前記雑音モデル推定ステップは、
    音響特徴O の確率モデルの尤度をb O,j (i) (O )とし、多次元正規分布の確率密度関数をN(・)とし、前記フレームごとの音響信号の音響特徴O の確率モデルを
    Figure 0005713818

    としたときの当該確率モデルのパラメータである混合重みw (i) O,j,k,l と平均ベクトルμ (i) O,j,k,l と対角分散行列Σ (i) O,j,k,l とを、前記音声モデルのパラメータを用いて計算する確率モデル生成サブステップと、
    前記音響特徴O の確率モデルのパラメータである混合重みw (i) O,j,k,l と平均ベクトルμ (i) O,j,k,l と対角分散行列Σ (i) O,j,k,l とを用いて、
    Figure 0005713818

    と、
    Figure 0005713818

    により事後確率であるP (i) t,j とP (i) t,j、k、l を計算する第一期待値計算サブステップと、
    前記事後確率P (i) t,j と前記事後確率P (i) t,j,k,l と前記音響信号の音響特徴O と前記音響特徴O の確率モデルのパラメータである平均ベクトルμ (i) O,j,k,l とを用いて、
    Figure 0005713818

    により前記フレームごとの音響信号に含まれる雑音信号の特徴量を計算する雑音信号推定サブステップと、
    複数フレームについて計算された前記フレームごとの雑音信号の特徴量を学習データとして、前記雑音モデルのパラメータを推定する雑音モデルパラメータ推定サブステップと、を含み、
    前記音響信号を用いて、前記音響特徴O の確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで確率モデル生成サブステップと第一期待値計算サブステップと雑音信号推定サブステップと雑音モデルパラメータ推定サブステップの処理を繰り返す、
    を含む雑音抑圧方法。
  5. 請求項記載の雑音抑圧方法であって、
    雑音信号の特徴量をN(i) とし、前記雑音モデルパラメータ推定サブステップは、雑音モデルのパラメータである混合重みw(ii) N,l、平均ベクトルμ(ii) N,l及び対角分散行列Σ(ii) N,lを用いて、
    Figure 0005713818

    である事後確率P(ii) t,jを計算する第二期待値計算サブステップと、
    Figure 0005713818

    Figure 0005713818

    Figure 0005713818

    により雑音モデルのパラメータを計算するパラメータ更新サブステップと、
    を含む、
    雑音抑圧方法。
  6. 請求項4または5記載の雑音抑圧方法であって、
    前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記雑音モデル推定ステップにおいて、前記雑音モデルを教師無し学習する、
    雑音抑圧方法。
  7. 請求項1から3記載の雑音抑圧装置として、コンピュータを機能させるためのプログラム。
JP2011142230A 2011-06-27 2011-06-27 雑音抑圧装置、方法及びプログラム Active JP5713818B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011142230A JP5713818B2 (ja) 2011-06-27 2011-06-27 雑音抑圧装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011142230A JP5713818B2 (ja) 2011-06-27 2011-06-27 雑音抑圧装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013007975A JP2013007975A (ja) 2013-01-10
JP5713818B2 true JP5713818B2 (ja) 2015-05-07

Family

ID=47675357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011142230A Active JP5713818B2 (ja) 2011-06-27 2011-06-27 雑音抑圧装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5713818B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140316775A1 (en) * 2012-02-10 2014-10-23 Mitsubishi Electric Corporation Noise suppression device
JP5997114B2 (ja) * 2013-08-14 2016-09-28 日本電信電話株式会社 雑音抑圧装置、雑音抑圧方法、およびプログラム
JPWO2015093025A1 (ja) * 2013-12-17 2017-03-16 日本電気株式会社 音声処理装置、音声処理方法、及び、音声処理プログラム
US10748551B2 (en) 2014-07-16 2020-08-18 Nec Corporation Noise suppression system, noise suppression method, and recording medium storing program
US20210065731A1 (en) * 2019-08-29 2021-03-04 Sony Interactive Entertainment Inc. Noise cancellation using artificial intelligence (ai)
CN113223505B (zh) * 2021-04-30 2023-12-08 珠海格力电器股份有限公司 模型训练、数据处理方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4856662B2 (ja) * 2008-02-29 2012-01-18 日本電信電話株式会社 雑音除去装置、その方法、そのプログラム及び記録媒体
JP5411936B2 (ja) * 2009-07-21 2014-02-12 日本電信電話株式会社 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体

Also Published As

Publication number Publication date
JP2013007975A (ja) 2013-01-10

Similar Documents

Publication Publication Date Title
EP1515305B1 (en) Noise adaption for speech recognition
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
US7457745B2 (en) Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
Liao et al. Uncertainty decoding for noise robust speech recognition
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
CN111951796B (zh) 语音识别方法及装置、电子设备、存储介质
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
Gales et al. Model-based approaches to handling additive noise in reverberant environments
JP5997114B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP2006349723A (ja) 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
JP7423056B2 (ja) 推論器および推論器の学習方法
Hachkar et al. A comparison of DHMM and DTW for isolated digits recognition system of Arabic language
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
WO2002023525A1 (en) Speech recognition system and method
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
Patlar et al. Triphone based continuous speech recognition system for turkish language using hidden markov model
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法
Mandel et al. Analysis-by-synthesis feature estimation for robust automatic speech recognition using spectral masks
Ramya et al. Analysis on MAP and MLLR based speaker adaptation techniques in speech recognition
Munteanu et al. Robust Romanian language automatic speech recognizer based on multistyle training
JP5885686B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、プログラム
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150310

R150 Certificate of patent or registration of utility model

Ref document number: 5713818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150