JP5731929B2 - 音声強調装置とその方法とプログラム - Google Patents

音声強調装置とその方法とプログラム Download PDF

Info

Publication number
JP5731929B2
JP5731929B2 JP2011172939A JP2011172939A JP5731929B2 JP 5731929 B2 JP5731929 B2 JP 5731929B2 JP 2011172939 A JP2011172939 A JP 2011172939A JP 2011172939 A JP2011172939 A JP 2011172939A JP 5731929 B2 JP5731929 B2 JP 5731929B2
Authority
JP
Japan
Prior art keywords
channel
feature
speech
clean speech
clean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011172939A
Other languages
English (en)
Other versions
JP2013037177A (ja
Inventor
ソウデン メレツ
ソウデン メレツ
慶介 木下
慶介 木下
中谷 智広
智広 中谷
マーク デルクロア
マーク デルクロア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011172939A priority Critical patent/JP5731929B2/ja
Publication of JP2013037177A publication Critical patent/JP2013037177A/ja
Application granted granted Critical
Publication of JP5731929B2 publication Critical patent/JP5731929B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、雑音やチャネル歪(音響歪み)を伴った音響信号から、音響歪みを取り除いた信号を特徴量領域で抽出する音声強調装置と、その方法とプログラムに関する。
雑音やチャネル歪みのある環境で音響信号を収音すると、本来の信号に音響歪みが重畳された信号として観測される。ここで雑音とは、加法性があるものである。また、チャネル歪みとは、乗法性の雑音であり特にフレーム長より短い時間に生じる歪みのことである。その音響信号が音声の場合、重畳した音響歪みの影響により音声の明瞭性は大きく低下してしまう。明瞭性が低下することにより、本来の音声信号の性質を抽出することが困難となり、自動音声認識(以下、音声認識)システムの認識率も著しく低下する。この認識率の低下を防ぐためには、重畳した音響歪みを取り除く工夫(方法)が必要である。
この音響歪みを取り除く方法は、音声認識の他にも、例えば、機械制御インターフェースにおける機械と人間との対話装置、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。
図8に、従来の音声強調装置800の機能構成例を示してその動作を簡単に説明する。音声強調装置800は、特徴量抽出部81と、音響歪みパラメータ推定部82と、クリーン音声ガウス混合分布記憶部83と、クリーン音声特徴量推定部84と、を具備する。特徴量抽出部81は、入力信号を特徴量に変換する。音響歪みパラメータ推定部82は、その特徴量と、クリーン音声ガウス混合分布記憶部83に記憶された混合ガウス分布モデルを用いて、入力信号に含まれる音響歪みに関するパラメータを最尤推定する。クリーン音声特徴量推定部84は、最尤推定したパラメータと入力信号の特徴量を用いてクリーン音声特徴量の最小二乗誤差推定を行う。この方法によれば、入力信号から効果的に音響歪みの影響を取り除いて、入力信号を強調することが可能となる。
P. J. Moreno, "Speech Recognition in Noisy Environments," PhD thesis, Carnegie Mellon University, 1996.
しかし、従来の特徴量を用いた音声強調方法では、音響歪みパラメータ推定に空間情報を用いる考えが無かったので、入力信号が1チャネルであることが通常であった。その結果、パラメータ推定の精度が不十分である課題があった。
この発明は、このような課題に鑑みてなされたものであり、入力信号を多チャネル化することで空間情報を利用可能とし、十分なパラメータ推定精度が得られる特徴量領域で動作する音声強調装置と、その方法とプログラムを提供することを目的とする。
この発明の音声強調装置は、特徴量抽出部と、クリーン音声ガウス混合分布記憶部と、音響歪みパラメータ推定部と、クリーン音声特徴量推定部と、を具備する。特徴量推定部は、多チャネル音響信号を観測信号とし、それぞれのチャネルの音響信号の特徴量を抽出する。クリーン音声ガウス混合分布記憶部は、クリーン音声の混合ガウス分布を記憶する。音響歪みパラメータ推定部は、多チャネルの観測信号の特徴量と、クリーン音声ガウス混合モデルを入力として、上記観測信号に含まれる加法性雑音成分とチャネル応答歪みに関する音響歪みパラメータを最尤推定する。クリーン音声特徴量推定部は、多チャネルの観測信号の特徴量と、音響歪みパラメータ推定部で推定した音響歪みパラメータと、クリーン音声ガウス混合モデルを入力として、観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定する。
この発明の音声強調装置によれば、チャネル間情報(空間情報)を用いることで、クリーン音声の推定精度を向上させることが出来る。評価実験で確認した具体的な効果については後述する。
この発明の音声強調装置100の機能構成例を示す図。 音声強調装置100の動作フローを示す図。 特徴量抽出部10の動作フローを示す図。 音響歪みパラメータ推定部30の機能構成例を示す図。 音響歪みパラメータ推定部30の動作フローを示す図 クリーン音声特徴量推定部40の機能構成例を示す図。 クリーン音声特徴量推定部40の動作フローを示す図。 従来の雑音除去装置800の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、各信号についてモデル化と定義を行う。
〔モデル化と定義〕
観測信号の特徴量を、つまり観測信号を、対数メルスペクトル領域で式(1)に示すようにモデル化する。
Figure 0005731929
n,t(p)はn番目のマイクロホンでの観測信号特徴量、S(p)はクリーン音声特徴量べクトルのp番目の要素、Vn,t(p)はn番目のマイクロホンで観測される加法性雑音の成分、Qn,t(p)はn番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分である。tは時間フレームのインデックスである。また、f(a,b,c)は式(2)で定義されるものである。
Figure 0005731929
観測信号y、雑音信号v、チャネル応答成分q、クリーン音声sについて以下のようにベクトルと行列表現を用いる。なお、観測信号yは全チャネルを表し、yn,tはマイクロホン番号ごとの観測信号である。この関係は雑音信号vとチャネル応答成分qについても同様である。
Figure 0005731929
クリーン音声を用いた事前学習で得られるガウス混合モデルを式(4)に示すように定義する。
Figure 0005731929
ここでKは混合数を表し、cはk番目のガウス分布に対する混合重みを表す。平均μs,k=[τs,k(1)...τs,k(P)]、共分散行列Σss,k、混合重みcは、すべて事前学習時にクリーン音声から学習される。また、共分散行列Σss,kとしては、対角成分以外の成分はゼロである対角共分散を仮定した。
式(1)を用いれば、観測信号について精度の高いモデル化が行われるが、この非線形な観測モデルをそのまま用いると、音響歪みパラメータの推定が非常に複雑になる。複雑なパラメータ推定を回避するために、1次のテーラー展開を用いて式(1)を近似する。
はじめに、加法性雑音成分vを単一ガウス分布と仮定し、分散Σvv及び平均μ=[μ v1...μ vN]と仮定する。ここでμvnはμvn=[τvn(1)...τvn(P)]である。これらの定義を用いると、(μ,μs,k,q)における観測信号yの1次のテーラー展開は式(5)のように表される。
Figure 0005731929
ここでINP×PはNP×P次元の行列であり、そのn番目(n=1,…,N)の行列内のブロックはP×P次元の単位行列からなる。INP×Pの次元に注目すると、P×PのN倍の次元であることが分かり、すべてのマイクロホン信号が考慮されたモデル化が行われていることが分かる。クリーン音声sに関する1次のテーラー展開係数D(s) もNP×P次元の構造を持つ。チャネル応答成分qに関する1次のテーラー展開係数D(q) と、雑音信号に関する1次のテーラー展開係数D(v) は、NP×NP次元のブロック対角行列である。gは補正項であり、式(6)で定義される。
Figure 0005731929
この実施例では、雑音に関する項の共分散行列については、周波数間での相関はゼロと仮定し、その対角要素のみを考慮した。対角要素については後述する。対角成分を考慮することで、効果的にチャネル間情報を用いることが可能となる。
図1に、この発明の音声強調装置100の機能構成例を示す。その動作フローを図2に示す。音声強調装置100は、特徴量抽出部10と、クリーン音声ガウス混合分布記憶部20と、音響歪みパラメータ推定部30と、クリーン音声特徴量推定部40と、制御部50と、を具備する。音声強調装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
特徴量抽出部10は、多チャネル音響信号を観測信号とし、それぞれのチャネルの音響信号の特徴量を抽出する(ステップS10)。クリーン音声ガウス混合分布記憶部20は、クリーン音声の混合ガウス分布を記憶する。
音響歪みパラメータ推定部30は、特徴量抽出部10が出力する多チャネルの観測信号の特徴量と、クリーン音声ガウス混合分布記憶部20に記憶されたクリーン音声ガウス混合モデルを入力として、観測信号に含まれる加法性雑音成分とチャネル応答歪みに関する音響歪みパラメータを最尤推定する(ステップS30)。
クリーン音声特徴量推定部40は、特徴量抽出部10が出力する多チャネルの観測信号の特徴量と、音響歪みパラメータ推定部30で推定した音響歪みパラメータと、クリーン音声ガウス混合分布記憶部20に記憶されたクリーン音声ガウス混合モデルを入力として、観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定する(ステップS40)。制御部50は、上記した各部間の時系列的な動作等を制御するものである。
以上述べたように動作することで、音声強調装置100は、チャネル間情報を用いたクリーン音声特徴量の推定精度を向上させることが出来る。
以降において、音声強調装置100の各部の機能を更に詳しく説明する。
〔特徴量抽出部〕
特徴量抽出部10は、クリーン音声に雑音とチャネル歪みが重畳した観測信号を、複数(N個)のマイクロホンで収音した多チャネルの音響信号を入力として、それぞれの音響信号から対数スペクトルを抽出するものであり、マイクロホンの数に対応した複数の特徴量抽出部10〜10で構成される。その動作フローを図3に示す。
観測信号は、例えば30ms程度の短時間ハミング窓で窓かけされる(ステップS10a)。それぞれ窓かけされた観測信号は離散フーリエ変換を経てパワースペクトルに変換される(ステップS10c)。パワースペクトルに変換された観測信号は、その後、各周波数で対数スペクトルの観測信号特徴量Y1,t(p)〜YN,t(p)に変換される(ステップS10d)。
〔音響歪みパラメータ推定部〕
音響歪みパラメータ推定部30は、チャネル応答成分qと、加法性雑音成分vの平均μと、その共分散Σvvを、期待値最大化法を用いて最尤推定する。加法性雑音成分の共分散Σvvには、複数チャネル間の相互関係を表す空間情報が含まれている。空間情報とは、式(7)の行列中のσn,m(n≠m)を指す。
Figure 0005731929
期待値最大化法(EMアルゴリズムとも称する)では、一般的に初期パラメータλ={μ,Σvv,q}を基に、λを変化させ尤度関数を最大化することを行う。そして、この尤度関数の最大化は、以下の補助関数Qを繰り返し最大化することで行う。
Figure 0005731929
ここで、補助関数Qは、初期パラメータλが固定という仮定のもとでの最適化対象λの関数であることを表している。また、SとVは、時間フレーム1〜Tまでのクリーン音声と加法性雑音それぞれの特徴量からなる。Tは各発話のフレーム数であり、Kはガウス混合モデルのインデックスの集合を表す。Kは混合数を表す。
加法性雑音とチャネル応答成分に関する項は、最終的にはEMアルゴリズムの中で一緒に推定されるものではあるが、ここでは説明の都合上、各要素の推定に関して別々に説明を行う。
まず、加法性雑音に関するパラメータ推定について説明する。補助関数Qの計算のために、加法性雑音に関する項としては観測信号に関する事後確率p(k|y,λ)、雑音の確率分布p(V|Σvvμ)、雑音の事後分布p(V|y,k,λ)の計算が必要になる。これらの項の計算を行うことで、加法性雑音に関する最適パラメータμ Σvv を推定することが可能となる。以下に、加法性雑音に関する項を計算するための式の導出を行う。
はじめに、観測信号に関する確率密度関数p(y|k,λ)は、平均μy,k、共分散Σyy,kを持つガウス分布であることを利用する。そうすることで、観測信号に関する事後確率p(k|y,λ)は次式で求めることができる。
Figure 0005731929
ここで、kはすべてのチャネル間で共通のクリーン音声に関するパラメータであることに注意すると、複数のマイクロホンを用いることで、上記事後確率p(k|y,λ)の推定に用いることのできる情報量が増えることが分かる。より多くの情報量に基づき事後確率の推定が行われるため、事後確率の推定精度を向上させる効果が期待できる。
次に、雑音の確率分布p(V|Σvvμ)もガウス分布であることを考慮すると、雑音の事後分布p(V|y,k,λ)もガウス分布であることが分かる。このガウス分布の平均と分散の計算のためには、結合分布[y ]の平均と分散が、以下のように与えられることを利用する。
Figure 0005731929
ここで、Σyy,kは式(11)で表され、Σvy,kは式(12)で表せる。
Figure 0005731929
上記の結合分布を考慮すると、雑音に関する事後分布p(V|y,k,λ)は、以下の平均と分散を持つガウス分布となる。
Figure 0005731929
非特許文献1ではΣyy,kの逆行列計算が必要となるが、この行列はランクPとなり、1ch処理(つまり、N=1)の場合のみにフルランクとなる。しかし、この実施例では多チャネル(N>1)での定式化を行っているため、この行列はランク落ちとなり、逆行列計算が困難となる。
上記した2つの式は、非正則行列の逆行列計算を伴わないため、多チャネル処理により適した定式化である。
ここでp(y|v,k,q)とcは、Σvvμとは独立であるため、雑音に関する最適パラメータμ Σvv は式(15)、式(16)のようにそれぞれ求めることができる。式(15)と式(16)は、補助関数Q(λ,λ)をそれぞれの変数に関して偏微分し、勾配をゼロとすることで導出される。
Figure 0005731929
次に、チャネル応答に関する項に関するパラメータ推定について説明する。チャネル応答パラメータの最適値を求めるためには、観測の事後分布p(y|v,k,q)が以下の平均と共分散Σyy,kを持つガウス分布であることを利用する。
Figure 0005731929
ここで共分散行列Σyy,kは非正則であるため、チャネル応答パラメータの最適値qは、補助関数Qをqついて最大化するだけでは、一意に求めることはできない。そこで、チャネル応答パラメータの最適値 の推定には、各チャネルごとに補助関数を補助関数Qと同様の形で定義し、以下の式を導出した。ここで、 は各チャネルごとのチャネル応答パラメータの推定値である。
Figure 0005731929
ここで、Σynyn,kは、以下の可逆な行列となる。
Figure 0005731929
また、μvn,k(yn,t,λ)は次式で定義される。
Figure 0005731929
図4に、音響歪みパラメータ推定部30の機能構成例を示す。その動作フローを図5に示す。音響歪みパラメータ推定部30は、雑音成分分解手段31と、チャネル応答成分分解手段32と、クリーン音声成分分解手段33と、期待値計算手段34と、最大化手段35と、を具備する。
最初に、音響歪みパラメータの更新された加法性雑音成分の平均ベクトルμの初期値を雑音成分分解手段31に設定する。と共に、更新されたクリーン音声特徴量ベクトルqの初期値をチャネル応答成分分解手段32に設定する。雑音に関する項μとΣyyの初期値は、観測信号中の最もエネルギーの小さい部分から推定した。また、qについては、ランダムな初期値を与える(ステップS30)。
雑音成分分解手段31は、更新された加法性雑音成分の平均ベクトルμを、マイクロホン毎の特徴量領域のスカラー量τvn(p)(μvn=[τvn(1)...τvn(P)])に分解する。nは1〜N、pは1〜Pである。チャネル応答成分分解手段32は、更新されたクリーン音声特徴量ベクトルqを、n番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分Q(p)に分解する。クリーン音声成分分解手段33は、クリーン音声ガウス混合分布記憶部20に記憶されたクリーン音声ガウス混合分布の平均ベクトルμs,kを、特徴量領域のスカラー量τs,k(p)(μs,k=[τs,k(1)...τs,k(P)])に分解する(ステップS31〜S32)。
期待値計算手段34は、雑音成分分解手段31とチャネル応答成分分解手段32とクリーン音声成分分解手段33の出力する特徴量領域のそれぞれのスカラー量を入力として、クリーン音声の特徴量と加法性雑音の特徴量とチャネル応答成分の特徴量とでモデル化した観測信号を、テーラー展開したそれぞれの特徴量に関する1次のテーラー展開係数D (s),D (q),D (v)と観測信号に関する事後確率p(k|y,λ)の期待値を計算する(ステップS33)。事後確率p(k|y,λ)は、上記した式(9)で計算する。
クリーン音声sに関する1次のテーラー展開係数D (s)は、NP×P次元の構造を持つ、n番目の行列内のブロックであるP×P次元の行列Dn,k (s)の中のp番目(p=1,…,P)の対角要素は、式(21)で与えられる。
Figure 0005731929
ここで、Q0n(p)は、テーラー展開の展開点のチャネル応答成分である。
チャネル応答成分qに関する1次のテーラー展開係数D (q)と加法性雑音成分μに関する1次のテーラー展開係数D (v)は、NP×NP次元のブロック対角行列であり、n番目のブロック対角要素はP×P次元の対角行列Dn,k (q),Dn,k (v)であり、その中のp番目(p=1,…,P)の対角要素は、式(22)と式(23)で与えられる。
Figure 0005731929
ここで、f(・)は各要素ごとに作用する関数である。また、以下の仮定を用いている。
Figure 0005731929
期待値計算手段34の処理は、全てのガウス分布k(混合数K)について行われる。
最大化手段34は、期待値計算手段33で計算された1次のテーラー展開係数D (s),D (q),D (v)と事後確率p(k|y,λ)を入力として、雑音に関する最適パラメータμ Σvv を上記した式(15)と式(16)を用いて更新する。それと同時に、チャネル応答パラメータの最適値 も上記した式(18)を用いて更新する(ステップS340)。
更新されたパラメータμΣvv、は、ベクトル成分分解手段31と32と、期待値計算手段34に出力(帰還)され、補助関数の値が十分に最大化され、パラメータが最適値(μ Σvv )に十分に近づくまで(ステップS341の収束)、ステップS31〜S340の処理が繰り返される。
なお、1次のテーラー展開係数を用いる例で説明を行ったが、より高次のテーラー展開係数を用いても良い。計算は複雑になるが、パラメータの推定精度の向上が期待できる。
〔クリーン音声特徴量推定部〕
図6に、クリーン音声特徴量推定部40の機能構成例を示す。その動作フローを図7に示す。クリーン音声特徴量推定部40は、音声強調フィルタ算出手段41と音声強調フィルタ処理手段42を備える。
音声強調フィルタ算出手段41は、特徴量抽出部10が出力する観測信号の特徴量Y1,t(p)〜YN,t(p)と、音響歪みパラメータ推定部30が出力する音響歪みパラメータμ Σvv と1次のテーラー展開係数D (s),D (q),D (v)と、クリーン音声ガウス混合分布記憶部20にされたクリーン音声の統計量μs,kss,kとを、入力として特徴量領域の多チャネルウィナーフィルタHを次式を用いて算出する(ステップS41)。
Figure 0005731929
ここでΣyy,kは式(29)で計算される。補正項gは上記した式(6)で計算される。
Figure 0005731929
音声強調フィルタ処理手段42は、ウィナーフィルタHと、観測信号の特徴量Y1,t(p)〜YN,t(p)と、1次のテーラー展開係数D (s),D (q),D (v)と、クリーン音声ガウス混合分布記憶部20にされたクリーン音声の統計量μs,kとを、入力としてクリーン音声特徴量の最小二乗誤差推定値^sを音声強調済み特徴量として計算する(ステップS42)。
クリーン音声特徴量の最小二乗誤差推定値^sは式(30)で表せる。
Figure 0005731929
ここで、クリーン音声特徴量sの分布はガウス混合モデルで与えられることを考慮すると、クリーン音声特徴量の最小二乗誤差推定値^sは次式で与えられる。
Figure 0005731929
ここで、μy,kは式(25)のように計算される。
この実施例では、空間情報を明示的に含むパラメータΣvvが、多チャネルウィナーフィルタHを計算するために用いるパラメータΣyy,kの計算に用いられるため、ウィナーフィルタによるクリーン音声推定精度が向上する。さらに、式(31)に使われているp(k|y)も、音響歪みパラメータ推定部30で空間情報を用いてより精度良く推定されているため、クリーン音声特徴量推定の精度が向上する。
〔評価実験〕
この発明の音声強調装置100の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
評価には、TI-Digitデータベースを用いた数字認識実験を用いた。標本化周波数は8kHzとした。音響モデルの学習には、TI-Digitデータベースから得られるクリーン音声8440文を用いた。音響モデルは話者非依存とし、各単語について18状態からなる隠れマルコフモデルを用いた。各状態でのガウス混合モデルの混合数は3とした。特徴量としては、13次のメル周波数ケプストラム(MFCC)にそのΔ成分とΔΔ成分を加えた39次元のMFCC特徴量を用いた。これらの設定は一般的な実験で広く用いられている設定に倣ったものである。
この発明の音声強調方法は、特徴量領域で行うが、特徴量領域としては対数メルスペクトル領域を用いた。事前学習でのガウス混合モデルの学習には、音声認識の音響モデル学習に用いたデータと同じTI-Digitデータベースから得られるクリーン音声8440文を用いた。ガウス混合モデルの混合数は、K=256とした。音声強調後の処理音声は対数スペクトル領域の信号であるため、処理後の音声は、音声認識の事前学習時と同様の処理手順を用いて、39次元のMFCC特徴量に変換した。音響歪みパラメータ推定部30のEMアルゴリズムの繰り返し回数は最大10回とした。
2チャネルの評価用観測信号の作成には、学習で用いられていないTI-Digitデータベースの評価用クリーン音声1001文を用いた。これらのクリーン音声を、実測されたRWCPデータベースの2種類の室内インパルス応答(それぞれ残響時間0秒と、0.31秒)に畳み込み、2つの残響条件を模擬し、その後、この残響音声に、AURORA-2データベースに含まれるノイズ区間、若しくは定常白色雑音を、いくつかのSNR条件(0,5,10,15,20dB)で足し合わせた。実験条件としては、合計20種類(2残響条件×2雑音条件×5SNR条件)の異なる雑音残響環境を模擬した。
表1〜4に、各雑音、残響条件での実験結果(単語正解精度)を示した。表中のベースラインは、音声強調処理を行わずに観測信号をそのまま認識した場合の単語正解精度である。従来法1及び2は、各々のマイク観測信号に異なる従来法を適用して音声強調を行い、処理信号を認識した場合の単語正解精度である。
チャネル間情報(空間情報)を用いるこの発明の音声強調方法が高い認識性能を示し、この発明の有効性を確認することが出来た。
Figure 0005731929
Figure 0005731929
Figure 0005731929
Figure 0005731929

上記した音声強調装置100における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 多チャネル音響信号を観測信号とし、チャネルごとの観測信号の特徴量を抽出する特徴量抽出部と、
    クリーン音声ガウス混合モデルを記憶するクリーン音声ガウス混合分布記憶部と、
    上記チャネルごとの観測信号の特徴量と、上記クリーン音声ガウス混合モデルとを入力として、上記チャネルごとの観測信号の特徴量に含まれる当該チャネルの加法性雑音成分を特定するパラメータと上記チャネルごとのチャネル応答歪みを特定するパラメータとを含む音響歪みパラメータを最尤推定する音響歪みパラメータ推定部と、
    上記チャネルごとの観測信号の特徴量と、上記音響歪みパラメータ推定部で推定した音響歪みパラメータと、上記クリーン音声ガウス混合モデルを入力として、上記観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定するクリーン音声特徴量推定部と、
    を具備し、
    上記加法性雑音成分を特定するパラメータは、当該パラメータに含まれる雑音の事後分布の平均および分散を表す項に複数の上記チャネル間の相互関係を表す上記チャネルごとの加法性雑音成分の共分散を含み、
    上記雑音の事後分布の平均および分散は、上記チャネルごとの観測信号と上記チャネルごとの加法性雑音成分との結合分布の平均と分散に基づいて算出されるガウス分布の平均および分散であり、
    上記最尤推定は、上記加法性雑音成分を特定するパラメータを、上記雑音の事後分布の平均および分散に基づいて推定する処理を含む
    ことを特徴とする音声強調装置。
  2. 請求項1に記載した音声強調装置において、
    上記音響歪みパラメータ推定部は、
    更新された加法性雑音成分の平均ベクトル ̄μを、マイクロホン毎の特徴量領域のスカラー量τvn(p)に分解する雑音成分分解手段と、
    更新されたチャネル応答成分ベクトル ̄qを、n番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分Q(p)に分解するチャネル応答成分分解手段と、
    クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声ガウス混合分布の平均ベクトルμs,kを、特徴量領域のスカラー量τs,k(p)に分解するクリーン音声成分分解手段と、
    雑音信号とチャネル応答成分とクリーン音声ガウス混合分布の上記特徴量領域のスカラー量と上記観測信号の特徴量を入力として、クリーン音声の特徴量と加法性雑音の特徴量とチャネル応答成分の特徴量とでモデル化した観測信号を、テーラー展開したそれぞれの特徴量に関するテーラー展開係数と上記観測信号に関する事後確率の期待値を計算する期待値計算手段と、
    上記期待値計算手段で計算した上記テーラー展開係数と上記事後確率を入力として、上記更新された加法性雑音成分の平均ベクトル ̄μと共分散 ̄Σvvと上記更新されたチャネル応答成分ベクトル ̄qとをさらに更新させ、上記加法性雑音成分の平均ベクトル ̄μを上記雑音成分分解手段に、上記チャネル応答成分ベクトル ̄qを上記チャネル応答成分分解手段に、上記共分散 ̄Σvvを上記期待値計算手段に、それぞれ帰還する処理を、それらの値が最大化するまで繰り返す最大化手段と、
    を備えたことを特徴とする音声強調装置。
  3. 請求項1又は2に記載した音声強調装置において、
    上記クリーン音声特徴量推定部は、
    上記特徴量抽出部が出力する観測信号の特徴量Y1,t(p)〜YN,t(p)と、上記音響歪みパラメータ推定部が出力する音響歪みパラメータμ,Σvv,qと上記テーラー展開係数D (s),D (q),D (v)と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μs,k,Σss,kを入力として、特徴量領域の多チャネルウィナーフィルタHを算出する音声強調フィルタ算出手段と、
    上記多チャネルウィナーフィルタHと、上記観測信号の特徴量Y1,t(p)〜YN,t(p)と、上記テーラー展開係数D (s),D (q),D (v)と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μs,kとを入力として、クリーン音声特徴量の最小二乗誤差推定値^sを音声強調済み特徴量として計算する音声強調フィルタ処理手段と、
    を備えたことを特徴とする音声強調装置。
  4. 多チャネル音響信号を観測信号とし、チャネルごとの観測信号の特徴量を抽出する特徴量抽出過程と、
    上記チャネルごとの観測信号の特徴量と、クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声ガウス混合モデルとを入力として、上記チャネルごとの観測信号の特徴量に含まれる当該チャネルの加法性雑音成分を特定するパラメータと上記チャネルごとのチャネル応答歪みを特定するパラメータとを含む音響歪みパラメータを最尤推定する音響歪みパラメータ推定過程と、
    上記チャネルごとの観測信号の特徴量と、上記音響歪みパラメータ推定部で推定した音響歪みパラメータと、上記クリーン音声ガウス混合モデルを入力として、上記観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定するクリーン音声特徴量推定過程と、
    を含み、
    上記加法性雑音成分を特定するパラメータは、当該パラメータに含まれる雑音の事後分布の平均および分散を表す項に複数の上記チャネル間の相互関係を表す上記チャネルごとの加法性雑音成分の共分散を含み、
    上記雑音の事後分布の平均および分散は、上記チャネルごとの観測信号と上記チャネルごとの加法性雑音成分との結合分布の平均と分散に基づいて算出されるガウス分布の平均および分散であり、
    上記最尤推定は、上記加法性雑音成分を特定するパラメータを、上記雑音の事後分布の平均および分散に基づいて推定する処理を含む
    ことを特徴とする音声強調方法。
  5. 請求項4に記載した音声強調方法において、
    上記音響歪みパラメータ推定過程は、
    更新された加法性雑音成分の平均ベクトル ̄μを、マイクロホン毎の特徴量領域のスカラー量τvn(p)に分解する雑音成分分解ステップと、
    更新されたチャネル応答成分ベクトル ̄qを、n番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分Q(p)に分解するチャネル応答成分分解ステップと、
    クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声ガウス混合分布の平均ベクトルμs,kを、特徴量領域のスカラー量τs,k(p)に分解するクリーン音声成分分解ステップと、
    雑音信号とチャネル応答成分とクリーン音声ガウス混合分布の上記特徴量領域のスカラー量と上記観測信号の特徴量を入力として、クリーン音声の特徴量と加法性雑音の特徴量とチャネル応答成分の特徴量とでモデル化した観測信号を、テーラー展開したそれぞれの特徴量に関するテーラー展開係数と上記観測信号に関する事後確率の期待値を計算する期待値計算ステップと、
    上記期待値計算ステップで計算した上記テーラー展開係数と上記事後確率を入力として、上記更新された加法性雑音成分の平均ベクトル ̄μと共分散 ̄Σvvと上記更新されたチャネル応答成分ベクトル ̄qとをさらに更新させ、上記加法性雑音成分の平均ベクトル ̄μを上記雑音成分分解ステップに、上記チャネル応答成分ベクトル ̄qを上記チャネル応答成分分解ステップに、上記共分散 ̄Σvvを上記期待値計算ステップに、それぞれ帰還する処理を、それらの値が最大化するまで繰り返す最大化ステップと、
    を含むことを特徴とする音声強調方法。
  6. 請求項4又は5に記載した音声強調方法において、
    上記クリーン音声特徴量推定過程は、
    上記特徴量抽出過程が出力する観測信号の特徴量Y1,t(p)〜YN,t(p)と、上記音響歪みパラメータ推定過程が出力する音響歪みパラメータμ,Σvv,qと上記テーラー展開係数D (s),D (q),D (v)と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μs,k,Σss,kを入力として、特徴量領域の多チャネルウィナーフィルタHを算出する音声強調フィルタ算出ステップと、
    上記多チャネルウィナーフィルタHと、上記観測信号の特徴量Y1,t(p)〜YN,t(p)と、上記テーラー展開係数D (s),D (q),D (v)と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μs,kとを入力として、クリーン音声特徴量の最小二乗誤差推定値^sを音声強調済み特徴量として計算する音声強調フィルタ処理ステップと、
    を含むことを特徴とする音声強調方法。
  7. 請求項1乃至3の何れかに記載した音声強調装置としてコンピュータを機能させるためのプログラム。
JP2011172939A 2011-08-08 2011-08-08 音声強調装置とその方法とプログラム Active JP5731929B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011172939A JP5731929B2 (ja) 2011-08-08 2011-08-08 音声強調装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011172939A JP5731929B2 (ja) 2011-08-08 2011-08-08 音声強調装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2013037177A JP2013037177A (ja) 2013-02-21
JP5731929B2 true JP5731929B2 (ja) 2015-06-10

Family

ID=47886832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011172939A Active JP5731929B2 (ja) 2011-08-08 2011-08-08 音声強調装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP5731929B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151052B (zh) * 2020-10-26 2024-06-25 平安科技(深圳)有限公司 语音增强方法、装置、计算机设备及存储介质
CN113689870A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 一种多通道语音增强方法及其装置、终端、可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011004503A1 (ja) * 2009-07-08 2011-01-13 株式会社日立製作所 雑音除去装置及び雑音除去方法

Also Published As

Publication number Publication date
JP2013037177A (ja) 2013-02-21

Similar Documents

Publication Publication Date Title
Hasan et al. CRSS systems for 2012 NIST speaker recognition evaluation
JP4774100B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
KR20200145219A (ko) 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
JP4977062B2 (ja) 残響除去装置とその方法と、そのプログラムと記録媒体
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JP2004279466A (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
Nakamura et al. A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech.
JP5351856B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
JP4960933B2 (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
JP5731929B2 (ja) 音声強調装置とその方法とプログラム
JP5438704B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム
Sose et al. Sound Source Separation Using Neural Network
JP4977100B2 (ja) 残響除去装置、残響除去方法、そのプログラムおよび記録媒体
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Sehr et al. Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
Dimitriadis et al. An Investigation on the Use of i-Vectors for Robust ASR.
Reyes-Gomez et al. Multi-channel source separation by beamforming trained with factorial hmms
Das et al. Robust speaker verification using GFCC and joint factor analysis
Vannicola et al. Mitigation of reverberation on speaker identification via homomorphic filtering of the linear prediction residual
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム
JP5885686B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140402

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141014

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150108

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150410

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5731929

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150