JP5966689B2 - 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム - Google Patents

音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム Download PDF

Info

Publication number
JP5966689B2
JP5966689B2 JP2012150743A JP2012150743A JP5966689B2 JP 5966689 B2 JP5966689 B2 JP 5966689B2 JP 2012150743 A JP2012150743 A JP 2012150743A JP 2012150743 A JP2012150743 A JP 2012150743A JP 5966689 B2 JP5966689 B2 JP 5966689B2
Authority
JP
Japan
Prior art keywords
noise
adaptation
acoustic model
unit
gaussian distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012150743A
Other languages
English (en)
Other versions
JP2014013324A (ja
Inventor
秀治 古明地
秀治 古明地
隆行 荒川
隆行 荒川
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012150743A priority Critical patent/JP5966689B2/ja
Publication of JP2014013324A publication Critical patent/JP2014013324A/ja
Application granted granted Critical
Publication of JP5966689B2 publication Critical patent/JP5966689B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音響モデルを雑音に適応させるための音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラムに関する。
音声認識装置の性能は、実運用における雑音の影響によって著しく劣化するため、耐雑音手法が必要となる。性能劣化の原因は、音響モデル学習時に用いられた音声信号(以下、学習データと記す。)と、実運用で認識対象となる音声信号(以下、テストデータと記す。)とが異なることにより生じる、音響モデルとテストデータとの間の不一致である。このような不一致を抑制することを目的とした音声認識向けの耐雑音手法として、モデル適応法がある。
モデル適応法は、テストデータが含む雑音の統計量(以下、雑音統計量という。)を音響モデルに反映させることで、音響モデルを構成する混合ガウス分布を、テストデータが作る分布に近づける。雑音の統計量は、例えば、雑音の特徴量の平均や分散である。モデル適応法として、例えば、VTS(Vector Taylor Series)適応法がある(例えば、非特許文献1参照。)。VTS適応法は、MFCC(Mel−Frequency Cepstral Coefficient)のような音響特徴量空間における、音声と雑音、雑音付加音声との関係を規定する非線形関数を1次テイラー近似し、クリーン音響モデル(学習データにクリーンな音声を使用して学習した音響モデル)を雑音に適応する。これにより、VTS適応法は、非線形関数から生じる複雑さを排除し、線形演算のみの低演算な雑音適応を行う。
しかし、VTS適応法では、分散が大きい、または、非線形性の影響が大きい領域に平均を持つガウス分布の雑音適応に際して、テイラー近似の誤差が大きくなり、適応精度を劣化させる。そこで、予め、適応する音響モデルのガウス分布の個数を認識時に必要とする個数よりも増やして学習しておく。これにより、各々のガウス分布の分散が小さくなり、線形近似による誤差を小さくすることができる。しかし、ガウス分布の個数を増やした音響モデルを予め用意することにより、計算量が増加してしまうことが短所となる。
ガウス分布の個数を増やした音響モデルを用意出来ない場合に、適応精度の劣化を抑える方法として、UT(Unscented Transform)適応法がある(例えば、特許文献1参照。)。UT適応法では、ガウス分布毎に「シグマポイント」と呼ばれるサンプルの集合を生成し、サンプル点毎に雑音適応し、雑音適応ガウス分布を生成する。サンプル点の生成は、ガウス分布の個数を増やす処理に準ずる。これにより、UT適応法は、ガウス分布の個数を増やした音響モデルが用意できない場合において、VTS適応法よりも高い精度で、音響モデルを雑音適応できる。
特開2010−078650号公報
A. Acero, L. Deng, T. Kristjansson, and J. Zhang, "HMM Adaptation using Vector Taylor Series for Noisy Speech Recognition", in Proc.ICSLP, Vol.3, pp. 869−872, 2000.
しかし、クリーン音響モデルを構成するガウス分布の中には、線形近似を用いた雑音適応をしても適応誤差が小さいものが存在する。このため、クリーン音響モデルの全てのガウス分布に対して、ガウス分布を増やしてVTS適応法を実施する方法や、シグマポイントを生成するUT適応法といった、高精度だが高演算量を必要とする方法を適用することは計算量の無駄である。
そこで、本発明は、適応精度を劣化させることなく、より低演算量で音響モデルを雑音適応することができる音響モデル適応装置および音響モデル適応方法および音響モデル適応プログラムを提供することを目的とする。
本発明による音響モデル適応装置は、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、雑音に適応する音響モデルを増やして雑音適応する第一の雑音適応部と、線形近似を用いて雑音適応する第二の雑音適応部と、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、第一の雑音適応部または第二の雑音適応部を選択する適応方式選択部とを備えたことを特徴とする。
本発明による音響モデル適応方法は、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応方法であって、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、選択に基づいて雑音適応を行うことを特徴とする。
本発明による音響モデル適応プログラムは、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置における音響モデル適応プログラムであって、コンピュータに、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、選択に基づいて雑音適応を行う処理を実行させることを特徴とする。
本発明によれば、高演算かつ高精度な方法と比較して同程度の適応精度で、つまり、適応精度を劣化させることなく、より低演算量で音響モデルを雑音適応することができる。
本発明による音響モデル適応装置の第1の実施形態における構成を示すブロック図である。 第1の実施形態における音響モデル適応装置の動作の一例を示すフローチャートである。 本発明による音響モデル適応装置の第2の実施形態における構成を示すブロック図である。 第2の実施形態における第一の雑音適応部の動作の一例を示すフローチャートである。 認識に用いるガウス分布集合と第一の雑音適応部で用いるガウス分布集合との関係を示す木構造の音響モデルの構成の一例を示す説明図である。 本発明による音響モデル適応装置の第3の実施形態における構成を示すブロック図である。 第3の実施形態における適応方式選択部303の動作の一例を示すフローチャートである。 本発明による音響モデル適応装置の最小構成を示すブロック図である。 本発明による音響モデル適応装置の他の最小構成を示すブロック図である。
実施形態1.
以下、本発明の第1の実施形態を図面を参照して説明する。
図1は、本発明による音響モデル適応装置の第1の実施形態における構成を示すブロック図である。図1に示すように、音響モデル適応装置100は、雑音統計量取得部101と、ガウス分布取得部102と、適応方式選択部103と、第一の雑音適応部104と、第二の雑音適応部105と、ガウス分布格納部106とを備える。
また、図1に示すように、音響モデル適応装置100は、音響モデル適応装置100が入力する情報を記憶するクリーン音響モデル記憶装置1および雑音統計量記憶装置2と接続される。また、音響モデル適応装置100は、音響モデル適応装置100が出力する情報を記憶する雑音適応音響モデル記憶装置3と接続される。
なお、雑音統計量取得部101、ガウス分布取得部102、適応方式選択部103、第一の雑音適応部104、第二の雑音適応部105およびガウス分布格納部106は、音響モデル適応装置100が備えるCPU等によって実現される。
図2は、第1の実施形態における音響モデル適応装置100の動作の一例を示すフローチャートである。
図2に示すように、雑音統計量取得部101が、雑音統計量記憶装置2から雑音統計量を取得する(ステップS101)。ガウス分布取得部102が、クリーン音響モデル記憶装置1からクリーン音響モデルを構成するガウス分布パラメータを一つずつ取得する(ステップS102)。適応方式選択部103が、ステップS101において取得された雑音統計量と、ステップS102において取得されたガウス分布パラメータとを基に、適応方式に第一の雑音適応部104の方式を用いるか、第二の雑音適応部105の方式を用いるか、を選択する(ステップS103)。つまり、第一の雑音適応部104と第二の雑音適応部105のどちらに雑音適応を実行させるか、を選択する。
適応方式選択部103が第一の雑音適応部104の方式を選択した場合は(ステップS103におけるYes)、第一の雑音適応部104が、ガウス分布パラメータを雑音適応する(ステップS104)。適応方式選択部103が第二の雑音適応部105の方式を選択した場合は(ステップS103におけるNo)、第二の雑音適応部105が、ガウス分布パラメータを雑音適応する(ステップS105)。
ガウス分布格納部106は、雑音適応したガウス分布パラメータ(以下、雑音適応音響モデルという。)を、雑音適応音響モデル記憶装置3に格納する(ステップS106)。
次に、本実施形態における音響モデル適応装置100が備える各構成要素の詳細について説明する。
まず、音響モデル適応装置100が入力する情報を記憶するクリーン音響モデル記憶装置1および雑音統計量記憶装置2、音響モデル適応装置100が出力する情報を記憶する雑音適応音響モデル記憶装置3の詳細を説明する。次に、音響モデル適応装置100の構成要素である、雑音統計量取得部101、ガウス分布取得部102、適応方式選択部103、第一の雑音適応部104、第二の雑音適応部105、ガウス分布格納部105の詳細を説明する。
クリーン音響モデル記憶装置1は、学習データにクリーンな音声を使用して学習したクリーン音響モデルを記憶する。以下、学習及び認識に用いる特徴量を、パワーに相当するC0特徴量を含むMFCC13次元とする。C0特徴量は、MFCC13次元の0次の要素である。なお、MFCC13次元、その一次動的成分(13次元)及び二次動的成分(13次元)で構成される計39次元のベクトルとしてもよい。なお、パワーに相当する特徴量を含めば、例示したものに限らずあらゆる特徴量を使用することができる。以下の説明で、クリーン音響モデルのガウス分布における平均と分散をそれぞれ次のように表す。
μx,i,Σx,i(i=1,…,N)
ここで、添え字xはクリーン音響モデルのパラメータであることを示す。添え字iはガウス分布の分布ID番号を示す。Nはクリーン音響モデルに含まれるガウス分布の総数を示す。
雑音統計量記憶装置2は、適応に用いる雑音の統計量を記憶する。本実施形態では、雑音統計量記憶装置2は、認識で用いるものと同じ特徴量領域における雑音の平均、分散を、雑音の統計量として記憶する。特徴量領域は、ある処理によって作られた特徴量の集合または空間をいう。以下の説明では、雑音の平均、分散をそれぞれ次のように表す。
μ,Σ
雑音適応音響モデル記憶装置3は、音響モデル適応装置100によって適応された雑音適応音響モデルを記憶する。以下の説明では、音響モデルの各ガウス分布パラメータである平均と分散とを次のように表す。
μy ̄,i,Σy ̄,i(i=1,…,N)
ここで、添え字y ̄( ̄は、yの上に付く。以下同じ。)は雑音適応音響モデルのパラメータであることを示す。添え字iはガウス分布の分布ID番号を示す。
雑音統計量取得部101は、雑音統計量記憶装置2に格納されている雑音統計量μ,Σを取得し、適応方式選択部103と、第一の雑音適応部104と、第二の雑音適応部105とに渡す。
ガウス分布取得部102は、クリーン音響モデル記憶装置1に格納されているクリーン音響モデルのN個のガウス分布パラメータμx,i,Σx,i(i=1,…,N)を一つずつ取得し適応方式選択部103に渡す。
適応方式選択部103は、ガウス分布取得部102と雑音統計量取得部101とからそれぞれ渡された、クリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}と雑音統計量{μ,Σ}とを比較する。適応方式選択部103は、比較の結果に応じて、ガウス分布パラメータ{μx,i,Σx,i}を、第一の雑音適応部104で雑音適応するべきか、第二の雑音適応部105で雑音適応するべきかを選択する。以下に示すように、当該比較は、スカラー関数Comp(μx,i,Σx,i,μ,Σ)を導入し、これが閾値Th以上の値か、閾値Th未満の値かを調べることで行う。
Figure 0005966689
式1を満たすとき、適応方式選択部103は、ガウス分布パラメータ{μx,i,Σx,i}を第二の雑音適応部105に渡す。
Figure 0005966689
式2を満たすとき、適応方式選択部103は、ガウス分布パラメータ{μx,i,Σx,i}を第一の雑音適応部104に渡す。
次に、Comp(μx,i,Σx,i,μ,Σ)の具体的な例を説明する。
適応方式を選択する場合、例えば、ガウス分布の平均μx,iと雑音の平均μとのC0特徴量の差分を調べればよい。このとき、ガウス分布の平均μx,iのC0特徴量、雑音の平均μのC0特徴量をそれぞれ、(μx,i、(μとすれば、比較関数は式3のようになる。
Figure 0005966689
これは、C0特徴量はパワーに関する特徴量であることと、音声と雑音のパワーの差の大きさは雑音付加音声を示す非線形関数の非線形の度合いに影響を与えることとを利用している。
また、適応方式を選択する場合に、ガウス分布の分散のC0特徴量を用いてもよい。これは、線形近似による適応誤差は適応するガウス分布の分散の大きさにも依存するためである。ここで、(f(x,n))を、雑音付加音声のC0特徴量を示す非線形関数とする(x,nは、それぞれ、音声、雑音の特徴量とする。)。なお、f(x,n)は、具体的には、式4のように示される。式4において、DはDCT行列を示し、D−1はDCT逆行列を示す。
Figure 0005966689
(f(x,n))のx=μx,i、n=μにおけるテイラー近似式のC0特徴量を、(f ̄μx,i,μ(x、n))と表す( ̄は、fの上に付く。μx,i,μはfの添え字を表す。以下同じ。)。ここで、f ̄μx,i,μは式5のように示される。
Figure 0005966689
式5におけるFは、f(x、n)のxに関する、x=μx,i、n=μにおけるヤコビアンを示す。ガウス分布の分散Σx,iから導出される、C0特徴量に関する2個のシグマポイントを、σ1,0=+√(Σx,i、σ2,0=−√(Σx,iとする。すると、比較関数は、式6のように示される。なお、(Σx,iは、0列目のベクトルとする。
Figure 0005966689
なお、式3、式6のComp(μx,i,Σx,i,μ,Σ)を、それぞれComp(μx,i,Σx,i,μ,Σ)、Comp(μx,i,Σx,i,μ,Σ)として、それぞれの線形和を比較関数としてもよい。式7は、そのときの比較関数を示す。w、wは重みを表す。
Figure 0005966689
また、式6に関して、C0特徴量以外の特徴量を用いてもよい。例えば、全ての特徴量を使うとすると、式8のように表すことができる。
Figure 0005966689
ここで、Jは特徴量の次元数を示し、σ1,j=+√(Σx,i、σ2,j=−√(Σx,iである。なお、(Σx,iは、行列Σx,iのj列目の列ベクトルを示す。なお、式1、2における最適な閾値Thや、式7における組み合わせ時の重みは、実験的に求めたものを使用してもよい。
第二の雑音適応部105は、VTS適応法を用いて、μy ̄,i,Σy ̄,iを出力する。特徴量をパワーに相当するC0特徴量を含むMFCC13次元としたときのVTS適応法による変換式は、以下のように表される。
Figure 0005966689
Figure 0005966689
第二の雑音適応部105は、{μy ̄,i,Σy ̄,i}を、ガウス分布格納部106に渡す。なお、一次動的特徴量に関するパラメータ{Δμx,i,ΔΣx,i}や二次動的特徴量{ΔΔμx,i,ΔΔΣx,i}に関するパラメータのVTS適応法による変換式は、以下のように表される。
Figure 0005966689
Figure 0005966689
Figure 0005966689
Figure 0005966689
ここで、ΔΣ,ΔΔΣは雑音の一次動的特徴量及び二次動的特徴量の分散を示す。
第一の雑音適応部104は、UT適応法を用いて、μy ̄,i,Σy ̄,iを出力する。特徴量をパワーに相当するC0特徴量を含むMFCC13次元としたときのUT適応法による変換式は、以下のように表される。
Figure 0005966689
Figure 0005966689
ここで、Sはシグマポイントを示し、式17のように表される。
Figure 0005966689
μs,i,Σs,iは式18のように表される。
Figure 0005966689
ここで、D=13である。また、(√Σ)は行列Σのk列目のベクトルを示す。そして、w=1/4Dである。そして、{μy ̄,i,Σy ̄,i}を、ガウス分布格納部106に渡す。なお、一次動的特徴量に関するパラメータ{Δμx,i,ΔΣx,i}や二次動的特徴量{ΔΔμx,i,ΔΔΣx,i}に関するパラメータのUT適応法による変換式は、以下のように表される。
Figure 0005966689
Figure 0005966689
Figure 0005966689
Figure 0005966689
F´は、式15におけるμy ̄,iのμx,iに関するヤコビアンを示す。
ガウス分布格納部106は、雑音適応したガウス分布パラメータ{μy ̄,i,Σy ̄,i}を雑音適応音響モデル記憶装置3に格納する。
以上に説明したように、本実施形態では、ガウス分布の平均のC0特徴量と、雑音の平均のC0特徴量との差分が一定値以上である場合に、UT適応法を適用するようにしている。従って、本実施形態によれば、全ガウス分布にUT適応法を用いる場合と比較して、同程度の適応精度で、かつ、より低演算量で音響モデルを雑音適応できる。
実施形態2.
以下、本発明の第2の実施形態を図面を参照して説明する。
図3は、本発明による音響モデル適応装置の第2の実施形態における構成を示すブロック図である。
音響モデル適応装置200の構成は、第1の実施形態における音響モデル適応装置100の構成と同様である。ただし、図3に示すように、音響モデル適応装置200は、詳細ガウス分布取得部207を備える。
また、音響モデル適応装置200は、適応方式選択部103、第一の雑音適応部104の代わりに、適応方式選択部203、第一の雑音適応部204を備える。
また、音響モデル適応装置200は、クリーン音響モデル記憶装置1および雑音統計量記憶装置2の他に、音響モデル適応装置200が入力する情報を記憶する詳細クリーン音響モデル記憶装置7と接続される。
なお、適応方式選択部203、第一の雑音適応部204および詳細ガウス分布取得部207は、音響モデル適応装置200が備えるCPU等によって実現される。
なお、本実施形態における音響モデル適応装置200の動作の概要は、図2に示す音響モデル適応装置100の動作の概要と同様であるため、説明を省略する。
次に、本実施形態における音響モデル適応装置200が備える各構成要素の詳細について説明する。
詳細クリーン音響モデル記憶装置7は、クリーン音響モデル記憶装置1が記憶するクリーン音響モデルのパラメータをさらに増加して学習した詳細クリーン音響モデルを格納する。以下の説明では、詳細クリーン音響モデルのガウス分布における平均と分散を、それぞれ次のように表す。
μx,ij,Σx,ij(i=1,…,N、j=1,…,N)
ここで、μx,ij,Σx,ijは、クリーン音響モデルにおける分布IDをiとするガウス分布から派生したj番目のガウス分布パラメータである。
適応方式選択部203は、ガウス分布取得部102と雑音統計量取得部101とからそれぞれ渡された、クリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}と雑音統計量{μ,Σ}とを比較する。当該比較は、第1の実施形態における適応方式選択部103と同じ方法であってもよい。適応方式選択部203は、比較の結果に応じて、ガウス分布パラメータ{μx,i,Σx,i}を、第一の雑音適応部204で雑音適応するべきか、第二の雑音適応部105で雑音適応するべきかを選択する。適応方式選択部203は、雑音適応に第一の雑音適応部204を選択した場合、詳細ガウス分布取得部207にクリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}を渡す。
詳細ガウス分布取得部207は、適応方式選択部203から受けるガウス分布パラメータ{μx,i,Σx,i}のID番号iに基づく、N個のガウス分布パラメータ{μx,ij,Σx,ij}(j=1,…,N)を詳細クリーン音響モデル記憶装置7から取得する。そして、詳細ガウス分布取得部207は、N個のガウス分布パラメータ{μx,ij,Σx,ij}(j=1,…,N)を第一の雑音適応部204に渡す。
第一の雑音適応部204は、N個のガウス分布パラメータ{μx,ij,Σx,ij}(j=1,…,N)を雑音適応する。第一の雑音適応部204は、雑音適応したガウス分布パラメータμy ̄,i,Σy ̄,iを出力する。
図4は、第2の実施形態における第一の雑音適応部204の動作の一例を示すフローチャートである。
図4に示すように、第一の雑音適応部204は、適応方式選択部203から受けるガウス分布パラメータ{μx,i,Σx,i}のID番号iに基づく、N個のガウス分布パラメータ{μx,ij,Σx,ij}(j=1,…,N)を取得する(ステップS2041)。
図5は、認識に用いるガウス分布集合と第一の雑音適応部204で用いるガウス分布集合との関係を示す木構造の音響モデル(木構造音響モデル)の構成の一例を示す説明図である。
第一の雑音適応部204は、それぞれのガウス分布に対して、式9、式10に示すVTS適応法を用いて、雑音特徴量{μ,Σ}に適応したN個のガウス分布パラメータ{μy ̄,ij,Σy ̄,ij}(j=1,…,N)を取得する(ステップS2042)。
第一の雑音適応部204は、N個の雑音適応したガウス分布パラメータ{μy ̄,ij,Σy ̄,ij}(j=1,…,N)を一つのガウス分布パラメータに統合し、一つの雑音適応したガウス分布パラメータ{μy ̄,i,Σy ̄,i}を取得する(ステップS2042)。
Figure 0005966689
Figure 0005966689
ここで、w´は混合重みで、Σj=1 Ni(w´)=1である。Σj=1 Niは、j=1からj=Nまでの総和を示す。混合重みは、実験的に定めてもよいし、等確率すなわち1/Nとしてもよい。そして、{μy ̄,i,Σy ̄,i}を、ガウス分布格納部106に渡す。
以上に説明したように、本実施形態では、ガウス分布の平均のC0特徴量と、雑音の平均のC0特徴量との差分が一定値以上である場合に、ガウス分布の混合数を増やしてVTS適応するようにしている。従って、本実施形態によれば、全ガウス分布の適応における計算量の増加を防止することができる。つまり、より低演算量で音響モデルを雑音適応できる。また、適応精度を劣化させることがない。
実施形態3.
以下、本発明の第3の実施形態を図面を参照して説明する。
図6は、本発明による音響モデル適応装置の第3の実施形態における構成を示すブロック図である。
音響モデル適応装置300の構成は、第1の実施形態における音響モデル適応装置100の構成と同様である。
ただし、図6に示すように、音響モデル適応装置300は、適応方式選択部103の代わりに、適応方式選択部303を備える。また、音響モデル適応装置300は、第一の雑音適応部104と第二の雑音適応部105の代わりに、第一の雑音適応部3041と、第二の雑音適応部3042と、第三の雑音適応部3043(図示せず)と、第四の雑音適応部3044とを備える。
なお、本実施形態における音響モデル適応装置300の動作の概要は、図2に示す音響モデル適応装置100の動作の概要と同様である。ただし、図2に示すステップS104、S105に相当する分岐が雑音適応部の数に応じて増える。
なお、適応方式選択部303、第一の雑音適応部3041、第二の雑音適応部3042、第三の雑音適応部3043および第四の雑音適応部3044は、音響モデル適応装置300が備えるCPU等によって実現される。
次に、本実施形態における音響モデル適応装置300が備える各構成要素の詳細について説明する。
適応方式選択部303は、クリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}と雑音統計量{μ,Σ}とを比較する。適応方式選択部303は、比較の結果に応じて、ガウス分布パラメータ{μx,i,Σx,i}を第一の雑音適応部から第四の雑音適応部のうちのどの雑音適応部で雑音適応するべきか、を決定する。決定の際、適応方式選択部303は、第1の実施形態で記載したスカラー関数Comp(μx,i,Σx,i,μ,Σ)を用いる。また、適応方式選択部303は、二つの閾値Th、Th(ただし、Th<Th)を用いる。なお、Th、Thは実験的に求めたものを使用してもよい。
図7は、第3の実施形態における適応方式選択部303の動作の一例を示すフローチャートである。
図7に示すように、適応方式選択部303は、ガウス分布取得部102からクリーン音響モデルのガウス分布パラメータ{μx,i,Σx,i}を取得し(ステップS3031)、雑音統計量取得部101から{μ,Σ}を取得する(ステップS3032)。
まず、適応方式選択部303は、一つ目の閾値ThとComp(μx,i,Σx,i,μ,Σ)との比較を行う(ステップS3033)。
Figure 0005966689
式25を満たす場合は(ステップS3033におけるYes)、適応方式選択部303は、ガウス分布パラメータ{μx,i,Σx,i}を第一の雑音適応部3041に渡す(ステップS3036)。そして、第一の雑音適応部3041が、ガウス分布パラメータ{μx,i,Σx,i}の雑音適応を行う。
そうでない場合は(ステップS3033におけるNo)、適応方式選択部303は、二つ目の閾値ThとComp(μx,i,Σx,i,μ,Σ)との比較を行う(ステップS3034)。
Figure 0005966689
式26を満たす場合は(ステップS3034におけるYes)、適応方式選択部303は、ガウス分布パラメータ{μx,i,Σx,i}を第二の雑音適応部3042に渡す(ステップS3037)。そして、第二の雑音適応部3042が、ガウス分布パラメータ{μx,i,Σx,i}の雑音適応を行う。
そうでない場合は(ステップS3034におけるNo)、クリーン音響モデルのパラメータと雑音の統計量とのパワー差が大きいことが考えられる。具体的には、雑音が大きい場合およびクリーン音響モデルのパラメータが大きい場合の二通りが考えられる。この二通りを区別するために、(μx、iと(μとを比較する(ステップS3035)。
Figure 0005966689
式27を満たす場合は(ステップS3035におけるYes)、適応方式選択部303は、ガウス分布パラメータ{μx,i,Σx,i}を第三の雑音適応部3043に渡す(ステップS3038)。そして、第三の雑音適応部3043が、ガウス分布パラメータ{μx,i,Σx,i}の雑音適応を行う。
そうでない場合は(ステップS3035におけるNo)、適応方式選択部303は、ガウス分布パラメータ{μx,i,Σx,i}を第四の雑音適応部3044に渡す(ステップS3039)。そして、第四の雑音適応部3044が、ガウス分布パラメータ{μx,i,Σx,i}の雑音適応を行う。
第一の雑音適応部3041は、式15、式16に示されるUT適応法を適用し、{μy ̄,i,Σy ̄,i}を出力する。
第二の雑音適応部3042は、式9、式10に示されるVTS適応法を適用し、{μy ̄,i,Σy ̄,i}を出力する。
第三の雑音適応部3043は、{μx,i,Σx,i}を、{μy ̄,i,Σy ̄,i}として出力する。
Figure 0005966689
第三の雑音適応部3044は、{μ,Σ}を、{μy ̄,i,Σy ̄,i}として出力する。
Figure 0005966689
各雑音適応部から出力された{μy ̄,i,Σy ̄,i}は、ガウス分布格納部106に格納される。
以上に説明したように、本実施形態によれば、VTS適応法よりも低演算の第三の雑音適応部と第四の雑音適応部とを備えることにより、第一の実施の形態における音響モデル適応装置100よりも、精度を保ちつつ、計算量を減らすことができる。
なお、本実施形態では、4つの雑音適応部を備えるモデル適応装置を例にしたが、雑音適応部の数は4つに限定されない。つまり、モデル適応装置300は、演算量と適応精度とがそれぞれ異なる雑音適応部をいくつ備えていてもよい。例えば、適応の近似粒度に応じた数の雑音適応部を備えていてもよい。
図8は、本発明による音響モデル適応装置の最小構成を示すブロック図である。図9は、本発明による音響モデル適応装置の他の最小構成を示すブロック図である。
図8に示すように、音響モデル適応装置(図1に示す音響モデル適応装置100に相当。)は、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、雑音に適応する音響モデルを増やして雑音適応する第一の雑音適応部20−1(図1に示す音響モデル適応装置100における第一の雑音適応部104に相当。)と、線形近似を用いて雑音適応する第二の雑音適応部20−2(図1に示す音響モデル適応装置100における第二の雑音適応部105に相当。)と、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、第一の雑音適応部20−1または第二の雑音適応部20−2を選択する適応方式選択部10(図1に示す音響モデル適応装置100における適応方式選択部103に相当。)とを備える。
上記の実施形態には、以下のような音響モデル適応装置も開示されている。
(1)適応方式選択部10は、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、音響モデルの学習時に用いられた音声と雑音とのパワーの差を判定し、パワーの差が予め定められた閾値より大きい場合は第一の雑音適応部20−1を選択し、閾値以下である場合は第二の雑音適応部20−2を選択する音響モデル適応装置。
そのような構成によれば、非線形性の影響が大きい領域に平均を持つガウス分布を正確に認識することができる。それは、音声と雑音のパワーの差の大きさは、雑音付加音声を示す非線形関数の非線形の度合いに影響を与えるからである。
(2)音響モデルはガウス分布を含み、第一の雑音適応部20−1は、ガウス分布ごとに複数のシグマポイントを生成し、複数のシグマポイントごとに雑音適応を行う音響モデル適応装置。
そのような構成によれば、適応するガウス分布に応じて、UT適応法を適用することができる。例えば、非線形性の影響が大きい領域に平均を持つガウス分布を雑音適応する場合はUT適応法を適用し、それ以外の場合は計算量が少ないVTS適応方法を適用することができる。従って、全ガウス分布の適応における計算量の増加を防止することができる。
(3)音響モデルはガウス分布を含み、第一の雑音適応部20−1(図2に示す音響モデル適応装置200における第一の雑音適応部204に相当。)は、ガウス分布から派生させた複数のガウス分布を雑音に適応する音響モデル適応装置。
そのような構成によれば、適応するガウス分布に応じて、ガウス分布パラメータを増加させることができる。従って、全ガウス分布の適応における計算量の増加を防止することができる。
(4)図9に示すように、音響モデルを雑音音響モデルとして出力する第三の雑音適応部20−3(図6に示す音響モデル適応装置300における第三の雑音適応部3043(図示せず)に相当。)と、雑音の統計量を雑音音響モデルとして出力する第四の雑音適応部20−4(図6に示す音響モデル適応装置300における第四の雑音適応部3044に相当。)とを備え、適応方式選択部10(図6に示す音響モデル適応装置300における適応方式選択部303に相当。)は、音響モデルの学習時に用いられた音声と雑音とのパワーの差が予め定められた第二の閾値(閾値Thに相当)以上である場合に、音声のパワーの方が大きいときは第三の雑音適応部20−3を選択し、小さいときは第四の雑音適応部20−4を選択する音響モデル適応装置。
そのような構成によれば、全ガウス分布の適応における計算量の増加を防止することができる。それは、クリーン音響モデルのパラメータと雑音の統計量とのパワー差が大きい場合に、より低演算量で雑音適応を行うことができるからである。
(5)音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、演算量と適応精度とがそれぞれ異なる複数の雑音適応部(例えば、図6に示すモデル適応装置300第一の雑音適応部3041、第二の雑音適応部3042、第三の雑音適応部3043および第四の雑音適応部3044に相当。)と、音響モデルおよび音響モデルに適応する雑音の統計量に基づいて、複数の雑音適応部のうちのいずれか一つを選択する適応方式選択部とを備える音響モデル適応装置。
そのような構成によれば、高演算かつ高精度な方法と比較して、適応精度を劣化させることなく、より低演算量で音響モデルを雑音適応することができる。
1 クリーン音響モデル記憶装置
2 雑音統計量記憶装置
3 雑音適応音響モデル記憶装置
7 詳細クリーン音響モデル記憶装置
10、103、203、303 適応方式選択部
20−1、104、204、3041 第一の雑音適応部
20−2、105、3042 第二の雑音適応部
20−3 第三の雑音適応部
20−4、3044 第四の雑音適応部
100、200、300 モデル適応装置
101 雑音統計量取得部
102 ガウス分布取得部
106 ガウス分布格納部
207 詳細ガウス分布取得部

Claims (8)

  1. 音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、
    雑音に適応する音響モデルを増やして雑音適応する第一の雑音適応部と、
    線形近似を用いて雑音適応する第二の雑音適応部と、
    音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、前記第一の雑音適応部または前記第二の雑音適応部を選択する適応方式選択部とを備えた
    ことを特徴とする音響モデル適応装置。
  2. 適応方式選択部は、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、前記音響モデルの学習時に用いられた音声と前記雑音とのパワーの差を判定し、前記パワーの差が予め定められた閾値より大きい場合は第一の雑音適応部を選択し、閾値以下である場合は第二の雑音適応部を選択する
    請求項1に記載の音響モデル適応装置。
  3. 音響モデルはガウス分布を含み、
    第一の雑音適応部は、前記ガウス分布ごとに複数のシグマポイントを生成し、前記複数のシグマポイントごとに雑音適応を行う
    請求項1または請求項2に記載の音響モデル適応装置。
  4. 音響モデルはガウス分布を含み、
    第一の雑音適応部は、前記ガウス分布から派生させた複数のガウス分布を雑音に適応する
    請求項1または請求項2に記載の音響モデル適応装置。
  5. 音響モデルを雑音音響モデルとして出力する第三の雑音適応部と、
    雑音の統計量を雑音音響モデルとして出力する第四の雑音適応部とを備え、
    適応方式選択部は、前記音響モデルの学習時に用いられた音声と前記雑音とのパワーの差が予め定められた第二の閾値以上である場合に、前記音声のパワーの方が大きいときは第三の雑音適応部を選択し、小さいときは第四の雑音適応部を選択する
    請求項1から請求項4のうちのいずれか1項に記載の音響モデル適応装置。
  6. 音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、
    演算量と適応精度とがそれぞれ異なる複数の雑音適応部と、
    音響モデルおよび音響モデルに適応する雑音の統計量に基づいて、前記複数の雑音適応部のうちのいずれか一つを選択する適応方式選択部とを備える
    ことを特徴とする音響モデル適応装置。
  7. 音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応方法であって、
    音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、前記選択に基づいて雑音適応を行う
    ことを特徴とする音響モデル適応方法。
  8. 音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置における音響モデル適応プログラムであって、
    コンピュータに、
    音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、前記選択に基づいて雑音適応を行う処理を実行させる
    ための音響モデル適応プログラム。
JP2012150743A 2012-07-04 2012-07-04 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム Active JP5966689B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012150743A JP5966689B2 (ja) 2012-07-04 2012-07-04 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012150743A JP5966689B2 (ja) 2012-07-04 2012-07-04 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム

Publications (2)

Publication Number Publication Date
JP2014013324A JP2014013324A (ja) 2014-01-23
JP5966689B2 true JP5966689B2 (ja) 2016-08-10

Family

ID=50109035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012150743A Active JP5966689B2 (ja) 2012-07-04 2012-07-04 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム

Country Status (1)

Country Link
JP (1) JP5966689B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505905B1 (en) * 1999-05-13 2009-03-17 Nuance Communications, Inc. In-the-field adaptation of a large vocabulary automatic speech recognizer (ASR)
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
JP4233831B2 (ja) * 2002-09-25 2009-03-04 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
TWI245259B (en) * 2002-12-20 2005-12-11 Ibm Sensor based speech recognizer selection, adaptation and combination
JP4242320B2 (ja) * 2004-05-14 2009-03-25 日本電信電話株式会社 音声認識方法、その装置およびプログラム、その記録媒体
JP5041934B2 (ja) * 2006-09-13 2012-10-03 本田技研工業株式会社 ロボット
JP2010078650A (ja) * 2008-09-24 2010-04-08 Toshiba Corp 音声認識装置及びその方法

Also Published As

Publication number Publication date
JP2014013324A (ja) 2014-01-23

Similar Documents

Publication Publication Date Title
US10217456B2 (en) Method, apparatus, and program for generating training speech data for target domain
US8566093B2 (en) Intersession variability compensation for automatic extraction of information from voice
US20140114650A1 (en) Method for Transforming Non-Stationary Signals Using a Dynamic Model
Liu et al. Stochastic kriging for efficient nested simulation of expected shortfall
JP5150542B2 (ja) パターン認識装置、パターン認識方法、及び、プログラム
JP2012504250A (ja) 音声認識方法
Ferrer et al. Spoken language recognition based on senone posteriors.
JP2010078650A (ja) 音声認識装置及びその方法
CN110428848B (zh) 一种基于公共空间语音模型预测的语音增强方法
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
WO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP5068228B2 (ja) 非負値行列分解の数値計算方法、非負値行列分解の数値計算装置、プログラムおよび記憶媒体
KR20170088165A (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
JP5966689B2 (ja) 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム
JP7020331B2 (ja) クラスタリング装置、方法、及びプログラム
JP6827004B2 (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JP5738778B2 (ja) 最適モデル推定装置、方法、及びプログラム
WO2020054402A1 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
JP2017134321A (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP5244452B2 (ja) 文書特徴表現計算装置、及びプログラム
JP6376486B2 (ja) 音響モデル生成装置、音響モデル生成方法、およびプログラム
JP6067760B2 (ja) パラメータ決定装置、パラメータ決定方法、およびプログラム
CN113037523B (zh) 网络流量流向预测方法、装置以及存储介质
Hua Do WaveNets Dream of Acoustic Waves?

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160620

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5966689

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150