JP5885686B2 - 音響モデル適応化装置、音響モデル適応化方法、プログラム - Google Patents
音響モデル適応化装置、音響モデル適応化方法、プログラム Download PDFInfo
- Publication number
- JP5885686B2 JP5885686B2 JP2013032989A JP2013032989A JP5885686B2 JP 5885686 B2 JP5885686 B2 JP 5885686B2 JP 2013032989 A JP2013032989 A JP 2013032989A JP 2013032989 A JP2013032989 A JP 2013032989A JP 5885686 B2 JP5885686 B2 JP 5885686B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- acoustic model
- parameter
- model
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
音響モデル適応化装置は、クリーン音響モデルを雑音環境に適応させることで学習環境と使用環境の不一致を解消、または低減する。図2を参照して従来の音響モデル適応化装置8について説明する。図2は従来の音響モデル適応化装置8の構成を示すブロック図である。音響モデル適応化装置8には、下記2種類のデータが入力される。
以後、雑音によって劣化した音声信号を劣化音声信号と呼びy(τ)と表す。また、劣化音声信号の特徴量ベクトルを劣化特徴量ベクトルと呼びytと表す。ただし、τは離散化された信号のインデクス、tは短時間フレームのインデクスである。さらに、観測された短時間フレームの個数をTで表し、劣化特徴量ベクトルの時系列を(yt)1≦t≦Tと書く。このように、本明細書ではx1,・・・,xnがなす列を(xi)1≦i≦nと書く。
本明細書では、一例として、音響モデルが次式のようにGMMでモデル化される場合について説明する。後述するように、本発明は正規分布の平均ベクトルと共分散行列だけを修正するため、HMM等正規分布に基づく音響モデルを用いる場合にも同様のアルゴリズムが適用できる。
上記機能を実装する図2の音響モデル適応化装置8は、雑音モデル推定部81とモデル合成部82とを備える。雑音モデル推定部81は、劣化特徴量ベクトルの時系列とクリーン音響モデルのパラメータを入力として受け取り、雑音モデルのパラメータを次式にしたがって最尤推定し、これらを出力する。
要素分布kの平均ベクトルと共分散行列は以下の式によって計算される。
この場合、GMMに含まれる各正規分布は、GMMの学習時に回帰クラスと呼ぶいくつかのグループに分類されている。正規分布の分類方法については、音素に基づく方法や自動クラスタリングに基づく方法等が知られている(非特許文献1参照)。要素分布kは回帰クラスrに属していると仮定すると、その平均ベクトルと共分散行列は以下の式によって計算される。
図3は音響モデル適応化装置8を音声認識装置7に応用した場合の構成を示すブロック図である。図3の各処理部の動作は、前述の説明から明らかであるから省略する。
音響モデル適応化装置8は、雑音抑圧にも応用できる。雑音抑圧とは、劣化特徴量ベクトルの時系列から雑音を取り除く処理を指す。図4は、音響モデル適応化装置8を従来の雑音抑圧装置9に応用した場合の構成を示すブロック図である。図4に示すように、従来の雑音抑圧装置9は、特徴量変換部91と、音響モデル記憶部73を備える。特徴量変換部91は、音響モデル記憶部73に記憶されたクリーン音響モデルと、音響モデル適応化装置8から出力された適応化音響モデルの各パラメータ、及び劣化特徴量ベクトルの時系列を入力として受け取り、VTS−0等のアルゴリズムを用いて、雑音が抑圧されたクリーン特徴量ベクトルの時系列を出力する。
<入力>
音響モデル適応化装置1、2への入力は、劣化音声信号
<雑音スペクトル推定部11>
まず、雑音スペクトル推定部11に、劣化音声信号
次に、雑音モデル転移部12、22に、雑音のパワースペクトルの時系列(Nt)1≦t≦T、劣化特徴量ベクトルの時系列(yt)1≦t≦T、及びクリーン音響モデルのパラメータ(πk,μX k,ΣX k)1≦k≦Kが入力される。雑音モデル転移部12、22は、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列(μN t,ΣN t,μH t)1≦t≦Tを出力する(S12、またはS22)。ステップS12、およびS22は、以下に述べる原理にしたがって行われる。
雑音モデル転移部12、22では、各短時間フレームにおける雑音モデルの各パラメータは、雑音のパワースペクトルNtに関する転移関数z(・;φ)で表されると仮定する。
最後に、モデル合成部13は、クリーン音響モデルのパラメータと雑音モデルのパラメータの時系列を入力として受け取り、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力する(S13)。短時間フレームtにおける適応化音響モデルp(t) Y(yt)は、次式に示すようにGMMで表される。
短時間フレームtにおける要素分布kの平均ベクトルと共分散行列は以下の式によって計算される。
この場合、GMMに含まれる各正規分布は、GMMの学習時に音声回帰クラスと呼ぶいくつかのグループに分類されている。さらに、各短時間フレームにおける雑音モデルの正規分布も、雑音回帰クラスと呼ぶいくつかのグループに分類されている。要素分布kは音声回帰クラスrに、短時間フレームtは雑音回帰クラスsに属していると仮定すると、平均ベクトルと共分散行列は以下の式によって計算される。
以下、図7、8を参照して実施例1の雑音モデル転移部12について詳細に説明する。図7は本実施例に係る雑音モデル転移部12の構成を示すブロック図である。図8は本実施例に係る雑音モデル転移部12の動作を示すフローチャートである。
期待値計算手段123は、一巡前のループで計算された転移パラメータの暫定値であるAi、bi、hiと、雑音のパワースペクトルの時系列と、劣化特徴量ベクトルの時系列と、クリーン音響モデルのパラメータを入力として受け取り、次の3種類の変数の値を出力する(SS123)。
A=Ai、b=bi、h=hiと仮定(つまり転移パラメータの暫定値が転移パラメータの真の値であると仮定)した場合における、クリーン特徴量ベクトルxtがクリーン音響モデルのk番目の要素分布から出力された事後確率である。具体的には、この事後確率は次式によって計算される。
<μN|Y k,t,i>
A=Ai,b=bi,h=hiと仮定(つまり転移パラメータの暫定値が転移パラメータの真の値であると仮定)した場合における、加法性雑音の特徴量ベクトルの事後分布p(t) N|Y(nt|yt,k)の平均ベクトルである。具体的には、この平均ベクトルは次式によって計算される。
<ΣN|Y k,t,i>
A=Ai,b=bi,h=hiと仮定(つまり転移パラメータの暫定値が転移パラメータの真の値であると仮定)した場合における、加法性雑音の特徴量ベクトルの事後分布p(t) N|Y(nt|yt,k)の共分散行列である。具体的には、この共分散行列は次式によって計算される。
以下、図9、図10を参照して実施例2の雑音モデル転移部22について詳細に説明する。図9は本実施例に係る雑音モデル転移部22の構成を示すブロック図である。図10は本実施例に係る雑音モデル転移部22の動作を示すフローチャートである。
以下、本発明の音響モデル適応化装置をコンピュータにより実現する場合について説明する。図11は本発明の音響モデル適応化装置をコンピュータにより実現するときの構成を例示する図である。図11に示すように、本発明の音響モデル適応化装置を実現するコンピュータは、演算処理装置1000、出力装置2000、入力装置3000、記録装置4000などから構成される。上述した本発明の話者適応化装置は、図11に示すコンピュータの記録装置4000に、本発明の各構成部としてコンピュータを動作させるプログラムを読み込ませ、演算処理装置1000、出力装置2000、入力装置3000、記録装置4000等を動作させることで実現できる。
図12を参照して本発明を用いて残響音声の認識を行った実験の結果を説明する。図12は実施例1の音響モデル適応化装置1を用いて雑音抑圧を行った場合の音声認識結果(単語誤り率)を示す図である。本実験では、前述した通り後部残響が加法性雑音に相当する。実験には20000語のWallStreetJournalデータベースの学習データと評価データを用いた。学習データは、雑音抑圧装置のクリーン音響モデルと音声認識装置のクリーン音響モデルを学習するのに用いた。評価データセットは、残響音声を模擬するために、このデータセットに含まれる各発話と予め計測したインパルス応答を畳み込んでから使用した。評価データセットには8名の話者による発話が含まれていた。図12に示すように、実施例1の音響モデル適応化装置1によりクリーン学習(音声認識用の音響モデルをクリーンな学習データセットを用いて作成)、マルチコンディション学習(音声認識用の音響モデルを残響を含む学習データセットを用いて作成)のいずれにおいても単語誤り率が顕著に減少しており、本発明が残響のような非定常な雑音に対しても有効であることが示された。
Claims (8)
- 劣化音声信号を入力とし、各短時間フレームにおける雑音のパワースペクトルを推定し、前記雑音のパワースペクトルの時系列を出力する雑音スペクトル推定部と、
前記雑音のパワースペクトルの時系列と、前記劣化音声信号の特徴量ベクトルである劣化特徴量ベクトルの時系列と、クリーンな環境で収録された音声信号から学習された音響モデルであるクリーン音響モデルのパラメータを入力とし、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列を出力する雑音モデル転移部と、
前記クリーン音響モデルのパラメータと前記雑音モデルのパラメータの時系列を入力とし、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力するモデル合成部と、
を含む音響モデル適応化装置。 - 前記雑音モデル転移部は、
前記転移パラメータの初期値を設定し、前記転移パラメータの初期値を出力する初期化手段と、
前記転移パラメータの初期値と、更新された転移パラメータの暫定値を入力とし、前記転移パラメータの初期値、または前記更新された転移パラメータの暫定値を転移パラメータの暫定値として出力するMUX手段と、
前記転移パラメータの暫定値と、前記雑音のパワースペクトルの時系列と、前記劣化特徴量ベクトルの時系列と、前記クリーン音響モデルのパラメータを入力とし、前記転移パラメータの暫定値が真の値であると仮定した場合における、クリーン音響モデルの各要素分布の事後確率、及び加法性雑音の特徴量ベクトルの事後分布の平均ベクトルと共分散行列の値を出力する期待値計算手段と、
前記事後確率と、前記平均ベクトルと、前記共分散行列を入力とし、補助関数を最大化する転移パラメータを計算して、計算された転移パラメータを更新された転移パラメータの暫定値として出力する補助関数最大化手段と、
前記更新された転移パラメータの暫定値を入力とし、前記転移パラメータの推定処理が収束しているか否かを判定し、前記推定処理が収束していると判定される場合には前記更新された転移パラメータの暫定値を用いて雑音モデルのパラメータの時系列を計算して出力する収束判定手段と、
をさらに含む請求項1に記載の音響モデル適応化装置。 - 前記モデル合成部が、
VTS適応を用いて各短時間フレームにおける適応化音響モデルのパラメータの時系列を計算する
請求項1または2に記載の音響モデル適応化装置。 - 前記モデル合成部が、
JUD適応を用いて各短時間フレームにおける適応化音響モデルのパラメータの時系列を計算する
請求項1または2に記載の音響モデル適応化装置。 - 劣化音声信号を入力とし、各短時間フレームにおける雑音のパワースペクトルを推定し、前記雑音のパワースペクトルの時系列を出力する雑音スペクトル推定ステップと、
前記雑音のパワースペクトルの時系列と、前記劣化音声信号の特徴量ベクトルである劣化特徴量ベクトルの時系列と、クリーンな環境で収録された音声信号から学習された音響モデルであるクリーン音響モデルのパラメータを入力とし、各短時間フレームにおける雑音のパワースペクトルから雑音モデルのパラメータへの転移関数を指定する転移パラメータを最尤推定し、その推定結果に基づいて短時間フレームごとの雑音モデルのパラメータの時系列を出力する雑音モデル転移ステップと、
前記クリーン音響モデルのパラメータと前記雑音モデルのパラメータの時系列を入力とし、各短時間フレームにおける適応化音響モデルのパラメータの時系列を出力するモデル合成ステップと、
を含む音響モデル適応化方法。 - 前記雑音モデル転移ステップは、
前記転移パラメータの初期値を設定し、前記転移パラメータの初期値を出力する初期化サブステップと、
前記転移パラメータの初期値と、更新された転移パラメータの暫定値を入力とし、前記転移パラメータの初期値、または前記更新された転移パラメータの暫定値を転移パラメータの暫定値として出力するMUXサブステップと、
前記転移パラメータの暫定値と、前記雑音のパワースペクトルの時系列と、前記劣化特徴量ベクトルの時系列と、前記クリーン音響モデルのパラメータを入力とし、前記転移パラメータの暫定値が真の値であると仮定した場合における、クリーン音響モデルの各要素分布の事後確率、及び加法性雑音の特徴量ベクトルの事後分布の平均ベクトルと共分散行列の値を出力する期待値計算サブステップと、
前記事後確率と、前記平均ベクトルと、前記共分散行列を入力とし、補助関数を最大化する転移パラメータを計算して、計算された転移パラメータを更新された転移パラメータの暫定値として出力する補助関数最大化サブステップと、
前記更新された転移パラメータの暫定値を入力とし、前記転移パラメータの推定処理が収束しているか否かを判定し、前記推定処理が収束していると判定される場合には前記更新された転移パラメータの暫定値を用いて雑音モデルのパラメータの時系列を計算して出力する収束判定サブステップと、
をさらに含む請求項5に記載の音響モデル適応化方法。 - 前記モデル合成ステップが、
VTS適応を用いて各短時間フレームにおける適応化音響モデルのパラメータの時系列を計算する
請求項5または6に記載の音響モデル適応化方法。 - 請求項5から7の何れかに記載された音響モデル適応化方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013032989A JP5885686B2 (ja) | 2013-02-22 | 2013-02-22 | 音響モデル適応化装置、音響モデル適応化方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013032989A JP5885686B2 (ja) | 2013-02-22 | 2013-02-22 | 音響モデル適応化装置、音響モデル適応化方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014164023A JP2014164023A (ja) | 2014-09-08 |
JP5885686B2 true JP5885686B2 (ja) | 2016-03-15 |
Family
ID=51614694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013032989A Active JP5885686B2 (ja) | 2013-02-22 | 2013-02-22 | 音響モデル適応化装置、音響モデル適応化方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5885686B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3452443B2 (ja) * | 1996-03-25 | 2003-09-29 | 三菱電機株式会社 | 騒音下音声認識装置及び騒音下音声認識方法 |
JP5609182B2 (ja) * | 2010-03-16 | 2014-10-22 | 日本電気株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
-
2013
- 2013-02-22 JP JP2013032989A patent/JP5885686B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014164023A (ja) | 2014-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | An overview of noise-robust automatic speech recognition | |
JP3457431B2 (ja) | 信号識別方法 | |
EP0886263B1 (en) | Environmentally compensated speech processing | |
JP4245617B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP5242782B2 (ja) | 音声認識方法 | |
US20170221479A1 (en) | Noise compensation in speaker-adaptive systems | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
JP5713818B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
JP5997114B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
JP5885686B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、プログラム | |
Wang et al. | Improving reverberant VTS for hands-free robust speech recognition | |
JP4729534B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
Techini et al. | Robust front-end based on MVA and HEQ post-processing for Arabic speech recognition using hidden Markov model toolkit (HTK) | |
Lu et al. | Robust speech recognition using improved vector Taylor series algorithm for embedded systems | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
Munteanu et al. | Robust Romanian language automatic speech recognizer based on multistyle training | |
Wang et al. | Model-based approaches to adaptive training in reverberant environments. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5885686 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |