JP4510517B2 - 音響モデル雑音適応化方法およびこの方法を実施する装置 - Google Patents

音響モデル雑音適応化方法およびこの方法を実施する装置 Download PDF

Info

Publication number
JP4510517B2
JP4510517B2 JP2004156037A JP2004156037A JP4510517B2 JP 4510517 B2 JP4510517 B2 JP 4510517B2 JP 2004156037 A JP2004156037 A JP 2004156037A JP 2004156037 A JP2004156037 A JP 2004156037A JP 4510517 B2 JP4510517 B2 JP 4510517B2
Authority
JP
Japan
Prior art keywords
acoustic model
noise
clean
state
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004156037A
Other languages
English (en)
Other versions
JP2005338358A (ja
Inventor
厚徳 小川
哲 小橋川
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004156037A priority Critical patent/JP4510517B2/ja
Publication of JP2005338358A publication Critical patent/JP2005338358A/ja
Application granted granted Critical
Publication of JP4510517B2 publication Critical patent/JP4510517B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音響モデル雑音適応化方法およびこの方法を実施する装置に関し、特に、既存の音響モデル雑音適応化結果に基づいて別の音響モデルの雑音適応化を低コストかつ高速に実行する音響モデル雑音適応化方法およびこの方法を実施する装置に関する。
先ず、図を参照して、音声認識装置について説明しておく。
図6において、入力音声601は、音声分析部602において特徴ベクトル603の時系列に変換され、探索処理部605に入力される。探索処理部605においては、音響モデル604を用いて、文法606で表現される単語或いは単語列と特徴ベクトル603の時系列との間の照合、即ち、探索処理が行われ、最も尤度が高い単語或いは単語列が認識結果607として出力される。
音声分析部602における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、MFCC(Mel Frequency Cepstral Coefficient)、△MFCC、△△MFCC、対数パワー、△対数パワーその他があり、それらが、10〜100次元程度の特徴量ベクトルを構成する。分析フレーム幅30ms程度、分析フレームシフト幅10ms程度で分析が実行される。音響モデル604は、先のMFCCその他の音声特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声の或る区間の特徴量に対して、各標準パターンとの音響的な近さを尤度として計算し、それがどのカテゴリに属するかを推定する。現在、音響モデル604としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model、略して、HMM)が汎用されている。通常、HMMは音素カテゴリ単位で作成され、音素HMMの集合として一つの音響モデルが構築される。
音素HMMの種類としては、当該音素に先行および後続する音素の両方を音素環境として考慮しないmonophone−HMM(例えば、*−a−*は、音素aのmonophone−HMMと言う。*は任意の音素を表す)、当該音素に先行する音素のみ音素環境として考慮する先行音素環境依存biphone−HMM(例えば、p−a−*は、先行音素がpである音素aの先行音素環境依存biphone−HMM、と言う)、当該音素に後続する音素のみ音素環境として考慮する後続音素環境依存biphone−HMM(例えば、*−a−tは、後続音素がtである音素aの後続音素環境依存biphone−HMMと言う)、当該音素に先行および後続する音素の両方を音素環境として考慮するtriphone−HMM(例えば、p−a−tは、先行音素がp、後続音素がtである音素aのtriphone−HMM)が最もよく用いられる。
また、音素HMMが表現する音素カテゴリの種類については、音響モデルの学習データに依存するが、例えば、t−t−tの如く日本語の音素連鎖としてあり得ないものは含まれないので、一般的には、数千〜数万種類程度になる。
音響モデル604の構造を図7を参照して説明する。
先ず、図7に示される如く、状態Sが混合確率分布Mとして表現される。混合確率分布の各要素分布としては、離散確率分布と連続確率分布があるが、現在、最もよく用いられているのは、連続確率分布の一つである多次元正規(ガウス)分布であり、その内でも次元間の相関がない(共分散行列の対角成分が0である)多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、先の特徴量ベクトルの各次元に対応する。図7においては、状態Sが4つの多次元正規分布を要素分布とする多次元混合正規分布Mとして表現されている。図7においては、特徴量ベクトルの或る次元iについて示しているが、特徴量ベクトルの各次元について同様に表現される。図7に示される状態の数個〜十数個程度の確率連鎖によって、音素HMMが構築される。音素HMMが、幾つの状態の如何なる確率連鎖によって構築されるかに関しては、様々なバリエーションがある。また、音素HMM毎に異なる構造をとることもある。現在、最も一般的に用いられている構造は、例えば、図8に示す音素HMMの如き3状態のleft−to−right型HMMと呼ばれるもので、3つの状態S1 (第1状態)、S2 (第2状態)、S3 (第3状態)を左から右に並べたものであり、状態の確率連鎖(状態遷移)としては、自分自身への遷移(自己遷移)S1 →S1 、S2 →S2 、S3 →S3 と、次状態への遷移S1 →S2 、S2 →S3 から成る。音響モデル中の全ての音素HMMがこの3状態left−to−right型HMMの構造をとることが多い。
図8を参照して音素HMMを用いた尤度計算について説明する。
図8の音素HMMに、或る特徴ベクトルの時系列が入力されたときの尤度計算について解説する。例えば、6フレーム分の特徴量ベクトルの時系列X=X1 、X2 、X3 、X4 、X5 、X6 が、音素HMMの或る一つの状態遷移系列S=S1 →S1 →S2 →S2 →S3 →S3 から出力される確率(尤度)P(X|S、HMM)は、以下の通りに計算される。
P(X|S、HMM)=b1(X1)a111(X2)a122(X3)a222(X4)a233(X5)a333(X6)・・・・・式(1)
ここで、ajkは、状態Sjから状態Skへの遷移確率である。また、bj(Xt)は、時刻t(t番目のフレーム)における特徴ベクトルXtが状態Sjを表現する混合正規分布Mjから出力される確率であり、混合正規分布Mjを構成するm番目の正規分布の出力確率Pjm(Xt)を用いて以下の通りに計算される。
Figure 0004510517
ここで、Mjは混合正規分布Mjを構成する正規分布の数(混合数)、Wjmは混合正規分布Mjを構成するm番目の正規分布の分布重みである。Wjmについては以下の式を満足する。
Figure 0004510517
また、混合正規分布Mjを構成する正規分布が多次元無相関正規分布の場合、Pjm(Xt)は以下の通りに計算される。
Figure 0004510517
ここで、μjmi、σ2 jmiは混合正規分布Mj を構成するm番目の多次元無相関正規分布の次元iにおける平均値、分散である。Xtiは、特徴ベクトルXtの次元iの値である。Iは特徴ベクトル(多次元無相関正規分布)の次元数である。
以上の尤度計算は、或る一つの状態遷移系列Sに対するものであるが、このような状態遷移系列は他にもあげることができる。このような状態遷移系列全てに対して、特徴ベクトルの時系列Xを出力する確率を計算し、それらを加算したものを音素HMMに特徴ベクトルの時系列Xが入力されたときの尤度とする方法はトレリス(trellis)アルゴリズムと呼ばれる。一方、全ての状態遷移系列のなかで最も高い尤度を与える状態遷移系列を特徴ベクトルの時系列によりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素HMMに特徴ベクトルの時系列Xが入力されたときの尤度とする方法をビタービ(Viterbi)アルゴリズムという。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減することができるビタービアルゴリズムが用いられることが多い。
また、以上の尤度計算は、或る一つの音素HMMに対するものであるが、実際には、探索処理部605において、探索処理を行う前に、音素HMMを連結して文法606で表現される単語或いは単語列のHMMのネットワーク(探索ネットワーク)が作成され、そして、入力音声の特徴ベクトル603の時系列と探索ネットワークで表現される単語或いは単語列との照合が行われ(探索処理)、最も尤度が高い単語或いは単語列が認識結果607として出力される。
また、以上の尤度計算では、確率値をそのまま扱ったが、実際には、アンダーフローを防ぐために、確率値の対数をとって計算を行う。
また、音響モデル604の各種パラメータ(状態遷移確率ajk、分布重みWjm、正規分布の各次元の平均μjmiおよび分散σjmi 2)の推定アルゴリズムとしては、バウムーウェルチ(Baum−Welch)アルゴリズムが最もよく用いられる。また、一つの音響モデルの学習(パラメータ推定)には、数十〜数千時間という大量の音声データとその発声内容ラベルデータが用いられる(非特許文献1 参照)。
ところで、以上の音声認識装置の従来例が実際に使用される環境には様々な種類の雑音が存在しており、これが音声認識精度の低下を招く要因となっている。雑音は大きく分けて二種類に分類することができる。一つは、音声に畳み込みの関係で影響を及ぽす乗算性歪みと呼ばれるもので、例えば、話者の口からマイクまでの空間の伝達特性、電話回線の伝達特性である。もう一つは、伝達特性の影響を受けた音声に加算の関係で影響を及ぼす加算性雑音と呼ばれるもので、例えば、オフィスにおいては、計算機が出す雑音、紙をめくる音の如き雑音であり、自動車内においてはエンジンの回転音を挙げることができる。時刻tにおける雑音のない、クリーンな音声をs(t)、乗法性歪み(伝達特性)をh(t)、加算性雑音をn(t)とすると、雑音のある音声のy(t)は以下の式で与えられる。以下で、※は畳み込みを表す。
y(t)=s(t)※h(t)+n(t)・・・・・式(5)
近年、音声認識装置の雑音対策として、音響モデルのマルチコンディション(マルチスタイル)学習が研究されており、非常に単純でありながら、様々な雑音への耐性の高い雑音適応音響モデルが得られる学習方法として注目されている。
音響モデルのマルチコンディション学習について図を参照して解説する。
図9は音響モデルのマルチコンディション学習の流れを図示したものである。先ず、雑音のないクリーン音声データ908とその発声内容ラベルデータ909を用いて音響モデル学習部910によりクリーン音響モデル904を作成しておく。また、音声認識装置の使用環境に存在する雑音の情報として、乗算性歪みを表す伝達特性データ911と加算性雑音データを表す雑音データ912をそれぞれ想定される分だけ組み合わせで準備しておく。ここにおいては、N個の伝達特性データ911−1〜911−Nと雑音データ912−1〜912−Nの組み合わせがあるものとする。そして、クリーン音声データ908に対して、伝達特性畳み込み部913において伝達特性データ911を畳み込み、その後、雑音加算部914において雑音データ912を加算する。この操作をN個の伝達特性データ911と雑音データ912の組み合わせ全てに対して行い、それらの集合としてマルチコンディション音声データ915が作成される。元のクリーン音声データ908もマルチコンディション音声データ915に含める場合があり、ここにおいてはその様にしている。次に、音響モデル追加学習部916において、マルチコンディション音声データ915と発声内容ラベルデータ909を用いて、クリーン音響モデル904に対して、追加学習により音響モデルの学習を行い、その結果として雑音適応音響モデル918が作成される。クリーン音響モデル904に対する追加学習ではなく、マルチコンディション音声データ915を用いて最初から雑音適応音響モデル918を学習する方法も考えられるが、ここにおいては、追加学習を行うものとする。なお、追加学習であるため、クリーン音響モデル904と雑音適応音響モデル918の状態連鎖構造、状態における確率分布数を含む構造は等しい。
上述の通りにして作成された雑音適応音響モデル918を用いることにより、想定した全ての雑音環境下で高い認識精度を得ることがでぎる。マルチコンディション学習に関する従来の実験報告としては、乗算性歪みはない状態で、地下鉄、自動車内、レストランなど加算性雑音のみを想定したもの(非特許文献2 参照)、自動車内の雑音環境で、マイクをサンバイザーまたは前方室内ランプの位置に設置するため、乗算性歪みは話者の口からサンバイザーまたは前方室内ランプまでの空間伝達特性の2種類、加算性雑音として、アイドリング時、一般道路走行時、高速道路走行時などいくっかの雑音を想定したもの(非特許文献3 参照)、電話音声の認識において、様々な電話機の周波数特性による乗算性歪みと、幾つかのSN比の展示会場騒音を想定したもの(非特許文献4 参照)その他がある。
財団法人 電子情報通信学会編、中川 聖一 著 『確率モデルによる音声認識』 J.C.Segura,A.de la Torre,M.C.Benitez,A.M.Peinado,"Model-based compensation of the additivenoise for continuous speech recognition.Experiments using the AURORA II database and tasks",Proc. EUROSPEECH' 2001, vol.1, pp.221-24, Scandinavia,2001 滝口哲也、西村雅史、"車内音声認識におけるマルチスタイル学習法の効果について"、日本音響学会2001年秋季研究発表会講演論文集、1−Q−8、pp.155−156 國枝伸行、木村達也、石田明、"Multi-Style学習で作成した電話音声認識向け音響モデルの評価−SN比と電話機特性に対する効果−"
上述した通り、音響モデルのマルチコンディション学習は非常に単純な方法でありながら、様々な雑音への耐性の高い雑音適応音響モデルが得られる学習方法である、しかし、図9に示した通り、その学習の過程において、想定する雑音の種類に応じて音声データを準備して使用するので、データ記憶容量と計算時間が大幅に増大する。例えば、想定する雑音の種類がN種類であれば、クリーン音声のみでクリーン音響モデルを学習する場合と比較してN倍のデータ記憶容量と計算時間が必要となる。元々、音響モデルの学習はデータ記憶容量および計算時間に関してコストの高い作業であるが、マルチコンディション学習ではそのコストが更に大幅に高くなり、これは望ましいことではない。
この発明は、マルチコンディション学習にあるコストが高くなるという問題点に鑑みてなされたものであり、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、音響モデルの雑音適応を行うことができる音響モデル雑音適応化方法およびこの方法を実施する装置を提供することをその目的としている。
請求項1:雑音のない音声データで学習されたクリーン音響モデルA:104−Aと当該クリーン音響モデルA:104Aを元に雑音適応化された雑音適応音響モデルB:118−Bとを準備し、クリーン音響モデルA:104−Aから雑音適応音響モデルB:118−Bへの雑音適応化による各パラメータの変化量を計算し、雑音のない音声データで学習された別のクリーン音響モデルC:104−Cの各状態および各分布によりクリーン音響モデルAを参照してその各状態および各分布を決定し、別のクリーン音響モデルCとクリーン音響モデルAの各状態および各分布の参照関係と、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量とを基に別のクリーン音響モデルCの各パラメータを調整して、新規の雑音適応化された音響モデルD:118−Dを作成する音響モデル雑音適応化方法を構成した。
請求項2:雑音のない音声データで学習されたクリーン音響モデルA:104−Aを具備し、クリーン音響モデルA:104−Aを入力してこれを雑音適応化する雑音適応化部117を具備し、クリーン音響モデルA:104−Aを元に雑音適応化された雑音適応音響モデルB:118−Bを具備し、クリーン音響モデルA:104−Aと雑音適応音響モデルB:118−Bとを入力して、クリーン音響モデルA:104−Aの雑音適応化による各パラメータの変化量を計算する音響モデルパラメータ変化量計算部119を具備し、雑音のない音声データで学習された別のクリーン音響モデルC:104−Cおよびクリーン音響モデルA:104−Aとを入力し、別のクリーン音響モデルC:104−Cの各パラメータが参照するクリーン音響モデルA:104−Aの各パラメータを決定する音響モデル構造参照関係決定部120を具備し、音響モデルパラメータ変化量計算部119において計算されたクリーン音響モデルA:104−Aの雑音適応化による各パラメータの変化量と音響モデル構造参照関係決定部120において決定されたクリーン音響モデルA:l04−Aと別のクリーン音響モデルC:104−Cとの間の参照関係とを入力し、別のクリーン音響モデルC:104−Cの各パラメータを調整して新規の雑音適応音響モデルD:118−Dを作成する音響モデルパラメータ調整部121を具備する音響モデル雑音適応化装置を構成した。
請求項3:請求項2に記載される音響モデル雑音適応化装置において、音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とする音響モデル雑音適応化装置を構成した。
請求項4:請求項2に記載される音響モデル雑音適応化装置において、音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とする音響モデル雑音適応化装置を構成した。
請求項5:請求項2ないし請求項4の内の何れかに記載される音響モデル雑音適応化装置において、音響モデル構造参照関係決定部は、別のクリーン音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定するに際して、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定する音響モデル雑音適応化装置を構成した。
請求項6:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いる音響モデル雑音適応化装置を構成した。
請求項7:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、バタチャリヤ距離を用いる音響モデル雑音適応化装置を構成した。
請求項8:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の尤度差分を用いる音響モデル雑音適応化装置を構成した。
請求項9:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いる音響モデル雑音適応化装置を構成した。
この発明によれば、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、瞬時に音響モデルの雑音適応を行うことができる。即ち、一例として、多数の女性の雑音のない音声データを用いて学習された入力される別のクリーン音響モデルである、クリーン女声音響モデルの雑音適応化を実施する様な場合、多数の男性の雑音のない音声データを用いて学習されたクリーン男声音響モデルと、それをマルチコンディション学習により雑音適応化した雑音適応男声音響モデルがあれば、新たに雑音が付加された女声音声データを準備してマルチコンディション学習する必要はなく、男声音響モデルの雑音適応化結果をそのまま用いて瞬時に雑音適応を行うことができる。
この発明による音響モデル雑音適応化は、雑音のない音声データで学習されたクリーン音響モデルAと、クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBを備え、音響モデルパラメータ変化量計算部において、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算しておき、雑音のない音声データで学習された別のクリーン音響モデルCが入力された場合に、音響モデル構造参照関係決定部において、別のクリーン音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定し、音響モデルパラメータ調整部において、別のクリーン音響モデルCとクリーン音響モデルAの各状態および各分布の参照関係と、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を基に、別のクリーン音響モデルCの各パラメータを調整し、雑音適応化された音響モデルDを新たに作成する。この発明による音響モデル雑音適応化装置は、音響モデルパラメータ変化量計算部において、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態において、分布重みが最も大きい分布のパラメータの変化量を、状態における全ての分布のパラメータ変化量とする。この発明による音響モデル雑音適応化装置は、音響モデルパラメータ変化量計算部において、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とする。この発明による音響モデル雑音適応化装置は、音響モデル構造参照関係決定部において、入力される音響モデルCの各状態および各分布が参照するクリーン音響モデルAの各状態および各分布を決定するに際して、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定する。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、バタチャリヤ距離を用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、分布統合前後の尤度差分を用いる。この発明による音響モデル雑音適応化装置は、分布間距離尺度として、分布統合前後の変分ベイズ法に基づく評価関数値の差分を用いる。
以下、発明を実施するための最良の形態を図を参照して具体的に説明する。
図1はこの発明による音響モデル雑音適応化装置の実施例の概要を説明する図である。ここにおいては、入力される別のクリーン音響モデルC:104−Cの雑音適応化を行い、新規の雑音適応音響モデルD:118−Dを得ることを目的としている。
先ず、クリーン音響モデルA:104−Aの雑音適応化が雑音適応化部117において行われ、雑音適応音響モデルB:118−Bが予め得られているものとする。なお、雑音適応化部117は、図9を参照して先に説明された点線内の雑音適応化部917に相当する。ここにおいては、クリーン音響モデルA:104Aと雑音適応音響モデルB:118−Bの状態連鎖構造、状態における確率分布数を含む構造は等しいものとするが、構造が異なる場合でも容易に拡張することができる。このクリーン音響モデルA:104−Aと雑音適応音響モデルB:118−Bを入力として、音響モデルパラメータ変化量計算部119において、雑音適応化によるクリーン音響モデルA:104−Aの各パラメータ、状態遷移確率、要素確率分布の平均・分散・分布重み、の変化量を計算する。一方、音響モデル構造参照関係決定部120において、別のクリーン音響モデルC:104−Cの各パラメータが参照するクリーン音響モデルA:104−Aの各パラメータを決定する。次に、音響モデルパラメータ調整部121において、雑音適応化によるクリーン音響モデルA:104−Aの各パラメータの変化量と、別のクリーン音響モデルC:104−Cとクリーン音響モデルA:l04−Aの参照関係を基に、別のクリーン音響モデルC:104−Cの各パラメータを調整し、雑音適応音響モデルD:118−Dを作成する。
図2は図1における4つの音響モデルを音素HMMのレベルで示した図である。この図2を参照して、この発明による音響モデル雑音適応化装置において、別のクリーン音響モデルC:204−Cの状態遷移確率が調整される仕組みについて説明する。なお、ここにおける説明は、音素HMMの構造が上述した3状態のleft−to−right型であるものとするが、他の構造の場合でも容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部219において、クリーン音響モデルA:204−Aと雑音適応音響モデルB:218−Bの対応する状態の遷移確率(クリーン音響モデルA:204Aと雑音適応音響モデルB:218−Bは構造が同じであるので、状態遷移確率の対応は1対1にとることができる)より、雑音適応化によるクリーン音響モデルA:204−Aの状態遷移確率の変化率を計算する。次に、音響モデル構造参照決定部220における処理を説明するが、ここにおいては、別のクリーン音響モデルC:204−Cに含まれる音素HMMとして、音素p−a−t(triphone)を例に挙げて説明する。音響モデル構造参照決定部220おける、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMの検索方法には、幾つかのバリエーションが考えられるが、最も一般的な方法としては、前後の音素環境依存性を段階的に無視して行く方法である。この方法は、先ず、クリーン音響モデルA:204−Aに音素p−a−t(triphone)が存在するか否かを検索し、存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(tripbone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素p−a−t(triphone)とする。クリーン音響モデルA:204−Aに音素p−a−t(triphone)が存在しない場合は、音素p−a−t(triphone)に近い音素HMMとして、音素p−a−*(先行音素環境依存biphone)を検索する。クリーン音響モデルA:204−Aに音素p−a−*(先行音素環境依存biphone)が存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素p−a−*(先行音素環境依存biphone)とする。クリーン音響モデルA:204−Aに音素p−a−*(先行音素環境依存biphone)が存在しない場合は、音素p−a−*(先行音素環境依存biphone)の次に音素p−a−t(triphone)に近い音素HMMとして、音素*−a−t(後続音素環境依存biphone)を検索する。先行音素環境依存biphoneと後続音素環境依存biphoneの何れを優先させるかというバリエーションも考えられる。クリーン音響モデルA:204−Aに音素*−a−t(後続音素環境依存biphone)が存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素*−a−t(後続音素環境依存biphone)とする。クリーン音響モデルA:204−Aに音素*−a−t(後続音素環境依存biphone)が存在しない場合は、音素*−a−t(後続音素環境依存biphone)の次に音素p−a−t(triphone)に近い音素HMMとして、音素*−a−*(monophone)を検索する。通常、各音素のmonophone−HMMは音響モデルに含まれるので、音素*−a−*(monophone)は必ず見つかると考えてよい。この様に、最終的には、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMが音素*−a−*(monophone)となる。以上は、前後の音素環境依存性を段階的に無視して行く方法であるが、例えば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMとして、初めから音素*−a−*(monophone)を選択する方法も考えられる。図2の場合は、前後の音素環境依存性を段階的に無視していく方法で、クリーン音響モデルA:204−Aに音素p−a−t(triphone)は存在しなかったが、音素p−a−*(先行音素環境依存biphone)が存在したため、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMは音素p−a−*(先行音素環境依存biphone)となっている。この様にして、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)とクリーン音響モデルA:204−Aの音素HMMは、音素p−a−*(先行音素環境依存biphone)の対応が取れれば、両音素HMMは、3状態のleft−to−right型の構造をとるので、両音素HMMの状態同士の対応もとれる。最後に、音響モデルパラメータ調整部221において、音響モデルパラメータ変化量計算部219で計算された雑音適応化によるクリーン音響モデルA:204−Aの状態遷移確率の変化率と、音響モデル構造参照関係決定部220において決定された別のクリーン音響モデルC:204−Cの各状態とクリーン音響モデルA:204−Aの各状態の対応関係を基に、別のクリーン音響モデルC:204−Cの各状態遷移確率を調整し、雑音適応音響モデルD:218−Dの各状態遷移確率とする。
図3は図1における4つの音響モデルを状態のレベルで示した図である。図3を参照して、図2において例とした別のクリーン音響モデルC:204−Cの音素p−a−tの状態SC1に含まれる要素確率分布のパラメータが調整される仕組みの一例について説明する。なお、この説明は、各状態に含まれる要素確率分布の数は4、かつ各要素確率分布は多次元無相関正規分布であり、その次元iについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部319において、クリーン音響モデルA:304−Aの状態SA1と対応する雑音適応音響モデルB:318−Bの状態SB1から状態SA1の各要素正規分布NA1、NA2、NA3、NA4のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1の最も分布重みの大きい要素正規分布NA3のパラメータ変化量をもって状態SA1における全ての要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量(平均、分散)とする。これは状態SA1に付随するパラメータ変化量と見ることができる。一方、音響モデル構造参照関係決定部320においては、別のクリーン音響モデルC:304−Cの状態SC1とクリーン音響モデルA:304−Aの状態SA1の対応がとれており、この例の場合は、要素正規分布同士の対応は取る必要はない。そして、音響モデルパラメータ調整部321において、音響モデルパラメータ変化量計算部319において計算された状態SA1の最も分布重みの大きい要素正規分布NA3 のパラメータ変化量と、音響モデル構造参照関係決定部320において決定された状態SC1と状態SA1の対応を基に、状態SC1の各要素正規分布のパラメータ(平均、分散)の調整を行い、雑音適応音響モデルD:318−Dの状態SD1の各要素正規分布のパラメータ(平均、分散)とする。この例は、分布重みの調整は行わない。
図4は、図1における4つの音響モデルを状態のレベルで示した図である。図4を参照して、図2において例とした別のクリーン音響モデルC:204−Cの音素p−a−tの状態SClに含まれる要素確率分布のパラメータが調整される仕組みについて、図3とは異なった一例を説明する。なお、この説明は、各状態に含まれる要素確率分布の数は4、かつ各要素確率分布は多次元無相関正規分布であり、その次元iについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部419において、クリーン音響モデルA:404−Aの状態SA1と対応する雑音適応音響モデルB:418−Bの状態SB1から状態SA1の各要素正規分布のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1における各要素正規分布NA1、NA2、NA3、NA4を統合して一つの統合分布NA を作成すると共に、状態SBlにおける各要素正規分布NB1、NB2、NB3、NB4を統合して一つの統合分布NB を作成し、統合分布NA から統合分布NB へのパラメータ変化量をもって状態SA1における全ての要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量(平均、分散)とする。これは、状態SA1に付随するパラメータ変化量と見ることができる。統合分布NA の次元iの平均μAi、分散σ2 Aiおよび分布重みWAは、各要素正規分布NA1、NA2、NA3、NA4の次元iの平均μA1i、μA2i、μA3i、μA4i、分散σ2 A1i、σ2 A2i、σ2 A3i、σ2 A4i;、および分布重みWA1、WA2、WA3、WA4を用いて以下の式で得られる。
Figure 0004510517
統合分布NB についても同様の式で得られる。一方、音響モデル構造参照関係決定部420においては、別のクリーン音響モデルC:404−Cの状態SC1とクリーン音響モデルA:404−Aの状態SA1の対応がとれており、この例の場合は、要素正規分布同士の対応は取る必要はない。そして、音響モデルパラメータ調整部421において、音響モデルパラメータ変化量計算部419において計算された状態SA1の統合分布NA のパラメータ変化量と、音響モデル構造参照関係決定部420において決定された状態SC1と状態SA1の対応を基に、状態SC1の各要素正規分布のパラメータ(平均、分散)の調整を行い、雑音適応音響モデルD:418−Dの状態SD1の各要素正規分布のパラメータ(平均、分散)とする。この例は、分布重みの調整は行わない。
図5は図1における4つの音響モデルを状態のレベルで示した図である。図5を参照して、図2において例とした別のクリーン音響モデルC:204−Cの音素p−a−tの状態SClに含まれる要素確率分布のパラメータが調整される仕組みについて、図3および図4とは異なった一例を説明する。なお、この説明は、各状態に含まれる要素確率分布の数は4、かつ各要素確率分布は多次元無相関正規分布であり、その次元iについて図示されているものとするが、これ以外の条件であっても容易に拡張することができる。
先ず、音響モデルパラメータ変化量計算部519−Aにおいて、クリーン音響モデルA:504−Aの状態SA1と対応する雑音適応音響モデルB:518−Bの状態SB1から状態SA1の各要素正規分布のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1における各要素正規分布NA1、NA2、NA3、NA4と状態SB1における各要素正規分布NB1、NB2、NB3、NB4の対応から、状態SA1における各要素正規分布NA1、NA2、NA3、NA4のパラメ一タ変化量(平均、分散、分布重み)を個別に計算しておく。一方、音響モデル構造参照関係決定部520においては、別のクリーン音響モデルC:504−Cの状態SC1とクリーン音響モデルA:404−Aの状態SA1の対応がとれており、更に、状態SC1の各要素正規分布NC1、NC2、NC3、NC4がそれぞれ参照する状態SA1における要素正規分布を決めるが、この参照関係を、分布間距離を基準に決める。ここにおいては、NC1との分布間距離が最も近い状態SA1の要素正規分布としてNA1が選ばれており、以下、同様に、NC2に対してNA2、NC3に対してNA4、NC4に対してNA4が選ばれている。この様に、状態SC1と状態SA1の要素正規分布数が同じであったとしても、必ずしも要素正規分布同士の対応は1対1になるとは限らない。そして、音響モデルパラメータ調整部521において、音響モデルパラメータ変化量計算部519において計算された状態SA1の各要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量と、音響モデル構造参照関係決定部520において決定された状態SC1における各要素正規分布NC1、NC2、NC3、NC4とそれが参照する状態SA1における各要素正規分布NA1、NA2、NA4を基に、状態SC1の各要素正規分布NC1、NC2、NC3、NC4のパラメータ(平均、分散、分布重み)の調整を行い、雑音適応音響モデルD:518−Dの状態SD1の各要素正規分布ND1、ND2、ND3、ND4のパラメータ(平均、分散、分布重み)とする。
図5の例における分布間距離尺度としては、Kullback−Leiblerダイバージェンスを用いることができる。多次元無相関正規分布N1、N2の次元iにおける平均、分散および分布重みをそれぞれ、(μ1i、σ2 1i)、(μ2i、σ2 2i)とすると、N1 、N2 間のKullback−LeiblerダイバージェンスK(N1 、N2 )は、以下の通りに計算することができる。以下、Iは次元数である。
Figure 0004510517
また、図5の例における他の分布間距離尺度としては、バタチャリヤ距離を用いることができる。多次元無相関正規分布N1、N2間のバタチャリヤ距離B(N1、N2)は、以下の通りに計算することができる。
Figure 0004510517
また、図5の例における他の分布間距離尺度としては、分布を統合してみたときの前後の尤度差分を用いることができる。多次元無相関正規分布Nk の次元iにおける平均、分散および学習データフレーム数をそれぞれ(μki、σ2 ki、Γk)とすると、Nk の尤度(期待値)は、以下の通りに計算することができる。
Figure 0004510517
統合前の多次元無相関正規分布N1 、N2 の尤度をそれぞれP1 、P2 とし、統合後の多次元無相関正規分布Nの尤度をPとすると、統合前後の尤度差分△P(N1 、N2 →N)は、以下の通りに計算することができる。
△P(N1、N2→N)=P1+P2−P ・・・・・式(12)
また、図5の例における他の分布間距離尺度としては、分布統合前後の変分ベイズ法に基づく評価関数値の差分を用いることができる。変分ベイズ法に基づく評価関数値については、参考文献(渡部晋治、南泰浩、中村篤、上田修功、“ベイズ的基準を用いた状態共有型HMM構造の選択”、電子情報通信学会論文誌、D-II,Vol.J86-D-II, No.6, pp.776-786, 2003年6月)に開示されている。
以上の通りであって、図1から図5までを参照して説明してきた音響モデル雑音適応化装置を用いれば、既存の雑音適応化の結果を用いて、マルチコンディション音声データなどの雑音を付加された音声データを新たに準備することなく、瞬時に音響モデルの雑音適応を行うことができる。即ち、一例として、多数の女性の雑音のない音声データを用いて学習されたクリーン女声音響モデルの雑音適応化を実施しようとする場合、多数の男性の雑音のない音声データを用いて学習されたクリーン男声音響モデルと、それをマルチコンディション学習により雑音適応化した雑音適応男声音響モデルがあれば、新たに雑音が付加された女声音声データを準備してマルチコンディション学習する必要はなく、男声音響モデルの雑音適応化結果をそのまま用いて瞬時に雑音適応を行うことができる。
また、雑音適応化によるパラメータの変化量が、話者の個別の音声の特徴などによらないと仮定すれば、図1から図5までのクリーン音響モデルAとしては、多数の話者の大量の音声データを用いて学習した音響モデルでなくとも、例えば、一人の話者の少量の音声データを用いて学習した音響モデルでも差し支えない。この様な少量の音声データで学習された音響モデルであれば、マルチコンディション学習に必要なデータ記憶容量も計算時間も少なく抑えることができ、雑音適応化も容易である。更に簡単化するのであれば、音素HMMとしてmonophone−HMMのみで構成される様なクリーン音響モデルAを用いることもできる。
実施例を説明する図。 実施例において状態遷移確率の調整をする仕方を説明する図。 実施例において最も分布重みの大きい要素分布のパラメータ変化量を基に分布パラメータを調整する仕方を説明する図。 実施例において統合分布のパラメータ変化量を基に分布パラメータを調整する仕方を説明する図。 実施例において各要素分布のパラメータ変化量を基に分布パラメータを調整する仕方を説明する図。 音声認識装置の従来例を説明する図。 音響モデルにおける状態の構造の一例を説明する図。 音響モデルにおける音素HMMの構造の一例を説明する図。 マルチコンディション学習を説明する図。
符号の説明
104−A クリーン音響モデルA
104−C 別のクリーン音響モデルC
117 雑音適応化部
118−B 雑音適応音響モデルB
118−D 新規の雑音適応音響モデルD
119 音響モデルパラメータ変化量計算部
120 音響モデル構造参照関係決定部
121 音響モデルパラメータ調整部

Claims (9)

  1. 雑音のない音声データで学習されたクリーン音響モデルAと当該クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBとを準備し、
    クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化によるクリーン音響モデルAの各状態のパラメータ変化量を計算し、
    雑音のない音声データで学習された別のクリーン音響モデルCとクリーン音響モデルAとを入力し、別のクリーン音響モデルCの各状態とクリーン音響モデルAの各状態の対応関係を音素環境依存性により決定し、
    計算されたクリーン音響モデルAの雑音適応化による各状態のパラメータ変化量と、決定されたクリーン音響モデルAの各状態と別のクリーン音響モデルCの各状態との対応関係とを入力し、別のクリーン音響モデルCの各状態のパラメータを、該音響モデルCに対応すると決定された音響モデルAの各状態の雑音適応化によるパラメータ変化量を用いて調整して、新規の雑音適応音響モデルDを作成することを特徴とする音響モデル雑音適応化方法。
  2. 雑音のない音声データで学習されたクリーン音響モデルAを具備し、
    クリーン音響モデルAを入力してこれを雑音適応化する雑音適応化部を具備し、
    クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBを具備し、
    クリーン音響モデルAと雑音適応音響モデルBとを入力して、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化によるクリーン音響モデルAの各状態のパラメータ変化量を計算する音響モデルパラメータ変化量計算部を具備し、
    雑音のない音声データで学習された別のクリーン音響モデルCクリーン音響モデルAとを入力し、別のクリーン音響モデルCの各状態とクリーン音響モデルAの各状態の対応関係を音素環境依存性により決定する音響モデル構造参照関係決定部を具備し、
    音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルAの雑音適応化による各状態のパラメータ変化量と音響モデル構造参照関係決定部において決定されたクリーン音響モデルAの各状態と別のクリーン音響モデルCの各状態との対応関係とを入力し、別のクリーン音響モデルCの各状態のパラメータを音響モデル構造参照関係決定部において決定された該音響モデルCに対応する音響モデルAの各状態の雑音適応化によるパラメータ変化量を用いて調整して新規の雑音適応音響モデルDを作成する音響モデルパラメータ調整部を具備することを特徴とする音響モデル雑音適応化装置。
  3. 雑音のない音声データで学習されたクリーン音響モデルAを具備し、
    クリーン音響モデルAを入力してこれを雑音適応化する雑音適応化部を具備し、
    クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBを具備し、
    クリーン音響モデルAと雑音適応音響モデルBとを入力して、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化によるクリーン音響モデルAの各状態の状態遷移確率の変化率と各状態において重みの最も大きい分布のパラメータ変化量を計算する音響モデルパラメータ変化量計算部を具備し、
    雑音のない音声データで学習された別のクリーン音響モデルCとクリーン音響モデルAとを入力し、別のクリーン音響モデルCの各状態とクリーン音響モデルAの各状態の対応関係を音素環境依存性により決定する音響モデル構造参照関係決定部を具備し、
    音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルAの雑音適応化による各状態の状態遷移確率の変化率と各状態において重みの最も大きい分布のパラメータ変化量と、音響モデル構造参照関係決定部において決定されたクリーン音響モデルAの各状態と別のクリーン音響モデルCの各状態との対応関係とを入力し、別のクリーン音響モデルCの各状態の状態遷移確率と各状態における全ての分布のパラメータを、音響モデル構造参照関係決定部において決定された該音響モデルCに対応する音響モデルAの各状態の雑音適応化による状態遷移確率の変化率と各状態において重みの最も大きい分布のパラメータ変化量を用いて調整して新規の雑音適応音響モデルDを作成する音響モデルパラメータ調整部を具備することを特徴とする音響モデル雑音適応化装置。
  4. 請求項2に記載される音響モデル雑音適応化装置において、
    音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とすることを特徴とする音響モデル雑音適応化装置。
  5. 請求項2に記載される音響モデル雑音適応化装置において、
    音響モデルパラメータ変化量計算部は、さらに、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化によるクリーン音響モデルAの各状態の各分布のパラメータ変化量である分布パラメータ変化量を計算し、
    音響モデル構造参照関係決定部は、さらに、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定し、
    音響モデルパラメータ調整部は、音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルAの雑音適応化による各状態の各分布パラメータ変化量と、音響モデル構造参照関係決定部において決定されたクリーン音響モデルAの各状態の各分布と別のクリーン音響モデルCの各状態の各分布との対応関係とを入力し、別のクリーン音響モデルCの各状態の各分布パラメータを、音響モデル構造参照関係決定部において決定された該音響モデルCに対応する音響モデルAの各状態の各分布の雑音適応化による分布パラメータ変化量を用いて調整して新規の雑音適応音響モデルDを作成することを特徴とする音響モデル雑音適応化装置。
  6. 請求項5に記載される音響モデル雑音適応化装置において、
    分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いることを特徴とする音響モデル雑音適応化装置。
  7. 請求項5に記載される音響モデル雑音適応化装置において、
    分布間距離尺度として、バタチャリヤ距離を用いることを特徴とする音響モデル雑音適応化装置。
  8. 請求項5に記載される音響モデル雑音適応化装置において、
    分布間距離尺度として、分布統合前後の尤度差分を用いることを特徴とする音響モデル雑音適応化装置。
  9. 請求項5に記載される音響モデル雑音適応化装置において、
    分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いることを特徴とする音響モデル雑音適応化装置。
JP2004156037A 2004-05-26 2004-05-26 音響モデル雑音適応化方法およびこの方法を実施する装置 Expired - Fee Related JP4510517B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004156037A JP4510517B2 (ja) 2004-05-26 2004-05-26 音響モデル雑音適応化方法およびこの方法を実施する装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004156037A JP4510517B2 (ja) 2004-05-26 2004-05-26 音響モデル雑音適応化方法およびこの方法を実施する装置

Publications (2)

Publication Number Publication Date
JP2005338358A JP2005338358A (ja) 2005-12-08
JP4510517B2 true JP4510517B2 (ja) 2010-07-28

Family

ID=35492021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004156037A Expired - Fee Related JP4510517B2 (ja) 2004-05-26 2004-05-26 音響モデル雑音適応化方法およびこの方法を実施する装置

Country Status (1)

Country Link
JP (1) JP4510517B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020241923A1 (ko) * 2019-05-29 2020-12-03 엘지전자 주식회사 사용자 환경에서의 음성 인식 모델의 성능을 예측하는 인공 지능 장치 및 그 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4571921B2 (ja) * 2006-03-15 2010-10-27 日本電信電話株式会社 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体
JP5041934B2 (ja) * 2006-09-13 2012-10-03 本田技研工業株式会社 ロボット
US8107735B2 (en) 2007-04-10 2012-01-31 Denso Corporation Three dimensional shape reconstitution device and estimation device

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0822296A (ja) * 1994-07-07 1996-01-23 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法
JPH08248976A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
JPH0990981A (ja) * 1995-09-22 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> パターン認識のためのモデル学習方法
JPH09114483A (ja) * 1995-10-23 1997-05-02 Sanyo Electric Co Ltd Hmmの学習装置
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JP2000010582A (ja) * 1998-06-19 2000-01-14 Nec Corp 音声認識装置
JP2002268675A (ja) * 2001-03-13 2002-09-20 Nec Corp 音声認識装置
JP2003263186A (ja) * 2002-03-08 2003-09-19 Ricoh Co Ltd 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体
JP2004109464A (ja) * 2002-09-18 2004-04-08 Pioneer Electronic Corp 音声認識装置及び音声認識方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0822296A (ja) * 1994-07-07 1996-01-23 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法
JPH08248976A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
JPH0990981A (ja) * 1995-09-22 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> パターン認識のためのモデル学習方法
JPH09114483A (ja) * 1995-10-23 1997-05-02 Sanyo Electric Co Ltd Hmmの学習装置
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JP2000010582A (ja) * 1998-06-19 2000-01-14 Nec Corp 音声認識装置
JP2002268675A (ja) * 2001-03-13 2002-09-20 Nec Corp 音声認識装置
JP2003263186A (ja) * 2002-03-08 2003-09-19 Ricoh Co Ltd 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体
JP2004109464A (ja) * 2002-09-18 2004-04-08 Pioneer Electronic Corp 音声認識装置及び音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020241923A1 (ko) * 2019-05-29 2020-12-03 엘지전자 주식회사 사용자 환경에서의 음성 인식 모델의 성능을 예측하는 인공 지능 장치 및 그 방법
US11211045B2 (en) 2019-05-29 2021-12-28 Lg Electronics Inc. Artificial intelligence apparatus and method for predicting performance of voice recognition model in user environment

Also Published As

Publication number Publication date
JP2005338358A (ja) 2005-12-08

Similar Documents

Publication Publication Date Title
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
Gales Model-based techniques for noise robust speech recognition
US7065488B2 (en) Speech recognition system with an adaptive acoustic model
US6327565B1 (en) Speaker and environment adaptation based on eigenvoices
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
JP2002014692A (ja) 音響モデル作成装置及びその方法
Liao et al. Uncertainty decoding for noise robust speech recognition
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
Gales et al. Model-based approaches to handling additive noise in reverberant environments
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JP4510517B2 (ja) 音響モデル雑音適応化方法およびこの方法を実施する装置
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
KR20020020237A (ko) 스피치를 인식하기 위한 방법
JP2007078943A (ja) 音響スコア計算プログラム
Kurian A review on technological development of automatic speech recognition
JP2004509364A (ja) 音声認識システム
Sodanil et al. Thai word recognition using hybrid MLP-HMM
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
GB2480084A (en) An adaptive speech processing system
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体
JP4004368B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100430

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees