JP2010019941A - 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 - Google Patents

音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 Download PDF

Info

Publication number
JP2010019941A
JP2010019941A JP2008178572A JP2008178572A JP2010019941A JP 2010019941 A JP2010019941 A JP 2010019941A JP 2008178572 A JP2008178572 A JP 2008178572A JP 2008178572 A JP2008178572 A JP 2008178572A JP 2010019941 A JP2010019941 A JP 2010019941A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition model
model
updated
initial value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008178572A
Other languages
English (en)
Other versions
JP4964194B2 (ja
Inventor
Shinji Watabe
晋治 渡部
Takaaki Hori
貴明 堀
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008178572A priority Critical patent/JP4964194B2/ja
Publication of JP2010019941A publication Critical patent/JP2010019941A/ja
Application granted granted Critical
Publication of JP4964194B2 publication Critical patent/JP4964194B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】適応学習を効率よく行う。
【解決手段】この発明の音声認識モデル作成装置は、初期値音声認識モデル記録部と、モデル更新部と、更新音声認識モデル記録部とを具備する。初期値音声認識モデル記録部は、複数の音声認識モデルを含む初期値音声認識モデルを記録する。モデル更新部は、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された単語列を入力として初期値音声認識モデルを1つのベクトルとして更新した更新音声認識モデルを生成する。更新音声認識モデル記録部は、更新音声認識モデルを記録する。
【選択図】図2

Description

この発明は、音声認識モデルを効率良く学習する音声認識モデル作成装置とその方法と、その方法を用いた音声認識装置と音声認識方法と、プログラムと記録媒体に関する。
音声認識装置は、入力される音声信号を分析して得られる音響的特徴量ベクトルの系列と、音声をモデル化した音響モデルとの間の尤度を算出し、認識すべき語彙、単語間の接続のし易さ、規則を表わす言語モデルなどの言語的制約の中において、尤度の最も高い単語列を認識結果として出力するものである。音声認識が対象とする音声は、一般に、様々な話者や言語、ノイズ等の外部環境によってその特徴を大きく変化させるものである。そのような多様な特徴を持つ音声を認識するために、複数の音声認識モデルを用いて音声認識を行う音声認識手法が広く研究されている。
例えば非特許文献1に、音響環境として英語・ドイツ語が混在した音声認識を対象とし、両言語用の2種類の音声認識モデルを用意することで言語の切り替えに関して頑健な音声認識を実現した例が示されている。また、非特許文献2には、多人数が参加する会議における複数話者混在の音声認識を対象に、複数の音声認識モデルを用意することで話者切り替えに関して頑健な音声認識を実現した例が示されている。非特許文献2の例では、各話者の音声認識モデル毎に適応学習を行うことにより、音声認識装置の性能改善を実現している。適応学習とは、音声認識装置に記録された限られた音声認識モデルを、実際に使用される場面における話者や環境によって変わる音響的特徴に適応させることである。
従来の複数の音響モデルを用意した音声認識装置900の機能構成例を図9にし、その動作を簡単に説明する。音声認識装置900は、音声認識モデル90、A/D変換部91、特徴量抽出部92、音声認識部93、適応学習部94を備える。
音声認識モデル90は、例えば複数の言語や複数の話者に対応した音声認識モデルである。例えば、ある一人の話者用の第1音声認識モデル901は、第1音響モデルメモリ901aと第1言語モデルメモリ901bと第1発話辞書モデルメモリ901cとで構成される。他の話者用の第2音声認識モデル902も同様に第2音響モデルメモリ902aと第2言語モデルメモリ902bと第2発話辞書モデルメモリ902cとで構成される。
A/D変換部91は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量抽出部92は、離散値化された音声信号を例えば320個を1フレーム(20ms)とし、フレーム毎の音声信号から特徴量ベクトルを抽出する。特徴量ベクトルは、例えばメル周波数ケプストラム係数(MFCC)分析によって抽出される。音声認識部93は、スコア計算部931と単語列探索部932とからなる。スコア計算部931は、特徴量ベクトルと、音声認識モデル901からの言語モデルと、音響モデルとを入力として、特徴量ベクトルに対するスコアを算出する。単語列探索部932は、スコアが最大となる単語列を発話辞書モデルメモリ901cから探索して認識結果として出力する。適応学習部94は、単語列探索部932の出力する単語列を教師信号として、第1音声認識モデル901と第2音声認識モデル902毎に適応処理を行う。
Z.Wamg, U.Topkara, T.Schultz, and A.Waibel. Towards universal speech recognition.In Proc.ICMI2002,2002. 田熊竜太,岩野公司,古井貞煕「逐次話者適応を用いた並列処理型会議音声認識システムの検討」春季音響学会講演論文集、p105-106,2002.
従来法による複数の音声認識モデルの適応学習では、各音声認識モデルに対して独立に適応学習を行うので、適応学習データを複数のモデルに分配することになり、割り当てられるデータ量が単一モデルの適応学習と比較して少なくなる。そのため、データ量の減少により適応学習の効果が限定的となってしまう課題があった。
この発明は、このような点に鑑みてなされたものであり、複数の音声認識モデルの適応学習を効率良く行える音声認識モデル作成装置とその方法と、その方法を用いた音声認識装置と音声認識方法と、プログラムとその記録媒体を提供することを目的とする。
この発明の音声認識モデル作成装置は、初期値音声認識モデル記録部と、尤度計算部と、モデル更新部と、更新音声認識モデル記録部とを具備する。初期値音声認識モデル記録部は、複数の音声認識モデルを含む初期値音声認識モデルを記録する。尤度計算部は、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された状態列の集合を入力としてフレーム毎の各状態の尤度と特徴量ベクトルとを計算する。モデル更新部は、尤度と特徴量ベクトルとを入力として、初期値音声認識モデルを1つのベクトルとして更新した更新音声認識モデルを生成する。更新音声認識モデル記録部は、更新音声認識モデルを記録する。
この発明の音声認識モデル作成装置は、複数の音声認識モデルを含む初期値音声認識モデルを1つのベクトルとして扱う。そして初期値音声認識モデルを、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された音声認識結果を用いて更新する。つまり、複数の音声認識モデルがまとめて学習できるので、少量の音声データでも十分な適応学習の効果を得ることが出来る。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔この発明の基本的な考え〕
この発明の音声認識モデルの作成方法の基本的な考えについて説明する。現在広く用いられる確率統計的音声認識方法は、確率モデルを用いて音声認識過程を音声データと単語(若しくは音素、HMM(Hidden Markov Model))の出現確率(尤度関数)として表現し、事後確率最大化や尤度最大化等の確率統計的評価規範を用いて音声認識のためのパラメータ推定を行う方法である。この発明の音声認識モデル作成方法も、この確率統計的評価規範を用いる部分では同じである。
この発明が従来法と異なる点は、複数の音声認識モデルを含む初期値音声認識モデルを1つのベクトルとして扱い、その初期値音声認識モデルを、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された音声認識結果を用いて適応学習させる部分である。なお、ここで音声認識結果としては、単語列や音素列、HMM状態列などの音声シンボル列がそれにあたる。これらを総称して状態列と呼ぶ。また、状態列は単一の系列だけでなく、上位スコアn個の状態列の集合(n−best)やラティスなどの音声認識ネットワークのサブネットワークなどから、集合として表現される。これらを総称して状態列の集合と呼ぶ。
特徴量抽出部92が出力する音響特徴量の特徴量ベクトルの時系列集合O={Ot=1,Ot=2,…}が、一つの音源Aが出力する時系列集合の部分集合Oe=1={Oe=1,t=1,Oe=1,t=2,…}と、他の音源Bが出力する時系列集合の部分集合Oe=2={Oe=2,t=1,Oe=2,t=2,…}とに分かれていると仮定する。ここで、音源Aに対応した音声認識モデルをe=1、音源Bに対応した音声認識モデルをe=2とする。なお、ここでは説明のし易さのため2つの音源を対象にしているが、3つ以上の音源の場合も同様である。音源Aが出力する特徴量ベクトルの時系列集合をOe=1,音声認識モデルをΘe=1,隠れ変数をZe=1={Ze=1,t=1,Ze=1,t=2,…}とする。ここで隠れ変数とは、どの対象に属しているか観測できない変数のことである。HMMを用いた音声認識モデルの場合は隠れ変数Ze=1は各フレーム時刻におけるHMM状態のIDを表す。このとき完全データの尤度関数は式(1)で表現できる。
Figure 2010019941
また音声認識モデルe=2に対しても同様に完全データの尤度関数は式(2)で表現できる。
Figure 2010019941
このように各モデルの時系列集合の部分集合Oe=1,Oe=2が予め与えられれば、その尤度関数を独立に与えることができる。しかし、一般には音声認識をする音声データが、音源Aか音源Bのどちらの音であるかは分からない。そこで、この発明では、各フレーム時刻tにおいて音源A又は音源Bのどちらの音声が出現するかを表す隠れ変数U={Ze=1,t,Ze=2,t,}を新たに導入する。その結果、全体の隠れ変数は式(3)に示すようにZe=1,Ze=2,とU={Ut=1,Ut=2,…}で構成される。
Figure 2010019941
Zの取り得る値としては、実際には各時刻で任意のHMM状態系列が出現するのではなく、発音規則(発音辞書モデル)や単語の接続のし易さ(言語モデル)を考慮した、スコア付きの音声認識ネットワーク上の状態系列が出現する。音声認識で一般的に用いられる音声認識ネットワーク(状態確率遷移の時系列)は、HMM(H),辞書(L),文法(G)の3つのネットワークの合成で構成される。音声認識ネットワークNは、それらのネットワークを合成演算した式(4)で表現される。
Figure 2010019941
ここで○は合成演算を表し、*はネットワークのループを表現する。
同一言語・2話者の対話環境を考えた場合、辞書や文法のモデルは同一で、HMMネットワークのみが異なる状態確率遷移の時系列を用意すれば良い。この場合の音声認識ネットワークNは、文間で遷移が起こると考えて、式(5)に示すように2つの音声認識ネットワークを結合させることによって構築できる。
Figure 2010019941
ここでU(+)は2つのネットワークをユニオン演算を用いて始端と終端を一致させる、ネットワークに対する二項演算である。(+)はユニオン演算を表す。(+)は式中の表記が正しい。図1にユニオン演算を概念的に示す。Nは状態数14、アーク数27のネットワークであり、Nは状態数8、アーク数8のネットワークである。ネットワークNとNをユニオン演算すると、始端と終端を一致させて2つのネットワークを並列して記述することができる。式(5)の演算は、音声認識ネットワーク(He=1・L・G)と(He=2・L・G)の2つの選択肢を与えることを意味する。なお、どちらのネットワークが選択されるかについては、探索過程における事後確率値や尤度値などのスコアの高いものが選ばれる。このように、式(5)で表現される合成されたネットワーク上で探索を行うことにより、複数の音源が混在する場合における、音声認識結果ならびに後述する学習のための状態列の集合を求めることができる。
この発明では、式(5)に示すような複数の音声認識モデルの組み合わせから成る音声認識ネットワークを記録した音声認識ネットワークデータベースを備える。また、音声認識モデルの初期値として式(6)に示す初期値音声認識モデルμを備える。適応学習により更新された音声認識モデルの平均ベクトルμも式(6)と同じ1つのベクトルとして扱われる。
Figure 2010019941
式(6)は平均ベクトルのみを示すが、分散行列Σや混合重みw、状態遷移確率aについても同様にベクトルとしてまとめることにより、複数の音声認識モデルが1つのベクトルとして扱われる。その複数の音声認識モデルが1つのベクトルとして扱われた初期値音声認識モデルΘと、式(3)の隠れ変数Zを用いると尤度関数は式(7)で表現できる。
Figure 2010019941
このように、この発明では合成されたネットワークZ及びモデルパラメータΘを用いて、複数環境の音声認識を式(1)と式(2)で表現される単一の音声認識モデルと同様の尤度関数を用いて実現できる。つまり、式(7)を用いることにより、音声認識デコーダ(音声認識部)を変更することなく、複数環境の音声認識を実現できる。
この発明の音声認識モデルの作成方法は、式(7)の尤度関数と複数の音声認識モデルが1つのベクトルとして扱われた初期値音声認識モデルΘとから、式(8)に示す音声認識に使用される更新音声認識モデルΘ ̄を生成する。
Figure 2010019941
初期値音声認識モデルΘと更新音声認識モデルΘ ̄とは、関数F(・)を用いてパラメットリックに表現され、関係パラメータφによって関係付けられる。このようにこの発明の音声認識モデル作成方法は、複数の音声認識モデルを1つのベクトルとして一度に学習できるので、少量の音声データでも十分な適応学習の効果を得ることができる。
図2にこの発明の音声認識モデル作成装置100と、それを構成要素とする音声認識装置200の機能構成例を示す。図3に音声認識モデル作成装置100の動作フローを示す。図2と図3を参照して音声認識モデル作成装置100の動作を説明する。
音声認識モデル作成装置100は、初期値音声認識モデル記録部10と、モデル更新部12と、尤度計算部13と、更新音声認識モデル記録部14と、制御部16とを備える。音声認識モデル作成装置100と音声認識装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
初期値音声認識モデル記録部10は、複数の音声認識モデルを含む初期値音声認識モデルを記録する。尤度計算部13は、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された状態列の集合を入力としてフレーム毎の各状態の尤度を計算する(ステップS13)。
ここで、フレームと各状態とガウス分布と、状態確率遷移との関係について説明する。音声認識モデルを構成する音素モデルは、図4に示す状態によって構築される。各状態iは、混合正規分布Mとして表現される。混合正規分布Mは、例えば3つの正規分布、N(μi1,Σi1),N(μi2,Σi2),N(μi3,Σi3)で構成される。
音素モデルは、状態iの数個〜十数個程度の確率連鎖によって構築される。図5に3状
態で構成される音素モデルの概念図を一例として示す。図5に示す例は、left−to−r
ight型HMMと呼ばれるもので、3つの状態i(第1状態)、i(第2状態)、i(第3状態)を並べたものであり、状態の確率連鎖(状態遷移)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。図6に、状態iとフレームtとの時系列の関係を示す。横軸は時間経過でありフレーム番号で表す。縦軸は、各フレームの状態iである。各状態iは図4に示したように混合正規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態である。最尤状態●を時系列に並べたのが最尤状態系列である。この最尤状態系列が音声認識結果として出力される。
尤度計算部13は、各状態iの尤度p(O,Z=i|Θ^)を、例えばフォワード・バックワードアルゴリズムで求める。各状態iの尤度p(O,Z=i|Θ^)は、フォワード係数αとバックワード係数βを用いて式(9)で計算できる。尤度pと特徴量ベクトルOは、改めて尤度計算部13で計算しなくても、事前に音声認識装置で求められたそれらの値を記録して置き、逐次読み出すようにしても良い。
Figure 2010019941
フォワード係数αとバックワード係数βは、最尤推定法(EMアルゴリズム)における
反復計算によって式(10)と(11)で計算される。
Figure 2010019941
ここで、kは状態iを構成するガウス分布の指標である。aijは状態iがiからjに遷移する際の状態遷移確率、wjkは状態jにおけるガウス分布kに対する混合重み因子、Nは平均ベクトルμjk、共分散行列Σjkのガウス分布を表す。式(10)と(11)中の^は、上記した各パラメータが、期待値最大化法における反復計算の前のステップで推定された値であることを示している。
モデル更新部12は、尤度を入力として、初期値音声認識モデルを1つのベクトルとして更新した更新音声認識モデルを生成する(ステップS12)。更新音声認識モデル記録部14は、更新音声認識モデルを記録する(ステップS14)。モデル更新部12と更新音声認識モデル記録部14は、制御部16が動作終了を指示する信号を発するまで動作を継続する(ステップS16のN)。
このようにモデル更新部12が、複数の音声認識モデルを含む初期値音声認識モデルを1つのベクトルとして扱って適応学習を行うので、少量の音声データでも十分な適応学習の効果を得ることが出来る。図7に音声認識モデル作成装置100のモデル更新部12の詳細な機能構成例を示して更に詳しく説明する。
モデル更新部12は、事後確率計算部121と、関係パラメータ生成部122と、更新モデル生成部123とを備える。事後確率計算部121は、フレーム時刻tにおける状態iの事後確率を式(12)の計算で求める(ステップS121、図3)。事後確率は、各状態iの尤度(式(9))をフレーム内状態尤度の総和で正規化した値である。
Figure 2010019941
音声認識モデルの中で最も認識性能に寄与するパラメータは、ガウス分布中の平均ベク
トルである。したがって以降の説明は、平均ベクトルについての適応学習について説明を
行う。音声認識モデルの平均ベクトルに焦点を当てた場合、補助関数Qは式(13)に示
す具体系に書き直すことができる。
Figure 2010019941
ここで、ζe,k,tは、フレーム時刻tにおける音源Aに対応した音声認識モデルeのガウス分布kに割り当てられた事後確率である。このガウス分布毎の事後確率値ζe,k,tは、各状態iの事後確率を計算したのと同じように事後確率計算部121において、各ガウス分布k毎に計算される。
式(13)の補助関数Qは、式(14)で表現できる。
Figure 2010019941
ここで´は行列の転置を表す。ζe,kは式(15)、me,kは式(16)で表せる十分統計量である。
Figure 2010019941
更に式(14)の補助関数Qは、式(17)で表現することができる。
Figure 2010019941
ここでμは、式(18)に示すように複数の音声認識モデルを1つのベクトルとして扱
ったものである。
Figure 2010019941
更に、
Figure 2010019941
である。このように複数音声認識モデルの補助関数Qは、全音声認識モデルの平均ベクト
ルμの2次形式(式(17)の右辺第1項)で表現することができるので、安定した解が
得られる。そして、この実施例の適応学習は、初期値音声認識モデルの平均ベクトルμ
と推定すべきμに対して式(21)に示す線形変換を仮定する。
Figure 2010019941
ここでB=(A,b),ξ=((μ)´,1)´である。行列Aは、非対角成分において複数音声認識モデル間のパラメータの相関関係を考慮したものである。
関係パラメータ生成部122は、式(17)に、式(21)を代入してBについてのa
rgmaxを取る演算をすることにより、適応データからパラメータA,bを最尤推定法により推定する(ステップS122)。パラメータA,bは、式(4)と(17)に示したφに相当するものである。
しかし、A,bは巨大な行列(数10万次元以上)であるため、適応データのみでそれらを推定するとデータ量が不足し、過学習問題が生じる。この過学習を解決するためには、行列Aのブロック化を行い、非対角要素を0と近似する。また、bについてもブロック化することで、変換式(21)は式(22)のように書き直せる。
Figure 2010019941
つまり、各平均ベクトルμe,kがAe,k,be,kによって変換される。また、複数の平均ベクトルでA,bを共有することにより推定すべきパラメータを更に減らすことができる。これは、平均ベクトル集合に対して事前にクラスタリングを行い、クラスター中の平均ベクトルを複数含むクラスターをデータ量に応じて求めれば良い。これによりA,bを少ないパラメータで効率よく推定することができる。
A,bのパラメータ削減のための平均ベクトル集合に対するクラスタリングには、音響
モデル適応の代表的手法である最尤線形回帰法などでよく用いられるガウス分布共有木を
用いれば良い。ガウス分布共有木は、単一のガウス分布をリーフ、それらの集合をノード
とする木構造を用いてガウス分布の集合を表現する手法である。このとき、どのガウス分
布を一つの集合とするかについては、ユークリッド距離などの分布間距離が用いられる。
例えば2分木の場合は、分布間距離の近い2つのガウス分布を1つのノードとして表現す
る。複数音響モデルに対するガウス分布共有木の構築については、次の2種類がある。
(1)合成前の環境依存音響モデルそれぞれに対して独立に分布間距離を用いて共有木を
構築し、それらのルートノードを小ノードとする共通の親ノードを用意することにより、
共有木を合成する。この場合、回帰行列は同一話者内で共有されるため、話者性情報を利
用した共有構造が構築される。
(2)複数モデルを合成した音響モデルに対して分布間距離を用いてクラスタリングを行
い共有木を構築する。この場合、回帰行列は複数話者にまたがって分布間距離の近いガウ
ス分布に対して共有される。つまり、話者性情報は直接的には考慮されず、音韻的に近い
ガウス分布が共有されることが想定される。
後述するシミュレーションでは、2種類の共有木を用いた手法を組み合わせて、初めに
上記した(2)を用いた適応実験を行い、そのモデルを初期モデルにして上記した(1)
を用いた適応実験を行った。
更新モデル生成部123は、関係パラメータ生成部122からのパラメータA,bと、初期値音声認識モデル記録部10に記録された初期値音声認識モデルμを入力として式(21)の計算を行って音声認識モデルを更新する(ステップS123)。
以上述べたように実施例1に示す音声認識モデル作成装置100は、複数の音声認識モデルを含む初期値音声認識モデルを1つのベクトルとして扱い、その初期値音声認識モデルを、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された音声認識結果を用いて更新する。したがって、複数の音声認識モデルがまとめて学習できるので、少量の音声データでも十分な適応学習の効果を得ることが出来る。
〔音声認識装置〕
実施例1で説明した音声認識モデル作成装置100は、音声認識装置に利用することが可能である。音声認識モデル作成装置100を用いた音声認識装置200の機能構成例を図7に示す。その動作フローを図8に示す。音声認識装置200は、音声認識モデル作成装置100と、音声認識ネットワークデータベース22と、A/D変換部91と、特徴量抽出部92と、スコア計算部931と、音声認識ネットワーク選択部201とを備える。A/D変換部91、特徴量抽出部92、スコア計算部931は、従来技術で説明した音声認識装置900と同じものである。よって、音声認識ネットワークデータベース22と、音声認識ネットワーク選択部201とについて説明する。
音声認識ネットワークデータベース22は、複数の音声認識モデルの組み合わせから成る状態確率遷移を記録する。式(5)と図1に示した複数の音声認識モデルを含む音声認識ネットワークを記録したものである。式(5)は、同一言語・2話者の対話環境を考えた場合の音声認識ネットワークの結合を意味する。多言語音声認識のように、単語や文法自体も異なる環境では、それぞれのネットワークを準備して式(23)に示すようにして音声認識ネットワークデータベース22を構築する。式(23)は発話間遷移の場合である。単語間遷移であれば式(24)で構築できる。
Figure 2010019941
このように、同一言語複数話者や多言語環境における発話(単語)間遷移モデルなどの多様な音響環境モデルの構築は、ネットワーク同士の合成演算やユニオン演算等で実現でき、これらは重み付有限状態トランスデューサ(WFST,これを用いた音声認識デコーダをWFST型デコーダという)等の既存アリゴリズムを用いて効率良く行うことができる。WFST型デコーダでは、音響モデルはHMM状態のIDとそこに含まれる混合ガウス分布モデルのパラメータ値の情報のみを扱う。従って、複数の音響モデルの合成に関しては、各モデルのHMM状態のIDと相当する混合ガウス分布モデルのパラメータ値を合成音響モデルに追加して行けば良い。その際のID番号の重複に注意が必要である。また、相当するWFST中のHMM状態IDもそれに合わせて変更する必要がある。
音声認識ネットワーク選択部201は、スコア計算部931が音響特徴量と、音声認識モデル作成装置100が更新した更新音声認識モデルとを用いて計算されたスコアが、最も大きくなる状態確率遷移の音声認識ネットワークから成る状態列、若しくはその集合を、音声認識ネットワークデータベース22から選択して音声認識結果として出力する(ステップS201)。音声認識結果の状態列の集合は、音声認識モデル作成装置100の尤度計算部13にも入力され、適応学習の教師信号となる。
音声認識ネットワーク選択部201は、状態列の集合と共に選択した音声認識ネットワークを構成する音声認識モデルの種別eも環境情報として出力するようにしても良い。例えば、音声認識ネットワークデータベース22が、日本語e=1と英語e=2の2種類の音声認識ネットワークを記録していたとすると種別eも出力する。そうすることで、音声認識している環境状況も知り得る効果を奏する。
〔シミュレーション結果〕
この発明の音声認識モデル作成方法の有効性を確認する目的でシミュレーションを行っ
た。シミュレーション条件は、複数の音響環境として、性別依存音響モデル2種類(男性・女性)を用意した。音声認識の条件は、サンプリング周波数を16kHz、量子化数16bit、ウインドウタイプはハミング窓、フレーム長を25ms、フレームシフトを10msとした。言語モデルはトライグラム(新聞記事14年分)、語彙数は700,000個とした。
単語正解精度を、この発明の方法と、従来法の性別非依存の単一音響モデルと複数の音
響モデルを用いた方法と比較した。その結果を表1に示す。
Figure 2010019941
この発明の適応学習による単語正解率が、85.5%と最も良い数値を示し、複数モデルを用いた従来の適応学習方法よりも認識性能を1%改善する効果が得られた。単一モデル適応と比較すると、3%も単語正解精度を高めることができた。このようにこの発明の音声認識モデル作成方法も用いた音声認識装置によれば、単語正解精度を向上させる効果が得られた。
この発明の技術思想に基づく音声認識モデル作成装置とその方法、及び音声認識装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。例えば、上記した実施例では、音声認識モデル作成装置100の構成に尤度計算部13を含む例で説明を行ったが、音声認識装置を構成する場合は、音声認識装置が持つ尤度計算部で計算した尤度、若しくはスコアを用いることで、尤度計算部13は削除することができる。また、初期値音声認識モデル記録部10に初期値音声認識モデルを1つのベクトルとして記録する例で説明を行ったが、初期値音声認識モデル記録部10に複数の音声認識モデルをそれぞれ独立した形で記録して置き、関係パラメータ生成部122でそれぞれの音声認識モデルを1つのベクトルとして扱うようにしても良い。また、音声認識装置200は、A/D変換部91を備える例で説明したが、音声データがディジタル化された音声データファイルである場合は、A/D変換部91は必要がない。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
ユニオン演算を概念的に説明する図。 この発明の音声認識モデル作成装置100と、それを用いた音声認識装置200の機能構成例を示す図。 音声認識モデル作成装置100の動作フローを示す図。 音素モデルを構成する1状態を模式的に示す図。 音素モデルの一例を示す図。 フレームと状態iとの関係を模式的に示す図。 音声認識モデル作成装置100と音声認識装置200の機能構成例を示す図。 音声認識装置200の動作フローを示す図。 従来の複数の音声認識モデルを備えた音声認識装置900の機能構成例を示す図。

Claims (10)

  1. 複数の音声認識モデルを含む初期値音声認識モデルを記録した初期値音声認識モデル記録部と、
    複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された状態列の集合を入力としてフレーム毎の各状態の尤度と特徴量ベクトルとを計算する尤度計算部と、
    上記尤度と特徴量ベクトルとを入力として、上記初期値音声認識モデルを1つのベクトルとして更新した更新音声認識モデルを生成するモデル更新部と、
    上記更新音声認識モデルを記録する更新音声認識モデル記録部と、
    を具備する音声認識モデル作成装置。
  2. 請求項1に記載した音声認識モデル作成装置において、
    上記モデル更新部は、
    上記尤度と特徴量ベクトルとを入力として上記状態を構成するガウス分布毎の事後確率値を計算する事後確率計算部と、
    上記ガウス分布毎の事後確率値と上記初期値音声認識モデルとを入力とし、上記初期値音声認識モデルを1つのベクトルとして更新する関係パラメータを生成する関係パラメータ生成部と、
    上記初期値音声認識モデルを上記関係パラメータで更新した更新音声認識モデルを出力する更新モデル生成部と、
    を備えることを特徴とする音声認識モデル作成装置。
  3. 尤度計算部が、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された状態列の集合を入力としてフレーム毎の各状態の尤度を計算する尤度計算過程と、
    モデル更新部が、上記尤度と特徴量ベクトルとを入力として上記複数の音声認識モデルを含む初期値音声認識モデルを1つのベクトルとして更新した更新音声認識モデルを生成するモデル更新過程と、
    更新音声認識モデル記録部が、上記更新音声認識モデルを記録する更新音声認識モデル記録過程と、
    を含む音声認識モデル作成方法。
  4. 請求項3に記載した音声認識モデル作成方法において、
    上記モデル更新過程は、
    事後確率計算部が、上記尤度を入力として上記状態を構成するガウス分布毎の事後確率値を計算する事後確率計算ステップと、
    関係パラメータ生成部が、上記ガウス分布毎の事後確率値と上記初期値音声認識モデルと特徴量ベクトルとを入力とし、上記初期値音声認識モデルを1つのベクトルとして更新する関係パラメータを生成する関係パラメータ生成ステップと、
    更新モデル生成部が、上記初期値音声認識モデルを上記関係パラメータで更新した更新音声認識モデルを出力する更新モデル生成ステップと、
    を含むことを特徴とする音声認識モデル作成方法。
  5. 請求項1又は2に記載した音声認識モデル作成装置と、
    複数の音声認識モデルの組み合わせから成る状態確率遷移を記録した音声認識ネットワークデータベースと、
    離散値化された音声信号のフレーム毎に特徴量ベクトルを抽出する特徴量抽出部と、
    上記特徴量ベクトルと、上記初期値音声認識モデルとを入力として、上記初期値音声認識モデルを音声認識結果で更新した更新音声認識モデルを用いてスコアを計算するスコア計算部と、
    上記スコアが最も大きくなる上記状態確率遷移の音声認識ネットワークを、上記音声認識ネットワークデータベースから選択して上記音声認識結果として出力する音声認識ネットワーク選択部と、
    を具備する音声認識装置。
  6. 請求項5に記載の音声認識装置において、
    上記音声認識ネットワーク選択部は、上記選択した音声認識ネットワークから環境情報も出力するものであることを特徴とする音声認識装置。
  7. 請求項3又は4に記載した音声認識モデル作成方法を含み、
    特徴量抽出部が、離散値化された音声信号のフレーム毎に特徴量ベクトルを抽出する特徴量抽出過程と、
    スコア計算部が、上記特徴量ベクトルと上記更新音声認識モデルとを入力として上記特徴量ベクトルに対応したスコアを計算するスコア計算過程と、
    上記スコアが最も大きくなる上記状態確率遷移の音声認識ネットワークを、上記音声認識ネットワークデータベースから選択して状態列の集合として出力する音声認識ネットワーク選択過程と、
    を備える音声認識方法。
  8. 請求項3又は4に記載した音声認識モデル作成方法をコンピュータに機能させるための方法プログラム。
  9. 請求項7に記載した音声認識方法をコンピュータに機能させるための方法プログラム。
  10. 請求項8又は9に記載した方法プログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2008178572A 2008-07-09 2008-07-09 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 Expired - Fee Related JP4964194B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008178572A JP4964194B2 (ja) 2008-07-09 2008-07-09 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008178572A JP4964194B2 (ja) 2008-07-09 2008-07-09 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体

Publications (2)

Publication Number Publication Date
JP2010019941A true JP2010019941A (ja) 2010-01-28
JP4964194B2 JP4964194B2 (ja) 2012-06-27

Family

ID=41704936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008178572A Expired - Fee Related JP4964194B2 (ja) 2008-07-09 2008-07-09 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体

Country Status (1)

Country Link
JP (1) JP4964194B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103554A (ja) * 2010-11-11 2012-05-31 Advanced Telecommunication Research Institute International 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム
CN104900230A (zh) * 2014-03-03 2015-09-09 联想(北京)有限公司 一种信息处理方法及电子设备
CN111243574A (zh) * 2020-01-13 2020-06-05 苏州奇梦者网络科技有限公司 一种语音模型自适应训练方法、系统、装置及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696526B (zh) * 2020-06-22 2021-09-10 北京达佳互联信息技术有限公司 语音识别模型的生成方法、语音识别方法、装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0660048A (ja) * 1992-08-06 1994-03-04 A T R Jido Honyaku Denwa Kenkyusho:Kk 隠れマルコフモデル学習方法
JPH0830289A (ja) * 1994-07-12 1996-02-02 Mitsubishi Electric Corp 学習音声パタンモデル使用音声認識装置
JP2002149185A (ja) * 2000-09-27 2002-05-24 Koninkl Philips Electronics Nv 複数の学習用話者を表現する固有空間の決定方法
JP2004004906A (ja) * 1998-04-30 2004-01-08 Matsushita Electric Ind Co Ltd 固有声に基づいた最尤法を含む話者と環境の適合化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0660048A (ja) * 1992-08-06 1994-03-04 A T R Jido Honyaku Denwa Kenkyusho:Kk 隠れマルコフモデル学習方法
JPH0830289A (ja) * 1994-07-12 1996-02-02 Mitsubishi Electric Corp 学習音声パタンモデル使用音声認識装置
JP2004004906A (ja) * 1998-04-30 2004-01-08 Matsushita Electric Ind Co Ltd 固有声に基づいた最尤法を含む話者と環境の適合化方法
JP2002149185A (ja) * 2000-09-27 2002-05-24 Koninkl Philips Electronics Nv 複数の学習用話者を表現する固有空間の決定方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103554A (ja) * 2010-11-11 2012-05-31 Advanced Telecommunication Research Institute International 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム
CN104900230A (zh) * 2014-03-03 2015-09-09 联想(北京)有限公司 一种信息处理方法及电子设备
CN111243574A (zh) * 2020-01-13 2020-06-05 苏州奇梦者网络科技有限公司 一种语音模型自适应训练方法、系统、装置及存储介质

Also Published As

Publication number Publication date
JP4964194B2 (ja) 2012-06-27

Similar Documents

Publication Publication Date Title
US11315548B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
CN112435654B (zh) 通过帧插入对语音数据进行数据增强
Lee On stochastic feature and model compensation approaches to robust speech recognition
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
KR101415534B1 (ko) 다단계 음성인식장치 및 방법
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
CN107615376B (zh) 声音识别装置及计算机程序记录介质
EP1447792A2 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP5249967B2 (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
Chuangsuwanich Multilingual techniques for low resource automatic speech recognition
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
Weng et al. Discriminative training using non-uniform criteria for keyword spotting on spontaneous speech
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
Wang et al. Sequence teacher-student training of acoustic models for automatic free speaking language assessment
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
WO2020136948A1 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP7423056B2 (ja) 推論器および推論器の学習方法
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Kurian A review on technological development of automatic speech recognition
Young Acoustic modelling for large vocabulary continuous speech recognition
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120327

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees