JP2010019941A

JP2010019941A - 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体

Info

Publication number: JP2010019941A
Application number: JP2008178572A
Authority: JP
Inventors: Shinji Watabe; 晋治渡部; Takaaki Hori; 貴明堀; Atsushi Nakamura; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2008-07-09
Filing date: 2008-07-09
Publication date: 2010-01-28
Anticipated expiration: 2028-07-09
Also published as: JP4964194B2

Abstract

【課題】適応学習を効率よく行う。
【解決手段】この発明の音声認識モデル作成装置は、初期値音声認識モデル記録部と、モデル更新部と、更新音声認識モデル記録部とを具備する。初期値音声認識モデル記録部は、複数の音声認識モデルを含む初期値音声認識モデルを記録する。モデル更新部は、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された単語列を入力として初期値音声認識モデルを１つのベクトルとして更新した更新音声認識モデルを生成する。更新音声認識モデル記録部は、更新音声認識モデルを記録する。
【選択図】図２

Description

この発明は、音声認識モデルを効率良く学習する音声認識モデル作成装置とその方法と、その方法を用いた音声認識装置と音声認識方法と、プログラムと記録媒体に関する。

音声認識装置は、入力される音声信号を分析して得られる音響的特徴量ベクトルの系列と、音声をモデル化した音響モデルとの間の尤度を算出し、認識すべき語彙、単語間の接続のし易さ、規則を表わす言語モデルなどの言語的制約の中において、尤度の最も高い単語列を認識結果として出力するものである。音声認識が対象とする音声は、一般に、様々な話者や言語、ノイズ等の外部環境によってその特徴を大きく変化させるものである。そのような多様な特徴を持つ音声を認識するために、複数の音声認識モデルを用いて音声認識を行う音声認識手法が広く研究されている。

例えば非特許文献１に、音響環境として英語・ドイツ語が混在した音声認識を対象とし、両言語用の２種類の音声認識モデルを用意することで言語の切り替えに関して頑健な音声認識を実現した例が示されている。また、非特許文献２には、多人数が参加する会議における複数話者混在の音声認識を対象に、複数の音声認識モデルを用意することで話者切り替えに関して頑健な音声認識を実現した例が示されている。非特許文献２の例では、各話者の音声認識モデル毎に適応学習を行うことにより、音声認識装置の性能改善を実現している。適応学習とは、音声認識装置に記録された限られた音声認識モデルを、実際に使用される場面における話者や環境によって変わる音響的特徴に適応させることである。

従来の複数の音響モデルを用意した音声認識装置９００の機能構成例を図９にし、その動作を簡単に説明する。音声認識装置９００は、音声認識モデル９０、Ａ/Ｄ変換部９１、特徴量抽出部９２、音声認識部９３、適応学習部９４を備える。

音声認識モデル９０は、例えば複数の言語や複数の話者に対応した音声認識モデルである。例えば、ある一人の話者用の第１音声認識モデル９０１は、第１音響モデルメモリ９０１ａと第１言語モデルメモリ９０１ｂと第１発話辞書モデルメモリ９０１ｃとで構成される。他の話者用の第２音声認識モデル９０２も同様に第２音響モデルメモリ９０２ａと第２言語モデルメモリ９０２ｂと第２発話辞書モデルメモリ９０２ｃとで構成される。

Ａ/Ｄ変換部９１は、入力されるアナログ信号の音声を、例えばサンプリング周波数１６ｋＨｚで離散的なディジタル信号に変換する。特徴量抽出部９２は、離散値化された音声信号を例えば３２０個を１フレーム（２０ｍｓ）とし、フレーム毎の音声信号から特徴量ベクトルを抽出する。特徴量ベクトルは、例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析によって抽出される。音声認識部９３は、スコア計算部９３１と単語列探索部９３２とからなる。スコア計算部９３１は、特徴量ベクトルと、音声認識モデル９０１からの言語モデルと、音響モデルとを入力として、特徴量ベクトルに対するスコアを算出する。単語列探索部９３２は、スコアが最大となる単語列を発話辞書モデルメモリ９０１ｃから探索して認識結果として出力する。適応学習部９４は、単語列探索部９３２の出力する単語列を教師信号として、第１音声認識モデル９０１と第２音声認識モデル９０２毎に適応処理を行う。
Z.Wamg, U.Topkara, T.Schultz, and A.Waibel. Towards universal speech recognition.In Proc.ICMI2002,2002. 田熊竜太，岩野公司，古井貞煕「逐次話者適応を用いた並列処理型会議音声認識システムの検討」春季音響学会講演論文集、ｐ105-106，2002.

従来法による複数の音声認識モデルの適応学習では、各音声認識モデルに対して独立に適応学習を行うので、適応学習データを複数のモデルに分配することになり、割り当てられるデータ量が単一モデルの適応学習と比較して少なくなる。そのため、データ量の減少により適応学習の効果が限定的となってしまう課題があった。

この発明は、このような点に鑑みてなされたものであり、複数の音声認識モデルの適応学習を効率良く行える音声認識モデル作成装置とその方法と、その方法を用いた音声認識装置と音声認識方法と、プログラムとその記録媒体を提供することを目的とする。

この発明の音声認識モデル作成装置は、初期値音声認識モデル記録部と、尤度計算部と、モデル更新部と、更新音声認識モデル記録部とを具備する。初期値音声認識モデル記録部は、複数の音声認識モデルを含む初期値音声認識モデルを記録する。尤度計算部は、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された状態列の集合を入力としてフレーム毎の各状態の尤度と特徴量ベクトルとを計算する。モデル更新部は、尤度と特徴量ベクトルとを入力として、初期値音声認識モデルを１つのベクトルとして更新した更新音声認識モデルを生成する。更新音声認識モデル記録部は、更新音声認識モデルを記録する。

この発明の音声認識モデル作成装置は、複数の音声認識モデルを含む初期値音声認識モデルを１つのベクトルとして扱う。そして初期値音声認識モデルを、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された音声認識結果を用いて更新する。つまり、複数の音声認識モデルがまとめて学習できるので、少量の音声データでも十分な適応学習の効果を得ることが出来る。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔この発明の基本的な考え〕
この発明の音声認識モデルの作成方法の基本的な考えについて説明する。現在広く用いられる確率統計的音声認識方法は、確率モデルを用いて音声認識過程を音声データと単語（若しくは音素、ＨＭＭ（Hidden Markov Model））の出現確率（尤度関数）として表現し、事後確率最大化や尤度最大化等の確率統計的評価規範を用いて音声認識のためのパラメータ推定を行う方法である。この発明の音声認識モデル作成方法も、この確率統計的評価規範を用いる部分では同じである。

この発明が従来法と異なる点は、複数の音声認識モデルを含む初期値音声認識モデルを１つのベクトルとして扱い、その初期値音声認識モデルを、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された音声認識結果を用いて適応学習させる部分である。なお、ここで音声認識結果としては、単語列や音素列、ＨＭＭ状態列などの音声シンボル列がそれにあたる。これらを総称して状態列と呼ぶ。また、状態列は単一の系列だけでなく、上位スコアｎ個の状態列の集合（ｎ−ｂｅｓｔ）やラティスなどの音声認識ネットワークのサブネットワークなどから、集合として表現される。これらを総称して状態列の集合と呼ぶ。

特徴量抽出部９２が出力する音響特徴量の特徴量ベクトルの時系列集合Ｏ＝{Ｏ_t=1，Ｏ_t=2，…}が、一つの音源Ａが出力する時系列集合の部分集合Ｏ_ｅ=1＝{Ｏ_ｅ=1，t=1，Ｏ_ｅ=1，t=2，…}と、他の音源Ｂが出力する時系列集合の部分集合Ｏ_ｅ=2＝{Ｏ_ｅ=2，t=1，Ｏ_ｅ=2，t=2，…}とに分かれていると仮定する。ここで、音源Ａに対応した音声認識モデルをｅ＝１、音源Ｂに対応した音声認識モデルをｅ＝２とする。なお、ここでは説明のし易さのため２つの音源を対象にしているが、３つ以上の音源の場合も同様である。音源Ａが出力する特徴量ベクトルの時系列集合をＯ_ｅ=1，音声認識モデルをΘ_ｅ=1，隠れ変数をＺ_ｅ=1＝{Ｚ_ｅ=1，t=1，Ｚ_ｅ=1，t=2，…}とする。ここで隠れ変数とは、どの対象に属しているか観測できない変数のことである。ＨＭＭを用いた音声認識モデルの場合は隠れ変数Ｚ_ｅ=1は各フレーム時刻におけるＨＭＭ状態のＩＤを表す。このとき完全データの尤度関数は式（１）で表現できる。

また音声認識モデルｅ＝２に対しても同様に完全データの尤度関数は式（２）で表現できる。

このように各モデルの時系列集合の部分集合Ｏ_ｅ=1，Ｏ_ｅ=2が予め与えられれば、その尤度関数を独立に与えることができる。しかし、一般には音声認識をする音声データが、音源Ａか音源Ｂのどちらの音であるかは分からない。そこで、この発明では、各フレーム時刻ｔにおいて音源Ａ又は音源Ｂのどちらの音声が出現するかを表す隠れ変数Ｕ_ｔ＝{Ｚ_ｅ=1，t，Ｚ_ｅ=２，t，}を新たに導入する。その結果、全体の隠れ変数は式（３）に示すようにＺ_ｅ=1，Ｚ_ｅ=２，とＵ＝{Ｕ_ｔ=1，Ｕ_t=2，…}で構成される。

Ｚの取り得る値としては、実際には各時刻で任意のＨＭＭ状態系列が出現するのではなく、発音規則（発音辞書モデル）や単語の接続のし易さ（言語モデル）を考慮した、スコア付きの音声認識ネットワーク上の状態系列が出現する。音声認識で一般的に用いられる音声認識ネットワーク（状態確率遷移の時系列）は、ＨＭＭ（Ｈ），辞書（Ｌ），文法（Ｇ）の３つのネットワークの合成で構成される。音声認識ネットワークＮは、それらのネットワークを合成演算した式（４）で表現される。

ここで○は合成演算を表し、＊はネットワークのループを表現する。

同一言語・２話者の対話環境を考えた場合、辞書や文法のモデルは同一で、ＨＭＭネットワークのみが異なる状態確率遷移の時系列を用意すれば良い。この場合の音声認識ネットワークＮは、文間で遷移が起こると考えて、式（５）に示すように２つの音声認識ネットワークを結合させることによって構築できる。

ここでＵ（＋）は２つのネットワークをユニオン演算を用いて始端と終端を一致させる、ネットワークに対する二項演算である。（＋）はユニオン演算を表す。（＋）は式中の表記が正しい。図１にユニオン演算を概念的に示す。Ｎ_１は状態数１４、アーク数２７のネットワークであり、Ｎ_２は状態数８、アーク数８のネットワークである。ネットワークＮ_１とＮ_２をユニオン演算すると、始端と終端を一致させて２つのネットワークを並列して記述することができる。式（５）の演算は、音声認識ネットワーク（Ｈ_ｅ＝１・Ｌ・Ｇ）と（Ｈ_ｅ＝２・Ｌ・Ｇ）の２つの選択肢を与えることを意味する。なお、どちらのネットワークが選択されるかについては、探索過程における事後確率値や尤度値などのスコアの高いものが選ばれる。このように、式（５）で表現される合成されたネットワーク上で探索を行うことにより、複数の音源が混在する場合における、音声認識結果ならびに後述する学習のための状態列の集合を求めることができる。

この発明では、式（５）に示すような複数の音声認識モデルの組み合わせから成る音声認識ネットワークを記録した音声認識ネットワークデータベースを備える。また、音声認識モデルの初期値として式（６）に示す初期値音声認識モデルμ^０を備える。適応学習により更新された音声認識モデルの平均ベクトルμも式（６）と同じ１つのベクトルとして扱われる。

式（６）は平均ベクトルのみを示すが、分散行列Σや混合重みｗ、状態遷移確率ａについても同様にベクトルとしてまとめることにより、複数の音声認識モデルが１つのベクトルとして扱われる。その複数の音声認識モデルが１つのベクトルとして扱われた初期値音声認識モデルΘと、式（３）の隠れ変数Ｚを用いると尤度関数は式（７）で表現できる。

このように、この発明では合成されたネットワークＺ及びモデルパラメータΘを用いて、複数環境の音声認識を式（１）と式（２）で表現される単一の音声認識モデルと同様の尤度関数を用いて実現できる。つまり、式（７）を用いることにより、音声認識デコーダ（音声認識部）を変更することなく、複数環境の音声認識を実現できる。

この発明の音声認識モデルの作成方法は、式（７）の尤度関数と複数の音声認識モデルが１つのベクトルとして扱われた初期値音声認識モデルΘとから、式（８）に示す音声認識に使用される更新音声認識モデルΘ￣を生成する。

初期値音声認識モデルΘと更新音声認識モデルΘ￣とは、関数Ｆ（・）を用いてパラメットリックに表現され、関係パラメータφによって関係付けられる。このようにこの発明の音声認識モデル作成方法は、複数の音声認識モデルを１つのベクトルとして一度に学習できるので、少量の音声データでも十分な適応学習の効果を得ることができる。

図２にこの発明の音声認識モデル作成装置１００と、それを構成要素とする音声認識装置２００の機能構成例を示す。図３に音声認識モデル作成装置１００の動作フローを示す。図２と図３を参照して音声認識モデル作成装置１００の動作を説明する。

音声認識モデル作成装置１００は、初期値音声認識モデル記録部１０と、モデル更新部１２と、尤度計算部１３と、更新音声認識モデル記録部１４と、制御部１６とを備える。音声認識モデル作成装置１００と音声認識装置２００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

初期値音声認識モデル記録部１０は、複数の音声認識モデルを含む初期値音声認識モデルを記録する。尤度計算部１３は、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された状態列の集合を入力としてフレーム毎の各状態の尤度を計算する（ステップＳ１３）。

ここで、フレームと各状態とガウス分布と、状態確率遷移との関係について説明する。音声認識モデルを構成する音素モデルは、図４に示す状態によって構築される。各状態ｉは、混合正規分布Ｍ_ｉとして表現される。混合正規分布Ｍ_ｉは、例えば３つの正規分布、Ｎ（μ_ｉ１，Σ_ｉ１），Ｎ（μ_ｉ２，Σ_ｉ２），Ｎ（μ_ｉ３，Σ_ｉ３）で構成される。

音素モデルは、状態iの数個〜十数個程度の確率連鎖によって構築される。図５に３状
態で構成される音素モデルの概念図を一例として示す。図５に示す例は、left−ｔｏ−ｒ
ｉｇｈｔ型ＨＭＭと呼ばれるもので、３つの状態i_１（第１状態）、ｉ_２（第２状態）、ｉ_３（第３状態）を並べたものであり、状態の確率連鎖（状態遷移）としては、自己遷移ａ_１１、ａ_２２、ａ_３３と、次状態へのａ_１２、ａ_２３、ａ_３４からなる。図６に、状態ｉとフレームｔとの時系列の関係を示す。横軸は時間経過でありフレーム番号で表す。縦軸は、各フレームの状態ｉである。各状態ｉは図４に示したように混合正規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態である。最尤状態●を時系列に並べたのが最尤状態系列である。この最尤状態系列が音声認識結果として出力される。

尤度計算部１３は、各状態ｉの尤度ｐ（Ｏ，Ｚ_ｔ＝ｉ｜Θ＾）を、例えばフォワード・バックワードアルゴリズムで求める。各状態ｉの尤度ｐ（Ｏ，Ｚ_ｔ＝ｉ｜Θ＾）は、フォワード係数αとバックワード係数βを用いて式（９）で計算できる。尤度ｐと特徴量ベクトルＯは、改めて尤度計算部１３で計算しなくても、事前に音声認識装置で求められたそれらの値を記録して置き、逐次読み出すようにしても良い。

フォワード係数αとバックワード係数βは、最尤推定法（ＥＭアルゴリズム）における
反復計算によって式（１０）と（１１）で計算される。

ここで、ｋは状態ｉを構成するガウス分布の指標である。ａ_ｉｊは状態ｉがｉからｊに遷移する際の状態遷移確率、ｗ_ｊｋは状態ｊにおけるガウス分布ｋに対する混合重み因子、Ｎは平均ベクトルμ_ｊｋ、共分散行列Σ_ｊｋのガウス分布を表す。式（１０）と（１１）中の＾は、上記した各パラメータが、期待値最大化法における反復計算の前のステップで推定された値であることを示している。

モデル更新部１２は、尤度を入力として、初期値音声認識モデルを１つのベクトルとして更新した更新音声認識モデルを生成する（ステップＳ１２）。更新音声認識モデル記録部１４は、更新音声認識モデルを記録する（ステップＳ１４）。モデル更新部１２と更新音声認識モデル記録部１４は、制御部１６が動作終了を指示する信号を発するまで動作を継続する（ステップＳ１６のＮ）。

このようにモデル更新部１２が、複数の音声認識モデルを含む初期値音声認識モデルを１つのベクトルとして扱って適応学習を行うので、少量の音声データでも十分な適応学習の効果を得ることが出来る。図７に音声認識モデル作成装置１００のモデル更新部１２の詳細な機能構成例を示して更に詳しく説明する。

モデル更新部１２は、事後確率計算部１２１と、関係パラメータ生成部１２２と、更新モデル生成部１２３とを備える。事後確率計算部１２１は、フレーム時刻ｔにおける状態ｉの事後確率を式（１２）の計算で求める（ステップＳ１２１、図３）。事後確率は、各状態ｉの尤度（式（９））をフレーム内状態尤度の総和で正規化した値である。

音声認識モデルの中で最も認識性能に寄与するパラメータは、ガウス分布中の平均ベク
トルである。したがって以降の説明は、平均ベクトルについての適応学習について説明を
行う。音声認識モデルの平均ベクトルに焦点を当てた場合、補助関数Ｑは式（１３）に示
す具体系に書き直すことができる。

ここで、ζ_{ｅ，ｋ，ｔ}は、フレーム時刻ｔにおける音源Ａに対応した音声認識モデルｅのガウス分布ｋに割り当てられた事後確率である。このガウス分布毎の事後確率値ζ_{ｅ，ｋ，ｔ}は、各状態ｉの事後確率を計算したのと同じように事後確率計算部１２１において、各ガウス分布ｋ毎に計算される。

式（１３）の補助関数Ｑは、式（１４）で表現できる。

ここで´は行列の転置を表す。ζ_ｅ，ｋは式（１５）、ｍ_ｅ，ｋは式（１６）で表せる十分統計量である。

更に式（１４）の補助関数Ｑは、式（１７）で表現することができる。

ここでμは、式（１８）に示すように複数の音声認識モデルを１つのベクトルとして扱
ったものである。

更に、

である。このように複数音声認識モデルの補助関数Ｑは、全音声認識モデルの平均ベクト
ルμの２次形式（式（１７）の右辺第１項）で表現することができるので、安定した解が
得られる。そして、この実施例の適応学習は、初期値音声認識モデルの平均ベクトルμ^０
と推定すべきμに対して式（２１）に示す線形変換を仮定する。

ここでＢ＝（Ａ，ｂ），ξ＝（（μ^０）´，１）´である。行列Ａは、非対角成分において複数音声認識モデル間のパラメータの相関関係を考慮したものである。

関係パラメータ生成部１２２は、式（１７）に、式（２１）を代入してＢについてのａ
ｒｇｍａｘを取る演算をすることにより、適応データからパラメータＡ，ｂを最尤推定法により推定する（ステップＳ１２２）。パラメータＡ，ｂは、式（４）と（１７）に示したφに相当するものである。

しかし、Ａ，ｂは巨大な行列（数１０万次元以上）であるため、適応データのみでそれらを推定するとデータ量が不足し、過学習問題が生じる。この過学習を解決するためには、行列Ａのブロック化を行い、非対角要素を０と近似する。また、ｂについてもブロック化することで、変換式（２１）は式（２２）のように書き直せる。

つまり、各平均ベクトルμ_ｅ，ｋがＡ_ｅ，ｋ，ｂ_ｅ，ｋによって変換される。また、複数の平均ベクトルでＡ，ｂを共有することにより推定すべきパラメータを更に減らすことができる。これは、平均ベクトル集合に対して事前にクラスタリングを行い、クラスター中の平均ベクトルを複数含むクラスターをデータ量に応じて求めれば良い。これによりＡ，ｂを少ないパラメータで効率よく推定することができる。

Ａ，ｂのパラメータ削減のための平均ベクトル集合に対するクラスタリングには、音響
モデル適応の代表的手法である最尤線形回帰法などでよく用いられるガウス分布共有木を
用いれば良い。ガウス分布共有木は、単一のガウス分布をリーフ、それらの集合をノード
とする木構造を用いてガウス分布の集合を表現する手法である。このとき、どのガウス分
布を一つの集合とするかについては、ユークリッド距離などの分布間距離が用いられる。
例えば２分木の場合は、分布間距離の近い２つのガウス分布を１つのノードとして表現す
る。複数音響モデルに対するガウス分布共有木の構築については、次の２種類がある。

（１）合成前の環境依存音響モデルそれぞれに対して独立に分布間距離を用いて共有木を
構築し、それらのルートノードを小ノードとする共通の親ノードを用意することにより、
共有木を合成する。この場合、回帰行列は同一話者内で共有されるため、話者性情報を利
用した共有構造が構築される。

（２）複数モデルを合成した音響モデルに対して分布間距離を用いてクラスタリングを行
い共有木を構築する。この場合、回帰行列は複数話者にまたがって分布間距離の近いガウ
ス分布に対して共有される。つまり、話者性情報は直接的には考慮されず、音韻的に近い
ガウス分布が共有されることが想定される。

後述するシミュレーションでは、２種類の共有木を用いた手法を組み合わせて、初めに
上記した（２）を用いた適応実験を行い、そのモデルを初期モデルにして上記した（１）
を用いた適応実験を行った。

更新モデル生成部１２３は、関係パラメータ生成部１２２からのパラメータＡ，ｂと、初期値音声認識モデル記録部１０に記録された初期値音声認識モデルμ^０を入力として式（２１）の計算を行って音声認識モデルを更新する（ステップＳ１２３）。

以上述べたように実施例１に示す音声認識モデル作成装置１００は、複数の音声認識モデルを含む初期値音声認識モデルを１つのベクトルとして扱い、その初期値音声認識モデルを、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された音声認識結果を用いて更新する。したがって、複数の音声認識モデルがまとめて学習できるので、少量の音声データでも十分な適応学習の効果を得ることが出来る。

〔音声認識装置〕
実施例１で説明した音声認識モデル作成装置１００は、音声認識装置に利用することが可能である。音声認識モデル作成装置１００を用いた音声認識装置２００の機能構成例を図７に示す。その動作フローを図８に示す。音声認識装置２００は、音声認識モデル作成装置１００と、音声認識ネットワークデータベース２２と、Ａ/Ｄ変換部９１と、特徴量抽出部９２と、スコア計算部９３１と、音声認識ネットワーク選択部２０１とを備える。Ａ/Ｄ変換部９１、特徴量抽出部９２、スコア計算部９３１は、従来技術で説明した音声認識装置９００と同じものである。よって、音声認識ネットワークデータベース２２と、音声認識ネットワーク選択部２０１とについて説明する。

音声認識ネットワークデータベース２２は、複数の音声認識モデルの組み合わせから成る状態確率遷移を記録する。式（５）と図１に示した複数の音声認識モデルを含む音声認識ネットワークを記録したものである。式（５）は、同一言語・２話者の対話環境を考えた場合の音声認識ネットワークの結合を意味する。多言語音声認識のように、単語や文法自体も異なる環境では、それぞれのネットワークを準備して式（２３）に示すようにして音声認識ネットワークデータベース２２を構築する。式（２３）は発話間遷移の場合である。単語間遷移であれば式（２４）で構築できる。

このように、同一言語複数話者や多言語環境における発話（単語）間遷移モデルなどの多様な音響環境モデルの構築は、ネットワーク同士の合成演算やユニオン演算等で実現でき、これらは重み付有限状態トランスデューサ（ＷＦＳＴ，これを用いた音声認識デコーダをＷＦＳＴ型デコーダという）等の既存アリゴリズムを用いて効率良く行うことができる。ＷＦＳＴ型デコーダでは、音響モデルはＨＭＭ状態のＩＤとそこに含まれる混合ガウス分布モデルのパラメータ値の情報のみを扱う。従って、複数の音響モデルの合成に関しては、各モデルのＨＭＭ状態のＩＤと相当する混合ガウス分布モデルのパラメータ値を合成音響モデルに追加して行けば良い。その際のＩＤ番号の重複に注意が必要である。また、相当するＷＦＳＴ中のＨＭＭ状態ＩＤもそれに合わせて変更する必要がある。

音声認識ネットワーク選択部２０１は、スコア計算部９３１が音響特徴量と、音声認識モデル作成装置１００が更新した更新音声認識モデルとを用いて計算されたスコアが、最も大きくなる状態確率遷移の音声認識ネットワークから成る状態列、若しくはその集合を、音声認識ネットワークデータベース２２から選択して音声認識結果として出力する（ステップＳ２０１）。音声認識結果の状態列の集合は、音声認識モデル作成装置１００の尤度計算部１３にも入力され、適応学習の教師信号となる。

音声認識ネットワーク選択部２０１は、状態列の集合と共に選択した音声認識ネットワークを構成する音声認識モデルの種別ｅも環境情報として出力するようにしても良い。例えば、音声認識ネットワークデータベース２２が、日本語ｅ＝１と英語ｅ＝２の２種類の音声認識ネットワークを記録していたとすると種別ｅも出力する。そうすることで、音声認識している環境状況も知り得る効果を奏する。

〔シミュレーション結果〕
この発明の音声認識モデル作成方法の有効性を確認する目的でシミュレーションを行っ
た。シミュレーション条件は、複数の音響環境として、性別依存音響モデル２種類（男性・女性）を用意した。音声認識の条件は、サンプリング周波数を１６ｋＨｚ、量子化数１６bit、ウインドウタイプはハミング窓、フレーム長を２５ｍｓ、フレームシフトを１０ｍｓとした。言語モデルはトライグラム（新聞記事１４年分）、語彙数は７００,０００個とした。

単語正解精度を、この発明の方法と、従来法の性別非依存の単一音響モデルと複数の音
響モデルを用いた方法と比較した。その結果を表１に示す。

この発明の適応学習による単語正解率が、８５．５％と最も良い数値を示し、複数モデルを用いた従来の適応学習方法よりも認識性能を１％改善する効果が得られた。単一モデル適応と比較すると、３％も単語正解精度を高めることができた。このようにこの発明の音声認識モデル作成方法も用いた音声認識装置によれば、単語正解精度を向上させる効果が得られた。

この発明の技術思想に基づく音声認識モデル作成装置とその方法、及び音声認識装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。例えば、上記した実施例では、音声認識モデル作成装置１００の構成に尤度計算部１３を含む例で説明を行ったが、音声認識装置を構成する場合は、音声認識装置が持つ尤度計算部で計算した尤度、若しくはスコアを用いることで、尤度計算部１３は削除することができる。また、初期値音声認識モデル記録部１０に初期値音声認識モデルを１つのベクトルとして記録する例で説明を行ったが、初期値音声認識モデル記録部１０に複数の音声認識モデルをそれぞれ独立した形で記録して置き、関係パラメータ生成部１２２でそれぞれの音声認識モデルを１つのベクトルとして扱うようにしても良い。また、音声認識装置２００は、Ａ/Ｄ変換部９１を備える例で説明したが、音声データがディジタル化された音声データファイルである場合は、Ａ/Ｄ変換部９１は必要がない。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

ユニオン演算を概念的に説明する図。この発明の音声認識モデル作成装置１００と、それを用いた音声認識装置２００の機能構成例を示す図。音声認識モデル作成装置１００の動作フローを示す図。音素モデルを構成する１状態を模式的に示す図。音素モデルの一例を示す図。フレームと状態ｉとの関係を模式的に示す図。音声認識モデル作成装置１００と音声認識装置２００の機能構成例を示す図。音声認識装置２００の動作フローを示す図。従来の複数の音声認識モデルを備えた音声認識装置９００の機能構成例を示す図。

Claims

複数の音声認識モデルを含む初期値音声認識モデルを記録した初期値音声認識モデル記録部と、
複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された状態列の集合を入力としてフレーム毎の各状態の尤度と特徴量ベクトルとを計算する尤度計算部と、
上記尤度と特徴量ベクトルとを入力として、上記初期値音声認識モデルを１つのベクトルとして更新した更新音声認識モデルを生成するモデル更新部と、
上記更新音声認識モデルを記録する更新音声認識モデル記録部と、
を具備する音声認識モデル作成装置。
請求項１に記載した音声認識モデル作成装置において、
上記モデル更新部は、
上記尤度と特徴量ベクトルとを入力として上記状態を構成するガウス分布毎の事後確率値を計算する事後確率計算部と、
上記ガウス分布毎の事後確率値と上記初期値音声認識モデルとを入力とし、上記初期値音声認識モデルを１つのベクトルとして更新する関係パラメータを生成する関係パラメータ生成部と、
上記初期値音声認識モデルを上記関係パラメータで更新した更新音声認識モデルを出力する更新モデル生成部と、
を備えることを特徴とする音声認識モデル作成装置。
尤度計算部が、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された状態列の集合を入力としてフレーム毎の各状態の尤度を計算する尤度計算過程と、
モデル更新部が、上記尤度と特徴量ベクトルとを入力として上記複数の音声認識モデルを含む初期値音声認識モデルを１つのベクトルとして更新した更新音声認識モデルを生成するモデル更新過程と、
更新音声認識モデル記録部が、上記更新音声認識モデルを記録する更新音声認識モデル記録過程と、
を含む音声認識モデル作成方法。
請求項３に記載した音声認識モデル作成方法において、
上記モデル更新過程は、
事後確率計算部が、上記尤度を入力として上記状態を構成するガウス分布毎の事後確率値を計算する事後確率計算ステップと、
関係パラメータ生成部が、上記ガウス分布毎の事後確率値と上記初期値音声認識モデルと特徴量ベクトルとを入力とし、上記初期値音声認識モデルを１つのベクトルとして更新する関係パラメータを生成する関係パラメータ生成ステップと、
更新モデル生成部が、上記初期値音声認識モデルを上記関係パラメータで更新した更新音声認識モデルを出力する更新モデル生成ステップと、
を含むことを特徴とする音声認識モデル作成方法。
請求項１又は２に記載した音声認識モデル作成装置と、
複数の音声認識モデルの組み合わせから成る状態確率遷移を記録した音声認識ネットワークデータベースと、
離散値化された音声信号のフレーム毎に特徴量ベクトルを抽出する特徴量抽出部と、
上記特徴量ベクトルと、上記初期値音声認識モデルとを入力として、上記初期値音声認識モデルを音声認識結果で更新した更新音声認識モデルを用いてスコアを計算するスコア計算部と、
上記スコアが最も大きくなる上記状態確率遷移の音声認識ネットワークを、上記音声認識ネットワークデータベースから選択して上記音声認識結果として出力する音声認識ネットワーク選択部と、
を具備する音声認識装置。
請求項５に記載の音声認識装置において、
上記音声認識ネットワーク選択部は、上記選択した音声認識ネットワークから環境情報も出力するものであることを特徴とする音声認識装置。
請求項３又は４に記載した音声認識モデル作成方法を含み、
特徴量抽出部が、離散値化された音声信号のフレーム毎に特徴量ベクトルを抽出する特徴量抽出過程と、
スコア計算部が、上記特徴量ベクトルと上記更新音声認識モデルとを入力として上記特徴量ベクトルに対応したスコアを計算するスコア計算過程と、
上記スコアが最も大きくなる上記状態確率遷移の音声認識ネットワークを、上記音声認識ネットワークデータベースから選択して状態列の集合として出力する音声認識ネットワーク選択過程と、
を備える音声認識方法。
請求項３又は４に記載した音声認識モデル作成方法をコンピュータに機能させるための方法プログラム。
請求項７に記載した音声認識方法をコンピュータに機能させるための方法プログラム。
請求項８又は９に記載した方法プログラムを記録したコンピュータで読み取り可能な記録媒体。