JP4951664B2

JP4951664B2 - コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム

Info

Publication number: JP4951664B2
Application number: JP2009248013A
Authority: JP
Inventors: 方鄭; 煕肖; 林泉劉; 展遊; 文暁曹; 誠赤羽; 如新陳; 良和高橋
Original assignee: Tsinghua University; Sony Interactive Entertainment Inc; Sony Computer Entertainment Inc
Current assignee: Tsinghua University; Sony Interactive Entertainment Inc
Priority date: 2008-10-31
Filing date: 2009-10-28
Publication date: 2012-06-13
Anticipated expiration: 2029-10-28
Also published as: CN101393740A; CN101393740B; US20100121640A1; JP2010107982A; US8712773B2

Description

本発明は、コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム、プログラム、並びにそのプログラムを記憶した記憶媒体に関し、コンピュータ音声認識分野に該当する。

頑健性を高めることは従来から音声認識における重要点であるとともに困難な点である。それに、言葉のなまりの問題が頑健性の低下を招く主因となっている。例えば中国語には方言が多いため、なまりの問題は顕著であり、研究の価値は非常に高い。従来の音声認識システムでは、標準的共通語に対する認識率は高いが、方言によるなまりのある共通語（以下は方言なまり共通語と略称）に対する認識率は低い。この課題に対して、適応（Ａｄａｐｔａｔｉｏｎ）などの方法を採用するのは一般的な解決策であるが、その前提としては方言なまり共通語のデータを十分に備えなければならない。また、このような方法を使用すると、標準的共通語に対する認識率は顕著に下がることがある。一方、方言の種類が多いため、それぞれの方言に対して音響モデルをトレーニングし直すと、作業の効率が低くなる。

本発明は、データ量が少ないまま方言なまりの共通語に対する認識率を高め、同時に標準的共通語に対する認識率が顕著に下がらないことを保証するコンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステムの提供を目的とする。

本発明のコンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法は、下記の工程を含む：
（１）標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第１種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第１方言なまり共通語モデルを生成し、第２種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第２方言なまり共通語モデルを生成し；
（２）標準的共通語モデルを用いて第１種の方言なまり共通語のディベロップメントデータを認識することにより第１混同行列を生成し、当該第１混同行列に応じて第１方言なまり共通語モデルを標準的共通語モデルの中にマージして一時マージモデルを得て；
（３）一時マージモデルを用いて第２種の方言なまり共通語のディベロップメントデータを認識することにより第２混同行列を生成し、当該第２混同行列に応じて第２方言なまり共通語モデルを一時マージモデルの中にマージして認識モデルを得る。

前記方法の工程（２）と（３）に記載のマージの方法は下記の通りである：
ｘで被認識音声の観測特徴ベクター、ｓで前記標準的共通語モデルにおける隠れマルコフ状態、ｄ_１で前記第１方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる前記一時マージモデルにおける確率密度関数は
ｐ’（ｘ｜ｓ）=λ_１ｐ（ｘ｜ｓ）+（１−λ_１）ｐ（ｘ｜ｄ_１）ｐ（ｄ_１｜ｓ）
であり、
その中で、λ_１は線形補間係数であり、０＜λ_１＜１を満たし、
前記認識モデルの確率密度関数は

であり、その中で、ｗ_ｋ ^{（ｓｃ）’}は前記標準的共通語モデルにおける隠れマルコフ状態が占める重み、ｗ_ｍｎ ^{（ｄｃ１）’}とｗ_ｐｑ ^{（ｄｃ２）’}はそれぞれ前記第１方言なまり共通語モデル、前記第２方言なまり共通語モデルにおける隠れマルコフ状態が占める重みを示す。Ｋは標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の混合数である。Ｎ_ｋ ^（ｓｃ）（・）は標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の要素である。Ｍは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数である。Ｎは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の混合数である。Ｎ_ｍｎ ^{（ｄｃ１）}（・）は前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の要素である。Ｐは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数である。Ｑは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の混合数である。Ｎ_ｐｑ ^{（ｄｃ２）}（・）は前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の要素である。

本発明のコンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法は下記のメリットを有する：
本発明の方法では、反復的な方法で複数の方言なまり共通語モデルを一つ一つ標準的共通語モデルの中にマージすることにより、方言ごとに音響モデルをトレーニングするような重複作業を免れ、作業の効率を高めることができる。また、本発明の方法によれば、方言なまり共通語に対する認識率を明らかに高めることができ、同時に、標準的共通語に対する認識率が下がらないばかりか、上がることもある。そのため、他の方法のように方言なまり共通語に対し適する処理をすると、標準的共通語に対する認識率は著しく下がるという課題を解決する。

本発明のモデリング方法の原理を示す概念図である。本発明の前記モデリング方法を実現するためのモデリングシステムの一例の機能ブロック図である。

以下、図面を参照しながら本発明を説明する。
図１は本発明のｎ種（以下、ｎは２以上の自然数）の方言を背景とする共通語音声認識のモデリング方法の原理を示す概念図である。本モデリング方法において、
（１）標準的共通語のトレーニングデータに基づいてトライフォン（Ｔｒｉｐｈｏｎｅ）による標準的共通語モデルを生成し、対応しようとする第１〜ｎ種の方言なまり共通語のそれぞれに対し、そのディベロップメントデータに基づいてモノフォン（Ｍｏｎｏｐｈｏｎｅ）による第１〜第ｎ方言なまり共通語モデルを生成し、
（２）前記標準的共通語モデルを用いて第１種の方言なまり共通語のディベロップメントデータを認識することにより第１混同行列（ＣｏｎｆｕｓｉｏｎＭａｔｒｉｘ）を生成し、当該第１混同行列に応じて第１方言なまり共通語モデルを前記標準的共通語モデルの中にマージして第１一時マージモデルを得て、
（３）第（ｉ−１）一時マージモデル（ｉは２＜ｉ＜ｎを満たす自然数）を用いて第ｉ種の方言なまり共通語のディベロップメントデータを認識することにより第ｉ混同行列を生成し、当該第ｉ混同行列に応じて第ｉ方言なまり共通語モデルを前記第（ｉ−１）一時マージモデルの中にマージする動作を、ｉ＝２からｉ＝ｎまで順に繰り返すことにより、最終の認識モデルを得る。

図２は上述した複数の方言を背景とする共通語音声認識のモデリングシステムの一例の機能ブロック図である。本発明のモデリングシステムはモデル生成ユニット１００と制御ユニット２００により構成される。図２のとおり、モデル生成ユニット１００は、トレーニングデータベース（以下は「トレーニングＤＢ」と略称）１０−０と、ディベロップメントデータベース（以下は「ディベロップメントＤＢ」と略称）１０−１〜１０−ｎと、モデル生成部３０−０〜３０−ｎと、混同行列生成部４０−１〜４０−ｎと、モデルマージ部５０−１〜５０−ｎと、を備える。

トレーニングＤＢ１０−０は、標準的共通語のトレーニングデータを記憶しているデータベースである。
ディベロップメントＤＢ１０−１〜１０−ｎは、それぞれ第１〜第ｎ種の方言なまり共通語のテストデータを記憶しているデータベースである。
モデル生成部３０−０は、前記トレーニングＤＢ１０−０に記憶されている標準的共通語トレーニングデータに基づいて、トライフォンによる標準的共通語モデルを生成するためのものである。
モデル生成部３０−１〜３０−ｎは、それぞれ前記ディベロップメントＤＢ１０−１〜１０−ｎに記憶されている第１〜第ｎ種の方言なまり共通語のディベロップメントデータに基づいて、モノフォンによる第１〜第ｎ方言なまり共通語モデルを生成するためのブロックである。
混同行列生成部４０−１〜４０−ｎは、それぞれ対応するモデル生成部３０−０〜３０−（ｎ−１）により生成されたモデルを用いて、ディベロップメントＤＢ１０−１〜１０−ｎに記憶されている第１〜第ｎ種の方言なまり共通語のディベロップメントデータを認識することにより、第１〜第ｎ混同行列をそれぞれ生成するブロックである。
モデルマージ部５０−１は、前記混同行列生成部４０−１により生成された第１混同行列に応じて、前記モデル生成部３０−１により生成された第１方言なまり共通語モデルを、前記モデル生成部３０−０により生成された標準的共通語モデルの中にマージして第１一時マージモデルを生成するものである。
モデルマージ部５０−２〜５０−（ｎ−１）は、それぞれ対応する前記混同行列生成部４０−２〜４０−（ｎ−１）により生成された第２〜第（ｎ−１）混同行列に応じて、前記モデル生成部３０−２〜３０−（ｎ−１）により生成された第２〜第（ｎ−１）方言なまり共通語モデルを、その直前のモデルマージ部により生成された一時マージモデルの中にマージして第２〜第（ｎ−１）一時マージモデルをそれぞれ生成するものである。
モデルマージ部５０−ｎは、前記混同行列生成部４０−ｎにより生成された第ｎ混同行列に応じて、前記モデル生成部３０−ｎにより生成された第ｎ方言なまり共通語モデルを、その直前のモデルマージ部５０−（ｎ−１）により生成された第（ｎ−１）一時マージモデルの中にマージして最終の認識モデルを生成するものである。

制御ユニット２００は、前述した本発明のモデリング方法に従って動作するよう前記モデル生成ユニット１００を制御する。

図２において、トレーニングＤＢ１０−０、ディベロップメントＤＢ１０−１〜１０−ｎは別々のブロックとして示されているが、標準的共通語のトレーニングデータ及び第１〜第ｎ種の方言なまり共通語のディベロップメントデータを記憶する単一又は複数のデータベースとして構成されてもよい。また、図２においてモデル生成部３０−０〜３０−ｎは別々のブロックとして示されているが、これらを単一又は複数のモデル生成部として、制御ユニット２００からの制御に基づきこの単一又は複数のモデル生成部を時間分割で利用してもよい。また、図２において混同行列生成部４０−１〜４０−ｎは別々のブロックとして示されているが、制御ユニット２００からの制御に基づき、単一又は複数の混同行列生成部を時間分割で利用してもよい。また、図２においてモデルマージ部５０−１〜５０−ｎは別々のブロックとして示されているが、制御ユニット２００からの制御に基づき、単一又は複数のモデルマージ部を時間分割で利用してもよい。

以下はｎ＝２、即ち２種類の方言なまり共通語に対応できる認識モデルのモデリング方法を具体的に説明する。本モデリング方法は下記の工程を含む：
（１）標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第１種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第１方言なまり共通語モデルを生成し、第２種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第２方言なまり共通語モデルを生成する；
（２）前記標準的共通語モデルを用いて第１種の方言なまり共通語のディベロップメントデータを認識することにより第１混同行列を取得し、当該第１混同行列に応じて前記第１方言なまり共通語モデルを前記標準的共通語モデルの中にマージして一時マージモデルを得る；
（３）前記一時マージモデルを用いて第２種の方言なまり共通語のディベロップメントデータを認識することにより第２混同行列を取得し、当該第２混同行列に応じて前記第２方言なまり共通語モデルを前記一時マージモデルの中にマージして認識モデルを得る。

上記方法の工程（２）と（３）に記載のマージの方法は下記の通りである：
ｘで被認識音声の観測特徴ベクター、ｓで標準的共通語モデルにおける隠れマルコフ状態、ｄ_１で第１方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる一時マージモデルにおける確率密度関数は
ｐ’（ｘ｜ｓ）=λ_１ｐ（ｘ｜ｓ）＋（１−λ_１）ｐ（ｘ｜ｄ_１）ｐ（ｄ_１｜ｓ）（１）
である。
その中で、λ_１は線形補間係数であり、０＜λ_１＜１を満たす。

認識モデルの確率密度関数は

であり、その中で、ｗ_ｋ ^{（ｓｃ）’}は標準的共通語モデルにおいて隠れマルコフ状態が占める重み、ｗ_ｍｎ ^{（ｄｃ１）’}とｗ_ｐｑ ^{（ｄｃ２）’}はそれぞれ第１方言なまり共通語モデル、第２方言なまり共通語モデルにおいて隠れマルコフ状態が占める重みを示す。Ｋは標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の混合数である。Ｎ_ｋ ^（ｓｃ）（・）は標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の要素である。Ｍは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数である。Ｎは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の混合数である。Ｎ_ｍｎ ^{（ｄｃ１）}（・）は前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の要素である。Ｐは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数である。Ｑは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の混合数である。Ｎ_ｐｑ ^{（ｄｃ２）}（・）は前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の要素である。

本発明の方法は、反復的な方法によって、各種の方言なまりのデータにより作られたモデルを標準的共通語モデルの中にマージするものであり、その基本的なフローは図１のとおりである。図１において二つの方言なまり共通語モデルと標準的共通語モデルとのマージを例とした場合、一時マージモデルにおける確率密度関数は
ｐ’（ｘ｜ｓ）=λ_１ｐ（ｘ｜ｓ）＋（１−λ_１）ｐ（ｘ｜ｄ_１）ｐ（ｄ_１｜ｓ）（１）
と記述できる。

その中で、ｘで被認識音声の観測特徴ベクター、ｓで標準的共通語モデルにおける隠れマルコフ状態、ｄ_１で第１方言なまり共通語モデルにおける隠れマルコフ状態を表す。 λ_１は０＜λ_１＜１を満たす線形補間係数であり、標準的共通語モデルが一時マージモデルにおいて占める重みを表す。実際においては最適なλ_１は実験を通して決められる。また、ｐ(ｄ_１｜ｓ) は標準的共通語モデルにおける隠れマルコフ状態ｓに対応する第１方言なまり共通語モデルにおける隠れマルコフ状態ｄ_１の出力確率であり、標準的共通語に対する第１種の方言の発音の変化を示す。同じ道理で、最終マージモデルの確率密度関数は

と記述できる。
その中で、ｄ_２で第２方言なまり共通語モデルにおける隠れマルコフ状態を表す。λ_２は０＜λ_２＜１を満たす線形補間係数であり、前記一時マージモデルが最終マージモデルにおいて占める重みを表す。実際においては最適なλ_２は実験を通して決められる。Ｋは標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の混合数である。Ｎ_ｋ ^（ｓｃ）（・）は標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の要素である。Ｍは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数である。Ｎは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の混合数である。Ｎ_ｍｎ ^{（ｄｃ１）}（・）は前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の要素である。Ｐ（ｄ_１ｍ｜ｓ）は発音変化モデルの確率を表す。Ｐは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数である。Ｑは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の混合数である。Ｎ^{（ｄｃ２））}（・）は前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の要素である。Ｐ（ｄ_２ｐ｜ｓ）は発音変化モデルの確率を表す。

上記数式の最後の一行からわかるように、最終マージモデルは実際には標準的共通語モデル、第１方言なまり共通語モデル及び第２方言なまり共通語モデルの加重和により構成されるものである。ｗ_ｋ ^{（ｓｃ）’}、ｗ_ｍｎ ^{（ｄｃ１）’}及びｗ_ｐｑ ^{（ｄｃ２）’}は上記数式における三つのモデルそれぞれの混合重みを表す。混同行列Ｐ（ｄ_１ｍ｜ｓ）とＰ（ｄ_２ｐ｜ｓ）、及び重み係数λ_１とλ_２は既に知られているため、この三つのモデルそれぞれの混合正規分布の重みは簡単に確定することができる。

以下は本発明の実施例を説明する：

表から明らかなように、データは、標準的共通語、四川なまり共通語、▲ミン▼南なまり共通語に分けられ、更にトレーニング用又はディベロップメント用と、テスト用の二部分に分けられている。

ベースライン：

ベースラインにおいては混合トレーニング認識モデルが用いられ、これは全部の三種類のデータを合わせてトレーニングすることにより得たものである。

実験の結果：

上記から明らかなように、本計算方法でトレーニングしたモデルを利用すると、二つの方言に対する認識率も明らかに上がった。同時に、標準的共通語に対する認識率も相当に改善された。このことから、本方法は実行可能且つ有効な方法であることがわかる。

また、本発明の方法によれば、方言がいくらあっても、反復的な方法で方言なまり共通語モデルを一つ一つ標準的共通語モデルの中にマージすることによって、最終の認識モデルを得ることができる。

Claims

複数の方言を背景とする共通語音声認識のモデリング方法であって、
（１）標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第１種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第１方言なまり共通語モデルを生成し、第２種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第２方言なまり共通語モデルを生成する工程と、
（２）前記標準的共通語モデルを用いて第１種の方言なまり共通語のディベロップメントデータを認識することにより第１混同行列を生成し、当該第１混同行列に応じて前記第１方言なまり共通語モデルを前記標準的共通語モデルの中にマージして一時マージモデルを得る工程と、
（３）前記一時マージモデルを用いて第２種の方言なまり共通語のディベロップメントデータを認識することにより第２混同行列を生成し、当該第２混同行列に応じて前記第２方言なまり共通語モデルを前記一時マージモデルの中にマージして認識モデルを得る工程と、
を含むことを特徴とする複数の方言を背景とする共通語音声認識のモデリング方法。
ｘで被認識音声の観測特徴ベクター、ｓで前記標準的共通語モデルにおける隠れマルコフ状態、ｄ_１で前記第１方言なまり共通語モデルにおける隠れマルコフ状態、ｄ_２で前記第２方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる前記一時マージモデルにおける確率密度関数は
ｐ’（ｘ｜ｓ）=λ_１ｐ（ｘ｜ｓ）＋（１−λ_１）ｐ（ｘ｜ｄ_１）ｐ（ｄ_１｜ｓ）
であり、
その中で、λ_１は線形補間係数であり、０＜λ_１＜１を満たし、
前記認識モデルの確率密度関数は

であり、その中で、ｗ_ｋ ^{（ｓｃ）’}は前記標準的共通語モデルにおける隠れマルコフ状態が占める重み、ｗ_ｍｎ ^{（ｄｃ１）’}とｗ_ｐｑ ^{（ｄｃ２）’}はそれぞれ前記第１方言なまり共通語モデル、前記第２方言なまり共通語モデルにおける隠れマルコフ状態が占める重み、Ｋは標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の混合数、Ｎ_ｋ ^（ｓｃ）（・）は標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の要素、Ｍは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数、Ｎは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の混合数、Ｎ_ｍｎ ^{（ｄｃ１）}（・）は前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の要素、Ｐは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数、Ｑは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の混合数、Ｎ_ｐｑ ^{（ｄｃ２）}（・）は前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の要素、を示すことを特徴とする請求項１に記載のモデリング方法。
複数の方言を背景とする共通語音声認識のモデリングプログラムであって、コンピュータに
（１）標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第１種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第１方言なまり共通語モデルを生成し、第２種の方言なまり共通語のディベロップメントデータに基づいてモノフォンによる第２方言なまり共通語モデルを生成する機能と、
（２）前記標準的共通語モデルを用いて第１種の方言なまり共通語のディベロップメントデータを認識することにより第１混同行列を生成し、当該第１混同行列に応じて前記第１方言なまり共通語モデルを前記標準的共通語モデルの中にマージして一時マージモデルを得る機能と、
（３）前記一時マージモデルを用いて第２種の方言なまり共通語のディベロップメントデータを認識することにより第２混同行列を生成し、当該第２混同行列に応じて前記第２方言なまり共通語モデルを前記一時マージモデルの中にマージして認識モデルを得る機能と、
を実行させることを特徴とするコンピュータプログラム。
ｎ種（ｎは２以上の自然数）の方言を背景とする共通語音声認識のモデリング方法であって、
（１）標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第１〜ｎ種の方言なまり共通語のそれぞれに対し、そのディベロップメントデータに基づいてモノフォンによる第１〜第ｎ方言なまり共通語モデルを生成する工程と、
（２）前記標準的共通語モデルを用いて第１種の方言なまり共通語のディベロップメントデータを認識することにより第１混同行列を生成し、当該第１混同行列に応じて第１方言なまり共通語モデルを前記標準的共通語モデルの中にマージして第１一時マージモデルを得る工程と、
（３）第（ｉ−１）一時マージモデル（ｉは２＜ｉ＜ｎを満たす自然数）を用いて第ｉ種の方言なまり共通語のディベロップメントデータを認識することにより第ｉ混同行列を生成し、当該第ｉ混同行列に応じて第ｉ方言なまり共通語モデルを前記第（ｉ−１）一時マージモデルの中にマージする動作を、ｉ＝２からｉ＝ｎまで順に繰り返すことにより、認識モデルを得る工程と、
を含むことを特徴とする複数の方言を背景とする共通語音声認識のモデリング方法。
ｎ種（ｎは２以上の自然数）の方言を背景とする共通語音声認識のモデリングプログラムであって、コンピュータに
（１）標準的共通語のトレーニングデータに基づいてトライフォンによる標準的共通語モデルを生成し、第１〜ｎ種の方言なまり共通語のそれぞれに対し、そのディベロップメントデータに基づいてモノフォンによる第１〜第ｎ方言なまり共通語モデルを生成する機能と、
（２）前記標準的共通語モデルを用いて第１種の方言なまり共通語のディベロップメントデータを認識することにより第１混同行列を生成し、当該第１混同行列に応じて第１方言なまり共通語モデルを前記標準的共通語モデルの中にマージして第１一時マージモデルを得る機能と、
（３）第（ｉ−１）一時マージモデル（ｉは２＜ｉ＜ｎを満たす自然数）を用いて第ｉ種の方言なまり共通語のディベロップメントデータを認識することにより第ｉ混同行列を生成し、当該第ｉ混同行列に応じて第ｉ方言なまり共通語モデルを前記第（ｉ−１）一時マージモデルの中にマージする動作を、ｉ＝２からｉ＝ｎまで順に繰り返すことにより、認識モデルを得る機能と、
を実行させることを特徴とするコンピュータプログラム。
請求項３または５に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
複数の方言を背景とする共通語音声認識のモデリングシステムであって、モデル生成ユニットと、当該モデル生成ユニット全体の動作を制御する制御ユニットとを備え、
前記モデル生成ユニットは、
標準的共通語のトレーニングデータが記憶されている標準的共通語トレーニングデータベースと、
第１、第２種の方言なまり共通語のディベロップメントデータがそれぞれ記憶されている第１、第２ディベロップメントデータベースと、
前記標準的共通語トレーニングデータベースに記憶されている標準的共通語のトレーニングデータに基づいて、トライフォンによる標準的共通語モデルを生成するための標準的共通語モデル生成部と、
前記第１、第２ディベロップメントデータベースにそれぞれ記憶されている第１、第２種の方言なまり共通語のディベロップメントデータに基づいて、モノフォンによる第１、第２方言なまり共通語モデルを生成するための第１、第２モデル生成部と、
前記標準的共通語モデル生成部により生成された標準的共通語モデルを用いて、前記第１ディベロップメントデータベースに記憶されている第１種の方言なまり共通語のディベロップメントデータを認識することにより、第１混同行列を生成するための第１混同行列生成部と、
前記第１混同行列生成部により生成された第１混同行列に応じて、前記第１モデル生成部により生成された第１方言なまり共通語モデルを、前記標準的共通語モデル生成部により生成された標準的共通語モデルの中にマージして一時マージモデルを生成するための第１モデルマージ部と、
前記第１モデルマージ部により生成された一時マージモデルを用いて、前記第２ディベロップメントデータベースに記憶されている第２種の方言なまり共通語のディベロップメントデータを認識することにより、第２混同行列を生成するための第２混同行列生成部と、
前記第２混同行列生成部により生成された第２混同行列に応じて、前記第２モデル生成部により生成された第２方言なまり共通語モデルを、前記第１モデルマージ部により生成された一時マージモデルの中にマージして認識モデルを生成するための第２モデルマージ部と
を備えることを特徴とする複数の方言を背景とする共通語音声認識のモデリングシステム。
ｘで被認識音声の観測特徴ベクター、ｓで前記標準的共通語モデルにおける隠れマルコフ状態、ｄ１で前記第１方言なまり共通語モデルにおける隠れマルコフ状態、ｄ２で前記第２方言なまり共通語モデルにおける隠れマルコフ状態、を表す場合、下記の数式で与えられる前記一時マージモデルにおける確率密度関数は
ｐ’（ｘ｜ｓ）=λ_１ｐ（ｘ｜ｓ）＋（１−λ_１）ｐ（ｘ｜ｄ_１）ｐ（ｄ_１｜ｓ）
であり、
その中で、λ_１は線形補間係数であり、０＜λ_１＜１を満たし、
前記認識モデルの確率密度関数は

であり、その中で、ｗ_ｋ ^{（ｓｃ）’}は前記標準的共通語モデルにおける隠れマルコフ状態が占める重み、ｗ_ｍｎ ^{（ｄｃ１）’}とｗ_ｐｑ ^{（ｄｃ２）’}はそれぞれ前記第１方言なまり共通語モデル、前記第２方言なまり共通語モデルにおける隠れマルコフ状態が占める重み、Ｋは標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の混合数、Ｎ_ｋ ^（ｓｃ）（・）は標準的共通語モデルの隠れマルコフ状態ｓの混合正規分布の要素、Ｍは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数、Ｎは前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の混合数、Ｎ_ｍｎ ^{（ｄｃ１）}（・）は前記第１方言なまり共通語モデルの隠れマルコフ状態ｄ_１の混合正規分布の要素、Ｐは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２と標準的共通語モデルの隠れマルコフ状態ｓの間での発音バリエーションの数、Ｑは前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の混合数、Ｎ_ｐｑ ^{（ｄｃ２）}（・）は前記第２方言なまり共通語モデルの隠れマルコフ状態ｄ_２の混合正規分布の要素、を示すことを特徴とする請求項４に記載のモデリングシステム。
請求項７又は８に記載の第１と第２モデル生成部、第１と第２混同行列生成部、第１と第２モデルマージ部のうち少なくとも一組は、単一の構成として時間分割で利用されることを特徴とする複数の方言を背景とする共通語音声認識のモデリングシステム。