JP4163207B2

JP4163207B2 - 多言語話者適応方法、装置、プログラム

Info

Publication number: JP4163207B2
Application number: JP2005339917A
Authority: JP
Inventors: 厚徳小川; 昭一松永; 明弘今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-11-25
Filing date: 2005-11-25
Publication date: 2008-10-08
Anticipated expiration: 2022-09-06
Also published as: JP2006106775A

Description

この発明は、多言語話者適応方法、装置、プログラムに関する。

ここでは先ず本発明の多言語話者適応方法および装置を理解する上で必要とする音声認識装置の従来例を図１６を参照して説明する。
図１６において、入力音声は音声認識装置１６０６の音声分析部１６０１に入力され、ここにおいて特徴パラメータに変換される。この変換された特徴パラメータは探索部１６０５に入力される。この探索部１６０５においては、音響モデル１６０３を用い、認識用文法１６０４で表現される単語列と入力音声の間の照合が行われ、照合スコアの最も高い単語列が認識結果として出力される。認識用文法１６０４は、発音辞書１６０２に登録されている単語を用いて作成される。

音声分析部１６０１における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴パラメータとしては、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）、ΔＭＦＣＣ、対数パワーその他のパラメータがある。分析フレーム幅は３０ｍｓ程度、分析フレームシフト幅は１０ｍｓ程度として分析を実施する。
音響モデル１６０３としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル（Hidden Markov Model、略してＨＭＭ）が汎用される。通常、ＨＭＭは音素毎に音素モデルが作成されるが、現在は、或る音素のＨＭＭを作成するに際して、その前後に接続する音素も音素環境として考慮する triphone ＨＭＭが主流となっている。なお、音素環境を考慮しないＨＭＭはmonophone ＨＭＭと呼ばれている。

探索処理を行うに先だって、探索部１６０５には、認識用文法１６０４と音響モデル１６０３が読み込まれ、認識用文法１６０４に従って音素モデルが連結され、最終的に探索ネットワークと呼ばれる音素モデルのネットワークが構築される。探索処理においては、音声分析部１６０１で分析フレーム毎に得られる特徴パラメータを用いて、探索ネットワーク上で照合スコアを計算しながら、複数の仮説を同時に展開して行く。この探索処理の途中で照合スコアが低くなり、最終的に認識結果となる可能性が低くなった仮説についてはそれ以上の展開が打ち切られる。この操作は枝刈りと呼ばれ、これにより仮説数の極端な増加を抑えることができ、効率的な探索が可能となる。そして、最終分析フレームに対する探索処理が終わった時点で、スコアの最も高い仮説が表す単語列を認識結果として出力する。探索ネットワークの構造としては、木構造ネットワーク、リニア構造ネットワークがよく用いられる。また、よく用いられる探索方法としてはＡ^*探索、時間同期ビーム探索がある。

これらの音声分析方法、特徴パラメータ、音響モデル、探索ネットワーク、探索方法の詳細は文献に開示されている（例えば、非特許文献１参照。）。
上述した音声認識装置の従来例は、或る特定の認識対象言語の発声に対してのみ動作する構成とされている。例えば、英語音声認識装置の場合、図１６における発音辞書１６０２としては、例えば、図１７に示されるが如き英語発音辞書１７０２が準備される。認識用文法１６０４は、図１７の英語発音辞書１７０２に登録される英単語を用いて、例えば図１８のように作成される。発音辞書、認識用文法ともに、その形式には様々なものが考えられ、図１７および図１８に示す形式はその一例に過ぎない。音響モデル１６０３として、英語を母国語とする不特定多数の話者の大量の英語発声から学習された英語音響モデルが準備される。以下においては、この不特定多数の話者の大量の発声から学習された音響モデルのことを、不特定話者音響モデル或いは単に音響モデルと呼ぶ。

以上の或る特定の認識対象言語の発声に対してのみ動作する図１６の音声認識装置１６０６を用いて２つ以上の言語の発声を同時に待ち受けることができる多言語音声認識装置を構成するとすれば、図１９の如き構成が容易に考えられる。この構成は、認識対象とするｎ個の言語の音声認識装置１９０６−１〜１９０６−ｎと、これらから出力された認識結果を比較する認識結果比較部１９０７を備えている。話者の発声は、ｎ個の言語の音声認識装置１９０６−１〜１９０６−ｎに入力され、それぞれにおいて図１６を用いて説明した処理と同様な一連の音声認識処理が行われ、ｎ個の言語の認識結果が得られる。その後、これらｎ個の言語の認識結果が認識結果比較部１９０７に入力され、これらの内で最も認識結果にふさわしいと思われるものを選択し、最終的な認識結果として出力する。

図１９の構成の多言語音声認識装置においては、話者の１つの発声に対してｎ個の言語の音声認識装置１９０６−１〜１９０６−ｎをすべて起動する必要がある。これは、音声認識における一連の流れの内で最も大きな処理量を要する探索処理をｎ個の言語の音声認識装置における探索部においてそれぞれ行うことを意味し、合計の処理量は単一言語音声認識装置と比べておよそｎ倍となる。即ち、図１９の多言語音声認識装置の従来例に依っては、認識対象の言語の数ｎが多くなると、高速に認識結果を得ることが困難になる。

次に、図１９の多言語音声認識装置の従来例において、言語Ｂを母国語とする話者の言語Ａの発声を認識する場合を想定する。この場合、言語Ｂを母国語とする話者の言語Ａに対する習熟度が高ければ、言語Ａを母国語とする話者の言語Ａの発声と同じく、ｎ個の言語の音声認識装置１９０６−１〜１９０６−ｎの内の言語Ａの音声認識装置において精度の高い認識処理が行われ、更に認識結果比較部１９０７において言語Ａの音声認識装置の認識結果が選択される。しかし、先の言語Ｂを母国語とする話者の言語Ａに対する習熟度が低ければ、その発声は言語Ｂの発声様式に影響されて標準的な言語Ａの発声とは異なるものとなるので、言語Ａの音声認識装置において精度の高い認識処理を行うことは困難であり、更に認識結果比較部１９０７においても言語Ａの音声装置の認識結果が選択される可能性は低くなる。即ち、図１９の多言語音声認識装置の従来例に依っては、話者の非母国語に対する習熟度に依存せずに非母国語発声を認識することは困難である。

ここで、話者適応技術の従来例について説明する。話者適応とは、不特定多数の話者の大量の発声から学習された不特定話者音響モデルに対して、或る特定の適応対象話者の比較的少量の発声を用いて追加学習することで、当該不特定話者音響モデルをこの特定の適応対象話者の音声に適応する技術である。話者適応処理を行った特定話者音響モデルを用いた特定話者音声認識装置は、適応対象話者の発声をより高精度かつ高速に認識することができる。

話者適応装置２０１１の従来例を図２０を参照して説明する。
図２０において、適応対象話者により発声された入力音声は音声分析部２００１において特徴パラメータに変換される。この特徴パラメータは、次いで、発音付与部２００８に入力されるが、発音辞書２００２を用い、話者の発声内容に基づいて発音ラベル、即ち、発音記号列が付与される。その後、話者適応部２００９において、不特定話者音響モデル２００３に対して、当該特徴パラメータと発音ラベルを用いて話者適応処理が行われ、適応対象話者の音声に適応した特定話者音響モデルが出力される。

話者適応の形態は、大きく分けて、教師あり適応（supervised adaptation）と教師なし適応（unsupervised adaptation）の２つに分類される。この内の教師あり適応は、話者適応装置側から適応対象話者に発声の内容を指定し、適応用発声の内容が予め分かっているという状況下の適応であり、正確な発音ラベルを付与することができるので、適応の精度は高い。その反面、決まった内容の発声を話者に強要するところから、適応対象話者には負担の大きい適応方法となる。一方において、教師なし適応は、任意の適応用発声を許容するところから、適応対象話者にとっては負担の小さい適応方法である。しかし、適応用発声の内容が分からないので、何らかの方法でそれを求める必要がある。一般に、適応対象話者の発声に対して音声認識を行うことで、その内容および発音ラベルを得ることができる。このために、音声認識を行いながら、同時に、話者適応を行うこともできる。ただし、音声認識により得られる発音ラベルの精度は十分なものである保証はなく、結果的に適応の精度も教師あり適応と比較して劣る。

なお、教師あり適応においても、より精度の高い話者適応を行うためには、より精度の高い発音ラベルを作成する必要があり、この際に音声認識を行わなければならない場合がある。これは、例えば、発音辞書において複数の発音が付与されている単語を適応対象話者が発声した場合であり、この場合は、複数の発音から話者の発声に最も近いもの、即ち、話者の発声との間の照合スコアが高いものを選択して発音ラベルを作成する必要がある。例えば、図１７に示す英語発音辞書１７０２を用いる英語話者適応装置において、適応対象話者が“I don't like dog”と発声した場合を考える。この場合“don't” には２つの発音が付与されているが、その何れが話者の発声に近いかを判定するに、図２１に示されるが如き認識用文法を作成する、即ち、発音を選択する認識用文法を用いて話者の発声を認識すれば、例えば、図２２に示されるが如き発音ラベルを取得することができる。

これらの教師あり適応および教師なし適応の詳細については文献に開示されている（例えば、非特許文献２参照。）。
話者適応部２００９における話者適応方法としてよく用いられるものとして、ＭＡＰ（Maximum A Posteriori）適応、ＭＬＬＲ（Maximum Likelihood Linear Regression）適応がある。ＭＡＰ適応の詳細については文献に開示されている（例えば、非特許文献３参照。）。ＭＬＬＲ適応の詳細については、文献に開示されている（例えば、非特許文献４参照。）。

話者適応装置の従来例は、或る特定の適応対象言語の発声に対してのみ動作する構成とされている。例えば、上述した通り、英語話者適応装置は適応対象話者の英語発声に対して発音ラベルを付与し、これらを用いて不特定話者英語音響モデルに対して話者適応処理を行い、特定話者英語音響モデルを作成する。或る特定の適応対象言語の発声に対してのみ動作する話者適応装置を用いて、適応対象話者のｎ個の言語の発声をより高精度かつ高速に認識することができる様にするための多言語話者適応装置を構成するとすれば、例えば、図２３に示される如き構成が容易に考えられる。図２３に示す多言語話者適応装置は、例えば、図１９に示される多言語音声認識装置におけるｎ個の言語の音響モデルのそれぞれに対して話者適応処理を行うものである。

図２３に示す多言語話者適応装置においては、先ず、言語判定部２３１１において適応対象話者の発声が何れの言語の発声であるかを判定する。教師あり適応の場合は装置側から発声内容が指定されるので、判定結果は指定した発声内容の言語となる。教師なし適応の場合は、例えば、適応対象話者の発声に対して図１９に示す多言語音声認識装置を用いて音声認識を行い、その結果より言語を特定する。以上の通りに言語の判定を行った後、判定結果言語の話者適応装置２３１０において話者適応処理が行われる。

この多言語話者適応装置においては、適応対象話者が母国語を発声する場合、通常の単一言語話者適応装置と同様に動作するので、話者適応は高精度に行われる。しかし、認識対象話者が非母国語を発声する場合は高精度な話者適応が可能であるとは限らない。例えば、言語Ｂを母国語とする適応対象話者の言語Ａの発声に対して話者適応を行うことを想定する。この場合、言語Ｂを母国語とする話者の言語Ａに対する習熟度が高ければ、言語Ａを母国語とする話者の言語Ａの発声と同じく、言語判定部において言語Ａが選択され、言語Ａの話者適応装置において高精度の話者適応処理が行われる。しかし、言語Ｂを母国語とする話者の言語Ａに対する習熟度が低ければ、その発声は言語Ｂの発声様式に影響されて標準的な言語Ａの発声とは異なるものとなるので、教師なし適応の場合は、言語判定部において言語Ａが選択される可能性が低くなる。更に、言語判定部において言語Ａが選択されても、言語Ａの話者適応装置において高精度の話者適応処理を行うことは困難である。以上の問題点は、図１９に示す多言語音声認識装置において非母国語音声認識を行うときに生じる問題点と同様のものである。即ち、図２３に示される多言語話者適応装置の従来例に依っては、適応対象話者の非母国語に対する習熟度に依存せずにその非母国語発声を用いて高精度の話者適応処理を行うことは困難である。

なお、多言語音声認識方法および装置の従来例として「母国語話者による音声モデル１６、２１、母国語話者が他言語を発声したときの音声モデル２３、認識対象言語の母国語話者による音声モデルを用いた照合パターンと、他言語の母国語話者による認識対象言語の音声モデルを用いた照合パターンと、他言語の母国語話者による他言語音声モデルを用いて認識対象を識別できるよう作成した照合パターンとにより、それぞれ入力音声信号から抽出した音声特徴パラメータとの照合スコアを計算する手段１４、１９、２２、２４、高いスコアを示す照合パターンが表現する認識対象を出力する手段１７を設け、認識対象言語の母国語話者だけでなく、母国語でない話者の音声も高精度に認識できる様にする」ものが知られている（例えば、特許文献１参照。）。

そして、非母国語音声認識装置の従来例として、「入力音声の分析を行う母国語話者用分析手段３０１、母国語話者用辞書を作成保持する母国語話者用辞書作成手段３０２、母国語話者用標準パターンを母国語話者の多数音声を用い作成保持する母国語話者用標準パターン作成手段３０３、母国語話者用辞書と母国語話者用標準パターンを用いて認識処理を行う母国語話者用認識手段３０４、入力音声分析用の非母国語話者用分析手段３０５、非母国語話者用辞書を作成保持する非母国語話者用辞書作成手段３０６、母国語話者用辞書から辞書変換手段３１０を用いて変換する非母国語話者用の辞書、非母国語話者用標準パターンを非母国語話者の多数発声を用い作成保持する非母国語話者用標準パターン作成手段３０７、非母国語話者用辞書と非母国語話者用標準パターンを用い入力音声に対し認識処理を行う非母国語話者用認識手段３０８から構成される」ものが知られている（例えば、特許文献２参照。）。
特開２００１−１８８５５６号公報特開平１０−１３３６８６号公報鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「ＩＴＴｅｘｔ音声認識システム」、オーム社、２００１年鹿野清宏、中村哲、伊藤史郎、河原達也著、「ディジタル信号処理シリーズ第５巻音声・音情報のディジタル信号処理」、昭晃堂、１９９７年 J.L.Gauvain and C.H.Lee 著、「Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains」、IEEE Transactions on Speech and Audio Processing，vol.２，No.２、April，1994、p.291-298 C.J. Leggetter and P.C. Woodland 著、「Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models」，Computer Speech and Language、September，1995、p.171-185

近年の国際化の進展に伴い、各国において外国人の割合が高くなるにつれて、特定の言語だけでなく、複数の言語の発声を認識することができる多言語音声認識装置の開発が要請されている。日本国においても英会話学校が多数存在し、話者が母国語としない言語でコミュニケーションをとる機会が増える状況の下で、話者の非母国語発声を認識することができる非母国語音声認識装置の開発が要請されている。

しかし、［背景技術］の項において説明した通り、複数の言語の発声を認識する多言語音声認識装置の従来例は、音声認識装置における探索部の処理量が大きくなり過ぎ、高速に認識することは困難であった。そして、この多言語音声認識装置においては、話者の非母国語発声をその習熟度に依存せずに高精度に認識することは困難であった。また、或る話者の複数の言語の発声をより高精度かつ高速に認識することができる様にするための多言語話者適応装置を構築する場合に、適応対象話者の非母国語に対する習熟度に依存せずにその非母国語発声を用いて高精度の話者適応を行うことは困難であった。

この発明は、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、認識対象言語の音響モデルに対して話者適応処理を行い、認識対象言語の特定話者音響モデルを出力する構成を採用することにより、話者の非母国語発声に対する習熟度に依存せずにその非母国語発声を用いて高精度に話者適応する多言語話者適応方法、装置、およびプログラムを提供するものである。

多言語音声認識方法としては認識対象の複数の言語の発音辞書１０２−１〜１０２−ｎおよびそれらに対応する音響モデル１０３−１〜１０３−ｎと、認識対象の複数の言語の発音辞書１０２−１〜１０２−ｎで定義される単語を用いて作成された１つの多言語化された認識用文法１０４と、言語に独立な１つの音声分析部１０１および探索部１０５を備え、音声分析部１０１において入力音声から抽出された特徴パラメータに対して、探索部１０５において認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い、照合スコアの最も高い単語列を認識結果として出力する多言語音声認識方法を構成した。

そして、先の多言語音声認識方法において、認識対象の複数の言語の内の任意の言語Ａの発音辞書において、言語Ａの単語の発音を言語Ａの発音記号および認識対象の複数の言語の内の先の任意の言語Ａ以外の任意の一つまたは複数の言語の発音記号で併記して登録する多言語音声認識方法を構成した。
また、直前に記載される多言語音声認識方法において、話者の言語Ａの発声に対して、言語Ａの発音辞書に登録される言語Ａおよび言語Ａ以外の任意の複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与することにより、言語Ａおよび言語Ａ以外の任意の複数の言語の音響モデルをそれぞれ話者の音声に適応した音響モデル１０３−１〜１０３−ｎを用いる多言語音声認識方法を構成した。

更に、直前に記載される多言語音声認識方法において、話者の言語Ａの発声に対して、言語Ａの発音辞書に登録される言語Ａおよび話者の母国語Ｂの２つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与することにより話者の音声に適応した言語Ａおよび母国語の言語Ｂの音響モデルを用いる多言語音声認識方法を構成した。

ここで、音声認識装置としては記憶媒体に記憶される認識対象の複数言語の発音辞書１０２−１〜１０２−ｎおよびそれらに対応する音響モデル１０３−１〜１０３−ｎを具備し、認識対象の複数の言語の発音辞書１０２−１〜１０２−ｎで定義される単語を用いて作成されて記憶媒体に記憶される１つの多言語化された認識用文法１０４を具備し、入力音声から特徴パラメータを抽出する音声分析部１０１を具備し、特徴パラメータに対して、認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い照合スコアの最も高い単語列を認識結果として出力する探索部１０５を具備する多言語音声認識装置を構成した。

そして、探索部１０５に対して多言語化された認識用文法１０４と認識対象の複数の言語の音響モデル１０３−１、１０３−ｎを読み込んで探索ネットワークを構築し、音声分析部１０１が入力音声から特徴パラメータを抽出し、探索部１０５が、特徴パラメータに対して、認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い、最も照合スコアの高い単語列を認識結果として出力する指令をコンピュータに実行する多言語音声認識プログラムを構成した。

ここで、音声分析部において、適応対象話者による発声から特徴パラメータを抽出し、言語判定部において、先の適応対象話者による発声の言語を特定し、発音付与部において、言語判定部の判定結果言語である言語Ａの単語の発音を言語Ａの発音記号および認識対象の複数の言語の内の先の言語Ａ以外の任意の１つ又は複数の言語の発音記号で併記して登録した発音辞書を用いて、先の特徴パラメータに対して言語Ａの発音辞書に登録される言語Ａおよび言語Ａ以外の任意の１つ又は複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与し、話者適応部において、先の特徴パラメータと発音ラベルを用いて、言語Ａおよび言語Ａ以外の任意の１つ又は複数の言語の音響モデルをそれぞれ適応対象話者の音声に適応する多言語話者適応方法を構成した。

また、音声分析部において、適応対象話者による発声から特徴パラメータを抽出し、言語判定部において、先の適応対象話者による発声の言語を特定し、発音付与部において、言語判定部の判定結果言語である言語Ａの単語の発音を言語Ａの発音記号および認識対象の２つの言語内の先の言語Ａ以外の適応対象話者の母国語Ｂの発音記号で併記して登録した発音辞書を用いて、先の特徴パラメータに対して言語Ａの発音辞書に登録される言語Ａおよび適応対象話者の母国語Ｂの発音記号の組み合わせで表現される複数の発音ラベルを付与し、話者適応部において、先の特徴パラメータと発音ラベルを用いて、言語Ａおよび適応対象話者の母国語Ｂの音響モデルをそれぞれ適応対象話者の音声に適応する多言語話者適応方法を構成した。
更に、適応対象話者の入力音声から特徴パラメータを抽出する音声分析部７０１を具備し、適応対象話者の入力音声から適応対象話者の発声言語を特定する言語判定部７１１を具備し、言語判定部７１１の判定結果言語である言語Ａの単語の発音を言語Ａの発音記号および認識対象の複数の言語の内の先の言語Ａ以外の任意の１つ又は複数の言語の発音記号で併記して記憶媒体に記憶した発音辞書７０２を具備し、言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語に対応する音響モデル１０３−１〜１０３−ｎを具備し、音声分析部７０１で得られた特徴パラメータを入力し、発声内容を表す単語列に対して判定結果言語の発音辞書７０２を用いて、特徴パラメータに対して、発音辞書に登録されている言語の発音記号の組合せで表現される複数の発音ラベルを付与する発音付与部７０８を具備し、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語の音響モデル７０３−１〜７０３−ｎに対して話者適応処理を行い、言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語の特定話者音響モデルＬ１〜Ｌｎを出力する話者適応部７０９を具備する多言語話者適応装置を構成した。

また、音声分析部７０１に対して適応対象話者の入力音声から特徴パラメータを抽出し、言語判定部７１１に対して、適応対象話者の入力音声から適応対象話者の発声言語を特定し、発音付与部７０８に対して、言語判定部７１１の判定結果言語である言語Ａの単語の発音を言語Ａの発音記号および認識対象の複数の言語の内の先の言語Ａ以外の任意の１つ又は複数の言語の発音記号で併記して登録した発音辞書７０２を用いて、先の特徴パラメータに対して言語Ａの発音辞書に登録される言語Ａおよび言語Ａ以外の任意の１つ又は複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与し、話者適応部７０９に対して、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語の音響モデル７０３−１〜７０３−ｎに対して話者適応処理を行い、言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語の特定話者音響モデルＬ１〜Ｌｎを出力する指令をコンピュータに実行させる多言語話者適応プログラムを構成した。

この発明による多言語話者適応装置によれば、例えば、図９に示される如く、適応対象話者の英語発声に対して、単語の発音が英語および日本語の発音記号で併記して登録される英語発音辞書９０２−ｅを用いて、英語および日本語の発音記号が混在した複数の発音ラベルを付与することで英語音響モデルだけでなく日本語音響モデルに対しても同時に話者適応処理を行う。これにより、例えば、適応対象話者が日本語を母国語とする話者で英語発声への習熟度が高い場合は、特に英語音響モデルの話者適応が高精度に実行され、英語発声への習熟度が低い場合は、特に日本語音響モデルの話者適応が高精度に実行される。また、英語発声への習熟度が中程度の話者の場合は、例えば、図１５に示される多言語音声認識装置の認識結果の様に、英語母国語話者と同様に発音することができる単語とできない単語が混在する。しかし、この多言語話者適応装置においては、発声内容の各単語に英語発音を付与するラベルと日本語発音を付与するラベルがあり、これらを全て用いて英語および日本語音響モデルを適応するので、英語発声への習熟度が中程度の話者でも高精度の話者適応をすることができる。

この発明で提案した多言語話者適応装置によれば、従来技術による多言語話者適応装置によっては困難であった適応対象話者の非母国語への習熟度に依存せずにその非母国語発声を用いて高精度の話者適応を行うという課題を解決し、これを実現することができる。
更にこの発明によれば、適応対象話者の母国語が分かる場合、発音ラベルで使用する発音記号の言語を、適応対象話者の発声言語および適応対象話者の母国語の言語に限定することで、例えば、図１０に示される如く、適応対象話者が英語を母国語とする場合は、英語の発音記号のみを用いた発音ラベルが付与され、英語音響モデルのみが適応される。

更にこの発明によれば発音ラベル付与は、多言語話者適応装置において高精度に実行することが困難であった言語Ａを母国語とする適応対象話者の言語Ａの発声を用いた言語Ａ以外の音響モデルの話者適応を省略することができ、計算量を削減することができる。
更にこの発明によれば、発音ラベル付与は、話者適応時に適応対象話者の発声に対して最も照合スコアの高い発音ラベルを用いる。これにより、第１および第２の実施例における話者適応処理を更に高精度に実施することができる。また、適応対象話者の１つの発声に対して付与される発音ラベルの数が少なくなるので、話者適応処理の計算量も削減することができる。

この発明の多言語話者適応装置は、多言語音声認識装置における認識対象の複数の言語の音響モデルのそれぞれに対して話者適応を実施するものであり、適応対象話者の言語Ａの発声に対して、言語Ａの発音辞書に登録される言語Ａおよび言語Ａ以外の任意の１つまたは複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与することにより、言語Ａおよび言語Ａ以外の任意の複数の言語の音響モデルをそれぞれ適応対象話者の音声に適応する。これにより、適応対象話者の非母国語発声への習熟度に依存せずに非母国語音声認識の精度および速度を向上させることができる。

この発明の他の多言語話者適応装置は、上記多言語話者適応装置を更に高精度化するものであり、適応対象話者の言語Ａの発声に対し、言語Ａの発音辞書に登録される言語Ａおよび適応対象話者の母国語Ｂの２つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与する。
この発明の更に他の多言語話者適応装置は、上記多言語話者適応装置を更に高精度化するものであり、適応対象話者の言語Ａの発声に対して付与される複数の発音ラベルの内の適応対象話者の言語Ａの発声との照合スコアの最も高いものを選択して用いる。

多言語音声認識装置
図１を参照して本発明と共に提案する多言語音声認識装置の構成を説明する。
図１に示す多言語音声認識装置は、認識対象のｎ個の言語の発音辞書１０２−１〜１０２−ｎおよびそれらに対応する音響モデル１０３−１〜１０３−ｎと、認識対象のｎ個の言語の発音辞書１０２−１〜１０２−ｎで定義される単語を用いて作成された１つの多言語化された認識用文法１０４と、言語に独立な１つの音声分析部１０１および探索部１０５を備えている。ここで、発音辞書、音響モデル、認識用文法は、何れも、記憶媒体に記憶されている。

図２は、図１において、認識対象の言語の数ｎを２とし、その言語を英語および日本語とした場合について示す図である。以下、簡単のために、図２を参照してその例を説明する。
図２に示す多言語音声認識装置は、英語および日本語の発音辞書２０２−ｅ，２０２−ｊおよびそれらに対応する音響モデル２０３−ｅ，２０３−ｊと、英語および日本語の発音辞書２０２−ｅ，２０２−ｊで定義される単語を用いて作成された１つの多言語化された認識用文法２０４と、言語に独立な１つの音声分析部２０１および探索部２０５を備えている。

図３は英語および日本語の発音辞書２０２の一例を示す図である。図４は英語および日本語の発音辞書２０２−ｅ，２０２−ｊで定義される単語を用いて作成された多言語化された認識用文法２０４の一例を示す図である。英語および日本語の音響モデル２０３−ｅ，２０３−ｊは、それぞれ英語および日本語を母国語とする不特定多数の話者の大量の発声から学習されたものを用いる。音声分析部２０１および探索部２０５としては、図１６に示される単一言語音声認識装置と同じものを備えている。

実際に音声認識を開始するに先立って、探索部２０５において多言語化された認識用文法２０４と英語および日本語の音響モデル２０３−ｅ、２０３−ｊが読み込まれ、探索ネットワークが構築される。このとき構築される探索ネットワークは、英語および日本語の音素モデルが混在して連結された多言語化された音素モデルネットワークとなる。音声認識時には、音声分析部２０１で分析フレーム毎に得られる特徴パラメータを用いながら、多言語化された探索ネットワーク上で複数の仮説を同時に展開して行き、最終分析フレームに対する処理が終わった時点で最もスコアの高い仮説が表す単語列を認識結果として出力される。

図２の多言語音声認識装置は、基本的に、英語を母国語とする話者の英語発声、或いは、日本語を母国語とする話者の日本語発声を認識するものである。この多言語音声認識装置を、更に、日本語を母国語とする話者の英語発声まで認識することができるものとするには、図２に示す多言語音声認識装置の英語発音辞書２０２−ｅにおいて、図５に示される通りに、英単語の発音を英語発音記号および日本語発音記号で併記する。この英語発音辞書５０２−ｅを用いて、例えば、図６に示される認識用文法を作成することで、話者の英語発声に対して英語音響モデルだけでなく日本語音響モデルも同時に用いて音声認識を行う。

図７に本発明による多言語話者適応装置の第１の実施例を示す。この多言語話者適応装置は、図１および図２により図示説明される多言語音声認識装置において非母国語音声認識精度を向上させるに使用される多言語話者適応装置を示す。この第１の実施例において、多言語話者適応装置は図１の多言語音声認識装置におけるｎ個の言語の音響モデル１０３−１〜１０３−ｎに対してそれぞれ話者適応処理を行う。この第１の実施例に使用されるこの多言語話者適応装置は、音声分析部７０１、言語判定部７１１、言語判定部７１１による判定結果言語の発音辞書７０２、発音付与部７０８、ｎ個の言語の音響モデル７０３−１〜７０３−ｎ、話者適応部７０９を備える。この多言語話者適応装置における話者適応部７０９から出力されるｎ個の言語の特定話者音響モデルを、図１の多言語音声認識装置におけるｎ個の言語の音響モデル１０３−１〜１０３−ｎとして用いる。

図８にこの発明の第２の実施例を示す。
図８に示す多言語話者適応装置は、図７の多言語話者適応装置において、認識対象の言語の数ｎを２とし、その言語を英語および日本語としたものに相当する。図８は、図２に示す多言語音声認識装置に対応する多言語話者適応装置を示す図である。以下、簡単のために、図８を参照して説明する。
図８に示す多言語話者適応装置は、音声分析部８０１、言語判定部８１１、言語判定部８１１による判定結果言語（英語または日本語）の発音辞書８０２、英語および日本語の音響モデル８０３−ｅ，８０３−ｊを備え、更に、発音付与部８０８と話者適応部８０９を備えている。

適応対象話者の発声による入力音声は、先ず、音声分析部８０１で分析フレームごとに特徴パラメータに変換される。このとき、同時に、言語判定部８１１において適応対象話者の発声が英語によるものか、或いは日本語によるものかの判定が行われる。教師あり適応の場合は装置側から発声内容が指定されるので、判定結果は指定した発声内容の言語となる。教師なし適応の場合は、例えば、適応対象話者の発声に対して図２に示されるが如き多言語音声認識装置を用いて音声認識を行い、その結果より言語を特定する。音声分析部８０１で得られた特徴パラメータは発声付与部８０８に入力されて、先ず、発声内容が取得される。そして、発声内容を表す単語列に対して言語判定部による判定結果言語、英語或いは日本語の発音辞書８０２を用いて発音ラベルが付与される。このとき、判定結果言語の発音辞書８０２には、例えば、図５の英語発音辞書５０２−ｅに示されるが如き発音定義が多言語化されたものを用いる。発音定義が多言語化された発音辞書を用いることで、例えば、図９に示される如く、適応対象話者が“I don't like dog”と英語発声した場合、図５の英語発音辞書５０２−ｅと同等の英語発音辞書９０２−ｅに登録される全ての発音の組み合わせを考えて、英語と日本語の発音記号が混在した複数の発音ラベルを付与する。これらの発音ラベルと適応対象話者の発声を用いて、話者適応部８０９において、英語および日本語の音響モデル８０３−ｅ，８０３−ｊに対して話者適応処理が行われる。

図９により図示説明された発音ラベル付与方法においては、英語を母国語とする話者の英語発声に対しても英語音響モデルと日本語音響モデルが同時に適応されることになる。しかし、英語を母国語とする話者の英語発声を用いて日本語音響モデルを高精度に話者適応することは困難であり、計算量の増加を生じる。この問題を解消するに、この第３の実施例においては、図９に示した発音ラベル付与の別の方法として、適応対象話者の母国語が分かる場合に、発音ラベルで使用する発音記号の言語を適応対象話者の発声言語および適応対象話者の母国語の言語に限定する構成を採用する。この発音ラベル付与の方法によれば、適応される音響モデルは話者の発声言語および話者の母国語の音響モデルのみに限定される。

この実施例３で提案する発音ラベル付与の方法は、図１０の通りとなる。図１０の発音ラベル付与の方法は、適応対象話者が日本語を母国語とする場合は図９と同様に英語および日本語の発音記号が混在した発音ラベルが付与され、英語および日本語の音響モデルが適応される。一方、適応対象話者が英語を母国語とする場合は発声言語と母国語とが一致するので、英語の発音記号のみを用いた発音ラベルが付与され、英語音響モデルのみが適応される。

図９および図１０により図示説明される発音ラベル付与の方法は、発声内容を表す単語列に対して発音辞書に登録される発音の組み合わせで表現される複数の発音ラベルが付与されるが、より精度の高い話者適応を行うには、より精度の高い発音ラベルを付与する必要がある。このために、この第４の実施例においては、発音ラベル付与の別の方法として、複数の発音ラベルから適応対象話者の発声との間の照合スコアの最も高いものを選択して使用する。

適応対象話者の発声との間の照合スコアの高い発音ラベルを得る方法は幾通りか考えられる。例えば、日本語を母国語とする話者の“I don't like dog”という英語発声に対して最も照合スコアの高い発音ラベルを取得するには、例えば、図５の英語発音辞書５０２−ｅを用いて図１１に示されるが如き認識用文法を準備して話者の発声に対して認識を行い、例えば、図１２に示されるが如き発音ラベルを得ることができる。教師なし話者適応の場合は、適応対象話者の発声内容を得るための音声認識の結果をそのまま適応対象話者の発声に対して最も照合スコアの高い発音ラベルとして用いることができる。例えば、英語発声に対して、英語および日本語の発音ラベルをそれぞれ１つずつ取得したい場合は、図５の英語発音辞書５０２−ｅを用いて図１３に示されるが如き認識用文法を準備して適応対象話者の発声に対して認識を行うことで、例えば図１４に示されるが如き英語および日本語の発音ラベルをそれぞれ取得することができる。話者適応時は、図１２或いは図１４に示されるが如き発音ラベルをそれぞれ用いるか、或いは、両図に示す３つの発音ラベルを同時に用いることもできる。

なお、この発明による以上の多言語話者適応装置においては、主に発音辞書における単語の発音定義が英語と日本語より成る２つの言語であるものとして説明したが、これを発音辞書における単語の発音定義が３つ以上の言語による場合にも容易に拡張することができる。そして、以上の説明は多言語音声認識装置および多言語話者適応装置をコンピュータを主要な構成部材として構成してもよい。また、この発明の多言語音声認識装置および多言語話者適応装置を、ＣＤその他の記憶媒体からダウンロードし或いは通信回線を介してダウンロードしたプログラムをこのコンピュータにインストールして実施することができる。

この発明による多言語話者適応装置は多言語音声認識装置に搭載する音響モデル生成装置として活用される。

多言語音声認識装置の実施例を示す図。図１の実施例で認識対象言語を英語と日本語の２つにした実施例を示す図。英語発音辞書および日本語発音辞書の実施例を示す図。多言語化された認識用文法の実施例を示す図。英語発音辞書における英単語の発音が英語および日本語発音記号で併記して登録された英語および日本語発音辞書の実施例を示す図。英単語の発音が英語および日本語発音記号で併記して登録された多言語化された認識用文法の実施例を示す図。多言語話者適応装置の実施例を示す図。図７の実施例において、適応対象言語を英語と日本語の２つにした実施例を示す図。発音ラベル付与の実施例を示す図。発音ラベル付与の他の実施例を示す図。適応対象話者の発声に対して最も照合スコアの高い発音ラベルを得る認識用文法の実施例を示す図。図１１に示す認識用文法を用いて得られた適応対象話者の発声に対して最も照合スコアの高い発音ラベルの実施例を示す図。適応対象話者の発声に対して最も照合スコアの高い英語および日本語の発音ラベルを作成する認識用文法の実施例を示す図。図１３に示す認識用文法を用いて得られた英語および日本語発音ラベルの実施例を示す図。図６の６０４−ｂに示す多言語化された定型文認識用文法を用いて認識を行ったときに得られる認識結果の実施例を示す図。音声認識装置の従来例を示す図。英語音声認識装置における英語発音辞書の従来例を示す図。認識用文法の従来例を示す図。多言語音声認識装置の従来例を示す図。話者適応装置の従来例を示す図。英語発音ラベルを作成する認識用文法の従来例を示す図。英語発音ラベルの従来例を示す図。多言語話者適応装置の従来例を示す図。

符号の説明

ｆ０１音声分析部ｆ０２発音辞書
ｆ０３音響モデルｆ０４認識用文法
ｆ０５探索部ｆ０６音声認識装置
ｆ０７認識結果比較部ｆ０８発音付与部
ｆ０９話者適応部ｆ１０話者適応装置
ｆ１１言語判定部ｆ対応図番

Claims

音声分析部において、適応対象話者による発声から特徴パラメータを抽出し、
言語判定部において、先の適応対象話者による発声の言語を特定し、
発音付与部において、言語判定部の判定結果言語である言語Ａの単語の発音を言語Ａの発音記号および認識対象の複数の言語の内の先の言語Ａ以外の任意の１つ又は複数の言語の発音記号で併記して登録した発音辞書を用いて、先の特徴パラメータに対して言語Ａの発音辞書に登録される言語Ａおよび言語Ａ以外の任意の１つ又は複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与し、
話者適応部において、先の特徴パラメータと発音ラベルを用いて、言語Ａおよび言語Ａ以外の任意の１つ又は複数の言語の音響モデルをそれぞれ適応対象話者の音声に適応することを特徴とする多言語話者適応方法。
音声分析部において、適応対象話者による発声から特徴パラメータを抽出し、
言語判定部において、先の適応対象話者による発声の言語を特定し、
発音付与部において、言語判定部の判定結果言語である言語Ａの単語の発音を言語Ａの発音記号および認識対象の２つの言語内の先の言語Ａ以外の適応対象話者の母国語Ｂの発音記号で併記して登録した発音辞書を用いて、先の特徴パラメータに対して言語Ａの発音辞書に登録される言語Ａおよび適応対象話者の母国語Ｂの発音記号の組み合わせで表現される複数の発音ラベルを付与し、
話者適応部において、先の特徴パラメータと発音ラベルを用いて、言語Ａおよび適応対象話者の母国語Ｂの音響モデルをそれぞれ適応対象話者の音声に適応することを特徴とする多言語話者適応方法。
適応対象話者の入力音声から特徴パラメータを抽出する音声分析部を具備し、
適応対象話者の入力音声から適応対象話者の発声言語を特定する言語判定部を具備し、
言語判定部の判定結果言語である言語Ａの単語の発音を言語Ａの発音記号および認識対象の複数の言語の内の先の言語Ａ以外の任意の１つ又は複数の言語の発音記号で併記して記憶媒体に記憶した発音辞書を具備し、
言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語に対応する音響モデルを具備し、
音声分析部で得られた特徴パラメータを入力し、発声内容を表す単語列に対して判定結果言語の発音辞書を用いて、特徴パラメータに対して、発音辞書に登録されている言語の発音記号の組合せで表現される複数の発音ラベルを付与する発音付与部を具備し、
発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語の音響モデルに対して話者適応処理を行い、言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語の特定話者音響モデルを出力する話者適応部を具備することを特徴とする多言語話者適応装置。
音声分析部に対して適応対象話者の入力音声から特徴パラメータを抽出し、
言語判定部に対して、適応対象話者の入力音声から適応対象話者の発声言語を特定し、
発音付与部に対して、言語判定部の判定結果言語である言語Ａの単語の発音を言語Ａの発音記号および認識対象の複数の言語の内の先の言語Ａ以外の任意の１つ又は複数の言語の発音記号で併記して登録した発音辞書を用いて、先の特徴パラメータに対して言語Ａの発音辞書に登録される言語Ａおよび言語Ａ以外の任意の１つ又は複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与し、
話者適応部に対して、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語の音響モデルに対して話者適応処理を行い、言語Ａ及び言語Ａ以外の任意の１つ又は複数の言語の特定話者音響モデルを出力する指令をコンピュータに実行させる多言語話者適応プログラム。