JP3776391B2 - 多言語音声認識方法、装置、プログラム - Google Patents
多言語音声認識方法、装置、プログラム Download PDFInfo
- Publication number
- JP3776391B2 JP3776391B2 JP2002261672A JP2002261672A JP3776391B2 JP 3776391 B2 JP3776391 B2 JP 3776391B2 JP 2002261672 A JP2002261672 A JP 2002261672A JP 2002261672 A JP2002261672 A JP 2002261672A JP 3776391 B2 JP3776391 B2 JP 3776391B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- speaker
- pronunciation
- languages
- multilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【産業上の利用分野】
この発明は、多言語音声認識方法、装置、プログラムに関し、特に、或る言語の音声を非母国語話者が発話した場合においても高い音声認識精度を確保し、高速動作する多言語音声認識方法、装置、プログラムに関する。
【0002】
【従来の技術】
音声認識装置の従来例を図16を参照して説明する。
図16において、入力音声は音声認識装置1606の音声分析部1601に入力され、ここにおいて特徴パラメータに変換される。この変換された特徴パラメータは探索部1605に入力される。この探索部1605においては、音響モデル1603を用い、認識用文法1604で表現される単語列と入力音声の間の照合が行われ、照合スコアの最も高い単語列が認識結果として出力される。認識用文法1604は、発音辞書1602に登録されている単語を用いて作成される。
【0003】
音声分析部1601における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴パラメータとしては、MFCC(Mel Frequency Cepstral Coefficient)、ΔMFCC、対数パワーその他のパラメータがある。分析フレーム幅は30ms程度、分析フレームシフト幅は10ms程度として分析を実施する。
音響モデル1603としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model、略してHMM )が汎用される。通常、HMMは音素毎に音素モデルが作成されるが、現在は、或る音素のHMMを作成するに際して、その前後に接続する音素も音素環境として考慮する triphone HMMが主流となっている。なお、音素環境を考慮しないHMMはmonophone HMMと呼ばれている。
【0004】
探索処理を行うに先だって、探索部1605には、認識用文法1604と音響モデル1603が読み込まれ、認識用文法1604に従って音素モデルが連結され、最終的に探索ネットワークと呼ばれる音素モデルのネットワークが構築される。探索処理においては、音声分析部1601で分析フレーム毎に得られる特徴パラメータを用いて、探索ネットワーク上で照合スコアを計算しながら、複数の仮説を同時に展開して行く。この探索処理の途中で照合スコアが低くなり、最終的に認識結果となる可能性が低くなった仮説についてはそれ以上の展開が打ち切られる。この操作は枝刈りと呼ばれ、これにより仮説数の極端な増加を抑えることができ、効率的な探索が可能となる。そして、最終分析フレームに対する探索処理が終わった時点で、スコアの最も高い仮説が表す単語列を認識結果として出力する。探索ネットワークの構造としては、木構造ネットワーク、リニア構造ネットワークがよく用いられる。また、よく用いられる探索方法としてはA* 探索、時間同期ビーム探索がある。
【0005】
これらの音声分析方法、特徴パラメータ、音響モデル、探索ネットワーク、探索方法の詳細は文献に開示されている(例えば、非特許文献1参照。)。
上述した音声認識装置の従来例は、或る特定の認識対象言語の発声に対してのみ動作する構成とされている。例えば、英語音声認識装置の場合、図16における発音辞書1602としては、例えば、図17に示されるが如き英語発音辞書1702が準備される。認識用文法1604は、図17の英語発音辞書1702に登録される英単語を用いて、例えば図18のように作成される。発音辞書、認識用文法ともに、その形式には様々なものが考えられ、図17および図18に示す形式はその一例に過ぎない。音響モデル1603として、英語を母国語とする不特定多数の話者の大量の英語発声から学習された英語音響モデルが準備される。以下においては、この不特定多数の話者の大量の発声から学習された音響モデルのことを、不特定話者音響モデル或いは単に音響モデルと呼ぶ。
【0006】
以上の或る特定の認識対象言語の発声に対してのみ動作する図16の音声認識装置1606を用いて2つ以上の言語の発声を同時に待ち受けることができる多言語音声認識装置を構成するとすれば、図19の如き構成が容易に考えられる。この構成は、認識対象とするn個の言語の音声認識装置1906−1〜1906−nと、これらから出力された認識結果を比較する認識結果比較部1907を備えている。話者の発声は、n個の言語の音声認識装置1906−1〜1906−nに入力され、それぞれにおいて図16を用いて説明した処理と同様な一連の音声認識処理が行われ、n個の言語の認識結果が得られる。その後、これらn個の言語の認識結果が認識結果比較部1907に入力され、これらの内で最も認識結果にふさわしいと思われるものを選択し、最終的な認識結果として出力する。
【0007】
図19の構成の多言語音声認識装置においては、話者の1つの発声に対してn個の言語の音声認識装置1906−1〜1906−nをすべて起動する必要がある。これは、音声認識における一連の流れの内で最も大きな処理量を要する探索処理をn個の言語の音声認識装置における探索部においてそれぞれ行うことを意味し、合計の処理量は単一言語音声認識装置と比べておよそn倍となる。即ち、図19の多言語音声認識装置の従来例に依っては、認識対象の言語の数nが多くなると、高速に認識結果を得ることが困難になる。
次に、図19の多言語音声認識装置の従来例において、言語Bを母国語とする話者の言語Aの発声を認識する場合を想定する。この場合、言語Bを母国語とする話者の言語Aに対する習熟度が高ければ、言語Aを母国語とする話者の言語Aの発声と同じく、n個の言語の音声認識装置1906−1〜1906−nの内の言語Aの音声認識装置において精度の高い認識処理が行われ、更に認識結果比較部1907において言語Aの音声認識装置の認識結果が選択される。しかし、先の言語Bを母国語とする話者の言語Aに対する習熟度が低ければ、その発声は言語Bの発声様式に影響されて標準的な言語Aの発声とは異なるものとなるので、言語Aの音声認識装置において精度の高い認識処理を行うことは困難であり、更に認識結果比較部1907においても言語Aの音声装置の認識結果が選択される可能性は低くなる。即ち、図19の多言語音声認識装置の従来例に依っては、話者の非母国語に対する習熟度に依存せずに非母国語発声を認識することは困難である。
【0008】
ここで、話者適応技術の従来例について説明する。話者適応とは、不特定多数の話者の大量の発声から学習された不特定話者音響モデルに対して、或る特定の適応対象話者の比較的少量の発声を用いて追加学習することで、当該不特定話者音響モデルをこの特定の適応対象話者の音声に適応する技術である。話者適応処理を行った特定話者音響モデルを用いた特定話者音声認識装置は、適応対象話者の発声をより高精度かつ高速に認識することができる。
話者適応装置2011の従来例を図20を参照して説明する。
図20において、適応対象話者により発声された入力音声は音声分析部2001において特徴パラメータに変換される。この特徴パラメータは、次いで、発音付与部2008に入力されるが、発音辞書2002を用い、話者の発声内容に基づいて発音ラベル、即ち、発音記号列が付与される。その後、話者適応部2009において、不特定話者音響モデル2003に対して、当該特徴パラメータと発音ラベルを用いて話者適応処理が行われ、適応対象話者の音声に適応した特定話者音響モデルが出力される。
【0009】
話者適応の形態は、大きく分けて、教師あり適応(supervised adaptation)と教師なし適応(unsupervised adaptation)の2つに分類される。この内の教師あり適応は、話者適応装置側から適応対象話者に発声の内容を指定し、適応用発声の内容が予め分かっているという状況下の適応であり、正確な発音ラベルを付与することができるので、適応の精度は高い。その反面、決まった内容の発声を話者に強要するところから、適応対象話者には負担の大きい適応方法となる。一方において、教師なし適応は、任意の適応用発声を許容するところから、適応対象話者にとっては負担の小さい適応方法である。しかし、適応用発声の内容が分からないので、何らかの方法でそれを求める必要がある。一般に、適応対象話者の発声に対して音声認識を行うことで、その内容および発音ラベルを得ることができる。このために、音声認識を行いながら、同時に、話者適応を行うこともできる。ただし、音声認識により得られる発音ラベルの精度は十分なものである保証はなく、結果的に適応の精度も教師あり適応と比較して劣る。
【0010】
なお、教師あり適応においても、より精度の高い話者適応を行うためには、より精度の高い発音ラベルを作成する必要があり、この際に音声認識を行わなければならない場合がある。これは、例えば、発音辞書において複数の発音が付与されている単語を適応対象話者が発声した場合であり、この場合は、複数の発音から話者の発声に最も近いもの、即ち、話者の発声との間の照合スコアが高いものを選択して発音ラベルを作成する必要がある。例えば、図17に示す英語発音辞書1702を用いる英語話者適応装置において、適応対象話者が“I don't like dog”と発声した場合を考える。この場合“don't” には2つの発音が付与されているが、その何れが話者の発声に近いかを判定するに、図21に示されるが如き認識用文法を作成する、即ち、発音を選択する認識用文法を用いて話者の発声を認識すれば、例えば、図22に示されるが如き発音ラベルを取得することができる。
【0011】
これらの教師あり適応および教師なし適応の詳細については文献に開示されている(例えば、非特許文献2参照。)。
話者適応部2009における話者適応方法としてよく用いられるものとして、MAP(Maximum A Posteriori)適応、MLLR(Maximum Likelihood Linear Regression)適応がある。MAP適応の詳細については文献に開示されている(例えば、非特許文献3参照。)。
MLLR適応の詳細については、文献に開示されている(例えば、非特許文献4参照。)。
【0012】
話者適応装置の従来例は、或る特定の適応対象言語の発声に対してのみ動作する構成とされている。例えば、上述した通り、英語話者適応装置は適応対象話者の英語発声に対して発音ラベルを付与し、これらを用いて不特定話者英語音響モデルに対して話者適応処理を行い、特定話者英語音響モデルを作成する。或る特定の適応対象言語の発声に対してのみ動作する話者適応装置を用いて、適応対象話者のn個の言語の発声をより高精度かつ高速に認識することができる様にするための多言語話者適応装置を構成するとすれば、例えば、図23に示される如き構成が容易に考えられる。図23に示す多言語話者適応装置は、例えば、図19に示される多言語音声認識装置におけるn個の言語の音響モデルのそれぞれに対して話者適応処理を行うものである。
【0013】
図23に示す多言語話者適応装置においては、先ず、言語判定部2311において適応対象話者の発声が何れの言語の発声であるかを判定する。教師あり適応の場合は装置側から発声内容が指定されるので、判定結果は指定した発声内容の言語となる。教師なし適応の場合は、例えば、適応対象話者の発声に対して図19に示す多言語音声認識装置を用いて音声認識を行い、その結果より言語を特定する。以上の通りに言語の判定を行った後、判定結果言語の話者適応装置2310において話者適応処理が行われる。
この多言語話者適応装置においては、適応対象話者が母国語を発声する場合、通常の単一言語話者適応装置と同様に動作するので、話者適応は高精度に行われる。しかし、認識対象話者が非母国語を発声する場合は高精度な話者適応が可能であるとは限らない。例えば、言語Bを母国語とする適応対象話者の言語Aの発声に対して話者適応を行うことを想定する。この場合、言語Bを母国語とする話者の言語Aに対する習熟度が高ければ、言語Aを母国語とする話者の言語Aの発声と同じく、言語判定部において言語Aが選択され、言語Aの話者適応装置において高精度の話者適応処理が行われる。しかし、言語Bを母国語とする話者の言語Aに対する習熟度が低ければ、その発声は言語Bの発声様式に影響されて標準的な言語Aの発声とは異なるものとなるので、教師なし適応の場合は、言語判定部において言語Aが選択される可能性が低くなる。更に、言語判定部において言語Aが選択されても、言語Aの話者適応装置において高精度の話者適応処理を行うことは困難である。以上の問題点は、図19に示す多言語音声認識装置において非母国語音声認識を行うときに生じる問題点と同様のものである。即ち、図23に示される多言語話者適応装置の従来例に依っては、適応対象話者の非母国語に対する習熟度に依存せずにその非母国語発声を用いて高精度の話者適応処理を行うことは困難である。
【0014】
なお、多言語音声認識方法および装置の従来例として「母国語話者による音声モデル16、21、母国語話者が他言語を発声したときの音声モデル23、認識対象言語の母国語話者による音声モデルを用いた照合パターンと、他言語の母国語話者による認識対象言語の音声モデルを用いた照合パターンと、他言語の母国語話者による他言語音声モデルを用いて認識対象を識別できるよう作成した照合パターンとにより、それぞれ入力音声信号から抽出した音声特徴パラメータとの照合スコアを計算する手段14、19、22、24、高いスコアを示す照合パターンが表現する認識対象を出力する手段17を設け、認識対象言語の母国語話者だけでなく、母国語でない話者の音声も高精度に認識できる様にする」ものが知られている(例えば、特許文献1参照。)。
【0015】
そして、非母国語音声認識装置の従来例として、「入力音声の分析を行う母国語話者用分析手段301、母国語話者用辞書を作成保持する母国語話者用辞書作成手段302、母国語話者用標準パターンを母国語話者の多数音声を用い作成保持する母国語話者用標準パターン作成手段303、母国語話者用辞書と母国語話者用標準パターンを用いて認識処理を行う母国語話者用認識手段304、入力音声分析用の非母国語話者用分析手段305、非母国語話者用辞書を作成保持する非母国語話者用辞書作成手段306、母国語話者用辞書から辞書変換手段310を用いて変換する非母国語話者用の辞書、非母国語話者用標準パターンを非母国語話者の多数発声を用い作成保持する非母国語話者用標準パターン作成手段307、非母国語話者用辞書と非母国語話者用標準パターンを用い入力音声に対し認識処理を行う非母国語話者用認識手段308から構成される」ものが知られている(例えば、特許文献2参照。)。
【0016】
【特許文献1】
特開2001−188556号公報
【特許文献2】
特開平10−133686号公報
【非特許文献1】
鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄 著、「IT Text 音声認識システム」、オーム社、2001年
【非特許文献2】
鹿野清宏、中村哲、伊藤史郎、河原達也 著、「ディジタル信号処理シリーズ 第5巻 音声・音情報のディジタル信号処理」、昭晃堂、1997年
【非特許文献3】
J.L.Gauvain and C.H.Lee 著、「Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains」、IEEE Transactions on Speech and Audio Processing,vol.2,No.2、April,1994、p.291-298
【非特許文献4】
C.J. Leggetter and P.C. Woodland 著、「Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models」,Computer Speech and Language、September,1995、p.171-185
【0017】
【発明が解決しようとする課題】
近年の国際化の進展に伴い、各国において外国人の割合が高くなるにつれて、特定の言語だけでなく、複数の言語の発声を認識することができる多言語音声認識装置の開発が要請されている。日本国においても英会話学校が多数存在し、話者が母国語としない言語でコミュニケーションをとる機会が増える状況の下で、話者の非母国語発声を認識することができる非母国語音声認識装置の開発が要請されている。
しかし、[従来の技術]の項において説明した通り、複数の言語の発声を認識する多言語音声認識装置の従来例は、音声認識装置における探索部の処理量が大きくなり過ぎ、高速に認識することは困難であった。そして、この多言語音声認識装置においては、話者の非母国語発声をその習熟度に依存せずに高精度に認識することは困難であった。
【0018】
この発明は、音声分析部において入力音声から抽出された特徴パラメータに対して、探索部において認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行う構成を採用することにより、高速に音声認識を行い、話者の非母国語発声をその習熟度に依存せずに高精度に認識する多言語音声認識方法、装置、およびプログラムを提供するものである。
【0019】
【課題を解決するための手段】
認識対象の複数の言語の発音辞書102−1〜102−nおよびそれらに対応する音響モデル103−1〜103−nと、認識対象の複数の言語の発音辞書102−1〜102−nで定義される単語を用いて作成された1つの多言語化された認識用文法104と、言語に独立な1つの音声分析部101および探索部105を備え、音声分析部101において入力音声から抽出された特徴パラメータに対して、探索部105において認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い、照合スコアの最も高い単語列を認識結果として出力する多言語音声認識方法を構成した。
【0020】
そして、先の多言語音声認識方法において、認識対象の複数の言語の内の任意の言語Aの発音辞書において、言語Aの単語の発音を言語Aの発音記号および認識対象の複数の言語の内の先の任意の言語A以外の任意の1つまたは複数の言語の発音記号で併記して登録する多言語音声認識方法を構成した。
また、直前に記載される多言語音声認識方法において、話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび言語A以外の任意の複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与することにより、言語Aおよび言語A以外の任意の複数の言語の音響モデルをそれぞれ話者の音声に適応した音響モデル103−1〜103−nを用いる多言語音声認識方法を構成した。
【0021】
更に、直前に記載される多言語音声認識方法において、話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび話者の母国語Bの2つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与することにより話者の音声に適応した言語Aおよび母国語の言語Bの音響モデルを用いる多言語音声認識方法を構成した。
【0022】
ここで、記憶媒体に記憶される認識対象の複数言語の発音辞書102−1〜102−nおよびそれらに対応する音響モデル103−1〜103−nを具備し、認識対象の複数の言語の発音辞書102−1〜102−nで定義される単語を用いて作成されて記憶媒体に記憶される1つの多言語化された認識用文法104を具備し、入力音声から特徴パラメータを抽出する音声分析部101を具備し、特徴パラメータに対して、認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い照合スコアの最も高い単語列を認識結果として出力する探索部105を具備する多言語音声認識装置を構成した。
【0023】
そして、探索部105に対して多言語化された認識用文法104と認識対象の複数の言語の音響モデル103−1、103−nを読み込んで探索ネットワークを構築し、音声分析部101が入力音声から特徴パラメータを抽出し、探索部105が、特徴パラメータに対して、認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い、最も照合スコアの高い単語列を認識結果として出力する指令をコンピュータに実行させる多言語音声認識プログラムを構成した。
【0024】
【発明の実施の形態】
この発明は、認識対象の複数の言語の発音辞書およびそれらに対応する音響モデルと、認識対象の複数の言語の発音辞書で定義される単語を用いて作成された1つの多言語化された認識用文法と、言語に独立な1つの音声分析部および探索部を備え、音声分析部により入力音声から抽出された特徴パラメータに対して、探索部により認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との照合を行い、最も照合スコアの高い単語列を認識結果として出力する第1の多言語音声認識装置を構成した。これは、複数の言語の発声を認識する多言語音声認識装置でありながら単一言語音声認識装置と同等の速度で認識処理を実行することができる。
【0025】
第2の多言語音声認識装置は、以上の第1の多言語音声認識装置において、認識対象の複数の言語のうちの任意の言語Aの発音辞書において、言語Aの単語の発音を言語Aの発音記号および前記認識対象の複数の言語のうちの言語A以外の任意の1つまたは複数の言語の発音記号で併記して登録する構成を具備している。これにより、話者の非母国語発声をその習熟度に依存せずに高精度に認識することができるに到る。
第3の多言語話者適応装置は、第2の多言語音声認識装置における認識対象の複数の言語の音響モデルのそれぞれに対して話者適応を実施するものであり、適応対象話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび言語A以外の任意の複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与することにより、言語Aおよび言語A以外の任意の複数の言語の音響モデルをそれぞれ適応対象話者の音声に適応する。これにより、適応対象話者の非母国語発声への習熟度に依存せずに非母国語音声認識の精度および速度を向上させることができる。
【0026】
第4の多言語話者適応装置は、第3の多言語話者適応装置を更に高精度化するものであり、適応対象話者の言語Aの発声に対し、言語Aの発音辞書に登録される言語Aおよび適応対象話者の母国語Bの2つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与する。
【0027】
【実施例】
この発明の実施の形態を図の実施例を参照して説明する。
図1を参照して第1の実施例を説明する。図1は多言語音声認識装置の第1の実施例を示す図である。
図1の第1の実施例は、認識対象のn個の言語の発音辞書102−1〜102−nおよびそれらに対応する音響モデル103−1〜103−nと、認識対象のn個の言語の発音辞書102−1〜102−nで定義される単語を用いて作成された1つの多言語化された認識用文法104と、言語に独立な1つの音声分析部101および探索部105を備えている。ここで、発音辞書、音響モデル、認識用文法は、何れも、記憶媒体に記憶されている。
【0028】
図2は、図1の実施例において、認識対象の言語の数nを2とし、その言語を英語および日本語とした場合について示す図である。以下、簡単のために、図2を参照して第1の実施例を説明する。
図2に示す多言語音声認識装置の第1の実施例は、英語および日本語の発音辞書202−e,202−jおよびそれらに対応する音響モデル203−e,203−jと、英語および日本語の発音辞書202−e,202−jで定義される単語を用いて作成された1つの多言語化された認識用文法204と、言語に独立な1つの音声分析部201および探索部205を備えている。
【0029】
図3は英語および日本語の発音辞書202の一例を示す図である。図4は英語および日本語の発音辞書202−e,202−jで定義される単語を用いて作成された多言語化された認識用文法204の一例を示す図である。英語および日本語の音響モデル203−e,203−jは、それぞれ英語および日本語を母国語とする不特定多数の話者の大量の発声から学習されたものを用いる。音声分析部201および探索部205としては、図16に示される単一言語音声認識装置と同じものを備えている。
実際に音声認識を開始するに先立って、探索部205において多言語化された認識用文法204と英語および日本語の音響モデル203−e、203−jが読み込まれ、探索ネットワークが構築される。このとき構築される探索ネットワークは、英語および日本語の音素モデルが混在して連結された多言語化された音素モデルネットワークとなる。音声認識時には、音声分析部201で分析フレーム毎に得られる特徴パラメータを用いながら、多言語化された探索ネットワーク上で複数の仮説を同時に展開して行き、最終分析フレームに対する処理が終わった時点で最もスコアの高い仮説が表す単語列を認識結果として出力される。
【0030】
次いで、第2の実施例を説明するに、図2の多言語音声認識装置の第1の実施例は、基本的に、英語を母国語とする話者の英語発声、或いは、日本語を母国語とする話者の日本語発声を認識するものである。この第1の実施例を、更に、日本語を母国語とする話者の英語発声まで認識することができるものとするには、この発明の第2の実施例は、図2に示す多言語音声認識装置の英語発音辞書202−eにおいて、図5に示される通りに、英単語の発音を英語発音記号および日本語発音記号で併記する。この英語発音辞書502−eを用いて、例えば、図6に示される認識用文法を作成することで、話者の英語発声に対して英語音響モデルだけでなく日本語音響モデルも同時に用いて音声認識を行う。
【0031】
そして、第3の実施例を図7を参照して説明するに図1および図2により図示説明される多言語音声認識装置の第2の実施例において非母国語音声認識精度を向上させるに使用される多言語話者適応装置を示す図である。この第3の実施例において、多言語話者適応装置は図1の多言語音声認識装置におけるn個の言語の音響モデル103−1〜103−nに対してそれぞれ話者適応処理を行う。第3の実施例に使用されるこの多言語話者適応装置は、音声分析部701、言語判定部711、言語判定部711による判定結果言語の発音辞書702、発音付与部708、n個の言語の音響モデル703−1〜703−n、話者適応部709を備える。この多言語話者適応装置における話者適応部709から出力されるn個の言語の特定話者音響モデルを、図1の多言語音声認識装置におけるn個の言語の音響モデル103−1〜103−nとして用いる。
【0032】
図8の多言語話者適応装置は、図7の多言語話者適応装置において、認識対象の言語の数nを2とし、その言語を英語および日本語としたものに相当する。図8は、図2に示す多言語音声認識装置に対応する多言語話者適応装置を示す図である。以下、簡単のために、図8を参照して説明する。
図8に示す多言語話者適応装置は、音声分析部801、言語判定部811、言語判定部811による判定結果言語(英語または日本語)の発音辞書802、英語および日本語の音響モデル803−e,803−jを備え、更に、発音付与部808と話者適応部809を備えている。
【0033】
適応対象話者の発声による入力音声は、先ず、音声分析部801で分析フレームごとに特徴パラメータに変換される。このとき、同時に、言語判定部811において適応対象話者の発声が英語によるものか、或いは日本語によるものかの判定が行われる。教師あり適応の場合は装置側から発声内容が指定されるので、判定結果は指定した発声内容の言語となる。教師なし適応の場合は、例えば、適応対象話者の発声に対して図2に示されるが如き多言語音声認識装置を用いて音声認識を行い、その結果より言語を特定する。音声分析部801で得られた特徴パラメータは発声付与部808に入力されて、先ず、発声内容が取得される。そして、発声内容を表す単語列に対して言語判定部による判定結果言語、英語或いは日本語の発音辞書802を用いて発音ラベルが付与される。このとき、判定結果言語の発音辞書802には、例えば、図5の英語発音辞書502−eに示されるが如き発音定義が多言語化されたものを用いる。発音定義が多言語化された発音辞書を用いることで、例えば、図9に示される如く、適応対象話者が“I don't like dog”と英語発声した場合、図5の英語発音辞書502−eと同等の英語発音辞書902−eに登録される全ての発音の組み合わせを考えて、英語と日本語の発音記号が混在した複数の発音ラベルを付与する。これらの発音ラベルと適応対象話者の発声を用いて、話者適応部809において、英語および日本語の音響モデル803−e,803−jに対して話者適応処理が行われる。
【0034】
更に、第4の実施例を説明するに、図9により図示説明された多言語話者適応装置の第3の実施例においては、英語を母国語とする話者の英語発声に対しても英語音響モデルと日本語音響モデルが同時に適応されることになる。しかし、英語を母国語とする話者の英語発声を用いて日本語音響モデルを高精度に話者適応することは困難であり、計算量の増加を生じる。この問題を解消するに、第4の実施例においては、多言語話者適応装置の第3の実施例における発音ラベル付与の別の方法として、適応対象話者の母国語が分かる場合に、発音ラベルで使用する発音記号の言語を適応対象話者の発声言語および適応対象話者の母国語の言語に限定する構成を採用する。この発音ラベル付与の方法によれば、適応される音響モデルは話者の発声言語および話者の母国語の音響モデルのみに限定される。
【0035】
この発音ラベル付与の方法を図9の多言語話者適応装置の第3の実施例に当てはめれば、図10の通りとなる。図10の発音ラベル付与の方法は、適応対象話者が日本語を母国語とする場合は図9と同様に英語および日本語の発音記号が混在した発音ラベルが付与され、英語および日本語の音響モデルが適応される。一方、適応対象話者が英語を母国語とする場合は発声言語と母国語とが一致するので、英語の発音記号のみを用いた発音ラベルが付与され、英語音響モデルのみが適応される。
図9および図10により図示説明される発音ラベル付与の方法は、発声内容を表す単語列に対して発音辞書に登録される発音の組み合わせで表現される複数の発音ラベルが付与されるが、より精度の高い話者適応を行うには、より精度の高い発音ラベルを付与する必要がある。このために、発音ラベル付与の別の方法として、複数の発音ラベルから適応対象話者の発声との間の照合スコアの最も高いものを選択して使用する。
【0036】
適応対象話者の発声との間の照合スコアの高い発音ラベルを得る方法は幾通りか考えられる。例えば、日本語を母国語とする話者の“I don't like dog”という英語発声に対して最も照合スコアの高い発音ラベルを取得するには、例えば、図5の英語発音辞書502−eを用いて図11に示されるが如き認識用文法を準備して話者の発声に対して認識を行い、例えば、図12に示されるが如き発音ラベルを得ることができる。教師なし話者適応の場合は、適応対象話者の発声内容を得るための音声認識の結果をそのまま適応対象話者の発声に対して最も照合スコアの高い発音ラベルとして用いることができる。例えば、英語発声に対して、英語および日本語の発音ラベルをそれぞれ1つずつ取得したい場合は、図5の英語発音辞書502−eを用いて図13に示されるが如き認識用文法を準備して適応対象話者の発声に対して認識を行うことで、例えば図14に示されるが如き英語および日本語の発音ラベルをそれぞれ取得することができる。話者適応時は、図12或いは図14に示されるが如き発音ラベルをそれぞれ用いるか、或いは、両図に示す3つの発音ラベルを同時に用いることもできる。
【0037】
なお、この発明による以上の多言語音声認識装置においては、主に発音辞書における単語の発音定義が英語と日本語より成る2つの言語であるものとして説明したが、これを発音辞書における単語の発音定義が3つ以上の言語による場合にも容易に拡張することができる。そして、以上の多言語音声認識装置をコンピュータを主要な構成部材として構成してもよい。また、この発明の多言語音声認識装置を、CDその他の記憶媒体からダウンロードし或いは通信回線を介してダウンロードしたプログラムをこのコンピュータにインストールして実施することができる。
【0038】
【発明の効果】
上述した通りであって、この発明は、図2の多言語音声認識装置においては、探索ネットワーク(認識用文法204)自体が多言語化されているので、例えば図19に示される従来技術による多言語音声認識装置の様に、言語毎の探索処理を実行する必要、言語毎に得られる認識結果の比較を行う必要を無くし、通常の単一言語音声認識装置と同様の探索を行うことで、多言語音声認識を実行することができる。また、探索ネットワーク(認識用文法204)自体が多言語化されているところから、その規模は単一言語音声認識装置のものと比較して大きくなる。しかし、従来技術の紹介で説明した通り、探索処理の途中で枝刈りが行われるので、その処理量は単一言語音声認識装置のものと殆ど変わらない。例えば、話者の発声が明らかに英語のものである場合、日本語の音素モデルを繋げた仮説は探索処理の早い段階で枝刈りされ、殆ど展開されることはない。
【0039】
以上の第1の多言語音声認識装置は、多言語音声認識装置の従来例に依っては困難であった高速な音声認識を行い、単一言語音声認識装置と同等の速度で音声認識することができる。
第2の多言語音声認識装置においては、例えば、図5に示される様な英単語の発音を英語発音記号および日本語発音記号で併記した英語発音辞書502−e、更にこれを用いて作成した図6に示される様な認識用文法の一例を用いることにより、話者の発声に対して英語音響モデルだけでなく日本語音響モデルも同時に用いて認識を行う。このとき、話者が日本語を母国語とする話者で、英語の発声への習熟度の高い場合は、その発声は主に英語音響モデルを用いて英語の発音として認識され、習熟度が低い場合は、その発声は主に日本語音響モデルを用いて日本語の発音として認識される。例えば、図6の定型文認識用文法604−bを用いて認識を行った場合、その認識結果は、話者の英語発声への習熟度に応じて例えば図15の様に得られる。
【0040】
以上の第2の多言語音声認識装置は、多言語音声認識装置の従来例に依っては困難であった話者の非母国語発声をその習熟度に依存せずに高精度に認識するという課題を解決した。
第3の多言語話者適応装置においては、例えば、図9に示される如く、適応対象話者の英語発声に対して、単語の発音が英語および日本語の発音記号で併記して登録される英語発音辞書902−eを用いて、英語および日本語の発音記号が混在した複数の発音ラベルを付与することで英語音響モデルだけでなく日本語音響モデルに対しても同時に話者適応処理を行う。これにより、例えば、適応対象話者が日本語を母国語とする話者で英語発声への習熟度が高い場合は、特に英語音響モデルの話者適応が高精度に実行され、英語発声への習熟度が低い場合は、特に日本語音響モデルの話者適応が高精度に実行される。また、英語発声への習熟度が中程度の話者の場合は、例えば、図15に示される多言語音声認識装置の認識結果の様に、英語母国語話者と同様に発音することができる単語とできない単語が混在する。しかし、この多言語話者適応装置においては、発声内容の各単語に英語発音を付与するラベルと日本語発音を付与するラベルがあり、これらを全て用いて英語および日本語音響モデルを適応するので、英語発声への習熟度が中程度の話者でも高精度の話者適応をすることができる。
【0041】
以上の第3の多言語話者適応装置においては、従来技術による多言語話者適応装置においては困難であった適応対象話者の非母国語への習熟度に依存せずにその非母国語発声を用いて高精度の話者適応を行うという課題を解決し、これを実現することができる。
第4の多言語話者適応装置においては、適応対象話者の母国語が分かる場合、発音ラベルで使用する発音記号の言語を、適応対象話者の発声言語および適応対象話者の母国語の言語に限定することで、例えば、図10に示される如く、適応対象話者が英語を母国語とする場合は、英語の発音記号のみを用いた発音ラベルが付与され、英語音響モデルのみが適応される。
【0042】
以上の第4の多言語話者適応装置における発音ラベル付与は、第3の多言語話者適応装置において高精度に実行することが困難であった言語Aを母国語とする適応対象話者の言語Aの発声を用いた言語A以外の音響モデルの話者適応を省略することができ、計算量を削減することができる。
【図面の簡単な説明】
【図1】多言語音声認識装置の実施例を示す図。
【図2】図1の実施例で認識対象言語を英語と日本語の2つにした実施例を示す図。
【図3】英語発音辞書および日本語発音辞書の実施例を示す図。
【図4】多言語化された認識用文法の実施例を示す図。
【図5】英語発音辞書における英単語の発音が英語および日本語発音記号で併記して登録された英語および日本語発音辞書の実施例を示す図。
【図6】英単語の発音が英語および日本語発音記号で併記して登録された多言語化された認識用文法の実施例を示す図。
【図7】多言語話者適応装置の実施例を示す図。
【図8】図7の実施例において、適応対象言語を英語と日本語の2つにした実施例を示す図。
【図9】発音ラベル付与の実施例を示す図。
【図10】発音ラベル付与の他の実施例を示す図。
【図11】適応対象話者の発声に対して最も照合スコアの高い発音ラベルを得る認識用文法の実施例を示す図。
【図12】図11に示す認識用文法を用いて得られた適応対象話者の発声に対して最も照合スコアの高い発音ラベルの実施例を示す図。
【図13】適応対象話者の発声に対して最も照合スコアの高い英語および日本語の発音ラベルを作成する認識用文法の実施例を示す図。
【図14】図13に示す認識用文法を用いて得られた英語および日本語発音ラベルの実施例を示す図。
【図15】図6の604−bに示す多言語化された定型文認識用文法を用いて認識を行ったときに得られる認識結果の実施例を示す図。
【図16】音声認識装置の従来例を示す図。
【図17】英語音声認識装置における英語発音辞書の従来例を示す図。
【図18】認識用文法の従来例を示す図。
【図19】多言語音声認識装置の従来例を示す図。
【図20】話者適応装置の従来例を示す図。
【図21】英語発音ラベルを作成する認識用文法の従来例を示す図。
【図22】英語発音ラベルの従来例を示す図。
【図23】多言語話者適応装置の従来例を示す図。
【符号の説明】
f01 音声分析部 f02 発音辞書
f03 音響モデル f04 認識用文法
f05 探索部 f06 音声認識装置
f07 認識結果比較部 f08 発音付与部
f09 話者適応部 f10 話者適応装置
f11 言語判定部 f 対応図番
Claims (6)
- 認識対象となる複数の言語の発音辞書と、これら複数の言語の発音辞書に対応する音響モデルとを備え、
認識対象となる複数の言語の発音辞書で定義される単語を用いて1つの多言語化された認識用文法とに統合し、
入力音声から特徴パラメータを抽出する音声分析処理と、
この音声分析処理で抽出した特徴パラメータに対して認識対象となる複数の言語の音響モデルを用いて上記認識用文法で表現される単語列との間の照合を行う照合処理と、
照合処理で得られた照合スコアの最も高い単語列を認識結果として出力する認識出力処理と、
を含むことを特徴とする多言語音声認識方法。 - 請求項1に記載される多言語音声認識方法において、
認識対象の複数の言語の内の任意の言語Aの発音辞書において、言語Aの単語の発音を言語Aの発音記号および認識対象の複数の言語の内の先の任意の言語A以外の任意の1つまたは複数の言語の発音記号で併記して登録することを特徴とする多言語音声認識方法。 - 請求項2に記載される多言語音声認識方法において、
話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび言語A以外の任意の複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与することにより、言語Aおよび言語A以外の任意の複数の言語の音響モデルをそれぞれ話者の音声に適応した音響モデルを用いることを特徴とする多言語音声認識方法。 - 請求項3に記載される多言語音声認識方法において、
話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび話者の母国語Bの2つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与することにより話者の音声に適応した言語Aおよび母国語の言語Bの音響モデルを用いることを特徴とする多言語音声認識方法。 - 記憶媒体に記憶される認識対象の複数の言語の発音辞書およびそれらに対応する音響モデルを具備し、
認識対象の複数の言語の発音辞書で定義される単語を用いて作成されて記憶媒体に記憶される1つの多言語化された認識用文法を具備し、
入力音声から特徴パラメータを抽出する音声分析部を具備し、
特徴パラメータに対して、認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い照合スコアの最も高い単語列を認識結果として出力する探索部を具備することを特徴とする多言語音声認識装置。 - コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1乃至4の何れかに記載の多言語音声認識方法を実行させることを特徴とする多言語音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002261672A JP3776391B2 (ja) | 2002-09-06 | 2002-09-06 | 多言語音声認識方法、装置、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002261672A JP3776391B2 (ja) | 2002-09-06 | 2002-09-06 | 多言語音声認識方法、装置、プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005339917A Division JP4163207B2 (ja) | 2005-11-25 | 2005-11-25 | 多言語話者適応方法、装置、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004101727A JP2004101727A (ja) | 2004-04-02 |
JP3776391B2 true JP3776391B2 (ja) | 2006-05-17 |
Family
ID=32261981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002261672A Expired - Lifetime JP3776391B2 (ja) | 2002-09-06 | 2002-09-06 | 多言語音声認識方法、装置、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3776391B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578471A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
US8868431B2 (en) | 2010-02-05 | 2014-10-21 | Mitsubishi Electric Corporation | Recognition dictionary creation device and voice recognition device |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4466666B2 (ja) | 2007-03-14 | 2010-05-26 | 日本電気株式会社 | 議事録作成方法、その装置及びそのプログラム |
WO2010086928A1 (ja) * | 2009-01-28 | 2010-08-05 | 三菱電機株式会社 | 音声認識装置 |
JP2011033874A (ja) * | 2009-08-03 | 2011-02-17 | Alpine Electronics Inc | 多言語音声認識装置及び多言語音声認識辞書作成方法 |
CN103971676B (zh) * | 2014-04-23 | 2017-07-14 | 上海师范大学 | 一种快速语音孤立词识别算法及其用途、语音识别系统 |
DE112014007287B4 (de) | 2014-12-24 | 2019-10-31 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
WO2021019775A1 (ja) * | 2019-08-01 | 2021-02-04 | 三菱電機株式会社 | 多言語音声認識装置および多言語音声認識方法 |
CN112185363B (zh) * | 2020-10-21 | 2024-02-13 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
-
2002
- 2002-09-06 JP JP2002261672A patent/JP3776391B2/ja not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8868431B2 (en) | 2010-02-05 | 2014-10-21 | Mitsubishi Electric Corporation | Recognition dictionary creation device and voice recognition device |
CN103578471A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
CN103578471B (zh) * | 2013-10-18 | 2017-03-01 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2004101727A (ja) | 2004-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10249294B2 (en) | Speech recognition system and method | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
Ghai et al. | Literature review on automatic speech recognition | |
US8275621B2 (en) | Determining text to speech pronunciation based on an utterance from a user | |
US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
US11450320B2 (en) | Dialogue system, dialogue processing method and electronic apparatus | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
WO2009156903A2 (en) | Method and device for generating vocabulary entry from acoustic data | |
KR102094935B1 (ko) | 음성 인식 시스템 및 방법 | |
Kumar et al. | A comprehensive view of automatic speech recognition system-a systematic literature review | |
US12087291B2 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP2004170765A (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
EP1418570B1 (en) | Cross-lingual speech recognition method | |
JP4163207B2 (ja) | 多言語話者適応方法、装置、プログラム | |
Rebai et al. | Linto platform: A smart open voice assistant for business environments | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
Bouselmi et al. | Multilingual recognition of non-native speech using acoustic model transformation and pronunciation modeling | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
Caranica et al. | On the design of an automatic speaker independent digits recognition system for Romanian language | |
US8768695B2 (en) | Channel normalization using recognition feedback | |
Imseng | Multilingual speech recognition: a posterior based approach | |
JPH10133686A (ja) | 非母国語音声認識装置 | |
Soe et al. | Syllable-based speech recognition system for Myanmar | |
JP2001188556A (ja) | 音声認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051125 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3776391 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090303 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100303 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120303 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130303 Year of fee payment: 7 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |