JP2006106775A - 多言語話者適応方法、装置、プログラム - Google Patents

多言語話者適応方法、装置、プログラム Download PDF

Info

Publication number
JP2006106775A
JP2006106775A JP2005339917A JP2005339917A JP2006106775A JP 2006106775 A JP2006106775 A JP 2006106775A JP 2005339917 A JP2005339917 A JP 2005339917A JP 2005339917 A JP2005339917 A JP 2005339917A JP 2006106775 A JP2006106775 A JP 2006106775A
Authority
JP
Japan
Prior art keywords
language
speaker
adaptation
pronunciation
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005339917A
Other languages
English (en)
Other versions
JP4163207B2 (ja
Inventor
Atsunori Ogawa
厚徳 小川
Shoichi Matsunaga
昭一 松永
Akihiro Imamura
明弘 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005339917A priority Critical patent/JP4163207B2/ja
Publication of JP2006106775A publication Critical patent/JP2006106775A/ja
Application granted granted Critical
Publication of JP4163207B2 publication Critical patent/JP4163207B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

【課題】言語Aを母国語とする話者の非母国語音声を高精度に音声認識可能な音響モデルを生成する多言語話者適応方法、装置を提案する。
【解決手段】音声分析部701と、言語判定部711と、言語判定部711による判定結果言語の発音辞書702と、発音付与部708と、n個の言語の音響モデル703−1〜703−nと、話者適応部709を備え、この多言語話者適応装置における話者適応部709から出力されるn個の言語の特定話者音響モデルを多言語音声認識装置におけるn個の言語の音響モデルとして用いる。
【選択図】図7

Description

この発明は、多言語話者適応方法、装置、プログラムに関する。
ここでは先ず本発明の多言語話者適応方法および装置を理解する上で必要とする音声認識装置の従来例を図16を参照して説明する。
図16において、入力音声は音声認識装置1606の音声分析部1601に入力され、ここにおいて特徴パラメータに変換される。この変換された特徴パラメータは探索部1605に入力される。この探索部1605においては、音響モデル1603を用い、認識用文法1604で表現される単語列と入力音声の間の照合が行われ、照合スコアの最も高い単語列が認識結果として出力される。認識用文法1604は、発音辞書1602に登録されている単語を用いて作成される。
音声分析部1601における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴パラメータとしては、MFCC(Mel Frequency Cepstral Coefficient)、ΔMFCC、対数パワーその他のパラメータがある。分析フレーム幅は30ms程度、分析フレームシフト幅は10ms程度として分析を実施する。
音響モデル1603としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model、略してHMM )が汎用される。通常、HMMは音素毎に音素モデルが作成されるが、現在は、或る音素のHMMを作成するに際して、その前後に接続する音素も音素環境として考慮する triphone HMMが主流となっている。なお、音素環境を考慮しないHMMはmonophone HMMと呼ばれている。
探索処理を行うに先だって、探索部1605には、認識用文法1604と音響モデル1603が読み込まれ、認識用文法1604に従って音素モデルが連結され、最終的に探索ネットワークと呼ばれる音素モデルのネットワークが構築される。探索処理においては、音声分析部1601で分析フレーム毎に得られる特徴パラメータを用いて、探索ネットワーク上で照合スコアを計算しながら、複数の仮説を同時に展開して行く。この探索処理の途中で照合スコアが低くなり、最終的に認識結果となる可能性が低くなった仮説についてはそれ以上の展開が打ち切られる。この操作は枝刈りと呼ばれ、これにより仮説数の極端な増加を抑えることができ、効率的な探索が可能となる。そして、最終分析フレームに対する探索処理が終わった時点で、スコアの最も高い仮説が表す単語列を認識結果として出力する。探索ネットワークの構造としては、木構造ネットワーク、リニア構造ネットワークがよく用いられる。また、よく用いられる探索方法としてはA* 探索、時間同期ビーム探索がある。
これらの音声分析方法、特徴パラメータ、音響モデル、探索ネットワーク、探索方法の詳細は文献に開示されている(例えば、非特許文献1参照。)。
上述した音声認識装置の従来例は、或る特定の認識対象言語の発声に対してのみ動作する構成とされている。例えば、英語音声認識装置の場合、図16における発音辞書1602としては、例えば、図17に示されるが如き英語発音辞書1702が準備される。認識用文法1604は、図17の英語発音辞書1702に登録される英単語を用いて、例えば図18のように作成される。発音辞書、認識用文法ともに、その形式には様々なものが考えられ、図17および図18に示す形式はその一例に過ぎない。音響モデル1603として、英語を母国語とする不特定多数の話者の大量の英語発声から学習された英語音響モデルが準備される。以下においては、この不特定多数の話者の大量の発声から学習された音響モデルのことを、不特定話者音響モデル或いは単に音響モデルと呼ぶ。
以上の或る特定の認識対象言語の発声に対してのみ動作する図16の音声認識装置1606を用いて2つ以上の言語の発声を同時に待ち受けることができる多言語音声認識装置を構成するとすれば、図19の如き構成が容易に考えられる。この構成は、認識対象とするn個の言語の音声認識装置1906−1〜1906−nと、これらから出力された認識結果を比較する認識結果比較部1907を備えている。話者の発声は、n個の言語の音声認識装置1906−1〜1906−nに入力され、それぞれにおいて図16を用いて説明した処理と同様な一連の音声認識処理が行われ、n個の言語の認識結果が得られる。その後、これらn個の言語の認識結果が認識結果比較部1907に入力され、これらの内で最も認識結果にふさわしいと思われるものを選択し、最終的な認識結果として出力する。
図19の構成の多言語音声認識装置においては、話者の1つの発声に対してn個の言語の音声認識装置1906−1〜1906−nをすべて起動する必要がある。これは、音声認識における一連の流れの内で最も大きな処理量を要する探索処理をn個の言語の音声認識装置における探索部においてそれぞれ行うことを意味し、合計の処理量は単一言語音声認識装置と比べておよそn倍となる。即ち、図19の多言語音声認識装置の従来例に依っては、認識対象の言語の数nが多くなると、高速に認識結果を得ることが困難になる。
次に、図19の多言語音声認識装置の従来例において、言語Bを母国語とする話者の言語Aの発声を認識する場合を想定する。この場合、言語Bを母国語とする話者の言語Aに対する習熟度が高ければ、言語Aを母国語とする話者の言語Aの発声と同じく、n個の言語の音声認識装置1906−1〜1906−nの内の言語Aの音声認識装置において精度の高い認識処理が行われ、更に認識結果比較部1907において言語Aの音声認識装置の認識結果が選択される。しかし、先の言語Bを母国語とする話者の言語Aに対する習熟度が低ければ、その発声は言語Bの発声様式に影響されて標準的な言語Aの発声とは異なるものとなるので、言語Aの音声認識装置において精度の高い認識処理を行うことは困難であり、更に認識結果比較部1907においても言語Aの音声装置の認識結果が選択される可能性は低くなる。即ち、図19の多言語音声認識装置の従来例に依っては、話者の非母国語に対する習熟度に依存せずに非母国語発声を認識することは困難である。
ここで、話者適応技術の従来例について説明する。話者適応とは、不特定多数の話者の大量の発声から学習された不特定話者音響モデルに対して、或る特定の適応対象話者の比較的少量の発声を用いて追加学習することで、当該不特定話者音響モデルをこの特定の適応対象話者の音声に適応する技術である。話者適応処理を行った特定話者音響モデルを用いた特定話者音声認識装置は、適応対象話者の発声をより高精度かつ高速に認識することができる。
話者適応装置2011の従来例を図20を参照して説明する。
図20において、適応対象話者により発声された入力音声は音声分析部2001において特徴パラメータに変換される。この特徴パラメータは、次いで、発音付与部2008に入力されるが、発音辞書2002を用い、話者の発声内容に基づいて発音ラベル、即ち、発音記号列が付与される。その後、話者適応部2009において、不特定話者音響モデル2003に対して、当該特徴パラメータと発音ラベルを用いて話者適応処理が行われ、適応対象話者の音声に適応した特定話者音響モデルが出力される。
話者適応の形態は、大きく分けて、教師あり適応(supervised adaptation)と教師なし適応(unsupervised adaptation)の2つに分類される。この内の教師あり適応は、話者適応装置側から適応対象話者に発声の内容を指定し、適応用発声の内容が予め分かっているという状況下の適応であり、正確な発音ラベルを付与することができるので、適応の精度は高い。その反面、決まった内容の発声を話者に強要するところから、適応対象話者には負担の大きい適応方法となる。一方において、教師なし適応は、任意の適応用発声を許容するところから、適応対象話者にとっては負担の小さい適応方法である。しかし、適応用発声の内容が分からないので、何らかの方法でそれを求める必要がある。一般に、適応対象話者の発声に対して音声認識を行うことで、その内容および発音ラベルを得ることができる。このために、音声認識を行いながら、同時に、話者適応を行うこともできる。ただし、音声認識により得られる発音ラベルの精度は十分なものである保証はなく、結果的に適応の精度も教師あり適応と比較して劣る。
なお、教師あり適応においても、より精度の高い話者適応を行うためには、より精度の高い発音ラベルを作成する必要があり、この際に音声認識を行わなければならない場合がある。これは、例えば、発音辞書において複数の発音が付与されている単語を適応対象話者が発声した場合であり、この場合は、複数の発音から話者の発声に最も近いもの、即ち、話者の発声との間の照合スコアが高いものを選択して発音ラベルを作成する必要がある。例えば、図17に示す英語発音辞書1702を用いる英語話者適応装置において、適応対象話者が“I don't like dog”と発声した場合を考える。この場合“don't” には2つの発音が付与されているが、その何れが話者の発声に近いかを判定するに、図21に示されるが如き認識用文法を作成する、即ち、発音を選択する認識用文法を用いて話者の発声を認識すれば、例えば、図22に示されるが如き発音ラベルを取得することができる。
これらの教師あり適応および教師なし適応の詳細については文献に開示されている(例えば、非特許文献2参照。)。
話者適応部2009における話者適応方法としてよく用いられるものとして、MAP(Maximum A Posteriori)適応、MLLR(Maximum Likelihood Linear Regression)適応がある。MAP適応の詳細については文献に開示されている(例えば、非特許文献3参照。)。MLLR適応の詳細については、文献に開示されている(例えば、非特許文献4参照。)。
話者適応装置の従来例は、或る特定の適応対象言語の発声に対してのみ動作する構成とされている。例えば、上述した通り、英語話者適応装置は適応対象話者の英語発声に対して発音ラベルを付与し、これらを用いて不特定話者英語音響モデルに対して話者適応処理を行い、特定話者英語音響モデルを作成する。或る特定の適応対象言語の発声に対してのみ動作する話者適応装置を用いて、適応対象話者のn個の言語の発声をより高精度かつ高速に認識することができる様にするための多言語話者適応装置を構成するとすれば、例えば、図23に示される如き構成が容易に考えられる。図23に示す多言語話者適応装置は、例えば、図19に示される多言語音声認識装置におけるn個の言語の音響モデルのそれぞれに対して話者適応処理を行うものである。
図23に示す多言語話者適応装置においては、先ず、言語判定部2311において適応対象話者の発声が何れの言語の発声であるかを判定する。教師あり適応の場合は装置側から発声内容が指定されるので、判定結果は指定した発声内容の言語となる。教師なし適応の場合は、例えば、適応対象話者の発声に対して図19に示す多言語音声認識装置を用いて音声認識を行い、その結果より言語を特定する。以上の通りに言語の判定を行った後、判定結果言語の話者適応装置2310において話者適応処理が行われる。
この多言語話者適応装置においては、適応対象話者が母国語を発声する場合、通常の単一言語話者適応装置と同様に動作するので、話者適応は高精度に行われる。しかし、認識対象話者が非母国語を発声する場合は高精度な話者適応が可能であるとは限らない。例えば、言語Bを母国語とする適応対象話者の言語Aの発声に対して話者適応を行うことを想定する。この場合、言語Bを母国語とする話者の言語Aに対する習熟度が高ければ、言語Aを母国語とする話者の言語Aの発声と同じく、言語判定部において言語Aが選択され、言語Aの話者適応装置において高精度の話者適応処理が行われる。しかし、言語Bを母国語とする話者の言語Aに対する習熟度が低ければ、その発声は言語Bの発声様式に影響されて標準的な言語Aの発声とは異なるものとなるので、教師なし適応の場合は、言語判定部において言語Aが選択される可能性が低くなる。更に、言語判定部において言語Aが選択されても、言語Aの話者適応装置において高精度の話者適応処理を行うことは困難である。以上の問題点は、図19に示す多言語音声認識装置において非母国語音声認識を行うときに生じる問題点と同様のものである。即ち、図23に示される多言語話者適応装置の従来例に依っては、適応対象話者の非母国語に対する習熟度に依存せずにその非母国語発声を用いて高精度の話者適応処理を行うことは困難である。
なお、多言語音声認識方法および装置の従来例として「母国語話者による音声モデル16、21、母国語話者が他言語を発声したときの音声モデル23、認識対象言語の母国語話者による音声モデルを用いた照合パターンと、他言語の母国語話者による認識対象言語の音声モデルを用いた照合パターンと、他言語の母国語話者による他言語音声モデルを用いて認識対象を識別できるよう作成した照合パターンとにより、それぞれ入力音声信号から抽出した音声特徴パラメータとの照合スコアを計算する手段14、19、22、24、高いスコアを示す照合パターンが表現する認識対象を出力する手段17を設け、認識対象言語の母国語話者だけでなく、母国語でない話者の音声も高精度に認識できる様にする」ものが知られている(例えば、特許文献1参照。)。
そして、非母国語音声認識装置の従来例として、「入力音声の分析を行う母国語話者用分析手段301、母国語話者用辞書を作成保持する母国語話者用辞書作成手段302、母国語話者用標準パターンを母国語話者の多数音声を用い作成保持する母国語話者用標準パターン作成手段303、母国語話者用辞書と母国語話者用標準パターンを用いて認識処理を行う母国語話者用認識手段304、入力音声分析用の非母国語話者用分析手段305、非母国語話者用辞書を作成保持する非母国語話者用辞書作成手段306、母国語話者用辞書から辞書変換手段310を用いて変換する非母国語話者用の辞書、非母国語話者用標準パターンを非母国語話者の多数発声を用い作成保持する非母国語話者用標準パターン作成手段307、非母国語話者用辞書と非母国語話者用標準パターンを用い入力音声に対し認識処理を行う非母国語話者用認識手段308から構成される」ものが知られている(例えば、特許文献2参照。)。
特開2001−188556号公報 特開平10−133686号公報 鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄 著、「IT Text 音声認識システム」、オーム社、2001年 鹿野清宏、中村哲、伊藤史郎、河原達也 著、「ディジタル信号処理シリーズ 第5巻 音声・音情報のディジタル信号処理」、昭晃堂、1997年 J.L.Gauvain and C.H.Lee 著、「Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains」、IEEE Transactions on Speech and Audio Processing,vol.2,No.2、April,1994、p.291-298 C.J. Leggetter and P.C. Woodland 著、「Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models」,Computer Speech and Language、September,1995、p.171-185
近年の国際化の進展に伴い、各国において外国人の割合が高くなるにつれて、特定の言語だけでなく、複数の言語の発声を認識することができる多言語音声認識装置の開発が要請されている。日本国においても英会話学校が多数存在し、話者が母国語としない言語でコミュニケーションをとる機会が増える状況の下で、話者の非母国語発声を認識することができる非母国語音声認識装置の開発が要請されている。
しかし、[背景技術]の項において説明した通り、複数の言語の発声を認識する多言語音声認識装置の従来例は、音声認識装置における探索部の処理量が大きくなり過ぎ、高速に認識することは困難であった。そして、この多言語音声認識装置においては、話者の非母国語発声をその習熟度に依存せずに高精度に認識することは困難であった。また、或る話者の複数の言語の発声をより高精度かつ高速に認識することができる様にするための多言語話者適応装置を構築する場合に、適応対象話者の非母国語に対する習熟度に依存せずにその非母国語発声を用いて高精度の話者適応を行うことは困難であった。
この発明は、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、認識対象言語の音響モデルに対して話者適応処理を行い、認識対象言語の特定話者音響モデルを出力する構成を採用することにより、話者の非母国語発声に対する習熟度に依存せずにその非母国語発声を用いて高精度に話者適応する多言語話者適応方法、装置、およびプログラムを提供するものである。
多言語音声認識方法としては認識対象の複数の言語の発音辞書102−1〜102−nおよびそれらに対応する音響モデル103−1〜103−nと、認識対象の複数の言語の発音辞書102−1〜102−nで定義される単語を用いて作成された1つの多言語化された認識用文法104と、言語に独立な1つの音声分析部101および探索部105を備え、音声分析部101において入力音声から抽出された特徴パラメータに対して、探索部105において認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い、照合スコアの最も高い単語列を認識結果として出力する多言語音声認識方法を構成した。
そして、先の多言語音声認識方法において、認識対象の複数の言語の内の任意の言語Aの発音辞書において、言語Aの単語の発音を言語Aの発音記号および認識対象の複数の言語の内の先の任意の言語A以外の任意の一つまたは複数の言語の発音記号で併記して登録する多言語音声認識方法を構成した。
また、直前に記載される多言語音声認識方法において、話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび言語A以外の任意の複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与することにより、言語Aおよび言語A以外の任意の複数の言語の音響モデルをそれぞれ話者の音声に適応した音響モデル103−1〜103−nを用いる多言語音声認識方法を構成した。
更に、直前に記載される多言語音声認識方法において、話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび話者の母国語Bの2つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与することにより話者の音声に適応した言語Aおよび母国語の言語Bの音響モデルを用いる多言語音声認識方法を構成した。
ここで、音声認識装置としては記憶媒体に記憶される認識対象の複数言語の発音辞書102−1〜102−nおよびそれらに対応する音響モデル103−1〜103−nを具備し、認識対象の複数の言語の発音辞書102−1〜102−nで定義される単語を用いて作成されて記憶媒体に記憶される1つの多言語化された認識用文法104を具備し、入力音声から特徴パラメータを抽出する音声分析部101を具備し、特徴パラメータに対して、認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い照合スコアの最も高い単語列を認識結果として出力する探索部105を具備する多言語音声認識装置を構成した。
そして、探索部105に対して多言語化された認識用文法104と認識対象の複数の言語の音響モデル103−1、103−nを読み込んで探索ネットワークを構築し、音声分析部101が入力音声から特徴パラメータを抽出し、探索部105が、特徴パラメータに対して、認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い、最も照合スコアの高い単語列を認識結果として出力する指令をコンピュータに実行する多言語音声認識プログラムを構成した。
ここで、音声分析部において、適応対象話者による発声から特徴パラメータを抽出し、言語判定部において、先の適応対象話者による発声の言語を特定し、発音付与部において、言語判定部の判定結果言語である言語Aの発音辞書で言語Aの単語の発音を言語Aの発音記号および認識対象の複数の言語の内の先の言語A以外の任意の複数の言語の発音記号で併記して登録した発音辞書を用いて、先の特徴パラメータに対して言語Aの発音辞書に登録される言語Aおよび言語A以外の任意の複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与し、話者適応部において、先の特徴パラメータと発音ラベルを用いて、言語Aおよび言語A以外の任意の複数の言語の音響モデルをそれぞれ適応対象話者の音声に適応する多言語話者適応方法を構成した。
そして、先の多言語話者適応方法において、適応対象話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび適応対象話者の母国語Bの2つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与する多言語話者適応方法を構成した。
更に、適応対象話者の入力音声から特徴パラメータを抽出する音声分析部701を具備し、適応対象話者の入力音声から適応対象話者の発声言語を特定する言語判定部711を具備し、言語判定部711による判定結果言語の発音記号を記憶媒体に記憶した発音辞書702を具備し、認識対象の複数の言語に対応する音響モデル103−1〜103−nを具備し、音声分析部701で得られた特徴パラメータを入力し、発声内容を表す単語列に対して判定結果言語の発音辞書702を用いて発音ラベルを付与する発音付与部708を具備し、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、認識対象言語の音響モデル703−1〜703−nに対して話者適応処理を行い、認識対象言語の特定話者音響モデルL1〜Lnを出力する話者適応部709を具備する多言語話者適応装置を構成した。
また、音声分析部701に対して適応対象話者の入力音声から特徴パラメータを抽出し、言語判定部711に対して、適応対象話者の入力音声から適応対象話者の発声言語を特定し、発音付与部708に対して、特徴パラメータを入力し発声内容を表す単語列に対して判定結果言語の発音辞書702を用いて発音ラベルを付与し、話者適応部709に対して、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、認識対象言語の音響モデル703−1〜703−nに対して話者適応処理を行い、認識対象言語の特定話者音響モデルL1〜Lnを出力する指令をコンピュータに実行する多言語話者適応プログラムを構成した。
この発明による多言語話者適応装置によれば、例えば、図9に示される如く、適応対象話者の英語発声に対して、単語の発音が英語および日本語の発音記号で併記して登録される英語発音辞書902−eを用いて、英語および日本語の発音記号が混在した複数の発音ラベルを付与することで英語音響モデルだけでなく日本語音響モデルに対しても同時に話者適応処理を行う。これにより、例えば、適応対象話者が日本語を母国語とする話者で英語発声への習熟度が高い場合は、特に英語音響モデルの話者適応が高精度に実行され、英語発声への習熟度が低い場合は、特に日本語音響モデルの話者適応が高精度に実行される。また、英語発声への習熟度が中程度の話者の場合は、例えば、図15に示される多言語音声認識装置の認識結果の様に、英語母国語話者と同様に発音することができる単語とできない単語が混在する。しかし、この多言語話者適応装置においては、発声内容の各単語に英語発音を付与するラベルと日本語発音を付与するラベルがあり、これらを全て用いて英語および日本語音響モデルを適応するので、英語発声への習熟度が中程度の話者でも高精度の話者適応をすることができる。
この発明で提案した多言語話者適応装置によれば、従来技術による多言語話者適応装置によっては困難であった適応対象話者の非母国語への習熟度に依存せずにその非母国語発声を用いて高精度の話者適応を行うという課題を解決し、これを実現することができる。
更にこの発明によれば、適応対象話者の母国語が分かる場合、発音ラベルで使用する発音記号の言語を、適応対象話者の発声言語および適応対象話者の母国語の言語に限定することで、例えば、図10に示される如く、適応対象話者が英語を母国語とする場合は、英語の発音記号のみを用いた発音ラベルが付与され、英語音響モデルのみが適応される。
更にこの発明によれば発音ラベル付与は、多言語話者適応装置において高精度に実行することが困難であった言語Aを母国語とする適応対象話者の言語Aの発声を用いた言語A以外の音響モデルの話者適応を省略することができ、計算量を削減することができる。
更にこの発明によれば、発音ラベル付与は、話者適応時に適応対象話者の発声に対して最も照合スコアの高い発音ラベルを用いる。これにより、第1および第2の実施例における話者適応処理を更に高精度に実施することができる。また、適応対象話者の1つの発声に対して付与される発音ラベルの数が少なくなるので、話者適応処理の計算量も削減することができる。
この発明の多言語話者適応装置は、多言語音声認識装置における認識対象の複数の言語の音響モデルのそれぞれに対して話者適応を実施するものであり、適応対象話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび言語A以外の任意の1つまたは複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与することにより、言語Aおよび言語A以外の任意の複数の言語の音響モデルをそれぞれ適応対象話者の音声に適応する。これにより、適応対象話者の非母国語発声への習熟度に依存せずに非母国語音声認識の精度および速度を向上させることができる。
この発明の他の多言語話者適応装置は、上記多言語話者適応装置を更に高精度化するものであり、適応対象話者の言語Aの発声に対し、言語Aの発音辞書に登録される言語Aおよび適応対象話者の母国語Bの2つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与する。
この発明の更に他の多言語話者適応装置は、上記多言語話者適応装置を更に高精度化するものであり、適応対象話者の言語Aの発声に対して付与される複数の発音ラベルの内の適応対象話者の言語Aの発声との照合スコアの最も高いものを選択して用いる。
多言語音声認識装置
図1を参照して本発明と共に提案する多言語音声認識装置の構成を説明する。
図1に示す多言語音声認識装置は、認識対象のn個の言語の発音辞書102−1〜102−nおよびそれらに対応する音響モデル103−1〜103−nと、認識対象のn個の言語の発音辞書102−1〜102−nで定義される単語を用いて作成された1つの多言語化された認識用文法104と、言語に独立な1つの音声分析部101および探索部105を備えている。ここで、発音辞書、音響モデル、認識用文法は、何れも、記憶媒体に記憶されている。
図2は、図1において、認識対象の言語の数nを2とし、その言語を英語および日本語とした場合について示す図である。以下、簡単のために、図2を参照してその例を説明する。
図2に示す多言語音声認識装置は、英語および日本語の発音辞書202−e,202−jおよびそれらに対応する音響モデル203−e,203−jと、英語および日本語の発音辞書202−e,202−jで定義される単語を用いて作成された1つの多言語化された認識用文法204と、言語に独立な1つの音声分析部201および探索部205を備えている。
図3は英語および日本語の発音辞書202の一例を示す図である。図4は英語および日本語の発音辞書202−e,202−jで定義される単語を用いて作成された多言語化された認識用文法204の一例を示す図である。英語および日本語の音響モデル203−e,203−jは、それぞれ英語および日本語を母国語とする不特定多数の話者の大量の発声から学習されたものを用いる。音声分析部201および探索部205としては、図16に示される単一言語音声認識装置と同じものを備えている。
実際に音声認識を開始するに先立って、探索部205において多言語化された認識用文法204と英語および日本語の音響モデル203−e、203−jが読み込まれ、探索ネットワークが構築される。このとき構築される探索ネットワークは、英語および日本語の音素モデルが混在して連結された多言語化された音素モデルネットワークとなる。音声認識時には、音声分析部201で分析フレーム毎に得られる特徴パラメータを用いながら、多言語化された探索ネットワーク上で複数の仮説を同時に展開して行き、最終分析フレームに対する処理が終わった時点で最もスコアの高い仮説が表す単語列を認識結果として出力される。
図2の多言語音声認識装置は、基本的に、英語を母国語とする話者の英語発声、或いは、日本語を母国語とする話者の日本語発声を認識するものである。この多言語音声認識装置を、更に、日本語を母国語とする話者の英語発声まで認識することができるものとするには、図2に示す多言語音声認識装置の英語発音辞書202−eにおいて、図5に示される通りに、英単語の発音を英語発音記号および日本語発音記号で併記する。この英語発音辞書502−eを用いて、例えば、図6に示される認識用文法を作成することで、話者の英語発声に対して英語音響モデルだけでなく日本語音響モデルも同時に用いて音声認識を行う。
図7に本発明による多言語話者適応装置の第1の実施例を示す。この多言語話者適応装置は、図1および図2により図示説明される多言語音声認識装置において非母国語音声認識精度を向上させるに使用される多言語話者適応装置を示す。この第1の実施例において、多言語話者適応装置は図1の多言語音声認識装置におけるn個の言語の音響モデル103−1〜103−nに対してそれぞれ話者適応処理を行う。この第1の実施例に使用されるこの多言語話者適応装置は、音声分析部701、言語判定部711、言語判定部711による判定結果言語の発音辞書702、発音付与部708、n個の言語の音響モデル703−1〜703−n、話者適応部709を備える。この多言語話者適応装置における話者適応部709から出力されるn個の言語の特定話者音響モデルを、図1の多言語音声認識装置におけるn個の言語の音響モデル103−1〜103−nとして用いる。
図8にこの発明の第2の実施例を示す。
図8に示す多言語話者適応装置は、図7の多言語話者適応装置において、認識対象の言語の数nを2とし、その言語を英語および日本語としたものに相当する。図8は、図2に示す多言語音声認識装置に対応する多言語話者適応装置を示す図である。以下、簡単のために、図8を参照して説明する。
図8に示す多言語話者適応装置は、音声分析部801、言語判定部811、言語判定部811による判定結果言語(英語または日本語)の発音辞書802、英語および日本語の音響モデル803−e,803−jを備え、更に、発音付与部808と話者適応部809を備えている。
適応対象話者の発声による入力音声は、先ず、音声分析部801で分析フレームごとに特徴パラメータに変換される。このとき、同時に、言語判定部811において適応対象話者の発声が英語によるものか、或いは日本語によるものかの判定が行われる。教師あり適応の場合は装置側から発声内容が指定されるので、判定結果は指定した発声内容の言語となる。教師なし適応の場合は、例えば、適応対象話者の発声に対して図2に示されるが如き多言語音声認識装置を用いて音声認識を行い、その結果より言語を特定する。音声分析部801で得られた特徴パラメータは発声付与部808に入力されて、先ず、発声内容が取得される。そして、発声内容を表す単語列に対して言語判定部による判定結果言語、英語或いは日本語の発音辞書802を用いて発音ラベルが付与される。このとき、判定結果言語の発音辞書802には、例えば、図5の英語発音辞書502−eに示されるが如き発音定義が多言語化されたものを用いる。発音定義が多言語化された発音辞書を用いることで、例えば、図9に示される如く、適応対象話者が“I don't like dog”と英語発声した場合、図5の英語発音辞書502−eと同等の英語発音辞書902−eに登録される全ての発音の組み合わせを考えて、英語と日本語の発音記号が混在した複数の発音ラベルを付与する。これらの発音ラベルと適応対象話者の発声を用いて、話者適応部809において、英語および日本語の音響モデル803−e,803−jに対して話者適応処理が行われる。
図9により図示説明された発音ラベル付与方法においては、英語を母国語とする話者の英語発声に対しても英語音響モデルと日本語音響モデルが同時に適応されることになる。しかし、英語を母国語とする話者の英語発声を用いて日本語音響モデルを高精度に話者適応することは困難であり、計算量の増加を生じる。この問題を解消するに、この第3の実施例においては、図9に示した発音ラベル付与の別の方法として、適応対象話者の母国語が分かる場合に、発音ラベルで使用する発音記号の言語を適応対象話者の発声言語および適応対象話者の母国語の言語に限定する構成を採用する。この発音ラベル付与の方法によれば、適応される音響モデルは話者の発声言語および話者の母国語の音響モデルのみに限定される。
この実施例3で提案する発音ラベル付与の方法は、図10の通りとなる。図10の発音ラベル付与の方法は、適応対象話者が日本語を母国語とする場合は図9と同様に英語および日本語の発音記号が混在した発音ラベルが付与され、英語および日本語の音響モデルが適応される。一方、適応対象話者が英語を母国語とする場合は発声言語と母国語とが一致するので、英語の発音記号のみを用いた発音ラベルが付与され、英語音響モデルのみが適応される。
図9および図10により図示説明される発音ラベル付与の方法は、発声内容を表す単語列に対して発音辞書に登録される発音の組み合わせで表現される複数の発音ラベルが付与されるが、より精度の高い話者適応を行うには、より精度の高い発音ラベルを付与する必要がある。このために、この第4の実施例においては、発音ラベル付与の別の方法として、複数の発音ラベルから適応対象話者の発声との間の照合スコアの最も高いものを選択して使用する。
適応対象話者の発声との間の照合スコアの高い発音ラベルを得る方法は幾通りか考えられる。例えば、日本語を母国語とする話者の“I don't like dog”という英語発声に対して最も照合スコアの高い発音ラベルを取得するには、例えば、図5の英語発音辞書502−eを用いて図11に示されるが如き認識用文法を準備して話者の発声に対して認識を行い、例えば、図12に示されるが如き発音ラベルを得ることができる。教師なし話者適応の場合は、適応対象話者の発声内容を得るための音声認識の結果をそのまま適応対象話者の発声に対して最も照合スコアの高い発音ラベルとして用いることができる。例えば、英語発声に対して、英語および日本語の発音ラベルをそれぞれ1つずつ取得したい場合は、図5の英語発音辞書502−eを用いて図13に示されるが如き認識用文法を準備して適応対象話者の発声に対して認識を行うことで、例えば図14に示されるが如き英語および日本語の発音ラベルをそれぞれ取得することができる。話者適応時は、図12或いは図14に示されるが如き発音ラベルをそれぞれ用いるか、或いは、両図に示す3つの発音ラベルを同時に用いることもできる。
なお、この発明による以上の多言語話者適応装置においては、主に発音辞書における単語の発音定義が英語と日本語より成る2つの言語であるものとして説明したが、これを発音辞書における単語の発音定義が3つ以上の言語による場合にも容易に拡張することができる。そして、以上の説明は多言語音声認識装置および多言語話者適応装置をコンピュータを主要な構成部材として構成してもよい。また、この発明の多言語音声認識装置および多言語話者適応装置を、CDその他の記憶媒体からダウンロードし或いは通信回線を介してダウンロードしたプログラムをこのコンピュータにインストールして実施することができる。
この発明による多言語話者適応装置は多言語音声認識装置に搭載する音響モデル生成装置として活用される。
多言語音声認識装置の実施例を示す図。 図1の実施例で認識対象言語を英語と日本語の2つにした実施例を示す図。 英語発音辞書および日本語発音辞書の実施例を示す図。 多言語化された認識用文法の実施例を示す図。 英語発音辞書における英単語の発音が英語および日本語発音記号で併記して登録された英語および日本語発音辞書の実施例を示す図。 英単語の発音が英語および日本語発音記号で併記して登録された多言語化された認識用文法の実施例を示す図。 多言語話者適応装置の実施例を示す図。 図7の実施例において、適応対象言語を英語と日本語の2つにした実施例を示す図。 発音ラベル付与の実施例を示す図。 発音ラベル付与の他の実施例を示す図。 適応対象話者の発声に対して最も照合スコアの高い発音ラベルを得る認識用文法の実施例を示す図。 図11に示す認識用文法を用いて得られた適応対象話者の発声に対して最も照合スコアの高い発音ラベルの実施例を示す図。 適応対象話者の発声に対して最も照合スコアの高い英語および日本語の発音ラベルを作成する認識用文法の実施例を示す図。 図13に示す認識用文法を用いて得られた英語および日本語発音ラベルの実施例を示す図。 図6の604−bに示す多言語化された定型文認識用文法を用いて認識を行ったときに得られる認識結果の実施例を示す図。 音声認識装置の従来例を示す図。 英語音声認識装置における英語発音辞書の従来例を示す図。 認識用文法の従来例を示す図。 多言語音声認識装置の従来例を示す図。 話者適応装置の従来例を示す図。 英語発音ラベルを作成する認識用文法の従来例を示す図。 英語発音ラベルの従来例を示す図。 多言語話者適応装置の従来例を示す図。
符号の説明
f01 音声分析部 f02 発音辞書
f03 音響モデル f04 認識用文法
f05 探索部 f06 音声認識装置
f07 認識結果比較部 f08 発音付与部
f09 話者適応部 f10 話者適応装置
f11 言語判定部 f 対応図番

Claims (4)

  1. 音声分析部において、適応対象話者による発声から特徴パラメータを抽出し、
    言語判定部において、先の適応対象話者による発声の言語を特定し、
    発音付与部において、言語判定部の判定結果言語である言語Aの発音辞書で言語Aの単語の発音を言語Aの発音記号および認識対象の複数の言語の内の先の言語A以外の任意の複数の言語の発音記号で併記して登録した発音辞書を用いて、先の特徴パラメータに対して言語Aの発音辞書に登録される言語Aおよび言語A以外の任意の複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与し、
    話者適応部において、先の特徴パラメータと発音ラベルを用いて、言語Aおよび言語A以外の任意の複数の言語の音響モデルをそれぞれ適応対象話者の音声に適応することを特徴とする多言語話者適応方法。
  2. 請求項1に記載される多言語話者適応方法において、
    適応対象話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび適応対象話者の母国語Bの2つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与することを特徴とする多言語話者適応方法。
  3. 適応対象話者の入力音声から特徴パラメータを抽出する音声分析部を具備し、
    適応対象話者の入力音声から適応対象話者の発声言語を特定する言語判定部を具備し、
    言語判定部による判定結果言語の発音記号を記憶媒体に記憶した発音辞書を具備し、
    認識対象の複数の言語に対応する音響モデルを具備し、
    音声分析部で得られた特徴パラメータを入力し、発声内容を表す単語列に対して判定結果言語の発音辞書を用いて発音ラベルを付与する発音付与部を具備し、
    発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、認識対象言語の音響モデルに対して話者適応処理を行い、認識対象言語の特定話者音響モデルを出力する話者適応部を具備することを特徴とする多言語話者適応装置。
  4. 音声分析部に対して適応対象話者の入力音声から特徴パラメータを抽出し、
    言語判定部に対して、適応対象話者の入力音声から適応対象話者の発声言語を特定し、
    発音付与部に対して、特徴パラメータを入力し発声内容を表す単語列に対して判定結果言語の発音辞書を用いて発音ラベルを付与し、
    話者適応部に対して、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、認識対象言語の音響モデルに対して話者適応処理を行い、認識対象言語の特定話者音響モデルを出力する指令をコンピュータに実行させる多言語話者適応プログラム。
JP2005339917A 2005-11-25 2005-11-25 多言語話者適応方法、装置、プログラム Expired - Lifetime JP4163207B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005339917A JP4163207B2 (ja) 2005-11-25 2005-11-25 多言語話者適応方法、装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005339917A JP4163207B2 (ja) 2005-11-25 2005-11-25 多言語話者適応方法、装置、プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002261672A Division JP3776391B2 (ja) 2002-09-06 2002-09-06 多言語音声認識方法、装置、プログラム

Publications (2)

Publication Number Publication Date
JP2006106775A true JP2006106775A (ja) 2006-04-20
JP4163207B2 JP4163207B2 (ja) 2008-10-08

Family

ID=36376491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005339917A Expired - Lifetime JP4163207B2 (ja) 2005-11-25 2005-11-25 多言語話者適応方法、装置、プログラム

Country Status (1)

Country Link
JP (1) JP4163207B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096015A1 (ja) * 2010-02-05 2011-08-11 三菱電機株式会社 認識辞書作成装置及び音声認識装置
JP2013117683A (ja) * 2011-12-05 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り傾向学習方法、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096015A1 (ja) * 2010-02-05 2011-08-11 三菱電機株式会社 認識辞書作成装置及び音声認識装置
CN102725790A (zh) * 2010-02-05 2012-10-10 三菱电机株式会社 识别词典制作装置及声音识别装置
US8868431B2 (en) 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device
JP2013117683A (ja) * 2011-12-05 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り傾向学習方法、及びプログラム

Also Published As

Publication number Publication date
JP4163207B2 (ja) 2008-10-08

Similar Documents

Publication Publication Date Title
KR102265972B1 (ko) 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
US10249294B2 (en) Speech recognition system and method
Ghai et al. Literature review on automatic speech recognition
US8275621B2 (en) Determining text to speech pronunciation based on an utterance from a user
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
KR101237799B1 (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2002520664A (ja) 言語に依存しない音声認識
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
KR102094935B1 (ko) 음성 인식 시스템 및 방법
Kumar et al. A comprehensive view of automatic speech recognition system-a systematic literature review
US12087291B2 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
Kumar et al. Automatic spontaneous speech recognition for Punjabi language interview speech corpus
US20240119942A1 (en) Self-learning end-to-end automatic speech recognition
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム
Vancha et al. Word-level speech dataset creation for sourashtra and recognition system using kaldi
Nursetyo LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API
Rebai et al. Linto platform: A smart open voice assistant for business environments
JP4962962B2 (ja) 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
Bouselmi et al. Multilingual recognition of non-native speech using acoustic model transformation and pronunciation modeling

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080723

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4163207

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130801

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term