JP7038919B2

JP7038919B2 - 多言語音声認識装置および多言語音声認識方法

Info

Publication number: JP7038919B2
Application number: JP2021536583A
Authority: JP
Inventors: 道弘山崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2022-03-18
Anticipated expiration: 2039-08-01
Also published as: WO2021019775A1; JPWO2021019775A1

Description

本発明は、音声認識装置に関し、特に、多言語に対応した音声認識装置に関するものである。

地図データベースに含まれる地名や施設名の文字表記および読みは、基本的に、当該地図データベースが使用される国や地域の主要言語で表される。このため、例えばナビゲーション装置など、地図データベースを備える装置が、音声認識装置を用いて地図データベースに含まれる地名や施設名の検索を行う場合、通常、音声認識装置は主要言語での音声認識を行えば十分である。しかし、地図データベースの大容量化が可能になった昨今では、公用語が複数ある国や、国境付近の地域などでの使用を想定して、複数の言語で表された地名や施設名の情報を含む多言語対応の地図データベースもある。多言語対応の地図データベースを備える装置が、音声認識装置を用いて地名や施設名の検索を行う場合、当該音声認識装置は複数の言語での音声認識（多言語音声認識）を行えることが望ましい。

多言語音声認識の方法としては、（ｉ）音声認識装置に、それぞれ対応言語の異なる複数の音響モデルおよび音声認識辞書を搭載させ、認識対象とする言語を選択的に切り替える方法、（ｉｉ）音声認識装置に、複数の言語に対応した多言語用の音響モデルおよび音声認識辞書を搭載させる方法がある。方法（ｉ）では、同時に認識できる言語が１つに限られるため、例えばユーザーが発話する音声に複数の言語が混在したとき（例えば、検索コマンドの言語と地名の言語とが異なる場合など）には、音声認識が困難である。方法（ｉｉ）では、言語の切り替えは不要であり、同時に複数の言語を認識可能であるが、多言語用の音響モデルおよび音声認識辞書のデータ量は膨大であるため、カーナビゲーション装置などストレージサイズが限られる装置での実現が困難である。

また、例えば下記の特許文献１には、認識対象の言語とは異なる言語の入力音声を、認識対象の言語の音素のうち、当該入力音声と同一または類似の音素の音声に置換し、置換後の入力音声に基づいて音声認識を行う技術が開示されている。

国際公開第２０１６／１０３３５８号

上述のように、認識対象とする言語を選択的に切り替える方法には、同時に認識できる言語が１つに限られる。また、多言語用の音響モデルおよび音声認識辞書を用いる方法は、大容量のストレージが必要になる。

本発明は以上のような課題を解決するためになされたものであり、音響モデルおよび音声認識辞書のデータ量を抑制しつつ、複数の言語を含む入力音声を認識可能な多言語音声認識装置を提供することを目的とする。

本発明の第１の態様に係る多言語音声認識装置は、ユーザーが発話した入力音声を記憶する入力音声記憶部と、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、音声認識の結果として表記文字列を出力する複数の音声認識部と、複数の音声認識部それぞれの音声認識の結果としての表記文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、を備え、再認識用辞書作成部は、音声認識の結果としての表記文字列に対する再認識用言語のＧ２Ｐ（Grapheme to Phoneme）変換によって得られた音素文字列を、当該表記文字列の読みとして再認識用音声認識辞書に登録する。
本発明の第２の態様に係る多言語音声認識装置は、ユーザーが発話した入力音声を記憶する入力音声記憶部と、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、音声認識の結果として音素文字列を出力する複数の音声認識部と、複数の音声認識部それぞれの音声認識の結果としての音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、を備え、再認識用辞書作成部は、Cross lingual mappingを用いて音声認識の結果としての音素文字列を再認識用言語に変換した音素文字列を、音声認識の結果としての音素文字列の読みとして再認識用音声認識辞書に登録する。

本発明に係る多言語音声認識装置によれば、多言語用の音響モデルおよび音声認識辞書を用いる必要がないため、音声認識のための音響モデルおよび音声認識辞書のデータ量を抑制することができる。また、入力音声に対する各言語の音声認識結果に基づいて作成された再認識用音声認識辞書を用いて、入力音声の音声再認識を行うことで最終的な認識結果が得られるため、複数の言語の入力音声を認識することができる。

本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。

実施の形態１に係る多言語音声認識装置の構成を示す図である。実施の形態１に係る多言語音声認識装置の動作を示すフローチャートである。実施の形態２に係る多言語音声認識装置の動作を示すフローチャートである。実施の形態３に係る多言語音声認識装置の構成を示す図である。言語の優先順位の例を示す図である。実施の形態３に係る多言語音声認識装置の動作を示すフローチャートである。実施の形態４に係る多言語音声認識装置の動作を示すフローチャートである。多言語音声認識装置のハードウェア構成例を示す図である。多言語音声認識装置のハードウェア構成例を示す図である。

＜実施の形態１＞
図１は、本発明の実施の形態１に係る多言語音声認識装置１０の構成を示す図である。図１のように、多言語音声認識装置１０は、入力音声記憶部１と、複数（Ｎ個）の音声認識部２（第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎ）と、複数の音響モデル３（第１の音響モデル３＿１、第２の音響モデル３＿２、・・・、第Ｎの音響モデル３＿Ｎ）と、複数の音声認識辞書４（第１の音声認識辞書４＿１、第２の音声認識辞書４＿２、・・・、第Ｎの音声認識辞書４＿Ｎ）と、再認識用辞書作成部５と、再認識用音声認識辞書６と、音声再認識部７と、再認識用音響モデル８とを備えている。

入力音声記憶部１は、ユーザーが発話した入力音声を取得して記憶する。第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎは、入力音声記憶部１に記憶された入力音声に対して、それぞれ異なる言語での音声認識を行う。ここで、第ｉの音声認識部が認識対象とする言語を「第ｉの言語」と定義する。つまり、第１の音声認識部２＿１は第１の言語を認識対象とし、第２の音声認識部２＿２は第２の言語を認識対象とし、第Ｎの音声認識部２＿Ｎは第Ｎの言語を認識対象とする。言い換えれば、第１の音声認識部２＿１は、入力音声を第１の言語の音声とみなして音声認識を行い、第２の音声認識部２＿２は、入力音声を第２の言語の音声とみなして音声認識を行い、第Ｎの音声認識部２＿Ｎは、入力音声を第Ｎの言語の音声とみなして音声認識を行う。

第１の音響モデル３＿１、第２の音響モデル３＿２、・・・、第Ｎの音響モデル３＿Ｎは、各言語の発声の単位である音素の特徴が記述されたデータベースであり、それぞれ第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎによる音声認識の処理で用いられる。すなわち、第１の音響モデル３＿１は、第１の言語の音響モデルであり、第２の音響モデル３＿２は、第２の言語の音響モデルであり、第Ｎの音響モデル３＿Ｎは、第Ｎの言語の音響モデルである。

第１の音声認識辞書４＿１、第２の音声認識辞書４＿２、・・・、第Ｎの音声認識辞書４＿Ｎは、各言語の単語と音素系列（読み）とを結びつけるための発音辞書であり、それぞれ第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎによる音声認識の処理で用いられる。すなわち、第１の音声認識辞書４＿１は、第１の言語の音声認識辞書であり、第２の音声認識辞書４＿２は、第２の言語の音声認識辞書であり、第Ｎの音声認識辞書４＿Ｎは、第Ｎの言語の音声認識辞書である。

第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎは、入力音声を構成する音素の特徴と、第１の音響モデル３＿１、第２の音響モデル３＿２、・・・、第Ｎの音響モデル３＿Ｎに記述された音素の特徴とを比較することで、入力音声に対応する音素系列のモデルを作成し、さらに、第１の音声認識辞書４＿１、第２の音声認識辞書４＿２、・・・、第Ｎの音声認識辞書４＿Ｎを用いて、その音素系列のモデルに対応する単語を特定する。

実施の形態１においては、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎは、入力音声の音声認識の結果として、入力音声の表記文字列を出力する。つまり、第１の音声認識部２＿１は、入力音声を第１の言語の音声とみなしたときの表記文字列を出力し、第２の音声認識部２＿２は、入力音声を第２の言語の音声とみなしたときの表記文字列を出力し、第Ｎの音声認識部２＿Ｎは、入力音声を第Ｎの言語の音声とみなしたときの表記文字列を出力する。

再認識用辞書作成部５は、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが出力する入力音声の認識結果に基づいて、予めユーザーが選択した再認識用言語の音声認識辞書である再認識用音声認識辞書６を作成する。再認識用言語は、第１から第Ｎの言語のうちから選択され、ユーザーが主に用いる言語、あるいはその言語に音韻体系が近い言語であることが好ましい。

実施の形態１では、再認識用辞書作成部５は、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが出力する入力音声の表記文字列を、再認識用言語のＧ２Ｐ（Grapheme to Phoneme）などを用いて、その表記文字列の読みの音素系列を表す文字列である音素文字列に変換し、変換後の音素文字列と変換前の表記文字列とを結びつける、再認識用言語の音声認識辞書である再認識用音声認識辞書６を生成する。

音声再認識部７は、入力音声記憶部１に記憶された入力音声に対して、再認識用言語の音響モデルである再認識用音響モデル８と、再認識用辞書作成部５が作成した再認識用音声認識辞書６とを用いて、再度の音声認識を行う。以下、音声再認識部７によって行われる音声認識を「音声再認識」という。なお、再認識用音響モデル８は、第１の音響モデル３＿１、第２の音響モデル３＿２、・・・、第Ｎの音響モデル３＿Ｎのうちのいずれかと同じものでよい。つまり、多言語音声認識装置１０は、第１の音響モデル３＿１、第２の音響モデル３＿２、・・・、第Ｎの音響モデル３＿Ｎとは別に、再認識用音響モデル８を有する必要はない。

次に、実施の形態１に係る多言語音声認識装置１０の動作を説明する。図２は、その動作を示すフローチャートである。図２のフローは、多言語音声認識装置１０に音声が入力されたときに実行される。

ユーザーが発話した音声が多言語音声認識装置１０に入力されると、その入力音声は、入力音声記憶部１に記憶される（ステップＳ１０１）。

続いて、多言語音声認識装置１０は、変数ｉ＝１に設定し、ｉをＮまで１ずつインクリメントさせながら、次のステップＳ１０２，Ｓ１０３を繰り返す。ステップＳ１０２では、第ｉの音声認識部２＿ｉが、第ｉの音響モデル３＿ｉおよび第ｉの音声認識辞書４＿ｉを用いて、入力音声記憶部１に記憶されている入力音声に対する第ｉの言語での音声認識を実行する。ステップＳ１０３では、第ｉの音声認識部２＿ｉによる音声認識の結果である表記文字列を再認識用辞書作成部５に入力する。以下、第ｉの音声認識部２＿ｉによる音声認識の結果である表記文字列を、「第ｉの表記文字列」という。

なお、再認識用辞書作成部５に入力される情報は、第ｉの表記文字列の文字データそのものである必要はなく、例えば、第ｉの音声認識辞書４＿ｉにおける第ｉの表記文字列の識別子（ＩＤ）など、第ｉの表記文字列を一意に特定可能な情報であればよい。

ステップＳ１０２，Ｓ１０３がＮ回繰り返され、第１から第Ｎの表記文字列が再認識用辞書作成部５に入力されると、再認識用辞書作成部５は、再認識用音声認識辞書６をクリアする（ステップＳ１０４）。つまり、再認識用辞書作成部５は、再認識用音声認識辞書６を語彙が未登録の状態にする。

その後、再認識用辞書作成部５は、変数ｉ＝１に設定し、ｉをＮまで１ずつインクリメントさせながら、次のステップＳ１０５，Ｓ１０６を繰り返す。ステップＳ１０５では、再認識用辞書作成部５が、予めユーザーが設定した再認識用言語のＧ２Ｐ変換により、第ｉの表記文字列を、音素文字列へ変換する。以下、第ｉの表記文字列をＧ２Ｐ変換して得られた音素文字列を「第ｉの音素文字列」という。ステップＳ１０６では、再認識用辞書作成部５が、第ｉの音素文字列を、再認識用音声認識辞書６の語彙として登録する。すなわち、再認識用辞書作成部５は、第ｉの音素文字列を、第ｉの表記文字列の読みとして再認識用音声認識辞書６に登録する。

ステップＳ１０５，Ｓ１０６がＮ回繰り返され、第１から第Ｎの音素文字列が再認識用音声認識辞書６に登録されると、音声再認識部７が、再認識用音響モデル８および再認識用音声認識辞書６を用いて、入力音声記憶部１に記憶されている入力音声に対する再認識用言語による音声再認識を実行する（ステップＳ１０７）。そして、音声再認識部７は、音声再認識の結果を、入力音声の最終的な認識結果として、多言語音声認識装置１０から出力する（ステップＳ１０８）。

なお、図２においては、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎが、順番に入力音声の音声認識を行うものとしたが、それらの音声認識は並列して行われてもよい。同様に、第１から第Ｎの表記文字列のＧ２Ｐ変換も、並列して行われてもよい。また、再認識用音声認識辞書６のクリア（ステップＳ１０４）を最初（例えばステップＳ１０１の次など）に行い、１回のループ処理内でステップＳ１０２，Ｓ１０３，Ｓ１０５，Ｓ１０６が連続して行われるようにしてもよい。

また、以上の説明では、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎの全てから入力音声の音声認識が出力されるものしたが、それらのうち、有効な認識結果を得ることができなかったものからは、音声認識の結果は出力されないため、再認識用音声認識辞書６に登録される語彙数はＮ個よりも少ない場合もある。

異なる言語で同じ発音となる単語も存在するが、基本的に、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのうち、入力音声の言語（ユーザが発話した言語）を認識対象とするものからは、入力音声の正しい読み（ユーザーが意図した読み）に相当する表記文字列が出力され、それ以外のものからは、入力音声の正しい読みとは異なる表記文字列が出力される。また、再認識用辞書作成部５が再認識用音声認識辞書６に登録する語彙は、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが出力した表記文字列をＧ２Ｐ変換した音素文字列であるため、音声再認識部７による音声再認識の結果は、再認識用音声認識辞書６に登録された語彙のうち、入力音声の正しい読みに相当する単語、すなわち、入力音声を当該入力音声の言語で音声認識した結果となる。従って、実施の形態１に係る多言語音声認識装置１０は、複数の言語による入力音声を認識することが可能である。

また、実施の形態１に係る多言語音声認識装置１０では、多言語用の音響モデルおよび音声認識辞書ではなく、個々の言語の音響モデルおよび音声認識辞書が用いられている。Ｎ個の言語に対応する多言語用の音響モデルおよび音声認識辞書は、Ｎ個の言語の入力に対して、Ｎ個の言語の音響モデルおよび音声認識辞書を備える必要があるため、Ｎ×Ｎ個の言語の組み合わせ分のデータ量となる。これに対し、実施の形態１に係る多言語音声認識装置１０が行う音声認識は、Ｎ個の言語の音響モデルおよび音声認識辞書があれば実施可能であるため、多言語用の音響モデルおよび音声認識辞書に比べ、音響モデルおよび音声認識辞書に必要なデータ量は小さくて済む。

本実施の形態では、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎの全てが入力音声の音声認識を行うものとしたが、それらのうちの一部のみが入力音声の音声認識を行ってもよい。例えば、ユーザーが発話する可能性のある１つ以上の言語を多言語音声認識装置１０に登録し、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのうち、登録された言語を認識対象とするものだけが入力音声の音声認識を行ってもよい。その場合、多言語音声認識装置１０が、ユーザーの現在位置やユーザーの国籍などの情報に基づいて、ユーザーが発話する可能性のある言語を判断してもよい。

また、本実施の形態では、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが音声認識結果（表記文字列）を１つずつ出力するものとしたが、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが出力する音声認識結果は複数でもよい。例えば、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが、信頼度が高いものから一定個数の音声認識結果を出力してもよい。この場合、再認識用音声認識辞書６に登録される語彙数はＮ個よりも多くなることもある。

これらの変形例は、以下の実施の形態２～４でも同様に言える。

＜実施の形態２＞
実施の形態２に係る多言語音声認識装置１０の構成は、実施の形態１（図１）と同様である。実施の形態１では、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎが、入力音声の音声認識の結果として、入力音声の表記文字列を出力した。それに対し、実施の形態２では、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎは、入力音声の音声認識の結果として、入力音声に対応する音素文字列を出力する。

また、再認識用辞書作成部５は、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが出力する音素文字列を、Cross-Lingual Mappingなどを用いて、再認識用言語の音素文字列に変換し、変換後の音素文字列と変換前の音素文字列とを結びつける、再認識用言語の音声認識辞書である再認識用音声認識辞書６を生成する。なお、再認識用辞書作成部５が、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが出力する音素文字列を再認識用言語の音素文字列に変換する理由は、言語ごとに使用されない音素または音素系列が存在するため、互いに異なる言語の音素文字列を１つの再認識用音声認識辞書６に登録することは困難だからである。

次に、実施の形態２に係る多言語音声認識装置１０の動作を説明する。図３は、その動作を示すフローチャートである。図３のフローは、多言語音声認識装置１０に音声が入力されたときに実行される。

ユーザーが発話した音声が多言語音声認識装置１０に入力されると、その入力音声は、入力音声記憶部１に記憶される（ステップＳ２０１）。

その後、多言語音声認識装置１０は、変数ｉ＝１に設定し、ｉをＮまで１ずつインクリメントさせながら、次のステップＳ２０２，Ｓ２０３を繰り返す。ステップＳ２０２では、入力音声記憶部１に記憶されている入力音声に対し、第ｉの音声認識部２＿ｉが、第ｉの音響モデル３＿ｉおよび第ｉの音声認識辞書４＿ｉを用いて、第ｉの言語での音声認識を実行する。ステップＳ２０３では、第ｉの音声認識部２＿ｉによる音声認識の結果である音素文字列を再認識用辞書作成部５に入力する。以下、第ｉの音声認識部２＿ｉによる音声認識の結果である音素文字列を、「第ｉの認識音素文字列」という。

なお、再認識用辞書作成部５に入力される情報は、第ｉの認識音素文字列の文字データそのものである必要はなく、例えば、第ｉの音声認識辞書４＿ｉにおける第ｉの認識音素文字列の識別子（ＩＤ）など、第ｉの認識音素文字列を一意に特定可能な情報であればよい。

ステップＳ２０２，Ｓ２０３がＮ回繰り返され、第１から第Ｎの認識音素文字列が再認識用辞書作成部５に入力されると、再認識用辞書作成部５は、再認識用音声認識辞書６をクリアする（ステップＳ２０４）。

そして、再認識用辞書作成部５は、変数ｉ＝１に設定し、ｉをＮまで１ずつインクリメントさせながら、次のステップＳ２０５，Ｓ２０６を繰り返す。ステップＳ２０５では、再認識用辞書作成部５が、Cross lingual mappingにより、第ｉの認識音素文字列を再認識用言語の音素文字列へ変換する。以下、第ｉの認識音素文字列を再認識用言語へ変換して得られた音素文字列を「第ｉの変換音素文字列」という。ステップＳ２０６では、再認識用辞書作成部５が、第ｉの変換音素文字列を、再認識用音声認識辞書６の語彙として登録する。すなわち、再認識用辞書作成部５は、第ｉの変換音素文字列を、第ｉの認識音素文字列の読みとして再認識用音声認識辞書６に登録する。

ステップＳ２０５，Ｓ２０６がＮ回繰り返され、第１から第Ｎの変換音素文字列が再認識用音声認識辞書６に登録されると、音声再認識部７が、入力音声記憶部１に記憶されている入力音声に対し、再認識用音響モデル８および再認識用音声認識辞書６を用いて、再認識用言語による音声再認識を実行する（ステップＳ２０７）。そして、音声再認識部７は、音声再認識の結果を、入力音声の最終的な認識結果として、多言語音声認識装置１０から出力する（ステップＳ２０８）。

なお、図３においては、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎが、順番に入力音声の音声認識を行うものとしたが、それらの音声認識は並列して行われてもよい。同様に、第１から第Ｎの表記文字列のＧ２Ｐ変換も、並列して行われてもよい。また、再認識用音声認識辞書６のクリア（ステップＳ２０４）を最初（例えばステップＳ２０１の次など）に行い、１回のループ処理内でステップＳ２０２，Ｓ２０３，Ｓ２０５，Ｓ２０６が連続して行われるようにしてもよい。

基本的に、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのうち、入力音声の言語（ユーザが発話した言語）を認識対象とするものからは、入力音声の正しい読み（ユーザーが意図した読み）に相当する音素文字列が出力され、それ以外のものからは、入力音声の正しい読みとは異なる音素文字列が出力される。また、再認識用辞書作成部５が再認識用音声認識辞書６に登録する語彙は、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが出力した音素文字列を再認識用言語に変換した音素文字列であるため、音声再認識部７による音声再認識の結果は、再認識用音声認識辞書６に登録された語彙のうち、入力音声の正しい読みに相当する単語、すなわち、入力音声を当該入力音声の言語で音声認識した結果となる。従って、実施の形態２に係る多言語音声認識装置１０は、複数の言語による入力音声を認識することが可能である。

また、実施の形態２に係る多言語音声認識装置１０による音声認識では、多言語用の音響モデルおよび音声認識辞書ではなく、個々の言語の音響モデルおよび音声認識辞書が用いられているため、音響モデルおよび音声認識辞書に必要なデータ量は小さくて済む。

実施の形態１のように第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎの出力を表記文字列とした場合、その表記文字列に複数の読みが存在すると、当該表記文字列を再認識用音声認識辞書６に登録する音素文字列に変換する際に誤変換が生じるおそれがある。例えば英語の表記文字列「Ｓｔ．」には、「Ｓａｉｎｔ」と「Ｓｔｒｅｅｔ」に相当する複数の読みが存在し、同様に表記文字列「Ｄｒ．」には「Ｄｏｃｔｏｒ」と「Ｄｒｉｖｅ」に相当する複数の読みが存在する。

それに対し、実施の形態２では、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎの出力は音素文字列であり、当該音素文字列が再認識用言語の音素文字列に変換されて再認識用音声認識辞書６に登録されるため、上記のような誤変換が生じることを防止できる。

また、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎが、それぞれの言語での音声認識結果として表記文字列を生成し、その表記文字列に音声認識の言語でのＧ２Ｐ変換を行うことで、出力する音素文字列を生成してもよい。この場合、上記の誤変換の防止効果は得られないが、表記文字列の言語に合ったＧ２Ｐ変換が行われることで、その言語での読みにより近い音素文字列を得ることができる効果が得られる。

＜実施の形態３＞
図４は、実施の形態３に係る多言語音声認識装置１０の構成を示す図である。図４の多言語音声認識装置１０の構成は、図１の構成に対し、再認識用音響モデル８を再認識用言語選択部９に置き換えたものである。

再認識用言語選択部９は、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎが入力音声の音声認識に用いた言語のうちから、優先順位の最も高い言語を、再認識用言語として選択する。そして、再認識用言語選択部９は、第１の音響モデル３＿１、第２の音響モデル３＿２、・・・、第Ｎの音響モデル３＿Ｎのうちから、選択した言語の音声モデルを、音声再認識部７に提供する。

言語の優先順位は、ユーザーが設定したものでもよいし、再認識用言語選択部９が自動的に設定してもよい。例えば、ユーザーが優先順位第１位とする言語を指定し、第２位以下の言語は、第１位の言語に音韻体系が近い言語ほど高い優先順位となるように、再認識用言語選択部９が自動的に設定してもよい。また、再認識用言語選択部９が、ユーザーの現在位置やユーザーの国籍などの情報に基づいて、全ての言語の優先順位を設定してもよい。

ここで、言語の優先順位が図５のように設定されていると仮定する。このとき、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎが音声認識に用いた言語に、英語、ドイツ語、フランス語、イタリア語、スペイン語の全てが含まれていた場合、再認識用言語選択部９は、そのうち優先順位の最も高い英語を、再認識用言語として選択する。また、例えば、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのうちの一部だけで音声認識が行われ、その音声認識に用いられた言語に、ドイツ語、フランス語、イタリア語、スペイン語が含まれているが英語が含まれていない場合、再認識用言語選択部９は、音声認識に用いられた言語のうち優先順位の最も高いドイツ語を、再認識用言語として選択する。

実施の形態３によれば、再認識用言語を選択する必要がなくなり、多言語音声認識装置１０の利便性が向上する。特に、ユーザーの現在位置に応じて音声認識の対象となる言語が自動的に選択される場合には、音声認識の対象となる言語に応じて再認識用言語を自動的に切り替えることができ、効果的である。

また、再認識用言語が適切に選択されることで、再認識用辞書作成部５におけるＧ２Ｐ変換やCross-Lingual Mappingによる言語変換における誤変換を減らすことができる。再認識用辞書作成部５における処理負担を減らす効果も得られる。

図６は、実施の形態３に係る多言語音声認識装置の動作を示すフローチャートである。図６のフローは、実施の形態１で説明した図２のフローに対し、ステップＳ１０４の前にステップＳ３０１を追加したものである。ステップＳ３０１では、再認識用言語選択部９が、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎにおいて音声認識に用いられた言語のうちから、優先順位が最も高い言語を再認識用言語として選択する。ステップＳ３０１以外のステップは、実施の形態１と同様であるため、ここでの説明は省略する。

なお、図６では、実施の形態１（図２）のステップＳ１０４の前にステップＳ３０１を追加した例を示したが、本実施の形態は、実施の形態２に対しても適用可能である。その場合の多言語音声認識装置１０の動作フローは、図３のステップＳ２０４の前にステップＳ３０１を追加したものとなる。

＜実施の形態４＞
実施の形態４に係る多言語音声認識装置１０の構成は、実施の形態３（図４）と同様である。ただし、実施の形態４では、再認識用言語選択部９が、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎが入力音声の音声認識に用いた言語で、且つ、有効な音声認識結果が得られた言語のうちから、優先順位の最も高い言語を、再認識用言語として選択する。そして、再認識用言語選択部９は、第１の音響モデル３＿１、第２の音響モデル３＿２、・・・、第Ｎの音響モデル３＿Ｎのうちから、選択した言語の音声モデルを、音声再認識部７に提供する。つまり、実施の形態４の多言語音声認識装置１０は、再認識用言語選択部９が、有効な音声認識結果が得られなかった言語を、再認識用言語の選択対象から除外する点で、実施の形態３とは異なる。

各言語の音声認識結果が有効か否かの判断方法としては次のような方法が考えられる。例えば、再認識用言語選択部９が、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎのそれぞれが音声認識結果を出力したか否かを確認し、音声認識結果を出力しなかったものに対応する言語を、有効な音声認識結果が得られなかった言語と判断してもよい。また例えば、再認識用言語選択部９が、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎそれぞれの音声認識結果の信頼度を確認し、音声認識結果の信頼度が予め定められた閾値よりも低い言語を、有効な音声認識結果が得られなかった言語と判断してもよい。上記の閾値は、一定の値でもよいし、例えば全言語の音声認識結果の信頼度の平均値など、変化する値でもよい。

実施の形態４では、実施の形態３と同様の効果が得られる。さらに、有効な音声認識結果が得られなかった言語が、再認識用言語の選択対象から除外されることで、実施の形態３よりも、再認識用辞書作成部５におけるＧ２Ｐ変換やCross-Lingual Mappingによる言語変換における誤変換を減らすことができる。また、再認識用辞書作成部５における処理負担を減らす効果も得られる。

図７は、実施の形態４に係る多言語音声認識装置の動作を示すフローチャートである。図７のフローは、実施の形態１で説明した図２のフローに対し、ステップＳ１０４の前にステップＳ４０１を追加したものである。ステップＳ４０１では、再認識用言語選択部９が、第１の音声認識部２＿１、第２の音声認識部２＿２、・・・、第Ｎの音声認識部２＿Ｎにおいて音声認識に用いられた言語であり、且つ、有効な音声認識結果が得られた言語のうちから、優先順位が最も高い言語を再認識用言語として選択する。ステップＳ４０１以外のステップは、実施の形態１と同様であるため、ここでの説明は省略する。

なお、図７では、実施の形態１（図２）のステップＳ１０４の前にステップＳ４０１を追加した例を示したが、本実施の形態は、実施の形態２に対しても適用可能である。その場合の多言語音声認識装置１０の動作フローは、図３のステップＳ２０４の前にステップＳ４０１を追加したものとなる。

＜ハードウェア構成例＞
図８および図９は、それぞれ多言語音声認識装置１０のハードウェア構成の例を示す図である。図１または図４に示した多言語音声認識装置１０の構成要素の各機能は、例えば図８に示す処理回路５０により実現される。すなわち、多言語音声認識装置１０は、ユーザーが発話した入力音声を記憶し、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う、ための処理回路５０を備える。処理回路５０は、専用のハードウェアであってもよいし、メモリに格納されたプログラムを実行するプロセッサ（中央処理装置（ＣＰＵ：Central Processing Unit）、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）とも呼ばれる）を用いて構成されていてもよい。

処理回路５０が専用のハードウェアである場合、処理回路５０は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせたものなどが該当する。多言語音声認識装置１０の構成要素の各々の機能が個別の処理回路で実現されてもよいし、それらの機能がまとめて一つの処理回路で実現されてもよい。

図９は、処理回路５０がプログラムを実行するプロセッサ５１を用いて構成されている場合における多言語音声認識装置１０のハードウェア構成の例を示している。この場合、多言語音声認識装置１０の構成要素の機能は、ソフトウェア等（ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせ）により実現される。ソフトウェア等はプログラムとして記述され、メモリ５２に格納される。プロセッサ５１は、メモリ５２に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、多言語音声認識装置１０は、プロセッサ５１により実行されるときに、ユーザーが発話した入力音声を記憶する処理と、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行う処理と、それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する処理と、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う処理と、が結果的に実行されることになるプログラムを格納するためのメモリ５２を備える。換言すれば、このプログラムは、多言語音声認識装置１０の構成要素の動作の手順や方法をコンピュータに実行させるものであるともいえる。

ここで、メモリ５２は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）などの、不揮発性または揮発性の半導体メモリ、ＨＤＤ（Hard Disk Drive）、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Digital Versatile Disc）およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。

以上、多言語音声認識装置１０の構成要素の機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、多言語音声認識装置１０の一部の構成要素を専用のハードウェアで実現し、別の一部の構成要素をソフトウェア等で実現する構成であってもよい。例えば、一部の構成要素については専用のハードウェアとしての処理回路５０でその機能を実現し、他の一部の構成要素についてはプロセッサ５１としての処理回路５０がメモリ５２に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

以上のように、多言語音声認識装置１０は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。

実施の形態１～４に係る多言語音声認識装置１０は、音声認識機能を有する電子機器や、通信端末装置に音声認識機能を提供するサーバ等に広く適用可能である。特に、実施の形態１～４に係る多言語音声認識装置１０は、音響モデルおよび音声認識辞書に必要なデータ量は小さくて済むことから、ナビゲーション装置や携帯型の電子機器など、ストレージサイズが限られる装置への適用が有効である。

なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。

本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。

１０多言語音声認識装置、１入力音声記憶部、２＿１第１の音声認識部、２＿２第２の音声認識部、２＿Ｎ第Ｎの音声認識部、３＿１第１の音響モデル、３＿２第２の音響モデル、３＿Ｎ第Ｎの音響モデル、４＿１第１の音声認識辞書、４＿２第２の音声認識辞書、４＿Ｎ第Ｎの音声認識辞書、５再認識用辞書作成部、６再認識用音声認識辞書、７音声再認識部、８再認識用音響モデル、９再認識用言語選択部。

Claims

ユーザーが発話した入力音声を記憶する入力音声記憶部と、
前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として表記文字列を出力する複数の音声認識部と、
複数の前記音声認識部それぞれの音声認識の結果としての前記表記文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、
前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、
を備え、
前記再認識用辞書作成部は、前記音声認識の結果としての前記表記文字列に対する前記再認識用言語のＧ２Ｐ（Grapheme to Phoneme）変換によって得られた音素文字列を、当該表記文字列の読みとして前記再認識用音声認識辞書に登録する、
多言語音声認識装置。
ユーザーが発話した入力音声を記憶する入力音声記憶部と、
前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として音素文字列を出力する複数の音声認識部と、
複数の前記音声認識部それぞれの音声認識の結果としての前記音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、
前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、
を備え、
前記再認識用辞書作成部は、Cross lingual mappingを用いて前記音声認識の結果としての前記音素文字列を前記再認識用言語に変換した音素文字列を、前記音声認識の結果としての前記音素文字列の読みとして前記再認識用音声認識辞書に登録する、
多言語音声認識装置。
前記再認識用言語は、複数の前記音声認識部の認識対象である複数の言語のうちから前記ユーザーが選択した言語である
請求項１または請求項２に記載の多言語音声認識装置。
複数の前記音声認識部の認識対象である複数の言語のそれぞれには、優先順位が設定されており、
複数の前記音声認識部が前記入力音声の音声認識に用いた言語のうちから、前記優先順位の最も高い言語を、前記再認識用言語として選択する再認識用言語選択部をさらに備える、
請求項１または請求項２に記載の多言語音声認識装置。
前記再認識用言語選択部は、複数の前記音声認識部において有効な音声認識結果が得られなかった言語を、前記再認識用言語の選択対象から除外する、
請求項４に記載の多言語音声認識装置。
多言語音声認識装置の入力音声記憶部が、ユーザーが発話した入力音声を記憶し、
前記多言語音声認識装置の複数の音声認識部が、前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として表記文字列を出力し、
前記多言語音声認識装置の再認識用辞書作成部が、前記それぞれ異なる言語での音声認識の結果としての前記表記文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、
前記多言語音声認識装置の音声再認識部が、前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行い、
前記再認識用辞書作成部は、前記音声認識の結果としての前記表記文字列に対する前記再認識用言語のＧ２Ｐ（Grapheme to Phoneme）変換によって得られた音素文字列を、当該表記文字列の読みとして前記再認識用音声認識辞書に登録する、
多言語音声認識方法。
多言語音声認識装置の入力音声記憶部が、ユーザーが発話した入力音声を記憶し、
前記多言語音声認識装置の複数の音声認識部が、前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として音素文字列を出力し、
前記多言語音声認識装置の再認識用辞書作成部が、前記それぞれ異なる言語での音声認識の結果としての前記音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、
前記多言語音声認識装置の音声再認識部が、前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行い、
前記再認識用辞書作成部は、Cross lingual mappingを用いて前記音声認識の結果としての前記音素文字列を前記再認識用言語に変換した音素文字列を、前記音声認識の結果としての前記音素文字列の読みとして前記再認識用音声認識辞書に登録する、
多言語音声認識方法。