JP7038919B2 - 多言語音声認識装置および多言語音声認識方法 - Google Patents

多言語音声認識装置および多言語音声認識方法 Download PDF

Info

Publication number
JP7038919B2
JP7038919B2 JP2021536583A JP2021536583A JP7038919B2 JP 7038919 B2 JP7038919 B2 JP 7038919B2 JP 2021536583 A JP2021536583 A JP 2021536583A JP 2021536583 A JP2021536583 A JP 2021536583A JP 7038919 B2 JP7038919 B2 JP 7038919B2
Authority
JP
Japan
Prior art keywords
recognition
voice
language
dictionary
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021536583A
Other languages
English (en)
Other versions
JPWO2021019775A1 (ja
Inventor
道弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021019775A1 publication Critical patent/JPWO2021019775A1/ja
Application granted granted Critical
Publication of JP7038919B2 publication Critical patent/JP7038919B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識装置に関し、特に、多言語に対応した音声認識装置に関するものである。
地図データベースに含まれる地名や施設名の文字表記および読みは、基本的に、当該地図データベースが使用される国や地域の主要言語で表される。このため、例えばナビゲーション装置など、地図データベースを備える装置が、音声認識装置を用いて地図データベースに含まれる地名や施設名の検索を行う場合、通常、音声認識装置は主要言語での音声認識を行えば十分である。しかし、地図データベースの大容量化が可能になった昨今では、公用語が複数ある国や、国境付近の地域などでの使用を想定して、複数の言語で表された地名や施設名の情報を含む多言語対応の地図データベースもある。多言語対応の地図データベースを備える装置が、音声認識装置を用いて地名や施設名の検索を行う場合、当該音声認識装置は複数の言語での音声認識(多言語音声認識)を行えることが望ましい。
多言語音声認識の方法としては、(i)音声認識装置に、それぞれ対応言語の異なる複数の音響モデルおよび音声認識辞書を搭載させ、認識対象とする言語を選択的に切り替える方法、(ii)音声認識装置に、複数の言語に対応した多言語用の音響モデルおよび音声認識辞書を搭載させる方法がある。方法(i)では、同時に認識できる言語が1つに限られるため、例えばユーザーが発話する音声に複数の言語が混在したとき(例えば、検索コマンドの言語と地名の言語とが異なる場合など)には、音声認識が困難である。方法(ii)では、言語の切り替えは不要であり、同時に複数の言語を認識可能であるが、多言語用の音響モデルおよび音声認識辞書のデータ量は膨大であるため、カーナビゲーション装置などストレージサイズが限られる装置での実現が困難である。
また、例えば下記の特許文献1には、認識対象の言語とは異なる言語の入力音声を、認識対象の言語の音素のうち、当該入力音声と同一または類似の音素の音声に置換し、置換後の入力音声に基づいて音声認識を行う技術が開示されている。
国際公開第2016/103358号
上述のように、認識対象とする言語を選択的に切り替える方法には、同時に認識できる言語が1つに限られる。また、多言語用の音響モデルおよび音声認識辞書を用いる方法は、大容量のストレージが必要になる。
本発明は以上のような課題を解決するためになされたものであり、音響モデルおよび音声認識辞書のデータ量を抑制しつつ、複数の言語を含む入力音声を認識可能な多言語音声認識装置を提供することを目的とする。
本発明の第1の態様に係る多言語音声認識装置は、ユーザーが発話した入力音声を記憶する入力音声記憶部と、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、音声認識の結果として表記文字列を出力する複数の音声認識部と、複数の音声認識部それぞれの音声認識の結果としての表記文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、を備え、再認識用辞書作成部は、音声認識の結果としての表記文字列に対する再認識用言語のG2P(Grapheme to Phoneme)変換によって得られた音素文字列を、当該表記文字列の読みとして再認識用音声認識辞書に登録する
本発明の第2の態様に係る多言語音声認識装置は、ユーザーが発話した入力音声を記憶する入力音声記憶部と、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、音声認識の結果として音素文字列を出力する複数の音声認識部と、複数の音声認識部それぞれの音声認識の結果としての音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、を備え、再認識用辞書作成部は、Cross lingual mappingを用いて音声認識の結果としての音素文字列を再認識用言語に変換した音素文字列を、音声認識の結果としての音素文字列の読みとして再認識用音声認識辞書に登録する。
本発明に係る多言語音声認識装置によれば、多言語用の音響モデルおよび音声認識辞書を用いる必要がないため、音声認識のための音響モデルおよび音声認識辞書のデータ量を抑制することができる。また、入力音声に対する各言語の音声認識結果に基づいて作成された再認識用音声認識辞書を用いて、入力音声の音声再認識を行うことで最終的な認識結果が得られるため、複数の言語の入力音声を認識することができる。
本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1に係る多言語音声認識装置の構成を示す図である。 実施の形態1に係る多言語音声認識装置の動作を示すフローチャートである。 実施の形態2に係る多言語音声認識装置の動作を示すフローチャートである。 実施の形態3に係る多言語音声認識装置の構成を示す図である。 言語の優先順位の例を示す図である。 実施の形態3に係る多言語音声認識装置の動作を示すフローチャートである。 実施の形態4に係る多言語音声認識装置の動作を示すフローチャートである。 多言語音声認識装置のハードウェア構成例を示す図である。 多言語音声認識装置のハードウェア構成例を示す図である。
<実施の形態1>
図1は、本発明の実施の形態1に係る多言語音声認識装置10の構成を示す図である。図1のように、多言語音声認識装置10は、入力音声記憶部1と、複数(N個)の音声認識部2(第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_N)と、複数の音響モデル3(第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_N)と、複数の音声認識辞書4(第1の音声認識辞書4_1、第2の音声認識辞書4_2、・・・、第Nの音声認識辞書4_N)と、再認識用辞書作成部5と、再認識用音声認識辞書6と、音声再認識部7と、再認識用音響モデル8とを備えている。
入力音声記憶部1は、ユーザーが発話した入力音声を取得して記憶する。第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声記憶部1に記憶された入力音声に対して、それぞれ異なる言語での音声認識を行う。ここで、第iの音声認識部が認識対象とする言語を「第iの言語」と定義する。つまり、第1の音声認識部2_1は第1の言語を認識対象とし、第2の音声認識部2_2は第2の言語を認識対象とし、第Nの音声認識部2_Nは第Nの言語を認識対象とする。言い換えれば、第1の音声認識部2_1は、入力音声を第1の言語の音声とみなして音声認識を行い、第2の音声認識部2_2は、入力音声を第2の言語の音声とみなして音声認識を行い、第Nの音声認識部2_Nは、入力音声を第Nの言語の音声とみなして音声認識を行う。
第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nは、各言語の発声の単位である音素の特徴が記述されたデータベースであり、それぞれ第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nによる音声認識の処理で用いられる。すなわち、第1の音響モデル3_1は、第1の言語の音響モデルであり、第2の音響モデル3_2は、第2の言語の音響モデルであり、第Nの音響モデル3_Nは、第Nの言語の音響モデルである。
第1の音声認識辞書4_1、第2の音声認識辞書4_2、・・・、第Nの音声認識辞書4_Nは、各言語の単語と音素系列(読み)とを結びつけるための発音辞書であり、それぞれ第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nによる音声認識の処理で用いられる。すなわち、第1の音声認識辞書4_1は、第1の言語の音声認識辞書であり、第2の音声認識辞書4_2は、第2の言語の音声認識辞書であり、第Nの音声認識辞書4_Nは、第Nの言語の音声認識辞書である。
第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声を構成する音素の特徴と、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nに記述された音素の特徴とを比較することで、入力音声に対応する音素系列のモデルを作成し、さらに、第1の音声認識辞書4_1、第2の音声認識辞書4_2、・・・、第Nの音声認識辞書4_Nを用いて、その音素系列のモデルに対応する単語を特定する。
実施の形態1においては、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声の音声認識の結果として、入力音声の表記文字列を出力する。つまり、第1の音声認識部2_1は、入力音声を第1の言語の音声とみなしたときの表記文字列を出力し、第2の音声認識部2_2は、入力音声を第2の言語の音声とみなしたときの表記文字列を出力し、第Nの音声認識部2_Nは、入力音声を第Nの言語の音声とみなしたときの表記文字列を出力する。
再認識用辞書作成部5は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する入力音声の認識結果に基づいて、予めユーザーが選択した再認識用言語の音声認識辞書である再認識用音声認識辞書6を作成する。再認識用言語は、第1から第Nの言語のうちから選択され、ユーザーが主に用いる言語、あるいはその言語に音韻体系が近い言語であることが好ましい。
実施の形態1では、再認識用辞書作成部5は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する入力音声の表記文字列を、再認識用言語のG2P(Grapheme to Phoneme)などを用いて、その表記文字列の読みの音素系列を表す文字列である音素文字列に変換し、変換後の音素文字列と変換前の表記文字列とを結びつける、再認識用言語の音声認識辞書である再認識用音声認識辞書6を生成する。
音声再認識部7は、入力音声記憶部1に記憶された入力音声に対して、再認識用言語の音響モデルである再認識用音響モデル8と、再認識用辞書作成部5が作成した再認識用音声認識辞書6とを用いて、再度の音声認識を行う。以下、音声再認識部7によって行われる音声認識を「音声再認識」という。なお、再認識用音響モデル8は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nのうちのいずれかと同じものでよい。つまり、多言語音声認識装置10は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nとは別に、再認識用音響モデル8を有する必要はない。
次に、実施の形態1に係る多言語音声認識装置10の動作を説明する。図2は、その動作を示すフローチャートである。図2のフローは、多言語音声認識装置10に音声が入力されたときに実行される。
ユーザーが発話した音声が多言語音声認識装置10に入力されると、その入力音声は、入力音声記憶部1に記憶される(ステップS101)。
続いて、多言語音声認識装置10は、変数i=1に設定し、iをNまで1ずつインクリメントさせながら、次のステップS102,S103を繰り返す。ステップS102では、第iの音声認識部2_iが、第iの音響モデル3_iおよび第iの音声認識辞書4_iを用いて、入力音声記憶部1に記憶されている入力音声に対する第iの言語での音声認識を実行する。ステップS103では、第iの音声認識部2_iによる音声認識の結果である表記文字列を再認識用辞書作成部5に入力する。以下、第iの音声認識部2_iによる音声認識の結果である表記文字列を、「第iの表記文字列」という。
なお、再認識用辞書作成部5に入力される情報は、第iの表記文字列の文字データそのものである必要はなく、例えば、第iの音声認識辞書4_iにおける第iの表記文字列の識別子(ID)など、第iの表記文字列を一意に特定可能な情報であればよい。
ステップS102,S103がN回繰り返され、第1から第Nの表記文字列が再認識用辞書作成部5に入力されると、再認識用辞書作成部5は、再認識用音声認識辞書6をクリアする(ステップS104)。つまり、再認識用辞書作成部5は、再認識用音声認識辞書6を語彙が未登録の状態にする。
その後、再認識用辞書作成部5は、変数i=1に設定し、iをNまで1ずつインクリメントさせながら、次のステップS105,S106を繰り返す。ステップS105では、再認識用辞書作成部5が、予めユーザーが設定した再認識用言語のG2P変換により、第iの表記文字列を、音素文字列へ変換する。以下、第iの表記文字列をG2P変換して得られた音素文字列を「第iの音素文字列」という。ステップS106では、再認識用辞書作成部5が、第iの音素文字列を、再認識用音声認識辞書6の語彙として登録する。すなわち、再認識用辞書作成部5は、第iの音素文字列を、第iの表記文字列の読みとして再認識用音声認識辞書6に登録する。
ステップS105,S106がN回繰り返され、第1から第Nの音素文字列が再認識用音声認識辞書6に登録されると、音声再認識部7が、再認識用音響モデル8および再認識用音声認識辞書6を用いて、入力音声記憶部1に記憶されている入力音声に対する再認識用言語による音声再認識を実行する(ステップS107)。そして、音声再認識部7は、音声再認識の結果を、入力音声の最終的な認識結果として、多言語音声認識装置10から出力する(ステップS108)。
なお、図2においては、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、順番に入力音声の音声認識を行うものとしたが、それらの音声認識は並列して行われてもよい。同様に、第1から第Nの表記文字列のG2P変換も、並列して行われてもよい。また、再認識用音声認識辞書6のクリア(ステップS104)を最初(例えばステップS101の次など)に行い、1回のループ処理内でステップS102,S103,S105,S106が連続して行われるようにしてもよい。
また、以上の説明では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nの全てから入力音声の音声認識が出力されるものしたが、それらのうち、有効な認識結果を得ることができなかったものからは、音声認識の結果は出力されないため、再認識用音声認識辞書6に登録される語彙数はN個よりも少ない場合もある。
異なる言語で同じ発音となる単語も存在するが、基本的に、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのうち、入力音声の言語(ユーザが発話した言語)を認識対象とするものからは、入力音声の正しい読み(ユーザーが意図した読み)に相当する表記文字列が出力され、それ以外のものからは、入力音声の正しい読みとは異なる表記文字列が出力される。また、再認識用辞書作成部5が再認識用音声認識辞書6に登録する語彙は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力した表記文字列をG2P変換した音素文字列であるため、音声再認識部7による音声再認識の結果は、再認識用音声認識辞書6に登録された語彙のうち、入力音声の正しい読みに相当する単語、すなわち、入力音声を当該入力音声の言語で音声認識した結果となる。従って、実施の形態1に係る多言語音声認識装置10は、複数の言語による入力音声を認識することが可能である。
また、実施の形態1に係る多言語音声認識装置10では、多言語用の音響モデルおよび音声認識辞書ではなく、個々の言語の音響モデルおよび音声認識辞書が用いられている。N個の言語に対応する多言語用の音響モデルおよび音声認識辞書は、N個の言語の入力に対して、N個の言語の音響モデルおよび音声認識辞書を備える必要があるため、N×N個の言語の組み合わせ分のデータ量となる。これに対し、実施の形態1に係る多言語音声認識装置10が行う音声認識は、N個の言語の音響モデルおよび音声認識辞書があれば実施可能であるため、多言語用の音響モデルおよび音声認識辞書に比べ、音響モデルおよび音声認識辞書に必要なデータ量は小さくて済む。
本実施の形態では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nの全てが入力音声の音声認識を行うものとしたが、それらのうちの一部のみが入力音声の音声認識を行ってもよい。例えば、ユーザーが発話する可能性のある1つ以上の言語を多言語音声認識装置10に登録し、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのうち、登録された言語を認識対象とするものだけが入力音声の音声認識を行ってもよい。その場合、多言語音声認識装置10が、ユーザーの現在位置やユーザーの国籍などの情報に基づいて、ユーザーが発話する可能性のある言語を判断してもよい。
また、本実施の形態では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが音声認識結果(表記文字列)を1つずつ出力するものとしたが、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する音声認識結果は複数でもよい。例えば、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが、信頼度が高いものから一定個数の音声認識結果を出力してもよい。この場合、再認識用音声認識辞書6に登録される語彙数はN個よりも多くなることもある。
これらの変形例は、以下の実施の形態2~4でも同様に言える。
<実施の形態2>
実施の形態2に係る多言語音声認識装置10の構成は、実施の形態1(図1)と同様である。実施の形態1では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、入力音声の音声認識の結果として、入力音声の表記文字列を出力した。それに対し、実施の形態2では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声の音声認識の結果として、入力音声に対応する音素文字列を出力する。
また、再認識用辞書作成部5は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する音素文字列を、Cross-Lingual Mappingなどを用いて、再認識用言語の音素文字列に変換し、変換後の音素文字列と変換前の音素文字列とを結びつける、再認識用言語の音声認識辞書である再認識用音声認識辞書6を生成する。なお、再認識用辞書作成部5が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する音素文字列を再認識用言語の音素文字列に変換する理由は、言語ごとに使用されない音素または音素系列が存在するため、互いに異なる言語の音素文字列を1つの再認識用音声認識辞書6に登録することは困難だからである。
次に、実施の形態2に係る多言語音声認識装置10の動作を説明する。図3は、その動作を示すフローチャートである。図3のフローは、多言語音声認識装置10に音声が入力されたときに実行される。
ユーザーが発話した音声が多言語音声認識装置10に入力されると、その入力音声は、入力音声記憶部1に記憶される(ステップS201)。
その後、多言語音声認識装置10は、変数i=1に設定し、iをNまで1ずつインクリメントさせながら、次のステップS202,S203を繰り返す。ステップS202では、入力音声記憶部1に記憶されている入力音声に対し、第iの音声認識部2_iが、第iの音響モデル3_iおよび第iの音声認識辞書4_iを用いて、第iの言語での音声認識を実行する。ステップS203では、第iの音声認識部2_iによる音声認識の結果である音素文字列を再認識用辞書作成部5に入力する。以下、第iの音声認識部2_iによる音声認識の結果である音素文字列を、「第iの認識音素文字列」という。
なお、再認識用辞書作成部5に入力される情報は、第iの認識音素文字列の文字データそのものである必要はなく、例えば、第iの音声認識辞書4_iにおける第iの認識音素文字列の識別子(ID)など、第iの認識音素文字列を一意に特定可能な情報であればよい。
ステップS202,S203がN回繰り返され、第1から第Nの認識音素文字列が再認識用辞書作成部5に入力されると、再認識用辞書作成部5は、再認識用音声認識辞書6をクリアする(ステップS204)。
そして、再認識用辞書作成部5は、変数i=1に設定し、iをNまで1ずつインクリメントさせながら、次のステップS205,S206を繰り返す。ステップS205では、再認識用辞書作成部5が、Cross lingual mappingにより、第iの認識音素文字列を再認識用言語の音素文字列へ変換する。以下、第iの認識音素文字列を再認識用言語へ変換して得られた音素文字列を「第iの変換音素文字列」という。ステップS206では、再認識用辞書作成部5が、第iの変換音素文字列を、再認識用音声認識辞書6の語彙として登録する。すなわち、再認識用辞書作成部5は、第iの変換音素文字列を、第iの認識音素文字列の読みとして再認識用音声認識辞書6に登録する。
ステップS205,S206がN回繰り返され、第1から第Nの変換音素文字列が再認識用音声認識辞書6に登録されると、音声再認識部7が、入力音声記憶部1に記憶されている入力音声に対し、再認識用音響モデル8および再認識用音声認識辞書6を用いて、再認識用言語による音声再認識を実行する(ステップS207)。そして、音声再認識部7は、音声再認識の結果を、入力音声の最終的な認識結果として、多言語音声認識装置10から出力する(ステップS208)。
なお、図3においては、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、順番に入力音声の音声認識を行うものとしたが、それらの音声認識は並列して行われてもよい。同様に、第1から第Nの表記文字列のG2P変換も、並列して行われてもよい。また、再認識用音声認識辞書6のクリア(ステップS204)を最初(例えばステップS201の次など)に行い、1回のループ処理内でステップS202,S203,S205,S206が連続して行われるようにしてもよい。
基本的に、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのうち、入力音声の言語(ユーザが発話した言語)を認識対象とするものからは、入力音声の正しい読み(ユーザーが意図した読み)に相当する音素文字列が出力され、それ以外のものからは、入力音声の正しい読みとは異なる音素文字列が出力される。また、再認識用辞書作成部5が再認識用音声認識辞書6に登録する語彙は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力した音素文字列を再認識用言語に変換した音素文字列であるため、音声再認識部7による音声再認識の結果は、再認識用音声認識辞書6に登録された語彙のうち、入力音声の正しい読みに相当する単語、すなわち、入力音声を当該入力音声の言語で音声認識した結果となる。従って、実施の形態2に係る多言語音声認識装置10は、複数の言語による入力音声を認識することが可能である。
また、実施の形態2に係る多言語音声認識装置10による音声認識では、多言語用の音響モデルおよび音声認識辞書ではなく、個々の言語の音響モデルおよび音声認識辞書が用いられているため、音響モデルおよび音声認識辞書に必要なデータ量は小さくて済む。
実施の形態1のように第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nの出力を表記文字列とした場合、その表記文字列に複数の読みが存在すると、当該表記文字列を再認識用音声認識辞書6に登録する音素文字列に変換する際に誤変換が生じるおそれがある。例えば英語の表記文字列「St.」には、「Saint」と「Street」に相当する複数の読みが存在し、同様に表記文字列「Dr.」には「Doctor」と「Drive」に相当する複数の読みが存在する。
それに対し、実施の形態2では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nの出力は音素文字列であり、当該音素文字列が再認識用言語の音素文字列に変換されて再認識用音声認識辞書6に登録されるため、上記のような誤変換が生じることを防止できる。
また、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、それぞれの言語での音声認識結果として表記文字列を生成し、その表記文字列に音声認識の言語でのG2P変換を行うことで、出力する音素文字列を生成してもよい。この場合、上記の誤変換の防止効果は得られないが、表記文字列の言語に合ったG2P変換が行われることで、その言語での読みにより近い音素文字列を得ることができる効果が得られる。
<実施の形態3>
図4は、実施の形態3に係る多言語音声認識装置10の構成を示す図である。図4の多言語音声認識装置10の構成は、図1の構成に対し、再認識用音響モデル8を再認識用言語選択部9に置き換えたものである。
再認識用言語選択部9は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが入力音声の音声認識に用いた言語のうちから、優先順位の最も高い言語を、再認識用言語として選択する。そして、再認識用言語選択部9は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nのうちから、選択した言語の音声モデルを、音声再認識部7に提供する。
言語の優先順位は、ユーザーが設定したものでもよいし、再認識用言語選択部9が自動的に設定してもよい。例えば、ユーザーが優先順位第1位とする言語を指定し、第2位以下の言語は、第1位の言語に音韻体系が近い言語ほど高い優先順位となるように、再認識用言語選択部9が自動的に設定してもよい。また、再認識用言語選択部9が、ユーザーの現在位置やユーザーの国籍などの情報に基づいて、全ての言語の優先順位を設定してもよい。
ここで、言語の優先順位が図5のように設定されていると仮定する。このとき、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが音声認識に用いた言語に、英語、ドイツ語、フランス語、イタリア語、スペイン語の全てが含まれていた場合、再認識用言語選択部9は、そのうち優先順位の最も高い英語を、再認識用言語として選択する。また、例えば、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのうちの一部だけで音声認識が行われ、その音声認識に用いられた言語に、ドイツ語、フランス語、イタリア語、スペイン語が含まれているが英語が含まれていない場合、再認識用言語選択部9は、音声認識に用いられた言語のうち優先順位の最も高いドイツ語を、再認識用言語として選択する。
実施の形態3によれば、再認識用言語を選択する必要がなくなり、多言語音声認識装置10の利便性が向上する。特に、ユーザーの現在位置に応じて音声認識の対象となる言語が自動的に選択される場合には、音声認識の対象となる言語に応じて再認識用言語を自動的に切り替えることができ、効果的である。
また、再認識用言語が適切に選択されることで、再認識用辞書作成部5におけるG2P変換やCross-Lingual Mappingによる言語変換における誤変換を減らすことができる。再認識用辞書作成部5における処理負担を減らす効果も得られる。
図6は、実施の形態3に係る多言語音声認識装置の動作を示すフローチャートである。図6のフローは、実施の形態1で説明した図2のフローに対し、ステップS104の前にステップS301を追加したものである。ステップS301では、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nにおいて音声認識に用いられた言語のうちから、優先順位が最も高い言語を再認識用言語として選択する。ステップS301以外のステップは、実施の形態1と同様であるため、ここでの説明は省略する。
なお、図6では、実施の形態1(図2)のステップS104の前にステップS301を追加した例を示したが、本実施の形態は、実施の形態2に対しても適用可能である。その場合の多言語音声認識装置10の動作フローは、図3のステップS204の前にステップS301を追加したものとなる。
<実施の形態4>
実施の形態4に係る多言語音声認識装置10の構成は、実施の形態3(図4)と同様である。ただし、実施の形態4では、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが入力音声の音声認識に用いた言語で、且つ、有効な音声認識結果が得られた言語のうちから、優先順位の最も高い言語を、再認識用言語として選択する。そして、再認識用言語選択部9は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nのうちから、選択した言語の音声モデルを、音声再認識部7に提供する。つまり、実施の形態4の多言語音声認識装置10は、再認識用言語選択部9が、有効な音声認識結果が得られなかった言語を、再認識用言語の選択対象から除外する点で、実施の形態3とは異なる。
各言語の音声認識結果が有効か否かの判断方法としては次のような方法が考えられる。例えば、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが音声認識結果を出力したか否かを確認し、音声認識結果を出力しなかったものに対応する言語を、有効な音声認識結果が得られなかった言語と判断してもよい。また例えば、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nそれぞれの音声認識結果の信頼度を確認し、音声認識結果の信頼度が予め定められた閾値よりも低い言語を、有効な音声認識結果が得られなかった言語と判断してもよい。上記の閾値は、一定の値でもよいし、例えば全言語の音声認識結果の信頼度の平均値など、変化する値でもよい。
実施の形態4では、実施の形態3と同様の効果が得られる。さらに、有効な音声認識結果が得られなかった言語が、再認識用言語の選択対象から除外されることで、実施の形態3よりも、再認識用辞書作成部5におけるG2P変換やCross-Lingual Mappingによる言語変換における誤変換を減らすことができる。また、再認識用辞書作成部5における処理負担を減らす効果も得られる。
図7は、実施の形態4に係る多言語音声認識装置の動作を示すフローチャートである。図7のフローは、実施の形態1で説明した図2のフローに対し、ステップS104の前にステップS401を追加したものである。ステップS401では、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nにおいて音声認識に用いられた言語であり、且つ、有効な音声認識結果が得られた言語のうちから、優先順位が最も高い言語を再認識用言語として選択する。ステップS401以外のステップは、実施の形態1と同様であるため、ここでの説明は省略する。
なお、図7では、実施の形態1(図2)のステップS104の前にステップS401を追加した例を示したが、本実施の形態は、実施の形態2に対しても適用可能である。その場合の多言語音声認識装置10の動作フローは、図3のステップS204の前にステップS401を追加したものとなる。
<ハードウェア構成例>
図8および図9は、それぞれ多言語音声認識装置10のハードウェア構成の例を示す図である。図1または図4に示した多言語音声認識装置10の構成要素の各機能は、例えば図8に示す処理回路50により実現される。すなわち、多言語音声認識装置10は、ユーザーが発話した入力音声を記憶し、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う、ための処理回路50を備える。処理回路50は、専用のハードウェアであってもよいし、メモリに格納されたプログラムを実行するプロセッサ(中央処理装置(CPU:Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)とも呼ばれる)を用いて構成されていてもよい。
処理回路50が専用のハードウェアである場合、処理回路50は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものなどが該当する。多言語音声認識装置10の構成要素の各々の機能が個別の処理回路で実現されてもよいし、それらの機能がまとめて一つの処理回路で実現されてもよい。
図9は、処理回路50がプログラムを実行するプロセッサ51を用いて構成されている場合における多言語音声認識装置10のハードウェア構成の例を示している。この場合、多言語音声認識装置10の構成要素の機能は、ソフトウェア等(ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせ)により実現される。ソフトウェア等はプログラムとして記述され、メモリ52に格納される。プロセッサ51は、メモリ52に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、多言語音声認識装置10は、プロセッサ51により実行されるときに、ユーザーが発話した入力音声を記憶する処理と、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行う処理と、それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する処理と、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う処理と、が結果的に実行されることになるプログラムを格納するためのメモリ52を備える。換言すれば、このプログラムは、多言語音声認識装置10の構成要素の動作の手順や方法をコンピュータに実行させるものであるともいえる。
ここで、メモリ52は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの、不揮発性または揮発性の半導体メモリ、HDD(Hard Disk Drive)、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。
以上、多言語音声認識装置10の構成要素の機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、多言語音声認識装置10の一部の構成要素を専用のハードウェアで実現し、別の一部の構成要素をソフトウェア等で実現する構成であってもよい。例えば、一部の構成要素については専用のハードウェアとしての処理回路50でその機能を実現し、他の一部の構成要素についてはプロセッサ51としての処理回路50がメモリ52に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
以上のように、多言語音声認識装置10は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。
実施の形態1~4に係る多言語音声認識装置10は、音声認識機能を有する電子機器や、通信端末装置に音声認識機能を提供するサーバ等に広く適用可能である。特に、実施の形態1~4に係る多言語音声認識装置10は、音響モデルおよび音声認識辞書に必要なデータ量は小さくて済むことから、ナビゲーション装置や携帯型の電子機器など、ストレージサイズが限られる装置への適用が有効である。
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
10 多言語音声認識装置、1 入力音声記憶部、2_1 第1の音声認識部、2_2 第2の音声認識部、2_N 第Nの音声認識部、3_1 第1の音響モデル、3_2 第2の音響モデル、3_N 第Nの音響モデル、4_1 第1の音声認識辞書、4_2 第2の音声認識辞書、4_N 第Nの音声認識辞書、5 再認識用辞書作成部、6 再認識用音声認識辞書、7 音声再認識部、8 再認識用音響モデル、9 再認識用言語選択部。

Claims (7)

  1. ユーザーが発話した入力音声を記憶する入力音声記憶部と、
    前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として表記文字列を出力する複数の音声認識部と、
    複数の前記音声認識部それぞれの音声認識の結果としての前記表記文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、
    前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、
    を備え
    前記再認識用辞書作成部は、前記音声認識の結果としての前記表記文字列に対する前記再認識用言語のG2P(Grapheme to Phoneme)変換によって得られた音素文字列を、当該表記文字列の読みとして前記再認識用音声認識辞書に登録する、
    多言語音声認識装置。
  2. ユーザーが発話した入力音声を記憶する入力音声記憶部と、
    前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として音素文字列を出力する複数の音声認識部と、
    複数の前記音声認識部それぞれの音声認識の結果としての前記音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、
    前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、
    を備え
    前記再認識用辞書作成部は、Cross lingual mappingを用いて前記音声認識の結果としての前記音素文字列を前記再認識用言語に変換した音素文字列を、前記音声認識の結果としての前記音素文字列の読みとして前記再認識用音声認識辞書に登録する、
    多言語音声認識装置。
  3. 前記再認識用言語は、複数の前記音声認識部の認識対象である複数の言語のうちから前記ユーザーが選択した言語である
    請求項1または請求項2に記載の多言語音声認識装置。
  4. 複数の前記音声認識部の認識対象である複数の言語のそれぞれには、優先順位が設定されており、
    複数の前記音声認識部が前記入力音声の音声認識に用いた言語のうちから、前記優先順位の最も高い言語を、前記再認識用言語として選択する再認識用言語選択部をさらに備える、
    請求項1または請求項2に記載の多言語音声認識装置。
  5. 前記再認識用言語選択部は、複数の前記音声認識部において有効な音声認識結果が得られなかった言語を、前記再認識用言語の選択対象から除外する、
    請求項4に記載の多言語音声認識装置。
  6. 多言語音声認識装置の入力音声記憶部が、ユーザーが発話した入力音声を記憶し、
    前記多言語音声認識装置の複数の音声認識部が、前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として表記文字列を出力し、
    前記多言語音声認識装置の再認識用辞書作成部が、前記それぞれ異なる言語での音声認識の結果としての前記表記文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、
    前記多言語音声認識装置の音声再認識部が、前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行
    前記再認識用辞書作成部は、前記音声認識の結果としての前記表記文字列に対する前記再認識用言語のG2P(Grapheme to Phoneme)変換によって得られた音素文字列を、当該表記文字列の読みとして前記再認識用音声認識辞書に登録する、
    多言語音声認識方法。
  7. 多言語音声認識装置の入力音声記憶部が、ユーザーが発話した入力音声を記憶し、
    前記多言語音声認識装置の複数の音声認識部が、前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、前記音声認識の結果として音素文字列を出力し、
    前記多言語音声認識装置の再認識用辞書作成部が、前記それぞれ異なる言語での音声認識の結果としての前記音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、
    前記多言語音声認識装置の音声再認識部が、前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行
    前記再認識用辞書作成部は、Cross lingual mappingを用いて前記音声認識の結果としての前記音素文字列を前記再認識用言語に変換した音素文字列を、前記音声認識の結果としての前記音素文字列の読みとして前記再認識用音声認識辞書に登録する、
    多言語音声認識方法。
JP2021536583A 2019-08-01 2019-08-01 多言語音声認識装置および多言語音声認識方法 Active JP7038919B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/030281 WO2021019775A1 (ja) 2019-08-01 2019-08-01 多言語音声認識装置および多言語音声認識方法

Publications (2)

Publication Number Publication Date
JPWO2021019775A1 JPWO2021019775A1 (ja) 2021-11-04
JP7038919B2 true JP7038919B2 (ja) 2022-03-18

Family

ID=74230642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536583A Active JP7038919B2 (ja) 2019-08-01 2019-08-01 多言語音声認識装置および多言語音声認識方法

Country Status (2)

Country Link
JP (1) JP7038919B2 (ja)
WO (1) WO2021019775A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2004101727A (ja) 2002-09-06 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム
JP2011154341A (ja) 2009-12-28 2011-08-11 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム
JP2012529080A (ja) 2009-06-04 2012-11-15 マイクロソフト コーポレーション 再認識および統計的分類を使用する認識
WO2014136222A1 (ja) 2013-03-06 2014-09-12 三菱電機株式会社 音声認識装置および音声認識方法
WO2016103358A1 (ja) 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2004101727A (ja) 2002-09-06 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム
JP2012529080A (ja) 2009-06-04 2012-11-15 マイクロソフト コーポレーション 再認識および統計的分類を使用する認識
JP2011154341A (ja) 2009-12-28 2011-08-11 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム
WO2014136222A1 (ja) 2013-03-06 2014-09-12 三菱電機株式会社 音声認識装置および音声認識方法
WO2016103358A1 (ja) 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法

Also Published As

Publication number Publication date
WO2021019775A1 (ja) 2021-02-04
JPWO2021019775A1 (ja) 2021-11-04

Similar Documents

Publication Publication Date Title
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US7957969B2 (en) Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciatons
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
US8532990B2 (en) Speech recognition of a list entry
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
KR20080018622A (ko) 휴대용 단말기의 음성 인식 시스템
WO2011121649A1 (ja) 音声認識装置
CN112331229A (zh) 语音检测方法、装置、介质和计算设备
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
US20170270923A1 (en) Voice processing device and voice processing method
US11295733B2 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
JP2013125144A (ja) 音声認識装置およびそのプログラム
JP2010091675A (ja) 音声認識装置
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
US20150066472A1 (en) Method and apparatus for generating multiple phoneme strings for foreign noun
JP2006012179A (ja) 自然言語処理装置および自然言語処理方法
JP7038919B2 (ja) 多言語音声認識装置および多言語音声認識方法
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP4478088B2 (ja) 記号列変換方法、音声認識方法、記号列変換装置とプログラム、記録媒体
US20140372118A1 (en) Method and apparatus for exemplary chip architecture
JP5120749B2 (ja) 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
JP6277659B2 (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210709

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220308

R150 Certificate of patent or registration of utility model

Ref document number: 7038919

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150