JP5259020B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5259020B2
JP5259020B2 JP2012536034A JP2012536034A JP5259020B2 JP 5259020 B2 JP5259020 B2 JP 5259020B2 JP 2012536034 A JP2012536034 A JP 2012536034A JP 2012536034 A JP2012536034 A JP 2012536034A JP 5259020 B2 JP5259020 B2 JP 5259020B2
Authority
JP
Japan
Prior art keywords
language
information
recognition
speech recognition
reading information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012536034A
Other languages
English (en)
Other versions
JPWO2012042578A1 (ja
Inventor
陽一 加藤
純 石井
博紀 坂下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=45892084&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP5259020(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5259020B2 publication Critical patent/JP5259020B2/ja
Publication of JPWO2012042578A1 publication Critical patent/JPWO2012042578A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

この発明は、複数の言語に対応した音声認識を行う音声認識装置に関するものである。
特許文献1に記載される従来の音声認識装置は、当該装置が位置する現在地点の情報に応じた音声認識データベースを選択的に用いることで、高精度な音声認識を実現するものである。例えば、現在地点が関西地方であった場合には、関西弁の音響及び言語モデルを選択し、これを用いて音声認識を行う。また、現在地点が駅であった場合には、例えば、旅行関連の単語を多く含んだ認識辞書を選択し、これを用いて音声認識を行う。
特許文献2には、複数言語に対応した音声認識システムにおいて、複数言語専用の認識辞書を用意し、その辞書に、ある言語の発音情報とともに、当該言語の表記又は発音表記から別の言語の発音情報を生成して登録しておくシステムが開示されている。この認識辞書を参照することによって複数言語の認識が可能である。
特開2009−175630号公報 特開2004−271895号公報
しかしながら、特許文献1に代表される従来の音声認識装置では、高精度の音声認識を実現するためには、多くの音響モデル及び認識辞書をシステムに格納しておかなければならず、大容量の記憶手段が必要である。また、特許文献1は複数の言語の音声認識に対応していない。
一方、特許文献2に代表される従来の音声認識装置は、複数言語に対応しているが、音声認識前に別の言語の発音情報を予め生成して格納しておく必要があり、予め発音情報を用意してない言語については音声認識できないという課題がある。
この発明は、上記のような課題を解決するためになされたもので、大容量の記憶手段が不要であり、かつリアルタイムな処理で複数の言語に対応した音声認識をすることができる音声認識装置を得ることを目的とする。
この発明に係る音声認識装置は、認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを用い、音声認識辞書に予め登録された所定の認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、現在入力されている入力音声を音声認識する音声認識部と、単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールが登録された読み情報変換データベースと、読み情報変換データベースの読み情報変換ルールに基づいて、言語間で単語の読み情報を変換する読み情報変換部と、音声認識部で認識対象語情報を参照する認識対象語彙の中に、設定言語と異なる言語である他言語の単語が含まれていた場合、読み情報変換部によって、他言語の読み情報を設定言語の読み情報へ変換させ、音声認識部が、現在入力されている前記入力音声の変換された設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照した音声認識を行うよう制御する制御部とを備える。

この発明によれば、大容量の記憶手段が不要であり、かつリアルタイムな処理で複数の言語に対応した音声認識を行うことができるという効果がある。
この発明の実施の形態1による音声認識装置の構成を示すブロック図である。 音声認識辞書の一例を示す図である。 実施の形態1の音声認識装置による動作の流れを示すフローチャートである。 この発明の実施の形態2による音声認識装置の構成を示すブロック図である。 読み情報変換データベースの一例を示す図である。 実施の形態2の音声認識装置による動作の流れを示すフローチャートである。 設定言語と異なる言語の単語の読み情報を設定言語の読み情報へ変換する処理を説明するための図である。 この発明の実施の形態3による音声認識装置の構成を示すブロック図である。 読み情報変換データベースの一例を示す図である。 実施の形態3の音声認識装置による動作の流れを示すフローチャートである。 この発明の実施の形態4による音声認識装置の構成を示すブロック図である。 実施の形態4の音声認識装置による動作の流れを示すフローチャートである。 この発明の実施の形態5による音声認識装置の構成を示すブロック図である。 表記変換データベースの一例を示す図である。 実施の形態5の音声認識装置による動作の流れを示すフローチャートである。 特殊文字の表記情報を設定言語の表記情報へ変換する処理を説明するための図である。
以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。実施の形態1における音声認識装置は、音声認識の対象として設定した設定言語と異なる言語(以下、他言語と適宜記載する)の単語が認識対象語彙に含まれている場合に、当該他言語の音声認識エンジンを一時的に起動して音声認識する。また、その構成として、図1に示すように、認識言語設定部1、音声認識処理部2、発話ボタン3、マイク4、及びモニタ5を備える。
認識言語設定部1は、ユーザが認識対象の言語を設定する構成部であり、例えば、モニタ5や入力装置等の装置外部とのインタフェースとなり得るハードウェアを用いた言語設定用のマンマシンインタフェースを提供する。ユーザが認識対象の言語を設定すると、当該言語を示す設定言語情報Aが、認識言語設定部1から、認識エンジン選定部21及び音声認識制御部24へ通知される。
発話ボタン3は、ユーザの発話開始を音声認識装置へ通知するボタンであり、ユーザに押下されると、発話開始を示す発話開始通知Dを音声認識制御部24へ出力する。また、発話ボタン3は、モニタ5の画面上に表示するソフトウェアボタン又はモニタ5の画面枠周辺に設けたハードウェアボタン等で実現される。
マイク4は、ユーザが発話した音声を電気信号の音声信号Hに変換して音声認識部23へ送信する構成部である。モニタ5は、表示制御部26によって表示処理が制御されて、音声認識処理部2で得られた情報を画面上に表示する表示装置である。例えば、認識した語の表記情報Jをモニタ5の画面上に表示することで、ユーザに認識結果が提示される。
音声認識処理部2は、ユーザが発話した音声を認識して、認識結果をユーザに提示する構成部であり、認識エンジン選定部21、音声認識エンジン記憶部22、音声認識部23、音声認識制御部24、音声認識辞書記憶部25及び表示制御部26を備える。
認識エンジン選定部(選定部)21は、認識言語設定部1から通知された設定言語情報Aに基づいて、音声認識エンジン記憶部22に記憶される全ての音声認識エンジン(音声認識エンジンB)の中から、設定言語の音声認識エンジンを選定し、他言語情報Fが通知されている場合、他言語情報Fが示す言語の音声認識エンジンを選定する構成部である。認識エンジン選定部21によって選定された音声認識エンジンは、音声認識処理の際に実行される音声認識エンジンCとして音声認識部23に設定される。
音声認識辞書記憶部25は、認識対象語彙の表記、読み及び言語を示す認識対象語情報(認識対象語情報E)が登録された音声認識辞書を記憶する記憶部である。
音声認識エンジン記憶部(記憶部)22は、複数の言語のそれぞれに対応した音声認識エンジンを記憶する記憶部である。なお、音声認識エンジンとは、認識対象語彙の認識対象語情報を参照してユーザが発話した音声の認識処理を行い、認識結果を示す認識結果情報I(認識した語のテキストデータ等)を出力するためのプログラムモジュールである。
音声認識部23は、認識エンジン選定部21に設定された音声認識エンジンCを実行することで、後述のように音声認識制御部24に選択された認識対象語情報Gを参照して、ユーザからマイク4を通じて入力された音声信号Hの認識処理を行う構成部である。音声認識部23の認識結果情報Iは、表示制御部26へ送信される。表示制御部26は、音声認識部23の認識結果情報Iを入力し、認識語彙の表記情報Jとしてモニタ5へ出力する構成部である。モニタ5は、認識語彙の表記情報Jを画面上に表示する。
音声認識制御部(制御部)24は、発話開始通知Dが入力されると、音声認識辞書記憶部25に記憶されている音声認識辞書の認識対象語情報Eを参照し、認識対象語情報Eの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Gを選定して音声認識部23へ出力する構成部である。また、音声認識制御部24は、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると判断した場合、設定言語と異なる当該言語を示す他言語情報Fを認識エンジン選定部21へ出力する。このようにして、音声認識制御部24は、音声認識部23が、設定言語と異なる言語に対応する音声認識エンジンを用いて、当該設定言語と異なる言語の認識対象語彙を参照した音声認識を行うよう制御する。
図2は、音声認識辞書の一例を示す図である。図2に示すように、音声認識辞書記憶部25が記憶する音声認識辞書には、認識対象語の表記、読み、言語が登録される。なお、実施の形態1では、図2のように、複数の言語(UK English、German、Japanese)の単語の認識対象語情報Eが一緒に登録された音声認識辞書を用いている。
なお、認識エンジン選定部21、音声認識エンジン記憶部22、音声認識部23、音声認識制御部24、音声認識辞書記憶部25及び表示制御部26は、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。
次に動作について説明する。
図3は、実施の形態1の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部2による処理の詳細を示している。
先ず、ユーザが、認識言語設定部1を用いて認識対象の言語を設定する。これにより、ユーザが設定した言語を示す設定言語情報Aが、認識言語設定部1から認識エンジン選定部21へ通知される。認識エンジン選定部21は、音声認識エンジン記憶部22に記憶される音声認識エンジンBを参照し、音声認識エンジンBの中から、設定言語情報Aが示す言語の音声認識エンジンCを選定する(ステップST101)。この後、認識エンジン選定部21は、音声認識部23に音声認識エンジンCを設定する(ステップST102)。
例えば、ユーザがドイツ語を認識対象の言語として設定したい場合、認識言語設定部1が提供するマンマシンインタフェースを介してドイツ語を設定する。これにより、認識エンジン選定部21は、認識言語設定部1からドイツ語を示す設定言語情報Aが通知され、設定言語情報Aに基づいて、音声認識エンジンBの中から、ドイツ語に対応する音声認識エンジンを選定して音声認識部23に設定する。
次に、音声認識制御部24は、ユーザによって発話ボタン3が押下されたことによる発話開始通知Dの有無を判定する(ステップST103)。ここで、発話開始通知Dが無ければ(ステップST103;NO)、処理を終了する。
発話開始通知Dがある場合(ステップST103;YES)、音声認識制御部24は、音声認識辞書記憶部25に記憶された音声認識辞書の認識対象語情報Eを参照して、認識対象語情報Eの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Gを選定して取得する(ステップST104)。
なお、認識対象語彙の選定基準としては、例えば、直前の認識結果が挙げられる。
つまり、音声認識制御部24が、音声認識部23から取得した認識結果情報Iを基に、今回の認識処理で使用する認識対象語彙の認識対象語情報を認識対象語情報Eから選定する。“地名”を音声認識する場合で説明すると、直前の音声認識処理の認識結果情報Iから“Great Britain”という国名が認識されていた場合に、音声認識制御部24は、認識対象語情報Eの中から“Great Britain”に属する地名の全ての語彙の認識対象語情報を取得する。
このように、音声認識制御部24は、認識対象語彙に含まれる単語の言語が設定言語であるか否かを問わず、音声認識場面で使用される可能性が高い語彙を選定する基準に従って、認識対象語情報Eの中から、認識処理で使用する全ての認識対象語彙を選定し、これらの認識対象語情報(認識対象語情報G)を取得する。
次に、音声認識制御部24は、認識対象語情報Gに含まれる言語情報(例えば、図2に示したUK English, German等)を参照して、認識対象語情報Gの語彙の中に、設定言語情報Aと異なる言語情報(他言語)の単語が存在するか否かを判定する(ステップST105)。ここで、他言語の単語が含まれている場合(ステップST105;YES)、音声認識制御部24は、上記言語情報に基づいて、他言語としてどの言語の単語が含まれているかを示す他言語情報Fを認識エンジン選定部21へ通知する(ステップST106)。
認識エンジン選定部21は、音声認識制御部24から通知された他言語情報Fを基に、音声認識エンジン記憶部22に記憶される音声認識エンジンBを参照して、音声認識エンジンBの中から、他言語情報Fが示す言語の音声認識エンジンを選定し(ステップST107)、当該音声認識エンジンについても、音声認識エンジンCとして音声認識部23に設定する(ステップST108)。
例えば、英語が設定言語であり、認識対象語彙にドイツ語の単語が含まれている場合、ドイツ語の音声認識エンジンを選択して設定する。
なお、認識対象語彙にドイツ語とフランス語等、複数の他言語の単語が含まれている場合は、これらの言語に対応する複数の音声認識エンジンを選定して音声認識部23に設定してもよい。
一方、他言語の単語が含まれない場合(ステップST105;NO)、ステップST109の処理へ移行して、ステップST106からステップST108までの処理は実行されない。
ステップST109において、音声認識部23は、ステップST104で選択された認識対象語情報Gを音声認識制御部24から取得する。
この後、音声認識部23は、マイク4から入力されたユーザからの音声信号Hを取得すると(ステップST110)、音声認識エンジンCを実行して、認識対象語情報Gを参照し、下記の参考文献1の第5章に示す方法で、ユーザがどの単語を発話したかを音声認識する(ステップST111)。
(参考文献1)古井 貞煕著、“音声情報処理”、森北出版、1998
認識対象語彙が設定言語の単語と設定言語と異なる言語(他言語)の単語を含む場合には、他言語に対応する音声認識エンジンCを一時的に起動し、一つの音声発話を同時に複数言語の音声認識エンジンCに入力して認識処理(参考文献1に示す認識処理)を行い、言語エンジン毎の認識結果を取得する。全言語分の認識結果をスコア(認識結果の確からしさを表す)が高い順に並べ、最終的な認識結果とする。なお、認識対象語彙が他言語の単語だけである場合は、音声認識部23は、設定言語に対応する音声認識エンジンCの実行を停止し、他言語に対応する音声認識エンジンCを一時的に起動して、当該他言語の認識対象語彙で認識処理を行う。
認識処理を完了すると、音声認識部23は、当該処理の認識結果情報Iを表示制御部26に出力する(ステップST112)。表示制御部26では、認識結果情報Iに含まれる表記情報Jを認識結果としてモニタ5を通じてユーザに提示し(ステップST113)、システムは処理を終了する(ステップST114)。
以上のように、この実施の形態1によれば、複数の言語にそれぞれ対応した複数の音声認識エンジンを記憶する音声認識エンジン記憶部22と、音声認識エンジン記憶部22に記憶された複数の音声認識エンジンの中から設定言語に対応する音声認識エンジンを選定する認識エンジン選定部21と、認識エンジン選定部21に選定された音声認識エンジンを用い、音声認識辞書に登録された認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、入力音声を音声認識する音声認識部23と、音声認識部23で参照する認識対象語彙の中に、設定言語と異なる言語(他言語)の単語が含まれていた場合、音声認識エンジン記憶部22に記憶された複数の音声認識エンジンの中から他言語に対応する音声認識エンジンを、認識エンジン選定部21に選定させ、当該音声認識エンジンを用いて、音声認識部23が、上記他言語の単語を参照する音声認識を行うよう制御する音声認識制御部24とを備える。
このように、予め設定された言語と異なる言語の単語がある場合、当該言語に対応する音声認識エンジンを一時的に起動して音声認識することで、大容量の記憶手段が不要であり、かつリアルタイムな処理で複数の言語に対応した音声認識を行うことが可能となる。
実施の形態2.
実施の形態2では、設定言語と異なる言語(他言語)の単語が音声認識辞書に含まれている場合、当該単語の他言語で付与されている当該単語の読み情報から設定言語の読み情報へ変換を行い、変換後の読み情報を用いて当該単語を設定言語の音声認識エンジンで認識する。
図4は、この発明の実施の形態2による音声認識装置の構成を示すブロック図である。図4において、認識言語設定部1、発話ボタン3、マイク4、及びモニタ5については、上記実施の形態1で説明した図1の構成と同様である。実施の形態2の音声認識処理部2Aは、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識部23a、音声認識制御部24a、音声認識辞書記憶部25、表示制御部26、読み情報変換部27a及び読み情報変換データベース記憶部28aを備える。
なお、音声認識処理部2Aにおいて、音声認識エンジン記憶部22、音声認識辞書記憶部25、及び表示制御部26は、上記実施の形態1で説明した図1の構成と同様である。
認識エンジン選定部(選定部)21aは、認識言語設定部1から通知された設定言語情報Aに基づいて、音声認識エンジン記憶部22に記憶される全ての音声認識エンジン(音声認識エンジンB)の中から、設定言語の音声認識エンジンCを選定する構成部である。
音声認識制御部24aは、発話開始通知Dが入力されると、音声認識辞書記憶部25に記憶される音声認識辞書の認識対象語情報Eの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Gを選定して音声認識部23aへ出力する構成部である。
また、音声認識制御部24aは、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると、認識対象語情報Eの中から当該他言語の単語の認識対象語情報を選定し、他言語認識対象語情報Kとして読み情報変換部27aへ出力する。このようにして、音声認識制御部24aは、音声認識部23aが、読み情報変換部27aによって読み情報が変換された後の認識対象語彙を参照した音声認識を行うよう制御する。
読み情報変換データベース記憶部28aは、読み情報変換データベースを記憶する記憶部である。読み情報変換データベースには、語彙の複数の言語間の読み情報の対応関係を示す読み情報変換ルールLが格納される。
読み情報変換部27aは、音声認識制御部24aから入力された他言語認識対象語情報Kに含まれる当該他言語の単語の読み情報を、読み情報変換データベース記憶部28aから読み出した読み情報変換ルールLに従って設定言語の読み情報へ変換する構成部である。設定言語の読み情報に変換後の認識対象語情報は、読み変換後の認識対象語情報Mとして音声認識部23aへ出力される。
図5は、読み情報変換データベースの一例を示す図であり、英語の読みから日本語の読みへの読み情報変換ルールLを示している。例えば、設定言語が日本語であり、認識対象語彙に英語の“ENERGY”が含まれていた場合には、図5の読み情報変換ルールLに従って、単語“ENERGY”の読みが日本語の読み“enajii”に変換される。
音声認識部23aは、認識エンジン選定部21aが選定した音声認識エンジンCを実行することで、音声認識制御部24aが選択した認識対象語情報G及び読み情報変換部27aによる読み情報変換後の認識対象語情報Mを参照して、ユーザからマイク4を通じて入力された音声信号Hの音声認識処理を行う構成部である。音声認識部23aによる認識処理の結果として得られた認識結果情報Iは、音声認識部23aから表示制御部26へ送信される。
なお、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識部23a、音声認識制御部24a、音声認識辞書記憶部25、表示制御部26、読み情報変換部27a及び読み情報変換データベース記憶部28aは、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。
次に動作について説明する。
図6は、実施の形態2の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部2Aによる処理の詳細を示している。図6において、ステップST101からステップST105までの処理は、上記実施の形態1で説明した図3の処理内容と同様である。
認識対象語彙に他言語の単語が含まれている場合(ステップST105;YES)、音声認識制御部24aは、音声認識辞書記憶部25に記憶される音声認識辞書の認識対象語情報Eを参照して当該他言語認識対象語情報Kを取得し読み情報変換部27aへ出力する(ステップST201a)。
読み情報変換部27aは、音声認識制御部24aから入力された他言語認識対象語情報Kの単語をキーとして読み情報変換データベース記憶部28aを参照して、設定言語と他言語との読み情報変換ルールLを特定すると、他言語認識対象語情報Kから抽出した認識対象語の読み情報を、当該読み情報変換ルールLに従って設定言語の読み情報へ変換する(ステップST202a)。
図7は、設定言語と異なる言語の単語の読み情報を設定言語の読み情報へ変換する処理を説明するための図であり、設定言語が日本語、認識対象語彙が英語の“ENERGY”である場合を示している。英語(他言語)の単語“ENERGY”の読みが、図7で符号Aを付した読みである場合、図5に示した読み情報変換ルールLに従って、英語での読み情報Aから、日本語の読み情報“enajii”に変換される。
一方、認識対象語彙に他言語の単語が含まれない場合(ステップST105;NO)、ステップST203aの処理へ移行し、ステップST201aからステップST202aまでの処理は実行されない。
ステップST203aにおいて、音声認識部23aは、ステップST104で選択された認識対象語情報Gを音声認識制御部24aから取得するとともに、読み情報変換部27aによる読み変換後の認識対象語情報Mを取得する。
次に、音声認識部23aは、マイク4から入力されたユーザからの音声信号Hを取得すると(ステップST110)、音声認識エンジンCを実行して認識対象語情報Gと認識対象語情報Mを参照し、上記参考文献1の第5章に示す方法で、ユーザがどの単語を発話したかを音声認識する(ステップST111)。
音声認識部23aは、認識対象語彙が設定言語と異なる言語(他言語)の単語を含む場合であっても、設定言語に対応する音声認識エンジンCを実行し、設定言語の読み情報に変換後の認識対象語情報Mを参照して認識処理を行う。
認識処理を完了すると、音声認識部23aは、当該処理の認識結果情報Iを表示制御部26に出力する(ステップST112)。表示制御部26では、認識結果情報Iに含まれる表記情報Jを認識結果としてモニタ5を通じてユーザに提示し(ステップST113)、システムは処理を終了する(ステップST114)。
以上のように、この実施の形態2によれば、認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを用い、音声認識辞書に登録された認識対象語を参照して、入力音声を音声認識する音声認識部23aと、単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールLが登録された読み情報変換データベースと、読み情報変換データベースの読み情報変換ルールLに基づいて、言語間で単語の読み情報を変換する読み情報変換部27aと、音声認識部23aで認識対象語情報Eを参照する認識対象語彙の中に、予め設定された言語と異なる言語である他言語の単語が含まれていた場合、読み情報変換部27aによって、他言語の読み情報を設定言語の読み情報へ変換させ、音声認識部23aが、変換された設定言語の読み情報を含む当該単語の認識対象語情報を参照した音声認識を行うように制御する音声認識制御部24aとを備える。
このように、設定言語と異なる他言語の単語の読み情報から、当該設定言語の読み情報を生成することで、設定言語を切り替えることなく、他言語の単語を認識することが可能となる。この場合、ユーザが、設定言語と異なる上記他言語の発音に近い発音で当該単語を発話することで音声認識が可能である。また、この読み情報は、リアルタイムな処理で生成することができるため、当該他言語の単語に対応する設定言語の読み情報を音声認識辞書に予め格納しておく必要がないという利点がある。
実施の形態3.
実施の形態3では、設定言語と異なる言語(他言語)の単語が音声認識辞書に含まれている場合、当該単語の他言語の単語の表記情報から設定言語の読み情報を生成し、生成した読み情報を用いて当該単語を設定言語の音声認識エンジンで認識する。
図8は、この発明の実施の形態3による音声認識装置の構成を示すブロック図である。図8において、認識言語設定部1、発話ボタン3、マイク4、及びモニタ5については、上記実施の形態1で説明した図1の構成と同様である。実施の形態3の音声認識処理部2Bは、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識部23b、音声認識制御部24b、音声認識辞書記憶部25、表示制御部26、読み情報生成部27b、及び読み情報生成データベース記憶部28bを備える。
なお、音声認識処理部2Bにおいて、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識辞書記憶部25及び表示制御部26は、上記実施の形態1で説明した図1及び上記実施の形態2で説明した図4の構成と同様である。
音声認識制御部24bは、発話開始通知Dが入力されると、音声認識辞書記憶部25に記憶される音声認識辞書の認識対象語情報Eの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Gを選定して音声認識部23bへ出力する構成部である。
また、音声認識制御部24bは、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると、認識対象語情報Eの中から当該他言語の単語の認識対象語情報を選定し、他言語認識対象語情報Kとして読み情報生成部27bへ出力する。このようにして、音声認識制御部24bは、音声認識部23bが、読み情報生成部27bによって読み情報が生成された後の当該単語の認識対象語情報を参照した音声認識を行うよう制御する。
読み情報生成データベース記憶部28bは、読み情報生成データベースを記憶する記憶部である。読み情報生成データベースには、語彙の複数の言語間における一方の言語での表記情報と他方の言語での読み情報との対応関係を示す読み情報生成ルールNが格納される。
読み情報生成部27bは、音声認識制御部24bから入力された他言語認識対象語情報Kに含まれる、当該他言語の単語の表記情報を参照して、読み情報生成データベース記憶部28bから読み出した読み情報生成ルールNに基づいて、当該単語の設定言語の読み情報を生成する構成部である。設定言語の読み情報を生成した後の認識対象語情報は、読み生成後の認識対象語情報Oとして音声認識部23bへ出力される。
図9は、読み情報変換データベースの一例を示す図であり、英語の表記情報と対応する日本語の読み情報とが登録された読み情報生成ルールNを示している。例えば、設定言語が日本語であり、認識対象語彙に英語の“ENERGY”が含まれていた場合には、図9の読み情報生成ルールNに従って、表記情報“ENERGY”から日本語の読み“enerugii”が生成される。こうすることにより、日本語の「エネルギー」と英語の“ENERGY”をともに認識対象語彙に含ませる必要がなくなる。
音声認識部23bは、認識エンジン選定部21aが選定した音声認識エンジンCを実行することで、音声認識制御部24bが選択した認識対象語情報G及び読み情報生成部27bによる読み生成後の認識対象語情報Oを参照して、ユーザからマイク4を通じて入力された音声信号Hの音声認識処理を行う構成部である。音声認識部23bによる認識処理の結果として得られた認識結果情報Iは、音声認識部23bから表示制御部26へ送信される。
なお、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識部23b、音声認識制御部24b、音声認識辞書記憶部25、表示制御部26、読み情報生成部27b及び読み情報生成データベース記憶部28bは、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。
次に動作について説明する。
図10は、実施の形態3の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部2Bによる処理の詳細を示している。図10において、ステップST101からステップST105までの処理は、上記実施の形態1で説明した図3の処理内容と同様である。
認識対象語彙に他言語の単語が含まれている場合(ステップST105;YES)、音声認識制御部24bは、音声認識辞書記憶部25に記憶される音声認識辞書の認識対象語情報Eを参照して当該他言語の単語の他言語認識対象語情報Kを取得し、読み情報生成部27bへ出力する(ステップST201b)。
読み情報生成部27bは、音声認識制御部24bから入力された他言語認識対象語情報Kの単語をキーとして読み情報生成データベース記憶部28bを参照して、設定言語と他言語との読み情報生成ルールNを特定すると、他言語認識対象語情報Kから抽出した単語の表記情報を参照して、当該読み情報生成ルールNに基づいて設定言語の読み情報を生成する(ステップST202b)。
例えば、設定言語が日本語、他言語の単語が英語の“ENERGY”である場合、図9に示した読み情報生成ルールNを用いることで、英語(他言語)の単語“ENERGY”の表記情報から、日本語の読み情報“enerugii”が生成される。
一方、認識対象語彙に他言語の単語が含まれない場合(ステップST105;NO)、ステップST203bの処理へ移行し、ステップST201bからステップST202bまでの処理は実行されない。
ステップST203bにおいて、音声認識部23bは、ステップST104で選択された認識対象語情報Gを音声認識制御部24bから取得するとともに、読み情報生成部27bによる読み生成後の認識対象語情報Oを取得する。
次に、音声認識部23bは、マイク4から入力されたユーザからの音声信号Hを取得すると(ステップST110)、音声認識エンジンCを実行して認識対象語情報Gと認識対象語情報Oを参照し、上記参考文献1の第5章に示す方法で、ユーザがどの単語を発話したかを音声認識する(ステップST111)。
音声認識部23bは、認識対象語彙が設定言語と異なる言語(他言語)の単語を含む場合であっても、設定言語に対応する音声認識エンジンCを実行して、設定言語の読み情報を生成した後の認識対象語情報Oを参照して認識処理を行う。
認識処理を完了すると、音声認識部23bは、当該処理の認識結果情報Iを表示制御部26に出力する(ステップST112)。表示制御部26では、認識結果情報Iに含まれる表記情報Jを認識結果としてモニタ5を通じてユーザに提示し(ステップST113)、システムは処理を終了する(ステップST114)。
以上のように、この実施の形態3によれば、設定言語に対応する音声認識エンジンを用い、音声認識辞書に登録された認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、入力音声を音声認識する音声認識部23bと、語彙の複数の言語間における一方の言語での表記情報と他方の言語での読み情報の対応関係を示す読み情報生成ルールNが登録された読み情報生成データベースと、読み情報生成ルールNに基づいて、語彙の一方の言語での表記情報から他方の言語での読み情報を生成する読み情報生成部27bと、音声認識部23bで認識対象語情報Eを参照する認識対象語彙の中に、設定言語と異なる他言語の単語が含まれていた場合、読み情報生成部27bによって、当該他言語の表記情報から設定言語の読み情報を生成させ、音声認識部23bが、当該読み情報の生成後の当該単語の認識対象語情報を参照する音声認識を行うよう制御する音声認識制御部24bとを備える。
このように、設定言語と異なる他言語の単語の表記情報から設定言語に対応した読み情報を生成することで、設定言語を切り替えることなく、他言語の単語を音声認識することができる。この場合、ユーザが、設定言語の発音に近い発音で当該単語を発話することで音声認識が可能である。また、この読み情報は、リアルタイムな処理で生成することができるため、当該他言語の単語に対応する設定言語の読み情報を音声認識辞書に予め格納しておく必要がないという利点がある。
実施の形態4.
実施の形態4では、設定言語と異なる言語(他言語)の単語が音声認識辞書に含まれている場合、当該単語の他言語で付与されている読み情報と表記情報との双方から、設定言語の読み情報を生成し、生成した読み情報を用いて当該単語を設定言語の音声認識エンジンで認識する。
図11は、この発明の実施の形態4による音声認識装置の構成を示すブロック図である。図11において、認識言語設定部1、発話ボタン3、マイク4、及びモニタ5については、上記実施の形態1で説明した図1の構成と同様である。実施の形態4の音声認識処理部2Cは、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識部23c、音声認識制御部24c、音声認識辞書記憶部25、表示制御部26、読み情報変換部27a、読み情報生成部27b、読み情報変換データベース記憶部28a及び読み情報生成データベース記憶部28bを備える。
なお、音声認識処理部2Cにおいて、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識辞書記憶部25及び表示制御部26は、上記実施の形態1で説明した図1及び上記実施の形態2で説明した図4の構成と同様である。
音声認識制御部24cは、発話開始通知Dが入力されると、音声認識辞書記憶部25に記憶される音声認識辞書の認識対象語情報Eの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Gを選定して音声認識部23cへ出力する構成部である。
また、音声認識制御部24cは、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると、認識対象語情報Eの中から当該他言語の単語の認識対象語情報を選定し、他言語認識対象語情報Kとして読み情報変換部27a及び読み情報生成部27bへそれぞれ出力する。このようにして、音声認識制御部24cは、音声認識部23cが、読み情報変換部27aによって読み情報が変換された後の認識対象語及び読み情報生成部27bによって読み情報が生成された後の認識対象語彙を参照した音声認識を行うよう制御する。
読み情報変換部27aは、音声認識制御部24cから入力された他言語認識対象語情報Kに含まれる、当該他言語の単語の読み情報を、読み情報変換データベース記憶部28aから読み出した読み情報変換ルールLに従って設定言語の読み情報へ変換する構成部である。設定言語の読み情報に変換後の認識対象語情報は、読み変換後の認識対象語情報Mとして音声認識部23cへ出力される。
読み情報変換データベース記憶部28aは、例えば、図5に示したような読み情報変換データベースを記憶する記憶部である。読み情報変換データベースには、単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールLが格納される。
読み情報生成部27bは、音声認識制御部24cから入力された他言語認識対象語情報Kに含まれる、当該他言語の単語の表記情報を参照して、読み情報生成データベース記憶部28bから読み出した読み情報生成ルールNに基づいて、当該単語の設定言語の読み情報を生成する構成部である。設定言語の読み情報を生成した後の認識対象語情報は、読み生成後の認識対象語情報Oとして音声認識部23cへ出力される。
読み情報生成データベース記憶部28bは、例えば、図9に示したような読み情報生成データベースを記憶する記憶部である。読み情報生成データベースには、単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報との対応関係を示す読み情報生成ルールNが格納される。
音声認識部23cは、認識エンジン選定部21aが選定した音声認識エンジンCを実行することで、音声認識制御部24cが選択した認識対象語情報G、読み情報変換部27aによる読み情報変換後の認識対象語情報M及び読み情報生成部27bによる読み生成後の認識対象語情報Oを参照して、ユーザからマイク4を通じて入力された音声信号Hの音声認識処理を行う構成部である。音声認識部23cによる認識処理の結果として得られた認識結果情報Iは、音声認識部23cから表示制御部26へ送信される。
なお、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識部23c、音声認識制御部24c、音声認識辞書記憶部25、表示制御部26、読み情報変換部27a、読み情報生成部27b、読み情報変換データベース記憶部28a、及び読み情報生成データベース記憶部28bは、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。
次に動作について説明する。
図12は、実施の形態4の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部2Cによる処理の詳細を示している。図12において、ステップST101からステップST105までの処理は、上記実施の形態1で説明した図3の処理内容と同様である。
認識対象語彙に他言語の単語が含まれている場合(ステップST105;YES)、音声認識制御部24cは、音声認識辞書記憶部25に記憶される音声認識辞書の認識対象語情報Eを参照して当該他言語の単語の他言語認識対象語情報Kを取得し、読み情報変換部27aへ出力する(ステップST201a)。
読み情報変換部27aは、音声認識制御部24cから入力された他言語認識対象語情報Kの単語をキーとして読み情報変換データベース記憶部28aを参照して、設定言語と他言語との読み情報変換ルールLを特定すると、他言語認識対象語情報Kから抽出した認識対象語の読み情報を、当該読み情報変換ルールLに従って設定言語の読み情報へ変換する(ステップST202a)。
続いて、音声認識制御部24cは、音声認識辞書記憶部25に記憶される音声認識辞書の認識対象語情報Eを参照して取得した当該他言語認識対象語情報Kを、読み情報生成部27bへ出力する(ステップST201b)。
読み情報生成部27bは、音声認識制御部24cから入力された他言語認識対象語情報Kの単語をキーとして読み情報生成データベース記憶部28bを参照して、設定言語と他言語との読み情報生成ルールNを特定すると、他言語認識対象語情報Kから抽出した認識対象語の表記情報を参照して、当該読み情報生成ルールNに基づいて設定言語の読み情報を生成する(ステップST202b)。
一方、認識対象語彙に他言語の単語が含まれない場合(ステップST105;NO)、ステップST203の処理へ移行して、ステップST201aからステップST202aまでの処理、及びステップST201bからステップST202bまでの処理は実行されない。
ステップST203において、音声認識部23cは、ステップST104で選択された認識対象語情報Gを音声認識制御部24cから取得するとともに、読み情報変換部27aによる読み変換後の認識対象語情報M、及び、読み情報生成部27bによる読み生成後の認識対象語情報Oをそれぞれ取得する。
次に、音声認識部23cは、マイク4から入力されたユーザからの音声信号Hを取得すると(ステップST110)、音声認識エンジンCを実行して認識対象語情報G、認識対象語情報M及び認識対象語情報Oを参照し、上記参考文献1の第5章に示す方法で、ユーザがどの単語を発話したかを音声認識する(ステップST111)。
音声認識部23cは、認識対象語彙が設定言語と異なる言語(他言語)の単語を含む場合であっても、設定言語に対応する音声認識エンジンCを実行して、設定言語の読み情報に変換した後の認識対象語情報M及び設定言語の読み情報を生成した後の認識対象語情報Oを用いて、認識処理を行う。
認識処理を完了すると、音声認識部23cは、当該処理の認識結果情報Iを表示制御部26に出力する(ステップST112)。表示制御部26では、認識結果情報Iに含まれる表記情報Jを認識結果としてモニタ5を通じてユーザに提示し(ステップST113)、システムは処理を終了する(ステップST114)。
以上のように、この実施の形態4によれば、読み情報変換ルールLが登録された読み情報変換データベースと、読み情報変換ルールLに基づいて言語間で単語の読み情報を変換する読み情報変換部27aと、読み情報生成ルールNが登録された読み情報生成データベースと、読み情報生成ルールNに基づいて単語の一方の言語での表記情報から他方の言語での読み情報を生成する読み情報生成部27bを備え、音声認識制御部24cが、音声認識部23cで参照する認識対象語彙の中に、設定言語と異なる言語(他言語)の単語が含まれていた場合、読み情報生成部27aによって、当該他言語の表記情報から設定言語の読み情報を生成させるとともに、読み情報変換部27bによって、他言語の読み情報を、設定言語の読み情報へ変換させ、音声認識部23cが、生成された設定言語の読み情報を含む当該単語の認識対象語情報を参照した音声認識を行うよう制御する。
このように、設定言語と異なる他言語の単語の表記と読み情報の両方から、設定言語に対応した2種類の読み情報を生成することで、ユーザは、設定言語と異なる上記他言語の発音に近い発音又は設定言語の発音に近い発音のどちらを発話しても音声認識が可能となる。また、これらの読み情報は、リアルタイムな処理で生成することができるため、設定言語と異なる上記他言語の単語に対応する設定言語での読み情報を音声認識辞書に予め格納しておく必要がないという利点がある。
実施の形態5.
実施の形態5では、設定言語と異なる言語(他言語)の単語が認識対象語彙に含まれており、さらに、その単語に当該他言語に特有な特殊文字表記が含まれている場合に、その単語を設定言語の表記へ変換した後、その表記を基に設定言語の読み情報を生成し、その読み情報を用いて当該単語を設定言語の音声認識エンジンで認識する。
図13は、この発明の実施の形態5による音声認識装置の構成を示すブロック図である。図13において、認識言語設定部1、発話ボタン3、マイク4、及びモニタ5については、上記実施の形態1で説明した図1の構成と同様である。実施の形態5の音声認識処理部2Dは、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識部23c、音声認識制御部24d、音声認識辞書記憶部25、表示制御部26、読み情報変換部27a、読み情報生成部27b、読み情報変換データベース記憶部28a、読み情報生成データベース記憶部28b、表記変換部29及び表記変換データベース記憶部30を備える。なお、音声認識処理部2Dにおいて、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識辞書記憶部25及び表示制御部26は、上記実施の形態1で説明した図1及び上記実施の形態2で説明した図4の構成と同様である。また、音声認識部23cは、上記実施の形態4で説明した図11の構成と同様である。
音声認識制御部24dは、発話開始通知Dが入力されると、音声認識辞書記憶部25に記憶される音声認識辞書の認識対象語情報Eの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Gを選定して音声認識部23cへ出力する構成部である。
また、音声認識制御部24dは、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると、認識対象語情報Eの中から当該他言語の単語の認識対象語情報を選定し、他言語認識対象語情報Kとして読み情報変換部27aへ出力する。
さらに、音声認識制御部24dは、認識対象語情報Eの中から選定した当該他言語の単語に含まれる表記情報に、当該他言語に特有な特殊文字表記が含まれている場合に、認識対象語情報Eの中から選定した他言語の単語の認識対象語情報のうち、当該特殊文字を含む認識対象語情報を、認識対象語情報Pとして表記変換部29へ出力するとともに、当該特殊文字を含まない認識対象語情報を、認識対象語情報Sとして読み情報生成部27bへ出力する。
このようにして、音声認識制御部24dは、音声認識部23cが、読み情報変換部27aによって読み情報が変換され、かつ読み情報生成部27bによって読み情報が生成された他言語の単語の認識対象語情報を参照した音声認識を行うよう制御する。
読み情報変換部27aは、音声認識制御部24dから入力された他言語認識対象語情報Kに含まれる、当該他言語の単語の読み情報を、読み情報変換データベース記憶部28aから読み出した読み情報変換ルールLに従って設定言語の読み情報へ変換する構成部である。設定言語の読み情報に変換後の認識対象語情報は、読み変換後の認識対象語情報Mとして音声認識部23cへ出力される。
読み情報変換データベース記憶部28aは、例えば、図5に示したような読み情報変換データベースを記憶する記憶部である。読み情報変換データベースには、単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールLが格納される。
読み情報生成部27bは、音声認識制御部24dから入力された特殊文字を含まない他言語認識対象語情報S、及び、表記変換部29による表記変換後の他言語の単語の認識対象語情報Rに含まれる、当該他言語の単語の表記情報を参照し、読み情報生成データベース記憶部28bから読み出した読み情報生成ルールNに基づいて、当該認識対象語の設定言語の読み情報を生成する構成部である。設定言語の読み情報を生成した後の認識対象語情報は、読み生成後の認識対象語情報Oとして音声認識部23cへ出力される。
読み情報生成データベース記憶部28bは、例えば、図9に示したような読み情報生成データベースを記憶する記憶部である。読み情報生成データベースには、上記実施の形態3,4と異なり、単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報との対応関係に加えて、同一の言語における表記情報と読み情報との対応関係を含む読み情報生成ルールNが格納される。
表記変換部29は、音声認識制御部24dから入力された特殊文字を含む他言語認識対象語情報Pを参照して、表記変換データベース記憶部30から読み出した表記変換ルールQに基づいて、他言語に特有な特殊文字の表記情報を、設定言語の表記情報に変換する構成部である。表記変換部29による表記変換後の他言語認識対象語情報は、他言語認識対象語情報Rとして読み情報生成部27bへ出力される。
表記変換データベース記憶部30は、表記変換データベースを記憶する記憶部である。表記変換データベースには、複数の言語間における一方の言語に特有な特殊文字の表記情報と他方の言語の表記情報との対応関係を示す表記変換ルールQが格納される。
図14は、表記変換データベースの一例を示す図であり、ドイツ語に特有な特殊文字の表記情報と対応する英語の表記情報とが登録された表記変換ルールQを示している。例えば、ドイツ語(他言語)の単語にウムラウトの文字表記が含まれていた場合には、図14の表記変換ルールQに従って、対応する英語の表記情報に変換される。なお、図14では、英語での発音が適切になるような英語の表記を示している。変換後の言語は、英語やアルファベットで表記する言語に限らず、その言語用の変換ルールを作成すれば、日本語や中国語など任意の言語でもよい。
なお、認識エンジン選定部21a、音声認識エンジン記憶部22、音声認識部23c、音声認識制御部24d、音声認識辞書記憶部25、表示制御部26、読み情報変換部27a、読み情報生成部27b、読み情報変換データベース記憶部28a、読み情報生成データベース記憶部28b、表記変換部29及び表記変換データベース記憶部30は、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。
次に動作について説明する。
図15は、実施の形態5の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部2Cによる処理の詳細を示している。図15において、ステップST101からステップST105までの処理は、上記実施の形態1で説明した図3の処理内容と同様である。
認識対象語彙に他言語の単語が含まれている場合(ステップST105;YES)、音声認識制御部24dは、音声認識辞書記憶部25に記憶される音声認識辞書の認識対象語情報Eを参照して当該他言語の単語の他言語認識対象語情報Kを取得し、読み情報変換部27aへ出力する(ステップST201a)。
読み情報変換部27aは、音声認識制御部24dから入力された他言語認識対象語情報Kの単語をキーとして読み情報変換データベース記憶部28aを参照して、設定言語と他言語との読み情報変換ルールLを特定すると、他言語認識対象語情報Kから抽出した単語の読み情報を、当該読み情報変換ルールLに従って設定言語の読み情報へ変換する(ステップST202a)。
次に、音声認識制御部24dは、他言語認識対象語情報Kの表記情報を参照して、他言語認識対象語情報Kの中に当該他言語に特有な特殊文字表記を有する単語が含まれているか否かを判定する(ステップST501)。ここで、特殊文字表記を有する単語が含まれている場合(ステップST501;YES)、音声認識制御部24dは、当該特殊文字を含む他言語認識対象語情報Pを表記変換部29へ出力する(ステップST502)。
表記変換部29は、他言語認識対象語情報Pから抽出された当該特殊文字の表記情報をキーとして表記変換データベース記憶部30を参照して、当該特殊文字の表記情報と設定言語の表記情報との対応関係を示す表記変換ルールQを特定し、表記変換データベース記憶部30から読み出した当該表記変換ルールQに基づいて当該特殊文字の表記情報を設定言語の表記情報へ変換する(ステップST503)。この後、表記変換部29は、表記変換後の他言語認識対象語情報Rを読み情報生成部27bへ出力する(ステップST504)。
図16は、特殊文字の表記情報を設定言語の表記情報へ変換する処理を説明するための図であり、設定言語が英語、認識対象語彙に含まれる他言語がドイツ語である場合を示している。ドイツ語(他言語)の単語の表記が図16で符号Bを付した表記である場合、図14に示した表記変換ルールQに従ってドイツ語での表記情報Aから英語の表記情報“STRASSE”に変換される。
続いて、音声認識制御部24dは、他言語認識対象語情報Kから上記特殊文字を含まない他言語認識対象語情報Sを取得して読み情報生成部27bへ出力する(ステップST201b)。
読み情報生成部27bは、表記変換部29による表記変換後の他言語認識対象語情報R及び音声認識制御部24dから入力された特殊文字を含まない他言語認識対象語情報Sの単語をキーとして、読み情報生成データベース記憶部28bを参照し、設定言語と他言語との読み情報生成ルールNを特定すると、他言語認識対象語情報R及び他言語認識対象語情報Sから抽出した当該単語の表記情報を参照して、当該読み情報生成ルールNに基づいて設定言語の読み情報を生成する(ステップST202b)。
なお、表記変換後の他言語認識対象語情報Rは、他言語に特有な特殊文字の表記情報が設定言語の表記情報に変換されている。この場合、読み情報生成部27bは、読み情報生成ルールNにおける設定言語の表記情報と読み情報との対応関係に基づいて、読み情報を生成する。例えば、図16に示す例の場合、ドイツ語での表記情報Aから英語の表記情報“STRASSE”に変換したので、英語の表記情報と読み情報との対応関係を示す読み情報生成ルールNから、英語の表記情報“STRASSE”に対応する読み情報が生成される。
一方、認識対象語彙に他言語の単語が含まれない場合(ステップST105;NO)、ステップST203の処理へ移行して、ステップST201aからステップST202aまでの処理、ステップST501からステップST504までの処理、及びステップST201bからステップST202bまでの処理は実行されない。
また、特殊文字の表記を有する単語が含まれない場合(ステップST501;NO)、ステップST201bの処理へ移行して、ステップST502からステップST504までの処理は実行されない。
ステップST203において、音声認識部23cは、ステップST104で選択された認識対象語情報Gを音声認識制御部24dから取得するとともに、読み情報変換部27aによる読み変換後の認識対象語情報M、及び、読み情報生成部27bによる読み生成後の認識対象語情報Oをそれぞれ取得する。
次に、音声認識部23cは、マイク4から入力されたユーザからの音声信号Hを取得すると(ステップST110)、音声認識エンジンCを実行して認識対象語情報Gを参照し、上記参考文献1の第5章に示す方法で、ユーザがどの単語を発話したかを音声認識する(ステップST111)。
音声認識部23cは、認識対象語彙が設定言語と異なる言語(他言語)の単語を含む場合であっても、設定言語に対応する音声認識エンジンCを実行して、設定言語の読み情報に変換した後の認識対象語情報M及び設定言語の読み情報を生成した後の認識対象語情報Oを用いて、認識処理を行う。
認識処理を完了すると、音声認識部23cは、当該処理の認識結果情報Iを表示制御部26に出力する(ステップST112)。表示制御部26では、認識結果情報Iに含まれる表記情報Jを認識結果としてモニタ5を通じてユーザに提示し(ステップST113)、システムは処理を終了する(ステップST114)。
以上のように、この実施の形態5によれば、図2に示す構成に加え、単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報の対応関係、及び同一言語における表記情報と読み情報との対応関係を示す読み情報生成ルールNが登録された読み情報生成データベースと、読み情報生成ルールNに基づいて単語の表記情報から読み情報を生成する読み情報生成部27bと、複数の言語間における一方の言語に特有な特殊文字の表記情報と他方の言語の表記情報との対応関係を示す表記変換ルールQが登録された表記変換データベースと、表記変換ルールQに基づいて言語間で単語の表記情報を変換する表記変換部29とを備え、音声認識制御部24dが、音声認識部23cで参照する認識対象語彙の中に、設定言語と異なる他言語であり、かつ当該他言語に特有な特殊文字の表記情報を有する単語が含まれていた場合、表記変換部29によって、当該特殊文字の表記情報から設定言語の表記情報へ変換させ、読み情報生成部27bによって、読み情報生成ルールNにおける設定言語の表記情報と読み情報との対応関係に基づいて、表記変換部29による変換後の単語の表記情報から設定言語の読み情報を生成させて、音声認識部23cが、当該読み情報の生成後の単語を参照する音声認識を行うように制御する。
このように、設定言語と異なる他言語の単語であり、かつ当該他言語に特有な特殊文字の表記情報を設定言語の表記情報に変換し、変換後の表記情報を含む単語の表記情報と読み情報の両方から、設定言語に対応した2種類の読み情報を生成することで、ユーザは、設定言語と異なる上記他言語(認識対象国)の発音に近い発音又は設定言語の発音に近い発音のどちらを発話しても音声認識が可能となる。また、これらの読み情報は、リアルタイムな処理で生成することができるため、設定言語と異なる上記他言語の単語に対応する設定言語での読み情報を音声認識辞書に予め格納しておく必要がないという利点がある。
例えば、実施の形態5を車載ナビゲーション装置の音声認識装置に適用し、当該車両が設定言語を母国語としないA国を走行し、A国の“地名”を音声認識する場合において、当該地名がA国の言語に特有な表記であると、ユーザが、その読みを知らなければ、当該地名を発話できない。この場合、実施の形態5では、音声認識制御部24dが、音声認識辞書から当該地名の認識対象語彙の認識対象語情報を取得して表記変換部29へ出力し、表記変換部29が、表記変換ルールQに基づいて当該地名のA国での表記情報から設定言語の表記情報へ変換する。この変換後の設定言語の表記情報から、読み情報生成部27bが、設定言語の読み情報を生成する。これにより、ユーザは、A国の当該地名について設定言語の発音で発話することで、当該地名を音声認識することができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る音声認識装置は、大容量の記憶手段が不要であり、かつリアルタイムな処理で複数の言語に対応した音声認識が可能であるので、複数の言語の地名を認識する必要がある車載用のナビゲーションシステムにおける音声認識装置に好適である。

Claims (5)

  1. 認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを用い、音声認識辞書に予め登録された所定の認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、現在入力されている入力音声を音声認識する音声認識部と、
    単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールが登録された読み情報変換データベースと、
    前記読み情報変換データベースの読み情報変換ルールに基づいて、言語間で単語の読み情報を変換する読み情報変換部と、
    前記音声認識部で認識対象語情報を参照する認識対象語彙の中に、前記設定言語と異なる言語である他言語の単語が含まれていた場合、前記読み情報変換部によって、前記他言語の読み情報を前記設定言語の読み情報へ変換させ、前記音声認識部が、現在入力されている前記入力音声の変換された前記設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照した音声認識を行うよう制御する制御部
    とを備えた音声認識装置。
  2. 認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを用い、音声認識辞書に予め登録された所定の認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、現在入力されている入力音声を音声認識する音声認識部と、
    単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報の対応関係を示す読み情報生成ルールが登録された読み情報生成データベースと、
    前記読み情報生成データベースの読み情報生成ルールに基づいて、単語の一方の言語での表記情報から他方の言語での読み情報を生成する読み情報生成部と、
    前記音声認識部で認識対象語情報を参照する認識対象語彙の中に、前記設定言語と異なる言語である他言語の単語が含まれていた場合、前記読み情報生成部によって、前記他言語の表記情報から前記設定言語の読み情報を生成させ、前記音声認識部が、現在入力されている前記入力音声から生成された前記設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照した音声認識を行うよう制御する制御部
    とを備えた音声認識装置。
  3. 単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールが登録された読み情報変換データベースと、
    前記読み情報変換データベースの読み情報変換ルールに基づいて、言語間で単語の読み情報を変換する読み情報変換部とを備え、
    前記制御部は、
    前記音声認識部で参照する認識対象語彙の中に、前記他言語の単語が含まれていた場合、前記読み情報変換部によって、当該単語の他言語の読み情報を、前記設定言語の読み情報へ変換させ、前記音声認識部が、現在入力されている前記入力音声の変換された前記設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照した音声認識を行うよう制御する
    ことを特徴とする請求項2記載の音声認識装置。
  4. 単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報の対応関係、及び同一言語における表記情報と読み情報との対応関係を示す読み情報生成ルールが登録された読み情報生成データベースと、
    前記読み情報生成データベースの読み情報生成ルールに基づいて、単語の表記情報から読み情報を生成する読み情報生成部と、
    複数の言語間における一方の言語に特有な特殊文字の表記情報と他方の言語の表記情報との対応関係を示す表記変換ルールが登録された表記変換データベースと、
    前記表記変換データベースの表記変換ルールに基づいて、言語間で単語の表記情報を変換する表記変換部とを備え、
    前記制御部は、
    前記音声認識部で参照する認識対象語彙の中に、前記他言語の単語であり、かつ他言語に特有な特殊文字の表記情報を有する単語が含まれていた場合、前記表記変換部によって、当該特殊文字の表記情報から、前記設定言語の表記情報へ変換させ、前記読み情報生成部によって、前記読み情報生成ルールにおける前記設定言語の表記情報と読み情報との対応関係に基づいて、前記表記変換部による変換後の前記設定言語の表記情報から、前記設定言語の読み情報を生成させて、前記音声認識部が、現在入力されている前記入力音声から生成された前記設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照する音声認識を行うよう制御する
    ことを特徴とする請求項1記載の音声認識装置。
  5. 複数の言語にそれぞれ対応した複数の音声認識エンジンを記憶する記憶部と、
    前記記憶部に記憶された前記複数の音声認識エンジンの中から、認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを選定する選定部と、
    前記選定部に選定された音声認識エンジンを用い、音声認識辞書に登録された認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、入力音声を音声認識する音声認識部と、
    前記音声認識部で参照する認識対象語彙の中に、前記設定言語と異なる言語である他言語の単語が含まれていた場合、前記記憶部に記憶された前記複数の音声認識エンジンの中から前記設定言語に対応する音声認識エンジンおよび前記他言語に対応する音声認識エンジンを前記選定部に一時的に選定させ、前記設定言語に対応する音声認識エンジンおよび前記他言語の音声認識エンジンを用いて、前記音声認識部が、前記他言語の認識対象語情報を参照した音声認識を行うよう制御する制御部とを備えた音声認識装置。
JP2012536034A 2010-10-01 2010-10-01 音声認識装置 Expired - Fee Related JP5259020B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/005918 WO2012042578A1 (ja) 2010-10-01 2010-10-01 音声認識装置

Publications (2)

Publication Number Publication Date
JP5259020B2 true JP5259020B2 (ja) 2013-08-07
JPWO2012042578A1 JPWO2012042578A1 (ja) 2014-02-03

Family

ID=45892084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012536034A Expired - Fee Related JP5259020B2 (ja) 2010-10-01 2010-10-01 音声認識装置

Country Status (5)

Country Link
US (1) US9239829B2 (ja)
JP (1) JP5259020B2 (ja)
CN (1) CN103038816B (ja)
DE (1) DE112010005918B4 (ja)
WO (1) WO2012042578A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015164116A1 (en) * 2014-04-25 2015-10-29 Nuance Communications, Inc Learning language models from scratch based on crowd-sourced user text input
US9672818B2 (en) 2013-04-18 2017-06-06 Nuance Communications, Inc. Updating population language models based on changes made by user clusters

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868431B2 (en) * 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device
DE112013007103T5 (de) * 2013-05-21 2016-03-03 Mitsubishi Electric Corporation Spracherkennungssystem, Erkennungsergebnis-Anzeigevorrichtung und Anzeigeverfahren
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
DE102014210716A1 (de) * 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
US9632748B2 (en) * 2014-06-24 2017-04-25 Google Inc. Device designation for audio input monitoring
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10360914B2 (en) * 2017-01-26 2019-07-23 Essence, Inc Speech recognition based on context and multiple recognition engines
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN108711420B (zh) * 2017-04-10 2021-07-09 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109712607B (zh) * 2018-12-30 2021-12-24 联想(北京)有限公司 一种处理方法、装置及电子设备
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
KR20210081103A (ko) * 2019-12-23 2021-07-01 엘지전자 주식회사 복수의 언어를 포함하는 음성을 인식하는 인공 지능 장치 및 그 방법
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111599234A (zh) * 2020-05-19 2020-08-28 黑龙江工业学院 一种基于声音识别的英语口语朗读自动评分系统
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004053825A (ja) * 2002-07-18 2004-02-19 Yamaha Corp 言語識別装置、言語識別方法および言語識別プログラム
JP2004271895A (ja) * 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム
JP2005044075A (ja) * 2003-07-25 2005-02-17 Sharp Corp 情報処理装置、情報処理方法、情報処理プログラム、およびその情報処理プログラムを記憶したコンピュータ読取可能な記録媒体
JP2005332089A (ja) * 2004-05-18 2005-12-02 Osaka Industrial Promotion Organization 処理方法、通信システム、処理装置及びコンピュータプログラム
JP2009037633A (ja) * 2002-10-22 2009-02-19 Nokia Corp 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1134726A1 (de) * 2000-03-15 2001-09-19 Siemens Aktiengesellschaft Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem
JP2002073082A (ja) 2000-08-28 2002-03-12 Hitachi Ulsi Systems Co Ltd 音声認識方法と電子装置
US7143033B2 (en) * 2002-04-03 2006-11-28 The United States Of America As Represented By The Secretary Of The Navy Automatic multi-language phonetic transcribing system
US7124082B2 (en) * 2002-10-11 2006-10-17 Twisted Innovations Phonetic speech-to-text-to-speech system and method
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
JP2004170466A (ja) 2002-11-15 2004-06-17 Toshihisa Tsukada 音声認識方法と電子装置
TWI224771B (en) * 2003-04-10 2004-12-01 Delta Electronics Inc Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
JP2005031150A (ja) 2003-07-07 2005-02-03 Canon Inc 音声処理装置および方法
CN101034498A (zh) * 2006-03-07 2007-09-12 刘青松 语言环境转换方法、系统及装置
US8457946B2 (en) 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
US8290775B2 (en) * 2007-06-29 2012-10-16 Microsoft Corporation Pronunciation correction of text-to-speech systems between different spoken languages
JP2009175630A (ja) 2008-01-28 2009-08-06 Sharp Corp 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
EP2192575B1 (en) * 2008-11-27 2014-04-30 Nuance Communications, Inc. Speech recognition based on a multilingual acoustic model
US8868431B2 (en) 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004053825A (ja) * 2002-07-18 2004-02-19 Yamaha Corp 言語識別装置、言語識別方法および言語識別プログラム
JP2009037633A (ja) * 2002-10-22 2009-02-19 Nokia Corp 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定
JP2004271895A (ja) * 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム
JP2005044075A (ja) * 2003-07-25 2005-02-17 Sharp Corp 情報処理装置、情報処理方法、情報処理プログラム、およびその情報処理プログラムを記憶したコンピュータ読取可能な記録媒体
JP2005332089A (ja) * 2004-05-18 2005-12-02 Osaka Industrial Promotion Organization 処理方法、通信システム、処理装置及びコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672818B2 (en) 2013-04-18 2017-06-06 Nuance Communications, Inc. Updating population language models based on changes made by user clusters
WO2015164116A1 (en) * 2014-04-25 2015-10-29 Nuance Communications, Inc Learning language models from scratch based on crowd-sourced user text input

Also Published As

Publication number Publication date
CN103038816A (zh) 2013-04-10
DE112010005918B4 (de) 2016-12-22
CN103038816B (zh) 2015-02-25
DE112010005918T5 (de) 2013-07-18
US9239829B2 (en) 2016-01-19
WO2012042578A1 (ja) 2012-04-05
US20130080146A1 (en) 2013-03-28
JPWO2012042578A1 (ja) 2014-02-03

Similar Documents

Publication Publication Date Title
JP5259020B2 (ja) 音声認識装置
JP3822990B2 (ja) 翻訳装置、記録媒体
US20170199867A1 (en) Dialogue control system and dialogue control method
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
CN108431883B (zh) 语言学习系统以及语言学习程序
GB2557714A (en) Determining phonetic relationships
US20170372695A1 (en) Information providing system
JP2011504624A (ja) 自動同時通訳システム
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP2005249829A (ja) 音声認識を行うコンピュータネットワークシステム
JP5998298B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP2005031150A (ja) 音声処理装置および方法
JP2017187797A (ja) テキスト生成装置、方法、及びプログラム
CN112802447A (zh) 一种语音合成播报方法及装置
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JP3870722B2 (ja) 翻訳装置、記録媒体
KR102107445B1 (ko) 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
JP5246512B2 (ja) 音声読み上げシステム、および音声読み上げ端末
JP2003228393A (ja) 音声対話装置及び方法、音声対話プログラム並びにその記録媒体
JP2003288098A (ja) ディクテーション装置、方法及びプログラム
KR20190030970A (ko) 음성-텍스트 변환 장치

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160502

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5259020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees