JP5259020B2

JP5259020B2 - 音声認識装置

Info

Publication number: JP5259020B2
Application number: JP2012536034A
Authority: JP
Inventors: 陽一加藤; 純石井; 博紀坂下
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-10-01
Filing date: 2010-10-01
Publication date: 2013-08-07
Anticipated expiration: 2030-10-01
Also published as: DE112010005918T5; CN103038816B; US20130080146A1; US9239829B2; CN103038816A; JPWO2012042578A1; WO2012042578A1; DE112010005918B4

Description

この発明は、複数の言語に対応した音声認識を行う音声認識装置に関するものである。

特許文献１に記載される従来の音声認識装置は、当該装置が位置する現在地点の情報に応じた音声認識データベースを選択的に用いることで、高精度な音声認識を実現するものである。例えば、現在地点が関西地方であった場合には、関西弁の音響及び言語モデルを選択し、これを用いて音声認識を行う。また、現在地点が駅であった場合には、例えば、旅行関連の単語を多く含んだ認識辞書を選択し、これを用いて音声認識を行う。
特許文献２には、複数言語に対応した音声認識システムにおいて、複数言語専用の認識辞書を用意し、その辞書に、ある言語の発音情報とともに、当該言語の表記又は発音表記から別の言語の発音情報を生成して登録しておくシステムが開示されている。この認識辞書を参照することによって複数言語の認識が可能である。

特開２００９−１７５６３０号公報特開２００４−２７１８９５号公報

しかしながら、特許文献１に代表される従来の音声認識装置では、高精度の音声認識を実現するためには、多くの音響モデル及び認識辞書をシステムに格納しておかなければならず、大容量の記憶手段が必要である。また、特許文献１は複数の言語の音声認識に対応していない。
一方、特許文献２に代表される従来の音声認識装置は、複数言語に対応しているが、音声認識前に別の言語の発音情報を予め生成して格納しておく必要があり、予め発音情報を用意してない言語については音声認識できないという課題がある。

この発明は、上記のような課題を解決するためになされたもので、大容量の記憶手段が不要であり、かつリアルタイムな処理で複数の言語に対応した音声認識をすることができる音声認識装置を得ることを目的とする。

この発明に係る音声認識装置は、認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを用い、音声認識辞書に予め登録された所定の認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、現在入力されている入力音声を音声認識する音声認識部と、単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールが登録された読み情報変換データベースと、読み情報変換データベースの読み情報変換ルールに基づいて、言語間で単語の読み情報を変換する読み情報変換部と、音声認識部で認識対象語情報を参照する認識対象語彙の中に、設定言語と異なる言語である他言語の単語が含まれていた場合、読み情報変換部によって、他言語の読み情報を設定言語の読み情報へ変換させ、音声認識部が、現在入力されている前記入力音声の変換された設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照した音声認識を行うよう制御する制御部とを備える。

この発明によれば、大容量の記憶手段が不要であり、かつリアルタイムな処理で複数の言語に対応した音声認識を行うことができるという効果がある。

この発明の実施の形態１による音声認識装置の構成を示すブロック図である。音声認識辞書の一例を示す図である。実施の形態１の音声認識装置による動作の流れを示すフローチャートである。この発明の実施の形態２による音声認識装置の構成を示すブロック図である。読み情報変換データベースの一例を示す図である。実施の形態２の音声認識装置による動作の流れを示すフローチャートである。設定言語と異なる言語の単語の読み情報を設定言語の読み情報へ変換する処理を説明するための図である。この発明の実施の形態３による音声認識装置の構成を示すブロック図である。読み情報変換データベースの一例を示す図である。実施の形態３の音声認識装置による動作の流れを示すフローチャートである。この発明の実施の形態４による音声認識装置の構成を示すブロック図である。実施の形態４の音声認識装置による動作の流れを示すフローチャートである。この発明の実施の形態５による音声認識装置の構成を示すブロック図である。表記変換データベースの一例を示す図である。実施の形態５の音声認識装置による動作の流れを示すフローチャートである。特殊文字の表記情報を設定言語の表記情報へ変換する処理を説明するための図である。

以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１による音声認識装置の構成を示すブロック図である。実施の形態１における音声認識装置は、音声認識の対象として設定した設定言語と異なる言語（以下、他言語と適宜記載する）の単語が認識対象語彙に含まれている場合に、当該他言語の音声認識エンジンを一時的に起動して音声認識する。また、その構成として、図１に示すように、認識言語設定部１、音声認識処理部２、発話ボタン３、マイク４、及びモニタ５を備える。

認識言語設定部１は、ユーザが認識対象の言語を設定する構成部であり、例えば、モニタ５や入力装置等の装置外部とのインタフェースとなり得るハードウェアを用いた言語設定用のマンマシンインタフェースを提供する。ユーザが認識対象の言語を設定すると、当該言語を示す設定言語情報Ａが、認識言語設定部１から、認識エンジン選定部２１及び音声認識制御部２４へ通知される。

発話ボタン３は、ユーザの発話開始を音声認識装置へ通知するボタンであり、ユーザに押下されると、発話開始を示す発話開始通知Ｄを音声認識制御部２４へ出力する。また、発話ボタン３は、モニタ５の画面上に表示するソフトウェアボタン又はモニタ５の画面枠周辺に設けたハードウェアボタン等で実現される。

マイク４は、ユーザが発話した音声を電気信号の音声信号Ｈに変換して音声認識部２３へ送信する構成部である。モニタ５は、表示制御部２６によって表示処理が制御されて、音声認識処理部２で得られた情報を画面上に表示する表示装置である。例えば、認識した語の表記情報Ｊをモニタ５の画面上に表示することで、ユーザに認識結果が提示される。

音声認識処理部２は、ユーザが発話した音声を認識して、認識結果をユーザに提示する構成部であり、認識エンジン選定部２１、音声認識エンジン記憶部２２、音声認識部２３、音声認識制御部２４、音声認識辞書記憶部２５及び表示制御部２６を備える。
認識エンジン選定部（選定部）２１は、認識言語設定部１から通知された設定言語情報Ａに基づいて、音声認識エンジン記憶部２２に記憶される全ての音声認識エンジン（音声認識エンジンＢ）の中から、設定言語の音声認識エンジンを選定し、他言語情報Ｆが通知されている場合、他言語情報Ｆが示す言語の音声認識エンジンを選定する構成部である。認識エンジン選定部２１によって選定された音声認識エンジンは、音声認識処理の際に実行される音声認識エンジンＣとして音声認識部２３に設定される。

音声認識辞書記憶部２５は、認識対象語彙の表記、読み及び言語を示す認識対象語情報（認識対象語情報Ｅ）が登録された音声認識辞書を記憶する記憶部である。
音声認識エンジン記憶部（記憶部）２２は、複数の言語のそれぞれに対応した音声認識エンジンを記憶する記憶部である。なお、音声認識エンジンとは、認識対象語彙の認識対象語情報を参照してユーザが発話した音声の認識処理を行い、認識結果を示す認識結果情報Ｉ（認識した語のテキストデータ等）を出力するためのプログラムモジュールである。

音声認識部２３は、認識エンジン選定部２１に設定された音声認識エンジンＣを実行することで、後述のように音声認識制御部２４に選択された認識対象語情報Ｇを参照して、ユーザからマイク４を通じて入力された音声信号Ｈの認識処理を行う構成部である。音声認識部２３の認識結果情報Ｉは、表示制御部２６へ送信される。表示制御部２６は、音声認識部２３の認識結果情報Ｉを入力し、認識語彙の表記情報Ｊとしてモニタ５へ出力する構成部である。モニタ５は、認識語彙の表記情報Ｊを画面上に表示する。

音声認識制御部（制御部）２４は、発話開始通知Ｄが入力されると、音声認識辞書記憶部２５に記憶されている音声認識辞書の認識対象語情報Ｅを参照し、認識対象語情報Ｅの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Ｇを選定して音声認識部２３へ出力する構成部である。また、音声認識制御部２４は、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると判断した場合、設定言語と異なる当該言語を示す他言語情報Ｆを認識エンジン選定部２１へ出力する。このようにして、音声認識制御部２４は、音声認識部２３が、設定言語と異なる言語に対応する音声認識エンジンを用いて、当該設定言語と異なる言語の認識対象語彙を参照した音声認識を行うよう制御する。

図２は、音声認識辞書の一例を示す図である。図２に示すように、音声認識辞書記憶部２５が記憶する音声認識辞書には、認識対象語の表記、読み、言語が登録される。なお、実施の形態１では、図２のように、複数の言語（ＵＫＥｎｇｌｉｓｈ、Ｇｅｒｍａｎ、Ｊａｐａｎｅｓｅ）の単語の認識対象語情報Ｅが一緒に登録された音声認識辞書を用いている。

なお、認識エンジン選定部２１、音声認識エンジン記憶部２２、音声認識部２３、音声認識制御部２４、音声認識辞書記憶部２５及び表示制御部２６は、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。

次に動作について説明する。
図３は、実施の形態１の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部２による処理の詳細を示している。
先ず、ユーザが、認識言語設定部１を用いて認識対象の言語を設定する。これにより、ユーザが設定した言語を示す設定言語情報Ａが、認識言語設定部１から認識エンジン選定部２１へ通知される。認識エンジン選定部２１は、音声認識エンジン記憶部２２に記憶される音声認識エンジンＢを参照し、音声認識エンジンＢの中から、設定言語情報Ａが示す言語の音声認識エンジンＣを選定する（ステップＳＴ１０１）。この後、認識エンジン選定部２１は、音声認識部２３に音声認識エンジンＣを設定する（ステップＳＴ１０２）。
例えば、ユーザがドイツ語を認識対象の言語として設定したい場合、認識言語設定部１が提供するマンマシンインタフェースを介してドイツ語を設定する。これにより、認識エンジン選定部２１は、認識言語設定部１からドイツ語を示す設定言語情報Ａが通知され、設定言語情報Ａに基づいて、音声認識エンジンＢの中から、ドイツ語に対応する音声認識エンジンを選定して音声認識部２３に設定する。

次に、音声認識制御部２４は、ユーザによって発話ボタン３が押下されたことによる発話開始通知Ｄの有無を判定する（ステップＳＴ１０３）。ここで、発話開始通知Ｄが無ければ（ステップＳＴ１０３；ＮＯ）、処理を終了する。
発話開始通知Ｄがある場合（ステップＳＴ１０３；ＹＥＳ）、音声認識制御部２４は、音声認識辞書記憶部２５に記憶された音声認識辞書の認識対象語情報Ｅを参照して、認識対象語情報Ｅの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Ｇを選定して取得する（ステップＳＴ１０４）。
なお、認識対象語彙の選定基準としては、例えば、直前の認識結果が挙げられる。
つまり、音声認識制御部２４が、音声認識部２３から取得した認識結果情報Ｉを基に、今回の認識処理で使用する認識対象語彙の認識対象語情報を認識対象語情報Ｅから選定する。“地名”を音声認識する場合で説明すると、直前の音声認識処理の認識結果情報Ｉから“ＧｒｅａｔＢｒｉｔａｉｎ”という国名が認識されていた場合に、音声認識制御部２４は、認識対象語情報Ｅの中から“ＧｒｅａｔＢｒｉｔａｉｎ”に属する地名の全ての語彙の認識対象語情報を取得する。
このように、音声認識制御部２４は、認識対象語彙に含まれる単語の言語が設定言語であるか否かを問わず、音声認識場面で使用される可能性が高い語彙を選定する基準に従って、認識対象語情報Ｅの中から、認識処理で使用する全ての認識対象語彙を選定し、これらの認識対象語情報（認識対象語情報Ｇ）を取得する。

次に、音声認識制御部２４は、認識対象語情報Ｇに含まれる言語情報（例えば、図２に示したＵＫＥｎｇｌｉｓｈ，Ｇｅｒｍａｎ等）を参照して、認識対象語情報Ｇの語彙の中に、設定言語情報Ａと異なる言語情報（他言語）の単語が存在するか否かを判定する（ステップＳＴ１０５）。ここで、他言語の単語が含まれている場合（ステップＳＴ１０５；ＹＥＳ）、音声認識制御部２４は、上記言語情報に基づいて、他言語としてどの言語の単語が含まれているかを示す他言語情報Ｆを認識エンジン選定部２１へ通知する（ステップＳＴ１０６）。

認識エンジン選定部２１は、音声認識制御部２４から通知された他言語情報Ｆを基に、音声認識エンジン記憶部２２に記憶される音声認識エンジンＢを参照して、音声認識エンジンＢの中から、他言語情報Ｆが示す言語の音声認識エンジンを選定し（ステップＳＴ１０７）、当該音声認識エンジンについても、音声認識エンジンＣとして音声認識部２３に設定する（ステップＳＴ１０８）。
例えば、英語が設定言語であり、認識対象語彙にドイツ語の単語が含まれている場合、ドイツ語の音声認識エンジンを選択して設定する。
なお、認識対象語彙にドイツ語とフランス語等、複数の他言語の単語が含まれている場合は、これらの言語に対応する複数の音声認識エンジンを選定して音声認識部２３に設定してもよい。

一方、他言語の単語が含まれない場合（ステップＳＴ１０５；ＮＯ）、ステップＳＴ１０９の処理へ移行して、ステップＳＴ１０６からステップＳＴ１０８までの処理は実行されない。

ステップＳＴ１０９において、音声認識部２３は、ステップＳＴ１０４で選択された認識対象語情報Ｇを音声認識制御部２４から取得する。
この後、音声認識部２３は、マイク４から入力されたユーザからの音声信号Ｈを取得すると（ステップＳＴ１１０）、音声認識エンジンＣを実行して、認識対象語情報Ｇを参照し、下記の参考文献１の第５章に示す方法で、ユーザがどの単語を発話したかを音声認識する（ステップＳＴ１１１）。
（参考文献１）古井貞煕著、“音声情報処理”、森北出版、１９９８

認識対象語彙が設定言語の単語と設定言語と異なる言語（他言語）の単語を含む場合には、他言語に対応する音声認識エンジンＣを一時的に起動し、一つの音声発話を同時に複数言語の音声認識エンジンＣに入力して認識処理（参考文献１に示す認識処理）を行い、言語エンジン毎の認識結果を取得する。全言語分の認識結果をスコア（認識結果の確からしさを表す）が高い順に並べ、最終的な認識結果とする。なお、認識対象語彙が他言語の単語だけである場合は、音声認識部２３は、設定言語に対応する音声認識エンジンＣの実行を停止し、他言語に対応する音声認識エンジンＣを一時的に起動して、当該他言語の認識対象語彙で認識処理を行う。
認識処理を完了すると、音声認識部２３は、当該処理の認識結果情報Ｉを表示制御部２６に出力する（ステップＳＴ１１２）。表示制御部２６では、認識結果情報Ｉに含まれる表記情報Ｊを認識結果としてモニタ５を通じてユーザに提示し（ステップＳＴ１１３）、システムは処理を終了する（ステップＳＴ１１４）。

以上のように、この実施の形態１によれば、複数の言語にそれぞれ対応した複数の音声認識エンジンを記憶する音声認識エンジン記憶部２２と、音声認識エンジン記憶部２２に記憶された複数の音声認識エンジンの中から設定言語に対応する音声認識エンジンを選定する認識エンジン選定部２１と、認識エンジン選定部２１に選定された音声認識エンジンを用い、音声認識辞書に登録された認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、入力音声を音声認識する音声認識部２３と、音声認識部２３で参照する認識対象語彙の中に、設定言語と異なる言語（他言語）の単語が含まれていた場合、音声認識エンジン記憶部２２に記憶された複数の音声認識エンジンの中から他言語に対応する音声認識エンジンを、認識エンジン選定部２１に選定させ、当該音声認識エンジンを用いて、音声認識部２３が、上記他言語の単語を参照する音声認識を行うよう制御する音声認識制御部２４とを備える。
このように、予め設定された言語と異なる言語の単語がある場合、当該言語に対応する音声認識エンジンを一時的に起動して音声認識することで、大容量の記憶手段が不要であり、かつリアルタイムな処理で複数の言語に対応した音声認識を行うことが可能となる。

実施の形態２．
実施の形態２では、設定言語と異なる言語（他言語）の単語が音声認識辞書に含まれている場合、当該単語の他言語で付与されている当該単語の読み情報から設定言語の読み情報へ変換を行い、変換後の読み情報を用いて当該単語を設定言語の音声認識エンジンで認識する。

図４は、この発明の実施の形態２による音声認識装置の構成を示すブロック図である。図４において、認識言語設定部１、発話ボタン３、マイク４、及びモニタ５については、上記実施の形態１で説明した図１の構成と同様である。実施の形態２の音声認識処理部２Ａは、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識部２３ａ、音声認識制御部２４ａ、音声認識辞書記憶部２５、表示制御部２６、読み情報変換部２７ａ及び読み情報変換データベース記憶部２８ａを備える。
なお、音声認識処理部２Ａにおいて、音声認識エンジン記憶部２２、音声認識辞書記憶部２５、及び表示制御部２６は、上記実施の形態１で説明した図１の構成と同様である。

認識エンジン選定部（選定部）２１ａは、認識言語設定部１から通知された設定言語情報Ａに基づいて、音声認識エンジン記憶部２２に記憶される全ての音声認識エンジン（音声認識エンジンＢ）の中から、設定言語の音声認識エンジンＣを選定する構成部である。
音声認識制御部２４ａは、発話開始通知Ｄが入力されると、音声認識辞書記憶部２５に記憶される音声認識辞書の認識対象語情報Ｅの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Ｇを選定して音声認識部２３ａへ出力する構成部である。
また、音声認識制御部２４ａは、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると、認識対象語情報Ｅの中から当該他言語の単語の認識対象語情報を選定し、他言語認識対象語情報Ｋとして読み情報変換部２７ａへ出力する。このようにして、音声認識制御部２４ａは、音声認識部２３ａが、読み情報変換部２７ａによって読み情報が変換された後の認識対象語彙を参照した音声認識を行うよう制御する。

読み情報変換データベース記憶部２８ａは、読み情報変換データベースを記憶する記憶部である。読み情報変換データベースには、語彙の複数の言語間の読み情報の対応関係を示す読み情報変換ルールＬが格納される。
読み情報変換部２７ａは、音声認識制御部２４ａから入力された他言語認識対象語情報Ｋに含まれる当該他言語の単語の読み情報を、読み情報変換データベース記憶部２８ａから読み出した読み情報変換ルールＬに従って設定言語の読み情報へ変換する構成部である。設定言語の読み情報に変換後の認識対象語情報は、読み変換後の認識対象語情報Ｍとして音声認識部２３ａへ出力される。

図５は、読み情報変換データベースの一例を示す図であり、英語の読みから日本語の読みへの読み情報変換ルールＬを示している。例えば、設定言語が日本語であり、認識対象語彙に英語の“ＥＮＥＲＧＹ”が含まれていた場合には、図５の読み情報変換ルールＬに従って、単語“ＥＮＥＲＧＹ”の読みが日本語の読み“ｅｎａｊｉｉ”に変換される。
音声認識部２３ａは、認識エンジン選定部２１ａが選定した音声認識エンジンＣを実行することで、音声認識制御部２４ａが選択した認識対象語情報Ｇ及び読み情報変換部２７ａによる読み情報変換後の認識対象語情報Ｍを参照して、ユーザからマイク４を通じて入力された音声信号Ｈの音声認識処理を行う構成部である。音声認識部２３ａによる認識処理の結果として得られた認識結果情報Ｉは、音声認識部２３ａから表示制御部２６へ送信される。

なお、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識部２３ａ、音声認識制御部２４ａ、音声認識辞書記憶部２５、表示制御部２６、読み情報変換部２７ａ及び読み情報変換データベース記憶部２８ａは、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。

次に動作について説明する。
図６は、実施の形態２の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部２Ａによる処理の詳細を示している。図６において、ステップＳＴ１０１からステップＳＴ１０５までの処理は、上記実施の形態１で説明した図３の処理内容と同様である。

認識対象語彙に他言語の単語が含まれている場合（ステップＳＴ１０５；ＹＥＳ）、音声認識制御部２４ａは、音声認識辞書記憶部２５に記憶される音声認識辞書の認識対象語情報Ｅを参照して当該他言語認識対象語情報Ｋを取得し読み情報変換部２７ａへ出力する（ステップＳＴ２０１ａ）。
読み情報変換部２７ａは、音声認識制御部２４ａから入力された他言語認識対象語情報Ｋの単語をキーとして読み情報変換データベース記憶部２８ａを参照して、設定言語と他言語との読み情報変換ルールＬを特定すると、他言語認識対象語情報Ｋから抽出した認識対象語の読み情報を、当該読み情報変換ルールＬに従って設定言語の読み情報へ変換する（ステップＳＴ２０２ａ）。

図７は、設定言語と異なる言語の単語の読み情報を設定言語の読み情報へ変換する処理を説明するための図であり、設定言語が日本語、認識対象語彙が英語の“ＥＮＥＲＧＹ”である場合を示している。英語（他言語）の単語“ＥＮＥＲＧＹ”の読みが、図７で符号Ａを付した読みである場合、図５に示した読み情報変換ルールＬに従って、英語での読み情報Ａから、日本語の読み情報“ｅｎａｊｉｉ”に変換される。

一方、認識対象語彙に他言語の単語が含まれない場合（ステップＳＴ１０５；ＮＯ）、ステップＳＴ２０３ａの処理へ移行し、ステップＳＴ２０１ａからステップＳＴ２０２ａまでの処理は実行されない。

ステップＳＴ２０３ａにおいて、音声認識部２３ａは、ステップＳＴ１０４で選択された認識対象語情報Ｇを音声認識制御部２４ａから取得するとともに、読み情報変換部２７ａによる読み変換後の認識対象語情報Ｍを取得する。
次に、音声認識部２３ａは、マイク４から入力されたユーザからの音声信号Ｈを取得すると（ステップＳＴ１１０）、音声認識エンジンＣを実行して認識対象語情報Ｇと認識対象語情報Ｍを参照し、上記参考文献１の第５章に示す方法で、ユーザがどの単語を発話したかを音声認識する（ステップＳＴ１１１）。

音声認識部２３ａは、認識対象語彙が設定言語と異なる言語（他言語）の単語を含む場合であっても、設定言語に対応する音声認識エンジンＣを実行し、設定言語の読み情報に変換後の認識対象語情報Ｍを参照して認識処理を行う。
認識処理を完了すると、音声認識部２３ａは、当該処理の認識結果情報Ｉを表示制御部２６に出力する（ステップＳＴ１１２）。表示制御部２６では、認識結果情報Ｉに含まれる表記情報Ｊを認識結果としてモニタ５を通じてユーザに提示し（ステップＳＴ１１３）、システムは処理を終了する（ステップＳＴ１１４）。

以上のように、この実施の形態２によれば、認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを用い、音声認識辞書に登録された認識対象語を参照して、入力音声を音声認識する音声認識部２３ａと、単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールＬが登録された読み情報変換データベースと、読み情報変換データベースの読み情報変換ルールＬに基づいて、言語間で単語の読み情報を変換する読み情報変換部２７ａと、音声認識部２３ａで認識対象語情報Ｅを参照する認識対象語彙の中に、予め設定された言語と異なる言語である他言語の単語が含まれていた場合、読み情報変換部２７ａによって、他言語の読み情報を設定言語の読み情報へ変換させ、音声認識部２３ａが、変換された設定言語の読み情報を含む当該単語の認識対象語情報を参照した音声認識を行うように制御する音声認識制御部２４ａとを備える。
このように、設定言語と異なる他言語の単語の読み情報から、当該設定言語の読み情報を生成することで、設定言語を切り替えることなく、他言語の単語を認識することが可能となる。この場合、ユーザが、設定言語と異なる上記他言語の発音に近い発音で当該単語を発話することで音声認識が可能である。また、この読み情報は、リアルタイムな処理で生成することができるため、当該他言語の単語に対応する設定言語の読み情報を音声認識辞書に予め格納しておく必要がないという利点がある。

実施の形態３．
実施の形態３では、設定言語と異なる言語（他言語）の単語が音声認識辞書に含まれている場合、当該単語の他言語の単語の表記情報から設定言語の読み情報を生成し、生成した読み情報を用いて当該単語を設定言語の音声認識エンジンで認識する。

図８は、この発明の実施の形態３による音声認識装置の構成を示すブロック図である。図８において、認識言語設定部１、発話ボタン３、マイク４、及びモニタ５については、上記実施の形態１で説明した図１の構成と同様である。実施の形態３の音声認識処理部２Ｂは、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識部２３ｂ、音声認識制御部２４ｂ、音声認識辞書記憶部２５、表示制御部２６、読み情報生成部２７ｂ、及び読み情報生成データベース記憶部２８ｂを備える。
なお、音声認識処理部２Ｂにおいて、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識辞書記憶部２５及び表示制御部２６は、上記実施の形態１で説明した図１及び上記実施の形態２で説明した図４の構成と同様である。

音声認識制御部２４ｂは、発話開始通知Ｄが入力されると、音声認識辞書記憶部２５に記憶される音声認識辞書の認識対象語情報Ｅの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Ｇを選定して音声認識部２３ｂへ出力する構成部である。
また、音声認識制御部２４ｂは、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると、認識対象語情報Ｅの中から当該他言語の単語の認識対象語情報を選定し、他言語認識対象語情報Ｋとして読み情報生成部２７ｂへ出力する。このようにして、音声認識制御部２４ｂは、音声認識部２３ｂが、読み情報生成部２７ｂによって読み情報が生成された後の当該単語の認識対象語情報を参照した音声認識を行うよう制御する。

読み情報生成データベース記憶部２８ｂは、読み情報生成データベースを記憶する記憶部である。読み情報生成データベースには、語彙の複数の言語間における一方の言語での表記情報と他方の言語での読み情報との対応関係を示す読み情報生成ルールＮが格納される。
読み情報生成部２７ｂは、音声認識制御部２４ｂから入力された他言語認識対象語情報Ｋに含まれる、当該他言語の単語の表記情報を参照して、読み情報生成データベース記憶部２８ｂから読み出した読み情報生成ルールＮに基づいて、当該単語の設定言語の読み情報を生成する構成部である。設定言語の読み情報を生成した後の認識対象語情報は、読み生成後の認識対象語情報Ｏとして音声認識部２３ｂへ出力される。

図９は、読み情報変換データベースの一例を示す図であり、英語の表記情報と対応する日本語の読み情報とが登録された読み情報生成ルールＮを示している。例えば、設定言語が日本語であり、認識対象語彙に英語の“ＥＮＥＲＧＹ”が含まれていた場合には、図９の読み情報生成ルールＮに従って、表記情報“ＥＮＥＲＧＹ”から日本語の読み“ｅｎｅｒｕｇｉｉ”が生成される。こうすることにより、日本語の「エネルギー」と英語の“ＥＮＥＲＧＹ”をともに認識対象語彙に含ませる必要がなくなる。
音声認識部２３ｂは、認識エンジン選定部２１ａが選定した音声認識エンジンＣを実行することで、音声認識制御部２４ｂが選択した認識対象語情報Ｇ及び読み情報生成部２７ｂによる読み生成後の認識対象語情報Ｏを参照して、ユーザからマイク４を通じて入力された音声信号Ｈの音声認識処理を行う構成部である。音声認識部２３ｂによる認識処理の結果として得られた認識結果情報Ｉは、音声認識部２３ｂから表示制御部２６へ送信される。

なお、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識部２３ｂ、音声認識制御部２４ｂ、音声認識辞書記憶部２５、表示制御部２６、読み情報生成部２７ｂ及び読み情報生成データベース記憶部２８ｂは、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。

次に動作について説明する。
図１０は、実施の形態３の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部２Ｂによる処理の詳細を示している。図１０において、ステップＳＴ１０１からステップＳＴ１０５までの処理は、上記実施の形態１で説明した図３の処理内容と同様である。

認識対象語彙に他言語の単語が含まれている場合（ステップＳＴ１０５；ＹＥＳ）、音声認識制御部２４ｂは、音声認識辞書記憶部２５に記憶される音声認識辞書の認識対象語情報Ｅを参照して当該他言語の単語の他言語認識対象語情報Ｋを取得し、読み情報生成部２７ｂへ出力する（ステップＳＴ２０１ｂ）。
読み情報生成部２７ｂは、音声認識制御部２４ｂから入力された他言語認識対象語情報Ｋの単語をキーとして読み情報生成データベース記憶部２８ｂを参照して、設定言語と他言語との読み情報生成ルールＮを特定すると、他言語認識対象語情報Ｋから抽出した単語の表記情報を参照して、当該読み情報生成ルールＮに基づいて設定言語の読み情報を生成する（ステップＳＴ２０２ｂ）。
例えば、設定言語が日本語、他言語の単語が英語の“ＥＮＥＲＧＹ”である場合、図９に示した読み情報生成ルールＮを用いることで、英語（他言語）の単語“ＥＮＥＲＧＹ”の表記情報から、日本語の読み情報“ｅｎｅｒｕｇｉｉ”が生成される。

一方、認識対象語彙に他言語の単語が含まれない場合（ステップＳＴ１０５；ＮＯ）、ステップＳＴ２０３ｂの処理へ移行し、ステップＳＴ２０１ｂからステップＳＴ２０２ｂまでの処理は実行されない。

ステップＳＴ２０３ｂにおいて、音声認識部２３ｂは、ステップＳＴ１０４で選択された認識対象語情報Ｇを音声認識制御部２４ｂから取得するとともに、読み情報生成部２７ｂによる読み生成後の認識対象語情報Ｏを取得する。
次に、音声認識部２３ｂは、マイク４から入力されたユーザからの音声信号Ｈを取得すると（ステップＳＴ１１０）、音声認識エンジンＣを実行して認識対象語情報Ｇと認識対象語情報Ｏを参照し、上記参考文献１の第５章に示す方法で、ユーザがどの単語を発話したかを音声認識する（ステップＳＴ１１１）。

音声認識部２３ｂは、認識対象語彙が設定言語と異なる言語（他言語）の単語を含む場合であっても、設定言語に対応する音声認識エンジンＣを実行して、設定言語の読み情報を生成した後の認識対象語情報Ｏを参照して認識処理を行う。
認識処理を完了すると、音声認識部２３ｂは、当該処理の認識結果情報Ｉを表示制御部２６に出力する（ステップＳＴ１１２）。表示制御部２６では、認識結果情報Ｉに含まれる表記情報Ｊを認識結果としてモニタ５を通じてユーザに提示し（ステップＳＴ１１３）、システムは処理を終了する（ステップＳＴ１１４）。

以上のように、この実施の形態３によれば、設定言語に対応する音声認識エンジンを用い、音声認識辞書に登録された認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、入力音声を音声認識する音声認識部２３ｂと、語彙の複数の言語間における一方の言語での表記情報と他方の言語での読み情報の対応関係を示す読み情報生成ルールＮが登録された読み情報生成データベースと、読み情報生成ルールＮに基づいて、語彙の一方の言語での表記情報から他方の言語での読み情報を生成する読み情報生成部２７ｂと、音声認識部２３ｂで認識対象語情報Ｅを参照する認識対象語彙の中に、設定言語と異なる他言語の単語が含まれていた場合、読み情報生成部２７ｂによって、当該他言語の表記情報から設定言語の読み情報を生成させ、音声認識部２３ｂが、当該読み情報の生成後の当該単語の認識対象語情報を参照する音声認識を行うよう制御する音声認識制御部２４ｂとを備える。
このように、設定言語と異なる他言語の単語の表記情報から設定言語に対応した読み情報を生成することで、設定言語を切り替えることなく、他言語の単語を音声認識することができる。この場合、ユーザが、設定言語の発音に近い発音で当該単語を発話することで音声認識が可能である。また、この読み情報は、リアルタイムな処理で生成することができるため、当該他言語の単語に対応する設定言語の読み情報を音声認識辞書に予め格納しておく必要がないという利点がある。

実施の形態４．
実施の形態４では、設定言語と異なる言語（他言語）の単語が音声認識辞書に含まれている場合、当該単語の他言語で付与されている読み情報と表記情報との双方から、設定言語の読み情報を生成し、生成した読み情報を用いて当該単語を設定言語の音声認識エンジンで認識する。

図１１は、この発明の実施の形態４による音声認識装置の構成を示すブロック図である。図１１において、認識言語設定部１、発話ボタン３、マイク４、及びモニタ５については、上記実施の形態１で説明した図１の構成と同様である。実施の形態４の音声認識処理部２Ｃは、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識部２３ｃ、音声認識制御部２４ｃ、音声認識辞書記憶部２５、表示制御部２６、読み情報変換部２７ａ、読み情報生成部２７ｂ、読み情報変換データベース記憶部２８ａ及び読み情報生成データベース記憶部２８ｂを備える。
なお、音声認識処理部２Ｃにおいて、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識辞書記憶部２５及び表示制御部２６は、上記実施の形態１で説明した図１及び上記実施の形態２で説明した図４の構成と同様である。

音声認識制御部２４ｃは、発話開始通知Ｄが入力されると、音声認識辞書記憶部２５に記憶される音声認識辞書の認識対象語情報Ｅの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Ｇを選定して音声認識部２３ｃへ出力する構成部である。
また、音声認識制御部２４ｃは、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると、認識対象語情報Ｅの中から当該他言語の単語の認識対象語情報を選定し、他言語認識対象語情報Ｋとして読み情報変換部２７ａ及び読み情報生成部２７ｂへそれぞれ出力する。このようにして、音声認識制御部２４ｃは、音声認識部２３ｃが、読み情報変換部２７ａによって読み情報が変換された後の認識対象語及び読み情報生成部２７ｂによって読み情報が生成された後の認識対象語彙を参照した音声認識を行うよう制御する。

読み情報変換部２７ａは、音声認識制御部２４ｃから入力された他言語認識対象語情報Ｋに含まれる、当該他言語の単語の読み情報を、読み情報変換データベース記憶部２８ａから読み出した読み情報変換ルールＬに従って設定言語の読み情報へ変換する構成部である。設定言語の読み情報に変換後の認識対象語情報は、読み変換後の認識対象語情報Ｍとして音声認識部２３ｃへ出力される。
読み情報変換データベース記憶部２８ａは、例えば、図５に示したような読み情報変換データベースを記憶する記憶部である。読み情報変換データベースには、単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールＬが格納される。

読み情報生成部２７ｂは、音声認識制御部２４ｃから入力された他言語認識対象語情報Ｋに含まれる、当該他言語の単語の表記情報を参照して、読み情報生成データベース記憶部２８ｂから読み出した読み情報生成ルールＮに基づいて、当該単語の設定言語の読み情報を生成する構成部である。設定言語の読み情報を生成した後の認識対象語情報は、読み生成後の認識対象語情報Ｏとして音声認識部２３ｃへ出力される。
読み情報生成データベース記憶部２８ｂは、例えば、図９に示したような読み情報生成データベースを記憶する記憶部である。読み情報生成データベースには、単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報との対応関係を示す読み情報生成ルールＮが格納される。

音声認識部２３ｃは、認識エンジン選定部２１ａが選定した音声認識エンジンＣを実行することで、音声認識制御部２４ｃが選択した認識対象語情報Ｇ、読み情報変換部２７ａによる読み情報変換後の認識対象語情報Ｍ及び読み情報生成部２７ｂによる読み生成後の認識対象語情報Ｏを参照して、ユーザからマイク４を通じて入力された音声信号Ｈの音声認識処理を行う構成部である。音声認識部２３ｃによる認識処理の結果として得られた認識結果情報Ｉは、音声認識部２３ｃから表示制御部２６へ送信される。
なお、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識部２３ｃ、音声認識制御部２４ｃ、音声認識辞書記憶部２５、表示制御部２６、読み情報変換部２７ａ、読み情報生成部２７ｂ、読み情報変換データベース記憶部２８ａ、及び読み情報生成データベース記憶部２８ｂは、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。

次に動作について説明する。
図１２は、実施の形態４の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部２Ｃによる処理の詳細を示している。図１２において、ステップＳＴ１０１からステップＳＴ１０５までの処理は、上記実施の形態１で説明した図３の処理内容と同様である。

認識対象語彙に他言語の単語が含まれている場合（ステップＳＴ１０５；ＹＥＳ）、音声認識制御部２４ｃは、音声認識辞書記憶部２５に記憶される音声認識辞書の認識対象語情報Ｅを参照して当該他言語の単語の他言語認識対象語情報Ｋを取得し、読み情報変換部２７ａへ出力する（ステップＳＴ２０１ａ）。
読み情報変換部２７ａは、音声認識制御部２４ｃから入力された他言語認識対象語情報Ｋの単語をキーとして読み情報変換データベース記憶部２８ａを参照して、設定言語と他言語との読み情報変換ルールＬを特定すると、他言語認識対象語情報Ｋから抽出した認識対象語の読み情報を、当該読み情報変換ルールＬに従って設定言語の読み情報へ変換する（ステップＳＴ２０２ａ）。

続いて、音声認識制御部２４ｃは、音声認識辞書記憶部２５に記憶される音声認識辞書の認識対象語情報Ｅを参照して取得した当該他言語認識対象語情報Ｋを、読み情報生成部２７ｂへ出力する（ステップＳＴ２０１ｂ）。
読み情報生成部２７ｂは、音声認識制御部２４ｃから入力された他言語認識対象語情報Ｋの単語をキーとして読み情報生成データベース記憶部２８ｂを参照して、設定言語と他言語との読み情報生成ルールＮを特定すると、他言語認識対象語情報Ｋから抽出した認識対象語の表記情報を参照して、当該読み情報生成ルールＮに基づいて設定言語の読み情報を生成する（ステップＳＴ２０２ｂ）。

一方、認識対象語彙に他言語の単語が含まれない場合（ステップＳＴ１０５；ＮＯ）、ステップＳＴ２０３の処理へ移行して、ステップＳＴ２０１ａからステップＳＴ２０２ａまでの処理、及びステップＳＴ２０１ｂからステップＳＴ２０２ｂまでの処理は実行されない。

ステップＳＴ２０３において、音声認識部２３ｃは、ステップＳＴ１０４で選択された認識対象語情報Ｇを音声認識制御部２４ｃから取得するとともに、読み情報変換部２７ａによる読み変換後の認識対象語情報Ｍ、及び、読み情報生成部２７ｂによる読み生成後の認識対象語情報Ｏをそれぞれ取得する。
次に、音声認識部２３ｃは、マイク４から入力されたユーザからの音声信号Ｈを取得すると（ステップＳＴ１１０）、音声認識エンジンＣを実行して認識対象語情報Ｇ、認識対象語情報Ｍ及び認識対象語情報Ｏを参照し、上記参考文献１の第５章に示す方法で、ユーザがどの単語を発話したかを音声認識する（ステップＳＴ１１１）。

音声認識部２３ｃは、認識対象語彙が設定言語と異なる言語（他言語）の単語を含む場合であっても、設定言語に対応する音声認識エンジンＣを実行して、設定言語の読み情報に変換した後の認識対象語情報Ｍ及び設定言語の読み情報を生成した後の認識対象語情報Ｏを用いて、認識処理を行う。
認識処理を完了すると、音声認識部２３ｃは、当該処理の認識結果情報Ｉを表示制御部２６に出力する（ステップＳＴ１１２）。表示制御部２６では、認識結果情報Ｉに含まれる表記情報Ｊを認識結果としてモニタ５を通じてユーザに提示し（ステップＳＴ１１３）、システムは処理を終了する（ステップＳＴ１１４）。

以上のように、この実施の形態４によれば、読み情報変換ルールＬが登録された読み情報変換データベースと、読み情報変換ルールＬに基づいて言語間で単語の読み情報を変換する読み情報変換部２７ａと、読み情報生成ルールＮが登録された読み情報生成データベースと、読み情報生成ルールＮに基づいて単語の一方の言語での表記情報から他方の言語での読み情報を生成する読み情報生成部２７ｂを備え、音声認識制御部２４ｃが、音声認識部２３ｃで参照する認識対象語彙の中に、設定言語と異なる言語（他言語）の単語が含まれていた場合、読み情報生成部２７ａによって、当該他言語の表記情報から設定言語の読み情報を生成させるとともに、読み情報変換部２７ｂによって、他言語の読み情報を、設定言語の読み情報へ変換させ、音声認識部２３ｃが、生成された設定言語の読み情報を含む当該単語の認識対象語情報を参照した音声認識を行うよう制御する。
このように、設定言語と異なる他言語の単語の表記と読み情報の両方から、設定言語に対応した２種類の読み情報を生成することで、ユーザは、設定言語と異なる上記他言語の発音に近い発音又は設定言語の発音に近い発音のどちらを発話しても音声認識が可能となる。また、これらの読み情報は、リアルタイムな処理で生成することができるため、設定言語と異なる上記他言語の単語に対応する設定言語での読み情報を音声認識辞書に予め格納しておく必要がないという利点がある。

実施の形態５．
実施の形態５では、設定言語と異なる言語（他言語）の単語が認識対象語彙に含まれており、さらに、その単語に当該他言語に特有な特殊文字表記が含まれている場合に、その単語を設定言語の表記へ変換した後、その表記を基に設定言語の読み情報を生成し、その読み情報を用いて当該単語を設定言語の音声認識エンジンで認識する。

図１３は、この発明の実施の形態５による音声認識装置の構成を示すブロック図である。図１３において、認識言語設定部１、発話ボタン３、マイク４、及びモニタ５については、上記実施の形態１で説明した図１の構成と同様である。実施の形態５の音声認識処理部２Ｄは、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識部２３ｃ、音声認識制御部２４ｄ、音声認識辞書記憶部２５、表示制御部２６、読み情報変換部２７ａ、読み情報生成部２７ｂ、読み情報変換データベース記憶部２８ａ、読み情報生成データベース記憶部２８ｂ、表記変換部２９及び表記変換データベース記憶部３０を備える。なお、音声認識処理部２Ｄにおいて、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識辞書記憶部２５及び表示制御部２６は、上記実施の形態１で説明した図１及び上記実施の形態２で説明した図４の構成と同様である。また、音声認識部２３ｃは、上記実施の形態４で説明した図１１の構成と同様である。

音声認識制御部２４ｄは、発話開始通知Ｄが入力されると、音声認識辞書記憶部２５に記憶される音声認識辞書の認識対象語情報Ｅの中から、今回の認識処理で使用する認識対象語彙の認識対象語情報Ｇを選定して音声認識部２３ｃへ出力する構成部である。
また、音声認識制御部２４ｄは、今回の認識処理で使用する認識対象語彙の中に設定言語と異なる言語の単語が含まれていると、認識対象語情報Ｅの中から当該他言語の単語の認識対象語情報を選定し、他言語認識対象語情報Ｋとして読み情報変換部２７ａへ出力する。
さらに、音声認識制御部２４ｄは、認識対象語情報Ｅの中から選定した当該他言語の単語に含まれる表記情報に、当該他言語に特有な特殊文字表記が含まれている場合に、認識対象語情報Ｅの中から選定した他言語の単語の認識対象語情報のうち、当該特殊文字を含む認識対象語情報を、認識対象語情報Ｐとして表記変換部２９へ出力するとともに、当該特殊文字を含まない認識対象語情報を、認識対象語情報Ｓとして読み情報生成部２７ｂへ出力する。
このようにして、音声認識制御部２４ｄは、音声認識部２３ｃが、読み情報変換部２７ａによって読み情報が変換され、かつ読み情報生成部２７ｂによって読み情報が生成された他言語の単語の認識対象語情報を参照した音声認識を行うよう制御する。

読み情報変換部２７ａは、音声認識制御部２４ｄから入力された他言語認識対象語情報Ｋに含まれる、当該他言語の単語の読み情報を、読み情報変換データベース記憶部２８ａから読み出した読み情報変換ルールＬに従って設定言語の読み情報へ変換する構成部である。設定言語の読み情報に変換後の認識対象語情報は、読み変換後の認識対象語情報Ｍとして音声認識部２３ｃへ出力される。
読み情報変換データベース記憶部２８ａは、例えば、図５に示したような読み情報変換データベースを記憶する記憶部である。読み情報変換データベースには、単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールＬが格納される。

読み情報生成部２７ｂは、音声認識制御部２４ｄから入力された特殊文字を含まない他言語認識対象語情報Ｓ、及び、表記変換部２９による表記変換後の他言語の単語の認識対象語情報Ｒに含まれる、当該他言語の単語の表記情報を参照し、読み情報生成データベース記憶部２８ｂから読み出した読み情報生成ルールＮに基づいて、当該認識対象語の設定言語の読み情報を生成する構成部である。設定言語の読み情報を生成した後の認識対象語情報は、読み生成後の認識対象語情報Ｏとして音声認識部２３ｃへ出力される。

読み情報生成データベース記憶部２８ｂは、例えば、図９に示したような読み情報生成データベースを記憶する記憶部である。読み情報生成データベースには、上記実施の形態３，４と異なり、単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報との対応関係に加えて、同一の言語における表記情報と読み情報との対応関係を含む読み情報生成ルールＮが格納される。

表記変換部２９は、音声認識制御部２４ｄから入力された特殊文字を含む他言語認識対象語情報Ｐを参照して、表記変換データベース記憶部３０から読み出した表記変換ルールＱに基づいて、他言語に特有な特殊文字の表記情報を、設定言語の表記情報に変換する構成部である。表記変換部２９による表記変換後の他言語認識対象語情報は、他言語認識対象語情報Ｒとして読み情報生成部２７ｂへ出力される。
表記変換データベース記憶部３０は、表記変換データベースを記憶する記憶部である。表記変換データベースには、複数の言語間における一方の言語に特有な特殊文字の表記情報と他方の言語の表記情報との対応関係を示す表記変換ルールＱが格納される。

図１４は、表記変換データベースの一例を示す図であり、ドイツ語に特有な特殊文字の表記情報と対応する英語の表記情報とが登録された表記変換ルールＱを示している。例えば、ドイツ語（他言語）の単語にウムラウトの文字表記が含まれていた場合には、図１４の表記変換ルールＱに従って、対応する英語の表記情報に変換される。なお、図１４では、英語での発音が適切になるような英語の表記を示している。変換後の言語は、英語やアルファベットで表記する言語に限らず、その言語用の変換ルールを作成すれば、日本語や中国語など任意の言語でもよい。

なお、認識エンジン選定部２１ａ、音声認識エンジン記憶部２２、音声認識部２３ｃ、音声認識制御部２４ｄ、音声認識辞書記憶部２５、表示制御部２６、読み情報変換部２７ａ、読み情報生成部２７ｂ、読み情報変換データベース記憶部２８ａ、読み情報生成データベース記憶部２８ｂ、表記変換部２９及び表記変換データベース記憶部３０は、この発明の趣旨に従った音声認識用プログラムをコンピュータに実行させることで、ハードウェアとソフトウェアが協働した具体的な手段として当該コンピュータ上で実現することができる。

次に動作について説明する。
図１５は、実施の形態５の音声認識装置による動作の流れを示すフローチャートであり、特に、音声認識処理部２Ｃによる処理の詳細を示している。図１５において、ステップＳＴ１０１からステップＳＴ１０５までの処理は、上記実施の形態１で説明した図３の処理内容と同様である。

認識対象語彙に他言語の単語が含まれている場合（ステップＳＴ１０５；ＹＥＳ）、音声認識制御部２４ｄは、音声認識辞書記憶部２５に記憶される音声認識辞書の認識対象語情報Ｅを参照して当該他言語の単語の他言語認識対象語情報Ｋを取得し、読み情報変換部２７ａへ出力する（ステップＳＴ２０１ａ）。
読み情報変換部２７ａは、音声認識制御部２４ｄから入力された他言語認識対象語情報Ｋの単語をキーとして読み情報変換データベース記憶部２８ａを参照して、設定言語と他言語との読み情報変換ルールＬを特定すると、他言語認識対象語情報Ｋから抽出した単語の読み情報を、当該読み情報変換ルールＬに従って設定言語の読み情報へ変換する（ステップＳＴ２０２ａ）。

次に、音声認識制御部２４ｄは、他言語認識対象語情報Ｋの表記情報を参照して、他言語認識対象語情報Ｋの中に当該他言語に特有な特殊文字表記を有する単語が含まれているか否かを判定する（ステップＳＴ５０１）。ここで、特殊文字表記を有する単語が含まれている場合（ステップＳＴ５０１；ＹＥＳ）、音声認識制御部２４ｄは、当該特殊文字を含む他言語認識対象語情報Ｐを表記変換部２９へ出力する（ステップＳＴ５０２）。

表記変換部２９は、他言語認識対象語情報Ｐから抽出された当該特殊文字の表記情報をキーとして表記変換データベース記憶部３０を参照して、当該特殊文字の表記情報と設定言語の表記情報との対応関係を示す表記変換ルールＱを特定し、表記変換データベース記憶部３０から読み出した当該表記変換ルールＱに基づいて当該特殊文字の表記情報を設定言語の表記情報へ変換する（ステップＳＴ５０３）。この後、表記変換部２９は、表記変換後の他言語認識対象語情報Ｒを読み情報生成部２７ｂへ出力する（ステップＳＴ５０４）。

図１６は、特殊文字の表記情報を設定言語の表記情報へ変換する処理を説明するための図であり、設定言語が英語、認識対象語彙に含まれる他言語がドイツ語である場合を示している。ドイツ語（他言語）の単語の表記が図１６で符号Ｂを付した表記である場合、図１４に示した表記変換ルールＱに従ってドイツ語での表記情報Ａから英語の表記情報“ＳＴＲＡＳＳＥ”に変換される。

続いて、音声認識制御部２４ｄは、他言語認識対象語情報Ｋから上記特殊文字を含まない他言語認識対象語情報Ｓを取得して読み情報生成部２７ｂへ出力する（ステップＳＴ２０１ｂ）。

読み情報生成部２７ｂは、表記変換部２９による表記変換後の他言語認識対象語情報Ｒ及び音声認識制御部２４ｄから入力された特殊文字を含まない他言語認識対象語情報Ｓの単語をキーとして、読み情報生成データベース記憶部２８ｂを参照し、設定言語と他言語との読み情報生成ルールＮを特定すると、他言語認識対象語情報Ｒ及び他言語認識対象語情報Ｓから抽出した当該単語の表記情報を参照して、当該読み情報生成ルールＮに基づいて設定言語の読み情報を生成する（ステップＳＴ２０２ｂ）。

なお、表記変換後の他言語認識対象語情報Ｒは、他言語に特有な特殊文字の表記情報が設定言語の表記情報に変換されている。この場合、読み情報生成部２７ｂは、読み情報生成ルールＮにおける設定言語の表記情報と読み情報との対応関係に基づいて、読み情報を生成する。例えば、図１６に示す例の場合、ドイツ語での表記情報Ａから英語の表記情報“ＳＴＲＡＳＳＥ”に変換したので、英語の表記情報と読み情報との対応関係を示す読み情報生成ルールＮから、英語の表記情報“ＳＴＲＡＳＳＥ”に対応する読み情報が生成される。

一方、認識対象語彙に他言語の単語が含まれない場合（ステップＳＴ１０５；ＮＯ）、ステップＳＴ２０３の処理へ移行して、ステップＳＴ２０１ａからステップＳＴ２０２ａまでの処理、ステップＳＴ５０１からステップＳＴ５０４までの処理、及びステップＳＴ２０１ｂからステップＳＴ２０２ｂまでの処理は実行されない。
また、特殊文字の表記を有する単語が含まれない場合（ステップＳＴ５０１；ＮＯ）、ステップＳＴ２０１ｂの処理へ移行して、ステップＳＴ５０２からステップＳＴ５０４までの処理は実行されない。

ステップＳＴ２０３において、音声認識部２３ｃは、ステップＳＴ１０４で選択された認識対象語情報Ｇを音声認識制御部２４ｄから取得するとともに、読み情報変換部２７ａによる読み変換後の認識対象語情報Ｍ、及び、読み情報生成部２７ｂによる読み生成後の認識対象語情報Ｏをそれぞれ取得する。
次に、音声認識部２３ｃは、マイク４から入力されたユーザからの音声信号Ｈを取得すると（ステップＳＴ１１０）、音声認識エンジンＣを実行して認識対象語情報Ｇを参照し、上記参考文献１の第５章に示す方法で、ユーザがどの単語を発話したかを音声認識する（ステップＳＴ１１１）。

以上のように、この実施の形態５によれば、図２に示す構成に加え、単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報の対応関係、及び同一言語における表記情報と読み情報との対応関係を示す読み情報生成ルールＮが登録された読み情報生成データベースと、読み情報生成ルールＮに基づいて単語の表記情報から読み情報を生成する読み情報生成部２７ｂと、複数の言語間における一方の言語に特有な特殊文字の表記情報と他方の言語の表記情報との対応関係を示す表記変換ルールＱが登録された表記変換データベースと、表記変換ルールＱに基づいて言語間で単語の表記情報を変換する表記変換部２９とを備え、音声認識制御部２４ｄが、音声認識部２３ｃで参照する認識対象語彙の中に、設定言語と異なる他言語であり、かつ当該他言語に特有な特殊文字の表記情報を有する単語が含まれていた場合、表記変換部２９によって、当該特殊文字の表記情報から設定言語の表記情報へ変換させ、読み情報生成部２７ｂによって、読み情報生成ルールＮにおける設定言語の表記情報と読み情報との対応関係に基づいて、表記変換部２９による変換後の単語の表記情報から設定言語の読み情報を生成させて、音声認識部２３ｃが、当該読み情報の生成後の単語を参照する音声認識を行うように制御する。
このように、設定言語と異なる他言語の単語であり、かつ当該他言語に特有な特殊文字の表記情報を設定言語の表記情報に変換し、変換後の表記情報を含む単語の表記情報と読み情報の両方から、設定言語に対応した２種類の読み情報を生成することで、ユーザは、設定言語と異なる上記他言語（認識対象国）の発音に近い発音又は設定言語の発音に近い発音のどちらを発話しても音声認識が可能となる。また、これらの読み情報は、リアルタイムな処理で生成することができるため、設定言語と異なる上記他言語の単語に対応する設定言語での読み情報を音声認識辞書に予め格納しておく必要がないという利点がある。

例えば、実施の形態５を車載ナビゲーション装置の音声認識装置に適用し、当該車両が設定言語を母国語としないＡ国を走行し、Ａ国の“地名”を音声認識する場合において、当該地名がＡ国の言語に特有な表記であると、ユーザが、その読みを知らなければ、当該地名を発話できない。この場合、実施の形態５では、音声認識制御部２４ｄが、音声認識辞書から当該地名の認識対象語彙の認識対象語情報を取得して表記変換部２９へ出力し、表記変換部２９が、表記変換ルールＱに基づいて当該地名のＡ国での表記情報から設定言語の表記情報へ変換する。この変換後の設定言語の表記情報から、読み情報生成部２７ｂが、設定言語の読み情報を生成する。これにより、ユーザは、Ａ国の当該地名について設定言語の発音で発話することで、当該地名を音声認識することができる。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明に係る音声認識装置は、大容量の記憶手段が不要であり、かつリアルタイムな処理で複数の言語に対応した音声認識が可能であるので、複数の言語の地名を認識する必要がある車載用のナビゲーションシステムにおける音声認識装置に好適である。

Claims

認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを用い、音声認識辞書に予め登録された所定の認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、現在入力されている入力音声を音声認識する音声認識部と、
単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールが登録された読み情報変換データベースと、
前記読み情報変換データベースの読み情報変換ルールに基づいて、言語間で単語の読み情報を変換する読み情報変換部と、
前記音声認識部で認識対象語情報を参照する認識対象語彙の中に、前記設定言語と異なる言語である他言語の単語が含まれていた場合、前記読み情報変換部によって、前記他言語の読み情報を前記設定言語の読み情報へ変換させ、前記音声認識部が、現在入力されている前記入力音声の変換された前記設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照した音声認識を行うよう制御する制御部
とを備えた音声認識装置。
認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを用い、音声認識辞書に予め登録された所定の認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、現在入力されている入力音声を音声認識する音声認識部と、
単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報の対応関係を示す読み情報生成ルールが登録された読み情報生成データベースと、
前記読み情報生成データベースの読み情報生成ルールに基づいて、単語の一方の言語での表記情報から他方の言語での読み情報を生成する読み情報生成部と、
前記音声認識部で認識対象語情報を参照する認識対象語彙の中に、前記設定言語と異なる言語である他言語の単語が含まれていた場合、前記読み情報生成部によって、前記他言語の表記情報から前記設定言語の読み情報を生成させ、前記音声認識部が、現在入力されている前記入力音声から生成された前記設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照した音声認識を行うよう制御する制御部
とを備えた音声認識装置。
単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールが登録された読み情報変換データベースと、
前記読み情報変換データベースの読み情報変換ルールに基づいて、言語間で単語の読み情報を変換する読み情報変換部とを備え、
前記制御部は、
前記音声認識部で参照する認識対象語彙の中に、前記他言語の単語が含まれていた場合、前記読み情報変換部によって、当該単語の他言語の読み情報を、前記設定言語の読み情報へ変換させ、前記音声認識部が、現在入力されている前記入力音声の変換された前記設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照した音声認識を行うよう制御する
ことを特徴とする請求項２記載の音声認識装置。
単語の複数の言語間における一方の言語での表記情報と他方の言語での読み情報の対応関係、及び同一言語における表記情報と読み情報との対応関係を示す読み情報生成ルールが登録された読み情報生成データベースと、
前記読み情報生成データベースの読み情報生成ルールに基づいて、単語の表記情報から読み情報を生成する読み情報生成部と、
複数の言語間における一方の言語に特有な特殊文字の表記情報と他方の言語の表記情報との対応関係を示す表記変換ルールが登録された表記変換データベースと、
前記表記変換データベースの表記変換ルールに基づいて、言語間で単語の表記情報を変換する表記変換部とを備え、
前記制御部は、
前記音声認識部で参照する認識対象語彙の中に、前記他言語の単語であり、かつ他言語に特有な特殊文字の表記情報を有する単語が含まれていた場合、前記表記変換部によって、当該特殊文字の表記情報から、前記設定言語の表記情報へ変換させ、前記読み情報生成部によって、前記読み情報生成ルールにおける前記設定言語の表記情報と読み情報との対応関係に基づいて、前記表記変換部による変換後の前記設定言語の表記情報から、前記設定言語の読み情報を生成させて、前記音声認識部が、現在入力されている前記入力音声から生成された前記設定言語の読み情報および前記音声認識辞書に予め登録された前記所定の認識対象語彙の前記認識対象語情報を参照する音声認識を行うよう制御する
ことを特徴とする請求項１記載の音声認識装置。
複数の言語にそれぞれ対応した複数の音声認識エンジンを記憶する記憶部と、
前記記憶部に記憶された前記複数の音声認識エンジンの中から、認識対象として予め設定された言語である設定言語に対応する音声認識エンジンを選定する選定部と、
前記選定部に選定された音声認識エンジンを用い、音声認識辞書に登録された認識対象語彙に含まれる各認識対象語の表記情報と読み情報を有する認識対象語情報を参照して、入力音声を音声認識する音声認識部と、
前記音声認識部で参照する認識対象語彙の中に、前記設定言語と異なる言語である他言語の単語が含まれていた場合、前記記憶部に記憶された前記複数の音声認識エンジンの中から前記設定言語に対応する音声認識エンジンおよび前記他言語に対応する音声認識エンジンを前記選定部に一時的に選定させ、前記設定言語に対応する音声認識エンジンおよび前記他言語の音声認識エンジンを用いて、前記音声認識部が、前記他言語の認識対象語情報を参照した音声認識を行うよう制御する制御部とを備えた音声認識装置。