JP4550207B2

JP4550207B2 - 音声認識装置および音声認識ナビゲーション装置

Info

Publication number: JP4550207B2
Application number: JP2000053257A
Authority: JP
Inventors: 善一平山
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2000-02-29
Filing date: 2000-02-29
Publication date: 2010-09-22
Anticipated expiration: 2020-02-29
Also published as: JP2001242887A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識および音声認識ナビゲーション装置に関する。
【０００２】
【従来の技術】
自動車の現在地を表示し、地図の広域・詳細表示を行い、目的地までの進行方向および残距離を誘導する車載用ナビゲーション装置（以下、ナビゲーション装置と言う）が知られている。また、ナビゲーション装置の一機能として、運転中のドライバからの操作指示を音声で行い、ドライバの安全性を高めるいわゆる音声認識ナビゲーション装置も知られている（例えば特開平０９−２９２２５５号公報）。
【０００３】
音声認識ナビゲーション装置で使用する音声認識ソフトは、一般的に、発話スイッチ等を押し、その後、ユーザが発話した音データと認識辞書内の認識語との相関値を算出する。その結果、相関値が最大になった認識語を認識結果と判断する。
【０００４】
【発明が解決しようとする課題】
しかし、ユーザが同じ意味内容の言葉を発話しても、その言葉の一部の読みが微妙に異なったり、あるいは、他の読みであったりする場合には、誤認識とされると言う問題があった。
【０００５】
本発明は、ユーザが同じ意味内容の言葉を発話した場合に、その言葉の一部の読みが微妙に異なったり、あるいは、他の読みであったりしても、確実に音声認識を成功させることが可能な音声認識装置、音声認識ナビゲーション装置、およびそのための認識語生成方法を提供する。
【０００６】
【課題を解決するための手段】
請求項１の発明は、音声入力手段と、音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、音声入力手段により得られた音データと認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置に適用され、格納手段には、音声認識対象の種類を示すジャンルごとに、音声認識対象の言葉の一部に含まれる予め定めた所定の言葉の読みについてその所定の言葉の正規の読みとは異なる読みの読みデータが格納され、音声認識処理手段があるジャンルを指定して音声認識処理を行うときに、指定されたジャンルの読みデータを参照して、所定の言葉を一部に含む音声認識対象の言葉について、所定の言葉を正規の読みとは異なる読みにした新たな認識語を生成する生成手段をさらに備え、音声認識処理手段は、生成された新たな認識語を使用して音声認識処理を行うことを特徴とするものである。
請求項２の発明は、請求項１記載の音声認識装置において、所定の言葉は、複数の音声認識対象の言葉の一部に共通に含まれる言葉であり、所定の言葉の正規の読みと異なる読みは、その言葉の通常発音される読みであることを特徴とするものである。
請求項３の発明は、音声入力手段と、音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、音声入力手段により得られた音データと認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置に適用され、格納手段には、音声認識対象の言葉の一部に含まれる予め定めた所定の言葉に関するデータが格納され、所定の言葉に関するデータを参照して、所定の言葉を一部に含む音声認識対象の言葉について、所定の言葉の読みにおいてのみ、五十音のえ段の音節の後に「い」の音節が並ぶ場合、この「い」の音節を「え」の音節に置き換えた読みとした新たな認識語を生成する生成手段をさらに備えることを特徴とするものである。
請求項４の発明は、音声入力手段と、音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、音声入力手段により得られた音データと認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置に適用され、格納手段には、音声認識対象の言葉の一部に含まれる予め定めた所定の言葉に関するデータが格納され、所定の言葉に関するデータを参照して、所定の言葉を一部に含む音声認識対象の言葉について、所定の言葉の読みにおいてのみ五十音のお段の音節の後に「う」の音節が並ぶ場合、この「う」の音節を「お」の音節に置き換えた読みとした新たな認識語を生成する生成手段をさらに備えることを特徴とするものである。
請求項５の発明は、請求項３または４記載の音声認識装置において、生成手段は、五十音のえ段の音節の後に「い」の音節が並ぶ場合の「い」の音節または五十音のお段の音節の後に「う」の音節が並ぶ場合の「う」の音節を長音符号「ー」により置き換えることを特徴とするものである。
請求項６の発明は、請求項１または２記載の音声認識装置において、格納手段に、一つの音声認識対象の言葉に対して、所定の言葉の正規の読みを含む正規の認識語と新たな認識語とが共に格納されることを特徴とするものである。
請求項７の発明は、請求項１記載の音声認識装置において、新たな認識語は、所定の言葉を一部に含む音声認識対象の言葉から所定の言葉を削除して生成される認識語であることを特徴とするものである。
請求項８の発明は、請求項１記載の音声認識装置において、新たな認識語において、所定の言葉の正規の読みと異なる読みは、その言葉が漢字で表されるときその漢字の異なる読みであることを特徴とするものである。
請求項９の発明は、請求項１記載の音声認識装置において、新たな認識語において、所定の言葉の正規の読みと異なる読みは、その言葉が有する別称あるいは略称であることを特徴とするものである。
請求項１０の発明は、音声認識ナビゲーション装置に適用され、請求項１から９のいずれか１項記載の音声認識装置と、地図情報を格納する地図情報格納手段と、少なくとも音声認識装置の認識結果と地図情報とに基づき、道案内のための制御を行う制御手段とを備えることを特徴とするものである。
請求項１１の発明は、音声認識処理における、音声入力手段により得られた音データと比較する音声認識用データを生成するための音声認識対象の言葉の読みを表した認識語を生成する認識語生成方法に適用され、コンピュータは、一つの音声認識対象の言葉の一部に予め定めた所定の言葉を含む場合、所定の言葉の読みにおいてのみ、五十音のえ段の音節の後に「い」の音節が並ぶ場合、この「い」の音節を「え」の音節に置き換えた読みとした認識語を生成することを特徴とするものである。
請求項１２の発明は、音声認識処理における、音声入力手段により得られた音データと比較する音声認識用データを生成するための音声認識対象の言葉の読みを表した認識語を生成する認識語生成方法に適用され、コンピュータは、一つの音声認識対象の言葉の一部に予め定めた所定の言葉を含む場合、所定の言葉の読みにおいてのみ、五十音のお段の音節の後に「う」の音節が並ぶ場合、この「う」の音節を「お」の音節に置き換えた読みとした認識語を生成することを特徴とするものである。
【０００８】
【発明の実施の形態】
−第１の実施の形態−
図１は、本発明の車載用ナビゲーションシステムの第１の実施の形態の構成を示す図である。車載用ナビゲーションシステムは、ナビゲーション装置１００および音声ユニット２００により構成される。第１の実施の形態のナビゲーションシステムは、認識語の一部に所定の言葉が含まれる場合に、その所定の言葉の読みを最も音声認識に成功する読みに置き換えるようにし、確実に音声認識に成功させるようにしたものである。
【０００９】
ナビゲーション装置１００は、ＧＰＳ受信機１０１と、ジャイロセンサ１０２と、車速センサ１０３と、ドライバ１０４と、ＣＰＵ１０５と、ＲＡＭ１０６と、ＲＯＭ１０７と、ＣＤ−ＲＯＭドライブ１０８と、表示装置１０９と、バスライン１１０等から構成される。
【００１０】
音声ユニット２００は、マイク２０１と、Ａ／Ｄ変換部２０２と、Ｄ／Ａ変換部２０３と、アンプ２０４と、スピーカ２０５と、発話スイッチ２０６と、ドライバ２０７と、ＣＰＵ２０８と、ＲＡＭ２０９と、ＲＯＭ２１０と、バスライン２１２等から構成される。ナビゲーション装置１００と音声ユニット２００は、通信ライン２１１を介して接続される。
【００１１】
ＧＰＳ受信機１０１は、ＧＰＳ（Global Positioning System）衛星からの信号を受信し、自車の絶対位置、絶対方位を検出する。ジャイロセンサ１０２は、例えば振動ジャイロで構成され、車のヨー角速度を検出する。車速センサ１０３は、車が所定距離走行毎に出すパルス数に基づき、車の移動距離を検出する。ジャイロセンサ１０２と車速センサ１０３により、車の２次元的な移動が検出できる。ドライバ１０４は、ＧＰＳ受信機１０１、ジャイロセンサ１０２、車速センサ１０３からの信号をバスライン１１０に接続するためのドライバである。すなわち、それぞれのセンサ出力をＣＰＵ１０５が読むことができるデータに変換する。
【００１２】
ＣＰＵ１０５は、ＲＯＭ１０７に格納されたプログラムを実行することによりナビゲーション装置１００全体を制御する。ＲＡＭ１０６は揮発性メモリであり、ワークデータ領域を確保する。ＲＯＭ１０７は、不揮発性メモリで、上述した制御プログラム等を格納する。ＣＤ−ＲＯＭドライブ１０８は、ＣＤ−ＲＯＭを記録媒体とし、ベクトル道路データ等の道路地図情報を格納する。ＣＤ−ＲＯＭドライブは、ＤＶＤを記録媒体とするＤＶＤドライブやその他の記録装置であってもよい。表示装置１０９は、車の現在地および周辺の道路地図、目的地までのルート情報、次の誘導交差点情報等を表示する。例えば、液晶表示装置あるいはＣＲＴで構成される。バスライン１１０は、ナビゲーション装置１００のＣＰＵ１０５等の構成要素をバス接続するラインである。
【００１３】
音声ユニット２００は、音声認識、音声合成等、音声に関する処理を行う。発話スイッチ２０６は、ユーザが押すことにより音声認識の開始を指示するスイッチである。発話スイッチ２０６が押された後所定時間、音データの入力がマイク２０１を介して行われる。入力された音は、Ａ／Ｄ変換部２０２およびドライバ２０７により、デジタル音声データに変換される。
【００１４】
音声ユニット２００のＲＯＭ２１０には、音声認識ソフト（プログラム）、音声合成ソフト（プログラム）、音声認識辞書（以下、単に認識辞書と言う）、音声合成辞書（以下、単に合成辞書と言う）等が格納されている。音声認識ソフトは、デジタル音声データと、認識辞書内の全認識語との相関値を算出し、最も相関値の高い認識語を認識結果として求める。音声合成ソフトは、指定した文章をスピーカから発声させるためのデータを算出する。両ソフトウェアについては、公知な内容であるので詳細な説明は省略する。
【００１５】
認識辞書は、音声認識の対象となる言葉（語）を複数集めたひとかたまりのデータである。具体的には、ひらがなやカタカナやローマ字（実際にはその文字コード）で指定されたそれぞれの言葉の読みデータが格納されている。認識辞書に格納された言葉を認識語という。各認識語には、読みデータの他その言葉の表示文字データや、施設名であれば座標情報などの情報が付帯している。認識辞書の詳細については後述する。合成辞書は、音声合成のために必要な音源データ等が格納されている。
【００１６】
発話終了時、ＣＰＵ２０８は、ＲＡＭ２０９、ＲＯＭ２１０等を使い音声認識ソフトを実行し、デジタル音声データの音声認識を行う。音声認識ソフトは、認識辞書内の認識語の読みデータ（ひらがなやカタカナやローマ字で指定されたデータ）を参照しながらその言葉の音声認識用データを生成し、デジタル音声データとの相関値を算出する。すべての認識語についてデジタル音声データとの相関値を算出し、相関値が最も高くかつ所定の値以上の認識語を決定して音声認識を完了する。その認識語にリンクしたエコーバック語を音声合成ソフトを使い、発声用のデータに変換する。その後、Ｄ／Ａ変換部２０３、アンプ２０４、スピーカ２０５を用い、認識結果をエコーバック出力させる。
【００１７】
もし、算出したどの相関値も所定の値以下である場合は、音声認識できなかったとしてナビの操作を行わないようにする。具体的には、「プップー」等の認識失敗を意味するビープ音を鳴らすことや、「認識できません」と応答（エコーバック）させる。バスライン２１２は、音声ユニット２００のバスラインである。
【００１８】
次に、認識辞書について詳細に説明する。図２は、８件の病院名に関する認識語を格納した従来の病院名認識辞書を示す図である。認識語は、その施設名（図２では病院名）に関する読みデータである。図２では、「読み」はカタカナで記載されているが、ひらがなあるいはローマ字であってもよい。認識辞書には指定された文字に対応する文字コードが格納される。各認識語には、「表示用文字データ」および「付帯情報」がついている。表示用文字データは、表示装置１０９等でその施設名の表示すべき文字コードが格納される。図２の例では、「表示」の欄に示された施設名の漢字コードが格納される。付帯情報は、その施設の地図上の座標情報、次に読み込む認識辞書の番号、施設の諸属性情報等の各種の情報が格納されている。図２では、代表して座標情報のみを示している。
【００１９】
図３は、図２の従来の病院名認識辞書に対応する本発明を適用した病院名認識辞書を示す図である。図３の「表示」および「付帯情報」の内容は、図２の「表示」および「付帯情報」の内容と同じであり、「読み」のみが異なる。例えば「王子総合病院」を例に説明する。図２では、「王子総合病院」の読みは「オウジソウゴウビョウイン」となっているが、図３では「オウジソーゴービョーイン」となっている。すなわち「ソウゴウビョウイン」が「ソーゴービョーイン」に変更されている。次の「小樽病院国立療養所」の読みは、図２では「オタルビョウインコクリツリョウヨウショ」であるが、図３では「オタルビョウインコクリツリョーヨーショ」となっている。すなわち「コクリツリョウヨウショ」が「コクリツリョーヨーショ」に変更されている。
【００２０】
上記の「総合病院」の正規の読みは「ソウゴウビョウイン」である。ここで言う正規の読みとは、辞書などに書かれているその言葉の本来の読みである。しかし、実際に日常会話などで発音する読みは微妙に異なり、例えば長音符号「ー」を使用した「ソーゴービョーイン」の方がより実際の発音に近い読みと言える。
そこで、第１の実施の形態では、そのジャンルで良く出てくる言葉（キーワード）のより実際の発音に近い読みを前もって調査しておき、認識辞書の中にそのキーワードを含む言葉があった場合は、そのキーワードの読みをその実際の発音に近い読みに置き換えた認識語を準備するものである。
【００２１】
図３において置き換えているキーワードを列記すると図４（ａ）の通りである。なお、図４（ｂ）に示すような読みに置き換えてもよい。
【００２２】
図５は、図２の従来から使用されている正規の読みの認識語が格納された認識辞書３０１から図３の新たな認識辞書３０２をパーソナルコンピュータ（以下ＰＣと言う）３０３により生成する構成を示す図である。認識辞書３０１はＣＤ−ＲＯＭ等の記録媒体に格納され、認識辞書３０２はハードディスク（不図示）上に生成される。キーワード３０４は予め調査されてファイルとしてＰＣ３０３のハードディスクに格納されている。図６は、ＰＣ３０３で実行される処理のフローチャートを示す。キーワード３０４はキーボード（不図示）から入力するようにしてもよい。生成された認識辞書３０２はＲＯＭに書き込まれて図１の音声ユニット２００のＲＯＭ２１０に搭載される。
【００２３】
以下、図６の処理について説明する。ステップＳ１では、図２の正規の読みの認識語が格納された認識辞書ファイルから一つの認識語を読み込む。該当ジャンルで良く出てくる言葉（キーワード）のより実際の発音に近い読みは前もって調査され、予めパーソナルコンピュータに格納されている。ステップＳ２では、読み込んだ認識語に所定のキーワードが含まれているかどうか判断し、所定のキーワードが含まれていると判断するとステップＳ３に進む。ステップＳ３では、認識語のそのキーワードに該当する読みを前もって調査されたより実際の発音に近い読みに置き換える。一方、ステップＳ２でいずれのキーワードも含まれていないと判断するとステップＳ３をスキップしてステップＳ４に進む。ステップＳ４では、すべての認識語について処理が終了したかを判断し、まだ終了していない場合はステップＳ１に戻り処理を繰り返す。終了している場合は処理を終了する。
【００２４】
なお、ステップＳ３において、正規の読みの認識語はそのままにして、そのキーワードに該当する読みを前もって調査されたより実際の発音に近い読みに置き換えた新たな認識語を追加するようにしてもよい。これにより、正規の読みの認識語と新たな認識語の双方を使用して音声認識をすることが可能となる。
【００２５】
図７は、音声ユニット２００において、音声認識を行う制御のフローチャートを示す図である。制御プログラムはＲＯＭ２１０に格納され、ＣＰＵ２０８がその制御プログラムを実行する。ナビゲーション装置１００および音声ユニット２００の電源オンにより本ルーチンはスタートする。
【００２６】
本ルーチンでは、例えば、「施設ジャンル名」を音声入力し、次に「施設名」を音声入力して該当施設付近の地図を表示装置１０９に表示する場合を想定する。ステップＳ１１では、初期認識辞書を準備する。初期認識辞書には「病院」「警察署」「郵便局」などの施設ジャンル名に関する認識語が格納されている。ステップＳ１２では、発話スイッチ２０６が押されたかどうかを判断し、押されている場合はステップＳ１３へ進む。押されていない場合は本ステップを繰り返す。ユーザは発話スイッチ２０６を押した後、一定時間内に施設ジャンル名、例えば「病院」と発話する。ステップＳ１３では、マイク２０１からの音声信号をデジタル音声データに変換する。ステップＳ１４では、発話が終了したかどうかを判断する。発話の終了は、一定時間音声信号が途切れた場合を発話の終了と判断する。発話が終了したと判断した場合はステップＳ１５に進み、発話がまだ終了していないと判断した場合はステップＳ１３に戻る。
【００２７】
ステップＳ１５では、ステップＳ１３で取得したデジタル音声データとステップＳ１１で準備した初期認識辞書内の全認識語について相関値を算出し、ステップＳ１６に進む。ステップＳ１６では、算出された相関値のうち最も高い相関値が所定の値以上かどうかを判断する。所定の値以上であれば、その語が認識できたとしてステップＳ１７に進む。ステップＳ１７では、相関値の最も高かった認識語を「施設ジャンル名」として認識して該当ジャンルの施設名辞書を準備し、「施設名称をどうぞ」とエコーバック出力する。該当ジャンルが「病院」の場合は、図６のルーチンで予め生成された図３の病院名認識辞書を準備する。
【００２８】
一方、ステップＳ１６において、最も高い相関値が所定の値未満であれば発話された言葉が認識できなかったとしてステップＳ２３に進む。ステップＳ２３では、「認識できません」と音声によりエコーバックし、ステップＳ１２に戻る。
【００２９】
ステップＳ１７で「施設名称をどうぞ」とエコーバック出力されると、ユーザは、例えば図３に示された病院名を発話する。ステップＳ１８では、マイク２０１からの音声信号をデジタル音声データに変換する。ステップＳ１９では、発話が終了したかどうかを判断する。発話の終了は、一定時間音声信号が途切れた場合を発話の終了と判断する。発話が終了したと判断した場合はステップＳ２０に進み、発話がまだ終了していないと判断した場合はステップＳ１８に戻る。
【００３０】
ステップＳ２０では、ステップＳ１８で取得したデジタル音声データと図３の認識辞書内の全認識語について相関値を算出し、ステップＳ２１に進む。認識辞書は、図２の認識辞書においてキーワードの読みが置き換えられた図３の認識辞書を使用する。ステップＳ２１では、算出された相関値のうち最も高い相関値が所定の値以上かどうかを判断する。所定の値以上であれば、その語が認識できたとしてステップＳ２２に進む。ステップＳ２２では、相関値の最も高かった認識語を音声によりエコーバックする。
【００３１】
さらに、ステップＳ２２では該当病院名（施設名称）が認識できたことをナビゲーション装置１００に知らせた後、処理を終了する。ナビゲーション装置１００に知らせるときは、表示文字データや付帯情報の地図上の座標を知らせる。ナビゲーション装置１００は、通信ライン２１１を介して送信されてきた該当病院（施設）の地図上の座標データとＣＤ−ＲＯＭドライブ１０８の地図情報等に基づき、該当施設近辺の道路地図を表示装置１０９に表示する。
【００３２】
一方、ステップＳ２１において、最も高い相関値が所定の値未満であれば発話された言葉が認識できなかったとしてステップＳ２４に進む。ステップＳ２４では、「認識できません」と音声によりエコーバックし、ステップＳ１８に戻る。
【００３３】
以上のようにして、音声認識を行うときに、該当ジャンルでよく使用されるキーワードを正規の読みとは異なる実際の発音に近い読みに置き換えた認識語を格納した認識辞書を使用するようにしている。これにより、音声認識に確実に成功することができる。特に、従来から使用していた認識辞書を使用して、キーワード部分の読みのみを置き換えた認識辞書を作成しているので、音声認識のヒット率の向上した新たな認識辞書の作成が容易かつ短時間かつ低コストで行うことができる。また、市販されている正規の読みが格納された認識辞書を購入し、その購入した認識辞書に基づき、より音声認識のヒット率を向上させた認識辞書を容易かつ短時間かつ低コストで作成することもできる。
【００３４】
−第２の実施の形態−
第１の実施の形態では、図５、６に示したとおり、図３の認識辞書の生成は、パーソナルコンピュータ３０３で予め生成し、生成された認識辞書を図１の音声ユニット２００のＲＯＭ２１０に搭載する例を示した。第２の実施の形態では、音声ユニットにおいて、図３の該当認識辞書を使用する場合に、その時点でその該当認識辞書（図３）を生成するようにしたものである。第２の実施の形態の車載用ナビゲーションシステムの構成は、第１の実施の形態の図１の構成と同様であるのでその説明を省略する。
【００３５】
図８は、第２の実施の形態の音声ユニット２００において、音声認識を行う制御のフローチャートを示す図である。第１の実施の形態の図７とは、ステップＳ１７がステップＳ３１に置き換えられ、ステップＳ２０がステップＳ３２に置き換えられている点のみが異なるので、ステップＳ３１とＳ３２の処理を中心に以下説明する。
【００３６】
第２の実施の形態では、音声ユニット２００のＲＯＭ２１０が、図２の従来の認識辞書と該当ジャンルのキーワードの読みデータ（正規の読みデータと置き換え読みデータ、例えば図４（ａ））を持つようにする。そして、図６の認識辞書の生成と同じ内容を、ステップＳ３１において実行する。すなわち、図８のステップＳ３１では、まず、相関値の最も高かった認識語を「施設ジャンル名」として認識すると、該当ジャンルの施設名辞書（図２の認識辞書）を準備する。次に、準備した施設名辞書とキーワードの正規の読みデータおよび置き換え読みデータ（図４）に基づき、図６と同様の処理を行ってキーワードの読みの置き換えを行い新たな施設名辞書（図３の認識辞書）を生成する。その後、「施設名称をどうぞ」とエコーバック出力する。ステップＳ３２では、ステップＳ１８で取得したデジタル音声データとステップＳ３１で生成した新たな認識辞書（図３）内の全認識語について相関値を算出する。その他の処理は、第１の実施の形態と同様であるので説明を省略する。
【００３７】
第２の実施の形態では、正規の読みの認識辞書はＲＯＭ２１０に格納されており、新たな認識辞書はＲＡＭ２０９に格納される。この場合、ＲＡＭ２０９では認識辞書をそっくり新たに作り替えるのではなく、キーワードが含まれる認識語のみ追加認識語として生成するようにしてもよい。このようにすることにより、正規の認識語と追加認識語の両方において相関値を算出することが可能となり、より精度の高い音声認識が可能となる。
【００３８】
以上のようにして、第２の実施の形態においても、第１の実施の形態と同様に、音声認識に確実に成功することができる。特に、ＲＯＭ２１０には、従来の認識語に加えてキーワードのデータのみを格納しておけばよいので、少ない記憶容量でより精度の高い音声認識が可能となる。
【００３９】
−第３の実施の形態−
第２の実施の形態では、そのジャンルで良く出てくる言葉（キーワード）のより実際の発音に近い読みを前もって調査してその読みデータをＲＯＭ２１０に格納しておくものであった。しかし、図４に示されたキーワードの読みデータの置き換えには一定の法則を見いだすことができる。第３の実施の形態では、その法則を利用して新たな認識語を生成するものである。第３の実施の形態の車載用ナビゲーションシステムの構成は、第１の実施の形態の図１の構成と同様であるのでその説明を省略する。
【００４０】
まず、図４（ｂ）の「厚生病院」を例にその法則について説明する。なお、仮名１字で示される音を１音節という。「厚生病院」の正規の読みは「コウセイビョウイン」であり、その置き換えの読みとして「コオセエビョオイン」が示されている。これは、正規の読み「コウセイビョウイン」を、実際には「コオセエビョオイン」と発話（発音）する人が多いからである。これにより、次のような法則が見いだされる。「エ」「ケ」「セ」「テ」「ネ」等の五十音のえ段の語（音節）の後に「イ」が並ぶ読みの言葉の場合、その「イ」を「エ」に置き換えたように発話する人が多い。また、「オ」「コ」「ソ」「ト」「ノ」等のお段の語（音節）の後に「ウ」が並ぶ読みの言葉の場合、その「ウ」を「オ」に置き換えたように発話する人が多い。なお、この法則については、本出願の発明者が発明者として出願された特願平１１−２５５９８３号に開示されている。
【００４１】
図９は、第３の実施の形態の音声ユニット２００において、音声認識を行う制御のフローチャートを示す図である。第２の実施の形態の図８とは、ステップＳ３１がステップＳ４１に置き換えられている点のみが異なるので、ステップＳ４１の処理を中心に以下説明する。
【００４２】
図９のステップＳ４１では、まず、相関値の最も高かった認識語を「施設ジャンル名」として認識すると、該当ジャンルの施設名辞書（図２の認識辞書）を準備する。次に、準備した施設名辞書について後述する図１０の処理を行って新たな施設名辞書（例えば図３の認識辞書）を生成する。その後、「施設名称をどうぞ」とエコーバック出力する。その他の処理は、第２の実施の形態と同様であるので説明を省略する。
【００４３】
次に、図１０の処理を説明する。図１０は、図６と同様に、従来から使用されている正規の読みの認識語が格納された認識辞書から新たな認識辞書を生成する制御を示すフローチャートである。図６と異なるのは、上述した法則を利用するところである。
【００４４】
ステップＳ５１では、図２の正規の読みの認識語格納された認識辞書ファイルから一つの認識語を読み込む。該当ジャンルで良く出てくる言葉（キーワード）は前もって調査され、ＲＯＭ２１０に格納されている。この場合、キーワードの正規の読みのデータのみが格納されている。ステップＳ５２では、読み込んだ認識語に所定のキーワードが含まれているかどうかを判断し、所定のキーワードが含まれていると判断するとステップＳ５３に進む。
【００４５】
ステップＳ５３では、キーワードに五十音のえ段の語（音節）の後に「イ」が並ぶ読み（これを「え段の法則」と言う）があるかどうかを判断する。ステップＳ５３で。え段の法則があると判断するとステップＳ５４に進む。ステップＳ５４では、読み「イ」を「エ」に置き換える。ステップＳ５３で。え段の法則がないと判断するとステップＳ５４をスキップしてステップＳ５５に進む。
【００４６】
ステップＳ５５では、キーワードに五十音のお段の語（音節）の後に「ウ」が並ぶ読み（これを「お段の法則」と言う）があるかどうかを判断する。ステップＳ５５で。お段の法則があると判断するとステップＳ５６に進む。ステップＳ５６では、読み「ウ」を「オ」に置き換える。ステップＳ５５でお段の法則がないと判断するとステップＳ５６をスキップしてステップＳ５７に進む。ステップＳ５７では、すべての認識語について処理が終了したかを判断し、まだ終了していない場合はステップＳ５１に戻り処理を繰り返す。終了している場合は処理を終了する。
【００４７】
なお、図１０の処理において、正規の読みの認識語はそのままにして、え段の法則あるいはお段の法則によって置き換えられた読みの認識語を新たな認識語として追加するようにしてもよい。また、「エ」あるいは「オ」に置き換える代わりに、長音符号「ー」に置き換えるようにしてもよい。さらには、「エ」または「オ」に置き換えた認識語と、長音符号「ー」に置き換えた認識語の両方を追加するようにしてもよい。
【００４８】
上記は、読みの指定をひらがなやカタカナで行う音声認識システムの場合である。しかし、ローマ字で指定する場合も、同様に考えればよい。例えば、「厚生病院」は、ローマ字では正規の認識語として「kouseibyouin」と指定される。「o」に続く「u」を「o」に置き換え「e」に続く「i」を「e」に置き換えると「kooseebyooin」という新たな認識語が生成される。
【００４９】
以上のようにして、正規の読みのキーワードにおいて母音が「エイ」と続く場合は「エエ」あるいは「エー」と置き換え、母音が「オウ」と続く場合は「オオ」あるいは「オー」と置き換える読みとした。これにより、実際の発話に近い認識語が準備されるため、音声認識に成功する確率が高くなる。
【００５０】
なお、第３の実施の形態では、お段の法則、え段の法則を認識語全体に適用せず、所定のキーワードにのみ適用している。この理由について説明する。例えば、地名「若江岩田」に「若江岩田中央病院」という病院名があったとする。この場合の正規の読みは「ワカエイワタチュウオウビョウイン」である。この認識語全体にお段の法則、え段の法則を適用して読み替えると、「ワカエエワタチュウオオビョオイン」となる。長音符号を適用した場合は「ワカエーワタチュウオービョーイン」となる。しかし、「若江岩田」の部分は「ワカエエワタ」あるいは「ワカエーワタ」と発音することはない。
【００５１】
このように、認識語全体にお段の法則、え段の法則を適用すると、本来置き換えるべきでない読みまで置き換えてしまい、逆に精度の低い音声認識になってしまう。第３の実施の形態では、このような問題を避けるために、所定のキーワードがある場合にそのキーワードのみ置き換えるようにしたものである。これにより、お段の法則、え段の法則を適用して自動的に読みの置き換え語（言い替え語、新たな認識語）が生成できるとともに、置き換えたくない読みは確実に置き換えないようにすることができる。その結果、精度の高い置き換え語を自動で生成することができる。
【００５２】
なお、第３の実施の形態では、第２の実施の形態と同様に、該当ジャンルの音声認識をする時点で新たな認識辞書を生成するようにした例で説明した。しかし、第１の実施の形態と同様に、お段の法則、え段の法則を適用した新たな認識辞書をパーソナルコンピュータ３０３（図５）で予め生成するようにしてもよい。これにより、第１の実施の形態と同様な効果を奏すると同時に、本来置き換えるべきでない読みの置き換えを回避することも可能となる。
【００５３】
−第４の実施の形態−
第１の実施の形態では、所定のキーワードについて、実際の発音により近い読みに置き換えた新たな認識語を生成する例を示した。第４の実施の形態では、所定のキーワードの読みをいくつか準備し、キーワードのそれぞれの読みを含む新たな認識語を認識辞書に追加するようにしたものである。第４の実施の形態の車載用ナビゲーションシステムの構成は、第１の実施の形態の図１の構成と同様であるのでその説明を省略する。
【００５４】
第４の実施の形態の認識辞書について説明する。図１１は、ジャンルが郵便局、役場、インターランプに関する認識語を格納した従来の認識辞書を示す図である。図１２は、第４の実施の形態において、本発明を適用した図１１に対応する認識辞書を示す図である。
【００５５】
図１１（ａ）のジャンルが「郵便局」のときに、施設名称「座間郵便局」を指定する場合について説明する。ナビゲーションシステムより「ジャンル名をどうぞ」と促されて「ゆうびんきょく」と発話する。その後「施設名称をどうぞ」と促された場合に、「ざまゆうびんきょく」と発話すべきか「ざま」とだけ発話すべきか迷うときがある。図１２（ａ）の認識辞書には、「座間郵便局」に対して「ざまゆうびんきょく」と「ざま」の２つの読みの認識語が格納されている。従って「ざまゆうびんきょく」と発話しても「ざま」とだけ発話してもどちらも音声認識に成功する。
【００５６】
次に、図１１（ｂ）のジャンルが「役場」のときに、施設名称「愛川町役場」を指定する場合について説明する。ナビゲーションシステムより「施設名称をどうぞ」と促されたときに、上記と同様に「あいかわまちやくば」と発話すべきか、「あいかわまち」とだけ発話すべきかに加えて、「あいかわちょうやくば」と発話すべきか迷うことがある。これは、地方によって「町」という漢字を「まち」と呼ぶ場合もあれば「ちょう」と呼ぶ場合もあるからである。図１２（ｂ）の認識辞書には、「あいかわまちやくば」「あいかわまち」「あいかわちょうやくば」の３つの認識語が準備されているので、どのように発話されても音声認識に成功する。「村役場」の場合も同様である。
【００５７】
すなわち、図１２は、認識語の最後の言葉の読みが所定のキーワードである場合に、所定のキーワードの複数の読みで置き換えられた新たな認識語が追加されたものである。図１３は、図１２におけるキーワードと置き換えられる読みを整理した図である。例えば、認識語が「あいかわまちやくば」という読みの場合に、その読みの中に図１３のキーワードがあるかどうかを検索し、「まちやくば」というキーワードを見つけると、そのキーワードの置き換え読みに置き換えた認識語、すなわち「あいかわまち」「あいかわちょうやくば」を追加したものである。
【００５８】
なお、置き換える読みには、図１３の「ゆうびんきょく」や「いんたーちぇんじ」等にも示す通り、そのキーワードの読みを省略する場合も含む。また、「いんたーちぇんじ」を「あいしー」とか「いんたー」とかの読みに置き換えるのは、「インターチェンジ」の別称として通常使用されるものであるからである。「さーびすえりあ」を「ぱーきんぐ」と置き換えるのも別称と言えるからである。「ぱーきんぐえりあ」を「ぱーきんぐ」とするのは略称と言える。また、図１１に示される各ジャンルの各施設名称は、地理的名称と施設名からなる名称である。従って、キーワードはそのジャンルの施設名とすることも可能である。
【００５９】
図１４は、図１１の従来から使用されている正規の読みの認識語が格納された認識辞書から図１２の認識辞書を生成する制御のフローチャートを示す。図１２の認識辞書の生成は、図５と同様にパーソナルコンピュータ３０３で実行され、生成された認識辞書はＲＯＭに書き込まれて図１の音声ユニット２００のＲＯＭ２１０に搭載される。
【００６０】
ステップＳ６１では、図１１の正規の読みの認識語が格納された認識辞書ファイルから一つの認識語を読み込む。該当ジャンルで良く出てくる言葉（キーワード）の置き換え読みは、図１３に示すとおり、前もって調査され予めパーソナルコンピュータ３０３に格納されている。ステップＳ６２では、読み込んだ認識語に所定のキーワードが含まれているかどうかを判断し、所定のキーワードが含まれていると判断するとステップＳ６３に進む。ステップＳ６３では、認識語のそのキーワードに該当する読みに置き換えた新たな認識語を生成する。一方、ステップＳ６２でいずれのキーワードも含まれていないと判断するとステップＳ６３をスキップしてステップＳ６４に進む。ステップＳ６４では、すべての認識語について処理が終了したかを判断し、まだ終了していない場合はステップＳ６１に戻り処理を繰り返す。終了している場合は処理を終了する。
【００６１】
第４の実施の形態では、図１２の認識辞書の生成は、図５のパーソナルコンピュータ３０３で予め生成し、生成された認識辞書を図１の音声ユニット２００のＲＯＭ２１０に搭載する例を示した。しかし、第２の実施の形態と同様に、音声ユニットにおいて、該当認識辞書を使用する時点でその該当認識辞書をＲＡＭ２０９上に生成するようにしてもよい。この場合は、図１１の認識辞書と図１３のキーワードの置き換えデータのみをＲＯＭ２１０に持てばよいので、ＲＯＭ２１０の容量が小さくなり、コスト低減につながる。
【００６２】
以上の第４の実施の形態では、認識語が予め定めたあるキーワードを含む場合、そのキーワードの読みのバリエーションが考慮された認識語が追加されるので、音声認識に確実に成功することができる。
【００６３】
なお、第４の実施の形態の内容と第１〜第３の実施の形態の内容を組み合わせることも可能である。例えば、第１の実施の形態と第４の実施の形態を組み合わせる場合を考えてみる。図１１の「地理的名称」＋「施設名」からなる言葉のうち、地理的名称を第１の実施の形態の対象キーワードとし、施設名を第４の実施の形態の対象キーワードとする。例えば、第１の実施の形態の対象キーワードに「だんごうざか→だんごーざか」を追加する。その結果、図１１（ｃ）の「談合坂ＳＡ」は、正規の読みは「だんごうざかさーびすえりあ」であるが、新たに「だんごーざかさーびすえりあ」「だんごーざかえすえー」「だんごーざかぱーきんぐ」「だんごーざか」の認識語が生成される。
【００６４】
−第５の実施の形態−
第４の実施の形態では、例えば図１２（ａ）に示すように、認識語の中に所定のキーワードがある場合、それを削除した認識語を追加する例を説明した。第５の実施の形態では、認識語にないキーワード（ジャンル名等）を追加するものである。例えば、ジャンルが「駅」の場合、駅の認識辞書にある認識語には通常最後に「えき」という読みがついているものである。しかし、その「えき」が認識語に含まれていない場合は、「えき」を追加した認識語を追加する。第５の実施の形態の車載用ナビゲーションシステムの構成は、第１の実施の形態の図１の構成と同様であるのでその説明を省略する。
【００６５】
例えば、ジャンルが「駅」の認識辞書に、「とうきょう」という認識語があった場合、新たに「とうきょうえき」という認識語を追加する。具体的には、ＲＯＭ２１０に、あるジャンルに対応して付加すべきキーワードデータを有し、認識語を検索しそのキーワードが含まれていない場合は、そのキーワードを含む認識語を追加する。このキーワードは複数であってもよい。キーワードが複数の場合は、含まれていないキーワードそれぞれを付加した認識語を追加するようにすればよい。このようにすることによって、ジャンルが「駅」の場合に「とうきょう」と発話しても「とうきょうえき」と発話しても音声認識に成功することになる。
【００６６】
上記第１〜５の実施の形態では、車載用ナビゲーションシステムについて説明をしたがこの内容に限定する必要はない。車載用に限らず携帯用のナビゲーション装置にも適用できる。さらには、ナビゲーション装置に限らず音声認識を行うすべての装置に適用できる。
【００６７】
上記第１〜５の実施の形態では、ナビゲーション装置１００と音声ユニット２００を分離した構成で説明をしたが、この内容に限定する必要はない。音声ユニットを内部に含んだ一つのナビゲーション装置として構成してもよい。また、上記制御プログラムや認識辞書などをＣＤ−ＲＯＭなどの記録媒体で提供することも可能である。さらには、制御プログラムや認識辞書などをＣＤ−ＲＯＭなどの記録媒体で提供し、パーソナルコンピュータやワークステーションなどのコンピュータ上で上記システムを実現することも可能である。また、制御プログラムや認識辞書などをインターネットに代表される電気通信回線（伝送媒体）を通じて提供することも可能である。
【００６８】
上記第１〜５の実施の形態では、音声ユニット２００で施設名の検索に成功した場合、その内容をナビゲーション装置１００に知らせ、ナビゲーション装置１００では道案内等のナビゲーション処理の一つとしてその施設近辺の地図を表示する例で説明をしたが、この内容に限定する必要はない。ナビゲーション装置１００では、音声ユニット２００で検索に成功した結果に基づき、経路探索や経路誘導その他の各種のナビゲーション処理が考えられる。
【００６９】
【発明の効果】
本発明は、以上説明したように構成しているので、次のような効果を奏する。
請求項１〜１０の発明は、音声認識を行うときに、例えば、該当ジャンルでよく使用されるキーワードを正規の読みとは異なる読みに置き換えた認識語を格納した認識辞書を使用することができるので、音声認識に確実に成功することができる。特に、従来から使用していた認識辞書や市販の認識辞書を使用して、キーワード部分の読みのみを置き換えた認識辞書を作成することが可能となるので、音声認識のヒット率の向上した新たな認識辞書が容易かつ短時間かつ低コストで作成ができ、音声認識率の向上した装置の低コスト化が実現できる。
特に、請求項２の発明は、置き換える読みを通常の発音の読みとしているので、音声認識率がより向上する。
請求項３〜５の発明は、読みの置き換えを一定の法則に基づいて自動で行うようにしているので、置き換える読みのデータを予め格納しておく必要がなく、メモリ容量の削減につながる。また、予め定めた所定の言葉（キーワード）の読みのみを置き換えているので、置き換えるべきでない読みは確実に置き換えないようにできる。すなわち、一定の法則に基づいて自動で置き換えるために生じる本来置き換えたくない読みを置き換えてしまうと言う問題が、確実に回避できる。
請求項６〜９の発明は、予め定めた所定の言葉（キーワード）の読みを、正規の読みに加えて、その言葉の漢字の異なる読みや、別称、略称に置き換えたものも共に認識語として格納しているので、ユーザがいろいろなバリエーションで発話しても確実に音声認識に成功する。
請求項１０の発明は、音声認識処理を実際に行う時点で第１の認識語を生成しているので、例えば、正規の読みの認識語や所定の言葉（キーワード）のデータのみをＲＯＭに予め格納しておき、それらの内容に基づいて新たな認識語をＲＡＭ上に展開することができる。これにより、ＲＯＭの記憶容量を削減できる。これに反し、ＲＡＭの記憶容量は大きくなるが、作業エリアとして随時上書きされて使用されるので問題にはならない。
請求項１１の発明は、所定の言葉（キーワード）を付加して発話した場合にも確実に音声認識に成功することができる。
請求項１２の発明は、音声認識ナビゲーション装置において、上述の効果を奏することができる。
請求項１３の発明は、従来から使用していた認識辞書や市販の認識辞書を使用して、キーワード部分の読みのみを置き換えた認識辞書を作成することができるので、音声認識のヒット率の向上した新たな認識辞書が容易かつ短時間かつ低コストで作成ができる。
【図面の簡単な説明】
【図１】本発明の車載用ナビゲーションシステムの構成を示す図である。
【図２】第１の実施の形態における正規の読みの認識辞書を示す図である。
【図３】第１の実施の形態における新たな認識辞書を示す図である。
【図４】第１の実施の形態におけるキーワードと置き換えの読みの一覧を示す図である。
【図５】第１の実施の形態における正規の読みの認識辞書から新たな認識辞書を生成する構成を示す図である。
【図６】第１の実施の形態における正規の読みの認識辞書から新たな認識辞書を生成する処理のフローチャートを示す図である。
【図７】第１の実施の形態における音声認識を行う制御のフローチャートを示す図である。
【図８】第２の実施の形態における音声認識を行う制御のフローチャートを示す図である。
【図９】第３の実施の形態における音声認識を行う制御のフローチャートを示す図である。
【図１０】第３の実施の形態における正規の読みの認識辞書から新たな認識辞書を生成する処理のフローチャートを示す図である。
【図１１】第４の実施の形態における正規の読みの認識辞書を示す図である。
【図１２】第４の実施の形態における新たな認識辞書を示す図である。
【図１３】第４の実施の形態におけるキーワードと置き換えの読みの一覧を示す図である。
【図１４】第４の実施の形態における正規の読みの認識辞書から新たな認識辞書を生成する処理のフローチャートを示す図である。
【符号の説明】
１００ナビゲーション装置
１０１ＧＰＳ受信機
１０２ジャイロセンサ
１０３車速センサ
１０４ドライバ
１０５ＣＰＵ
１０６ＲＡＭ
１０７ＲＯＭ
１０８ＣＤ−ＲＯＭドライブ
１０９表示装置
１１０バスライン
２００音声ユニット
２０１マイク
２０２Ａ／Ｄ変換部
２０３Ｄ／Ａ変換部
２０４アンプ
２０５スピーカ
２０６発話スイッチ
２０７ドライバ
２０８ＣＰＵ
２０９ＲＡＭ
２１０ＲＯＭ
２１１通信ライン
２１２バスライン
３０１正規の読みの認識辞書
３０２新たな認識辞書
３０３パーソナルコンピュータ
３０４キーワード

Claims

音声入力手段と、
音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、
前記音声入力手段により得られた音データと前記認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置において、
前記格納手段には、音声認識対象の種類を示すジャンルごとに、音声認識対象の言葉の一部に含まれる予め定めた所定の言葉の読みについてその所定の言葉の正規の読みとは異なる読みの読みデータが格納され、
前記音声認識処理手段があるジャンルを指定して前記音声認識処理を行うときに、指定されたジャンルの前記読みデータを参照して、前記所定の言葉を一部に含む音声認識対象の言葉について、前記所定の言葉を前記正規の読みとは異なる読みにした新たな認識語を生成する生成手段をさらに備え、
前記音声認識処理手段は、前記生成された新たな認識語を使用して前記音声認識処理を行うことを特徴とする音声認識装置。
請求項１記載の音声認識装置において、
前記所定の言葉は、複数の音声認識対象の言葉の一部に共通に含まれる言葉であり、
前記所定の言葉の正規の読みと異なる読みは、その言葉の通常発音される読みであることを特徴とする音声認識装置。
音声入力手段と、
音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、
前記音声入力手段により得られた音データと前記認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置において、
前記格納手段には、音声認識対象の言葉の一部に含まれる予め定めた所定の言葉に関するデータが格納され、
前記所定の言葉に関するデータを参照して、前記所定の言葉を一部に含む音声認識対象の言葉について、前記所定の言葉の読みにおいてのみ、五十音のえ段の音節の後に「い」の音節が並ぶ場合、この「い」の音節を「え」の音節に置き換えた読みとした新たな認識語を生成する生成手段をさらに備えることを特徴とする音声認識装置。
音声入力手段と、
音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、
前記音声入力手段により得られた音データと前記認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置において、
前記格納手段には、音声認識対象の言葉の一部に含まれる予め定めた所定の言葉に関するデータが格納され、
前記所定の言葉に関するデータを参照して、前記所定の言葉を一部に含む音声認識対象の言葉について、前記所定の言葉の読みにおいてのみ五十音のお段の音節の後に「う」の音節が並ぶ場合、この「う」の音節を「お」の音節に置き換えた読みとした新たな認識語を生成する生成手段をさらに備えることを特徴とする音声認識装置。
請求項３または４記載の音声認識装置において、
前記生成手段は、前記五十音のえ段の音節の後に「い」の音節が並ぶ場合の「い」の音節または前記五十音のお段の音節の後に「う」の音節が並ぶ場合の「う」の音節を長音符号「ー」により置き換えることを特徴とする音声認識装置。
請求項１または２記載の音声認識装置において、
前記格納手段に、一つの音声認識対象の言葉に対して、前記所定の言葉の正規の読みを含む正規の認識語と前記新たな認識語とが共に格納されることを特徴とする音声認識装置。
請求項１記載の音声認識装置において、
前記新たな認識語は、前記所定の言葉を一部に含む音声認識対象の言葉から前記所定の言葉を削除して生成される認識語であることを特徴とする音声認識装置。
請求項１記載の音声認識装置において、
前記新たな認識語において、前記所定の言葉の正規の読みと異なる読みは、その言葉が漢字で表されるときその漢字の異なる読みであることを特徴とする音声認識装置。
請求項１記載の音声認識装置において、
前記新たな認識語において、前記所定の言葉の正規の読みと異なる読みは、その言葉が有する別称あるいは略称であることを特徴とする音声認識装置。
請求項１から９のいずれか１項記載の音声認識装置と、
地図情報を格納する地図情報格納手段と、
少なくとも前記音声認識装置の認識結果と前記地図情報とに基づき、道案内のための制御を行う制御手段とを備えることを特徴とする音声認識ナビゲーション装置。
音声認識処理における、音声入力手段により得られた音データと比較する音声認識用データを生成するための音声認識対象の言葉の読みを表した認識語を生成する認識語生成方法であって、
コンピュータは、一つの音声認識対象の言葉の一部に予め定めた所定の言葉を含む場合、前記所定の言葉の読みにおいてのみ、五十音のえ段の音節の後に「い」の音節が並ぶ場合、この「い」の音節を「え」の音節に置き換えた読みとした認識語を生成することを特徴とする認識語生成方法。
音声認識処理における、音声入力手段により得られた音データと比較する音声認識用データを生成するための音声認識対象の言葉の読みを表した認識語を生成する認識語生成方法であって、
コンピュータは、一つの音声認識対象の言葉の一部に予め定めた所定の言葉を含む場合、前記所定の言葉の読みにおいてのみ、五十音のお段の音節の後に「う」の音節が並ぶ場合、この「う」の音節を「お」の音節に置き換えた読みとした認識語を生成することを特徴とする認識語生成方法。