JP2004309928A

JP2004309928A - 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム

Info

Publication number: JP2004309928A
Application number: JP2003105795A
Authority: JP
Inventors: Shigeru Kafuku; 滋加福
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2003-04-09
Filing date: 2003-04-09
Publication date: 2004-11-04

Abstract

【課題】入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムを提供する。
【解決手段】
電子英和辞書装置は、音声入力部１と入力音声格納部２とパワー算出部３と音声区間検出部４と音声特徴抽出部５と音素モデル格納部６と尤度計算部７と単語見出格納部８と誤り訂正テーブル格納部９と候補単語検出部１０と電子辞書格納部１１と選択部１２と検索部１３と表示部１４とから構成されている。候補単語検出部１０は、誤り訂正テーブルにおいて誤り頻度が最も高い訂正パターンから順に尤度計算部７において抽出された第１位音素列〜第Ｎ位音素列の音素を一つだけ訂正用音素に置換して、１次訂正音素列を生成し、該生成した１次訂正音素列と一致する単語を英和辞書見出から検出し、検出した単語を出力候補単語として出力候補単語バッファ１００に格納する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムに関する。
【０００２】
【従来の技術】
音声認識装置において、話者により入力された単語や文字と該単語等と発音が類似する単語等とを的確に識別することが容易ではない場合がある。
【０００３】
例えば図１２に示すように、音声認識装置において、「一攫千金（いっかくせんきん）」と「臥薪嘗胆（がしんしょうたん）」という２単語のみが候補単語である場合、多少淀んで発音しても、これらを誤認することはまずあり得ない。また、「国立（くにたち）」と「立川（たちかわ）」とが候補単語である場合も、「一攫千金（いっかくせんきん）」と「臥薪嘗胆（がしんしょうたん）」との場合程ではないにしても、容易に識別することができる。
【０００４】
しかしながら、これが「東京都（とうきょうと）」と「京都府（きょうとふ）」との場合、これらの単語を識別することは必ずしも容易とはいえない。例えば、話者が「東京都（とうきょうと）」と入力しても、「東（とう）」の部分を曖昧に発音したり、小声で発音したりすると周囲のノイズ等に紛れる等して、「京都府（きょうとふ）」と誤って認識されることがある。
【０００５】
さらに、これがアルファベット同士の場合、例えば「Ｄ」と「Ｔ」との場合等、話者によっては人間ですら誤って認識してしまうものに関しては、上記のものとは比較にならない程その識別が困難となる。「Ｄ」と「Ｔ」との他にも、アルファベットには、「Ｂ」、「Ｅ」、「Ｐ」等、発音が類似する文字が多々あり、このようなアルファベットの認識は、音声認識装置における音声認識の中でも最も困難な部類に入る。
【０００６】
また、かかる事情もあって、電子英和辞書装置における英単語の入力手段としては、キーボードが大半を占める（例えば、特許文献１参照）。しかし、キーボードを備える電子英和辞書装置は、小型化することが困難である。また、このような電子英和辞書装置は、キーボードを使い慣れていないユーザにとって不便である。
【０００７】
また一部には、スキャナとＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）とを用いて英単語を入力するものもあるが、スキャナ部分のハードウェアが必要になるため製品コストが高くなり、また装置が大型化してしまう等、実用上不便である。
【０００８】
【特許文献１】
特開２００２−７４２０号公報（第４頁、第１図）。
【０００９】
【発明が解決しようとする課題】
まず、上記の事情を考慮して、話者が音声によって入力した単語（例えば、「ハロー」）を認識し、該認識した単語（ｈｅｌｌｏ）を内蔵する電子英和辞書から検索する電子英和辞書装置について以下考察する。
【００１０】
例えばこの電子辞書が５万語を収録する辞書だとすると、電子英和辞書装置は、この５万語の発音を予め登録しておく必要がある。このような電子英和辞書においては、音声により入力された単語を認識する際に大きなメモリと高速なＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）とが必要となる。また、この電子英和辞書装置の主なユーザとしては、日本人とアメリカ人やイギリス人等英語を母国語とする者とが考えられる。例えば、「Ｍｕｌｔｉｍｅｄｉａ」について音声入力する場合、日本人の多くは、「マルチメディア」と発音し、アメリカ人やイギリス人等は、「マルタイミィーディア」というように発音する。さらに、特に英語の発音に関しては、日本人同士であっても千差万別である。このような発音の違いを考慮して電子英和辞書装置を製造することは、事実上不可能に近い。
【００１１】
次に、話者が単語を一字ずつ音声により入力した文字列（例えば、「エイチ→イー→エル→エル→オー」）を認識し、該認識した単語（ｈｅｌｌｏ）を内蔵する電子英和辞書において検索する電子英和辞書装置について以下考察する。
【００１２】
かかる電子英和辞書の場合、文字単位で入力された音声を認識すればよいため、上述の単語単位で入力された音声を認識する電子英和辞書程、大きなメモリと高速なＣＰＵとを必要としない。
【００１３】
しかしながら、上述したようにアルファベットには、「Ｂ」、「Ｄ」、「Ｅ」、「Ｔ」、「Ｐ」等、発音が類似する文字が多々あるため、この場合も高精度に音声を認識することは、難しい。
【００１４】
本発明は、上記課題を解決するためになされたのもであって、入力された音声の各音素を認識して得た音素列に適切な訂正を加えることにより、該入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムを提供することを目的とする。
【００１５】
【課題を解決するための手段】
上記目的を達成するため、本発明の第１の観点に係る音声認識装置は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段と、
を備える。
【００１６】
また、上記構成において、前記訂正用音素格納手段は、前記音素認識手段が音声により入力された前記訂正用音素を対応する前記所定の音素と誤って認識し、該誤って認識した所定の音素を出力する誤り頻度を、該所定の音素及び該訂正用音素と対応付けて格納し、
前記訂正手段は、前記出力された音素列の中から、前記誤り頻度が高い所定の音素から順に検出し、該検出した所定の音素を対応する訂正用音素に置換してもよい。
【００１７】
さらに、上記構成において、前記訂正用音素格納手段は、前記単語辞書の中から前記訂正された音素列に対応する単語が検出された場合、前記訂正手段おいて置換された音素及び訂正用音素に対応する前記誤り頻度を更新してもよい。
【００１８】
また、上記構成において、前記音声は、アルファベットからなる音素列により入力されてもよい。
【００１９】
さらに、上記構成において、前記音素認識手段は、各文字の音素をモデル化した音素モデルを参照して、入力された文字列の各音素を認識し、該認識した音素の尤度を求め、所定数の音素列を尤度の高い方から順に抽出し、
前記訂正手段は、前記音素認識手段により抽出された所定数の音素列を前記尤度が高い方から順に訂正してもよい。
【００２０】
また、上記構成において、前記認識結果出力手段は、前記単語辞書の中から前記音素認識手段により抽出された音素列に対応する単語を検出し、該検出した単語を認識結果として出力してもよい。
【００２１】
さらに、上記構成において、前記訂正手段は、前記単語辞書の中から前記抽出された音素列に対応する単語を検出できなかった場合、該抽出された音素列を訂正してもよい。
【００２２】
また、上記構成において、前記訂正手段は、前記単語辞書の中から前記訂正された音素列に対応する単語を検出できなかった場合、該訂正された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該訂正された音素列をさらに訂正する再訂正手段を備えてもよい。
【００２３】
上記構成において、前記認識結果出力手段は、前記再訂正手段により所定回数以上訂正された音素列に対応する単語を前記単語辞書の中から検出できなかった場合、前記抽出された音素列と前記訂正された音素列とに類似する単語を該単語辞書の中から検出し、該検出した類似単語を認識結果として出力する類似単語検出手段をさらに備えてもよい。
【００２４】
また、上記構成において、前記類似単語検出手段は、前記検出された類似単語を構成する音素列の中から、前記抽出された音素列及び／又は前記訂正された音素列の各音素と同じ音素及び異なる音素を検出し、該検出した同じ音素及び異なる音素の数に基づいて、該類似単語と該抽出された音素列及び／又は該訂正された音素列との類似度を算出し、該算出した類似度が予め設定された閾値より大きい場合、該類似する単語を認識結果として出力してもよい。
【００２５】
さらに、上記構成において、前記認識結果出力手段は、前記単語辞書の中から前記認識された音素列及び／又は前記訂正された音素列に対応する単語を複数検出した場合、該検出した複数の単語を出力するとともに、ユーザに該出力された単語から所望の単語を選択することを指示し、ユーザにより所望の単語が選択されると、該選択された単語を認識結果として出力してもよい。
【００２６】
上記構成において、複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、、
前記電子辞書の中から前記認識結果出力手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、さらにを備えてもよい。
【００２７】
上記目的を達成するため、本発明の第２の観点に係る電子辞書装置は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、
前記電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、
を備える。
【００２８】
上記目的を達成するため、本発明の第３の観点に係る音声認識方法は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力工程と、
を備える。
【００２９】
上記目的を達成するため、本発明の第４の観点に係る検索方法は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出する単語検出工程と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納工程と、
前記電子辞書の中から前記単語検出工程により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力工程と、
を備える。
【００３０】
上記目的を達成するため、本発明の第５の観点に係るプログラムは、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段、
としてコンピュータを機能させる。
【００３１】
上記目的を達成するため、本発明の第６の観点に係るプログラムは、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段、
としてコンピュータを機能させる。
【００３２】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態に係る電子英和辞書装置について説明する。
【００３３】
図１は、この実施の形態にかかる電子英和辞書装置の構成を示すブロック図である。図示するように、この電子英和辞書装置は、音声入力部１と、入力音声格納部２と、パワー算出部３と、音声区間検出部４と、音声特徴抽出部５と、音素モデル格納部６と、尤度計算部７と、単語見出格納部８と、誤り訂正テーブル格納部９と、候補単語検出部１０と、電子辞書格納部１１と、選択部１２と、検索部１３と、表示部１４と、を有する構成となっている。
【００３４】
音声入力部１は、話者により入力されたアルファベットの音素列からなる音声（アナログ信号）をＡ／Ｄ変換して、時系列で示すデジタル音声信号（例えば、ＰＣＭ信号）を出力する。
【００３５】
入力音声格納部２は、音声入力部１から出力されたデジタル音声信号を格納する。
【００３６】
パワー算出部３は、音声データ格納部２に格納されたデジタル音声信号を、所定の時間間隔（２．０〜４．０ミリ秒）で、時間窓などのハミング窓によって複数のフレームに区分し、区分した各フレームから音声データを切り出してパワー成分を求める。
【００３７】
音声区間検出部４は、パワー算出部３が算出したパワー成分が所定の閾値を超えたフレームを音声区間として検出する。例えば、１秒以内にパワー成分が閾値を下回ったフレームは、音声区間としない。
【００３８】
音声特徴抽出部５は、音声区間検出部４が検出した音声区間について、それぞれパワー算出部３が算出したパワー成分、メル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ：ＭＦＣＣ）に基づいて音響特徴ベクトルＸ（ｔ）を計算する。
【００３９】
音素モデル格納部６は、認識対象となる音声を構成する全てのアルファベット（音素）をモデル化した音素モデルを格納している。音素モデルとしては、例えば図２に示すような隠れマルコフモデル（ＨＭＭ）が適用される。図２では、音素「ｍ」についてのみ示しているが、実際には、全ての音素についてのＨＭＭが記憶されている。
【００４０】
尤度計算部７は、音響特徴ベクトルＸ（ｔ）とＨＭＭによる音素モデルとを参照してフレーム毎の連続音素認識を図３に示す文法に従って行う。図３において、ｓｉｌＢは、話者が音声を入力する前の無音を、ｐａｕｓｅは、話者が音声を入力している途中での無音、ｓｉｌＥは、話者が音声を入力し終わった後の無音を示す。なお、図３において、ｐａｕｓｅを省略してもよい。
【００４１】
図１に示す尤度計算部７は、各フレームの尤度の合計が最大となるものを第１位音素列として抽出し、さらに、各フレームの尤度の合計に従って第Ｎ位音素列（Ｎは２以上の整数）まで抽出する。
【００４２】
単語見出格納部８は、後述する英和辞書において検索可能な単語の音素列情報を登録した単語見出一覧を格納している。この単語見出一覧は、例えば図４に示すようなものであり、「ｍｏｏｎｌｉｇｈｔ」という単語について、「ｍ→ｏ→ｏ→ｎ→ｌ→ｉ→ｇ→ｈ→ｔ」という音素列を登録している。
【００４３】
図１に示す誤り訂正テーブル格納部９は、所定の音素と該所定の音素に発音が類似する訂正用音素とからなる訂正パターンと、誤り易さを示す誤り頻度と、該誤りの種類と、を示す情報を登録する誤り訂正テーブルを格納する。また、誤り訂正テーブルは、訂正パターンを誤り頻度が高い順に従って配列している。
【００４４】
なお、誤り頻度とは、尤度計算部７が、音声により入力された訂正用音素を、該訂正用音素に対応する所定の音素と誤って認識して出力する頻度を示すものである。また、誤りの種類には、話者が発音した音素を他の音素と誤認する「置換」誤りと、話者が発音した２つ音素を１つの音素と誤認する「削除」誤りと、話者が発音した１つ音素を２つ音素と誤認する「挿入」誤りと、がある。
【００４５】
誤り訂正テーブルは、例えば図５に示すようようなものであって、音素「ｍ」と音素「ｍ」に発音が類似する訂正用音素「ｎ」とからなる訂正パターンと、話者が音声「エヌ」を入力した場合に尤度計算部７が音素「ｍ」と誤って認識する誤り頻度「３８４」と、この誤りの種類「置換」誤りと、を示す情報を登録している。
【００４６】
図１に示す候補単語検出部１０は、尤度計算部７で抽出された第１位音素列、第２位音素列、…、第Ｎ位音素列に一致する単語を単語見出格納部８に格納されている英和辞書見出から検出し、検出した単語を出力候補単語として内蔵する出力候補単語バッファ１００に格納する。
【００４７】
また、候補単語検出部１０は、第１位音素列〜第Ｎ位音素列に最も類似する単語を検出する。この最も類似する単語を検出するに際して、候補単語検出部１０は、次の数式を満たす類似度を算出する。
【数１】
（類似度）＝（一致音素数／誤り総数）
【００４８】
数１において、一致音素数とは、単語見出格納部８に格納されている所定の単語を構成する音素の中で、第１位音素列〜第Ｎ位音素列と一致する音素の数である。誤り総数とは、単語見出格納部８に格納されている所定の単語を構成する音素の中で、第１位音素列〜第Ｎ位音素列と異なる音素の数である。
【００４９】
例えば図６に示すように、単語見出格納部８に格納されている単語「ｆｌｅｓｈｃｏｒｏｒｅｄ」と第ｋ位音素列（１≦ｋ≦Ｎ）「ｆｌｅｓｈｃｏｒｏｒｅａ」との一致音素数は、「１１」であり、誤り総数は、「１」である。従って、この場合の「ｆｌｅｓｈｃｏｒｏｒｅｄ」と「ｆｌｅｓｈｃｏｒｏｒｅａ」との類似度は、「１１」となる。
【００５０】
候補単語検出部１０は、上記数１に従って、第１位音素列〜第Ｎ位音素列と、単語見出格納部８に格納されている各単語と、の類似度を算出して行き、算出した類似度が最大となる単語を最大類似単語として内蔵する最大類似単語バッファ２００に格納する。
【００５１】
また、候補単語検出部１０は、第１位音素列〜第Ｎ位音素列の各音素について誤り訂正テーブルに基づいて誤り訂正をし、誤り訂正した音素列と一致する単語を英和辞書見出から検出する。
【００５２】
この誤り訂正について図５及び図７を参照して説明する。候補単語検出部１０は、図５に示す訂正テーブルにおいて誤り頻度が最も高い訂正パターンから順に第１位音素列を構成する音素を一つだけ訂正用音素に置換して、図７に示す１次訂正音素列を生成する。
【００５３】
候補単語検出部１０は、この１次訂正音素列と一致する単語を英和辞書見出から検出し、検出できなかった場合、頻度が次に高い訂正パターンに従って、第１位音素列の音素を訂正用音素に置換して別の１次訂正音素列を生成する。
【００５４】
候補単語検出部１０は、音素の置換と一致する単語の検出とを繰り返し、所定の音素が置換された１次訂正音素列と一致する単語を英和辞書見出の中から検出すると、検出した単語を出力候補単語として出力候補単語バッファ１００に格納する。なお、一致する単語を複数検出した場合、候補単語検出部１０は、誤り頻度が高い訂正パターンに従って置換された単語程上位となるように、検出された単語に順位を付す。
【００５５】
さらに、候補単語検出部１０は、第２位音素列〜第Ｎ位音素列についても同様に音素を一つずつ置換して１次訂正音素列を生成し、１次訂正音素列と一致する単語を英和辞書見出において検出する。
【００５６】
また、候補単語検出部１０は、生成された全ての１次訂正音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ２００に格納する。
【００５７】
出力候補単語バッファ１００に未だ単語が格納されていない場合、即ち、第１位音素列〜第Ｎ位音素列及びこれらの１次訂正音素列と一致する単語を英和辞書見出から検出できなかった場合、候補単語検出部１０は、１次訂正音素列の音素をさらにもう一つ訂正用音素に置換して２次訂正音素列を生成する。
【００５８】
候補単語検出部１０は、上記１次訂正音素列と同様に、この２次訂正音素列についても、英和単語見出において一致する単語を検出し、検出された単語を出力候補単語として出力候補単語バッファ１００に格納する。また、候補単語検出部１０は、生成された全ての２次訂正音素列についても最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ２００に格納する。
【００５９】
さらに、２次音素列とも一致する単語を英和辞書見出から検出できなかった場合、即ち、出力候補単語バッファ１００に未だ単語が格納されていない場合、候補単語検出部１０は、最大類似単語バッファ２００に格納された最大類似単語の中から、類似度が所定の閾値以上の最大類似単語を抽出する。候補単語検出部１０は、該抽出した最大類似単語を出力候補単語として出力候補単語バッファ１００に格納する。
【００６０】
図１に示す電子辞書格納部１１は、電子英和辞書を格納しており、この電子英和辞典には、各単語に対応した発音、品詞、意味等が登録されている。
【００６１】
選択部１２は、例えば、タッチパネル等から構成されており、話者が所望の単語等を選択するのに用いられ、表示部１４は、検索部１３において検索された単語とその意味等とを表示する。
【００６２】
検索部１３は、単語の意味等を電子英和辞書において検索して、該検索した単語とその意味等とを表示部１４に表示する。
【００６３】
検索部１３は、出力候補単語バッファ１００に単語が格納されていない場合、入力された文字列からなる単語を検出できなかった旨を表示部１４に表示する（図８Ａ）。
【００６４】
検索部１３は、出力候補単語バッファ１００に１つだけ出力候補単語が格納されている場合、該格納されている出力候補単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部１４に表示する（図８Ｂ）。
【００６５】
検索部１３は、出力候補単語バッファ１００に複数の出力候補単語が格納されている場合、格納されている複数の出力候補単語を表示部１４に表示するとともに、表示された複数の出力候補単語から所望の単語を選択部１２において選択することを話者に指示する（図８Ｃ）。
【００６６】
検索部１３は、話者がこの指示に応じて所望の単語を選択すると、選択された単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部１４に表示する（図８Ｂ）。なお、検索部１３は、格納されている複数の単語の数が所定数を超える場合、表示部１４に表示する出力候補単語の数を該所定数に制限してもよい。この場合、表示する出力候補単語は、上記候補単語検出部１０で定めた順位に従って表示するものとする。
【００６７】
なお、上記の電子英和辞書装置は、図９に示すように、パーソナルコンピュータなどの汎用コンピュータをプラットフォームとして実現することができる。
【００６８】
例えば、音声入力部１、選択部１２、表示部１４は、夫々、汎用コンピュータに接続されるマイクロフォン等の音声入力インターフェース９１、マウス、キーボード等の選択入力インターフェイス９２、表示装置等の表示出力インターフェイス９３、によって実現できる。
【００６９】
入力音声格納部２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９４によって実現され、音素モデル格納部６、単語見出格納部８、誤り訂正テーブル格納部９、電子辞書格納部１１は、それぞれに対応した領域がＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）９５に確保されることによって実現される。音素モデル格納部６が格納する音素モデル、単語見出格納部８が格納する単語見出一覧、誤り訂正テーブル格納部９が格納する誤り訂正テーブル及び電子辞書格納部１１が格納する英和辞書は、検索処理を行う前に予め外部装置から読み込まれてＨＤＤ９５に記憶されるものである。
【００７０】
パワー算出部３、音声区間検出部４、音声特徴検出部５、尤度計算部７、候補単語検出部１０、検索部１３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９６がＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９７に記憶されたプログラムを実行することによって実現される。
【００７１】
次に、上記構成を備える電子英和辞書装置の検索動作について図面を参照して説明する。音声入力部１は、話者により入力されたアルファベットの音素列、例えば「エム→オー→オー→エヌ→エル→アイ→ジー→エイチ→ティー」からなる音声をＡ／Ｄ変換して、時系列で示すデジタル音声信号を出力し、入力音声格納部２は、この出力されたデジタル音声信号を格納する。入力音声格納部２が格納したデジタル音声信号をパワー算出部３に供給することにより、図１０のフローチャートに示す検索動作を開始する。
【００７２】
パワー算出部３は、供給されたデジタル音声信号を所定時間毎で複数のフレームに区分し、各フレームのパワー成分を算出し、音声区間検出部４は、各フレームのパワー成分を所定の閾値と比較し、閾値を上回ったフレームを音声区間として抽出する。音声特徴抽出部５は、算出された各フレームのパワー成分及びＭＦＣＣに基づいて、抽出された音声区間の音響特徴ベクトルＸ（ｔ）を計算する（ステップＳ１００１）。
【００７３】
尤度計算部７は、音響特徴ベクトルＸ（ｔ）とＨＭＭによる音素モデルとを参照してフレーム毎の連続音素認識を行い、各フレームの尤度の合計が最大となるものを暫定的に第１位音素列として抽出し、さらに、各フレームの尤度の合計に従って第Ｎ位音素列（Ｎは２以上の整数）まで抽出する（ステップＳ１００２）。
【００７４】
候補単語検出部１０は、尤度計算部７で抽出された第１位音素列〜第Ｎ位音素列及び、該音素列の音素を置換することにより生成された訂正音素列等と一致する単語を単語見出格納部８に格納されている英和辞書見出の中から検出し、検出した単語を出力候補単語として出力候補単語バッファ１００に格納する（ステップＳ１００３）。
【００７５】
検索部１３は、出力候補単語バッファ１００に出力候補単語が格納されているか否かを検出する（ステップＳ１００４）。
【００７６】
出力候補単語バッファ１００に出力候補単語が格納されている場合（ステップＳ１００４にてＹＥＳ）、検索部１３は、格納されている出力候補単語の数を検出する（ステップＳ１００５）。
【００７７】
出力候補単語バッファ１００に格納されている出力候補単語が複数ある場合（ステップＳ１００５にてＹＥＳ）、検索部１３は、格納されている複数の出力候補単語を表示部１４に表示するとともに、表示された複数の出力候補単語から所望の単語を選択部１２において選択することを話者に指示する（ステップＳ１００６）。
【００７８】
話者がこの指示に応じて所望の単語を選択すると、検索部１３は、選択された単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部１４に表示して（ステップＳ１００７）、図１０に示すフローチャートを終了する。
【００７９】
出力候補単語バッファ１００に格納されている単語が１個だけの場合（ステップＳ１００５にてＮＯ）、検索部１３は、この格納されている出力候補単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部１４に表示して（ステップＳ１００７）、図１０に示すフローチャートを終了する。
【００８０】
一方、出力候補単語バッファ１００に単語が格納されていない場合（ステップＳ１００４にてＮＯ）、検索部１３は、入力された単語を検索できなかった旨を表示部１４に表示して（ステップＳ１００７）、図１０に示すフローチャートを終了する。
【００８１】
続いて、上記ステップＳ１００３における出力候補単語検出動作について図面を参照してより詳細に説明する。尤度計算部７において抽出された第１位音素列〜第Ｎ位音素列が候補単語検出部１０に供給されると図１１のフローチャートに示す出力候補単語検出動作を開始する。
【００８２】
候補単語検出部１０は、尤度計算部７で抽出された第１位音素列〜第Ｎ位音素列に一致する単語を単語見出格納部８に格納されている英和辞書見出から検出する。単語が検出された場合、候補単語検出部１０は、検出した単語を出力候補単語として出力候補単語バッファ１００に格納する（ステップＳ１１０１）。また、候補単語検出部１０は、第１位音素列〜第Ｎ位音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ２００に格納する。
【００８３】
候補単語検出部１０は、誤り訂正テーブルにおいて誤り頻度が最も高い訂正パターンから順に第１位音素列〜第Ｎ位音素列の音素を一つだけ訂正用音素に置換して生成した１次訂正音素列に一致する単語を英和辞書見出から検出する。単語が検出された場合、候補単語検出部１０は、検出した単語を出力候補単語として出力候補単語バッファ１００に格納する（ステップＳ１１０２）。
【００８４】
例えば図５及び図７に示すように、候補単語検出部１０は、訂正テーブルにおいて誤り頻度が最も高い訂正パターン（誤り頻度「３８４」）に従って第１位音素列「ｍｏｎｌｉｇｈｔ」を構成する音素「ｍ」を訂正用音素「ｎ」に置換して、１次訂正音素列「ｎｏｎｌｉｇｈｔ」を生成する。
【００８５】
候補単語検出部１０は、この１次訂正音素列「ｎｏｎｌｉｇｈｔ」と一致する単語を英和辞書見出から検出し、検出できなかった場合、誤り頻度が次に高い訂正パターン（誤り頻度「２９６」）に従って、第１位音素列「ｍｏｎｌｉｇｈｔ」の音素「ｎ」を訂正用音素「ｍ」に置換して、別の１次訂正音素列「ｍｏｍｌｉｇｈｔ」を生成する。
【００８６】
候補単語検出部１０は、このような音素の置換と単語の検出とを繰り返し、第１位音素列「ｍｏｎｌｉｇｈｔ」の音素「ｏ」を訂正用音素「ｏｏ」に置換した１次訂正音素列「ｍｏｏｎｌｉｇｈｔ」と一致する単語を英和辞書見出の中から検出すると、この検出された単語「ｍｏｏｎｌｉｇｈｔ」を出力候補単語として出力候補単語バッファ１００に格納する。
【００８７】
この時点において、出力候補単語バッファ１００に出力候補単語が格納されている場合（ステップＳ１１０３にてＹＥＳ）、候補単語検出部１０は、図１１に示すフローチャートを終了する。
【００８８】
一方、この時点において、出力候補単語バッファ１００に出力候補単語が格納されていない場合（ステップＳ１１０３にてＮＯ）、候補単語検出部１０は、１次音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ２００に格納する。
【００８９】
候補単語検出部１０は、１次音素列の音素をさらにもう一つ訂正用音素に置換して生成した２次音素列に一致する単語を英和辞書見出から検出する。単語が検出された場合、候補単語検出部１０は、検出した単語を出力候補単語として出力候補単語バッファ１００に格納する（ステップＳ１１０４）。
【００９０】
この時点において、出力候補単語バッファ１００に出力候補単語が格納されている場合（ステップＳ１１０５にてＹＥＳ）、候補単語検出部１０は、図１１に示すフローチャートを終了する。
【００９１】
一方、この時点において、出力候補単語バッファ１００に出力候補単語が格納されていない場合（ステップＳ１１０５にてＮＯ）、候補単語検出部１０は、２次音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ２００に格納する。
【００９２】
さらに、候補単語検出部１０は、最大類似単語バッファ２００に格納された最大類似単語のうち、類似度が所定の閾値以上（例えば１０以上）の最大類似単語を検出する（ステップＳ１１０６）。
【００９３】
最大類似単語バッファ２００から所定の閾値以上の最大類似単語が検出された場合（ステップＳ１１０６にてＹＥＳ）、候補単語検出部１０は、この検出された最大類似単語を出力候補単語として出力候補単語バッファ１００に格納し（ステップＳ１１０７）、図１１に示すフローチャートを終了する。
【００９４】
一方、最大類似単語バッファ２００から所定の閾値以上の最大類似単語が検出されなかった場合（ステップＳ１１０６にてＮＯ）、候補単語検出部１０は、図１１に示すフローチャートを終了する。
【００９５】
以上説明したように、この電子英和辞書装置は、音声により入力できるため、キーボードを備える必要がなく、従来の電子辞書装置よりも小型化することができる。また、キー入力が苦手なユーザも安心して使用することができる。アルファベットからなる音素列により検索したい単語を音声入力するため、単語をそのまま音声入力する場合に比べて、話者による発音の違いが問題とならない。また、アルファベットにより入力するため、発音が分からない単語についても検索できる。
【００９６】
また、この電子英和辞書装置は、尤度に従って抽出した音素列だけでなく、この音素列の所定の音素を、該音素に発音が類似する訂正用音素に置換した訂正音素列についても、一致する単語を英和辞書見出から検出するため、アルファベットにより入力された単語を認識できる確率が従来よりも高くなる。
【００９７】
さらに、この電子英和辞書装置は、上記の音素列及び訂正音素列と類似する単語を検出することにより、該音素列及び訂正音素列と一致する単語を英和辞書見出から検出できなかった場合でも、高い精度で精度認識結果を出力することができる。
【００９８】
本発明は、上記実施の形態に限定されず、種々の変形、応用が可能である。以下、本発明に適用可能な上記実施の形態の変形態様について、説明する。
【００９９】
上記実施の形態において、候補単語検出部１０は、尤度計算部７で抽出された第１位音素列〜第Ｎ位音素列に一致する単語を英和辞書見出から検出できたか否かに関わらず、第１位音素列〜第Ｎ位音素列の音素を一つだけ訂正用音素に置換して１次訂正音素列を生成していた。
しかし、本発明は、これに限定されず、候補単語検出部１０は、第１位音素列〜第Ｎ位音素列に一致する単語を英和辞書見出から検出できた場合、訂正音素列を生成しなくてもよい。
また、候補単語検出部１０は、第１位音素列〜第Ｎ位音素列、１次訂正音素列、及び２次訂正音素列と、一致する単語を英和辞書見出から検出した時点で、上記出力候補単語検出動作を終了してもよい。
さらに、候補単語検出部１０は、所定数の訂正音素列を生成した時点で、上記出力候補単語検出動作を終了してもよい。
【０１００】
また、上記実施の形態において、候補単語検出部１０は、２次訂正音素列までしか生成しなかった。しかし、本発明は、これに限定されず、候補単語検出部１０は、例えば、３次訂正音素列まで生成して単語見出からの検出を行う等するようにしてもよく、何次の訂正音素列まで生成するかは、任意である。
【０１０１】
さらに、単語見出一覧の中から訂正音素列に対応する単語が検出された場合、候補単語検出部１０は、該置換された音素及び訂正用音素に対応して誤り訂正テーブルに登録されている誤り頻度を高めてもよい。これにより、特定話者に適合した誤り訂正テーブルにすることができる。
【０１０２】
また、上記実施の形態において、入力される音声は、アルファベットからなる音素列であった。しかし、本発明は、これに限定されず、入力される音声は、例えばひらがなからなる音素列であってもよいし、また、ドイツ語、フランス語、ロシア語、スペイン語、中国語、アラビア語等、他の諸外国語のアルファベットや文字に相当するものの音声からなる音素列であってもよい。そして、このような場合には、電子辞書データとして英和辞書に限らず種々の辞書データを用いることができるのは言うまでもない。
【０１０３】
さらに、上記実施の形態において、単語見出格納部８に記憶されている単語見出一覧と電子辞書格納部１１に記憶されている電子英和辞書とは、共通の辞書データを用いて実現されるように構成することも可能であり、このようにすることによって、データの格納部の効率化をはかることができる。
【０１０４】
また、上記実施の形態においては、ＣＰＵ９６によって実行されるプログラムが、ＲＯＭ９７に記憶されたものである場合を説明したが、このＲＯＭ９７に記憶されたプログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭなどの他の記録媒体に記録されているプログラムをＨＤＤ９５にインストールすることによって実現することが可能である。あるいはまた、インストールを行わずに、上記の他の記録媒体に記録されたデータを直接読み取りながらプログラムの実行をすることも可能である。
【０１０５】
さらに、プログラムや辞書データなどの記録手段として、上記で説明したＨＤＤ９５やＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の記録手段の他にも、例えば、Ｂｌｕｅ−Ｒａｙ−Ｄｉｓｃ（Ｒ）やＡＯＤ（ＡｄｖａｎｃｅｄＯｐｔｉｃａｌＤｉｓｃ）などの青色レーザを用いた次世代光ディスク記憶媒体、赤色レーザを用いるＨＤ−ＤＶＤ９、青紫色レーザを用いるＢｌｕｅ−Ｌａｓｅｒ−ＤＶＤ等、今後開発される種々の大容量記憶媒体を用いて本発明を実施することが可能である。またさらに、これら各種の記録媒体として、ネットワークを介して設置されたサーバ装置に接続されたネットワークドライブ等の記録装置を用いて構成することも可能である。
【０１０６】
【発明の効果】
本発明により、入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムを提供することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る電子英和辞書装置のブロック図である。
【図２】図１の音素モデル格納部に格納されている音素モデルの例を示す図である。
【図３】図１の尤度計算部が音素認識をする際に用いる文法を説明するための図である。
【図４】図１の単語見出格納部に格納されている単語見出一覧の例を示す図である。
【図５】図１の誤り訂正テーブルに格納されている誤り訂正テーブルの例を示す図である。
【図６】図１に示す候補単語検出部が類似度を算出する動作を説明するための図である。
【図７】図１に示す候補単語検出部が生成された訂正音素列と一致する単語を英和辞書見出から検出する動作を説明するための図である。
【図８】図１に示す表示部の表示例を示す図である。
【図９】図１の電子英和辞書装置と同様の動作を実行することができるコンピュータのブロック図である。
【図１０】図１の電子英和辞書装置の検索動作を示すフローチャート図である。
【図１１】図１の電子英和辞書装置の候補単語検出動作を示すフローチャート図である。
【図１２】音声認識の難易を説明するための図である。
【符号の説明】
１…音声入力部、２…入力音声格納部、５…音声特徴抽出部、６…音素モデル格納部、７…尤度計算部、８…単語見出格納部、９…誤り訂正テーブル格納部、１０…候補単語検出部、１１…電子辞書格納部、１２…選択部、１３…検索部、１４…表示部、１００…出力候補単語バッファ、２００…最大類似単語バッファ

Claims

所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段と、
を備える音声認識装置。
前記訂正用音素格納手段は、前記音素認識手段が、音声により入力された前記訂正用音素を対応する前記所定の音素と誤って認識し、該誤って認識した所定の音素を出力する誤り頻度を、該所定の音素及び該訂正用音素と対応付けて格納し、
前記訂正手段は、前記出力された音素列の中から、前記誤り頻度が高い所定の音素から順に検出し、該検出した所定の音素を対応する訂正用音素に置換する、
ことを特徴とする請求項１に記載の音声認識装置。
前記訂正用音素格納手段は、前記単語辞書の中から前記訂正された音素列に対応する単語が検出された場合、前記訂正手段おいて置換された音素及び訂正用音素に対応する前記誤り頻度を更新する、
ことを特徴とする請求項２に記載の音声認識装置。
前記音声は、アルファベットからなる音素列により入力される、
ことを特徴とする請求項１乃至請求項３のいずれか１項に記載の音声認識装置。
前記音素認識手段は、各文字の音素をモデル化した音素モデルを参照して、入力された文字列の各音素を認識し、該認識した音素の尤度を求め、所定数の音素列を尤度の高い方から順に抽出し、
前記訂正手段は、前記音素認識手段により抽出された所定数の音素列を前記尤度が高い方から順に訂正する、
ことを特徴とする請求項１乃至請求項４のいずれか１項に記載の音声認識装置。
前記認識結果出力手段は、前記単語辞書の中から前記音素認識手段により抽出された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する、
ことを特徴とする請求項５に記載の音声認識装置。
前記訂正手段は、前記単語辞書の中から前記抽出された音素列に対応する単語を検出できなかった場合、該抽出された音素列を訂正する、
ことを特徴とする請求項６に記載の音声認識装置。
前記訂正手段は、前記単語辞書の中から前記訂正された音素列に対応する単語を検出できなかった場合、該訂正された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該訂正された音素列をさらに訂正する再訂正手段を備える、
ことを特徴とする請求項１乃至請求項７のいずれか１項に記載の音声認識装置。
前記認識結果出力手段は、前記再訂正手段により所定回数以上訂正された音素列に対応する単語を前記単語辞書の中から検出できなかった場合、前記抽出された音素列と前記訂正された音素列とに類似する単語を該単語辞書の中から検出し、該検出した類似単語を認識結果として出力する類似単語検出手段をさらに備える、
ことを特徴とする請求項８に記載の音声認識装置。
前記類似単語検出手段は、前記検出された類似単語を構成する音素列の中から、前記抽出された音素列及び／又は前記訂正された音素列の各音素と同じ音素及び異なる音素を検出し、該検出した同じ音素及び異なる音素の数に基づいて、該類似単語と該抽出された音素列及び／又は該訂正された音素列との類似度を算出し、該算出した類似度が予め設定された閾値より大きい場合、該類似する単語を認識結果として出力する、
ことを特徴とする請求項９に記載の音声認識装置。
前記認識結果出力手段は、前記単語辞書の中から前記認識された音素列及び／又は前記訂正された音素列に対応する単語を複数検出した場合、該検出した複数の単語を出力するとともに、ユーザに該出力された単語から所望の単語を選択することを指示し、ユーザにより所望の単語が選択されると、該選択された単語を認識結果として出力する、
ことを特徴とする請求項１乃至請求項１０のいずれか１項に記載の音声認識装置。
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、
前記電子辞書の中から前記認識結果出力手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、さらにを備える、
ことを特徴とする請求項１乃至請求項１１のいずれか１項に記載の音声認識装置。
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、
前記電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、
を備える電子辞書装置。
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力工程と、
を備える音声認識方法。
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出する単語検出工程と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納工程と、
前記電子辞書の中から前記単語検出工程により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力工程と、
を備える検索方法。
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段、
としてコンピュータを機能させるためのプログラム。
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段、
としてコンピュータを機能させるためのプログラム。