JP2004309928A - 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム - Google Patents
音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム Download PDFInfo
- Publication number
- JP2004309928A JP2004309928A JP2003105795A JP2003105795A JP2004309928A JP 2004309928 A JP2004309928 A JP 2004309928A JP 2003105795 A JP2003105795 A JP 2003105795A JP 2003105795 A JP2003105795 A JP 2003105795A JP 2004309928 A JP2004309928 A JP 2004309928A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- word
- correction
- predetermined
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムを提供する。
【解決手段】
電子英和辞書装置は、音声入力部1と入力音声格納部2とパワー算出部3と音声区間検出部4と音声特徴抽出部5と音素モデル格納部6と尤度計算部7と単語見出格納部8と誤り訂正テーブル格納部9と候補単語検出部10と電子辞書格納部11と選択部12と検索部13と表示部14とから構成されている。候補単語検出部10は、誤り訂正テーブルにおいて誤り頻度が最も高い訂正パターンから順に尤度計算部7において抽出された第1位音素列〜第N位音素列の音素を一つだけ訂正用音素に置換して、1次訂正音素列を生成し、該生成した1次訂正音素列と一致する単語を英和辞書見出から検出し、検出した単語を出力候補単語として出力候補単語バッファ100に格納する。
【選択図】 図1
【解決手段】
電子英和辞書装置は、音声入力部1と入力音声格納部2とパワー算出部3と音声区間検出部4と音声特徴抽出部5と音素モデル格納部6と尤度計算部7と単語見出格納部8と誤り訂正テーブル格納部9と候補単語検出部10と電子辞書格納部11と選択部12と検索部13と表示部14とから構成されている。候補単語検出部10は、誤り訂正テーブルにおいて誤り頻度が最も高い訂正パターンから順に尤度計算部7において抽出された第1位音素列〜第N位音素列の音素を一つだけ訂正用音素に置換して、1次訂正音素列を生成し、該生成した1次訂正音素列と一致する単語を英和辞書見出から検出し、検出した単語を出力候補単語として出力候補単語バッファ100に格納する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムに関する。
【0002】
【従来の技術】
音声認識装置において、話者により入力された単語や文字と該単語等と発音が類似する単語等とを的確に識別することが容易ではない場合がある。
【0003】
例えば図12に示すように、音声認識装置において、「一攫千金(いっかくせんきん)」と「臥薪嘗胆(がしんしょうたん)」という2単語のみが候補単語である場合、多少淀んで発音しても、これらを誤認することはまずあり得ない。また、「国立(くにたち)」と「立川(たちかわ)」とが候補単語である場合も、「一攫千金(いっかくせんきん)」と「臥薪嘗胆(がしんしょうたん)」との場合程ではないにしても、容易に識別することができる。
【0004】
しかしながら、これが「東京都(とうきょうと)」と「京都府(きょうとふ)」との場合、これらの単語を識別することは必ずしも容易とはいえない。例えば、話者が「東京都(とうきょうと)」と入力しても、「東(とう)」の部分を曖昧に発音したり、小声で発音したりすると周囲のノイズ等に紛れる等して、「京都府(きょうとふ)」と誤って認識されることがある。
【0005】
さらに、これがアルファベット同士の場合、例えば「D」と「T」との場合等、話者によっては人間ですら誤って認識してしまうものに関しては、上記のものとは比較にならない程その識別が困難となる。「D」と「T」との他にも、アルファベットには、「B」、「E」、「P」等、発音が類似する文字が多々あり、このようなアルファベットの認識は、音声認識装置における音声認識の中でも最も困難な部類に入る。
【0006】
また、かかる事情もあって、電子英和辞書装置における英単語の入力手段としては、キーボードが大半を占める(例えば、特許文献1参照)。しかし、キーボードを備える電子英和辞書装置は、小型化することが困難である。また、このような電子英和辞書装置は、キーボードを使い慣れていないユーザにとって不便である。
【0007】
また一部には、スキャナとOCR(Optical Character Recognition)とを用いて英単語を入力するものもあるが、スキャナ部分のハードウェアが必要になるため製品コストが高くなり、また装置が大型化してしまう等、実用上不便である。
【0008】
【特許文献1】
特開2002−7420号公報(第4頁、第1図)。
【0009】
【発明が解決しようとする課題】
まず、上記の事情を考慮して、話者が音声によって入力した単語(例えば、「ハロー」)を認識し、該認識した単語(hello)を内蔵する電子英和辞書から検索する電子英和辞書装置について以下考察する。
【0010】
例えばこの電子辞書が5万語を収録する辞書だとすると、電子英和辞書装置は、この5万語の発音を予め登録しておく必要がある。このような電子英和辞書においては、音声により入力された単語を認識する際に大きなメモリと高速なCPU(Central Processing Unit)とが必要となる。また、この電子英和辞書装置の主なユーザとしては、日本人とアメリカ人やイギリス人等英語を母国語とする者とが考えられる。例えば、「Multimedia」について音声入力する場合、日本人の多くは、「マルチメディア」と発音し、アメリカ人やイギリス人等は、「マルタイミィーディア」というように発音する。さらに、特に英語の発音に関しては、日本人同士であっても千差万別である。このような発音の違いを考慮して電子英和辞書装置を製造することは、事実上不可能に近い。
【0011】
次に、話者が単語を一字ずつ音声により入力した文字列(例えば、「エイチ→イー→エル→エル→オー」)を認識し、該認識した単語(hello)を内蔵する電子英和辞書において検索する電子英和辞書装置について以下考察する。
【0012】
かかる電子英和辞書の場合、文字単位で入力された音声を認識すればよいため、上述の単語単位で入力された音声を認識する電子英和辞書程、大きなメモリと高速なCPUとを必要としない。
【0013】
しかしながら、上述したようにアルファベットには、「B」、「D」、「E」、「T」、「P」等、発音が類似する文字が多々あるため、この場合も高精度に音声を認識することは、難しい。
【0014】
本発明は、上記課題を解決するためになされたのもであって、入力された音声の各音素を認識して得た音素列に適切な訂正を加えることにより、該入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムを提供することを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するため、本発明の第1の観点に係る音声認識装置は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段と、
を備える。
【0016】
また、上記構成において、前記訂正用音素格納手段は、前記音素認識手段が音声により入力された前記訂正用音素を対応する前記所定の音素と誤って認識し、該誤って認識した所定の音素を出力する誤り頻度を、該所定の音素及び該訂正用音素と対応付けて格納し、
前記訂正手段は、前記出力された音素列の中から、前記誤り頻度が高い所定の音素から順に検出し、該検出した所定の音素を対応する訂正用音素に置換してもよい。
【0017】
さらに、上記構成において、前記訂正用音素格納手段は、前記単語辞書の中から前記訂正された音素列に対応する単語が検出された場合、前記訂正手段おいて置換された音素及び訂正用音素に対応する前記誤り頻度を更新してもよい。
【0018】
また、上記構成において、前記音声は、アルファベットからなる音素列により入力されてもよい。
【0019】
さらに、上記構成において、前記音素認識手段は、各文字の音素をモデル化した音素モデルを参照して、入力された文字列の各音素を認識し、該認識した音素の尤度を求め、所定数の音素列を尤度の高い方から順に抽出し、
前記訂正手段は、前記音素認識手段により抽出された所定数の音素列を前記尤度が高い方から順に訂正してもよい。
【0020】
また、上記構成において、前記認識結果出力手段は、前記単語辞書の中から前記音素認識手段により抽出された音素列に対応する単語を検出し、該検出した単語を認識結果として出力してもよい。
【0021】
さらに、上記構成において、前記訂正手段は、前記単語辞書の中から前記抽出された音素列に対応する単語を検出できなかった場合、該抽出された音素列を訂正してもよい。
【0022】
また、上記構成において、前記訂正手段は、前記単語辞書の中から前記訂正された音素列に対応する単語を検出できなかった場合、該訂正された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該訂正された音素列をさらに訂正する再訂正手段を備えてもよい。
【0023】
上記構成において、前記認識結果出力手段は、前記再訂正手段により所定回数以上訂正された音素列に対応する単語を前記単語辞書の中から検出できなかった場合、前記抽出された音素列と前記訂正された音素列とに類似する単語を該単語辞書の中から検出し、該検出した類似単語を認識結果として出力する類似単語検出手段をさらに備えてもよい。
【0024】
また、上記構成において、前記類似単語検出手段は、前記検出された類似単語を構成する音素列の中から、前記抽出された音素列及び/又は前記訂正された音素列の各音素と同じ音素及び異なる音素を検出し、該検出した同じ音素及び異なる音素の数に基づいて、該類似単語と該抽出された音素列及び/又は該訂正された音素列との類似度を算出し、該算出した類似度が予め設定された閾値より大きい場合、該類似する単語を認識結果として出力してもよい。
【0025】
さらに、上記構成において、前記認識結果出力手段は、前記単語辞書の中から前記認識された音素列及び/又は前記訂正された音素列に対応する単語を複数検出した場合、該検出した複数の単語を出力するとともに、ユーザに該出力された単語から所望の単語を選択することを指示し、ユーザにより所望の単語が選択されると、該選択された単語を認識結果として出力してもよい。
【0026】
上記構成において、複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、、
前記電子辞書の中から前記認識結果出力手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、さらにを備えてもよい。
【0027】
上記目的を達成するため、本発明の第2の観点に係る電子辞書装置は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、
前記電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、
を備える。
【0028】
上記目的を達成するため、本発明の第3の観点に係る音声認識方法は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力工程と、
を備える。
【0029】
上記目的を達成するため、本発明の第4の観点に係る検索方法は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出する単語検出工程と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納工程と、
前記電子辞書の中から前記単語検出工程により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力工程と、
を備える。
【0030】
上記目的を達成するため、本発明の第5の観点に係るプログラムは、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段、
としてコンピュータを機能させる。
【0031】
上記目的を達成するため、本発明の第6の観点に係るプログラムは、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段、
としてコンピュータを機能させる。
【0032】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態に係る電子英和辞書装置について説明する。
【0033】
図1は、この実施の形態にかかる電子英和辞書装置の構成を示すブロック図である。図示するように、この電子英和辞書装置は、音声入力部1と、入力音声格納部2と、パワー算出部3と、音声区間検出部4と、音声特徴抽出部5と、音素モデル格納部6と、尤度計算部7と、単語見出格納部8と、誤り訂正テーブル格納部9と、候補単語検出部10と、電子辞書格納部11と、選択部12と、検索部13と、表示部14と、を有する構成となっている。
【0034】
音声入力部1は、話者により入力されたアルファベットの音素列からなる音声(アナログ信号)をA/D変換して、時系列で示すデジタル音声信号(例えば、PCM信号)を出力する。
【0035】
入力音声格納部2は、音声入力部1から出力されたデジタル音声信号を格納する。
【0036】
パワー算出部3は、音声データ格納部2に格納されたデジタル音声信号を、所定の時間間隔(2.0〜4.0ミリ秒)で、時間窓などのハミング窓によって複数のフレームに区分し、区分した各フレームから音声データを切り出してパワー成分を求める。
【0037】
音声区間検出部4は、パワー算出部3が算出したパワー成分が所定の閾値を超えたフレームを音声区間として検出する。例えば、1秒以内にパワー成分が閾値を下回ったフレームは、音声区間としない。
【0038】
音声特徴抽出部5は、音声区間検出部4が検出した音声区間について、それぞれパワー算出部3が算出したパワー成分、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficients:MFCC)に基づいて音響特徴ベクトルX(t)を計算する。
【0039】
音素モデル格納部6は、認識対象となる音声を構成する全てのアルファベット(音素)をモデル化した音素モデルを格納している。音素モデルとしては、例えば図2に示すような隠れマルコフモデル(HMM)が適用される。図2では、音素「m」についてのみ示しているが、実際には、全ての音素についてのHMMが記憶されている。
【0040】
尤度計算部7は、音響特徴ベクトルX(t)とHMMによる音素モデルとを参照してフレーム毎の連続音素認識を図3に示す文法に従って行う。図3において、silBは、話者が音声を入力する前の無音を、pauseは、話者が音声を入力している途中での無音、silEは、話者が音声を入力し終わった後の無音を示す。なお、図3において、pauseを省略してもよい。
【0041】
図1に示す尤度計算部7は、各フレームの尤度の合計が最大となるものを第1位音素列として抽出し、さらに、各フレームの尤度の合計に従って第N位音素列(Nは2以上の整数)まで抽出する。
【0042】
単語見出格納部8は、後述する英和辞書において検索可能な単語の音素列情報を登録した単語見出一覧を格納している。この単語見出一覧は、例えば図4に示すようなものであり、「moonlight」という単語について、「m→o→o→n→l→i→g→h→t」という音素列を登録している。
【0043】
図1に示す誤り訂正テーブル格納部9は、所定の音素と該所定の音素に発音が類似する訂正用音素とからなる訂正パターンと、誤り易さを示す誤り頻度と、該誤りの種類と、を示す情報を登録する誤り訂正テーブルを格納する。また、誤り訂正テーブルは、訂正パターンを誤り頻度が高い順に従って配列している。
【0044】
なお、誤り頻度とは、尤度計算部7が、音声により入力された訂正用音素を、該訂正用音素に対応する所定の音素と誤って認識して出力する頻度を示すものである。また、誤りの種類には、話者が発音した音素を他の音素と誤認する「置換」誤りと、話者が発音した2つ音素を1つの音素と誤認する「削除」誤りと、話者が発音した1つ音素を2つ音素と誤認する「挿入」誤りと、がある。
【0045】
誤り訂正テーブルは、例えば図5に示すようようなものであって、音素「m」と音素「m」に発音が類似する訂正用音素「n」とからなる訂正パターンと、話者が音声「エヌ」を入力した場合に尤度計算部7が音素「m」と誤って認識する誤り頻度「384」と、この誤りの種類「置換」誤りと、を示す情報を登録している。
【0046】
図1に示す候補単語検出部10は、尤度計算部7で抽出された第1位音素列、第2位音素列、…、第N位音素列に一致する単語を単語見出格納部8に格納されている英和辞書見出から検出し、検出した単語を出力候補単語として内蔵する出力候補単語バッファ100に格納する。
【0047】
また、候補単語検出部10は、第1位音素列〜第N位音素列に最も類似する単語を検出する。この最も類似する単語を検出するに際して、候補単語検出部10は、次の数式を満たす類似度を算出する。
【数1】
(類似度)=(一致音素数/誤り総数)
【0048】
数1において、一致音素数とは、単語見出格納部8に格納されている所定の単語を構成する音素の中で、第1位音素列〜第N位音素列と一致する音素の数である。誤り総数とは、単語見出格納部8に格納されている所定の単語を構成する音素の中で、第1位音素列〜第N位音素列と異なる音素の数である。
【0049】
例えば図6に示すように、単語見出格納部8に格納されている単語「fleshcorored」と第k位音素列(1≦k≦N)「fleshcororea」との一致音素数は、「11」であり、誤り総数は、「1」である。従って、この場合の「fleshcorored」と「fleshcororea」との類似度は、「11」となる。
【0050】
候補単語検出部10は、上記数1に従って、第1位音素列〜第N位音素列と、単語見出格納部8に格納されている各単語と、の類似度を算出して行き、算出した類似度が最大となる単語を最大類似単語として内蔵する最大類似単語バッファ200に格納する。
【0051】
また、候補単語検出部10は、第1位音素列〜第N位音素列の各音素について誤り訂正テーブルに基づいて誤り訂正をし、誤り訂正した音素列と一致する単語を英和辞書見出から検出する。
【0052】
この誤り訂正について図5及び図7を参照して説明する。候補単語検出部10は、図5に示す訂正テーブルにおいて誤り頻度が最も高い訂正パターンから順に第1位音素列を構成する音素を一つだけ訂正用音素に置換して、図7に示す1次訂正音素列を生成する。
【0053】
候補単語検出部10は、この1次訂正音素列と一致する単語を英和辞書見出から検出し、検出できなかった場合、頻度が次に高い訂正パターンに従って、第1位音素列の音素を訂正用音素に置換して別の1次訂正音素列を生成する。
【0054】
候補単語検出部10は、音素の置換と一致する単語の検出とを繰り返し、所定の音素が置換された1次訂正音素列と一致する単語を英和辞書見出の中から検出すると、検出した単語を出力候補単語として出力候補単語バッファ100に格納する。なお、一致する単語を複数検出した場合、候補単語検出部10は、誤り頻度が高い訂正パターンに従って置換された単語程上位となるように、検出された単語に順位を付す。
【0055】
さらに、候補単語検出部10は、第2位音素列〜第N位音素列についても同様に音素を一つずつ置換して1次訂正音素列を生成し、1次訂正音素列と一致する単語を英和辞書見出において検出する。
【0056】
また、候補単語検出部10は、生成された全ての1次訂正音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0057】
出力候補単語バッファ100に未だ単語が格納されていない場合、即ち、第1位音素列〜第N位音素列及びこれらの1次訂正音素列と一致する単語を英和辞書見出から検出できなかった場合、候補単語検出部10は、1次訂正音素列の音素をさらにもう一つ訂正用音素に置換して2次訂正音素列を生成する。
【0058】
候補単語検出部10は、上記1次訂正音素列と同様に、この2次訂正音素列についても、英和単語見出において一致する単語を検出し、検出された単語を出力候補単語として出力候補単語バッファ100に格納する。また、候補単語検出部10は、生成された全ての2次訂正音素列についても最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0059】
さらに、2次音素列とも一致する単語を英和辞書見出から検出できなかった場合、即ち、出力候補単語バッファ100に未だ単語が格納されていない場合、候補単語検出部10は、最大類似単語バッファ200に格納された最大類似単語の中から、類似度が所定の閾値以上の最大類似単語を抽出する。候補単語検出部10は、該抽出した最大類似単語を出力候補単語として出力候補単語バッファ100に格納する。
【0060】
図1に示す電子辞書格納部11は、電子英和辞書を格納しており、この電子英和辞典には、各単語に対応した発音、品詞、意味等が登録されている。
【0061】
選択部12は、例えば、タッチパネル等から構成されており、話者が所望の単語等を選択するのに用いられ、表示部14は、検索部13において検索された単語とその意味等とを表示する。
【0062】
検索部13は、単語の意味等を電子英和辞書において検索して、該検索した単語とその意味等とを表示部14に表示する。
【0063】
検索部13は、出力候補単語バッファ100に単語が格納されていない場合、入力された文字列からなる単語を検出できなかった旨を表示部14に表示する(図8A)。
【0064】
検索部13は、出力候補単語バッファ100に1つだけ出力候補単語が格納されている場合、該格納されている出力候補単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部14に表示する(図8B)。
【0065】
検索部13は、出力候補単語バッファ100に複数の出力候補単語が格納されている場合、格納されている複数の出力候補単語を表示部14に表示するとともに、表示された複数の出力候補単語から所望の単語を選択部12において選択することを話者に指示する(図8C)。
【0066】
検索部13は、話者がこの指示に応じて所望の単語を選択すると、選択された単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部14に表示する(図8B)。なお、検索部13は、格納されている複数の単語の数が所定数を超える場合、表示部14に表示する出力候補単語の数を該所定数に制限してもよい。この場合、表示する出力候補単語は、上記候補単語検出部10で定めた順位に従って表示するものとする。
【0067】
なお、上記の電子英和辞書装置は、図9に示すように、パーソナルコンピュータなどの汎用コンピュータをプラットフォームとして実現することができる。
【0068】
例えば、音声入力部1、選択部12、表示部14は、夫々、汎用コンピュータに接続されるマイクロフォン等の音声入力インターフェース91、マウス、キーボード等の選択入力インターフェイス92、表示装置等の表示出力インターフェイス93、によって実現できる。
【0069】
入力音声格納部2は、RAM(Random Access Memory)94によって実現され、音素モデル格納部6、単語見出格納部8、誤り訂正テーブル格納部9、電子辞書格納部11は、それぞれに対応した領域がHDD(Hard Disk Drive)95に確保されることによって実現される。音素モデル格納部6が格納する音素モデル、単語見出格納部8が格納する単語見出一覧、誤り訂正テーブル格納部9が格納する誤り訂正テーブル及び電子辞書格納部11が格納する英和辞書は、検索処理を行う前に予め外部装置から読み込まれてHDD95に記憶されるものである。
【0070】
パワー算出部3、音声区間検出部4、音声特徴検出部5、尤度計算部7、候補単語検出部10、検索部13は、CPU(Central Processing Unit)96がROM(Read Only Memory)97に記憶されたプログラムを実行することによって実現される。
【0071】
次に、上記構成を備える電子英和辞書装置の検索動作について図面を参照して説明する。音声入力部1は、話者により入力されたアルファベットの音素列、例えば「エム→オー→オー→エヌ→エル→アイ→ジー→エイチ→ティー」からなる音声をA/D変換して、時系列で示すデジタル音声信号を出力し、入力音声格納部2は、この出力されたデジタル音声信号を格納する。入力音声格納部2が格納したデジタル音声信号をパワー算出部3に供給することにより、図10のフローチャートに示す検索動作を開始する。
【0072】
パワー算出部3は、供給されたデジタル音声信号を所定時間毎で複数のフレームに区分し、各フレームのパワー成分を算出し、音声区間検出部4は、各フレームのパワー成分を所定の閾値と比較し、閾値を上回ったフレームを音声区間として抽出する。音声特徴抽出部5は、算出された各フレームのパワー成分及びMFCCに基づいて、抽出された音声区間の音響特徴ベクトルX(t)を計算する(ステップS1001)。
【0073】
尤度計算部7は、音響特徴ベクトルX(t)とHMMによる音素モデルとを参照してフレーム毎の連続音素認識を行い、各フレームの尤度の合計が最大となるものを暫定的に第1位音素列として抽出し、さらに、各フレームの尤度の合計に従って第N位音素列(Nは2以上の整数)まで抽出する(ステップS1002)。
【0074】
候補単語検出部10は、尤度計算部7で抽出された第1位音素列〜第N位音素列及び、該音素列の音素を置換することにより生成された訂正音素列等と一致する単語を単語見出格納部8に格納されている英和辞書見出の中から検出し、検出した単語を出力候補単語として出力候補単語バッファ100に格納する(ステップS1003)。
【0075】
検索部13は、出力候補単語バッファ100に出力候補単語が格納されているか否かを検出する(ステップS1004)。
【0076】
出力候補単語バッファ100に出力候補単語が格納されている場合(ステップS1004にてYES)、検索部13は、格納されている出力候補単語の数を検出する(ステップS1005)。
【0077】
出力候補単語バッファ100に格納されている出力候補単語が複数ある場合(ステップS1005にてYES)、検索部13は、格納されている複数の出力候補単語を表示部14に表示するとともに、表示された複数の出力候補単語から所望の単語を選択部12において選択することを話者に指示する(ステップS1006)。
【0078】
話者がこの指示に応じて所望の単語を選択すると、検索部13は、選択された単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部14に表示して(ステップS1007)、図10に示すフローチャートを終了する。
【0079】
出力候補単語バッファ100に格納されている単語が1個だけの場合(ステップS1005にてNO)、検索部13は、この格納されている出力候補単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部14に表示して(ステップS1007)、図10に示すフローチャートを終了する。
【0080】
一方、出力候補単語バッファ100に単語が格納されていない場合(ステップS1004にてNO)、検索部13は、入力された単語を検索できなかった旨を表示部14に表示して(ステップS1007)、図10に示すフローチャートを終了する。
【0081】
続いて、上記ステップS1003における出力候補単語検出動作について図面を参照してより詳細に説明する。尤度計算部7において抽出された第1位音素列〜第N位音素列が候補単語検出部10に供給されると図11のフローチャートに示す出力候補単語検出動作を開始する。
【0082】
候補単語検出部10は、尤度計算部7で抽出された第1位音素列〜第N位音素列に一致する単語を単語見出格納部8に格納されている英和辞書見出から検出する。単語が検出された場合、候補単語検出部10は、検出した単語を出力候補単語として出力候補単語バッファ100に格納する(ステップS1101)。また、候補単語検出部10は、第1位音素列〜第N位音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0083】
候補単語検出部10は、誤り訂正テーブルにおいて誤り頻度が最も高い訂正パターンから順に第1位音素列〜第N位音素列の音素を一つだけ訂正用音素に置換して生成した1次訂正音素列に一致する単語を英和辞書見出から検出する。単語が検出された場合、候補単語検出部10は、検出した単語を出力候補単語として出力候補単語バッファ100に格納する(ステップS1102)。
【0084】
例えば図5及び図7に示すように、候補単語検出部10は、訂正テーブルにおいて誤り頻度が最も高い訂正パターン(誤り頻度「384」)に従って第1位音素列「monlight」を構成する音素「m」を訂正用音素「n」に置換して、1次訂正音素列「nonlight」を生成する。
【0085】
候補単語検出部10は、この1次訂正音素列「nonlight」と一致する単語を英和辞書見出から検出し、検出できなかった場合、誤り頻度が次に高い訂正パターン(誤り頻度「296」)に従って、第1位音素列「monlight」の音素「n」を訂正用音素「m」に置換して、別の1次訂正音素列「momlight」を生成する。
【0086】
候補単語検出部10は、このような音素の置換と単語の検出とを繰り返し、第1位音素列「monlight」の音素「o」を訂正用音素「oo」に置換した1次訂正音素列「moonlight」と一致する単語を英和辞書見出の中から検出すると、この検出された単語「moonlight」を出力候補単語として出力候補単語バッファ100に格納する。
【0087】
この時点において、出力候補単語バッファ100に出力候補単語が格納されている場合(ステップS1103にてYES)、候補単語検出部10は、図11に示すフローチャートを終了する。
【0088】
一方、この時点において、出力候補単語バッファ100に出力候補単語が格納されていない場合(ステップS1103にてNO)、候補単語検出部10は、1次音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0089】
候補単語検出部10は、1次音素列の音素をさらにもう一つ訂正用音素に置換して生成した2次音素列に一致する単語を英和辞書見出から検出する。単語が検出された場合、候補単語検出部10は、検出した単語を出力候補単語として出力候補単語バッファ100に格納する(ステップS1104)。
【0090】
この時点において、出力候補単語バッファ100に出力候補単語が格納されている場合(ステップS1105にてYES)、候補単語検出部10は、図11に示すフローチャートを終了する。
【0091】
一方、この時点において、出力候補単語バッファ100に出力候補単語が格納されていない場合(ステップS1105にてNO)、候補単語検出部10は、2次音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0092】
さらに、候補単語検出部10は、最大類似単語バッファ200に格納された最大類似単語のうち、類似度が所定の閾値以上(例えば10以上)の最大類似単語を検出する(ステップS1106)。
【0093】
最大類似単語バッファ200から所定の閾値以上の最大類似単語が検出された場合(ステップS1106にてYES)、候補単語検出部10は、この検出された最大類似単語を出力候補単語として出力候補単語バッファ100に格納し(ステップS1107)、図11に示すフローチャートを終了する。
【0094】
一方、最大類似単語バッファ200から所定の閾値以上の最大類似単語が検出されなかった場合(ステップS1106にてNO)、候補単語検出部10は、図11に示すフローチャートを終了する。
【0095】
以上説明したように、この電子英和辞書装置は、音声により入力できるため、キーボードを備える必要がなく、従来の電子辞書装置よりも小型化することができる。また、キー入力が苦手なユーザも安心して使用することができる。アルファベットからなる音素列により検索したい単語を音声入力するため、単語をそのまま音声入力する場合に比べて、話者による発音の違いが問題とならない。また、アルファベットにより入力するため、発音が分からない単語についても検索できる。
【0096】
また、この電子英和辞書装置は、尤度に従って抽出した音素列だけでなく、この音素列の所定の音素を、該音素に発音が類似する訂正用音素に置換した訂正音素列についても、一致する単語を英和辞書見出から検出するため、アルファベットにより入力された単語を認識できる確率が従来よりも高くなる。
【0097】
さらに、この電子英和辞書装置は、上記の音素列及び訂正音素列と類似する単語を検出することにより、該音素列及び訂正音素列と一致する単語を英和辞書見出から検出できなかった場合でも、高い精度で精度認識結果を出力することができる。
【0098】
本発明は、上記実施の形態に限定されず、種々の変形、応用が可能である。以下、本発明に適用可能な上記実施の形態の変形態様について、説明する。
【0099】
上記実施の形態において、候補単語検出部10は、尤度計算部7で抽出された第1位音素列〜第N位音素列に一致する単語を英和辞書見出から検出できたか否かに関わらず、第1位音素列〜第N位音素列の音素を一つだけ訂正用音素に置換して1次訂正音素列を生成していた。
しかし、本発明は、これに限定されず、候補単語検出部10は、第1位音素列〜第N位音素列に一致する単語を英和辞書見出から検出できた場合、訂正音素列を生成しなくてもよい。
また、候補単語検出部10は、第1位音素列〜第N位音素列、1次訂正音素列、及び2次訂正音素列と、一致する単語を英和辞書見出から検出した時点で、上記出力候補単語検出動作を終了してもよい。
さらに、候補単語検出部10は、所定数の訂正音素列を生成した時点で、上記出力候補単語検出動作を終了してもよい。
【0100】
また、上記実施の形態において、候補単語検出部10は、2次訂正音素列までしか生成しなかった。しかし、本発明は、これに限定されず、候補単語検出部10は、例えば、3次訂正音素列まで生成して単語見出からの検出を行う等するようにしてもよく、何次の訂正音素列まで生成するかは、任意である。
【0101】
さらに、単語見出一覧の中から訂正音素列に対応する単語が検出された場合、候補単語検出部10は、該置換された音素及び訂正用音素に対応して誤り訂正テーブルに登録されている誤り頻度を高めてもよい。これにより、特定話者に適合した誤り訂正テーブルにすることができる。
【0102】
また、上記実施の形態において、入力される音声は、アルファベットからなる音素列であった。しかし、本発明は、これに限定されず、入力される音声は、例えばひらがなからなる音素列であってもよいし、また、ドイツ語、フランス語、ロシア語、スペイン語、中国語、アラビア語等、他の諸外国語のアルファベットや文字に相当するものの音声からなる音素列であってもよい。そして、このような場合には、電子辞書データとして英和辞書に限らず種々の辞書データを用いることができるのは言うまでもない。
【0103】
さらに、上記実施の形態において、単語見出格納部8に記憶されている単語見出一覧と電子辞書格納部11に記憶されている電子英和辞書とは、共通の辞書データを用いて実現されるように構成することも可能であり、このようにすることによって、データの格納部の効率化をはかることができる。
【0104】
また、上記実施の形態においては、CPU96によって実行されるプログラムが、ROM97に記憶されたものである場合を説明したが、このROM97に記憶されたプログラムは、CD−ROMやDVD−ROM、DVD−RAMなどの他の記録媒体に記録されているプログラムをHDD95にインストールすることによって実現することが可能である。あるいはまた、インストールを行わずに、上記の他の記録媒体に記録されたデータを直接読み取りながらプログラムの実行をすることも可能である。
【0105】
さらに、プログラムや辞書データなどの記録手段として、上記で説明したHDD95やCD−ROM、DVD−ROM等の記録手段の他にも、例えば、Blue−Ray−Disc(R)やAOD(Advanced Optical Disc)などの青色レーザを用いた次世代光ディスク記憶媒体、赤色レーザを用いるHD−DVD9、青紫色レーザを用いるBlue−Laser−DVD等、今後開発される種々の大容量記憶媒体を用いて本発明を実施することが可能である。またさらに、これら各種の記録媒体として、ネットワークを介して設置されたサーバ装置に接続されたネットワークドライブ等の記録装置を用いて構成することも可能である。
【0106】
【発明の効果】
本発明により、入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る電子英和辞書装置のブロック図である。
【図2】図1の音素モデル格納部に格納されている音素モデルの例を示す図である。
【図3】図1の尤度計算部が音素認識をする際に用いる文法を説明するための図である。
【図4】図1の単語見出格納部に格納されている単語見出一覧の例を示す図である。
【図5】図1の誤り訂正テーブルに格納されている誤り訂正テーブルの例を示す図である。
【図6】図1に示す候補単語検出部が類似度を算出する動作を説明するための図である。
【図7】図1に示す候補単語検出部が生成された訂正音素列と一致する単語を英和辞書見出から検出する動作を説明するための図である。
【図8】図1に示す表示部の表示例を示す図である。
【図9】図1の電子英和辞書装置と同様の動作を実行することができるコンピュータのブロック図である。
【図10】図1の電子英和辞書装置の検索動作を示すフローチャート図である。
【図11】図1の電子英和辞書装置の候補単語検出動作を示すフローチャート図である。
【図12】音声認識の難易を説明するための図である。
【符号の説明】
1…音声入力部、2…入力音声格納部、5…音声特徴抽出部、6…音素モデル格納部、7…尤度計算部、8…単語見出格納部、9…誤り訂正テーブル格納部、10…候補単語検出部、11…電子辞書格納部、12…選択部、13…検索部、14…表示部、100…出力候補単語バッファ、200…最大類似単語バッファ
【発明の属する技術分野】
本発明は、入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムに関する。
【0002】
【従来の技術】
音声認識装置において、話者により入力された単語や文字と該単語等と発音が類似する単語等とを的確に識別することが容易ではない場合がある。
【0003】
例えば図12に示すように、音声認識装置において、「一攫千金(いっかくせんきん)」と「臥薪嘗胆(がしんしょうたん)」という2単語のみが候補単語である場合、多少淀んで発音しても、これらを誤認することはまずあり得ない。また、「国立(くにたち)」と「立川(たちかわ)」とが候補単語である場合も、「一攫千金(いっかくせんきん)」と「臥薪嘗胆(がしんしょうたん)」との場合程ではないにしても、容易に識別することができる。
【0004】
しかしながら、これが「東京都(とうきょうと)」と「京都府(きょうとふ)」との場合、これらの単語を識別することは必ずしも容易とはいえない。例えば、話者が「東京都(とうきょうと)」と入力しても、「東(とう)」の部分を曖昧に発音したり、小声で発音したりすると周囲のノイズ等に紛れる等して、「京都府(きょうとふ)」と誤って認識されることがある。
【0005】
さらに、これがアルファベット同士の場合、例えば「D」と「T」との場合等、話者によっては人間ですら誤って認識してしまうものに関しては、上記のものとは比較にならない程その識別が困難となる。「D」と「T」との他にも、アルファベットには、「B」、「E」、「P」等、発音が類似する文字が多々あり、このようなアルファベットの認識は、音声認識装置における音声認識の中でも最も困難な部類に入る。
【0006】
また、かかる事情もあって、電子英和辞書装置における英単語の入力手段としては、キーボードが大半を占める(例えば、特許文献1参照)。しかし、キーボードを備える電子英和辞書装置は、小型化することが困難である。また、このような電子英和辞書装置は、キーボードを使い慣れていないユーザにとって不便である。
【0007】
また一部には、スキャナとOCR(Optical Character Recognition)とを用いて英単語を入力するものもあるが、スキャナ部分のハードウェアが必要になるため製品コストが高くなり、また装置が大型化してしまう等、実用上不便である。
【0008】
【特許文献1】
特開2002−7420号公報(第4頁、第1図)。
【0009】
【発明が解決しようとする課題】
まず、上記の事情を考慮して、話者が音声によって入力した単語(例えば、「ハロー」)を認識し、該認識した単語(hello)を内蔵する電子英和辞書から検索する電子英和辞書装置について以下考察する。
【0010】
例えばこの電子辞書が5万語を収録する辞書だとすると、電子英和辞書装置は、この5万語の発音を予め登録しておく必要がある。このような電子英和辞書においては、音声により入力された単語を認識する際に大きなメモリと高速なCPU(Central Processing Unit)とが必要となる。また、この電子英和辞書装置の主なユーザとしては、日本人とアメリカ人やイギリス人等英語を母国語とする者とが考えられる。例えば、「Multimedia」について音声入力する場合、日本人の多くは、「マルチメディア」と発音し、アメリカ人やイギリス人等は、「マルタイミィーディア」というように発音する。さらに、特に英語の発音に関しては、日本人同士であっても千差万別である。このような発音の違いを考慮して電子英和辞書装置を製造することは、事実上不可能に近い。
【0011】
次に、話者が単語を一字ずつ音声により入力した文字列(例えば、「エイチ→イー→エル→エル→オー」)を認識し、該認識した単語(hello)を内蔵する電子英和辞書において検索する電子英和辞書装置について以下考察する。
【0012】
かかる電子英和辞書の場合、文字単位で入力された音声を認識すればよいため、上述の単語単位で入力された音声を認識する電子英和辞書程、大きなメモリと高速なCPUとを必要としない。
【0013】
しかしながら、上述したようにアルファベットには、「B」、「D」、「E」、「T」、「P」等、発音が類似する文字が多々あるため、この場合も高精度に音声を認識することは、難しい。
【0014】
本発明は、上記課題を解決するためになされたのもであって、入力された音声の各音素を認識して得た音素列に適切な訂正を加えることにより、該入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムを提供することを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するため、本発明の第1の観点に係る音声認識装置は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段と、
を備える。
【0016】
また、上記構成において、前記訂正用音素格納手段は、前記音素認識手段が音声により入力された前記訂正用音素を対応する前記所定の音素と誤って認識し、該誤って認識した所定の音素を出力する誤り頻度を、該所定の音素及び該訂正用音素と対応付けて格納し、
前記訂正手段は、前記出力された音素列の中から、前記誤り頻度が高い所定の音素から順に検出し、該検出した所定の音素を対応する訂正用音素に置換してもよい。
【0017】
さらに、上記構成において、前記訂正用音素格納手段は、前記単語辞書の中から前記訂正された音素列に対応する単語が検出された場合、前記訂正手段おいて置換された音素及び訂正用音素に対応する前記誤り頻度を更新してもよい。
【0018】
また、上記構成において、前記音声は、アルファベットからなる音素列により入力されてもよい。
【0019】
さらに、上記構成において、前記音素認識手段は、各文字の音素をモデル化した音素モデルを参照して、入力された文字列の各音素を認識し、該認識した音素の尤度を求め、所定数の音素列を尤度の高い方から順に抽出し、
前記訂正手段は、前記音素認識手段により抽出された所定数の音素列を前記尤度が高い方から順に訂正してもよい。
【0020】
また、上記構成において、前記認識結果出力手段は、前記単語辞書の中から前記音素認識手段により抽出された音素列に対応する単語を検出し、該検出した単語を認識結果として出力してもよい。
【0021】
さらに、上記構成において、前記訂正手段は、前記単語辞書の中から前記抽出された音素列に対応する単語を検出できなかった場合、該抽出された音素列を訂正してもよい。
【0022】
また、上記構成において、前記訂正手段は、前記単語辞書の中から前記訂正された音素列に対応する単語を検出できなかった場合、該訂正された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該訂正された音素列をさらに訂正する再訂正手段を備えてもよい。
【0023】
上記構成において、前記認識結果出力手段は、前記再訂正手段により所定回数以上訂正された音素列に対応する単語を前記単語辞書の中から検出できなかった場合、前記抽出された音素列と前記訂正された音素列とに類似する単語を該単語辞書の中から検出し、該検出した類似単語を認識結果として出力する類似単語検出手段をさらに備えてもよい。
【0024】
また、上記構成において、前記類似単語検出手段は、前記検出された類似単語を構成する音素列の中から、前記抽出された音素列及び/又は前記訂正された音素列の各音素と同じ音素及び異なる音素を検出し、該検出した同じ音素及び異なる音素の数に基づいて、該類似単語と該抽出された音素列及び/又は該訂正された音素列との類似度を算出し、該算出した類似度が予め設定された閾値より大きい場合、該類似する単語を認識結果として出力してもよい。
【0025】
さらに、上記構成において、前記認識結果出力手段は、前記単語辞書の中から前記認識された音素列及び/又は前記訂正された音素列に対応する単語を複数検出した場合、該検出した複数の単語を出力するとともに、ユーザに該出力された単語から所望の単語を選択することを指示し、ユーザにより所望の単語が選択されると、該選択された単語を認識結果として出力してもよい。
【0026】
上記構成において、複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、、
前記電子辞書の中から前記認識結果出力手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、さらにを備えてもよい。
【0027】
上記目的を達成するため、本発明の第2の観点に係る電子辞書装置は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、
前記電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、
を備える。
【0028】
上記目的を達成するため、本発明の第3の観点に係る音声認識方法は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力工程と、
を備える。
【0029】
上記目的を達成するため、本発明の第4の観点に係る検索方法は、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出する単語検出工程と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納工程と、
前記電子辞書の中から前記単語検出工程により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力工程と、
を備える。
【0030】
上記目的を達成するため、本発明の第5の観点に係るプログラムは、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段、
としてコンピュータを機能させる。
【0031】
上記目的を達成するため、本発明の第6の観点に係るプログラムは、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段、
としてコンピュータを機能させる。
【0032】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態に係る電子英和辞書装置について説明する。
【0033】
図1は、この実施の形態にかかる電子英和辞書装置の構成を示すブロック図である。図示するように、この電子英和辞書装置は、音声入力部1と、入力音声格納部2と、パワー算出部3と、音声区間検出部4と、音声特徴抽出部5と、音素モデル格納部6と、尤度計算部7と、単語見出格納部8と、誤り訂正テーブル格納部9と、候補単語検出部10と、電子辞書格納部11と、選択部12と、検索部13と、表示部14と、を有する構成となっている。
【0034】
音声入力部1は、話者により入力されたアルファベットの音素列からなる音声(アナログ信号)をA/D変換して、時系列で示すデジタル音声信号(例えば、PCM信号)を出力する。
【0035】
入力音声格納部2は、音声入力部1から出力されたデジタル音声信号を格納する。
【0036】
パワー算出部3は、音声データ格納部2に格納されたデジタル音声信号を、所定の時間間隔(2.0〜4.0ミリ秒)で、時間窓などのハミング窓によって複数のフレームに区分し、区分した各フレームから音声データを切り出してパワー成分を求める。
【0037】
音声区間検出部4は、パワー算出部3が算出したパワー成分が所定の閾値を超えたフレームを音声区間として検出する。例えば、1秒以内にパワー成分が閾値を下回ったフレームは、音声区間としない。
【0038】
音声特徴抽出部5は、音声区間検出部4が検出した音声区間について、それぞれパワー算出部3が算出したパワー成分、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficients:MFCC)に基づいて音響特徴ベクトルX(t)を計算する。
【0039】
音素モデル格納部6は、認識対象となる音声を構成する全てのアルファベット(音素)をモデル化した音素モデルを格納している。音素モデルとしては、例えば図2に示すような隠れマルコフモデル(HMM)が適用される。図2では、音素「m」についてのみ示しているが、実際には、全ての音素についてのHMMが記憶されている。
【0040】
尤度計算部7は、音響特徴ベクトルX(t)とHMMによる音素モデルとを参照してフレーム毎の連続音素認識を図3に示す文法に従って行う。図3において、silBは、話者が音声を入力する前の無音を、pauseは、話者が音声を入力している途中での無音、silEは、話者が音声を入力し終わった後の無音を示す。なお、図3において、pauseを省略してもよい。
【0041】
図1に示す尤度計算部7は、各フレームの尤度の合計が最大となるものを第1位音素列として抽出し、さらに、各フレームの尤度の合計に従って第N位音素列(Nは2以上の整数)まで抽出する。
【0042】
単語見出格納部8は、後述する英和辞書において検索可能な単語の音素列情報を登録した単語見出一覧を格納している。この単語見出一覧は、例えば図4に示すようなものであり、「moonlight」という単語について、「m→o→o→n→l→i→g→h→t」という音素列を登録している。
【0043】
図1に示す誤り訂正テーブル格納部9は、所定の音素と該所定の音素に発音が類似する訂正用音素とからなる訂正パターンと、誤り易さを示す誤り頻度と、該誤りの種類と、を示す情報を登録する誤り訂正テーブルを格納する。また、誤り訂正テーブルは、訂正パターンを誤り頻度が高い順に従って配列している。
【0044】
なお、誤り頻度とは、尤度計算部7が、音声により入力された訂正用音素を、該訂正用音素に対応する所定の音素と誤って認識して出力する頻度を示すものである。また、誤りの種類には、話者が発音した音素を他の音素と誤認する「置換」誤りと、話者が発音した2つ音素を1つの音素と誤認する「削除」誤りと、話者が発音した1つ音素を2つ音素と誤認する「挿入」誤りと、がある。
【0045】
誤り訂正テーブルは、例えば図5に示すようようなものであって、音素「m」と音素「m」に発音が類似する訂正用音素「n」とからなる訂正パターンと、話者が音声「エヌ」を入力した場合に尤度計算部7が音素「m」と誤って認識する誤り頻度「384」と、この誤りの種類「置換」誤りと、を示す情報を登録している。
【0046】
図1に示す候補単語検出部10は、尤度計算部7で抽出された第1位音素列、第2位音素列、…、第N位音素列に一致する単語を単語見出格納部8に格納されている英和辞書見出から検出し、検出した単語を出力候補単語として内蔵する出力候補単語バッファ100に格納する。
【0047】
また、候補単語検出部10は、第1位音素列〜第N位音素列に最も類似する単語を検出する。この最も類似する単語を検出するに際して、候補単語検出部10は、次の数式を満たす類似度を算出する。
【数1】
(類似度)=(一致音素数/誤り総数)
【0048】
数1において、一致音素数とは、単語見出格納部8に格納されている所定の単語を構成する音素の中で、第1位音素列〜第N位音素列と一致する音素の数である。誤り総数とは、単語見出格納部8に格納されている所定の単語を構成する音素の中で、第1位音素列〜第N位音素列と異なる音素の数である。
【0049】
例えば図6に示すように、単語見出格納部8に格納されている単語「fleshcorored」と第k位音素列(1≦k≦N)「fleshcororea」との一致音素数は、「11」であり、誤り総数は、「1」である。従って、この場合の「fleshcorored」と「fleshcororea」との類似度は、「11」となる。
【0050】
候補単語検出部10は、上記数1に従って、第1位音素列〜第N位音素列と、単語見出格納部8に格納されている各単語と、の類似度を算出して行き、算出した類似度が最大となる単語を最大類似単語として内蔵する最大類似単語バッファ200に格納する。
【0051】
また、候補単語検出部10は、第1位音素列〜第N位音素列の各音素について誤り訂正テーブルに基づいて誤り訂正をし、誤り訂正した音素列と一致する単語を英和辞書見出から検出する。
【0052】
この誤り訂正について図5及び図7を参照して説明する。候補単語検出部10は、図5に示す訂正テーブルにおいて誤り頻度が最も高い訂正パターンから順に第1位音素列を構成する音素を一つだけ訂正用音素に置換して、図7に示す1次訂正音素列を生成する。
【0053】
候補単語検出部10は、この1次訂正音素列と一致する単語を英和辞書見出から検出し、検出できなかった場合、頻度が次に高い訂正パターンに従って、第1位音素列の音素を訂正用音素に置換して別の1次訂正音素列を生成する。
【0054】
候補単語検出部10は、音素の置換と一致する単語の検出とを繰り返し、所定の音素が置換された1次訂正音素列と一致する単語を英和辞書見出の中から検出すると、検出した単語を出力候補単語として出力候補単語バッファ100に格納する。なお、一致する単語を複数検出した場合、候補単語検出部10は、誤り頻度が高い訂正パターンに従って置換された単語程上位となるように、検出された単語に順位を付す。
【0055】
さらに、候補単語検出部10は、第2位音素列〜第N位音素列についても同様に音素を一つずつ置換して1次訂正音素列を生成し、1次訂正音素列と一致する単語を英和辞書見出において検出する。
【0056】
また、候補単語検出部10は、生成された全ての1次訂正音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0057】
出力候補単語バッファ100に未だ単語が格納されていない場合、即ち、第1位音素列〜第N位音素列及びこれらの1次訂正音素列と一致する単語を英和辞書見出から検出できなかった場合、候補単語検出部10は、1次訂正音素列の音素をさらにもう一つ訂正用音素に置換して2次訂正音素列を生成する。
【0058】
候補単語検出部10は、上記1次訂正音素列と同様に、この2次訂正音素列についても、英和単語見出において一致する単語を検出し、検出された単語を出力候補単語として出力候補単語バッファ100に格納する。また、候補単語検出部10は、生成された全ての2次訂正音素列についても最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0059】
さらに、2次音素列とも一致する単語を英和辞書見出から検出できなかった場合、即ち、出力候補単語バッファ100に未だ単語が格納されていない場合、候補単語検出部10は、最大類似単語バッファ200に格納された最大類似単語の中から、類似度が所定の閾値以上の最大類似単語を抽出する。候補単語検出部10は、該抽出した最大類似単語を出力候補単語として出力候補単語バッファ100に格納する。
【0060】
図1に示す電子辞書格納部11は、電子英和辞書を格納しており、この電子英和辞典には、各単語に対応した発音、品詞、意味等が登録されている。
【0061】
選択部12は、例えば、タッチパネル等から構成されており、話者が所望の単語等を選択するのに用いられ、表示部14は、検索部13において検索された単語とその意味等とを表示する。
【0062】
検索部13は、単語の意味等を電子英和辞書において検索して、該検索した単語とその意味等とを表示部14に表示する。
【0063】
検索部13は、出力候補単語バッファ100に単語が格納されていない場合、入力された文字列からなる単語を検出できなかった旨を表示部14に表示する(図8A)。
【0064】
検索部13は、出力候補単語バッファ100に1つだけ出力候補単語が格納されている場合、該格納されている出力候補単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部14に表示する(図8B)。
【0065】
検索部13は、出力候補単語バッファ100に複数の出力候補単語が格納されている場合、格納されている複数の出力候補単語を表示部14に表示するとともに、表示された複数の出力候補単語から所望の単語を選択部12において選択することを話者に指示する(図8C)。
【0066】
検索部13は、話者がこの指示に応じて所望の単語を選択すると、選択された単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部14に表示する(図8B)。なお、検索部13は、格納されている複数の単語の数が所定数を超える場合、表示部14に表示する出力候補単語の数を該所定数に制限してもよい。この場合、表示する出力候補単語は、上記候補単語検出部10で定めた順位に従って表示するものとする。
【0067】
なお、上記の電子英和辞書装置は、図9に示すように、パーソナルコンピュータなどの汎用コンピュータをプラットフォームとして実現することができる。
【0068】
例えば、音声入力部1、選択部12、表示部14は、夫々、汎用コンピュータに接続されるマイクロフォン等の音声入力インターフェース91、マウス、キーボード等の選択入力インターフェイス92、表示装置等の表示出力インターフェイス93、によって実現できる。
【0069】
入力音声格納部2は、RAM(Random Access Memory)94によって実現され、音素モデル格納部6、単語見出格納部8、誤り訂正テーブル格納部9、電子辞書格納部11は、それぞれに対応した領域がHDD(Hard Disk Drive)95に確保されることによって実現される。音素モデル格納部6が格納する音素モデル、単語見出格納部8が格納する単語見出一覧、誤り訂正テーブル格納部9が格納する誤り訂正テーブル及び電子辞書格納部11が格納する英和辞書は、検索処理を行う前に予め外部装置から読み込まれてHDD95に記憶されるものである。
【0070】
パワー算出部3、音声区間検出部4、音声特徴検出部5、尤度計算部7、候補単語検出部10、検索部13は、CPU(Central Processing Unit)96がROM(Read Only Memory)97に記憶されたプログラムを実行することによって実現される。
【0071】
次に、上記構成を備える電子英和辞書装置の検索動作について図面を参照して説明する。音声入力部1は、話者により入力されたアルファベットの音素列、例えば「エム→オー→オー→エヌ→エル→アイ→ジー→エイチ→ティー」からなる音声をA/D変換して、時系列で示すデジタル音声信号を出力し、入力音声格納部2は、この出力されたデジタル音声信号を格納する。入力音声格納部2が格納したデジタル音声信号をパワー算出部3に供給することにより、図10のフローチャートに示す検索動作を開始する。
【0072】
パワー算出部3は、供給されたデジタル音声信号を所定時間毎で複数のフレームに区分し、各フレームのパワー成分を算出し、音声区間検出部4は、各フレームのパワー成分を所定の閾値と比較し、閾値を上回ったフレームを音声区間として抽出する。音声特徴抽出部5は、算出された各フレームのパワー成分及びMFCCに基づいて、抽出された音声区間の音響特徴ベクトルX(t)を計算する(ステップS1001)。
【0073】
尤度計算部7は、音響特徴ベクトルX(t)とHMMによる音素モデルとを参照してフレーム毎の連続音素認識を行い、各フレームの尤度の合計が最大となるものを暫定的に第1位音素列として抽出し、さらに、各フレームの尤度の合計に従って第N位音素列(Nは2以上の整数)まで抽出する(ステップS1002)。
【0074】
候補単語検出部10は、尤度計算部7で抽出された第1位音素列〜第N位音素列及び、該音素列の音素を置換することにより生成された訂正音素列等と一致する単語を単語見出格納部8に格納されている英和辞書見出の中から検出し、検出した単語を出力候補単語として出力候補単語バッファ100に格納する(ステップS1003)。
【0075】
検索部13は、出力候補単語バッファ100に出力候補単語が格納されているか否かを検出する(ステップS1004)。
【0076】
出力候補単語バッファ100に出力候補単語が格納されている場合(ステップS1004にてYES)、検索部13は、格納されている出力候補単語の数を検出する(ステップS1005)。
【0077】
出力候補単語バッファ100に格納されている出力候補単語が複数ある場合(ステップS1005にてYES)、検索部13は、格納されている複数の出力候補単語を表示部14に表示するとともに、表示された複数の出力候補単語から所望の単語を選択部12において選択することを話者に指示する(ステップS1006)。
【0078】
話者がこの指示に応じて所望の単語を選択すると、検索部13は、選択された単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部14に表示して(ステップS1007)、図10に示すフローチャートを終了する。
【0079】
出力候補単語バッファ100に格納されている単語が1個だけの場合(ステップS1005にてNO)、検索部13は、この格納されている出力候補単語とその意味等とを電子英和辞書において検索し、検索した単語とその意味等とを表示部14に表示して(ステップS1007)、図10に示すフローチャートを終了する。
【0080】
一方、出力候補単語バッファ100に単語が格納されていない場合(ステップS1004にてNO)、検索部13は、入力された単語を検索できなかった旨を表示部14に表示して(ステップS1007)、図10に示すフローチャートを終了する。
【0081】
続いて、上記ステップS1003における出力候補単語検出動作について図面を参照してより詳細に説明する。尤度計算部7において抽出された第1位音素列〜第N位音素列が候補単語検出部10に供給されると図11のフローチャートに示す出力候補単語検出動作を開始する。
【0082】
候補単語検出部10は、尤度計算部7で抽出された第1位音素列〜第N位音素列に一致する単語を単語見出格納部8に格納されている英和辞書見出から検出する。単語が検出された場合、候補単語検出部10は、検出した単語を出力候補単語として出力候補単語バッファ100に格納する(ステップS1101)。また、候補単語検出部10は、第1位音素列〜第N位音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0083】
候補単語検出部10は、誤り訂正テーブルにおいて誤り頻度が最も高い訂正パターンから順に第1位音素列〜第N位音素列の音素を一つだけ訂正用音素に置換して生成した1次訂正音素列に一致する単語を英和辞書見出から検出する。単語が検出された場合、候補単語検出部10は、検出した単語を出力候補単語として出力候補単語バッファ100に格納する(ステップS1102)。
【0084】
例えば図5及び図7に示すように、候補単語検出部10は、訂正テーブルにおいて誤り頻度が最も高い訂正パターン(誤り頻度「384」)に従って第1位音素列「monlight」を構成する音素「m」を訂正用音素「n」に置換して、1次訂正音素列「nonlight」を生成する。
【0085】
候補単語検出部10は、この1次訂正音素列「nonlight」と一致する単語を英和辞書見出から検出し、検出できなかった場合、誤り頻度が次に高い訂正パターン(誤り頻度「296」)に従って、第1位音素列「monlight」の音素「n」を訂正用音素「m」に置換して、別の1次訂正音素列「momlight」を生成する。
【0086】
候補単語検出部10は、このような音素の置換と単語の検出とを繰り返し、第1位音素列「monlight」の音素「o」を訂正用音素「oo」に置換した1次訂正音素列「moonlight」と一致する単語を英和辞書見出の中から検出すると、この検出された単語「moonlight」を出力候補単語として出力候補単語バッファ100に格納する。
【0087】
この時点において、出力候補単語バッファ100に出力候補単語が格納されている場合(ステップS1103にてYES)、候補単語検出部10は、図11に示すフローチャートを終了する。
【0088】
一方、この時点において、出力候補単語バッファ100に出力候補単語が格納されていない場合(ステップS1103にてNO)、候補単語検出部10は、1次音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0089】
候補単語検出部10は、1次音素列の音素をさらにもう一つ訂正用音素に置換して生成した2次音素列に一致する単語を英和辞書見出から検出する。単語が検出された場合、候補単語検出部10は、検出した単語を出力候補単語として出力候補単語バッファ100に格納する(ステップS1104)。
【0090】
この時点において、出力候補単語バッファ100に出力候補単語が格納されている場合(ステップS1105にてYES)、候補単語検出部10は、図11に示すフローチャートを終了する。
【0091】
一方、この時点において、出力候補単語バッファ100に出力候補単語が格納されていない場合(ステップS1105にてNO)、候補単語検出部10は、2次音素列についての最大類似単語を検出し、検出した最大類似単語を最大類似単語バッファ200に格納する。
【0092】
さらに、候補単語検出部10は、最大類似単語バッファ200に格納された最大類似単語のうち、類似度が所定の閾値以上(例えば10以上)の最大類似単語を検出する(ステップS1106)。
【0093】
最大類似単語バッファ200から所定の閾値以上の最大類似単語が検出された場合(ステップS1106にてYES)、候補単語検出部10は、この検出された最大類似単語を出力候補単語として出力候補単語バッファ100に格納し(ステップS1107)、図11に示すフローチャートを終了する。
【0094】
一方、最大類似単語バッファ200から所定の閾値以上の最大類似単語が検出されなかった場合(ステップS1106にてNO)、候補単語検出部10は、図11に示すフローチャートを終了する。
【0095】
以上説明したように、この電子英和辞書装置は、音声により入力できるため、キーボードを備える必要がなく、従来の電子辞書装置よりも小型化することができる。また、キー入力が苦手なユーザも安心して使用することができる。アルファベットからなる音素列により検索したい単語を音声入力するため、単語をそのまま音声入力する場合に比べて、話者による発音の違いが問題とならない。また、アルファベットにより入力するため、発音が分からない単語についても検索できる。
【0096】
また、この電子英和辞書装置は、尤度に従って抽出した音素列だけでなく、この音素列の所定の音素を、該音素に発音が類似する訂正用音素に置換した訂正音素列についても、一致する単語を英和辞書見出から検出するため、アルファベットにより入力された単語を認識できる確率が従来よりも高くなる。
【0097】
さらに、この電子英和辞書装置は、上記の音素列及び訂正音素列と類似する単語を検出することにより、該音素列及び訂正音素列と一致する単語を英和辞書見出から検出できなかった場合でも、高い精度で精度認識結果を出力することができる。
【0098】
本発明は、上記実施の形態に限定されず、種々の変形、応用が可能である。以下、本発明に適用可能な上記実施の形態の変形態様について、説明する。
【0099】
上記実施の形態において、候補単語検出部10は、尤度計算部7で抽出された第1位音素列〜第N位音素列に一致する単語を英和辞書見出から検出できたか否かに関わらず、第1位音素列〜第N位音素列の音素を一つだけ訂正用音素に置換して1次訂正音素列を生成していた。
しかし、本発明は、これに限定されず、候補単語検出部10は、第1位音素列〜第N位音素列に一致する単語を英和辞書見出から検出できた場合、訂正音素列を生成しなくてもよい。
また、候補単語検出部10は、第1位音素列〜第N位音素列、1次訂正音素列、及び2次訂正音素列と、一致する単語を英和辞書見出から検出した時点で、上記出力候補単語検出動作を終了してもよい。
さらに、候補単語検出部10は、所定数の訂正音素列を生成した時点で、上記出力候補単語検出動作を終了してもよい。
【0100】
また、上記実施の形態において、候補単語検出部10は、2次訂正音素列までしか生成しなかった。しかし、本発明は、これに限定されず、候補単語検出部10は、例えば、3次訂正音素列まで生成して単語見出からの検出を行う等するようにしてもよく、何次の訂正音素列まで生成するかは、任意である。
【0101】
さらに、単語見出一覧の中から訂正音素列に対応する単語が検出された場合、候補単語検出部10は、該置換された音素及び訂正用音素に対応して誤り訂正テーブルに登録されている誤り頻度を高めてもよい。これにより、特定話者に適合した誤り訂正テーブルにすることができる。
【0102】
また、上記実施の形態において、入力される音声は、アルファベットからなる音素列であった。しかし、本発明は、これに限定されず、入力される音声は、例えばひらがなからなる音素列であってもよいし、また、ドイツ語、フランス語、ロシア語、スペイン語、中国語、アラビア語等、他の諸外国語のアルファベットや文字に相当するものの音声からなる音素列であってもよい。そして、このような場合には、電子辞書データとして英和辞書に限らず種々の辞書データを用いることができるのは言うまでもない。
【0103】
さらに、上記実施の形態において、単語見出格納部8に記憶されている単語見出一覧と電子辞書格納部11に記憶されている電子英和辞書とは、共通の辞書データを用いて実現されるように構成することも可能であり、このようにすることによって、データの格納部の効率化をはかることができる。
【0104】
また、上記実施の形態においては、CPU96によって実行されるプログラムが、ROM97に記憶されたものである場合を説明したが、このROM97に記憶されたプログラムは、CD−ROMやDVD−ROM、DVD−RAMなどの他の記録媒体に記録されているプログラムをHDD95にインストールすることによって実現することが可能である。あるいはまた、インストールを行わずに、上記の他の記録媒体に記録されたデータを直接読み取りながらプログラムの実行をすることも可能である。
【0105】
さらに、プログラムや辞書データなどの記録手段として、上記で説明したHDD95やCD−ROM、DVD−ROM等の記録手段の他にも、例えば、Blue−Ray−Disc(R)やAOD(Advanced Optical Disc)などの青色レーザを用いた次世代光ディスク記憶媒体、赤色レーザを用いるHD−DVD9、青紫色レーザを用いるBlue−Laser−DVD等、今後開発される種々の大容量記憶媒体を用いて本発明を実施することが可能である。またさらに、これら各種の記録媒体として、ネットワークを介して設置されたサーバ装置に接続されたネットワークドライブ等の記録装置を用いて構成することも可能である。
【0106】
【発明の効果】
本発明により、入力された音声を正確に認識することができる音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る電子英和辞書装置のブロック図である。
【図2】図1の音素モデル格納部に格納されている音素モデルの例を示す図である。
【図3】図1の尤度計算部が音素認識をする際に用いる文法を説明するための図である。
【図4】図1の単語見出格納部に格納されている単語見出一覧の例を示す図である。
【図5】図1の誤り訂正テーブルに格納されている誤り訂正テーブルの例を示す図である。
【図6】図1に示す候補単語検出部が類似度を算出する動作を説明するための図である。
【図7】図1に示す候補単語検出部が生成された訂正音素列と一致する単語を英和辞書見出から検出する動作を説明するための図である。
【図8】図1に示す表示部の表示例を示す図である。
【図9】図1の電子英和辞書装置と同様の動作を実行することができるコンピュータのブロック図である。
【図10】図1の電子英和辞書装置の検索動作を示すフローチャート図である。
【図11】図1の電子英和辞書装置の候補単語検出動作を示すフローチャート図である。
【図12】音声認識の難易を説明するための図である。
【符号の説明】
1…音声入力部、2…入力音声格納部、5…音声特徴抽出部、6…音素モデル格納部、7…尤度計算部、8…単語見出格納部、9…誤り訂正テーブル格納部、10…候補単語検出部、11…電子辞書格納部、12…選択部、13…検索部、14…表示部、100…出力候補単語バッファ、200…最大類似単語バッファ
Claims (17)
- 所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段と、
を備える音声認識装置。 - 前記訂正用音素格納手段は、前記音素認識手段が、音声により入力された前記訂正用音素を対応する前記所定の音素と誤って認識し、該誤って認識した所定の音素を出力する誤り頻度を、該所定の音素及び該訂正用音素と対応付けて格納し、
前記訂正手段は、前記出力された音素列の中から、前記誤り頻度が高い所定の音素から順に検出し、該検出した所定の音素を対応する訂正用音素に置換する、
ことを特徴とする請求項1に記載の音声認識装置。 - 前記訂正用音素格納手段は、前記単語辞書の中から前記訂正された音素列に対応する単語が検出された場合、前記訂正手段おいて置換された音素及び訂正用音素に対応する前記誤り頻度を更新する、
ことを特徴とする請求項2に記載の音声認識装置。 - 前記音声は、アルファベットからなる音素列により入力される、
ことを特徴とする請求項1乃至請求項3のいずれか1項に記載の音声認識装置。 - 前記音素認識手段は、各文字の音素をモデル化した音素モデルを参照して、入力された文字列の各音素を認識し、該認識した音素の尤度を求め、所定数の音素列を尤度の高い方から順に抽出し、
前記訂正手段は、前記音素認識手段により抽出された所定数の音素列を前記尤度が高い方から順に訂正する、
ことを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声認識装置。 - 前記認識結果出力手段は、前記単語辞書の中から前記音素認識手段により抽出された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する、
ことを特徴とする請求項5に記載の音声認識装置。 - 前記訂正手段は、前記単語辞書の中から前記抽出された音素列に対応する単語を検出できなかった場合、該抽出された音素列を訂正する、
ことを特徴とする請求項6に記載の音声認識装置。 - 前記訂正手段は、前記単語辞書の中から前記訂正された音素列に対応する単語を検出できなかった場合、該訂正された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該訂正された音素列をさらに訂正する再訂正手段を備える、
ことを特徴とする請求項1乃至請求項7のいずれか1項に記載の音声認識装置。 - 前記認識結果出力手段は、前記再訂正手段により所定回数以上訂正された音素列に対応する単語を前記単語辞書の中から検出できなかった場合、前記抽出された音素列と前記訂正された音素列とに類似する単語を該単語辞書の中から検出し、該検出した類似単語を認識結果として出力する類似単語検出手段をさらに備える、
ことを特徴とする請求項8に記載の音声認識装置。 - 前記類似単語検出手段は、前記検出された類似単語を構成する音素列の中から、前記抽出された音素列及び/又は前記訂正された音素列の各音素と同じ音素及び異なる音素を検出し、該検出した同じ音素及び異なる音素の数に基づいて、該類似単語と該抽出された音素列及び/又は該訂正された音素列との類似度を算出し、該算出した類似度が予め設定された閾値より大きい場合、該類似する単語を認識結果として出力する、
ことを特徴とする請求項9に記載の音声認識装置。 - 前記認識結果出力手段は、前記単語辞書の中から前記認識された音素列及び/又は前記訂正された音素列に対応する単語を複数検出した場合、該検出した複数の単語を出力するとともに、ユーザに該出力された単語から所望の単語を選択することを指示し、ユーザにより所望の単語が選択されると、該選択された単語を認識結果として出力する、
ことを特徴とする請求項1乃至請求項10のいずれか1項に記載の音声認識装置。 - 複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、
前記電子辞書の中から前記認識結果出力手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、さらにを備える、
ことを特徴とする請求項1乃至請求項11のいずれか1項に記載の音声認識装置。 - 所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納手段と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段と、
前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納手段と、
前記単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納手段と、
前記電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段と、
を備える電子辞書装置。 - 所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力工程と、
を備える音声認識方法。 - 所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納工程と、
入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識工程と、
前記音素認識工程により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正工程と、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書を格納する単語辞書格納工程と、
前記単語辞書の中から前記訂正工程により訂正された音素列に対応する単語を検出する単語検出工程と、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書を格納する電子辞書格納工程と、
前記電子辞書の中から前記単語検出工程により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力工程と、
を備える検索方法。 - 入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出し、該検出した単語を認識結果として出力する認識結果出力手段、
としてコンピュータを機能させるためのプログラム。 - 入力された音声の各音素を認識し、該認識した音素からなる音素列を出力する音素認識手段、
所定の音素と該所定の音素と発音が類似する訂正用音素とを対応付けて格納する訂正用音素格納部を参照して、前記音素認識手段により出力された音素列の中から前記所定の音素を検出し、該検出した所定の音素を対応する訂正用音素に置換することにより該出力された音素列を訂正する訂正手段、
複数の単語と該単語の音素列とを対応付けて登録する単語辞書の中から前記訂正手段により訂正された音素列に対応する単語を検出する単語検出手段、
複数の単語と該単語に関する所定の情報とを対応付けて登録する電子辞書の中から前記単語検出手段により検出された単語に対応する所定の情報を検索し、該検索した所定の情報を認識結果として出力する検索結果出力手段、
としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003105795A JP2004309928A (ja) | 2003-04-09 | 2003-04-09 | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003105795A JP2004309928A (ja) | 2003-04-09 | 2003-04-09 | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004309928A true JP2004309928A (ja) | 2004-11-04 |
Family
ID=33468202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003105795A Pending JP2004309928A (ja) | 2003-04-09 | 2003-04-09 | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004309928A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7848926B2 (en) | 2004-11-22 | 2010-12-07 | National Institute Of Advanced Industrial Science And Technology | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words |
JP2011039468A (ja) * | 2009-08-14 | 2011-02-24 | Korea Electronics Telecommun | 電子辞書で音声認識を用いた単語探索装置及びその方法 |
WO2012043168A1 (ja) * | 2010-09-29 | 2012-04-05 | Necカシオモバイルコミュニケーションズ株式会社 | 音声変換装置、携帯電話端末、音声変換方法および記録媒体 |
JP2012247553A (ja) * | 2011-05-26 | 2012-12-13 | Fujitsu Ltd | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム |
CN104123942A (zh) * | 2014-07-30 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及系统 |
CN110223678A (zh) * | 2019-06-12 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
-
2003
- 2003-04-09 JP JP2003105795A patent/JP2004309928A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7848926B2 (en) | 2004-11-22 | 2010-12-07 | National Institute Of Advanced Industrial Science And Technology | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words |
JP2011039468A (ja) * | 2009-08-14 | 2011-02-24 | Korea Electronics Telecommun | 電子辞書で音声認識を用いた単語探索装置及びその方法 |
WO2012043168A1 (ja) * | 2010-09-29 | 2012-04-05 | Necカシオモバイルコミュニケーションズ株式会社 | 音声変換装置、携帯電話端末、音声変換方法および記録媒体 |
JPWO2012043168A1 (ja) * | 2010-09-29 | 2014-02-06 | Necカシオモバイルコミュニケーションズ株式会社 | 音声変換装置、携帯電話端末、音声変換方法およびプログラム |
JP5874640B2 (ja) * | 2010-09-29 | 2016-03-02 | 日本電気株式会社 | 音声変換装置、携帯電話端末、音声変換方法およびプログラム |
JP2012247553A (ja) * | 2011-05-26 | 2012-12-13 | Fujitsu Ltd | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム |
CN104123942A (zh) * | 2014-07-30 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及系统 |
CN110223678A (zh) * | 2019-06-12 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7974844B2 (en) | Apparatus, method and computer program product for recognizing speech | |
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
US7089188B2 (en) | Method to expand inputs for word or document searching | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
CN101415259A (zh) | 嵌入式设备上基于双语语音查询的信息检索系统及方法 | |
CN112331229B (zh) | 语音检测方法、装置、介质和计算设备 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP4758758B2 (ja) | 辞書作成装置および辞書作成プログラム | |
JP4966324B2 (ja) | 音声翻訳装置、および方法 | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP5590549B2 (ja) | 音声検索装置および音声検索方法 | |
JP2004309928A (ja) | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム | |
JP4839291B2 (ja) | 音声認識装置およびコンピュータプログラム | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
JP7124358B2 (ja) | 出力プログラム、情報処理装置及び出力制御方法 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP2011048405A (ja) | 音声認識装置及び音声認識プログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 |