JP2005234236A

JP2005234236A - 音声認識装置、音声認識方法、記憶媒体およびプログラム

Info

Publication number: JP2005234236A
Application number: JP2004043419A
Authority: JP
Inventors: Hiroki Yamamoto; 寛樹山本; Yasuhiro Komori; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-02-19
Filing date: 2004-02-19
Publication date: 2005-09-02

Abstract

【課題】音声認識の探索処理に必要な時間、計算量およびメモリ容量を抑えつつ、複数の交換候補を提示できる音声認識装置を提供する。
【解決手段】音声認識部１０１により音声認識を実行し、その認識結果を得る（Ｓ１）。音声認識部１０１では、第１位候補だけが得られる。複数候補提示部１０２により、得られた認識結果を基に単語交換候補テーブル１１３を参照し、認識結果を構成する単語毎に交換候補となる単語と入れ替えた場合の複数の認識結果候補を求め（Ｓ２）、これらの候補を提示する（Ｓ３）。
【選択図】図３

Description

本発明は、音声認識の結果、複数の候補を提示する音声認識装置、音声認識方法、記憶媒体およびプログラムに関する。

近年、音声認識の性能が向上しており、認識結果の第１位候補だけでも実用に耐えうる場合が多く、誤認識した場合でも、再発声することにより正しく認識されることもあった。また、ユーザの利便性という観点から考えると、誤認識した一部の単語だけを変更したり、複数の認識結果候補から正しいものを選択するユーザインターフェースは便利であった。

一般に、音声認識では、複数の認識結果候補（Ｎ−Ｂｅｓｔ候補）を正確に求めるために、探索を進める過程で常に複数の仮説を残しながら処理を進めることが行われていた（例えば、特許文献１参照）。
特開平１０−９１１８５号公報（特許第２９９９７２６号）

しかしながら、上記従来の音声認識装置では、複数の仮説を残しながら処理を進めることにより、結果として処理すべき仮説数が増加し、探索処理に時間がかかっていた。また、探索時の途中結果等を残す必要があるので、多くのメモリ容量を必要としていた。

しかしながら、認識する語数が少ない場合や認識対象とするタスクが複雑でない場合、複数の認識結果候補を近似的な手法を用いて求めても、ある程度の候補数を提示すれば、その中に正解候補が含まれる可能性が高いと考えらる。

そこで、本発明は、音声認識の探索処理に必要な時間、計算量およびメモリ容量を抑えつつ、近似的な手法を用いて従来と同様に複数の交換候補を提示できる音声認識装置、音声認識方法、記憶媒体およびプログラムを提供することを目的とする。

上記目的を達成するために、本発明の音声認識装置は、音声認識を行い、複数の単語候補を提示する音声認識装置であって、単語毎に交換候補が登録された候補登録手段と、音声により単語を認識する認識手段と、前記認識された単語に対応する交換候補を前記候補登録手段から取得する取得手段と、前記取得した交換候補を前記認識された単語とともに提示する提示手段とを備えたことを特徴とする。

本発明の音声認識方法は、音声認識を行い、複数の単語候補を提示する音声認識方法であって、音声入力装置から入力される音声により単語を認識する認識ステップと、単語毎に交換候補が登録された記憶装置から、前記認識された単語に対応する交換候補を取得する取得ステップと、前記取得した交換候補を前記認識された単語とともに表示装置に提示する提示ステップとを有することを特徴とする。

本発明の請求項１に係る音声認識装置によれば、第一位候補のみを求める音声認識を行い、単語毎に交換候補が登録された候補登録手段から、認識された単語に対応する交換候補を取得し、取得した交換候補を認識された単語とともに提示するので、音声認識の探索処理に必要な時間、計算量およびメモリ容量を抑えつつ、従来と同様に複数の交換候補を提示できる。

請求項２に係る音声認識装置によれば、正解候補が含まれる確率を高めることができる。請求項３に係る音声認識装置によれば、擬似的に複数の候補を提示する際の参照が容易となる。請求項４に係る音声認識装置によれば、ユーザの利便性（使い勝手）を向上できる。請求項５に係る音声認識装置によれば、交換候補を効率的に提示できる。請求項６に係る音声認識装置によれば、単語間の類似度を正確なものにすることができる。請求項７に係る音声認識装置によれば、交換候補の取得が容易になる。請求項８に係る音声認識装置によれば、交換候補を絞り込むことができ、メモリ容量を少なくすることができる。請求項９に係る音声認識装置によれば、正解候補に近いものを優先的に登録できる。請求項１０に係る音声認識装置によれば、ユーザの利便性（使い勝手）を向上できる。請求項１１に係る音声認識装置によれば、交換候補の取得を多様化できる。請求項１２に係る音声認識装置によれば、認識される単語の数が多い場合に有効である。請求項１４に係る音声認識装置によれば、得点の算出を多様化でき、提示する交換候補を絞り込む際に、言語的・文法的により確からしい候補を優先的に取得することができる。

本発明の音声認識装置、音声認識方法、記憶媒体およびプログラムの実施の形態について、図面を参照しながら説明する。

［第１の実施形態］
図１は第１の実施形態における音声認識装置のモジュール構成を示すブロック図である。この音声認識装置は、音声認識に用いる音響モデル１１１、音声認識に用いる認識辞書や認識文法、Ｎ−ｇｒａｍ確率などが記録された言語モデル１１２、認識対象の単語毎に交換候補の単語が登録された単語交換候補テーブル１１３、音響モデル１１１および言語モデル１１２を用いて音声を認識する音声認識部１０１、および単語交換候補テーブル１１３を参照し、音声認識部１０１から出力される認識結果を基に複数の交換候補を求めて提示する複数候補提示部１０２を有する。

本実施形態の音声認識装置は、汎用のコンピュータ（ＰＣ）に搭載されており、上記各モジュールは、コンピュータ内の記憶媒体に保持される、あるいはＣＰＵが記憶媒体に記憶されている音声認識処理プログラムを実行することによって実現される。図２は音声認識装置が搭載される汎用コンピュータのハードウェア構成を示すブロック図である。この汎用コンピュータは、ＣＰＵ１、ＲＯＭ２、ＲＡＭ３、音声インタフェース（Ｉ／Ｆ）４、ディスクコントローラ（ＤＩＳＫＣ）７、ディスプレイコントローラ（ＤＳＰＣ）９およびＩ／Ｏインタフェース１１がバス１３を介して接続された構成を有する。ＣＰＵ１は、ＲＯＭ２から制御プログラムを順次読み取って実行し、装置全体を制御する。ＲＡＭ３は入力データの記憶や作業用記憶領域等として用いられる。音声インタフェース（Ｉ／Ｆ）４は、スピーカ５への音声出力を行う回路、およびマイク６から音声入力を行う回路を有する。ディスクコントローラ７は、大容量のハードディスク８を制御する。ディスプレイコントローラ９は、ディスプレイ１０に転送される表示データを制御する。Ｉ／Ｏインターフェース１１には、キーボード１２およびマウス１４が接続される。また、ハードディスク８には、単語交換候補テーブル１１３が格納されている他、音響モデル１１１および言語モデル１１２も格納されている。複数候補提示部１０２は、複数の交換候補を提示する際、ディスプレイ１０を用いる。

図３は音声認識処手順を示すフローチャートである。この処理プログラムは、コンピュータ（ＰＣ）内の記憶媒体（ＲＯＭ２、ハードディスク８）に格納されており、ＣＰＵ１によって実行される。まず、音声認識部１０１により、マイク６を通じて入力された音声に対し、音声認識を実行し、その認識結果を得る（ステップＳ１）。このとき、音声認識部１０１では、第１位候補だけが得られる。複数候補提示部１０２により、得られた認識結果を基に単語交換候補テーブル１１３を参照し、認識結果を構成する単語毎に交換候補となる単語と入れ替えた場合の複数の認識結果候補（交換候補）を求め（ステップＳ２）、これらの候補をディスプレイ１０に表示（提示）する（ステップＳ３）。この後、本処理を終了する。

図４は単語交換候補テーブル１１３を示す図である。この単語交換候補テーブルには、列３１１に示す認識結果の単語毎に、列３１２、３１３に示す交換候補の単語が記述されている。図中、認識結果「表紙」に対し、交換候補の単語として「教師」と「漁師」が記述されている（行３０１参照）。また、認識結果「の」に対する交換候補は記述されていない（行３０２参照）。同様に、「絵」に対する交換候補として、１つの単語「目」のみが記述されている（行３０３参照）。

図５は単語候補交換テーブルを用いて求められた複数の認識結果候補を示す図である。音声認識結果およびこの認識結果から求められた複数の認識結果候補は、ＰＣのディスプレイ１０に表示される。ウィンドウ４０１には、認識結果４０２および他の認識結果候補（交換候補）４０３が表示されている。複数候補提示部１０２は、認識結果「表紙の絵が届かない」に対し、認識結果を構成する単語である「表紙」、「の」、「絵」、「が」、「届かない」のそれぞれについて、単語交換候補テーブル１１３を参照し、候補単語と入れ替えた場合の他の認識結果候補を生成する。例えば、「表紙」については、単語交換候補テーブルの該当箇所（図４の行３０１）を参照し、「教師」、「漁師」と交換する。

図６は認識結果の各単語毎に別の認識結果候補を表示する例を示す図である。同図（Ａ）では、音声認識終了後、認識結果である「表紙の絵が届かない」が表されている。この例では、ユーザが別候補を見たい場合、マウス１４で単語をクリックすると、別候補が表示される。同図（Ｂ）では、認識結果の単語「表紙」に対し、別の単語候補「教師」、「漁師」が表示されている。同図（Ｃ）では、認識結果の単語「絵」に対し、別の単語候補「目」が表示されている。このように、単語交換候補テーブル１１３を参照することにより、音声認識部１０１で複数の認識結果を求める処理を行わなくても、擬似的に複数の認識結果候補を表示することが可能になる。

図７は単語交換候補テーブルの作成処理手順を示すフローチャートである。この処理プログラムは、コンピュータ（ＰＣ）内の記憶媒体（ＲＯＭ２、ハードディスク８）に格納されており、ＣＰＵ１によって実行される。まず、複数回の音声認識を行い、その認識結果を取得する（ステップＳ１１）。得られた音声認識結果と正解（発声した内容）を比較し、正解の単語に対する単語のコンフュージョンマトリクスを作成する（ステップＳ１２）。例えば、「教師」、「漁師」、「表紙」という単語認識を行ってコンフュージョンマトリクスを作成する方法を以下で説明する。

図８は「教師」、「漁師」、「表紙」の音声認識をそれぞれ１０回、５回、３回行った場合の認識結果を示す図である。同図において、７０１、７０２、７０３はそれぞれ「教師」、「漁師」、「表紙」という音声に対する音声認識結果である。図８では、正解と異なる認識結果に下線が引かれている。この認識結果を基に、正解した頻度、誤認識した単語およびその頻度をカウントする。

例えば、「教師」に対する認識の結果に注目すると、全１０回の発声のうち、６回が正解の「教師」であり、残る４回が誤認識である。誤認識のうち、３回が「漁師」であり、１回が「表紙」である。同様に、「漁師」、「表紙」についても、それぞれの単語に対応する認識結果から、正解・誤認識の頻度を得る。得られた正解・誤認識の頻度から図９に示すような単語のコンフュージョンマトリクスを作成する。図９のコンフュージョンマトリクスでは、ある単語を発声した場合に得られる認識結果の頻度を「頻度／発声回数」という形式で表している。例えば、行８０１には、「教師」という音声に対する正解および誤認識の頻度が示されている。ここで、頻度そのもの、あるいは「頻度／発声回数」は単語間の類似度を示す指標として用いることができる。つまり、「頻度／発声回数」が大きいほど、単語同士が類似していることになる。この類似度を基に、各単語に対する単語交換候補を決定し、単語交換候補テーブル１１３を作成する（ステップＳ１３）。この後、本処理を終了する。

ここでは、図９の単語のコンフュージョンマトリクスの列方向における、認識結果の単語に対する頻度が値１以上ある正解の単語を、認識結果の単語に対する単語交換候補として単語交換候補テーブルを作成する場合について説明する。例えば、「漁師」に対する単語交換候補を求める場合、列８１２を参照し、頻度が値０でない「教師」を「漁師」に対する交換する単語の候補（単語交換候補）とする。頻度が値０である「表紙」は「漁師」に対する単語交換候補としない。「教師」「表紙」についても同様に単語交換候補を求めて作成した単語交換候補テーブルを図１０に示す。

このように、第１の実施形態の音声認識装置によれば、単語交換候補テーブル１１３を参照することにより、音声認識部１０１で複数の認識結果を求める処理を行わなくても、擬似的に複数の認識結果候補を表示することが可能になる。つまり、探索時に認識結果の第１位候補だけを求める処理を行い、この第１位候補から複数の認識結果候補を取得するので、音声認識の探索処理に必要な時間、計算量およびメモリ容量を抑えつつ、従来と同様に複数の交換候補（単語交換候補）を提示できる。

［第２の実施形態］
第２の実施形態の音声認識装置の構成は、前記第１の実施形態と同様であるので、同一の符号を用いることによりその説明を省略する。第２の実施形態では、単語間の類似度を、「Ａという単語が認識されたときにＢと発声されている割合」で示すこととする。つまり、Ａという単語がＸ回認識結果として出現した場合、そのＸ回のうち、Ｂと発声された回数Ｙを数え上げ、Ｙ／Ｘで求まる値を類似度として用いる。

ただし、図８に示すように、単語毎に発声された回数が異なると、発声回数の多い単語に対する割合が相対的に大きくなるので、単語のコンフュージョンマトリクスにおける頻度を発声回数で正規化する必要がある。その後、正規化した頻度を用いて認識結果に対する発声された単語の割合を計算する。以下で図を用いて具体的な計算方法を説明する。

図１１は第２の実施形態における、認識結果が「表紙」である場合に、発声回数で正規化した頻度を用いて認識結果に対する発声された単語の割合を求める手順を示す図である。同図（Ａ）は図９のコンフュージョンマトリクスの列８１３の部分を抜き出したものであり、「表紙」が認識された場合に発声が「教師」、「漁師」、「表紙」であるそれぞれの頻度と、各単語を発声した回数（音声認識の試行回数）が示されている。次に各単語の頻度を発声回数を用いて正規化する。同図（Ｂ）では、頻度を発声回数（音声認識の試行回数）で正規化し、各単語の発声が同一回数となる場合の頻度が求められている。ここでは、各単語の頻度は、各単語が３０回発声された場合の頻度として正規化されている。同図（Ｃ）では、正規化された頻度を用いて、「表紙」が認識された回数（３＋６＋２０＝２９）と、それに対する元の発声の割合が求められている。さらに、同図（Ｄ）では、「表紙」という認識結果に対して元の発声が「表紙」である場合、すなわち発声が正しく認識された場合、その割合が「１．０」となるように、元の発声が「表紙」である場合の頻度で「教師」、「猟師」の割合が正規化されている。このようにして求めた各単語の割合を類似度として用いると、この類似度は、認識結果と元の発声が一致する場合、「１．０」、一致しない場合、それより小さい値となることが期待される。

一方、同図（Ｅ）は、発声回数による頻度の正規化を行わなかった場合の単語の割合が示されている。この計算方法では、各単語の発声回数が考慮されていないため、音声認識の試行回数の多い「表紙」に対し、試行回数が少ない「教師」、「漁師」の割合が相対的に大きくなっている。

図１２は単語交換候補テーブルを示す図である。この単語交換候補テーブルには、同図（Ａ）に示すように、単語交換候補とともに類似度が登録されている。また、後段の処理で単語交換候補を参照しやすいように、同図（Ｂ）に示すように、類似度にしたがって単語交換候補を並べ替えて登録してもよい。このように、並べ替えておくことで、図６に示したように、単語毎に認識結果の単語交換候補を提示する際、類似度の高い順に単語交換候補を並べることが容易となる。

このように、第２の実施形態によれば、類似度をより正確なものにすることができる。また、正解候補に近いものを優先的に登録できる。

［第３の実施形態］
前記第１の実施形態では、認識結果に対する別の交換候補を提示する際、図５に示すように、認識結果の各単語を単語交換候補テーブルに登録された単語交換候補と入れ替え、求まる全ての認識結果候補を提示したが、認識対象となる語数が多い場合や認識結果を構成する単語数が多い場合は、単語の組み合わせによって表現される認識結果候補は膨大な数になるので、全ての候補を提示することは現実的ではない。第３の実施形態では、各認識結果候補に対してスコア（得点）を計算し、計算されたスコアを基に提示する候補を制限する。

図１３は第３の実施形態における音声認識装置のモジュール構成を示すブロック図である。第３の実施形態の音声認識装置では、前記第１の実施形態の音声認識装置の構成の他、各認識結果候補のスコア（得点）を計算するスコア計算部１０３が設けられている。

図１４は第３の実施形態における音声認識処手順を示すフローチャートである。この処理プログラムは、コンピュータ（ＰＣ）内の記憶媒体（ＲＯＭ２、ハードディスク８）に格納されており、ＣＰＵ１によって実行される。ここで、ステップＳ２１、Ｓ２２の処理は、前記第１の実施形態におけるステップＳ１、Ｓ２と同様の処理である。

すなわち、音声認識部１０１により、マイク６を介して入力された音声に対し、音声認識を実行し、その認識結果を得る（ステップＳ２１）。このとき、音声認識部１０１では、第１位候補だけが得られる。複数候補提示部１０２により、得られた認識結果を基に、前記第２の実施形態の単語交換候補テーブル１１０２（図１２）を参照し、認識結果を構成する単語毎に交換候補となる単語と入れ替えた場合の複数の認識結果候補を求める（ステップＳ２２）。ここで、単語交換候補テーブルには、前記第２の実施形態で示したように、単語交換候補とその類似度が登録されている。

ステップＳ２２で求められた複数の認識結果候補に対し、スコア計算部１０３で各候補のスコアを計算する（ステップＳ２３）。図１５は単語交換候補テーブルに登録された各単語の類似度を用いて各認識結果候補におけるスコア計算を示す図である。同図（Ａ）は認識結果１３０１を示し、ここでは、認識結果は「今日は雨」である。同図（Ｂ）は単語交換候補テーブル１３０２を示す。同図（Ｃ）は認識結果に対する他の認識結果候補群１３０３を示す。認識結果１３０１および単語交換候補テーブル１３０２から求められる全ての認識結果候補に対し、単語交換候補テーブル１３０２に登録されている類似度を用いて認識結果候補のスコア（得点）が計算される。ここでは、認識結果候補を構成する各単語の類似度の積を、認識結果候補のスコアとしている。また、説明を簡単にするため、単語交換候補テーブルには、認識結果に対する単語交換候補だけが登録されているが、実際の単語交換候補テーブルでは、認識対象語の全てが登録（定義）されている。そして、前述した類似度も、単語交換候補テーブルに併せて登録されている。

ステップＳ２３で各候補のスコアを計算した後、求めたスコアが大きい方から順に所定個数分の認識結果候補を複数候補提示部１０２によってディスプレイ１０に表示（提示）する（ステップＳ２４）。同図（Ｃ）では、スコアの大きい順に認識結果候補が提示されており、スコアの高い方から順に３候補を提示する場合、横線１３０４より上の候補が認識結果候補として表示される。

このように、第３の実施形態の音声認識装置によれば、認識対象となる語数が多い場合や、認識結果を構成する単語数が多い場合であっても、単語の組み合わせによって表現される認識結果候補数を抑えることができる。

以上が本発明の実施形態の説明であるが、本発明は、これら実施形態の構成に限られるものではなく、特許請求の範囲で示した機能、または実施形態の構成が持つ機能が達成できる構成であればどのようなものであっても適用可能である。

例えば、前記第３の実施形態では、認識結果候補のスコアを各認識結果候補を構成する各単語の類似度の積として計算したが、これに限るものではなく、この積に対して単語数の累乗根をとって単語数による正規化を行ったものでもよいし、和をとって単語数で割り、１単語あたりの平均類似度をもって認識結果候補のスコアとしてもよい。

また、前記第３の実施形態では、認識結果候補のスコアを各認識結果候補を構成する各単語の類似度を基に求めたが、類似度ではなく、Ｎ−ｇｒａｍ確率などの言語モデル１１２を用いて計算してもよい。図１６は言語モデル１１２を用いてスコアを計算する場合の音声認識装置のモジュール構成を示すブロック図である。この場合、スコア計算部１０３は言語モデル１１２を参照してスコアを計算する。図１８にｂｉｇｒａｍ確率を用いてスコアを計算する様子を示す。同図（Ａ）の１８０１はｂｉｇｒａｍ言語モデルの一例であり、列１８０６に先行単語、列１８０７に後続単語、列１８０８に先行単語および後続単語が連鎖する確率値すならちｂｉｇｒａｍ確率値が示されている。図１５（Ａ）の認識結果１３０１に対して、同図（Ｂ）の単語交換候補テーブルから求められる全ての認識結果候補に対して、図１８（Ａ）のｂｉｇｒａｍ言語モデル１８０１に記録されたｂｉｇｒａｍ確率値を用いて認識結果候補のスコア（得点）を計算する。同図（Ｂ）に各認識結果候補のスコアの計算式および計算されたスコアを示す。１８１１に示した認識結果候補「京都は雨」を例に計算方法を説明する。単語Ａに単語Ｂが接続するｂｉｇｒａｍ確率をｂ（Ａ，Ｂ）とすると、「京都は雨」に対するスコアＬは、
Ｌ＝ｂ（文頭, 京都）×ｂ（京都，は）×ｂ（は，雨）×ｂ（雨，文末）
で求められる。同図（Ａ）のｂｉｇｒａｍ言語モデルを参照すると、ｂ（Ａ，Ｂ）はそれぞれ以下のように求まる。

ｂ（文頭，京都）＝０．２（図１８行１８０２参照）
ｂ（京都，は）＝０．５（図１８行１８０３参照）
ｂ（は，雨）＝０．６（図１８行１８０４参照）
ｂ（雨，文末）＝０．６（図１８行１８０５参照）
上記のｂｉｇｒａｍ確率値を用いて「京都は雨」のスコアＬは、
Ｌ＝０．２×０．５×０．６×０．６＝０．０３６
と求まる（図１８１８１１参照）。同様に他の認識結果候補に対してもｂｉｇｒａｍ言語モデル１８０１を参照してスコアを計算することができる。図１８（Ｂ）１８１０に他の認識結果候補群に対するスコアの計算方法およびスコアを示す。同図では、第３の実施例と同様に、スコアの大きい方から順に認識結果候補が提示されており、スコアの高い方から順に３候補を提示する場合は、横線１８１２より上の候補が認識結果候補として提示される。

また、上記実施形態では、認識対象となる単語数が増えるにつれて、単語交換候補の数が増えるので、単語交換候補テーブルに登録される単語交換候補の数を、類似度を基準にして絞り込むことが望ましい。この際、各単語毎に類似度の大きい方から所定個数分の単語交換候補を提示する単語交換候補としてもよいし、類似度に閾値を設定し、設定された閾値以上の類似度の単語交換候補を提示する単語交換候補としてもよい。

また、上記実施形態では、類似度を、単語コンフュージョンマトリクスを作成する際に数え上げた単語Ａを単語Ｂとして認識する頻度を基に計算したが、これに限るものではない。例えば、単語Ａを単語Ａ、単語Ｂと認識したときの、音響尤度など音声認識スコアの比として求めてもよい。また、単語Ａを単語Ａとして正しく認識したときの平均の認識スコアをＳ（Ａ）、単語Ａを単語Ｂとして間違えて認識したときの平均の認識スコアをＳ（Ｂ）とし、Ｓ（Ｂ）／Ｓ（Ａ）で表わされる値を類似度としてもよい。

また別の方法として、各単語間の発音の類似度を用いて、類似度を計算してもよい。各単語間の発音の類似度に対し、様々な定義が考えられるが、ここでは一例として各単語を構成する音素間の類似度を使用するものとする。まず、単語コンフュージョンマトリクスと同様、音声認識結果から音素コンフュージョンマトリクスを求め、混同の多い音素間の類似度が値１に近い値になるように、逆に混同の少ない音素間の類似度が値０に近い値になるように、値０〜値１の範囲で音素間の類似度を規定する。ただし、同一音素間の距離を値１、混同の起らない音素間の類似度を値０あるいは値０に近い非常に小さな値とする。

この音素間類似度を用いて、各単語間の距離を求める。各単語を音素記号列で表し、単語の音素記号列間で類似度が大きくなるように、ＤＰマッチングをとり、上記類似度を累積して単語間の類似度を求める。求めた単語間の類似度が値０〜値１の範囲になるように、ＤＰマッチングの際、音素間の類似度を積算するか、音素間距離の対数を加算してＤＰスコアを求めるものとする。

また、上記実施形態では、単語交換候補テーブルには、各単語に対して交換候補となる単語を登録したが、これに限るものではなく、単語列に対する単語交換候補を登録してもよい。また、単語の交換候補として単語列を登録してもよい。図１７は単語列を含む単語交換候補テーブルを示す図である。行１５０１では、単語列に対する交換候補として単語が登録されている。行１５０２では、単語に対する交換候補として単語列が登録されている。

また、上記実施形態では、認識結果および他の認識結果候補をディスプレイ（表示部）に表示する場合を示したが、表示とともにあるいは表示に代えて、音声により報知するようにしてもよい。また、上記各実施形態の音声認識装置は、汎用のコンピュータに搭載されているが、画像形成装置などに搭載してもよいことは勿論である。

また、本発明は１つの機器からなる装置に適用しても、複数の機器から構成されるシステムに適用してもよい。また、本発明の目的は、実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）が記憶媒体に格納されたプログラムコードを読み出して実行することによっても達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

上記実施形態では、プログラムをＲＯＭに保持する場合を示したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作を行う回路で実現してもよい。又、プログラムコードを供給するための記憶媒体としては、例えば、ＲＯＭ、フロッピー（登録商標）ディスク、ＰＣＭＣＩＡカードやコンパクトフラッシュ（登録商標）等のメモリカード、ハードディスク、マイクロＤＡＴ、光磁気ディスク、ＣＤ−ＲやＣＤ−ＲＷ等の光ディスク、ＤＶＤ等の相変化型光ディスク等で構成されてもよい。

また、コンピュータが読み出したプログラムコードを実行することにより、上記実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

第１の実施形態における音声認識装置のモジュール構成を示すブロック図である。音声認識装置が搭載される汎用コンピュータのハードウェア構成を示すブロック図である。音声認識処手順を示すフローチャートである。単語交換候補テーブル１１３を示す図である。単語候補交換テーブルを用いて求められた複数の認識結果候補を示す図である。認識結果の各単語毎に別の認識結果候補を表示する例を示す図である。単語交換候補テーブルの作成処理手順を示すフローチャートである。「教師」、「漁師」、「表紙」の音声認識を行った場合の認識結果を示す図である。単語のコンフュージョンマトリクスを示す図である。単語の「教師」、「漁師」、「表紙」に対し、単語交換候補として得られた結果である単語交換候補テーブルを示す図である。第２の実施形態における、認識結果が「表紙」である場合、正規化した頻度を用いて認識結果に対する発声された正解の単語の割合を求める手順を示す図である。単語交換候補テーブルを示す図である。第３の実施形態における音声認識装置のモジュール構成を示すブロック図である。音声認識処手順を示すフローチャートである。単語交換候補テーブルに登録された各単語の類似度を用いて各認識結果候補におけるスコア計算を示す図である。言語モデル１１２を用いてスコアを計算する場合の音声認識装置のモジュール構成を示すブロック図である。単語列を含む単語交換候補テーブルを示す図である。ｂｉｇｒａｍ言語モデルを用いて各認識結果候補におけるスコア計算を示す図である。

符号の説明

１ＣＰＵ
２ＲＯＭ
８ハードディスク
１０１音声認識部
１０２複数候補提示部
１０３スコア計算部
１１１音響モデル
１１２言語モデル
１１３単語交換候補テーブル

Claims

音声認識を行い、複数の単語候補を提示する音声認識装置であって、
単語毎に交換候補が登録された候補登録手段と、
音声により単語を認識する認識手段と、
前記認識された単語に対応する交換候補を前記候補登録手段から取得する取得手段と、
前記取得した交換候補を前記認識された単語とともに提示する提示手段とを備えたことを特徴とする音声認識装置。
前記取得手段は、前記候補登録手段に登録されている交換候補を、単語間の類似度を基に取得することを特徴とする請求項１記載の音声認識装置。
前記候補登録手段には、前記単語毎の交換候補がテーブル形式で登録されていることを特徴とする請求項１記載の音声認識装置。
前記認識された単語を前記取得した交換候補に入れ替える入替手段を備えたことを特徴とする請求項１記載の音声認識装置。
前記候補登録手段には、複数の単語からなる単語列に対応する交換候補、および前記交換候補として単語列が登録されていることを特徴とする請求項１記載の音声認識装置。
音声認識を行って単語間のコンフュージョンマトリクスを作成する作成手段を備え、
前記類似度は、前記作成されたコンフュージョンマトリクスを基に、決定されることを特徴とする請求項２記載の音声認識装置。
前記候補登録手段には、前記交換候補とともに前記類似度が登録されていることを特徴とする請求項２記載の音声認識装置。
前記候補登録手段には、前記類似度が所定値以上である前記交換候補が登録されていることを特徴とする請求項２または７記載の音声認識装置。
前記候補登録手段には、前記類似度の大きいものから所定個数分、前記交換候補が登録されていることを特徴とする請求項２記載の音声認識装置。
前記候補登録手段には、前記類似度の大きいものから順に前記交換候補が登録され、前記提示手段は、前記類似度の大きいものから順に前記交換候補を提示することを特徴とする請求項２記載の音声認識装置。
音声認識を行って音素間の類似度を規定する規定手段を備え、
前記類似度は、前記規定された音素間の類似度を基に、決定されることを特徴とする請求項２記載の音声認識装置。
前記候補登録手段から取得された複数の前記交換候補の得点を算出する得点算出手段を備え、
前記提示手段は、前記算出された得点を基に、前記複数の交換候補を提示することを特徴とする請求項１記載の音声認識装置。
前記得点算出手段は、前記類似度を基に、前記交換候補の得点を算出することを特徴とする請求項１２記載の音声認識装置。
前記得点算出手段は、言語モデルを基に、前記交換候補の得点を算出することを特徴とする請求項１２記載の音声認識装置。
前記提示手段は、前記得点が大きい順に前記交換候補を提示することを特徴とする請求項１２乃至１４のいずれかに記載の音声認識装置。
音声認識を行い、複数の単語候補を提示する音声認識方法であって、
音声入力装置から入力される音声により単語を認識する認識ステップと、
単語毎に交換候補が登録された記憶装置から、前記認識された単語に対応する交換候補を取得する取得ステップと、
前記取得した交換候補を前記認識された単語とともに表示装置に提示する提示ステップとを有することを特徴とする音声認識方法。
請求項１乃至１５のいずれかに記載の音声認識装置を実現するためのコンピュータ読み取り可能なプログラムコードを保持する記憶媒体。
請求項１乃至１５のいずれかに記載の音声認識装置を実現するためのコンピュータ読み取り可能なプログラムコードを有するプログラム。