JP2005234236A - 音声認識装置、音声認識方法、記憶媒体およびプログラム - Google Patents
音声認識装置、音声認識方法、記憶媒体およびプログラム Download PDFInfo
- Publication number
- JP2005234236A JP2005234236A JP2004043419A JP2004043419A JP2005234236A JP 2005234236 A JP2005234236 A JP 2005234236A JP 2004043419 A JP2004043419 A JP 2004043419A JP 2004043419 A JP2004043419 A JP 2004043419A JP 2005234236 A JP2005234236 A JP 2005234236A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- word
- candidate
- exchange
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 音声認識の探索処理に必要な時間、計算量およびメモリ容量を抑えつつ、複数の交換候補を提示できる音声認識装置を提供する。
【解決手段】 音声認識部101により音声認識を実行し、その認識結果を得る(S1)。音声認識部101では、第1位候補だけが得られる。複数候補提示部102により、得られた認識結果を基に単語交換候補テーブル113を参照し、認識結果を構成する単語毎に交換候補となる単語と入れ替えた場合の複数の認識結果候補を求め(S2)、これらの候補を提示する(S3)。
【選択図】 図3
【解決手段】 音声認識部101により音声認識を実行し、その認識結果を得る(S1)。音声認識部101では、第1位候補だけが得られる。複数候補提示部102により、得られた認識結果を基に単語交換候補テーブル113を参照し、認識結果を構成する単語毎に交換候補となる単語と入れ替えた場合の複数の認識結果候補を求め(S2)、これらの候補を提示する(S3)。
【選択図】 図3
Description
本発明は、音声認識の結果、複数の候補を提示する音声認識装置、音声認識方法、記憶媒体およびプログラムに関する。
近年、音声認識の性能が向上しており、認識結果の第1位候補だけでも実用に耐えうる場合が多く、誤認識した場合でも、再発声することにより正しく認識されることもあった。また、ユーザの利便性という観点から考えると、誤認識した一部の単語だけを変更したり、複数の認識結果候補から正しいものを選択するユーザインターフェースは便利であった。
一般に、音声認識では、複数の認識結果候補(N−Best候補)を正確に求めるために、探索を進める過程で常に複数の仮説を残しながら処理を進めることが行われていた(例えば、特許文献1参照)。
特開平10−91185号公報(特許第2999726号)
しかしながら、上記従来の音声認識装置では、複数の仮説を残しながら処理を進めることにより、結果として処理すべき仮説数が増加し、探索処理に時間がかかっていた。また、探索時の途中結果等を残す必要があるので、多くのメモリ容量を必要としていた。
しかしながら、認識する語数が少ない場合や認識対象とするタスクが複雑でない場合、複数の認識結果候補を近似的な手法を用いて求めても、ある程度の候補数を提示すれば、その中に正解候補が含まれる可能性が高いと考えらる。
そこで、本発明は、音声認識の探索処理に必要な時間、計算量およびメモリ容量を抑えつつ、近似的な手法を用いて従来と同様に複数の交換候補を提示できる音声認識装置、音声認識方法、記憶媒体およびプログラムを提供することを目的とする。
上記目的を達成するために、本発明の音声認識装置は、音声認識を行い、複数の単語候補を提示する音声認識装置であって、単語毎に交換候補が登録された候補登録手段と、音声により単語を認識する認識手段と、前記認識された単語に対応する交換候補を前記候補登録手段から取得する取得手段と、前記取得した交換候補を前記認識された単語とともに提示する提示手段とを備えたことを特徴とする。
本発明の音声認識方法は、音声認識を行い、複数の単語候補を提示する音声認識方法であって、音声入力装置から入力される音声により単語を認識する認識ステップと、単語毎に交換候補が登録された記憶装置から、前記認識された単語に対応する交換候補を取得する取得ステップと、前記取得した交換候補を前記認識された単語とともに表示装置に提示する提示ステップとを有することを特徴とする。
本発明の請求項1に係る音声認識装置によれば、第一位候補のみを求める音声認識を行い、単語毎に交換候補が登録された候補登録手段から、認識された単語に対応する交換候補を取得し、取得した交換候補を認識された単語とともに提示するので、音声認識の探索処理に必要な時間、計算量およびメモリ容量を抑えつつ、従来と同様に複数の交換候補を提示できる。
請求項2に係る音声認識装置によれば、正解候補が含まれる確率を高めることができる。請求項3に係る音声認識装置によれば、擬似的に複数の候補を提示する際の参照が容易となる。請求項4に係る音声認識装置によれば、ユーザの利便性(使い勝手)を向上できる。請求項5に係る音声認識装置によれば、交換候補を効率的に提示できる。請求項6に係る音声認識装置によれば、単語間の類似度を正確なものにすることができる。請求項7に係る音声認識装置によれば、交換候補の取得が容易になる。請求項8に係る音声認識装置によれば、交換候補を絞り込むことができ、メモリ容量を少なくすることができる。請求項9に係る音声認識装置によれば、正解候補に近いものを優先的に登録できる。請求項10に係る音声認識装置によれば、ユーザの利便性(使い勝手)を向上できる。請求項11に係る音声認識装置によれば、交換候補の取得を多様化できる。請求項12に係る音声認識装置によれば、認識される単語の数が多い場合に有効である。請求項14に係る音声認識装置によれば、得点の算出を多様化でき、提示する交換候補を絞り込む際に、言語的・文法的により確からしい候補を優先的に取得することができる。
本発明の音声認識装置、音声認識方法、記憶媒体およびプログラムの実施の形態について、図面を参照しながら説明する。
[第1の実施形態]
図1は第1の実施形態における音声認識装置のモジュール構成を示すブロック図である。この音声認識装置は、音声認識に用いる音響モデル111、音声認識に用いる認識辞書や認識文法、N−gram確率などが記録された言語モデル112、認識対象の単語毎に交換候補の単語が登録された単語交換候補テーブル113、音響モデル111および言語モデル112を用いて音声を認識する音声認識部101、および単語交換候補テーブル113を参照し、音声認識部101から出力される認識結果を基に複数の交換候補を求めて提示する複数候補提示部102を有する。
図1は第1の実施形態における音声認識装置のモジュール構成を示すブロック図である。この音声認識装置は、音声認識に用いる音響モデル111、音声認識に用いる認識辞書や認識文法、N−gram確率などが記録された言語モデル112、認識対象の単語毎に交換候補の単語が登録された単語交換候補テーブル113、音響モデル111および言語モデル112を用いて音声を認識する音声認識部101、および単語交換候補テーブル113を参照し、音声認識部101から出力される認識結果を基に複数の交換候補を求めて提示する複数候補提示部102を有する。
本実施形態の音声認識装置は、汎用のコンピュータ(PC)に搭載されており、上記各モジュールは、コンピュータ内の記憶媒体に保持される、あるいはCPUが記憶媒体に記憶されている音声認識処理プログラムを実行することによって実現される。図2は音声認識装置が搭載される汎用コンピュータのハードウェア構成を示すブロック図である。この汎用コンピュータは、CPU1、ROM2、RAM3、音声インタフェース(I/F)4、ディスクコントローラ(DISKC)7、ディスプレイコントローラ(DSPC)9およびI/Oインタフェース11がバス13を介して接続された構成を有する。CPU1は、ROM2から制御プログラムを順次読み取って実行し、装置全体を制御する。RAM3は入力データの記憶や作業用記憶領域等として用いられる。音声インタフェース(I/F)4は、スピーカ5への音声出力を行う回路、およびマイク6から音声入力を行う回路を有する。ディスクコントローラ7は、大容量のハードディスク8を制御する。ディスプレイコントローラ9は、ディスプレイ10に転送される表示データを制御する。I/Oインターフェース11には、キーボード12およびマウス14が接続される。また、ハードディスク8には、単語交換候補テーブル113が格納されている他、音響モデル111および言語モデル112も格納されている。複数候補提示部102は、複数の交換候補を提示する際、ディスプレイ10を用いる。
図3は音声認識処手順を示すフローチャートである。この処理プログラムは、コンピュータ(PC)内の記憶媒体(ROM2、ハードディスク8)に格納されており、CPU1によって実行される。まず、音声認識部101により、マイク6を通じて入力された音声に対し、音声認識を実行し、その認識結果を得る(ステップS1)。このとき、音声認識部101では、第1位候補だけが得られる。複数候補提示部102により、得られた認識結果を基に単語交換候補テーブル113を参照し、認識結果を構成する単語毎に交換候補となる単語と入れ替えた場合の複数の認識結果候補(交換候補)を求め(ステップS2)、これらの候補をディスプレイ10に表示(提示)する(ステップS3)。この後、本処理を終了する。
図4は単語交換候補テーブル113を示す図である。この単語交換候補テーブルには、列311に示す認識結果の単語毎に、列312、313に示す交換候補の単語が記述されている。図中、認識結果「表紙」に対し、交換候補の単語として「教師」と「漁師」が記述されている(行301参照)。また、認識結果「の」に対する交換候補は記述されていない(行302参照)。同様に、「絵」に対する交換候補として、1つの単語「目」のみが記述されている(行303参照)。
図5は単語候補交換テーブルを用いて求められた複数の認識結果候補を示す図である。音声認識結果およびこの認識結果から求められた複数の認識結果候補は、PCのディスプレイ10に表示される。ウィンドウ401には、認識結果402および他の認識結果候補(交換候補)403が表示されている。複数候補提示部102は、認識結果「表紙の絵が届かない」に対し、認識結果を構成する単語である「表紙」、「の」、「絵」、「が」、「届かない」のそれぞれについて、単語交換候補テーブル113を参照し、候補単語と入れ替えた場合の他の認識結果候補を生成する。例えば、「表紙」については、単語交換候補テーブルの該当箇所(図4の行301)を参照し、「教師」、「漁師」と交換する。
図6は認識結果の各単語毎に別の認識結果候補を表示する例を示す図である。同図(A)では、音声認識終了後、認識結果である「表紙の絵が届かない」が表されている。この例では、ユーザが別候補を見たい場合、マウス14で単語をクリックすると、別候補が表示される。同図(B)では、認識結果の単語「表紙」に対し、別の単語候補「教師」、「漁師」が表示されている。同図(C)では、認識結果の単語「絵」に対し、別の単語候補「目」が表示されている。このように、単語交換候補テーブル113を参照することにより、音声認識部101で複数の認識結果を求める処理を行わなくても、擬似的に複数の認識結果候補を表示することが可能になる。
図7は単語交換候補テーブルの作成処理手順を示すフローチャートである。この処理プログラムは、コンピュータ(PC)内の記憶媒体(ROM2、ハードディスク8)に格納されており、CPU1によって実行される。まず、複数回の音声認識を行い、その認識結果を取得する(ステップS11)。得られた音声認識結果と正解(発声した内容)を比較し、正解の単語に対する単語のコンフュージョンマトリクスを作成する(ステップS12)。例えば、「教師」、「漁師」、「表紙」という単語認識を行ってコンフュージョンマトリクスを作成する方法を以下で説明する。
図8は「教師」、「漁師」、「表紙」の音声認識をそれぞれ10回、5回、3回行った場合の認識結果を示す図である。同図において、701、702、703はそれぞれ「教師」、「漁師」、「表紙」という音声に対する音声認識結果である。図8では、正解と異なる認識結果に下線が引かれている。この認識結果を基に、正解した頻度、誤認識した単語およびその頻度をカウントする。
例えば、「教師」に対する認識の結果に注目すると、全10回の発声のうち、6回が正解の「教師」であり、残る4回が誤認識である。誤認識のうち、3回が「漁師」であり、1回が「表紙」である。同様に、「漁師」、「表紙」についても、それぞれの単語に対応する認識結果から、正解・誤認識の頻度を得る。得られた正解・誤認識の頻度から図9に示すような単語のコンフュージョンマトリクスを作成する。図9のコンフュージョンマトリクスでは、ある単語を発声した場合に得られる認識結果の頻度を「頻度/発声回数」という形式で表している。例えば、行801には、「教師」という音声に対する正解および誤認識の頻度が示されている。ここで、頻度そのもの、あるいは「頻度/発声回数」は単語間の類似度を示す指標として用いることができる。つまり、「頻度/発声回数」が大きいほど、単語同士が類似していることになる。この類似度を基に、各単語に対する単語交換候補を決定し、単語交換候補テーブル113を作成する(ステップS13)。この後、本処理を終了する。
ここでは、図9の単語のコンフュージョンマトリクスの列方向における、認識結果の単語に対する頻度が値1以上ある正解の単語を、認識結果の単語に対する単語交換候補として単語交換候補テーブルを作成する場合について説明する。例えば、「漁師」に対する単語交換候補を求める場合、列812を参照し、頻度が値0でない「教師」を「漁師」に対する交換する単語の候補(単語交換候補)とする。頻度が値0である「表紙」は「漁師」に対する単語交換候補としない。「教師」「表紙」についても同様に単語交換候補を求めて作成した単語交換候補テーブルを図10に示す。
このように、第1の実施形態の音声認識装置によれば、単語交換候補テーブル113を参照することにより、音声認識部101で複数の認識結果を求める処理を行わなくても、擬似的に複数の認識結果候補を表示することが可能になる。つまり、探索時に認識結果の第1位候補だけを求める処理を行い、この第1位候補から複数の認識結果候補を取得するので、音声認識の探索処理に必要な時間、計算量およびメモリ容量を抑えつつ、従来と同様に複数の交換候補(単語交換候補)を提示できる。
[第2の実施形態]
第2の実施形態の音声認識装置の構成は、前記第1の実施形態と同様であるので、同一の符号を用いることによりその説明を省略する。第2の実施形態では、単語間の類似度を、「Aという単語が認識されたときにBと発声されている割合」で示すこととする。つまり、Aという単語がX回認識結果として出現した場合、そのX回のうち、Bと発声された回数Yを数え上げ、Y/Xで求まる値を類似度として用いる。
第2の実施形態の音声認識装置の構成は、前記第1の実施形態と同様であるので、同一の符号を用いることによりその説明を省略する。第2の実施形態では、単語間の類似度を、「Aという単語が認識されたときにBと発声されている割合」で示すこととする。つまり、Aという単語がX回認識結果として出現した場合、そのX回のうち、Bと発声された回数Yを数え上げ、Y/Xで求まる値を類似度として用いる。
ただし、図8に示すように、単語毎に発声された回数が異なると、発声回数の多い単語に対する割合が相対的に大きくなるので、単語のコンフュージョンマトリクスにおける頻度を発声回数で正規化する必要がある。その後、正規化した頻度を用いて認識結果に対する発声された単語の割合を計算する。以下で図を用いて具体的な計算方法を説明する。
図11は第2の実施形態における、認識結果が「表紙」である場合に、発声回数で正規化した頻度を用いて認識結果に対する発声された単語の割合を求める手順を示す図である。同図(A)は図9のコンフュージョンマトリクスの列813の部分を抜き出したものであり、「表紙」が認識された場合に発声が「教師」、「漁師」、「表紙」であるそれぞれの頻度と、各単語を発声した回数(音声認識の試行回数)が示されている。次に各単語の頻度を発声回数を用いて正規化する。同図(B)では、頻度を発声回数(音声認識の試行回数)で正規化し、各単語の発声が同一回数となる場合の頻度が求められている。ここでは、各単語の頻度は、各単語が30回発声された場合の頻度として正規化されている。同図(C)では、正規化された頻度を用いて、「表紙」が認識された回数(3+6+20=29)と、それに対する元の発声の割合が求められている。さらに、同図(D)では、「表紙」という認識結果に対して元の発声が「表紙」である場合、すなわち発声が正しく認識された場合、その割合が「1.0」となるように、元の発声が「表紙」である場合の頻度で「教師」、「猟師」の割合が正規化されている。このようにして求めた各単語の割合を類似度として用いると、この類似度は、認識結果と元の発声が一致する場合、「1.0」、一致しない場合、それより小さい値となることが期待される。
一方、同図(E)は、発声回数による頻度の正規化を行わなかった場合の単語の割合が示されている。この計算方法では、各単語の発声回数が考慮されていないため、音声認識の試行回数の多い「表紙」に対し、試行回数が少ない「教師」、「漁師」の割合が相対的に大きくなっている。
図12は単語交換候補テーブルを示す図である。この単語交換候補テーブルには、同図(A)に示すように、単語交換候補とともに類似度が登録されている。また、後段の処理で単語交換候補を参照しやすいように、同図(B)に示すように、類似度にしたがって単語交換候補を並べ替えて登録してもよい。このように、並べ替えておくことで、図6に示したように、単語毎に認識結果の単語交換候補を提示する際、類似度の高い順に単語交換候補を並べることが容易となる。
このように、第2の実施形態によれば、類似度をより正確なものにすることができる。また、正解候補に近いものを優先的に登録できる。
[第3の実施形態]
前記第1の実施形態では、認識結果に対する別の交換候補を提示する際、図5に示すように、認識結果の各単語を単語交換候補テーブルに登録された単語交換候補と入れ替え、求まる全ての認識結果候補を提示したが、認識対象となる語数が多い場合や認識結果を構成する単語数が多い場合は、単語の組み合わせによって表現される認識結果候補は膨大な数になるので、全ての候補を提示することは現実的ではない。第3の実施形態では、各認識結果候補に対してスコア(得点)を計算し、計算されたスコアを基に提示する候補を制限する。
前記第1の実施形態では、認識結果に対する別の交換候補を提示する際、図5に示すように、認識結果の各単語を単語交換候補テーブルに登録された単語交換候補と入れ替え、求まる全ての認識結果候補を提示したが、認識対象となる語数が多い場合や認識結果を構成する単語数が多い場合は、単語の組み合わせによって表現される認識結果候補は膨大な数になるので、全ての候補を提示することは現実的ではない。第3の実施形態では、各認識結果候補に対してスコア(得点)を計算し、計算されたスコアを基に提示する候補を制限する。
図13は第3の実施形態における音声認識装置のモジュール構成を示すブロック図である。第3の実施形態の音声認識装置では、前記第1の実施形態の音声認識装置の構成の他、各認識結果候補のスコア(得点)を計算するスコア計算部103が設けられている。
図14は第3の実施形態における音声認識処手順を示すフローチャートである。この処理プログラムは、コンピュータ(PC)内の記憶媒体(ROM2、ハードディスク8)に格納されており、CPU1によって実行される。ここで、ステップS21、S22の処理は、前記第1の実施形態におけるステップS1、S2と同様の処理である。
すなわち、音声認識部101により、マイク6を介して入力された音声に対し、音声認識を実行し、その認識結果を得る(ステップS21)。このとき、音声認識部101では、第1位候補だけが得られる。複数候補提示部102により、得られた認識結果を基に、前記第2の実施形態の単語交換候補テーブル1102(図12)を参照し、認識結果を構成する単語毎に交換候補となる単語と入れ替えた場合の複数の認識結果候補を求める(ステップS22)。ここで、単語交換候補テーブルには、前記第2の実施形態で示したように、単語交換候補とその類似度が登録されている。
ステップS22で求められた複数の認識結果候補に対し、スコア計算部103で各候補のスコアを計算する(ステップS23)。図15は単語交換候補テーブルに登録された各単語の類似度を用いて各認識結果候補におけるスコア計算を示す図である。同図(A)は認識結果1301を示し、ここでは、認識結果は「今日は雨」である。同図(B)は単語交換候補テーブル1302を示す。同図(C)は認識結果に対する他の認識結果候補群1303を示す。認識結果1301および単語交換候補テーブル1302から求められる全ての認識結果候補に対し、単語交換候補テーブル1302に登録されている類似度を用いて認識結果候補のスコア(得点)が計算される。ここでは、認識結果候補を構成する各単語の類似度の積を、認識結果候補のスコアとしている。また、説明を簡単にするため、単語交換候補テーブルには、認識結果に対する単語交換候補だけが登録されているが、実際の単語交換候補テーブルでは、認識対象語の全てが登録(定義)されている。そして、前述した類似度も、単語交換候補テーブルに併せて登録されている。
ステップS23で各候補のスコアを計算した後、求めたスコアが大きい方から順に所定個数分の認識結果候補を複数候補提示部102によってディスプレイ10に表示(提示)する(ステップS24)。同図(C)では、スコアの大きい順に認識結果候補が提示されており、スコアの高い方から順に3候補を提示する場合、横線1304より上の候補が認識結果候補として表示される。
このように、第3の実施形態の音声認識装置によれば、認識対象となる語数が多い場合や、認識結果を構成する単語数が多い場合であっても、単語の組み合わせによって表現される認識結果候補数を抑えることができる。
以上が本発明の実施形態の説明であるが、本発明は、これら実施形態の構成に限られるものではなく、特許請求の範囲で示した機能、または実施形態の構成が持つ機能が達成できる構成であればどのようなものであっても適用可能である。
例えば、前記第3の実施形態では、認識結果候補のスコアを各認識結果候補を構成する各単語の類似度の積として計算したが、これに限るものではなく、この積に対して単語数の累乗根をとって単語数による正規化を行ったものでもよいし、和をとって単語数で割り、1単語あたりの平均類似度をもって認識結果候補のスコアとしてもよい。
また、前記第3の実施形態では、認識結果候補のスコアを各認識結果候補を構成する各単語の類似度を基に求めたが、類似度ではなく、N−gram確率などの言語モデル112を用いて計算してもよい。図16は言語モデル112を用いてスコアを計算する場合の音声認識装置のモジュール構成を示すブロック図である。この場合、スコア計算部103は言語モデル112を参照してスコアを計算する。図18にbigram確率を用いてスコアを計算する様子を示す。同図(A)の1801はbigram言語モデルの一例であり、列1806に先行単語、列1807に後続単語、列1808に先行単語および後続単語が連鎖する確率値すならちbigram確率値が示されている。図15(A)の認識結果1301に対して、同図(B)の単語交換候補テーブルから求められる全ての認識結果候補に対して、図18(A)のbigram言語モデル1801に記録されたbigram確率値を用いて認識結果候補のスコア(得点)を計算する。同図(B)に各認識結果候補のスコアの計算式および計算されたスコアを示す。1811に示した認識結果候補「京都は 雨」を例に計算方法を説明する。単語Aに単語Bが接続するbigram確率をb(A,B)とすると、「京都は 雨」に対するスコアLは、
L=b(文頭, 京都)×b(京都,は)×b(は,雨)×b(雨,文末)
で求められる。同図(A)のbigram言語モデルを参照すると、b(A,B)はそれぞれ以下のように求まる。
L=b(文頭, 京都)×b(京都,は)×b(は,雨)×b(雨,文末)
で求められる。同図(A)のbigram言語モデルを参照すると、b(A,B)はそれぞれ以下のように求まる。
b(文頭,京都)= 0.2 (図18行1802参照)
b(京都,は)= 0.5 (図18行1803参照)
b(は,雨)= 0.6 (図18行1804参照)
b(雨,文末)=0.6 (図18行1805参照)
上記のbigram確率値を用いて「京都 は 雨」のスコアLは、
L=0.2×0.5×0.6×0.6=0.036
と求まる(図18 1811参照)。同様に他の認識結果候補に対してもbigram言語モデル1801を参照してスコアを計算することができる。図18(B)1810に他の認識結果候補群に対するスコアの計算方法およびスコアを示す。同図では、第3の実施例と同様に、スコアの大きい方から順に認識結果候補が提示されており、スコアの高い方から順に3候補を提示する場合は、横線1812より上の候補が認識結果候補として提示される。
b(京都,は)= 0.5 (図18行1803参照)
b(は,雨)= 0.6 (図18行1804参照)
b(雨,文末)=0.6 (図18行1805参照)
上記のbigram確率値を用いて「京都 は 雨」のスコアLは、
L=0.2×0.5×0.6×0.6=0.036
と求まる(図18 1811参照)。同様に他の認識結果候補に対してもbigram言語モデル1801を参照してスコアを計算することができる。図18(B)1810に他の認識結果候補群に対するスコアの計算方法およびスコアを示す。同図では、第3の実施例と同様に、スコアの大きい方から順に認識結果候補が提示されており、スコアの高い方から順に3候補を提示する場合は、横線1812より上の候補が認識結果候補として提示される。
また、上記実施形態では、認識対象となる単語数が増えるにつれて、単語交換候補の数が増えるので、単語交換候補テーブルに登録される単語交換候補の数を、類似度を基準にして絞り込むことが望ましい。この際、各単語毎に類似度の大きい方から所定個数分の単語交換候補を提示する単語交換候補としてもよいし、類似度に閾値を設定し、設定された閾値以上の類似度の単語交換候補を提示する単語交換候補としてもよい。
また、上記実施形態では、類似度を、単語コンフュージョンマトリクスを作成する際に数え上げた単語Aを単語Bとして認識する頻度を基に計算したが、これに限るものではない。例えば、単語Aを単語A、単語Bと認識したときの、音響尤度など音声認識スコアの比として求めてもよい。また、単語Aを単語Aとして正しく認識したときの平均の認識スコアをS(A)、単語Aを単語Bとして間違えて認識したときの平均の認識スコアをS(B)とし、S(B)/S(A)で表わされる値を類似度としてもよい。
また別の方法として、各単語間の発音の類似度を用いて、類似度を計算してもよい。各単語間の発音の類似度に対し、様々な定義が考えられるが、ここでは一例として各単語を構成する音素間の類似度を使用するものとする。まず、単語コンフュージョンマトリクスと同様、音声認識結果から音素コンフュージョンマトリクスを求め、混同の多い音素間の類似度が値1に近い値になるように、逆に混同の少ない音素間の類似度が値0に近い値になるように、値0〜値1の範囲で音素間の類似度を規定する。ただし、同一音素間の距離を値1、混同の起らない音素間の類似度を値0あるいは値0に近い非常に小さな値とする。
この音素間類似度を用いて、各単語間の距離を求める。各単語を音素記号列で表し、単語の音素記号列間で類似度が大きくなるように、DPマッチングをとり、上記類似度を累積して単語間の類似度を求める。求めた単語間の類似度が値0〜値1の範囲になるように、DPマッチングの際、音素間の類似度を積算するか、音素間距離の対数を加算してDPスコアを求めるものとする。
また、上記実施形態では、単語交換候補テーブルには、各単語に対して交換候補となる単語を登録したが、これに限るものではなく、単語列に対する単語交換候補を登録してもよい。また、単語の交換候補として単語列を登録してもよい。図17は単語列を含む単語交換候補テーブルを示す図である。行1501では、単語列に対する交換候補として単語が登録されている。行1502では、単語に対する交換候補として単語列が登録されている。
また、上記実施形態では、認識結果および他の認識結果候補をディスプレイ(表示部)に表示する場合を示したが、表示とともにあるいは表示に代えて、音声により報知するようにしてもよい。また、上記各実施形態の音声認識装置は、汎用のコンピュータに搭載されているが、画像形成装置などに搭載してもよいことは勿論である。
また、本発明は1つの機器からなる装置に適用しても、複数の機器から構成されるシステムに適用してもよい。また、本発明の目的は、実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出して実行することによっても達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
上記実施形態では、プログラムをROMに保持する場合を示したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作を行う回路で実現してもよい。又、プログラムコードを供給するための記憶媒体としては、例えば、ROM、フロッピー(登録商標)ディスク、PCMCIAカードやコンパクトフラッシュ(登録商標)等のメモリカード、ハードディスク、マイクロDAT、光磁気ディスク、CD−RやCD−RW等の光ディスク、DVD等の相変化型光ディスク等で構成されてもよい。
また、コンピュータが読み出したプログラムコードを実行することにより、上記実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
1 CPU
2 ROM
8 ハードディスク
101 音声認識部
102 複数候補提示部
103 スコア計算部
111 音響モデル
112 言語モデル
113 単語交換候補テーブル
2 ROM
8 ハードディスク
101 音声認識部
102 複数候補提示部
103 スコア計算部
111 音響モデル
112 言語モデル
113 単語交換候補テーブル
Claims (18)
- 音声認識を行い、複数の単語候補を提示する音声認識装置であって、
単語毎に交換候補が登録された候補登録手段と、
音声により単語を認識する認識手段と、
前記認識された単語に対応する交換候補を前記候補登録手段から取得する取得手段と、
前記取得した交換候補を前記認識された単語とともに提示する提示手段とを備えたことを特徴とする音声認識装置。 - 前記取得手段は、前記候補登録手段に登録されている交換候補を、単語間の類似度を基に取得することを特徴とする請求項1記載の音声認識装置。
- 前記候補登録手段には、前記単語毎の交換候補がテーブル形式で登録されていることを特徴とする請求項1記載の音声認識装置。
- 前記認識された単語を前記取得した交換候補に入れ替える入替手段を備えたことを特徴とする請求項1記載の音声認識装置。
- 前記候補登録手段には、複数の単語からなる単語列に対応する交換候補、および前記交換候補として単語列が登録されていることを特徴とする請求項1記載の音声認識装置。
- 音声認識を行って単語間のコンフュージョンマトリクスを作成する作成手段を備え、
前記類似度は、前記作成されたコンフュージョンマトリクスを基に、決定されることを特徴とする請求項2記載の音声認識装置。 - 前記候補登録手段には、前記交換候補とともに前記類似度が登録されていることを特徴とする請求項2記載の音声認識装置。
- 前記候補登録手段には、前記類似度が所定値以上である前記交換候補が登録されていることを特徴とする請求項2または7記載の音声認識装置。
- 前記候補登録手段には、前記類似度の大きいものから所定個数分、前記交換候補が登録されていることを特徴とする請求項2記載の音声認識装置。
- 前記候補登録手段には、前記類似度の大きいものから順に前記交換候補が登録され、前記提示手段は、前記類似度の大きいものから順に前記交換候補を提示することを特徴とする請求項2記載の音声認識装置。
- 音声認識を行って音素間の類似度を規定する規定手段を備え、
前記類似度は、前記規定された音素間の類似度を基に、決定されることを特徴とする請求項2記載の音声認識装置。 - 前記候補登録手段から取得された複数の前記交換候補の得点を算出する得点算出手段を備え、
前記提示手段は、前記算出された得点を基に、前記複数の交換候補を提示することを特徴とする請求項1記載の音声認識装置。 - 前記得点算出手段は、前記類似度を基に、前記交換候補の得点を算出することを特徴とする請求項12記載の音声認識装置。
- 前記得点算出手段は、言語モデルを基に、前記交換候補の得点を算出することを特徴とする請求項12記載の音声認識装置。
- 前記提示手段は、前記得点が大きい順に前記交換候補を提示することを特徴とする請求項12乃至14のいずれかに記載の音声認識装置。
- 音声認識を行い、複数の単語候補を提示する音声認識方法であって、
音声入力装置から入力される音声により単語を認識する認識ステップと、
単語毎に交換候補が登録された記憶装置から、前記認識された単語に対応する交換候補を取得する取得ステップと、
前記取得した交換候補を前記認識された単語とともに表示装置に提示する提示ステップとを有することを特徴とする音声認識方法。 - 請求項1乃至15のいずれかに記載の音声認識装置を実現するためのコンピュータ読み取り可能なプログラムコードを保持する記憶媒体。
- 請求項1乃至15のいずれかに記載の音声認識装置を実現するためのコンピュータ読み取り可能なプログラムコードを有するプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004043419A JP2005234236A (ja) | 2004-02-19 | 2004-02-19 | 音声認識装置、音声認識方法、記憶媒体およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004043419A JP2005234236A (ja) | 2004-02-19 | 2004-02-19 | 音声認識装置、音声認識方法、記憶媒体およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005234236A true JP2005234236A (ja) | 2005-09-02 |
Family
ID=35017253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004043419A Withdrawn JP2005234236A (ja) | 2004-02-19 | 2004-02-19 | 音声認識装置、音声認識方法、記憶媒体およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005234236A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006054724A1 (ja) * | 2004-11-22 | 2006-05-26 | National Institute Of Advanced Industrial Science And Technology | 音声認識装置及び方法ならびにプログラム |
JP2010020102A (ja) * | 2008-07-10 | 2010-01-28 | Fujitsu Ltd | 音声認識装置、音声認識方法及びコンピュータプログラム |
US7729921B2 (en) | 2006-08-14 | 2010-06-01 | Nuance Communications, Inc. | Apparatus, method, and program for supporting speech interface design |
JP2013050742A (ja) * | 2012-12-11 | 2013-03-14 | Ntt Docomo Inc | 音声認識装置および音声認識方法 |
JP2014115646A (ja) * | 2012-12-07 | 2014-06-26 | Postech Academy - Industry Foundation | 音声認識のエラー修正方法及び装置 |
JP2016191740A (ja) * | 2015-03-30 | 2016-11-10 | 株式会社エヌ・ティ・ティ・データ | 音声処理装置、音声処理方法およびプログラム |
JP2017094535A (ja) * | 2015-11-19 | 2017-06-01 | コニカミノルタ株式会社 | 画像形成装置 |
JP2021043465A (ja) * | 2016-09-15 | 2021-03-18 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
-
2004
- 2004-02-19 JP JP2004043419A patent/JP2005234236A/ja not_active Withdrawn
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7848926B2 (en) | 2004-11-22 | 2010-12-07 | National Institute Of Advanced Industrial Science And Technology | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words |
GB2437436A (en) * | 2004-11-22 | 2007-10-24 | Nat Inst Of Advanced Ind Scien | Voice recognition device and method, and program |
GB2437436B (en) * | 2004-11-22 | 2009-07-08 | Nat Inst Of Advanced Ind Scien | Voice recognition device and method, and program |
WO2006054724A1 (ja) * | 2004-11-22 | 2006-05-26 | National Institute Of Advanced Industrial Science And Technology | 音声認識装置及び方法ならびにプログラム |
US7729921B2 (en) | 2006-08-14 | 2010-06-01 | Nuance Communications, Inc. | Apparatus, method, and program for supporting speech interface design |
US7747443B2 (en) | 2006-08-14 | 2010-06-29 | Nuance Communications, Inc. | Apparatus, method, and program for supporting speech interface design |
JP2010020102A (ja) * | 2008-07-10 | 2010-01-28 | Fujitsu Ltd | 音声認識装置、音声認識方法及びコンピュータプログラム |
US8271282B2 (en) | 2008-07-10 | 2012-09-18 | Fujitsu Limited | Voice recognition apparatus, voice recognition method and recording medium |
JP2014115646A (ja) * | 2012-12-07 | 2014-06-26 | Postech Academy - Industry Foundation | 音声認識のエラー修正方法及び装置 |
US9318102B2 (en) | 2012-12-07 | 2016-04-19 | Postech Academy—Industry Foundation | Method and apparatus for correcting speech recognition error |
JP2013050742A (ja) * | 2012-12-11 | 2013-03-14 | Ntt Docomo Inc | 音声認識装置および音声認識方法 |
JP2016191740A (ja) * | 2015-03-30 | 2016-11-10 | 株式会社エヌ・ティ・ティ・データ | 音声処理装置、音声処理方法およびプログラム |
JP2017094535A (ja) * | 2015-11-19 | 2017-06-01 | コニカミノルタ株式会社 | 画像形成装置 |
JP2021043465A (ja) * | 2016-09-15 | 2021-03-18 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036464B (zh) | 发音检错方法、装置、设备及存储介质 | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
CN110675855B (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
JP5040909B2 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
US7996209B2 (en) | Method and system of generating and detecting confusing phones of pronunciation | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
US7765102B2 (en) | Generic spelling mnemonics | |
US6801892B2 (en) | Method and system for the reduction of processing time in a speech recognition system using the hidden markov model | |
US20050091054A1 (en) | Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system | |
US20160055763A1 (en) | Electronic apparatus, pronunciation learning support method, and program storage medium | |
JP2001282282A (ja) | 音声情報処理方法および装置および記憶媒体 | |
JP2006146008A (ja) | 音声認識装置及び方法ならびにプログラム | |
JP2002258890A (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
CN112331229A (zh) | 语音检测方法、装置、介质和计算设备 | |
JPH09127978A (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
US12080275B2 (en) | Automatic learning of entities, words, pronunciations, and parts of speech | |
US20110218802A1 (en) | Continuous Speech Recognition | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
JP2010078877A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN115312030A (zh) | 虚拟角色的显示控制方法、装置及电子设备 | |
JP2005234236A (ja) | 音声認識装置、音声認識方法、記憶媒体およびプログラム | |
TWI241555B (en) | Device and method for recognizing consecutive speech, and program recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060418 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070501 |