JP2005283646A

JP2005283646A - 音声認識率推定装置

Info

Publication number: JP2005283646A
Application number: JP2004093385A
Authority: JP
Inventors: Mitsuru Endo; 充遠藤; 裕康 ▲桑▼野; Hiroyasu Kuwano
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-03-26
Filing date: 2004-03-26
Publication date: 2005-10-13

Abstract

【課題】実際の音声認識処理過程を反映させて音声認識率を推定すること。
【解決手段】ＣＰＵ１００は、プログラム１１０ａの実行により、音声素片１３０ｃを用い音声合成して仮想発声データを生成し、生成された仮想発声データに音環境データ１３０ｄを合成して音環境の影響をシミュレートする。音環境データ１３０ｄは、各種周囲のノイズデータを保存したもので、仮想発声データに重畳することで、仮想発声データをより実際の音声出力環境に近付けることができる。そして、ＣＰＵ１００は音環境の影響をシミュレートした仮想発声データを用いて音声認識を行い、音声認識率を推定する。また、認識率の低い単語は、ユーザが実際に発生した実発声データをマイク１２０により収録して認識率を推定する一方、認識率の高いものは音声素片１３０ｃを用いて音声合成した仮想発声データにより認識率を推定することも可能である。
【選択図】図１

Description

本発明は、音声認識を行った際の音声認識率を推定する音声認識率推定装置に関するものである。

従来の音声認識率推定装置としては、音声認識用の辞書と、コンフュージョンマトリックスとを用いて音声認識率を推定するものがあった（例えば、特許文献１参照）。

この従来技術では、音声認識率の推定は、辞書に登録されている単語を音節列に変換し、コンフュージョンマトリックスに表現されている音節同士の誤り確率を参照して、ＤＰマッチングにより単語対単語の類似性を数値化し、認識する、認識しないを判定することで、認識率を推定している。
特開平２−３０４４９５号公報（第２頁、第３図）

しかしながら、前述した従来の音声認識率推定装置では、コンフュージョンマトリックスを用いた音節系列レベル、つまり文字ベースでの音声認識率の推定であるため、フレームレベルでのマッチング特性等の実際の音声認識処理過程が反映されずに、音声認識率が推定されてしまい、認識率の推定精度に限界がある、という課題がある。

また、コンフュージョンマトリックス内に表現されている誤り傾向のみに基づいて音声認識率を推定しているので、コンフュージョンマトリックス内に表現されていないノイズ環境や話者性の影響を反映できない、という課題もある。

本発明はかかる点に鑑みてなされたものであり、実際の音声認識処理過程を反映して音声認識率を推定することができる音声認識率推定装置を提供することを目的とする。

本発明の音声認識率推定装置は、音声認識に用いる辞書内の各単語の仮想発声データを生成する仮想発声データ生成手段と、前記仮想発声データを用い音声認識を行って、音声認識率を推定する音声認識率推定手段と、を有する構成を採る。

この構成によれば、仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。

本発明の音声認識率推定装置は、前記構成において、前記仮想発声データ生成手段は、音声合成用の音声素片を用いて前記仮想発声データを生成する、構成を採る。

この構成によれば、音声合成用の音声素片を用いて仮想発声データを生成するため、簡単に仮想発声データを生成することができる。

本発明の音声認識率推定装置は、前記構成において、前記仮想発声データ生成手段は、前記音声認識に用いる音響モデルを用いて前記仮想発声データを生成する、構成を採る。

この構成によれば、音声認識に用いる音響モデルを用いて仮想発声データを生成するため、音声合成用の音声素片等が不要になると共に、そのためのメモリ容量を削減することができる。

本発明の音声認識率推定装置は、前記構成において、前記仮想発声データに音環境データを重畳する音環境データ重畳手段、をさらに有し、前記音声認識率推定手段は、前記音環境データが重畳された前記仮想発声データを用い音声認識を行って、音声認識率を推定する、構成を採る。

この構成によれば、音環境データが重畳された仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性および環境依存性を考慮し、かつ音声認識処理過程を反映して音声認識率を推定することができる。

本発明の音声認識率推定装置は、前記構成において、前記辞書内の所定の少数単語の実発声データを収録する実発声データ収録手段と、前記辞書内の残りの単語を前記仮想発声データにより補完する補完手段と、をさらに有し、前記音声認識率推定手段は、前記実発声データおよび前記仮想発声データを用い音声認識を行って、音声認識率を推定する、構成を採る。

この構成によれば、実発声データおよび仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性および話者依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。

本発明の音声認識率推定装置は、前記構成において、前記所定の少数単語は、前記仮想発声データを使って求めた単語認識困難度が高いものである、構成を採る。

この構成によれば、単語認識困難度が高い所定の少数単語は実発声データとし、残りの認識しやすい単語は仮想発声データにより認識率を推定するため、認識率の推定精度が上がる。

本発明の音声認識率推定装置は、前記構成において、前記仮想発声データは、前記実発声データを使用して発声者の声に適応させたものである、構成を採る。

この構成によれば、仮想発声データは、実発声データを使用して発声者の声に適応したものとなるため、認識率の推定精度が上がる。

本発明の音声認識率推定装置は、前記構成において、前記仮想発声データに音環境データを重畳する音環境データ重畳手段、をさらに有し、前記音声認識率推定手段は、前記実発声データと、前記音環境データを重畳された前記仮想発声データとにより音声認識を行い、音声認識率を推定する、構成を採る。

この構成によれば、実発声データおよび音環境データを重畳された仮想発声データにより音声認識率を推定するため、辞書依存性および話者依存性および環境依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。

本発明の音声認識率推定方法は、音声認識に用いる辞書内の各単語の仮想発声データを生成するステップと、前記仮想発声データを用い音声認識を行って、音声認識率を推定するステップと、を有するようにした。

この方法によれば、仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。

本発明の声認識率推定用のプログラムは、音声認識に用いる辞書内の各単語の仮想発声データを生成する機能と、前記仮想発声データを用い音声認識を行って、音声認識率を推定する機能と、をコンピュータに実行させるようにした。

このプログラムによれば、仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。

以上説明したように、本発明によれば、音声認識率の変動要因を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

(実施の形態１)
実施の形態１に係る音声認識率推定装置は、実際の音声認識処理過程を反映させて辞書依存性を考慮した音声認識率を推定すると共に、さらには環境依存性を考慮して音声認識率を推定するものである。

図１は、本発明の実施の形態１に係る音声認識率推定装置を含む音声認識装置の概略構成を示すブロック図である。

図１において、この音声認識装置は、実施の形態１に係る音声認識率推定装置が組み込まれたもので、ＣＰＵ１００と、ＣＰＵ１００が実行するプログラム１１０ａを格納したプログラムメモリ１１０と、音声認識に用いるマイク１２０と、データメモリ１３０とを有している。

データメモリ１３０には、音声認識に用いる音響モデル１３０ａおよび辞書１３０ｂと、音声合成して仮想発声データを生成するための音声素片１３０ｃと、音環境をシミュレートするために用いる音環境データ１３０ｄとが格納されている。

なお、ＣＰＵ１００は、プログラム１１０ａを実行することにより、本発明の仮想発声データ生成手段、音声認識率推定手段、音環境データ重畳手段、及び補完手段として機能する。

次に以上のように構成された音声認識率推定装置について、図面を参照して動作を説明する。

図２は、本発明の実施の形態１の概略動作を示すフローチャートである。

まず、ＣＰＵ１００は、プログラム１１０ａの実行により仮想発声データ生成手段として機能して、音声素片１３０ｃを用い音声合成して仮想発声データを生成する（ステップＳ１０００）。つまり、音声素片１３０ｃは、例えば、ＨＭＭ（Hidden Markov Model）であり、公知のＨＭＭ音声合成方法などにより、辞書１３０ｂ内の単語の仮想発声データを生成する。

図３は、ＨＭＭ（Hidden Markov Model）形式の音声素片１３０ｃの一例を示す説明図である。

図３に示すように、例えば/ａ/、/ｉ/，/ｕ/の母音の音声素片の状態遷移を３音状態により示している。各状態には、図示しないがメル周波数ケプストラム係数（ＭＦＣＣ）や、基本周波数等のパラメータが設定されており、これらにより、音声素片１３０ｃのパラメータを構成している。なお、ＨＭＭ（Hidden Markov Model）形式にて示すと、音響モデル１３０ａも、図３に示すように同様の状態遷移で、同様のメル周波数ケプストラム係数（ＭＦＣＣ）等を有することになるが、音声合成用の基本周波数は必要としないものである。

図４は、音声素片１３０ｃを用いて生成した仮想発声データの波形の一例を示す説明図である。

具体的には、図４は、辞書１３０ｂ内に格納されている、例えば、駅名の「目黒」という単語に対応する発声データを、音声素片１３０ｃを用いて音声合成により生成した仮想発声データの波形図を示している。

次に、ＣＰＵ１００は、プログラム１１０ａの実行により音環境データ重畳手段として機能して、データメモリ１３０から音環境データ１３０ｄを読み出して、生成された仮想発声データに音環境の影響をシミュレートする（ステップＳ１０１０）。

図５は、音環境データ１３０ｄの波形の一例を示しており、駅構内で収録した音環境データ１３０ｄの波形図を示している。

この図５に示すように、音環境データ１３０ｄは、駅や、街中等の各種環境における周囲のノイズデータを保存したものである。音環境データ１３０ｄを仮想発声データに重畳することで、加法性の各種環境における周囲のノイズをシミュレートして、仮想発声データをより実際の音声出力環境に近付けることができる。

ここで、音環境データ１３０ｄは、例えば、各種環境毎に１分程度収録しておき、仮想発声データに重畳する部分をランダムに取り出せるように収録すると良い。

また、音環境データ１３０ｄは、予め代表的な環境音を録音してデータメモリ１３０に記憶したものでも良いし、新しい環境においては、その場でマイク１２０により収録してデータメモリ１３０に記憶して使用するようにしても良い。

また、以上の説明は、加算性のノイズであるが、加算性のノイズの代わりに、乗算性のノイズを重畳するようにしても勿論よい。乗算性のノイズを重畳する場合は、仮想発声データを周波数軸上のパラメータに変換してから乗算性のノイズを加算し、その後、時間軸上の波形に戻すことによりシミュレートすることができる。なお、音環境データ１３０ｄの選択は、図示しないボタンやキーボード、またはマウス等の入力手段を用いてユーザが指定しても良いし、ＣＰＵ１００が自動的に選択するようにしても勿論良い。

図６は、図５に示す音環境データ１３０ｄを、図４に示す仮想発声データに重畳した場合の波形図を示している。これにより、実際に発声しない場合でも、音声素片１３０ｃと音環境データ１３０ｄとにより、駅構内で「目黒」と発声した場合の音声の波形をシミュレートできることになる。

次に、ＣＰＵ１００は、プログラム１１０ａの実行により音声認識率推定手段として機能して、図６に示すように音環境の影響をシミュレートした仮想発声データを用い音声認識を行って、音声認識率を推定する（ステップＳ１０２０）。

つまり、ＣＰＵ１００は、環境の影響をシミュレートした仮想発声データを、実際の音声認識の処理系に通し、仮想発声データを認識できるか、あるいは認識できないかを判定して、音声認識率を推定する。

具体的には、ＣＰＵ１００は、音声認識率推定手段として、まず、仮想発声データに基づいて辞書１３０ｂから単語を取り出し、その単語の子音、母音のつながりに従って音響モデル１３０ａをつなぐ。そして、音響モデル１３０ａをつないだデータと、仮想発声データとの間で、フレームレベルでのマッチング処理等により特徴を比較して、単語単位で最も類似しているものを認識結果とする。次に、その認識結果と、仮想発声データを生成する際に辞書１３０ｂから選択した単語とを比較し、一致していれば、認識できたと判断する一方、一致していなければ、認識できないと判定する。

このように、実施の形態１によれば、音声素片１３０ｃを用いて辞書１３０ｂ内の各単語の仮想発声データを生成して、生成した仮想発声データを実際の音声認識の処理系に通して音声認識を行って認識率を推定するようにしたため、実際に人が発声をしないでも、フレームレベルでのマッチング特性等の実際の音声認識処理過程を反映させた音声認識率を推定することができる。

また、実施の形態１では、音環境データ１３０ｄを仮想発声データに合成して音声認識を行って、認識率を推定するようにしたため、音環境等の環境依存性を考慮した音声認識率を推定できる。

その結果、例えば、山手線の駅名のみの辞書と、山手線の駅名を含む首都圏地区の全駅名の辞書との認識率の差や、山手線の駅名の辞書と大阪環状線の駅名の辞書との認識率の差、さらには駅ホームにおける音環境と券売機付近における音環境との認識率の差や、これらの認識率の絶対値等を、実際の音声認識処理過程を反映させつつ、辞書依存性や環境依存性といった音声認識率の変動要因も考慮して音声認識率を推定することが可能となる。

なお、実施の形態１では、音響モデル１３０ａと音声素片１３０ｃを用いて音声認識率を推定したが、音声素片１３０ｃのメル周波数ケプストラム係数（ＭＦＣＣ）等のパラメータ部分を音響モデルａと兼ねることができる。このようにすれば、音響モデル１３０ａが不要となるので、データの容量が減り、データメモリ１３０の容量を削減することが可能となる。

また、実施の形態１では、音環境データ１３０ｄを仮想発声データに重畳して、音環境を考慮するように説明したが、音環境を無視しても問題ない場合は、音環境データ１３０ｄを省略して、音環境データ１３０ｄを仮想発声データに重畳しないようにしても良いし、音声素片１３０ｃや音響モデル１３０ａから仮想的な音環境データを生成できる場合には、音環境データ１３０ｄを省略して、音声素片１３０ｃ等から生成した仮想的な音環境データを仮想発声データに重畳するようにしても良い。

また、仮想発声データを入力させて、音声素片１３０ｃのパラメータや、音響モデル１３０ａのパラメータ等を公知の話者適応方法により調整するようにしても良い。このようにすれば、話者適応を考慮した音声認識率の推定が可能となる。

また、実施の形態１では、図１に示すように、音声認識装置に音声認識率推定装置を組み込んで説明したが、本発明では、これに限らず、音声認識装置とは独立して音声認識率推定装置を構成し、音声認識率推定装置を音声認識装置に接続して使用するようにしても勿論良い。このように構成する場合、音声認識率推定装置には、音声認識に用いる音響モデル１３０ａや、辞書１３０ｂ、及びマイク１２０が不要となり、音声認識装置側の音響モデル１３０ａや辞書１３０ｂを使用して音声認識を行い、音声認識率を推定することになる。この点は、以下に説明する実施の形態２でも同様である。

（実施の形態２）
次に、本発明の実施の形態２について説明する。

実施の形態２に係る音声認識率推定装置は、実際の音声認識処理過程を反映させて辞書依存性を考慮した音声認識率を推定すると共に、さらには話者依存性を考慮した発声データにより音声認識率を推定するものである。なお、実施の形態２に係る音声認識率推定装置の構成は、実施の形態１と同じであるので、説明を省略する。

図７は、本発明の実施の形態２の音声認識率推定装置の動作を示すフローチャートである。これを用いて、実施の形態２の動作を説明する。

まず、マイク１２０を実発声データ収録手段として用いて、辞書１３０ｂ内の所定の少数単語の実発声データをデータメモリ１３０に収録する（ステップＳ２０００）。例えば、辞書１３０ｂ内に１００単語あるとした場合、例えば、５単語程度の少数単語について、実発声データを収録する。ここで、所定の少数単語の選定は、以下のようにして行う。

つまり、ＣＰＵ１００は、辞書１３０ｂ内の各単語について仮想発声データを生成し音声認識を実行する。次に、各単語について、音声認識の認識困難度を求める。認識困難度の求め方は、例えば、各単語に対し、音声認識した際の正解に対する音声認識スコア（正の値）から、例えば不正解のときの最上位の音声認識スコア（正の値）を減じたものを単語認識困難度として求める。なお、この逆に減算したものを認識困難度としても勿論よい。このようにすれば認識困難度を数値化することができる。

そして、ＣＰＵ１００は、辞書１３０ｂ内の各単語についてこのような認識困難度を求めた後、各単語を単語認識困難度順に並べ替える。なお、各単語の認識困難度を求めることは、このステップＳ２０００の実発声データの収録処理の直前に行っても良いし、この処理の前に予め行って記憶しておき、その記憶した値を使用するようにしても良い。

図８は、単語の認識困難度を説明するための図である。

図８において、縦軸は、単語の認識困難度を示しており、図上、上に行くほど単語が認識容易であることを示す一方、横軸は、認識困難度順に並べた辞書１３０ｂ内の各単語の単語番号を示している。つまり、図８においては、図上右方向にいくほど、認識容易な単語である一方、図上左方向にいくほど、認識困難な単語であることを示している。

なお、図８において、曲線８０１は、音声素片１３０ｃの音声合成により生成した仮想発声データを音声認識した際の認識困難度を示しており、曲線８０２は、話者Ａの実発声データの認識困難度、曲線８０３は、話者Ｂの実発声データの認識困難度を示している。つまり、仮想発声データも、話者Ａ，Ｂの実発声データも、辞書１３０ｂ内の各単語に関する認識困難度は、程度の差はあるものの、認識困難および容易の単語は、ほぼ同じであることを示している。これは、例えば、辞書１３０ｂが例えば、山手線の駅名であれば、「目黒」には「目白」という似た発音の駅名があるため、誰が発声しても、仮想発声データでも、比較的認識が困難であるが、「池袋」には似た発音がないので、誰が発声しても、仮想発声データでも認識しやすいからである。このように、認識困難度は数値化することができる

また、図８において、基準軸８０４は、仮想発声データと、話者何人かの認識困難度を参照して設定したもので、仮想発声データでも、話者Ａ，Ｂの実発声データでも、単語の番号がこの基準軸８０４より図上右側にあれば、認識困難度が０以下にならず、認識できることを示しているので、実発声データにする必要がないことを示している。

従って、この実施の形態２では、以上のようにして求めた単語認識困難度が高いものを、例えば、５単語等の所定数選んで、実発声データを収録する。このようにすれば、残りの単語は音声認識しやすいものとなるため、認識率の推定精度が上がる。なお、単語認識困難度順で、等間隔にサンプリングして実発声データを収録するようにしても良い。このようにすれば、実発声データと、仮想発声データとの間の認識困難度のずれを評価しながら、音声認識率を推定することができることになる。

次に、ＣＰＵ１００は、補完手段として機能して、辞書１３０ｂ内の残りの各単語を、音声素片１３０ｃを用いて音声合成により生成した仮想発声データにより補完する（ステップＳ２０１０）。

その際、ステップＳ２０００で収録した実発声データを用いて、音声素片１３０ｃのパラメータであるメル周波数ケプストラム係数（ＭＦＣＣ）や基本周波数等を、発声者の声に適応させるようにしても良い。このようにすれば、補完された仮想発声データは、発声者の声に適応したものとなり、さらに仮想発声データの音声認識の場合にも、話者性の影響を反映した音声認識を行うことが可能となる。なお、ステップＳ２０００の実発声データの収録処理の際に、辞書１３０ｂ内の各単語について仮想発声データを生成して単語認識困難度を求めている場合には、その際に生成した仮想発声データをデータメモリ１３０に記憶しておくようにしても良い。このようにすれば、このステップＳ２０１０の仮想発声データによる補完処理を省略することができる。

次に、ＣＰＵ１００は、音声認識率推定手段として機能して、前記実発声データおよび前記仮想発声データを用いて音声認識率を推定する（ステップＳ２０２０）。つまり、ＣＰＵ１００は、実発声データおよび仮想発声データを入力音声として、音響モデル１３０ａ、辞書１３０ｂを用いて前記実施の形態１と同様に音声認識を行って、辞書１３０ｂ内の各単語について音声認識できる、認識できない、の判定を行い、音声認識率を推定する。その際、特に認識困難度が低い単語は音声認識できると判断して音声認識処理を省略することができる。

この音声認識の際、ステップＳ２０００において収録された実発声データを用いて、音響モデル１３０ａのパラメータや、辞書１３０ｂから取り出す単語を発声者の声に適応させるようにしても良い。このようにすれば、音声認識に使用する音響モデル１３０ａや辞書１３０ｂから取り出す単語が実発声データ、すなわち話者に近づくことになり、この点でも話者性の影響を反映して音声認識を行うことができることになる。また、音声認識に使用する音響モデル１３０ａのパラメータや辞書１３０ｂから取り出す単語だけでなく、音声素片１３０ｃのパラメータも実発声データに適応させることにより、話者適応を考慮した音声認識率を推定することができることになる。

このように、実施の形態２によれば、単語の認識困難度が高く、誤認識し易い単語は、ユーザが実際に発声した実発声データを用いて音声認識して音声認識率を推定する一方、単語の認識困難度が低く、誤認識することのない単語は、音声素片１３０ｃを用いて音声合成した仮想発声データを音声認識して音声認識率を推定するようにしたため、実際の音声認識処理過程を反映させた辞書依存性を考慮した音声認識率を推定することができると共に、話者依存性を考慮した発声データにより音声認識率を推定することができる。

また、この実施の形態２では、ユーザが実際に発声した実発声データを用いて、音声素片１３０ｃを構成するパラメータや、音声認識に用いる音響モデル１３０ａの各パラメータ、辞書１３０ｂから取り出す単語をユーザに適応させるようにしたので、さらに話者性の影響を反映した音声認識を行うことができる。

その結果、例えば、山手線の駅名のみの辞書と、山手線の駅名を含む首都圏地区の全駅名の辞書との認識率の差や、山手線の駅名の辞書と大阪環状線の駅名の辞書の認識率の差、あるいは、駅ホームの音環境と券売機付近の音環境とでの認識率の差だけでなく、さらには、特定のＡさんとＢさんの認識率の差、それら推定した認識率の絶対値等を、実際の音声認識処理過程を反映させつつ、話者依存性を考慮して音声認識率を推定することが可能となる。

なお、実施の形態２では、音環境データ１３０ｄを仮想発声データに重畳して、音環境を考慮する点については、何ら言及していないが、音環境を無視しても問題ない場合には、音環境データ１３０ｄを省略して、音環境データ１３０ｄを仮想発声データに重畳しないようにしても良いし、音環境を考慮した方が良い場合には、音環境データ１３０ｄを仮想発声データに重畳するようにしても勿論よい。後者の音環境を考慮する場合、音環境データ１３０ｄを仮想発声データに重畳して音環境の影響をシミュレートするので、辞書依存性および話者依存性だけでなく、環境依存性にも対処した音声認識率の推定が可能となる。なお、後者の音環境を考慮する場合、仮想発声データの音環境と、実発声データの音環境とを同一状態にするのが良いので、この場合の音環境データ１３０ｄは、実発声データ収録時の音環境をマイク１２０により収録したものを用いるようにすると良い。

また、実施の形態２でも、音声素片１３０ｃを用いて仮想発声データを生成したが、これに限らず、実施の形態１と同様に、音響モデル１３０ａ内のパラメータは音声素片１３０ｃ内のパラメータと兼ねるようにして、データメモリ１３０の容量を削減するようにしても勿論良い。

本発明に係る音声認識率推定装置は、実際の音声認識処理過程をと変動要因を反映した音声認識率を推定することができるという、作用効果を有し、機器への入力手段として音声認識技術を利用する種々の電子機器、例えば、テレビ、ビデオ、などのＡＶ機器、カーナビゲーションシステムなどの車載器、ＰＤＡや携帯電話などの情報端末機器などにおける音声認識率の推定に利用することができ、これらの機器に内蔵または組み込ませるようにしても、あるいはこれらの機器に接続して使用しても良く、その産業用の利用可能性は、広くかつ大きく、有用である。

本発明の実施の形態１に係る音声認識率推定装置を含む音声認識装置の概略構成を示すブロック図実施の形態１の概略動作を示すフローチャートＨＭＭ（Hidden Markov Model）形式の音声素片１３０ｃの一例を示す説明図音声素片を用いて生成した仮想発声データの一例を示す説明図音環境データの一例を示す波形図音環境データを仮想発声データに重畳した場合の一例を示す波形図本発明の実施の形態２の概略動作を示すフローチャート単語の認識困難度を説明するための説明図

符号の説明

１００ＣＰＵ
１１０プログラムメモリ
１１０ａプログラム
１２０マイク
１３０データメモリ
１３０ａ音響モデル
１３０ｂ辞書
１３０ｃ音声素片
１３０ｄ音環境データ

Claims

音声認識に用いる辞書内の各単語の仮想発声データを生成する仮想発声データ生成手段と、
前記仮想発声データを用い音声認識を行って、音声認識率を推定する音声認識率推定手段と、
を有することを特徴とする音声認識率推定装置。
前記仮想発声データ生成手段は、音声合成用の音声素片を用いて前記仮想発声データを生成する、
ことを特徴とする請求項１記載の音声認識率推定装置。
前記仮想発声データ生成手段は、前記音声認識に用いる音響モデルを用いて前記仮想発声データを生成する、
ことを特徴とする請求項１記載の音声認識率推定装置。
前記仮想発声データに音環境データを重畳する音環境データ重畳手段、をさらに有し、
前記音声認識率推定手段は、前記音環境データが重畳された前記仮想発声データを用い音声認識を行って、音声認識率を推定する、
ことを特徴とする請求項１記載の音声認識率推定装置。
前記辞書内の所定の少数単語の実発声データを収録する実発声データ収録手段と、
前記辞書内の残りの単語を前記仮想発声データにより補完する補完手段と、をさらに有し、
前記音声認識率推定手段は、前記実発声データおよび前記仮想発声データを用い音声認識を行って、音声認識率を推定する、
ことを特徴とする請求項１記載の音声認識率推定装置。
前記所定の少数単語は、前記仮想発声データを使って求めた単語認識困難度が高いものである、
ことを特徴とする請求項３記載の音声認識率推定装置。
前記仮想発声データは、前記実発声データを使用して発声者の声に適応させたものである、
ことを特徴とする請求項３記載の音声認識率推定装置。
前記仮想発声データに音環境データを重畳する音環境データ重畳手段、をさらに有し、
前記音声認識率推定手段は、前記実発声データと、前記音環境データを重畳された前記仮想発声データとにより音声認識を行い、音声認識率を推定する、
ことを特徴とする請求項３記載の音声認識率推定装置。
音声認識に用いる辞書内の各単語の仮想発声データを生成するステップと、
前記仮想発声データを用い音声認識を行って、音声認識率を推定するステップと、
を有することを特徴とする音声認識率推定方法。
音声認識に用いる辞書内の各単語の仮想発声データを生成する機能と、
前記仮想発声データを用い音声認識を行って、音声認識率を推定する機能と、
をコンピュータに実行させることを特徴とする音声認識率推定用のプログラム。