JP2005283646A - 音声認識率推定装置 - Google Patents

音声認識率推定装置 Download PDF

Info

Publication number
JP2005283646A
JP2005283646A JP2004093385A JP2004093385A JP2005283646A JP 2005283646 A JP2005283646 A JP 2005283646A JP 2004093385 A JP2004093385 A JP 2004093385A JP 2004093385 A JP2004093385 A JP 2004093385A JP 2005283646 A JP2005283646 A JP 2005283646A
Authority
JP
Japan
Prior art keywords
speech recognition
virtual
recognition rate
data
utterance data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004093385A
Other languages
English (en)
Inventor
Mitsuru Endo
充 遠藤
裕康 ▲桑▼野
Hiroyasu Kuwano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004093385A priority Critical patent/JP2005283646A/ja
Publication of JP2005283646A publication Critical patent/JP2005283646A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 実際の音声認識処理過程を反映させて音声認識率を推定すること。
【解決手段】 CPU100は、プログラム110aの実行により、音声素片130cを用い音声合成して仮想発声データを生成し、生成された仮想発声データに音環境データ130dを合成して音環境の影響をシミュレートする。音環境データ130dは、各種周囲のノイズデータを保存したもので、仮想発声データに重畳することで、仮想発声データをより実際の音声出力環境に近付けることができる。そして、CPU100は音環境の影響をシミュレートした仮想発声データを用いて音声認識を行い、音声認識率を推定する。また、認識率の低い単語は、ユーザが実際に発生した実発声データをマイク120により収録して認識率を推定する一方、認識率の高いものは音声素片130cを用いて音声合成した仮想発声データにより認識率を推定することも可能である。
【選択図】 図1

Description

本発明は、音声認識を行った際の音声認識率を推定する音声認識率推定装置に関するものである。
従来の音声認識率推定装置としては、音声認識用の辞書と、コンフュージョンマトリックスとを用いて音声認識率を推定するものがあった(例えば、特許文献1参照)。
この従来技術では、音声認識率の推定は、辞書に登録されている単語を音節列に変換し、コンフュージョンマトリックスに表現されている音節同士の誤り確率を参照して、DPマッチングにより単語対単語の類似性を数値化し、認識する、認識しないを判定することで、認識率を推定している。
特開平2−304495号公報(第2頁、第3図)
しかしながら、前述した従来の音声認識率推定装置では、コンフュージョンマトリックスを用いた音節系列レベル、つまり文字ベースでの音声認識率の推定であるため、フレームレベルでのマッチング特性等の実際の音声認識処理過程が反映されずに、音声認識率が推定されてしまい、認識率の推定精度に限界がある、という課題がある。
また、コンフュージョンマトリックス内に表現されている誤り傾向のみに基づいて音声認識率を推定しているので、コンフュージョンマトリックス内に表現されていないノイズ環境や話者性の影響を反映できない、という課題もある。
本発明はかかる点に鑑みてなされたものであり、実際の音声認識処理過程を反映して音声認識率を推定することができる音声認識率推定装置を提供することを目的とする。
本発明の音声認識率推定装置は、音声認識に用いる辞書内の各単語の仮想発声データを生成する仮想発声データ生成手段と、前記仮想発声データを用い音声認識を行って、音声認識率を推定する音声認識率推定手段と、を有する構成を採る。
この構成によれば、仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。
本発明の音声認識率推定装置は、前記構成において、前記仮想発声データ生成手段は、音声合成用の音声素片を用いて前記仮想発声データを生成する、構成を採る。
この構成によれば、音声合成用の音声素片を用いて仮想発声データを生成するため、簡単に仮想発声データを生成することができる。
本発明の音声認識率推定装置は、前記構成において、前記仮想発声データ生成手段は、前記音声認識に用いる音響モデルを用いて前記仮想発声データを生成する、構成を採る。
この構成によれば、音声認識に用いる音響モデルを用いて仮想発声データを生成するため、音声合成用の音声素片等が不要になると共に、そのためのメモリ容量を削減することができる。
本発明の音声認識率推定装置は、前記構成において、前記仮想発声データに音環境データを重畳する音環境データ重畳手段、をさらに有し、前記音声認識率推定手段は、前記音環境データが重畳された前記仮想発声データを用い音声認識を行って、音声認識率を推定する、構成を採る。
この構成によれば、音環境データが重畳された仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性および環境依存性を考慮し、かつ音声認識処理過程を反映して音声認識率を推定することができる。
本発明の音声認識率推定装置は、前記構成において、前記辞書内の所定の少数単語の実発声データを収録する実発声データ収録手段と、前記辞書内の残りの単語を前記仮想発声データにより補完する補完手段と、をさらに有し、前記音声認識率推定手段は、前記実発声データおよび前記仮想発声データを用い音声認識を行って、音声認識率を推定する、構成を採る。
この構成によれば、実発声データおよび仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性および話者依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。
本発明の音声認識率推定装置は、前記構成において、前記所定の少数単語は、前記仮想発声データを使って求めた単語認識困難度が高いものである、構成を採る。
この構成によれば、単語認識困難度が高い所定の少数単語は実発声データとし、残りの認識しやすい単語は仮想発声データにより認識率を推定するため、認識率の推定精度が上がる。
本発明の音声認識率推定装置は、前記構成において、前記仮想発声データは、前記実発声データを使用して発声者の声に適応させたものである、構成を採る。
この構成によれば、仮想発声データは、実発声データを使用して発声者の声に適応したものとなるため、認識率の推定精度が上がる。
本発明の音声認識率推定装置は、前記構成において、前記仮想発声データに音環境データを重畳する音環境データ重畳手段、をさらに有し、前記音声認識率推定手段は、前記実発声データと、前記音環境データを重畳された前記仮想発声データとにより音声認識を行い、音声認識率を推定する、構成を採る。
この構成によれば、実発声データおよび音環境データを重畳された仮想発声データにより音声認識率を推定するため、辞書依存性および話者依存性および環境依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。
本発明の音声認識率推定方法は、音声認識に用いる辞書内の各単語の仮想発声データを生成するステップと、前記仮想発声データを用い音声認識を行って、音声認識率を推定するステップと、を有するようにした。
この方法によれば、仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。
本発明の声認識率推定用のプログラムは、音声認識に用いる辞書内の各単語の仮想発声データを生成する機能と、前記仮想発声データを用い音声認識を行って、音声認識率を推定する機能と、をコンピュータに実行させるようにした。
このプログラムによれば、仮想発声データを用い実際に音声認識を行って音声認識率を推定するため、辞書依存性を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。
以上説明したように、本発明によれば、音声認識率の変動要因を考慮し、かつ実際の音声認識処理過程を反映して音声認識率を推定することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
実施の形態1に係る音声認識率推定装置は、実際の音声認識処理過程を反映させて辞書依存性を考慮した音声認識率を推定すると共に、さらには環境依存性を考慮して音声認識率を推定するものである。
図1は、本発明の実施の形態1に係る音声認識率推定装置を含む音声認識装置の概略構成を示すブロック図である。
図1において、この音声認識装置は、実施の形態1に係る音声認識率推定装置が組み込まれたもので、CPU100と、CPU100が実行するプログラム110aを格納したプログラムメモリ110と、音声認識に用いるマイク120と、データメモリ130とを有している。
データメモリ130には、音声認識に用いる音響モデル130aおよび辞書130bと、音声合成して仮想発声データを生成するための音声素片130cと、音環境をシミュレートするために用いる音環境データ130dとが格納されている。
なお、CPU100は、プログラム110aを実行することにより、本発明の仮想発声データ生成手段、音声認識率推定手段、音環境データ重畳手段、及び補完手段として機能する。
次に以上のように構成された音声認識率推定装置について、図面を参照して動作を説明する。
図2は、本発明の実施の形態1の概略動作を示すフローチャートである。
まず、CPU100は、プログラム110aの実行により仮想発声データ生成手段として機能して、音声素片130cを用い音声合成して仮想発声データを生成する(ステップS1000)。つまり、音声素片130cは、例えば、HMM(Hidden Markov Model)であり、公知のHMM音声合成方法などにより、辞書130b内の単語の仮想発声データを生成する。
図3は、HMM(Hidden Markov Model)形式の音声素片130cの一例を示す説明図である。
図3に示すように、例えば/a/、/i/,/u/の母音の音声素片の状態遷移を3音状態により示している。各状態には、図示しないがメル周波数ケプストラム係数(MFCC)や、基本周波数等のパラメータが設定されており、これらにより、音声素片130cのパラメータを構成している。なお、HMM(Hidden Markov Model)形式にて示すと、音響モデル130aも、図3に示すように同様の状態遷移で、同様のメル周波数ケプストラム係数(MFCC)等を有することになるが、音声合成用の基本周波数は必要としないものである。
図4は、音声素片130cを用いて生成した仮想発声データの波形の一例を示す説明図である。
具体的には、図4は、辞書130b内に格納されている、例えば、駅名の「目黒」という単語に対応する発声データを、音声素片130cを用いて音声合成により生成した仮想発声データの波形図を示している。
次に、CPU100は、プログラム110aの実行により音環境データ重畳手段として機能して、データメモリ130から音環境データ130dを読み出して、生成された仮想発声データに音環境の影響をシミュレートする(ステップS1010)。
図5は、音環境データ130dの波形の一例を示しており、駅構内で収録した音環境データ130dの波形図を示している。
この図5に示すように、音環境データ130dは、駅や、街中等の各種環境における周囲のノイズデータを保存したものである。音環境データ130dを仮想発声データに重畳することで、加法性の各種環境における周囲のノイズをシミュレートして、仮想発声データをより実際の音声出力環境に近付けることができる。
ここで、音環境データ130dは、例えば、各種環境毎に1分程度収録しておき、仮想発声データに重畳する部分をランダムに取り出せるように収録すると良い。
また、音環境データ130dは、予め代表的な環境音を録音してデータメモリ130に記憶したものでも良いし、新しい環境においては、その場でマイク120により収録してデータメモリ130に記憶して使用するようにしても良い。
また、以上の説明は、加算性のノイズであるが、加算性のノイズの代わりに、乗算性のノイズを重畳するようにしても勿論よい。乗算性のノイズを重畳する場合は、仮想発声データを周波数軸上のパラメータに変換してから乗算性のノイズを加算し、その後、時間軸上の波形に戻すことによりシミュレートすることができる。なお、音環境データ130dの選択は、図示しないボタンやキーボード、またはマウス等の入力手段を用いてユーザが指定しても良いし、CPU100が自動的に選択するようにしても勿論良い。
図6は、図5に示す音環境データ130dを、図4に示す仮想発声データに重畳した場合の波形図を示している。これにより、実際に発声しない場合でも、音声素片130cと音環境データ130dとにより、駅構内で「目黒」と発声した場合の音声の波形をシミュレートできることになる。
次に、CPU100は、プログラム110aの実行により音声認識率推定手段として機能して、図6に示すように音環境の影響をシミュレートした仮想発声データを用い音声認識を行って、音声認識率を推定する(ステップS1020)。
つまり、CPU100は、環境の影響をシミュレートした仮想発声データを、実際の音声認識の処理系に通し、仮想発声データを認識できるか、あるいは認識できないかを判定して、音声認識率を推定する。
具体的には、CPU100は、音声認識率推定手段として、まず、仮想発声データに基づいて辞書130bから単語を取り出し、その単語の子音、母音のつながりに従って音響モデル130aをつなぐ。そして、音響モデル130aをつないだデータと、仮想発声データとの間で、フレームレベルでのマッチング処理等により特徴を比較して、単語単位で最も類似しているものを認識結果とする。次に、その認識結果と、仮想発声データを生成する際に辞書130bから選択した単語とを比較し、一致していれば、認識できたと判断する一方、一致していなければ、認識できないと判定する。
このように、実施の形態1によれば、音声素片130cを用いて辞書130b内の各単語の仮想発声データを生成して、生成した仮想発声データを実際の音声認識の処理系に通して音声認識を行って認識率を推定するようにしたため、実際に人が発声をしないでも、フレームレベルでのマッチング特性等の実際の音声認識処理過程を反映させた音声認識率を推定することができる。
また、実施の形態1では、音環境データ130dを仮想発声データに合成して音声認識を行って、認識率を推定するようにしたため、音環境等の環境依存性を考慮した音声認識率を推定できる。
その結果、例えば、山手線の駅名のみの辞書と、山手線の駅名を含む首都圏地区の全駅名の辞書との認識率の差や、山手線の駅名の辞書と大阪環状線の駅名の辞書との認識率の差、さらには駅ホームにおける音環境と券売機付近における音環境との認識率の差や、これらの認識率の絶対値等を、実際の音声認識処理過程を反映させつつ、辞書依存性や環境依存性といった音声認識率の変動要因も考慮して音声認識率を推定することが可能となる。
なお、実施の形態1では、音響モデル130aと音声素片130cを用いて音声認識率を推定したが、音声素片130cのメル周波数ケプストラム係数(MFCC)等のパラメータ部分を音響モデルaと兼ねることができる。このようにすれば、音響モデル130aが不要となるので、データの容量が減り、データメモリ130の容量を削減することが可能となる。
また、実施の形態1では、音環境データ130dを仮想発声データに重畳して、音環境を考慮するように説明したが、音環境を無視しても問題ない場合は、音環境データ130dを省略して、音環境データ130dを仮想発声データに重畳しないようにしても良いし、音声素片130cや音響モデル130aから仮想的な音環境データを生成できる場合には、音環境データ130dを省略して、音声素片130c等から生成した仮想的な音環境データを仮想発声データに重畳するようにしても良い。
また、仮想発声データを入力させて、音声素片130cのパラメータや、音響モデル130aのパラメータ等を公知の話者適応方法により調整するようにしても良い。このようにすれば、話者適応を考慮した音声認識率の推定が可能となる。
また、実施の形態1では、図1に示すように、音声認識装置に音声認識率推定装置を組み込んで説明したが、本発明では、これに限らず、音声認識装置とは独立して音声認識率推定装置を構成し、音声認識率推定装置を音声認識装置に接続して使用するようにしても勿論良い。このように構成する場合、音声認識率推定装置には、音声認識に用いる音響モデル130aや、辞書130b、及びマイク120が不要となり、音声認識装置側の音響モデル130aや辞書130bを使用して音声認識を行い、音声認識率を推定することになる。この点は、以下に説明する実施の形態2でも同様である。
(実施の形態2)
次に、本発明の実施の形態2について説明する。
実施の形態2に係る音声認識率推定装置は、実際の音声認識処理過程を反映させて辞書依存性を考慮した音声認識率を推定すると共に、さらには話者依存性を考慮した発声データにより音声認識率を推定するものである。なお、実施の形態2に係る音声認識率推定装置の構成は、実施の形態1と同じであるので、説明を省略する。
図7は、本発明の実施の形態2の音声認識率推定装置の動作を示すフローチャートである。これを用いて、実施の形態2の動作を説明する。
まず、マイク120を実発声データ収録手段として用いて、辞書130b内の所定の少数単語の実発声データをデータメモリ130に収録する(ステップS2000)。例えば、辞書130b内に100単語あるとした場合、例えば、5単語程度の少数単語について、実発声データを収録する。ここで、所定の少数単語の選定は、以下のようにして行う。
つまり、CPU100は、辞書130b内の各単語について仮想発声データを生成し音声認識を実行する。次に、各単語について、音声認識の認識困難度を求める。認識困難度の求め方は、例えば、各単語に対し、音声認識した際の正解に対する音声認識スコア(正の値)から、例えば不正解のときの最上位の音声認識スコア(正の値)を減じたものを単語認識困難度として求める。なお、この逆に減算したものを認識困難度としても勿論よい。このようにすれば認識困難度を数値化することができる。
そして、CPU100は、辞書130b内の各単語についてこのような認識困難度を求めた後、各単語を単語認識困難度順に並べ替える。なお、各単語の認識困難度を求めることは、このステップS2000の実発声データの収録処理の直前に行っても良いし、この処理の前に予め行って記憶しておき、その記憶した値を使用するようにしても良い。
図8は、単語の認識困難度を説明するための図である。
図8において、縦軸は、単語の認識困難度を示しており、図上、上に行くほど単語が認識容易であることを示す一方、横軸は、認識困難度順に並べた辞書130b内の各単語の単語番号を示している。つまり、図8においては、図上右方向にいくほど、認識容易な単語である一方、図上左方向にいくほど、認識困難な単語であることを示している。
なお、図8において、曲線801は、音声素片130cの音声合成により生成した仮想発声データを音声認識した際の認識困難度を示しており、曲線802は、話者Aの実発声データの認識困難度、曲線803は、話者Bの実発声データの認識困難度を示している。つまり、仮想発声データも、話者A,Bの実発声データも、辞書130b内の各単語に関する認識困難度は、程度の差はあるものの、認識困難および容易の単語は、ほぼ同じであることを示している。これは、例えば、辞書130bが例えば、山手線の駅名であれば、「目黒」には「目白」という似た発音の駅名があるため、誰が発声しても、仮想発声データでも、比較的認識が困難であるが、「池袋」には似た発音がないので、誰が発声しても、仮想発声データでも認識しやすいからである。このように、認識困難度は数値化することができる
また、図8において、基準軸804は、仮想発声データと、話者何人かの認識困難度を参照して設定したもので、仮想発声データでも、話者A,Bの実発声データでも、単語の番号がこの基準軸804より図上右側にあれば、認識困難度が0以下にならず、認識できることを示しているので、実発声データにする必要がないことを示している。
従って、この実施の形態2では、以上のようにして求めた単語認識困難度が高いものを、例えば、5単語等の所定数選んで、実発声データを収録する。このようにすれば、残りの単語は音声認識しやすいものとなるため、認識率の推定精度が上がる。なお、単語認識困難度順で、等間隔にサンプリングして実発声データを収録するようにしても良い。このようにすれば、実発声データと、仮想発声データとの間の認識困難度のずれを評価しながら、音声認識率を推定することができることになる。
次に、CPU100は、補完手段として機能して、辞書130b内の残りの各単語を、音声素片130cを用いて音声合成により生成した仮想発声データにより補完する(ステップS2010)。
その際、ステップS2000で収録した実発声データを用いて、音声素片130cのパラメータであるメル周波数ケプストラム係数(MFCC)や基本周波数等を、発声者の声に適応させるようにしても良い。このようにすれば、補完された仮想発声データは、発声者の声に適応したものとなり、さらに仮想発声データの音声認識の場合にも、話者性の影響を反映した音声認識を行うことが可能となる。なお、ステップS2000の実発声データの収録処理の際に、辞書130b内の各単語について仮想発声データを生成して単語認識困難度を求めている場合には、その際に生成した仮想発声データをデータメモリ130に記憶しておくようにしても良い。このようにすれば、このステップS2010の仮想発声データによる補完処理を省略することができる。
次に、CPU100は、音声認識率推定手段として機能して、前記実発声データおよび前記仮想発声データを用いて音声認識率を推定する(ステップS2020)。つまり、CPU100は、実発声データおよび仮想発声データを入力音声として、音響モデル130a、辞書130bを用いて前記実施の形態1と同様に音声認識を行って、辞書130b内の各単語について音声認識できる、認識できない、の判定を行い、音声認識率を推定する。その際、特に認識困難度が低い単語は音声認識できると判断して音声認識処理を省略することができる。
この音声認識の際、ステップS2000において収録された実発声データを用いて、音響モデル130aのパラメータや、辞書130bから取り出す単語を発声者の声に適応させるようにしても良い。このようにすれば、音声認識に使用する音響モデル130aや辞書130bから取り出す単語が実発声データ、すなわち話者に近づくことになり、この点でも話者性の影響を反映して音声認識を行うことができることになる。また、音声認識に使用する音響モデル130aのパラメータや辞書130bから取り出す単語だけでなく、音声素片130cのパラメータも実発声データに適応させることにより、話者適応を考慮した音声認識率を推定することができることになる。
このように、実施の形態2によれば、単語の認識困難度が高く、誤認識し易い単語は、ユーザが実際に発声した実発声データを用いて音声認識して音声認識率を推定する一方、単語の認識困難度が低く、誤認識することのない単語は、音声素片130cを用いて音声合成した仮想発声データを音声認識して音声認識率を推定するようにしたため、実際の音声認識処理過程を反映させた辞書依存性を考慮した音声認識率を推定することができると共に、話者依存性を考慮した発声データにより音声認識率を推定することができる。
また、この実施の形態2では、ユーザが実際に発声した実発声データを用いて、音声素片130cを構成するパラメータや、音声認識に用いる音響モデル130aの各パラメータ、辞書130bから取り出す単語をユーザに適応させるようにしたので、さらに話者性の影響を反映した音声認識を行うことができる。
その結果、例えば、山手線の駅名のみの辞書と、山手線の駅名を含む首都圏地区の全駅名の辞書との認識率の差や、山手線の駅名の辞書と大阪環状線の駅名の辞書の認識率の差、あるいは、駅ホームの音環境と券売機付近の音環境とでの認識率の差だけでなく、さらには、特定のAさんとBさんの認識率の差、それら推定した認識率の絶対値等を、実際の音声認識処理過程を反映させつつ、話者依存性を考慮して音声認識率を推定することが可能となる。
なお、実施の形態2では、音環境データ130dを仮想発声データに重畳して、音環境を考慮する点については、何ら言及していないが、音環境を無視しても問題ない場合には、音環境データ130dを省略して、音環境データ130dを仮想発声データに重畳しないようにしても良いし、音環境を考慮した方が良い場合には、音環境データ130dを仮想発声データに重畳するようにしても勿論よい。後者の音環境を考慮する場合、音環境データ130dを仮想発声データに重畳して音環境の影響をシミュレートするので、辞書依存性および話者依存性だけでなく、環境依存性にも対処した音声認識率の推定が可能となる。なお、後者の音環境を考慮する場合、仮想発声データの音環境と、実発声データの音環境とを同一状態にするのが良いので、この場合の音環境データ130dは、実発声データ収録時の音環境をマイク120により収録したものを用いるようにすると良い。
また、実施の形態2でも、音声素片130cを用いて仮想発声データを生成したが、これに限らず、実施の形態1と同様に、音響モデル130a内のパラメータは音声素片130c内のパラメータと兼ねるようにして、データメモリ130の容量を削減するようにしても勿論良い。
本発明に係る音声認識率推定装置は、実際の音声認識処理過程をと変動要因を反映した音声認識率を推定することができるという、作用効果を有し、機器への入力手段として音声認識技術を利用する種々の電子機器、例えば、テレビ、ビデオ、などのAV機器、カーナビゲーションシステムなどの車載器、PDAや携帯電話などの情報端末機器などにおける音声認識率の推定に利用することができ、これらの機器に内蔵または組み込ませるようにしても、あるいはこれらの機器に接続して使用しても良く、その産業用の利用可能性は、広くかつ大きく、有用である。
本発明の実施の形態1に係る音声認識率推定装置を含む音声認識装置の概略構成を示すブロック図 実施の形態1の概略動作を示すフローチャート HMM(Hidden Markov Model)形式の音声素片130cの一例を示す説明図 音声素片を用いて生成した仮想発声データの一例を示す説明図 音環境データの一例を示す波形図 音環境データを仮想発声データに重畳した場合の一例を示す波形図 本発明の実施の形態2の概略動作を示すフローチャート 単語の認識困難度を説明するための説明図
符号の説明
100 CPU
110 プログラムメモリ
110a プログラム
120 マイク
130 データメモリ
130a 音響モデル
130b 辞書
130c 音声素片
130d 音環境データ

Claims (10)

  1. 音声認識に用いる辞書内の各単語の仮想発声データを生成する仮想発声データ生成手段と、
    前記仮想発声データを用い音声認識を行って、音声認識率を推定する音声認識率推定手段と、
    を有することを特徴とする音声認識率推定装置。
  2. 前記仮想発声データ生成手段は、音声合成用の音声素片を用いて前記仮想発声データを生成する、
    ことを特徴とする請求項1記載の音声認識率推定装置。
  3. 前記仮想発声データ生成手段は、前記音声認識に用いる音響モデルを用いて前記仮想発声データを生成する、
    ことを特徴とする請求項1記載の音声認識率推定装置。
  4. 前記仮想発声データに音環境データを重畳する音環境データ重畳手段、をさらに有し、
    前記音声認識率推定手段は、前記音環境データが重畳された前記仮想発声データを用い音声認識を行って、音声認識率を推定する、
    ことを特徴とする請求項1記載の音声認識率推定装置。
  5. 前記辞書内の所定の少数単語の実発声データを収録する実発声データ収録手段と、
    前記辞書内の残りの単語を前記仮想発声データにより補完する補完手段と、をさらに有し、
    前記音声認識率推定手段は、前記実発声データおよび前記仮想発声データを用い音声認識を行って、音声認識率を推定する、
    ことを特徴とする請求項1記載の音声認識率推定装置。
  6. 前記所定の少数単語は、前記仮想発声データを使って求めた単語認識困難度が高いものである、
    ことを特徴とする請求項3記載の音声認識率推定装置。
  7. 前記仮想発声データは、前記実発声データを使用して発声者の声に適応させたものである、
    ことを特徴とする請求項3記載の音声認識率推定装置。
  8. 前記仮想発声データに音環境データを重畳する音環境データ重畳手段、をさらに有し、
    前記音声認識率推定手段は、前記実発声データと、前記音環境データを重畳された前記仮想発声データとにより音声認識を行い、音声認識率を推定する、
    ことを特徴とする請求項3記載の音声認識率推定装置。
  9. 音声認識に用いる辞書内の各単語の仮想発声データを生成するステップと、
    前記仮想発声データを用い音声認識を行って、音声認識率を推定するステップと、
    を有することを特徴とする音声認識率推定方法。
  10. 音声認識に用いる辞書内の各単語の仮想発声データを生成する機能と、
    前記仮想発声データを用い音声認識を行って、音声認識率を推定する機能と、
    をコンピュータに実行させることを特徴とする音声認識率推定用のプログラム。
JP2004093385A 2004-03-26 2004-03-26 音声認識率推定装置 Pending JP2005283646A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004093385A JP2005283646A (ja) 2004-03-26 2004-03-26 音声認識率推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004093385A JP2005283646A (ja) 2004-03-26 2004-03-26 音声認識率推定装置

Publications (1)

Publication Number Publication Date
JP2005283646A true JP2005283646A (ja) 2005-10-13

Family

ID=35182137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004093385A Pending JP2005283646A (ja) 2004-03-26 2004-03-26 音声認識率推定装置

Country Status (1)

Country Link
JP (1) JP2005283646A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113569A (ja) * 2004-10-15 2006-04-27 Microsoft Corp 音声認識システムの音響モデルから生成された合成入力を用いた自動音声認識システムのテストおよび調整
JP2006227425A (ja) * 2005-02-18 2006-08-31 National Institute Of Information & Communication Technology 音声再生装置及び発話支援装置
JP2007199173A (ja) * 2006-01-24 2007-08-09 Asahi Kasei Corp 評価用データ生成装置、認識性能分布情報生成装置およびシステム
US8290773B2 (en) 2008-12-26 2012-10-16 Fujitsu Limited Information processing apparatus, method and recording medium for generating acoustic model
JP2013232017A (ja) * 2006-04-03 2013-11-14 Vocollect Inc 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
KR20180025379A (ko) * 2016-08-30 2018-03-09 자동차부품연구원 음성 인식률을 고려한 운전자 및 주행상황 맞춤형 hud 정보 제공 시스템 및 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113569A (ja) * 2004-10-15 2006-04-27 Microsoft Corp 音声認識システムの音響モデルから生成された合成入力を用いた自動音声認識システムのテストおよび調整
JP2006227425A (ja) * 2005-02-18 2006-08-31 National Institute Of Information & Communication Technology 音声再生装置及び発話支援装置
JP2007199173A (ja) * 2006-01-24 2007-08-09 Asahi Kasei Corp 評価用データ生成装置、認識性能分布情報生成装置およびシステム
JP2013232017A (ja) * 2006-04-03 2013-11-14 Vocollect Inc 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
US8290773B2 (en) 2008-12-26 2012-10-16 Fujitsu Limited Information processing apparatus, method and recording medium for generating acoustic model
KR20180025379A (ko) * 2016-08-30 2018-03-09 자동차부품연구원 음성 인식률을 고려한 운전자 및 주행상황 맞춤형 hud 정보 제공 시스템 및 방법
KR102036606B1 (ko) * 2016-08-30 2019-10-28 자동차부품연구원 음성 인식률을 고려한 운전자 및 주행상황 맞춤형 hud 정보 제공 시스템 및 방법

Similar Documents

Publication Publication Date Title
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US9640175B2 (en) Pronunciation learning from user correction
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US8886534B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition robot
JP6654611B2 (ja) 成長型対話装置
EP3504709B1 (en) Determining phonetic relationships
CN110706714B (zh) 说话者模型制作系统
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US8015008B2 (en) System and method of using acoustic models for automatic speech recognition which distinguish pre- and post-vocalic consonants
JP2024508033A (ja) 対話中のテキスト-音声の瞬時学習
US20170270923A1 (en) Voice processing device and voice processing method
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP5257680B2 (ja) 音声認識装置
JP2005283646A (ja) 音声認識率推定装置
JP2009116075A (ja) 音声認識装置
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP2004251998A (ja) 対話理解装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
CN111078937B (zh) 语音信息检索方法、装置、设备和计算机可读存储介质
US11043212B2 (en) Speech signal processing and evaluation
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム