JP5633042B2

JP5633042B2 - 音声認識装置、音声認識方法、及び音声認識ロボット

Info

Publication number: JP5633042B2
Application number: JP2011011198A
Authority: JP
Inventors: 幹生中野; 孝太郎船越; 泰介住井; 直人岩橋
Original assignee: Honda Motor Co Ltd; ATR Advanced Telecommunications Research Institute International
Current assignee: Honda Motor Co Ltd; ATR Advanced Telecommunications Research Institute International
Priority date: 2010-01-28
Filing date: 2011-01-21
Publication date: 2014-12-03
Anticipated expiration: 2031-01-21
Also published as: JP2011158902A; US8886534B2; US20110184737A1

Description

本発明は、音声認識装置、音声認識方法、及び音声認識ロボットに関する。

ロボットを様々な環境で使用するために、ユーザとの音声による対話を通じてロボットに未知語を教示する技術が検討されている。しかし、未知語を構成する音韻を認識する際、従来の音声認識装置では認識誤りを完全に排除することはできない。そのため、認識誤りを訂正する技術が提案されている。例えば、特許文献１に記載の音声認識装置は、入力音声に含まれる単語を予め記憶されている単語と比較し、認識結果を画面に表示し、ユーザによるマニュアル操作に応じて、表示された認識結果から訂正単語を選択する。

特開２００６−１４６００８号公報

しかしながら、特許文献１に記載の音声認識装置は、認識結果を表示する画面や操作入力を受け付ける入力デバイスを要するため、ロボットに応用することは現実的ではないという課題があった。

本発明は上記の点に鑑みてなされたものであり、未登録語を登録する際、ユーザが入力デバイスを用いずに音声のみを用いて認識した音韻を訂正することができる音声認識装置、音声認識方法、及び音声認識ロボットを提供する。

本発明は上記の課題を解決するためになされたものであり、本発明は、音声を入力する音声入力部と、入力された音声の音韻を認識して音韻列を生成する音韻認識部と、前記音韻列の一部である認識対象の第１の音韻列と元発話を示す第２の音韻列とをマッチングを行うマッチング部と、前記マッチングを行った結果に基づき前記第２の音韻列の音韻を訂正する音韻訂正部と、音声を再生する音声再生部と、所定の音韻列を含む応答パターンを記憶する対話応答パターン記憶部と、対話処理部と、を備え、前記応答パターンには、訂正後の音韻列の正否について音声による回答を促すメッセージを示す確認要求パターンと、訂正後の音韻列が誤っていることを示す否定パターンと、訂正後の音韻列が正しいことを示す肯定パターンと、前記第１の音韻列を所定の部分に含むように音声による回答を促すメッセージを示す訂正要求パターンと、が含まれ、前記対話処理部は、前記音韻認識部がその後認識した音韻列が、前記肯定パターンに対応する場合、前記訂正後の音韻列からなる単語情報を単語記憶部に記憶させ、前記訂正後の音韻列と前記確認要求パターンに基づく音声を前記音声再生部に再生させ、前記音韻認識部がその後認識した音韻列が、前記否定パターンに対応する場合、前記訂正要求パターンが示す訂正要求音韻列に基づく音声を前記音声再生部に再生させ、前記音韻認識部がさらにその後認識した音韻列から前記訂正要求パターンの所定の部分から前記第１の音韻列を抽出することを特徴とする音声認識装置である。

（２）本発明はまた、上述の音声認識装置であって、前記音韻訂正部は、前記第１の音韻列に含まれる音韻に対する信頼度と、当該音韻に対応する第２の音韻列に含まれる音韻に対する信頼度とに基づいて選択された音韻に訂正すること、を特徴とする音声認識装置である。

（３）本発明はまた、上述の音声認識装置であって、前記音韻訂正部は、前記信頼度に基づく正解率が予め設定された値よりも低い場合、認識誤りと判断すること、を特徴とする音声認識装置である。

（４）本発明はまた、上述の音声認識装置であって、前記マッチング部は、入力音声に含まれる音韻の種別と認識される音韻の種別の組ごとの頻度に基づき前記第１の音韻列の音韻と前記第2の音韻列の音韻との間の距離を算出し前記距離に基づきマッチング結果を決定すること、を特徴とする音声認識装置である。

本発明によれば、利用者が発した訂正発話に係る入力音声の第１の音韻列とのマッチング結果に基づき、元発話を示す第２の音韻列を訂正するため、利用者が入力した音声のみに基づき音韻を訂正することができる。また、本発明によれば、訂正した音韻列を示す音声を再生し、利用者による応答を示す入力音声に応じて、訂正した音韻列からなる単語情報を記憶するか、発話を促す音声を再生する。そのため、利用者に訂正した音韻列に係る音声による応答を促し、応答により訂正した音韻列からなる単語情報が登録されるか、利用者に再度発話を促すため、音声のみによる音韻認識誤りの訂正を円滑に実現できる。

第２の本発明によれば、さらに、各音韻に対する信頼度に基づいて選択された音韻に訂正するため、信頼性に裏付けられた音韻に訂正することができる。

第３の本発明によれば、さらに、音韻に対する正解率が低い場合に、認識誤りと判断するため、正解率の低い音韻に訂正することを回避することができる。

第４の本発明によれば、さらに、第１の音韻列の音韻について、その音韻が認識される音韻の種別ごとの確率に基づいて算出された第２の音韻列との間の距離からマッチング結果を決定するため、認識誤りを考慮したマッチングを実現することができる。

第５の本発明によれば、さらに、訂正した音韻列を示す音声を再生し、利用者による応答を示す入力音声に応じて、訂正した音韻列からなる単語情報を記憶するか、発話を促す音声を再生する。そのため、利用者に訂正した音韻列に係る音声による応答を促し、応答により訂正した音韻列からなる単語情報が登録されるか、利用者に再度発話を促すため、音声のみによる音韻認識誤りの訂正を円滑に実現できる。

本発明の第１の実施形態に係る音声認識装置１の構成を示す概略図である。本実施形態に係る音韻の種別ごとのＧＰＰと正解率の関係の一例を示す図である。始終端フリーＤＰマッチング法の処理を示す流れ図である。ＤＰマッチング法の処理を示す流れ図である。本実施形態に係る混同行列情報の一例を示す図である。本実施形態に係る第１の音韻列と第２の音韻列とのマッチング結果の一例を示す図である。本実施形態に係る第１の音韻列と第２の音韻列とのマッチング結果のその他の例を示す図である。本実施形態に係る各音韻列に含まれる音韻ごとのＧＰＰ及び正解率の一例を示す図である。本実施形態に係る各音韻列に含まれる音韻ごとのＧＰＰ及び正解率のその他の例を示す図である。本実施形態に係る各音韻列に含まれる音韻ごとのＧＰＰ及び正解率のその他の例を示す図である。本実施形態におけるパターン情報の例を示す図である。本実施形態に係る音声認識装置１と利用者との間の対話の一例を示す。本実施形態に係る音声認識装置１における音声認識処理を示す流れ図である。音声認識装置１による単語正解率と音韻正解精度の一例を示す図である。本発明の第２の実施形態に係る音声認識装置３の構成を示す概略図である。

（第１の実施形態）
以下、図面を参照しながら本発明の実施形態について詳しく説明する。図１は、本実施形態に係る音声認識装置１の構成を示す概略図である。音声認識装置１は、音声入力部１０１、音韻認識部１０２、信頼度算出部１０３、マッチング部１０４、音韻訂正部１０５、対話処理部１０６、音声再生部１０７、音素音響モデル記憶部２０１、正解率記憶部２０２、混同行列記憶部２０３、対話応答パターン記憶部２０４及び単語記憶部２０５を含んで構成される。

音声入力部１０１は、利用者が発した音声による空気の振動を音声信号に変換し、変換した音声信号を音韻認識部１０２に出力する。音声入力部１０１は、例えば人間が発するする音声の周波数帯域（例えば、２００Ｈｚ−４ｋＨｚ）の音波を受信するマイクロホンである。

音韻認識部１０２は、音声入力部１０１から入力されたアナログ音声信号をディジタル音声信号に変換する。ここで、音韻認識部１０２は、入力されたアナログ信号を、例えば、サンプリング周波数を１６ｋＨｚとし、振幅を１６ビットの２進データにパルス符号変調（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ；ＰＣＭ）して、量子化された信号サンプルに変換する。音韻認識部１０２は、変換されたディジタル音声信号から音声特徴量を算出する。音声特徴量は、例えば２５次元のメル尺度ケプストラム（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ；ＭＦＣＣ）である。

音韻認識部１０２は、算出した音声特徴量に基づき、公知の音韻認識方法により利用者の発音を示す音韻を認識し、認識された音韻から構成される音韻列を生成する。音韻認識部１０２は、例えば、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）を用いて音韻を認識するが、他の方法を用いてもよい。音韻とは、ある言語において話者が同一と認識する音声の最小基本単位をいう。本実施形態では、音韻とは音素と同義である。音韻認識部１０２は、生成した音韻列と算出した音声特徴量の時系列データである音声特徴量ベクトルを信頼度算出部１０３及び対話処理部１０６に出力する。

信頼度算出部１０３は、音韻認識部１０２又は対話処理部１０６から入力された音韻列及び音声特徴量ベクトルに基づき音韻ごとに信頼度を算出する。信頼度とは、音韻の認識結果としての信頼性を示す変数である。信頼度算出部１０３は、信頼度として例えば一般化事後確率（ＧｅｎｅｒａｌｉｚｅｄＰｏｓｔｅｒｉｏｒＰｒｏｂａｂｉｌｉｔｙ；ＧＰＰ）と正解率を算出するが、他の変数を算出してもよい。

例えば、信頼度算出部１０３は、音声特徴量ベクトルｘ_１が与えられているとき、開始時刻ｓから終了時刻ｔまで継続する音韻ｕに対するＧＰＰは、式（１）（ＬｉｊｕａｎＷａｎｇｅｔ．ａｌ；“ＰｈｏｎｅｔｉｃＴｒａｎｓｃｒｉｐｓｔｉｏｎＶｅｒｉｆｉｃａｔｉｏｎｗｉｔｈＧｅｎｅｒａｌｉｚｅｄＰｏｓｔｅｒｉｏｒＰｒｏｂａｂｉｌｉｔｙ，”、「Ｉｎｔｅｒｓｐｅｅｃｈ２００５」、２００５、p．１９５０参照）を用いて算出する。

式（１）で、Ｔはベクトルの転置を示す。Ｍは音韻列（ＰｈｏｎｅｍｅＧｒａｐｈ）における、経路（ｐａｔｈ）における音韻数を示す。ｍ、ｎは、経路上の音韻を示すインデックスである。αは、音響モデルに対する指数重み係数（ｅｘｐｏｎｅｎｔｉａｌｗｅｉｇｈｔ）を示す。ｐ（ｘ_１ ^Ｔ）は、音声特徴量ベクトルｘ_１が与えられる確率である。ｐ（ｘ_ｓｍ ^ｔｍ｜ｕ_ｍ）は、音韻ｕ_ｍの該当部分、即ち開始時刻をｓ_ｍ、終了時刻をｔ_ｍとする音声特徴量ベクトルｘ_ｓｍ ^ｔｍに対する条件付確率である。

音素音響モデル記憶部２０１には、音声特徴量ベクトルｘ_１が与えられる確率ｐ（ｘ_１ ^Ｔ）と、音韻ｕ_ｍの音声特徴量ベクトルｘ_ｓｍ ^ｔｍに対する条件付確率ｐ（ｘ_ｓｍ ^ｔｍ｜ｕ_ｍ）が予め記憶されている。信頼度算出部１０３は、音韻認識部１０２から入力された音声特徴量ベクトルｘ_１に対応する確率ｐ（ｘ_１ ^Ｔ）と音韻ｕ_ｍの音声特徴量ベクトルｘ_ｓｍ ^ｔｍに対する条件付確率ｐ（ｘ_ｓｍ ^ｔｍ｜ｕ_ｍ）を音素音響モデル記憶部２０１から読み出し、式（１）に従ってＧＰＰを算出する。

信頼度算出部１０３は、音韻ごとに算出したＧＰＰに基づき正解率を決定する。正解率とは、音韻認識部１０２の認識結果として正しい音韻が得られる確率である。具体的には、正解率記憶部２０２に、予め音韻ごとのＧＰＰと正解率との関係を記憶しておく。そこで、信頼度算出部１０３は、音韻ごとに算出したＧＰＰに対応する正解率を正解率記憶部２０２から読み出して決定する。日本語の発音を構成する音韻の種別ごとのＧＰＰと正解率との関係の一例を図２に示す。図２において、横軸はＧＰＰ、縦軸は正解率を示す。また、各線は、音韻ごとのＧＰＰに対する正解率を示す。図２は、何れの音韻についても、ＧＰＰが増加するにつれ正解率も増加することを示す。また、ＧＰＰも正解率も最小値はゼロであり、最大値は１である。但し、音韻の種別により正解率やその増加率は一定ではない。信頼度算出部１０３は、音韻列とこれを構成する音韻ごとの正解率（又はＧＰＰ）をマッチング部１０４に出力する。

マッチング部１０４は、信頼度算出部１０３から音韻列（以下、第１の音韻列と呼ぶ）とこれを構成する音韻ごとの正解率（又はＧＰＰ）が新たに入力される。また、マッチング部１０４は、過去に入力又は訂正された音韻列（以下、第２の音韻列と呼ぶ）とこれを構成する音韻ごとの正解率（又はＧＰＰ）が音韻訂正部１０５から入力され、これらを記憶する。マッチング部１０４は、第１の音韻列と第２の音韻列についてマッチング処理（照合）を実行する。マッチング部１０４は、マッチング処理において、例えば始終端フリーＤＰマッチング法（両端点フリーＤＰ法又はＬｅｖｅｌＢｕｉｄｉｎｇ法ともいう）を使用するが、これに限らず他の方法を用いてもよい。

ここで、始終端フリーＤＰマッチング法の処理について図３を用いて説明する。図３は、始終端フリーＤＰマッチング法の処理を示す流れ図である。
（ステップＳ２０１）マッチング部１０４は、累積距離をゼロと初期設定する。
（ステップＳ２０２）マッチング部１０４は、第１の音韻列の最初の音韻と、第２の音韻列に含まれる音韻のうち一つを、後述する距離を算出する対象とする音韻のうち最初の音韻（以下、算出対象始点と呼ぶ）と初期設定する。
（ステップＳ２０３）マッチング部１０４は、第１の音韻列についての算出対象始点のうち第１の音韻列について最後の音韻に達するまでステップＳ２０４及びＳ２０５を繰り返す。
（ステップＳ２０４）マッチング部１０４は、ＤＰマッチング法（始点及び終点が固定）を実行する。
（ステップＳ２０５）マッチング部１０４は、第１の音韻列についての算出対象始点をその次の音韻に進める。

マッチング部１０４は、上述の処理を算出対象始点となる第２の音韻列に含まれる音韻全てについて実行し、それぞれの場合について累積距離を算出する。マッチング部１０４は、算出された累積距離を最小とする算出対象始点、即ち第１の音韻列と第２の音韻列との対応関係がマッチング結果として決定される。即ちマッチング結果は、第１の音韻列に含まれる音韻と第２の音韻列に含まれる音韻の対（ｐａｉｒ）からなるマッチング情報である。

次に、ステップＳ２０４で実行されるＤＰマッチング法の処理について図４を用いて説明する。図４は、ＤＰマッチング法の処理を示す流れ図である。
（ステップＳ３０１）マッチング部１０４は、距離を算出する対象とする音韻（算出対象音韻）が、第１の音韻列の最後の音韻及び第２の音韻列の最後の音韻のうち何れか先に達するまでステップＳ３０２〜Ｓ３０４の処理を繰り返す。
（ステップＳ３０２）マッチング部１０４は、算出対象音韻間の距離を後述するように算出する。
（ステップＳ３０５）マッチング部１０４は、算出した距離を累積距離に加算する。
（ステップＳ３０６）マッチング部１０４は、算出対象音韻を、第１の音韻列、第２の音韻列各々について直後の音韻に変更する。

なお、マッチング部１０４は、上述のマッチング処理において第１の音韻列の一部に音声入力中の音韻が存在しない場合（挿入誤り）が生じる場合を考慮し、挿入誤りも一種の音韻として距離を算出する。同様に、マッチング部１０４は、第２の音韻列の一部に認識結果としての音韻が存在しない場合（脱落誤り）が生じる場合を考慮し、脱落誤りも後述のように一種の音韻として距離を算出する。

マッチング部１０４は、例えば上述のステップＳ３０２において算出対象音韻である第１の音韻列に含まれる１つの音韻αと第２の音韻列に含まれる１つの音韻βとの間の距離ｄ（α，β）を、例えば式（２）により算出する。

式（２）において、Ｐ（α，β）は、認識結果である音韻α（認識結果音韻（ｒｅｃｏｇｎｉｚｅｄｐｈｏｎｅｍｅ））の音声入力中の音韻（以下、発話目的音韻（ｉｎｐｕｔｐｈｏｎｅｍｅ）と呼ぶ）と認識結果音韻βの発話目的音韻が一致する確率である。発話目的音韻として可能性がある音韻をγとすると、Ｐ（α，β）は、式（３）で表される。

式（３）において、Ｐ（α｜γ）は、発話目的音韻γが認識結果音韻αに認識される確率を示す。Ｐ（β｜γ）は、発話目的音韻γが認識結果音韻βに認識される確率を示す。Ｐ（γ）は、発話目的音韻γが出現する確率を示す。
混同行列記憶部２０３には、例えば、発話目的音韻γが認識結果音韻αに認識される頻度を要素とする混同行列情報（ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ）を予め記憶しておく。マッチング部１０４は、混同行列記憶部２０３に記憶された混同行列情報から、認識結果音韻αに認識される頻度と認識結果音韻βに認識される頻度を読み出し、Ｐ（α｜γ）、Ｐ（β｜γ）及びＰ（γ）を算出する。マッチング部１０４は、式（３）に基づきＰ（α，β）を算出し、式（２）に基づき、ｄ（α，β）を算出する。

混同行列情報の一例を図５に示す。図５は、本実施形態に係る混同行列情報の一例を示す図である。図５において、行は発話目的音韻γとしてｚｈ、φ、ｎｇ、ａ及びｂを示す。列は、認識結果音韻αとしてｚｈ、φ、ｎｇ、ａ及びｂを示す。数値は、認識結果音韻α及び発話目的音韻γの組ごとの度数を示す。例えば、発話目的音韻γがｚｈであるとき、認識結果音韻αがｚｈと認識される度数が７０７２回である。ここで、混同行列情報の行と列、つまり発話目的音韻γと認識結果音韻αが一致する場合（認識結果が正しい場合）の度数を示す。混同行列情報の行と列、つまり発話目的音韻γと認識結果音韻αが異なる場合（認識結果が誤る場合）の度数を示す。図５の例では、認識結果が正しい場合のほうが誤る場合よりも多い。式（２）を考慮すれば、発話目的音韻γと認識結果音韻αが一致する場合のほうが異なる場合よりも距離が大きくなる。なお、発話目的音韻γがφであるとは、発話目的音韻が存在しない挿入誤りを示す。認識結果音韻αがφであるとは、認識結果音韻が存在しない脱落誤りを示す。

図６は、第１の音韻列と第２の音韻列とのマッチング結果の一例を示す図である。図６の例では、第１の音韻列は「ｄｉｓｕ」、第２の音韻列は「ｊｉｓｕｐｕｒｅｉ」である。ここで、第１の音韻列「ｄｉｓｕ」は、第２の音韻列のうち「ｊｉｓｕ」の部分に対応している。
図７は、第１の音韻列と第２の音韻列とのマッチング結果のその他の例を示す図である。図７の例では、第１の音韻列は「ｂｏｏｄｏ」、第２の音韻列は「ｋｉｉｂｏｎｏｎｏ」である。ここで、第１の音韻列の「ｂｏ」の部分のうち第２の音韻列のうち「ｂｏ」の部分に対応している。また、第１の音韻列の「ｏｄｏ」の部分が、第２の音韻列のうち「ｏｎｏ」の部分に対応している。なお、第２の音韻列のうち６番目の音韻「ｎ」に対応する第１の音韻列の音韻は存在しない。

上述のように、図６や図７に示す例のように、音韻列間で音韻数が異なる場合があるが、マッチング部１０４は、上述の始終端フリーＤＰマッチング法のように、一方の音韻列の途中の音韻が他方の音韻列の始端に対応させることができるマッチング処理を行う。その結果、このような場合にも音韻列間のマッチング情報を決定することができる。
従って、利用者が認識結果として第２の音韻列を訂正するために、第１の音韻列を示す音声で応答する場合に、第２の音韻列のうち認識誤りに対応する部分だけを応答してもよい。
また、図７に示す例のように、一方の音韻列の一部分と他の部分が離れる場合があるが、マッチング部１０４は、挿入誤りや脱落誤りを考慮することで、このような場合にも音韻列間のマッチング情報を決定することができる。

図１に戻り、マッチング部１０４は、第１の音韻列、第２の音韻列、マッチング情報及び各音韻列に含まれる音韻ごとの正解率を音韻訂正部１０５に出力する。

音韻訂正部１０５は、マッチング部１０４から第１の音韻列、第２の音韻列、マッチング情報及び各音韻列に含まれる音韻ごとの正解率を入力する。音韻訂正部１０５は、入力された第１の音韻列に含まれる音韻と第２の音韻列に含まれる音韻とを、マッチング情報を参照して対応付け、自己が備える記憶領域に記憶する。

図８は、本実施形態に係る各音韻列に含まれる音韻ごとのＧＰＰ及び正解率の一例を示す図である。図８は、第１の音韻列、これに含まれる音韻ごとのＧＰＰ、正解率、第２の音韻列、これに含まれる音韻ごとのＧＰＰ、正解率及び後述する処理による訂正後の音韻列を示す。図８によれば、第１の音韻列に含まれる音韻“ｄ”、“ｉ”、“ｓ”及び“ｕ”に対応するＧＰＰは、０．７５、０．７３、０．４８及び０．７６、正解率は、０．９２、０．８０、０．７３及び０．７８となる。第２の音韻列に含まれる音韻“ｊ”、“ｉ”、“ｓ”、“ｕ”、“ｐ”、“ｕ”、“ｒ”、“ｅ”及び“ｉ”に対応するＧＰＰは、０．２１、０．６２、０．５３、０．９２、０．４４、０．９１、０．５４、０．６６及び０．８８、正解率は、０．０６、０．５２、０．７５、０．９６、０．２８、０．９４、０．８５、０．５０及び０．８５となる。また、訂正後の音韻列は、“ｄｉｓｕｐｕｒｅｉ”となる。なお、図８の表の上部に示されている数値１〜９は、音韻の順序を示すインデックスである。

図９は、本実施形態に係る各音韻列に含まれる音韻ごとのＧＰＰ及び正解率のその他の例を示す図である。図９は、第１の音韻列、これに含まれる音韻ごとのＧＰＰ、正解率、第２の音韻列、これに含まれる音韻ごとのＧＰＰ、正解率及び後述する処理による訂正後の音韻列を示す。図９によれば、第１の音韻列に含まれる音韻“ｂ”、“ｏ”、“ｏ”、“ｄ”及び“ｏ”に対応するＧＰＰは、０．５３、０．５２、０．７８、０．７３及び０．７９、正解率は、０．７４、０．２４、０．６７、０．９１及び０．８２となる。第２の音韻列に含まれる音韻“ｋ”、“ｉ”、“ｉ”、“ｂ”、“ｏ”、“ｎ”、“ｏ”、“ｎ”及び“ｏ”に対応するＧＰＰは、０．４３、０．６３、０．６２、０．５４、０．６６、０．１８、０．８２、０．７２及び０．８１、正解率は、０．８５、０．５８、０．７７、０．７３、０．４８、０．２７、０．７３、０．９１及び０．８６となる。また、訂正後の音韻列は、“ｋｉｉｂｏｏｄｏ”となる。なお、図９の表の上部に示されている数値１〜９は、音韻の順序を示すインデックスである。

図１０は、本実施形態に係る各音韻列に含まれる音韻ごとのＧＰＰ及び正解率のその他の例を示す図である。図１０は、第１の音韻列、これに含まれる音韻ごとのＧＰＰ、正解率、第２の音韻列、これに含まれる音韻ごとのＧＰＰ、正解率及び後述する処理による訂正後の音韻列を示す。図１０によれば、第１の音韻列に含まれる音韻“ｍ”、“ｅ”、“ｍ”、“ｏ” 、“ｏ”、“ｒ”、“ｉ”及び“ｉ”に対応するＧＰＰは、０．６８、０．８４、０．７６、０．５３、０．２３、０．８３、０．７５及び０．９６、正解率は、０．７２、０．７９、０．７９、０．７１、０．３４、０．７７、０．６５及び０．９３となる。第２の音韻列に含まれる音韻“ｍ”、“ｅ”、“ｍ”及び“ｏ”に対応するＧＰＰは、０．５９、０．６９、０．６５及び０．８２、正解率は、０．６５、０．６１、０．７０及び０．８６となる。また、訂正後の音韻列は、“ｍｅｍｏｒｉｉ”となる。なお、図１０の表の上部に示されている数値１〜８は、音韻の順序を示すインデックスである。

音韻訂正部１０５は、入力された第２の音韻列を、第１の音韻列、マッチング情報及び正解率に基づいて訂正して、訂正後の音韻列を決定する。
ここで、音韻訂正部１０５は、第１の音韻列に含まれる音韻に対応する第２の音韻列に含まれる音韻が異なる場合には、それらの音韻のうち各々に対応する正解率が高いほうの音韻を、訂正後の音韻列に含まれる音韻と決定する。
例えば、図８において第２の音韻列の１番目の音韻“ｊ”は対応する第１の音韻列の音韻“ｄ”と異なる。音韻“ｄ”に対応する正解率は０．９２と、音韻“ｊ”に対応する正解率０．０６よりも高いため、音韻訂正部１０５は、訂正後の音韻列の１番目の音韻を“ｄ”と決定する。

音韻訂正部１０５は、第１の音韻列に含まれる音韻に対応する第２の音韻列に含まれる音韻が同一である場合には、その同一の音韻を訂正後の音韻列に含まれる音韻と決定する。
第２の音韻列に含まれる音韻に対応する音韻が第１の音韻列に存在しない場合は、音韻訂正部１０５は、第２の音韻列に含まれる音韻を訂正後の音韻列に含まれる音韻と決定する。但し、その第２の音韻列に含まれる音韻に対応する正解率が予め設定された値（例えば、０．５）よりも小さい場合、音韻訂正部１０５は、その音韻を訂正後の音韻列に含めずに除外する。例えば、図９において、第２の音韻列の第６番目の音韻“ｎ”に対応する正解率は０．２７と、予め設定された値０．５よりも小さいため、この音韻ｎを訂正後の音韻列に含めずに除外する

また、第１の音韻列に含まれる音韻に対応する音韻が第２の音韻列に存在しない場合は、音韻訂正部１０５は、その第１の音韻列に対応する音韻を、訂正後の音韻列に含める。
但し、その第１の音韻列に含まれる音韻に対応する正解率が予め設定された値よりも小さい場合、音韻訂正部１０５は、その音韻を訂正後の音韻列に含めずに除外する。例えば、図１０において、第１の音韻列の第５番目の音韻“ｏ”に対応する正解率は０．３４と、予め設定された値０．５よりも小さいため、この音韻ｏを訂正後の音韻列に含めずに除外する
音韻訂正部１０５は、第２の音韻列に対応する訂正後の音韻列を決定したら、決定した訂正後の音韻列とその音韻列に含まれる音韻ごとの正解率をマッチング部１０４に出力する。マッチング部１０４は、この訂正後の音韻列を新たな第２の音韻列とする。また、音韻訂正部１０５は、この訂正後の音韻列（第２の音韻列）を対話処理部１０６に出力する。

なお、本実施形態では、音韻訂正部１０５は、上述のように各音韻列に含まれる音韻ごとの正解率に基づき訂正後の音韻列を決定することに限られない。音韻訂正部１０５は、マッチング部から各音韻列に含まれる音韻ごとのＧＰＰを正解率の代わりに入力され、この音韻ごとのＧＰＰに基づいて訂正後の音韻列を決定してもよい。ここで、音韻訂正部１０５は、音韻ごとのＧＰＰが予め設定された閾値よりも小さい場合、訂正後の音韻列からその音韻を除外する。この閾値は、例えば、音韻の種別によらず一定の正解率に対応する値である。その場合、音韻の種別によりＧＰＰと正解率の関係が異なるため（図２参照）、この閾値も音韻の種別によって異なる。また、音韻訂正部１０５は、正解率の代わりに訂正後の音韻列に含まれる音韻ごとのＧＰＰをマッチング部１０４に出力する。

対話応答パターン記憶部２０４は、例えば、図１１に示すパターン情報を予め記憶する。図１１は、本実施形態におけるパターン情報の例を示す図である。パターン情報には、要求パターンと応答パターンを含む。要求パターンには、初期要求パターン、確認要求パターンと訂正要求パターンを含む。応答パターンには、肯定パターン、否定パターン、初期応答パターン及び訂正要求回答パターンを含む。各パターンの具体的な内容については後述する。

図１に戻り、対話処理部１０６は、初めに利用者からの認識対象となる音韻列を音声で入力するために、対話応答パターン記憶部２０４から、利用者にその音韻列を音声で応答することを要求する対話パターン情報（初期要求パターン）を読み出す。即ち、初期要求パターンとは、音声認識装置１が提示するメッセージのパターンを示す音韻列を含む情報であって、利用者に認識対象となる音韻列を初めて音声で応答することを促すものである。初期要求パターンは、例えば図１１の「ｋｏｒｅｗａｎａｎｉｎａｎｉｄｅｓｕｔｏｎｏｂｅｔｅｋｕｄａｓａｉ」である。この例は、利用者に「ｋｏｒｅｗａ ≪ … ≫ ｄｅｓｕ」と音声で回答を促すものであって、≪ … ≫の部分に、例えば名詞を示す音韻列が含まれる。対話処理部１０６は、この初期要求パターンを初期要求音韻列として音声再生部１０７に出力する。

対話処理部１０６は、音韻認識部１０２から音韻列が入力されると、対話応答パターン記憶部２０４から、利用者に認識結果としての音韻列に対する確認を要求する対話パターン情報（確認要求パターン）を読み出す。即ち、確認要求パターンとは、音声認識装置１が提示するメッセージのパターンを示す音韻列を含む情報であって、利用者に、利用者の回答に基づいて訂正された後の音韻列に対して認識結果が正しいか否かを音声で回答することを促すものである。確認要求パターンは、例えば図１１の「＜ … ＞ｄｅｉｉｄｅｓｕｋａ」である。＜ … ＞の部分は、訂正後の音韻列が挿入される部分であることを示す。

対話処理部１０６は、確認要求パターンに、訂正後の音韻列を挿入して、利用者に認識結果の確認を要求するメッセージを示す音韻列（確認要求音韻列）を生成する。つまり、確認要求音韻列は、挿入した音韻列が正しいか否かを利用者に音声で回答すること促すメッセージを示す音韻列となる。例えば、訂正後の音韻列が「ｄｉｓｕｐｕｒｅｉ」であるとき、確認要求音韻列は「ｄｉｓｕｐｕｒｅｉｄｅｉｉｄｅｓｕｋａ」と「ディスプレイでいいですか」を示す音韻列となる。対話処理部１０６は、この確認要求音韻列を音声再生部１０７に出力する。

対話処理部１０６は、後述する処理を実行して音韻認識部１０２から入力された音韻列が訂正後の音韻列としての認識結果として誤っていることを示す音韻列であるか判定する。対話処理部１０６は、音韻認識部１０２から入力された音韻列が訂正後の音韻列としての認識結果として誤っていることを示す音韻列であると認識したとき、対話応答パターン記憶部２０４から、利用者に正しい音韻列を音声で応答することを要求する対話パターン情報（訂正要求パターン）を読み出す。訂正要求パターンとは、音声認識装置１が提示するメッセージのパターンを示す音韻列を含む情報であって、利用者に正しい音韻列を音声で回答することを促す音韻列である。訂正要求パターンは、例えば図１１の「ｔａｄａｓｈｉｋｕｗａｎａｎｉｎａｎｉｄｅｓｕｔｏｎｏｂｅｔｅｋｕｄａｓａｉ」である。この例は、利用者に「ｔａｄａｓｈｉｋｕｗａ ≪ … ≫ ｄｅｓｕ」と音声で回答を促す音韻列であって、≪ … ≫の部分に正しい音韻列が含まれる。対話処理部１０６は、この訂正要求パターンを訂正要求音韻列として音声再生部１０７に出力する。

対話処理部１０６は、音韻認識部１０２から音韻列と音声特徴量ベクトルが入力される。対話処理部１０６は、入力された音韻列に基づき対話応答パターン記憶部２０４から利用者からの音声による応答の類型を示す応答パターン情報（応答パターン）を読み出す。応答パターンは、例えば、図１１の「ｈａｉ」、「ｕｎ」、「ｓｏ」、等、訂正後の音韻列が認識結果として正しいことを示す音韻列（肯定パターン）や、図１１の「ｉｉｅ」、「ｅｅ」、「ｃｈｉｇａｕ」、等、訂正後の音韻列が認識結果として誤っていることを示す音韻列（否定パターン）を含む。また、応答パターンは、初めて利用者が認識対象として回答するメッセージのパターンを示す音韻列（初期応答パターン）と、認識結果として正しい音韻列を利用者が回答するメッセージのパターンを示す音韻列（訂正応答パターン）を含む。

初期応答パターンは、例えば、図１１の「ｋｏｒｅｗａ ≪ … ≫ ｄｅｓｕ」である。≪ … ≫を除く部分は、初期要求パターンから、「ｎａｎｉｎａｎｉ」と、回答としての音韻列を含める部分と、「ｔｏｎｏｂｅｔｅｋｕｄａｓａｉ」と利用者への指示を示す部分を除いた部分に一致する。即ち、初期要求パターンは、初期応答として利用者に要求するパターンを示す部分が初期応答パターンと共通する。
訂正応答パターンは、例えば、図１１の「ｔａｄａｓｈｉｋｕｗａ ≪ … ≫ ｄｅｓｕ」である。≪ … ≫を除く部分は、訂正要求パターンから、「ｎａｎｉｎａｎｉ」と、回答としての音韻列を含める部分と、「ｔｏｎｏｂｅｔｅｋｕｄａｓａｉ」と利用者への指示を示す部分を除いた部分に一致する。即ち、訂正要求パターンは、訂正応答として利用者に要求するパターンを示す部分が訂正応答パターンと共通する。
≪ … ≫の部分は、回答としての認識対象の音韻列を含む部分であることを示す。

図１に戻り、対話処理部１０６は、音韻認識部１０２から入力された音韻列と対話応答パターン記憶部２０４から読み出した応答パターン情報にマッチング処理を実行して、入力された音韻列に最も合致する応答パターンを決定する。マッチング処理において、対話処理部１０６は、例えば上述の始終端フリーＤＰマッチング法を実行する。
対話処理部１０６は、決定した応答パターン情報が肯定パターンのうちの一つである場合、利用者の応答に基づき訂正された訂正後の音韻列を単語情報として単語記憶部２０５に記憶させる。即ち、対話処理部１０６は、音韻認識部１０２から入力された音韻列が訂正後の音韻列が認識結果として正しいことを示す音韻列と認識する。これにより、音声認識装置１は、新たに記憶した音韻列を、認識対象の語彙として用いることができることになる。
対話処理部１０６は、決定した応答パターン情報が否定パターンのうちの一つである場合、音韻認識部１０２から入力された音韻列が訂正後の音韻列が認識結果として誤っていることを示す音韻列と認識する。このとき、対話処理部１０６は、上述のように対話応答パターン記憶部２０４から、訂正要求パターンを読み出す。

対話処理部１０６は、決定した応答パターン情報が初期応答パターン又は訂正応答パターンであるとき、音韻認識部１０２から入力された音韻列が認識対象となる音韻列を含む音韻列と認識する。このとき、対話処理部１０６は、初期応答パターン又は訂正応答パターンの≪…≫に対応する、音韻認識部１０２から入力された音韻列の部分を抽出し、この部分を新たな第１の音韻列とする。対話処理部１０６は、音韻認識部１０２から入力された音声特徴量ベクトルから抽出された第１の音韻列と対応する音声特徴量ベクトルを抽出する。対話処理部１０６は、抽出された第１の音韻列と音声特徴量ベクトルを信頼度算出部１０３に出力する。

音声再生部１０７は、対話処理部１０６から入力された初期要求音韻列、訂正要求音韻列又は確認要求音韻列から、公知のテキスト・音声合成方法を用いて、音声信号を生成する。音声再生部１０７は、生成した音声信号に基づく音声を再生する。音声再生部１０７は、確認要求音韻列に基づき、例えば、「ｄｉｓｕｐｕｒｅｉｄｅｉｉｄｅｓｕｋａ」と「ディスプレイでいいですか」というメッセージを表す音声を再生する。これにより、利用者に「ｄｉｓｕｐｕｒｅｉ」という訂正後の音韻列が認識結果として正しいか否かを回答することを促すことができる。

音声再生部１０７は、初期要求音韻列に基づき、例えば、「ｋｏｒｅｗａｎａｎｉｎａｎｉｄｅｓｕ」と「これはナニナニです、と述べてください」というメッセージを示す音声を再生する。これにより、利用者に「ｋｏｒｅｗａ ≪ … ≫ ｄｅｓｕ」と、≪ … ≫の部分に初めて認識対象となる音韻列を音声で回答することを促すことができる。
音声再生部１０７は、訂正要求音韻列に基づき、例えば、「ｔａｄａｓｈｉｋｕｗａｎａｎｉｎａｎｉｄｅｓｕ」と「正しくはナニナニです、と述べてください」というメッセージを示す音声を再生する。これにより、利用者に「ｔａｄａｓｈｉｋｕｗａ ≪ … ≫ ｄｅｓｕ」と、≪ … ≫の部分に正しい音韻列を音声で回答することを促すことができる。

次に、音声認識装置１が実行する音声認識処理について説明する。音声認識装置１は、この音声認識処理を実行することにより、利用者と例えば図１２に示す音声による対話を行い新たな単語を記憶することができる。
図１２は、本実施形態に係る音声認識装置１と利用者との間の対話の一例を示す図である。図１２において、Ｓは、音声認識装置１が再生する音声の内容を示す。Ｕは、利用者が発する音声の内容を示す。Ｃ１〜Ｃ８は、音声の順序を示す。
Ｃ１は、音声認識装置１が「これはナニナニです、と述べてください。」と初期要求音韻列“ｋｏｒｅｗａｎａｎｉｎａｎｉｄｅｓｕｔｏｎｏｂｅｔｅｋｕｄａｓａｉ”に基づく音声を再生することを示す。これにより、音声認識装置１は、利用者に対し、音声で音韻列を“ｋｏｒｅｗａ ≪…≫ ｄｅｓｕ”という初期応答パターンで回答することを要求している。
Ｃ２は、利用者が「これはディスプレイです」と音声で回答することを示す。これにより、利用者は、Ｃ１で要求された初期応答パターンで音韻列「ディスプレイ」が示す音韻列“ｄｉｓｕｐｕｒｅｉ”を回答している。

Ｃ３は、音声認識装置１が「これはジスプレイでいいですか？」と確認要求音韻列“ｊｉｓｕｐｕｒｅｉｄｅｉｉｄｅｓｕｋａ”に基づく音声を再生することを示す。これにより、音声認識装置１は、利用者に対し認識された音韻列“ｊｉｓｕｐｕｒｅｉ”に対して、認識結果として正しいか否かを回答することを要求している。
Ｃ４は、利用者が「いいえ」と音声で回答することを示す。これにより、利用者は、Ｃ３により認識結果が誤りであることを示す否定パターン“ｉｉｅ”を回答している。
Ｃ５は、音声認識装置１が「正しくはナニナニです、と述べてください。」と訂正要求音韻列“ｔａｄａｓｈｉｋｕｗａｎａｎｉｎａｎｉｄｅｓｕｔｏｎｏｂｅｔｅｋｕｄａｓａｉ”に基づく音声を再生することを示す。これにより、音声認識装置１は、利用者に対し、音声で音韻列を“ｔａｄａｓｈｉｋｕｗａ ≪…≫ ｄｅｓｕ”という初訂正応答パターンで回答することを要求している。

Ｃ６は、利用者が「正しくはディスです」と音声で回答することを示す。これにより、利用者は、Ｃ５で要求された訂正応答パターンで音声認識装置１が認識結果として誤った部分“ｊｉｓｕ”に対応する音韻列“ｄｉｓｕ”を回答している。
Ｃ７は、音声認識装置１が「これはディスプレイでいいですか？」と確認要求音韻列“ｄｉｓｕｐｕｒｅｉｄｅｉｉｄｅｓｕｋａ”に基づく音声を再生することを示す。これにより、音声認識装置１は、利用者に対し認識及び訂正された音韻列“ｄｉｓｕｐｕｒｅｉ”に対して、認識結果として正しいか否かを回答することを要求している。
Ｃ８は、利用者が「はい」と音声で回答することを示す。これにより、利用者は、Ｃ３により認識結果が正しいことを示す肯定パターン“ｈａｉ”を回答している。

このような対話を実現するために音声認識装置１は、図１３に示す処理を実行する。図１３は、本実施形態に係る音声認識処理を示す流れ図である。
（ステップＳ１０１）音声認識装置１は、音声認識方法を実行するための変数について初期設定を行う。例えば、対話処理部１０６は、利用者に正しい音韻列を音声で応答することを要求する回数Ｍを６に設定し、その応答回数をカウントする変数ｉを１に設定する。その後、ステップＳ１０２に進む。

（ステップＳ１０２）対話処理部１０６は、対話応答パターン記憶部２０４から、初期要求パターンを読み出す。対話処理部１０６は、読み出した初期要求パターンを初期要求音韻列として音声再生部１０７に出力する。
音声再生部１０７は、対話処理部１０６から入力された初期要求音韻列から、公知のテキスト・音声合成方法を用いて音声信号を生成する。音声再生部１０７は、生成した音声信号に基づき音声を再生する（例えば図１２のＣ１）。これにより、音声認識装置１は、利用者に認識対象となる音韻列を音声で回答することを促すことができる。
（ステップＳ１０３）音声入力部１０１は、利用者が発した音声（例えば図１２のＣ２）に基づく音声信号を入力され、入力された音声信号を音韻認識部１０２に出力する。その後、ステップＳ１０４に進む。

（ステップＳ１０４）音韻認識部１０２は、音声入力部１０１から入力された音声信号から音声特徴量を算出する。音韻認識部１０２は、算出した音声特徴量に基づき、既知の音韻認識方法により利用者の発音を示す音韻を認識し、認識された音韻から構成される音韻列を生成する。音韻認識部１０２は、生成した音韻列と算出した音声特徴量の時系列データである音声特徴量ベクトルを対話処理部１０６に出力する。
対話処理部１０６は、音韻認識部１０２から入力した音韻列と対話応答パターン記憶部２０４から読み出した応答パターン情報（図１１参照）にマッチング処理を実行して、入力された音韻列に最も合致する応答パターンを決定する。マッチング処理において、対話処理部１０６は、例えば上述の始終端フリーＤＰマッチング法を用いてマッチング処理を実行する。

対話処理部１０６は、決定した応答パターン情報が初期応答パターン（図１１参照）であるとき、音韻認識部１０２から入力された音韻列が正しい音韻列を含む音韻列と認識する。このとき、対話処理部１０６は、初期応答パターンの≪…≫に対応する、音韻認識部１０２から入力された音韻列の部分を抽出し、この部分を新たな第１の音韻列とする。対話処理部１０６は、新たな第1の音韻列に対応する新たな音声特徴量ベクトルを音韻認識部１０２から入力された音声特徴量ベクトルから抽出する。対話処理部１０６は、新たな第１の音韻列と音声特徴量ベクトルを信頼度算出部１０３に出力する。その後、ステップＳ１０５に進む。

（ステップＳ１０５）信頼度算出部１０３は、対話処理部１０６から入力された音声特徴量ベクトルｘ_１ ^Ｔに対する確率ｐ（ｘ_１ ^Ｔ）と、音韻認識部１０２から入力された音韻列に含まれる各音韻ｕ_ｍのその音声特徴量の該当部分ｘ_ｓｍ ^ｔｍに対する条件付確率ｐ（ｘ_ｓｍ ^ｔｍ｜ｕ_ｍ）を音素音響モデル記憶部２０１から読み出す。信頼度算出部１０３は、読み出した確率ｐ（ｘ_１ ^Ｔ）及び条件付確率ｐ（ｘ_ｓｍ ^ｔｍ｜ｕ_ｍ）を用いて、式（１）に従って信頼度、例えばＧＰＰを算出する。
信頼度算出部１０３は、その音韻列に含まれる音韻ごとに算出したＧＰＰに対応する正解率を正解率記憶部２０２から読み出す。信頼度算出部１０３は、音韻列とこの音韻列を構成する音韻ごとのＧＰＰと正解率をマッチング部１０４に出力する。
マッチング部１０４は、信頼度算出部１０３から音韻列とこれを構成する音韻ごとのＧＰＰと正解率を入力され、入力された音韻列とこの音韻列を構成する音韻ごとのＧＰＰと正解率を記憶する。ここで、信頼度算出部１０３から入力された音韻列を第２の音韻列とする。その後、ステップＳ１０６に進む。

（ステップＳ１０６）対話処理部１０６は、音韻認識部１０２から音韻列が入力され、対話応答パターン記憶部２０４から確認要求パターンを読み出す。対話処理部１０６は、確認要求パターンの＜ … ＞の部分に入力された音韻列を挿入し、確認要求音韻列を生成する。対話処理部１０６は、生成した確認要求音韻列を音声再生部１０７に出力する。音声再生部１０７は、対話処理部から入力された確認要求音韻列から生成した音声信号に基づく音声（例えば図１２のＣ３）を再生する。これにより、音声認識装置１は、利用者に認識結果を音声で出力し、認識結果が正しいか否かを音声で回答することを促す。その後、ステップＳ１０７に進む。

（ステップＳ１０７）音声入力部１０１は、利用者が回答した音声に基づく音声信号（例えば図１２のＣ４）を入力され、入力された音声信号を音韻認識部１０２に出力する。音韻認識部１０２は、音声入力部１０１から入力された音声信号から音声特徴量を算出する。
音韻認識部１０２は、算出した音声特徴量に基づき、公知の音韻認識方法により利用者の発音を示す音韻を認識し、認識された音韻から構成される音韻列を生成する。音韻認識部１０２は、生成した音韻列を対話処理部１０６に出力する。
対話処理部１０６は、音韻認識部１０２から入力された音韻列と対話応答パターン記憶部２０４から読み出した応答パターン情報に対してマッチング処理を実行して、入力された音韻列に最も合致する応答パターンを決定する。その後、ステップＳ１０８に進む。

（ステップＳ１０８）対話処理部１０６は、決定した応答パターン情報が肯定パターンのうちの一つであるか否かを判断する。対話処理部１０６が、応答パターン情報が肯定パターンのうちの一つ（例えば図１２のＣ８）と判断した場合（ステップＳ１０８Ｙ）、即ち、マッチング部１０４に入力された第２の音韻列が認識結果として正しい場合には、この音韻列を単語記憶部２０５に記憶させる。その後、処理を終了する。
対話処理部１０６が、応答パターン情報が肯定パターンでない（例えば図１２のＣ４）と判断した場合（ステップＳ１０８Ｎ）、即ち、マッチング部１０４に入力された第２の音韻列が認識結果として誤りの場合には、ステップＳ１０９に進む。

（ステップＳ１０９）対話処理部１０６は、カウント回数ｉが繰り返し回数Ｍに達したか否か判断する。対話処理部１０６が、カウント回数ｉが繰り返し回数Ｍに達したと判断した場合（ステップＳ１０９Ｙ）、処理を終了する。対話処理部１０６が、カウント回数ｉが繰り返し回数Ｍに達していない場合（ステップＳ１０９Ｎ）、ステップＳ１１０に進む。
（ステップＳ１１０）対話処理部１０６は、対話応答パターン記憶部２０４から、訂正要求パターンを読み出す。対話処理部１０６は、この訂正要求パターンを訂正要求音韻列として音声再生部１０７に出力する。
音声再生部１０７は、対話処理部１０６から入力された訂正要求音韻列から、公知のテキスト・音声合成技術により音声信号を生成する。音声再生部１０７は、生成した音声信号に基づき音声（例えば図１２のＣ５）を再生する。これにより、利用者に訂正されるべき音韻列を音声で応答することを促すことができる。その後、ステップＳ１１１に進む。

（ステップＳ１１１）音声入力部１０１は、利用者が発した音声（例えば図１２のＣ６）に基づく音声信号が再度入力され、入力された音声信号を音韻認識部１０２に出力する。その後、ステップＳ１１２に進む。
（ステップＳ１１２）音韻認識部１０２は、音声入力部１０１から入力された音声信号から音声特徴量を算出する。音韻認識部１０２は、算出した音声特徴量に基づき、既知の音韻認識方法を用いて音韻を認識し、認識された音韻から構成される音韻列を生成する。音韻認識部１０２は、生成した音韻列と算出した音声特徴量の時系列データからなる音声特徴量ベクトルを対話処理部１０６に出力する。
対話処理部１０６は、音韻認識部１０２から入力された音韻列と対話応答パターン記憶部２０４から読み出した応答パターン情報にマッチング処理を実行して、入力された音韻列に最も合致する応答パターンを決定する。応答パターンが訂正応答パターンと決定されたとき、対話処理部１０６は、訂正応答パターンの≪…≫に対応する、音韻認識部１０２から入力された音韻列の部分を抽出し、この部分を新たな第１の音韻列とする。対話処理部１０６は、新たな第1の音韻列に対応する新たな音声特徴量ベクトルを音韻認識部１０２から入力された音声特徴量ベクトルから抽出する。対話処理部１０６は、新たな第１の音韻列と音声特徴量ベクトルを信頼度算出部１０３に出力する。その後、ステップＳ１１３に進む。

（ステップＳ１１３）信頼度算出部１０３は、対話処理部１０６から第１の音韻列と音声特徴量ベクトルを入力される。
信頼度算出部１０３は、対話処理部１０６から入力された音声特徴量ベクトルｘ_１ ^Ｔに対する確率ｐ（ｘ_１ ^Ｔ）を音素音響モデル記憶部２０１から読み出す。信頼度算出部１０３は、対話処理部１０６から入力された第１の音韻列に含まれる各音韻ｕ_ｍのその音声特徴量の該当部分ｘ_ｓｍ ^ｔｍに対する条件付確率ｐ（ｘ_ｓｍ ^ｔｍ｜ｕ_ｍ）を音素音響モデル記憶部２０１から読み出す。信頼度算出部１０３は、読み出した確率ｐ（ｘ_１ ^Ｔ）及び条件付確率ｐ（ｘ_ｓｍ ^ｔｍ｜ｕ_ｍ）を用いて式（１）に従って信頼度の１つの指標としてＧＰＰを算出する。信頼度算出部１０３は、その音韻列に含まれる音韻ごとに算出したＧＰＰに対応する正解率を正解率記憶部２０２から読み出して信頼度のその他の指標として決定する。信頼度算出部１０３は、第１の音韻列とこれを構成する音韻ごとの正解率をマッチング部１０４に出力する。その後、ステップＳ１１４に進む。

（ステップＳ１１４）マッチング部１０４は、信頼度算出部１０３から第１の音韻列とこれを構成する音韻ごとの正解率が入力される。マッチング部１０４は、第１の音韻列と第２の音韻列について、例えば始終端フリーＤＰマッチング法を用いてマッチング処理を実行する。マッチング部１０４は、マッチング処理において混同行列記憶部２０３から読み出した混同行列情報に基づき算出された累積距離を最小とする第１の音韻列と第２の音韻列との対応関係を示すマッチング情報を生成する。マッチング部１０４は、第１の音韻列、第２の音韻列、生成したマッチング情報及び各音韻列に含まれる音韻ごとの正解率を音韻訂正部１０５に出力する。その後、ステップＳ１１５に進む。

（ステップＳ１１５）音韻訂正部１０５は、マッチング部１０４から入力された第２の音韻列を、第１の音韻列、マッチング情報及び正解率に基づいて訂正して、訂正後の音韻列を決定する。ここで、音韻訂正部１０５は、第１の音韻列に含まれる音韻に対応する第２の音韻列に含まれる音韻が異なる場合には、それらの音韻のうち各々に対応する正解率が高いほうの音韻を、訂正後の音韻列に含まれる音韻と決定する。
音韻訂正部１０５は、第１の音韻列に含まれる音韻に対応する第２の音韻列に含まれる音韻が同一である場合には、その同一の音韻を訂正後の音韻列に含まれる音韻と決定する。また、第２の音韻列に含まれる音韻に対応する第１の音韻列に含まれる音韻が存在しない場合は、音韻訂正部１０５は、第２の音韻列に含まれる音韻を訂正後の音韻列に含まれる音韻と決定する。但し、その第２の音韻列に含まれる音韻に対応する正解率が予め設定された値よりも小さい場合、音韻訂正部１０５は、その音韻を訂正後の音韻列に含めずに除外する。

音韻訂正部１０５は、第２の音韻列に対応する訂正後の音韻列を決定した後、決定した訂正後の音韻列とその音韻列に含まれる音韻ごとの正解率をマッチング部１０４に出力する。マッチング部１０４では、この訂正後の音韻列を新たな第２の音韻列とする。また、音韻訂正部１０５は、この訂正後の音韻列（第２の音韻列）を対話処理部１０６に出力する。その後、ステップＳ１１６に進む。

（ステップＳ１１６）対話処理部１０６は、音韻訂正部１０５から訂正後の音韻列（第２の音韻列）が入力されたことにより、対話応答パターン記憶部２０４から、確認要求パターンを読み出す。対話処理部１０６は、確認要求パターンに訂正後の音韻列を挿入して確認要求音韻列を生成する。対話処理部１０６は、この確認要求音韻列を音声再生部１０７に出力する。
音声再生部１０７は、対話処理部１０６から入力された確認要求音韻列から、公知のテキスト・音声合成方法を用いて、音声信号を生成し、生成した音声信号に基づく音声（例えば図１２のＣ７）を再生する。これにより、利用者に訂正後の音韻列が認識結果として正しいか否かを回答することを促すことができる。その後、ステップＳ１１７に進む。

（ステップＳ１１７）音声入力部１０１は、利用者が回答した音声（例えば図１２のＣ８）に基づく音声信号が入力され、入力された音声信号を音韻認識部１０２に出力する。音韻認識部１０２は、音声入力部１０１から入力された音声信号から音声特徴量を算出する。
音韻認識部１０２は、算出した音声特徴量に基づき、公知の音韻認識方法により利用者の発音を示す音韻を認識し、認識された音韻から構成される音韻列を生成する。音韻認識部１０２は、生成した音韻列と算出した音声特徴量の時系列データである音声特徴量ベクトルを対話処理部１０６に出力する。
対話処理部１０６は、音韻認識部１０２から入力された音韻列と対話応答パターン記憶部２０４から読み出した応答パターン情報にマッチング処理を実行して、入力された音韻列に最も合致する応答パターンを決定する。その後、ステップＳ１１８に進む。
（ステップＳ１１８）対話処理部１０６は、利用者による応答回数をカウントする変数ｉを１だけ増加させる。その後、ステップＳ１０８に進む。

なお、混同行列記憶部２０３に記憶される混同行列情報は、予め記憶された一定の値であってもよいが、これには限られない。訂正後の音韻列が正しいと判断されたとき、マッチング部１０４は、その直前に音韻訂正部１０５による音韻訂正処理に係る各音韻列に含まれる音韻に基づいて、混同行列情報を更新してもよい。
具体的には、マッチング部１０４は、次の処理を実行してもよい。ステップＳ１０８において、対話処理部１０６が、決定した応答パターン情報が肯定パターンのうちの一つと判断した場合（ステップＳ１０８Ｙ）、マッチング部１０４に入力された第２の音韻列、即ち訂正後の音韻列が認識結果として正しいこととなる。従って、マッチング部１０４は、最近実行されたステップＳ１１５（音韻訂正処理）において、第２の音韻列（訂正の対象）に含まれる音韻のうち第１の音韻列（最後に入力された音声に基づく）と共通する音韻を各々発話目的音韻γ及び認識目的音韻αとする混同行列情報の行列要素が示す頻度に１ずつ加算する。マッチング部１０４は、加算された値を、その行列要素の頻度とする。
例えば、第１の音韻列が“φａ”、第２の音韻列が”ｂａ”であるとき、発話目的音韻γ及び認識目的音韻αがともにａである行列要素の値９２２２９に１を加算して９２２３０とする。

上述のように、対話処理部１０６が、決定した応答パターン情報が肯定パターンのうちの一つと判断した場合（ステップＳ１０８Ｙ）、第２の音韻列に含まれる音韻であって、ステップＳ１１５を実行して変更された音韻は、認識結果として誤っていたこととなる。従って、マッチング部１０４は、直前に実行したステップＳ１１５において、第２の音韻列（訂正の対象）に含まれる音韻のうち第１の音韻列（最後に入力された音声に基づく）に含まれる音韻に代わった音韻（正しい認識結果）を発話目的音韻γとし、その訂正前の音韻（認識誤り）を認識目的音韻αとする混同行列情報の行列要素が示す頻度に１ずつ加算する。マッチング部１０４は、加算された値を、その行列要素の頻度とする。
例えば、第１の音韻列が“φａ”、第２の音韻列が”ｂａ”であるとき、発話目的音韻γがｂ及び認識目的音韻αがφである行列要素の値１６９に１を加算して１７０とする。
これにより、発話目的音韻γが認識結果音韻αに認識される頻度を要素とする混同行列情報が、利用者の発話特性や残響などの使用環境に適応し、認識誤りが生じる頻度を低減することができる。さらに、利用者の音声入力による音韻訂正がより円滑に行われる。

上述したように、本実施形態によれば、音声認識装置１と利用者との間で、例えば図１２に示す対話がなされたとき、利用者が入力した音声のみに基づき認識した音韻を訂正することができる。
また、音韻訂正部１０５は、音韻列に含まれる各音韻に対する信頼度に基づいて選択された音韻に訂正するため、信頼性に裏付けられた音韻に訂正することができる。また、音韻訂正部１０５は、音韻列に含まれる音韻に対する正解率が低い場合に、認識誤りと判断するため、正解率の低い音韻に訂正することを回避することができる。

ここで、音声認識装置１を用い、４０個の単語を用いて単語正解率と音韻正解精度を検証した結果について説明する。試行回数は、各単語につき１００回である。単語正解率とは、正しい音韻列が認識された試行回数の全試行回数に対する割合である。音韻正解精度とは、全試行回数における真の音韻数Ｃ_Ｎから置換音韻数Ｃ_Ｓと脱落音韻数Ｃ_Ｄと挿入音韻数Ｃ_Ｉを減じた音韻数の真の音韻数Ｃ_Ｉに対する割合である。
但し、音韻認識部１０２は、母音の長さの修正を行わず、発話目的音韻γ及び認識結果音韻αにおいて長母音と短母音を同一視した。また、混同行列記憶部２０３に記憶される混同行列情報は、予め記憶された一定の値である。

ここで、マッチング部１０４は、第１の音韻列の音韻が認識される音韻ごとの確率に基づいて算出された第２の音韻列との間の距離からマッチング結果を決定するため、認識誤りを考慮したマッチングを実現することができる。
また、対話処理部１０６は、訂正した音韻列に基づく音声を再生し、入力した音声が示す応答に応じて、訂正した音韻列からなる単語情報を記憶するか、発話を促す内容を示す音声を再生させる。そのため、利用者に訂正した音韻列に係る音声による応答を促し、応答により訂正した音韻列からなる単語情報が登録されるか、利用者に再度発話を促すため、利用者の音声のみによる音韻認識誤りの訂正を円滑に実現することができる。

図１４は、音声認識装置１による単語正解率（ｗｏｒｄａｃｃｕｒａｃｙ）と音韻正解精度（ｐｈｏｎｅｍｅａｃｃｕｒａｃｙ）の一例を示す図である。図１４において、縦軸は、単語正解率及び音韻正解精度である。横軸は、訂正発話の回数（ｎｕｍｂｅｒｏｆｃｏｒｒｅｃｔｉｖｅｕｔｔｅｒａｎｃｅｓ）、つまり繰り返し回数Ｍを示す。ここで、訂正発話の回数が多くなるほど、単語正解率、音韻正解精度が向上することが示される。例えば、訂正発話の回数がゼロのとき、単語正解率は８％、音韻正解精度は７０％に過ぎない。訂正発話の回数が１回のとき、単語正解率は４０％、音韻正解精度は８０％である。訂正発話の回数が２回のとき、単語正解率は６０％、音韻正解精度は９０％である。訂正発話の回数が３回のとき、単語正解率は６６％、音韻正解精度は９２％である。この検証結果は、音声認識装置１は、当初は部分的に音韻を正しく認識できるが音韻列全体として正しく認識できない状態であっても、利用者との音声による対話を繰り返すことにより音韻列全体の認識率を向上できることを示す。これにより、音声認識装置１は、利用者と音声のみの対話を実行することにより音韻列が示す未知語を円滑に獲得できることを示す。

（第２の実施形態）
次に、本発明の第２の実施形態について図を参照して説明する。図１５は、本実施形態に係る音声認識ロボット３の構成を示す概略図である。図１５において、音声認識ロボット３は、音声認識装置２の他に、コマンド辞書記憶部２０６、撮影部３０１、画像処理部３０２、動作制御部３０３、動作機構部３０４、及び駆動電力モデル記憶部４０１を含んで構成される。音声認識装置２は、対話処理部１０６に代え対話処理部３０６を有する点で音声認識装置１と異なり、その他の構成及び作用は他の構成部分と共通する。以下、第１の実施形態との差異点を主に説明する。

コマンド辞書記憶部２０６は、操作対象となる物体を示す単語情報とその位置情報を含むロボットコマンド情報を記憶する。コマンド辞書記憶部２０６に記憶されている単語情報の一部又は全部は、単語記憶部２０５に記憶された音韻列を複製したものである。従って、音声認識装置２は、前述の音声認識処理によりロボットコマンド情報を補充することができる。
対話処理部３０６は、音韻認識部１０２から入力された音韻列とコマンド辞書記憶部２０６から読み出した単語情報についてマッチング処理を実行し、入力された音韻列と最も合致する単語情報を決定する。対話処理部３０６は、決定した単語情報に対応するロボットコマンド情報をコマンド辞書記憶部２０６から読み出し、動作制御部３０３に出力する。

駆動電力モデル記憶部４０１には、物体を示す単語情報、位置情報及び動作機構部３０４の一部を構成する機構部に供給する電力の時系列データを対応づけた電力モデル情報を予め記憶しておく。
動作制御部３０３は、対話処理部３０６からロボットコマンド情報が入力される。

動作制御部３０３は、入力されたロボットコマンド情報に含まれる単語情報及び位置情報に対応する電力モデル情報を駆動電力モデル部４０１から読み出し、機構部に供給する電力の時系列データを決定する。動作制御部３０３は、決定した電力の時系列データに基づき、その機構部へ電力を供給する。なお、機構部とは、例えば、マニピュレータ（ｍａｎｉｐｕｌａｔｏｒ）や多指グラスパ（ｍｕｌｔｉ−ｆｉｎｇｅｒｇｒａｓｐｅｒ）である。
動作制御部３０３から電力が供給された部品が動作することにより、その機構部を含んで構成される動作機構部３０４は、利用者が発話した音韻列で示される単語情報を含むロボットコマンドに応じた動作を実行する。

撮影部３０１は、アナログ画像信号を撮影し、撮影したアナログ画像信号を画像処理部３０２に出力する。
画像処理部３０２は、撮影部３０１から入力されたアナログ画像信号をアナログ・ディジタル（Ａ／Ｄ）変換してディジタル画像信号を生成する。
画像処理部３０２は、生成したディジタル画像信号から画像特徴量を算出する。算出される画像特徴量は、例えば、被写体の輪郭（エッジ）である。輪郭を算出するためには、例えば、水平方向及び垂直方向各々に隣接する画素間の画素値の差分値を算出し、算出された差分値の絶対値について、予め設定された周波数以上の成分を除外するようにフィルタリング処理を行う。フィルタリング処理が行われた画像信号のうち、予め設定された所定の値を越える画素の部分を輪郭と決定する。
画像処理部３０２は、算出した画像特徴量を対話処理部３０６に出力する。

対話処理部３０６は、画像処理部３０２から入力された画像特徴量を、音韻認識部１０２から入力された音韻列に対応する単語情報を含むロボットコマンド情報としてコマンド辞書記憶部２０６に記憶する。例えば、利用者が撮影部３０１に被写体を撮影させながら、被写体の名称（単語情報）を発声すると、ロボットコマンド情報の一部として算出した画像特徴量を補充することができる。これにより、利用者が発話した音声だけではなく、撮影された画像をロボットコマンド情報と特定するための手がかりが得られる。

即ち、対話処理部３０６は、音韻列のみならず、画像処理部３０２から入力された画像特徴量が、コマンド辞書記憶部２０６のロボットコマンド情報に含まれる画像特徴量とのマッチング処理を実行する。対話処理部３０６は、例えば、画像処理部３０２から入力された画像特徴量にも最も合致する画像特徴量を含むロボットコマンド情報を決定し、決定したロボットコマンド情報を動作制御部３０３に出力する。

これにより、音声認識ロボット３は、認識誤りが生じうる音声認識だけに頼らず、画像認識によっても状況に適したロボットコマンドを特定できるので、利用者は音声により音声認識ロボット３に最適な動作を指示することができる。

以上、説明したように、本実施形態に係る音声認識ロボット３と利用者との対話を通じ、利用者が入力した音声のみに基づき認識した音韻を訂正することができ、訂正した音韻に基づきロボットコマンドを補充することができる。ひいては、音声認識ロボット３が実現できる機能を容易に拡充することができる。また、画像情報を補充することにより、利用者によるロボットへの動作の指示を最適化することができる。

上述した実施形態は、日本語の音韻、音韻列、要求パターン及び応答パターンを用いるが、これには限定されない。上述した実施形態は、他の言語、例えば英語の音韻、音韻列、要求パターン及び応答パターンを用いることもできる。

なお、上述した実施形態における音声認識装置１及び２の一部、例えば、信頼度算出部１０３、マッチング部１０４、音韻訂正部１０５、対話処理部１０６、３０６、及び画像処理部３０２をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、音声認識装置１並びに２、及び音声認識ロボット３に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における音声認識装置１並びに２、及び音声認識ロボット３の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。音声認識装置１並びに２、及び音声認識ロボット３の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、２…音声認識装置、３…音声認識ロボット、
１０１…音声入力部、１０２…音韻認識部、１０３…信頼度算出部、
１０４…マッチング部、１０５…音韻訂正部、１０６、３０６…対話処理部、
１０７…音声再生部、２０１…音素音響モデル記憶部、２０２…正解率記憶部、
２０３…混同行列記憶部、２０４…対話応答パターン記憶部、２０５…単語記憶部、
２０６…コマンド辞書記憶部、３０１…撮影部、３０２…画像処理部、
３０３…動作制御部、３０４…動作機構部、４０１…駆動電力モデル記憶部

Claims

音声を入力する音声入力部と、
入力された音声の音韻を認識して音韻列を生成する音韻認識部と、
前記音韻列の一部である認識対象の第１の音韻列と元発話を示す第２の音韻列とをマッチングを行うマッチング部と、
前記マッチングを行った結果に基づき前記第２の音韻列の音韻を訂正する音韻訂正部と、
音声を再生する音声再生部と、
所定の音韻列を含む応答パターンを記憶する対話応答パターン記憶部と、
対話処理部と、
を備え、
前記応答パターンには、訂正後の第２の音韻列の正否について音声による回答を促すメッセージを示す確認要求パターンと、訂正後の第２の音韻列が誤っていることを示す否定パターンと、訂正後の第２の音韻列が正しいことを示す肯定パターンと、前記第１の音韻列を所定の部分に含むように音声による回答を促すメッセージを示す訂正要求パターンと、が含まれ、
前記対話処理部は、
前記音韻認識部がその後認識した音韻列が、前記肯定パターンに対応する場合、前記訂正後の第２の音韻列からなる単語情報を単語記憶部に記憶させ、
前記訂正後の第２の音韻列と前記確認要求パターンに基づく音声を前記音声再生部に再生させ、
前記音韻認識部がその後認識した音韻列が、前記否定パターンに対応する場合、前記訂正要求パターンが示す訂正要求音韻列に基づく音声を前記音声再生部に再生させ、
前記音韻認識部がさらにその後認識した音韻列から前記訂正要求パターンの所定の部分から前記第１の音韻列を抽出する
ことを特徴とする音声認識装置。
前記音韻訂正部は、
前記第１の音韻列に含まれる音韻に対する信頼度と、当該音韻に対応する第２の音韻列に含まれる音韻に対する信頼度とに基づいて選択された音韻に訂正すること、
を特徴とする請求項１に記載の音声認識装置。
前記音韻訂正部は、
前記信頼度に基づく正解率が予め設定された値よりも低い場合、認識誤りと判断すること、
を特徴とする請求項２に記載の音声認識装置。
前記マッチング部は、
入力音声に含まれる音韻の種別と認識される音韻の種別の組ごとの頻度に基づき
前記第１の音韻列の音韻と前記第２の音韻列の音韻との間の距離を算出し
前記距離に基づきマッチング結果を決定すること、
を特徴とする請求項１に記載の音声認識装置。
音声認識装置における音声認識方法において、
前記音声認識装置が、音声を入力する第１の過程と、
前記音声認識装置が、入力された音声の音韻を認識して音韻列を生成する第２の過程と、
前記音声認識装置が、前記音韻列の一部である認識対象の第１の音韻列と元発話を示す第２の音韻列とをマッチングを行う第３の過程と、
前記音声認識装置が、前記マッチングを行った結果に基づき前記第２の音韻列の音韻を訂正する第４の過程と、
音声を再生する第５の過程と、
第６の過程と、を有し、
対話応答パターン記憶部には所定の音韻列を含む応答パターンが記憶され、前記応答パターンには、訂正後の第２の音韻列の正否について音声による回答を促すメッセージを示す確認要求パターンと、訂正後の第２の音韻列が誤っていることを示す否定パターンと、訂正後の第２の音韻列が正しいことを示す肯定パターンと、前記第１の音韻列を所定の部分に含むように音声による回答を促すメッセージを示す訂正要求パターンと、が含まれ、
前記第６の過程は、
前記第２の過程をその後実行して認識された音韻列が、前記肯定パターンに対応する場合、前記訂正後の第２の音韻列からなる単語情報を単語記憶部に記憶し、
前記訂正後の第２の音韻列と前記確認要求パターンに基づく音声を再生し、
前記第２の過程をその後実行して認識された音韻列が、前記否定パターンに対応する場合、前記訂正要求パターンが示す訂正要求音韻列に基づく音声を再生し、
前記第２の過程をさらにその後実行して認識された音韻列から前記訂正要求パターンの所定の部分から前記第１の音韻列を抽出する
ことを特徴とする音声認識方法。
音声を入力する音声入力部と、
入力された音声の音韻を認識して音韻列を生成する音韻認識部と、
前記音韻列の一部である認識対象の第１の音韻列と元発話を示す第２の音韻列とをマッチングを行うマッチング部と、
前記マッチングを行った結果に基づき前記第２の音韻列の音韻を訂正する音韻訂正部と、
音声を再生する音声再生部と、
所定の音韻列を含む応答パターンを記憶する対話応答パターン記憶部と、
対話処理部と、
を備え、
前記応答パターンには、訂正後の第２の音韻列の正否について音声による回答を促すメッセージを示す確認要求パターンと、訂正後の第２の音韻列が誤っていることを示す否定パターンと、訂正後の第２の音韻列が正しいことを示す肯定パターンと、前記第１の音韻列を所定の部分に含むように音声による回答を促すメッセージを示す訂正要求パターンと、が含まれ、
前記対話処理部は、
前記音韻認識部がその後認識した音韻列が、前記肯定パターンに対応する場合、前記訂正後の第２の音韻列からなる単語情報を単語記憶部に記憶させ、
前記訂正後の第２の音韻列と前記確認要求パターンに基づく音声を前記音声再生部に再生させ、
前記音韻認識部がその後認識した音韻列が、前記否定パターンに対応する場合、前記訂正要求パターンが示す訂正要求音韻列に基づく音声を前記音声再生部に再生させ、
前記音韻認識部がさらにその後認識した音韻列から前記訂正要求パターンの所定の部分から前記第１の音韻列を抽出する
ことを特徴とする音声認識ロボット。