JP4786384B2

JP4786384B2 - 音声処理装置、音声処理方法および音声処理プログラム

Info

Publication number: JP4786384B2
Application number: JP2006086513A
Authority: JP
Inventors: 和範井本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-03-27
Filing date: 2006-03-27
Publication date: 2011-10-05
Anticipated expiration: 2026-03-27
Also published as: JP2007264126A; US20070225975A1; US7949523B2; CN101046960A

Description

この発明は、発話された音声を処理し人間同士の意思疎通を支援する音声処理装置、音声処理方法および音声処理プログラムに関するものである。

近年、音声認識や音声合成などの音声処理技術や機械翻訳などの言語処理技術の研究が盛んに行われている。また、音声処理と言語処理を連携させた音声翻訳などの音声言語処理技術も盛んに研究されている。音声翻訳を現実世界で利用するためには多くの問題を解決する必要があるが、言葉の通じない者同士の意思疎通を支援する技術として音声翻訳技術に対する期待は高い。利用場面を適切に制限することや、ユーザの協力を引き出して技術的な課題をカバーすることで実用化に至っている製品も存在する。

音声翻訳技術の性能は今後さらに高くなると期待されるが、「どのような場面でも常に正しく双方の言葉を翻訳する」という究極の目標を実現するのは容易ではない。音声翻訳を構成する音声認識をひとつ取り上げてみても、ユーザの発話内容をあらゆる利用環境で頑健に認識するのは容易ではない。

現状のように常に正しい翻訳結果が得られるという保証がない中で、音声翻訳を実用レベルの技術にするには、翻訳結果に誤りが生じ、相手の発話内容が理解できない場合にも効率よく誤りを修正できることが重要である。

人間同士のコミュニケーションを鑑みても、周りがうるさいために相手の言葉がうまく聞き取れない場合や、相手の言葉が一部理解できない場合には、再度発話を依頼する、相手に言葉の意味を確認するなどのやり取りを通して誤りを補完している。したがって、音声翻訳技術を実用レベルに引き上げるためには、音声翻訳技術を構成する各技術の性能を高めることはもちろんのこと、効率よく修正するためのインタフェースを組み込むことが重要と考えられる。

相手の発話内容が理解できない場合に、誤りを修正する最も単純な方法として、発声者に再度発話を促す方法が考えられる。これは、音声翻訳で発生した誤りの種類に関係なく対話相手が理解できなかったことを発声者に伝える最も確実な方法といえる。

この方法では、対話相手が発話の一部を理解できた場合であっても、全ての発話内容を再度発話させるため効率が悪い。また、正しく翻訳できなかった原因を相手に伝えることができないため、再度発話しても同じ誤りが繰り返され、会話が破綻する危険性がある。

これに対して、翻訳結果の中から理解できない部分を対話相手に選択させる技術が提案されている。また、理解できなかった理由の候補を提示し、候補の中から対話相手に選択させる技術が提案されている。

このような技術によれば、発話全体ではなく、理解できない部分のみを対話相手が指摘することができるため、発声者は指摘された部分のみを発話して誤りを修正することができ、効率的に会話を進めることが可能となる。また予測できる範囲で理解できなかった原因を対話相手に選択させることができるため、同じ誤りを繰り返す可能性が低減される。

ところが、翻訳結果が理解できない原因は多岐にわたって存在しており、その中から対話相手が指摘できる原因はごく一部に限られる。具体的には、翻訳結果が理解できない原因としては、発話内容を正しく翻訳できているが対話相手側の知識不足や発話内容そのものに誤りが存在するなど発声者または対話相手に起因するものと、音声認識や機械翻訳など音声翻訳技術を構成する各技術で生じる誤りに起因するものに大別される。

後者は、機械翻訳に関しては、多義語の解釈や構文解析時の誤りなどに細分化され、音声認識に関しては、未知語などの言語的な誤り、話し方（発話速度、声の大きさなど）、使用環境（雑音の有無など）などの音響的な誤りなどに細分化される。

このような誤り要因のうち、例えば発声者の話し方の問題を、相手の言語を理解することができない対話相手が指摘することは困難である。したがって、対話相手が指摘できるのは、対話相手の知識不足や多義語の解釈の誤りなどごく一部に限られる。特に音声認識の音響的な誤りに問題がある場合には、発声者自身も誤りに気づくことが難しいため、同じ誤りを繰り返す危険性が高い。

これに対して、声の大きさや周辺環境など音声認識性能に影響を与える要因を検出して発声者にフィードバックする技術が提案されている（例えば、特許文献２）。特許文献２のように、ロボットに代表される機械と人間との対話では、機械と人間という非対等な対話が行われていること、機械に対する発声者は通常一人であること、発声者が同時に機械の使用者であることなどの条件がそろうため発声者へのフィードバックが短期的にも長期的にも有効に機能する。

特開２００３−２９７７９号公報特開２００３−３３０４９１号公報

しかしながら、特許文献２の方法では、人と人との会話を支援する技術のように、機械を所有していない者を含む複数のユーザが操作することを想定しておらず、一律発声者にフィードバックを返すため、誤りをうまく修正できない場合があるという問題があった。

例えば、音声処理装置の所有者ではない者が発声者となったとき、発声者に装置の設定変更を指示するフィードバックを返したとしても、当該発声者は装置の操作に不慣れなため対応することができない。

これは、人と人とのコミュニケーションを支援するために音声認識を利用する場合、すなわち機械を介して人と人とが意思疎通を行う場合には、対話を行う人間同士は基本的に対等な立場であり、発声者が機械の所有者であるという仮定が成り立たないために生じる問題である。

本発明は、上記に鑑みてなされたものであって、音声認識の誤りの要因を検出して、誤り要因に応じて対処するユーザを切り分けることができる音声処理装置、音声処理方法および音声処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、音声の入力を受付ける入力受付手段と、前記入力受付手段が受付けた前記音声を認識する音声認識手段と、前記音声認識手段が前記音声を認識した際に発生した誤り要因を検出する誤り要因検出手段と、音声認識の誤り要因と、音声認識で誤りが発生したときの応答方法と、前記入力受付手段が受付けた音声を発話したユーザを表す第１ユーザおよび前記入力受付手段が受付けた音声を発話していないユーザを表す第２ユーザのいずれかを表す応答ユーザとを対応づけた規則を格納する規則記憶手段と、前記誤り要因検出手段が検出した前記誤り要因に対応づけられた前記応答方法を前記規則記憶手段から選択する応答方法選択手段と、前記誤り要因検出手段が検出した前記誤り要因に対応づけられた前記応答ユーザを前記規則記憶手段から選択する応答ユーザ選択手段と、前記応答ユーザ選択手段が選択した前記応答ユーザに対して、前記応答方法選択手段が選択した前記応答方法により前記応答を実行する応答実行手段と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる音声処理方法および音声処理プログラムである。

本発明によれば、発話の音響的な誤り要因を検出し、誤り要因の内容に応じて対処可能なユーザにフィードバックを返すように応答ユーザを切り替えることができる。このため、ユーザは誤り要因を把握することができ、同じ失敗によって会話が破綻する危険を回避することができるとともに、対応可能なユーザにのみフィードバックを返すことで無駄なやり取りを削減することができ、円滑に会話を進めることができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる音声処理装置、音声処理方法および音声処理プログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる音声処理装置は、音声処理対象の発話の音響的な誤り要因を検出し、誤り要因の内容に応じて応答ユーザを切り替えるものである。

図１は、第１の実施の形態にかかる音声処理装置１００の構成を示すブロック図である。同図に示すように、音声処理装置１００は、入力受付部１０１と、音声認識部１０２と、誤り要因検出部１０３と、解決手段決定部１０４と、応答ユーザ選択部１０５と、応答実行部１０６と、表示部１１０と、音声入力部１２１と、通信部１２２と、記憶部１３０とを備えている。

表示部１１０は、表示画面に音声処理結果、不具合発生時の応答方法を表すメッセージなどを表示するものである。表示部１１０に表示する表示画面の例については後述する。

音声入力部１２１は、入力された音声を電気信号（音声データ）に変換し、音声データを入力受付部１０１に出力するものである。音声入力部１２１は、一般的に用いられているマイクロフォンなどにより実現することができる。

通信部１２２は、外部装置（図示せず）から送信された音声データを受信し、入力受付部１０１に出力するものである。なお、音声処理装置１００は、音声データを入力するための構成として、音声入力部１２１と通信部１２２とのうち少なくとも一方が備えられていればよい。

記憶部１３０は、検出した誤り要因に対応する応答ユーザ、応答方法を選択するための規則を定めた規則テーブル１３１を格納するものであり、ＨＤＤ（hard disk drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

図２は、規則テーブル１３１のデータ構造の一例を示す説明図である。同図に示すように、規則テーブル１３１は、要因種別と、検出する誤り要因と、応答ユーザと、応答例とを対応づけて格納している。

要因種別とは、検出する誤り要因を分類する情報であり、発話速度、声の大きさ、雑音などを指定する。このように、本実施の形態では、音声認識の不具合に影響を与える要因として、発話の音響的な情報を誤り要因として指定する。

検出する誤り要因には、例えば、要因種別が発話速度の場合、発話全体の発話速度が速いまたは遅いことを要因として検出することを指定する。

応答ユーザには、誤り要因を解消するための応答の対象となるユーザ、すなわち、誤り要因を解消するための解決手段を提示すべきユーザを指定する。本実施の形態では入力受付部１０１に音声を入力した発声者または認識結果が提示される対話相手の中から、解決手段に従って不具合を解消するのに適したユーザを指定する。

なお、音声処理装置１００自身が応答を実行する場合は、音声処理装置１００自身を応答ユーザとして指定する。同図では、発話を行った発声者自身に応答を返すことを示す「発声者」、または、音声処理装置１００を所有する「所有者」を指定した例が示されている。

応答例には、応答ユーザに提示する応答の内容を示した情報を指定する。例えば、同図に示すように、発話全体の速度が速いという誤り要因に対しては、「ゆっくりと話して下さい」を意味するメッセージを提示するという応答例を指定する。なお、同図では、ユーザが応答を実行することを前提としたメッセージを応答例とした例が示されているが、音声処理装置１００自身が音量調整を実行するという応答例を設定してもよい。この場合、応答ユーザには音声処理装置１００自身を表す情報を設定する。

なお、規則テーブル１３１に格納する規則は、必要に応じて外部の情報処理装置（図示せず）などから読み込むように構成してもよい。

入力受付部１０１は、音声入力部１２１などから入力された音声データの入力を受付けるものである。また、入力受付部１０１は、受付けた音声データを、音声認識部１０２、誤り要因検出部１０３へと渡す。

なお、入力受付部１０１は、外部の情報処理装置（図示せず）から通信部１２２を介して音声データを受信し、受信した音声データの入力を受付けるように構成してもよい。この場合、必要に応じて外部の情報処理装置で暗号化された音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行うように構成してもよい。

音声認識部１０２は、入力受付部１０１から渡された音声データを分析して認識に必要な特徴量を抽出し、事前に学習した辞書を参照して音響的に最も類似する単語または単語系列を認識結果として解決手段決定部１０４に出力する。また、音声認識部１０２は、入力された音声データのうち発声者が発声した区間を表す発声区間情報を検出し、誤り要因検出部１０３に出力する。発声区間情報は誤り要因検出部１０３が発話速度等を算出する際に参照される。

なお、音声認識部１０２の音声認識処理では、隠れマルコフモデル、ニューラルネットワーク、ＤＰ（Dynamic Programming）マッチングなどの従来から用いられているあらゆる方法を利用することができる。

誤り要因検出部１０３は、入力受付部１０１から渡された音声データを分析して、音声認識の性能に影響を与える要素を誤り要因として検出し、検出された誤り要因を解決手段決定部１０４に出力するものである。音声認識の性能に影響を与える要素とは、例えば、発話場所の周辺で観測される音環境、発声者の発声スタイルなどが該当する。

音環境としては、街頭での自動車走行音やオフィスでのキーボード音など、音声処理装置１００を使用する環境の背景で継続的または突発的に観測される雑音が例として挙げられる。また、発声スタイルとしては、発声の末尾で声の大きさが小さい、発話速度が大きいなどが例として挙げられる。

後述するように、本実施の形態では、誤り要因検出部１０３は、誤り要因として発話速度、声の大きさ、雑音を検出する。

解決手段決定部１０４は、誤り要因検出部１０３が誤り要因を検出した場合に、当該誤り要因に対応する解決手段を決定し、応答ユーザ選択部１０５および応答実行部１０６に出力するものである。

具体的には、解決手段決定部１０４は、誤り要因検出部１０３が検出した誤り要因に対応する応答例を、規則テーブル１３１から取得し、取得した応答例が表す応答方法を解決手段として決定する。

応答ユーザ選択部１０５は、解決手段決定部１０４が決定した解決手段を提示すべきユーザを選択するものである。具体的には、応答ユーザ選択部１０５は、誤り要因検出部１０３が検出した誤り要因に対応する応答ユーザを、規則テーブル１３１から取得し、取得した応答ユーザを、解決手段を提示すべきユーザとして選択する。

応答実行部１０６は、解決手段決定部１０４で決定された解決手段を、応答ユーザ選択部１０５で選択された応答ユーザに提示することにより、応答を実行するものである。応答は、問題を解決するための指示である応答例を応答ユーザが理解できる言語で表示画面にテキスト表示することにより実行する。

なお、応答の方法はこれに限られるものではなく、テキストを音声合成し、合成音を再生することにより解決手段を提示するように構成してもよい。また、このようにユーザに指示を与える受動的な方法以外にも、音声処理装置１００自身が音声認識の設定を変更するなどの能動的な方法により応答を実行するように構成してもよい。

次に、このように構成された第１の実施の形態にかかる音声処理装置１００による音声処理について説明する。図３は、第１の実施の形態における音声処理の全体の流れを示すフローチャートである。

まず、入力受付部１０１が、ユーザが発話した音声の入力を受付ける（ステップＳ３０１）。次に、音声認識部１０２が、受付けた音声に対して音声認識処理を実行する（ステップＳ３０２）。音声認識処理では、上述のように、ＨＭＭ、ニューラルネットワーク、ＤＰマッチングなどの、一般的に利用されているあらゆる音声認識方法を適用することができる。

次に、誤り要因検出部１０３が、誤り要因検出処理を実行する（ステップＳ３０３）。誤り要因検出処理の詳細については後述する。

次に、誤り要因検出部１０３が、誤り要因が検出されたか否かを判断し（ステップＳ３０４）、検出された場合は（ステップＳ３０４：ＹＥＳ）、解決手段決定部１０４が、誤り要因に対応する解決手段を規則テーブル１３１から取得する（ステップＳ３０５）。例えば、誤り要因として要因種別が「声の大きさ」の要因のうち、「発話全体の声が大きい」という要因が検出された場合、解決手段決定部１０４は、図２のような規則テーブル１３１から、「音量調整をして下さい」を意味する応答例を解決手段として決定する。

次に、応答ユーザ選択部１０５が、誤り要因に対応する応答ユーザを規則テーブル１３１から取得する（ステップＳ３０６）。例えば、誤り要因として「発話全体の声が大きい」という要因が検出された場合、応答ユーザ選択部１０５は、図２のような規則テーブル１３１から、「所有者」を応答ユーザとして選択する。

このように、本実施の形態では、発声者だけでなく、機器の所有者を応答ユーザとして指定可能としている。すなわち、応答ユーザ選択部１０５は、誤り要因の内容に応じて対処可能なユーザにフィードバックを返すように応答ユーザを切り替えることができる。これは、人間同士の会話支援を目的とした音声処理装置１００では、発声者が機器を使い慣れた機器の所有者であるとは限らないため、発声者に「音量を調整して下さい」を意味する指示を出しても対応できない場合を考慮したものである。

次に、応答実行部１０６が、取得した応答ユーザに対して、解決手段で示された応答を実行し（ステップＳ３０７）、音声処理を終了する。例えば、誤り要因として「発話全体の声が大きい」という要因が検出された場合、応答実行部１０６は、「音量調整をして下さい」を意味するメッセージを表示画面に表示するような応答を実行する。

ステップＳ３０４で、誤り要因検出部１０３が、誤り要因が検出されないと判断した場合は（ステップＳ３０４：ＮＯ）、応答実行部１０６は、音声認識結果を出力し（ステップＳ３０８）、音声処理を終了する。

次に、ステップＳ３０３の誤り要因検出処理の詳細について説明する。図４は、誤り要因検出処理の全体の流れを示すフローチャートである。

誤り要因検出処理では、誤り要因検出部１０３は、音響的な情報として発話速度、声の大きさ（発話音量）、雑音を算出し、算出した情報をもとに誤り要因を検出する。

そこで、誤り要因検出部１０３は、まず、発声者の発話の発話速度を算出する発話速度算出処理（ステップＳ４０１）を実行する。次に、誤り要因検出部１０３は、発声者の発話の音量を算出する発話音量算出処理（ステップＳ４０２）を実行する。続いて、誤り要因検出部１０３は、発話の背景に存在する雑音を検出する雑音検出処理（ステップＳ４０３）を実行する。

なお、これらの実行順序は変更してもよい。発話速度算出処理、発話音量算出処理、雑音検出処理の詳細については後述する。

ステップＳ４０１からステップＳ４０３で、発話速度、発話音量、雑音を算出または検出した後、誤り要因検出部１０３は、規則テーブル１３１を参照し、発話速度に関する誤り要因を検出する（ステップＳ４０４）。

例えば、誤り要因検出部１０３は、発話速度算出処理で算出した発話速度と、予め定められた発話速度の最大値を表す閾値とを比較し、最大値より大きい場合には、発話速度が速いことを誤り要因として検出する。また、誤り要因検出部１０３は、発話速度と、予め定められた発話速度の最小値を表す閾値とを比較し、最小値より小さい場合には、発話速度が遅いことを誤り要因として検出する。

ここで、発話速度の閾値の設定方法について説明する。図５は、発話速度の分布の一例を示す説明図である。発話速度の閾値の設定方法としては、同図に示すような発話速度分布を事前に取得し、出現頻度が一定値以下となる発話速度を閾値として設定する方法を用いる。なお、同図に示すような発話速度分布は、例えば、事前に音声認識のモデルを学習する際に利用した音声データから取得することができる。

また、発話速度の閾値の設定方法はこれに限られるものではなく、音声認識の不具合に影響するか否かの境界となりうる閾値を設定する方法であれば、あらゆる方法を適用することができる。例えば、事前に発話速度と音声認識性能の関係が調査しておき、認識性能が一定値以下となる発話速度を閾値に設定してもよい。

また、上記例では発声区間全体の発話速度についての誤り要因について述べたが、発声区間を分割し、分割した区間ごとに発話速度を算出するように構成すれば、例えば、「文末の発話速度が速い」などのように発話の一部について誤り要因を検出することも可能である。

さらに、本実施の形態では発話速度による不具合の有無を閾値で決定的に判断する方法を説明したが、発話速度を要因とする音声認識の不具合の判定方法はこれに限られるものではなく、既存のあらゆる手法を利用することができる。

次に、誤り要因検出部１０３は、規則テーブル１３１を参照し、声の大きさに関する誤り要因を検出する（ステップＳ４０５）。

この場合も発話速度と同様に、予め定められた声の大きさの最大値および最小値を表す２つの閾値とを比較し、それぞれ各閾値より大きいまたは小さい場合に、声が大きいまたは小さいことを誤り要因として検出する。なお、声の大きさを表す情報としては、フレームごとのパワーの平均値である平均パワーまたはフレームごとのパワーの最大値である最大パワーを用いる。

閾値の設定方法としては、音声入力部１２１の指向性などの特性に合わせて設定する方法を適用する。なお、声の大きさの閾値の設定方法はこれに限られるものではなく、音声認識の不具合に影響するか否かの境界となりうる閾値を設定する方法であれば、あらゆる方法を適用することができる。例えば、事前にパワーと音声認識性能の関係が調査しておき、認識性能が一定値以下となるパワーを閾値に設定してもよい。

また、発声区間を分割し、分割した区間ごとに声の大きさを算出するように構成し、発話の一部について誤り要因を検出してもよい。

次に、誤り要因検出部１０３は、規則テーブル１３１を参照し、雑音に関する誤り要因を検出する（ステップＳ４０６）。雑音が存在するか否かはステップＳ４０４の雑音検出処理で判断できるため、ここでは、検出した雑音を誤り要因として検出するか否かを、規則テーブル１３１を参照して決定する。図２では、発話全体の背景雑音（定常雑音）、発話の一部の突発雑音ともに誤り要因として検出する例が示されている。

このように、誤り要因検出部１０３によって、発話速度、声の大きさ、雑音など対話相手が判断するのは難しい誤り要因を検出することが可能となる。

次に、ステップＳ４０１の発話速度算出処理の詳細について説明する。まず、発話速度算出処理の概念について説明する。

近年の音声認識では大量の発声データから学習した統計的な音響モデルを参照して探索するが、学習に用いた発声データの発話速度分布から大きく外れた発声はモデルとのマッチングに失敗し、正しい認識結果が得られないという問題がある。この問題を根本的に解決するには、より幅広い発話速度で発声された音声データを学習してモデルを構築する方法が考えられる。しかし、このためには大量の音声データを収集する必要がある。

モデルを新たに構築せずにこの問題を解決する方法としては、発声全体または発声の一部の発話速度を測定して、発話速度が極端に大きいまたは小さい発声区間については発話速度が不適切であることをユーザに提示して、当該区間を再度発声するよう誘導する方法が考えられる。

本実施の形態では後者のアプローチを取る。発話速度を算出するためには、（１）音声データから発話区間を検出し、（２）発声区間ごとの発話速度を測定することが必要となる。

発声区間の検出（１）に関しては、音声認識部１０２で検出された発声区間情報を利用すればよい。発話速度の測定（２）に関しては、１００％正確な音声認識結果が得られる場合には、音声認識結果から発声区間に含まれる音素または音節数を取り出して発声区間長で割る単位時間あたりの音素（音節）数を利用することができる。

しかし１００％正確な音声認識結果を得ることは容易ではなく、また、認識結果に不具合が生じる発声速度を検出することが目的なので、認識誤りに対しても頑健に発話速度を測定する必要がある。

本実施の形態では、認識誤りに頑健な手法の一例として、母音または子音を識別して発話速度を推定する手法を用いる。この方法は、詳細な音素の識別に比べて容易な母音・子音の２クラスの識別を行うことで、検出された母音数から近似的に発声区間の音素（音節）数を算出する方法である。日本語では、基本的に母音と子音とをペアとしたモーラが単位として存在し、英語など外国語でも音節は母音を核として構成されるので、おおよその発話速度を測定するには母音数で音節数を近似しても問題はない。

以下に、上述のような手法による発話速度算出処理の詳細について説明する。図６は、発話速度算出処理の全体の流れを示すフローチャートである。

まず、誤り要因検出部１０３は、発声区間をフレーム単位に分割するとともに（ステップＳ６０１）、発声区間長を取得する（ステップＳ６０２）。なお、発声区間は、上述のように音声認識部１０２で検出された発声区間情報を利用することができる。また、フレームは、発話速度の算出に適した長さで分割する。本実施の形態では、フレーム周期１０ｍｓ、フレーム長２５ｍｓとして発声区間を分割する。

次に、誤り要因検出部１０３は、母音数を０、直前クラスを「子音区間」に初期化する（ステップＳ６０３）。なお、直前クラスとは、直前フレームで「母音」か「子音」かを判定した結果を格納する情報であり、「母音区間」または「子音区間」が設定される。

次に、誤り要因検出部１０３は、分割した各フレームについて、フレーム単位で音声データを分析して音響特徴を抽出する（ステップＳ６０４）。本実施の形態では、音響特徴の抽出方法として、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient：メル周波数ケプストラム係数）を採用する。ＭＦＣＣは、フーリエ変換を施してスペクトル化した音声データをメルスケールの帯域フィルタ群に通し、対数変換した値を逆フーリエ変換することで得ることができる。

なお、音響特徴はＭＦＣＣに限られるものではなく、発話速度の算出に用いることのできるものであれば、あらゆる音響特徴を利用することができる。

次に、誤り要因検出部１０３は、抽出したＭＦＣＣと、母音標準パターンとの距離を計算する（ステップＳ６０５）。母音標準パターンは、大量の音声データから事前に学習して作成したパターンを利用する。距離の計算方法は、従来から用いられているあらゆる方法を適用できる。

次に、誤り要因検出部１０３は、対象フレームは母音区間か否かを判断する（ステップＳ６０６）。具体的には、誤り要因検出部１０３は、母音と子音とを区別するための閾値を予め設定しておき、閾値未満ならば母音区間、閾値以上なら子音区間と判断する。

母音区間であると判断された場合は（ステップＳ６０６：ＹＥＳ）、誤り要因検出部１０３は、直前クラスが母音区間か否かを判断する（ステップＳ６０７）。

直前クラスが母音区間でないと判断した場合は（ステップＳ６０７：ＮＯ）、誤り要因検出部１０３は、母音数に１を加算する（ステップＳ６０８）。母音の先頭区間を検出したと判断できるためである。

ステップＳ６０８で母音数に１を加算した後、または、ステップＳ６０７で直前クラスが母音区間であると判断した場合は（ステップＳ６０７：ＹＥＳ）、誤り要因検出部１０３は、直前クラスに母音区間を格納する（ステップＳ６０９）。

ステップＳ６０７で直前クラスが母音区間であると判断した場合に母音数を加算しないのは、継続する母音区間の途中であると判断できるためである。

ステップＳ６０６で、対象フレームは母音区間でないと判断された場合は（ステップＳ６０６：ＮＯ）、誤り要因検出部１０３は、直前クラスに子音区間を格納する（ステップＳ６１０）。
次に、誤り要因検出部１０３は、すべてのフレームを処理したか否かを判断し（ステップＳ６１１）、すべてのフレームを処理していない場合は（ステップＳ６１１：ＮＯ）、次のフレームの音響特徴を抽出して処理を繰り返す（ステップＳ６０４）。

すべてのフレームを処理した場合は（ステップＳ６１１：ＹＥＳ）、誤り要因検出部１０３は、母音数と発声区間長から発話速度を算出し（ステップＳ６１２）、発話速度算出処理を終了する。

なお、誤り要因検出部１０３は、母音数を発声区間長で除算することにより求められる単位時間当りの母音数を発話速度として算出する。また、本実施の形態では、母音・子音を判定し発話速度を算出する方法を説明したが、発話速度の算出手法はこれに限られるものではなく、既存のあらゆる手法を利用することができる。

次に、ステップＳ４０２の発話音量算出処理の詳細について説明する。まず、発話音量算出処理の概念について説明する。

発話音量（声の大きさ）によって音声認識に不具合が発生する例としては、図２に示すように発声全体が大きい（小さい）または発声の一部が大きい（小さい）ことが挙げられる。

入力受付部１０１が想定するダイナミックレンジ以上の発声が入力された場合、音声データは丸め込まれる。丸め込まれた音声データは歪みを持つために、学習した音響モデルとのマッチングが正しく取れずに認識誤りを引き起こす要因となる。

逆に、装置から離れた場所から発声された発話や非常に小さな発声を含む発話では、想定よりも小さなダイナミックレンジで音声データが入力される。ダイナミックレンジが小さい音声データは音素の識別に必要な情報が欠落しているため、学習した音響モデルとのマッチングが正しく取れずに認識誤りを引き起こす要因となる。

この問題を解決する方法としては、入力受付部１０１に入力される音声の音量を使用環境に合わせて事前に調整する方法や、発声途中に動的に修正する方法などが考えられる。例えば、業務レポートの作成をオフィスのような静かな環境で行う場合には、環境の変化も少なく話者も固定されているため、事前に調整する方法を適用可能である。またヘッドセットマイクを利用すれば、マイクと発声者の口との距離が予測できるために動的な調整も可能である。

しかし、例えば、端末を手に市街地で他者と意思疎通を図る場合などのように、より幅広い実環境で音声処理装置１００を利用する場合には、事前に音量の調整を行うことは容易ではない。またマイクと発声者の距離も固定されないため動的に音量を調整することも容易ではない。

事前の調整または動的な調整以外の解決策としては、発声全体または発声の一部のパワーを測定して、パワーが極端に大きいまたは小さい発声区間については声の大きさが不適切であることをユーザに提示して、当該区間を再度発声するよう誘導する方法が考えられる。

本実施の形態では後者のアプローチを取る。声の大きさを算出するためには、（１）音声データから発声区間を検出し、（２）発声区間ごとのパワーを測定することが必要となる。発声区間の検出（１）に関しては、音声認識部１０２で検出された発声区間情報を利用すればよい。

以下に、上述のような手法による発話音量算出処理の詳細について説明する。図７は、発話音量算出処理の全体の流れを示すフローチャートである。

まず、誤り要因検出部１０３は、発声区間をフレーム単位に分割するとともに（ステップＳ７０１）、発声区間のフレーム数Ｎｆを取得する（ステップＳ７０２）。なお、発声区間は、上述のように音声認識部１０２で検出された発声区間情報を利用することができる。また、フレームは、パワーの算出に適した長さで分割する。本実施の形態では、フレーム周期１０ｍｓ、フレーム長２５ｍｓとして発声区間を分割する。

次に、誤り要因検出部１０３は、累積パワーＰａと、最大パワーＰｘとを０に初期化する（ステップＳ７０３）。

次に、誤り要因検出部１０３は、フレーム単位でパワーＰｔを算出する（ステップＳ７０４）。パワーの算出方法としては、ＦＦＴ（Fast Fourier Transform：高速フーリエ変換）を用いた音声データのパワー算出方法などの従来から用いられているあらゆる方法を適用することができる。

次に、誤り要因検出部１０３は、累積パワーＰａに、算出したパワーＰｔを加算する（ステップＳ７０５）。続いて、誤り要因検出部１０３は、パワーＰｔが、最大パワーＰｘより大きいか否かを判断する（ステップＳ７０６）。

パワーＰｔが最大パワーＰｘより大きい場合は（ステップＳ７０６：ＹＥＳ）、誤り要因検出部１０３は、最大パワーＰｘをパワーＰｔで更新する（ステップＳ７０７）。

最大パワーＰｘを更新後、またはステップＳ７０６で、パワーＰｔが最大パワーＰｘより大きくないと判断した場合（ステップＳ７０６：ＮＯ）、誤り要因検出部１０３は、すべてのフレームを処理したか否かを判断する（ステップＳ７０８）。

すべてのフレームを処理していない場合は（ステップＳ７０８：ＮＯ）、次のフレームのパワーを算出して処理を繰り返す（ステップＳ７０４）。

すべてのフレームを処理した場合は（ステップＳ７０８：ＹＥＳ）、誤り要因検出部１０３は、累積パワーＰａとフレーム数Ｎｆとから平均パワーを算出し（ステップＳ７０９）、発話音量算出処理を終了する。

なお、誤り要因検出部１０３は、累積パワーＰａをフレーム数Ｎｆで除算することにより平均パワーを算出する。また、本実施の形態では、声の大きさの算出方法として、発声区間の平均パワー、最大パワーを用いる方法を説明したが、声の大きさの算出手法はこれに限られるものではなく、既存のあらゆる手法を利用することができる。

次に、ステップＳ４０３の雑音検出処理の詳細について説明する。まず、雑音検出処理の概念について説明する。

実環境では様々な雑音が存在しており、音声認識に大きな影響を与えている。雑音には発声環境で継続的に観測される雑音である定常雑音や、突発的に観測される雑音である突発雑音などが存在する。

定常雑音とは、例えば室内での空調音や街頭雑音など雑音のパワー変動が少なく継続的に観測される雑音のことをいい、突発雑音とは、キーボードを叩く音や自動車の通過音など突発的に観測される雑音のことを表す。

雑音の問題を根本的に解決するには、音声認識の初期段階で雑音成分を除去する方法、または雑音成分を反映させた音響モデルを構築する方法などが考えられる。しかし、多様な音響特徴を有する雑音が存在するため、あらゆる雑音に頑健な雑音除去処理を実現することや、あらゆる雑音データを収集して音響モデルを構築することは容易ではない。

雑音除去または雑音音響モデル構築以外の解決方法としては、発声全体または発声の一部の雑音を検出して、雑音が重畳する発声区間については問題の解決方法をユーザに提示して、当該区間を再度発声するよう誘導する方法などが考えられる。

本実施の形態では後者のアプローチを取る。本実施の形態では、定常雑音と突発雑音とを検出し、検出した雑音に応じた問題解決方法を提示する例を説明する。定常雑音および突発雑音を検出する方法としては、雑音の詳細な種類や、重畳の違いを識別することまでは行わず、定常雑音および突発雑音が存在することのみを検出する方法を用いる。

定常雑音の検出方法としては、音声として検出された区間が生理的に発声可能な長さを超えているか否か、または、発声区間周辺のパワーが閾値を超えているか否かなどの判断基準を用いた検出方法が存在する。

また、突発雑音の検出方法としては、継続時間が短くパワーが極端に大きな区間が存在するか否かなどの判断基準を用いた検出方法が存在する。本実施の形態では、発声区間継続長、周辺フレームのパワーを算出し定常雑音を検出する方法、極大パワー長を算出して突発雑音を検出する方法を用いる。

ここで、発声区間継続長とは、継続して発声された発声区間の長さを表す情報をいう。また、周辺フレームとは、雑音を検出するフレームの前後の予め定められた範囲のフレームをいう。また、極大パワー長とは、フレーム内で、周辺に比べてパワーが予め定められた閾値（以下、閾値１という。）より大きな区間が継続する長さをいう。

以下に、上述のような手法による雑音検出処理の詳細について説明する。図８は、雑音検出処理の全体の流れを示すフローチャートである。

まず、誤り要因検出部１０３は、発声区間をフレーム単位に分割するとともに（ステップＳ８０１）、発声区間のフレーム数Ｎｆを取得する（ステップＳ８０２）。なお、発声区間は、上述のように音声認識部１０２で検出された発声区間情報を利用することができる。また、フレームは、雑音測定に適した長さで分割する。本実施の形態では、フレーム周期１００ｍｓ、フレーム長２５０ｍｓとして発声区間を分割する。また、以下では、発声区間のフレーム数Ｎｆが、発声区間継続長を表す情報として用いられる。

次に、誤り要因検出部１０３は、発声区間の周辺フレームの平均パワーＰｓを算出する（ステップＳ８０３）。なお、パワーの算出方法は、上述のようにＦＦＴを方法などの従来から用いられているあらゆる方法を適用することができる。

次に、誤り要因検出部１０３は、カウンタＣｔを０に、極大パワー長ＮｐをＮｆに、累積パワーＰａを０に初期化する（ステップＳ８０４）。ここで、カウンタＣｔとは、パワーが予め定められた閾値１より大きいフレームをカウントするために用いる情報である。

次に、誤り要因検出部１０３は、フレーム単位でパワーＰｔを算出する（ステップＳ８０５）。続いて、誤り要因検出部１０３は、累積パワーＰａに、算出したパワーＰｔを加算する（ステップＳ８０６）。

次に、誤り要因検出部１０３は、算出したパワーＰｔが、閾値１より大きいか否かを判断する（ステップＳ８０７）。

算出したパワーＰｔが、閾値１より大きくない場合（ステップＳ８０７：ＮＯ）、誤り要因検出部１０３は、極大パワー長ＮｐがカウンタＣｔより大きく、かつ、カウンタＣｔが０でないか否かを判断する（ステップＳ８０８）。

極大パワー長ＮｐがカウンタＣｔより大きく、かつ、カウンタＣｔが０でない場合（ステップＳ８０８：ＹＥＳ）、誤り要因検出部１０３は、極大パワー長ＮｐをカウンタＣｔで更新する（ステップＳ８０９）。

極大パワー長ＮｐがカウンタＣｔより大きく、かつ、カウンタＣｔが０でない場合以外は（ステップＳ８０８：ＮＯ）、誤り要因検出部１０３は、カウンタＣｔを０に初期化する（ステップＳ８１０）。

ステップＳ８０７で、算出したパワーＰｔが、閾値１より大きいと判断した場合（ステップＳ８０７：ＹＥＳ）、誤り要因検出部１０３は、カウンタＣｔに１を加算する（ステップＳ８１１）。

次に、誤り要因検出部１０３は、すべてのフレームを処理したか否かを判断する（ステップＳ８１２）。

すべてのフレームを処理していない場合は（ステップＳ８１２：ＮＯ）、次のフレームのパワーを算出して処理を繰り返す（ステップＳ８０５）。

すべてのフレームを処理した場合は（ステップＳ８１２：ＹＥＳ）、誤り要因検出部１０３は、累積パワーＰａとフレーム数Ｎｆとから平均パワーＰａｖを算出する（ステップＳ８１３）。

次に、誤り要因検出部１０３は、極大パワー長Ｎｆが予め定められた閾値（以下、閾値２という。）より大きく、かつ、平均パワーＰａｖと周辺フレームの平均パワーＰｓとの差分が予め定められた閾値（以下、閾値３という。）より小さいか否かを判断する（ステップＳ８１４）。

極大パワー長Ｎｆが閾値２より大きく、かつ、平均パワーＰａｖと周辺フレームの平均パワーＰｓとの差分が閾値３より小さい場合（ステップＳ８１４：ＹＥＳ）、誤り要因検出部１０３は、現在のフレームに定常雑音が存在すると判定し（ステップＳ８１５）、雑音検出処理を終了する。

極大パワー長Ｎｆが閾値２より大きく、かつ、平均パワーＰａｖと周辺フレームの平均パワーＰｓとの差分が閾値３より小さい場合以外は（ステップＳ８１４：ＮＯ）、誤り要因検出部１０３は、極大パワー長Ｎｐが予め定められた閾値（以下、閾値４という。）より小さいか否かを判断する（ステップＳ８１６）。

極大パワー長Ｎｐが閾値４より小さい場合は（ステップＳ８１６：ＹＥＳ）、誤り要因検出部１０３は、現在のフレームに突発雑音が存在すると判定し（ステップＳ８１７）、雑音検出処理を終了する。

極大パワー長Ｎｐが閾値４より小さくない場合は（ステップＳ８１６：ＮＯ）、誤り要因検出部１０３は、現在のフレームには雑音が存在しないと判定し（ステップＳ８１８）、雑音検出処理を終了する。

上述の例では、雑音による不具合を検出する方法として発声区間継続長、周辺フレームパワー、極大パワーの継続長を使う方法を説明したが、雑音の不具合を検出する手法はこれに限られるものではなく、既存のあらゆる手法を利用することができる。

このように、第１の実施の形態にかかる音声処理装置では、通常、ユーザが認識することができない発話の音響的な誤り要因を検出し、誤り要因の内容に応じて応答ユーザを切り替えることができる。このため、ユーザは誤り要因を把握することができ、同じ失敗によって会話が破綻する危険を回避することができるとともに、対応可能なユーザにのみフィードバックを返すことで無駄なやり取りを削減することができ、円滑に会話を進めることができる。

（第２の実施の形態）
第２の実施の形態にかかる音声処理装置は、第１言語で発話された発話内容の音声認識結果を第２言語に翻訳して対話相手に出力する音声翻訳処理において、音声処理時に発生した音響的な誤り要因を検出し、誤り要因の内容に応じて応答ユーザを切り替えるものである。

このように、第２の実施の形態は、言語の異なるユーザ間の会話を支援する音声翻訳装置に本提案の内容を適用した例である。なお、以下では、日本語および英語間の翻訳機能を備える音声処理装置を例に説明するが、翻訳の原言語および目的言語の組合せはこれに限られるものではなく、あらゆる言語の組合せについて適用することができる。

図９は、第２の実施の形態にかかる音声処理装置９００の構成を示すブロック図である。同図に示すように、音声処理装置９００は、入力受付部１０１と、音声認識部１０２と、誤り要因検出部１０３と、解決手段決定部１０４と、応答ユーザ選択部１０５と、応答実行部９０６と、翻訳部９０７と、表示部１１０と、音声入力部１２１と、通信部１２２と、記憶部１３０とを備えている。

第２の実施の形態では、翻訳部９０７を追加したこと、および応答実行部９０６の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声処理装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

翻訳部９０７は、音声認識部１０２が出力した原言語による音声認識結果の文字列を受け取り、目的言語に変換して解決手段決定部１０４に出力するものである。翻訳部９０７における翻訳処理では、ルールベース翻訳、用例ベース翻訳などの従来から用いられているあらゆる翻訳技術を用いることができる。

応答実行部９０６は、応答ユーザが原言語を発話する原言語ユーザか、目的言語を発話する目的言語ユーザか否かに応じて、表示する言語を切り替えて応答を実行する点が、第１の実施の形態にかかる応答実行部１０６と異なっている。また、応答実行部９０６は、誤り要因が検出されなかった場合に、音声認識結果ではなく、音声認識結果を翻訳した翻訳結果を出力する点が、第１の実施の形態にかかる応答実行部１０６と異なっている。

次に、このように構成された第２の実施の形態にかかる音声処理装置９００による音声処理について説明する。図１０は、第２の実施の形態における音声処理の全体の流れを示すフローチャートである。

ステップＳ１００１からステップＳ１００２までの、音声入力処理、音声認識処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ３０１からステップＳ３０２までと同様の処理なので、その説明を省略する。

音声認識処理の後、翻訳部９０７は、音声認識結果を目的言語に翻訳する（ステップＳ１００３）。翻訳処理は、上述のように、ルールベース翻訳、用例ベース翻訳などの手法により行う。

ステップＳ１００４からステップＳ１００７までの、誤り要因検出処理、解決手段決定処理、応答ユーザ選択処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ３０３からステップＳ３０６までと同様の処理なので、その説明を省略する。

ステップＳ１００７で、応答ユーザを選択した後、応答実行部９０６は、応答ユーザは原言語ユーザか否かを判断する（ステップＳ１００８）。具体的には、応答実行部９０６は、音声認識時に検出した発声者の言語と、応答ユーザ選択処理で選択された応答ユーザと、事前に設定された所有者の言語とから、応答ユーザが原言語ユーザか否かを判断する。例えば、発声者の発話が原言語であり、選択された応答ユーザが発声者の場合、応答ユーザは原言語ユーザであると判断される。

応答ユーザが原言語ユーザである場合は（ステップＳ１００８：ＹＥＳ）、応答実行部９０６は、原言語ユーザに対して、原言語により、解決手段で示された応答を実行する（ステップＳ１００９）。

応答ユーザが原言語ユーザでない場合、すなわち、目的言語ユーザである場合は（ステップＳ１００８：ＮＯ）、応答実行部９０６は、目的言語ユーザに対して、目的言語により、解決手段で示された応答を実行する（ステップＳ１０１０）。

ステップＳ１００５で、誤り要因検出部１０３が、誤り要因が検出されないと判断した場合は（ステップＳ１００５：ＮＯ）、応答実行部９０６は、翻訳結果を出力し（ステップＳ１０１１）、音声処理を終了する。

図１１は、翻訳結果を出力する表示画面の一例を示す説明図である。同図に示すように、表示画面１１０１には、原言語の音声認識結果を表示する表示フィールド１１０２と、目的言語への翻訳結果を表示する表示フィールド１１０３とが表示されている。

誤りが検出されなかった場合は（ステップＳ１００５：ＮＯ）、表示フィールド１１０２の音声認識結果の翻訳結果が、表示フィールド１１０３に表示される。

次に、このように構成された第２の実施の形態にかかる音声処理装置９００で実行される音声処理の具体例について説明する。

以下では、原言語ユーザが日本人旅行者かつ機器の所有者であり、目的言語ユーザが英語を母国語とする現地在住の者で機器の操作に慣れておらず、日本人旅行者が現地在住の者にホテルの場所を尋ねる場合を例にして説明する。

まず、ステップＳ１００１で、原言語ユーザが発話した、「ヒルトンホテルへの道を教えてもらえますか？」を意味する日本語の入力を受付ける。続いてステップＳ１００２およびステップＳ１００３で、音声認識部１０２および翻訳部９０７によって原言語での発声内容が目的言語に変換される。

次に、ステップＳ１００４で、誤り要因検出部１０３により発話速度、声の大きさ、雑音などを計測して音声認識における誤りが存在しないか否かが確認される。

ここで、発声の最後の部分が小さくて聞き取れなかったと仮定すると、図２に示すような規則テーブル１３１から、大きな声で話すことを促す応答を、発声者に返すという規則が適用される（ステップＳ１００６、ステップＳ１００７）。

図１２は、応答のメッセージを出力する表示画面の一例を示す説明図である。同図に示すように、表示画面１２０１は、応答のメッセージを表示する表示フィールド１２０２を含んでいる。表示フィールド１２０２に、規則テーブル１３１から選択された応答例に対応するメッセージ「声が小さくて最後が聞き取れませんでした。もう少し大きな声で話して下さい」を意味する日本語が表示される。

このように、第２の実施の形態にかかる音声処理装置では、発話相手の言語を理解できないユーザでは気づくことができない発声の誤り要因を検出し、必要に応じて指摘することができる。また、誤り要因の内容に応じて対処可能なユーザにフィードバックを返すように応答ユーザを切り替えている。従って、誤り要因を指摘することで同じ失敗によって会話が破綻する危険を回避することができ、対応可能なユーザにのみフィードバックを返すことで無駄なやり取りを削減することができる。さらに、機器の操作に慣れない相手とでも円滑に会話を進めることが可能となるため、初対面の外国人とも気軽に意思疎通を図ることが可能となる。

（第３の実施の形態）
第３の実施の形態にかかる音声処理装置は、提示された音声認識結果から、対話相手が誤りの存在する箇所を指摘し、指摘された範囲内で発話の音響的な誤り要因を検出するものである。

図１３は、第３の実施の形態にかかる音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置１３００は、入力受付部１０１と、音声認識部１０２と、誤り要因検出部１３０３と、解決手段決定部１０４と、応答ユーザ選択部１０５と、応答実行部９０６と、翻訳部９０７と、誤り箇所同定部１３０８と、表示部１１０と、音声入力部１２１と、通信部１２２と、記憶部１３０とを備えている。

第３の実施の形態では、誤り箇所同定部１３０８を追加したこと、および誤り要因検出部１３０３の機能が第２の実施の形態と異なっている。その他の構成および機能は、第２の実施の形態にかかる音声処理装置９００の構成を表すブロック図である図９と同様であるので、同一符号を付し、ここでの説明は省略する。

誤り箇所同定部１３０８は、表示画面に表示された翻訳結果から、目的言語ユーザが理解できない部分として指定した誤り箇所を同定するものである。具体的には、誤り箇所同定部１３０８は、表示画面に表示された翻訳結果のテキスト上で操作ボタン、キーボード、タッチペンなどの入力デバイス（図示せず）を用いて選択された部分を、誤り箇所として同定する。

誤り箇所同定部１３０８が誤り箇所を同定することにより、複数の誤り要因の中から誤り箇所で発生した誤り要因に対応する解決手段のみを提示することや、誤り要因検出部１３０３では誤りと断定できない場合にも修正を求めることが可能となる。

誤り要因検出部１３０３は、音声認識結果全体ではなく、誤り箇所同定部１３０８が同定した誤り箇所に対応する音声認識結果の中から誤り要因を検出する点が、第２の実施の形態にかかる誤り要因検出部１０３と異なっている。

次に、このように構成された第３の実施の形態にかかる音声処理装置１３００による音声処理について説明する。図１４は、第３の実施の形態における音声処理の全体の流れを示すフローチャートである。

ステップＳ１４０１からステップＳ１４０４までの、音声入力処理、音声認識処理、誤り要因検出処理は、第２の実施の形態にかかる音声処理装置９００におけるステップＳ１００１からステップＳ１００４までと同様の処理なので、その説明を省略する。

誤り要因検出処理の実行後、応答実行部９０６は、目的言語ユーザに翻訳結果を提示する（ステップＳ１４０５）。次に、誤り箇所同定部１３０８が、目的言語ユーザの指定した誤り箇所を同定する（ステップＳ１４０６）。具体的には、画面に表示された翻訳結果から、目的言語ユーザが操作ボタン等の入力デバイスにより理解できない部分として指定した箇所を、誤り箇所として同定する。

次に、誤り要因検出部１３０３が、誤り箇所同定部１３０８が同定した誤り箇所で、誤り要因が検出されたか否かを判断する（ステップＳ１４０７）。誤り箇所同定部１３０８が同定した誤り箇所で、誤り要因が検出された場合は（ステップＳ１４０７：ＹＥＳ）、ステップＳ１４０８からステップＳ１４１２までの処理を実行する。

ステップＳ１４０８からステップＳ１４１２までの、解決手段決定処理、応答ユーザ選択処理、応答実行処理は、第２の実施の形態にかかる音声処理装置９００におけるステップＳ１００６からステップＳ１０１０までと同様の処理なので、その説明を省略する。

誤り箇所同定部１３０８が同定した誤り箇所で、誤り要因が検出されない場合は（ステップＳ１４０７：ＮＯ）、音声処理を終了する。なお、第３の実施の形態ではステップＳ１４０５で翻訳結果を提示済みなので、第２の実施の形態のステップＳ１０１１のように翻訳結果を出力する必要がない。

このように、第３の実施の形態では、ユーザが指定した誤り箇所に対応する誤り要因に対してのみ応答を実行する点が、第２の実施の形態と異なっている。これにより、必要最小限の部分のみの修正が可能となる。

次に、このように構成された第３の実施の形態にかかる音声処理装置１３００で実行される音声処理の具体例について説明する。

以下では、原言語ユーザが英語を母国語とする現地在住の者で機器の操作に慣れておらず、目的言語ユーザが日本人旅行者かつ機器の所有者であり、日本人が現地のホテルの場所を尋ねた直前の発話に対して、現地住人が返答する場合を例にして説明する。

まず、ステップＳ１４０１で、原言語ユーザが発話した英語「Since the hotel is quite far from here、 I recommend a taxi?」の入力を受付ける。続いてステップＳ１４０２およびステップＳ１４０３で、音声認識部１０２および翻訳部９０７によって原言語での発声内容が目的言語に変換される。

次に、ステップＳ１４０４で、誤り要因検出部１３０３により発話速度、声の大きさ、雑音などを計測して音声認識における誤りが存在しないか否かが確認される。

ここで、発声の後半で発話速度が大きくなったために「taxi」が「tax」に誤認識されたと仮定する。この場合、目的言語ユーザである日本人旅行者に、翻訳結果が提示される（ステップＳ１４０５）。

図１５は、翻訳結果を出力する表示画面の一例を示す説明図である。同図に示すように、表示画面１５０１には、翻訳結果を表示する表示フィールド１５０２と、日本人旅行者へのメッセージを表示する表示フィールド１５０３と、現地住人の発話の音声認識結果を表示する表示フィールド１５０４とが表示されている。

同図では、入力された発話が誤って音声認識され、「Since the hotel is quite far from here、 I recommend a tax?」が音声認識結果として表示された例が示されている。また、当該音声認識結果を翻訳した日本語が、表示フィールド１５０２に表示されている。さらに、本画面では、誤り箇所を指定することを促すメッセージであり、「理解できない部分があれば、そこを囲って下さい」を意味する日本語のメッセージが、表示フィールド１５０３に表示されている。

図１６は、誤り箇所指定後の表示画面の一例を示す説明図である。同図の表示画面１６０１では、「taxi」が「tax」に誤認識されたため誤って翻訳された日本語であり、「税金」を意味する日本語１６０２の部分を、日本人旅行者が理解できない部分として指定した例が示されている。また、表示フィールド１６０３には、「税金の部分を相手に確認します」を意味する日本語が表示されている。さらに、指定した誤り箇所に対応する英語の音声認識結果の部分（「a tax」）に下線１６０４が付されており、音声認識結果のうち誤り箇所に相当する部分が同定されていることが示されている。

この後、誤り要因検出部１３０３が、同定した誤り箇所である「a tax」の部分で誤り要因が検出されたか否かを判断する（ステップＳ１４０７）。ここで、発話の最後の部分の発声速度が速いことが検出されていたと仮定する。

この場合、例えば、ゆっくりと話すことを促す応答例が、規則テーブル１３１から取得される。なお、図２には示していないが、規則テーブル１３１には、原言語および目的言語双方の言語による応答のメッセージが格納され、応答ユーザにより切替えて選択されるものとする。

図１７は、応答のメッセージが表示された表示画面の一例を示す説明図である。同図に示す表示画面１７０１では、発話の最後の部分の発声速度が速いことが検出されたことに対応し、ゆっくりと話すことを促す応答例が表示フィールド１７０２に表示された例が示されている。

図１８は、応答に対して、原言語ユーザが再度発声した後の表示画面の一例を示す説明図である。同図に示す表示画面１８０１では、再度発話した部分のみの音声認識結果が表示フィールド１８０３に表示され、当該音声認識結果を翻訳した翻訳結果が、表示フィールド１８０２に表示された例が示されている。

上記例では、原言語ユーザの話し方に問題がある場合について説明した。この他、例えば、定常雑音が背景に存在するため正しく認識できなかった場合には、図２に示すような規則テーブル１３１に従えば応答ユーザは所有者である目的言語ユーザとなる。このため、応答は目的言語ユーザに提示される（ステップＳ１４１２）。

図１９は、目的言語ユーザに対するフィードバックが表示された表示画面の一例を示す説明図である。同図に示す表示画面１９０１では、発話全体に背景雑音が重畳している場合の応答例が、表示フィールド１９０２に表示された例が示されている。

なお、本実施の形態では誤り箇所同定部１３０８で指摘された区間で誤り要因が検出された場合を例に説明したが、指摘された区間で誤り要因が検出されなかった場合には、本実施の形態が想定していない誤り要因が存在すると判断し、例えば、「再度発声して下さい」のような汎用的な応答を発声者に返すように構成してもよい。

このように、第３の実施の形態にかかる音声処理装置では、提示された音声認識結果から、対話相手が誤りの存在する箇所を指摘し、指摘された範囲内で発話の音響的な誤り要因を検出することができる。このため、誤り要因の検出精度を向上させることができるとともに、必要最小限の部分のみ修正すればよいため、円滑に会話を進めることができる。

（第４の実施の形態）
第４の実施の形態にかかる音声処理装置は、検出された誤り要因の履歴を記憶し、記憶された誤り要因の履歴を参照して、誤り発生時の応答方法を切り分けるものである。

図２０は、第４の実施の形態にかかる音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置２０００は、入力受付部１０１と、音声認識部１０２と、誤り要因検出部１０３と、解決手段決定部２００４と、応答ユーザ選択部２００５と、応答実行部９０６と、翻訳部９０７と、表示部１１０と、音声入力部１２１と、通信部１２２と、記憶部２０３０とを備えている。

第４の実施の形態では、解決手段決定部２００４および応答ユーザ選択部２００５の機能が第２の実施の形態と異なっている。また、第４の実施の形態では、記憶部２０３０に履歴管理テーブル２０３２を追加したこと、および規則テーブル２０３１のデータ構造が第２の実施の形態と異なっている。その他の構成および機能は、第２の実施の形態にかかる音声処理装置９００の構成を表すブロック図である図９と同様であるので、同一符号を付し、ここでの説明は省略する。

履歴管理テーブル２０３２は、過去に検出された誤り要因の履歴を格納するものである。図２１は、履歴管理テーブル２０３２のデータ構造の一例を示す説明図である。

同図に示すように、履歴管理テーブル２０３２は、発声した時点を特定する情報である発生時と、発声者と、検出された誤り要因とを対応づけて格納している。同図では、例えば、直前の英語話者の発話時に背景雑音が重畳されていることが誤り要因として検出された履歴が格納されていることが示されている。

規則テーブル２０３１は、誤り要因の履歴に関する予め定められた条件をさらに対応づけた規則を格納する点が、第２の実施の形態と異なっている。

図２２は、規則テーブル２０３１のデータ構造の一例を示す説明図である。同図に示すように、規則テーブル２０３１は、要因種別と、検出する誤り要因と、履歴条件と、応答ユーザと、応答例とを対応づけて格納している。

履歴条件に、誤り要因の履歴に関する予め定められた条件を指定する。例えば、直前でも背景雑音が重畳されたか、直前は背景雑音が重畳されていないかなどの履歴の条件を指定する。なお、履歴の条件を特定する必要がなければ省略可能とするように構成してもよい。

解決手段決定部２００４は、履歴管理テーブル２０３２を参照し、検出した誤り要因だけでなく、誤り要因の履歴が満たす条件に合致する解決手段を決定する点が、第２の実施の形態にかかる解決手段決定部１０４と異なっている。

応答ユーザ選択部２００５は、履歴管理テーブル２０３２を参照し、検出した誤り要因だけでなく、誤り要因の履歴が満たす条件に合致する応答ユーザを選択する点が、第２の実施の形態にかかる応答ユーザ選択部１０５と異なっている。

次に、このように構成された第４の実施の形態にかかる音声処理装置２０００による音声処理について説明する。図２３は、第４の実施の形態における音声処理の全体の流れを示すフローチャートである。

ステップＳ２３０１からステップＳ２３０５までの、音声入力処理、音声認識処理、誤り要因検出処理は、第２の実施の形態にかかる音声処理装置９００におけるステップＳ１００１からステップＳ１００５までと同様の処理なので、その説明を省略する。

ステップＳ２３０５で、誤り要因が検出されたと判断された場合（ステップＳ２３０５：ＹＥＳ）、解決手段決定部２００４は、履歴管理テーブル２０３２を参照し、誤り要因と履歴の条件に対応する解決手段を、規則テーブル２０３１から取得する（ステップＳ２３０６）。

例えば、現在の発話の音声認識結果に対して、背景雑音が重畳されていることが検出され、かつ、履歴管理テーブル２０３２に図２１に示すような誤り要因の履歴が格納されていたとする。この場合、直前でも背景雑音が重畳されたという履歴の条件が得られるため、図２２に示すような規則テーブル２０３１から、場所を移動することを促す応答例を解決手段として取得する。

次に、応答ユーザ選択部２００５は、履歴管理テーブル２０３２を参照し、誤り要因と履歴の条件に対応する応答ユーザを、規則テーブル２０３１から取得する（ステップＳ２３０７）。上述の例の場合は、図２２に示すような規則テーブル２０３１から、所有者を応答ユーザとして取得する。

ステップＳ２３０８からステップＳ２３１１までの、応答実行処理は、第２の実施の形態にかかる音声処理装置９００におけるステップＳ１００８からステップＳ１０１１までと同様の処理なので、その説明を省略する。

このように、第４の実施の形態では、誤り要因の履歴を保存し、当該履歴を参照して応答内容や応答ユーザを切り分ける点が、第２の実施の形態と異なっている。これにより、同じ誤り要因が繰返し検出された場合に応答内容を変更することが可能となる。

次に、このように構成された第４の実施の形態にかかる音声処理装置２０００で実行される音声処理の具体例について説明する。

まず、ステップＳ２３０１で、原言語ユーザが発話した英語「Since the hotel is quite far from here、 I recommend a taxi?」の入力を受付ける。続いてステップＳ２３０２およびステップＳ２３０３で、音声認識部１０２および翻訳部９０７によって原言語での発声内容が目的言語に変換される。

次に、ステップＳ２３０４で、誤り要因検出部１０３により発話速度、声の大きさ、雑音などを計測して音声認識における誤りが存在しないか否かが確認される。

ここで、図２１に示すように直前の発話で背景雑音が検出され、現在処理中の発話に対しても背景雑音が検出されたことを仮定する。この場合、解決手段決定部２００４は、図２２に示すような規則テーブル２０３１から、場所を移動することを促す応答例を解決手段として選択する（ステップＳ２３０６）。また、応答ユーザ選択部２００５は、図２２に示すような規則テーブル２０３１から、所有者を応答ユーザとして選択する（ステップＳ２３０６）。

一方、仮に現発話で背景雑音が初めて検出された場合には、図２２に示すような規則テーブル２０３１から、発声者に大きな声で話すことを促す応答が選択される。

このように、第４の実施の形態にかかる音声処理装置では、同じ誤り要因が繰返し検出される場合には、その状況を打破する新しい解決手段を選択することができる。過去に検出された誤り要因に応じて最適なフィードバックを返すことで、同じ失敗によって会話が破綻する危険を回避することができ、しかも対応可能なユーザにのみフィードバックを返すことで無駄なやり取りを削減することができる。

（第５の実施の形態）
第５の実施の形態にかかる音声処理装置は、検出した誤り要因に対応した応答を実行する際、対話相手に対して応答の実行状況を提示するものである。

第５の実施の形態にかかる音声処理装置の構成は、第２の実施の形態にかかる音声処理装置９００の構成を表すブロック図である図９と同様であるので、同一符号を付し、ここでの説明は省略する。

第５の実施の形態では、応答実行部１０６が応答を実行する際に、応答ユーザ以外のユーザに対して応答内容を表示することにより、現在の状況を把握できるようにする点が、第２の実施の形態と異なっている。

次に、このように構成された第５の実施の形態にかかる音声処理装置による音声処理について説明する。図２４は、第５の実施の形態における音声処理の全体の流れを示すフローチャートである。

ステップＳ２４０１からステップＳ２４１１までの、音声入力処理、音声認識処理、誤り要因検出処理、解決手段決定処理、応答ユーザ選択処理、応答ユーザに対する応答実行処理は、第２の実施の形態にかかる音声処理装置９００におけるステップＳ１００１からステップＳ１０１１までと同様の処理なので、その説明を省略する。

第５の実施の形態では、応答実行部１０６が、ステップＳ２４０９で原言語ユーザに対して応答を実行した後、または、ステップＳ２４１０で目的言語ユーザに対して応答を実行した後、それぞれ目的言語ユーザ、または、原言語ユーザに対して処理状況を提示する（ステップＳ２４１２、ステップＳ２４１３）。

このように、第５の実施の形態では、誤り要因を解消するユーザだけでなく両方のユーザにそれぞれフィードバックを返すことで、お互いに現在の状況を把握することができる。

次に、このように構成された第５の実施の形態にかかる音声処理装置で実行される音声処理の具体例について説明する。

まず、ステップＳ２４０１で、原言語ユーザが発話した英語「Since the hotel is quite far from here、 I recommend a taxi?」の入力を受付ける。続いてステップＳ２４０２およびステップＳ２４０３で、音声認識部１０２および翻訳部９０７によって原言語での発声内容が目的言語に変換される。

次に、ステップＳ２４０４で、誤り要因検出部１０３により発話速度、声の大きさ、雑音などを計測して音声認識における誤りが存在しないか否かが確認される。

ここで、発声の全体が早口でまったく聞き取れなかったと仮定すると、図２に示すような規則テーブル１３１から、ゆっくりと話すことを促す応答を、発声者に返すという規則が適用される（ステップＳ２４０６、ステップＳ２４０７）。

この場合、応答実行部１０６は、原言語ユーザに応答のメッセージを表示するとともに（ステップＳ２４０９）、目的言語ユーザに、原言語ユーザに対して実行している応答の状況を提示する（ステップＳ２４１２）。

図２５は、応答の処理状況が表示された表示画面の一例を示す説明図である。同図に示す表示画面２５０１では、応答が表示フィールド２５０３に表示されるとともに、応答の処理状況を表す日本語のメッセージが表示フィールド２５０２に表示された例が示されている。

なお、ここでは原言語ユーザと目的言語ユーザへのメッセージを同時に表示する例を説明したが、原言語ユーザにはメッセージを音声合成した合成音を提示し、目的言語ユーザには画面でメッセージを伝えるように構成してもよい。メッセージの提示方法はこれに限られるものではなく、原言語ユーザと目的言語ユーザそれぞれの言語で合成した合成音を各ユーザの方向に向けて出力するなど、従来から用いられているあらゆる方法によりメッセージを提示することができる。

このように、第５の実施の形態にかかる音声処理装置では、検出した誤り要因に対応した応答を実行する際、対話相手に対して応答の実行状況を提示することができる。このため、対話相手は、誤りが発生したことや、発声者または機器の所有者の操作の内容を把握することができ、会話の空白による混乱を防いでより円滑に会話を進めることができる。

図２６は、第１〜第５の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。

第１〜第５の実施の形態にかかる音声処理装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１〜第５の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１〜第５の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、第１〜第５の実施の形態にかかる音声処理装置で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第３の実施の形態にかかる音声処理装置で実行される音声処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１〜第５の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、上述した各部（入力受付部、音声認識部、誤り要因検出部、解決手段決定部、応答ユーザ選択部、応答実行部、翻訳部、誤り箇所同定部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる音声処理装置、音声処理方法および音声処理プログラムは、言語の異なるユーザ間の会話を支援する音声翻訳装置、音声翻訳方法および音声翻訳プログラムに適している。

第１の実施の形態にかかる音声処理装置の構成を示すブロック図である。規則テーブルのデータ構造の一例を示す説明図である。第１の実施の形態における音声処理の全体の流れを示すフローチャートである。誤り要因検出処理の全体の流れを示すフローチャートである。発話速度の分布の一例を示す説明図である。発話速度算出処理の全体の流れを示すフローチャートである。発話音量算出処理の全体の流れを示すフローチャートである。雑音検出処理の全体の流れを示すフローチャートである。第２の実施の形態にかかる音声処理装置の構成を示すブロック図である。第２の実施の形態における音声処理の全体の流れを示すフローチャートである。翻訳結果を出力する表示画面の一例を示す説明図である。応答のメッセージを出力する表示画面の一例を示す説明図である。第３の実施の形態にかかる音声処理装置の構成を示すブロック図である。第３の実施の形態における音声処理の全体の流れを示すフローチャートである。翻訳結果を出力する表示画面の一例を示す説明図である。誤り箇所指定後の表示画面の一例を示す説明図である。応答のメッセージが表示された表示画面の一例を示す説明図である。原言語ユーザが再度発声した後の表示画面の一例を示す説明図である。目的言語ユーザに対するフィードバックが表示された表示画面の一例を示す説明図である。第４の実施の形態にかかる音声処理装置の構成を示すブロック図である。履歴管理テーブルのデータ構造の一例を示す説明図である。規則テーブルのデータ構造の一例を示す説明図である。第４の実施の形態における音声処理の全体の流れを示すフローチャートである。第５の実施の形態における音声処理の全体の流れを示すフローチャートである。応答の処理状況が表示された表示画面の一例を示す説明図である。第１〜第５の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００音声処理装置
１０１入力受付部
１０２音声認識部
１０３誤り要因検出部
１０４解決手段決定部
１０５応答ユーザ選択部
１０６応答実行部
１１０表示部
１２１音声入力部
１２２通信部
１３０記憶部
１３１規則テーブル
９００音声処理装置
９０６応答実行部
９０７翻訳部
１１０１表示画面
１１０２、１１０４表示フィールド
１２０１表示画面
１２０２表示フィールド
１３００音声処理装置
１３０３誤り要因検出部
１３０８誤り箇所同定部
１５０１表示画面
１５０２、１５０３、１５０４表示フィールド
１６０１表示画面
１６０２日本語
１６０３表示フィールド
１６０４下線
１７０１表示画面
１７０２表示フィールド
１８０１表示画面
１８０２、１８０３表示フィールド
１９０１表示画面
１９０２表示フィールド
２０００音声処理装置
２００４解決手段決定部
２００５応答ユーザ選択部
２０３０記憶部
２０３１規則テーブル
２０３２履歴管理テーブル
２５０１表示画面
２５０２、２５０３表示フィールド

Claims

音声の入力を受付ける入力受付手段と、
前記入力受付手段が受付けた前記音声を認識する音声認識手段と、
前記音声認識手段が前記音声を認識した際に発生した誤り要因を検出する誤り要因検出手段と、
音声認識の誤り要因と、音声認識で誤りが発生したときの応答方法と、前記入力受付手段が受付けた音声を発話したユーザを表す第１ユーザおよび前記入力受付手段が受付けた音声を発話していないユーザを表す第２ユーザのいずれかを表す応答ユーザとを対応づけた規則を格納する規則記憶手段と、
前記誤り要因検出手段が検出した前記誤り要因に対応づけられた前記応答方法を前記規則記憶手段から選択する応答方法選択手段と、
前記誤り要因検出手段が検出した前記誤り要因に対応づけられた前記応答ユーザを前記規則記憶手段から選択する応答ユーザ選択手段と、
前記応答ユーザ選択手段が選択した前記応答ユーザに対して、前記応答方法選択手段が選択した前記応答方法により前記応答を実行する応答実行手段と、
を備えたことを特徴とする音声処理装置。
前記音声認識手段が前記音声を認識した結果のうち、誤りが存在する部分の指定の入力を受付ける誤り箇所受付手段をさらに備え、
前記誤り要因検出手段は、前記誤り箇所受付手段が受付けた前記部分の指定から、前記音声認識手段が前記音声を認識した際に発生した前記誤り要因を検出することを特徴とする請求項１に記載の音声処理装置。
検出された前記誤り要因の履歴を格納する履歴記憶手段と、
前記誤り要因検出手段が前記誤り要因を検出したときに、前記履歴記憶手段から前記履歴を取得する取得手段と、をさらに備え、
前記規則記憶手段は、前記履歴に関する予め定められた条件と、前記誤り要因と、前記応答方法と、前記応答ユーザとを対応づけた前記規則を格納し、
前記取得手段は、取得した前記履歴に関する前記条件を取得し、
前記応答方法選択手段は、前記取得手段が取得した前記条件と前記誤り要因検出手段が検出した前記誤り要因とに対応づけられた前記応答方法を前記規則記憶手段から選択し、
前記応答ユーザ選択手段は、前記取得手段が取得した前記条件と前記誤り要因検出手段が検出した前記誤り要因とに対応づけられた前記応答ユーザを前記規則記憶手段から選択することを特徴とする請求項１に記載の音声処理装置。
前記規則記憶手段は、誤りの検出対象となる前記音声の前に入力された前記音声を認識した際に発生した前記誤り要因と、誤りの検出対象となる前記音声を認識した際に発生した前記誤り要因との関係を表す前記条件を対応づけた前記規則を格納することを特徴とする請求項３に記載の音声処理装置。
前記音声認識手段が認識した第１の言語による前記音声の認識結果を第２の言語に翻訳する翻訳手段をさらに備え、
前記規則記憶手段は、前記第１の言語による前記音声を入力した前記第１ユーザおよび前記第２の言語による翻訳結果を受け取る前記第２ユーザの少なくとも一方を前記応答ユーザとして対応づけた規則を格納し、
前記応答実行手段は、前記第１ユーザおよび前記第２ユーザの少なくとも一方に対して前記応答を実行することを特徴とする請求項１に記載の音声処理装置。
前記応答実行手段は、前記応答ユーザ選択手段が選択した前記応答ユーザに対して前記応答を実行し、前記応答ユーザ選択手段が選択しなかった他のユーザに対して、前記応答に関する情報を提示することを特徴とする請求項１に記載の音声処理装置。
前記誤り要因検出手段は、前記誤り要因として、少なくとも前記音声の発声速度を検出することを特徴とする請求項１に記載の音声処理装置。
前記誤り要因検出手段は、前記誤り要因として、少なくとも前記音声の音量を検出することを特徴とする請求項１に記載の音声処理装置。
前記誤り要因検出手段は、前記誤り要因として、少なくとも前記音声に含まれる雑音を検出することを特徴とする請求項１に記載の音声処理装置。
前記誤り要因検出手段は、前記雑音として、少なくとも予め定められた第１の時間以上継続して発生する定常雑音を検出することを特徴とする請求項９に記載の音声処理装置。
前記誤り要因検出手段は、前記雑音として、前記定常雑音と、前記第１の時間より短い時間であって、予め定められた第２の時間内に発生する突発雑音とを検出することを特徴とする請求項１０に記載の音声処理装置。
前記規則記憶手段は、前記音声の全体で発生した前記誤り要因または前記音声の一部で発生した前記誤り要因と、前記応答方法と、前記応答ユーザとを対応づけた規則を格納し、
前記誤り要因検出手段は、前記音声の全体または前記音声の一部で発生した前記誤り要因を検出することを特徴とする請求項１に記載の音声処理装置。
前記音声認識手段が認識した前記音声の認識結果を出力する表示手段をさらに備え、
前記応答実行手段は、前記誤り要因検出手段が前記音声の一部で発声した前記誤り要因を検出した場合に、前記誤り要因が検出された前記音声の一部に対応する前記認識結果の部分に、前記誤り要因が検出されたことを示す情報を関連づけて前記表示手段に出力することを特徴とする請求項１２に記載の音声処理装置。
前記音声を入力する音声入力手段をさらに備え、
前記入力受付手段は、前記音声入力手段から前記音声の入力を受付けることを特徴とする請求項１に記載の音声処理装置。
外部装置と情報の送受信を行う通信手段をさらに備え、
前記入力受付手段は、前記通信手段を介して前記外部装置から送信された前記音声の入力を受付けることを特徴とする請求項１に記載の音声処理装置。
音声の入力を受付ける入力受付ステップと、
前記入力受付ステップが受付けた前記音声を認識する音声認識ステップと、
前記音声認識ステップが前記音声を認識した際に発生した誤り要因を検出する誤り要因検出ステップと、
音声認識の誤り要因と、音声認識で誤りが発生したときの応答方法と、前記入力受付ステップが受付けた音声を発話したユーザを表す第１ユーザおよび前記入力受付ステップが受付けた音声を発話していないユーザを表す第２ユーザのいずれかを表す応答ユーザとを対応づけた規則を格納する規則記憶手段から、前記誤り要因検出ステップが検出した前記誤り要因に対応づけられた前記応答方法を選択する応答方法選択ステップと、
前記誤り要因検出ステップが検出した前記誤り要因に対応づけられた前記応答ユーザを前記規則記憶手段から選択する応答ユーザ選択ステップと、
前記応答ユーザ選択ステップが選択した前記応答ユーザに対して、前記応答方法選択ステップが選択した前記応答方法により前記応答を実行する応答実行ステップと、
を備えたことを特徴とする音声処理方法。
音声の入力を受付ける入力受付手順と、
前記入力受付手順が受付けた前記音声を認識する音声認識手順と、
前記音声認識手順が前記音声を認識した際に発生した誤り要因を検出する誤り要因検出手順と、
音声認識の誤り要因と、音声認識で誤りが発生したときの応答方法と、前記入力受付手順が受付けた音声を発話したユーザを表す第１ユーザおよび前記入力受付手順が受付けた音声を発話していないユーザを表す第２ユーザのいずれかを表す応答ユーザとを対応づけた規則を格納する規則記憶手段から、前記誤り要因検出手順が検出した前記誤り要因に対応づけられた前記応答方法を選択する応答方法選択手順と、
前記誤り要因検出手順が検出した前記誤り要因に対応づけられた前記応答ユーザを前記規則記憶手段から選択する応答ユーザ選択手順と、
前記応答ユーザ選択手順が選択した前記応答ユーザに対して、前記応答方法選択手順が選択した前記応答方法により前記応答を実行する応答実行手順と、
をコンピュータに実行させる音声処理プログラム。