JP2004109563A

JP2004109563A - 音声対話システム、音声対話のためのプログラムおよび音声対話方法

Info

Publication number: JP2004109563A
Application number: JP2002272689A
Authority: JP
Inventors: Kenji Abe; 阿部　賢司; Naoji Matsuo; 松尾　直司; Kiyouko Okuyama; 奥山　鏡子
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-09-19
Filing date: 2002-09-19
Publication date: 2004-04-08
Anticipated expiration: 2022-09-19
Also published as: JP3926242B2

Abstract

【課題】効率的な音声対話システムを実現する。
【解決手段】音声対話システム（１００）は、端末より接続可能であり、その端末からの音声信号に対して音声認識を実行する音声認識手段（１１０）と、その音声認識の結果が得られないときにその原因を判定して、その判定された原因への対処法を決定する対処法決定手段（１１２）と、その端末の音響的環境を推定する推定手段（１２０）と、その推定された音響的環境に応じてその端末に対する応答方法を決定する応答方法決定手段（１２２）と、その決定された対処法を表す情報をその決定された応答方法でその端末に送信する送信手段（１２６）と、を具える。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識に関し、特にインタラクティブな即ち対話的な音声認識に関する。
【０００２】
【従来の技術】
通常の固定電話に加えて携帯電話が普及し、最近、インターネットを介して音声によってアクセスされるボイスポータルの試験的運用が開始されている。そのような中で、音声対話システムの高度化に対するニーズ（要求）が強くなっている。
【０００３】
音声対話システムにおいて最も重要なことは、ユーザの意図を的確に抽出または推定することである。そのためには、まず、ユーザが発した音声信号を的確に認識する必要がある。即ち、音声認識の性能が音声対話システムの性能を左右する。そのため、音声対話システムにおいて、音声信号中の雑音成分を除去したり、音響モデルや言語モデルを改良することによって、音声認識の性能を上げることが試みられているが、不規則な雑音の混入および言語表現の多様性により、いかなる状況においても１００％の認識率が得られるようにすることは事実上不可能である。
【０００４】
認識結果が得られず音声認識に失敗した場合、例えば、音声区間の切り出しに失敗して認識できない場合、および音声認識の結果のスコアがシステムで定めた閾値よりも低いためその結果が不採用になった場合に、例えば、対話によって音声の再入力を要求する機能を有するようにした対話システムが提案された。しかし、そのシステムでは失敗原因がユーザに知らされないので、同じ失敗を何度も繰り返すことがある。
【０００５】
また、認識失敗の原因をユーザに通知して失敗の繰り返しを回避するという手法も考案されている。
【０００６】
特開平１０−１３３８４９号公報（特許文献１）には、音声認識に失敗したときに、エラーメッセージを表示することが記載されている。
【特許文献１】
特開平１０−１３３８４９号公報
【０００７】
特開２０００−１１２４９７号公報（特許文献２）には、入力された音声認識に失敗した場合に、その理由情報を通知することが記載されている。
【特許文献２】
特開２０００−１１２４９７号公報
【０００８】
特開２００２−２３９０３号公報（特許文献３）には、初回利用者に対してインストラクションを与えることが記載されている。
【特許文献３】
特開２００２−２３９０３号公報
【０００９】
【発明が解決しようとする課題】
上述の従来の手法は、音声認識の失敗に関するメッセージをディスプレイ上に表示したり、定常的に低雑音であるような音響的環境を前提として音声メッセージを提供するものである。しかし、例えば携帯電話ではユーザが音声通話中においてディスプレイを利用することは実際には不可能である。ユーザが音声を聞き取れないような大きな雑音が存在する音響的環境においては、必ずしも音声メッセージが有効であるとは限らない。ユーザが失敗原因を知ったとしても、ユーザがその意味を理解できるとは限らず、それに対する解決手段が設けられているとは限らない。例えば、ユーザがある雑音環境下にいて、その場を離れることができない場合、雑音が失敗の原因であることを知ったとしても、ユーザはそれに対処するのが困難である。従って、実際には、これらの手法の適用は限られている。
【００１０】
発明者たちは、ユーザ端末にシステム応答をユーザの環境に適した方法でユーザ端末に送信すると有利であると認識した。発明者たちは、音声認識に失敗した場合には、その原因をユーザ端末に通知するだけでなく、それに対処するための手段をユーザ端末に提供すると有利であると認識した。また、発明者たちは、システムを高度化するためには、ユーザの特徴および過去の状況を考慮して効率的に音声認識を行うことが有利であると認識した。音声認識に失敗して対話が成立しないときに、失敗メッセージの応答を繰り返し送信して対話を継続するのは無駄である。
【００１１】
本発明の目的は、効率的な音声対話システムを実現することである。
【００１２】
【課題を解決するための手段】
本発明の特徴によれば、音声対話システムは、端末より接続可能であり、その端末からの音声信号に対して音声認識を実行する音声認識手段と、その音声認識の結果が得られないときにその原因を判定して、その判定された原因への対処法を決定する対処法決定手段と、その端末の音響的環境を推定する推定手段と、その推定された音響的環境に応じてその端末に対する応答方法を決定する応答方法決定手段と、その決定された対処法を表す情報をその決定された応答方法でその端末に送信する送信手段と、を具える。
【００１３】
音声対話システムは、さらに、ユーザの識別情報および利用履歴情報を記憶する記憶手段を具えていてもよい。その対処法決定手段は、その記憶手段に格納されたそのユーザのその識別情報および利用履歴情報に従ってその対処法を決定してもよい。
【００１４】
前記対処法には音声認識用のパラメータの調整が含まれていてもよい。その対処法には対処用のプログラムのその端末への送信が含まれていてもよい。その対処法決定手段が、音声対話は不可能と判定したときに、その対処法としてその端末との通信を切断することを決定することを含んでいてもよい。
【００１５】
音声対話システムは、さらに、その決定された対処法を記憶する対処法履歴記憶手段を具えていてもよい。その音声認識手段が、その対処法履歴記憶手段に格納されたその対処法の履歴に従って音声認識を実行してもよい。
【００１６】
その応答方法決定手段は、その推定された音響的環境に応じて、その決定された対処法を表す音声信号、電子メールおよび／または画像信号が前記端末に送信されるようにしてもよい。
【００１７】
本発明の別の特徴によれば、音声対話システムは、ユーザからの音声信号に対して音声認識を実行する音声認識手段と、その音声認識の結果が得られないときにその原因を判定して、その判定された原因への対処法を決定する対処法決定手段と、そのユーザの音響的環境を推定する推定手段と、その推定された音響的環境に応じてそのユーザに対する応答方法を決定する応答方法決定手段と、その決定された対処法を表す情報をその決定された応答方法でその端末に送信する送信手段と、を具える。
【００１８】
本発明のさらに別の特徴によれば、端末からの音声信号に対して音声認識を実行するステップと、その音声認識の結果が得られないときにその原因を判定するステップと、その判定された原因への対処法を決定するステップと、その端末の音響的環境を推定するステップと、その推定された音響的環境に応じてその端末に対する応答方法を決定するステップと、その決定された対処法を表す情報をその決定された応答方法でその端末に送信するステップと、を実行させるよう動作可能である。
【００１９】
本発明のさらに別の特徴によれば、音声対話システムにおいて用いられる音声対話方法は、端末からの音声信号に対して音声認識を実行するステップと、その音声認識の結果が得られないときにその原因を判定するステップと、その判定された原因への対処法を決定するステップと、その端末の音響的環境を推定するステップと、その推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、その決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、を含んでいる。
【００２０】
本発明によれば、効率的な音声対話システムを実現できる。システム応答をユーザの環境に適した方法でユーザ端末に送信することができる。音声認識に失敗した場合には、その原因をユーザ端末に通知するだけでなく、それに対処するための手段をユーザ端末に提供できる。ユーザの特徴および過去の状況を考慮して効率的に音声認識を行うことができ、システムを高度化できる。
【００２１】
【発明の実施の形態】
図１は、本発明の実施形態による音声対話システム１００を示している。音声対話システム１００は、入力信号受信部１０２、音響解析部１０４、音声信号記録（録音）部１０６、音声信号データベース１０８、音声認識部１１０、認識失敗原因判定部１１２、認識パラメータ設定部１１４、対話管理部１１６、タスク処理部１１８、ユーザ環境推定部１２０、応答方法決定部１２２、応答生成部１２４、出力信号送信部１２６およびプロセッサまたはコントローラ１５０を含んでいる。
【００２２】
各部１０２〜１２６は、プロセッサ１５０によって制御される。各部１０２〜１２６は、ハードウェアまたはソフトウェアの形態で実装されている。各部１０２〜１２６は、プロセッサ１５０によって実行されるプログラムとして実装されていてもよい。
【００２３】
入力信号受信部１０２は、ユーザ端末から送信された音声信号を受信して音響解析部１０４にその音声信号を供給する。音響解析部１０４は、入力信号受信部１０２からの音声信号を解析する。音響解析部１０４は、ユーザの発声前の背景雑音に関してはその雑音のレベルを検出し、認識失敗原因判定部１１２にその雑音の検出レベルを供給して認識失敗の原因となるか否かを判定するよう要求する。それによって、システム１００は、ユーザの発話を認識する前に、音声認識の失敗の原因（要因）に対処することができる。音響解析部１０４は、後で説明するように背景雑音のレベルが閾値より大きく且つシステム内での対処が不可能であると判定された場合以外は、音声信号を音声信号記録部１０６に供給する。
【００２４】
音声信号記録部１０６は、音響解析部１０４から供給された音声信号データを記録し、そのデータを音声信号データベース１０８に蓄積する。音声信号データベース１０８はその音声データを蓄積する。
【００２５】
音声認識部１１０は、音声信号データベース１０８の音声データに対して音声認識を行って、音声信号に対応する文字列を導出する。音声認識部１１０は、音声認識に失敗した場合に、認識失敗原因判定部１１２に失敗原因の判定を要求する。
【００２６】
認識失敗原因判定部１１２は、音響解析部１０４からの要求に応答して、背景雑音が認識失敗の原因になるか否かを判定する。認識失敗原因判定部１１２は、背景雑音が失敗の原因になると判定した場合には、さらに認識のためのパラメータの調整またはパラメータの値の変更によって対処できるかどうかを判定し、対処できると判定した場合には、認識パラメータ設定部１１４にパラメータの調整を要求する。
【００２７】
認識失敗原因判定部１１２は、さらに、音声認識部１１０からの要求に応答して、音声認識失敗の原因を解析する。認識失敗原因判定部１１２は、認識のためのパラメータを調整することによってそれに対処できると判定した場合には、パラメータの調整を認識パラメータ設定部１１４に要求する。認識失敗原因判定部１１２は、システム１００内での対処が不可能であると判定した場合には、ユーザの音響的環境の推定をユーザ環境推定部１２０に要求する。
【００２８】
認識パラメータ設定部１１４は、認識失敗原因判定部１１２からのパラメータの調整の要求に応答してパラメータの値を調整し、音声の再認識が必要な場合には音声認識部１１０に音声認識を要求する。ユーザ環境推定部１２０は、認識失敗原因判定部１１２からの要求に応答して、ユーザの現在の音響的な環境を推定する。
【００２９】
対話管理部１１６は、音声認識部１１０が音声認識に成功したときに、導出した文字データを解析してユーザの意図を推定または抽出し、その意図への対応を決定する。タスク処理部１１８は、対話を通じて要求されたタスクを処理し、または外部モジュール（図示せず）に処理を要求する。
【００３０】
応答方法決定部１２２は、ユーザの音響的環境の推定の結果に基づいてユーザへ応答を出力するための方法または手段を決定する。応答生成部１２４は、その決定された応答方法または応答手段に従ってユーザへの応答を生成する。出力信号送信部１２６は、応答生成部１２４によって生成されたユーザへの応答信号を、応答方法決定部１２２によって決定された応答方法または応答手段でユーザ端末へ送信する。その応答方法には、ユーザ端末との通信の“切断”も含まれている。
【００３１】
図２は、図１の対話システム１００における処理のフロー図を示している。
【００３２】
ステップ２０２において、入力信号受信部１０２は、ユーザ端末から送信された音声信号を受信する。音響解析部１０４は、ステップ２０４において受信した音声信号を解析する。ステップ２０６において、音響解析部１０４は、ユーザ発声前の背景雑音のレベルを検出し、そのレベルが閾値より大きいかどうかを判定する。そのレベルが閾値より小さいと判定された場合には、音響解析部１０４は、信号を解析して音声信号を音声信号記録部１０６に供給する。ステップ２０８において、音声信号記録部１０６は音声信号をデータベース１０８に蓄積する。
【００３３】
ステップ２０６においてそのレベルが閾値以上であると判定された場合には、音響解析部１０４は、そのレベルの値を認識失敗原因判定部１１２に供給して、認識失敗の原因になるか否かの判定を要求する。手順はステップ２１４へ進む。
【００３４】
ステップ２１４において、認識失敗原因判定部１１２は、音響解析部１０４からの要求に応答して、背景雑音が認識失敗の原因となるか否かを判定する。それが失敗の原因になると判定された場合は、認識失敗原因判定部１１２は、さらにステップ２１６において認識時のパラメータの調整によって対処できるかどうかを判定する。パラメータの調整によって対処できると判定された場合には、認識失敗原因判定部１１２は、認識パラメータ設定部１１４に認識パラメータを調整するよう要求する。ステップ２１８において、認識パラメータ設定部１１４は認識パラメータを調整し即ち認識パラメータの値を変更する。その際、ステップ２０８における音声信号の記録が行われていない場合は、認識失敗原因判定部１１２は、ステップ２０８におけるのと同様に音声信号記録部１０６に音声信号をデータベース１０８に蓄積させる。このように、ユーザ発声前の背景雑音を検出した時点で失敗要因に対処するので、音声処理効率が高くなる。一方、ステップ２１６においてシステム１００内での対処が不可能であると判定された場合には、手順はステップ２２４に進む。
【００３５】
ステップ２１０において、音声認識部１１０は、音声信号データベース１０８中の記録された音声信号に対して音声認識を実行する。
【００３６】
ステップ２１２において、音声認識部１１０は、音声認識が成功したかどうか、即ち認識結果が得られたかどうかを判定する。音声認識が成功したと判定された場合、即ち、音声区間の切り出しに成功し、各切り出し区間の音声データに対する文字列が導出され、さらに、その導出された文字列によって表されるメッセージ（単語、フレーズ、文等）の確実性または信頼性を表す認識スコアが予め定めた閾値よりも高い場合には、手順はステップ２２０へ進む。認識に成功しなかった即ち失敗したと判定された場合には、手順はステップ２１４へ進む。
【００３７】
ステップ２２０において、対話管理部１１６は、音声認識の結果得られたメッセージからユーザの意図を抽出または推定し、その結果に応じてユーザへの対応法を決定し、必要な場合にはタスク処理部１１８にタスクの処理を要求する。ステップ２２０の後、手順はステップ２２６に進む。ステップ２２２において、タスク処理部１１８はそのメッセージによって表された要求に従ってタスクを処理する。その後、手順はステップ２２６に進む。
【００３８】
ステップ２１４において、認識失敗原因判定部１１２は、さらに、音声認識部１１０からの要求に応答して、音声認識失敗の原因を解析する。認識失敗原因判定部１１２は、認識時のパラメータを調整することによってそれに対処できるどうかを判定する。パラメータの調整によって対処できると判定された場合には、認識失敗原因判定部１１２は、認識パラメータ設定部１１４に認識パラメータを調整するよう要求する。ステップ２１８において、認識パラメータ設定部１１４は認識パラメータを調整し即ち認識パラメータの値を変更する。認識失敗原因判定部１１２が、システム１００内での対処が不可能であると判定した場合には、手順はステップ２２４に進む。
【００３９】
ステップ２２４において、ユーザ環境推定部１２０は、ユーザの音響的環境を推定し、ユーザに対する応答方法または応答手段を決定するための情報を取り出す。
【００４０】
ステップ２２６において、応答方法決定部１２２は、ユーザの音響的環境を考慮して応答方法または応答手段を決定する。ステップ２２８において、応答生成部１２４は、応答方法に応じた応答信号を生成する。ステップ２３０において、出力信号送信部１２６は、決定された応答方法または応答手段、例えば音声メッセージまたは電子メールによって応答信号をユーザ端末へ送信する。応答方法の一形態として、場合によってはユーザ端末との通信を切断してもよい。
【００４１】
図３は、本発明の実施形態による、インターネットに接続された図１の対話システム１００を含むボイスポータル３００の構成を示している。ボイスポータル３００は、図１の対話システム１００と、ユーザ認証部３１０と、ユーザ情報データベース３２０と、認識失敗原因対処履歴データベース３３０とを具えている。
【００４２】
ユーザ認証部３１０は、ユーザからの入力信号として受け取ったユーザＩＤおよびパスワードまたはユーザ音声に対する音声認証によってユーザ認証を行う。ユーザＩＤおよびパスワード、および音声認証に必要なユーザ情報は、システム１００を初めて利用するときにユーザ情報データベース３２０に予め登録される。ユーザ認証に成功した場合には、図１の各部１０２〜１２６は、図２における各ステップにおいてユーザ情報データベース３２０を参照して、システム１００の利用におけるそのユーザの特徴、例えば、“いつも背景雑音の大きい場所からシステムを利用する”、および“いつも大きな声で話す”のような特徴を考慮して、各処理を実行する。
【００４３】
ユーザ情報データベース３２０は、ユーザによるシステム１００の利用に関する情報を蓄積し、ユーザＩＤおよびパスワードのようなユーザ識別情報に加えて、ユーザの利用履歴および利用時の音響的環境に関する情報を蓄積する。ユーザ情報データベース３２０は、図１の対話システム１００の音声認識部１１０、認識失敗原因判定部１１２、認識パラメータ設定部１１４、対話管理部１１６、タスク処理部１１８、ユーザ環境推定部１２０、応答方法決定部１２２および応答生成部１２４によってアクセスされて、情報が読み取られ（参照され）および書き込まれる。ユーザ情報データベース３２０は、ユーザの要求に応答して、ユーザ情報を削除する。
【００４４】
認識失敗原因対処履歴データベース３３０は、例えば“背景雑音が大き過ぎる”というような、ユーザ側の音響的な環境が劣悪と判定された場合や、音声認識に失敗した場合における対処法の履歴（ログ）を蓄積している。例えば、“音声区間の切り出しに失敗したときに、切り出しパラメータの値を‘Ａ１’から‘Ａ２’に変更したら再認識に成功した”という内容の情報を記述している。このデータベース３３０を利用することによって、２回目以降の音声認識において失敗を効率的に回避したり、認識が失敗した時に迅速に対処でき、処理効率が向上する。例えば、認識パラメータ設定部１１４は、過去に再認識に成功したときに用いられた各パラメータの値の組み合わせを優先的に採用することによって、再認識の試行回数が低減され、認識が高速になるという利点が得られる。
【００４５】
図４は認識失敗原因判定部１１２の構成を示している。認識失敗原因判定部１１２は、音声区間検出部４０２、Ｓ／Ｎ比検出部４０４、話速検出部４０６、認識失敗原因対処法決定部４０８および認識失敗原因判定情報データベース４１０を含んでいる。
【００４６】
表１は、認識失敗原因判定情報データベース４１０における認識失敗原因判定情報を例示している。
【表１】

【００４７】
表１において、認識失敗原因判定情報として、判定項目（ファクタ）と、各判定項目に対するエラー閾値と、その原因への対処法とが記述されている。
【００４８】
表１において、“最短音声区間”とは、入力信号から音声信号区間として切り出すための最短区間を表している。一般的に、単発的な雑音は区間が短いので、最短音声区間を長めに設定することによって、雑音の切り出しを減少させることができる。しかし、最短音声区間が長過ぎると、例えば“に（２）”のような短い単語が切り出せないので、パラメータの調整が必要である。
【００４９】
“認識スコア”は、音声認識で得られた文字列のメッセージの確実性または信頼性を表す。認識スコアは、処理方法によって計算方法（尺度）が変わってもよい。音声認識では、幾つかの解の候補の中から、認識スコアが最も高く、かつ、その値が閾値以上のものを認識結果として出力する。逆に、認識結果のメッセージが得られても、その認識スコアが閾値よりも低ければ、信頼性が低いと判定されてその結果は拒否される。認識率が低い場合には、認識スコアの閾値を下げることによって、正解であるにもかかわらずスコアが低かったために拒否されていたメッセージを正解として抽出できることがある。しかし、閾値を下げ過ぎる不適当な結果も許容してしまうので、パラメータの値の調整が必要である。
【００５０】
“Ｓ／Ｎ比”は、音声信号と雑音信号の電力比である。雑音が大きくても、それ以上に音声信号が大きければＳ／Ｎ比は大きくなる。一般的に、Ｓ／Ｎ比が大きい方が認識率は向上する。Ｓ／Ｎ比が閾値よりも小さい場合には、ユーザに雑音の少ないところで音声を再入力させたり、または、ユーザに大きな声で音声を再入力させることによって対処することができる。
【００５１】
“話速”はユーザの話す速さを表す。一般的に、発話１秒あたりのモーラ数（≒音節数）で速さを表す。即ち、単位時間に多くの言葉を発するほど話速が速い。一般的に、話速が速過ぎると認識率が低下するので、話速の検出値が表１の閾値よりも大きい場合には、ユーザにゆっりと発話するよう指示する。逆に、話速が遅すぎても認識率は低下するので、話速の検出値が別の閾値よりも小さい場合には、ユーザに早く発話するよう指示する。
【００５２】
表１は、その他の認識失敗原因判定情報をも含んでいてもよい。その内容は表の形で示されているが、別の形態であってもよく、例えばテキスト形式であってもよい。
【００５３】
認識失敗原因判定部１１２による処理の例として、入力信号における音声区間前の部分に対する処理、および入力信号における音声信号部分に対する処理について説明する。
【００５４】
入力信号における音声区間前の部分に対する処理
図２において手順がステップ２０６（ＹＥＳ）からステップ２１４に進んだときそのステップ２１４において、図４の認識失敗原因判定部１１２は、音響解析部１０４からの要求に応答して、雑音レベルと認識失敗原因判定情報に基づいて、入力信号の背景雑音が認識失敗の原因となるか否かを判定する。背景雑音が認識失敗の原因になると判定された場合には、認識失敗原因判定部１１２は、ユーザ情報データベース３２０および認識失敗原因対処履歴データベース３３０の情報をも参照して、失敗原因への対処法を決定する。次に、その処理をより詳しく説明する。
【００５５】
入力信号において、ユーザが発声する前の信号、即ちユーザが発声していない部分の信号は背景雑音を表している。認識失敗原因判定部１１２は、その背景雑音が“音声認識失敗の原因になるか否か”を次の手順で推定する。
【００５６】
まず、前処理として、音響解析部１０４（図１）によって入力信号から背景雑音の部分が抽出されて、背景雑音の音響的特徴、例えば雑音レベルが検出される。
【００５７】
ステップ１：　認識失敗原因判定部１１２は、音響解析部１０４から、背景雑音の音響的特徴に関する情報とともに、前処理において抽出された背景雑音が“音声認識失敗の原因になるか否か”を判定するよう求める要求を受け取る。
【００５８】
ステップ２：　その判定要求に応答して、認識失敗原因判定部１１２の認識失敗原因対処法決定部４０８は、背景雑音の音響的特徴に関する情報、および認識失敗原因判定情報（表１参照）から、背景雑音が“音声認識失敗の原因になるか否か”を判定する。例えば、認識失敗原因判定情報に“Ｓ／Ｎ比（信号対雑音比）が１０ｄＢ以下の場合は、誤認識の原因となり得る”という内容が記述されている。実際の背景雑音レベルから推定されるＳ／Ｎ比（この場合は背景雑音区間は音声信号のない区間なので音声信号レベルＳを一般的な値に想定した場合の推定Ｓ／Ｎ比）が１０ｄＢ以下の場合には、認識失敗原因対処法決定部４０８は、“入力信号の背景雑音は音声認識失敗の原因になる”と判定する。さらに、認識失敗原因対処法決定部４０８は、“このユーザはＸさんである”、“Ｘさんは、いつも推定Ｓ／Ｎ比が１０ｄＢの環境でシステムを利用するが、過去１０回の利用において、音声認識率は９８％以上である”のようなユーザ情報、および、認識失敗原因対処履歴がある場合にはその情報をも、判定項目として参照する。このような場合は、推定Ｓ／Ｎ比が１０ｄＢであっても、Ｘさんの場合は音声認識に影響がないので、認識失敗原因対処法決定部４０８は“入力信号の背景雑音は音声認識失敗の原因とはならない”と判定する。このように、ユーザに応じて処理方法を変更することができるので、ユーザに特化した音声処理が可能となる。
【００５９】
ステップ３：　認識失敗原因対処法決定部４０８は、背景雑音が“音声認識失敗の原因になる”と判定した場合には、その旨をユーザに通知する前に、ユーザ環境推定部１２０にユーザの音響的環境を推定するよう要求する。
【００６０】
入力信号における音声信号に対する処理
図２において手順がステップ２１２（ＮＯ）からステップ２１４に進んだときそのステップ２１４において、音声認識部１１０からの要求に応答して、図４の認識失敗原因判定部１１２は、認識に失敗した音声データの音声区間、Ｓ／Ｎ比および話速を検出する。これによって、最短音声区間長、最長音声区間長、雑音のレベルおよび話速のような音声信号の特徴の値を導出または測定する。次に、認識失敗原因判定部１１２は、それらの導出された特徴の値と、そのデータベース４１０中の認識失敗原因判定情報とを照合して認識失敗への対処法を決定する。次に、その処理をより詳しく説明する。
【００６１】
ステップ１：　音声認識部１１０（図１）において認識結果が得られない場合、認識失敗原因判定部１１２の認識失敗原因対処法決定部４０８は、音声認識部１１０から失敗原因を判定するよう求める要求を受け取る。認識結果が得られない場合であっても、例えば、切り出し情報や各ステップにおける認識スコアのような認識処理過程のデータがあるときは、認識失敗原因対処法決定部４０８はそれらの情報をも音声認識部１１０から受け取る。
【００６２】
ステップ２：　認識失敗原因判定部１１２の音声区間検出部４０２、Ｓ／Ｎ比検出部４０４および話速検出部４０６は、その判定の要求に応答して、入力音声データの音声区間（音素、音節、単語、句または文等を単位とした切り出し区間）およびＳ／Ｎ比および話速を検出または測定する。認識失敗原因対処法決定部４０８は、必要に応じて、音声認識部１１０による上述の音声認識過程のデータも利用する。
【００６３】
ステップ３：　認識失敗原因対処法決定部４０８は、ステップ２の検出結果と認識失敗原因判定情報とから、認識失敗原因を判定する。例えば、認識失敗原因判定情報において“音声区間切り出し時の最短音声区間が５０ｍｓ”という情報が記述されており、実際に切り出した音声区間において、区間長５０ｍｓ程度の信号の多くが雑音であると推定された場合には、認識失敗原因対処法決定部４０８は、“切り出しミスの可能性がある”または“雑音を多く切り出している”と判定して、“最短音声区間を長く設定すれば、例えば１００ｍｓにすれば、区間長５０ｍｓ程度の雑音を切り出さなくなる”即ち“認識時の最短単語長を１００ｍｓに設定して再認識すべきである”と判定する。検出したＳ／Ｎ比が認識失敗原因判定情報に記述されている閾値よりも小さいときには、認識失敗原因対処法決定部４０８は、“雑音が致命的である”と判定して、“雑音の少ないところでの再入力または大きな声での再入力が必要”と判定する。“話速が速過ぎる”と判定された場合には、認識失敗原因対処法決定部４０８は“ゆっくりとした発話での再入力が必要”と判定する。これらの判定の際には、上述したのと同様に、ユーザ情報や認識失敗原因対処履歴の情報を参照して、例えば次のように、上述の検出を省略したり、対処法を変更したりする。
【００６４】
−　既にパラメータを調整して再認識処理を行って、再び認識に失敗した場合には、一度行った上述の検出を省略して、パラメータをさらに調整して再認識処理を行う。
【００６５】
−　パラメータの調整を伴う再認識を複数回（例えば３回）行った後は、パラメータ調整による対処を中止する。
【００６６】
−　“Ｘさんはいつも早口で話し、しかもそれが致命的になっている”という情報があった場合には、話速に関する対処を優先させる。
【００６７】
ステップ４：　認識失敗原因対処法決定部４０８は、ステップ３においてパラメータの調整によって対処できない場合には、例えばユーザへの通知が必要なときにはその前にユーザ環境推定部１２０にユーザの音響的環境を推定させ、パラメータの調整によって対処可能できる場合には、認識パラメータ設定部１１４にパラメータを調整させる。
【００６８】
詳しく説明すると、ステップ３においてパラメータの調整によって対処可能であると判定された場合には、認識失敗原因対処法決定部４０８は、認識パラメータ設定部１１４にパラメータの調整を要求する。例えば、認識失敗原因対処法決定部４０８が、表１の認識失敗原因判定情報に基づいて、最短音声区間の設定が小さすぎて音声区間の切り出しミスが生じていると推定した場合、認識失敗原因対処法決定部４０８は、切り出しパラメータの調整によって対処できると判定し、“このユーザは、パラメータ値がＡ１の場合に認識率が高い”、“過去の履歴ではパラメータ値がＡ２の場合に認識率が高い”のようなユーザ情報および認識失敗原因対処履歴の情報をも考慮して、認識パラメータ設定部１１４にパラメータの調整を要求し、その調整されたパラメータに従って音声認識部１１０に再び音声認識するよう指示する。このように、ユーザに応じて処理方法を変更することができるので、ユーザに特化した音声処理が可能となる。
【００６９】
一方、音声認識の失敗に対してシステム１００内での対処が不可能であると判定された場合、例えば上述の再認識をパラメータの値を変えながら所定回数反復しても認識に成功しない場合には、認識失敗原因対処法決定部４０８は、失敗原因およびその失敗への対処法をユーザへ通知する前に、ユーザ環境推定部１２０にユーザの音響的環境の推定を要求する。
【００７０】
図５は認識パラメータ設定部１１４の構成を示している。認識パラメータ設定部１１４は、パラメータ決定部５０２および認識実行コマンド生成部５０４を含んでいる。パラメータ決定部５０２が図４の認識失敗原因判定部１１２からパラメータ調整の要求を受け取ったとき、パラメータ決定部５０２は、まず、データベース３２０のユーザ情報、データベース３３０の認識失敗原因対処履歴を参照して、再認識時のパラメータの値を決定する。次に、認識実行コマンド生成部５０４は、その決定されたパラメータの値を反映した音声認識実行コマンドを作成し、必要に応じて音声認識部１１０に再認識処理を要求する。
【００７１】
図６は、図５の認識パラメータ設定部１１４による処理のフロー図を例示している。
【００７２】
ステップ６０２において、パラメータ決定部５０２は、認識失敗原因判定部１１２から認識パラメータ設定の要求を、認識失敗原因判定部１１２における判定、例えば“最短音声区間の設定を５０ｍｓより長くする”または“認識スコアの閾値を６０より下げる”のような情報とともに、受け取る。
【００７３】
ステップ６０４において、パラメータ決定部５０２は、ユーザ情報と認識失敗原因対処履歴があるかどうかを判定する。ないと判定された場合は、ステップ６０８において、パラメータ決定部５０２は、パラメータの値をどれだけ変化させるかを決定する。基本的には、経験的（実験的）に定めた一定量だけ変化させる。例えば、“最短音声区間に関しては１０ｍｓずつ値を変化させる”、または“認識スコアの閾値は５ずつ変化させる”のような情報に基づいてパラメータの値を変化させる。その後、手順はステップ６１０に進む。
【００７４】
ステップ６０４においてユーザ情報と認識失敗原因対処履歴があると判定された場合は、ステップ６０６において、ユーザ情報と認識失敗原因対処履歴も参照してパラメータの値を決定する。例えば、“Ｘさんの過去１０回の利用において、認識スコアの設定を５０としたときの認識率が一番高い”、または“既に最短音声区間の設定を変えてており、現在は６０ｍｓにセットされている”のようなユーザ情報や認識失敗原因対処履歴がある場合には、その情報も参照してパラメータの値を決定する。例えば、上述のように“Ｘさんは認識スコアの設定を５０とするのが良い”という情報がある場合には、６０から２回にわけて５ずつ下げるのではなく、直ぐに５０に設定することによって処理を効率化する。その後、手順はステップ６１０に進む。
【００７５】
ステップ６１０において、認識実行コマンド生成部５０４は、ステップ６０６または６０８の結果に基づいて、新しいパラメータ値を反映した認識実行コマンドを生成し、ステップ６１２において音声認識部１１０に音声の再認識を要求する。
【００７６】
図７は、ユーザ環境推定部１２０の構成を示している。ユーザ環境推定部１２０は、雑音定常性解析部７０２および環境推定部７０４を含んでいる。
【００７７】
雑音定常性推定部７０２は、図４の認識失敗原因判定部１１２からのユーザ環境推定の要求に応答して、入力音声データの雑音の定常性を解析する。
【００７８】
環境推定部７０４は、例えば、認識失敗原因判定部１１２から検出されたＳ／Ｎ比のような音声信号の特徴、および“Ｘさんは一定の雑音環境下でシステムを利用する”のようなユーザ情報を参照することによって、例えば、“音声を主とした対話が可能な環境かどうか”、“どの程度の音量で出力すればユーザが聞き取れるかどうか”または“ノイズ・キャンセラ（雑音除去装置／ツール）の使用が有効かどうか”のような音響的環境を判定する。例えば、雑音が比較的定常的で、Ｓ／Ｎ比が１０ｄＢで、“Ｘさんは、いつも職場からシステムを利用する”のようなユーザ情報があった場合は、次のように推定する。
【００７９】
−　Ｓ／Ｎ比＝１０ｄＢは、背景雑音が大きい可能性を表し、音声による対話がやや困難であることを表している。
−　但し、最大音量で音声応答を出力すればユーザは聞き取れる。雑音が比較的定常的なので、ノイズ・キャンセラの使用が有効である。
−　Ｘさんの職場の音響的環境に合わせたノイズ・キャンセラをＸさんの携帯端末にインストールすれば、次回以降の音声認識が容易になる。
【００８０】
環境推定部７０４は、推定されたユーザの音響的環境に応じて、例えば“システム側の音声出力の音量を最大にし、音声を主とした対話を行う”と決定する。環境推定部７０４は、さらに、例えば“Ｘさんの職場環境に合わせたノイズ・キャンセラをＸさんの携帯に送信する。”と決定する。
【００８１】
上述の“Ｘさんは、いつも同じ職場からシステムを利用する”というようなユーザ情報を獲得するために、例えば、システム１００の利用の初回に、またはユーザの利用環境が変化したときに、音声入力時の周囲の音響的環境の状況を端末を用いて登録するようユーザに指示してもよい。その際、その状況における背景雑音を記録し、音響解析部１０４によって予め音響解析することによって、環境推定部７０４は、次回以降において音響解析部１０４によって同様の雑音成分が検知された場合には、“同じ環境下でシステムを利用している”と推定することできる。
【００８２】
図８は、図１における応答方法決定部１２２による処理のフロー図を示している。応答方法決定部１２２は、上述のユーザ環境推定の結果に基づいて応答方法または応答手段を決定する。
【００８３】
ステップ８０２において、応答方法決定部１２２は、音声認識が成功したかどうかを判定する。音声認識が成功したと判定され、即ち音声認識において認識結果が得られ、即ち、音声区間の切り出しに成功し、切り出し区間の音声に対する文字列が導出され、認識スコアが所定の閾値よりも高い場合には、ユーザは音声認識に影響がない程度の雑音が存在する音響的環境にいると判定され、ステップ８０８において、応答方法決定部１２２は、音声を主たる媒体とした通常の応答方法または応答手段を用いて対話を継続することを決定する。
【００８４】
一方、ステップ８０２において認識が成功しなかったと判定された場合、即ち、背景雑音が認識失敗原因になると判定された場合、または音声認識において認識結果が得られない場合には、ステップ８０４において応答方法決定部１２２は、ユーザ環境推定部１２０からユーザの音響的環境の推定結果を取得する。
【００８５】
ステップ８０６において、応答方法決定部１２２は、音声対話が可能かどうかを判定する。音声対話が可能であると判定された場合は、ステップ８１０において、応答方法決定部１２２は、音声を主たる媒体とした通常の応答方法または応答手段を用いて、認識失敗の事実とその原因およびそれへの対処法をユーザに提示して対話を継続することを決定する。
【００８６】
ステップ８０６において音声対話が不可能と判定された場合には、ステップ８１２において、応答方法決定部１２２は、対話を終了する旨を音声によって通知してユーザ端末との通信を切断し、その後、電子メールによる文字または画像信号を媒体とした応答方法または応答手段を用いて、一方的に対話を終了させたこと、および認識失敗の事実とその原因およびそれへの対処法をユーザに提示することを決定する。このように、音声信号の検出ができない場合や、音声認識に失敗して音声による対話が困難な場合に、ユーザ端末とシステム１００の間の通信が切断されるので、無駄な対話または通信を回避することができる。また、通信を切断する前に、ユーザ環境に適した応答方法で対話終了の旨をユーザに通知することができるので、ユーザに不愉快な思いをさせることを最小限に抑えることができる。その際、入力信号のＳ／Ｎ比に基づいて背景雑音の大きさを検知し、その値に応じて出力信号の音量を上げて、雑音環境下でもユーザにメッセージが伝わるようにしてもよい。
【００８７】
ステップ８１０において、またはステップ８１２における通信切断の前に、応答方法決定部１２２は、さらに、必要に応じて、認識失敗への対処に必要なツール、例えば、雑音に対処するためのノイズ・キャンセラのプログラムをユーザ端末に送信し、さらに音声認識失敗原因への対処用のツールを送る旨をユーザに通知することを決定してもよい。このように、必要に応じて、音声認識失敗原因への対処に必要なツールを作成または用意してユーザ端末に送信するので、失敗時の対処を支援することができ、ユーザの負担が軽減する。
【００８８】
図９は、応答生成部１２４の構成を示している。応答生成部１２４は、通信切断信号生成部９０２、プログラム生成部９０４、プログラム・データベース９０６、応答生成管理部９０８、電子メール生成部９１０、応答文生成部９１２、音声信号生成部（音声合成部）９１４および画像信号生成部９１６を含んでいる。
【００８９】
応答生成管理部９０８は、応答方法決定部１２２によって決定された応答方法または応答手段に従って、例えば応答文またはプログラムのような応答内容と、例えば音声信号、電子メールまたは通信切断信号のような応答信号の種類と、その生成タイミングおよび出力タイミングとを決定して、それらの生成を各生成部９０２〜９１６に要求する。
【００９０】
通信切断信号生成部９０２は、ユーザ端末との通信を切断するための信号を生成する。プログラム生成部９０４は、ユーザ端末で使用する認識失敗原因への対処プログラム（例えば、ノイズ・キャンセラ）を新たに生成するか、または、プログラム・データベースに予め保存されているツール群の中からそれを選択し、システム応答として用意する。応答文生成部９１２は、ユーザ発話に対する一般的な応答や、認識失敗時の通知など、ユーザへの応答メッセージを生成する。この際には、ユーザ情報や認識失敗時対処履歴の情報も利用する。電子メール生成部９１０は、応答文生成部９１２またはプログラム生成部９０４で生成された応答内容を組み込んだ電子メールを生成する。音声信号生成部９１４は、応答文生成部９０４で生成された応答内容を音声信号に変換する。その際、音声信号生成部９１４は、ユーザの音響的環境を参照して音声信号の音量を調整する。画像信号生成部９１６は、応答文生成部９１２で生成された応答内容を画像信号に変換する。
【００９１】
出力信号送信部１２６は、図９の応答生成部９０２、９１０、９１４および９１６で生成された各種応答信号をユーザ端末に送信する機能、即ち、通信切断信号の検出に応答してユーザ端末との通信を切断する機能、電子メールを送信する機能、音声信号を送信する機能、および画像信号を送信する機能を有する。
【００９２】
このように、本発明の実施形態によれば、ユーザ発声前の背景雑音からユーザの音響的な環境が劣悪と判定された場合や、音声認識に失敗した場合に、その原因を解明し、その原因およびそれへの対処法をユーザ端末に送信することができるので、認識失敗に適切に対処することができる。また、その原因および対処法をユーザ端末に通知するときに、ユーザの環境に適した応答方法でそれをユーザにより確実に伝えることができる。
【００９３】
以上説明した実施形態は典型例として挙げたに過ぎず、その変形およびバリエーションは当業者にとって明らかであり、当業者であれば本発明の原理および請求の範囲に記載した発明の範囲を逸脱することなく上述の実施形態の種々の変形を行えることは明らかである。
【００９４】
（付記１）　端末より接続可能な音声対話システムであって、
前記端末からの音声信号に対して音声認識を実行する音声認識手段と、
前記音声認識の結果が得られないときにその原因を判定して、前記判定された原因への対処法を決定する対処法決定手段と、
前記端末の音響的環境を推定する推定手段と、
前記推定された音響的環境に応じて前記端末に対する応答方法を決定する応答方法決定手段と、
前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信する送信手段と、
を具えることを特徴とする音声対話システム。
（付記２）　さらに、ユーザの識別情報および利用履歴情報を記憶する記憶手段を具え、
前記対処法決定手段が、前記記憶手段に格納された前記ユーザの前記識別情報および利用履歴情報に従って前記対処法を決定することを特徴とする、付記１に記載の音声対話システム。
（付記３）　前記対処法決定手段が、音声対話は不可能と判定したときに、前記対処法として前記端末との通信を切断することを決定することを特徴とする、付記１または２に記載の音声対話システム。
（付記４）　さらに、前記決定された対処法を記憶する対処法履歴記憶手段を具え、
前記音声認識手段が、前記対処法履歴記憶手段に格納された前記対処法の履歴に従って音声認識を実行することを特徴とする、付記１乃至３のいずれかに記載の音声対話システム。
（付記５）　前記応答方法決定手段は、前記推定された音響的環境に応じて、前記決定された対処法を表す音声信号、電子メールおよび／または画像信号が前記端末に送信されるようにすることを特徴とする、付記１乃至４のいずれかに記載の音声対話システム。
（付記６）　ユーザからの音声信号に対して音声認識を実行する音声認識手段と、
前記音声認識の結果が得られないときにその原因を判定して、前記判定された原因への対処法を決定する対処法決定手段と、
前記ユーザの音響的環境を推定する推定手段と、
前記推定された音響的環境に応じて前記ユーザに対する応答方法を決定する応答方法決定手段と、
前記決定された対処法を表す情報を前記決定された応答方法で前記ユーザに通知する通知手段と、
を具えることを特徴とする音声対話システム。
（付記７）　情報処理装置において用いられる音声対話のためのプログラムであって、
端末からの音声信号に対して音声認識を実行するステップと、
前記音声認識の結果が得られないときにその原因を判定するステップと、
前記判定された原因への対処法を決定するステップと、
前記端末の音響的環境を推定するステップと、
前記推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、
前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、
を実行させるよう動作可能なプログラム。
（付記８）　前記対処法を決定するステップが、記憶手段に格納された前記ユーザの識別情報および利用履歴情報に従って前記対処法を決定することを含むことを特徴とする、付記７に記載のプログラム。
（付記９）　さらに、前記決定された対処法を記憶するステップを実行させるよう動作可能であり、
前記音声認識を実行するステップが、前記対処法履歴記憶手段に格納された前記対処法の履歴に従って音声認識を実行することを含むことを特徴とする、付記７または８に記載のプログラム。
（付記１０）　前記応答方法を決定するステップが、前記推定された音響的環境に応じて、前記決定された対処法を表す音声信号、電子メールおよび／または画像信号が前記端末に送信されるようにすることを含むことを特徴とする、付記７乃至９のいずれかに記載のプログラム。
（付記１１）　音声対話システムにおいて用いられる音声対話方法であって、
端末からの音声信号に対して音声認識を実行するステップと、
前記音声認識の結果が得られないときにその原因を判定するステップと、
前記判定された原因への対処法を決定するステップと、
前記端末の音響的環境を推定するステップと、
前記推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、
前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、
を含む方法。
【００９５】
【発明の効果】
本発明は、前述の特徴によって、ユーザの環境に適した応答方法を選定することができ、音声認識に失敗したときにはその原因を知らせるだけでなくそれに対処するための手段をユーザ端末に提供することができ、ユーザの特徴および過去の状況を考慮して効率的に音声認識を行うことができるという効果を奏する。
【図面の簡単な説明】
【図１】図１は、本発明の実施形態による音声対話システムを示している。
【図２】図２は、図１の対話システムにおける処理のフロー図を示している。
【図３】図３は、本発明の実施形態による、インターネットに接続された図１の対話システムを含むボイスポータルの構成を示している。
【図４】図４は、認識失敗原因判定部の構成を示している。
【図５】図５は認識パラメータ設定部の構成を示している。
【図６】図６は、図５の認識パラメータ設定部による処理のフロー図を例示している。
【図７】図７は、ユーザ環境推定部の構成を示している。
【図８】図８は、応答方法決定部による処理のフロー図を示している。
【図９】図９は、応答生成部の構成を示している。
【符号の説明】
１００　音声対話システム
１０２　入力信号受信部
１０４　音響解析部
１１０　音声認識部
１１２　認識失敗原因判定部
１１４　認識パラメータ設定部
１１６　対話管理部
１１８　タスク処理部
１２０　ユーザ環境推定部
１２２　応答方法決定部
１２４　応答生成部
１２６　出力信号送信部

Claims

端末より接続可能な音声対話システムであって、
前記端末からの音声信号に対して音声認識を実行する音声認識手段と、
前記音声認識の結果が得られないときにその原因を判定して、前記判定された原因への対処法を決定する対処法決定手段と、
前記端末の音響的環境を推定する推定手段と、
前記推定された音響的環境に応じて前記端末に対する応答方法を決定する応答方法決定手段と、
前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信する送信手段と、
を具えることを特徴とする音声対話システム。
さらに、ユーザの識別情報および利用履歴情報を記憶する記憶手段を具え、
前記対処法決定手段が、前記記憶手段に格納された前記ユーザの前記識別情報および利用履歴情報に従って前記対処法を決定することを特徴とする、請求項１に記載の音声対話システム。
前記応答方法決定手段は、前記推定された音響的環境に応じて、前記決定された対処法を表す音声信号、電子メールおよび／または画像信号が前記端末に送信されるようにすることを特徴とする、請求項１または２に記載の音声対話システム。
ユーザからの音声信号に対して音声認識を実行する音声認識手段と、
前記音声認識の結果が得られないときにその原因を判定して、前記判定された原因への対処法を決定する対処法決定手段と、
前記ユーザの音響的環境を推定する推定手段と、
前記推定された音響的環境に応じて前記ユーザに対する応答方法を決定する応答方法決定手段と、
前記決定された対処法を表す情報を前記決定された応答方法で前記ユーザに通知する通知手段と、
を具えることを特徴とする音声対話システム。
情報処理装置において用いられる音声対話のためのプログラムであって、
端末からの音声信号に対して音声認識を実行するステップと、
前記音声認識の結果が得られないときにその原因を判定するステップと、
前記判定された原因への対処法を決定するステップと、
前記端末の音響的環境を推定するステップと、
前記推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、
前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、
を実行させるよう動作可能なプログラム。
音声対話システムにおいて用いられる音声対話方法であって、
端末からの音声信号に対して音声認識を実行するステップと、
前記音声認識の結果が得られないときにその原因を判定するステップと、
前記判定された原因への対処法を決定するステップと、
前記端末の音響的環境を推定するステップと、
前記推定された音響的環境に応じて前記端末に対する応答方法を決定するステップと、
前記決定された対処法を表す情報を前記決定された応答方法で前記端末に送信するステップと、
を含む方法。