JP2008116560A

JP2008116560A - 音声対話装置及び音声理解結果生成方法

Info

Publication number: JP2008116560A
Application number: JP2006297940A
Authority: JP
Inventors: Keiko Katsuragawa; 景子桂川; Minoru Togashi; 実冨樫; Takeshi Ono; 健大野
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-11-01
Filing date: 2006-11-01
Publication date: 2008-05-22
Anticipated expiration: 2026-11-01
Also published as: JP4946358B2

Abstract

【課題】過去に否定されていても、正しい認識結果であれば、理解結果として選択されにくくなることなく、同一の誤認識が繰り返されることを回避することができる音声対話装置を提供する。
【解決手段】音声対話装置１００は、音声認識処理部１１１による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する理解結果生成部１１３を備える。理解結果生成部１１３は、過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する。
【選択図】図１

Description

本発明は、発話された音声に応じて対話をする音声対話装置に関し、詳しくは、一旦、誤認識された際に行われる訂正発話の認識率を向上させる音声対話装置及び音声理解結果生成方法に関する。

ユーザによって発話された音声を入力し、入力された音声の音声認識結果に応じたシステム応答をすることで、ユーザとの間で対話をする音声対話装置が考案されている。このような音声対話装置では、一旦、誤認識された際に、キャンセルボタンなどを押下することでなされる訂正発話に対して、新たに音声認識処理を実行することができる。

このような音声対話装置において、入力された音声に対する音声認識結果が誤認識されたことで、ユーザによってキャンセルされた場合、この音声認識結果を音声認識対象から外すことで、同一の誤認識を繰り返すことを防止することができる手法が開示されている（例えば、特許文献１等参照。）。
特開平４−１７７９５６号公報

しかしながら、上述した特許文献１に開示された技術では、過去にキャンセルされた語句を音声認識対象から直ちに排除してしまうため、ユーザが明確に発話したとしても、一度キャンセルされてしまった語句を再入力することができないという問題があった。例えば、本来、音声認識したい語句を誤ってキャンセルした場合や、異なる場面で、キャンセルされた語句を入力する必要がある場合などに全く対応することができず、柔軟性に欠けていた。

そのため、音声認識手段による認識結果である複数の認識結果候補から、所定の選択基準値にしたがって結果を選択する際に、過去に否定された結果は選択されにくくなる方向に認識結果選択基準値を修正することにより、キャンセルされた認識結果が、発話された音声に対する応答となる理解結果として採用される可能性を残すことも考えられる。

しかしながら、この方法では、過去に訂正された結果を再度出力しないことに重点をおき、再度同じ発話をされることについては、その可能性を残す程度に認識結果の選択基準値を修正しているに過ぎず、正しい結果であったにもかかわらず否定した後、これと同じ内容を再入力しようとした場合には、特に明瞭に音声を入力するか、何度も同じ入力を繰り返す必要がある。

そこで、本発明は、上述した実情に鑑みて提案されたものであり、過去に否定されていても、正しい認識結果であれば、理解結果として選択されにくくなることなく、同一の誤認識が繰り返されることを回避することができる音声対話装置及び音声理解結果生成方法を提供することを目的とする。

本発明の音声対話装置は、発話された音声を入力する入力手段と、この入力手段によって入力された音声を認識対象語に基づき認識する音声認識手段と、この音声認識手段による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する理解結果生成手段と、この理解結果生成手段によって生成された理解結果に対して訂正を指示する訂正指示手段と、理解結果生成手段によって理解結果を生成する際に、訂正指示手段によって過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する選択基準値修正手段とを備えることにより、上述の課題を解決する。

また、本発明の音声理解結果生成方法は、発話された音声を入力する入力工程と、この入力工程によって入力された音声を認識対象語に基づき認識する音声認識工程と、この音声認識工程による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する理解結果生成工程と、この理解結果生成工程によって生成された理解結果に対して訂正を指示する訂正指示工程と、理解結果生成工程によって理解結果を生成する際に、訂正指示工程によって過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する選択基準値修正工程とを備えることにより、上述の課題を解決する。

本発明によれば、音声認識手段による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する。そして、訂正指示手段によって過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する。

これにより、ユーザによって発話された音声が何度も繰り返して誤認識されることを低減させることができると共に、キャンセルされた認識結果が理解結果として採用される可能性を残すことができる。したがって、ユーザによって発話された音声の音声認識率を大幅に向上させることが可能となる。

また、本発明によれば、音声認識による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する。そして、訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、理解結果を生成する際に当該認識結果候補が選択されにくくなる方向に修正する。

これにより、過去に否定されていても、正しい認識結果であれば、理解結果として選択されにくくなることなく、ユーザによって発話された音声が何度も繰り返して誤認識されることを回避することができる。したがって、ユーザによって発話された音声の音声認識率を大幅に向上させることが可能となる。

以下、本発明の実施の形態について図面を参照して説明する。

まず、図１を用いて、本発明の第１の実施の形態として示す音声対話装置の構成について説明をする。図１に本発明の第１の実施の形態として示す音声対話装置は、車両などの移動体に搭載されるナビゲーション装置に適用した場合の構成である。ナビゲーション装置は、例えば、移動体である車両に搭載された場合、車両の現在位置を検出し、地図データから表示された車両の現在位置に対応する地図を表示しながら所望の目的地までの経路案内をすることができる。

この音声対話装置をナビゲーション装置に適用すると、ナビゲーション装置で要求される各種機能を、ユーザとシステムとの対話によってインタラクティブに動作させることができる。

図１に示すように、音声対話装置１００は、マイク１２０と、Ａ／Ｄコンバータ１２１と、音声認識開始ボタン１３０と、取り消し指示ボタン１４０と、経路案内に用いる地図データやガイダンス音声の音声データなどを格納するディスク１５１から各種データを読み取るディスク読み取り装置１５０と、マイク１２０を介して入力された音声を音声認識し、音声認識結果の内容を理解してシステム応答を生成する制御装置１１０と、経路探索結果を示す地図、メニュー画面、制御装置１１０による音声認識結果などを表示するモニタ１６０と、Ｄ／Ａコンバータ１７１と、ガイダンス音声やユーザとの対話におけるシステム応答音声などを出力するスピーカ１７０とを備える。

マイク１２０は、ユーザによって発話された音声を、Ａ／Ｄコンバータ１２１を介して、後述する制御装置１１０における音声認識処理部１１１に入力する。例えば、ユーザは、ナビゲーション装置の操作に使用される語句及び文、すなわち操作コマンド及び地名や施設名、道路名などの固有名詞及びこれらの語句を含む文を発話して、マイク１２０からその音声を入力する。また、Ａ／Ｄコンバータ１２１は、マイク１２０から入力されるアナログ音声を制御装置１１０によって取り扱えるようにデジタル化する。

音声認識開始ボタン１３０は、ユーザの押下により、ユーザによって発話されマイク１２０を介して入力された音声に対する音声取り込み及び音声認識処理の開始を指示するためのボタンである。この音声認識開始ボタン１３０が押下された情報は、制御装置１１０における音声認識処理部１１１に供給される。

取り消し指示ボタン１４０は、ユーザの押下により、音声認識処理によって得られた認識結果に基づき生成された理解結果が誤りであった場合に、直前の音声入力前の状態にシステム状態を戻して再度音声入力をやり直すことを指示するためのボタンである。この取り消し指示ボタン１４０が押下された情報は、後述する制御装置１１０における理解結果生成部１１３に供給される。

ディスク１５１は、音声認識に使用する音声認識用辞書・文法、地図データベース、ガイダンス音声の音声データなどを格納した記憶媒体である。

一般に、音声認識用辞書・文法を用いて音声認識をするシステムでは、この音声認識用辞書・文法に記述されている認識対象語と文法とを用いた入力文だけを音声認識結果として受理することができる。

例えばナビゲーション装置のメインタスクを、経路探索をする際の目的地設定とすると、ユーザによってマイク１２０から入力される入力文として、「神奈川県」「横浜駅」などといった施設に関する単語のみの入力と「神奈川県の横浜駅」「東海道線の横浜駅」などといった複数のキーワードを組み合わせた文章による入力との両方を想定することができる。

したがって、ディスク１５１に格納され、状況に応じてディスク読み取り装置１５０によって音声認識処理部１１１内に取り込まれる音声認識用辞書・文法１１２は、このような単語のみの入力と複数のキーワードを含んだ文書の両方に対応することができる構成となっている。

モニタ１６０は、例えば液晶ディスプレイなどからなり、制御装置１１０から出力される施設検索結果や地図などを表示する。

Ｄ／Ａコンバータ１７１は、制御装置１１０から出力されるガイダンスやユーザとの対話におけるシステム応答などのデジタル音声をアナログ化する。また、スピーカ１７０は、Ｄ／Ａコンバータ１７１によってアナログ化した音声を出力する。

つぎに、制御装置１１０について説明をする。制御装置１１０は、音声認識処理部１１１と、理解結果生成部１１３と、応答生成部１１６と、ＧＵＩ表示制御部１１７と、音声合成部１１８とを備え、マイク１２０を介して入力されてＡ／Ｄコンバータ１２１によってデジタル化された音声に対して音声認識処理を施し、音声認識結果に応じたシステム応答を行う。

音声認識処理部１１１は、システム起動時に、ユーザによってマイク１２０から入力される入力文を受理する音声認識用辞書・文法１１２をディスク１５１から読み込む。この状態で、ユーザによって音声認識開始ボタン１３０が押下されると、音声認識処理部１１１は、音声認識処理を開始する。

音声対話装置１００においては、このようにして音声認識処理が開始されると、マイク１２０から入力される音声をトリガーとして音声認識処理部１１１による音声認識処理と、理解結果生成部１１３による理解結果生成処理と、応答生成部１１６による応答文生成処理と、ＧＵＩ表示制御部１１７による、モニタ１６０への応答文や検索結果などといったＧＵＩ表示処理と、音声合成部１１８による、音声での応答文出力処理がナビゲーション装置の機能である目的地設定や施設検索などが、１つのタスクが終了するまで繰り返されることになる。なお、この間に、ユーザは、取り消し指示ボタン１４０を押下することで直前の理解結果を取り消すことができる。

音声認識処理部１１１は、音声認識開始ボタン１３０によるユーザの指示に応じて、マイク１２０から入力されるユーザによって発話され、Ａ／Ｄコンバータ１２１でデジタル化された音声信号を取り込み、音声認識処理を実行する。そして、音声認識処理部１１１は、取り込んだ音声信号と、ディスク１５１から読み込んだ音声認識用辞書・文法１１２が保持する認識対象語からなる待ち受け文とのマッチング処理により音声認識を行い、音声認識結果を理解結果生成部１１３に出力する。

また、音声認識処理部１１１は、マッチング処理の際に、音声特徴データと各待ち受け文との音響的な近さである尤度を計算し、この尤度が一定の値以上のものを音声認識結果の認識結果候補とする。そして、音声認識処理部１１１は、尤度が高い音声認識結果の上位Ｎ個の認識結果候補（以下、Ｎ−ｂｅｓｔ候補とも呼ぶ。）とその尤度とを理解結果生成部１１３に出力する。

理解結果生成部１１３は、音声認識処理部１１１から音声認識結果として出力された認識結果候補の尤度に基づいて認識結果候補からユーザによって発話された音声に対する正しい理解結果を選択して応答生成部１１６に出力する。ここで選択された理解結果は、理解結果生成部１１３内に保持される過去理解結果リスト１１４の末尾に追加される。なお、この理解結果生成部１１３における処理内容については、後で詳細に説明をする。

応答生成部１１６は、理解結果生成部１１３から出力された理解結果に基づいて応答文を生成し、これをＧＵＩ表示制御部１１７及び音声合成部１１８に出力する。

ＧＵＩ表示制御部１１７は、必要に応じて、ディスク読み取り装置１５０を制御してディスク１５１に格納されている地図データを読み出し、モニタ１６０を介して地図を表示させたり、応答生成部１１６で生成された応答文に即した応答内容を、モニタ１６０を介して表示させたりする。

音声合成部１１８は、応答生成部１１６によって生成される応答文に応じて、応答文に即したデジタル音声信号を合成し、Ｄ／Ａコンバータ１７１を介してスピーカ１７０に出力する。

このような音声対話装置１００においては、マイク１２０による音声入力後であって、モニタ１６０やスピーカ１７０を介した応答出力の後に、取り消し指示ボタン１４０の押下による理解結果の取り消しが指示された場合には、今回の理解結果を取り消して、直前の音声入力前のシステム応答をもう一度出力し、再度音声入力をやり直す。その際、取り消された理解結果は、理解結果生成部１１３内に保持されるキャンセル情報リスト１１５に追加保存される。

つぎに、図２に示すフローチャートを用いて、制御装置１１０による音声認識処理を開始してから応答文を出力するまでの処理動作について説明をする。

まず、ナビゲーション装置が起動されると、音声対話装置１００の制御装置１１０は、ディスク読み取り装置１５０を制御してディスク１５１から音声認識用辞書・文法１１２を読み出し音声認識処理部１１１の記憶領域に格納させる。これにより、音声認識処理部１１１は、音声認識開始可能状態となる。

続いて、ユーザが音声認識開始ボタン１３０を押下するのに応じて、音声認識処理部１１１は、ステップＳ１において、ユーザによって発話されてマイク１２０を介して入力される音声の取り込みを開始する。

なお、音声認識処理部１１１は、音声認識開始ボタン１３０が押下されるまでは、デジタル化された音声信号（以下、単にデジタル信号とも呼ぶ。）の平均パワーの演算を継続している。そして、音声認識処理部１１１は、音声認識開始ボタン１３０が押下された後、この平均パワーに較べてデジタル信号の瞬時パワーが所定値以上に大きくなったとき、ユーザが発話したと判断して、デジタル化された音声信号の取り込みを開始する。

続いて、音声認識処理部１１１は、ステップＳ２において、ユーザ発話が完了したか否かを調べる。ここで、制御装置１１０は、ユーザ発話の完了が検出された場合には、ステップＳ３へと処理を移行し、発話完了が検出されなかった場合には、ステップＳ６へと処理を移行する。

音声認識処理部１１１は、ステップＳ３へと処理を移行した場合には、ユーザによって発話されたことに応じて、取り込んだデジタル化された音声信号と、当該音声認識処理部１１１の記憶領域に構築された音声認識用辞書・文法１１２が保持する待ち受け文とを比較し、音響的な尤度を計算することで音声認識処理を実行する。このとき、音声認識処理部１１１は、音響的な尤度の高いＮ−ｂｅｓｔ候補とその尤度とを音声認識結果として理解結果生成部１１３に出力する。

続いて、理解結果生成部１１３は、ステップＳ４において、理解結果生成処理を実行する。なお、理解結果生成部１１３による理解結果生成処理については、後で詳細に説明をする。理解結果生成部１１３は、ステップＳ４における理解結果生成処理が終了すると、ステップＳ５において、当該理解結果生成部１１３の記憶領域に保持されている過去理解結果リスト１１４の末尾に、この理解結果を追加保存し、ステップＳ９へと処理を移行する。

一方、制御装置１１０は、ステップＳ２において、ユーザの発話完了が検出されなかった場合には、ステップＳ６へと処理を移行し、ユーザによる発話待機状態において、取り消し指示ボタン１４０が押下されたか否かを調べる。

ここで、ユーザによる発話待機状態において、取り消し指示ボタン１４０が押下されなかった場合には、ステップＳ２へと戻り、ユーザの発話待機、並びに取り消し指示ボタン１４０の押下待機を所定の時間だけ継続する。

一方、取り消し指示ボタン１４０が押下された場合には、ステップＳ７へと処理を移行し、理解結果生成部１１３は、直前の理解結果である過去理解結果リスト１１４の末尾に追加した理解結果を取り出し、当該音声対話装置のシステムの状態をひとつ前の状態に戻す。これにより、見かけ上、ユーザによって直前の発話内容が取り消されたことになる。さらに、理解結果生成部１１３は、ステップＳ８において、この理解結果を過去理解結果リスト１１４から削除する代わりに、過去にキャンセルされたことを表すキャンセル情報として、キャンセル情報リスト１１５に追加する。

以上のような発話入力にともなう理解結果生成処理（ステップＳ３〜ステップＳ５）、又は、取り消し指示ボタン１４０の押下による直前の理解結果の訂正処理（ステップＳ７〜ステップ８）が終了すると、応答生成部１１６は、ステップＳ９において、ステップＳ５又はステップＳ８の処理を受け、システム応答を生成する。

具体的には、応答生成部１１６は、ステップＳ５を経た場合には、ステップＳ４にて理解結果生成部１１３が生成した理解結果に応じて応答文を生成する。一方、ステップＳ８を経た場合には、理解結果生成部１１３の記憶領域に保持されている過去理解結果リスト１１４のうち、最も新しい理解結果がキャンセル情報リスト１１５に移され、２番目に新しい理解結果がリストの末尾にある理解結果ということになるため、応答生成部１１６は、このリスト最末尾の理解結果に基づいて応答文を生成する。

続いて、ＧＵＩ表示制御部１１７は、ステップＳ１０において、応答生成部１１６の応答内容に応じてディスク１５１から読み出された応答表示内容をモニタ１６０に表示させる。また、音声合成部１１８は、応答生成部１１６によって生成された応答文に応じて応答文に即したデジタル音声信号を合成し、Ｄ／Ａコンバータ１７１を介してスピーカ７０に出力する。

続いて、制御装置１１０は、ステップＳ１１において、音声認識開始ボタン１３０が押下されたことに応じて開始された施設検索や目的地設定などのタスクが一通り完了したか否かを判断する。制御装置１１０は、全てのタスクが完了したものと判断した場合には、音声認識処理部１１１による音声認識処理を終了する一方で、タスク継続中の場合には、ステップＳ１へと処理を戻し、音声取り込みを再開する。

また、制御装置１１０は、取り消し指示ボタン１４０の押下により、ステップＳ７〜ステップＳ８の処理を経た場合には、タスクが完了しないため、ステップＳ１へと処理を戻し、ユーザからの次の発話を待ち受けることになる。

このようにして、音声対話装置１００は、ユーザによって発話された音声の認識処理を実行し、認識結果から生成される理解結果に応じたシステム応答を出力する。このとき、音声対話装置１００においては、取り消し指示ボタン１４０を押下することで、出力されたシステム応答、すなわち理解結果をキャンセルすることができる。

つぎに理解結果生成部１１３による理解結果生成処理について説明をする。理解結果生成部１１３による理解結果生成処理について説明するにあたり、図３に示すようなユーザと音声対話装置１００とによる対話例とそのときの内部状態を利用する。

まず、この対話例について説明をする。

符号２１０は、ユーザが発話した発話内容、及び、行った操作である。また、符号２２０は、符号２１０の操作内容としてユーザ発話がある場合に、この発話に対して音声認識処理部１１１が出力した音声認識結果から、助詞などを除いて意味理解に必要な単語だけを抜き出し、同じ理解結果をひとつにまとめたものをリスト化したものである。ここでは、同じ理解結果を生成する認識結果の尤度のうち、最も高い尤度をこの理解結果の尤度として付与している。なお、認識結果から理解結果候補リストを生成する方法は、後述するものとする。さらに、符号２３０は、理解結果生成部１１３がこの結果を受けて生成した過去理解結果リスト１１４の内部状態であり、符号２４０は、同じく理解結果生成部１１３が生成したキャンセル情報リスト１１５の内部状態である。そして、符号２５０は、これらの理解結果を受けて応答生成部１１６が出力した応答文である。

ここで、認識結果が次表１に示す『認識結果リストＡ』である場合における理解結果生成の例を示す。

理解結果生成処理では、認識結果の先頭から順に認識結果を取り出し、認識語から、理解結果に必要な単語のみを抜き出す。この具体例は施設検索タスクであるため、抜き出す単語は「県名」「路線名」「施設名」などに属する単語である。認識結果リストＡにおける第１の認識結果である「神奈川県」は、県名のみの１単語であるため、理解結果はそのまま「神奈川県」となる。理解結果生成部１１３は、これを認識結果尤度とともに所定の理解結果候補リストに追加しておく。第２の認識結果である「神奈川県です」は、県名と助動詞の組み合わせであり、今回必要なのは県名のみであるため、これも理解結果は「神奈川県」となる。理解結果生成部１１３は、この結果を、すでに理解結果候補リストに登録されている全ての理解結果と比較して、登録されていなければ理解結果に追加し、登録されていれば次の認識結果処理に移る。理解結果生成部１１３は、このようにして理解結果候補リストＲＬ１を作成する。

対話の流れは、以下のようになる。

『対話例』
第１のユーザ発話Ｕ１：「神奈川県」
第１のシステム応答ＳＲ１：「神奈川県のどちらですか？」
第２のユーザ発話Ｕ２：「横浜駅」
第２のシステム応答ＳＲ２：「横須賀駅でよろしいですか？」
第１のユーザ操作Ｕ３：取り消し指示ボタン１４０押下
第３のシステム応答ＳＲ３：「神奈川県のどちらですか？」
第３のユーザ発話Ｕ４：「横浜駅」
すなわち、ユーザは、目的地を設定するために第１のユーザ発話として「神奈川県」（Ｕ１）を発話した。

これに応じて、音声対話装置１００は、この発話から作成した理解結果候補リストＲＬ１の第１番目の候補として「神奈川県」を選択したため、理解結果「神奈川県」を過去理解結果リスト１１４に追加してＵＬ１とし、「神奈川県のどちらですか？」（ＳＲ１）と応答した。

これを受けて、ユーザは、目的地を設定するための第２のユーザ発話として「横浜駅」（Ｕ２）を発話した。

しかし、このときの理解結果候補の第１位は、「横須賀駅」となったため、音声対話装置１００は、理解結果としての「横須賀駅」を過去理解結果リスト１１４に追加してＵＬ２とし、「横須賀駅でよろしいですか？」（ＳＲ２）と応答した。

そのため、ユーザは、取り消し指示ボタン１４０を押下して、ＳＲ２の理解結果を取り消した（Ｕ３）。

これに応じて、音声対話装置１００は、過去理解結果リスト１１４、すなわちリストＵＬ２から最も直前の理解結果である「横須賀駅」をひとつ取り出して、キャンセル情報リスト１１５に追加してＣＬ３とし、過去理解結果リストＵＬ２から、この理解結果を削除してＵＬ３とした。そして、音声対話装置１００は、この理解結果を用いて応答文を生成し、「神奈川県のどちらですか？」（ＳＲ３）と応答することで、見かけ上、システム状態をひとつ前の状態に戻したことになる。

そこで、ユーザは、第３のユーザ発話として、第２のユーザ発話と同じ「横浜駅」（Ｕ４）繰り返し発話した。

このとき、過去理解結果リスト１１４の内容は、第２のユーザ発話の理解結果であるＲＬ２と同様に、第１位の理解結果候補が「横須賀駅」となっているが、キャンセル情報リスト１１５内のキャンセル情報ＣＬ３を利用するため、同じ誤認識を繰り返さないという例である。

このような『対話例』のうち、第２のユーザ発話Ｕ２、及び第３のユーザ発話Ｕ４に関し、図２に示したフローチャートのステップＳ４での処理である理解結果生成部１１３による理解結果生成処理について図４に示すフローチャートを用いて説明する。

まず、第２のユーザ発話Ｕ２に対する理解結果生成処理について説明する。

ユーザは、第２のユーザ発話として「横浜駅」と発話する。そこで、音声認識処理部１１１は、この発話を音声認識処理し、音声認識結果のＮ−ｂｅｓｔ候補を音響尤度とともに出力する。この認識結果に対して、理解結果生成部１１３は、ステップＳ２１において、認識結果から意味理解に必要な単語のみを抜き出し、同じ理解結果をまとめることで、理解結果候補リストＲＬ２を作成する。

続いて、理解結果生成部１１３は、理解結果候補リストＲＬ２を作成すると、ステップＳ２２において、作成した理解結果候補リストＲＬ２に理解結果候補があるか否かを調べる。ここで、理解結果候補リストＲＬ２に理解結果候補がない場合には、理解結果生成部１１３は、そのまま理解結果生成処理を終了する。一方、理解結果候補リストＲＬ２に１つ以上の理解結果候補がある場合には、理解結果生成部１１３は、ステップＳ２３において、理解結果候補の最も尤度の高い結果から順に理解結果候補Ｒｎを取り出す。ここでは、尤度が１７５である「横須賀駅」が取り出される。

そして、理解結果生成部１１３は、ステップＳ２４において、直前のキャンセル情報リスト１１５内にキャンセル情報があるか否かを調べる。今回はキャンセル情報がないため（ＣＬ１）、理解結果生成部１１３は、ステップＳ３０へと処理を移行し、直前に選択した第１位の理解結果候補である「横須賀駅」を理解結果として選択し、理解結果生成処理を終了する。

つぎに、第２のユーザ発話の理解結果である「横須賀駅」をキャンセルされた後における第３のユーザ発話Ｕ４に対する理解結果生成処理について説明する。

第３のユーザ発話Ｕ４に対する理解結果候補リストは、ＲＬ４として示したように、第２のユーザ発話Ｕ２に対する理解結果候補リストと同様に、第１位の理解結果が「横須賀駅」であり、第２位の理解結果が「横浜駅」であるものであった。

ここで、理解結果生成部１１３は、ステップＳ２２において、理解結果候補リストＲＬ４に理解結果があるか否かを調べてから、ステップＳ２３において、その理解結果候補リストＲＬ４から、最も尤度の高い理解結果候補Ｒｎとして、尤度が１９０である「横須賀駅」を取り出す。

続いて、理解結果生成部１１３は、ステップＳ２４において、キャンセル情報リスト１１５内にキャンセル情報があるか否かを調べる。今回はキャンセル情報ＣＬ３が存在するため、理解結果生成部１１３は、ステップＳ２５へと処理を移行し、最も直前にキャンセル情報リスト１１５に追加されたキャンセル情報から順にキャンセル情報Ｃｍを取り出す。ここでは、キャンセル情報「横須賀駅」（ＣＬ３）を取り出すことになる。

そして、理解結果生成部１１３は、ステップＳ２６において、取り出したキャンセル情報Ｃｍが、現在調べている理解結果候補Ｒｎの内容と等しいか否かを調べる。ここで、理解結果候補Ｒｎとキャンセル情報Ｃｍが異なる場合には、理解結果生成部１１３は、理解結果候補Ｒｎと等しいキャンセル情報Ｃｍが見つかるまでキャンセル情報リスト１１５を調べ、理解結果候補Ｒｎと等しいキャンセル情報Ｃｍが最後まで見つからなければステップＳ３０へと処理を移行し、理解結果候補Ｒｎを理解結果として選択する。一方、認識結果候補Ｒｎと等しいキャンセル情報Ｃｍが見つかった場合には、理解結果生成部１１３は、ステップＳ２７へと処理を移行し、現在の理解結果候補Ｒｎの次の理解結果候補Ｒｎ＋１が存在するか否かを調べる。今回は、理解結果候補Ｒｎ「横須賀駅」とキャンセル情報Ｃｍ「横須賀駅」は等しいため、理解結果生成部１１３は、ステップＳ２７へと処理を移行することになる。

理解結果生成部１１３は、ステップＳ２７において、これ以上理解結果候補が存在しないことを確認した場合には、ステップＳ３０へと処理を移行し、過去理解結果リスト１１４の第１位の理解結果候補を理解結果として選択する。一方、現在の理解結果候補Ｒｎの次の理解結果候補Ｒｎ＋１が存在することを確認した場合には、理解結果生成部１１３は、ステップＳ２８へと処理を移行し、現在の理解結果候補Ｒｎの次の理解結果候補Ｒｎ＋１を理解結果候補リストから取り出す。ここでは、尤度が１６０である理解結果候補「横浜駅」が現在の理解結果候補Ｒｎの次の理解結果候補Ｒｎ＋１にあたる。

そして、理解結果生成部１１３は、ステップＳ２９において、現在の理解結果候補Ｒｎの尤度と、次の理解結果候補Ｒｎ＋１の尤度との差分を、所定の閾値αと比較する。なお、閾値αは、例えば５０などの数値であるが、その設定方法については後述するものとする。

ここで、この尤度差が大きい場合には、第１の認識結果は、第２の認識結果に比べて信用できることになり、尤度差が小さい場合には、第１の認識結果と第２の認識結果との間にあまり差がないため、どちらか一方を完全に信用することができないということになる。このため、尤度差が閾値αを超えた場合に限り、尤度の大きい理解結果候補Ｒｎを信用することとし、この尤度差が閾値αを超えない場合には、尤度の大きい理解結果候補Ｒｎを疑うこととする。したがって、理解結果生成部１１３は、２つの理解結果候補Ｒｎ，Ｒｎ＋１の尤度差が閾値αを超えた場合には、理解結果候補Ｒｎを信用してステップＳ３０へと処理を移行し、理解結果候補の第１位として選択する。

今回は、尤度が１９０である理解結果候補Ｒｎ「横須賀駅」と次に尤度が大きい（尤度１６０）理解結果候補Ｒｎ＋１「横浜駅」との尤度差は３０であるため、閾値αよりも尤度差が小さい。そこで、理解結果生成部１１３は、理解結果候補Ｒｎ＋１が理解結果としてふさわしいか否かを、キャンセル情報を調べてから決定するため、ステップＳ３１へと処理を移行し、キャンセル情報リスト１１５にキャンセル情報があるか否かをキャンセル情報リスト１１５の先頭から調べる。

今回、次候補としてステップＳ２８にて取り出される理解結果候補は、尤度が１６０である「横浜駅」である。したがって、理解結果生成部１１３は、ステップＳ３１乃至ステップＳ３４において、理解結果候補「横浜駅」に対して一致するキャンセル情報があるか否かをキャンセル情報リスト１１５からキャンセル情報ＣＬ３を取り出して調べることになる。

具体的には、理解結果生成部１１３は、ステップＳ３１において、キャンセル情報リスト１１５の最後まで調べたか否かを調べ、未だ調べていないキャンセル情報がある場合には、ステップＳ３３において、キャンセル情報Ｃｋを取り出す。そして、理解結果生成部１１３は、ステップＳ３４において、キャンセル情報Ｃｋが理解結果候補Ｒｎ＋１と一致するか否かを調べる。この場合、ステップＳ３１乃至ステップＳ３４において、理解結果候補Ｒｎ＋１に一致するキャンセル情報が見つからないため、理解結果生成部１１３は、ステップＳ３２へと処理を移行し、現在調べている理解結果候補Ｒｎ＋１である「横浜駅」を理解結果候補として選択する。なお、理解結果候補Ｒｎ＋１と一致するキャンセル情報が見つかった場合には、理解結果候補Ｒｎと理解結果候補Ｒｎ＋１、すなわち、理解結果候補の第１位と第２位それぞれがキャンセル情報と一致したことになる。したがって、理解結果生成部１１３は、ステップＳ３５へと処理を移行してｎ＝ｎ＋１とし、第２位の候補と第３位の候補についての尤度差を調べる。そして、理解結果生成部１１３は、上位には過去にキャンセルされた理解結果のみ存在し、且つ、すぐ上位の理解結果との尤度差が小さいような過去にキャンセルされていない理解結果、又は、上位に過去にキャンセルされた理解結果のみ存在し、且つ、すぐ上位の理解結果との尤度差が大きいような理解結果を探す。理解結果生成部１１３は、前者が見つかった場合には、ステップＳ３２において、これを理解結果とし、後者が見つかった場合には、ステップＳ３０において、第１位の理解結果を選択することになる。

このように、理解結果生成部１１３は、一度キャンセルされた理解結果候補が、他のキャンセルされていない認識結果候補と比較してその尤度に大きな差がない場合には、尤度が近く且つキャンセルされていない候補を理解結果として選択することになる。なお、理解結果生成部１１３は、全ての理解結果が過去にキャンセルされている場合には、ステップＳ３０へと処理を移行し、理解結果候補リストの第１位を理解結果として選択する。

理解結果生成部１１３は、このようにして理解結果生成処理を行う。なお、ここでは、認識結果候補の確からしさをはかる尺度、すなわち選択基準値として尤度のみを使用して理解結果を選択するものとしたが、認識結果候補の確からしさをはかる尺度として信頼度を利用してもよい。すなわち、理解結果生成部１１３は、同じ意味を示す単語であっても読み方が異なれば、異なる単語であるとして扱い、その単語信頼度を算出するとともに、理解結果に含まれる単語が有する信頼度の合計を、当該理解結果のスコアとして算出し、これに基づいて理解結果を選択するようにしてもよい。なお、単語信頼度とは、単一の発話において、その読み方で単語が発話された可能性を示す値であり、ある単語Ｗの単語信頼度をＣｏｎｆ（Ｗ）、Ｎ−ｂｅｓｔ候補それぞれに対する対数尤度をＬｉとしたとき、以下に示す（１）式によって求めることができるものである。

また、理解結果生成部１１３は、理解結果候補Ｒｎの尤度と理解結果候補Ｒｎ＋１の尤度との差分を、所定の閾値αと比較する代わりに、理解結果候補Ｒｎの尤度と理解結果候補Ｒｎ＋１の尤度との比を閾値αと比較するようにしてもよい。

さらに、理解結果生成部１１３は、キャンセル情報に有効期限を設け、一定回数以上前の入力におけるキャンセル情報は破棄するようにしてもよい。

つぎに、上述した尤度差の閾値αを決定する手順について図５に示すフローチャートを用いて説明する。

まず、事前準備として、認識対象となる辞書・文法の内容を発話した音声ファイルを複数用意する。理解結果生成部１１３は、ステップＳ４１において、この音声ファイルを最後まで全てを調べたか否かを判断する。ここで、理解結果生成部１１３は、未だ調べていない音声ファイルがある場合には、ステップＳ４２へと処理を移行し、音声ファイルをひとつ取り出し、ステップＳ４３において、取り出した音声ファイルの音声認識処理を行う。ここでは、本システムで使用する辞書・文法を用いて、複数の音声認識結果候補とその尤度を求める。

続いて、理解結果生成部１１３は、ステップＳ４４において、これら全ての結果に対して、『認識結果リストＡ』の例に示したのと同様に、理解結果候補リストの作成を行い、同じ理解結果をまとめて、当該理解結果候補を導いた認識結果候補の尤度のうち、より高い尤度をこの理解結果候補のスコアとする。

理解結果生成部１１３は、このようにして各認識結果候補に対して理解結果候補を生成してから、各理解結果候補を調べる。すなわち、理解結果生成部１１３は、ステップＳ４５において、理解結果候補リストに１つ以上の理解結果が存在することを確かめ、第１の理解結果候補が存在した場合には、ステップＳ４６において、その第１の理解結果候補を理解結果候補リストから取り出す。続いて、理解結果生成部１１３は、ステップＳ４７において、理解結果候補リストに第２の理解結果が存在することを確かめ、第２の理解結果候補が存在した場合には、ステップＳ４８において、その第２の理解結果候補を理解結果候補リストから取り出す。

続いて、理解結果生成部１１３は、ステップＳ４９において、ステップＳ４６にて理解結果候補リストから取り出した第１の理解結果候補が正解であるか否かを調べ、正解である場合には、その第１の理解結果候補のスコアと第２の理解結果候補のスコアとの差分を、尤度差として、第１位が正解である場合の尤度差リストＣｏｒｒｅｃｔに追加する。一方、理解結果生成部１１３は、ステップＳ４６にて理解結果候補リストから取り出した第１の理解結果候補が不正解である場合には、その第１の理解結果候補のスコアと第２の理解結果候補のスコアとの差分を、尤度差として、第１位が不正解である場合の尤度差リストＭｉｓｓに追加する。なお、本実施例では、第１及び第２の理解結果候補の両方がそろっているもののみについて調べている。また、尤度差のサンプルは、第１の理解結果候補と第２の理解結果候補との間からのみ採取する。理解結果生成部１１３は、このような処理を、用意したサンプル全てについて繰り返す。

そして、理解結果生成部１１３は、全てのサンプル発話について第１の理解結果候補と第２の理解結果候補との尤度差を調べると、ステップＳ５２において、尤度差リストＣｏｒｒｅｃｔ、Ｍｉｓｓのそれぞれの頻度分布をプロットする。

この頻度分布をプロットした例を図６に示す。同図において、縦軸は頻度を示し、横軸は第１位の理解結果候補の尤度と第２位の理解結果候補の尤度との差分を示している。符号３１０は、第１位の理解結果候補が不正解であった場合における第１位の理解結果候補の尤度と第２位の理解結果候補の尤度との差分の分布である。また、符号３２０は、第１位の理解結果候補が正解であった場合における第１位の理解結果候補の尤度と第２位の理解結果候補の尤度との差分の分布である。

これらの尤度差分布の出現傾向は、音声認識エンジンによって異なるが、一般的なＨＭＭを使った音声認識処理を行った場合には、第１位の理解結果が不正解で且つ第２位の理解結果が正解である場合における第１位と第２位の理解結果の尤度差は、第１位の理解結果が正解で且つ第２位の理解結果が不正解である場合における第１位と第２位の理解結果の尤度差よりも小さくなる。本発明は、尤度差が大きい場合には、第１位の理解結果が正解である可能性が高いが、尤度差が小さい場合には、第１位の理解結果が誤りである可能性が高いという性質を利用したものである。

また、今回は、同一の誤認識を繰り返さないことのみを目的としているため、第１の理解結果が誤りであった場合における第２の理解結果の正誤は問うていないが、理解結果生成部１１３は、第２の理解結果が正解であった場合のみをサンプルとして扱ってもよい。

理解結果生成部１１３は、このようにプロットした尤度差に基づいて、ステップＳ５３において、各頻度分布の交点（図６中符号３３０）を求め、これを閾値αとする。

このように、理解結果生成部１１３は、頻度分布の交点を閾値αとすることにより、第１位の理解結果候補のスコアと第２位の理解結果候補のスコアとの差分が閾値よりも大きい場合には、過去に否定されていても、第１位の理解結果を尊重し、第１位の理解結果候補のスコアと第２位の理解結果候補のスコアとの差分が閾値よりも小さい場合には、過去に否定されていれば、第１位の理解結果を採用せずに、第２位の理解結果を採用することになる。

この閾値αをサンプル音声の認識結果に適用すると、図６中符号３１１で表すエリアにプロットされた理解結果は、第１位が不正解であるため、過去にこの理解結果候補が否定されていれば、再度この理解結果候補は採用されずに、第２位以下の理解結果が採用される。また、図６中符号３２２で表すエリアにプロットされた理解結果は、第１位の結果が不正解であるが、第１位の理解結果候補のスコアと第２位の理解結果候補のスコアとの差分が閾値αよりも大きいため、過去にこの理解結果候補が否定されていても、再度第１位の理解結果候補が選択される。さらに、図６中符号３２１で表すエリアにプロットされた理解結果は、第１位の理解結果候補のスコアと第２位の理解結果候補のスコアとの差分が閾値αよりも大きいため、過去にこの理解結果候補が否定されていても、再度第１位の理解結果候補が選択されるが、このとき第１位の理解結果は正解であるため、過去に否定されていても理解結果として選択することは正しい。

さらにまた、第１位が正解で、図６中符号３１２で表すエリアにプロットされた理解結果は、第１位の理解結果候補のスコアと第２位の理解結果候補のスコアとの差分が閾値αよりも小さいため、過去にこの理解結果候補が否定されていれば再度第１位の理解結果候補は選択されず、他の理解結果が選択される。この場合、第１位が不正解であるために否定後は同じ理解結果を採用しないエリア３１１と、第１位が正解であるために過去に否定されていても同じ理解結果を採用するエリア３２１の範囲をなるべく大きくし、同様に、第１位が不正解であり、過去に否定されているが同じ理解結果を選択してしまうエリア３２２と、過去に否定されているが、正解であるのに第１位の理解結果を選択しないエリア３１２の範囲をなるべく小さくするように閾値αを設定する必要があり、これが各頻度分布の交点３３０となっている。

なお、これらの分布は、音声認識の待ち受け語彙や音声入力時の周囲雑音環境、発話時間や発話者、音声認識結果の内容などに応じて異なるため、適応環境ごとにこれらの分布を調べて閾値αの最適値を得るようにし、環境ごとに閾値αを変化させることもできる。

また、過去にキャンセルされていても、第１位の理解結果が正解の場合にはなるべく正解として選択したい場合には、閾値αを交点よりも小さくすればよく、また、過去にキャンセルされた語は必ず理解結果として選択したくないのであれば、閾値αを交点よりも右側に設定すればよい。

理解結果生成部１１３は、このようにして尤度差の閾値αを決定することができる。

以上詳細に説明したように、本発明の実施の形態として示した音声対話装置１００においては、理解結果生成部１１３によって理解結果を生成する際に、取り消し指示ボタン１４０によって過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する。すなわち、この音声対話装置１００においては、過去に否定された認識結果の選択基準値を修正する際に、正解であるのにかかわらず過去に否定された認識結果については選択され得る程度に、選択基準値を修正するため、過去に否定されていても、正しい認識結果であれば、理解結果として選択されにくくなることなく、同一の誤認識の繰り返しを回避することができる。

また、音声対話装置１００においては、理解結果生成部１１３によって理解結果の確からしさをスコアとして計算し、任意の理解結果が正解である場合における当該理解結果のスコアと、正解の理解結果よりもスコアが低く且つ不正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、選択基準値を修正するための修正係数としての閾値αを決定する。このように、音声対話装置１００においては、任意の理解結果が正解である場合における当該理解結果のスコアと、正解の理解結果よりもスコアが低く且つ不正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、過去に否定された語が再度認識された場合における理解結果としての選択されやすさを決定することにより、任意の理解結果が正解である場合には、過去に訂正されていても理解結果として選択できる範囲で、過去に否定された結果が再度認識された場合に理解結果として選択されにくくするようにすることができる。

さらに、音声対話装置１００においては、理解結果生成部１１３によって理解結果の確からしさをスコアとして計算し、任意の理解結果が不正解である場合における正解の理解結果のスコアと、不正解の理解結果よりもスコアが低く且つ不正解の理解結果とは異なる理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、選択基準値を修正するための修正係数としてのαを決定する。このように、音声対話装置１００においては、任意の理解結果が不正解である場合における正解の理解結果のスコアと、不正解の理解結果よりもスコアが低く且つ不正解の理解結果とは異なる理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、過去に否定された語が再度認識された場合における理解結果としての選択されやすさを決定することにより、過去に訂正された不正解の理解結果を再度理解結果として選択しないようにすることができる。

さらにまた、音声対話装置１００においては、理解結果生成部１１３により、任意の理解結果が不正解である場合における正解の理解結果のスコアと、不正解の理解結果よりもスコアが低く且つ正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、修正係数としての閾値αを決定する。このように、音声対話装置１００においては、任意の理解結果が不正解である場合における正解の理解結果のスコアと、不正解の理解結果よりもスコアが低く且つ正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、過去に否定された語が再度認識された場合における理解結果としての選択されやすさを決定することにより、過去に訂正された不正解の理解結果を再度理解結果として選択しないようにすることができる。

また、音声対話装置１００においては、理解結果生成部１１３により、認識結果候補のうちのいずれかひとつから理解結果を生成し、理解結果に対応する認識結果候補の認識対象語との音響的な近さ示す尤度を、当該理解結果のスコアとすることにより、単純な構成でシステムを実現することができ、１つの発話に対する認識結果の候補数が少ないサンプルからも妥当な閾値αを設定することができる。

さらに、音声対話装置１００においては、理解結果生成部１１３により、認識結果候補に含まれる単語に対して、発話された可能性を示し、所定の選択基準値となる単語信頼度を算出し、理解結果に含まれる単語が有する単語信頼度の合計を、当該理解結果のスコアとすることもでき、これにより、理解結果の妥当性をより正確に評価した閾値αを設定することができる。

さらにまた、音声対話装置１００においては、理解結果生成部１１３により、任意の理解結果のスコアと、その理解結果の次に大きいスコアを有する理解結果のスコアとの関係性をこれら２つのスコアの差分とし、この差分が所定の閾値αを超えない場合に、過去に訂正を指示された理解結果を理解結果として選択しないようにする。したがって、音声対話装置１００においては、理解結果が過去に訂正されている場合には、この閾値αをスコアから差し引いてから、他の理解結果のスコアと比較することにより、過去に訂正されていない理解結果候補とのスコア差が閾値α以下の場合に限り、過去に訂正された理解結果候補を理解結果として選択しないようにすることができ、同一の誤認識を繰り返す事態を回避することができる。

さらにまた、音声対話装置１００においては、理解結果生成部１１３により、任意の理解結果のスコアと、その理解結果の次に大きいスコアを有する理解結果のスコアとの関係性をこれら２つのスコアの比とし、一方のスコアに対する他方のスコアの比が所定の閾値αを超えない場合に、過去に訂正を指示された理解結果を理解結果として選択しないようにしてもよい。したがって、音声対話装置１００においては、理解結果が過去に訂正されている場合には、この閾値αをスコアに乗じてから、他の理解結果のスコアと比較することにより、過去に訂正されていない理解結果候補とのスコア比が閾値α以下の場合に限り、過去に訂正された理解結果候補を理解結果として選択しないようにすることができ、同一の誤認識を繰り返す事態を回避することができる。

また、音声対話装置１００においては、理解結果生成部１１３により、任意の不正解の理解結果のスコアと、その不正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、全体の一定割合以上の不正解サンプルが、理解結果として選択されなくなる値を閾値αとすることにより、実際の認識率に即して、一定割合以上の不正解の理解結果候補を理解結果として選択しないようにすることができる。

さらに、音声対話装置１００においては、理解結果生成部１１３により、任意の正解の理解結果のスコアと、その正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、全体の一定割合以上の正解サンプルが、理解結果として選択される値を閾値αとすることにより、実際の認識率に即して、一定割合以上の正解の理解結果候補を理解結果として選択できるようにすることができる。

さらにまた、音声対話装置１００においては、理解結果生成部１１３により、任意の不正解の理解結果のスコアと、その不正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、さらに、他の正解の理解結果のスコアと、その正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルを調べ、それぞれの出現頻度割合が同じになるスコア値を閾値αとすることにより、過去に訂正されているために再度理解結果として選択しない不正解の理解結果候補と、過去に訂正されているが正解であるために再度理解結果として選択できる理解結果候補とを合わせた出現頻度を最大にすることができる。

また、音声対話装置１００においては、理解結果生成部１１３により、音声認識の待ち受け語彙に応じて、選択基準値を修正するための修正係数を決定することができ、これにより、待ち受け語彙の複雑さによって異なる尤度の出現傾向に対応して、より正確な選択基準値の修正係数を設定することができる。

同様に、音声対話装置１００においては、理解結果生成部１１３により、音声入力時の周辺雑音環境に応じて、選択基準値を修正するための修正係数を決定することもでき、これにより、周辺雑音環境によって異なる尤度の出現傾向に対応して、より正確な選択基準値の修正係数を設定することができる。

また、音声対話装置１００においては、理解結果生成部１１３により、発話時間や発話者、音声認識結果の内容に応じて、選択基準値を修正するための修正係数を決定するようにしてもよく、これにより、発話時間や発話者、音声認識結果の内容によって異なる尤度の出現傾向に対応して、より正確な選択基準値の修正係数を設定することができる。

なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施の形態に限定されることはなく、この実施の形態以外の形態であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計などに応じて種々の変更が可能であることは勿論である。

本発明の実施の形態として示す音声対話装置の構成について説明するブロック図である。前記音声対話装置において、音声認識処理を開始してから応答文を出力するまでの処理動作について説明するためのフローチャートである。前記音声対話装置における理解結果生成部による理解結果生成処理について説明するための図であり、ユーザと音声対話装置とによる対話例とそのときの内部状態について説明するための図である。前記音声対話装置における理解結果生成部による理解結果生成処理について説明するためのフローチャートである。前記音声対話装置における理解結果生成部による尤度差の閾値を決定する手順について説明するためのフローチャートである。尤度差リストの頻度分布をプロットした例を示す図である。

符号の説明

１００音声対話装置
１１０制御装置
１１１音声認識処理部
１１２音声認識用辞書・文法
１１３理解結果生成部
１１４過去理解結果リスト
１１５キャンセル情報リスト
１１６応答生成部
１１７ＧＵＩ表示制御部
１１８音声合成部
１２０マイク
１２１Ａ／Ｄコンバータ
１３０音声認識開始ボタン
１４０取り消し指示ボタン
１５０ディスク読み取り装置
１５１ディスク
１６０モニタ
１７０スピーカ
１７１Ｄ／Ａコンバータ

Claims

発話された音声を入力する入力手段と、
前記入力手段によって入力された音声を認識対象語に基づき認識する音声認識手段と、
前記音声認識手段による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された前記認識結果候補を用いて、前記発話された音声に対する応答となる理解結果を生成する理解結果生成手段と、
前記理解結果生成手段によって生成された前記理解結果に対して訂正を指示する訂正指示手段と、
前記理解結果生成手段によって前記理解結果を生成する際に、前記訂正指示手段によって過去に訂正を指示された理解結果に対応する前記認識結果候補に与えられた前記所定の選択基準値を、前記過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する選択基準値修正手段とを備えること
を特徴とする音声対話装置。
前記理解結果の確からしさをスコアとして計算するスコア計算手段を備え、
前記選択基準値修正手段は、任意の理解結果が正解である場合における当該理解結果のスコアと、前記正解の理解結果よりもスコアが低く且つ不正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、前記選択基準値を修正するための修正係数を決定すること
を特徴とする請求項１記載の音声対話装置。
前記理解結果の確からしさをスコアとして計算するスコア計算手段を備え、
前記選択基準値修正手段は、任意の理解結果が不正解である場合における正解の理解結果のスコアと、前記不正解の理解結果よりもスコアが低く且つ前記不正解の理解結果とは異なる理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、前記選択基準値を修正するための修正係数を決定すること
を特徴とする請求項１記載の音声対話装置。
前記選択基準値修正手段は、任意の理解結果が不正解である場合における正解の理解結果のスコアと、前記不正解の理解結果よりもスコアが低く且つ正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、前記修正係数を決定すること
を特徴とする請求項３記載の音声対話装置。
前記理解結果生成手段は、前記認識結果候補のうちのいずれかひとつから前記理解結果を生成し、
前記スコア計算手段は、前記理解結果に対応する前記認識結果候補の前記認識対象語との音響的な近さ示す尤度を、当該理解結果のスコアとすること
を特徴とする請求項２乃至請求項４のうちいずれか１項記載の音声対話装置。
前記認識結果候補に含まれる単語に対して、発話された可能性を示し、前記所定の選択基準値となる単語信頼度を算出する単語信頼度算出手段を備え、
前記スコア計算手段は、前記理解結果に含まれる単語が有する前記単語信頼度の合計を、当該理解結果のスコアとすること
を特徴とする請求項２乃至請求項４のうちいずれか１項記載の音声対話装置。
前記理解結果生成手段は、任意の理解結果のスコアと、前記理解結果の次に大きいスコアを有する理解結果のスコアとの関係性をこれら２つのスコアの差分とし、この差分が所定の閾値を超えない場合に、前記過去に訂正を指示された理解結果を理解結果として選択しないこと
を特徴とする請求項２乃至請求項６のうちいずれか１項記載の音声対話装置。
前記理解結果生成手段は、任意の理解結果のスコアと、前記理解結果の次に大きいスコアを有する理解結果のスコアとの関係性をこれら２つのスコアの比とし、一方のスコアに対する他方のスコアの比が所定の閾値を超えない場合に、前記過去に訂正を指示された理解結果を理解結果として選択しないこと
を特徴とする請求項２乃至請求項６のうちいずれか１項記載の音声対話装置。
前記理解結果生成手段は、任意の不正解の理解結果のスコアと、前記不正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、全体の一定割合以上の不正解サンプルが、理解結果として選択されなくなる値を前記閾値とすること
を特徴とする請求項７又は請求項８記載の音声対話装置。
前記理解結果生成手段は、任意の正解の理解結果のスコアと、前記正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、全体の一定割合以上の正解サンプルが、理解結果として選択される値を前記閾値とすること
を特徴とする請求項７又は請求項８記載の音声対話装置。
前記理解結果生成手段は、任意の不正解の理解結果のスコアと、前記不正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、さらに、他の正解の理解結果のスコアと、前記正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルを調べ、それぞれの出現頻度割合が同じになるスコア値を前記閾値とすること
を特徴とする請求項７又は請求項８記載の音声対話装置。
前記選択基準値修正手段は、音声認識の待ち受け語彙に応じて、前記選択基準値を修正するための修正係数を決定すること
を特徴とする請求項１記載の音声対話装置。
前記選択基準値修正手段は、音声入力時の周辺雑音環境に応じて、前記選択基準値を修正するための修正係数を決定すること
を特徴とする請求項１記載の音声対話装置。
前記選択基準値修正手段は、発話時間に応じて、前記選択基準値を修正するための修正係数を決定すること
を特徴とする請求項１記載の音声対話装置。
前記選択基準値修正手段は、発話者に応じて、前記選択基準値を修正するための修正係数を決定すること
を特徴とする請求項１記載の音声対話装置。
前記選択基準値修正手段は、音声認識結果の内容に応じて、前記選択基準値を修正するための修正係数を決定すること
を特徴とする請求項１記載の音声対話装置。
発話された音声を入力する入力工程と、
前記入力工程によって入力された音声を認識対象語に基づき認識する音声認識工程と、
前記音声認識工程による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された前記認識結果候補を用いて、前記発話された音声に対する応答となる理解結果を生成する理解結果生成工程と、
前記理解結果生成工程によって生成された前記理解結果に対して訂正を指示する訂正指示工程と、
前記理解結果生成工程によって前記理解結果を生成する際に、前記訂正指示工程によって過去に訂正を指示された理解結果に対応する前記認識結果候補に与えられた前記所定の選択基準値を、前記過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する選択基準値修正工程とを備えること
を特徴とする音声理解結果生成方法。