JP2008116560A - 音声対話装置及び音声理解結果生成方法 - Google Patents

音声対話装置及び音声理解結果生成方法 Download PDF

Info

Publication number
JP2008116560A
JP2008116560A JP2006297940A JP2006297940A JP2008116560A JP 2008116560 A JP2008116560 A JP 2008116560A JP 2006297940 A JP2006297940 A JP 2006297940A JP 2006297940 A JP2006297940 A JP 2006297940A JP 2008116560 A JP2008116560 A JP 2008116560A
Authority
JP
Japan
Prior art keywords
understanding result
result
understanding
score
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006297940A
Other languages
English (en)
Other versions
JP4946358B2 (ja
Inventor
Keiko Katsuragawa
景子 桂川
Minoru Togashi
実 冨樫
Takeshi Ono
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2006297940A priority Critical patent/JP4946358B2/ja
Publication of JP2008116560A publication Critical patent/JP2008116560A/ja
Application granted granted Critical
Publication of JP4946358B2 publication Critical patent/JP4946358B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】過去に否定されていても、正しい認識結果であれば、理解結果として選択されにくくなることなく、同一の誤認識が繰り返されることを回避することができる音声対話装置を提供する。
【解決手段】音声対話装置100は、音声認識処理部111による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する理解結果生成部113を備える。理解結果生成部113は、過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する。
【選択図】図1

Description

本発明は、発話された音声に応じて対話をする音声対話装置に関し、詳しくは、一旦、誤認識された際に行われる訂正発話の認識率を向上させる音声対話装置及び音声理解結果生成方法に関する。
ユーザによって発話された音声を入力し、入力された音声の音声認識結果に応じたシステム応答をすることで、ユーザとの間で対話をする音声対話装置が考案されている。このような音声対話装置では、一旦、誤認識された際に、キャンセルボタンなどを押下することでなされる訂正発話に対して、新たに音声認識処理を実行することができる。
このような音声対話装置において、入力された音声に対する音声認識結果が誤認識されたことで、ユーザによってキャンセルされた場合、この音声認識結果を音声認識対象から外すことで、同一の誤認識を繰り返すことを防止することができる手法が開示されている(例えば、特許文献1等参照。)。
特開平4−177956号公報
しかしながら、上述した特許文献1に開示された技術では、過去にキャンセルされた語句を音声認識対象から直ちに排除してしまうため、ユーザが明確に発話したとしても、一度キャンセルされてしまった語句を再入力することができないという問題があった。例えば、本来、音声認識したい語句を誤ってキャンセルした場合や、異なる場面で、キャンセルされた語句を入力する必要がある場合などに全く対応することができず、柔軟性に欠けていた。
そのため、音声認識手段による認識結果である複数の認識結果候補から、所定の選択基準値にしたがって結果を選択する際に、過去に否定された結果は選択されにくくなる方向に認識結果選択基準値を修正することにより、キャンセルされた認識結果が、発話された音声に対する応答となる理解結果として採用される可能性を残すことも考えられる。
しかしながら、この方法では、過去に訂正された結果を再度出力しないことに重点をおき、再度同じ発話をされることについては、その可能性を残す程度に認識結果の選択基準値を修正しているに過ぎず、正しい結果であったにもかかわらず否定した後、これと同じ内容を再入力しようとした場合には、特に明瞭に音声を入力するか、何度も同じ入力を繰り返す必要がある。
そこで、本発明は、上述した実情に鑑みて提案されたものであり、過去に否定されていても、正しい認識結果であれば、理解結果として選択されにくくなることなく、同一の誤認識が繰り返されることを回避することができる音声対話装置及び音声理解結果生成方法を提供することを目的とする。
本発明の音声対話装置は、発話された音声を入力する入力手段と、この入力手段によって入力された音声を認識対象語に基づき認識する音声認識手段と、この音声認識手段による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する理解結果生成手段と、この理解結果生成手段によって生成された理解結果に対して訂正を指示する訂正指示手段と、理解結果生成手段によって理解結果を生成する際に、訂正指示手段によって過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する選択基準値修正手段とを備えることにより、上述の課題を解決する。
また、本発明の音声理解結果生成方法は、発話された音声を入力する入力工程と、この入力工程によって入力された音声を認識対象語に基づき認識する音声認識工程と、この音声認識工程による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する理解結果生成工程と、この理解結果生成工程によって生成された理解結果に対して訂正を指示する訂正指示工程と、理解結果生成工程によって理解結果を生成する際に、訂正指示工程によって過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する選択基準値修正工程とを備えることにより、上述の課題を解決する。
本発明によれば、音声認識手段による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する。そして、訂正指示手段によって過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する。
これにより、ユーザによって発話された音声が何度も繰り返して誤認識されることを低減させることができると共に、キャンセルされた認識結果が理解結果として採用される可能性を残すことができる。したがって、ユーザによって発話された音声の音声認識率を大幅に向上させることが可能となる。
また、本発明によれば、音声認識による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された認識結果候補を用いて、発話された音声に対する応答となる理解結果を生成する。そして、訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、理解結果を生成する際に当該認識結果候補が選択されにくくなる方向に修正する。
これにより、過去に否定されていても、正しい認識結果であれば、理解結果として選択されにくくなることなく、ユーザによって発話された音声が何度も繰り返して誤認識されることを回避することができる。したがって、ユーザによって発話された音声の音声認識率を大幅に向上させることが可能となる。
以下、本発明の実施の形態について図面を参照して説明する。
まず、図1を用いて、本発明の第1の実施の形態として示す音声対話装置の構成について説明をする。図1に本発明の第1の実施の形態として示す音声対話装置は、車両などの移動体に搭載されるナビゲーション装置に適用した場合の構成である。ナビゲーション装置は、例えば、移動体である車両に搭載された場合、車両の現在位置を検出し、地図データから表示された車両の現在位置に対応する地図を表示しながら所望の目的地までの経路案内をすることができる。
この音声対話装置をナビゲーション装置に適用すると、ナビゲーション装置で要求される各種機能を、ユーザとシステムとの対話によってインタラクティブに動作させることができる。
図1に示すように、音声対話装置100は、マイク120と、A/Dコンバータ121と、音声認識開始ボタン130と、取り消し指示ボタン140と、経路案内に用いる地図データやガイダンス音声の音声データなどを格納するディスク151から各種データを読み取るディスク読み取り装置150と、マイク120を介して入力された音声を音声認識し、音声認識結果の内容を理解してシステム応答を生成する制御装置110と、経路探索結果を示す地図、メニュー画面、制御装置110による音声認識結果などを表示するモニタ160と、D/Aコンバータ171と、ガイダンス音声やユーザとの対話におけるシステム応答音声などを出力するスピーカ170とを備える。
マイク120は、ユーザによって発話された音声を、A/Dコンバータ121を介して、後述する制御装置110における音声認識処理部111に入力する。例えば、ユーザは、ナビゲーション装置の操作に使用される語句及び文、すなわち操作コマンド及び地名や施設名、道路名などの固有名詞及びこれらの語句を含む文を発話して、マイク120からその音声を入力する。また、A/Dコンバータ121は、マイク120から入力されるアナログ音声を制御装置110によって取り扱えるようにデジタル化する。
音声認識開始ボタン130は、ユーザの押下により、ユーザによって発話されマイク120を介して入力された音声に対する音声取り込み及び音声認識処理の開始を指示するためのボタンである。この音声認識開始ボタン130が押下された情報は、制御装置110における音声認識処理部111に供給される。
取り消し指示ボタン140は、ユーザの押下により、音声認識処理によって得られた認識結果に基づき生成された理解結果が誤りであった場合に、直前の音声入力前の状態にシステム状態を戻して再度音声入力をやり直すことを指示するためのボタンである。この取り消し指示ボタン140が押下された情報は、後述する制御装置110における理解結果生成部113に供給される。
ディスク151は、音声認識に使用する音声認識用辞書・文法、地図データベース、ガイダンス音声の音声データなどを格納した記憶媒体である。
一般に、音声認識用辞書・文法を用いて音声認識をするシステムでは、この音声認識用辞書・文法に記述されている認識対象語と文法とを用いた入力文だけを音声認識結果として受理することができる。
例えばナビゲーション装置のメインタスクを、経路探索をする際の目的地設定とすると、ユーザによってマイク120から入力される入力文として、「神奈川県」「横浜駅」などといった施設に関する単語のみの入力と「神奈川県の横浜駅」「東海道線の横浜駅」などといった複数のキーワードを組み合わせた文章による入力との両方を想定することができる。
したがって、ディスク151に格納され、状況に応じてディスク読み取り装置150によって音声認識処理部111内に取り込まれる音声認識用辞書・文法112は、このような単語のみの入力と複数のキーワードを含んだ文書の両方に対応することができる構成となっている。
モニタ160は、例えば液晶ディスプレイなどからなり、制御装置110から出力される施設検索結果や地図などを表示する。
D/Aコンバータ171は、制御装置110から出力されるガイダンスやユーザとの対話におけるシステム応答などのデジタル音声をアナログ化する。また、スピーカ170は、D/Aコンバータ171によってアナログ化した音声を出力する。
つぎに、制御装置110について説明をする。制御装置110は、音声認識処理部111と、理解結果生成部113と、応答生成部116と、GUI表示制御部117と、音声合成部118とを備え、マイク120を介して入力されてA/Dコンバータ121によってデジタル化された音声に対して音声認識処理を施し、音声認識結果に応じたシステム応答を行う。
音声認識処理部111は、システム起動時に、ユーザによってマイク120から入力される入力文を受理する音声認識用辞書・文法112をディスク151から読み込む。この状態で、ユーザによって音声認識開始ボタン130が押下されると、音声認識処理部111は、音声認識処理を開始する。
音声対話装置100においては、このようにして音声認識処理が開始されると、マイク120から入力される音声をトリガーとして音声認識処理部111による音声認識処理と、理解結果生成部113による理解結果生成処理と、応答生成部116による応答文生成処理と、GUI表示制御部117による、モニタ160への応答文や検索結果などといったGUI表示処理と、音声合成部118による、音声での応答文出力処理がナビゲーション装置の機能である目的地設定や施設検索などが、1つのタスクが終了するまで繰り返されることになる。なお、この間に、ユーザは、取り消し指示ボタン140を押下することで直前の理解結果を取り消すことができる。
音声認識処理部111は、音声認識開始ボタン130によるユーザの指示に応じて、マイク120から入力されるユーザによって発話され、A/Dコンバータ121でデジタル化された音声信号を取り込み、音声認識処理を実行する。そして、音声認識処理部111は、取り込んだ音声信号と、ディスク151から読み込んだ音声認識用辞書・文法112が保持する認識対象語からなる待ち受け文とのマッチング処理により音声認識を行い、音声認識結果を理解結果生成部113に出力する。
また、音声認識処理部111は、マッチング処理の際に、音声特徴データと各待ち受け文との音響的な近さである尤度を計算し、この尤度が一定の値以上のものを音声認識結果の認識結果候補とする。そして、音声認識処理部111は、尤度が高い音声認識結果の上位N個の認識結果候補(以下、N−best候補とも呼ぶ。)とその尤度とを理解結果生成部113に出力する。
理解結果生成部113は、音声認識処理部111から音声認識結果として出力された認識結果候補の尤度に基づいて認識結果候補からユーザによって発話された音声に対する正しい理解結果を選択して応答生成部116に出力する。ここで選択された理解結果は、理解結果生成部113内に保持される過去理解結果リスト114の末尾に追加される。なお、この理解結果生成部113における処理内容については、後で詳細に説明をする。
応答生成部116は、理解結果生成部113から出力された理解結果に基づいて応答文を生成し、これをGUI表示制御部117及び音声合成部118に出力する。
GUI表示制御部117は、必要に応じて、ディスク読み取り装置150を制御してディスク151に格納されている地図データを読み出し、モニタ160を介して地図を表示させたり、応答生成部116で生成された応答文に即した応答内容を、モニタ160を介して表示させたりする。
音声合成部118は、応答生成部116によって生成される応答文に応じて、応答文に即したデジタル音声信号を合成し、D/Aコンバータ171を介してスピーカ170に出力する。
このような音声対話装置100においては、マイク120による音声入力後であって、モニタ160やスピーカ170を介した応答出力の後に、取り消し指示ボタン140の押下による理解結果の取り消しが指示された場合には、今回の理解結果を取り消して、直前の音声入力前のシステム応答をもう一度出力し、再度音声入力をやり直す。その際、取り消された理解結果は、理解結果生成部113内に保持されるキャンセル情報リスト115に追加保存される。
つぎに、図2に示すフローチャートを用いて、制御装置110による音声認識処理を開始してから応答文を出力するまでの処理動作について説明をする。
まず、ナビゲーション装置が起動されると、音声対話装置100の制御装置110は、ディスク読み取り装置150を制御してディスク151から音声認識用辞書・文法112を読み出し音声認識処理部111の記憶領域に格納させる。これにより、音声認識処理部111は、音声認識開始可能状態となる。
続いて、ユーザが音声認識開始ボタン130を押下するのに応じて、音声認識処理部111は、ステップS1において、ユーザによって発話されてマイク120を介して入力される音声の取り込みを開始する。
なお、音声認識処理部111は、音声認識開始ボタン130が押下されるまでは、デジタル化された音声信号(以下、単にデジタル信号とも呼ぶ。)の平均パワーの演算を継続している。そして、音声認識処理部111は、音声認識開始ボタン130が押下された後、この平均パワーに較べてデジタル信号の瞬時パワーが所定値以上に大きくなったとき、ユーザが発話したと判断して、デジタル化された音声信号の取り込みを開始する。
続いて、音声認識処理部111は、ステップS2において、ユーザ発話が完了したか否かを調べる。ここで、制御装置110は、ユーザ発話の完了が検出された場合には、ステップS3へと処理を移行し、発話完了が検出されなかった場合には、ステップS6へと処理を移行する。
音声認識処理部111は、ステップS3へと処理を移行した場合には、ユーザによって発話されたことに応じて、取り込んだデジタル化された音声信号と、当該音声認識処理部111の記憶領域に構築された音声認識用辞書・文法112が保持する待ち受け文とを比較し、音響的な尤度を計算することで音声認識処理を実行する。このとき、音声認識処理部111は、音響的な尤度の高いN−best候補とその尤度とを音声認識結果として理解結果生成部113に出力する。
続いて、理解結果生成部113は、ステップS4において、理解結果生成処理を実行する。なお、理解結果生成部113による理解結果生成処理については、後で詳細に説明をする。理解結果生成部113は、ステップS4における理解結果生成処理が終了すると、ステップS5において、当該理解結果生成部113の記憶領域に保持されている過去理解結果リスト114の末尾に、この理解結果を追加保存し、ステップS9へと処理を移行する。
一方、制御装置110は、ステップS2において、ユーザの発話完了が検出されなかった場合には、ステップS6へと処理を移行し、ユーザによる発話待機状態において、取り消し指示ボタン140が押下されたか否かを調べる。
ここで、ユーザによる発話待機状態において、取り消し指示ボタン140が押下されなかった場合には、ステップS2へと戻り、ユーザの発話待機、並びに取り消し指示ボタン140の押下待機を所定の時間だけ継続する。
一方、取り消し指示ボタン140が押下された場合には、ステップS7へと処理を移行し、理解結果生成部113は、直前の理解結果である過去理解結果リスト114の末尾に追加した理解結果を取り出し、当該音声対話装置のシステムの状態をひとつ前の状態に戻す。これにより、見かけ上、ユーザによって直前の発話内容が取り消されたことになる。さらに、理解結果生成部113は、ステップS8において、この理解結果を過去理解結果リスト114から削除する代わりに、過去にキャンセルされたことを表すキャンセル情報として、キャンセル情報リスト115に追加する。
以上のような発話入力にともなう理解結果生成処理(ステップS3〜ステップS5)、又は、取り消し指示ボタン140の押下による直前の理解結果の訂正処理(ステップS7〜ステップ8)が終了すると、応答生成部116は、ステップS9において、ステップS5又はステップS8の処理を受け、システム応答を生成する。
具体的には、応答生成部116は、ステップS5を経た場合には、ステップS4にて理解結果生成部113が生成した理解結果に応じて応答文を生成する。一方、ステップS8を経た場合には、理解結果生成部113の記憶領域に保持されている過去理解結果リスト114のうち、最も新しい理解結果がキャンセル情報リスト115に移され、2番目に新しい理解結果がリストの末尾にある理解結果ということになるため、応答生成部116は、このリスト最末尾の理解結果に基づいて応答文を生成する。
続いて、GUI表示制御部117は、ステップS10において、応答生成部116の応答内容に応じてディスク151から読み出された応答表示内容をモニタ160に表示させる。また、音声合成部118は、応答生成部116によって生成された応答文に応じて応答文に即したデジタル音声信号を合成し、D/Aコンバータ171を介してスピーカ70に出力する。
続いて、制御装置110は、ステップS11において、音声認識開始ボタン130が押下されたことに応じて開始された施設検索や目的地設定などのタスクが一通り完了したか否かを判断する。制御装置110は、全てのタスクが完了したものと判断した場合には、音声認識処理部111による音声認識処理を終了する一方で、タスク継続中の場合には、ステップS1へと処理を戻し、音声取り込みを再開する。
また、制御装置110は、取り消し指示ボタン140の押下により、ステップS7〜ステップS8の処理を経た場合には、タスクが完了しないため、ステップS1へと処理を戻し、ユーザからの次の発話を待ち受けることになる。
このようにして、音声対話装置100は、ユーザによって発話された音声の認識処理を実行し、認識結果から生成される理解結果に応じたシステム応答を出力する。このとき、音声対話装置100においては、取り消し指示ボタン140を押下することで、出力されたシステム応答、すなわち理解結果をキャンセルすることができる。
つぎに理解結果生成部113による理解結果生成処理について説明をする。理解結果生成部113による理解結果生成処理について説明するにあたり、図3に示すようなユーザと音声対話装置100とによる対話例とそのときの内部状態を利用する。
まず、この対話例について説明をする。
符号210は、ユーザが発話した発話内容、及び、行った操作である。また、符号220は、符号210の操作内容としてユーザ発話がある場合に、この発話に対して音声認識処理部111が出力した音声認識結果から、助詞などを除いて意味理解に必要な単語だけを抜き出し、同じ理解結果をひとつにまとめたものをリスト化したものである。ここでは、同じ理解結果を生成する認識結果の尤度のうち、最も高い尤度をこの理解結果の尤度として付与している。なお、認識結果から理解結果候補リストを生成する方法は、後述するものとする。さらに、符号230は、理解結果生成部113がこの結果を受けて生成した過去理解結果リスト114の内部状態であり、符号240は、同じく理解結果生成部113が生成したキャンセル情報リスト115の内部状態である。そして、符号250は、これらの理解結果を受けて応答生成部116が出力した応答文である。
ここで、認識結果が次表1に示す『認識結果リストA』である場合における理解結果生成の例を示す。
Figure 2008116560
理解結果生成処理では、認識結果の先頭から順に認識結果を取り出し、認識語から、理解結果に必要な単語のみを抜き出す。この具体例は施設検索タスクであるため、抜き出す単語は「県名」「路線名」「施設名」などに属する単語である。認識結果リストAにおける第1の認識結果である「神奈川県」は、県名のみの1単語であるため、理解結果はそのまま「神奈川県」となる。理解結果生成部113は、これを認識結果尤度とともに所定の理解結果候補リストに追加しておく。第2の認識結果である「神奈川県です」は、県名と助動詞の組み合わせであり、今回必要なのは県名のみであるため、これも理解結果は「神奈川県」となる。理解結果生成部113は、この結果を、すでに理解結果候補リストに登録されている全ての理解結果と比較して、登録されていなければ理解結果に追加し、登録されていれば次の認識結果処理に移る。理解結果生成部113は、このようにして理解結果候補リストRL1を作成する。
対話の流れは、以下のようになる。
『対話例』
第1のユーザ発話U1 :「神奈川県」
第1のシステム応答SR1:「神奈川県のどちらですか?」
第2のユーザ発話U2 :「横浜駅」
第2のシステム応答SR2:「横須賀駅でよろしいですか?」
第1のユーザ操作U3 :取り消し指示ボタン140押下
第3のシステム応答SR3:「神奈川県のどちらですか?」
第3のユーザ発話U4 :「横浜駅」
すなわち、ユーザは、目的地を設定するために第1のユーザ発話として「神奈川県」(U1)を発話した。
これに応じて、音声対話装置100は、この発話から作成した理解結果候補リストRL1の第1番目の候補として「神奈川県」を選択したため、理解結果「神奈川県」を過去理解結果リスト114に追加してUL1とし、「神奈川県のどちらですか?」(SR1)と応答した。
これを受けて、ユーザは、目的地を設定するための第2のユーザ発話として「横浜駅」(U2)を発話した。
しかし、このときの理解結果候補の第1位は、「横須賀駅」となったため、音声対話装置100は、理解結果としての「横須賀駅」を過去理解結果リスト114に追加してUL2とし、「横須賀駅でよろしいですか?」(SR2)と応答した。
そのため、ユーザは、取り消し指示ボタン140を押下して、SR2の理解結果を取り消した(U3)。
これに応じて、音声対話装置100は、過去理解結果リスト114、すなわちリストUL2から最も直前の理解結果である「横須賀駅」をひとつ取り出して、キャンセル情報リスト115に追加してCL3とし、過去理解結果リストUL2から、この理解結果を削除してUL3とした。そして、音声対話装置100は、この理解結果を用いて応答文を生成し、「神奈川県のどちらですか?」(SR3)と応答することで、見かけ上、システム状態をひとつ前の状態に戻したことになる。
そこで、ユーザは、第3のユーザ発話として、第2のユーザ発話と同じ「横浜駅」(U4)繰り返し発話した。
このとき、過去理解結果リスト114の内容は、第2のユーザ発話の理解結果であるRL2と同様に、第1位の理解結果候補が「横須賀駅」となっているが、キャンセル情報リスト115内のキャンセル情報CL3を利用するため、同じ誤認識を繰り返さないという例である。
このような『対話例』のうち、第2のユーザ発話U2、及び第3のユーザ発話U4に関し、図2に示したフローチャートのステップS4での処理である理解結果生成部113による理解結果生成処理について図4に示すフローチャートを用いて説明する。
まず、第2のユーザ発話U2に対する理解結果生成処理について説明する。
ユーザは、第2のユーザ発話として「横浜駅」と発話する。そこで、音声認識処理部111は、この発話を音声認識処理し、音声認識結果のN−best候補を音響尤度とともに出力する。この認識結果に対して、理解結果生成部113は、ステップS21において、認識結果から意味理解に必要な単語のみを抜き出し、同じ理解結果をまとめることで、理解結果候補リストRL2を作成する。
続いて、理解結果生成部113は、理解結果候補リストRL2を作成すると、ステップS22において、作成した理解結果候補リストRL2に理解結果候補があるか否かを調べる。ここで、理解結果候補リストRL2に理解結果候補がない場合には、理解結果生成部113は、そのまま理解結果生成処理を終了する。一方、理解結果候補リストRL2に1つ以上の理解結果候補がある場合には、理解結果生成部113は、ステップS23において、理解結果候補の最も尤度の高い結果から順に理解結果候補Rnを取り出す。ここでは、尤度が175である「横須賀駅」が取り出される。
そして、理解結果生成部113は、ステップS24において、直前のキャンセル情報リスト115内にキャンセル情報があるか否かを調べる。今回はキャンセル情報がないため(CL1)、理解結果生成部113は、ステップS30へと処理を移行し、直前に選択した第1位の理解結果候補である「横須賀駅」を理解結果として選択し、理解結果生成処理を終了する。
つぎに、第2のユーザ発話の理解結果である「横須賀駅」をキャンセルされた後における第3のユーザ発話U4に対する理解結果生成処理について説明する。
第3のユーザ発話U4に対する理解結果候補リストは、RL4として示したように、第2のユーザ発話U2に対する理解結果候補リストと同様に、第1位の理解結果が「横須賀駅」であり、第2位の理解結果が「横浜駅」であるものであった。
ここで、理解結果生成部113は、ステップS22において、理解結果候補リストRL4に理解結果があるか否かを調べてから、ステップS23において、その理解結果候補リストRL4から、最も尤度の高い理解結果候補Rnとして、尤度が190である「横須賀駅」を取り出す。
続いて、理解結果生成部113は、ステップS24において、キャンセル情報リスト115内にキャンセル情報があるか否かを調べる。今回はキャンセル情報CL3が存在するため、理解結果生成部113は、ステップS25へと処理を移行し、最も直前にキャンセル情報リスト115に追加されたキャンセル情報から順にキャンセル情報Cmを取り出す。ここでは、キャンセル情報「横須賀駅」(CL3)を取り出すことになる。
そして、理解結果生成部113は、ステップS26において、取り出したキャンセル情報Cmが、現在調べている理解結果候補Rnの内容と等しいか否かを調べる。ここで、理解結果候補Rnとキャンセル情報Cmが異なる場合には、理解結果生成部113は、理解結果候補Rnと等しいキャンセル情報Cmが見つかるまでキャンセル情報リスト115を調べ、理解結果候補Rnと等しいキャンセル情報Cmが最後まで見つからなければステップS30へと処理を移行し、理解結果候補Rnを理解結果として選択する。一方、認識結果候補Rnと等しいキャンセル情報Cmが見つかった場合には、理解結果生成部113は、ステップS27へと処理を移行し、現在の理解結果候補Rnの次の理解結果候補Rn+1が存在するか否かを調べる。今回は、理解結果候補Rn「横須賀駅」とキャンセル情報Cm「横須賀駅」は等しいため、理解結果生成部113は、ステップS27へと処理を移行することになる。
理解結果生成部113は、ステップS27において、これ以上理解結果候補が存在しないことを確認した場合には、ステップS30へと処理を移行し、過去理解結果リスト114の第1位の理解結果候補を理解結果として選択する。一方、現在の理解結果候補Rnの次の理解結果候補Rn+1が存在することを確認した場合には、理解結果生成部113は、ステップS28へと処理を移行し、現在の理解結果候補Rnの次の理解結果候補Rn+1を理解結果候補リストから取り出す。ここでは、尤度が160である理解結果候補「横浜駅」が現在の理解結果候補Rnの次の理解結果候補Rn+1にあたる。
そして、理解結果生成部113は、ステップS29において、現在の理解結果候補Rnの尤度と、次の理解結果候補Rn+1の尤度との差分を、所定の閾値αと比較する。なお、閾値αは、例えば50などの数値であるが、その設定方法については後述するものとする。
ここで、この尤度差が大きい場合には、第1の認識結果は、第2の認識結果に比べて信用できることになり、尤度差が小さい場合には、第1の認識結果と第2の認識結果との間にあまり差がないため、どちらか一方を完全に信用することができないということになる。このため、尤度差が閾値αを超えた場合に限り、尤度の大きい理解結果候補Rnを信用することとし、この尤度差が閾値αを超えない場合には、尤度の大きい理解結果候補Rnを疑うこととする。したがって、理解結果生成部113は、2つの理解結果候補Rn,Rn+1の尤度差が閾値αを超えた場合には、理解結果候補Rnを信用してステップS30へと処理を移行し、理解結果候補の第1位として選択する。
今回は、尤度が190である理解結果候補Rn「横須賀駅」と次に尤度が大きい(尤度160)理解結果候補Rn+1「横浜駅」との尤度差は30であるため、閾値αよりも尤度差が小さい。そこで、理解結果生成部113は、理解結果候補Rn+1が理解結果としてふさわしいか否かを、キャンセル情報を調べてから決定するため、ステップS31へと処理を移行し、キャンセル情報リスト115にキャンセル情報があるか否かをキャンセル情報リスト115の先頭から調べる。
今回、次候補としてステップS28にて取り出される理解結果候補は、尤度が160である「横浜駅」である。したがって、理解結果生成部113は、ステップS31乃至ステップS34において、理解結果候補「横浜駅」に対して一致するキャンセル情報があるか否かをキャンセル情報リスト115からキャンセル情報CL3を取り出して調べることになる。
具体的には、理解結果生成部113は、ステップS31において、キャンセル情報リスト115の最後まで調べたか否かを調べ、未だ調べていないキャンセル情報がある場合には、ステップS33において、キャンセル情報Ckを取り出す。そして、理解結果生成部113は、ステップS34において、キャンセル情報Ckが理解結果候補Rn+1と一致するか否かを調べる。この場合、ステップS31乃至ステップS34において、理解結果候補Rn+1に一致するキャンセル情報が見つからないため、理解結果生成部113は、ステップS32へと処理を移行し、現在調べている理解結果候補Rn+1である「横浜駅」を理解結果候補として選択する。なお、理解結果候補Rn+1と一致するキャンセル情報が見つかった場合には、理解結果候補Rnと理解結果候補Rn+1、すなわち、理解結果候補の第1位と第2位それぞれがキャンセル情報と一致したことになる。したがって、理解結果生成部113は、ステップS35へと処理を移行してn=n+1とし、第2位の候補と第3位の候補についての尤度差を調べる。そして、理解結果生成部113は、上位には過去にキャンセルされた理解結果のみ存在し、且つ、すぐ上位の理解結果との尤度差が小さいような過去にキャンセルされていない理解結果、又は、上位に過去にキャンセルされた理解結果のみ存在し、且つ、すぐ上位の理解結果との尤度差が大きいような理解結果を探す。理解結果生成部113は、前者が見つかった場合には、ステップS32において、これを理解結果とし、後者が見つかった場合には、ステップS30において、第1位の理解結果を選択することになる。
このように、理解結果生成部113は、一度キャンセルされた理解結果候補が、他のキャンセルされていない認識結果候補と比較してその尤度に大きな差がない場合には、尤度が近く且つキャンセルされていない候補を理解結果として選択することになる。なお、理解結果生成部113は、全ての理解結果が過去にキャンセルされている場合には、ステップS30へと処理を移行し、理解結果候補リストの第1位を理解結果として選択する。
理解結果生成部113は、このようにして理解結果生成処理を行う。なお、ここでは、認識結果候補の確からしさをはかる尺度、すなわち選択基準値として尤度のみを使用して理解結果を選択するものとしたが、認識結果候補の確からしさをはかる尺度として信頼度を利用してもよい。すなわち、理解結果生成部113は、同じ意味を示す単語であっても読み方が異なれば、異なる単語であるとして扱い、その単語信頼度を算出するとともに、理解結果に含まれる単語が有する信頼度の合計を、当該理解結果のスコアとして算出し、これに基づいて理解結果を選択するようにしてもよい。なお、単語信頼度とは、単一の発話において、その読み方で単語が発話された可能性を示す値であり、ある単語Wの単語信頼度をConf(W)、N−best候補それぞれに対する対数尤度をLiとしたとき、以下に示す(1)式によって求めることができるものである。
Figure 2008116560
また、理解結果生成部113は、理解結果候補Rnの尤度と理解結果候補Rn+1の尤度との差分を、所定の閾値αと比較する代わりに、理解結果候補Rnの尤度と理解結果候補Rn+1の尤度との比を閾値αと比較するようにしてもよい。
さらに、理解結果生成部113は、キャンセル情報に有効期限を設け、一定回数以上前の入力におけるキャンセル情報は破棄するようにしてもよい。
つぎに、上述した尤度差の閾値αを決定する手順について図5に示すフローチャートを用いて説明する。
まず、事前準備として、認識対象となる辞書・文法の内容を発話した音声ファイルを複数用意する。理解結果生成部113は、ステップS41において、この音声ファイルを最後まで全てを調べたか否かを判断する。ここで、理解結果生成部113は、未だ調べていない音声ファイルがある場合には、ステップS42へと処理を移行し、音声ファイルをひとつ取り出し、ステップS43において、取り出した音声ファイルの音声認識処理を行う。ここでは、本システムで使用する辞書・文法を用いて、複数の音声認識結果候補とその尤度を求める。
続いて、理解結果生成部113は、ステップS44において、これら全ての結果に対して、『認識結果リストA』の例に示したのと同様に、理解結果候補リストの作成を行い、同じ理解結果をまとめて、当該理解結果候補を導いた認識結果候補の尤度のうち、より高い尤度をこの理解結果候補のスコアとする。
理解結果生成部113は、このようにして各認識結果候補に対して理解結果候補を生成してから、各理解結果候補を調べる。すなわち、理解結果生成部113は、ステップS45において、理解結果候補リストに1つ以上の理解結果が存在することを確かめ、第1の理解結果候補が存在した場合には、ステップS46において、その第1の理解結果候補を理解結果候補リストから取り出す。続いて、理解結果生成部113は、ステップS47において、理解結果候補リストに第2の理解結果が存在することを確かめ、第2の理解結果候補が存在した場合には、ステップS48において、その第2の理解結果候補を理解結果候補リストから取り出す。
続いて、理解結果生成部113は、ステップS49において、ステップS46にて理解結果候補リストから取り出した第1の理解結果候補が正解であるか否かを調べ、正解である場合には、その第1の理解結果候補のスコアと第2の理解結果候補のスコアとの差分を、尤度差として、第1位が正解である場合の尤度差リストCorrectに追加する。一方、理解結果生成部113は、ステップS46にて理解結果候補リストから取り出した第1の理解結果候補が不正解である場合には、その第1の理解結果候補のスコアと第2の理解結果候補のスコアとの差分を、尤度差として、第1位が不正解である場合の尤度差リストMissに追加する。なお、本実施例では、第1及び第2の理解結果候補の両方がそろっているもののみについて調べている。また、尤度差のサンプルは、第1の理解結果候補と第2の理解結果候補との間からのみ採取する。理解結果生成部113は、このような処理を、用意したサンプル全てについて繰り返す。
そして、理解結果生成部113は、全てのサンプル発話について第1の理解結果候補と第2の理解結果候補との尤度差を調べると、ステップS52において、尤度差リストCorrect、Missのそれぞれの頻度分布をプロットする。
この頻度分布をプロットした例を図6に示す。同図において、縦軸は頻度を示し、横軸は第1位の理解結果候補の尤度と第2位の理解結果候補の尤度との差分を示している。符号310は、第1位の理解結果候補が不正解であった場合における第1位の理解結果候補の尤度と第2位の理解結果候補の尤度との差分の分布である。また、符号320は、第1位の理解結果候補が正解であった場合における第1位の理解結果候補の尤度と第2位の理解結果候補の尤度との差分の分布である。
これらの尤度差分布の出現傾向は、音声認識エンジンによって異なるが、一般的なHMMを使った音声認識処理を行った場合には、第1位の理解結果が不正解で且つ第2位の理解結果が正解である場合における第1位と第2位の理解結果の尤度差は、第1位の理解結果が正解で且つ第2位の理解結果が不正解である場合における第1位と第2位の理解結果の尤度差よりも小さくなる。本発明は、尤度差が大きい場合には、第1位の理解結果が正解である可能性が高いが、尤度差が小さい場合には、第1位の理解結果が誤りである可能性が高いという性質を利用したものである。
また、今回は、同一の誤認識を繰り返さないことのみを目的としているため、第1の理解結果が誤りであった場合における第2の理解結果の正誤は問うていないが、理解結果生成部113は、第2の理解結果が正解であった場合のみをサンプルとして扱ってもよい。
理解結果生成部113は、このようにプロットした尤度差に基づいて、ステップS53において、各頻度分布の交点(図6中符号330)を求め、これを閾値αとする。
このように、理解結果生成部113は、頻度分布の交点を閾値αとすることにより、第1位の理解結果候補のスコアと第2位の理解結果候補のスコアとの差分が閾値よりも大きい場合には、過去に否定されていても、第1位の理解結果を尊重し、第1位の理解結果候補のスコアと第2位の理解結果候補のスコアとの差分が閾値よりも小さい場合には、過去に否定されていれば、第1位の理解結果を採用せずに、第2位の理解結果を採用することになる。
この閾値αをサンプル音声の認識結果に適用すると、図6中符号311で表すエリアにプロットされた理解結果は、第1位が不正解であるため、過去にこの理解結果候補が否定されていれば、再度この理解結果候補は採用されずに、第2位以下の理解結果が採用される。また、図6中符号322で表すエリアにプロットされた理解結果は、第1位の結果が不正解であるが、第1位の理解結果候補のスコアと第2位の理解結果候補のスコアとの差分が閾値αよりも大きいため、過去にこの理解結果候補が否定されていても、再度第1位の理解結果候補が選択される。さらに、図6中符号321で表すエリアにプロットされた理解結果は、第1位の理解結果候補のスコアと第2位の理解結果候補のスコアとの差分が閾値αよりも大きいため、過去にこの理解結果候補が否定されていても、再度第1位の理解結果候補が選択されるが、このとき第1位の理解結果は正解であるため、過去に否定されていても理解結果として選択することは正しい。
さらにまた、第1位が正解で、図6中符号312で表すエリアにプロットされた理解結果は、第1位の理解結果候補のスコアと第2位の理解結果候補のスコアとの差分が閾値αよりも小さいため、過去にこの理解結果候補が否定されていれば再度第1位の理解結果候補は選択されず、他の理解結果が選択される。この場合、第1位が不正解であるために否定後は同じ理解結果を採用しないエリア311と、第1位が正解であるために過去に否定されていても同じ理解結果を採用するエリア321の範囲をなるべく大きくし、同様に、第1位が不正解であり、過去に否定されているが同じ理解結果を選択してしまうエリア322と、過去に否定されているが、正解であるのに第1位の理解結果を選択しないエリア312の範囲をなるべく小さくするように閾値αを設定する必要があり、これが各頻度分布の交点330となっている。
なお、これらの分布は、音声認識の待ち受け語彙や音声入力時の周囲雑音環境、発話時間や発話者、音声認識結果の内容などに応じて異なるため、適応環境ごとにこれらの分布を調べて閾値αの最適値を得るようにし、環境ごとに閾値αを変化させることもできる。
また、過去にキャンセルされていても、第1位の理解結果が正解の場合にはなるべく正解として選択したい場合には、閾値αを交点よりも小さくすればよく、また、過去にキャンセルされた語は必ず理解結果として選択したくないのであれば、閾値αを交点よりも右側に設定すればよい。
理解結果生成部113は、このようにして尤度差の閾値αを決定することができる。
以上詳細に説明したように、本発明の実施の形態として示した音声対話装置100においては、理解結果生成部113によって理解結果を生成する際に、取り消し指示ボタン140によって過去に訂正を指示された理解結果に対応する認識結果候補に与えられた所定の選択基準値を、過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する。すなわち、この音声対話装置100においては、過去に否定された認識結果の選択基準値を修正する際に、正解であるのにかかわらず過去に否定された認識結果については選択され得る程度に、選択基準値を修正するため、過去に否定されていても、正しい認識結果であれば、理解結果として選択されにくくなることなく、同一の誤認識の繰り返しを回避することができる。
また、音声対話装置100においては、理解結果生成部113によって理解結果の確からしさをスコアとして計算し、任意の理解結果が正解である場合における当該理解結果のスコアと、正解の理解結果よりもスコアが低く且つ不正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、選択基準値を修正するための修正係数としての閾値αを決定する。このように、音声対話装置100においては、任意の理解結果が正解である場合における当該理解結果のスコアと、正解の理解結果よりもスコアが低く且つ不正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、過去に否定された語が再度認識された場合における理解結果としての選択されやすさを決定することにより、任意の理解結果が正解である場合には、過去に訂正されていても理解結果として選択できる範囲で、過去に否定された結果が再度認識された場合に理解結果として選択されにくくするようにすることができる。
さらに、音声対話装置100においては、理解結果生成部113によって理解結果の確からしさをスコアとして計算し、任意の理解結果が不正解である場合における正解の理解結果のスコアと、不正解の理解結果よりもスコアが低く且つ不正解の理解結果とは異なる理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、選択基準値を修正するための修正係数としてのαを決定する。このように、音声対話装置100においては、任意の理解結果が不正解である場合における正解の理解結果のスコアと、不正解の理解結果よりもスコアが低く且つ不正解の理解結果とは異なる理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、過去に否定された語が再度認識された場合における理解結果としての選択されやすさを決定することにより、過去に訂正された不正解の理解結果を再度理解結果として選択しないようにすることができる。
さらにまた、音声対話装置100においては、理解結果生成部113により、任意の理解結果が不正解である場合における正解の理解結果のスコアと、不正解の理解結果よりもスコアが低く且つ正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、修正係数としての閾値αを決定する。このように、音声対話装置100においては、任意の理解結果が不正解である場合における正解の理解結果のスコアと、不正解の理解結果よりもスコアが低く且つ正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、過去に否定された語が再度認識された場合における理解結果としての選択されやすさを決定することにより、過去に訂正された不正解の理解結果を再度理解結果として選択しないようにすることができる。
また、音声対話装置100においては、理解結果生成部113により、認識結果候補のうちのいずれかひとつから理解結果を生成し、理解結果に対応する認識結果候補の認識対象語との音響的な近さ示す尤度を、当該理解結果のスコアとすることにより、単純な構成でシステムを実現することができ、1つの発話に対する認識結果の候補数が少ないサンプルからも妥当な閾値αを設定することができる。
さらに、音声対話装置100においては、理解結果生成部113により、認識結果候補に含まれる単語に対して、発話された可能性を示し、所定の選択基準値となる単語信頼度を算出し、理解結果に含まれる単語が有する単語信頼度の合計を、当該理解結果のスコアとすることもでき、これにより、理解結果の妥当性をより正確に評価した閾値αを設定することができる。
さらにまた、音声対話装置100においては、理解結果生成部113により、任意の理解結果のスコアと、その理解結果の次に大きいスコアを有する理解結果のスコアとの関係性をこれら2つのスコアの差分とし、この差分が所定の閾値αを超えない場合に、過去に訂正を指示された理解結果を理解結果として選択しないようにする。したがって、音声対話装置100においては、理解結果が過去に訂正されている場合には、この閾値αをスコアから差し引いてから、他の理解結果のスコアと比較することにより、過去に訂正されていない理解結果候補とのスコア差が閾値α以下の場合に限り、過去に訂正された理解結果候補を理解結果として選択しないようにすることができ、同一の誤認識を繰り返す事態を回避することができる。
さらにまた、音声対話装置100においては、理解結果生成部113により、任意の理解結果のスコアと、その理解結果の次に大きいスコアを有する理解結果のスコアとの関係性をこれら2つのスコアの比とし、一方のスコアに対する他方のスコアの比が所定の閾値αを超えない場合に、過去に訂正を指示された理解結果を理解結果として選択しないようにしてもよい。したがって、音声対話装置100においては、理解結果が過去に訂正されている場合には、この閾値αをスコアに乗じてから、他の理解結果のスコアと比較することにより、過去に訂正されていない理解結果候補とのスコア比が閾値α以下の場合に限り、過去に訂正された理解結果候補を理解結果として選択しないようにすることができ、同一の誤認識を繰り返す事態を回避することができる。
また、音声対話装置100においては、理解結果生成部113により、任意の不正解の理解結果のスコアと、その不正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、全体の一定割合以上の不正解サンプルが、理解結果として選択されなくなる値を閾値αとすることにより、実際の認識率に即して、一定割合以上の不正解の理解結果候補を理解結果として選択しないようにすることができる。
さらに、音声対話装置100においては、理解結果生成部113により、任意の正解の理解結果のスコアと、その正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、全体の一定割合以上の正解サンプルが、理解結果として選択される値を閾値αとすることにより、実際の認識率に即して、一定割合以上の正解の理解結果候補を理解結果として選択できるようにすることができる。
さらにまた、音声対話装置100においては、理解結果生成部113により、任意の不正解の理解結果のスコアと、その不正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、さらに、他の正解の理解結果のスコアと、その正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルを調べ、それぞれの出現頻度割合が同じになるスコア値を閾値αとすることにより、過去に訂正されているために再度理解結果として選択しない不正解の理解結果候補と、過去に訂正されているが正解であるために再度理解結果として選択できる理解結果候補とを合わせた出現頻度を最大にすることができる。
また、音声対話装置100においては、理解結果生成部113により、音声認識の待ち受け語彙に応じて、選択基準値を修正するための修正係数を決定することができ、これにより、待ち受け語彙の複雑さによって異なる尤度の出現傾向に対応して、より正確な選択基準値の修正係数を設定することができる。
同様に、音声対話装置100においては、理解結果生成部113により、音声入力時の周辺雑音環境に応じて、選択基準値を修正するための修正係数を決定することもでき、これにより、周辺雑音環境によって異なる尤度の出現傾向に対応して、より正確な選択基準値の修正係数を設定することができる。
また、音声対話装置100においては、理解結果生成部113により、発話時間や発話者、音声認識結果の内容に応じて、選択基準値を修正するための修正係数を決定するようにしてもよく、これにより、発話時間や発話者、音声認識結果の内容によって異なる尤度の出現傾向に対応して、より正確な選択基準値の修正係数を設定することができる。
なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施の形態に限定されることはなく、この実施の形態以外の形態であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計などに応じて種々の変更が可能であることは勿論である。
本発明の実施の形態として示す音声対話装置の構成について説明するブロック図である。 前記音声対話装置において、音声認識処理を開始してから応答文を出力するまでの処理動作について説明するためのフローチャートである。 前記音声対話装置における理解結果生成部による理解結果生成処理について説明するための図であり、ユーザと音声対話装置とによる対話例とそのときの内部状態について説明するための図である。 前記音声対話装置における理解結果生成部による理解結果生成処理について説明するためのフローチャートである。 前記音声対話装置における理解結果生成部による尤度差の閾値を決定する手順について説明するためのフローチャートである。 尤度差リストの頻度分布をプロットした例を示す図である。
符号の説明
100 音声対話装置
110 制御装置
111 音声認識処理部
112 音声認識用辞書・文法
113 理解結果生成部
114 過去理解結果リスト
115 キャンセル情報リスト
116 応答生成部
117 GUI表示制御部
118 音声合成部
120 マイク
121 A/Dコンバータ
130 音声認識開始ボタン
140 取り消し指示ボタン
150 ディスク読み取り装置
151 ディスク
160 モニタ
170 スピーカ
171 D/Aコンバータ

Claims (17)

  1. 発話された音声を入力する入力手段と、
    前記入力手段によって入力された音声を認識対象語に基づき認識する音声認識手段と、
    前記音声認識手段による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された前記認識結果候補を用いて、前記発話された音声に対する応答となる理解結果を生成する理解結果生成手段と、
    前記理解結果生成手段によって生成された前記理解結果に対して訂正を指示する訂正指示手段と、
    前記理解結果生成手段によって前記理解結果を生成する際に、前記訂正指示手段によって過去に訂正を指示された理解結果に対応する前記認識結果候補に与えられた前記所定の選択基準値を、前記過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する選択基準値修正手段とを備えること
    を特徴とする音声対話装置。
  2. 前記理解結果の確からしさをスコアとして計算するスコア計算手段を備え、
    前記選択基準値修正手段は、任意の理解結果が正解である場合における当該理解結果のスコアと、前記正解の理解結果よりもスコアが低く且つ不正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、前記選択基準値を修正するための修正係数を決定すること
    を特徴とする請求項1記載の音声対話装置。
  3. 前記理解結果の確からしさをスコアとして計算するスコア計算手段を備え、
    前記選択基準値修正手段は、任意の理解結果が不正解である場合における正解の理解結果のスコアと、前記不正解の理解結果よりもスコアが低く且つ前記不正解の理解結果とは異なる理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、前記選択基準値を修正するための修正係数を決定すること
    を特徴とする請求項1記載の音声対話装置。
  4. 前記選択基準値修正手段は、任意の理解結果が不正解である場合における正解の理解結果のスコアと、前記不正解の理解結果よりもスコアが低く且つ正解の理解結果のうち最も高い理解結果のスコアとの関係性の出現傾向に基づいて、前記修正係数を決定すること
    を特徴とする請求項3記載の音声対話装置。
  5. 前記理解結果生成手段は、前記認識結果候補のうちのいずれかひとつから前記理解結果を生成し、
    前記スコア計算手段は、前記理解結果に対応する前記認識結果候補の前記認識対象語との音響的な近さ示す尤度を、当該理解結果のスコアとすること
    を特徴とする請求項2乃至請求項4のうちいずれか1項記載の音声対話装置。
  6. 前記認識結果候補に含まれる単語に対して、発話された可能性を示し、前記所定の選択基準値となる単語信頼度を算出する単語信頼度算出手段を備え、
    前記スコア計算手段は、前記理解結果に含まれる単語が有する前記単語信頼度の合計を、当該理解結果のスコアとすること
    を特徴とする請求項2乃至請求項4のうちいずれか1項記載の音声対話装置。
  7. 前記理解結果生成手段は、任意の理解結果のスコアと、前記理解結果の次に大きいスコアを有する理解結果のスコアとの関係性をこれら2つのスコアの差分とし、この差分が所定の閾値を超えない場合に、前記過去に訂正を指示された理解結果を理解結果として選択しないこと
    を特徴とする請求項2乃至請求項6のうちいずれか1項記載の音声対話装置。
  8. 前記理解結果生成手段は、任意の理解結果のスコアと、前記理解結果の次に大きいスコアを有する理解結果のスコアとの関係性をこれら2つのスコアの比とし、一方のスコアに対する他方のスコアの比が所定の閾値を超えない場合に、前記過去に訂正を指示された理解結果を理解結果として選択しないこと
    を特徴とする請求項2乃至請求項6のうちいずれか1項記載の音声対話装置。
  9. 前記理解結果生成手段は、任意の不正解の理解結果のスコアと、前記不正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、全体の一定割合以上の不正解サンプルが、理解結果として選択されなくなる値を前記閾値とすること
    を特徴とする請求項7又は請求項8記載の音声対話装置。
  10. 前記理解結果生成手段は、任意の正解の理解結果のスコアと、前記正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、全体の一定割合以上の正解サンプルが、理解結果として選択される値を前記閾値とすること
    を特徴とする請求項7又は請求項8記載の音声対話装置。
  11. 前記理解結果生成手段は、任意の不正解の理解結果のスコアと、前記不正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルの頻度分布を調べ、さらに、他の正解の理解結果のスコアと、前記正解の理解結果の次に大きいスコアを有する理解結果のスコアとの関係性の複数サンプルを調べ、それぞれの出現頻度割合が同じになるスコア値を前記閾値とすること
    を特徴とする請求項7又は請求項8記載の音声対話装置。
  12. 前記選択基準値修正手段は、音声認識の待ち受け語彙に応じて、前記選択基準値を修正するための修正係数を決定すること
    を特徴とする請求項1記載の音声対話装置。
  13. 前記選択基準値修正手段は、音声入力時の周辺雑音環境に応じて、前記選択基準値を修正するための修正係数を決定すること
    を特徴とする請求項1記載の音声対話装置。
  14. 前記選択基準値修正手段は、発話時間に応じて、前記選択基準値を修正するための修正係数を決定すること
    を特徴とする請求項1記載の音声対話装置。
  15. 前記選択基準値修正手段は、発話者に応じて、前記選択基準値を修正するための修正係数を決定すること
    を特徴とする請求項1記載の音声対話装置。
  16. 前記選択基準値修正手段は、音声認識結果の内容に応じて、前記選択基準値を修正するための修正係数を決定すること
    を特徴とする請求項1記載の音声対話装置。
  17. 発話された音声を入力する入力工程と、
    前記入力工程によって入力された音声を認識対象語に基づき認識する音声認識工程と、
    前記音声認識工程による認識結果である複数の認識結果候補から、各認識結果候補に与えられた所定の選択基準値に基づき選択された前記認識結果候補を用いて、前記発話された音声に対する応答となる理解結果を生成する理解結果生成工程と、
    前記理解結果生成工程によって生成された前記理解結果に対して訂正を指示する訂正指示工程と、
    前記理解結果生成工程によって前記理解結果を生成する際に、前記訂正指示工程によって過去に訂正を指示された理解結果に対応する前記認識結果候補に与えられた前記所定の選択基準値を、前記過去に訂正を指示された理解結果と同一の発話を再度入力した場合の認識結果候補には影響を与えない程度に、過去に訂正を指示された理解結果が選択されにくくなる方向に修正する選択基準値修正工程とを備えること
    を特徴とする音声理解結果生成方法。
JP2006297940A 2006-11-01 2006-11-01 音声対話装置及び音声理解結果生成方法 Active JP4946358B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006297940A JP4946358B2 (ja) 2006-11-01 2006-11-01 音声対話装置及び音声理解結果生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006297940A JP4946358B2 (ja) 2006-11-01 2006-11-01 音声対話装置及び音声理解結果生成方法

Publications (2)

Publication Number Publication Date
JP2008116560A true JP2008116560A (ja) 2008-05-22
JP4946358B2 JP4946358B2 (ja) 2012-06-06

Family

ID=39502558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006297940A Active JP4946358B2 (ja) 2006-11-01 2006-11-01 音声対話装置及び音声理解結果生成方法

Country Status (1)

Country Link
JP (1) JP4946358B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101404246B1 (ko) * 2012-10-29 2014-06-05 포항공과대학교 산학협력단 발화 인식 성능 향상 시스템 및 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01154098A (ja) * 1987-12-10 1989-06-16 Ricoh Co Ltd 音声認識装置
JPH09198087A (ja) * 1996-01-12 1997-07-31 N T T Data Tsushin Kk 音声認識装置及び方法
JPH1063295A (ja) * 1996-08-14 1998-03-06 Nippon Telegr & Teleph Corp <Ntt> 認識結果を自動訂正する単語音声認識方法およびこの方法を実施する装置
JPH10282989A (ja) * 1997-04-01 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 正解認識候補絞り込み方法
JP2001075589A (ja) * 1999-09-02 2001-03-23 Denso Corp 音声認識方法及び音声認識装置
JP2001100786A (ja) * 1999-09-28 2001-04-13 Canon Inc 音声認識方法、装置及び記憶媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01154098A (ja) * 1987-12-10 1989-06-16 Ricoh Co Ltd 音声認識装置
JPH09198087A (ja) * 1996-01-12 1997-07-31 N T T Data Tsushin Kk 音声認識装置及び方法
JPH1063295A (ja) * 1996-08-14 1998-03-06 Nippon Telegr & Teleph Corp <Ntt> 認識結果を自動訂正する単語音声認識方法およびこの方法を実施する装置
JPH10282989A (ja) * 1997-04-01 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 正解認識候補絞り込み方法
JP2001075589A (ja) * 1999-09-02 2001-03-23 Denso Corp 音声認識方法及び音声認識装置
JP2001100786A (ja) * 1999-09-28 2001-04-13 Canon Inc 音声認識方法、装置及び記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101404246B1 (ko) * 2012-10-29 2014-06-05 포항공과대학교 산학협력단 발화 인식 성능 향상 시스템 및 방법

Also Published As

Publication number Publication date
JP4946358B2 (ja) 2012-06-06

Similar Documents

Publication Publication Date Title
EP0840289B1 (en) Method and system for selecting alternative words during speech recognition
EP0840288B1 (en) Method and system for editing phrases during continuous speech recognition
US5950160A (en) Method and system for displaying a variable number of alternative words during speech recognition
CN106663424B (zh) 意图理解装置以及方法
US5933804A (en) Extensible speech recognition system that provides a user with audio feedback
US8612225B2 (en) Voice recognition device, voice recognition method, and voice recognition program
US10176806B2 (en) Motor vehicle operating device with a correction strategy for voice recognition
EP0965978A1 (en) Non-interactive enrollment in speech recognition
EP1321926A1 (en) Speech recognition correction
EP0841655A2 (en) Method and system for buffering recognized words during speech recognition
US20150046163A1 (en) Leveraging interaction context to improve recognition confidence scores
JP2008009153A (ja) 音声対話システム
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP2021105736A (ja) 情報処理装置、方法及びプログラム
WO2006093092A1 (ja) 会話システムおよび会話ソフトウェア
JP2006189730A (ja) 音声対話方法および音声対話装置
JP6723907B2 (ja) 言語認識システム、言語認識方法、及び言語認識プログラム
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP4946358B2 (ja) 音声対話装置及び音声理解結果生成方法
EP0840287A2 (en) Method and system for selecting recognized words when correcting recognized speech
JP2009116075A (ja) 音声認識装置
JP4635743B2 (ja) 音声対話装置及び音声理解結果生成方法
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
JP6325770B2 (ja) 音声認識誤り修正装置及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4946358

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150