JP4634156B2

JP4634156B2 - 音声対話方法および音声対話装置

Info

Publication number: JP4634156B2
Application number: JP2005003119A
Authority: JP
Inventors: 剛井上; 純幸沖本; 栄一内藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-01-07
Filing date: 2005-01-07
Publication date: 2011-02-16
Anticipated expiration: 2025-01-07
Also published as: JP2006189730A

Description

本発明は、ユーザからの音声入力に応じて対話を行う音声対話方法および音声対話装置に関する。

従来、ユーザからの音声入力に応じて対話を行う音声対話システムにおいて、ユーザの音声入力に対して正確な音声認識ができずに、円滑に対話が進まない状況に対処するために、いろいろな手法が提案されている。このような手法として、ユーザの再入力に対して、過去の認識結果の１位の語彙を認識対象から除き、過去の認識候補と、今回の処理で得た認識候補との双方を用いて認識結果を決定する音声認識装置が開示されている（例えば、特許文献１参照）。また、誤認識の回数をカウントし、そのカウント値が閾値よりも大きくなつた場合に、会話モ−ドから選択モ−ドへ変更が行われる会話音声理解方法が開示されている（例えば、特許文献２参照）。また、装置が応答を提示し終えた時刻から次に装置に音声が入力されるまでの入力間隔を用いて対話主導権を切り替える対話型情報検索システムが開示されている（例えば、特許文献３参照）。
特開平１１−１４９２９４号公報特許第２６５６２３４号特開２００３−１０８５８１号公報

しかしながら、前記のような従来の手法においては、認識対象語彙を少なくすることにより認識精度を向上させたりユーザの入力回数や入力時間を基に対話制御を変更したりすることにより対話を円滑に進めようとするものであるが、各対話状態において同一の制御を行うため、必ずしも対話を円滑に進めることができない。

例えば、選択を行うような対話状態においては、ユーザはシステムがその場面で受け付けることが可能な語彙（以下単に認識対象語彙）を発話することが多く、また認識対象語彙も少ないので特許文献１のような手法は有効であるが、検索キーワードを入力するような対話状態においては、通常ユーザはシステムがその場面で受け付けることができない語彙（以下単に認識対象外語彙）を発話することが多く、また認識対象語彙も多いので特許文献１のような手法は有効ではない。

また、特許文献２の会話音声理解方法では、誤認識の回数が一定の閾値より大きくなると対話制御を会話モードから選択モードに切り替えるが、この閾値を変更することが無いため、前記のような対話状態の違いに関係なく同じ動作をするため、無駄な聞き返しを多く行ってしまうことが生じる。

そこで、本発明はこのような従来の課題を解決するためになされたものであって、対話を円滑に進め、かつユーザの負担を軽減することができる音声対話方法および音声対話装置を提供することを目的とする。

上記目的を達成するため、本発明に係る音声対話方法は、音声を入力して対話する音声対話方法であって、入力された音声を認識して認識結果を出力する音声認識ステップと、現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、前記対話決定ステップにおいて決定された対話内容を出力する出力ステップとを含むことを特徴とする。

これによって、ユーザが各対話状態において、認識可能な語彙を把握している可能性を考慮した対話制御が可能となり、ユーザにとってより負担が少なく、円滑に対話制御を行うことができる。

また、前記認識語彙既知度合決定ステップでは、対象の対話状態における入力モード毎の前記認識語彙既知度合をあらかじめ格納した既知度合テーブルを用いて、前記認識語彙既知度合を決定してもよい。

これによって、簡単に認識語彙既知度合を決定することが可能となり、ユーザにとってより負担が少なく、円滑な対話を実現することができる。

また、前記認識語彙既知度合決定ステップでは、対象の対話状態における入力モード、認識語彙の変動に関する認識語彙変動情報、認識語彙の属性を示す認識語彙属性情報、全認識対象語彙数、表示認識対象語彙数、ユーザ自身の情報、ユーザのシステム使用履歴、対話進行状態、画面や応答音声による認識語彙に関する情報量の少なくとも一つを用いて、前記認識語彙既知度合を算出してもよい。

これによって、例えばユーザや現在の対話進行状況に応じて、より精度よく認識語彙既知度合を求めることが可能となり、ユーザにとってより負担が少なく、円滑な対話を実現することができる。

また、前記対話決定ステップでは、前記認識語彙既知度合を示すための表示または音声応答の少なくとも１つを作成し、前記出力ステップでは、前記対話決定ステップにより作成された前記認識語彙既知度合を示す表示または音声応答の少なくとも１つを出力してもよい。

これによって、ユーザに対して認識語彙既知度合、すなわち認識受理可能度合を伝えることになるので、ユーザの理解が深まり、円滑な対話を実現することができる。

また、前記対話決定ステップでは、前記対話内容に前記音声認識ステップにおける認識対象語彙に関する説明を含めるか否かを前記認識語彙既知度合に基づいて決定してもよい。

これによって、ユーザに適した出力が可能となり、よりユーザのレベルに応じた、円滑な対話を実現することができる。

また、前記対話決定ステップでは、前記音声認識ステップにおいて認識された前記認識結果を未知語と判定した場合、前記対話内容を再度入力を促す対話内容とするか、または詳細な対話内容とするかを前記認識語彙既知度合に基づいて決定してもよい。

また、前記対話決定ステップでは、前記再度入力を促す対話内容と決定した際、再入力回数に応じて前記音声認識ステップにおける音声認識用パラメータを変更してもよい。

また、前記対話決定ステップでは、前記詳細な対話内容と決定した際、さらに前記認識語彙既知度合に基づいて対話内容を変更してもよい。

これによって、認識語彙既知度合に応じた円滑な対話を実現することができる。
また、本発明に係る情報検索方法は、音声を入力して情報を検索する情報検索方法であって、入力された音声を認識して認識結果を出力する音声認識ステップと、現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと、前記出力ステップにおいて出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識ステップにおいて認識された前記認識結果に基づいて情報を検索する情報検索ステップとを含むことを特徴とする。

これによって、ユーザが各対話状態において、認識可能な語彙を把握している可能性を考慮した対話制御が可能となり、ユーザにとってより負担が少なく、円滑な対話で情報検索を行うことができる。

なお、本発明は、このような音声対話方法および情報検索方法として実現することができるだけでなく、このような音声対話方法が備える特徴的なステップを手段とする音声対話装置および情報検索装置として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。

本発明に係る音声対話方法および音声対話装置によれば、ユーザが認識可能な語彙を把握している可能性を考慮した対話制御が可能となり、ユーザにとってより負担の少ない円滑な対話が実現することができる。

以下、本発明の各実施の形態について、それぞれ図面を参照しながら説明する。
（実施の形態１）
図１は本発明の実施の形態１に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。

音声対話型情報検索装置は、音声を入力して対話しながら情報を検索する装置であり、図１に示すように音声認識部１０１、音声認識辞書１０２、モデル記憶部１０３、認識語彙既知度合決定部１０４、認識語彙既知度合記憶部１０５、対話決定部１０６、ユーザ情報入力部１０７、データベース検索部１０８、データベース記憶部１０９、および応答音声・画面出力部１１０を備えている。

音声認識部１０１は、音声認識辞書１０２およびモデル記憶部１０３を用いて、ユーザより入力された音声の音声認識を行い、認識結果を出力する。音声認識辞書１０２は、認識対象語彙が登録されている辞書である。モデル記憶部１０３は、音響モデルや言語モデルを記憶している。認識語彙既知度合記憶部１０５は、各対話状態においてユーザが認識対象語彙を把握している可能性を示す認識語彙既知度合を格納している認識語彙既知度合テーブルを記憶している。

認識語彙既知度合決定部１０４は、対話決定部１０６より入力される現在の対話状態に関する情報で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合を決定する。対話決定部１０６は、音声認識部１０１より入力される音声認識結果と、認識語彙既知度合決定部１０４より入力される認識語彙既知度合に基づいて、次の対話状態およびこの対話状態での画面と応答音声とを決定し、必要があればデータベース検索をデータベース検索部１０８に要求する。

ユーザ情報入力部１０７は、ユーザの性別や年齢などのユーザ情報を入力する。データベース検索部１０８は、対話決定部１０６からの情報検索要求に対し、データベース記憶部１０９に記憶されている情報検索用データベースから情報の検索を行う。データベース記憶部１０９は、情報検索用データベースを記憶している。応答音声・画面出力部１１０は、対話決定部１０６で決定された対話状態での画面や応答音声を出力する。

次に、上記のように構成された音声対話型情報検索装置において、番組情報を検索する際の動作について説明する。図２は音声対話型情報検索装置での対話全体の動作の流れを示すフローチャートである。

対話決定部１０６は対話開始の対話状態を決定し、決定した対話状態での画面と応答音声を決定し、応答音声・画面出力部１１０から出力することで、ユーザに対して入力要求を行う（ステップＳ１０１）。ここで、対話状態とは、対話決定部１０６で予め決定されているか、もしくは作成される対話の状態遷移全体における一状態を示し、多くの場合、システムの各状態に対応する。図３は具体的な出力画面例を示す図である。ここでは、例えば図３に示すように番組情報を検索する際のメニュー画面が出力され、システム応答として、エージェントの吹き出しの内容が応答音声として音声出力される。なお、吹き出し自体も画面表示してもよい。また、この例では図３における認識可能な語彙は四角で囲まれた「番組名検索」、「今放送中の番組」、…等の語彙のみである。

現在の対話状態が決定すると、認識語彙既知度合決定部１０４は、対話決定部１０６より入力される現在の対話状態で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合を決定する（ステップＳ１０２）。図４は認識語彙既知度合テーブルの具体的な例を示す図である。ここで、項目４０１は対話状態であり、項目４０２は各対話状態における認識語彙既知度合が格納されている。この例では認識語彙既知度合は０から１までを取り得るパラメータで１に近いほどユーザがシステムの受理可能な語彙、すなわち認識対象語彙を知っていることを示す。例えば、現在の対話状態が「メニュー」であるとすると、認識語彙既知度合決定部１０４は、対話決定部１０６より入力される現在の対話状態「メニュー」で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合として「０．９８」を対話決定部１０６に出力する。

なお、この認識語彙既知度合テーブルは予め評価実験等により各対話状態に対して求めておくものである。具体的には、例えば複数人の被験者にシステムを利用してもらい、各対話状態において、どのような発声が行われたかを記録する。その記録に基づき、ユーザが各対話状態において認識可能語彙を発声した割合を計算し、それを認識語彙既知度合としても良いし、さらに、ユーザが各対話状態に遷移してからユーザが発声するまでにかかった時間を加味しても良い。また、直接ユーザに各対話状態で発声する語彙が分かるかアンケートを取りつつ評価実験を進めその結果を集計して認識語彙既知度合を求めても良い。また、評価を年齢別や性別ごとに行い、認識語彙既知度合テーブルを複数用意しても良い。その場合、対話決定部１０６はユーザ情報入力部１０７より入力されたユーザ情報を認識語彙既知度合決定部１０４に出力し、認識語彙既知度合決定部１０４は対話決定部１０６より入力されたユーザ情報を基にどの認識語彙既知度合テーブルを利用するか決定する。

次に、対話決定部１０６からの現在の対話状態で認識可能な語彙の辞書登録と音声認識実行の要求により、音声認識部１０１は、上記の入力要求に対して発声されたユーザの音声入力について音声認識を実行し、認識結果を出力する（ステップＳ１０３）。音声認識部１０１は、認識結果として複数の候補およびそれぞれの候補の詳細な情報を出力すると共に、未知語判定結果も出力する。なお、未知語とはシステムにとって未知の語、すなわちシステムの認識対象外語であり、ユーザが認識対象語彙外の発声を行ったとき、ユーザが未知語を発声したという表現をする。例えば、図３における認識可能な語彙は四角で囲まれた語彙のみであるのに対し、「今何時」と言った発声は未知語発声であるとする。

図５は音声認識部１０１が出力する認識結果の具体的な例を示す図である。ここで、項目５０１は候補順位であり認識スコア（項目５０６）によって順位付けされた認識結果である。項目５０２は認識結果文字列、項目５０３は認識日時、項目５０４は認識区間であり、ユーザの発声において音声認識に利用された音声区間の長さを示す。項目５０５は辞書単語数であり、認識が行われた対話状態における認識対象語彙数を示す。項目５０６は認識スコアであり、認識の確からしさを示す。項目５０７は未知語スコアであり、ユーザが認識対象外語彙を発声した可能性の度合を示す。ここでは未知語スコアが負であればユーザの発声は既知語、すなわちシステムの認識対象語であり、未知語スコアが正であれば、ユーザの発声は未知語、すなわち認識対象外語彙であると音声認識部１０１が判断したことを示す。

次に、対話決定部１０６は、認識語彙既知度合決定部１０４により決定された認識語彙既知度合と、音声認識部１０１で認識された認識結果とに基づいて、次に行う対話状態を決定する（ステップＳ１０４）。このとき対話決定部１０６で行われる対話制御を説明する。図６は対話決定部１０６の動作の流れを示すフローチャートである。

まず、対話決定部１０６は、認識語彙既知度合および認識結果の取得を行う（ステップＳ２０１）。次に、対話決定部１０６は、認識結果を基にユーザ入力音声が未知語であるか否かの判断を行う（ステップＳ２０２）。ここで、ユーザ入力音声が未知語または誤認識訂正発話でないと判断した場合（ステップＳ２０２でＮＯ）、対話決定部１０６は、認識結果に基づく次の対話状態の決定を行う（ステップＳ２０３）。なお、ここで次の対話状態を決定するために情報検索等の処理が必要であれば行われる。

具体的には、図２で示す対話状態「メニュー」において、ユーザによって「番組名検索」と音声入力された場合、番組名検索を行う対話状態に対話を遷移させる。対話決定部１０６は、遷移させた対話状態である「番組名検索」における出力画面と応答音声とを決定する。そして、決定された出力画面と応答音声とが応答音声・画面出力部１１０から出力される。具体的な例として、「番組名検索」の対話状態へ進んだ場合の画面例を図７に示す。この対話状態での応答音声は「検索したい番組名を言ってください」である。

一方、上記判断おいて、ユーザ入力音声が未知語であると判断した場合（ステップＳ２０２でＹＥＳ）、対話決定部１０６は、認識語彙既知度合が所定の第１閾値より大きいか否かの判定を行う（ステップＳ２０４）。この第１閾値は対話決定部１０６が保持する値であり、具体的には、例えば「０．８」であるとする。この判定により、対話制御を変更する。なお、この第１閾値も認識語彙既知度合テーブルにおける認識語彙既知度の決定方法と同じように評価実験を行い適当な値を決定することができる。ここで、認識語彙既知度合が第１閾値より大きい場合（ステップＳ２０４でＹＥＳ）には、対話決定部１０６は対話状態を変えず、再入力を促すものと決定する（ステップＳ２０５）。一方、認識語彙既知度合が第１閾値以下である場合（ステップＳ２０４でＮＯ）には、対話決定部１０６は、後述する、認識語彙既知度合に基づいた詳細対話を行うものと決定する（ステップＳ２０６）。

具体的な動作例としては、図２で示す対話状態「メニュー」において、ユーザによって「番組名検索」と音声入力されたが、音声認識部１０１の出力として未知語であると判定された場合、対話状態「メニュー」における認識語彙既知度合は「０．９８」であるので、認識語彙既知度合＞第１閾値が成立する。この場合、対話決定部１０６は対話状態を変えず、再入力の応答音声「すいません、もう一度御願いします」を応答音声・画面出力部１１０へ出力する。なお、再入力の際には対話決定部１０６は認識精度を向上させるため、認識用パラメータの変更や認識辞書の縮小などを行ってもよい。具体的には未知語判定の閾値を下げたり、認識用音響モデルを発声に適応することでより認識しやすくしたり、前回の１位の認識結果を辞書から取り除いたりする方法が考えられる。さらに、第１閾値の値を上げることにより、詳細対話（ステップＳ２０６）に進みやすくしてもよい。なお、これらの処理で行われた認識用パラメータの処理や第１閾値の変更は、対話状態が新たになったときにクリアされるものとする。

対話決定部１０６は、上記のように次の対話状態を決定すると、決定した対話状態が検索終了を示す対話状態であるか否かの判断を行う（ステップＳ１０５）。決定した対話状態が検索終了を示す対話状態である場合（ステップＳ１０５でＹＥＳ）には、対話は終了する。一方、決定した対話状態が検索終了でない場合（ステップＳ１０５でＮＯ）には、認識語彙既知度合の決定処理（ステップＳ１０２）へ進み、以後上記と同じ動作を行う。

次にデータベース検索を行う対話についての動作例を説明する。具体的には現在の対話状態が「番組名検索」である動作例を説明する。この出力画面は図７であり、応答音声は「検索したい番組名を言って下さい」である。

上記と同様に、認識語彙既知度合決定部１０４は、対話決定部１０６より入力される現在の対話状態で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合を決定する（ステップＳ１０２）。ここでは、現在の対話状態が「番組名検索」であるので、認識語彙既知度合決定部１０４は認識語彙既知度合「０．６８」を対話決定部１０６に出力する。

次に、ユーザによって「宮本武蔵」と音声入力されたとすると、音声認識部１０１は、上記と同様に音声認識を実行し、上記と同様に例えば図５に示すような構造で認識結果を対話決定部１０６に出力する（ステップＳ１０３）。

対話決定部１０６は、認識結果と認識語彙既知度合とに基づいて、上記同様図６に示すフローチャートに従って対話状態を決定する（ステップＳ１０４）。ここで、ユーザによって入力された「宮本武蔵」が未知語ではない場合には、上記と同じく認識結果に基づく次の対話状態の決定を行う（ステップＳ２０３）。具体的には、「宮本武蔵」をキーワードとした番組検索の要求をデータベース検索部１０８に出力する。データベース検索部１０８は、対話決定部１０６より入力されたキーワードよる検索をデータベース記憶部１０９を用いて行い、検索結果を対話決定部１０６へ出力する。対話決定部１０６は、検索結果を表示した画面と、検索結果の選択を促す対話状態を次の対話状態と決定し、例えば図８に示すような画面と応答音声を応答音声・画面出力部１１０へ出力する。

一方、ユーザによって入力された「宮本武蔵」が未知語であると判定された場合には、対話決定部１０６は、現在の対話状態における認識語彙既知度合「０．６８」と第１閾値「０．８」とを比較する。この場合、対話決定部１０６は、認識語彙既知度合は第１閾値より小さいので認識語彙既知度合に基づいた詳細対話を行うものと決定する（ステップＳ２０６）。このとき対話決定部１０６で行われる詳細対話の対話制御を説明する。図９は対話決定部１０６で詳細対話の対話制御を行う際の動作の流れを示すフローチャートである。

まず、対話決定部１０６は、認識語彙既知度合が上記第１閾値とは別の第２閾値より大きいか否かの判定を行う（ステップＳ３０１）。ここで、認識語彙既知度合が第２閾値より大きい場合（ステップＳ３０１でＹＥＳ）には、対話決定部１０６はその対話状態において発声可能な語彙の情報や認識文法を説明する応答音声や例を示す応答音声を決定する（ステップＳ３０２）。具体的には「ここでは、今週１週間の番組名について、音声により発声が可能です。もう一度おっしゃってください」や「『源氏物語』や『豊臣秀吉』のように番組名をおっしゃってください」という応答音声が出力される。

一方、認識語彙既知度合が第２閾値以下である場合（ステップＳ３０１でＮＯ）には、階層型の絞込み検索を行う対話状態を次の対話状態と決定する（ステップＳ３０３）。図１０は階層型の絞込み検索の画面例を示す図である。階層型絞込み検索においては、例えば図１０に示すように頭文字を選択させ番組を絞りこみ、リスト表示を行う。なお、ここでは対話制御の種類を閾値１つ（第２閾値）により判定し、２種類のどちらかに振り分けたが、さらに閾値を増やし、振り分ける対話の種類を増やしてもよい。例えば、上記例の頭文字の指定を行の単位ではなく、ひらがな１文字の単位に更に絞り込む対話を行ったり、未知語である可能性を通知するだけの「すいません、その番組は有りません」といった応答を行う対話制御を行ったり、「それは何曜日の番組ですか？」や「その番組には誰がでていますか？」といった別の属性に関する質問をする応答を行う対話制御を認識語彙既知度合に基づいて行ってもよい。また、この閾値も上記認識語彙既知度合テーブルにおける認識語彙既知度の決定方法と同じように評価実験を行い適当な値を決定することができる。

以後は上記と同じ動作を行い、検索終了まで対話を行う。
以上の動作により、ユーザが各対話状態において、認識可能な語彙を把握している可能性を考慮した対話制御を行うことが可能となり、ユーザにとってより負担の少ない円滑な対話が実現できる。

（実施の形態２）
上記実施の形態１によれば、各対話状態における認識語彙をユーザが把握している可能性を考慮に入れた対話制御が行えるが、認識語彙既知度合は予め学習された固定値を用いているため、日々検索対象が変わるようなコンテンツ検索の場合、すなわち認識対象語彙が一定でない場合に認識語彙既知度の精度が大きく落ちてしまい、適切な対話制御ができない。本実施の形態では、このような場合に対処するために認識語彙既知度合を算出する場合について説明する。

図１１は本発明の実施の形態２に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。なお、図１に示す上記実施の形態１と同様の部分については、同一の符号を付し、説明を省略する。

この音声対話型情報検索装置は、上記実施の形態１の構成とは認識語彙既知度合決定部２０１の構成および対話決定部２０２における処理が異なるものであり、他は実施の形態１と同様である。

認識語彙既知度合決定部２０１は、算出部２０１ａを備えている。この算出部２０１ａは、対話決定部２０２より入力された対話状態に関する情報を用いて、それぞれの情報における認識語彙既知度合を算出する。さらに、算出部２０１ａは、それぞれの情報における認識語彙既知度合を組み合わせて全体の認識語彙既知度合を算出する。

次に、上記のように構成された音声対話型情報検索装置において、番組情報を検索する際の動作について説明する。図１２は音声対話型情報検索装置の動作の流れを示すフローチャートである。

対話決定部２０２は、上記実施の形態１と同様に対話開始の対話状態を決定し、決定した対話状態での画面と応答音声を決定し、応答音声・画面出力部１１０から出力することで、ユーザに対して入力要求を行う（ステップＳ４０１）。

次に、対話決定部２０２は、現在の対話状態を決定すると、認識語彙既知度合決定部２０１に現在の対話状態に関する情報を出力する（ステップＳ４０２）。具体的には、ある対話状態Ｓｉにおける情報として、入力モード情報、固定語彙なのか変動語彙なのか、さらに変動語彙であればどの程度の時間間隔で変動する語彙なのかを現す認識語彙変動情報、認識語彙の属性を表す認識語彙属性情報、全認識対象語彙数、および、画面で表示されている表示認識対象語彙数を出力する。

より具体的には、入力モード情報とは、例えば図２に示すような「選択型の入力画面」や例えば図７に示すような「自由型入力画面目」等の入力モード情報である。また、「固定語彙」とは、例えば図２に示すようなメニュー画面における選択用の語彙のように対象の対話状態において常に同一の認識対象語彙であり、「変動語彙」とは例えば図５に示すような番組名検索画面における日々更新される番組名のように、同一対話状態において、認識語彙が一定でない語彙である。また、認識語彙属性情報とは。例えば「コマンド」「番組名」「出演者名」「ジャンル名」「日時」「数字」といった語彙の属性を示す情報である。

次に、認識語彙既知度合決定部２０１の算出部２０１ａは、対話決定部２０２より入力された上記各対話状態に関する情報を用いて、それぞれの情報における認識語彙既知度合を算出する。ここで、入力モード情報を用いて求めた認識語彙既知度合Ｐ１、認識語彙変動情報を用いて求めた認識語彙既知度合Ｐ２、認識語彙属性情報を用いて求めた認識語彙既知度合Ｐ３、全認識対象語彙数と表示認識対象語彙数を用いて求めた認識語彙既知度合Ｐ４とする。

具体的には、認識語彙既知度合Ｐ１は、図２に示すような選択型入力画面の方が図５に示すような自由型入力画面より高い値となる。認識語彙既知度合Ｐ２は、図２に示すような対話状態における認識対象語彙のように認識対象語彙が固定である方が図５に示すような対話状態における認識対象語彙のように変動する場合より高くなる。さらに、認識対象語彙の変動が早い方がより認識語彙既知度合Ｐ２は小さくなる。認識語彙既知度合Ｐ３は、コマンドのように共通認識度が高いものの方が番組名や出演者より高くなる。認識語彙既知度合Ｐ４は、認識対象語彙が多いほうが小さくなるが、さらに表示されていない語彙が多いほうが、小さくなる。

認識語彙既知度合決定部２０１の算出部２０１ａは、上記のように各対話状態に関する情報を用いて求めた現在の対話状態における認識語彙既知度合を組み合わせて下記の式１により全体の認識語彙既知度合ＰＫ（Ｓｉ）を算出する（ステップＳ４０３）。

ここでｍｋは重み係数である。

認識語彙既知度合決定部２０１は、以上のように各対話状態に関する情報を用いて求めた認識語彙既知度合を対話決定部２０２に出力する。この認識語彙既知度合は、対話決定部２０２で上記実施の形態１と同様に対話制御の判断基準として利用される。

以降、音声認識処理（ステップＳ４０４）、次の対話状態の決定処理（ステップＳ４０５）、対話終了であるか否かの判断処理（ステップＳ４０６）については、上記実施の形態１と同様である。

なお、認識語彙既知度合決定部２０１は、算出部２０１ａで算出した認識語彙既知度合ＰＫ（Ｓｉ）と、上記実施の形態１と同様に認識語彙既知度合記憶部１０５に記憶されている認識語彙既知度合テーブルを用いて検索決定した認識語彙既知度合との２つの認識語彙既知度合から実際に対話制御で利用する認識語彙既知度合を決定しても良い。

また、対話決定部２０２は、認識語彙既知度合を画面や応答音声に反映させることで、ユーザに現在の対話状態においてユーザ入力の受理可能性を伝えてもよい。図９および図１０は具体的な出力画面例を示す図である。図９および図１０に示すように、認識語彙既知度合を受理可能性としてバー形式や、エージェントの表情でその度合を表示したり、応答音声の大きさや韻律を変更したりしてもよい。ここでは、図９では認識語彙既知度合が高く、図１０では認識語彙既知度合は低い場合を示している。

以上のように、本実施の形態においては認識語彙既知度合を対話状態の各種情報から算出するので、日々検索対象が変わるような、例えば、ＥＰＧを用いた番組検索など認識対象語彙が一定でない場合においても認識語彙既知度合の精度向上が可能となる。よって、各対話状態に適した対話制御が行え、ユーザにとってより負担の少ない円滑な対話が実現できる。

（実施の形態３）
上記実施の形態２によれば、各対話状態における認識語彙をユーザが把握している可能性である認識語彙既知度合を現在の対話状態に関する情報を用いて算出し、対話制御が行えるが、ユーザや対話の進行状態によらない計算手法を用いているため、ユーザに適応した対話制御ができない。本実施の形態では、このような場合に対処するために対話履歴を用いる場合について説明する。

図１５は本発明の実施の形態３に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。なお、図１に示す上記実施の形態１と同様の部分については、同一の符号を付し、説明を省略する。

この音声対話型情報検索装置は、上記実施の形態１の構成に加えてユーザ情報記憶部３０３および対話履歴記憶部３０４を備えている。また、認識語彙既知度合決定部３０１の構成および対話決定部３０２における処理が異なるものであり、他は実施の形態１および実施の形態２と同様である。従って、本実施の形態においては、認識語彙既知度合決定部３０１の動作と、対話決定部３０２における対話制御、また、対話決定部３０２で作成される上記実施の形態１および実施の形態２において記述の無い出力画面や応答音声方法について説明する。

対話決定部３０２は、現在の対話状態を決定すると、現対話状態および認識結果等を対話履歴記憶部３０４に記憶すると共に、認識語彙既知度合決定部３０１に現在の対話状態に関する情報と、ユーザに関する情報、そして対話進行状態に関する情報を出力する。

図１６は対話履歴記憶部３０４に記憶されるデータの具体的な一例を示す図である。ここで、項目１２０１は対話状態名、項目１２０２は応答出力開始時刻、項目１２０３は認識結果であり、認識結果は例えば図５に示すような形で保存されている。項目１２０４は対話状態と再発声による停滞回数である。より具体的には状態の停滞回数はその対話状態における停滞回数で例えば、例えば図７に示すような番組名検索の対話状態が何回続いたかといった情報を持ち、再発声による停滞回数は同じ発声を何回続けて行っているかを示す情報である。

項目１２０５は認識語彙情報通知レベルであり、画面や応答音声により認識語彙に関する情報をどの程度伝えたかを示すレベルである。図１７および図１８は具体的な出力画面例を示す図である。図１７および図１８に示す出力画面例は、同じ対話状態における出力画面であるが、認識語彙既知度合決定部３０１で決定される認識語彙既知度合により認識語彙に関する情報を伝える情報量を変化させた例である。図１７に示す出力画面例は例えばシステムをはじめて使うユーザのように認識語彙既知度合が低い場合の例であり、図１８に示す出力画面例は、図１７に示す出力画面例より認識語彙既知度合が高い場合の例である。図１７に示す出力画面例では認識語彙既知度合が低いため、画面の表示と応答音声にて認識対象語彙に対する情報をなるべく多くユーザに伝え、認識語彙既知度合を上げようと動作する。図１８に示す出力画面例では、認識語彙既知度合が図１７に示す出力画面例での値より大きくなったユーザに対して認識対象語彙に関する情報を減らした場合である。なお、応答音声は対話時間に大きく影響するため画面での出力情報より先に出力する情報を減らしてもよい。さらに認識語彙既知度合が上がると例えば図２に示すような画面となる。

項目１２０５は認識語彙既知度合であり、対象対話状態において利用した認識語彙既知度合である。なお、ここでは示さなかったが、対話履歴記憶部３０４には、応答音声や画面に出力された検索結果、対話開始時の対話状態を基準にした階層の深さなどの情報を記憶してもよい。

これらの各項目の情報が対話履歴として、図１６に示すように対話の進行に伴って１行ずつ、対話履歴記憶部３０４に記憶されることになる。なお、図１６に示す例では、最下段の状態においては、認識語彙情報通知レベルを前の状態の「２」から「６」としたことにより、認識語彙既知度合が前の状態の「０．６８」から「０．７２」に上がっている例を示している。

次に、対話決定部３０２から認識語彙既知度合決定部３０１に出力される情報についてより詳細に説明する。

現在の対話状態に関する情報は、上記実施の形態２で記載の情報と同一の情報である。ユーザの情報は、ユーザ情報記憶部３０３で記憶されている情報で、ユーザ自身の情報と、ユーザ使用履歴に関する情報である。具体的には図１９に示すように、ユーザ自身の情報としては、例えば、ユーザの年齢や性別、職業や他の機器操作の頻度などがあり、ユーザ使用履歴情報としては、例えばこれまでのシステム利用における、検索達成に関する情報や同一対話状態Ｓｉを経験した回数や対話状態Ｓｉから次の対話状態Ｓｉ＋１に遷移するのに必要とした平均発声回数などがある。

対話進行状態に関する情報は前述したように図１６に示すような形式で対話履歴記憶部３０４に記憶される履歴情報を基に対話決定部３０２で作成される情報で、一つ前の対話状態から現在の対話状態までに要した時間や、認識結果、現在の対話状態に何回停滞しているか、現在の認識語彙情報通知レベルといった情報である。さらには特定の動き検出し、出力しても良い。具体的には、同じ対話状態に度々戻ったり、同じシーケンスを繰り返したりといった動作を検出する。

認識語彙既知度合決定部３０１の算出部３０１ａは、対話制御１１０６より入力されたユーザ自身の情報とユーザ使用履歴情報を用いてそれぞれ認識語彙既知度合を算出する。認識語彙既知度合決定部３０１の算出部３０１ａは、ユーザ自身の情報を使って計算した認識語彙既知度合Ｐ５、これまで行った全ての使用履歴情報を用いて計算した認識語彙既知度合Ｐ６、対話進行状態に関する情報を用いて計算した認識語彙既知度合Ｐ７を算出する。

そして、認識語彙既知度合決定部３０１の算出部３０１ａは、上記のようにそれぞれ算出した認識語彙既知度合を組み合わせて下記の式２により全体の認識語彙既知度合ＰＫ（Ｓｉ）を算出する。

ここでｍｋは重み係数である。

より具体的には、この認識語彙既知度合Ｐ５は例えば高齢者や、他の情報検索システムの利用経験が少ないと小さな値となる。また、認識語彙既知度合Ｐ６はこれまでに同一対話状態の経験が少なく、その対話状態を通過するのに必要とした平均発話回数が多いほど小さな値となる。また、認識語彙既知度合Ｐ７は対話遷移に多くの時間を必要としたり、同じ対話状態に何回も停滞したりすると小さな値となる。

これらは、予め評価実験の結果や開発者の設計により、各項目における値による認識語彙既知度合の決定ルールに従い決定することができる。これは、例えば図２０に示すようなテーブルを基に決定しても良いし、ＩＦＴＨＥＮのルールでより細かく設定されたプログラムにより判断してもよい。先にも述べたが、各項目における値の範囲の設定などは、例えば評価実験で得られた大量のデータを基に機械学習（例えば決定木）を用いて決定することができる。

なお、認識語彙既知度合決定部３０１は、上記実施の形態２で記載した対話状態に関する各々の情報を用いて求めた認識語彙既知度合と、上記の認識語彙既知度合Ｐ５〜Ｐ７を組み合わせて全体の認識語彙既知度合ＰＫ（Ｓｉ）を下記の式３により計算することもできる。

以上のように、本実施の形態においては、ユーザの情報と、対話進行状態に関する情報を用いて認識語彙既知度合を計算するため各対話状態においてユーザに適応した対話制御が可能となり、ユーザにとってより負担の少ない円滑な対話が実現できる。

本発明に係る音声対話方法および音声対話装置は、音声対話型インタフェースを持つ多くの装置に対して利用可能であり、音声認識対象語彙が時間や場所に応じて変化し、ユーザが認識対象語彙外の発声を行う可能性が高いＥＰＧ番組検索装置やカーナビゲーション装置などには特に有用であり、その利用可能性は非常に大きい。

本発明の実施の形態１に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。本発明の実施の形態１における対話全体の動作の流れを示すフローチャートである。本発明の実施の形態１における選択入力型の出力画面例を示す図である。本発明の実施の形態１における認識語彙既知度合記憶部に格納される認識語彙既知度合テーブルの例を示す図である。本発明の実施の形態１における音声認識部から出力される認識結果例を示す図である。本発明の実施の形態１における対話決定部における処理を示すフローチャートである。本発明の実施の形態１における自由入力型の出力画面例を示す図である。本発明の実施の形態１における検索結果の出力画面例を示す図である。本発明の実施の形態１における対話決定部で詳細対話の対話制御を行う際の動作の流れを示すフローチャートである。本発明の実施の形態１における階層型の絞込み検索の画面例を示す図である。本発明の実施の形態２に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。本発明の実施の形態２における対話全体の動作の流れを示すフローチャートである。本発明の実施の形態２における認識語機知度合をバー形式により表示させた出力画面を示す図である。本発明の実施の形態２における認識語機知度合をエージェントの表情により表示させた出力画面を示す図である。本発明の実施の形態３に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。本発明の実施の形態３における対話履歴記憶部に記憶される対話履歴データ例を示す図である。本発明の実施の形態３における認識語彙既知度合に対応して認識語彙に関する情報を多く表示させた出力画面例を示す図である。本発明の実施の形態３における認識語彙既知度合に対応して認識語彙に関する情報を少し表示させた出力画面例を示す図である。本発明の実施の形態３におけるユーザ情報記憶部に記憶されるユーザ情報データ例を示す図である。本発明の実施の形態３におけるユーザの情報の各項目における値による認識語彙既知度合の決定ルールの例を示す図である。

符号の説明

１０１音声認識部
１０２音声認識辞書部
１０３モデル記憶部
１０４、２０１、３０１認識語彙既知度合決定部
１０５認識語彙既知度合記憶部
１０６、２０２、３０２対話決定部
１０７ユーザ情報入力部
１０８データベース検索部
１０９データベース記憶部
１１０応答音声・画面出力部
２０１ａ、３０１ａ算出部
３０３ユーザ情報記憶部
３０４対話履歴記憶部

Claims

ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、ユーザと対話を行う音声対話装置による音声対話方法であって、
前記音声対話装置が、入力された音声の認識結果を出力する音声認識ステップと、
前記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記音声対話装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
前記音声認識ステップにおいて認識された前記認識結果と、前記認識語彙既知度合決定ステップにおいて決定された、現在の対話状態における認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと
を含むことを特徴とする音声対話方法。
前記対話決定ステップは、さらに、
前記音声対話装置が、入力された音声を認識していないという認識結果であったとき、
前記現在の対話状態における認識語彙既知度合が、所定値を満たすかどうかを判定する認識語彙既知度合判定ステップと、
前記認識語彙既知度合判定ステップにより、前記現在の対話状態における認識語彙既知度合が所定値を満たしていると判定されるときは、音声による再入力を促すことを決定し、前記現在の対話状態における認識語彙既知度合が所定値を満たしていないと判定されるときは、前記現在の対話状態における認識語彙既知度合に基づく対話を行うことを決定する対話状態決定ステップと
を含むことを特徴とする請求項１記載の音声対話方法。
前記認識語彙既知度合決定ステップでは、
対象の対話状態における入力モード毎の前記認識語彙既知度合をあらかじめ格納した既知度合テーブルを用いて、前記認識語彙既知度合を決定する
ことを特徴とする請求項１記載の音声対話方法。
前記認識語彙既知度合決定ステップでは、
対象の対話状態における入力モード、認識語彙の変動に関する認識語彙変動情報、認識語彙の属性を示す認識語彙属性情報、全認識対象語彙数、表示認識対象語彙数、ユーザ自身の情報、ユーザのシステム使用履歴、対話進行状態、画面や応答音声による認識語彙に関する情報量の少なくとも一つを用いて、前記認識語彙既知度合を算出する
ことを特徴とする請求項１記載の音声対話方法。
前記対話決定ステップでは、前記対話内容として対話の画面または音声応答の少なくとも１つを決定し、
前記出力ステップでは、前記対話決定ステップにおいて決定された前記対話の画面または音声応答の少なくとも１つを出力する
ことを特徴とする請求項１記載の音声対話方法。
前記対話決定ステップでは、前記認識語彙既知度合を示すための表示または音声応答の少なくとも１つを作成し、
前記出力ステップでは、前記対話決定ステップにより作成された前記認識語彙既知度合を示す表示または音声応答の少なくとも１つを出力する
ことを特徴とする請求項１記載の音声対話方法。
前記対話決定ステップでは、前記対話内容に前記音声認識ステップにおける認識対象語彙に関する説明を含めるか否かを前記認識語彙既知度合に基づいて決定する
ことを特徴とする請求項１記載の音声対話方法。
前記対話決定ステップでは、前記音声認識ステップにおいて認識された前記認識結果を未知語と判定した場合、前記対話内容を再度入力を促す対話内容とするか、または詳細な対話内容とするかを前記認識語彙既知度合に基づいて決定する
ことを特徴とする請求項１記載の音声対話方法。
前記対話決定ステップでは、前記再度入力を促す対話内容と決定した際、再入力回数に応じて前記音声認識ステップにおける音声認識用パラメータを変更する
ことを特徴とする請求項８記載の音声対話方法。
前記対話決定ステップでは、前記詳細な対話内容と決定した際、さらに前記認識語彙既知度合に基づいて対話内容を変更する
ことを特徴とする請求項８記載の音声対話方法。
ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、情報を検索する情報検索装置による情報検索方法であって、
前記情報検索装置が、入力された音声の認識結果を出力する音声認識ステップと、
前記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記情報検索装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
前記音声認識ステップにおいて認識された前記認識結果と、前記認識語彙既知度合決定ステップにおいて決定された、現在の対話状態における前記認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと、
前記出力ステップにおいて出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識ステップにおいて認識された前記認識結果に基づいて情報を検
索する情報検索ステップと
を含むことを特徴とする情報検索方法。
ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、ユーザと対話を行う音声対話装置であって、
入力された音声の認識結果を出力する音声認識手段と、
前記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記音声対話装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を記憶している認識語彙既知度合記憶手段と、
前記認識語彙既知度合記憶部に記憶されている前記認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定手段と、
前記音声認識手段で認識された前記認識結果と、前記認識語彙既知度合決定手段で決定された、現在の対話状態における認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定手段と、
前記対話決定手段で決定された対話内容を出力する出力手段と
を備えることを特徴とする音声対話装置。
ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、情報を検索する情報検索装置であって、
入力された音声の認識結果を出力する音声認識手段と、
前記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記音声対話装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を記憶している認識語彙既知度合記憶手段と、
前記認識語彙既知度合記憶部に記憶されている前記認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定手段と、
前記音声認識手段で認識された前記認識結果と、前記認識語彙既知度合決定手段で決定された、現在の対話状態における前記認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定手段と、
前記対話決定手段で決定された対話内容を出力する出力手段と、
前記出力手段で出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識手段で認識された前記認識結果に基づいて情報を検索する情報検索手段と
を備えることを特徴とする情報検索装置。
ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、ユーザと対話を行う音声対話装置のためのプログラムであって、
前記音声対話装置が、入力された音声の認識結果を出力する音声認識ステップと、
前記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記音声対話装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
前記音声認識ステップにおいて認識された前記認識結果と、前記認識語彙既知度合決定ステップにおいて決定された、現在の対話状態における認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
前記対話決定ステップにおいて決定された対話内容を出力する出力ステップとを前記音声対話装置に実行させる
ことを特徴とするプログラム。
ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、情報を検索する情報検索装置のためのプログラムであって、
前記情報検索装置が、入力された音声の認識結果を出力する音声認識ステップと、
前記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記情報検索装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
前記音声認識ステップにおいて認識された前記認識結果と、前記認識語彙既知度合決定ステップにおいて決定された、現在の対話状態における前記認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと、
前記出力ステップにおいて出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識ステップにおいて認識された前記認識結果に基づいて情報を検索する情報検索ステップとを前記情報検索装置に実行させる
ことを特徴とするプログラム。