JP6251450B2

JP6251450B2 - 対話支援装置、方法およびプログラム、および端末

Info

Publication number: JP6251450B2
Application number: JP2017504533A
Authority: JP
Inventors: 藤井　寛子; 寛子藤井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2017-12-20
Anticipated expiration: 2035-03-12
Also published as: US10248383B2; US20170337036A1; US20170364323A1; WO2016143131A1; JPWO2016143131A1

Description

本発明の実施形態は、対話支援装置、方法およびプログラム、および端末に関する。

近年、スマートフォンなどの小型携帯端末の急速な普及に伴い、自由発話入力の対話システムが注目される。自由発話入力の対話システムでは、ユーザがシステムに合わせるのではなく、システムがユーザに合わせて意図推定を行うため、ユーザは決まったフレーズを使う必要がなく、自分のやりたいことを自由な表現で機器に指示できる。このような対話システムにおいて、過去の対話で実行した検索の条件を変えて、新たな検索を行う場合、対話を戻す処理が必要となる。
対話を戻す手法としては、ユーザが「戻る」と発話せずに、検索条件が排反であるかどうかにより適用すべき対話状態を選択する手法がある。

特開２００１−２２７７９号公報

しかし、上述の手法では、最新のユーザ発話は常に１つの対話状態について適用される。よって、例えばインターネットのオンラインショップで旅行や服などの商品を比較検討する場合に、ほぼ同一の条件を何度も入力する必要があり、ユーザにとって手間がかかる。

本開示は、上述の課題を解決するためになされたものであり、円滑な対話を支援することができる対話支援装置、方法およびプログラム、および端末を提供することを目的とする。

本実施形態に係る対話支援装置は、第１受理部、判定部、処理部および画面更新部を含む。第１受理部は、ユーザの意図を示す入力情報を受理する。判定部は、前記意図を推定し該意図に応じた処理を行う対話システムとユーザとの対話結果を示す対話状態に関する履歴である対話履歴のうち、前記ユーザからの指示の対象となる１以上の対話状態を対象対話状態として判定する。処理部は、前記入力情報と前記対象対話状態とを前記対話システムに入力し、該対話システムから処理結果を得る。画面更新部は、前記処理結果の表示を更新するための第１更新情報を生成する。

前提となる対話システムの一例を示す概念図。第１の実施形態に係る対話支援装置のブロック図。対話情報格納部に格納される対話情報テーブルの一例を示す図。ユーザからの発話を受理する場合の対話支援装置の動作を示すフローチャート。ユーザからの操作を受理する場合の対話支援装置の動作を示すフローチャート。第１の実施形態に係るユーザと対話システムとの対話の具体例を示す図。第１の実施形態に係るインタフェース画面の一例を示す図。ユーザ発話Ｕ２に対する処理結果の表示例を示す図。ユーザ発話Ｕ３に関する対話情報を追加したときの対話情報テーブルを示す図。ユーザ発話Ｕ３に対する処理結果の表示例を示す図。２つの検索結果が並列して表示される表示例を示す図。ユーザ発話Ｕ５に関する対話情報を追加したときの対話情報テーブルを示す図。ユーザ発話Ｕ５に対する処理結果の表示例を示す図。第２の実施形態に係るユーザと対話システムとの対話の具体例を示す図。ユーザ発話Ｕ１３に関する対話情報を追加したときの対話情報テーブルを示す図。ユーザ発話Ｕ１３に対する処理結果の表示例を示す図。ユーザ発話Ｕ１４に関する対話情報を追加したときの対話情報テーブルを示す図。第２の実施形態に係るインタフェース画面の表示例を示す図。対話状態切り替えボタンを押下した場合のインタフェース画面の表示例を示す図。

以下、図面を参照しながら本実施形態に係る対話支援装置、方法およびプログラム、および端末について詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

（第１の実施形態）
本実施形態で前提となる対話システムの一例について図１の概念図を参照して説明する。
図１に示す対話システム１００は、端末１０１と対話処理サーバ１０２とを含む。端末１０１は、例えば、ユーザ１０３が使用するタブレットＰＣ、およびスマートフォンなどの携帯端末である。本実施形態では、ユーザ１０３が端末１０１に搭載されるクライアントアプリに対して音声入力を行い、音声認識をおこなって音声認識結果を得ることを前提とするが、テキスト入力するような場合でも同様に処理することができる。端末１０１は、音声認識結果を対話処理サーバ１０２に送信する。
対話処理サーバ１０２は、端末１０１とネットワーク１０４を介して接続され、端末１０１から音声認識結果を受信する。対話処理サーバ１０２は、音声認識結果からユーザの意図を推定し、意図に応じた処理を行う対話システムとして動作し、音声認識結果に対して対話処理を行う。対話処理サーバ１０２は、対話処理の処理結果を端末１０１に送信する。

次に、本実施形態に係る対話支援装置について図２のブロック図を参照して説明する。
本実施形態に係る対話支援装置２００は、操作受理部２０１（第２受理部ともいう）、対話受理部２０２（第１受理部ともいう）、対話情報格納部２０３、対象判定部２０４、要求処理部２０５、対話情報更新部２０６および画面更新部２０７を含む。

なお、本実施形態に係る対話支援装置２００は、図１において、対話処理サーバ１０２に含まれてもよいし、対話処理サーバ１０２とは別のサーバに含まれてもよい。対話処理サーバ１０２または別のサーバに対話支援装置２００が含まれる場合は、端末１０１は、マイクなどの音声取得部、インタフェース画面を表示する表示部およびデータ通信を行う通信部を含めばよい。さらに、対話支援装置２００は、端末１０１に含まれてもよい。

操作受理部２０１は、画面に対するユーザの操作を受理し、操作対象と操作内容とを得る。操作対象と操作内容との取得処理は、タブレット端末などで一般的なユーザインタフェースでの処理を用いればよく、ここでの詳細な説明は省略する。

対話受理部２０２は、ユーザの発話を音声信号として受理し、音声信号を音声認識することにより、音声認識結果のテキストをユーザの意図を示す入力情報として受理する。音声信号は、例えば、図１に示す端末１０１に搭載されるマイクロフォンに対してユーザが発話した音声を取得すればよい。音声認識処理は、いわゆるクラウドコンピューティング上の音声認識サーバ（図示せず）を利用してもよいし、端末１０１にインストールされた音声認識エンジンを利用してもよい。なお、対話受理部２０２は、ユーザがキーボードなどにより直接入力したテキストを入力情報として受理してもよい。

対話情報格納部２０３は、対話システムとユーザとの対話結果を示す対話状態に関する対話情報をテーブルとして格納する。テーブルは、時系列に沿って対話情報が識別されることにより、対話状態に関する履歴である対話履歴も表現する。対話情報の詳細については、図３を参照して後述する。
対象判定部２０４は、対話受理部２０２から入力情報を受け取り、対話情報格納部２０３に格納される対話情報を参照し、ユーザからの指示に応じて、対話履歴のうちの対象となる対話状態を対象対話状態として判定する。

要求処理部２０５は、対象判定部２０４から対話状態および入力情報を受け取り、対話状態および入力情報を対話処理システムに入力、ここでは図１の対話処理サーバ１０２に送信する。要求処理部２０５は、対話処理サーバ１０２において対話処理された結果である処理結果を得る。

対話情報更新部２０６は、操作受理部２０１から操作対象および操作内容を、要求処理部２０５から処理結果をそれぞれ取得し、対話情報格納部２０３に格納される対話情報を更新する。

画面更新部２０７は、対話情報更新部２０６から処理結果、操作対象および操作内容を受け取り、インタフェース画面における処理結果の表示を更新するための更新情報を生成する。インタフェース画面は、例えば、端末１０１のディスプレイに表示される画面であり、更新情報に基づいて随時更新される。

次に、対話情報格納部２０３に格納される対話情報について図３を参照して説明する。
図３に示すテーブル３００は、対話状態識別子３０１、対話列識別子３０２、対話状態名３０３、表示状況フラグ３０４、時刻３０５およびシステム応答データ３０６がそれぞれ関連づけられて対話情報３０７として格納される。

対話状態識別子３０１は、各対話状態に対して付与される識別子である。対話列識別子３０２は、対話的に関連する対話状態のまとまりに対して付与される識別子である。対話列識別子３０２の付与ルールは、対話処理サーバ１０２で予め定義されるルールを用いる場合を想定するが、端末側で決定されるルールを用いてもよい。予め定義されるルールとしては、例えば、同一の対話シナリオに含まれる対話状態には、同一の識別子が付与されるといったものが挙げられる。

対話状態名３０３は、対話処理サーバ１０２で管理している対話状態に付与される名称である。表示状況フラグ３０４は、対話状態がクライアントのインタフェース画面（ここでは、端末１０１の画面）にどのように表示されているかを示すフラグである。本実施形態では、表示状況フラグ３０４が「０」である場合は処理結果を表示しないことを示し、「１」である場合はインタフェース画面に処理結果を通常表示することを示し、「２」である場合はインタフェース画面に処理結果をサムネイル表示することを示す。通常表示は、ユーザが処理結果の内容を検討する際に視認できるサイズでの表示を示す。サムネイル表示は、通常表示よりも小さい表示であり、単なる縮小表示でもよいし、検索のキーワードを含む文字列のみでもよいし、ユーザが意図した条件が理解でき、かつ通常表示の妨げにならない表示であればよい。
時刻３０５は、対話処理サーバ１０２から、処理結果を含むシステム応答を取得した時刻である。システム応答データ３０６は、要求処理部２０５からの要求に対する対話処理サーバ１０２の応答データ本体を示す。応答データ本体には、例えば、音声合成のテキスト、検索結果のＸＭＬ、ＪＳＯＮ形式のデータが含まれる。

具体的には、例えば、対話状態識別子３０１「１」、対話列識別子３０２「１」、対話状態名３０３「Ｓｅａｒｃｈ＿ｓｐｏｔ(京都)」、表示状況フラグ３０４「０」、時刻３０５「２０１４／０７／０７１２：０５：１１」およびシステム応答データ３０６がそれぞれ対応付けられて、対話情報３０７として格納される。

次に、ユーザからの発話を受理する場合の対話支援装置２００の動作について図４のフローチャートを参照して説明する。ここでは、ユーザからの発話があるごとに処理が行われるものとする。
ステップＳ４０１では、対話受理部２０２が、ユーザの発話を受理し、発話を音声認識したテキストを生成する。
ステップＳ４０２では、対象判定部２０４が、ユーザからの要求の対象となる発話を特定する。本実施形態では、対話情報に含まれる表示状況フラグが「１」、つまり通常表示である対話状態をユーザが対象とする対話状態であると判定し、表示状況フラグが「１」である対話状態を対象対話状態として得る。

ステップＳ４０３では、要求処理部２０５が、処理要求として、発話を音声認識したテキストと対象対話状態とを対話処理サーバ１０２に送信する。
ステップＳ４０４では、要求処理部２０５が、対話処理サーバ１０２から処理要求に対する処理結果を受信する。
ステップＳ４０５では、対話情報更新部２０６が、処理結果に基づいて、対話情報格納部２０３に格納される対話情報を更新する。
ステップＳ４０６では、画面更新部２０７が、更新された対話情報に基づいて、画面を更新するための更新情報を生成する。以上で、対話支援装置２００の動作を終了する。

次に、ユーザからの操作を受理する場合の対話支援装置２００の動作について図５のフローチャートを参照して説明する。ここでは、ユーザの操作を取得するたびに処理が行われるものとする。
ステップＳ５０１では、操作受理部２０１が、ユーザの操作を受理し、操作対象となる対話状態を判定する。
ステップＳ５０２では、操作受理部２０１が、操作内容として、ユーザの操作が拡大表示に対応する操作であるかどうかを判定する。拡大表示に対応する操作である場合ステップＳ５０３に進み、拡大表示に対応しない操作である場合ステップＳ５０４に進む。
ステップＳ５０３では、対話情報更新部２０６が、操作対象となる対話状態に関する対話情報について、表示状況フラグを「１」に更新する。

ステップＳ５０４では、操作受理部２０１が、操作内容として、ユーザの操作が縮小表示に対応する操作であるかどうかを判定する。縮小表示に対応する操作である場合ステップＳ５０５に進み、縮小表示に対応しない操作である場合、処理を終了する。
ステップＳ５０５では、対話情報更新部２０６が、操作対象となる対話状態に関する対話情報について、表示状況フラグを「２」に更新する。
ステップＳ５０６では、画面更新部２０７が、更新された対話情報に基づいて画面を更新するための更新情報を生成する。以上でユーザからの操作を受理する場合の対話支援装置２００の動作を終了する。

次に、対話支援装置２００の対話支援処理の具体例について図６から図１３までを参照して説明する。
図６は、まだ旅行先など具体的なことが決まっていないユーザが、まず候補地の観光スポットを検索して比較し、次に候補地付近のホテルを検索する場合の、ユーザと対話システムとの対話例である。ユーザ発話（Ｕ１、Ｕ２・・・）とシステム応答（Ｓ１、Ｓ２・・・）とが発話の時系列順に並べられる。また、インタフェース画面へのユーザの操作がある場合は、（ＵＩ１、・・・）として発話の時系列に追加する。

以下、図６に示すユーザの発話順に沿った処理について具体的に説明する。
ここで、ユーザが対話および操作するためのインタフェース画面の一例について図７を参照して説明する。
インタフェース画面７００には、表示領域７０１と音声認識ボタン７０２とが表示される。音声認識ボタン７０２は、音声認識開始のタイミングをユーザが通知するためのボタンであり、実際に押下可能なボタンでもよいし、画面上に形成されるボタンでもよい。ユーザが音声認識ボタン７０２を押下またはタッチすると、音声認識処理が開始されるとする。なお、音声認識ボタン７０２を押下せずに、ユーザが所定の音量以上で発話すると音声認識処理が開始されるような設計でもよい。

なお、以下では、画面更新部２０７が、生成した更新情報に基づいて直接インタフェース画面を更新する場合を想定する。

＜ユーザ発話Ｕ１に対する処理＞
ユーザがユーザ発話Ｕ１「京都の観光スポット教えて」を発話する。対話受理部２０２は、ユーザ発話Ｕ１を受理し、音声認識処理を行ってテキストに変換する。続いて、対象判定部２０４が、対話情報を参照し、インタフェース画面７００に処理結果が表示されている対話状態があるか否かを判定する。ユーザ発話Ｕ１の発話時点では、インタフェース画面７００に何も表示されておらず、対話情報格納部２０３に対話情報も格納されていないため、対象判定部２０４は、対話状態を「対象なし」と判定する。

要求処理部２０５は、ユーザ発話Ｕ１と対話状態「対象なし」との情報を含む処理要求メッセージを生成し、対話処理サーバ１０２に処理要求メッセージを送信する。

対話処理サーバ１０２では、ユーザ発話Ｕ１の対象となる対話状態がないことから、ユーザ発話を受理可能な対話シナリオを検索して実行する。ここでは、観光スポット検索処理を実行したと仮定する。対話処理サーバ１０２は、観光スポット検索処理の処理結果を含む応答メッセージを要求処理部２０５に送信する。応答メッセージは、ユーザ発話Ｕ１のテキスト、観光スポット検索処理の処理結果に加え、対話情報の要素となる対話状態識別子、対話列識別子、対話状態名および処理時刻を含む。ここでは、最初の対話状態であるので、対話状態識別子が「１」であり、対話列識別子が「１」であり、対話状態名が「Ｓｅａｒｃｈ＿ｓｐｏｔ（京都）」である。

要求処理部２０５は、対話処理サーバ１０２から応答メッセージを受信する。対話情報更新部２０６は、要求処理部２０５から取得した応答メッセージに含まれるユーザ発話Ｕ１のテキスト、ユーザ発話Ｕ１に対する処理結果に対応する対話状態識別子、対話列識別子および処理時刻を用いて、対話情報格納部２０３に格納される対話情報を更新する。このとき、観光スポット検索処理の処理結果が表示されるので、表示状況フラグが「１」に設定される。すなわち、対話状態識別子３０１「１」、対話列識別子３０２「１」、対話状態名「Ｓｅａｒｃｈ＿ｓｐｏｔ（京都）」、表示状況フラグ３０４「１」、時刻３０５「２０１４／０７／０７１２：０５：１１」およびシステム応答データ３０６が対応付けられて、対話情報３０７として格納される。

画面更新部２０７は、ユーザ発話Ｕ１に対する処理結果を表示領域７０１に通常表示する。なお、表示と共に対話システムからのシステム応答Ｓ１「京都の観光スポットを表示します。」を音声出力または画面表示してもよい。ここで、ユーザ発話Ｕ１に対する対話システムの処理結果が図７に示す画面表示となり、京都の観光スポットの検索結果が通常表示される。

＜ユーザ発話Ｕ２に対する処理＞
次に、ユーザが新たなユーザ発話Ｕ２「嵐山周辺に絞って」を発話する。

対話受理部２０２は、ユーザ発話Ｕ２を受理し、音声認識処理を行ってテキストに変換する。対象判定部２０４が、対話情報格納部２０３に格納される対話情報を参照して、ユーザ発話Ｕ２の対象となる対話状態を判定する。対象となる対話状態は、表示状況フラグが「１」である対話状態であり、ここでは、対話状態識別子が「１」の対話状態を対象対話状態として判定する。

要求処理部２０５は、ユーザ発話Ｕ２と、対象対話状態の対話情報とを含む要求メッセージを生成し、対話処理サーバ１０２に処理要求メッセージを送信する。

対話処理サーバ１０２では、ユーザ発話Ｕ２の意図を解析し、対象対話状態に対する絞り込み検索要求であると判定する。この判定については、音声対話における一般的な対話シナリオ判定を用いればよいため、ここでの詳細な説明は省略する。よって、同じまとまりの対話であるので、新たに生成される対話状態（対話状態識別子「２」）に関する対話列識別子が、対象対話状態に関する対話列識別子と同じ「１」に設定される。対話処理サーバ１０２は、発話の意図解析結果と、これに対応する対話シナリオとに基づいて処理（この例の場合は検索処理）を行い、検索処理の処理結果を含む応答メッセージを要求処理部２０５に送信する。

対話情報更新部２０６は、ユーザ発話Ｕ１の場合と同様に、要求処理部２０５から取得した応答メッセージの内容に従い、ユーザ発話Ｕ２のテキスト、ユーザ発話Ｕ２に対する処理結果に関する情報を対話情報として追加更新する。すなわち、対話状態識別子３０１「２」、対話列識別子３０２「１」、対話状態名「Ｓｅａｒｃｈ＿ｓｐｏｔ（嵐山）」、表示状況フラグ３０４「１」、時刻３０５「２０１４／０７／０７１２：０５：４５」およびシステム応答データ３０６が対応付けられて、対話情報３０７として格納される。

また、表示領域７０１に表示される検索結果は、ユーザ発話Ｕ２に対する処理結果となるため、ユーザ発話Ｕ１に対応する表示状況フラグ３０４も合わせて更新される。すなわち、対話状態識別子３０１が「１」である対話情報は画面に表示されなくなるため、表示状況フラグ３０４が「１」から「０」に更新される。

画面更新部２０７は、ユーザ発話Ｕ２に対する処理結果を表示領域７０１に通常表示する。ユーザ発話Ｕ２に対する処理結果の表示例を図８に示す。システム応答Ｓ２「嵐山周辺の観光スポットです。」が出力され、嵐山周辺の観光スポットが通常表示される。

＜ユーザ発話Ｕ３に対する処理＞
次に、ユーザが新たなユーザ発話Ｕ３「伊豆にしてみて」と発話する。

対話受理部２０２は、ユーザ発話Ｕ３を受理し、音声認識処理を行ってテキストに変換する。対象判定部２０４は、対話情報格納部２０３に格納される対話情報を参照して、対話情報の表示状況フラグが「１」である対話状態識別子が「２」の対話情報を対象対話状態として判定する。

要求処理部２０５は、ユーザ発話Ｕ３と、対象対話状態の対話情報とを含む要求メッセージを生成し、対話処理サーバ１０２に処理要求メッセージを送信する。

対話処理サーバ１０２では、ユーザ発話Ｕ３の意図を解析し、今度は絞り込み検索ではなく、場所を変更した（新たな）観光スポット検索要求であると判定する。この判定も一般的な対話シナリオ判定を用いればよい。この場合、同じまとまりの対話ではないため、ユーザ発話Ｕ３を処理した結果として生成される新たに生成される対話状態（対話状態識別子「３」）には、新たな対話列識別子「２」が付与される。対話処理サーバ１０２は、発話の意図解析結果と対話シナリオとに基づいて処理し、検索処理の処理結果を含む応答メッセージを要求処理部２０５に送信する。

対話情報更新部２０６では、要求処理部２０５から取得した応答メッセージの内容に従い、ユーザ発話Ｕ３のテキスト、ユーザ発話Ｕ３に対する処理結果に関する情報を対話情報として追加更新する。すなわち、対話状態識別子３０１「３」、対話列識別子３０２「２」、対話状態名「Ｓｅａｒｃｈ＿ｓｐｏｔ（伊豆）」、表示状況フラグ３０４「１」、時刻３０５「２０１４／０７／０７１２：０６：２０」およびシステム応答データ３０６が対応付けられて、対話情報３０７として格納される。
このとき、対話情報更新部２０６は、現在表示状況フラグが「１」である対話状態の対話列識別子と、追加しようとしている新たな対話状態の対話列識別子とが同じか否かを判定する。同じでない場合は、現在表示状況フラグが「１」であるフラグを「２」に変更し、新たに追加する対話状態の表示状況フラグを「１」に設定する。

ここでは、表示状況フラグが「１」である対話情報の対話状態識別子「２」の対話列識別子が「１」であり、新たな対話状態の対話列識別子は「２」であるので、対話状態識別子「２」の対話情報の表示状況フラグを「１」から「２」に変更し、新たに追加する対話状態の表示状況フラグを「１」に設定する。

ユーザ発話Ｕ３に関する対話情報を追加したときの対話情報格納部２０３の対話情報テーブルを図９に示す。
図９の対話情報９０１に示すように、対話状態識別子３０１が「２」である対話情報の表示状況フラグ３０４が「２」に変更され、対話状態識別子３０１が「３」である対話情報の表示状況フラグ３０４が「１」として設定される。

画面更新部２０７は、表示状況フラグが「１」から「２」へと変更された対話状態（対話状態識別子２）に対応する検索結果のサムネイルを生成し、サムネイル表示する。

ユーザ発話Ｕ３に対する処理結果の表示例を図１０に示す。
図１０に示すように、表示領域７０１に、ユーザ発話Ｕ３に対する処理結果が通常表示され、システム応答Ｓ３「伊豆の観光スポットです」が出力される。また、表示領域７０１の右上部のサムネイル表示領域１００１に、ユーザ発話Ｕ２に対する検索結果画面がサムネイル表示される。なお、サムネイル表示に限らず、画面をタブ表示するなど、すぐに検索結果にアクセスできる表示方法であれば何でもよい。

＜ユーザ発話Ｕ４に対する処理＞
次に、ユーザが新たなユーザ発話Ｕ４「伊豆高原周辺に絞って」と発話する。
ユーザ発話Ｕ４に対する処理は、ユーザ発話Ｕ２およびシステム応答Ｓ２の処理と単語が異なる以外は同様であるので、ここでの説明を省略する。

＜ユーザ操作ＵＩ１に対する処理＞
次に、ユーザが画面上でドラッグ操作を行う場合を想定する。
ここでのドラッグ操作は、ユーザが、図１０に示すインタフェース画面７００上でサムネイル表示領域１００１にあるサムネイルを画面中央付近に向けてドラッグする操作を想定する。ドラッグ操作が行われると、操作受理部２０１は、操作対象がサムネイルであると特定し、サムネイルが画面中央付近にドラッグされたことを示す情報を生成する。また、サムネイルとドラッグされたことを示す情報とに基づいて、このドラッグ操作が拡大表示指示であると判定する。対話情報更新部２０６は、操作受理部２０１からの情報をもとに、対話情報の表示状況フラグが「２」である対話状態識別子が「２」の対話情報に対し、表示状況フラグを「２」から「１」に変更する。画面更新部２０７は、サムネイル表示されていた対話情報の検索結果を、表示領域７０１に現在表示されている検索結果と並列して通常表示するように更新する。

２つの検索結果が並列して表示される表示例を図１１に示す。
図１１に示すように、「伊豆高原の観光スポット」の検索結果画面１１０１と、サムネイル表示されていた「嵐山の観光スポット」の検索結果画面１１０２とが同一サイズで横に並列して表示される。なお、縦に並列して表示させてもよい。また、例えば１つの検索結果が表示されており、２つのサムネイルを中央にドラッグする場合といった、３以上の検索結果を並列して表示する場合でも、同様の方法で表示すればよい。

このように並列して表示させることで、ユーザが結果画面の比較を容易に行うことができる。なお、並列した検索結果を変更する場合は、表示領域７０１に表示されている検索結果をインタフェース画面の外側へ向けてドラッグ操作する。これにより、操作受理部２０１が、このドラッグ操作が縮小表示であると判定し、対話情報更新部２０６が、ドラッグ操作の対象となる対話情報の表示状況フラグを「１」から「２」に変更すればよい。画面更新部２０７は、ドラッグされた検索結果の表示をサムネイル表示に変更すればよい。

＜ユーザ発話Ｕ５に対する処理＞
次に、ユーザが新たなユーザ発話Ｕ５「ホテルを見せて」を発話する。
対象判定部２０４が、対話情報格納部２０３に格納される対話情報を参照して、対話情報の表示状況フラグが「１」である対話状態識別子が「２」および「４」の２つの対話情報を対象対話状態として判定する。

要求処理部２０５は、ユーザ発話Ｕ５と、対話状態識別子が「２」および「４」である対話情報とを含む要求メッセージを生成し、対話処理サーバ１０２に処理要求メッセージを送信する。

対話処理サーバ１０２では、ユーザ発話Ｕ５の意図を解析し、発話の意図がホテル検索であると判定する。対話処理サーバ１０２は、対話状態識別子が「２」および「４」である対話状態のそれぞれに対して、ホテルを検索し、検索処理の処理結果を含む応答メッセージを要求処理部２０５に送信する。

対話情報更新部２０６は、要求処理部２０５から取得した応答メッセージの内容に従い、ユーザ発話Ｕ５のテキスト、ユーザ発話Ｕ５に対する処理結果に関する情報を対話情報として追加更新する。すなわち、対話状態識別子３０１「５」、対話列識別子３０２「１」、対話状態名「Ｓｅａｒｃｈ＿ｈｏｔｅｌ（嵐山）」、表示状況フラグ３０４「１」、時刻３０５「２０１４／０７／０７１２：０７：５０」およびシステム応答データ３０６が対応付けられた対話情報と、対話状態識別子３０１「６」、対話列識別子３０２「２」、対話状態名「Ｓｅａｒｃｈ＿ｈｏｔｅｌ（伊豆高原）」、表示状況フラグ３０４「１」、時刻３０５「２０１４／０７／０７１２：０７：５０」およびシステム応答データ３０６が対話情報とがそれぞれ、対話情報３０７として格納される。また、対話状態識別子が「２」である対話情報の表示状況フラグおよび対話状態識別子が「４」である対話情報の表示状況フラグが、それぞれ「１」から「０」に変更される。

ここで、ユーザ発話Ｕ５に関する対話情報を追加したときの対話情報格納部２０３の対話情報テーブルを図１２に示す。
次に、ユーザ発話Ｕ５に対する処理結果の表示例を図１３に示す。
図１３に示すように、「伊豆高原のホテル」の検索結果１３０１および「嵐山のホテル」の検索結果１３０２がそれぞれ表示される。このように、通常表示された対話状態を対象対話状態として判定することで、ユーザが対話を続けたいと考えている対話状態を容易に選択でき、ユーザが１つの条件で発話するだけで、複数の対話状態に対して処理結果を得ることができる。

なお、対象判定部２０４は、表示状況フラグ３０４が「１」である対話状態を対象対話状態として判定しているが、サムネイル表示および通常表示を問わず、ユーザが画面上のサムネイル表示または通常表示の対話状態をタッチすることなどにより指定された対話状態を対象対話状態と判定してもよい。この場合、ユーザにより選択された対話状態の対話情報に新たに指定フラグを設定し、指定フラグが立っている対話状態が対話処理サーバに送信されるようにすればよい。また、ユーザからの発話により指定された複数の対話状態を対象対話状態と判定してもよい。発話により対象対話状態を指定する場合は、例えば、発話を音声認識したテキストと、対話状態名に含まれるキーワードとが一致した対話状態を対象対話状態として判定すればよい。

以上に示した第１の実施形態によれば、ユーザの対話およびユーザの操作に基づいて対象対話状態を判定することで、ユーザが要求を出したい１以上の対話状態を容易に指定でき、例えば、詳細な条件が確定していない相談や、見たい俳優が出ている番組の検索、インターネットのオンラインショップで旅行先、家電または服などの商品を比較検討する際の音声対話の利便性を向上させることができる。例えば、ドラマの検索などにおいて、以下のような重複した発話をする必要がなくなる。

ユーザ:「昨日のドラマを見せて」
システム：「昨日のドラマは１０件あります。」−−（１）
ユーザ：「バラエティだとどう。」
システム:「昨日のバラエティは２５件あります。」−−（２）
ユーザ：「俳優Ａが出ている番組に絞って」
システム：「俳優Ａが出ている昨日のバラエティは２件あります。」−−（３）
ユーザ：「昨日のドラマを検索して」
システム：「昨日のドラマは１０件あります」−−（４）
ユーザ：「俳優Ａが出ている番組に絞って」
システム：「俳優Ａが出ている番組は１件あります」−−（５）
（ユーザが（３）の結果画面と（５）の結果画面とを見比べる）
ユーザ：「○○を再生して」
よって、第１の実施形態によれば、より円滑な対話を支援することができる。

（第２の実施形態）
第２の実施形態では、音声対話の途中で、ユーザが過去の発話内容を訂正する場合を想定する。

第２の実施形態に係る対話支援装置は、第１の実施形態に係る対話支援装置２００と要求処理部２０５以外の動作は、同様の構成であるのでここでの説明を省略する。

第２の実施形態に係る要求処理部２０５は、第１の実施形態とほぼ同様に動作するが、ユーザ発話が、対話履歴に含まれる対話状態の条件を変更するものである場合、対話履歴に含まれる対話状態のうち、変更対象となる対話状態以後のユーザ発話を反映させた対話状態を、対話処理サーバ１０２から取得する点が異なる。

第２の実施形態に係る対話例について図１４を参照して説明する。
図１４は、テレビ番組の録画予約を行う場合のユーザと対話システムとの対話例である。ユーザは、録画予約を要求する発話を行い、対話システムは、放送日、開始時刻、放送局、および番組名をユーザに問い合わせることで番組を特定して録画予約するような対話シナリオに沿って対話が行われる。

以下、図１４に示すユーザの発話順に沿った処理について具体的に説明する。
＜ユーザ発話Ｕ１０に対する処理＞
ユーザがユーザ発話Ｕ１０「録画予約がしたい」と発話する。
ユーザ発話Ｕ１の発話時点では、インタフェース画面７００に何も表示されていないため、第１の実施形態のユーザ発話Ｕ１と同様の処理であるので、ここでの説明を省略する。

対話情報格納部２０３に対話情報、対話状態識別子３０１「１０」、対話列識別子３０２「５」、対話状態名「Ｒｅｃｏｒｄ＿ＴＶ（）」、表示状況フラグ３０４「１」、時刻３０５「２０１４／０７／０７１２：０５：４５」およびシステム応答データ３０６が対応付けられて、対話情報３０７として格納される。なお、録画予約処理の準備に関する結果が検索結果領域に表示されるので、表示状況フラグが「１」に設定される。
画面更新部２０７は、録画予約処理の準備に関する処理結果を表示領域７０１に表示し、あわせてシステムからのシステム応答Ｓ１０「いつの番組ですか」を出力する。

＜ユーザ発話Ｕ１１に対する処理＞
次に、ユーザが、システム応答Ｓ１「いつの番組ですか」に対する回答として、ユーザ発話Ｕ１１「７月１０日」と発話する。

対話受理部２０２は、ユーザ発話Ｕ１１を受理し、音声認識処理を行ってテキストに変換する。対象判定部２０４は、表示状況フラグが「１」である対話状態を対象対話状態として選択する。

要求処理部２０５は、ユーザ発話Ｕ１１と、対象の対話状態として、対話状態識別子が「１０」の対話情報とを含む要求メッセージが生成する。対話処理サーバ１０２では、ユーザ発話Ｕ１１の意図を解析し、この発話が対象の対話状態（対話状態識別子「１０」）におけるシステムからの問い合わせに対する回答であると判定する。対話処理サーバ１０２は、新たに生成された対話状態（対話状態識別子「１１」）の対話列識別子を、対話状態識別子が「１０」の対話情報と同一に設定し、応答メッセージとして、要求処理部２０５に送信する。

対話情報更新部２０６は、要求処理部２０５から取得した応答メッセージの内容に従い、ユーザ発話Ｕ１１の処理結果に関する情報を対話情報として追加更新する。すなわち、対話状態識別子３０１「１１」、対話列識別子３０２「５」、対話状態名「Ｒｅｃｏｒｄ＿ＴＶ（ｄａｔｅ：７月１０日）」、表示状況フラグ３０４「１」、時刻３０５「２０１４/０７/０７１２：０５：４５」およびシステム応答データ３０６が対応付けられて、対話情報３０７として格納される。なお、インタフェース画面上に表示される検索結果は、ユーザ発話Ｕ１１の処理結果となるため、表示状況フラグ３０４もあわせて更新される。

画面更新部２０７は、ユーザ発話Ｕ１１に対する処理結果を表示領域７０１に通常表示し、システム応答Ｓ１１「何時から始まりますか」を出力する。

続く、ユーザ発話Ｕ１２「２１時から」、システム応答Ｓ１２「放送局を教えてください」、ユーザ発話Ｕ１３「○×放送」およびシステム応答Ｓ１３「何という番組ですか」は、上述の処理と同様に行うことができるので、ここでの説明は省略する。

次に、ユーザ発話Ｕ１３に関する対話情報を追加したときの対話情報格納部２０３の対話情報テーブルについて図１５に示す。
図１５に示すように、図３に示す対話情報と同様に各対話情報３０７が格納される。なお、対話が進むにつれ、録画処理のための条件が増えた対話情報が格納される。

次に、ユーザ発話Ｕ１３に対する処理結果の表示例を図１６に示す。
図１６に示すように、番組予約のため、放送日、開始時刻、および放送局までが入力された状態となる。

ここで、システム応答Ｓ１３に対して、ユーザがユーザ発話Ｕ１４「放送日は７月１１日に変更して」と発話したとする。
対象判定部２０４は、対話情報格納部２０３に格納される対話情報を参照して、対話情報の表示状況フラグが「１」である対話状態識別子が「１３」の対話情報を対象対話状態として判定する。

要求処理部２０５は、ユーザ発話Ｕ１４と対象対話状態の対話情報とを含む要求メッセージが生成する。対話処理サーバ１０２では、ユーザ発話Ｕ１４の意図を解析し、この発話がシステム発話Ｓ４に対する発話ではなく、放送日を変更する発話であると判定する。よって、対話処理サーバ１０２は、現在進行中の放送日が７月１０日の録画予約対話を中断して、放送日が７月１１日である新たな録画予約対話の状態を生成する。

このとき、要求処理部２０５は、放送日に対する発話を変更した以降の対話において、変更前の対話で行われたユーザ発話が利用できる場合、変更前の対話を利用した対話状態も対話処理サーバ１０２から取得する。本実施例の場合、放送日に関するシステム発話よりも後で最初のシステム発話は、システム応答Ｓ１１「何時から始まりますか」である。

このシステム応答Ｓ１１に対して、ユーザは既にユーザ発話Ｕ１２「２１時から」と回答しているので、ユーザ発話Ｕ１２を利用する。次のシステム応答Ｓ１２「放送局を教えて下さい」に対しても、ユーザは既にユーザ発話Ｕ１３「○×放送」と回答しているので、ユーザ発話Ｕ１３を利用する。

続くシステム応答Ｕ１３「何という番組ですか」に対しては、ユーザは未だ回答していないので、対話履歴において利用可能な対話状態は、ユーザ発話Ｕ１２およびユーザ発話Ｕ１３であると決定できる。

要求処理部２０５は、放送日の７月１１日に変更したところまでの対話状態と、放送日を７月１１日に変更し、かつその発話以後に続くユーザ発話ユーザ発話Ｕ４「○×放送」にした状態までの対話状態との両方を含む応答メッセージを対話処理サーバ１０２から受信する。

対話情報更新部２０６は、２つの対話状態を含む応答メッセージを取得して、対話情報を更新する。

ユーザ発話Ｕ１４に関する対話情報を追加したときの対話情報格納部２０３の対話情報テーブルを図１７に示す。
ユーザ発話Ｕ１４「放送日は７月１１日に変更して」の処理結果である２つの対話情報１７０１および１７０２が記録される。対話情報１７０１は、放送日の変更をおこなうのみで、そのほかのユーザ発話は利用していない対話状態であるので、対話状態名「Ｒｅｃｏｒｄ＿ＴＶ（ｄａｔｅ：７月１１日）」として格納される。一方、対話情報１７０２は、放送日の変更を行い、対話履歴において利用可能な対話を用いる対話状態であるので、対話状態名「Ｒｅｃｏｒｄ＿ＴＶ（ｄａｔｅ：７月１１日／ｓｔｉｍｅ：２１時／ｃａｒｒｉｅｒ：○×放送）」として格納される。なお、表示状況フラグ「３」は、表示領域７０１に表示中の対話状態と置き換え可能な対話状態であることを示す。

次に、対話情報１７０１を表示する場合のインタフェース画面の表示例を図１８に示す。
インタフェース画面上の表示領域７０１には、ユーザ発話に従って日付が７月１１日に変更された番組予約に関する処理結果が通常表示されており、システム応答Ｓ１１「何時から始まりますか」が出力される。また、画面右上に対話状態切り替えボタン１８０１が新たに表示される。対話状態切り替えボタン１８０１は、対話処理サーバ１０２から送信された対話情報１７０２に対応する対話状態を有効にするためのボタンである。

次に、対話状態切り替えボタン１８０１を押下した場合のインタフェース画面の表示例を図１９に示す。
図１９に示すように、放送日の変更が完了し、放送日「７月１１日」、開始時刻「２１時」、放送局「○×放送」まで対話が進んだ状態表示１９０１を表示する。なお、画面更新部２０７は、対話状態切り替えボタン１８０１を、図１８および図１９のどちらかの状態で、ユーザが新たに発話した内容が画面に表示されるタイミングで消すようにしてもよい。

以上に示した第２の実施形態によれば、対話の途中で発話内容を変更した際に、対話履歴に基づいて、他の発話内容を利用するか否かを画面上で選択することができ、音声対話の利便性を向上させ、より円滑な対話を支援することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した対話支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の対話支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・対話システム、１０１・・・端末、１０２・・・対話処理サーバ、１０３・・・ユーザ、１０４・・・ネットワーク、２００・・・対話支援装置、２０１・・・操作受理部、２０２・・・対話受理部、２０３・・・対話情報格納部、２０４・・・対象判定部、２０５・・・要求処理部、２０６・・・対話情報更新部、２０７・・・画面更新部、３００・・・テーブル、３０１・・・対話状態識別子、３０２・・・対話列識別子、３０３・・・対話状態名、３０４・・・表示状況フラグ、３０５・・・時刻、３０６・・・システム応答データ、３０７，９０１・・・対話情報、７００・・・インタフェース画面、７０１・・・表示領域、７０２・・・音声認識ボタン、１００１・・・サムネイル表示領域、１１０１，１１０２・・・検索結果画面、１３０１，１３０２・・・検索結果、１７０１，１７０２・・・対話情報、１８０１・・・対話状態切り替えボタン、１９０１・・・状態表示。

Claims

ユーザの意図を示す入力情報を受理する第１受理部と、
前記意図を推定し該意図に応じた処理を行う対話システムとユーザとの対話結果を示す対話状態の識別子と、該対話状態を通常表示させるかサムネイル表示させるかを示す表示フラグとを含む対話情報を、関連づけて格納する格納部と、
前記ユーザの操作が、前記対話状態の表示フラグを変更する操作である場合、前記対話情報を更新する対話情報更新部と、
前記対話状態に関する履歴である対話履歴のうち、前記表示フラグが通常表示を示す対話状態を対象対話状態として判定する判定部と、
前記入力情報と前記対象対話状態とを前記対話システムに入力し、該対話システムから処理結果を得る処理部と、
前記処理結果の表示を更新するための第１更新情報を生成する画面更新部と、
を具備する対話支援装置。
画面に対する前記ユーザの操作を受理する第２受理部をさらに具備し、
前記判定部は、前記操作により指定された対話状態を、前記対象対話状態として判定する請求項１に記載の対話支援装置。
前記対話情報は、対話シナリオにおける所定の対話に関連する対話状態のまとまりを示す対話列識別子をさらに含み、
前記画面更新部は、画面に既に表示される第１対話状態の対話列識別子と、現行の第２対話状態の対話列識別子とが異なる場合、第１対話状態をサムネイル表示とするための第２更新情報を生成する請求項１に記載の対話支援装置。
前記処理部は、現行の対話状態が前記対話履歴に含まれる対話状態の条件を変更するものである場合、該対話履歴に含まれる変更対象の対話状態以後の１以上の第３対話状態を取得し、
前記画面更新部は、前記現行の対話状態と前記１以上の第３対話状態とを表示するための第３更新情報を生成する請求項１から請求項３のいずれか１項に記載の対話支援装置。
前記画面更新部は、現行の対話状態に加え、前記第３対話状態を表示するかどうかを選択させる切り替え表示を表示させるための第４更新情報を生成する請求項４に記載の対話支援装置。
前記画面更新部は、複数の対話状態に対してそれぞれ前記処理結果が生成される場合、該処理結果を並列して表示させるための第５更新情報を生成する請求項１から請求項５のいずれか１項に記載の対話支援装置。
前記入力情報は、前記ユーザの発話の音声認識結果である請求項１から請求項６のいずれか１項に記載の対話支援装置。
ユーザの意図を示す入力情報を受理し、
前記意図を推定し該意図に応じた処理を行う対話システムとユーザとの対話結果を示す対話状態の識別子と、該対話状態を通常表示させるかサムネイル表示させるかを示す表示フラグとを含む対話情報を、関連づけて格納部に格納し、
前記ユーザの操作が、前記対話状態の表示フラグを変更する操作である場合、前記対話情報を更新し、
前記対話状態に関する履歴である対話履歴のうち、前記表示フラグが通常表示を示す対話状態を対象対話状態として判定し、
前記入力情報と前記対象対話状態とを前記対話システムに入力し、該対話システムから処理結果を得、
前記処理結果の表示を更新するための第１更新情報を生成する対話支援方法。
コンピュータを、
ユーザの意図を示す入力情報を受理する第１受理手段と、
前記意図を推定し該意図に応じた処理を行う対話システムとユーザとの対話結果を示す対話状態の識別子と、該対話状態を通常表示させるかサムネイル表示させるかを示す表示フラグとを含む対話情報を、関連づけて格納する格納部と、
前記ユーザの操作が、前記対話状態の表示フラグを変更する操作である場合、前記対話情報を更新する対話情報更新部と、
前記対話状態に関する履歴である対話履歴のうち、前記表示フラグが通常表示を示す対話状態を対象対話状態として判定する判定手段と、
前記入力情報と前記対象対話状態とを前記対話システムに入力し、該対話システムから処理結果を得る処理手段と、
前記処理結果の表示を更新するための第１更新情報を生成する画面更新手段として機能させるための対話支援プログラム。
前記ユーザからの発話を取得し、音声認識結果を得る音声取得部と、
前記音声認識結果を請求項１に記載の対話支援装置に送信し、処理結果を受信する通信部と、
前記処理結果を表示する表示部と、を具備する端末。