JP6966979B2

JP6966979B2 - 対話システムの制御方法、対話システム及びプログラム

Info

Publication number: JP6966979B2
Application number: JP2018120888A
Authority: JP
Inventors: 和将徳橋; 義崇平松; 利光高橋; 佑曽我
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2021-11-17
Anticipated expiration: 2038-06-26
Also published as: EP3588493A1; US11068288B2; EP3588493B1; JP2020003925A; US20190391828A1

Description

本発明は、音声とタッチパネルを利用する対話システムに関する。

近年、機械学習の進展に伴って、音声認識技術が普及している。様々な言語での対応を求められる空港や駅での施設案内や、複雑なサービスを複数取り扱う金融機関や自治体等における窓口業務などのさまざまな対人サービスの提供は、既存の職員だけでは難しくなってきている。このような高度化するサービス業務を支援するため、ロボットや音声アシスタントなどの対話システムの実用化が進められている。

対話システムとしては、例えば、特許文献１が知られている。特許文献１では、ナビゲーション用キャラクタによる対話型のコミュニケーションを可能にし、タッチパネル入力を併用することにより、音声認識による対話型コミュニケーションを補完したコミュニケーション端末が開示されている。

特開２０１０−２６６８６号公報

対話システムの利用者がタッチパネルを有する端末装置を操作してサービスを受ける際に、利用者の発話や背景の騒音によっては音声の認識精度が低い場合があり、またタッチ入力だけの場合は、大量の選択肢の中から所望の選択肢までたどり着くまでに、何度もタッチ操作が必要になる場合では、時間が掛かったりタッチ操作が煩わしい場合が生じる。

そこで本発明は、上記問題点に鑑みてなされたもので、音声入力とタッチ入力を相互に補完して、利用者にとって操作性のよい対話システムを提供することを目的とする。

本発明は、プロセッサと、メモリと、音声入力装置と、音声出力装置と、タッチ入力が可能な表示部を含むタッチパネルを有する対話システムの制御方法であって、前記プロセッサが、１以上の選択肢を含む問い合わせ情報を生成して、前記音声出力装置または前記タッチパネルから出力する問い合わせステップと、前記プロセッサが、前記音声入力装置または前記タッチパネルから前記問い合わせ情報に対する回答を受け付ける入力ステップと、前記プロセッサが、前記回答に対応する案内情報の候補を生成して、前記音声出力装置または前記タッチパネルから出力する案内ステップと、前記プロセッサが、前記問い合わせ情報に基づいて、前記タッチ入力を受け付ける領域である選択肢を前記タッチパネルに出力する第１の対話モードと、前記問い合わせ情報に基づくコメントを前記タッチパネル、或いは前記音声出力装置で出力する第２の対話モードを、当該対話システムの運用状況に応じて選択するモード切替ステップと、を含み、前記問い合わせステップ及び前記案内ステップは、前記モード切替ステップで選択された第１の対話モードまたは第２の対話モードを使用する。

したがって、本発明は、対話システムの運用状況に応じて選択肢を表示する第１の対話モードと、新たに選択肢を表示せずに利用者に提示するコメントを表示または発話する第２の対話モードを切り替えることで、音声入力と、タッチ入力を相互に補完して、利用者にとって操作性のよい対話システムを提供することができる。

本発明の実施例を示し、対話システムの一例を示すブロック図である。本発明の実施例を示し、制御装置の構成の一例を示すブロック図である。本発明の実施例を示し、制御装置で行われる対話処理の一例を示すフローチャートである。本発明の実施例を示し、モード判定処理の一例を示すフローチャートである。本発明の実施例を示し、環境及びユーザ使用状況テーブル３３の一例を示す図である。本発明の実施例を示し、タッチパネルの初期画面の一例を示す図である。本発明の実施例を示し、タッチパネルのカテゴリ選択画面の一例を示す図である。本発明の実施例を示し、タッチパネルの選択結果表示画面の一例を示す図である。本発明の実施例を示し、タッチパネルの選択結果表示画面の一例を示す図である。本発明の実施例の変形例を示し、タッチパネルの初期画面の一例を示す図である。本発明の実施例の変形例を示し、タッチパネルの問い合わせ画面の一例を示す図である。本発明の実施例の変形例を示し、タッチパネルの問い合わせ結果表示画面の一例を示す図である。本発明の実施例を示し、シナリオの一例を示す図である。本発明の実施例を示し、店舗テーブルの一例を示す図である。

以下、本発明の実施形態を添付図面に基づいて説明する。図１は、本発明の実施例を示し、対話システムの一例を示す図である。本実施例の対話システムは、利用者２００と対向する位置に設置されたタッチパネル４と、タッチパネルを支持するスタンド５０と、スタンド５０に設置された音声入力装置５と、タッチパネル４に設けた音声出力装置６と、タッチパネル４に設けた画像入力装置８と、スタンド５０に設置されたセンサ９と、スタンド５０に設置された各装置を制御する制御装置１００を有する。

本実施例の対話システムは、空港や駅、あるいはショッピングモールなどの施設に設置されて、利用者２００に音声またはタッチによる入力を促して、施設の案内を提供する例を示す。

＜システムの構成＞
図２は、制御装置１００の一例を示す図である。制御装置１００は、プロセッサ１と、メモリ２と、ストレージ装置３と、タッチパネル４と、音声入力装置５と、音声出力装置６と、ネットワークＩ／Ｆ７と、画像入力装置８と、センサ９と、を含む計算機で構成される。

なお、図１では、制御装置１００がタッチパネル４と分離した構成を示したが、これに限定されるものではない。例えば、タッチパネル４と制御装置１００が一体の構成であってもよく、また、センサ９や音声入力装置５がタッチパネル４に設置されても良い。なお、画像入力装置８とセンサ９は、利用者２００の状況を検出するセンサとして機能する。

メモリ２には、音声情報取得部２０と、制御部２１と、画像情報取得部２２と、センサ情報取得部２３が、それぞれプログラムとしてロードされ、プロセッサ１によって実行される。

プロセッサ１は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、プロセッサ１は、音声情報取得プログラムに従って処理することで音声情報取得部２０として機能する。他のプログラムについても同様である。さらに、プロセッサ１は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

制御装置１００の各機能を実現するプログラム、テーブル等の情報は、ストレージ装置３や不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

ストレージ装置３には、各プログラムが使用するデータが格納される。図示の例では、音声情報取得部２０が使用する音声認識データベース３１と、制御部２１が使用する表示及び発話情報データベース３２と、制御部２１が使用するユーザ使用状況テーブル３３が格納される。各データの詳細については後述する。

タッチパネル４は、タッチパネルディスプレイ４０と、タッチ入力情報取得部４１を含む。タッチパネルディスプレイ４０は、制御部２１が出力する情報を表示する。タッチ入力情報取得部４１は、タッチパネル４のタッチ入力の内容を制御部２１送信する。音声入力装置５は、マイクで構成されて、利用者２００の発話や設置環境の騒音などを取得する。音声出力装置６は、スピーカで構成されて、制御部２１からの音声を出力する。

ネットワークＩ／Ｆ７は、図示しないネットワークに接続される。画像入力装置８は、カメラで構成されて、利用者２００を撮影する。センサ９は、利用者２００の有無等を検出する。センサ９としては、例えば、赤外線（ＩＲ）センサ９１や、モーションセンサ９２や、温度センサ９３を採用することができる。

＜機能の概要＞
次に、各機能部の概要について説明する。音声情報取得部２０は、音声入力装置５に利用者２００の発話（音声）が入力されると、音声認識を実行して音声に対応するテキストを出力する。音声認識は、例えば、隠れマルコフモデルなど周知または公知の技術を用いれば良い。音声認識データベース３１は、例えば、音響モデルと、辞書と、言語モデルなど音声認識に必要な情報が予め格納されている。

また、音声情報取得部２０は、タッチパネル４が設置された環境の騒音を検出し、例えば、音圧レベルとして出力する。音声情報取得部２０は、認識結果のテキストと音圧レベルを制御部２１へ送信する。

画像情報取得部２２は、画像入力装置８が撮影した利用者２００の画像を認識し、利用者２００の属性や状況を算出する。画像情報取得部２２の画像認識は、例えば、周知または公知の顔認識技術を利用して、利用者２００の属性として年齢や性別を認識する。また、画像情報取得部２２は、撮影した利用者２００の画像から、利用者２００の人数や位置を検出する。

また、画像情報取得部２２は、利用者２００がタッチパネル４を操作可能であるか否かを認識するようにしても良い。すなわち、例えば、利用者２００の両手が空いているか否かを識別することで、タッチパネル４の操作が可能か否かを判定することができる。また、画像情報取得部２２は、例えば、利用者２００のマスクの装着の有無を判定することで、音声認識を利用するか否かの情報とすることができる。

画像情報取得部２２は、上記認識したタッチパネル４の操作の可否、マスクの装着の有無などを利用者２００の状況として算出する。画像情報取得部２２は、上記認識した利用者２００の属性や状況を制御部２１へ出力する。

また、画像情報取得部２２は、新たな利用者２００が出現した場合には、制御部２１へ処理の開始を通知しても良い。

センサ情報取得部２３は、赤外線センサ９１や、モーションセンサ９２等の信号から利用者２００の出現や、利用の終了（利用者２００の立ち去り）を判定してセンサ情報として制御部２１へ出力する。

制御部２１は、画像情報取得部２２の認識結果から利用者２００の有無や属性や状況を取得し、音声情報取得部２０から利用者２００の発話に対応するテキストと騒音を取得し、センサ情報取得部２３のセンサ情報から利用者２００の有無を取得する。

そして、制御部２１は、予め設定されたシナリオに応じて、利用者２００に対して問い合わせと、施設の案内を実施する。制御部２１は、利用者２００が使用する入力デバイスを推奨する対話モードとして、タッチパネル４への入力（以下、タッチ入力）を推奨するモード１と、音声の入力を推奨するモード２を有する。制御部２１は、利用者２００の状況や対話システムの運用状況などに応じて対話モードを適切に切り替えて施設の案内を実行する。制御部２１は、問い合わせ情報を生成する問い合わせ部と、案内情報を生成する案内部と、対話モードを切り替えるモード切替部を含むプログラムである。

制御部２１は、利用者２００がタッチパネル４に到着すると、画像や音声やセンサの認識結果を、環境及びユーザ使用状況テーブル３３に格納し、表示及び発話情報データベース３２から、シナリオ３００と店舗テーブル４００を読み込んで案内を開始する。制御部２１は、案内の開始後に利用者２００の状況などに応じて対話モードを上記モード１とモード２を、対話毎に切り替えて制御する。

対話モードのモード１では、制御部２１が、音声入力ではなく、利用者２００に対してタッチ入力の使用を促す画面や問いかけを行うＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供する。一方、対話モードのモード２では、制御部２１がタッチ入力ではなく、利用者２００が音声入力を使用したくなる画面や問いかけを行うＧＵＩを提供する。

対話モードの画面は、モード１では、タッチパネル４の表示領域に選択肢をボタン等のタッチ領域で表示されて、利用者２００にタッチ入力を促すように構成される。一方、モード２では、タッチパネル４の表示領域には新たな選択肢を表示せずに、利用者２００に音声入力を促す画面を表示する。例えば、モード２の表示領域では、利用者２００に対する問いかけを、発話とテキスト表示の双方で実施する。また、モード１、モード２では、一方の入力を優先的に受け付けるのではなく、音声入力とタッチ入力の双方を均等に扱う。

なお、モード２では、タッチパネル４の表示領域にボタン等のタッチ領域を見えないように設定しておいても良い。例えば、タッチ領域を透明の領域として表示したり、数ドットの極小領域などで表示しても良い。なお、モード２において、表示領域のヘッダ部分に表示される「ＨＯＭＥ」ボタンや、「ＨＥＬＰ」ボタンなどのタッチ入力領域は、モード１と同様に出力される。

なお、シナリオ３００には、利用者２００に提示する問い合わせ情報等が設定され、店舗テーブル４００には、店舗情報や店舗の候補等を含む案内情報が設定される。シナリオ３００の問い合わせ情報は、複数の選択肢（カテゴリなど）を含むことができる。

＜データの詳細＞
以下、制御部２１が利用するデータについて説明する。まず、制御部２１が利用する表示及び発話情報データベース３２には、シナリオ３００と、店舗テーブル４００が含まれる。

図８は、制御部２１が使用するシナリオ３００の一例を示す図である。シナリオ３００の各行はリスト番号（図中＃）３０１と対話リスト３０２から構成される。

対話リスト３０２は対話システムが利用者２００に対して実施する対話のリストであり、図ではセミコロンで区切られて１以上の対話が表記されている。対話リスト３０２には、出力情報と入力情報と次のリスト番号が設定される。

対話リスト３０２の出力情報としては、リスト番号３０１＝「１」の「ＱＵＥＳＴＩＯＮ」が、利用者２００への問い合わせを意味し、制御部２１は現在の対話モードに応じて「こんにちは！ご用件は何でしょうか？」という対話の内容を表示または発話する。そして、「ＣＡＳＥ」はモード１のときに表示する問い合わせ情報の選択肢「レストラン」、「ショップ」、「サービス」と、次回のリスト番号３０１が設定される。

例えば、利用者２００が「レストラン」を選択したときには、次回の処理はリスト番号３０１＝「２」となり、タッチ入力で取得した「レストラン」を示す値は変数「ａ」に格納される。

リスト番号３０１＝「２」の「ＱＵＥＳＴＩＯＮ」では、食事に関するサブカテゴリ「和食」、「洋食」、「中華」のいずれを選択するかを問い合わせる。制御部２１は問い合わせに対する回答（選択結果）を入力として、店舗テーブル４００を検索する。次回の処理はリスト番号３０１＝「５」であるので、制御部２１は回答に対応する検索結果である案内情報の候補を「ＡＮＳＷＥＲ」として出力する。

図示の例では、リスト番号３０１＝「５」で検索結果を出力（ＯＵＴＰＵＴ）した後には、ＧＯＴＯ（１）で、リスト番号３０１＝「１」に復帰する例を示すが、これに限定されるものではない。例えば、出力した候補の中から利用者２００に所望の店舗を選択させて、さらに詳細な情報を提供したり、空席の照会などを実施させてもよい。

対話リスト３０２は、制御部２１の対話モードを制限することができる。リスト番号３０１＝「９９」の「ＱＵＥＳＴＩＯＮ」では、店舗を予約するために利用者２００の携帯電話の電話番号の入力を、モード１に制限する例を示す。個人情報やプライバシーに関する情報の入力は、タッチ入力を推奨することができる。

また、リスト番号３０１＝「１０」の「ＱＵＥＳＴＩＯＮ」では、検索結果の案内情報の候補が多すぎてタッチ入力では煩雑になるので、音声入力によるモード２に制限する例を示す。

制御部２１は、現在設定された対話モードで、上述のようなシナリオ３００のリスト番号３０１に従って予め設定された対話を実施する。

図９は、制御部２１が使用する店舗テーブル４００の一例を示す図である。店舗テーブル４００は、店舗の種別を格納するカテゴリ４０１と、詳細な種別を格納するサブカテゴリ４０２と、個々の店舗の情報を格納する店舗情報４０３から構成される。

図５は、制御部２１が使用する環境及びユーザ使用状況テーブル３３の一例を示す図である。環境及びユーザ使用状況テーブル３３は、新たな利用者２００毎に生成される。

環境及びユーザ使用状況テーブル３３は、使用ユーザ数３３１と、ノイズ３３２と、直前の対話モード３３３と、対話回数３３４と、音声認識精度３３５と、入力までのインターバル時間３３６と、ユーザ状況３３７と、ユーザ位置３３８を含む。

使用ユーザ数３３１には、タッチパネル４の前に存在する利用者２００の数が格納される。ノイズ３３２には、音声情報取得部２０が算出した騒音の音圧レベルに応じた値が設定される。図示の例では、音圧レベルを大、中、小の３段階に区分けした例を示す。

対話モード３３３には、現在の対話モードが格納される。対話回数３３４には、現在の利用者２００に対して実施した対話の回数が格納される。音声認識精度３３５には、音声情報取得部２０が算出した音声認識精度（音声認識率）が格納される。なお、音声認識精度３３５には、現在の利用者２００の発話を認識した回数を格納するようにしてもよい。

入力までのインターバル時間３３６には、利用者２００が音声入力またはタッチ入力を実施する時間間隔（例えば、平均値）が格納される。ユーザ状況３３７には、利用者２００に対して考慮すべき事項が格納される。考慮すべき事項は、マスクの装着や両手に荷物を持っている等、音声認識への影響や、タッチ入力への影響が予測される所定の事項が格納される。

ユーザ位置３３８には、タッチパネル４の位置に対して利用者２００が存在する位置が格納される。利用者２００の位置は、画像情報取得部２２によって検出される。

＜処理の詳細＞
図３は、制御装置１００で行われる対話処理の一例を示すフローチャートである。この処理は、制御部２１が、センサ情報取得部２３や画像情報取得部２２からの情報に基づいて、新たな利用者２００が出現したときに実行される。

制御部２１は、ステップＳ１で、環境及びユーザ使用状況テーブル３３を初期化してから、実行を開始するシナリオ３００の最初のリスト番号３０１＝「１」に設定する。

次に、制御部２１は、ステップＳ２で、設定された対話モードに応じて入力を受け付ける。本実施例では、デフォルトの対話モードをモード２として、音声入力装置５からの入力を受け付ける。なお、制御装置１００は、モード２であってもタッチ入力を受け付けることができ、モード１であっても音声入力を受け付けることができる。

制御部２１が、音声情報取得部２０からの音声認識結果と、タッチ入力情報取得部４１からのタッチ入力と、画像情報取得部２２からの画像認識結果と、センサ情報取得部２３からのセンサ情報を取得する。

ステップＳ３では、制御部２１が、前回の対話の実施により、次回の対話で出力する案内情報の候補の数を取得する。ステップＳ４では、上記画像認識結果に基づく利用者２００の属性及び状況を取得する。制御部２１は、現在の利用者２００の上記音声認識結果と、画像認識結果と、センサ情報を環境及びユーザ使用状況テーブル３３に書き込んで更新する。

制御部２１は、ステップＳ４で、対話モードに応じた入力の有無を判定し、入力があった場合にはステップＳ７へ進み、入力がない場合にはステップＳ６で一定時間経過した後にステップＳ５に戻って上記処理を繰り返す。

制御部２１は、ステップＳ７で、音声とタッチ入力と画像及びセンサの情報を取得して、現在の利用者２００との対話を進行するモードを判定する。すなわち、制御部２１は、利用者２００の属性や状況に応じた対話モードがモード１とモード２のいずれであるかを判定する。当該ステップＳ７の処理については、図４で後述する。

ステップＳ７で、制御部２１がタッチ入力を推奨するモード１を選択した場合には、ステップＳ８に進み、制御部２１が音声入力を推奨するモード２を選択した場合には、ステップＳ９に進んで、指定されたリスト番号３０１のシナリオ３００を１つ実行する。

本実施例では、シナリオ３００を１つずつ実行する例を示すが、これに限定されるものではない。例えば、「こんにちは！ご用件は何でしょうか？」という問いかけに対して、最初から「カレーが食べたい」と利用者２００が回答した場合には、制御部２１は、直接カレーを提供するお店の候補を提示してもよい。これは「レストラン」→「洋食」→「カレー」というカテゴリを選択するシナリオを３回実施したことと同様である。

制御部２１は、モード１のステップＳ８またはモード２のステップＳ９のいずれか一方で、リスト番号３０１を１つ実行するとステップＳ１０に進んで終了するか否かを判定する。

制御部２１は、所定の終了条件を満たしていなければステップＳ２へ戻って入力を受け付けて次のリスト番号３０１のシナリオ３００に進む。一方、制御部２１は、所定の終了条件を満たしていれば対話処理を終了する。

なお、所定の終了条件は、例えば、画像情報取得部２２が利用者２００の立ち去りを検出した場合や、センサ情報取得部２３が赤外線センサ９１またはモーションセンサ９２で利用者２００の立ち去りを検出した場合や、タッチパネル４の終了ボタンをタッチされた場合や、音声情報取得部２０が利用者２００の発話として「バイバイ」や「さようなら」を検出した場合である。

上記処理によって、制御部２１は、シナリオ３００のひとつの対話（リスト番号３０１）を実行するたびに、モード判定処理を行って利用者２００の属性や状況に応じた対話モードを選択して、円滑に対話を進めることが可能となる。また、シナリオ３００では、個人情報等の入力については音声入力を禁止してモード１に制限することができ、対話の内容に応じた対話モードに切り替えることが可能になる。

なお、上記処理の開始については、利用者２００の到来の他に、利用者２００がタッチパネル４のスタートをタッチした場合や、音声入力装置５へ「スタート」等の発話が入力された場合を含めることができる。

図４は、上記図３のステップＳ７で行われるモード判定処理の一例を示すフローチャートである。

ステップＳ１１では、制御部２１が、センサ情報や画像認識結果に基づいて、タッチパネル４の前に利用者２００が存在するか否かを判定する。利用者２００が立ち去った場合には処理を終了し、利用者２００が存在していればステップＳ１２へ進む。

ステップＳ１２では、制御部２１が、図３のステップＳ２で音声入力またはタッチ入力のいずれかがあったか否かを判定し、何れかの入力があった場合にはステップＳ１３に進み、入力がない場合にはステップＳ２０へ進む。

ステップＳ１３では、制御部２１が、図３のステップＳ２〜Ｓ４で取得した利用者２００の属性や状況に基づいて音声入力の可否を判定する。例えば、利用者２００の状況が、両手に荷物を持っていれば音声入力を推奨するモード２と判定してステップＳ１４に進む。一方、利用者２００がマスクを装着している場合、制御部２１は音声認識精度が低下する恐れがあるのでタッチ入力を推奨するモード１（図中トーク不可）と判定してステップＳ２０へ進む。

ステップＳ１４では、制御部２１が、音声情報取得部２０から取得した騒音の音圧レベルが所定の閾値Ｔｈ１を超えているか否かを判定する。制御部２１は、音圧レベルが所定の閾値Ｔｈ１を超えていれば、環境の騒音によって音声認識精度が低下するのでモード１を選択してステップＳ２０へ進む。一方、制御部２１は、音圧レベルが所定の閾値Ｔｈ１以下であれば、騒音が音声認識精度へ与える影響は少ないのでモード２を選択してステップＳ１５へ進む。

ステップＳ１５では、制御部２１が、図３のステップＳ４で取得した案内情報の候補の数が所定の閾値Ｔｈ２を超えていれば、タッチパネル４へ表示するページ数やタッチ入力の数が増大するので、音声入力を推奨するモード２を選択してステップＳ１６へ進む。一方、制御部２１は、案内情報の候補の数が所定の閾値Ｔｈ２以下であれば、タッチ入力を推奨するモード１を選択してステップＳ２０へ進む。

ステップＳ１６では、制御部２１が、音声情報取得部２０から音声認識精度を取得し、音声認識精度が所定の閾値Ｔｈ３以下であれば、音声入力による対話が円滑に実施されていないと判定して、タッチ入力を推奨するモード１を選択してステップＳ２０へ進み、そうでなければステップＳ１７へ進む。

なお、音声認識精度は、例えば、音声情報取得部２０が音声認識で認識した単語（認識単語）と、音声認識データベース３１に予め格納された単語辞書の単語と比較して、認識単語が単語辞書と一致していれば正解単語とする。そして、正解単語数／認識単語数から音声認識精度を算出すれば良い。なお、音声認識精度の算出については上記に限定されるものではなく、ＢＬＥＵ（BiLingual Evaluation Understudy：自動評価）等のスコアを用いるようにしてもよい。

ステップＳ１７では、制御部２１が、次回に実行する対話リスト３０２を取得して、対話モードの制限があるか否かを判定して、制限がある場合には指定されたモード１またはモード２のいずれかを選択する。モード１を選択した場合にはステップＳ２０へ進み、モード２を選択した場合にはステップＳ１８へ進む。

ステップＳ１８では、制御部２１が、前回実行した対話モードを維持する。制御部２１は、前回の対話リスト３０２をモード１で実行した場合にはステップＳ２０へ進んでモード１を選択し、前回の対話リスト３０２をモード２で実行した場合にはステップＳ１９へ進んでモード２を選択する。

以上の処理によって、利用者２００の属性や状況あるいはタッチパネル４が設置された環境に応じてタッチ入力を推奨するモード１と、音声入力を推奨するモード２を対話リスト３０２の対話毎に切り替えることができる。そして、制御部２１は、案内情報の候補の数が所定の閾値Ｔｈ２を超えている場合には、タッチ入力から音声入力へ切り替えてタッチ入力の煩わしさを低減することができる。

なお、上記では音声入力を推奨するモード２の可否（図中トーク可、トーク不可）で判定する例を示したが、これに限定されるものではない。例えば、モード１を選択した場合はポイント＝＋１とし、モード２を選択した場合はポイント＝−１とし、上記ステップＳ１５〜Ｓ２０でそれぞれ算出したポイントの総和の正負に基づいてモード１とモード２のいずれかを選択してもよい。

なお、上記ステップＳ１３からＳ１８の各判定の順番は図４に限定されるものではない。また、上記ステップＳ１３からＳ１８の各判定は、すべて使用しなくてもよいし、その他の判定基準を設けてもよい。

＜表示画面＞
以下に、上記処理によってタッチパネル４に表示される画面の一例について説明する。図６Ａは、タッチパネル４の初期画面５００の一例を示す図である。初期画面５００は、施設の案内役としてのアバター（またはキャラクタ）６００が画面の左下に表示される。吹き出し５０２には、アバター６００からのメッセージが表示される。

なお、アバター６００の位置は図示のような画面の左下に限定されるものではなく、真ん中など所定の位置に表示することができる。また、アバター６００を表示しなくても良い。

図６Ｂは、シナリオ３００のリスト番号３０１＝「１」を実行したカテゴリ選択画面５０３の一例を示す。図６Ｂは例えば、図６Ａで制御部２１が発話によって問いかけた際に、利用者２００からの音声入力がなかった場合(一定時間経過：ステップＳ６)や音声認識できなかった場合にモード１へ切り替えた例を示す。なお、図６Ａで利用者２００から入力を正しく受け付けた場合では、後述の図６Ｃまたは直接施設や店舗情報を表示することができる。

図６Ｂの状態で、利用者２００は、カテゴリを選択してタッチ入力で回答すると、制御部２１は、店舗テーブル４００を検索して該当するカテゴリ４０１から店舗情報４０３を取得する。そして、制御部２１は、図４のステップＳ１５で、案内情報の候補の数が所定の閾値Ｔｈ２を超えたか否かを判定する。案内情報の候補の数が閾値Ｔｈ２以下であれば、候補数が少なく、ひとつの画面で表示できるので、モード１に切り替えて、図６Ｃの選択結果表示画面５０５を出力する。

図６Ｃの選択結果表示画面５０５では、候補として選択された候補５０６のいずれかをタッチすることで、さらに詳細な情報を提供することができる。

一方、案内情報の候補の数が所定の閾値Ｔｈ２を超えている場合には、上記ステップＳ１７で述べたように、タッチ入力が繰り返されて操作が煩雑になる。そこで、制御部２１は、音声入力を推奨するモード２に設定して、図６Ｄに示す選択結果表示画面５０７を出力して声入力によって絞り込みを開始して、対話を継続する。

図６Ｄでは、制御部２１が新たな選択肢をタッチパネル４に表示することなく、「候補数が多すぎます。キーワードを喋って下さい。」という問いかけを、音声の発話と画面表示によって出力することで、利用者２００に音声入力を推奨する。

図６Ｄに示す選択結果表示画面５０７では、音声入力の認識結果を吹き出し５０８へ表示することで、利用者２００に対して音声認識の結果を提示することで、音声入力による案内情報の候補の抽出について安心感を与えることができる。

以上のように本実施例によれば、利用者２００の属性や状況に応じて音声入力を推奨するモード２と、タッチ入力を推奨するモード１とを切り替えることで、音声入力と、タッチ入力を相互に補完して、利用者２００にとって操作性のよい対話システムを提供することができる。

＜変形例＞
図７Ａ〜図７Ｃは、本実施例の変形例を示し、上記実施例のシナリオ３００による対話に代わって、自然言語によるランダムな対話で施設の案内を実施する例を示す。

図７Ａは、音声入力を推奨するモード２で初期画面５１０をタッチパネル４に表示した例を示す。初期画面５１０に対して利用者２００が「お腹が空いた」と発話すると、制御部２１は、音声情報取得部２０で音声認識処理を行った結果を吹き出し５１２へ出力する。

制御部２１は、「お腹が空いた」に対して「何を食べますか？」という文章を生成し、音声出力装置６から発話する。さらに、制御部２１は、図７Ｂに示す問い合わせ画面５１３をタッチパネル４へ表示する。

問い合わせ画面５１３に対して、利用者２００が「カレーが食べたい」と音声入力を行うと、制御部２１は、音声情報取得部２０が認識した結果を吹き出し５１５に出力して、「カレー」を含む店舗情報４０３を検索する。制御部２１は、検索結果である案内情報の候補を、図７Ｃに示す問い合わせ結果表示画面５１６に表示する。

図７Ｃの例では、案内情報の候補の数が閾値Ｔｈ２以下であった場合を示し、モード１に切り替えて、カレーを提供する店舗の案内情報５１７と、候補数５１７を表示する例を示す。

また、上記モード２では、利用者２００へ提示するコメント（５１１、５１４、５１８）と、利用者２００の発話の認識結果（５１２、５１５）をタッチパネル４に表示するので、制御装置１００と利用者２００の発話を文字列で確認することができる。

＜まとめ＞
なお、上記実施例では、制御装置１００に、音声情報取得部２０や画像情報取得部２２及びセンサ情報取得部２３を含む例を示したが、これらの音声認識や画像認識あるいはセンサ情報の判定処理は、ネットワーク（図示省略）を介して接続された他の計算機で実行してもよい。

また、上記実施例では、タッチ入力を推奨するモード１では音声入力を許容する例を示したが、音声入力を禁止してタッチパネル４へのタッチ入力で対話を実施しても良い。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１プロセッサ
２メモリ
３ストレージ装置
４タッチパネル
５音声入力装置
６音声出力装置
８画像入力装置
９センサ
２０音声情報取得部
２１制御部
２２画像情報取得部
２３センサ情報取得部
３１音声認識データベース
３２表示及び発話情報データベース
３３環境及びユーザ使用状況テーブル

Claims

プロセッサと、メモリと、音声入力装置と、音声出力装置と、タッチ入力が可能な表示部を含むタッチパネルを有する対話システムの制御方法であって、
前記プロセッサが、１以上の選択肢を含む問い合わせ情報を生成して、前記音声出力装置または前記タッチパネルから出力する問い合わせステップと、
前記プロセッサが、前記音声入力装置または前記タッチパネルから前記問い合わせ情報に対する回答を受け付ける入力ステップと、
前記プロセッサが、前記回答に対応する案内情報の候補を生成する案内情報候補生成ステップと、
前記プロセッサが、複数の条件が満たされた場合に、前記回答に基づくコメントを前記タッチパネル及び前記音声出力装置で出力する第２の対話モードを選択し、前記複数の条件の少なくとも一つが満たされていない場合に、前記タッチ入力を受け付ける領域である選択肢を前記タッチパネルに出力する第１の対話モードを選択する、モード切替ステップと、
前記プロセッサが、前記モード切替ステップで前記第２の対話モードが選択された場合に、前記第２の対話モードを使用して前記問い合わせステップを繰り返すステップと、
前記プロセッサが、前記モード切替ステップにおいて前記第１の対話モードが選択された場合に前記第１の対話モードを使用して前記音声出力装置または前記タッチパネルから前記案内情報の候補を出力する案内ステップと、を含み、
前記複数の条件は、前記案内情報の候補の数が所定の第１の閾値を超えること、及び、画像入力装置が撮影した利用者の画像の認識結果が、前記利用者の状況又は属性が所定の条件を満たすことを示すことを含む、ことを特徴とする対話システムの制御方法。
請求項１に記載の対話システムの制御方法であって、
前記複数の条件は、前記音声入力装置が検出した騒音の値が所定の第２の閾値以下であることを含むことを特徴とする対話システムの制御方法。
請求項１に記載の対話システムの制御方法であって、
前記複数の条件は、前記前回選択された対話モードが前記第２の対話モードであることを含むことを特徴とする対話システムの制御方法。
請求項１に記載の対話システムの制御方法であって、
前記複数の条件は、前記音声入力装置が受け付けた音声を音声認識した結果に基づく音声認識精度が、所定の第３の閾値を超えることを含むことを特徴とする対話システムの制御方法。
請求項１に記載の対話システムの制御方法であって、
前記複数の条件は、前記問い合わせ情報を生成するシナリオに設定された対話モードが前記第２の対話モードを示すことを含むことを特徴とする対話システムの制御方法。
請求項１に記載の対話システムの制御方法であって、
前記音声入力装置が受け付けた音声を音声認識した結果を前記タッチパネルに表示することを特徴とする対話システムの制御方法。
プロセッサと、メモリと、音声入力装置と、音声出力装置と、タッチ入力が可能な表示部を含むタッチパネルを有する対話システムであって、
１以上の選択肢を含む問い合わせ情報を生成して、前記音声出力装置または前記タッチパネルから出力する問い合わせ部と、
前記音声入力装置または前記タッチパネルから前記問い合わせ情報に対する回答を受け付ける入力部と、
前記回答に対応する案内情報の候補を生成する案内情報候補生成部と、
複数の条件が満たされた場合に、前記回答に基づくコメントを前記タッチパネル、及び前記音声出力装置で出力する第２の対話モードを選択し、前記複数の条件の少なくとも一つが満たされていない場合に、前記タッチ入力を受け付ける領域である選択肢を前記タッチパネルに出力する第１の対話モードを選択する、モード切替部と、
前記モード切替部によって前記第１の対話モードが選択された場合に前記第１の対話モードを使用して前記音声出力装置または前記タッチパネルから前記案内情報の候補を出力する案内部と、
を有し、
前記問い合わせ部は、前記モード切替部によって前記第２の対話モードが選択された場合に、前記第２の対話モードを使用して前記問い合わせを繰り返し、前記複数の条件は、前記案内情報の候補の数が所定の第１の閾値を超えること、及び、画像入力装置が撮影した利用者の画像の認識結果が前記利用者の状況又は属性は所定の条件を満たすことを示すことを含む、ことを特徴とする対話システム。
プロセッサと、メモリと、音声入力装置と、音声出力装置と、タッチ入力が可能な表示部を含むタッチパネルを有する計算機を制御させるためのプログラムであって、
１以上の選択肢を含む問い合わせ情報を生成して、前記音声出力装置または前記タッチパネルから出力する問い合わせステップと、
前記音声入力装置または前記タッチパネルから前記問い合わせ情報に対する回答を受け付ける入力ステップと、
前記回答に対応する案内情報の候補を生成する案内情報候補生成ステップと、
複数の条件が満たされた場合に、前記回答に基づくコメントを前記タッチパネル、及び前記音声出力装置で出力する第２の対話モードを選択し、前記複数の条件の少なくとも一つが満たされていない場合に、前記タッチ入力を受け付ける領域である選択肢を前記タッチパネルに出力する第１の対話モードを選択する、モード切替ステップと、
前記モード切替ステップで前記第２の対話モードが選択された場合に、前記第２の対話モードを使用して前記問い合わせステップを繰り返すステップと、
前記モード切替ステップにおいて前記第１の対話モードが選択された場合に前記第１の対話モードを使用して前記音声出力装置または前記タッチパネルから前記案内情報の候補を出力する案内ステップと、
を前記計算機に実行させ、
前記複数の条件は、前記案内情報の候補の数が所定の第１の閾値を超えること、及び、画像入力装置が撮影した利用者の画像の認識結果が前記利用者の状況又は属性は所定の条件を満たすことを示すことを含む、ことを特徴とするプログラム。