JP2018054926A

JP2018054926A - 音声対話装置および音声対話方法

Info

Publication number: JP2018054926A
Application number: JP2016191643A
Authority: JP
Inventors: 池野　篤司; Tokuji Ikeno; 篤司池野; 宗明島田; Muneaki Shimada; 浩太畠中; Kota HATANAKA; 西島　敏文; Toshifumi Nishijima; 敏文西島; 史憲片岡; Fuminori Kataoka; 刀根川　浩巳; Hiromi Tonegawa; 浩巳刀根川; 倫秀梅山; Norihide Umeyama
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2018-04-05

Abstract

【課題】人と対話する音声対話装置において、場所に応じた対話文を生成する。【解決手段】ユーザの位置情報を取得する位置取得手段と、音声によって前記ユーザと対話する音声対話手段と、前記位置情報と、前記位置情報に対応する場所の属性を表す属性情報とを関連付けて記憶する属性情報管理手段と、を有し、前記属性情報管理手段は、前記音声対話手段が前記ユーザと行った対話の内容に基づいて、前記位置情報に対応する属性情報を生成し、前記音声対話手段は、前記位置情報に対応する前記属性情報が前記属性情報管理手段に記憶されている場合に、当該属性情報を利用して前記ユーザとの対話を行う。【選択図】図１

Description

本発明は、音声によって人と対話する装置に関する。

ユーザが発した音声を認識し、対話をすることによって、様々な情報を提供する音声対話装置が開発されている。例えば、マイクによって入力された音声を処理し、入力に対する応答を音声で返すコミュニケーションロボットが実用化されている。

また、音声対話装置が能動的に情報を収集し、対話において利用する試みが行われている。例えば、位置情報を取得し、対話文の生成において利用することで、ユーザがいる場所に関する話題を提供することが可能になり、対話のバリエーションが豊かになる。

特開２０００−０２００９０号公報

音声対話装置が位置情報に応じた対話文を生成する場合、取得した場所がどのような場所であるか（例えば、ユーザの自宅、職場など）という情報を装置に記憶させておく必要がある。このため、例えば、特定の場所に予めタグ付けを行うといった方法が考えられる。しかし、当該方法では、予め設定した場所以外を装置に認識させることができない。

本発明は上記の課題を考慮してなされたものであり、人と対話する音声対話装置において、場所に応じた対話文を生成することを目的とする。

本発明に係る音声対話装置は、
ユーザの位置情報を取得する位置取得手段と、音声によって前記ユーザと対話する音声対話手段と、前記位置情報と、前記位置情報に対応する場所の属性を表す属性情報とを関連付けて記憶する属性情報管理手段と、を有し、前記属性情報管理手段は、前記音声対話手段が前記ユーザと行った対話の内容に基づいて、前記位置情報に対応する属性情報を生成し、前記音声対話手段は、前記位置情報に対応する前記属性情報が前記属性情報管理手段に記憶されている場合に、当該属性情報を利用して前記ユーザとの対話を行うことを特徴とする。

記憶手段は、位置情報と、属性情報とを関連付けて記憶する手段である。位置情報は、座標によって表された情報であってもよいし、地域（例えば、メッシュや行政区分などによって分類された領域）によって表された情報であてもよい。
また、属性情報は、位置情報によって表された場所の属性、すなわち、当該場所がどのような性格を有する場所であるかを表す情報である。属性情報は、例えば、「自宅」「職場」「学校」など、予め定義された値であってもよい。また、例えば「ラーメンがおいしい店」といったような、ユーザによって作成された情報であってもよい。場所の属性を表すものであれば、属性情報はどのような情報であってもよい。

属性情報は、装置とユーザとが行った対話の内容に基づいて生成される。例えば、装置との対話の中で、ある地点Ａについてユーザが言及した場合に、当該内容に基づいて、地
点Ａに対応する属性情報を生成することができる。また、地点Ａについて装置がユーザに質問を行い、得られた回答に基づいて、地点Ａに対応する属性情報を生成してもよい。
音声対話手段は、以前の対話において生成された属性情報がある場合、当該情報を利用して対話を行う。これにより、対話のバリエーションを増やすことができる。

また、前記属性情報管理手段は、前記ユーザが、現在位置に対応する場所に言及する発話を行った場合に、当該発話の内容に基づいて前記属性情報を生成することを特徴としてもよい。

現在位置に対応する場所を説明する発話を行った場合とは、例えば、ユーザが現在位置に対応する場所についての説明を口頭で行った場合や、場所に関する問い掛けに対して返答した場合などである。このような場合、当該ユーザが行った発話の内容に基づいて属性情報を生成することができる。

また、前記属性情報管理手段は、前記位置情報と前記属性情報をユーザごとに記憶し、前記音声対話手段は、対話相手であるユーザに対応する属性情報を取得することを特徴としてもよい。

位置情報が同じ場所を示していても、ユーザによって当該場所の属性が異なる場合がある。よって、属性情報をユーザごとに記憶し、対話相手であるユーザに応じた属性情報を取得するようにすることが好ましい。

また、前記属性情報管理手段は、前記ユーザから取得した発話の内容に基づいて、前記取得した位置情報に対応する場所が、前記ユーザの自宅または職場であることを推定することを特徴としてもよい。

例えば、ユーザが「行ってきます」「ただいま」といった発話を行った場合、対応する場所は当該ユーザの自宅であることが推定できる。また、仕事や勤務、休憩に関する発話を行った場合、対応する場所は当該ユーザの職場であることが推定できる。

また、本発明に係る音声対話装置は、前記位置情報に対応する住所、または、前記位置情報に対応する場所の周辺にあるランドマークに関する情報を取得する情報取得手段をさらに有し、前記属性情報管理手段は、前記情報取得手段が取得した情報に基づいて属性情報を生成することを特徴としてもよい。

住所あるいは周辺のランドマークに関する情報に基づいて、属性情報を自動的に生成するようにしてもよい。なお、これらの情報に、場所に対応する属性を説明する情報を付加してもよい。例えば、店舗の名称とジャンルが定義された地図情報に基づいて、属性情報を生成するようにしてもよい。

また、前記情報取得手段が取得した情報に基づいて属性情報が生成できなかった場合に、前記ユーザに問い合わせを行い、前記属性情報管理手段が、得られた応答に基づいて属性情報を生成することを特徴としてもよい。

予め記憶された情報によって属性情報を生成することができなかった場合、ユーザに問い合わせを行うようにしてもよい。例えば、「ここはどんな場所なの？」といった問い合わせを行い、応答に基づいて属性情報を生成するようにしてもよい。

また、前記属性情報管理手段は、前記音声対話手段が行った対話の内容に、前記ユーザが位置する場所がどのような性質を有する場所であるかを表す情報が含まれる場合に、当
該情報に基づいて、前記ユーザが位置する場所に対応する属性情報を生成することを特徴としてもよい。

かかる構成によると、ユーザとの対話を通して属性情報を自動的に収集することができる。

なお、本発明は、上記手段の少なくとも一部を含む音声対話装置として特定することができる。また、前記音声対話装置が行う音声対話方法や、前記音声対話方法をコンピュータに実行させるプログラムとして特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

本発明によれば、人と対話する音声対話装置において、場所に応じた対話文を生成することができる。

第一の実施形態に係る音声対話システムのシステム構成図。ロボット１０を説明する図。第一の実施形態における属性情報テーブルの例。ロボット１０、制御装置２０、音声認識サーバ３０間のデータフロー図。第二の実施形態における属性情報テーブルの例。第二の実施形態における処理のフローチャート図。第二の実施形態に係る音声対話システムのシステム構成図。第三の実施形態における処理のフローチャート図。

以下、本発明の好ましい実施形態について図面を参照しながら説明する。本実施形態に係る音声対話システムは、音声によってユーザと対話するシステムである。

（第一の実施形態）
<システム構成>
図１は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット１０、制御装置２０、音声認識サーバ３０から構成される。

ロボット１０は、スピーカやマイク等を有しており、ユーザとのインタフェースを担う装置である。ロボット１０は、人型やキャラクター型であってもよいし、他の形状・形態であってもよい。例えば、コミュニケーションロボットに組み込まれるコンピュータ等であってもよい。
制御装置２０は、ロボット１０に対して命令を発行する装置である。本実施形態では、ロボット１０はユーザインタフェースとしてのみ機能し、動作の制御は制御装置２０が行う。
また、音声認識サーバ３０は、取得した音声データに対して音声認識を行い、認識結果であるテキストを出力するサーバ装置である。

まず、ロボット１０について説明する。ロボット１０は、音声入力部１１、近距離通信部１２、音声出力部１３、画像取得部１４から構成される。

音声入力部１１は、ユーザが発した音声を取得する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号（以下、音声データ）に変換する。取得した音声デー
タは、後述する近距離通信部１２を介して制御装置２０へ送信される。

近距離通信部１２は、制御装置２０と近距離無線通信を行う手段である。本実施形態では、近距離通信部１２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格を利用して通信を行う。近距離通信部１２は、ペアリング先となる制御装置２０に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Ｂｌｕｅｔｏｏｔｈ規格は、ＩＥＥＥ８０２．１５．１とも呼ばれる。

音声出力部１３は、ユーザに提供する音声を出力する手段である。具体的には、内蔵されたスピーカを用いて、制御装置２０から送信された音声データを出力する。

画像取得部１４は、内蔵されたカメラを用いて、ロボット１０の周辺を撮像して画像を取得する手段である。カメラは、図２に示したように、ロボットの前方を向いて設置されているが、他の方位を向いて設置されていてもよい。画像取得部１４が取得した画像は、近距離通信部１２を介して制御装置２０へ送信される。

次に、制御装置２０について説明する。制御装置２０は、ロボット１０の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置２０は、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

制御装置２０は、近距離通信部２１、通信部２２、制御部２３、位置情報取得部２４、属性設定部２５、記憶部２６、応答生成部２７から構成される。

近距離通信部２１が有する機能は、前述した近距離通信部１２と同様であるため、詳細な説明は省略する。
通信部２２は、通信回線（例えば無線ＬＡＮや携帯電話網）を介してネットワークにアクセスすることで、音声認識サーバ３０との通信を行う手段である。

制御部２３は、制御装置２０が行う制御全般を司る手段である。具体的には、（１）ロボット１０から音声データおよび画像データを取得する処理と、（２）音声認識サーバ３０を用いて音声認識を行う処理と、（３）ユーザに提供する応答文を生成する処理と、（４）生成した応答文を音声に変換し、ロボット１０を介して出力する処理を実行する。詳細な処理内容については後述する。

位置情報取得部２４は、装置に備えられたＧＰＳモジュール（不図示）から、制御装置２０の現在位置（緯度および経度）を取得する手段である。

属性設定部２５は、位置情報取得部２４が取得した位置情報に基づいて、対応する属性情報を生成する手段であり、記憶部２６は、生成した属性情報を記憶する手段である。

属性情報とは、対応する場所がどのような属性（性格）を有する場所であるかを示す情報であり、記憶部２６にテーブル形式で記憶される。図３に、記憶部２６に記憶される属性情報テーブルの例を示す。本実施形態では、位置情報、ユーザＩＤ、属性情報がそれぞれ関連付けられて記憶される。図３の例では、例えば、（緯度Ｎ₁，経度Ｅ₁）という地点に、Ｕ００１というＩＤを持つユーザの自宅がある旨が記録されている。属性情報を生成する方法については後述する。

応答生成部２７は、ユーザが行った発話に対する応答を生成する手段である。具体的には、以下の情報に基づいて、ユーザに提供する応答文を生成する。
（１）音声認識を実行した結果得られるテキスト（制御部２３から取得）
（２）対話中であるユーザの識別子（制御部２３から取得）
（３）装置の位置情報に対応する属性情報（位置情報取得部２４および記憶部２６から取得）
生成された応答文は、音声合成機能によって音声データに変換され、ロボット１０が有する音声出力部１３を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。

音声認識サーバ３０は、制御装置２０から送信された音声データに対して音声認識を実行する装置であり、通信部３１および音声認識部３２からなる。
通信部３１が有する機能は、前述した通信部２２と同様であるため、詳細な説明は省略する。

音声認識部３２は、制御装置２０から送信された音声データ（すなわち、ロボット１０が取得した音声）に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部３２には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部２７へ送信される。

音声認識サーバ３０も、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

<データフロー>
次に、図１に示した各装置が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図４を参照しながら説明する。

まず、ステップＳ１１で、ロボット１０が有する音声入力部１１が、ユーザが発した音声を取得する。取得した音声はデータに変換され、近距離通信部を介して、制御装置２０が有する制御部２３へ送信される。また、制御部２３は、取得した音声データを、音声認識サーバ３０が有する音声認識部３２へ転送する。

次に、ステップＳ１２で、ロボット１０が有する画像取得部１４が、カメラを用いて画像を取得する。取得した画像は、近距離通信部１２を介して、制御装置２０が有する制御部２３へ送信される。

一方、音声データを取得した音声認識サーバ３０（音声認識部３２）は、取得した音声データに対して音声認識を行い、テキストに変換する（ステップＳ１３）。音声認識の結果得られたテキストは、制御装置２０が有する制御部２３に送信され、その後、応答生成部２７および属性設定部２５へ送信される。

また、制御部２３は、取得した画像に対して認識処理を行う（ステップＳ１４）。本実施形態では、画像から人の顔を検出し、特徴量に変換することでユーザを識別する処理を行う。画像に含まれる顔を検出し、識別する方法は公知であるため、詳細な説明は省略する。識別したユーザに対応する識別子は、応答生成部２７へ送信される。なお、本実施形
態ではユーザの個人識別を行う例を挙げるが、顔やユーザ以外を識別してもよい。

なお、ステップＳ１１とＳ１３、および、ステップＳ１２とＳ１４は任意の順序で実行することができる。

次に、ステップＳ１５で、制御部２３が、位置情報取得部２４を介して位置情報（すなわち、装置の現在位置を表す情報）を取得する。
そして、記憶部２６に記憶された属性情報テーブルを参照し、取得した位置に対応する属性情報が記録されているか否かを確認する（ステップＳ１６）。
なお、ここでは、属性情報テーブルに記録されているレコードを、属性情報をキーとしてグループ化し、グループごとに位置情報の平均値を取得する。そして、現在位置と、算出した平均値とを比較し、所定の距離（例えば５０メートル）以内にある場合に、対応するグループ（例えば「自宅」というグループ）と一致するものとみなす。
ここで、現在位置に対応する属性情報が属性情報テーブルに記録されていた場合、対応する属性情報を取得して応答生成部２７に送信する。対応する属性情報が記録されていなかった場合、属性情報が存在しない旨を応答生成部２７に送信する。

次に、ステップＳ１７で、応答生成部２７が、（１）音声認識の結果得られた発話の内容と、（２）制御部２３が特定したユーザの識別子と、（３）ステップＳ１６で取得した属性情報（取得できた場合のみ）に基づいて応答文を生成する。前述したように、応答文は、自装置が有する対話辞書（対話シナリオ）を用いて生成してもよいし、外部にある情報ソース（データベースサーバやウェブサーバ）を用いて生成してもよい。

本実施形態では、例えば、ユーザの識別子が「Ｕ００１」であって、取得した属性情報が「自宅」であった場合、当該ユーザが自宅にいるものとして応答文を生成する（ただし、必ずしも毎回場所に言及する必要はない）。また、取得した属性情報が「職場」であった場合、当該ユーザが職場にいるものとして応答文を生成する。なお、ここでは、属性情報が「自宅」または「職場」であるものとしたが、予め位置情報に対してラベリングできるものであれば、属性情報はどのようなものであってもよい。

生成された応答文は、応答生成部２７によって音声データに変換され、ロボット１０に送信される。その後、音声出力部１３を介して音声データの再生が行われる（ステップＳ１８）。

次に、ステップＳ１９で、属性設定部２５が、ユーザから得た直前の発話の内容から属性情報の抽出を試みる。例えば、ユーザから得られた発話が「行ってきます」や「ただいま」といったものであった場合、装置がユーザの自宅にあることが推定できる。また、ユーザから得られた発話が、仕事や業務に関連するものであった場合、装置がユーザの職場にあることが推定できる。この他にも、ユーザが現在位置に関する説明を自発的に行った場合（例えば、「ここが僕の会社なんだ」等）、当該説明に基づいて属性情報を抽出してもよい。

ユーザが行った発話から属性情報（例えば「自宅」や「職場」）が抽出できた場合、ステップＳ１９で、当該情報と位置情報とを関連付けて、属性情報テーブルに新しいレコードとして記録する。ここで記録された情報は、次回以降のステップＳ１６における処理で利用される。

以上説明したように、本実施形態に係る音声対話システムは、ユーザの発話に基づいて、位置情報に対応する属性情報を生成し、位置情報と関連付けて記憶する。これにより、ユーザのいる場所がどのような性質を有する場所であるかを装置が認識することができ、
応答のバリエーションをより豊かなものにすることができる。

なお、第一の実施形態では、ユーザが自発的に行った発話に基づいて属性情報を設定したが、システムがユーザに対して問い掛けを行ってもよい。例えば、夜間に長時間滞在している場所があった場合、「ここは貴方のおうちなの？」といった問い掛けを行い、応答に基づいて「自宅」という属性情報を設定するようにしてもよい。また、「今日は会社に行くの？」といった問い掛けに対する応答に基づいて、自宅と職場が別々であることを識別してもよい。

また、属性情報テーブルに記録されたレコードを、周期的に整理するようにしてもよい。例えば、情報が古くなった場合、自動的に削除するなどしてもよい。

（第二の実施形態）
第一の実施形態では、属性情報に、「自宅」や「職場」など、予め定義された値を設定した。これに対し、第二の実施形態は、ユーザの発話に基づいて自由な値を設定する実施形態である。

図５は、第二の実施形態において利用される属性情報テーブルの例である。本実施形態では、属性情報テーブルが、「種別」というフィールドを持っている。種別が「固定」である場合、第一の実施形態のように、「自宅」や「職場」といったような、予め定義された値が属性情報に設定される。一方、種別が「自由」である場合、属性情報には、ユーザの発話から抽出された自然文が設定される。以降、種別が「固定」である属性情報を固定タグと称し、種別が「自由」である属性情報を自由タグと称する。

図６（Ａ）は、第二の実施形態におけるステップＳ１６の動作を説明するフローチャートである。第二の実施形態は、固定タグと自由タグのそれぞれについて属性情報を取得するという点において、第一の実施形態と相違する。
ステップＳ１６１で行われる処理は、種別が「固定」であるレコードを抽出するという点を除き、第一の実施形態と同様である。
また、ステップＳ１６２で行われる処理は、種別が「自由」であるレコードを抽出するという点を除き、第一の実施形態と同様である。ただし、後述するように、自由タグの場合、同一の場所に対して複数のレコードを生成しないため、レコードのグルーピングは行わない。
ステップＳ１６１およびＳ１６２のいずれかにおいて属性情報が取得できた場合、属性情報を、種別を表すデータとともに応答生成部２７に送信する。なお、固定タグと自由タグが両方取得できた場合、いずれかを選択してもよいし、双方を選択してもよい。

図６（Ｂ）は、第二の実施形態におけるステップＳ１９の動作を説明するフローチャートである。第二の実施形態では、ステップＳ１９にて、固定タグと自由タグのそれぞれについて属性情報の生成を試みる。例えば、ユーザが「ここは東京ドームだよ」という発話を行った場合を考える。この場合、「東京ドーム」に対応する固定タグが無いため、ステップＳ１９１はスキップされ、ステップＳ１９２で、「東京ドーム」という内容の自由タグが生成される（図５，ＩＤ：６）。なお、ステップＳ１９１で固定タグが生成された場合、ステップＳ１９２はスキップしてもよいし、双方を実行してもよい。

なお、自由タグを生成した場合であって、一致する位置情報（一致するとみなせる程度に近接している場合を含む）が既に存在していた場合、該当するレコードは上書きされる。前述した例で、ユーザが「ここは野球をするところだよ」という発話を行った場合、図５のＩＤ：７のレコードが生成される。ここで、ＩＤ：６のレコードが既に存在していた場合、当該レコードは、ＩＤ：７の内容によって上書きされる。

ここで、ステップＳ１６（Ｓ１６２）で自由タグを取得した場合の動作について説明する。
例えば、ステップＳ１６２で、ＩＤ：６のレコードが存在していた場合、「東京ドーム」という自由タグが抽出され、応答文の生成に利用される。例えば、東京ドームをホームとするプロ野球チームに関する話題などを生成してもよい。また、ステップＳ１６２で、ＩＤ：７のレコードが存在していた場合、「野球をするところ」という自由タグが抽出され、応答文の生成に利用される。応答文は、「ここは野球をするところなの？」といったものであってもよいし、自由タグを解析することでキーワードを取得し、取得したキーワードを用いて生成されてもよい。例えば、「野球をするところ」という文章に対して形態素解析を行い、「野球」「する」といったキーワードを抽出したうえで、当該キーワードを用いて、「野球をしたことはある？」といった応答文を生成してもよい。

（第三の実施形態）
第一および第二の実施形態では、ユーザが行った発話に基づいて属性情報を生成した。すなわち、属性情報を生成するためには、ユーザに発話させることが必要であった。
これに対し、第三の実施形態は、制御装置２０が場所についてのデータベースを予め保持しており、当該データベースを利用して属性情報を自動的に生成する実施形態である。また、第三の実施形態では、属性情報の生成に失敗した場合に、ユーザへの問い掛けを行い、得られた応答に基づいて属性情報を生成する。

図７は、第三の実施形態に係る対話システムのシステム構成図である。第三の実施形態は、制御装置２０が情報収集部２８をさらに有しているという点において、第一の実施形態と相違する。

情報収集部２８は、（１）取得した位置情報を住所に変換する機能（逆ジオコーディング機能）と、（２）ランドマークに関する情報（以下、ランドマーク情報）が記録されたデータベースを参照することで、ある場所の周辺に存在するランドマーク情報を収集する機能と、を有する手段である。

図８は、第三の実施形態におけるステップＳ１９の動作を説明するフローチャートである。
ステップＳ１９の処理が開始されると、まず、ステップＳ１９Ａで、属性設定部２５が位置情報を情報収集部２８に送信し、情報収集部２８が、逆ジオコーディング機能を利用して位置情報を住所に変換し、かつ、ランドマーク情報を参照することで、周辺に存在するランドマークの一覧を収集する。取得した情報は、属性設定部２５に送信される。

次に、ステップＳ１９Ｂで、得られた住所に基づいて属性情報の生成を試みる。例えば、場所の性質が住所によって表現できる場合、ステップＳ１９Ｂで属性情報が生成される。次に、ステップＳ１９Ｃで、得られたランドマーク情報に基づいて属性情報の生成を試行する。なお、ランドマーク情報とは、ランドマークの名称を集めたデータであってもよいし、当該ランドマークのジャンルや詳細な情報などを含んだデータであってもよい。
これらの結果、いずれかによって属性情報の生成に成功した場合、ステップＳ１９Ｅで属性情報テーブルを更新して処理は終了する（なお、種別は自由タグとなる）。

一方、属性情報が生成できなかった場合、前述した方法によって、ユーザの発話に基づいて属性情報を生成する。なお、この場合、ユーザに対する問い掛けを追加で行い、次の会話ターンで回答を取得してもよい。例えば、近くに何らかの建物があるという情報のみが得られ、どのような建物であるかが特定できない場合、ユーザに対して、当該建物の詳細について問い掛けてもよい。例示したフローチャートは、一回の会話ターンで属性情報
を生成する例であるが、必要に応じて、複数の会話ターンを通して属性情報を生成するようにしてもよい。

以上説明したように、第三の実施形態によると、より効率よく属性情報を収集することができる。

（変形例）
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。

例えば、実施形態の説明では、音声認識サーバ３０が音声認識を行ったが、音声認識を行う手段を制御装置２０に持たせてもよい。また、各実施形態の説明では、応答文の生成を制御装置２０が行ったが、応答文の生成を音声認識サーバ３０が行うようにしてもよい。
また、実施形態の説明では、ロボット１０と制御装置２０を別々の装置としたが、両者は一つの装置であってもよい。

また、実施形態の説明では、ユーザが行った発話に対してシステムが応答を返す形態について述べたが、応答文の代わりにシステムが自発的に対話文を生成して提供するようにしてもよい。この場合、ステップＳ１１およびＳ１３を省略することも可能である。また、画像を取得および解析するステップは、本発明にとって必須構成ではない。

また、実施形態の説明では、自由タグを生成する場合、同一の場所に対して複数のレコードを生成しないものとしたが、固定タグと同様に、同一の場所に対して複数のレコードを生成するようにしてもよい。この場合、ステップＳ１６２の処理において、属性情報として設定されている自由タグをキーとしてグルーピングを行い、グループに含まれる複数の位置情報に基づいて、取得した位置に対応する属性情報が存在するか否かを判定するようにしてもよい。

１０・・・ロボット
１１・・・音声入力部
１２，２１・・・近距離通信部
１３・・・音声出力部
１４・・・画像取得部
２０・・・制御装置
２２，３１・・・通信部
２３・・・制御部
２４・・・位置情報取得部
２５・・・属性設定部
２６・・・記憶部
２７・・・応答設定部

Claims

ユーザの位置情報を取得する位置取得手段と、
音声によって前記ユーザと対話する音声対話手段と、
前記位置情報と、前記位置情報に対応する場所の属性を表す属性情報とを関連付けて記憶する属性情報管理手段と、を有し、
前記属性情報管理手段は、前記音声対話手段が前記ユーザと行った対話の内容に基づいて、前記位置情報に対応する属性情報を生成し、
前記音声対話手段は、前記位置情報に対応する前記属性情報が前記属性情報管理手段に記憶されている場合に、当該属性情報を利用して前記ユーザとの対話を行う、
音声対話装置。
前記属性情報管理手段は、前記ユーザが、現在位置に対応する場所に言及する発話を行った場合に、当該発話の内容に基づいて前記属性情報を生成する、
請求項１に記載の音声対話装置。
前記属性情報管理手段は、前記位置情報と前記属性情報をユーザごとに記憶し、
前記音声対話手段は、対話相手であるユーザに対応する属性情報を取得する、
請求項１または２に記載の音声対話装置。
前記属性情報管理手段は、前記ユーザから取得した発話の内容に基づいて、前記取得した位置情報に対応する場所が、前記ユーザの自宅または職場であることを推定する、
請求項３に記載の音声対話装置。
前記位置情報に対応する住所、または、前記位置情報に対応する場所の周辺にあるランドマークに関する情報を取得する情報取得手段をさらに有し、
前記属性情報管理手段は、前記情報取得手段が取得した情報に基づいて属性情報を生成する、
請求項１から４のいずれかに記載の音声対話装置。
前記情報取得手段が取得した情報に基づいて属性情報が生成できなかった場合に、前記ユーザに問い合わせを行い、前記属性情報管理手段が、得られた応答に基づいて属性情報を生成する、
請求項５に記載の音声対話装置。
前記属性情報管理手段は、前記音声対話手段が行った対話の内容に、前記ユーザが位置する場所がどのような性質を有する場所であるかを表す情報が含まれる場合に、当該情報に基づいて、前記ユーザが位置する場所に対応する属性情報を生成する、
請求項１から６のいずれかに記載の音声対話装置。
ユーザの位置情報を取得する位置取得ステップと、
音声によって前記ユーザと対話する音声対話ステップと、
前記位置情報と、前記位置情報に対応する場所の属性を表す属性情報とを関連付けて記憶する属性情報管理ステップと、を含み、
前記属性情報管理ステップでは、前記音声対話手段が前記ユーザと行った対話の内容に基づいて、前記位置情報に対応する属性情報を生成し、
前記音声対話ステップでは、前記位置情報に対応する前記属性情報が記憶されている場合に、当該属性情報を利用して前記ユーザとの対話を行う、
音声対話方法。
請求項８に記載の音声対話方法をコンピュータに実行させるプログラム。