JP2018054926A - 音声対話装置および音声対話方法 - Google Patents
音声対話装置および音声対話方法 Download PDFInfo
- Publication number
- JP2018054926A JP2018054926A JP2016191643A JP2016191643A JP2018054926A JP 2018054926 A JP2018054926 A JP 2018054926A JP 2016191643 A JP2016191643 A JP 2016191643A JP 2016191643 A JP2016191643 A JP 2016191643A JP 2018054926 A JP2018054926 A JP 2018054926A
- Authority
- JP
- Japan
- Prior art keywords
- attribute information
- user
- information
- voice
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】人と対話する音声対話装置において、場所に応じた対話文を生成する。【解決手段】ユーザの位置情報を取得する位置取得手段と、音声によって前記ユーザと対話する音声対話手段と、前記位置情報と、前記位置情報に対応する場所の属性を表す属性情報とを関連付けて記憶する属性情報管理手段と、を有し、前記属性情報管理手段は、前記音声対話手段が前記ユーザと行った対話の内容に基づいて、前記位置情報に対応する属性情報を生成し、前記音声対話手段は、前記位置情報に対応する前記属性情報が前記属性情報管理手段に記憶されている場合に、当該属性情報を利用して前記ユーザとの対話を行う。【選択図】図1
Description
本発明は、音声によって人と対話する装置に関する。
ユーザが発した音声を認識し、対話をすることによって、様々な情報を提供する音声対話装置が開発されている。例えば、マイクによって入力された音声を処理し、入力に対する応答を音声で返すコミュニケーションロボットが実用化されている。
また、音声対話装置が能動的に情報を収集し、対話において利用する試みが行われている。例えば、位置情報を取得し、対話文の生成において利用することで、ユーザがいる場所に関する話題を提供することが可能になり、対話のバリエーションが豊かになる。
音声対話装置が位置情報に応じた対話文を生成する場合、取得した場所がどのような場所であるか(例えば、ユーザの自宅、職場など)という情報を装置に記憶させておく必要がある。このため、例えば、特定の場所に予めタグ付けを行うといった方法が考えられる。しかし、当該方法では、予め設定した場所以外を装置に認識させることができない。
本発明は上記の課題を考慮してなされたものであり、人と対話する音声対話装置において、場所に応じた対話文を生成することを目的とする。
本発明に係る音声対話装置は、
ユーザの位置情報を取得する位置取得手段と、音声によって前記ユーザと対話する音声対話手段と、前記位置情報と、前記位置情報に対応する場所の属性を表す属性情報とを関連付けて記憶する属性情報管理手段と、を有し、前記属性情報管理手段は、前記音声対話手段が前記ユーザと行った対話の内容に基づいて、前記位置情報に対応する属性情報を生成し、前記音声対話手段は、前記位置情報に対応する前記属性情報が前記属性情報管理手段に記憶されている場合に、当該属性情報を利用して前記ユーザとの対話を行うことを特徴とする。
ユーザの位置情報を取得する位置取得手段と、音声によって前記ユーザと対話する音声対話手段と、前記位置情報と、前記位置情報に対応する場所の属性を表す属性情報とを関連付けて記憶する属性情報管理手段と、を有し、前記属性情報管理手段は、前記音声対話手段が前記ユーザと行った対話の内容に基づいて、前記位置情報に対応する属性情報を生成し、前記音声対話手段は、前記位置情報に対応する前記属性情報が前記属性情報管理手段に記憶されている場合に、当該属性情報を利用して前記ユーザとの対話を行うことを特徴とする。
記憶手段は、位置情報と、属性情報とを関連付けて記憶する手段である。位置情報は、座標によって表された情報であってもよいし、地域(例えば、メッシュや行政区分などによって分類された領域)によって表された情報であてもよい。
また、属性情報は、位置情報によって表された場所の属性、すなわち、当該場所がどのような性格を有する場所であるかを表す情報である。属性情報は、例えば、「自宅」「職場」「学校」など、予め定義された値であってもよい。また、例えば「ラーメンがおいしい店」といったような、ユーザによって作成された情報であってもよい。場所の属性を表すものであれば、属性情報はどのような情報であってもよい。
また、属性情報は、位置情報によって表された場所の属性、すなわち、当該場所がどのような性格を有する場所であるかを表す情報である。属性情報は、例えば、「自宅」「職場」「学校」など、予め定義された値であってもよい。また、例えば「ラーメンがおいしい店」といったような、ユーザによって作成された情報であってもよい。場所の属性を表すものであれば、属性情報はどのような情報であってもよい。
属性情報は、装置とユーザとが行った対話の内容に基づいて生成される。例えば、装置との対話の中で、ある地点Aについてユーザが言及した場合に、当該内容に基づいて、地
点Aに対応する属性情報を生成することができる。また、地点Aについて装置がユーザに質問を行い、得られた回答に基づいて、地点Aに対応する属性情報を生成してもよい。
音声対話手段は、以前の対話において生成された属性情報がある場合、当該情報を利用して対話を行う。これにより、対話のバリエーションを増やすことができる。
点Aに対応する属性情報を生成することができる。また、地点Aについて装置がユーザに質問を行い、得られた回答に基づいて、地点Aに対応する属性情報を生成してもよい。
音声対話手段は、以前の対話において生成された属性情報がある場合、当該情報を利用して対話を行う。これにより、対話のバリエーションを増やすことができる。
また、前記属性情報管理手段は、前記ユーザが、現在位置に対応する場所に言及する発話を行った場合に、当該発話の内容に基づいて前記属性情報を生成することを特徴としてもよい。
現在位置に対応する場所を説明する発話を行った場合とは、例えば、ユーザが現在位置に対応する場所についての説明を口頭で行った場合や、場所に関する問い掛けに対して返答した場合などである。このような場合、当該ユーザが行った発話の内容に基づいて属性情報を生成することができる。
また、前記属性情報管理手段は、前記位置情報と前記属性情報をユーザごとに記憶し、前記音声対話手段は、対話相手であるユーザに対応する属性情報を取得することを特徴としてもよい。
位置情報が同じ場所を示していても、ユーザによって当該場所の属性が異なる場合がある。よって、属性情報をユーザごとに記憶し、対話相手であるユーザに応じた属性情報を取得するようにすることが好ましい。
また、前記属性情報管理手段は、前記ユーザから取得した発話の内容に基づいて、前記取得した位置情報に対応する場所が、前記ユーザの自宅または職場であることを推定することを特徴としてもよい。
例えば、ユーザが「行ってきます」「ただいま」といった発話を行った場合、対応する場所は当該ユーザの自宅であることが推定できる。また、仕事や勤務、休憩に関する発話を行った場合、対応する場所は当該ユーザの職場であることが推定できる。
また、本発明に係る音声対話装置は、前記位置情報に対応する住所、または、前記位置情報に対応する場所の周辺にあるランドマークに関する情報を取得する情報取得手段をさらに有し、前記属性情報管理手段は、前記情報取得手段が取得した情報に基づいて属性情報を生成することを特徴としてもよい。
住所あるいは周辺のランドマークに関する情報に基づいて、属性情報を自動的に生成するようにしてもよい。なお、これらの情報に、場所に対応する属性を説明する情報を付加してもよい。例えば、店舗の名称とジャンルが定義された地図情報に基づいて、属性情報を生成するようにしてもよい。
また、前記情報取得手段が取得した情報に基づいて属性情報が生成できなかった場合に、前記ユーザに問い合わせを行い、前記属性情報管理手段が、得られた応答に基づいて属性情報を生成することを特徴としてもよい。
予め記憶された情報によって属性情報を生成することができなかった場合、ユーザに問い合わせを行うようにしてもよい。例えば、「ここはどんな場所なの?」といった問い合わせを行い、応答に基づいて属性情報を生成するようにしてもよい。
また、前記属性情報管理手段は、前記音声対話手段が行った対話の内容に、前記ユーザが位置する場所がどのような性質を有する場所であるかを表す情報が含まれる場合に、当
該情報に基づいて、前記ユーザが位置する場所に対応する属性情報を生成することを特徴としてもよい。
該情報に基づいて、前記ユーザが位置する場所に対応する属性情報を生成することを特徴としてもよい。
かかる構成によると、ユーザとの対話を通して属性情報を自動的に収集することができる。
なお、本発明は、上記手段の少なくとも一部を含む音声対話装置として特定することができる。また、前記音声対話装置が行う音声対話方法や、前記音声対話方法をコンピュータに実行させるプログラムとして特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、人と対話する音声対話装置において、場所に応じた対話文を生成することができる。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。本実施形態に係る音声対話システムは、音声によってユーザと対話するシステムである。
(第一の実施形態)
<システム構成>
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10、制御装置20、音声認識サーバ30から構成される。
<システム構成>
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10、制御装置20、音声認識サーバ30から構成される。
ロボット10は、スピーカやマイク等を有しており、ユーザとのインタフェースを担う装置である。ロボット10は、人型やキャラクター型であってもよいし、他の形状・形態であってもよい。例えば、コミュニケーションロボットに組み込まれるコンピュータ等であってもよい。
制御装置20は、ロボット10に対して命令を発行する装置である。本実施形態では、ロボット10はユーザインタフェースとしてのみ機能し、動作の制御は制御装置20が行う。
また、音声認識サーバ30は、取得した音声データに対して音声認識を行い、認識結果であるテキストを出力するサーバ装置である。
制御装置20は、ロボット10に対して命令を発行する装置である。本実施形態では、ロボット10はユーザインタフェースとしてのみ機能し、動作の制御は制御装置20が行う。
また、音声認識サーバ30は、取得した音声データに対して音声認識を行い、認識結果であるテキストを出力するサーバ装置である。
まず、ロボット10について説明する。ロボット10は、音声入力部11、近距離通信部12、音声出力部13、画像取得部14から構成される。
音声入力部11は、ユーザが発した音声を取得する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声デー
タは、後述する近距離通信部12を介して制御装置20へ送信される。
タは、後述する近距離通信部12を介して制御装置20へ送信される。
近距離通信部12は、制御装置20と近距離無線通信を行う手段である。本実施形態では、近距離通信部12は、Bluetooth(登録商標)規格を利用して通信を行う。近距離通信部12は、ペアリング先となる制御装置20に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Bluetooth規格は、IEEE802.15.1とも呼ばれる。
音声出力部13は、ユーザに提供する音声を出力する手段である。具体的には、内蔵されたスピーカを用いて、制御装置20から送信された音声データを出力する。
画像取得部14は、内蔵されたカメラを用いて、ロボット10の周辺を撮像して画像を取得する手段である。カメラは、図2に示したように、ロボットの前方を向いて設置されているが、他の方位を向いて設置されていてもよい。画像取得部14が取得した画像は、近距離通信部12を介して制御装置20へ送信される。
次に、制御装置20について説明する。制御装置20は、ロボット10の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置20は、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
制御装置20は、近距離通信部21、通信部22、制御部23、位置情報取得部24、属性設定部25、記憶部26、応答生成部27から構成される。
近距離通信部21が有する機能は、前述した近距離通信部12と同様であるため、詳細な説明は省略する。
通信部22は、通信回線(例えば無線LANや携帯電話網)を介してネットワークにアクセスすることで、音声認識サーバ30との通信を行う手段である。
通信部22は、通信回線(例えば無線LANや携帯電話網)を介してネットワークにアクセスすることで、音声認識サーバ30との通信を行う手段である。
制御部23は、制御装置20が行う制御全般を司る手段である。具体的には、(1)ロボット10から音声データおよび画像データを取得する処理と、(2)音声認識サーバ30を用いて音声認識を行う処理と、(3)ユーザに提供する応答文を生成する処理と、(4)生成した応答文を音声に変換し、ロボット10を介して出力する処理を実行する。詳細な処理内容については後述する。
位置情報取得部24は、装置に備えられたGPSモジュール(不図示)から、制御装置20の現在位置(緯度および経度)を取得する手段である。
属性設定部25は、位置情報取得部24が取得した位置情報に基づいて、対応する属性情報を生成する手段であり、記憶部26は、生成した属性情報を記憶する手段である。
属性情報とは、対応する場所がどのような属性(性格)を有する場所であるかを示す情報であり、記憶部26にテーブル形式で記憶される。図3に、記憶部26に記憶される属性情報テーブルの例を示す。本実施形態では、位置情報、ユーザID、属性情報がそれぞれ関連付けられて記憶される。図3の例では、例えば、(緯度N1,経度E1)という地点に、U001というIDを持つユーザの自宅がある旨が記録されている。属性情報を生成する方法については後述する。
応答生成部27は、ユーザが行った発話に対する応答を生成する手段である。具体的には、以下の情報に基づいて、ユーザに提供する応答文を生成する。
(1)音声認識を実行した結果得られるテキスト(制御部23から取得)
(2)対話中であるユーザの識別子(制御部23から取得)
(3)装置の位置情報に対応する属性情報(位置情報取得部24および記憶部26から取得)
生成された応答文は、音声合成機能によって音声データに変換され、ロボット10が有する音声出力部13を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。
(1)音声認識を実行した結果得られるテキスト(制御部23から取得)
(2)対話中であるユーザの識別子(制御部23から取得)
(3)装置の位置情報に対応する属性情報(位置情報取得部24および記憶部26から取得)
生成された応答文は、音声合成機能によって音声データに変換され、ロボット10が有する音声出力部13を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。
音声認識サーバ30は、制御装置20から送信された音声データに対して音声認識を実行する装置であり、通信部31および音声認識部32からなる。
通信部31が有する機能は、前述した通信部22と同様であるため、詳細な説明は省略する。
通信部31が有する機能は、前述した通信部22と同様であるため、詳細な説明は省略する。
音声認識部32は、制御装置20から送信された音声データ(すなわち、ロボット10が取得した音声)に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部32には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部27へ送信される。
音声認識サーバ30も、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
<データフロー>
次に、図1に示した各装置が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図4を参照しながら説明する。
次に、図1に示した各装置が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図4を参照しながら説明する。
まず、ステップS11で、ロボット10が有する音声入力部11が、ユーザが発した音声を取得する。取得した音声はデータに変換され、近距離通信部を介して、制御装置20が有する制御部23へ送信される。また、制御部23は、取得した音声データを、音声認識サーバ30が有する音声認識部32へ転送する。
次に、ステップS12で、ロボット10が有する画像取得部14が、カメラを用いて画像を取得する。取得した画像は、近距離通信部12を介して、制御装置20が有する制御部23へ送信される。
一方、音声データを取得した音声認識サーバ30(音声認識部32)は、取得した音声データに対して音声認識を行い、テキストに変換する(ステップS13)。音声認識の結果得られたテキストは、制御装置20が有する制御部23に送信され、その後、応答生成部27および属性設定部25へ送信される。
また、制御部23は、取得した画像に対して認識処理を行う(ステップS14)。本実施形態では、画像から人の顔を検出し、特徴量に変換することでユーザを識別する処理を行う。画像に含まれる顔を検出し、識別する方法は公知であるため、詳細な説明は省略する。識別したユーザに対応する識別子は、応答生成部27へ送信される。なお、本実施形
態ではユーザの個人識別を行う例を挙げるが、顔やユーザ以外を識別してもよい。
態ではユーザの個人識別を行う例を挙げるが、顔やユーザ以外を識別してもよい。
なお、ステップS11とS13、および、ステップS12とS14は任意の順序で実行することができる。
次に、ステップS15で、制御部23が、位置情報取得部24を介して位置情報(すなわち、装置の現在位置を表す情報)を取得する。
そして、記憶部26に記憶された属性情報テーブルを参照し、取得した位置に対応する属性情報が記録されているか否かを確認する(ステップS16)。
なお、ここでは、属性情報テーブルに記録されているレコードを、属性情報をキーとしてグループ化し、グループごとに位置情報の平均値を取得する。そして、現在位置と、算出した平均値とを比較し、所定の距離(例えば50メートル)以内にある場合に、対応するグループ(例えば「自宅」というグループ)と一致するものとみなす。
ここで、現在位置に対応する属性情報が属性情報テーブルに記録されていた場合、対応する属性情報を取得して応答生成部27に送信する。対応する属性情報が記録されていなかった場合、属性情報が存在しない旨を応答生成部27に送信する。
そして、記憶部26に記憶された属性情報テーブルを参照し、取得した位置に対応する属性情報が記録されているか否かを確認する(ステップS16)。
なお、ここでは、属性情報テーブルに記録されているレコードを、属性情報をキーとしてグループ化し、グループごとに位置情報の平均値を取得する。そして、現在位置と、算出した平均値とを比較し、所定の距離(例えば50メートル)以内にある場合に、対応するグループ(例えば「自宅」というグループ)と一致するものとみなす。
ここで、現在位置に対応する属性情報が属性情報テーブルに記録されていた場合、対応する属性情報を取得して応答生成部27に送信する。対応する属性情報が記録されていなかった場合、属性情報が存在しない旨を応答生成部27に送信する。
次に、ステップS17で、応答生成部27が、(1)音声認識の結果得られた発話の内容と、(2)制御部23が特定したユーザの識別子と、(3)ステップS16で取得した属性情報(取得できた場合のみ)に基づいて応答文を生成する。前述したように、応答文は、自装置が有する対話辞書(対話シナリオ)を用いて生成してもよいし、外部にある情報ソース(データベースサーバやウェブサーバ)を用いて生成してもよい。
本実施形態では、例えば、ユーザの識別子が「U001」であって、取得した属性情報が「自宅」であった場合、当該ユーザが自宅にいるものとして応答文を生成する(ただし、必ずしも毎回場所に言及する必要はない)。また、取得した属性情報が「職場」であった場合、当該ユーザが職場にいるものとして応答文を生成する。なお、ここでは、属性情報が「自宅」または「職場」であるものとしたが、予め位置情報に対してラベリングできるものであれば、属性情報はどのようなものであってもよい。
生成された応答文は、応答生成部27によって音声データに変換され、ロボット10に送信される。その後、音声出力部13を介して音声データの再生が行われる(ステップS18)。
次に、ステップS19で、属性設定部25が、ユーザから得た直前の発話の内容から属性情報の抽出を試みる。例えば、ユーザから得られた発話が「行ってきます」や「ただいま」といったものであった場合、装置がユーザの自宅にあることが推定できる。また、ユーザから得られた発話が、仕事や業務に関連するものであった場合、装置がユーザの職場にあることが推定できる。この他にも、ユーザが現在位置に関する説明を自発的に行った場合(例えば、「ここが僕の会社なんだ」等)、当該説明に基づいて属性情報を抽出してもよい。
ユーザが行った発話から属性情報(例えば「自宅」や「職場」)が抽出できた場合、ステップS19で、当該情報と位置情報とを関連付けて、属性情報テーブルに新しいレコードとして記録する。ここで記録された情報は、次回以降のステップS16における処理で利用される。
以上説明したように、本実施形態に係る音声対話システムは、ユーザの発話に基づいて、位置情報に対応する属性情報を生成し、位置情報と関連付けて記憶する。これにより、ユーザのいる場所がどのような性質を有する場所であるかを装置が認識することができ、
応答のバリエーションをより豊かなものにすることができる。
応答のバリエーションをより豊かなものにすることができる。
なお、第一の実施形態では、ユーザが自発的に行った発話に基づいて属性情報を設定したが、システムがユーザに対して問い掛けを行ってもよい。例えば、夜間に長時間滞在している場所があった場合、「ここは貴方のおうちなの?」といった問い掛けを行い、応答に基づいて「自宅」という属性情報を設定するようにしてもよい。また、「今日は会社に行くの?」といった問い掛けに対する応答に基づいて、自宅と職場が別々であることを識別してもよい。
また、属性情報テーブルに記録されたレコードを、周期的に整理するようにしてもよい。例えば、情報が古くなった場合、自動的に削除するなどしてもよい。
(第二の実施形態)
第一の実施形態では、属性情報に、「自宅」や「職場」など、予め定義された値を設定した。これに対し、第二の実施形態は、ユーザの発話に基づいて自由な値を設定する実施形態である。
第一の実施形態では、属性情報に、「自宅」や「職場」など、予め定義された値を設定した。これに対し、第二の実施形態は、ユーザの発話に基づいて自由な値を設定する実施形態である。
図5は、第二の実施形態において利用される属性情報テーブルの例である。本実施形態では、属性情報テーブルが、「種別」というフィールドを持っている。種別が「固定」である場合、第一の実施形態のように、「自宅」や「職場」といったような、予め定義された値が属性情報に設定される。一方、種別が「自由」である場合、属性情報には、ユーザの発話から抽出された自然文が設定される。以降、種別が「固定」である属性情報を固定タグと称し、種別が「自由」である属性情報を自由タグと称する。
図6(A)は、第二の実施形態におけるステップS16の動作を説明するフローチャートである。第二の実施形態は、固定タグと自由タグのそれぞれについて属性情報を取得するという点において、第一の実施形態と相違する。
ステップS161で行われる処理は、種別が「固定」であるレコードを抽出するという点を除き、第一の実施形態と同様である。
また、ステップS162で行われる処理は、種別が「自由」であるレコードを抽出するという点を除き、第一の実施形態と同様である。ただし、後述するように、自由タグの場合、同一の場所に対して複数のレコードを生成しないため、レコードのグルーピングは行わない。
ステップS161およびS162のいずれかにおいて属性情報が取得できた場合、属性情報を、種別を表すデータとともに応答生成部27に送信する。なお、固定タグと自由タグが両方取得できた場合、いずれかを選択してもよいし、双方を選択してもよい。
ステップS161で行われる処理は、種別が「固定」であるレコードを抽出するという点を除き、第一の実施形態と同様である。
また、ステップS162で行われる処理は、種別が「自由」であるレコードを抽出するという点を除き、第一の実施形態と同様である。ただし、後述するように、自由タグの場合、同一の場所に対して複数のレコードを生成しないため、レコードのグルーピングは行わない。
ステップS161およびS162のいずれかにおいて属性情報が取得できた場合、属性情報を、種別を表すデータとともに応答生成部27に送信する。なお、固定タグと自由タグが両方取得できた場合、いずれかを選択してもよいし、双方を選択してもよい。
図6(B)は、第二の実施形態におけるステップS19の動作を説明するフローチャートである。第二の実施形態では、ステップS19にて、固定タグと自由タグのそれぞれについて属性情報の生成を試みる。例えば、ユーザが「ここは東京ドームだよ」という発話を行った場合を考える。この場合、「東京ドーム」に対応する固定タグが無いため、ステップS191はスキップされ、ステップS192で、「東京ドーム」という内容の自由タグが生成される(図5,ID:6)。なお、ステップS191で固定タグが生成された場合、ステップS192はスキップしてもよいし、双方を実行してもよい。
なお、自由タグを生成した場合であって、一致する位置情報(一致するとみなせる程度に近接している場合を含む)が既に存在していた場合、該当するレコードは上書きされる。前述した例で、ユーザが「ここは野球をするところだよ」という発話を行った場合、図5のID:7のレコードが生成される。ここで、ID:6のレコードが既に存在していた場合、当該レコードは、ID:7の内容によって上書きされる。
ここで、ステップS16(S162)で自由タグを取得した場合の動作について説明する。
例えば、ステップS162で、ID:6のレコードが存在していた場合、「東京ドーム」という自由タグが抽出され、応答文の生成に利用される。例えば、東京ドームをホームとするプロ野球チームに関する話題などを生成してもよい。また、ステップS162で、ID:7のレコードが存在していた場合、「野球をするところ」という自由タグが抽出され、応答文の生成に利用される。応答文は、「ここは野球をするところなの?」といったものであってもよいし、自由タグを解析することでキーワードを取得し、取得したキーワードを用いて生成されてもよい。例えば、「野球をするところ」という文章に対して形態素解析を行い、「野球」「する」といったキーワードを抽出したうえで、当該キーワードを用いて、「野球をしたことはある?」といった応答文を生成してもよい。
例えば、ステップS162で、ID:6のレコードが存在していた場合、「東京ドーム」という自由タグが抽出され、応答文の生成に利用される。例えば、東京ドームをホームとするプロ野球チームに関する話題などを生成してもよい。また、ステップS162で、ID:7のレコードが存在していた場合、「野球をするところ」という自由タグが抽出され、応答文の生成に利用される。応答文は、「ここは野球をするところなの?」といったものであってもよいし、自由タグを解析することでキーワードを取得し、取得したキーワードを用いて生成されてもよい。例えば、「野球をするところ」という文章に対して形態素解析を行い、「野球」「する」といったキーワードを抽出したうえで、当該キーワードを用いて、「野球をしたことはある?」といった応答文を生成してもよい。
(第三の実施形態)
第一および第二の実施形態では、ユーザが行った発話に基づいて属性情報を生成した。すなわち、属性情報を生成するためには、ユーザに発話させることが必要であった。
これに対し、第三の実施形態は、制御装置20が場所についてのデータベースを予め保持しており、当該データベースを利用して属性情報を自動的に生成する実施形態である。また、第三の実施形態では、属性情報の生成に失敗した場合に、ユーザへの問い掛けを行い、得られた応答に基づいて属性情報を生成する。
第一および第二の実施形態では、ユーザが行った発話に基づいて属性情報を生成した。すなわち、属性情報を生成するためには、ユーザに発話させることが必要であった。
これに対し、第三の実施形態は、制御装置20が場所についてのデータベースを予め保持しており、当該データベースを利用して属性情報を自動的に生成する実施形態である。また、第三の実施形態では、属性情報の生成に失敗した場合に、ユーザへの問い掛けを行い、得られた応答に基づいて属性情報を生成する。
図7は、第三の実施形態に係る対話システムのシステム構成図である。第三の実施形態は、制御装置20が情報収集部28をさらに有しているという点において、第一の実施形態と相違する。
情報収集部28は、(1)取得した位置情報を住所に変換する機能(逆ジオコーディング機能)と、(2)ランドマークに関する情報(以下、ランドマーク情報)が記録されたデータベースを参照することで、ある場所の周辺に存在するランドマーク情報を収集する機能と、を有する手段である。
図8は、第三の実施形態におけるステップS19の動作を説明するフローチャートである。
ステップS19の処理が開始されると、まず、ステップS19Aで、属性設定部25が位置情報を情報収集部28に送信し、情報収集部28が、逆ジオコーディング機能を利用して位置情報を住所に変換し、かつ、ランドマーク情報を参照することで、周辺に存在するランドマークの一覧を収集する。取得した情報は、属性設定部25に送信される。
ステップS19の処理が開始されると、まず、ステップS19Aで、属性設定部25が位置情報を情報収集部28に送信し、情報収集部28が、逆ジオコーディング機能を利用して位置情報を住所に変換し、かつ、ランドマーク情報を参照することで、周辺に存在するランドマークの一覧を収集する。取得した情報は、属性設定部25に送信される。
次に、ステップS19Bで、得られた住所に基づいて属性情報の生成を試みる。例えば、場所の性質が住所によって表現できる場合、ステップS19Bで属性情報が生成される。次に、ステップS19Cで、得られたランドマーク情報に基づいて属性情報の生成を試行する。なお、ランドマーク情報とは、ランドマークの名称を集めたデータであってもよいし、当該ランドマークのジャンルや詳細な情報などを含んだデータであってもよい。
これらの結果、いずれかによって属性情報の生成に成功した場合、ステップS19Eで属性情報テーブルを更新して処理は終了する(なお、種別は自由タグとなる)。
これらの結果、いずれかによって属性情報の生成に成功した場合、ステップS19Eで属性情報テーブルを更新して処理は終了する(なお、種別は自由タグとなる)。
一方、属性情報が生成できなかった場合、前述した方法によって、ユーザの発話に基づいて属性情報を生成する。なお、この場合、ユーザに対する問い掛けを追加で行い、次の会話ターンで回答を取得してもよい。例えば、近くに何らかの建物があるという情報のみが得られ、どのような建物であるかが特定できない場合、ユーザに対して、当該建物の詳細について問い掛けてもよい。例示したフローチャートは、一回の会話ターンで属性情報
を生成する例であるが、必要に応じて、複数の会話ターンを通して属性情報を生成するようにしてもよい。
を生成する例であるが、必要に応じて、複数の会話ターンを通して属性情報を生成するようにしてもよい。
以上説明したように、第三の実施形態によると、より効率よく属性情報を収集することができる。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、音声認識サーバ30が音声認識を行ったが、音声認識を行う手段を制御装置20に持たせてもよい。また、各実施形態の説明では、応答文の生成を制御装置20が行ったが、応答文の生成を音声認識サーバ30が行うようにしてもよい。
また、実施形態の説明では、ロボット10と制御装置20を別々の装置としたが、両者は一つの装置であってもよい。
また、実施形態の説明では、ロボット10と制御装置20を別々の装置としたが、両者は一つの装置であってもよい。
また、実施形態の説明では、ユーザが行った発話に対してシステムが応答を返す形態について述べたが、応答文の代わりにシステムが自発的に対話文を生成して提供するようにしてもよい。この場合、ステップS11およびS13を省略することも可能である。また、画像を取得および解析するステップは、本発明にとって必須構成ではない。
また、実施形態の説明では、自由タグを生成する場合、同一の場所に対して複数のレコードを生成しないものとしたが、固定タグと同様に、同一の場所に対して複数のレコードを生成するようにしてもよい。この場合、ステップS162の処理において、属性情報として設定されている自由タグをキーとしてグルーピングを行い、グループに含まれる複数の位置情報に基づいて、取得した位置に対応する属性情報が存在するか否かを判定するようにしてもよい。
10・・・ロボット
11・・・音声入力部
12,21・・・近距離通信部
13・・・音声出力部
14・・・画像取得部
20・・・制御装置
22,31・・・通信部
23・・・制御部
24・・・位置情報取得部
25・・・属性設定部
26・・・記憶部
27・・・応答設定部
11・・・音声入力部
12,21・・・近距離通信部
13・・・音声出力部
14・・・画像取得部
20・・・制御装置
22,31・・・通信部
23・・・制御部
24・・・位置情報取得部
25・・・属性設定部
26・・・記憶部
27・・・応答設定部
Claims (9)
- ユーザの位置情報を取得する位置取得手段と、
音声によって前記ユーザと対話する音声対話手段と、
前記位置情報と、前記位置情報に対応する場所の属性を表す属性情報とを関連付けて記憶する属性情報管理手段と、を有し、
前記属性情報管理手段は、前記音声対話手段が前記ユーザと行った対話の内容に基づいて、前記位置情報に対応する属性情報を生成し、
前記音声対話手段は、前記位置情報に対応する前記属性情報が前記属性情報管理手段に記憶されている場合に、当該属性情報を利用して前記ユーザとの対話を行う、
音声対話装置。 - 前記属性情報管理手段は、前記ユーザが、現在位置に対応する場所に言及する発話を行った場合に、当該発話の内容に基づいて前記属性情報を生成する、
請求項1に記載の音声対話装置。 - 前記属性情報管理手段は、前記位置情報と前記属性情報をユーザごとに記憶し、
前記音声対話手段は、対話相手であるユーザに対応する属性情報を取得する、
請求項1または2に記載の音声対話装置。 - 前記属性情報管理手段は、前記ユーザから取得した発話の内容に基づいて、前記取得した位置情報に対応する場所が、前記ユーザの自宅または職場であることを推定する、
請求項3に記載の音声対話装置。 - 前記位置情報に対応する住所、または、前記位置情報に対応する場所の周辺にあるランドマークに関する情報を取得する情報取得手段をさらに有し、
前記属性情報管理手段は、前記情報取得手段が取得した情報に基づいて属性情報を生成する、
請求項1から4のいずれかに記載の音声対話装置。 - 前記情報取得手段が取得した情報に基づいて属性情報が生成できなかった場合に、前記ユーザに問い合わせを行い、前記属性情報管理手段が、得られた応答に基づいて属性情報を生成する、
請求項5に記載の音声対話装置。 - 前記属性情報管理手段は、前記音声対話手段が行った対話の内容に、前記ユーザが位置する場所がどのような性質を有する場所であるかを表す情報が含まれる場合に、当該情報に基づいて、前記ユーザが位置する場所に対応する属性情報を生成する、
請求項1から6のいずれかに記載の音声対話装置。 - ユーザの位置情報を取得する位置取得ステップと、
音声によって前記ユーザと対話する音声対話ステップと、
前記位置情報と、前記位置情報に対応する場所の属性を表す属性情報とを関連付けて記憶する属性情報管理ステップと、を含み、
前記属性情報管理ステップでは、前記音声対話手段が前記ユーザと行った対話の内容に基づいて、前記位置情報に対応する属性情報を生成し、
前記音声対話ステップでは、前記位置情報に対応する前記属性情報が記憶されている場合に、当該属性情報を利用して前記ユーザとの対話を行う、
音声対話方法。 - 請求項8に記載の音声対話方法をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016191643A JP2018054926A (ja) | 2016-09-29 | 2016-09-29 | 音声対話装置および音声対話方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016191643A JP2018054926A (ja) | 2016-09-29 | 2016-09-29 | 音声対話装置および音声対話方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018054926A true JP2018054926A (ja) | 2018-04-05 |
Family
ID=61836671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016191643A Pending JP2018054926A (ja) | 2016-09-29 | 2016-09-29 | 音声対話装置および音声対話方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018054926A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020052310A (ja) * | 2018-09-28 | 2020-04-02 | 大和ハウス工業株式会社 | 情報管理システム |
-
2016
- 2016-09-29 JP JP2016191643A patent/JP2018054926A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020052310A (ja) * | 2018-09-28 | 2020-04-02 | 大和ハウス工業株式会社 | 情報管理システム |
JP7161361B2 (ja) | 2018-09-28 | 2022-10-26 | 大和ハウス工業株式会社 | 情報管理システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6159048B1 (ja) | 情報管理システムおよび端末装置 | |
JP5871088B1 (ja) | 端末装置、情報提供システム、情報提供方法およびプログラム | |
JP5731998B2 (ja) | 対話支援装置、対話支援方法および対話支援プログラム | |
US20210056970A1 (en) | Method and system for context association and personalization using a wake-word in virtual personal assistants | |
KR20120038000A (ko) | 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템 | |
TW201926079A (zh) | 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品 | |
JP6154489B2 (ja) | ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置 | |
JPWO2017208518A1 (ja) | 情報処理装置 | |
KR102312993B1 (ko) | 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치 | |
JP2008242837A (ja) | コミュニケーションの状況を管理する装置、方法およびプログラム | |
JP2010109898A (ja) | 撮影制御装置、撮影制御方法及びプログラム | |
JP6254504B2 (ja) | 検索サーバ、及び検索方法 | |
JP6828741B2 (ja) | 情報処理装置 | |
JP5220451B2 (ja) | 電話受付システム、電話受付方法、プログラム、及び記録媒体 | |
JP2018054926A (ja) | 音声対話装置および音声対話方法 | |
JP2018055452A (ja) | キーワード生成装置およびキーワード生成方法 | |
JP2017191531A (ja) | コミュニケーションシステム、サーバ及びコミュニケーション方法 | |
JP7055327B2 (ja) | 会話収集装置、会話収集システム及び会話収集方法 | |
US11755652B2 (en) | Information-processing device and information-processing method | |
WO2020026360A1 (ja) | コンピュータシステム、画面共有方法及びプログラム | |
JP2019211689A (ja) | 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム | |
JP7389070B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20220236945A1 (en) | Information processing device, information processing method, and program | |
WO2021065098A1 (ja) | 情報処理装置、情報処理システム、情報処理方法 | |
JP2020184007A (ja) | 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム |