JP2018055155A

JP2018055155A - 音声対話装置および音声対話方法

Info

Publication number: JP2018055155A
Application number: JP2016186791A
Authority: JP
Inventors: 宗明島田; Muneaki Shimada; 智久米; Satoshi Kume; 池野　篤司; Tokuji Ikeno; 篤司池野; 聡彦渡部; Satohiko Watabe; 快矢統坂本; Kayato Sakamoto; 西島　敏文; Toshifumi Nishijima; 敏文西島; 史憲片岡; Fuminori Kataoka; 刀根川　浩巳; Hiromi Tonegawa; 浩巳刀根川; 倫秀梅山
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-09-26
Filing date: 2016-09-26
Publication date: 2018-04-05

Abstract

【課題】人と対話する音声対話装置において、より適切な対話文を生成する。【解決手段】音声によってユーザと対話する音声対話装置であって、音声を取得する音声取得手段（音声入力部１１）と、自装置の周辺に存在するユーザの数をカウントする計数手段（ユーザ判定部２２）と、対話文を生成する対話文生成手段（応答生成部２３）と、を有し、対話文生成手段は、計数手段がカウントしたユーザの数に基づいて、対話文の内容を決定する。【選択図】図１

Description

本発明は、音声によって人と対話する装置に関する。

ユーザが発した音声を認識し、対話をすることによって、様々な情報を提供する音声対話装置が実用化されている。また、マイクによって入力された音声を処理し、入力に対する応答を音声で返すコミュニケーションロボットが多く開発されている。例えば、特許文献１には、算出した評価値に基づいて、予め記憶された話題の中から適切な話題を選択してユーザとの対話を行うロボットが開示されている。

一方、人と対話するロボットにおいて、特定のユーザにしか伝達してはいけないようなセンシティブな情報を取り扱う場合がある。このようなケースに対応するため、特許文献２に記載のロボットでは、対話を開始する前にユーザ認証を行っている。

特開２００８−１５８６９７号公報特開２００１−２７７１６３号公報

前述したようなコミュニケーションロボットは、基本的に、一対一での対話しか想定されていない。しかし、実際の運用では、ロボットと対話を行うユーザの周辺に他人が存在するケースが考えられる。このような場合において、センシティブな情報を音声によって伝達してしまうと、セキュリティが大きく低下してしまう。
このように、従来技術においては、発話を行う際の状況を考慮せずに対話文を生成しているため、望ましくない発話がなされてしまうといった課題があった。

本発明は上記の課題を考慮してなされたものであり、人と対話する音声対話装置において、より適切な対話文を生成することを目的とする。

本発明に係る音声対話装置は、
音声によってユーザと対話する音声対話装置であって、音声を取得する音声取得手段と、自装置の周辺に存在するユーザの数をカウントする計数手段と、対話文を生成する対話文生成手段と、を有し、前記対話文生成手段は、前記計数手段がカウントしたユーザの数に基づいて、前記対話文の内容を決定することを特徴とする。

本発明における音声対話装置は、音声取得手段と対話文生成手段を有し、音声によってユーザと対話を行う装置である。また、本発明における音声対話装置は、自装置の周辺に存在するユーザの数をカウントする計数手段を有し、カウントされたユーザの数に基づいて、対話文の内容を決定する。計数手段は、例えば、カメラ、マイク、センサ等を用いて人の数をカウントする。
これにより、例えば、自装置の周辺にユーザが一人しかいない場合、制限なく対話を行うが、二人以上いる場合はセンシティブな情報の扱いを控えるといった判断が可能になり、ユーザのプライバシーを守ることができる。
なお、本明細書におけるユーザは、装置と対話する可能性のある人物であればよく、必
ずしも装置と対話する必要はない。

また、前記対話文生成手段は、前記計数手段がカウントしたユーザの数が一人である場合と二人以上である場合とで、異なる内容の対話文を生成することを特徴としてもよい。

これにより、例えば、カウントされた人の数が二人以上である場合には、センシティブな情報の扱いを控え、多人数で会話できるような話題を提供するなど、より適切な話題を選択できるようになる。

また、本発明に係る音声対話装置は、前記カウントされたユーザが、登録されているユーザであるか否かを判定する判定手段をさらに有し、前記対話文生成手段は、登録されていないユーザが自装置の周辺に存在するか否かによって、異なる内容の対話文を生成することを特徴としてもよい。

判定手段は、例えば、マイクやカメラ、センサ等を用いて取得した情報に基づいて、自装置の周辺に存在する人が登録ユーザであるか否かを判定する手段である。判定手段を用いることで、自装置の周辺に登録されていないユーザが存在することを検出することができる。これにより、例えば、登録されているユーザのみがいる場合、予め記憶されたプロファイル情報に基づいて話題を提供し、登録されていないユーザがいる場合は、ユーザに依存しない話題を提供するなど、状況に応じて適切な対話文を生成することができる。

また、前記対話文生成手段は、自装置の周辺に二人以上が存在し、かつ、登録されていないユーザが含まれる場合に、登録されているユーザに関するプライベートな情報を含ませずに前記対話文を生成することを特徴としてもよい。

プライベートな情報とは、典型的にはユーザの個人情報であるが、これ以外であってもよい。例えば、ユーザの行動履歴、購買履歴、学歴、金融資産についての情報など、当該ユーザについてのセンシティブな情報であってもよい。

また、本発明に係る音声対話装置は、登録されたユーザに対応する音声モデルを記憶する第一の記憶手段をさらに有し、前記判定手段は、取得した音声と前記音声モデルを対比した結果に基づいて、前記カウントされたユーザが登録されているユーザであるか否かを判定することを特徴としてもよい。

音声モデルとは、音声の特徴量が定義されたモデルである。かかる構成によると、音声取得手段を利用してユーザの識別を行うことができる。

また、本発明に係る音声対話装置は、自装置周辺の画像を取得する画像取得手段をさらに有し、前記計数手段は、前記取得した画像に基づいて、自装置の周辺に存在するユーザの数をカウントすることを特徴としてもよい。

装置周辺を撮像し画像を取得することで、ユーザ数を正確にカウントすることができる。例えば、取得した画像に含まれる顔を検出し、検出した顔の数に基づいてカウントを行ってもよい。
なお、撮像する範囲は、装置の正面領域などであってもよいが、音声は全方位に到達するため、より広範囲であることが好ましい。

また、本発明に係る音声対話装置は、登録されたユーザに対応するテンプレートを記憶する第二の記憶手段をさらに有し、前記判定手段は、取得した画像に含まれる顔と前記テンプレートとを比較した結果に基づいて、前記カウントされたユーザが登録されているユ
ーザであるか否かを判定することを特徴としてもよい。

画像取得手段を用いてマッチングを行うことで、より正確にユーザの識別を行うことができる。なお、テンプレートとは、テンプレート画像であってもよいし、顔画像から抽出した特徴量であってもよい。

なお、本発明は、上記手段の少なくとも一部を含む音声対話装置として特定することができる。また、前記音声対話装置が行う音声対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

本発明によれば、人と対話する音声対話装置において、より適切な対話文を生成することができる。

第一の実施形態に係る音声対話システムのシステム構成図である。ロボット１０を説明する図である。ロボット１０、制御装置２０、サーバ装置３０間のデータフロー図である。第二の実施形態に係る音声対話システムのシステム構成図である。第二の実施形態におけるユーザリストの例である。第二の実施形態で応答生成部２３が行う判定のフローチャートである。

以下、本発明の好ましい実施形態について図面を参照しながら説明する。本実施形態に係る音声対話システムは、音声によってユーザと対話するシステムである。

（第一の実施形態）
<システム構成>
図１は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット１０と、制御装置２０と、サーバ装置３０から構成される。

ロボット１０は、スピーカやマイク等を有しており、ユーザとのインタフェースを担う手段である。ロボット１０は、人型やキャラクター型であってもよいし、他の形状・形態であってもよい。例えば、コミュニケーションロボットに組み込まれるコンピュータ等であってもよい。
制御装置２０は、ロボット１０に対して命令を発行する装置である。また、サーバ装置３０は、制御装置２０から送信された要求に応じて、ユーザに提供する応答（応答文）を生成する装置である。
本実施形態では、ロボット１０はユーザインタフェースとしてのみ機能し、発話内容の認識、応答文の生成、その他の処理など、システム全体を制御する処理は制御装置２０およびサーバ装置３０が行う。

まず、ロボット１０について説明する。ロボット１０は、音声入力部１１、近距離通信部１２、音声出力部１３、画像取得部１４から構成される。

音声入力部１１は、ユーザが発した音声を取得する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号（以下、音声データ）に変換する。取得した音声データは、後述する近距離通信部１２を介して制御装置２０へ送信される。

近距離通信部１２は、制御装置２０と近距離無線通信を行う手段である。本実施形態では、近距離通信部１２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格を利用して通信を行う。近距離通信部１２は、ペアリング先となる制御装置２０に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Ｂｌｕｅｔｏｏｔｈ規格は、ＩＥＥＥ８０２．１５．１とも呼ばれる。

音声出力部１３は、ユーザに提供する音声を出力する手段である。具体的には、内蔵されたスピーカを用いて、制御装置２０から送信された音声データを音声に変換する。

画像取得部１４は、内蔵されたカメラを用いて、ロボット１０の周辺を撮像して画像を取得する手段である。カメラは、図２（Ａ）に示したように、ロボットの前方を向いて設置されているが、他の方位を向いて設置されていてもよい。また、カメラは二台以上であってもよい。例えば、複数のカメラから取得した画像を用いてパノラマ画像を生成してもよい。画像取得部１４が取得した画像は、近距離通信部１２を介して制御装置２０へ送信される。

次に、制御装置２０について説明する。制御装置２０は、ロボット１０の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置２０は、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

制御装置２０は、近距離通信部２１、ユーザ判定部２２、応答生成部２３、通信部２４から構成される。

近距離通信部２１が有する機能は、前述した近距離通信部１２と同様であるため、詳細な説明は省略する。

ユーザ判定部２２は、ロボット１０から送信された画像に基づいて、ロボット１０の周辺に存在するユーザの数を判定する手段である。本実施形態では、取得した画像から顔を検出し、検出した顔の数を計数することで人数を判定する。判定結果は、応答生成部２３へ送信される。

応答生成部２３は、ロボット１０から音声を取得し、当該取得した音声に対する応答を生成する手段である。具体的には、ロボット１０から取得した音声を、通信部２３を介してサーバ装置３０（いずれも後述）に送信し、音声認識の結果を表すテキストを受信する。そして、取得したテキストに基づいて、ユーザに提供する応答文を生成する。
提供する応答文は、例えば、事前に記憶された対話シナリオ（対話辞書）に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。生成された応答文は、応答生成部２３が有する音声合成機能によって音声データに変換され、ロボット１０が有する音声出力部１３を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。
なお、本実施形態では、応答生成部２３は、ユーザ判定部２２が判定した人数に応じて異なる内容の応答文を生成する。具体的な方法については後述する。

通信部２４は、通信回線（例えば無線ＬＡＮや携帯電話網）を介してネットワークにアクセスすることで、サーバ装置３０との通信を行う手段である。

サーバ装置３０は、制御装置２０から送信された音声に対して音声認識を実行する装置であり、通信部３１および音声認識部３２からなる。
通信部３１が有する機能は、前述した通信部２４と同様であるため、詳細な説明は省略する。

音声認識部３２は、制御装置２０から送信された音声（すなわち、ロボット１０が取得した音声）に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部３２には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部２３へ送信される。

サーバ装置３０も、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

<データフロー>
次に、図１に示した各手段が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図３を参照しながら説明する。

まず、ステップＳ１１で、ロボット１０が有する音声入力部１１が、ユーザが発話した音声を取得する。取得した音声は音声データに変換され、近距離通信部を介して、制御装置２０が有する応答生成部２３へ送信される。また、応答生成部２３は、取得した音声データを、サーバ装置３０が有する音声認識部３２へ転送する。

次に、ステップＳ１２で、ロボット１０が有する画像取得部１４が、カメラを用いて画像を取得する。取得した画像は、近距離通信部１２を介して、制御装置２０が有するユーザ判定部２２へ送信される。

一方、音声データを取得したサーバ装置３０（音声認識部３２）は、取得した音声データに対して音声認識を行い、テキストに変換する（ステップＳ１３）。音声認識の結果得られたテキストは、応答生成部２３へ送信される。

また、ユーザ判定部２２は、取得した画像から人の顔を検出し、検出した顔の数をカウントすることで、ロボット１０の周辺に存在するユーザの数を判定する（ステップＳ１４）。画像に含まれる顔を検出する方法は公知であるため、詳細な説明は省略する。判定結果（人数）は、応答生成部２３へ送信される。

なお、ステップＳ１１とＳ１３、および、ステップＳ１２とＳ１４は任意の順序で実行することができる。

次に、応答生成部２３が、音声認識の結果得られた発話の内容と、ユーザ判定部２２が出力した人数に基づいて応答文を生成する（ステップＳ１５）。前述したように、応答文は、自装置が有する対話辞書（対話シナリオ）を用いて生成してもよいし、外部にある情報ソース（データベースサーバやウェブサーバ）を用いて生成してもよい。

ステップＳ１５においては、判定された人の数に応じて、異なる方法で応答文を生成する。例えば、判定された人の数が一人であった場合、一対一で行う対話を前提として応答
文を生成し、判定された人の数が二人以上であった場合、一対多で行う対話を前提として応答文を生成する。例えば、複数のユーザに対する問い掛けなどを交えた応答文を生成してもよいし、複数のユーザ同士で会話が進むような応答文を生成してもよい。
この他にも、判定された人の数が一人であり、かつ、当該人物がロボット１０の持ち主であると推定できる場合は、パーソナライズされた応答文（例えば、当該持ち主を対話相手と想定した応答文）を生成してもよい。

生成された応答文は、応答生成部２３によって音声データに変換され（ステップＳ１６）、ロボット１０に送信される。その後、音声出力部１３を介して音声データの再生が行われる（ステップＳ１７）。

以上説明したように、本実施形態に係る音声対話システムは、画像に基づいてロボット１０の周辺に存在するユーザの数を判定し、判定した人数に基づいて応答文を生成する。これにより、応答のバリエーションを豊かなものにすることができる。

なお、第一の実施形態では、カメラを用いてロボット１０の周辺に存在するユーザの数を判定したが、ロボット１０の周辺に存在するユーザの数を判定できれば、他の手段（センサ等）を用いてもよい。また、ユーザが所持する端末や無線タグと通信を行うことで、当該ユーザの存在を検知するようにしてもよい。

（第二の実施形態）
第二の実施形態は、ロボット１０がユーザの個人情報を記憶しており、当該個人情報を用いて対話を行う実施形態である。

図４は、第二の実施形態に係る対話システムのシステム構成図である。第二の実施形態に係る制御装置２０は、ロボット１０と対話を行うユーザのプロファイル情報を記憶するプロファイル記憶部２５をさらに有している。

プロファイル情報には、ユーザを識別するための情報と、当該ユーザに対してパーソナライズされた応答文を生成するための情報が含まれる。前者は、例えば顔画像から得られる特徴量であり、後者は、個人情報や、ユーザの嗜好に関するデータなどである。プロファイル情報は、ユーザがシステムの利用登録を行う際に生成され、プロファイル記憶部２５によって保持される。

第一の実施形態では、ユーザ判定部２２が、ステップＳ１４にて人数のみを判定したが、第二の実施形態では、取得した画像を特徴量に変換し、プロファイル情報に含まれる特徴量と比較することでユーザを識別する。また、識別したユーザのリスト（以下、ユーザリスト）を応答生成部２３へ送信し、ステップＳ１５で、当該リストに基づいて応答文を生成する。

図５は、ユーザリストの例である。例えば、図５（Ａ）は、登録済みであるユーザが２名と、登録されていないユーザが２名いると判定された場合に送信されるユーザリストの例である。また、図５（Ｂ）は、登録済みであるユーザが１名検出された場合に送信されるユーザリストの例である。また、図５（Ｃ）は、登録されていないユーザが３名検出された場合に送信されるユーザリストの例である。

第二の実施形態では、応答生成部２３が、受信したユーザリストに基づいて応答文を生成する。例えば、図６に示したような場合分けを行い、応答文を生成する。
（ケースＡ）ユーザが一人である場合
この場合、一対一の対話を前提として応答文を生成する。なお、当該ユーザが登録済み
ユーザである場合、プロファイル情報に含まれる個人情報を用いて応答文を生成する。
（ケースＢ）ユーザが二人以上であり、全員が登録済みユーザである場合
この場合、一対多の対話を前提として応答文を生成する。また、全員が登録済みであることから、セキュリティ上の問題は発生しないと判断し、プロファイル情報に含まれる個人情報を用いて応答文を生成する。
（ケースＣ）ユーザが二人以上であり、未登録ユーザが含まれている場合
この場合、一対多の対話を前提として応答文を生成するが、未登録ユーザが存在するため、登録されたユーザに関する個人情報は用いずに応答文を生成する。あるいは、登録されたユーザに関する個人情報のうち、センシティブな情報を除いて応答文を生成する。例えば、個人情報を、オープンな情報とクローズな情報に予め分類したうえで、オープンな情報のみを用いて応答文を生成するようにしてもよい。

第二の実施形態によると、対話相手となるユーザを識別することで、パーソナライズされた応答文を生成することができる。また、未登録ユーザの有無によって、応答文を生成する際に個人情報を用いるか否かを決定するため、センシティブな情報、または、プライバシーに関わる情報を他人に知られることがなくなり、セキュリティが向上する。

（第三の実施形態）
第二の実施形態では、ユーザが行った発話を取得してから画像取得部１４が画像を取得した。これに対し、第三の実施形態は、画像取得部１４が予め周期的に画像を取得し、蓄積したうえで、過去に取得した画像を遡って判定を行う実施形態である。

第三の実施形態では、ユーザが行った発話を取得した場合に、所定期間内（例えば、５分以内）に取得した画像を遡り、各画像に対して顔の検出を行う。また、所定期間内に取得した画像から顔を検出した場合に、当該ユーザがロボット１０の近くに存在すると仮定して処理を行う。かかる構成によると、カメラの死角に存在する人物をより正確に検出することができる。

（第四の実施形態）
第二ないし第三の実施形態では、顔画像のみに基づいてユーザの識別を行った。これに対し、第四の実施形態は、取得した音声にさらに基づいてユーザの識別を行う実施形態である。

第四の実施形態では、プロファイル記憶部２５が、音声から得られる特徴量をユーザごとに記憶しており、ステップＳ１４で、ユーザ判定部２２が、音声に基づいて取得された特徴量が、登録されたユーザのものと一致するか否かを判定する。このように、音声と画像を併用することで、より正確にユーザを識別することができる。

なお、顔画像に基づく判定と、音声に基づく判定は、併用してもよいし、どちらか片方のみを用いてもよい。例えば、ステップＳ１２で取得した画像に人の顔が含まれていない場合にのみ、音声に基づく判定を実施するようにしてもよい。

また、第三の実施形態と同様に、音声入力部１１が取得した音声を蓄積し、過去に取得した音声を遡れるようにしてもよい。例えば、ユーザが発話を行った場合に、所定期間内（例えば、５分以内）に取得した音声を遡り、得られた音声に基づいてユーザの識別を行ってもよい。

（第五の実施形態）
第一ないし第四の実施形態では、固定されたカメラを用いて画像を取得した。これに対し、第五の実施形態は、音声の到来方向を判定してカメラの向きを移動させる実施形態で
ある。

第五の実施形態では、音声入力部１１が、図２（Ｂ）に示したように複数のマイクを有している。また、ロボットの首がＺ軸を中心に回転する構成となっており、これにより、画像取得部１４が有するカメラをパンニングさせられる構成となっている。

第五の実施形態では、まず、ユーザ判定部２２が、ロボット１０から送信された音声データ（本例では３チャンネルぶんの音声データ）を取得する。
そして、ユーザ判定部２２が、取得した音声の到来方向を推定し、当該推定した方向にカメラ（ロボットの首）を向けたうえで撮像を行う命令をロボット１０に送信する。その後の処理は、図３に示したものと同様である。
なお、複数のマイクを用いることで音声の到来方向を推定する技術は公知であるため、具体的な方法についての説明は省略する。

なお、本実施形態では、カメラ自体をパンニングしたが、ロボット１０に駆動手段が備わっている場合、ロボット１０自体を移動させてもよい。例えば、音源に接近したうえで画像を取得するようにしてもよい。

（変形例）
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。

例えば、実施形態の説明では、サーバ装置３０が音声認識を行ったが、音声認識を行う手段を制御装置２０に持たせてもよい。また、各実施形態の説明では、応答文の生成を制御装置３０が行ったが、応答文の生成をサーバ装置３０が行うようにしてもよい。

また、図６の例では、装置の周辺にいるユーザが全員登録済みであった場合、個人情報を用いて応答文を生成するようにしたが、ユーザが二人以上存在する場合、登録の有無にかかわらず、個人情報を用いず（あるいは、個人情報のうちオープンな情報のみを用いて）に応答文を生成するようにしてもよい。

また、実施形態の説明では、ユーザの数に基づいて応答文の内容を変更したが、ユーザの数に基づいて、対話において用いるパラメータを変更してもよい。例えば、一対一で対話を行う場合、一対多で対話を行う場合と比較して音量を抑えるようにしてもよい。

また、実施形態の説明では、ユーザが行った発話に対してシステムが応答を返す形態について述べたが、応答文の代わりにシステムが自発的に対話文を生成して提供するようにしてもよい。この場合、ステップＳ１１およびＳ１３を省略することも可能である。

１０・・・ロボット
１１・・・音声入力部
１２，２１・・・近距離通信部
１３・・・音声出力部
１４・・・画像取得部
２０・・・制御装置
２２・・・ユーザ判定部
２３・・・応答生成部
２４，３１・・・通信部
３０・・・サーバ装置
３２・・・音声認識部

Claims

音声によってユーザと対話する音声対話装置であって、
音声を取得する音声取得手段と、
自装置の周辺に存在するユーザの数をカウントする計数手段と、
対話文を生成する対話文生成手段と、を有し、
前記対話文生成手段は、前記計数手段がカウントしたユーザの数に基づいて、前記対話文の内容を決定する、
音声対話装置。
前記対話文生成手段は、前記計数手段がカウントしたユーザの数が一人である場合と二人以上である場合とで、異なる内容の対話文を生成する、
請求項１に記載の音声対話装置。
前記カウントされたユーザが、登録されているユーザであるか否かを判定する判定手段をさらに有し、
前記対話文生成手段は、登録されていないユーザが自装置の周辺に存在するか否かによって、異なる内容の対話文を生成する、
請求項１または２に記載の音声対話装置。
前記対話文生成手段は、自装置の周辺に二人以上が存在し、かつ、登録されていないユーザが含まれる場合に、登録されているユーザに関するプライベートな情報を含ませずに前記対話文を生成する、
請求項３に記載の音声対話装置。
登録されたユーザに対応する音声モデルを記憶する第一の記憶手段をさらに有し、
前記判定手段は、取得した音声と前記音声モデルを対比した結果に基づいて、前記カウントされたユーザが登録されているユーザであるか否かを判定する、
請求項３または４に記載の音声対話装置。
自装置周辺の画像を取得する画像取得手段をさらに有し、
前記計数手段は、前記取得した画像に基づいて、自装置の周辺に存在するユーザの数をカウントする、
請求項３から５のいずれかに記載の音声対話装置。
登録されたユーザに対応するテンプレートを記憶する第二の記憶手段をさらに有し、
前記判定手段は、取得した画像に含まれる顔と前記テンプレートとを比較した結果に基づいて、前記カウントされたユーザが登録されているユーザであるか否かを判定する、
請求項６に記載の音声対話装置。
音声によってユーザと対話する音声対話装置が行う音声対話方法であって、
音声を取得する音声取得ステップと、
自装置の周辺に存在するユーザの数をカウントする計数ステップと、
対話文を生成する対話文生成ステップと、を含み、
前記対話文生成ステップでは、前記計数手段がカウントしたユーザの数に基づいて、前記対話文の内容を決定する、
音声対話方法。