JP2018055155A - 音声対話装置および音声対話方法 - Google Patents

音声対話装置および音声対話方法 Download PDF

Info

Publication number
JP2018055155A
JP2018055155A JP2016186791A JP2016186791A JP2018055155A JP 2018055155 A JP2018055155 A JP 2018055155A JP 2016186791 A JP2016186791 A JP 2016186791A JP 2016186791 A JP2016186791 A JP 2016186791A JP 2018055155 A JP2018055155 A JP 2018055155A
Authority
JP
Japan
Prior art keywords
voice
user
dialogue
sentence
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016186791A
Other languages
English (en)
Other versions
JP2018055155A5 (ja
Inventor
宗明 島田
Muneaki Shimada
宗明 島田
智 久米
Satoshi Kume
智 久米
池野 篤司
Tokuji Ikeno
篤司 池野
聡彦 渡部
Satohiko Watabe
聡彦 渡部
快矢統 坂本
Kayato Sakamoto
快矢統 坂本
西島 敏文
Toshifumi Nishijima
敏文 西島
史憲 片岡
Fuminori Kataoka
史憲 片岡
刀根川 浩巳
Hiromi Tonegawa
浩巳 刀根川
倫秀 梅山
Norihide Umeyama
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016186791A priority Critical patent/JP2018055155A/ja
Publication of JP2018055155A publication Critical patent/JP2018055155A/ja
Publication of JP2018055155A5 publication Critical patent/JP2018055155A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】人と対話する音声対話装置において、より適切な対話文を生成する。【解決手段】音声によってユーザと対話する音声対話装置であって、音声を取得する音声取得手段(音声入力部11)と、自装置の周辺に存在するユーザの数をカウントする計数手段(ユーザ判定部22)と、対話文を生成する対話文生成手段(応答生成部23)と、を有し、対話文生成手段は、計数手段がカウントしたユーザの数に基づいて、対話文の内容を決定する。【選択図】図1

Description

本発明は、音声によって人と対話する装置に関する。
ユーザが発した音声を認識し、対話をすることによって、様々な情報を提供する音声対話装置が実用化されている。また、マイクによって入力された音声を処理し、入力に対する応答を音声で返すコミュニケーションロボットが多く開発されている。例えば、特許文献1には、算出した評価値に基づいて、予め記憶された話題の中から適切な話題を選択してユーザとの対話を行うロボットが開示されている。
一方、人と対話するロボットにおいて、特定のユーザにしか伝達してはいけないようなセンシティブな情報を取り扱う場合がある。このようなケースに対応するため、特許文献2に記載のロボットでは、対話を開始する前にユーザ認証を行っている。
特開2008−158697号公報 特開2001−277163号公報
前述したようなコミュニケーションロボットは、基本的に、一対一での対話しか想定されていない。しかし、実際の運用では、ロボットと対話を行うユーザの周辺に他人が存在するケースが考えられる。このような場合において、センシティブな情報を音声によって伝達してしまうと、セキュリティが大きく低下してしまう。
このように、従来技術においては、発話を行う際の状況を考慮せずに対話文を生成しているため、望ましくない発話がなされてしまうといった課題があった。
本発明は上記の課題を考慮してなされたものであり、人と対話する音声対話装置において、より適切な対話文を生成することを目的とする。
本発明に係る音声対話装置は、
音声によってユーザと対話する音声対話装置であって、音声を取得する音声取得手段と、自装置の周辺に存在するユーザの数をカウントする計数手段と、対話文を生成する対話文生成手段と、を有し、前記対話文生成手段は、前記計数手段がカウントしたユーザの数に基づいて、前記対話文の内容を決定することを特徴とする。
本発明における音声対話装置は、音声取得手段と対話文生成手段を有し、音声によってユーザと対話を行う装置である。また、本発明における音声対話装置は、自装置の周辺に存在するユーザの数をカウントする計数手段を有し、カウントされたユーザの数に基づいて、対話文の内容を決定する。計数手段は、例えば、カメラ、マイク、センサ等を用いて人の数をカウントする。
これにより、例えば、自装置の周辺にユーザが一人しかいない場合、制限なく対話を行うが、二人以上いる場合はセンシティブな情報の扱いを控えるといった判断が可能になり、ユーザのプライバシーを守ることができる。
なお、本明細書におけるユーザは、装置と対話する可能性のある人物であればよく、必
ずしも装置と対話する必要はない。
また、前記対話文生成手段は、前記計数手段がカウントしたユーザの数が一人である場合と二人以上である場合とで、異なる内容の対話文を生成することを特徴としてもよい。
これにより、例えば、カウントされた人の数が二人以上である場合には、センシティブな情報の扱いを控え、多人数で会話できるような話題を提供するなど、より適切な話題を選択できるようになる。
また、本発明に係る音声対話装置は、前記カウントされたユーザが、登録されているユーザであるか否かを判定する判定手段をさらに有し、前記対話文生成手段は、登録されていないユーザが自装置の周辺に存在するか否かによって、異なる内容の対話文を生成することを特徴としてもよい。
判定手段は、例えば、マイクやカメラ、センサ等を用いて取得した情報に基づいて、自装置の周辺に存在する人が登録ユーザであるか否かを判定する手段である。判定手段を用いることで、自装置の周辺に登録されていないユーザが存在することを検出することができる。これにより、例えば、登録されているユーザのみがいる場合、予め記憶されたプロファイル情報に基づいて話題を提供し、登録されていないユーザがいる場合は、ユーザに依存しない話題を提供するなど、状況に応じて適切な対話文を生成することができる。
また、前記対話文生成手段は、自装置の周辺に二人以上が存在し、かつ、登録されていないユーザが含まれる場合に、登録されているユーザに関するプライベートな情報を含ませずに前記対話文を生成することを特徴としてもよい。
プライベートな情報とは、典型的にはユーザの個人情報であるが、これ以外であってもよい。例えば、ユーザの行動履歴、購買履歴、学歴、金融資産についての情報など、当該ユーザについてのセンシティブな情報であってもよい。
また、本発明に係る音声対話装置は、登録されたユーザに対応する音声モデルを記憶する第一の記憶手段をさらに有し、前記判定手段は、取得した音声と前記音声モデルを対比した結果に基づいて、前記カウントされたユーザが登録されているユーザであるか否かを判定することを特徴としてもよい。
音声モデルとは、音声の特徴量が定義されたモデルである。かかる構成によると、音声取得手段を利用してユーザの識別を行うことができる。
また、本発明に係る音声対話装置は、自装置周辺の画像を取得する画像取得手段をさらに有し、前記計数手段は、前記取得した画像に基づいて、自装置の周辺に存在するユーザの数をカウントすることを特徴としてもよい。
装置周辺を撮像し画像を取得することで、ユーザ数を正確にカウントすることができる。例えば、取得した画像に含まれる顔を検出し、検出した顔の数に基づいてカウントを行ってもよい。
なお、撮像する範囲は、装置の正面領域などであってもよいが、音声は全方位に到達するため、より広範囲であることが好ましい。
また、本発明に係る音声対話装置は、登録されたユーザに対応するテンプレートを記憶する第二の記憶手段をさらに有し、前記判定手段は、取得した画像に含まれる顔と前記テンプレートとを比較した結果に基づいて、前記カウントされたユーザが登録されているユ
ーザであるか否かを判定することを特徴としてもよい。
画像取得手段を用いてマッチングを行うことで、より正確にユーザの識別を行うことができる。なお、テンプレートとは、テンプレート画像であってもよいし、顔画像から抽出した特徴量であってもよい。
なお、本発明は、上記手段の少なくとも一部を含む音声対話装置として特定することができる。また、前記音声対話装置が行う音声対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、人と対話する音声対話装置において、より適切な対話文を生成することができる。
第一の実施形態に係る音声対話システムのシステム構成図である。 ロボット10を説明する図である。 ロボット10、制御装置20、サーバ装置30間のデータフロー図である。 第二の実施形態に係る音声対話システムのシステム構成図である。 第二の実施形態におけるユーザリストの例である。 第二の実施形態で応答生成部23が行う判定のフローチャートである。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。本実施形態に係る音声対話システムは、音声によってユーザと対話するシステムである。
(第一の実施形態)
<システム構成>
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
ロボット10は、スピーカやマイク等を有しており、ユーザとのインタフェースを担う手段である。ロボット10は、人型やキャラクター型であってもよいし、他の形状・形態であってもよい。例えば、コミュニケーションロボットに組み込まれるコンピュータ等であってもよい。
制御装置20は、ロボット10に対して命令を発行する装置である。また、サーバ装置30は、制御装置20から送信された要求に応じて、ユーザに提供する応答(応答文)を生成する装置である。
本実施形態では、ロボット10はユーザインタフェースとしてのみ機能し、発話内容の認識、応答文の生成、その他の処理など、システム全体を制御する処理は制御装置20およびサーバ装置30が行う。
まず、ロボット10について説明する。ロボット10は、音声入力部11、近距離通信部12、音声出力部13、画像取得部14から構成される。
音声入力部11は、ユーザが発した音声を取得する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは、後述する近距離通信部12を介して制御装置20へ送信される。
近距離通信部12は、制御装置20と近距離無線通信を行う手段である。本実施形態では、近距離通信部12は、Bluetooth(登録商標)規格を利用して通信を行う。近距離通信部12は、ペアリング先となる制御装置20に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Bluetooth規格は、IEEE802.15.1とも呼ばれる。
音声出力部13は、ユーザに提供する音声を出力する手段である。具体的には、内蔵されたスピーカを用いて、制御装置20から送信された音声データを音声に変換する。
画像取得部14は、内蔵されたカメラを用いて、ロボット10の周辺を撮像して画像を取得する手段である。カメラは、図2(A)に示したように、ロボットの前方を向いて設置されているが、他の方位を向いて設置されていてもよい。また、カメラは二台以上であってもよい。例えば、複数のカメラから取得した画像を用いてパノラマ画像を生成してもよい。画像取得部14が取得した画像は、近距離通信部12を介して制御装置20へ送信される。
次に、制御装置20について説明する。制御装置20は、ロボット10の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置20は、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
制御装置20は、近距離通信部21、ユーザ判定部22、応答生成部23、通信部24から構成される。
近距離通信部21が有する機能は、前述した近距離通信部12と同様であるため、詳細な説明は省略する。
ユーザ判定部22は、ロボット10から送信された画像に基づいて、ロボット10の周辺に存在するユーザの数を判定する手段である。本実施形態では、取得した画像から顔を検出し、検出した顔の数を計数することで人数を判定する。判定結果は、応答生成部23へ送信される。
応答生成部23は、ロボット10から音声を取得し、当該取得した音声に対する応答を生成する手段である。具体的には、ロボット10から取得した音声を、通信部23を介してサーバ装置30(いずれも後述)に送信し、音声認識の結果を表すテキストを受信する。そして、取得したテキストに基づいて、ユーザに提供する応答文を生成する。
提供する応答文は、例えば、事前に記憶された対話シナリオ(対話辞書)に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。生成された応答文は、応答生成部23が有する音声合成機能によって音声データに変換され、ロボット10が有する音声出力部13を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。
なお、本実施形態では、応答生成部23は、ユーザ判定部22が判定した人数に応じて異なる内容の応答文を生成する。具体的な方法については後述する。
通信部24は、通信回線(例えば無線LANや携帯電話網)を介してネットワークにアクセスすることで、サーバ装置30との通信を行う手段である。
サーバ装置30は、制御装置20から送信された音声に対して音声認識を実行する装置であり、通信部31および音声認識部32からなる。
通信部31が有する機能は、前述した通信部24と同様であるため、詳細な説明は省略する。
音声認識部32は、制御装置20から送信された音声(すなわち、ロボット10が取得した音声)に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部32には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部23へ送信される。
サーバ装置30も、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
<データフロー>
次に、図1に示した各手段が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図3を参照しながら説明する。
まず、ステップS11で、ロボット10が有する音声入力部11が、ユーザが発話した音声を取得する。取得した音声は音声データに変換され、近距離通信部を介して、制御装置20が有する応答生成部23へ送信される。また、応答生成部23は、取得した音声データを、サーバ装置30が有する音声認識部32へ転送する。
次に、ステップS12で、ロボット10が有する画像取得部14が、カメラを用いて画像を取得する。取得した画像は、近距離通信部12を介して、制御装置20が有するユーザ判定部22へ送信される。
一方、音声データを取得したサーバ装置30(音声認識部32)は、取得した音声データに対して音声認識を行い、テキストに変換する(ステップS13)。音声認識の結果得られたテキストは、応答生成部23へ送信される。
また、ユーザ判定部22は、取得した画像から人の顔を検出し、検出した顔の数をカウントすることで、ロボット10の周辺に存在するユーザの数を判定する(ステップS14)。画像に含まれる顔を検出する方法は公知であるため、詳細な説明は省略する。判定結果(人数)は、応答生成部23へ送信される。
なお、ステップS11とS13、および、ステップS12とS14は任意の順序で実行することができる。
次に、応答生成部23が、音声認識の結果得られた発話の内容と、ユーザ判定部22が出力した人数に基づいて応答文を生成する(ステップS15)。前述したように、応答文は、自装置が有する対話辞書(対話シナリオ)を用いて生成してもよいし、外部にある情報ソース(データベースサーバやウェブサーバ)を用いて生成してもよい。
ステップS15においては、判定された人の数に応じて、異なる方法で応答文を生成する。例えば、判定された人の数が一人であった場合、一対一で行う対話を前提として応答
文を生成し、判定された人の数が二人以上であった場合、一対多で行う対話を前提として応答文を生成する。例えば、複数のユーザに対する問い掛けなどを交えた応答文を生成してもよいし、複数のユーザ同士で会話が進むような応答文を生成してもよい。
この他にも、判定された人の数が一人であり、かつ、当該人物がロボット10の持ち主であると推定できる場合は、パーソナライズされた応答文(例えば、当該持ち主を対話相手と想定した応答文)を生成してもよい。
生成された応答文は、応答生成部23によって音声データに変換され(ステップS16)、ロボット10に送信される。その後、音声出力部13を介して音声データの再生が行われる(ステップS17)。
以上説明したように、本実施形態に係る音声対話システムは、画像に基づいてロボット10の周辺に存在するユーザの数を判定し、判定した人数に基づいて応答文を生成する。これにより、応答のバリエーションを豊かなものにすることができる。
なお、第一の実施形態では、カメラを用いてロボット10の周辺に存在するユーザの数を判定したが、ロボット10の周辺に存在するユーザの数を判定できれば、他の手段(センサ等)を用いてもよい。また、ユーザが所持する端末や無線タグと通信を行うことで、当該ユーザの存在を検知するようにしてもよい。
(第二の実施形態)
第二の実施形態は、ロボット10がユーザの個人情報を記憶しており、当該個人情報を用いて対話を行う実施形態である。
図4は、第二の実施形態に係る対話システムのシステム構成図である。第二の実施形態に係る制御装置20は、ロボット10と対話を行うユーザのプロファイル情報を記憶するプロファイル記憶部25をさらに有している。
プロファイル情報には、ユーザを識別するための情報と、当該ユーザに対してパーソナライズされた応答文を生成するための情報が含まれる。前者は、例えば顔画像から得られる特徴量であり、後者は、個人情報や、ユーザの嗜好に関するデータなどである。プロファイル情報は、ユーザがシステムの利用登録を行う際に生成され、プロファイル記憶部25によって保持される。
第一の実施形態では、ユーザ判定部22が、ステップS14にて人数のみを判定したが、第二の実施形態では、取得した画像を特徴量に変換し、プロファイル情報に含まれる特徴量と比較することでユーザを識別する。また、識別したユーザのリスト(以下、ユーザリスト)を応答生成部23へ送信し、ステップS15で、当該リストに基づいて応答文を生成する。
図5は、ユーザリストの例である。例えば、図5(A)は、登録済みであるユーザが2名と、登録されていないユーザが2名いると判定された場合に送信されるユーザリストの例である。また、図5(B)は、登録済みであるユーザが1名検出された場合に送信されるユーザリストの例である。また、図5(C)は、登録されていないユーザが3名検出された場合に送信されるユーザリストの例である。
第二の実施形態では、応答生成部23が、受信したユーザリストに基づいて応答文を生成する。例えば、図6に示したような場合分けを行い、応答文を生成する。
(ケースA)ユーザが一人である場合
この場合、一対一の対話を前提として応答文を生成する。なお、当該ユーザが登録済み
ユーザである場合、プロファイル情報に含まれる個人情報を用いて応答文を生成する。
(ケースB)ユーザが二人以上であり、全員が登録済みユーザである場合
この場合、一対多の対話を前提として応答文を生成する。また、全員が登録済みであることから、セキュリティ上の問題は発生しないと判断し、プロファイル情報に含まれる個人情報を用いて応答文を生成する。
(ケースC)ユーザが二人以上であり、未登録ユーザが含まれている場合
この場合、一対多の対話を前提として応答文を生成するが、未登録ユーザが存在するため、登録されたユーザに関する個人情報は用いずに応答文を生成する。あるいは、登録されたユーザに関する個人情報のうち、センシティブな情報を除いて応答文を生成する。例えば、個人情報を、オープンな情報とクローズな情報に予め分類したうえで、オープンな情報のみを用いて応答文を生成するようにしてもよい。
第二の実施形態によると、対話相手となるユーザを識別することで、パーソナライズされた応答文を生成することができる。また、未登録ユーザの有無によって、応答文を生成する際に個人情報を用いるか否かを決定するため、センシティブな情報、または、プライバシーに関わる情報を他人に知られることがなくなり、セキュリティが向上する。
(第三の実施形態)
第二の実施形態では、ユーザが行った発話を取得してから画像取得部14が画像を取得した。これに対し、第三の実施形態は、画像取得部14が予め周期的に画像を取得し、蓄積したうえで、過去に取得した画像を遡って判定を行う実施形態である。
第三の実施形態では、ユーザが行った発話を取得した場合に、所定期間内(例えば、5分以内)に取得した画像を遡り、各画像に対して顔の検出を行う。また、所定期間内に取得した画像から顔を検出した場合に、当該ユーザがロボット10の近くに存在すると仮定して処理を行う。かかる構成によると、カメラの死角に存在する人物をより正確に検出することができる。
(第四の実施形態)
第二ないし第三の実施形態では、顔画像のみに基づいてユーザの識別を行った。これに対し、第四の実施形態は、取得した音声にさらに基づいてユーザの識別を行う実施形態である。
第四の実施形態では、プロファイル記憶部25が、音声から得られる特徴量をユーザごとに記憶しており、ステップS14で、ユーザ判定部22が、音声に基づいて取得された特徴量が、登録されたユーザのものと一致するか否かを判定する。このように、音声と画像を併用することで、より正確にユーザを識別することができる。
なお、顔画像に基づく判定と、音声に基づく判定は、併用してもよいし、どちらか片方のみを用いてもよい。例えば、ステップS12で取得した画像に人の顔が含まれていない場合にのみ、音声に基づく判定を実施するようにしてもよい。
また、第三の実施形態と同様に、音声入力部11が取得した音声を蓄積し、過去に取得した音声を遡れるようにしてもよい。例えば、ユーザが発話を行った場合に、所定期間内(例えば、5分以内)に取得した音声を遡り、得られた音声に基づいてユーザの識別を行ってもよい。
(第五の実施形態)
第一ないし第四の実施形態では、固定されたカメラを用いて画像を取得した。これに対し、第五の実施形態は、音声の到来方向を判定してカメラの向きを移動させる実施形態で
ある。
第五の実施形態では、音声入力部11が、図2(B)に示したように複数のマイクを有している。また、ロボットの首がZ軸を中心に回転する構成となっており、これにより、画像取得部14が有するカメラをパンニングさせられる構成となっている。
第五の実施形態では、まず、ユーザ判定部22が、ロボット10から送信された音声データ(本例では3チャンネルぶんの音声データ)を取得する。
そして、ユーザ判定部22が、取得した音声の到来方向を推定し、当該推定した方向にカメラ(ロボットの首)を向けたうえで撮像を行う命令をロボット10に送信する。その後の処理は、図3に示したものと同様である。
なお、複数のマイクを用いることで音声の到来方向を推定する技術は公知であるため、具体的な方法についての説明は省略する。
なお、本実施形態では、カメラ自体をパンニングしたが、ロボット10に駆動手段が備わっている場合、ロボット10自体を移動させてもよい。例えば、音源に接近したうえで画像を取得するようにしてもよい。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、サーバ装置30が音声認識を行ったが、音声認識を行う手段を制御装置20に持たせてもよい。また、各実施形態の説明では、応答文の生成を制御装置30が行ったが、応答文の生成をサーバ装置30が行うようにしてもよい。
また、図6の例では、装置の周辺にいるユーザが全員登録済みであった場合、個人情報を用いて応答文を生成するようにしたが、ユーザが二人以上存在する場合、登録の有無にかかわらず、個人情報を用いず(あるいは、個人情報のうちオープンな情報のみを用いて)に応答文を生成するようにしてもよい。
また、実施形態の説明では、ユーザの数に基づいて応答文の内容を変更したが、ユーザの数に基づいて、対話において用いるパラメータを変更してもよい。例えば、一対一で対話を行う場合、一対多で対話を行う場合と比較して音量を抑えるようにしてもよい。
また、実施形態の説明では、ユーザが行った発話に対してシステムが応答を返す形態について述べたが、応答文の代わりにシステムが自発的に対話文を生成して提供するようにしてもよい。この場合、ステップS11およびS13を省略することも可能である。
10・・・ロボット
11・・・音声入力部
12,21・・・近距離通信部
13・・・音声出力部
14・・・画像取得部
20・・・制御装置
22・・・ユーザ判定部
23・・・応答生成部
24,31・・・通信部
30・・・サーバ装置
32・・・音声認識部

Claims (8)

  1. 音声によってユーザと対話する音声対話装置であって、
    音声を取得する音声取得手段と、
    自装置の周辺に存在するユーザの数をカウントする計数手段と、
    対話文を生成する対話文生成手段と、を有し、
    前記対話文生成手段は、前記計数手段がカウントしたユーザの数に基づいて、前記対話文の内容を決定する、
    音声対話装置。
  2. 前記対話文生成手段は、前記計数手段がカウントしたユーザの数が一人である場合と二人以上である場合とで、異なる内容の対話文を生成する、
    請求項1に記載の音声対話装置。
  3. 前記カウントされたユーザが、登録されているユーザであるか否かを判定する判定手段をさらに有し、
    前記対話文生成手段は、登録されていないユーザが自装置の周辺に存在するか否かによって、異なる内容の対話文を生成する、
    請求項1または2に記載の音声対話装置。
  4. 前記対話文生成手段は、自装置の周辺に二人以上が存在し、かつ、登録されていないユーザが含まれる場合に、登録されているユーザに関するプライベートな情報を含ませずに前記対話文を生成する、
    請求項3に記載の音声対話装置。
  5. 登録されたユーザに対応する音声モデルを記憶する第一の記憶手段をさらに有し、
    前記判定手段は、取得した音声と前記音声モデルを対比した結果に基づいて、前記カウントされたユーザが登録されているユーザであるか否かを判定する、
    請求項3または4に記載の音声対話装置。
  6. 自装置周辺の画像を取得する画像取得手段をさらに有し、
    前記計数手段は、前記取得した画像に基づいて、自装置の周辺に存在するユーザの数をカウントする、
    請求項3から5のいずれかに記載の音声対話装置。
  7. 登録されたユーザに対応するテンプレートを記憶する第二の記憶手段をさらに有し、
    前記判定手段は、取得した画像に含まれる顔と前記テンプレートとを比較した結果に基づいて、前記カウントされたユーザが登録されているユーザであるか否かを判定する、
    請求項6に記載の音声対話装置。
  8. 音声によってユーザと対話する音声対話装置が行う音声対話方法であって、
    音声を取得する音声取得ステップと、
    自装置の周辺に存在するユーザの数をカウントする計数ステップと、
    対話文を生成する対話文生成ステップと、を含み、
    前記対話文生成ステップでは、前記計数手段がカウントしたユーザの数に基づいて、前記対話文の内容を決定する、
    音声対話方法。
JP2016186791A 2016-09-26 2016-09-26 音声対話装置および音声対話方法 Pending JP2018055155A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016186791A JP2018055155A (ja) 2016-09-26 2016-09-26 音声対話装置および音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016186791A JP2018055155A (ja) 2016-09-26 2016-09-26 音声対話装置および音声対話方法

Publications (2)

Publication Number Publication Date
JP2018055155A true JP2018055155A (ja) 2018-04-05
JP2018055155A5 JP2018055155A5 (ja) 2019-02-14

Family

ID=61836688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016186791A Pending JP2018055155A (ja) 2016-09-26 2016-09-26 音声対話装置および音声対話方法

Country Status (1)

Country Link
JP (1) JP2018055155A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109161732A (zh) * 2018-09-17 2019-01-08 广州宇智科技有限公司 一种无凝固收缩的液态调幅分解型Al-Si-In合金
JP2021522636A (ja) * 2018-05-04 2021-08-30 グーグル エルエルシーGoogle LLC ユーザと自動化されたアシスタントインターフェースとの間の距離に応じて自動化されたアシスタントのコンテンツを生成するおよび/または適応させること

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310034A (ja) * 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP2014083658A (ja) * 2012-10-25 2014-05-12 Panasonic Corp 音声エージェント装置、及びその制御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310034A (ja) * 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP2014083658A (ja) * 2012-10-25 2014-05-12 Panasonic Corp 音声エージェント装置、及びその制御方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021522636A (ja) * 2018-05-04 2021-08-30 グーグル エルエルシーGoogle LLC ユーザと自動化されたアシスタントインターフェースとの間の距離に応じて自動化されたアシスタントのコンテンツを生成するおよび/または適応させること
JP7081045B2 (ja) 2018-05-04 2022-06-06 グーグル エルエルシー ユーザと自動化されたアシスタントインターフェースとの間の距離に応じて自動化されたアシスタントのコンテンツを生成するおよび/または適応させること
US11789522B2 (en) 2018-05-04 2023-10-17 Google Llc Generating and/or adapting automated assistant content according to a distance between user(s) and an automated assistant interface
CN109161732A (zh) * 2018-09-17 2019-01-08 广州宇智科技有限公司 一种无凝固收缩的液态调幅分解型Al-Si-In合金

Similar Documents

Publication Publication Date Title
CN110741433B (zh) 使用多个计算设备的对讲式通信
US11289100B2 (en) Selective enrollment with an automated assistant
JP6520878B2 (ja) 音声取得システムおよび音声取得方法
US9293133B2 (en) Improving voice communication over a network
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US9412361B1 (en) Configuring system operation using image data
US20190355352A1 (en) Voice and conversation recognition system
TW201923737A (zh) 交互方法和設備
KR20190022109A (ko) 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
US11704940B2 (en) Enrollment with an automated assistant
JP6497372B2 (ja) 音声対話装置および音声対話方法
JP2019109503A5 (ja)
US20210195500A1 (en) Electronic device for setting up network of external device and method for operating same
US20220180859A1 (en) User speech profile management
JP5849761B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
KR20200092166A (ko) 감정을 인식하는 서버, 방법 및 컴퓨터 프로그램
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
KR102037789B1 (ko) 로봇을 이용한 수화통역시스템
JP7140523B2 (ja) 介護行為推定システム
JP2018055155A (ja) 音声対話装置および音声対話方法
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
KR101933822B1 (ko) 얼굴인식 기반 지능형 스피커, 이를 이용한 능동적인 대화 제공 방법 및 이를 수행하기 위한 기록매체
WO2019202804A1 (ja) 音声処理装置および音声処理方法
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN108174030B (zh) 定制化语音控制的实现方法、移动终端及可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190107

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200303