JP2018055633A

JP2018055633A - 会話システム、端末装置、および、プログラム

Info

Publication number: JP2018055633A
Application number: JP2016194559A
Authority: JP
Inventors: 平田　真章; Masaaki Hirata; 真章平田; 慧渡部; Akira Watanabe; 岩野　裕利; Hirotoshi Iwano; 裕利岩野
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2018-04-05

Abstract

【課題】会話機能を有さない機器との会話を実現する。
【解決手段】画像取得部（２２）は対象機器の撮像画像を取得し、入力情報取得部（２１）はユーザの入力情報を取得し、プロセッサ（４）は、撮像画像を参照して対象機器を特定し、入力情報から入力内容を特定し、特定した対象機器に関連し、入力内容に応じた返答内容を決定し、情報出力部（２３）は決定された返答内容を示すデータを出力する会話システム（１）。
【選択図】図１

Description

本発明は、会話システム、端末装置、および、プログラムに関する。

従来、ユーザとの会話機能を有する機器が知られている。例えば、特許文献１には、発話者との会話に基づいて当該発話者のストレスまたは疲労を判断し、その判断した結果に基づく発話を出力する対話型家電機器が開示されている。

特開２０１６−０８５４７８号公報（２０１６年５月１９日公開）

しかしながら、会話機能を有さない機器とは、会話を行うことはできないという問題がある。

本発明の一態様は、会話機能を有さない機器との会話を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る会話システムは、画像取得部と、入力情報取得部と、情報出力部と、プロセッサとを備え、上記画像取得部が、対象機器の撮像画像を取得し、上記入力情報取得部が、ユーザによる入力情報を取得し、上記プロセッサが、上記画像取得部が取得した撮像画像を参照して対象機器を特定する対象機器特定処理と、上記入力情報取得部が取得したユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、上記特定した対象機器に関連する返答内容であって、上記ユーザの入力内容に応じた返答内容を決定する返答内容決定処理と、を行い、上記情報出力部が、上記決定された返答内容を出力する。

上記の課題を解決するために、本発明の一態様に係る端末装置は、情報出力部と、プロセッサとを備え、上記プロセッサが、撮像画像を参照して対象機器を特定する対象機器特定処理と、ユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、を行い、上記情報出力部が、上記ユーザの入力内容に応じて決定された返答内容を出力する。

上記の課題を解決するために、本発明の一態様に係る制御プログラムは、端末装置としての処理をコンピュータに実行させるための制御プログラムであって、撮像画像を参照して対象機器を特定する対象機器特定処理と、ユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、上記ユーザの入力内容に応じて決定された返答内容を出力する情報出力処理と、をコンピュータに実行させるためのものである。

本発明の一態様によれば、会話機能を有さない機器との会話を実現することができるとの効果を奏する。

本発明の実施形態１に係る会話システムの要部構成を示すブロック図である。本発明の実施形態１に係る会話システムのハードウェア構成の一例を示すブロック図である。本発明の実施形態１に係る会話システムの概要を示す図である。本発明の実施形態１に係る会話システムの利用手順の概要を示す図である。本発明の実施形態１に係る機器ＤＢの構成例を示す図である。本発明の実施形態１に係る会話ＤＢの構成例を示す図である。本発明の実施形態１に係るエージェントＤＢの構成例を示す図である。本発明の実施形態１に係る会話システムの処理を示すフローチャートである。本発明の実施形態２に係る端末の画面例を示す図である。サーバまたは端末として利用可能なコンピュータの構成を例示したブロック図である。

〔実施形態１〕
以下、本発明の実施形態１について、詳細に説明する。

（会話システム１の要部構成）
図１は、本実施形態に係る会話システム１の要部構成を示すブロック図である。会話システム１は、図１に示すように、音声取得部（入力情報取得部）２１、画像取得部２２、音声出力部（情報出力部）２３、画像重畳部２４、画像表示部（表示部）２５、制御部４、機器ＤＢ５１、会話ＤＢ５２、および、エージェントＤＢ５３を備えている。

音声取得部２１、画像取得部２２、音声出力部２３、画像重畳部２４、および、画像表示部２５は、それぞれ単体のハードウェアによって構成されていてもよいし、複数のハードウェアによって分散的に構成されてもよい。

制御部４は、機能ブロックとして、音声検知部４１、音声認識部４２、画像認識部４３、会話生成部４４、音声合成部４５、および、重畳画像生成部４６を備えている。制御部４は、１または複数のプロセッサである。制御部４としては、１個のプロセッサがすべての機能ブロックの処理を実行してもよいし、複数のプロセッサが各機能ブロックの処理を分けて実行してもよい。

音声取得部２１は、入力情報としてユーザによる音声データを取得する。音声検知部４１は、音声取得部２１が取得した音声データにおいて、人の音声の始まりおよび終わりを検知して、人の音声部分を抽出する。音声認識部４２は、音声検知部４１が抽出した音声部分の音声認識を行うことにより、ユーザによる音声データからユーザの発話内容（入力内容）を特定する（入力内容特定処理）。

画像取得部２２は、家電機器（対象機器）６（図３参照）の撮像画像を取得する。画像取得部２２は、例えば、カメラである。機器ＤＢ５１は、機器ごとに、認識用画像と、会話セットＩＤと、エージェントＩＤとを関連付けて記憶する。機器ＤＢ５１の詳細は、後で説明する。画像認識部４３は、画像取得部２２が取得した撮像画像を参照して家電機器６を特定する（対象機器特定処理）。詳細には、画像認識部４３は、画像取得部２２が取得した撮像画像を機器ＤＢ５１の認識用画像と照合し、一致した認識用画像に関連付けられた会話セットＩＤおよびエージェントＩＤを取得する。

会話ＤＢ５２は、会話セットＩＤと、ユーザの発話内容と、会話システム１の返答内容とを関連付けて記憶する。エージェントＤＢ５３は、エージェントＩＤと、モデルデータと、音素データと、表示位置データとを関連付けて記憶する。会話ＤＢ５２およびエージェントＤＢ５３の詳細は、後で説明する。

会話生成部４４は、ユーザの発話内容に応じた返答内容を決定する（返答内容決定処理）。会話生成部４４により決定される返答内容には、画像認識部４３において特定された家電機器６の操作に関する内容が含まれる。詳細には、会話生成部４４は、会話ＤＢ５２を参照して、画像認識部４３が取得した会話セットＩＤ、および、音声認識部４２が特定した発話内容に関連付けられた返答内容を特定する。

音声合成部４５は、会話生成部４４が特定した返答内容を取得し、エージェントＤＢ５３を参照して、エージェントＩＤに関連付けられた音素データを取得し、返答内容を示す音声データを合成する。音声出力部２３は、会話生成部４４により決定された返答内容を音声で出力する。詳細には、音声出力部２３は、音声合成部４５により合成された音声データを出力する。

なお、音声出力部２３は、ハードウェア、および、ソフトウェアの何れか一方で実現してもよいし、ハードウェア、および、ソフトウェアの両方で実現してもよい。音声出力部２３が一部または全部をソフトウェアで実現する場合に、当該ソフトウェア（制御プログラム）は、上記返答内容を音声で出力する音声出力処理（情報出力処理）を行う。

重畳画像生成部４６は、画像認識部４３が特定した家電機器６に関連する画像であるエージェント（キャラクタ）７（図３参照）を特定し（キャラクタデータ特定処理）、当該特定したエージェント７を生成する。重畳画像生成部４６は、当該特定されたエージェント７の画像表示部２５における表示位置を、家電機器６の種別、及び、家電機器６の画像表示部２５における位置に応じて特定する（表示位置特定処理）。

詳細には、重畳画像生成部４６は、エージェントＤＢ５３を参照して、エージェントＩＤに関連付けられたモデルデータおよび表示位置データを取得し、モデルデータからエージェント７を生成する。モデルデータは、例えば、線分、多角形等の組合せにより、立位状態の物体を表現するポリゴンデータである。重畳画像生成部４６は、会話生成部４４が決定した返答内容に応じて、モデルデータに含まれる、物体の位置、向き、首、腕、足の角度等を示すデータを調整することによって、エージェント７を生成する。

画像重畳部２４は、画像取得部２２が取得した画像に、エージェント７の画像を重畳させる。画像重畳部２４は、例えば、エージェント７のポリゴンデータに対してレンダリング処理を行うことにより、家電機器６の画像の撮影方向に応じたエージェント７の画像を生成する。

画像表示部２５は、重畳画像生成部４６により特定されたエージェント７を、家電機器６の画像６ａと共に表示する。画像表示部２５は、重畳画像生成部４６により特定された表示位置に、エージェント７を表示する。画像表示部２５は、例えば、ディスプレイである。詳細には、画像表示部２５は、画像重畳部２４により重畳した画像を表示する。

（会話システム１のハードウェア構成）
図２は、本実施形態に係る会話システム１のハードウェア構成の一例を示すブロック図である。

会話システム１は、図２に示すように、端末（端末装置）２と、サーバ３とを備えている。端末２は、スマートフォン、ヘッドマウントディスプレイ等であるが、それらに限定されることはない。端末２は、音声取得部２１、画像取得部２２、音声出力部２３、画像重畳部２４、画像表示部２５、通信部２６、制御部２７、および、記憶部２８を備えている。音声取得部２１、画像取得部２２、音声出力部２３、画像重畳部２４、および、画像表示部２５は、図１で説明した通りであり、それぞれ単体のハードウェアによって構成されていてもよいし、複数のハードウェアによって分散的に構成されていてもよい。

通信部２６は、サーバ３の通信部３１と通信するための通信インターフェースである。制御部２７は、端末２の各構成要素を統括的に制御する機能を備えている演算装置である。制御部２７は、図１の制御部４の各機能ブロックの処理を実行することが可能である。また、制御部２７は、通信部２６と、他のハードウェアとの間のデータ変換およびデータ転送を行う。記憶部２８には、ＤＢが格納されている。

サーバ３は、通信部３１、制御部３２、および、記憶部３３を備えている。通信部３１は、端末２の通信部２６と通信するための通信インターフェースである。制御部３２は、サーバ３の各構成要素を統括的に制御する機能を備えている演算装置である。制御部３２は、図１の制御部４の各機能ブロックの処理を実行することが可能である。記憶部３３には、ＤＢが格納されている。

端末２の制御部２７と、サーバ３の制御部３２とは、各機能ブロックの処理を分けて実行することが可能である。例えば、図１において、制御部４の枠組み内に点線にて境界を示したように、端末２の制御部２７が音声検知部４１、および、画像認識部４３の処理を実行し、サーバ３の制御部３２が音声認識部４２、会話生成部４４、音声合成部４５、および、重畳画像生成部４６の処理を実行してよいし、他の分け方で機能ブロックの処理を実行してもよい。例えば、端末２の制御部２７の代わりに、サーバ３の制御部３２が、音声検知部４１の処理を実行してもよい。

端末２は、例えば、音声出力部２３と、制御部２７を備え、制御部２７が、撮像画像を参照して家電機器６を特定し（対象機器特定処理）、ユーザによる音声からユーザの入力内容を特定し（入力内容特定処理）、音声出力部２３が、上記ユーザの入力内容に応じて決定された返答内容を出力することとしてもよい。また、制御部２７は、上記特定した家電機器６に関連するエージェント７を特定してもよい（キャラクタデータ特定処理）。さらに、端末２が複数の制御部を備える構成とし、当該複数の制御部が端末２の制御部２７の有する機能を分散処理してもよい。

図３は、本実施形態に係る会話システム１の概要を示す図である。ユーザは、会話の対象とすべき家電機器６に端末２のカメラを向ける。それにより、会話システム１は家電機器６を認識し、端末２はディスプレイに家電機器６の画像６ａおよびエージェント７を表示する。エージェント７は、家電機器６の代わりにユーザと会話するキャラクタである。エージェント７は、会話システム１が家電機器６を認識すると、ディスプレイに表示され、歌を歌う、ダンスをする等のパフォーマンスを行う。なお、会話システム１の処理の詳細は、後で説明する。

エージェント７の表示位置は、家電機器６の種別に応じて設定される。図３に示すように、エージェント７は、画像６ａの上方に表示されているが、これに限定されることなく、例えば、画像６ａの前方に表示されてもよいし、画像６ａの側方に表示されてもよい。また、図３では、家電機器６としてロボット掃除機を示しているが、家電機器６はそれ以外の家電機器であってもよい。例えば、電子レンジ、冷蔵庫等であってもよい。

図４は、本実施形態に係る会話システム１の利用手順の概要を示す図である。まず、Ｓ１に示すように、会話システム１に家電機器６を認識させるために、家電機器６に端末２のカメラを向ける。次に、会話システム１が家電機器６を認識すると、Ｓ２に示すように、端末２がディスプレイに家電機器６およびエージェント７を表示する。エージェント７は、ユーザ向けに挨拶を行う。続いて、Ｓ３に示すように、ユーザが質問すると、エージェント７が回答する。

（ＤＢの構成）
図５は、本実施形態に係る機器ＤＢ５１の構成例を示す図である。機器ＤＢ５１は、画像認識部４３が家電機器６の撮像画像から当該家電機器６の種別を特定するために参照するＤＢである。機器ＤＢ５１には、図５に示すように、ＩＤ、型番、機器名称、認識用画像、会話セットＩＤ、エージェントＩＤが含まれている。

ＩＤは、機器に固有のＩＤである。型番は、機器の型式番号である。機器名称は、機器の名称である。認識用画像は、機器を特定するために家電機器６の撮像画像と照合する画像であり、家電機器６を撮影する角度に応じて複数の画像があってもよい。会話セットＩＤは、当該機器に応じた会話セットに固有のＩＤである。エージェントＩＤは、当該機器に応じたエージェントに固有のＩＤである。

なお、機器ＤＢ５１に２次元コード、製品番号等が含まれるようにして、それらにより機器を特定してもよし、それらと認識用画像とを併用して機器を特定してもよい。

図６は、本実施形態に係る会話ＤＢ５２の構成例を示す図である。会話ＤＢ５２は、会話生成部４４が発話内容から返答内容を特定するために参照するＤＢである。会話ＤＢ５２には、図６に示すように、会話セットＩＤ、会話セット名称、会話データが含まれている。

会話セットＩＤは、会話セットに固有のＩＤである。会話セット名称は、会話セットの名称である。会話データには、発話内容および返答内容が含まれる。発話内容は、ユーザの発話内容であり、詳細には、ユーザが発した音声から特定した文字データのキーワードである。返答内容は、会話システム１の返答内容であり、詳細には、ユーザの発話内容に応じて設定された文字データである。返答内容は、例えば、家電機器６の操作マニュアル、家電機器６のメンテナンスで使う機能に関する。

なお、返答内容には、エージェント７の外観に応じて男性語、または、女性語を設定してもよい。例えば、図６に示す会話ＤＢ５２に含まれる返答内容の「おはよう。今日も頑張って掃除するよ。」を、男性語の「おっす。今日も頑張って掃除するぜ。」に変更してもよい。また、当該返答内容の「壁にぶつかっていないかな。壁から離してね。」を、女性語の「壁にぶつかっていないかしら。壁から離してくださらない。」に変更してもよい。

図７は、本実施形態に係るエージェントＤＢ５３の構成例を示す図である。エージェントＤＢ５３は、音声合成部４５、重畳画像生成部４６がエージェント７を表現するために参照するＤＢである。エージェントＤＢ５３には、図７に示すように、エージェントＩＤ、モデルデータ、音素データ、表示位置データが含まれる。

エージェントＩＤは、エージェントに固有のＩＤである。モデルデータは、エージェント７の外形を示すデータである。モデルデータには、家電機器６に関連したエージェント７を特定するためのデータ、または、家電機器６に関連したエージェント７自体のデータ、エージェント７の動きを表現するためのデータが含まれる。

また、エージェント７を特定するためのデータ、および、家電機器６に関連したエージェント７自体のデータには、エージェント７の服装、持ち物、および、エージェント７の動作の対象物が含まれる。ここで、エージェント７の動作の対象物とは、例えば、エージェント７がハンドルを操作する動きをする場合、当該ハンドルのことであり、エージェント７が釣竿を用いて釣りの動作をする場合、当該釣竿のことである。

さらに、エージェント７の動きを表現するためのデータには、エージェント７が繰り返す動作パターンが含まれる。

音素データは、モデルデータに応じた、出力音声の単位となるデータである。音素データには、言葉、母音、子音、声色、ニュアンス等が含まれる。例えば、エージェント７の外観に応じて言葉、声色を男性的、または、女性的なものに設定してもよい。

表示位置データは、エージェント７が家電機器６の画像６ａとともに画像表示部２５に表示される際の、画像６ａに対するエージェント７の相対的な表示位置およびエージェント７の向きを示す。重畳画像生成部４６は、例えば、図７に示すように、エージェントＩＤ「AGT_COCO_V95」に関連付られた位置表示データを参照し、画像６ａに対するエージェント７の位置として「天板上方中央に起立」を特定し、画像６ａと、エージェント７との間の間隔（ギャップ）として「天板から３ｃｍ」を特定し、エージェント７の向きとして「カメラに対して正面方向」を特定する。

（会話システム１の処理）
図８は、本実施形態に係る会話システム１の処理を示すフローチャートである。主として端末２およびサーバ３の処理について説明する。

端末２は、図８に示すように、会話システム１専用のアプリが起動されると、起動メッセージを再生し、画像取得部２２を家電機器６に向けるようにユーザに促す（Ｓ８０１）。

画像取得部２２が取得した家電機器６の撮影画像により、画像認識部４３が機器を特定できた場合（Ｓ８０２のＹＥＳ）、画像認識部４３は、自身が特定した機器に関する情報を、通信部２６を介してサーバ３に送信する（Ｓ８０６）。機器に関する情報には、機器に対応する会話セットＩＤ、エージェントＩＤが含まれる。

画像認識部４３が機器を特定できなかった場合（Ｓ８０２のＮＯ）、端末２は、２次元コード、リスト選択、製品番号入力等の方法をユーザに促す（Ｓ８０３）。これにより、画像認識部４３が機器を特定できた場合（Ｓ８０４のＹＥＳ）、画像認識部４３は、自身が特定した機器に関する情報を、通信部２６によりサーバ３に送信する（Ｓ８０６）。画像認識部４３が機器を特定できなかった場合（Ｓ８０４のＮＯ）、端末２は、機器を特定できなかった旨をユーザに伝える（Ｓ８０５）。そして、端末２は、再度起動メッセージを再生し、画像取得部２２を家電機器６に向けるようにユーザに促す（Ｓ８０１）。

サーバ３は、図８に示すように、通信部３１により、機器に関する情報を端末２から受信する（Ｓ８０７）。重畳画像生成部４６はエージェント７の画像データを生成し、音声合成部４５はエージェント７の音声データを生成する（Ｓ８０８）。サーバ３は、通信部３１により、画像データおよび音声データを端末２に送信する（Ｓ８０９）。

端末２は、通信部２６により、サーバ３から画像データおよび音声データを受信する（Ｓ８１０）。画像表示部２５は、通信部２６が受信したエージェント７の画像データを表示し、音声出力部２３は、通信部２６が受信した音声データを再生する（Ｓ８１１）。

音声取得部２１は、音声取得部２１が音声データを取得したか否かの判定を繰り返す（Ｓ８１２のＮＯ）。音声取得部２１が音声データを取得した場合（Ｓ８１２のＹＥＳ）、端末２は、通信部２６により、音声データおよび機器に関する情報をサーバ３に送信する（Ｓ８１３）。

サーバ３は、通信部３１により、音声データおよび機器に関する情報を受信する（Ｓ８１４）。音声認識部４２は音声認識を行って発話内容を特定し、会話生成部４４は返答内容を生成する（Ｓ８１５）。重畳画像生成部４６はエージェント７の画像データを生成し、音声合成部４５はエージェント７の音声データを生成し、通信部３１により画像データおよび音声データを端末２に送信する（Ｓ８１６）。

端末２は、通信部２６により、サーバ３から画像データおよび音声データを受信する（Ｓ８１７）。画像表示部２５は、通信部２６が受信したエージェント７の画像データを表示し、音声出力部２３は、通信部２６が受信した音声データを再生する（Ｓ８１８）。そして、音声取得部２１は、自身が音声データを取得したか否かの判定を繰り返す（Ｓ８１２のＮＯ）。

このように、本実施形態における会話システム１では、音声取得部２１は、入力情報としてユーザによる音声を取得し、音声認識部４２は、ユーザによる音声からユーザの発話内容を特定し、会話生成部４４は、ユーザの発話内容に応じた返答内容を決定し、音声出力部２３は、会話生成部４４により決定された返答内容を音声で出力する。そのため、会話システム１は、会話機能を有さない機器との会話を音声により実現することができる。

また、本実施形態における会話システム１では、制御部４は、自身が特定した家電機器６に関連するエージェント７を特定し、画像表示部２５は、制御部４により特定されたエージェント７を、家電機器６の画像６ａと共に表示する。そのため、会話システム１は、家電機器と共に表示されたエージェントとの会話を実現することができる。

また、本実施形態における会話システム１では、制御部４は、自身が特定したエージェント７の画像表示部２５における表示位置を、家電機器６の種別、及び、家電機器６の画像表示部２５における位置に応じて特定し、画像表示部２５は、制御部４により特定された表示位置に、エージェント７を表示する。そのため、会話システム１は、画像表示部において、家電機器に応じた、適切な位置にエージェントを表示することができる。

また、本実施形態における会話システム１では、制御部４において決定される返答内容には、自身に特定された家電機器６の操作に関する内容が含まれる。そのため、会話システム１は、機器の操作に関する会話を実現することができる。

〔実施形態２〕
本発明の実施形態２について、図９に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

図９は、本実施形態に係る端末２の画面例を示す図である。図９に示すように、端末２の画像表示部２５は、エージェント７の上に吹き出し８を表示する。これは、ユーザと、会話システム１との会話を文字で行うものである。すなわち、ユーザが端末２に対して文字入力を行うと、それに応じた返答が吹き出し８の中に表示される。

なお、画像表示部２５は、吹き出し８を表示するための部分を確保するために、エージェント７が立つのではなく、首をかしげる、座る等の姿勢をとるように、エージェント７を表示してもよい。

文字による会話を実現する際には、図１において、音声取得部２１、音声検知部４１、音声認識部４２、音声合成部４５、音声出力部２３を、文字取得部、文字認識部、文字生成部、文字出力部に変更する。文字取得部、および、文字出力部は、単体のハードウェアによって構成されていてもよいし、複数のハードウェアによって分散的に構成されていてもよい。

文字取得部は、ユーザが入力した文字データを取得する。文字認識部は、文字取得部が取得した文字データ（例えば、手書き文字のデータ）を文字コードに変換する。文字生成部は、会話生成部４４により特定された返答内容から文字データを生成する。文字出力部は、文字生成部により生成された文字データをディスプレイに出力する。

上記のように、実施形態１、２に係る会話システム１では、画像取得部２２は、家電機器６の撮像画像を取得し、音声取得部２１または文字取得部である入力情報取得部は、ユーザによる入力情報を取得し、制御部４は、画像取得部２２が取得した撮像画像を参照して家電機器６を特定し、入力情報取得部が取得したユーザによる入力情報からユーザの入力内容を特定し、特定した家電機器６に関連する返答内容であって、ユーザの入力内容に応じた返答内容を決定し、音声出力部２３または文字出力部である情報出力部は、制御部４により決定された返答内容を出力する。そのため、会話システム１は、会話機能を有さない機器との会話を実現することができる。

〔実施形態３〕
上記各実施形態では、１つのサーバ３を用いる例を説明したが、サーバ３の有する各機能が、個別のサーバにて実現されていてもよい。実施形態１において説明したサーバ３の制御部３２を、上記個別のサーバが分散して備える構成としてもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。

〔実施形態４〕
会話システム１、端末２、サーバ３の各ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、会話システム１、端末２、サーバ３のそれぞれを、図１０に示すようなコンピュータ（電子計算機）を用いて構成することができる。

図１０は、会話システム１、端末２、サーバ３として利用可能なコンピュータ９１０の構成を例示したブロック図である。コンピュータ９１０は、バス９１１を介して互いに接続された演算装置（プロセッサ）９１２と、主記憶装置９１３と、補助記憶装置９１４と、入出力インターフェース９１５と、通信インターフェース９１６とを備えている。演算装置９１２、主記憶装置９１３、および補助記憶装置９１４は、それぞれ、例えばＣＰＵ、ＲＡＭ（random access memory）、ハードディスクドライブであってもよい。入出力インターフェース９１５には、ユーザがコンピュータ９１０に各種情報を入力するための入力装置９２０、および、コンピュータ９１０がユーザに各種情報を出力するための出力装置９３０が接続される。入力装置９２０および出力装置９３０は、コンピュータ９１０に内蔵されたものであってもよいし、コンピュータ９１０に接続された（外付けされた）ものであってもよい。例えば、入力装置９２０は、キーボード、マウス、タッチセンサ等であってもよく、出力装置９３０は、ディスプレイ、プリンタ、スピーカ等であってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置９２０および出力装置９３０の双方の機能を有する装置を適用してもよい。そして、通信インターフェース９１６は、コンピュータ９１０が外部の装置と通信するためのインターフェースである。

補助記憶装置９１４には、コンピュータ９１０を会話システム１、端末２、サーバ３として動作させるための各種のプログラムが格納されている。そして、演算装置９１２は、補助記憶装置９１４に格納された上記プログラムを主記憶装置９１３上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ９１０を、会話システム１、端末２、サーバ３が備える各部として機能させる。なお、補助記憶装置９１４が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路等であってもよい。

また、上記プログラムは、コンピュータ９１０の外部から取得してもよく、この場合、任意の伝送媒体（通信ネットワークや放送波等）を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１会話システム
２端末（端末装置）
３サーバ
４制御部（プロセッサ）
６家電機器（対象機器）
７エージェント（キャラクタ）
２１音声取得部（入力情報取得部）
２２画像取得部
２３音声出力部（情報出力部、情報出力処理）
２５画像表示部（表示部）
４２音声認識部（入力内容特定処理）
４３画像認識部（対象機器特定処理）
４４会話生成部（返答内容決定処理）
４６重畳画像生成部（キャラクタデータ特定処理、表示位置特定処理）

Claims

画像取得部と、入力情報取得部と、情報出力部と、プロセッサとを備え、
上記画像取得部は、対象機器の撮像画像を取得し、
上記入力情報取得部は、ユーザによる入力情報を取得し、
上記プロセッサは、
上記画像取得部が取得した撮像画像を参照して対象機器を特定する対象機器特定処理と、
上記入力情報取得部が取得したユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、
上記特定した対象機器に関連する返答内容であって、上記ユーザの入力内容に応じた返答内容を決定する返答内容決定処理と、
を行い、
上記情報出力部は、上記決定された返答内容を出力する
ことを特徴とする会話システム。
上記入力情報取得部は、上記入力情報としてユーザによる音声を取得し、
上記入力内容特定処理は、ユーザによる音声からユーザの発話内容を特定するものであり、
上記返答内容決定処理は、ユーザの発話内容に応じた返答内容を決定するものであり、
上記情報出力部は、上記決定された返答内容を音声で出力する
ことを特徴とする請求項１に記載の会話システム。
上記会話システムは、表示部を備え、
上記プロセッサは、
上記特定した対象機器に関連するキャラクタデータを特定するキャラクタデータ特定処理
を行い、
上記表示部は、上記特定されたキャラクタデータの示す画像を、上記対象機器と共に表示する
ことを特徴とする請求項１または２に記載の会話システム。
上記プロセッサは、
上記キャラクタデータ特定処理において特定されたキャラクタデータの示す画像の上記表示部における表示位置を、上記対象機器の種別、及び、上記対象機器の上記表示部における位置に応じて特定する表示位置特定処理を行い、
上記表示部は、上記表示位置特定処理にて特定された表示位置に、上記キャラクタデータの示す画像を表示する
ことを特徴とする請求項３に記載の会話システム。
上記返答内容決定処理において決定される上記返答内容には、上記対象機器特定処理において特定された対象機器の操作に関する内容が含まれる
ことを特徴とする請求項１から４の何れか１項に記載の会話システム。
情報出力部と、プロセッサとを備え、
上記プロセッサは、
撮像画像を参照して対象機器を特定する対象機器特定処理と、
ユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、
を行い、
上記情報出力部は、上記ユーザの入力内容に応じて決定された返答内容を出力する
ことを特徴とする端末装置。
上記端末装置は、表示部を備え、
上記表示部は、上記対象機器に関連するキャラクタデータの示す画像を、上記対象機器と共に表示する
をさらに行うことを特徴とする請求項６に記載の端末装置。
端末装置としての処理をコンピュータに実行させるための制御プログラムであって、
撮像画像を参照して対象機器を特定する対象機器特定処理と、
ユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、
上記ユーザの入力内容に応じて決定された返答内容を出力する情報出力処理と、
をコンピュータに実行させるための制御プログラム。