JP2018055633A - 会話システム、端末装置、および、プログラム - Google Patents
会話システム、端末装置、および、プログラム Download PDFInfo
- Publication number
- JP2018055633A JP2018055633A JP2016194559A JP2016194559A JP2018055633A JP 2018055633 A JP2018055633 A JP 2018055633A JP 2016194559 A JP2016194559 A JP 2016194559A JP 2016194559 A JP2016194559 A JP 2016194559A JP 2018055633 A JP2018055633 A JP 2018055633A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- user
- content
- image
- target device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】会話機能を有さない機器との会話を実現する。
【解決手段】画像取得部(22)は対象機器の撮像画像を取得し、入力情報取得部(21)はユーザの入力情報を取得し、プロセッサ(4)は、撮像画像を参照して対象機器を特定し、入力情報から入力内容を特定し、特定した対象機器に関連し、入力内容に応じた返答内容を決定し、情報出力部(23)は決定された返答内容を示すデータを出力する会話システム(1)。
【選択図】図1
【解決手段】画像取得部(22)は対象機器の撮像画像を取得し、入力情報取得部(21)はユーザの入力情報を取得し、プロセッサ(4)は、撮像画像を参照して対象機器を特定し、入力情報から入力内容を特定し、特定した対象機器に関連し、入力内容に応じた返答内容を決定し、情報出力部(23)は決定された返答内容を示すデータを出力する会話システム(1)。
【選択図】図1
Description
本発明は、会話システム、端末装置、および、プログラムに関する。
従来、ユーザとの会話機能を有する機器が知られている。例えば、特許文献1には、発話者との会話に基づいて当該発話者のストレスまたは疲労を判断し、その判断した結果に基づく発話を出力する対話型家電機器が開示されている。
しかしながら、会話機能を有さない機器とは、会話を行うことはできないという問題がある。
本発明の一態様は、会話機能を有さない機器との会話を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る会話システムは、画像取得部と、入力情報取得部と、情報出力部と、プロセッサとを備え、上記画像取得部が、対象機器の撮像画像を取得し、上記入力情報取得部が、ユーザによる入力情報を取得し、上記プロセッサが、上記画像取得部が取得した撮像画像を参照して対象機器を特定する対象機器特定処理と、上記入力情報取得部が取得したユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、上記特定した対象機器に関連する返答内容であって、上記ユーザの入力内容に応じた返答内容を決定する返答内容決定処理と、を行い、上記情報出力部が、上記決定された返答内容を出力する。
上記の課題を解決するために、本発明の一態様に係る端末装置は、情報出力部と、プロセッサとを備え、上記プロセッサが、撮像画像を参照して対象機器を特定する対象機器特定処理と、ユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、を行い、上記情報出力部が、上記ユーザの入力内容に応じて決定された返答内容を出力する。
上記の課題を解決するために、本発明の一態様に係る制御プログラムは、端末装置としての処理をコンピュータに実行させるための制御プログラムであって、撮像画像を参照して対象機器を特定する対象機器特定処理と、ユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、上記ユーザの入力内容に応じて決定された返答内容を出力する情報出力処理と、をコンピュータに実行させるためのものである。
本発明の一態様によれば、会話機能を有さない機器との会話を実現することができるとの効果を奏する。
〔実施形態1〕
以下、本発明の実施形態1について、詳細に説明する。
以下、本発明の実施形態1について、詳細に説明する。
(会話システム1の要部構成)
図1は、本実施形態に係る会話システム1の要部構成を示すブロック図である。会話システム1は、図1に示すように、音声取得部(入力情報取得部)21、画像取得部22、音声出力部(情報出力部)23、画像重畳部24、画像表示部(表示部)25、制御部4、機器DB51、会話DB52、および、エージェントDB53を備えている。
図1は、本実施形態に係る会話システム1の要部構成を示すブロック図である。会話システム1は、図1に示すように、音声取得部(入力情報取得部)21、画像取得部22、音声出力部(情報出力部)23、画像重畳部24、画像表示部(表示部)25、制御部4、機器DB51、会話DB52、および、エージェントDB53を備えている。
音声取得部21、画像取得部22、音声出力部23、画像重畳部24、および、画像表示部25は、それぞれ単体のハードウェアによって構成されていてもよいし、複数のハードウェアによって分散的に構成されてもよい。
制御部4は、機能ブロックとして、音声検知部41、音声認識部42、画像認識部43、会話生成部44、音声合成部45、および、重畳画像生成部46を備えている。制御部4は、1または複数のプロセッサである。制御部4としては、1個のプロセッサがすべての機能ブロックの処理を実行してもよいし、複数のプロセッサが各機能ブロックの処理を分けて実行してもよい。
音声取得部21は、入力情報としてユーザによる音声データを取得する。音声検知部41は、音声取得部21が取得した音声データにおいて、人の音声の始まりおよび終わりを検知して、人の音声部分を抽出する。音声認識部42は、音声検知部41が抽出した音声部分の音声認識を行うことにより、ユーザによる音声データからユーザの発話内容(入力内容)を特定する(入力内容特定処理)。
画像取得部22は、家電機器(対象機器)6(図3参照)の撮像画像を取得する。画像取得部22は、例えば、カメラである。機器DB51は、機器ごとに、認識用画像と、会話セットIDと、エージェントIDとを関連付けて記憶する。機器DB51の詳細は、後で説明する。画像認識部43は、画像取得部22が取得した撮像画像を参照して家電機器6を特定する(対象機器特定処理)。詳細には、画像認識部43は、画像取得部22が取得した撮像画像を機器DB51の認識用画像と照合し、一致した認識用画像に関連付けられた会話セットIDおよびエージェントIDを取得する。
会話DB52は、会話セットIDと、ユーザの発話内容と、会話システム1の返答内容とを関連付けて記憶する。エージェントDB53は、エージェントIDと、モデルデータと、音素データと、表示位置データとを関連付けて記憶する。会話DB52およびエージェントDB53の詳細は、後で説明する。
会話生成部44は、ユーザの発話内容に応じた返答内容を決定する(返答内容決定処理)。会話生成部44により決定される返答内容には、画像認識部43において特定された家電機器6の操作に関する内容が含まれる。詳細には、会話生成部44は、会話DB52を参照して、画像認識部43が取得した会話セットID、および、音声認識部42が特定した発話内容に関連付けられた返答内容を特定する。
音声合成部45は、会話生成部44が特定した返答内容を取得し、エージェントDB53を参照して、エージェントIDに関連付けられた音素データを取得し、返答内容を示す音声データを合成する。音声出力部23は、会話生成部44により決定された返答内容を音声で出力する。詳細には、音声出力部23は、音声合成部45により合成された音声データを出力する。
なお、音声出力部23は、ハードウェア、および、ソフトウェアの何れか一方で実現してもよいし、ハードウェア、および、ソフトウェアの両方で実現してもよい。音声出力部23が一部または全部をソフトウェアで実現する場合に、当該ソフトウェア(制御プログラム)は、上記返答内容を音声で出力する音声出力処理(情報出力処理)を行う。
重畳画像生成部46は、画像認識部43が特定した家電機器6に関連する画像であるエージェント(キャラクタ)7(図3参照)を特定し(キャラクタデータ特定処理)、当該特定したエージェント7を生成する。重畳画像生成部46は、当該特定されたエージェント7の画像表示部25における表示位置を、家電機器6の種別、及び、家電機器6の画像表示部25における位置に応じて特定する(表示位置特定処理)。
詳細には、重畳画像生成部46は、エージェントDB53を参照して、エージェントIDに関連付けられたモデルデータおよび表示位置データを取得し、モデルデータからエージェント7を生成する。モデルデータは、例えば、線分、多角形等の組合せにより、立位状態の物体を表現するポリゴンデータである。重畳画像生成部46は、会話生成部44が決定した返答内容に応じて、モデルデータに含まれる、物体の位置、向き、首、腕、足の角度等を示すデータを調整することによって、エージェント7を生成する。
画像重畳部24は、画像取得部22が取得した画像に、エージェント7の画像を重畳させる。画像重畳部24は、例えば、エージェント7のポリゴンデータに対してレンダリング処理を行うことにより、家電機器6の画像の撮影方向に応じたエージェント7の画像を生成する。
画像表示部25は、重畳画像生成部46により特定されたエージェント7を、家電機器6の画像6aと共に表示する。画像表示部25は、重畳画像生成部46により特定された表示位置に、エージェント7を表示する。画像表示部25は、例えば、ディスプレイである。詳細には、画像表示部25は、画像重畳部24により重畳した画像を表示する。
(会話システム1のハードウェア構成)
図2は、本実施形態に係る会話システム1のハードウェア構成の一例を示すブロック図である。
図2は、本実施形態に係る会話システム1のハードウェア構成の一例を示すブロック図である。
会話システム1は、図2に示すように、端末(端末装置)2と、サーバ3とを備えている。端末2は、スマートフォン、ヘッドマウントディスプレイ等であるが、それらに限定されることはない。端末2は、音声取得部21、画像取得部22、音声出力部23、画像重畳部24、画像表示部25、通信部26、制御部27、および、記憶部28を備えている。音声取得部21、画像取得部22、音声出力部23、画像重畳部24、および、画像表示部25は、図1で説明した通りであり、それぞれ単体のハードウェアによって構成されていてもよいし、複数のハードウェアによって分散的に構成されていてもよい。
通信部26は、サーバ3の通信部31と通信するための通信インターフェースである。制御部27は、端末2の各構成要素を統括的に制御する機能を備えている演算装置である。制御部27は、図1の制御部4の各機能ブロックの処理を実行することが可能である。また、制御部27は、通信部26と、他のハードウェアとの間のデータ変換およびデータ転送を行う。記憶部28には、DBが格納されている。
サーバ3は、通信部31、制御部32、および、記憶部33を備えている。通信部31は、端末2の通信部26と通信するための通信インターフェースである。制御部32は、サーバ3の各構成要素を統括的に制御する機能を備えている演算装置である。制御部32は、図1の制御部4の各機能ブロックの処理を実行することが可能である。記憶部33には、DBが格納されている。
端末2の制御部27と、サーバ3の制御部32とは、各機能ブロックの処理を分けて実行することが可能である。例えば、図1において、制御部4の枠組み内に点線にて境界を示したように、端末2の制御部27が音声検知部41、および、画像認識部43の処理を実行し、サーバ3の制御部32が音声認識部42、会話生成部44、音声合成部45、および、重畳画像生成部46の処理を実行してよいし、他の分け方で機能ブロックの処理を実行してもよい。例えば、端末2の制御部27の代わりに、サーバ3の制御部32が、音声検知部41の処理を実行してもよい。
端末2は、例えば、音声出力部23と、制御部27を備え、制御部27が、撮像画像を参照して家電機器6を特定し(対象機器特定処理)、ユーザによる音声からユーザの入力内容を特定し(入力内容特定処理)、音声出力部23が、上記ユーザの入力内容に応じて決定された返答内容を出力することとしてもよい。また、制御部27は、上記特定した家電機器6に関連するエージェント7を特定してもよい(キャラクタデータ特定処理)。さらに、端末2が複数の制御部を備える構成とし、当該複数の制御部が端末2の制御部27の有する機能を分散処理してもよい。
図3は、本実施形態に係る会話システム1の概要を示す図である。ユーザは、会話の対象とすべき家電機器6に端末2のカメラを向ける。それにより、会話システム1は家電機器6を認識し、端末2はディスプレイに家電機器6の画像6aおよびエージェント7を表示する。エージェント7は、家電機器6の代わりにユーザと会話するキャラクタである。エージェント7は、会話システム1が家電機器6を認識すると、ディスプレイに表示され、歌を歌う、ダンスをする等のパフォーマンスを行う。なお、会話システム1の処理の詳細は、後で説明する。
エージェント7の表示位置は、家電機器6の種別に応じて設定される。図3に示すように、エージェント7は、画像6aの上方に表示されているが、これに限定されることなく、例えば、画像6aの前方に表示されてもよいし、画像6aの側方に表示されてもよい。また、図3では、家電機器6としてロボット掃除機を示しているが、家電機器6はそれ以外の家電機器であってもよい。例えば、電子レンジ、冷蔵庫等であってもよい。
図4は、本実施形態に係る会話システム1の利用手順の概要を示す図である。まず、S1に示すように、会話システム1に家電機器6を認識させるために、家電機器6に端末2のカメラを向ける。次に、会話システム1が家電機器6を認識すると、S2に示すように、端末2がディスプレイに家電機器6およびエージェント7を表示する。エージェント7は、ユーザ向けに挨拶を行う。続いて、S3に示すように、ユーザが質問すると、エージェント7が回答する。
(DBの構成)
図5は、本実施形態に係る機器DB51の構成例を示す図である。機器DB51は、画像認識部43が家電機器6の撮像画像から当該家電機器6の種別を特定するために参照するDBである。機器DB51には、図5に示すように、ID、型番、機器名称、認識用画像、会話セットID、エージェントIDが含まれている。
図5は、本実施形態に係る機器DB51の構成例を示す図である。機器DB51は、画像認識部43が家電機器6の撮像画像から当該家電機器6の種別を特定するために参照するDBである。機器DB51には、図5に示すように、ID、型番、機器名称、認識用画像、会話セットID、エージェントIDが含まれている。
IDは、機器に固有のIDである。型番は、機器の型式番号である。機器名称は、機器の名称である。認識用画像は、機器を特定するために家電機器6の撮像画像と照合する画像であり、家電機器6を撮影する角度に応じて複数の画像があってもよい。会話セットIDは、当該機器に応じた会話セットに固有のIDである。エージェントIDは、当該機器に応じたエージェントに固有のIDである。
なお、機器DB51に2次元コード、製品番号等が含まれるようにして、それらにより機器を特定してもよし、それらと認識用画像とを併用して機器を特定してもよい。
図6は、本実施形態に係る会話DB52の構成例を示す図である。会話DB52は、会話生成部44が発話内容から返答内容を特定するために参照するDBである。会話DB52には、図6に示すように、会話セットID、会話セット名称、会話データが含まれている。
会話セットIDは、会話セットに固有のIDである。会話セット名称は、会話セットの名称である。会話データには、発話内容および返答内容が含まれる。発話内容は、ユーザの発話内容であり、詳細には、ユーザが発した音声から特定した文字データのキーワードである。返答内容は、会話システム1の返答内容であり、詳細には、ユーザの発話内容に応じて設定された文字データである。返答内容は、例えば、家電機器6の操作マニュアル、家電機器6のメンテナンスで使う機能に関する。
なお、返答内容には、エージェント7の外観に応じて男性語、または、女性語を設定してもよい。例えば、図6に示す会話DB52に含まれる返答内容の「おはよう。今日も頑張って掃除するよ。」を、男性語の「おっす。今日も頑張って掃除するぜ。」に変更してもよい。また、当該返答内容の「壁にぶつかっていないかな。壁から離してね。」を、女性語の「壁にぶつかっていないかしら。壁から離してくださらない。」に変更してもよい。
図7は、本実施形態に係るエージェントDB53の構成例を示す図である。エージェントDB53は、音声合成部45、重畳画像生成部46がエージェント7を表現するために参照するDBである。エージェントDB53には、図7に示すように、エージェントID、モデルデータ、音素データ、表示位置データが含まれる。
エージェントIDは、エージェントに固有のIDである。モデルデータは、エージェント7の外形を示すデータである。モデルデータには、家電機器6に関連したエージェント7を特定するためのデータ、または、家電機器6に関連したエージェント7自体のデータ、エージェント7の動きを表現するためのデータが含まれる。
また、エージェント7を特定するためのデータ、および、家電機器6に関連したエージェント7自体のデータには、エージェント7の服装、持ち物、および、エージェント7の動作の対象物が含まれる。ここで、エージェント7の動作の対象物とは、例えば、エージェント7がハンドルを操作する動きをする場合、当該ハンドルのことであり、エージェント7が釣竿を用いて釣りの動作をする場合、当該釣竿のことである。
さらに、エージェント7の動きを表現するためのデータには、エージェント7が繰り返す動作パターンが含まれる。
音素データは、モデルデータに応じた、出力音声の単位となるデータである。音素データには、言葉、母音、子音、声色、ニュアンス等が含まれる。例えば、エージェント7の外観に応じて言葉、声色を男性的、または、女性的なものに設定してもよい。
表示位置データは、エージェント7が家電機器6の画像6aとともに画像表示部25に表示される際の、画像6aに対するエージェント7の相対的な表示位置およびエージェント7の向きを示す。重畳画像生成部46は、例えば、図7に示すように、エージェントID「AGT_COCO_V95」に関連付られた位置表示データを参照し、画像6aに対するエージェント7の位置として「天板上方中央に起立」を特定し、画像6aと、エージェント7との間の間隔(ギャップ)として「天板から3cm」を特定し、エージェント7の向きとして「カメラに対して正面方向」を特定する。
(会話システム1の処理)
図8は、本実施形態に係る会話システム1の処理を示すフローチャートである。主として端末2およびサーバ3の処理について説明する。
図8は、本実施形態に係る会話システム1の処理を示すフローチャートである。主として端末2およびサーバ3の処理について説明する。
端末2は、図8に示すように、会話システム1専用のアプリが起動されると、起動メッセージを再生し、画像取得部22を家電機器6に向けるようにユーザに促す(S801)。
画像取得部22が取得した家電機器6の撮影画像により、画像認識部43が機器を特定できた場合(S802のYES)、画像認識部43は、自身が特定した機器に関する情報を、通信部26を介してサーバ3に送信する(S806)。機器に関する情報には、機器に対応する会話セットID、エージェントIDが含まれる。
画像認識部43が機器を特定できなかった場合(S802のNO)、端末2は、2次元コード、リスト選択、製品番号入力等の方法をユーザに促す(S803)。これにより、画像認識部43が機器を特定できた場合(S804のYES)、画像認識部43は、自身が特定した機器に関する情報を、通信部26によりサーバ3に送信する(S806)。画像認識部43が機器を特定できなかった場合(S804のNO)、端末2は、機器を特定できなかった旨をユーザに伝える(S805)。そして、端末2は、再度起動メッセージを再生し、画像取得部22を家電機器6に向けるようにユーザに促す(S801)。
サーバ3は、図8に示すように、通信部31により、機器に関する情報を端末2から受信する(S807)。重畳画像生成部46はエージェント7の画像データを生成し、音声合成部45はエージェント7の音声データを生成する(S808)。サーバ3は、通信部31により、画像データおよび音声データを端末2に送信する(S809)。
端末2は、通信部26により、サーバ3から画像データおよび音声データを受信する(S810)。画像表示部25は、通信部26が受信したエージェント7の画像データを表示し、音声出力部23は、通信部26が受信した音声データを再生する(S811)。
音声取得部21は、音声取得部21が音声データを取得したか否かの判定を繰り返す(S812のNO)。音声取得部21が音声データを取得した場合(S812のYES)、端末2は、通信部26により、音声データおよび機器に関する情報をサーバ3に送信する(S813)。
サーバ3は、通信部31により、音声データおよび機器に関する情報を受信する(S814)。音声認識部42は音声認識を行って発話内容を特定し、会話生成部44は返答内容を生成する(S815)。重畳画像生成部46はエージェント7の画像データを生成し、音声合成部45はエージェント7の音声データを生成し、通信部31により画像データおよび音声データを端末2に送信する(S816)。
端末2は、通信部26により、サーバ3から画像データおよび音声データを受信する(S817)。画像表示部25は、通信部26が受信したエージェント7の画像データを表示し、音声出力部23は、通信部26が受信した音声データを再生する(S818)。そして、音声取得部21は、自身が音声データを取得したか否かの判定を繰り返す(S812のNO)。
このように、本実施形態における会話システム1では、音声取得部21は、入力情報としてユーザによる音声を取得し、音声認識部42は、ユーザによる音声からユーザの発話内容を特定し、会話生成部44は、ユーザの発話内容に応じた返答内容を決定し、音声出力部23は、会話生成部44により決定された返答内容を音声で出力する。そのため、会話システム1は、会話機能を有さない機器との会話を音声により実現することができる。
また、本実施形態における会話システム1では、制御部4は、自身が特定した家電機器6に関連するエージェント7を特定し、画像表示部25は、制御部4により特定されたエージェント7を、家電機器6の画像6aと共に表示する。そのため、会話システム1は、家電機器と共に表示されたエージェントとの会話を実現することができる。
また、本実施形態における会話システム1では、制御部4は、自身が特定したエージェント7の画像表示部25における表示位置を、家電機器6の種別、及び、家電機器6の画像表示部25における位置に応じて特定し、画像表示部25は、制御部4により特定された表示位置に、エージェント7を表示する。そのため、会話システム1は、画像表示部において、家電機器に応じた、適切な位置にエージェントを表示することができる。
また、本実施形態における会話システム1では、制御部4において決定される返答内容には、自身に特定された家電機器6の操作に関する内容が含まれる。そのため、会話システム1は、機器の操作に関する会話を実現することができる。
〔実施形態2〕
本発明の実施形態2について、図9に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本発明の実施形態2について、図9に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
図9は、本実施形態に係る端末2の画面例を示す図である。図9に示すように、端末2の画像表示部25は、エージェント7の上に吹き出し8を表示する。これは、ユーザと、会話システム1との会話を文字で行うものである。すなわち、ユーザが端末2に対して文字入力を行うと、それに応じた返答が吹き出し8の中に表示される。
なお、画像表示部25は、吹き出し8を表示するための部分を確保するために、エージェント7が立つのではなく、首をかしげる、座る等の姿勢をとるように、エージェント7を表示してもよい。
文字による会話を実現する際には、図1において、音声取得部21、音声検知部41、音声認識部42、音声合成部45、音声出力部23を、文字取得部、文字認識部、文字生成部、文字出力部に変更する。文字取得部、および、文字出力部は、単体のハードウェアによって構成されていてもよいし、複数のハードウェアによって分散的に構成されていてもよい。
文字取得部は、ユーザが入力した文字データを取得する。文字認識部は、文字取得部が取得した文字データ(例えば、手書き文字のデータ)を文字コードに変換する。文字生成部は、会話生成部44により特定された返答内容から文字データを生成する。文字出力部は、文字生成部により生成された文字データをディスプレイに出力する。
上記のように、実施形態1、2に係る会話システム1では、画像取得部22は、家電機器6の撮像画像を取得し、音声取得部21または文字取得部である入力情報取得部は、ユーザによる入力情報を取得し、制御部4は、画像取得部22が取得した撮像画像を参照して家電機器6を特定し、入力情報取得部が取得したユーザによる入力情報からユーザの入力内容を特定し、特定した家電機器6に関連する返答内容であって、ユーザの入力内容に応じた返答内容を決定し、音声出力部23または文字出力部である情報出力部は、制御部4により決定された返答内容を出力する。そのため、会話システム1は、会話機能を有さない機器との会話を実現することができる。
〔実施形態3〕
上記各実施形態では、1つのサーバ3を用いる例を説明したが、サーバ3の有する各機能が、個別のサーバにて実現されていてもよい。実施形態1において説明したサーバ3の制御部32を、上記個別のサーバが分散して備える構成としてもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。
上記各実施形態では、1つのサーバ3を用いる例を説明したが、サーバ3の有する各機能が、個別のサーバにて実現されていてもよい。実施形態1において説明したサーバ3の制御部32を、上記個別のサーバが分散して備える構成としてもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。
〔実施形態4〕
会話システム1、端末2、サーバ3の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、会話システム1、端末2、サーバ3のそれぞれを、図10に示すようなコンピュータ(電子計算機)を用いて構成することができる。
会話システム1、端末2、サーバ3の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、会話システム1、端末2、サーバ3のそれぞれを、図10に示すようなコンピュータ(電子計算機)を用いて構成することができる。
図10は、会話システム1、端末2、サーバ3として利用可能なコンピュータ910の構成を例示したブロック図である。コンピュータ910は、バス911を介して互いに接続された演算装置(プロセッサ)912と、主記憶装置913と、補助記憶装置914と、入出力インターフェース915と、通信インターフェース916とを備えている。演算装置912、主記憶装置913、および補助記憶装置914は、それぞれ、例えばCPU、RAM(random access memory)、ハードディスクドライブであってもよい。入出力インターフェース915には、ユーザがコンピュータ910に各種情報を入力するための入力装置920、および、コンピュータ910がユーザに各種情報を出力するための出力装置930が接続される。入力装置920および出力装置930は、コンピュータ910に内蔵されたものであってもよいし、コンピュータ910に接続された(外付けされた)ものであってもよい。例えば、入力装置920は、キーボード、マウス、タッチセンサ等であってもよく、出力装置930は、ディスプレイ、プリンタ、スピーカ等であってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置920および出力装置930の双方の機能を有する装置を適用してもよい。そして、通信インターフェース916は、コンピュータ910が外部の装置と通信するためのインターフェースである。
補助記憶装置914には、コンピュータ910を会話システム1、端末2、サーバ3として動作させるための各種のプログラムが格納されている。そして、演算装置912は、補助記憶装置914に格納された上記プログラムを主記憶装置913上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ910を、会話システム1、端末2、サーバ3が備える各部として機能させる。なお、補助記憶装置914が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路等であってもよい。
また、上記プログラムは、コンピュータ910の外部から取得してもよく、この場合、任意の伝送媒体(通信ネットワークや放送波等)を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 会話システム
2 端末(端末装置)
3 サーバ
4 制御部(プロセッサ)
6 家電機器(対象機器)
7 エージェント(キャラクタ)
21 音声取得部(入力情報取得部)
22 画像取得部
23 音声出力部(情報出力部、情報出力処理)
25 画像表示部(表示部)
42 音声認識部(入力内容特定処理)
43 画像認識部(対象機器特定処理)
44 会話生成部(返答内容決定処理)
46 重畳画像生成部(キャラクタデータ特定処理、表示位置特定処理)
2 端末(端末装置)
3 サーバ
4 制御部(プロセッサ)
6 家電機器(対象機器)
7 エージェント(キャラクタ)
21 音声取得部(入力情報取得部)
22 画像取得部
23 音声出力部(情報出力部、情報出力処理)
25 画像表示部(表示部)
42 音声認識部(入力内容特定処理)
43 画像認識部(対象機器特定処理)
44 会話生成部(返答内容決定処理)
46 重畳画像生成部(キャラクタデータ特定処理、表示位置特定処理)
Claims (8)
- 画像取得部と、入力情報取得部と、情報出力部と、プロセッサとを備え、
上記画像取得部は、対象機器の撮像画像を取得し、
上記入力情報取得部は、ユーザによる入力情報を取得し、
上記プロセッサは、
上記画像取得部が取得した撮像画像を参照して対象機器を特定する対象機器特定処理と、
上記入力情報取得部が取得したユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、
上記特定した対象機器に関連する返答内容であって、上記ユーザの入力内容に応じた返答内容を決定する返答内容決定処理と、
を行い、
上記情報出力部は、上記決定された返答内容を出力する
ことを特徴とする会話システム。 - 上記入力情報取得部は、上記入力情報としてユーザによる音声を取得し、
上記入力内容特定処理は、ユーザによる音声からユーザの発話内容を特定するものであり、
上記返答内容決定処理は、ユーザの発話内容に応じた返答内容を決定するものであり、
上記情報出力部は、上記決定された返答内容を音声で出力する
ことを特徴とする請求項1に記載の会話システム。 - 上記会話システムは、表示部を備え、
上記プロセッサは、
上記特定した対象機器に関連するキャラクタデータを特定するキャラクタデータ特定処理
を行い、
上記表示部は、上記特定されたキャラクタデータの示す画像を、上記対象機器と共に表示する
ことを特徴とする請求項1または2に記載の会話システム。 - 上記プロセッサは、
上記キャラクタデータ特定処理において特定されたキャラクタデータの示す画像の上記表示部における表示位置を、上記対象機器の種別、及び、上記対象機器の上記表示部における位置に応じて特定する表示位置特定処理を行い、
上記表示部は、上記表示位置特定処理にて特定された表示位置に、上記キャラクタデータの示す画像を表示する
ことを特徴とする請求項3に記載の会話システム。 - 上記返答内容決定処理において決定される上記返答内容には、上記対象機器特定処理において特定された対象機器の操作に関する内容が含まれる
ことを特徴とする請求項1から4の何れか1項に記載の会話システム。 - 情報出力部と、プロセッサとを備え、
上記プロセッサは、
撮像画像を参照して対象機器を特定する対象機器特定処理と、
ユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、
を行い、
上記情報出力部は、上記ユーザの入力内容に応じて決定された返答内容を出力する
ことを特徴とする端末装置。 - 上記端末装置は、表示部を備え、
上記表示部は、上記対象機器に関連するキャラクタデータの示す画像を、上記対象機器と共に表示する
をさらに行うことを特徴とする請求項6に記載の端末装置。 - 端末装置としての処理をコンピュータに実行させるための制御プログラムであって、
撮像画像を参照して対象機器を特定する対象機器特定処理と、
ユーザによる入力情報からユーザの入力内容を特定する入力内容特定処理と、
上記ユーザの入力内容に応じて決定された返答内容を出力する情報出力処理と、
をコンピュータに実行させるための制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016194559A JP2018055633A (ja) | 2016-09-30 | 2016-09-30 | 会話システム、端末装置、および、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016194559A JP2018055633A (ja) | 2016-09-30 | 2016-09-30 | 会話システム、端末装置、および、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018055633A true JP2018055633A (ja) | 2018-04-05 |
Family
ID=61836777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016194559A Pending JP2018055633A (ja) | 2016-09-30 | 2016-09-30 | 会話システム、端末装置、および、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018055633A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112823341A (zh) * | 2018-10-05 | 2021-05-18 | 三菱电机株式会社 | 语音操作支援系统、语音操作系统、语音处理装置、语音操作支援装置、语音操作支援方法以及程序 |
JP2022017239A (ja) * | 2018-10-05 | 2022-01-25 | 三菱電機株式会社 | 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム |
JP7511711B2 (ja) | 2021-09-30 | 2024-07-05 | 三菱電機株式会社 | 音声操作支援システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249685A (ja) * | 2000-03-03 | 2001-09-14 | Alpine Electronics Inc | 音声対話装置 |
JP2013092811A (ja) * | 2011-09-30 | 2013-05-16 | Toshiba Corp | 電子機器およびプログラム |
JP2014093036A (ja) * | 2012-11-06 | 2014-05-19 | Konica Minolta Inc | 案内情報表示装置 |
JP2015184563A (ja) * | 2014-03-25 | 2015-10-22 | シャープ株式会社 | 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム |
JP2016156845A (ja) * | 2015-02-23 | 2016-09-01 | Kddi株式会社 | ユーザ対話システムと共にユーザ操作を支援する対話支援プログラム、サーバ及び方法 |
-
2016
- 2016-09-30 JP JP2016194559A patent/JP2018055633A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249685A (ja) * | 2000-03-03 | 2001-09-14 | Alpine Electronics Inc | 音声対話装置 |
JP2013092811A (ja) * | 2011-09-30 | 2013-05-16 | Toshiba Corp | 電子機器およびプログラム |
JP2014093036A (ja) * | 2012-11-06 | 2014-05-19 | Konica Minolta Inc | 案内情報表示装置 |
JP2015184563A (ja) * | 2014-03-25 | 2015-10-22 | シャープ株式会社 | 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム |
JP2016156845A (ja) * | 2015-02-23 | 2016-09-01 | Kddi株式会社 | ユーザ対話システムと共にユーザ操作を支援する対話支援プログラム、サーバ及び方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112823341A (zh) * | 2018-10-05 | 2021-05-18 | 三菱电机株式会社 | 语音操作支援系统、语音操作系统、语音处理装置、语音操作支援装置、语音操作支援方法以及程序 |
JP2022017239A (ja) * | 2018-10-05 | 2022-01-25 | 三菱電機株式会社 | 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム |
JP7284793B2 (ja) | 2018-10-05 | 2023-05-31 | 三菱電機株式会社 | 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム |
JP7511711B2 (ja) | 2021-09-30 | 2024-07-05 | 三菱電機株式会社 | 音声操作支援システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210383586A1 (en) | Artificial intelligence-based animation character drive method and related apparatus | |
CN108525305B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN112379812B (zh) | 仿真3d数字人交互方法、装置、电子设备及存储介质 | |
CN110868635B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN112669417B (zh) | 虚拟形象的生成方法、装置、存储介质及电子设备 | |
CN109447234A (zh) | 一种模型训练方法、合成说话表情的方法和相关装置 | |
CN108519816A (zh) | 信息处理方法、装置、存储介质及电子设备 | |
WO2017084483A1 (zh) | 视频通话方法和装置 | |
KR102193029B1 (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
CN110555507B (zh) | 虚拟机器人的交互方法、装置、电子设备及存储介质 | |
WO2019114328A1 (zh) | 一种基于增强现实的视频处理方法及其装置 | |
CN108304762B (zh) | 一种人体姿态匹配方法及其设备、存储介质、终端 | |
CN110947181A (zh) | 游戏画面显示方法、装置、存储介质及电子设备 | |
CN110599359B (zh) | 社交方法、装置、系统、终端设备及存储介质 | |
KR102034838B1 (ko) | 영상 통화 서비스를 제공하는 단말과 서버 | |
JP2018055633A (ja) | 会話システム、端末装置、および、プログラム | |
US20180144557A1 (en) | Method and user terminal for providing hologram image-based message service, and hologram image display device | |
US20130229342A1 (en) | Information providing system, information providing method, information processing apparatus, method of controlling the same, and control program | |
CN113923462A (zh) | 视频生成、直播处理方法、设备和可读介质 | |
US20230087879A1 (en) | Electronic device and method for generating user avatar-based emoji sticker | |
CN110794964A (zh) | 虚拟机器人的交互方法、装置、电子设备及存储介质 | |
CN114187394B (zh) | 虚拟形象生成方法、装置、电子设备以及存储介质 | |
CN111383642B (zh) | 基于神经网络的语音应答方法、存储介质以终端设备 | |
WO2018135246A1 (ja) | 情報処理システム及び情報処理装置 | |
WO2019184679A1 (zh) | 游戏实现方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190320 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200107 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200630 |