JP6759445B2

JP6759445B2 - 情報処理装置、情報処理方法及びコンピュータプログラム

Info

Publication number: JP6759445B2
Application number: JP2019501175A
Authority: JP
Inventors: 城井　学; 学城井; 英寛小松; 厚志石原; 悠繁田; 準二糸山
Original assignee: Sony Mobile Communications Inc
Current assignee: Sony Corp
Priority date: 2017-02-24
Filing date: 2018-01-31
Publication date: 2020-09-23
Anticipated expiration: 2038-01-31
Also published as: WO2018155116A1; US11380332B2; EP3588491A4; EP3588491A1; JPWO2018155116A1; US20200118570A1; CN110268468A

Description

本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。

例えば特許文献１には、ユーザからの伝言を得て、該ユーザが望む第三者と対話して上記伝言を通知するロボット装置についての技術が開示されている。

特開２００４−９０１０９号公報

しかし、ユーザが望む第三者にメッセージを伝えるには、ロボットがその第三者が誰であるかを認識する必要があり、ユーザがメッセージを伝えたい相手を認識出来なければ、ロボットは誰にメッセージを伝えれば良いか分からない。

そこで、本開示では、ユーザが望む第三者に確実にメッセージを伝えることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提案する。

本開示によれば、音声メッセージを含む情報を取得する取得部と、前記取得部が取得した前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識する制御部と、を備え、前記制御部は、前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成する、情報処理装置が提供される。

また本開示によれば、プロセッサが、音声メッセージを含む情報を取得することと、取得された前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識することと、前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成することと、を実行することを含む、情報処理方法が提供される。

また本開示によれば、コンピュータに、音声メッセージを含む情報を取得することと、取得された前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識することと、前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成することと、を実行させる、コンピュータプログラムが提供される。

以上説明したように本開示によれば、ユーザが望む第三者に確実にメッセージを伝えることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供することが出来る。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施の形態に係るエージェント装置１００の外観例を示す説明図である。同実施の形態に係るエージェント装置１００の機能構成例を示す説明図である。同実施の形態に係るエージェント装置１００の動作について説明する説明図である。同実施の形態に係るエージェント装置１００の動作について説明する説明図である。同実施の形態に係るエージェント装置１００の動作例を示す説明図である。同実施の形態に係るエージェント装置１００の動作例を示す流れ図である。エージェント装置１００がディスプレイ１１０に表示させるユーザインターフェースの例を示す説明図である。エージェント装置１００の周囲に発話しているユーザが１人しかいない場合の例を示す説明図である。発話しているユーザがエージェント装置１００の方を向いている場合と向いていない場合とで、エージェント装置１００が動作を変化させる例を示す説明図である。エージェント装置１００にエアコンを認識させ、そのエアコンをエージェント装置１００から遠隔操作させる様子を示す説明図である。エージェント装置１００にＩＣカードを見せると、リーダライタをユーザに向ける様子を示す説明図である。ユーザがディスプレイ１１０に触っている状態の例を示す説明図である。エージェント装置１００が提示する表現の例を示す説明図である。エージェント装置１００が提示する表現の例を示す説明図である。エージェント装置１００が提示する表現の例を示す説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．本開示の実施の形態
１．１．外観例
１．２．機能構成例
１．３．動作例
２．まとめ

＜１．本開示の実施の形態＞
［１．１．外観例］
まず、図面を参照して本開示の実施の形態に係る、会話機能を有する情報処理装置（以下、エージェント装置と称す）の外観例を説明する。このエージェント装置は、部屋の中、例えばテーブルの上に設置される利用形態を想定している。

図１は、本開示の実施の形態に係るエージェント装置１００の外観例を示す説明図である。以下、図１を用いて本開示の実施の形態に係るエージェント装置１００の外観例について説明する。

本開示の実施の形態に係るエージェント装置１００は、土台部１０２、胴体部１０４及び頭部１０６からなる。土台部１０２は、エージェント装置１００をテーブル等に設置した際にエージェント装置１００を安定させる。

胴体部１０４は、ディスプレイ１１０を備える。ディスプレイ１１０は、例えば液晶ディスプレイや有機ＥＬディスプレイで構成される。またディスプレイ１１０はタッチパネルを備えうる。胴体部１０４は水平方向に所定の角度、例えば略３６０度回動可能であり、その際、エージェント装置１００は、土台部１０２を動かさないままで胴体部１０４だけを回動させることが可能である。

頭部１０６は、胴体部１０４の上部に設けられる。頭部１０６は、発光部１０８ａ、１０８ｂを備える。発光部１０８ａ、１０８ｂの発光領域や発光色は、エージェント装置１００の状態によって変化しうる。例えば、発光部１０８ａ、１０８ｂの発光領域が短時間で変化することで、まるでエージェント装置１００が瞬きをしているかのような動作が可能となる。また、頭部１０６は上下左右に所定の角度回動可能であり、その際、エージェント装置１００は、土台部１０２及び胴体部１０４を動かさないままで頭部１０６だけを回動させることが可能である。

胴体部１０４は、頭部１０６との境界部分にＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）によるインジケータ１１１を有する。インジケータ１１１は、エージェント装置１００の状態により発光パターンや発光色が変化しうる。

例えば、ユーザがエージェント装置１００に話しかけている間は、エージェント装置１００は、発話を認識している間、インジケータ１１１を点灯させ続け、エージェント装置１００から音声を出力する間は、エージェント装置１００は、音声の出力に合わせてインジケータ１１１を点滅させてもよい。

図１には図示しないが、本開示の実施の形態に係るエージェント装置１００は、後述するように、周囲の環境を撮像するカメラ、人間の声や周囲の環境音などを集音するマイク、音声を出力するスピーカ、エージェント装置１００や周囲の環境の状態をセンシングするセンサを備える。エージェント装置１００は、人間の声や周囲の環境音などを集音しやすいようにビームフォーミングされたマイクを複数備える。

また図１には図示しないが、本開示の実施の形態に係るエージェント装置１００は、ディスプレイ１１０の反対側に、近接非接触通信を行うリーダライタを備える。リーダライタにＩＣカードを近接させると、エージェント装置１００は、その近接に応じた処理を実行することができる。

本開示の実施の形態に係るエージェント装置１００は、ユーザの発話内容を解析して、その発話内容に応じた処理を実行することが可能なように構成されている。例えば、エージェント装置１００は、ユーザの発話内容を解析して、その発話内容に応じて音声を出力することで、ユーザの対話処理を行うことが出来る。具体的には、ユーザが「明日の東京の天気予報を教えて」とエージェント装置１００に話しかけると、エージェント装置１００は、発話内容を解析して、東京の翌日の天気予報をインターネットから取得する。そしてエージェント装置１００は、例えば「明日の東京は晴れ時々曇りでしょう」などと音声や文字、画像などで出力する。

また本開示の実施の形態に係るエージェント装置１００は、あるユーザ（ユーザＸとする）が別のユーザ（ユーザＹとする）に音声メッセージを含む伝言を残したい場合に、ユーザＸが発した言葉を解析し、伝言の内容と伝言の宛先（ユーザＹ）に関する情報とを保存する。そしてユーザＹの存在を検知すると、エージェント装置１００は、そのユーザＹに対して、ユーザＸが残した伝言を発する。

以上、図１を用いて本開示の実施の形態に係るエージェント装置１００の外観例を節目逸した。続いて、本開示の実施の形態に係るエージェント装置１００の機能構成例を説明する。

［１．２．機能構成例］
図２は、本開示の実施の形態に係るエージェント装置１００の機能構成例を示す説明図である。以下、図２を用いて本開示の実施の形態に係るエージェント装置１００の機能構成例について説明する。

図２に示したように、本開示の実施の形態に係るエージェント装置１００は、発光部１０８ａ、１０８ｂと、ディスプレイ１１０と、インジケータ１１１と、センサ１１２と、制御部１１４と、記憶部１１６と、スピーカ１１８と、マイク１２０と、モータ１２２と、カメラ１２４と、通信部１２６と、リーダライタ１２８と、を含んで構成される。ここでは、図１に示されていないセンサ１１２と、制御部１１４と、記憶部１１６と、スピーカ１１８と、マイク１２０と、モータ１２２と、カメラ１２４と、通信部１２６と、リーダライタ１２８と、について説明する。

センサ１１２は、エージェント装置１００や周囲の環境の状態をセンシングし、センシングにより得られたセンシングデータを制御部１１４に出力する。センサ１１２は、例えば、人感センサ、測位センサ、ジャイロセンサ、地磁気センサ、照度センサ、温度センサ、湿度センサ、気圧センサ、心拍センサなどの様々なセンサの中から少なくともいずれかのセンサで構成される。なお、上述の測位センサとしては、例えば具体的には、ＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）受信機、および／または通信装置などを含みうる。ＧＮＳＳは、例えばＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）、ＧＬＯＮＡＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）、ＢＤＳ（ＢｅｉＤｏｕＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）、ＱＺＳＳ（Ｑｕａｓｉ−ＺｅｎｉｔｈＳａｔｅｌｌｉｔｅｓＳｙｓｔｅｍ）、またはＧａｌｉｌｅｏなどを含みうる。また測位センサとしては、例えば、無線ＬＡＮ、ＭＩＭＯ（Ｍｕｌｔｉ−ＩｎｐｕｔＭｕｌｔｉ−Ｏｕｔｐｕｔ）、セルラー通信（例えば携帯基地局を使った位置検出、フェムトセル）、または近距離無線通信（例えばＢＬＥ（ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ）、Ｂｌｕｅｔｏｏｔｈ（登録商標））などの技術を利用して位置を検出するものが含まれうる。

制御部１１４は、例えばＣＰＵ（ＣｅｎｔｏｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）で構成され、エージェント装置１００の動作を制御する。制御部１１４は、エージェント装置１００の動作を制御するに際して、センサ１１２が出力するセンシングデータ、マイク１２０が集音した音声データ、カメラ１２４が撮像した画像データ、通信部１２６が受信した通信データ、記憶部１１６に記憶されているデータ等を用いうる。

本実施形態では、制御部１１４は、以下で詳細に説明するような動作を実行する。制御部１１４が以下で説明するような動作を実行することで、エージェント装置１００は、人間との対話処理や、人間に対する伝言処理などを実行することが出来る。

記憶部１１６は、例えば不揮発性または揮発性のメモリで構成され、エージェント装置１００の動作に必要なプログラムやデータを保持したり、エージェント装置１００の動作のログを記憶したりする。

スピーカ１１８は、制御部１１４の制御によって音声を出力する。マイク１２０は、エージェント装置１００の周囲にいる人間の声や周囲の環境音などを集音する。マイク１２０が集音した音は制御部１１４に送られる。モータ１２２は、制御部１１４の制御によって、胴体部１０４や頭部１０６を駆動させるためのモータである。カメラ１２４は、エージェント装置１００の周囲の環境を静止画像または動画像で撮像する。カメラ１２４は、例えば頭部１０６に設けられ、エージェント装置１００の正面（発光部１０８ａ、１０８ｂが設けられている面）の方向を撮像する。通信部１２６は、例えば無線ＬＡＮ等に接続したり、赤外線通信やＢｌｕｅｔｏｏｔｈ（登録商標）等の無線通信規格を用いたりして、他の装置との間で通信処理を実行する。リーダライタ１２８は、近接非接触通信によってＩＣカード等との間で通信を実行する。

本開示の実施の形態に係るエージェント装置１００は、係る構成を有することで、以下で説明するような動作を実行することが出来る。

以上、図２を用いて本開示の実施の形態に係るエージェント装置１００の機能構成例を説明した。続いて、本開示の実施の形態に係るエージェント装置１００の動作例について説明する。

［１．３．動作例］
本開示の実施の形態に係るエージェント装置１００は、あるユーザが語りかけてきた内容を解析し、その解析結果に基づいて情報の出力を音声または画像で出力する。例えば、あるユーザが「明日の天気を教えて」とエージェント装置１００に語りかけると、エージェント装置１００は、制御部１１４でユーザの発話内容を解析し、発話者は天気予報が知りたいのだと判断する。そこでエージェント装置１００は、通信部１２６からインターネットに接続して、翌日の天気予報データを取得し、その天気予報を音声または画像で出力する。

また本開示の実施の形態に係るエージェント装置１００は、あるユーザ（ユーザＸとする）が別のユーザ（ユーザＹとする）に伝言を残したい場合に、ユーザＸが発した言葉を解析し、ユーザＹの存在を検知すると、そのユーザＹに対して、ユーザＸが残した伝言を発する。

図３は、本開示の実施の形態に係るエージェント装置１００の動作について説明する説明図であり、ユーザＸがユーザＹに対する伝言をエージェント装置１００に話しかけている様子を示したものである。図３では、ユーザＸが「Ｙさんに伝言お願い」とエージェント装置１００に語りかけ、続いてユーザＹに残したい伝言をエージェント装置１００に語りかける。エージェント装置１００は、カメラ１２４での撮像データを用いた顔認識処理や、マイク１２０で集音した音声データを用いた声紋認識処理を制御部１１４で行って、メッセージを発したのがユーザＸであることを認識する。なお、エージェント装置１００は予め顔認識処理や声紋認識処理によって、ユーザＸがどのような顔か、またどのような声であるかを把握しているものとする。例えば、エージェント装置１００は、カメラ１２４で取得された画像データや、マイク１２０で取得された音声データに基づいて、ユーザＸの顔や声等を記憶部１１６に事前に記憶させておいてもよい。また、エージェント装置１００は、ディスプレイ１１０に備えられたタッチパネルを用いてユーザによって入力（または選択）された名前や年齢等の情報を記憶部１１６に記憶させておいてもよい。

この際、制御部１１４は、まずカメラ１２４での撮像データを用いた顔認識処理を行ってユーザの特定を試みて、顔認識処理ではユーザを特定できなかった場合に、マイク１２０で集音した音声データを用いた声紋認識処理を行ってユーザの特定を試みても良い。

そしてエージェント装置１００は、ユーザＸが発した言葉をマイク１２０で集音し、マイク１２０が集音した音声データを、所定の言語解析処理を用いて制御部１１４で解析する。エージェント装置１００は、制御部１１４での解析の結果、ユーザＸの伝言の対象がユーザＹであることを判断し、ユーザＸが発したユーザＹに対する伝言の内容と、伝言の宛先（ユーザＹ）に関する情報（例えば名前やＩＤ等）とを記憶部１１６に記憶させる。エージェント装置１００は、伝言の送り主（ユーザＸ）に関する情報を記憶部１１６に記憶させてもよい。また、エージェント装置１００は、ユーザＸからの伝言を録音したものをそのまま記憶しても良く、録音を記録する場合には、カメラ１２４で撮像した画像データとともに記憶しても良い。またエージェント装置１００は、ユーザＸからの伝言をテキストデータに変換して記憶しても良い。

図４は、本開示の実施の形態に係るエージェント装置１００の動作について説明する説明図であり、ユーザＹがエージェント装置１００に近付いてきている様子を示したものである。ユーザＸが伝言をエージェント装置１００に残した後、ユーザＹがエージェント装置１００の置かれている部屋に入室し、顔をエージェント装置１００の方に向けると、エージェント装置１００は、カメラ１２４での撮像データを用いた顔認識処理や、マイク１２０で集音した音声データを用いた声紋認識処理を制御部１１４で行って、目の前に居るのが誰かを認識する。

顔認識処理や声紋認識処理を行った結果、目の前に居るのがユーザＹであることを認識すると、エージェント装置１００は、ユーザＸがユーザＹに残した伝言をユーザＹに通知する。この際、エージェント装置１００は、伝言の通知方法として、ユーザＸが発した言葉を録音しておき、その録音データをスピーカ１１８から発しても良い。またエージェント装置１００は、伝言の通知方法として、音声合成処理によって伝言の内容をスピーカ１１８から出力しても良い。またエージェント装置１００は、伝言の通知方法として、ユーザＸが発した言葉をテキストに変換してディスプレイ１１０に表示しても良い。

なお、顔認識処理や声紋認識処理を行った結果、目の前に居るのがユーザＹであることを認識すると、エージェント装置１００は、ユーザＹに対する伝言があることを示すため、ディスプレイ１１０への伝言がある旨のメッセージの表示、インジケータ１１１の発光、胴体部１０４の揺動などを行っても良い。図５は、本開示の実施の形態に係るエージェント装置１００の動作例を示す説明図であり、エージェント装置１００が、インジケータ１１１の発光や、胴体部１０４の揺動などを行っている様子を示したものである。なお、顔認識処理や声紋認識処理を行わなくても、エージェント装置１００は、人感センサによって人が近くに居ることが検出されたら、伝言があることを示すため、インジケータ１１１の発光や、胴体部１０４の揺動などを行っても良い。また、制御部１１４は、インジケータ１１１の発光や、胴体部１０４の揺動を、カメラ１２４による撮像データを用いた顔認識や、センサ１１２に含まれる人感センサによる検出は出来たが、そのユーザが何も声を発しなかった場合に行うようにしても良い。

ところで、ユーザＸが「Ｙさんに伝言お願い」とエージェント装置１００に語りかけた際に、その「Ｙさん」が誰であるかをエージェント装置１００が認識出来ない場合があり得る。例えば、子供が父親に伝言を残したい場合は「パパに伝言をお願い」と語りかけるだろうし、その父親の親が、その父親に伝言を残したい場合は、名前を告げて語りかけるかもしれない。この場合、伝言対象は何れの場合も同一であるが、「パパ」という代名詞と、名前という固有名詞が同じものであるかをエージェント装置１００が認識出来ない場合がある。そこでエージェント装置１００は、伝言の対象を一意に決定できなかった場合には、伝言の対象を明示的に設定させるための情報を出力してもよい。

図６は、本開示の実施の形態に係るエージェント装置１００の動作例を示す流れ図である。以下、図６を用いて本開示の実施の形態に係るエージェント装置１００の動作例を説明する。

エージェント装置１００は、あるユーザが伝言をエージェント装置１００に向けて発すると、その伝言内容を制御部１１４で解析する（ステップＳ１０１）。エージェント装置１００は、制御部１１４での伝言内容の解析の結果、伝言の対象を特定可能かどうか制御部１１４で判断する（ステップＳ１０２）。

ステップＳ１０２での判断の結果、伝言の対象を特定できなかった場合は（ステップＳ１０２、Ｎｏ）、エージェント装置１００は、伝言対象をユーザに入力させるための情報を、制御部１１４の動作によって出力させる（ステップＳ１０３）。この伝言対象をユーザに入力させるための情報は、ディスプレイ１１０に表示されても良く、スピーカ１１８から音声として出力されても良い。

伝言対象をユーザに入力させるための情報をディスプレイ１１０に表示する場合の例を示す。図７は、エージェント装置１００がディスプレイ１１０に表示させるユーザインターフェースの例を示す説明図である。ユーザＸが「Ｙさんに伝言お願い」と発した場合に、エージェント装置１００がその「Ｙさん」が誰であるかを一意に特定できなかったときは、図７に示したように、その「Ｙさん」が誰であるかをユーザＸに入力させるためのユーザインターフェースをディスプレイ１１０に表示する。ここで表示されるのは、例えば、予めエージェント装置１００に登録されているユーザの顔写真や名前など、伝言の宛先の候補となるユーザの情報である。その際、伝言を発したユーザ（ここではユーザＸ）については顔写真や名前の表示対象外とすることが望ましい。伝言を発したユーザは、ディスプレイ１１０に表示されたユーザインターフェースを操作することで、「Ｙさん」が誰であるかをエージェント装置１００に指示することが出来る。

上記ステップＳ１０３で伝言対象をユーザに入力させると、または、ステップＳ１０２での判断の結果、伝言の対象を特定できた場合は（ステップＳ１０２、Ｙｅｓ）、エージェント装置１００は、伝言の登録処理を制御部１１４で実行する（ステップＳ１０４）。

本開示の実施の形態に係るエージェント装置１００は、このような一連の動作を実行することで、伝言の対象を一意に決定できなかった場合には、伝言の対象を明示的に設定させるための情報を出力して、伝言の対象をユーザに入力させることができる。

エージェント装置１００は、ユーザが直接語りかけていない状態であっても伝言を受け付けることができる。例えば、ネットワークを介して繋がっている携帯電話、テレビ電話、ゲーム機などの装置を用いて、ユーザがエージェント装置１００に対してメッセージを発しても良い。上記装置からのメッセージを通信部１２６で受信したエージェント装置１００は、制御部１１４でメッセージの内容を解析し、伝言の発信元及び通知先を特定しても良い。

またエージェント装置１００は、伝言の対象のユーザが伝言を聴いたり見たりした場合には、伝言を聴いたり見たりしたことを、伝言の発信元のユーザが保有する機器に通知しても良い。従って、エージェント装置１００は、エージェント装置１００を使用するユーザの情報に加え、各ユーザが保有する機器の情報を保持していても良い。例えば、伝言の内容をディスプレイ１１０に表示させた場合、視線検出処理や顔の向きの検出処理によってその伝言をユーザが見たことが明らかであれば、エージェント装置１００は、伝言を見たことを伝言の発信元のユーザが保有する機器に通知しても良い。また、エージェント装置１００は、伝言の対象のユーザが伝言を聴いたり見たりした（既読になった）場合に、伝言を聴いたり見たりしたということを記憶部１１６に記憶させ、後に伝言の発信元のユーザが前に居ることを認識した際に、ディスプレイ１１０やスピーカ１１８を用いて、伝言の対象のユーザが伝言を既読したということを通知しても良い。

エージェント装置１００は、ユーザの発話を受け付ける際には、所定のトリガワードをユーザに発話させる。このトリガワードを検出することで、エージェント装置１００は、マイク１２０によるユーザの発話内容の集音処理を開始する。なお、エージェント装置１００は、カメラ１２４で撮像された画像データを用いた視線検出処理や顔の向きの検出処理により、ユーザがエージェント装置１００の方を向いていると判定し続けている間は、上記所定のトリガワードが発せられていなくても、マイク１２０によるユーザの発話内容の集音処理を実行しても良い。そしてエージェント装置１００は、ユーザがエージェント装置１００の方を向かなくなった時点で、マイク１２０によるユーザの発話内容の集音処理を停止しても良い。このように動作することで、エージェント装置１００は、ユーザがトリガワードを発しなくてもユーザからのメッセージ、例えば他のユーザに対する伝言を受け付けることが可能となる。

またエージェント装置１００は、何か発話しているユーザの存在を検出し、胴体部１０４や頭部１０６を動作させて周囲をカメラ１２４で撮像し、そのユーザ以外に誰もいないことが分かれば、そのユーザはエージェント装置１００に対して発話していると判断しても良い。図８は、エージェント装置１００の周囲に発話しているユーザが１人しかいない場合の例を示す説明図である。エージェント装置１００は、そのユーザがトリガワードを発していなくても、マイク１２０によるユーザの発話内容の集音処理を実行しても良い。

エージェント装置１００は、ユーザが何か発話している場合に、そのユーザがエージェント装置１００に対して発話しているのか、単なる独り言なのかを判別する必要がある。エージェント装置１００は、人感センサ等によって検出したユーザとの距離や、マイク１２０で集音した音のレベルによって、ユーザがエージェント装置１００に対して発話しているのか、単なる独り言なのかを判別してもよい。例えば、エージェント装置１００は、ユーザとの距離が所定距離より小さいと判定した場合や、集音した音のレベルが所定レベルより大きいと判定した場合に、ユーザがエージェント装置１００に対して発話していると判別するようにしてもよい。またエージェント装置１００は、人感センサによって近くに人間などが居ることを検出した場合に限って、マイク１２０で集音した音のレベルの判定処理を行っても良い。

エージェント装置１００は、発話しているユーザがエージェント装置１００の方を向いている場合と向いていない場合とで動作を変化させても良い。図９は、発話しているユーザがエージェント装置１００の方を向いている場合と向いていない場合とで、エージェント装置１００が動作を変化させる例を示す説明図である。例えば、発話しているユーザがエージェント装置１００の方を向いている場合は、エージェント装置１００は、スピーカ１１８からの音声の出力に加えてディスプレイ１１０での表示を行い、発話しているユーザがエージェント装置１００の方を向いていない場合は、エージェント装置１００は、スピーカ１１８からの音声の出力のみを行うようにする。話しているユーザがエージェント装置１００の方を向いていない場合は、エージェント装置１００は、音声で出力する情報量を増やしても良い。なお、エージェント装置１００が、スピーカ１１８からの音声の出力のみを行うのは、エージェント装置１００がバッテリで駆動している状態に限られていても良い。

エージェント装置１００に部屋の中を撮像させて、部屋の中にある家電製品を認識させることで、家電製品に対する遠隔操作をエージェント装置１００に行わせることが出来る。図１０は、エージェント装置１００にエアコンを認識させ、そのエアコンをエージェント装置１００から遠隔操作させる様子を示す説明図である。カメラ１２４で撮像された画像データに、家電製品とともにその家電製品のコードが含まれていれば、エージェント装置１００は、当該コードに対応したリモコンコードをインターネットからダウンロードすることが出来る。そしてエージェント装置１００は、ダウンロードしたリモコンコードを使用して、その家電製品の遠隔操作を行うことが出来る。

エージェント装置１００に非接触通信を行うことが可能なＩＣカードをユーザが見せると、エージェント装置１００は、リーダライタ１２８をユーザに向けるよう胴体部１０４を回動させてもよい。図１１は、エージェント装置１００にＩＣカード２００を見せると、リーダライタ１２８をユーザに向ける様子を示す説明図である。この動作をエージェント装置１００に行わせる際には、カメラ１２４で撮像された画像データを用いて、ＩＣカード２００の全体が画像データに含まれているかを制御部１１４で認識させても良く、近接非接触通信機能を有するカードであることを示す所定のマークを画像データに含まれているかを制御部１１４で認識させても良い。また、この動作をエージェント装置１００に行わせる際には、どのカードが近接非接触通信機能を有するカードであるか、またはどのマークを有するカードが近接非接触通信機能を有するカードであるか、の情報を、予めエージェント装置１００に登録しておく。

エージェント装置１００は、情報の出力に年齢制限を加えても良い。例えば、予め小学生のユーザがいることがエージェント装置１００に登録されており、その小学生のユーザがエージェント装置１００の周囲に居ることを顔認識処理や声紋認識処理などで認識すると、エージェント装置１００は、小学生には知られて欲しくない情報があれば、そのような情報は出力しないよう制限する。

エージェント装置１００は、カメラ１２４で撮像した画像から顔を認識して、その顔に対応するユーザに応じた情報の出力を行う。例えば、お父さんとお母さんでは普段使用している電車の路線が異なるので、エージェント装置１００は、お父さんを認識した場合にはお父さんが利用する路線の情報を、お母さんを認識した場合にはお母さんが利用する路線の情報を、インターネットから取得して音声などで提供しても良い。

エージェント装置１００が複数台存在して向かい合っている場合、あるエージェント装置１００は、目の前のエージェント装置１００の動きを真似て動いてもよい。この際、エージェント装置１００は、目の前のエージェント装置１００の動きをカメラ１２４で撮像して、画像データの解析によって、目の前のエージェント装置１００の動きを真似て動いてもよい。またエージェント装置１００は、目の前のエージェント装置１００のディスプレイ１１０で表示されている二次元バーコード等のコードをカメラ１２４で撮像して、そのコードに対応する動きのデータをインターネットから取得したり、記憶部１１６から取得したりすることで、あたかも目の前のエージェント装置１００の動きを真似て動いているかのように見せかけても良い。

目の前のエージェント装置１００の動きを真似て動く場合、初めての動きを行う場合は、エージェント装置１００は、その動きをぎこちなく行うようにしてもよい。そしてエージェント装置１００は、その動きを何度か行うにつれて徐々にスムーズに動けるようにしてもよい。動きが徐々にスムーズになることによって、エージェント装置１００は、あたかもその動きを学習しているように見せることが出来る。

エージェント装置１００にテレビの映像をカメラ１２４で撮像させ、またはテレビの音声をマイク１２０で集音させ、表示された映像や出力された音声の内容を学習させても良い。そして、ユーザが夜になって帰宅した際に、エージェント装置１００は、その学習した内容を音声や画像などで出力してもよい。例えば、エージェント装置１００は、映像や音声の内容から固有名詞の出現回数を計測し、出現回数が多い固有名詞は、その日テレビで話題になったものであると判断する。そして、エージェント装置１００は、その出現回数の多かった固有名詞が話題であったことを、帰宅したユーザに通知する。この際、エージェント装置１００は、電子番組表（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ；ＥＰＧ）のデータと連動させることで、どの番組でどのキーワードが話題であったかを、帰宅したユーザに通知しても良い。

エージェント装置１００は、カメラ１２４及びディスプレイ１１０を備えているので、例えば、カメラ１２４で撮像した画像データに顔が含まれていれば、その顔に所定のエフェクト、例えば動物の耳や鼻などを加えるエフェクトを与えて、ディスプレイ１１０に表示してもよい。エージェント装置１００は、カメラ１２４で撮像した画像データで顔を認識すると、「動物に変身させてあげるよ」などの音声を出力して、顔にエフェクトを与えて表示しても良い。この際、ユーザが「ウサギに変身したい」などと動物の名前を発すると、エージェント装置１００は、その動物の耳や鼻などを加えるエフェクトを与えてもよい。またこの際、エージェント装置１００は、同じユーザには同じエフェクトを優先して与えるようにしてもよい。またこの際、エージェント装置１００は、認識した顔が大人なのか子供なのかによって、エフェクトとする動物を変化させても良い。

エージェント装置１００は、上述したように胴体部１０４を回動させることが可能であるが、ユーザがディスプレイ１１０に触っている状態で胴体部１０４を回動させると、ユーザの操作の妨げとなる。従ってエージェント装置１００は、ユーザがディスプレイ１１０に触っている状態では胴体部１０４を回動させないようにしてもよい。図１２は、ユーザがディスプレイ１１０に触っている状態の例を示す説明図である。ユーザがディスプレイ１１０に触っている状態では、エージェント装置１００は、頭部１０６は動作させても良く、頭部１０６の動作も停止させても良い。

またエージェント装置１００は、ユーザがディスプレイ１１０を見ている状態で胴体部１０４を回動させると、ユーザの情報の確認の妨げとなる。従ってエージェント装置１００は、カメラ１２４で撮像した画像データを用いた視線検出処理によってユーザがディスプレイ１１０を注視していることを検出すると、胴体部１０４を回動させないようにしてもよい。ユーザがディスプレイ１１０を注視している状態では、エージェント装置１００は、頭部１０６は動作させても良く、頭部１０６の動作も停止させても良い。

そしてエージェント装置１００は、ディスプレイ１１０への操作や注視が所定時間されなければ、胴体部１０４の動作の制限を解除しても良い。

エージェント装置１００は、ユーザの外出や帰宅の時間のログを取っておき、ある日のユーザの帰宅が通常より遅かった場合は、頭部１０６を下げて悲しそうな表現をしてもよい。そしてエージェント装置１００は、ユーザの帰宅が通常より遅かった場合は、そのユーザをねぎらうような言葉をスピーカ１１８から発しても良い。

上述したように、エージェント装置１００は様々なセンサを備えうる。例えば、冬場に気温や湿度が低下すると風邪やインフルエンザに罹りやすくなるので、エージェント装置１００は、温度センサや湿度センサで室内の状態をセンシングし、所定の条件を満たすと、くしゃみや咳といった音をスピーカ１１８から出力しても良い。また、エージェント装置１００は、温度センサや湿度センサで室内の状態をセンシングし、所定の条件を満たすと、室温が高いのでエアコンを動作させることを促す言葉をスピーカ１１８から発したり、またエアコンを自ら遠隔操作したりしてもよい。

エージェント装置１００は、胴体部１０４や頭部１０６を動かしたり、発光部１０８ａ、１０８ｂの発光領域や発光色を変化させたりすることで、様々な表現を提示することが可能となる。

例えば、エージェント装置１００は、ユーザに嫌な言葉を言われたり、怒られたりすると、気落ちしたような表現をしてもよい。図１３は、エージェント装置１００が提示する表現の例を示す説明図であり、エージェント装置１００が頭部１０６を下げて、気落ちしたような表現をしている様子を示す説明図である。エージェント装置１００は、ユーザに嫌な言葉を言われたり、怒られたりしてから所定の期間（例えば２４時間）、そのユーザの顔を認識すると、このように頭部１０６を下げて、気落ちしたような表現を実行する頻度を上げても良い。そして、そのユーザが謝罪する言葉を発すると、エージェント装置１００は、このような気落ちしたような表現を行わないようにしてもよい。

エージェント装置１００は通信部１２６を通じてインターネットへの接続が可能であるので、インターネットから天気予報や雨雲レーダの情報を取得することが可能である。従って、天気が大きく変わりそうなことを検出すると、エージェント装置１００は、窓の方を向いたり、上方を見上げたりして、天気が変わりそうなことを伝えるような表現を行っても良い。その際、エージェント装置１００は、窓の外を向くだけでなく、音声や文字、画像などで、天気が変わりそうなことを出力しても良い。図１４は、エージェント装置１００が提示する表現の例を示す説明図であり、エージェント装置１００が頭部１０６を上げて、天気が変わりそうなことを伝える表現をしている様子を示す説明図である。

またエージェント装置１００は、満月の日、スーパームーンの日、流星群が観測できる日など、通常とは異なる天文現象が起こる際にも、窓の方を向いたり、上方を見上げたりして、通常とは異なる天文現象が起こることを伝えるような表現を行っても良い。その際、エージェント装置１００は、窓の方を向いたり、上方を見上げたりするだけでなく、「空を見てみませんか？」等のメッセージをディスプレイ１１０に表示したり、スピーカ１１８から出力したりしても良い。

エージェント装置１００は、所定の時間になると眠くなるような表現をしてもよい。例えば、昼食後の時間や、子供が寝る時間などになると、あたかも眠くなるように見せる表現をしてもよい。その際、エージェント装置１００は、発光部１０８ａ、１０８ｂの発光領域を変化させて目がウトウトしているような表現をしたり、頭部１０６を揺ら揺らさせて眠くなっているような表現をしたりしてもよい。図１５は、エージェント装置１００が提示する表現の例を示す説明図であり、エージェント装置１００があたかも眠くなるように見せる表現をしている様子を示す説明図である。

その他、周囲で大きな音がしたことを検出すると、エージェント装置１００は、頭部１０６を上げて周囲を見渡すようにして驚いたような表現をしてもよい。また、室温が低下したことを検出すると、エージェント装置１００は、胴体部１０４を小刻みに動かして震えているような表現をしてもよい。また、花粉症のシーズンになると、エージェント装置１００は、発光部１０８ａ、１０８ｂの発光領域を激しく変化させて瞬きしているような表現をしたり、発光部１０８ａ、１０８ｂを赤く発光させて目が充血しているような表現をしたりしても良い。

またエージェント装置１００は、発する言語によって発光部１０８ａ、１０８ｂの色を変化させても良い。例えば、エージェント装置１００が日本語を発する場合には発光部１０８ａ、１０８ｂの色を白色にして、英語を発する場合には発光部１０８ａ、１０８ｂの色を青みがかった色にしてもよい。

またエージェント装置１００は、壁面のコンセントから電力の供給を受けている場合と、バッテリ駆動の場合とで、発光部１０８ａ、１０８ｂや、インジケータ１１１の発光色や発光パターンを変化させても良い。またエージェント装置１００は、バッテリ駆動の場合には、センサ１１２の動作を停止させてもよい。

＜２．まとめ＞
以上説明したように本開示の実施の形態によれば、ユーザが伝言したい相手に確実にメッセージを伝える事が可能なエージェント装置１００が提供される。

本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

また、各装置に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
音声メッセージを含む情報を取得する取得部と、
前記取得部が取得した前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識する制御部と、
を備え、
前記制御部は、前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成する、情報処理装置。
（２）
前記制御部は、前記伝言の宛先を入力させる情報として、前記伝言の宛先の候補から選択させるための画像を含める、前記（１）に記載の情報処理装置。
（３）
前記制御部は、前記伝言の宛先を入力させる情報として、前記伝言の宛先の候補から音声で選択させるための情報を出力させる、前記（１）に記載の情報処理装置。
（４）
前記制御部は、前記伝言の宛先の人物を認識すると、該宛先に対する前記伝言を出力する、前記（１）〜（３）のいずれかに記載の情報処理装置。
（５）
情報を表示する表示部を備える胴体部を含み、
前記制御部は、前記伝言が登録されている状態で人間の接近を検出すると前記胴体部を揺動させるよう制御する、前記（１）〜（４）のいずれかに記載の情報処理装置。
（６）
情報を表示する表示部を備える胴体部を含み、
前記制御部は、前記表示部に対する操作が行われていることを検出すると、前記胴体部の動作を停止させるよう制御する、前記（１）〜（５）のいずれかに記載の情報処理装置。
（７）
前記制御部は、前記伝言の宛先の人物が伝言を受け取ったことを、前記送り主が保有する機器に対して通知するよう制御する、前記（１）〜（６）のいずれかに記載の情報処理装置。
（８）
情報を表示する表示部を備える胴体部を含み、
前記制御部は、前記表示部に表示された前記伝言を前記伝言の宛先の人物が見た場合に、前記伝言の宛先の人物が伝言を受け取ったことを、前記送り主が保有する機器に対して通知するよう制御する、前記（７）に記載の情報処理装置。
（９）
画像を撮像する撮像部を含み、
前記制御部は、前記撮像部が撮像した画像に顔が含まれていれば前記情報の取得を開始する、前記（１）〜（８）のいずれかに記載の情報処理装置。
（１０）
プロセッサが、
音声メッセージを含む情報を取得することと、
取得された前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識することと、
前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成することと、
を実行することを含む、情報処理方法。
（１１）
コンピュータに、
音声メッセージを含む情報を取得することと、
取得された前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識することと、
前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成することと、
を実行させる、コンピュータプログラム。

１００エージェント装置
１０２土台部
１０４胴体部
１０６頭部
１０８ａ、１０８ｂ発光部
１１０ディスプレイ

Claims

音声メッセージを含む情報を取得する取得部と、
前記取得部が取得した前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識する制御部と、
情報を表示する表示部を備える胴体部と、
を備え、
前記制御部は、前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成し、前記伝言が登録されている状態で人間の接近を検出すると前記胴体部を揺動させるよう制御する、情報処理装置。
音声メッセージを含む情報を取得する取得部と、
前記取得部が取得した前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識する制御部と、
情報を表示する表示部を備える胴体部と、
を備え、
前記制御部は、前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成し、前記表示部に表示された前記伝言を前記伝言の宛先の人物が見た場合に、前記伝言の宛先の人物が伝言を受け取ったことを、前記送り主が保有する機器に対して通知するよう制御する、情報処理装置。
前記制御部は、前記伝言の宛先を入力させる情報として、前記伝言の宛先の候補から選択させるための画像を含める、請求項１又は２に記載の情報処理装置。
前記制御部は、前記伝言の宛先を入力させる情報として、前記伝言の宛先の候補から音声で選択させるための情報を出力させる、請求項１又は２に記載の情報処理装置。
前記制御部は、前記伝言の宛先の人物を認識すると、該宛先に対する前記伝言を出力する、請求項１又は２に記載の情報処理装置。
前記制御部は、前記表示部に対する操作が行われていることを検出すると、前記胴体部の回動を停止させるよう制御する、請求項１又は２に記載の情報処理装置。
前記制御部は、前記伝言の宛先の人物が伝言を受け取ったことを、前記送り主が保有する機器に対して通知するよう制御する、請求項１に記載の情報処理装置。
画像を撮像する撮像部を含み、
前記制御部は、前記撮像部が撮像した画像に顔が含まれていれば前記情報の取得を開始する、請求項１又は２に記載の情報処理装置。
プロセッサが、
音声メッセージを含む情報を取得することと、
取得された前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識することと、
前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成することと、
前記伝言が登録されている状態で人間の接近を検出することと、
前記伝言が登録されている状態で人間の接近を検出すると、情報を表示する表示部を備える胴体部を揺動させることと、
を実行することを含む、情報処理方法。
プロセッサが、
音声メッセージを含む情報を取得することと、
取得された前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識することと、
前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成することと、
情報を表示する表示部に前記伝言を表示することと、
前記表示部に表示された前記伝言を前記伝言の宛先の人物が見た場合に、前記伝言の宛先の人物が伝言を受け取ったことを、前記送り主が保有する機器に対して通知することと、
を実行することを含む、情報処理方法。
コンピュータに、
音声メッセージを含む情報を取得することと、
取得された前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識することと、
前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成することと、
前記伝言が登録されている状態で人間の接近を検出することと、
前記伝言が登録されている状態で人間の接近を検出すると、情報を表示する表示部を備える胴体部を揺動させることと、
を実行させる、コンピュータプログラム。
コンピュータに、
音声メッセージを含む情報を取得することと、
取得された前記情報から、前記音声メッセージの送り主、前記音声メッセージに含まれる伝言の宛先及び前記伝言の内容を認識することと、
前記宛先を一意に特定出来ない場合に、前記伝言の宛先を入力させる情報を生成することと、
情報を表示する表示部に前記伝言を表示することと、
前記表示部に表示された前記伝言を前記伝言の宛先の人物が見た場合に、前記伝言の宛先の人物が伝言を受け取ったことを、前記送り主が保有する機器に対して通知することと、
を実行させる、コンピュータプログラム。