JP2022180232A

JP2022180232A - ロボット、およびロボットシステム

Info

Publication number: JP2022180232A
Application number: JP2021087219A
Authority: JP
Inventors: 朋佳大橋; Tomoka Ohashi; 峻戸村; Shun Tomura; 登宮本; Noboru Miyamoto; 奈津子榎本; Natsuko Enomoto
Original assignee: Tokyo Gas Co Ltd
Current assignee: Tokyo Gas Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-12-06

Abstract

【課題】従来よりも、よりユーザに寄り添った発話を可能とするロボットを提供する。【解決手段】メッセージの内容と、音声の特徴との組み合わせからなる第１回目の音声メッセージＭ１をユーザＵａに向けて発話する発話制御部３６と、音声メッセージＭ１に対するユーザＵａのリアクションＲ１の情報を取得するリアクション取得部３７と、取得されたユーザＵａのリアクションＲ１の情報の解析を行う学習部３９と、解析の結果に基づいて、メッセージの内容と音声の特徴との組み合わせからなる第２回目の音声メッセージＭ２を発話する発話制御部３６とを備えたことを特徴とするリアクション対応ロボット１０である。【選択図】図４

Description

本発明は、ロボット、およびロボットシステムに関する。

特許文献１には、発話機能を有するロボットＲＢが記載されている。ロボットＲＢは、実行契機となる単語として「一緒に」が登録されていると、「お片付けしましょうね」と発話し、その発話に対して子供であるユーザが「お片付け嫌だ」と発話すると、「一緒にお片付けしよう」と発話する。また、ロボットＲＢは、第１ユーザと第２ユーザとが生活習慣に関連する第１単語及び第２単語を発話すると、一方のユーザがコンテンツの起動指示を入力しなくても、生活習慣を身につけさせるためのコンテンツの音声を出力する。
特許文献２には、合成音声をロボットに発話させるコンピュータが記載されている。高齢者の発話に対して近親者からの返答が所定時間無いとき、コンピュータは、会話知識データベースを参照して、高齢者の発話から抽出されたキーワードに対応する近親者の発話データを取得し、その発話データを用いて、近親者の発話を伝達する形式の合成音声を編集する。その音声はロボットから発話される。近親者が高齢者と直接対応を始めた場合でも、途中で、ロボットに代わって貰うことができる。伝達形式の発話は、内容が間違ったとしてもロボットの間違いとして許容される。

特開２０１９－１５８９６７号公報特開２０１５－１８４５９７号公報

人間にとっての「ロボット」は、一般的な電化製品とは一線を画す存在であるとされている。つまり、ロボットは、一般的な電化製品では実現できない、人とのふれあいや、人の心のケアを可能とする家族や友人に近い（または代替し得る）存在であるといえる。また、そのような存在であることがロボットの本来的な存在意義であるともいえる。しかしながら、特許文献１や２には、ユーザの発話に対して予め決められた内容の発話をするロボットが記載されているにとどまり、ロボットに求められる本来的な存在意義を体現できているとはいえなかった。

本発明の目的は、従来よりも、よりユーザに寄り添った発話を可能とするロボットを提供することにある。

請求項１に記載された発明は、メッセージの内容としての第１要素と、音声の特徴としての第２要素とが予め定められている、前記第１要素と前記第２要素との組み合わせからなる第１音声メッセージをユーザに向けて出力する第１出力手段と、前記第１音声メッセージに対する前記ユーザのリアクションに関する情報を取得する取得手段と、取得された前記ユーザのリアクションに関する情報の解析を行う解析手段と、前記解析の結果に基づいて、前記第１要素と前記第２要素との組み合わせからなる第２音声メッセージを出力する第２出力手段と、を備えたことを特徴とするロボットである。
請求項２に記載された発明は、前記取得手段は、前記リアクションに関する情報として、前記ユーザからの返事の有無と、前記ユーザから返事があった場合における返事の内容と、前記ユーザの返事の声の特徴とのうち、少なくとも１以上の情報を取得し、前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記１以上の情報について解析を行う、請求項１に記載のロボットである。
請求項３に記載された発明は、前記取得手段は、前記リアクションに関する情報として、前記ユーザの撮像画像の情報を取得し、前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記撮像画像の情報について解析を行う、請求項１に記載のロボットである。
請求項４に記載された発明は、前記第２出力手段は、前記解析の結果として、前記ユーザからの返事が無いと判断された場合には、前記第１出力手段により出力された前記第１音声メッセージの前記第２要素が異なる前記第２音声メッセージを出力する、請求項２に記載のロボットである。
請求項５に記載された発明は、前記第２出力手段は、前記解析の結果として、前記ユーザの返事の内容と返事の声の特徴との組み合わせから、前記リアクションが肯定的であると判断された場合には、前記第２音声メッセージとして、前記リアクションが肯定的である場合に出力され得るものとして予め記憶されている複数の前記第１要素と前記第２要素との組み合わせのうちいずれかを出力し、前記リアクションが否定的であると判断された場合には、前記第２音声メッセージとして、前記リアクションが否定的である場合に出力され得るものとして予め記憶されている複数の前記第１要素と前記第２要素との組み合わせのうちいずれかを出力する、請求項２に記載のロボットである。
請求項６に記載された発明は、メッセージの内容としての第１要素と、音声の特徴としての第２要素とが予め定められている、前記第１要素と前記第２要素との組み合わせからなる第１音声メッセージを、ロボットから第１ユーザに向けて出力させる制御を行う第１出力制御手段と、前記第１音声メッセージに対する前記第１ユーザのリアクションに関する情報を取得する取得手段と、取得された前記第１ユーザのリアクションに関する情報の解析を行う解析手段と、前記解析の結果に基づいて、前記第１要素と前記第２要素との組み合わせからなる第２音声メッセージを、前記ロボットから前記第１ユーザに向けて出力させる制御を行う第２出力制御手段と、を備えたことを特徴とするロボットシステムである。
請求項７に記載された発明は、前記取得手段は、前記リアクションに関する情報として、前記第１ユーザからの返事の有無と、前記第１ユーザから返事があった場合における返事の内容と、前記第１ユーザの返事の声の特徴とのうち、少なくとも１以上の情報を取得し、前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記１以上の情報について解析を行う、請求項６に記載のロボットシステムである。
請求項８に記載された発明は、前記取得手段は、前記リアクションに関する情報として、前記第１ユーザの撮像画像の情報を取得し、前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記撮像画像の情報について解析を行う、請求項６に記載のロボットシステムである。
請求項９に記載された発明は、前記第２出力制御手段は、前記解析の結果として、前記第１ユーザからの返事が無いと判断された場合には、前記第１出力制御手段により出力が制御された前記第１音声メッセージの前記第２要素が異なる前記第２音声メッセージを、前記ロボットから前記第１ユーザに向けて出力させる制御を行う、請求項７に記載のロボットシステムである。
請求項１０に記載された発明は、前記第２出力制御手段は、前記解析の結果として、前記第１ユーザの返事の内容と返事の声の特徴との組み合わせから、前記リアクションが肯定的であると判断された場合には、前記第２音声メッセージとして、前記リアクションが肯定的である場合に出力され得るものとして予め記憶されている複数の前記第１要素と前記第２要素との組み合わせのうちいずれかを、前記ロボットから前記第１ユーザに向けて出力させる制御を行い、前記リアクションが否定的であると判断された場合には、前記第２音声メッセージとして、前記リアクションが否定的である場合に出力され得るものとして予め記憶されている複数の前記第１要素と前記第２要素との組み合わせのうちいずれかを、前記ロボットから前記第１ユーザに向けて出力させる制御を行う、請求項７に記載のロボットシステムである。
請求項１１に記載された発明は、前記解析の結果として、前記第１ユーザの発話の音声に予め定められた特徴量の音声の部分が含まれることが検知されると、当該音声の部分を抽出する抽出手段と、前記抽出手段により抽出された前記音声の部分の前記特徴量に基づいて、前記第１ユーザの状態を推定する推定手段と、前記推定手段による推定の結果に応じて、前記第１ユーザの状態を示す情報を第２ユーザに向けて送信する制御を行う送信制御手段と、をさらに備えたことを特徴とする、請求項６乃至１０のうちいずれか１項に記載のロボットシステムである。

本発明によれば、従来よりも、よりユーザに寄り添った発話を可能とするロボットを提供することができる。

本実施の形態が適用されるリアクション対応ロボットシステムのハードウェア構成を示す図である。リアクション対応ロボットのハードウェア構成を示す図である。サーバのハードウェア構成を示す図である。リアクション対応ロボットの機能構成を示す図である。サーバの機能構成を示す図である。リアクション対応ロボットの処理の流れを示すフローチャートである。リアクション対応ロボットの処理の流れを示すフローチャートである。サーバの処理の流れを示すフローチャートである。本サービスを利用するユーザとリアクション対応ロボットとのコミュニケーションの具体例のうち、ユーザが起床する場面を示す図である。（Ａ）は、本サービスを利用するユーザとリアクション対応ロボットとのコミュニケーションの具体例のうち、ユーザが塾に行く場面を示す図である。（Ｂ）は、本サービスを利用するユーザＵとリアクション対応ロボットとのコミュニケーションの具体例のうち、ユーザが風呂に入る場面を示す図である。本サービスを利用するユーザとリアクション対応ロボットとのコミュニケーションの具体例のうち、ユーザが就寝する場面を示す図である。リアクション対応ロボットシステムを構成するユーザ端末に表示されるユーザインターフェースの具体例を示す図である。

〔リアクション対応ロボットシステムのハードウェア構成〕
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
図１は、本実施の形態が適用されるリアクション対応ロボットシステム１のハードウェア構成を示す図である。
リアクション対応ロボットシステム１は、サービス提供者から、ユーザＵａおよびユーザＵｂに対して提供される「リアクション対応ロボットサービス」（以下、「本サービス」と呼ぶ）を実現させるシステムである。本サービスを実現させるリアクション対応ロボットシステム１は、インターネット等のネットワーク１００に接続された、リアクション対応ロボット１０と、サーバ５０と、ユーザ端末９０とを有している。リアクション対応ロボット１０は、リアクション対応ロボットシステム１を構成するネットワーク型のロボットとして機能させることもできるし、通信環境の悪い場所では一時的にスタンドアロン型のロボットとして機能させることもできる。また、当初から通信機能を有しないスタンドアロン型のロボットとして機能させることもできる。

本サービスは、ユーザＵａに寄り添った発話を行うことにより、ユーザＵａの家族や友達のような役割を果たすリアクション対応ロボット１０を提供するサービスである。本サービスを利用するユーザＵａは、生活のあらゆる場面でリアクション対応ロボット１０とコミュニケーションをとる者である。ユーザＵａの年齢や性別などは特に限定されず、誰であってもよい。なお、リアクション対応ロボット１０による「発話」とは、リアクション対応ロボット１０が音声メッセージを出力することをいう。

本サービスを利用するユーザＵｂは、ユーザ端末９０を操作することでリアクション対応ロボット１０の各種設定を行う者である。ユーザＵａとユーザＵｂとの関係は特に制限されず、例えば家族や友人の関係にあることが想定される。また、リアクション対応ロボット１０の各種設定を行う者と、リアクション対応ロボット１０とコミュニケーションを交わす者とは同一であってもよい。このため、ユーザＵａおよびユーザＵｂは同一人物である場合もある。なお、本明細書では、ユーザＵａとユーザＵｂとの各々を区別して説明する必要がない場合には、両者をまとめて「ユーザＵ」と記載する。

リアクション対応ロボットシステム１を構成するリアクション対応ロボット１０は、自身が第ｎ回目（ｎは１以上の整数値）に発話した音声メッセージＭｎに対するユーザＵａのリアクションＲｎを考慮して、必要に応じて「メッセージの内容」や「音声の特徴」に変化を加えた第ｎ＋１回目の音声メッセージＭｎ＋１の発話を行う。ここで、「リアクションＲｎを考慮して」とは、具体的にはユーザＵａのリアクションＲｎがどのようなものであるかを解析して、そのリアクションＲｎに対応させた音声メッセージＭｎ＋１の「メッセージの内容」および「音声の特徴」の組み合わせを決定することをいう。ここで、「メッセージの内容」とは、リアクション対応ロボット１０から発話される具体的な文言のことをいう。また、「音声の特徴」とは、リアクション対応ロボット１０から発話される音声メッセージＭ１の音声の音量、トーン、速度、声色等のことをいう。

リアクション対応ロボット１０から第１回目に発話される音声メッセージＭ１の「メッセージの内容」および「音声の特徴」の組み合わせは、ユーザＵｂの入力操作により選択されて設定される。具体的には、複数の「メッセージの内容」が選択可能な態様でユーザ端末９０にユーザインターフェースとして表示される。また、「音声の特徴」の各要素のパラメータが、設定可能な態様でユーザ端末９０にユーザインターフェースとして表示される。ユーザＵｂが「メッセージの内容」および「音声の特徴」を設定すると、リアクション対応ロボット１０から第１回目に発話される音声メッセージＭ１の「メッセージの内容」および「音声の特徴」の組み合わせの設定が完了する。なお、ユーザ端末９０に表示されるユーザインターフェースの具体例については図１２を参照して後述する。

リアクション対応ロボット１０によるリアクションＲｎの解析は、例えば以下のようにして行われる。すなわち、リアクション対応ロボット１０は、音声データ、画像データ、およびセンシングデータを取得して、各々のデータの解析を行う。このうち、音声データは、リアクション対応ロボット１０により録音された音声のデータであり、ユーザＵａから発せられた音声のデータと、それ以外の音声のデータとが含まれ得る。また、画像データは、リアクション対応ロボット１０が撮像した静止画像または動画像のデータであり、被写体としてのユーザＵａを含む周囲の様子を示す画像のデータが含まれる。また、センシングデータは、リアクション対応ロボット１０によるセンシングの結果を示すデータであり、例えば人感センサ、温度センサ、照度センサ等によるセンシングの結果を示すデータが含まれる。なお、これらのデータを解析する際に用いられる手法については後述する。

リアクション対応ロボット１０は、予め設定された第１回目の音声メッセージＭ１をユーザＵａに向けて発話する。リアクション対応ロボット１０により発話される音声メッセージＭ１は、上述したように「メッセージの内容」と「音声の特徴」との組み合わせで構成される。「メッセージの内容」および「音声の特徴」は、図２を参照して後述する記憶部１３の一領域に設けられたメッセージＤＢ７１に複数記憶されて管理されている。

リアクション対応ロボット１０がユーザＵａに向けて音声メッセージＭ１を発話するタイミングは、ユーザＵｂによって予め設定される。リアクション対応ロボット１０が発話するタイミングの設定は、ユーザＵｂが所持し、またはユーザＵｂが生活する空間に配置されたユーザ端末９０に対する入力操作にて行われる。ユーザＵｂは、音声メッセージＭ１が発話されるタイミングとして、例えば「午前６時３０分」といったように具体的な時刻を設定してもよい。また、例えば「ユーザＵａの存在を検知したとき」といったように、ユーザＵａの存在が確認できたタイミングで音声メッセージＭ１が発話されるように設定してもよい。

具体例として、例えば予め設定されたタイミング（例えば午前６時３０分）になったので、リアクション対応ロボット１０がユーザＵａに向けて「朝だよ、起きて」という音声メッセージＭ１を発話したが、ユーザＵａからの返事がなかったとする。このような場合、リアクション対応ロボット１０は、自機の周囲を撮像した画像データを解析した結果や、人感センサによるセンシングの結果を解析した結果に基づいて、ユーザＵａの存在の有無を確認する。そして、近くにユーザＵａが存在することが確認できた場合には、「返事をすることなく寝続けている」というユーザＵａのリアクションＲ１を考慮して、音声メッセージＭ１に変化を加えた音声メッセージＭ２を発話する。例えば、リアクション対応ロボット１０は、なかなか起きない子供を起こす親の声が次第に大きくなるように、音声メッセージＭ１のときよりも音量を大きくした音声メッセージＭ２を発話する。さらに、例えば音量の変化に加えて、「午前６時４０分だよ！遅刻するよ！」といったように「メッセージの内容を変化させた音声メッセージＭ２を発話する。

ユーザＵａとユーザＵｂとが離れた場所にいる場合には、リアクション対応ロボット１０が発話した音声メッセージＭｎに対するユーザＵａのリアクションＲｎの内容をユーザＵｂに報知することができる。例えば、予め設定されたタイミング（例えば毎日の起床時刻）になったので、リアクション対応ロボット１０がユーザＵａを起こすための音声メッセージＭｎを発話したとする。これに対して、ユーザＵａが返事をすることなく寝続けている場合には、リアクション対応ロボット１０がその様子をカメラで撮像した画像データをユーザ端末９０に送信してユーザＵｂに報知することもできる。ユーザＵｂは、送信されてきた画像を確認することでユーザＵａの様子を把握することが可能となる。

リアクション対応ロボット１０は、ユーザＵａに関する情報（以下、「ユーザ情報」と呼ぶ）を継続的に取得して、図２を参照して後述する記憶部１３の一領域に設けられたユーザＤＢ７２に記憶して管理する。ユーザ情報には、ユーザＵａの呼び名（ニックネーム）、年齢、性別、住所、家族構成といった一般的な情報だけではなく、ユーザＵａの行動履歴やスケジュールなど、よりパーソナルな情報も含まれる。

また、ユーザＵａが本サービス以外の他サービスにユーザ情報を別途登録している場合であって、本サービスと他サービスとの間にユーザＵａのユーザ情報の融通に関する定めが設けられているような場合がある。このような場合には、ユーザＵａの承諾を条件として、他サービスにてユーザ情報として既に登録されている情報も、本サービスにおけるユーザ情報として取得される。具体的には、他サービスを運営するサーバなど、図示しない外部のサーバから取得可能なユーザ情報が、直接またはサーバ５０を経由して取得される。

また、リアクション対応ロボット１０の発話に対するユーザＵａのリアクションＲｎの履歴も、ユーザ情報として記憶されて管理される。ユーザＵａのリアクションＲｎの情報は、リアクション対応ロボット１０で取得された後にサーバ５０に向けて送信される。リアクション対応ロボット１０は、ユーザ情報を対象とする機械学習を行い、その学習結果として構築されるアルゴリズムやモデルを利用して、音声メッセージＭｎの「メッセージの内容」および「音声の特徴」を決定する。

具体的には、例えばユーザＵａのジョギングの履歴は、ユーザＵａの行動履歴に含まれる。この場合、ユーザＵａの行動履歴から、例えば午後７時前後になると略毎日ジョギングに出掛けることがリアクション対応ロボット１０によって把握することが可能となる。すると、ユーザＵａとリアクション対応ロボット１０との間で以下のような会話が交わされることが想定できる。すなわち、リアクション対応ロボット１０は、例えば午後６時５０分になると「そろそろジョギングに行く時間だね」という音声メッセージＭ１を発話する。これに対して、ユーザＵａが、「今日は疲れているからやめておく」と発話したとする。すると、リアクション対応ロボット１０は、ユーザＵａの発話をリアクションＲ１として認識して、さらに、行動履歴の学習結果に基づく音声メッセージＭ２を発話する。例えば、ユーザＵａの行動履歴から２日連続でジョギングを怠っていることが判明している場合には、「３日連続で休むことになるよ。大丈夫？」といった効果的な内容の音声メッセージＭ２を発話する。

このように、リアクション対応ロボット１０は、従来のロボットのように、感情の起伏のない単調で無機質な音声を出力するのではなく、あたかも血の通った人間が発話するように、リアクションＲｎに柔軟に対応させた音声メッセージＭｎ＋１を発話する。これにより、音声メッセージＭｎ＋１を聞いたユーザＵａは、自身のリアクションＲｎを、リアクション対応ロボット１０が正確に理解して敏感に反応してくれたと感じることが期待できる。その結果、ユーザＵａは、家族や友人と話しているような気分を得ることが可能となる。

また、ユーザＵｂは、リアクション対応ロボット１０から発話される音声メッセージＭ１の「メッセージの内容」および「音声の特徴」を設定する際、ユーザ端末９０に表示される選択肢に所望の「メッセージの内容」が含まれていないことがあり得る。このような場合、ユーザＵｂは、ユーザ端末９０を用いて自らの発話を録音し、これを「オリジナルメッセージ」として予め登録しておくこともできる。登録されたオリジナルメッセージを次回以降選択できるようにすることもできる。

リアクション対応ロボットシステム１を構成するサーバ５０は、システム全体を制御する情報処理装置であり、例えばアクセスすることで本サービスを利用可能にする専用のウェブサイト（以下、「専用サイト」と呼ぶ）を提供する。また、サーバ５０は、本サービスを利用するユーザＵｂの利便性を向上させる専用のアプリケーションソフトウェア（以下、「専用アプリ」と呼ぶ）を提供する。また、サーバ５０は、音声メッセージＭ１の「メッセージの内容」および「音声の特徴」の選択を受け付けて、その組み合わせをリアクション対応ロボット１０に向けて送信する。

また、サーバ５０は、リアクション対応ロボット１０から送信されてくるリアクションＲｎの情報を取得し、これをユーザ情報として、図３を参照して後述する記憶部５３の一領域に設けられたユーザＤＢ８１に記憶して管理する。また、サーバ５０は、ユーザ端末９０および図示しない外部のサーバの各々から取得されるユーザＵａのユーザ情報をユーザＤＢ８１に記憶して管理する。サーバ５０は、ユーザＤＢ８１に記憶しているユーザ情報を用いて、ＡＩ（人工知能）による機械学習を行う。機械学習の結果として構築されたアルゴリズムやモデル等は、図３を参照して後述する記憶部５３の一領域に設けられた学習結果ＤＢ８２に記憶されて管理される。学習結果ＤＢ８２に記憶されたアルゴリズムやモデルといった学習結果は、学習結果の情報としてリアクション対応ロボット１０に送信される。

このように、ユーザＵａのユーザ情報を対象とする機械学習は、サーバ５０側で行うこともできるし、リアクション対応ロボット１０側でも行うこともできる。このため、例えばリアクション対応ロボット１０がスタンドアロン型のロボットとして機能している場合には、リアクション対応ロボット１０が自ら機械学習を行う構成となる。これに対して、リアクション対応ロボット１０がネットワーク型のロボットとして機能している場合には、例えば機械学習をサーバ５０側で行い、その結果として構築されるアルゴリズムやモデル等をリアクション対応ロボット１０側に提供する構成とすることもできる。

リアクション対応ロボット１０は、ユーザＵａとのコミュニケーションを通じて、リアクションＲｎの情報の取得、解析、機械学習、推定、「メッセージの内容」および「音声の特徴」の決定、発話、リアクションＲｎ＋１の情報の取得という処理を繰り返す。これにより、リアクション対応ロボット１０が発話する音声メッセージＭｎの「メッセージの内容」および「音声の特徴」の精度は次第に高まり、より的確なものとなり、人間が発話するものに次第に近付いていく。

リアクション対応ロボットシステム１を構成するユーザ端末９０は、スマートフォン、タブレット、パーソナルコンピュータ等で構成される。ユーザ端末９０は、ユーザＵｂの入力操作を受け付ける。例えば、ユーザ端末９０は、リアクション対応ロボット１０の各種設定を行うための入力操作、および本サービスにユーザ情報を登録するための入力操作を受け付ける。なお、ここでいう「入力操作」には、ユーザ端末９０の画面に表示されるユーザインターフェースへの手入力操作、マイク等への音声による入力操作、カメラ等へのジェスチャによる入力操作が含まれる。

ユーザ端末９０がスマートフォン、タブレット、パーソナルコンピュータで構成される場合には、上述した専用アプリをユーザ端末９０にインストールすることで本サービスが利用可能となる。ただし、専用アプリがインストールされない場合であっても、ユーザ端末９０のブラウザ機能を用いて、上述した専用サイトにアクセスすることでも本サービスが利用可能となる。

〔リアクション対応ロボットのハードウェア構成〕
図２は、リアクション対応ロボット１０のハードウェア構成を示す図である。
リアクション対応ロボット１０は、コンピュータ装置を内蔵するいわゆるコミュニケーションロボットで構成される。リアクション対応ロボット１０は、自機全体を制御するＣＰＵ（Central Processing Unit）である制御部１１と、演算に際して作業エリアとして用いられるＲＡＭ（Random Access Memory）などのメモリ１２と、プログラムや各種設定データなどの記憶に用いられるＨＤＤ（Hard Disk Drive）や半導体メモリ等の記憶装置である記憶部１３とを有している。また、ネットワーク１００を介してデータの送受信を行う通信部１４を有している。また、ユーザＵからの入力操作を受け付けるタッチパネルなどの操作部１５と、ユーザＵに対して画像やテキスト情報などを表示する液晶ディスプレイなどからなる表示部１６と、表示部１６を制御する表示制御部１７とを有している。また、ユーザから発せられる音を録音するためのマイクなどからなる録音部１８と、ユーザＵに対して音声を出力するスピーカなどからなる音声出力部１９とを有している。また、ユーザＵのジェスチャの様子を撮像して静止画像または動画像の情報として取得するためのカメラなどからなる撮像部２０を有している。さらに、自機の周囲の状況を検知するための各種のセンサで構成されたセンサ部２１を有している。センサ部２１は、例えば人感センサ、温度センサ、照度センサ等で構成される。

〔サーバのハードウェア構成〕
図３は、サーバ５０のハードウェア構成を示す図である。
リアクション対応ロボットシステム１を構成するサーバ５０は、パーソナルコンピュータ等の情報処理装置で構成される。サーバ５０のハードウェア構成は、録音部１８、音声出力部１９、撮像部２０、およびセンサ部２１を除いて図２に示すリアクション対応ロボット１０のハードウェア構成と同様の構成を備えている。すなわち、サーバ５０は、ＣＰＵである制御部５１と、ＲＡＭなどのメモリ５２と、ＨＤＤや半導体メモリ等の記憶装置である記憶部５３とを有している。また、ネットワーク１００を介してデータの送受信を行う通信部５４を有している。また、タッチパネルなどの操作部５５と、液晶ディスプレイなどからなる表示部５６と、表示部５６を制御する表示制御部５７とを有している。

〔ユーザ端末のハードウェア構成〕
リアクション対応ロボットシステム１を構成するユーザ端末９０のハードウェア構成は、図２に示すリアクション対応ロボット１０のハードウェア構成と同様の構成を備えている。このため、ユーザ端末９０のハードウェア構成の図示や説明は省略する。

〔リアクション対応ロボットの機能構成〕
図４は、リアクション対応ロボット１０の機能構成を示す図である。
リアクション対応ロボット１０は、予め設定された「メッセージの内容」の情報を取得するメッセージ内容取得部３１と、予め設定された「音声の特徴」の情報を取得する音声特徴取得部３２とを有する。また、録音されたオリジナルメッセージの情報を取得するオリジナルメッセージ取得部３３と、取得されたオリジナルメッセージの情報を記憶するオリジナルメッセージ記憶部３４とを有する。また、発話する音声メッセージＭｎの「メッセージの内容」および「音声の特徴」を決定する発話メッセージ決定部３５と、「メッセージの内容」および「音声の特徴」が決定した音声メッセージＭｎを発話する制御を行う発話制御部３６とを有する。

また、リアクション対応ロボット１０は、ユーザＵａのリアクションＲｎの情報を取得するリアクション取得部３７と、取得されたリアクションＲｎの情報を記憶するリアクション記憶部３８とを有する。また、記憶されたリアクションＲｎの情報を対象とする機械学習を行う学習部３９と、学習結果を記憶する学習結果記憶部４０とを有する。また、リアクションＲｎの推定を行うリアクション推定部４１と、取得されたリアクションＲｎの情報をサーバ５０に向けて送信する制御を行うリアクション送信制御部４２とを有する。また、サーバ５０から送信されてきた学習結果の情報を取得する学習結果取得部４３を有する。

ユーザＵｂの入力操作により、リアクション対応ロボット１０から第１回目に発話される音声メッセージＭ１の「メッセージの内容」が選択されると、メッセージ内容取得部３１は、選択された「メッセージの内容」の情報を取得する。具体的には、「メッセージの内容」が選択されると、この選択がサーバ５０にて受け付けられて、その「メッセージの内容」の情報がリアクション対応ロボット１０に向けて送信される。リアクション対応ロボット１０のメッセージ内容取得部３１は、サーバ５０から送信されてきた「メッセージの内容」の情報を取得する。

ユーザＵｂの入力操作により、リアクション対応ロボット１０から第１回目に発話される音声メッセージＭ１の「音声の特徴」が選択されると、音声特徴取得部３２は、選択された「音声の特徴」の情報を取得する。具体的には、「音声の特徴」の各要素のパラメータが設定されると、この選択がサーバ５０にて受け付けられて、その「音声の特徴」の情報がリアクション対応ロボット１０に向けて送信される。リアクション対応ロボット１０の音声特徴取得部３２は、サーバ５０から送信されてきた「音声の特徴」の情報を取得する。

ユーザＵｂの入力操作により、リアクション対応ロボット１０から第１回目に発話される音声メッセージＭ１としてのオリジナルメッセージが録音されると、オリジナルメッセージ取得部３３は、録音されたオリジナルメッセージの情報を取得する。具体的には、ユーザＵｂが発話したオリジナルメッセージの音声が入力されると、上述した図２の録音部１８によりその音声が録音される。リアクション対応ロボット１０のオリジナルメッセージ取得部３３は、録音部１８により録音されたオリジナルメッセージの音声の情報を取得する。

オリジナルメッセージ記憶部３４は、オリジナルメッセージ取得部３３により取得されたオリジナルメッセージの音声の情報を、メッセージＤＢ７１に記憶させて管理する。これにより、オリジナルメッセージが登録される。オリジナルメッセージ記憶部３４は、オリジナルメッセージを一意に特定可能にする識別情報に、オリジナルメッセージの情報を対応付けて、その識別情報をキーとしていつでも抽出可能な態様で管理する。

発話メッセージ決定部３５は、リアクション対応ロボット１０から発話される音声メッセージＭｎの「メッセージの内容」および「音声の特徴」の組み合わせを決定する。リアクション対応ロボット１０から第１回目に発話される音声メッセージＭ１については、ユーザＵｂの入力操作により設定された内容に従って「メッセージの内容」および「音声の特徴」の組み合わせが決定する。また、第２回目以降に発話される音声メッセージＭ２乃至Ｍｍ（ｍは２以上の整数値）については、取得されたユーザＵａのリアクションＲ１の情報に、後述する学習部３９にて構築されるアルゴリズムやモデルを適用した結果により「メッセージの内容」および「音声の特徴」が決定する。具体的には、メッセージＤＢ７１に予め記憶されている複数の「メッセージの内容」および「音声の特徴」の中から１の「メッセージの内容」および「音声の特徴」の組み合わせが抽出される。

発話制御部３６は、発話メッセージ決定部３５により「メッセージの内容」および「音声の特徴」の組み合わせが決定された音声メッセージＭｎを発話する制御を行う。具体的には、発話制御部３６は、ユーザＵｂの入力操作により予め設定されたタイミングで第１回目の発話を行わせる。第２回目以降の発話のタイミングは特に限定されないが、ユーザＵａとリアクション対応ロボット１０との間のコミュニケーションはスムーズに行われることが望ましい。このため、ユーザＵａのリアクションＲｎに対する反応としてコミュニケーション上不自然にならないタイミングでリアクション対応ロボット１０が発話するように制御されるのが好ましい。

例えば、発話制御部３６は、発話メッセージ決定部３５により「メッセージの内容」および「音声の特徴」の組み合わせが決定されると、直ちに音声出力部１９から音声メッセージＭｎ＋１が発話されるように制御してもよい。また、例えば後述するリアクション取得部３７によりユーザＵａのリアクションＲｎの情報が取得された後、予め設定された時間が経過する間に発話メッセージ決定部３５による「メッセージの内容」および「音声の特徴」の組み合わせの決定が行われて、音声出力部１９から発話されるように制御してもよい。この場合、「予め設定された時間」は、ユーザＵｂが任意に設定できるものとし、例えば「１秒後」、「３秒後」といったように設定できるようにしてもよい。

リアクション取得部３７は、録音部１８により録音された音声データ、撮像部２０により撮像された画像データ、センサ部２１を構成する各種センサによるセンシングの結果であるセンシングデータ等を、ユーザＵａのリアクションＲｎの情報として取得する。具体的には、例えばリアクション対応ロボット１０からの発話に対して、ユーザＵａが「おはよう！」と発話したとする。この場合、「おはよう！」という音声を一部に含む、自機の周囲の音声が録音部１８により録音されるので、リアクション取得部３７は、その音声データをリアクションＲｎの情報として取得する。

リアクション記憶部３８は、リアクション取得部３７により取得されたユーザＵａのリアクションＲｎの情報を、ユーザ情報としてユーザＤＢ７２に記憶させて管理する。具体的には、リアクション記憶部３８は、ユーザＵａを一意に特定可能にする識別情報に、音声メッセージＭｎの情報と、リアクションＲｎの情報とを対応付けて管理する。このようにして、リアクション対応ロボット１０から発話された音声メッセージＭｎの情報と、音声メッセージＭｎに対するユーザＵａのリアクションＲｎの情報との組み合わせが実績として集積されていく。

学習部３９は、リアクション記憶部３８によりユーザＵａのユーザ情報としてユーザＤＢ７２に記憶されたリアクションＲｎの情報を対象とする機械学習を行う。具体的には、ＡＩ（人工知能）が、ユーザＤＢ７２に集積されたユーザ情報を対象とする学習を行うことで、後述するリアクション推定部４１によるリアクションＲｎの推定の際に用いられるアルゴリズムやモデルを構築する。

ユーザ情報の学習のうち、音声データの学習は、音声データを解析することで得られる音声の特徴量について行われる。音声の特徴量としては、ピッチ、基本周波数、音声波形周期性、声道の共鳴周波数、フォルマントの周波数帯域、声量、声質や声色、速度、波形ピークの出現頻度等が挙げられる。また、画像データの学習は、画像データを解析することで得られる、撮像画像に含まれるユーザＵａの顔の領域の情報、特定された領域から抽出される特徴量の情報等について行われる。また、センシングデータの学習は、例えば人感センサ、温度センサ、照度センサ等の各々のセンシング結果を解析することで得られるデータについて行われる。

学習結果記憶部４０は、学習部３９の学習結果を学習結果ＤＢ７３に記憶して管理する。また、学習結果記憶部４０は、後述する学習結果取得部４３により取得された学習結果を学習結果ＤＢ７３に記憶して管理する。学習結果として学習結果ＤＢ７３に記憶されるものとしては、学習結果として構築されたアルゴリズムやモデル等が挙げられる。

リアクション推定部４１は、ユーザＵａのリアクションＲｎの推定を行う。具体的には、リアクション推定部４１は、リアクションＲｎの情報として取得された音声データ、画像データ、センシングデータ等に、学習部３９にて構築されたアルゴリズムやモデルを適用することでリアクションＲｎの推定を行う。ここで、「リアクションＲｎの推定」とは、リアクション対応ロボット１０から発話された音声メッセージＭｎを聞いたユーザＵａのリアクションＲｎからユーザＵａの内的状態および外的状態を推定することをいう。ここで、ユーザＵａの内的状態とは、音声メッセージＭｎを聞いたユーザＵａが、自身の心に抱いた気持ちや感情の状態のことをいう。また、ユーザＵａの外的状態とは、ユーザＵａの存在の有無や、ユーザＵａが存在する場合に、音声メッセージＭｎを聞いたユーザＵａの外観の状態のことをいう。

具体的には、例えばリアクション対応ロボット１０からの「朝だよ！起きて！」という音声メッセージＭ１の発話に対して、ユーザＵａが清々しく「おはよう！」という返事をしながらベッドから立ち上がったとする。この場合、リアクション推定部４１は、リアクションＲ１の情報として取得された音声データを解析することで、ユーザＵａの内的状態が例えば「積極的に起床しようという気持ち」であるという推定を行う。音声データを解析することで、ユーザＵａからの返事の有無、ユーザＵａからの返事の内容、ユーザＵａの返事の声の特徴等の把握が可能となる。また、リアクション推定部４１は、リアクションＲｎの情報として取得された画像データや、各種センサのセンシングデータを解析することで、ユーザＵａの外的状態として例えば「二度寝することなく直ぐに起床した」という推定を行う。画像データやセンシングデータは、解析することでユーザＵａの存在の有無、ユーザＵａの外観の様子、あるいはユーザＵａの体調等の把握が可能となる。

リアクション送信制御部４２は、リアクション取得部３７により取得されたユーザＵａのリアクションＲｎの情報をサーバ５０に向けて送信する制御を行う。リアクション送信制御部４２がリアクションＲｎの情報をサーバ５０に向けて送信する目的としては、少なくとも２つある。このうち１つ目の目的は、リアクションＲｎの情報を含むユーザ情報を対象とする機械学習がサーバ５０側で行われる場合に、機械学習の対象となるリアクションＲｎの情報を提供するためである。また、もう１つの目的は、リアクション対応ロボット１０側で管理するリアクションＲｎの情報と、サーバ５０側で管理するリアクションＲｎの情報との同期をとるためである。

学習結果取得部４３は、リアクションＲｎの情報を含むユーザ情報を対象とした機械学習がサーバ５０側で行われている場合に、サーバ５０から送信されてきた、アルゴリズムやモデルといった学習結果の情報を取得する。学習結果取得部４３により取得された学習結果の情報は、リアクション推定部４１によるリアクションＲｎの推定に用いられる。

〔サーバの機能構成〕
図５は、サーバ５０の機能構成を示す図である。
サーバ５０は、音声メッセージＭ１の「メッセージの内容」の選択を受け付けるメッセージ内容受付部６１と、音声メッセージＭ１の「音声の特徴」の選択を受け付ける音声特徴受付部６２と、録音されたオリジナルメッセージの設定を受け付けるオリジナルメッセージ受付部６３と、各種情報を送信する制御を行う送信制御部６４と、リアクションＲｎの情報を取得するリアクション取得部６５と、取得されたリアクションＲｎの情報を記憶するリアクション記憶部６６と、取得されたリアクションＲｎの情報を対象とする機械学習を行う学習部６７と、学習結果を記憶する学習結果記憶部６８とを有する。

メッセージ内容受付部６１は、ユーザＵｂによるユーザ端末９０に対する入力操作にて音声メッセージＭ１の「メッセージの内容」が選択されると、この選択を受け付ける。具体的には、例えばユーザ端末９０に表示された複数の「メッセージの内容」のうち、「起きる時間だよ」という「メッセージの内容」が選択されると、この選択が受け付けられる。

音声特徴受付部６２は、ユーザＵｂによるユーザ端末９０に対する入力操作にて音声メッセージＭ１の「音声の特徴」が選択されると、この選択を受け付ける。具体的には、例えばユーザ端末９０に表示された複数の「音声の特徴」のパラメータが選択されると、この選択が受け付けられる。

オリジナルメッセージ受付部６３は、ユーザＵｂによるユーザ端末９０に対する録音操作にて音声メッセージＭ１としてのオリジナルメッセージが録音されると、録音されたオリジナルメッセージの設定を受け付ける。具体的には、ユーザＵｂが、ユーザ端末９０に表示された複数の「メッセージの内容」に所望のものが存在しないため、例えばユーザＵａの呼び名を含んだ「〇〇（ユーザＵａの呼び名）！起きなさい！」というオリジナルメッセージを録音したとする。すると、オリジナルメッセージ受付部６３は、この録音されたオリジナルメッセージの設定を受け付ける。

送信制御部６４は、例えばメッセージ内容受付部６１により受け付けられた、第１回目に発話される音声メッセージＭ１の「メッセージの内容」の情報を、リアクション対応ロボット１０に送信する制御を行う。また、例えば音声特徴受付部６２により受け付けられた、第１回目に発話される音声メッセージＭ１の「音声の特徴」の情報を、リアクション対応ロボット１０に送信する制御を行う。また、例えばオリジナルメッセージ受付部６３により設定が受け付けられた、オリジナルメッセージの音声データを、リアクション対応ロボット１０に送信する制御を行う。また、例えば後述する学習部６７による機械学習の結果として構築されたアルゴリズムやモデル等を、リアクション対応ロボット１０に送信する制御を行う。

リアクション取得部６５は、リアクション対応ロボット１０から送信されてきたユーザＵａのリアクションＲｎの情報を取得する。リアクション取得部６５により取得されるリアクションＲｎの情報には、リアクション対応ロボット１０の録音部１８により録音された音声データ、リアクション対応ロボット１０の撮像部２０により撮像された画像データ、リアクション対応ロボット１０のセンサ部２１を構成する各種センサによるセンシングの結果であるセンシングデータ等が含まれる。

リアクション記憶部６６は、リアクション取得部６５により取得されたユーザＵａのリアクションＲｎの情報を、ユーザＵａのユーザ情報としてユーザＤＢ８１に記憶させて管理する。具体的には、リアクション記憶部６６は、ユーザＵａを一意に特定可能にする識別情報に、音声メッセージＭｎの情報と、リアクションＲｎの情報とを対応付けて管理する。

学習部６７は、リアクション記憶部６６によりユーザＵａのユーザ情報としてユーザＤＢ８１に記憶されたリアクションＲｎの情報を対象とする機械学習を行う。具体的には、ＡＩ（人工知能）が、ユーザＤＢ８１に集積されたユーザ情報を対象とする学習を行うことで、リアクション対応ロボット１０のリアクション推定部４１によるリアクションＲｎの推定の際に用いられるアルゴリズムやモデルを構築する。学習部６７による機械学習は、リアクション対応ロボット１０の学習部３９による機械学習と同様に、音声データ、画像データ、およびセンシングデータを対象とする学習を行う。なお、リアクション対応ロボット１０側で機械学習が行われる場合には、必ずしもサーバ５０側で学習部６７を機能させる必要はない。

学習結果記憶部６８は、学習部６７の学習結果を学習結果ＤＢ８２に記憶して管理する。また、学習結果記憶部６８により学習結果ＤＢ８２に記憶された学習結果の情報は、送信制御部６４によりリアクション対応ロボット１０に向けて適宜送信される。

〔リアクション対応ロボットの処理〕
次に、リアクション対応ロボット１０の処理について図６および図７を参照して説明する。
図６は、リアクション対応ロボット１０の処理の流れを示すフローチャートである。なお、図６には、リアクション対応ロボット１０から第２回目の発話が行われるまでの処理の流れが示されている。
ユーザＵｂの入力操作によって、リアクション対応ロボット１０から第１回目に発話される音声メッセージＭ１の「メッセージの内容」が選択されると（ステップ１０１でＹＥＳ）、メッセージ内容取得部３１は、ユーザＵｂの入力操作にて選択された「メッセージの内容」の情報を取得する（ステップ１０２）。具体的には、サーバ５０にて選択が受け付けられた「メッセージの内容」の情報が、リアクション対応ロボット１０に向けて送信されるので、メッセージ内容取得部３１は、サーバ５０から送信されてきた「メッセージの内容」の情報を取得する。これに対して、「メッセージの内容」が選択されていない場合には（ステップ１０１でＮＯ）、ステップ１０１の判断が繰り返し行われる。

ユーザＵｂの入力操作によって、リアクション対応ロボット１０から第１回目に発話される音声メッセージＭ１の「音声の特徴」が選択されると（ステップ１０３でＹＥＳ）、音声特徴取得部３２は、ユーザＵｂの入力操作にて選択された「音声の特徴」の情報を取得する（ステップ１０４）。具体的には、サーバ５０にて選択が受け付けられた「音声の特徴」の情報が、リアクション対応ロボット１０に向けて送信されるので、音声特徴取得部３２は、サーバ５０から送信されてきた「音声の特徴」の情報を取得する。これに対して、「音声の特徴」が選択されていない場合には（ステップ１０３でＮＯ）、ステップ１０３の判断が繰り返し行われる。

発話メッセージ決定部３５は、リアクション対応ロボット１０から第１回目に発話される音声メッセージＭ１の「メッセージの内容」および「音声の特徴」の組み合わせを決定する（ステップ１０５）。具体的には、ステップ１０２の処理にて取得された「メッセージの内容」の情報と、ステップ１０４の処理にて取得された「音声の特徴」の情報とに基づいて、音声メッセージＭ１の「メッセージの内容」および「音声の特徴」の組み合わせが決定される。

発話制御部３６は、リアクション対応ロボット１０が第１回目の音声メッセージＭ１を発話する制御を行う（ステップ１０６）。具体的には、発話メッセージ決定部３５により「メッセージの内容」および「音声の特徴」が決定された音声メッセージＭ１を発話する制御が行われる。なお、リアクション対応ロボット１０が第１回目の音声メッセージＭ１を発話するタイミングは、ユーザＵｂの入力操作により予め設定される。

リアクション取得部３７が、ユーザＵａによる第１回目のリアクションＲ１の情報を取得すると（ステップ１０７でＹＥＳ）、リアクション推定部４１は、ユーザＵａのリアクションＲ１を推定する。具体的には、リアクション取得部３７は、リアクション対応ロボット１０から発話された音声メッセージＭ１を聞いたユーザＵａの内的状態および外的状態を推定する。これに対して、リアクション取得部３７がユーザＵａによる第１回目のリアクションＲ１の情報を取得していない場合には（ステップ１０７でＮＯ）、ステップ１０７の判断が繰り返し行われる。

リアクション推定部４１は、ユーザＵａのリアクションＲ１の推定を行う（ステップ１０８）。具体的には、学習部３９にて構築されたアルゴリズムやモデルを、リアクションＲ１の情報として新たに取得された音声データ、画像データ、センシングデータ等に適用することでリアクションＲ１の推定を行う。

発話メッセージ決定部３５は、リアクション対応ロボット１０から第２回目に発話される音声メッセージＭ２の「メッセージの内容」および「音声の特徴」の組み合わせを決定する（ステップ１０９）。具体的には、リアクション取得部３７により取得されたユーザＵａの第１回目のリアクションＲ１の情報に、学習部３９にて構築されたアルゴリズムやモデルを適用した結果に基づいて、「メッセージの内容」および「音声の特徴」を決定する。

発話制御部３６は、リアクション対応ロボット１０が第２回目の音声メッセージＭ２を発話する制御を行う（ステップ１１０）。具体的には、発話メッセージ決定部３５により「メッセージの内容」および「音声の特徴」が決定された音声メッセージＭ２を発話する制御が行われる。これにより、リアクション対応ロボット１０から第２回目の音声メッセージＭ２が発話されるまでの処理は終了するが、以降、ステップ１０７乃至ステップ１１０の処理が継続して行われる。つまり、リアクション対応ロボット１０から第２回目の音声メッセージＭ２が発話されると、それを聞いたユーザＵａによる第２回目のリアクションＲ２の情報が取得され、これに対応する第３回目の音声メッセージＭ３がリアクション対応ロボット１０から発話される。このようにして、ユーザＵａとリアクション対応ロボット１０との間における有機的なコミュニケーションが実現する。

図７は、リアクション対応ロボット１０の処理の流れを示すフローチャートである。なお、図７にはリアクション対応ロボット１０側で実行される機械学習の処理の流れが示されている。
リアクション取得部３７が、ユーザＵａによる第ｎ回目のリアクションＲｎの情報を取得すると（ステップ２０１でＹＥＳ）、リアクション記憶部３８は、リアクション取得部３７により取得されたユーザＵａによるリアクションＲｎの情報を記憶する（ステップ２０２）。具体的には、リアクションＲｎの情報は、ユーザ情報の一部としてユーザＤＢ７２に記憶されて管理される。

学習部３９は、リアクション記憶部３８によりユーザＵａのユーザ情報としてユーザＤＢ７２に記憶されたリアクションＲｎの情報を対象とする機械学習を行う（ステップ２０３）。具体的には、リアクションＲｎの情報としての音声データ、画像データ、およびセンシングデータを対象とするＡＩ（人工知能）による学習が行われる。

学習結果記憶部４０は、学習結果を記憶する（ステップ２０４）。具体的には、学習部３９の学習結果を学習結果ＤＢ７３に記憶して管理する。学習結果として学習結果ＤＢ７３に記憶されるものとしては、学習結果として構築されたアルゴリズムやモデル等が挙げられる。これにより処理は終了する。

〔サーバの処理〕
次に、サーバ５０の処理について、図８を参照して説明する。
図８は、サーバ５０の処理の流れを示すフローチャートである。
ユーザＵｂによるユーザ端末９０に対する入力操作にて音声メッセージＭ１の「メッセージの内容」が選択されると（ステップ５０１でＹＥＳ）、メッセージ内容受付部６１は、その「メッセージの内容」の選択を受け付ける（ステップ５０２）。これに対して、音声メッセージＭ１の「メッセージの内容」が選択されていない場合には、ステップ５０１の判断が繰り返し行われる。

ユーザＵｂによるユーザ端末９０に対する入力操作にて音声メッセージＭ１の「音声の特徴」が選択されると（ステップ５０３でＹＥＳ）、音声特徴受付部６２は、その「音声の特徴」の選択を受け付ける（ステップ５０４）。これに対して、音声メッセージＭ１の「音声の特徴」が選択されていない場合には、ステップ５０３の判断が繰り返し行われる。

送信制御部６４は、選択が受け付けられた各種情報を送信する制御を行う。具体的には、メッセージ内容受付部６１により選択が受け付けられた「メッセージの内容」の情報と、音声特徴受付部６２により選択が受け付けられた「音声の特徴」の情報とをリアクション対応ロボット１０に向けて送信する制御を実行する（ステップ５０５）。これにより処理が終了する。

〔コミュニケーションの具体例〕
次に、本サービスを利用するユーザＵａと、リアクション対応ロボット１０とのコミュニケーションの具体例について、図９乃至図１１を参照して説明する。
図９は、本サービスを利用するユーザＵａとリアクション対応ロボット１０とのコミュニケーションの具体例のうち、ユーザＵａが起床する場面を示す図である。

図９に示すユーザＵａは高校生であり、ユーザＵｂはユーザＵａの母親である。ユーザＵｂは仕事上の理由で早朝に出勤するため、ユーザＵａは毎日一人で起床して通学する必要がある。このため、ユーザＵｂは、リアクション対応ロボット１０にユーザＵａを起こしてもらうこととした。この場合、ユーザＵｂは、ユーザ端末９０を操作して、リアクション対応ロボット１０が第１回目に発話する音声メッセージＭ１の「メッセージの内容」および「音声の特徴」と、発話するタイミングとを予め選択して設定する。

リアクション対応ロボット１０は、予め設定されたタイミング（例えば「午前７時」という時刻）になると、予め保持している時間情報と、予め設定された「メッセージの内容」および「音声の特徴」とに基づいて、例えば比較的穏やかな調子で「朝だよ起きて」という第１回目の音声メッセージＭ１を発話する。これに対して、ユーザＵａが「はい起きました」と発話したにもかかわらず、いびきをかいて二度寝をしてしまったとする。すると、リアクション対応ロボット１０は、ユーザＵａの第１回目のリアクションＲ１の情報として、録音部１８により録音された音声データと、撮像部２０により撮像された画像データとを取得する。

リアクションＲ１の情報を取得したリアクション対応ロボット１０は、リアクションＲ１の推定を行う。具体的には、リアクション対応ロボット１０は、リアクションＲ１の情報のうち音声データに含まれる、「はい起きました」というユーザＵａの発話、および「ＺＺＺ（いびき音）」というユーザＵａの発話から、ユーザＵａの内的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの内的状態の推定として、例えば「起きる意思はあるものの、眠気に負けている」と推定する。また、リアクション対応ロボット１０は、リアクションＲ１の情報のうち、画像データに含まれる、ユーザＵａがベッドで寝続けている様子から、ユーザＵａの外的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの外的状態の推定として、例えば「ベッド上にユーザＵａが横たわっている」と推定する。そして、リアクション対応ロボット１０は、ユーザＵａの内的状態および外的状態の各々の推定結果から、リアクションＲ１の推定として、「ユーザＵａは一度返事をしたにもかかわらず、眠気に勝てずに二度寝している」と推定する。

リアクションＲ１の推定を行ったリアクション対応ロボット１０は、リアクションＲ１に対応する音声メッセージＭ２を発話する。具体的には、リアクション対応ロボット１０は、リアクションＲ１の推定結果に基づいて、二度寝しているユーザＵａを起こすために発話する音声メッセージＭ２の「メッセージの内容」および「音声の特徴」を決定する。この場合、例えば音声メッセージＭ１よりも音量をアップさせて、「うそつかないで起きて！！」という音声メッセージＭ２を発話する。これに対して、ユーザＵａが「本当に起きたよ」と発話したにもかかわらず、またいびきをかいて寝てしまったとする。すると、リアクション対応ロボット１０は、ユーザＵａの第２回目のリアクションＲ２の情報として、録音部１８により録音された音声データと、撮像部２０により撮像された画像データとを取得する。

リアクションＲ２の情報を取得したリアクション対応ロボット１０は、リアクションＲ２の推定を行う。具体的には、リアクション対応ロボット１０は、リアクションＲ２の情報のうち音声データに含まれる、「本当に起きたよ」というユーザＵａの発話、および「ＺＺＺ（いびき音）」というユーザＵａの発話から、ユーザＵａの内的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの内的状態の推定として、例えば「起きる意思はあるものの、引き続き眠気に負けている」と推定する。また、リアクション対応ロボット１０は、リアクションＲ２の情報のうち、画像データに含まれるユーザＵａがベッドで寝続けている様子から、ユーザＵａの外的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの外的状態の推定として、例えば「ベッド上にユーザＵａが引き続き横たわっている」と推定する。そして、リアクション対応ロボット１０は、ユーザＵａの内的状態および外的状態の各々の推定結果から、リアクションＲ２の推定として、「ユーザＵａは一度返事をしたにもかかわらず、眠気に勝てずに引き続き寝ている」と推定する。

リアクションＲ２の推定を行ったリアクション対応ロボット１０は、リアクションＲ２に対応する音声メッセージＭ３を発話する。具体的には、リアクション対応ロボット１０は、リアクションＲ２の推定結果に基づいて、母親に連絡することをユーザＵａに伝えるために発話する音声メッセージＭ３の「メッセージの内容」および「音声の特徴」を決定する。この場合、リアクション対応ロボット１０は、例えば「お母さんに連絡するからね！！」という音声メッセージＭ３を発話するとともに、ユーザＵａが起床しないことを示すテキストメッセージをユーザ端末９０に送信する。これにより、ユーザＵｂは、外出中であってもユーザＵａの起床の有無を確認することができるので、必要に応じてユーザＵａに直接電話する等の措置を講じることができる。また、例えば単に寝坊を原因とする場合だけではなく、体調が優れない等を理由に起床できない場合には、画像データやセンシングデータの学習結果からユーザＵａの体温を検知して、その検知結果をユーザＵｂに報知することもできる。

図１０（Ａ）は、本サービスを利用するユーザＵａとリアクション対応ロボット１０とのコミュニケーションの具体例のうち、ユーザＵａが塾に行く場面を示す図である。
上述した図９のユーザＵｂは、自身が泊出張に出掛けるため、ユーザＵａが塾に行く時刻になるとリアクション対応ロボット１０がユーザＵａにその旨を知らせるように、音声メッセージＭ１の設定を行ったとする。

リアクション対応ロボット１０は、予め設定されたタイミング（例えば「午後８時」という時刻）になると、予め保持している時間情報と、予め設定された「メッセージの内容」および「音声の特徴」とに基づいて、例えば「そろそろ塾に行く時間だね」という第１回目の音声メッセージＭ１を発話する。これに対して、椅子に腰掛けて休んでいたユーザＵａが、「もうそんな時間か」という発話とともに立ち上がり、玄関に向けて歩き出しながら元気に「いってきます！」と発話したとする。すると、リアクション対応ロボット１０は、ユーザＵａの第１回目のリアクションＲ１の情報として、録音部１８により録音された音声データと、撮像部２０により撮像された画像データとを取得する。

リアクションＲ１の情報を取得したリアクション対応ロボット１０は、リアクションＲ１の推定を行う。具体的には、リアクション対応ロボット１０は、リアクションＲ１の情報のうち音声データに含まれる、「もうそんな時間か」というユーザＵａの発話、および「いってきます！」というユーザＵａの発話から、ユーザＵａの内的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの内的状態の推定として、例えば「積極的に塾に行こうとしている」と推定する。また、リアクション対応ロボット１０は、リアクションＲ１の情報のうち、画像データに含まれるユーザＵａが立ち上がって玄関に向けて歩き出した様子から、ユーザＵａの外的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの外的状態の推定として、例えば「外出しようとしている」と推定する。そして、リアクション対応ロボット１０は、ユーザＵａの内的状態および外的状態の各々の推定結果から、リアクションＲ１の推定として、「ユーザＵａは元気に塾に行こうとしている」と推定する。

リアクションＲ１の推定を行ったリアクション対応ロボット１０は、リアクションＲ１に対応する音声メッセージＭ２を発話する。具体的には、リアクション対応ロボット１０は、リアクションＲ１の推定結果に基づいて、ユーザＵａを応援するために発話する音声メッセージＭ２の「メッセージの内容」および「音声の特徴」を決定する。この場合、例えば「いってらっしゃい！頑張って！！」という音声メッセージＭ２を発話する。

図１０（Ｂ）は、本サービスを利用するユーザＵａとリアクション対応ロボット１０とのコミュニケーションの具体例のうち、ユーザＵａが風呂に入る場面を示す図である。
ユーザＵｂは、自身が泊出張に出掛けるため、風呂の予約時刻が到来すると、リアクション対応ロボット１０がユーザＵａにその旨を知らせるように、音声メッセージＭ１の設定を行ったとする。

リアクション対応ロボット１０は、予め設定されたタイミング（例えば「風呂の予約時刻が到来すると」）になると、予め保持している時間情報と、予め設定された「メッセージの内容」および「音声の特徴」とに基づいて、例えば「お風呂に入れるよ」という第１回目の音声メッセージＭ１を発話する。これに対して、ユーザＵａが、自身のスマートフォンを見ながら「めんどくさいなぁ」と発話したとする。すると、リアクション対応ロボット１０は、ユーザＵａの第１回目のリアクションＲ１の情報として録音部１８により録音された音声データと、撮像部２０により撮像された画像データとを取得する。

リアクションＲ１の情報を取得したリアクション対応ロボット１０は、リアクションＲ１の推定を行う。具体的には、リアクション対応ロボット１０は、リアクションＲ１の情報のうち音声データに含まれる、「めんどくさいなぁ」というユーザＵａの発話から、ユーザＵａの内的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの内的状態の推定として、例えば「風呂に入ることを面倒だと感じている」と推定する。また、リアクション対応ロボット１０は、リアクションＲ１の情報のうち、画像データに含まれるユーザＵａの外観の様子から、ユーザＵａの外的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの外的状態の推定として、例えば「移動することなくスマートフォンを見続けている」と推定する。そして、リアクション対応ロボット１０は、ユーザＵａの内的状態および外的状態の各々の推定結果から、リアクションＲ１の推定として、「ユーザＵａはスマートフォンに夢中で風呂に入る気がない」と推定する。

リアクションＲ１の推定を行ったリアクション対応ロボット１０は、リアクションＲ１に対応する音声メッセージＭ２を発話する。具体的には、リアクション対応ロボット１０は、リアクションＲ１の推定結果と、ユーザ情報に含まれるユーザＵａの行動履歴に基づいて、ユーザＵａが風呂に入ろうという気持ちになるような音声メッセージＭ２の「メッセージの内容」および「音声の特徴」を決定する。例えばユーザＵａの行動履歴から、昨日風呂に入っていないことが判明している場合には、「昨日も入ってないよ」という音声メッセージＭ２を発話する。これに対して、ユーザＵａは、リアクションＲ２として、例えば「バレたか入ってきます」と発話する。このように、リアクション対応ロボット１０は、発話する音声メッセージＭｎの「メッセージの内容」および「音声の特徴」を決定する際、ユーザＵａのリアクションＲｎの学習結果のみならず、ユーザＵａの行動履歴の学習結果を適用することで、より深度のあるコミュニケーションを実現させることができる。
図１１は、本サービスを利用するユーザＵａとリアクション対応ロボット１０とのコミュニケーションの具体例のうち、ユーザＵａが就寝する場面を示す図である。

ユーザＵｂは、自身が泊出張に出掛けるため、ユーザＵａが就寝する様子がない場合には、リアクション対応ロボット１０がユーザＵａに就寝すべきことを知らせるように、音声メッセージＭ１の設定を行ったとする。

リアクション対応ロボット１０は、予め設定されたタイミングとして、ユーザＵａが就寝する様子がない場合には、予め保持している時間情報と、予め設定された「メッセージの内容」および「音声の特徴」とに基づいて、例えば「そろそろ寝る時間だね」という第１回目の音声メッセージＭ１を発話する。そして、これに対して、ユーザＵａが、「この番組を観てからでもいい？」と発話したとする。すると、リアクション対応ロボット１０は、ユーザＵａの第１回目のリアクションＲ１の情報として、録音部１８により録音された音声データと、撮像部２０により撮像された画像データとを取得する。

リアクションＲ１の情報を取得したリアクション対応ロボット１０は、リアクションＲ１の推定を行う。具体的には、リアクション対応ロボット１０は、リアクションＲ１の情報のうち音声データに含まれる、「この番組を観てからでもいい？」というユーザＵａの発話から、ユーザＵａの内的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの内的状態の推定として、例えば「所望のテレビ番組を視聴したいと考えている」と推定する。また、リアクション対応ロボット１０は、リアクションＲ１の情報のうち、画像データに含まれるユーザＵａの外観の様子から、ユーザＵａの外的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの外的状態の推定として、例えば「テレビ番組を視聴している」と推定する。そして、リアクション対応ロボット１０は、ユーザＵａの内的状態および外的状態の各々の推定結果から、リアクションＲ１の推定として、「ユーザＵａは今直ぐ就寝するのではなく所望のテレビ番組を視聴し終わった後に就寝することを希望している」と推定する。

リアクションＲ１の推定を行ったリアクション対応ロボット１０は、リアクションＲ１に対応する音声メッセージＭ２を発話する。具体的には、リアクション対応ロボット１０は、リアクションＲ１の推定結果と、インターネットから別途取得可能なウェブ情報に含まれる、放送中または放送予定のテレビ番組の情報とに基づいて、ユーザＵａに向けて発話する音声メッセージＭ２の「メッセージの内容」および「音声の特徴」を決定する。この場合、テレビ番組の情報からユーザＵａが視聴したいテレビ番組の終了時刻が午後１１時３０分であることが判明している場合には、例えば「この番組は午後１１時３０分までだね。遅くない？」といった音声メッセージＭ２を発話する。これに対して、ユーザＵａが「楽しみにしてたから。お願い！」と発話したとする。すると、リアクション対応ロボット１０は、ユーザＵａの第２回目のリアクションＲ２の情報として、録音部１８により録音された音声データと、撮像部２０により撮像された画像データとを取得する。

リアクションＲ２の情報を取得したリアクション対応ロボット１０は、リアクションＲ２の推定を行う。具体的には、リアクション対応ロボット１０は、リアクションＲ２の情報のうち音声データに含まれる、「楽しみにしてたから。お願い！」というユーザＵａの発話から、ユーザＵａの内的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの内的状態の推定として、例えば「現在放送中のテレビ番組をどうしても視聴したいと考えている」と推定する。また、リアクション対応ロボット１０は、リアクションＲ２の情報のうち、画像データに含まれるユーザＵａの外観の様子から、ユーザＵａの外的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの外的状態の推定として、例えば「テレビ番組を引き続き視聴している」と推定する。そして、リアクション対応ロボット１０は、ユーザＵａの内的状態および外的状態の各々の推定結果から、リアクションＲ２の推定として、「ユーザＵａは所望のテレビ番組を視聴することを強く望んでいる」と推定する。

リアクションＲ２の推定を行ったリアクション対応ロボット１０は、リアクションＲ２に対応する音声メッセージＭ３を発話する。具体的には、リアクション対応ロボット１０は、リアクションＲ２の推定結果と、ユーザ情報に含まれるユーザＵａの行動履歴やスケジュールに基づいて、ユーザＵａが翌朝スケジュールどおりに起床することをサポートするような音声メッセージＭ３の「メッセージの内容」および「音声の特徴」を決定する。例えばユーザＵａの行動履歴やスケジュールから、翌朝の起床時刻が午前６時３０分であることが判明している場合には、「明日は午前６時３０分起床だよ。ちゃんと起きてね」といった音声メッセージＭ３を発話する。これに対して、ユーザＵａが「わかってる。ちゃんと自分で起きるよ」と発話したとする。すると、リアクション対応ロボット１０は、ユーザＵａの第３回目のリアクションＲ３の情報として、録音部１８により録音された音声データと、撮像部２０により撮像された画像データとを取得する。

リアクションＲ３の情報を取得したリアクション対応ロボット１０は、リアクションＲ３の推定を行う。具体的には、リアクション対応ロボット１０は、リアクションＲ３の情報のうち音声データに含まれる、「わかってる。ちゃんと自分で起きるよ」というユーザＵａの発話から、ユーザＵａの内的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの内的状態の推定として、例えば「睡眠時間を削ってでも現在放送中のテレビ番組を視聴したいと考えている」と推定する。また、リアクション対応ロボット１０は、リアクションＲ３の情報のうち、画像データに含まれるユーザＵａの外観の様子から、ユーザＵａの外的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの外的状態の推定として、例えば「テレビ番組を引き続き視聴している」と推定する。そして、リアクション対応ロボット１０は、ユーザＵａの内的状態および外的状態の各々の推定結果から、リアクションＲ３の推定として、「ユーザＵａは自覚を持って翌朝起床することを条件に所望のテレビ番組を視聴することを強く望んでいる」と推定する。

リアクションＲ３の推定を行ったリアクション対応ロボット１０は、リアクションＲ３に対応する音声メッセージＭ４を発話する。具体的には、リアクション対応ロボット１０は、リアクションＲ３の推定結果と、ウェブ情報と、時間情報とに基づいて、ユーザＵａの意思を尊重しながらも、規則正しい生活を送ることをサポートするような音声メッセージＭ４の「メッセージの内容」および「音声の特徴」を決定する。例えばウェブ情報や時間情報から、所望のテレビ番組が終了時間を迎えた場合には、「番組終わったでしょ。寝ようね」といった音声メッセージＭ４を発話する。これに対して、ユーザＵａが「面白かった。おやすみ」と発話したとする。すると、リアクション対応ロボット１０は、ユーザＵａの第４回目のリアクションＲ４の情報として、録音部１８により録音された音声データと、撮像部２０により撮像された画像データと、センサ部２１により取得されたセンシングデータとを取得する。

リアクションＲ４の情報を取得したリアクション対応ロボット１０は、リアクションＲ４の推定を行う。具体的には、リアクション対応ロボット１０は、リアクションＲ４の情報のうち音声データに含まれる、「面白かった。おやすみ」というユーザＵａの発話から、ユーザＵａの内的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの内的状態の推定として、例えば「テレビ番組の視聴に満足している」と推定する。また、リアクション対応ロボット１０は、リアクションＲ４の情報のうち、画像データに含まれるユーザＵａの外観の様子と、照度センサのセンシングデータから、ユーザＵａの外的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの外的状態の推定として、例えば「ユーザＵａが自機（リアクション対応ロボット１０）を連れてリビングルームから寝室に移動した」と推定する。また、例えば「ユーザＵａが布団に入って照明を落とした」と推定する。そして、リアクション対応ロボット１０は、ユーザＵａの内的状態および外的状態の各々の推定結果から、リアクションＲ４の推定として、「ユーザＵａは寝室で就寝した」と推定する。

リアクションＲ４の推定を行ったリアクション対応ロボット１０は、リアクションＲ４に対応する音声メッセージＭ５を発話する。具体的には、リアクション対応ロボット１０は、リアクションＲ４の推定結果に基づいて、返事となる音声メッセージＭ５の「メッセージの内容」および「音声の特徴」を決定する。例えば「おやすみ」といった音声メッセージＭ５を発話する。これに対して、ユーザＵａが「ＺＺＺ（いびき音）」と発話したとする。すると、リアクション対応ロボット１０は、ユーザＵａの第５回目のリアクションＲ５の情報として、録音部１８により録音された音声データと、撮像部２０により撮像された画像データと、センサ部２１により取得されたセンシングデータとを取得する。

リアクションＲ５の情報を取得したリアクション対応ロボット１０は、リアクションＲ５の推定を行う。具体的には、リアクション対応ロボット１０は、リアクションＲ５の情報のうち音声データに含まれる、「ＺＺＺ（いびき音）」というユーザＵａの発話から、ユーザＵａの内的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの内的状態の推定として、「就寝中」と推定する。また、リアクション対応ロボット１０は、リアクションＲ５の情報のうち、画像データに含まれるユーザＵａの外観の様子と、照度センサのセンシングデータから、ユーザＵａの外的状態を推定する。この場合、リアクション対応ロボット１０は、ユーザＵａの外的状態の推定として、例えば「ユーザＵａは消灯された寝室でベッドに横になっている」と推定する。そして、リアクション対応ロボット１０は、ユーザＵａの内的状態および外的状態の各々の推定結果から、リアクションＲ５の推定として、「ユーザＵａは就寝中である」と推定する。リアクションＲ５の推定を行ったリアクション対応ロボット１０は、ユーザＵａの睡眠を妨げないようにするため発話しない。

〔インターフェースの具体例〕
次に、本サービスを利用するユーザＵｂが入力操作を行うユーザ端末９０に表示されるユーザインターフェースの具体例について、図１２を参照して説明する。
図１２は、リアクション対応ロボットシステム１を構成するユーザ端末９０に表示されるユーザインターフェースの具体例を示す図である。

図１２に例示するユーザインターフェースは、表示領域９１乃至９３を含むように構成されている。このうち表示領域９１には、リアクション対応ロボット１０が第１回目に発話する音声メッセージＭ１の「メッセージの内容」を選択するためのドロップダウンボタンＢ１乃至Ｂ４が表示されている。このうち、ドロップダウンボタンＢ１が押下されると、図示しないドロップダウンリストが表示される。このドロップダウンリストには、リアクション対応ロボット１０が発話するタイミングが選択可能な態様で複数表示される。具体的には、例えば「起床」、「外出」、「帰宅」、「お風呂」、「宿題」、「就寝」といった各タイミングを選択することができる。また、ドロップダウンボタンＢ２及びＢ３の各々を押下することで、リアクション対応ロボット１０が発話する具体的な時刻を選択することもできる。

また、ドロップダウンボタンＢ４が押下されると、図示しないドロップダウンリストが表示される。このドロップダウンリストには、リアクション対応ロボット１０が第１回目に発話する音声メッセージＭ１の具体的内容が選択可能な態様で表示される。具体的には、例えばドロップダウンボタンＢ１で「起床」が選択されたとする。この場合、ドロップダウンボタンＢ４が押下されると、「おはよう」、「朝だよ起きて」といった「メッセージの内容」が選択可能な態様で列記されたドロップダウンリストが表示される。

表示領域９２には、リアクション対応ロボット１０が第１回目に発話する音声メッセージＭ１の「音声の特徴」を選択するための各種ボタンが表示されている。具体的には、「音声の特徴」を構成する複数の要素の各々のパラメータを設定するための調節バーＣが表示されている。「音声の特徴」を構成する要素としては、図１２に例示するように、音量、トーン、速度、声色等が挙げられる。

表示領域９３には、リアクション対応ロボット１０が第１回目に発話する音声メッセージＭ１としてオリジナルメッセージを登録するためのボタンＢ５が表示されている。ユーザＵｂは、ボタンＢ５を押下して自らメッセージを録音することで、録音したメッセージをオリジナルメッセージとして登録することができる。

以上、本実施の形態について説明したが、本発明は上述した本実施の形態に限るものではない。また、本発明による効果も、上述した本実施の形態に記載されたものに限定されない。例えば、上述の実施の形態では、ユーザＵｂによる入力操作の態様として、手入力操作、音声による入力操作、ジェスチャによる入力操作を挙げているが、これらの入力操作に限定されず、ユーザＵｂの意思を入力可能なあらゆる入力操作を採用することができる。

また、上述した本実施の形態では、リアクション対応ロボット１０が第１回目に発話する音声メッセージＭ１の「メッセージの内容」および「音声の特徴」を選択して設定する構成となっているが、これに限定されない。リアクション対応ロボット１０が第２回目以降に発話する音声メッセージＭｍの「メッセージの内容」および「音声の特徴」を選択して設定できるようにしてもよい。

また、上述の実施の形態では、ユーザＵｂによる入力操作は、ユーザ端末９０に対して行われる構成となっているが、これに限定されない。例えばリアクション対応ロボット１０に図示しないユーザインターフェースが表示されるようにして、ユーザＵｂが直接入力できるようにしてもよい。

また、上述の実施の形態では、リアクション対応ロボット１０及びサーバ５０のいずれも機械学習を行うことができる構成となっているが、リアクション対応ロボット１０のみが機械学習を行うことができる構成とすることもできるし、サーバ５０のみが機械学習を行うことができる構成とすることもできる。リアクション対応ロボット１０のみが機械学習を行うことができる構成とした場合には、通信環境が問われないので、リアクション対応ロボット１０をスタンドアロン型のロボットとして機能させることができる。また、サーバ５０のみが機械学習を行うことができる構成とした場合には、リアクション対応ロボット１０は、サーバ５０側からアルゴリズムやモデルを随時提供してもらうことで、意図する効果を奏するネットワーク型のロボットとして機能させることができる。

１…リアクション対応ロボットシステム、１０…リアクション対応ロボット、３１…メッセージ内容取得部、３２…音声特徴取得部、３３…オリジナルメッセージ取得部、３４…オリジナルメッセージ記憶部、３５…発話メッセージ決定部、３６…発話制御部、３７…リアクション取得部、３８…リアクション記憶部、３９…学習部、４０…学習結果記憶部、４１…リアクション推定部、４２…リアクション送信制御部、４３…学習結果取得部、５０…サーバ、６１…メッセージ内容受付部、６２…音声特徴受付部、６３…オリジナルメッセージ受付部、６４…送信制御部、６５…リアクション取得部、６６…リアクション記憶部、６７…学習部、６８…学習結果記憶部、９０…ユーザ端末、１００…ネットワーク

Claims

メッセージの内容としての第１要素と、音声の特徴としての第２要素とが予め定められている、前記第１要素と前記第２要素との組み合わせからなる第１音声メッセージをユーザに向けて出力する第１出力手段と、
前記第１音声メッセージに対する前記ユーザのリアクションに関する情報を取得する取得手段と、
取得された前記ユーザのリアクションに関する情報の解析を行う解析手段と、
前記解析の結果に基づいて、前記第１要素と前記第２要素との組み合わせからなる第２音声メッセージを出力する第２出力手段と、
を備えたことを特徴とするロボット。
前記取得手段は、前記リアクションに関する情報として、前記ユーザからの返事の有無と、前記ユーザから返事があった場合における返事の内容と、前記ユーザの返事の声の特徴とのうち、少なくとも１以上の情報を取得し、
前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記１以上の情報について解析を行う、
請求項１に記載のロボット。
前記取得手段は、前記リアクションに関する情報として、前記ユーザの撮像画像の情報を取得し、
前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記撮像画像の情報について解析を行う、
請求項１に記載のロボット。
前記第２出力手段は、前記解析の結果として、前記ユーザからの返事が無いと判断された場合には、前記第１出力手段により出力された前記第１音声メッセージの前記第２要素が異なる前記第２音声メッセージを出力する、
請求項２に記載のロボット。
前記第２出力手段は、前記解析の結果として、前記ユーザの返事の内容と返事の声の特徴との組み合わせから、前記リアクションが肯定的であると判断された場合には、前記第２音声メッセージとして、前記リアクションが肯定的である場合に出力され得るものとして予め記憶されている複数の前記第１要素と前記第２要素との組み合わせのうちいずれかを出力し、前記リアクションが否定的であると判断された場合には、前記第２音声メッセージとして、前記リアクションが否定的である場合に出力され得るものとして予め記憶されている複数の前記第１要素と前記第２要素との組み合わせのうちいずれかを出力する、
請求項２に記載のロボット。
メッセージの内容としての第１要素と、音声の特徴としての第２要素とが予め定められている、前記第１要素と前記第２要素との組み合わせからなる第１音声メッセージを、ロボットから第１ユーザに向けて出力させる制御を行う第１出力制御手段と、
前記第１音声メッセージに対する前記第１ユーザのリアクションに関する情報を取得する取得手段と、
取得された前記第１ユーザのリアクションに関する情報の解析を行う解析手段と、
前記解析の結果に基づいて、前記第１要素と前記第２要素との組み合わせからなる第２音声メッセージを、前記ロボットから前記第１ユーザに向けて出力させる制御を行う第２出力制御手段と、
を備えたことを特徴とするロボットシステム。
前記取得手段は、前記リアクションに関する情報として、前記第１ユーザからの返事の有無と、前記第１ユーザから返事があった場合における返事の内容と、前記第１ユーザの返事の声の特徴とのうち、少なくとも１以上の情報を取得し、
前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記１以上の情報について解析を行う、
請求項６に記載のロボットシステム。
前記取得手段は、前記リアクションに関する情報として、前記第１ユーザの撮像画像の情報を取得し、
前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記撮像画像の情報について解析を行う、
請求項６に記載のロボットシステム。
前記第２出力制御手段は、前記解析の結果として、前記第１ユーザからの返事が無いと判断された場合には、前記第１出力制御手段により出力が制御された前記第１音声メッセージの前記第２要素が異なる前記第２音声メッセージを、前記ロボットから前記第１ユーザに向けて出力させる制御を行う、
請求項７に記載のロボットシステム。
前記第２出力制御手段は、前記解析の結果として、前記第１ユーザの返事の内容と返事の声の特徴との組み合わせから、前記リアクションが肯定的であると判断された場合には、前記第２音声メッセージとして、前記リアクションが肯定的である場合に出力され得るものとして予め記憶されている複数の前記第１要素と前記第２要素との組み合わせのうちいずれかを、前記ロボットから前記第１ユーザに向けて出力させる制御を行い、前記リアクションが否定的であると判断された場合には、前記第２音声メッセージとして、前記リアクションが否定的である場合に出力され得るものとして予め記憶されている複数の前記第１要素と前記第２要素との組み合わせのうちいずれかを、前記ロボットから前記第１ユーザに向けて出力させる制御を行う、
請求項７に記載のロボットシステム。
前記解析の結果として、前記第１ユーザの発話の音声に予め定められた特徴量の音声の部分が含まれることが検知されると、当該音声の部分を抽出する抽出手段と、
前記抽出手段により抽出された前記音声の部分の前記特徴量に基づいて、前記第１ユーザの状態を推定する推定手段と、
前記推定手段による推定の結果に応じて、前記第１ユーザの状態を示す情報を第２ユーザに向けて送信する制御を行う送信制御手段と、
をさらに備えたことを特徴とする、
請求項６乃至１０のうちいずれか１項に記載のロボットシステム。