JP2022180232A - ロボット、およびロボットシステム - Google Patents

ロボット、およびロボットシステム Download PDF

Info

Publication number
JP2022180232A
JP2022180232A JP2021087219A JP2021087219A JP2022180232A JP 2022180232 A JP2022180232 A JP 2022180232A JP 2021087219 A JP2021087219 A JP 2021087219A JP 2021087219 A JP2021087219 A JP 2021087219A JP 2022180232 A JP2022180232 A JP 2022180232A
Authority
JP
Japan
Prior art keywords
reaction
user
robot
information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021087219A
Other languages
English (en)
Inventor
朋佳 大橋
Tomoka Ohashi
峻 戸村
Shun Tomura
登 宮本
Noboru Miyamoto
奈津子 榎本
Natsuko Enomoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Gas Co Ltd
Original Assignee
Tokyo Gas Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Gas Co Ltd filed Critical Tokyo Gas Co Ltd
Priority to JP2021087219A priority Critical patent/JP2022180232A/ja
Publication of JP2022180232A publication Critical patent/JP2022180232A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Manipulator (AREA)

Abstract

【課題】従来よりも、よりユーザに寄り添った発話を可能とするロボットを提供する。【解決手段】メッセージの内容と、音声の特徴との組み合わせからなる第1回目の音声メッセージM1をユーザUaに向けて発話する発話制御部36と、音声メッセージM1に対するユーザUaのリアクションR1の情報を取得するリアクション取得部37と、取得されたユーザUaのリアクションR1の情報の解析を行う学習部39と、解析の結果に基づいて、メッセージの内容と音声の特徴との組み合わせからなる第2回目の音声メッセージM2を発話する発話制御部36とを備えたことを特徴とするリアクション対応ロボット10である。【選択図】図4

Description

本発明は、ロボット、およびロボットシステムに関する。
特許文献1には、発話機能を有するロボットRBが記載されている。ロボットRBは、実行契機となる単語として「一緒に」が登録されていると、「お片付けしましょうね」と発話し、その発話に対して子供であるユーザが「お片付け嫌だ」と発話すると、「一緒にお片付けしよう」と発話する。また、ロボットRBは、第1ユーザと第2ユーザとが生活習慣に関連する第1単語及び第2単語を発話すると、一方のユーザがコンテンツの起動指示を入力しなくても、生活習慣を身につけさせるためのコンテンツの音声を出力する。
特許文献2には、合成音声をロボットに発話させるコンピュータが記載されている。高齢者の発話に対して近親者からの返答が所定時間無いとき、コンピュータは、会話知識データベースを参照して、高齢者の発話から抽出されたキーワードに対応する近親者の発話データを取得し、その発話データを用いて、近親者の発話を伝達する形式の合成音声を編集する。その音声はロボットから発話される。近親者が高齢者と直接対応を始めた場合でも、途中で、ロボットに代わって貰うことができる。伝達形式の発話は、内容が間違ったとしてもロボットの間違いとして許容される。
特開2019-158967号公報 特開2015-184597号公報
人間にとっての「ロボット」は、一般的な電化製品とは一線を画す存在であるとされている。つまり、ロボットは、一般的な電化製品では実現できない、人とのふれあいや、人の心のケアを可能とする家族や友人に近い(または代替し得る)存在であるといえる。また、そのような存在であることがロボットの本来的な存在意義であるともいえる。しかしながら、特許文献1や2には、ユーザの発話に対して予め決められた内容の発話をするロボットが記載されているにとどまり、ロボットに求められる本来的な存在意義を体現できているとはいえなかった。
本発明の目的は、従来よりも、よりユーザに寄り添った発話を可能とするロボットを提供することにある。
請求項1に記載された発明は、メッセージの内容としての第1要素と、音声の特徴としての第2要素とが予め定められている、前記第1要素と前記第2要素との組み合わせからなる第1音声メッセージをユーザに向けて出力する第1出力手段と、前記第1音声メッセージに対する前記ユーザのリアクションに関する情報を取得する取得手段と、取得された前記ユーザのリアクションに関する情報の解析を行う解析手段と、前記解析の結果に基づいて、前記第1要素と前記第2要素との組み合わせからなる第2音声メッセージを出力する第2出力手段と、を備えたことを特徴とするロボットである。
請求項2に記載された発明は、前記取得手段は、前記リアクションに関する情報として、前記ユーザからの返事の有無と、前記ユーザから返事があった場合における返事の内容と、前記ユーザの返事の声の特徴とのうち、少なくとも1以上の情報を取得し、前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記1以上の情報について解析を行う、請求項1に記載のロボットである。
請求項3に記載された発明は、前記取得手段は、前記リアクションに関する情報として、前記ユーザの撮像画像の情報を取得し、前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記撮像画像の情報について解析を行う、請求項1に記載のロボットである。
請求項4に記載された発明は、前記第2出力手段は、前記解析の結果として、前記ユーザからの返事が無いと判断された場合には、前記第1出力手段により出力された前記第1音声メッセージの前記第2要素が異なる前記第2音声メッセージを出力する、請求項2に記載のロボットである。
請求項5に記載された発明は、前記第2出力手段は、前記解析の結果として、前記ユーザの返事の内容と返事の声の特徴との組み合わせから、前記リアクションが肯定的であると判断された場合には、前記第2音声メッセージとして、前記リアクションが肯定的である場合に出力され得るものとして予め記憶されている複数の前記第1要素と前記第2要素との組み合わせのうちいずれかを出力し、前記リアクションが否定的であると判断された場合には、前記第2音声メッセージとして、前記リアクションが否定的である場合に出力され得るものとして予め記憶されている複数の前記第1要素と前記第2要素との組み合わせのうちいずれかを出力する、請求項2に記載のロボットである。
請求項6に記載された発明は、メッセージの内容としての第1要素と、音声の特徴としての第2要素とが予め定められている、前記第1要素と前記第2要素との組み合わせからなる第1音声メッセージを、ロボットから第1ユーザに向けて出力させる制御を行う第1出力制御手段と、前記第1音声メッセージに対する前記第1ユーザのリアクションに関する情報を取得する取得手段と、取得された前記第1ユーザのリアクションに関する情報の解析を行う解析手段と、前記解析の結果に基づいて、前記第1要素と前記第2要素との組み合わせからなる第2音声メッセージを、前記ロボットから前記第1ユーザに向けて出力させる制御を行う第2出力制御手段と、を備えたことを特徴とするロボットシステムである。
請求項7に記載された発明は、前記取得手段は、前記リアクションに関する情報として、前記第1ユーザからの返事の有無と、前記第1ユーザから返事があった場合における返事の内容と、前記第1ユーザの返事の声の特徴とのうち、少なくとも1以上の情報を取得し、前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記1以上の情報について解析を行う、請求項6に記載のロボットシステムである。
請求項8に記載された発明は、前記取得手段は、前記リアクションに関する情報として、前記第1ユーザの撮像画像の情報を取得し、前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記撮像画像の情報について解析を行う、請求項6に記載のロボットシステムである。
請求項9に記載された発明は、前記第2出力制御手段は、前記解析の結果として、前記第1ユーザからの返事が無いと判断された場合には、前記第1出力制御手段により出力が制御された前記第1音声メッセージの前記第2要素が異なる前記第2音声メッセージを、前記ロボットから前記第1ユーザに向けて出力させる制御を行う、請求項7に記載のロボットシステムである。
請求項10に記載された発明は、前記第2出力制御手段は、前記解析の結果として、前記第1ユーザの返事の内容と返事の声の特徴との組み合わせから、前記リアクションが肯定的であると判断された場合には、前記第2音声メッセージとして、前記リアクションが肯定的である場合に出力され得るものとして予め記憶されている複数の前記第1要素と前記第2要素との組み合わせのうちいずれかを、前記ロボットから前記第1ユーザに向けて出力させる制御を行い、前記リアクションが否定的であると判断された場合には、前記第2音声メッセージとして、前記リアクションが否定的である場合に出力され得るものとして予め記憶されている複数の前記第1要素と前記第2要素との組み合わせのうちいずれかを、前記ロボットから前記第1ユーザに向けて出力させる制御を行う、請求項7に記載のロボットシステムである。
請求項11に記載された発明は、前記解析の結果として、前記第1ユーザの発話の音声に予め定められた特徴量の音声の部分が含まれることが検知されると、当該音声の部分を抽出する抽出手段と、前記抽出手段により抽出された前記音声の部分の前記特徴量に基づいて、前記第1ユーザの状態を推定する推定手段と、前記推定手段による推定の結果に応じて、前記第1ユーザの状態を示す情報を第2ユーザに向けて送信する制御を行う送信制御手段と、をさらに備えたことを特徴とする、請求項6乃至10のうちいずれか1項に記載のロボットシステムである。
本発明によれば、従来よりも、よりユーザに寄り添った発話を可能とするロボットを提供することができる。
本実施の形態が適用されるリアクション対応ロボットシステムのハードウェア構成を示す図である。 リアクション対応ロボットのハードウェア構成を示す図である。 サーバのハードウェア構成を示す図である。 リアクション対応ロボットの機能構成を示す図である。 サーバの機能構成を示す図である。 リアクション対応ロボットの処理の流れを示すフローチャートである。 リアクション対応ロボットの処理の流れを示すフローチャートである。 サーバの処理の流れを示すフローチャートである。 本サービスを利用するユーザとリアクション対応ロボットとのコミュニケーションの具体例のうち、ユーザが起床する場面を示す図である。 (A)は、本サービスを利用するユーザとリアクション対応ロボットとのコミュニケーションの具体例のうち、ユーザが塾に行く場面を示す図である。(B)は、本サービスを利用するユーザUとリアクション対応ロボットとのコミュニケーションの具体例のうち、ユーザが風呂に入る場面を示す図である。 本サービスを利用するユーザとリアクション対応ロボットとのコミュニケーションの具体例のうち、ユーザが就寝する場面を示す図である。 リアクション対応ロボットシステムを構成するユーザ端末に表示されるユーザインターフェースの具体例を示す図である。
〔リアクション対応ロボットシステムのハードウェア構成〕
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
図1は、本実施の形態が適用されるリアクション対応ロボットシステム1のハードウェア構成を示す図である。
リアクション対応ロボットシステム1は、サービス提供者から、ユーザUaおよびユーザUbに対して提供される「リアクション対応ロボットサービス」(以下、「本サービス」と呼ぶ)を実現させるシステムである。本サービスを実現させるリアクション対応ロボットシステム1は、インターネット等のネットワーク100に接続された、リアクション対応ロボット10と、サーバ50と、ユーザ端末90とを有している。リアクション対応ロボット10は、リアクション対応ロボットシステム1を構成するネットワーク型のロボットとして機能させることもできるし、通信環境の悪い場所では一時的にスタンドアロン型のロボットとして機能させることもできる。また、当初から通信機能を有しないスタンドアロン型のロボットとして機能させることもできる。
本サービスは、ユーザUaに寄り添った発話を行うことにより、ユーザUaの家族や友達のような役割を果たすリアクション対応ロボット10を提供するサービスである。本サービスを利用するユーザUaは、生活のあらゆる場面でリアクション対応ロボット10とコミュニケーションをとる者である。ユーザUaの年齢や性別などは特に限定されず、誰であってもよい。なお、リアクション対応ロボット10による「発話」とは、リアクション対応ロボット10が音声メッセージを出力することをいう。
本サービスを利用するユーザUbは、ユーザ端末90を操作することでリアクション対応ロボット10の各種設定を行う者である。ユーザUaとユーザUbとの関係は特に制限されず、例えば家族や友人の関係にあることが想定される。また、リアクション対応ロボット10の各種設定を行う者と、リアクション対応ロボット10とコミュニケーションを交わす者とは同一であってもよい。このため、ユーザUaおよびユーザUbは同一人物である場合もある。なお、本明細書では、ユーザUaとユーザUbとの各々を区別して説明する必要がない場合には、両者をまとめて「ユーザU」と記載する。
リアクション対応ロボットシステム1を構成するリアクション対応ロボット10は、自身が第n回目(nは1以上の整数値)に発話した音声メッセージMnに対するユーザUaのリアクションRnを考慮して、必要に応じて「メッセージの内容」や「音声の特徴」に変化を加えた第n+1回目の音声メッセージMn+1の発話を行う。ここで、「リアクションRnを考慮して」とは、具体的にはユーザUaのリアクションRnがどのようなものであるかを解析して、そのリアクションRnに対応させた音声メッセージMn+1の「メッセージの内容」および「音声の特徴」の組み合わせを決定することをいう。ここで、「メッセージの内容」とは、リアクション対応ロボット10から発話される具体的な文言のことをいう。また、「音声の特徴」とは、リアクション対応ロボット10から発話される音声メッセージM1の音声の音量、トーン、速度、声色等のことをいう。
リアクション対応ロボット10から第1回目に発話される音声メッセージM1の「メッセージの内容」および「音声の特徴」の組み合わせは、ユーザUbの入力操作により選択されて設定される。具体的には、複数の「メッセージの内容」が選択可能な態様でユーザ端末90にユーザインターフェースとして表示される。また、「音声の特徴」の各要素のパラメータが、設定可能な態様でユーザ端末90にユーザインターフェースとして表示される。ユーザUbが「メッセージの内容」および「音声の特徴」を設定すると、リアクション対応ロボット10から第1回目に発話される音声メッセージM1の「メッセージの内容」および「音声の特徴」の組み合わせの設定が完了する。なお、ユーザ端末90に表示されるユーザインターフェースの具体例については図12を参照して後述する。
リアクション対応ロボット10によるリアクションRnの解析は、例えば以下のようにして行われる。すなわち、リアクション対応ロボット10は、音声データ、画像データ、およびセンシングデータを取得して、各々のデータの解析を行う。このうち、音声データは、リアクション対応ロボット10により録音された音声のデータであり、ユーザUaから発せられた音声のデータと、それ以外の音声のデータとが含まれ得る。また、画像データは、リアクション対応ロボット10が撮像した静止画像または動画像のデータであり、被写体としてのユーザUaを含む周囲の様子を示す画像のデータが含まれる。また、センシングデータは、リアクション対応ロボット10によるセンシングの結果を示すデータであり、例えば人感センサ、温度センサ、照度センサ等によるセンシングの結果を示すデータが含まれる。なお、これらのデータを解析する際に用いられる手法については後述する。
リアクション対応ロボット10は、予め設定された第1回目の音声メッセージM1をユーザUaに向けて発話する。リアクション対応ロボット10により発話される音声メッセージM1は、上述したように「メッセージの内容」と「音声の特徴」との組み合わせで構成される。「メッセージの内容」および「音声の特徴」は、図2を参照して後述する記憶部13の一領域に設けられたメッセージDB71に複数記憶されて管理されている。
リアクション対応ロボット10がユーザUaに向けて音声メッセージM1を発話するタイミングは、ユーザUbによって予め設定される。リアクション対応ロボット10が発話するタイミングの設定は、ユーザUbが所持し、またはユーザUbが生活する空間に配置されたユーザ端末90に対する入力操作にて行われる。ユーザUbは、音声メッセージM1が発話されるタイミングとして、例えば「午前6時30分」といったように具体的な時刻を設定してもよい。また、例えば「ユーザUaの存在を検知したとき」といったように、ユーザUaの存在が確認できたタイミングで音声メッセージM1が発話されるように設定してもよい。
具体例として、例えば予め設定されたタイミング(例えば午前6時30分)になったので、リアクション対応ロボット10がユーザUaに向けて「朝だよ、起きて」という音声メッセージM1を発話したが、ユーザUaからの返事がなかったとする。このような場合、リアクション対応ロボット10は、自機の周囲を撮像した画像データを解析した結果や、人感センサによるセンシングの結果を解析した結果に基づいて、ユーザUaの存在の有無を確認する。そして、近くにユーザUaが存在することが確認できた場合には、「返事をすることなく寝続けている」というユーザUaのリアクションR1を考慮して、音声メッセージM1に変化を加えた音声メッセージM2を発話する。例えば、リアクション対応ロボット10は、なかなか起きない子供を起こす親の声が次第に大きくなるように、音声メッセージM1のときよりも音量を大きくした音声メッセージM2を発話する。さらに、例えば音量の変化に加えて、「午前6時40分だよ!遅刻するよ!」といったように「メッセージの内容を変化させた音声メッセージM2を発話する。
ユーザUaとユーザUbとが離れた場所にいる場合には、リアクション対応ロボット10が発話した音声メッセージMnに対するユーザUaのリアクションRnの内容をユーザUbに報知することができる。例えば、予め設定されたタイミング(例えば毎日の起床時刻)になったので、リアクション対応ロボット10がユーザUaを起こすための音声メッセージMnを発話したとする。これに対して、ユーザUaが返事をすることなく寝続けている場合には、リアクション対応ロボット10がその様子をカメラで撮像した画像データをユーザ端末90に送信してユーザUbに報知することもできる。ユーザUbは、送信されてきた画像を確認することでユーザUaの様子を把握することが可能となる。
リアクション対応ロボット10は、ユーザUaに関する情報(以下、「ユーザ情報」と呼ぶ)を継続的に取得して、図2を参照して後述する記憶部13の一領域に設けられたユーザDB72に記憶して管理する。ユーザ情報には、ユーザUaの呼び名(ニックネーム)、年齢、性別、住所、家族構成といった一般的な情報だけではなく、ユーザUaの行動履歴やスケジュールなど、よりパーソナルな情報も含まれる。
また、ユーザUaが本サービス以外の他サービスにユーザ情報を別途登録している場合であって、本サービスと他サービスとの間にユーザUaのユーザ情報の融通に関する定めが設けられているような場合がある。このような場合には、ユーザUaの承諾を条件として、他サービスにてユーザ情報として既に登録されている情報も、本サービスにおけるユーザ情報として取得される。具体的には、他サービスを運営するサーバなど、図示しない外部のサーバから取得可能なユーザ情報が、直接またはサーバ50を経由して取得される。
また、リアクション対応ロボット10の発話に対するユーザUaのリアクションRnの履歴も、ユーザ情報として記憶されて管理される。ユーザUaのリアクションRnの情報は、リアクション対応ロボット10で取得された後にサーバ50に向けて送信される。リアクション対応ロボット10は、ユーザ情報を対象とする機械学習を行い、その学習結果として構築されるアルゴリズムやモデルを利用して、音声メッセージMnの「メッセージの内容」および「音声の特徴」を決定する。
具体的には、例えばユーザUaのジョギングの履歴は、ユーザUaの行動履歴に含まれる。この場合、ユーザUaの行動履歴から、例えば午後7時前後になると略毎日ジョギングに出掛けることがリアクション対応ロボット10によって把握することが可能となる。すると、ユーザUaとリアクション対応ロボット10との間で以下のような会話が交わされることが想定できる。すなわち、リアクション対応ロボット10は、例えば午後6時50分になると「そろそろジョギングに行く時間だね」という音声メッセージM1を発話する。これに対して、ユーザUaが、「今日は疲れているからやめておく」と発話したとする。すると、リアクション対応ロボット10は、ユーザUaの発話をリアクションR1として認識して、さらに、行動履歴の学習結果に基づく音声メッセージM2を発話する。例えば、ユーザUaの行動履歴から2日連続でジョギングを怠っていることが判明している場合には、「3日連続で休むことになるよ。大丈夫?」といった効果的な内容の音声メッセージM2を発話する。
このように、リアクション対応ロボット10は、従来のロボットのように、感情の起伏のない単調で無機質な音声を出力するのではなく、あたかも血の通った人間が発話するように、リアクションRnに柔軟に対応させた音声メッセージMn+1を発話する。これにより、音声メッセージMn+1を聞いたユーザUaは、自身のリアクションRnを、リアクション対応ロボット10が正確に理解して敏感に反応してくれたと感じることが期待できる。その結果、ユーザUaは、家族や友人と話しているような気分を得ることが可能となる。
また、ユーザUbは、リアクション対応ロボット10から発話される音声メッセージM1の「メッセージの内容」および「音声の特徴」を設定する際、ユーザ端末90に表示される選択肢に所望の「メッセージの内容」が含まれていないことがあり得る。このような場合、ユーザUbは、ユーザ端末90を用いて自らの発話を録音し、これを「オリジナルメッセージ」として予め登録しておくこともできる。登録されたオリジナルメッセージを次回以降選択できるようにすることもできる。
リアクション対応ロボットシステム1を構成するサーバ50は、システム全体を制御する情報処理装置であり、例えばアクセスすることで本サービスを利用可能にする専用のウェブサイト(以下、「専用サイト」と呼ぶ)を提供する。また、サーバ50は、本サービスを利用するユーザUbの利便性を向上させる専用のアプリケーションソフトウェア(以下、「専用アプリ」と呼ぶ)を提供する。また、サーバ50は、音声メッセージM1の「メッセージの内容」および「音声の特徴」の選択を受け付けて、その組み合わせをリアクション対応ロボット10に向けて送信する。
また、サーバ50は、リアクション対応ロボット10から送信されてくるリアクションRnの情報を取得し、これをユーザ情報として、図3を参照して後述する記憶部53の一領域に設けられたユーザDB81に記憶して管理する。また、サーバ50は、ユーザ端末90および図示しない外部のサーバの各々から取得されるユーザUaのユーザ情報をユーザDB81に記憶して管理する。サーバ50は、ユーザDB81に記憶しているユーザ情報を用いて、AI(人工知能)による機械学習を行う。機械学習の結果として構築されたアルゴリズムやモデル等は、図3を参照して後述する記憶部53の一領域に設けられた学習結果DB82に記憶されて管理される。学習結果DB82に記憶されたアルゴリズムやモデルといった学習結果は、学習結果の情報としてリアクション対応ロボット10に送信される。
このように、ユーザUaのユーザ情報を対象とする機械学習は、サーバ50側で行うこともできるし、リアクション対応ロボット10側でも行うこともできる。このため、例えばリアクション対応ロボット10がスタンドアロン型のロボットとして機能している場合には、リアクション対応ロボット10が自ら機械学習を行う構成となる。これに対して、リアクション対応ロボット10がネットワーク型のロボットとして機能している場合には、例えば機械学習をサーバ50側で行い、その結果として構築されるアルゴリズムやモデル等をリアクション対応ロボット10側に提供する構成とすることもできる。
リアクション対応ロボット10は、ユーザUaとのコミュニケーションを通じて、リアクションRnの情報の取得、解析、機械学習、推定、「メッセージの内容」および「音声の特徴」の決定、発話、リアクションRn+1の情報の取得という処理を繰り返す。これにより、リアクション対応ロボット10が発話する音声メッセージMnの「メッセージの内容」および「音声の特徴」の精度は次第に高まり、より的確なものとなり、人間が発話するものに次第に近付いていく。
リアクション対応ロボットシステム1を構成するユーザ端末90は、スマートフォン、タブレット、パーソナルコンピュータ等で構成される。ユーザ端末90は、ユーザUbの入力操作を受け付ける。例えば、ユーザ端末90は、リアクション対応ロボット10の各種設定を行うための入力操作、および本サービスにユーザ情報を登録するための入力操作を受け付ける。なお、ここでいう「入力操作」には、ユーザ端末90の画面に表示されるユーザインターフェースへの手入力操作、マイク等への音声による入力操作、カメラ等へのジェスチャによる入力操作が含まれる。
ユーザ端末90がスマートフォン、タブレット、パーソナルコンピュータで構成される場合には、上述した専用アプリをユーザ端末90にインストールすることで本サービスが利用可能となる。ただし、専用アプリがインストールされない場合であっても、ユーザ端末90のブラウザ機能を用いて、上述した専用サイトにアクセスすることでも本サービスが利用可能となる。
〔リアクション対応ロボットのハードウェア構成〕
図2は、リアクション対応ロボット10のハードウェア構成を示す図である。
リアクション対応ロボット10は、コンピュータ装置を内蔵するいわゆるコミュニケーションロボットで構成される。リアクション対応ロボット10は、自機全体を制御するCPU(Central Processing Unit)である制御部11と、演算に際して作業エリアとして用いられるRAM(Random Access Memory)などのメモリ12と、プログラムや各種設定データなどの記憶に用いられるHDD(Hard Disk Drive)や半導体メモリ等の記憶装置である記憶部13とを有している。また、ネットワーク100を介してデータの送受信を行う通信部14を有している。また、ユーザUからの入力操作を受け付けるタッチパネルなどの操作部15と、ユーザUに対して画像やテキスト情報などを表示する液晶ディスプレイなどからなる表示部16と、表示部16を制御する表示制御部17とを有している。また、ユーザから発せられる音を録音するためのマイクなどからなる録音部18と、ユーザUに対して音声を出力するスピーカなどからなる音声出力部19とを有している。また、ユーザUのジェスチャの様子を撮像して静止画像または動画像の情報として取得するためのカメラなどからなる撮像部20を有している。さらに、自機の周囲の状況を検知するための各種のセンサで構成されたセンサ部21を有している。センサ部21は、例えば人感センサ、温度センサ、照度センサ等で構成される。
〔サーバのハードウェア構成〕
図3は、サーバ50のハードウェア構成を示す図である。
リアクション対応ロボットシステム1を構成するサーバ50は、パーソナルコンピュータ等の情報処理装置で構成される。サーバ50のハードウェア構成は、録音部18、音声出力部19、撮像部20、およびセンサ部21を除いて図2に示すリアクション対応ロボット10のハードウェア構成と同様の構成を備えている。すなわち、サーバ50は、CPUである制御部51と、RAMなどのメモリ52と、HDDや半導体メモリ等の記憶装置である記憶部53とを有している。また、ネットワーク100を介してデータの送受信を行う通信部54を有している。また、タッチパネルなどの操作部55と、液晶ディスプレイなどからなる表示部56と、表示部56を制御する表示制御部57とを有している。
〔ユーザ端末のハードウェア構成〕
リアクション対応ロボットシステム1を構成するユーザ端末90のハードウェア構成は、図2に示すリアクション対応ロボット10のハードウェア構成と同様の構成を備えている。このため、ユーザ端末90のハードウェア構成の図示や説明は省略する。
〔リアクション対応ロボットの機能構成〕
図4は、リアクション対応ロボット10の機能構成を示す図である。
リアクション対応ロボット10は、予め設定された「メッセージの内容」の情報を取得するメッセージ内容取得部31と、予め設定された「音声の特徴」の情報を取得する音声特徴取得部32とを有する。また、録音されたオリジナルメッセージの情報を取得するオリジナルメッセージ取得部33と、取得されたオリジナルメッセージの情報を記憶するオリジナルメッセージ記憶部34とを有する。また、発話する音声メッセージMnの「メッセージの内容」および「音声の特徴」を決定する発話メッセージ決定部35と、「メッセージの内容」および「音声の特徴」が決定した音声メッセージMnを発話する制御を行う発話制御部36とを有する。
また、リアクション対応ロボット10は、ユーザUaのリアクションRnの情報を取得するリアクション取得部37と、取得されたリアクションRnの情報を記憶するリアクション記憶部38とを有する。また、記憶されたリアクションRnの情報を対象とする機械学習を行う学習部39と、学習結果を記憶する学習結果記憶部40とを有する。また、リアクションRnの推定を行うリアクション推定部41と、取得されたリアクションRnの情報をサーバ50に向けて送信する制御を行うリアクション送信制御部42とを有する。また、サーバ50から送信されてきた学習結果の情報を取得する学習結果取得部43を有する。
ユーザUbの入力操作により、リアクション対応ロボット10から第1回目に発話される音声メッセージM1の「メッセージの内容」が選択されると、メッセージ内容取得部31は、選択された「メッセージの内容」の情報を取得する。具体的には、「メッセージの内容」が選択されると、この選択がサーバ50にて受け付けられて、その「メッセージの内容」の情報がリアクション対応ロボット10に向けて送信される。リアクション対応ロボット10のメッセージ内容取得部31は、サーバ50から送信されてきた「メッセージの内容」の情報を取得する。
ユーザUbの入力操作により、リアクション対応ロボット10から第1回目に発話される音声メッセージM1の「音声の特徴」が選択されると、音声特徴取得部32は、選択された「音声の特徴」の情報を取得する。具体的には、「音声の特徴」の各要素のパラメータが設定されると、この選択がサーバ50にて受け付けられて、その「音声の特徴」の情報がリアクション対応ロボット10に向けて送信される。リアクション対応ロボット10の音声特徴取得部32は、サーバ50から送信されてきた「音声の特徴」の情報を取得する。
ユーザUbの入力操作により、リアクション対応ロボット10から第1回目に発話される音声メッセージM1としてのオリジナルメッセージが録音されると、オリジナルメッセージ取得部33は、録音されたオリジナルメッセージの情報を取得する。具体的には、ユーザUbが発話したオリジナルメッセージの音声が入力されると、上述した図2の録音部18によりその音声が録音される。リアクション対応ロボット10のオリジナルメッセージ取得部33は、録音部18により録音されたオリジナルメッセージの音声の情報を取得する。
オリジナルメッセージ記憶部34は、オリジナルメッセージ取得部33により取得されたオリジナルメッセージの音声の情報を、メッセージDB71に記憶させて管理する。これにより、オリジナルメッセージが登録される。オリジナルメッセージ記憶部34は、オリジナルメッセージを一意に特定可能にする識別情報に、オリジナルメッセージの情報を対応付けて、その識別情報をキーとしていつでも抽出可能な態様で管理する。
発話メッセージ決定部35は、リアクション対応ロボット10から発話される音声メッセージMnの「メッセージの内容」および「音声の特徴」の組み合わせを決定する。リアクション対応ロボット10から第1回目に発話される音声メッセージM1については、ユーザUbの入力操作により設定された内容に従って「メッセージの内容」および「音声の特徴」の組み合わせが決定する。また、第2回目以降に発話される音声メッセージM2乃至Mm(mは2以上の整数値)については、取得されたユーザUaのリアクションR1の情報に、後述する学習部39にて構築されるアルゴリズムやモデルを適用した結果により「メッセージの内容」および「音声の特徴」が決定する。具体的には、メッセージDB71に予め記憶されている複数の「メッセージの内容」および「音声の特徴」の中から1の「メッセージの内容」および「音声の特徴」の組み合わせが抽出される。
発話制御部36は、発話メッセージ決定部35により「メッセージの内容」および「音声の特徴」の組み合わせが決定された音声メッセージMnを発話する制御を行う。具体的には、発話制御部36は、ユーザUbの入力操作により予め設定されたタイミングで第1回目の発話を行わせる。第2回目以降の発話のタイミングは特に限定されないが、ユーザUaとリアクション対応ロボット10との間のコミュニケーションはスムーズに行われることが望ましい。このため、ユーザUaのリアクションRnに対する反応としてコミュニケーション上不自然にならないタイミングでリアクション対応ロボット10が発話するように制御されるのが好ましい。
例えば、発話制御部36は、発話メッセージ決定部35により「メッセージの内容」および「音声の特徴」の組み合わせが決定されると、直ちに音声出力部19から音声メッセージMn+1が発話されるように制御してもよい。また、例えば後述するリアクション取得部37によりユーザUaのリアクションRnの情報が取得された後、予め設定された時間が経過する間に発話メッセージ決定部35による「メッセージの内容」および「音声の特徴」の組み合わせの決定が行われて、音声出力部19から発話されるように制御してもよい。この場合、「予め設定された時間」は、ユーザUbが任意に設定できるものとし、例えば「1秒後」、「3秒後」といったように設定できるようにしてもよい。
リアクション取得部37は、録音部18により録音された音声データ、撮像部20により撮像された画像データ、センサ部21を構成する各種センサによるセンシングの結果であるセンシングデータ等を、ユーザUaのリアクションRnの情報として取得する。具体的には、例えばリアクション対応ロボット10からの発話に対して、ユーザUaが「おはよう!」と発話したとする。この場合、「おはよう!」という音声を一部に含む、自機の周囲の音声が録音部18により録音されるので、リアクション取得部37は、その音声データをリアクションRnの情報として取得する。
リアクション記憶部38は、リアクション取得部37により取得されたユーザUaのリアクションRnの情報を、ユーザ情報としてユーザDB72に記憶させて管理する。具体的には、リアクション記憶部38は、ユーザUaを一意に特定可能にする識別情報に、音声メッセージMnの情報と、リアクションRnの情報とを対応付けて管理する。このようにして、リアクション対応ロボット10から発話された音声メッセージMnの情報と、音声メッセージMnに対するユーザUaのリアクションRnの情報との組み合わせが実績として集積されていく。
学習部39は、リアクション記憶部38によりユーザUaのユーザ情報としてユーザDB72に記憶されたリアクションRnの情報を対象とする機械学習を行う。具体的には、AI(人工知能)が、ユーザDB72に集積されたユーザ情報を対象とする学習を行うことで、後述するリアクション推定部41によるリアクションRnの推定の際に用いられるアルゴリズムやモデルを構築する。
ユーザ情報の学習のうち、音声データの学習は、音声データを解析することで得られる音声の特徴量について行われる。音声の特徴量としては、ピッチ、基本周波数、音声波形周期性、声道の共鳴周波数、フォルマントの周波数帯域、声量、声質や声色、速度、波形ピークの出現頻度等が挙げられる。また、画像データの学習は、画像データを解析することで得られる、撮像画像に含まれるユーザUaの顔の領域の情報、特定された領域から抽出される特徴量の情報等について行われる。また、センシングデータの学習は、例えば人感センサ、温度センサ、照度センサ等の各々のセンシング結果を解析することで得られるデータについて行われる。
学習結果記憶部40は、学習部39の学習結果を学習結果DB73に記憶して管理する。また、学習結果記憶部40は、後述する学習結果取得部43により取得された学習結果を学習結果DB73に記憶して管理する。学習結果として学習結果DB73に記憶されるものとしては、学習結果として構築されたアルゴリズムやモデル等が挙げられる。
リアクション推定部41は、ユーザUaのリアクションRnの推定を行う。具体的には、リアクション推定部41は、リアクションRnの情報として取得された音声データ、画像データ、センシングデータ等に、学習部39にて構築されたアルゴリズムやモデルを適用することでリアクションRnの推定を行う。ここで、「リアクションRnの推定」とは、リアクション対応ロボット10から発話された音声メッセージMnを聞いたユーザUaのリアクションRnからユーザUaの内的状態および外的状態を推定することをいう。ここで、ユーザUaの内的状態とは、音声メッセージMnを聞いたユーザUaが、自身の心に抱いた気持ちや感情の状態のことをいう。また、ユーザUaの外的状態とは、ユーザUaの存在の有無や、ユーザUaが存在する場合に、音声メッセージMnを聞いたユーザUaの外観の状態のことをいう。
具体的には、例えばリアクション対応ロボット10からの「朝だよ!起きて!」という音声メッセージM1の発話に対して、ユーザUaが清々しく「おはよう!」という返事をしながらベッドから立ち上がったとする。この場合、リアクション推定部41は、リアクションR1の情報として取得された音声データを解析することで、ユーザUaの内的状態が例えば「積極的に起床しようという気持ち」であるという推定を行う。音声データを解析することで、ユーザUaからの返事の有無、ユーザUaからの返事の内容、ユーザUaの返事の声の特徴等の把握が可能となる。また、リアクション推定部41は、リアクションRnの情報として取得された画像データや、各種センサのセンシングデータを解析することで、ユーザUaの外的状態として例えば「二度寝することなく直ぐに起床した」という推定を行う。画像データやセンシングデータは、解析することでユーザUaの存在の有無、ユーザUaの外観の様子、あるいはユーザUaの体調等の把握が可能となる。
リアクション送信制御部42は、リアクション取得部37により取得されたユーザUaのリアクションRnの情報をサーバ50に向けて送信する制御を行う。リアクション送信制御部42がリアクションRnの情報をサーバ50に向けて送信する目的としては、少なくとも2つある。このうち1つ目の目的は、リアクションRnの情報を含むユーザ情報を対象とする機械学習がサーバ50側で行われる場合に、機械学習の対象となるリアクションRnの情報を提供するためである。また、もう1つの目的は、リアクション対応ロボット10側で管理するリアクションRnの情報と、サーバ50側で管理するリアクションRnの情報との同期をとるためである。
学習結果取得部43は、リアクションRnの情報を含むユーザ情報を対象とした機械学習がサーバ50側で行われている場合に、サーバ50から送信されてきた、アルゴリズムやモデルといった学習結果の情報を取得する。学習結果取得部43により取得された学習結果の情報は、リアクション推定部41によるリアクションRnの推定に用いられる。
〔サーバの機能構成〕
図5は、サーバ50の機能構成を示す図である。
サーバ50は、音声メッセージM1の「メッセージの内容」の選択を受け付けるメッセージ内容受付部61と、音声メッセージM1の「音声の特徴」の選択を受け付ける音声特徴受付部62と、録音されたオリジナルメッセージの設定を受け付けるオリジナルメッセージ受付部63と、各種情報を送信する制御を行う送信制御部64と、リアクションRnの情報を取得するリアクション取得部65と、取得されたリアクションRnの情報を記憶するリアクション記憶部66と、取得されたリアクションRnの情報を対象とする機械学習を行う学習部67と、学習結果を記憶する学習結果記憶部68とを有する。
メッセージ内容受付部61は、ユーザUbによるユーザ端末90に対する入力操作にて音声メッセージM1の「メッセージの内容」が選択されると、この選択を受け付ける。具体的には、例えばユーザ端末90に表示された複数の「メッセージの内容」のうち、「起きる時間だよ」という「メッセージの内容」が選択されると、この選択が受け付けられる。
音声特徴受付部62は、ユーザUbによるユーザ端末90に対する入力操作にて音声メッセージM1の「音声の特徴」が選択されると、この選択を受け付ける。具体的には、例えばユーザ端末90に表示された複数の「音声の特徴」のパラメータが選択されると、この選択が受け付けられる。
オリジナルメッセージ受付部63は、ユーザUbによるユーザ端末90に対する録音操作にて音声メッセージM1としてのオリジナルメッセージが録音されると、録音されたオリジナルメッセージの設定を受け付ける。具体的には、ユーザUbが、ユーザ端末90に表示された複数の「メッセージの内容」に所望のものが存在しないため、例えばユーザUaの呼び名を含んだ「〇〇(ユーザUaの呼び名)!起きなさい!」というオリジナルメッセージを録音したとする。すると、オリジナルメッセージ受付部63は、この録音されたオリジナルメッセージの設定を受け付ける。
送信制御部64は、例えばメッセージ内容受付部61により受け付けられた、第1回目に発話される音声メッセージM1の「メッセージの内容」の情報を、リアクション対応ロボット10に送信する制御を行う。また、例えば音声特徴受付部62により受け付けられた、第1回目に発話される音声メッセージM1の「音声の特徴」の情報を、リアクション対応ロボット10に送信する制御を行う。また、例えばオリジナルメッセージ受付部63により設定が受け付けられた、オリジナルメッセージの音声データを、リアクション対応ロボット10に送信する制御を行う。また、例えば後述する学習部67による機械学習の結果として構築されたアルゴリズムやモデル等を、リアクション対応ロボット10に送信する制御を行う。
リアクション取得部65は、リアクション対応ロボット10から送信されてきたユーザUaのリアクションRnの情報を取得する。リアクション取得部65により取得されるリアクションRnの情報には、リアクション対応ロボット10の録音部18により録音された音声データ、リアクション対応ロボット10の撮像部20により撮像された画像データ、リアクション対応ロボット10のセンサ部21を構成する各種センサによるセンシングの結果であるセンシングデータ等が含まれる。
リアクション記憶部66は、リアクション取得部65により取得されたユーザUaのリアクションRnの情報を、ユーザUaのユーザ情報としてユーザDB81に記憶させて管理する。具体的には、リアクション記憶部66は、ユーザUaを一意に特定可能にする識別情報に、音声メッセージMnの情報と、リアクションRnの情報とを対応付けて管理する。
学習部67は、リアクション記憶部66によりユーザUaのユーザ情報としてユーザDB81に記憶されたリアクションRnの情報を対象とする機械学習を行う。具体的には、AI(人工知能)が、ユーザDB81に集積されたユーザ情報を対象とする学習を行うことで、リアクション対応ロボット10のリアクション推定部41によるリアクションRnの推定の際に用いられるアルゴリズムやモデルを構築する。学習部67による機械学習は、リアクション対応ロボット10の学習部39による機械学習と同様に、音声データ、画像データ、およびセンシングデータを対象とする学習を行う。なお、リアクション対応ロボット10側で機械学習が行われる場合には、必ずしもサーバ50側で学習部67を機能させる必要はない。
学習結果記憶部68は、学習部67の学習結果を学習結果DB82に記憶して管理する。また、学習結果記憶部68により学習結果DB82に記憶された学習結果の情報は、送信制御部64によりリアクション対応ロボット10に向けて適宜送信される。
〔リアクション対応ロボットの処理〕
次に、リアクション対応ロボット10の処理について図6および図7を参照して説明する。
図6は、リアクション対応ロボット10の処理の流れを示すフローチャートである。なお、図6には、リアクション対応ロボット10から第2回目の発話が行われるまでの処理の流れが示されている。
ユーザUbの入力操作によって、リアクション対応ロボット10から第1回目に発話される音声メッセージM1の「メッセージの内容」が選択されると(ステップ101でYES)、メッセージ内容取得部31は、ユーザUbの入力操作にて選択された「メッセージの内容」の情報を取得する(ステップ102)。具体的には、サーバ50にて選択が受け付けられた「メッセージの内容」の情報が、リアクション対応ロボット10に向けて送信されるので、メッセージ内容取得部31は、サーバ50から送信されてきた「メッセージの内容」の情報を取得する。これに対して、「メッセージの内容」が選択されていない場合には(ステップ101でNO)、ステップ101の判断が繰り返し行われる。
ユーザUbの入力操作によって、リアクション対応ロボット10から第1回目に発話される音声メッセージM1の「音声の特徴」が選択されると(ステップ103でYES)、音声特徴取得部32は、ユーザUbの入力操作にて選択された「音声の特徴」の情報を取得する(ステップ104)。具体的には、サーバ50にて選択が受け付けられた「音声の特徴」の情報が、リアクション対応ロボット10に向けて送信されるので、音声特徴取得部32は、サーバ50から送信されてきた「音声の特徴」の情報を取得する。これに対して、「音声の特徴」が選択されていない場合には(ステップ103でNO)、ステップ103の判断が繰り返し行われる。
発話メッセージ決定部35は、リアクション対応ロボット10から第1回目に発話される音声メッセージM1の「メッセージの内容」および「音声の特徴」の組み合わせを決定する(ステップ105)。具体的には、ステップ102の処理にて取得された「メッセージの内容」の情報と、ステップ104の処理にて取得された「音声の特徴」の情報とに基づいて、音声メッセージM1の「メッセージの内容」および「音声の特徴」の組み合わせが決定される。
発話制御部36は、リアクション対応ロボット10が第1回目の音声メッセージM1を発話する制御を行う(ステップ106)。具体的には、発話メッセージ決定部35により「メッセージの内容」および「音声の特徴」が決定された音声メッセージM1を発話する制御が行われる。なお、リアクション対応ロボット10が第1回目の音声メッセージM1を発話するタイミングは、ユーザUbの入力操作により予め設定される。
リアクション取得部37が、ユーザUaによる第1回目のリアクションR1の情報を取得すると(ステップ107でYES)、リアクション推定部41は、ユーザUaのリアクションR1を推定する。具体的には、リアクション取得部37は、リアクション対応ロボット10から発話された音声メッセージM1を聞いたユーザUaの内的状態および外的状態を推定する。これに対して、リアクション取得部37がユーザUaによる第1回目のリアクションR1の情報を取得していない場合には(ステップ107でNO)、ステップ107の判断が繰り返し行われる。
リアクション推定部41は、ユーザUaのリアクションR1の推定を行う(ステップ108)。具体的には、学習部39にて構築されたアルゴリズムやモデルを、リアクションR1の情報として新たに取得された音声データ、画像データ、センシングデータ等に適用することでリアクションR1の推定を行う。
発話メッセージ決定部35は、リアクション対応ロボット10から第2回目に発話される音声メッセージM2の「メッセージの内容」および「音声の特徴」の組み合わせを決定する(ステップ109)。具体的には、リアクション取得部37により取得されたユーザUaの第1回目のリアクションR1の情報に、学習部39にて構築されたアルゴリズムやモデルを適用した結果に基づいて、「メッセージの内容」および「音声の特徴」を決定する。
発話制御部36は、リアクション対応ロボット10が第2回目の音声メッセージM2を発話する制御を行う(ステップ110)。具体的には、発話メッセージ決定部35により「メッセージの内容」および「音声の特徴」が決定された音声メッセージM2を発話する制御が行われる。これにより、リアクション対応ロボット10から第2回目の音声メッセージM2が発話されるまでの処理は終了するが、以降、ステップ107乃至ステップ110の処理が継続して行われる。つまり、リアクション対応ロボット10から第2回目の音声メッセージM2が発話されると、それを聞いたユーザUaによる第2回目のリアクションR2の情報が取得され、これに対応する第3回目の音声メッセージM3がリアクション対応ロボット10から発話される。このようにして、ユーザUaとリアクション対応ロボット10との間における有機的なコミュニケーションが実現する。
図7は、リアクション対応ロボット10の処理の流れを示すフローチャートである。なお、図7にはリアクション対応ロボット10側で実行される機械学習の処理の流れが示されている。
リアクション取得部37が、ユーザUaによる第n回目のリアクションRnの情報を取得すると(ステップ201でYES)、リアクション記憶部38は、リアクション取得部37により取得されたユーザUaによるリアクションRnの情報を記憶する(ステップ202)。具体的には、リアクションRnの情報は、ユーザ情報の一部としてユーザDB72に記憶されて管理される。
学習部39は、リアクション記憶部38によりユーザUaのユーザ情報としてユーザDB72に記憶されたリアクションRnの情報を対象とする機械学習を行う(ステップ203)。具体的には、リアクションRnの情報としての音声データ、画像データ、およびセンシングデータを対象とするAI(人工知能)による学習が行われる。
学習結果記憶部40は、学習結果を記憶する(ステップ204)。具体的には、学習部39の学習結果を学習結果DB73に記憶して管理する。学習結果として学習結果DB73に記憶されるものとしては、学習結果として構築されたアルゴリズムやモデル等が挙げられる。これにより処理は終了する。
〔サーバの処理〕
次に、サーバ50の処理について、図8を参照して説明する。
図8は、サーバ50の処理の流れを示すフローチャートである。
ユーザUbによるユーザ端末90に対する入力操作にて音声メッセージM1の「メッセージの内容」が選択されると(ステップ501でYES)、メッセージ内容受付部61は、その「メッセージの内容」の選択を受け付ける(ステップ502)。これに対して、音声メッセージM1の「メッセージの内容」が選択されていない場合には、ステップ501の判断が繰り返し行われる。
ユーザUbによるユーザ端末90に対する入力操作にて音声メッセージM1の「音声の特徴」が選択されると(ステップ503でYES)、音声特徴受付部62は、その「音声の特徴」の選択を受け付ける(ステップ504)。これに対して、音声メッセージM1の「音声の特徴」が選択されていない場合には、ステップ503の判断が繰り返し行われる。
送信制御部64は、選択が受け付けられた各種情報を送信する制御を行う。具体的には、メッセージ内容受付部61により選択が受け付けられた「メッセージの内容」の情報と、音声特徴受付部62により選択が受け付けられた「音声の特徴」の情報とをリアクション対応ロボット10に向けて送信する制御を実行する(ステップ505)。これにより処理が終了する。
〔コミュニケーションの具体例〕
次に、本サービスを利用するユーザUaと、リアクション対応ロボット10とのコミュニケーションの具体例について、図9乃至図11を参照して説明する。
図9は、本サービスを利用するユーザUaとリアクション対応ロボット10とのコミュニケーションの具体例のうち、ユーザUaが起床する場面を示す図である。
図9に示すユーザUaは高校生であり、ユーザUbはユーザUaの母親である。ユーザUbは仕事上の理由で早朝に出勤するため、ユーザUaは毎日一人で起床して通学する必要がある。このため、ユーザUbは、リアクション対応ロボット10にユーザUaを起こしてもらうこととした。この場合、ユーザUbは、ユーザ端末90を操作して、リアクション対応ロボット10が第1回目に発話する音声メッセージM1の「メッセージの内容」および「音声の特徴」と、発話するタイミングとを予め選択して設定する。
リアクション対応ロボット10は、予め設定されたタイミング(例えば「午前7時」という時刻)になると、予め保持している時間情報と、予め設定された「メッセージの内容」および「音声の特徴」とに基づいて、例えば比較的穏やかな調子で「朝だよ起きて」という第1回目の音声メッセージM1を発話する。これに対して、ユーザUaが「はい起きました」と発話したにもかかわらず、いびきをかいて二度寝をしてしまったとする。すると、リアクション対応ロボット10は、ユーザUaの第1回目のリアクションR1の情報として、録音部18により録音された音声データと、撮像部20により撮像された画像データとを取得する。
リアクションR1の情報を取得したリアクション対応ロボット10は、リアクションR1の推定を行う。具体的には、リアクション対応ロボット10は、リアクションR1の情報のうち音声データに含まれる、「はい起きました」というユーザUaの発話、および「ZZZ(いびき音)」というユーザUaの発話から、ユーザUaの内的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの内的状態の推定として、例えば「起きる意思はあるものの、眠気に負けている」と推定する。また、リアクション対応ロボット10は、リアクションR1の情報のうち、画像データに含まれる、ユーザUaがベッドで寝続けている様子から、ユーザUaの外的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの外的状態の推定として、例えば「ベッド上にユーザUaが横たわっている」と推定する。そして、リアクション対応ロボット10は、ユーザUaの内的状態および外的状態の各々の推定結果から、リアクションR1の推定として、「ユーザUaは一度返事をしたにもかかわらず、眠気に勝てずに二度寝している」と推定する。
リアクションR1の推定を行ったリアクション対応ロボット10は、リアクションR1に対応する音声メッセージM2を発話する。具体的には、リアクション対応ロボット10は、リアクションR1の推定結果に基づいて、二度寝しているユーザUaを起こすために発話する音声メッセージM2の「メッセージの内容」および「音声の特徴」を決定する。この場合、例えば音声メッセージM1よりも音量をアップさせて、「うそつかないで起きて!!」という音声メッセージM2を発話する。これに対して、ユーザUaが「本当に起きたよ」と発話したにもかかわらず、またいびきをかいて寝てしまったとする。すると、リアクション対応ロボット10は、ユーザUaの第2回目のリアクションR2の情報として、録音部18により録音された音声データと、撮像部20により撮像された画像データとを取得する。
リアクションR2の情報を取得したリアクション対応ロボット10は、リアクションR2の推定を行う。具体的には、リアクション対応ロボット10は、リアクションR2の情報のうち音声データに含まれる、「本当に起きたよ」というユーザUaの発話、および「ZZZ(いびき音)」というユーザUaの発話から、ユーザUaの内的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの内的状態の推定として、例えば「起きる意思はあるものの、引き続き眠気に負けている」と推定する。また、リアクション対応ロボット10は、リアクションR2の情報のうち、画像データに含まれるユーザUaがベッドで寝続けている様子から、ユーザUaの外的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの外的状態の推定として、例えば「ベッド上にユーザUaが引き続き横たわっている」と推定する。そして、リアクション対応ロボット10は、ユーザUaの内的状態および外的状態の各々の推定結果から、リアクションR2の推定として、「ユーザUaは一度返事をしたにもかかわらず、眠気に勝てずに引き続き寝ている」と推定する。
リアクションR2の推定を行ったリアクション対応ロボット10は、リアクションR2に対応する音声メッセージM3を発話する。具体的には、リアクション対応ロボット10は、リアクションR2の推定結果に基づいて、母親に連絡することをユーザUaに伝えるために発話する音声メッセージM3の「メッセージの内容」および「音声の特徴」を決定する。この場合、リアクション対応ロボット10は、例えば「お母さんに連絡するからね!!」という音声メッセージM3を発話するとともに、ユーザUaが起床しないことを示すテキストメッセージをユーザ端末90に送信する。これにより、ユーザUbは、外出中であってもユーザUaの起床の有無を確認することができるので、必要に応じてユーザUaに直接電話する等の措置を講じることができる。また、例えば単に寝坊を原因とする場合だけではなく、体調が優れない等を理由に起床できない場合には、画像データやセンシングデータの学習結果からユーザUaの体温を検知して、その検知結果をユーザUbに報知することもできる。
図10(A)は、本サービスを利用するユーザUaとリアクション対応ロボット10とのコミュニケーションの具体例のうち、ユーザUaが塾に行く場面を示す図である。
上述した図9のユーザUbは、自身が泊出張に出掛けるため、ユーザUaが塾に行く時刻になるとリアクション対応ロボット10がユーザUaにその旨を知らせるように、音声メッセージM1の設定を行ったとする。
リアクション対応ロボット10は、予め設定されたタイミング(例えば「午後8時」という時刻)になると、予め保持している時間情報と、予め設定された「メッセージの内容」および「音声の特徴」とに基づいて、例えば「そろそろ塾に行く時間だね」という第1回目の音声メッセージM1を発話する。これに対して、椅子に腰掛けて休んでいたユーザUaが、「もうそんな時間か」という発話とともに立ち上がり、玄関に向けて歩き出しながら元気に「いってきます!」と発話したとする。すると、リアクション対応ロボット10は、ユーザUaの第1回目のリアクションR1の情報として、録音部18により録音された音声データと、撮像部20により撮像された画像データとを取得する。
リアクションR1の情報を取得したリアクション対応ロボット10は、リアクションR1の推定を行う。具体的には、リアクション対応ロボット10は、リアクションR1の情報のうち音声データに含まれる、「もうそんな時間か」というユーザUaの発話、および「いってきます!」というユーザUaの発話から、ユーザUaの内的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの内的状態の推定として、例えば「積極的に塾に行こうとしている」と推定する。また、リアクション対応ロボット10は、リアクションR1の情報のうち、画像データに含まれるユーザUaが立ち上がって玄関に向けて歩き出した様子から、ユーザUaの外的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの外的状態の推定として、例えば「外出しようとしている」と推定する。そして、リアクション対応ロボット10は、ユーザUaの内的状態および外的状態の各々の推定結果から、リアクションR1の推定として、「ユーザUaは元気に塾に行こうとしている」と推定する。
リアクションR1の推定を行ったリアクション対応ロボット10は、リアクションR1に対応する音声メッセージM2を発話する。具体的には、リアクション対応ロボット10は、リアクションR1の推定結果に基づいて、ユーザUaを応援するために発話する音声メッセージM2の「メッセージの内容」および「音声の特徴」を決定する。この場合、例えば「いってらっしゃい!頑張って!!」という音声メッセージM2を発話する。
図10(B)は、本サービスを利用するユーザUaとリアクション対応ロボット10とのコミュニケーションの具体例のうち、ユーザUaが風呂に入る場面を示す図である。
ユーザUbは、自身が泊出張に出掛けるため、風呂の予約時刻が到来すると、リアクション対応ロボット10がユーザUaにその旨を知らせるように、音声メッセージM1の設定を行ったとする。
リアクション対応ロボット10は、予め設定されたタイミング(例えば「風呂の予約時刻が到来すると」)になると、予め保持している時間情報と、予め設定された「メッセージの内容」および「音声の特徴」とに基づいて、例えば「お風呂に入れるよ」という第1回目の音声メッセージM1を発話する。これに対して、ユーザUaが、自身のスマートフォンを見ながら「めんどくさいなぁ」と発話したとする。すると、リアクション対応ロボット10は、ユーザUaの第1回目のリアクションR1の情報として録音部18により録音された音声データと、撮像部20により撮像された画像データとを取得する。
リアクションR1の情報を取得したリアクション対応ロボット10は、リアクションR1の推定を行う。具体的には、リアクション対応ロボット10は、リアクションR1の情報のうち音声データに含まれる、「めんどくさいなぁ」というユーザUaの発話から、ユーザUaの内的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの内的状態の推定として、例えば「風呂に入ることを面倒だと感じている」と推定する。また、リアクション対応ロボット10は、リアクションR1の情報のうち、画像データに含まれるユーザUaの外観の様子から、ユーザUaの外的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの外的状態の推定として、例えば「移動することなくスマートフォンを見続けている」と推定する。そして、リアクション対応ロボット10は、ユーザUaの内的状態および外的状態の各々の推定結果から、リアクションR1の推定として、「ユーザUaはスマートフォンに夢中で風呂に入る気がない」と推定する。
リアクションR1の推定を行ったリアクション対応ロボット10は、リアクションR1に対応する音声メッセージM2を発話する。具体的には、リアクション対応ロボット10は、リアクションR1の推定結果と、ユーザ情報に含まれるユーザUaの行動履歴に基づいて、ユーザUaが風呂に入ろうという気持ちになるような音声メッセージM2の「メッセージの内容」および「音声の特徴」を決定する。例えばユーザUaの行動履歴から、昨日風呂に入っていないことが判明している場合には、「昨日も入ってないよ」という音声メッセージM2を発話する。これに対して、ユーザUaは、リアクションR2として、例えば「バレたか入ってきます」と発話する。このように、リアクション対応ロボット10は、発話する音声メッセージMnの「メッセージの内容」および「音声の特徴」を決定する際、ユーザUaのリアクションRnの学習結果のみならず、ユーザUaの行動履歴の学習結果を適用することで、より深度のあるコミュニケーションを実現させることができる。
図11は、本サービスを利用するユーザUaとリアクション対応ロボット10とのコミュニケーションの具体例のうち、ユーザUaが就寝する場面を示す図である。
ユーザUbは、自身が泊出張に出掛けるため、ユーザUaが就寝する様子がない場合には、リアクション対応ロボット10がユーザUaに就寝すべきことを知らせるように、音声メッセージM1の設定を行ったとする。
リアクション対応ロボット10は、予め設定されたタイミングとして、ユーザUaが就寝する様子がない場合には、予め保持している時間情報と、予め設定された「メッセージの内容」および「音声の特徴」とに基づいて、例えば「そろそろ寝る時間だね」という第1回目の音声メッセージM1を発話する。そして、これに対して、ユーザUaが、「この番組を観てからでもいい?」と発話したとする。すると、リアクション対応ロボット10は、ユーザUaの第1回目のリアクションR1の情報として、録音部18により録音された音声データと、撮像部20により撮像された画像データとを取得する。
リアクションR1の情報を取得したリアクション対応ロボット10は、リアクションR1の推定を行う。具体的には、リアクション対応ロボット10は、リアクションR1の情報のうち音声データに含まれる、「この番組を観てからでもいい?」というユーザUaの発話から、ユーザUaの内的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの内的状態の推定として、例えば「所望のテレビ番組を視聴したいと考えている」と推定する。また、リアクション対応ロボット10は、リアクションR1の情報のうち、画像データに含まれるユーザUaの外観の様子から、ユーザUaの外的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの外的状態の推定として、例えば「テレビ番組を視聴している」と推定する。そして、リアクション対応ロボット10は、ユーザUaの内的状態および外的状態の各々の推定結果から、リアクションR1の推定として、「ユーザUaは今直ぐ就寝するのではなく所望のテレビ番組を視聴し終わった後に就寝することを希望している」と推定する。
リアクションR1の推定を行ったリアクション対応ロボット10は、リアクションR1に対応する音声メッセージM2を発話する。具体的には、リアクション対応ロボット10は、リアクションR1の推定結果と、インターネットから別途取得可能なウェブ情報に含まれる、放送中または放送予定のテレビ番組の情報とに基づいて、ユーザUaに向けて発話する音声メッセージM2の「メッセージの内容」および「音声の特徴」を決定する。この場合、テレビ番組の情報からユーザUaが視聴したいテレビ番組の終了時刻が午後11時30分であることが判明している場合には、例えば「この番組は午後11時30分までだね。遅くない?」といった音声メッセージM2を発話する。これに対して、ユーザUaが「楽しみにしてたから。お願い!」と発話したとする。すると、リアクション対応ロボット10は、ユーザUaの第2回目のリアクションR2の情報として、録音部18により録音された音声データと、撮像部20により撮像された画像データとを取得する。
リアクションR2の情報を取得したリアクション対応ロボット10は、リアクションR2の推定を行う。具体的には、リアクション対応ロボット10は、リアクションR2の情報のうち音声データに含まれる、「楽しみにしてたから。お願い!」というユーザUaの発話から、ユーザUaの内的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの内的状態の推定として、例えば「現在放送中のテレビ番組をどうしても視聴したいと考えている」と推定する。また、リアクション対応ロボット10は、リアクションR2の情報のうち、画像データに含まれるユーザUaの外観の様子から、ユーザUaの外的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの外的状態の推定として、例えば「テレビ番組を引き続き視聴している」と推定する。そして、リアクション対応ロボット10は、ユーザUaの内的状態および外的状態の各々の推定結果から、リアクションR2の推定として、「ユーザUaは所望のテレビ番組を視聴することを強く望んでいる」と推定する。
リアクションR2の推定を行ったリアクション対応ロボット10は、リアクションR2に対応する音声メッセージM3を発話する。具体的には、リアクション対応ロボット10は、リアクションR2の推定結果と、ユーザ情報に含まれるユーザUaの行動履歴やスケジュールに基づいて、ユーザUaが翌朝スケジュールどおりに起床することをサポートするような音声メッセージM3の「メッセージの内容」および「音声の特徴」を決定する。例えばユーザUaの行動履歴やスケジュールから、翌朝の起床時刻が午前6時30分であることが判明している場合には、「明日は午前6時30分起床だよ。ちゃんと起きてね」といった音声メッセージM3を発話する。これに対して、ユーザUaが「わかってる。ちゃんと自分で起きるよ」と発話したとする。すると、リアクション対応ロボット10は、ユーザUaの第3回目のリアクションR3の情報として、録音部18により録音された音声データと、撮像部20により撮像された画像データとを取得する。
リアクションR3の情報を取得したリアクション対応ロボット10は、リアクションR3の推定を行う。具体的には、リアクション対応ロボット10は、リアクションR3の情報のうち音声データに含まれる、「わかってる。ちゃんと自分で起きるよ」というユーザUaの発話から、ユーザUaの内的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの内的状態の推定として、例えば「睡眠時間を削ってでも現在放送中のテレビ番組を視聴したいと考えている」と推定する。また、リアクション対応ロボット10は、リアクションR3の情報のうち、画像データに含まれるユーザUaの外観の様子から、ユーザUaの外的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの外的状態の推定として、例えば「テレビ番組を引き続き視聴している」と推定する。そして、リアクション対応ロボット10は、ユーザUaの内的状態および外的状態の各々の推定結果から、リアクションR3の推定として、「ユーザUaは自覚を持って翌朝起床することを条件に所望のテレビ番組を視聴することを強く望んでいる」と推定する。
リアクションR3の推定を行ったリアクション対応ロボット10は、リアクションR3に対応する音声メッセージM4を発話する。具体的には、リアクション対応ロボット10は、リアクションR3の推定結果と、ウェブ情報と、時間情報とに基づいて、ユーザUaの意思を尊重しながらも、規則正しい生活を送ることをサポートするような音声メッセージM4の「メッセージの内容」および「音声の特徴」を決定する。例えばウェブ情報や時間情報から、所望のテレビ番組が終了時間を迎えた場合には、「番組終わったでしょ。寝ようね」といった音声メッセージM4を発話する。これに対して、ユーザUaが「面白かった。おやすみ」と発話したとする。すると、リアクション対応ロボット10は、ユーザUaの第4回目のリアクションR4の情報として、録音部18により録音された音声データと、撮像部20により撮像された画像データと、センサ部21により取得されたセンシングデータとを取得する。
リアクションR4の情報を取得したリアクション対応ロボット10は、リアクションR4の推定を行う。具体的には、リアクション対応ロボット10は、リアクションR4の情報のうち音声データに含まれる、「面白かった。おやすみ」というユーザUaの発話から、ユーザUaの内的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの内的状態の推定として、例えば「テレビ番組の視聴に満足している」と推定する。また、リアクション対応ロボット10は、リアクションR4の情報のうち、画像データに含まれるユーザUaの外観の様子と、照度センサのセンシングデータから、ユーザUaの外的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの外的状態の推定として、例えば「ユーザUaが自機(リアクション対応ロボット10)を連れてリビングルームから寝室に移動した」と推定する。また、例えば「ユーザUaが布団に入って照明を落とした」と推定する。そして、リアクション対応ロボット10は、ユーザUaの内的状態および外的状態の各々の推定結果から、リアクションR4の推定として、「ユーザUaは寝室で就寝した」と推定する。
リアクションR4の推定を行ったリアクション対応ロボット10は、リアクションR4に対応する音声メッセージM5を発話する。具体的には、リアクション対応ロボット10は、リアクションR4の推定結果に基づいて、返事となる音声メッセージM5の「メッセージの内容」および「音声の特徴」を決定する。例えば「おやすみ」といった音声メッセージM5を発話する。これに対して、ユーザUaが「ZZZ(いびき音)」と発話したとする。すると、リアクション対応ロボット10は、ユーザUaの第5回目のリアクションR5の情報として、録音部18により録音された音声データと、撮像部20により撮像された画像データと、センサ部21により取得されたセンシングデータとを取得する。
リアクションR5の情報を取得したリアクション対応ロボット10は、リアクションR5の推定を行う。具体的には、リアクション対応ロボット10は、リアクションR5の情報のうち音声データに含まれる、「ZZZ(いびき音)」というユーザUaの発話から、ユーザUaの内的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの内的状態の推定として、「就寝中」と推定する。また、リアクション対応ロボット10は、リアクションR5の情報のうち、画像データに含まれるユーザUaの外観の様子と、照度センサのセンシングデータから、ユーザUaの外的状態を推定する。この場合、リアクション対応ロボット10は、ユーザUaの外的状態の推定として、例えば「ユーザUaは消灯された寝室でベッドに横になっている」と推定する。そして、リアクション対応ロボット10は、ユーザUaの内的状態および外的状態の各々の推定結果から、リアクションR5の推定として、「ユーザUaは就寝中である」と推定する。リアクションR5の推定を行ったリアクション対応ロボット10は、ユーザUaの睡眠を妨げないようにするため発話しない。
〔インターフェースの具体例〕
次に、本サービスを利用するユーザUbが入力操作を行うユーザ端末90に表示されるユーザインターフェースの具体例について、図12を参照して説明する。
図12は、リアクション対応ロボットシステム1を構成するユーザ端末90に表示されるユーザインターフェースの具体例を示す図である。
図12に例示するユーザインターフェースは、表示領域91乃至93を含むように構成されている。このうち表示領域91には、リアクション対応ロボット10が第1回目に発話する音声メッセージM1の「メッセージの内容」を選択するためのドロップダウンボタンB1乃至B4が表示されている。このうち、ドロップダウンボタンB1が押下されると、図示しないドロップダウンリストが表示される。このドロップダウンリストには、リアクション対応ロボット10が発話するタイミングが選択可能な態様で複数表示される。具体的には、例えば「起床」、「外出」、「帰宅」、「お風呂」、「宿題」、「就寝」といった各タイミングを選択することができる。また、ドロップダウンボタンB2及びB3の各々を押下することで、リアクション対応ロボット10が発話する具体的な時刻を選択することもできる。
また、ドロップダウンボタンB4が押下されると、図示しないドロップダウンリストが表示される。このドロップダウンリストには、リアクション対応ロボット10が第1回目に発話する音声メッセージM1の具体的内容が選択可能な態様で表示される。具体的には、例えばドロップダウンボタンB1で「起床」が選択されたとする。この場合、ドロップダウンボタンB4が押下されると、「おはよう」、「朝だよ起きて」といった「メッセージの内容」が選択可能な態様で列記されたドロップダウンリストが表示される。
表示領域92には、リアクション対応ロボット10が第1回目に発話する音声メッセージM1の「音声の特徴」を選択するための各種ボタンが表示されている。具体的には、「音声の特徴」を構成する複数の要素の各々のパラメータを設定するための調節バーCが表示されている。「音声の特徴」を構成する要素としては、図12に例示するように、音量、トーン、速度、声色等が挙げられる。
表示領域93には、リアクション対応ロボット10が第1回目に発話する音声メッセージM1としてオリジナルメッセージを登録するためのボタンB5が表示されている。ユーザUbは、ボタンB5を押下して自らメッセージを録音することで、録音したメッセージをオリジナルメッセージとして登録することができる。
以上、本実施の形態について説明したが、本発明は上述した本実施の形態に限るものではない。また、本発明による効果も、上述した本実施の形態に記載されたものに限定されない。例えば、上述の実施の形態では、ユーザUbによる入力操作の態様として、手入力操作、音声による入力操作、ジェスチャによる入力操作を挙げているが、これらの入力操作に限定されず、ユーザUbの意思を入力可能なあらゆる入力操作を採用することができる。
また、上述した本実施の形態では、リアクション対応ロボット10が第1回目に発話する音声メッセージM1の「メッセージの内容」および「音声の特徴」を選択して設定する構成となっているが、これに限定されない。リアクション対応ロボット10が第2回目以降に発話する音声メッセージMmの「メッセージの内容」および「音声の特徴」を選択して設定できるようにしてもよい。
また、上述の実施の形態では、ユーザUbによる入力操作は、ユーザ端末90に対して行われる構成となっているが、これに限定されない。例えばリアクション対応ロボット10に図示しないユーザインターフェースが表示されるようにして、ユーザUbが直接入力できるようにしてもよい。
また、上述の実施の形態では、リアクション対応ロボット10及びサーバ50のいずれも機械学習を行うことができる構成となっているが、リアクション対応ロボット10のみが機械学習を行うことができる構成とすることもできるし、サーバ50のみが機械学習を行うことができる構成とすることもできる。リアクション対応ロボット10のみが機械学習を行うことができる構成とした場合には、通信環境が問われないので、リアクション対応ロボット10をスタンドアロン型のロボットとして機能させることができる。また、サーバ50のみが機械学習を行うことができる構成とした場合には、リアクション対応ロボット10は、サーバ50側からアルゴリズムやモデルを随時提供してもらうことで、意図する効果を奏するネットワーク型のロボットとして機能させることができる。
1…リアクション対応ロボットシステム、10…リアクション対応ロボット、31…メッセージ内容取得部、32…音声特徴取得部、33…オリジナルメッセージ取得部、34…オリジナルメッセージ記憶部、35…発話メッセージ決定部、36…発話制御部、37…リアクション取得部、38…リアクション記憶部、39…学習部、40…学習結果記憶部、41…リアクション推定部、42…リアクション送信制御部、43…学習結果取得部、50…サーバ、61…メッセージ内容受付部、62…音声特徴受付部、63…オリジナルメッセージ受付部、64…送信制御部、65…リアクション取得部、66…リアクション記憶部、67…学習部、68…学習結果記憶部、90…ユーザ端末、100…ネットワーク

Claims (11)

  1. メッセージの内容としての第1要素と、音声の特徴としての第2要素とが予め定められている、前記第1要素と前記第2要素との組み合わせからなる第1音声メッセージをユーザに向けて出力する第1出力手段と、
    前記第1音声メッセージに対する前記ユーザのリアクションに関する情報を取得する取得手段と、
    取得された前記ユーザのリアクションに関する情報の解析を行う解析手段と、
    前記解析の結果に基づいて、前記第1要素と前記第2要素との組み合わせからなる第2音声メッセージを出力する第2出力手段と、
    を備えたことを特徴とするロボット。
  2. 前記取得手段は、前記リアクションに関する情報として、前記ユーザからの返事の有無と、前記ユーザから返事があった場合における返事の内容と、前記ユーザの返事の声の特徴とのうち、少なくとも1以上の情報を取得し、
    前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記1以上の情報について解析を行う、
    請求項1に記載のロボット。
  3. 前記取得手段は、前記リアクションに関する情報として、前記ユーザの撮像画像の情報を取得し、
    前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記撮像画像の情報について解析を行う、
    請求項1に記載のロボット。
  4. 前記第2出力手段は、前記解析の結果として、前記ユーザからの返事が無いと判断された場合には、前記第1出力手段により出力された前記第1音声メッセージの前記第2要素が異なる前記第2音声メッセージを出力する、
    請求項2に記載のロボット。
  5. 前記第2出力手段は、前記解析の結果として、前記ユーザの返事の内容と返事の声の特徴との組み合わせから、前記リアクションが肯定的であると判断された場合には、前記第2音声メッセージとして、前記リアクションが肯定的である場合に出力され得るものとして予め記憶されている複数の前記第1要素と前記第2要素との組み合わせのうちいずれかを出力し、前記リアクションが否定的であると判断された場合には、前記第2音声メッセージとして、前記リアクションが否定的である場合に出力され得るものとして予め記憶されている複数の前記第1要素と前記第2要素との組み合わせのうちいずれかを出力する、
    請求項2に記載のロボット。
  6. メッセージの内容としての第1要素と、音声の特徴としての第2要素とが予め定められている、前記第1要素と前記第2要素との組み合わせからなる第1音声メッセージを、ロボットから第1ユーザに向けて出力させる制御を行う第1出力制御手段と、
    前記第1音声メッセージに対する前記第1ユーザのリアクションに関する情報を取得する取得手段と、
    取得された前記第1ユーザのリアクションに関する情報の解析を行う解析手段と、
    前記解析の結果に基づいて、前記第1要素と前記第2要素との組み合わせからなる第2音声メッセージを、前記ロボットから前記第1ユーザに向けて出力させる制御を行う第2出力制御手段と、
    を備えたことを特徴とするロボットシステム。
  7. 前記取得手段は、前記リアクションに関する情報として、前記第1ユーザからの返事の有無と、前記第1ユーザから返事があった場合における返事の内容と、前記第1ユーザの返事の声の特徴とのうち、少なくとも1以上の情報を取得し、
    前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記1以上の情報について解析を行う、
    請求項6に記載のロボットシステム。
  8. 前記取得手段は、前記リアクションに関する情報として、前記第1ユーザの撮像画像の情報を取得し、
    前記解析手段は、前記リアクションに関する情報の解析として、前記取得手段により取得された前記撮像画像の情報について解析を行う、
    請求項6に記載のロボットシステム。
  9. 前記第2出力制御手段は、前記解析の結果として、前記第1ユーザからの返事が無いと判断された場合には、前記第1出力制御手段により出力が制御された前記第1音声メッセージの前記第2要素が異なる前記第2音声メッセージを、前記ロボットから前記第1ユーザに向けて出力させる制御を行う、
    請求項7に記載のロボットシステム。
  10. 前記第2出力制御手段は、前記解析の結果として、前記第1ユーザの返事の内容と返事の声の特徴との組み合わせから、前記リアクションが肯定的であると判断された場合には、前記第2音声メッセージとして、前記リアクションが肯定的である場合に出力され得るものとして予め記憶されている複数の前記第1要素と前記第2要素との組み合わせのうちいずれかを、前記ロボットから前記第1ユーザに向けて出力させる制御を行い、前記リアクションが否定的であると判断された場合には、前記第2音声メッセージとして、前記リアクションが否定的である場合に出力され得るものとして予め記憶されている複数の前記第1要素と前記第2要素との組み合わせのうちいずれかを、前記ロボットから前記第1ユーザに向けて出力させる制御を行う、
    請求項7に記載のロボットシステム。
  11. 前記解析の結果として、前記第1ユーザの発話の音声に予め定められた特徴量の音声の部分が含まれることが検知されると、当該音声の部分を抽出する抽出手段と、
    前記抽出手段により抽出された前記音声の部分の前記特徴量に基づいて、前記第1ユーザの状態を推定する推定手段と、
    前記推定手段による推定の結果に応じて、前記第1ユーザの状態を示す情報を第2ユーザに向けて送信する制御を行う送信制御手段と、
    をさらに備えたことを特徴とする、
    請求項6乃至10のうちいずれか1項に記載のロボットシステム。
JP2021087219A 2021-05-24 2021-05-24 ロボット、およびロボットシステム Pending JP2022180232A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021087219A JP2022180232A (ja) 2021-05-24 2021-05-24 ロボット、およびロボットシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021087219A JP2022180232A (ja) 2021-05-24 2021-05-24 ロボット、およびロボットシステム

Publications (1)

Publication Number Publication Date
JP2022180232A true JP2022180232A (ja) 2022-12-06

Family

ID=84327386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021087219A Pending JP2022180232A (ja) 2021-05-24 2021-05-24 ロボット、およびロボットシステム

Country Status (1)

Country Link
JP (1) JP2022180232A (ja)

Similar Documents

Publication Publication Date Title
JP7177235B2 (ja) デジタルアシスタントのためのボイストリガ
US11217240B2 (en) Context-aware control for smart devices
JP6247384B2 (ja) エアコン起動方法、エアコン起動装置、コンピュータプログラム及びコンピュータ読み取り可能な記憶媒体
TWI603258B (zh) 用於隨時聽取語音觸發之動態臨限值
JP2008234443A (ja) 情報処理装置
KR102343084B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
JP2023015054A (ja) 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード
CN110100447A (zh) 信息处理方法及装置、多媒体设备及存储介质
CN105257140B (zh) 控制智能门窗的方法及装置
KR102338888B1 (ko) 검출된 이벤트들에 관한 정보를 제공하기 위한 방법들, 시스템들 및 매체들
CN110619873A (zh) 音频处理方法、装置及存储介质
JP2010541481A (ja) モバイル機器を介したアクティブな使用中の検索
JP2017144521A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2019164301A (ja) 発話制御装置、発話制御方法、および発話制御プログラム
WO2016052520A1 (ja) 対話装置
JP6557376B1 (ja) 出力制御装置、出力制御方法、および出力制御プログラム
JP2022180232A (ja) ロボット、およびロボットシステム
CN106845928A (zh) 叫醒方法及装置
CN112866480B (zh) 信息处理方法、装置、电子设备及存储介质
JP7163103B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US11430320B2 (en) Method and device to notify an individual
WO2023095531A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7136656B2 (ja) 情報処理システムおよびプログラム
JP6499343B1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP6787957B2 (ja) 発話制御装置、発話制御方法、および発話制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240820