JP2022169071A

JP2022169071A - ロボット、およびロボットシステム

Info

Publication number: JP2022169071A
Application number: JP2021074873A
Authority: JP
Inventors: 朋佳大橋; Tomoka Ohashi; 峻戸村; Shun Tomura; 登宮本; Noboru Miyamoto; 奈津子榎本; Natsuko Enomoto
Original assignee: Tokyo Gas Co Ltd
Current assignee: Tokyo Gas Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-11-09

Abstract

【課題】子供に向けてロボットが発話する内容および特徴が、育児や子供の成長に寄与させることができるロボット及びロボットシステムを提供する。
【解決手段】育児支援ロボットシステムにおいて、育児支援ロボット１０は、ユーザＵａおよびユーザＵｂの各々の発話の音声Ｖａおよび音声Ｖｂの各々に予め定められた特徴量の音声の部分である特定の音声が含まれることを検知して抽出する特定音声抽出部と、特定音声抽出部が抽出した特定の音声の特徴量に基づいて、発話者の感情のパターンを推定する感情パターン推定部と、感情パターン推定部が推定した感情のパターンに応じて、ユーザＵｂに向けて出力する音声Ｖｒの出力態様を決定する出力態様決定部と、を備える。
【選択図】図１

Description

本発明は、ロボット、およびロボットシステムに関する。

特許文献１には、装置と対象者との相互作用を促進させたり抑制させたりすることを目的とするロボットが記載されている。ロボットは、子供から離れる場合、例えば、「ちょっと疲れたからお休みしてくるね。」又は「ちょっと遊び過ぎたから休憩してくるね」といったロボットが子供から離れることを通知する内容の音声をロボットに発話させる。また、ロボットが子供との相互作用を停止する場合、例えば、「眠くなってきた」または「ぐーぐー（いびき音）」などのロボットが寝ることを通知したり、寝ている様子を表したりする内容の音声をロボットに発話させる。
特許文献２には、子供の相手をしたり管理をしたりすることを目的とするロボットが記載されている。ロボットは、子供の状況を示す情報を取得して、取得した状況に基づき、状況と、当該状況が生じたときにロボットがとるべき行動とを対応づけて記憶する行動記憶部を参照して、ロボットの行動の決定と、ロボットの行動の制御とを行う。

特開２０１８－１７６３８３号公報特開２００５－３０５６３１号公報

ロボットのうち特にコミュニケーションロボットは、一般的な電化製品では代替できない、両親や家族などに近い存在であることに存在意義がある。このため、核家族化、少子化、および一般家庭におけるロボットの利用率の高まりに伴い、両親や家族に対する依存度が高い幼児によるロボットに対する依存度が高くなることが予想される。その結果として、親の立場からしても、ロボットの存在が育児や子供の成長に欠かせないものになっていくことが予想される。特許文献１および２には、いずれも発話によって子供の相手をするロボットが提案されている。しかしながら、特許文献１および２のようなロボットによる発話は、一方的あるいは子供の発話の内容に単純に合わせたものに過ぎない。ロボットによる子供に向けた発話が、一方的あるいは子供の発話の内容に単純に合わせたものに過ぎない場合には、一般的な電化製品と変わりがない。

本発明の目的は、従来の一方的な発話や、単純にユーザの発話に合わせた発話を行うロボットでは実現できない、子供に向けてロボットが発話する内容および特徴が、育児や子供の成長に寄与させることができるロボットを提供することにある。

請求項１に記載された発明は、第１ユーザの発話の音声に予め定められた特徴量の音声の部分が含まれることを検知して、当該音声の部分を抽出する抽出手段と、前記抽出手段により抽出された前記音声の部分の前記特徴量に基づいて、前記第１ユーザの感情のパターンを推定する推定手段と、前記推定手段により推定された前記感情のパターンに応じて、第２ユーザに向けて出力する音声の態様を決定する決定手段とを備えるロボットである。
請求項２に記載された発明は、前記決定手段は、前記第２ユーザに向けて出力する前記音声の態様として、前記第１ユーザの発話と内容を同一とし、前記感情のパターンに変化を加えた音声を決定する、請求項１に記載のロボットである。
請求項３に記載された発明は、前記第１ユーザのポジティブな感情とネガティブな感情との各々に対応する、複数の前記音声の態様のパターンを予め記憶する記憶手段をさらに備え、前記推定手段は、前記第１ユーザの感情のパターンの推定として、当該第１ユーザの感情のパターンが前記ポジティブな感情のパターンと前記ネガティブな感情のパターンとのうちいずれかにあてはまるかを推定し、前記決定手段は、前記推定手段により推定された前記第１ユーザの感情のパターンに応じて、前記記憶手段に記憶されている複数の前記音声の態様のパターンのうち前記第２ユーザに向けて出力する音声の態様のパターンを選択して決定する、請求項１に記載のロボットである。
請求項４に記載された発明は、前記決定手段は、前記第２ユーザに向けて出力する音声の態様のパターンとして、前記推定手段による前記第１ユーザの感情のパターンの推定の結果にかかわらずポジティブな感情のパターンを選択して決定する、請求項３に記載のロボットである。
請求項５に記載された発明は、前記抽出手段は、前記第１ユーザの発話の音声のうち、予め定められた特徴量の音声の部分の前後の文脈の音声の部分をさらに抽出し、前記推定手段は、前記抽出手段により抽出された前記予め定められた特徴量の音声の部分の前後の文脈の音声の部分の特徴量をさらに考慮して、前記第１ユーザの感情のパターンを推定する、請求項１に記載のロボットである。
請求項６に記載された発明は、第１ユーザの発話の音声に予め定められた特徴量の音声の部分が含まれることがロボットにより検知されると、当該音声の部分を抽出する抽出手段と、前記抽出手段により抽出された前記音声の部分の前記特徴量に基づいて、前記第１ユーザの感情のパターンを推定する推定手段と、前記推定手段により推定された前記感情のパターンに応じて、第２ユーザに向けて前記ロボットに出力させる音声の態様を決定する決定手段と、前記決定手段により決定された前記音声の態様の音声を前記ロボットに出力させる制御を行う出力制御手段とを備えるロボットシステムである。
請求項７に記載された発明は、前記決定手段は、前記第２ユーザに向けて出力させる前記音声の態様として、前記第１ユーザの発話と内容を同一とし、前記感情のパターンに変化を加えた音声を決定する、請求項６に記載のロボットシステムである。
請求項８に記載された発明は、前記第１ユーザのポジティブな感情とネガティブな感情との各々に対応する、複数の前記音声の態様のパターンを予め記憶する記憶手段をさらに備え、前記推定手段は、前記第１ユーザの感情のパターンの推定として、当該第１ユーザの感情のパターンが前記ポジティブな感情のパターンと前記ネガティブな感情のパターンとのうちいずれかにあてはまるかを推定し、前記決定手段は、前記推定手段により推定された前記第１ユーザの感情のパターンに応じて、前記記憶手段に記憶されている複数の前記音声の態様のパターンのうち前記第２ユーザに向けて出力させる音声の態様のパターンを選択して決定する、請求項６に記載のロボットシステムである。
請求項９に記載された発明は、前記決定手段は、前記第２ユーザに向けて出力させる音声の態様のパターンとして、前記推定手段による前記第１ユーザの感情のパターンの推定の結果にかかわらずポジティブな感情のパターンを選択して決定する、請求項８に記載のロボットシステムである。
請求項１０に記載された発明は、前記抽出手段は、前記第１ユーザの発話の音声のうち、予め定められた特徴量の音声の部分の前後の文脈の音声の部分をさらに抽出し、前記推定手段は、前記抽出手段により抽出された前記予め定められた特徴量の音声の部分の前後の文脈の音声の部分の特徴量をさらに考慮して、前記第１ユーザの感情のパターンを推定する、請求項６に記載のロボットシステムである。

本発明によれば、従来の一方的な発話や、単純にユーザの発話に合わせた発話を行うロボットでは実現できない、子供に向けてロボットが発話する内容および特徴が、育児や子供の成長に寄与させることができるロボットを提供することができる。

本実施の形態が適用される育児支援ロボットシステムのハードウェア構成を示す図である。育児支援ロボットのハードウェア構成を示す図である。育児支援ロボットの機能構成を示す図である。サーバの機能構成を示す図である。育児支援ロボットの処理の流れを示すフローチャートである。サーバの処理の流れを示すフローチャートである。データベースに記憶されている、感情のパターンと、特定音声の内容と、出力態様との対応関係の具体例を示す図である。（Ａ）は、図１の育児支援ロボットシステムが適用されるタイミングの具体例を示す図である。（Ｂ）は、育児支援ロボットから出力される音声の態様のバリエーションの具体例を示す図である。

〔育児支援ロボットシステムのハードウェア構成〕
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
図１は、本実施の形態が適用される育児支援ロボットシステム１のハードウェア構成を示す図である。
育児支援ロボットシステム１は、サービス提供者から、ユーザＵｂの親であるユーザＵａに対して提供される「育児支援ロボットサービス」（以下、「本サービス」と呼ぶ）を実現させるシステムである。本サービスを実現させる育児支援ロボットシステム１は、インターネット等のネットワーク９０に接続された、育児支援ロボット１０と、ユーザ端末５０と、サーバ７０とを有している。本サービスは、育児支援ロボット１０を利用して育児を支援するサービスである。育児支援ロボット１０は、ユーザＵａの発話、およびユーザＵａの子供であるユーザＵｂの発話の各々に、予め定められた特徴量を有する音声の部分である特定の音声が含まれることを検知する。すると、育児支援ロボット１０は、これをトリガとして、特定の音声に込められた発話者（ユーザＵａまたはユーザＵｂ）の感情に応じた音声Ｖｒを、ユーザＵｂに向けて出力する。

なお、本サービスを利用するユーザＵａは、ユーザＵｂの親だけではなく、例えば祖父母、保育者など、ユーザＵｂを管理または教育する立場にある者がユーザＵａである場合もある。また、この場合、ユーザＵｂは、ユーザＵａの孫、被保育者など、ユーザＵａに管理され、または教育される立場にある者となる。なお、ユーザＵｂは、いずれの場合にも、未就学児、小学生、中学生、または高校生が想定される。なお、本明細書では、ユーザＵａとユーザＵｂとの各々を区別して説明する必要がない場合には、両者をまとめて「ユーザＵ」と記載する。

育児支援ロボット１０は、ユーザＵａからユーザＵｂに向けて発話された音声Ｖａ、およびユーザＵｂから発話された音声Ｖｂのいずれかに特定の音声が含まれていることを検知すると、特定の音声の音声データを抽出する。育児支援ロボット１０は、抽出した音声データの特徴量を解析することで、特定の音声に込められた感情のパターンを推定する。具体的には、育児支援ロボット１０は、音声Ｖａの一部または全部に特定の音声が含まれていることを検知すると、特定の音声の特徴量を解析することで、ユーザＵａが音声Ｖａを発話したときの感情のパターンを推定する。また、育児支援ロボット１０は、音声Ｖｂの一部または全部に特定の音声が含まれていることを検知すると、特定の音声の特徴量を解析することで、ユーザＵｂが音声Ｖｂを発話したときの感情のパターンを推定する。

発話者の感情のパターンは、ポジティブな感情のパターンとネガティブな感情のパターンとに分類することができる。ポジティブな感情のパターンとしては、例えば「歓喜」、「平穏」、「幸福」、「関心」といったものが挙げられる。また、ネガティブな感情のパターンとしては、例えば「悲哀」、「怒り」、「恐怖」、「嫌悪」といったものが挙げられる。さらに、ポジティブな感情の場合とネガティブな感情の場合との両方がある「驚き」等が挙げられる。なお、感情のパターンは、これらに限定されない。

ここで、育児支援ロボット１０による、特定の音声の抽出、および特定の音声の発話者の感情のパターンの推定は、どのような手法により実現されるかは特に限定されず、あらゆる手法を採用することができる。例えば、一般的に用いられている音声データの解析の手法を採用することができる。具体的には、例えば発話された音声のピッチ、基本周波数、音声波形周期性、声道の共鳴周波数、フォルマントの周波数帯域、声量、声質や声色、速度、波形ピークの出現頻度等について、ＡＩ（人工知能）が機械学習やディープラーニング等を行う手法を採用することができる。ここで、音声のデータの解析は、特定の音声のみを対象とするのではなく、特定の音声の前後の文脈部分の音声のデータも解析の対象となる。これは、同じ単語を同じように発話しても、その単語の前後の文脈を考慮すると意味合いが全く異なることがあるからである。

育児支援ロボット１０は、特定の音声を発した者の感情のパターンを推定すると、その推定の結果に応じて、ユーザＵｂに向けて音声Ｖｒを出力する際の態様（以下、「出力態様」と呼ぶ）を決定する。出力態様は、出力される音声Ｖｒの内容と、音声Ｖｒに込められる感情のパターンとを含むように構成される。出力態様は、データベースにおいて、予め定められた複数の特定の音声の各々に対応付けられて管理されている。具体的には、出力態様は、育児支援ロボット１０のうち、後述する図２の記憶部１３の一領域に設けられた特定音声ＤＢ４１と、記憶部１３と同様の機能を有するサーバ７０の記憶部（図示せず）の一領域に設けられた特定音声ＤＢ８１とに記憶されている。なお、データベースとして記憶されている出力態様のパターンの具体例については、図７を参照して後述する。

本サービスの具体例として、例えばユーザＵａがユーザＵｂを強く叱りつけるように「早くしなさい！」という内容の音声Ｖａを発話したとする。この場合、育児支援ロボット１０は、「早くしなさい！」という内容の音声Ｖａを、「早くしようね」といった優しい態様の音声Ｖｒに変換してからユーザＵｂに向けて出力する。つまり、ユーザＵａからユーザＵｂに向けた発話に込められた感情のパターンがネガティブなものである場合には、叱られることでユーザＵｂが心に受けるネガティブな影響を和らげて情緒を安定させるような音声Ｖｒが、育児支援ロボット１０から出力される。

また、例えばユーザＵａが、「すごいね！」といったユーザＵｂを褒める内容の音声Ｖａを発話したとする。この場合、育児支援ロボット１０は、「すごいね！」といったようにオウム返しとなる音声Ｖｒを出力する。つまり、ユーザＵａからユーザＵｂに向けた発話に込められた感情のパターンがポジティブなものである場合には、褒められることでユーザＵｂが心に受けるポジティブな影響を増幅させるような音声Ｖｒが、育児支援ロボット１０から出力される。

育児支援ロボット１０から音声Ｖｒが出力されると、ユーザＵｂがリアクションをとる場合がある。ユーザＵｂがリアクションとなる音声Ｖｂを発話した場合には、リアクションの有無、およびリアクションとなる音声Ｖｂのデータが、フィードバック情報として取得される。このフィードバック情報は、育児支援ロボット１０から出力された音声Ｖｒの出力態様の妥当性を事後的に検証するための情報になる。つまり、育児支援ロボット１０から出力された音声Ｖｒの出力態様が的確なものだったのか、あるいはまったく的外れのものだったのかを検証するための情報になる。このため、フィードバック情報は、例えばＡＩ（人工知能）による機械学習の対象となる情報として活用できる。

具体的には、例えば育児支援ロボット１０からユーザＵｂに向けて音声Ｖｒが出力された直後に、ユーザＵｂが「何言ってるの？」であるとか「何それ？」といった懐疑的な態様の音声Ｖｂを発話すると、その内容がフィードバック情報として取得される。このフィードバック情報は、育児支援ロボット１０から出力された音声Ｖｒの妥当性が低いことを示す情報となる。これに対して、例えば育児支援ロボット１０からユーザＵｂに向けて音声Ｖｒが出力された直後に、ユーザＵｂが「わかった」であるとか「ありがとう」といった肯定的な態様の音声Ｖｂを発話すると、その内容がフィードバック情報として取得される。このフィードバック情報は、育児支援ロボット１０から出力された音声Ｖｒの妥当性が高いことを示す情報となる。

フィードバック情報は、データベースにおいて、予め定められた複数の特定の音声の各々に対応付けられて管理される。具体的には、フィードバック情報は、育児支援ロボット１０のうち、後述する図２の記憶部１３の一領域に設けられた特定音声ＤＢ４１と、記憶部１３と同様の機能を有するサーバ７０の記憶部（図示せず）の一領域に設けられた特定音声ＤＢ８１とに記憶されている。

上述したように、育児支援ロボット１０は、特定音声ＤＢ４１に記憶されているフィードバック情報を用いて、ＡＩ（人工知能）による機械学習を行うことができる。機械学習の結果は、出力態様を決定するための根拠情報として利用される。このように、フィードバック情報の取得、機械学習、出力形態の決定、音声Ｖｒの出力、再びフィードバック情報の取得というルーティンを繰り返し行うことにより、育児支援ロボット１０から出力される音声Ｖｒの精度を高めていくことができる。なお、フィードバック情報を対象とする機械学習は、後述するサーバ７０側で行う構成とすることもできる。ただし、育児支援ロボット１０をスタンドアロン型のロボットとして機能させる場合には、育児支援ロボット１０がフィードバック情報を対象とする機械学習を行う。

育児支援ロボット１０は、ユーザＵａの感情のパターンがポジティブなものであってもネガティブなものであっても、これにとらわれずに、ユーザＵｂに対してポジティブな態様の音声Ｖｒを出力することができる。また、育児支援ロボット１０は、ポジティブな態様の音声Ｖｒを出力するだけではなく、そのときの状況に応じてネガティブな態様の音声Ｖｒを出力する場合もある。具体的には、例えばユーザＵａが感情を抑えてユーザＵｂを叱ると、育児支援ロボット１０は、ユーザＵｂを少し強めに諭す内容の音声Ｖｒを出力することができる。これにより、ユーザＵａの態度の意味をユーザＵｂに悟らせることができる。また、例えばユーザＵｂから発話された音声Ｖｂに、年長者に対して非礼となる内容が含まれている場合には、育児支援ロボット１０がユーザＵａに代わってユーザＵｂを注意する内容の音声Ｖｒを出力することもできる。

上述したように、育児支援ロボット１０は、基本的には特定の音声および前後の文脈の音声のデータを解析した結果に基づいて出力態様を決定する。そのとき、育児支援ロボット１０は、ユーザＵａおよびユーザＵｂのユーザ情報を考慮する。「ユーザ情報」とは、ユーザＵａおよびユーザＵｂに関する情報のことをいう。ユーザ情報には、例えばユーザＵａおよびユーザＵｂの各々の呼び名、住所（都道府県）、年齢、性別などパーソナルな情報が含まれる。

ユーザ情報は、ユーザ端末５０に入力されることで取得される。また、ユーザＵａおよびユーザＵｂが本サービス以外の他サービスにユーザ情報を別途登録している場合であって、本サービスと他サービスとの間にユーザＵｂのユーザ情報の融通に関する定めが設けられているような場合がある。このような場合には、ユーザＵの承諾を条件として、他サービスにてユーザ情報として既に登録されている情報も、本サービスにおけるユーザ情報として取得される。具体的には、他サービスを運営するサーバなど図示しない外部のサーバからユーザ情報を取得する。育児支援ロボット１０は、取得したユーザ情報を、後述する図２の記憶部１３の一領域に設けられたユーザ情報ＤＢ４２に記憶して管理する。

ここで、出力態様の決定に際してユーザ情報が考慮された場合の一例を説明する。例えば、ユーザ情報に、ユーザＵｂの呼び名が「〇〇ちゃん」、住所（都道府県）が「大阪府」、年齢が「５歳」、性別が「女」という情報が含まれていたとする。この場合、育児支援ロボット１０は、出力態様の決定に際して、ユーザＵｂに向けて音声Ｖｒを出力する際、「〇〇ちゃん」という呼び名、関西地方特有の言い回し、および未就学女児といった点を考慮する。このように出力態様の決定に際してユーザ情報が考慮されるので、育児支援ロボット１０は、ユーザＵｂのパーソナルな情報を含む、より親近感のある音声Ｖｒを出力することが可能となる。

また、育児支援ロボット１０は、ユーザＵａによる入力操作の結果、出力態様の一部についての指定が行われると、これを受け付ける。そして、受け付けた指定の内容を含む出力態様にて音声Ｖｒを出力する。なお、ユーザＵａが出力態様の「一部」を指定できることとしたのは以下の理由による。すなわち、育児支援ロボット１０から出力される音声Ｖｒの態様の「すべて」を予め指定できることとすると、ユーザＵａおよびユーザＵｂの各々から発話された音声Ｖａおよび音声Ｖｂの各々と、育児支援ロボット１０から出力される音声Ｖｒとの関連性が希薄になる。その結果、「ロボットが発話する内容および特徴が、育児や子供の成長に寄与させる」という本来の目的を達成できなくなる場合があるためである。出力態様の一部の指定としては、例えば出力態様のバリエーションの指定を可能にする「出力モード」の指定が挙げられる。なお、出力モードの詳細については、図８（Ｂ）を参照して後述する。

育児支援ロボット１０は、図１に示すように、育児支援ロボットシステム１を構成するネットワーク型のロボットとして機能させることもできるが、通信環境の悪い場所では、一時的にスタンドアロン型のロボットとして機能させることもできる。また、当初から通信機能を有しないスタンドアロン型のロボットとして機能させることもできる。

育児支援ロボットシステム１を構成するユーザ端末５０は、スマートフォン、タブレット、パーソナルコンピュータ等で構成される。ユーザ端末５０は、親であるユーザＵａにより所持され、またはユーザＵａが生活する空間に配置されている。ユーザ端末５０は、ユーザＵａの入力操作を受け付ける。例えば、ユーザ端末５０は、育児支援ロボット１０の各種設定を行うための入力操作、および本サービスにユーザ情報を登録するための入力操作を受け付ける。なお、ここでいう「入力操作」には、ユーザ端末５０の画面に表示されたユーザインターフェースへの手入力操作、マイク等への音声による入力操作、カメラ等へのジェスチャによる入力操作が含まれる。

ユーザ端末５０がスマートフォン、タブレット、パーソナルコンピュータで構成される場合には、本サービスを利用可能にする専用のアプリケーションソフトウェア（以下、「専用アプリ」と呼ぶ）をユーザ端末５０にインストールすることができる。また、専用アプリがインストールされない場合であっても、ユーザ端末５０のブラウザ機能を用いて、本サービスを利用可能にする専用のウェブサイトにアクセスすることでも本サービスを利用することができる。

育児支援ロボットシステム１を構成するサーバ７０は、システム全体を制御する情報処理装置であり、例えば専用アプリをユーザ端末５０に提供する。また、サーバ７０は、ユーザ端末５０への入力操作による出力態様の一部の指定を受け付ける。また、サーバ７０は、各種の情報をデータベースに記憶して管理する。具体的には、サーバ７０は、育児支援ロボット１０から取得したフィードバック情報を、後述する図２の記憶部１３と同様の機能を有する記憶部（図示せず）の一領域に設けられた特定音声ＤＢ８１に記憶して管理する。また、サーバ７０は、ユーザ端末５０等から取得したユーザ情報を、後述する図２の記憶部１３と同様の機能を有する記憶部（図示せず）の一領域に設けられたユーザ情報ＤＢ８２に記憶して管理する。また、サーバ７０は、ユーザ情報ＤＢ８２に記憶して管理しているユーザ情報の一部または全部を、必要に応じて育児支援ロボット１０およびユーザ端末５０に向けて送信する。

また、図１のように育児支援ロボット１０をネットワーク型のロボットとして機能させる場合には、サーバ７０が、特定音声ＤＢ８１に記憶されているフィードバック情報を用いて、ＡＩ（人工知能）による機械学習を行うこともできる。機械学習の結果は、育児支援ロボット１０が出力態様を決定するための根拠情報として利用される。このように、フィードバック情報を用いた機械学習は、サーバ７０側で行う構成とすることもできるし、育児支援ロボット１０側でも行う構成とすることもできる。

〔育児支援ロボットの構成〕
図２は、育児支援ロボット１０のハードウェア構成を示す図である。
育児支援ロボット１０は、コンピュータ装置を内蔵するいわゆるコミュニケーションロボットで構成される。育児支援ロボット１０は、自機全体を制御するＣＰＵ（Central Processing Unit）である制御部１１と、演算に際して作業エリアとして用いられるＲＡＭ（Random Access Memory）などのメモリ１２と、プログラムや各種設定データなどの記憶に用いられるＨＤＤ（Hard Disk Drive）や半導体メモリ等の記憶装置である記憶部１３とを有している。また、ネットワーク９０を介してデータの送受信を行う通信部１４を有している。また、ユーザＵからの入力操作を受け付けるタッチパネルなどの操作部１５と、ユーザＵに対して画像やテキスト情報などを表示する液晶ディスプレイなどからなる表示部１６と、表示部１６を制御する表示制御部１７とを有している。また、ユーザから発せられる音を録音するためのマイクなどからなる録音部１８と、ユーザＵに対して音声を出力するスピーカなどからなる音声出力部１９とを有している。さらに、ユーザＵのジェスチャの様子を撮像して静止画像または動画像の情報として取得するためのカメラなどからなる撮像部２０を有している。

なお、育児支援ロボットシステム１を構成するユーザ端末５０のハードウェア構成は、図２に示す育児支援ロボット１０のハードウェア構成と同様の構成を備えている。また、育児支援ロボットシステム１を構成するサーバ７０のハードウェア構成は、録音部１８、音声出力部１９、および撮像部２０を除いて図２に示す育児支援ロボット１０のハードウェア構成と同様の構成を備えている。このため、ユーザ端末５０およびサーバ７０のハードウェア構成の説明は省略する。

図３は、育児支援ロボット１０の機能構成を示す図である。
育児支援ロボット１０は、ユーザＵにより発話された音声のデータを取得する音声取得部３１と、取得された音声のデータから特定の音声のデータを抽出する特定音声抽出部３２とを有する。また、育児支援ロボット１０は、音声を発話したユーザＵａおよびユーザＵｂの各々の感情のパターンを推定する感情パターン推定部３３と、出力態様のパターンを記憶する出力態様記憶部３４とを有する。また、育児支援ロボット１０は、ユーザ情報を取得するユーザ情報取得部３５と、ユーザ情報を記憶するユーザ情報記憶部３６と、出力態様の一部の指定を受け付ける出力態様受付部３７とを有する。また、育児支援ロボット１０は、出力態様を決定する出力態様決定部３８と、特定の音声のデータを変換する変換部３９と、音声の出力の制御を行う出力制御部４０とを有する。

ユーザＵａから発話された音声Ｖａと、ユーザＵｂから発話された音声Ｖｂとのうち少なくとも一方の音声が入力されると、上述した図２の録音部１８によりその音声が録音される。音声取得部３１は、録音部１８により録音された音声Ｖａおよび音声Ｖｂの各々の情報を取得する。

特定音声抽出部３２は、ユーザＵａおよびユーザＵｂの各々の発話の音声Ｖａおよび音声Ｖｂの各々に、予め定められた特徴量の音声の部分が含まれることを検知して、これを特定の音声として抽出する。また、特定音声抽出部３２は、特定の音声の部分の前後の文脈の音声の部分を抽出する。

感情パターン推定部３３は、特定音声抽出部３２により抽出された特定の音声の特徴量に基づいて、特定の音声を発話したユーザＵの感情のパターンを推定する。具体的には、例えば感情パターン推定部３３は、特定の音声を発話したユーザＵの感情のパターンの推定として、ポジティブな感情のパターンとネガティブな感情のパターンとのうちいずれかにあてはまるかを推定する。また、感情パターン推定部３３は、特定音声抽出部３２により抽出された特定の音声の前後の文脈の音声の部分の特徴量を考慮して、ユーザＵａおよびユーザＵｂの各々の感情のパターンを推定することもできる。

出力態様記憶部３４は、特定の音声を一部または全部に含む、音声Ｖａまたは音声Ｖｂを発話したユーザＵの、ポジティブな感情とネガティブな感情との各々に対応する音声の態様のパターンを、出力態様のパターンとして記憶している。具体的には、出力態様記憶部３４は、複数の出力態様のパターンを、特定の音声に対応付けて特定音声ＤＢ４１に記憶させる。

ユーザ情報取得部３５は、ユーザＵａ及びユーザＵｂの各々のユーザ情報を取得する。具体的には、ユーザ情報取得部３５は、入力操作にて入力されたユーザＵａ及びユーザＵｂの各々のユーザ情報を取得する。また、ユーザ情報取得部３５は、ユーザＵａ及びユーザＵｂの各々の本サービスの利用実績を、ユーザ情報として取得する。また、ユーザ情報取得部３５は、他サービスにてユーザＵａ及びユーザＵｂの各々のユーザ情報として既に登録されている情報のうち、ユーザＵの承諾が得られた情報を、本サービスにおけるユーザＵａ及びユーザＵｂの各々のユーザ情報として取得する。

ユーザ情報記憶部３６は、ユーザ情報取得部３５により取得されたユーザＵａ及びユーザＵｂの各々のユーザ情報を、ユーザ情報ＤＢ４２に記憶して管理する。具体的には、ユーザ情報記憶部３６は、ユーザＵａおよびユーザＵｂの各々を一意に特定可能にする識別情報に、ユーザＵａおよびユーザＵｂの各々のユーザ情報を対応付けて、その識別情報をキーとしていつでも抽出可能な態様で管理する。

出力態様受付部３７は、出力態様の一部についての指定を受け付ける。具体的には、出力態様受付部３７は、出力態様の一部を指定するための入力操作が行われると、その指定を受け付ける。この入力操作としては、ユーザ端末５０の画面に表示されたユーザインターフェースへの手入力操作、マイク等への音声による入力操作、カメラ等へのジェスチャによる入力操作等が挙げられる。

出力態様決定部３８は、感情パターン推定部３３により推定された、特定の音声を発話したユーザＵの感情のパターンに応じて、ユーザＵｂに向けて出力する音声Ｖｒの出力態様を決定する。具体的には、例えば出力態様決定部３８は、出力態様の決定として、ユーザＵａの発話と内容を同一とし、感情のパターンを変換した音声Ｖｒを決定する。また、例えば出力態様決定部３８は、感情パターン推定部３３により推定された感情のパターンに応じて、出力態様記憶部３４に記憶されている複数の音声Ｖｒの出力態様のパターンのうちユーザＵｂに向けて出力する音声Ｖｒの出力態様のパターンを選択して決定する。

また、出力態様決定部３８は、ユーザＵｂに向けて出力する音声Ｖｒの出力態様のパターンとして、感情パターン推定部３３による感情のパターンの推定の結果にかかわらず、ポジティブな感情のパターンを選択して決定してもよい。また、出力態様決定部３８は、例えば予め定められた選択基準や、ＡＩ（人工知能）がユーザＵによる本サービスの利用実績を学習した結果に基づいて、出力態様を決定してもよい。また、ユーザＵａの入力操作により、既に出力態様の一部が決定されている場合には、出力態様決定部３８は、出力態様の決定に際してその決定内容を反映させる。

変換部３９は、特定音声抽出部３２により抽出された特定の音声の出力態様を適宜変換する。具体的には、変換部３９は、抽出された特定の音声の出力態様を、出力態様決定部３８により決定された出力態様に変換する。具体的には、例えば出力態様決定部３８による決定の結果が、出力態様受付部３７により受け付けられた一部の指定内容に従ったものである場合には、変換部３９は、育児支援ロボット１０から音声Ｖｒが出力される際の出力態様を、出力態様受付部３７により指定された出力態様に変換する。

なお、変換部３９による特定の音声の変換が具体的にどのような手法により行われるかは特に限定されず、例えば一般的に利用されている音声編集の手法を用いた加工が行われてもよい。この場合、変換部３９は、例えば波形編集、ノイズ除去、ボリューム調整、周波数調整、音圧調整、ブレス除去、ピッチ調整、イントネーション調整、音色調整等の手法により、特定の音声の変換を行う。

出力制御部４０は、出力態様決定部３８により決定された出力態様の音声Ｖｒを出力する制御を行う。具体的には、出力制御部４０は、出力態様決定部３８により決定された出力態様になるように適宜変換された音声Ｖｒを、図２の音声出力部１９に出力させる制御を行う。なお、出力制御部４０が音声Ｖｒを出力するタイミングは特に限定されない。例えば、特定の音声の情報が抽出されると、直ちに出力態様の決定と変換とが行われて、音声出力部１９から出力されるようにしてもよい。また、例えば特定の音声の情報が抽出された後、予め設定された時間が経過する間に出力態様の決定と変換とが行われて、音声出力部１９から出力されるようにしてもよい。この場合、「予め設定された時間」はユーザＵが任意に設定できるものとし、例えば「１秒後」、「３秒後」といったように設定できるようにしてもよい。

〔サーバの構成〕
図４は、サーバ７０の機能構成を示す図である。
サーバ７０は、ユーザ情報を取得するユーザ情報取得部７１と、ユーザ情報を記憶するユーザ情報記憶部７２と、ユーザ情報の一部または全部を育児支援ロボット１０に送信する制御を行うユーザ情報送信制御部７３とを有している。また、サーバ７０は、出力態様の一部を指定する入力操作を受け付ける出力態様受付部７４と、出力態様の一部を決定する出力態様決定部７５とを有している。また、その決定内容を育児支援ロボット１０に送信する制御を行う出力態様送信制御部７６を有している。

ユーザ情報取得部７１は、ユーザＵａの入力操作にて入力されたユーザＵａおよびユーザＵｂの各々のユーザ情報を取得する。また、ユーザ情報取得部７１は、ユーザＵａおよびユーザＵｂの各々による本サービスの利用実績を、ユーザＵａおよびユーザＵｂのユーザ情報として取得する。また、ユーザ情報取得部７１は、他サービスにてユーザＵａおよびユーザＵｂの各々のユーザ情報として既に登録されている情報のうち、ユーザＵの承諾が得られた情報を、本サービスにおけるユーザＵａおよびユーザＵｂの各々のユーザ情報として取得する。

ユーザ情報記憶部７２は、ユーザ情報取得部７１により取得されたユーザＵａおよびユーザＵｂの各々のユーザ情報を、ユーザ情報ＤＢ８２に記憶して管理する。具体的には、ユーザ情報記憶部７２は、ユーザＵａおよびユーザＵｂの各々を一意に特定可能にする識別情報にユーザ情報を対応付けて、その識別情報をキーとしていつでも抽出可能な態様で管理する。

ユーザ情報送信制御部７３は、ユーザ情報ＤＢ８２に記憶されているユーザ情報の一部または全部を、育児支援ロボット１０に送信する制御を行う。なお、サーバ７０から育児支援ロボット１０に対するユーザ情報の送信の有無、および送信するユーザ情報の項目は、ユーザＵａの入力操作により任意に設定することができる。

出力態様受付部７４は、出力態様の一部の指定を受け付ける。具体的には、出力態様受付部７４は、出力態様の一部を指定するための入力操作が行われると、その指定を受け付ける。この入力操作は、ユーザ端末５０のユーザインターフェースへの手入力操作、マイク等への音声による入力操作、カメラ等へのジェスチャによる入力操作等が挙げられる。「出力態様の一部の指定」としては、例えば出力態様のバリエーションの指定を可能にする「出力モード」の指定が挙げられる。なお、出力モードの詳細については、図８（Ｂ）を参照して後述する。

出力態様決定部７５は、出力態様受付部７４により出力態様の一部についての指定が受け付けられた場合には、その指定に従った決定を行う。また、出力態様決定部７５は、例えば予め定められた基準や、ＡＩ（人工知能）を利用した機械学習の結果に基づいて、出力態様の一部を決定してもよい。出力態様送信制御部７６は、出力態様決定部７５によって出力態様の一部が決定されると、その決定された内容を育児支援ロボット１０に送信する制御を行う。

〔育児支援ロボットの処理〕
次に、育児支援ロボット１０の処理について、図５を用いて説明する。
図５は、育児支援ロボット１０の処理の流れを示すフローチャートである。
ユーザＵａの入力操作によってユーザＵａおよびユーザＵｂの各々のユーザ情報が入力されると（ステップ１０１でＹＥＳ）、ユーザ情報取得部３５は、ユーザＵａの入力操作にて入力されたユーザ情報を取得する（ステップ１０２）。ユーザ情報取得部３５により取得されたユーザ情報は、ユーザ情報記憶部３６によりユーザ情報ＤＢ４２に記憶されて管理される。これに対して、ユーザ情報が入力されていない場合には（ステップ１０１でＮＯ）、ステップ１０３の判断に進む。

ユーザＵａの入力操作によって出力態様の一部が指定されると（ステップ１０３でＹＥＳ）、出力態様受付部３７がその指定を受け付けて、出力態様決定部３８がその指定に従って出力態様の一部を決定する（ステップ１０４）。これに対して、出力態様の一部が指定されていない場合には（ステップ１０３でＮＯ）、ステップ１０５の判断に進む。

ユーザＵａから発話された音声Ｖａと、ユーザＵｂから発話された音声Ｖｂとのうち少なくとも一方の音声が入力されると（ステップ１０５でＹＥＳ）、その音声を録音部１８が録音して、音声取得部３１が、録音部１８により録音された音声Ｖａおよび音声Ｖｂの各々の情報を取得する（ステップ１０６）。これに対して、ユーザＵａから発話された音声Ｖａと、ユーザＵｂから発話された音声Ｖｂとのうち少なくとも一方の音声が入力されていない場合には（ステップ１０５でＮＯ）、ユーザＵａから発話された音声Ｖａと、ユーザＵｂから発話された音声Ｖｂとのうち少なくとも一方の音声が入力されるまでステップ１０５の判断が繰り返される。

特定音声抽出部３２は、ユーザＵａおよびユーザＵｂの各々の発話の音声Ｖａおよび音声Ｖｂの各々に、予め定められた特徴量の音声の部分が含まれることを検知して、これを特定の音声として抽出する（ステップ１０７）。感情パターン推定部３３は、ステップ１０７で特定音声抽出部３２により抽出された特定の音声の特徴量に基づいて、特定の音声を発話したユーザＵの感情のパターンを推定する（ステップ１０８）。

出力態様決定部３８は、ステップ１０８で感情パターン推定部３３により推定された、特定の音声を発話したユーザＵの感情のパターンに応じて、ユーザＵｂに向けて出力する音声Ｖｒの出力態様を決定する（ステップ１０９）。ここで、出力態様受付部３７により出力態様の一部の指定が受け付けられた場合には、その指定に従った決定が行われる。

変換部３９は、抽出された特定の音声の出力態様を、出力態様決定部３８により決定された出力態様に変換する（ステップ１１０）。ここで、ステップ１０９における出力態様決定部３８の決定の結果が、出力態様受付部３７により受け付けられた一部の指定内容に従ったものである場合、変換部３９は、出力態様受付部３７により一部の指定が受け付けられた出力態様に変換する。また、例えば出力態様決定部３８の決定の結果が、出力態様の決定に際してユーザ情報を考慮する旨の設定に従ったものである場合には、変換部３９は、出力態様を、ユーザ情報が考慮された出力態様に変換する。出力制御部４０は、出力態様決定部３８により決定された出力態様の音声Ｖｒを出力する制御を行う（ステップ１１１）。これにより処理が終了する。

〔サーバの処理〕
次に、サーバ７０の処理について、図６を用いて説明する。
図６は、サーバ７０の処理の流れを示すフローチャートである。
ユーザＵａの入力操作によってユーザＵａおよびユーザＵｂのユーザ情報が入力されると（ステップ７０１でＹＥＳ）、ユーザ情報取得部７１は、ユーザＵａの入力操作にて入力されたユーザＵａおよびユーザＵｂのユーザ情報を取得する（ステップ７０２）。ユーザ情報取得部７１により取得されたユーザＵａおよびユーザＵｂのユーザ情報は、ユーザ情報記憶部７２によりユーザ情報ＤＢ８２に記憶されて管理される。ユーザ情報送信制御部７３は、ユーザ情報ＤＢ８２に記憶されているユーザＵａおよびユーザＵｂのユーザ情報の一部または全部を育児支援ロボット１０に送信する制御を行う（ステップ７０３）。これに対して、ユーザＵａおよびユーザＵｂのユーザ情報が入力されていない場合には（ステップ７０１でＮＯ）、ステップ７０４の判断に進む。

ユーザＵａの入力操作によって出力態様の一部が指定されると（ステップ７０４でＹＥＳ）、出力態様受付部７４がその指定を受け付けて、出力態様決定部７５がその指定に従って出力態様の一部を決定する（ステップ７０５）。出力態様の一部が決定されると、出力態様送信制御部７６は、その決定内容を育児支援ロボット１０に送信する制御を行う（ステップ７０６）。これに対して、出力態様の一部が指定されていない場合には（ステップ７０４でＮＯ）、出力態様の一部が決定されることなく処理は終了する。

以上の構成を有する育児支援ロボットシステム１によれば、育児支援ロボット１０が、あるときは子であるユーザＵｂの心をケアする存在となり、またあるときは親であるユーザＵａをサポートする存在となる。すなわち、育児支援ロボット１０は、ユーザＵａおよびユーザＵｂの家族の一員として、ユーザＵａと一緒に育児を支援することが可能となる。

〔具体例〕
次に、本サービスの具体例について、図７及び図８を用いて説明する。
図７は、データベースに記憶されている、感情のパターンと、特定音声の内容と、出力態様との対応関係の具体例を示す図である。

図７に示す情報は、特定音声ＤＢ４１および特定音声ＤＢ８１に記憶されている情報の一部である。なお、上述したように、特定音声ＤＢ４１および特定音声ＤＢ８１にはフィードバック情報が記憶されているが、図７には、具体例を説明するための情報として、感情のパターンと、特定音声の内容と、出力態様との対応関係のみが示されている。

図７に示すように、発話者（ユーザＵａおよびユーザＵｂ）の感情のパターンには、「ポジティブ」な感情を示すものと「ネガティブ」な感情を示すものとがある。このうち、「ポジティブ」な感情を示すものには、「歓喜」の感情を示すもの、「平穏」の感情を示すもの、その他図示はしないが、「幸福」、「関心」等の感情を示すものがある。そして、「歓喜」を示すものに対応する特定の音声の内容として、例えば「すごい！」、「えらい！」といったものがあり、各々に対応する育児支援ロボット１０の出力態様として、「すごい！」、「えらい！」といったものがある。また、「平穏」を示すものに対応する特定の音声の内容として、例えば「いい？」、「わかった？」といったものがあり、各々に対応する育児支援ロボット１０の出力態様として、「よく聞いてね」、「よくわかったよね」といったものがある。

また、「ネガティブ」な感情を示すものには、「悲哀」の感情を示すもの、「怒り」の感情を示すもの、その他図示はしないが、「恐怖」、「嫌悪」等の感情を示すものがある。そして、「悲哀」を示すものに対応する特定の音声の内容として、例えば「ひどい！」、「（泣き声）」といったものがあり、各々に対応する育児支援ロボット１０の出力態様として、「どうしたの？」、「泣かないで」といったものがある。また、「怒り」を示すものに対応する特定の音声の内容として、例えば「こら！」、「だめ！」といったものがあり、各々に対応する育児支援ロボット１０の出力態様として、「それはいけないね」、「だめだよ」といったものがある。

ここで、例えばユーザＵａが、ユーザＵｂを絶賛するように、「歓喜」の感情を込めて「すごい！」という音声Ｖａを発話したとする。すると、育児支援ロボット１０は、ユーザＵｂに向けて、「すごい！」という音声Ｖｒを、「歓喜」の感情を表す出力態様で出力する。また、例えばユーザＵａが、ユーザＵｂを褒めるように、「歓喜」の感情を込めて「えらい！」という音声Ｖａを発話したとする。すると、育児支援ロボット１０は、ユーザＵｂに向けて、「えらい！」という音声Ｖｒを、「歓喜」の感情を表す出力態様で出力する。

また、例えばユーザＵａが、ユーザＵｂに傾聴を促すように、「平穏」の感情を込めて「いい？」という音声Ｖａを発話したとする。すると、育児支援ロボット１０は、ユーザＵｂに向けて、「よく聞いてね」という音声Ｖｒを、「平穏」の感情を表す出力態様で出力する。また、例えばユーザＵａが、ユーザＵｂを諭すように、「平穏」の感情を込めて「わかった？」という音声Ｖａを発話したとする。すると、育児支援ロボット１０は、ユーザＵｂに向けて、「よくわかったよね」という音声Ｖｒを、「平穏」の感情を表す出力態様で出力する。

また、例えばユーザＵｂが、ユーザＵａに向かって、「悲哀」の感情を込めて「ひどい！」という音声Ｖｂを発話したとする。すると、育児支援ロボット１０は、ユーザＵｂに向けて、「どうしたの？」という音声Ｖｒを、「平穏」の感情を表す出力態様で出力する。また、例えばユーザＵｂが、特定の言葉ではなく、「悲哀」の感情を込めて、泣き声を示す音声Ｖｂを発話（嗚咽）したとする。すると、育児支援ロボット１０は、ユーザＵｂに向けて、「泣かないで」という音声Ｖｒを、「平穏」の感情を表す出力態様で出力する。

また、例えばユーザＵａが、ユーザＵｂを強く叱るように、「怒り」の感情を込めて「こら！」という音声Ｖａを発話したとする。すると、育児支援ロボット１０は、ユーザＵｂに向けて、「それはいけないね」という音声Ｖｒを、「平穏」の感情を表す出力態様で出力する。また、例えばユーザＵａが、ユーザＵｂを強く注意するように、「怒り」の感情を込めて「だめ！」という音声Ｖａを発話したとする。すると、育児支援ロボット１０は、ユーザＵｂに向けて、「だめだよ」という音声Ｖｒを、「平穏」の感情を表す出力態様で出力する。

図８（Ａ）は、図１の育児支援ロボットシステムが適用されるタイミングの具体例を示す図である。
育児支援ロボットシステム１が適用されるタイミングとしては、例えば図８（Ａ）に示すように、子供であるユーザＵｂが何かに成功したタイミング、ユーザＵｂが何かに失敗したタイミング、ユーザＵｂが泣いているタイミングなどが挙げられる。このうち、ユーザＵｂが何かに成功したタイミングで、母親であるユーザＵａがユーザＵｂを褒めると、育児支援ロボット１０は、これに便乗するようにユーザＵｂを褒める内容の音声Ｖｒを出力する。これにより、褒められることでユーザＵｂが心に受けるポジティブな影響を増幅させることができる。

また、ユーザＵｂが何かに失敗したタイミングで、母親であるユーザＵａがユーザＵｂを強く叱ると、育児支援ロボット１０は、これに便乗するのではなく、ユーザＵｂを慰める内容の音声Ｖｒを出力する。これにより、叱られることでユーザＵｂが心に受けるネガティブな影響を和らげて、情緒の安定を図ることができる。また、ユーザＵｂが何かに失敗したタイミングで、母親であるユーザＵａが感情を抑えてユーザＵｂを叱ると、育児支援ロボット１０は、ユーザＵｂを少し強めに諭す内容の音声Ｖｒを出力することもできる。これにより、ユーザＵａの態度の意味をユーザＵｂに悟らせることができる。このように、ユーザＵａと育児支援ロボット１０とが相反する感情を表すようにすることで、緊張と緩和とのコンビネーションによる効果的な育児が可能となる。

また、ユーザＵｂが何かを理由に泣いていると、育児支援ロボット１０は、無条件でユーザＵｂを慰める内容の音声Ｖｒを出力する。これにより、育児支援ロボット１０は、ユーザＵａおよびユーザＵｂの家族の一員として心の支えになることができる。なお、図８（Ａ）に示されている各タイミングは一例に過ぎない。子供であるユーザＵｂが日々の生活をするうえで、周囲の誰かがユーザＵｂに手を差し伸べるべきあらゆるタイミングで育児支援ロボットシステム１が適用される。

図８（Ｂ）は、育児支援ロボットから出力される音声の態様のバリエーションの具体例を示す図である。
上述したように、育児支援ロボット１０は、ユーザＵａおよびユーザＵｂの各々から発話された音声Ｖａおよび音声Ｖｂの各々に込められた感情に応じて、ユーザＵａによるユーザＵｂの育児を支援するための音声ＶｒをユーザＵｂに向けて出力する。このとき、育児支援ロボット１０から出力される音声Ｖｒの出力態様として、様々なバリエーションのものが想定される。出力態様のバリエーションは、例えば図８（Ｂ）に示すように、出力態様毎に名前を付した「出力モード」として、ユーザＵａの入力操作により予め選択できるようにしてもよい。出力モードには、「ソフト」、「ハード」、「祖父」、「祖母」、「先生」、「近所のおばさん」、「好きなキャラクター」といったものがある。出力モードは、ユーザＵａが選択可能な態様で、ユーザ端末５０に表示される。

図８（Ｂ）に示す出力モードのうち、「ソフト」が選択されると、通常よりも柔らかい態様で音声Ｖｒが出力される。例えば上述した図７の例では、ユーザＵａが「すごい！」と発話すると、これに便乗するように育児支援ロボット１０が「すごい！」という音声Ｖｒを出力するが、「ソフト」が予め選択されていると、「すばらしいね！」といった音声Ｖｒを出力する。また、図８（Ｂ）に示す出力モードのうち、「ハード」が選択されると、通常よりも硬い態様で音声Ｖｒが出力される。例えば上述した図７の例では、ユーザＵａが「いい？」と発話すると、育児支援ロボット１０は「よく聞いてね」という音声Ｖｒを出力するが、「ハード」が予め選択されていると、「よく聞いてください」といった音声Ｖｒを出力する。

また、図８（Ｂ）に示す出力モードのうち、「祖父」が選択されると、一般的な祖父が発話しそうな態様で音声Ｖｒが出力される。例えば上述した図７の例では、ユーザＵａが「えらい！」と発話すると、これに便乗するように育児支援ロボット１０が「えらい！」という音声Ｖｒを出力するが、「祖父」が予め選択されていると、「大したもんだ！」といった音声Ｖｒを出力する。なお、図８（Ｂ）に示す出力モードのうち、「祖母」、「先生」、「近所のおばさん」が選択された場合も同様に、一般的な祖母、先生、近所のおばさんの各々が発話しそうな態様で音声Ｖｒが出力される。

また、図８（Ｂ）に示す出力モードのうち、「好きなキャラクター」が選択されると、ユーザＵｂが気に入っているアニメや漫画のキャラクターが発話しそうな態様で音声Ｖｒが出力される。この場合、対象となる声優の音声を別途収録したものを利用する。例えば上述した図７の例では、ユーザＵｂが泣いていると、育児支援ロボット１０は、ユーザＵｂが気に入っているキャラクターの声で、「泣かないで」という音声Ｖｒを出力する。これにより、ユーザＵｂの心をケアする効果が高まることが期待できる。なお、ユーザＵａは、「好きなキャラクター」を選択する場合、ユーザ端末５０にユーザ情報を入力する際に、ユーザＵｂが気に入っている１以上のキャラクターを予め指定しておく。

以上、本実施の形態について説明したが、本発明は上述した本実施の形態に限るものではない。また、本発明による効果も、上述した本実施の形態に記載されたものに限定されない。例えば、ユーザＵａおよびＵｂには、未だ本サービスの利用を開始していない者であって、本サービスの利用を希望する者も含まれるものとする。

また、例えば上述の実施の形態では、ユーザＵａによる入力操作の態様として、手入力操作、音声による入力操作、ジェスチャによる入力操作を挙げているが、これらの入力操作に限定されず、ユーザＵａの意思を入力可能なあらゆる入力操作を採用することができる。また、上述した本実施の形態では、ユーザＵが出力態様のすべてについては予め指定することができない構成としているが、ユーザＵが出力態様のすべてを予め指定することができる構成とすることもできる。

また、上述の実施の形態では、育児支援ロボット１０から音声Ｖｒが出力される際の出態様を構成する要素として「内容」と「感情のパターン」とが挙げられているが、これら以外にも、例えば音声Ｖｒを出力するタイミング（間）や、出力される際のボリューム、速度等が含まれていてもよい。

また、上述の実施の形態では、ユーザＵａが育児支援ロボット１０の各種設定を行うための入力操作を、ユーザ端末５０にインストールされた専用アプリを利用して行っているが、これに限定されない。例えば育児支援ロボット１０に直接入力できるようにしてもよい。

また、上述の実施の形態では、ユーザＵａから発話された音声Ｖａの特徴量をなるべく維持した変換がなされる構成となっているが、ＡＩ（人工知能）をさらに活用することにより、ユーザＵａから発話された音声Ｖａの特徴量を大幅に変更する変換を行うこともできる。具体的には、ユーザＵｂのユーザ情報としてユーザＵｂのスケジュールが管理されるようにして、より詳細な情報を含む音声Ｖｒが育児支援ロボット１０から出力されるようにしてもよい。この場合、例えばユーザＵａからユーザＵｂに向けて「早くしなさい！」という音声Ｖａが発話された場合には、育児支援ロボット１０が、「８時までに家を出るから７時５０分までに着替えを済まそうね」といった詳細な情報を含む音声Ｖｒに変換して出力してもよい。

１…育児支援ロボットシステム、１０…育児支援ロボット、３１…音声取得部、３２…特定音声抽出部、３３…感情パターン推定部、３４…出力態様記憶部、３５…ユーザ情報取得部、３６…ユーザ情報記憶部、３７…出力態様受付部、３８…出力態様決定部、３９…変換部、４０…出力制御部、５０…ユーザ端末、７０…サーバ、７１…ユーザ情報取得部、７２…ユーザ情報記憶部、７３…ユーザ情報送信制御部、７４…出力態様受付部、７５…出力態様決定部、７６…出力態様送信制御部、９０…ネットワーク

Claims

第１ユーザの発話の音声に予め定められた特徴量の音声の部分が含まれることを検知して、当該音声の部分を抽出する抽出手段と、
前記抽出手段により抽出された前記音声の部分の前記特徴量に基づいて、前記第１ユーザの感情のパターンを推定する推定手段と、
前記推定手段により推定された前記感情のパターンに応じて、第２ユーザに向けて出力する音声の態様を決定する決定手段と、
を備えるロボット。
前記決定手段は、前記第２ユーザに向けて出力する前記音声の態様として、前記第１ユーザの発話と内容を同一とし、前記感情のパターンに変化を加えた音声を決定する、
請求項１に記載のロボット。
前記第１ユーザのポジティブな感情とネガティブな感情との各々に対応する、複数の前記音声の態様のパターンを予め記憶する記憶手段をさらに備え、
前記推定手段は、前記第１ユーザの感情のパターンの推定として、当該第１ユーザの感情のパターンが前記ポジティブな感情のパターンと前記ネガティブな感情のパターンとのうちいずれかにあてはまるかを推定し、
前記決定手段は、前記推定手段により推定された前記第１ユーザの感情のパターンに応じて、前記記憶手段に記憶されている複数の前記音声の態様のパターンのうち前記第２ユーザに向けて出力する音声の態様のパターンを選択して決定する、
請求項１に記載のロボット。
前記決定手段は、前記第２ユーザに向けて出力する音声の態様のパターンとして、前記推定手段による前記第１ユーザの感情のパターンの推定の結果にかかわらずポジティブな感情のパターンを選択して決定する、
請求項３に記載のロボット。
前記抽出手段は、前記第１ユーザの発話の音声のうち、予め定められた特徴量の音声の部分の前後の文脈の音声の部分をさらに抽出し、
前記推定手段は、前記抽出手段により抽出された前記予め定められた特徴量の音声の部分の前後の文脈の音声の部分の特徴量をさらに考慮して、前記第１ユーザの感情のパターンを推定する、
請求項１に記載のロボット。
第１ユーザの発話の音声に予め定められた特徴量の音声の部分が含まれることがロボットにより検知されると、当該音声の部分を抽出する抽出手段と、
前記抽出手段により抽出された前記音声の部分の前記特徴量に基づいて、前記第１ユーザの感情のパターンを推定する推定手段と、
前記推定手段により推定された前記感情のパターンに応じて、第２ユーザに向けて前記ロボットに出力させる音声の態様を決定する決定手段と、
前記決定手段により決定された前記音声の態様の音声を前記ロボットに出力させる制御を行う出力制御手段と、
を備えるロボットシステム。
前記決定手段は、前記第２ユーザに向けて出力させる前記音声の態様として、前記第１ユーザの発話と内容を同一とし、前記感情のパターンに変化を加えた音声を決定する、
請求項６に記載のロボットシステム。
前記第１ユーザのポジティブな感情とネガティブな感情との各々に対応する、複数の前記音声の態様のパターンを予め記憶する記憶手段をさらに備え、
前記推定手段は、前記第１ユーザの感情のパターンの推定として、当該第１ユーザの感情のパターンが前記ポジティブな感情のパターンと前記ネガティブな感情のパターンとのうちいずれかにあてはまるかを推定し、
前記決定手段は、前記推定手段により推定された前記第１ユーザの感情のパターンに応じて、前記記憶手段に記憶されている複数の前記音声の態様のパターンのうち前記第２ユーザに向けて出力させる音声の態様のパターンを選択して決定する、
請求項６に記載のロボットシステム。
前記決定手段は、前記第２ユーザに向けて出力させる音声の態様のパターンとして、前記推定手段による前記第１ユーザの感情のパターンの推定の結果にかかわらずポジティブな感情のパターンを選択して決定する、
請求項８に記載のロボットシステム。
前記抽出手段は、前記第１ユーザの発話の音声のうち、予め定められた特徴量の音声の部分の前後の文脈の音声の部分をさらに抽出し、
前記推定手段は、前記抽出手段により抽出された前記予め定められた特徴量の音声の部分の前後の文脈の音声の部分の特徴量をさらに考慮して、前記第１ユーザの感情のパターンを推定する、
請求項６に記載のロボットシステム。