JP2021121316A

JP2021121316A - パーソナルアシスタント制御システム

Info

Publication number: JP2021121316A
Application number: JP2021068595A
Authority: JP
Inventors: 康裕川内; Yasuhiro Kawauchi; 珠幾中村; Tamaki Nakamura; 理遠山; Osamu Toyama; 貴裕井上; Takahiro Inoue
Original assignee: Living Robot Inc
Current assignee: Living Robot Inc
Priority date: 2019-07-30
Filing date: 2021-04-14
Publication date: 2021-08-26
Anticipated expiration: 2039-07-30
Also published as: WO2021020490A1; TWI795663B; JP7350356B2; JP2021019966A; TW202112506A; JP6900058B2; US20220266161A1

Abstract

【課題】人の成長に合わせてロボット等がパートナーとしてユーザを適切にサポートすることが可能なパーソナルアシスタント制御システムを提供する。【解決手段】期間Ｔ１に利用され、第１センサ群から情報を取得する第１パーソナルアシスタント（ＰＡ１）と、期間Ｔ２に利用され、第２センサ群から情報を取得する第２パーソナルアシスタント（ＰＡ２）と、ＰＡ１及びＰＡ２と接続され、第１センサ群または第２センサ群から得た情報に基づいてユーザ３の状況を推定するサーバ５とを備え、サーバ５は、Ｔ１において第１センサ群から取得した情報に基づいて、ユーザ３に対する第三者の行為を抽出し、第三者の行為とユーザ３の状況とを関連付けて学習し、Ｔ２において第２センサ群で取得した情報から推定されたユーザ３の状況に基づいて、Ｔ１における第三者の行為の少なくとも一部を再現するようＰＡ２に対して指示を行う。【選択図】図１

Description

本発明は、ロボット等のパーソナルアシスタントを制御するパーソナルアシスタント制御システムに関し、特に人の成長に合わせて適切なサービスを提供するパーソナルアシスタント制御システムに関する。

これまでロボットは、主に生産の自動化等を目的としたいわゆる産業用ロボットが大半を占めていたが、昨今では受付／接客、製品紹介等といった不特定多数の人とのコミュニケーションを行うロボットが社会に導入され始めている。今後ロボットは、個人によって所有され、当該個人に対して適切なサービスを提供するために、パーソナルアシスタントとしての機能が強化されていくと考えられ、現在においては幼児向けや高齢者向けの見守りロボットの開発が進められている。

幼児向けの見守りロボットとして、例えばスマートフォン等を持たない小さな子ども（幼児）向けに親子間、友人間の音声チャットを実現するコミュニケーションロボットが知られている。他方、高齢者向けの見守りロボットについては、経済産業省と厚生労働省とが、ロボット技術の介護利用における重点分野として「見守り・コミュニケーション」を掲げ、具体的には重点分野として「介護施設において使用する、センサや外部通信機能を備えたロボット技術を用いた機器のプラットフォーム」、「高齢者等とのコミュニケーションにロボット技術を用いた生活支援機器」が挙げられている。

従来の見守り機器が単に見守り対象の状態を検知・通知するものであったのに対し、見守りロボットは見守り対象の状態を検知してアラートを通知するのみならず、見守り対象の状態を予測する点や、アラート発生時の状況を分析できるようになった点で改良されており、また見守りロボットをネットワークに接続することで、見守りと同時に見守り対象の行動や生活データを蓄積し、そのデータを活用することで、例えば高齢者向けの見守りにおいては、ケアプランの改善や介護の質の向上にも繋げることができるとされている。

パーソナルアシスタントとしてのロボットを提供する技術として、例えば、少なくとも１つのセンサ、通信ユニット及び出力装置に接続されたロボット装置又はプラットフォームを用いてパーソナルアシスタントを能動的且つ自動的に提供するコンピュータベースの方法であって、前記少なくとも１つのセンサを用いて、前記少なくとも１つのセンサの少なくとも１つの近くの少なくとも１人の人と関連した第１のデータを検出する工程と、前記少なくとも１つのセンサを用いて、前記少なくとも１つのセンサの少なくとも１つの近くの物体、生物、イベント、場所、環境又はこれらの組合せと関連した第２のデータを検出する工程と、前記プロセッサを用いて、学習データを、前記第１検出データ、前記第２検出データ、前記データベースに保存された予めプログラムされたアルゴリズム又はこれらの組合せに基づいてデータベースに選択的に保存する工程と、前記プロセッサと接続され又は通信可能な前記通信ユニット又は前記出力装置を用いて、第１出力データを、前記プロセッサによって受信された要求又は前記データベースに保存された所定の若しくは予定されたイベントに応じて受動的に出力する工程と、前記通信ユニット又は前記出力装置を用いて、第２出力データを、前記第１検出データ、前記第２検出データ、前記学習データ、前記予めプログラムされたアルゴリズム又はこれらの組合せに基づいて能動的且つ自動的に出力する工程と、を含むコンピュータベースの方法が知られている。（特許文献１）

特許文献１によれば、ユーザとユーザをとりまく環境に関するデータを検出及び処理するとともに、検出及び分析したデータに基づいて、ロボットプラットフォーム／装置を使用してパーソナルアシスタントを能動的且つ自動的に提供するための方法／システムを提供することができるとしている。

特開２０１４−１７６９６３号公報

しかしながら、特許文献１に記載された技術は、ユーザに対するリマインドの提供、医療機関での診察時のアドバイス、アルツハイマー病であるユーザのサポート、親／介護者の子供に対するペアレンタル・コントロールの支援、車椅子を利用するユーザの支援等の各シーンについてパーソナルアシスタントが介在する状況については開示されているものの、人の成長とともにパーソナルアシスタントとしてのロボットが入れ替わった際における、具体的なパーソナルアシスタントの制御態様については何ら開示されていない。

即ち、幼児が成人に成長する過程や成人後に徐々に高齢化していく過程は日々連続的な事象であるが、他方ロボット等のパーソナルアシスタントは人の成長や高齢化におけるある時点において、ユーザ等の購入等の行為によってドラスティックに入れ替わるのが通常であると考えられる。特許文献１に記載された技術は、このようなパーソナルアシスタントのドラスティックな入れ替わりが生じた場合に、ロボットを含むシステムにおいてどのような処理が実行されるべきであるかについては言及されていない。

本発明は、このような従来技術の課題を解決するべく案出されたものであり、人の成長とともにロボット等のパーソナルアシスタントが入れ替わったとしても、パーソナルアシスタントが単なる道具ではなく、人の成長に合わせてパートナーとしてユーザを適切にサポートすることが可能なパーソナルアシスタント制御システムを提供することにある。

前記課題を解決するためになされた本発明は、ユーザによって第１の期間に利用され、複数のセンサを含む第１のセンサ群から情報を取得する第１のパーソナルアシスタントと、前記ユーザによって第２の期間に利用され、複数のセンサを含む第２のセンサ群から情報を取得する第２のパーソナルアシスタントと、前記第１のパーソナルアシスタント及び前記第２のパーソナルアシスタントとネットワークを介して接続され、前記第１のセンサ群または前記第２のセンサ群から取得した情報に基づいて前記ユーザの状況を推定するサーバとを備え、前記サーバは、前記第１の期間において、前記第１のセンサ群から取得した情報に基づいて、前記ユーザに対する第三者の行為を抽出し、前記第三者の行為と前記第１のセンサ群で取得した情報に基づく前記ユーザの状況とを関連付けて学習し、前記第２の期間において、前記第２のセンサ群で取得した情報から推定された前記ユーザの状況に基づいて、前記第１の期間における前記第三者の行為の少なくとも一部を再現するよう、前記第２のパーソナルアシスタントに対して指示を行うパーソナルアシスタント制御システムである。

これによって、第２の期間においては、第２のセンサ群で取得された情報に基づいてユーザの状況を示す指標が導出される。そして、導出された指標に基づいて、第１の期間において学習された第三者の行為（例えば、ユーザに対する語りかけ）が再現される。

例えば第１の期間において第三者としての母親の「〇〇ちゃん、可愛いよ」との語りかけにより、ユーザが「興奮している」から「おちついている」、「笑っている」に変化した場合が多いほど、第２の期間においてユーザが「興奮している」状況においては、蓄積された音情報のうち、母親の「〇〇ちゃん、可愛いよ」の発声行為が再生・再現される確率が高くなる。この機能は、特にユーザの近くに第三者が不在であるときに、例えばユーザが泣き出したようなシーンにおいて、有効に機能する。

また、本発明は、前記第１のセンサ群及び前記第２のセンサ群には、共通の属性を取得する共通センサと、前記共通センサ以外の非共通センサとが含まれ、前記第１の期間及び前記第２の期間において、前記サーバは、前記共通センサの出力と前記非共通センサの出力とを参照して、前記ユーザの状況を示す共通の指標を導出するものである。

これによって、共通する指標（感性指標）を用いることで、例えばユーザが乳児のときに学習された応答内容を、その後ユーザが幼児に成長したときにおいても活用できるようになる。

このように本発明によれば、人の成長とともにロボット等のパーソナルアシスタントが入れ替わったとしても、パーソナルアシスタントが単なる道具ではなく、人の成長に合わせてパートナーとしてユーザを適切にサポートすることが可能となる。

本発明の第１実施形態における第１の期間Ｔ１及び第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図（ａ）〜（ｄ）は、本発明の第１実施形態における第１の期間Ｔ１、第２の期間Ｔ２、第３の期間Ｔ３、第４の期間Ｔ４の関係を示す説明図本発明の第１実施形態における第１の期間Ｔ１におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図本発明の第１実施形態における第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図第１実施形態の第１変形例における第１の期間Ｔ１及び第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図第１実施形態の第１変形例における第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図第１実施形態の第２変形例における第１の期間Ｔ１及び第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図第１実施形態の第２変形例における第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図本発明の第２実施形態における第１の期間Ｔ１及びプレ期間Ｔ０におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図（ａ），（ｂ）は、本発明の第２実施形態におけるプレ期間Ｔ０、第１の期間Ｔ１、第２の期間Ｔ２、第３の期間Ｔ３、第４の期間Ｔ４の関係を示す説明図本発明の第２実施形態におけるプレ期間Ｔ０におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図本発明の第２実施形態の変形例における第１の期間Ｔ１及びプレ期間Ｔ０におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図

（第１実施形態）
以下、本発明の第１実施形態について図面を参照して説明する。

図１は、本発明の第１実施形態における第１の期間Ｔ１及び第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図である。

図１に示すように、パーソナルアシスタント制御システムＳ１には、第１のパーソナルアシスタント（以降、簡略化して「第１のＰＡ１」と称することがある。）と、第２のパーソナルアシスタント（以降、簡略化して「第２のＰＡ２」と称することがある。また、第１のＰＡ１と第２のＰＡ２とを区別しないときは、単に「ＰＡ」と称することがある。）と、第１のＰＡ１及び第２のＰＡ２が接続されたネットワーク４と、ネットワーク４と接続されたサーバ５と、ネットワーク４に接続された情報端末６とが含まれている。

ここでＰＡとしては、例えばロボットが好適に用いられる。なおＰＡは、少なくともユーザ３との間で何らかの相互作用（インタラクション）が可能に構成されていればよく、アーム等の変位機構や移動機構の有無は問わない。また移動機構を備える場合、当該移動機構は、二足歩行機構や車輪等で構成されていてもよいし、例えばドローンのように空中を移動可能に構成されていてもよい。

図１において、第１のＰＡ１は第１の期間Ｔ１においてユーザ３に利用され、また第２のＰＡ２は第２の期間Ｔ２において同一のユーザ３に利用される。第１実施形態においては、第１の期間Ｔ１としてユーザ３が乳児（例えば０歳〜満一歳）〜幼児前半（例えば一歳〜二歳）の期間を、第２の期間Ｔ２としてユーザ３が幼児後半（例えば三歳〜小学校就学前）の期間を想定している。

各ＰＡが利用される期間におけるユーザ３の発達の程度を考慮し、第１の期間Ｔ１に利用される第１のＰＡ１は例えば小動物をデフォルメした外観を備え、第１の期間Ｔ１におけるユーザ３が親近感・安心感を持つように構成されている。他方、第２の期間Ｔ２に利用される第２のＰＡ２は、第１の期間Ｔ１から成長したユーザ３に合わせて、より機能性が重視された構成を備える。即ち、第２のＰＡ２は、例えばディスプレイ１ｕを備え、ユーザ３に対して視覚的な情報を提供できるように構成される。

なお、後述するように、第１の期間Ｔ１と第２の期間Ｔ２とは時系列に重なっていてもよく、第１の期間Ｔ１と第２の期間Ｔ２とが時系列に離間していてもよい。即ち、図１には第１のＰＡ１及び第２のＰＡ２の双方が記載されているが、パーソナルアシスタント制御システムＳ１には、ユーザ３の成長に伴って第１のＰＡ１または第２のＰＡ２のいずれか一方のみが含まれる状態もあり得る。

第１のＰＡ１は後述する第１のセンサ群４１（図３参照）から種々の情報を取得し、少なくともその一部はネットワーク４を介してサーバ５に送信される。サーバ５は受信した第１のセンサ群４１の出力に基づいてユーザ３の状況を推定する。

サーバ５は推定したユーザ３の状況に基づいて、ネットワーク４を介して第１のＰＡ１に対して制御指令を出力する。これを受信した第１のＰＡ１は、例えばユーザ３が泣いているような状況では、ユーザ３の気持ちを穏やかにするような音声等を出力する。そしてこの音声等に対するユーザ３の反応や応答が第１のセンサ群４１によって取得され、この情報もサーバ５に送信される。このようにしてユーザ３と第１のＰＡ１の間でインタラクションが図られる。サーバ５は、例えばユーザ３の状況に応じて、どのように応答すればユーザ３がより穏やかになるかを学習し、次に同様の状況がユーザ３に生じた場合は、学習結果に基づいて適切に応答するようになる。

第２のＰＡ２は後述する第２のセンサ群４２（図４参照）から種々の情報を取得し、少なくともその一部はネットワーク４を介してサーバ５に送信される。サーバ５は受信した第２のセンサ群４２の出力に基づいてユーザ３の状況を推定する。ユーザ３が成長して第２の期間Ｔ２を迎えた際に、第１の期間Ｔ１で獲得した学習結果は第２のＰＡ２とユーザ３とのインタラクションにおいて継承して利用される。第２の期間Ｔ２では、ユーザ３の言語能力は大幅に向上していることから、この期間においては、ユーザ３と第２のＰＡ２の間では、主に言語を介したインタラクション（双方向の会話）が図られる。

なお、図１において情報端末６はスマートフォン、タブレット、スマートウォッチ、パーソナルコンピュータ等であり、例えばユーザ３の母親としての第三者１５に所持されている。サーバ５は第１のＰＡ１あるいは第２のＰＡ２から得た情報に基づいて推測したユーザ３の状況やユーザ３の置かれた環境に関する情報を情報端末６に送信し、第三者１５はユーザ３と離れていても、ユーザ３の状況や周囲の環境を把握することができる。そして第三者１５は、例えば情報端末６に音声を入力することで、当該音声がＰＡにて再現される。

また、図１においてバイタルセンサ７は、例えばリストバンド形状とされてユーザ３の手首等に装着される。

図２（ａ）〜（ｄ）は、本発明の第１実施形態における第１の期間Ｔ１、第２の期間Ｔ２、第３の期間Ｔ３、第４の期間Ｔ４の関係を示す説明図である。上述したように、第１実施形態では、第１のＰＡ１が利用される第１の期間Ｔ１としてユーザ３が乳児〜幼児前半の期間を、第２のＰＡ２が利用される第２の期間Ｔ２としてユーザ３が幼児後半の期間を想定している。即ち、第１の期間Ｔ１は、第２の期間Ｔ２よりも過去を含む期間である。

図２（ａ）〜（ｄ）に示すように、第１の期間Ｔ１及び第４の期間Ｔ４はユーザ３が出生してから所定時間経過した後を始期としているが、もちろん第１の期間Ｔ１及び第４の期間Ｔ４は、ユーザ３が出生した時点が始期であってもよい。このように第１の期間Ｔ１及び第４の期間Ｔ４の始期が変化するのは、例えばユーザ３の保護者（第三者１５）が、どのタイミングで第１のＰＡ１を導入するか（購入して利用に供するか）に依存するためである。

図２（ａ）に示すように、時間軸Ｔ方向に第１の期間Ｔ１と第２の期間Ｔ２とが分断していてもよい。このケースは、第１のＰＡ１の利用が終了して、しばらく時間をおいて第２のＰＡ２の利用が開始されたことを示す。

また、図２（ｂ）に示すように、第１の期間Ｔ１の終期と第２の期間Ｔ２の始期とが同時であってもよい。このケースは、第２のＰＡ２が購入された時点で第１のＰＡ１の利用を停止したことを示す。

また、図２（ｃ）、（ｄ）に示すように、第１の期間Ｔ１の後半の一部と第２の期間Ｔ２の前半の一部とが重畳していてもよい。このケースは、第１のＰＡ１を利用しながら、更に第２のＰＡ２も同時に利用していることを示す。

ここで、第３の期間Ｔ３は、第１の期間Ｔ１と第２の期間Ｔ２とを跨ぐ期間をいい、図２（ａ）に示すように、第３の期間Ｔ３において、第１の期間Ｔ１と第２の期間Ｔ２とが時系列に離間していてもよく、図２（ｂ）に示すように、第３の期間Ｔ３において、第１の期間Ｔ１の終期と第２の期間Ｔ２の始期とが一致していてもよく、図２（ｃ）、図２（ｄ）に示すように、第３の期間Ｔ３において、第１の期間Ｔ１の後半と第２の期間Ｔ２の前半とが重畳してもよく、更に図２（ｄ）に示すように、第３の期間Ｔ３の終期が第２の期間Ｔ２の終期と一致していてもよい。

また、図２（ａ）〜（ｄ）に示すように、第４の期間Ｔ４は、第１の期間Ｔ１のうち第３の期間Ｔ３に含まれない期間をいう。即ち、第４の期間Ｔ４は、第３の期間Ｔ３よりも過去の期間である。以降、詳細に説明するように、第１実施形態では、これら第１の期間Ｔ１、第２の期間Ｔ２、第３の期間Ｔ３、第４の期間Ｔ４の各期間に応じて、サーバ５は、ユーザ３の状況を推定する際に参照するセンサの種類（組み合わせ）を変えていく。

図３は、本発明の第１実施形態における第１の期間Ｔ１におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図である。パーソナルアシスタント制御システムＳ１は、少なくとも第１のＰＡ１と、サーバ５とで構成され、第１のＰＡ１とサーバ５とはネットワーク４を介して接続されている。更にパーソナルアシスタント制御システムＳ１は、情報端末６、バイタルセンサ７を含んでいてもよい。

以降、第１のＰＡ１について説明する。第１のＰＡ１は、環境センサ５０と、第１のセンサ群４１と、出力インタフェース５３と、入力部１ｋと、第１のＰＡ１とネットワーク４を接続し、サーバ５と情報の入出力を行うＰＡネットワークインタフェース１ｐと、ＰＡ制御部１ｖとを備える。

これらの各構成要素及び後述する第１のセンサ群４１を構成する種々のセンサ（またはその出力（ここではアナログ信号）をＡ／Ｄ変換する変換モジュール）は図示しないバスで結合されている。ＰＡ制御部１ｖは、例えばＲＯＭ（Read Only Memory）やＲＡＭ（Random access memory）等で構成されるＰＡ記憶部１ｑと、例えばＣＰＵ（Central Processing Unit）等で構成されるＰＡ演算部１ｓとを備える。ＰＡ演算部１ｓは、ＰＡ記憶部１ｑに記憶されたプログラムに基づき、第１のセンサ群４１から取得した情報を、ＰＡネットワークインタフェース１ｐを制御してサーバ５に送信し、逆にサーバ５から送信されたコマンド等に基づいて、出力インタフェース５３を制御する。

なお、ＰＡ記憶部１ｑには、第１のＰＡ１を特定するコード情報、ユーザＩＤ及びユーザ３の個人情報として、例えば生年月日、氏名、愛称等が記憶されている。ユーザ３の個人情報は、例えばユーザ３の保護者等の第三者１５が情報端末６を操作・入力することで、情報端末６から第１のＰＡ１にネットワーク４を介して送信され、第１のＰＡ１は個人情報を受信すると、これをＰＡ記憶部１ｑに格納するとともに、予めＰＡ記憶部１ｑに格納されていたコード情報と合わせてサーバ５に送信する。サーバ５はこれらを受信すると、ユニークな識別子としてのユーザＩＤを発行し、情報端末６から送信された第１のＰＡ１のコード情報とユーザＩＤと個人情報とを関連付けてデータベース５ｋに格納する。そしてサーバ５は生成したユーザＩＤを第１のＰＡ１に送信する。第１のＰＡ１は受信したユーザＩＤをＰＡ記憶部１ｑに格納する。このユーザＩＤは、例えばサーバ５のデータベース５ｋを検索するときの検索キーとして使用される。

以降、環境センサ５０について説明する。第１のＰＡ１には、焦電センサやイメージセンサ等で構成される人感センサ１ａ、光学フィルタを内蔵したフォトトランジスタ等で構成される照度センサ１ｂ、測温抵抗体等で構成される温度センサ１ｃ、湿度の変化に応じた抵抗値や静電容量の変化を検出する湿度センサ１ｄが環境情報を計測するいわゆる環境センサ５０として設けられ、ユーザ３が置かれた環境に関する情報を計測する。

ここで、人感センサ１ａとしては、人の位置と数を検出可能ないわゆる画像型のセンサが好適に用いられる。人感センサ１ａは、第１のＰＡ１の近傍にユーザ３（図１参照）が存すること、あるいは第三者１５（あるいは第三者１５以外の他者）が存することを検出する。なお、第１実施形態において人感センサ１ａは第１のＰＡ１に内蔵されているが、画像型センサの場合は、第１のＰＡ１とは別体として、例えば天井に設けられて、人の位置と数を計測した結果を無線で第１のＰＡ１に送信する構成としてもよい。照度センサ１ｂは第１のＰＡ１が置かれた環境（通常はユーザ３の置かれた環境でもある）の照度を検出する。温度センサ１ｃは第１のＰＡ１が置かれた環境の温度を、湿度センサ１ｄは第１のＰＡ１が置かれた環境の湿度を検出する。これら環境センサ５０の出力はサーバ５に送信される。

次に、第１のセンサ群４１について説明する。第１のセンサ群４１のうち、イメージセンサ等で構成されるカメラ１ｅ、音を取得するセンサとしてのマイクロフォン１ｆ、匂いセンサ１ｇ、圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊ、バイタルセンサ７は、ユーザ３の状況を検出するセンサとして用いられる。

第１の期間Ｔ１において、通常、第１のＰＡ１はユーザ３が置かれたベビーベッド等の近傍に配置される。この態様において、カメラ１ｅは主に被写体としてのユーザ３を撮影する。カメラ１ｅは動画あるいは静止画を撮像し、撮像された画像はサーバ５に送信される。画像が静止画の場合、撮像するタイミングは任意に定めることができる。例えば、定期的に撮像を行ってもよく、またマイクロフォン１ｆで所定の音圧を超える音が検出された場合（例えば、ユーザ３が泣き出したようなケース）に撮像を行ってもよく、カメラ１ｅの出力に基づいてユーザ３の笑顔を検出した際に撮像を行ってもよい。また、ＰＡ制御部１ｖは取得した画像に基づいてユーザ３の位置を検出してもよく、またアクチュエータ１ｏとしてカメラ１ｅのパン・チルト機能、あるいは少なくとも第１のＰＡ１を平面内で回転させる機構を備えていてもよく、ＰＡ制御部１ｖは撮像された画像に基づいてユーザ３の位置をトレースし、カメラ１ｅの撮像範囲にユーザ３が含まれるようアクチュエータ１ｏを制御してもよい。

マイクロフォン１ｆは、主にユーザ３が発した音声を取得する。取得された音情報はディジタル化された状態で定期的にサーバ５に送信されてもよく、あるいはＰＡ制御部１ｖにて取得した音声等の音圧が所定の値を超えたと判断した場合にのみ送信してもよい。またＰＡ制御部１ｖが周波数解析機能を具備する場合は、所定の周波数を含む音情報のみを送信してもよい。

匂いセンサ１ｇは、例えば金属酸化物半導体の表面に特定の匂い分子が吸着することで半導体の抵抗値が下がる現象を応用したセンサである。通常、匂いセンサ１ｇは環境センサ５０として利用されることも多いが、上述したように、第１の期間Ｔ１はユーザ３が乳児の時期を想定しており、ここでは乳児の排尿や排便に基づく臭気を検出する観点で、匂いセンサ１ｇはユーザ３の状況を検出するセンサに包含されるものとする。ＰＡ制御部１ｖは、匂いセンサ１ｇの出力を直接的にサーバ５に送ってもよいし、当該出力が所定の値より大きくなった場合に、ユーザ３が排尿あるいは排便したと判断し、その旨をサーバ５に送信してもよい。

圧力センサ１ｈは、例えばダイヤフラムの表面に形成した半導体ひずみゲージの変形を検出する。圧力センサ１ｈはユーザ３が第１のＰＡ１を腕に抱えたり、抱きかかえたりする状況、あるいは第１のＰＡ１に対するユーザ３の取り扱い方（大切に取り扱っているか、乱暴に取り扱っているか等）、即ち、第１のＰＡ１に対するユーザ３の直接的な行動を検出する。ＰＡ制御部１ｖは、例えば圧力センサ１ｈの出力が所定の値を超えた場合に、当該値をサーバ５に送信する。なお、圧力センサ１ｈがユーザ３の行動に直接的に起因する値を計測する観点において、圧力センサ１ｈは第１のＰＡ１に複数個設けられていてもよい。

加速度センサ１ｉは、例えばＭＥＭＳ技術を用いて静電容量変化を検出する（３軸）。また、角速度センサ１ｊは、例えばコリオリ力を検出する（３軸）。加速度センサ１ｉ及び角速度センサ１ｊは、圧力センサ１ｈと同様に第１のＰＡ１に対するユーザ３の直接的な行動を検出する。

バイタルセンサ７は、例えばリストバンド形状に構成されている（図１参照）。バイタルセンサ７は例えば近赤外光の受発光素子を備えており、ユーザ３の手首等に装着されて脈波等を計測する。もちろん、バイタルセンサ７を用いて脈波のみならず、ユーザ３のリストバンド装着部位の体温を計測してもよい。また、バイタルセンサ７が加速度や角速度の計測が可能な場合、これらを計測してもよい。また、脈波に関しては、上述したカメラ１ｅでユーザ３の顔画像等を動画として撮像し、撮像した画像（特にＧチャネルの出力）を用いてユーザ３の脈波を計測してもよい。

なお第１実施形態においては、第１のセンサ群４１のうち、バイタルセンサ７以外は第１のＰＡ１に内蔵されている。第１のＰＡ１の外部に存するバイタルセンサ７は、ＢＬＥ等の無線によって第１のＰＡ１と接続され、脈波の計測結果は第１のＰＡ１を介してサーバ５に送信される。なお、第１のセンサ群４１で取得された情報は、後述する学習モデルの入力に供されることから、第１のセンサ群４１からの情報の取得にあたっては同期が図られる。もちろん当該同期のトリガは特に限定される必要はなく、情報は周期的に取得されてもよいし、例えばマイクロフォン１ｆの出力が所定の値よりも大きくなった状態をトリガとして取得されてもよい。

次に入力部１ｋについて説明する。入力部１ｋは、例えば第１のＰＡ１の所定位置に設けられ外部からのタッチや押圧を検出する。入力部１ｋの用途としては、ユーザ３（ここでは、幼児）に接する第三者１５が、ユーザ３の状況を判断し、例えば「落ち着いている」、「いらいらしている」等のユーザ３の状況（後述する「感性指標」に対応する）を入力する。入力部１ｋとして、これらユーザ３の種々の状況に対応した押圧スイッチを複数設けてもよいし、所定の項目を選択した上で確定する方式の入力インタフェースを構成してもよい。

次に、出力インタフェース５３（第１のユーザインタフェース）について説明する。伝達部１ｌは、第１のＰＡ１の表面の一部に設けられた例えば柔軟性を備えるポリプロピレン（ＰＰ）等で構成される膜状部材である。幼児前半の期間におけるユーザ３を想定したとき、例えばユーザ３が第１のＰＡ１を抱きかかえた際に、伝達部１ｌを介して母親の心臓の鼓動を模した比較的低周波の振動を伝達することで、ユーザ３をよりリラックスした状態に導くことが可能である。

また出力インタフェース５３には、音声等を出力するスピーカ１ｍ、第１のＰＡ１の目視しやすい部位に設けられ例えばＬＥＤ（Light Emitting Diode）やＯＬＥＤ（Organic Light Emitting Diode）で構成された発光部１ｎ、第１のＰＡ１に所定の機械的動作を行わせるアクチュエータ１ｏ（この一種としてのバイブレータ）の少なくとも一つが含まれる。これらは、ネットワーク４を介してサーバ５から送信された情報及び指示に基づいて駆動される。

次にサーバ５について説明する。サーバ５は、ネットワーク４を介して第１のＰＡ１、情報端末６と情報の入出力を行うサーバネットワークインタフェース５ａと、サーバ制御部５ｎを備える。サーバ制御部５ｎは、例えばＲＯＭやＲＡＭ等で構成されるサーバ記憶部５ｂと、例えばＣＰＵ等で構成されるサーバ演算部５ｃとを備える。サーバ演算部５ｃは、サーバ記憶部５ｂに記憶されたプログラム等に基づき、サーバ５の他の構成要素を制御する。

更にサーバ５は、画像認識部５ｄ、音声認識部５ｅ、話者解析部５ｆ、ユーザ状況推定部５ｇ、バイタルデータ解析部５ｈ、ＰＡ指令生成部５ｉ、ユーザ成熟度判定部５ｊ、データベース５ｋ、ユーザ行動範囲認識部５ｍを含む。

画像認識部５ｄは、第１のＰＡ１から送信された画像情報からユーザ３の顔領域を抽出し、所定の特徴量を抽出する。音声認識部５ｅは、第１のＰＡ１から送信された音情報から「音素」を抽出し、テキストに変換したうえで語彙情報を特定する。話者解析部５ｆは音情報に対して例えば周波数分析を行って、少なくとも話者としてのユーザ３と第三者１５（母親以外を含んでもよい）とを区別する。バイタルデータ解析部５ｈは、第１のＰＡ１から送信されたユーザ３の脈波情報等に基づき、ユーザ３の体調等を推定する。ＰＡ指令生成部５ｉは、サーバ制御部５ｎの指示に基づき第１のＰＡ１に対する所定のコマンド等を生成して送信する。ユーザ成熟度判定部５ｊは、特に音声認識部５ｅが認識した語彙数、単語の難易度、認識の確からしさの程度を判定する。データベース５ｋはいわゆる大容量ストレージで構成されている。

データベース５ｋには上述したように、第１のＰＡ１からサーバ５に送信されたユーザＩＤ及びユーザ３の個人情報が記憶されている。またデータベース５ｋには予め一通りの学習が完了した学習モデルが格納されている。ユーザ状況推定部５ｇは、第１のセンサ群４１で取得された情報を当該学習モデルに入力して（以下に示すように、一部は特徴量等に変換された情報が入力される）、学習モデルの出力として所定の指標（感性指標）を導出する。ここで学習モデルとしては、例えばパターン認識モデルであるＳＶＭ（Support Vector Machine）が好適に応用できる。もちろん深層学習によって、複数の感性指標に対して各々学習を施されたモデルを適用してもよい。

この学習モデルに対して入力されるのは、例えば、カメラ１ｅで取得されたカメラ画像（静止画が望ましく、動画の場合は静止画がキャプチャされる）に基づき画像認識部５ｄが生成した特徴量、マイクロフォン１ｆで取得された音情報に基づく声のトーンや音声認識部５ｅが生成した語彙情報、匂いセンサ１ｇで取得された匂い情報（特に排尿や排便に関連する匂い）、ユーザ３の第１のＰＡ１に対する直接的に行動によって圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊで取得された情報である。もちろん、これと併せてバイタルデータ解析部５ｈの出力が入力されてもよい。

ここで感性指標とはユーザ３の状況を示す指標であり、「笑っている」、「怒っている」、「泣いている」といった表情に現れやすい状況、「落ち着いている」、「いらいらしている」、「興奮している」、「安静にしている」、「集中している」といった内面的な状況が同時に含まれうる、ユーザ状況推定部５ｇは学習モデルを適用して、「泣いている」、「興奮している」のように複数の側面において感性指標を導出する。そして、この感性指標の組み合わせによってユーザ３の状況が推定される。このように、第１実施形態においては、学習モデルは一群の入力に対して複数の感性指標を出力するが、もちろん感性指標は単一であってもよい。

また、感性指標は、ユーザ３の置かれた環境によっても影響をうけることから、学習モデルを構築（学習）する際に、環境センサ５０で取得した情報が参照されてもよい。このとき学習済みの学習モデルの入力には、環境センサ５０から取得された情報も含まれることとなる。また同様に、感性指標は、ユーザ３の体調や健康に関連する肉体的あるいは身体的なコンディションによっても影響を受けることから、バイタルセンサ７で取得され、あるいはカメラ１ｅで撮像された画像を用いた脈波情報に基づく値が加味されてもよい。このとき、サーバ５はバイタルセンサ７から得られた脈波の計測結果を参照してユーザ３のストレス度合い等を計測して、これをユーザ状況推定部５ｇの入力として用いてもよい。

ユーザ状況推定部５ｇは導出した感性指標をサーバ制御部５ｎに送信する。感性指標を受信したサーバ制御部５ｎは、ＰＡ指令生成部５ｉに対して、例えばユーザ３が「興奮している」かつ「泣いている」状況においては、過去に学習した（あるいは当初に学習済みの）応答内容のうち、ユーザ３を「興奮している」かつ「泣いている」状況から「落ち着いている」状況に変化させた際の応答内容である音楽や音声（例えば母親の言葉）を抽出するよう指示を行い、これを受けてＰＡ指令生成部５ｉは、データベース５ｋを検索して適切と推定されるコンテンツデータを選定し、音声による再生指示を第１のＰＡ１に対して出力する。もちろん予め感性指標と第１のＰＡ１の発光部１ｎの発光パターンや、アクチュエータ１ｏ（バイブレータ）を駆動することによる第１のＰＡ１の動作パターンの間に、何らかの相関（ここでは、例えばユーザ３をリラックスさせる効果）があるのであれば、音声のみならず、発光部１ｎの発光パターンや第１のＰＡ１の動作パターン（振動パターン）に関する再生指示を出力してもよい。

このようにすることで、第１のセンサ群４１の出力に基づいて導出された感性指標を用いて、第１のＰＡ１とユーザ３との間にインタラクションが発生する。例えば、バイタルセンサ７で取得した所定時間における脈波の数（即ち心拍数）が通常よりも多く、ユーザ３が第１のＰＡ１を叩いたり投げ飛ばしたりする行為が検出された場合（このとき圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊの出力が大きく変動する）、ユーザ状況推定部５ｇは、例えばユーザ３が「イライラしている」と判断する。これに基づいてサーバ制御部５ｎは、複数の応答候補のうちから、例えば母親の言葉「〇〇ちゃん、よしよし。おりこうさん」を再生することが最も効果的だと判断して、ＰＡ指令生成部５ｉに対して、当該コンテンツを再生する指示を第１のＰＡ１に送信するよう指令を行い、ＰＡ指令生成部５ｉは当該指令に基づき、第１のＰＡ１に所定のコマンドとコンテンツに関するデータを送信する。

このようにして第１のＰＡ１で再生される、音、発光ないし動作パターンによって、ユーザ３には新たな感情及び行動の変化が生じる。当該感情及び行動の変化は、第１のセンサ群４１によって取得され、サーバ５に送信されて新たな感性指標が導出される。例えば「いらいらしている」という感情指標に改善が見られないとき、サーバ制御部５ｎは効果的と考えられるコンテンツのうち、他の候補の使用を指令し、ユーザ３と第１のＰＡ１とのインタラクションが継続される。そしてこのインタラクションを通じて、サーバ制御部５ｎは、感情指標に対して応答すべきコンテンツのプライオリティを修正する。この応答内容はデータベース５ｋに蓄積され、感性指標と応答内容との関連が学習される。

このように第１実施形態においては、サーバ５は、第１の期間Ｔ１（上述したように第２の期間Ｔ２よりも過去を含む期間）においては、第１のセンサ群４１から取得した情報に基づいてユーザ３の状況（感性指標）を推定し、推定したユーザ３の状況に基づいて、第１のＰＡ１に設けられた第１のユーザインタフェース（ここでは例えば出力インタフェース５３に含まれるスピーカ１ｍ）を介してユーザ３に応答するとともに、この応答内容とユーザ３の状況（感性指標）とを関連付けて学習する。更に後述するように、第２の期間Ｔ２においては、第２のＰＡ２に設けられた第２のセンサ群４２から取得した情報に基づいてユーザ３の状況を推定し、推定したユーザ３の状況に基づいて、第１の期間Ｔ１において学習された応答内容を参照し、第２のＰＡ２に設けられた第２のユーザインタフェース（例えば、スピーカ１ｍやディスプレイ１ｕ（図４参照））を介してユーザ３に応答する。

ここで重要なのは、第１の期間Ｔ１において情報を取得する第１のセンサ群４１と、第２の期間Ｔ２において情報を取得する第２のセンサ群４２とには異なるセンサが含まれているが、ユーザ状況推定部５ｇは、異なるセンサから取得された情報が入力として含まれる場合であっても、ユーザ３の状況を共通の指標である感性指標として導出する点である。この共通する感性指標を用いることで、ユーザ３が乳児のときに学習された応答内容を、その後ユーザ３が幼児に成長したときにおいても活用できるようになる。

なお、第１のセンサ群４１の出力と応答すべきコンテンツを直接的に関連付けて学習することも可能である。ただしこの場合、学習モデルのブラックボックス化の度合いが大きくなる。第１のセンサ群４１の出力と、出力すべきコンテンツの間にユーザ３の年代に依存しない共通指標としての「感性指標」を設けることで、ブラックボックス化は最低限に留められ、ユーザ３の年代に問わず適切なサポートを行うことが可能となる。

また、第１のＰＡ１に設けられた入力部１ｋに対する入力結果（第三者１５が抱く主観的なユーザ３の状況）と、ユーザ状況推定部５ｇが推定した感性指標との間に乖離がある場合は、上述した学習モデルの再トレーニングや追加学習を行うことで、乖離を小さくすることが可能である。

また、データベース５ｋには、カメラ１ｅで撮像された画像情報が、撮像年月日、撮像時刻、感性指標とともに蓄積（アーカイブ）される。もちろん撮像時に得られた他の第１のセンサ群４１に基づく情報が画像情報と関連付けて蓄積されてもよい。

更に、データベース５ｋには、マイクロフォン１ｆで収録された音情報が、収録年月日、収録時刻、感性指標とともに蓄積されてもよい。もちろん収録時に得られた他の第１のセンサ群４１に基づく情報が音情報と関連付けて蓄積されてもよく、例えば異常音が検出されたようなケースでは、検出時の過去数十秒に遡って画像情報を蓄積するようにしてもよい。

これら蓄積された画像情報や音情報は、ユーザ３または第三者１５が、後に第１のＰＡ１や情報端末６に対して音声等にて指示することで再生が可能とされている。例えばユーザ３は成人に達した後に「私が３歳のころ、笑っている写真が見たい」とリクエストを行うことができる。サーバ５の音声認識部５ｅは当該リクエストを解釈し、サーバ制御部５ｎは年代に感性指標をキーとして加えてデータベース５ｋを検索し、例えば情報端末６にユーザ３が所望する情報を送信する。

また、サーバ制御部５ｎは、第１のＰＡ１の環境センサ５０（人感センサ１ａ）の計測結果及び話者解析部５ｆの解析結果に基づいて、例えば第三者１５（ここでは母親）とユーザ３とのインタラクションを検出する。第三者１５がユーザ３に語りかけたときの音声は音情報としてデータベース５ｋに蓄積されるとともに、音声認識部５ｅで語彙として抽出され、更にそのときのユーザ３の感性指標が取得される。このインタラクションの状況もデータベース５ｋに蓄積され、第三者１５の行為（ここでは語りかけ）と第１のセンサ群４１で取得した情報に基づく前記ユーザ３の状況（感性指標）とが関連付けられて学習される。

この学習によって、例えば母親の「〇〇ちゃん、可愛いよ」との語りかけにより、ユーザ３の感性指標が「興奮している」から「おちついている」、「笑っている」に変化した場合が多いほど、ユーザ３の感性指標が「興奮している」となった状況においては、データベース５ｋに蓄積された音情報のうち、母親の「〇〇ちゃん、可愛いよ」の発声行為が第１のＰＡ１で再生・再現される確率が高くなる。この機能は、特にユーザ３の近くに第三者１５が不在であるときに、例えばユーザ３が泣き出したようなシーンにおいて、有効に機能する。

このように、第１実施形態においては、サーバ５は、第１の期間Ｔ１において、第１のセンサ群４１から取得した情報に基づいて、ユーザ３に対する第三者１５の行為（例えば語りかけ）を抽出し、第三者１５の行為と第１のセンサ群４１で取得した情報に基づくユーザ３の状況（感性指標）とを関連付けて学習する。後に説明するように、第２の期間Ｔ２においては、第２のセンサ群４２で取得した情報から推定されたユーザ３の状況に基づいて、第１の期間Ｔ１における第三者１５の行為の少なくとも一部を再現するよう、第２のＰＡ２に対して指示が行われる。

なお、第三者１５とユーザ３とのインタラクションは上述した直接的なものに限定されない。第１実施形態では、環境センサ５０で取得された情報、カメラ１ｅで撮像された画像情報、マイクロフォン１ｆで収録された音情報等は、ネットワーク４を介してサーバ５に送信され、サーバ５はこれらの情報を第三者１５の所持する情報端末６に送信することが可能である。このとき上述した感性指標が同時に送信されてもよい。更にサーバ５は、情報端末６に備えられた第２のマイクロフォン（図示せず）で収録された音情報を受信して、ＰＡ指令生成部５ｉを介して音声の再生指示を１のＰＡ１に送信することが可能である。

例えば、情報端末６で受信した画像情報や音情報に基づきユーザ３が泣いていることを第三者１５が把握した場合、第三者１５は情報端末６の第２のマイクロフォン（図示せず）を用いて間接的にユーザ３に語りかけることができる。また第三者１５が例えば部屋の温度や湿度が高い、部屋が明るすぎる等と判断した場合は、情報端末６を操作してユーザ３の置かれた環境をより快適にすることもできる。このようなユーザ３に対する第三者１５の行為も結果的に環境センサ５０、第１のセンサ群４１で計測されて、サーバ５で感性指標が導出される。そしてこれらの第三者１５の行為と感性指標は関連付けられて学習に供される。そして例えばサーバ５は、ユーザ３が特定の状況になった際に、例えば情報端末６を介して第三者１５に対して「部屋の明かりを少し暗くすると、○○ちゃんが落ち着きますよ」といったアドバイスを提供してもよく、更にサーバ５に部屋の照明を制御する機能がある場合は、部屋の照明を暗くするよう制御してもよい。

さて、上述したように、第１の期間Ｔ１は、ユーザ３が乳児（例えば０歳〜満一歳）〜幼児前半（例えば一歳〜二歳）の期間と想定している。第１の期間Ｔ１においてユーザ３の成長は特に言語の発達において著しいとされている。乳児は生後二か月を過ぎると、「あ−」や「うー」といったいわゆる「クーイング」を始める。その後、第三者１５とのインタラクションが進むうちに、乳児は「音が聞こえたこと」に対して徐々に音声で反応するようになり、更に生後四か月を過ぎるころから、「まぁ−」、「だー」といった母音の他に子音を含む喃語を発するようになる。そして生後八カ月を過ぎると、様々な子音を明確に発声できるようになり、母親等の発する語彙の模倣が始まる。厚生労働省の資料等によれば、その後、生後二十か月までの間に、およそ９５％の幼児が意味のある単語を自己意思に基づいて話すことができるとされている。その一方で、乳児から幼児にかけての言葉の発達には個人差が大きいことも知られている。

第１の期間Ｔ１において、乳児または幼児が成長していくと、音声認識部５ｅにおいて認識される語彙の数が増加していき、また使用される単語の難易度も上がり、また成長に伴って発音が明瞭になっていくことで音声認識部５ｅによる認識率も向上していく。

サーバ５に設けられたユーザ成熟度判定部５ｊは、音声認識部５ｅが認識した語彙数、単語の難易度、認識の確からしさの程度の少なくとも一つに基づいて、ユーザ３の成熟度を判定する。即ち、ユーザ成熟度判定部５ｊはコーパス等に基づいてユーザ３の言語能力を評価して、これを成熟度指標として出力する。サーバ制御部５ｎは成熟度指標が所定の値よりも大きくなった場合、ユーザ３が言語を用いたより高度なインタラクションが十分に可能な段階に到達したと判断し、ユーザ３または第三者１５に対して、例えば第１のＰＡ１または情報端末６を通じて、第１のＰＡ１の役割が終了する時期に近づいており、ユーザ３に対して例えば文字や画像による情報提供といったより高度なインタラクションが実行可能に構成された第２のパーソナルアシスタント（後に説明する第２のＰＡ２）への入れ替え（新規購入等）を促す提案が行われる。なお、ユーザ成熟度判定部５ｊはユーザ状況推定部５ｇが出力する感性指標を参照して、例えば一日において喜怒哀楽が変化する割合が小さくなったことを参照してユーザ３の成熟度を判定してもよく、また、ユーザ行動範囲認識部５ｍによって推定されたユーザ３の行動範囲が所定の値より拡大したことを参照してもよく、更に、ＰＡ記憶部１ｑに記憶されたユーザ個人情報のうち、生年月日の情報を参照してもよい。

図４は、本発明の第１実施形態における第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図である。なお、図４においてサーバ５は図３を用いて説明したものと同等であるので同一の符号を付したうえで説明を省略し、第２のＰＡ２に含まれる構成要素についても、図３で説明したものと共通な要素には同一の符号を付し、説明を省略する。

以降、図４に図３を併用して、第２の期間Ｔ２に利用される第２のＰＡ２について説明する。図示するように、第２のＰＡ２は第２のセンサ群４２を備える。第２のセンサ群４２は上述した第１のセンサ群４１と比較して、匂いセンサ１ｇ、圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊが除去され、他方、第１位置情報センサ１ｔと第２位置情報センサ８とが追加されている。

また出力インタフェース５３については、第１のＰＡ１と比較して伝達部１ｌ、発光部１ｎが除去され、他方、ディスプレイ１ｕが追加されている。即ち、第２のＰＡ２は、出力インタフェース５３（第２のユーザインタフェース）として、少なくともスピーカ１ｍ、ディスプレイ１ｕ、アクチュエータ１ｏの一つを含む。

上述したように、第２の期間Ｔ２はユーザ３が幼児後半（例えば３歳〜小学校就学前）の期間を想定している。一般に幼児は１歳半〜２歳頃までに日中の「おむつはずれ」ができるようになるのが目安とされていることから、第２の期間Ｔ２において使用される第２のＰＡ２には、日常的に排尿や排便の有無を検出する匂いセンサ１ｇは搭載されていない。また、第２の期間Ｔ２において、ユーザ３は自己の感情を言葉で表現することが可能となっており、更に行動についても理性的な側面が現れることから、第２のＰＡ２に対する直接的な行為をもって感情指標を導出するよりも、カメラ１ｅで取得した画像情報に基づく表情や、マイクロフォン１ｆで取得した音情報を用いて音声認識部５ｅで認識した語彙に基づく方がより適切な感情指標を導出できると考えられる。もちろん、感情指標に影響を及ぼす環境センサ５０やバイタルセンサ７の出力を参照すしてもよい。

第２のセンサ群４２に含まれる第１位置情報センサ１ｔは、屋内において第２のＰＡ２の位置を計測するセンサであり、例えば複数のＷｉＦｉアクセスポイントからの電波強度や到達時間の違いから三点測位を演算することで位置を計測するＷｉＦｉ測位や、ＢＬＥ（Bluetooth（登録商標） Low Energy）規格に基づく電波強度等を利用して三点測位を演算することで位置を計測するビーコン測位等を応用することが可能である。

また、第２位置情報センサ８は、屋内におけるユーザ３の位置を計測するセンサであり、例えば第１位置情報センサ１ｔと同様のセンシング手段が用いられる。この場合、ユーザ３は例えばＢＬＥ規格に基づくBeacon発信機等を携帯する。もちろん第１位置情報センサ１ｔ及び第２位置情報センサ８としてＧＰＳ（Global Positioning System）を利用した測位センサが用いられてもよいし、ＩＭＥＳ（Indoor MEssaging System）のような測位技術を応用してもよく、またカメラ１ｅが出力する画像情報を用いて、屋内における第２のＰＡ２の位置情報を基準としてユーザ３の相対的な位置を計測し、これをもってユーザ３の位置としてもよい。この場合カメラ１ｅとしては、デプス情報が得られる点でいわゆるステレオカメラが望ましい。

第２の期間Ｔ２では、ユーザ３は屋内を自由に移動することが可能となり、例えば移動速度や移動範囲は感情指標にも影響を及ぼすと考えられる。即ち、落ち着いているときは移動速度が比較的ゆっくりとなり、他方、いらいらしているときの移動速度は一般的に速くなる。また、第２のＰＡ２とユーザ３との離間距離は、両者の関係性を示すパラメータの一つであると考えられる。特に第２のＰＡ２がアクチュエータ１ｏによって移動可能に構成されているケースでは、両者の位置関係が取得されることで、感性指標に基づいて第２のＰＡ２をユーザ３の近くに移動させたり、逆に離間させたりすることが可能となる。

第２の期間Ｔ２においても第２のセンサ群４２で取得された情報は、ネットワーク４を介してサーバ５に送信され、ユーザ状況推定部５ｇは感性指標を出力し、サーバ制御部５ｎは感性指標に基づいてユーザ３の状況を推定し、ＰＡ指令生成部５ｉに対して第２のＰＡ２に動作を選択させるとともに、ＰＡ指令生成部５ｉは当該動作を実行するためのコマンドを生成する。このコマンドには上述した第２のＰＡ２の位置を移動させるコマンドも含まれる。

第２のＰＡ２には、第１のＰＡ１に搭載されていなかったディスプレイ１ｕが搭載されており、ディスプレイ１ｕにはテキストあるいは画像（静止画、動画）のコンテンツが表示される。サーバ５は、第２のＰＡ２から送信されたコード情報（上述したようにＰＡを特定するコード）に基づいて、第２のＰＡ２にディスプレイ１ｕが搭載されていると判断して、音のコンテンツに代えて、あるいは音のコンテンツとともに、画像のコンテンツを第２のＰＡ２に送信する。

第２の期間Ｔ２ではユーザ３は言語能力の他に、画像認識能力も大幅に向上していることから、ユーザ３に対して画像のコンテンツを提供することは極めて重要となる。例えば、ユーザ３に対して乗り物の画像を表示したときに特定の感性指標（ここでは、例えば「集中している」等）が、他のコンテンツを表示したときと比較して優位であるとき、サーバ５は、例えば「こんどは外国のバスを見てみますか？」等の提案をユーザ３に対して行うようになる。これは画像情報に限られたものではなく、音情報についても、同様の提案を行うことが可能である。これによってユーザ３の知的好奇心が育まれ、更に「〇〇ちゃんは、街中のモビリティに対する興味がとても高いようです。関連する基礎知識の提供頻度を増やしましょうか？」のように、情報端末６を介して第三者１５に対してユーザ３の学習指針等についてのアドバイスも行えるようになる。

なお、第２のＰＡ２においては、入力部１ｋはディスプレイ１ｕの映像面に重畳して設けられたタッチパネル等であってもよい。ユーザ３は入力部１ｋを操作することで、所望のコンテンツを選択することができる。もちろん、第１のＰＡ１と同様に、入力部１ｋは第三者１５によって操作されてユーザ３の状況を入力する手段としても使用される。即ち、第２の期間Ｔ２において、第三者１５は例えばユーザ３が特定の楽曲を聴いているときに安らいでいると感じたような場合に、「落ち着いている」といった主観的な情報を入力する。

以降、第１の期間Ｔ１から第２の期間Ｔ２の経過に伴って、第１のＰＡ１が情報を取得する第１のセンサ群４１及び第２のＰＡ２が情報を取得する第２のセンサ群４２がどのような態様で使用されるかについて、図３、図４に図２を用いて説明する。

第１の期間Ｔ１においては第１のＰＡ１がユーザ３に利用され、第１のＰＡ１は第１のセンサ群４１から情報を取得する。第１の期間Ｔ１において、ユーザ３の状況は、第１のセンサ群４１の出力に基づいて感性指標として推定されるが、感性指標の導出にあたって各センサの寄与度はユーザ３の成長とともに変化する。第１の期間Ｔ１のうち少なくとも前半を占める第４の期間Ｔ４においては、第１のセンサ群４１に含まれる全てのセンサの出力に基づいて感性指標が導出されるが、ユーザ３の成長に伴い、例えば「おむつはずれ」の後は徐々に匂いセンサ１ｇの寄与度は低下し、ユーザ３の行動に理性が芽生えた後は、同様に圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊの寄与度は低下していく。

なお、ここでいう「寄与度の低下」とは、学習モデルに対する特徴的な入力の頻度が減少し、他方、他の入力である画像情報、音情報、バイタルセンサ７から取得される情報による学習モデルの追加学習が進行することで、匂いセンサ１ｇ等から提供される情報の重みが実質的に低下することを意味する。

第１の期間Ｔ１の後半においては、ユーザ３の言語能力が向上するとともに表情も豊かになり、更にユーザ３は動き回るようになる。従ってこの期間においては、第１のセンサ群４１が取得する情報のうち、カメラ１ｅによって取得される画像情報、マイクロフォン１ｆによって取得される音情報、バイタルセンサ７によって取得される脈波等の情報が感性指標の導出に影響を及ぼすこととなる。

ユーザ３の成長は日々連続的であるから、第１の期間Ｔ１の少なくとも終期から第２の期間Ｔ２の少なくとも初期にあっては、ユーザ３の言語能力等に大きな変化はないと考えることができる。従って第２の期間Ｔ２の初期においても、ユーザ３に利用される第２のＰＡ２に情報を提供する第２のセンサ群４２が取得する情報のうち、カメラ１ｅによって取得される画像情報、マイクロフォン１ｆによって取得される音情報、バイタルセンサ７によって取得される脈波等の情報が、感性指標の導出に影響を及ぼす。

即ち第１の期間Ｔ１と第２の期間Ｔ２とを跨ぐ第３の期間Ｔ３においては、第１の期間Ｔ１と第２の期間Ｔ２とにおいて共通する属性（ここでは、画像、音、生体情報）を取得する「共通センサ」としてのカメラ１ｅ、マイクロフォン１ｆ、バイタルセンサ７から得た情報に基づいて、ユーザ３の状況が推定される。なお共通センサとしては少なくとも、カメラ１ｅ、マイクロフォン１ｆが含まれていればよい。

即ち、第１実施形態のパーソナルアシスタント制御システムＳ１は、ユーザ３によって第１の期間Ｔ１に利用され、複数のセンサを含む第１のセンサ群４１から情報を取得する第１のＰＡ１と、同一のユーザ３によって第２の期間Ｔ２に利用され、複数のセンサを含む第２のセンサ群４２から情報を取得する第２のＰＡ２と、第１のＰＡ１及び第２のＰＡ２とネットワーク４を介して接続され、第１のセンサ群４１または第２のセンサ群４２から取得した情報に基づいてユーザ３の状況を推定するサーバ５とを備え、サーバ５は、第１の期間Ｔ１と第２の期間Ｔ２とを跨ぐ第３の期間Ｔ３において、第１のセンサ群４１及び第２のセンサ群４２に含まれるセンサのうち、少なくとも共通の属性（少なくとも画像及び音）を取得する「共通センサ」から得た情報に基づいてユーザ３の状況を推定する。なお、図３と図４において、「共通センサ」には■のマークを付している。

ここで、第１の期間Ｔ１のうち第３の期間Ｔ３に含まれない第４の期間Ｔ４においては、第１のセンサ群４１に含まれる「共通センサ」としてのカメラ１ｅ、マイクロフォン１ｆ、バイタルセンサ７以外のセンサ、即ち、「非共通センサ」としての匂いセンサ１ｇ、圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊのうち少なくとも１つで取得された情報も感性指標の導出に反映される。また、非共通センサに上述した全てのセンサが含まれている必要はなく、例えば圧力センサ１ｈを除外する等適宜選択されてよい。このように、パーソナルアシスタント制御システムＳ１は、第４の期間Ｔ４においては、サーバ５は、第１のセンサ群４１のうち共通センサ以外の非共通センサから取得した情報を少なくとも参照してユーザ３の状況を推定する。即ちサーバ５は、第３の期間Ｔ３において共通センサから取得した情報を参照する場合と、第４の期間Ｔ４において非共通センサから取得した情報を参照する場合とのいずれにおいても、共通の指標としての感性指標を導出する。

さて、第２のＰＡ２が利用される第２の期間Ｔ２においては、第２のセンサ群４２における共通センサとしてのカメラ１ｅ、マイクロフォン１ｆ、バイタルセンサ７以外にも第１位置情報センサ１ｔ、第２位置情報センサ８で取得した情報も加味して感性指標が導出される。感性指標は、第１の期間Ｔ１及び第２の期間Ｔ２のいずれにおいても共通して用いられる指標である。従って、第２の期間Ｔ２において導出された感性指標に基づいてユーザ３に応答する場合、当該応答には第１の期間Ｔ１において学習された応答内容が参照（反映）されることになる。ただし第２のＰＡ２には、第１のＰＡ１には搭載されていなかったディスプレイ１ｕが搭載されていることから、例えばサーバ制御部５ｎは、第１のＰＡ１で行った応答がスピーカ１ｍを介したものであったとしても、これに代えてディスプレイ１ｕを介して例えばテキスト情報を用いて応答しても構わないし、更にスピーカ１ｍによる音情報と併せて応答してもよい。そして、どのような出力インタフェース５３の組合せを用いた場合にユーザ３がより落ち着くかといった観点でも学習が行われる。

また、上述したように、第１の期間Ｔ１においては、第三者１５の行為と第１のセンサ群４１で取得した情報に基づく前記ユーザの状況（感性指標）とは関連付けて学習されており、第２の期間Ｔ２においては、第２のセンサ群４２で取得された情報に基づいてユーザ３の感性指標が導出される。そして、導出された感性指標に基づいて、第１の期間Ｔ１において学習された第三者１５の行為（例えば、ユーザ３に対する語りかけ）が再現されることとなる。

図５は、第１実施形態の第１変形例における第１の期間Ｔ１及び第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図である。図１においては、第１の期間Ｔ１におけるユーザ３として乳児〜幼児前半を、第２の期間Ｔ２におけるユーザ３として幼児後半を想定したが、第１変形例においては、第１の期間Ｔ１におけるユーザ３として幼児後半を、第２の期間Ｔ２におけるユーザ３として成人を想定している。

また、第１実施形態では情報端末６を使用する者として第三者１５を想定しているが、第１変形例では、第２の期間Ｔ２においては主に成人に達したユーザ３が情報端末６を使用する。また、第２のＰＡ２については、自律的にユーザ３とのインタラクションを図り、成人に達したユーザ３を的確にサポートすることが可能なように移動可能な形態（例えば二足歩行ロボットや移動機構が付加されたロボット）を想定しているが、例えばユーザ３が携帯することを前提とする場合は、移動機構がない態様であっても構わない。

図６は、第１実施形態の第１変形例における第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図である。以降、図６に図４を併用して、第１変形例における第２の期間Ｔ２に利用される第２のＰＡ２の構成と機能、及び第１の期間Ｔ１に利用される第１のＰＡ１との関係について説明する。なお第１変形例では、図４で示した第２のＰＡ２は第１の期間Ｔ１で利用される観点で、第１のＰＡ１に相当することとなる。

図示するように、第１変形例では、第２のＰＡ２は第３のセンサ群４３（図４における第２のセンサ群４２に相当する）を備える。第３のセンサ群４３は上述した第２のセンサ群４２（図４参照）と比較して、第１生活センサ９が追加されている。ここで第１生活センサ９は、例えばユーザ３の電力使用量、ガス使用量、水道使用量等を計測するセンサであり、いわゆるスマートメータとも称される。通常、ユーザ３は成人になると親から独立して生活を始めることが多い。スマートメータによる計測値はユーザ３の生活パターンを反映したものであるから、ユーザ３の状況を示す指標としての感性指標にも影響を及ぼす。第１生活センサ９が追加されることで、ユーザ状況推定部５ｇは、例えば土曜、日曜、休日を含め一カ月の生活パターンが殆ど変わらないような状況ではユーザ３が「ふさぎ込みがち」や「気力がない」と推定することが可能となる。

また、更に第１変形例においては、ユーザ３が幼児等であれば問題になることが少ない「疲れた」や「だるい」といった身体的な状況及び「気力がない」といった精神的な状況が感性指標に含まれる。即ち、第１変形例では感性指標の拡張が図られる。これらの感性指標の拡張に際しては学習モデルを再トレーニングしてもよいし、異なる学習モデルを並列して用いてもよい。また感性指標を拡張する観点において、第１生活センサ９として、例えば体重計、血圧計といった計測機器が含まれてもよい。また入力部１ｋを介してユーザ３が日々の食事のメニューや量、カロリー値を入力可能にしてもよい。

さて、ユーザ３が乳児や幼児である場合、入力部１ｋは母親等の第三者１５がユーザ３の状況を主観に基づいて入力する手段であったが、第１変形例においては、入力部１ｋは、ユーザ３が自己の状況を第２のＰＡ２（即ちサーバ５）に通知する手段として設けられる。上述したように入力部１ｋの入力に基づいて学習モデルの再トレーニングや追加学習が行われる。第２のＰＡ２の応答がユーザ３の主観的な状況から乖離しているような場合に、ユーザ３は例えば「もっと私のことを理解して欲しい」との思いに基づいて、入力部１ｋを操作する。そしてサーバ制御部５ｎは、入力部１ｋの入力に基づいてユーザ３と第２のＰＡ２とのインタラクションがより好ましくなるように学習モデルを再トレーニングし、あるいは追加学習を実行する。

図４及び図６に示すように、第１変形例における「共通センサ」は、カメラ１ｅ、マイクロフォン１ｆ、第１位置情報センサ１ｔ、バイタルセンサ７、第２位置情報センサ８である。なお、図４及び図６において、「共通センサ」には▲のマークを付している。

第１変形例においても、第１の期間Ｔ１と第２の期間Ｔ２とを跨ぐ第３の期間Ｔ３では、第１の期間Ｔ１と第２の期間Ｔ２とにおいて共通する属性（ここでは、画像属性、音属性、生体属性、位置属性）を取得する「共通センサ」としてのカメラ１ｅ、マイクロフォン１ｆ、第１位置情報センサ１ｔ、バイタルセンサ７、第２位置情報センサ８から得た情報に基づいて、ユーザ３の状況が推定される。

図７は、第１実施形態の第２変形例における第１の期間Ｔ１及び第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図である。第１変形例においては、第１の期間Ｔ１におけるユーザ３として幼児後半を、第２の期間Ｔ２におけるユーザ３として成人を想定したが、第２変形例においては、第１の期間Ｔ１におけるユーザ３として成人を、第２の期間Ｔ２におけるユーザ３として高齢者を想定している。

図７においては、第２の期間Ｔ２におけるユーザ３は高齢者であることから、情報端末６は主にユーザ３を介護する第三者１５が使用する（もちろん、ユーザ３自らが使用してもよい）。また、第２のＰＡ２については、第１変形例と同様に移動可能な形態であってもよく、またユーザ３が搭乗して移動する電動車椅子のような形態であってもよい。もちろんユーザ３が携帯することを前提とする場合は、移動機構がない態様であっても構わない。

図８は、第１実施形態の第２変形例における第２の期間Ｔ２におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図である。以降、図８に図６を併用して、第２変形例において、第２の期間Ｔ２に利用される第２のＰＡ２の構成と機能、及び第１の期間Ｔ１に利用される第１のＰＡ１との関係について説明する。なお第２変形例では、図６で示した第２のＰＡ２は第１の期間Ｔ１で利用される観点で、第１のＰＡ１に相当することとなる。

図示するように、第２のＰＡ２は第４のセンサ群４４（図４における第２のセンサ群４２に相当する）を備える。第４のセンサ群４４は上述した第３のセンサ群４３（図６参照）と比較して、匂いセンサ１ｇ及び第２生活センサ１０が追加されている。ここで匂いセンサ１ｇはユーザ３の失禁等に基づく匂いを検出する。第２生活センサ１０は、ユーザ３が部屋間を移動している状況を検出するドアセンサや、ベッドに設けられてユーザ３の寝起きの状況を検出するマットセンサが該当する。当該マットセンサは圧力や加速度を検出するセンサで構成される。即ち、第２生活センサ１０は高齢者の見守りに重点を当てたセンサである。

例えばマットセンサによる計測値は高齢者としてのユーザ３の生活パターンを反映したものであるから、ユーザ３の状況を示す指標としての感性指標にも影響を及ぼす。第２生活センサ１０が追加されることで、ユーザ状況推定部５ｇは、例えばドアセンサでユーザ３の移動が極端に少ない状況や、マットセンサでユーザ３がほぼ終日ベッドに横たわっているような状況を検出したような場合、ユーザ３が「ふさぎ込みがち」や「気力がない」と推定することが可能となる。特にバイタルセンサ７から取得した脈波等の情報が異常でないにもかかわらず「気力がない」ような状況は、特に高齢者ではいわゆる「フレイル化」に直結することから、サーバ制御部５ｎは第２のＰＡ２を介してユーザ３との対話を通じて例えば外出を促すといったインタラクションを図ることが可能となる。

図６及び図８に示すように、第２変形例における「共通センサ」は、カメラ１ｅ、マイクロフォン１ｆ、第１位置情報センサ１ｔ、バイタルセンサ７、第２位置情報センサ８、第１生活センサ９である。なお、図６と図８において、「共通センサ」には▼のマークを付している。

第２変形例においても、第１の期間Ｔ１と第２の期間Ｔ２とを跨ぐ第３の期間Ｔ３では、第１の期間Ｔ１と第２の期間Ｔ２とにおいて共通する属性（ここでは、画像属性、音属性、生体属性、位置属性、使用電力量等の生活関連属性）を取得する「共通センサ」としてのカメラ１ｅ、マイクロフォン１ｆ、第１位置情報センサ１ｔ、バイタルセンサ７、第２位置情報センサ８、第１生活センサ９から得た情報に基づいて、ユーザ３の状況が推定される。

なお、第２のＰＡ２が電動車椅子のようにユーザ３を搬送する機構を備える場合、ユーザ３は第２のＰＡ２に搭乗して外出を行うこともある。このとき第１位置情報センサ１ｔはＧＰＳ等を利用した測位センサとすることが望ましい。そして、ユーザ３が第２のＰＡ２とともに屋外にいる場合、例えばスマートメータ等で構成される第１生活センサ９の出力は感性指標の導出には用いられない。このような場合であっても、学習モデルは多次元空間のクラスタリングによって、感性指標を導出することが可能である。もちろん、屋内と屋外とで学習モデルそのものを入れ替えるようにしてもよい。

以上詳細に説明したように、本発明に係るパーソナルアシスタント制御システムＳ１では、パーソナルアシスタントが世代を超えてユーザ３に対して継続的にサービスを提供する。この観点でパーソナルアシスタント制御システムＳ１は、いわゆる基盤としてのパーソナルアシスタントプラットフォームあるいはパーソナルロボットプラットフォームと言い換えてもよい。

（第２実施形態）
以下、本発明の第２実施形態について図面を参照して説明する。図９は、本発明の第２実施形態における第１の期間Ｔ１及びプレ期間Ｔ０におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図である。第１実施形態において、ユーザ３は全て出生後を想定しているが、第２実施形態では、ユーザ３は出生前の胎児の時期も含んでいる点で第１実施形態と相違する。なお、以降の説明において、第１実施形態において既に説明した第１のＰＡ１、サーバ５、情報端末６には同一の符号を付し、説明を省略する。

図９に示すように、パーソナルアシスタント制御システムＳ１には、第１のＰＡ１と、プレ期間用パーソナルアシスタント（以降、簡略化して「プレ期間用ＰＡ２０」と称することがある。）と、第１のＰＡ１及びプレ期間用ＰＡ２０が接続されたネットワーク４と、ネットワーク４と接続されたサーバ５と、ネットワーク４に接続された情報端末６とが含まれている。

ここで第１のＰＡ１とプレ期間用ＰＡ２０は例えばロボットが好適に用いられる。なおＰＡは、少なくともユーザ３との間で何らかの相互作用（インタラクション）が可能に構成されていればよく、アーム等の変位機構や移動機構の有無は問わない。

図９において、第１のＰＡ１は第１の期間Ｔ１（出生後）においてユーザ３に利用され、またプレ期間用ＰＡ２０はユーザ３が出生前の期間であるプレ期間Ｔ０において利用される。従って、パーソナルアシスタント制御システムＳ１には、第１のＰＡ１とプレ期間用ＰＡ２０とが同時に含まれないことがあり得る。なお、プレ期間Ｔ０においてプレ期間用ＰＡ２０を直接的に利用するのは第三者１５であるが、プレ期間用ＰＡ２０及び第１のＰＡ１は出生前から出生後にかけて同一のユーザ３に対するサービスを提供することから、プレ期間Ｔ０においてユーザ３は間接的にプレ期間用ＰＡ２０を利用していることになる。

プレ期間Ｔ０におけるプレ期間用ＰＡ２０は、これに直接触れる第三者１５に安心・安全といったイメージを想起させるよう、３次元曲面が多用されたデザインとされ、柔軟な素材で構成されている。即ち、プレ期間用ＰＡ２０は、第三者１５が抱きかかえる態様で用いられることを想定している。

プレ期間用ＰＡ２０は後述する第２のセンサ群４２（図１１参照）から種々の情報を取得し、少なくともその一部はネットワーク４を介してサーバ５に送信される。サーバ５は受信した第２のセンサ群４２の出力に基づいて第三者１５の体内に存するユーザ３の状況を推定する。

サーバ５は推定したユーザ３の状況に基づいて、ネットワーク４を介してプレ期間用ＰＡ２０に対して制御指令を出力する。これを受信したプレ期間用ＰＡ２０は、例えばユーザ３を穏やかにするような音を出力する。そしてこの音に対するユーザ３の反応や応答が第２のセンサ群４２によって取得され、この情報もサーバ５に送信される。サーバ５は、例えばユーザ３の状況に応じて、どのように応答すればユーザ３がより穏やかになるかを学習し、次に同様の状況がユーザ３に生じた場合は、学習結果に基づいて適切に応答するようになる。ユーザ３が生誕して第１の期間Ｔ１を迎えた際に、プレ期間Ｔ０で得られた学習結果は第１のＰＡ１とユーザ３とのインタラクションにおいて継承して利用される。

第２実施形態において、情報端末６は第三者１５に所持されている。サーバ５はプレ期間用ＰＡ２０から得た情報に基づいて推測したユーザ３の状況を情報端末６に送信し、第三者１５は体内に存するユーザ３の状況を把握することができる。

また、図９においてバイタルセンサ７は、例えばリストバンド形状とされて第三者１５の手首等に装着される。

図１０（ａ），（ｂ）は、本発明の第２実施形態におけるプレ期間Ｔ０、第１の期間Ｔ１、第２の期間Ｔ２、第３の期間Ｔ３、第４の期間Ｔ４の関係を示す説明図である。

図１０（ａ），（ｂ）に示すように、プレ期間Ｔ０は、第１の期間Ｔ１よりも過去の期間に相当する。プレ期間Ｔ０の始期は、通常は受胎後、第三者１５が妊娠に気づいた以降の時点であり、終期は出生の時点である。図１０（ａ）に示すようにプレ期間Ｔ０の終期後ただちに第１の期間Ｔ１が開始されてもよく、同（ｂ）に示すようにプレ期間Ｔ０と第１の期間Ｔ１との間に間隔が空けられてもよい。なお、図２（ａ）〜（ｄ）を用いて説明したように、第１の期間Ｔ１と第２の期間Ｔ２との関係については、様々な態様があり得る。

図１１は、本発明の第２実施形態におけるプレ期間Ｔ０におけるパーソナルアシスタント制御システムＳ１の構成を示すブロック図である。パーソナルアシスタント制御システムＳ１は、少なくともプレ期間用ＰＡ２０と、サーバ５とで構成され、プレ期間用ＰＡ２０とサーバ５とはネットワーク４を介して接続されている。

以降、プレ期間用ＰＡ２０について説明する。プレ期間用ＰＡ２０は、第２のセンサ群４２と、出力インタフェース５３とを備える。なお、ＰＡネットワークインタフェース１ｐと、ＰＡ演算部１ｓ、ＰＡ記憶部１ｑ、ＰＡ制御部１ｖ等の構成については既に説明した第１のＰＡ１と同等であることから説明を省略する。またプレ期間用ＰＡ２０には第１のＰＡ１に搭載されている環境センサ５０（図３等を参照）は搭載されていないが、第三者１５の感情はユーザ３にも影響を与えることから、第三者１５の置かれた環境をモニタリングする目的で環境センサ５０を含むよう構成してもよい。

マイクロフォン１ｆは、第２実施形態においては胎児としてのユーザ３の心拍音、第三者１５の心拍音、及び第三者１５が発した音声を取得する。圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊは、ユーザ３の心拍及び胎動を検出する。取得された音声、心拍音、心拍、胎動に関する情報はサーバ５に送信され、データベース５ｋに蓄積される。

第２実施形態においてバイタルセンサ７は、ユーザ３ではなく第三者１５の状況を計測するために用いられる（図９参照）。母親である第三者１５が「幸せ」、「いい気持ち」と感じるときに分泌されるドーパミンやβ-エンドルフィンなどのホルモンは血流に乗って胎児であるユーザ３にも供給され、胎児もリラックスすることが知られており、第三者１５の状況を把握することは、ユーザ３の状況を間接的に把握することに繋がる。

伝達部１ｌは、プレ期間用ＰＡ２０の表面の一部に設けられた例えば柔軟性を備えるポリプロピレン（ＰＰ）等で構成される膜状部材で構成される。マイクロフォン１ｆで取得した音は増幅器（図示せず）で増幅され、スピーカ１ｍによって出力される音が、第三者１５の体に密着させた伝達部１ｌを介して、第三者１５の体内に伝達する。伝達部１ｌは、第三者１５またはそのパートナ（ここでは、例えば父親）等が出生前のユーザ３に語りかけるシーン、第三者１５の置かれた環境の音情報（例えば音楽）をユーザ３に伝達するシーン等において利用される。

次にサーバ５の機能について説明する。サーバ５の構成は既に第１実施形態で説明したものと同等であるので説明は省略する。第２実施形態においても、ユーザ状況推定部５ｇは、第２のセンサ群４２で取得された情報を学習モデルに入力してユーザ３の状況（感性指標）を導出する。

学習モデルに対して入力されるのは、例えば、マイクロフォン１ｆ、圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊで取得された、心拍音、心拍、胎動に関する情報である。ユーザ３が落ち着いているとき心拍も緩やかになるから、心拍は感性指標に影響を与え、またほどよい胎動はユーザ３と第三者１５とのコミュニケーションが良好である旨を示すとも言われていることから、感性指標に影響を与えると考えられる。

これらの情報には第三者１５の心拍等の情報も重畳されているから、サーバ制御部５ｎは入力された情報の周波数を解析する等して、ユーザ３と第三者１５との情報を区別する。ユーザ３と第三者１５とは感情面で同期されると考えられるから、第三者１５の感情によって影響を受ける第三者１５の心拍に関する情報、またはバイタルセンサ７で取得した情報を入力に加えてもよい。ただし、第２実施形態では、ユーザ３が第三者１５の体内に存することから、第１実施形態で示したようなユーザ３の表情に現れやすい状況を推定することはできず、「落ち着いている」、「興奮している」といった内面的な状況が推定される。

ユーザ状況推定部５ｇは導出した感性指標をサーバ制御部５ｎに送信する。感性指標を受信したサーバ制御部５ｎは、ＰＡ指令生成部５ｉに対して、例えばユーザ３が「興奮している」状況においては、過去にユーザ３が「落ち着いている」ときに聞いていた音楽や音声（例えば母親の言葉）を抽出するよう指示を行い、これを受けてＰＡ指令生成部５ｉは、適切と推定されるコンテンツデータを選定し、コンテンツデータと音声による再生指示をプレ期間用ＰＡ２０に対して出力する。第１実施形態と同様にこの応答内容はデータベース５ｋに蓄積され、感性指標と応答内容との関連が学習される。

ここで、ユーザ３が出生後に使用する第１のＰＡ１の第１のセンサ群４１（図３参照）が取得する情報の属性と、プレ期間用ＰＡ２０の第２のセンサ群４２が取得する情報の属性とを比較する。

第１の期間Ｔ１においては、図３に示す第１のＰＡ１の第１のセンサ群４１のうち、少なくともカメラ１ｅ、マイクロフォン１ｆ（第１属性検出センサ５１）を用いることで、ユーザ３の表情や声のトーン、語彙情報といった「精神的属性」ともいえる属性（第１の属性）を取得する。他方、プレ期間Ｔ０においては、プレ期間用ＰＡ２０の第２のセンサ群４２を構成するマイクロフォン１ｆ、圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊ（第２属性検出センサ５２）を用いることで、ユーザ３の心拍、胎動といった「肉体的属性」ともいえる属性（第２の属性）を取得する。そしてユーザ状況推定部５ｇは、第１の属性に基づいて第１の期間Ｔ１におけるユーザ３の感性指標を導出し、第２の属性に基づいてプレ期間Ｔ０におけるユーザ３の感性指標を導出する。なお、第１のＰＡ１にも圧力センサ１ｈ等は含まれるが、ユーザ３が成長していくについて感性指標の導出にあたって圧力センサ１ｈ等の寄与度は低下していき、精神面の状況を推定するのに適した「精神的属性」が感性指標を決定する主要因になっていく。

このように第２実施形態のパーソナルアシスタント制御システムＳ１は、ユーザ３によって第１の期間Ｔ１に利用され、複数のセンサを含む第１のセンサ群４１から情報を取得する第１のＰＡ１と、ユーザ３によって第１の期間Ｔ１よりも過去の期間であるプレ期間Ｔ０に利用され、複数のセンサを含む第２のセンサ群４２から情報を取得するプレ期間用ＰＡ２０と、第１のＰＡ１及びプレ期間用ＰＡ２０とネットワーク４を介して接続され、第１のセンサ群４１または第２のセンサ群４２から取得した情報に基づいてユーザ３の状況を推定するサーバ５と、を備え、サーバ５は、第１の期間Ｔ１において、第１のセンサ群４１に含まれるセンサのうち、少なくとも第１の属性を検出する第１属性検出センサ５１から取得した情報に基づきユーザ３の状況を推定し、プレ期間Ｔ０において、第２のセンサ群４２に含まれるセンサのうち、第１の属性とは異なる少なくとも第２の属性を検出する第２属性検出センサ５２から取得した情報に基づいてユーザ３の状況を推定する。

ここで重要なのは、第１の期間Ｔ１において情報を取得する第１属性検出センサ５１とプレ期間Ｔ０において情報を取得する第２属性検出センサ５２とは、それぞれ異なる属性を検出するものであるが、ユーザ状況推定部５ｇは、異なる属性が入力された場合であっても、ユーザ３の状況を共通の指標である感性指標として導出する点である。この共通する感性指標を用いることで、ユーザ３が胎児のときに学習された応答内容を、その後ユーザ３が乳児に成長したときにおいても活用できるようになる。

また、サーバ制御部５ｎは、第２のセンサ群４２に含まれるマイクロフォン１ｆによって取得された音声を話者解析部５ｆで解析した結果に基づいて、例えば第三者１５のユーザ３に対する語りかけ等の行為を抽出する。第三者１５がユーザ３に語りかけたときの音声（応答内容）は音情報としてデータベース５ｋに蓄積されるとともに、音声認識部５ｅで語彙として抽出される。更にこのとき、第三者１５が行為を成した際のユーザ３の感性指標が取得される。このインタラクションの状況もデータベース５ｋに蓄積され、第三者１５の行為（ここでは語りかけ）と第２のセンサ群４２で取得した情報に基づく前記ユーザ３の状況（感性指標）とが関連付けて学習される。

また、サーバ制御部５ｎは、第三者１５による入力部１ｋの操作（音声認識部５ｅでの認識結果に基づくコマンドの生成、あるいは情報端末６の操作等も含む）に基づいて、例えばマイクロフォン１ｆで取得した第三者１５の心拍音を収録することが可能とされている。更に、サーバ制御部５ｎは、第三者１５による入力部１ｋの操作等に基づいて収録した心拍音を再生するようプレ期間用ＰＡ２０に対して指示を行うことも可能とされている。もちろんこのときも第三者１５が行為（ここでは、入力部１ｋの操作等）を成した際のユーザ３の感性指標が取得される。この状況もデータベース５ｋに蓄積され、第三者１５の行為（ここでは、心拍音の再生）と第２のセンサ群４２で取得した情報に基づく前記ユーザ３の状況（感性指標）とが関連付けて学習される。

この学習によって、例えば母親の「〇〇ちゃん、おりこうね」との語りかけや第三者１５の心拍音の聴取により、ユーザ３の感性指標が「興奮している」から「落ち着いている」に変化した場合が多いほど、ユーザ３の感性指標が「興奮している」となった状況においては、データベース５ｋに蓄積された音情報のうち、母親の「〇〇ちゃん、おりこうね」の発声行為や心拍音が（第三者１５の指示を待たずに）再生・再現される確率が高くなる。

そして、この発声行為や心拍音等の再現は、共通の感性指標を介して、プレ期間Ｔ０から第１の期間Ｔ１へと継承される。サーバ５は、プレ期間Ｔ０において、第２のセンサ群４２（第２属性検出センサ５２）から取得した情報に基づいて、ユーザ３に対する第三者１５の行為を抽出し、第三者１５の行為と第２属性検出センサ５２で取得した情報に基づくユーザ３の状況とを関連付けて学習し、ユーザ３が出生後の第１の期間Ｔ１において、第１属性検出センサ５１（図３参照）で取得した情報から推定されたユーザ３の状況に基づいて、プレ期間Ｔ０における第三者１５の行為の少なくとも一部を再現するよう、第１のＰＡ１に対して指示が行なわれる。即ち、ユーザ３の状況に基づき。例えばプレ期間Ｔ０に収録された心拍音等のコンテンツが第１の期間Ｔ１においても再生されるようになる。

図１２は、本発明の第２実施形態の変形例における第１の期間Ｔ１及びプレ期間Ｔ０におけるパーソナルアシスタント制御システムＳ１の概要を示す説明図である。上述した第２実施形態では、第１の期間Ｔ１で利用される第１のＰＡ１と、プレ期間Ｔ０で利用されるプレ期間用ＰＡ２０とは、それぞれ異なるロボットであるとしたが、変形例においては、第１の期間Ｔ１及びプレ期間Ｔ０のいずれにおいても同一（単一）のＰＡ（第１のＰＡ１）が利用される。以降、第２実施形態の変形例について図３を用いて説明する。

図３に示すように第１のＰＡ１は、第１のセンサ群４１から情報を取得する。この第１のセンサ群４１のうち、カメラ１ｅ、マイクロフォン１ｆが上述した第１属性検出センサ５１に該当し、マイクロフォン１ｆ、圧力センサ１ｈ、加速度センサ１ｉ、角速度センサ１ｊが第２属性検出センサ５２に該当する。即ち、同一のセンサであるマイクロフォン１ｆを兼用して、プレ期間Ｔ０における「肉体的属性」及び第１の期間Ｔ１における「精神的属性」を取得する。

変形例においても、第２実施形態で説明したように、パーソナルアシスタント制御システムＳ１は、ユーザ３によって第１の期間Ｔ１に利用され、複数のセンサを含む第１のセンサ群４１から情報を取得する第１のＰＡ１と、第１のＰＡ１とネットワーク４を介して接続され、第１のセンサ群４１から取得した情報に基づいてユーザ３の状況を推定するサーバ５とを備え、サーバ５は、第１の期間Ｔ１において、第１のセンサ群４１に含まれるセンサのうち、少なくとも第１の属性を検出する第１属性検出センサ５１から取得した情報に基づきユーザ３の状況を推定し、第１の期間Ｔ１よりも過去の期間であるプレ期間Ｔ０において、第１のセンサ群４１に含まれるセンサのうち、第１の属性とは異なる少なくとも第２の属性を検出する第２属性検出センサ５２から取得した情報に基づいてユーザ３の状況を推定する。変形例においても、第１属性検出センサ５１で取得した情報及び第１属性検出センサ５１とは異なる属性を検出する第２属性検出センサ５２で取得した情報に基づいて、共通の指標である感性指標を導出する。

更に、サーバ５は、プレ期間Ｔ０において、第１のセンサ群４１から取得した情報に基づいて、ユーザ３に対する第三者１５の行為を抽出し、第三者１５の行為と第２属性検出センサ５２で取得した情報に基づくユーザ３の状況とを関連付けて学習し、第１の期間Ｔ１において、第１属性検出センサ５１で取得した情報から推定されたユーザ３の状況に基づいて、プレ期間Ｔ０における第三者１５の行為の少なくとも一部を再現するよう、第１のＰＡ１に対して指示を行う。

そして、第１のＰＡ１は、マイクロフォン１ｆと、マイクロフォン１ｆで取得した音を増幅する図示しない増幅器と、この増幅器で増幅された音声信号を再生するスピーカ１ｍと、スピーカ１ｍで再生された音を第三者１５の体内に伝達する伝達部１ｌとを備える。

以上、本発明に係るパーソナルアシスタント制御システムＳ１ついて特定の実施形態に基づいて詳細に説明したが、これらはあくまでも例示であって、本発明はこれらの実施形態によって限定されるものではない。例えば、第１のセンサ群４１や第２のセンサ群４２に含まれるセンサについては、適宜選択することが可能であり、本実施形態で説明したセンサに限定されるものではない。また、第１実施形態においては、乳児、幼児、成人、高齢者に対して適用されるパーソナルアシスタントを説明したが、人が成長する過程をより細かい期間に分け、それぞれについて適切なパーソナルアシスタントを適用できることは明らかである。

本発明に係るパーソナルアシスタント制御システムＳ１は、人の成長とともにロボット等のパーソナルアシスタントが入れ替わったとしても、パーソナルアシスタントとしてのロボットが単なる道具ではなく、胎児の段階も含めて、人の成長に合わせてパートナーとしてユーザ３を適切にサポートすることが可能となることから、例えばパーソナルアシスタント用のプラットフォーム等として好適に応用することができる。

１第１のＰＡ（第１のパーソナルアシスタント）
１ｅカメラ
１ｆマイクロフォン
１ｕディスプレイ
２第２のＰＡ（第２のパーソナルアシスタント）
３ユーザ
４ネットワーク
５サーバ
６情報端末
７バイタルセンサ
１５第三者
２０プレ期間用ＰＡ（プレ期間用パーソナルアシスタント）
４１第１のセンサ群
４２第２のセンサ群
４３第３のセンサ群
４４第４のセンサ群
５０環境センサ
５１第１属性検出センサ
５２第２属性検出センサ
Ｓ１パーソナルアシスタント制御システム

Claims

ユーザによって第１の期間に利用され、複数のセンサを含む第１のセンサ群から情報を取得する第１のパーソナルアシスタントと、
前記ユーザによって第２の期間に利用され、複数のセンサを含む第２のセンサ群から情報を取得する第２のパーソナルアシスタントと、
前記第１のパーソナルアシスタント及び前記第２のパーソナルアシスタントとネットワークを介して接続され、前記第１のセンサ群または前記第２のセンサ群から取得した情報に基づいて前記ユーザの状況を推定するサーバとを備え、
前記サーバは、
前記第１の期間において、
前記第１のセンサ群から取得した情報に基づいて、前記ユーザに対する第三者の行為を抽出し、前記第三者の行為と前記第１のセンサ群で取得した情報に基づく前記ユーザの状況とを関連付けて学習し、
前記第２の期間において、
前記第２のセンサ群で取得した情報から推定された前記ユーザの状況に基づいて、前記第１の期間における前記第三者の行為の少なくとも一部を再現するよう、前記第２のパーソナルアシスタントに対して指示を行うことを特徴とするパーソナルアシスタント制御システム。
前記第１のセンサ群及び前記第２のセンサ群には、共通の属性を取得する共通センサと、前記共通センサ以外の非共通センサとが含まれ、
前記第１の期間及び前記第２の期間において、
前記サーバは、前記共通センサの出力と前記非共通センサの出力とを参照して、前記ユーザの状況を示す共通の指標を導出することを特徴とする請求項１に記載のパーソナルアシスタント制御システム。