JP2021181124A

JP2021181124A - 制御装置、制御方法、およびプログラム

Info

Publication number: JP2021181124A
Application number: JP2018135556A
Authority: JP
Inventors: 匡伸中村; Masanobu Nakamura; 淳入江; Atsushi Irie; 洋貴鈴木; Hirotaka Suzuki; 栄良笠井; Shigeyoshi Kasai; 一生本郷; Kazuo Hongo
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2021-11-25
Also published as: WO2020017357A1

Abstract

【課題】ロボットのモデルパラメータを環境に迅速に適応させることができるようにする。【解決手段】本技術の一側面の制御装置は、第１のロボットにより学習が行われることによって生成された、第１のロボットのモデルを構成する第１のパラメータを取得するパラメータ取得部と、第２のロボットのモデルを構成する第２のパラメータを置き換えた第１のパラメータを、第２のロボットが存在する環境に応じて学習する学習部とを備える。本技術は、ロボットに適用することができる。【選択図】図２

Description

本技術は、制御装置、制御方法、およびプログラムに関し、特に、ロボットのモデルパラメータを環境に迅速に適応させることができるようにした制御装置、制御方法、およびプログラムに関する。

家庭内のサービスロボット、産業用のロボットといったように、ロボットが各種の用途で使われ始めている。

所定の役務をロボットに行わせる場合、ロボットが保持するモデルパラメータを、そのロボットが導入された環境に適応させる必要がある。モデルパラメータは、ロボットの行動などを規定するモデルのパラメータである。モデルパラメータの学習の積み重ねによって、ロボットが環境に適応していくことになる。

特開２００３−１０３４８２号公報特開平１１−１５５１４号公報

導入時のモデルパラメータとしては、通常、デフォルトのモデルパラメータである初期パラメータが用いられる。この場合、導入された環境に適応させるためには多くの学習が必要となり、コストが掛かる。

本技術はこのような状況に鑑みてなされたものであり、ロボットのモデルパラメータを環境に迅速に適応させることができるようにするものである。

本技術の一側面の制御装置は、第１のロボットにより学習が行われることによって生成された、前記第１のロボットのモデルを構成する第１のパラメータを取得するパラメータ取得部と、第２のロボットのモデルを構成する第２のパラメータを置き換えた前記第１のパラメータを、前記第２のロボットが存在する環境に応じて学習する学習部とを備える。

本技術の一側面においては、第１のロボットにより学習が行われることによって生成された、第１のロボットのモデルを構成する第１のパラメータが取得され、第２のロボットのモデルを構成する第２のパラメータを置き換えた第１のパラメータが、第２のロボットが存在する環境に応じて学習される。

本技術によれば、ロボットのモデルパラメータを環境に迅速に適応させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の一実施形態に係る情報処理システムの構成例を示す図である。モデルパラメータの学習の例を示す図である。モデルパラメータの送受信の例を示す図である。ロボットのハードウェア構成例を示すブロック図である。制御部の機能構成例を示すブロック図である。共有クラウドサーバのハードウェア構成例を示すブロック図である。共有クラウドサーバに構築されるデータベースの例を示す図である。モデルパラメータDBに記憶されたモデルパラメータの例を示す図である。学習用データDBに記憶された学習用データの例を示す図である。適応元の個体の適応処理について説明するフローチャートである。適応先の個体の第１の適応処理について説明するフローチャートである。適応先の個体の第２の適応処理について説明するフローチャートである。ロボットが行動する環境の例を示す図である。適応先の個体の第３の適応処理について説明するフローチャートである。適応先の個体の第４の適応処理について説明するフローチャートである。適応先の個体の第５の適応処理について説明するフローチャートである。ロボットが行動する環境の他の例を示す図である。学習用データの管理の例を示す図である。サーバにおけるデータ管理の例を示す図である。制御システムの構成例を示す図である。

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
１．情報処理システムについて
２．各装置の構成
３．適応元個体の処理
４．適応先個体の処理
５．適応先個体の処理（変形例）
６．適応先個体が可動体である場合
７．適応先個体においてモデルパラメータのリセットができる場合
８．適応先個体のモデルと他のモデルとの重み付けを行う例
９．学習用データの管理の例
１０．共有クラウドサーバ以外を利用する場合
１１．その他の例

＜１．情報処理システムについて＞
図１は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。

図１に示す情報処理システムは、ある部屋に存在するロボットと共有クラウドサーバ１が、インターネットなどのネットワーク１１を介して接続されることによって構成される。ロボットと共有クラウドサーバ１は相互に通信を行うことが可能とされる。

図１の例においては、四足歩行が可能な犬型のロボットであるロボットＡとロボットＢが室内に存在する。ロボットＡとロボットＢは、例えば、室内に設置されたルータなどを介してネットワーク１１に接続される。

この例においては四足歩行が可能なロボットが用いられているが、二足歩行が可能なロボット、産業用途などに用いられるアーム型のロボットなどの他の形状のロボットが用いられるようにしてもよい。

また、図１の例においては２台のロボットが存在するものとされているが、同じ部屋にさらに多くのロボットが用意されるようにしてもよい。ある１つの部屋が示されているが、ネットワーク１１には、他の部屋、工場などの建物の屋内の空間、屋外の空間などのさらに多くの環境に存在するロボットが接続される。

ロボットＡとロボットＢは、内蔵するコンピュータによって所定のプログラムを実行し、頭、腕、足などの各部位を駆動させることによってそれぞれ自律的な行動をとる。

ロボットＡとロボットＢの行動などの各種の処理は、それぞれが有するモデルによって規定される。モデルは、例えば、カメラやマイクなどの各種のセンサにより検出された周囲の環境を入力として、入力に応じた行動を出力する。

ロボットＡとロボットＢにおいては、それぞれのモデルを構成するモデルパラメータが、周囲の環境に基づいて繰り返し学習される。

図２は、モデルパラメータの学習の例を示す図である。

図２の上段に示すように、ある環境に導入された直後（時刻０）のロボットＡのモデルは、デフォルトのモデルパラメータにより構成される初期モデルとなる。

ロボットＡにおいては、学習用データを用いた学習が行われることによりモデルパラメータが更新され、矢印＃１の先に示すように、更新されたモデルパラメータにより構成されるモデルが生成される。例えば、カメラやマイクなどの各種のセンサによってロボットＡにより取得された情報を学習用データとして、モデルパラメータの学習が行われる。

また、時刻１におけるモデルを構成するモデルパラメータの学習が同様にして行われることにより、矢印＃２の先に示すように、さらに更新されたモデルパラメータにより構成されるモデルが生成される。

このようなモデルパラメータの学習が繰り返されることにより、ロボットＡのモデルパラメータは、ロボットＡが導入された環境に自動的に適応していくことになる。環境に適応したモデルパラメータに基づく行動は、モデルパラメータの学習が行われていない、すなわち、環境に適応していないモデルパラメータに基づく行動と比べて、仕事効率が高い。

ロボットＢにおいても、同様にしてモデルパラメータの学習が行われる。

図１の共有クラウドサーバ１は、ある個体のロボットからアップロードされた学習済みのモデルパラメータを受信し、内部のデータベースに記憶させて管理するサーバである。

このように、共有クラウドサーバ１は、学習済みのモデルパラメータを管理する管理装置として機能する。共有クラウドサーバ１の機能が、１台のサーバによって実現されるようにしてもよいし、複数台のサーバによって実現されるようにしてもよい。

また、共有クラウドサーバ１は、管理しているモデルパラメータを別の個体のロボットに提供する（ダウンロードさせる）。例えば、ダウンロード先となるロボットと同じ環境に存在するロボットからアップロードされた学習済みのモデルパラメータが提供される。

モデルパラメータの提供を受けたロボットは、自分から見て別のロボットにより学習された学習済みのモデルパラメータにより構成されるモデルに従って行動する。また、モデルパラメータの提供を受けたロボットは、自身が取得した学習用データを用いて、モデルパラメータの学習を行う。

モデルパラメータの提供を受けたロボットは、別のロボットにより学習されたモデルパラメータをベースとして、自身が存在する環境に応じた学習を行い、自身のモデルパラメータを環境に適応させていくことになる。

以下、学習済みのモデルパラメータを共有クラウドサーバ１にアップロードするロボットを、適応元のロボットという。適応元のロボットは、モデルパラメータの学習を繰り返すことにより、環境に既に適応しているロボットである。

また、学習済みのモデルパラメータを共有クラウドサーバ１からダウンロードするロボットを、適応先のロボットという。ダウンロード前の適応先のロボットは、モデルパラメータの学習を繰り返していないため、環境にまだ適応していないロボットである。

適応元のロボットがロボットＡであり、適応先のロボットがロボットＢであるものとして説明する。

時刻ｔにおける、ロボットＡのモデルパラメータをM(At)、ロボットＢのモデルパラメータをM(Bt)とする。また、時刻ｔにおいてM(At)の学習に用いられた学習用データをD(At)とする。学習用データD(At)には、時刻t-1までの学習用データは含まれないものとする。

図３は、モデルパラメータの送受信の例を示す図である。

図３の左上に示すように、適応元のロボットであるロボットＡにおいては、モデルパラメータM(A0)の学習が適応後も行われ、矢印＃１１に示すように、モデルパラメータM(At)が生成される。

モデルパラメータM(At)は、矢印＃１２に示すように共有クラウドサーバ１にアップロードされ、共有クラウドサーバ１において管理される。

モデルパラメータM(At)のアップロード後、ロボットＡにおいては、モデルパラメータM(At)をベースにした学習が行われる。モデルパラメータM(At)をベースにした学習が行われることにより、矢印＃１３に示すように、アップロード後のロボットＡの環境にさらに適応したモデルパラメータであるモデルパラメータM(AT)が生成される。

一方、図３の右上に示すように、適応先のロボットであるロボットＢのモデルが初期モデルであるものとする。ロボットＢは、例えば、ロボットＡが存在する環境に後から導入されたロボットである。

ロボットＢにおいては、矢印＃２１，＃２２の先に示すように、ロボットＡによりアップロードされ、共有クラウドサーバ１において管理されていたモデルパラメータM(At)がダウンロードされる。モデルパラメータM(At)により構成されるモデルによって、ロボットＢの初期モデルが置き換えられる。

モデルの置き換え後、ロボットＢにおいては、モデルパラメータM(At)をベースにした学習が行われる。学習に用いられる学習用データは、ロボットＢにより取得されたデータである。

モデルパラメータM(At)をベースにした学習が行われることにより、矢印＃２３に示すように、ダウンロード後のロボットＢの環境に適応したモデルパラメータであるモデルパラメータM(BT)が生成される。

このように、ロボットＢは、別の個体のロボットであるロボットＡにより生成されたモデルパラメータM(At)により構成されるモデルによって初期モデルを置き換え、それ以降、自身の環境に応じてモデルパラメータの学習を進めることになる。ロボットＢは、初期モデルを置き換えずにモデルパラメータの学習を進める場合に比べて、自身の環境に、より迅速に適応することができる。

また、モデルパラメータのアップロードとダウンロードがユーザの操作によらずに自動的に行われるため、ユーザは、そのようなモデルパラメータを送受信するための操作を行う必要がない。

例えば、ロボットＡによるモデルパラメータM(At)のアップロードは、ユーザの操作によらずに所定の周期で自動的に行われる。また、ロボットＢによるモデルパラメータM(At)のダウンロードは、ユーザの操作によらずに、導入後の所定のタイミングで自動的に行われる。

以上のようにしてモデルパラメータの送受信を行うロボットの動作についてはフローチャートを参照して後述する。

＜２．各装置の構成＞
・ロボットの構成例
図４は、ロボット２のハードウェア構成例を示すブロック図である。

図４に示すロボット２の構成と同様の構成を、図１のロボットＡ，Ｂが有している。適宜、図４に示すロボット２の構成を、ロボットＡ，Ｂの構成として引用して説明する。

図４に示すように、ロボット２は、制御部３１に対して、入出力部３２、駆動部３３、無線通信部３４、および電源部３５が接続されることによって構成される。

制御部３１は、CPU(Central Processing Unit)、ROM(Read Only Memory)，RAM(Random Access Memory)、フラッシュメモリなどを有するコンピュータにより構成される。制御部３１は、CPUにより所定のプログラムを実行し、ロボット２の全体の動作を制御する。制御部３１を構成するコンピュータは、ロボット２の動作を制御する制御装置として機能する。

例えば、制御部３１は、入出力部３２のカメラ４１から供給された撮影画像に基づいて周囲の環境を認識する。制御部３１は、周囲の環境に応じた行動をモデルに従って決定し、決定した行動をとるように、駆動部３３の各部を制御する。

また、制御部３１は、カメラ４１から供給された撮影画像などを学習用データとして用いることによって、モデルパラメータの学習を行う。

入出力部３２は、カメラ４１、マイク（マイクロフォン）４２、スピーカ４３、タッチセンサ４４、およびLED４５により構成される。

カメラ４１は、ロボット２の目に相当し、周囲の環境を順次撮影する。カメラ４１は、撮影によって得られた静止画像または動画像である撮影画像のデータを制御部３１に出力する。

マイク４２は、ロボット２の耳に相当し、環境音を検出する。マイク４２は、環境音のデータを制御部３１に出力する。

スピーカ４３は、ロボット２の口に相当し、発話音声、効果音、BGMなどの所定の音を出力する。

タッチセンサ４４は、頭部や背中などの所定の部位に設けられる。タッチセンサ４４は、ユーザが触れたことを検出し、ユーザによる接触の内容を表す情報を制御部３１に出力する。

LED４５は、目の位置などのロボット２の各部に設けられる。LED４５は、制御部３１による制御に従って発光し、ユーザに情報を提示する。LED４５に代えて、LCD、有機ELディスプレイなどの小型のディスプレイが設けられるようにしてもよい。目の位置に設けられたディスプレイに各種の目の画像が表示され、それにより、各種の表情が表現されるようにしてもよい。

入出力部３２には、周囲にある物体までの距離を測定する測距センサ、GPSなどの測位センサなどの各種のモジュールが設けられる。

駆動部３３は、制御部３１による制御に従って駆動し、ロボット２の行動を実現する。駆動部３３は、ロール、ピッチ、ヨーなどの関節軸毎に設けられた複数の駆動ユニットにより構成される。

各駆動ユニットは、例えばロボット２のそれぞれの関節に設けられる。各駆動ユニットは、軸回りの回転動作を行うモータ、モータの回転位置を検出するエンコーダ、および、エンコーダの出力に基づいてモータの回転位置や回転速度を適応的に制御するドライバの組み合わせによって構成される。駆動ユニットの数、駆動ユニットの位置などによって、ロボット２のハードウェア構成が定まる。

図４の例においては、駆動ユニット５１−１乃至５１−ｎが設けられる。例えば駆動ユニット５１−１は、モータ６１−１、エンコーダ６２−１、ドライバ６３−１により構成される。駆動ユニット５１−２乃至５１−ｎも、駆動ユニット５１−１と同様の構成を有する。

無線通信部３４は、無線LANモジュール、LTE(Long Term Evolution)に対応した携帯通信モジュールなどの無線通信モジュールである。無線通信部３４は、室内のネットワークに接続された機器や、インターネット上の共有クラウドサーバ１などの外部の装置との間で通信を行う。無線通信部３４は、制御部３１から供給されたデータを外部の装置に送信し、外部の装置から送信されてきたデータを受信する。

電源部３５は、ロボット２内の各部に対して給電を行う。電源部３５は、充電バッテリ７１と、充電バッテリ７１の充放電状態を管理する充放電制御部７２とで構成される。

図５は、制御部３１の機能構成例を示すブロック図である。

図５に示すように、制御部３１は、学習用データ取得部１０１、学習部１０２、モデルパラメータ記憶部１０３、行動決定部１０４、アップロード管理部１０５、およびモデルパラメータ取得部１０６から構成される。図５に示す機能部のうちの少なくとも一部は、制御部３１を構成するCPUにより所定のプログラムが実行されることにより実現される。

学習用データ取得部１０１は、モデルパラメータの学習に用いる学習用データを取得する。学習用データ取得部１０１は、例えば、カメラ４１により撮影された撮影画像、マイク４２により検出された音などを解析することによって学習用データを生成し、取得する。

また、学習用データ取得部１０１は、無線通信部３４を制御して共有クラウドサーバ１と通信を行い、学習用データを共有クラウドサーバ１から取得する。後述するように、適応先のロボットにおいては、共有クラウドサーバ１からダウンロードすることによって取得した学習用データを用いた学習が行われる。

学習用データ取得部１０１により取得された学習用データは、学習部１０２とアップロード管理部１０５に供給される。

学習部１０２は、学習用データ取得部１０１から供給された学習用データに基づいて、モデルパラメータ記憶部１０３に記憶されているモデルパラメータの学習を行う。モデルパラメータの学習は、例えばDeep Learningなどの機械学習により行われる。

モデルパラメータ記憶部１０３は、学習部１０２による学習によって生成されたモデルパラメータを記憶する。モデルパラメータ記憶部１０３に記憶されているモデルパラメータは、適宜、学習部１０２、行動決定部１０４、アップロード管理部１０５、モデルパラメータ取得部１０６により読み出される。

行動決定部１０４は、モデルパラメータ記憶部１０３に記憶されているモデルパラメータにより構成されるモデルに従って行動を決定する。行動決定部１０４は、決定した行動をとるように駆動部３３を制御する。

アップロード管理部１０５は、適応元のロボットとして動作する場合、モデルパラメータ記憶部１０３に記憶されているモデルパラメータを無線通信部３４を制御することによって共有クラウドサーバ１に送信し、アップロードする。また、アップロード管理部１０５は、適宜、学習用データ取得部１０１から供給された学習用データを共有クラウドサーバ１に送信し、アップロードする。

モデルパラメータ取得部１０６は、適応先のロボットとして動作する場合、無線通信部３４を制御することによって共有クラウドサーバ１と通信を行い、モデルパラメータをダウンロードする。モデルパラメータ取得部１０６は、ダウンロードしたモデルパラメータをモデルパラメータ記憶部１０３に記憶させ、モデルの置き換えを行う。

・共有クラウドサーバの構成例
図６は、共有クラウドサーバ１のハードウェア構成例を示すブロック図である。

CPU２０１、ROM２０２、RAM２０３は、バス２０４により相互に接続される。CPU２０１においては、所定のプログラムが実行されることにより情報管理部２０１Ａが実現される。

情報管理部２０１Ａは、モデルパラメータ、学習用データなどの各種のデータを管理する。情報管理部２０１Ａは、通信部２０９を制御し、ロボット２との間で通信を行う。

バス２０４には、さらに、入出力インタフェース２０５が接続される。入出力インタフェース２０５には、キーボード、マウスなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７が接続される。

また、入出力インタフェース２０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部２０８、ネットワークインタフェースなどよりなる通信部２０９、リムーバブルメディア２１１を駆動するドライブ２１０が接続される。

図７は、共有クラウドサーバ１に構築されるデータベースの例を示す図である。

図７に示すように、記憶部２０８には、モデルパラメータのデータベースであるモデルパラメータDB２３１と、学習用データのデータベースである学習用データDB２３２が構築される。

図８は、モデルパラメータDB２３１に記憶されたモデルパラメータの例を示す図である。

図８に示すように、モデルパラメータDB２３１には、各時刻において適応元のロボットからアップロードされたモデルパラメータが、適応元のロボットのIDなどの情報と紐付けて記憶される。

図８の例においては、適応元のロボットである個体Ａから時刻０にアップロードされたモデルパラメータM(A0)、時刻１にアップロードされたモデルパラメータM(A1)、・・・、時刻ｔにアップロードされたモデルパラメータM(At)が記憶されている。

個体ＢからアップロードされたモデルパラメータM(B1)、M(Bt)、個体ＣからアップロードされたモデルパラメータM(C1)、M(Ct)についても、同様にしてモデルパラメータDB２３１に記憶される。モデルパラメータM(B1)，M(C1)は、時刻１のタイミングにおいてアップロードされたモデルパラメータであり、モデルパラメータM(Bt)，M(Ct)は、時刻ｔのタイミングにおいてアップロードされたモデルパラメータである。

このように、モデルパラメータは、過去のモデルパラメータを参照できるように、アップロード元の個体、および、アップロードの時刻と紐付けて管理される。

図９は、学習用データDB２３２に記憶された学習用データの例を示す図である。

図９に示すように、学習用データDB２３２には、各時刻において適応元のロボットからアップロードされた学習用データが、適応元のロボットのIDなどの情報と紐付けて記憶される。

図９の例においては、適応元のロボットである個体Ａから時刻０にアップロードされた学習用データD(A0)、時刻１にアップロードされた学習用データD(A1)、・・・、時刻ｔにアップロードされた学習用データD(At)が記憶されている。

個体Ｂからアップロードされた学習用データD(B1)、D(Bt)、個体Ｃからアップロードされた学習用データD(C1)、D(Ct)についても、同様にして学習用データDB２３２に記憶される。学習用データD(B1)，D(C1)は、時刻１のタイミングにおいてアップロードされた学習用データであり、学習用データD(Bt)，D(Ct)は、時刻ｔのタイミングにおいてアップロードされた学習用データである。

このように、学習用データも、過去の学習用データを参照できるように、アップロード元の個体、および、アップロードの時刻と紐付けて管理される。

＜３．適応元個体の処理＞
ここで、図１０のフローチャートを参照して、適応元の個体であるロボットＡの適応処理について説明する。

ステップＳ１において、ロボットＡの学習用データ取得部１０１は、周囲の環境に適合した学習用データを共有クラウドサーバ１から取得する。

ロボットＡと同じ環境に存在するロボットからアップロードされた学習用データなどのように、ロボットＡが存在する環境用として用意された学習用データが、周囲の環境に適合した学習用データとなる。

このように、ロボットＡの適応処理は、ロボットＡの周囲の環境に適合した学習用データと、その教師データがある場合に行われる。

学習用データは、主に、音声、静止画像、動画像などのメディアデータや、センサによって取得されたセンサデータの時系列データにより構成される。音声は、マイクの特性や周囲の雑音によって動的に変化し、画像は、カメラの特性や周囲の光量などによって動的に変化する。共有クラウドサーバ１から取得された学習用データは、個体の特有のデータとして学習に用いられる。

教師データは、学習用データに対して作成された正解ラベルである。学習用データが静止画像などの静的なデータである場合、識別ラベルが正解ラベルとして用意される。学習用データが音声、動画像などの時系列データである場合、ラベル系列が正解ラベルとして用意される。学習用データとは異なり、基本的には、正解ラベルは個体によって変化しない。

モデルパラメータの学習が、教師データがある形で行われるようにしてもよいし、教師データがない形で行われるようにしてもよい。

共有クラウドサーバ１から取得された学習用データを用いて学習を行うのではなく、ロボットＡ自身により取得された学習用データを用いて学習が行われるようにしてもよい。この場合、学習用データ取得部１０１は、カメラ４１により撮影された撮影画像、マイク４２により検出された音などを解析することによって学習用データを生成し、取得する。

ステップＳ２において、学習部１０２は、学習用データ取得部１０１により取得された学習用データを用いてモデルパラメータの学習を行う。学習によって得られた学習済みのモデルパラメータはモデルパラメータ記憶部１０３に記憶される。

ステップＳ３において、アップロード管理部１０５は、アップロードのタイミングか否かを判定する。モデルパラメータのアップロードは、１日おきといったように所定の間隔で行われる。

前回のアップロードから所定の時間が経過したことから、アップロードのタイミングであるとステップＳ３において判定した場合、ステップＳ４において、アップロード管理部１０５は、学習済みのモデルパラメータをアップロードする。

ステップＳ５において、アップロード管理部１０５は、モデルパラメータの学習に用いた学習用データをアップロードする。このように、学習済みのモデルパラメータとともに、学習に用いられた学習用データがアップロードされるようにしてもよい。学習用データに対して圧縮処理が施され、圧縮後の学習用データがアップロードされるようにしてもよい。

学習用データがアップロードされた場合、または、アップロードのタイミングではないとステップＳ３において判定された場合、ステップＳ１に戻り、同様の処理が繰り返される。

ロボットＡのID、ロボットＡが有しているセンサの型番、学習用データが取得された時刻、GPSやSLAMにより検出された位置情報などの各種の情報がアップロードされるようにしてもよい。また、音声や画像による話者認証が可能であれば、認証された話者の情報がアップロードされるようにしてもよい。

音声や顔画像がアップロードされる場合、プライバシー保護の観点から、音声の特徴量や画像の特徴量といったように、一次変換後のデータがアップロードされるようにしてもよい。一次変換後のデータについても、圧縮処理が施された後にアップロードされるようにしてもよい。

後述するように、複数のユーザが共有して使用するサーバにアップロードするのではなく、プライベートなサーバにアップロードするようにしてデータのアップロードが行われるようにしてもよい。

＜４．適応先個体の処理＞
次に、図１１のフローチャートを参照して、適応先の個体であるロボットＢの適応処理について説明する。

ステップＳ１１において、ロボットＢのモデルパラメータ取得部１０６は、ロボットＢの近傍に、適応済みのモデルパラメータを有するロボットＡが存在するか否かを判定する。

例えば、ロボットＢは、環境への導入時、通信可能な個体の探索を行う。ロボットＢは、探索により見つかった個体から、モデルパラメータの学習の回数を表す情報を取得する。適応済みのモデルパラメータを有するロボットＡが存在するか否かの判定は、このような探索によって取得された情報に基づいて行われる。

ロボットＢの近傍にロボットＡが存在するとステップＳ１１において判定した場合、ステップＳ１２において、モデルパラメータ取得部１０６は、ロボットＡのモデルパラメータが共有クラウドサーバ１にあるか否かを判定する。

ロボットＡのモデルパラメータが共有クラウドサーバ１にあるとステップＳ１２において判定した場合、ステップＳ１３において、モデルパラメータ取得部１０６は、ロボットＢのモデルが初期モデルであるか否かを判定する。

ロボットＢのモデルが初期モデルではないとステップＳ１３において判定した場合、ステップＳ１４において、モデルパラメータ取得部１０６は、ロボットＡのモデルパラメータの信頼性が高いか否かを判定する。

例えば、モデルパラメータの信頼性は、ロボットＡにおける学習の回数、ロボットＡからアップロードされた学習用データの量、学習時のスコアにより表される。例えばロボットＡにおける学習の回数が多いほど、ロボットＡによりアップロードされたモデルパラメータは信頼性が高いといえる。

ロボットＡにおける学習の回数が閾値の回数より多い場合、ロボットＡからアップロードされた学習用データの量が閾値の量より多い場合、または、学習時のスコアが閾値のスコアより高い場合、信頼性が高いと判定される。

ロボットＡのモデルパラメータの信頼性が高いとステップＳ１４において判定した場合、ステップＳ１５において、モデルパラメータ取得部１０６は、ロボットＡのモデルパラメータを共有クラウドサーバ１からダウンロードする。

モデルパラメータ取得部１０６は、モデルパラメータ記憶部１０３に記憶されているモデルパラメータに代えてダウンロードしたモデルパラメータを記憶させることによって、モデルの置き換えを行う。

ロボットＢのモデルが初期モデルであるとステップＳ１３において判定された場合も同様に、ステップＳ１５においてロボットＡのモデルパラメータのダウンロードが行われる。

ロボットＡのモデルパラメータのダウンロードが行われた後、ステップＳ１６において、ダウンロードされたモデルパラメータをベースとした適応処理が行われる。

ステップＳ１６において行われる適応処理は、図１０を参照して説明した処理と同様の処理である。

すなわち、ロボットＢの周囲の環境に適合した学習用データなどを用いて、ダウンロードされたロボットＡのモデルパラメータの学習が行われる。また、学習によって得られたモデルパラメータが、ロボットＢの学習済みのモデルパラメータとして共有クラウドサーバ１にアップロードされる。

ステップＳ１１においてロボットＢの近傍にロボットＡが存在しないと判定された場合、または、ステップＳ１２においてロボットＡのモデルパラメータが共有クラウドサーバ１にないと判定された場合、ステップＳ１６において適応処理が行われる。ステップＳ１４において、ロボットＡのモデルパラメータの信頼性が低いと判定された場合も同様に、ステップＳ１６において適応処理が行われる。ロボットＡのモデルパラメータのダウンロードが行われていないから、ここで行われる適応処理は、ロボットＢの元のモデルパラメータをベースとして行われる。

ステップＳ１６において適応処理が行われた後、ステップＳ１１に戻り、以上の処理が繰り返される。

ロボットＢのモデルが初期モデルである場合、ロボットＢの仕事効率を向上させるためには、ロボットＢのモデルパラメータを周囲の環境に適応させる必要がある。

以上のように、ロボットＢの初期モデルを学習済みのモデルパラメータにより構成されるモデルによって置き換え、それをベースにして学習を進めることにより、ロボットＢのモデルパラメータを、周囲の環境により迅速に適応させることが可能となる。

＜５．適応先個体の処理（変形例）＞
図１２のフローチャートを参照して、適応先の個体であるロボットＢの他の適応処理について説明する。

上述した説明と重複する説明については適宜省略する。図１４以降のフローチャートの説明についても同様である。

図１２に示す処理は、ダウンロードの対象となるデータが学習済みのモデルパラメータではなく、学習用データである点で、図１１を参照して説明した処理と異なる。ダウンロードされた学習用データを用いた学習が、適応先の個体であるロボットＢにおいて行われることになる。

図１２のステップＳ２１乃至Ｓ２４の処理は、図１１のステップＳ１１乃至Ｓ１４の処理と同様の処理である。すなわち、ロボットＢのモデルが初期モデルであるとステップＳ２３において判定された場合、ステップＳ２５において、学習用データ取得部１０１は、ロボットＡの学習用データを共有クラウドサーバ１からダウンロードする。

ロボットＡのモデルパラメータの信頼性が高いとステップＳ２４において判定された場合も同様に、ステップＳ２５においてロボットＡの学習用データのダウンロードが行われる。

ステップＳ２６において、学習部１０２は、ダウンロードされた学習用データに基づいて、モデルパラメータ記憶部１０３に記憶されているモデルパラメータの学習を行う。

ダウンロードされた学習用データに基づいてモデルパラメータの学習が行われた後、ステップＳ２７において適応処理が行われる。適応処理により、ダウンロードされた学習用データに基づく学習後のモデルパラメータをベースにした学習が進められることになる。

このように、ダウンロードした学習用データに基づいて学習が行われるようにすることによっても、ロボットＢのモデルパラメータを、周囲の環境により迅速に適応させることが可能となる。ロボットＢは、学習用データを自ら収集する負担を軽減することが可能となる。

ダウンロードした学習用データを用いた学習に時間がかかる場合、深夜の時間帯など、ユーザからのリクエストが少ない時間帯に学習が行われるようにしてもよい。

＜６．適応先個体が可動体である場合＞
図１３は、ロボットが行動する環境の例を示す図である。

図１３の例においては、ロボットＡ，Ｂの他に、ロボットＡ，Ｂと同様の構成を有するロボットＣが同じ部屋に存在する。ロボットＡ乃至Ｃは可動体（移動が可能な個体）である。例えばロボットＣは、ロボットＡの近傍の位置にも、ロボットＢの近傍の位置にも移動することができる。

ここで、ロボットＡとロボットＢのモデルパラメータは環境に適応済みであり、それらのモデルパラメータが共有クラウドサーバ１にアップロードされているものとする。

また、ロボットＣのモデルが初期モデルであるものとする。ロボットＣは、例えば、ロボットＡ，Ｂが存在する環境に新たに導入されたロボットである。

適応先のロボットとしてのロボットＣは、自身の可動エリアにおいて行動しながら、最近傍に存在するロボットの探索を所定の間隔で行う。ロボットＣは、探索により見つかったロボットによりアップロードされたモデルパラメータをダウンロードして学習を行う。ロボットＡまたはロボットＢが、適応元のロボットとなる。

図１４のフローチャートを参照して、適応先の個体であるロボットＣの適応処理について説明する。

ステップＳ３１において、ロボットＣのモデルパラメータ取得部１０６は、ロボットＣの近傍に、適応済みのモデルパラメータを有するロボットであるロボットＸが存在するか否かを判定する。ロボットＡまたはロボットＢが、予め設定された距離より近い位置に存在する場合、適応済みのモデルパラメータを有するロボットＸが存在するものとして判定される。

適応済みのモデルパラメータを有するロボットＸが存在するとステップＳ３１において判定した場合、ステップＳ３２において、モデルパラメータ取得部１０６は、ロボットＸのモデルパラメータが共有クラウドサーバ１にあるか否かを判定する。

ロボットＸのモデルパラメータが共有クラウドサーバ１にあるとステップＳ３２において判定した場合、ステップＳ３３において、モデルパラメータ取得部１０６は、ロボットＣのモデルが初期モデルであるか否かを判定する。

ロボットＣのモデルが初期モデルではないとステップＳ３３において判定した場合、ステップＳ３４において、モデルパラメータ取得部１０６は、ロボットＸのモデルパラメータの信頼性が高いか否かを判定する。例えば、ロボットＸにおける学習の回数が多いほど、ロボットＸのモデルパラメータの信頼性が高いものとして判定される。

ロボットＸのモデルパラメータの信頼性が高いとステップＳ３４において判定した場合、ステップＳ３５において、モデルパラメータ取得部１０６は、ロボットＸのモデルパラメータを共有クラウドサーバ１からダウンロードする。

ロボットＣのモデルが初期モデルであるとステップＳ３３において判定された場合も同様に、ステップＳ３５においてロボットＸのモデルパラメータのダウンロードが行われる。

ロボットＸのモデルパラメータのダウンロードが行われた後、ステップＳ３６において、ダウンロードされたモデルパラメータをベースとした適応処理が行われる。

ステップＳ３１においてロボットＣの近傍にロボットＸが存在しないと判定された場合も同様に、ステップＳ３６において適応処理が行われる。ロボットＸのモデルパラメータのダウンロードが行われていないから、ここで行われる適応処理は、ロボットＣの元のモデルパラメータをベースとして行われる。

ステップＳ３６において適応処理が行われた後、ステップＳ３１に戻り、以上の処理が繰り返される。ロボットＣが移動したことによって、最近傍の個体が例えばロボットＡからロボットＢに変わった場合、ロボットＢをロボットＸとして、同様の処理が繰り返される。

すなわち、ロボットＢのモデルパラメータが共有クラウドサーバ１にあり、ロボットＣのモデルパラメータよりロボットＢのモデルパラメータの方が信頼性が高い場合、ロボットＢのモデルパラメータのダウンロードが行われる。ロボットＣにおいて用いられていたモデルパラメータは、ダウンロードされたモデルパラメータに置き換えられ、ダウンロードされたモデルパラメータをベースにして、学習が進められる（適応処理が行われる）。

ステップＳ３２においてロボットＸのモデルパラメータが共有クラウドサーバ１にないと判定された場合、または、ステップＳ３４においてロボットＸのモデルパラメータの信頼性が低いと判定された場合、ステップＳ３１に戻り、以上の処理が繰り返される。

以上のように、最近傍に存在するロボットの探索を行い、探索により見つかったロボットのモデルパラメータをダウンロードすることを繰り返すことによっても、ロボットＣのモデルパラメータを、周囲の環境により迅速に適応させることが可能となる。

＜７．適応先個体においてモデルパラメータのリセットができる場合＞
図１５のフローチャートを参照して、適応先の個体であるロボットＢの適応処理について説明する。

この例においては、適応元のロボットがロボットＡであり、適応先のロボットがロボットＢであるものとする。

適応先のロボットＢにおいては、ダウンロードしたモデルパラメータによってモデルパラメータの置き換えを行った後、置き換えたモデルパラメータの性能が低い場合には、元のモデルパラメータに戻すことができるようになされている。

図１５のステップＳ４１乃至Ｓ４５の処理は、図１１のステップＳ１１乃至Ｓ１５の処理と同様の処理である。ステップＳ４５において、ロボットＡのモデルパラメータのダウンロードが行われ、モデルパラメータ記憶部１０３に記憶されているモデルパラメータの置き換えが行われる。

ステップＳ４６において、モデルパラメータ取得部１０６は、ダウンロードしたモデルパラメータを用いた方が、ロボットＢの性能が向上するか否かを判定する。ここでは、置き換え前のモデルパラメータの性能と、ダウンロードされ、新たに置き換えられたモデルパラメータの性能とが評価される。

モデルパラメータの性能は、例えば、共有クラウドサーバ１に用意されている評価用データと正解ラベルとを用いて評価される。

モデルパラメータ取得部１０６は、評価用データと正解ラベルとを共有クラウドサーバ１からダウンロードする。モデルパラメータ取得部１０６は、それぞれのモデルパラメータから構成されるモデルに評価用データを入力し、その出力と正解ラベルとを比べることによって、それぞれのモデルパラメータの性能を評価する。

ダウンロードしたモデルパラメータを用いた場合にはロボットＢの性能が向上しない、すなわち、ダウンロードしたモデルパラメータの方が、置き換え前のモデルパラメータより性能が劣るとステップＳ４６において判定された場合、処理はステップＳ４７に進む。

ステップＳ４７において、モデルパラメータ取得部１０６は、元のモデルパラメータであるロボットＢのモデルパラメータをモデルパラメータ記憶部１０３に記憶させることによって、モデルパラメータの置き換えを行う。ダウンロードされ、モデルパラメータ記憶部１０３に記憶されたモデルパラメータに代えて、置き換え前のロボットＢのモデルパラメータが記憶されることになる。

ステップＳ４８において、モデルパラメータ取得部１０６は、共有クラウドサーバ１にあるロボットＡのモデルパラメータに不良フラグを設定する。不良フラグは、性能が劣るモデルパラメータであることを表す。

ロボットＡから共有クラウドサーバ１にアップロードされたデータにエラーがある可能性があるため、ロボットＡのモデルパラメータ、または、学習用データに不良フラグが設定される。これにより、不良フラグがモデルパラメータまたは学習用データに紐付けられ、ダウンロードするデータを選択する際の指標として利用することが可能となる。

ロボットＡのモデルパラメータに不良フラグが設定された後、ステップＳ４９において適応処理が行われる。

ステップＳ４１において適応済みのモデルパラメータを有するロボットＡが存在しないと判定された場合、または、ステップＳ４２においてロボットＡのモデルパラメータが共有クラウドサーバ１にないと判定された場合も同様に、ステップＳ４９において適応処理が行われる。ステップＳ４４においてロボットＡのモデルパラメータの信頼性が低いと判定された場合、または、ステップＳ４６において、ダウンロードしたモデルパラメータを用いた方がロボットＢの性能が向上すると判定された場合、ステップＳ４９において適応処理が行われる。

ステップＳ４９において適応処理が行われた後、ステップＳ４１に戻り、以上の処理が繰り返される。

ロボットＢの初期モデルを、ダウンロードした学習済みのモデルパラメータにより構成されるモデルによって置き換えたものの、結果的に、ロボットＢの性能が劣ることになってしまうことがある。この場合、ロボットＢの元のモデルパラメータをベースにして学習を進めることにより、ロボットＢのモデルパラメータを、周囲の環境により迅速に適応させることが可能となる。

＜８．適応先個体のモデルと他のモデルとの重み付けを行う例＞
図１６のフローチャートを参照して、適応先の個体であるロボットＢの適応処理について説明する。

この例においても、適応元のロボットがロボットＡであり、適応先のロボットがロボットＢであるものとする。

適応先のロボットＢにおいては、自身のモデルパラメータと、ダウンロードしたモデルパラメータに対して重み付けが行われ、重み付け後のモデルパラメータを足し合わせることによって新たなモデルパラメータが生成される。重み付けは、例えば、モデルパラメータの信頼度に応じて行われる。新たに生成されたモデルパラメータによって、モデルパラメータの置き換えが行われ、学習が進められる。

図１６のステップＳ６１，Ｓ６２の処理は、図１１のステップＳ１１，Ｓ１２の処理と同様の処理である。ステップＳ６２においてロボットＡのモデルパラメータが共有クラウドサーバ１にあると判定された場合、ステップＳ６３において、モデルパラメータ取得部１０６は、ロボットＡのモデルパラメータの信頼性が高いか否かを判定する。

ロボットＡのモデルパラメータの信頼性が高いとステップＳ６３において判定した場合、ステップＳ６４において、モデルパラメータ取得部１０６は、ロボットＡのモデルパラメータを共有クラウドサーバ１からダウンロードする。

ステップＳ６５において、モデルパラメータ取得部１０６は、ダウンロードしたロボットＡのモデルパラメータと、ロボットＢのモデルパラメータに対して、信頼度に応じた重み付けを行う。例えば、ロボットＡのモデルパラメータに評価用データを入力した場合のスコアと、ロボットＢのモデルパラメータに評価用データを入力した場合のスコアがそれぞれ算出される。

スコアにより表される信頼度に応じた重み付け後のロボットＡのモデルパラメータと、重み付け後のロボットＢのモデルパラメータとを足し合わせることによって、新たなモデルパラメータが生成される。生成された新たなモデルパラメータによって、モデルパラメータ記憶部１０３に記憶されているモデルパラメータの置き換えが行われる。

ステップＳ６６において、モデルパラメータ取得部１０６は、重み付けによって生成したモデルパラメータを用いた方が、ロボットＢの性能が向上するか否かを判定する。ここでは、置き換え前のモデルパラメータの性能と、重み付けによって新たに生成されたモデルパラメータの性能とが評価される。

新たに生成されたモデルパラメータを用いた場合にはロボットＢの性能が向上しないとステップＳ６６において判定した場合、ステップＳ６７において、モデルパラメータ取得部１０６は、ロボットＡのモデルパラメータの信頼度を下げる。例えば、信頼度を下げることに応じて、ロボットＡのモデルパラメータの重みも更新され、新たなモデルパラメータが生成される。

ロボットＡのモデルパラメータの信頼度が下げられた後、ステップＳ６８において適応処理が行われる。

ステップＳ６１においてロボットＢの近傍にロボットＡが存在しないと判定された場合、または、ステップＳ６２においてロボットＡのモデルパラメータが共有クラウドサーバ１にないと判定された場合も同様に、ステップＳ６８において適応処理が行われる。ステップＳ６３においてロボットＡのモデルパラメータの信頼性が低いと判定された場合、または、ステップＳ６６において、新たに生成したモデルパラメータを用いた方がロボットＢの性能が向上すると判定された場合、ステップＳ６８において適応処理が行われる。

ステップＳ６８において適応処理が行われた後、ステップＳ６１に戻り、以上の処理が繰り返される。

以上のように、複数のモデルパラメータに重み付けを行うことによって得られたモデルによって初期モデルを置き換え、それをベースにして学習を進めることにより、ロボットＢのモデルパラメータを、周囲の環境により迅速に適応させることが可能となる。

なお、重み付けによって新たなモデルパラメータの生成に用いるモデルパラメータの数は２つに限定されるものではない。例えば、ロボットＢの最近傍にロボットＡが存在し、やや離れたところにロボットＣ、ロボットＤが存在する場合、４つのロボットのモデルパラメータを用いて１つのモデルパラメータが生成されるようにしてもよい。

＜９．学習用データの管理の例＞
図１７は、ロボットが行動する環境の他の例を示す図である。

図１７の例においては、ロボットＡ，Ｂと同様の構成を有するロボット２の他に、ロボット３０１とロボット３０２が同じ部屋に存在する。

ロボット３０１は、移動することができないロボットであり、ロボット３０２は、二足歩行によって移動することが可能なロボットである。ロボット３０１とロボット３０２も、基本的には、図４、図５を参照して説明した構成と同じ構成を有する。

このように、同じ環境に、種類が異なるロボットが存在することもある。構成が異なることにより、ある種類のロボットにより取得された学習用データを、他の種類のロボットの学習に用いることができないことがある。

上述したように、共有クラウドサーバ１においては、各ロボットからアップロードされた学習用データが管理される。学習用データは、どの種類のロボットでも学習に用いることができる汎用データと、種類に依存し、同じ種類のロボットであれば学習に用いることができる固有データに分類される。

図１８は、学習用データの管理の例を示す図である。

図１８に示すように、適応元のロボットである個体Ａから時刻０にアップロードされた学習用データは、汎用データDg(A0)と固有データDi(A0)に分類して管理される。

また、個体Ａから時刻１にアップロードされた学習用データは、汎用データDg(A1)と固有データDi(A1)に分類して管理される。個体Ａから時刻ｔにアップロードされた学習用データは、汎用データDg(At)と固有データDi(At)に分類して管理される。

例えば、汎用のマイクで収録した音のデータに基づく学習用データ、汎用のカメラで撮影して得られた動画像に基づく学習用データは、汎用データとして管理される。

また、特性が特殊なマイクで収録した音のデータに基づく学習用データ、個体特有の信号処理を適用した音のデータに基づく学習用データは、固有データとして管理される。周辺部の歪みが大きいレンズを有するカメラで撮影して得られた動画像に基づく学習用データなども同様に、固有データとして管理される。

個体Ｂと個体Ｃからアップロードされた学習用データも同様に、汎用データと固有データに分類して管理される。汎用データと固有データからなる学習用データについても、適宜、圧縮された状態でアップロードされ、共有クラウドサーバ１において解凍された後に管理される。

このように、学習用データが汎用データと固有データに分類して管理されるようにしてもよい。各ロボットは、例えば、他の個体によりアップロードされた汎用データのみをダウンロードして学習に用いることになる。

これにより、ある種類のロボットに依存する固有のデータに基づいてモデルパラメータの学習が行われるのを防ぐことができる。

適応先の個体の種類に応じて、ダウンロードする学習用データが切り替えられるようにしてもよい。

例えば、ある個体Ｄが個体Ａの学習用データをダウンロードする場合、個体Ｄと個体Ａが同じ種類のロボットであるときには、個体Ｄは、個体Ａの汎用データと固有データをダウンロードし、学習に用いる。また、個体Ｄと個体Ａが異なる種類のロボットであるときには、個体Ｄは、個体Ａの汎用データのみをダウンロードし、学習に用いる。

これにより、適応先の個体は、自身の種類に応じた適切な学習用データを用いて学習を行うことが可能となる。

＜１０．共有クラウドサーバ以外を利用する場合＞
図１９は、サーバにおけるデータ管理の例を示す図である。

モデルパラメータや学習用データを管理するサーバが、複数のユーザが共有して使用する共有クラウドサーバ１であるものとしたが、プライベートクラウドサーバが用いられるようにしてもよい。

この場合、それぞれのユーザは、自身に割り当てられたプライベートクラウドサーバを上述したようなモデルパラメータと学習用データの管理に使用する。

図１９の下段は、プライベートクラウドサーバを用いた場合のデータ管理の例を示している。プライベートクラウドサーバ１乃至３は、それぞれ、ユーザ１乃至３に割り当てられたサーバである。

図１９の例においては、ユーザ１によって用いられる個体Ａの学習用データD1(At)、個体Ｂの学習用データD1(Bt)、および個体Ｃの学習用データD1(Ct)は、プライベートクラウドサーバ１にアップロードされ、管理される。

また、ユーザ２によって用いられる個体Ａの学習用データD2(At)、個体Ｂの学習用データD2(Bt)、および個体Ｃの学習用データD2(Ct)は、プライベートクラウドサーバ２にアップロードされ、管理されている。

ユーザ３によって用いられる個体Ａの学習用データD3(At)、個体Ｂの学習用データD3(Bt)、および個体Ｃの学習用データD3(Ct)は、プライベートクラウドサーバ３にアップロードされる。

プライベートクラウドサーバ１乃至３においては、同様にしてモデルパラメータも管理される。共有クラウドサーバを用いた場合、図１９の上段に示すように、全てのユーザのデータが混在して管理されることになる。

なお、顔画像や音声データなどに代表される、個人を特定できるメディアデータについては、共有クラウドサーバを用いずに、プライベートクラウドサーバにアップロードされるようにしてもよい。

プライベートクラウドサーバとは、当該製品を保有している全ユーザで共有されるパブリックなクラウドではなく、個人、もしくは各家庭といったような、狭い範囲で利用されるサーバのことを意味する。

GPSにより測定された位置情報やSLAMの地図情報などを、プライバシーに配慮しながら有効活用するためには、このようなプライベートクラウドサーバを利用することが望ましい。

＜１１．その他の例＞
・制御システムの例
ロボットの行動が、ロボットが内蔵するコンピュータである制御部３１により制御されるものとしたが、外部の装置により制御されるようにしてもよい。この場合、ロボットのモデルパラメータも外部の装置において管理される。

図２０は、制御システムの構成例を示す図である。

図２０の制御システムは、ロボット２と制御サーバ３１１がインターネットなどのネットワーク３１２を介して接続されることによって構成される。ロボット２と制御サーバ３１１は、ネットワーク３１２を介して通信を行う。

制御サーバ３１１は、ロボット２の環境に適合した学習用データを取得し、上述したようにしてモデルパラメータの学習を行う。また、制御サーバ３１１は、学習を行うことによって得られたモデルパラメータから構成されるモデルを用いてロボット２の行動を決定し、行動の内容を表す情報をロボット２に対して送信する。

ロボット２においては、制御サーバ３１１から供給された情報に基づいて各部が駆動され、これにより、各種の行動が実現される。

このように、制御サーバ３１１は、ロボット２のモデルパラメータを管理し、ロボット２の行動を制御する制御装置として機能する。制御サーバ３１１は、図６を参照して説明した、共有クラウドサーバ１の構成と同じハードウェア構成を有する。制御サーバ３１１においては、所定のプログラムが実行されることにより、図５の各機能部が実現される。

・コンピュータの構成例
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。

インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなる図６に示されるリムーバブルメディア２１１に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

・構成の組み合わせ例
本技術は、以下のような構成をとることもできる。

（１）
第１のロボットにより学習が行われることによって生成された、前記第１のロボットのモデルを構成する第１のパラメータを取得するパラメータ取得部と、
第２のロボットのモデルを構成する第２のパラメータを置き換えた前記第１のパラメータを、前記第２のロボットが存在する環境に応じて学習する学習部と
を備える制御装置。
（２）
前記パラメータ取得部は、前記第２のロボットが存在する環境と同じ環境において学習が行われることによって生成された前記第１のパラメータを取得する
前記（１）に記載の制御装置。
（３）
前記パラメータ取得部は、前記第１のロボットからアップロードされた前記第１のパラメータを管理する管理サーバから、前記第１のパラメータをダウンロードして取得する
前記（１）または（２）に記載の制御装置。
（４）
前記第１のパラメータの学習に用いられた学習用データを取得する学習用データ取得部をさらに備え、
前記学習部は、前記学習用データ取得部により取得された前記学習用データに基づいて前記第１のパラメータの学習を行う
前記（１）に記載の制御装置。
（５）
前記学習用データ取得部は、前記第１のロボットからアップロードされた前記学習用データを管理する管理サーバから、前記学習用データをダウンロードして取得する
前記（４）に記載の制御装置。
（６）
前記第２のロボットが移動可能なロボットである場合、
前記パラメータ取得部は、複数の前記第１のロボットのうち、前記第２のロボットに最も近い前記第１のロボットのモデルを構成する前記第１のパラメータを取得する
前記（１）乃至（３）のいずれかに記載の制御装置。
（７）
前記パラメータ取得部は、前記第１のパラメータにより構成されるモデルより、前記第１のパラメータによる置き換え前の、前記第２のパラメータにより構成されるモデルの方が性能が高い場合、前記第１のパラメータを、置き換え前の前記第２のパラメータに置き換える
前記（１）乃至（３）のいずれかに記載の制御装置。
（８）
前記パラメータ取得部は、前記第１のパラメータと前記第２のパラメータに対して重み付けを行うことによって第３のパラメータを生成し、
前記学習部は、前記第３のパラメータの学習を行う
前記（１）乃至（３）のいずれかに記載の制御装置。
（９）
前記パラメータ取得部は、それぞれの信頼度に基づいて、前記第１のパラメータと前記第２のパラメータに対して重み付けを行う
前記（８）に記載の制御装置。
（１０）
学習によって更新された前記第１のパラメータを前記管理サーバにアップロードするアップロード管理部をさらに備える
前記（１）乃至（９）のいずれかに記載の制御装置。
（１１）
前記アップロード管理部は、前記第１のパラメータの学習に用いられた学習用データを前記管理サーバにアップロードする
前記（１０）に記載の制御装置。
（１２）
前記第２のロボットを制御する装置として前記第２のロボットの筐体に設けられる
前記（１）乃至（１１）のいずれかに記載の制御装置。
（１３）
制御装置が、
第１のロボットにより学習が行われることによって生成された、前記第１のロボットのモデルを構成する第１のパラメータを取得し、
第２のロボットのモデルを構成する第２のパラメータを置き換えた前記第１のパラメータを、前記第２のロボットが存在する環境に応じて学習する
制御方法。
（１４）
コンピュータに、
第１のロボットにより学習が行われることによって生成された、前記第１のロボットのモデルを構成する第１のパラメータを取得し、
第２のロボットのモデルを構成する第２のパラメータを置き換えた前記第１のパラメータを、前記第２のロボットが存在する環境に応じて学習する
処理を実行させるためのプログラム。

１共有クラウドサーバ，２ロボット，１１ネットワーク，３１制御部，３３駆動部，３４無線通信部，１０１学習用データ取得部，１０２学習部，１０３モデルパラメータ記憶部，１０４行動決定部，１０５アップロード管理部，１０６モデルパラメータ取得部，２０１Ａ情報管理部，２０８記憶部，２３１モデルパラメータDB，２３２学習用データDB，３１１制御サーバ

Claims

第１のロボットにより学習が行われることによって生成された、前記第１のロボットのモデルを構成する第１のパラメータを取得するパラメータ取得部と、
第２のロボットのモデルを構成する第２のパラメータを置き換えた前記第１のパラメータを、前記第２のロボットが存在する環境に応じて学習する学習部と
を備える制御装置。
前記パラメータ取得部は、前記第２のロボットが存在する環境と同じ環境において学習が行われることによって生成された前記第１のパラメータを取得する
請求項１に記載の制御装置。
前記パラメータ取得部は、前記第１のロボットからアップロードされた前記第１のパラメータを管理する管理サーバから、前記第１のパラメータをダウンロードして取得する
請求項１に記載の制御装置。
前記第１のパラメータの学習に用いられた学習用データを取得する学習用データ取得部をさらに備え、
前記学習部は、前記学習用データ取得部により取得された前記学習用データに基づいて前記第１のパラメータの学習を行う
請求項１に記載の制御装置。
前記学習用データ取得部は、前記第１のロボットからアップロードされた前記学習用データを管理する管理サーバから、前記学習用データをダウンロードして取得する
請求項４に記載の制御装置。
前記第２のロボットが移動可能なロボットである場合、
前記パラメータ取得部は、複数の前記第１のロボットのうち、前記第２のロボットに最も近い前記第１のロボットのモデルを構成する前記第１のパラメータを取得する
請求項１に記載の制御装置。
前記パラメータ取得部は、前記第１のパラメータにより構成されるモデルより、前記第１のパラメータによる置き換え前の、前記第２のパラメータにより構成されるモデルの方が性能が高い場合、前記第１のパラメータを、置き換え前の前記第２のパラメータに置き換える
請求項１に記載の制御装置。
前記パラメータ取得部は、前記第１のパラメータと前記第２のパラメータに対して重み付けを行うことによって第３のパラメータを生成し、
前記学習部は、前記第３のパラメータの学習を行う
請求項１に記載の制御装置。
前記パラメータ取得部は、それぞれの信頼度に基づいて、前記第１のパラメータと前記第２のパラメータに対して重み付けを行う
請求項８に記載の制御装置。
学習によって更新された前記第１のパラメータを前記管理サーバにアップロードするアップロード管理部をさらに備える
請求項３に記載の制御装置。
前記アップロード管理部は、前記第１のパラメータの学習に用いられた学習用データを前記管理サーバにアップロードする
請求項１０に記載の制御装置。
前記第２のロボットを制御する装置として前記第２のロボットの筐体に設けられる
請求項１に記載の制御装置。
制御装置が、
第１のロボットにより学習が行われることによって生成された、前記第１のロボットのモデルを構成する第１のパラメータを取得し、
第２のロボットのモデルを構成する第２のパラメータを置き換えた前記第１のパラメータを、前記第２のロボットが存在する環境に応じて学習する
制御方法。
コンピュータに、
第１のロボットにより学習が行われることによって生成された、前記第１のロボットのモデルを構成する第１のパラメータを取得し、
第２のロボットのモデルを構成する第２のパラメータを置き換えた前記第１のパラメータを、前記第２のロボットが存在する環境に応じて学習する
処理を実行させるためのプログラム。