JP2018173790A

JP2018173790A - 学習装置、学習方法、学習プログラム、動画配信装置、活動装置、活動プログラムおよび動画生成装置

Info

Publication number: JP2018173790A
Application number: JP2017071117A
Authority: JP
Inventors: 量生川上; Kazuo Kawakami; 寛明齊藤; Hiroaki Saito; 慶介大垣; Keisuke OGAKI
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2018-11-08
Anticipated expiration: 2037-03-31
Also published as: JP6326167B1

Abstract

【課題】オブジェクトの動作を学習する。【解決手段】学習装置１は、オブジェクトＯに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたモーションデータ１６を生成するモーション生成部２２と、モーションデータ１６に従って、オブジェクトＯの動作部の動きを試みて、アクションに対する評価値を出力し、アクションの識別子とモーションデータと評価値とを対応づけて学習データＴに記憶する更新部２３とを備える。モーション生成部２２は、オブジェクトに行わせるアクションの識別子に対応づけられた学習データＴを参照して、新たなモーションデータを生成する。【選択図】図３

Description

本発明は、仮想領域で、動作部を備えるオブジェクトが学習する学習装置、学習方法、学習プログラム、動画配信装置、オブジェクト活動装置、オブジェクト活動プログラムおよび動画生成装置に関する。

近年、機械学習が広く普及しており、ロボットなどの思考ルーチンや様々なゲームに登場する非プレイヤキャラクタ（ＮＰＣ）の思考ルーチンを自動構築する技術が知られている（例えば特許文献１参照）。この特許文献１において、所定の状況において、エージェントが取る行動を決定する思考ルーチンを自動構築する方法が、開示されている。

特許第５８７４２９２号公報

人工生命体と称されるオブジェクトの学習においては、取るべき行動を決定する意思決定の学習段階と、行動を行うための一連の動作を学習する学習段階の２段階に分かれることが知られている。しかしながら、特許文献１に記載の技術において、一連の動作の学習については、何ら触れられていない。

従って本発明の目的は、オブジェクトが動作を学習する学習装置、学習方法、学習プログラム、動画配信装置、オブジェクト活動装置、オブジェクト活動プログラムおよび動画生成装置を提供することである。

上記課題を解決するために、本発明の第１の特徴は、動作部を備えるオブジェクトが学習する学習装置に関する。第１の特徴に係る学習装置は、オブジェクトに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、モーションデータに従って、オブジェクトの動作部の動きを試みて、アクションに対する評価値を出力し、アクションの識別子とモーションデータと評価値とを対応づけて学習データに記憶する更新部とを備え、モーション生成部は、オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成する。

オブジェクトは仮想領域で活動し、仮想領域は、複数の部分領域を備え、各部分領域に、当該部分領域の環境値識別子が対応づけられ、学習データは、アクションの識別子とモーションデータと評価値にさらに、部分領域の環境値識別子を対応づけて記憶し、モーション生成部は、オブジェクトが位置する部分領域の環境値識別子に対応づけられた学習データを参照して、新たなモーションデータを生成しても良い。

モーションデータは、動作部について、動作部の動きと、動きを試みる時間とが対応づけられたペアを複数備え、更新部は、モーションデータで生成された複数のペアに基づいて動きを試みた後に、評価値を出力しても良い。

オブジェクトが、モーションデータに従って動作部の動きを試みる状態を示す動画データを逐次生成して配信する配信部をさらに備えても良い。

本発明の第２の特徴は、動作部を備えるオブジェクトが学習する学習方法に関する。本発明の第２の特徴に係る学習方法は、コンピュータが、オブジェクトに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するステップと、コンピュータが、モーションデータに従って、オブジェクトの動作部の動きを試みて、アクションに対する評価値を出力し、アクションの識別子とモーションデータと評価値とを対応づけて学習データに記憶するステップと、コンピュータが、オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成するステップを備える。

本発明の第３の特徴は、動作部を備えるオブジェクトが学習する学習プログラムに関する。本発明の第３の特徴に係る学習プログラムは、コンピュータを、オブジェクトに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、モーションデータに従って、オブジェクトの動作部の動きを試みて、アクションに対する評価値を出力し、アクションの識別子とモーションデータと評価値とを対応づけて学習データに記憶する更新部として機能させ、モーション生成部は、オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成する。

本発明の第４の特徴は、動作部を備えるオブジェクトが学習する学習装置に接続する動画配信装置に関する。本発明の第４の特徴において学習装置は、オブジェクトに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、モーションデータに従って、オブジェクトの動作部の動きを試みて、アクションに対する評価値を出力し、アクションの識別子とモーションデータと評価値とを対応づけて学習データに記憶する更新部とを備え、モーション生成部は、オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成し、動画配信装置は、学習装置において生成された学習データを用いて、オブジェクトが、動作部の動きを試みる状態を示す動画データを逐次生成して配信する。

本発明の第５の特徴は、動作部を備えるオブジェクトが学習する学習装置に接続する活動装置に関する。本発明の第５の特徴において学習装置は、オブジェクトに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、モーションデータに従って、オブジェクトの動作部の動きを試みて、アクションに対する評価値を出力し、アクションの識別子とモーションデータと評価値とを対応づけて学習データに記憶する更新部とを備え、モーション生成部は、オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成し、活動装置は、学習装置で生成された学習データを用いて、オブジェクトを動作させる。

本発明の第６の特徴は、動作部を備えるオブジェクトが学習する学習装置に接続する活動プログラムに関する。本発明の第６の特徴において学習装置は、オブジェクトに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、モーションデータに従って、オブジェクトの動作部の動きを試みて、アクションに対する評価値を出力し、アクションの識別子とモーションデータと評価値とを対応づけて学習データに記憶する更新部とを備え、モーション生成部は、オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成し、活動プログラムは、コンピュータに、学習装置で生成された学習データを用いて、オブジェクトを動作させる。

本発明の第７の特徴は、動作部を備えるオブジェクトが学習する学習装置に接続する動画生成装置に関する。本発明の第７の特徴において学習装置は、オブジェクトに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、モーションデータに従って、オブジェクトの動作部の動きを試みて、アクションに対する評価値を出力し、アクションの識別子とモーションデータと評価値とを対応づけて学習データに記憶する更新部とを備え、モーション生成部は、オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成し、動画生成装置は、学習装置で生成された学習データを用いて、オブジェクトが、動作部の動きを試みる状態を示す動画データを逐次生成する。

本発明によれば、オブジェクトが動作を学習する学習装置、学習方法、学習プログラム、動画配信装置、オブジェクト活動装置、オブジェクト活動プログラムおよび動画生成装置を提供することができる。

本発明の実施の形態に係る学習システムのシステム構成を説明する図である。オブジェクトが仮想領域を活動する様子の一例を説明する図である。本発明の実施の形態に係る学習装置のハードウエア構成および機能ブロックを説明する図である。本発明の実施の形態に係る仮想領域と部分領域を説明する図である。本発明の実施の形態に係る領域属性データのデータ構造とデータの一例を説明する図である。本発明の実施の形態に係る環境値データのデータ構造とデータの一例を説明する図である。本発明の実施の形態に係るオブジェクト属性データのデータ構造とデータの一例を説明する図である。本発明の実施の形態に係る動作部属性データのデータ構造とデータの一例を説明する図である。本発明の実施の形態に係る評価値指標データのデータ構造とデータの一例を説明する図である。本発明の実施の形態に係る学習データのデータ構造とデータの一例を説明する図である。本発明の実施の形態に係る学習部による学習処理を説明するフローチャートである。本発明の実施の形態に係るモーションデータの一例を説明する図である。本発明の実施の形態に係るモーションデータによる動作部の動きの一例を説明する図である。本発明の変形例に係る学習システムのシステム構成を説明する図である。本発明の変形例に係る学習システムにおけるデータの流れの一例を説明する図である。

次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。

（学習システム）
図９に示される本発明の実施の形態に係る学習システム９は、人工生命体と称されるオブジェクトＯの活動を、コンピュータ上でシミュレートし、シミュレート結果を動画として提供する。本発明の実施の形態においては特に、オブジェクトＯは、動作部を備える。オブジェクトＯは、オブジェクトＯの属性や、オブジェクトＯが配置された領域の環境値などの制限下で、より良い効果が得られる動作部のモーションを学習する。

なお本発明の実施の形態に係るオブジェクトＯは、仮想領域Ｖで活動することを前提に記載するが、これに限らない。オブジェクトＯは、ロボットなどの有体物であって、動作部に対応する部品と、部品を制御するコンピュータを有しても良い。

学習システム９は、図１に示すように、学習装置１、動画配信装置２および端末３を備える。学習装置１、動画配信装置２および端末３は、通信ネットワーク８により相互に通信可能に接続される。

学習装置１は、図２に示すように、仮想領域ＶにおいてオブジェクトＯが活動するシミュレーションを行う。図２に示す例においてオブジェクトＯは、胴体を支える四肢を有し、四足歩行をする犬型形状であるこれに限らない。オブジェクトＯは、二足歩行をする人型形状であっても良いし、図１２等に示すように、放射状に四肢を有する形状であっても良い。

動画配信装置２は、学習装置１によって学習されたオブジェクトＯの動きの動画を、端末３に配信する。

端末３は、動画配信装置２から配信された動画を再生する。また端末３は、学習装置１に対して、学習の開始または終了の指示を入力したり、オブジェクトＯに行わせるアクションを指定したりしても良い。

本発明の実施の形態において、学習装置１、動画配信装置２および端末３はそれぞれ異なる装置である場合を説明するが、同一の装置に所定の機能が実装されても良い。例えば、学習装置１が動画データを端末３に配信しても良いし、学習装置１で動画を再生しても良い。

（学習装置）
図３を参照して、本発明の実施の形態に係る学習装置１を説明する。

本発明の実施の形態に係る学習装置１は、人工生命体とも称されるオブジェクトの活動をシミュレートする。

オブジェクトＯにおいて動作部は、オブジェクトＯを構成する部品を接続する関節である。またオブジェクトを構成する部品が武器や道具などの動作可能な部品である場合、この部品も動作部となる。この関節を所定方向に曲げたり回転させたりする一連のモーションを試みて、所定のアクションにおいてより良い効果が得られるように学習する。本発明の実施の形態において、オブジェクトＯが複数の動作部を備える場合を説明するが、一つの動作部を備えても良い。

本発明の実施の形態において「アクション」は、オブジェクトＯ全体で行う動作であって、例えば、前進、後進、回転、ジャンプなどである。またオブジェクトＯの動作部が道具である場合、「アクション」は、道具の使用が含まれる。例えば、動作部が銃である場合、「アクション」は、前方射撃が含まれる。

本発明の実施の形態において「モーション」は、アクションを行うための、オブジェクトＯの各動作部の一連の動きの組み合わせである。「モーション」単位で、アクションの効果が評価される。所定時間以内に行う、オブジェクトＯの各動作部の動作の組み合わせを、モーションとして生成する。オブジェクトＯの属性や、オブジェクトＯが配置された領域の環境値などの制限下で、オブジェクトＯに、生成したモーションに従って動作するように試みさせる。

モーションは、アクション毎に評価される。例えば、前進のアクションを行わせるために生成されたモーションは、そのモーションを行った結果、前進した距離が大きいほど、評価が高くなる。学習装置１は、アクション毎に行ったモーションの評価に基づいて新たなモーションを生成して、より評価の高いモーションを模索して、学習する。

図３に示すように学習装置１は、記憶装置１０、処理装置２０、入力装置３０、出力装置４０および通信制御装置５０を備える一般的なコンピュータである。一般的なコンピュータが所定の処理を実行するための学習プログラムを実行することにより、図３に示す各機能を実現する。

記憶装置１０は、学習プログラムを記憶するとともに、領域属性データ１１、環境値データ１２、オブジェクト属性データ１３、動作部属性データ１４、評価指標データ１５、モーションデータ１６、学習データＴおよび動画データＭを記憶する。領域属性データ１１、環境値データ１２、オブジェクト属性データ１３、動作部属性データ１４および評価指標データ１５は、本発明の実施の形態において、オブジェクトＯが仮想領域Ｖで活動する際に用いられる参照データである。モーションデータ１６、学習データＴおよび動画データＭは、オブジェクトＯが仮想領域Ｖで活動する際に得られるデータであって、適宜更新される。

本発明の実施の形態において仮想領域Ｖは、複数の部分領域Ｄを備え、各部分領域Ｄに、当該部分領域Ｄの環境値識別子が対応づけられる。図４（ａ）に示すように、オブジェクトＯが平面で活動する場合、平面形状の仮想領域Ｖは複数の部分領域Ｄに分割される。図４（ｂ）に示すように、オブジェクトＯが空間で活動する場合、空間形状の仮想領域Ｖは複数の部分領域Ｄに分割される。各部分領域Ｄは、例えば、２〜５のモーションデータを学習させることで、他の部分領域Ｄに移動可能な程度の大きさを有する。部分領域Ｄの一辺は、例えば、オブジェクトＯの大きさの約１．５倍から５倍程度の大きさを有することが好ましい。

領域属性データ１１および環境値データ１２は、仮想領域Ｖの各部分領域Ｄの環境値を対応づける。領域属性データ１１および環境値データ１２は、オブジェクトＯの活動領域における活動条件に対応する。

領域属性データ１１は、オブジェクトＯが活動する部分領域Ｄの環境値を対応づけるデータである。図５に示すように領域属性データ１１は、部分領域識別子と、環境値識別子を対応づけたデータである。

本発明の実施の形態で用いられる環境値の数は、各仮想領域Ｖで用いられる部分領域Ｄの数よりも少なく設定されることが好ましい。換言すると、所定の環境値は、複数の部分領域Ｄに紐づけられ、所定の環境値における学習データは、その環境値が紐づけられる複数の部分領域Ｄの学習データとして参酌される。このように、仮想領域Ｖを複数の部分領域Ｄに分割し、各部分領域Ｄ毎に学習データを蓄積することによって、学習における計算量を削減し、効率的に学習することが可能になる。

環境値データ１２は、部分領域Ｄに対応づけられる環境値識別子と、環境値のパラメータの組み合わせを対応づけるデータである。環境値データ１２は、図６に示すように、環境値識別子、傾斜、摩擦、重力、吸着力、水深、気温等が対応づけられる。例えば気温は、オブジェクトＯのエネルギー消費量に影響を与える。環境値データ１２は、各部分領域Ｄの環境値の組み合わせを対応づける。なお、環境値データ１２において、部分領域Ｄの属性によっては設定されない項目があっても良い。

オブジェクト属性データ１３および動作部属性データ１４は、オブジェクトＯおよび動作部の属性を対応づける。オブジェクト属性データ１３および動作部属性データ１４は、オブジェクトＯが活動する際のオブジェクトＯ自身の活動条件に対応する。

オブジェクト属性データ１３は、オブジェクトＯ全体の属性を対応づけるデータである。オブジェクト属性データ１３は、図７に示すように、仮想領域Ｖ内で活動するオブジェクトＯを識別するオブジェクト識別子、オブジェクトＯの種別、オブジェクトＯが選択可能なアクションの識別子および個体値を対応づけたデータである。個体値には、基礎代謝、行動代謝、体力等が含まれる。オブジェクトＯの種別が共通する場合でも、オブジェクト識別子毎に、異なる個体値が対応づけられる。

動作部属性データ１４は、各オブジェクトＯに含まれる動作部の属性を対応づけたデータである。動作部属性データ１４は、図８に示すように、オブジェクト識別子、動作部識別子、個体値を対応づけたデータである。個体値には、形状、筋力、大きさ、重さ、重心、テクスチャ等が含まれる。オブジェクトＯの種別および動作部識別子が共通する場合でも、オブジェクト識別子毎に、異なる個体値が対応づけられる。なお、各動作部のテクスチャの情報は、オブジェクトＯの動きを描画する際に参酌される。

評価指標データ１５は、オブジェクトＯが行うアクション毎の評価関数と評価値を対応づけたデータである。評価指標データ１５は、図９に示すように、アクション識別子、アクション名、評価関数、評価指標を対応づけたデータである。具体的には、「前進」のアクションについては、「前方向の移動量」に基づいて評価され、「移動量が多いほど評価が良い」評価値が付される。また「前方射撃」のアクションについては、「発射された弾丸のずれ」に基づいて評価され、「ずれが少ないほど評価が良い」評価値が付される。ここで「発射された弾丸のずれ」は、「発射された弾丸の発射方向と、オブジェクトＯの前方向との立体角のずれ」である。評価指標データ１５の評価値は、数値で評価されても良いし、数値を区分したレベルで評価されても良い。

モーションデータ１６は、動きの学習において、オブジェクトＯの各動作部に行わせる一連の動きのデータである。モーションデータ１６は、オブジェクトＯに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたデータである。モーションデータ１６は、動作部について、動作部の動きと、動きを試みる時間とが対応づけられたペアを複数備える。モーションデータ１６については、図１２を参照して、後述する。

学習データＴは、モーションデータに基づいてオブジェクトＯに動作させた結果のデータである。学習データＴは、アクション識別子および環境識別子毎に、学習した結果のデータであり、具体的には、アクション識別子、アクション名、環境値識別子、モーションおよび評価値を対応づけたデータである。

動画データＭは、オブジェクトＯが学習する様子の動画データである。

処理装置２０は、学習部２１および動画処理部２６を備える。

学習部２１は、オブジェクトＯに学習させるために、モーション生成部２２と更新部２３を備える。

モーション生成部２２は、オブジェクトＯに行わせるアクションの識別子と、アクションを行わせるための動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成する。モーション生成部２２は、オブジェクトＯに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成する。

モーション生成部２２は、多くの場合、オブジェクトＯの各動作部について、過去に学習した結果を示す学習データＴから、評価の良かったモーションに基づいて、良い評価が期待できるモーションを生成する。またモーション生成部２２は、所定以下の割合で、学習データＴの評価にかかわらず、ランダムでモーションを生成する。良い評価が期待できるモーションのみならず、ランダムにモーションを選択することにより、予見しにくい新たな評価が得られ、その結果、さらに良い評価を得られる場合があり、オブジェクトＯの進化に寄与する。

モーション生成部２２は、オブジェクトＯが位置する部分領域Ｄの環境値識別子に対応づけられた学習データＴを参照して、新たなモーションデータを生成する。本発明の実施の形態において学習データＴは、部分領域Ｄの環境値識別子に紐づけられるので、オブジェクトＯは、オブジェクトＯが位置する部分領域の環境値識別子における過去の学習の結果を参照して、さらに学習する。オブジェクトＯが位置する環境値を個別のパラメータでなく、パラメータの組み合わせとして管理することにより、学習における計算量を削減し、より短い時間で所望の学習結果を得ることが可能になる。

更新部２３は、モーションデータ１６に従って、オブジェクトＯの動作部の動きを試みて、アクションに対する評価値を出力し、アクションの識別子とモーションデータと評価値とを対応づけて学習データＴに記憶する。更新部２３は、モーションデータ１６で生成された複数のペアに基づいて動きを試みた後に、評価値を出力する。

更新部２３は、モーションデータ１６として生成された、各動作部の動きと動きを試みる時間とを対応づけたペアに基づいて、動作部の動きの組み合わせの目標を実現するように、オブジェクトＯを動作させる。このとき更新部２３は、オブジェクトＯが位置する部分領域Ｄの環境値、オブジェクトＯの属性および動作部の属性を制約条件として、オブジェクトＯを動作させる。

ここでオブジェクトＯは、オブジェクトＯが位置する部分領域の環境値、オブジェクトＯの属性および動作部の属性によっては、その動作を達成できずに、途中で断念せざるを得ない場合もある。オブジェクトＯは、モーションデータ１６で指定された時間、その動作を試みて達成できない場合であっても、その次の時間に指定された新たな動作を試みる。

更新部２３は、モーションデータ１６として生成されたすべてのペアについて、動作を試みた後、オブジェクトＯに行わせたアクションに対して評価を行う。例えば、「前進」のアクションを行わせた場合、モーションデータ１６に基づいてオブジェクトＯが動作した結果得られた「前方向の移動量」を算出する。また更新部２３は、算出された「前方向の移動量」を、評価指標データ１５に基づいて評価値に換算して、学習データＴに記憶する。

学習部２１は、所定の条件を満たして学習を終了するまで、モーションデータ１６の生成と、学習データＴの更新を繰り返す。学習部２１は、例えば、入力装置３０や通信制御装置５０等から、終了の指示が入力されると、処理を終了する。学習装置１は、所定の学習回数や学習時間に達した際に、処理を終了しても良いし、所定の評価値が得られた際に、処理を終了しても良い。

動画処理部２６は、動画生成部２７と動画配信部２８を備える。

動画生成部２７は、オブジェクトＯが、モーションデータ１６に従って動作部の動きを試みる状態を示す動画データを逐次生成する。動画生成部２７は、オブジェクトＯの動作部の動きと動きを試みる時間とを対応づけたペアに基づいて、各時間で、各動作部の動きを試みるとともに、オブジェクトＯが位置する部分領域の環境値、オブジェクトＯの属性および動作部の属性によって、その動作を達成できた、あるいは達成できないで途中で止まってしまう状態などを描画する動画データＭを生成する。

動画配信部２８は、動画生成部２７が生成した動画データＭを端末３に配信する。動画配信部２８は、動画生成部２７が生成した動画データＭを、動画配信装置２に送信して、動画配信装置２に配信させても良い。

図１１を参照して、本発明の実施の形態に係る学習部２１による学習処理を説明する。

まずステップＳ１において学習部２１は、オブジェクトＯに行わせるアクションを特定するとともに、オブジェクトＯの位置を特定する。アクションは、入力装置３０を介して入力されても良いし、端末３から入力されても良いし、予めスクリプトとして設定されても良い。ステップＳ２において学習部２１は、学習データＴから、ステップＳ１で特定したアクションおよびオブジェクトＯの位置の環境値識別子に対応する、過去の学習データを抽出する。

ステップＳ３において学習部２１は、ステップＳ２で抽出した過去の学習データを参照して、各動作部のモーションデータ１６を生成する。ここで学習部２１は、過去の学習データＴで良い評価値が得られたモーションデータに基づいて、モーションデータ１６を生成する。また学習部２１は、例えば、モーションデータを１００回生成するうちの５０回以下などの所定以下の割合で、評価値にかかわらず、モーションデータ１６を生成する。

ステップＳ４において学習部２１は、ステップＳ３で生成したモーションデータに従って、各動作部の動きを試みる。学習部２１は、ステップＳ５において、アクションに対応づけられた評価関数を用いて、オブジェクトＯが行ったアクションを評価して、ステップＳ６において学習データＴを更新する。

ステップＳ７において、継続して学習する場合、ステップＳ１に戻る。学習を終了する場合、処理を終了する。

図１２および図１３を参照して、動作部の学習について説明する。

オブジェクトＯは、図１２（ａ）に示すように、球体形状の部品Ｐ１と、部品Ｐ１の周り設けられる四肢を有する。四肢の一つは、二つの円柱形状の部品Ｐ２およびＰ３を備える。部品Ｐ１と部品Ｐ２は、関節Ｎ１により接続され、部品Ｐ２と部品Ｐ３は、関節Ｎ２により接続される。

図１２（ａ）に示すオブジェクトＯは、合計８個の関節により構成されるので、図１２（ｂ）に示すモーションデータ１６は、各関節について、８個のデータセットを有する。図１２（ｂ）に示すモーションデータ１６において、１行目のデータは、第０番目の関節の動作を示し、２行目のデータは、第１番目の関節の動作を示し、合計８行のデータにより構成される。

図１２（ｃ）を参照して、各関節に対応づけられた動作を説明する。第０番目の先頭の記載［１，［３，２，１］］について説明する。［１，［３，２，１］］は、第０番目の関節が、１秒後に、［３，２，１］の状態になるように試みることを意味している。［３，２，１］の状態とは、オイラー角が、［３，２，１］の状態を意味し、具体的には、［０．３＊（７０−３０）＋３０，０．２＊（７０−３０）＋３０，０．１＊（７０−３０）＋３０］であることを意味する。ここで“３０”および“７０”は、第０番目の関節の可動域としてあらかじめ設定された定数である。

図１４（ａ）に示すのが、時間ｔ＝０の状態であって、オブジェクトＯが動きを試みていない状態である。図１４（ａ）では、関節Ｎ２（第０の関節）は、部品Ｐ２およびＰ３を垂直に接続する。一方、図１４（ｂ）は、モーションデータ１６において、１秒後の目標として設定されたオイラー角［３，２，１］の状態を示す。図１４（ｂ）では、関節Ｎ２は、部品Ｐ２およびＰ３を所定の角度分曲げた状態で接続する。

図１４（ｃ）は、オブジェクトＯが、第０の関節について、１秒間、オイラー角［３，２，１］の状態を目指して動作した結果である。関節を曲げる速度は、オブジェクトＯの筋力や重さによって異なるため、１秒以内に、オイラー角［３，２，１］の状態に到達するとは限らず、図１４（ｃ）は、目標とする状態に到達しなかった状態を示す。図１４（ｃ）では、関節Ｎ２は、部品Ｐ２およびＰ３を所定の角度で接続しているものの、図１４（ｂ）に示す目標の状態の角度よりも小さい。

このように、モーションデータ１６において、各関節における各時間の動作目標を設定される。学習部２１は、モーションデータ１６に従って各関節を動かし、目標に達しなかった場合でも、モーションデータ１６に従って、次に設定された目標に向かって動作する。学習部２１は、モーションデータ１６に設定されたすべての関節および時間における動作目標を試みて、その結果を評価する。

図１２および図１３において、関節を曲げる動作について説明したが、これに限られない。例えば、動作部が、バネ形状である場合、モーションデータ１６に、所定時間以内に伸長または縮小する距離が、目標として設定されても良い。動作部が、回転する車輪形状である場合、モーションデータ１６に、所定時間以内に回転する回転角が、目標として設定されても良い。動作部が銃である場合、所定条件を満たした際の発砲の動作が、目標として設定されても良い。

このように本発明の実施の形態に係る学習装置１は、オブジェクトＯがアクション毎に学習する。従って、学習装置１が、オブジェクトＯに様々なアクションを動作させ、動画データＭとして生成することにより、ユーザは、オブジェクトＯが様々なアクションを動作する様子を観察することが可能になる。またオブジェクトＯが活動する仮想領域Ｖを部分領域Ｄに分割することで、オブジェクトＯの位置毎の各種環境値にあわせて学習させる必要がなく、学習に必要な計算量を削減することができる。

（変形例）
図１４および図１５を参照して、本発明の変形例に係る学習システム９ａを説明する。図１４に示す学習システム９ａは、学習装置１ａ、活動装置５、動画生成装置６および動画配信装置７を備える。学習装置１ａは、図３に示す学習装置１のうち、学習部２１を備え、動画処理部２６を備えない。

活動装置５、動画生成装置６および動画配信装置７は、それぞれ、一般的なコンピュータであって、所望の処理を実行するように形成される。活動装置５および動画生成装置６は、学習装置１ａと連携して、学習装置１ａにおいて生成された学習データから生成されたモーションデータに従って、オブジェクトＯが動作する状態を可視化する。

活動装置５は、オブジェクトＯが仮想領域Ｖで活動する場合、活動装置５は、学習装置１ａにおいて生成された学習データから生成されたモーションデータに従って、仮想領域ＶでオブジェクトＯが動きを試みる様子を描画して、表示する。オブジェクトＯが有体物である場合、活動装置５は、学習装置１ａにおいて生成された学習データから生成されたモーションデータに従って、オブジェクトＯが備える各動作部に対応する部品が動くように制御する。

動画生成装置６は、オブジェクトＯが仮想領域Ｖで活動する場合、活動装置５は、学習装置１ａにおいて生成された学習データから生成されたモーションデータに従って、仮想領域ＶでオブジェクトＯが動きを試みる様子を示す動画データＭを生成する。動画生成装置６は、図３に示す学習装置１の動画生成部２７に対応する。また動画生成装置６で生成された動画データＭは、動画配信装置７に送信され、動画配信装置７から各端末（図示せず）に動画データＭが配信され、各端末で動画データＭが再生される。

ここで、活動装置５または動画生成装置６が、学習装置１ａの学習データＴを用いて処理する方法として、下記の方法が考えられる。なお、モーションデータは、学習装置１ｂで生成されても良いし、活動装置５または動画生成装置６で生成されても良い。また活動装置５または動画生成装置６は、学習装置１ａにおいて、モーションデータに従って各動作部の動きを試みた結果を取得して、その結果に従って、動作部の動きを再現しても良い。
（１）活動装置５または動画生成装置６が、図１５に示すように、学習装置１ａから、学習データＴに基づいて生成された新たなモーションデータを取得して、活動装置５または動画生成装置６が、取得したモーションデータに従って、オブジェクトＯの動作部の動きを試みる方法。ここで、学習装置１ａが生成した新たなモーションデータは、学習データＴを元に、評価に関係なくランダムに変異させたものである。
（２）活動装置５または動画生成装置６が、学習装置１ａから、学習データＴを取得して、活動装置５または動画生成装置６が、取得した学習データＴから、モーションデータを抽出し、抽出したモーションデータに従って、オブジェクトＯの動作部の動きを試みる方法。ここで学習装置１ａから取得するモーションデータは、学習データＴにおいて良い評価が得られたモーションデータに従って生成されたもので、良い評価が期待できるモーションデータである。

活動装置５および動画生成装置６等は、様々な場面に適用することが可能になる。例えば、動画生成装置６において、オブジェクトＯを活動させる動画データを生成して配信することにより、オブジェクトが活動する様子を観察するゲームとして提供することが可能になる。一人のユーザが一つのオブジェクトＯに学習させるゲームであっても良いし、複数のユーザが一つのオブジェクトＯに学習させるゲームであっても良い。

また動画生成装置６において、仮想領域Ｖにおいて複数のオブジェクトを活動させる動画データを生成することにより、それぞれのオブジェクトが個性を持った動きをする動画データを生成することができる。このような動画データは、映画やビデオ等のシーンに適用することができる。

このように、学習データＴを生成する装置と、学習データＴを参照してオブジェクトＯが活動する装置とを分けることにより、活動装置５や動画生成装置６における処理負荷が軽減される。また、予め作成した学習データＴを、場面に応じて再利用することが可能になる。

（その他の実施の形態）
上記のように、本発明の実施の形態とその変形例によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。

例えば、本発明の実施の形態に記載した学習装置は、図３に示すように一つのハードウエア上に構成されても良いし、その機能や処理数に応じて複数のハードウエア上に構成されても良い。また、既存の情報処理システム上に実現されても良い。

本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

１学習装置
２、７動画配信装置
３端末
５活動装置
６動画生成装置
８通信ネットワーク
９学習システム
１０記憶装置
１１領域属性データ
１２環境値データ
１３オブジェクト属性データ
１４動作部属性データ
１５評価指標データ
１６モーションデータ
２０処理装置
２１学習部
２２モーション生成部
２３更新部
２６動画処理部
２７動画生成部
２８動画配信部
Ｄ部分領域
Ｍ動画データ
Ｏオブジェクト
Ｔ学習データ
Ｖ仮想領域

本発明は、仮想領域で、動作部を備えるオブジェクトが学習する学習装置、学習方法、学習プログラム、動画配信装置、活動装置、活動プログラムおよび動画生成装置に関する。

従って本発明の目的は、オブジェクトが動作を学習する学習装置、学習方法、学習プログラム、動画配信装置、活動装置、活動プログラムおよび動画生成装置を提供することである。

本発明によれば、オブジェクトが動作を学習する学習装置、学習方法、学習プログラム、動画配信装置、活動装置、活動プログラムおよび動画生成装置を提供することができる。

（学習システム）
図１に示される本発明の実施の形態に係る学習システム９は、人工生命体と称されるオブジェクトＯの活動を、コンピュータ上でシミュレートし、シミュレート結果を動画として提供する。本発明の実施の形態においては特に、オブジェクトＯは、動作部を備える。オブジェクトＯは、オブジェクトＯの属性や、オブジェクトＯが配置された領域の環境値などの制限下で、より良い効果が得られる動作部のモーションを学習する。

本発明の実施の形態において「アクション」は、オブジェクトＯ全体で行う動作であって、例えば、前進、後進、回転、ジャンプなどである。またオブジェクトＯの動作部が道具である場合、「アクション」は、道具の使用を含む。例えば、動作部が銃である場合、「アクション」は、前方射撃を含む。

図１３（ａ）に示すのが、時間ｔ＝０の状態であって、オブジェクトＯが動きを試みていない状態である。図１３（ａ）では、関節Ｎ２（第０の関節）は、部品Ｐ２およびＰ３を垂直に接続する。一方、図１３（ｂ）は、モーションデータ１６において、１秒後の目標として設定されたオイラー角［３，２，１］の状態を示す。図１３（ｂ）では、関節Ｎ２は、部品Ｐ２およびＰ３を所定の角度分曲げた状態で接続する。

図１３（ｃ）は、オブジェクトＯが、第０の関節について、１秒間、オイラー角［３，２，１］の状態を目指して動作した結果である。関節を曲げる速度は、オブジェクトＯの筋力や重さによって異なるため、１秒以内に、オイラー角［３，２，１］の状態に到達するとは限らず、図１３（ｃ）は、目標とする状態に到達しなかった状態を示す。図１３（ｃ）では、関節Ｎ２は、部品Ｐ２およびＰ３を所定の角度で接続しているものの、図１３（ｂ）に示す目標の状態の角度よりも小さい。

Claims

動作部を備えるオブジェクトが学習する学習装置であって、
前記オブジェクトに行わせるアクションの識別子と、前記アクションを行わせるための前記動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、
前記モーションデータに従って、前記オブジェクトの前記動作部の動きを試みて、前記アクションに対する評価値を出力し、前記アクションの識別子と前記モーションデータと前記評価値とを対応づけて学習データに記憶する更新部とを備え、
前記モーション生成部は、前記オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成する
ことを特徴とする学習装置。
前記オブジェクトは仮想領域で活動し、
前記仮想領域は、複数の部分領域を備え、各部分領域に、当該部分領域の環境値識別子が対応づけられ、
前記学習データは、前記アクションの識別子と前記モーションデータと前記評価値にさらに、前記部分領域の環境値識別子を対応づけて記憶し、
前記モーション生成部は、前記オブジェクトが位置する部分領域の環境値識別子に対応づけられた前記学習データを参照して、新たなモーションデータを生成する
ことを特徴とする請求項１に記載の学習装置。
前記モーションデータは、前記動作部について、前記動作部の動きと、前記動きを試みる時間とが対応づけられたペアを複数備え、
前記更新部は、前記モーションデータで生成された複数のペアに基づいて動きを試みた後に、前記評価値を出力する
ことを特徴とする請求項１に記載の学習装置。
前記オブジェクトが、前記モーションデータに従って前記動作部の動きを試みる状態を示す動画データを逐次生成して配信する配信部をさらに備える
ことを特徴とする請求項２に記載の学習装置。
動作部を備えるオブジェクトが学習する学習方法であって、
コンピュータが、前記オブジェクトに行わせるアクションの識別子と、前記アクションを行わせるための前記動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するステップと、
前記コンピュータが、前記モーションデータに従って、前記オブジェクトの前記動作部の動きを試みて、前記アクションに対する評価値を出力し、前記アクションの識別子と前記モーションデータと前記評価値とを対応づけて学習データに記憶するステップと、
前記コンピュータが、前記オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成するステップ
を備えることを特徴とする学習方法。
動作部を備えるオブジェクトが学習する学習プログラムであって、
コンピュータを、
前記オブジェクトに行わせるアクションの識別子と、前記アクションを行わせるための前記動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、
前記モーションデータに従って、前記オブジェクトの前記動作部の動きを試みて、前記アクションに対する評価値を出力し、前記アクションの識別子と前記モーションデータと前記評価値とを対応づけて学習データに記憶する更新部として機能させ、
前記モーション生成部は、前記オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成する
ことを特徴とする学習プログラム。
動作部を備えるオブジェクトが学習する学習装置に接続する動画配信装置であって、
前記学習装置は、
前記オブジェクトに行わせるアクションの識別子と、前記アクションを行わせるための前記動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、
前記モーションデータに従って、前記オブジェクトの前記動作部の動きを試みて、前記アクションに対する評価値を出力し、前記アクションの識別子と前記モーションデータと前記評価値とを対応づけて学習データに記憶する更新部とを備え、
前記モーション生成部は、前記オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成し、
前記動画配信装置は、
前記学習装置において生成された学習データを用いて、前記オブジェクトが、前記動作部の動きを試みる状態を示す動画データを逐次生成して配信することを特徴とする動画配信装置。
動作部を備えるオブジェクトが学習する学習装置に接続する活動装置であって、
前記学習装置は、
前記オブジェクトに行わせるアクションの識別子と、前記アクションを行わせるための前記動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、
前記モーションデータに従って、前記オブジェクトの前記動作部の動きを試みて、前記アクションに対する評価値を出力し、前記アクションの識別子と前記モーションデータと前記評価値とを対応づけて学習データに記憶する更新部とを備え、
前記モーション生成部は、前記オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成し、
前記活動装置は、
前記学習装置で生成された学習データを用いて、オブジェクトを動作させることを特徴とする活動装置。
動作部を備えるオブジェクトが学習する学習装置に接続する活動プログラムであって、
前記学習装置は、
前記オブジェクトに行わせるアクションの識別子と、前記アクションを行わせるための前記動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、
前記モーションデータに従って、前記オブジェクトの前記動作部の動きを試みて、前記アクションに対する評価値を出力し、前記アクションの識別子と前記モーションデータと前記評価値とを対応づけて学習データに記憶する更新部とを備え、
前記モーション生成部は、前記オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成し、
前記活動プログラムは、
コンピュータに、
前記学習装置で生成された学習データを用いて、オブジェクトを動作させることを特徴とする活動プログラム。
動作部を備えるオブジェクトが学習する学習装置に接続する動画生成装置であって、
前記学習装置は、
前記オブジェクトに行わせるアクションの識別子と、前記アクションを行わせるための前記動作部の動きの組み合わせの目標とを対応づけたモーションデータを生成するモーション生成部と、
前記モーションデータに従って、前記オブジェクトの前記動作部の動きを試みて、前記アクションに対する評価値を出力し、前記アクションの識別子と前記モーションデータと前記評価値とを対応づけて学習データに記憶する更新部とを備え、
前記モーション生成部は、前記オブジェクトに行わせるアクションの識別子に対応づけられた学習データを参照して、新たなモーションデータを生成し、
前記動画生成装置は、
前記学習装置で生成された学習データを用いて、前記オブジェクトが、前記動作部の動きを試みる状態を示す動画データを逐次生成する
ことを特徴とする動画生成装置。