JP6865365B2

JP6865365B2 - ディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及びそれを利用した学習装置

Info

Publication number: JP6865365B2
Application number: JP2020007174A
Authority: JP
Inventors: 桂賢金; 鎔重金; 鶴京金; 雲鉉南; 碩▲ふん▼ 夫; 明哲成; 東洙申; 東勳呂; 宇宙柳; 明春李; 炯樹李; 泰雄張; 景中鄭; 泓模諸; 浩辰趙
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-30
Filing date: 2020-01-20
Publication date: 2021-04-28
Anticipated expiration: 2040-01-20
Also published as: EP3690750A1; JP2020123338A; CN111738046A; US10776542B2; KR102300910B1; KR20200094639A; US20200242289A1

Description

本発明は、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置の学習に使用されるバーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）に関し、より詳細には、リアル世界（ＲｅａｌＷｏｒｌｄ）内で次の状態（ＮｅｘｔＳｔａｔｅ）をモデリングするリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）を利用してディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）をキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）する方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及び学習装置に関する。

自律走行自動車などのようなディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置は、一般的に短期プランニング（Ｓｈｏｒｔ−ＴｅｒｍＰｌａｎｎｉｎｇ）により入力されたいくつかのフレームないし数十フレームの間の情報に基づいて次に取るアクション（Ａｃｔｉｏｎ）を決定する。

一例として、自律走行自動車の場合、それぞれのフレームで取得される情報である、検出された物体のバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ）と左／右方向などのメタデータ（ＭｅｔａＤａｔａ）、またはセグメンテーションイメージ（ＳｅｇｍｅｎｔａｔｉｏｎＩｍａｇｅ）に基づいて、（ｉ）ステアリング角度の変化量、（ｉｉ）ブレーキペダルの圧力、（ｉｉｉ）アクセルペダルの圧力のような３次元リアル値ベクトル（Ｒｅａｌ−ＶａｌｕｅｄＶｅｃｔｏｒ）のアクションを出力するようになり、それに伴って自律走行自動車は、前記アクションに応答して自律走行をするようになる。

このような、ディープラーニング基盤装置は、入力状態（Ｓｔａｔｅ）に応じて適正なアクションを決定するよう学習されなければならず、そのための様々な学習方法があるが、現在は一般的にオンポリシー強化学習（Ｏｎ−ＰｏｌｉｃｙＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）を利用している。

また、ディープラーニング基盤装置は、リアル世界（ＲｅａｌＷｏｒｌｄ）で学習され得るが、多様なトレーニングデータを取得するのが難しく、かなり時間が所要されるだけでなく学習に多くの費用がかかるという短所がある。

したがって、ディープラーニング基盤装置をバーチャル世界（ＶｉｒｔｕａｌＷｏｒｌｄ）で学習する方法が提案されている。

しかし、バーチャル世界で学習する場合、バーチャル環境とリアル環境との間のギャップ（Ｇａｐ）により学習結果の信頼性に問題が発生している。

一例として、ディープラーニング基盤の装置が自律走行自動車である場合、バーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）の物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）は、「現在の速度と周辺状況の状態」に応答して「ステアリングホイールを所定の角度に回転させ、ブレーキを所定の圧力で踏むアクション」を取ると、「車両の走行速度、位置、周辺状況等が変わった次の状態（ＮｅｘｔＳｔａｔｅ）」を出力するようになり、これに伴って自律走行自動車を学習させるようになる。

しかし、バーチャル世界シミュレータの物理エンジンにより生成された次の状態と、リアル世界の次の状態との間の誤差が大きいほど、バーチャル世界で学習された最適なアクション（ＯｐｔｉｍａｌＡｃｔｉｏｎ）がリアル世界で最適化されない問題点がある。

一例として、自律走行自動車の場合、バーチャル世界での危険な状況において事故を避けることのできる適切なアクションを学習し、リアル世界の同じ状況で前記適切なアクションを取っても事故が発生する問題点がある。

本発明は、上述した問題点を全て解決することをその目的とする。

本発明は、バーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）の物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）をもって、バーチャル世界とリアル世界との間のギャップ（Ｇａｐ）を最小化する次の状態（ＮｅｘｔＳｔａｔｅ）を出力し得るようにすることを他の目的とする。

本発明は、バーチャル世界がリアル世界とさらに近づくように、バーチャル世界シミュレータの物理エンジンをキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）することをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記のとおりである。

本発明の一態様によると、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置の学習に使用されるバーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）の物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）をキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）する方法において、（ａ）バーチャル環境（ＶｉｒｔｕａｌＥｎｖｉｒｏｎｍｅｎｔ）上のバーチャル現在状態（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＳｔａｔｅ）に対応するバーチャル現在フレーム（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅ）情報が前記バーチャル世界シミュレータから取得されると、キャリブレーション装置が、（ｉ）前記バーチャル現在フレーム情報を前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、以前の学習パラメータを利用して前記バーチャル現在フレーム情報に対して演算を適用させて、前記バーチャル現在フレーム情報に対応するバーチャルアクション（ＶｉｒｔｕａｌＡｃｔｉｏｎ）情報を出力させるプロセス、（ｉｉ）前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記バーチャル世界シミュレータの前記物理エンジンに伝送することによって、前記物理エンジンをもって、以前のキャリブレーション済みパラメータ（ＰｒｅｖｉｏｕｓＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を利用して前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対応するバーチャルネクストフレーム（ＶｉｒｔｕａｌＮｅｘｔＦｒａｍｅ）情報を出力させるプロセス、及び（ｉｉｉ）前記バーチャル現在フレーム情報と前記バーチャルアクション情報とをリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）（前記リアル状態ネットワークはリアル環境（ＲｅａｌＥｎｖｉｒｏｎｍｅｎｔ）上の多数のリアル最近のフレーム（ＲｅａｌＲｅｃｅｎｔＦｒａｍｅ）情報において前記ディープラーニング基盤装置により遂行されたリアルアクション（ＲｅａｌＡｃｔｉｏｎ）に関するリアルアクション情報に応答して多数の予測ネクストフレーム（ＰｒｅｄｉｃｔｅｄＮｅｘｔＦｒａｍｅ）情報を出力するように学習された状態である）に伝送することによって、前記リアル状態ネットワークをもって学習された予測パラメータを利用して、前記バーチャル現在フレーム情報に対応する多数のバーチャル最近のフレーム（ＶｉｒｔｕａｌＲｅｃｅｎｔＦｒａｍｅ）情報と前記バーチャルアクション情報とに対してアクションを適用させて予測リアルネクストフレーム（ＰｒｅｄｉｃｔｅｄＲｅａｌＮｅｘｔＦｒａｍｅ）情報を出力させるプロセスを遂行する段階；及び（ｂ）前記キャリブレーション装置が、前記バーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つのロスが最小化されるように、前記物理エンジンの前記以前のキャリブレーション済みパラメータをキャリブレーションし、最適化して、現在のキャリブレーション済みパラメータ（ＣｕｒｒｅｎｔＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を最適化されたパラメータとして生成するプロセスを遂行することを特徴とする段階；を含むことを特徴とする。

一実施例において、（ｃ）前記キャリブレーション装置が、前記バーチャルアクション情報に対応するリワード（Ｒｅｗａｒｄ）情報と前記バーチャルネクストフレーム情報とを前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、前記バーチャルネクストフレーム情報と前記リワード情報とを利用したオンポリシー強化学習（Ｏｎ−ＰｏｌｉｃｙＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）を通じて前記以前の学習パラメータをアップデートさせる段階；をさらに含むことを特徴とする。

一実施例において、前記（ａ）段階の前記（ｉｉ）プロセスで、前記キャリブレーション装置は、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、前記バーチャル現在フレーム情報と以前に伝送されたｋ個のバーチャル以前フレーム情報とを参照して前記多数のバーチャル最近フレーム情報を生成させることを特徴とする。

一実施例において、前記（ｉｉｉ）プロセスで、前記キャリブレーション装置は、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、（ｉｉｉ−１）（ｉｉｉ−１−１）前記バーチャル現在フレーム情報と前記ｋ個のバーチャル以前フレーム情報とをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して生成されたバーチャル現在フレーム状態の和（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅＳｔａｔｅＳｕｍ）に対してコンボリューション演算（ＣｏｎｖｏｌｕｔｉｏｎＯｐｅｒａｔｉｏｎ）を適用して第１次元ベクトル（ＤｉｍｅｎｓｉｏｎＶｅｃｔｏｒ）を生成させ、（ｉｉｉ−１−２）前記バーチャルアクション情報に対してＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）演算を適用して第２次元ベクトルを生成させ、（ｉｉｉ−２）前記第１次元ベクトルと前記第２次元ベクトルとのコンカチネーション結果に対してデコンボリューション演算を適用して前記予測リアルネクストフレーム情報を生成させることを特徴とする。

一実施例において、前記バーチャル現在フレーム状態の和は、（ｉ）ＨｘＷｘＣテンソル（Ｔｅｎｓｏｒ）である前記バーチャル現在フレーム情報と（ｉｉ）ｋ個の前記バーチャル以前フレーム情報とをコンカチネートして生成されたＨｘＷｘ（Ｋ＋１）テンソルであり、前記第１次元ベクトルはＨＷＣ次元ベクトルであり、前記第２次元ベクトルをＬ次元ベクトルとする場合、前記予測リアルネクストフレーム情報は、前記第１次元ベクトルと前記第２次元ベクトルとをコンカチネートして生成された１ｘ１ｘ（ＨＷＣ＋Ｌ）テンソルに対してデコンボリューション演算を適用して生成されたＨｘＷｘＣテンソルであることを特徴とする。

一実施例において、前記（ｂ）段階で、前記キャリブレーション装置は、（ｉ）前記以前のキャリブレーション済みパラメータのうち一つの以前のキャリブレーション済みパラメータを選択するプロセス、（ｉｉ）前記選択された一つの以前のキャリブレーション済みパラメータを、前記ロスを利用してキャリブレーションし、予め設定された学習率に応じてキャリブレーションして、一つの現在のキャリブレーション済みパラメータを最適化されたパラメータ（ＯｐｔｉｍｉｚｅｄＰａｒａｍｅｔｅｒ）として生成するプロセス、及び（ｉｉｉ）（ｉｉｉ−１）前記物理エンジンをもって、前記一つの現在のキャリブレーション済みパラメータと、前記一つの以前のキャリブレーション済みパラメータを除いた残りの以前のキャリブレーション済みパラメータを利用して、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、新たなバーチャルネクストフレーム情報を生成させるプロセス、及び（ｉｉｉ−２）前記新たなバーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つの新たなロスを利用して前記ロスが減少したのかを確認するプロセスを、前記ロスが減少するまで繰り返すことを特徴とする。

一実施例において、前記以前のキャリブレーション済みパラメータ全てに対して前記ロスが減少しなかった場合、前記キャリブレーション装置は、前記予め設定された学習率を減少させ、前記（ｉ）プロセスと、前記（ｉｉ）プロセスと、前記（ｉｉｉ）プロセスとを遂行することを特徴とする。

本発明の他の態様によると、リアル環境（ＲｅａｌＥｎｖｉｒｏｎｍｅｎｔ）においてディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置により多数のリアル最近のフレーム（ＲｅａｌＲｅｃｅｎｔＦｒａｍｅ）情報で遂行されたリアルアクション（ＲｅａｌＡｃｔｉｏｎ）に関するリアルアクション情報に対応する予測ネクストフレーム（ＰｒｅｄｉｃｔｅｄＮｅｘｔＦｒａｍｅ）情報を生成するリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）を学習する方法において、（ａ）前記リアル環境において前記ディープラーニング基盤装置により遂行された前記リアルアクションに対する前記多数のリアルアクション情報に対応する多数の軌跡（Ｔｒａｊｅｃｔｏｒｙ）情報がトレーニングデータとして取得されると、学習装置が、特定の軌跡情報の特定時点におけるリアル現在フレーム（ＲｅａｌＣｕｒｒｅｎｔＦｒａｍｅ）情報とｋ個の以前のリアルフレーム（ＰｒｅｖｉｏｕｓＲｅａｌＦｒａｍｅ）情報とを参照して多数の学習用最近フレーム情報を生成するプロセスを遂行する段階；（ｂ）前記学習装置が、前記特定時点における前記特定の軌跡情報のリアル現在のアクション情報を参照して取得された学習用アクション情報と前記多数の学習用最近フレーム情報とを前記リアル状態ネットワークに入力することによって、前記リアル状態ネットワークをもって予測パラメータを利用して前記多数の学習用最近フレーム情報と前記学習用アクション情報とに対して演算を適用させて前記予測ネクストフレーム情報を出力させるプロセスを遂行する段階；及び（ｃ）前記学習装置が、前記特定の軌跡情報における前記リアル現在フレーム情報の次のリアルネクストフレーム情報と前記予測ネクストフレーム情報とを参照して生成された少なくとも一つのロスを利用して、前記ロスが最小化されるように前記予測パラメータをアップデートするプロセスを遂行する段階；を含むことを特徴とする。

一実施例において、前記（ｂ）段階で、前記学習装置は、（ｉ）（ｉ−１）前記多数の学習用最近フレーム情報をコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して生成された学習用現在フレーム状態の和（ＣｕｒｒｅｎｔＦｒａｍｅＳｔａｔｅＳｕｍ）を前記リアル状態ネットワークのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に入力して、前記ＣＮＮをもって、前記学習用現在フレーム状態の和に対してコンボリューション演算を適用して第１の特徴（Ｆｅａｔｕｒｅ）を出力させるプロセス、及び（ｉ−２）前記学習用アクション情報を前記リアル状態ネットワークの少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）に入力して、前記少なくとも一つのＦＣレイヤをもって、前記学習用アクション情報に対してＦＣ演算を適用して第２の特徴を出力させるプロセス、及び（ｉｉ）前記第１の特徴と前記第２の特徴とをコンカチネートして生成されたコンカチネート済み特徴をデコンボリューションレイヤ（ＤｅｃｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）に入力して、前記デコンボリューションレイヤをもって、前記コンカチネート済み特徴に対してデコンボリューション演算を適用して前記予測ネクストフレーム情報を出力させるプロセスを遂行することを特徴とする。

一実施例において、前記学習装置は、（ｉ）前記ＣＮＮをもって、ＨｘＷｘＣテンソル（Ｔｅｎｓｏｒ）である前記多数の学習用最近フレーム情報をコンカチネートして生成されたＨｘＷｘ（Ｋ＋１）テンソルである前記学習用現在フレーム状態の和を、ＨＷＣ次元ベクトル（ＤｉｍｅｎｓｉｏｎＶｅｃｔｏｒ）である前記第１の特徴として出力させるプロセス、（ｉｉ）前記少なくとも一つのＦＣレイヤをもって、３次元ベクトルである前記学習用アクション情報を、Ｌ次元ベクトルである前記第２の特徴として出力させるプロセス、及び（ｉｉｉ）前記デコンボリューションレイヤをもって、前記第１の特徴と前記第２の特徴とをコンカチネートして生成された１ｘ１ｘ（ＨＷＣ＋Ｌ）テンソルを、ＨｘＷｘＣテンソルである前記予測ネクストフレーム情報として出力させるプロセスを遂行することを特徴とする。

一実施例において、前記学習装置は、前記ロスを利用した最急降下法（ＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）によって前記少なくとも一つのＣＮＮと、前記少なくとも一つのＦＣレイヤと、前記デコンボリューションレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする。

本発明の他の態様によると、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置の学習に使用されるバーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）の物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）をキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）するキャリブレーション装置において、インストラクションを格納する少なくとも一つのメモリと、（Ｉ）バーチャル環境（ＶｉｒｔｕａｌＥｎｖｉｒｏｎｍｅｎｔ）上のバーチャル現在状態（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＳｔａｔｅ）に対応するバーチャル現在フレーム（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅ）情報が前記バーチャル世界シミュレータから取得されると、（ｉ）前記バーチャル現在フレーム情報を前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、以前の学習パラメータを利用して前記バーチャル現在フレーム情報に対して演算を適用させて、前記バーチャル現在フレーム情報に対応するバーチャルアクション（ＶｉｒｔｕａｌＡｃｔｉｏｎ）情報を出力させるプロセス、（ｉｉ）前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記バーチャル世界シミュレータの前記物理エンジンに伝送することによって、前記物理エンジンをもって、以前のキャリブレーション済みパラメータ（ＰｒｅｖｉｏｕｓＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を利用して前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対応するバーチャルネクストフレーム（ＶｉｒｔｕａｌＮｅｘｔＦｒａｍｅ）情報を出力させるプロセス、及び（ｉｉｉ）前記バーチャル現在フレーム情報と前記バーチャルアクション情報とをリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）（前記リアル状態ネットワークはリアル環境（ＲｅａｌＥｎｖｉｒｏｎｍｅｎｔ）上の多数のリアル最近のフレーム（ＲｅａｌＲｅｃｅｎｔＦｒａｍｅ）情報において前記ディープラーニング基盤装置により遂行されたリアルアクション（ＲｅａｌＡｃｔｉｏｎ）に関するリアルアクション情報に応答して多数の予測ネクストフレーム（ＰｒｅｄｉｃｔｅｄＮｅｘｔＦｒａｍｅ）情報を出力するように学習された状態である）に伝送することによって、前記リアル状態ネットワークをもって学習された予測パラメータを利用して、前記バーチャル現在フレーム情報に対応する多数のバーチャル最近のフレーム（ＶｉｒｔｕａｌＲｅｃｅｎｔＦｒａｍｅ）情報と前記バーチャルアクション情報とに対してアクションを適用させて予測リアルネクストフレーム（ＰｒｅｄｉｃｔｅｄＲｅａｌＮｅｘｔＦｒａｍｅ）情報を出力させるプロセス；及び（ＩＩ）前記バーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つのロスが最小化されるように、前記物理エンジンの前記以前のキャリブレーション済みパラメータをキャリブレーションし、最適化して現在のキャリブレーション済みパラメータ（ＣｕｒｒｅｎｔＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を最適化されたパラメータとして生成するプロセスを遂行するための前記インストラクションを実行するか、他の装置をもって実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、（ＩＩＩ）前記プロセッサが、前記バーチャルアクション情報に対応するリワード（Ｒｅｗａｒｄ）情報と前記バーチャルネクストフレーム情報とを前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、前記バーチャルネクストフレーム情報と前記リワード情報とを利用したオンポリシー強化学習（Ｏｎ−ＰｏｌｉｃｙＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）を通じて前記以前の学習パラメータをアップデートさせるプロセス；をさらに遂行することを特徴とする。

一実施例において、前記（ｉｉｉ）プロセスで、前記プロセッサは、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、前記バーチャル現在フレーム情報と以前に伝送されたｋ個のバーチャル以前フレーム情報とを参照して前記多数のバーチャル最近フレーム情報を生成させることを特徴とする。

一実施例において、前記（ｉｉｉ）プロセスで、前記プロセッサは、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、（ｉｉｉ−１）（ｉｉｉ−１−１）前記バーチャル現在フレーム情報と前記ｋ個のバーチャル以前フレーム情報とをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して生成されたバーチャル現在フレーム状態の和（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅＳｔａｔｅＳｕｍ）に対してコンボリューション演算（ＣｏｎｖｏｌｕｔｉｏｎＯｐｅｒａｔｉｏｎ）を適用して第１次元ベクトル（ＤｉｍｅｎｓｉｏｎＶｅｃｔｏｒ）を生成させ、（ｉｉｉ−１−２）前記バーチャルアクション情報に対してＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）演算を適用して第２次元ベクトルを生成させ、（ｉｉｉ−２）前記第１次元ベクトルと前記第２次元ベクトルとのコンカチネーション結果に対してデコンボリューション演算を適用して前記予測リアルネクストフレーム情報を生成させることを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記プロセッサは、（ＩＩ−１）前記以前のキャリブレーション済みパラメータのうち一つの以前のキャリブレーション済みパラメータを選択するプロセス、（ＩＩ−２）前記選択された一つの以前のキャリブレーション済みパラメータを、前記ロスを利用してキャリブレーションし、予め設定された学習率に応じてキャリブレーションして、一つの現在のキャリブレーション済みパラメータを最適化されたパラメータ（ＯｐｔｉｍｉｚｅｄＰａｒａｍｅｔｅｒ）として生成するプロセス、及び（ＩＩ−３）（ＩＩ−３ａ）前記物理エンジンをもって、前記一つの現在のキャリブレーション済みパラメータと、前記一つの以前のキャリブレーション済みパラメータを除いた残りの以前のキャリブレーション済みパラメータとを利用して、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、新たなバーチャルネクストフレーム情報を生成させるプロセス、及び（ＩＩ−３ｂ）前記新たなバーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つの新たなロスを利用して前記ロスが減少したのかを確認するプロセスを、前記ロスが減少するまで繰り返すことを特徴とする。

一実施例において、前記以前のキャリブレーション済みパラメータ全てに対して前記ロスが減少しなかった場合、前記プロセッサは、前記予め設定された学習率を減少させ、前記（ｉ）プロセスと、前記（ｉｉ）プロセスと、前記（ｉｉ）プロセスとを遂行することを特徴とする。

本発明の他の態様によると、リアル環境（ＲｅａｌＥｎｖｉｒｏｎｍｅｎｔ）においてディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置により多数のリアル最近のフレーム（ＲｅａｌＲｅｃｅｎｔＦｒａｍｅ）情報で遂行されたリアルアクション（ＲｅａｌＡｃｔｉｏｎ）に関するリアルアクション情報に対応する予測ネクストフレーム（ＰｒｅｄｉｃｔｅｄＮｅｘｔＦｒａｍｅ）情報を生成するリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）を学習する学習装置において、インストラクションを格納する少なくとも一つのメモリと、（Ｉ）前記リアル環境において前記ディープラーニング基盤装置により遂行された前記リアルアクションに対する前記多数のリアルアクション情報に対応する多数の軌跡（Ｔｒａｊｅｃｔｏｒｙ）情報がトレーニングデータとして取得されると、特定の軌跡情報の特定時点におけるリアル現在フレーム（ＲｅａｌＣｕｒｒｅｎｔＦｒａｍｅ）情報とｋ個の以前のリアルフレーム（ＰｒｅｖｉｏｕｓＲｅａｌＦｒａｍｅ）情報とを参照して多数の学習用最近フレーム情報を生成するプロセス；（ＩＩ）前記特定時点における前記特定の軌跡情報のリアル現在のアクション情報を参照して取得された学習用アクション情報と前記多数の学習用最近フレーム情報とを前記リアル状態ネットワークに入力することによって、前記リアル状態ネットワークをもって予測パラメータを利用して前記多数の学習用最近フレーム情報と前記学習用アクション情報とに対して演算を適用させて前記予測ネクストフレーム情報を出力させるプロセス；及び（ＩＩＩ）前記特定の軌跡情報における前記リアル現在フレーム情報の次のリアルネクストフレーム情報と前記予測の次のフレーム情報とを参照して生成された少なくとも一つのロスを利用して、前記ロスが最小化されるように前記予測パラメータをアップデートするプロセスを遂行するための前記インストラクションを実行するか、他の装置をもって実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記プロセッサは、（ｉ）（ｉ−１）前記多数の学習用最近フレーム情報をコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して生成された学習用現在フレーム状態の和（ＣｕｒｒｅｎｔＦｒａｍｅＳｔａｔｅＳｕｍ）を前記リアル状態ネットワークのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に入力して、前記ＣＮＮをもって、前記学習用現在フレーム状態の和に対してコンボリューション演算を適用して第１の特徴（Ｆｅａｔｕｒｅ）を出力させるプロセス、及び（ｉ−２）前記学習用アクション情報を前記リアル状態ネットワークの少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）に入力して、前記少なくとも一つのＦＣレイヤをもって、前記学習用アクション情報に対してＦＣ演算を適用して第２の特徴を出力させるプロセス、及び（ｉｉ）前記第１の特徴と前記第２の特徴とをコンカチネートして生成されたコンカチネート済み特徴をデコンボリューションレイヤ（ＤｅｃｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）に入力して、前記デコンボリューションレイヤをもって、前記コンカチネート済み特徴に対してデコンボリューション演算を適用して前記予測ネクストフレーム情報を出力させるプロセスを遂行することを特徴とする。

一実施例において、前記プロセッサは、（ｉ）前記ＣＮＮをもって、ＨｘＷｘＣテンソル（Ｔｅｎｓｏｒ）である前記多数の学習用最近フレーム情報をコンカチネートして生成されたＨｘＷｘ（Ｋ＋１）テンソルである前記学習用現在フレーム状態の和を、ＨＷＣ次元ベクトル（ＤｉｍｅｎｓｉｏｎＶｅｃｔｏｒ）である前記第１の特徴として出力させるプロセス、（ｉｉ）前記少なくとも一つのＦＣレイヤをもって、３次元ベクトルである前記学習用アクション情報を、Ｌ次元ベクトルである前記第２の特徴として出力させるプロセス、及び（ｉｉｉ）前記デコンボリューションレイヤをもって、前記第１の特徴と前記第２の特徴とをコンカチネートして生成された１ｘ１ｘ（ＨＷＣ＋Ｌ）テンソルを、ＨｘＷｘＣテンソルである前記予測ネクストフレーム情報として出力させるプロセスを遂行することを特徴とする。

一実施例において、前記プロセッサは、前記ロスを利用した最急降下法（ＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）によって前記少なくとも一つのＣＮＮと、前記少なくとも一つのＦＣレイヤと、前記デコンボリューションレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする。

その他にも、本発明の方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は、バーチャル世界とリアル世界との間のギャップ（Ｇａｐ）を最小化するようにバーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）の物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）をキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）することによって、バーチャル世界で学習されたディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置の短期計画（Ｓｈｏｒｔ−ＴｅｒｍＰｌａｎｎｉｎｇ）をさらに信頼性があるようにリアル世界に適応させ得る効果がある。

本発明は与えられたバーチャル環境の信頼性を立証するために、物理エンジンとリアル環境モデルとの間のロスを信頼性尺度（ＲｅｌｉａｂｉｌｉｔｙＭｅａｓｕｒｅ）として使用することができる他の効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。

本発明の一実施例によるディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置の学習に使用されるバーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）の物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）をキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）するキャリブレーション装置を簡略に示したものである。本発明の一実施例によるディープラーニング基盤装置の学習に使用される、バーチャル世界シミュレータの物理エンジンをキャリブレーションする方法を簡略に示したものである。本発明の一実施例によるリアル環境（ＲｅａｌＥｎｖｉｒｏｎｍｅｎｔ）において、ディープラーニング基盤装置により多数のリアル最近のフレーム（ＲｅａｌＲｅｃｅｎｔＦｒａｍｅ）情報で遂行されたリアルアクション（ＲｅａｌＡｃｔｉｏｎ）に関するリアルアクション情報に対応する予測ネクストフレーム（ＰｒｅｄｉｃｔｅｄＮｅｘｔＦｒａｍｅ）情報を生成するリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）を学習する学習装置を簡略に示したものである。本発明の一実施例によるリアル環境において、ディープラーニング基盤装置により多数のリアル最近フレーム情報で遂行されたリアルアクションに関するリアルアクション情報に対応する予測ネクストフレーム情報を生成するリアル状態ネットワークを学習する方法を簡略に示したものである。本発明の一実施例によるリアル状態ネットワークを学習するための少なくとも一つの軌跡（Ｔｒａｊｅｃｔｏｒｙ）を生成する方法を簡略に示したものである。

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図１は、本発明の一実施例によるディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置の学習に使用されるバーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）の物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）をキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）するキャリブレーション装置を簡略に示したものである。図１を参照すると、キャリブレーション装置１０００は、ディープラーニング基盤装置を学習するためのバーチャル世界シミュレータの物理エンジンをキャリブレーションするためのインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納するメモリ１１００と、メモリ１１０に格納されたインストラクションに対応してディープラーニング基盤装置を学習するためのバーチャル世界シミュレータの物理エンジンをキャリブレーションするためのプロセスを遂行するプロセッサ１２００とを含むことができる。

具体的に、キャリブレーション装置１０００は、典型的に少なくとも一つのコンピューティング装置（例えば、コンピュータのプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）と少なくとも一つのコンピュータソフトウェア（すなわち、コンピューティング装置をもって特定の方式で機能させるインストラクション）との組み合わせを利用して所望のシステム性能を達成するものであり得る。

また、コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションソフトウェア構成をさらに含むこともできる。

しかし、コンピューティング装置が、本発明を実施するためのプロセッサ、メモリ、ミディアム又は他のコンピューティング構成要素の何らかの組み合わせを含む統合装置（ＩｎｔｅｇｒａｔｅｄＤｅｖｉｃｅ）を排除するものではない。

このように構成された本発明の一実施例によるキャリブレーション装置１０００を利用して、ディープラーニング基盤装置を学習するためのバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法を、図２を参照して説明すると以下のとおりである。

まず、バーチャル世界シミュレータ１００は、エージェント（Ａｇｅｎｔ）であるディープラーニング基盤装置３００の学習のために予め設定されたバーチャル環境において、バーチャル現在状態（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＳｔａｔｅ）に対応するバーチャル現在フレーム（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅ）情報Ｉ_tを生成することができる。この場合、バーチャル現在状態は、ディープラーニング基盤装置３００の動作状態情報、周辺環境情報、動作条件などを含むことができ、ディープラーニング基盤装置３００は、自律走行自動車、自律走行飛行機、ロボットなどのようにディープラーニングアルゴリズムにより学習された条件にしたがって作動する全ての装置を含むことができる。一例として、ディープラーニング基盤装置が自律走行自動車である場合、バーチャル現在状態は、自律走行自動車情報、周辺自動車情報、道路情報、交通信号情報、周辺環境情報などのような様々な走行情報を含むことができる。

次に、バーチャル環境において、バーチャル現在状態に対応するバーチャル現在フレーム情報Ｉ_tが、バーチャル世界シミュレータ１００から取得されると、キャリブレーション装置１０００は、取得されたバーチャル現在フレーム情報Ｉ_tをディープラーニング基盤装置３００に伝送することによって、ディープラーニング基盤装置３００をもって、以前の学習パラメータを利用してバーチャル現在フレーム情報Ｉ_tに対して演算を適用させて、バーチャル現在フレーム情報Ｉ_tに対応するバーチャルアクション（ＶｉｒｔｕａｌＡｃｔｉｏｎ）情報ａ_tを出力させることができる（Ｓ２）。

また、キャリブレーション装置１０００は、バーチャル世界シミュレータ１００から取得されたバーチャル現在フレーム情報Ｉ_tとディープラーニング基盤装置３００から出力されたバーチャルアクション情報ａ_tとをバーチャル世界シミュレータ１００の物理エンジンＦ１１０に送信することによって、物理エンジンＦ１１０をもって、以前のキャリブレーション済みパラメータ（ＰｒｅｖｉｏｕｓＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を利用してバーチャル現在フレーム情報Ｉ_tとバーチャルアクション情報ａ_tとに対して演算を適用させて、バーチャル現在フレーム情報Ｉ_tとバーチャルアクション情報ａ_tとに対応するバーチャルネクストフレーム（ＶｉｒｔｕａｌＮｅｘｔＦｒａｍｅ）情報Ｉ_t+1を出力させることができる（Ｓ３）。

これに加えて、キャリブレーション装置１０００は、バーチャル世界シミュレータ１００から取得されたバーチャル現在フレーム情報Ｉ_tとディープラーニング基盤装置３００から出力されたバーチャルアクション情報ａ_tとをリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）２００に伝送することによって、リアル状態ネットワーク２００をもって学習された予測パラメータを利用してバーチャル現在フレーム情報Ｉ_tに対応する多数のバーチャル最近フレーム情報とバーチャルアクション情報ａ_tに対して演算を適用して、予測リアルネクストフレーム（ＰｒｅｄｉｃｔｅｄＲｅａｌＮｅｘｔＦｒａｍｅ）情報

を出力させることができる（Ｓ５）。すなわち、リアル状態ネットワーク２００は、多数のバーチャル最近フレーム情報とバーチャルアクション情報とを参照してリアル世界で起こるであろうと予測される次のフレーム情報を出力することができる。本発明全般にわたって、多数のバーチャル最近フレーム情報はｋ＋１個のバーチャル最近フレーム情報であり得るが、これに限定されるわけではない。

この場合、リアル状態ネットワーク２００は、リアル環境でディープラーニング基盤装置３００により多数のリアル最近フレーム情報で遂行されたリアルアクションに関するリアルアクション情報に対応して多数の予測ネクストフレーム情報を出力するように学習された状態であり得、これに関しては、以下に詳細に説明することにする。本発明全般にわたって、多数の予測ネクストフレーム情報はｋ＋１個の予測ネクストフレーム情報であり得、多数のリアル最近フレーム情報はｋ＋１個のリアル最近フレーム情報であり得るが、これに限定されるわけではない。

そして、キャリブレーション装置１０００は、バーチャル現在フレーム情報とバーチャルアクション情報とをリアル状態ネットワーク２００に伝送することによって、リアル状態ネットワーク２００をもって、バーチャル現在フレーム情報とそれ以前に伝送されたｋ個のバーチャル以前フレーム（ＶｉｒｔｕａｌＰｒｅｖｉｏｕｓＦｒａｍｅ）情報とを参照して多数のバーチャル最近フレーム情報を生成させることができる。その他の例として、キャリブレーション装置１０００は、バーチャル現在フレーム情報とそれ以前に伝送されたｋ個のバーチャル以前フレーム情報とを参照してバーチャル最近フレーム情報を生成して、これをリアル状態ネットワーク２００に伝送することもできる。

すなわち、キャリブレーション装置１０００は、バーチャル現在フレーム情報とバーチャルアクション情報とをリアル状態ネットワーク２００に伝送することによって、リアル状態ネットワーク２００をもって、バーチャル現在フレーム情報とｋ個のバーチャル以前フレーム情報とをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して生成されたバーチャル現在フレーム状態の和（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅＳｔａｔｅＳｕｍ）を生成させるプロセスを遂行することができる。その他の例として、キャリブレーション装置１０００は、バーチャル現在フレーム情報とｋ個のバーチャル以前フレーム情報とをコンカチネートして生成されたバーチャル現在フレーム状態の和を生成して、これをリアル状態ネットワーク２００に伝送することもできる。

この場合、バーチャル現在フレーム状態の和Ｓ_tは、

のように表すことができ、予測リアルネクスト状態

のように表すことができる。

一方、リアル状態ネットワーク２００は、（ｉ）（ｉ−１）バーチャル現在フレーム状態の和Ｓ_tに対してコンボリューション演算を適用して第１次元ベクトル（ＤｉｍｅｎｓｉｏｎＶｅｃｔｏｒ）を生成し、（ｉ−２）バーチャルアクション情報に対してＦＣ演算（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＯｐｅｒａｔｉｏｎ）を適用して第２次元ベクトルを生成した後、（ｉｉ）第１次元ベクトルと第２次元ベクトルとのコンカチネーション結果に対して、デコンボリューション演算を適用して予測リアルネクストフレーム情報を生成することができる。

この場合、バーチャル現在フレーム状態の和Ｓ_tは、（ｉ）ＨｘＷｘＣテンソル（Ｔｅｎｓｏｒ）であるバーチャル現在フレーム情報と（ｉｉ）ｋ個のバーチャル以前フレーム情報とをコンカチネートして生成されたＨｘＷｘ（Ｋ＋１）テンソルであり得る。また、第１次元ベクトルは、ＨＷＣ次元ベクトルであり得、第２次元ベクトルをＬ次元ベクトルとする場合、予測リアルネクストフレーム情報は、第１次元ベクトルと第２次元ベクトルとをコンカチネートして生成された１ｘ１ｘ（ＨＷＣ＋Ｌ）テンソルに対してデコンボリューション演算を適用して生成されたＨｘＷｘＣテンソルであり得る。そして、バーチャルアクション情報は、３次元ベクトルであり得、一例として、ディープラーニング基盤の装置３００が自律走行自動車である場合、バーチャルアクション情報はステアリング角度変化量情報、ブレーキペダル圧力情報、アクセルペダル圧力情報に対応することができる。

次に、キャリブレーション装置１０００は、バーチャル世界シミュレータ１００の物理エンジンＦ１１０から出力されたバーチャルネクストフレーム情報とリアル状態ネットワーク２００から出力された予測リアルネクストフレーム情報とを参照して生成された少なくとも一つのロスが最小化されるように、物理エンジンＦ１１０の以前のキャリブレーション済みパラメータ（ＰｒｅｖｉｏｕｓＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）をキャリブレーションし、最適化（Ｏｐｔｉｍｉｚｅ）して、現在のキャリブレーション済みパラメータ（ＣｕｒｒｅｎｔＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を最適化されたパラメータとして生成するプロセスを遂行することができる（Ｓ６）。その結果、物理エンジンＦ１１０は、バーチャル環境とリアル環境との間のギャップ（Ｇａｐ）が最小化されたバーチャルネクストフレームをプランニングすることができる。

つまり、キャリブレーション装置１０００は、物理エンジンＦ１１０で生成されたバーチャルネクストフレーム情報Ｉ_t+1とリアル状態ネットワーク２００で生成された予測リアルネクストフレーム情報

とを参照して少なくとも一つのロス

を算出することができるか、ロスレイヤをもって、ロス

を算出させた後、ロス

を参照して物理エンジンＦ１１０を最適化することができる。

一方、バーチャル世界シミュレータ１００の物理エンジンＦ１１０が微分不可能な関数である場合、次のような方法により以前のキャリブレーション済みパラメータが最適化され得る。

すなわち、キャリブレーション装置１０００は、（ｉ）物理エンジン１１０の以前のキャリブレーション済みパラメータのうち一つの以前のキャリブレーション済みパラメータを選択するプロセス、及び（ｉｉ）選択された一つの以前のキャリブレーション済みパラメータを、ロスを利用してキャリブレーションし、予め設定された学習率に応じてキャリブレーションして、一つの現在のキャリブレーション済みパラメータを最適化されたパラメータとして生成するプロセスを遂行する。そして、キャリブレーション装置１０００は、（ｉ）物理エンジンＦ１１０をもって、一つの現在のキャリブレーション済みパラメータと、一つの以前のキャリブレーション済みパラメータを除いた残りの以前のキャリブレーション済みパラメータとを利用して、バーチャル現在フレーム情報とバーチャルアクション情報とに対して演算を適用させて、新たなバーチャルネクストフレーム情報を生成させるプロセス、及び（ｉｉ）新たなバーチャルネクストフレーム情報と予測リアルネクストフレーム情報とを参照して生成された少なくとも一つの新たなロスを利用して、ロスが減少したのかを確認するプロセスをロスが減少するまで繰り返すことができる。

そして、以前のキャリブレーション済みパラメータすべてに対してロスが減少しなかった場合、キャリブレーション装置１０００は、予め設定された学習率を減少させた以後、前記プロセスを遂行することができる。

また、キャリブレーション装置１０００は、物理エンジンＦ１１０から出力されたバーチャルネクストフレーム情報Ｉ_t+1とディープラーニング基盤装置３００から出力されたバーチャルアクション情報に対応するリワード（Ｒｅｗａｒｄ）情報ｒ_t+1とをディープラーニング基盤装置３００に伝送（Ｓ４）することによって、ディープラーニング基盤装置３００をもって、バーチャルネクストフレーム情報Ｉ_t+1とリワード情報ｒ_t+1とを利用したオンポリシー強化学習（Ｏｎ−ＰｏｌｉｃｙＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）を通じて以前の学習パラメータをアップデートさせることができる。この際、リワード情報は、バーチャル現在フレーム情報に応答してディープラーニング基盤装置３００により遂行されたバーチャルアクション情報が適正であったかを示す結果であり得、リワード情報は、物理エンジンＦ１１０で生成されるか、キャリブレーション装置１０００で生成され得る。

図３は、本発明の一実施例によるリアル環境でディープラーニング基盤装置により多数のリアル最近フレーム情報で遂行されたリアルアクションに関するリアルアクション情報に対応する予測ネクストフレーム情報を生成するリアル状態ネットワークを学習する学習装置を簡略に示したものである。図３を参照すると、学習装置２０００は、リアル環境でディープラーニング基盤装置により多数のリアル最近フレーム情報で遂行されたリアルアクションに関するリアルアクション情報に対応する予測ネクストフレーム情報を出力するリアル状態ネットワークを学習するためのインストラクションを格納するメモリ２１００と、メモリ２１００に格納されたインストラクションに対応してリアル環境でディープラーニング基盤装置により多数のリアル最近フレーム情報で遂行されたリアルアクションに関するリアルアクション情報に対応する予測ネクストフレーム情報を出力するリアル状態ネットワークを学習するプロセスを遂行するプロセッサ２２００とを含むことができる。

具体的に、学習装置２０００は、典型的に少なくとも一つのコンピューティング装置（例えば、コンピュータのプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）と少なくとも一つのコンピュータソフトウェア（すなわち、コンピューティング装置をもって特定の方式で機能させる各インストラクション）との組み合わせを利用して所望のシステム性能を達成するものであり得る。また、コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションソフトウェア構成をさらに含むこともできる。

しかしながら、コンピューティング装置が本発明を実施するためのプロセッサ、メモリ、ミディアムまたはその他、別のコンピューティング構成要素の何らかの組み合わせを含む統合装置（ＩｎｔｅｇｒａｔｅｄＤｅｖｉｃｅ）を排除するわけではない。

このように構成された本発明の一実施例による学習装置２０００を利用して、リアル環境でディープラーニング基盤装置により多数のリアル最近フレーム情報で遂行されたリアルアクションに関するリアルアクション情報に対応する予測ネクストフレーム情報を出力するように学習する方法を、図４を参照して説明すると以下のとおりである。下記の説明では、図２を参照した説明から容易に理解可能な部分については詳細な説明を省略することにする。

まず、学習装置２０００は、リアル環境でディープラーニング基盤装置により作動したリアルアクションに対する多数のリアルアクション情報に対応する多数の軌跡（Ｔｒａｊｅｃｔｏｒｙ）情報をトレーニングデータとして取得することができる。

この場合、図５を参照すると、Ｎ個の軌跡情報は、リアル環境のような多様な環境でディープラーニング基盤装置であるエージェントにより生成され得、ディープラーニング基盤装置は（ｉ）リアル環境に対する情報である現在フレームＩ_t生成するプロセス、（ｉｉ）現在フレームＩ_tに対応するアクションａ_tを生成するプロセス、及び（ｉｉｉ）アクションａ_tによって変更される次のフレームＩ_t+1を生成するプロセスを繰り返すことによって、Ｎ個の軌跡情報を生成することができる。Ｎ個の軌跡情報は次のように例示的に示され得る。

この場合、それぞれのＮ個の軌跡情報のそれぞれの長さ

それぞれの開始地点

及びディープラーニング基盤装置のアクションパターン

（例えば、自律走行車両の運転パターン）は互いに異なってもよい。

そして、学習装置２０００は、トレーニングデータとして取得された多数の軌跡情報のうち特定の軌跡情報の特定時点におけるリアル現在フレーム情報とｋ個の以前のリアルフレーム情報とを参照して多数の学習用最近フレーム情報を生成するプロセスを遂行することができる。

次に、学習装置２０００は、特定時点における特定の軌跡情報のリアル現在のアクション情報を参照して取得された学習用アクション情報と多数の学習用最近フレーム情報とをリアル状態ネットワーク２００に入力することによって、リアル状態ネットワーク２００をもって予測パラメータを利用して多数の学習用最近フレーム情報と学習用アクション情報とに対して演算を適用させて予測ネクストフレーム情報を出力させるプロセスを遂行することができる。

一例として、学習装置２０００は、（ｉ）多数の学習用最近フレーム情報をコンカチネートして生成された学習用現在フレーム状態の和をリアル状態ネットワーク２００のＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に入力して、ＣＮＮをもって学習用現在フレーム状態の和に対してコンボリューション演算を適用して第１の特徴を出力させるプロセス、及び（ｉｉ）学習用アクション情報をリアル状態ネットワーク２００の少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）に入力して、少なくとも一つのＦＣレイヤをもって、学習用アクション情報に対してＦＣ演算を適用して第２の特徴を出力させるプロセスを遂行することができる。そして、学習装置２０００は、第１の特徴と第２の特徴とをコンカチネートして生成されたコンカチネート済み特徴をデコンボリューションレイヤに入力して、デコンボリューションレイヤをもってコンカチネート済み特徴に対してデコンボリューション演算を適用して予測ネクストフレーム情報を出力させるプロセスを遂行することができる。

この場合、学習用現在フレーム状態の和Ｓ_tは、

のように表すことができ、予測ネクストフレーム情報

のように表すことができる。

すなわち、学習装置２０００は、（ｉ）ＣＮＮをもって、ＨｘＷｘＣテンソルである多数の学習用最近フレーム情報をコンカチネートして生成されたＨｘＷｘ（Ｋ＋１）テンソルである学習用現在フレーム状態の和を、ＨＷＣ次元ベクトルである第１の特徴として出力させるプロセス、（ｉｉ）少なくとも一つのＦＣレイヤをもって、３次元ベクトルである学習用アクション情報をＬ次元ベクトルである第２の特徴として出力させるプロセス、及び（ｉｉｉ）デコンボリューションレイヤをもって、第１の特徴と第２の特徴とをコンカチネートして生成された１ｘ１ｘ（ＨＷＣ＋Ｌ）テンソルを、ＨｘＷｘＣテンソルである予測ネクストフレーム情報として出力させるプロセスを遂行することができる。

次に、学習装置２０００は、特定の軌跡情報におけるリアル現在フレーム情報の次のリアルネクストフレーム情報と予測ネクストフレーム情報とを参照して生成された少なくとも一つのロスを利用してロスが最小化されるように予測パラメータをアップデートするプロセスを遂行することができる。

つまり、学習装置２０００は、特定の軌跡情報のリアルネクストフレーム情報Ｉ_t+1とリアル状態ネットワーク２００から出力される予測ネクストフレーム情報

とを参照して少なくとも一つのロス

を算出するか、ロスレイヤをもって、ロス

を算出させた後、ロス

を参照してリアル状態ネットワーク２００を学習することができる。

この場合、学習装置２０００は、最急降下法（ＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）によってリアル状態ネットワーク２００の予測パラメータをアップデートするプロセスを遂行することができ、一例として、少なくとも一つのＣＮＮ、少なくとも一つのＦＣレイヤ、及びデコンボリューションレイヤのうち少なくとも一つのパラメータをアップデートすることができる。

そして、学習装置２０００は、Ｎ個のリアル世界軌跡を利用して、リアル状態ネットワーク２００のロスが収斂されるように前記学習プロセスを繰り返すことができる。

また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光メディア（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

したがって、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

１０００：キャリブレーション装置
１１００：メモリ
１２００：プロセッサ
２０００：学習装置
２１００：メモリ
２２００：プロセッサ
１００：バーチャル世界、シミュレータ
１１０：物理エンジン
２００：リアル状態ネットワーク
３００：ディープラーニング基盤装置

Claims

ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置の学習に使用されるバーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）の物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）をキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）する方法において、
（ａ）バーチャル環境（ＶｉｒｔｕａｌＥｎｖｉｒｏｎｍｅｎｔ）上のバーチャル現在状態（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＳｔａｔｅ）に対応するバーチャル現在フレーム（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅ）情報が前記バーチャル世界シミュレータから取得されると、キャリブレーション装置が、（ｉ）前記バーチャル現在フレーム情報を前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、以前の学習パラメータを利用して前記バーチャル現在フレーム情報に対して演算を適用させて、前記バーチャル現在フレーム情報に対応するバーチャルアクション（ＶｉｒｔｕａｌＡｃｔｉｏｎ）情報を出力させるプロセス、（ｉｉ）前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記バーチャル世界シミュレータの前記物理エンジンに伝送することによって、前記物理エンジンをもって、以前のキャリブレーション済みパラメータ（ＰｒｅｖｉｏｕｓＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を利用して前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対応するバーチャルネクストフレーム（ＶｉｒｔｕａｌＮｅｘｔＦｒａｍｅ）情報を出力させるプロセス、及び（ｉｉｉ）前記バーチャル現在フレーム情報と前記バーチャルアクション情報とをリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）（前記リアル状態ネットワークはリアル環境（ＲｅａｌＥｎｖｉｒｏｎｍｅｎｔ）上の多数のリアル最近のフレーム（ＲｅａｌＲｅｃｅｎｔＦｒａｍｅ）情報において前記ディープラーニング基盤装置により遂行されたリアルアクション（ＲｅａｌＡｃｔｉｏｎ）に関するリアルアクション情報に応答して多数の予測ネクストフレーム（ＰｒｅｄｉｃｔｅｄＮｅｘｔＦｒａｍｅ）情報を出力するように学習された状態である）に伝送することによって、前記リアル状態ネットワークをもって学習された予測パラメータを利用して、前記バーチャル現在フレーム情報に対応する多数のバーチャル最近のフレーム（ＶｉｒｔｕａｌＲｅｃｅｎｔＦｒａｍｅ）情報と前記バーチャルアクション情報とに対してアクションを適用させて予測リアルネクストフレーム（ＰｒｅｄｉｃｔｅｄＲｅａｌＮｅｘｔＦｒａｍｅ）情報を出力させるプロセスを遂行する段階；及び
（ｂ）前記キャリブレーション装置が、前記バーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つのロスが最小化されるように、前記物理エンジンの前記以前のキャリブレーション済みパラメータをキャリブレーションし、最適化して、現在のキャリブレーション済みパラメータ（ＣｕｒｒｅｎｔＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を最適化されたパラメータとして生成するプロセスを遂行することを特徴とする段階；
を含むことを特徴とする方法。
（ｃ）前記キャリブレーション装置が、前記バーチャルアクション情報に対応するリワード（Ｒｅｗａｒｄ）情報と前記バーチャルネクストフレーム情報とを前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、前記バーチャルネクストフレーム情報と前記リワード情報とを利用したオンポリシー強化学習（Ｏｎ−ＰｏｌｉｃｙＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）を通じて前記以前の学習パラメータをアップデートさせる段階；
をさらに含むことを特徴とする請求項１に記載の方法。
前記（ａ）段階の前記（ｉｉｉ）プロセスで、
前記キャリブレーション装置は、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、前記バーチャル現在フレーム情報と以前に伝送されたｋ個のバーチャル以前フレーム情報とを参照して前記多数のバーチャル最近フレーム情報を生成させることを特徴とする請求項１に記載の方法。
前記（ｉｉｉ）プロセスで、
前記キャリブレーション装置は、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、（ｉｉｉ−１）（ｉｉｉ−１−１）前記バーチャル現在フレーム情報と前記ｋ個のバーチャル以前フレーム情報とをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して生成されたバーチャル現在フレーム状態の和（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅＳｔａｔｅＳｕｍ）に対してコンボリューション演算（ＣｏｎｖｏｌｕｔｉｏｎＯｐｅｒａｔｉｏｎ）を適用して第１次元ベクトル（ＤｉｍｅｎｓｉｏｎＶｅｃｔｏｒ）を生成させ、（ｉｉｉ−１−２）前記バーチャルアクション情報に対してＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）演算を適用して第２次元ベクトルを生成させ、（ｉｉｉ−２）前記第１次元ベクトルと前記第２次元ベクトルとのコンカチネーション結果に対してデコンボリューション演算を適用して前記予測リアルネクストフレーム情報を生成させることを特徴とする請求項３に記載の方法。
前記バーチャル現在フレーム状態の和は、（ｉ）ＨｘＷｘＣテンソル（Ｔｅｎｓｏｒ）である前記バーチャル現在フレーム情報と（ｉｉ）ｋ個の前記バーチャル以前フレーム情報とをコンカチネートして生成されたＨｘＷｘ（Ｋ＋１）テンソルであり、
前記第１次元ベクトルはＨＷＣ次元ベクトルであり、
前記第２次元ベクトルをＬ次元ベクトルとする場合、前記予測リアルネクストフレーム情報は、前記第１次元ベクトルと前記第２次元ベクトルとをコンカチネートして生成された１ｘ１ｘ（ＨＷＣ＋Ｌ）テンソルに対してデコンボリューション演算を適用して生成されたＨｘＷｘＣテンソルであることを特徴とする請求項４に記載の方法。
前記（ｂ）段階で、
前記キャリブレーション装置は、（ｉ）前記以前のキャリブレーション済みパラメータのうち一つの以前のキャリブレーション済みパラメータを選択するプロセス、（ｉｉ）前記選択された一つの以前のキャリブレーション済みパラメータを、前記ロスを利用してキャリブレーションし、予め設定された学習率に応じてキャリブレーションして、一つの現在のキャリブレーション済みパラメータを最適化されたパラメータ（ＯｐｔｉｍｉｚｅｄＰａｒａｍｅｔｅｒ）として生成するプロセス、及び（ｉｉｉ）（ｉｉｉ−１）前記物理エンジンをもって、前記一つの現在のキャリブレーション済みパラメータと、前記一つの以前のキャリブレーション済みパラメータを除いた残りの以前のキャリブレーション済みパラメータを利用して、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、新たなバーチャルネクストフレーム情報を生成させるプロセス、及び（ｉｉｉ−２）前記新たなバーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つの新たなロスを利用して前記ロスが減少したのかを確認するプロセスを、前記ロスが減少するまで繰り返すことを特徴とする請求項１に記載の方法。
前記以前のキャリブレーション済みパラメータ全てに対して前記ロスが減少しなかった場合、前記キャリブレーション装置は、前記予め設定された学習率を減少させ、前記（ｉ）プロセスと、前記（ｉｉ）プロセスと、前記（ｉｉｉ）プロセスとを遂行することを特徴とする請求項６に記載の方法。
リアル環境（ＲｅａｌＥｎｖｉｒｏｎｍｅｎｔ）においてディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置により多数のリアル最近のフレーム（ＲｅａｌＲｅｃｅｎｔＦｒａｍｅ）情報で遂行されたリアルアクション（ＲｅａｌＡｃｔｉｏｎ）に関するリアルアクション情報に対応する予測ネクストフレーム（ＰｒｅｄｉｃｔｅｄＮｅｘｔＦｒａｍｅ）情報を生成するリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）を学習する方法において、
（ａ）前記リアル環境において前記ディープラーニング基盤装置により遂行された前記リアルアクションに対する前記多数のリアルアクション情報に対応する多数の軌跡（Ｔｒａｊｅｃｔｏｒｙ）情報がトレーニングデータとして取得されると、学習装置が、特定の軌跡情報の特定時点におけるリアル現在フレーム（ＲｅａｌＣｕｒｒｅｎｔＦｒａｍｅ）情報とｋ個の以前のリアルフレーム（ＰｒｅｖｉｏｕｓＲｅａｌＦｒａｍｅ）情報とを参照して多数の学習用最近フレーム情報を生成するプロセスを遂行する段階；
（ｂ）前記学習装置が、前記特定時点における前記特定の軌跡情報のリアル現在のアクション情報を参照して取得された学習用アクション情報と前記多数の学習用最近フレーム情報とを前記リアル状態ネットワークに入力することによって、前記リアル状態ネットワークをもって予測パラメータを利用して前記多数の学習用最近フレーム情報と前記学習用アクション情報とに対して演算を適用させて前記予測ネクストフレーム情報を出力させるプロセスを遂行する段階；及び
（ｃ）前記学習装置が、前記特定の軌跡情報における前記リアル現在フレーム情報の次のリアルネクストフレーム情報と前記予測ネクストフレーム情報とを参照して生成された少なくとも一つのロスを利用して、前記ロスが最小化されるように前記予測パラメータをアップデートするプロセスを遂行する段階；
を含むことを特徴とする方法。
前記（ｂ）段階で、
前記学習装置は、（ｉ）（ｉ−１）前記多数の学習用最近フレーム情報をコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して生成された学習用現在フレーム状態の和（ＣｕｒｒｅｎｔＦｒａｍｅＳｔａｔｅＳｕｍ）を前記リアル状態ネットワークのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に入力して、前記ＣＮＮをもって、前記学習用現在フレーム状態の和に対してコンボリューション演算を適用して第１の特徴（Ｆｅａｔｕｒｅ）を出力させるプロセス、及び（ｉ−２）前記学習用アクション情報を前記リアル状態ネットワークの少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）に入力して、前記少なくとも一つのＦＣレイヤをもって、前記学習用アクション情報に対してＦＣ演算を適用して第２の特徴を出力させるプロセス、及び（ｉｉ）前記第１の特徴と前記第２の特徴とをコンカチネートして生成されたコンカチネート済み特徴をデコンボリューションレイヤ（ＤｅｃｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）に入力して、前記デコンボリューションレイヤをもって、前記コンカチネート済み特徴に対してデコンボリューション演算を適用して前記予測ネクストフレーム情報を出力させるプロセスを遂行することを特徴とする請求項８に記載の方法。
前記学習装置は、（ｉ）前記ＣＮＮをもって、ＨｘＷｘＣテンソル（Ｔｅｎｓｏｒ）である前記多数の学習用最近フレーム情報をコンカチネートして生成されたＨｘＷｘ（Ｋ＋１）テンソルである前記学習用現在フレーム状態の和を、ＨＷＣ次元ベクトル（ＤｉｍｅｎｓｉｏｎＶｅｃｔｏｒ）である前記第１の特徴として出力させるプロセス、（ｉｉ）前記少なくとも一つのＦＣレイヤをもって、３次元ベクトルである前記学習用アクション情報を、Ｌ次元ベクトルである前記第２の特徴として出力させるプロセス、及び（ｉｉｉ）前記デコンボリューションレイヤをもって、前記第１の特徴と前記第２の特徴とをコンカチネートして生成された１ｘ１ｘ（ＨＷＣ＋Ｌ）テンソルを、ＨｘＷｘＣテンソルである前記予測ネクストフレーム情報として出力させるプロセスを遂行することを特徴とする請求項９に記載の方法。
前記学習装置は、前記ロスを利用した最急降下法（ＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）によって前記少なくとも一つのＣＮＮと、前記少なくとも一つのＦＣレイヤと、前記デコンボリューションレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする請求項９に記載の方法。
ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置の学習に使用されるバーチャル世界シミュレータ（ＶｉｒｔｕａｌＷｏｒｌｄＳｉｍｕｌａｔｏｒ）の物理エンジン（ＰｈｙｓｉｃｓＥｎｇｉｎｅ）をキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）するキャリブレーション装置において、
インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）バーチャル環境（ＶｉｒｔｕａｌＥｎｖｉｒｏｎｍｅｎｔ）上のバーチャル現在状態（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＳｔａｔｅ）に対応するバーチャル現在フレーム（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅ）情報が前記バーチャル世界シミュレータから取得されると、（ｉ）前記バーチャル現在フレーム情報を前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、以前の学習パラメータを利用して前記バーチャル現在フレーム情報に対して演算を適用させて、前記バーチャル現在フレーム情報に対応するバーチャルアクション（ＶｉｒｔｕａｌＡｃｔｉｏｎ）情報を出力させるプロセス、（ｉｉ）前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記バーチャル世界シミュレータの前記物理エンジンに伝送することによって、前記物理エンジンをもって、以前のキャリブレーション済みパラメータ（ＰｒｅｖｉｏｕｓＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を利用して前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対応するバーチャルネクストフレーム（ＶｉｒｔｕａｌＮｅｘｔＦｒａｍｅ）情報を出力させるプロセス、及び（ｉｉｉ）前記バーチャル現在フレーム情報と前記バーチャルアクション情報とをリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）（前記リアル状態ネットワークはリアル環境（ＲｅａｌＥｎｖｉｒｏｎｍｅｎｔ）上の多数のリアル最近のフレーム（ＲｅａｌＲｅｃｅｎｔＦｒａｍｅ）情報において前記ディープラーニング基盤装置により遂行されたリアルアクション（ＲｅａｌＡｃｔｉｏｎ）に関するリアルアクション情報に応答して多数の予測ネクストフレーム（ＰｒｅｄｉｃｔｅｄＮｅｘｔＦｒａｍｅ）情報を出力するように学習された状態である）に伝送することによって、前記リアル状態ネットワークをもって学習された予測パラメータを利用して、前記バーチャル現在フレーム情報に対応する多数のバーチャル最近のフレーム（ＶｉｒｔｕａｌＲｅｃｅｎｔＦｒａｍｅ）情報と前記バーチャルアクション情報とに対してアクションを適用させて予測リアルネクストフレーム（ＰｒｅｄｉｃｔｅｄＲｅａｌＮｅｘｔＦｒａｍｅ）情報を出力させるプロセス；及び（ＩＩ）前記バーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つのロスが最小化されるように、前記物理エンジンの前記以前のキャリブレーション済みパラメータをキャリブレーションし、最適化して現在のキャリブレーション済みパラメータ（ＣｕｒｒｅｎｔＣａｌｉｂｒａｔｅｄＰａｒａｍｅｔｅｒ）を最適化されたパラメータとして生成するプロセスを遂行するための前記インストラクションを実行するか、他の装置をもって実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするキャリブレーション装置。
（ＩＩＩ）前記プロセッサが、前記バーチャルアクション情報に対応するリワード（Ｒｅｗａｒｄ）情報と前記バーチャルネクストフレーム情報とを前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、前記バーチャルネクストフレーム情報と前記リワード情報とを利用したオンポリシー強化学習（Ｏｎ−ＰｏｌｉｃｙＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）を通じて前記以前の学習パラメータをアップデートさせるプロセス；
をさらに遂行することを特徴とする請求項１２に記載のキャリブレーション装置。
前記（ｉｉｉ）プロセスで、
前記プロセッサは、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、前記バーチャル現在フレーム情報と以前に伝送されたｋ個のバーチャル以前フレーム情報とを参照して前記多数のバーチャル最近フレーム情報を生成させることを特徴とする請求項１２に記載のキャリブレーション装置。
前記（ｉｉｉ）プロセスで、
前記プロセッサは、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、（ｉｉｉ−１）（ｉｉｉ−１−１）前記バーチャル現在フレーム情報と前記ｋ個のバーチャル以前フレーム情報とをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して生成されたバーチャル現在フレーム状態の和（ＶｉｒｔｕａｌＣｕｒｒｅｎｔＦｒａｍｅＳｔａｔｅＳｕｍ）に対してコンボリューション演算（ＣｏｎｖｏｌｕｔｉｏｎＯｐｅｒａｔｉｏｎ）を適用して第１次元ベクトル（ＤｉｍｅｎｓｉｏｎＶｅｃｔｏｒ）を生成させ、（ｉｉｉ−１−２）前記バーチャルアクション情報に対してＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）演算を適用して第２次元ベクトルを生成させ、（ｉｉｉ−２）前記第１次元ベクトルと前記第２次元ベクトルとのコンカチネーション結果に対してデコンボリューション演算を適用して前記予測リアルネクストフレーム情報を生成させることを特徴とする請求項１４に記載のキャリブレーション装置。
前記バーチャル現在フレーム状態の和は、（ｉ）ＨｘＷｘＣテンソル（Ｔｅｎｓｏｒ）である前記バーチャル現在フレーム情報と（ｉｉ）ｋ個の前記バーチャル以前フレーム情報とをコンカチネートして生成されたＨｘＷｘ（Ｋ＋１）テンソルであり、
前記第１次元ベクトルはＨＷＣ次元ベクトルであり、
前記第２次元ベクトルをＬ次元ベクトルとする場合、前記予測リアルネクストフレーム情報は、前記第１次元ベクトルと前記第２次元ベクトルとをコンカチネートして生成された１ｘ１ｘ（ＨＷＣ＋Ｌ）テンソルに対してデコンボリューション演算を適用して生成されたＨｘＷｘＣテンソルであることを特徴とする請求項１５に記載のキャリブレーション装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、（ＩＩ−１）前記以前のキャリブレーション済みパラメータのうち一つの以前のキャリブレーション済みパラメータを選択するプロセス、（ＩＩ−２）前記選択された一つの以前のキャリブレーション済みパラメータを、前記ロスを利用してキャリブレーションし、予め設定された学習率に応じてキャリブレーションして、一つの現在のキャリブレーション済みパラメータを最適化されたパラメータ（ＯｐｔｉｍｉｚｅｄＰａｒａｍｅｔｅｒ）として生成するプロセス、及び（ＩＩ−３）（ＩＩ−３ａ）前記物理エンジンをもって、前記一つの現在のキャリブレーション済みパラメータと、前記一つの以前のキャリブレーション済みパラメータを除いた残りの以前のキャリブレーション済みパラメータとを利用して、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、新たなバーチャルネクストフレーム情報を生成させるプロセス、及び（ＩＩ−３ｂ）前記新たなバーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つの新たなロスを利用して前記ロスが減少したのかを確認するプロセスを、前記ロスが減少するまで繰り返すことを特徴とする請求項１２に記載のキャリブレーション装置。
前記以前のキャリブレーション済みパラメータ全てに対して前記ロスが減少しなかった場合、前記プロセッサは、前記予め設定された学習率を減少させ、前記（ｉ）プロセスと、前記（ｉｉ）プロセスと、前記（ｉｉ）プロセスとを遂行することを特徴とする請求項１７に記載のキャリブレーション装置。
リアル環境（ＲｅａｌＥｎｖｉｒｏｎｍｅｎｔ）においてディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤装置により多数のリアル最近のフレーム（ＲｅａｌＲｅｃｅｎｔＦｒａｍｅ）情報で遂行されたリアルアクション（ＲｅａｌＡｃｔｉｏｎ）に関するリアルアクション情報に対応する予測ネクストフレーム（ＰｒｅｄｉｃｔｅｄＮｅｘｔＦｒａｍｅ）情報を生成するリアル状態ネットワーク（ＲｅａｌＳｔａｔｅＮｅｔｗｏｒｋ）を学習する学習装置において、
インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）前記リアル環境において前記ディープラーニング基盤装置により遂行された前記リアルアクションに対する前記多数のリアルアクション情報に対応する多数の軌跡（Ｔｒａｊｅｃｔｏｒｙ）情報がトレーニングデータとして取得されると、特定の軌跡情報の特定時点におけるリアル現在フレーム（ＲｅａｌＣｕｒｒｅｎｔＦｒａｍｅ）情報とｋ個の以前のリアルフレーム（ＰｒｅｖｉｏｕｓＲｅａｌＦｒａｍｅ）情報とを参照して多数の学習用最近フレーム情報を生成するプロセス；（ＩＩ）前記特定時点における前記特定の軌跡情報のリアル現在のアクション情報を参照して取得された学習用アクション情報と前記多数の学習用最近フレーム情報とを前記リアル状態ネットワークに入力することによって、前記リアル状態ネットワークをもって予測パラメータを利用して前記多数の学習用最近フレーム情報と前記学習用アクション情報とに対して演算を適用させて前記予測ネクストフレーム情報を出力させるプロセス；及び（ＩＩＩ）前記特定の軌跡情報における前記リアル現在フレーム情報の次のリアルネクストフレーム情報と前記予測の次のフレーム情報とを参照して生成された少なくとも一つのロスを利用して、前記ロスが最小化されるように前記予測パラメータをアップデートするプロセスを遂行するための前記インストラクションを実行するか、他の装置をもって実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、（ｉ）（ｉ−１）前記多数の学習用最近フレーム情報をコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して生成された学習用現在フレーム状態の和（ＣｕｒｒｅｎｔＦｒａｍｅＳｔａｔｅＳｕｍ）を前記リアル状態ネットワークのＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に入力して、前記ＣＮＮをもって、前記学習用現在フレーム状態の和に対してコンボリューション演算を適用して第１の特徴（Ｆｅａｔｕｒｅ）を出力させるプロセス、及び（ｉ−２）前記学習用アクション情報を前記リアル状態ネットワークの少なくとも一つのＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）に入力して、前記少なくとも一つのＦＣレイヤをもって、前記学習用アクション情報に対してＦＣ演算を適用して第２の特徴を出力させるプロセス、及び（ｉｉ）前記第１の特徴と前記第２の特徴とをコンカチネートして生成されたコンカチネート済み特徴をデコンボリューションレイヤ（ＤｅｃｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）に入力して、前記デコンボリューションレイヤをもって、前記コンカチネート済み特徴に対してデコンボリューション演算を適用して前記予測ネクストフレーム情報を出力させるプロセスを遂行することを特徴とする請求項１９に記載の学習装置。
前記プロセッサは、（ｉ）前記ＣＮＮをもって、ＨｘＷｘＣテンソル（Ｔｅｎｓｏｒ）である前記多数の学習用最近フレーム情報をコンカチネートして生成されたＨｘＷｘ（Ｋ＋１）テンソルである前記学習用現在フレーム状態の和を、ＨＷＣ次元ベクトル（ＤｉｍｅｎｓｉｏｎＶｅｃｔｏｒ）である前記第１の特徴として出力させるプロセス、（ｉｉ）前記少なくとも一つのＦＣレイヤをもって、３次元ベクトルである前記学習用アクション情報を、Ｌ次元ベクトルである前記第２の特徴として出力させるプロセス、及び（ｉｉｉ）前記デコンボリューションレイヤをもって、前記第１の特徴と前記第２の特徴とをコンカチネートして生成された１ｘ１ｘ（ＨＷＣ＋Ｌ）テンソルを、ＨｘＷｘＣテンソルである前記予測ネクストフレーム情報として出力させるプロセスを遂行することを特徴とする請求項２０に記載の学習装置。
前記プロセッサは、前記ロスを利用した最急降下法（ＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）によって前記少なくとも一つのＣＮＮと、前記少なくとも一つのＦＣレイヤと、前記デコンボリューションレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする請求項２０に記載の学習装置。