JP6865365B2 - ディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及びそれを利用した学習装置 - Google Patents
ディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及びそれを利用した学習装置 Download PDFInfo
- Publication number
- JP6865365B2 JP6865365B2 JP2020007174A JP2020007174A JP6865365B2 JP 6865365 B2 JP6865365 B2 JP 6865365B2 JP 2020007174 A JP2020007174 A JP 2020007174A JP 2020007174 A JP2020007174 A JP 2020007174A JP 6865365 B2 JP6865365 B2 JP 6865365B2
- Authority
- JP
- Japan
- Prior art keywords
- virtual
- information
- real
- learning
- frame information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000013016 learning Effects 0.000 title claims description 158
- 238000000034 method Methods 0.000 title claims description 150
- 238000013135 deep learning Methods 0.000 title claims description 71
- 230000009471 action Effects 0.000 claims description 144
- 230000008569 process Effects 0.000 claims description 122
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000002787 reinforcement Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 235000001537 Ribes X gardonianum Nutrition 0.000 description 2
- 235000001535 Ribes X utile Nutrition 0.000 description 2
- 235000016919 Ribes petraeum Nutrition 0.000 description 2
- 235000002355 Ribes spicatum Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
- B60W40/04—Traffic conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/10—Numerical modelling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Neurology (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
Description
1100:メモリ
1200:プロセッサ
2000:学習装置
2100:メモリ
2200:プロセッサ
100: バーチャル世界、シミュレータ
110: 物理エンジン
200: リアル状態ネットワーク
300: ディープラーニング基盤装置
Claims (22)
- ディープラーニング(Deep Learning)基盤装置の学習に使用されるバーチャル世界シミュレータ(Virtual World Simulator)の物理エンジン(Physics Engine)をキャリブレーション(Calibration)する方法において、
(a)バーチャル環境(Virtual Environment)上のバーチャル現在状態(Virtual Current State)に対応するバーチャル現在フレーム(Virtual Current Frame)情報が前記バーチャル世界シミュレータから取得されると、キャリブレーション装置が、(i)前記バーチャル現在フレーム情報を前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、以前の学習パラメータを利用して前記バーチャル現在フレーム情報に対して演算を適用させて、前記バーチャル現在フレーム情報に対応するバーチャルアクション(Virtual Action)情報を出力させるプロセス、(ii)前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記バーチャル世界シミュレータの前記物理エンジンに伝送することによって、前記物理エンジンをもって、以前のキャリブレーション済みパラメータ(Previous Calibrated Parameter)を利用して前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対応するバーチャルネクストフレーム(Virtual Next Frame)情報を出力させるプロセス、及び(iii)前記バーチャル現在フレーム情報と前記バーチャルアクション情報とをリアル状態ネットワーク(Real State Network)(前記リアル状態ネットワークはリアル環境(Real Environment)上の多数のリアル最近のフレーム(Real Recent Frame)情報において前記ディープラーニング基盤装置により遂行されたリアルアクション(Real Action)に関するリアルアクション情報に応答して多数の予測ネクストフレーム(Predicted Next Frame)情報を出力するように学習された状態である)に伝送することによって、前記リアル状態ネットワークをもって学習された予測パラメータを利用して、前記バーチャル現在フレーム情報に対応する多数のバーチャル最近のフレーム(Virtual Recent Frame)情報と前記バーチャルアクション情報とに対してアクションを適用させて予測リアルネクストフレーム(Predicted Real Next Frame)情報を出力させるプロセスを遂行する段階;及び
(b)前記キャリブレーション装置が、前記バーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つのロスが最小化されるように、前記物理エンジンの前記以前のキャリブレーション済みパラメータをキャリブレーションし、最適化して、現在のキャリブレーション済みパラメータ(Current Calibrated Parameter)を最適化されたパラメータとして生成するプロセスを遂行することを特徴とする段階;
を含むことを特徴とする方法。 - (c)前記キャリブレーション装置が、前記バーチャルアクション情報に対応するリワード(Reward)情報と前記バーチャルネクストフレーム情報とを前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、前記バーチャルネクストフレーム情報と前記リワード情報とを利用したオンポリシー強化学習(On−Policy Reinforcement Learning)を通じて前記以前の学習パラメータをアップデートさせる段階;
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記(a)段階の前記(iii)プロセスで、
前記キャリブレーション装置は、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、前記バーチャル現在フレーム情報と以前に伝送されたk個のバーチャル以前フレーム情報とを参照して前記多数のバーチャル最近フレーム情報を生成させることを特徴とする請求項1に記載の方法。 - 前記(iii)プロセスで、
前記キャリブレーション装置は、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、(iii−1)(iii−1−1)前記バーチャル現在フレーム情報と前記k個のバーチャル以前フレーム情報とをコンカチネート(Concatenating)して生成されたバーチャル現在フレーム状態の和(Virtual Current Frame State Sum)に対してコンボリューション演算(Convolution Operation)を適用して第1次元ベクトル(Dimension Vector)を生成させ、(iii−1−2)前記バーチャルアクション情報に対してFC(Fully Connected)演算を適用して第2次元ベクトルを生成させ、(iii−2)前記第1次元ベクトルと前記第2次元ベクトルとのコンカチネーション結果に対してデコンボリューション演算を適用して前記予測リアルネクストフレーム情報を生成させることを特徴とする請求項3に記載の方法。 - 前記バーチャル現在フレーム状態の和は、(i)HxWxCテンソル(Tensor)である前記バーチャル現在フレーム情報と(ii)k個の前記バーチャル以前フレーム情報とをコンカチネートして生成されたHxWx(K+1)テンソルであり、
前記第1次元ベクトルはHWC次元ベクトルであり、
前記第2次元ベクトルをL次元ベクトルとする場合、前記予測リアルネクストフレーム情報は、前記第1次元ベクトルと前記第2次元ベクトルとをコンカチネートして生成された1x1x(HWC+L)テンソルに対してデコンボリューション演算を適用して生成されたHxWxCテンソルであることを特徴とする請求項4に記載の方法。 - 前記(b)段階で、
前記キャリブレーション装置は、(i)前記以前のキャリブレーション済みパラメータのうち一つの以前のキャリブレーション済みパラメータを選択するプロセス、(ii)前記選択された一つの以前のキャリブレーション済みパラメータを、前記ロスを利用してキャリブレーションし、予め設定された学習率に応じてキャリブレーションして、一つの現在のキャリブレーション済みパラメータを最適化されたパラメータ(Optimized Parameter)として生成するプロセス、及び(iii)(iii−1)前記物理エンジンをもって、前記一つの現在のキャリブレーション済みパラメータと、前記一つの以前のキャリブレーション済みパラメータを除いた残りの以前のキャリブレーション済みパラメータを利用して、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、新たなバーチャルネクストフレーム情報を生成させるプロセス、及び(iii−2)前記新たなバーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つの新たなロスを利用して前記ロスが減少したのかを確認するプロセスを、前記ロスが減少するまで繰り返すことを特徴とする請求項1に記載の方法。 - 前記以前のキャリブレーション済みパラメータ全てに対して前記ロスが減少しなかった場合、前記キャリブレーション装置は、前記予め設定された学習率を減少させ、前記(i)プロセスと、前記(ii)プロセスと、前記(iii)プロセスとを遂行することを特徴とする請求項6に記載の方法。
- リアル環境(Real Environment)においてディープラーニング(Deep Learning)基盤装置により多数のリアル最近のフレーム(Real Recent Frame)情報で遂行されたリアルアクション(Real Action)に関するリアルアクション情報に対応する予測ネクストフレーム(Predicted Next Frame)情報を生成するリアル状態ネットワーク(Real State Network)を学習する方法において、
(a)前記リアル環境において前記ディープラーニング基盤装置により遂行された前記リアルアクションに対する前記多数のリアルアクション情報に対応する多数の軌跡(Trajectory)情報がトレーニングデータとして取得されると、学習装置が、特定の軌跡情報の特定時点におけるリアル現在フレーム(Real Current Frame)情報とk個の以前のリアルフレーム(Previous Real Frame)情報とを参照して多数の学習用最近フレーム情報を生成するプロセスを遂行する段階;
(b)前記学習装置が、前記特定時点における前記特定の軌跡情報のリアル現在のアクション情報を参照して取得された学習用アクション情報と前記多数の学習用最近フレーム情報とを前記リアル状態ネットワークに入力することによって、前記リアル状態ネットワークをもって予測パラメータを利用して前記多数の学習用最近フレーム情報と前記学習用アクション情報とに対して演算を適用させて前記予測ネクストフレーム情報を出力させるプロセスを遂行する段階;及び
(c)前記学習装置が、前記特定の軌跡情報における前記リアル現在フレーム情報の次のリアルネクストフレーム情報と前記予測ネクストフレーム情報とを参照して生成された少なくとも一つのロスを利用して、前記ロスが最小化されるように前記予測パラメータをアップデートするプロセスを遂行する段階;
を含むことを特徴とする方法。 - 前記(b)段階で、
前記学習装置は、(i)(i−1)前記多数の学習用最近フレーム情報をコンカチネート(Concatenating)して生成された学習用現在フレーム状態の和(Current Frame State Sum)を前記リアル状態ネットワークのCNN(Convolutional Neural Network)に入力して、前記CNNをもって、前記学習用現在フレーム状態の和に対してコンボリューション演算を適用して第1の特徴(Feature)を出力させるプロセス、及び(i−2)前記学習用アクション情報を前記リアル状態ネットワークの少なくとも一つのFCレイヤ(Fully Connected Layer)に入力して、前記少なくとも一つのFCレイヤをもって、前記学習用アクション情報に対してFC演算を適用して第2の特徴を出力させるプロセス、及び(ii)前記第1の特徴と前記第2の特徴とをコンカチネートして生成されたコンカチネート済み特徴をデコンボリューションレイヤ(Deconvolution Layer)に入力して、前記デコンボリューションレイヤをもって、前記コンカチネート済み特徴に対してデコンボリューション演算を適用して前記予測ネクストフレーム情報を出力させるプロセスを遂行することを特徴とする請求項8に記載の方法。 - 前記学習装置は、(i)前記CNNをもって、HxWxCテンソル(Tensor)である前記多数の学習用最近フレーム情報をコンカチネートして生成されたHxWx(K+1)テンソルである前記学習用現在フレーム状態の和を、HWC次元ベクトル(Dimension Vector)である前記第1の特徴として出力させるプロセス、(ii)前記少なくとも一つのFCレイヤをもって、3次元ベクトルである前記学習用アクション情報を、L次元ベクトルである前記第2の特徴として出力させるプロセス、及び(iii)前記デコンボリューションレイヤをもって、前記第1の特徴と前記第2の特徴とをコンカチネートして生成された1x1x(HWC+L)テンソルを、HxWxCテンソルである前記予測ネクストフレーム情報として出力させるプロセスを遂行することを特徴とする請求項9に記載の方法。
- 前記学習装置は、前記ロスを利用した最急降下法(Gradient Descent)によって前記少なくとも一つのCNNと、前記少なくとも一つのFCレイヤと、前記デコンボリューションレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする請求項9に記載の方法。
- ディープラーニング(Deep Learning)基盤装置の学習に使用されるバーチャル世界シミュレータ(Virtual World Simulator)の物理エンジン(Physics Engine)をキャリブレーション(Calibration)するキャリブレーション装置において、
インストラクションを格納する少なくとも一つのメモリと、
(I)バーチャル環境(Virtual Environment)上のバーチャル現在状態(Virtual Current State)に対応するバーチャル現在フレーム(Virtual Current Frame)情報が前記バーチャル世界シミュレータから取得されると、(i)前記バーチャル現在フレーム情報を前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、以前の学習パラメータを利用して前記バーチャル現在フレーム情報に対して演算を適用させて、前記バーチャル現在フレーム情報に対応するバーチャルアクション(Virtual Action)情報を出力させるプロセス、(ii)前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記バーチャル世界シミュレータの前記物理エンジンに伝送することによって、前記物理エンジンをもって、以前のキャリブレーション済みパラメータ(Previous Calibrated Parameter)を利用して前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対応するバーチャルネクストフレーム(Virtual Next Frame)情報を出力させるプロセス、及び(iii)前記バーチャル現在フレーム情報と前記バーチャルアクション情報とをリアル状態ネットワーク(Real State Network)(前記リアル状態ネットワークはリアル環境(Real Environment)上の多数のリアル最近のフレーム(Real Recent Frame)情報において前記ディープラーニング基盤装置により遂行されたリアルアクション(Real Action)に関するリアルアクション情報に応答して多数の予測ネクストフレーム(Predicted Next Frame)情報を出力するように学習された状態である)に伝送することによって、前記リアル状態ネットワークをもって学習された予測パラメータを利用して、前記バーチャル現在フレーム情報に対応する多数のバーチャル最近のフレーム(Virtual Recent Frame)情報と前記バーチャルアクション情報とに対してアクションを適用させて予測リアルネクストフレーム(Predicted Real Next Frame)情報を出力させるプロセス;及び(II)前記バーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つのロスが最小化されるように、前記物理エンジンの前記以前のキャリブレーション済みパラメータをキャリブレーションし、最適化して現在のキャリブレーション済みパラメータ(Current Calibrated Parameter)を最適化されたパラメータとして生成するプロセスを遂行するための前記インストラクションを実行するか、他の装置をもって実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするキャリブレーション装置。 - (III)前記プロセッサが、前記バーチャルアクション情報に対応するリワード(Reward)情報と前記バーチャルネクストフレーム情報とを前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、前記バーチャルネクストフレーム情報と前記リワード情報とを利用したオンポリシー強化学習(On−Policy Reinforcement Learning)を通じて前記以前の学習パラメータをアップデートさせるプロセス;
をさらに遂行することを特徴とする請求項12に記載のキャリブレーション装置。 - 前記(iii)プロセスで、
前記プロセッサは、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、前記バーチャル現在フレーム情報と以前に伝送されたk個のバーチャル以前フレーム情報とを参照して前記多数のバーチャル最近フレーム情報を生成させることを特徴とする請求項12に記載のキャリブレーション装置。 - 前記(iii)プロセスで、
前記プロセッサは、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、(iii−1)(iii−1−1)前記バーチャル現在フレーム情報と前記k個のバーチャル以前フレーム情報とをコンカチネート(Concatenating)して生成されたバーチャル現在フレーム状態の和(Virtual Current Frame State Sum)に対してコンボリューション演算(Convolution Operation)を適用して第1次元ベクトル(Dimension Vector)を生成させ、(iii−1−2)前記バーチャルアクション情報に対してFC(Fully Connected)演算を適用して第2次元ベクトルを生成させ、(iii−2)前記第1次元ベクトルと前記第2次元ベクトルとのコンカチネーション結果に対してデコンボリューション演算を適用して前記予測リアルネクストフレーム情報を生成させることを特徴とする請求項14に記載のキャリブレーション装置。 - 前記バーチャル現在フレーム状態の和は、(i)HxWxCテンソル(Tensor)である前記バーチャル現在フレーム情報と(ii)k個の前記バーチャル以前フレーム情報とをコンカチネートして生成されたHxWx(K+1)テンソルであり、
前記第1次元ベクトルはHWC次元ベクトルであり、
前記第2次元ベクトルをL次元ベクトルとする場合、前記予測リアルネクストフレーム情報は、前記第1次元ベクトルと前記第2次元ベクトルとをコンカチネートして生成された1x1x(HWC+L)テンソルに対してデコンボリューション演算を適用して生成されたHxWxCテンソルであることを特徴とする請求項15に記載のキャリブレーション装置。 - 前記(II)プロセスで、
前記プロセッサは、(II−1)前記以前のキャリブレーション済みパラメータのうち一つの以前のキャリブレーション済みパラメータを選択するプロセス、(II−2)前記選択された一つの以前のキャリブレーション済みパラメータを、前記ロスを利用してキャリブレーションし、予め設定された学習率に応じてキャリブレーションして、一つの現在のキャリブレーション済みパラメータを最適化されたパラメータ(Optimized Parameter)として生成するプロセス、及び(II−3)(II−3a)前記物理エンジンをもって、前記一つの現在のキャリブレーション済みパラメータと、前記一つの以前のキャリブレーション済みパラメータを除いた残りの以前のキャリブレーション済みパラメータとを利用して、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、新たなバーチャルネクストフレーム情報を生成させるプロセス、及び(II−3b)前記新たなバーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つの新たなロスを利用して前記ロスが減少したのかを確認するプロセスを、前記ロスが減少するまで繰り返すことを特徴とする請求項12に記載のキャリブレーション装置。 - 前記以前のキャリブレーション済みパラメータ全てに対して前記ロスが減少しなかった場合、前記プロセッサは、前記予め設定された学習率を減少させ、前記(i)プロセスと、前記(ii)プロセスと、前記(ii)プロセスとを遂行することを特徴とする請求項17に記載のキャリブレーション装置。
- リアル環境(Real Environment)においてディープラーニング(Deep Learning)基盤装置により多数のリアル最近のフレーム(Real Recent Frame)情報で遂行されたリアルアクション(Real Action)に関するリアルアクション情報に対応する予測ネクストフレーム(Predicted Next Frame)情報を生成するリアル状態ネットワーク(Real State Network)を学習する学習装置において、
インストラクションを格納する少なくとも一つのメモリと、
(I)前記リアル環境において前記ディープラーニング基盤装置により遂行された前記リアルアクションに対する前記多数のリアルアクション情報に対応する多数の軌跡(Trajectory)情報がトレーニングデータとして取得されると、特定の軌跡情報の特定時点におけるリアル現在フレーム(Real Current Frame)情報とk個の以前のリアルフレーム(Previous Real Frame)情報とを参照して多数の学習用最近フレーム情報を生成するプロセス;(II)前記特定時点における前記特定の軌跡情報のリアル現在のアクション情報を参照して取得された学習用アクション情報と前記多数の学習用最近フレーム情報とを前記リアル状態ネットワークに入力することによって、前記リアル状態ネットワークをもって予測パラメータを利用して前記多数の学習用最近フレーム情報と前記学習用アクション情報とに対して演算を適用させて前記予測ネクストフレーム情報を出力させるプロセス;及び(III)前記特定の軌跡情報における前記リアル現在フレーム情報の次のリアルネクストフレーム情報と前記予測の次のフレーム情報とを参照して生成された少なくとも一つのロスを利用して、前記ロスが最小化されるように前記予測パラメータをアップデートするプロセスを遂行するための前記インストラクションを実行するか、他の装置をもって実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。 - 前記(II)プロセスで、
前記プロセッサは、(i)(i−1)前記多数の学習用最近フレーム情報をコンカチネート(Concatenating)して生成された学習用現在フレーム状態の和(Current Frame State Sum)を前記リアル状態ネットワークのCNN(Convolutional Neural Network)に入力して、前記CNNをもって、前記学習用現在フレーム状態の和に対してコンボリューション演算を適用して第1の特徴(Feature)を出力させるプロセス、及び(i−2)前記学習用アクション情報を前記リアル状態ネットワークの少なくとも一つのFCレイヤ(Fully Connected Layer)に入力して、前記少なくとも一つのFCレイヤをもって、前記学習用アクション情報に対してFC演算を適用して第2の特徴を出力させるプロセス、及び(ii)前記第1の特徴と前記第2の特徴とをコンカチネートして生成されたコンカチネート済み特徴をデコンボリューションレイヤ(Deconvolution Layer)に入力して、前記デコンボリューションレイヤをもって、前記コンカチネート済み特徴に対してデコンボリューション演算を適用して前記予測ネクストフレーム情報を出力させるプロセスを遂行することを特徴とする請求項19に記載の学習装置。 - 前記プロセッサは、(i)前記CNNをもって、HxWxCテンソル(Tensor)である前記多数の学習用最近フレーム情報をコンカチネートして生成されたHxWx(K+1)テンソルである前記学習用現在フレーム状態の和を、HWC次元ベクトル(Dimension Vector)である前記第1の特徴として出力させるプロセス、(ii)前記少なくとも一つのFCレイヤをもって、3次元ベクトルである前記学習用アクション情報を、L次元ベクトルである前記第2の特徴として出力させるプロセス、及び(iii)前記デコンボリューションレイヤをもって、前記第1の特徴と前記第2の特徴とをコンカチネートして生成された1x1x(HWC+L)テンソルを、HxWxCテンソルである前記予測ネクストフレーム情報として出力させるプロセスを遂行することを特徴とする請求項20に記載の学習装置。
- 前記プロセッサは、前記ロスを利用した最急降下法(Gradient Descent)によって前記少なくとも一つのCNNと、前記少なくとも一つのFCレイヤと、前記デコンボリューションレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする請求項20に記載の学習装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962798691P | 2019-01-30 | 2019-01-30 | |
US62/798,691 | 2019-01-30 | ||
US16/723,450 | 2019-12-20 | ||
US16/723,450 US10776542B2 (en) | 2019-01-30 | 2019-12-20 | Method and device for calibrating physics engine of virtual world simulator to be used for learning of deep learning-based device, and a learning method and learning device for real state network used therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020123338A JP2020123338A (ja) | 2020-08-13 |
JP6865365B2 true JP6865365B2 (ja) | 2021-04-28 |
Family
ID=69177075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020007174A Active JP6865365B2 (ja) | 2019-01-30 | 2020-01-20 | ディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及びそれを利用した学習装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10776542B2 (ja) |
EP (1) | EP3690750A1 (ja) |
JP (1) | JP6865365B2 (ja) |
KR (1) | KR102300910B1 (ja) |
CN (1) | CN111738046A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102264571B1 (ko) * | 2020-10-30 | 2021-06-15 | 주식회사 애자일소다 | 계층 구조를 갖는 의사결정 에이전트 |
DE102020215302A1 (de) * | 2020-12-03 | 2022-06-09 | Robert Bosch Gesellschaft mit beschränkter Haftung | Dynamikabhängige Verhaltensplanung für zumindest teilweise automatisiert fahrende Fahrzeuge |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102014117888A1 (de) * | 2014-12-04 | 2016-10-13 | Connaught Electronics Ltd. | Online-Kalibrierung eines Kraftfahrzeug-Kamerasystems |
WO2017004803A1 (en) * | 2015-07-08 | 2017-01-12 | Xiaoou Tang | An apparatus and a method for semantic image labeling |
US10019652B2 (en) * | 2016-02-23 | 2018-07-10 | Xerox Corporation | Generating a virtual world to assess real-world video analysis performance |
WO2017163538A1 (ja) * | 2016-03-25 | 2017-09-28 | ソニー株式会社 | 情報処理装置 |
US10902343B2 (en) * | 2016-09-30 | 2021-01-26 | Disney Enterprises, Inc. | Deep-learning motion priors for full-body performance capture in real-time |
KR20180094725A (ko) * | 2017-02-16 | 2018-08-24 | 삼성전자주식회사 | 자율 주행을 위한 차량 제어 방법, 차량 제어 장치 및 자율 주행을 위한 학습 방법 |
US10678846B2 (en) * | 2017-03-10 | 2020-06-09 | Xerox Corporation | Instance-level image retrieval with a region proposal network |
US10475165B2 (en) * | 2017-04-06 | 2019-11-12 | Disney Enterprises, Inc. | Kernel-predicting convolutional neural networks for denoising |
CN111919225B (zh) * | 2018-03-27 | 2024-03-26 | 辉达公司 | 使用模拟环境对自主机器进行培训、测试和验证 |
-
2019
- 2019-12-20 US US16/723,450 patent/US10776542B2/en active Active
-
2020
- 2020-01-06 KR KR1020200001711A patent/KR102300910B1/ko active IP Right Grant
- 2020-01-17 EP EP20152427.9A patent/EP3690750A1/en active Pending
- 2020-01-19 CN CN202010061002.7A patent/CN111738046A/zh active Pending
- 2020-01-20 JP JP2020007174A patent/JP6865365B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP3690750A1 (en) | 2020-08-05 |
JP2020123338A (ja) | 2020-08-13 |
CN111738046A (zh) | 2020-10-02 |
US10776542B2 (en) | 2020-09-15 |
KR102300910B1 (ko) | 2021-09-13 |
KR20200094639A (ko) | 2020-08-07 |
US20200242289A1 (en) | 2020-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6857371B2 (ja) | 安全な自律走行を支援する学習方法、そしてこれを利用した学習装置、テスト方法、及びテスト装置 | |
JP6913969B2 (ja) | 強化学習に基づいて協同走行で多重エージェントセンサフュージョンを遂行する方法及び装置 | |
JP6931937B2 (ja) | 人の走行データをトレーニングデータとして利用して、強化学習を支援することによりカスタマイズ型経路プランニングを遂行する学習方法及び学習装置 | |
JP6855090B2 (ja) | カメラから取得されたイメージと、それに対応するレーダまたはライダを通じて取得されたポイントクラウドマップをニューラルネットワークのそれぞれのコンボリューションステージごとに統合する学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 | |
CN110197027B (zh) | 一种自动驾驶测试方法、装置、智能设备和服务器 | |
US10816978B1 (en) | Automated vehicle artificial intelligence training based on simulations | |
US20230244237A1 (en) | Optimal path library for local path planning of an autonomous vehicle | |
Pereira et al. | An integrated architecture for autonomous vehicles simulation | |
US10997729B2 (en) | Real time object behavior prediction | |
US20200174472A1 (en) | Real time decision making for autonomous driving vehicles | |
CN110647839A (zh) | 自动驾驶策略的生成方法、装置及计算机可读存储介质 | |
CN112382165B (zh) | 驾驶策略生成方法、装置、介质、设备及仿真系统 | |
KR102373487B1 (ko) | 최근 주행 경로에 대한 궤적 기반 행동 분석을 수행하여 차량의 모드를 수동 주행 모드에서 자율 주행 모드로 변경할 지 여부를 판단하는 학습 방법 및 학습 장치 | |
US11518382B2 (en) | Learning to simulate | |
JP6865365B2 (ja) | ディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及びそれを利用した学習装置 | |
CN112703459A (zh) | 对抗场景的迭代生成 | |
CN114084155B (zh) | 预测型智能汽车决策控制方法、装置、车辆及存储介质 | |
JP7092383B2 (ja) | 各領域において最適化された自律走行を遂行できるように位置基盤アルゴリズムの選択によってシームレスパラメータ変更を遂行する方法及び装置 | |
JP6978104B2 (ja) | Ganを用いて仮想世界における仮想データから取得したトレーニングデータを生成して、自律走行用ニューラルネットワークの学習プロセスに必要なアノテーションコストを削減する学習方法や学習装置、それを利用したテスト方法やテスト装置 | |
JP6892157B2 (ja) | V2x情報融合技術によって取得された、各物体に対する深さ予測情報及び各物体に対するクラス情報を利用して3d空間を再構築することによりhdマップをアップデートする学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置 | |
CN112784867A (zh) | 利用合成图像训练深度神经网络 | |
JP7413249B2 (ja) | 情報処理装置、情報処理方法 | |
WO2020054345A1 (ja) | 電子制御装置、ニューラルネットワーク更新システム | |
Stević et al. | Development of ADAS perception applications in ROS and" Software-In-the-Loop" validation with CARLA simulator | |
JP6856957B2 (ja) | 写真スタイル変換を使用してランタイム入力の変換によりリアル世界で使用されるバーチャル世界で学習されたcnnを許容するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6865365 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |