JP2019098949A - 学習方法、学習装置及び学習プログラム - Google Patents
学習方法、学習装置及び学習プログラム Download PDFInfo
- Publication number
- JP2019098949A JP2019098949A JP2017232457A JP2017232457A JP2019098949A JP 2019098949 A JP2019098949 A JP 2019098949A JP 2017232457 A JP2017232457 A JP 2017232457A JP 2017232457 A JP2017232457 A JP 2017232457A JP 2019098949 A JP2019098949 A JP 2019098949A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- real image
- virtual
- virtual environment
- learn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000006399 behavior Effects 0.000 claims abstract description 42
- 230000009471 action Effects 0.000 claims description 13
- 238000004088 simulation Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000002787 reinforcement Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010367 cloning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
Description
制御対象を自動で制御するためのエージェントの学習方法であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得するステップと、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成するステップと、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させるステップとを含む、
学習方法が得られる。
[項目1]
制御対象を自動で制御するためのエージェントの学習方法であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得するステップと、
実画像と、仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成するステップと、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させるステップとを含む、
学習方法。
[項目2]
項目1に記載の学習方法であって、
前記シミュレータは、仮想空間を生成する仮想空間生成部と、当該仮想空間内に表示された制御対象の制御を受け付ける入力部と、当該制御を前記見本行動情報として記録する季肋部と、前記仮想空間及び前記制御対象を表示するヘッドマウントディスプレイ部とを少なくとも備えている、
学習方法。
[項目3]
項目1又は項目2に記載の学習方法であって、
前記所定の生成モデルは、Generative Adversarial Netorks(GAN)を利用した生成モデルである、
学習方法。
[項目4]
項目1乃至項目3のいずれかに記載の学習方法であって、
前記第2仮想環境は、前記実画像と、前記仮想画像と、前記疑似実画像とを所定の比率において利用して構築されたものである、
学習方法。
[項目5]
項目1乃至項目4のいずれかに記載の学習方法であって、
前記制御対象のダイナミクスモデルを考慮して前記模倣学習を補正するステップを更に含む、
学習方法。
[項目6]
項目1乃至項目5のいずれかに記載の学習方法であって、
前記模倣学習を検証するためのステップであって、シナリオベースシミュレーション、マルチエージェントシミュレーション又は敵対的エージェントシミュレーションの少なくともいずれかを利用するステップを更に含む、
学習方法。
[項目7]
項目1乃至項目6のいずれかに記載の学習方法であって、
前記制御対象は自動車であり、
前記第1仮想環境は前記自動車の走行環境であり、
前記見本行動は、前記走行環境内における前記自動車の運転操作である、
学習方法。
[項目8]
制御対象を自動で制御するためのエージェントの学習装置であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得する手段と、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成する手段と、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる手段とを備える、
学習装置。
[項目9]
コンピュータ端末を利用して、制御対象を自動で制御するためのエージェントの学習プログラムであって、
前記コンピュータ端末を
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得する手段、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成する手段、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる手段として機能させる、
学習プログラム。
[項目10]
制御対象を自動で制御するためのエージェントの学習システムであって、
見本行動取得装置が、第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得し、
疑似実画像生成装置が、実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成し、
学習装置が、少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる、
学習システム。
以下、本発明による学習方法を自動車の自動運転制御の学習に関するものとして説明する。学習方法は、基本的には従来り深層強化学習によってエージェントに自律的に運転動作を探索させる。
図1は、学習システムの処理の流れを模式的に示すブロック図である。なお、図の構成は一例であり、これら以外の要素が含まれていてもよい。
情報提供システムのハードウェア構成について、図2及び図3を参照して説明する。本実施の形態による学習装置及び入力装置は、次のようなハードウェア構成を有している。
図2は学習装置の機能ブロック図を示す図である。なお、図示される構成は一例であり、これら以外の機能が付加されていてもよい。
図1に示されるように、本実施の形態においては、道路等を実際に撮影した実画像と、CGで再現した仮想画像と、生成モデル(後述する)を利用して得られる疑似実画像とをそれぞれ所定の比率で利用してエージェントの学習を行う。
続いて、図1を参照して本実施の形態による学習システムの処理の流れを説明する。
[項目1]
制御対象を自動で制御するためのエージェントの学習方法であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得するステップと、
実画像と、仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成するステップと、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させるステップとを含む、
学習方法。
[項目2]
項目1に記載の学習方法であって、
前記シミュレータは、仮想空間を生成する仮想空間生成部と、当該仮想空間内に表示された制御対象の制御を受け付ける入力部と、当該制御を前記見本行動情報として記録する記録部と、前記仮想空間及び前記制御対象を表示するヘッドマウントディスプレイ部とを少なくとも備えている、
学習方法。
[項目3]
項目1又は項目2に記載の学習方法であって、
前記所定の生成モデルは、Generative Adversarial Networks(GAN)を利用した生成モデルである、
学習方法。
[項目4]
項目1乃至項目3のいずれかに記載の学習方法であって、
前記第2仮想環境は、前記実画像と、前記仮想画像と、前記疑似実画像とを所定の比率において利用して構築されたものである、
学習方法。
[項目5]
項目1乃至項目4のいずれかに記載の学習方法であって、
前記制御対象のダイナミクスモデルを考慮して前記模倣学習を補正するステップを更に含む、
学習方法。
[項目6]
項目1乃至項目5のいずれかに記載の学習方法であって、
前記模倣学習を検証するためのステップであって、シナリオベースシミュレーション、マルチエージェントシミュレーション又は敵対的エージェントシミュレーションの少なくともいずれかを利用するステップを更に含む、
学習方法。
[項目7]
項目1乃至項目6のいずれかに記載の学習方法であって、
前記制御対象は自動車であり、
前記第1仮想環境は前記自動車の走行環境であり、
前記見本行動は、前記走行環境内における前記自動車の運転操作である、
学習方法。
[項目8]
制御対象を自動で制御するためのエージェントの学習装置であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得する手段と、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成する手段と、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる手段とを備える、
学習装置。
[項目9]
コンピュータ端末を利用して、制御対象を自動で制御するためのエージェントの学習プログラムであって、
前記コンピュータ端末を
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得する手段、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成する手段、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる手段として機能させる、
学習プログラム。
[項目10]
制御対象を自動で制御するためのエージェントの学習システムであって、
見本行動取得装置が、第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得し、
疑似実画像生成装置が、実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成し、
学習装置が、少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる、
学習システム。
Claims (10)
- 制御対象を自動で制御するためのエージェントの学習方法であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得するステップと、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成するステップと、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させるステップとを含む、
学習方法。 - 請求項1に記載の学習方法であって、
前記シミュレータは、仮想空間を生成する仮想空間生成部と、当該仮想空間内に表示された制御対象の制御を受け付ける入力部と、当該制御を前記見本行動情報として記録する季肋部と、前記仮想空間及び前記制御対象を表示するヘッドマウントディスプレイ部とを少なくとも備えている、
学習方法。 - 請求項1又は請求項2に記載の学習方法であって、
前記所定の生成モデルは、Generative Adversarial Netorks(GAN)を利用した生成モデルである、
学習方法。 - 請求項1乃至請求項3のいずれかに記載の学習方法であって、
前記第2仮想環境は、前記実画像と、前記仮想画像と、前記疑似実画像とを所定の比率において利用して構築されたものである、
学習方法。 - 請求項1乃至請求項4のいずれかに記載の学習方法であって、
前記制御対象のダイナミクスモデルを考慮して前記模倣学習を補正するステップを更に含む、
学習方法。 - 請求項1乃至請求項5のいずれかに記載の学習方法であって、
前記模倣学習を検証するためのステップであって、シナリオベースシミュレーション、マルチエージェントシミュレーション又は敵対的エージェントシミュレーションの少なくともいずれかを利用するステップを更に含む、
学習方法。 - 請求項1乃至請求項6のいずれかに記載の学習方法であって、
前記制御対象は自動車であり、
前記第1仮想環境は前記自動車の走行環境であり、
前記見本行動は、前記走行環境内における前記自動車の運転操作である、
学習方法。 - 制御対象を自動で制御するためのエージェントの学習装置であって、
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得する手段と、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成する手段と、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる手段とを備える、
学習装置。 - コンピュータ端末を利用して、制御対象を自動で制御するためのエージェントの学習プログラムであって、
前記コンピュータ端末を
第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得する手段、
実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成する手段、
少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる手段として機能させる、
学習プログラム。 - 制御対象を自動で制御するためのエージェントの学習システムであって、
見本行動取得装置が、第1仮想環境を提供するシミュレータを利用して操作者による見本行動情報を取得し、
疑似実画像生成装置が、実画像と、前記第1仮想環境から抽出された仮想画像とを入力情報とする所定の生成モデルによって、疑似実画像を生成し、
学習装置が、少なくとも前記疑似実画像を利用して構築された第2仮想環境上で、前記見本行動情報に基づいて前記エージェントを模倣学習により学習させる、
学習システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017232457A JP6856936B2 (ja) | 2017-12-04 | 2017-12-04 | 学習方法、学習装置及び学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017232457A JP6856936B2 (ja) | 2017-12-04 | 2017-12-04 | 学習方法、学習装置及び学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019098949A true JP2019098949A (ja) | 2019-06-24 |
JP6856936B2 JP6856936B2 (ja) | 2021-04-14 |
Family
ID=66975533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017232457A Active JP6856936B2 (ja) | 2017-12-04 | 2017-12-04 | 学習方法、学習装置及び学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6856936B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110599395A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 目标图像生成方法、装置、服务器及存储介质 |
CN112809689A (zh) * | 2021-02-26 | 2021-05-18 | 同济大学 | 基于语言引导的机械臂动作元模仿学习方法及存储介质 |
WO2021244207A1 (zh) * | 2020-06-06 | 2021-12-09 | 华为技术有限公司 | 训练驾驶行为决策模型的方法及装置 |
US11797889B1 (en) * | 2021-01-21 | 2023-10-24 | Apple Inc. | Method and device for modeling a behavior with synthetic training data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009181187A (ja) * | 2008-01-29 | 2009-08-13 | Toyota Central R&D Labs Inc | 行動モデル作成装置及びプログラム |
DE102016100428A1 (de) * | 2015-01-21 | 2016-07-21 | Ford Global Technologies, Llc | In virtuellen Umgebungen verfeinertes autonomes Fahren |
CN106503393A (zh) * | 2016-11-15 | 2017-03-15 | 浙江大学 | 一种利用仿真生成样本实现无人车自主行进的方法 |
US20170109458A1 (en) * | 2015-10-16 | 2017-04-20 | Ford Global Technologies, Llc | Testbed for lane boundary detection in virtual driving environment |
WO2017163538A1 (ja) * | 2016-03-25 | 2017-09-28 | ソニー株式会社 | 情報処理装置 |
-
2017
- 2017-12-04 JP JP2017232457A patent/JP6856936B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009181187A (ja) * | 2008-01-29 | 2009-08-13 | Toyota Central R&D Labs Inc | 行動モデル作成装置及びプログラム |
DE102016100428A1 (de) * | 2015-01-21 | 2016-07-21 | Ford Global Technologies, Llc | In virtuellen Umgebungen verfeinertes autonomes Fahren |
US20170109458A1 (en) * | 2015-10-16 | 2017-04-20 | Ford Global Technologies, Llc | Testbed for lane boundary detection in virtual driving environment |
WO2017163538A1 (ja) * | 2016-03-25 | 2017-09-28 | ソニー株式会社 | 情報処理装置 |
CN106503393A (zh) * | 2016-11-15 | 2017-03-15 | 浙江大学 | 一种利用仿真生成样本实现无人车自主行进的方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110599395A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 目标图像生成方法、装置、服务器及存储介质 |
CN110599395B (zh) * | 2019-09-17 | 2023-05-12 | 腾讯科技(深圳)有限公司 | 目标图像生成方法、装置、服务器及存储介质 |
WO2021244207A1 (zh) * | 2020-06-06 | 2021-12-09 | 华为技术有限公司 | 训练驾驶行为决策模型的方法及装置 |
US11797889B1 (en) * | 2021-01-21 | 2023-10-24 | Apple Inc. | Method and device for modeling a behavior with synthetic training data |
CN112809689A (zh) * | 2021-02-26 | 2021-05-18 | 同济大学 | 基于语言引导的机械臂动作元模仿学习方法及存储介质 |
CN112809689B (zh) * | 2021-02-26 | 2022-06-14 | 同济大学 | 基于语言引导的机械臂动作元模仿学习方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6856936B2 (ja) | 2021-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7471397B2 (ja) | 道路シーンにおける多様な長期将来軌道のシミュレーション | |
US11741334B2 (en) | Data-efficient reinforcement learning for continuous control tasks | |
US20230419113A1 (en) | Attention-based deep reinforcement learning for autonomous agents | |
JP6856936B2 (ja) | 学習方法、学習装置及び学習プログラム | |
CN113826051A (zh) | 生成实体系统零件之间的交互的数字孪生 | |
CN114514524A (zh) | 多智能体模拟 | |
US11790042B1 (en) | Mitigating reality gap through modification of simulated state data of robotic simulator | |
Li et al. | Sora for senarios engineering of intelligent vehicles: V&V, C&C, and beyonds | |
Cichosz et al. | Imitation learning of car driving skills with decision trees and random forests | |
CN113219854A (zh) | 机器人仿真控制平台、方法及计算机存储介质 | |
Weber et al. | Approach for improved development of advanced driver assistance systems for future smart mobility concepts | |
CN114585487A (zh) | 通过使用基于视觉的机器人任务模型训练模拟到真实模型来减轻现实差距 | |
Schwab et al. | Consistent test method for assistance systems | |
CN115236997B (zh) | 预测控制方法、装置、设备及计算机可读存储介质 | |
JP2023545109A (ja) | 仮想環境における複数のロボットのシミュレーション | |
US20220058318A1 (en) | System for performing an xil-based simulation | |
US11501167B2 (en) | Learning domain randomization distributions for transfer learning | |
Sun et al. | An intelligent driving simulation platform: architecture, implementation and application | |
KR20240160581A (ko) | 자율 시스템 트레이닝 및 테스팅 | |
US20220318450A1 (en) | Lidar Atmospheric Effects in Simulation | |
WO2023150876A1 (en) | Autonomous system training and testing | |
Wang et al. | Attacking End-to-End Visual Navigation Model: How Weak Existing Learning-Based Approaches Can Be? | |
KR20240107155A (ko) | 도시인-기계 상호작용을 위한 테스트 환경 | |
McConnell | Comparison of SLAM algorithms and neural networks for autonomous navigation in simulated environments | |
Vecchio et al. | MIDGARD: A Robot Navigation Simulator for Outdoor Unstructured Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171211 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20171212 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201203 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20201211 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20201211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20201211 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210114 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6856936 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |