CN111738046A - 对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法及装置 - Google Patents

对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法及装置 Download PDF

Info

Publication number
CN111738046A
CN111738046A CN202010061002.7A CN202010061002A CN111738046A CN 111738046 A CN111738046 A CN 111738046A CN 202010061002 A CN202010061002 A CN 202010061002A CN 111738046 A CN111738046 A CN 111738046A
Authority
CN
China
Prior art keywords
virtual
frame information
information
real
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010061002.7A
Other languages
English (en)
Inventor
金桂贤
金镕重
金鹤京
南云铉
夫硕焄
成明哲
申东洙
吕东勳
柳宇宙
李明春
李炯树
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111738046A publication Critical patent/CN111738046A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • B60W40/04Traffic conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Neurology (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种方法,对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定,包括:步骤(a),若获取到与虚拟环境上的虚拟当前状态相对应的虚拟当前帧信息,则标定装置执行(i)向基于深度学习的装置发送虚拟当前帧信息,输出虚拟动作信息,(ii)向物理引擎发送虚拟当前帧信息和虚拟动作信息,输出与虚拟当前帧信息和虚拟动作信息相对应的虚拟下一帧信息,(iii)向真实状态网络发送虚拟当前帧信息和虚拟动作信息,输出预测的真实下一帧信息,真实状态网络经学习对真实动作信息响应而输出多个预测下一帧信息;以及步骤(b),对上一标定参数进行标定,生成当前标定参数。

Description

对用于基于深度学习的装置的学习的虚拟世界模拟器的物理 引擎进行标定的方法及装置
技术领域
本发明涉及用于基于深度学习(Deep Learning)的装置的学习的虚拟世界模拟器(Virtual World Simulator),更详细地涉及,利用真实世界(Real World)中对下一状态(Next State)进行建模(modeling)的真实状态网络(Real State Network)对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎(Physics Engine)进行标定(Calibration)的方法及装置、真实状态网络的学习方法及利用其的学习装置。
背景技术
无人驾驶汽车等基于深度学习(Deep Learning)的装置通常利用由短期规划(Short-Term Planning)输入的最近几个帧至几十个帧的信息,确定下一个动作(Action)。
作为一例,无人驾驶汽车的情况下,基于从各个帧获取的信息,即,基于所检测的对象的边框(Bounding Box)和左/右方向等元数据(Meta Data)或分割图像(SegmentationImage),输出(i)转向角度变化量、(ii)制动踏板压力、(iii)加速踏板压力等三维真实值向量(Real-Valued Vector)的动作,无人驾驶汽车响应于上述动作来进行行驶。
这种基于深度学习的装置应经学习根据输入状态(State)确定适当的动作,对此有多种学习方法,但目前通常使用在线强化学习(On-Policy Reinforcement Learning)。
并且,基于深度学习的装置虽然可以在真实世界(Real World)学习,但难以获取多种训练数据,而且消耗很多时间,学习需要很多费用。
因此,最近提出虚拟世界(Virtual World)中学习基于深度学习的装置的方法。
然而,在虚拟世界学习的情况下,因虚拟环境与真实环境之间的差距(Gap),发生学习结果的可靠性问题。
作为一例,基于深度学习的装置为无人驾驶汽车的情况下,虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)响应于“当前速度和周围情况的状态”而采取“以规定角度旋转转向轮并以规定压力踩住制动踏板的动作”时,输出“车辆的行驶速度、位置、周围情况等发生变化的下一状态(Next State)”,由此使得无人驾驶汽车进行学习。
然而,由虚拟世界模拟器的物理引擎生成的下一状态与真实世界的下一状态之间的误差越大,虚拟世界中学习的最优化动作(Optimal Action)在真实世界中不是最优化的动作的问题越大。
作为一例,无人驾驶汽车的情况下,虽然在虚拟世界学习了危险情况下避免事故的适当的动作,但真实世界的相同情况下即使采取了上述适当的动作但还会发生事故。
发明内容
技术问题
本发明的目的在于,解决以上提及的所有问题。
本发明的再一目的在于,使得虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)输出使虚拟世界与真实世界之间的差距(Gap)最小化的下一状态(Next State)。
本发明的另一目的在于,对虚拟世界模拟器的物理引擎进行标定(Calibration),使得虚拟世界与真实世界更加接近。
解决问题的手段
为了达成如上所述的本发明的目的,并带来后述的本发明的特征性效果,本发明的特征性结构如下:
根据本发明的一方面,提供一种方法,对用于基于深度学习(Deep Learning)的装置的学习的虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration),其特征在于,包括:步骤(a),若从虚拟世界模拟器获取到与虚拟环境(Virtual Environment)上的虚拟当前状态(Virtual Current State)相对应的虚拟当前帧(Virtual Current Frame)信息,则标定装置执行过程(i)、过程(ii)以及过程(iii),过程(i)中,向上述基于深度学习的装置发送上述虚拟当前帧信息,使得上述基于深度学习的装置利用上一学习参数对上述虚拟当前帧信息进行运算,输出与上述虚拟当前帧信息相对应的虚拟动作(Virtual Action)信息,过程(ii)中,向上述虚拟世界模拟器的上述物理引擎发送上述虚拟当前帧信息和上述虚拟动作信息,使得上述物理引擎利用上一标定参数(Previous Calibrated Parameter)对上述虚拟当前帧信息和上述虚拟动作信息进行运算,输出与上述虚拟当前帧信息和上述虚拟动作信息相对应的虚拟下一帧(Virtual NextFrame)信息,过程(iii)中,向真实状态网络(Real State Network)发送上述虚拟当前帧信息和上述虚拟动作信息,使得上述真实状态网络利用经学习的预测参数对与上述虚拟当前帧信息相对应的多个虚拟最近帧(Virtual Recent Frame)信息和上述虚拟动作信息进行运算,输出预测的真实下一帧(Predicted Real Next Frame)信息,上述真实状态网络经学习处于对真实环境(Real Environment)上的多个真实最近帧(Real Recent Frame)信息中由上述基于深度学习的装置执行的真实动作(Real Action)的真实动作信息响应而输出多个预测下一帧(Predicted Next Frame)信息的状态;以及步骤(b),上述标定装置对上述物理引擎的上述上一标定参数进行标定及最优化,使得当前标定参数(Current CalibratedParameter)生成为最优化的参数,以使参照上述虚拟下一帧信息和上述预测的真实下一帧信息生成的至少一个损失最小化。
一实施例中,本发明的特征在于,还包括:步骤(c),上述标定装置向上述基于深度学习的装置发送与上述虚拟动作信息相对应的奖励(Reward)信息和上述虚拟下一帧信息,使得上述基于深度学习的装置通过利用上述虚拟下一帧信息和上述奖励信息的在线强化学习(On-Policy Reinforcement Learning)更新上述上一学习参数。
一实施例中,本发明的特征在于,上述步骤(a)的上述过程(iii)中,上述标定装置执行向上述真实状态网络发送上述虚拟当前帧信息和上述虚拟动作信息的过程,使得上述真实状态网络参照上述虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成上述多个虚拟最近帧信息。
一实施例中,本发明的特征在于,上述过程(iii)中,上述标定装置执行向上述真实状态网络发送上述虚拟当前帧信息和上述虚拟动作信息的过程,使得上述真实状态网络,(iii-1)(iii-1-1)对拼接(Concatenating)上述虚拟当前帧信息和上述k个虚拟上一帧信息(Concatenating)而生成的虚拟当前帧状态合(Virtual Current Frame State Sum)进行卷积运算(Convolution Operation),生成第一维度向量(Dimension Vector),(iii-1-2)对上述虚拟动作信息进行全连接(FC,Fully Connected)运算,生成第二维度向量,(iii-2)对上述第一维度向量和上述第二维度向量的拼接结果进行反卷积运算,生成上述预测的真实下一帧信息。
一实施例中,本发明的特征在于,上述虚拟当前帧状态合是拼接(i)HxWxC张量(Tensor)的上述虚拟当前帧信息和(ii)k个上述虚拟上一帧信息而生成的HxWx(K+1)张量,上述第一维度向量为HWC-维度向量,上述第二维度向量为L维向量的情况下,上述预测的真实下一帧信息是对拼接上述第一维度向量和上述第二维度向量而生成的1x1x(HWC+L)张量进行反卷积运算生成的HxWxC张量。
一实施例中,本发明的特征在于,上述步骤(b)中,上述标定装置重复执行过程(i)、过程(ii)以及过程(iii),直到上述损失减少,过程(i)中,选择上述上一标定参数中的一个上一标定参数的过程,过程(ii)中,利用上述损失对选择的上述一个上一标定参数进行标定,根据预设的学习率进行标定,使得一个当前标定参数生成为最优化的参数(Optimized Parameter),过程(iii)中,(iii-1)使得上述物理引擎,利用上述一个当前标定参数和除了上述一个上一标定参数之外的剩余上一标定参数,对上述虚拟当前帧信息和上述虚拟动作信息进行运算,生成新的虚拟下一帧信息,(iii-2)利用参照上述新的虚拟下一帧信息和上述预测的真实下一帧信息生成的至少一个新的损失,确认上述损失是否减少。
一实施例中,本发明的特征在于,在所有上述上一标定参数的上述损失未减少的情况下,上述标定装置使得上述预设的学习率减少,并执行上述过程(i)、上述过程(ii)以及上述过程(iii)。
根据本发明的再一方面,提供一种方法,用于真实状态网络(Real StateNetwork)的学习,上述真实状态网络生成真实环境(Real Environment)中由基于深度学习(Deep Learning)的装置对多个真实最近帧(Real Recent Frame)信息执行的真实动作(Real Action)的真实动作信息对应的预测下一帧(Predicted Next Frame)信息,其特征在于,包括:步骤(a),若获取上述真实环境中由上述基于深度学习的装置执行的上述真实动作的上述多个真实动作信息对应的多个轨迹(Trajectory)信息作为训练数据,则学习装置参照特定轨迹信息的特定时刻的真实当前帧(Real Current Frame)信息和k个上一真实帧(Previous Real Frame)信息生成多个学习用最近帧信息;步骤(b),上述学习装置向上述真实状态网络输入参照上述特定时刻的上述特定轨迹信息的真实当前动作信息获取的学习用动作信息和上述多个学习用最近帧信息,使得上述真实状态网络利用预测参数对上述多个学习用最近帧信息和上述学习用动作信息进行运算,输出上述预测下一帧信息;以及步骤(c),上述学习装置利用参照上述特定轨迹信息中的上述真实当前帧信息之后的真实下一帧信息和上述预测下一帧信息生成的至少一个损失,更新上述预测参数,以使上述损失最小化。
一实施例中,本发明的特征在于,上述步骤(b)中,上述学习装置执行:过程(i),(i-1)向上述真实状态网络的卷积神经网络(CNN,Convolutional Neural Network)输入拼接上述多个学习用最近帧信息(Concatenating)而生成的学习用当前帧状态合(CurrentFrame State Sum),使得上述卷积神经网络对上述学习用当前帧状态合进行卷积运算,输出第一特征(Feature),(i-2)向上述真实状态网络的至少一个全连接层(FC layer,FullyConnected Layer)输入上述学习用动作信息,使得上述至少一个全连接层对上述学习用动作信息进行全连接运算,输出第二特征;以及过程(ii),向反卷积层(DeconvolutionLayer)输入拼接上述第一特征和上述第二特征生成的拼接特征,使得上述反卷积层对上述拼接特征进行反卷积运算,输出上述预测下一帧信息。
一实施例中,本发明的特征在于,上述学习装置执行:过程(i),使得上述卷积神经网络,将拼接HxWxC张量(Tensor)的上述多个学习用最近帧信息而生成的HxWx(K+1)张量的上述学习用当前帧状态合输出为HWC-维度向量(Dimension Vector)的上述第一特征;过程(ii),使得上述至少一个全连接层,将三维向量的上述学习用动作信息输出为L维向量的上述第二特征,以及过程(iii),使得上述反卷积层,将拼接上述第一特征和上述第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的上述预测下一帧信息。
一实施例中,本发明的特征在于,上述学习装置通过利用上述损失的梯度下降法(Gradient Descent),更新上述至少一个CNN、上述至少一个全连接层,以及上述反卷积层中的至少一个参数。
根据本发明的又一方面,提供一种标定装置,对用于基于深度学习(DeepLearning)的装置的学习的虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration),其特征在于,包括:至少一个存储器,用于存储指令;以及至少一个处理器,执行上述指令或使得其他装置执行步骤(I)以及步骤(II),步骤(I)中,若从虚拟世界模拟器获取到与虚拟环境(Virtual Environment)上的虚拟当前状态(Virtual Current State)相对应的虚拟当前帧(Virtual Current Frame)信息,则执行过程(i)、过程(ii)以及过程(iii),过程(i)中,向上述基于深度学习的装置发送上述虚拟当前帧信息,使得上述基于深度学习的装置利用上一学习参数对上述虚拟当前帧信息进行运算,输出与上述虚拟当前帧信息相对应的虚拟动作(Virtual Action)信息,过程(ii)中,向上述虚拟世界模拟器的上述物理引擎发送上述虚拟当前帧信息和上述虚拟动作信息,使得上述物理引擎利用上一标定参数(Previous Calibrated Parameter)对上述虚拟当前帧信息和上述虚拟动作信息进行运算,输出与上述虚拟当前帧信息和上述虚拟动作信息相对应的虚拟下一帧(Virtual Next Frame)信息,过程(iii)中,向真实状态网络(Real StateNetwork)发送上述虚拟当前帧信息和上述虚拟动作信息,使得上述真实状态网络利用经学习的预测参数对与上述虚拟当前帧信息相对应的多个虚拟最近帧(Virtual RecentFrame)信息和上述虚拟动作信息进行运算,输出预测的真实下一帧(Predicted Real NextFrame)信息,上述真实状态网络经学习处于对真实环境(Real Environment)上的多个真实最近帧(Real Recent Frame)信息中由上述基于深度学习的装置执行的真实动作(RealAction)的真实动作信息响应而输出多个预测下一帧(Predicted Next Frame)信息的状态;步骤(II)中,对上述物理引擎的上述上一标定参数进行标定及最优化,使得当前标定参数(Current Calibrated Parameter)生成为最优化的参数,以使参照上述虚拟下一帧信息和上述预测的真实下一帧信息生成的至少一个损失最小化。
一实施例中,本发明的特征在于,还包括:步骤(III),上述处理器向上述基于深度学习的装置发送与上述虚拟动作信息相对应的奖励(Reward)信息和上述虚拟下一帧信息,使得上述基于深度学习的装置通过利用上述虚拟下一帧信息和上述奖励信息的在线强化学习(On-Policy Reinforcement Learning)更新上述上一学习参数。
一实施例中,本发明的特征在于,上述过程(iii)中,上述处理器执行向上述真实状态网络发送上述虚拟当前帧信息和上述虚拟动作信息的过程,使得上述真实状态网络参照上述虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成上述多个虚拟最近帧信息。
一实施例中,本发明的特征在于,上述过程(iii)中,上述处理器执行向上述真实状态网络发送上述虚拟当前帧信息和上述虚拟动作信息的过程,使得上述真实状态网络,(iii-1)(iii-1-1)对拼接(Concatenating)上述虚拟当前帧信息和上述k个虚拟上一帧信息(Concatenating)而生成的虚拟当前帧状态合(Virtual Current Frame State Sum)进行卷积运算(Convolution Operation),生成第一维度向量(Dimension Vector),(iii-1-2)对上述虚拟动作信息进行全连接(FC,Fully Connected)运算,生成第二维度向量,(iii-2)对上述第一维度向量和上述第二维度向量的拼接结果进行反卷积运算,生成上述预测的真实下一帧信息。
一实施例中,本发明的特征在于,上述虚拟当前帧状态合是拼接(i)HxWxC张量(Tensor)的上述虚拟当前帧信息和(ii)k个上述虚拟上一帧信息而生成的HxWx(K+1)张量,上述第一维度向量为HWC-维度向量,上述第二维度向量为L维向量的情况下,上述预测的真实下一帧信息是对拼接上述第一维度向量和上述第二维度向量而生成的1x1x(HWC+L)张量进行反卷积运算生成的HxWxC张量。
一实施例中,本发明的特征在于,上述步骤(II)中,上述处理器重复执行过程(II-1)、过程(II-2)以及过程(II-3),直到上述损失减少,过程(II-1)中,选择上述上一标定参数中的一个上一标定参数的过程,过程(II-2)中,利用上述损失对选择的上述一个上一标定参数进行标定,根据预设的学习率进行标定,使得一个当前标定参数生成为最优化的参数(Optimized Parameter),过程(II-3)中,(II-3a)使得上述物理引擎,利用上述一个当前标定参数和除了上述一个上一标定参数之外的剩余上一标定参数,对上述虚拟当前帧信息和上述虚拟动作信息进行运算,生成新的虚拟下一帧信息,(II-3b)利用参照上述新的虚拟下一帧信息和上述预测的真实下一帧信息生成的至少一个新的损失,确认上述损失是否减少,直到上述损失减少。
一实施例中,本发明的特征在于,在所有上述上一标定参数的上述损失未减少的情况下,上述处理器使得上述预设的学习率减少,并执行上述过程(i)、上述过程(ii)以及上述过程(iii)。
根据本发明的又一方面,提供一种标定装置,用于真实状态网络(Real StateNetwork)的学习,上述真实状态网络生成真实环境(Real Environment)中由基于深度学习(Deep Learning)的装置对多个真实最近帧(Real Recent Frame)信息执行的真实动作(Real Action)的真实动作信息对应的预测下一帧(Predicted Next Frame)信息,其特征在于,包括:至少一个存储器,用于存储指令;以及至少一个处理器,执行上述指令或使得其他装置执行步骤(I)、步骤(II)以及步骤(III),步骤(I)中,若获取上述真实环境中由上述基于深度学习的装置执行的上述真实动作的上述多个真实动作信息对应的多个轨迹(Trajectory)信息作为训练数据,则参照特定轨迹信息的特定时刻的真实当前帧(RealCurrent Frame)信息和k个上一真实帧(Previous Real Frame)信息生成多个学习用最近帧信息,步骤(II)中,向上述真实状态网络输入参照上述特定时刻的上述特定轨迹信息的真实当前动作信息获取的学习用动作信息和上述多个学习用最近帧信息,使得上述真实状态网络利用预测参数对上述多个学习用最近帧信息和上述学习用动作信息进行运算,输出上述预测下一帧信息,步骤(III)中,上述学习装置利用参照上述特定轨迹信息中的上述真实当前帧信息之后的真实下一帧信息和上述预测下一帧信息生成的至少一个损失,更新上述预测参数,以使上述损失最小化。
一实施例中,本发明的特征在于,上述步骤(II)中,上述处理器执行:过程(i),(i-1)向上述真实状态网络的卷积神经网络(CNN,Convolutional Neural Network)输入拼接上述多个学习用最近帧信息(Concatenating)而生成的学习用当前帧状态合(CurrentFrame State Sum),使得上述卷积神经网络对上述学习用当前帧状态合进行卷积运算,输出第一特征(Feature),(i-2)向上述真实状态网络的至少一个全连接层(FC layer,FullyConnected Layer)输入上述学习用动作信息,使得上述至少一个全连接层对上述学习用动作信息进行全连接运算,输出第二特征;以及过程(ii),向反卷积层(DeconvolutionLayer)输入拼接上述第一特征和上述第二特征生成的拼接特征,使得上述反卷积层对上述拼接特征进行反卷积运算,输出上述预测下一帧信息。
一实施例中,本发明的特征在于,上述处理器执行:过程(i),使得上述卷积神经网络,将拼接HxWxC张量(Tensor)的上述多个学习用最近帧信息而生成的HxWx(K+1)张量的上述学习用当前帧状态合输出为HWC-维度向量(Dimension Vector)的上述第一特征;过程(ii),使得上述至少一个全连接层,将三维向量的上述学习用动作信息输出为L维向量的上述第二特征,以及过程(iii),使得上述反卷积层,将拼接上述第一特征和上述第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的上述预测下一帧信息。
一实施例中,本发明的特征在于,上述处理器通过利用上述损失的梯度下降法(Gradient Descent),更新上述至少一个CNN、上述至少一个全连接层,以及上述反卷积层中的至少一个参数。
此外,本发明还提供用于存储执行本发明的方法的计算机程序的计算机可读存储介质。
发明的效果
本发明具有如下效果:对虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration),以使虚拟世界与真实世界之间的差距(Gap)最小化,在虚拟世界学习的基于深度学习(Deep Learning)的装置的短期规划(Short-TermPlanning)以更高的可靠性适用于真实世界。
本发明的还具有如下效果:为了证明虚拟环境的可靠性,可将物理引擎与真实环境模型之间损失用作可靠性标准(Reliability Measure)。
附图说明
为了说明本发明的实施例而所附的以下附图只是本发明的实施例中的一部分,本发明所属领域的普通技术人员(以下,“普通技术人员”)可以在不付出创造性劳动的情况下通过该附图得出其他附图。
图1简要示出本发明一实施例的对用于基于深度学习(Deep Learning)的装置的学习的虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration)的标定装置。
图2简要示出本发明一实施例的对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法。
图3简要示出本发明一实施例的用于真实状态网络(Real State Network)的学习的学习装置,真实状态网络生成真实环境(Real Environment)中由基于深度学习的装置对多个真实最近帧(Real Recent Frame)信息执行的真实动作(Real Action)的真实动作信息对应的预测下一帧(Predicted Next Frame)信息。
图4简要示出本发明一实施例的用于真实状态网络的学习的学习方法,真实状态网络生成真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息。
图5简要示出本发明一实施例的用于真实状态网络的学习的至少一个轨迹(Trajectory)的生成方法。
附图标记的说明
1000:标定装置,
1100:存储器,
1200:处理器,
2000:学习装置,
2100:存储器,
2200:处理器,
100:虚拟世界模拟器,
110:物理引擎,
200:真实状态网络,
300:基于深度学习的装置
具体实施方式
以下,本发明能够实施的特定实施例为例,参照附图对本发明进行详细说明,本发明的目的、技术手段及优点将更加明确。普通技术人员可以参照对这些实施例的详细说明充分实施这些实施例。
并且,本发明的详细说明及权利要求书中,术语“包括”及其变形不排除其他技术特征、附加物、结构要素或步骤等。对普通技术人员而言,本发明的其他目的、优点及特性的一部分可以从本说明书得知,一部分可以在实施本发明的过程中得知。以下例示及附图只是实例,本发明并不局限于此。
进而,本发明包括本说明书中提供的多个实施例的所有组合。
本发明的各种实施例虽然不同但不必相互排斥。例如,本文所记载的特定形状、结构及特性,在一实施例中不脱离本发明的思想及范围的情况下还可体现为另一实施例。并且,所公开的各个实施例内的个别结构要素的位置或配置可以在不脱离本发明的思想及范围的情况下进行变更。因此,后述的详细说明并不是限定的意思,只要能适当说明,本发明的范围应根据与权利要求书的范围等同的所有范围和所附的权利要求书而定。附图中类似的附图标记在多个方面指类似的功能。
本发明中提及的各种图像可以包括柏油马路或非柏油马路的相关图像,这种情况下可以假设包括马路环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物),但并不局限于此。本发明中提及的各种图像还可以为与马路无关的图像(假如非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、与室内相关的图像),这种情况下可以假设包括非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物),但并不局限于此。
以下,为了使本发明所属领域的普通技术人员容易实施本发明,参照附图对本发明的优选实施例进行详细说明。
图1简要示出本发明一实施例的对用于基于深度学习(Deep Learning)的装置的学习的虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration)的标定装置。参照图1,标定装置1000可以包括:存储器1100,存储对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的指令(Instruction);以及处理器1200,对应于存储在存储器1100的指令,执行对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的步骤。
具体地,标定装置1000典型地利用至少一个计算装置(例如,计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素;路由器、开关等电子通信装置;网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储系统)和至少一个计算机软件(即,使得上述计算装置以特定方式运行的指令)的组合来实现所需的系统性能。
并且,计算装置的处理器可以包括MPU(Micro Processing Unit)或CPU(CentralProcessing Unit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件构成。并且,计算装置还可包括操作系统(OS)及执行特定目的的程序的软件构成
然而,不排除上述计算装置包括用于实施本发明的处理器、存储器、介质或其他计算用结构要素的任意组合集成装置(Integrated Device)。
参照图2说明利用这种本发明一实施例的标定装置1000对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法。
首先,虚拟世界模拟器100为了作为智能体(Agent)的基于深度学习的装置300的学习,而可以生成预设的虚拟环境中与虚拟当前状态(Virtual Current State)相对应的虚拟当前帧(Virtual Current Frame)信息It。此时,虚拟当前状态可以包括基于深度学习的装置300的运行状态信息、周围环境信息、运行条件等,基于深度学习的装置300可以包括无人驾驶汽车、无人驾驶飞机、机器人等根据由深度学习算法学习的条件运行的所有装置。作为一例,基于深度学习的装置为无人驾驶汽车的情况下,虚拟当前状态可以包括无人驾驶汽车信息、周围汽车信息、道路信息、交通信号信息、周围环境信息等各种行驶信息。
其次,若从虚拟世界模拟器100获取到虚拟环境中与虚拟当前状态相对应的虚拟当前帧信息It,则标定装置1000向基于深度学习的装置300发送所获取的虚拟当前帧信息It,使得基于深度学习的装置300利用上一学习参数对虚拟当前帧信息It进行运算,从而可以输出与虚拟当前帧信息It相对应的虚拟动作(Virtual Action)信息at(S2)。
并且,标定装置1000向虚拟世界模拟器100的物理引擎F110发送从虚拟世界模拟器100获取的虚拟当前帧信息It和从基于深度学习的装置300输出的虚拟动作信息at,使得物理引擎F110利用上一标定参数(Previous Calibrated Parameter)对虚拟当前帧信息It和虚拟动作信息at进行运算,从而可以输出与虚拟当前帧信息It和虚拟动作信息at相对应的虚拟下一帧(Virtual Next Frame)信息It+1(S3)。
进而,标定装置1000向真实状态网络(Real State Network)200发送从虚拟世界模拟器100获取的虚拟当前帧信息It和从基于深度学习的装置300输出的虚拟动作信息at,使得真实状态网络200利用经学习的预测参数对与虚拟当前帧信息It相对应的多个虚拟最近帧信息和虚拟动作信息at进行运算,从而可以输出预测的真实下一帧(Predicted RealNext Frame)
Figure BDA0002374472200000141
信息(S5)。即,真实状态网络200可以参照多个虚拟最近帧信息和虚拟动作信息输出预测可能在真实世界发生的下一帧信息。在本发明的整篇说明书中,多个虚拟最近帧信息可以为k+1个虚拟最近帧信息,但不局限于此。
此时,真实状态网络200可以经学习处于对真实环境中由基于深度学习的装置300对多个真实最近帧信息执行的真实动作的真实动作信息对应地输出多个预测下一帧信息的状态,详细内容参照后述说明。在本发明的整篇说明书中,多个预测下一帧信息可以为k+1个预测下一帧信息,多个真实最近帧信息可以为k+1个真实最近帧信息,但不局限于此。
并且,标定装置1000可以向真实状态网络200发送虚拟当前帧信息和虚拟动作信息,使得真实状态网络200参照虚拟当前帧信息和之前接收的k个虚拟上一帧(VirtualPrevious Frame)信息生成多个虚拟最近帧信息。作为另一例,标定装置1000还可以参照虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成虚拟最近帧信息,并发送至真实状态网络200。
即,标定装置1000向真实状态网络200发送虚拟当前帧信息和虚拟动作信息,使得真实状态网络200生成拼接(Concatenating)虚拟当前帧信息和k个虚拟上一帧信息而生成的虚拟当前帧状态合(Virtual Current Frame State Sum)。作为另一例,标定装置1000生成拼接虚拟当前帧信息和k个虚拟上一帧信息而生成的虚拟当前帧状态合,并发送至真实状态网络200。
此时,虚拟当前帧状态合st可以表示为[It-K,It-K+1,...,It-1,It],预测的真实下一状态
Figure BDA0002374472200000151
可以表示为S(st,at)。
另一方面,真实状态网络200可以执行:(i)(i-1)对虚拟当前帧状态合进行卷积运算生成第一维度向量(Dimension Vector),(i-2)对虚拟动作信息进行全连接运算(FullyConnected Operation)生成第二维度向量,之后,(ii)对第一维度向量和第二维度向量的拼接结果进行反卷积运算,生成预测的真实下一帧信息。
此时,虚拟当前帧状态合st可以是拼接(i)HxWxC张量(Tensor)的虚拟当前帧信息和(ii)k个虚拟上一帧信息而生成的HxWx(K+1)张量。并且,第一维度向量可以为HWC-维度向量,第二维度向量为L维向量的情况下,预测的真实下一帧信息可以是对拼接第一维度向量和第二维度向量而生成的1x1x(HWC+L)张量进行反卷积运算生成的HxWxC张量。并且,虚拟动作信息可以为三维向量,作为一例,基于深度学习的装置300为无人驾驶汽车的情况下,虚拟动作信息可以与转向角度变化量信息、制动踏板压力信息、加速踏板压力信息相对应。
接着,标定装置1000可以对物理引擎F110的上一标定参数(Previous CalibratedParameter)进行标定及最优化(Optimize),使得当前标定参数(Current CalibratedParameter)生成为最优化的参数,以使从虚拟世界模拟器100的物理引擎F110输出的虚拟下一帧信息和从真实状态网络200输出的预测的真实下一帧信息生成的至少一个损失最小化。结果,物理引擎F110可以规划使虚拟环境与真实环境之间的差距(Gap)最小化的虚拟下一帧。
即,标定装置1000可以参照物理引擎F110生成的虚拟下一帧信息It+1和真实状态网络200生成的预测的真实下一帧信息
Figure BDA0002374472200000152
计算至少一个损失
Figure BDA0002374472200000153
或者可以使损失层计算损失
Figure BDA0002374472200000154
后参照损失
Figure BDA0002374472200000155
对物理引擎F110进行最优化。
另一方面,虚拟世界模拟器100的物理引擎F110是无法微分的函数的情况下,可以通过下面方法对上一标定参数进行最优化。
即,标定装置1000可以重复如下过程直到损失减少,过程(i)中,选择物理引擎110的上一标定参数中的一个上一标定参数的过程,过程(ii)中,利用损失对选择的一个上一标定参数进行标定,根据预设的学习率进行标定,使得一个当前标定参数生成为最优化的参数。并且,标定装置1000(i)使得物理引擎F110,利用一个当前标定参数和除了一个上一标定参数之外的剩余上一标定参数,对虚拟当前帧信息和虚拟动作信息进行运算,生成新的虚拟下一帧信息,(ii)利用参照新的虚拟下一帧信息和预测的真实下一帧信息生成的至少一个新的损失,确认损失是否减少。
并且,在所有上一标定参数的损失未减少的情况下,标定装置1000使得预设的学习率减少后执行上述过程。
并且,标定装置1000可以向基于深度学习的装置300发送从物理引擎F110输出的虚拟下一帧信息It+1和与从基于深度学习的装置300输出的虚拟动作信息相对应的奖励(Reward)信息rt+1,使得基于深度学习的装置300通过利用虚拟下一帧信息It+1和奖励信息rt+1的在线强化学习(On-Policy Reinforcement Learning)更新上一学习参数。此时,奖励信息可以是表示响应于虚拟当前帧信息而由基于深度学习的装置300执行的虚拟动作信息是否适当的结果,奖励信息可以由物理引擎F110生成或由标定装置1000生成。
图3简要示出本发明一实施例的用于真实状态网络的学习的学习装置,真实状态网络生成真实环境中对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息。参照图3,学习装置2000可以包括:存储器2100,存储用于真实状态网络的学习的指令,真实状态网络输出真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息;以及处理器2200,对应于存储在存储器2100的指令,执行真实状态网络的学习步骤,真实状态网络输出真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息。
具体地,学习装置2000典型地利用至少一个计算装置(例如,计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素;路由器、开关等电子通信装置;网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储系统)和至少一个计算机软件(即,使得上述计算装置以特定方式运行的指令)的组合来实现所需的系统性能。并且,计算装置的处理器可以包括MPU(Micro Processing Unit)或CPU(Central ProcessingUnit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件构成。并且,计算装置还可包括操作系统(OS)及执行特定目的的程序的软件构成。
然而,不排除上述计算装置包括用于实施本发明的处理器、存储器、介质或其他计算用结构要素的任意组合集成装置(Integrated Device)。
参照图4说明利用这种本发明一实施例的学习装置2000输出真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息的学习方法。以下说明中将省略可以从参照图2的说明中容易理解的部分的详细说明。
首先,学习装置2000可以获取真实环境中由基于深度学习的装置执行的真实动作的多个真实动作信息对应的多个轨迹(Trajectory)信息作为训练数据。
此时,参照图5,N个轨迹信息可以在真实环境等多种环境由作为基于深度学习的装置的智能体生成,基于深度学习的装置可以重复过程(i)、过程(ii)以及过程(iii)中生成N个轨迹信息,过程(i)中生成作为对于真实环境的信息的当前帧It,过程(ii)中生成与当前帧It相对应的动作at,过程(iii)中生成根据动作发生变化的下一帧It+1。N个轨迹信息的例示可以为如下:
Figure BDA0002374472200000181
Figure BDA0002374472200000182
Figure BDA0002374472200000183
此时,各个N个轨迹信息的各个长度T1、……、TN、各个开始位置以及基于深度学习的装置的动作模式(p(at|st))(例如,无人驾驶汽车的驾驶模式)可以不同。
并且,学习装置2000可以参照作为训练数据获取的多个轨迹信息中特定轨迹信息的特定时刻的真实当前帧信息和k个上一真实帧信息,生成多个学习用最近帧信息。
接着,学习装置2000可以向真实状态网络200输入参照特定时刻的特定轨迹信息的真实当前动作信息获取的学习用动作信息和多个学习用最近帧信息,使得真实状态网络200利用预测参数对多个学习用最近帧信息和学习用动作信息进行运算,输出预测下一帧信息。
作为一例,学习装置2000可以执行:过程(i)向真实状态网络200的卷积神经网络(CNN,Convolutional Neural Network)输入拼接多个学习用最近帧信息而生成的学习用当前帧状态合,使得CNN对学习用当前帧状态合进行卷积运算,输出第一特征;以及过程(ii)向真实状态网络200的至少一个全连接层(Fully Connected Layer)输入学习用动作信息,使得至少一个全连接层对学习用动作信息进行全连接运算,输出第二特征。并且,学习装置2000向反卷积层输入拼接第一特征和第二特征二输出的拼接特征,使得反卷积层对拼接特征进行反卷积运算,输出测下一帧信息。
此时,学习用当前帧状态合st可以表示为[It-K,It-K+1,...,It-1,It],预测的真实下一帧信息
Figure BDA0002374472200000184
可以表示为S(st,at)。
即,学习装置2000可以执行:过程(i),使得CNN,将拼接HxWxC张量的多个学习用最近帧信息而生成的HxWx(K+1)张量的学习用当前帧状态合输出为HWC-维度向量的第一特征;过程(ii),使得至少一个全连接层,将三维向量的学习用动作信息输出为L维度向量的第二特征;以及过程(iii),使得反卷积层,将拼接第一特征和第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的预测下一帧信息。
接着,学习装置2000利用参照特定轨迹信息中的真实当前帧信息之后的真实下一帧信息和预测下一帧信息生成的至少一个损失,更新预测参数,使得损失最小化。
即,学习装置2000可以参照特定轨迹信息的真实下一帧信息It+1和真实状态网络200输出的预测下一帧信息
Figure BDA0002374472200000191
计算至少一个损失
Figure BDA0002374472200000192
或者可以使损失层计算损失
Figure BDA0002374472200000193
后参照损失
Figure BDA0002374472200000194
学习真实状态网络200。
此时,学习装置2000可以通过梯度下降法(Gradient Descent)更新真实状态网络200的预测参数,作为一例,可以更新至少一个CNN、至少一个全连接层一集反卷积层中的至少一个参数。
并且,学习装置2000可以利用N个真实世界轨迹重复上述学习过程,使得真实状态网络200的损失收敛。
并且,以上说明的本发明的实施例能够以通过各种计算机结构要素执行的程序命令的形态体现并存储在计算机可读存储介质。上述计算机可读存储介质可以包括程序命令、数据文件、数据结构等或它们的组合。上述计算机可读存储介质中存储的程序命令可以是为本发明特殊设计并构成的,或者可以是由计算机软件领域的普通技术人员公知使用的。计算机可读存储介质的例包括硬盘、软盘及磁带等磁介质、CD-ROM、DVD等光存储介质、光磁软盘(floptical disk)等磁光介质(magneto-optical media)、以及ROM、RAM、快闪存储器等为了存储并执行程序命令而特殊构成的硬件装置。程序命令的例包括由编译器制成的机器语言代码以及利用解析器等可由计算机执行的高级语言代码。上述硬件装置能够以一个以上软件模块运行,以便执行本发明的处理,相反情况也一样。
以上,通过限定的实施例及附图对本发明的具体结构要素等特定事项进行了说明,但这仅仅用于提供对本发明的更全面的理解,本发明并不局限于上述实施例,本发明所属领域的普通技术人员可以在这些记载的基础上进行各种修改及变形。
因此,本发明的思想并不局限于所说明的上述实施例,权利要求书及其等同或等价变换的所有内容均属于本发明的思想范畴。

Claims (22)

1.一种方法,其特征在于,对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定,包括:
步骤(a),若从虚拟世界模拟器获取到与虚拟环境上的虚拟当前状态相对应的虚拟当前帧信息,则标定装置执行过程(i)、过程(ii)以及过程(iii),过程(i)中,向所述基于深度学习的装置发送所述虚拟当前帧信息,使得所述基于深度学习的装置利用上一学习参数对所述虚拟当前帧信息进行运算,输出与所述虚拟当前帧信息相对应的虚拟动作信息,过程(ii)中,向所述虚拟世界模拟器的所述物理引擎发送所述虚拟当前帧信息和所述虚拟动作信息,使得所述物理引擎利用上一标定参数对所述虚拟当前帧信息和所述虚拟动作信息进行运算,输出与所述虚拟当前帧信息和所述虚拟动作信息相对应的虚拟下一帧信息,过程(iii)中,向真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息,使得所述真实状态网络利用经学习的预测参数对与所述虚拟当前帧信息相对应的多个虚拟最近帧信息和所述虚拟动作信息进行运算,输出预测的真实下一帧信息,所述真实状态网络经学习处于对真实环境上的多个真实最近帧信息中由所述基于深度学习的装置执行的真实动作的真实动作信息响应而输出多个预测下一帧信息的状态;以及
步骤(b),所述标定装置对所述物理引擎的所述上一标定参数进行标定及最优化,使得当前标定参数生成为最优化的参数,以使参照所述虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个损失最小化。
2.根据权利要求1所述的方法,其特征在于,还包括:
步骤(c),所述标定装置向所述基于深度学习的装置发送与所述虚拟动作信息相对应的奖励信息和所述虚拟下一帧信息,使得所述基于深度学习的装置通过利用所述虚拟下一帧信息和所述奖励信息的在线强化学习更新所述上一学习参数。
3.根据权利要求1所述的方法,其特征在于,所述步骤(a)的所述过程(iii)中,所述标定装置执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程,使得所述真实状态网络参照所述虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成所述多个虚拟最近帧信息。
4.根据权利要求3所述的方法,其特征在于,所述过程(iii)中,
所述标定装置执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程,使得所述真实状态网络,(iii-1)(iii-1-1)对拼接所述虚拟当前帧信息和所述k个虚拟上一帧信息而生成的虚拟当前帧状态合进行卷积运算,生成第一维度向量,(iii-1-2)对所述虚拟动作信息进行全连接运算,生成第二维度向量,(iii-2)对所述第一维度向量和所述第二维度向量的拼接结果进行反卷积运算,生成所述预测的真实下一帧信息。
5.根据权利要求4所述的方法,其特征在于,
所述虚拟当前帧状态合是拼接(i)HxWxC张量的所述虚拟当前帧信息和(ii)k个所述虚拟上一帧信息而生成的HxWx(K+1)张量,
所述第一维度向量为HWC-维度向量,
所述第二维度向量为L维向量的情况下,所述预测的真实下一帧信息是对拼接所述第一维度向量和所述第二维度向量而生成的1x1x(HWC+L)张量进行反卷积运算生成的HxWxC张量。
6.根据权利要求1所述的方法,其特征在于,所述步骤(b)中,所述标定装置重复执行过程(i)、过程(ii)以及过程(iii),直到所述损失减少,
过程(i)中,选择所述上一标定参数中的一个上一标定参数的过程,
过程(ii)中,利用所述损失对选择的所述一个上一标定参数进行标定,根据预设的学习率进行标定,使得一个当前标定参数生成为最优化的参数,
过程(iii)中,(iii-1)使得所述物理引擎,利用所述一个当前标定参数和除了所述一个上一标定参数之外的剩余上一标定参数,对所述虚拟当前帧信息和所述虚拟动作信息进行运算,生成新的虚拟下一帧信息,(iii-2)利用参照所述新的虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个新的损失,确认所述损失是否减少。
7.根据权利要求6所述的方法,其特征在于,在所有所述上一标定参数的所述损失未减少的情况下,所述标定装置使得所述预设的学习率减少,并执行所述过程(i)、所述过程(ii)以及所述过程(iii)。
8.一种方法,其特征在于,用于真实状态网络的学习,所述真实状态网络生成真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息,包括:
步骤(a),若获取所述真实环境中由所述基于深度学习的装置执行的所述真实动作的所述多个真实动作信息对应的多个轨迹信息作为训练数据,则学习装置参照特定轨迹信息的特定时刻的真实当前帧信息和k个上一真实帧信息生成多个学习用最近帧信息;
步骤(b),所述学习装置向所述真实状态网络输入参照所述特定时刻的所述特定轨迹信息的真实当前动作信息获取的学习用动作信息和所述多个学习用最近帧信息,使得所述真实状态网络利用预测参数对所述多个学习用最近帧信息和所述学习用动作信息进行运算,输出所述预测下一帧信息;以及
步骤(c),所述学习装置利用参照所述特定轨迹信息中的所述真实当前帧信息之后的真实下一帧信息和所述预测下一帧信息生成的至少一个损失,更新所述预测参数,以使所述损失最小化。
9.根据权利要求8所述的方法,其特征在于,所述步骤(b)中,所述学习装置执行:
过程(i),(i-1)向所述真实状态网络的卷积神经网络输入拼接所述多个学习用最近帧信息而生成的学习用当前帧状态合,使得所述卷积神经网络对所述学习用当前帧状态合进行卷积运算,输出第一特征,(i-2)向所述真实状态网络的至少一个全连接层输入所述学习用动作信息,使得所述至少一个全连接层对所述学习用动作信息进行全连接运算,输出第二特征;以及
过程(ii),向反卷积层输入拼接所述第一特征和所述第二特征生成的拼接特征,使得所述反卷积层对所述拼接特征进行反卷积运算,输出所述预测下一帧信息。
10.根据权利要求9所述的方法,其特征在于,所述学习装置执行:
过程(i),使得所述卷积神经网络,将拼接HxWxC张量的所述多个学习用最近帧信息而生成的HxWx(K+1)张量的所述学习用当前帧状态合输出为HWC-维度向量的所述第一特征;
过程(ii),使得所述至少一个全连接层,将三维向量的所述学习用动作信息输出为L维向量的所述第二特征,以及
过程(iii),使得所述反卷积层,将拼接所述第一特征和所述第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的所述预测下一帧信息。
11.根据权利要求9所述的方法,其特征在于,所述学习装置通过利用所述损失的梯度下降法,更新所述至少一个CNN、所述至少一个全连接层,以及所述反卷积层中的至少一个参数。
12.一种标定装置,其特征在于,对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定,包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,执行所述指令或使得其他装置执行步骤(I)以及步骤(II),
步骤(I)中,若从虚拟世界模拟器获取到与虚拟环境上的虚拟当前状态相对应的虚拟当前帧信息,则执行过程(i)、过程(ii)以及过程(iii),过程(i)中,向所述基于深度学习的装置发送所述虚拟当前帧信息,使得所述基于深度学习的装置利用上一学习参数对所述虚拟当前帧信息进行运算,输出与所述虚拟当前帧信息相对应的虚拟动作信息,过程(ii)中,向所述虚拟世界模拟器的所述物理引擎发送所述虚拟当前帧信息和所述虚拟动作信息,使得所述物理引擎利用上一标定参数对所述虚拟当前帧信息和所述虚拟动作信息进行运算,输出与所述虚拟当前帧信息和所述虚拟动作信息相对应的虚拟下一帧信息,过程(iii)中,向真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息,使得所述真实状态网络利用经学习的预测参数对与所述虚拟当前帧信息相对应的多个虚拟最近帧信息和所述虚拟动作信息进行运算,输出预测的真实下一帧信息,所述真实状态网络经学习处于对真实环境上的多个真实最近帧信息中由所述基于深度学习的装置执行的真实动作的真实动作信息响应而输出多个预测下一帧信息的状态,
步骤(II)中,对所述物理引擎的所述上一标定参数进行标定及最优化,使得当前标定参数生成为最优化的参数,以使参照所述虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个损失最小化。
13.根据权利要求12所述的标定装置,其特征在于,还包括:
步骤(III),所述处理器向所述基于深度学习的装置发送与所述虚拟动作信息相对应的奖励信息和所述虚拟下一帧信息,使得所述基于深度学习的装置通过利用所述虚拟下一帧信息和所述奖励信息的在线强化学习更新所述上一学习参数。
14.根据权利要求12所述的标定装置,其特征在于,所述过程(iii)中,所述处理器执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程,使得所述真实状态网络参照所述虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成所述多个虚拟最近帧信息。
15.根据权利要求14所述的标定装置,其特征在于,所述过程(iii)中,所述处理器执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程,使得所述真实状态网络,(iii-1)(iii-1-1)对拼接所述虚拟当前帧信息和所述k个虚拟上一帧信息而生成的虚拟当前帧状态合进行卷积运算,生成第一维度向量,(iii-1-2)对所述虚拟动作信息进行全连接运算,生成第二维度向量,(iii-2)对所述第一维度向量和所述第二维度向量的拼接结果进行反卷积运算,生成所述预测的真实下一帧信息。
16.根据权利要求15所述的标定装置,其特征在于,
所述虚拟当前帧状态合是拼接(i)HxWxC张量的所述虚拟当前帧信息和(ii)k个所述虚拟上一帧信息而生成的HxWx(K+1)张量,
所述第一维度向量为HWC-维度向量,
所述第二维度向量为L维向量的情况下,所述预测的真实下一帧信息是对拼接所述第一维度向量和所述第二维度向量而生成的1x1x(HWC+L)张量进行反卷积运算生成的HxWxC张量。
17.根据权利要求12所述的标定装置,其特征在于,所述步骤(II)中,所述处理器重复执行过程(II-1)、过程(II-2)以及过程(II-3),直到所述损失减少,
过程(II-1)中,选择所述上一标定参数中的一个上一标定参数的过程,
过程(II-2)中,利用所述损失对选择的所述一个上一标定参数进行标定,根据预设的学习率进行标定,使得一个当前标定参数生成为最优化的参数,
过程(II-3)中,(II-3a)使得所述物理引擎,利用所述一个当前标定参数和除了所述一个上一标定参数之外的剩余上一标定参数,对所述虚拟当前帧信息和所述虚拟动作信息进行运算,生成新的虚拟下一帧信息,(II-3b)利用参照所述新的虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个新的损失,确认所述损失是否减少,直到所述损失减少。
18.根据权利要求17所述的标定装置,其特征在于,在所有所述上一标定参数的所述损失未减少的情况下,所述处理器使得所述预设的学习率减少,并执行所述过程(i)、所述过程(ii)以及所述过程(iii)。
19.一种标定装置,用于真实状态网络的学习,所述真实状态网络生成真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息,其特征在于,包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,执行所述指令或使得其他装置执行步骤(I)、步骤(II)以及步骤(III),
步骤(I)中,若获取所述真实环境中由所述基于深度学习的装置执行的所述真实动作的所述多个真实动作信息对应的多个轨迹信息作为训练数据,则参照特定轨迹信息的特定时刻的真实当前帧信息和k个上一真实帧信息生成多个学习用最近帧信息,
步骤(II)中,向所述真实状态网络输入参照所述特定时刻的所述特定轨迹信息的真实当前动作信息获取的学习用动作信息和所述多个学习用最近帧信息,使得所述真实状态网络利用预测参数对所述多个学习用最近帧信息和所述学习用动作信息进行运算,输出所述预测下一帧信息,
步骤(III)中,所述学习装置利用参照所述特定轨迹信息中的所述真实当前帧信息之后的真实下一帧信息和所述预测下一帧信息生成的至少一个损失,更新所述预测参数,以使所述损失最小化。
20.根据权利要求19所述的标定装置,其特征在于,所述步骤(II)中,所述处理器执行:
过程(i),(i-1)向所述真实状态网络的卷积神经网络输入拼接所述多个学习用最近帧信息而生成的学习用当前帧状态合,使得所述卷积神经网络对所述学习用当前帧状态合进行卷积运算,输出第一特征,(i-2)向所述真实状态网络的至少一个全连接层输入所述学习用动作信息,使得所述至少一个全连接层对所述学习用动作信息进行全连接运算,输出第二特征;以及
过程(ii),向反卷积层输入拼接所述第一特征和所述第二特征生成的拼接特征,使得所述反卷积层对所述拼接特征进行反卷积运算,输出所述预测下一帧信息。
21.根据权利要求20所述的标定装置,其特征在于,所述处理器执行:
过程(i),使得所述卷积神经网络,将拼接HxWxC张量的所述多个学习用最近帧信息而生成的HxWx(K+1)张量的所述学习用当前帧状态合输出为HWC-维度向量的所述第一特征;
过程(ii),使得所述至少一个全连接层,将三维向量的所述学习用动作信息输出为L维向量的所述第二特征,以及
过程(iii),使得所述反卷积层,将拼接所述第一特征和所述第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的所述预测下一帧信息。
22.根据权利要求20所述的标定装置,其特征在于,所述处理器通过利用所述损失的梯度下降法,更新所述至少一个CNN、所述至少一个全连接层,以及所述反卷积层中的至少一个参数。
CN202010061002.7A 2019-01-30 2020-01-19 对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法及装置 Pending CN111738046A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962798691P 2019-01-30 2019-01-30
US62/798,691 2019-01-30
US16/723,450 2019-12-20
US16/723,450 US10776542B2 (en) 2019-01-30 2019-12-20 Method and device for calibrating physics engine of virtual world simulator to be used for learning of deep learning-based device, and a learning method and learning device for real state network used therefor

Publications (1)

Publication Number Publication Date
CN111738046A true CN111738046A (zh) 2020-10-02

Family

ID=69177075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010061002.7A Pending CN111738046A (zh) 2019-01-30 2020-01-19 对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法及装置

Country Status (5)

Country Link
US (1) US10776542B2 (zh)
EP (1) EP3690750A1 (zh)
JP (1) JP6865365B2 (zh)
KR (1) KR102300910B1 (zh)
CN (1) CN111738046A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102264571B1 (ko) * 2020-10-30 2021-06-15 주식회사 애자일소다 계층 구조를 갖는 의사결정 에이전트
DE102020215302A1 (de) * 2020-12-03 2022-06-09 Robert Bosch Gesellschaft mit beschränkter Haftung Dynamikabhängige Verhaltensplanung für zumindest teilweise automatisiert fahrende Fahrzeuge

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004277A (zh) * 2014-12-04 2017-08-01 康诺特电子有限公司 机动车辆摄像头系统的在线标定
CN107851174A (zh) * 2015-07-08 2018-03-27 北京市商汤科技开发有限公司 图像语义标注的设备和方法
US20180096259A1 (en) * 2016-09-30 2018-04-05 Disney Enterprises, Inc. Deep-learning motion priors for full-body performance capture in real-time
US20180232585A1 (en) * 2017-02-16 2018-08-16 Samsung Electronics Co., Ltd. Autonomous vehicle control method and apparatus
US20180260415A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Instance-level image retrieval with a region proposal network
US20190303759A1 (en) * 2018-03-27 2019-10-03 Nvidia Corporation Training, testing, and verifying autonomous machines using simulated environments

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019652B2 (en) * 2016-02-23 2018-07-10 Xerox Corporation Generating a virtual world to assess real-world video analysis performance
EP3435296A4 (en) * 2016-03-25 2019-07-03 Sony Corporation INFORMATION PROCESSING DEVICE
US10475165B2 (en) * 2017-04-06 2019-11-12 Disney Enterprises, Inc. Kernel-predicting convolutional neural networks for denoising

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004277A (zh) * 2014-12-04 2017-08-01 康诺特电子有限公司 机动车辆摄像头系统的在线标定
CN107851174A (zh) * 2015-07-08 2018-03-27 北京市商汤科技开发有限公司 图像语义标注的设备和方法
US20180096259A1 (en) * 2016-09-30 2018-04-05 Disney Enterprises, Inc. Deep-learning motion priors for full-body performance capture in real-time
US20180232585A1 (en) * 2017-02-16 2018-08-16 Samsung Electronics Co., Ltd. Autonomous vehicle control method and apparatus
US20180260415A1 (en) * 2017-03-10 2018-09-13 Xerox Corporation Instance-level image retrieval with a region proposal network
US20190303759A1 (en) * 2018-03-27 2019-10-03 Nvidia Corporation Training, testing, and verifying autonomous machines using simulated environments

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FELIX LEIBFRIED: "《A Deep Learning Approach for Joint video Frame and Reward Prediction in Atari Games》", ARXIV.ORG, 17 August 2017 (2017-08-17), pages 1 - 18, XP055701676 *

Also Published As

Publication number Publication date
US10776542B2 (en) 2020-09-15
KR102300910B1 (ko) 2021-09-13
EP3690750A1 (en) 2020-08-05
KR20200094639A (ko) 2020-08-07
JP6865365B2 (ja) 2021-04-28
JP2020123338A (ja) 2020-08-13
US20200242289A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
JP7361775B2 (ja) 自律運転のための個人運転スタイル学習
JP6857371B2 (ja) 安全な自律走行を支援する学習方法、そしてこれを利用した学習装置、テスト方法、及びテスト装置
CN110647839B (zh) 自动驾驶策略的生成方法、装置及计算机可读存储介质
US11137762B2 (en) Real time decision making for autonomous driving vehicles
US11493926B2 (en) Offline agent using reinforcement learning to speedup trajectory planning for autonomous vehicles
US10997729B2 (en) Real time object behavior prediction
CN112703459A (zh) 对抗场景的迭代生成
CN114194211B (zh) 一种自动驾驶方法、装置及电子设备和存储介质
US20200139989A1 (en) Vehicle Control Method, Apparatus, and Device
KR20200094643A (ko) 최근 주행 경로에 대한 궤적 기반 행동 분석을 수행하여 차량의 모드를 수동 주행 모드에서 자율 주행 모드로 변경할 지 여부를 판단하는 학습 방법 및 학습 장치
JP2022547611A (ja) 道路シーンにおける多様な長期将来軌道のシミュレーション
CN111507459B (zh) 降低神经网络的注解费用的方法和装置
CN112382165B (zh) 驾驶策略生成方法、装置、介质、设备及仿真系统
JP7345577B2 (ja) 自律走行車両用動的モデル評価パッケージ
CN111738046A (zh) 对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法及装置
CN112784867A (zh) 利用合成图像训练深度神经网络
CN113379654A (zh) 动态路由的块鉴别器
EP4198804A1 (en) Simulation obstacle vehicles with driving styles
KR20240057422A (ko) 멀티 모드 입력을 사용하여 인터렉티브 에이전트 제어
US20230196749A1 (en) Training Neural Networks for Object Detection
US20240118985A1 (en) Selection of runtime performance estimator using machine learning
CN111832797B (zh) 数据处理方法、数据处理装置、存储介质和电子设备
US20230211799A1 (en) Method and apparatus for autonomous driving control based on road graphical neural network
US20240010213A1 (en) Autonomous vehicle chassis frame estimation by minimizing distortion from cad model
CN117826865A (zh) 一种基于深度强化学习的无人机复杂未知环境路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination