CN111738046A

CN111738046A - 对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法及装置

Info

Publication number: CN111738046A
Application number: CN202010061002.7A
Authority: CN
Inventors: 金桂贤; 金镕重; 金鹤京; 南云铉; 夫硕焄; 成明哲; 申东洙; 吕东勳; 柳宇宙; 李明春; 李炯树; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-30
Filing date: 2020-01-19
Publication date: 2020-10-02
Anticipated expiration: 2040-01-19
Also published as: JP6865365B2; JP2020123338A; US20200242289A1; KR20200094639A; EP3690750C0; EP3690750A1; KR102300910B1; CN111738046B; EP3690750B1; US10776542B2

Abstract

本发明涉及一种方法，对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定，包括：步骤(a)，若获取到与虚拟环境上的虚拟当前状态相对应的虚拟当前帧信息，则标定装置执行(i)向基于深度学习的装置发送虚拟当前帧信息，输出虚拟动作信息，(ii)向物理引擎发送虚拟当前帧信息和虚拟动作信息，输出与虚拟当前帧信息和虚拟动作信息相对应的虚拟下一帧信息，(iii)向真实状态网络发送虚拟当前帧信息和虚拟动作信息，输出预测的真实下一帧信息，真实状态网络经学习对真实动作信息响应而输出多个预测下一帧信息；以及步骤(b)，对上一标定参数进行标定，生成当前标定参数。

Description

对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法及装置

技术领域

本发明涉及用于基于深度学习(Deep Learning)的装置的学习的虚拟世界模拟器(Virtual World Simulator)，更详细地涉及，利用真实世界(Real World)中对下一状态(Next State)进行建模(modeling)的真实状态网络(Real State Network)对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎(Physics Engine)进行标定(Calibration)的方法及装置、真实状态网络的学习方法及利用其的学习装置。

背景技术

无人驾驶汽车等基于深度学习(Deep Learning)的装置通常利用由短期规划(Short-Term Planning)输入的最近几个帧至几十个帧的信息，确定下一个动作(Action)。

作为一例，无人驾驶汽车的情况下，基于从各个帧获取的信息，即，基于所检测的对象的边框(Bounding Box)和左/右方向等元数据(Meta Data)或分割图像(SegmentationImage)，输出(i)转向角度变化量、(ii)制动踏板压力、(iii)加速踏板压力等三维真实值向量(Real-Valued Vector)的动作，无人驾驶汽车响应于上述动作来进行行驶。

这种基于深度学习的装置应经学习根据输入状态(State)确定适当的动作，对此有多种学习方法，但目前通常使用在线强化学习(On-Policy Reinforcement Learning)。

并且，基于深度学习的装置虽然可以在真实世界(Real World)学习，但难以获取多种训练数据，而且消耗很多时间，学习需要很多费用。

因此，最近提出虚拟世界(Virtual World)中学习基于深度学习的装置的方法。

然而，在虚拟世界学习的情况下，因虚拟环境与真实环境之间的差距(Gap)，发生学习结果的可靠性问题。

作为一例，基于深度学习的装置为无人驾驶汽车的情况下，虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)响应于“当前速度和周围情况的状态”而采取“以规定角度旋转转向轮并以规定压力踩住制动踏板的动作”时，输出“车辆的行驶速度、位置、周围情况等发生变化的下一状态(Next State)”，由此使得无人驾驶汽车进行学习。

然而，由虚拟世界模拟器的物理引擎生成的下一状态与真实世界的下一状态之间的误差越大，虚拟世界中学习的最优化动作(Optimal Action)在真实世界中不是最优化的动作的问题越大。

作为一例，无人驾驶汽车的情况下，虽然在虚拟世界学习了危险情况下避免事故的适当的动作，但真实世界的相同情况下即使采取了上述适当的动作但还会发生事故。

发明内容

技术问题

本发明的目的在于，解决以上提及的所有问题。

本发明的再一目的在于，使得虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)输出使虚拟世界与真实世界之间的差距(Gap)最小化的下一状态(Next State)。

本发明的另一目的在于，对虚拟世界模拟器的物理引擎进行标定(Calibration)，使得虚拟世界与真实世界更加接近。

解决问题的手段

为了达成如上所述的本发明的目的，并带来后述的本发明的特征性效果，本发明的特征性结构如下：

根据本发明的一方面，提供一种方法，对用于基于深度学习(Deep Learning)的装置的学习的虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration)，其特征在于，包括：步骤(a)，若从虚拟世界模拟器获取到与虚拟环境(Virtual Environment)上的虚拟当前状态(Virtual Current State)相对应的虚拟当前帧(Virtual Current Frame)信息，则标定装置执行过程(i)、过程(ii)以及过程(iii)，过程(i)中，向上述基于深度学习的装置发送上述虚拟当前帧信息，使得上述基于深度学习的装置利用上一学习参数对上述虚拟当前帧信息进行运算，输出与上述虚拟当前帧信息相对应的虚拟动作(Virtual Action)信息，过程(ii)中，向上述虚拟世界模拟器的上述物理引擎发送上述虚拟当前帧信息和上述虚拟动作信息，使得上述物理引擎利用上一标定参数(Previous Calibrated Parameter)对上述虚拟当前帧信息和上述虚拟动作信息进行运算，输出与上述虚拟当前帧信息和上述虚拟动作信息相对应的虚拟下一帧(Virtual NextFrame)信息，过程(iii)中，向真实状态网络(Real State Network)发送上述虚拟当前帧信息和上述虚拟动作信息，使得上述真实状态网络利用经学习的预测参数对与上述虚拟当前帧信息相对应的多个虚拟最近帧(Virtual Recent Frame)信息和上述虚拟动作信息进行运算，输出预测的真实下一帧(Predicted Real Next Frame)信息，上述真实状态网络经学习处于对真实环境(Real Environment)上的多个真实最近帧(Real Recent Frame)信息中由上述基于深度学习的装置执行的真实动作(Real Action)的真实动作信息响应而输出多个预测下一帧(Predicted Next Frame)信息的状态；以及步骤(b)，上述标定装置对上述物理引擎的上述上一标定参数进行标定及最优化，使得当前标定参数(Current CalibratedParameter)生成为最优化的参数，以使参照上述虚拟下一帧信息和上述预测的真实下一帧信息生成的至少一个损失最小化。

一实施例中，本发明的特征在于，还包括：步骤(c)，上述标定装置向上述基于深度学习的装置发送与上述虚拟动作信息相对应的奖励(Reward)信息和上述虚拟下一帧信息，使得上述基于深度学习的装置通过利用上述虚拟下一帧信息和上述奖励信息的在线强化学习(On-Policy Reinforcement Learning)更新上述上一学习参数。

一实施例中，本发明的特征在于，上述步骤(a)的上述过程(iii)中，上述标定装置执行向上述真实状态网络发送上述虚拟当前帧信息和上述虚拟动作信息的过程，使得上述真实状态网络参照上述虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成上述多个虚拟最近帧信息。

一实施例中，本发明的特征在于，上述过程(iii)中，上述标定装置执行向上述真实状态网络发送上述虚拟当前帧信息和上述虚拟动作信息的过程，使得上述真实状态网络，(iii-1)(iii-1-1)对拼接(Concatenating)上述虚拟当前帧信息和上述k个虚拟上一帧信息(Concatenating)而生成的虚拟当前帧状态合(Virtual Current Frame State Sum)进行卷积运算(Convolution Operation)，生成第一维度向量(Dimension Vector)，(iii-1-2)对上述虚拟动作信息进行全连接(FC，Fully Connected)运算，生成第二维度向量，(iii-2)对上述第一维度向量和上述第二维度向量的拼接结果进行反卷积运算，生成上述预测的真实下一帧信息。

一实施例中，本发明的特征在于，上述虚拟当前帧状态合是拼接(i)HxWxC张量(Tensor)的上述虚拟当前帧信息和(ii)k个上述虚拟上一帧信息而生成的HxWx(K+1)张量，上述第一维度向量为HWC-维度向量，上述第二维度向量为L维向量的情况下，上述预测的真实下一帧信息是对拼接上述第一维度向量和上述第二维度向量而生成的1x1x(HWC+L)张量进行反卷积运算生成的HxWxC张量。

一实施例中，本发明的特征在于，上述步骤(b)中，上述标定装置重复执行过程(i)、过程(ii)以及过程(iii)，直到上述损失减少，过程(i)中，选择上述上一标定参数中的一个上一标定参数的过程，过程(ii)中，利用上述损失对选择的上述一个上一标定参数进行标定，根据预设的学习率进行标定，使得一个当前标定参数生成为最优化的参数(Optimized Parameter)，过程(iii)中，(iii-1)使得上述物理引擎，利用上述一个当前标定参数和除了上述一个上一标定参数之外的剩余上一标定参数，对上述虚拟当前帧信息和上述虚拟动作信息进行运算，生成新的虚拟下一帧信息，(iii-2)利用参照上述新的虚拟下一帧信息和上述预测的真实下一帧信息生成的至少一个新的损失，确认上述损失是否减少。

一实施例中，本发明的特征在于，在所有上述上一标定参数的上述损失未减少的情况下，上述标定装置使得上述预设的学习率减少，并执行上述过程(i)、上述过程(ii)以及上述过程(iii)。

根据本发明的再一方面，提供一种方法，用于真实状态网络(Real StateNetwork)的学习，上述真实状态网络生成真实环境(Real Environment)中由基于深度学习(Deep Learning)的装置对多个真实最近帧(Real Recent Frame)信息执行的真实动作(Real Action)的真实动作信息对应的预测下一帧(Predicted Next Frame)信息，其特征在于，包括：步骤(a)，若获取上述真实环境中由上述基于深度学习的装置执行的上述真实动作的上述多个真实动作信息对应的多个轨迹(Trajectory)信息作为训练数据，则学习装置参照特定轨迹信息的特定时刻的真实当前帧(Real Current Frame)信息和k个上一真实帧(Previous Real Frame)信息生成多个学习用最近帧信息；步骤(b)，上述学习装置向上述真实状态网络输入参照上述特定时刻的上述特定轨迹信息的真实当前动作信息获取的学习用动作信息和上述多个学习用最近帧信息，使得上述真实状态网络利用预测参数对上述多个学习用最近帧信息和上述学习用动作信息进行运算，输出上述预测下一帧信息；以及步骤(c)，上述学习装置利用参照上述特定轨迹信息中的上述真实当前帧信息之后的真实下一帧信息和上述预测下一帧信息生成的至少一个损失，更新上述预测参数，以使上述损失最小化。

一实施例中，本发明的特征在于，上述步骤(b)中，上述学习装置执行：过程(i)，(i-1)向上述真实状态网络的卷积神经网络(CNN，Convolutional Neural Network)输入拼接上述多个学习用最近帧信息(Concatenating)而生成的学习用当前帧状态合(CurrentFrame State Sum)，使得上述卷积神经网络对上述学习用当前帧状态合进行卷积运算，输出第一特征(Feature)，(i-2)向上述真实状态网络的至少一个全连接层(FC layer，FullyConnected Layer)输入上述学习用动作信息，使得上述至少一个全连接层对上述学习用动作信息进行全连接运算，输出第二特征；以及过程(ii)，向反卷积层(DeconvolutionLayer)输入拼接上述第一特征和上述第二特征生成的拼接特征，使得上述反卷积层对上述拼接特征进行反卷积运算，输出上述预测下一帧信息。

一实施例中，本发明的特征在于，上述学习装置执行：过程(i)，使得上述卷积神经网络，将拼接HxWxC张量(Tensor)的上述多个学习用最近帧信息而生成的HxWx(K+1)张量的上述学习用当前帧状态合输出为HWC-维度向量(Dimension Vector)的上述第一特征；过程(ii)，使得上述至少一个全连接层，将三维向量的上述学习用动作信息输出为L维向量的上述第二特征，以及过程(iii)，使得上述反卷积层，将拼接上述第一特征和上述第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的上述预测下一帧信息。

一实施例中，本发明的特征在于，上述学习装置通过利用上述损失的梯度下降法(Gradient Descent)，更新上述至少一个CNN、上述至少一个全连接层，以及上述反卷积层中的至少一个参数。

根据本发明的又一方面，提供一种标定装置，对用于基于深度学习(DeepLearning)的装置的学习的虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration)，其特征在于，包括：至少一个存储器，用于存储指令；以及至少一个处理器，执行上述指令或使得其他装置执行步骤(I)以及步骤(II)，步骤(I)中，若从虚拟世界模拟器获取到与虚拟环境(Virtual Environment)上的虚拟当前状态(Virtual Current State)相对应的虚拟当前帧(Virtual Current Frame)信息，则执行过程(i)、过程(ii)以及过程(iii)，过程(i)中，向上述基于深度学习的装置发送上述虚拟当前帧信息，使得上述基于深度学习的装置利用上一学习参数对上述虚拟当前帧信息进行运算，输出与上述虚拟当前帧信息相对应的虚拟动作(Virtual Action)信息，过程(ii)中，向上述虚拟世界模拟器的上述物理引擎发送上述虚拟当前帧信息和上述虚拟动作信息，使得上述物理引擎利用上一标定参数(Previous Calibrated Parameter)对上述虚拟当前帧信息和上述虚拟动作信息进行运算，输出与上述虚拟当前帧信息和上述虚拟动作信息相对应的虚拟下一帧(Virtual Next Frame)信息，过程(iii)中，向真实状态网络(Real StateNetwork)发送上述虚拟当前帧信息和上述虚拟动作信息，使得上述真实状态网络利用经学习的预测参数对与上述虚拟当前帧信息相对应的多个虚拟最近帧(Virtual RecentFrame)信息和上述虚拟动作信息进行运算，输出预测的真实下一帧(Predicted Real NextFrame)信息，上述真实状态网络经学习处于对真实环境(Real Environment)上的多个真实最近帧(Real Recent Frame)信息中由上述基于深度学习的装置执行的真实动作(RealAction)的真实动作信息响应而输出多个预测下一帧(Predicted Next Frame)信息的状态；步骤(II)中，对上述物理引擎的上述上一标定参数进行标定及最优化，使得当前标定参数(Current Calibrated Parameter)生成为最优化的参数，以使参照上述虚拟下一帧信息和上述预测的真实下一帧信息生成的至少一个损失最小化。

一实施例中，本发明的特征在于，还包括：步骤(III)，上述处理器向上述基于深度学习的装置发送与上述虚拟动作信息相对应的奖励(Reward)信息和上述虚拟下一帧信息，使得上述基于深度学习的装置通过利用上述虚拟下一帧信息和上述奖励信息的在线强化学习(On-Policy Reinforcement Learning)更新上述上一学习参数。

一实施例中，本发明的特征在于，上述过程(iii)中，上述处理器执行向上述真实状态网络发送上述虚拟当前帧信息和上述虚拟动作信息的过程，使得上述真实状态网络参照上述虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成上述多个虚拟最近帧信息。

一实施例中，本发明的特征在于，上述过程(iii)中，上述处理器执行向上述真实状态网络发送上述虚拟当前帧信息和上述虚拟动作信息的过程，使得上述真实状态网络，(iii-1)(iii-1-1)对拼接(Concatenating)上述虚拟当前帧信息和上述k个虚拟上一帧信息(Concatenating)而生成的虚拟当前帧状态合(Virtual Current Frame State Sum)进行卷积运算(Convolution Operation)，生成第一维度向量(Dimension Vector)，(iii-1-2)对上述虚拟动作信息进行全连接(FC，Fully Connected)运算，生成第二维度向量，(iii-2)对上述第一维度向量和上述第二维度向量的拼接结果进行反卷积运算，生成上述预测的真实下一帧信息。

一实施例中，本发明的特征在于，上述步骤(II)中，上述处理器重复执行过程(II-1)、过程(II-2)以及过程(II-3)，直到上述损失减少，过程(II-1)中，选择上述上一标定参数中的一个上一标定参数的过程，过程(II-2)中，利用上述损失对选择的上述一个上一标定参数进行标定，根据预设的学习率进行标定，使得一个当前标定参数生成为最优化的参数(Optimized Parameter)，过程(II-3)中，(II-3a)使得上述物理引擎，利用上述一个当前标定参数和除了上述一个上一标定参数之外的剩余上一标定参数，对上述虚拟当前帧信息和上述虚拟动作信息进行运算，生成新的虚拟下一帧信息，(II-3b)利用参照上述新的虚拟下一帧信息和上述预测的真实下一帧信息生成的至少一个新的损失，确认上述损失是否减少，直到上述损失减少。

一实施例中，本发明的特征在于，在所有上述上一标定参数的上述损失未减少的情况下，上述处理器使得上述预设的学习率减少，并执行上述过程(i)、上述过程(ii)以及上述过程(iii)。

根据本发明的又一方面，提供一种标定装置，用于真实状态网络(Real StateNetwork)的学习，上述真实状态网络生成真实环境(Real Environment)中由基于深度学习(Deep Learning)的装置对多个真实最近帧(Real Recent Frame)信息执行的真实动作(Real Action)的真实动作信息对应的预测下一帧(Predicted Next Frame)信息，其特征在于，包括：至少一个存储器，用于存储指令；以及至少一个处理器，执行上述指令或使得其他装置执行步骤(I)、步骤(II)以及步骤(III)，步骤(I)中，若获取上述真实环境中由上述基于深度学习的装置执行的上述真实动作的上述多个真实动作信息对应的多个轨迹(Trajectory)信息作为训练数据，则参照特定轨迹信息的特定时刻的真实当前帧(RealCurrent Frame)信息和k个上一真实帧(Previous Real Frame)信息生成多个学习用最近帧信息，步骤(II)中，向上述真实状态网络输入参照上述特定时刻的上述特定轨迹信息的真实当前动作信息获取的学习用动作信息和上述多个学习用最近帧信息，使得上述真实状态网络利用预测参数对上述多个学习用最近帧信息和上述学习用动作信息进行运算，输出上述预测下一帧信息，步骤(III)中，上述学习装置利用参照上述特定轨迹信息中的上述真实当前帧信息之后的真实下一帧信息和上述预测下一帧信息生成的至少一个损失，更新上述预测参数，以使上述损失最小化。

一实施例中，本发明的特征在于，上述步骤(II)中，上述处理器执行：过程(i)，(i-1)向上述真实状态网络的卷积神经网络(CNN，Convolutional Neural Network)输入拼接上述多个学习用最近帧信息(Concatenating)而生成的学习用当前帧状态合(CurrentFrame State Sum)，使得上述卷积神经网络对上述学习用当前帧状态合进行卷积运算，输出第一特征(Feature)，(i-2)向上述真实状态网络的至少一个全连接层(FC layer，FullyConnected Layer)输入上述学习用动作信息，使得上述至少一个全连接层对上述学习用动作信息进行全连接运算，输出第二特征；以及过程(ii)，向反卷积层(DeconvolutionLayer)输入拼接上述第一特征和上述第二特征生成的拼接特征，使得上述反卷积层对上述拼接特征进行反卷积运算，输出上述预测下一帧信息。

一实施例中，本发明的特征在于，上述处理器执行：过程(i)，使得上述卷积神经网络，将拼接HxWxC张量(Tensor)的上述多个学习用最近帧信息而生成的HxWx(K+1)张量的上述学习用当前帧状态合输出为HWC-维度向量(Dimension Vector)的上述第一特征；过程(ii)，使得上述至少一个全连接层，将三维向量的上述学习用动作信息输出为L维向量的上述第二特征，以及过程(iii)，使得上述反卷积层，将拼接上述第一特征和上述第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的上述预测下一帧信息。

一实施例中，本发明的特征在于，上述处理器通过利用上述损失的梯度下降法(Gradient Descent)，更新上述至少一个CNN、上述至少一个全连接层，以及上述反卷积层中的至少一个参数。

此外，本发明还提供用于存储执行本发明的方法的计算机程序的计算机可读存储介质。

发明的效果

本发明具有如下效果：对虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration)，以使虚拟世界与真实世界之间的差距(Gap)最小化，在虚拟世界学习的基于深度学习(Deep Learning)的装置的短期规划(Short-TermPlanning)以更高的可靠性适用于真实世界。

本发明的还具有如下效果：为了证明虚拟环境的可靠性，可将物理引擎与真实环境模型之间损失用作可靠性标准(Reliability Measure)。

附图说明

为了说明本发明的实施例而所附的以下附图只是本发明的实施例中的一部分，本发明所属领域的普通技术人员(以下，“普通技术人员”)可以在不付出创造性劳动的情况下通过该附图得出其他附图。

图1简要示出本发明一实施例的对用于基于深度学习(Deep Learning)的装置的学习的虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration)的标定装置。

图2简要示出本发明一实施例的对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法。

图3简要示出本发明一实施例的用于真实状态网络(Real State Network)的学习的学习装置，真实状态网络生成真实环境(Real Environment)中由基于深度学习的装置对多个真实最近帧(Real Recent Frame)信息执行的真实动作(Real Action)的真实动作信息对应的预测下一帧(Predicted Next Frame)信息。

图4简要示出本发明一实施例的用于真实状态网络的学习的学习方法，真实状态网络生成真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息。

图5简要示出本发明一实施例的用于真实状态网络的学习的至少一个轨迹(Trajectory)的生成方法。

附图标记的说明

1000：标定装置，

1100：存储器，

1200：处理器，

2000：学习装置，

2100：存储器，

2200：处理器，

100：虚拟世界模拟器，

110：物理引擎，

200：真实状态网络，

300：基于深度学习的装置

具体实施方式

以下，本发明能够实施的特定实施例为例，参照附图对本发明进行详细说明，本发明的目的、技术手段及优点将更加明确。普通技术人员可以参照对这些实施例的详细说明充分实施这些实施例。

并且，本发明的详细说明及权利要求书中，术语“包括”及其变形不排除其他技术特征、附加物、结构要素或步骤等。对普通技术人员而言，本发明的其他目的、优点及特性的一部分可以从本说明书得知，一部分可以在实施本发明的过程中得知。以下例示及附图只是实例，本发明并不局限于此。

进而，本发明包括本说明书中提供的多个实施例的所有组合。

本发明的各种实施例虽然不同但不必相互排斥。例如，本文所记载的特定形状、结构及特性，在一实施例中不脱离本发明的思想及范围的情况下还可体现为另一实施例。并且，所公开的各个实施例内的个别结构要素的位置或配置可以在不脱离本发明的思想及范围的情况下进行变更。因此，后述的详细说明并不是限定的意思，只要能适当说明，本发明的范围应根据与权利要求书的范围等同的所有范围和所附的权利要求书而定。附图中类似的附图标记在多个方面指类似的功能。

本发明中提及的各种图像可以包括柏油马路或非柏油马路的相关图像，这种情况下可以假设包括马路环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物)，但并不局限于此。本发明中提及的各种图像还可以为与马路无关的图像(假如非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、与室内相关的图像)，这种情况下可以假设包括非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物)，但并不局限于此。

以下，为了使本发明所属领域的普通技术人员容易实施本发明，参照附图对本发明的优选实施例进行详细说明。

图1简要示出本发明一实施例的对用于基于深度学习(Deep Learning)的装置的学习的虚拟世界模拟器(Virtual World Simulator)的物理引擎(Physics Engine)进行标定(Calibration)的标定装置。参照图1，标定装置1000可以包括：存储器1100，存储对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的指令(Instruction)；以及处理器1200，对应于存储在存储器1100的指令，执行对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的步骤。

具体地，标定装置1000典型地利用至少一个计算装置(例如，计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素；路由器、开关等电子通信装置；网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储系统)和至少一个计算机软件(即，使得上述计算装置以特定方式运行的指令)的组合来实现所需的系统性能。

并且，计算装置的处理器可以包括MPU(Micro Processing Unit)或CPU(CentralProcessing Unit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件构成。并且，计算装置还可包括操作系统(OS)及执行特定目的的程序的软件构成

然而，不排除上述计算装置包括用于实施本发明的处理器、存储器、介质或其他计算用结构要素的任意组合集成装置(Integrated Device)。

参照图2说明利用这种本发明一实施例的标定装置1000对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定的方法。

首先，虚拟世界模拟器100为了作为智能体(Agent)的基于深度学习的装置300的学习，而可以生成预设的虚拟环境中与虚拟当前状态(Virtual Current State)相对应的虚拟当前帧(Virtual Current Frame)信息I_t。此时，虚拟当前状态可以包括基于深度学习的装置300的运行状态信息、周围环境信息、运行条件等，基于深度学习的装置300可以包括无人驾驶汽车、无人驾驶飞机、机器人等根据由深度学习算法学习的条件运行的所有装置。作为一例，基于深度学习的装置为无人驾驶汽车的情况下，虚拟当前状态可以包括无人驾驶汽车信息、周围汽车信息、道路信息、交通信号信息、周围环境信息等各种行驶信息。

其次，若从虚拟世界模拟器100获取到虚拟环境中与虚拟当前状态相对应的虚拟当前帧信息I_t，则标定装置1000向基于深度学习的装置300发送所获取的虚拟当前帧信息I_t，使得基于深度学习的装置300利用上一学习参数对虚拟当前帧信息I_t进行运算，从而可以输出与虚拟当前帧信息I_t相对应的虚拟动作(Virtual Action)信息a_t(S2)。

并且，标定装置1000向虚拟世界模拟器100的物理引擎F110发送从虚拟世界模拟器100获取的虚拟当前帧信息I_t和从基于深度学习的装置300输出的虚拟动作信息a_t，使得物理引擎F110利用上一标定参数(Previous Calibrated Parameter)对虚拟当前帧信息I_t和虚拟动作信息a_t进行运算，从而可以输出与虚拟当前帧信息I_t和虚拟动作信息a_t相对应的虚拟下一帧(Virtual Next Frame)信息I_t+1(S3)。

进而，标定装置1000向真实状态网络(Real State Network)200发送从虚拟世界模拟器100获取的虚拟当前帧信息I_t和从基于深度学习的装置300输出的虚拟动作信息a_t，使得真实状态网络200利用经学习的预测参数对与虚拟当前帧信息I_t相对应的多个虚拟最近帧信息和虚拟动作信息a_t进行运算，从而可以输出预测的真实下一帧(Predicted RealNext Frame)

信息(S5)。即，真实状态网络200可以参照多个虚拟最近帧信息和虚拟动作信息输出预测可能在真实世界发生的下一帧信息。在本发明的整篇说明书中，多个虚拟最近帧信息可以为k+1个虚拟最近帧信息，但不局限于此。

此时，真实状态网络200可以经学习处于对真实环境中由基于深度学习的装置300对多个真实最近帧信息执行的真实动作的真实动作信息对应地输出多个预测下一帧信息的状态，详细内容参照后述说明。在本发明的整篇说明书中，多个预测下一帧信息可以为k+1个预测下一帧信息，多个真实最近帧信息可以为k+1个真实最近帧信息，但不局限于此。

并且，标定装置1000可以向真实状态网络200发送虚拟当前帧信息和虚拟动作信息，使得真实状态网络200参照虚拟当前帧信息和之前接收的k个虚拟上一帧(VirtualPrevious Frame)信息生成多个虚拟最近帧信息。作为另一例，标定装置1000还可以参照虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成虚拟最近帧信息，并发送至真实状态网络200。

即，标定装置1000向真实状态网络200发送虚拟当前帧信息和虚拟动作信息，使得真实状态网络200生成拼接(Concatenating)虚拟当前帧信息和k个虚拟上一帧信息而生成的虚拟当前帧状态合(Virtual Current Frame State Sum)。作为另一例，标定装置1000生成拼接虚拟当前帧信息和k个虚拟上一帧信息而生成的虚拟当前帧状态合，并发送至真实状态网络200。

此时，虚拟当前帧状态合s_t可以表示为[I_t-K，I_t-K+1，...，I_t-1，I_t]，预测的真实下一状态

可以表示为S(s_t，a_t)。

另一方面，真实状态网络200可以执行：(i)(i-1)对虚拟当前帧状态合进行卷积运算生成第一维度向量(Dimension Vector)，(i-2)对虚拟动作信息进行全连接运算(FullyConnected Operation)生成第二维度向量，之后，(ii)对第一维度向量和第二维度向量的拼接结果进行反卷积运算，生成预测的真实下一帧信息。

此时，虚拟当前帧状态合s_t可以是拼接(i)HxWxC张量(Tensor)的虚拟当前帧信息和(ii)k个虚拟上一帧信息而生成的HxWx(K+1)张量。并且，第一维度向量可以为HWC-维度向量，第二维度向量为L维向量的情况下，预测的真实下一帧信息可以是对拼接第一维度向量和第二维度向量而生成的1x1x(HWC+L)张量进行反卷积运算生成的HxWxC张量。并且，虚拟动作信息可以为三维向量，作为一例，基于深度学习的装置300为无人驾驶汽车的情况下，虚拟动作信息可以与转向角度变化量信息、制动踏板压力信息、加速踏板压力信息相对应。

接着，标定装置1000可以对物理引擎F110的上一标定参数(Previous CalibratedParameter)进行标定及最优化(Optimize)，使得当前标定参数(Current CalibratedParameter)生成为最优化的参数，以使从虚拟世界模拟器100的物理引擎F110输出的虚拟下一帧信息和从真实状态网络200输出的预测的真实下一帧信息生成的至少一个损失最小化。结果，物理引擎F110可以规划使虚拟环境与真实环境之间的差距(Gap)最小化的虚拟下一帧。

即，标定装置1000可以参照物理引擎F110生成的虚拟下一帧信息I_t+1和真实状态网络200生成的预测的真实下一帧信息

计算至少一个损失

或者可以使损失层计算损失

后参照损失

对物理引擎F110进行最优化。

另一方面，虚拟世界模拟器100的物理引擎F110是无法微分的函数的情况下，可以通过下面方法对上一标定参数进行最优化。

即，标定装置1000可以重复如下过程直到损失减少，过程(i)中，选择物理引擎110的上一标定参数中的一个上一标定参数的过程，过程(ii)中，利用损失对选择的一个上一标定参数进行标定，根据预设的学习率进行标定，使得一个当前标定参数生成为最优化的参数。并且，标定装置1000(i)使得物理引擎F110，利用一个当前标定参数和除了一个上一标定参数之外的剩余上一标定参数，对虚拟当前帧信息和虚拟动作信息进行运算，生成新的虚拟下一帧信息，(ii)利用参照新的虚拟下一帧信息和预测的真实下一帧信息生成的至少一个新的损失，确认损失是否减少。

并且，在所有上一标定参数的损失未减少的情况下，标定装置1000使得预设的学习率减少后执行上述过程。

并且，标定装置1000可以向基于深度学习的装置300发送从物理引擎F110输出的虚拟下一帧信息I_t+1和与从基于深度学习的装置300输出的虚拟动作信息相对应的奖励(Reward)信息r_t+1，使得基于深度学习的装置300通过利用虚拟下一帧信息I_t+1和奖励信息r_t+1的在线强化学习(On-Policy Reinforcement Learning)更新上一学习参数。此时，奖励信息可以是表示响应于虚拟当前帧信息而由基于深度学习的装置300执行的虚拟动作信息是否适当的结果，奖励信息可以由物理引擎F110生成或由标定装置1000生成。

图3简要示出本发明一实施例的用于真实状态网络的学习的学习装置，真实状态网络生成真实环境中对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息。参照图3，学习装置2000可以包括：存储器2100，存储用于真实状态网络的学习的指令，真实状态网络输出真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息；以及处理器2200，对应于存储在存储器2100的指令，执行真实状态网络的学习步骤，真实状态网络输出真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息。

具体地，学习装置2000典型地利用至少一个计算装置(例如，计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素；路由器、开关等电子通信装置；网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储系统)和至少一个计算机软件(即，使得上述计算装置以特定方式运行的指令)的组合来实现所需的系统性能。并且，计算装置的处理器可以包括MPU(Micro Processing Unit)或CPU(Central ProcessingUnit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件构成。并且，计算装置还可包括操作系统(OS)及执行特定目的的程序的软件构成。

参照图4说明利用这种本发明一实施例的学习装置2000输出真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息的学习方法。以下说明中将省略可以从参照图2的说明中容易理解的部分的详细说明。

首先，学习装置2000可以获取真实环境中由基于深度学习的装置执行的真实动作的多个真实动作信息对应的多个轨迹(Trajectory)信息作为训练数据。

此时，参照图5，N个轨迹信息可以在真实环境等多种环境由作为基于深度学习的装置的智能体生成，基于深度学习的装置可以重复过程(i)、过程(ii)以及过程(iii)中生成N个轨迹信息，过程(i)中生成作为对于真实环境的信息的当前帧I_t，过程(ii)中生成与当前帧I_t相对应的动作a_t，过程(iii)中生成根据动作发生变化的下一帧I_t+1。N个轨迹信息的例示可以为如下：

…

此时，各个N个轨迹信息的各个长度T₁、……、T_N、各个开始位置以及基于深度学习的装置的动作模式(p(a_t|s_t))(例如，无人驾驶汽车的驾驶模式)可以不同。

并且，学习装置2000可以参照作为训练数据获取的多个轨迹信息中特定轨迹信息的特定时刻的真实当前帧信息和k个上一真实帧信息，生成多个学习用最近帧信息。

接着，学习装置2000可以向真实状态网络200输入参照特定时刻的特定轨迹信息的真实当前动作信息获取的学习用动作信息和多个学习用最近帧信息，使得真实状态网络200利用预测参数对多个学习用最近帧信息和学习用动作信息进行运算，输出预测下一帧信息。

作为一例，学习装置2000可以执行：过程(i)向真实状态网络200的卷积神经网络(CNN，Convolutional Neural Network)输入拼接多个学习用最近帧信息而生成的学习用当前帧状态合，使得CNN对学习用当前帧状态合进行卷积运算，输出第一特征；以及过程(ii)向真实状态网络200的至少一个全连接层(Fully Connected Layer)输入学习用动作信息，使得至少一个全连接层对学习用动作信息进行全连接运算，输出第二特征。并且，学习装置2000向反卷积层输入拼接第一特征和第二特征二输出的拼接特征，使得反卷积层对拼接特征进行反卷积运算，输出测下一帧信息。

此时，学习用当前帧状态合st可以表示为[I_t-K，I_t-K+1，...，I_t-1，I_t]，预测的真实下一帧信息

可以表示为S(st，at)。

即，学习装置2000可以执行：过程(i)，使得CNN，将拼接HxWxC张量的多个学习用最近帧信息而生成的HxWx(K+1)张量的学习用当前帧状态合输出为HWC-维度向量的第一特征；过程(ii)，使得至少一个全连接层，将三维向量的学习用动作信息输出为L维度向量的第二特征；以及过程(iii)，使得反卷积层，将拼接第一特征和第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的预测下一帧信息。

接着，学习装置2000利用参照特定轨迹信息中的真实当前帧信息之后的真实下一帧信息和预测下一帧信息生成的至少一个损失，更新预测参数，使得损失最小化。

即，学习装置2000可以参照特定轨迹信息的真实下一帧信息I_t+1和真实状态网络200输出的预测下一帧信息

计算至少一个损失

或者可以使损失层计算损失

后参照损失

学习真实状态网络200。

此时，学习装置2000可以通过梯度下降法(Gradient Descent)更新真实状态网络200的预测参数，作为一例，可以更新至少一个CNN、至少一个全连接层一集反卷积层中的至少一个参数。

并且，学习装置2000可以利用N个真实世界轨迹重复上述学习过程，使得真实状态网络200的损失收敛。

并且，以上说明的本发明的实施例能够以通过各种计算机结构要素执行的程序命令的形态体现并存储在计算机可读存储介质。上述计算机可读存储介质可以包括程序命令、数据文件、数据结构等或它们的组合。上述计算机可读存储介质中存储的程序命令可以是为本发明特殊设计并构成的，或者可以是由计算机软件领域的普通技术人员公知使用的。计算机可读存储介质的例包括硬盘、软盘及磁带等磁介质、CD-ROM、DVD等光存储介质、光磁软盘(floptical disk)等磁光介质(magneto-optical media)、以及ROM、RAM、快闪存储器等为了存储并执行程序命令而特殊构成的硬件装置。程序命令的例包括由编译器制成的机器语言代码以及利用解析器等可由计算机执行的高级语言代码。上述硬件装置能够以一个以上软件模块运行，以便执行本发明的处理，相反情况也一样。

以上，通过限定的实施例及附图对本发明的具体结构要素等特定事项进行了说明，但这仅仅用于提供对本发明的更全面的理解，本发明并不局限于上述实施例，本发明所属领域的普通技术人员可以在这些记载的基础上进行各种修改及变形。

因此，本发明的思想并不局限于所说明的上述实施例，权利要求书及其等同或等价变换的所有内容均属于本发明的思想范畴。

Claims

1.一种方法，其特征在于，对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定，包括：

步骤(a)，若从虚拟世界模拟器获取到与虚拟环境上的虚拟当前状态相对应的虚拟当前帧信息，则标定装置执行过程(i)、过程(ii)以及过程(iii)，过程(i)中，向所述基于深度学习的装置发送所述虚拟当前帧信息，使得所述基于深度学习的装置利用上一学习参数对所述虚拟当前帧信息进行运算，输出与所述虚拟当前帧信息相对应的虚拟动作信息，过程(ii)中，向所述虚拟世界模拟器的所述物理引擎发送所述虚拟当前帧信息和所述虚拟动作信息，使得所述物理引擎利用上一标定参数对所述虚拟当前帧信息和所述虚拟动作信息进行运算，输出与所述虚拟当前帧信息和所述虚拟动作信息相对应的虚拟下一帧信息，过程(iii)中，向真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息，使得所述真实状态网络利用经学习的预测参数对与所述虚拟当前帧信息相对应的多个虚拟最近帧信息和所述虚拟动作信息进行运算，输出预测的真实下一帧信息，所述真实状态网络经学习处于对真实环境上的多个真实最近帧信息中由所述基于深度学习的装置执行的真实动作的真实动作信息响应而输出多个预测下一帧信息的状态；以及

步骤(b)，所述标定装置对所述物理引擎的所述上一标定参数进行标定及最优化，使得当前标定参数生成为最优化的参数，以使参照所述虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个损失最小化。

2.根据权利要求1所述的方法，其特征在于，还包括：

步骤(c)，所述标定装置向所述基于深度学习的装置发送与所述虚拟动作信息相对应的奖励信息和所述虚拟下一帧信息，使得所述基于深度学习的装置通过利用所述虚拟下一帧信息和所述奖励信息的在线强化学习更新所述上一学习参数。

3.根据权利要求1所述的方法，其特征在于，所述步骤(a)的所述过程(iii)中，所述标定装置执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程，使得所述真实状态网络参照所述虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成所述多个虚拟最近帧信息。

4.根据权利要求3所述的方法，其特征在于，所述过程(iii)中，

所述标定装置执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程，使得所述真实状态网络，(iii-1)(iii-1-1)对拼接所述虚拟当前帧信息和所述k个虚拟上一帧信息而生成的虚拟当前帧状态合进行卷积运算，生成第一维度向量，(iii-1-2)对所述虚拟动作信息进行全连接运算，生成第二维度向量，(iii-2)对所述第一维度向量和所述第二维度向量的拼接结果进行反卷积运算，生成所述预测的真实下一帧信息。

5.根据权利要求4所述的方法，其特征在于，

所述虚拟当前帧状态合是拼接(i)HxWxC张量的所述虚拟当前帧信息和(ii)k个所述虚拟上一帧信息而生成的HxWx(K+1)张量，

所述第一维度向量为HWC-维度向量，

所述第二维度向量为L维向量的情况下，所述预测的真实下一帧信息是对拼接所述第一维度向量和所述第二维度向量而生成的1x1x(HWC+L)张量进行反卷积运算生成的HxWxC张量。

6.根据权利要求1所述的方法，其特征在于，所述步骤(b)中，所述标定装置重复执行过程(i)、过程(ii)以及过程(iii)，直到所述损失减少，

过程(i)中，选择所述上一标定参数中的一个上一标定参数的过程，

过程(ii)中，利用所述损失对选择的所述一个上一标定参数进行标定，根据预设的学习率进行标定，使得一个当前标定参数生成为最优化的参数，

过程(iii)中，(iii-1)使得所述物理引擎，利用所述一个当前标定参数和除了所述一个上一标定参数之外的剩余上一标定参数，对所述虚拟当前帧信息和所述虚拟动作信息进行运算，生成新的虚拟下一帧信息，(iii-2)利用参照所述新的虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个新的损失，确认所述损失是否减少。

7.根据权利要求6所述的方法，其特征在于，在所有所述上一标定参数的所述损失未减少的情况下，所述标定装置使得所述预设的学习率减少，并执行所述过程(i)、所述过程(ii)以及所述过程(iii)。

8.一种方法，其特征在于，用于真实状态网络的学习，所述真实状态网络生成真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息，包括：

步骤(a)，若获取所述真实环境中由所述基于深度学习的装置执行的所述真实动作的所述多个真实动作信息对应的多个轨迹信息作为训练数据，则学习装置参照特定轨迹信息的特定时刻的真实当前帧信息和k个上一真实帧信息生成多个学习用最近帧信息；

步骤(b)，所述学习装置向所述真实状态网络输入参照所述特定时刻的所述特定轨迹信息的真实当前动作信息获取的学习用动作信息和所述多个学习用最近帧信息，使得所述真实状态网络利用预测参数对所述多个学习用最近帧信息和所述学习用动作信息进行运算，输出所述预测下一帧信息；以及

步骤(c)，所述学习装置利用参照所述特定轨迹信息中的所述真实当前帧信息之后的真实下一帧信息和所述预测下一帧信息生成的至少一个损失，更新所述预测参数，以使所述损失最小化。

9.根据权利要求8所述的方法，其特征在于，所述步骤(b)中，所述学习装置执行：

过程(i)，(i-1)向所述真实状态网络的卷积神经网络输入拼接所述多个学习用最近帧信息而生成的学习用当前帧状态合，使得所述卷积神经网络对所述学习用当前帧状态合进行卷积运算，输出第一特征，(i-2)向所述真实状态网络的至少一个全连接层输入所述学习用动作信息，使得所述至少一个全连接层对所述学习用动作信息进行全连接运算，输出第二特征；以及

过程(ii)，向反卷积层输入拼接所述第一特征和所述第二特征生成的拼接特征，使得所述反卷积层对所述拼接特征进行反卷积运算，输出所述预测下一帧信息。

10.根据权利要求9所述的方法，其特征在于，所述学习装置执行：

过程(i)，使得所述卷积神经网络，将拼接HxWxC张量的所述多个学习用最近帧信息而生成的HxWx(K+1)张量的所述学习用当前帧状态合输出为HWC-维度向量的所述第一特征；

过程(ii)，使得所述至少一个全连接层，将三维向量的所述学习用动作信息输出为L维向量的所述第二特征，以及

过程(iii)，使得所述反卷积层，将拼接所述第一特征和所述第二特征而生成的1x1x(HWC+L)张量输出为HxWxC张量的所述预测下一帧信息。

11.根据权利要求9所述的方法，其特征在于，所述学习装置通过利用所述损失的梯度下降法，更新所述至少一个CNN、所述至少一个全连接层，以及所述反卷积层中的至少一个参数。

12.一种标定装置，其特征在于，对用于基于深度学习的装置的学习的虚拟世界模拟器的物理引擎进行标定，包括：

至少一个存储器，用于存储指令；以及

至少一个处理器，执行所述指令或使得其他装置执行步骤(I)以及步骤(II)，

步骤(I)中，若从虚拟世界模拟器获取到与虚拟环境上的虚拟当前状态相对应的虚拟当前帧信息，则执行过程(i)、过程(ii)以及过程(iii)，过程(i)中，向所述基于深度学习的装置发送所述虚拟当前帧信息，使得所述基于深度学习的装置利用上一学习参数对所述虚拟当前帧信息进行运算，输出与所述虚拟当前帧信息相对应的虚拟动作信息，过程(ii)中，向所述虚拟世界模拟器的所述物理引擎发送所述虚拟当前帧信息和所述虚拟动作信息，使得所述物理引擎利用上一标定参数对所述虚拟当前帧信息和所述虚拟动作信息进行运算，输出与所述虚拟当前帧信息和所述虚拟动作信息相对应的虚拟下一帧信息，过程(iii)中，向真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息，使得所述真实状态网络利用经学习的预测参数对与所述虚拟当前帧信息相对应的多个虚拟最近帧信息和所述虚拟动作信息进行运算，输出预测的真实下一帧信息，所述真实状态网络经学习处于对真实环境上的多个真实最近帧信息中由所述基于深度学习的装置执行的真实动作的真实动作信息响应而输出多个预测下一帧信息的状态，

步骤(II)中，对所述物理引擎的所述上一标定参数进行标定及最优化，使得当前标定参数生成为最优化的参数，以使参照所述虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个损失最小化。

13.根据权利要求12所述的标定装置，其特征在于，还包括：

步骤(III)，所述处理器向所述基于深度学习的装置发送与所述虚拟动作信息相对应的奖励信息和所述虚拟下一帧信息，使得所述基于深度学习的装置通过利用所述虚拟下一帧信息和所述奖励信息的在线强化学习更新所述上一学习参数。

14.根据权利要求12所述的标定装置，其特征在于，所述过程(iii)中，所述处理器执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程，使得所述真实状态网络参照所述虚拟当前帧信息和之前接收的k个虚拟上一帧信息生成所述多个虚拟最近帧信息。

15.根据权利要求14所述的标定装置，其特征在于，所述过程(iii)中，所述处理器执行向所述真实状态网络发送所述虚拟当前帧信息和所述虚拟动作信息的过程，使得所述真实状态网络，(iii-1)(iii-1-1)对拼接所述虚拟当前帧信息和所述k个虚拟上一帧信息而生成的虚拟当前帧状态合进行卷积运算，生成第一维度向量，(iii-1-2)对所述虚拟动作信息进行全连接运算，生成第二维度向量，(iii-2)对所述第一维度向量和所述第二维度向量的拼接结果进行反卷积运算，生成所述预测的真实下一帧信息。

16.根据权利要求15所述的标定装置，其特征在于，

所述第一维度向量为HWC-维度向量，

17.根据权利要求12所述的标定装置，其特征在于，所述步骤(II)中，所述处理器重复执行过程(II-1)、过程(II-2)以及过程(II-3)，直到所述损失减少，

过程(II-1)中，选择所述上一标定参数中的一个上一标定参数的过程，

过程(II-2)中，利用所述损失对选择的所述一个上一标定参数进行标定，根据预设的学习率进行标定，使得一个当前标定参数生成为最优化的参数，

过程(II-3)中，(II-3a)使得所述物理引擎，利用所述一个当前标定参数和除了所述一个上一标定参数之外的剩余上一标定参数，对所述虚拟当前帧信息和所述虚拟动作信息进行运算，生成新的虚拟下一帧信息，(II-3b)利用参照所述新的虚拟下一帧信息和所述预测的真实下一帧信息生成的至少一个新的损失，确认所述损失是否减少，直到所述损失减少。

18.根据权利要求17所述的标定装置，其特征在于，在所有所述上一标定参数的所述损失未减少的情况下，所述处理器使得所述预设的学习率减少，并执行所述过程(i)、所述过程(ii)以及所述过程(iii)。

19.一种标定装置，用于真实状态网络的学习，所述真实状态网络生成真实环境中由基于深度学习的装置对多个真实最近帧信息执行的真实动作的真实动作信息对应的预测下一帧信息，其特征在于，包括：

至少一个存储器，用于存储指令；以及

至少一个处理器，执行所述指令或使得其他装置执行步骤(I)、步骤(II)以及步骤(III)，

步骤(I)中，若获取所述真实环境中由所述基于深度学习的装置执行的所述真实动作的所述多个真实动作信息对应的多个轨迹信息作为训练数据，则参照特定轨迹信息的特定时刻的真实当前帧信息和k个上一真实帧信息生成多个学习用最近帧信息，

步骤(II)中，向所述真实状态网络输入参照所述特定时刻的所述特定轨迹信息的真实当前动作信息获取的学习用动作信息和所述多个学习用最近帧信息，使得所述真实状态网络利用预测参数对所述多个学习用最近帧信息和所述学习用动作信息进行运算，输出所述预测下一帧信息，

步骤(III)中，所述学习装置利用参照所述特定轨迹信息中的所述真实当前帧信息之后的真实下一帧信息和所述预测下一帧信息生成的至少一个损失，更新所述预测参数，以使所述损失最小化。

20.根据权利要求19所述的标定装置，其特征在于，所述步骤(II)中，所述处理器执行：

21.根据权利要求20所述的标定装置，其特征在于，所述处理器执行：

22.根据权利要求20所述的标定装置，其特征在于，所述处理器通过利用所述损失的梯度下降法，更新所述至少一个CNN、所述至少一个全连接层，以及所述反卷积层中的至少一个参数。