CN111275249A

CN111275249A - 基于dqn神经网络和高精度定位的驾驶行为优化方法

Info

Publication number: CN111275249A
Application number: CN202010043096.5A
Authority: CN
Inventors: 张彦君; 白勍; 王成俊
Original assignee: Zhejiang Geely Holding Group Co Ltd; Geely Automobile Research Institute Ningbo Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Geely Automobile Research Institute Ningbo Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-12

Abstract

本发明提供了一种基于DQN神经网络和高精度定位的驾驶行为优化方法，包括以下步骤：获取无人车驾驶时观测环境所得到的数据；对获取的所述数据进行预处理，以过滤所述数据中与车辆驾驶行为无关的噪音；基于DQN神经网络，对预处理后的一部分所述数据利用卷积神经网络进行处理，处理后同另一部分所述数据使用全连接网络进行拼接，以确定所述DQN神经网络架构；根据确定的所述DQN神经网络进行所述DQN神经网络训练和计算，得出车辆的目标奖励惩罚值，选取所述目标奖励惩罚值最大的动作并执行。本发明的驾驶行为优化方法，采用DQN神经网络学习得出的目标奖励惩罚值最大的动作并执行，能够最大化地提高车辆行驶的安全性的舒适性。

Description

基于DQN神经网络和高精度定位的驾驶行为优化方法

技术领域

本发明涉及无人驾驶技术领域，特别是涉及一种基于DQN(Deep Q Network的简称，中文名称：深度强化学习网路)神经网络和高精度定位的驾驶行为优化方法。

背景技术

随着汽车工业的发展和人民生活水平的提高，汽车的保有量呈现出逐年上涨的趋势。汽车给人们出行带来极大便利的同时，交通事故的发生也是不断的攀升。而导致交通事故的罪魁祸首就是驾驶员自己的驾驶行为，例如弯道超车、变道不打转向灯、见缝插针、行车安全车距保持不够、疲劳驾驶等等。可见，驾驶行为的研究对于汽车的安全性起着至关重要的作用。

从被动安全到主动安全再到智能网联无人驾驶的技术发展中，汽车行驶的安全性得到了长足的发展。在无人驾驶的技术中，摄像头和激光雷达取代了人眼，机器学习和神经网络则取代了人的大脑。

现有的无人驾驶技术中，一般采用传统的安全自动驾驶框架(感知、规划和控制)，无法拥有独立自主的学习道路行驶的能力，很多驾驶行为评估仅仅使用几个关键的车辆行驶参数(例如速度、加速、制动和转弯等)作为算法的输入，不能根据天气、道路情况等不同行驶环境采用不同的形式策略。而且现有的无人驾驶技术中，主要侧重于提高车辆行驶的平均速度、缩短行车的平均行驶时间和行驶里程或者采用最畅通最省时的路径等等，而无法最大化的提高车辆行驶的安全性和舒适性。并且车辆环境距离感知的精度只能达到米级别，无法满足无人驾驶业务的进一步需求。

发明内容

本发明的一个目的是要提供一种基于DQN神经网络和高精度定位的驾驶行为优化方法，无人车将直接采用DQN神经网络学习得出的目标奖励惩罚值最大的动作并执行，该驾驶行为优化方法评价驾驶行为的数据来源多样且全面，车辆环境距离感知的精度能够达到厘米级别，最大化地提高车辆行驶的安全性的舒适性。

特别地，本发明提供了一种基于DQN神经网络和高精度定位的驾驶行为优化方法，包括以下步骤：

获取无人车驾驶时观测环境所得到的数据，所述数据至少包括：摄像头图像和高精度定位数据；

对获取的所述数据进行预处理，以过滤所述数据中与车辆驾驶行为无关的噪音；

基于DQN神经网络，对预处理后的一部分所述数据利用卷积神经网络进行处理，处理后同另一部分所述数据使用全连接网络进行拼接，以确定所述DQN神经网络架构；

根据确定的所述DQN神经网络进行所述DQN神经网络训练和计算，得出车辆的目标奖励惩罚值，选取所述目标奖励惩罚值最大的动作并执行。

进一步地，所述数据还包括：CAN总线数据、激光雷达采集的视屏和点云数据以及地图API提供的天气和交通信息的数据。

进一步地，所述高精度定位数据由全球定位系统、惯性测量单元和载波相位差分技术相结合得出。

进一步地，所述的基于DQN神经网络，对预处理后的一部分所述数据利用卷积神经网络进行处理，处理后同另一部分所述数据使用全连接网络进行拼接，以确定所述DQN神经网络架构的步骤包括：

将预处理后的摄像头图像处理成数据矩阵作为一个输入层，以适配所述卷积神经网络的输入要求；

将预处理后的其他数据组成一维数组作为另一个输入层；

将两个输入层进入全连接神经网络进行拼接形成全连接层，以确定所述DQN神经网络架构。

进一步地，所述DQN神经网络包括：训练网络和评估网络，所述训练网络用于训练网络参数，并将所述网络参数传给所述评估网络，所述评估网络用于进行车辆的奖励惩罚值和损失函数的计算，同时根据计算得出的损失函数值更新所述所述网络参数。

进一步地，所述的根据确定的所述DQN神经网络进行所述DQN神经网络训练和计算，得出车辆的目标奖励惩罚值，选取所述目标奖励惩罚值最大的动作并执行的步骤包括：

获取所述DQN神经网络需要的训练样本，制作数据集；

确定车辆与道路环境交互的动作集合；

确定DQN神经网络的损失函数和奖励惩罚函数；

根据DQN神经网络计算车辆的目标奖励惩罚值，选取所述目标奖励惩罚值最大的动作并执行。

进一步地，所述DQN神经网络中车辆与道路环境之间交互的形式采用马尔科夫决策过程：MDP＝{S,A,Pr,R,γ}来描述，其中，MDP由元组组成，S为状态集合，A为动作集合，Pr为状态转移概率，R为所述奖励惩罚函数，γ为衰退系数。

进一步地，所述损失函数为：

Loss(θ)＝1/2[R+γmaxq(s’,a’,θ)-q(s,a,θ)]²

其中，θ为DQN神经网络参数，R为所述奖励惩罚函数，γ为所述衰退系数，q为某一状态下的奖励惩罚值，s和a分别为当前状态和动作，s’和a’分别为下一个状态和动作。

进一步地，所述奖励惩罚函数为：

R(s,a,s’)＝A1×R_{急加速、急刹车}+A2×R_急转弯+A3×R_{交通违规，包括限速}+A4×R_{最短距离阀值}+A5×R_变道频率+A6×R_{速度智能变化}+A7×R_碰撞

其中，A1、A2、A3、A4、A5、A6和A7分别为预设系数，A1、A2和A5的取值范围分别为0.05至0.15，A3和A6的取值范围分别为0.1至0.2，A4和A7的取值范围分别为0.15至0.25；

R为所述奖励惩罚函数，s和a分别为当前状态和动作，s’为下一个状态；

R_{急加速、急刹车}为急加速、急刹车动作的所述奖励惩罚函数，R_急转弯为急转弯动作的所述奖励惩罚函数，R_限速为限速动作的所述奖励惩罚函数，且R_{急加速、急刹车}、R_急转弯和R_限速均通过当前值和标准值的比较而确定；

R_{最短距离阀值}和R_碰撞分别为最短距离阀值和碰撞动作的所述奖励惩罚函数，且R_{最短距离阀值}和R_碰撞均通过激光雷达测距所得到的目标级数据而确定；

R_交通违规为交通违规动作的所述奖励惩罚函数，R_交通违规通过卷积神经网络而确定；

R_变道频率和R_{速度智能变化}分别为变道频率和速度智能变化动作的所述奖励惩罚函数，且R_变道频率和R_{速度智能变化}均通过计算机代码计算得出。

进一步地，所述目标奖励惩罚值为：

Q_target＝R(s,a)+γmax_a’q(s’,a’；θ^-)

其中，Q_target为目标奖励惩罚值，R为所述奖励惩罚函数，s和a分别为当前状态和动作，s’和a’分别为下一个状态和动作，θ为所述DQN神经网络参数，q为某一状态下的奖励惩罚值。

本发明的基于DQN神经网络和高精度定位的驾驶行为优化方法，无人车将直接采用DQN神经网络学习得出的目标奖励惩罚值最大的动作并执行，该驾驶行为优化方法评价驾驶行为的数据来源多样且全面，车辆环境距离感知的精度能够达到厘米级别，最大化地提高车辆行驶的安全性的舒适性。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本发明实施例的基于DQN神经网络和高精度定位的驾驶行为优化方法的流程图。

具体实施方式

本发明的基于DQN神经网络和高精度定位的驾驶行为优化方法，包括以下步骤：

S1、获取无人车驾驶时观测环境所得到的数据，数据至少包括：摄像头图像和高精度定位数据；

S2、对获取的数据进行预处理，以过滤数据中与车辆驾驶行为无关的噪音；

S3、基于DQN神经网络，对预处理后的一部分数据利用卷积神经网络进行处理，处理后同另一部分数据使用全连接网络进行拼接，以确定DQN神经网络架构；

S4、根据确定的DQN神经网络进行DQN神经网络训练和计算，得出车辆的目标奖励惩罚值，选取目标奖励惩罚值最大的动作并执行。

具体来说，参见图1，在本发明的基于DQN神经网络和高精度定位的驾驶行为优化方法中，首先，需要获取无人车驾驶时观测环境所得到的数据，其中获取的数据至少包括：摄像头图像和高精度定位数据，并且本发明的驾驶行为优化方法中获取的数据还包括：CAN总线数据、激光雷达采集的视屏和点云数据以及地图API提供的天气和交通信息的数据。其中，CAN总线数据包括行驶车速、加速度、横向加速度、纵向加速度、转向角、最小跟车距离、车道偏离预警功能触发次数等。高精度定位数据可以由全球定位系统(GPS)、惯性测量单元(IMU)和载波相位差分技术(RTK)相结合得出。IMU可以弥补GPS更新频率低的缺点(在无人驾驶系统中，GPS的更新频率为10Hz，而IMU的更新频率为100Hz)。而RTK则解决了GPS米级定位无法满足无人车应用标准的问题，RTK可使定位的精度提高到厘米级别。

然后，需要对获取的数据进行预处理，通过预处理可以过滤掉数据中与车辆驾驶行为无关的噪音。具体来说，根据GPS、IMU和RTK得到的高精度定位数据从高精度地图服务商获取道路详细信息，然后进行数据过滤，过滤掉图片、点云数据、CAN总线数据和天气道路信息中与车辆驾驶行为无关的噪音，比如通过图像分割技术过滤掉摄像头拍摄到的高速公路以外的树木和建筑物，只留下高速公路道路和道路上面的车辆，以减少深度神经网络的计算量。

接着，基于DQN神经网络，对上述预处理后的一部分数据利用卷积神经网络进行处理，处理后同另一部分数据使用全连接网络进行拼接，以确定DQN神经网络架构。其中，DQN是深度强化学习的一种，是将深度学习的感知能力和强化学习的决策能力相结合的一种学习方式。深度学习利用卷积神经网络在图像处理方面的优势识别车辆周围的物体和道路天气环境，再加上对激光雷达点云数据、CAN总线数据、高精度定位数据和地图API数据进行全连接神经网络处理，车辆能够精准的感知自身和外部道路环境的状态。强化学习是指通过车辆与道路周围的环境进行实时的交互并采取最优的驾驶行为，驾驶行为的优劣可以根据舒适度、安全性、是否存在急加速、急减速和急转弯等项目进行评估打分和奖励惩罚，并根据打分的结果对影响无人车行驶行为的参数如行驶速度、横向和纵向加速度等进行持续实时的优化和控制。在本发明的例子中，控制车辆的是油门、刹车和转向角，强化学习需要以最大化车辆行驶的舒适稳定性(加减速度和转向角的最小化)和最大化其安全性(与其它车辆、行人、物体、道路交通线和道路两侧距离的最大化)的方式进行奖励建模以及对超速、驶入禁区、频繁变道等行为进行惩罚建模。

最后，根据确定的DQN神经网络进行DQN神经网络训练和计算，得出车辆的目标奖励惩罚值，选取目标奖励惩罚值最大的动作并执行。在数据收集完成之后，通过卷积神经网络对无人车所处的环境和道路情况进行感知，并结合CAN总线数据、高精度定位数据和地图API数据，通过DQN神经网络训练和计算，得到车辆当前的一个状态S。在该状态下，车辆有多个可选的动作，根据计算目标奖励惩罚值，车辆会选出环境给出奖励最大的动作并执行这个动作。执行完该动作之后，车辆达到下一个状态S’,如此反复迭代并一直进行下去。

根据本发明的一个实施例，基于DQN神经网络，对预处理后的一部分数据利用卷积神经网络进行处理，处理后同另一部分数据使用全连接网络进行拼接，以确定DQN神经网络架构的步骤包括：

将预处理后的摄像头图像处理成数据矩阵作为一个输入层，以适配卷积神经网络的输入要求；

将预处理后的其他数据组成一维数组作为另一个输入层；

将两个输入层进入全连接神经网络进行拼接形成全连接层，以确定DQN神经网络架构。

具体来说，在确定DQN神经网络架构的步骤中，DQN神经网络采用两个输入层，摄像头图像整理成M行×N列的数据矩阵作为一个输入层，点云数据、CAN总线数据、高精度地图的天气道路数据等整理成一个L大小的一维数组作为另外一个输入层。摄像头图片矩阵数据经过25个卷积层和2个全连接层得到一个一维数组，另一个输入层的一维数组经过两个全连接层，经过拼接层后再经过1个全连接层，并根据强化学习算法计算目标奖励惩罚值，其中一个输出层(输出该状态和动作下的奖励值)，激活函数选择ReLU，损失函数采用均方误差，神经网络参数优化采用Adam优化器，神经网络参数的更新采用梯度下降的方法，从而得到最优解。

DQN神经网络包括：训练网络和评估网络，训练网络用于训练网络参数，并将网络参数传给评估网络，评估网络用于进行车辆的奖励惩罚值和损失函数的计算，同时根据计算得出的损失函数值更新网络参数。

根据本发明的一个实施例，根据确定的DQN神经网络进行DQN神经网络训练和计算，得出车辆的目标奖励惩罚值，选取目标奖励惩罚值最大的动作并执行的步骤包括：

获取DQN神经网络需要的训练样本，制作数据集；

确定车辆与道路环境交互的动作集合；

确定DQN神经网络的损失函数和奖励惩罚函数；

根据DQN神经网络计算车辆的目标奖励惩罚值，选取目标奖励惩罚值最大的动作并执行。

具体来说，使用DQN神经网络进行训练需要数据集。在深度强化学习的算法中，无人车首先进行道路环境的探索和观察，然后将观察所得的经验存储在记忆库中。这里的经验可以理解为当前状态s，采取的动作a，获得的奖励惩罚值R，执行动作后的状态s’。DQN设置首先需要设置开始不训练只进行观察的轮数(比如100万轮)和保存训练样本队列的大小(比如500万)。这样就得到训练DQN所需要的样本数据集。本发明的动作集合可以根据踩油门，刹车和转向角进行区间划分，将油门和刹车的力度集合O{-Fmax，Fmax}划分为20个区间，转向角的集合A{-βmax，+βmax}划分为10个区间，由此得出整个动作的集合包含20╳10共200个动作，这样整个动作集的粒度为200。

其中，DQN神经网络中车辆与道路环境之间交互的形式采用马尔科夫决策过程：MDP＝{S,A,Pr,R,γ}来描述，其中，MDP由元组组成，S为状态集合，A为动作集合，Pr为状态转移概率，R为奖励惩罚函数，γ为衰退系数。马尔可夫决策过程产生的状态序列可以表示为(s₀,a₀,R₁,s₁,a₁,R₂,…,s_T)。给定马尔可夫决策过程，强化学习的问题可以定义为寻找最优的策略π*，对任意s∈S，使得价值函数qπ*(s,a)的值最大。马尔可夫决策过程描述了车辆与周围环境相互的作用，是驾驶策略学习的数学模型。车辆使用深度强化学习可以更好的自主学习，为驾驶决策学习定义了状态s，动作a和奖励函数R。现实中车辆的状态数量很多甚至是接近无限的，则可以将奖励惩罚函数参数化，用深度神经网络来拟合奖励惩罚函数，这样便可以用有限的参数刻画无限的状态。

DQN神经网络的损失函数为：

Loss(θ)＝1/2[R+γmaxq(s’,a’,θ)-q(s,a,θ)]²

其中，θ为DQN神经网络参数，R为奖励惩罚函数，γ为衰退系数，q为某一状态下的奖励惩罚值，s和a分别为当前状态和动作，s’和a’分别为下一个状态和动作。

在本发明的驾驶行为优化方法中可以制定奖励惩罚条例，车辆行驶舒适度方面(车辆的急加速和急刹车次数最少，车辆急转弯次数最少)，每出现一次扣5分。急加速、急刹车的定义标准为|a|≥2.22m/s。急转弯的定义标准为综合横向力系数≥0.4。

车辆每超过从地图API中获取到的道路限速时受到惩罚，即v>v_map，每识别到一次扣4分。

车辆的速度应该会随着道路环境中识别到的移动物体(包括车、行人、电瓶车、自行车等等)的最短距离的变化而变化(例如识别到的运动物体多并且最短距离很小如闹市区，车辆的速度应该很低，徐徐前进甚至要停下来(当最短距离超过某个阀值，例如0.2m时，车辆必须停下来，如不停下来则扣5分；如停下来则加8分)；识别到的运动物体少并且距离较大如高速路段则应当提高速度)。每识别到行车速度随着识别移动物体数和最短距离的一次智能变化加8分。

车辆每违反交通规则的区域将受到相应的惩罚，每出现一次扣4分。

在某个时间段内变道次数超过某个阀值(比如1分钟之内变道3次)将受到相应的惩罚，每出现一次扣4分；如在1分钟之内变道次数小于3次，则奖励4分。

出现碰撞的情况则受到10分的惩罚。

根据上述的奖励惩罚条例，本发明的驾驶行为优化方法中给出车辆从状态s执行动作a到下一个状态s’的DQN神经网络的奖励惩罚函数为：

R为奖励惩罚函数，s和a分别为当前状态和动作，s’为下一个状态；

R_{急加速、急刹车}为急加速、急刹车动作的奖励惩罚函数，R_急转弯为急转弯动作的奖励惩罚函数，R_限速为限速动作的奖励惩罚函数，且R_{急加速、急刹车}、R_急转弯和R_限速均通过当前值和标准值的比较而确定；

R_{最短距离阀值}和R_碰撞分别为最短距离阀值和碰撞动作的奖励惩罚函数，且R_{最短距离阀值}和R_碰撞均通过激光雷达测距所得到的目标级数据而确定；

R_交通违规为交通违规动作的奖励惩罚函数，R_交通违规通过卷积神经网络而确定；

R_变道频率和R_{速度智能变化}分别为变道频率和速度智能变化动作的奖励惩罚函数，且R_变道频率和R_{速度智能变化}均通过计算机代码计算得出。

优选地，本发明的驾驶行为优化方法中给出车辆从状态s执行动作a到下一个状态s’的DQN神经网络的奖励惩罚函数为：

R(s,a,s’)＝0.1×R_{急加速、急刹车}+0.1×R_急转弯+0.15×R_{交通违规，包括限速}+0.2×R_{最短距离阀值}+0.1×R_变道频率+0.15×R_{速度智能变化}+0.2×R_碰撞

其中，

目标奖励惩罚值为：

Q_target＝R(s,a)+γmax_a’q(s’,a’；θ^-)

其中，Q_target为目标奖励惩罚值，R为奖励惩罚函数，s和a分别为当前状态和动作，s’和a’分别为下一个状态和动作，θ为DQN神经网络参数，q为某一状态下的奖励惩罚值。

在解决了DQN训练样本的问题之后，接着可以训练DQN网络。通过从记忆库中随机抽取出一批样本进行训练，随机抽取打破了训练样本的连续性和相关性，使神经网络的更新更加有效，在DQN网络的定义当中需要指出随机抽取训练集的大小。每条样本的格式为(s,a,R,s’)，分别表示当前状态、动作、奖励函数、下一个状态，将样本中的下一个状态s’的列表当作参数传入训练网络(训练网络使用以前的参数)，得到在s’状态下所有可执行动作的Q值表的集合，这样可以计算目标奖励惩罚值(目标Q值)：Q_target＝R(s,a)+γmax_a’q(s’,a’；θ^-)。

在数据收集完成之后，通过卷积神经网络对无人车所处的环境和道路情况进行感知，并结合CAN总线数据、高精度定位数据和地图API数据，得到车辆当前的一个状态S。在该状态下，车辆有200个可选的动作，根据计算目标奖励惩罚值(Q值)，车辆会选出环境给出奖励最大的动作并执行这个动作。执行完该动作之后，车辆达到下一个状态S’，如此反复迭代并一直进行下去。

总而言之，本发明的基于DQN神经网络和高精度定位的驾驶行为优化方法，无人车将直接采用DQN神经网络学习得出的目标奖励惩罚值最大的动作并执行，该驾驶行为优化方法评价驾驶行为的数据来源多样且全面，车辆环境距离感知的精度能够达到厘米级别，最大化地提高车辆行驶的安全性的舒适性。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，

所述数据还包括：CAN总线数据、激光雷达采集的视屏和点云数据以及地图API提供的天气和交通信息的数据。

3.根据权利要求1所述的基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，

所述高精度定位数据由全球定位系统、惯性测量单元和载波相位差分技术相结合得出。

4.根据权利要求1所述的基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，所述的基于DQN神经网络，对预处理后的一部分所述数据利用卷积神经网络进行处理，处理后同另一部分所述数据使用全连接网络进行拼接，以确定所述DQN神经网络架构的步骤包括：

将预处理后的其他数据组成一维数组作为另一个输入层；

5.根据权利要求1所述的基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，

所述DQN神经网络包括：训练网络和评估网络，所述训练网络用于训练网络参数，并将所述网络参数传给所述评估网络，所述评估网络用于进行车辆的奖励惩罚值和损失函数的计算，同时根据计算得出的损失函数值更新所述所述网络参数。

6.根据权利要求5所述的基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，所述的根据确定的所述DQN神经网络进行所述DQN神经网络训练和计算，得出车辆的目标奖励惩罚值，选取所述目标奖励惩罚值最大的动作并执行的步骤包括：

获取所述DQN神经网络需要的训练样本，制作数据集；

确定车辆与道路环境交互的动作集合；

确定DQN神经网络的损失函数和奖励惩罚函数；

7.根据权利要求6所述的基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，

所述DQN神经网络中车辆与道路环境之间交互的形式采用马尔科夫决策过程：MDP＝{S,A,Pr,R,γ}来描述，其中，MDP由元组组成，S为状态集合，A为动作集合，Pr为状态转移概率，R为所述奖励惩罚函数，γ为衰退系数。

8.根据权利要求7所述的基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，所述损失函数为：

Loss(θ)＝1/2[R+γmaxq(s’,a’,θ)-q(s,a,θ)]²

9.根据权利要求7所述的基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，所述奖励惩罚函数为：

10.根据权利要求7所述的基于DQN神经网络和高精度定位的驾驶行为优化方法，其特征在于，所述目标奖励惩罚值为：

Q_target＝R(s,a)+γmax_a’q(s’,a’；θ-)

其中，Q_target为所述目标奖励惩罚值，R为所述奖励惩罚函数，s和a分别为当前状态和动作，s’和a’分别为下一个状态和动作，θ为所述DQN神经网络参数，q为某一状态下的奖励惩罚值。