CN109347149B

CN109347149B - 基于深度q值网络强化学习的微电网储能调度方法及装置

Info

Publication number: CN109347149B
Application number: CN201811099843.6A
Authority: CN
Inventors: 张江南; 崔承刚; 吴坡; 贺勇; 赵延平; 刘海宝; 唐耀华; 李冰; 郝涛
Original assignee: State Grid Corp of China SGCC; State Grid Henan Electric Power Co Ltd; Electric Power Research Institute of State Grid Henan Electric Power Co Ltd; Shanghai University of Electric Power
Current assignee: State Grid Corp of China SGCC; State Grid Henan Electric Power Co Ltd; Electric Power Research Institute of State Grid Henan Electric Power Co Ltd; Shanghai University of Electric Power
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2022-04-22
Anticipated expiration: 2038-09-20
Also published as: CN109347149A

Abstract

本发明公开了基于深度Q值网络强化学习的微电网储能调度方法及装置，建立微电网模型；根据微电网模型，利用深度Q值网络强化学习算法进行人工智能训练；根据录入的参数特征值，计算得到微电网储能调度的电池运行策略。本发明实施例利用深度Q值网络对微电网能量进行调度管理，智能体通过与环境交互，决策出最优储能调度策略，在不断变化的环境中控制电池的运行模式，基于微电网动态决定储能管理的特征，使微电网在和主电网交互中获得最大的运行收益；通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值，分解这两部分会让学习目标更加稳定、更精确，让深度Q值网络对环境状态的估计能力更强。

Description

基于深度Q值网络强化学习的微电网储能调度方法及装置

技术领域

本发明涉及微电网储能调度的技术领域，尤其涉及基于深度Q值网络强化学习的微电网储能调度方法及装置。

背景技术

当前，机器学习的方法逐渐应用于各行各业中，利用深度Q值网络(Deep Q-Network，DQN)将卷积神经网络与传统的深度学习中Q值学习算法相结合也是一个新兴的研究方向。如果使用经验回放技术，通过存储智能体的经验，在每次训练时随机抽取一部分样本供给网络学习，就可以打破数据之间的关联性，使得神经网络的训练收敛且稳定。

将深度Q值网络应用于微电网储能调度的管理时，目标状态-动作Q值函数存在过估计的问题，并且学习目标不够稳定、精确，深度Q值网络对环境状态的估计能力不够强。

发明内容

为了克服现有技术的不足，本发明的目的在于提供基于深度Q值网络强化学习的微电网储能调度方法及装置，旨在解决将深度Q值网络应用于微电网储能调度的管理时，目标状态-动作Q值函数存在过估计，学习目标不够稳定、精确，深度Q值网络对环境状态的估计能力不够强的问题。

本发明的目的采用以下技术方案实现：

一种基于深度Q值网络强化学习的微电网储能调度方法，包括：

建立步骤，建立微电网模型；

训练步骤，根据微电网模型，利用深度Q值网络强化学习算法进行人工智能训练；

计算步骤，根据录入的参数特征值，计算得到微电网储能调度的电池运行策略。

在上述实施例的基础上，优选的，所述微电网模型设置有顺序连接的电池组储能系统、光伏发电系统、电力负荷和控制装置，且电力负荷和控制装置通过公共连接点接入配电网。

在上述实施例的基础上，优选的，深度Q值网络的训练模型以元组(s_t,a_t,r_t+1,s_t+1)为样本进行训练，其中s_t为当前状态，a_t为当前状态下执行的动作，r_t+1(a_t)为在执行动作后获得的即时奖励，s_t+1为下一个状态，t为时刻；

所述训练步骤，具体为：

在深度Q值网络中引入卷积神经网络；

设置深度Q值网络来计算目标Q值；

使用竞争Q值网络模型将目标状态-动作Q值函数Q(s_t,a_t)拆分成V(s_t)和A(a_t)，即Q(s_t,a_t)＝V(s_t)+A(a_t)；其中，V(s_t)为静态的环境状态本身的评估价值，A(a_t)为动作带来的额外价值A(a_t)。

在上述实施例的基础上，优选的，所述训练步骤中，所设置的深度Q值网络有两个，一个用于制造学习目标，一个用于进行实际训练。

在上述实施例的基础上，优选的，以(s₁,s₂,…,s_t,s_t+1,…)为状态空间S，则S＝S_B×S_pv,load×S_T，其中，S_B为可控的电池部分，S_pv,load为不可控的光伏和负荷部分，S_T为日期和时间序列；

s_B＝{SoC}，其中，

E_min≤E≤E_max；E_max为完全充电状态的电池容量，E_min为最低充电状态的电池容量；

s_pv,load＝{PV,load}，其中，PV为光伏发电量，load为负荷消费量。

在上述实施例的基础上，优选的，每个时间步长上，强化学习智能体所采取的离散化动作空间A为(电池充电动作，电池放电动作，电池保持闲置)；

将动作空间划分成3个数值，即a∈[0,1,2]，其中a＝0表示电池充电动作，a＝2表示电池保持闲置，a＝1表示电池放电动作。

在上述实施例的基础上，优选的，深度Q值网络的训练模型的奖励函数r_t(a_t)为：

其中，r_t ^*(a_t)为电池充放电获得的奖励，α_buy为购电价格，α_sell为卖电价格，P_t ^grid＝l_t-P_t ^pv+P_t ^B，l_t为t时刻的负荷消耗量，P_t ^pv为t时刻光伏发电输出量，P_t ^B为t时刻电池的充放电量；并且，

其中，k_d为电池放电系数，k_c为电池充电系数，

为电池放电功率，

为电池充电功率，Δt为充放电时间，n为惩罚因子，a_d为电池放电动作，a_c为电池充电动作，SoC_min、SoC_max分别为SoC的最小值和最大值；

定义状态-动作Q值函数Q_h(s,a)为：

其中，h表示某一充放电策略；E_h为所有充放电策略的期望；T为全部调度时间段；γ^t为折扣因子，根据未来奖励在学习中的重要性而设定；s为某一状态；a为某一动作；

状态-动作Q值函数选择的最优策略h^*(a|s)为基于最大Q值的策略，即：

其中，Q^*(s,a)为状态-动作Q值函数的最优值；

所述奖励函数需要满足约束条件和最大运行收入的要求。

在上述实施例的基础上，优选的，所述约束条件包括：

电池容量约束，满足：

其中，

为电池容量，

为电池容量最大值，

为电池容量最小值；

电池充放电速率约束；

电池充放电状态约束，即a_ca_d＝0。

在上述实施例的基础上，优选的，还包括：

评估步骤，利用电池利用率V和年度运营收益I对微电网储能调度的电池运行策略的性能进行评估，其中：

其中，

表示微电网当前小时内向主电网卖电的电量，

表示微电网当前小时内从主电网买电的电量。

一种基于深度Q值网络强化学习的微电网储能调度装置，包括：

建立模块，用于建立微电网模型；

训练模块，用于根据微电网模型，利用深度Q值网络强化学习算法进行人工智能训练；

计算模块，用于根据录入的参数特征值，计算得到微电网储能调度的电池运行策略。

相比现有技术，本发明的有益效果在于：

本发明公开了基于深度Q值网络强化学习的微电网储能调度方法及装置，利用深度Q值网络对微电网能量进行调度管理，智能体通过与环境交互，决策出最优储能调度策略，在不断变化的环境中控制电池的运行模式，基于微电网动态决定储能管理的特征，使微电网在和主电网交互中获得最大的运行收益。本发明使用确定性模拟器描述部分环境去生成尽可能多的数据，再利用Q-Learning强化学习算法实现微电网最优储能调度策略，将卷积神经网络与传统的深度学习中Q值学习算法相结合，通过深度强化学习算法设计了一种智能体，再通过对微电网储能调度进行管理，使微电网在和主电网的交互中获得最大的运行收益；通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值，分解这两部分会让学习目标更加稳定、更精确，让深度Q值网络对环境状态的估计能力更强。优选的，本发明还可以通过使用双重DQN网络对目标DQN方法进行改进，双重DQN网络将动作的选择和动作的评估分别用不同的值函数来实现，从而解决了目标DQN网络值函数的过估计问题。优选的，本发明还可以对算法性能进行评估，主要依据是高负荷需求时，增加电池的利用率(或者说减少从外电网购买电能)的性能指标，以及光伏发电量较高时，增加光伏面板发电的利用率的性能指标。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1示出了本发明实施例提供的一种基于深度Q值网络强化学习的微电网储能调度方法的流程示意图；

图2示出了本发明实施例提供的一种基于深度Q值网络的微电网结构图；

图3示出了本发明实施例提供的一种基于深度Q值网络的智能体的控制策略轨迹(S1)；

图4示出了本发明实施例提供的一种基于深度Q值网络的智能体的控制策略轨迹(S2)；

图5示出了本发明实施例提供的一种基于深度Q值网络的智能体的控制策略轨迹(S3)；

图6示出了本发明实施例提供的一种基于深度Q值网络强化学习的微电网储能调度装置的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

具体实施例一

如图1所示，本发明实施例提供了一种基于深度Q值网络强化学习的微电网储能调度方法，包括：

建立步骤S101，建立微电网模型；

训练步骤S102，根据微电网模型，利用深度Q值网络强化学习算法进行人工智能训练；

计算步骤S103，根据录入的参数特征值，计算得到微电网储能调度的电池运行策略。

如图2所示，优选的，所述微电网模型可以设置有顺序连接的电池组储能系统、光伏发电系统、电力负荷和控制装置，且电力负荷和控制装置通过公共连接点接入配电网。微电网的电价信息可以通过相连的主电网电价来确定，微电网住宅用户通过自身光伏发电或者向主电网购买电能来满足负荷需求，富余的能量通过电池储存起来，或者卖给主电网。微电网既可以与主电网并网运行，也可以离网运行。相对于配电网，微电网表现为可控单元，可同时满足用户对电能质量和供电安全方面的需求。

深度Q值网络是将深度卷积神经网络与传统强化学习中Q值学习算法相结合所提出。在有限马尔科夫决策过程中，Q值网络被证明最终可以找到最优的策略。Q值网络的目标是求解Q值函数，即根据当前环境状态，估算动作的期望价值。优选的，深度Q值网络的训练模型可以以(状态、行为、奖励、下一个状态)构成的元组(s_t,a_t,r_t+1,s_t+1)为样本进行训练，其中s_t为当前状态，a_t为当前状态下执行的动作，r_t+1(a_t)为在执行动作后获得的即时奖励，s_t+1为下一个状态，t为时刻；Q值网络的学习目标是r_t+1+γ·max_aQ(s_t+1,a)，这个目标状态-动作Q值函数是当前动作获得的奖励加上下一步获得的最大期望价值。下一步获得的最大期望价值通过乘以折扣因子γ来评估未来奖励对当前状态的影响。折扣因子γ根据未来奖励在学习中的重要性而设定，一般γ∈[0,1]。因此Q值网络的迭代过程表示为：

所述训练步骤，可以具体为：

在深度Q值网络中引入卷积神经网络；卷积神经网络利用可提取空间结构信息的卷积层抽取特征，卷积层可以提取微电网中的重要数据特征并传给后面的层做分类；另外，因为深度学习需要大量的样本，但是传统Q值函数在线更新样本的方法不适合DQN，所以需要增大样本量，进行多次样本迭代训练；因此，本发明实施例使用经验回放技术，通过存储智能体的经验，在每次训练时随机抽取一部分样本供给网络学习；这种技术可以打破数据之间的关联性，使得神经网络的训练收敛且稳定；Q值网络反复地利用过往的样本进行学习，创建一个用来存储经验的缓存器,缓存器的里面可以存储一定量比较新的样本；当容量溢出后，缓存器用新样本替换旧样本，这保证了大部分样本有相近的概率被抽到；每次需要训练样本时，智能体从缓存器中随机抽取一定量的样本进行训练，从而保持了对样本较高的利用率，最终让模型学习到比较新的样本；卷积神经网络是一种前馈神经网络，它由卷积层和下采样层以及全连接层)交替层叠而成，卷积层采用权重共享的方式，使得网络的参数减少，降低训练复杂度，另外，由于下采样层采用最大值或均值下采样的方式，因此数据维度降低，并且通过卷积和下采样学习到的特征具有平移、旋转不变性的特点，在前向计算中，数据信息从输入层经过几层卷积层和下采样层的变换后提取特征，被传送到全连接层，最终输出层得到网络的输出，向后传播阶段，卷积神经网络采用误差反向传播算法，将输出误差反向传递到每一层，同时利用梯度下降法对每层的参数求导优化，卷积神经网络结构非常适合处理大型数据，故本发明实施例采用了卷积神经网络；

设置深度Q值网络来计算目标Q值；本发明实施例独立设置了DQN网络来计算目标Q值；本发明实施例使用了两个DQN网络，一个用于制造学习目标，一个用于进行实际训练，这样可以使Q函数训练的目标保持平稳；由于Q值网络每次的学习目标都是变化的，如果更新很频繁、幅度很大，训练过程会非常不稳定，因此让目标DQN进行缓慢的学习，从而Q值网络输出的目标值的波动比较小，减少对训练过程的影响；本发明实施例通过使用双重DQN网络对目标DQN方法进行改进，双重DQN网络将动作的选择和动作的评估分别用不同的值函数来实现，从而解决了目标DQN网络值函数的过估计问题，至此本发明实施例将学习目标改写为：

Target＝r_t+1+γ·Q_target(s_t+1,argmax_a(Q_main(s_t+1,a)))；

使用竞争Q值网络模型将目标状态-动作Q值函数Q(s_t,a_t)拆分成V(s_t)和A(a_t)，即Q(s_t,a_t)＝V(s_t)+A(a_t)；其中，V(s_t)为静态的环境状态本身的评估价值，A(a_t)为动作带来的额外价值A(a_t)；竞争Q值网络模型的目标就是让网络可以分别计算环境本身的评估价值和动作带来的额外价值，分解这两部分会让学习目标更加稳定、更精确，让DQN对环境状态的估计能力更强。

从电网运行信息和环境信息入手，本发明实施例分析了微电网储能调度策略需对微电网不同运行方式都有良好的适用性。选取有效的特征，能够提升算法效率，对于算法性能有重要影响。从微电网结构和储能方式角度考虑，微电网运行特征可选择为与微电网运行直接相关的物理量，比如光伏发电量，负荷消耗量，电池荷电水平，未来时间的光伏和负荷预测量等物理量，从而提升算法效率，提高算法性能。

优选的，以(s₁,s₂,…,s_t,s_t+1,…)为状态空间S，则S＝S_B×S_pv,load×S_T，其中，S_B为可控的电池部分，S_pv,load为不可控的光伏和负荷部分，S_T为日期和时间序列；

可控电池部分S_B反映了电池的荷电状态水平，受控制策略动作的影响，即：

s_B＝{SoC}，其中，

不可控部分S_PV,load包含光伏发电和负荷消耗两部分，受天气和用户的影响，不受控制策略动作的影响，可以通过对外部因素的确定性预测得到，即：

优选的，每个时间步长上，强化学习智能体所采取的离散化动作空间A可以为(电池充电动作，电池放电动作，电池保持闲置)；将动作空间划分成3个数值，即a∈[0,1,2]，其中a＝0表示电池充电动作，a＝2表示电池保持闲置，a＝1表示电池放电动作。在实际的仿真结果中，本发明实施例将电池充放电的数值以实际的充放电量表示，使仿真结果更加直观。

奖励函数可立即得到动作和环境的优劣评估值，是一种即时奖励函数。在奖励评估过程中，本发明实施例同时考虑了动作产生的奖励和环境本身的奖励，提出一种竞争方法将奖励函数分为两部分，一部分为环境本身的评估价值，另一部分为动作带来的额外价值。基于环境状态集中动作空间的分布，电池在任何时间t时只会采取一个动作，充电和放电不会同时发生。在电池soc约束以及目标函数最优条件下，奖励函数可从以下两个方面设定。优选的，深度Q值网络的训练模型的奖励函数r_t(a_t)可以为：

其中，k_d为电池放电系数，k_c为电池充电系数，

为电池放电功率，

即时奖励模型针对的是一个时间点信息做出的评价，无法说明整体策略的好坏，因此需要定义状态-动作值函数表征策略对于状态的长期效果，定义状态-动作Q值函数Q_h(s,a)为：

状态-动作Q值函数是强化学习智能体的学习目标，选择的最优策略h^*(a|s)为基于最大Q值的策略，即：

其中，Q^*(s,a)为状态-动作Q值函数的最优值；

所述奖励函数需要满足约束条件和最大运行收入的要求。

优选的，所述约束条件可以包括：

电池容量约束，满足：

其中，

为电池容量，

为电池容量最大值，

为电池容量最小值；电池容量存在一定物理限制，电池一般用荷电状态SoC反映电量比例，SoC状态应保持在某一范围内并结合具体的能量优化控制要求进行调整，同时兼顾电池的寿命状态因素进行优化运行控制，延长使用寿命；

电池充放电速率约束；基于对电池使用寿命和经济性方面考虑，电池的充放电效率不能太大，也不能太小，可以采用固定的充放电速率1.2kW；

电池充放电状态约束，电池的充放电不能同时进行，a_c,ad分别表示充放电动作，用0和1表示，即a_ca_d＝0。

优选的，本发明实施例还可以包括：

其中，

表示微电网当前小时内向主电网卖电的电量，

表示微电网当前小时内从主电网买电的电量。这样做的好处是，对算法性能进行评估，主要依据是高负荷需求时，增加电池的利用率(或者说减少从外电网购买电能)的性能指标，以及光伏发电量较高时，增加光伏面板发电的利用率的性能指标。

本发明实施例利用深度Q值网络对微电网能量进行调度管理，智能体通过与环境交互，决策出最优储能调度策略，在不断变化的环境中控制电池的运行模式，基于微电网动态决定储能管理的特征，使微电网在和主电网交互中获得最大的运行收益。本发明实施例使用确定性模拟器描述部分环境去生成尽可能多的数据，再利用Q-Learning强化学习算法实现微电网最优储能调度策略，将卷积神经网络与传统的深度学习中Q值学习算法相结合，通过深度强化学习算法设计了一种智能体，再通过对微电网储能调度进行管理，使微电网在和主电网的交互中获得最大的运行收益；通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值，分解这两部分会让学习目标更加稳定、更精确，让深度Q值网络对环境状态的估计能力更强。

本发明实施例的一个应用场景可以是：

微电网是住宅用户微电网，电池储能容量大小为15kWh，电池效率η＝90％，电池的荷电状态水平限值分别为SoC_max＝90％,SoC_min＝10％，电池的充放电速率设为1.2kW/h。对于负荷和光伏发电简况，采用LINEAR工程中的数据，采集数据的时间周期为1小时。根据实际输入数据序列维度和数据量，本发明实施例采用两层卷积神经网络进行光伏发电和负荷消费数据的特征提取，每个卷积层神经单元包含了2层神经网络。卷积神神经网络层的输出和其他的输入(比如电池荷电水平Soc,光伏和负荷预测量等)作为两层全连接层的输入，第一层全连接层包含50个神经单元，第二层全连接层包含20个神经单元，最后输出层采用激活函数relu函数输出离散化动作对应的Q值。另外，强化学习算法中学习率初始值设为0.0005，折扣因子初始值设为0.9，贪婪策略概率ε初始值设为1。智能体通过增加折扣因子，减小学习率，获得更好的学习表现。

从微电网实际运行方面考虑，目前国内对于用电电价采取分时电价的模式。以上海市为例，峰时段(6-22时)商业用电电价为1.2元，谷时段(22时-次日6时)商业用电电价为0.35元。另外，微电网的上网电价采用补贴后的固定电价0.85元。

本发明实施例提出的算法主要目标有两个：高负荷需求时，增加电池的利用率(或者说减少从外电网购买电能)。光伏发电量较高时，增加光伏面板发电的利用率。

因此用以下2个参数来评估本发明实施例提出算法的性能表现：

(1)电池利用率V：

(2)年度运营收益：

其中，P^grid＝load-P^pv+P^B,P^grid＞0，说明需要从主电网买电，P^grid＜0说明微电网向主网卖电。

在每个场景下，本发明实施例实验使用不同的种子发生器运行5次取平均值，每个场景下迭代200次，每次迭代经过365*24步实验，时间序列的周期为1。

分时电价下，场景一中智能体的观测量只有光伏发电量和负荷消耗量以及电池荷电水平，其他动态变量不考虑。以场景一为基准，场景二中智能体的观测量添加了未来24小时和48小时的光伏预测量和负荷预测量，电池利用率提高了13％，微电网年收益和总奖励都有所增加；和场景二相比，场景三中智能体的观测量多加了日期和小时的时间周期序列，电池利用率进一步增大，微电网收益和总奖励进一步增大，同时惩罚变小；该组实验对比表明，向智能体的输入添加有用的信息能够改善策略。随着智能体观测的信息量增多，策略变得更好，智能体能够控制电池更合理有效的采取充/放电的动作，从而实现最大的运营收入。

基于深度Q值网络的微电网储能调度方法的仿真模型的具体步骤：

S1：由于前一天数据对后一天的影响较大，本发明实施例选择h^c＝24h,h^p＝24h，hc为负荷调度时间段，hp为光伏发电量时间段，作为神经网络输入时间序列的长度(c_t代表t时刻的负荷消耗量，

代表t时刻的光伏发电量)，智能体的观测量有3个，如图3所示：

s_t为t时刻的状态；电池电量代表电池荷电水平；动作值代表控制策略的充/放电动作；主网电量代表微电网与主电网网交易的电能，主网电量大于0代表从主电网买电，主网电量小于0代表向主电网卖电；负荷量代表负荷的消耗量；光伏发电量代表光伏发电输出量。

S2：在S1的基础上，S2外部变量中添加未来24小时和48小时的光伏预测量和负荷消耗量。智能体的观测量有5个，如图4所示：

p₂₄为未来24小时的光伏预测量，p48为未来48小时的光伏预测量；c₂₄为未来24小时的负荷消耗量，c₄₈为未来48小时的负荷消耗量。

S3：在S2的基础上，S3添加了日期

和小时

的时间序列周期信息。智能体的观测量有6个，如图5所示：

在上述的具体实施例一中，提供了基于深度Q值网络强化学习的微电网储能调度方法，与之相对应的，本申请还提供基于深度Q值网络强化学习的微电网储能调度装置。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

具体实施例二

如图6所示，本发明实施例提供了一种基于深度Q值网络强化学习的微电网储能调度装置，包括：

建立模块201，用于建立微电网模型；

训练模块202，用于根据微电网模型，利用深度Q值网络强化学习算法进行人工智能训练；

计算模块203，用于根据录入的参数特征值，计算得到微电网储能调度的电池运行策略。

本发明从使用目的上，效能上，进步及新颖性等观点进行阐述，其具有的实用进步性，己符合专利法所强调的功能增进及使用要件，本发明以上的说明及附图，仅为本发明的较佳实施例而己，并非以此局限本发明，因此，凡一切与本发明构造，装置，待征等近似、雷同的，即凡依本发明专利申请范围所作的等同替换或修饰等，皆应属本发明的专利申请保护的范围之内。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。尽管本发明已进行了一定程度的描述，明显地，在不脱离本发明的精神和范围的条件下，可进行各个条件的适当变化。可以理解，本发明不限于所述实施方案，而归于权利要求的范围，其包括所述每个因素的等同替换。对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于深度Q值网络强化学习的微电网储能调度方法，其特征在于，包括：

建立步骤，建立微电网模型；

计算步骤，根据录入的参数特征值，计算得到微电网储能调度的电池运行策略，所述微电网模型设置有顺序连接的电池组储能系统、光伏发电系统、电力负荷和控制装置，且电力负荷和控制装置通过公共连接点接入配电网，所述深度Q值网络的训练模型以元组(s_t,a_t,r_t+1(a_t),s_t+1)为样本进行训练，其中s_t为当前状态，a_t为当前状态下执行的动作，r_t+1(a_t)为在执行动作后获得的即时奖励，s_t+1为下一个状态，t为时刻；

所述训练步骤，具体为：

在深度Q值网络中引入卷积神经网络；

设置深度Q值网络来计算目标Q值；