CN114971250B

CN114971250B - 基于深度q学习的综合能源经济调度系统

Info

Publication number: CN114971250B
Application number: CN202210539986.4A
Authority: CN
Inventors: 陈刚; 杨卓锐
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2024-05-07
Anticipated expiration: 2042-05-17
Also published as: CN114971250A

Abstract

本发明涉及基于深度Q学习的综合能源经济调度系统，属于图像处理技术领域。该系统包括主电网、风力发电单元、天然气发电单元、储能设备以及服务器负载；所述主电网、风力发电单元、天然气发电单元和储能设备均通过电力母线与服务器负载连接；所述经济调度系统中，由主电网、风力发电单元、天然气发电单元和储能设备协调满足恒温控制负载的需求，对经济调度问题进行优化控制；对综合能源系统经济调度与控制问题展开研究，基于数据驱动的思想，利用强化学习中无模型的训练方法有效解决系统的耦合性和非线性问题。

Description

基于深度Q学习的综合能源经济调度系统

技术领域

本发明属于图像处理技术领域，涉及基于深度Q学习的综合能源经济调度系统。

背景技术

为了求解微电网的经济调度问题，研究者们已经提出了许多经过考验的方法，例如：动态规划法、拉格朗日乘子法、参数迭代法。这些方法主要都是用来解决传统的以凸函数形式为发电成本函数的问题。对于一些非凸的经济调度问题，例如考虑阀点效应的火力发电单元的经济成本问题，带有正弦函数的干扰，无法视为凸函数，研究者们则提出了一些其他的解法，粒子算法、遗传算法等算法开始被利用在经济调度问题之中。当发电单元开始以多智能体的形式出现之后，由于集中式调度的一些无法回避的缺陷，例如：系统的鲁棒性较差，中央控制器的安全性问题抑或是对单个中心控制器的计算量负荷太大。

发明内容

有鉴于此，本发明的目的在于提供基于深度Q学习的综合能源经济调度系统。

为达到上述目的，本发明提供如下技术方案：

基于深度Q学习的综合能源经济调度系统，该系统包括主电网、风力发电单元、天然气发电单元、储能设备以及服务器负载；

所述主电网、风力发电单元、天然气发电单元和储能设备均通过电力母线与服务器负载连接；

所述经济调度系统中，由主电网、风力发电单元、天然气发电单元和储能设备协调满足恒温控制负载的需求，对经济调度问题进行优化控制；

所述经济调度问题是在维持系统正常运行的情况下使成本函数最小化，成本函数的设置包括：风力发电单元发电的发电成本、天然气发电的发电成本、与电网交互的的成本以及蓄电池充放电的损耗成本，分别设置为C_WG，C_FG，C_Buy，C_Bat；

所述优化控制为优化四种成本之和，令其最小，实现最优的经济调度；

风力发电单元的发电成本函数模型为：

C_WG(t)＝a_wP² _WG(t)+b_wP_WG(t)+c_w

C_WG(t)为在t时刻风力发电单元发电的经济成本，P_WG(t)为其实时发电功率，a_w，b_w，c_w分别为其发电成本函数的成本系数；

对风力发电单元的发电功率做出如下约束：

P_WG,min≤P_WG(t)≤P_WG,max

P_WG,min为风力发电单元的最低发电功率，P_WG,max为风力发电单元的最高发电功率；

储能装置在接入能源网中时，进行能量交换，产生充放电的成本，其充放电的折旧成本函数为下式：

上式中的P_b(t)为超级电容在t时刻的充放电功率，充电时表示储能装置正在向内输入电能，令其为负；相应的，放电时P_b(t)则为正，这是由其内部的电流i_bat的流向所决定的；η_bat则是储能的折旧成本系数，代表了其衰减，损耗等。

储能装置在系统工作时，遵循对其充放电速度的约束，设置以下充放电功率约束：

P_b,min≤|P_b(t)|≤P_b,max

上式中，P_b,max与P_b,min分别代表充放电功率的最大值和最小值，P_bat(t)则是前式中所定义的储能装置在t时刻的充放电功率。

除充放电功率约束之外，储能装置的剩余能量RE必须被限制在一定的范围之内，即储能系统的容量约束：

RE_bat,min≤RE(t)≤RE_bat,max

RE_bat,max与RE_bat,min分别为储能装置容量允许的最大值和最小值，RE(t)为t时刻储能装置的剩余能量；

t时刻储能装置的剩余能量RE(t)如下表示：

RE(t)＝RE(t-1)-P_b(t)

RE(t-1)为t-1时刻，储能装置的剩余能量；

天然气发电t时刻发电的成本函数定义为如下的形式：

C_FG＝μ_FGP_FG(t)

μ_FG为t时刻的单位天然气价格；

在考虑碳排放的情况下计算出碳排放的总量，设定碳排放的容许排放量为N_free，利用无偿分配的方式为其配给允许的碳排放量，也即其产生的电能越多，容许排放的碳容量就越大，对固定的N_free，在t时刻，有碳排放量如下：

N(t)＝η_carbenP_FG(t)

N(t)为天然气发电单元在t时刻的碳排放量，P_FG(t)为t时刻天然气发电的功率，η_carben代表从天然气发电功率换算到碳排放功率的过程，考虑最低的容许碳排放量N_free，在t时刻，碳排放功率小于或等于N_free，都无须为碳排放量做出额外的经济补偿，故t时刻的天然气发电单元的成本函数设置如下式：

p_e为每单位容许额度外碳排放量的价格；

设定天然气发电单元的发电功率的上下限约束为：

P_FG,min≤P_FG(t)≤P_FG,max

P_FG,min为天然气发电单元的最低发电功率，P_FG,max为天然气发电单元的最高发电功率；

考虑发电及其的功率爬坡约束，即相邻的两调度时刻之间的功率差约束；如下：

P_FG,Rmin≤P_FG(t)-P_FG(t-1)≤P_FG,Rmax

P_FG,Rmin为天然气发电单元的爬坡约束功率上限，P_FG,Rmax为天然气发电单元的爬坡约束功率下限，P_FG(t)与P_FG(t-1)分别为t时刻与t-1时刻天然气发电的功率值；

微电网与主电网交互的成本函数如下：

P_grid(t)代表的是t时刻微电网与主电网电能交换的功率，为正时代表向主电网购电，为负时代表向主电网售电，L_buy(t)与L_sell(t)则分别代表在t时刻向主电网购电与向主电网售电的电能价格；同时为维持主电网供需侧的稳定运行，微电网与主电网的功率交互有着如下的约束要求：

P^min _grid≤P_grid(t)≤P^max _grid

P^min _grid(t)与P^max _grid(t)分别为微电网与主电网之间的电能交换功率的最小值和最大值，以维持整个电网的稳定运行；

负载的功率模型由如下的式子得到：

P^i,t _load＝P_loads_i ^t

P^i,t _load为第i个恒温控制负载在t时刻的实时功率，s_i ^t为定义的功率给予控制信号，P_load为恒温控制负载的标准工作功率；

控制信号的规律表达式为：

在式中，i∈Z为第i个温度负载的标号，Tem_t ⁱ表示第i个负载在t时刻的实时温度，而Tem_max与Tem_min则是代表温度负载的最高与最低温度，在此对温度负载做一个上下限的约束。s_i ^t则是在控制器根据温度判断动作后最后的控制决策，以此来决定是给予功率，停止给予功率还是保持当前状态。

在每个时刻，都必须让电网供需两侧的功率被保持在平衡的状态，功率平衡约束如下式：

P_grid(t)+P_FG(t)+P_WG(t)+P_Bat(t)＝P_load(t)

结合等式约束与不等式约束，得到综合能源系统的总体调度目标，如下式：

P_grid(t)+P_FG(t)+P_WG(t)+P_b(t)＝P_load(t),

P_WG,min≤P_WG(t)≤P_WG,max,

P_FG,min≤P_FG(t)≤P_FG,max,

s.t.P_FG,Rmin≤P_FG(t)-P_FG(t-1)≤P_FG,Rmax,

P^min _grid≤P_grid(t)≤P^max _grid,

P_b,min≤|P_b(t)|≤P_b,max,

RE_bat,min≤RE(t)≤RE_bat,max

调度目标包含一个等式约束和七个不等式约束，分别用于保证综合能源系统的供需侧功率平衡以及各个发电单元内部的安全与稳定。

可选的，所述经济调度系统包括：

第一部分：基于优先排序的深度Q学习框架；

深度Q学习利用CNN卷积神经网络，并同时建立存在两个CNN的双网络结构，分别设定为主网络和目标网络；在深度Q学习中，主网络和目标网络的动作值函数的Q值是同步更新的，但其神经网络的参数并不是同步更新的，DQN算法中使用的神经网络为卷积神经网络，其核心是一个Loss Function，以拟合的参数θ作为变量，定义为L(θ)，而在DQN算法中对网络参数的更新实质上也就是对参数θ在做更新；

将参数θ的更新方式设置为SGD，也就是随机梯度下降法，利用L(θ)不断地对θ求偏导数的方法，令其梯度值下降，最终收敛到一个趋近于0的范围，确定整个网络已经收敛到一个最优的Q值；

L(θ)的定义为：

L(θ)＝E[(TargetQ-Q(s,a；θ))²]

深度Q学习算法利用经验回访池来储存训练过的经验样本，然后给目标网络使用，来更新目标网络的值函数，再进行损失函数的梯度下降计算；使用基于贝尔曼误差的排序方式来对经验池中的经验进行排序；

贝尔曼误差的定义为：

δ_j(s)＝E[r(s_t,a_t)+γQ_t(s_t+1,a_t+1,r_t+1)-Q(s_t,a_t,r_t)]

贝尔曼误差理解为在这步训练中，时序差分误差的期望值；利用贝尔曼误差来更新经验的优先采样等级，让对模型训练效果较好的经验被多次采集，以提高经验样本的使用率与有效率；

在此定义经验样本i的选取优先度为：

定义对经验样本i采样概率为：

利用重要性采样的原则对过拟合问题做出处理：

定义权重：

式中，w_i为重要性采样的权重值，V(i)为第i个样本经验的采样概率，V_min为经验池中的最低被采样概率，μ为被校正系数；

此时的卷积神经网络网络的损失函数被定义为：

L(θ)＝∑w(i)E[r(s_t,a_t)+γQ_t(s_t+1,a_t+1,r_t+1|θ)-Q(s_t,a_t,r_t)|θ]

第二部分：一种基于改进的ε-贪心算法的决策方式；

以如下式子更新贪心算法的探索率ε：

定义迭代步数k，在迭代步数k＝T，首先计算出从k＝1到k＝T时刻间的平均累积奖励

r_K为迭代次数为k时的全局累积奖励，考虑在步数k＝T的累积奖励，令其对时间的增长度为那么在第k＝T-1步，其增长度为作差，并令令r₀＝0，ε_k+1＝(1+Δ)/(k+1)，即

利用从迭代开始到正在迭代的此代对时间的平均累计奖励与这一代的累积奖励之和，以作为其探索利用效率的评估，来决定其变化的速度，1/(k+1)为其降速基线，决定ε降低的基本速度；

在更新ε的同时，采用α_k＝1/k的方式更新学习率，以同步改进的ε-贪心算法的探索效率，在前期尽可能的多学习未来的知识，加快探索效率，在训练的后期尽量倾向于利用已有的最佳奖励，而非利用下一步的最大Q值进行更新；

有以下训练步骤：

1)初始化状态

初始化时利用数据集中的数据直接进行对各状态量进行赋值s_t：{买电价格L_buy(t)、卖电价格L_sell(t)、风力发电功率P_WG(t)、负载功率P_load(t)、储能装置剩余电量RE(t)}；若无数据集，进行在线优化，则随意进行赋值，经过足够的训练，算法终将归于收敛；

初始化设定神经网络的参数，设定好迭代步数；

2)选择动作并获取奖励

对每一个调度时刻，利用改进的ε-贪心算法进行动作a_t的选取；计算当前状态下执行a_t，各发电单元的经济成本，得到本步的总成本，得本步的奖励r_t以及下一个时刻的状态s_t+1，将训练经验样本{s_t,a_t,r_t,s_t+1}存入经验回放池中；

3)更新值函数与网络参数

从经验回放池中采样一个最小批次的数据{s_i,a_i,r_i,s_i+1}，以

来对值函数进行更新，以L(θ)＝∑w(i)E[y_i-Q(s_i,a_i)|θ]更新损失函数，进行梯度下降；每隔固定步数更新网络参数；

4)根据改进的ε-贪心算法平衡探索与局部最优

根据公式计算累积平均奖励，更新探索率ε的值，同时按迭代次数更新学习率α，更新迭代次数，判断是否结束训练；

5)重复。

本发明的有益效果在于：对综合能源系统经济调度与控制问题展开研究，基于数据驱动的思想，利用强化学习中无模型的训练方法有效解决系统的耦合性和非线性问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明系统图；

图2为深度Q学习的网络结构；

图3为基于优先采样的深度Q学习架构；

图4为采用基于优先排序的深度Q网络来训练的综合能源系统架构；

图5为综合能源调度算法的流程框图；

图6为深度Q学习神经网络的设置。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

一、基于深度Q学习的综合能源经济调度系统，组成图如图1所示。

设置一个综合能源的系统：

考虑一个存在天然气发电单元，风力发电单元，主电网，储能设备同时存在并供应负载的综合能源微电网系统，由四种发电模块协调出力满足恒温控制负载的需求，在考虑天然气发电会产生碳排放，有额外的经济成本的情况下，对调度问题进行最优化控制。

经济调度问题的核心目标是在维持系统正常运行的情况下使成本函数最小化，在本文中，成本函数的设置考虑四种，分别是风力发电单元发电的发电成本，天然气发电的发电成本，与电网交互的的成本以及蓄电池充放电的损耗成本，分别设置为C_WG，C_FG，C_Buy，C_Bat。本章的控制目标即为优化这四种成本之和，令其最小，也即实现最优的经济调度。

下面分别介绍四个发电模块的成本函数与负载功率的数学模型。

二、四个发电模块的成本函数与负载功率的数学模型

风力发电单元的发电成本函数模型为

C_WG(t)＝a_wP² _WG(t)+b_wP_WG(t)+c_w

上式中，C_WG(t)为在t时刻风力发电单元发电的经济成本，P_WG(t)为其实时发电功率，a_w，b_w，c_w分别为其发电成本函数的成本系数。

同时，对风力发电单元的发电功率做出如下约束：

P_WG,min≤P_WG(t)≤P_WG,max

上式中，P_WG,min为风力发电单元的最低发电功率，P_WG,max为风力发电单元的最高发电功率。

储能装置在接入能源网中时，只要进行能量交换，便会产生充放电的成本，其充放电的折旧成本函数为下式：

上式中的P_b(t)为超级电容在t时刻的充放电功率，充电时表示储能装置正在向内输入电能，令其为负；相应的，放电时P_bat(t)则为正，这是由其内部的电流i_bat的流向所决定的；η_bat则是储能的折旧成本系数，代表了其衰减，损耗等。

储能装置在系统工作时也必须遵循一些约束，首先是对其充放电速度的约束，考虑到储能系统本身的特性，太快或太慢的充放电功率都会对系统或是储能系统带来负面影响，比如冗余，故设置以下充放电功率约束：

P_b,min≤|P_b(t)|≤P_b,max

除充放电功率约束之外，还需要考虑到过充或者过放对储能系统带来的负面影响，所以储能装置的剩余能量RE必须被限制在一定的范围之内，也即储能系统的容量约束：

RE_bat,min≤RE(t)≤RE_bat,max

上式中，RE_bat,max与RE_bat,min分别为储能装置容量允许的最大值和最小值，SOC(t)为t时刻储能装置的剩余能量。

进一步的，t时刻储能装置的剩余能量RE(t)可以如下表示：

RE(t)＝RE(t-1)-P_b(t)

上式中，RE(t-1)为t-1时刻，储能装置的剩余能量。

天然气发电t时刻发电的成本函数可以定义为如下的形式：

C_FG＝μ_FGP_FG(t)

上式中μ_FG为t时刻的单位天然气价格。

在考虑碳排放的情况下需要计算出碳排放的总量，故设定碳排放的容许排放量为N_free，利用无偿分配的方式为其配给允许的碳排放量，也即其产生的电能越多，容许排放的碳容量就越大，对固定的N_free，在t时刻，有碳排放量如下：

N(t)＝η_carbenP_FG(t)

上式中，N(t)为天然气发电单元在t时刻的碳排放量，P_FG(t)为t时刻天然气发电的功率，η_carben代表了从天然气发电功率换算到碳排放功率的过程，因本文使用的天然气发电模型为热电联供机组，在产生电能的同时也会产生热能，故有一定的折扣，再由于环境与系统本身的原因产生一部分损耗，即可换算出电能，再转换为碳排放的功率，考虑一个最低的容许碳排放量N_free，即只要在t时刻，碳排放功率小于或等于N_free，都无须为碳排放量做出额外的经济补偿，故t时刻的天然气发电单元的成本函数可设置如下式：

上式中，p_e为每单位容许额度外碳排放量的价格。

同时，设定天然气发电单元的发电功率的上下限约束为

P_FG,min≤P_FG(t)≤P_FG,max

上式中，P_FG,min为天然气发电单元的最低发电功率，P_FG,max为天然气发电单元的最高发电功率。

由于不可再生能源的发电单元多以发电机的形式存在，故还需考虑发电及其的功率爬坡约束，即相邻的两调度时刻之间的功率差约束。如下：

P_FG,Rmin≤P_FG(t)-P_FG(t-1)≤P_FG,Rmax

上式中，P_FG,Rmin为天然气发电单元的爬坡约束功率上限，P_FG,Rmax为天然气发电单元的爬坡约束功率下限，P_FG(t)与P_FG(t-1)分别为t时刻与t-1时刻天然气发电的功率值。

微电网与主电网交互的成本函数如下：

上式中，P_grid(t)代表的是t时刻微电网与主电网电能交换的功率，为正时代表向主电网购电，为负时代表向主电网售电，L_buy(t)与L_sell(t)则分别代表在t时刻向主电网购电与向主电网售电的电能价格。同时为了维持主电网供需侧的稳定运行，微电网与主电网的功率交互有着如下的约束要求；

P^min _grid≤P_grid(t)≤P^max _grid

P^min _grid(t)与P^max _grid(t)分别为微电网与主电网之间的电能交换功率的最小值和最大值，以维持整个电网的稳定运行。

负载的功率模型可以由如下的式子得到：

P^i,t _load＝P_loads_i ^t

P^i,t _load为第i个恒温控制负载在t时刻的实时功率，s_i ^t为定义的功率给予控制信号，P_load为恒温控制负载的标准工作功率。

控制信号的规律表达式为：

在式中，i∈Z为第i个温度负载的标号，Tem_t ⁱ表示第i个负载在t时刻的实时温度，而Tem_max与Tem_min则是代表第i个温度负载的最高与最低温度，在此对温度负载做一个上下限的约束。s_i ^t则是在控制器根据温度判断动作后最后的控制决策，以此来决定是给予功率，停止给予功率还是保持当前状态。

考虑综合能源系统经济调度模型由风力发电单元的成本函数、储能设备的成本函数、天然气发电的成本函数、微电网与电网交易的成本函数组成。

在任何能源系统中，能量供需的平衡都必须被保持。在每个时刻，都必须让电网供需两侧的功率被保持在平衡的状态，功率平衡约束如下式；

P_grid(t)+P_FG(t)+P_WG(t)+P_Bat(t)＝P_load(t)

任何时刻此功率平衡约束都必须被严格遵守。

结合上所给出的等式约束与各发电单元的不等式约束，可以得到综合能源系统的总体调度目标，如下式

P_grid(t)+P_FG(t)+P_WG(t)+P_b(t)＝P_load(t),

P_WG,min≤P_WG(t)≤P_WG,max,

P_FG,min≤P_FG(t)≤P_FG,max,

s.t.P_FG,Rmin≤P_FG(t)-P_FG(t-1)≤P_FG,Rmax,

P^min _grid≤P_grid(t)≤P^max _grid,

P_b,min≤|P_b(t)|≤P_b,max,

RE_bat,min≤RE(t)≤RE_bat,max

由上式可以看出，整个综合能源系统的调度目标包含了一个等式约束和七个不等式约束，分别用于保证综合能源系统的供需侧功率平衡以及各个发电单元内部的安全与稳定。

三、系统的运作流程

综合能源系统的经济调度目标一般包含了一个功率等式约束和多个功率不等式约束，分别用于保证综合能源发电系统的供需侧功率平衡以及各个发电单元内部的安全与稳定。传统的带约束的微电网经济调度问题一般只包含一到两个约束条件，可以用传统的拉格朗日算法或ADMM算法等求解，但在复杂的能源系统中，利用传统算法便显得有心无力。考虑到系统输入的不确定性和实际系统自身所带的非线性，基于数据驱动的强化学习中的Q学习算法是一种只关注于输入与输出的离线算法，可以很好的规避传统算法无法解决的复杂能源系统经济调度的问题。因此本发明提出基于强化学习中的Q学习算法来求解经济调度问题。

强化学习中的Q学习算法可以利用以历史数据来更新值函数的离线方式来训练，进而得到最优的动作策略，再利用ε-贪心算法进行动作选择，进行状态的选择。本发明针对综合能源系统的经济调度问题，基于模型训练与动作选择这两个Q学习算法的重要步骤来进行改进，提出了一种基于改进的ε-贪心算法的深度Q学习调度算法。考虑到复杂能源系统内部的数据量较大，利用一种基于优先排序的深度Q学习框架来处理历史数据，提升对历史数据的利用率，削弱过拟合效应，得到最优动作策略；考虑到强化学习中探索与利用的平衡问题，提出一种基于改进的ε-贪心算法的决策方式，能根据平均累积奖励的大小来决定本次迭代中的探索率ε，更好的平衡探索与利用，提升算法的快速性与收敛性。

为达到上述目的，本发明技术方案如下：

第一部分：一种基于优先排序的深度Q学习框架。

深度Q学习利用了CNN卷积神经网络，并同时建立了存在两个CNN的双网络结构，分别设定为主网络和目标网络。在深度Q学习中，主网络和目标网络的动作值函数的Q值是同步更新的，但其神经网络的参数并不是同步更新的，这样做有两种作用：首先，这是一种打乱时间相关性与样本的分布性的行为，可以让随机采样的思想在算法中更加地深入；其次，这样可以提升模型的稳定性，避免出现由于样本问题导致的Q值趋于发散的问题，这是强化学习经典的时序差分思想的另一体现。DQN算法中使用的神经网络为卷积神经网络，其核心是一个Loss Function，以拟合的参数θ作为变量，定义为L(θ)，而在DQN算法中对网络参数的更新实质上也就是对参数θ在做更新。

如图2所示，将参数θ的更新方式设置为SGD，也就是随机梯度下降法，利用L(θ)不断地对θ求偏导数的方法，令其梯度值下降，最终收敛到一个趋近于0的范围，此时即可确定整个网络已经收敛到一个最优的Q值。

L(θ)的定义为：

L(θ)＝E[(TargetQ-Q(s,a；θ))²]

深度Q学习算法利用了一个经验回访池来储存训练过的经验样本，然后给目标网络使用，来更新目标网络的值函数，再进行损失函数的梯度下降计算。这种方法可以在很大程度上降低用于训练的经验样本的时间相关性，但是也会带来一个问题，那就是经验的价值问题。DQN算法默认使用的经验采样机制是随机采样，也就是说那些令模型产生更好的Q值的经验与更差的Q值的经验被选取的概率是一样的，在为了得到一个最优的模型的目标下，这对经验样本来说是不公平的。那么为了解决这个问题，本文提出使用基于贝尔曼误差的排序方式来对经验池中的经验进行排序。

贝尔曼误差的定义为：

δ_j(s)＝E[r(s_t,a_t)+γQ_t(s_t+1,a_t+1,r_t+1)-Q(s_t,a_t,r_t)]

贝尔曼误差可以理解为在这步训练中，时序差分误差的期望值。由于在实际训练中，因为模型原因，可能对某一个经验样本的实际学习效果并不是特别理想，时序差分的方法无法体现的太过明显，但其期望值却不会受到实际模型的影响。故可利用贝尔曼误差来更新经验的优先采样等级，这样就可以让对模型训练效果较好的经验被多次采集，以提高经验样本的使用率与有效率。

在此定义经验样本i的选取优先度为：

定义对经验样本i采样概率为：

由于对于经验样本的定义不同，会影响其优秀与否的评价，坏的经验样本并不是一无是处的，其被定义为坏只是因为对模型的训练效果不理想，但这并不代表坏的经验样本对模型训练没有正面作用。利用坏的经验样本训练有利于提高模型的鲁棒性，而总是训练好的经验则容易导致过拟合的问题。所以考虑到坏的经验样本的作用，利用了一个重要性采样的原则对过拟合问题做出处理：

定义权重：

那么此时的卷积神经网络网络的损失函数被定义为：

L(θ)＝∑w(i)E[r(s_t,a_t)+γQ_t(s_t+1,a_t+1,r_t+1|θ)-Q(s_t,a_t,r_t)|θ]

图3为基于优先采样的深度Q学习架构；

图4为采用基于优先排序的深度Q网络来训练的综合能源系统架构。

第二部分：一种基于改进的ε-贪心算法的决策方式。

ε-贪心算法是强化学习中的一种经典的平衡探索与利用的算法工具，是源于贪心算法的一种衍生，贪心算法让在每步都选择奖励值最大的动作，然后利用贝尔曼方程动态规划去更新单步的最大奖励，直到全局最优。但这个方法存在一个问题，那就是会无法探索系统的完整的状态空间，可能会遗漏一些更好的策略，使得整个策略只能达到次最优，因此ε-贪心算法诞生了，以ε的概率去探索随机的非动态规划求取出的当前步的最优策略的那些随机策略，再以1-ε的概率选择动态规划求取出的当前步的最优策略，以加权的形式去更新当前步的最优策略，可以平衡探索与利用，使得策略达到最优化。

为了快速的找到综合能源系统经济调度的最优策略，本发明提出了一种改进的ε-贪心算法。系统每步都会以ε探索可能的最优策略的贪心动作传统的Q学习中，一般以固定的很小的ε-贪心算法来进行探索，以较高的1-ε去选择更新最大Q值的动作，以很小的ε去寻找可能的全局最优动作。但这样做在算法的运行的早期和晚期并不一定有太好的性能。在刚开始探索时，算法对系统没有进行过探索，故其探索效率应该较高，而到算法迭代运行的最后，对系统状态的探索已经相对非常完善，需要让其更低，来确保选择最优的策略以达到最好的累积奖励。本文根据此需求提出改进的ε-贪心算法，算法步骤刚开始时，算法对系统的状态一无所知，故ε取为1，在探索的过程中，由于已经可以逐渐的得到一些具有优化特性的策略甚至是次最优策略，故ε的值随着迭代次数的增加会慢慢的减小，直至迭代次数够多之后，算法得到了次最优策略或者最优策略，便停止探索，直接输出最优策略下的值函数，完成整个算法的步骤。以如下式子更新贪心算法的探索率ε：

r_K为迭代次数为k时的全局累积奖励，考虑在步数k＝T的累积奖励，令其对时间的增长度为那么在第k＝T-1步，其增长度为作差，并令令r₀＝0，ε_k+1＝(1+Δ)/(k+1)，也即

此更新方法利用从迭代开始到正在迭代的此代对时间的平均累计奖励与这一代的累积奖励之和，因为ε的值应该是逐渐减小的，所以以作为其探索利用效率的评估，来决定其变化的速度，1/(k+1)为其降速基线，决定了ε降低的基本速度。

在更新ε的同时，也采用α_k＝1/k的方式更新学习率，以同步改进的ε-贪心算法的探索效率，在前期尽可能的多学习未来的知识，加快探索效率，在训练的后期尽量倾向于利用已有的最佳奖励，而非利用下一步的最大Q值进行更新。

结合考虑的图1中的综合能源系统模型，利用改进后的算法，结合图3可以有以下训练步骤：

1)初始化状态

初始化时利用数据集中的数据直接进行对各状态量进行赋值s_t：{买电价格L_buy(t)、卖电价格L_sell(t)、风力发电功率P_WG(t)、负载功率P_load(t)、储能装置剩余电量SOC(t)}。(若无数据集，需要进行在线优化，则可以随意进行赋值，因为经过足够的训练，算法终将归于收敛)。

初始化设定神经网络的参数，设定好迭代步数。

2)选择动作并获取奖励

对每一个调度时刻，利用改进的ε-贪心算法进行动作a_t的选取。计算当前状态下执行a_t，各发电单元的经济成本，得到本步的总成本，得本步的奖励r_t以及下一个时刻的状态s_t+1，将训练经验样本{s_t,a_t,r_t,s_t+1}存入经验回放池中。

3)更新值函数与网络参数

从经验回放池中采样一个最小批次的数据{s_i,a_i,r_i,s_i+1}，以

来对值函数进行更新，以L(θ)＝∑w(i)E[y_i-Q(s_i,a_i)|θ]更新损失函数，进行梯度下降。每隔固定步数更新网络参数。

4)根据改进的ε-贪心算法平衡探索与局部最优

根据公式计算累积平均奖励，更新探索率ε的值，同时按迭代次数更新学习率α，更新迭代次数，判断是否结束训练。

5)重复

图5为综合能源调度算法的流程框图；

图6为深度Q学习神经网络的设置。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于深度Q学习的综合能源经济调度系统，其特征在于：该系统包括主电网、风力发电单元、天然气发电单元、储能设备以及服务器负载；

所述经济调度问题是在维持系统正常运行的情况下使成本函数最小化，成本函数的设置包括：风力发电单元发电的发电成本、天然气发电的发电成本、与电网交互的的成本以及蓄电池充放电的损耗成本，分别设置为C_WG，C_FG，C_gird，C_Bat；

风力发电单元的发电成本函数模型为：

C_WG(t)＝a_wP² _WG(t)+b_wP_WG(t)+c_w

对风力发电单元的发电功率做出如下约束：

P_WG,min≤P_WG(t)≤P_WG,max

P_bat(t)为超级电容在t时刻的充放电功率，充电时表示储能装置正在向内输入电能，令其为负；放电时P_bat(t)则为正，由其内部的电流i_bat的流向所决定的；η_bat则是储能的折旧成本系数，代表了其衰减；

P_bat,min≤|P_bat(t)|≤P_bat,max

P_bat,max与P_bat,min分别代表充放电功率的最大值和最小值，P_bat(t)则是前式中所定义的储能装置在t时刻的充放电功率；

除充放电功率约束之外，储能装置的剩余能量RE(t)必须被限制在一定的范围之内，即储能系统的容量约束：

RE_bat,min≤RE(t)≤RE_bat,max

上式中，RE_bat,max与RE_bat,min分别为储能装置容量允许的最大值和最小值，RE(t)为t时刻储能装置的剩余能量；

t时刻储能装置的剩余能量RE(t)如下表示：

RE(t)＝RE(t-1)-P_bat(t)

RE(t-1)为t-1时刻，储能装置的剩余能量；

天然气发电t时刻发电的成本函数定义为如下的形式：

C_FG＝μ_FGP_FG(t)

μ_FG为t时刻的单位天然气价格；

N(t)＝η_carbenP_FG(t)

p_e为每单位容许额度外碳排放量的价格；

设定天然气发电单元的发电功率的上下限约束为：

P_FG,min≤P_FG(t)≤P_FG,max

P_FG,Rmin≤P_FG(t)-P_FG(t-1)≤P_FG,Rmax

微电网与主电网交互的成本函数如下：

P_grid(t)代表的是t时刻微电网与主电网电能交换的功率，L_buy(t)与L_sell(t)则分别代表在t时刻向主电网购电与向主电网售电的电能价格；同时为维持主电网供需侧的稳定运行，微电网与主电网的功率交互有着如下的约束要求：

P^min _grid≤P_grid(t)≤P^max _grid

负载的功率模型由如下的式子得到：

P^i,t _load＝P_loads_i ^t

控制信号的规律表达式为：

i∈Z为第i个温度负载的标号，Tem_t ⁱ表示第i个负载在t时刻的实时温度，而T_max与T_min则是代表温度负载的最高与最低温度，在此对温度负载做一个上下限的约束；s_i ^t则是在控制器根据温度判断动作后最后的控制决策，决定是给予功率，停止给予功率还是保持当前状态；

P_grid(t)+P_FG(t)+P_WG(t)+P_bat(t)＝P_load(t)

P_grid(t)+P_FG(t)+P_WG(t)+P_bat(t)＝P_load(t),

P_WG,min≤P_WG(t)≤P_WG,max,

P_FG,min≤P_FG(t)≤P_FG,max,

s.t.P_FG,Rmin≤P_FG(t)-P_FG(t-1)≤P_FG,Rmax,

P^min _grid≤P_grid(t)≤P^max _grid,

P_bat,min≤|P_bat(t)|≤P_bat,max,

RE_bat,min≤RE(t)≤RE_bat,max

调度目标包含一个等式约束和七个不等式约束，分别用于保证综合能源系统的供需侧功率平衡以及各个发电单元内部的安全与稳定；

所述经济调度系统包括：

第一部分：基于优先排序的深度Q学习框架；

L(θ)的定义为：

L(θ)＝E[(TargetQ-Q(s,a；θ))²]

贝尔曼误差的定义为：

δ_j(s)＝E[r(s_t,a_t)+γQ_t(s_t+1,a_t+1,r_t+1)-Q(s_t,a_t,r_t)]

在此定义经验样本i的选取优先度为：

定义对经验样本i采样概率为：

利用重要性采样的原则对过拟合问题做出处理：

定义权重：

此时的卷积神经网络网络的损失函数被定义为：

L(θ)＝∑w(i)E[r(s_t,a_t)+γQ_t(s_t+1,a_t+1,r_t+1|θ)-Q(s_t,a_t,r_t)|θ]

第二部分：一种基于改进的ε-贪心算法的决策方式；

以如下式子更新贪心算法的探索率ε：

在更新ε的同时，采用α_k＝1/k的方式更新学习率，以同步改进的ε-贪心算法的探索效率，在前期尽可能的多学习未来的知识，加快探索效率，在训练的后期使用已有的最佳奖励；

有以下训练步骤：

1)初始化状态

初始化时利用数据集中的数据直接进行对各状态量进行赋值s_t：{买电价格L_buy(t)、卖电价格L_sell(t)、风力发电功率P_WG(t)、负载功率P_load(t)、储能装置剩余电量SOC(t)}；若无数据集，进行在线优化，则随意进行赋值，经过足够的训练，算法终将归于收敛；

初始化设定神经网络的参数，设定好迭代步数；

2)选择动作并获取奖励

3)更新值函数与网络参数

从经验回放池中采样一个最小批次的数据{s_i,a_i,r_i,s_i+1}，以

4)根据改进的ε-贪心算法平衡探索与局部最优

5)重复。