CN114897266A

CN114897266A - 基于深度强化学习的微电网能源系统的多目标安全优化方法

Info

Publication number: CN114897266A
Application number: CN202210662643.7A
Authority: CN
Inventors: 张慧峰; 强程鹏; 岳东; 窦春霞; 张安华
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-08-12
Anticipated expiration: 2042-06-13
Also published as: CN114897266B

Abstract

本发明是一种基于深度强化学习的微电网能源系统的多目标安全优化方法，包括步骤1：建立多目标优化模型；步骤2：将多目标优化模型分解成一组标量子问题，通过粒子群优化算法基于边界交叉法的替换策略在其子种群中进行优化；步骤3：运用强化学习中深度确定性策略梯度算法对PBI中惩罚因子进行训练，将子问题周围解的浓度定义为状态，将惩罚因子θ值的变化定义为动作，再将状态经不同动作策略下得出的状态和反馈组成经验元组并形成深度强化学习中DDPG算法学习所需的经验池；步骤4：通过强化学习训练出神经网络中的相关权重，从而得出最优的惩罚因子，提高PBI算法的聚合效率，通过PSO算法优化子种群推动解逼近真实的帕累托前沿。

Description

基于深度强化学习的微电网能源系统的多目标安全优化方法

技术领域

本发明属于电力系统自动化的技术领域，具体的说是涉及一种基于深度强化学习的微电网能源系统的多目标安全优化方法。

背景技术

随着电网技术不断进步，微电网逐渐成为复杂的独立系统，与大电网的主要差别在于，其既可以作为独立的系统运行，也可以接入大电网协同运行。

ZL2021109555161公开了一种基于自动强化学习多时段预测的孤立微电网优化调度方法，首先提出了先进的预测模型PER-AutoRL，并设计了基于PER-AutoRL的多时段单步预测方法，此外还考虑了预测误差对预测精度的影响，根据预测误差分布修正预测值且确定旋转备用容量，然后将该预测方法与调度相结合，构建了以最小化微电网总运行成本为目标，考虑需求响应的调度模型，最后通过SOT将调度模型转化为混合整数线性规划问题并应用CPLEX求解器求解模型，得到全局最优解，有效的解决了新能源出力及负荷不确定性对微电网日前调度的影响，通过提高预测精度大幅降低了微电网总运行成本，且大大简化了预测模型的建模难度，具有方法科学合理、适用性强、效果佳等待优点。

ZL2021115787151公开了一种基于分布式深度强化学习的微电网能量在线优化方法，利用Actor网络与本地环境进行交互，获取相应的动作策略，再根据环境参数与所选动作判断是否满足约束条件，计算奖励值，随后Critic网络学习本地与其他智能体的神经网络参数，最后根据所学模型，对Actor网络选择的动作进行反馈，引导Actor网络追寻更高的奖励值，可以快速给出优化策略，合理分配各单元发电出力，最终有效地解决了微电网中的能源优化问题。

由于能源系统的优化配置具有多种多样的目标需求，仅仅考虑其多主体特性的单一目标需求，无法满足其实际工程需要，例如经济性和环保性是微电网运行所要追求的目标。

发明内容

为了上述技术缺陷，本发明提供了一种基于深度强化学习的微电网能源系统的多目标安全优化方法，在基于强化学习DDPG算法的基础上，提高PBI算法的聚合效率，最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿，使得微电网能源系统能够经济、环保和安全的运行，实现了能源系统的最优配置，解决了微电网能源系统的多目标优化调度问题。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于深度强化学习的微电网能源系统的多目标安全优化方法，包括如下步骤：

步骤1：针对包含微电网运行时各微电源的燃料、运行维护、停电补偿、CHP系统、电能交互以及环保治理构成的多能源系统，以一天内经济成本、环保成本和供电可靠性为目标函数，考虑微电网电功率平衡约束、各微电源的输出功率约束、爬坡率约束、联络线功率约束建立基于深度强化学习的微电网能源系统的多目标安全优化模型：

多目标：

电功率平衡安全约束：

各微电源的输出功率约束：P_imin≤P_it≤P_imax，

爬坡率约束：-H_MT,dΔt≤P_MT,t-P_MT,t-1≤H_MT,uΔt，

联络线功率约束：P_lmin≤P_gt≤P_lmax

其中：

①燃料成本S_f(t)

S_fi(P_it)为第i个微电源在第t个调度时段的燃料成本；N为微电源的个数。

②运行维护成本S_om(t)

K_om,i为第i个微电源的运行维护成本系数；P_it为第i个微电源第t个调度时段的有功出力。

③停电补偿成本S_L(t)

S_L(t)＝S_bu(t)×P_Lt

S_bu为微电网系统所有者向用户支付的单位停电量的补偿费用；P_Lt为微电网第t个调度时段的切负荷量。

④与大电网的电能交互成本S_g(t)

S_g(t)＝S_gt(t)×P_gt

S_gt为微电网在第t个调度时段的购售电电价；P_gt为第t个调度时段大电网对微电网的注入功率。

⑤CHP系统的制热收益S_s

S_s＝Q_ht×K_ph

S_s为微型燃气轮机第t个调度时段内的制热收益；Q_ht为第t个调度时段内的热负荷需求；K_ph为单位热能的售价；

F₂为微电网并网运行时未来一日的环保成本；α_im为第i个微电源生产单位电能时污染物m的排放量；α_gm为大电网向微电网输送单位电能时大电网内火电机组对污染物m的排放量。F₃为微电网运行时第t个调度时段的负荷缺电率，作为供电可靠性的衡量指标。P_Dt为微电网在第t个调度时段内的电负荷需求。

P_imin、P_imax分别为微电网内各微电源的输出功率上下限，H_MT,d、H_MT,u分别为微型燃气轮机向下和向上的爬坡速率，P_lmin、P_lmax分别为联络线上的极限功率上下限。

步骤2：根据基于分解的多目标进化算法(MOEAD)，将步骤1中的多目标优化模型通过预设一组在目标空间均匀分布的权重向量分解成一组标量子问题，从而建立起以经济性和环保性为目标的多目标安全优化模型，当权重向量生成后，根据权重向量间的欧几里得距离为每个子问题分配N个邻居，即每个粒子与邻近的N个粒子构成该粒子的子种群，每个子问题的优化通过基于惩罚的边界交集法(PBI)的替换策略在其子种群中进行优化；当权重向量生成后，基于分解的多目标进化算法会为每一个权重向量分配一个解，每次生成一个新的解后都会有一个替换策略，而基于什么原则替换，如何对于指定的子问题来做两个解之间的优劣比较，这就涉及到聚合方法的使用。

首先需要产生一组均匀分布的权重向量，N是权重向量的个数，即种群的大小：

ω＝(ω₁,ω₂,ω₃...ω_N)^T

minF(x)＝(f₁(x),...f_m(x))^T

s.t.x∈Ω

F(x)为原始多目标问题，是决策空间到目标空间的一个映射，多目标问题分解成多个标量子问题，子问题的解为

PBI法利用惩罚因子θ构建由解到当前搜索方向的垂直距离和解到参考点的距离组成的单目标优化子问题﹐然后通过优化该子问题推动解逼近真实的帕累托前沿。

PBI分解法如下：

minimize g^pbi(x|ω,z^*)＝d₁+θd₂

subject to x∈Ω

式中

ω＝(ω₁,ω₂,ω₃...ω_N)^T为该子问题的搜索方向，θ＞0为惩罚因子；

为目标空间中的理想点。d₁为F(x)与z^*连线的投影，用来评价x对解集的收敛性。d₂是F(x)与投影点之间的距离，体现多样性。在搜索之前，z^*一般是未知的，算法利用搜索过程发现最小的f_i(x)值来替代

该方法的目的是通过最小化g^pbi函数来推动F(x)尽可能地低，从而使得能够逼近目标解集的边缘。因此，在PBI法中，θ的取值对优化性能有着至关重要的影响，因此接下来运用强化学习的算法训练θ值，使之达到最佳性能。

步骤3：在多目标进化算法(MOEAD)的基础上，运用强化学习中深度确定性策略梯度算法(DDPG)对PBI中惩罚因子θ进行训练，将子问题周围解的浓度定义为状态，将惩罚因子θ值的变化定义为动作，当前状态，经允许的动作策略，就能够得出下一个状态和反馈，并组成一个经验元组，再将状态经不同动作策略下得出的经验元组共同组成深度强化学习中DDPG算法学习所需的经验池，使经验池中存储了大量的训练数据。

步骤4：利用步骤3获得的经验池中的数据，通过DDPG算法中的神经网络，即通过大量的数据，一边学习Critict网络，一边学习Actor网络，其中，Critict网络的权重用w来表示，Actor网络的权重用b来表示。通过在线学习训练出神经网络中的相关权重，构建出完整的神经网络，从而找出最优的惩罚因子θ，提高了PBI算法的聚合效率，最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。

DDPG算法中的神经网络权重训练的具体方法为：

D1、Actor网络根据目前的状态输出相应的动作，Critict网络在每一步都对Actor网络输出的动作进行评估，即估计Actor网络输出的动作的Q值(Q_w(s,a))。

D2、Actor网络根据Critict网络评估的Q值,更新策略网络权重b。Critict网络根据环境r的反馈，更新Critict网络的权重w，从而使Q值最大。

D3、最开始训练的时候，这两个神经网络权重是随机的。但是由于本发明有环境反馈的r存在，同时采用梯度算法来更新优化权重，所以两个神经网络的权重会训练的越来越好，最终得到想要的权重值。有了训练好的神经网络的权重，当输入一个状态时，就会得到最优的动作，即找出最优的θ值。从而提高了PBI算法的聚合效率，最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。

本发明的有益效果是：本发明提出的基于深度强化学习的微电网能源系统的多目标安全优化方法，既考虑了多目标特性又顾及了微电网独立的系统运行，首先基于微电网能源系统的多目标整体优化模型，根据基于分解的多目标进化算法，将一个多目标问题分解成多个标量子问题，再为每个子问题分配若干个邻居，则每个粒子与邻近的若干个粒子构成该粒子的子种群，运用基于惩罚的边界交集法(PBI)优化；并运用强化学习中深度确定性策略梯度算法(DDPG)对PBI中惩罚因子θ进行学习，将微电网的运行视为连续过程，准确设定系统状态和动作策略。当前状态，经允许的动作策略，就能够得出下一个状态和反馈，并组成一个经验元组；再将状态经不同动作策略下得出的其它经验元组共同组成强化学习中DDPG算法学习所需的经验池；利用经验池中的数据，通过DDPG算法中的神经网络，即可进行学习，训练出神经网络中的相关权重，找出最优的惩罚因子θ，从而提高了PBI算法的聚合效率，最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。

附图说明

图1是本发明基于深度强化学习的微电网能源系统的多目标安全优化方法的框图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。此外，为简化图式起见，一些习知惯用的结构与组件在图式中将以简单的示意的方式绘示之。

如图1所示，本发明是一种基于深度强化学习的微电网能源系统的多目标安全优化方法，该安全优化方法包括：

(一)结合能源系统的经济效益和环保低排放量等目标需求，综合考虑微电网运行时各微电源的燃料、运行维护、停电补偿、CHP系统、电能交互以及环保治理构成的多能源系统，以一天内经济成本、环保成本和供电可靠性为目标函数，考虑微电网电功率平衡约束、各微电源的输出功率约束、爬坡率约束、联络线功率约束建立基于深度强化学习的微电网能源系统的多目标安全优化模型：

(1)目标：

经济效益：

环保成本：

供电可靠性指标：

其中：

①燃料成本S_f(t)

②运行维护成本S_om(t)

③停电补偿成本S_L(t)

S_L(t)＝S_bu(t)×P_Lt

④与大电网的电能交互成本S_g(t)

S_g(t)＝S_gt(t)×P_gt

⑤CHP系统的制热收益S_s

S_s＝Q_ht×K_ph

(2)约束条件

电功率平衡安全约束：

各微电源的输出功率约束：P_imin≤P_it≤P_imax，

爬坡率约束：-H_MT,dΔt≤P_MT,t-P_MT,t-1≤H_MT,uΔt，

联络线功率约束：P_lmin≤P_gt≤P_lmax

(二)(二)根据基于分解的多目标进化算法(MOEAD)，将步骤1中的一个多目标优化模型通过预设一组在目标空间均匀分布的权重向量分解成一组标量子问题，从而建立起以经济性和环保性为目标的多目标安全优化模型，当权重向量生成后，根据权重向量间的欧几里得距离为每个子问题分配N个邻居，即每个粒子与邻近的N个粒子构成该粒子的子种群，每个子问题的优化通过基于惩罚的边界交集法(PBI)的替换策略在其子种群中进行优化。

ω＝(ω₁,ω₂,ω₃...ω_N)^T

minF(x)＝(f₁(x),...f_m(x))^T

s.t.x∈Ω

PBI分解法如下：

minimize g^pbi(x|ω,z^*)＝d₁+θd₂

subject to x∈Ω

式中

该方法的目的是通过最小化g^pbi函数来推动F(x)尽可能地低，从而使得能够逼近目标解集的边缘。因此，在PBI法中，θ的取值对优化性能有着至关重要的影响。因此接下来运用强化学习的算法训练θ值，使之达到最佳性能。

(三)根据上述得到的系统模型，将粒子群的优化视为连续过程，将权重向量即子问题周围解的浓度定义为状态，将θ值的变化定义为动作。如当前状态s_t，经允许的动作策略a_t，就能够转移到下一个状态s_t+1，以及反馈值r是否达到收敛性和多样性的平衡，并组成一个经验元组<s_t,a_t,s_t+1,r_t>，并存储在经验池R中。再将初始状态经不同动作策略下得出的其它经验集合也存入经验池R中，使经验池中存储了大量的训练数据。

基于DDPG算法，将权重向量周围解的浓度S_con定义为当前状态s_t，θ值的变化定义为动作a_t，是否达到收敛性和多样性的平衡定义为反馈值r。因为子问题的最优解应该位于它的方向向量周围,如果某些方向向量周围聚集的解的个数大于其他的方向向量，则表明当前解的分布不均匀。在进化过程中，当惩罚参数过小时，边界子问题的解容易被邻域内收敛性更好的解替换，导致多样性的丧失﹔当惩罚参数过大时，种群的收敛速度会减慢，导致无法逼近真实的Pareto前沿。因此，可根据权重向量周围解的浓度对惩罚因子进行动态调整，具体步骤为：

(1)初始化s₁为当前状态序列的第一个状态；

(2)通过未经权重训练的网络加上高斯扰动选择一个动作进行探索，网络参数w，

a_t＝μ(s|b)+N_t，

其中N_t是一个高斯扰动，得到基于状态s₁的动作a₁；

(3)执行动作a₁，得到新状态s₂和奖励r₁；

(4)将s₁，a₁，s₂，r₁四个元素组成经验集合<s₁,a₁,s₂,r₁>，并存储在经验池R中；

(5)随机选取其它状态，重复上述步骤，得到相应的经验集合<s_i,a_i,s_i+1,r_i>，i＝1,2,...,T,并存储在经验池R中；

(四)基于深度强化学习的微电网能源系统的多目标安全优化方法中，利用经验池中的数据，通过DDPG算法中的神经网络，即通过大量的数据，一边学习Critict网络，一边学习Actor网络，其中，Critict网络的权重用w来表示，Actor网络的权重用b来表示，本发明就是要通过学习训练出网络的权重值，构建出完整的神经网络，从而找出最优的θ值。具体训练采用以下方式：

(1)构建一个由两个部分组成的网络：Critict网络和Actor网络，参数权重分别为w，b。其中，Actor网络进行Q函数计算得到Q值：Q_w(s,a)，Critict网络进行状态到动作的映射得到μ(s|ω)，并且对权重w，b进行随机初始化。

(2)通过权重w，b来初始化所要求解的目标网络的权重w'，b'。

(3)进行迭代求解操作如下：

①进行权重的更新。通过当前网络对Q(s_t,a_t|b)进行估计，同时从(三)中的经验池R中随机选择小批量的经验集合，通过Bellman方程对Q进行估计，得到的结果

假设用y_i表示，则有：

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|ω')|b')，

②权重的更新是基于TD-error的梯度下降，策略网络借助于目标网络拟合的下一时刻的价值Q(s_i,a_i|b)，以及真实的收益r,可以得到Q_target，让Q_target减去当前Q求均方差，则可以构造出Loss函数。

此Loss函数最小化用于更新策略网络的权重b。

③策略网络更新结束后，才进行Q网络的更新，更新的时候主要采用策略梯度的方式，即：

通过神经网络的梯度反向传播来更新Q网络的所有权重ω。

④最后进行权重的更新：

经此DDPG算法中神经网络权重的训练，得出理想的权重。有了训练好的神经网络的权重，当输入一个状态时，就会得到最优的动作，即最优的惩罚因子θ，从而提高了PBI算法的聚合效率，最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。

本发明针对微电网能源系统呈现的多目标、多约束特性提出一种基于深度强化学习的多目标安全优化方法。根据微电网能源系统追求经济效益和环保成本等目标需求，结合微电网能源系统自身的功率以及负荷约束建立能源系统多目标安全优化。基于多目标优化分解理论将多目标问题分解成一组标量子问题，运用惩罚的边界交叉法(PBI)进行聚合，运用基于种群的随机优化技术算法(PSO)优化这些子种群。在优化过程中，考虑到PSO算法中有关参数需要优化调整以及PBI算法中惩罚因子θ的合理取值会提升优化算法的效率，因此采用深度强化学习DDPG算法训练优化算法中的进化参数，从而提高了算法的优化能力，最终通过算法优化子种群推动解逼近真实的帕累托前沿，使得微电网能源系统能够经济、环保和安全的运行。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于深度强化学习的微电网能源系统的多目标安全优化方法，其特征在于：所述安全优化方法包括如下步骤：

步骤1：建立基于深度强化学习的微电网能源系统的多目标优化模型；

步骤2：根据基于分解的多目标进化算法(MOEAD)，将步骤1中的多目标优化模型通过预设一组在目标空间均匀分布的权重向量分解成一组标量子问题，从而建立起以经济性和环保性为目标的多目标安全优化模型，当权重向量生成后，根据权重向量间的欧几里得距离为每个子问题分配N个邻居，即每个粒子与邻近的N个粒子构成该粒子的子种群，每个子问题的优化通过基于惩罚的边界交集法(PBI)的替换策略在其子种群中进行优化；

步骤3：在多目标进化算法(MOEAD)的基础上，运用强化学习中深度确定性策略梯度算法(DDPG)对PBI中惩罚因子θ进行训练，将子问题周围解的浓度定义为状态，将惩罚因子θ值的变化定义为动作，当前状态，经允许的动作策略，就能够得出下一个状态和反馈，并组成一个经验元组，再将状态经不同动作策略下得出的经验元组共同组成深度强化学习中DDPG算法学习所需的经验池；

步骤4：利用步骤3获得的经验池中的数据，通过DDPG算法中的神经网络，通过在线学习训练出神经网络中的相关权重，从而找出最优的惩罚因子θ，提高了PBI算法的聚合效率，最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。

2.根据权利要求1所述基于深度强化学习的微电网能源系统的多目标安全优化方法，其特征在于：步骤1中的基于深度强化学习的微电网能源系统的多目标安全优化模型为：

多目标：

其中：

①燃料成本S_f(t)

②运行维护成本S_om(t)

K_om,i为第i个微电源的运行维护成本系数；P_it为第i个微电源第t个调度时段的有功出力；

③停电补偿成本S_L(t)

S_L(t)＝S_bu(t)×P_Lt

S_bu为微电网系统所有者向用户支付的单位停电量的补偿费用；P_Lt为微电网第t个调度时段的切负荷量；

④与大电网的电能交互成本S_g(t)

S_g(t)＝S_gt(t)×P_gt

S_gt为微电网在第t个调度时段的购售电电价；P_gt为第t个调度时段大电网对微电网的注入功率；

⑤CHP系统的制热收益S_s

S_s＝Q_ht×K_ph

F₂为微电网并网运行时未来一日的环保成本，α_im为第i个微电源生产单位电能时污染物m的排放量，α_gm为大电网向微电网输送单位电能时大电网内火电机组对污染物m的排放量，F₃为微电网运行时第t个调度时段的负荷缺电率，作为供电可靠性的衡量指标，P_Dt为微电网在第t个调度时段内的电负荷需求，P_imin、P_imax分别为微电网内各微电源的输出功率上限和下限，H_MT,d、H_MT,u分别为微型燃气轮机向下和向上的爬坡速率，P_lmin、P_lmax分别为联络线上的极限功率上限和下限。

3.根据权利要求2所述基于深度强化学习的微电网能源系统的多目标安全优化方法，其特征在于：所述多目标安全优化模型的约束条件为：

电功率平衡安全约束：

各微电源的输出功率约束：P_imin≤P_it≤P_imax，

爬坡率约束：-H_MT,dΔt≤P_MT,t-P_MT,t-1≤H_MT,uΔt，

联络线功率约束：P_lmin≤P_gt≤P_lmax。

4.根据权利要求1所述基于深度强化学习的微电网能源系统的多目标安全优化方法，其特征在于：所述步骤2中通过基于惩罚的边界交集法(PBI)的替换策略在其子种群中进行优化的步骤为：

步骤2-1：首先需要产生一组均匀分布的权重向量，N是权重向量的个数，即种群的大小：

ω＝(ω₁,ω₂,ω₃...ω_N)^T

minF(x)＝(f₁(x),...f_m(x))^T

s.t.x∈Ω

F(x)为原始多目标问题，是决策空间到目标空间的一个映射，多目标问题分解成多个标量子问题，ω＝(ω₁,ω₂,ω₃...ω_N)^T为该子问题的搜索方向，

为目标空间中的理想点，子问题的解为

步骤2-2：基于惩罚的边界交集法(PBI)利用惩罚因子θ构建由解到当前搜索方向的垂直距离和解到参考点的距离组成的单目标优化子问题﹐然后通过优化该子问题推动解逼近真实的帕累托前沿。

5.根据权利要求4所述基于深度强化学习的微电网能源系统的多目标安全优化方法，其特征在于：所述步骤2-2中具体的PBI分解法如下：

minimize g^pbi(x|ω,z^*)＝d₁+θd₂

subject to x∈Ω

式中

θ＞0为惩罚因子，d₁为F(x)与z^*连线的投影，用来评价x对解集的收敛性，d₂是F(x)与投影点之间的距离，体现多样性。

6.根据权利要求1所述基于深度强化学习的微电网能源系统的多目标安全优化方法，其特征在于：步骤3中运用强化学习中深度确定性策略梯度算法(DDPG)对PBI中惩罚因子θ进行训练，具体包括如下步骤：

步骤3-1：构建一个由两个部分组成的网络：Critict网络和Actor网络，Actor网络根据目前的状态输出相应的动作，Critict网络在每一步都对Actor网络输出的动作进行评估，即估计Actor网络输出的动作的Q值(Q_w(s,a))；

步骤3-2：Actor网络根据Critict网络评估的Q值更新策略网络权重b，Critict网络根据环境r的反馈，更新Critict网络的权重w，从而使Q值最大，最终得到想要的权重值。