CN114897266A - 基于深度强化学习的微电网能源系统的多目标安全优化方法 - Google Patents

基于深度强化学习的微电网能源系统的多目标安全优化方法 Download PDF

Info

Publication number
CN114897266A
CN114897266A CN202210662643.7A CN202210662643A CN114897266A CN 114897266 A CN114897266 A CN 114897266A CN 202210662643 A CN202210662643 A CN 202210662643A CN 114897266 A CN114897266 A CN 114897266A
Authority
CN
China
Prior art keywords
micro
grid
reinforcement learning
power
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210662643.7A
Other languages
English (en)
Inventor
张慧峰
强程鹏
岳东
窦春霞
张安华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210662643.7A priority Critical patent/CN114897266A/zh
Publication of CN114897266A publication Critical patent/CN114897266A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/008Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种基于深度强化学习的微电网能源系统的多目标安全优化方法,包括步骤1:建立多目标优化模型;步骤2:将多目标优化模型分解成一组标量子问题,通过粒子群优化算法基于边界交叉法的替换策略在其子种群中进行优化;步骤3:运用强化学习中深度确定性策略梯度算法对PBI中惩罚因子进行训练,将子问题周围解的浓度定义为状态,将惩罚因子θ值的变化定义为动作,再将状态经不同动作策略下得出的状态和反馈组成经验元组并形成深度强化学习中DDPG算法学习所需的经验池;步骤4:通过强化学习训练出神经网络中的相关权重,从而得出最优的惩罚因子,提高PBI算法的聚合效率,通过PSO算法优化子种群推动解逼近真实的帕累托前沿。

Description

基于深度强化学习的微电网能源系统的多目标安全优化方法
技术领域
本发明属于电力系统自动化的技术领域,具体的说是涉及一种基于深度强化学习的微电网能源系统的多目标安全优化方法。
背景技术
随着电网技术不断进步,微电网逐渐成为复杂的独立系统,与大电网的主要差别在于,其既可以作为独立的系统运行,也可以接入大电网协同运行。
ZL2021109555161公开了一种基于自动强化学习多时段预测的孤立微电网优化调度方法,首先提出了先进的预测模型PER-AutoRL,并设计了基于PER-AutoRL的多时段单步预测方法,此外还考虑了预测误差对预测精度的影响,根据预测误差分布修正预测值且确定旋转备用容量,然后将该预测方法与调度相结合,构建了以最小化微电网总运行成本为目标,考虑需求响应的调度模型,最后通过SOT将调度模型转化为混合整数线性规划问题并应用CPLEX求解器求解模型,得到全局最优解,有效的解决了新能源出力及负荷不确定性对微电网日前调度的影响,通过提高预测精度大幅降低了微电网总运行成本,且大大简化了预测模型的建模难度,具有方法科学合理、适用性强、效果佳等待优点。
ZL2021115787151公开了一种基于分布式深度强化学习的微电网能量在线优化方法,利用Actor网络与本地环境进行交互,获取相应的动作策略,再根据环境参数与所选动作判断是否满足约束条件,计算奖励值,随后Critic网络学习本地与其他智能体的神经网络参数,最后根据所学模型,对Actor网络选择的动作进行反馈,引导Actor网络追寻更高的奖励值,可以快速给出优化策略,合理分配各单元发电出力,最终有效地解决了微电网中的能源优化问题。
由于能源系统的优化配置具有多种多样的目标需求,仅仅考虑其多主体特性的单一目标需求,无法满足其实际工程需要,例如经济性和环保性是微电网运行所要追求的目标。
发明内容
为了上述技术缺陷,本发明提供了一种基于深度强化学习的微电网能源系统的多目标安全优化方法,在基于强化学习DDPG算法的基础上,提高PBI算法的聚合效率,最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿,使得微电网能源系统能够经济、环保和安全的运行,实现了能源系统的最优配置,解决了微电网能源系统的多目标优化调度问题。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于深度强化学习的微电网能源系统的多目标安全优化方法,包括如下步骤:
步骤1:针对包含微电网运行时各微电源的燃料、运行维护、停电补偿、CHP系统、电能交互以及环保治理构成的多能源系统,以一天内经济成本、环保成本和供电可靠性为目标函数,考虑微电网电功率平衡约束、各微电源的输出功率约束、爬坡率约束、联络线功率约束建立基于深度强化学习的微电网能源系统的多目标安全优化模型:
多目标:
Figure BDA0003691552540000021
电功率平衡安全约束:
Figure BDA0003691552540000022
各微电源的输出功率约束:Pimin≤Pit≤Pimax
爬坡率约束:-HMT,dΔt≤PMT,t-PMT,t-1≤HMT,uΔt,
联络线功率约束:Plmin≤Pgt≤Plmax
其中:
①燃料成本Sf(t)
Figure BDA0003691552540000031
Sfi(Pit)为第i个微电源在第t个调度时段的燃料成本;N为微电源的个数。
②运行维护成本Som(t)
Figure BDA0003691552540000032
Kom,i为第i个微电源的运行维护成本系数;Pit为第i个微电源第t个调度时段的有功出力。
③停电补偿成本SL(t)
SL(t)=Sbu(t)×PLt
Sbu为微电网系统所有者向用户支付的单位停电量的补偿费用;PLt为微电网第t个调度时段的切负荷量。
④与大电网的电能交互成本Sg(t)
Sg(t)=Sgt(t)×Pgt
Sgt为微电网在第t个调度时段的购售电电价;Pgt为第t个调度时段大电网对微电网的注入功率。
⑤CHP系统的制热收益Ss
Ss=Qht×Kph
Ss为微型燃气轮机第t个调度时段内的制热收益;Qht为第t个调度时段内的热负荷需求;Kph为单位热能的售价;
F2为微电网并网运行时未来一日的环保成本;αim为第i个微电源生产单位电能时污染物m的排放量;αgm为大电网向微电网输送单位电能时大电网内火电机组对污染物m的排放量。F3为微电网运行时第t个调度时段的负荷缺电率,作为供电可靠性的衡量指标。PDt为微电网在第t个调度时段内的电负荷需求。
Pimin、Pimax分别为微电网内各微电源的输出功率上下限,HMT,d、HMT,u分别为微型燃气轮机向下和向上的爬坡速率,Plmin、Plmax分别为联络线上的极限功率上下限。
步骤2:根据基于分解的多目标进化算法(MOEAD),将步骤1中的多目标优化模型通过预设一组在目标空间均匀分布的权重向量分解成一组标量子问题,从而建立起以经济性和环保性为目标的多目标安全优化模型,当权重向量生成后,根据权重向量间的欧几里得距离为每个子问题分配N个邻居,即每个粒子与邻近的N个粒子构成该粒子的子种群,每个子问题的优化通过基于惩罚的边界交集法(PBI)的替换策略在其子种群中进行优化;当权重向量生成后,基于分解的多目标进化算法会为每一个权重向量分配一个解,每次生成一个新的解后都会有一个替换策略,而基于什么原则替换,如何对于指定的子问题来做两个解之间的优劣比较,这就涉及到聚合方法的使用。
首先需要产生一组均匀分布的权重向量,N是权重向量的个数,即种群的大小:
ω=(ω123...ωN)T
Figure BDA0003691552540000041
minF(x)=(f1(x),...fm(x))T
s.t.x∈Ω
F(x)为原始多目标问题,是决策空间到目标空间的一个映射,多目标问题分解成多个标量子问题,子问题的解为
Figure BDA0003691552540000042
PBI法利用惩罚因子θ构建由解到当前搜索方向的垂直距离和解到参考点的距离组成的单目标优化子问题﹐然后通过优化该子问题推动解逼近真实的帕累托前沿。
PBI分解法如下:
minimize gpbi(x|ω,z*)=d1+θd2
subject to x∈Ω
式中
Figure BDA0003691552540000051
Figure BDA0003691552540000052
ω=(ω123...ωN)T为该子问题的搜索方向,θ>0为惩罚因子;
Figure BDA0003691552540000053
为目标空间中的理想点。d1为F(x)与z*连线的投影,用来评价x对解集的收敛性。d2是F(x)与投影点之间的距离,体现多样性。在搜索之前,z*一般是未知的,算法利用搜索过程发现最小的fi(x)值来替代
Figure BDA0003691552540000054
该方法的目的是通过最小化gpbi函数来推动F(x)尽可能地低,从而使得能够逼近目标解集的边缘。因此,在PBI法中,θ的取值对优化性能有着至关重要的影响,因此接下来运用强化学习的算法训练θ值,使之达到最佳性能。
步骤3:在多目标进化算法(MOEAD)的基础上,运用强化学习中深度确定性策略梯度算法(DDPG)对PBI中惩罚因子θ进行训练,将子问题周围解的浓度定义为状态,将惩罚因子θ值的变化定义为动作,当前状态,经允许的动作策略,就能够得出下一个状态和反馈,并组成一个经验元组,再将状态经不同动作策略下得出的经验元组共同组成深度强化学习中DDPG算法学习所需的经验池,使经验池中存储了大量的训练数据。
步骤4:利用步骤3获得的经验池中的数据,通过DDPG算法中的神经网络,即通过大量的数据,一边学习Critict网络,一边学习Actor网络,其中,Critict网络的权重用w来表示,Actor网络的权重用b来表示。通过在线学习训练出神经网络中的相关权重,构建出完整的神经网络,从而找出最优的惩罚因子θ,提高了PBI算法的聚合效率,最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。
DDPG算法中的神经网络权重训练的具体方法为:
D1、Actor网络根据目前的状态输出相应的动作,Critict网络在每一步都对Actor网络输出的动作进行评估,即估计Actor网络输出的动作的Q值(Qw(s,a))。
D2、Actor网络根据Critict网络评估的Q值,更新策略网络权重b。Critict网络根据环境r的反馈,更新Critict网络的权重w,从而使Q值最大。
D3、最开始训练的时候,这两个神经网络权重是随机的。但是由于本发明有环境反馈的r存在,同时采用梯度算法来更新优化权重,所以两个神经网络的权重会训练的越来越好,最终得到想要的权重值。有了训练好的神经网络的权重,当输入一个状态时,就会得到最优的动作,即找出最优的θ值。从而提高了PBI算法的聚合效率,最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。
本发明的有益效果是:本发明提出的基于深度强化学习的微电网能源系统的多目标安全优化方法,既考虑了多目标特性又顾及了微电网独立的系统运行,首先基于微电网能源系统的多目标整体优化模型,根据基于分解的多目标进化算法,将一个多目标问题分解成多个标量子问题,再为每个子问题分配若干个邻居,则每个粒子与邻近的若干个粒子构成该粒子的子种群,运用基于惩罚的边界交集法(PBI)优化;并运用强化学习中深度确定性策略梯度算法(DDPG)对PBI中惩罚因子θ进行学习,将微电网的运行视为连续过程,准确设定系统状态和动作策略。当前状态,经允许的动作策略,就能够得出下一个状态和反馈,并组成一个经验元组;再将状态经不同动作策略下得出的其它经验元组共同组成强化学习中DDPG算法学习所需的经验池;利用经验池中的数据,通过DDPG算法中的神经网络,即可进行学习,训练出神经网络中的相关权重,找出最优的惩罚因子θ,从而提高了PBI算法的聚合效率,最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。
附图说明
图1是本发明基于深度强化学习的微电网能源系统的多目标安全优化方法的框图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。此外,为简化图式起见,一些习知惯用的结构与组件在图式中将以简单的示意的方式绘示之。
如图1所示,本发明是一种基于深度强化学习的微电网能源系统的多目标安全优化方法,该安全优化方法包括:
(一)结合能源系统的经济效益和环保低排放量等目标需求,综合考虑微电网运行时各微电源的燃料、运行维护、停电补偿、CHP系统、电能交互以及环保治理构成的多能源系统,以一天内经济成本、环保成本和供电可靠性为目标函数,考虑微电网电功率平衡约束、各微电源的输出功率约束、爬坡率约束、联络线功率约束建立基于深度强化学习的微电网能源系统的多目标安全优化模型:
(1)目标:
经济效益:
Figure BDA0003691552540000071
环保成本:
Figure BDA0003691552540000072
供电可靠性指标:
Figure BDA0003691552540000073
其中:
①燃料成本Sf(t)
Figure BDA0003691552540000074
Sfi(Pit)为第i个微电源在第t个调度时段的燃料成本;N为微电源的个数。
②运行维护成本Som(t)
Figure BDA0003691552540000075
Kom,i为第i个微电源的运行维护成本系数;Pit为第i个微电源第t个调度时段的有功出力。
③停电补偿成本SL(t)
SL(t)=Sbu(t)×PLt
Sbu为微电网系统所有者向用户支付的单位停电量的补偿费用;PLt为微电网第t个调度时段的切负荷量。
④与大电网的电能交互成本Sg(t)
Sg(t)=Sgt(t)×Pgt
Sgt为微电网在第t个调度时段的购售电电价;Pgt为第t个调度时段大电网对微电网的注入功率。
⑤CHP系统的制热收益Ss
Ss=Qht×Kph
Ss为微型燃气轮机第t个调度时段内的制热收益;Qht为第t个调度时段内的热负荷需求;Kph为单位热能的售价;
F2为微电网并网运行时未来一日的环保成本;αim为第i个微电源生产单位电能时污染物m的排放量;αgm为大电网向微电网输送单位电能时大电网内火电机组对污染物m的排放量。F3为微电网运行时第t个调度时段的负荷缺电率,作为供电可靠性的衡量指标。PDt为微电网在第t个调度时段内的电负荷需求。
Pimin、Pimax分别为微电网内各微电源的输出功率上下限,HMT,d、HMT,u分别为微型燃气轮机向下和向上的爬坡速率,Plmin、Plmax分别为联络线上的极限功率上下限。
(2)约束条件
电功率平衡安全约束:
Figure BDA0003691552540000081
各微电源的输出功率约束:Pimin≤Pit≤Pimax
爬坡率约束:-HMT,dΔt≤PMT,t-PMT,t-1≤HMT,uΔt,
联络线功率约束:Plmin≤Pgt≤Plmax
(二)(二)根据基于分解的多目标进化算法(MOEAD),将步骤1中的一个多目标优化模型通过预设一组在目标空间均匀分布的权重向量分解成一组标量子问题,从而建立起以经济性和环保性为目标的多目标安全优化模型,当权重向量生成后,根据权重向量间的欧几里得距离为每个子问题分配N个邻居,即每个粒子与邻近的N个粒子构成该粒子的子种群,每个子问题的优化通过基于惩罚的边界交集法(PBI)的替换策略在其子种群中进行优化。
首先需要产生一组均匀分布的权重向量,N是权重向量的个数,即种群的大小:
ω=(ω123...ωN)T
Figure BDA0003691552540000091
minF(x)=(f1(x),...fm(x))T
s.t.x∈Ω
F(x)为原始多目标问题,是决策空间到目标空间的一个映射,多目标问题分解成多个标量子问题,子问题的解为
Figure BDA0003691552540000092
PBI法利用惩罚因子θ构建由解到当前搜索方向的垂直距离和解到参考点的距离组成的单目标优化子问题﹐然后通过优化该子问题推动解逼近真实的帕累托前沿。
PBI分解法如下:
minimize gpbi(x|ω,z*)=d1+θd2
subject to x∈Ω
式中
Figure BDA0003691552540000093
Figure BDA0003691552540000094
ω=(ω123...ωN)T为该子问题的搜索方向,θ>0为惩罚因子;
Figure BDA0003691552540000095
为目标空间中的理想点。d1为F(x)与z*连线的投影,用来评价x对解集的收敛性。d2是F(x)与投影点之间的距离,体现多样性。在搜索之前,z*一般是未知的,算法利用搜索过程发现最小的fi(x)值来替代
Figure BDA0003691552540000096
该方法的目的是通过最小化gpbi函数来推动F(x)尽可能地低,从而使得能够逼近目标解集的边缘。因此,在PBI法中,θ的取值对优化性能有着至关重要的影响。因此接下来运用强化学习的算法训练θ值,使之达到最佳性能。
(三)根据上述得到的系统模型,将粒子群的优化视为连续过程,将权重向量即子问题周围解的浓度定义为状态,将θ值的变化定义为动作。如当前状态st,经允许的动作策略at,就能够转移到下一个状态st+1,以及反馈值r是否达到收敛性和多样性的平衡,并组成一个经验元组<st,at,st+1,rt>,并存储在经验池R中。再将初始状态经不同动作策略下得出的其它经验集合也存入经验池R中,使经验池中存储了大量的训练数据。
Figure BDA0003691552540000101
基于DDPG算法,将权重向量周围解的浓度Scon定义为当前状态st,θ值的变化定义为动作at,是否达到收敛性和多样性的平衡定义为反馈值r。因为子问题的最优解应该位于它的方向向量周围,如果某些方向向量周围聚集的解的个数大于其他的方向向量,则表明当前解的分布不均匀。在进化过程中,当惩罚参数过小时,边界子问题的解容易被邻域内收敛性更好的解替换,导致多样性的丧失﹔当惩罚参数过大时,种群的收敛速度会减慢,导致无法逼近真实的Pareto前沿。因此,可根据权重向量周围解的浓度对惩罚因子进行动态调整,具体步骤为:
(1)初始化s1为当前状态序列的第一个状态;
(2)通过未经权重训练的网络加上高斯扰动选择一个动作进行探索,网络参数w,
at=μ(s|b)+Nt
其中Nt是一个高斯扰动,得到基于状态s1的动作a1
(3)执行动作a1,得到新状态s2和奖励r1
(4)将s1,a1,s2,r1四个元素组成经验集合<s1,a1,s2,r1>,并存储在经验池R中;
(5)随机选取其它状态,重复上述步骤,得到相应的经验集合<si,ai,si+1,ri>,i=1,2,...,T,并存储在经验池R中;
(四)基于深度强化学习的微电网能源系统的多目标安全优化方法中,利用经验池中的数据,通过DDPG算法中的神经网络,即通过大量的数据,一边学习Critict网络,一边学习Actor网络,其中,Critict网络的权重用w来表示,Actor网络的权重用b来表示,本发明就是要通过学习训练出网络的权重值,构建出完整的神经网络,从而找出最优的θ值。具体训练采用以下方式:
(1)构建一个由两个部分组成的网络:Critict网络和Actor网络,参数权重分别为w,b。其中,Actor网络进行Q函数计算得到Q值:Qw(s,a),Critict网络进行状态到动作的映射得到μ(s|ω),并且对权重w,b进行随机初始化。
(2)通过权重w,b来初始化所要求解的目标网络的权重w',b'。
(3)进行迭代求解操作如下:
①进行权重的更新。通过当前网络对Q(st,at|b)进行估计,同时从(三)中的经验池R中随机选择小批量的经验集合,通过Bellman方程对Q进行估计,得到的结果
假设用yi表示,则有:
yi=ri+γQ'(si+1,μ'(si+1|ω')|b'),
②权重的更新是基于TD-error的梯度下降,策略网络借助于目标网络拟合的下一时刻的价值Q(si,ai|b),以及真实的收益r,可以得到Qtarget,让Qtarget减去当前Q求均方差,则可以构造出Loss函数。
Figure BDA0003691552540000111
此Loss函数最小化用于更新策略网络的权重b。
③策略网络更新结束后,才进行Q网络的更新,更新的时候主要采用策略梯度的方式,即:
Figure BDA0003691552540000112
通过神经网络的梯度反向传播来更新Q网络的所有权重ω。
④最后进行权重的更新:
Figure BDA0003691552540000121
经此DDPG算法中神经网络权重的训练,得出理想的权重。有了训练好的神经网络的权重,当输入一个状态时,就会得到最优的动作,即最优的惩罚因子θ,从而提高了PBI算法的聚合效率,最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。
本发明针对微电网能源系统呈现的多目标、多约束特性提出一种基于深度强化学习的多目标安全优化方法。根据微电网能源系统追求经济效益和环保成本等目标需求,结合微电网能源系统自身的功率以及负荷约束建立能源系统多目标安全优化。基于多目标优化分解理论将多目标问题分解成一组标量子问题,运用惩罚的边界交叉法(PBI)进行聚合,运用基于种群的随机优化技术算法(PSO)优化这些子种群。在优化过程中,考虑到PSO算法中有关参数需要优化调整以及PBI算法中惩罚因子θ的合理取值会提升优化算法的效率,因此采用深度强化学习DDPG算法训练优化算法中的进化参数,从而提高了算法的优化能力,最终通过算法优化子种群推动解逼近真实的帕累托前沿,使得微电网能源系统能够经济、环保和安全的运行。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (6)

1.一种基于深度强化学习的微电网能源系统的多目标安全优化方法,其特征在于:所述安全优化方法包括如下步骤:
步骤1:建立基于深度强化学习的微电网能源系统的多目标优化模型;
步骤2:根据基于分解的多目标进化算法(MOEAD),将步骤1中的多目标优化模型通过预设一组在目标空间均匀分布的权重向量分解成一组标量子问题,从而建立起以经济性和环保性为目标的多目标安全优化模型,当权重向量生成后,根据权重向量间的欧几里得距离为每个子问题分配N个邻居,即每个粒子与邻近的N个粒子构成该粒子的子种群,每个子问题的优化通过基于惩罚的边界交集法(PBI)的替换策略在其子种群中进行优化;
步骤3:在多目标进化算法(MOEAD)的基础上,运用强化学习中深度确定性策略梯度算法(DDPG)对PBI中惩罚因子θ进行训练,将子问题周围解的浓度定义为状态,将惩罚因子θ值的变化定义为动作,当前状态,经允许的动作策略,就能够得出下一个状态和反馈,并组成一个经验元组,再将状态经不同动作策略下得出的经验元组共同组成深度强化学习中DDPG算法学习所需的经验池;
步骤4:利用步骤3获得的经验池中的数据,通过DDPG算法中的神经网络,通过在线学习训练出神经网络中的相关权重,从而找出最优的惩罚因子θ,提高了PBI算法的聚合效率,最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。
2.根据权利要求1所述基于深度强化学习的微电网能源系统的多目标安全优化方法,其特征在于:步骤1中的基于深度强化学习的微电网能源系统的多目标安全优化模型为:
多目标:
Figure FDA0003691552530000011
其中:
①燃料成本Sf(t)
Figure FDA0003691552530000021
Sfi(Pit)为第i个微电源在第t个调度时段的燃料成本;N为微电源的个数。
②运行维护成本Som(t)
Figure FDA0003691552530000022
Kom,i为第i个微电源的运行维护成本系数;Pit为第i个微电源第t个调度时段的有功出力;
③停电补偿成本SL(t)
SL(t)=Sbu(t)×PLt
Sbu为微电网系统所有者向用户支付的单位停电量的补偿费用;PLt为微电网第t个调度时段的切负荷量;
④与大电网的电能交互成本Sg(t)
Sg(t)=Sgt(t)×Pgt
Sgt为微电网在第t个调度时段的购售电电价;Pgt为第t个调度时段大电网对微电网的注入功率;
⑤CHP系统的制热收益Ss
Ss=Qht×Kph
Ss为微型燃气轮机第t个调度时段内的制热收益;Qht为第t个调度时段内的热负荷需求;Kph为单位热能的售价;
F2为微电网并网运行时未来一日的环保成本,αim为第i个微电源生产单位电能时污染物m的排放量,αgm为大电网向微电网输送单位电能时大电网内火电机组对污染物m的排放量,F3为微电网运行时第t个调度时段的负荷缺电率,作为供电可靠性的衡量指标,PDt为微电网在第t个调度时段内的电负荷需求,Pimin、Pimax分别为微电网内各微电源的输出功率上限和下限,HMT,d、HMT,u分别为微型燃气轮机向下和向上的爬坡速率,Plmin、Plmax分别为联络线上的极限功率上限和下限。
3.根据权利要求2所述基于深度强化学习的微电网能源系统的多目标安全优化方法,其特征在于:所述多目标安全优化模型的约束条件为:
电功率平衡安全约束:
Figure FDA0003691552530000031
各微电源的输出功率约束:Pimin≤Pit≤Pimax
爬坡率约束:-HMT,dΔt≤PMT,t-PMT,t-1≤HMT,uΔt,
联络线功率约束:Plmin≤Pgt≤Plmax
4.根据权利要求1所述基于深度强化学习的微电网能源系统的多目标安全优化方法,其特征在于:所述步骤2中通过基于惩罚的边界交集法(PBI)的替换策略在其子种群中进行优化的步骤为:
步骤2-1:首先需要产生一组均匀分布的权重向量,N是权重向量的个数,即种群的大小:
ω=(ω123...ωN)T
Figure FDA0003691552530000032
minF(x)=(f1(x),...fm(x))T
s.t.x∈Ω
F(x)为原始多目标问题,是决策空间到目标空间的一个映射,多目标问题分解成多个标量子问题,ω=(ω123...ωN)T为该子问题的搜索方向,
Figure FDA0003691552530000033
为目标空间中的理想点,子问题的解为
Figure FDA0003691552530000034
步骤2-2:基于惩罚的边界交集法(PBI)利用惩罚因子θ构建由解到当前搜索方向的垂直距离和解到参考点的距离组成的单目标优化子问题﹐然后通过优化该子问题推动解逼近真实的帕累托前沿。
5.根据权利要求4所述基于深度强化学习的微电网能源系统的多目标安全优化方法,其特征在于:所述步骤2-2中具体的PBI分解法如下:
minimize gpbi(x|ω,z*)=d1+θd2
subject to x∈Ω
式中
Figure FDA0003691552530000041
Figure FDA0003691552530000042
θ>0为惩罚因子,d1为F(x)与z*连线的投影,用来评价x对解集的收敛性,d2是F(x)与投影点之间的距离,体现多样性。
6.根据权利要求1所述基于深度强化学习的微电网能源系统的多目标安全优化方法,其特征在于:步骤3中运用强化学习中深度确定性策略梯度算法(DDPG)对PBI中惩罚因子θ进行训练,具体包括如下步骤:
步骤3-1:构建一个由两个部分组成的网络:Critict网络和Actor网络,Actor网络根据目前的状态输出相应的动作,Critict网络在每一步都对Actor网络输出的动作进行评估,即估计Actor网络输出的动作的Q值(Qw(s,a));
步骤3-2:Actor网络根据Critict网络评估的Q值更新策略网络权重b,Critict网络根据环境r的反馈,更新Critict网络的权重w,从而使Q值最大,最终得到想要的权重值。
CN202210662643.7A 2022-06-13 2022-06-13 基于深度强化学习的微电网能源系统的多目标安全优化方法 Pending CN114897266A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210662643.7A CN114897266A (zh) 2022-06-13 2022-06-13 基于深度强化学习的微电网能源系统的多目标安全优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210662643.7A CN114897266A (zh) 2022-06-13 2022-06-13 基于深度强化学习的微电网能源系统的多目标安全优化方法

Publications (1)

Publication Number Publication Date
CN114897266A true CN114897266A (zh) 2022-08-12

Family

ID=82727299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210662643.7A Pending CN114897266A (zh) 2022-06-13 2022-06-13 基于深度强化学习的微电网能源系统的多目标安全优化方法

Country Status (1)

Country Link
CN (1) CN114897266A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402002A (zh) * 2023-04-12 2023-07-07 暨南大学 一种用于芯片布局问题的多目标分层强化学习方法
CN116866084A (zh) * 2023-08-30 2023-10-10 国网山东省电力公司信息通信公司 基于强化学习的入侵响应决策方法及系统
CN118572795A (zh) * 2024-07-10 2024-08-30 格瓴新能源科技(杭州)有限公司 基于maddpg和帕累托前沿相结合的微电网群优化调度方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402002A (zh) * 2023-04-12 2023-07-07 暨南大学 一种用于芯片布局问题的多目标分层强化学习方法
CN116402002B (zh) * 2023-04-12 2024-02-06 暨南大学 一种用于芯片布局问题的多目标分层强化学习方法
CN116866084A (zh) * 2023-08-30 2023-10-10 国网山东省电力公司信息通信公司 基于强化学习的入侵响应决策方法及系统
CN116866084B (zh) * 2023-08-30 2023-11-21 国网山东省电力公司信息通信公司 基于强化学习的入侵响应决策方法及系统
CN118572795A (zh) * 2024-07-10 2024-08-30 格瓴新能源科技(杭州)有限公司 基于maddpg和帕累托前沿相结合的微电网群优化调度方法及系统

Similar Documents

Publication Publication Date Title
Azizivahed et al. Multi-objective dynamic distribution feeder reconfiguration in automated distribution systems
CN114897266A (zh) 基于深度强化学习的微电网能源系统的多目标安全优化方法
CN106487005B (zh) 一种考虑输配电价的电网规划方法
CN108347062B (zh) 基于势博弈的微电网能量管理分布式多目标协同优化算法
CN109214593B (zh) 一种主动配电网供电能力多目标评价方法
CN111030188B (zh) 一种含分布式和储能的分层分级控制策略
Kunya et al. Review of economic dispatch in multi-area power system: State-of-the-art and future prospective
Kavousi-Fard et al. Impact of plug-in hybrid electric vehicles charging demand on the optimal energy management of renewable micro-grids
CN107769237B (zh) 基于电动汽车接入的多能源系统协同调度方法及装置
CN110276698A (zh) 基于多智能体双层协同强化学习的分布式可再生能源交易决策方法
Gandhi et al. Review of optimization of power dispatch in renewable energy system
Khaleel Intelligent control techniques for microgrid systems
CN112202206B (zh) 一种基于势博弈的多能源微网分布式调度方法
Rana et al. Real-time scheduling of community microgrid
Corso et al. Multi-objective long term optimal dispatch of distributed energy resources in micro-grids
CN113159366A (zh) 一种多微电网系统多时间尺度自适应优化调度方法
Wang et al. Optimization of economic/environmental operation management for microgrids by using hybrid fireworks algorithm
CN113162090A (zh) 一种计及电池模块容量的储能系统容量配置优化方法
CN110070210B (zh) 一种多微电网系统能量管理与贡献度评估方法和系统
Khorram-Nia et al. Optimal switching in reconfigurable microgrids considering electric vehicles and renewable energy sources
CN105574611A (zh) 一种含分布式电源配电网络的检修计划优化方法
Guiducci et al. A Reinforcement Learning approach to the management of Renewable Energy Communities
CN116882543A (zh) 一种虚拟电厂源-荷协调优化调度方法
Azizivahed et al. Multi-area economic emission dispatch considering load uncertainty
CN116316752A (zh) 一种计及配电网承载力约束的电动汽车有序充电策略优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination