CN111884213A - 一种基于深度强化学习算法的配电网电压调节方法 - Google Patents

一种基于深度强化学习算法的配电网电压调节方法 Download PDF

Info

Publication number
CN111884213A
CN111884213A CN202010732991.8A CN202010732991A CN111884213A CN 111884213 A CN111884213 A CN 111884213A CN 202010732991 A CN202010732991 A CN 202010732991A CN 111884213 A CN111884213 A CN 111884213A
Authority
CN
China
Prior art keywords
state
voltage
node
bess
distribution network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010732991.8A
Other languages
English (en)
Other versions
CN111884213B (zh
Inventor
史景坚
周文涛
张宁
陈桥
籍宁
曹振博
陈懿
孟凡晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Beijing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Beijing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Beijing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010732991.8A priority Critical patent/CN111884213B/zh
Publication of CN111884213A publication Critical patent/CN111884213A/zh
Application granted granted Critical
Publication of CN111884213B publication Critical patent/CN111884213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/24Arrangements for preventing or reducing oscillations of power in networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/10Flexible AC transmission systems [FACTS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/60Superconducting electric elements or equipment; Power systems integrating superconducting elements or equipment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E70/00Other energy conversion or management systems reducing GHG emissions
    • Y02E70/30Systems combining energy storage with energy generation of non-fossil origin
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Power Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于深度强化学习算法的配电网电压调节方法,通过了解配电网电压运行水平影响因素,在配电网末端接入用于系统调压等辅助服务的储能系统,能有效应对分布式可再生能源的高度间歇性以及负荷需求波动导致的系统电压运行水平问题。本发明将电池储能的运行建模为马尔可夫决策过程,考虑其后续调控能力,通过内嵌一个Q深度神经网络来逼近最佳动作价值,以解决状态空间过大的问题。储能荷电状态、可再生能源预测出力以及负荷水平组成状态特征向量作为Q网络的输入,而输出提高电压运行水平的最优离散化充放电动作,并通过回放策略来训练,得到趋于最优调压策略的储能控制方法。

Description

一种基于深度强化学习算法的配电网电压调节方法
【技术领域】
本发明属于电力系统自动化技术领域,涉及一种基于深度强化学习算法的配电网电压调节方法。
【背景技术】
随着配网中清洁能源渗透率的不断提高,其强波动性和高不确定性对配网安全经济运行的影响不断加剧。当大量可再生分布式发电(Renewable Distributed Generation,RDG)接入配电网时,其出力的波动性同时也会对配电网的电压运行水平带来不利影响,甚至会使电压越限。根据配网有功-无功不解耦的特性可知,控制配网有功功率的平衡可快速有效地改善系统电压分布。除了在清洁能源并网点处安装分布式储能外,还可于配网末端配置主要用于系统调压的储能系统,通过多点分布式储能形成规模化汇聚效应,积极有效地面向电网应用,进而改善系统电压运行水平。同时随着储能技术的发展以及其成本的迅速下降,利用储能系统辅助系统调压已逐步成为除传统无功调压方法外的又一种可行的技术手段。
近年来机器学习快速发展,其强大的感知学习能力和数据分析能力契合了智能电网中大数据应用的需求。其中强化学习(Reinforcement Learning,RL)通过决策主体和环境之间的不断交互来获取环境知识,并采取影响环境的行动以达到预设目标。而深度学习(Deep Learning,DL)不依赖于任何解析方程,而利用大量的现有数据来描述数学问题和近似解,将其应用于RL中可以有效缓解价值函数求解困难等问题。
目前,已有较多研究对并网点处用于平抑RDG出力波动的储能控制策略进行分析,通过提高了系统运行稳定性,进而减小节点电压波动,而对直接参与提高系统电压静稳等辅助服务的储能控制方法的研究仍相对较少。针对考虑分布式可再生能源发电的配电网运行电压水平条件问题,调压设备与分布式储能系统协调控制等传统基于模型的方法都需要对RDG和负荷等不确定性因素进行建模分析,且储能最优控制的求解过程复杂,数值迭代收敛较慢,实用性较差。
现有技术中主要有以下技术问题:
1)如何合理地对应用人工智能方法,实现配电网电压运行水平的稳定控制,同时克服传统方法中不确定性建模复杂且收敛性差的问题;
2)如何解决考虑RDG和负荷等确定性因素时状态空间过大所导致的求解困难等问题。
【发明内容】
本发明的目的在于解决现有技术中不确定性建模复杂且收敛性差,以及状态空间过大导致的求解困难等问题,提供一种基于深度强化学习算法的配电网电压调节方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于深度强化学习算法的配电网电压调节方法,包括以下步骤:
S1:搭建多隐层Q网络模型,其输入为状态s的特征向量,输出对应于每一个动作集合A中at的动作价值q,同时初始化Q网络的所有参数θ并清空经验回放集合D;
S2:建立BESS的马尔科夫决策过程,将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程,确定算法控制目标、环境状态特征以及即时奖励;
S3:给出系统各节点负载水平按历史平均值,RDG并网点处按其各自平均历史出力输入,由此计算出配网潮流分布以及各节点电压目标标幺值向量;
S4:初始化迭代轮数T、每次迭代的计算步长step,从1到T开始进行迭代;
S5:在Q网络中使用st作为输入,得到所有动作对应的Q值输出;采用ε贪婪法在当前Q值输出中选择一个对应的动作at,在状态st执行当前动作at,得到新状态特征向量st+1和奖励rt,并判断本次迭代是否为终止状态;
S6:将st、at、rt、st+1和终止判定指标依次存放入经验回放数据集D中,当数据达到一定数量时开始从D中连续采样m个样本,计算当前目标Q值,通过梯度反向传播来更新Q网络的所有超参数,同时令当前状态s=st+1,若s为终止状态则当前轮迭代完毕,或达到迭代轮数T则结束全部迭代,否则转到步骤S5继续进行迭代。
本发明进一步的改进在于:
所述步骤S1的具体方法如下:
BESS通过不断感知负荷需求与可再生能源波动的配电系统环境,并在控制目标下与环境进行交互得到反馈奖励;构建深度Q神经网络,以BESS的荷电状态、RDG预测出力和负荷水平组成状态特征向量st作为Q网络输入,输出最优离散化充放电动作价值Qt,并最终通过回放集数据进行网络训练来迭代收敛;
搭建双隐层架构并确定各隐层节点数目,激活函数选取ReLu函数来加速收敛过程;正态初始化层间权重ω,初始化偏置b都为趋于0的常数;确定经验回放集合D的容量大小,并清空D进行存储备用;
当感知到环境状态的变化后,agent将控制BESS反馈相应的动作a(t),将BESS的动作Pbe按其范围划分为K个离散的充放电选择,从而均匀离散化动作空间A:
Figure BDA0002603869620000041
式中,A为所有可能动作组成的集合;Pbe (k)表示BESS均匀离散动作空间中的第k个充电/放电动作。
所述步骤S2的具体方法如下:
储能充电递推关系为:
SoC(t)=(1-σsdr)·SoC(t-1)+Pbe·(1-Lc)Δt/Ecap
储能放电过程表示如下:
SoC(t)=(1-σsdr)·SoC(t-1)-PbeΔt/[Ecap·(1-Ldc)]
式中:SoC(t)为BESS在t时段的荷电状态;Pbe(t)为BESS在t时段的充放电功率;σsdr为储能介质的自放电率;Lc和Ldc分别为BESS的充电和放电损耗;△t为每个计算窗口时长;
BESS在t时刻的最大允许充放电功率由其自身的充放电特性和t时刻的剩余荷电状态所决定,同时运行过程中满足约束:
SoCmin≤SoC(t)≤SoCmax
式中:SoCmax和SoCmin分别为BESS荷电状态约束的上、下限;
RL利用马尔科夫决策过程来简化其建模,将MDP定义为一个四元组,所述四元组为:S,A,r,f,其中:S为所有环境状态的集合,st∈S表示agent在t时刻所处的状态;A为agent可执行动作的集合,at∈A表示agent在t时刻所采取的动作;r为奖赏函数,rt~r(st,at)表示agent在状态st执行动作at获得的立即奖赏值;f为状态转移概率分布函数,st+1~f(st,at)表示agent在在状态st执行动作at转移到下一状态st+1的概率;马尔科夫模型的目标是在初始化状态s后,找到一种最大化预期奖励总和的最优计划策略
Figure BDA0002603869620000042
Figure BDA0002603869620000051
式中,Eπ表示在策略π下对价值的期望;0<γ<1是强化学习中表征未来奖励重要程度的一个衰减系数。
利用DQN进行改进求解,映射关系如下:
(1)控制目标
利用储能的灵活充放特性来改善所在配电区域的电压静态稳定性,其控制目标为:
4)使系统节点电压平均波动最小化;
Figure BDA0002603869620000052
5)使系统薄弱节点电压波动最小化;
Figure BDA0002603869620000053
6)储能需保留后备容量用于系统后续调压,即吸收系统电能余量或者补充电能缺额;使BESS最大化地保存能量以用于平抑下一时刻的功率波动;
min|SoC(t)-SoC0|
式中,N为配电网总节点个数;Vi(t)为节点i在t时刻的静态电压标幺值,在RDG实际出力和实际负荷条件下计算得到;Vi.base为节点i的基准标幺值,作为节点电压维稳的目标,Vi.base是在配网平均负荷水平条件下,各分布式可再生能源按其历史平均出力,通过潮流计算得到;SoC0为其参与调压的初始荷电状态值;
(2)环境状态特征
对于一个拓扑参数确定的配电网系统,定义BESS在时刻t所感知到的环境状态特征向量为st为:
st=(SoC(t),PVi.pre(t),…,WTj.pre(t),…,Lall(t))T
式中,PVi.pre(t)为接有光伏发电的节点i在时刻t的光伏注入有功功率的预测值;WTj.pre(t)为接有风力发电的节点j在时刻t的风电注入有功功率的预测值;Lall(t)为时刻t时配电网负荷大小;
(3)反馈奖励
BESS在不断感知和学习过程中,所获得的单步奖励应包括反映电压稳定性的节点电压平均波动和节点电压最大波动,以及考虑储能后续提供调压服务能力的容量裕度;在给定环境状态st和选择动作at之后的奖励rt定义为:
Figure BDA0002603869620000061
rt2=-|SoC(t)-SoC0|
Figure BDA0002603869620000062
式中,α∈(0,1),表示考虑电压稳定指标的奖励权重;rdone为惩罚,取值为负的常数。
所述步骤S3的具体方法如下:
Vbase是在配网平均负荷水平条件下,各分布式可再生能源按其历史平均出力,通过潮流计算得到;首先计算RDG并网点处光伏和风力发电的平均历史出力,系统各节点负载水平按历史平均值计算,采用MATPOWER软件的PQ分解法进行配电网潮流计算,得到所有节点的基准标幺值组成的向量Vbase作为节点电压维稳的目标;其中潮流计算过程满足以下约束:
(1)潮流约束:
Figure BDA0002603869620000063
式中,PNi和QNi为节点有功和无功注入功率;PDi和QDi为节点有功和无功输出功率;Vi和Vj为节点电压幅值;αij为节点电压相角差;Gij和Bij为节点导纳的实部和虚部;Sn为节点集合;
(2)稳定运行约束:
Figure BDA0002603869620000071
式中,PmaxGi和PminGi为发电机有功出力上、下限;QmaxGi和QminGi为无功源输出上、下限;Vmaxi和Vmini为节点电压上、下限;Pmaxij和Pminij为线路热稳定约束上下限;Sl为线路集合。
所述步骤S4的具体方法如下:
包括初始化迭代轮数T、每次迭代的计算步长step、衰减因子γ、贪婪策略的初始εini和终止εfin、回放集合容量大小D以及小批量训练样本数量m,然后从1到T开始进行迭代,每次迭代开始时,同时初始化BESS的荷电状态和环境状态特征向量st;DQN的学习过程中,首先agent在每个时刻与环境交互得到一个多维状态量,并利用DL方法来感知观察;然后基于预期奖励来评估各动作的价值函数,并将当前状态映射为相应的动作;最后环境做出相关反馈更新,agent得到下一个状态观察,并不断循环以上过程,最终得到实现预期目标的最优策略。
所述步骤S5的具体方法如下:
对于ε-greedy策略,首先通过设置∈∈(0,1)的值,则在对应的动作时,以概率(1-∈)贪婪地选择当前被视为最大Q价值的最优动作a*,而以∈的概率从所有K个离散的可选行为中随机探索潜在的行为:
Figure BDA0002603869620000081
其中,ε将随着迭代过程从εini逐渐减小εfin
done为迭代终止判定指标,用作DQN每次迭代过程的中断指标:
Figure BDA0002603869620000082
式中,如果储能运行过程中起荷电状态越限,则本次迭代的done等于1,否则为0;done=1表示终止而跳出本次迭代,done=0表示未终止。
所述步骤S6的具体方法如下:
在潮流不断迭代更新的过程中,每个数段t都将st、at、rt、st+1和终止判定指标done组成的五元组{st,at,rt,st+1,done}存放入经验回放集合D中;当存入数量达到回放集合容量大小D时,按个滚动溢出旧的数据而存入新数据,保证D中样本的有效性;一旦样本数量达到小批量训练样本数量m时,就开始从D中随机采样m个样本
Figure BDA0002603869620000083
其中,j=1,2..,m;计算每个样本对应的当前目标Q值yj
Figure BDA0002603869620000084
使用均方差损失函数L(θ),通过神经网络的梯度反向传播来更新Q网络的所有参数θ:
Figure BDA0002603869620000085
Figure BDA0002603869620000086
通过感知数据来驱动收敛得到BESS的最优离散化充放电策略,最终得到一个能够用于BESS自主进行最优充放电决策的DQN模型。
与现有技术相比,本发明具有以下有益效果:
本发明首先考虑电池储能系统的后续调控能力,将其运行建模为马尔可夫决策过程,以此构建基础Q-learning模型,避免了传统方法对RDG和负荷等不确定性模型进行复杂的建模;然后,为解决传统强化学习无法应对的配电网环境状态空间连续的问题,通过内嵌一个以包括分布式可再生能源出力等配网环境状态特征向量为输入、以蓄电池储能系统(Battery Energy Storage System,BESS)最优离散化充放电动作为输出的多隐层深度Q网络来逼近最佳动作价值,通过对最优动作价值函数的逼近而不依赖于任何解析方程,大大提升了传统Q-learning的应用性能,解决了配网环境状态连续且空间巨大导致的无法迭代求解等问题;在TensorFlow平台搭建基于Deep Q network(DQN)的深度强化学习算法架构,结合潮流时序求解器(MATPOWER)来更新环境状态,存储训练样本数据并最终通过经验回放(experience replay)策略进行训练收敛Q网络的超参数,以此得到趋于最优调压策略的储能控制方法。所提深度强化学习(Deep reinforcement Learning,DRL)算法计算效率较高,无需建立显式的RDG和负荷的不确定性模型,克服了传统方法中建模复杂且收敛性差,以及状态空间过大导致的求解困难等问题。
【附图说明】
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明调节方法的流程图;
图2为本发明的Q网络结构图;
图3为本发明基于经验回放的网络训练方法图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明基于深度强化学习算法的配电网电压调节方法,包括以下步骤:
S1:搭建多隐层Q网络模型,其输入为状态s的特征向量,输出对应于每一个动作集合A中at的动作价值q,同时初始化Q网络的所有参数θ并清空经验回放集合D;具体方法如下:
BESS通过不断感知负荷需求与可再生能源波动的配电系统环境,并在控制目标下与环境进行交互得到反馈奖励。构建深度Q神经网络,以BESS的荷电状态、RDG预测出力和负荷水平组成状态特征向量st作为Q网络输入,输出最优离散化充放电动作价值Qt,并最终通过回放集数据进行网络训练来迭代收敛。这种基于无模型强化学习和数据驱动的储能智能化控制方法,具备更高的计算效率和可观的拟合精度,且自适应能力较强。
搭建双隐层架构并确定各隐层节点数目,激活函数选取ReLu函数来加速收敛过程。正态初始化层间权重ω,初始化偏置b都为趋于0的常数。确定经验回放集合D的容量大小,并清空D进行存储备用。
当感知到环境状态的变化后,agent将控制BESS反馈相应的动作a(t),将BESS的动作Pbe按其范围划分为K个离散的充放电选择[21],从而均匀离散化动作空间A
Figure BDA0002603869620000121
式中,A为所有可能动作组成的集合;Pbe (k)表示BESS均匀离散动作空间中的第k个充电/放电动作。
S2:建立BESS的马尔科夫决策过程,将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程,确定算法控制目标、环境状态特征以及即时奖励等;具体方法如下:
建立BESS的马尔科夫决策过程,将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程,具体为:
BESS的剩余电量在充放电过程中不断变化,其变化量与该时段内的充、放电电量和自放电有关。储能充电递推关系为
SoC(t)=(1-σsdr)·SoC(t-1)+Pbe·(1-Lc)Δt/Ecap
储能放电过程表示如下
SoC(t)=(1-σsdr)·SoC(t-1)-PbeΔt/[Ecap·(1-Ldc)]
式中:SoC(t)为BESS在t时段的荷电状态(state of charge,SoC);Pbe(t)为BESS在t时段的充放电功率;σsdr为储能介质的自放电率;Lc和Ldc分别为BESS的充电和放电损耗;△t为每个计算窗口时长。
BESS在t时刻的最大允许充放电功率由其自身的充放电特性和t时刻的剩余荷电状态所决定,同时运行过程中满足约束:
SoCmin≤SoC(t)≤SoCmax
式中:SoCmax和SoCmin分别为BESS荷电状态约束的上、下限。
而强化学习是一种从环境状态映射到动作的学习,目标是使代理(agent)在与环境的交互过程中获得最大的累积奖赏。RL利用马尔科夫决策过程(Markov DecisionProcess,MDP)来简化其建模,通常将MDP定义为一个四元组(S,A,r,f),其中:S为所有环境状态的集合,st∈S表示agent在t时刻所处的状态;A为agent可执行动作的集合,at∈A表示agent在t时刻所采取的动作;r为奖赏函数,rt~r(st,at)表示agent在状态st执行动作at获得的立即奖赏值;f为状态转移概率分布函数,st+1~f(st,at)表示agent在在状态st执行动作at转移到下一状态st+1的概率。马尔科夫模型的目标是在初始化状态s后,找到一种最大化预期奖励总和的最优计划策略
Figure BDA0002603869620000131
Figure BDA0002603869620000132
式中,Eπ表示在策略π下对价值的期望;0<γ<1是强化学习中表征未来奖励重要程度的一个衰减系数。
在问题的规模比较小时,算法相对容易求解。然而对于实际问题来说,状态空间通常会很大,传统迭代求解的计算成本过高,且难以保证收敛,所以需要利用DQN进行改进求解。对应于本发明所提的提高配电网电压运行水平的储能DQN算法,映射关系如下:
(1)控制目标
利用储能的灵活充放特性来改善所在配电区域的电压静态稳定性,其控制目标为
1)使系统节点电压平均波动最小化。
Figure BDA0002603869620000133
2)使系统薄弱节点电压波动最小化。
Figure BDA0002603869620000134
3)储能需保留一定的后备容量用于系统后续调压,即吸收系统电能余量或者补充电能缺额。使BESS最大化地保存能量以用于平抑下一时刻的功率波动。
min|SoC(t)-SoC0|
式中,N为配电网总节点个数;Vi(t)为节点i在t时刻的静态电压标幺值,在RDG实际出力和实际负荷条件下计算得到;Vi.base为节点i的基准标幺值,作为节点电压维稳的目标,Vi.base是在配网平均负荷水平条件下,各分布式可再生能源按其历史平均出力,通过潮流计算得到;SoC0为其参与调压的初始荷电状态值。
(2)环境状态特征
对于一个拓扑参数确定的配电网系统,定义BESS在时刻t所感知到的环境状态特征向量为st
st=(SoC(t),PVi.pre(t),…,WTj.pre(t),…,Lall(t))T
式中,PVi.pre(t)为接有光伏发电的节点i在时刻t的光伏注入有功功率的预测值;WTj.pre(t)为接有风力发电的节点j在时刻t的风电注入有功功率的预测值;Lall(t)为时刻t时配电网负荷大小。
(3)反馈奖励
BESS在不断感知和学习过程中,所获得的单步奖励应包括反映电压稳定性的节点电压平均波动和节点电压最大波动,以及考虑储能后续提供调压服务能力的容量裕度。在给定环境状态st和选择动作at之后的奖励rt定义为
Figure BDA0002603869620000141
rt2=-|SoC(t)-SoC0|
Figure BDA0002603869620000142
式中,α∈(0,1),表示考虑电压稳定指标的奖励权重;rdone为较大的惩罚,取值为负的常数。
S3:系统各节点负载水平按历史平均值给出,RDG并网点处按其各自平均历史出力输入,由此计算出配网潮流分布以及各节点电压目标标幺值向量;具体方法如下:
Vbase是在配网平均负荷水平条件下,各分布式可再生能源按其历史平均出力,通过潮流计算得到。首先计算RDG并网点处光伏和风力发电的平均历史出力,系统各节点负载水平按历史平均值计算,采用MATPOWER软件的PQ分解法进行配电网潮流计算,得到所有节点的基准标幺值组成的向量Vbase作为节点电压维稳的目标。其中潮流计算过程满足以下约束
(1)潮流约束:
Figure BDA0002603869620000151
式中,PNi和QNi为节点有功和无功注入功率;PDi和QDi为节点有功和无功输出功率;Vi和Vj为节点电压幅值;αij为节点电压相角差;Gij和Bij为节点导纳的实部和虚部;Sn为节点集合。
(2)稳定运行约束:
Figure BDA0002603869620000152
式中,PmaxGi和PminGi为发电机有功出力上、下限;QmaxGi和QminGi为无功源输出上、下限;Vmaxi和Vmini为节点电压上、下限;Pmaxij和Pminij为线路热稳定约束上下限;Sl为线路集合。
S4:初始化迭代轮数T、每次迭代的计算步长step等DQN算法的迭代参数,从1到T开始进行迭代;具体方法如下:
迭代参数包括初始化迭代轮数T、每次迭代的计算步长step、衰减因子γ、贪婪策略的初始εini和终止εfin、回放集合容量大小D、小批量训练样本数量m等算法参数,然后从1到T开始进行迭代,每次迭代开始时,同时初始化BESS的荷电状态和环境状态特征向量st。DQN的学习过程中,首先agent在每个时刻与环境交互得到一个多维状态量,并利用DL方法来感知观察;然后基于预期奖励来评估各动作的价值函数,并通过一定策略将当前状态映射为相应的动作;最后环境做出相关反馈更新,agent得到下一个状态观察,并不断循环以上过程,最终可以得到实现预期目标的最优策略。
S5:在Q网络中使用st作为输入,得到所有动作对应的Q值输出。采用ε贪婪法在当前Q值输出中选择一个对应的动作at,在状态st执行当前动作at,得到新状态特征向量st+1和奖励rt,并判断本次迭代是否为终止状态;具体方法包括:
对于ε-greedy策略,首先通过设置∈∈(0,1)的值,则在对应的动作时,以概率(1-∈)贪婪地选择当前被视为最大Q价值的最优动作a*,而以∈的概率从所有K个离散的可选行为中随机探索潜在的行为
Figure BDA0002603869620000161
其中,ε将随着迭代过程从εini逐渐减小εfin,以便在迭代的早期鼓励多进行探索,而在后期主要关注贪婪,以便算法可以稳定收敛。
done为迭代终止判定指标,用作DQN每次迭代过程的中断指标
Figure BDA0002603869620000171
式中,如果储能运行过程中起荷电状态越限,则本次迭代的done等于1,否则为0。done=1表示终止而跳出本次迭代,done=0表示未终止。
S6:将st、at、rt、st+1和终止判定指标依次存放入经验回放数据集D中,当数据达到一定数量时开始从D中连续采样m个样本,计算当前目标Q值,通过梯度反向传播来更新Q网络的所有超参数,同时令当前状态s=st+1,若s为终止状态则当前轮迭代完毕,或达到迭代轮数T则结束全部迭代,否则转到步骤S5继续进行迭代。具体方法如下:
在潮流不断迭代更新的过程中,每个数段t都将st、at、rt、st+1和终止判定指标done组成的五元组{st,at,rt,st+1,done}存放入经验回放集合D中。当存入数量达到回放集合容量大小D时,按个滚动溢出旧的数据而存入新数据,保证D中样本的有效性。一旦样本数量达到小批量训练样本数量m时,就开始从D中随机采样m个样本
Figure BDA0002603869620000172
(j=1,2..,m),计算每个样本对应的当前目标Q值yj
Figure BDA0002603869620000173
使用均方差损失函数L(θ),通过神经网络的梯度反向传播来更新Q网络的所有参数θ
Figure BDA0002603869620000174
Figure BDA0002603869620000175
通过大量考虑了不确定性的储能荷电状态、可再生能源预测出力以及负荷水平作为感知数据来驱动收敛得到BESS的最优离散化充放电策略,最终得到一个可用于BESS自主进行最优充放电决策的DQN模型。
本发明的原理:
本发明将电池储能系统运行建模为马尔可夫决策过程,通过内嵌一个多隐层深度Q网络来逼近最佳动作价值,基于Deep Q network的深度强化学习算法寻找趋于最优调压策略的储能控制方法。基于此,提出了基于无模型深度强化学习的储能智能化控制方法,这种基于无模型强化学习和数据驱动的智能化控制方法,具备更高的计算效率和可观的拟合精度,且自适应能力较强。
搭建多隐层Q网络模型,其输入为状态s的特征向量,即以BESS的荷电状态、RDG预测出力和负荷水平组成状态特征向量st作为Q网络输入,输出对应于每一个动作集合A中at的动作价值,即输出最优离散化充放电动作价值Qt,当感知到环境状态的变化后,agent将控制BESS反馈相应的动作a(t),则需将BESS的动作Pbe按其范围划分为K个离散的充放电选择,从而均匀离散化动作空间A。并最终通过回放集数据进行网络训练来迭代收敛。
本发明利用储能的灵活充放特性来改善所在配电区域的电压静态稳定性,其控制目标为多个最目标,包括使系统节点电压平均波动最小化、使系统薄弱节点电压波动最小化以及考虑储能一定的后备容量用于系统后续调压;其环境状态特征包括各时段的储能荷电状态、光伏和风力发电的节点的注入有功功率的预测值、配电网负荷水平。
本发明系统各节点负载水平按历史平均值给出,RDG并网点处按其各自平均历史出力输入,通过Matpower潮流求解器计算出配网潮流分布以及各节点电压目标标幺值向量,同时将Matlab软件与基于Tensorflow架构的Python环境进行对接,以便后续迭代调用求解节点电压。
本发明在潮流不断迭代更新的过程中,每个数段t都将st、at、rt、st+1和终止判定指标done组成的五元组存放入经验回放集合D中。当存入数量达到回放集合容量大小D时,按个滚动溢出旧的数据而存入新数据,保证D中样本的有效性。一旦样本数量达到小批量训练样本数量m时,就开始从D中随机采样m个样本进行训练,使用均方差损失函数L(θ),通过神经网络的梯度反向传播来更新Q网络的所有参数。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度强化学习算法的配电网电压调节方法,其特征在于,包括以下步骤:
S1:搭建多隐层Q网络模型,其输入为状态s的特征向量,输出对应于每一个动作集合A中at的动作价值q,同时初始化Q网络的所有参数θ并清空经验回放集合D;
S2:建立BESS的马尔科夫决策过程,将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程,确定算法控制目标、环境状态特征以及即时奖励;
S3:给出系统各节点负载水平按历史平均值,RDG并网点处按其各自平均历史出力输入,由此计算出配网潮流分布以及各节点电压目标标幺值向量;
S4:初始化迭代轮数T、每次迭代的计算步长step,从1到T开始进行迭代;
S5:在Q网络中使用st作为输入,得到所有动作对应的Q值输出;采用ε贪婪法在当前Q值输出中选择一个对应的动作at,在状态st执行当前动作at,得到新状态特征向量st+1和奖励rt,并判断本次迭代是否为终止状态;
S6:将st、at、rt、st+1和终止判定指标依次存放入经验回放数据集D中,当数据达到一定数量时开始从D中连续采样m个样本,计算当前目标Q值,通过梯度反向传播来更新Q网络的所有超参数,同时令当前状态s=st+1,若s为终止状态则当前轮迭代完毕,或达到迭代轮数T则结束全部迭代,否则转到步骤S5继续进行迭代。
2.根据权利要求1所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,所述步骤S1的具体方法如下:
BESS通过不断感知负荷需求与可再生能源波动的配电系统环境,并在控制目标下与环境进行交互得到反馈奖励;构建深度Q神经网络,以BESS的荷电状态、RDG预测出力和负荷水平组成状态特征向量st作为Q网络输入,输出最优离散化充放电动作价值Qt,并最终通过回放集数据进行网络训练来迭代收敛;
搭建双隐层架构并确定各隐层节点数目,激活函数选取ReLu函数来加速收敛过程;正态初始化层间权重ω,初始化偏置b都为趋于0的常数;确定经验回放集合D的容量大小,并清空D进行存储备用;
当感知到环境状态的变化后,agent将控制BESS反馈相应的动作a(t),将BESS的动作Pbe按其范围划分为K个离散的充放电选择,从而均匀离散化动作空间A:
Figure FDA0002603869610000021
式中,A为所有可能动作组成的集合;Pbe (k)表示BESS均匀离散动作空间中的第k个充电/放电动作。
3.根据权利要求1所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,所述步骤S2的具体方法如下:
储能充电递推关系为:
SoC(t)=(1-σsdr)·SoC(t-1)+Pbe·(1-Lc)Δt/Ecap
储能放电过程表示如下:
SoC(t)=(1-σsdr)·SoC(t-1)-PbeΔt/[Ecap·(1-Ldc)]
式中:SoC(t)为BESS在t时段的荷电状态;Pbe(t)为BESS在t时段的充放电功率;σsdr为储能介质的自放电率;Lc和Ldc分别为BESS的充电和放电损耗;△t为每个计算窗口时长;
BESS在t时刻的最大允许充放电功率由其自身的充放电特性和t时刻的剩余荷电状态所决定,同时运行过程中满足约束:
SoCmin≤SoC(t)≤SoCmax
式中:SoCmax和SoCmin分别为BESS荷电状态约束的上、下限;
RL利用马尔科夫决策过程来简化其建模,将MDP定义为一个四元组,所述四元组为:S,A,r,f,其中:S为所有环境状态的集合,st∈S表示agent在t时刻所处的状态;A为agent可执行动作的集合,at∈A表示agent在t时刻所采取的动作;r为奖赏函数,rt~r(st,at)表示agent在状态st执行动作at获得的立即奖赏值;f为状态转移概率分布函数,st+1~f(st,at)表示agent在在状态st执行动作at转移到下一状态st+1的概率;马尔科夫模型的目标是在初始化状态s后,找到一种最大化预期奖励总和的最优计划策略
Figure FDA0002603869610000031
Figure FDA0002603869610000032
式中,Eπ表示在策略π下对价值的期望;0<γ<1是强化学习中表征未来奖励重要程度的一个衰减系数。
4.根据权利要求3所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,利用DQN进行改进求解,映射关系如下:
(1)控制目标
利用储能的灵活充放特性来改善所在配电区域的电压静态稳定性,其控制目标为:
1)使系统节点电压平均波动最小化;
Figure FDA0002603869610000033
2)使系统薄弱节点电压波动最小化;
Figure FDA0002603869610000034
3)储能需保留后备容量用于系统后续调压,即吸收系统电能余量或者补充电能缺额;使BESS最大化地保存能量以用于平抑下一时刻的功率波动;
min|SoC(t)-SoC0|
式中,N为配电网总节点个数;Vi(t)为节点i在t时刻的静态电压标幺值,在RDG实际出力和实际负荷条件下计算得到;Vi.base为节点i的基准标幺值,作为节点电压维稳的目标,Vi.base是在配网平均负荷水平条件下,各分布式可再生能源按其历史平均出力,通过潮流计算得到;SoC0为其参与调压的初始荷电状态值;
(2)环境状态特征
对于一个拓扑参数确定的配电网系统,定义BESS在时刻t所感知到的环境状态特征向量为st为:
st=(SoC(t),PVi.pre(t),…,WTj.pre(t),…,Lall(t))T
式中,PVi.pre(t)为接有光伏发电的节点i在时刻t的光伏注入有功功率的预测值;WTj.pre(t)为接有风力发电的节点j在时刻t的风电注入有功功率的预测值;Lall(t)为时刻t时配电网负荷大小;
(3)反馈奖励
BESS在不断感知和学习过程中,所获得的单步奖励应包括反映电压稳定性的节点电压平均波动和节点电压最大波动,以及考虑储能后续提供调压服务能力的容量裕度;在给定环境状态st和选择动作at之后的奖励rt定义为:
Figure FDA0002603869610000041
rt2=-|SoC(t)-SoC0|
Figure FDA0002603869610000042
式中,α∈(0,1),表示考虑电压稳定指标的奖励权重;rdone为惩罚,取值为负的常数。
5.根据权利要求1所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,所述步骤S3的具体方法如下:
Vbase是在配网平均负荷水平条件下,各分布式可再生能源按其历史平均出力,通过潮流计算得到;首先计算RDG并网点处光伏和风力发电的平均历史出力,系统各节点负载水平按历史平均值计算,采用MATPOWER软件的PQ分解法进行配电网潮流计算,得到所有节点的基准标幺值组成的向量Vbase作为节点电压维稳的目标;其中潮流计算过程满足以下约束:
(1)潮流约束:
Figure FDA0002603869610000051
式中,PNi和QNi为节点有功和无功注入功率;PDi和QDi为节点有功和无功输出功率;Vi和Vj为节点电压幅值;αij为节点电压相角差;Gij和Bij为节点导纳的实部和虚部;Sn为节点集合;
(2)稳定运行约束:
Figure FDA0002603869610000052
式中,PmaxGi和PminGi为发电机有功出力上、下限;QmaxGi和QminGi为无功源输出上、下限;Vmaxi和Vmini为节点电压上、下限;Pmaxij和Pminij为线路热稳定约束上下限;Sl为线路集合。
6.根据权利要求1所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,所述步骤S4的具体方法如下:
包括初始化迭代轮数T、每次迭代的计算步长step、衰减因子γ、贪婪策略的初始εini和终止εfin、回放集合容量大小D以及小批量训练样本数量m,然后从1到T开始进行迭代,每次迭代开始时,同时初始化BESS的荷电状态和环境状态特征向量st;DQN的学习过程中,首先agent在每个时刻与环境交互得到一个多维状态量,并利用DL方法来感知观察;然后基于预期奖励来评估各动作的价值函数,并将当前状态映射为相应的动作;最后环境做出相关反馈更新,agent得到下一个状态观察,并不断循环以上过程,最终得到实现预期目标的最优策略。
7.根据权利要求1所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,所述步骤S5的具体方法如下:
对于ε-greedy策略,首先通过设置∈∈(0,1)的值,则在对应的动作时,以概率(1-∈)贪婪地选择当前被视为最大Q价值的最优动作a*,而以∈的概率从所有K个离散的可选行为中随机探索潜在的行为:
Figure FDA0002603869610000061
其中,ε将随着迭代过程从εini逐渐减小εfin
done为迭代终止判定指标,用作DQN每次迭代过程的中断指标:
Figure FDA0002603869610000062
式中,如果储能运行过程中起荷电状态越限,则本次迭代的done等于1,否则为0;done=1表示终止而跳出本次迭代,done=0表示未终止。
8.根据权利要求1所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,所述步骤S6的具体方法如下:
在潮流不断迭代更新的过程中,每个数段t都将st、at、rt、st+1和终止判定指标done组成的五元组{st,at,rt,st+1,done}存放入经验回放集合D中;当存入数量达到回放集合容量大小D时,按个滚动溢出旧的数据而存入新数据,保证D中样本的有效性;一旦样本数量达到小批量训练样本数量m时,就开始从D中随机采样m个样本
Figure FDA0002603869610000071
其中,j=1,2..,m;计算每个样本对应的当前目标Q值yj
Figure FDA0002603869610000072
使用均方差损失函数L(θ),通过神经网络的梯度反向传播来更新Q网络的所有参数θ:
Figure FDA0002603869610000073
θi=θi-1+α▽θiLii)
通过感知数据来驱动收敛得到BESS的最优离散化充放电策略,最终得到一个能够用于BESS自主进行最优充放电决策的DQN模型。
CN202010732991.8A 2020-07-27 2020-07-27 一种基于深度强化学习算法的配电网电压调节方法 Active CN111884213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010732991.8A CN111884213B (zh) 2020-07-27 2020-07-27 一种基于深度强化学习算法的配电网电压调节方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010732991.8A CN111884213B (zh) 2020-07-27 2020-07-27 一种基于深度强化学习算法的配电网电压调节方法

Publications (2)

Publication Number Publication Date
CN111884213A true CN111884213A (zh) 2020-11-03
CN111884213B CN111884213B (zh) 2022-03-08

Family

ID=73201723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010732991.8A Active CN111884213B (zh) 2020-07-27 2020-07-27 一种基于深度强化学习算法的配电网电压调节方法

Country Status (1)

Country Link
CN (1) CN111884213B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465664A (zh) * 2020-11-12 2021-03-09 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112488452A (zh) * 2020-11-06 2021-03-12 中国电子科技集团公司第十八研究所 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法
CN112600939A (zh) * 2020-12-31 2021-04-02 广州云博互联网技术有限公司 一种监护仪控制信息检测方法、系统、服务器及存储介质
CN112859591A (zh) * 2020-12-23 2021-05-28 华电电力科学研究院有限公司 一种面向能源系统运行优化的强化学习控制系统
CN113036772A (zh) * 2021-05-11 2021-06-25 国网江苏省电力有限公司南京供电分公司 一种基于深度强化学习的配电网拓扑电压调节方法
CN113157043A (zh) * 2021-04-29 2021-07-23 中山大学 基于强化学习的异构多核处理器动态电压调节方法及系统
CN113363998A (zh) * 2021-06-21 2021-09-07 东南大学 一种基于多智能体深度强化学习的配电网电压控制方法
CN113596020A (zh) * 2021-07-28 2021-11-02 深圳供电局有限公司 一种智能电网虚假数据注入攻击漏洞检测方法
CN113608867A (zh) * 2021-07-19 2021-11-05 南京中科逆熵科技有限公司 基于强化学习的多数据ssd中的闪存资源分配方法
CN113644671A (zh) * 2021-07-30 2021-11-12 湖南工业大学 基于深度强化学习的城轨混合储能系统功率动态分配控制方法
CN113725863A (zh) * 2021-07-30 2021-11-30 国家电网有限公司 基于人工智能的电网自主控制与决策方法及系统
CN113759717A (zh) * 2021-08-20 2021-12-07 中国航空工业集团公司西安飞行自动控制研究所 一种近实时机动轨迹生成与跟踪的控制方法
CN114051256A (zh) * 2021-11-22 2022-02-15 广州捷锐企业管理有限公司 一种择优近端策略优化方法
CN114048576A (zh) * 2021-11-24 2022-02-15 国网四川省电力公司成都供电公司 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN114330113A (zh) * 2021-12-17 2022-04-12 北京理工大学 基于深度强化学习的新能源电力系统弹性优化方法
CN114330649A (zh) * 2021-12-13 2022-04-12 南京邮电大学 一种基于进化学习和深度强化学习的电压调节方法及系统
CN114355767A (zh) * 2022-03-21 2022-04-15 青岛理工大学 基于q学习的养老建筑室内热环境的无模型控制方法
CN114447942A (zh) * 2022-02-08 2022-05-06 东南大学 一种主动配电网负荷侧多元调压方法、设备及存储介质
CN114800510A (zh) * 2022-05-06 2022-07-29 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN114898822A (zh) * 2022-07-15 2022-08-12 烟台国工智能科技有限公司 基于价值学习的多目标属性分子生成方法及系统
CN114905510A (zh) * 2022-04-29 2022-08-16 南京邮电大学 基于自适应近端优化的机器人动作方法
CN115133540A (zh) * 2022-07-27 2022-09-30 电子科技大学 一种配电网无模型的实时电压控制方法
CN115313447A (zh) * 2022-10-10 2022-11-08 深圳先进技术研究院 一种混合储能系统充放电状态实时优化控制方法
CN115528712A (zh) * 2022-11-23 2022-12-27 国网天津市电力公司滨海供电分公司 一种源网荷储备不同区储能容量平衡方法及系统
CN116233895A (zh) * 2023-05-04 2023-06-06 合肥工业大学 基于强化学习的5g配网节点通信优化方法、设备及介质
CN116388279A (zh) * 2023-05-23 2023-07-04 安徽中超光电科技有限公司 太阳能光伏发电系统中的电网并网控制方法及其控制系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007110809A (ja) * 2005-10-12 2007-04-26 Tokyo Electric Power Co Inc:The 分散型電源を配電ネットワークに連系する際の条件を決定する支援システム及び支援方法
US20140277599A1 (en) * 2013-03-13 2014-09-18 Oracle International Corporation Innovative Approach to Distributed Energy Resource Scheduling
CN108932671A (zh) * 2018-06-06 2018-12-04 上海电力学院 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN108964042A (zh) * 2018-07-24 2018-12-07 合肥工业大学 基于深度q网络的区域电网运行点调度优化方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN110535146A (zh) * 2019-08-27 2019-12-03 哈尔滨工业大学 基于深度确定策略梯度强化学习的电力系统无功优化方法
CN110729740A (zh) * 2019-07-03 2020-01-24 清华大学 配电网无功优化方法、装置、计算机设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007110809A (ja) * 2005-10-12 2007-04-26 Tokyo Electric Power Co Inc:The 分散型電源を配電ネットワークに連系する際の条件を決定する支援システム及び支援方法
US20140277599A1 (en) * 2013-03-13 2014-09-18 Oracle International Corporation Innovative Approach to Distributed Energy Resource Scheduling
CN108932671A (zh) * 2018-06-06 2018-12-04 上海电力学院 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN108964042A (zh) * 2018-07-24 2018-12-07 合肥工业大学 基于深度q网络的区域电网运行点调度优化方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN110729740A (zh) * 2019-07-03 2020-01-24 清华大学 配电网无功优化方法、装置、计算机设备及可读存储介质
CN110535146A (zh) * 2019-08-27 2019-12-03 哈尔滨工业大学 基于深度确定策略梯度强化学习的电力系统无功优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
史景坚等: "含储能系统的配电网电压调节深度强化学习算法", 《电力建设》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488452A (zh) * 2020-11-06 2021-03-12 中国电子科技集团公司第十八研究所 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法
CN112465664A (zh) * 2020-11-12 2021-03-09 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112465664B (zh) * 2020-11-12 2022-05-03 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112859591A (zh) * 2020-12-23 2021-05-28 华电电力科学研究院有限公司 一种面向能源系统运行优化的强化学习控制系统
CN112859591B (zh) * 2020-12-23 2022-10-21 华电电力科学研究院有限公司 一种面向能源系统运行优化的强化学习控制系统
CN112600939A (zh) * 2020-12-31 2021-04-02 广州云博互联网技术有限公司 一种监护仪控制信息检测方法、系统、服务器及存储介质
CN113157043A (zh) * 2021-04-29 2021-07-23 中山大学 基于强化学习的异构多核处理器动态电压调节方法及系统
CN113157043B (zh) * 2021-04-29 2022-05-31 中山大学 基于强化学习的异构多核处理器动态电压调节方法及系统
CN113036772A (zh) * 2021-05-11 2021-06-25 国网江苏省电力有限公司南京供电分公司 一种基于深度强化学习的配电网拓扑电压调节方法
CN113036772B (zh) * 2021-05-11 2022-07-19 国网江苏省电力有限公司南京供电分公司 一种基于深度强化学习的配电网拓扑电压调节方法
CN113363998A (zh) * 2021-06-21 2021-09-07 东南大学 一种基于多智能体深度强化学习的配电网电压控制方法
CN113363998B (zh) * 2021-06-21 2022-06-28 东南大学 一种基于多智能体深度强化学习的配电网电压控制方法
CN113608867B (zh) * 2021-07-19 2024-05-14 南京中科逆熵科技有限公司 基于强化学习的多数据ssd中的闪存资源分配方法
CN113608867A (zh) * 2021-07-19 2021-11-05 南京中科逆熵科技有限公司 基于强化学习的多数据ssd中的闪存资源分配方法
CN113596020A (zh) * 2021-07-28 2021-11-02 深圳供电局有限公司 一种智能电网虚假数据注入攻击漏洞检测方法
CN113725863A (zh) * 2021-07-30 2021-11-30 国家电网有限公司 基于人工智能的电网自主控制与决策方法及系统
CN113644671A (zh) * 2021-07-30 2021-11-12 湖南工业大学 基于深度强化学习的城轨混合储能系统功率动态分配控制方法
CN113759717A (zh) * 2021-08-20 2021-12-07 中国航空工业集团公司西安飞行自动控制研究所 一种近实时机动轨迹生成与跟踪的控制方法
CN114051256A (zh) * 2021-11-22 2022-02-15 广州捷锐企业管理有限公司 一种择优近端策略优化方法
CN114048576A (zh) * 2021-11-24 2022-02-15 国网四川省电力公司成都供电公司 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN114048576B (zh) * 2021-11-24 2024-05-10 国网四川省电力公司成都供电公司 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN114330649A (zh) * 2021-12-13 2022-04-12 南京邮电大学 一种基于进化学习和深度强化学习的电压调节方法及系统
CN114330649B (zh) * 2021-12-13 2023-02-28 南京邮电大学 一种基于进化学习和深度强化学习的电压调节方法及系统
CN114330113A (zh) * 2021-12-17 2022-04-12 北京理工大学 基于深度强化学习的新能源电力系统弹性优化方法
CN114447942B (zh) * 2022-02-08 2024-06-11 东南大学 一种主动配电网负荷侧多元调压方法、设备及存储介质
CN114447942A (zh) * 2022-02-08 2022-05-06 东南大学 一种主动配电网负荷侧多元调压方法、设备及存储介质
CN114355767A (zh) * 2022-03-21 2022-04-15 青岛理工大学 基于q学习的养老建筑室内热环境的无模型控制方法
CN114905510A (zh) * 2022-04-29 2022-08-16 南京邮电大学 基于自适应近端优化的机器人动作方法
CN114905510B (zh) * 2022-04-29 2023-07-28 南京邮电大学 基于自适应近端优化的机器人动作方法
CN114800510B (zh) * 2022-05-06 2024-01-23 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN114800510A (zh) * 2022-05-06 2022-07-29 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN114898822A (zh) * 2022-07-15 2022-08-12 烟台国工智能科技有限公司 基于价值学习的多目标属性分子生成方法及系统
CN115133540A (zh) * 2022-07-27 2022-09-30 电子科技大学 一种配电网无模型的实时电压控制方法
CN115313447A (zh) * 2022-10-10 2022-11-08 深圳先进技术研究院 一种混合储能系统充放电状态实时优化控制方法
WO2024077752A1 (zh) * 2022-10-10 2024-04-18 深圳先进技术研究院 一种混合储能系统充放电状态实时优化控制方法
CN115528712A (zh) * 2022-11-23 2022-12-27 国网天津市电力公司滨海供电分公司 一种源网荷储备不同区储能容量平衡方法及系统
CN116233895A (zh) * 2023-05-04 2023-06-06 合肥工业大学 基于强化学习的5g配网节点通信优化方法、设备及介质
CN116233895B (zh) * 2023-05-04 2023-07-18 合肥工业大学 基于强化学习的5g配网节点通信优化方法、设备及介质
CN116388279A (zh) * 2023-05-23 2023-07-04 安徽中超光电科技有限公司 太阳能光伏发电系统中的电网并网控制方法及其控制系统
CN116388279B (zh) * 2023-05-23 2024-01-23 安徽中超光电科技有限公司 太阳能光伏发电系统中的电网并网控制方法及其控制系统

Also Published As

Publication number Publication date
CN111884213B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
CN114725936B (zh) 基于多智能体深度强化学习的配电网优化方法
CN112117760A (zh) 基于双q值网络深度强化学习的微电网能量调度方法
CN108510074A (zh) 一种改进gwo算法的实现方法
CN113572157B (zh) 一种基于近端策略优化的用户实时自治能量管理优化方法
CN113935463A (zh) 一种基于人工智能控制方法的微电网控制器
CN116468159A (zh) 一种基于双延迟深度确定性策略梯度的无功优化方法
CN112488452B (zh) 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法
CN112381359B (zh) 一种基于数据挖掘的多critic强化学习的电力经济调度方法
CN117039981A (zh) 一种面向含新能源的大规模电网优化调度方法、装置、存储介质
CN115293052A (zh) 电力系统有功潮流在线优化控制方法、存储介质和装置
CN112330021A (zh) 一种分布式光储系统的网络协调控制方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN115169957A (zh) 一种基于深度强化学习的配电网调度方法、装置及介质
CN114784831A (zh) 一种基于移动储能的主动配电网多目标无功优化方法
CN115236526A (zh) 一种剩余充电时间预测方法、装置、存储介质和车辆
CN113972645A (zh) 基于多智能体深度确定策略梯度算法的配电网优化方法
CN116345578B (zh) 基于深度确定性策略梯度的微电网运行优化调度方法
CN116191421A (zh) 一种基于改进nsga-ii算法的新型电力系统多目标优化调度方法
CN114048576B (zh) 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN116542137A (zh) 一种分布式资源协同调度的多智能体强化学习方法
CN115841075A (zh) 基于深度强化学习的全电船发电和航行调度联合优化方法
CN114971250A (zh) 基于深度q学习的综合能源经济调度系统
CN114298429A (zh) 一种配电网动案辅助决策方法、系统、装置和存储介质
CN114204546A (zh) 一种考虑新能源消纳的机组组合优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant