CN114048576A - 一种稳定电网输电断面潮流的储能系统智能化控制方法 - Google Patents

一种稳定电网输电断面潮流的储能系统智能化控制方法 Download PDF

Info

Publication number
CN114048576A
CN114048576A CN202111407622.2A CN202111407622A CN114048576A CN 114048576 A CN114048576 A CN 114048576A CN 202111407622 A CN202111407622 A CN 202111407622A CN 114048576 A CN114048576 A CN 114048576A
Authority
CN
China
Prior art keywords
network
actor
energy storage
current
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111407622.2A
Other languages
English (en)
Other versions
CN114048576B (zh
Inventor
宋航
段登伟
柳维衡
韦炜
廖彦洁
陈智
张正炜
赵艾萱
聂中睿
郑瑞骁
郎光娅
杨哲涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Power Supply Co Of State Grid Sichuan Electric Power Corp
Original Assignee
Chengdu Power Supply Co Of State Grid Sichuan Electric Power Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Power Supply Co Of State Grid Sichuan Electric Power Corp filed Critical Chengdu Power Supply Co Of State Grid Sichuan Electric Power Corp
Priority to CN202111407622.2A priority Critical patent/CN114048576B/zh
Publication of CN114048576A publication Critical patent/CN114048576A/zh
Application granted granted Critical
Publication of CN114048576B publication Critical patent/CN114048576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种稳定电网输电断面潮流的储能系统智能化控制方法,将接入电网的规模化电池储能系统的充放电运行过程建模为马尔可夫决策过程,构建两组深度学习Q网络,Actor网络组使用策略函数生成动作并和环境交互,而Critic网络组采用价值函数来评估Actor的表现,并指导Actor下一阶段的动作。基于对电网环境状态特征和潮流断面稳定极限控制效果的交互感知,四个网络通过更新迭代,得到最优Actor当前网络参数和最优Critic当前网络参数w,最终确定出基于策略和基于价值相结合的储能智能化控制方法。本发明实现了电网输电断面安全稳定极限的潮流有效控制,克服了传统方法中不确定性建模复杂且收敛性差的问题。

Description

一种稳定电网输电断面潮流的储能系统智能化控制方法
技术领域
本发明涉及电力系统自动化技术领域,具体涉及一种稳定电网输电断面潮流的储能系统智能化控制方法。
背景技术
输电断面是由电网中有功潮流流向一致的线路、变压器构成的,常见的形式有若干线路、变压器或由二者共同构成的。关键输电断面已成为大电网的重要安全特征,调度运行中需严格控制关键输电断面潮流在稳定限额以内,确保电网安全稳定运行。
近年来机器学习快速发展,其强大的感知学习能力和数据分析能力契合了智能电网中大数据应用的需求。其中强化学习(Reinforcement Learning,RL)通过决策主体和环境之间的不断交互来获取环境知识,并采取影响环境的行动以达到预设目标。而深度学习(Deep Learning,DL)不依赖于任何解析方程,而利用大量的现有数据来描述数学问题和近似解,将其应用于RL中可以有效缓解价值函数求解困难等问题。
当前对储能系统直接参与调节电网输电断面有功功率的控制方法研究仍相对较少,多是采用非线性最优控制理论的输电断面协调最优控制策略,但是对控制器的假设和设计都非常复杂。同时当考虑分布式可再生能源发电时,传统基于模型的方法还需要对RDG和负荷等不确定性因素进行建模分析,且储能最优控制的求解过程复杂,数值迭代收敛较慢,实用性较差。同时,在储能系统充放电功率可控的情况下,其动作集合是连续值或者为非常高维的离散值,动作空间维度极大。若采用传统的随机策略,即像DQN算法一样研究所有可能动作的概率,并计算其动作价值的话,样本空间过于庞大导致算法的计算负担过大,甚至无法迭代更新。
发明内容
本发明所要解决的技术问题是如何合理地将机器学习算法应用于规模化储能系统,以实现电网输电断面安全稳定极限的潮流有效控制,克服传统方法中不确定性建模复杂且收敛性差的问题,目的在于提供一种稳定电网输电断面潮流的储能系统智能化控制方法,解决上述的问题。
本发明通过下述技术方案实现:
一种稳定电网输电断面潮流的储能系统智能化控制方法,包括以下步骤:
S1:建立跨片区电网内规模化储能系统BESS的马尔科夫决策过程,将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程;确定算法控制目标、环境状态集合以及即时奖励;
S2:构建两组深度学习目标Q网络:第一组为结构相同的Actor当前网络和Actor目标网络;第二组为结构相同的Critic当前网络和Critic目标网络;
S3:随机初始化Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络的网络参数,清空经验回放的集合D,并确定目标Q网络参数、更新频率C和以及最大回合迭代次数T;
S4:初始化电网环境,得到第一个状态特征向量s=s0;将s输入Actor当前网络,基于状态s得到规模化储能的充放电动作a;执行动作s,得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标Iend,并将{s,a,r,s′,Iend}这个五元组存入经验回放集合D;令S=S';从经验回放集合D中采样m个样本,计算当前目标Q值yj
S5:使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w;同时使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ,并以频率C更新Critic目标网络和Actor目标网络参数;如果S是终止状态,则当前回合迭代完毕,否则转到步骤S4。
进一步地,所述步骤S1包括:储能系统BESS通过不断感知当前时刻的时序值,以及区域电网内上一时刻发电厂的发电量、分布式可再生能源的出力大小、负荷水平以及实时电价信号,得到本时刻的系统观测状态向量;对于输电断面所跨的A、B两个电网片区系统,定义BESS在时刻t所感知到的环境状态特征向量为st为:
st=(t,SOC(t),Pg(t-1),PDER(t-1),L(t-1))T
Pg(t-1)=PA.g(t-1)-PB.g(t-1)
式中,t为时序号;SOC为t时刻储能系统的荷电状态;Pg(t-1)表示在上一时刻t-1下断面所跨片区的电厂发电量差额,单位为MW;PDER(t-1)表示上一时刻分布式可再生能源的总出力大小,单位为MW;L(t)为时刻t时两个片区电网的总负荷大小。
进一步地,所述步骤S1还包括:储能系统BESS在不断感知和学习过程中,所获得的单步即时奖励包括本时刻断面潮流的稳定极限相对偏差,以及在实时电价信号下储能本时刻的充电成本或放电收益;在给定环境状态st和选择动作at之后的奖励rt定义为:
r1(t)=|Ptra(t)-Plim|/Plim
r2(t)=[Pdc(t)-Pch(t)]·ce(t)
r(t)=λ1·r1(t)+λ2·r2(t)
式中,r1(t)表示t时刻断面潮流的稳定极限相对偏差,Ptra(t)表示t时刻断面潮流大小,Plim为断面潮流稳定极限值;r2(t)表示t时刻储能的充放电运行成本,Pdc(t)表示时隙t储能的放电电量,Pch(t)表示时隙t储能的充电电量,ce(t)表示t时刻的实时电价,λ1、λ2分别表示即时奖励子函数的权重系数。
进一步地,所述步骤S2包括:Actor当前网络负责策略网络参数θ的迭代更新,并根据当前状态S选择当前动作A,用于和环境交互生成下一时刻的状态S′和即时奖励R;而Actor目标网络负责根据经验回放池中采样的下一状态S′选择最优下一时刻动作A′,并定期将网络参数θ复制给Actor目标网络的网络参数θ′;Critic当前网络负责价值网络参数w的迭代更新,并计算当前Q值Q(S,A,w);而Critic目标网络负责计算目标Q值中yi的Q′(S′,A′,w′)部分,并定期将网络参数w复制给Critic目标网络的网络参数w′。
进一步地,所述步骤S3包括:初始化迭代回合次数T、每次迭代的计算步长step、网络参数软更新系数τ、批量梯度下降的样本数m、强化学习算法的衰减因子γ,以及Actor当前网络和Critic当前网络的参数向量θ、w,令w′=w、θ′=θ,以及Actor和Critic网络的输出节点数量、隐层层数和各隐层神经元数量。
进一步地,所述步骤S4中,充放电动作a应满足:
a=πθ(s)+N
式中,πθ(s)状态策略函数,N为噪声函数。
进一步地,所述步骤S5中,所述使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w,均方差损失函数J(w)应满足:
Figure BDA0003372877310000031
式中,m为批量梯度下降的样本数,yi为当前目标Q值;
所述使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ,均方差损失函数J(θ)应满足:
Figure BDA0003372877310000032
式中,m为批量梯度下降的样本数。
进一步地,所述步骤S5中,还包括:以频率C更新Critic目标网络和Actor目标网络参数;DDPG采用软更新方法,每次对网络参数更新一部分,即:
w′←τ·w+(1-τ)·w′
θ′←τ·θ+(1-τ)·θ′
式中,τ为网络参数的软更新系数,一般取较小的值。
进一步地,步骤S5中,所述以频率C更新Critic目标网络和Actor目标网络参数,需要通过潮流计算,潮流计算过程满足以下约束:
a)潮流约束:
Figure BDA0003372877310000041
式中,PNi和QNi为节点有功和无功注入功率;PDi和QDi为节点有功和无功输出功率;Vi和Vj为节点电压幅值;αij为节点电压相角差;Gij和Bij为节点导纳的实部和虚部;Sn为节点集合;
b)稳定运行约束:
Figure BDA0003372877310000042
式中,
Figure BDA0003372877310000043
Figure BDA0003372877310000044
为发电机有功出力上、下限;
Figure BDA0003372877310000045
Figure BDA0003372877310000046
为无功源输出上、下限;
Figure BDA0003372877310000047
Figure BDA0003372877310000048
为节点电压上、下限;
Figure BDA0003372877310000049
Figure BDA00033728773100000410
为线路热稳定约束上下限;Sl为线路集合;
c)输电断面极限约束:
Plim.min≤Ptra(t)≤Plim.max
式中,Plim.min和Plim.max分别表示输电断面的潮流下限值和上限值。
进一步地,步骤S5中,还包括判断本次迭代是否为终止状态,所述Iend为迭代终止判定指标,用作每次迭代过程的中断指标,应满足:
Figure BDA00033728773100000411
式中,如果储能运行过程中起荷电状态越限,则本次迭代的Iend等于1,否则为0;Iend=1表示终止而跳出本次迭代,Iend=0表示未终止。
本发明考虑了储能的运行成本,将接入电网的规模化电池储能系统的充放电运行过程建模为马尔可夫决策过程,其中以本时刻时序值、实时电价信号和上一时刻在跨片区电网内的发电厂发电量差额、分布式可再生能源出力以及负荷大小为系统的观测状态集S,以储能系统离散化充放电决策为动作集A,以电网关键断面潮流稳定极限相对偏差为即时奖励集R,以此构建基础的Q-learning模型。随后,构建两组深度学习Q网络:相同结构的Actor当前网络和Actor目标网络,以及相同结构的Critic当前网络和Critic目标网络。Actor网络组使用策略函数生成动作并和环境交互,而Critic网络组采用价值函数来评估Actor的表现,并指导Actor下一阶段的动作。基于对电网环境状态特征和潮流断面稳定极限控制效果的交互感知,四个网络通过更新迭代,得到最优Actor当前网络参数和最优Critic当前网络参数w,最终确定出基于策略和基于价值相结合的储能智能化控制方法。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明提供的一种稳定电网输电断面潮流的储能系统智能化控制方法,将机器学习算法应用于规模化储能系统,实现了电网输电断面安全稳定极限的潮流有效控制,克服了传统方法中不确定性建模复杂且收敛性差的问题。
2、本发明提供的一种稳定电网输电断面潮流的储能系统智能化控制方法,通过采用经验回放和双组网络的方法解决了传统Actor-Critic算法收敛困难的问题。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为本发明控制方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种稳定电网输电断面潮流的储能系统智能化控制方法,包括以下步骤:
S1:建立跨片区电网内规模化储能系统的马尔科夫决策过程,将其充放电行为映射为基于动作价值迭代更新的强化学习过程,确定算法优化控制目标、环境状态特征以及即时奖励函数;具体方法如下:
储能系统BESS通过不断感知当前时刻的时序值,以及区域电网内上一时刻发电厂的发电量、分布式可再生能源的出力大小、负荷水平以及实时电价信号,得到本时刻的系统观测状态向量st。对应于本发明所提的算法,映射关系如下:
(1)控制目标
利用规模化储能系统的灵活充放电特性来改善所在电网区域关键输电断面的潮流稳定性,其控制目标为:在一定控制周期内,最小化指定输电断面的潮流稳定极限累计相对偏差。
Figure BDA0003372877310000061
(2)环境状态特征
对于某关键输电断面所跨的A、B两个电网片区系统,定义BESS在时刻t所感知到的环境状态特征向量为st为:
st=(t,SOC(t),Pg(t-1),PDER(t-1),L(t-1))T
Pg(t-1)=PA.g(t-1)-PB.g(t-1)
式中,t为时序号;SOC为t时刻储能系统的荷电状态;Pg(t-1)表示在上一时刻t-1下断面所跨片区的电厂发电量差额,单位为MW;PDER(t-1)表示上一时刻分布式可再生能源的总出力大小,单位为MW;L(t)为时刻t时两个片区电网的总负荷大小。
(3)反馈奖励
储能系统在不断感知和学习过程中,所获得的单步即时奖励应包括本时刻断面潮流的稳定极限相对偏差,以及在实时电价信号下储能本时刻的充电成本或放电收益。在给定环境状态st和选择动作at之后的奖励rt定义为:
r1(t)=|Ptra(t)-Plim|/Plim
r2(t)=[Pdc(t)-Pch(t)]·ce(t)
r(t)=λ1·r1(t)+λ2·r2(t)
式中,r1(t)表示t时刻断面潮流的稳定极限相对偏差,Ptra(t)表示t时刻断面潮流大小,Plim为断面潮流稳定极限值;r2(t)表示t时刻储能的充放电运行成本,Pdc(t)表示时隙t储能的放电电量,Pch(t)表示时隙t储能的充电电量,ce(t)表示t时刻的实时电价,λ1、λ2分别表示即时奖励子函数的权重系数。
S2:构建两组深度学习Q网络,即结构相同的Actor当前网络和Actor目标网络,以及结构相同的Critic当前网络和Critic目标网络。具体方法如下:
Actor当前网络负责策略网络参数θ的迭代更新,并根据当前状态S选择当前动作A,用于和环境交互生成下一时刻的状态S′和即时奖励R;而Actor目标网络负责根据经验回放池中采样的下一状态S′选择最优下一时刻动作A′,并定期将网络参数θ复制给Actor目标网络的网络参数θ′。Critic当前网络负责价值网络参数w的迭代更新,并计算当前Q值Q(S,A,w);而Critic目标网络负责计算目标Q值中yi的Q′(S′,A′,w′)部分,并定期将网络参数w复制给Critic目标网络的网络参数w′。
S3:随机初始化四个网络的网络参数,清空经验回放的集合D,并确定目标Q网络参数更新频率C和算法的最大回合迭代次数T。具体方法如下:
初始化迭代回合次数T、每次迭代的计算步长step、网络参数软更新系数τ、批量梯度下降的样本数m、强化学习算法的衰减因子γ,以及Actor当前网络和Critic当前网络的参数向量θ、w,令w′=w、θ′=θ,以及Actor和Critic网络的输出节点数量、隐层层数和各隐层神经元数量。
S4:开始从初始状态进行以下过程的迭代至最大回合迭代次数:
a)初始化当前区域电网环境,得到其状态序列的第一个状态特征向量s=s0;
b)将s输入Actor当前网络,基于状态s得到规模化储能的充放电动作a;通过执行动作s,得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标Iend,并将{s,a,r,s′,Iend}这个五元组存入经验回放集合D;
c)令S=S';
d)从经验回放集合D中采样m个样本
Figure BDA0003372877310000071
计算当前目标Q值yj
e)使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w。同时使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ,并以频率C更新Critic目标网络和Actor目标网络参数:
f)如果S是终止状态,则当前回合迭代完毕,否则转到步骤b)。
具体方法如下:
将s输入Actor当前网络,基于状态s得到规模化储能的充放电动作a。为了增加学习过程的随机性以扩大学习的覆盖,DDPG对选择出来的动作a会增加一定的噪声N,即最终和环境交互的动作a为:
a=πθ(s)+N
式中,πθ(s)状态策略函数,N为噪声函数。
通过执行动作s,得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标Iend,并令S=S'。同时,将{s,a,r,s′,Iend}这个五元组存入经验回放集合D,在D中样本数量不少于m个时,从经验回放集合D中随机采样m个样本
Figure BDA0003372877310000081
m,计算当前目标Q值yj
yj=r+γ·Q′(s′,a′,w′)
式中,γ为强化学习算法的衰减因子。其中,a′是通过Actor目标网络得到的,而Q′则是通过Critic目标网络得到的。
使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w。
Figure BDA0003372877310000082
式中,m为批量梯度下降的样本数。
同时使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ。Actor想要尽可能的得到更大的Q值,为得到的反馈Q值越大损失越小,得到的反馈Q值越小损失越大,因此对状态估计网络返回的Q值取个负号即可,
Figure BDA0003372877310000083
以频率C更新Critic目标网络和Actor目标网络参数。DDPG采用软更新方法,每次对网络参数更新一部分,即:
w′←τ·w+(1-τ)·w′
θ′←τ·θ+(1-τ)·θ′
式中,τ为网络参数的软更新系数,一般取较小的值。
如果s到达终止状态,则当前回合迭代完毕,否则继续将s输入Actor当前网络进行迭代。st的更新需要通过潮流计算,潮流计算过程满足以下约束:
a)潮流约束:
Figure BDA0003372877310000091
式中,PNi和QNi为节点有功和无功注入功率;PDi和QDi为节点有功和无功输出功率;Vi和Vj为节点电压幅值;αij为节点电压相角差;Gij和Bij为节点导纳的实部和虚部;Sn为节点集合。
b)稳定运行约束:
Figure BDA0003372877310000092
式中,
Figure BDA0003372877310000093
Figure BDA0003372877310000094
为发电机有功出力上、下限;
Figure BDA0003372877310000095
Figure BDA0003372877310000096
为无功源输出上、下限;
Figure BDA0003372877310000097
Figure BDA0003372877310000098
为节点电压上、下限;
Figure BDA0003372877310000099
Figure BDA00033728773100000910
为线路热稳定约束上下限;Sl为线路集合。
c)输电断面极限约束:
Plim.min≤Ptra(t)≤Plim.max
式中,Plim.min和Plim.max分别表示输电断面的潮流下限值和上限值。
同时判断本次迭代是否为终止状态,Iend为迭代终止判定指标,用作每次迭代过程的中断指标:
Figure BDA00033728773100000911
式中,如果储能运行过程中起荷电状态越限,则本次迭代的Iend等于1,否则为0。Iend=1表示终止而跳出本次迭代,Iend=0表示未终止。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,包括以下步骤:
S1:建立跨片区电网内规模化储能系统BESS的马尔科夫决策过程,将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程;确定算法控制目标、环境状态集合以及即时奖励;
S2:构建两组深度学习目标Q网络:第一组为结构相同的Actor当前网络和Actor目标网络;第二组为结构相同的Critic当前网络和Critic目标网络;
S3:随机初始化Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络的网络参数,清空经验回放的集合D,并确定目标Q网络参数、更新频率C和以及最大回合迭代次数T;
S4:初始化电网环境,得到第一个状态特征向量s=s0;将s输入Actor当前网络,基于状态s得到规模化储能的充放电动作a;执行动作s,得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标Iend,并将{s,a,r,s′,Iend}这个五元组存入经验回放集合D;令S=S';从经验回放集合D中采样m个样本,计算当前目标Q值yj
S5:使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w;同时使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ,并以频率C更新Critic目标网络和Actor目标网络参数;如果S是终止状态,则当前回合迭代完毕,否则转到步骤S4。
2.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S1包括:
储能系统BESS通过不断感知当前时刻的时序值,以及区域电网内上一时刻发电厂的发电量、分布式可再生能源的出力大小、负荷水平以及实时电价信号,得到本时刻的系统观测状态向量;对于输电断面所跨的A、B两个电网片区系统,定义BESS在时刻t所感知到的环境状态特征向量为st为:
st=(t,SOC(t),Pg(t-1),PDER(t-1),L(t-1))T
Pg(t-1)=PA.g(t-1)-PB.g(t-1)
式中,t为时序号;SOC为t时刻储能系统的荷电状态;Pg(t-1)表示在上一时刻t-1下断面所跨片区的电厂发电量差额,单位为MW;PDER(t-1)表示上一时刻分布式可再生能源的总出力大小,单位为MW;L(t)为时刻t时两个片区电网的总负荷大小。
3.根据权利要求2所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S1还包括:
储能系统BESS在不断感知和学习过程中,所获得的单步即时奖励包括本时刻断面潮流的稳定极限相对偏差,以及在实时电价信号下储能本时刻的充电成本或放电收益;在给定环境状态st和选择动作at之后的奖励rt定义为:
r1(t)=|Ptra(t)-Plim|/Plim
r2(t)=[Pdc(t)-Pch(t)]·ce(t)
r(t)=λ1·r1(t)+λ2·r2(t)
式中,r1(t)表示t时刻断面潮流的稳定极限相对偏差,Ptra(t)表示t时刻断面潮流大小,Plim为断面潮流稳定极限值;r2(t)表示t时刻储能的充放电运行成本,Pdc(t)表示时隙t储能的放电电量,Pch(t)表示时隙t储能的充电电量,ce(t)表示t时刻的实时电价,λ1、λ2分别表示即时奖励子函数的权重系数。
4.根据权利要求3所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S2包括:Actor当前网络负责策略网络参数θ的迭代更新,并根据当前状态S选择当前动作A,用于和环境交互生成下一时刻的状态S′和即时奖励R;而Actor目标网络负责根据经验回放池中采样的下一状态S′选择最优下一时刻动作A′,并定期将网络参数θ复制给Actor目标网络的网络参数θ′;Critic当前网络负责价值网络参数w的迭代更新,并计算当前Q值Q(S,A,w);而Critic目标网络负责计算目标Q值中yi的Q′(S′,A′,w′)部分,并定期将网络参数w复制给Critic目标网络的网络参数w′。
5.根据权利要求4所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S3包括:初始化迭代回合次数T、每次迭代的计算步长step、网络参数软更新系数τ、批量梯度下降的样本数m、强化学习算法的衰减因子γ,以及Actor当前网络和Critic当前网络的参数向量θ、w,令w′=w、θ′=θ,以及Actor和Critic网络的输出节点数量、隐层层数和各隐层神经元数量。
6.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S4中,充放电动作a应满足:
a=πθ(s)+N
式中,πθ(s)状态策略函数,N为噪声函数。
7.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S5中,所述使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w,均方差损失函数J(w)应满足:
Figure FDA0003372877300000031
式中,m为批量梯度下降的样本数,yi为当前目标Q值;
所述使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ,均方差损失函数J(θ)应满足:
Figure FDA0003372877300000032
式中,m为批量梯度下降的样本数。
8.根据权利要求7所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S5中,还包括:以频率C更新Critic目标网络和Actor目标网络参数;DDPG采用软更新方法,每次对网络参数更新一部分,即:
w′←τ·w+(1-τ)·w′
θ′←τ·θ+(1-τ)·θ′
式中,τ为网络参数的软更新系数,一般取较小的值。
9.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,步骤S5中,所述以频率C更新Critic目标网络和Actor目标网络参数,需要通过潮流计算,潮流计算过程满足以下约束:
a)潮流约束:
Figure FDA0003372877300000033
式中,PNi和QNi为节点有功和无功注入功率;PDi和QDi为节点有功和无功输出功率;Vi和Vj为节点电压幅值;αij为节点电压相角差;Gij和Bij为节点导纳的实部和虚部;Sn为节点集合;
b)稳定运行约束:
Figure FDA0003372877300000034
式中,
Figure FDA0003372877300000035
Figure FDA0003372877300000036
为发电机有功出力上、下限;
Figure FDA0003372877300000037
Figure FDA0003372877300000038
为无功源输出上、下限;Vi max和Vi min为节点电压上、下限;
Figure FDA0003372877300000039
Figure FDA00033728773000000310
为线路热稳定约束上下限;Sl为线路集合;
c)输电断面极限约束:
Plim.min≤Ptra(t)≤Plim.max
式中,Plim.min和Plim.max分别表示输电断面的潮流下限值和上限值。
10.根据权利要求9所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,步骤S5中,还包括判断本次迭代是否为终止状态,所述Iend为迭代终止判定指标,用作每次迭代过程的中断指标,应满足:
Figure FDA0003372877300000041
式中,如果储能运行过程中起荷电状态越限,则本次迭代的Iend等于1,否则为0;Iend=1表示终止而跳出本次迭代,Iend=0表示未终止。
CN202111407622.2A 2021-11-24 2021-11-24 一种稳定电网输电断面潮流的储能系统智能化控制方法 Active CN114048576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111407622.2A CN114048576B (zh) 2021-11-24 2021-11-24 一种稳定电网输电断面潮流的储能系统智能化控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111407622.2A CN114048576B (zh) 2021-11-24 2021-11-24 一种稳定电网输电断面潮流的储能系统智能化控制方法

Publications (2)

Publication Number Publication Date
CN114048576A true CN114048576A (zh) 2022-02-15
CN114048576B CN114048576B (zh) 2024-05-10

Family

ID=80210650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111407622.2A Active CN114048576B (zh) 2021-11-24 2021-11-24 一种稳定电网输电断面潮流的储能系统智能化控制方法

Country Status (1)

Country Link
CN (1) CN114048576B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089611A (zh) * 2023-01-13 2023-05-09 北京控制工程研究所 基于性能-故障关系图谱的航天器故障诊断方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826624A (zh) * 2019-11-05 2020-02-21 电子科技大学 一种基于深度强化学习的时间序列分类方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112003269A (zh) * 2020-07-30 2020-11-27 四川大学 并网型共享储能系统的智能化在线控制方法
CN113141012A (zh) * 2021-04-24 2021-07-20 西安交通大学 基于深度确定性策略梯度网络的电网潮流调控决策推理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826624A (zh) * 2019-11-05 2020-02-21 电子科技大学 一种基于深度强化学习的时间序列分类方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112003269A (zh) * 2020-07-30 2020-11-27 四川大学 并网型共享储能系统的智能化在线控制方法
CN113141012A (zh) * 2021-04-24 2021-07-20 西安交通大学 基于深度确定性策略梯度网络的电网潮流调控决策推理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DANIEL-IOAN STROE,ET AL.: "Operation of a Grid-Connected Lithium-Ion Battery Energy Storage System for Primary Frequency Regulation: A Battery Lifetime Perspective", 《 IEEE TRANSACTIONS ON INDUSTRY APPLICATIONS》, 11 October 2016 (2016-10-11) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089611A (zh) * 2023-01-13 2023-05-09 北京控制工程研究所 基于性能-故障关系图谱的航天器故障诊断方法及装置
CN116089611B (zh) * 2023-01-13 2023-07-18 北京控制工程研究所 基于性能-故障关系图谱的航天器故障诊断方法及装置

Also Published As

Publication number Publication date
CN114048576B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
CN110929948B (zh) 基于深度强化学习的完全分布式智能电网经济调度方法
CN112117760A (zh) 基于双q值网络深度强化学习的微电网能量调度方法
CN112615379A (zh) 基于分布式多智能体强化学习的电网多断面功率自动控制方法
CN112507614B (zh) 一种分布式电源高渗透率地区电网综合优化方法
CN116468159A (zh) 一种基于双延迟深度确定性策略梯度的无功优化方法
CN113141012B (zh) 电网潮流调控决策推理方法
CN117039981A (zh) 一种面向含新能源的大规模电网优化调度方法、装置、存储介质
CN116760047A (zh) 基于安全强化学习算法的配电网电压无功控制方法及系统
CN115588998A (zh) 一种基于图强化学习的配电网电压无功优化方法
CN112381359A (zh) 一种基于数据挖掘的多critic强化学习的电力经济调度方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN115293052A (zh) 电力系统有功潮流在线优化控制方法、存储介质和装置
CN115169957A (zh) 一种基于深度强化学习的配电网调度方法、装置及介质
CN114048576B (zh) 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN112787331B (zh) 基于深度强化学习的潮流收敛自动调整方法及系统
CN116436003B (zh) 主动配电网风险约束备用优化方法、系统、介质及设备
CN117833263A (zh) 一种基于ddpg的新能源电网电压控制方法及系统
CN115133540B (zh) 一种配电网无模型的实时电压控制方法
CN115001002B (zh) 一种求解储能参与削峰填谷的优化调度方法和系统
CN116995645A (zh) 基于保护机制强化学习的电力系统安全约束经济调度方法
CN116093995A (zh) 一种配电系统多目标网络重构方法及系统
CN113555888B (zh) 一种微电网储能协调控制的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant