CN114048576A - 一种稳定电网输电断面潮流的储能系统智能化控制方法 - Google Patents
一种稳定电网输电断面潮流的储能系统智能化控制方法 Download PDFInfo
- Publication number
- CN114048576A CN114048576A CN202111407622.2A CN202111407622A CN114048576A CN 114048576 A CN114048576 A CN 114048576A CN 202111407622 A CN202111407622 A CN 202111407622A CN 114048576 A CN114048576 A CN 114048576A
- Authority
- CN
- China
- Prior art keywords
- network
- actor
- energy storage
- current
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004146 energy storage Methods 0.000 title claims abstract description 52
- 230000005540 biological transmission Effects 0.000 title claims abstract description 31
- 230000000087 stabilizing effect Effects 0.000 title claims abstract description 11
- 230000009471 action Effects 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000007599 discharging Methods 0.000 claims abstract description 10
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000005611 electricity Effects 0.000 claims description 10
- 230000002787 reinforcement Effects 0.000 claims description 8
- 230000007423 decrease Effects 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010248 power generation Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 1
- 230000008447 perception Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/18—Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Mathematical Optimization (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种稳定电网输电断面潮流的储能系统智能化控制方法,将接入电网的规模化电池储能系统的充放电运行过程建模为马尔可夫决策过程,构建两组深度学习Q网络,Actor网络组使用策略函数生成动作并和环境交互,而Critic网络组采用价值函数来评估Actor的表现,并指导Actor下一阶段的动作。基于对电网环境状态特征和潮流断面稳定极限控制效果的交互感知,四个网络通过更新迭代,得到最优Actor当前网络参数和最优Critic当前网络参数w,最终确定出基于策略和基于价值相结合的储能智能化控制方法。本发明实现了电网输电断面安全稳定极限的潮流有效控制,克服了传统方法中不确定性建模复杂且收敛性差的问题。
Description
技术领域
本发明涉及电力系统自动化技术领域,具体涉及一种稳定电网输电断面潮流的储能系统智能化控制方法。
背景技术
输电断面是由电网中有功潮流流向一致的线路、变压器构成的,常见的形式有若干线路、变压器或由二者共同构成的。关键输电断面已成为大电网的重要安全特征,调度运行中需严格控制关键输电断面潮流在稳定限额以内,确保电网安全稳定运行。
近年来机器学习快速发展,其强大的感知学习能力和数据分析能力契合了智能电网中大数据应用的需求。其中强化学习(Reinforcement Learning,RL)通过决策主体和环境之间的不断交互来获取环境知识,并采取影响环境的行动以达到预设目标。而深度学习(Deep Learning,DL)不依赖于任何解析方程,而利用大量的现有数据来描述数学问题和近似解,将其应用于RL中可以有效缓解价值函数求解困难等问题。
当前对储能系统直接参与调节电网输电断面有功功率的控制方法研究仍相对较少,多是采用非线性最优控制理论的输电断面协调最优控制策略,但是对控制器的假设和设计都非常复杂。同时当考虑分布式可再生能源发电时,传统基于模型的方法还需要对RDG和负荷等不确定性因素进行建模分析,且储能最优控制的求解过程复杂,数值迭代收敛较慢,实用性较差。同时,在储能系统充放电功率可控的情况下,其动作集合是连续值或者为非常高维的离散值,动作空间维度极大。若采用传统的随机策略,即像DQN算法一样研究所有可能动作的概率,并计算其动作价值的话,样本空间过于庞大导致算法的计算负担过大,甚至无法迭代更新。
发明内容
本发明所要解决的技术问题是如何合理地将机器学习算法应用于规模化储能系统,以实现电网输电断面安全稳定极限的潮流有效控制,克服传统方法中不确定性建模复杂且收敛性差的问题,目的在于提供一种稳定电网输电断面潮流的储能系统智能化控制方法,解决上述的问题。
本发明通过下述技术方案实现:
一种稳定电网输电断面潮流的储能系统智能化控制方法,包括以下步骤:
S1:建立跨片区电网内规模化储能系统BESS的马尔科夫决策过程,将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程;确定算法控制目标、环境状态集合以及即时奖励;
S2:构建两组深度学习目标Q网络:第一组为结构相同的Actor当前网络和Actor目标网络;第二组为结构相同的Critic当前网络和Critic目标网络;
S3:随机初始化Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络的网络参数,清空经验回放的集合D,并确定目标Q网络参数、更新频率C和以及最大回合迭代次数T;
S4:初始化电网环境,得到第一个状态特征向量s=s0;将s输入Actor当前网络,基于状态s得到规模化储能的充放电动作a;执行动作s,得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标Iend,并将{s,a,r,s′,Iend}这个五元组存入经验回放集合D;令S=S';从经验回放集合D中采样m个样本,计算当前目标Q值yj;
S5:使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w;同时使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ,并以频率C更新Critic目标网络和Actor目标网络参数;如果S是终止状态,则当前回合迭代完毕,否则转到步骤S4。
进一步地,所述步骤S1包括:储能系统BESS通过不断感知当前时刻的时序值,以及区域电网内上一时刻发电厂的发电量、分布式可再生能源的出力大小、负荷水平以及实时电价信号,得到本时刻的系统观测状态向量;对于输电断面所跨的A、B两个电网片区系统,定义BESS在时刻t所感知到的环境状态特征向量为st为:
st=(t,SOC(t),Pg(t-1),PDER(t-1),L(t-1))T
Pg(t-1)=PA.g(t-1)-PB.g(t-1)
式中,t为时序号;SOC为t时刻储能系统的荷电状态;Pg(t-1)表示在上一时刻t-1下断面所跨片区的电厂发电量差额,单位为MW;PDER(t-1)表示上一时刻分布式可再生能源的总出力大小,单位为MW;L(t)为时刻t时两个片区电网的总负荷大小。
进一步地,所述步骤S1还包括:储能系统BESS在不断感知和学习过程中,所获得的单步即时奖励包括本时刻断面潮流的稳定极限相对偏差,以及在实时电价信号下储能本时刻的充电成本或放电收益;在给定环境状态st和选择动作at之后的奖励rt定义为:
r1(t)=|Ptra(t)-Plim|/Plim
r2(t)=[Pdc(t)-Pch(t)]·ce(t)
r(t)=λ1·r1(t)+λ2·r2(t)
式中,r1(t)表示t时刻断面潮流的稳定极限相对偏差,Ptra(t)表示t时刻断面潮流大小,Plim为断面潮流稳定极限值;r2(t)表示t时刻储能的充放电运行成本,Pdc(t)表示时隙t储能的放电电量,Pch(t)表示时隙t储能的充电电量,ce(t)表示t时刻的实时电价,λ1、λ2分别表示即时奖励子函数的权重系数。
进一步地,所述步骤S2包括:Actor当前网络负责策略网络参数θ的迭代更新,并根据当前状态S选择当前动作A,用于和环境交互生成下一时刻的状态S′和即时奖励R;而Actor目标网络负责根据经验回放池中采样的下一状态S′选择最优下一时刻动作A′,并定期将网络参数θ复制给Actor目标网络的网络参数θ′;Critic当前网络负责价值网络参数w的迭代更新,并计算当前Q值Q(S,A,w);而Critic目标网络负责计算目标Q值中yi的Q′(S′,A′,w′)部分,并定期将网络参数w复制给Critic目标网络的网络参数w′。
进一步地,所述步骤S3包括:初始化迭代回合次数T、每次迭代的计算步长step、网络参数软更新系数τ、批量梯度下降的样本数m、强化学习算法的衰减因子γ,以及Actor当前网络和Critic当前网络的参数向量θ、w,令w′=w、θ′=θ,以及Actor和Critic网络的输出节点数量、隐层层数和各隐层神经元数量。
进一步地,所述步骤S4中,充放电动作a应满足:
a=πθ(s)+N
式中,πθ(s)状态策略函数,N为噪声函数。
进一步地,所述步骤S5中,所述使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w,均方差损失函数J(w)应满足:
式中,m为批量梯度下降的样本数,yi为当前目标Q值;
所述使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ,均方差损失函数J(θ)应满足:
式中,m为批量梯度下降的样本数。
进一步地,所述步骤S5中,还包括:以频率C更新Critic目标网络和Actor目标网络参数;DDPG采用软更新方法,每次对网络参数更新一部分,即:
w′←τ·w+(1-τ)·w′
θ′←τ·θ+(1-τ)·θ′
式中,τ为网络参数的软更新系数,一般取较小的值。
进一步地,步骤S5中,所述以频率C更新Critic目标网络和Actor目标网络参数,需要通过潮流计算,潮流计算过程满足以下约束:
a)潮流约束:
式中,PNi和QNi为节点有功和无功注入功率;PDi和QDi为节点有功和无功输出功率;Vi和Vj为节点电压幅值;αij为节点电压相角差;Gij和Bij为节点导纳的实部和虚部;Sn为节点集合;
b)稳定运行约束:
c)输电断面极限约束:
Plim.min≤Ptra(t)≤Plim.max
式中,Plim.min和Plim.max分别表示输电断面的潮流下限值和上限值。
进一步地,步骤S5中,还包括判断本次迭代是否为终止状态,所述Iend为迭代终止判定指标,用作每次迭代过程的中断指标,应满足:
式中,如果储能运行过程中起荷电状态越限,则本次迭代的Iend等于1,否则为0;Iend=1表示终止而跳出本次迭代,Iend=0表示未终止。
本发明考虑了储能的运行成本,将接入电网的规模化电池储能系统的充放电运行过程建模为马尔可夫决策过程,其中以本时刻时序值、实时电价信号和上一时刻在跨片区电网内的发电厂发电量差额、分布式可再生能源出力以及负荷大小为系统的观测状态集S,以储能系统离散化充放电决策为动作集A,以电网关键断面潮流稳定极限相对偏差为即时奖励集R,以此构建基础的Q-learning模型。随后,构建两组深度学习Q网络:相同结构的Actor当前网络和Actor目标网络,以及相同结构的Critic当前网络和Critic目标网络。Actor网络组使用策略函数生成动作并和环境交互,而Critic网络组采用价值函数来评估Actor的表现,并指导Actor下一阶段的动作。基于对电网环境状态特征和潮流断面稳定极限控制效果的交互感知,四个网络通过更新迭代,得到最优Actor当前网络参数和最优Critic当前网络参数w,最终确定出基于策略和基于价值相结合的储能智能化控制方法。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明提供的一种稳定电网输电断面潮流的储能系统智能化控制方法,将机器学习算法应用于规模化储能系统,实现了电网输电断面安全稳定极限的潮流有效控制,克服了传统方法中不确定性建模复杂且收敛性差的问题。
2、本发明提供的一种稳定电网输电断面潮流的储能系统智能化控制方法,通过采用经验回放和双组网络的方法解决了传统Actor-Critic算法收敛困难的问题。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为本发明控制方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种稳定电网输电断面潮流的储能系统智能化控制方法,包括以下步骤:
S1:建立跨片区电网内规模化储能系统的马尔科夫决策过程,将其充放电行为映射为基于动作价值迭代更新的强化学习过程,确定算法优化控制目标、环境状态特征以及即时奖励函数;具体方法如下:
储能系统BESS通过不断感知当前时刻的时序值,以及区域电网内上一时刻发电厂的发电量、分布式可再生能源的出力大小、负荷水平以及实时电价信号,得到本时刻的系统观测状态向量st。对应于本发明所提的算法,映射关系如下:
(1)控制目标
利用规模化储能系统的灵活充放电特性来改善所在电网区域关键输电断面的潮流稳定性,其控制目标为:在一定控制周期内,最小化指定输电断面的潮流稳定极限累计相对偏差。
(2)环境状态特征
对于某关键输电断面所跨的A、B两个电网片区系统,定义BESS在时刻t所感知到的环境状态特征向量为st为:
st=(t,SOC(t),Pg(t-1),PDER(t-1),L(t-1))T
Pg(t-1)=PA.g(t-1)-PB.g(t-1)
式中,t为时序号;SOC为t时刻储能系统的荷电状态;Pg(t-1)表示在上一时刻t-1下断面所跨片区的电厂发电量差额,单位为MW;PDER(t-1)表示上一时刻分布式可再生能源的总出力大小,单位为MW;L(t)为时刻t时两个片区电网的总负荷大小。
(3)反馈奖励
储能系统在不断感知和学习过程中,所获得的单步即时奖励应包括本时刻断面潮流的稳定极限相对偏差,以及在实时电价信号下储能本时刻的充电成本或放电收益。在给定环境状态st和选择动作at之后的奖励rt定义为:
r1(t)=|Ptra(t)-Plim|/Plim
r2(t)=[Pdc(t)-Pch(t)]·ce(t)
r(t)=λ1·r1(t)+λ2·r2(t)
式中,r1(t)表示t时刻断面潮流的稳定极限相对偏差,Ptra(t)表示t时刻断面潮流大小,Plim为断面潮流稳定极限值;r2(t)表示t时刻储能的充放电运行成本,Pdc(t)表示时隙t储能的放电电量,Pch(t)表示时隙t储能的充电电量,ce(t)表示t时刻的实时电价,λ1、λ2分别表示即时奖励子函数的权重系数。
S2:构建两组深度学习Q网络,即结构相同的Actor当前网络和Actor目标网络,以及结构相同的Critic当前网络和Critic目标网络。具体方法如下:
Actor当前网络负责策略网络参数θ的迭代更新,并根据当前状态S选择当前动作A,用于和环境交互生成下一时刻的状态S′和即时奖励R;而Actor目标网络负责根据经验回放池中采样的下一状态S′选择最优下一时刻动作A′,并定期将网络参数θ复制给Actor目标网络的网络参数θ′。Critic当前网络负责价值网络参数w的迭代更新,并计算当前Q值Q(S,A,w);而Critic目标网络负责计算目标Q值中yi的Q′(S′,A′,w′)部分,并定期将网络参数w复制给Critic目标网络的网络参数w′。
S3:随机初始化四个网络的网络参数,清空经验回放的集合D,并确定目标Q网络参数更新频率C和算法的最大回合迭代次数T。具体方法如下:
初始化迭代回合次数T、每次迭代的计算步长step、网络参数软更新系数τ、批量梯度下降的样本数m、强化学习算法的衰减因子γ,以及Actor当前网络和Critic当前网络的参数向量θ、w,令w′=w、θ′=θ,以及Actor和Critic网络的输出节点数量、隐层层数和各隐层神经元数量。
S4:开始从初始状态进行以下过程的迭代至最大回合迭代次数:
a)初始化当前区域电网环境,得到其状态序列的第一个状态特征向量s=s0;
b)将s输入Actor当前网络,基于状态s得到规模化储能的充放电动作a;通过执行动作s,得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标Iend,并将{s,a,r,s′,Iend}这个五元组存入经验回放集合D;
c)令S=S';
e)使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w。同时使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ,并以频率C更新Critic目标网络和Actor目标网络参数:
f)如果S是终止状态,则当前回合迭代完毕,否则转到步骤b)。
具体方法如下:
将s输入Actor当前网络,基于状态s得到规模化储能的充放电动作a。为了增加学习过程的随机性以扩大学习的覆盖,DDPG对选择出来的动作a会增加一定的噪声N,即最终和环境交互的动作a为:
a=πθ(s)+N
式中,πθ(s)状态策略函数,N为噪声函数。
通过执行动作s,得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标Iend,并令S=S'。同时,将{s,a,r,s′,Iend}这个五元组存入经验回放集合D,在D中样本数量不少于m个时,从经验回放集合D中随机采样m个样本m,计算当前目标Q值yj;
yj=r+γ·Q′(s′,a′,w′)
式中,γ为强化学习算法的衰减因子。其中,a′是通过Actor目标网络得到的,而Q′则是通过Critic目标网络得到的。
使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w。
式中,m为批量梯度下降的样本数。
同时使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ。Actor想要尽可能的得到更大的Q值,为得到的反馈Q值越大损失越小,得到的反馈Q值越小损失越大,因此对状态估计网络返回的Q值取个负号即可,
以频率C更新Critic目标网络和Actor目标网络参数。DDPG采用软更新方法,每次对网络参数更新一部分,即:
w′←τ·w+(1-τ)·w′
θ′←τ·θ+(1-τ)·θ′
式中,τ为网络参数的软更新系数,一般取较小的值。
如果s到达终止状态,则当前回合迭代完毕,否则继续将s输入Actor当前网络进行迭代。st的更新需要通过潮流计算,潮流计算过程满足以下约束:
a)潮流约束:
式中,PNi和QNi为节点有功和无功注入功率;PDi和QDi为节点有功和无功输出功率;Vi和Vj为节点电压幅值;αij为节点电压相角差;Gij和Bij为节点导纳的实部和虚部;Sn为节点集合。
b)稳定运行约束:
c)输电断面极限约束:
Plim.min≤Ptra(t)≤Plim.max
式中,Plim.min和Plim.max分别表示输电断面的潮流下限值和上限值。
同时判断本次迭代是否为终止状态,Iend为迭代终止判定指标,用作每次迭代过程的中断指标:
式中,如果储能运行过程中起荷电状态越限,则本次迭代的Iend等于1,否则为0。Iend=1表示终止而跳出本次迭代,Iend=0表示未终止。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,包括以下步骤:
S1:建立跨片区电网内规模化储能系统BESS的马尔科夫决策过程,将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程;确定算法控制目标、环境状态集合以及即时奖励;
S2:构建两组深度学习目标Q网络:第一组为结构相同的Actor当前网络和Actor目标网络;第二组为结构相同的Critic当前网络和Critic目标网络;
S3:随机初始化Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络的网络参数,清空经验回放的集合D,并确定目标Q网络参数、更新频率C和以及最大回合迭代次数T;
S4:初始化电网环境,得到第一个状态特征向量s=s0;将s输入Actor当前网络,基于状态s得到规模化储能的充放电动作a;执行动作s,得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标Iend,并将{s,a,r,s′,Iend}这个五元组存入经验回放集合D;令S=S';从经验回放集合D中采样m个样本,计算当前目标Q值yj;
S5:使用Critic网络的均方差损失函数J(w),通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w;同时使用Actor网络的均方差损失函数J(θ),通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ,并以频率C更新Critic目标网络和Actor目标网络参数;如果S是终止状态,则当前回合迭代完毕,否则转到步骤S4。
2.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S1包括:
储能系统BESS通过不断感知当前时刻的时序值,以及区域电网内上一时刻发电厂的发电量、分布式可再生能源的出力大小、负荷水平以及实时电价信号,得到本时刻的系统观测状态向量;对于输电断面所跨的A、B两个电网片区系统,定义BESS在时刻t所感知到的环境状态特征向量为st为:
st=(t,SOC(t),Pg(t-1),PDER(t-1),L(t-1))T
Pg(t-1)=PA.g(t-1)-PB.g(t-1)
式中,t为时序号;SOC为t时刻储能系统的荷电状态;Pg(t-1)表示在上一时刻t-1下断面所跨片区的电厂发电量差额,单位为MW;PDER(t-1)表示上一时刻分布式可再生能源的总出力大小,单位为MW;L(t)为时刻t时两个片区电网的总负荷大小。
3.根据权利要求2所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S1还包括:
储能系统BESS在不断感知和学习过程中,所获得的单步即时奖励包括本时刻断面潮流的稳定极限相对偏差,以及在实时电价信号下储能本时刻的充电成本或放电收益;在给定环境状态st和选择动作at之后的奖励rt定义为:
r1(t)=|Ptra(t)-Plim|/Plim
r2(t)=[Pdc(t)-Pch(t)]·ce(t)
r(t)=λ1·r1(t)+λ2·r2(t)
式中,r1(t)表示t时刻断面潮流的稳定极限相对偏差,Ptra(t)表示t时刻断面潮流大小,Plim为断面潮流稳定极限值;r2(t)表示t时刻储能的充放电运行成本,Pdc(t)表示时隙t储能的放电电量,Pch(t)表示时隙t储能的充电电量,ce(t)表示t时刻的实时电价,λ1、λ2分别表示即时奖励子函数的权重系数。
4.根据权利要求3所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S2包括:Actor当前网络负责策略网络参数θ的迭代更新,并根据当前状态S选择当前动作A,用于和环境交互生成下一时刻的状态S′和即时奖励R;而Actor目标网络负责根据经验回放池中采样的下一状态S′选择最优下一时刻动作A′,并定期将网络参数θ复制给Actor目标网络的网络参数θ′;Critic当前网络负责价值网络参数w的迭代更新,并计算当前Q值Q(S,A,w);而Critic目标网络负责计算目标Q值中yi的Q′(S′,A′,w′)部分,并定期将网络参数w复制给Critic目标网络的网络参数w′。
5.根据权利要求4所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S3包括:初始化迭代回合次数T、每次迭代的计算步长step、网络参数软更新系数τ、批量梯度下降的样本数m、强化学习算法的衰减因子γ,以及Actor当前网络和Critic当前网络的参数向量θ、w,令w′=w、θ′=θ,以及Actor和Critic网络的输出节点数量、隐层层数和各隐层神经元数量。
6.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S4中,充放电动作a应满足:
a=πθ(s)+N
式中,πθ(s)状态策略函数,N为噪声函数。
8.根据权利要求7所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,所述步骤S5中,还包括:以频率C更新Critic目标网络和Actor目标网络参数;DDPG采用软更新方法,每次对网络参数更新一部分,即:
w′←τ·w+(1-τ)·w′
θ′←τ·θ+(1-τ)·θ′
式中,τ为网络参数的软更新系数,一般取较小的值。
9.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法,其特征在于,步骤S5中,所述以频率C更新Critic目标网络和Actor目标网络参数,需要通过潮流计算,潮流计算过程满足以下约束:
a)潮流约束:
式中,PNi和QNi为节点有功和无功注入功率;PDi和QDi为节点有功和无功输出功率;Vi和Vj为节点电压幅值;αij为节点电压相角差;Gij和Bij为节点导纳的实部和虚部;Sn为节点集合;
b)稳定运行约束:
c)输电断面极限约束:
Plim.min≤Ptra(t)≤Plim.max
式中,Plim.min和Plim.max分别表示输电断面的潮流下限值和上限值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111407622.2A CN114048576B (zh) | 2021-11-24 | 2021-11-24 | 一种稳定电网输电断面潮流的储能系统智能化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111407622.2A CN114048576B (zh) | 2021-11-24 | 2021-11-24 | 一种稳定电网输电断面潮流的储能系统智能化控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114048576A true CN114048576A (zh) | 2022-02-15 |
CN114048576B CN114048576B (zh) | 2024-05-10 |
Family
ID=80210650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111407622.2A Active CN114048576B (zh) | 2021-11-24 | 2021-11-24 | 一种稳定电网输电断面潮流的储能系统智能化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048576B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089611A (zh) * | 2023-01-13 | 2023-05-09 | 北京控制工程研究所 | 基于性能-故障关系图谱的航天器故障诊断方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826624A (zh) * | 2019-11-05 | 2020-02-21 | 电子科技大学 | 一种基于深度强化学习的时间序列分类方法 |
CN111884213A (zh) * | 2020-07-27 | 2020-11-03 | 国网北京市电力公司 | 一种基于深度强化学习算法的配电网电压调节方法 |
CN112003269A (zh) * | 2020-07-30 | 2020-11-27 | 四川大学 | 并网型共享储能系统的智能化在线控制方法 |
CN113141012A (zh) * | 2021-04-24 | 2021-07-20 | 西安交通大学 | 基于深度确定性策略梯度网络的电网潮流调控决策推理方法 |
-
2021
- 2021-11-24 CN CN202111407622.2A patent/CN114048576B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826624A (zh) * | 2019-11-05 | 2020-02-21 | 电子科技大学 | 一种基于深度强化学习的时间序列分类方法 |
CN111884213A (zh) * | 2020-07-27 | 2020-11-03 | 国网北京市电力公司 | 一种基于深度强化学习算法的配电网电压调节方法 |
CN112003269A (zh) * | 2020-07-30 | 2020-11-27 | 四川大学 | 并网型共享储能系统的智能化在线控制方法 |
CN113141012A (zh) * | 2021-04-24 | 2021-07-20 | 西安交通大学 | 基于深度确定性策略梯度网络的电网潮流调控决策推理方法 |
Non-Patent Citations (1)
Title |
---|
DANIEL-IOAN STROE,ET AL.: "Operation of a Grid-Connected Lithium-Ion Battery Energy Storage System for Primary Frequency Regulation: A Battery Lifetime Perspective", 《 IEEE TRANSACTIONS ON INDUSTRY APPLICATIONS》, 11 October 2016 (2016-10-11) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089611A (zh) * | 2023-01-13 | 2023-05-09 | 北京控制工程研究所 | 基于性能-故障关系图谱的航天器故障诊断方法及装置 |
CN116089611B (zh) * | 2023-01-13 | 2023-07-18 | 北京控制工程研究所 | 基于性能-故障关系图谱的航天器故障诊断方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114048576B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111884213B (zh) | 一种基于深度强化学习算法的配电网电压调节方法 | |
Li et al. | Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning | |
CN110929948B (zh) | 基于深度强化学习的完全分布式智能电网经济调度方法 | |
CN112117760A (zh) | 基于双q值网络深度强化学习的微电网能量调度方法 | |
CN112615379A (zh) | 基于分布式多智能体强化学习的电网多断面功率自动控制方法 | |
CN112507614B (zh) | 一种分布式电源高渗透率地区电网综合优化方法 | |
CN116468159A (zh) | 一种基于双延迟深度确定性策略梯度的无功优化方法 | |
CN113141012B (zh) | 电网潮流调控决策推理方法 | |
CN117039981A (zh) | 一种面向含新能源的大规模电网优化调度方法、装置、存储介质 | |
CN116760047A (zh) | 基于安全强化学习算法的配电网电压无功控制方法及系统 | |
CN115588998A (zh) | 一种基于图强化学习的配电网电压无功优化方法 | |
CN112381359A (zh) | 一种基于数据挖掘的多critic强化学习的电力经济调度方法 | |
CN115345380A (zh) | 一种基于人工智能的新能源消纳电力调度方法 | |
CN115293052A (zh) | 电力系统有功潮流在线优化控制方法、存储介质和装置 | |
CN115169957A (zh) | 一种基于深度强化学习的配电网调度方法、装置及介质 | |
CN114048576B (zh) | 一种稳定电网输电断面潮流的储能系统智能化控制方法 | |
CN113872213B (zh) | 一种配电网电压自主优化控制方法及装置 | |
CN112787331B (zh) | 基于深度强化学习的潮流收敛自动调整方法及系统 | |
CN116436003B (zh) | 主动配电网风险约束备用优化方法、系统、介质及设备 | |
CN117833263A (zh) | 一种基于ddpg的新能源电网电压控制方法及系统 | |
CN115133540B (zh) | 一种配电网无模型的实时电压控制方法 | |
CN115001002B (zh) | 一种求解储能参与削峰填谷的优化调度方法和系统 | |
CN116995645A (zh) | 基于保护机制强化学习的电力系统安全约束经济调度方法 | |
CN116093995A (zh) | 一种配电系统多目标网络重构方法及系统 | |
CN113555888B (zh) | 一种微电网储能协调控制的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |