CN114048576A

CN114048576A - 一种稳定电网输电断面潮流的储能系统智能化控制方法

Info

Publication number: CN114048576A
Application number: CN202111407622.2A
Authority: CN
Inventors: 宋航; 段登伟; 柳维衡; 韦炜; 廖彦洁; 陈智; 张正炜; 赵艾萱; 聂中睿; 郑瑞骁; 郎光娅; 杨哲涵
Original assignee: Chengdu Power Supply Co Of State Grid Sichuan Electric Power Corp
Current assignee: Chengdu Power Supply Co Of State Grid Sichuan Electric Power Corp
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-15
Anticipated expiration: 2041-11-24
Also published as: CN114048576B

Abstract

本发明公开了一种稳定电网输电断面潮流的储能系统智能化控制方法，将接入电网的规模化电池储能系统的充放电运行过程建模为马尔可夫决策过程，构建两组深度学习Q网络,Actor网络组使用策略函数生成动作并和环境交互，而Critic网络组采用价值函数来评估Actor的表现，并指导Actor下一阶段的动作。基于对电网环境状态特征和潮流断面稳定极限控制效果的交互感知，四个网络通过更新迭代，得到最优Actor当前网络参数和最优Critic当前网络参数w，最终确定出基于策略和基于价值相结合的储能智能化控制方法。本发明实现了电网输电断面安全稳定极限的潮流有效控制，克服了传统方法中不确定性建模复杂且收敛性差的问题。

Description

一种稳定电网输电断面潮流的储能系统智能化控制方法

技术领域

本发明涉及电力系统自动化技术领域，具体涉及一种稳定电网输电断面潮流的储能系统智能化控制方法。

背景技术

输电断面是由电网中有功潮流流向一致的线路、变压器构成的，常见的形式有若干线路、变压器或由二者共同构成的。关键输电断面已成为大电网的重要安全特征，调度运行中需严格控制关键输电断面潮流在稳定限额以内，确保电网安全稳定运行。

近年来机器学习快速发展，其强大的感知学习能力和数据分析能力契合了智能电网中大数据应用的需求。其中强化学习(Reinforcement Learning，RL)通过决策主体和环境之间的不断交互来获取环境知识，并采取影响环境的行动以达到预设目标。而深度学习(Deep Learning，DL)不依赖于任何解析方程，而利用大量的现有数据来描述数学问题和近似解，将其应用于RL中可以有效缓解价值函数求解困难等问题。

当前对储能系统直接参与调节电网输电断面有功功率的控制方法研究仍相对较少，多是采用非线性最优控制理论的输电断面协调最优控制策略，但是对控制器的假设和设计都非常复杂。同时当考虑分布式可再生能源发电时，传统基于模型的方法还需要对RDG和负荷等不确定性因素进行建模分析，且储能最优控制的求解过程复杂，数值迭代收敛较慢，实用性较差。同时，在储能系统充放电功率可控的情况下，其动作集合是连续值或者为非常高维的离散值，动作空间维度极大。若采用传统的随机策略，即像DQN算法一样研究所有可能动作的概率，并计算其动作价值的话，样本空间过于庞大导致算法的计算负担过大，甚至无法迭代更新。

发明内容

本发明所要解决的技术问题是如何合理地将机器学习算法应用于规模化储能系统，以实现电网输电断面安全稳定极限的潮流有效控制，克服传统方法中不确定性建模复杂且收敛性差的问题，目的在于提供一种稳定电网输电断面潮流的储能系统智能化控制方法，解决上述的问题。

本发明通过下述技术方案实现：

一种稳定电网输电断面潮流的储能系统智能化控制方法，包括以下步骤：

S1：建立跨片区电网内规模化储能系统BESS的马尔科夫决策过程，将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程；确定算法控制目标、环境状态集合以及即时奖励；

S2：构建两组深度学习目标Q网络：第一组为结构相同的Actor当前网络和Actor目标网络；第二组为结构相同的Critic当前网络和Critic目标网络；

S3：随机初始化Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络的网络参数，清空经验回放的集合D，并确定目标Q网络参数、更新频率C和以及最大回合迭代次数T；

S4：初始化电网环境，得到第一个状态特征向量s＝s0；将s输入Actor当前网络，基于状态s得到规模化储能的充放电动作a；执行动作s，得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标I^end，并将{s，a，r，s′，I^end}这个五元组存入经验回放集合D；令S＝S'；从经验回放集合D中采样m个样本，计算当前目标Q值y_j；

S5：使用Critic网络的均方差损失函数J(w)，通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w；同时使用Actor网络的均方差损失函数J(θ)，通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ，并以频率C更新Critic目标网络和Actor目标网络参数；如果S是终止状态，则当前回合迭代完毕，否则转到步骤S4。

进一步地，所述步骤S1包括：储能系统BESS通过不断感知当前时刻的时序值，以及区域电网内上一时刻发电厂的发电量、分布式可再生能源的出力大小、负荷水平以及实时电价信号，得到本时刻的系统观测状态向量；对于输电断面所跨的A、B两个电网片区系统，定义BESS在时刻t所感知到的环境状态特征向量为s_t为：

s_t＝(t,SOC(t),P_g(t-1),P_DER(t-1),L(t-1))^T

P_g(t-1)＝P_A.g(t-1)-P_B.g(t-1)

式中，t为时序号；SOC为t时刻储能系统的荷电状态；P_g(t-1)表示在上一时刻t-1下断面所跨片区的电厂发电量差额，单位为MW；P_DER(t-1)表示上一时刻分布式可再生能源的总出力大小，单位为MW；L(t)为时刻t时两个片区电网的总负荷大小。

进一步地，所述步骤S1还包括：储能系统BESS在不断感知和学习过程中，所获得的单步即时奖励包括本时刻断面潮流的稳定极限相对偏差，以及在实时电价信号下储能本时刻的充电成本或放电收益；在给定环境状态st和选择动作at之后的奖励rt定义为：

r₁(t)＝|P_tra(t)-P_lim|/P_lim

r₂(t)＝[P_dc(t)-P_ch(t)]·c_e(t)

r(t)＝λ₁·r₁(t)+λ₂·r₂(t)

式中，r1(t)表示t时刻断面潮流的稳定极限相对偏差，P_tra(t)表示t时刻断面潮流大小，P_lim为断面潮流稳定极限值；r₂(t)表示t时刻储能的充放电运行成本，P_dc(t)表示时隙t储能的放电电量，P_ch(t)表示时隙t储能的充电电量，c_e(t)表示t时刻的实时电价，λ1、λ2分别表示即时奖励子函数的权重系数。

进一步地，所述步骤S2包括：Actor当前网络负责策略网络参数θ的迭代更新，并根据当前状态S选择当前动作A，用于和环境交互生成下一时刻的状态S′和即时奖励R；而Actor目标网络负责根据经验回放池中采样的下一状态S′选择最优下一时刻动作A′，并定期将网络参数θ复制给Actor目标网络的网络参数θ′；Critic当前网络负责价值网络参数w的迭代更新，并计算当前Q值Q(S,A,w)；而Critic目标网络负责计算目标Q值中yi的Q′(S′,A′,w′)部分，并定期将网络参数w复制给Critic目标网络的网络参数w′。

进一步地，所述步骤S3包括：初始化迭代回合次数T、每次迭代的计算步长step、网络参数软更新系数τ、批量梯度下降的样本数m、强化学习算法的衰减因子γ，以及Actor当前网络和Critic当前网络的参数向量θ、w，令w′＝w、θ′＝θ，以及Actor和Critic网络的输出节点数量、隐层层数和各隐层神经元数量。

进一步地，所述步骤S4中，充放电动作a应满足：

a＝πθ(s)+N

式中，πθ(s)状态策略函数，N为噪声函数。

进一步地，所述步骤S5中，所述使用Critic网络的均方差损失函数J(w)，通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w，均方差损失函数J(w)应满足：

式中，m为批量梯度下降的样本数，y_i为当前目标Q值；

所述使用Actor网络的均方差损失函数J(θ)，通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ，均方差损失函数J(θ)应满足：

式中，m为批量梯度下降的样本数。

进一步地，所述步骤S5中，还包括：以频率C更新Critic目标网络和Actor目标网络参数；DDPG采用软更新方法，每次对网络参数更新一部分，即：

w′←τ·w+(1-τ)·w′

θ′←τ·θ+(1-τ)·θ′

式中，τ为网络参数的软更新系数，一般取较小的值。

进一步地，步骤S5中，所述以频率C更新Critic目标网络和Actor目标网络参数，需要通过潮流计算，潮流计算过程满足以下约束：

a)潮流约束：

式中，P_Ni和Q_Ni为节点有功和无功注入功率；P_Di和Q_Di为节点有功和无功输出功率；V_i和V_j为节点电压幅值；α_ij为节点电压相角差；G_ij和B_ij为节点导纳的实部和虚部；S_n为节点集合；

b)稳定运行约束：

式中，

和

为发电机有功出力上、下限；

和

为无功源输出上、下限；

和

为节点电压上、下限；

和

为线路热稳定约束上下限；S_l为线路集合；

c)输电断面极限约束：

P_lim.min≤P_tra(t)≤P_lim.max

式中，P_lim.min和P_lim.max分别表示输电断面的潮流下限值和上限值。

进一步地，步骤S5中，还包括判断本次迭代是否为终止状态，所述I^end为迭代终止判定指标，用作每次迭代过程的中断指标，应满足：

式中，如果储能运行过程中起荷电状态越限，则本次迭代的I^end等于1，否则为0；I^end＝1表示终止而跳出本次迭代，I^end＝0表示未终止。

本发明考虑了储能的运行成本，将接入电网的规模化电池储能系统的充放电运行过程建模为马尔可夫决策过程，其中以本时刻时序值、实时电价信号和上一时刻在跨片区电网内的发电厂发电量差额、分布式可再生能源出力以及负荷大小为系统的观测状态集S，以储能系统离散化充放电决策为动作集A，以电网关键断面潮流稳定极限相对偏差为即时奖励集R，以此构建基础的Q-learning模型。随后，构建两组深度学习Q网络：相同结构的Actor当前网络和Actor目标网络，以及相同结构的Critic当前网络和Critic目标网络。Actor网络组使用策略函数生成动作并和环境交互，而Critic网络组采用价值函数来评估Actor的表现，并指导Actor下一阶段的动作。基于对电网环境状态特征和潮流断面稳定极限控制效果的交互感知，四个网络通过更新迭代，得到最优Actor当前网络参数和最优Critic当前网络参数w，最终确定出基于策略和基于价值相结合的储能智能化控制方法。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明提供的一种稳定电网输电断面潮流的储能系统智能化控制方法，将机器学习算法应用于规模化储能系统，实现了电网输电断面安全稳定极限的潮流有效控制，克服了传统方法中不确定性建模复杂且收敛性差的问题。

2、本发明提供的一种稳定电网输电断面潮流的储能系统智能化控制方法，通过采用经验回放和双组网络的方法解决了传统Actor-Critic算法收敛困难的问题。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为本发明控制方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1所示，本发明一种稳定电网输电断面潮流的储能系统智能化控制方法，包括以下步骤：

S1：建立跨片区电网内规模化储能系统的马尔科夫决策过程，将其充放电行为映射为基于动作价值迭代更新的强化学习过程，确定算法优化控制目标、环境状态特征以及即时奖励函数；具体方法如下：

储能系统BESS通过不断感知当前时刻的时序值，以及区域电网内上一时刻发电厂的发电量、分布式可再生能源的出力大小、负荷水平以及实时电价信号，得到本时刻的系统观测状态向量st。对应于本发明所提的算法，映射关系如下：

(1)控制目标

利用规模化储能系统的灵活充放电特性来改善所在电网区域关键输电断面的潮流稳定性，其控制目标为：在一定控制周期内，最小化指定输电断面的潮流稳定极限累计相对偏差。

(2)环境状态特征

对于某关键输电断面所跨的A、B两个电网片区系统，定义BESS在时刻t所感知到的环境状态特征向量为st为：

s_t＝(t,SOC(t),P_g(t-1),P_DER(t-1),L(t-1))^T

P_g(t-1)＝P_A.g(t-1)-P_B.g(t-1)

(3)反馈奖励

储能系统在不断感知和学习过程中，所获得的单步即时奖励应包括本时刻断面潮流的稳定极限相对偏差，以及在实时电价信号下储能本时刻的充电成本或放电收益。在给定环境状态st和选择动作at之后的奖励rt定义为：

r₁(t)＝|P_tra(t)-P_lim|/P_lim

r₂(t)＝[P_dc(t)-P_ch(t)]·c_e(t)

r(t)＝λ₁·r₁(t)+λ₂·r₂(t)

S2：构建两组深度学习Q网络，即结构相同的Actor当前网络和Actor目标网络，以及结构相同的Critic当前网络和Critic目标网络。具体方法如下：

Actor当前网络负责策略网络参数θ的迭代更新，并根据当前状态S选择当前动作A，用于和环境交互生成下一时刻的状态S′和即时奖励R；而Actor目标网络负责根据经验回放池中采样的下一状态S′选择最优下一时刻动作A′，并定期将网络参数θ复制给Actor目标网络的网络参数θ′。Critic当前网络负责价值网络参数w的迭代更新，并计算当前Q值Q(S,A,w)；而Critic目标网络负责计算目标Q值中yi的Q′(S′,A′,w′)部分，并定期将网络参数w复制给Critic目标网络的网络参数w′。

S3：随机初始化四个网络的网络参数，清空经验回放的集合D，并确定目标Q网络参数更新频率C和算法的最大回合迭代次数T。具体方法如下：

初始化迭代回合次数T、每次迭代的计算步长step、网络参数软更新系数τ、批量梯度下降的样本数m、强化学习算法的衰减因子γ，以及Actor当前网络和Critic当前网络的参数向量θ、w，令w′＝w、θ′＝θ，以及Actor和Critic网络的输出节点数量、隐层层数和各隐层神经元数量。

S4：开始从初始状态进行以下过程的迭代至最大回合迭代次数：

a)初始化当前区域电网环境，得到其状态序列的第一个状态特征向量s＝s0；

b)将s输入Actor当前网络，基于状态s得到规模化储能的充放电动作a；通过执行动作s，得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标I^end，并将{s，a，r，s′,I^end}这个五元组存入经验回放集合D；

c)令S＝S'；

d)从经验回放集合D中采样m个样本

计算当前目标Q值y_j；

e)使用Critic网络的均方差损失函数J(w)，通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w。同时使用Actor网络的均方差损失函数J(θ)，通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ，并以频率C更新Critic目标网络和Actor目标网络参数：

f)如果S是终止状态，则当前回合迭代完毕，否则转到步骤b)。

具体方法如下：

将s输入Actor当前网络，基于状态s得到规模化储能的充放电动作a。为了增加学习过程的随机性以扩大学习的覆盖，DDPG对选择出来的动作a会增加一定的噪声N，即最终和环境交互的动作a为：

a＝πθ(s)+N

式中，πθ(s)状态策略函数，N为噪声函数。

通过执行动作s，得到新状态s′、断面潮流控制的即时奖励r以及迭代终止指标I^end，并令S＝S'。同时，将{s，a，r，s′,I^end}这个五元组存入经验回放集合D，在D中样本数量不少于m个时，从经验回放集合D中随机采样m个样本

m，计算当前目标Q值y_j；

y_j＝r+γ·Q′(s′，a′，w′)

式中，γ为强化学习算法的衰减因子。其中，a′是通过Actor目标网络得到的，而Q′则是通过Critic目标网络得到的。

使用Critic网络的均方差损失函数J(w)，通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w。

式中，m为批量梯度下降的样本数。

同时使用Actor网络的均方差损失函数J(θ)，通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ。Actor想要尽可能的得到更大的Q值，为得到的反馈Q值越大损失越小，得到的反馈Q值越小损失越大，因此对状态估计网络返回的Q值取个负号即可，

以频率C更新Critic目标网络和Actor目标网络参数。DDPG采用软更新方法，每次对网络参数更新一部分，即：

w′←τ·w+(1-τ)·w′

θ′←τ·θ+(1-τ)·θ′

式中，τ为网络参数的软更新系数，一般取较小的值。

如果s到达终止状态，则当前回合迭代完毕，否则继续将s输入Actor当前网络进行迭代。s_t的更新需要通过潮流计算，潮流计算过程满足以下约束：

a)潮流约束：

式中，P_Ni和Q_Ni为节点有功和无功注入功率；P_Di和Q_Di为节点有功和无功输出功率；V_i和V_j为节点电压幅值；α_ij为节点电压相角差；G_ij和B_ij为节点导纳的实部和虚部；S_n为节点集合。

b)稳定运行约束：

式中，

和

为发电机有功出力上、下限；

和

为无功源输出上、下限；

和

为节点电压上、下限；

和

为线路热稳定约束上下限；S_l为线路集合。

c)输电断面极限约束：

P_lim.min≤P_tra(t)≤P_lim.max

同时判断本次迭代是否为终止状态，I^end为迭代终止判定指标，用作每次迭代过程的中断指标：

式中，如果储能运行过程中起荷电状态越限，则本次迭代的I^end等于1，否则为0。I^end＝1表示终止而跳出本次迭代，I^end＝0表示未终止。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种稳定电网输电断面潮流的储能系统智能化控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法，其特征在于，所述步骤S1包括：

储能系统BESS通过不断感知当前时刻的时序值，以及区域电网内上一时刻发电厂的发电量、分布式可再生能源的出力大小、负荷水平以及实时电价信号，得到本时刻的系统观测状态向量；对于输电断面所跨的A、B两个电网片区系统，定义BESS在时刻t所感知到的环境状态特征向量为s_t为：

s_t＝(t,SOC(t),P_g(t-1),P_DER(t-1),L(t-1))^T

P_g(t-1)＝P_A.g(t-1)-P_B.g(t-1)

3.根据权利要求2所述的一种稳定电网输电断面潮流的储能系统智能化控制方法，其特征在于，所述步骤S1还包括：

储能系统BESS在不断感知和学习过程中，所获得的单步即时奖励包括本时刻断面潮流的稳定极限相对偏差，以及在实时电价信号下储能本时刻的充电成本或放电收益；在给定环境状态st和选择动作at之后的奖励rt定义为：

r₁(t)＝|P_tra(t)-P_lim|/P_lim

r₂(t)＝[P_dc(t)-P_ch(t)]·c_e(t)

r(t)＝λ₁·r₁(t)+λ₂·r₂(t)

4.根据权利要求3所述的一种稳定电网输电断面潮流的储能系统智能化控制方法，其特征在于，所述步骤S2包括：Actor当前网络负责策略网络参数θ的迭代更新，并根据当前状态S选择当前动作A，用于和环境交互生成下一时刻的状态S′和即时奖励R；而Actor目标网络负责根据经验回放池中采样的下一状态S′选择最优下一时刻动作A′，并定期将网络参数θ复制给Actor目标网络的网络参数θ′；Critic当前网络负责价值网络参数w的迭代更新，并计算当前Q值Q(S,A,w)；而Critic目标网络负责计算目标Q值中yi的Q′(S′,A′,w′)部分，并定期将网络参数w复制给Critic目标网络的网络参数w′。

5.根据权利要求4所述的一种稳定电网输电断面潮流的储能系统智能化控制方法，其特征在于，所述步骤S3包括：初始化迭代回合次数T、每次迭代的计算步长step、网络参数软更新系数τ、批量梯度下降的样本数m、强化学习算法的衰减因子γ，以及Actor当前网络和Critic当前网络的参数向量θ、w，令w′＝w、θ′＝θ，以及Actor和Critic网络的输出节点数量、隐层层数和各隐层神经元数量。

6.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法，其特征在于，所述步骤S4中，充放电动作a应满足：

a＝πθ(s)+N

式中，πθ(s)状态策略函数，N为噪声函数。

7.根据权利要求1所述的一种稳定电网输电断面潮流的储能系统智能化控制方法，其特征在于，所述步骤S5中，所述使用Critic网络的均方差损失函数J(w)，通过神经网络的梯度反向传播来更新Critic当前网络的所有参数w，均方差损失函数J(w)应满足：