CN113097994A

CN113097994A - 基于多强化学习智能体的电网运行方式调节方法及装置

Info

Publication number: CN113097994A
Application number: CN202110276975.7A
Authority: CN
Inventors: 叶琳; 张静; 刁瑞盛; 尚秀敏; 杨靖萍; 杨滢; 周正阳; 周靖皓; 吕勤; 徐建平; 周材; 陈良亮
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Nari Technology Co Ltd; Jinhua Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Nari Technology Co Ltd; Jinhua Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-07-09

Abstract

本发明公开了一种多强化学习智能体的电网运行方式调节方法及装置，方法包括以下步骤：1）基于原始电网运行状态数据求解电网模型，并提取发电机控制的状态空间；2）以发电机控制的状态空间为输入，利用预先训练好的发电机强化学习智能体，获取发电机最优控制方案；3）基于发电机最优控制方案调节电网运行方式，并对电网运行状态进行安全评估；4）如果存在传输线路过载，则基于负荷最优控制方案调节电网运行方式，并对电网运行状态再次进行安全评估。本发明针对不同种类的电网调控措施在正常运行和故障工况下，自动调整传输线路功率，满足电网运行安全需求。

Description

基于多强化学习智能体的电网运行方式调节方法及装置

技术领域

本发明涉及一种电网运行方式自动调节方法及装置，属于电网调控技术领域。

背景技术

现代电网的安全经济运行是一个复杂的控制问题，需要在任何时候都满足各种电压、频率、线路潮流等安全约束。为了更好地规划未来的电网运行方式，通常使用电网模型进行大规模仿真分析，以降低在正常运行和故障(N-1或N-k)工况下的运行风险。一旦发现安全问题，可以采取相应的控制措施来缓解这些问题。然而，考虑到大电网的复杂性、非线性和高维性，要获得满足安全性和可靠性标准的最优运行方式具有很大挑战性。这通常需要电力工程师对电网模型及参数进行大量的人工调整，并进行海量仿真分析。随着可再生能源渗透率的不断增加，现代电力系统中出现了更多的动态性、不确定性和随机性，这为电力工程师寻找安全、低成本的控制措施带来了更大的挑战。

现有的电网传输线路潮流控制的方法多集中在市场运营下的区域间功率传输交易，或者是出于安全考虑的紧急调控。在大电网负荷变化和故障等各种不确定性因素下，精准、快速的潮流控制变得十分困难。

发明内容

为解决现有技术的缺陷，需要一种电网运行方式自动调节方法及装置，可以针对不同种类的电网调控措施在正常运行和故障工况下，自动调整传输线路功率，满足电网运行安全需求。

为解决上述技术问题，本发明采用的技术方案如下：

一种基于多强化学习智能体的电网运行方式调节方法，包括以下步骤：

1)基于原始电网运行状态数据求解电网模型，并提取发电机控制的状态空间；

2)以发电机控制的状态空间为输入，利用预先训练好的发电机强化学习智能体，获取发电机最优控制方案；

3)基于发电机最优控制方案调节电网运行方式，并对电网运行状态进行安全评估；

4)如果存在传输线路过载，则提取负荷控制的状态空间；

5)以负荷控制的状态空间为输入，利用预先训练好的负荷强化学习智能体，获取负荷转移最优控制方案；

6)基于负荷最优控制方案调节电网运行方式，并对电网运行状态再次进行安全评估。

在步骤1)中，所述电网模型为：

其中，

和

代表母线i上发电机n的有功功率输出和无功功率输出，P_ij(y)和Q_ij(y)代表从母线i到母线j的有功功率和无功功率，V_i代表母线i的电压幅值，B代表母线集合，上标g表示发电机，上标d表示代表电网负荷，

和

是母线i上的发电机有功功率注入和无功功率注入，

和

是母线i上的负荷有功功率和无功功率，

和

是母线i上负荷m的有功功率和无功功率，G_i是母线i上的发电机集合，D_i是母线i上的负荷集合，B_i是与母线i构成支路的母线集合，g_i是母线i的自电导，b_i是母线i的自电纳，y是母线电压向量。

所述电网模型需满足约束条件：

其中，

和

表示发电机有功上限和下限，

和

表示发电机无功上限和下限，G表示发电机集合，

和

表示母线电压幅值上限和下限，

是传输线路的视在功率上限，Ω_L代表传输线路集合，Ω_T代表变压器集合；g_ij是母线i和母线j的互电导，V_j是母线j的电压幅值，θ_i是母线i电压相角，θ_j是母线j电压相角互电导，b_ij是母线i和母线j的互电纳，b_ij0是联络线电容器电纳。

在步骤2)中，以发电机控制的状态空间为输入，采用最大熵智能体强化学习算法，得到发电机智能体控制动作方法，将所述发电机智能体控制动作方法作为发电机有功控制方案。

所述发电机控制的状态空间S_g定义为：

S_g＝(P，V，G)，构成一个向量，

其中，P表示被控区域内的线路有功功率，V表示同一区域内的母线电压幅值，G表示发电机有功功率输出的矢量。

在步骤3)中，具体包括以下步骤：

31)计算发电机智能体奖励值；

32)基于当前发电机控制的状态空间、智能体奖励值、智能体控制动作方法和下一发电机控制的状态空间，利用强化学习智能体的算法更新发电机智能体网络参数；

33)迭代循环计算，直至满足电网运行状态安全评估要求。

在步骤4)中，所述负荷控制的状态空间S_d为：

S_d＝(P，V，D)，构成一个向量，

其中，P表示被控区域内的线路有功功率，V表示同一区域内的母线电压幅值，D表示负荷功率向量。

在步骤5)中，

以负荷控制的状态空间为输入，采用最大熵智能体强化学习算法，得到负荷智能体控制动作方法，将所述负荷智能体控制动作方法作为负荷转移最优控制方案。

在步骤6)中，具体包括以下步骤：

61)计算负荷智能体奖励值；

62)基于当前负荷控制的状态空间、智能体奖励值、智能体控制动作和下一负荷控制的状态空间更新智能体网络参数；

63)迭代循环计算，直至满足电网运行状态安全评估要求。

进一步的，在步骤3)和步骤6)中，所述对电网运行状态进行安全评估的方法为：

电网运行方式调节后对比联络线功率是否超过联络线运行限额，当电网运行正常运行和故障工况下，所有联络线潮流均在安全范围内，则满足安全评估要求。

在步骤3)和步骤6)中，发电机智能体奖励值与负荷智能体奖励值均包括：

r＝r_con+r_base

其中，r表示奖励值，r_con表示故障奖励值，r_base表示正常运行奖励值，P_from和P_to是在传输线的首端和末端的有功功率测量值，P_limit是线路的有功上限，a和b分别是奖励值系数一和奖励值系数二，N是线路总数，k、l均为求和公式中的索引，竖线表示绝对值。

一种多强化学习智能体的电网运行方式自动调节装置，包括以下功能模块：

发电机控制模块，负荷控制模块和在线使用模块；

所述发电机控制模块包括第一环境组件、发电机智能体模块和第一经验池；

所述第一环境组件用于更新并存储电网运行状态数据，求解电网模型，以及计算发电机智能体奖励值；

所述发电机智能体模块用于采用最大熵强化学习算法训练发电机智能体，输出发电机有功控制方案；

所述第一经验池，用于存储发电机控制的状态空间、发电机智能体奖励值和发电机有功控制方案；

所述负荷控制模块包括第二环境组件、负荷智能体模块和第二经验池；

所述第二环境组件用于更新并存储电网运行状态数据，求解电网模型，以及计算负荷智能体奖励值；

所述负荷智能体模块用于采用最大熵强化学习算法训练负荷智能体，获取负荷转移控制方案；

所述第二经验池用于存储负荷控制的状态空间、负荷智能体奖励值和负荷转移控制方案；

所述在线使用模块，用于基于当前电网运行状态获取发电机有功控制方案和负荷转移控制方案并输出至电网运行方式文件，对电网运行方式进行调节。

所述第一环境组件用于将发电机有功控制方案更新入电网运行方式文件中。

所述第二环境组件用于将负荷转移控制方案更新入电网运行方式文件中。

本发明的有益效果为：本发明通过训练集中式的最大熵智能体控制发电机有功功率输出，以控制传输线路功率；在正常运行或故障下线路功率越限问题仍然没有完全解决，通过训练分布式的SAC智能体调节局部变电站负荷，进一步寻找满足安全需求的电网运行方式。本发明可以针对不同种类的电网调控措施在正常运行和故障工况下，自动调整传输线路功率，满足电网运行安全需求。

附图说明

图1为本发明的多强化学习智能体的电网运行方式自动调节架构示意图；

图2为本发明的多强化学习智能体的电网运行方式自动调节算法实例示意图；

图3(a)为本发明实施例中第一个测试，发动机控制阶段智能体训练过程智能体迭代步骤示意图；

图3(b)为本发明实施例中第一个测试，发电机控制阶段智能体训练过程智能体训练结果示意图；

图4(a)为本发明实施例中第二个测试，负荷控制阶段智能体训练过程智能体迭代步骤示意图；

图4(b)为本发明实施例中第二个测试，负荷控制阶段智能体训练过程智能体训练结果示意图。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供一种基于多强化学习智能体的电网运行方式调节方法，分为两个阶段。第一阶段使用发电机有功调整进行集中式训练，第二阶段使用变电站负荷转移进行分布式训练。该控制问题首先被描述成马尔可夫决策过程，其中状态空间包括电网线路功率、母线电压、发电机输出和电网负荷，控制空间则由选定的发电机有功功率(第一阶段调控)和变电站负荷有功功率(第二阶调控)构成。在每个负荷转移控制空间中，所选中的变电站之间的负荷有功总和与功率因数保持不变。

实施例1

参见图1，本发明的一种基于多强化学习智能体的电网运行方式调节方法，包括以下步骤：

在步骤1)中，采用P-Q分解法、Newton-Raphson法、P-Q自动转化为YR法或者P-Q自动转化为Newton-Raphson法求解电网模型。

在步骤1)中，所述电网模型为：

其中，

和

和

是母线i上的发电机有功功率注入和无功功率注入，

和

是母线i上的负荷有功功率和无功功率，

和

电网模型需满足以下约束条件，他们分别表示各种电力设备的物理极限，要求所有的线路潮流、发电机功率输出和电压幅值都要运行在它们的物理极限以内，

其中，

和

表示发电机有功上限和下限，

和

表示发电机无功上限和下限，G表示发电机集合，

和

表示母线电压幅值上限和下限，

是传输线路的视在功率上限，Ω_L代表传输线路集合，Ω_T代表变压器集合。

线路的有功功率P_ij和无功功率Q_ij计算如下：

其中，g_ij是母线i和母线j的互电导，θ_i是母线i电压相角，互电导b_ij是母线i和母线j的互电纳，b_ij0是联络线电容器电纳，V_j是母线j的电压幅值，θ_j是母线j的电压相角。

在步骤2)中，以发电机控制的状态空间为输入，采用最大熵智能体强化学习算法，得到发电机智能体控制动作方法，将所述发电机智能体控制动作方法为发电机有功控制方案。

在步骤3)中，具体包括以下步骤：

31)计算发电机智能体奖励值；

32)基于当前发电机控制的状态空间、智能体奖励值、智能体控制动作方法和下一发电机控制的状态空间，利用强化学习智能体的算法更新发电机智能体网络参数；详见算法流程描述；

33)迭代循环计算，直至满足电网运行状态安全评估要求。

4)如果存在传输线路过载，则提取负荷控制的状态空间；

在步骤5)中，以负荷控制的状态空间为输入，采用最大熵智能体强化学习算法，得到负荷智能体控制动作方法，将所述负荷智能体控制动作方法为负荷转移最优控制方案。

在步骤6)中，具体包括以下步骤：

61)计算负荷智能体奖励值；

63)迭代循环计算，直至满足电网运行安全评估要求。

是第本发明还提供一种基于多强化学习智能体的电网运行方式调节装置，包括：

发电机控制模块，负荷控制模块和在线使用模块。

其中，发电机控制模块包括第一环境组件，发电机智能体模块和第一经验池；

第一环境组件用于更新并存储电网运行状态数据，求解电网模型，以及计算发电机智能体奖励值；

所述电网运行状态数据存储在电网运行方式文件中，第一环境组件将发电机有功控制方案更新入电网运行方式文件中；

发电机智能体模块用于采用最大熵强化学习算法训练发电机智能体，输出发电机有功控制方案。

第一经验池用于存储发电机控制的状态空间、发电机智能体奖励值和发电机有功控制方案；

负荷控制模块包括第二环境组件，负荷智能体模块和第二经验池；

第二环境组件用于更新并存储电网运行状态数据，求解电网模型，以及计算负荷智能体奖励值，所述电网运行状态数据存储在电网运行方式文件中，第二环境组件将负荷转移控制方案更新入电网运行方式文件中；

负荷智能体模块用于采用最大熵强化学习算法训练负荷智能体，获取负荷转移控制方案。

第二经验池用于存储负荷控制的状态空间、负荷智能体奖励值和负荷转移控制方案。

在线使用模块用于基于当前电网运行状态获取发电机有功控制方案和负荷转移控制方案并输出至电网运行方式文件，对电网运行方式进行调节。

使用某电网真实规划模型，用于产生未来电网运行方式。在原始电网规划模型中，有超过6500个母线，600台发电机，6000条线路和4300台变压器。为了验证本方法的有效性，在某电网分区进行了两种测试。对于第一个测试，分区电网包括224条母线、231条输电线路和7台发电机，代表第一次的运行工况。而在第二个测试中，模型文件代表第二次的电网运行工况。

在第一个测试中，使用第一阶段发电机控制，训练SAC智能体，其状态空间维数为462，动作空间维数为7。训练迭代步骤及智能体结果如图3(a)和图3(b)所示。可以看到，使用7台发电机训练出来的SAC智能体，可成功收敛，完全解决正常运行与故障工况下的线路过载问题。

在第二个测试中，使用第一阶段发电机控制，训练SAC智能体，其状态空间维数为455，动作空间维数为7。在完成第一阶段的训练后，智能体并没有达到最优策略，即仅仅调整发电机的值无法找到可行的电网运行方式。这是由于所选的7台发电机在调节区线路潮流方面的局限性。因此，需要将负载转移加入到调控手段，来解决局部未解决的问题。在第二阶段控制中，智能体同时调节6个变电站负荷，其状态空间维度为453，动作空间维度为5，第六个负荷吸收其余5个负荷的全部变化。采用负载控制后，成功地解决了局部线路过载的问题。训练迭代步骤及智能体结果如图4(a)和(b)所示。

实施例2

在步骤3)和步骤5)中，所述对电网运行状态进行安全评估的方法为：

电网运行方式调节后对比联络线功率是否超过其运行限额，当正常运行和故障工况下，所有联络线潮流均在安全范围内，则满足安全评估要求。

所述发电机控制的状态空间S_g定义为：

S_g＝(P，V，G)，构成一个向量，

所述负荷控制的状态空间S_d为：

S_d＝(P，V，D)，构成一个向量，

发电机控制方案的动作空间Ag定义为发电机集合G，为调节电网传输线路有功功率的控制信号。

负荷控制方案的动作空间Ad为负荷转移的控制信号。

采用最大熵强化学习算法训练发电机智能体和负荷智能体，包括：

使用强化学习方法的控制系统可被建模为马尔可夫决策过程(MDP)，用于描述AI智能体与电网仿真环境的交互过程，其中MDP包括状态空间S、动作空间A、转移概率P和奖励函数R。在每一步t，智能体在状态空间S中观察一个状态s_t，在动作空间A中执行一个控制动作a_t，并获得一个标量奖励值r(s_t，a_t)；智能体的行为由策略π定义，从P(A)←S中获取P(A)，即控制动作集合A的转移概率，该映射关系将状态映射到控制动作的概率分布；智能体的性能好坏用Q值来描述，即施加当前控制策略后智能体对未来奖励值积累值的期待，

其中γ是折扣系数，在[0，1]之间，T是控制迭代次数总数，智能体的目标是找到一个策略，可以最大化奖励的期望值，训练强化学习智能体的最终目标是找到最大化奖励值的控制方案，R_t是第t时间的奖励值。

本发明中选择最大熵强化学习算法(Soft Actor Critic，SAC)，最大熵强化学习算法在样本效率和稳定性方面都具有先进的性能，具有在训练过程中最大化期望奖励和熵的独特能力。

公式(11)中给出了用于计算Q值的目标函数，θ和ψ分别代表建模软Q值(即相对平缓地更新Q值网络)函数和控制方案的参数化网络，ψ是参数化网络，V_ψ，是状态值函数，α是温度参数，决定熵项与奖励值的相对重要性，从而控制最优政策的随机性。

J_Q(θ)是Q值的目标函数、

是策略π的目标函数、

是状态s_t和控制动作a_t的奖励值期望、D[·]是状态空间、Q_θ(s_t，a_t)是函数θ的值函数、Q_ψ是ψ的值函数、π_ψ是参数为ψ的控制策略、N[·]是空间分布；V_ψ是神经网络参数为ψ的值函数，π_φ是神经网络参数为φ的控制策略函数，～代表状态空间分布，

是状态为St的期望值，D是空间分布，∈是属于，单竖线代表匹配关系；

在公式(12)中给出了策略的目标函数，在本发明中，使用正态分布，在之前的计算中，温度系数α是固定的，但是随着奖励值的变化，使用固定的温度系数进行训练会使智能体性能变得不稳定，所以需要有一个自动的温度系数，它也可以随着政策的更新而变化，以探索更多的动作空间，因此，将平均熵约束添加到原始目标函数中，同时允许熵在不同状态下发生变化。因此，公式(11)的目标函数修改为公式(13)：

表示对于所有的时间t，H(π_t)施加控制策略π_t后的H值，s.t.是约束条件，E[·]是数学期望，T是控制迭代次数总数；H₀是期望的最小熵值，而温度系数的损失函数J(α)则由公式(14)给出：

是控制动作a_t的奖励值期望；

为了保持各个数据单位的一致性，在训练期间对状态值和动作值都应用了归一化方法。

在计算智能体奖励值过程中，奖励值是智能体在每个控制迭代中表现优劣的一个反馈，一个设计良好的奖励值不仅能指导智能体向更有效的方向更新神经网络参数，而且可以加快整个训练过程。控制目标是得到能够满足正常运行和故障条件下的电网可行运行方式，即在正常运行和故障工况下联络线潮流不越限，两个阶段的奖励值函数的是相同的，所考虑的故障是指电网中的传输线路故障，即被控区域必须能够保持正常运行和N-1故障后的安全和可靠性。

奖励值函数r定义为故障奖励和正常运行奖励之和：

r＝r_con+r_base

其中，r_con表示故障奖励值，r_base表示正常运行奖励值；

故障奖励值计算为：

其中，P_from和P_to是在传输线的首端和末端的有功功率测量值，P_limit是该线路的有功上限，代表热极限或稳定限额，a和b分别是奖励值系数一和奖励值系数二，N是线路总数，k、l分别是求和函数的索引，竖线代表绝对值，奖励值函数代表当电网中发生N-1故障后，被控区域内剩余N-1条线路的功率越限程度总和。

正常运行奖励值计算为：

上述函数中的所有变量都与故障奖励函数中定义的变量相同，区别是正常运行奖励值的计算保证当前拓扑结构不变的前提下，检查线路功率越限的情况。

其中，P_from和P_to是在传输线的首端和末端的有功功率测量值，P_limit是线路的有功上限，a和b分别是奖励值系数一和奖励值系数二，N是线路总数。

图2为本发明的多强化学习智能体电网运行方式自动调节算法。第1-13行给出了在故障情况下训练SAC智能体的过程。第15-28行给出了使用发电机作为控制手段而未能完全解决安全问题后使用负荷转移的智能体训练过程。对于发电机控制，第7-10行生成马尔可夫元组用于更新策略和值函数网络。第11-13行中，当智能体收集样本数据元组大于批量大小时，策略和Q函数网络将根据公式(11)、(12)和(14)执行随机更新，这个过程与负载控制过程类似。

其它技术特征与实施例1相同。

装置实施例是与上述方法实施例对应的，上述方法实施例的实现方式均适用于该装置实施例中，并能达到相同或相似的技术效果，故不在此赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。