CN111666713B

CN111666713B - 一种电网无功电压控制模型训练方法及系统

Info

Publication number: CN111666713B
Application number: CN202010413883.4A
Authority: CN
Inventors: 吴文传; 刘昊天; 孙宏斌; 王彬; 郭庆来; 夏天
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2022-07-08
Anticipated expiration: 2040-05-15
Also published as: US11689021B2; CN111666713A; US20210359517A1

Abstract

本发明提供了一种电网无功电压控制模型训练方法，所述方法包括：建立电网仿真模型；根据电网无功电压控制目标，建立无功电压优化模型；结合电网仿真模型和无功电压优化模型，搭建基于对抗马尔科夫决策过程的交互训练环境；通过联合对抗训练算法训练电网无功电压控制模型；将训练后的电网无功电压控制模型迁移到在线系统。本发明所训练得到的电网无功电压控制模型，相较于传统方法，具备可迁移的特性，可以直接用于在线电网无功电压控制。相较于现有的基于强化学习的电网优化方法，本发明的在线控制训练成本与安全隐患大幅降低，更适合部署在实际电网系统中。

Description

一种电网无功电压控制模型训练方法及系统

技术领域

本发明属于电力系统运行和控制技术领域，特别涉及一种电网无功电压控制模型训练方法及系统。

背景技术

近年来，分布式可再生能源发电设备(DG，Distributed Generation)渗透率的不断提高，使新能源场站及其汇集区的电网调控愈发重要。DG作为一种灵活性资源，其装机容量往往大于其额定有功功率，且响应速度快，存在大量的可调控空间。为了解决大规模DG并网功率倒送带来的电压越限、设备脱网和网损严重等问题，针对DG的电网无功电压控制系统已成为关键措施。然而，由于电网的真实物理系统模型难以获得，传统基于模型的优化方法无法保障控制效果，常常出现控制指令远离最优点、电网运行在次优状态的情况。因此，数据驱动的无模型的优化方法，特别是近年来发展迅速的深度强化学习方法，是电网无功电压控制的重要手段。但数据驱动的深度强化学习方法，往往需要大量的在线训练，这既产生了高昂的训练成本，又导致了额外的安全隐患。

为了应对在线训练效率低下带来的成本问题与安全问题，可以采用提前用仿真模型进行离线训练的方式。然而，由于离线模型并非真实物理系统的电网模型，存在模型偏差，如果采用一般的深度强化学习方法，训练得到的离线模型没有可迁移的特性。这就意味着，将离线训练得到的模型用在在线系统上时，在开始阶段可能出现控制效果不理想的问题。因此，有必要研究一种电网无功电压控制模型训练方法，训练出具备可迁移特性的深度强化学习模型，使其可以安全高效地应用到在线电网无功电压控制系统上，在避免模型不完备带来控制偏差的同时，节省在线训练的成本，大幅提高在线控制的安全性与效率。

发明内容

针对上述问题，本发明提供了一种电网无功电压控制模型训练方法，所述方法包括：

建立电网仿真模型；

根据电网无功电压控制目标，建立无功电压优化模型；

结合电网仿真模型和无功电压优化模型，搭建基于对抗马尔科夫决策过程的交互训练环境；

通过联合对抗训练算法训练电网无功电压控制模型；

将训练后的电网无功电压控制模型迁移到在线系统。

进一步地，所述建立电网仿真模型，包括：

对于n+1个节点的区域电网，构建无向图，如下：

Π(N,E)

其中，N为电网节点集合，E为电网支路集合，E＝(i,j)∈N×N，i、j均为电网节点。

进一步地，所述建立电网仿真模型，还包括：

构建电网潮流方程，如下：

其中，V_i,θ_i分别为电网节点i的电压幅值和相角，所述V_j，θ_j分别为电网节点j的电压幅值和相角，G_ij,B_ij分别为电网支路ij的电导和电纳，P_ij,Q_ij分别为电网支路ij的有功功率和无功功率，θ_ij为电网支路ij的相角差；

对于电网节点j∈N，其功率的表达式如下：

其中，P_j,Q_j分别为电网节点j的有功功率和无功功率注入，G_sh,i,B_sh,i分别为电网节点i的接地电导、电纳，P_Dj,Q_Dj分别为电网节点j的有功功率和无功功率负荷，P_Gj,Q_Gj分别为电网节点j基于分布式可再生能源发电设备的有功出力和无功出力，Q_Cj为电网节点j基于静止无功补偿器的无功出力，N_IB为电网接入的分布式可再生能源发电设备的电网节点集合，N_CD为电网接入的静止无功补偿器的电网节点集合，K(i)为节点i所连接的所有支路的对端节点集合，

进一步地，所述无功电压优化模型如下：

其中，

分别为电网节点i的电压下限与上限，

分别为电网节点i的静止无功补偿器无功出力下限与上限，

分别为电网节点i的分布式可再生能源发电设备装机容量与有功功率出力上限。

进一步地，所述搭建基于对抗马尔科夫决策过程的交互训练环境，具体包括以下步骤：

A1、构建对抗马尔科夫决策过程状态变量，表达式如下：

s＝(P,Q,V,t)

其中，P,Q分别为电网节点有功功率、无功功率注入向量，V为电网节点电压向量，t为训练中的时间变量；

A2、构建回馈变量，表达式如下：

其中，C_V为电压抑制系数，ReLU为非线性函数，定义为ReLU(x)＝max(0,x)；

A3、构建无功电压控制模型动作变量a_p，表达式如下：

a_p＝(Q_G,Q_C)

其中，Q_G,Q_C均为无功功率出力向量；

A4、构建对抗模型动作变量a_o，表达式如下：

a_o＝(G,B)

其中，G,B分别为所有线路电导和电纳组成的向量。

进一步地，所述通过联合对抗训练算法训练电网无功电压控制模型，具体包括以下步骤：

B1、定义强化学习目标函数，表达式如下：

其中，γ为折合系数，α_p,α_o分别无功电压控制模型和对抗模型的最大熵乘子，π_p为无功电压控制模型策略，π_o为对抗模型策略，π_p(·|s_t),π_o(·|s_t)分别无功电压控制模型策略函数和对抗模型策略函数，定义为状态s_t下的动作概率分布，通过深度神经网络进行拟合，H为熵函数；

B2、通过再参数化方法，转换无功电压控制模型策略函数和对抗模型策略函数的形式，表达式分别如下：

其中，θ为无功电压控制模型策略网络参数，ω为对抗模型策略网络参数，μ_θ(s)和σ_θ(s)分别为无功电压控制模型的均值和方差函数，μ_ω(s)和σ_ω(s)分别为对抗模型的均值和方差函数，N(0,I)为标准高斯分布函数，ξ_p,ξ_o分别无功电压控制模型和对抗模型的随机变量，s为对抗马尔科夫决策过程状态变量；

B3、定义联合对抗值函数网络

表达式如下：

其中，s'为t+1时刻的对抗马尔科夫决策过程状态变量，a'_p,a'_o分别为t+1时刻的无功电压控制模型和对抗模型的动作变量，π_p(a'_p|s'),π_o(a'_o|s')分别为t+1时刻的无功电压控制模型动作概率值和对抗模型动作概率值；

计算联合对抗值函数网络

的估计值，如下：

其中，

分别为t+1时刻的无功电压控制模型和对抗模型的预估动作变量；

采用下式对联合对抗值函数网络

进行训练：

其中，φ为参数，π_p(·|s'),π_o(·|s')分别为t+1时刻的无功电压控制模型策略函数和对抗模型策略函数；

B4、训练无功电压控制模型策略网络，表达式如下：

进一步地，所述熵函数H的表达式如下：

进一步地，所述将训练后的电网无功电压控制模型迁移到在线系统，具体包括以下步骤：

C1、获取最优联合对抗值函数网络

与当前无功电压控制模型策略π_p；

C2、通过下式

将联合对抗值函数网络边际化；

C3、将边际化后的联合对抗值函数网络与无功电压控制模型策略网络形成的无功电压控制模型策略π_p部署到在线系统；

C4、初始化时间变量t＝0，初始化经验库

经验库D表达式如下：

其中，s_t为t时刻对抗马尔科夫决策过程状态变量，

为t时刻无功电压控制模型动作变量，

为t时刻对抗模型动作变量，r_t为t时刻回馈变量，s′_t为t+1时刻的对抗马尔科夫决策过程状态变量。

进一步地，所述方法还包括无功电压控制模型持续在线学习，具体包括以下步骤：

S1、从区域电网的量测装置获得量测数据，形成对应的状态变量s_t＝(P,Q,V,t)；

S2、从经验库中抽取一组经验D_B∈D，B为数量；

S3、在D_B上更新无功电压控制模型；

S4、利用无功电压控制模型策略网络，生成t时刻最优动作a_t＝tanh(μ_θ(s_t)+σ_θ(s_t)⊙ξ)＝(Q_G,Q_C)；

S5、将所述最优动作通过遥调系统下发给被控设备；

S6、t＝t+1，返回步骤S1。

本发明还提供了一种电网无功电压控制模型训练系统，所述系统包括：

仿真模型模块，用于建立电网仿真模型；

优化模型模块，用于根据电网无功电压控制目标，建立无功电压优化模型；

训练环境搭建模块，用于结合电网仿真模型和无功电压优化模型，搭建基于对抗马尔科夫决策过程的交互训练环境；

训练模块，用于通过联合对抗训练算法训练电网无功电压控制模型；

迁移模块，用于将训练后的电网无功电压控制模型迁移到在线系统。

本发明所训练得到的电网无功电压控制模型，相较于传统方法，具备可迁移的特性。本发明仅需电网仿真模型，训练得到的模型可以直接用于在线电网无功电压控制。由于模型已经提前掌握电网的基本运行规律，无需在实际物理系统上做出大范围的试探性调控动作，进而节省了高昂的在线训练成本。相较于现有的基于强化学习的电网优化方法，本发明的在线控制训练成本与安全隐患大幅降低，更适合部署在实际电网系统中。

本发明所训练的可迁移模型，不仅可以直接部署在电网无功电压控制系统中，还能够在线持续挖掘控制过程数据，适应电网的模型变化，从而保证了电网无功电压控制指令的有效性，提升电网运行的高效性与安全性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的电网无功电压控制模型训练方法流程图；

图2示出了本发明实施例的电网无功电压控制模型训练系统示意图；

图3示出了本发明实施例的电网无功电压控制模型训练架构图；

图4示出了本发明实施例的电网无功电压控制模型训练装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种电网无功电压控制模型训练方法，示例性的，图1示出了本发明实施例的电网无功电压控制模型训练方法流程图，如图1所示，所述方法包括以下步骤：

步骤1：建立电网仿真模型，所述电网仿真模型包括基于n+1个节点的区域电网的无向图、电网潮流方程、电网中各个电网节点功率表达式以及电网参数，具体如下：

对于一个n+1个节点的区域电网，构建一个无向图Π(N,E)，其中N为电网节点集合，N＝0,...,n，E为电网支路集合，E＝(i,j)∈N×N，i、j均为电网节点。构建电网潮流方程，如下所示：

其中，V_i,θ_i分别为电网节点i的电压幅值和相角，所述V_j，θ_j分别为电网节点j的电压幅值和相角，G_ij,B_ij分别为电网支路ij的电导和电纳，P_ij,Q_ij分别为电网支路ij的有功功率和无功功率，θ_ij为电网支路ij的相角差。

对于电网节点j∈N，其功率的表达式如下：

其中，P_j,Q_j分别为电网节点j的有功功率和无功功率注入，G_sh,i,B_sh,i分别为电网节点i的接地电导、电纳，P_Dj,Q_Dj分别为电网节点j的有功功率和无功功率负荷，P_Gj,Q_Gj分别为电网节点j基于DG(分布式可再生能源发电设备)的有功出力和无功出力，Q_Cj为电网节点j基于静止无功补偿器(SVC，static var compensator)的无功出力，N_IB为电网接入DG的电网节点集合，N_CD为电网接入静止无功补偿器的电网节点集合，K(i)为节点i所连接的所有支路的对端节点集合。不失一般性地，

步骤2：根据电网无功电压控制目标，即根据能够使得电网达到最小化网络损耗，保证各电网节点电压在限制范围内的控制目标，建立无功电压优化模型，表达式如下：

其中，

分别为电网节点i的电压下限与上限，

分别为电网节点i的静止无功补偿器无功出力下限与上限，

分别为电网节点i的DG装机容量与有功功率出力上限。

步骤3：结合电网仿真模型与无功电压优化模型，搭建基于对抗马尔科夫决策过程(AMDP)的交互训练环境，具体包括如下步骤：

3.1、采用电网系统量测的数据，构建对抗马尔科夫决策过程状态变量，表达式如下：

s＝(P,Q,V,t) (4)

其中，P,Q分别为电网节点有功功率、无功功率注入向量，V为电网节点电压向量，t为训练中的时间变量。

3.2、基于无功电压优化模型，构建回馈变量，表达式如下：

其中，C_V为电压抑制系数，典型值取1000，ReLU为非线性函数，定义为ReLU(x)＝max(0,x)。

3.3、对于可控灵活性资源无功功率，如分布式可再生能源发电设备和静止无功补偿器的无功功率等，构建无功电压控制模型动作变量a_p，表达式如下：

a_p＝(Q_G,Q_C) (6)

其中，Q_G,Q_C均为无功功率出力向量。

3.4、对于电网仿真模型参数不确定性，即参数误差的可能范围，构建对抗模型动作变量a_o，用于对无功电压控制模型进行干扰，表达式如下：

a_o＝(G,B) (7)

其中，G,B分别为所有线路电导和电纳组成的向量。

步骤4：通过联合对抗训练算法训练电网无功电压控制模型，具体包括如下步骤：

4.1、定义强化学习目标函数，表达式如下：

其中，γ为折合系数，典型值取0.95，α_p,α_o分别对应无功电压控制模型和对抗模型的最大熵乘子，典型值取0.1，π_p(·|s_t),π_o(·|s_t)分别对应无功电压控制模型策略函数和对抗模型策略函数，定义为状态s_t下的动作概率分布，通过深度神经网络进行拟合，H为熵函数，表达式如下：

4.2、通过再参数化方法，转换无功电压控制模型策略函数和对抗模型策略函数的形式，表达式分别如下：

其中，θ为无功电压控制模型策略网络参数，ω为对抗模型策略网络参数，μ_θ(s)和σ_θ(s)分别为无功电压控制模型的均值和方差函数，μ_ω(s)和σ_ω(s)分别为对抗模型的均值和方差函数，N(0,I)为标准高斯分布函数，ξ_p,ξ_o分别无功电压控制模型和对抗模型的随机变量，s为对抗马尔科夫决策过程状态变量。

4.3、定义并训练联合对抗值函数网络

其中φ为参数，值函数网络代表对应状态与动作下的期望回馈，通过贝尔曼方程得出

的递推形式，表达式如下：

其中，s'为t+1时刻的对抗马尔科夫决策过程状态变量，a'_p,a'_o分别为t+1时刻的无功电压控制模型和对抗模型的动作变量，π_p(a'_p|s'),π_o(a'_o|s')分别为t+1时刻的无功电压控制模型动作概率值和对抗模型动作概率值。

由上，可计算

的估计值用于训练，如下所示：

其中，

分别为t+1时刻的无功电压控制模型和对抗模型的预估动作变量。

训练联合对抗值函数网络

时可采用下式：

其中，φ为参数，π_p(·|s'),π_o(·|s')分别为t+1时刻的无功电压控制模型策略函数和对抗模型策略函数。

4.4、训练无功电压控制模型策略网络，表达式如下：

步骤5：将训练后的无功电压控制模型迁移到在线系统，具体包括如下步骤：

5.1、经过上述多轮训练，直到达到收敛状态，得到最优联合对抗值函数网络

与当前无功电压控制模型策略π_p，停止训练过程。

5.2、通过下式

将联合对抗值函数网络边际化。

5.3、将边际化后的联合对抗值函数网络与无功电压控制模型策略网络形成的无功电压控制模型策略π_p部署到在线系统。

5.4、初始化时间变量t＝0，初始化经验库

经验库D为所有历史经验组成的集合，经验库D表达式如下：

其中，s_t为t时刻对抗马尔科夫决策过程状态变量，

为t时刻无功电压控制模型动作变量，

为t时刻对抗模型动作变量，r_t为t时刻回馈变量，s_t′为t+1时刻的对抗马尔科夫决策过程状态变量。

步骤6：无功电压控制模型持续在线学习，具体包括如下步骤：

6.1、从区域电网的量测装置获得量测数据，形成对应的状态变量s_t＝(P,Q,V,t)。

6.2、从经验库中抽取一组经验D_B∈D，数量为B，典型值为64。

6.3、利用式(13)与式(14)，在D_B上更新无功电压控制模型。

6.4、利用无功电压控制模型策略网络，生成t时刻最优动作a_t＝tanh(μ_θ(s_t)+σ_θ(s_t)⊙ξ)＝(Q_G,Q_C)。

6.5、将上述最优动作通过遥调系统下发给被控设备，其中，遥调系统用于接受并执行遥调命令，对远程的控制量设备进行远程调试，被控设备包括分布式可再生能源发电设备和静止无功补偿器。

6.6、t＝t+1，返回步骤6.1。

本发明还提供了一种能够实现上述方法的电网无功电压控制模型训练系统，如图2所示，所述系统包括：仿真模型模块、优化模型模块、训练环境搭建模块、训练模块、迁移模块和学习模块。具体的，仿真模型模块用于建立电网仿真模型，如上述步骤1；优化模型模块用于根据电网无功电压控制目标，建立无功电压优化模型，如上述步骤2；训练环境搭建模块用于结合电网仿真模型和无功电压优化模型，搭建基于对抗马尔科夫决策过程的交互训练环境，如上述步骤3；训练模块用于通过联合对抗训练算法训练电网无功电压控制模型，如上述步骤4；迁移模块用于将训练后的电网无功电压控制模型迁移到在线系统，如上述步骤5；学习模块用于无功电压控制模型持续在线学习，如上述步骤6。

示例性的，图3示出了本发明实施例的电网无功电压控制模型训练架构图，如图3所示，包括区域电网调控中心服务器，区域电网控制器及区域电网，其中，所述区域电网包括n+1个节点，为了便于描述，本实施例中以5个电网节点为例，每个电网节点上均设有量测装置，并且根据需求选择性的在一个电网节点或多个电网节点上设置分布式可再生能源发电设备或静止无功补偿器，本实施例选择在其中一个电网节点上设置分布式可再生能源发电设备，在其中另一个电网节点上设置静止无功补偿器，分布式可再生能源发电设备与静止无功补偿器不能同时存在于同一个电网节点上。需要说明的是，在实际的物理系统上，DG和SVC可以存在于同一个电网节点上。具体的，量测装置包括电压量测装置、电流量测装置和功率量测装置，其中，电压量测装置用于量测各个电网节点的电压，电流量测装置用于量测各个电网节点的电流，功率量测装置用于量测各个电网节点的有功功率和无功功率，从而获得各电网节点的有功功率向量、无功功率向量及电压向量。所述量测装置可以采用传感器，例如，电压量测装置为电压传感器、电流量测装置为电流传感器，但不限于此。

区域电网调控中心服务器根据电网系统中各电网节点量测装置量测的数据建立无功电压控制模型，无功电压控制模型建立步骤如上述步骤1-步骤5，区域电网调控中心服务器建立的无功电压控制模型将部署到在线系统中，即区域电网控制器中，无功电压控制模型在区域电网控制器中持续在线学习。具体的，所述区域电网与区域电网控制器之间采用遥调系统进行通信，所述区域电网中各个电网节点的量测装置通过所述遥调系统向所述区域电网控制器传送所述量测装置量测的数据，包括各个电网节点的有功、无功功率注入向量及电网节点电压向量，所述区域电网控制器根据所述量测装置量测的数据控制所述无功电压控制模型在线学习，学习步骤如上述步骤6。所述无功电压控制模型持续在线学习，生成最优无功电压控制策略，并将最优无功电压控制策略下发至区域电网中的所述分布式可再生能源发电设备和静止无功补偿器，控制所述分布式可再生能源发电设备和静止无功补偿器进行相应动作。

本发明还提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有逻辑指令，处理器可以调用计算机可读存储介质中的逻辑指令，以执行上述实施例的方法，如图4所示，图4中以一个处理器和一个计算机可读存储介质为例。

此外，上述的计算机可读存储介质中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用。

上述的计算机可读存储介质可用于存储软件程序、计算机可执行程序，如本实施例中的方法对应的程序指令/模块。处理器通过运行存储在计算机可读存储介质中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述实施例中的用于无功电压控制模型训练的方法。

计算机可读存储介质可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器。

本实施例通过将电网仿真模型与真实物理系统模型的误差视为训练中的扰动，建立对抗马尔科夫决策过程，同步训练对抗模型，利用模型误差干扰无功电压控制模型，进而使无功电压控制模型对模型误差鲁棒，从而训练出可迁移的深度强化学习模型。本实施例充分利用电网仿真模型的内在信息，所得到的模型可以安全高效地迁移到在线电网无功电压控制中，大幅提高了数据驱动的电网无功电压控制方法的效率与安全性，特别适合模型不完备问题严重的区域电网使用，既节省了重复维护精确模型带来的高昂成本，又避免了数据驱动电网无功电压控制方法在线学习所产生的安全性问题，适合大规模推广。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种电网无功电压控制模型训练方法，其特征在于，所述方法包括：

建立电网仿真模型；

根据电网无功电压控制目标，建立无功电压优化模型；

通过联合对抗训练算法训练电网无功电压控制模型；

将训练后的电网无功电压控制模型迁移到在线系统；

所述搭建基于对抗马尔科夫决策过程的交互训练环境，具体包括以下步骤：