CN115313403A

CN115313403A - 一种基于深度强化学习算法的实时电压调控方法

Info

Publication number: CN115313403A
Application number: CN202210871781.6A
Authority: CN
Inventors: 张有兵; 熊美淞; 费琦; 杨晓东; 王国烽; 翁国庆; 王立成; 戚军
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-08

Abstract

一种基于深度强化学习算法的实时电压调控方法，包括：S1：在日前阶段，建立集中优化模型，求解确定有载调压变压器和离散投切电容器组的控制策略；S2：在日中阶段，基于多智能体深度强化学习框架建立多智能体的实时优化深度神经网络，进行离线学习优化，最终获得SOP实时调控策略。本发明在第一阶段，将优化问题表述为一个混合整数二阶锥规划，获得有载分接开关和可投切电容器组的每小时调度策略；在第二阶段，将配电网划分为多个子网络，继而通过良好的控制策略和子网的局部测量信息，实时调节柔性软开关，完成电压的实时调控。本发明面向高渗透率光伏接入的配电网，有效缓解负荷波动带来的电压违规、网损增加等问题。

Description

一种基于深度强化学习算法的实时电压调控方法

技术领域

本发明提出了一种配电网的实时电压调控方法。

背景技术

随着以新能源为主体的新型电力系统构建，截至2021年，我国光伏累计装机达3.06亿千瓦，其中2021年新增分布式光伏2928万千瓦，增势迅猛。随着配电网接入分布式光伏显著增加，光能具有的强烈的随机性、间歇性和不可控性等特点会引发配电网运行电压波动大、易电压越限、网损增加等问题，这些光伏能源如何经济安全消纳成为严峻的挑战。

为解决上述问题，已有方法通常基于预测信息、在网络潮流约束下建立时序优化模型来实现降低系统损耗、减小电压偏移量等目的。但由于最优潮流(optimal powerflow，OPF)问题是一个非凸优化问题，其计算负担大且难以求解；且由于光伏预测的不确定性受地形、气候、时间等影响，难以准确量化光伏预测的随机性。

为缓解光伏的随机性影响，在电力系统中应用数据驱动的方式被广泛研究，例如：基于深度Q网络(deep q network，DQN)设计了一种无模型的实时电压调控方法，基于深度确定性策略梯度(deep deterministic policy gradient，DDPG)算法实现的主动配电网优化运行方式等。此类方法在历史数据中学习控制策略，不依赖预测数据。但前者存在学习过程和优化策略离散的问题，与主动配电网的连续运行过程不符。后者在调控电压时需要获取全局信息，对通信能力要求较高。

考虑到通信能力的限制，集中学习、分散执行的方案能够在集中式的学习过程中获得良好的控制策略，而在实际电压调控过程中所需通信成本极低。与此同时，软开关(soft open point,SOP)能够通过实时优化系统潮流分布来进一步降低系统功率损耗、提升系统电压性能。因此，在实时电压调控框架中引入SOP、利用其连续精确的系统潮流调整优势，应对高比例光伏接入后的电压越限风险是有必要的。

综合以上因素，针对光伏随机性问题，需要制定一种新的实时电压调控方法。

发明内容

为解决配电系统中光伏能源的随机性问题，实现配电网的实时电压调控和在线无功优化，同时降低通信成本，本发明提供一种基于深度强化学习算法的实时电压调控方法。

为实现上述目的，本发明的技术方案为：

一种基于深度强化学习算法的实时电压调控方法，缓解光伏能源随机性问题、电压波动问题及降低网损，基于多智能体深度确定性策略梯度(multi-agent deepdeterministic policy gradient，MADDPG)算法引入一种致力于实时调节SOP以调控分布式电压的控制策略，所述方法包括以下步骤：

S1：在日前阶段，建立集中优化模型，求解确定有载调压变压器(on-load tapchangers，OLTC)和离散投切电容器组(capacitor banks，CBs)的控制策略；

S2：在日中阶段，基于多智能体深度强化学习(multi agent deep reinforcementlearning，MA-DRL)框架建立多智能体的实时优化深度神经网络(deep neural network，DNN)，进行离线学习优化，最终获得SOP实时调控策略。

进一步，所述步骤S1中，日前集中优化模型建立和求解过程为：

min f＝W_L(f_loss+f_switch)+W_Vf_V (1)

式(1)中各项的权重系数W_L和W_V可以通过使用层次分析处理来确定。系统总运行成本包括两部分，即电力损耗成本f_loss和开关调控成本f_switch。有功功率损耗的总成本涉及网络损耗和SOP输电造成的功率损耗，其中C_loss、C_tap、C_cap分别是相关有功功率损耗、OLTC和CBs的成本系数。Ω_b和Ω_O分别是不含OLTC的支路合集和包含OLTC的支路合集。N_T是时间段合集，N_N是系统所有节点的合集。Δt是每个时段的持续时间，r_ij是支路ij上的电阻值，I_t,ij是t时期支路ij上通过的电流。开关运行的总成本由OLTC的调整成本和CBs的切换成本组成。K_t,ij是t时期支路ij上的OLTC档位；

是t时期在i节点上的档位数。X_t,i是引入的辅助变量，用以表示电压的偏移程度，其具有以下相关约束：

X_t,i≥0 (7)

U_t,i是t时期节点i的电压幅值；U_Emax和U_Emin分别是节点电压安全运行范围的上限和下限。

另外，需要满足SOP运行约束如下：

式(8)-(10)是SOP的有功功率约束，

和

分别是t时段节点i和节点j的变流器输出的有功功率；

和

分别是t时段SOP在节点i和节点j的变流器的有功损耗；

和

分别是SOP在节点i和节点j的变流器的损耗系数。

式(11)-(12)是SOP的无功功率约束，

和

分别是t时段节点i和节点j的变流器输出的无功功率；

和

分别是节点i的变流器所能输出的最大无功功率和最小无功功率；

和

分别是节点j的变流器所能输出的最大无功功率和最小无功功率。

需要满足OLTC和CBs约束如下：

U_t,i＝k_t,ijU_t,j (13)

k_t,ij＝k_ij,0+K_t,ijΔk_ij (14)

式(13)-(16)表示OLTC调节电压与档位的关系和运行约束，U_t,i是t时期节点i上的电压，k_t,ij和K_t,ij是t时期内OLTC的可调比和档位，k_ij,0和Δk_ij分别是OLTC的初始可调比和档位增量。N_T是周期之和，N^OLTC是一天内投切次数上限，

是档位变化的最大值。

式(17)-(19)表示CBs注入无功功率与档位的关系和运行约束，

表示节点i处CBs的单位无功功率容量，

是t时期内节点i上CBs的注入无功功率，

是t时期内节点i上CBs的投切数量，

是投切数量的最大值。

除了需要满足SOP、OLTC、CBs相关运行约束外，还需要满足以下约束条件：

r_ij和x_ij分别是支路ij的电阻和电抗，I_t,ij是该支路上的电流，P_t,ij和Q_t,ij是t时段内该支路上的有功功率和无功功率。

是t时段i节点上接入光伏的有功功率；

和

是t时段i节点上SOP发出的有功功率和无功功率；

和

是t时段i节点上的有功功率损耗和无功功率损耗。

是t时段i节点上接入的CBs注入的无功功率。S_ij是支路ij的容量。式(27)是节点电压约束，U_max和U_min分别是节点电压安全运行范围的上限和下限。

通过线性化和锥松弛，将式(1)的大规模混合整数非线性规划(mixed integernonlinear programming，MINLP)模型转换为混合整数二阶锥规划(mixed-integersecond-order cone programming，MISOCP)模型，应用商用求解器进行高效求解。根据二阶凸松弛技术的基本原理，将(8)-(10)式松弛后等价变形成下列形式：

由约束条件(25)松弛后等价变形成：

通过求解时序优化模型(1)得到OLTC、CBs和SOP的每小时调度策略，其中OLTC和CBs的调度策略将作为第二阶段中控制器的输入，SOP的控制策略则会在第二阶段进一步调整。

在所述步骤S2中，日内MA-DRL模型建立和优化包括以下内容：

S2-1：MA-DRL模型建立与优化

获取配电网中节点负荷、光伏、CBs数据信息，以上述数据信息作为智能体决策状态，基于MA-DRL框架建立多智能体的实时优化深度神经网络(deep neural network，DNN)，决策动作是区域内SOP端口的有功功率传输量和无功功率补偿量。

DDPG算法中包含四个网络，分别是主动作网络、主评价网络、目标动作网络、目标评价网络。对于每个智能体，其主网络和对应目标网络的结构一致。

对于智能体主动作网络，其状态函数可表示为

控制动作定义为智能体包含的SOP端口的有功功率传输量和无功功率补偿量，SOP的决策动作由相应的智能体产生，可以表示如下：

其中

是智能体i的深度神经网络中的权值和偏差，Γ()是一个添加随机量的过程，通过将一个噪声样本和网络输出值相加完成动作取值的探索。噪声服从正态分布，均值为零，标准差为σ_i,t，参数σ_i,t的大小代表探索的程度，并在训练过程中随着衰减率而减小。

对于主评价网络，其状态函数应包含主动作网络的状态函数和决策动作，优化目标则为损失函数最小。智能体i的损失函数为：

L_i＝Ε(y_i,t-Q_i,t)² (31)

其中Q_i,t是t时段主评价网络的输出值，y_i,t是t时段待优化的样本计算得到的评价网络输出值。

y_i,t＝r_i,t+γQ′_i,t+1 (32)

由于实时电压控制的目的是在减轻快速电压违规的同时最小化功率损失，因此奖励函数被定义如下：

其中

表示t时段整个电网系统所有线路的功率损失；

表示t时段该智能体所表示的网络内SOP的损耗成本；

表示t时段该智能体所表示网络内的电压违规情况。λ₁代表了电压违规的惩罚因子，然后将其存储在经验池中。

MA-DRL算法实现如下：

1)各智能体对其主动作网络和主评价网络的

和

进行初始化操作，即初始化相关权重系数和偏差系数

2)初始化经验池和设置标准差σ_i,t

3)把

和

赋值给对应的目标动作网络和目标评价网络：

4)在主动作网络中，智能体根据观测到的状态信息s_t＝[s_t,1...s_t,n]，通过式(30)计算得到对应动作a_t＝[a_t,1...a_t,n]

5)将得到的a_t与环境进行交互，通过式(33)计算得到奖励函数r_t＝[r_t,1...r_t,n]以及下一时刻的状态s_t+1＝[s_t+1,1...s_t+1,n]，并组成记忆样本存入经验回放池当中

6)在离线学习过程中，以N为取样数量对经验池进行小批量取样操作，计算目标函数y_i,j，(i,j)表示智能体i抽取的第j个样本：

7)通过最小化损失函数更新n个主评价网络的权值和偏差，i表示第i个智能体：

8)根据以下公式，更新n个主目标网络的权值和偏差，i表示第i个智能体：

9)更新多智能体目标网络参数：

MA-DRL模型进行离线学习，在每次迭代中，每个智能体都根据自己的DNN执行操作，并与环境进行交互。根据操作进行潮流计算，并将更新后的状态信息返回给每个智能体。考虑电压和SOP有功、无功功率约束，制定了一个旨在最小化功率损失的奖励函数。根据奖励值计算损失函数评估返回的状态信息，基于牛顿拉普逊法优化DNN参数。多次迭代最终获得SOP实时调控策略。

本发明基于数据驱动进行两阶段分布式电压调控，在第一阶段，将优化问题表述为一个混合整数二阶锥规划，获得有载分接开关和可投切电容器组的每小时调度策略；在第二阶段，将配电网划分为多个子网络，继而通过良好的控制策略和子网的局部测量信息，实时调节柔性软开关(SOP)，完成电压的实时调控。本发明面向高渗透率光伏接入的配电网，通过配电网局部信息获得控制设备调控策略，完成电压实施调控，不需额外通信成本，且不依赖预测信息，有效缓解负荷波动带来的电压违规、网损增加等问题，解决了光伏能源随机性问题。

本发明的有益效果是：

1、极大程度上避免了由于预测误差所带来的控制不准确，仿真结果表明优化后的配电系统具有更高的安全性和经济效益。

2、仅在离线训练过程需要获取系统全局信息，分布式协同控制过程中仅依靠本地信息做出决策，降低了对通信能力的要求，减少了通信成本。

3、作为一种多时间尺度的电压控制框架，可以实现传统离散设备和新型连续设备的协同配合，降低配电网调控成本。

附图说明

图1是本发明的改进的IEEE33节点系统拓扑图。

图2是本发明的两阶段分布式电压调控框架。

图3是本发明的MA_DRL离线学习过程。

图4是本发明的一日内IEEE33节点系统有功功率损耗。

图5是本发明的IEEE33节点系统测试集上电压分布。

图6是本发明的改进的IEEE123节点系统拓扑图。

图7是本发明的一日内IEEE33节点系统有功功率损耗。

图8是本发明的IEEE33节点系统测试集上电压分布。

图9是本发明的流程图。

具体实施方法

下面结合附图对本专利做进一步说明。

参照图1～图9，一种基于深度强化学习算法的实时电压调控方法，建立了一种致力于实时调节SOP以调控分布式电压的控制策略，所述方法包括以下步骤：

所述步骤S1中，日前集中优化模型建立和求解过程为：

minf＝W_L(f_loss+f_switch)+W_Vf_V (1)

X_t,i≥0 (7)

另外，需要满足SOP、OLTC和CBs运行约束及以下约束条件：

是t时段i节点上接入光伏的有功功率；

和

是t时段i节点上SOP发出的有功功率和无功功率；

和

是t时段i节点上的有功功率损耗和无功功率损耗。

通过线性化和锥松弛，将式(1)的大规模混合整数非线性规划(mixed integernonlinear programming，MINLP)模型转换为混合整数二阶锥规划(mixed-integersecond-order cone programming，MISOCP)模型，应用商用求解器进行高效求解，从而得到OLTC、CBs和SOP的每小时调度策略，其中OLTC和CBs的调度策略将作为第二阶段中控制器的输入，SOP的控制策略则会在第二阶段进一步调整。

在所述步骤S2中，日内MA-DRL模型建立和优化包括以下内容：

S2-1：MA-DRL模型建立与优化

对于智能体主动作网络，其状态函数可表示为

其中

对于主评价网络，其状态函数应包含主动作网络的状态函数和决策动作，优化目标则为损失函数最小。

其中

表示t时段整个电网系统所有线路的功率损失；

表示t时段该智能体所表示的网络内SOP的损耗成本；

MA-DRL算法实现如下：

1)各智能体对其主动作网络和主评价网络的

和

进行初始化操作，即初始化相关权重系数和偏差系数

2)初始化经验池和设置标准差σ_i,t

3)把

和

赋值给对应的目标动作网络和目标评价网络：

9)更新多智能体目标网络参数：

为使本领域技术人员更好地理解本发明，算例分析包括以下构成：

一、算例描述及仿真结果分析

本发明算例在Python3.7环境中编写优化程序，并用到Pypower5.1.4、Tensorflow1.15求解模型，所采用的计算机CPU为Intel酷睿i5处理器(1.6GHz,RAM8GB)。

本节算例在改进IEEE33节点系统(图1)上进行。电压调控设备的容量、运行参数、放置位置如表1所示。SOP中各逆变器的损耗系数为0.02，通过层次分析法确定权重系数W_L和W_V分别为0.833和0.167，从上层电网购电成本C_loss为0.48元/kWh，OLTC动作成本系数C_tap为8.4元/次，CBs动作成本系数C_cap为1.44元/次，期望电压上、下限分别为1.03p.u和0.97p.u，安全电压上、下限分别为1.05p.u和0.95p.u。在离线训练过程中，所使用的光伏和负载数据均采用真实的历史数据(2021.3.2-2021.7.31)，光伏输出来自昆士兰州Gatton的光伏系统，负荷数据来自澳大利亚能源市场运营商(AEMO)，采样时间间隔每5分钟一次。每小时真实数据的平均值视为日前优化的光伏和负荷预测。

表1

对于每个多智能体，它们的神经网络层数是相同的，包含一层输入层，两层隐藏层和一层输出层，输入数和输出数对应各个智能体的状态和动作的维数。隐藏层采用的是全连接形式，神经元个数分别为490和160个，激活函数分别是Relu和tanh激活函数。经验池最大容量为10000组，小批量取样的样本数量为32组，学习率为1e^-3，衰减因子γ为0.9，惩罚因子λ₁为10。

为验证所提方法的有效性，在改进的IEEE33节点系统上对现有的多种方法进行了比较测试，预测值设为具有最高不超过30％的随机性,通过电压安全和网络损耗两个方面对以下案例进行对比分析：

案例1：未施加任何调控，为基础参考对比案例。

案例2：随机规划(SP)方法，其中所有的子网络都分别进行了优化，每个子网络的目标是基于局部信息来最小化电压偏差，随机生成20个场景来表示不确定性。

案例3：模型预测控制(MPC)方法，通过日内滚动优化对日前预测信息减小与实际值差值，实时进行电压调控，减小电压偏差。

案例4：基于模型的集中控制方法，这里假设负荷需求和光伏发电已知，即预测值与实际值一致，使用求解器Gurobi基于全局信息来解决确定性情况，以完美模型的结果作为基准。

案例5：本文所提方案。

案例6：集中式DDPG方案。

各个时段的网络有功功率损失情况和整个训练集合的电压分布见图6所示。所有方案的最大电压偏差、平均电压偏差、总违规时间、平均网络损耗见表2，其中最大电压偏差包含最大上升和最大下降电压偏差。

可以看出，当不施加无功功率补偿时，电压将超过安全运行范围且存在较大的电压违规情况。SP和MPC的方法可以减少大部分电压违规情况，但仍然存在少量电压违规。理想中的集中优化、本文所提方案和集中式DDPG方案都可以应对所有电压违规情况，但在网络有功功率损耗方面存在一定性能差异，结果表现为理想中的集中式优化功率损耗最低，本文所提方案和传统DDPG方案在平均功率损失上比理想中的集中式优化方案约多0.005kWh。由于本文所提方案在实际电压控制过程中减少了不必要的通信成本和减轻了计算负担，因此在大规模分布式光伏接入配电网的场景中具有显著优势。

表2

为验证所提方法的可扩展性，在IEEE 123节点系统上进行比较测试。经过对50000组样本数据进行离线训练后，对以下三种情况进行比对：

案例1：未施加任何调控，为基础参考对比案例。

案例2：基于模型的集中控制方法，这里假设负荷需求和光伏发电已知，即预测值与实际值一致，使用商用求解器Gurobi基于全局信息来解决确定性情况，以完美模型的结果作为基准。

案例3：本文所提方案。

各时段的网络有功功率损失和测试集上的电压分布如图7所示。可以看出案例2和案例3在保证电压安全稳定的情况下能有效减小网络损耗，明显优异于案例1。其中案例2的电压分布在1.02～0.96之间，案例3的电压分布在1.04～0.95之间，都处于期望范围之内。在功率损失方面，案例2一天内总功率损失约为25700KW，案例3一天内总功率损失约为29000KW，都远低于案例1中未施加任何控制的情况。

结果表明，所提方法在IEEE123节电系统中仍然具有适用性，避免了快速电压违规情况，同时增加了经济效益，证明了所提方法的可扩展性。

综上可知，本发明以缓解光伏能源接入配电网导致的不稳定性为目标，考虑SOP的连续响应能力，提出了一种致力于实时调节SOP以调控分布式电压的控制策略。该方法能在保证配电网电压分布稳定的前提下，减小网络损耗，促进高渗透率光伏能源的安全消纳。

在本说明书的描述中，对本发明的示意性表述不必须针对的是相同的实施例或示例，本领域的技术人员可以将本说明书中描述的不同实施或示例进行结合和组合。此外，本说明书实施所述的额内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施案例所陈述的具体形式，本发明的保护范围也包括本领域技术人员根据发明构思所能想到的等同技术手段。

Claims

1.一种基于深度强化学习算法的实时电压调控方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度强化学习算法的实时电压调控方法，其特征在于，所述步骤S1中，日前集中优化模型建立和求解过程为：

min f＝W_L(f_loss+f_switch)+W_Vf_V (1)

式(1)中各项的权重系数W_L和W_V可以通过使用层次分析处理来确定；系统总运行成本包括两部分，即电力损耗成本f_loss和开关调控成本f_switch；有功功率损耗的总成本涉及网络损耗和SOP输电造成的功率损耗，其中C_loss、C_tap、C_cap分别是相关有功功率损耗、OLTC和CBs的成本系数；Ω_b和Ω_O分别是不含OLTC的支路合集和包含OLTC的支路合集；N_T是时间段合集，N_N是系统所有节点的合集；Δt是每个时段的持续时间，r_ij是支路ij上的电阻值，I_t,ij是t时期支路ij上通过的电流；开关运行的总成本由OLTC的调整成本和CBs的切换成本组成；K_t,ij是t时期支路ij上的OLTC档位；

是t时期在i节点上的档位数；X_t,i是引入的辅助变量，用以表示电压的偏移程度，其具有以下相关约束：

X_t,i≥0 (7)

U_t,i是t时期节点i的电压幅值；U_Emax和U_Emin分别是节点电压安全运行范围的上限和下限；

另外，需要满足SOP运行约束如下：

式(8)-(10)是SOP的有功功率约束，

和

分别是t时段节点i和节点j的变流器输出的有功功率；

和

分别是t时段SOP在节点i和节点j的变流器的有功损耗；

和

分别是SOP在节点i和节点j的变流器的损耗系数；

式(11)-(12)是SOP的无功功率约束，

和

分别是t时段节点i和节点j的变流器输出的无功功率；

和

和

分别是节点j的变流器所能输出的最大无功功率和最小无功功率；

需要满足OLTC和CBs约束如下：

U_t,i＝k_t,ijU_t,j (13)

k_t,ij＝k_ij,0+K_t,ijΔk_ij (14)

式(13)-(16)表示OLTC调节电压与档位的关系和运行约束，U_t,i是t时期节点i上的电压，k_t,ij和K_t,ij是t时期内OLTC的可调比和档位，k_ij,0和Δk_ij分别是OLTC的初始可调比和档位增量；N_T是周期之和，N^OLTC是一天内投切次数上限，

是档位变化的最大值；

式(17)-(19)表示CBs注入无功功率与档位的关系和运行约束，

表示节点i处CBs的单位无功功率容量，

是t时期内节点i上CBs的注入无功功率，

是t时期内节点i上CBs的投切数量，

是投切数量的最大值；

r_ij和x_ij分别是支路ij的电阻和电抗，I_t,ij是该支路上的电流，P_t,ij和Q_t,ij是t时段内该支路上的有功功率和无功功率；

是t时段i节点上接入光伏的有功功率；

和

是t时段i节点上SOP发出的有功功率和无功功率；

和

是t时段i节点上的有功功率损耗和无功功率损耗；

是t时段i节点上接入的CBs注入的无功功率；S_ij是支路ij的容量；式(27)是节点电压约束，U_max和U_min分别是节点电压安全运行范围的上限和下限；

通过线性化和锥松弛，将式(1)的大规模混合整数非线性规划(mixed integernonlinear programming，MINLP)模型转换为混合整数二阶锥规划(mixed-integersecond-order cone programming，MISOCP)模型，应用商用求解器进行高效求解；根据二阶凸松弛技术的基本原理，将(8)-(10)式松弛后等价变形成下列形式：