CN113078641A

CN113078641A - 一种基于评估器和强化学习的配电网无功优化方法及装置

Info

Publication number: CN113078641A
Application number: CN202110474593.5A
Authority: CN
Inventors: 李文升; 赵龙; 郑志杰; 梁荣; 綦陆杰; 杨波; 杨扬; 李昭; 王耀雷; 刘钊; 崔灿; 王延朔; 赵韧; 刘淑莉; 李�昊; 杨慎全; 张雯; 李凯; 邓少治; 张博颐
Original assignee: State Grid Corp of China SGCC; Economic and Technological Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Economic and Technological Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-06
Anticipated expiration: 2041-04-29
Also published as: CN113078641B

Abstract

本发明公开了一种基于评估器和强化学习的配电网无功优化方法及装置,包括:获取配电网在目标历史时长内的多个投切控制策略及投切控制策略对应的实际网损和实际电压偏差；获取与每一个投切控制策略对应的配电网预设指标的参数特征；将每一个投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际网损以及实际电压偏差作为输入参数，对网损评估器和电压偏差评估器进行训练，直至网损评估器输出的网损值满足网损收敛条件电压偏差评估器对应的电压偏差满足电压偏差收敛条件；根据配电网的实时响应和评估器得到的网损和电压偏差，通过设置合适的奖励值和强化学习训练，得到配电网的无功优化控制策略。

Description

一种基于评估器和强化学习的配电网无功优化方法及装置

技术领域

本发明涉及配电网无功优化技术领域，具体涉及一种基于深度学习网络的配电网评估器构建和基于强化学习的配电网无功优化方法及装置。

背景技术

配电网无功优化是在保证系统安全、可靠运行的前提下，通过调节系统的发电机端电压、变压器分接头档位、无功补偿装置等设备，应用相关优化方法确定系统内各点的最优补偿容量、补偿方式，从而实现无功功率的合理分布，降低网损并提高电压质量。

但现有配电网基础设施差、节点监控覆盖率低、潮流建模难度大，同时分布式电源、电动汽车等的大规模接入使得传统配电网逐步向有源配电网转变，增加了很多不确定因素，给配电系统优化控制带来极大困难。无功优化算法是配电网无功优化的关键，其中传统优化方法十分依赖电网模型结构，且寻优计算量大、决策时间长、收敛性和稳定性差，难以达到实时控制的要求增加了无功优化的难度。

发明内容

因此，本发明要解决的技术问题在于克服现有配电网无功优化难以实时控制做出对应决策缺陷，从而提供一种基于深度学习网络的配电网评估器构建和基于强化学习的配电网无功优化方法及装置。

根据第一方面，本发明实施例公开了一种基于深度学习网络的配电网评估器构建方法，包括:获取配电网在目标历史时长内的多个投切控制策略及所述投切控制策略对应的实际网损和实际电压偏差；获取与每一个投切控制策略对应的配电网预设指标的参数特征；将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际网损作为输入参数，对网损评估器进行训练，直至所述网损评估器输出的网损值满足网损收敛条件；将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际电压偏差作为输入参数，对电压偏差评估器进行训练，直至所述电压偏差评估器对应的电压偏差满足电压偏差收敛条件，所述网损评估器和所述电压偏差评估器用于计算奖励值，并通过强化学习得到配电网的实时无功优化控制策略。

可选地，所述预设指标包括：配电网的负荷功率、光伏发电出力以及充电站功率。

可选地，述配电网预设指标的参数特征，包括：质心、离散度、上包络线、下包络线、中心线、上包络线与质心之差、下包络线与质心之差、包络线高度、中心线与质心之差中的任意一种或多种。

根据第二方面，本发明实施例公开了一种基于强化学习的配电网无功优化方法，包括：获取下一时刻的配电网预设指标的参数特征，所述下一时刻的配电网预设指标的参数特征由上一时刻配电网的投切控制策略输入到实际电力系统得到；将所述配电网预设指标的参数特征输入到预设控制策略智能体，得到当前时刻配电网投切控制策略；将所述投切控制策略以及与所述投切控制策略对应的配电网预设指标的参数特征输入到利用如第一方面或第一方面任一可选实施方式所述的基于深度学习网络的配电网评估器构建方法构建得到的网损评估器和电压偏差评估器；将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中；重复所述获取下一时刻的配电网预设指标的参数特征到将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中的步骤，直至所述奖励值满足目标条件。

可选地，所述奖励值根据下述公式计算得到：

式中：r_i为第i时刻的奖励值；

为系统第i时刻的线路损耗；

为系统第i时刻的电压偏差；U_Li、U_Limax、U_Limin分别是负荷节点电压及其上、下限；η为电压越限的惩罚值。

根据第三方面，本发明实施例还公开了一种基于深度学习网络的配电网评估器构建装置，包括：获取投切控制策略模块，用于获取配电网在目标历史时长内的多个投切控制策略及所述投切控制策略对应的网络损耗和电压偏差；获取参数特征模块，用于获取与每一个投切控制策略对应的配电网预设指标的参数特征，所述预设指标包括：配电网的负荷功率、光伏发电出力以及充电站功率；网损训练模块,用于将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际网损作为输入参数，对网损评估器进行训练，直至所述网损评估器输出的网损值满足网损收敛条件；电压偏差训练模块,用于将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际电压偏差作为输入参数，对电压偏差评估器进行训练，直至所述电压偏差评估器对应的电压偏差满足电压偏差收敛条件，所述网损评估器和所述电压偏差评估器用于计算奖励值，并通过强化学习得到配电网的实时无功优化控制策略。

根据第四方面，本发明实施例还公开了一种基于强化学习的配电网无功优化装置，包括：下一时刻参数特征获取模块，用于获取下一时刻的配电网预设指标的参数特征，所述下一时刻的配电网预设指标的参数特征由上一时刻配电网的投切控制策略输入到实际电力系统得到；输入模块，用于将所述配电网预设指标的参数特征输入到预设控制策略智能体，得到当前时刻配电网投切控制策略；构建模块，用于将所述投切控制策略以及与所述投切控制策略对应的配电网预设指标的参数特征输入到利用如第一方面或第一方面任一可选实施方式所述的基于深度学习网络的配电网评估器构建方法构建得到的网损评估器和电压偏差评估器；反馈模块，用于将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中；训练模块，用于重复所述获取下一时刻的配电网预设指标的参数特征到将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中的步骤，直至所述奖励值满足目标条件。

可选地，所述奖励值根据下述公式计算得到：

式中：r_i为第i时刻的奖励值；

为系统第i时刻的线路损耗；

根据第五方面，本发明实施例还公开了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的基于深度学习网络的配电网评估器构建方法步骤或者如第二方面或第二方面任一可选实施方式所述的基于强化学习的配电网无功优化方法的步骤。

根据第六方面，本发明实施方式还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的基于深度学习网络的配电网评估器构建方法步骤或者如第二方面或第二方面任一可选实施方式所述的基于强化学习的配电网无功优化方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的基于评估器和强化学习的配电网无功优化方法/装置，通过获取到配电网投切控制策略和参数特征，完成网损评估器和电压偏差评估器的构建和无功优化模型的建立，通过构建得到的网损评估器和电压偏差评估器来计算奖励值，通过强化学习得到配电网的实时无功优化控制策略，减少了配电网无功优化过程中寻优计算量和决策时间等相关问题，实现了配电网无功功率的实时合理分布，降低了网损、提高了电压质量。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中配电网评估器构建方法的一个具体示例的流程图；

图2为本申请实施例中网损评估器构建的一个具体示例的模型框图；

图3为本申请实施例中网损评估器构建的一个具体示例的流程图；

图4为本申请实施例中电压偏差评估器构建的一个具体示例的模型框图；

图5为本申请实施例中电压偏差评估器构建的一个具体示例的流程图；

图6为本申请实施例中一个配电网模型示意图；

图7为本申请实施例中配电网无功优化方法对应的一个具体示例的流程图；

图8为本申请实施例中配电网无功优化方法的一个具体示例的示意图；

图9为为本申请实施例中配电网无功优化方法的示意图；

图10为本申请实施例中配电网无功优化方法的一个具体示例的流程图；

图11为本申请实施例中配电网无功优化的一个具体事例的训练结果效果图；

图12为本申请实施例中配电网无功优化的一个具体事例的网络损耗效果图；

图13为本申请实施例中配电网无功优化的一个具体事例的电压偏差效果图；

图14为本申请实施例中配电网无功优化的对比方法一个具体事例的网络损耗效果图；

图15为本申请实施例中配电网无功优化的对比方法一个具体事例的电压偏差效果图；

图16为本申请实施例中配电网评估器构建装置对应的一个具体的原理框图；

图17为本申请实施例中配电网无功优化装置对应的一个具体的原理框图

图18为本申请实施例中电子设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本申请实施例公开了一种基于深度学习网络的配电网评估器构建方法，如图1所示，该方法包括如下步骤：

步骤101，获取配电网在目标历史时长内的多个投切控制策略及所述投切控制策略对应的实际网损和实际电压偏差。

示例性地，投切控制策略为在规定时长范围内配电网的设备投切方式，如配电网中调压器、电容器组、静止无功补偿器等设施等参数调节方式，本申请实施例获取过去一年内的投切控制策略，本申请实施例对该投切控制策略类型及目标历史时长大小不作限定，本领域技术人员可以根据实际需要确定。实际网损为在配电网运行过程中变电站或者是配电站因为工作中的配电原因而不得不损耗的电能，包括变压器的损耗，母线以及各连接点的阻抗以及电磁辐射等因素所产生的损耗等，实际电压偏差为配电网改变运行方式和负荷缓慢地变化会使供配电系统各点的电压也随之变化，这时各点的实际电压与系统标称电压之差称为电压偏差。

步骤102，获取与每一个投切控制策略对应的配电网预设指标的参数特征。

示例性地，配电网预设指标可以是配电网各节点的物理性能，如负荷功率、光伏发电出力(PV)、电动汽车充电站功率等；预设指标的参数特征可以为在对应投切控制策略下预设指标对应的结果参数，以预设指标为负荷功率为例，其相应的参数特征可以是同一时刻配电网中多个负荷功率的质心、离散度等，本申请实施例对该配电网预设指标以及参数特征类型不作限定，本领域技术人员可以根据实际需要确定。

步骤103，将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际网损作为输入参数，对网损评估器进行训练，直至所述网损评估器输出的网损值满足网损收敛条件。

示例性地，网损评估器构建方法：采用深度置信网络(Deep Belief Network，DBN)建立网损评估器模型，DBN由一层BP神经网络和若干层受限玻尔兹曼机(RestrictedBoltzmann Machine，RBM)栈式叠加而成。DBN的训练过程分为两步：无监督预训练和反向监督参数微调。第一步为无监督预训练，此过程只需要输入特征，从底层到顶层依次训练RBM，将下层RBM的输出作为上层RBM的输入，并且通过无监督贪心算法初始化DBN的模型参数。第二步为反向监督参数微调，此过程需要输入特征和标签信息，需要先利用前向传播算法，从输入得到一定的输出值，然后再利用后向传播算法由上至下的调整网络的权重值和偏置值，优化网络参数构建得到。本申请实施例对该网损评估器模型组成以及构建方式不作限定，本领域技术人员可以根据实际需要确定。

输入特征由两部分组成，一部分是：配电网过去一年内的预设指标对应的参数特征，当无法从电网调度中心数据库中获取历史数据时，可以首先通过Open DSS仿真模拟配电网一年内的预设指标对应的参数特征，本申请实施例中该预设指标以负荷功率、光伏发电出力(PV)、电动汽车充电站功率(EV)为例，每一个预设指标分别对应的多个参数特征，本申请实施例中每一个预设指标分别对应9个参数特征，分别为质心、离散度、上包络线、下包络线、中心线、上包络线与质心之差、下包络线与质心之差、包络线高度、中心线与质心之差，则三个预设指标一共对应27个参数特征。同时为了缩小输入特征之间的数值差异，采用最大最小法进行归一化处理，使DBN的输入数据均处于[0,1]区间，归一化处理公式如下：

x′_i＝(x_i-x_min)/(x_max-x_min)

式中：x_i、x′_i分别为第i个特征量归一化前后的数值；x_max、x_min分别是该特征量在样本数据集中的最大值和最小值。

另一部分是由对应时刻的过去一年内投切控制策略组成，当无法从电网调度中心数据库中获取过去一年内投切控制策略和相对应的实际网损，可以利用Open DSS和Matlab进行联合仿真，生成基于粒子群算法的过去一年内投切控制策略，并且得到相对应的实际网损，并对对应时间内投切控制策略进行二进制编码。采用4种无功优化设备相互配合、联合调控：两组固定的并联电容器C1、C2，有载调压变压器分接头(tap)和静止无功补偿器(SVC)。C1、C2调整容量均为600kvar(以100kvar为调节单位)，即0～6，每一个调整电容可分别用3位二进制数表示；变压器分接头为33个档位，可用6位二进制数表示；SVC容量为0～300kvar，可对应9位二进制数，即共用21位二进制来表示所有控制策略。预设指标的提取为每十五分钟提取一次,因此一年的输入特征集的维度为(24×4×365)×(27+21)。

标签数据集为实际网损

并且为了缩小标签数据集的数值差异，可以对实际网损进行归一化处理，使DBN的标签数据集均处于[0,1]区间，归一化方法可以同参数特征归一化方法，在此不再赘述。

将配电网中的过去一年内预设参数特征与二进制编码的过去一年内投切控制策略进行拼接得到输入数据集，拼接后的输入标签数据集为27个参数特征和21个二进制编码的投切控制策略组合，将网损归一化得到输出标签数据集。以式

表示i时刻的实际网损，实际网损公式为：

式中：n是配电网节点数；G_uv是节点u、v之间的支路导纳；U_u ⁱ、U_v ⁱ分别是i时刻节点u、v的电压幅值；θ_uv ⁱ是i时刻节点u、v之间的电压相角差。

建立网损评估器模型，DBN是含有两层隐藏层的神经网络，节点数可以分别为400,100，激活函数为sigmoid。然后通过DBN学习配电网系统输入数据集和实际网损的映射关系，训练DBN模型，并且通过测试集对训练参数调整，确定DBN的模型，得到网损评估器，建模网损评估器模型如图2所示，流程如图3。

步骤104，将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际电压偏差作为输入参数，对电压偏差评估器进行训练，直至所述电压偏差评估器对应的电压偏差满足电压偏差收敛条件，所述网损评估器和所述电压偏差评估器用于计算奖励值，并通过强化学习得到配电网的实时无功优化控制策略。

示例性地，电压偏差评估器构建方法同样可以采用深度置信网络(Deep BeliefNetwork，DBN)来建立电压偏差评估器模型。具体参见上述网损评估器部分对DBN网络的相关描述，在此不再赘述。

输入特征由两部分组成，一部分为配电网过去一年内的预设指标对应的参数特征，当无法从电网调度中心数据库中获取历史数据时，可以首先通过Open DSS仿真模拟配电网一年内的预设指标对应的参数特征，同样预设指标以负荷功率、光伏发电出力(PV)、电动汽车充电站功率(EV)为例，每一个预设指标可以分别对应多个参数特征，同时为了缩小输入特征的数值差异，采用最大最小法进行归一化处理，使DBN的输入数据均处于[0,1]区间，归一化处理公式如下：

x′_i＝(x_i-x_min)/(x_max-x_min)

另一部分是由对应时刻的过去一年内投切控制策略组成，当无法从电网调度中心数据库中获取过去一年内投切控制策略和相对应的电压偏差，可以利用Open DSS和Matlab进行联合仿真，生成基于粒子群算法的过去一年内投切控制策略，并且得到相对应的电压偏差，并对对应时间内投切控制策略进行二进制编码。采用4种无功优化设备相互配合、联合调控：两组固定的并联电容器C1、C2，有载调压变压器分接头(tap)和静止无功补偿器(SVC)。C1、C2调整容量均为600kvar(以100kvar为调节单位)，即0～6，每一个调整电容可可分别用3位二进制数表示。变压器分接头为33个档位，可用6位二进制数表示。SVC容量为0～300kvar，可对应9位二进制数，即共用21位二进制来表示所有控制策略。预设指标的提取为每十五分钟提取一次,因此一年的输入特征集的维度为(24×4×365)×(27+21)。

标签数据集为电压偏差

并且为了缩小标签数据集的数值差异，可以对电压偏差进行归一化处理，使DBN的标签数据集均处于[0,1]区间，归一化方法可以同参数特征归一化方法，在此不再赘述。

将配电网中的过去一年内预设参数特征与二进制编码的过去一年内投切控制策略进行拼接得到输入数据集，拼接后的输入标签数据集为27个参数特征和21个二进制编码的投切控制策略组合，将电压偏差归一化得到输出标签数据集。以式

表示i时刻的电压偏差，电压偏差公式为：

式中：U_j ⁱ是i时刻第j个节点的实际电压值；U_jN ⁱ是i时刻第j个节点的额定电压值；n为配电网节点总数。

建立电压偏差评估器模型，DBN是含有两层隐藏层的神经网络，节点数分别为400,100，激活函数为sigmoid。然后通过DBN学习配电网系统输入数据集和电压偏差的映射关系，训练DBN模型，并且通过测试集对训练参数调整，确定DBN的模型，得到网损评估器，建模网损评估器模型如图4所示，流程如图5。

本申请实施例提供的配电网无功优化方法，通过获取到配电网投切控制策略和参数特征，完成网损评估器和电压偏差评估器的构建和无功优化模型的建立，通过构建得到的网损评估器和电压偏差评估器来计算奖励值，通过强化学习得到配电网的实时无功优化操作，减少了配电网无功优化过程中寻优计算量和决策时间等相关问题，实现了配电网无功功率的实时合理分布，降低了网损、提高了电压质量。

作为本申请一个可选实施方式，所述预设指标包括：配电网的负荷功率、光伏发电出力以及充电站功率。

示例性地，配电网的负荷功率、光伏发电出力(PV)、电动汽车充电站功率(EV)可影响配电网的无功功率、负荷和电压的分布，可代表配电网的运行状态，若配电网中还有其它分布式电源，如风力发电等，也可将风力发电的相关参数作为预设指标，本申请实施例对该预设参数指标类型不作限定，本领域技术人员可以根据实际需要确定。

作为本申请一个可选实施方式，所述配电网预设指标的参数特征包括：质心、离散度、上包络线、下包络线、中心线、上包络线与质心之差、下包络线与质心之差、包络线高度、中心线与质心之差中的任意一种或多种。

示例性地，参数特征为提取配电网的预设指标的中同一类型的轨迹簇，提取每一时间断面的几何特征，在OpenDSS软件中对经典的IEEE-37节点配电网模型进行改造，将光伏电源、电动汽车充电站等设备以及调压器、电容器组、静止无功补偿器(SVC)等无功补偿设备加入配电网，图6为改造后的系统拓扑图。该配电网模型共有37个节点，35条支路。在母线变压器处(即799至701节点)接入了调压器，分接头档位为±16档，可调压范围为电压标幺值0.9～1.0之间；在708节点和737节点分别接入了容量为600kvar的电容器组，每组内含6个100kvar的电容器；在711节点接入了可调范围为300kvar的SVC。对于光伏电源、电动汽车充电站信息如表1所示，节点系统负荷参数如表2所示。

表1光伏、电动汽车充电桩信息

表2 IEEE-37节点系统负荷参数

该配电网一共有30个负荷，因此要提取一年30个节点负荷功率的参数特征，首先将每一个节点的负荷功率当作一条轨迹，30个负荷构成轨迹簇。

参数特征的提取方法可以为：

质心：

式中：x为任一预设指标，如负荷功率，i＝1,2,...m，j＝1,2,...n，其中m表示轨迹的条数，n表示时间断面的个数，质心对应某一时间断面j的均值，x_ij为第i条负荷功率轨迹在第j个时间断面下的负荷功率；

离散度：

离散度为在第j个时间断面下，每一条轨迹对应的负荷功率与负荷功率的质心之差的平方和的均值；

上包络线：s_j＝{max{x_j}}，上包络线为在第j个时间断面下，每一条轨迹对应的负荷功率的最大值；

下包络线：c_j＝{min{x_j}}，下包络线为在第j个时间断面下，每一条轨迹对应的负荷功率的最小值；

中心线：

上包络线与质心之差：sa_j＝s_j-a_j；

下包络线与质心之差：ca_j＝c_j-a_j；

包络线高度：sc_j＝s_j-c_j；

中心线与质心之差：ma_j＝m_j-a_j；

本申请实施例还公开了一种基于强化学习的配电网无功优化方法，如图7所示，该方法包括如下步骤：

步骤701，获取下一时刻的配电网预设指标的参数特征，所述下一时刻的配电网预设指标的参数特征由上一时刻配电网的投切控制策略输入到实际电力系统得到；配电网的预设指标的类型、提取的参数特征的类型以及归一化方法见上一实施例，此处不再赘述。提取的参数特征在进行归一化处理后将所有参数特征共同构成状态空间S。

步骤702，将所述配电网预设指标的参数特征输入到预设控制策略智能体，得到当前时刻配电网投切控制策略；

示例性地，控制策略智能体集成在配电网调度中心，配电网调度中心对配电网运行状态进行实时调整，可通过调整配电网投切控制策略改变预设指标的值；控制策略智能体获取状态空间中给出的对应的参数特征，得到对应的投切控制策略作为动作空间A。

无功调节设备包含并联电容器组，tap和SVC。由于静止无功补偿器是连续调节设备，因此将连续设备离散化。动作空间A_i＝[a₁,a₂,…a_m]为对应一种可能的无功调节设备投切状态，其中a_m表示第m个无功调节设备的投切挡位。

步骤703，将所述当前时刻配电网的投切控制策略以及与所述投切控制策略对应的配电网预设指标的参数特征输入到利用上述实施例所述的基于深度学习网络的配电网评估器构建方法构建得到的网损评估器和电压偏差评估器；

示例性地，将获取到的参数特征和参数特征对应的投切控制策略作为上述实施例中电压偏差评估器和网损评估器构建的输入特征集输入到上述实施例记载的方案构建得到的网损评估器和电压偏差评估器。

步骤704，将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中；

示例性地，控制智能体以电压偏差评估器和网损评估器的输出值作为奖励，对配电网参数特征和投切控制策略进行调整。当输入控制智能体的参数特征对应的奖励值越大(即实际网损与电压偏差之和越小)，选取的投切控制策略越正确，则可在下一时刻再次选取当前投切控制策略完成投切，保持配电网的最优运行；当输入控制智能体的参数特征对应的奖励值越小，则选取的投切控制策略不适合当前配电网运行，需要对投切控制策略进行调整或选取其它更适合的投切控制策略。

作为本申请一个可选实施方式，奖励值根据下述公式计算得到：

式中：r_i为第i时刻的奖励值；

为系统第i时刻的线路损耗；

为系统第i时刻的电压偏差；U_Li、U_Limax、U_Limin分别是负荷节点电压及其上、下限；η为电压越限的惩罚值。本申请实施例对优化过程中变量的数值大小不作限定，本领域技术人员可以根据实际需要确定。

步骤705，重复所述获取下一时刻的配电网预设指标的参数特征到将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中的步骤，直至所述奖励值满足目标条件。

示例性地，配电网不断运行，控制智能体获取配电网预设指标的参数特征，控制智能体根据选取的参数特征和对应的投切控制策略在电压偏差评估器和网损评估器做出反馈后调整投切控制策略，直到满足在规定时间内奖励值最大的条件，整个过程可转换为马尔科夫决策问题，如图8所示。

控制智能体的训练策略采取基于Double DQN(DDQN)算法的值函数强化学习方法。DDQN算法是将深度神经网络和Q-learning结合，结构为含有三个隐藏层的全连接网络，通过训练拟合配电网状态与无功调节设备的动作之间的函数关系。DDQN有两个结构完全相同的网络，评估网络(Evaluate Network)和暂时冻结目标网络(Target Network)，评估网络作为实时训练的网络，目标网络每隔一段时间将评估网络训练好的神经网络参数保存下来。输入层与输出层分别对应配电网状态空间的参数特征和投切控制策略总数。中间层的神经元个数分别可以为200，300和500，激活函数为sigmoid。为了使得优化结果更加稳定，DDQN中引进了经验池(Experience Replay)，它存储了带标签的数据样本，然后神经网络通过随机抽样解决了相关性及非静态分布问题。DDQN可以解决过高估计Q值的问题，DDQN可以先利用评估网络得到Q值，然后选择Q_max对应的动作。然后再用目标网络得到最终的Q值，示意图如图9，Q值计算如式：

式中：R_t+1代表t+1时刻的奖励；S_t+1代表t+1时刻的状态；γ：折现因子，用于智能体在当前奖励与未来奖励之间做出平衡；argmax_aQ(S_t+1,a；θ_t)先利用评估网络得到Q值，选择Q_max对应的动作；a是动作；Y_t ^DoubleDQN是t时刻用目标网络得到最终的Q值。θ，θ^-分别为评估网络和目标网络的网络参数。

DDQN算法的动作价值函数Q_π(s,a)见式：

Q_π(s,a)＝E(r₀+γr₁+γ²r₂+…+γⁱr_i|π,s,a)

式中：s、a分别表示当前的状态与动作；π：策略，是指给定状态s的情况下，动作a的概率分布；动作价值函数Q_π(s,a)表示基于i时刻的状态s，选择一个a后能获得的未来回报(return)的期望。

贝尔曼最优方程见式：

式中：Q_π*(s,a)为当前时刻的最优动作价值函数，π^*为最优策略，

为在状态s下执行动作a，转移到s′的概率，Q_π*(s′,a′)为下一时刻的最优动作价值。

基于DDQN网络的配电网无功优化的训练流程如图10所示，将预设指标对应的参数特征来构成状态空间，将状态空间传给DDQN网络中的评估网络，评估网络根据输出的动作Q值选择Q值最大的控制策略；将投切控制策略与参数特征拼接得到输入特征，输入特征传给网损评估器与电压偏差评估器得到对应的实际网损与电压偏差值，获得即时奖励值，将下一时刻的参数特征构成新的状态空间；将新的状态空间和即时奖励传递给调度中心，并根据DDQN算法进行学习训练，更新DDQN网络参数，并判断回合是否结束。

以一天的训练周期为例，基于DDQN训练用于无功调节设备动作方案的网络时，算法超参数设置如下：经验池尺寸设为10000，折扣因子γ设为0.9，批处理规模为32，探索率为min{0.001*学习次数，0.99}，学习率α为0.0001，每间隔300步更新一次目标网络。

训练时设置一天为一个回合，在一个回合内，若一天结束时，该回合结束。

DDQN网络的训练结果如图11所示。

reward为每个回合内的即时奖励。由图11可知，随着训练的回合数增加，奖励不断上升，说明智能体越来越能够做出优秀的决策，使得网损和电压偏差更小。在经过2000个回合左右，DDQN网络逐渐收敛。在2000回合以后，累计奖励收敛，训练完成。

基于DDQN对配电网进行优化以后的整体效果及分析如下：

待优化日下优化前、后的网络损耗对比如图12，对比未进行无功补偿的配电网实际网损，采用优化方法以后，配电网的实际网损显著降低，降低了电网的运行成本。

待优化日下优化前、后的电压偏差对比如图13所示，对比未进行无功补偿的电压偏差，采用优化方法以后，配电网的电压偏差显著降低。优化以后的电压均在电网安全运行范围以内，没有节点电压越界。有效降低了电压偏差，增加了电网运行的安全性，提升了配电网供电质量。

为进一步验证本申请实施例记载的方法的有效性，将DDQN算法与传统的优化方法粒子群算法和单一的Deep Q-network(DQN)算法进行对比分析。为便于定量对比不同方法的优化效果，以不加控制策略为基准，定义了网损波动率P_W和电压偏差波动率V_W，P_W、V_W越小，代表无功优化效果越好，见式：

式中：P_W、V_W分别为网损波动率、电压偏差波动率；

分别为不加无功控制策略时第i时刻的线路损耗、电压偏差；

分别为经本申请方法或粒子群算法、DQN算法优化后的第i时刻的线路损耗、电压偏差。

分别测试了不同无功优化方法的优化效果，并统计分析，如表3所示。不同优化方法的网损对比和电压偏差对比如图14和图15所示。

表3不同无功优化方法的优化效果

由表3与图14可得知，采用本申请优化以后的网损曲线和单一的DQN算法的曲线十分相似，稍微低于粒子群算法的曲线。而且DDQN的网损波动率比粒子群算法的稍微高一点，但比DQN的低。因此可以证明，本文方法能够有效提高系统的运行经济性。

由表2与图15可得知，采用本申请方法优化以后的电压偏差大部分都比粒子群算法的小，DDQN的电压偏差波动率要比粒子群算法和DQN的都小，表明本文优化的电压偏差要比粒子群算法和DQN的好。说明本文方法能更有效地降低电压偏差，提高电网运行的安全性。上述实施例验证了本发明实施例提出配电网无功优化方法的有效性。

本申请实施例还公开了一种基于深度学习网络的配电网评估器构建装置，如图16所示，该装置包括：

获取投切控制策略模块1601，用于获取配电网在目标历史时长内的多个投切控制策略及所述投切控制策略对应的网络损耗和电压偏差；

获取参数特征模块1602，用于获取与每一个投切控制策略对应的配电网预设指标的参数特征，所述预设指标包括：配电网的负荷功率、光伏发电出力以及充电站功率；

网损训练模块1603,用于将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的电压偏差作为输入参数，对网损评估器进行训练，直至所述网损评估器输出的网损值满足网损收敛条件；

电压偏差训练模块1604,用于将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际电压偏差作为输入参数，对电压偏差评估器进行训练，直至所述电压偏差评估器对应的电压偏差满足电压偏差收敛条件，所述网损评估器和所述电压偏差评估器用于计算奖励值，并通过强化学习得到配电网的实时无功优化控制策略。

本申请实施例提供的基于深度学习网络的配电网评估器构建装置，通过根据获取到的投切控制策略和参数特征，实现了对网损评估器和电压偏差评估器的构建，提供了在配电网无功优化过程中的奖励值，为整个配电网无功优化过程提供了反馈回路，实现了配电网无功优化的整体运转。

作为本申请的一个可选实施方式，所述预设指标还包括：配电网的负荷功率、光伏发电出力以及充电站功率。

作为本申请的一个可选实施方式，所述预设指标的参数特征包括：质心、离散度、上包络线、下包络线、中心线、上包络线与质心之差、下包络线与质心之差、包络线高度、中心线与质心之差中的任意一种或多种。

本申请实施例还提供了一种基于强化学习的配电网无功优化装置，如图17所示，该装置包括：

下一时刻参数特征获取模块1701，用于获取下一时刻的配电网预设指标的参数特征，所述下一时刻的配电网预设指标的参数特征由上一时刻配电网的投切控制策略输入到实际电力系统得到；

输入模块1702，用于将所述配电网预设指标的参数特征输入到预设控制策略智能体，得到当前时刻配电网投切控制策略；

构建模块1703，用于将所述投切控制策略以及与所述投切控制策略对应的配电网预设指标的参数特征输入到利用如上述实施例所述的基于深度学习网络的配电网评估器构建方法构建得到的网损评估器和电压偏差评估器；

反馈模块1704，用于将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中；

训练模块1705，用于重复所述获取下一时刻的配电网预设指标的参数特征到将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中的步骤，直至所述奖励值满足目标条件。

本申请实施例提供的基于强化学习的配电网无功优化装置，通过将无功优化方法转换成一个马尔科夫决策过程，获取到的下一时刻配电网预设指标的参数特征和，完成网损评估器和电压偏差评估器的构建和无功优化模型的建立，减少了配电网无功优化过程中寻优计算量和决策时间等相关问题，实现了无功功率的合理分布，降低了网损提高了电压质量。

作为本申请一个可选实施方式，所述奖励值根据下述公式计算得到：

式中：r_i为第i时刻的奖励值；

为系统第i时刻的线路损耗；

本申请实施例还提供了一种电子设备，如图18所示，该电子设备可以包括处理器1801和存储器1802，其中处理器1801和存储器1802可以通过总线或者其他方式连接，图18中以通过总线连接为例。

处理器1801可以为中央处理器(Central Processing Unit，CPU)。处理器1801还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器1802作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的基于深度学习网络的配电网评估器构建方法或基于强化学习的配电网无功优化方法对应的程序指令/模块。处理器1801通过运行存储在存储器1802中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的基于深度学习网络的配电网评估器构建方法或基于强化学习的配电网无功优化方法。

存储器1802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器1801所创建的数据等。此外，存储器1802可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器1802可选包括相对于处理器1801远程设置的存储器，这些远程存储器可以通过网络连接至处理器1801。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器1802中，当被所述处理器1801执行时，执行如图1所示实施例中的基于深度学习网络的配电网评估器构建方法或如图7所示的基于强化学习的配电网无功优化方法。

上述电子设备具体细节可以对应参阅图1、图7所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本申请的实施例，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于深度学习网络的配电网评估器构建方法，其特征在于，包括：

获取配电网在目标历史时长内的多个投切控制策略及所述投切控制策略对应的实际网损和实际电压偏差；

获取与每一个投切控制策略对应的配电网预设指标的参数特征；

将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际网损作为输入参数，对网损评估器进行训练，直至所述网损评估器输出的网损值满足网损收敛条件；

将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际电压偏差作为输入参数，对电压偏差评估器进行训练，直至所述电压偏差评估器对应的电压偏差满足电压偏差收敛条件，所述网损评估器和所述电压偏差评估器用于计算奖励值，并通过强化学习得到配电网的实时无功优化控制策略。

2.根据权利要求1所述的方法，其特征在于，所述预设指标包括：配电网的负荷功率、光伏发电出力以及充电站功率。

3.根据权利要求2所述的方法，其特征在于，所述配电网预设指标的参数特征包括：质心、离散度、上包络线、下包络线、中心线、上包络线与质心之差、下包络线与质心之差、包络线高度、中心线与质心之差中的任意一种或多种。

4.一种基于强化学习的配电网无功优化方法，其特征在于，包括：

获取下一时刻的配电网预设指标的参数特征，所述下一时刻的配电网预设指标的参数特征由上一时刻配电网的投切控制策略输入到实际电力系统得到；

将所述配电网预设指标的参数特征输入到预设控制策略智能体，得到当前时刻配电网投切控制策略；

将所述投切控制策略以及与所述投切控制策略对应的配电网预设指标的参数特征输入到利用如权利要求1-3中任一项所述的配电网评估器构建方法构建得到的网损评估器和电压偏差评估器；

将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中；

重复所述获取下一时刻的配电网预设指标的参数特征到将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中的步骤，直至所述奖励值满足目标条件。

5.根据权利要求4所述的方法，其特征在于，所述奖励值根据下述公式计算得到：

式中：r_i为第i时刻的奖励值；

为配电网第i时刻的网损；

为配电网第i时刻的电压偏差；U_Li、U_Limax、U_Limin分别是负荷节点电压及其上、下限；η为电压越限的惩罚值。

6.一种基于深度学习网络的配电网评估器构建装置，其特征在于，包括：

投切控制策略获取模块，用于获取配电网在目标历史时长内的多个投切控制策略及所述投切控制策略对应的实际网损和实际电压偏差；

参数特征获取模块，用于获取与每一个投切控制策略对应的配电网预设指标的参数特征；

网损训练模块,用于将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际网损作为输入参数，对网损评估器进行训练，直至所述网损评估器输出的网损值满足网损收敛条件；

电压偏差训练模块,用于将每一个所述投切控制策略和对应的配电网预设指标的参数特征以及每一个投切控制策略对应的实际电压偏差作为输入参数，对电压偏差评估器进行训练，直至所述电压偏差评估器对应的电压偏差满足电压偏差收敛条件，所述网损评估器和所述电压偏差评估器用于计算奖励值，并通过强化学习得到配电网的实时无功优化控制策略。

7.一种基于强化学习的配电网无功优化装置，其特征在于，包括：

下一时刻参数特征获取模块，用于获取下一时刻的配电网预设指标的参数特征，所述下一时刻的配电网预设指标的参数特征由上一时刻配电网的投切控制策略输入到实际电力系统得到；

输入模块，用于将所述配电网预设指标的参数特征输入到预设控制策略智能体，得到当前时刻配电网投切控制策略；

构建模块，用于将所述投切控制策略以及与所述投切控制策略对应的配电网预设指标的参数特征输入到利用如权利要求1-3中任一项所述的配电网评估器构建方法构建得到的网损评估器和电压偏差评估器；

反馈模块，用于将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中；

训练模块，用于重复所述获取下一时刻的配电网预设指标的参数特征到将所述网损评估器输出的网损值和所述电压偏差评估器输出的电压偏差值作为奖励值反馈给所述预设控制策略智能体，通过强化学习训练使得所述预设控制策略智能体根据所述奖励值进行训练并更新自身网络参数，将所述预设控制策略智能体新输出的投切控制策略输入到实际电力系统中的步骤，直至所述奖励值满足目标条件。

8.根据权利要求7所述的装置，其特征在于，所述奖励值根据下述公式计算得到：

式中：r_i为第i时刻的奖励值；

为配电网第i时刻的网损；

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-3中任一项所述的基于深度学习网络的配电网评估器构建方法或者如权利要求4或5所述的基于强化学习的配电网无功优化方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的基于深度学习网络的配电网评估器构建方法或如权利要求4或5所述的基于强化学习的配电网无功优化方法的步骤。