CN110729740B

CN110729740B - 配电网无功优化方法、装置、计算机设备及可读存储介质

Info

Publication number: CN110729740B
Application number: CN201910592637.7A
Authority: CN
Inventors: 乔颖; 鲁宗相; 王玮; 张宇精; 何欣; 张鹏
Original assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; Tsinghua University; State Grid Corp of China SGCC
Current assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; Tsinghua University; State Grid Corp of China SGCC
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2022-03-11
Anticipated expiration: 2039-07-03
Also published as: CN110729740A

Abstract

本申请提供配电网无功优化方法、装置、计算机设备及可读存储介质，该方法包括：获取配电网系统的无功优化模型，根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程，以状态价值为目标，求解所述马尔科夫决策过程，得到所述离散无功调节设备的配置信息，并根据所述配置信息对所述配电网系统进行配置，以实现配电网系统的无功优化，该方法能够在充分考虑低电压等级电网的低感知度的情况下，不需要对配电网的潮流状态进行建模，就可以实现无忧优化，有效减少了配电网系统网损和电容器动作，从而提高了配电网系统运行的经济性。

Description

配电网无功优化方法、装置、计算机设备及可读存储介质

技术领域

本申请涉及电力系统控制技术领域，特别是涉及一种配电网无功优化方法、装置、计算机设备及可读存储介质。

背景技术

近年来，为了应对能源危机和环境污染等问题，世界各国在推进集中式新能源利用的同时，也在大力鼓励分布式新能源的开发。同时，随着这些分布式能源在配电网中渗透率的逐渐提高，其并网后对配电网的无功优化带来了较大的困难。

传统技术中解决无功优化问题，通常以配电网系统的网损作为优化目标，以离散调节设备的动作序列作为控制变量，约束条件主要考虑配电网系统的节点电压约束，调节设备的档位约束，配电网系统潮流方程约束，以及设备动作次数约束，其中，传统的解决方法需要对配电网系统的潮流状态进行建模。

但是，低感知度配电网的线路参数杂散性强，网络结构不易完全掌握，几乎没有精确的潮流参数模型，无法支撑无功优化的高级应用，从而导致配电网系统运行的经济性降低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高配电网系统经济性的配电网无功优化方法、装置、计算机设备及可读存储介质。

本申请实施例提供一种配电网无功优化方法，所述方法包括：

获取配电网系统的无功优化模型，所述无功优化模型包括配电网系统网损优化函数以及离散无功设备动作损失优化函数；

根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程；

以状态价值为目标，求解所述马尔科夫决策过程，得到所述离散无功调节设备的配置信息，并根据所述配置信息对所述配电网系统进行配置。

在其中一个实施例中，所述获取配电网系统的无功优化模型，包括：通过所述配电网系统网损以及所述离散无功设备动作损失，得到所述无功优化模型，其中，所述通过所述配电网系统网损以及离散无功设备动作损失，得到所述无功优化模型，包括：通过所述配电网系统网损以及电容器动作损失，得到所述配电网无功优化的目标函数以及所述目标函数的约束条件。

在其中一个实施例中，所述方法还包括：根据所述目标函数以及所述约束条件，得到无约束条件的第一优化目标函数。

在其中一个实施例中，所述根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程，包括：根据所述第一优化目标函数、初始状态空间以及策略，得到所述配电网系统的所述回报空间，并根据所述回报空间确定第二优化目标函数。

在其中一个实施例中，所述根据所述第一优化目标函数、初始状态空间以及策略，得到所述配电网系统的所述回报空间，并根据所述回报空间确定第二优化目标函数，包括：

调度系统根据所述初始状态空间以及策略，得到所述配电网系统当前指令周期下的所述动作空间，其中，所述策略包括从所述状态空间到所述动作空间的映射函数；

所述配电网系统根据所述动作空间，得到下一指令周期下的第一状态空间；

所述配电网系统根据所述动作空间、所述第一状态空间以及所述第一优化目标函数，得到所述当前指令周期下所述配电网系统的回报空间；

将所述第一状态空间作为初始状态空间，继续执行所述调度系统在初始状态空间下，对所述配电网系统下达当前指令周期下的动作空间，直到得到最后一个指令周期下所述配电网系统的回报空间；

将所有指令周期下对应的所述回报空间之和的最小值，确定为所述第二优化目标函数。

在其中一个实施例中，所述以状态价值为目标，求解所述马尔科夫决策过程，得到所述离散无功调节设备的配置信息，并根据所述配置信息对所述配电网系统进行配置，包括：

以状态价值为目标，采用深度强化学习算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息；

根据最优配置信息，对所述配电网系统进行配置。

在其中一个实施例中，所述以状态价值为目标，采用深度强化学习算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息，包括：以状态价值为目标，采用行动者-评论家算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息。

本申请实施例提供一种配电网无功优化装置，所述配电网无功优化装置包括：

获取模块，用于获取配电网系统的无功优化模型，所述无功优化模型包括配电网系统网损优化函数以及离散无功设备动作损失优化函数；

第一转化模块，用于根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程；

求解模块，用于以状态价值为目标，求解所述马尔科夫决策过程，得到所述离散无功调节设备的配置信息，并根据所述配置信息对所述配电网系统进行配置。

本申请实施例提供一种计算机设备，包括存储器、处理器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本实施例提供的配电网无功优化方法、装置、计算机设备及可读存储介质，获取配电网系统的无功优化模型，根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程，以状态价值为目标，求解所述马尔科夫决策过程，得到所述离散无功调节设备的配置信息，并根据所述配置信息对所述配电网系统进行配置，以实现配电网系统的无功优化，该方法能够在充分考虑低电压等级电网的低感知度的情况下，不需要对配电网的潮流状态进行建模，就可以实现无忧优化，有效减少了配电网系统网损和电容器动作，从而提高了配电网系统运行的经济性。

附图说明

图1为一实施例提供的具有多个分布式电源接入的低感知度配电网系统的结构示意图；

图2为一实施例提供的配电网无功优化方法的流程示意图；

图3为另一实施例提供的配电网无功优化对应的马尔科夫决策过程的示意图；

图4为一实施例提供的行动者-评论家算法求解配电网无功优化过程的结构示意图；

图5为一实施例提供的配电网无功优化装置的结构示意图；

图6为一个实施例提供的计算机设备的内部结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的配电网无功优化方法，可适用于如图1所示的具有多个分布式电源接入的低感知度配电网系统中，配电网系统中的支路可以分为在调度系统中已知网络结构与参数的已知支路(在图中用实线表示)，以及在调度系统中未知网络结构与参数的未知支路(在图中用虚线表示)，该配电网系统中除了包括分布式电源外，还包括离散无功调节设备(如并联电容器)，在图中用SC表示。可选的，配电网系统中的节点可以包括四遥接入调度主站的可观测节点和未接入调度主站的不可观测节点，其中，只接入二遥、三遥的节点于接入四遥的节点类似。可选的，二遥、三遥以及四遥可以表示配电网系统检测终端的通信功能，其中，二遥可以包括遥信以及遥测，三遥可以包括遥信、遥测以及遥控，四遥可以包括遥控、遥测、遥信以及遥调。下述方法实施例的执行主体以配电网系统中配电网无功优化装置为例来进行说明。

为了使本申请的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本申请实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定发明。

图2为一实施例提供的配电网无功优化方法的流程示意图。本实施例涉及的是如何在多时间断面下实现配电网无功优化的过程。如图2所示，该方法包括：

S101、获取配电网系统的无功优化模型，所述无功优化模型包括配电网系统网损优化函数以及离散无功设备动作损失优化函数。

其中，上述S101中获取配电网系统的无功优化模型的步骤，可以包括：通过所述配电网系统网损以及所述离散无功设备动作损失，得到所述无功优化模型。可选的，所述通过所述配电网系统网损以及离散无功设备动作损失，得到所述无功优化模型，包括：通过所述配电网系统网损以及电容器动作损失，得到所述配电网无功优化的目标函数以及所述目标函数的约束条件。

具体的，上述配电网系统的无功优化模型可以以最小化系统运行经济性以及离散无功调节设备的调节成本为优化目标，以并联电容器、有载调压变压器等离散无功调节设备的工作序列作为控制变量，约束条件可以包括配电网系统所有节点的电压(即U)约束、配电网系统中能发无功的所有设备的无功功率(即Q)约束、所有离散无功调节设备的档位状态(即T)约束、不同指令周期下配电网系统潮流方程(即g(X,T))约束以及配电网系统中所有离散无功调节设备的动作次数(∑1(d_j))约束，其中，U、Q、T以及X均可以为向量。

可以理解的是，上述网损可以表征为配电网在输送电能过程中以热能形式散发的功率损失，其中，网损越小，配电网系统运行的经济性越高。可选的，电容器可以为配电网系统中的离散无功调节设备，离散无功调节设备的调节成本可以为电容器动作损失。可选的，离散无功调节设备还可以包括有载调压变压器。

还可以理解的是，配电网系统的无功优化模型可以包括配电网无功优化的目标函数以及该目标函数对应的约束条件。可选的，配电网无功优化的目标函数可以包括两部分，分别为网损和电容器动作损失。可选的，上述目标函数可以表示为：

在本实施例中，N可以表征为一天内的指令周期个数；P_lossi可以表征为第i个指令周期内配电网系统的网损；c_j可以表征为第j个离散无功调节设备的调节成本，该调节成本可以表征为动作成本；

可以表征为一个0-1函数，若第i个指令周期内第j个离散无功调节设备动作时为1，否则为0；m可以表征为离散无功调节设备的数量，λ_c可以表征为离散无功调节设备的调节成本系数。

需要说明的是，配电网无功优化的目标函数对应的约束条件可以定义为：

U_min≤U≤U_max (2)；

Q_min≤Q≤Q_max (3)；

T_min≤T≤T_max (4)；

g_i(X,T)＝0,i＝1,2...N (5)；

其中，公式(2)可以表征为配电网系统中所有节点电压的上下限约束，公式(3)可以表征为配电网系统中能发无功的所有设备的无功功率的上下限约束，公式(4)可以表征为配电网系统中所有离散无功调节设备的档位状态的上下限约束，公式(5)可以表征为第i个指令周期内配电网系统的潮流方程约束，公式(6)可以表征为配电网系统中离散无功调节设备的动作次数约束，该离散无功调节设备不区分电容器和有载调压变压器。

S102、根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程。

在本实施例中，配电网系统的无功优化问题是一个典型的多步决策问题，可以用马尔科夫决策过程对该问题进行建模，因此，根据无功优化模型，将配电网系统网损优化函数以及离散无功设备动作损失优化函数可以转换为马尔科夫决策过程。其中，若将进行动作决策的调度系统作为决策主体，实际配电网系统作为环境，那么配电网的无功优化模型可以转化为马尔科夫最优决策过程。

S103、以状态价值为目标，求解所述马尔科夫决策过程，得到所述离散无功调节设备的配置信息，并根据所述配置信息对所述配电网系统进行配置。

具体的，计算机设备可以以状态价值函数为优化目标函数，以状态价值为优化目标，求解马尔科夫决策过程，得到离散无功调节设备的配置信息，以实现配电网系统的无功优化。可选的，上述配置信息可以包括离散无功调节设备的投切指令。

可选的，以状态价值为目标，求解所述马尔科夫决策过程，得到所述离散无功调节设备的配置信息，并根据所述配置信息对所述配电网系统进行配置的步骤，具体可以包括：以状态价值为目标，采用深度强化学习算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息；根据最优配置信息，对所述配电网系统进行配置。

需要说明的是，配电网无功优化系统可以采用深度强化学习算法求解马尔科夫决策过程，上述深度强化学习算法可以包括：基于值函数的方法、基于策略的方法以及行动者-评论家算法。在本实施例中，上述配电网无功优化方法可以解决低感知配电网无功优化问题。可选的，以状态价值为最优目标，进而求解马尔科夫决策过程，得到最优状态价值对应的离散无功调节设备的最优配置信息，并根据该最优配置信息对配电网系统进行配置。

本实施例提供的配电网无功优化方法，获取配电网系统的无功优化模型，根据无功优化模型，将配电网系统网损优化函数以及离散无功设备动作损失优化函数，转换为配电网无功优化对应的马尔科夫决策过程，求解马尔科夫决策过程，得到离散无功调节设备的配置信息，并根据配置信息对配电网系统进行配置，实现配电网的无功优化，该方法能够在充分考虑低电压等级电网的低感知度的情况下，不需要对配电网的潮流状态进行建模，就可以实现无忧优化，实现无功优化主要是在满足离散无功调节设备的实际运行条件约束下，通过调节配电网系统的无功分布减少配电网系统网损和电容器动作，从而提高了配电网系统的经济性。

作为其中一个实施例，在上述S101中获取配电网系统的无功优化模型的步骤之后，配电网无功优化方法还可以包括如下步骤：根据所述目标函数以及所述约束条件，得到无约束条件的第一优化目标函数。

具体的，上述公式(3)和(4)分别表示离散无功调节设备的容量上下限约束和档位上下限约束，可以通过上述决策主体的动作空间进行满足，公式(5)所示的潮流方程约束在环境(即实际配电网系统)运行中自然满足，公式(2)和(6)所示的节点电压上下限约束以及动作次数约束，与决策主体的状态及动作决策相关，因此，可以对公式(1)所示的目标函数加入罚函数，将公式(1)改写成无约束条件的第一优化目标函数，并可以通过以下表达式表示：

其中，η₁和η₂可以取较大的整数，表征惩罚系数，σ表征判断函数，约束条件满足时取值为0，约束条件不满足时取值为1。

可以理解的是，将公式(1)中有约束条件的无功优化的目标函数可以改写成无约束条件的第一优化目标函数。

可选的，上述S102中根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程的步骤，具体可以包括以下过程：根据所述第一优化目标函数、初始状态空间以及策略，得到所述配电网系统的所述回报空间，并根据所述回报空间确定第二优化目标函数。

其中，根据所述第一优化目标函数、初始状态空间以及策略，得到所述配电网系统的所述回报空间，并根据所述回报空间确定第二优化目标函数，包括：调度系统根据所述初始状态空间以及策略，得到所述配电网系统当前指令周期下的所述动作空间，其中，所述策略包括从所述状态空间到所述动作空间的映射函数；所述配电网系统根据所述动作空间，得到下一指令周期下的第一状态空间；所述配电网系统根据所述动作空间、所述第一状态空间以及所述第一优化目标函数，得到所述当前指令周期下所述配电网系统的回报空间；将所述第一状态空间作为初始状态空间，继续执行所述调度系统在初始状态空间下，对所述配电网系统下达当前指令周期下的动作空间，直到得到最后一个指令周期下所述配电网系统的回报空间；将所有指令周期下对应的所述回报空间之和的最小值，确定为所述第二优化目标函数。

需要说明的是，上述马尔科夫决策过程可以由五个变量定义，分别为S，R，Pr，A，γ。其中，S表征状态空间，R表征回报空间，Pr表征状态转移概率，A表征动作空间，γ表征回报折扣率。

具体的，S可以表征为状态空间，也就是决策主体所能感知到环境的状态(即s)集合，在低感知配电网无功优化问题中，可以将调度系统抽象为决策主体，则状态空间可以作为调度系统能够量测得到的电网信息，主要包括经过通信系统接入到调度系统的节点信息和离散无功调节设备的投切状态信息。可选的，第i个决策阶段的状态s可以用以下表达式表示：

上述P_i ⁰，

分别为第i个决策阶段内调度系统可以量测得到的节点有功注入功率矩阵、无功注入功率矩阵以及节点电压矩阵，维度均为n×k，n可以表示四遥接入调度系统的节点数，k可以表示决策周期内量测次数。T_i可以表示第i个决策阶段内离散无功调节设备的投切档位，采用one hot编码方式，CT_i可以表示i个决策阶段内离散无功调节设备已经完成的动作次数，同样采用one hot编码方式。例如，若一个配电网系统包含20个可观测节点，离散无功调节设备的决策周期为10分钟，量测设备采样周期为1分钟，则P_i ⁰，Q_i ⁰，U_i ⁰的维度均可以为20×10，若配电网系统中包含两个并联电容器，档位数分别为5和3，在当前决策周期下分别在2挡和3挡的位置，若离散无功调节设备最大的投切次数为5，当前决策周期下，两个并联电容器已经累积投切了3次和2次，则T_i和CT_i分别可以表示为：

T_i＝[0 1 0 0 0 0 0 1]；

CT_i＝[0 0 1 0 0 0 1 0 0 0]。

上述A可以表征动作空间，也就是决策主体所能对环境进行动作(即a)的集合，在低感知配电网无功优化问题中，可以将动作空间定义为下一指令周期下离散无功调节设备的档位状态，同样采用one hot编码方式，即

a_i＝T_i+1 (9)；

上述R可以表征回报空间，也就是环境根据状态和动作返回给决策主体的即时回报(即r)的集合，可以作为评价指标，也是多阶段决策的优化目标，根据公式(7)的优化目标，即时回报可以表征为：

当节点电压满足约束条件且在当前指令周期下并未超过动作次数约束时，即时回报r_i为本周期内配电网系统的网损以及离散无功调节设备的动作成本之和的相反数，当节点电压超过约束条件或者动作次数超过约束条件时，即时回报r_i可以表示为惩罚项的相反数，该数为非常小负数。

上述Pr可以表征状态转移概率，由环境确定，但决策主体未知，在低感知配电网无功优化问题中，环境可以为实际运行的配电网系统，在配电网系统运行过程中，状态转移关系自然满足潮流方程约束。可选的，Pr可以表示为Pr(s_i+1|s₁,a₁,...,s_i,a_i)＝Pr(s_i+1|s_i,a_i)。

上述γ可以表征回报折扣率，表示未来回报对当前决策的影响，其中，γ越大，表示优化模型对远期的回报影响较大，γ越小，表示优化模型对近期的回报影响较大，在本实施例中，γ可以取固定值0.9。

还可以理解的是，配电网无功优化对应的马尔科夫决策过程的示意图如图3所示，若初始的指令周期内配电网系统处于某种初始状态s₀下，调度系统根据策略π^θ(a|s)对配电网系统下达离散无功调节设备的投切指令a₀，确定下一周期离散无功调节设备所处状态T₁，其中，θ可以表征拟合控制策略的网络参数，配电网系统中的相关设备根据指令进行动作，更新CT，量测设备量测系统状态，并反馈给调度系统下一指令周期的状态s₁，循环进行这一决策过程直至最后一个指令周期。

可选的，公式(7)的优化目标可以改写为第二优化目标函数，即状态价值函数：

v^π(s)＝E(G_i|s_i＝s) (11)；

其中，G_i表征累积折扣回报，G_i＝r_i+γ·r_i+1+γ²·r_i+2+...，状态价值函数可以表征为累积折扣回报的期望值。

在本实施例中，优化模型的最优解可以表征为求解这一马尔科夫过程的最优决策，即求解v^π(s)，并且v^π(s)的最大值可以为最优状态函数。

本实施例提供的配电网无功优化方法，该方法能够在充分考虑低电压等级电网的低感知度的情况下，不需要对配电网的潮流状态进行建模，将无功优化模型转换为优化目标函数，并将优化目标函数转换为马尔科夫决策过程，以实现配电网无忧优化，实现无功优化主要是在满足离散无功调节设备的实际运行条件约束下，通过调节配电网系统的无功分布减少配电网系统网损和电容器动作，从而提高了配电网系统的经济性。

作为其中一个实施例，所述以状态价值为目标，采用深度强化学习算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息的步骤，可以包括：以状态价值为目标，采用行动者-评论家算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息。

具体的，上述行动者-评论家算法可以有效结合基于值函数的方法以及基于策略的方法，收敛性较好且数据利用率较高。在本实施例中，采用行动者-评论家算法可以对图4所示的深度神经网络结构拟合

和状态价值函数

其中，θ₁和θ₂分别可以表示行动者网络和评论家网络的参数。可选的，深度神经网络结构主要可以包括三个部分，用于提取关键特征的卷积神经网络、拟合从状态空间到动作空间的映射的行动者网络

)以及拟合状态价值函数的评论家网络

)。

需要说明的是，优化模型的输入可以为配电网无功优化的马尔科夫决策过程的状态s，即包括可观测节点潮流矩阵[P⁰ Q⁰ U⁰]_3×n×k，离散无功调节设备投切状态T以及离散无功调节设备投切次数CT可以采用one hot编码方式。

其中，节点潮流矩阵中包含了当前配电网系统运行过程中的所有信息，并综合考虑了物理系统惯性以及短期未来的部分信息。在本实施例中，首先可以从优化模型参数中提取关键信息，以降低优化模型复杂度。针对图4所示的深度神经网络结构首先用一个3层卷积神经网络作为转换体提取关键特征，如图中虚线框所示，然后将转换体得到的关键特征(即f_conv)以及投切状态矩阵T和投切次数矩阵CT进行拼接得到行动者网络和评论家网络的输入，行动者网络是一个三层全连接网络结构，输入维度可以为潮流特征矩阵f_conv、投切状态矩阵T以及投切次数矩阵CT的维度之和，即D(f_conv)+D(T)+D(CT)，两个隐含层分别有200个神经元和100个神经元，输出维度可以为投切状态矩阵T的维度，即D(T)，输出经过输出层(即softmax层)转化为m个多项式分布概率，其中m可以表征为配电网系统中离散无功调节设备的数目。

可以理解的是，若行动者网络与评论家网络输入相同，则潮流特征矩阵f_conv、投切状态矩阵T以及投切次数矩阵CT拼接可以得到的状态矩阵，评论家网络也同样为三层全连接网络，两个隐含层分别可以有200个神经元和100个神经元，同时，评论家网络拟合的是状态价值函数

输出维度为1，且不需要经过输出层(即softmax层)。

本实施例提供的配电网无功优化方法，该方法能够采用行动者-评论家算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息，以实现配电网无功优化，收敛性较好且数据利用率较高，并且能够在满足离散无功调节设备的实际运行条件约束下，通过调节配电网系统的无功分布减少配电网系统网损和电容器动作，从而提高了配电网系统的经济性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

关于配电网无功优化装置的具体限定可以参见上文中对于配电网无功优化方法的限定，在此不再赘述。上述计算机设备中配电网无功优化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图5为一实施例提供的配电网无功优化装置结构示意图。如图5所示，该装置可以包括：获取模块11、第一转化模块12以及求解模块13。

具体的，所述获取模块11，用于获取配电网系统的无功优化模型，所述无功优化模型包括配电网系统网损优化函数以及离散无功设备动作损失优化函数；

所述第一转化模块12，用于根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程；

所述求解模块13，用于以状态价值为目标，求解所述马尔科夫决策过程，得到所述离散无功调节设备的配置信息，并根据所述配置信息对所述配电网系统进行配置。

本实施例提供的配电网无功优化装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在其中一个实施例中，所述获取模块11具体用于通过所述配电网系统网损以及所述离散无功设备动作损失，得到所述无功优化模型。其中，所述通过所述配电网系统网损以及离散无功设备动作损失，得到所述无功优化模型，包括：通过所述配电网系统网损以及电容器动作损失，得到所述配电网无功优化的目标函数以及所述目标函数的约束条件。

在其中一个实施例中，所述配电网无功优化装置还包括：第二转换模块。

具体的，所述第二转换模块，用于根据所述目标函数以及所述约束条件，得到无约束条件的第一优化目标函数。

在其中一个实施例中，所述第一转化模块12，具体用于根据所述第一优化目标函数、初始状态空间以及策略，得到所述配电网系统的所述回报空间，并根据所述回报空间确定第二优化目标函数。

在其中一个实施例中，所述第一转化模块12包括

在其中一个实施例中，所述求解模块13具体用于以状态价值为目标，采用深度强化学习算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息；根据最优配置信息，对所述配电网系统进行配置。可选的，所述以状态价值为目标，采用深度强化学习算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息，包括：以状态价值为目标，采用行动者-评论家算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种配电网无功优化方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，提供了一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种配电网无功优化方法，其特征在于，所述方法包括：

通过配电网系统网损以及离散无功调节设备动作损失，得到无功优化模型，包括：通过所述配电网系统网损以及电容器动作损失，得到所述配电网无功优化的目标函数以及所述目标函数的约束条件；

根据所述目标函数以及所述约束条件，得到无约束条件的第一优化目标函数；

根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功调节设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程，包括：根据所述第一优化目标函数、初始状态空间以及策略，得到所述配电网系统的回报空间，并根据所述回报空间确定第二优化目标函数；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一优化目标函数、初始状态空间以及策略，得到所述配电网系统的所述回报空间，并根据所述回报空间确定第二优化目标函数，包括：

调度系统根据所述初始状态空间以及策略，得到所述配电网系统当前指令周期下的动作空间，其中，所述策略包括从所述状态空间到所述动作空间的映射函数；

3.根据权利要求1所述的方法，其特征在于，所述以状态价值为目标，求解所述马尔科夫决策过程，得到所述离散无功调节设备的配置信息，并根据所述配置信息对所述配电网系统进行配置，包括：

根据最优配置信息，对所述配电网系统进行配置。

4.根据权利要求3所述的方法，其特征在于，所述以状态价值为目标，采用深度强化学习算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息，包括：以状态价值为目标，采用行动者-评论家算法求解马尔科夫决策过程，得到最优状态价值对应的所述离散无功调节设备的最优配置信息。

5.根据权利要求1所述的方法，其特征在于，所述配电网系统网损为配电网在输送电能过程中以热能形式散发的功率损失。

6.根据权利要求1所述的方法，其特征在于，所述配置信息包括离散无功调节设备的投切指令。

7.根据权利要求1所述的方法，其特征在于，离散无功调节设备还包括有载调压变压器。

8.一种配电网无功优化装置，其特征在于，所述装置包括：

获取模块，用于通过配电网系统网损以及离散无功调节设备动作损失，得到无功优化模型，包括：通过所述配电网系统网损以及电容器动作损失，得到所述配电网无功优化的目标函数以及所述目标函数的约束条件；

第二转换模块，用于根据所述目标函数以及所述约束条件，得到无约束条件的第一优化目标函数；

第一转化模块，用于根据所述无功优化模型，将所述配电网系统网损优化函数以及离散无功调节设备动作损失优化函数，转化为所述配电网无功优化对应的马尔科夫决策过程，包括：根据所述第一优化目标函数、初始状态空间以及策略，得到所述配电网系统的回报空间，并根据所述回报空间确定第二优化目标函数；

9.一种计算机设备，包括存储器、处理器，所述存储器上存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。