CN116207750A

CN116207750A - 一种基于深度确定性策略梯度算法的配电网无功优化方法

Info

Publication number: CN116207750A
Application number: CN202310178946.6A
Authority: CN
Inventors: 朱涛; 李文云; 黄伟; 周胜超; 海迪; 朱元富; 周艳平; 叶志明
Original assignee: Yunnan Power Grid Co Ltd
Current assignee: Yunnan Power Grid Co Ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-02

Abstract

本发明公开了一种基于深度确定性策略梯度算法的配电网无功优化方法，包括构建配电网的无功优化模型，包括潮流计算约束模型，PV逆变器和BESs的出力模型；将无功优化模型描述成一个马尔科夫决策过程，并定义MDP的状态空间、动作空间和奖励函数；使用基于人工神经网络和决策者－评价者架构的DDPG算法来求解的MDP；使用某地区配电网的真实历史运行数据，对DDPG智能体进行训练，然后将训练好的智能体在线部署，并设置不同的PV渗透率对其效果进行验证。本发明所提方法基于ANN使用Q网络来逼近Q函数，避免了状态和动作的维度灾害，同时本发明可以很好地利用PV和BESs这些分布式资源来进行配电网优化。

Description

一种基于深度确定性策略梯度算法的配电网无功优化方法

技术领域

本发明涉及梯度算法配电网技术领域，特别是一种基于深度确定性策略梯度算法的配电网无功优化方法。

背景技术

为了增加清洁和可持续能源在满足我们社会的电力需求中的份额，需要可再生资源的高渗透率，如太阳能光伏系统(photovoltaics，PV)。然而，由于这些资源输出功率的间歇性和波动性，必须解决电网可靠、优化和安全运行的技术挑战。在PV高渗透率的情况下，电压波动及其对系统有功功率损耗的影响是这些新的挑战之一。传统上，开关式或固定式电容器和有载分接开关变压器常被用于配电网的电压无功优化(Volt/VAR optimization，VVO)，以保持网络中适当的电压水平。尽管这些传统设备对电压调节很有效，但它们的行动可能需要与快速反应的资源相协调，如PV或电池逆变器，特别是在光伏发电的高渗透率水平下。

VVO框架大致分为以下两种不同的方法：1)基于模型的优化方法，包括经典和启发式方法；2)基于学习的方法，如强化学习。混合整数线性规划和混合整数非线性规划是经典的优化方法之一，被广泛用于配电网的VVO。随机规划方法是对混合整数线性规划和混合整数非线性规划方法的补充，通过从一组可能的结果中纳入可能的情况来处理分布式能源资源和负荷需求的不确定性。在现实世界的应用中，这些方法可能面临着准确覆盖大范围不确定性的挑战。鲁邦优化方法最近得到了更多的关注，因为它们提高了优化解决方案对不同不确定性或不确定性集合的鲁邦性。然而，在所有这些方法中，由于存在与电压有关的负载模型和网络三相模型中各相之间的相互阻抗，计算上的挑战可能是巨大的。不同的启发式优化方法，如粒子群优化、蚁群优化、遗传算法已经被提出用于配电网的VVO，特别是用于具有完整非线性网络模型的非凸优化问题。尽管这些方法对复杂的场景和大数据集很有用，但它们对极度变化的条件并不稳健。这些方法的一个共同假设是认为网络拓扑结构和参数是高度精确的，这有时很难保证。此外，如果PV的输出功率在短时间内有较大的波动(超出预定的解决方案)，这些方法也不能提供准确的结果。

上述基于物理模型的方法高度依赖分析性优化算法，每当遇到新情况就必须解决，而且它们也无法迅速适应配电网中与时间有关的负荷和PV的变化。基于机器学习的模型已经被用来解决基于模型的方法的局限性，因为学习方法可以通过从历史数据中提取知识来处理不确定性。此外，基于机器学习的模型在遇到任何新情况时都不需要解决，因为它们可以使用从历史数据中获得的知识来解决这些问题。其中，基于深度强化学习(deepreinforcementlearning,DRL)的方法被认为是基于模型的方法的有价值的替代方法，因为它们在神经网络中对非线性高维搜索空间具有强大的探索能力。基于DRL的方法在本质上是无模型的，也就是说，它可以在不明确了解基础模型的情况下做出适当的决定。它减少了复杂问题的计算量，并能捕捉系统的硬模型动态。此外，DRL方法在负荷或光伏曲线急剧变化的不确定环境中表现得比经典方法更好。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述和/或现有的一种基于深度确定性策略梯度算法的配电网无功优化方法中存在的问题，提出了本发明。

因此，本发明所要解决的问题在于如何提供一种基于深度确定性策略梯度算法的配电网无功优化方法，可以协调多个PV和电池储能系统的连续无功功率输出，并根据负载需求对BESs进行充电和放电，以此来优化配电网的电压和降低有功损耗。

为解决上述技术问题，本发明提供如下技术方案：一种基于深度确定性策略梯度算法的配电网无功优化方法，其包括，

构建配电网的无功优化模型，包括潮流计算约束模型，PV逆变器和BESs的出力模型；

将无功优化模型描述成一个马尔科夫决策过程，并定义MDP的状态空间、动作空间和奖励函数；

使用基于人工神经网络和决策者－评价者架构的DDPG算法来求解的MDP；

使用某地区配电网的真实历史运行数据，对DDPG智能体进行训练，然后将训练好的智能体在线部署，并设置不同的PV渗透率对其效果进行验证。

作为本发明所述一种基于深度确定性策略梯度算法的配电网无功优化方法的一种优选方案，其中：所述无功优化模型建立是

构建配电网的无功优化模型，包括潮流计算约束模型，PV逆变器和BESs的出力模型，在无功优化模型中，目标函数是最小化配电网的有功损耗和电压偏差，约束条件是潮流计算过程中的功率平衡约束和节点电压约束，决策变量是PV逆变器和BESs的出力，下式展示了配电网无功优化的数学模型：

min∑(P_loss+|V-V_e|)

此公式为无功优化的目标函数，P_loss为配电系统的有功损耗，V表示节点电压，V_e表示节点的额定电压；

此公式为功率平衡约束，式中，N为配电网的节点总数，G_ij和B_ij分别表示节点导纳的实部和虚部，V_i和V_j为节点电压幅值，δ_i和δ_j表示节点电压的相角差；

V_min≤V_i≤V_max

此公式为节点电压约束，式中，V_min和V_max分别为节点电压的上下限，该限制也被用于后面辅助奖励函数的惩罚项；

Q_PV.min≤Q_PV,i≤Q_PV.max

(P_PV,i)²+(Q_PV,i)²≤(S_PV,i)²

上述公式分别为PV的有功无功出力约束，Q为PV的有功无功出力约束，Q_PV,i表示i节点PV的无功输出量；表示i节点PV的无功输出量；

|Q_BES,i|≤Q_BES,max

上述公式为电池储能系统的无功出力约束，Q_BES,i表示i节点BES的无功输出量。

作为本发明所述一种基于深度确定性策略梯度算法的配电网无功优化方法的一种优选方案，其中：所述将无功优化模型描述成一个马尔科夫决策过程中定义MDP的状态空间、动作空间和奖励函数，DDPG智能体的目的是在分布式资源之间进行协调以提供快速有效的行动，同时根据观测的状态信息对分布式资源的动作进行管理，以调节配电网的电压和电力损耗，智能体的奖励函数的定义如下：

奖励函数：为了让智能体学习到最佳的策略，本发明根据最小化电压偏差和有功功率损耗两个目的，在奖励函数中考虑了两个约束，奖励函数定义如下：

r^t＝-M_p×(P_loss(t)-P₀)+M_v

上式中r代表t时刻的奖励值，P_loss(t)表示t时刻的配电网采取当前动作的有功损耗，P₀表示在时刻t采取默认动作带来的有功损耗，M_P和M_v分别是有功损耗最小化和减小电压偏差的奖励，M_P取值为7，如果没有电压违规，即系统节点的最低电压和最高电压处于正常区域(0.95-1.05)之间，M_v为30，如果系统节点电压V_max＞1.05或者V_min＜0.95，M_v为-10；

所述MDP就是马尔科夫决策过程。

作为本发明所述一种基于深度确定性策略梯度算法的配电网无功优化方法的一种优选方案，其中：所述利用算法求解MDP流程是

使用基于人工神经网络和决策者-评价者架构的DDPG算法来求解MDP，基于确定性策略的动作价值函数的贝尔曼方程递推关系如下：

q^μ(s_t,a_t)＝E[r(s_t,a_t)+γq^μ(s_t+1,μ(s_t+1))]

式中，μ(s_t+1)为确定性策略函数，DDPG算法使用Actor神经网络来拟合μ(s_t+1)，s_t+1为t+1时刻的状态，q^μ(s_t,a_t)表示动作价值函数，s_t和a_t表示t时刻的状态和动作，r(s_t,a_t)表示奖励函数，E表示期望，γ为折扣因子。

作为本发明所述一种基于深度确定性策略梯度算法的配电网无功优化方法的一种优选方案，其中：DDPG算法采用AC网络的架构，通过训练参数化的确定性策略μ(s,|θ^μ)深度神经网络来拟合策略优化过程，策略网络参数更新方式为：

式中，θ^μ为Actor网络的参数，

代表梯度求解，E表示期望，同时DDPG算法考虑参数为θ^q的深度神经网Critic来拟合状态价值函数。

作为本发明所述一种基于深度确定性策略梯度算法的配电网无功优化方法的一种优选方案，其中：所述验证部分使用某地区配电网的真实历史运行数据，对DDPG智能体进行训练，然后将训练好的智能体在线部署，并设置不同的PV渗透率对其效果进行验证，智能体和环境的交互过程，该过程会产生大量的历史经验，然后存入经验池中，当经验池的经验达到一定数量时，从中取样对智能体进行训练，智能体的训练过程就是Critic和Actor网络参数的更新过程，智能体训练完成后即可部署到环境中在线执行。

作为本发明所述一种基于深度确定性策略梯度算法的配电网无功优化方法的一种优选方案，其中：智能体的状态空间与动作空间的定义是：

状态空间：状态s表示配电网仿真环境运行的状态的测量向量，在本发明的问题中，将光伏逆变器的有功功率、配电网的功率损耗和节点电压作为状态输入，

动作空间：动作a被定义为不同控制变量的矢量，代表配电网中可控设备的动作量，本发明的动作为PV逆变器和BESs的无功功率输出量，在每个决策步，PV逆变器和BESs会通过改变自己的无功功率来保持电压水平极限和减少功率损耗。

作为本发明所述一种基于深度确定性策略梯度算法的配电网无功优化方法的一种优选方案，其中：最小化函数训练参数方式为

并通过最小化损失函数来训练参数：

L(θ^q)＝E[(q(s_t,a_t|θ^q)-y_t)²]

y_t＝r(s_t,a_t)+γq(s_t+1,μ(s_t+1)|θ^μ)

上式θ^q为Critic网络的参数，E表示期望，γ为折扣因子，y_t为t时刻的目标价值，该值由目标网络提供，可以看出，Actor网络的参数的更新依赖于Critic网络传递的策略梯度，若通过梯度更新之后神经网络用来拟合标签函数，会造成神经网络迭代更新产生发散，为了维持目标神经网络的稳定目标网络的参数更新采取软更新方式：

θ’←τθ+(1-τ)θ’

式中，θ'为目标网络的参数，τ为软更新系数，在DDPG算法中我们分别为Actor和Critic网络设置一个目标网络，这意味着目标网络参数在价值网络参数的约束下缓慢更新，这样价值网络更新过程便会拥有一个稳定的目标值，这样可以减少价值网络和策略网络之间的分歧，学习的稳定性大大提高。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明有益效果为

相比传统优化方法，本发明的DRL方法可以在历史经验中捕获系统的不确定性，在每个决策步，训练好的强化学习智能体无需再对新的情况进行设计和求解，它可以根据当前的状态实时做出决策；相比现存基于Q表的强化学习方法，本发明所提方法基于ANN使用Q网络来逼近Q函数，避免了状态和动作的维度灾害，同时本发明可以很好地利用PV和BESs这些分布式资源来进行配电网优化。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为实施例1中一种基于深度确定性策略梯度算法的配电网无功优化方法的流程图。

图2为实施例1中一种基于深度确定性策略梯度算法的配电网无功优化方法的基于DDPG算法的配电网无功优化流程图。

图3为实施例3中一种基于深度确定性策略梯度算法的配电网无功优化方法的标准IEEE-34节点配电系统示意图。

图4为实施例3中一种基于深度确定性策略梯度算法的配电网无功优化方法的不同PV渗透率下的奖励值的收敛过程图。

图5为实施例3中一种基于深度确定性策略梯度算法的配电网无功优化方法的不同PV渗透率下考虑不同奖励函数的有功损耗减小百分比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1和图2，为本发明第一个实施例，该实施例提供了一种基于深度确定性策略梯度算法的配电网无功优化方法，一种基于深度确定性策略梯度算法的配电网无功优化方法包括

步骤1：构建配电网的无功优化模型，包括潮流计算约束模型，PV逆变器和BESs的出力模型；

在无功优化模型中，目标函数是最小化配电网的有功损耗和电压偏差，约束条件是潮流计算过程中的功率平衡约束和节点电压约束，决策变量是PV逆变器和BESs的出力，下式展示了配电网无功优化的数学模型：

min∑(P_loss+|V-V_e|) (1)

V_min≤V_i≤V_max (3)

Q_PV.min≤Q_PV,i≤Q_PV.max (4)

(P_PV,i)²+(Q_PV,i)²≤(S_PV,i)² (5)

|Q_BES,i|≤Q_BES,max (6)

公式(1)为无功优化的目标函数，P_loss为配电系统的有功损耗，V表示节点电压，V_e表示节点的额定电压；公式(2)为功率平衡约束，式中，N为配电网的节点总数，G_ij和B_ij分别表示节点导纳的实部和虚部，V_i和V_j为节点电压幅值，δ_i和δ_j表示节点电压的相角差；公式(3)为节点电压约束，式中，V_min和V_max分别为节点电压的上下限，该限制也被用于后面辅助奖励函数的惩罚项。公式(4)和(5)为PV的有功无功出力约束，Q_PV,i表示i节点PV的无功输出量；公式(6)为电池储能系统的无功出力约束，Q_BES,i表示i节点BES的无功输出量。

步骤2：将步骤1的无功优化模型描述成一个马尔科夫决策过程(MDP)，并定义MDP的状态空间、动作空间和奖励函数；

DDPG智能体的目的是在分布式资源之间进行协调以提供快速有效的行动，同时根据观测的状态信息对分布式资源的动作进行管理，以调节配电网的电压和电力损耗。智能体的状态空间、动作空间和奖励函数的定义如下：

状态空间：状态s表示配电网仿真环境运行的状态的测量向量，在本发明的VVO问题中，我们将光伏逆变器的有功功率、配电网的功率损耗和节点电压作为状态输入。

奖励函数：为了让智能体学习到最佳的策略，本发明根据最小化电压偏差和有功功率损耗两个目的，在奖励函数中考虑了两个约束。奖励函数定义如下：

r^t＝-M_p×(P_loss(t)-P₀)+M_v (7)

上式中r代表t时刻的奖励值，P_loss(t)表示t时刻的配电网采取当前动作的有功损耗，P₀表示在时刻t采取默认动作带来的有功损耗。M_P和M_v分别是有功损耗最小化和减小电压偏差的奖励，M_P取值为7，如果没有电压违规，即系统节点的最低电压和最高电压处于正常区域(0.95-1.05)之间，M_v为30，如果系统节点电压V_max＞1.05或者V_min＜0.95，M_v为-10。

步骤3：使用基于人工神经网络(ANN)和决策者-评价者(Actor-Critic，AC)架构的DDPG算法来求解步骤2中的MDP；

为了增强强化学习在电力系统场景下的泛化能力，通常采用ANN来拟合价值函数，用神经网络的训练过程来代替策略评估和策略优化。DDPG算法可以较好的解决在连续动作域上搜索最优动作的问题，该算法应用深度函数拟合策略评估和策略改进过程，定义了Critic网络和Actor网络并且基于确定性策略梯度更新神经网络的参数，同时算法中使用作为数据缓冲区的记忆集，在学习时，从经验池中随机采样。由于状态间的关联性极强，对连续状态的连续学习，可能会导致神经网络陷入局部最优解，而不能达到全局最优解；经验回放方法可以切断数据之间的关联性，加快算法的收敛速度，且由于储存了的数据可以重复使用，数据的利用率更高。

基于确定性策略的动作价值函数的贝尔曼方程递推关系如下：

q^μ(s_t,a_t)＝E[r(s_t,a_t)+γq^μ(s_t+1,μ(s_t+1))] (8)

DDPG算法采用AC网络的架构，通过训练参数化的确定性策略μ(s,|θ^μ)深度神经网络(Actor)来拟合策略优化过程，策略网络参数更新方式为：

式中，θ^μ为Actor网络的参数，

代表梯度求解，E表示期望。同时DDPG算法考虑参数为θ^q的深度神经网Critic来拟合状态价值函数，并通过最小化损失函数来训练参数：

L(θ^q)＝E[(q(s_t,a_t|θ^q)-y_t)²] (10)

y_t＝r(s_t,a_t)+γq(s_t+1,μ(s_t+1)|θ^μ) (11)

上式θ^q为Critic网络的参数，E表示期望，γ为折扣因子，y_t为t时刻的目标价值，该值由目标网络提供。可以看出，Actor网络的参数的更新依赖于Critic网络传递的策略梯度。若通过梯度更新之后神经网络用来拟合标签函数，会造成神经网络迭代更新产生发散。为了维持目标神经网络的稳定目标网络的参数更新采取软更新方式：

θ’←τθ+(1-τ)θ’ (12)

式中，θ'为目标网络的参数，τ为软更新系数，在DDPG算法中我们分别为Actor和Critic网络设置一个目标网络，这意味着目标网络参数在价值网络参数的约束下缓慢更新，这样价值网络更新过程便会拥有一个稳定的目标值。这样可以减少价值网络减少略网络之间的分歧，学习的稳定性大大提高。

步骤4：使用某地区配电网的真实历史运行数据，对步骤3的DDPG智能体进行训练，然后将训练好的智能体在线部署，并设置不同的PV渗透率对其效果进行验证；

图2展示了DDPG算法在执行配电网无功优化时的流程图，图中包括智能体和环境的交互过程，该过程会产生大量的历史经验，然后存入经验池中，当经验池的经验达到一定数量时，从中取样对智能体进行训练，智能体的训练过程就是Critic和Actor网络参数的更新过程，智能体训练完成后即可部署到环境中在线执行。

实施例2

本发明第二个实施例，其不同于第一个实施例的是：还包括

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

实施例3

参照图3到图5，为本发明第三个实施例，其不同于前两个实施例的是：

本发明仿真实验使用标准IEEE-34节点配电系统作为DRL智能体交互的仿真环境，图3展示了IEEE-34节点配电系统的结构图，在该系统中的主馈线的不同节点上存在9个PV和4个BESs。表1展示了仿真环境的具体参数，表2展示了PV和BESs的装机容量。

表1仿真环境具体参数

表2分布式资源的装机容量

仿真环境所使用的历史运行数据来自云南某地区的配变负荷和PV真实的发电曲线，每一个决策步的时间间隔是30分钟，BESs的充放电取决于负载需求和光伏发电，以及DDPG智能体的决策。PV发电量在不同水平上变化，即总负荷的40％、50％和60％。

在仿真实验中，DDPG智能体被训练了500次，以最佳方式学习适当的神经网络参数来调节电压以及最小化网损。表3展示了DDPG算法的超参数设置。

表3算法的超参数设置

在训练过程开始时，智能体随机探索动作空间，最终收敛并找到动作空间中的最佳行动，以最小化电压波动和有功损耗。在训练过程继续到下一回合之前，每一回合的累积奖励是通过将24个决策步骤中的奖励相加计算出来的。图4显示了所有不同的光伏渗透方案的奖励收敛过程，DDPG代理的目标是有功损耗和电压波动最小化。从图中可以看出，所有三种情况下的奖励都是从低值开始的，因为智能体以前对如何调节电网电压的经验是零。随着学习的进展，智能体从以前的经验中获得知识。因此，奖励增加了，智能体大概在90个回合后收敛，并获得了最大的奖励。

系统的有功损耗随着分布式调节资源吸收或注入无功功率的不当而增加。DDPG智能体通过调整逆变器的无功功率和BES逆变器的有功功率，在电压调节的同时控制系统的有功功率损耗。图5说明了在不同的光伏渗透率水平下，相对于基本有功结果的损失减少百分比。为了评估的性能，在50％的渗透水平下，有两种不同的奖励功能，既有功损耗+电压调节与只有电压调节，我们比较了这些奖励功能的有功损耗减少百分比。可以看出，在智能体被训练为只调节电压的情况下，有功功率损失的减少相对较高。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度确定性策略梯度算法的配电网无功优化方法，其特征在于：包括

2.如权利要求1所述的一种基于深度确定性策略梯度算法的配电网无功优化方法，其特征在于：所述无功优化模型建立方式是

min∑(P_loss+|V-V_e|)

V_min≤V_i≤V_max

Q_PV.min≤Q_PV,i≤Q_PV.max

(P_PV,i)²+(Q_PV,i)²≤(S_PV,i)²

|Q_BES,i|≤Q_BES,max

3.如权利要求1或2所述的一种基于深度确定性策略梯度算法的配电网无功优化方法，其特征在于：所述将无功优化模型描述成一个马尔科夫决策过程中定义MDP的状态空间、动作空间和奖励函数，DDPG智能体的目的是在分布式资源之间进行协调以提供快速有效的行动，同时根据观测的状态信息对分布式资源的动作进行管理，以调节配电网的电压和电力损耗，智能体的奖励函数的定义如下：

r^t＝-M_p×(P_loss(t)-P₀)+M_v

所述MDP就是马尔科夫决策过程。

4.如权利要求3所述的一种基于深度确定性策略梯度算法的配电网无功优化方法，其特征在于：所述利用算法求解MDP流程是

q^μ(s_t,a_t)＝E[r(s_t,a_t)+γq^μ(s_t+1,μ(s_t+1))]

5.如权利要求1、2和4任一所述的一种基于深度确定性策略梯度算法的配电网无功优化方法，其特征在于：DDPG算法采用AC网络的架构，通过训练参数化的确定性策略μ(s,|θ^μ)深度神经网络来拟合策略优化过程，策略网络参数更新方式为：

式中，θ^μ为Actor网络的参数，▽代表梯度求解，E表示期望，同时DDPG算法考虑参数为θ^q的深度神经网Critic来拟合状态价值函数。

6.如权利要求5所述的一种基于深度确定性策略梯度算法的配电网无功优化方法，其特征在于：所述验证部分使用某地区配电网的真实历史运行数据，对DDPG智能体进行训练，然后将训练好的智能体在线部署，并设置不同的PV渗透率对其效果进行验证，智能体和环境的交互过程，该过程会产生大量的历史经验，然后存入经验池中，当经验池的经验达到一定数量时，从中取样对智能体进行训练，智能体的训练过程就是Critic和Actor网络参数的更新过程，智能体训练完成后即可部署到环境中在线执行。

7.如权利要求6所述的一种基于深度确定性策略梯度算法的配电网无功优化方法，其特征在于：智能体的状态空间与动作空间的定义是：

8.如权利要求6或7所述的一种基于深度确定性策略梯度算法的配电网无功优化方法，其特征在于：最小化函数训练参数方式为

并通过最小化损失函数来训练参数：

L(θ^q)＝E[(q(s_t,a_t|θ^q)-y_t)²]

y_t＝r(s_t,a_t)+γq(s_t+1,μ(s_t+1)|θ^μ)

θ’←τθ+(1-τ)θ’

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。