CN116629461A

CN116629461A - 一种主动配电网分布式优化方法、系统、设备及存储介质

Info

Publication number: CN116629461A
Application number: CN202310911746.7A
Authority: CN
Inventors: 杨明; 李鹏; 李晓宇; 管西洋; 王秋实; 于一潇; 李梦林; 王飞
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-08-22
Anticipated expiration: 2043-07-25
Also published as: CN116629461B

Abstract

本发明公开一种主动配电网分布式优化方法、系统、设备及存储介质，涉及预测为目的的数据处理技术领域，包括：确定智能体动作量控制策略；构建全局优势函数并分解为单智能体优势函数，以最小化单智能体优势函数为目标，构建用于更新智能体动作量控制策略的目标函数；根据训练样本集在设定的约束条件下对目标函数进行训练；以最小化弃风弃光惩罚成本、网络损耗成本和实际储能电量与计划储能电量的电量偏差惩罚成本为分布式优化目标，根据实时状态量和分布式优化目标，采用训练后的目标函数，得到智能体动作量控制策略。在保留储能日前优化中追求的削峰填谷和提供可调节裕度作用的同时，发挥储能应对实时功率波动的快速调节能力。

Description

一种主动配电网分布式优化方法、系统、设备及存储介质

技术领域

本发明涉及预测为目的的数据处理技术领域，特别是涉及一种主动配电网分布式优化方法、系统、设备及存储介质。

背景技术

以光伏发电为代表的可再生能源在配电网中的渗透率不断提升，分布式可再生能源具有时变性、波动性和间歇性等强不确定性特征，影响着配电网的运行与控制。在量测、通信等配置完善的前提下，主动配电网能够对分布式发电、储能等可调控资源实施主动管理和协调控制，在配电网内部抑制功率的不确定性。在上述背景下，如何充分挖掘主动配电网运行过程中可调控资源的灵活调节潜力是解决可再生能源发电出力不确定性的关键。

储能装置因其优秀的灵活调节能力被广泛应用于主动配电网的运行与控制问题中。储能提供的有功功率可调节裕度不只受到储能有功出力上下限，同时也受到储能电量的限制，这使得储能提供的有功功率可调节裕度会受到实时阶段储能充放电情况的影响。目前主动配电网实时优化主要通过短采样周期滞后的反馈校正实现，如模型预测控制、时变最优潮流，均无法保证储能在实时充放电过程中的全局最优性。

同时，通信效率、通信时延、通信故障弹性、隐私和可扩展性等新兴问题的挑战促使配电网能量管理由集中走向分布。而以拉格朗日松弛法和交替方向乘子法为代表的基于模型的分布式算法都依赖于准确的系统模型来实现理想的性能，并不适用于当今复杂性日益增加的大型互连电力系统。对此，如何基于多智能体强化学习算法设计主动配电网实时运行优化策略，是提高系统抗干扰能力，实现主动配电网实时优化由模型驱动向数据驱动转变的关键。

多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）作为分布式无模型优化算法的代表，被应用于电力系统分布式优化和控制问题中。当前有较多研究将深度强化学习应用于各种电力系统问题中。比如，有研究提出基于多智能体深度强化学习的两时间尺度配电网无功优化策略，其借助稀疏高斯过程回归潮流模型，摆脱了训练过程对物理模型的依赖，有研究通过对更新梯度的解析，避免批评者神经网络的使用。但是，目前主流的多智能体强化学习算法均属于值迭代类算法，算法本身对于超参数数值十分敏感，无法避免冗长的调参过程。

发明内容

为了解决上述问题，本发明提出了一种主动配电网分布式优化方法、系统、设备及存储介质，在保留储能日前优化中追求的削峰填谷和提供可调节裕度作用的同时，充分发挥储能应对实时功率波动的快速调节能力。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种主动配电网分布式优化方法，包括：

以主动配电网运行数据为状态量，以可再生能源机组的有功功率、无功功率和储能有功功率为动作量，确定智能体动作量控制策略；

通过构建智能体动作量控制策略对应的全局值函数和全局状态动作值函数，得到全局优势函数，将全局优势函数分解为单智能体优势函数，以最小化单智能体优势函数为目标，构建用于更新智能体动作量控制策略的目标函数；

根据给定的智能体动作量控制策略得到训练样本集，基于此在设定的约束条件下对目标函数进行训练；

以最小化弃风弃光惩罚成本、网络损耗成本和实际储能电量与计划储能电量的电量偏差惩罚成本为分布式优化目标，根据实时状态量和分布式优化目标，采用训练后的目标函数，得到最优智能体动作量控制策略，以此控制主动配电网的运行。

作为可选择的实施方式，智能体动作量控制策略对应的全局值函数为将主动配电网所有状态量为输入，评价所有智能体合作控制的整体效果的函数；全局状态动作值函数为将主动配电网所有状态量和动作量为输入，评价所有智能体合作控制的整体效果的函数；全局优势函数为全局状态动作值函数与全局值函数的差，且根据多智能体优势函数之和为全局优势函数的形式对全局优势函数进行分解。

作为可选择的实施方式，用于更新智能体动作量控制策略的目标函数进行双重的动作分布修正；具体为：

其中，为目标函数的参数；为时段数；为以为参数的第k个智能体动作量控制策略；为第k个智能体的观测量；为第k个智能体的动作量；表示第1个智能体到第N个智能体动作量控制旧策略；表示第k个智能体动作量控制旧策略；表示第h个智能体动作量控制旧策略；表示第h个智能体动作量控制新策略；为第h个智能体在t时刻的观测量；为第h个智能体在t时刻的动作量；为t时刻的全局状态量；为t时刻的全局动作量；为旧策略下的全局优势函数。

作为可选择的实施方式，对目标函数进行训练的过程包括：构建拉格朗日函数，确定拉格朗日乘子；在给定拉格朗日乘子和智能体动作量控制策略的前提下构建辅助全局值函数；通过计算时间差分偏差，以最小化时间差分偏差为目标，对辅助全局值函数的参数进行更新，将得到的时间差分偏差作为全局优势函数的无偏估计，以此对目标函数的参数进行更新，最后对拉格朗日乘子进行更新。

作为可选择的实施方式，对辅助全局值函数的参数更新为：

式中，为第n次迭代的参数；为第n-1次迭代的参数；为参数的更新步长；M为周期总数；T为时段总数；为第n次迭代第m个周期t时段的时间差分偏差；为辅助全局值函数，为第n次迭代第m个周期t时段的全局状态量。

作为可选择的实施方式，对目标函数的参数更新为：

式中，为参数的更新步长；为第k个智能体第n次迭代第m个周期的参数，为第k个智能体第n次迭代第m-1个周期的参数；T为时段总数；为第n次迭代第k个智能体t时段的重要性采样率；是第n次迭代第m个周期第1个智能体到第k个智能体动作量控制策略概率分布的优势函数；为以为参数的第k个智能体动作量控制策略；和分别为第n次迭代第m个周期第k个智能体t时段的观测量和动作量；为以为参数的第k个智能体动作量控制策略；为第k个智能体第n次迭代初始周期的参数；为成本函数；为条件判断函数。

作为可选择的实施方式，对拉格朗日乘子的更新为：

式中，为拉格朗日乘子的更新步长；为第n次迭代的拉格朗日乘子；为第n-1次迭代的拉格朗日乘子；和分别为第n次迭代第m个周期t时段的全局状态量和全局动作量；M为周期总数，T为时段总数；为成本函数。

第二方面，本发明提供一种主动配电网分布式优化系统，包括：

控制策略定义模块，被配置为以主动配电网运行数据为状态量，以可再生能源机组的有功功率、无功功率和储能有功功率为动作量，确定智能体动作量控制策略；

策略更新目标确定模块，被配置为通过构建智能体动作量控制策略对应的全局值函数和全局状态动作值函数，得到全局优势函数，将全局优势函数分解为单智能体优势函数，以最小化单智能体优势函数为目标，构建用于更新智能体动作量控制策略的目标函数；

策略更新目标训练模块，被配置为根据给定的智能体动作量控制策略得到训练样本集，基于此在设定的约束条件下对目标函数进行训练；

动作控制模块，被配置为以最小化弃风弃光惩罚成本、网络损耗成本和实际储能电量与计划储能电量的电量偏差惩罚成本为分布式优化目标，根据实时状态量和分布式优化目标，采用训练后的目标函数，得到最优智能体动作量控制策略，以此控制主动配电网的运行。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提出一种主动配电网分布式优化方法，构建主动配电网日内实时有功无功协调的优化模型，通过追求优化周期末的储能电量与日前计划电量偏差最小实现日前运行的优化；在保留储能日前优化中追求的削峰填谷和提供可调节裕度作用的同时，充分发挥储能应对实时功率波动的快速调节能力。

本发明以无模型的方式实现主动配电网实时优化问题的分布式求解；利用多智能体强化学习集中训练、分散执行的架构，实现控制器以分散方式协调全局控制的效果，控制和训练过程的完全异步还使得算法免受任何区域间通信干扰的影响。

本发明在不需要值分解强假设，也不需要假设共享参数的前提下，提出一种改进的HAPPO（Heterogeneous-Agent Proximal Policy Optimisation，异质智能体近端策略优化）算法，以保证其对超参数的不敏感性，能够处理传统强化学习算法难以处理的系统运行约束。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的主动配电网分布式优化方法流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种主动配电网分布式优化方法，如图1所示，包括：

在本实施例中，主动配电网的日前优化和实时优化在两个时间尺度下相互协调，共同应对可再生能源的不确定性。其中，日前优化确定分组投切电容器组等不易频繁动作的慢动态设备的动作，并优化可再生能源和储能等设备的运行基点，通常认为日前优化能有效应对可再生能源出力的持续分量；实时优化则为了应对可再生能源出力的随机分量，以更短的日内优化周期修正日前优化决策的控制基点；本实施例将实时优化以5min为时间间隔，1h为调度周期，以实现与日前优化的衔接。

在本实施例中，计及可再生能源和储能等调度单元，给出主动配电网实时有功无功协调优化的分布式优化目标和约束条件。

（1）分布式优化目标

日前优化考虑一天24小时的决策时段间耦合，其决策的控制基点有着最优的经济性，因此，实时优化通常在满足运行约束的前提下，追求调整量最小。

在本实施例所提主动配电网实时优化问题中，控制的动作量包括可再生能源机组的有功功率、无功功率和储能有功功率；

其中，可再生能源机组的无功功率的时间惯性常数通常为秒级，可以认为其在小时级的日前调度和分钟级的实时调度中均不存在时段间耦合，因此无需对可再生能源机组的无功功率的调整量进行限制。

针对可再生能源机组的有功功率，以最小化弃风弃光惩罚成本为优化目标。

针对储能有功功率，为了在发挥储能日前优化中削峰填谷作用的同时，充分利用其快速调节能力以应对可再生能源波动，本实施例不限制储能在实时优化每个时间段的有功出力调整量，而是追求整个优化周期末的实际储能电量与日前优化的计划储能电量的电量偏差惩罚成本最小。

由此，分布式优化目标包括最小化网络损耗成本、弃风弃光惩罚成本和电量偏差惩罚成本，具体为：

(1)

(2)

(3)

(4)

式中：为时段数，本实施例取；为时段长度，本实施例取=5min；为节点的集合；为单位网损的费用；为单位弃风弃光惩罚费用；为单位储能电量偏差惩罚费用；为t时段的网损功率；为时段节点可再生能源机组的最大允许有功出力；为时段节点可再生能源机组的实际有功出力；为T时刻节点i的储能电量；为由日前优化确定的T时刻节点i的储能电量。

（2）约束条件包括：支路潮流约束、主动配电网安全运行约束、可再生能源运行约束、与上级电网交互功率约束和储能运行约束。

1）支路潮流约束：

本实施例借助支路潮流模型仿真产生深度学习算法所需的样本数据，基于欧姆定律和基尔霍夫电流定律，并假定主动配电网各相平衡，推导得到主动配电网的支路潮流模型为：

(5)

式中：表示所有与节点i有连接关系的节点中功率流向节点i的节点集合，则和分别为流向节点i的节点集合中t时刻支路ij的有功功率和无功功率；表示所有与节点j有连接关系的节点中功率流向节点j的节点集合；则、和分别为流向节点j的节点集合中t时刻支路ij的有功功率、无功功率和电流幅值；和分别为支路ij的电阻和电抗；为t时刻节点i的电压幅值；为t时刻节点j的电压幅值；和分别为t时刻节点j的有功功率和无功功率；为t时刻节点j的可再生能源无功功率；和为t时刻节点j的负荷有功和无功功率；为t时刻节点j的储能有功功率；为t时刻节点j的分组投切电容器组的无功功率。

2）安全运行约束包括节点电压约束和支路电流约束；

(6)

式中：为支路ij的集合；和分别为节点电压幅值的上限和下限；为支路ij的电流幅值上限。

3）可再生能源运行约束：

可再生能源机组无功出力考虑逆变器容量和功率因数两方面的限制；

(7)

式中：为节点i的可再生能源逆变器容量；为t时刻节点i的可再生能源出力功率因数；为t时刻节点i的可再生能源无功功率。

4）与上级电网交互功率约束：

(8)

式中：和分别为t时段上级电网向配电网输送有功功率的上限和下限；和分别为t时段上级电网向配电网输送的有功功率和无功功率；和分别为t时段上级电网向配电网输送无功功率的上限和下限。

5）储能运行约束：

(9)

(10)

(11)

式中：为t时刻节点i的储能电量；为t-1时刻节点i的储能电量；为t时刻节点i的储能有功功率；和分别为节点i的储能充电效率和放电效率；和分别为节点i的储能有功功率的上限和下限；和分别为节点i的储能电量的上限和下限。

在本实施例中，针对主动配电网实时优化问题，提出一种改进的HAPPO算法，在实现问题分布式求解的同时，保证系统运行约束得到满足。首先，将主动配电网分布式实时优化问题构建为考虑约束的马尔可夫博弈模型。其次，借助HAPPO算法实现了问题的分布式求解。然后，为了处理系统运行约束，构建拉格朗日函数，在迭代求解最优策略过程中同时优化拉格朗日乘子和各智能体策略。

（1）将主动配电网分布式优化模型构建为马尔可夫博弈模型；

本实施例所提主动配电网分布式实时优化问题属于合作型马尔可夫博弈问题，通常被建模为分散的部分可观测马尔可夫决策过程（Decentralized Partially ObservableMarkov Decision Processes, Dec-POMDP）。与单智能体强化学习不同，多智能体强化学习的分布式实现方式与采用的具体算法有关。因此，分散的部分可观测马尔可夫决策过程和相应值函数的定义方式由使用的算法决定。

本实施例基于改进的HAPPO算法，使用分散的部分可观测马尔可夫决策过程重构主动配电网分布式优化模型。同时，为处理电力系统安全运行约束，在分散的部分可观测马尔可夫决策过程中进一步加入成本函数，构成分散的部分可观测约束马尔可夫决策过程，并构建对应的值函数。

1）使用分散的部分可观测约束马尔可夫决策过程重构主动配电网分布式实时优化问题；

不考虑折扣因子的分散的部分可观测约束马尔可夫决策过程由智能体个数、智能体观测量集合、智能体动作量集合、状态转移概率、奖励函数和成本函数六元组构成：

(12)

1、智能体个数：

智能体个数取决于智能体的划分方式。本实施例采用分区的方式划分智能体，相比于将配电网的每一个节点都看作智能体，分区方式有着更好的可拓展性，并有效降低了分布式计算实现难度。

2、智能体观测量集合：

智能体观测量集合；其中，为第k个智能体的观测量，且全局状态量，全局状态量包括决策所需的全部信息，使马尔可夫性假设成立。

因此，对本实施例所提主动配电网分布式实时优化问题来讲，全局状态量包括辅助变量、日前优化基点和不确定量；

其中，实时优化问题中仅储能有功出力存在时段间耦合，因此引入储能电量作为辅助变量；可再生能源机组的日前计划最大允许有功出力虽并未在实时优化问题中直接使用，但通常认为其与时段内随机扰动幅值正相关，因此引入辅助变量中，用于限制泛化程度。

日前优化基点包括储能初始电量、储能调度周期末计划电量、分组投切电容器组无功出力、负荷有功功率和负荷无功功率；其中，作为储能电量初始值，可以直接并入辅助变量中。

不确定量选取可再生能源机组的最大允许有功出力。

由此，全局状态量为：

(13)

观测量由全局状态量划分至各个智能体：

(14)

式中：表示第个智能体内部节点的集合。

3、智能体动作量集合：

智能体动作量集合；其中，为第k个智能体的动作量，且全局动作量，为第1个智能体到第N个智能体的全局动作量；对每个智能体来讲，其控制对象仅包含本智能体的可控设备，因此，为：

(15)

与集中式的马尔可夫决策过程不同，基于分散的部分可观测约束马尔可夫决策过程的决策仅依赖于本地量测，并仅决定本智能体动作量，因此，将各智能体动作量控制策略构建为随机策略；

(16)

4、状态转移概率：

状态转移概率表示在策略的作用下，系统从状态转移到下一状态的概率，因强化学习的无模型求解方式，所以无需推导的具体表达。

5、奖励函数：

为了协调全局控制效果，本实施例所用奖励函数并非针对单个智能体，而是针对全局控制效果。因此，奖励函数与全局状态量和全局动作量相关。与单智能体强化学习相同，奖励函数通常是目标函数单时段的函数值：

(17)

其中，、、、和为总时段下的奖励函数值、全局状态量、全局动作量、最小化网络损耗成本和弃风弃光惩罚成本。

6、成本函数：

为了处理电力系统安全运行约束，额外加入成本函数，与奖励函数相同，成本函数针对全局控制效果，与全局状态量和全局动作量相关，构建成本函数：

(18)

式中，，为最大值函数。

2）构建相应的值函数

值函数在强化学习中用于平衡当前时段与未来时段的成本，并组织与结构化策略搜索。因为本实施例定义的奖励函数和成本函数均与全局状态量和全局动作量相关，因此，其相应的值函数和成本值函数也必然用于评估全局控制效果，以协调各智能体控制器。

给出给定的智能体动作量控制策略对应的全局值函数，并进一步给出其递归形式：

(19)

(20)

其中，为t+1时刻对应的全局值函数；全局值函数为将主动配电网所有智能体的状态量为输入，评价所有智能体合作控制的整体效果的函数。

其次，构建对于给定的各智能体动作量控制策略在运行约束下对应的全局成本值函数，并进一步给出其递归形式：

(21)

(22)

其中，为t+1时刻对应的全局成本值函数。

通过构建全局成本值函数，将运行约束转化为式（23），因为成本函数的非负性，可以等价认为节点电压约束得到满足；

(23)

由此，将本实施例所提主动配电网分布式实时优化问题转变为：

(24)

通过定义分散的部分可观测约束马尔可夫决策过程和相应值函数，将本实施例所提主动配电网分布式实时优化问题转变马尔可夫博弈。

在本实施例中，使用HAPPO算法实现主动配电网实时优化问题的分布式求解。HAPPO算法基于多智能体强化学习的集中训练、分散执行架构，通过提出优势函数分解引理并采用顺序更新方式保证了算法控制效果的单调不减性。本实施例首先介绍HAPPO算法采用的集中训练、分散执行架构形式；然后给出了优势函数分解引理；最后修正了智能体策略更新的目标函数。

1）HAPPO算法的集中训练、分散执行架构

多智能体强化学习的集中训练、分散执行架构有两种主流实现方式。以信用分配方式实现合作型博弈问题的分布式求解方法中，将全局目标函数分解为各智能体目标函数的加权和，并借助神经网络学习权重；其缺点在于失去了马尔可夫性，无法实现决策的时段间解耦。

本实施例使用的HAPPO算法属于通过评价者-动作者形式实现合作型博弈问题的分布式求解方法。该类算法使用全局值函数评价各个智能体策略的协调控制效果，并指导各个智能体的本地控制策略迭代更新。全局值函数通过获取全局信息，解决部分可观测引起的非稳态问题，并保留问题的马尔可夫性。全局值函数仅在算法训练期间用于辅助各智能体本地控制器策略迭代更新，同时仅算法训练期间需要通信。基于集中训练、分散执行架构的多智能体强化学习算法的控制和训练过程是完全异步的，这意味着任何通信干扰都不会影响控制过程。

2）优势函数分解引理

PPO（Proximal Policy Optimization，近端策略优化）算法将新策略的目标函数分解为旧策略的目标函数和改进项之和，通过追求改进项非正实现算法控制效果的单调不减。因此，PPO算法的优化目标为优势函数最小化，在保证改进项非正的同时，实现目标函数最速下降。但这一结论无法直接应用至多智能体强化学习领域。为此，HAPPO算法提出了优势函数分解引理，在不需要值分解强假设，也不需要假设共享参数的同时，推导证明了算法控制效果的单调不减性。

首先，定义相关的值函数形式。给出给定的各智能体控制策略对应的全局状态动作值函数定义，并进一步给出其递归形式；

(25)

(26)

(27)

其中，为t+1时刻对应的全局状态动作值函数；可以理解的，下标为t+1的均为t+1时刻对应的参量；全局状态动作值函数为将主动配电网所有智能体的状态量和动作量为输入，评价所有智能体合作控制的整体效果的函数。

由此，进一步给出全局优势函数：

(28)

上述全局状态动作值函数和全局优势函数的定义仍基于全局状态量和全局动作量。为了实现分布式计算的同时保留PPO算法控制效果的单调不减性，HAPPO算法提出了优势函数分解引理。

首先，定义多智能体状态动作值函数和多智能体优势函数为：

(29)

(30)

式中，为第1个智能体到第k个智能体的多智能体状态动作值函数；为第1个智能体到第k-1个智能体的多智能体状态动作值函数；分别为第1个智能体到第k个智能体、第k+1个智能体到第N个智能体的全局动作量；为第1个智能体到第k-1个智能体的全局动作量；为智能体k的多智能体优势函数。

通过与式(27)对比可以看出，式(29)为全局值函数和全局状态动作值函数的中间变量，即仅给定第1个智能体到第k个智能体的动作时的状态动作值函数。

然后，借助定义的多智能体优势函数，将全局优势函数分解为多智能体优势函数之和，如下：

(31)

式（31）即多智能体优势函数分解引理。注意当任意智能体k的多智能体优势函数均非正时，全局优势函数非正。通过这种分解方式，可以保证当每个智能体都以最小化自身的多智能体优势函数为目标时，全局策略控制效果的单调不减性。

因HAPPO算法采取集中训练、分散执行架构，因此优势函数仍与全局状态量相关联。同时，可以注意到多智能体优势函数不但与当前智能体决策相关，而且与相关。因此，多智能体优势函数的计算和对应的策略更新都是从智能体1到按顺序进行。

为了防止最终学习结果偏向某一智能体，每次迭代对智能体进行随机编号，即HAPPO算法采用随机顺序更新的方式更新智能体策略。

3）修正智能体策略更新的目标函数；

首先为各智能体分别构建以参数化的智能体动作量控制策略：

(32)

式中，表示以参数的第k个智能体动作量控制策略。

借助参数化的智能体动作量控制策略，给出各智能体迭代更新的目标函数如下：

(33)

式中，为第k个智能体的目标函数；表示第1个智能体到第k-1个智能体的动作量控制新策略；表示第1个智能体到第k个智能体动作量控制旧策略。可以注意到，，。

与单智能体PPO算法相比，HAPPO第k个智能体迭代更新的目标函数不仅与第k个智能体的目标策略有关，也与本次迭代过程中已更新的智能体1到k-1的新策略有关。因此，需要对目标函数进行双重的动作分布修正：

(34)

式中，表示第1个智能体到第N个智能体动作量控制旧策略；表示第k个智能体动作量控制旧策略；表示第h个智能体动作量控制旧策略；表示第h个智能体动作量控制新策略；为目标函数的参数；为以为参数的第k个智能体动作量控制策略；为第h个智能体在t时刻的观测量；为旧策略下的全局优势函数；为第k个智能体的目标策略的重要性采样率；为本次迭代过程中已更新的第1个智能体到第k-1个智能体的动作量控制策略的重要性采样率。

式(34)不仅完成了策略概率分布修正，同时将第k个智能体目标函数中的多智能体优势函数转换为了全局优势函数。因此，各智能体的策略更新都仅需借助单一的全局优势函数，而不需要为每个智能体单独构建多智能体优势函数。为简化后文公式推导，引入辅助函数：

(35)

(36)

式中，可以看作是修正了第1个智能体到第k-1个智能体策略概率分布的优势函数；为第k个智能体t时段策略的重要性采样率。

由此，将目标函数改写为：

(37)

进一步给出HAPPO算法的截断目标函数：

(38)

式中，为第k个智能体t时段的截断目标函数；表示重要性采样率被截断在的范围内；表示取和中数值较小的那个。

与单智能体PPO算法相同，当使用神经网络作为低维近似函数近似优势函数时，难以避免近似误差的引入，使得HAPPO算法策略控制效果的单调不减性无法严格成立。即便如此，当面对非凸优化时，HAPPO算法依然表现出了对超参数的不敏感性与优秀的收敛特性。

（3）电力系统安全运行约束的处理

本实施例采用DPO算法相同的约束处理技巧。通过构建拉格朗日函数将原问题松弛为不带约束的优化问题，并在迭代求解最优策略过程中同时优化拉格朗日乘子和各智能体策略。首先，构建拉格朗日函数及其对应的辅助值函数。然后推导出各参数更新方式。最后，给出约束处理方法成立的前提条件。

1）构建拉格朗日函数

使用拉格朗日松弛法将式(24)对应的优化问题转化为无约束问题，其对应的拉格朗日函数为：

(39)

式中，为拉格朗日乘子。

与单智能体强化学习的约束处理方式相同，为简化问题求解，构建拉格朗日函数对应的奖励函数和值函数；构建辅助奖励函数为：

(40)

在构建的辅助奖励函数基础上，进一步定义给定和各智能体实时优化策略前提下的辅助全局值函数：

(41)

(42)

其中，下标表示第个智能体的相关参量。

可直接构建用以计算全局优势函数的以参数的辅助全局值函数：

(43)

2）参数更新方式

式(39)的无约束优化问题所需更新的参数包括：辅助全局值函数参数、各智能体策略网络参数和拉格朗日乘子。以上参数全都使用梯度下降法更新，假设每次迭代采样个周期的样本。

首先，借助参数化的辅助全局值函数计算全局优势函数。本实施例使用时间差分偏差作为全局优势函数的无偏估计。

(44)

式中，为第n次迭代第m个周期t时段的时间差分偏差；为第n次迭代的拉格朗日乘子；和分别为第n次迭代第m个周期t时段的样本状态和动作量；为第n次迭代的参数；n-1表示第n-1次迭代，t+1表示t+1时段，不再赘述。

本实施例按顺序更新辅助全局值函数参数、各智能体策略参数和拉格朗日乘子，因此此处拉格朗日乘子取值为上一次迭代计算结果。借助式(44)定义的，可以将式(35)和式(36)改写为：

(45)

(46)

式中，和分别为第n次迭代第m个周期第k个智能体t时段的样本观测和动作量；为第n次迭代第k个智能体t时段的策略的重要性采样率。

与单智能体PPO算法相同，为了处理更新公式中存在的，引入结构与各智能体策略函数神经网络完全相同的辅助神经网络，将其参数记为。

为了方便算法迭代更新，进一步给出的递归形式如下：

(47)

其次，给出辅助全局值函数参数的更新方式。辅助全局值函数使用均方差量化误差，其更新目标函数为：

(48)

式中，为辅助全局值函数第n次迭代第m个周期t时段的目标函数。辅助全局值函数参数的更新目标为最小化时间差分偏差。

使用梯度下降法给出参数的更新方式如下：

(49)

式中，为第n次迭代的参数；为第n-1次迭代的参数；为辅助全局值函数参数的更新步长；M为周期总数，T为时段总数；为第n次迭代第m个周期t时段的时间差分偏差；为辅助全局值函数，为第n次迭代第m个周期t时段的全局状态量。

然后，给出各智能体策略参数的更新方式。

由式(37)和式(38)给出各智能体策略的目标函数和截断目标函数如下：

(50)

(51)

式中，为第n次迭代第m个周期t时段第k个智能体策略的目标函数；为第n次迭代第m个周期t时段第k个智能体策略的截断目标函数。

进一步可以给出目标函数关于智能体策略参数的梯度为：

(52)

智能体策略参数的更新方式为：

(53)

式中，为智能体策略参数的更新步长；当条件x成立时，=1，当条件x不成立时，=0，为条件判断函数，仅判断条件满足时才更新策略参数，以此达到限制策略更新幅度的目的；为第k个智能体第n次迭代第m个周期的参数，为第k个智能体第n次迭代第m-1个周期的参数；为第n次迭代第k个智能体t时段的重要性采样率；是第n次迭代第m个周期第1个智能体到第k个智能体动作量控制策略概率分布的优势函数；为以为参数的第k个智能体动作量控制策略；和分别为第n次迭代第m个周期第k个智能体t时段的样本观测和动作量；为以为参数的第k个智能体动作量控制策略；为第k个智能体第n次迭代初始周期的参数。

最后，给出拉格朗日乘子的更新方式。拉格朗日函数关于拉格朗日乘子的梯度和拉格朗日乘子的更新方式为：

(54)

(55)

式中，为拉格朗日乘子的更新步长；为第n次迭代的拉格朗日乘子；为第n-1次迭代的拉格朗日乘子。

为简化算法，本实施例依然使用样本的周期成本函数代替成本值函数初始数值，避免额外建立参数化的成本值函数。

3）约束处理方法有效的前提条件

当下面的三个假设成立时，更新控制策略和拉格朗日乘子的参数的迭代方法将保证收敛到局部最优和可行的解决方案。a）全局值函数对任意可行策略来讲都是有界的。b）任意全局成本值函数的局部最小值都是可行解。c）更新步长满足如下条件：

(56)

(57)

(58)

（4）训练与执行

所提算法以集中训练的方式训练各智能体策略函数网络。中央训练器需要能够获得全局信息，以协调各智能体控制器策略达到全局最优。训练过程为：

首先，为了减轻初始随机参数对算法收敛的影响，采用正交初始化的方式初始各智能体策略函数神经网络和辅助全局值函数神经网络的参数；同时初始化拉格朗日乘子和最大迭代次数。

在算法训练过程中，观察到如果不对拉格朗日乘子的变化范围进行限制，其数值会迅速上涨，即便在控制策略满足约束之后，拉格朗日乘子仍需要耗费相当多的迭代更新次数才能回落至0，因此，本实施例对拉格朗日乘子设置最大允许上限，以加快算法迭代更新速度。

其次，在外循环中，算法参数将被迭代更新次。在每次迭代过程的开始，各智能体控制器与仿真环境互动M个周期，并获得nm个样本经验，用于训练各智能体策略函数网络参数。

为了防止控制策略偏向某一智能体，每次迭代过程都会对所有智能体进行重新随机编号，以保证每次迭代都以随机顺序更新各智能体策略函数网络参数。结合本次迭代获得的所有样本经验和辅助全局值函数采用式（44）计算时间差分偏差，当做优势函数的无偏估计。

接下来，按顺序更新各智能体策略函数神经网络参数，辅助全局值函数神经网络参数和拉格朗日乘子；其中，采用式(49)更新辅助全局值函数网络参数，采用式(53)更新第k个智能体的策略函数网络参数，采用式(47)更新，采用式(55)更新拉格朗日乘子；需要借助双重内循环，在M个周期的样本中按顺序进行更新N个智能体的策略参数，同时，借助内循环更新，每次内循环迭代计算中乘上当前更新策略的重要性采样率。

最终，当算法迭代至收敛后，运行约束得到满足，拉格朗日乘子收敛于0。辅助全局值函数仅用于辅助训练过程，不再用于执行过程中；各智能体策略函数神经网络参数则被传输给各智能体控制器，获取本地量测信息后，智能体策略函数网络输出控制动作，用于本地控制各智能体分别执行控制动作。

分散执行过程中，本地控制器依赖下发的智能体策略函数神经网络参数，确定本地控制动作。其控制过程无需区域间通信，但却可以达到协调全局最优的效果。同时，本地量测信息可以存储起来，在中央训练器需要时上传，以进一步更新本地控制器参数。这一训练和控制过程是完全异步的，不会受到区域间通讯故障或者通信时延的影响。

实施例2

本实施例提供一种主动配电网分布式优化系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种主动配电网分布式优化方法，其特征在于，包括：

2.如权利要求1所述的一种主动配电网分布式优化方法，其特征在于，智能体动作量控制策略对应的全局值函数为将主动配电网所有状态量为输入，评价所有智能体合作控制的整体效果的函数；全局状态动作值函数为将主动配电网所有状态量和动作量为输入，评价所有智能体合作控制的整体效果的函数；全局优势函数为全局状态动作值函数与全局值函数的差，且根据多智能体优势函数之和为全局优势函数的形式对全局优势函数进行分解。

3.如权利要求1所述的一种主动配电网分布式优化方法，其特征在于，用于更新智能体动作量控制策略的目标函数进行双重的动作分布修正；具体为：

4.如权利要求1所述的一种主动配电网分布式优化方法，其特征在于，对目标函数进行训练的过程包括：构建拉格朗日函数，确定拉格朗日乘子；在给定拉格朗日乘子和智能体动作量控制策略的前提下构建辅助全局值函数；通过计算时间差分偏差，以最小化时间差分偏差为目标，对辅助全局值函数的参数进行更新，将得到的时间差分偏差作为全局优势函数的无偏估计，以此对目标函数的参数进行更新，最后对拉格朗日乘子进行更新。

5.如权利要求4所述的一种主动配电网分布式优化方法，其特征在于，对辅助全局值函数的参数更新为：

6.如权利要求4所述的一种主动配电网分布式优化方法，其特征在于，对目标函数的参数更新为：

7.如权利要求4所述的一种主动配电网分布式优化方法，其特征在于，对拉格朗日乘子的更新为：

8.一种主动配电网分布式优化系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。