CN112818588A

CN112818588A - 一种电力系统的最优潮流计算方法、装置及存储介质

Info

Publication number: CN112818588A
Application number: CN202110024016.6A
Authority: CN
Inventors: 甄鸿越; 马伟哲; 赵利刚; 翁毅选; 徐原; 史军; 江出阳; 齐晖; 洪潮; 林小朗; 翟鹤峰; 何晓峰
Original assignee: Shenzhen Power Supply Bureau Co Ltd; Research Institute of Southern Power Grid Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd; Research Institute of Southern Power Grid Co Ltd
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-05-18
Anticipated expiration: 2041-01-08
Also published as: CN112818588B

Abstract

本发明公开了一种电力系统的最优潮流计算方法，包括：S1：根据电力系统的节点参数和发电机参数，构建所述电力系统的最优潮流计算环境；S2：采用多智能体异步并行的深度强化学习算法，对所述最优潮流计算环境进行求解，获取不同负荷水平下的最优潮流结果。本发明还对应公开一种电力系统的最优潮流计算装置及存储介质。本发明实施例通过采用多智能体异步并行的深度强化学习算法求解电力系统的最优潮流问题，能够提高模型的泛化能力，同时提高了训练效率。

Description

一种电力系统的最优潮流计算方法、装置及存储介质

技术领域

本发明涉及电力系统自动化技术领域，尤其涉及一种电力系统的最优潮流计算方法、装置及存储介质。

背景技术

电力系统的最优潮流问题(Optimal Power Flow，OPF)是指在满足电力系统的各种物理约束下，调整电力系统的各种控制变量，使得设定的目标函数最小化的优化过程。具体而言，目标函数主要有总发电费用和全网网损等，控制变量主要有发电机出力、发电机端电压和变压器分接头等，约束主要有功率平衡约束、节点电压约束、发电机出力约束和线路潮流约束等。

最优潮流问题需要同时考虑电力系统运行的经济性和安全性，比传统的经济调度问题更有实际意义，在电力系统的安全运行和经济调度等方面有广泛应用。目前，针对最优潮流问题的经典算法，主要有线性规划法、简化梯度法、牛顿法、内点法和无限点优化法等，由于经典算法都是基于梯度的计算方法，在实际应用中有以下缺点：计算耗时长，无法实现在线计算；随着系统规模的增大，出现“维度灾难”；目标函数和约束必须连续可微，难以处理离散控制变量。

近年来，随着人工智能技术的不断成熟，最优潮流问题涌现出了一批智能算法。但是由于最优潮流的控制量均为连续量，在采用价值类算法求解时，易出现组合爆炸，在采用深度确定性策略梯度算法求解时，由于该算法是一类串行方法，会导致训练速度较慢。

发明内容

本发明实施例提供一种电力系统的最优潮流计算方法、装置及存储介质，通过采用多智能体异步并行的深度强化学习算法求解构建的最优潮流计算环境，能够解决现有技术中的组合爆炸问题，同时加快训练速度，提高最优潮流的求解效率，以适应在线应用场景。

本发明实施例提供一种电力系统的最优潮流计算方法，包括以下步骤：

S1：根据电力系统的节点参数和发电机参数，构建所述电力系统的最优潮流计算环境；

S2：采用多智能体异步并行的深度强化学习算法，对所述最优潮流计算环境进行求解，获取不同负荷水平下的最优潮流结果。

作为上述方案的改进，所述步骤S1具体为：

根据节点电压幅值、节点电压相角、发电机有功出力、发电机无功出力、负载有功功率和负载无功功率，构建状态空间，满足以下公式：

其中，V为节点电压幅值，

为节点电压相角，P_g为发电机有功出力，Q_g为发电机无功出力，P_l为负载有功功率，Q_l为负载无功功率；

根据发电机端电压和PV节点发电机的有功出力，构建动作空间；

u＝(V_g，P_gc)， (2)

其中，V_g为发电机端电压，P_gc为所有PV节点发电机的有功出力；

构建最小网损目标函数，满足以下公式：

min C(x，u)＝∑P_g-∑P_l， (3)

s.t.g(x，u)＝0， (4)

P_gmin≤P_g≤P_gmax， (5)

Q_gmin≤Q_g≤Q_gmax， (6)

V_min≤V≤V_max， (7)

其中，C表示网损目标函数，g表示电力系统潮流等式约束，V_min表示节点最小电压幅值，V_max表示节点最大电压幅值，Q_gmin表示发电机最小无功出力，Q_gmax表示发电机最大无功出力；

构建所述最优潮流计算环境的奖励函数，满足以下公式：

R＝-C-σN， (8)

其中，N表示当前结果违反不等式约束的个数，σ表示不等式约束的惩罚系数；

根据所述状态空间、所述动作空间和所述奖励构建电力系统的最优潮流计算环境。

作为上述方案的改进，所述步骤S2具体包括步骤S2-1～S2-6；

S2-1：构建全局智能体和至少一个局部智能体；其中，所述全局智能体包括全局策略网络和全局价值网络，所述局部智能体包括局部策略网络和局部价值网络；

S2-2：初始化全局智能体参数；其中所述全局智能体参数包括全局策略网络参数和全局价值网络参数；

S2-3：根据所述全局智能体参数更新局部智能体参数；其中，所述局部智能体参数包括局部策略网络参数和局部价值网络参数；

S2-4：在预设的负荷水平下从所述最优潮流计算环境随机采样获得初始状态x₀作为当前状态x_t，执行一轮训练，计算当轮训练的局部策略网络更新量和局部价值网络更新量，并分别根据所述局部策略网络更新量和局部价值网络更新量更新所述局部策略网络参数和局部价值网络参数，并将所述局部策略网络更新量和所述局部价值网络更新量存至更新量缓存器中；

S2-5：当训练轮数为第一预设值的正整数倍时，分别根据所述局部策略网络更新量和所述局部价值网络更新量更新全局策略网络参数和全局价值网络参数；当所述训练轮数不为所述第一预设值的正整数倍时，则回到步骤S2-4；

S2-6：当所述训练轮数不小于第二预设值时，则终止训练；当所述训练轮数小于所述第二预设值时，则回到步骤S2-3。

作为上述方案的改进，所述步骤S2-4具体包括步骤S2-4-1～S2-4-8；

S2-4-1：在预设的负荷水平下从所述状态空间中获得随机的初始状态x₀作为当前状态x_t；

S2-4-2：根据所述当前状态x_t，基于局部策略网络获得动作u_t；

S2-4-3：执行动作u_t，获得新状态x_t+1，并根据奖励函数给出奖励r_t+1；

S2-4-4：当所述奖励r_t+1满足控制终止条件时，则转至步骤S2-4-6，当所述奖励r_t+1不满足控制终止条件时，则将数据以向量(x_t，u_t，x_t+1，r_t+1)的形式存至控制序列缓存器；

S2-4-5：当控制次数小于预设阈值时，则回到步骤S2-4-2；当所述控制次数不小于预设阈值时，则转至步骤S2-4-6；

S2-4-6：根据所述控制序列缓存器中的数据计算得局部策略网络更新量和局部价值网络更新量，并将所述局部策略网络更新量和所述局部价值网络更新量存至更新量缓存器中；

S2-4-7：分别根据所述局部策略网络更新量和所述局部价值网络更新量更新所述局部策略网络参数和局部价值网络参数。

为实现上述目的，本发明实施例还提供一种电力系统的最优潮流计算装置，包括：

环境构建模块，用于执行步骤S1：根据电力系统的节点参数和发电机参数，构建所述电力系统的最优潮流计算环境；

最优潮流求解模块，用于执行步骤S2：采用多智能体异步并行的深度强化学习算法，对所述最优潮流计算环境进行求解，获取不同负荷水平下的最优潮流结果。

作为上述方案的改进，所述环境构建模块具体包括状态空间构建单元、动作空间构建单元、最小网损目标函数构建单元、奖励函数构建单元和环境构建单元；

所述状态空间构建单元，用于根据节点电压幅值、节点电压相角、发电机有功出力、发电机无功出力、负载有功功率和负载无功功率，构建状态空间，满足以下公式：

其中，V为节点电压幅值，

所述动作空间构建单元，用于根据发电机端电压和PV节点发电机的有功出力，构建动作空间，满足以下公式：

u＝(V_g，P_gc)， (2)

所述最小网损目标函数构建单元，用于构建最小网损目标函数，满足以下公式：

min C(x，u)＝∑P_g-∑P_l， (3)

s.t.g(x，u)＝0， (4)

P_gmin≤P_g≤P_gmax， (5)

Q_gmin≤Q_g≤Q_gmax， (6)

V_min≤V≤V_max， (7)

所述奖励函数构建单元，用于构建所述最优潮流计算环境的奖励函数，满足以下公式：

R＝-C-σN， (8)

所述环境构建单元，用于根据所述状态空间、所述动作空间和所述奖励构建电力系统的最优潮流计算环境。

作为上述方案的改进，所述最优潮流求解模块具体包括智能体构建单元、参数初始化单元、局部智能体参数更新单元、局部智能体更新量计算单元、全局智能体参数更新单元和训练终止判断单元；

所述智能体构建单元，用于执行步骤S2-1：构建全局智能体和至少一个局部智能体；其中，所述全局智能体包括全局策略网络和全局价值网络，所述局部智能体包括局部策略网络和局部价值网络；

所述参数初始化单元，用于执行步骤S2-2：初始化全局智能体参数；其中所述全局智能体参数包括全局策略网络参数和全局价值网络参数；

所述局部智能体参数更新单元，用于执行步骤S2-3：根据所述全局智能体参数更新局部智能体参数；其中，所述局部智能体参数包括局部策略网络参数和局部价值网络参数；

所述局部智能体更新量计算单元，用于执行步骤S2-4：在预设的负荷水平下从所述最优潮流计算环境随机采样获得初始状态x₀作为当前状态x_t，执行一轮训练，计算当轮训练的局部策略网络更新量和局部价值网络更新量，并分别根据所述局部策略网络更新量和局部价值网络更新量更新所述局部策略网络参数和局部价值网络参数，并将所述局部策略网络更新量和所述局部价值网络更新量存至更新量缓存器中；

所述全局智能体参数更新单元，用于执行步骤S2-5：当训练轮数为第一预设值的正整数倍时，分别根据所述局部策略网络更新量和所述局部价值网络更新量更新全局策略网络参数和全局价值网络参数；当所述训练轮数不为所述第一预设值的正整数倍时，则回到步骤S2-4；

所述训练终止判断单元，用于执行步骤S2-6：当所述训练轮数不小于第二预设值，则终止训练；当所述训练轮数小于所述第二预设值时，则回到步骤S2-3。

作为上述方案的改进，所述局部智能体更新量计算单元具体包括初始状态获取子单元、动作获取子单元、状态更新子单元、缓存子单元、阈值判断子单元、局部智能体更新量计算子单元和局部智能体更新子单元；

所述初始状态获取子单元，用于执行步骤S2-4-1：在预设的负荷水平下从所述状态空间中获得随机的初始状态x₀作为当前状态x_t；

所述动作获取子单元，用于执行步骤S2-4-2：根据所述当前状态x_t，基于局部策略网络获得动作u_t；

所述状态更新子单元，用于执行步骤S2-4-3：执行动作u_t，获得新状态x_t+1，并根据奖励函数给出奖励r_t+1；

所述缓存子单元，用于执行步骤S2-4-4：当所述奖励r_t+1满足控制终止条件时，则转至步骤S2-4-6，当所述奖励r_t+1不满足控制终止条件时，则将数据以向量(x_t，u_t，x_t+1，r_t+1)的形式存至控制序列缓存；

所述阈值判断子单元，用于执行步骤S2-4-5：当控制次数小于预设阈值时，则回到步骤S2-4-2；当所述控制次数不小于预设阈值时，则转至步骤S2-4-6；

所述局部智能体更新量计算子单元，用于执行步骤S2-4-6：根据所述控制序列缓存器中的数据计算得局部策略网络更新量和局部价值网络更新量，并将所述局部策略网络更新量和所述局部价值网络更新量存至更新量缓存器中；

所述局部智能体更新子单元，用于执行步骤S2-4-7：分别根据所述局部策略网络更新量和所述局部价值网络更新量更新所述局部策略网络参数和局部价值网络参数。

为实现上述目的，本发明实施例还提供了一种电力系统的最优潮流计算装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的电力系统的最优潮流计算方法。

为实现上述目的，本发明实施例还提供一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如上述任一实施例所述的电力系统的最优潮流计算方法。

与现有技术相比，本发明实施例公开的电力系统的最优潮流计算方法、装置及存储介质，根据电力系统的节点参数和发电机参数，构建所述电力系统的最优潮流计算环境，采用多智能体异步并行的深度强化学习算法，对所述最优潮流计算环境进行求解，获取不同负荷水平下的最优潮流结果。通过构建电力系统的最优潮流计算环境，采用多智能体异步并行的深度强化学习算法求解最优潮流计算环境，增强了所得模型的泛化能力，能够处理连续动作空间的问题；局部智能体仅负责特定负荷水平的最优潮流问题，多个智能体相互配合，提高了算法采样的合理性；采用了异步并行的计算结构，提高了训练效率。

附图说明

图1是本发明实施例提供的一种电力系统的最优潮流计算方法的流程示意图；

图2是本发明实施例提供的一种电力系统的最优潮流计算装置的局部流程图；

图3是本发明实施例提供的一种IEEE9节点测试系统的拓扑结构示意图；

图4是本发明实施例提供的一种电力系统的最优潮流计算装置的结构示意图；

图5本发明实施例提供的一种环境构建模块的结构示意图；

图6是本发明实施例提供的一种最优潮流求解模块的结构示意图；

图7本发明实施例提供的一种局部智能体更新量计算单元的结构示意图；

图8是本发明实施例提供的另一种电力系统的最优潮流计算装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种电力系统的最优潮流计算方法的流程示意图，包括：

其中，所述节点参数包括节点电压幅值、节点电压相角、负荷有功功率和负荷无功功率；所述发电机参数包括发电机有功出力、发电机无功出力、发电机端电压和PV节点发电机的有功出力。

具体地，所述步骤S1具体为：

其中，V为节点电压幅值，

u＝(V_g，P_gc)， (2)

构建最小网损目标函数，满足以下公式：

min C(x，u)＝∑P_g-∑P_l， (3)

s.t.g(x，u)＝0， (4)

P_gmin≤P_g≤P_gmax， (5)

Q_gmin≤Q_g≤Q_gmax， (6)

V_min≤V≤V_max， (7)

构建所述最优潮流计算环境的奖励函数，满足以下公式：

R＝-C-σN， (8)

具体地，所述步骤S2具体包括步骤为S2-1～S2-6：

示例性的，构建一个全局智能体和N_A个局部智能体；其中，全局智能体包括全局策略网络和全局价值网络，每个局部智能体都包括一个局部策略网络和一个局部价值网络。值得说明的是，每个智能体由两个深度神经网络构成，分别是策略网络和价值网络。其中，策略网络的输入为状态，输出为动作选取的期望μ和方差σ，构成正态分布N(μ，σ²)，从中采样即可得到当次的动作；价值网络的输入同样为状态，输出为动作价值。

S2-2：初始化全局智能体参数；其中所述全局智能体参数包括全局策略网络参数和全局价值网络参数。

S2-3：根据所述全局智能体参数更新局部智能体参数；其中，所述局部智能体参数包括局部策略网络参数和局部价值网络参数。

值得说明的是，所述局部策略网络更新量和所述局部价值网络更新量并不仅限于存至一个更新量缓存器，还可将局部策略网络更新量存储在策略网络更新量缓存器，将局部价值网络更新量存储在价值网络更新量缓存器中，具体的存储方式可根据实际情况而定。

值得说明的是，全局智能体用于综合各个局部智能体的计算结果；每个局部智能体被分配一个计算核心，仅负责特定负荷水平的最优潮流求解，即每个局部智能体只负责完整状态空间中特定子集的计算，实现了并行计算。

进一步地，在步骤S-5中的所述当训练轮数为第一预设值的正整数倍时，分别根据所述局部策略网络更新量和所述局部价值网络更新量更新全局策略网络参数和全局价值网络参数之后，清除所述更新量缓存器中的数据；

示例性的，预先设置局部智能体训练轮数上限为E_max，每进行T轮局部智能体训练则更新一次全局智能体参数，E_max是T的整数倍；当局部智能体训练轮数epoch能被T整除时，分别根据所述局部策略网络更新量和所述局部价值网络更新量更新全局策略网络参数和全局价值网络参数，否则回到步骤S2-4，再次训练局部智能体。

示例性的，当局部智能体的训练轮数大于或等于局部智能体训练轮数上限E_max时，则终止训练，否则回到步骤S2-3。

值得说明的是，上述步骤S2-1～S2-6的过程可参见图2，图2是本发明实施例提供的一种电力系统的最优潮流计算方法的局部流程图。

进一步地，所述步骤S2-4具体包括S2-4-1～S2-4-7：

S2-4-1：在预设的负荷水平下从所述状态空间中获得随机的初始状态x₀作为当前状态x_t。

进一步地，所述步骤S2-4-2具体为：将当前状态x_t输入局部策略网络，获得局部策略网络的输出，从所述局部策略网络的输出中采样获得当次动作u_t。

S2-4-3：执行动作u_t，获得新状态x_t+1，并根据奖励函数给出奖励r_t+1。

示例性的，将所述奖励与上一奖励作差得到奖励变化量，当奖励变化量在预设的范围内，则转至步骤S2-4-6，当奖励变化量不在预设的范围内，则将数据以向量(x_t，u_t，x_t+1，r_t+1)的形式存至控制序列缓存；进一步地，设置预设的范围为零，即当奖励不再增加时，转至步骤S2-4-6，否则将数据以向量(x_t，u_t，x_t+1，r_t+1)的形式存至控制序列缓存器；

值得说明的是，第一次控制得到的奖励为第一个奖励，不存在上一奖励，此时直接将数据以向量(x_t，u_t，x_t+1，r_t+1)的形式存至控制序列缓存器。

S2-4-5：当控制次数t小于预设阈值N_C时，则回到步骤S2-4-2；当所述控制次数不小于预设阈值时，则转至步骤S2-4-6；

当控制次数t小于控制次数上限N_C时，则回到步骤S2-4-2，进行下一次控制，否则，转到步骤S2-4-6。

值得说明的是，一次控制也就是单个动作的上限不超过动作空间范围的K％，可根据预设需求进行设计，如单次控制不超过其可调范围的10％。每轮控制次数上限为N_C，满足0.5×N_C×K％＝1.0，如20。

S2-4-6：根据所述控制序列缓存器中的数据计算得局部策略网络更新量和局部价值网络更新量，并将所述局部策略网络更新量和所述局部价值网络更新量存至更新量缓存器中。

进一步地，在步骤S2-4-6后，当计算得局部策略网络更新量和局部价值网络更新量后，清除所述控制序列缓存器中的数据。

进一步地，所述步骤S2-4-6具体包括S2-4-6-1～S2-4-6-4：

S2-4-6-1、分别根据所述控制序列缓存中的各个状态计算对应的动作价值；

具体地，对于最终状态x_end，通过全局价值网络计算得到对应的动作价值Q_end，对于其他状态，对应的动作价值满足公式：

Q_t＝r_t+γQ_t+1 (9)，

其中，γ为衰减因子，取值范围为[0，1]；值得说明的是，γ的取值可根据实际情况而定。

S2-4-6-2、根据所述控制序列缓存中的数据计算局部策略网络和局部价值网络的损失函数，满足以下公式：

Loss_v＝(Q_t-V(x_t))²， (12)

其中，Entropy_t为策略的正态分布熵；Loss_π表示局部策略网络的损失函数；Loss_v表示局部价值网络的损失函数；P(u＝u_t)表示当前策略u～N(μ_t，σ_t ²)下，采取动作u_t的概率；c为熵系数。

S2-4-6-3、分别根据局部策略网络的损失函数和局部价值网络的损失函数计算局部策略网络更新量和局部价值网络更新量，满足以下公式：

其中，Δθ_t表示局部策略网络更新量，Δω_t表示局部价值网络更新量。

S2-4-6-4、分别根据局部策略网络更新量和局部价值网络更新量更新局部策略网络参数和局部价值网络参数，满足以下公式：

其中，θ_i′表示更新后的局部策略网络参数，ω_i′表示更新后的局部价值网络参数，θ_i表示更新前的局部策略网络参数，ω_i表示更新前的局部价值网络参数，α_i表示局部策略网络的学习率，β_i表示局部价值网络的学习率。

进一步地，步骤S2-5中当训练轮数满足第一预设条件时，分别根据所述局部策略网络更新量和所述局部价值网络更新量更新全局策略网络参数和全局价值网络参数，可以为：

预先设置局部智能体训练轮数上限为E_max，当训练轮数为T的整数倍时，更新全局智能体参数，E_max是T的整数倍；当局部智能体训练轮数能被T整除时，分别根据所述更新量缓存器中的所述局部策略网络更新量和所述局部价值网络更新量更新全局策略网络参数和全局价值网络参数，满足以下公式：

θ＝θ-α∑Δθ_t， (17)

ω＝ω-β∑Δω_t， (18)

其中，∑Δθ_t、∑Δω_t为T轮训练中每一轮训练的所有局部智能体各控制步所得更新量的累加；α和β分别为全局智能体策略网络和价值网络的学习率。

为了更好地说明所述方法的有效性和优越性，取一次具体的例子进行说明。

选取标准的IEEE9节点系统进行测试，参见图3，图3为本发明提供的IEEE9节点测试系统的拓扑结构示意图，即为所述方法的应用场景，该系统中包含9个节点、3台发电机(2台PV节点，1台slack节点)和3个负载，其中，BUS1～BUS9是节点，G1～G3是发电机，L1～L3是负荷，T1～T3是变压器。选取某地连续7天共672组负荷数据作为测试数据。

选取7个负荷水平，在1×10^-7的收敛精度下，使用2.50GHz CPU以及16GB RAM的系统配置进行训练，收敛时间及网损见表1：

从表1中选取负荷水平为0.7的收敛过程作为代表。接着，对预先准备好的672点负荷数据进行测试，并与MATPOWER的网损结果进行对比，深度强化学习算法的A3C算法和MATPOWER的网损与耗时见表2：

	A3C	MATPOWER
			平均网损(MW)	2.11	1.93
平均耗时(s)	0.0029	0.0395

由表2可得，在672个测例中，两者的吻合度达到了99.01％，虽然A3C算法的平均网损比MATPOWER高0.18MW，但是A3C算法计算速度比MATPOWER快12倍以上，由此可知，本发明采用A3C算法对最优潮流问题进行求解，进一步提高了智能体探索解空间的效率，训练速度加快。

参见图4，图4是本发明实施例提供的一种电力系统的最优潮流计算装置的结构示意图。所述装置包括：

环境构建模块11，用于执行步骤S1：根据电力系统的节点参数和发电机参数，构建所述电力系统的最优潮流计算环境；

最优潮流求解模块12，用于执行步骤S2：采用多智能体异步并行的深度强化学习算法，对所述最优潮流计算环境进行求解，获取不同负荷水平下的最优潮流结果。

进一步地，参见图5，图5本发明实施例提供的一种环境构建模块的结构示意图。

所述环境构建模块11具体包括状态空间构建单元110、动作空间构建单元111、最小网损目标函数构建单元112、奖励函数构建单元113和环境构建单元114；

所述状态空间构建单元110，用于根据节点电压幅值、节点电压相角、发电机有功出力、发电机无功出力、负载有功功率和负载无功功率，构建状态空间，满足以下公式：

其中，V为节点电压幅值，

所述动作空间构建单元111，用于根据发电机端电压和PV节点发电机的有功出力，构建动作空间，满足以下公式：

u＝(V_g，P_gc)， (2)

所述最小网损目标函数构建单元112，用于构建最小网损目标函数，满足以下公式：

min C(x，u)＝∑P_g-∑P_l， (3)

s.t.g(x，u)＝0， (4)

P_gmin≤P_g≤P_gmax， (5)

Q_gmin≤Q_g≤Q_gmax， (6)

V_min≤V≤V_max， (7)

所述奖励函数构建单元113，用于构建所述最优潮流计算环境的奖励函数，满足以下公式：

R＝-C-σN， (8)

所述环境构建单元114，用于根据所述状态空间、所述动作空间和所述奖励构建电力系统的最优潮流计算环境。

进一步地，参见图6，图6是本发明实施例提供的一种最优潮流求解模块的结构示意图。

所述最优潮流求解模块12具体包括智能体构建单元120、参数初始化单元121、局部智能体参数更新单元122、局部智能体更新量计算单元123、全局智能体参数更新单元124和训练终止判断单元125；

所述智能体构建单元120，用于执行步骤S2-1：构建全局智能体和至少一个局部智能体；其中，所述全局智能体包括全局策略网络和全局价值网络，所述局部智能体包括局部策略网络和局部价值网络；

所述参数初始化单元121，用于执行步骤S2-2：初始化全局智能体参数；其中所述全局智能体参数包括全局策略网络参数和全局价值网络参数；

所述局部智能体参数更新单元122，用于执行步骤S2-3：根据所述全局智能体参数更新局部智能体参数；其中，所述局部智能体参数包括局部策略网络参数和局部价值网络参数；

所述局部智能体更新量计算单元123，用于执行步骤S2-4：在预设的负荷水平下从所述最优潮流计算环境随机采样获得初始状态x₀作为当前状态x_t，执行一轮训练，计算当轮训练的局部策略网络更新量和局部价值网络更新量，并分别根据所述局部策略网络更新量和局部价值网络更新量更新所述局部策略网络参数和局部价值网络参数，并将所述局部策略网络更新量和所述局部价值网络更新量存至更新量缓存器中；

所述全局智能体参数更新单元124，用于执行步骤S2-5：当训练轮数为第一预设值的正整数倍时，分别根据所述局部策略网络更新量和所述局部价值网络更新量更新全局策略网络参数和全局价值网络参数；当所述训练轮数不为所述第一预设值的正整数倍时，则回到步骤S2-4；

所述训练终止判断单元125，用于执行步骤S2-6：当所述训练轮数不小于第二预设值时，则终止训练；当所述训练轮数小于所述第二预设值时，则回到步骤S2-3。

进一步地，参见图7，图7是本发明实施例提供的一种局部智能体更新量计算单元的结构示意图。

所述局部智能体更新量计算单元123具体包括初始状态获取子单元1230、动作获取子单元1231、状态更新子单元1232、缓存子单元1233、阈值判断子单元1234、局部智能体更新量计算子单元1235和局部智能体更新子单元1236；

所述初始状态获取子单元1230，用于执行步骤S2-4-1：在预设的负荷水平下从所述状态空间中获得随机的初始状态x₀作为当前状态x_t；

所述动作获取子单元1231，用于执行步骤S2-4-2：根据所述当前状态x_t，基于局部策略网络获得动作u_t；

所述状态更新子单元1232，用于执行步骤S2-4-3：执行动作u_t，获得新状态x_t+1，并根据奖励函数给出奖励r_t+1；

所述缓存子单元1233，用于执行步骤S2-4-4：当所述奖励r′_t满足控制终止条件时，则转至步骤S2-4-6，当所述奖励r_t+1不满足控制终止条件时，则将数据以向量(x_t，u_t，x_t+1，r_t+1)的形式存至控制序列缓存；

所述阈值判断子单元1234，用于执行步骤S2-4-5：当控制次数小于预设阈值时，则回到步骤S2-4-2；当所述控制次数不小于预设阈值时，则转至步骤S2-4-6；

所述局部智能体更新量计算子单元1235，用于执行步骤S2-4-6：根据所述控制序列缓存器中的数据计算得局部策略网络更新量和局部价值网络更新量，并将所述局部策略网络更新量和所述局部价值网络更新量存至更新量缓存器中；

所述局部智能体更新子单元1236，用于执行步骤S2-4-7：分别根据所述局部策略网络更新量和所述局部价值网络更新量更新所述局部策略网络参数和局部价值网络参数。

各个模块、单元和子单元的具体工作过程可参考上述实施例所述的电力系统的最优潮流计算方法的工作过程，在此不再赘述。

参见图8，图8是本发明实施例提供的另一种电力系统的最优潮流计算装置的结构示意图。所述电力系统的最优潮流计算装置，包括处理器31、存储器32以及存储在所述存储器32中且被配置为由所述处理器31执行的计算机程序，所述处理器31执行所述计算机程序时实现如上述实施例所述的电力系统的最优潮流计算方法。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器32中，并由所述处理器31执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电力系统的最优潮流计算装置中的执行过程。

所述电力系统的最优潮流装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电力系统的最优潮流装置可包括，但不仅限于，处理器31、存储器32。本领域技术人员可以理解，所述示意图仅仅是电力系统的最优潮流装置的示例，并不构成对电力系统的最优潮流装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电力系统的最优潮流装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器31是所述电力系统的最优潮流装置的控制中心，利用各种接口和线路连接整个电力系统的最优潮流装置的各个部分。

所述存储器32可用于存储所述计算机程序和/或模块，所述处理器31通过运行或执行存储在所述存储器32内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述电力系统的最优潮流装置的各种功能。所述存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述电力系统的最优潮流装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种电力系统的最优潮流计算方法，其特征在于，包括以下步骤：

2.如权利要求1所述的电力系统的最优潮流计算方法，其特征在于，所述步骤S1具体为：

其中，V为节点电压幅值，

u＝(V_g，P_gc)，(2)

构建最小网损目标函数，满足以下公式：

min C(x，u)＝∑P_g-∑P_l，(3)

s.t.g(x，u)＝0，(4)

P_gmmin≤P_g≤P_gmax，(5)

Q_gmin≤Q_g≤Q_gmax，(6)

V_min≤V≤V_max，(7)

其中，C表示网损目标函数，g(x，u)＝0表示电力系统潮流等式约束条件，V_min表示节点最小电压幅值，V_max表示节点最大电压幅值，Q_gmin表示发电机最小无功出力，Q_gmax表示发电机最大无功出力；

构建所述最优潮流计算环境的奖励函数，满足以下公式：

R＝-C-σN，(8)

3.如权利要求2所述的电力系统的最优潮流计算方法，其特征在于，所述步骤S2具体为：

4.如权利要求3所述的电力系统的最优潮流计算方法，其特征在于，所述步骤S2-4具体为：

S2-4-2：根据所述当前状态x_t，基于局部策略网络获得动作ut；

S2-4-3：执行动作ut，获得新状态x_t+1，并根据奖励函数给出奖励r_t+1；

5.一种电力系统的最优潮流计算装置，其特征在于，包括：

6.如权利要求5所述的电力系统的最优潮流计算装置，其特征在于，所述环境构建模块具体包括状态空间构建单元、动作空间构建单元、最小网损目标函数构建单元、奖励函数构建单元和环境构建单元；

其中，V为节点电压幅值，

u＝(V_g，P_gc)，(2)

min C(x，u)＝∑P_g-∑P_l，(3)

s.t.g(x，u)＝0，(4)

P_gmin≤P_g≤P_gmax，(5)Q_gmin≤Q_g≤Q_gmax，(6)

V_min≤V≤V_max，(7)其中，C表示网损目标函数，g表示电力系统潮流等式约束，V_min表示节点最小电压幅值，V_max表示节点最大电压幅值，Q_gmin表示发电机最小无功出力，Q_gmax表示发电机最大无功出力；

R＝-C-σN，(8)

7.如权利要求6所述的电力系统的最优潮流计算装置，其特征在于，所述最优潮流求解模块具体包括智能体构建单元、参数初始化单元、局部智能体参数更新单元、局部智能体更新量计算单元、全局智能体参数更新单元和训练终止判断单元；

8.如权利要求7所述的电力系统的最优潮流计算装置，其特征在于，所述局部智能体更新量计算单元具体包括初始状态获取子单元、动作获取子单元、状态更新子单元、缓存子单元、阈值判断子单元、局部智能体更新量计算子单元、和局部智能体更新子单元；

所述动作获取子单元，用于执行步骤S2-4-2：根据所述当前状态x_t，基于局部策略网络获得动作ut；

9.一种电力系统的最优潮流计算装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的电力系统的最优潮流计算方法。

10.一种存储介质，其特征在于，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至4中任意一项所述的电力系统的最优潮流计算方法。