CN116562464B

CN116562464B - 一种基于深度强化学习的电力系统低碳优化调度方法

Info

Publication number: CN116562464B
Application number: CN202310800208.0A
Authority: CN
Inventors: 陈赟康; 全苏川; 王举; 周星宇
Original assignee: Nanjing Jingling Information Technology Co ltd
Current assignee: Nanjing Jingling Information Technology Co ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-09-19
Anticipated expiration: 2043-07-03
Also published as: CN116562464A

Abstract

本发明公开了一种基于深度强化学习的电力系统低碳优化调度方法，包括以下步骤：步骤S1：设计电力系统碳流损耗追踪方法，计算全网碳流损耗；步骤S2：构建电力系统最优碳流问题模型；步骤S3：搭建电力系统最优碳流问题强化学习环境、深度神经网络智能体以及智能体的状态空间与动作空间，将电力系统最优碳流问题转化为马尔可夫决策过程；步骤S4：训练基于PPO算法的深度神经网络智能体并得到最优策略后，将深度神经网络智能体构建为电力系统最优碳流问题求解器，实现电力系统低碳优化调度。本发明解决了电力系统最优碳流问题求解困难的问题，借助智能体进行训练，提高了问题求解的速度和效率，为实时调度和长期规划提供了有力支持。

Description

一种基于深度强化学习的电力系统低碳优化调度方法

技术领域

本发明涉及电网优化调度技术领域，具体涉及一种基于深度强化学习的电力系统低碳优化调度方法。

背景技术

在全球变暖问题和化石能源逐渐枯竭的压力下，电力系统必须寻求低碳化的运行和发展方式。在电能的生产侧和消费侧，都已经有了可再生能源替代、分布式资源聚合优化等方式降低电能在生产和消费过程中的碳排放，如何在电能的传输环节降低电力系统的碳排放量却较为被忽视。电力系统碳排放流分析理论为解决此类问题提供了途径，进而结合传统的电力系统最优潮流问题模型，并增加以最小化电能传输过程由网损造成的碳排放为目标，构建出电力系统多目标最优碳流问题，求解该问题能够有效地减少电能传输环节中不必要的碳排放，即碳流损耗。

电力系统多目标最优碳流问题是一个复杂的非凸非线性规划问题，传统优化算法难以在线性时间内得到可行解，启发式智能优化算法也需要大量迭代才能求得可行解。随着越来越多的新能源并网，电力系统的发电侧和用电侧都将开始呈现出越来越强的不确定波动特性。如果仍然在较长时间尺度下，使用预测值作为最优碳流模型的输入，所得到的求解结果就有可能与真实情况存在较大的偏差，传统优化算法和启发式智能优化算法也远无法胜任最优碳流问题的实时求解。

发明内容

为克服现有技术的不足，本发明提出一种基于深度强化学习的电力系统低碳优化调度方法，该方法能够构建多目标电力系统最优碳流问题的深度强化学习求解框架，实现电力系统实时低碳优化调度。

为实现上述目的，本发明专利的目的可以通过以下技术方案实现：

一种基于深度强化学习的电力系统低碳优化调度方法，包括以下步骤：

步骤S1：设计电力系统碳流损耗追踪方法，计算全网碳流损耗；

步骤S2：构建电力系统最优碳流问题模型；

步骤S3：搭建电力系统最优碳流问题强化学习环境、深度神经网络智能体以及智能体的状态空间与动作空间，将电力系统最优碳流问题转化为马尔可夫决策过程；

步骤S4：训练基于PPO算法的深度神经网络智能体并得到最优策略后，将深度神经网络智能体构建为电力系统最优碳流问题求解器，实现电力系统低碳优化调度。

进一步地，步骤S1具体为：

步骤S1具体为：

步骤S11：使用基于矩阵计算的方法计算全网各节点的节点碳排放强度；具体如下：

计算全网各节点的节点碳势，即维数为的节点碳排放强度列向量/>公式如下：

；

式中，为维数为/>的节点碳排放强度列向量；/>为大小为/>的节点有功通量矩阵（对角阵）；/>为大小为/>的支路潮流分布矩阵；/>为大小为/>的机组注入功率分布矩阵；/>为维数为/>的机组碳排放强度列向量；

步骤S12：利用有功潮流追踪方法，实现逆流追踪与顺流追踪相结合的网络无损等效；电力系统功率平衡方程如下形式：

；

其中，为等效网损网络中各节点的有功通量向量；/>为节点接收的发电机有功出力；/>为逆流分布矩阵，/>为逆流分布矩阵中第/>行第/>列的元素，表示连接节点/>和节点/>输电线上的功率占节点/>有功通量中比例的相反数，/>为系统中所有节点构成的集合，对于/>有：

；

其中，为节点/>的上游节点集合；/>为节点/>的有功通量；/>为经由节点和节点/>之间支路流出节点/>的功率；

由于网损相对较小，则可假设从节点负荷在节点有功通量中的占比在等效前后不变，则有：

；

其中，、/>分别为等效前和等效后节点/>处的负荷；/>、/>分别为等效前和等效后节点/>的有功通量；

则通过逆流追踪等效到各负荷节点的网损为：

；

其中：为由元素/>构成的等效后节点负荷向量，/>为由元素构成的等效前节点负荷向量；

步骤S13：通过逆流追踪等效到各负荷节点的网损；

步骤S14：通过顺流追踪法，将网损等效到发电机；

步骤S15：设置分摊比例参数，将总网损中的部分分摊到发电侧，将部分分摊到负荷侧；

步骤S16：引入机组-节点关联矩阵，将负荷侧的等效网损经由有功功率传输的路径与发电机组联系起来；

步骤S17：计算系统中的总碳流损耗。

进一步地，步骤S2具体为：

步骤S21：确定优化目标，最小化发电成本和总碳流损耗；

步骤S22：添加发电机组出力上下限约束，限制发电机组的有功出力和无功出力在允许的范围内；

步骤S23：添加节点电压约束，限制各节点电压在允许的范围内；

步骤S24：添加线路容量约束，限制各线路的传输功率在允许的范围内；

步骤S25：添加系统功率平衡约束，确保系统中的有功和无功功率平衡。

进一步地，步骤S3中，搭建电力系统最优碳流问题强化学习环境与智能体的状态空间与动作空间，引入以下变量：

；

其中，为智能体从环境中感知到的当前状态；/>为智能体在当前策略下执行的动作；/>为智能体执行在状态/>下执行动作/>后从环境中获得的立即奖励值；

智能体从环境中感知的状态包括当前电力系统的潮流分布情况，即节点负荷、发电机出力、发电机端电压和节点导纳矩阵，智能体的状态空间为：

；

其中，为系统中/>个节点的有功负荷；/>为系统中/>个节点的无功负荷；/>为系统节点导纳矩阵的幅值；/>为系统节点导纳矩阵的相角；/>为系统中/>台发电机的有功出力；/>为系统中/>台发电机的端电压；

利用计算机潮流求解算法，求解系统中的有功潮流分布，为智能体提供、/>、/>、/>、/>和/>的观测值；

智能体的动作即为对电力系统的调度操作，智能体的动作空间为：

；

其中，为智能体对/>台发电机有功出力的调整值；为智能体对/>台发电机端电压的调整值；

当智能体执行当前策略下的动作后，电力系统状态将发生改变，环境将根据当前状态/>、/>以及下一状态/>反馈给智能体以立即奖励值/>，/>由发电机发电成本与系统中的碳流损耗构成，系统碳流损耗通过步骤S1计算。

进一步地，还包括；

构建策略网络，将当前状态作为输入，通过卷积层上采样提取特征，使用全连接层构建隐藏层和输出层；

处理连续动作空间，将策略网络输出构建为两组高斯分布的均值和方差，使其适用于连续动作空间；

构建价值网络，将当前状态作为输入，输出动作的价值估计。结构与策略网络相似，但输出层为一个标量值。

进一步地，步骤S4具体为：

计算新旧策略下的目标函数之间的差距，并引入优势函数。优势函数通过广义优势估计（GAE）计算，其中包含广义优势估计超参数；

采用旧策略的状态分布并引入重要性采样处理动作分布，优化目标定义为最小化新旧策略间的差距，求解新策略；

使用截断函数限制新旧策略之间的KL散度，以保证新旧策略足够接近，同时避免求解复杂的带约束问题；

通过PPO算法，智能体在与环境互动的过程中获得奖励，并根据奖励的大小不断改进策略，以求获取更大的累计回报值，智能体与环境的互动过程将持续到达到终止状态；

引入Replay Buffer保存当前轮次智能体与环境互动过程中的数据，提高数据样本的利用率，当Replay Buffer中的数据量达到一定值时，计算策略网络与价值网络的损失函数进行反向传播，以更新网络参数，并在下一个互动轮次开始时清空上一个互动轮次的数据；

计算策略网络的损失函数，其中包括正则项系数和当前策略的熵。

进一步地，智能体能够根据当前系统的状态做出最优决策，电力系统最优碳流求解器将由最优智能体构成，接收当前系统状态，无需通过高斯分布采样，直接输出均值和/>，对发电机有功出力和端电压进行调整。

与现有技术相比，本发明的有益效果为：

1.本发明提供了一种基于深度强化学习的电力系统低碳优化调度方法，提高了最优碳流问题求解的速度和效率。

2.本发明提供了一种基于深度强化学习的电力系统低碳优化调度方法，减少电能传输过程中的碳流损耗，实现电力系统低碳优化调度，有助于降低碳排放。

3.本发明提供了一种基于深度强化学习的电力系统低碳优化调度方法，智能体具有较强的自适应性，能够根据电力系统的实际运行情况执行最优决策，提高系统调度的灵活性和准确性。

4.本发明提供了一种基于深度强化学习的电力系统低碳优化调度方法，利用深度学习技术，智能体能够不断学习和优化策略，提高求解精度，满足复杂电力系统调度的场景。

5.本发明提供了一种基于深度强化学习的电力系统低碳优化调度方法，通过策略网络，能够逼近当前问题的最优策略，具有较高的决策质量和智能水平，能够根据电力系统不同运行状态调整最优策略，具有较高的稳定性和可靠性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程示意图；

图2为本发明的基于强化学习的电力系统实时低碳优化调度求解器框架；

图3为本发明的深度强化学习智能体训练过程。

实施方式

下面结合附图对本发明作进一步的详细说明，以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本发明。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

如图1所示，一种基于深度强化学习的电力系统实时低碳优化调度方法，包括以下步骤：

步骤S1：设计电力系统碳流损耗追踪方法，计算全网碳流损耗（基于电力系统碳排放流分析理论，结合基于有功潮流追踪的网损双向分摊方法）；

步骤S2：构建电力系统最优碳流问题模型，即以满足系统安全约束为前提，在降低发电成本的同时，减小碳流损耗；

步骤S4：训练基于Proximal Policy Optimization（近端策略优化，简称PPO）算法的深度神经网络智能体并得到最优策略后，将深度神经网络智能体构建为电力系统最优碳流问题求解器，实现电力系统低碳优化调度。

采用基于矩阵计算的电力系统碳排放流计算方法，已知节点数为、发电机数为的电力系统全网功率潮流分布、全网拓扑结构、发电机组碳排放强度时，可按照下式计算全网各节点的节点碳势，即维数为/>的节点碳排放强度列向量/>：

；

式中，为大小为/>的节点有功通量矩阵（对角阵），其对角元为节点/>的有功通量大小；/>为大小为/>的支路潮流分布矩阵，若大小为/>的有功潮流经由从/>到/>节点的支路流过，则/>，/>，若有功潮流从节点/>流向节点/>，则/>，/>，其余情况/>；为大小为/>的机组注入功率分布矩阵，若第/>台发电机接入节点/>且注入功率为/>，则/>；/>为维数为/>的机组碳排放强度列向量，其元素/>表示第/>台发电机的碳排放强度。为避免系统中存在孤立节点，造成奇异矩阵的出现，在碳流计算伊始就需将其排除在外。

利用有功潮流追踪方法，实现逆流追踪与顺流追踪相结合的网络无损等效，电力系统功率平衡方程可以写成如下形式：

；

其中，为等效网损网络中各节点的有功通量向量；/>为节点接收的发电机有功出力；/>为逆流分布矩阵，/>为系统中所有节点构成的集合，对于/>有：

；

其中，为逆流分布矩阵中第/>行第/>列的元素，表示连接节点/>和节点/>输电线上的功率占节点/>有功通量中比例的相反数，/>为节点/>的上游节点集合；/>为节点/>的有功通量；/>为经由节点/>和节点/>之间支路流入节点/>的功率。

；

则通过逆流追踪等效到各负荷节点的网损为：

；

通过顺流追踪法，将网损等效到发电机的过程类似，引入顺流分布矩阵：

；

其中，为顺流分布矩阵中第/>行第/>列的元素，表示连接节点/>和节点/>输电线上的功率占节点/>有功通量中比例的相反数，/>为节点/>的下游节点集合；为顺流追踪下的等效后节点有功通量向量；/>为经由节点/>和节点/>之间支路流入节点/>的功率；

进而可以得到：

；

其中，为接入节点/>的发电机有功出力，/>为等效后接入节点/>的发电机有功出力。由此，通过顺流追踪法等效到发电节点的网损/>为：

；

其中，为由元素/>构成的列向量，/>为由元素/>构成的列向量。

显然，系统中的总网损有：

；

设置分摊比例参数，将总网损中的/>部分分摊到发电侧，将/>部分分摊到负荷侧，分摊后等效到发电节点的网损/>和分摊后等效到负荷节点的网损可以表示为：

；

结合碳排放流分布特性，追踪输电线路上的碳流损耗，引入机组-节点关联矩阵，将负荷侧的等效网损经由有功功率传输的路径与发电机组联系起来，机组-节点关联矩阵可以由下式计算：

；

其中，机组-节点关联矩阵大小为/>。将其中的元素使用所在列元素的和归一化之后，矩阵/>中的元素/>代表着第/>台发电机对节点/>上负荷的有功贡献百分比。进一步，追踪到各发电机的负荷侧等效网损可以由下式计算得到：

；

其中，为大小为/>的矩阵，其中的元素/>表示节点/>分摊的网损中来自第/>台发电机的部分。对该矩阵的每一行进行求和，得到/>维列向量/>，向量中的元素/>表示所有与机组/>有关的节点所分摊到的网损中由机/>贡献的有功功率。

系统中的总碳流损耗可以由下式计算：

；

在电力系统最优潮流问题模型的基础上，构建电力系统最优碳流问题。电力系统最优碳流问题模型为：

；

其中，表示所有发电机组的发电成本；/>为该系统中的总碳流损耗；/>表示发电机组/>的有功出力；/>、/>分别表示其允许出力最小值与最大值；/>是由系统中所有发电机所构成的集合；/>表示发电机组j的无功出力，/>、/>分别表示·其允许出力的最小值和最大值；/>表示节点/>的节点电压；/>、/>分别表示其节点电压允许最小值与最大值；/>是由系统中所有节点所构成的集合；/>表示线路/>的传输功率；/>表示其允许最大传输功率；/>是由系统中所有线路构成的集合；/>、、/>、/>分别为节点/>处的发电机有功、无功出力以及有功、无功负荷；/>表示与节点/>相连的节点集合；/>、/>表示实部与虚部；/>表示节点/>与节点/>之间的导纳。

为将电力系统最优碳流问题描述为马可夫决策过程，引入以下变量：

；

其中，为智能体从环境中感知到的当前状态；/>为智能体在当前策略下执行的动作；/>为智能体执行在状态/>下执行动作/>后从环境中获得的立即奖励值。

智能体从环境中感知的状态主要包括当前电力系统的潮流分布情况，即节点负荷、发电机出力、发电机端电压和节点导纳矩阵。因此，智能体的状态空间为：

；

其中，为系统中/>个节点的有功负荷；/>为系统中/>个节点的无功负荷；/>为系统节点导纳矩阵的幅值；/>为系统节点导纳矩阵的相角；/>为系统中/>台发电机的有功出力；/>为系统中/>台发电机的端电压。利用现有的计算机潮流求解算法，如牛顿拉夫逊法、PQ分解法等，求解系统中的有功潮流分布，为智能体提供上述变量的观测值。

智能体的动作即为对电力系统的调度操作，本发明拟通过改变发电机有功出力与发电机端电压改变系统中的碳流分布。因此智能体的动作空间为：

；

其中，为智能体对/>台发电机有功出力的调整值；为智能体对/>台发电机端电压的调整值。

当智能体执行当前策略下的动作后，电力系统状态将发生改变。环境将根据当前状态/>、/>以及下一状态/>反馈给智能体以立即奖励值/>。/>由发电机发电成本与系统中的碳流损耗构成，系统碳流损耗通过步骤1计算。

策略网络的输入为当前状态，输出为动作/>。首先利用卷积层做上采样提取状态中的特征，利用全连接层构建隐藏层和输出层。由于智能体的动作空间中包含连续变量，因此将策略网络的输出构建为两组高斯分布的均值/>和/>，并将方差参数化为可训练的参数/>、/>。由此，智能体在训练过程中，策略网络所输出的动作将根据这两组高斯分布随机采样出具体的动作值。

价值网络的输入为当前状态，输出为基于当前状态判断的智能体所采取动作的价值估计。除输出层为输出一个单一标量值，其余结构与策略网络完全相同。

基于PPO算法训练步骤3中所构建的智能体。为使策略最优，定义步骤3中的策略网络为参数的函数/>，该函数的输入为状态，输出为采取某动作的概率分布。

PPO算法的目标函数即使策略的价值/>最大：

；

其中，为目标函数，/>为折扣系数；/>为回报函数，/>为策略/>下的价值函数，/>、/>分别为对角标变量的期望函数。

新旧策略下的目标函数之间的差距由下式计算：

；

引入优势函数：：

优势函数通过广义优势估计计算：

；

其中，为广义优势估计超参数。

因此，只需要找到一个策略，使得

，/>

为变量服从特定分布期望的函数，就可以保证策略的性能单调递增。由于新的策略既是未知量，同时也需要利用新的策略来做采样，因此直接求解该式非常困难。于是，如果忽略两个策略之间的状态访问分布变化，直接采用旧策略的状态分布，并引入重要性采样处理动作分布，优化目标则可以定义为：

；

其中，重要性采样为，/>和/>为条件概率函数。

为了保证新旧策略之间足够接近，并避免求解复杂的带约束问题，在PPO算法中使用了截断的方式对新旧策略之间的KL散度进行限制，最终优化目标可以写成：

；

其中，截断函数能够将变量/>限制在之内；/>为调节截断范围的超参数；

基于PPO算法，智能体在与环境互动的过程中获得奖励，并根据奖励的大小不断改进策略以求获取更大的累计回报值。在这个过程中，令初始状态为，是环境根据系统拓扑结构随机生成且满足安全约束条件。智能体从环境中感知到系统/>时刻状态/>，并按照策略给出动作/>对当前的状态进行改变，得到状态/>。在这个过程中，环境还会向智能体反馈智能体在状态/>下采取动作/>的立即回报/>以及是否到达终止状态的信号。智能体与环境不断交互的过程将一直持续，直到处于终止状态。

通过引入Replay Buffer保存当前轮次智能体与环境互动过程中的数据，仍然可以提高智能体与环境互动数据样本的利用率。在Replay Buffer中的数据量达到一定值时计算策略网络与价值网络的损失函数进行反向传播，以更新网络参数，并在下一个互动轮次开始时清空上一个互动轮次的数据。

策略网络的损失函数为：

；

其中，为正则项系数；/>为当前策略的熵，通过下式计算：

；/>

经过训练，策略网络能够逼近当前问题的最优策略，即智能体能够根据当前系统的状态做出最优决策。电力系统最优碳流求解器将由最优智能体构成，接收当前系统状态，无需通过高斯分布采样，而是直接输出均值和/>，对发电机有功出力和端电压进行调整，进而实现电力系统的低碳优化调度。

上述具体实施方式仅仅对本发明的优选实施方式进行描述，而并非对本发明的保护范围进行限定。在不脱离本发明设计构思和精神范畴的前提下，本领域的普通技术人员根据本发明所提供的文字描述、附图对本发明的技术方案所作出的各种变形、替代和改进，均应属于本发明的保护范畴。本发明的保护范围由权利要求确定。

Claims

1.一种基于深度强化学习的电力系统低碳优化调度方法，其特征在于，包括以下步骤：

步骤S2：构建电力系统最优碳流问题模型；

步骤S3：搭建电力系统最优碳流问题强化学习环境、深度神经网络智能体以及智能体的状态空间与动作空间，将电力系统最优碳流问题转化为马尔可夫决策过程，具体如下：引入以下变量：

；

其中，为系统中/>个节点的有功负荷；/>为系统中/>个节点的无功负荷；/>为系统节点导纳矩阵的幅值；/>为系统节点导纳矩阵的相角；为系统中/>台发电机的有功出力；/>为系统中/>台发电机的端电压；

利用计算机潮流求解算法，求解系统中的有功潮流分布，为智能体提供、、/>、/>、/>和/>的观测值；

；

其中，为智能体对/>台发电机有功出力的调整值；/>为智能体对/>台发电机端电压的调整值；

当智能体执行当前策略下的动作后，电力系统状态将发生改变，环境将根据当前状态/>、/>以及下一状态/>反馈给智能体以立即奖励值/>，/>由发电机发电成本与系统中的碳流损耗构成，系统碳流损耗通过步骤S1计算；

2.根据权利要求1所述的一种基于深度强化学习的电力系统低碳优化调度方法，其特征在于，步骤S1具体为：

步骤S11：使用基于矩阵计算的方法计算全网各节点的节点碳排放强度，具体如下：

；

式中为大小为/>的节点有功通量矩阵；/>为大小为/>的支路潮流分布矩阵；/>为大小为/>的机组注入功率分布矩阵；/>为维数为/>的机组碳排放强度列向量；

；

其中，为等效网损网络中各节点的有功通量向量；/>为节点接收的发电机有功出力；/>为逆流分布矩阵，/>为逆流分布矩阵中第 />行第 />列的元素，表示连接节点/>和节点/>输电线上的功率占节点/>有功通量中比例的相反数，/>为系统中所有节点构成的集合，对于/>有：

；

其中，为节点/>的上游节点集合；/>为节点/>的有功通量；/>为经由节点/>和节点/>之间支路流出节点/>的功率；

；

则通过逆流追踪等效到各负荷节点的网损为：

；

步骤S13：通过逆流追踪等效到各负荷节点的网损；

步骤S14：通过顺流追踪法，将网损等效到发电机；

步骤S15：设置分摊比例参数，将总网损中部分分摊到发电侧、部分分摊到负荷侧；

步骤S17：计算系统中的总碳流损耗。

3.根据权利要求1所述的一种基于深度强化学习的电力系统低碳优化调度方法，其特征在于，步骤S2具体为：

步骤S21：确定优化目标，最小化发电成本和总碳流损耗；

4.根据权利要求1所述的一种基于深度强化学习的电力系统低碳优化调度方法，其特征在于，还包括；

构建价值网络，将当前状态作为输入，输出动作的价值估计，结构与策略网络相似，但输出层为一个标量值。

5.根据权利要求1所述的一种基于深度强化学习的电力系统低碳优化调度方法，其特征在于，步骤S4具体为：

计算新旧策略下的目标函数之间的差距，并引入优势函数，优势函数通过广义优势估计计算，其中包含广义优势估计超参数；

使用截断函数限制新旧策略之间的KL散度；

引入Replay Buffer保存当前轮次智能体与环境互动过程中的数据，计算策略网络与价值网络的损失函数进行反向传播，以更新网络参数，并在下一个互动轮次开始时清空上一个互动轮次的数据；

6.根据权利要求1所述的一种基于深度强化学习的电力系统低碳优化调度方法，其特征在于，智能体根据当前系统的状态做出最优决策，电力系统最优碳流求解器由最优智能体构成，接收当前系统状态，无需通过高斯分布采样，直接输出均值和/>，对发电机有功出力和端电压进行调整。