CN117748513A

CN117748513A - 一种基于ddpg算法的电网调度方法、装置和计算机设备

Info

Publication number: CN117748513A
Application number: CN202311645249.3A
Authority: CN
Inventors: 刘金生; 陈择栖; 程维杰; 刘雪飞; 宋东阔; 郑晓辉; 周招鹤; 张超; 刘振兴; 翁毅选; 卢艺; 何晓峰
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-22

Abstract

本申请涉及一种基于DDPG算法的电网调度方法、装置、计算机设备和存储介质。所述方法包括：获取设备的有功功率；获取最小化运行成本目标函数和最大化新能源消纳目标函数；获取约束条件集合；策略网络根据对应的状态生成对应的动作，双价值网络根据状态和动作生成对应的回报期望值；基于更新后的策略网络和双价值网络，生成最大的回报期望值并将对应动作作为目标动作，以调整设备的有功功率。基于此，根据DDPG算法对应的双价值网络，提高算法的收敛和决策能力，从而高效地、准确地确定针对最小化运行成本目标函数和最大化新能源消纳目标函数在约束条件集合下的最优求解结果，进而高效地针对运行成本最小化和新能源消纳最大化进行电网调度。

Description

一种基于DDPG算法的电网调度方法、装置和计算机设备

技术领域

本申请涉及电网调度技术领域，特别是涉及一种基于DDPG算法的电网调度方法、装置、计算机设备和存储介质。

背景技术

在传统技术中，新能源的发电状况易受气象条件影响，可能会导致所产生的电力具有较大的波动性，从而难于预测和调整电力的产生量，因此，在电力系统中，通常同时采用新能源和传统能源进行发电。

然而，传统技术中并没有基于运行成本和新能源消纳这两个维度对电网的调度进行优化，从而难以同时实现最小化运行成本和最大化新能源消纳的电网调度。

发明内容

基于此，有必要针对上述技术问题，提供一种能够高效地、同步地针对运行成本最小化和新能源消纳最大化进行电网调度的基于DDPG算法的电网调度方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种基于DDPG算法的电网调度方法，包括：

分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；

获取最小化运行成本目标函数和最大化新能源消纳目标函数；其中所述最小化运行成本目标函数是用于表征新能源机组、火电机组、负荷的综合最小化运行成本的函数，所述最大化新能源消纳目标函数是用于表征新能源机组的最大化新能源消纳的函数；

获取约束条件集合，所述约束条件集合包括新能源机组、火电机组、平衡机组分别对应的有功功率约束条件，以及火电机组对应的爬坡速率约束条件；

基于DDPG算法对应的策略网络，根据所述新能源机组、火电机组、负荷分别对应的状态生成对应的动作，基于DDPG算法对应的双价值网络，根据所述状态和所述动作生成对应的回报期望值，基于所述回报期望值的差异更新所述双价值网络并得到目标回报期望值，基于所述目标回报期望值更新所述策略网络；

基于更新后的策略网络和更新后的双价值网络，生成最大的回报期望值，将所述最大的回报期望值对应的动作作为目标动作；其中所述目标动作是指针对所述最小化运行成本目标函数和所述最大化新能源消纳目标函数在所述约束条件集合下的最优求解结果；

基于所述目标动作，将新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

在其中一个实施例中，所述分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间，包括：获取时间间隔相同的不同采集时刻，依序将不同采集时刻作为目标采集时刻，获取所述目标采集时刻对应的新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；所述基于所述目标动作，将新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整，包括：基于所述目标动作，将所述目标采集时刻对应的新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

在其中一个实施例中，所述分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间之前，还包括：获取所述新能源机组、火电机组和负荷的当前运维状态；其中所述运维状态是指运行状况、健康状态和性能表现；基于双重Q网络计算在给定运维状态下选择不同动作分别对应的回报期望值；将每一回报期望值分别转换为在给定运维状态下选择不同动作的概率，基于每一动作对应的概率，确定最优策略；其中所述最优策略是指在给定运维状态下选择对应于最优回报期望值的动作；基于所述最优策略更新所述新能源机组、火电机组和负荷的运维状态。

在其中一个实施例中，所述获取最小化运行成本目标函数和最大化新能源消纳目标函数，包括：基于每一目标机组对应的成本系数，得到对应的第一参数，基于启停成本值和每一目标机组对应的启停指示值，得到对应的第二参数，基于所述第一参数、所述第二参数、每一目标机组对应的变量有功功率确定所述最小化运行成本目标函数；其中所述目标机组包括新能源机组和火电机组；基于每一新能源机组对应的最大有功功率和变量有功功率，确定所述最大化新能源消纳目标函数。

在其中一个实施例中，所述获取约束条件集合，包括：基于新能源机组、火电机组、平衡机组分别对应的最小有功功率和最大有功功率，分别确定新能源机组、火电机组、平衡机组对应的有功功率约束条件；基于火电机组对应的最小爬坡速率和最大爬坡效率，确定火电机组对应的爬坡速率约束条件。

在其中一个实施例中，所述基于DDPG算法对应的策略网络，根据所述新能源机组、火电机组、负荷分别对应的状态生成对应的动作之前，还包括：基于目标机组的变量有功功率的变化量和负荷的变量有功功率的变化量之间的差异，确定第一规则引导函数；其中所述第一规则引导函数是用于表征衡量发电功率和负荷功率之间的平衡偏离程度的函数，其中目标机组包括新能源机组、火电机组和平衡机组；基于火电机组的变量爬坡速率和变量有功功率中的最小值，确定火电机组的最大上调量，基于所述最大上调量确定第二规则引导函数；其中所述第二规则引导函数是用于表征针对电网调度过程中的不确定性所考虑的备用量的函数；基于所述第一规则引导函数和所述第二规则引导函数，确定奖励信号，基于所述奖励信号，更新所述策略网络。

在其中一个实施例中，所述分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间，包括：通过统一通信规约分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；其中所述统一通信规约是指针对不同新能源机组、火电机组、负荷的数据交互所制定的通信标准。

第二方面，本申请还提供了一种基于DDPG算法的电网调度装置，包括：

第一获取模块，用于分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；

第二获取模块，用于获取最小化运行成本目标函数和最大化新能源消纳目标函数；其中所述最小化运行成本目标函数是用于表征新能源机组、火电机组、负荷的综合最小化运行成本的函数，所述最大化新能源消纳目标函数是用于表征新能源机组的最大化新能源消纳的函数；

第三获取模块，用于获取约束条件集合，所述约束条件集合包括新能源机组、火电机组、平衡机组分别对应的有功功率约束条件，以及火电机组对应的爬坡速率约束条件；

第一计算模块，用于基于DDPG算法对应的策略网络，根据所述新能源机组、火电机组、负荷分别对应的状态生成对应的动作，基于DDPG算法对应的双价值网络，根据所述状态和所述动作生成对应的回报期望值，基于所述回报期望值的差异更新所述双价值网络并得到目标回报期望值，基于所述目标回报期望值更新所述策略网络；

第二计算模块，用于基于更新后的策略网络和更新后的双价值网络，生成最大的回报期望值，将所述最大的回报期望值对应的动作作为目标动作；其中所述目标动作是指针对所述最小化运行成本目标函数和所述最大化新能源消纳目标函数在所述约束条件集合下的最优求解结果；

调整模块，用于基于所述目标动作，将新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于DDPG算法的电网调度方法、装置、计算机设备、存储介质和计算机程序产品，基于DDPG算法对应的策略网络，根据发电机组和负荷对应的状态生成对应的动作，基于DDPG算法对应的双价值网络，根据状态和动作生成对应的回报期望值，基于回报期望值的差异更新双价值网络并得到目标回报期望值，基于目标回报期望值更新策略网络；基于更新后的策略网络和更新后的双价值网络，生成最大的回报期望值，该最大的回报期望值对应的动作作为目标动作；基于该目标动作，对应地调整发电机组和负荷的有功功率。基于此，根据DDPG算法对应的双价值网络，提高算法的收敛能力和决策能力，从而在DDPG算法中高效地、准确地确定针对最小化运行成本目标函数和最大化新能源消纳目标函数在约束条件集合下的最优求解结果，进而高效地、同步地针对运行成本最小化和新能源消纳最大化进行电网调度。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中基于DDPG算法的电网调度方法的流程示意图；

图2为一个实施例中更新电力设备运维状态的流程示意图；

图3为一个实施例中确定规则引导函数的流程示意图；

图4为一个实施例中DDPG算法的结构框图；

图5为一个实施例中基于DDPG算法的电网调度装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于DDPG算法的电网调度方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤S102至步骤S112，其中：

步骤S102，分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间。

其中，新能源机组是指利用太阳能、风能、生物能等可再生能源进行发电的发电机组，火电机组是指利用燃煤、燃气、燃油等化石燃料进行发电的发电机组，负荷是指电力消耗设备，有功功率是指发电机组实际产生的功率或电力消耗设备实际消耗的功率。

其中，有功功率的调控区间是指有功功率所对应的可调节范围；可基于设备的标准规格，例如标准额定功率、最大额定功率等参数，确定调控区间；还可基于设备的实际运行状况，例如平均功率等参数，确定调控区间。

步骤S104，获取最小化运行成本目标函数和最大化新能源消纳目标函数；其中最小化运行成本目标函数是用于表征新能源机组、火电机组、负荷的综合最小化运行成本的函数，最大化新能源消纳目标函数是用于表征新能源机组的最大化新能源消纳的函数。

其中，最小化运行成本目标函数所对应的目标在于通过调整发电机组和负荷的有功功率，使得发电机组和负荷的综合运行成本达到最小化，即是针对发电成本和负荷需求进行综合考量的。

其中，最大化新能源消纳目标函数所对应的目标在于通过调整新能源机组的有功功率，使得新能源机组的新能源消纳达到最大化，即是针对新能源的发电、传输、存储、利用而进行考量的。

步骤S106，获取约束条件集合，约束条件集合包括新能源机组、火电机组、平衡机组分别对应的有功功率约束条件，以及火电机组对应的爬坡速率约束条件。

其中，平衡机组是指用于调节发电功率以维持电力系统的功率平衡的发电机组，即用于维持电能的产生与电能的消耗之间的平衡关系。

其中，有功功率约束条件是指针对有功功率的大小所制定的限制条件，各机组对应的有功功率需满足对应的有功功率约束条件。

其中，爬坡速率是指火电机组从一个时刻到另一时刻所对应的功率变化速率。爬坡速率约束条件是指针对爬坡速率的大小所制定的限制条件，火电机组对应的爬坡速率需满足对应的爬坡速率约束条件。

步骤S108，基于DDPG算法对应的策略网络，根据新能源机组、火电机组、负荷分别对应的状态生成对应的动作，基于DDPG算法对应的双价值网络，根据状态和动作生成对应的回报期望值，基于回报期望值的差异更新双价值网络并得到目标回报期望值，基于目标回报期望值更新策略网络。

其中，DDPG算法(Deep Deterministic Policy Gradient，深度确定性策略梯度算法)是指一种深度学习算法，应用于连续动作空间的决策问题；策略网络是用于表征在给定状态下选择动作的策略的神经网络；双价值网络是用于表征根据在给定状态下选择动作的策略所获取的回报期望值的神经网络。

其中，回报期望值是指在给定状态下，采取特定动作所获得的累积奖励的期望值，即用于表征针对采取特定动作在长期内能够获取的累积奖励的估计。

示例性地，基于DDPG算法对应的策略网络，根据新能源机组、火电机组、负荷的有功功率水平分别对应的状态生成对应的动作，基于DDPG算法对应的双价值网络，根据该状态和该动作生成两个回报期望值，基于该两个回报期望值的差异更新双价值网络的参数，并基于该两个回报期望值得到目标回报期望值，基于该目标回报期望值更新策略网络的参数。

可选地，双价值网络是指输入相同、网络架构相同，但初始化参数不同的两个神经网络，两个神经网络分别在给定状态下的执行相同动作以生成不同的回报期望值。可将两个回报期望值中的最小值作为目标回报期望值，以减少所估计价值的方差，避免过高地估计动作的价值；也可将两个回报期望值的平均值作为目标回报期望值，以提高估计精度，减小单个估计可能引入的过估计偏差。

可选地，基于该两个回报期望值的差异更新双价值网络的参数，其目标在于使得所输出的两个回报期望值之间的差异最小化，例如，可设定一个损失函数，用于衡量两个回报期望值之间的差异，根据梯度下降算法，调整双价值网络的参数，最终使得损失函数最小化，即在两个回报期望值之间的差异最小化的方向上调整参数。

可选地，基于该目标回报期望值更新策略网络的参数，其目标在于使得所输出的目标回报期望值最大化，即在给定状态下，更有可能地选择能够带来更高回报期望值的动作，例如，可设定一个损失函数，用于衡量回报期望值的大小，根据梯度上升算法，调整策略网络的参数，最终使得损失函数最大化，即在回报期望值最大化的方向上调整参数。

步骤S110，基于更新后的策略网络和更新后的双价值网络，生成最大的回报期望值，将最大的回报期望值对应的动作作为目标动作；其中目标动作是指针对最小化运行成本目标函数和最大化新能源消纳目标函数在约束条件集合下的最优求解结果。

示例性地，更新后的策略网络根据给定的状态重新生成对应的动作，更新后的双价值网络根据该状态和该动作重新生成对应的回报期望值和目标回报期望值，基于重新生成的回报期望值和目标回报期望值，再针对双价值网络和策略网络进行更新。

基于持续更新后的双价值网络和策略网络，最终得到最大的回报期望值，将最大的回报期望值对应的动作作为目标动作，即该目标动作所对应的新能源机组、火电机组、负荷的有功功率设定值，是针对最小化运行成本目标函数和最大化新能源消纳目标函数在约束条件集合下的最优求解结果。

步骤S112，基于目标动作，将新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

示例性地，基于目标动作所对应的新能源机组、火电机组、负荷的有功功率设定值，在调控区间内对应地调整新能源机组、火电机组、负荷的当前有功功率。

上述基于DDPG算法的电网调度方法中，基于DDPG算法对应的策略网络，根据发电机组和负荷对应的状态生成对应的动作，基于DDPG算法对应的双价值网络，根据状态和动作生成对应的回报期望值，基于回报期望值的差异更新双价值网络并得到目标回报期望值，基于目标回报期望值更新策略网络；基于更新后的策略网络和更新后的双价值网络，生成最大的回报期望值，该最大的回报期望值对应的动作作为目标动作；基于该目标动作，对应地调整发电机组和负荷的有功功率。基于此，根据DDPG算法对应的双价值网络，提高算法的收敛能力和决策能力，从而在DDPG算法中高效地、准确地确定针对最小化运行成本目标函数和最大化新能源消纳目标函数在约束条件集合下的最优求解结果，进而高效地、同步地针对运行成本最小化和新能源消纳最大化进行电网调度。

在一个示例性的实施例中，分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间，包括步骤S202；基于目标动作，将新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整，包括步骤S204，其中：

步骤S202，获取时间间隔相同的不同采集时刻，依序将不同采集时刻作为目标采集时刻，获取目标采集时刻对应的新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间。

步骤S204，基于目标动作，将目标采集时刻对应的新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

示例性地，获取多个时间间隔相同的不同采集时刻，在一个采集时刻下，获取该采集时刻对应的新能源机组、火电机组、负荷的有功功率以及调控区间；在DDPG算法中，获得针对最小化运行成本目标函数和最大化新能源消纳目标函数在约束条件集合下的最优求解结果，并基于该最优求解结果针对该采集时刻所对应的新能源机组、火电机组、负荷的有功功率进行调整。在预设时间间隔后，即在下一个采集时刻下，重复上述步骤。

可选地，可将采集周期设定为24小时，采集时刻之间的时间间隔设定为15分钟，即每隔15分钟获取新能源机组、火电机组、负荷的有功功率数据，并根据计算结果对新能源机组、火电机组、负荷的有功功率进行更新。

可选地，可通过分析历史数据，识别可能具有高发电量或高耗电量的时段，在这些时段设置较为密集的采集时刻。

本实施例中，通过周期性的数据采集任务，从而周期性地、持续性地针对新能源机组、火电机组、负荷的有功功率进行调整，以确保新能源机组、火电机组、负荷在采集周期内安全运行。

在一个示例性的实施例中，如图2所示，分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间之前，还包括步骤S302至步骤S308，其中：

步骤S302，获取新能源机组、火电机组和负荷的当前运维状态；其中运维状态是指运行状况、健康状态和性能表现。

其中，运维状态是指电力设备或系统的运行状况、健康状态以及性能表现。

其中，运行状况是指电力设备或系统的操作状态，例如开启、关闭或运行的状态，也可表示电力设备或系统的基本运行参数，例如电流、电压等参数，通过监测运行状况有助于实时了解电力设备或系统的工作状态。

其中，健康状态是指电力设备或系统的整体健康状况，例如机械结构、电气元件、冷却系统等方面的健康程度，监测健康状态有助于识别电力设备或系统的潜在问题，例如磨损程度、绝缘状态、热量分布等，以进行预防性维护。

其中，性能表现是指电力设备或系统的性能特征和表现，例如电能转换效率、传输损耗、响应时间等方面的性能特征，监测性能表现有助于评估电力设备或系统的效率和可靠性。

示例性地，获取新能源机组、火电机组和负荷的当前运维状态，是指获取新能源机组、火电机组和负荷针对运行状况、健康状态和性能表现等方面的指标参数。

步骤S304，基于双重Q网络计算在给定运维状态下选择不同动作分别对应的回报期望值。

其中，双重Q网络是指一种用于增强学习的算法，通常用于处理Q-learning中的估计偏差问题。

示例性地，在双重Q网络中，引入两个Q网络，其中一个Q网络用于评估在给定运维状态下选择特定动作的当前回报期望值，另一个Q网络用于评估在给定运维状态下选择特定动作的目标回报期望值，其中，目标回报期望值在一段时间内保持不变，一定程度降低了当前回报期望值和目标回报期望值的相关性，提高了算法稳定性。基于当前回报期望值和目标回报期望值的差异，构建损失函数，通过最小化损失函数，从而对双重Q网络的参数进行优化，由优化后的双重Q网络在给定运维状态下输出每一可能动作分别对应的回报期望值。

步骤S306，将每一回报期望值分别转换为在给定运维状态下选择不同动作的概率，基于每一动作对应的概率，确定最优策略；其中最优策略是指在给定运维状态下选择对应于最优回报期望值的动作。

示例性地，将双重Q网络所输出的每一回报期望值分别转换为在给定运维状态下选择对应动作的概率，即将所选择的动作与概率数值相关联，将最大概率所对应的动作表征为在给定运维状态下基于最优回报期望值所选择的动作。

可选地，基于确定性策略(Deterministic Policy)，将一个动作通过概率数值理解为一个行为策略，从而实现智能决策。

可选地，可通过概率分布函数，将双重Q网络所输出的每一回报期望值分别转换为在给定运维状态下选择对应动作的概率。

步骤S308，基于最优策略更新新能源机组、火电机组和负荷的运维状态。

示例性地，基于最大概率所对应的动作，针对新能源机组、火电机组和负荷的运维状态进行对应的更新。

可选地，可设定有运维状态的采集周期和更新周期，从而周期性地针对新能源机组、火电机组和负荷的运维状态进行调整。

可选地，在针对新能源机组、火电机组和负荷的运维状态的监控中，引入多智能体机制，把所涉及的多维设备视为具有自主感知与决策能力的智能体，在自身运维状态更新的同时，主动向外界共享自身运维状态信息，从而实现针对多维设备的运维状态全景地、自主地、精确地复现。

本实施例中，通过计算在给定运维状态下选择不同动作分别对应的回报期望值，并将每一回报期望值分别转换为在给定运维状态下选择不同动作的概率，根据概率数值确定最优策略，从而准确地、高效地针对新能源机组、火电机组和负荷的运维状态进行调整。

在一个示例性的实施例中，获取最小化运行成本目标函数和最大化新能源消纳目标函数，包括步骤S402至步骤S404，其中：

步骤S402，基于每一目标机组对应的成本系数，得到对应的第一参数，基于启停成本值和每一目标机组对应的启停指示值，得到对应的第二参数，基于第一参数、第二参数、每一目标机组对应的变量有功功率确定最小化运行成本目标函数；其中目标机组包括新能源机组和火电机组。

其中，成本系数是指衡量不同发电机组所对应运行成本的权重系数。启停成本值用于表征机组开启或关闭所产生的成本。启停指示值用于表征机组是否由开启状态转换为关闭状态或由关闭状态转换为开启状态。

示例性地，最小化运行成本目标函数的第一参数，即成本系数，用于对各个机组的变量有功功率进行加权处理；最小化运行成本目标函数的第二参数，即由启停成本值和启停指示值所确定的参数，用于对各个机组的启停成本进行计算；基于第一参数、第二参数、每一机组对应的变量有功功率，组成最小化运行成本目标函数。

可选地，最小化运行成本目标函数的表达式如下：

在式(1)中，J_cost,t表示在t时刻的n台发电机组的运行成本，其中发电机组包括新能源机组和火电机组。P_i,t表示第i台发电机组在t时刻的有功功率，a_i、b_i、c_i表示第i台发电机组的成本系数；表示针对第i台发电机组的有功功率进行加权处理。d表示启停成本值，I表示启停指示值，若当前时刻的机组和上一时刻相比，由开启状态转换为关闭状态或由关闭状态转换为开启状态，则表示该机组执行了启停操作，则I＝1，若否，则I＝0；dI表示针对第i台发电机组判断启停操作和计算启停成本。

可选地，可根据每一发电机组对应的功率水平，针对不同发电机组设定不同的成本系数，或针对不同发电机组在不同时刻设定不同的成本系数。可根据每一发电机组对应的运维状态，针对不同发电机组设定不同的启停成本值。

步骤S404，基于每一新能源机组对应的最大有功功率和变量有功功率，确定最大化新能源消纳目标函数。

其中，最大有功功率表示为规格标定的最大有功功率数值，也可表示为历史运行过程中所记录的最大有功功率数值。

示例性地，基于全部新能源机组对应的变量有功功率之和与全部新能源机组对应的最大有功功率之和的数值关系，确定最大化新能源消纳目标函数。

可选地，最大化新能源消纳目标函数的表达式如下：

在式(2)中，J_re,t表示在t时刻的n_re台新能源机组的新能源消纳量。P_i,t表示第i台发电机组在t时刻的有功功率，表示对在t时刻的n_re台新能源机组的有功功率进行求和。P_i,max表示第i台发电机组的最大有功功率，/>对在t时刻的n_re台新能源机组的最大有功功率进行求和。

再者，基于在负载线上安全地流通电流的考量，还设定有最小化平均电流负载率目标函数，其目标在于使得电流负载率最小化，以确保电网的安全运行，其表达式如下：

在式(3)中，J_rho,t表示在t时刻的n_rho条负载线所对应的电流负载率；I_i,t表示在t时刻第i条负载线通过的电流，I_i,max表示第i条负载线运行通过的最大电流。表示在/>与1中选择最小值，即若I_i,t>I_i,max，则在t时刻第i条负载线的电流负载率表示为1，若否，则在t时刻第i条负载线的电流负载率表示为/>表示将全部负载线对应的电流负载率求和后，转换为每一负载线对应的平均电流负载率。

将式(1)、式(2)、式(3)进行标准化处理，例如零均值化处理和单位方差化处理，使得这些式子具有相似的尺度，处理过程可参照下式：

在式(4)中，C′表示标准化目标函数，C表示目标函数，表示目标函数均值，/>表示目标函数标准差。

基于式(4)，得到最小化运行成本标准化目标函数K_c′_ost,t、最大化新能源消纳标准化目标函数J_r′_e,t、最小化平均电流负载率标准化目标函数J_r′_ho,t，并得到综合目标函数J：

J＝w_costJ_c′_ost,t-w_reJ_r′_e,t+w_rhoJ_r′_ho,t (5)

在式(5)中，w_cost、w_re、w_rho分别为最小化运行成本标准化目标函数J_c′_ost,t、最大化新能源消纳标准化目标函数J_r′_e,t、最小化平均电流负载率标准化目标函数J_r′_ho,t的加权系数，且三者之和为1。

本实施例中，通过建立有最小化运行成本目标函数和最大化新能源消纳目标函数，从而在运行成本最小化和新能源消纳最大化两个维度中，提高了电网调度的全面性和整体性。

在一个示例性的实施例中，获取约束条件集合，包括步骤S502至步骤S504，其中：

步骤S502，基于新能源机组、火电机组、平衡机组分别对应的最小有功功率和最大有功功率，分别确定新能源机组、火电机组、平衡机组对应的有功功率约束条件。

示例性地，在任一时刻下，火电机组、新能源机组、平衡机组的有功功率之和等于负荷的有功功率之和，则总功率平衡约束条件为：

/>

在式(6)中，O_th,i,t表示在t时刻第i台火电机组的有功功率，表示在t时刻n_th台火电机组的有功功率之和；P_re,i,t表示在t时刻第i台新能源机组的有功功率，表示在t时刻n_re台新能源机组的有功功率之和；P_bal,t表示t时刻平衡机组的有功功率；P_d,i,t表示在t时刻第i台负荷的有功功率，/>表示在t时刻n_d台负荷的有功功率之和。

对于任意火电机组，任意时刻的有功功率应处于其最小有功功率和最大有功功率之间，则火电机组有功功率约束条件为：

P_th,i,min≤P_th,i,t≤P_th,i,max (7)

在式(7)中，P_th,i,min表示第i台火电机组的最小有功功率，P_th,i,max表示第i台火电机组的最大有功功率。

对于任意新能源机组，任意时刻的有功功率应处于0和其最大有功功率之间，则新能源机组有功功率约束条件为：

0≤P_re,i,t≤P_re,i,max (8)

在式(8)中，P_re,i,max表示第i台新能源机组的最大有功功率。

对于平衡机组，可基于针对最小有功功率和最大有功功率的预设倍率，确定有功功率的取值范围，例如平衡机组有功功率约束条件可表示为：

0.9P_bal,min≤P_bal,t≤1.1P_bal,max (9)

在式(9)中，P_bal,min表示平衡机组的最小有功功率，P_bal,max表示平衡机组的最大有功功率。

步骤S504，基于火电机组对应的最小爬坡速率和最大爬坡效率，确定火电机组对应的爬坡速率约束条件。

示例性地，火电机组对应的爬坡速率约束条件可表示为：

D_th,i≤P_th,i,t-P_th,i,t-1≤U_th,i (10)

在式(10)中，D_th,i表示第i台火电机组的最小爬坡量，U_th,i表示第i台火电机组的最大爬坡量，P_th,i,t-P_th,i,t-1表示在t时刻第i台火电机组的有功功率相比于在上一时刻t-1的有功功率所对应的上调量。

本实施例中，通过设定有新能源机组、火电机组、平衡机组对应的有功功率约束条件、以及火电机组对应的爬坡速率约束条件，从而在约束条件中可靠地、准确地对目标函数进行求解。

在一个示例性的实施例中，如图3所示，基于DDPG算法对应的策略网络，根据新能源机组、火电机组、负荷分别对应的状态生成对应的动作之前，还包括步骤S602至步骤S606，其中：

步骤S602，基于目标机组的变量有功功率的变化量和负荷的变量有功功率的变化量之间的差异，确定第一规则引导函数；其中第一规则引导函数是用于表征衡量发电功率和负荷功率之间的平衡偏离程度的函数，其中目标机组包括新能源机组、火电机组和平衡机组。

示例性地，基于式(6)对应的总功率平衡约束条件，构建第一规则引导函数，该第一规则引导函数用于引导算法在发电机组的有功功率变化量和负荷的有功功率变化量相平衡的方向上进行参数更新和计算，其表达式为：

在式(11)中，δ_MSE表示均方差函数，ΔP_bal,t、/>分别表示全部火电机组的有功功率变化量、全部新能源机组的有功功率变化量、平衡机组的有功功率变化量、全部负荷的有功功率变化量。

步骤S604，基于火电机组的变量爬坡速率和变量有功功率中的最小值，确定火电机组的最大上调量，基于最大上调量确定第二规则引导函数；其中第二规则引导函数是用于表征针对电网调度过程中的不确定性所考虑的备用量的函数。

示例性地，基于式(7)对应的火电机组有功功率约束条件和式(10)对应的爬坡速率约束条件的共同约束下，确定火电机组的实际最大上调量，基于实际最大上调量和理论实际最大上调量，构建第二规则引导函数，该第二规则引导函数用于引导算法在由火电机组预留足够大的备用量以应对发电端和负荷端的不确定性的方向上进行参数更新和计算，表达式为：

在式(12)中，E表示加权系数；U_th,i,t表示t时刻第i台火电机组的实际最大上调量，即t时刻第i台火电机组在对应的火电机组有功功率约束条件获得对应的第一有功功率，在对应的爬坡速率约束条件获得对应的第二有功功率，在第一有功功率和第二有功功率中选取最小值作为实际最大上调量；U_th,i表示第i台火电机组的理论最大上调量。

步骤S606，基于第一规则引导函数和第二规则引导函数，确定奖励信号，基于奖励信号，更新策略网络。

示例性地，基于第一规则引导函数和第二规则引导函数所对应的规则引导方向，确定对应的奖励信号，该奖励信号是指用于指导网络学习的信号；基于该奖励信号，对应地针对策略网络的参数进行更新。

本实施例中，通过设定规则引导函数，以引导策略网络的更新方向，从而实现在预期更新方向上对策略网络进行针对性的更新，提高算法的收敛能力和决策能力。

在一个示例性的实施例中，分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间，包括步骤S702，其中：

步骤S702，通过统一通信规约分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；其中统一通信规约是指针对不同新能源机组、火电机组、负荷的数据交互所制定的通信标准。

示例性地，在不同新能源机组、火电机组、负荷中选择统一的通信规约，且均配置有符合该统一通信规约的通信参数，例如设备地址、通信速率、数据格式等；基于该统一通信规约建立通信连接，并进行统一的数据接收与解析操作，以确保按照统一通信规约所定义的方式进行数据处理与应用。

本实施例中，基于统一通信规约建立通信连接，保证各设备的通信兼容性和一致性，从而高效地、准确地获取不同厂家、不同型号的设备对应的数据。

在一个示例性的实施例中，如图4所示，设定有环境模型，环境模型是指用于描述或模拟电力系统的计算模型，即针对外部环境中的电力系统和电力设备进行建模，旨在捕捉外部环境的动态变化。

环境模型将在新能源机组、火电机组、平衡机组、负荷的有功功率等数据传输至DDPG算法中进行计算，以得出针对式(5)所对应的综合目标函数的最优解，且该最优解需同时满足式(6)所对应的总功率平衡约束条件、式(7)所对应的火电机组有功功率约束条件、式(8)所对应的新能源机组有功功率约束条件、式(9)所对应的平衡机组有功功率约束条件、式(10)所对应的爬坡速率约束条件。

在DDPG算法中，对应有策略网络(actor)和价值网络(critic)，还设定有分别与策略网络、价值网络结构相同的目标(target)策略网络和目标(target)价值网络，用于改善算法性能。

环境模型将t时刻的状态s_t、t时刻的奖励值r_t、t+1时刻的目标状态s_t+1传输至策略网络和经验回放池；其中经验回放池是指用于存储历史数据的缓冲区，可在经验回放池中选取历史数据对网络进行更新，以提高数据的利用率。

策略网络基于第一动作值函数u和t时刻的状态s_t生成对应的动作a_t，并传输至价值网络；目标策略网络基于第二动作值函数u′和t+1时刻的目标状态s_t+1生成对应的动作，该对应的动作用于估计下一时刻的动作a_t+1的目标。

价值网络基于动作a_t生成对应的回报期望值，并传输至策略网络；目标价值网络基于动作a_t生成对应的回报期望值，该对应的回报期望值用于估计下一时刻所选择动作对应的回报期望值的目标y_t。

基于图4所示的算法框架，将价值网络替换为双价值网络，将目标价值网络替换为目标双价值网络。双价值网络，基于动作a_t生成两个回报期望值，基于该两个回报期望值的差异最小化，更新双价值网络的参数θ_Q，并将该两个回报期望值中的最小值作为目标回报期望值，基于该目标回报期望值更新策略网络的参数θ_u。

基于更新后的策略网络和更新后的双价值网络，生成最大的回报期望值，将该最大的回报期望值对应的动作作为目标动作，将目标动作传输至环境模型中，并对应地调整电力系统中的电路设备的有功功率。

可选地，价值网络或双价值网络的参数θ_Q更新方式可通过最小化损失函数L_Q以实现，其中：

L_Q＝E[(y_t-Q(s_t,a_t|θ_Q))²] (13)

在式(13)中，E表示期望，y_t表示回报期望值的目标，Q(s_t,a_t|θ_Q)表示价值网络所输出的回报期望值。

其中，回报期望值的目标y_t可表示为：

y_t＝r_t+γQ′(s_t+1,u′(s_t+1|θ_u′)|θ_Q′) (14)

在式(14)中，r_t表示t时刻的奖励值，γ表示折扣因子，Q′表示目标价值网络的输出，u′表示目标策略网络的输出，θ_Q′表示目标价值网络的参数。

可选地，策略网络的参数θ_u的更新方式可通过最小化损失函数L_u以实现，其中：

L_u＝-E[Q(s_t,u(s_t))] (15)

在式(15)中，E表示期望，Q表示价值网络所输出的回报期望值。

基于图4所示的算法框架，在环境模型和策略网络之间引入式(11)所对应的第一规则引导函数、式(12)所对应的第二规则引导函数，并综合第一规则引导函数和第二规则引导函数，得到策略网络的另一更新方式的损失函数L′_u：

L′_u＝-E[Q(s_t,u(s_t))]+ω₁F₁+ω₂F₂ (16)

在式(16)中，ω₁、ω₂分别是第一规则引导函数F₁和第二规则引导函数F₂的加权系数。

DDPG属于无模型的强化学习方法，无需状态转移函数的具体表达式，即可完成学习过程。

再者，奖励值r_t可表示为式(5)所对应的综合目标函数的负值形式：

r_t＝-J＝-w_costJ′_cost,t+w_reJ′_re,t-w_rhoJ′_rho,t (17)

基于此，目标函数即可转化为通过优化决策函数获得最大奖励的形式。

在一个示例性的实施例中，设置有稳控可视化系统，其具备集中监视功能，以通过图形界面和客户端工具实现环境模型信息和电力系统信息的全面展示。

可选地，可监视电力系统与稳控可视化系统之间的通讯状态，还可监视电力设备与电力设备之间通讯的通道状态，并提供通道报文监视调试工具。

可选地，可监控电力设备的工作状态、异常信号、定值，以及电力设备所统计的可切负荷量、可切机组量、直流最大可提升量和回降量等运行信息。

可选地，可实时显示电力设备的线路状况、机组状况、运行数据等。

可选地，可及时感知电力设备的定值变化信号，主动进行数值检测，将差异信息及时推送给管理人员；还可设置自动巡检周期，定时对电力设备的定值进行自动检测。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于DDPG算法的电网调度方法的基于DDPG算法的电网调度装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于DDPG算法的电网调度装置实施例中的具体限定可以参见上文中对于基于DDPG算法的电网调度方法的限定，在此不再赘述。

在一个示例性的实施例中，如图5所示，提供了一种基于DDPG算法的电网调度装置，包括：第一获取模块802、第一获取模块804、第一获取模块806、第一计算模块808、第二计算模块810和调整模块812，其中：

第一获取模块802，用于分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间。

第二获取模块804，用于获取最小化运行成本目标函数和最大化新能源消纳目标函数；其中最小化运行成本目标函数是用于表征新能源机组、火电机组、负荷的综合最小化运行成本的函数，最大化新能源消纳目标函数是用于表征新能源机组的最大化新能源消纳的函数。

第三获取模块806，用于获取约束条件集合，约束条件集合包括新能源机组、火电机组、平衡机组分别对应的有功功率约束条件，以及火电机组对应的爬坡速率约束条件。

第一计算模块808，用于基于DDPG算法对应的策略网络，根据新能源机组、火电机组、负荷分别对应的状态生成对应的动作，基于DDPG算法对应的双价值网络，根据状态和动作生成对应的回报期望值，基于回报期望值的差异更新双价值网络并得到目标回报期望值，基于目标回报期望值更新策略网络。

第二计算模块810，用于基于更新后的策略网络和更新后的双价值网络，生成最大的回报期望值，将最大的回报期望值对应的动作作为目标动作；其中目标动作是指针对最小化运行成本目标函数和最大化新能源消纳目标函数在约束条件集合下的最优求解结果。

调整模块812，用于基于目标动作，将新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

在一个示例性的实施例中，第一获取模块802还用于获取时间间隔相同的不同采集时刻，依序将不同采集时刻作为目标采集时刻，获取目标采集时刻对应的新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；调整模块812还用于基于目标动作，将目标采集时刻对应的新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

在一个示例性的实施例中，该装置还包括运维状态调整模块，运维状态调整模块用于：获取新能源机组、火电机组和负荷的当前运维状态；其中运维状态是指运行状况、健康状态和性能表现；基于双重Q网络计算在给定运维状态下选择不同动作分别对应的回报期望值；将每一回报期望值分别转换为在给定运维状态下选择不同动作的概率，基于每一动作对应的概率，确定最优策略；其中最优策略是指在给定运维状态下选择对应于最优回报期望值的动作；基于最优策略更新新能源机组、火电机组和负荷的运维状态。

在一个示例性的实施例中，第二获取模块804还用于基于每一目标机组对应的成本系数，得到对应的第一参数，基于启停成本值和每一目标机组对应的启停指示值，得到对应的第二参数，基于第一参数、第二参数、每一目标机组对应的变量有功功率确定最小化运行成本目标函数；其中目标机组包括新能源机组和火电机组；基于每一新能源机组对应的最大有功功率和变量有功功率，确定最大化新能源消纳目标函数。

在一个示例性的实施例中，第三获取模块806还用于基于新能源机组、火电机组、平衡机组分别对应的最小有功功率和最大有功功率，分别确定新能源机组、火电机组、平衡机组对应的有功功率约束条件；基于火电机组对应的最小爬坡速率和最大爬坡效率，确定火电机组对应的爬坡速率约束条件。

在一个示例性的实施例中，该装置还包括规则引导函数确定模块，规则引导函数确定模块基于目标机组的变量有功功率的变化量和负荷的变量有功功率的变化量之间的差异，确定第一规则引导函数；其中第一规则引导函数是用于表征衡量发电功率和负荷功率之间的平衡偏离程度的函数，其中目标机组包括新能源机组、火电机组和平衡机组；基于火电机组的变量爬坡速率和变量有功功率中的最小值，确定火电机组的最大上调量，基于最大上调量确定第二规则引导函数；其中第二规则引导函数是用于表征针对电网调度过程中的不确定性所考虑的备用量的函数；基于第一规则引导函数和第二规则引导函数，确定奖励信号，基于奖励信号，更新策略网络。

在一个示例性的实施例中，第一获取模块802还用于通过统一通信规约分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；其中统一通信规约是指针对不同新能源机组、火电机组、负荷的数据交互所制定的通信标准。

上述基于DDPG算法的电网调度装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新能源机组、火电机组、负荷的有功功率和对应的调控区间、各目标函数、各约束条件、DDPG算法的网络参数和计算数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于DDPG算法的电网调度方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个示例性的实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取最小化运行成本目标函数和最大化新能源消纳目标函数；其中最小化运行成本目标函数是用于表征新能源机组、火电机组、负荷的综合最小化运行成本的函数，最大化新能源消纳目标函数是用于表征新能源机组的最大化新能源消纳的函数；

获取约束条件集合，约束条件集合包括新能源机组、火电机组、平衡机组分别对应的有功功率约束条件，以及火电机组对应的爬坡速率约束条件；

基于DDPG算法对应的策略网络，根据新能源机组、火电机组、负荷分别对应的状态生成对应的动作，基于DDPG算法对应的双价值网络，根据状态和动作生成对应的回报期望值，基于回报期望值的差异更新双价值网络并得到目标回报期望值，基于目标回报期望值更新策略网络；

基于更新后的策略网络和更新后的双价值网络，生成最大的回报期望值，将最大的回报期望值对应的动作作为目标动作；其中目标动作是指针对最小化运行成本目标函数和最大化新能源消纳目标函数在约束条件集合下的最优求解结果；

基于目标动作，将新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取时间间隔相同的不同采集时刻，依序将不同采集时刻作为目标采集时刻，获取目标采集时刻对应的新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；基于目标动作，将目标采集时刻对应的新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取新能源机组、火电机组和负荷的当前运维状态；其中运维状态是指运行状况、健康状态和性能表现；基于双重Q网络计算在给定运维状态下选择不同动作分别对应的回报期望值；将每一回报期望值分别转换为在给定运维状态下选择不同动作的概率，基于每一动作对应的概率，确定最优策略；其中最优策略是指在给定运维状态下选择对应于最优回报期望值的动作；基于最优策略更新新能源机组、火电机组和负荷的运维状态。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于每一目标机组对应的成本系数，得到对应的第一参数，基于启停成本值和每一目标机组对应的启停指示值，得到对应的第二参数，基于第一参数、第二参数、每一目标机组对应的变量有功功率确定最小化运行成本目标函数；其中目标机组包括新能源机组和火电机组；基于每一新能源机组对应的最大有功功率和变量有功功率，确定最大化新能源消纳目标函数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于新能源机组、火电机组、平衡机组分别对应的最小有功功率和最大有功功率，分别确定新能源机组、火电机组、平衡机组对应的有功功率约束条件；基于火电机组对应的最小爬坡速率和最大爬坡效率，确定火电机组对应的爬坡速率约束条件。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于目标机组的变量有功功率的变化量和负荷的变量有功功率的变化量之间的差异，确定第一规则引导函数；其中第一规则引导函数是用于表征衡量发电功率和负荷功率之间的平衡偏离程度的函数，其中目标机组包括新能源机组、火电机组和平衡机组；基于火电机组的变量爬坡速率和变量有功功率中的最小值，确定火电机组的最大上调量，基于最大上调量确定第二规则引导函数；其中第二规则引导函数是用于表征针对电网调度过程中的不确定性所考虑的备用量的函数；基于第一规则引导函数和第二规则引导函数，确定奖励信号，基于奖励信号，更新策略网络。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过统一通信规约分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；其中统一通信规约是指针对不同新能源机组、火电机组、负荷的数据交互所制定的通信标准。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取时间间隔相同的不同采集时刻，依序将不同采集时刻作为目标采集时刻，获取目标采集时刻对应的新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；基于目标动作，将目标采集时刻对应的新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取新能源机组、火电机组和负荷的当前运维状态；其中运维状态是指运行状况、健康状态和性能表现；基于双重Q网络计算在给定运维状态下选择不同动作分别对应的回报期望值；将每一回报期望值分别转换为在给定运维状态下选择不同动作的概率，基于每一动作对应的概率，确定最优策略；其中最优策略是指在给定运维状态下选择对应于最优回报期望值的动作；基于最优策略更新新能源机组、火电机组和负荷的运维状态。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于每一目标机组对应的成本系数，得到对应的第一参数，基于启停成本值和每一目标机组对应的启停指示值，得到对应的第二参数，基于第一参数、第二参数、每一目标机组对应的变量有功功率确定最小化运行成本目标函数；其中目标机组包括新能源机组和火电机组；基于每一新能源机组对应的最大有功功率和变量有功功率，确定最大化新能源消纳目标函数。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于新能源机组、火电机组、平衡机组分别对应的最小有功功率和最大有功功率，分别确定新能源机组、火电机组、平衡机组对应的有功功率约束条件；基于火电机组对应的最小爬坡速率和最大爬坡效率，确定火电机组对应的爬坡速率约束条件。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于目标机组的变量有功功率的变化量和负荷的变量有功功率的变化量之间的差异，确定第一规则引导函数；其中第一规则引导函数是用于表征衡量发电功率和负荷功率之间的平衡偏离程度的函数，其中目标机组包括新能源机组、火电机组和平衡机组；基于火电机组的变量爬坡速率和变量有功功率中的最小值，确定火电机组的最大上调量，基于最大上调量确定第二规则引导函数；其中第二规则引导函数是用于表征针对电网调度过程中的不确定性所考虑的备用量的函数；基于第一规则引导函数和第二规则引导函数，确定奖励信号，基于奖励信号，更新策略网络。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过统一通信规约分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；其中统一通信规约是指针对不同新能源机组、火电机组、负荷的数据交互所制定的通信标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于DDPG算法的电网调度方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间，包括：

获取时间间隔相同的不同采集时刻，依序将不同采集时刻作为目标采集时刻，获取所述目标采集时刻对应的新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；

所述基于所述目标动作，将新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整，包括：

基于所述目标动作，将所述目标采集时刻对应的新能源机组的有功功率基于对应的调控区间进行调整，将火电机组的有功功率基于对应的调控区间进行调整，将负荷的有功功率基于对应的调控区间进行调整。

3.根据权利要求1所述的方法，其特征在于，所述分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间之前，还包括：

获取所述新能源机组、火电机组和负荷的当前运维状态；其中所述运维状态是指运行状况、健康状态和性能表现；

基于双重Q网络计算在给定运维状态下选择不同动作分别对应的回报期望值；

将每一回报期望值分别转换为在给定运维状态下选择不同动作的概率，基于每一动作对应的概率，确定最优策略；其中所述最优策略是指在给定运维状态下选择对应于最优回报期望值的动作；

基于所述最优策略更新所述新能源机组、火电机组和负荷的运维状态。

4.根据权利要求1所述的方法，其特征在于，所述获取最小化运行成本目标函数和最大化新能源消纳目标函数，包括：

基于每一目标机组对应的成本系数，得到对应的第一参数，基于启停成本值和每一目标机组对应的启停指示值，得到对应的第二参数，基于所述第一参数、所述第二参数、每一目标机组对应的变量有功功率确定所述最小化运行成本目标函数；其中所述目标机组包括新能源机组和火电机组；

基于每一新能源机组对应的最大有功功率和变量有功功率，确定所述最大化新能源消纳目标函数。

5.根据权利要求1所述的方法，其特征在于，所述获取约束条件集合，包括：

基于新能源机组、火电机组、平衡机组分别对应的最小有功功率和最大有功功率，分别确定新能源机组、火电机组、平衡机组对应的有功功率约束条件；

基于火电机组对应的最小爬坡速率和最大爬坡效率，确定火电机组对应的爬坡速率约束条件。

6.根据权利要求1所述的方法，其特征在于，所述基于DDPG算法对应的策略网络，根据所述新能源机组、火电机组、负荷分别对应的状态生成对应的动作之前，还包括：

基于目标机组的变量有功功率的变化量和负荷的变量有功功率的变化量之间的差异，确定第一规则引导函数；其中所述第一规则引导函数是用于表征衡量发电功率和负荷功率之间的平衡偏离程度的函数，其中目标机组包括新能源机组、火电机组和平衡机组；

基于火电机组的变量爬坡速率和变量有功功率中的最小值，确定火电机组的最大上调量，基于所述最大上调量确定第二规则引导函数；其中所述第二规则引导函数是用于表征针对电网调度过程中的不确定性所考虑的备用量的函数；

基于所述第一规则引导函数和所述第二规则引导函数，确定奖励信号，基于所述奖励信号，更新所述策略网络。

7.根据权利要求1所述的方法，其特征在于，所述分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间，包括：

通过统一通信规约分别获取新能源机组的有功功率以及对应的调控区间、火电机组的有功功率以及对应的调控区间、负荷的有功功率以及对应的调控区间；其中所述统一通信规约是指针对不同新能源机组、火电机组、负荷的数据交互所制定的通信标准。

8.一种基于DDPG算法的电网调度装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。