CN113869742B

CN113869742B - 基于行动家和评论家网络的综合供需侧的电力调度系统

Info

Publication number: CN113869742B
Application number: CN202111150833.2A
Authority: CN
Inventors: 韦磊; 蒋承伶; 景栋盛; 周游; 兴胜利; 周炳; 杨旭升; 李娜; 佘家驹; 杨勤胜
Original assignee: State Grid Comprehensive Energy Service Group Co ltd; State Grid Jiangsu Electric Power Co Ltd; Jiangsu Fangtian Power Technology Co Ltd; Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Comprehensive Energy Service Group Co ltd; State Grid Jiangsu Electric Power Co Ltd; Jiangsu Fangtian Power Technology Co Ltd; Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-03-05
Anticipated expiration: 2041-09-29
Also published as: CN113869742A

Abstract

本发明公开了一种基于行动家和评论家网络的综合供需侧的电力调度系统，包括行动家神经网络和评论家神经网络，并向综合能源电网输出满足预设条件的电力调度方案，行动家神经网络基于行动家网络参数和约束参数对状态信息进行训练，输出相应的电力调度方案；控制单元获取反馈信息，评论家神经网络基于评论家网络参数对反馈信息和输入的电力调度方案进行训练，输出评论信息并更新评论家网络参数；行动家神经网络根据评论信息更新行动家网络参数和约束参数，并基于更新后的参数输出新的电力调度方案，直至输出满足优化条件的电力调度方案。本发明根据综合能源电网的反馈信息不断更新神经网络参数以及约束参数得到最优的电力调度方案，更加智能。

Description

基于行动家和评论家网络的综合供需侧的电力调度系统

技术领域

本发明涉及能源领域，特别涉及一种基于行动家和评论家网络的综合供需侧的电力调度系统。

背景技术

电能已经作为一种基础的能源，深入到人们生产生活的各领域。电能的主要来源有包括水力发电(水电)、火力发电(火电)、太阳能发电、风力发电(风电)、电池转化及核能发电(核电)等。这些发电方式各有特点，太阳能与风能开采利用十分方便，不会污染环境，具有极高的开发潜力且不会枯竭，但其受到地理环境以及气候条件的影响较大，且能源转化效率较低；热电方式能源供应稳定，转化效率高，但会污染环境而且日趋枯竭；水电受到的季节性影响比较大；由于风电等方式存在限制，有些地区出现了弃风、弃光的现象，同时能源利用效率不高，这些都对经济转型有负面影响。

另一方面，我国的能源利用效率也受到需求侧状况的影响。当前，我国电力装机存在了过剩的趋势，火力发电设备利用率不高，新能源发电所占的比例偏低。

随着各种能源技术的发展，我国电能供应结构日趋复杂，却难以解决能源的并网消纳问题。但是，目前各种不同形式的能源缺乏协调，缺少面向需求侧的协调方法会导致严重的能源浪费。故如何综合需求响应，使之作为与综合能源电网系统(下文简称综合能源电网)相互协调的策略，利用各种能源之间的协同互补，形成多种类能源综合的电力能源供给系统，充分发挥不同形式能源的优势，优化用户的能源使用结构，提升社会综合能效水平，显得尤为重要。

综合能源电网是指利用信息技术整合一定的区域内各种不同的能源形式，实现各种异质子系统之间的统一协调管理。综合能源电网的基本结构如图1所示，包括作为调度中心的信息系统，由各种终端构成的信息-物理能源系统的交互层，以及包含新能源与传统能源的物理系统。如图2所示，综合能源电网主要由供能网络(如供电、供气、供冷、供热等网络)、能源交换环节(如CCHP机组、发电机组、锅炉、空调、热泵等)、能源存储环节(储电、储气、储热、储冷等)、终端综合能源供用单元(如微网)和大量终端用户共同构成。

综合能源电网的主要功能是满足社会上各种用户的不同形式的能源负荷需求。例如在用电负荷极高的工业区，综合能源电网应该提供足够的电力来满足工厂的正常运转；在冬日气温较低的地区，综合能源电网应该提供足够的热能。因此主要优化目标的衡量标准为在某一特定时段综合能源电网提供的总体负荷与用户总体需求负荷的差值，当差值为负值时，说明综合能源电网未能实现正常的功能。如图5所示，负荷的差值具体包含电负荷、冷/热负荷以及燃气负荷之间的差值。不同种类的能源在存储和运输过程中会有不同程度的能源损耗。同时对于新能源来说，不同的季节的能源效率也不同。因此将能源效率作为电力调度方案的约束之一，即能源生产供应的过程中的损耗应当小于某个给定的值。系统的能源效率取决于用户实际消耗的能源量与能源的生产总量。负荷转移的成本取决于各种转移设备的特性以及转移的负荷量。

对供应侧与需求侧整合进行优化可以进一步提升整体的能源供应利用效率。现有的整合优化系统通常建模为一个多目标优化调度问题，并将原问题转化为线性规划问题进行求解。但样方法存在许多不足，主要表现在以下几个方面：

1.在多目标优化调度问题中，难以确定各个不同目标之间的权重，难以具体规定能源系统的各项指标；

2.当电网的规模不断扩大，能源电网的状态复杂程度不断提高，使用线性规划将遭遇维数灾难问题，难以处理大规模的高维数据；

3.模型无法根据供应侧与需求侧的状态变化进行动态调控，无法从环境信息中进行学习实现智能优化，即传统模型在对调度方法进行优化调整时，需要控制人员根据电网的状态信息手动调整电力调度方法，而无法实现自动实时调整。

发明内容

鉴于以上内容，有必要提供一种基于行动家和评论家网络的综合供需侧的电力调度系统，能够在满足生活用电与工业用电基本需求的前提下，使得各种能源损耗最小。

本发明提供的方案满足需求侧的不同种类的负荷，包括用电负荷、热负荷、天然气负荷等，约束为综合能源电网的各项维护调控成本以及能源系统的综合能效。将原问题转化为拉格朗日公式，然后推导出公式对各个优化参数的梯度更新公式，然后利用更新公式得出强化学习神经网络的损失函数用以训练神经网络学习即优化相应的电力调度方案。

本发明提供的技术方案如下：

本发明提供了一种基于行动家和评论家网络的综合供需侧的电力调度系统，包括与综合能源电网连接的控制单元，其包括行动家神经网络和评论家神经网络，其中，所述行动家神经网络包括行动家网络参数和约束参数，所述约束参数与综合能源电网的调控成本和能源损耗相关，所述评论家神经网络包括评论家网络参数；

所述电力调度系统用于根据综合能源电网的状态信息和反馈信息，对电力调度方案进行优化，具体包括以下步骤：

S1、所述控制单元获取所述状态信息，并向综合能源电网输出满足预设条件的电力调度方案，且所述控制单元将所述状态信息输入至所述行动家神经网络，所述行动家神经网络基于所述行动家网络参数和约束参数对所述状态信息进行训练，输出相应的电力调度方案；

S2、所述控制单元获取所述反馈信息，并将其和所述行动家神经网络输出的电力调度方案输入至所述评论家神经网络，所述评论家神经网络基于所述评论家网络参数对所述反馈信息和输入的电力调度方案进行训练，输出评论信息，并根据所述评论信息更新所述评论家网络参数；

S3、所述控制单元将所述评论信息发送至所述行动家神经网络，所述行动家神经网络根据所述评论信息更新所述行动家网络参数和约束参数，并基于更新后的行动家网络参数和约束参数训练输出新的电力调度方案；重复执行S2至S3，直至输出满足优化条件的电力调度方案。

进一步地，所述综合能源电网包括需求侧，所述状态信息包括所述需求侧的实际用电负荷和/或实际热负荷和/或实际天然气负荷。

作为一种可选的方案，所述控制单元内预存有多个电力调度方案，所述满足预设条件的电力调度方案为预存的多个电力调度方案中的一个；或者，

作为另一种可选的方案，所述满足预设条件的电力调度方案为所述行动家神经网络通过对所述状态信息训练得到。

进一步地，所述预设条件包括：Q^π最小，所述Q^π通过下式计算得到：

Q^π＝|Q^E-E|+|Q^H-H|+|Q^G-G| (1-1)

式中，Q^π为在电力调度方案π下的综合能源电网供需侧的差值，Q^E为综合能源电网供应侧的用电负荷，E为综合能源电网需求侧的实际用电负荷，Q^H为综合能源电网供应侧的热负荷，H为综合能源电网需求侧的实际热负荷，Q^G为综合能源电网供应侧的天然气负荷，G为综合能源电网需求侧的实际天然气负荷；

以及，其中，所述/>为在电力调度方案π下的综合能源电网的调控成本，所述α_C为所述调控成本的约束值，所述/>通过下式计算得到：

式中，为在电力调度方案π下的综合能源电网的调控成本，i包括电能和/或热能和/或燃气负荷，C_i为与i相对应的能源的成本运行系数，P_i为与i相对应的能源的有功出力，a为负荷转移的容量补偿系数，P_mov，i为在电力调度方案π下的转移电负荷量，b为负荷削减的容量补偿系数，P_Cut，i为在电力调度方案π下的削减电负荷量，c为负荷转换的容量补偿系数，P_Alt，i为在电力调度方案π下的转换电负荷量；

以及，其中，所述/>为在电力调度方案π下的综合能源电网的能源损耗，所述α_E为所述能源损耗的约束值，所述/>通过下式计算得到：

式中，为在电力调度方案π下的综合能源电网的调控成本，i包括电能和/或热能和/或燃气负荷，P_i为与i相对应的能源的有功出力，η_i为与i相对应的能源的能源效率，且η通过下式计算得到：

式中，η为能源效率，j包括综合能源电网需求侧的电能和/或热能和/或燃气负荷，E_j为与j相对应的能源的实际消耗量，W_j为与j相对应的能源的供应量。

进一步地，所述电力调度系统进行优化的过程通过下式表示：

式中，λ为约束参数，θ为行动家网络参数，υ为评论家网络参数，为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述Q^π的估计值，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述/>的估计值，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述的估计值；

所述优化条件包括式(2-1)的极值点。

进一步地，所述约束参数通过下式进行更新：

式中，λ为约束参数，η₁为所述约束参数υ的学习率且0＜η₁＜1，为所述约束参数λ的梯度，/>由式(2-1)得到：

式中，为所述约束参数λ的梯度，E为期望值，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述/>的估计值，α_C为所述调控成本的约束值，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述/>的估计值，α_E为所述能源损耗的约束值，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述Q^π的估计值。

进一步地，所述行动家神经网络通过下式对所述行动家网络参数进行更新：

式中，θ为行动家网络参数，η₂为所述行动家网络参数θ的学习率且0＜η₂＜1，为所述行动家网络参数θ的梯度，/>由式(2-1)得到：

式中，为所述行动家网络参数θ的梯度，E为期望值，/>为与所述行动家网络参数θ对应的电力调度方案π的梯度，λ为约束参数，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述Q^π的估计函数，m为综合能源电网的状态信息，n为与所述状态信息m对应的电力调度方案，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述/>的估计函数，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述/>的估计函数。

进一步地，所述优化条件还包括所述行动家神经网络的损失函数最小，所述损失函数f_θ通过下式得到：

式中，f_θ为所述行动家神经网络的损失函数，E为期望值，为与所述行动家网络参数θ对应的电力调度方案π的梯度，λ为约束参数，/>为/>的替代函数，/>为/>的替代函数，/>为/>的替代函数。

进一步地，所述评论家神经网络通过下式对所述评论家网络参数进行更新：

式中，υ为评论家网络参数，η₃为所述评论家网络参数υ的学习率且0＜η₃＜1，为/>的替代函数，/>为/>的替代函数，/>为/>的替代函数。

进一步地，所述电力调度系统还包括传输单元，所述控制单元通过所述传输单元与综合能源电网连接，所述传输单元用于传输电力调度方案以及综合能源电网的状态信息和反馈信息。

本发明具有下列优点：

a)通过行动家-评论家神经网络，并根据综合能源电网的反馈信息不断更新神经网络参数以及约束参数，以得到最优的电力调度方案，与传统的优化系统相比，更加智能；

b)综合了综合能源电网供应侧中不同类型能源的转换效率以及需求侧的能源需求，通过统筹优化，提升了总体的能源利用效率，实现了供应侧的耦合互补，高效地满足了不同用户在不同时段的需求；

c)神经网络能够在综合能源电网返回相关反馈信息后以毫秒级别生成更新后的方案，速度远远快于人工调控，实现了电力调度方案的实时优化调整，并且，利用深度学习可以处理大规模的高维数据，避免维数灾难问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的综合能源电网的系统框图；

图2为本发明实施例提供的电力调度系统的第一系统框图；

图3为本发明实施例提供的电力调度系统的第二系统框图；

图4为本发明实施例提供的电力调度系统的工作流程图；

图5为本发明实施例提供的电力调度系统的第三系统框图；

图6为本发明实施例提供的电力调度系统的行动家神经网络示意图；

图7为本发明实施例提供的电力调度系统的评论家神经网络示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，更清楚地了解本发明的目的、技术方案及其优点，以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。除此，本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明的一个实施例中，提供了一种基于行动家和评论家网络的综合供需侧的电力调度系统，包括控制单元以及传输单元，所述控制单元通过所述传输单元综合能源电网连接，所述传输单元用于传输电力调度方案以及综合能源电网的状态信息和反馈信息。

如图2所示，所述控制单元包括行动家神经网络和评论家神经网络，其中，所述行动家神经网络包括行动家网络参数和约束参数，所述评论家神经网络包括评论家网络参数。

如图3、图4所示，所述电力调度系统用于根据综合能源电网的状态信息和反馈信息，对电力调度方案进行优化，具体包括以下步骤：

需要说明的是，所述状态信息包括所述综合能源电网需求侧的实际用电负荷和/或实际热负荷和/或实际天然气负荷。

另外，所述控制单元内预存有多个电力调度方案Π，从Π中挑选其中一个满足预设条件的电力调度方案π发送给综合能源电网使其运行。或者，该满足预设条件的电力调度方案π还可以是所述行动家神经网络通过对综合能源电网的状态信息训练得到的电力调度方案，具体选择视实际情况而定，不以此限定本发明的保护范围。

具体地，步骤S1中所述控制单元向综合能源电网输出的电力调度方案需要同时满足以下三个预设条件：

第一，Q^π最小，所述Q^π通过下式计算得到：

Q^π＝|Q^E-E|+|Q^H-H|+|Q^G-G| (1-1)

式中，π代表具体的电力调度方案，即在特定时段特定地区提供多少电负荷、热负荷、天然气负荷以及不同负荷之间的负荷转移量，Q^π为在电力调度方案π下的综合能源电网在特定时间段下的供需侧的差值，Q^E为综合能源电网供应侧的用电负荷，E为综合能源电网在特定地区某一时段的需求侧的实际用电负荷，Q^H为综合能源电网在特定地区某一时段的供应侧的热负荷，H为综合能源电网在特定地区某一时段的需求侧的实际热负荷，Q^G为综合能源电网供应侧的天然气负荷，G为综合能源电网需求侧的实际天然气负荷；

第二，其中，所述/>为在电力调度方案π下的综合能源电网的调控成本，所述α_C为所述调控成本的约束值，所述/>通过下式计算得到：

式中，为在电力调度方案π下的综合能源电网的调控成本，i包括电能、热能和燃气负荷中的一种或多种，C_i为电能、热能和燃气负荷的成本运行系数，P_i为电力调度方案π对应的电能、热能与燃气负荷的有功出力，a为负荷转移的容量补偿系数，P_mov，i为在电力调度方案π下的转移电负荷量，b为负荷削减的容量补偿系数，P_Cut，i为在电力调度方案π下的削减电负荷量，c为负荷转换的容量补偿系数，P_Alt，i为在电力调度方案π下的转换电负荷量；

第三，其中，所述/>为在电力调度方案π下的综合能源电网的能源损耗，所述α_E为所述能源损耗的约束值，所述/>通过下式计算得到：

式中，为在电力调度方案π下的综合能源电网的调控成本，i包括电能、热能和燃气负荷中的一种或多种，P_i为电力调度方案π对应的电能、热能与燃气负荷的有功出力，η_i为电能、热能和燃气负荷的能源效率，且η通过下式计算得到：

式中，η为能源效率，j包括综合能源电网需求侧的电能、热能与燃气负荷中的一种或多种，E_j为综合能源电网需求侧电能、热能与燃气负荷的实际消耗量，W_j为综合能源电网供应侧电能、热能与燃气负荷的供应量。

具体地，所述电力调度系统进行优化的过程利用拉格朗日松弛技巧，将原问题转化为等价的无约束问题，并通过下式表示：

式中，λ为约束参数，θ为行动家网络参数，υ为评论家网络参数，为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述Q^π的估计值，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述/>的估计值，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述的估计值；需要说明的是，约束参数λ与α_C、α_E相关。

所述优化条件包括式(2-1)的极值点，所述极值点对应的电力调度方案为所求的最优电力调度方案。

所述约束参数通过下式进行更新：

所述行动家神经网络通过下式对所述行动家网络参数进行更新：

需要注意的是，所述优化条件还包括所述行动家神经网络的损失函数最小，所述损失函数f_θ通过下式得到：

所述评论家神经网络通过下式对所述评论家网络参数进行更新：

在本发明的一个实施例中，提供了一种基于行动家和评论家网络的综合供需侧的电力调度系统的工作流程，包括：

第一步：确定优化目标。

所述优化目标为在Π中挑选一个满足预设条件的电力调度方案π。

第二步：初始化行动家深度神经网络与评论家深度神经网络。

如图6所示，所述行动家网络的输入为综合能源电网的运行状态向量，输出为综合能源电网的电力调度方案。如图7所示，所述评论家网络的输入为综合能源电网的电力调度方案，输出为电力调度方案的评价值。电力调度方案的生成由行动家网络的参数θ决定，评论家网络的评价标准由评论家网络的参数υ决定。约束参数λ决定了约束在总体方案评价中所占的比重，参数越大时比重越大。利用参数化策略下目标与约束的期望表现构建公式(2-1)，表达式的自变量包含行动家网络的参数θ，评论家网络参数μ以及约束参数λ。利用拉格朗日松弛技巧，将原问题转化为等价的无约束问题。优化的目标是找到一个极值点(λ^*，θ^*，υ^*)，其对应着一个满足约束的最优电力调度方案。

第三步：根据式(2-1)，分别对化行动家深度神经网络参数与评论家深度神经网络参数与约束参数进行求导获得响应的梯度，得到各自的更新公式。

各个参数利用获得的梯度进行更新，具体的更新公式已在前文详述，此处不再赘述。在各个参数更新时设定一个小于1的学习率并将各个参数的每次更新的结果限定在一个有限的区间范围内，不以此限定本发明的保护范围。

第四步：实施优化过程。

将综合能源电网信息系统输出的状态信息输入到行动家网络中，行动家网络输出响应的电力调度方案，包括不同形式能源的负荷供给量以及用户不同负荷之间的负荷转移量。再将输出的转移方案，包括前述公式(1-2)中P_i、P_mov,i、P_Cut,i、P_Alt,i输入到综合能源电网的控制终端，综合能源电网返回电网的负荷平衡情况以及各种能源的损耗情况。同时将行动家网络输出的电力调度方案输入到评论家网络中，评论家网络根据综合能源电网的反馈信息生成对电力调度方案的评价并更新自身网络参数υ。行动家网络再根据该评价对行动家网络进行更新并调整自身参数θ及约束参数λ。然后不断重复此过程进行实时调整，直至获得一个符合约束的最优电力调度方案。

本发明提供的电力调度系统实现了不同形式能源之间的转换来协调不同的用户负荷。例如当天然气供应过量时将多余的天然气储存起来，当遇到用电高峰期的时候将燃气通过燃气轮机转化为电能从而缓解电网的负荷压力。燃气轮机以及其它形式的负荷转移设备的维护和运转需要额外的成本，将这些成本作为调控模型的约束参数之一以防止能源使用成本过高。并且，将多目标问题看作约束问题，可以具体规定综合能源电网各个指标的约束值，并根据任意给定的约束值学习一个符合要求的方案。同时，基于强化学习能够自动与环境进行交互，根据综合能源电网的状态信息可以动态生成一个合理的电力调度方案。再者，由于神经网络的每次更新迭代只对调度方案进行微小的改动，因此可以在每次接收电网状态时对原有的调度方法进行更新。由于每次的更新幅度很小，因此不会造成电网系统的波动。神经网络会在电网系统返回状态信息后在毫秒级别生成更新后的方案，速度远远快于人工调控，实现了调度方法的实时调整。最后，利用深度学习可以处理大规模的高维数据，避免维数灾难问题

以上所述仅为本发明的优选实施例，并非因此限制其专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于行动家和评论家网络的综合供需侧的电力调度系统，其特征在于，包括与综合能源电网连接的控制单元，其包括行动家神经网络和评论家神经网络，其中，所述行动家神经网络包括行动家网络参数和约束参数，所述约束参数与综合能源电网的调控成本和能源损耗相关，所述评论家神经网络包括评论家网络参数；

所述预设条件包括：Q^π最小，所述Q^π通过下式计算得到：Q^π＝|Q^E-E|+|Q^H-H|+|Q^G-G|，式中，Q^π为在电力调度方案π下的综合能源电网供需侧的差值，Q^E为综合能源电网供应侧的用电负荷，E为综合能源电网需求侧的实际用电负荷，Q^H为综合能源电网供应侧的热负荷，H为综合能源电网需求侧的实际热负荷，Q^G为综合能源电网供应侧的天然气负荷，G为综合能源电网需求侧的实际天然气负荷；以及，其中，所述/>为在电力调度方案π下的综合能源电网的调控成本，所述α_C为所述调控成本的约束值，所述/>通过下式计算得到：式中，/>为在电力调度方案π下的综合能源电网的调控成本，i包括电能和/或热能和/或燃气负荷，C_i为与i相对应的能源的成本运行系数，P_i为与i相对应的能源的有功出力，a为负荷转移的容量补偿系数，P_mov,i为在电力调度方案π下的转移电负荷量，b为负荷削减的容量补偿系数，P_Cut,i为在电力调度方案π下的削减电负荷量，c为负荷转换的容量补偿系数，P_Alt,i为在电力调度方案π下的转换电负荷量；以及，其中，所述/>为在电力调度方案π下的综合能源电网的能源损耗，所述α_E为所述能源损耗的约束值，所述/>通过下式计算得到：/>式中，/>为在电力调度方案π下的综合能源电网的调控成本，i包括电能和/或热能和/或燃气负荷，P_i为与i相对应的能源的有功出力，η_i为与i相对应的能源的能源效率，且η通过下式计算得到：/>式中，η为能源效率，j包括综合能源电网需求侧的电能和/或热能和/或燃气负荷，E_j为与j相对应的能源的实际消耗量，W_j为与j相对应的能源的供应量；

S3、所述控制单元将所述评论信息发送至所述行动家神经网络，所述行动家神经网络根据所述评论信息更新所述行动家网络参数和约束参数，并基于更新后的行动家网络参数和约束参数训练输出新的电力调度方案；重复执行S2至S3，直至输出满足优化条件的电力调度方案；

所述电力调度系统进行优化的过程通过以下优化表达式表示：式中，λ为约束参数，θ为行动家网络参数，υ为评论家网络参数，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述Q^π的估计值，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述/>的估计值，/>为所述评论家神经网络基于所述行动家网络参数θ和所述评论家网络参数υ对所述/>的估计值；所述优化条件包括所述优化表达式的极值点。

2.如权利要求1所述的电力调度系统，其特征在于，所述综合能源电网包括需求侧，所述状态信息包括所述需求侧的实际用电负荷和/或实际热负荷和/或实际天然气负荷。

3.如权利要求1所述的电力调度系统，其特征在于，所述控制单元内预存有多个电力调度方案，所述满足预设条件的电力调度方案为预存的多个电力调度方案中的一个；或者，

所述满足预设条件的电力调度方案为所述行动家神经网络通过对所述状态信息训练得到。

4.如权利要求3所述的电力调度系统，其特征在于，所述约束参数通过下式进行更新：

式中，λ为约束参数，η₁为所述约束参数υ的学习率且0<η₁<1，为所述约束参数λ的梯度，/>由式(2-1)得到：

5.如权利要求3所述的电力调度系统，其特征在于，所述行动家神经网络通过下式对所述行动家网络参数进行更新：

式中，θ为行动家网络参数，η₂为所述行动家网络参数θ的学习率且0<η₂<1，为所述行动家网络参数θ的梯度，/>由式(2-1)得到：

6.如权利要求4所述的电力调度系统，其特征在于，所述优化条件还包括所述行动家神经网络的损失函数最小，所述损失函数f_θ通过下式得到：

7.如权利要求3所述的电力调度系统，其特征在于，所述评论家神经网络通过下式对所述评论家网络参数进行更新：

式中，υ为评论家网络参数，η₃为所述评论家网络参数υ的学习率且0<η₃<1，为的替代函数，/>为/>的替代函数，/>为/>的替代函数。

8.如权利要求1所述的电力调度系统，其特征在于，所述电力调度系统还包括传输单元，所述控制单元通过所述传输单元与综合能源电网连接，所述传输单元用于传输电力调度方案以及综合能源电网的状态信息和反馈信息。