CN115392373A

CN115392373A - 基于深度强化学习的多区域综合能源系统能量管理方法

Info

Publication number: CN115392373A
Application number: CN202211025701.1A
Authority: CN
Inventors: 谢金芳; 金鹤峰; 穆佩红; 赵琼
Original assignee: Zhejiang Yingji Power Technology Co ltd
Current assignee: Zhejiang Yingji Power Technology Co ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-25

Abstract

本发明公开了一种基于深度强化学习的多区域综合能源系统能量管理方法，包括：构建多区域综合能源系统能量管理边缘计算架构；通过网络物理层中各子区域综合能源系统设置的传感器采集综合能源系统各类数据信息，并通过无线通信设备上传至边缘层中的边缘节点；将训练完成的深度强化学习模型部署在各个边缘节点上，根据网络物理层上传的信息生成能量管理策略，并反馈给网络物理层进行系统中冷热电源各自的出力控制和储能设备的能量输入、输出量控制；在边缘层和云层之间建立迭代学习机制，当实际和预期的能量管理性能存在出入时，云服务器根据各个边缘节点上报的数据和历史学习经验重新训练深度强化学习模型，并下发至各个边缘节点。

Description

基于深度强化学习的多区域综合能源系统能量管理方法

技术领域

本发明属于综合能源系统技术领域，具体涉及一种基于深度强化学习的多区域综合能源系统能量管理方法。

背景技术

随着社会的不断发展进步，人类对于能源的需求不断增大，而石油、煤炭等传统化石能源日渐枯竭，发展环境友好的可再生能源、提高能源利用效率是当今世界共同关注的焦点。为实现区域综合能源的协调利用，需要对电、气、冷、热等多类异质能源进行多能互补，实现能源的协同耦合，进而提高能源利用效率。因此，如何高效地利用现有资源、实现能源的最优配置成为了人们关注的重点和亟待解决的问题。为了最大化资源的利用价值，构建高效、可靠的能源体系，能量管理系统应运而生。能量管理系统利用先进的监测技术和信息技术，通过实时监测设备产能和用户侧负荷，在满足用户需求的条件下提出一套设备产能优化调度的能量管理方案。

当多个区域综合能源系统距离较近时，多区域间互联有助于提升经济性与韧性，一个典型的多区域综合能源系统包括相联的多个区域，每个区域内包含电热冷系统，通过能源耦合元件相互耦合，使得不同能源形式之间相互影响。然而，目前的综合能源系统进行能量管理很少涉及多个区域之间的系统能量管理，无法实现多个区域综合能源系统的能量优化管理和系统优化控制，因此如何提高各个区域综合能源系统中各种能源之间的协同利用效率，保障多区域综合能源系统运行的经济性与可靠性是目前急需解决的问题。

基于上述技术问题，需要设计一种新的基于深度强化学习的多区域综合能源系统能量管理方法。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足，提供一种基于深度强化学习的多区域综合能源系统能量管理方法，通过构建多区域综合能源系统能量管理边缘计算架构，实现边缘层和云层之间的信息传输通道，能够合理对设备进行通信控制和有效使用既有数据，以及建立区域综合能源系统件的等效模型，考虑系统运行成本，构建以系统运行成本最小化为目标函数和相关约束条件的能量管理模型，然后由云层依据能量管理模型和获取的数据信息完成深度强化学习模型的训练，并下发至各个边缘节点，产生能量管理策略，实现各元件设备出力最优控制和储能设备的能量输入、输出量最优控制。

为了解决上述技术问题，本发明的技术方案是：

本发明提供了一种基于深度强化学习的多区域综合能源系统能量管理方法，它包括：

构建包括网络物理层、边缘层和云层的多区域综合能源系统能量管理边缘计算架构；

通过网络物理层中各子区域综合能源系统设置的不同类型传感器采集综合能源系统运行数据、运行状态和环境信息，并通过无线通信设备上传至边缘层中就近设置的边缘节点等待处理；

将训练完成的深度强化学习模型部署在各个边缘节点上，根据网络物理层上传的信息生成能量管理策略，并反馈给网络物理层进行系统中冷热电源各自的出力控制和储能设备的能量输入、输出量控制；

其中，在边缘层和云层之间建立迭代学习机制，当深度强化学习模型实际的能量管理性能和预期的能量管理性能之间存在超出预设的出入时，边缘节点会通知相应的云服务器重新启动深度强化学习模型的训练过程；云服务器根据各个边缘节点上报的数据和历史学习经验重新训练深度强化学习模型，并下发至各个边缘节点。

进一步，所述多区域综合能源系统包括相关的多个区域，每个区域内包括各类能量存储和转化元件、能量传输网络和各类负荷构成，并与电网和燃气网进行电力和天然气交互；区域之间通过联络线或联络管道相连，实现电能、天然气的交互；各个区域的能量管理系统之间通过通讯网络相连，用于交换边界信息，实现各区域间能量协同管理；所述能量存储和转化元件包括分布式电源、冷热电三联供、电锅炉、燃气锅炉、冷机和储能装置；所述各类负荷包括电负荷、热负荷和冷负荷；

其中，所述分布式电源包括光伏发电和风机发电，用于供给系统电负荷，同时一部分电能输送至冷机或电锅炉，多余的电能存储至电储能设备；所述冷热电三联供包括溴化锂制冷机和燃气内燃机；所述储能装置包括电、热、冷储能装置；冷负荷由溴化锂制冷机供给，或由冷机制冷补充；热负荷由燃气内燃机供给，燃气锅炉和电锅炉产热作为补充；能量传输网络是按照能量传输介质分为电力总线、热力总线和冷却总线，并设定相同传输介质的能量会由能量源流向总线，流向负荷的能量会从总线流出，且系统能量管理需要满足电力总线能量平衡、热力总线能量平衡和冷却总线能量平衡。

进一步，所述构建包括网络物理层、边缘层和云层的多区域综合能源系统能量管理边缘计算架构，包括：

多区域综合能源系统能量管理边缘计算架构从下向上依次构建网络物理层、边缘层和云层；

所述网络物理层包括多种类型的传感器、执行器和无线通信设备，传感器用于采集多区域综合能源系统现场的实际数据和反馈能量管理性能，至少包括系统各类能量存储和转化元件的温度数据、压力数据、流量数据、燃料燃烧数据、储能装置释能和储能运行状态、各设备能量分配、转换或储存状态和室外环境信息的采集；执行器用于执行边缘层反馈的能量管理策略；无线通信设备包括WIFI、WLAN、4G、5G和蓝牙，用于网络物理层和边缘层之间数据双向通信；

所述边缘层包括依据多区域综合能源系统的位置就近设置多个边缘节点，边缘节点中设有基站、无线访问热点、轻量级边缘服务器，通过无线通信技术向网络物理层的设备下发能量管理策略，同时通过互联网上传历史数据至云层；

所述云层由多个重量级云服务器资源组成，用于大数据存储、处理、离线分析、强化学习模型构建和能量管理优化决策；以及用于调配计算资源和分配计算任务，缓解局部边缘节点的计算压力。

进一步，在所述深度强化学习模型训练之前，还包括：构建多区域综合能源系统能量管理优化模型；

多区域综合能源系统能量管理优化模型的目标是协调区域系统中各设备元件出力，获得最小化系统运行成本；所述系统运行成本包括与主网能量交互成本、消耗的天然气成本、设备启停成本和碳排放交易成本，表示为：

min C_i＝C_d,i+C_q,i+C_g,i+C_o,i；

其中，C_i为区域i系统运行成本；C_d,i为该区域与主网能量交互成本；C_q,i为该区域消耗的天然气成本；C_g,i为该区域设备启停成本；C_o,i为该区域碳排放交易成本；

P_d(t)为t时刻综合能源系统与主网的电力交换功率，为正时表示向主网购电，为负时表示系统向主网售电；ε_d(t)为t时刻的电价；T为对该区域综合能源系统进行能量管理所考虑的总时间；

v_GT(t)、v_GB(t)分别为t时刻的燃气内燃机、燃气锅炉消耗的天然气量；ε_q(t)为t时刻的天然气单价；

U(t)为t时刻的燃气内燃机的启停状态变量；U_MT为t时刻燃气内燃机启停一次的成本；Q_c为储能装置的投资成本；N_c为标称循环寿命；n_c为储能装置在调度期间内的循环次数；

c_c为碳排放配额时碳排放权交易价格；A_n为第n台设备碳排放强度；λ_n为第n台碳排放设备单位碳排放配额；P_n,o(t)为第n台碳排放设备在t时刻的出力；N为碳排放设备的个数；

多区域综合能源系统能量管理的约束条件至少包括：

热量平衡约束：

为区域i中燃气内燃机在t时段内产生的多余热量；

为区域i中燃气锅炉在t时段内天然气燃烧后产生的热量；

为区域i中电锅炉在t时段内产生的热量；

为区域i中溴化锂制冷机在t时段内所需要的的热量；

为区域i中用户在t时段内的热负荷；

为区域i中系统t时段内的热量传输损耗；

为区域i在t时段内与热网交换的热功率；

电量平衡约束：

为区域i系统在t时段内从公网购买的电量；

为区域i中燃气内燃机在时段t内的发电量；

为区域i中分布式电源在t时段内产生的电量；

为区域i中用户在t时段内的电负荷；

为区域i中冷机在t时段内消耗的电量；

为区域i中电锅炉在t时段内的耗电量；

为区域i中系统t时段内的电传输损耗；

冷功率平衡约束：

为区域i中溴化锂制冷机在时段t内产生的冷量；

为区域i中冷机在时段t内的制冷量；

为区域i中用户在时段t内消耗的冷负荷；

为区域i中系统t时段内由于传输而损失的冷量；

元件出力范围约束：

P_m,t、

分别为第m个设备在t时刻的出力及设备出力上、下限；

联络线上下限约束：

P_i ^JH,max、P_i ^JH,min分别为区域i系统与主网之间在t时刻的交换功率及功率上、下限。

进一步，所述深度强化学习模型的训练过程：

将多区域综合能源系统划分为k个智能体，并将所述多区域综合能源系统能量管理优化模型转化为马尔科夫决策过程，S为智能体当前时刻对应的状态，A为智能体对应的行为，O为智能体的观测值，R为智能体对应的回报；构造k个智能体的Actor本地网络和Critic本地网络；构造为全局Actor网络Actor_global和全局Critic网络Critic_global；

在云层上初始化k个智能体参数和初始化Actor-Critic本地网络、Actor-Critic_global全局网络，包括智能体的状态S、行为A和执行行为后的奖励反馈误差TD_error；

初始化k个智能体参数，将状态S依次输入至对应的Actor网络中，并选择相应的行为A计算回报R，并转移到新的状态；

将状态S、行为A和新的状态输入Critic网络进行计算获得TD_error；

更新Actor-Critic本地网络和Actor-Critic_global全局网络的参数和权重；

重复上述过程直至达到回合次数或智能体完成Actor-Critic_global全局网络的训练目标，得到训练好的深度强化学习模型。

进一步，所述状态S包括各区域综合能源系统设备元件在t时刻的运行数据、各类负荷在t时刻的负荷需求、t时刻的电价、储能装置的状态；行为A包括各区域综合能源系统设备元件在t时刻的出力水平和储能设备在t时刻的能量输入、输出量；回报R是依据系统运行成本和约束条件进行设置。

进一步，所述每个智能体的Actor网络根据观测值输出每个行为的概率分布，通过采样选择行为；将每个智能体的行为反馈获得当前联合行为下的回报和下一时刻的观测值，将当前观测值、行为、回报及下一时刻观测值作为经验元组存入经验池中，用于计算局部Q值函数和对局部Q值函数进行权重的加权求和后生成全局Q值函数；

依据局部Q值函数计算损失函数，并对Critic网络进行参数更新；

依据局部Q值函数求期望获得V值函数，然后计算每个智能体在当前观测下采取当前行为所产生的优势函数，采用优势函数通过策略梯度对Actor网络进行参数更新。

进一步，所述将训练完成的深度强化学习模型部署在各个边缘节点上，根据网络物理层上传的信息生成能量管理策略，并反馈给网络物理层进行系统中冷热电源各自的出力控制和储能设备的能量输入、输出量控制，包括：

将训练完成的深度强化学习模型的参数从云层下载到边缘层，通过边缘节点重构深度强化学习模型结构和加载模型参数；

接收来自网络物理层上传的区域综合能源系统的局部状态信息，选择预测行为，输出相适应的能量管理策略；

将能量管理策略反馈给网络物理层进行系统中冷热电源各自的出力控制和储能设备的能量输入、输出量控制。

进一步，所述在边缘层和云层之间建立迭代学习机制，当深度强化学习模型实际的能量管理性能和预期的能量管理性能之间存在超出预设的出入时，边缘节点会通知相应的云服务器重新启动深度强化学习模型的训练过程，包括：

在边缘层和云层之间建立迭代学习机制，通过云端的深度强化学习模型训练机制，在不断试错、纠错中逐渐建立起自适应综合能源系统能量管理动态特性的决策能力，通过预设的评估标准验证模型的能量管理性能，当模型实际能量管理性能和预期的能量管理性能不相匹配时，重新启动云层深度强化学习模型的训练过程，调整学习参数，积累新的能量管理经验；

所述预设的评估标准验证模型包括系统执行能量管理策略后各个区域综合能源系统中元件出力评估、运行成本评估、碳排放量评估、运行效率评估多个评价指标，用来衡量执行能量管理策略后系统的运行改善状况。

本发明的有益效果是：

本发明通过构建包括网络物理层、边缘层和云层的多区域综合能源系统能量管理边缘计算架构；通过网络物理层中各子区域综合能源系统设置的不同类型传感器采集综合能源系统运行数据、运行状态和环境信息，并通过无线通信设备上传至边缘层中就近设置的边缘节点等待处理；将训练完成的深度强化学习模型部署在各个边缘节点上，根据网络物理层上传的信息生成能量管理策略，并反馈给网络物理层进行系统中冷热电源各自的出力控制和储能设备的能量输入、输出量控制；其中，在边缘层和云层之间建立迭代学习机制，当深度强化学习模型实际的能量管理性能和预期的能量管理性能之间存在超出预设的出入时，边缘节点会通知相应的云服务器重新启动深度强化学习模型的训练过程；云服务器根据各个边缘节点上报的数据和历史学习经验重新训练深度强化学习模型，并下发至各个边缘节点；通过构建多区域综合能源系统能量管理边缘计算架构，实现边缘层和云层之间的信息传输通道，能够合理对设备进行通信控制和有效使用既有数据，以及建立区域综合能源系统件的等效模型，考虑系统运行成本，构建以系统运行成本最小化为目标函数和相关约束条件的能量管理模型，然后由云层依据能量管理模型和获取的数据信息完成深度强化学习模型的训练，并下发至各个边缘节点，产生能量管理策略，实现各元件设备出力最优控制和储能设备的能量输入、输出量最优控制；将全局actor-critic学习任务分解为多个子任务，通过边缘计算的分布式计算环境实现多个actor-critic子任务的协同学习，每个局部actor-critic智能体在和实际场景反复交互中学习局部决策方法，再聚合所有局部智能体学习到的知识经验，通过全局值函数指导局部智能体的学习向着全局最优的方向演化；以及通过采用云边协同的处理机制能够满足数据离线学习与在线决策应用的需求。

其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于深度强化学习的多区域综合能源系统能量管理边缘计算架构示意图；

图2为本发明一种基于深度强化学习的多区域综合能源系统能量管理流程图；

图3为本发明区域综合能源系统示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1是本发明所涉及的一种基于深度强化学习的多区域综合能源系统能量管理边缘计算架构示意图。

图2是本发明所涉及的一种基于深度强化学习的多区域综合能源系统能量管理流程图。

图3是本发明所涉及的区域综合能源系统示意图。

如图1-3所示，本实施例1提供了一种基于深度强化学习的多区域综合能源系统能量管理方法，它包括：

在本实施例中，所述多区域综合能源系统包括相关的多个区域，每个区域内包括各类能量存储和转化元件、能量传输网络和各类负荷构成，并与电网和燃气网进行电力和天然气交互；区域之间通过联络线或联络管道相连，实现电能、天然气的交互；各个区域的能量管理系统之间通过通讯网络相连，用于交换边界信息，实现各区域间能量协同管理；所述能量存储和转化元件包括分布式电源、冷热电三联供、电锅炉、燃气锅炉、冷机和储能装置；所述各类负荷包括电负荷、热负荷和冷负荷；

在本实施例中，所述构建包括网络物理层、边缘层和云层的多区域综合能源系统能量管理边缘计算架构，包括：

需要说明的是，边缘计算技术可以将采用信息本地计算处理，通过向云端传输处理后的关键信息或直接计算得到执行策略的方式，从根本上解决了通信的延时问题，保障了数据处理的实时性，同时减少了数据传输的带宽要求，降低了通信成本。边缘计算作为云计算的扩展和补充，将部分计算智能、数据处理、存储和服务从云端下发到网络边缘端，能够在数据源分析处理和重构知识，就近产生智能控制策略，避免大数据量、长距离通信可能引发的响应延迟，本发明除了进行能量管理之外，还包括其他任务，可以将一些计算负载大的任务部署在边缘计算架构的云端加快学习和重构知识，而一些对响应延迟敏感和计算量小的任务部署在边缘计算架构的边缘端进行快速决策。

采用基于边缘计算架构的协同多智能体演员-评论家方法，采用分散控制的分布式深度强化学习解决多区域综合能源系统能量管理问题，目标是将全局的学习任务分解为针对不同区域的局部学习子任务。

在本实施例中，在所述深度强化学习模型训练之前，还包括：构建多区域综合能源系统能量管理优化模型；

min C_i＝C_d,i+C_q,i+C_g,i+C_o,i；

多区域综合能源系统能量管理的约束条件至少包括：

热量平衡约束：

为区域i中燃气内燃机在t时段内产生的多余热量；

为区域i中燃气锅炉在t时段内天然气燃烧后产生的热量；

为区域i中电锅炉在t时段内产生的热量；

为区域i中溴化锂制冷机在t时段内所需要的的热量；

为区域i中用户在t时段内的热负荷；

为区域i中系统t时段内的热量传输损耗；

为区域i在t时段内与热网交换的热功率；

电量平衡约束：

为区域i系统在t时段内从公网购买的电量；

为区域i中燃气内燃机在时段t内的发电量；

为区域i中分布式电源在t时段内产生的电量；

为区域i中用户在t时段内的电负荷；

为区域i中冷机在t时段内消耗的电量；

为区域i中电锅炉在t时段内的耗电量；

为区域i中系统t时段内的电传输损耗；

冷功率平衡约束：

为区域i中溴化锂制冷机在时段t内产生的冷量；

为区域i中冷机在时段t内的制冷量；

为区域i中用户在时段t内消耗的冷负荷；

为区域i中系统t时段内由于传输而损失的冷量；

元件出力范围约束：

P_m,t、

分别为第m个设备在t时刻的出力及设备出力上、下限；

联络线上下限约束：

在本实施例中，所述深度强化学习模型的训练过程：

在本实施例中，所述状态S包括各区域综合能源系统设备元件在t时刻的运行数据、各类负荷在t时刻的负荷需求、t时刻的电价、储能装置的状态；行为A包括各区域综合能源系统设备元件在t时刻的出力水平和储能设备在t时刻的能量输入、输出量；回报R是依据系统运行成本和约束条件进行设置。

在本实施例中，所述每个智能体的Actor网络根据观测值输出每个行为的概率分布，通过采样选择行为；将每个智能体的行为反馈获得当前联合行为下的回报和下一时刻的观测值，将当前观测值、行为、回报及下一时刻观测值作为经验元组存入经验池中，用于计算局部Q值函数和对局部Q值函数进行权重的加权求和后生成全局Q值函数；

需要说明的是，在训练时，采用经验回放算法打破连续样本间的序列相关性，提高样本使用率，强化学习中探索与执行的平衡用来完成，避免收敛到局部最优解；每个智能体分散训练自己的Actor，不会因为智能体数目增加而导致维数灾难的问题。除了本发明的多个分布式Critic网络之外，还可以通过一个集中的Critic网络来指导Actor网络，随着训练的进行能够适应彼此的动作。

在本实施例中，所述将训练完成的深度强化学习模型部署在各个边缘节点上，根据网络物理层上传的信息生成能量管理策略，并反馈给网络物理层进行系统中冷热电源各自的出力控制和储能设备的能量输入、输出量控制，包括：

在本实施例中，所述在边缘层和云层之间建立迭代学习机制，当深度强化学习模型实际的能量管理性能和预期的能量管理性能之间存在超出预设的出入时，边缘节点会通知相应的云服务器重新启动深度强化学习模型的训练过程，包括：

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于深度强化学习的多区域综合能源系统能量管理方法，其特征在于，它包括：

2.根据权利要求1所述的多区域综合能源系统能量管理方法，其特征在于，所述多区域综合能源系统包括相关的多个区域，每个区域内包括各类能量存储和转化元件、能量传输网络和各类负荷构成，并与电网和燃气网进行电力和天然气交互；区域之间通过联络线或联络管道相连，实现电能、天然气的交互；各个区域的能量管理系统之间通过通讯网络相连，用于交换边界信息，实现各区域间能量协同管理；所述能量存储和转化元件包括分布式电源、冷热电三联供、电锅炉、燃气锅炉、冷机和储能装置；所述各类负荷包括电负荷、热负荷和冷负荷；

3.根据权利要求1所述的多区域综合能源系统能量管理方法，其特征在于，所述构建包括网络物理层、边缘层和云层的多区域综合能源系统能量管理边缘计算架构，包括：

4.根据权利要求1所述的多区域综合能源系统能量管理方法，其特征在于，在所述深度强化学习模型训练之前，还包括：构建多区域综合能源系统能量管理优化模型；

minC_i＝C_d,i+C_q,i+C_g,i+C_o,i；

多区域综合能源系统能量管理的约束条件至少包括：

热量平衡约束：

为区域i中燃气内燃机在t时段内产生的多余热量；

为区域i中燃气锅炉在t时段内天然气燃烧后产生的热量；

为区域i中电锅炉在t时段内产生的热量；

为区域i中溴化锂制冷机在t时段内所需要的的热量；

为区域i中用户在t时段内的热负荷；

为区域i中系统t时段内的热量传输损耗；

为区域i在t时段内与热网交换的热功率；

电量平衡约束：

为区域i系统在t时段内从公网购买的电量；

为区域i中燃气内燃机在时段t内的发电量；

为区域i中分布式电源在t时段内产生的电量；

为区域i中用户在t时段内的电负荷；

为区域i中冷机在t时段内消耗的电量；

为区域i中电锅炉在t时段内的耗电量；

为区域i中系统t时段内的电传输损耗；

冷功率平衡约束：

为区域i中溴化锂制冷机在时段t内产生的冷量；

为区域i中冷机在时段t内的制冷量；

为区域i中用户在时段t内消耗的冷负荷；

为区域i中系统t时段内由于传输而损失的冷量；

元件出力范围约束：

P_m,t、

分别为第m个设备在t时刻的出力及设备出力上、下限；

联络线上下限约束：

5.根据权利要求4所述的多区域综合能源系统能量管理方法，其特征在于，所述深度强化学习模型的训练过程：

6.根据权利要求5所述的多区域综合能源系统能量管理方法，其特征在于，所述状态S包括各区域综合能源系统设备元件在t时刻的运行数据、各类负荷在t时刻的负荷需求、t时刻的电价、储能装置的状态；行为A包括各区域综合能源系统设备元件在t时刻的出力水平和储能设备在t时刻的能量输入、输出量；回报R是依据系统运行成本和约束条件进行设置。

7.根据权利要求5所述的多区域综合能源系统能量管理方法，其特征在于，所述每个智能体的Actor网络根据观测值输出每个行为的概率分布，通过采样选择行为；将每个智能体的行为反馈获得当前联合行为下的回报和下一时刻的观测值，将当前观测值、行为、回报及下一时刻观测值作为经验元组存入经验池中，用于计算局部Q值函数和对局部Q值函数进行权重的加权求和后生成全局Q值函数；

8.根据权利要求1所述的多区域综合能源系统能量管理方法，其特征在于，所述将训练完成的深度强化学习模型部署在各个边缘节点上，根据网络物理层上传的信息生成能量管理策略，并反馈给网络物理层进行系统中冷热电源各自的出力控制和储能设备的能量输入、输出量控制，包括：

9.根据权利要求1所述的多区域综合能源系统能量管理方法，其特征在于，所述在边缘层和云层之间建立迭代学习机制，当深度强化学习模型实际的能量管理性能和预期的能量管理性能之间存在超出预设的出入时，边缘节点会通知相应的云服务器重新启动深度强化学习模型的训练过程，包括：