CN113723749A - 一种多园区综合能源系统协调调度方法及装置 - Google Patents

一种多园区综合能源系统协调调度方法及装置 Download PDF

Info

Publication number
CN113723749A
CN113723749A CN202110820297.6A CN202110820297A CN113723749A CN 113723749 A CN113723749 A CN 113723749A CN 202110820297 A CN202110820297 A CN 202110820297A CN 113723749 A CN113723749 A CN 113723749A
Authority
CN
China
Prior art keywords
energy system
ith
park
comprehensive energy
scheduling time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110820297.6A
Other languages
English (en)
Inventor
李�昊
张静
刘畅
林晶怡
张思瑞
李斌
蒋利民
李文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Anhui Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Anhui Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110820297.6A priority Critical patent/CN113723749A/zh
Publication of CN113723749A publication Critical patent/CN113723749A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及电力系统调度技术领域,具体提供了一种多园区综合能源系统协调调度方法及装置,旨在解决无法满足综合能源系统多源、多能流和多尺度的需求的技术问题。包括:获取多园区综合能源系统的当前状态量;将所述当前状态量作为预先训练的强化学习模型的输入,获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量;其中,所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。本发明提供的技术方案有利于实现多园区综合能源系统内部各个园区间的供能互补以及资源的合理分配,从而更好的提高了多园区综合能源系统内能源的利用率。

Description

一种多园区综合能源系统协调调度方法及装置
技术领域
本发明涉及电力系统调度领域,具体涉及一种多园区综合能源系统协调调度方法及装置。
背景技术
随着经济的快速发展,人类对能源的需求不断增加,而传统的化石能源却日益枯竭。为此,人们力图通过增加新能源消费比例,同时提高能源综合利用率来解决当下面临的能源供给问题。以分布式能源为基础的综合能源系统,通过能量的梯级利用以及多种能源间的协调互补,使不同能源形态之间的耦合更加紧密,对构建清洁、低碳、安全、高效的现代化能源体系具有十分重要的意义。
园区型综合能源系统是一个复杂的多能耦合系统,可向终端用户提供灵活的多品位能源。随着经济社会的发展,同一区域内多个园区互联,并接入上级配网形成多园区综合能源系统。园区间的能量交互会对园区优化运行以及配网安全经济调度产生较大影响,亟需对多园区综合能源系统的协调优化调度问题展开研究。
新能源的不稳定性、能量流动的多向性、以及多种能量在不同时间和空间尺度的需求差异性等问题,使得多园区综合能源系统的协调优化调度面临重大挑战。针对新能源出力的波动性以及用户负荷的随机性,一般采用随机优化或鲁棒优化的方法予以应对,但这两种方法各有其优缺点,仍无法满足综合能源系统多源、多能流和多尺度的需求。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何更有效的实现多园区综合能源系统内部各个园区间的供能互补以及资源的合理分配的技术问题的多园区综合能源系统协调调度方法及装置。
第一方面,提供一种多园区综合能源系统协调调度方法,所述多园区综合能源系统协调调度方法包括:
获取多园区综合能源系统的当前状态量;
将所述当前状态量作为预先训练的强化学习模型的输入,获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量;
其中,所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。
优选的,所述状态量至少包括下述中的一种:光伏发电功率、电负荷、热负荷、冷负荷、蓄电池储能荷电状态、热储能荷电状态、调度时段;
所述动作控制量至少包括下述中的一种:蓄电池储能充放电功率、热储能储放热功率、电锅炉热功率、热电联产单元电功率、电制冷空调冷功率、燃气锅炉热功率、吸收式制冷机冷功率。
优选的,所述预先训练的强化学习模型的状态空间的数学模型如下:
Figure BDA0003171765600000021
上式中,S为状态集合;si,t为第i个园区综合能源系统在调度时段t时的状态集合;
Figure BDA0003171765600000022
为第i个园区综合能源系统在调度时段t时的光伏发电功率;
Figure BDA0003171765600000023
为第i个园区综合能源系统在调度时段t时的电负荷;
Figure BDA0003171765600000024
为第i个园区综合能源系统在调度时段t时的热负荷;
Figure BDA0003171765600000025
为第i个园区综合能源系统在调度时段t时的冷负荷;
Figure BDA0003171765600000026
为第i个园区综合能源系统在调度时段t时的蓄电池储能荷电状态;
Figure BDA0003171765600000027
为第i个园区综合能源系统在调度时段t时的热储能荷电状态;t为调度时段;
所述预先训练的强化学习模型的动作空间的数学模型如下:
Figure BDA0003171765600000028
上式中,A为动作集合;ai,t为第i个园区综合能源系统在调度时段t时的状态集合;
Figure BDA0003171765600000029
为第i个园区综合能源系统在调度时段t时的蓄电池储能充放电功率;
Figure BDA00031717656000000210
为第i个园区综合能源系统在调度时段t时的热储能储放热功率;
Figure BDA00031717656000000211
为第i个园区综合能源系统在调度时段t时的电锅炉热功率;
Figure BDA00031717656000000212
为第i个园区综合能源系统在调度时段t时的热电联产单元电功率;
Figure BDA00031717656000000213
为第i个园区综合能源系统在调度时段t时的电制冷空调冷功率;
Figure BDA00031717656000000214
为第i个园区综合能源系统在调度时段t时的燃气锅炉热功率;
Figure BDA00031717656000000215
为第i个园区综合能源系统在调度时段t时的吸收式制冷机冷功率;
所述预先训练的强化学习模型的奖励函数的数学模型如下:
Figure BDA00031717656000000216
上式中,ri,t为第i个园区综合能源系统在调度时段t时的奖励函数;1/2500为收益值缩放系数;
Figure BDA0003171765600000031
为第i个园区综合能源系统在调度时段t时的电力市场收益;
Figure BDA0003171765600000032
为第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本;
Figure BDA0003171765600000033
为第i个园区综合能源系统在调度时段t时的中断负荷成本。
进一步的,所述第i个园区综合能源系统在调度时段t时的电力市场收益
Figure BDA0003171765600000034
的计算式如下:
Figure BDA0003171765600000035
所述第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本
Figure BDA0003171765600000036
的计算式如下:
Figure BDA0003171765600000037
所述第i个园区综合能源系统在调度时段t时的中断负荷成本
Figure BDA0003171765600000038
的计算式如下:
Figure BDA0003171765600000039
上式中,
Figure BDA00031717656000000310
为调度时段t时电力市场的电价;
Figure BDA00031717656000000311
为第i个园区综合能源系统在调度时段t时与主电网的交易量;
Figure BDA00031717656000000312
为调度时段t时的天然气价格;K为中断等级数;
Figure BDA00031717656000000313
为第k级中断负荷补偿价格;
Figure BDA00031717656000000314
为第i个园区综合能源系统在调度时段t时的第k级中断负荷;
Figure BDA00031717656000000315
为第i个园区综合能源系统在调度时段t时热电联供单元天然气耗量;
Figure BDA00031717656000000316
为第i个园区综合能源系统在调度时段t时燃气锅炉天然气耗量。
优选的,所述预先训练的强化学习模型的约束条件至少包括下述中的一种:冷热电功率平衡约束、热冷管道约束、蓄电池储能约束、热储能约束、中断负荷约束和设备出力上下限约束。
优选的,所述预先训练的强化学习模型的损失函数的数学模型如下:
Figure BDA00031717656000000317
上式中,Q为动作-值函数;
Figure BDA00031717656000000318
为第i个园区综合能源系统对应的智能体的损失函数;yi,t为目标Q值;ω(i,j)是第j个园区综合能源系统对应的智能体发送给第i个园区综合能源系统对应的智能体的Q值权重;N为园区综合能源系统总数;
Figure BDA0003171765600000041
分别为第i个园区综合能源系统对应的智能体和第j个园区综合能源系统对应的智能体的评论家网络参数;si,t为第i个园区综合能源系统在调度时段t时的状态集合;ai,t为第i个园区综合能源系统在调度时段t时的动作集合;sj,t-1为第j个园区综合能源系统在调度时段t-1时的状态集合;aj,t-1为第j个园区综合能源系统在调度时段t-1时的动作集合;E为求期望。
进一步的,所述目标Q值yi,t的数学模型如下:
Figure BDA0003171765600000042
上式中,γ为奖励折扣系数,γ∈[0,1];
Figure BDA0003171765600000043
为第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数;
Figure BDA0003171765600000044
为第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数;si,t+1为第i个园区综合能源系统在调度时段t+1时的状态集合;π′为目标策略;
所述第i个园区综合能源系统对应的智能体的评论家网络参数的更新公式为:
Figure BDA0003171765600000045
上式中,αQ为评论家网络的学习率;
所述第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数
Figure BDA0003171765600000046
的更新公式为:
Figure BDA0003171765600000047
所述第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数
Figure BDA0003171765600000048
的更新公式为:
Figure BDA0003171765600000049
上式中,τ为软更新系数;
Figure BDA00031717656000000410
为第i个园区综合能源系统对应的智能体的演员网络参数,其更新公式为:
Figure BDA00031717656000000411
上式中,απ为演员网络的学习率;
Figure BDA00031717656000000412
为确定性策略;Ni,t为随机噪声。
优选的,所述预先训练的强化学习模型的训练过程包括:
以多园区综合能源系统的历史状态量为训练样本,采用mini-batch的方式对初始强化学习模型进行训练。
第二方面,提供一种多园区综合能源系统协调调度装置,所述多园区综合能源系统协调调度装置包括:
获取模块,用于获取多园区综合能源系统的当前状态量;
输出模块,用于将所述当前状态量作为预先训练的强化学习模型的输入,获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量;
其中,所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。
第三方面,提供一种多园区综合能源系统协调调度设备,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现所述的多园区综合能源系统协调调度方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
本发明提供了一种多园区综合能源系统协调调度方法及装置,旨在解决无法满足综合能源系统多源、多能流和多尺度的需求的技术问题。包括:获取多园区综合能源系统的当前状态量;将所述当前状态量作为预先训练的强化学习模型的输入,获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量;其中,所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。与各园区单独优化相比,本发明提供的技术方案实现了多园区协调运行,能够更加有效地利用不同园区的能源,实现资源的合理分配以及各个园区间的供能互补,从而更好的提高了多园区综合能源系统内能源系统收益及利用率;
进一步的,本发明提供的技术方案中预先训练的强化学习模型的损失函数中引入了其它园区综合能源系统对应的智能体在最近时刻的Q值,且不同园区综合能源系统对应的智能体的Q值具有不同的权重,实现了各智能体间的信息交互,相比于传统深度强化算法不考虑智能体间信息交互,从算法层面上考虑了各园区间的相互影响,此模型更贴合多园区综合能源系统运行实际。此外,利用历史状态量对强化学习模型进行训练,输出多园区综合能源系统的动作控制量,与已有的综合能源系统调度方法不同,此过程不依赖于对可再生能源和负荷进行预测或建模,精度高,适用性更强。
附图说明
图1是根据本发明的一个实施例的多园区综合能源系统协调调度方法的主要步骤流程示意图;
图2是本发明实施例中多园区综合能源系统架构图;
图3是本发明实施例中冷热电联产系统结构图;
图4是本发明实施例中单智能体训练过程示意图;
图5是本发明实施例中训练过程中的奖励曲线;
图6是本发明实施例中典型日工业区电能调度结果;
图7是本发明实施例中典型日工业区热能调度结果;
图8是本发明实施例中典型日工业区冷能调度结果;
图9是根据本发明的一个实施例的多园区综合能源系统协调调度装置的主要结构框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参阅附图1,图1是根据本发明的一个实施例的多园区综合能源系统协调调度方法的主要步骤流程示意图。如图1所示,本发明实施例中的多园区综合能源系统协调调度方法主要包括以下步骤:
步骤S101:获取多园区综合能源系统的当前状态量;
步骤S102:将所述当前状态量作为预先训练的强化学习模型的输入,获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量;
其中,所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。
所述状态量至少包括下述中的一种:光伏发电功率、电负荷、热负荷、冷负荷、蓄电池储能荷电状态、热储能荷电状态、调度时段;
所述动作控制量至少包括下述中的一种:蓄电池储能充放电功率、热储能储放热功率、电锅炉热功率、热电联产单元电功率、电制冷空调冷功率、燃气锅炉热功率、吸收式制冷机冷功率。
本实施例中,在构建强化学习模型之前,需构建多园区综合能源系统架构,建立多园区综合能源系统协调调度的目标函数和约束条件,具体包括下述步骤:
(1)以冷热电联供系统结构为基础,构建多园区综合能源系统架构,系统内部包含工业区、商业区和居民区三个园区,每个园区均配置相应的冷热电联供机组;
(2)建立热电联供单元、电制冷空调、冷热管道等内部资源能量转换模型,以最大化系统收益为目标,建立多园区综合能源系统协调调度模型;
进一步的,在本发明的多园区综合能源系统中,不同区域间存在信息和能源的交互。每一个区域都配有独立的冷热电联供机组。在整体研究对象中,电网为辐射型网络,热网和冷网为环形网络,多园区综合能源系统架构如图2所示。
冷热电联供机组实现了不同能源之间的相互耦合,其中包含光伏电站、蓄电池、热储能、热电联供单元、余热回收装置、燃气锅炉、电锅炉、电制冷空调、吸收式制冷机以及冷热电负荷等,通过多种能源的耦合转换可同时满足冷、热、电多种能源的供应需求,冷热电联产系统结构如图3所示。
根据本发明所建立的多园区综合能源系统基本架构,对内部资源进行建模。
热电联供单元的发电功率为:
Figure BDA0003171765600000071
式中:
Figure BDA0003171765600000072
为t时段i区域热电联供单元电功率;
Figure BDA0003171765600000073
为t时段i区域热电联供单元天然气耗量;
Figure BDA0003171765600000074
为i区域热电联供单元效率。
热电联产单元在发电的同时,还可以利用相关装置对排出的高温烟气进行收集制热,用于供热和热水供应,热电联供单元的热功率与电功率比值为热电比a,可表示为:
Figure BDA0003171765600000075
式中:a为热电比;
Figure BDA0003171765600000076
为t时段i区域燃气轮机热功率。
余热回收装置收集来自热电联供单元的高温烟气供给系统的热负荷需求,供热功率计算如下:
Figure BDA0003171765600000077
式中:
Figure BDA0003171765600000078
为t时段i区域余热回收装置供热功率;
Figure BDA0003171765600000079
为i区域余热回收装置效率。
燃气锅炉消耗天然气提供热能,热功率计算如下:
Figure BDA00031717656000000710
式中:
Figure BDA0003171765600000081
为t时段i区域燃气锅炉热功率;
Figure BDA0003171765600000082
为t时段i区域燃气锅炉天然气耗量;
Figure BDA0003171765600000083
为i区域燃气锅炉效率。
电锅炉通过消耗电能直接产生热能以满足用户供热需求,热功率计算如下:
Figure BDA0003171765600000084
式中:
Figure BDA0003171765600000085
为t时段区域i电锅炉热功率;
Figure BDA0003171765600000086
为t时段区域i电锅炉输入电功率;
Figure BDA0003171765600000087
为区域i电锅炉效率。
电制冷空调和吸收式制冷机分别通过耗电和吸热的方式产冷来满足冷负荷需求,功率转换关系为:
Figure BDA0003171765600000088
Figure BDA0003171765600000089
式中:
Figure BDA00031717656000000810
分别为t时段区域i电制冷空调输入电功率和输出冷功率;
Figure BDA00031717656000000811
分别为t时段i区域吸收式制冷机输入热功率和输出冷功率;
Figure BDA00031717656000000812
分别为区域i电制冷空调和吸收式制冷机制冷系数。
蓄电池储能和热储能的荷电状态计算如下:
Figure BDA00031717656000000813
Figure BDA00031717656000000814
式中:
Figure BDA00031717656000000815
分别为t+1时段区域i蓄电池荷电状态和热储能荷电状态;
Figure BDA00031717656000000816
Figure BDA00031717656000000817
分别为t时段区域i蓄电池荷电状态和热储能荷电状态;
Figure BDA00031717656000000818
分别为t时段区域i蓄电池充、放电功率和热储能储、放热功率;
Figure BDA00031717656000000819
分别为区域i蓄电池充、放电效率和热储能储、放热效率;
Figure BDA00031717656000000820
分别为区域i蓄电池容量和热储能容量;Δt为时间步长。
热能和冷能的传输通过热、冷管道的输送来实现,计及热能和冷能损耗的热、冷管道模型如下:
Figure BDA00031717656000000821
Figure BDA0003171765600000091
式中:
Figure BDA0003171765600000092
分别为t时段区域i向j输送能量时i输出的热功率和j输入的热功率;
Figure BDA0003171765600000093
分别为t时段区域i向j输送能量时i输出的冷功率和j输入的冷功率;ηTF、ηCF分别为单位距离热能和冷能损耗率;Di,j为区域i到j的距离。
多园区综合能源系统优化调度问题的目标是协调系统中各单元出力,获得最大化收益(最小化成本),其目标函数为:
Figure BDA0003171765600000094
式中:
Figure BDA0003171765600000095
为电力市场收益;
Figure BDA0003171765600000096
为热电联供单元和燃气锅炉购买天然气成本;
Figure BDA0003171765600000097
为中断负荷成本,T为总调度时段,N为总园区个数。
目标函数中各部分具体表达式为:
Figure BDA0003171765600000098
式中:
Figure BDA0003171765600000099
为电力市场收益;
Figure BDA00031717656000000910
为t时段电力市场的电价;
Figure BDA00031717656000000911
为t时段区域i与主电网的交易量(正为售电,负为购电)。
Figure BDA00031717656000000912
式中:
Figure BDA00031717656000000913
为热电联供单元和燃气锅炉购买天然气成本;
Figure BDA00031717656000000914
为t时段天然气价格。
Figure BDA00031717656000000915
式中:
Figure BDA00031717656000000916
为中断负荷成本;K为中断等级数;
Figure BDA00031717656000000917
为第k级中断负荷补偿价格;
Figure BDA00031717656000000918
为第k级中断负荷。
以最大化收益为目标的多园区综合能源系统优化调度模型的约束条件包括冷热电功率平衡约束、热冷管道约束、蓄电池储能约束、热储能约束、中断负荷约束和设备出力上下限约束。
利用强化学习适合求解含不确定性因素的优化决策问题的优势,基于上述构建的多园区综合能源系统架构,以及多园区综合能源系统协调调度的目标函数和约束条件,本发明将多园区综合能源系统调度决策问题表述为强化学习框架,利用强化学习框架对计及间歇性新能源发电和用户负荷需求随机波动的多园区综合能源系统的协调优化调度问题进行求解。
强化学习的基本组成部分包括表征环境的状态集合S,表征智能体动作的动作集合A及对智能体的奖励r。在本发明中,综合能源系统是智能体的环境,智能体通过调节系统中的设备出力进行最优调度决策。综合能源系统的观测状态包括光伏发电功率、电负荷、热负荷、冷负荷、蓄电池储能荷电状态、热储能荷电状态以及调度时段。因此,所述预先训练的强化学习模型的状态空间的数学模型如下:
Figure BDA0003171765600000101
上式中,S为状态集合;si,t为第i个园区综合能源系统在调度时段t时的状态集合;
Figure BDA0003171765600000102
为第i个园区综合能源系统在调度时段t时的光伏发电功率;
Figure BDA0003171765600000103
为第i个园区综合能源系统在调度时段t时的电负荷;
Figure BDA0003171765600000104
为第i个园区综合能源系统在调度时段t时的热负荷;
Figure BDA0003171765600000105
为第i个园区综合能源系统在调度时段t时的冷负荷;
Figure BDA0003171765600000106
为第i个园区综合能源系统在调度时段t时的蓄电池储能荷电状态;
Figure BDA0003171765600000107
为第i个园区综合能源系统在调度时段t时的热储能荷电状态;t为调度时段;
在时段t,综合能源系统中的动作可由设备的出力情况来表示,包括蓄电池储能充放电功率、热储能储放热功率、电锅炉热功率、热电联产单元电功率、电制冷空调冷功率、燃气锅炉热功率以及吸收式制冷机冷功率,其它动作量可由这些动作量间接求出。因此,所述预先训练的强化学习模型的动作空间的数学模型如下:
Figure BDA0003171765600000108
上式中,A为动作集合;ai,t为第i个园区综合能源系统在调度时段t时的状态集合;
Figure BDA0003171765600000109
为第i个园区综合能源系统在调度时段t时的蓄电池储能充放电功率;
Figure BDA00031717656000001010
为第i个园区综合能源系统在调度时段t时的热储能储放热功率;
Figure BDA00031717656000001011
为第i个园区综合能源系统在调度时段t时的电锅炉热功率;
Figure BDA00031717656000001012
为第i个园区综合能源系统在调度时段t时的热电联产单元电功率;
Figure BDA00031717656000001013
为第i个园区综合能源系统在调度时段t时的电制冷空调冷功率;
Figure BDA00031717656000001014
为第i个园区综合能源系统在调度时段t时的燃气锅炉热功率;
Figure BDA00031717656000001015
为第i个园区综合能源系统在调度时段t时的吸收式制冷机冷功率;
所述预先训练的强化学习模型的奖励函数的数学模型如下:
Figure BDA00031717656000001016
上式中,ri,t为第i个园区综合能源系统在调度时段t时的奖励函数;1/2500为收益值缩放系数;
Figure BDA0003171765600000111
为第i个园区综合能源系统在调度时段t时的电力市场收益;
Figure BDA0003171765600000112
为第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本;
Figure BDA0003171765600000113
为第i个园区综合能源系统在调度时段t时的中断负荷成本。
进一步的,所述第i个园区综合能源系统在调度时段t时的电力市场收益
Figure BDA0003171765600000114
的计算式如下:
Figure BDA0003171765600000115
所述第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本
Figure BDA0003171765600000116
的计算式如下:
Figure BDA0003171765600000117
所述第i个园区综合能源系统在调度时段t时的中断负荷成本
Figure BDA0003171765600000118
的计算式如下:
Figure BDA0003171765600000119
上式中,
Figure BDA00031717656000001110
为调度时段t时电力市场的电价;
Figure BDA00031717656000001111
为第i个园区综合能源系统在调度时段t时与主电网的交易量;
Figure BDA00031717656000001112
为调度时段t时的天然气价格;K为中断等级数;
Figure BDA00031717656000001113
为第k级中断负荷补偿价格;
Figure BDA00031717656000001114
为第i个园区综合能源系统在调度时段t时的第k级中断负荷;
Figure BDA00031717656000001115
为第i个园区综合能源系统在调度时段t时热电联供单元天然气耗量;
Figure BDA00031717656000001116
为第i个园区综合能源系统在调度时段t时燃气锅炉天然气耗量。
其中,所述预先训练的强化学习模型的约束条件至少包括下述中的一种:冷热电功率平衡约束、热冷管道约束、蓄电池储能约束、热储能约束、中断负荷约束和设备出力上下限约束。
本发明实施例中,还将其它智能体最近时刻的最优Q值迁移到每个智能体的损失函数中,提出一种带有Q值迁移的协同深度确定性策略梯度算法;
针对多园区综合能源系统的协调调度问题,为使得各园区间能够更好地协调运行,本发明提出一种带有Q值迁移的协同深度确定性策略梯度算法。该算法将整个综合能源系统建模为多智能体系统,每个智能体控制其中一个园区,为使各智能体协同工作,每个智能体考虑其它智能体的最近动作对自身的影响,将其它智能体最近时刻的最优Q值迁移到当前智能体的评论家网络的损失函数中,以实现各园区相互学习、协调运行。
深度确定性策略梯度算法分别使用参数为θπ、θQ的演员网络和评论家网络来表示确定性策略a=π(s|θπ)和动作-值函数Q(s,a|θQ),其中,演员网络用来更新策略,对应演员-评论家框架中的演员;评论家网络用来逼近状态动作对的值函数,并提供梯度信息,对应演员-评论家框架中的评论家。每个网络均有各自的目标网络,对应网络参数分别为θπ′和θQ′
评论家网络通过最小化损失函数来优化参数,考虑到各园区间相互影响,将其它智能体最近时刻的最优Q值迁移到每个智能体的损失函数中,形成各智能体的损失函数,因此,所述预先训练的强化学习模型的损失函数的数学模型如下:
Figure BDA0003171765600000121
上式中,Q为动作-值函数;
Figure BDA0003171765600000122
为第i个园区综合能源系统对应的智能体的损失函数;yi,t为目标Q值;ω(i,j)是第j个园区综合能源系统对应的智能体发送给第i个园区综合能源系统对应的智能体的Q值权重;N为园区综合能源系统总数;
Figure BDA0003171765600000123
分别为第i个园区综合能源系统对应的智能体和第j个园区综合能源系统对应的智能体的评论家网络参数;si,t为第i个园区综合能源系统在调度时段t时的状态集合;ai,t为第i个园区综合能源系统在调度时段t时的动作集合;sj,t-1为第j个园区综合能源系统在调度时段t-1时的状态集合;aj,t-1为第j个园区综合能源系统在调度时段t-1时的动作集合;E为求期望。
进一步的,所述目标Q值yi,t的数学模型如下:
Figure BDA0003171765600000124
上式中,γ为奖励折扣系数,γ∈[0,1];
Figure BDA0003171765600000125
为第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数;
Figure BDA0003171765600000126
为第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数;si,t+1为第i个园区综合能源系统在调度时段t+1时的状态集合;π′为目标策略;
所述第i个园区综合能源系统对应的智能体的评论家网络参数的更新公式为:
Figure BDA0003171765600000131
上式中,αQ为评论家网络的学习率;
所述第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数
Figure BDA0003171765600000132
的更新公式为:
Figure BDA0003171765600000133
所述第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数
Figure BDA0003171765600000134
的更新公式为:
Figure BDA0003171765600000135
上式中,τ为软更新系数;
Figure BDA0003171765600000136
为第i个园区综合能源系统对应的智能体的演员网络参数,其更新公式为:
Figure BDA0003171765600000137
上式中,απ为演员网络的学习率;
Figure BDA0003171765600000138
为确定性策略;Ni,t为随机噪声。
本实施例中,所述预先训练的强化学习模型的训练过程包括:
以多园区综合能源系统的历史状态量为训练样本,采用mini-batch的方式对初始强化学习模型进行训练。
在一个实施方式中,对智能体进行训练直至总奖励值收敛,根据训练好的智能体得到多园区综合能源系统协调调度策略,并应用于系统一天的实时调度。
在学习过程中,由于智能体与环境的顺序交互,样本是有关联的,这意味着这些样本并不像大多数深度学习算法所假设的具备独立同分布特性。为此,本发明中深度确定性策略梯度算法采用了深度Q网络中的经验回放机制,通过在每个时段存储智能体的经验,形成回放记忆序列D。训练时,每次从D中随机提取小批量(mini-batch,大小为M)的经验样本,并基于梯度规则更新网络参数。经验回放机制通过随机采样历史数据打破了数据之间的相关性,而经验的重复使用也增加了数据的使用效率。
演员网络和评论家网络的隐含层层数均为2层,每层有128个神经元,隐含层均采用Relu非线性激活函数,输出层采用Softmax激活函数;折扣因子为0.95,mini-batch大小为128,经验池大小为30 000,评论家网络学习率为0.001,演员网络学习率为0.0001,软更新系数为0.001。单智能体训练过程如图4所示。
为了进一步理解本发明,下面以图2所示的冷热电联供型多园区综合能源系统为例,来解释本发明的实际应用。
各区域设备容量配置相同,其工作参数如表1所示。系统调度时段长度为24h,相邻2个时段的间隔为1h。蓄电池容量为600kW·h,热储能容量为400kW·h,二者初始荷电状态均为0.4。其他设备参数如表2所示。
表1 设备工作参数
Figure BDA0003171765600000141
表2 其它设备参数
Figure BDA0003171765600000142
为了展现所提方法的收敛性能,图5给出了智能体训练过程中每100个调度周期的平均奖励值曲线。该算法经过约40000个周期后收敛,得到了最优的协调优化调度策略。可以观察到,由于智能体最初对环境不熟悉,其执行调度决策后获得的奖励值较小,不过随着训练过程的持续,智能体不断地与环境交互并获得经验,奖励值的整体趋势为逐渐增加并最终收敛。这说明智能体已经学习到了最大化系统收益的最优调度策略。由于在每个周期中的日训练数据,如负荷数据和光伏发电数据都有变化,因此在训练过程中奖励值会出现振荡。
为说明本发明优化调度方案的优越性,设置以下2种运行方案:
方案1:综合能源系统各园区间未通过冷热管道相连,每个园区的负荷由各园区独自供给,各园区单独运行。
方案2:综合能源系统各园区间通过冷热管道相连,各园区协调运行。
采用上述2种方案构建典型日调度优化模型,运行成本如表3所示。
表3 两种方案运行收益与成本
Figure BDA0003171765600000151
方案2相比于方案1来说,各园区间通过冷、热管道相连,通过管道连接,轻负荷区域可以向重负荷区域供能,使得典型日热电联产单元成本增加。热电联产单元供热增加的同时,电锅炉和燃气锅炉输出减少,导致综合能源系统向主网购电减少,燃气锅炉成本降低。并且更多的热能通过吸收式制冷机供冷,减少了电制冷空调输出,向主网购电量进一步减少,电力市场收益提高,综合能源系统总成本进一步降低。由此可见,与各区域的单独优化相比,多个园区协同运行确实可以更有效地利用不同区域的能源,实现资源的合理配置,从而获得更好的经济效益。
限于篇幅,以该综合能源系统内工业区为例,探究区域内电、热、冷功率优化情况如图6-8所示。
由图6可以看出,工业区中的电能供应主要来自于热电联供单元供电和向主网购电。1-7时段和22-24时段,热电联供单元输出功率为零,电负荷需求通过向主网购电和蓄电池放电满足。随着热电联供单元输出功率的增加,综合能源向主网购电量逐渐减少。在15-20时段,热电联供单元输出较大功率,中断负荷量和蓄电池放电量也达到较大值。
由图7可以看出,工业区的热能供应主要来自于余热装置供热、电锅炉供热、燃气锅炉功率、热储能放热和热管道输入。余热装置供热趋势基本与热电联供单元供电趋势相对应。1-7时段,工业区主要通过电锅炉供热、燃气锅炉供热、热储能放热和热管道输入满足热负荷需求。15-18时段,工业区热能供应不足,其他园区通过热管道向工业区输入热能,实现了功能互补。
由图8可以看出,工业区的冷能供应来自于电制冷空调输出、吸收式制冷机输出和冷管道输入。13-20时段,工业区内多余热功率通过吸收式制冷机转换为冷功率,同时冷管道输入冷功率以弥补冷功率缺额。由此可知,通过园区间协调优化调度,综合能源内各园区间实现了很好的供能互补,当工业区冷能和热能供应不足时,其他园区通过热、冷管道向该区供能。
为进一步说明本发明提出的基于深度强化学习的多园区综合能源系统协调调度方法的优越性,将此算法与基于遗传算法、深度Q网络以及深度确定性策略梯度的调度方法进行对比。表4给出了从测试集中随机选取的15个测试日的四种算法日运行成本对比结果。从日运行成本的最大值、最小值、平均值以及随机选取的测试日的日运行成本来看,本发明算法较其它3种算法获得了更好的经济性能,能有效地降低系统运行成本。
表4 四种算法日运行成本
Figure BDA0003171765600000161
基于同一发明构思,本发明还提供一种多园区综合能源系统协调调度装置,如图9所示,所述多园区综合能源系统协调调度装置包括:
获取模块,用于获取多园区综合能源系统的当前状态量;
输出模块,用于将所述当前状态量作为预先训练的强化学习模型的输入,获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量;
其中,所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。
优选的,所述状态量至少包括下述中的一种:光伏发电功率、电负荷、热负荷、冷负荷、蓄电池储能荷电状态、热储能荷电状态、调度时段;
所述动作控制量至少包括下述中的一种:蓄电池储能充放电功率、热储能储放热功率、电锅炉热功率、热电联产单元电功率、电制冷空调冷功率、燃气锅炉热功率、吸收式制冷机冷功率。
优选的,所述预先训练的强化学习模型的状态空间的数学模型如下:
Figure BDA0003171765600000162
上式中,S为状态集合;si,t为第i个园区综合能源系统在调度时段t时的状态集合;
Figure BDA0003171765600000163
为第i个园区综合能源系统在调度时段t时的光伏发电功率;
Figure BDA0003171765600000171
为第i个园区综合能源系统在调度时段t时的电负荷;
Figure BDA0003171765600000172
为第i个园区综合能源系统在调度时段t时的热负荷;
Figure BDA0003171765600000173
为第i个园区综合能源系统在调度时段t时的冷负荷;
Figure BDA0003171765600000174
为第i个园区综合能源系统在调度时段t时的蓄电池储能荷电状态;
Figure BDA0003171765600000175
为第i个园区综合能源系统在调度时段t时的热储能荷电状态;t为调度时段;
所述预先训练的强化学习模型的动作空间的数学模型如下:
Figure BDA0003171765600000176
上式中,A为动作集合;ai,t为第i个园区综合能源系统在调度时段t时的状态集合;
Figure BDA0003171765600000177
为第i个园区综合能源系统在调度时段t时的蓄电池储能充放电功率;
Figure BDA0003171765600000178
为第i个园区综合能源系统在调度时段t时的热储能储放热功率;
Figure BDA0003171765600000179
为第i个园区综合能源系统在调度时段t时的电锅炉热功率;
Figure BDA00031717656000001710
为第i个园区综合能源系统在调度时段t时的热电联产单元电功率;
Figure BDA00031717656000001711
为第i个园区综合能源系统在调度时段t时的电制冷空调冷功率;
Figure BDA00031717656000001712
为第i个园区综合能源系统在调度时段t时的燃气锅炉热功率;
Figure BDA00031717656000001713
为第i个园区综合能源系统在调度时段t时的吸收式制冷机冷功率;
所述预先训练的强化学习模型的奖励函数的数学模型如下:
Figure BDA00031717656000001714
上式中,ri,t为第i个园区综合能源系统在调度时段t时的奖励函数;1/2500为收益值缩放系数;
Figure BDA00031717656000001715
为第i个园区综合能源系统在调度时段t时的电力市场收益;
Figure BDA00031717656000001716
为第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本;
Figure BDA00031717656000001717
为第i个园区综合能源系统在调度时段t时的中断负荷成本。
进一步的,所述第i个园区综合能源系统在调度时段t时的电力市场收益
Figure BDA00031717656000001718
的计算式如下:
Figure BDA00031717656000001719
所述第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本
Figure BDA0003171765600000181
的计算式如下:
Figure BDA0003171765600000182
所述第i个园区综合能源系统在调度时段t时的中断负荷成本
Figure BDA0003171765600000183
的计算式如下:
Figure BDA0003171765600000184
上式中,
Figure BDA0003171765600000185
为调度时段t时电力市场的电价;
Figure BDA0003171765600000186
为第i个园区综合能源系统在调度时段t时与主电网的交易量;
Figure BDA0003171765600000187
为调度时段t时的天然气价格;K为中断等级数;
Figure BDA0003171765600000188
为第k级中断负荷补偿价格;
Figure BDA0003171765600000189
为第i个园区综合能源系统在调度时段t时的第k级中断负荷;
Figure BDA00031717656000001810
为第i个园区综合能源系统在调度时段t时热电联供单元天然气耗量;
Figure BDA00031717656000001811
为第i个园区综合能源系统在调度时段t时燃气锅炉天然气耗量。
优选的,所述预先训练的强化学习模型的约束条件至少包括下述中的一种:冷热电功率平衡约束、热冷管道约束、蓄电池储能约束、热储能约束、中断负荷约束和设备出力上下限约束。
优选的,所述预先训练的强化学习模型的损失函数的数学模型如下:
Figure BDA00031717656000001812
上式中,Q为动作-值函数;
Figure BDA00031717656000001813
为第i个园区综合能源系统对应的智能体的损失函数;yi,t为目标Q值;ω(i,j)是第j个园区综合能源系统对应的智能体发送给第i个园区综合能源系统对应的智能体的Q值权重;N为园区综合能源系统总数;
Figure BDA00031717656000001814
分别为第i个园区综合能源系统对应的智能体和第j个园区综合能源系统对应的智能体的评论家网络参数;si,t为第i个园区综合能源系统在调度时段t时的状态集合;ai,t为第i个园区综合能源系统在调度时段t时的动作集合;sj,t-1为第j个园区综合能源系统在调度时段t-1时的状态集合;aj,t-1为第j个园区综合能源系统在调度时段t-1时的动作集合;E为求期望。
进一步的,所述目标Q值yi,t的数学模型如下:
Figure BDA00031717656000001815
上式中,γ为奖励折扣系数,γ∈[0,1];
Figure BDA0003171765600000191
为第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数;
Figure BDA0003171765600000192
为第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数;si,t+1为第i个园区综合能源系统在调度时段t+1时的状态集合;π′为目标策略;
所述第i个园区综合能源系统对应的智能体的评论家网络参数的更新公式为:
Figure BDA0003171765600000193
上式中,αQ为评论家网络的学习率;
所述第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数
Figure BDA0003171765600000194
的更新公式为:
Figure BDA0003171765600000195
所述第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数
Figure BDA0003171765600000196
的更新公式为:
Figure BDA0003171765600000197
上式中,τ为软更新系数;
Figure BDA0003171765600000198
为第i个园区综合能源系统对应的智能体的演员网络参数,其更新公式为:
Figure BDA0003171765600000199
上式中,απ为演员网络的学习率;
Figure BDA00031717656000001910
为确定性策略;Ni,t为随机噪声。
优选的,所述预先训练的强化学习模型的训练过程包括:
以多园区综合能源系统的历史状态量为训练样本,采用mini-batch的方式对初始强化学习模型进行训练。
基于同一发明构思,本发明还提供一种多园区综合能源系统协调调度设备,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现所述的多园区综合能源系统协调调度方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种多园区综合能源系统协调调度方法,其特征在于,所述方法包括:
获取多园区综合能源系统的当前状态量;
将所述当前状态量作为预先训练的强化学习模型的输入,获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量;
其中,所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。
2.如权利要求1所述的方法,其特征在于,所述状态量至少包括下述中的一种:光伏发电功率、电负荷、热负荷、冷负荷、蓄电池储能荷电状态、热储能荷电状态、调度时段;
所述动作控制量至少包括下述中的一种:蓄电池储能充放电功率、热储能储放热功率、电锅炉热功率、热电联产单元电功率、电制冷空调冷功率、燃气锅炉热功率、吸收式制冷机冷功率。
3.如权利要求1所述的方法,其特征在于,所述预先训练的强化学习模型的状态空间的数学模型如下:
Figure FDA0003171765590000011
上式中,S为状态集合;si,t为第i个园区综合能源系统在调度时段t时的状态集合;
Figure FDA0003171765590000012
为第i个园区综合能源系统在调度时段t时的光伏发电功率;
Figure FDA0003171765590000013
为第i个园区综合能源系统在调度时段t时的电负荷;
Figure FDA0003171765590000014
为第i个园区综合能源系统在调度时段t时的热负荷;
Figure FDA0003171765590000015
为第i个园区综合能源系统在调度时段t时的冷负荷;
Figure FDA0003171765590000016
为第i个园区综合能源系统在调度时段t时的蓄电池储能荷电状态;
Figure FDA0003171765590000017
为第i个园区综合能源系统在调度时段t时的热储能荷电状态;t为调度时段;
所述预先训练的强化学习模型的动作空间的数学模型如下:
Figure FDA0003171765590000018
上式中,A为动作集合;ai,t为第i个园区综合能源系统在调度时段t时的状态集合;
Figure FDA0003171765590000019
为第i个园区综合能源系统在调度时段t时的蓄电池储能充放电功率;
Figure FDA00031717655900000110
为第i个园区综合能源系统在调度时段t时的热储能储放热功率;
Figure FDA00031717655900000111
为第i个园区综合能源系统在调度时段t时的电锅炉热功率;
Figure FDA00031717655900000112
为第i个园区综合能源系统在调度时段t时的热电联产单元电功率;
Figure FDA00031717655900000113
为第i个园区综合能源系统在调度时段t时的电制冷空调冷功率;
Figure FDA00031717655900000114
为第i个园区综合能源系统在调度时段t时的燃气锅炉热功率;
Figure FDA0003171765590000021
为第i个园区综合能源系统在调度时段t时的吸收式制冷机冷功率;
所述预先训练的强化学习模型的奖励函数的数学模型如下:
Figure FDA0003171765590000022
上式中,ri,t为第i个园区综合能源系统在调度时段t时的奖励函数;1/2500为收益值缩放系数;
Figure FDA0003171765590000023
为第i个园区综合能源系统在调度时段t时的电力市场收益;
Figure FDA0003171765590000024
为第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本;
Figure FDA0003171765590000025
为第i个园区综合能源系统在调度时段t时的中断负荷成本。
4.如权利要求3所述的方法,其特征在于,所述第i个园区综合能源系统在调度时段t时的电力市场收益
Figure FDA0003171765590000026
的计算式如下:
Figure FDA0003171765590000027
所述第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本
Figure FDA0003171765590000028
的计算式如下:
Figure FDA0003171765590000029
所述第i个园区综合能源系统在调度时段t时的中断负荷成本
Figure FDA00031717655900000210
的计算式如下:
Figure FDA00031717655900000211
上式中,
Figure FDA00031717655900000212
为调度时段t时电力市场的电价;
Figure FDA00031717655900000213
为第i个园区综合能源系统在调度时段t时与主电网的交易量;
Figure FDA00031717655900000214
为调度时段t时的天然气价格;K为中断等级数;
Figure FDA00031717655900000215
为第k级中断负荷补偿价格;
Figure FDA00031717655900000216
为第i个园区综合能源系统在调度时段t时的第k级中断负荷;
Figure FDA00031717655900000217
为第i个园区综合能源系统在调度时段t时热电联供单元天然气耗量;
Figure FDA00031717655900000218
为第i个园区综合能源系统在调度时段t时燃气锅炉天然气耗量。
5.如权利要求1所述的方法,其特征在于,所述预先训练的强化学习模型的约束条件至少包括下述中的一种:冷热电功率平衡约束、热冷管道约束、蓄电池储能约束、热储能约束、中断负荷约束和设备出力上下限约束。
6.如权利要求1所述的方法,其特征在于,所述预先训练的强化学习模型的损失函数的数学模型如下:
Figure FDA0003171765590000031
上式中,Q为动作-值函数;L(θi Q)为第i个园区综合能源系统对应的智能体的损失函数;yi,t为目标Q值;ω(i,j)是第j个园区综合能源系统对应的智能体发送给第i个园区综合能源系统对应的智能体的Q值权重;N为园区综合能源系统总数;θi Q
Figure FDA0003171765590000032
分别为第i个园区综合能源系统对应的智能体和第j个园区综合能源系统对应的智能体的评论家网络参数;si,t为第i个园区综合能源系统在调度时段t时的状态集合;ai,t为第i个园区综合能源系统在调度时段t时的动作集合;sj,t-1为第j个园区综合能源系统在调度时段t-1时的状态集合;aj,t-1为第j个园区综合能源系统在调度时段t-1时的动作集合;E为求期望。
7.如权利要求6所述的方法,其特征在于,所述目标Q值yi,t的数学模型如下:
Figure FDA0003171765590000033
上式中,γ为奖励折扣系数,γ∈[0,1];θi Q′为第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数;
Figure FDA0003171765590000034
为第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数;si,t+1为第i个园区综合能源系统在调度时段t+1时的状态集合;π′为目标策略;
所述第i个园区综合能源系统对应的智能体的评论家网络参数的更新公式为:
Figure FDA0003171765590000035
上式中,αQ为评论家网络的学习率;
所述第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数θi Q′的更新公式为:
θi Q′←τθi Q+(1-τ)θi Q′
所述第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数
Figure FDA0003171765590000036
的更新公式为:
Figure FDA0003171765590000037
上式中,τ为软更新系数;
Figure FDA0003171765590000041
为第i个园区综合能源系统对应的智能体的演员网络参数,其更新公式为:
Figure FDA0003171765590000042
上式中,απ为演员网络的学习率;
Figure FDA0003171765590000043
为确定性策略;Ni,t为随机噪声。
8.如权利要求1所述的方法,其特征在于,所述预先训练的强化学习模型的训练过程包括:
以多园区综合能源系统的历史状态量为训练样本,采用mini-batch的方式对初始强化学习模型进行训练。
9.一种多园区综合能源系统协调调度装置,其特征在于,所述装置包括:
获取模块,用于获取多园区综合能源系统的当前状态量;
输出模块,用于将所述当前状态量作为预先训练的强化学习模型的输入,获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量;
其中,所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。
10.一种多园区综合能源系统协调调度设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1至8中任一项所述的多园区综合能源系统协调调度方法。
CN202110820297.6A 2021-07-20 2021-07-20 一种多园区综合能源系统协调调度方法及装置 Pending CN113723749A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110820297.6A CN113723749A (zh) 2021-07-20 2021-07-20 一种多园区综合能源系统协调调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110820297.6A CN113723749A (zh) 2021-07-20 2021-07-20 一种多园区综合能源系统协调调度方法及装置

Publications (1)

Publication Number Publication Date
CN113723749A true CN113723749A (zh) 2021-11-30

Family

ID=78673579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110820297.6A Pending CN113723749A (zh) 2021-07-20 2021-07-20 一种多园区综合能源系统协调调度方法及装置

Country Status (1)

Country Link
CN (1) CN113723749A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611823A (zh) * 2022-03-23 2022-06-10 特斯联科技集团有限公司 电-冷-热-气多能需求典型园区的优化调度方法及系统
CN114707711A (zh) * 2022-03-23 2022-07-05 特斯联科技集团有限公司 园区制冷机组多时间尺度最优调度方法及系统
CN117151441A (zh) * 2023-10-31 2023-12-01 长春工业大学 一种基于演员-评论家算法的置换流水车间调度方法
CN117455183A (zh) * 2023-11-09 2024-01-26 国能江苏新能源科技开发有限公司 一种基于深度强化学习的综合能源系统优化调度方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611823A (zh) * 2022-03-23 2022-06-10 特斯联科技集团有限公司 电-冷-热-气多能需求典型园区的优化调度方法及系统
CN114707711A (zh) * 2022-03-23 2022-07-05 特斯联科技集团有限公司 园区制冷机组多时间尺度最优调度方法及系统
CN114707711B (zh) * 2022-03-23 2022-09-16 特斯联科技集团有限公司 园区制冷机组多时间尺度最优调度方法及系统
CN114611823B (zh) * 2022-03-23 2022-11-08 特斯联科技集团有限公司 电-冷-热-气多能需求典型园区的优化调度方法及系统
CN117151441A (zh) * 2023-10-31 2023-12-01 长春工业大学 一种基于演员-评论家算法的置换流水车间调度方法
CN117151441B (zh) * 2023-10-31 2024-01-30 长春工业大学 一种基于演员-评论家算法的置换流水车间调度方法
CN117455183A (zh) * 2023-11-09 2024-01-26 国能江苏新能源科技开发有限公司 一种基于深度强化学习的综合能源系统优化调度方法

Similar Documents

Publication Publication Date Title
AU2020100983A4 (en) Multi-energy complementary system two-stage optimization scheduling method and system considering source-storage-load cooperation
CN107482638B (zh) 冷热电联供型微电网多目标动态优化调度方法
CN113723749A (zh) 一种多园区综合能源系统协调调度方法及装置
CN107895971A (zh) 基于随机规划和模型预测控制的区域能源互联网调度方法
CN111355230B (zh) 一种综合能源系统优化调度方法与系统
CN108009693A (zh) 基于两级需求响应的并网微电网双层优化方法
Chen et al. Economic and environmental operation of power systems including combined cooling, heating, power and energy storage resources using developed multi-objective grey wolf algorithm
CN109636056A (zh) 一种基于多智能体技术的多能源微网去中心化优化调度方法
Najafi-Ghalelou et al. Risk-based scheduling of smart apartment building under market price uncertainty using robust optimization approach
JP7181350B2 (ja) マイクログリッドの運転計画装置および方法、並びにマイクログリッドの運転計画装置で使用される地域エネルギー管理装置およびエネルギー管理装置
CN111799822B (zh) 一种基于虚拟储能的综合能源系统用能协调控制方法
Yanan et al. Intelligent scheduling optimization of seasonal CCHP system using rolling horizon hybrid optimization algorithm and matrix model framework
CN113315165B (zh) 四站融合的综合能源系统协调控制方法及协调控制系统
CN114611772B (zh) 一种基于多智能体强化学习的多微网系统协同优化方法
Ren et al. A data-driven DRL-based home energy management system optimization framework considering uncertain household parameters
Yin et al. Relaxed deep generative adversarial networks for real-time economic smart generation dispatch and control of integrated energy systems
Mohammadi et al. A multi-objective fuzzy optimization model for electricity generation and consumption management in a micro smart grid
Li et al. Intraday multi-objective hierarchical coordinated operation of a multi-energy system
CN115207977A (zh) 一种有源配电网深度强化学习实时调度方法及系统
CN113344249A (zh) 基于区块链的冷热电联供多微网优化调度方法和系统
CN116432824A (zh) 基于多目标粒子群的综合能源系统优化方法及系统
Liu et al. Coordinated energy management for integrated energy system incorporating multiple flexibility measures of supply and demand sides: A deep reinforcement learning approach
Zhou et al. Optimal dispatch of integrated energy system based on deep reinforcement learning
Irshad et al. Novel optimized hybrid neuro-fuzzy approach for analysis of cold thermal storage system-assisted air conditioning system performance
Liu et al. Multi-objective optimal scheduling of community integrated energy system considering comprehensive customer dissatisfaction model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication