CN116777154A - 基于分布式近端策略梯度算法的综合能源系统调度方法 - Google Patents

基于分布式近端策略梯度算法的综合能源系统调度方法 Download PDF

Info

Publication number
CN116777154A
CN116777154A CN202310712356.7A CN202310712356A CN116777154A CN 116777154 A CN116777154 A CN 116777154A CN 202310712356 A CN202310712356 A CN 202310712356A CN 116777154 A CN116777154 A CN 116777154A
Authority
CN
China
Prior art keywords
cost
carbon
function
comprehensive energy
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310712356.7A
Other languages
English (en)
Inventor
王晖
廖旭
管保晋
纪秀
曲诺亚
安喆
王承霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Institute of Applied Chemistry of CAS
Original Assignee
Changchun Institute of Applied Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Institute of Applied Chemistry of CAS filed Critical Changchun Institute of Applied Chemistry of CAS
Priority to CN202310712356.7A priority Critical patent/CN116777154A/zh
Publication of CN116777154A publication Critical patent/CN116777154A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于分布式近端策略梯度算法的综合能源系统调度方法,首先,对于包含电、热、气、氢、冷的大型IES系统,创建其各个能源及储能设备模型;其次,以碳交易成本和设备运维成本构成的总成本最低与系统实际的碳排放量最少构建双目标的目标函数,并与模糊隶属度函数进行结合构建奖励函数进行调度;最后,通过单一目标的总运行成本为奖励函数与双目标进行对比测试。本发明综合能源系统调度方法采用了模糊隶属度函数构造双目标的奖励函数,同时考虑了碳排放和运行成本两个方面,即综合考虑了系统的经济和低碳性,对未来发展具有一定的意义;本方法有效的规避了单一成本目标对碳排放量影响不够造成的问题,具有高效性与快速性。

Description

基于分布式近端策略梯度算法的综合能源系统调度方法
技术领域
本发明属于综合能源系统运行优化技术领域,具体涉及一种基于分布式近端策略梯度算法的综合能源系统低碳经济调度方法。
背景技术
当前,我国电力行业中,具有强不确定性的新能源大量并网,使得电网的稳定性面临巨大挑战。为协调利用各个能源,综合能源系统(IES)应允而生。IES由多种能源形式所构成,具有多能互补、源荷互动等特点,其优化调度可分为日前调度、日内调度、日前日内两阶段调度三种类型。面对强不确定性的多种新能源并入到电网中,电力行业和学术研究员对此问题展开了研究,其中常用的调度方法有鲁棒优化、随机优化、智能优化算法优化、强化学习优化等。
LUO Zhao等人采用鲁棒优化调度的方法去适应冷、热、电负荷以及光伏出力的强不确定性。南斌等人将随机问题转化为确定性问题的方法,构建出电-气综合能源系统随机优化调度模型。李斌等人采用改进的粒子群算法对综合能源系统优化调度进行研究,其中采用了所有粒子的最优值下的平均值代替个体最优值,其运算速度与精度都得到有效提高。郑洁云等人提出一种基于Q学习的区域综合能源系统低碳运行策略研究方法,构造能源枢纽的概念模型,以日二氧化碳运行费用最低为目标,将马尔卡夫决策问题转化为改进的Q学习方法进行求解。杨挺等人提出了一种考虑可再生能源和负荷时变特性的综合能源系统动态经济调度方法,其算法采用了深度确定性策略梯度(DDPG)算法,能够快速的响应源和负荷的随机波动。蒋明喆等人采用了改进的深度确定性策略梯度算法,对多个园区的IES在典型日进行合理化调度,并且说明了其调度方法比以往的随机优化调度以及传统DDPG调度的更优性。彭春华等人构建出混合时间尺度下的IES多目标调度模型,首先采用了状态特性划分状态空间和采用逼近理想解排序TOPSIS法建立多目标奖励函数,构建出一种新的MTMORL处理多目标问题,而后结合近端策略梯度(PPO)算法实现IES的低碳经济调度。然而,PPO算法在学习训练过程当中,如果学习率过大,会造成策略不易收敛,如果学习率过小,会花费过长时间,进而在优化调度过程当中难以掌握其最优的学习率等相关参数。
综上,目前综合能源系统在经济效益与环保要求存在诸多问题,且现有方法无法快速处理。基于此,急需研发一种新型综合能源系统低碳经济调度方法,以有效解决上述问题。
发明内容
本发明的目的就在于提供一种基于分布式近端策略梯度算法的含电-热-气-氢-冷的综合能源系统低碳经济调度方法,考虑了阶梯碳交易机制参与碳排放的调控,并结合深度强化学习算法,以解决采用模糊隶属度函数设定奖励函数处理双目标的调度,提高综合能源系统经济性,降低碳排放量,实现高效、快速优化调度的问题。
首先,对于包含电、热、气、氢、冷的大型IES系统,创建其各个能源及储能设备模型;其次,以碳交易成本和设备运维成本构成的总成本最低与系统实际的碳排放量最少构建双目标的目标函数,并与模糊隶属度函数进行结合构建奖励函数进行调度;最后,通过单一目标的总运行成本为奖励函数与双目标进行对比测试。
本发明的目的是通过以下技术方案实现的:
一种基于分布式近端策略梯度算法的综合能源系统调度方法,包括以下步骤:
A、构建电-热-气-氢-冷综合能源系统调度模型,其中电-热-气-氢-冷综合能源系统设备,包括热电联产机组、电空调、由储能电池、储热罐、储气罐、储氢罐和冰蓄冷系统组成的储能设备以及由电解槽设备、甲烷反应器设备和氢燃料电池设备组成的电转气设备;
A1、建立总运行成本模型,其中,总运行成本包括主网购售电成本、天然气网成本、热电成本、弃风的惩罚成本和碳交易成本以及冰储冷折旧成本;
A2、采用正负阶梯式碳交易机制,根据不同碳排放配额给定其对应价格,建立阶梯碳交易模型;
A3、建立各设备的运行约束模型,包括能量平衡约束模型和风力发电机出力约束模型;
B、基于模糊隶属度构造目标函数的奖励函数;
C、设置各设备的动作空间和状态空间,结合奖励函数采用DPPO算法进行强化学习训练,完成综合能源系统优化运行;其中,DPPO算法的优势函数Aπ(st,at)表示在状态st选择动作at的优势的大小。
进一步地,步骤A1,总运行成本最低时模型的公式如下:
式中:表示电网购电成本和气网购气成本之和;ρt、τt分别是t时段内的电网电价和气网的天然气价格;/>为弃风惩罚成本;λDG,C为单位弃风惩罚成本系数;PDG,C(t)为t时段的弃风功率。/>为冰储冷装置折旧成本;Pbuy,g(t)为t时段的购气功率;/>为冰蓄冷系统全时段储放折旧成本,ωC0为冰蓄冷系统单位储放冷成本系数;/>冰储冷系统放冷功率,/>冰储冷系统储冷功率。
进一步地,步骤A2,阶梯碳交易模型为:
式中:为阶梯式碳交易成本;ρ为碳交易基价;ξ为二氧化碳的排放量区间长度;υ为碳排放价格增长率;
进一步地,步骤A3,能量平衡约束模型的公式为:
式中:为t时段风机输出的电功率;/>为电负荷功率;/>表示t时段的冰蓄冷装置储放冷耗电功率;/>为t时段的热负荷功率;/>为气负荷功率;/>表示冷负荷功率;
风力发电机出力约束模型的公式为:
式中,分别为风力发电机出力上下限。
进一步地,步骤B,具体为:
B1、数据归一化处理
为便于进行模糊化处理,将两个变量进行归一化处理,即
式中:kCOST分别表示碳排放量比和总运行成本比,/>分别表示优化前的碳排放量和总运行成本,函数φ(k)为隶属度调度结果,k值为双目标的变量参数,kmin和kmax为目标的最劣解和最优解;
B2、奖励函数创建
选取最大奖励最小化的碳排放量和总运行成本,构造奖励函数R,其fi为模糊隶属度函数,可得
进一步地,其特征在于,步骤C,优势函数表达式为:
式中:为t时刻状态值转移到t+1时刻的状态转移函数;π(at|st)为在状态st下选择动作at的概率,选取剪辑代理目标的方式更新,即:
式中:为m个时间步长的优势函数估计值。(1-ε,1+ε)为边界范围。rt(θ)表示新旧策略变化的概率比,当其值为1时,策略无变化。
进一步地,步骤C,动作空间设置为:
而电转气设备经细化,即动作空间
进一步地,步骤C,状态空间设置为:
与现有技术相比,本发明的有益效果是:
本发明考虑了阶梯碳交易机制参与碳排放的调控,并结合深度强化学习算法,提出了一种基于分布式近端策略梯度算法的双目标低碳经济调度方法,继而实现系统的经济性与低碳性,并通过仿真分析出以下结论:
1、本方法采用了模糊隶属度函数构造双目标的奖励函数,同时考虑了碳排放和运行成本两个方面,即综合考虑了系统的经济和低碳性,对未来发展具有一定的意义;
2、本方法有效的规避了单一成本目标对碳排放量影响不够造成的问题,具有高效性与快速性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1电-热-气-氢-冷综合能源系统结构;
图2系统总运行成本与碳排放量双目标训练变化曲线;
图3IES下电-热-气-冷功率调度结果;
图4测试日内系统总运行成本对比图;
图5智能体训练奖励变化曲线;
图6调度日期风电出力和电负荷曲线;
图7调度日期冷热气负荷曲线;
图8氢气平衡调度结果;
图9单一目标下总运行成本奖励曲线。
具体实施方式
下面结合实施例对本发明作进一步说明:
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本发明提出一种采用改进的分布式近端策略梯度(DPPO)算法的IES低碳经济调度方法。首先,对于包含电、热、气、氢、冷的大型IES系统里,创备建其各个能源设及储能模型,其次,以碳交易成本和设备运维成本构成的总成本最低与系统实际的碳排放量最少构建双目标的目标函数,并与模糊隶属度函数进行结合构建奖励函数进行调度。最后,通过单一目标的总运行成本为奖励函数与双目标进行对比测试,与此同时,采用不同的优化方法与本文方法对比测试。从两个方面说明本方法的优劣。
本发明基于分布式近端策略梯度算法的综合能源系统调度方法,包括以下步骤:
1、创建电-热-气-氢-冷综合能源系统的各能源及储能设备模型。
电-热-气-氢-冷综合能源系统结构如图1所示,本发明在多种能源形式相结合的综合能源系统结构下,使得源-荷-储相互适应而合理运行,不仅考虑了阶梯碳交易机制,以满足降碳的可持续发展战略要求,而且也细化了P2G,以消纳风电这一特性。
11、热电联产设备建模
热电联产机组内部通过燃烧天然气,产生电能回馈到电网,同时产生的热能可以储存也可供予北方暖气网中消纳。其物理模型如下:
式中:分别为t时段CHP输出的电能和热能;/>为t时段输入CHP的天然气功率;/>和/>为CHP转换为电能与热能的效率./>分别为输入CHP的出力上、下限;/>和/>为出力爬坡上下限;/>分别为CHP的热电比上、下限。
12、电空调设备建模
电空调(EAC)可根据个人喜好调节温度,制冷机会根据调节温度控制制冷设备直至达到最适应温度。其设备由八个组件构成,分别是恒温器、冷凝器、压缩机、风扇计量装置、蒸发器、鼓风机和过滤器[18]。制冷机制冷过程可分为以下几个阶段,首先,制冷剂液化后与蒸发容器中的冷冻水进行热交换;其次,冷冻泵吹出冷冻水到风机口;最后,风机将冷气吹送到降温区达到降温效果。故此,电空调的模型如下:
式中:为电空调制冷、制热功率;/>为电空调制冷和制热耗电功率;/>为制冷机的电冷、电热转化系数;/>与/>分别为制冷、制热功率最大值;/>与/>分别是制冷与制热状态标识位。
13、储能设备建模(电热气氢冷)
储能设备包含电池储能,存储热能的储热罐,存储天然气的储气罐,此外,电解槽产生的多余氢气将会用储氢罐存储,以及用于冷库封存的冰蓄冷系统,具体模型如下所示。
式中:分别为第k种储能装置t时段的充、放功率;/>为第k种储能装置的单次充、放最大功率;/>均为二进制变量,分别为第k种储能装置t时段充、放状态参数﹐/>表示充能状态,表示放能状态;PES,k(t)为第k种储能装置t时段最终的输出功率;/>和/>分别为第m种储能装置的充、放效率;Tk(t)为时刻第k种储能装置的容量;/>为第k种储能装置的额定容量;/> 分别为第k种储能装置容量的上、下限。
14、P2G建模
P2G主要分为以下三个部分,首先是电解水制氢的电解槽(EL)装置,并且产生的氧气也可以存储作为工业氧备用;其次是氢气利用碳捕集中的二氧化碳合成甲烷的甲烷发生器(MR);最后为氢燃料电池(HFC)将剩余的H2转化为电能作为备用,或者充入到氢能源汽车电池中。因此,电转气设备建模将以下三部分展开。
(1)、EL设备建模
式中:为t时段EL输出的氢能;/>为t时段输人EL的电能;/>为EL的能量转换效率;/>分别为输入EL的电能上、下限电功率;/>和/>分别为EL的爬坡上、下限。
(2)、MR设备建模
式中:为t时段输入MR的氢能;/>为t时段MR输出的天然气功率;vMR(t)为MR的能量转换效率;/>分别为输入MR的氢功率上、下限;和/>分别为MR的爬坡上、下限。
(3)、HFC设备建模
式中:为t时段输入HFC的氢能;/>分别为t时段HFC输出的电、热能;/>分别为HFC转换为电﹑热能的效率;/>分别为输入HFC的氢能上、下限;/>分别为HFC的爬坡上、下限;分别为HFC的热电为HFC的爬坡上、下限。
2、建立碳配额与阶梯碳交易模型
21、实际碳排放建模
基于CHP燃烧天然气产生的二氧化碳会经碳捕集装置吸收一部分,且其中的一份会和氢气结合在高温高压环境下的MR产生天然气,从而减少了碳的排放,故此,实际的碳排放模型可设置为:
式中:分别为IES、上级购电和CHP以及气负荷实际的碳排放总量;/>为甲烷反应器吸收的CO2量;Pbuy,o(t)为t时段的电网购电量;Pto,o(t)为t时段CHP的电热等效输出功率;m1、n1、q1和m2、n2、q2分别为热电联产机组和甲烷化碳排放的参数;/>为t时段内气负荷耗量;/>为t时段内P2G过程中输出的天然气功率;λgl为气负荷等效CO2排放量参数。δp2g为单位时间内MR过程中吸收CO2的参数;
22、碳排放权初始配额下参与碳交易的二氧化碳量建模
针对当前我国政府对碳排放有着严格的管控,对于IES的碳排放有明确的要求。实际可排放的设备包括热电联产的火电机组、燃气锅炉以及其他燃烧天然气的负荷。因此,结合实际的碳排放量,其IES参与的碳交易量为:
式中:EIES分别为IES、上级购电、CHP以及气负荷的碳配额;χe、χg、χgl分别为CHP产电机组单位电力配额、CHP单位耗气及消耗单位气负荷的配额;T为调度周期。
23、阶梯碳交易模型
针对传统阶梯碳交易被划分区域仅包括正碳区间,本发明采用了正负阶梯式碳交易机制,根据不同碳排放配额给定其对应价格。其模型如下:
式中:为阶梯式碳交易成本;ρ为碳交易基价;ξ为二氧化碳的排放量区间长度;υ为碳排放价格增长率。
3、在阶梯碳交易机制下,采用系统总运行成本与实际的碳排放量结合构成双目标,建立IES低碳经济调度模型。
31、经济性目标
本发明在传统的IES综合考虑多种能源结构,其总运行成本包括主网购售电成本、天然气网成本、热电成本、弃风的惩罚成本和碳交易成本以及冰储冷折旧成本。故此,系统总运行成本最低的目标如下:
式中:表示电网购电成本和气网购气成本之和;ρt、τt分别是t时段内的电网电价和气网的天然气价格;/>为弃风惩罚成本;λDG,C为单位弃风惩罚成本系数;PDG,C(t)为t时段的弃风功率。/>为冰储冷装置折旧成本;Pbuy,g(t)为t时段的购气功率;/>为冰蓄冷系统全时段储放折旧成本,ωC0为冰蓄冷系统单位储放冷成本系数;/>冰储冷系统放冷功率,/>冰储冷系统储冷功率。
32、碳排放目标
如上述所示实际碳排放量目标,为:
式中:分别为IES、上级购电和CHP以及气负荷实际的碳排放总量;/>为甲烷反应器吸收的CO2量;Pbuy,o(t)为t时段的电网购电量;Pto,o(t)为t时段CHP的电热等效输出功率;m1、n1、q1和m2、n2、q2分别为热电联产机组和甲烷化碳排放的参数;/>为t时段内气负荷耗量;/>为t时段内P2G过程中输出的天然气功率;λgl为气负荷等效CO2排放量参数。δp2g为单位时间内MR过程中吸收CO2的参数。
33、约束条件
本发明考虑了风机的不确定性,为减轻主网并网产生频率波动,此处并未考虑向上级电力网售电,约束条件包括能量平衡约束和风力发电机出力约束。
(1)、能量平衡约束
式中:为t时段风机输出的电功率;/>为电负荷功率;/>表示t时段的冰蓄冷装置储放冷耗电功率;/>为t时段的热负荷功率;/>为气负荷功率;/>表示冷负荷功率。
(2)、风力发电机出力约束
式中,分别为风力发电机出力上下限。
4、在强化学习的奖励函数构建中,采用模糊隶属度函数处理此双目标进行强化学习训练,完成强化学习算法的IES优化运行。
强化学习(deep reinforcement learning,RL)与其他机器学习方式相比,其最大特征是交互式学习方式。通常情况下,RL为马尔可夫决策过程(Markov decision process,MDP)为基本框架,其包含状态空间、动作空间、奖励函数及状态转移函数四个元素。
本发明用DPPO的方法实际上就是在PPO算法的基础上,采用多线程的方式实现并行交替执行一个进程,加快了学习效率。DPPO算法的优势函数Aπ(st,at)表示在状态st选择动作at的优势的大小。其优势函数表达式为:
式中:为t时刻状态值转移到t+1时刻的状态转移函数;π(at|st)为在状态st下选择动作at的概率。为了在学习的过程更为高效,选取剪辑代理目标的方式更新,即:
式中:为m个时间步长的优势函数估计值。(1-ε,1+ε)为边界范围。rt(θ)表示新旧策略变化的概率比,当其值为1时,策略无变化。
41、动作空间设计
针对多种能源结构的IES系统而言,从产电和热设备考虑包括热电联产CHP、燃气锅炉;此外,还包括电空调制冷耗电功率和电转气设备,其中电转气设备包括电解槽、甲烷反应器、氢燃料电池。故此,动作空间可表示为
而电转气设备经细化,即动作空间
42、状态空间设计
在深度强化学习中的状态空间需要明确的表达其环境状态st,这样有利于后续算法的快速收敛。当前环境为具有多种负荷结构的IES,所对应的状态可包含电负荷、热负荷、气负荷,风机预测值以及实时电价。其状态空间设置为
43、基于模糊隶属度的奖励函数设计
在本发明IES系统中,其优化调度目标为系统运行成本最小及碳排放量最少,为了做到这两者达到单位上的统一,采用了模糊隶属度函数求解帕累托前沿最优折中解构建奖励函数。具体的情况如下:
(1)数据归一化处理
为便于进行模糊化处理,将两个变量进行归一化处理,即
式中:kCOST分别表示碳排放量比和总运行成本比,/>分别表示优化前的碳排放量和总运行成本,函数φ(k)为隶属度调度结果,k值为双目标的变量参数,kmin和kmax为目标的最劣解和最优解。
(2)奖励函数创建
关于奖励函数的设计,一般采用目标函数作为目标。本文采用了选取最大奖励最小化的碳排放量和总运行成本,即基于max-min问题构造奖励函数R,其fi为模糊隶属度函数,可得
本发明以碳交易成本和设备运维成本构成的总成本最低与系统实际的碳排放量最少构建双目标的目标函数,并与模糊隶属度函数进行结合构建奖励函数进行调度。
实施例1
本实施例通过单一目标的总运行成本为奖励函数与双目标进行对比测试。本实施例中,关键设备参数见表1所示,其深度强化学习训练的超参数见表2所示。而采用的DPPO算法训练数据选取比利时某地区2022年6-8月的数据,且24小时作为一个调度周期,采用的分时电价如下表3所示。
表1关键设备参数
表2强化学习智能体参数
表3分时电价
为了实现采用DPPO算法对IES进行调度,以满足各个时刻的负荷需求,现设置算法迭代次数为12000次,其训练的神经网络架构搭建于PyTorch平台,价值网络和策略网络神经元个数都含有三个隐藏层,且神经元个数为128,64,4,并且其激活函数采用tanh函数。
1、双目标奖励收敛结果
本发明采用模糊隶属度函数设定奖励函数处理双目标的调度问题,其智能体训练获得的奖励值的变化曲线见图5所示,随着训练次数的增加,训练大致在6000次趋于稳定,产生的振荡是随机值探索其最优策略的结果,基于本文采用了分布式多线程运行的方法,故而训练次数虽多,但训练速度极快。其奖励值越趋近于1,其结果最优,可达到碳排放量和总运行成本整体最小化,而产生整体最优解。其碳排放量和总运行成本的收敛曲线如图2所示。
由上图可知,在1000次训练之前,数据变化比较大,从2000~6000次训练次数内较为稳定,6000次训练后其总运行成本稳定在28509元左右,碳排放量值在10169kg左右,本次训练以总运行成本与碳排放量两者折中最小化为目标,并取得较好的调度结果,间接也体现出其设计算法的合理性。
2、调度结果
智能体经过训练获得的全局最优奖励模型后,采用了在线调度方法进行测试。并且选取比利时2023年9月1日风电出力、气负荷、热负荷、电负荷、冷负荷作为测试日,即调度日,其数据变化曲线见附录B的B2和B3图所示。而将其输入到智能体训练得到的电、热、气、冷的调度策略见下图4的(a)(b)(c)(d)所示。
由图3a可知,在[0-8]和[18~23]两个时段内,其风电出力较大,并且存在氢燃料电池放电放热供给电网和热网中,可不向上级电网购电亦满足各负荷需求;从图3b图看出,在[9~16]时段,其热负荷比起其他时刻负荷需求较少,CHP、氢燃料电池产生的多余热能由储热罐存储,继而可实现持续稳定供暖;从图3c图可知,此为天然气调度平衡图,由于甲烷反应器所消耗的电能过多,向上级天然气网购气的成本比起购电产生利用P2G合成甲烷产热成本较少,故而在全时段气网购气较多;而从图3d可知,在夏季当中,环境温度比较高,冷负荷需求主要集中在[9~17]时段,在这个时段内,由电空调制冷和冰蓄冷装置放冷,而在其他时间段内,会将电空调制冷的多余冷能利用冰蓄冷库存储起来,便于冷负荷需求较大、而电空调无法满足需求时备用。此外,其电解槽产生的氢气用于存储和合成甲烷的调度情况见附录B的B4图所示。从图中可知,在[0-6],[21-23]两个时段内,由于电解槽产氢量较多,其大部分氢气会被甲烷反应器和主要的氢燃料电池消纳,极少部分会被储氢罐存储。
本实施例中,对于调度结果从两个角度进行对比分析,首先,总运行成本最低为单一目标、系统总运行成本与碳排放量两者折中最小为双目标对比分析;其次,从传统的建模求解方法和强化学习方法对比。
3、碳交易机制下单一目标和双目标对比分析
为了显示出双目标处理经济性和低碳性问题的更优性,本节首先将以系统总运行成本为单一目标,进行强化学习训练求解,智能体训练的奖励函数直接以系统总运行成本为目标,其训练数据使用相同数据,其系统总运行成本收敛奖励曲线图见图9所示。从图中可知,以总运行成本最低为目标所得的系统运行成本为27739元左右,可知运行成本降低了,但经过回带计算,当前碳排放量比双目标下的碳排放量有所增加,违背了节能减排的意图。故此,为进一步证明其系统总运行成本的对于单双目标所显示的情况结果,将测试时间增至五天,并对这几天分别进行测试计算,其单双目标的运行成本结果值如图4所示。
由图4可知,对于单一目标,总是以最低的运行成本为构建目标,忽略了碳排放的对环境的影响,故而系统运行成本略小,基于本发明是在阶梯碳交易机制下的系统运行成本,因此,不会以最大限度的去缩小碳排放而迎合系统运行成本,进一步说明其双目标的更优性。
4、传统方法与深度强化学习方法对比
本发明将所提方法,DPPO算法,与PPO算法、蝗虫优化(Grasshopper OptimizationAlgorithm,GOA)算法、以及传统的混合整数线性规划(mixed integer linearprogramming,MILP)算法进行对比并分析。并将上节所测5天的测试数据,分别输入到PPO算法、GOA算法以及MILP算法的框架模型当中,得到其最优值如下表4所示。
表4各优化方法结果对比
从上表可知,GOA的调度方式比起PPO调度方法,系统总运行成本减少了17.3%,而碳排放量减少了12.8%;对于强化学习算法的PPO与本文分布式的DPPO算法相比,系统总运行成本由30697元减少到28509元,即减少了7.7%,而碳排放量减少了19.1%;然而,对于MILP处理与本文方法比较,其成本减少了2.8%,其碳排放量减少8.4%。此外,在调度时间上,强化学习方法的调度时间比起传统的只能优化算法和混合整数线性规划算法更具有优势。经过对比分析,说明本发明优化方法与传统的其他方法相比,更加具有一定的调度意义。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种基于分布式近端策略梯度算法的综合能源系统调度方法,其特征在于,包括以下步骤:
A、构建电-热-气-氢-冷综合能源系统调度模型,其中电-热-气-氢-冷综合能源系统设备,包括热电联产机组、电空调、由储能电池、储热罐、储气罐、储氢罐和冰蓄冷系统组成的储能设备以及由电解槽设备、甲烷反应器设备和氢燃料电池设备组成的电转气设备;
A1、建立总运行成本模型,其中,总运行成本包括主网购售电成本、天然气网成本、热电成本、弃风的惩罚成本和碳交易成本以及冰储冷折旧成本;
A2、采用正负阶梯式碳交易机制,根据不同碳排放配额给定其对应价格,建立阶梯碳交易模型;
A3、建立各设备的运行约束模型,包括能量平衡约束模型和风力发电机出力约束模型;
B、基于模糊隶属度构造目标函数的奖励函数;
C、设置各设备的动作空间和状态空间,结合奖励函数采用DPPO算法进行强化学习训练,完成综合能源系统优化运行;其中,DPPO算法的优势函数Aπ(st,at)表示在状态st选择动作at的优势的大小。
2.根据权利要求1所述的一种基于分布式近端策略梯度算法的综合能源系统调度方法,其特征在于,步骤A1,总运行成本最低时模型的公式如下:
式中:表示电网购电成本和气网购气成本之和;ρt、τt分别是t时段内的电网电价和气网的天然气价格;/>为弃风惩罚成本;λDG,C为单位弃风惩罚成本系数;PDG,C(t)为t时段的弃风功率。/>为冰储冷装置折旧成本;Pbuy,g(t)为t时段的购气功率;/>为冰蓄冷系统全时段储放折旧成本,ωC0为冰蓄冷系统单位储放冷成本系数;/>冰储冷系统放冷功率,/>冰储冷系统储冷功率。
3.根据权利要求1所述的一种基于分布式近端策略梯度算法的综合能源系统调度方法,其特征在于,步骤A2,阶梯碳交易模型为:
式中:为阶梯式碳交易成本;ρ为碳交易基价;ξ为二氧化碳的排放量区间长度;υ为碳排放价格增长率。
4.根据权利要求1所述的一种基于分布式近端策略梯度算法的综合能源系统调度方法,其特征在于,步骤A3,能量平衡约束模型的公式为:
式中:为t时段风机输出的电功率;/>为电负荷功率;/>表示t时段的冰蓄冷装置储放冷耗电功率;/>为t时段的热负荷功率;/>为气负荷功率;/>表示冷负荷功率;
风力发电机出力约束模型的公式为:
式中,分别为风力发电机出力上下限。
5.根据权利要求1所述的一种基于分布式近端策略梯度算法的综合能源系统调度方法,其特征在于,步骤B,具体为:
B1、数据归一化处理
为便于进行模糊化处理,将两个变量进行归一化处理,即
式中:kCOST分别表示碳排放量比和总运行成本比,/>分别表示优化前的碳排放量和总运行成本,函数φ(k)为隶属度调度结果,k值为双目标的变量参数,kmin和kmax为目标的最劣解和最优解;
B2、奖励函数创建
选取最大奖励最小化的碳排放量和总运行成本,构造奖励函数R,其fi为模糊隶属度函数,可得
6.根据权利要求1所述的一种基于分布式近端策略梯度算法的综合能源系统调度方法,其特征在于,步骤C,优势函数表达式为:
式中:为t时刻状态值转移到t+1时刻的状态转移函数;π(at|st)为在状态st下选择动作at的概率,选取剪辑代理目标的方式更新,即:
式中:为m个时间步长的优势函数估计值。(1-ε,1+ε)为边界范围。rt(θ)表示新旧策略变化的概率比,当其值为1时,策略无变化。
7.根据权利要求1所述的一种基于分布式近端策略梯度算法的综合能源系统调度方法,其特征在于,步骤C,动作空间设置为:
而电转气设备经细化,即动作空间
8.根据权利要求1所述的一种基于分布式近端策略梯度算法的综合能源系统调度方法,其特征在于,步骤C,状态空间设置为:
CN202310712356.7A 2023-06-15 2023-06-15 基于分布式近端策略梯度算法的综合能源系统调度方法 Pending CN116777154A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310712356.7A CN116777154A (zh) 2023-06-15 2023-06-15 基于分布式近端策略梯度算法的综合能源系统调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310712356.7A CN116777154A (zh) 2023-06-15 2023-06-15 基于分布式近端策略梯度算法的综合能源系统调度方法

Publications (1)

Publication Number Publication Date
CN116777154A true CN116777154A (zh) 2023-09-19

Family

ID=88009300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310712356.7A Pending CN116777154A (zh) 2023-06-15 2023-06-15 基于分布式近端策略梯度算法的综合能源系统调度方法

Country Status (1)

Country Link
CN (1) CN116777154A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391764A (zh) * 2023-12-12 2024-01-12 国网浙江省电力有限公司电力科学研究院 一种综合能源系统优化调度方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391764A (zh) * 2023-12-12 2024-01-12 国网浙江省电力有限公司电力科学研究院 一种综合能源系统优化调度方法及系统

Similar Documents

Publication Publication Date Title
Zhang et al. A two-stage operation optimization method of integrated energy systems with demand response and energy storage
Shen et al. Multi-objective capacity configuration optimization of an integrated energy system considering economy and environment with harvest heat
CN108206543B (zh) 一种基于能源梯级利用的能源路由器及其运行优化方法
CN111860937B (zh) 基于改进多目标灰狼算法的冷热电联供型微电网优化方法
CN105869075A (zh) 一种冷热电联供型微型能源网经济优化调度方法
CN106022503A (zh) 面向具有耦合型电冷热需求的微电网容量规划方法
CN103617460A (zh) 冷热电联供微网系统的双层优化规划设计方法
CN112290533A (zh) 一种氢能-天然气混合储能的综合能源微电网调度方法
CN111160636B (zh) 一种cchp型微电网调度优化方法
CN113988714B (zh) 计及多重不确定性的园区综合能源系统动态规划方法、设备及介质
CN113592200B (zh) 一种含水源热泵的区域综合能源系统低碳优化运行方法
CN112966444B (zh) 一种建筑多能源系统智慧能量优化方法及装置
CN107957681A (zh) 一种研究冷热电联供微网环保经济调度的方法
Zhang et al. Energy scheduling optimization of the integrated energy system with ground source heat pumps
CN116777154A (zh) 基于分布式近端策略梯度算法的综合能源系统调度方法
CN112131712B (zh) 客户侧多能源系统多目标优化方法和系统
CN110796279A (zh) 一种多能互补优化运行方法与系统
CN116307077A (zh) 一种冷热电联供型微网系统运行优化方法
CN116468215A (zh) 计及源荷不确定性的综合能源系统调度方法及装置
CN115241923A (zh) 一种基于蛇优化算法的微电网多目标优化配置方法
CN112085263A (zh) 一种用户侧分布式能源系统混合储能优化配置方法和系统
Ramadhani et al. Two-stage fuzzy-logic-based for optimal energy management strategy for SOFC/PV/TEG hybrid polygeneration system with electric charging and hydrogen fueling stations
CN112883630B (zh) 用于风电消纳的多微网系统日前优化经济调度方法
Liu et al. Negative carbon optimal scheduling of integrated energy system using a non-dominant sorting genetic algorithm
CN111756073B (zh) 多能互补微网分层控制与运行优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination