CN115411776B - 住宅综合能源系统的热电协同调度方法及装置 - Google Patents
住宅综合能源系统的热电协同调度方法及装置 Download PDFInfo
- Publication number
- CN115411776B CN115411776B CN202211182386.3A CN202211182386A CN115411776B CN 115411776 B CN115411776 B CN 115411776B CN 202211182386 A CN202211182386 A CN 202211182386A CN 115411776 B CN115411776 B CN 115411776B
- Authority
- CN
- China
- Prior art keywords
- network
- scheduling
- thermoelectric
- heat storage
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 239000000446 fuel Substances 0.000 claims abstract description 92
- 230000008569 process Effects 0.000 claims abstract description 56
- 238000005457 optimization Methods 0.000 claims abstract description 42
- 230000009471 action Effects 0.000 claims description 104
- 238000005338 heat storage Methods 0.000 claims description 102
- 238000012549 training Methods 0.000 claims description 61
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 claims description 57
- 229910052744 lithium Inorganic materials 0.000 claims description 57
- 238000010248 power generation Methods 0.000 claims description 30
- 229910052739 hydrogen Inorganic materials 0.000 claims description 24
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 21
- 239000001257 hydrogen Substances 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000007812 deficiency Effects 0.000 claims description 16
- 238000004146 energy storage Methods 0.000 claims description 14
- 230000005611 electricity Effects 0.000 claims description 13
- 239000003795 chemical substances by application Substances 0.000 claims description 11
- 238000010438 heat treatment Methods 0.000 claims description 11
- 238000007599 discharging Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000005286 illumination Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 abstract description 9
- 210000004027 cell Anatomy 0.000 description 71
- 230000002787 reinforcement Effects 0.000 description 12
- 238000011217 control strategy Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000009826 distribution Methods 0.000 description 3
- 238000005485 electric heating Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000012528 membrane Substances 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- NRNCYVBFPDDJNE-UHFFFAOYSA-N pemoline Chemical compound O1C(N)=NC(=O)C1C1=CC=CC=C1 NRNCYVBFPDDJNE-UHFFFAOYSA-N 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000002918 waste heat Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/04—Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
- H02J3/06—Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
- H02J2300/24—The renewable source being solar energy of photovoltaic origin
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/30—The power source being a fuel cell
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Power Engineering (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明提供一种住宅综合能源系统的热电协同调度方法及装置,方法包括:建立住宅综合能源系统中与调度相关的各设备的调度模型,并确定各设备运行时的出力及安全特性;基于调度模型建立以总燃料成本为目标、以出力及安全特性为约束的热电协同调度优化模型;基于热电协同调度优化模型建立马尔可夫决策过程模型;采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度,以得到调度结果。由此,采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,可以在满足离网系统热电供需平衡的基础上,提高能量利用效率并获得足够好的长期运行经济性,因此可以广泛应用于住宅系统中。
Description
技术领域
本发明涉及配电网无功补偿技术领域,具体涉及一种住宅综合能源系统的热电协同调度方法和一种住宅综合能源系统的热电协同调度装置。
背景技术
燃料电池在住宅供暖方面有许多优势,比如燃料电池在系统设计和基础设施方面都具有很好的兼容性。但是,热电联产和消耗之间的动态负荷不匹配已成为燃料电池在住宅系统中广泛推广的主要障碍。一般来说,为了保障热电供需的平衡与用户舒适度,具有储能作用的锂电池和蓄热罐对住宅系统热负荷和电负荷解耦是十分必要的。然而,燃料电池的自身特性决定了其供电与供热满足一定的热电比,但用户的热电需求则随时间、人员活动、天气情况等呈现不规律的状态。因此,充分利用先进的燃料电池并确保系统的稳定运行不仅取决于设备级的开发和维护,还取决于系统级的智能调度规则。
目前,许多基于燃料电池的系统模型和研究方法通常以优化控制策略来提高燃料电池效率,但由于不同的运行要求和荷载形式,导致该策略下的能量利用效率和运行经济性较低,因此不能被直接应用于住宅系统中。因此,需要设计更加智能化、具备自适应能力的系统运行控制策略。
发明内容
本发明为解决相关技术中在进行电池的优化控制时能量利用效率和运行经济性较低的问题,提出了如下技术方案。
本发明第一方面实施例提出了一种住宅综合能源系统的热电协同调度方法,包括以下步骤:建立所述住宅综合能源系统中与调度相关的各设备的调度模型,并确定各设备运行时的出力及安全特性;基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型;基于所述热电协同调度优化模型建立马尔可夫决策过程模型;采用DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,以得到调度结果。
另外,根据本发明上述实施例的住宅综合能源系统的热电协同调度方法还可以具有如下附加的技术特征。
根据本发明的一个实施例,所述住宅综合能源系统中与调度相关的各设备包括:燃料电池、光伏发电模块、锂电池、热泵、以及基于相变储能的蓄热罐。
根据本发明的一个实施例,所述燃料电池的调度模型为:
其中,为k时刻所述燃料电池的热功率输出,/>为k时刻所述燃料电池的电功率输出,ηE和ηT分别为所述燃料电池的电效率和热效率,Ck为k时刻所述燃料电池的氢气消耗量,ηE,k为k时刻所述燃料电池的电效率,/>是氢气的低位热值,ΔT是时间步长;
所述光伏发电模块的调度模型为:
其中,是所述光伏发电模块的输出功率,ηPV和ηinv分别为所述光伏发电模块中的光伏效率和转换器效率,/>为k时刻太阳辐照度,APV表示有效光照面积;
所述锂电池的调度模型为:
其中,是所述锂电池的输出功率,/>是所述锂电池的电池单元的输出功率,n1和n2分别为电池阵列的行列数,SOCk+1是k+1时刻所述锂电池的荷电状态,SOCk是k时刻所述锂电池的荷电状态,QB是锂电池容量,Ib,k是k时刻每个电池单元的电流;
所述蓄热罐的调度模型为:
其中,HSDk+1是k+1时刻所述蓄热罐的储热状态,HSDk是k时刻所述蓄热罐的储热状态,Hs,k是所述蓄热罐的充热或放热功率,是所述蓄热罐的总储热量;
所述热泵的调度模型为:
其中,是所述热泵的供热功率,/>是所述热泵供热所对应的电功率,COPk是k时刻所述热泵的能效比。
根据本发明的一个实施例,所述热电协同调度优化模型的目标函数为:
其中,J是所述热电协同调度优化模型的目标函数,N是优化调度周期,为k时刻燃料电池的电功率输出,/>为k时刻燃料电池供电功率输出对应的氢气消耗量,CN为终端成本,γ是惩罚系数。
根据本发明的一个实施例,所述热电协同调度优化模型表示为:
SOCmin≤SOCk≤SOCmax
HSDmin≤HSDk≤HSDmax
SOC0=SOCmax
HSD0=HSDmax
其中,分别为电负荷和热负荷,/>为蓄热罐的放热功率,SOCk为k时刻锂电池的荷电状态,SOCmax、SOCmin分别为锂电池SOC的上限值和下限值,HSDk为k时刻蓄热罐的储热状态,HSDmax、HSDmin分别蓄热罐HSD的上限值和下限值,SOC0为锂电池的初始荷电状态,HSD0为蓄热罐的初始储热状态。
根据本发明的一个实施例,基于所述热电协同调度优化模型建立马尔可夫决策过程模型,包括:
建立以下状态空间:
其中,分别为净电负荷和净热负荷,其中/> SOC为所述锂电池的荷电状态,HSD为所述蓄热罐的储热状态;
建立以下动作空间:
A=[PFC,PHP]
其中,PFC为所述燃料电池的电功率,PHP为所述热泵的电功率;
建立以下奖励函数:
其中,C(PFC)是燃料电池发电氢耗,分别为电能功率的过剩和不足,分别为热能功率的过剩和不足,l11、l21分别是电能过剩和不足的惩罚系数,l12、l22分别是热能过剩与不足的惩罚系数,ΔSOC表示当前荷电状态偏离给定荷电状态的值,k1、k2分别是锂电池荷电状态和蓄热罐储热状态的容量惩罚系数,ΔHSD表示当前储热状态偏离给定储热状态的值。
根据本发明的一个实施例,采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,包括:建立DDPG算法框架,并对DDPG算法进行改进;基于所述马尔可夫决策过程模型,采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络,其中,所述多重不确定性包括:电负载、热负载和光伏负载;使用训练好的神经网络对所述住宅综合能源系统进行热电协同调度,以得到调度结果。
根据本发明的一个实施例,对DDPG算法进行改进,包括:在DDPG算法中增加动作判断环节,所述动作判断环节为:当演员网络产生动作后,判断所述动作是否可接受,若所述动作可接受,则不添加噪声,并以发电成本作为奖励,否则对所述动作添加噪声,其中,所述演员网络产生的所述动作为燃料电池供电功率和热泵供热耗电功率;降低所述演员网络的更新频率,其中,所述演员网络的更新频率小于评论员网络的更新频率;
其中,判断所述动作是否可接受,具体包括:计算所述动作的能量过剩与不足情况,若所述供电功率与供热耗电功率均满足负荷需求,且在给燃料电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过预设值,则所述动作可接受,否则所述动作不可接受。
根据本发明的一个实施例,基于所述马尔可夫决策过程模型,采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络,具体包括:
使用改进的DDPG算法在多重不确定性下训练智能代理;
基于所述状态空间和所述动作空间,建立演员网络和评论员网络,分别记为P网络和Q网络;
初始化演员网络的参数和评论员网络的参数,分别记为记作ωP和θP,并建立结构相同的目标演员网络和目标评论员网络,根据以下公式初始化所述目标演员网络的参数和所述目标评论员网络的参数:
其中,ωP为所述演员网络的参数,θP为所述评论员网络的参数,为所述目标演员网络的参数,/>为目标评论员网络的参数;
设置训练参数,所述训练参数包括所述演员网络的学习率、所述评论员网络的学习率、所述目标演员网络的参数更新系数、所述目标评论员网络的参数更新系数、调度周期、训练回合数、折扣因子γ和经验回放池内存;
在每个训练回合开始前,随机生成所述住宅综合能源系统的运行工况,其中,所述运行工况包括环境温度、光伏发电出力以及电热负荷,所述运行工况对应负载的多重不确定性;
在每个训练回合内,获得初始状态S0,对每一个时间步t及其状态St,通过所述演员网络获得动作at,判断所述动作at是否可接受;若所述动作at可接受,则不添加噪声,并以发电成本作为奖励;若所述动作at不可接受,则根据以下公式对所述动作at加上噪声:
其中,表示添加噪声后的动作,Nt表示噪声;
系统以不添加噪声的动作或者添加噪声后的动作与环境进行交互并获得包含惩罚的奖励rt以及新状态St+1,并将数据组保存到经验回放缓冲区中;当经验足够时,执行经验回放,即从所述经验回放缓冲区中取出一个批量的数据,并以均方误差训练所述评论员网络、以采样梯度训练所述演员网络;
回合训练结束后,分别更新所述演员网络和所述评论员网络,更新网络参数,并进行下一个回合训练,其中,每更新两次评论员网络后更新一次演员网络。
本发明第二方面实施例提出了一种住宅综合能源系统的热电协同调度装置,包括:第一建立模块,用于建立所述住宅综合能源系统中与调度相关的各设备的调度模型,并确定各设备运行时的出力及安全特性;第二建立模块,用于基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型;第三建立模块,用于基于所述热电协同调度优化模型建立马尔可夫决策过程模型;调度模块,用于采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,以得到调度结果。
本发明实施例的技术方案,先建立住宅综合能源系统中与调度相关的各设备的调度模型,并确定各设备运行时的出力及安全特性,再基于调度模型建立以总燃料成本为目标、以出力及安全特性为约束的热电协同调度优化模型,之后基于热电协同调度优化模型建立马尔可夫决策过程模型,最后采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度,以得到调度结果。由此,采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,可以在满足离网系统热电供需平衡的基础上,提高能量利用效率并获得足够好的长期运行经济性,由此可以广泛应用于住宅系统中。
附图说明
图1为本发明实施例的住宅综合能源系统的结构示意图;
图2为本发明实施例的住宅综合能源系统的热电协同调度方法的流程图。
图3为本发明实施例的改进的DDPG算法框架示意图。
图4为本发明一个具体示例中冬季典型日负载和光伏发电功率曲线图。
图5为本发明一个具体示例中冬季典型日室温与COP系数曲线图。
图6为本发明一个具体示例中改进的DDPG算法累积成本动态曲线图。
图7为本发明一个具体示例中冬季典型日下燃料电池发电成本动态曲线图。
图8为本发明一个具体示例中冬季典型日下锂电池和蓄热罐的容量动态曲线图。
图9为本发明一个具体示例中冬季典型日下电热调度过剩和不足情况曲线图。
图10为本发明实施例的住宅综合能源系统的热电协同调度装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
强化学习技术已经在许多不同的电力和能源系统中得到了广泛的探索和研究。如电力市场竞价、配电网保护、电动车辆充电,虚拟电厂运行、需求响应、建筑能源管理和许多其他输电和配电应用。但到目前为止,将强化学习,或深度强化学习应用于涉及燃料电池控制与优化的综合能源系统的研究相对较少。
传统的优化框架,需要考虑繁琐的设备运行约束和工况预测步骤,这往往使得系统难以快速适应不断变化的运行条件。相反,深度强化学习方法通常放弃设备级的精细建模,而是将重点放在系统级的映射到聚合决策模型,如马尔可夫决策过程,同时以探索和利用这种学习的形式代替精准的预测。这样获得的控制策略可能无法保证在每个操作周期的最佳性能,但可以以不确定性的方式获得足够好的长期性能,节省大量的资源并保证强大的适应性。历史信息和初步计算结果也可以在不同的决策区间之间传递,从而不断重用迭代间信息,以提高计算效率。
考虑光伏发电与电热负荷的多重不确定性以及系统强非线性、多变量等特点,本发明基于深度强化学习进行绿色住宅综合能源系统的运行与控制策略。智能体通过与环境不断交互获得回报后更新模型参数,在未知全局最优解的情况下,达到总期望回报最大化。同时由于强化学习中折扣因子的应用,算法能够更好地考虑未来预期收益,从而有效解决综合能源系统随机性强的问题。
图1为本发明实施例的住宅综合能源系统的结构示意图。
如图1所示,住宅综合能源系统包括燃料电池(质子交换膜氢能燃料电池)、锂电池、光伏发电模块、热泵以及基于相变储能的蓄热罐。燃料电池与热泵所制热水均先存储在蓄热罐中,再从蓄热罐中取热量供给居住房屋的供暖与热水。住宅综合能源系统采用母线制供电结构,燃料电池发电、光伏发电、锂电池的充放电、热泵与用户的用电均连接至母线。其他辅助设备包括能量控制器、管路、阀门、循环水泵以及电气设备未在图1中示出。
其中,热泵采用空气源热泵,系统中热量来源为热泵供热、燃料电池余热及储热罐的蓄热。
图2为本发明实施例的住宅综合能源系统的热电协同调度方法的流程图。
如图2所示,该住宅综合能源系统的热电协同调度方法包括以下步骤S1至S4。
S1,建立住宅综合能源系统中与调度相关的各设备的调度模型,并确定各设备运行时的出力及安全特性。
其中,住宅综合能源系统中与调度相关的各设备包括:燃料电池、光伏发电模块、锂电池、热泵、以及基于相变储能的蓄热罐。
具体地,建立质子交换膜氢能燃料电池的供热量模型、锂电池的电量动态特性模型、蓄热罐储热程度模型以及热泵的耗功量模型,并确定燃料电池。光伏发电模块、锂电池、热泵以及蓄热罐的出力及安全特性,作为后续优化模块的约束条件。
S2,基于调度模型建立以总燃料成本为目标、以出力及安全特性为约束的热电协同调度优化模型。
具体地,以最小化运行燃料消耗量为目标、以各设备的出力及安全特性为约束建立热电协同调度优化模型,该模型以最小化运行燃料消耗量为目标的目标函数、出力及安全约束以及初始条件,针对锂电池、蓄热罐工作在充、放或不工作三种状态,以及热泵工作在启、停两种状态,共18种状态下的情况进行设备的优化调度。
S3,基于热电协同调度优化模型建立马尔可夫决策过程模型。
具体地,为克服优化模型中多变量、非线性与负载不确定性(电负载、热负载和光伏负载)等困难,建立基于优化模型的马尔可夫决策过程模型。
S4,采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度,以得到调度结果。
具体地,采用DDPG算法在马尔可夫决策过程模型下进行热电协同调度,可以使系统控制更加智能化,体现了控制策略的自适应性,在满足系统运行约束条件的同时能够做到根据负载不确定性和储能设备容量等因素,在不同时间段自动生成不同的控制策略动作,从而考虑未来环境信息以获取更高的长期收益。
本发明实施例从设备级到系统级全过程充分实现燃料电池的热电解耦,基于具有强大适应性的深度强化学习算法实现负载多重不确定下的住宅综合能源系统的高效热电协同调度,突出燃料电池在复杂系统中配置与应用的巨大潜力。相较动态规划方法需要基于历史运行数据构造概率模型,DDPG算法得益于神经网络强大的拟合能力,以及惩罚函数和折扣因子的应用,智能体可以不依赖概率模型在不确定的环境下训练和学习,在满足离网系统热电供需平衡的基础上,提高能量利用效率并获得足够好的长期运行经济性。
由此,本发明实施例的住宅综合能源系统的热电协同调度方法,采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度,可以在满足离网系统热电供需平衡的基础上,提高能量利用效率并获得足够好的长期运行经济性,由此可以广泛应用于住宅系统中。
在本发明的一个实施例中,各设备的调度模型的建立过程如下:
燃料电池为质子交换膜氢能燃料电池,其热电效率由经验数据拟合所得,如式(1)所示:
其中,ηE和ηT分别为燃料电池的电效率和热效率,是燃料电池的电功率输出,下标“r”特指额定工况。
燃料电池的热功率输出由式(2)可得:
其中,为k时刻燃料电池的热功率输出,/>为k时刻燃料电池的电功率输出。
燃料电池的氢气消耗量可以由式(3)表示:
其中,Ck为k时刻燃料电池的氢气消耗量,ηE,k为k时刻燃料电池的电效率,是氢气的低位热值(LHV),ΔT是时间步长。
光伏发电模块的输出功率可以表示为:
其中,是光伏发电模块的输出功率,ηPV和ηinv分别为光伏发电模块中的光伏效率和转换器效率,/>为k时刻太阳辐照度,单位为瓦特每平方米(W/m2),APV表示有效光照面积。
锂电池的输出功率可以由(5)式表示:
其中,是锂电池的输出功率,/>是锂电池的电池单元的输出功率,n1和n2分别为电池阵列的行列数。
锂电池中每个电池单元的电流可由式(6)可得:
其中,Ib,k是k时刻每个电池单元的电流,开环电压VOC和电池内阻Rb可视为定值。
锂电池的荷电状态SOC的动态特性可表示为:
其中,SOCk+1是k+1时刻锂电池的荷电状态,SOCk是k时刻锂电池的荷电状态,QB是锂电池容量,电流充电为负,放电为正。
与锂电池的荷电状态SOC类似,含相变储能的蓄热罐的储热状态定义为HSD,其动态特性由式(8)表示:
其中,HSDk+1是k+1时刻蓄热罐的储热状态,HSDk是k时刻蓄热罐的储热状态,Hs,k是蓄热罐的充热(负)或放热(正)功率,是蓄热罐的总储热量,显然0≤HSD≤1且当其取值为0或1时,分别代表了蓄热罐无热量和满热量的两种状态。
热泵的能效比(COP)由经验拟合所得,其表达式为:
其中,ΔTHP是热泵生产热水温度TDHW与k时刻环境温度的差值。热泵的供热功率可以由式(10)表示:
其中,是热泵的供热功率,/>是热泵供热所对应的电功率,COPk是k时刻热泵的能效比。
热电协同调度模型的目标函数包含两个部分,分别为整个调度周期内燃料电池发电的总氢耗,以及带有惩罚系数的终端成本。
即在本发明的一个实施例中,热电协同调度优化模型的目标函数为:
其中,J是热电协同调度优化模型的目标函数,N是优化调度周期,为k时刻燃料电池的电功率输出,/>为k时刻燃料电池供电功率输出对应的氢气消耗量,CN为终端成本,γ是惩罚系数。终端成本γCN使得在系统运行结束时,锂电池和蓄热罐的储能状态可以尽可能地回到初始状态,从而保证在下一个调度周期开始时具备充足的电能与热能消耗能力。
锂电池和蓄热罐可分别处于充、放或不工作三种状态,热泵可处于工作或不工作状态。进一步地,考虑目标函数和设备运行时的出力及安全约束,热电协同调度优化模型可以表示为:
SOCmin≤SOCk≤SOCmax (17)
HSDmin≤HSDk≤HSDmax (18)
SOC0=SOCmax (21)
HSD0=HSDmax (22)
其中,分别为电负荷和热负荷,/>为蓄热罐的放热功率,SOCk为k时刻锂电池的荷电状态,SOCmax、SOCmin分别为锂电池SOC的上限值和下限值,HSDk为k时刻蓄热罐的储热状态,HSDmax、HSDmin分别蓄热罐HSD的上限值和下限值,SOC0为锂电池的初始荷电状态,HSD0为蓄热罐的初始储热状态。
式(12)为目标函数,N是优化时域即调度周期;
式(13)-(14)是状态变量xk=[SOCk HSDk]的状态转移方程,由电平衡式(15)和热平衡式(16)以及设备特性模型式(1)-(10)决定;
式(17)、(18)分别约束了锂电池储能状态SOC和蓄热罐储热状态HSD的上下限;
式(19)、(20)分别约束了燃料电池的发电功率的上下限和热泵耗电功率的上下限,其中上限即为该设备的额定功率;
式(21)、(22)分别为锂电池的初始状态与蓄热罐的初始状态。
在建立好如以上各式的各设备的调度模型和热电协同调度优化模型之后,执行步骤S3,即基于热电协同调度优化模型建立马尔可夫决策过程模型。其中,马尔科夫决策过程模型的包括环境和动作,针对住宅综合能源系统的运行环境S,智能代理会产生一个动作A并以该动作与环境交互,并获得反馈奖励R。因此,住宅综合能源系统的运行可以用一个五元组定义:(S,A,P,R,γ),其中P是状态转移矩阵,表示从当前状态转移到下一状态的概率,γ=[0,1]是折扣因子。
即在本发明的一个实施例中,基于热电协同调度优化模型建立马尔可夫决策过程模型,可包括:
建立以下状态空间:
其中,分别为净电负荷和净热负荷,其中/> SOC为锂电池的荷电状态,HSD为蓄热罐的储热状态。
建立以下动作空间:
A=[PFC,PHP] (24)
其中,PFC为燃料电池的电功率,PHP为热泵的电功率。
建立以下奖励函数:
其中,C(PFC)是燃料电池发电氢耗,分别为电能功率的过剩和不足,分别为热能功率的过剩和不足,l11、l21分别是电能过剩和不足的惩罚系数,l12、l22分别是热能过剩与不足的惩罚系数,ΔSOC表示当前荷电状态SOCk偏离给定荷电状态SOCr的值,即ΔSOC=SOCr-SOCk,k1、k2分别是锂电池荷电状态和蓄热罐储热状态的容量惩罚系数,ΔHSD的定义类似,即ΔHSD表示当前储热状态偏离给定储热状态的值。该两项惩罚的引入可以使该系统在运行结束后,电池的SOC和蓄热罐的HSD回到相对较高的水平,以提高系统的可持续性。
根据以上式子建立好马尔可夫决策过程模型后,执行步骤S4,即采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度,以得到调度结果。
在一个示例中,采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度,可包括:建立DDPG算法框架,并对DDPG算法进行改进;基于马尔可夫决策过程模型,采用改进的DDPG算法在负载多重不确定性下训练DDPG算法的神经网络,其中,多重不确定性包括:电负载、热负载和光伏负载;使用训练好的神经网络对住宅综合能源系统进行热电协同调度,以得到调度结果。
进一步地,对DDPG算法进行改进,可包括:在DDPG算法中增加动作判断环节,动作判断环节为:当演员网络产生动作后,判断动作是否可接受,若动作可接受,则不添加噪声,并以发电成本作为奖励,否则对动作添加白噪声;降低演员网络的更新频率,其中,演员网络的更新频率小于评论员网络的更新频率。
其中,演员网络产生的动作为燃料电池供电功率和热泵供热耗电功率,判断动作是否可接受可包括:计算动作的能量过剩与不足情况,若供电功率与供热耗电功率均满足负荷需求,且在给燃料电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过预设值,则动作可接受,否则动作不可接受。其中,预设值可以是根据实际问题具体设定的。
具体而言,首先建立DDPG算法框架,并对DDPG算法进行改进,之后基于马尔可夫决策过程模型,采用改进的DDPG算法在负载多重不确定性下训练DDPG算法的神经网络,其中,在回合训练过程中,为加快网络收敛速度,在演员网络产生动作,即燃料电池供电功率和热泵供热耗电功率时,计算能量过剩与不足情况,若供电功率与供热耗电功率均满足负荷需求,且在给燃料电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过预设值(0.25kW),则演员网络产生的动作可接受,否则演员网络产生的动作不可接受。若动作可接受,则不添加噪声,并以发电成本作为奖励;若动作不可接受,则对动作添加噪声。在每个回合训练结束后,分别更新演员网络和评论员网络,其中,演员网络的更新频率小于评论员网络的更新频率,比如,每更新两次评论员网络后更新一次演员网络。训练结束后,使用训练好的神经网络对住宅综合能源系统进行热电协同调度,以得到调度结果
在本发明的一个示例中,基于马尔可夫决策过程模型,采用改进的DDPG算法在负载多重不确定性下训练DDPG算法的神经网络,具体可包括:使用改进的DDPG算法在多重不确定性下训练智能代理;基于状态空间和动作空间,建立演员网络和评论员网络,分别记为P网络和Q网络;初始化演员网络的参数和评论员网络的参数,分别记为记作ωP和θP,并建立结构相同的目标演员网络和目标评论员网络,根据以下公式初始化目标演员网络的参数和目标评论员网络的参数:
其中,ωP为演员网络的参数,θP为评论员网络的参数,为目标演员网络的参数,为目标评论员网络的参数;设置训练参数,训练参数包括演员网络的学习率、评论员网络的学习率、目标演员网络的参数更新系数、目标评论员网络的参数更新系数、调度周期、训练回合数、折扣因子γ和经验回放池内存;在每个训练回合开始前,随机生成住宅综合能源系统的运行工况,其中,运行工况包括环境温度、光伏发电出力以及电热负荷,运行工况工况对应负载的多重不确定性;在每个训练回合内,获得初始状态S0,对每一个时间步t及其状态St,通过演员网络获得动作at,判断动作at是否可接受;若动作at可接受,则不添加噪声,/>并以发电成本作为奖励;若动作at不可接受,则根据以下公式对动作at加上噪声:
其中,表示添加噪声后的动作,Nt表示噪声;系统以不添加噪声的动作或者添加噪声后的动作与环境进行交互并获得包含惩罚的奖励rt以及新状态St+1,并将数据组保存到经验回放缓冲区中;当经验足够时,执行经验回放,即从经验回放缓冲区中取出一个批量的数据,并以均方误差/>训练评论员网络、以采样梯度训练演员网络;回合训练结束后,分别更新演员网络和评论员网络,更新网络参数,并进行下一个回合训练,其中,每更新两次评论员网络后更新一次演员网络。
具体而言,如图3所示,首先使用改进的DDPG算法在多重不确定性下训练智能代理。基于状态空间和动作空间,建立演员和评论员深度神经网络模型,分别记为P网络和Q网络。其中,P网络为4输入(状态)、2输出(动作),Q网络为6输入(状态和动作)、1输出(回报)。初始化P网络和Q网络的参数,记作ωP和θP,并建立结构相同的目标演员网络target_P和目标评论员target_Q,参数按原网络初始化,即/>
之后,设置P网络的学习率ap,Q网络的学习率aQ,目标网络参数更新系数τ,调度周期T,训练回合数episode,折扣因子γ,经验回放缓冲区内存reply_memory和批量大小batchsize。设置OU噪声参数μ和θ,OU噪声方差最大值δmax和最小值δmin,以及衰减周期decay。设置奖励函数惩罚系数k1,k2,l11,l21,l12和l22。
在每个训练回合开始前,基于真实运行数据的可行域,随机生成住宅综合能源系统的运行工况,包括环境温度、光伏发电出力以及电热负荷,随机的工况对应着负载的多重不确定性。初始时刻电池和蓄热罐均为满储能状态,即SOC0=SOCmax,HSD0=HSDmax。
在每个训练回合内,获得初始状态S0,对每一个时间步t及其状态St,通过演员网络P获得动作at。为加快网络收敛速度,在DDPG算法中添加动作判断环节,若该动作可接受则不添加噪声,即并以发电成本作为奖励rt,否则对动作加上噪声Nt,即系统以该动作与环境交互并获得包含惩罚的奖励rt,以及新状态St+1,并将数据组/>保存到经验回放缓冲区中。当经验足够时,执行经验回放,即从回放缓冲区中取出一个批量的数据,并以均方误差/>训练网络Q,以采样梯度训练网络P。回合训练结束后为使训练过程更加稳定,降低演员网络的更新频率,每更新两次评论员网络后更新一次演员网络,参照图3,更新参数为:
其中,ωP为演员网络的参数,θP为评论员网络的参数,为目标演员网络的参数,为目标评论员网络的参数,τ为目标网络参数更新系数。
训练完成后,使用训练好DDPG框架在冬季典型日工况下进行能量管理,并获得24小时内系统的调度结果,包括电池SOC动态、蓄热罐HSD动态以及电热能量过剩与不足情况。
参照图3,改进的DDPG算法框架,中演员网络P的输入特征数为4,输出为2,具有四层全连接层,神经元个数分别为16,32,16,2;评论员网络Q输入特征数为6,输出为1,具有四层全连接层,神经元个数分别为16,32,16,1。演员目标网络和评论员目标网络的结构与各自的原网络相同。对于动作判断环节,当演员网络P产生动作后,即燃料电池供电功率和热泵供热耗电功率,计算当前动作的能量过剩与不足情况,若供电与供热均满足负荷需求,且在给电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过0.25kW,则当前动作可接受,不需要添加噪声并以发电成本作为奖励。
在一个具体示例中,主要参数的设置可如表1所示。
表1主要参数设置
参数 | 取值 | 参数 | 取值 |
aP,aQ | 0.0002,0.002 | δmax,δmin | 0.35,0.001 |
τ | 0.002 | Tdecay | 5000 |
T | 24 | k1 | 0.02 |
episode | 200 | k2 | 0.05 |
γ | 0.99 | l11 | 0.2 |
memory | 1000000 | l12 | 0.8 |
batchsize | 64 | l21 | 1.2 |
u,θ | 0,0.15 | l22 | 1.0 |
表1中:aP,aQ分别为演员网络和评论员网络的学习率,τ为目标网络软更新系数,T为调度周期,episode为训练回合数,γ为折扣因子,memory为经验回放池容量,batchsize为批量大小,μ和θ为OU噪声参数,δmax和δmin为OU噪声方差最大值和最小值,Tdecay为噪声衰减周期,k1和k2分别是电池SOC和蓄热罐HSD容量惩罚系数,l11、l21和l12、l22分别是电能和热量过剩与不足的惩罚系数。需要注意的是,为了是优化模型保持一致,即对终端成本添加惩罚参数以提高系统运行的可持续性,可设置k1=k2=0,T≤23以及k1=k2=0.6,T=24。
主要设备规划配置方案如表2所示。
表2主要设备规划配置方案
表2中:燃料电池容量为2.5kW,最大、最小出力分别为2.5kW和0.3kW,氢的低位热值为119.96kJ/g,燃料电池额定电效率为37%、额定热效率为53%;锂电池单电池容量为5Ah,电池阵列行数与列数均为10,SOC上、下限分别为0.9和0.3,锂电池单电池内阻为20mΩ,开路电压为4.8V;蓄热罐容量为6kWh,HSD的上、下限分别为0和1,蓄热罐出水温度为55℃;热泵额定功率为5kW,最大制热功率为5kW,最小制热功率为0kW;光伏模块的有效面积为16m2,光伏效率为0.19,转换器效率为0.95。
在每个训练回合开始前,基于真实运行数据的可行域,随机生成住宅综合能源系统的运行工况,包括环境温度、光伏发电出力以及电热负荷,随机的工况对应着负载的多重不确定性。初始时刻电池和蓄热罐均为满储能状态。基于所建立的马尔可夫决策过程模型和深度强化学习框架,以及表1中的参数设置,使用DDPG算法在生成的工况下进行训练,算法的累积奖励动态如图6所示,其中average是滑动周期为5的移动平均回报。训练完成后,使用训练好DDPG框架在冬季典型日工况下进行能量管理,并获得24小时内系统的调度结果。其中,冬季典型日的工况在图4和图5中给出,锂电池的SOC和蓄热罐的HSD动态如图7所示,电热能量过剩与不足情况如图8所示。
图6的结果显示,当训练回合数较小时,由于在动作上施加了较高的OU噪声,智能代理还处于探索阶段,不断尝试各种调度策略。经过不断地探索与奖励反馈,智能代理的策略不断提升,演员网络逐渐学习到更好的动作,累计奖励在前120个回合处于震荡上升阶段,之后由于噪声的减小和参数的改进,累积奖励逐渐收敛。与传统的强化学习算法Q-learning相比,DDPG算法能够考虑连续的动作空间而不是将动作离散化,从而进行更加细致的能量调度与优化。此外,得益于较低的频率更新演员网络且以较高的频率更新评论员网络,以及添加的动作判断过程,改进的DDPG具有更快的收敛速度和更好的性能表现。冬季典型日下的燃料电池发电成本动态在图9中给出,可以发现,氢耗随着训练过程不断震荡并逐渐趋于稳定。需要注意的是,第20至80回合时中的几个峰值点氢耗较低,但结合图6中的结果可知,这些点对应的调度结果是相对较差的,伴随着大量的能量损失与不足。
图8的调度结果显示,在冬季典型日的前几个小时(0-6时),电负荷和热负荷均相对较低,燃料电池发电产生的余热较小,此时蓄热罐开始工作,提供少量的热量即可满足热负载。之后,在7-11时,热电负荷开始升高,热泵配合蓄热罐开始工作,消耗少量电能来供热;同时,电池也开始放电来缓解燃料电池的供电压力。中午过后,在12-17时,虽然热电负荷相比之前有所降低,但由于热泵较高的COP系数,即消耗更少的电能产生更多的热量,热泵保持较高功率,在供热的同时给蓄热罐充能,HSD大幅提高。傍晚时刻,热负荷保持在较高水平,热泵和蓄热罐同时供热,燃料电池的供电功率较高,产生的多余电能用于给电池充电,SOC有所提高。由于电池SOC和蓄热罐HSD储能状态惩罚的引入,当一天的调度结束后,锂电池的SOC回到初始时刻的100%,蓄热罐的HSD回到82.64%,二者均具有充分的充放能空间,保证了下一天系统的能量供需平衡与热电解耦需求。
图9展示了DDPG调度过程中的电热能量过剩与不足情况,可以发现,由于合理的惩罚系数设置,基于随机生成的工况进行训练,在负载多重不确定的情况下,演员网络也可以学到较好的能量调度策略。对于冬季典型日的工况,在DDPG的整个调度过程中,始终没有出现供电或供热无法满足负载需求的情况;然而相对的,在不同时期,尤其是负载较高的时段,演员网络会倾向提高燃料电池和热泵的功率来避免能量供应不足,从而导致了一定程度上的能量过剩,但均处于较低水平。从燃料电池24小时的发电总成本来看,少量的能量过剩并不会过于影响DDPG算法的性能,相比于Q-learning算法仍然有较为明显的提升。
本专利所采用的基于深度强化学习的住宅综合能源系统能量调度算法能使系统控制更加智能化,体现了控制策略的自适应性,在满足系统运行约束条件的同时能够做到根据负载不确定性和储能设备容量等因素,在不同时间段自动生成不同的控制策略动作,从而考虑未来环境信息以获取更高的长期收益。
综上所述,本发明实施例从设备级到系统级全过程充分实现燃料电池的热电解耦,基于具有强大适应性的深度强化学习算法实现负载多重不确定下的绿色住宅综合能源系统的高效热电协同调度,突出燃料电池在复杂系统中配置与应用的巨大潜力。相较动态规划方法需要基于历史运行数据构造概率模型,深度强化学习算法得益于神经网络强大的拟合能力,以及惩罚函数和折扣因子的应用,智能体可以不依赖概率模型在不确定的环境下训练和学习,在满足离网系统热电供需平衡的基础上,提高能量利用效率并获得足够好的长期运行经济性。
对应上述实施例的住宅综合能源系统的热电协同调度方法,本发明还提出一种住宅综合能源系统的热电协同调度装置。
图10为本发明实施例的住宅综合能源系统的热电协同调度装置的方框示意图。
如图10所示,该住宅综合能源系统的热电协同调度装置包括第一建立模块10、第二建立模块20、第三建立模块30及调度模块40。
其中,第一建立模块10用于建立所述住宅综合能源系统中与调度相关的各设备的调度模型,并确定各设备运行时的出力及安全特性;第二建立模块20用于基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型;第三建立模块30用于基于所述热电协同调度优化模型建立马尔可夫决策过程模型;调度模块40用于采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,以得到调度结果。
需要说明的是,该住宅综合能源系统的热电协同调度装置的具体实施方式及实施原理可参见上述住宅综合能源系统的热电协同调度方法的具体实施方式,为避免冗余,此处不再详细赘述。
本发明实施例的住宅综合能源系统的热电协同调度装置,采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,可以在满足离网系统热电供需平衡的基础上,提高能量利用效率并获得足够好的长期运行经济性,由此可以广泛应用于住宅系统中。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (5)
1.一种住宅综合能源系统的热电协同调度方法,其特征在于,包括以下步骤:
建立所述住宅综合能源系统中与调度相关的各设备的调度模型,并确定各设备运行时的出力及安全特性;
基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型;
基于所述热电协同调度优化模型建立马尔可夫决策过程模型;
采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,以得到调度结果,
所述住宅综合能源系统中与调度相关的各设备包括:燃料电池、光伏发电模块、锂电池、热泵、以及基于相变储能的蓄热罐,
基于所述热电协同调度优化模型建立马尔可夫决策过程模型,包括:
建立以下状态空间:
其中,分别为净电负荷和净热负荷,/>SOC为所述锂电池的荷电状态,HSD为所述蓄热罐的储热状态;
建立以下动作空间:
A=[PFC,PHP]
其中,PFC为所述燃料电池的电功率,PHP为所述热泵的电功率;
建立以下奖励函数:
其中,C(PFC)是燃料电池发电氢耗,分别为电能功率的过剩和不足,分别为热能功率的过剩和不足,l11、l21分别是电能过剩和不足的惩罚系数,l12、l22分别是热能过剩与不足的惩罚系数,ΔSOC表示当前荷电状态偏离给定荷电状态的值,k1、k2分别是锂电池荷电状态和蓄热罐储热状态的容量惩罚系数,ΔHSD表示当前储热状态偏离给定储热状态的值,
采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,包括:
建立DDPG算法框架,并对DDPG算法进行改进;
基于所述马尔可夫决策过程模型,采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络,其中,所述多重不确定性包括:电负载、热负载和光伏负载;
使用训练好的神经网络对所述住宅综合能源系统进行热电协同调度,以得到调度结果,
对DDPG算法进行改进,包括:
在DDPG算法中增加动作判断环节,所述动作判断环节为:当演员网络产生动作后,判断所述动作是否可接受,若所述动作可接受,则不添加噪声,并以发电成本作为奖励,否则对所述动作添加噪声,其中,所述演员网络产生的所述动作为燃料电池供电功率和热泵供热耗电功率;
降低演员网络的更新频率,其中,演员网络的更新频率小于评论员网络的更新频率;
其中,判断所述动作是否可接受,具体包括:
计算所述动作的能量过剩与不足情况,若所述供电功率与供热耗电功率均满足负荷需求,且在给燃料电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过预设值,则所述动作可接受,否则所述动作不可接受,
基于所述马尔可夫决策过程模型,采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络,具体包括:
使用改进的DDPG算法在多重不确定性下训练智能代理;
基于所述状态空间和所述动作空间,建立演员网络和评论员网络,分别记为P网络和Q网络;
初始化演员网络的参数和评论员网络的参数,分别记为记作ωP和θP,并建立结构相同的目标演员网络和目标评论员网络,根据以下公式初始化所述目标演员网络的参数和所述目标评论员网络的参数:
其中,ωP为所述演员网络的参数,θP为所述评论员网络的参数,为所述目标演员网络的参数,/>为目标评论员网络的参数;
设置训练参数,所述训练参数包括所述演员网络的学习率、所述评论员网络的学习率、所述目标演员网络的参数更新系数、所述目标评论员网络的参数更新系数、调度周期、训练回合数、折扣因子γ和经验回放池内存;
在每个训练回合开始前,随机生成所述住宅综合能源系统的运行工况,其中,所述运行工况包括环境温度、光伏发电出力以及电热负荷,所述运行工况对应负载的多重不确定性;
在每个训练回合内,获得初始状态S0,对每一个时间步t及其状态St,通过所述演员网络获得动作at,判断所述动作at是否可接受;若所述动作at可接受,则不添加噪声,并以发电成本作为奖励;若所述动作at不可接受,则根据以下公式对所述动作at加上噪声:
其中,表示添加噪声后的动作,N t表示噪声;
系统以不添加噪声的动作或者添加噪声后的动作与环境进行交互并获得包含惩罚的奖励rt以及新状态St+1,并将数据组保存到经验回放缓冲区中;当经验足够时,执行经验回放,即从所述经验回放缓冲区中取出一个批量的数据,并以均方误差训练所述评论员网络、以采样梯度训练所述演员网络;
回合训练结束后,分别更新所述演员网络和所述评论员网络,更新网络参数,并进行下一个回合训练,其中,每更新两次评论员网络后更新一次演员网络。
2.根据权利要求1所述的住宅综合能源系统的热电协同调度方法,其特征在于,所述燃料电池的调度模型为:
其中,为k时刻所述燃料电池的热功率输出,/>为k时刻所述燃料电池的电功率输出,ηE和ηT分别为所述燃料电池的电效率和热效率,Ck为k时刻所述燃料电池的氢气消耗量,ηE,k为k时刻所述燃料电池的电效率,/>是氢气的低位热值,ΔT是时间步长;
所述光伏发电模块的调度模型为:
其中,是所述光伏发电模块的输出功率,ηPV和ηinv分别为所述光伏发电模块中的光伏效率和逆变器效率,/>为k时刻太阳辐照度,APV表示有效光照面积;
所述锂电池的调度模型为:
其中,是所述锂电池的输出功率,/>是所述锂电池的电池单元的输出功率,n1和n2分别为电池阵列的行列数,SOCk+1是k+1时刻所述锂电池的荷电状态,SOCk是k时刻所述锂电池的荷电状态,QB是锂电池容量,Ib,k是k时刻每个电池单元的电流;
所述蓄热罐的调度模型为:
其中,HSDk+1是k+1时刻所述蓄热罐的储热状态,HSDk是k时刻所述蓄热罐的储热状态,Hs,k是所述蓄热罐的充热或放热功率,是所述蓄热罐的总储热量;
所述热泵的调度模型为:
其中,是所述热泵的供热功率,/>是所述热泵供热所对应的电功率,COPk是k时刻所述热泵的能效比。
3.根据权利要求2所述的住宅综合能源系统的热电协同调度方法,其特征在于,所述热电协同调度优化模型的目标函数为:
其中,J是所述热电协同调度优化模型的目标函数,N是优化调度周期,为k时刻燃料电池的电功率输出,/>为k时刻燃料电池供电功率输出对应的氢气消耗量,CN为终端成本,γ是惩罚系数。
4.根据权利要求3所述的住宅综合能源系统的热电协同调度方法,其特征在于,所述热电协同调度优化模型表示为:
SOCmin≤SOCk≤SOCmax
HSDmin≤HSDk≤HSDmax
SOC0=SOCmax
HSD0=HSDmax
其中,分别为电负荷和热负荷,/>为蓄热罐的放热功率,SOCk为k时刻所述锂电池的荷电状态,SOCmax、SOCmin分别为锂电池SOC的上限值和下限值,HSDk为k时刻蓄热罐的储热状态,HSDmax、HSDmin分别蓄热罐HSD的上限值和下限值,SOC0为锂电池的初始荷电状态,HSD0为蓄热罐的初始储热状态。
5.一种住宅综合能源系统的热电协同调度装置,其特征在于,包括:
第一建立模块,用于建立所述住宅综合能源系统中与调度相关的各设备的调度模型,并确定各设备运行时的出力及安全特性;
第二建立模块,用于基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型;
第三建立模块,用于基于所述热电协同调度优化模型建立马尔可夫决策过程模型;
调度模块,用于采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,以得到调度结果,
所述住宅综合能源系统中与调度相关的各设备包括:燃料电池、光伏发电模块、锂电池、热泵、以及基于相变储能的蓄热罐,
基于所述热电协同调度优化模型建立马尔可夫决策过程模型,包括:
建立以下状态空间:
其中,分别为净电负荷和净热负荷,/>SOC为所述锂电池的荷电状态,HSD为所述蓄热罐的储热状态;
建立以下动作空间:
A=[PFC,PHP]
其中,PFC为所述燃料电池的电功率,PHP为所述热泵的电功率;
建立以下奖励函数:
其中,C(PFC)是燃料电池发电氢耗,分别为电能功率的过剩和不足,分别为热能功率的过剩和不足,l11、l21分别是电能过剩和不足的惩罚系数,l12、l22分别是热能过剩与不足的惩罚系数,ΔSOC表示当前荷电状态偏离给定荷电状态的值,k1、k2分别是锂电池荷电状态和蓄热罐储热状态的容量惩罚系数,ΔHSD表示当前储热状态偏离给定储热状态的值,
采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度,包括:
建立DDPG算法框架,并对DDPG算法进行改进;
基于所述马尔可夫决策过程模型,采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络,其中,所述多重不确定性包括:电负载、热负载和光伏负载;
使用训练好的神经网络对所述住宅综合能源系统进行热电协同调度,以得到调度结果,
对DDPG算法进行改进,包括:
在DDPG算法中增加动作判断环节,所述动作判断环节为:当演员网络产生动作后,判断所述动作是否可接受,若所述动作可接受,则不添加噪声,并以发电成本作为奖励,否则对所述动作添加噪声,其中,所述演员网络产生的所述动作为燃料电池供电功率和热泵供热耗电功率;
降低演员网络的更新频率,其中,演员网络的更新频率小于评论员网络的更新频率;
其中,判断所述动作是否可接受,具体包括:
计算所述动作的能量过剩与不足情况,若所述供电功率与供热耗电功率均满足负荷需求,且在给燃料电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过预设值,则所述动作可接受,否则所述动作不可接受,
基于所述马尔可夫决策过程模型,采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络,具体包括:
使用改进的DDPG算法在多重不确定性下训练智能代理;
基于所述状态空间和所述动作空间,建立演员网络和评论员网络,分别记为P网络和Q网络;
初始化演员网络的参数和评论员网络的参数,分别记为记作ωP和θP,并建立结构相同的目标演员网络和目标评论员网络,根据以下公式初始化所述目标演员网络的参数和所述目标评论员网络的参数:
其中,ωP为所述演员网络的参数,θP为所述评论员网络的参数,为所述目标演员网络的参数,/>为目标评论员网络的参数;
设置训练参数,所述训练参数包括所述演员网络的学习率、所述评论员网络的学习率、所述目标演员网络的参数更新系数、所述目标评论员网络的参数更新系数、调度周期、训练回合数、折扣因子γ和经验回放池内存;
在每个训练回合开始前,随机生成所述住宅综合能源系统的运行工况,其中,所述运行工况包括环境温度、光伏发电出力以及电热负荷,所述运行工况对应负载的多重不确定性;
在每个训练回合内,获得初始状态S0,对每一个时间步t及其状态St,通过所述演员网络获得动作at,判断所述动作at是否可接受;若所述动作at可接受,则不添加噪声,并以发电成本作为奖励;若所述动作at不可接受,则根据以下公式对所述动作at加上噪声:
其中,表示添加噪声后的动作,N t表示噪声;
系统以不添加噪声的动作或者添加噪声后的动作与环境进行交互并获得包含惩罚的奖励rt以及新状态St+1,并将数据组保存到经验回放缓冲区中;当经验足够时,执行经验回放,即从所述经验回放缓冲区中取出一个批量的数据,并以均方误差训练所述评论员网络、以采样梯度训练所述演员网络;
回合训练结束后,分别更新所述演员网络和所述评论员网络,更新网络参数,并进行下一个回合训练,其中,每更新两次评论员网络后更新一次演员网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211182386.3A CN115411776B (zh) | 2022-09-27 | 2022-09-27 | 住宅综合能源系统的热电协同调度方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211182386.3A CN115411776B (zh) | 2022-09-27 | 2022-09-27 | 住宅综合能源系统的热电协同调度方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115411776A CN115411776A (zh) | 2022-11-29 |
CN115411776B true CN115411776B (zh) | 2023-11-14 |
Family
ID=84167023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211182386.3A Active CN115411776B (zh) | 2022-09-27 | 2022-09-27 | 住宅综合能源系统的热电协同调度方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115411776B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115899804B (zh) * | 2023-03-01 | 2023-05-23 | 四川蜀旺新能源股份有限公司 | 一种基于热电联供的综合供电供热设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112821465A (zh) * | 2021-01-08 | 2021-05-18 | 合肥工业大学 | 包含热电联产的工业微网负荷优化调度方法与系统 |
CN114331059A (zh) * | 2021-12-15 | 2022-04-12 | 上海电力大学 | 电氢互补的园区多楼宇供能系统及其协调调度方法 |
CN114784797A (zh) * | 2022-04-25 | 2022-07-22 | 东南大学溧阳研究院 | 一种计及多重不确定性的住宅综合能源系统的热电优化日前调度方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106849190B (zh) * | 2017-03-21 | 2019-05-17 | 国网天津市电力公司 | 一种基于Rollout算法的多能互补微网实时调度方法 |
-
2022
- 2022-09-27 CN CN202211182386.3A patent/CN115411776B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112821465A (zh) * | 2021-01-08 | 2021-05-18 | 合肥工业大学 | 包含热电联产的工业微网负荷优化调度方法与系统 |
CN114331059A (zh) * | 2021-12-15 | 2022-04-12 | 上海电力大学 | 电氢互补的园区多楼宇供能系统及其协调调度方法 |
CN114784797A (zh) * | 2022-04-25 | 2022-07-22 | 东南大学溧阳研究院 | 一种计及多重不确定性的住宅综合能源系统的热电优化日前调度方法 |
Non-Patent Citations (1)
Title |
---|
机器学习技术驱动的综合能源系统智能化调控技术研究;胡子健;中国优秀硕士学位论文全文数据库(电子期刊)工程科技Ⅱ辑(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115411776A (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kofinas et al. | Fuzzy Q-Learning for multi-agent decentralized energy management in microgrids | |
Athari et al. | Operational performance of energy storage as function of electricity prices for on-grid hybrid renewable energy system by optimized fuzzy logic controller | |
Hemmati | Technical and economic analysis of home energy management system incorporating small-scale wind turbine and battery energy storage system | |
CN111881616B (zh) | 一种基于多主体博弈的综合能源系统的运行优化方法 | |
CN103840457B (zh) | 考虑电动汽车充放电影响的配电网内dg优化配置方法 | |
Huang et al. | Residential energy system control and management using adaptive dynamic programming | |
Machlev et al. | A review of optimal control methods for energy storage systems-energy trading, energy balancing and electric vehicles | |
CN111340274A (zh) | 一种基于虚拟电厂参与的综合能源系统优化方法和系统 | |
Zhai et al. | Robust model predictive control for energy management of isolated microgrids | |
Zhang et al. | Efficient design of energy microgrid management system: a promoted Remora optimization algorithm-based approach | |
CN112583017A (zh) | 考虑储能运行约束的混合微电网能量分配方法及系统 | |
Shotorbani et al. | Enhanced real-time scheduling algorithm for energy management in a renewable-integrated microgrid | |
CN115411776B (zh) | 住宅综合能源系统的热电协同调度方法及装置 | |
Nassourou et al. | Economic model predictive control for energy dispatch of a smart micro-grid system | |
CN113869742B (zh) | 基于行动家和评论家网络的综合供需侧的电力调度系统 | |
Zhu et al. | Optimal scheduling of a wind energy dominated distribution network via a deep reinforcement learning approach | |
Leo et al. | Multi agent reinforcement learning based distributed optimization of solar microgrid | |
Kofinas et al. | Energy management in solar microgrid via reinforcement learning | |
Lv et al. | Data-based optimal microgrid management for energy trading with integral Q-learning scheme | |
Roy et al. | Application of ANFASO for optimal power flow management of MG‐connected system with energy storage | |
Bonthu et al. | Energy cost optimization in microgrids using model predictive control and mixed integer linear programming | |
An et al. | Real-time optimal operation control of micro energy grid coupling with electricity-thermal-gas considering prosumer characteristics | |
CN116865270A (zh) | 一种含嵌入式直流的柔性互联配电网优化调度方法及系统 | |
Yu et al. | A fuzzy Q-learning algorithm for storage optimization in islanding microgrid | |
Alam et al. | Energy management by scheduling ESS with active demand response in low voltage grid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |