CN111725836B - 一种基于深度强化学习的需求响应控制方法 - Google Patents
一种基于深度强化学习的需求响应控制方法 Download PDFInfo
- Publication number
- CN111725836B CN111725836B CN202010562543.8A CN202010562543A CN111725836B CN 111725836 B CN111725836 B CN 111725836B CN 202010562543 A CN202010562543 A CN 202010562543A CN 111725836 B CN111725836 B CN 111725836B
- Authority
- CN
- China
- Prior art keywords
- time
- heat
- capacity
- storage system
- soc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000004044 response Effects 0.000 title claims abstract description 25
- 230000002787 reinforcement Effects 0.000 title claims abstract description 12
- 230000005611 electricity Effects 0.000 claims abstract description 48
- 238000005338 heat storage Methods 0.000 claims abstract description 45
- 238000003860 storage Methods 0.000 claims abstract description 39
- 238000005265 energy consumption Methods 0.000 claims abstract description 13
- 230000009194 climbing Effects 0.000 claims abstract description 8
- 238000004146 energy storage Methods 0.000 claims abstract description 8
- 239000007789 gas Substances 0.000 claims description 60
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 claims description 20
- 230000009471 action Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 239000000446 fuel Substances 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 11
- 239000003345 natural gas Substances 0.000 claims description 10
- 238000002485 combustion reaction Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000010248 power generation Methods 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 claims description 4
- 239000002737 fuel gas Substances 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 claims description 3
- 230000017525 heat dissipation Effects 0.000 claims description 3
- 230000020169 heat generation Effects 0.000 claims description 3
- 238000010438 heat treatment Methods 0.000 claims description 3
- 238000007599 discharging Methods 0.000 claims description 2
- 230000001276 controlling effect Effects 0.000 claims 2
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000005457 optimization Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/466—Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/04—Power grid distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
- H02J2300/24—The renewable source being solar energy of photovoltaic origin
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/28—The renewable source being wind energy
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/40—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation wherein a plurality of decentralised, dispersed or local energy generation technologies are operated simultaneously
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/50—Photovoltaic [PV] energy
- Y02E10/56—Power conversion systems, e.g. maximum power point trackers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/70—Wind energy
- Y02E10/76—Power conversion electric or electronic aspects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明涉及一种基于深度强化学习的需求响应控制方法。本发明在满足综合能源系统能源供给与消耗的平衡的前提下,基于电价的可中断负荷控制和能源存储装置来平滑电网负荷,实现削峰填谷和最小化园区的耗能成本。与现有技术相比,本发明具有如下优点:在不影响电动汽车用户使用电动汽车的前提下,将电动汽车当作广义储能参与到电力调度中;考虑到灵活爬坡量,可以削减光伏和风电带来的不确定性;在保证园区正常运行的前提下,在用电高峰时刻,对可中断负荷容量进行削减,达到了削峰的同时也降低了园区的耗能成本;通过储电装置和储热装置,在用电低谷期时,储存电能和热能,在用电高峰时参与能源调度,达到了填谷的目的。
Description
技术领域
本发明涉及园区需求响应优化领域,具体涉及一种基于深度强化学习的园区需求响应优化控制方法,以提高园区综合能源系统经济性。
背景技术
园区综合能源系统作为将多类型能源生产、存储、传输、消费以及能源市场交易深度融合而衍生的全新能源工业形态,主要包括微型燃气轮机、燃气锅炉、储电装置和储热装置。但是随着园区高比例新能源并网、电力电子装置和新负荷接入与多种能源种类、网络结构、主体的智能电网不断发展,为电网带来复杂性和不确定性。仅依靠发电侧的支撑配合不能满足智能电网实时供需平衡需求,需要通过可中断负荷控制和可转移负荷的控制来实现需求侧削峰填谷与提高综合能源系统运行经济性。
已有一些方法解决综合能源系统的需求响应优化中。文献1:徐业琰等,基于综合需求响应和博弈的区域综合能源系统多主体日内联合优化调度.电网技术,2019.43(07):第2506-2518页.提出了一种两阶段优化调度策略。一阶段为系统管理商的经济收益优化,利用Stackelberg博弈和电价型IDR策略实现用户对系统管理商经济优化的制约;二阶段为产能基地与用户利益的联合优化,采用激励型IDR策略建立用户与产能基地的互利关系,利用联盟博弈实现用户间制约平衡,从而实现三方主体利益相互制约和联合优化。上述方法没有考虑新能源的不确定性,在短时间调度时会造成计算偏差。专利1:CN110994694A,公开日:2020.04.10,提出一种计及差异化需求响应方法,根据负荷用电特性将负荷分为商业负荷、居民负荷和工业负荷,并根据不同类型负荷响应弹性差异性,构建了负荷变化量与电价改变量的新型价格型需求响应机制;然后结合储能充放电模型,建立了微电网源荷储协调优化调度模型。文献2:孙毅,刘迪,李彬等.深度强化学习在需求响应中的应用[J].电力系统自动化,2019,第43卷(5):183-194.提出了基于深度强化学习的需求响应实施架构及实现流程。通过基于LSTM的用户虚拟响应网络,模拟用户的响应行为,用二次函数近似表示用户的效益函数代表响应成本;然后用动作Q值代表售电商的收益,通过深度强化学习的找到最大的奖励值。
发明内容
本发明要解决的技术问题是:现有解决综合能源系统的需求响应优化的方法未考虑综合能源系统的分布式能源的出力情况,只是从需求响应成本单方面建立智能体与环境的交互。
为了解决上述技术问题,本发明的技术方案是提供了一种基于深度强化学习的需求响应控制方法,其特征在于,包括以下步骤:
步骤1、满足综合能源系统的供销平衡的前提下,将综合能源系统最小耗能问题建模为基于马尔可夫博弈的深度神经网络,并设计相应的动作、环境状态、以及奖励函数,包括以下步骤:
步骤101、将动作的表达式设计为:
At=(PA,t,PB,t,PC,t,PD,t,PE,i,t,PH,t)
上式中,At表示t时刻的动作,PA,t表示t时刻的储电系统的放电量,PB,t表示t时刻储热系统的放热量,PC,t表示t时刻的微燃机的消耗燃气量,PD,t表示t时刻的燃气锅炉的消耗燃气量,PE,i,t表示第i个电动汽车t时刻的电动汽车充电量,PH,t表示t时刻的可中断负荷的中断量;
步骤102、建立综合能源系统模型及需求响应机制,其中,综合能源系统包括微型燃气轮机、燃气锅炉、储电装置和储热装置,并将电动汽车当作储能装置,参与电力调度,则有:
微型燃气轮机模型如下式所示:
Pgas,t=PC,tLNG
式中,PMT,t表示t时刻微型燃气轮机的发电功率,表示微型燃气轮机的发电效率,Pgas,t表示t时刻微型燃气轮机消耗的天然气功率,QMT,t表示t时刻微型燃气轮机的产热功率,/>表示微型燃气轮机的散热损失系数,PC,t表示t时刻微型燃气轮机消耗的燃料量,LNG表示天然气燃烧的低热值;
燃气锅炉模型如下式所示:
式中,QGB,t表示t时刻燃气锅炉的热功率,PD,t表示t时刻燃气锅炉在消耗的燃气量,表示燃气锅炉的产热效率;
电动汽车充放电模型如下式所示:
当EVSOC,t+PG,t≤EVcapacity时,电动汽车的充电量为PG,t;
当EVSOC,t+PG,t≥EVcapacity时,电动汽车的充电量PG,t=EVcapacity-EVSOC,t;
式中,EVSOC,t为电动汽车t时刻电量,EVcapacity为电动汽车容量;
可中断负荷模型如下式所示:
PH,min≤PH,t≤PH,max
式中,PH,min表示可中断容量的最小值,PH,t表示t时刻可中断容量,PH,max可中断容量的最大值;
储电系统充放电模型如下式所示:
当PA,t>0时,储电系统处于放电状态,放电状态包括正常放电状态及过度放电状态,当储电系统处于正常放电状态时:
ESSmin<ESSSOC,t-PA,t≤ESScapacity
t时刻电网的购电量PGA,t=eledemand+PG,t-PA,t-PMT,t-Fe,t;
式中,ESSmin、ESScapacity、ESSSOC,t分别为储电系统最低电量、储电系统容量和储电系统t时刻电量,eledemand为电负荷需求量,Fe,t为灵活爬坡量;
当储电系统处于过度放电状态时:
ESSSOC,t-PA,t≤ESSmin
t时刻电网的购电量PGA,t=eledemand+PG,t-(ESSmin-ESSSOC,t)-PMT,t-Fe,t;
当PA,t<0时,储电系统处于充电状态:
ESSSOC,t-PA,t≥ESScapacity
t时刻电网的购电量PGA,t=eledemand+PG,t-(ESSSOC,t-ESScapacity)-PMT,t-Fe,t;
储热系统蓄/放模型如下式所示:
当PB,t>0时,储热系统处于放热状态,放热状态包括正常放热状态及过度放热状态,当储热系统处于正常放热状态时:
HSSmin<HSSSOC,t-PB,t≤HSScapacity
t时刻的可中断负荷的中断量PH,t=heatdemand-PB,t-QMT,t;
式中,HSSmin为储热系统最低热量,HSScapacity为储热系统容量,HSSSOC,t储热系统t时刻热量,heatdemand,t为热负荷需求量;
当储热系统处于过度放热状态时:
HSSSOC,t-PB,t≤HSSmin
t时刻的可中断负荷的中断量PH,t=heatdemand-(HSSmin-HSSSOC,t)-QMT;
当PB,t<0时,储热系统处于蓄热状态:
HSSSOC,t-PB,t≥HSScapacity
t时刻的可中断负荷的中断量PH,t=heatdemand-(HSSSOC,t-HSScapacity)-QMT;
步骤103、将环境状态的表达式设计为:
St=(ΔPgrid,ΔPA,t,ΔPB,t,ΔPC,t,ΔPD,t,ΔPE,i,t)
式中,St代表t时刻环境状态值,ΔPgrid代表t时刻与t-1时刻从电网购电价格的差值,ΔPA,t代表t时刻与t-1时刻储电系统的电量的差值,ΔPB,t代表t时刻与t-1时刻储热系统的热量的差值,ΔPC,t代表t时刻与t-1时刻微燃机的发电量的差值,ΔPD,t代表t时刻与t-1时刻燃气锅炉的发热量的差值,ΔPE,t代表时刻与t-1时刻的第i个电动汽车的电动汽车充电量的差值;
步骤104、将奖励函数reward表达式设计为:
式中,priceele,t为t时刻电网买电电价,priceheat,t为t时刻供热价格,pricegas,t为t时刻天然气价格,priceF,t为t时刻灵活爬坡备用价格,priceIL,t为t时刻可中断补偿价格;
马尔科夫决策过程求解奖励函数reward的最大值,故取耗能成本的负值,当奖励函数reward取得最大值时,综合能源系统的耗能成本最低;
步骤2、使用深度确定性梯度算法对步骤1建立的深度神经网络进行训练,深度确定性梯度算法包括actor当前策略网络、actor目标策略网络、critic当前Q网络和critic目标Q网络;
步骤3、在实际应用中,依据训练好的深度神经网络和新的环境状态输入即可获得关于综合能源系统中微燃机、储电/热装置和燃气锅炉各个时刻的出力情况以及可中断负荷的中断容量情况。
优选地,将一天24小时分为24个时刻,则在所述电动汽车充放电模型中,当t=17时,EVSOC,17=EVcapacity,当t>17和t<9时,电动汽车不参与电力调度。
优选地,所述步骤2包括以下步骤:
步骤201、初始化St为当前状态序列的第一个状态;
步骤202、actor当前策略网络根据行为策略BP选择动作集At,智能体将行为策略BP下达给综合能源系统环境执行该动作集At;
步骤203、综合能源系统环境根据动作集At,返回综合能源系统环境的奖励值Rt和新的状态St+1;
步骤204、actor当前策略网络将转换过程数据(St,At,Rt,St+1)存入回放内容缓冲区中,作为actor当前策略网络的数据集。
步骤205、St+1=St;
步骤206、从回放内容缓冲区中,随机采样N个转换过程数据作为actor当前策略网络、critic当前Q网络的一个训练数据;
步骤207、计算当前目标Q值yj:
步骤208、使用均方差损失函数,通过神经网络的梯度反向传播来更新critic当前Q网络的所有参数ω;
步骤209、通过神经网络的梯度反向传播来更新actor当前策略网络的所有参数θ;
步骤210、如果目标Q网络参数更新频率C%最大迭代次数T=1,则更新actor目标Q网络参数和actor目标策略网络参数;
步骤211、判断当前Rt是否达到目标,如果未达到目标则转至步骤202。
优选地,步骤202中,所述行为策略BP是根据当前策略和随机噪声生成的随机过程,从这个随机过程采样获得所述动作集At的值。
本发明在满足综合能源系统能源供给与消耗的平衡的前提下,基于电价的可中断负荷控制和能源存储装置来平滑电网负荷,实现削峰填谷和最小化园区的耗能成本。与现有技术相比,本发明具有如下优点:
1、在不影响电动汽车用户使用电动汽车的前提下,将电动汽车当作广义储能参与到电力调度中。
2、考虑到灵活爬坡量,可以削减光伏和风电带来的不确定性。
3、在保证园区正常运行的前提下,在用电高峰时刻,对可中断负荷容量进行削减,达到了削峰的同时也降低了园区的耗能成本。
4、通过储电装置和储热装置,在用电低谷期时,储存电能和热能,在用电高峰时参与能源调度,达到了填谷的目的。
附图说明
图1示意了本发明初始训练引入随机噪声;
图2示意了本发明的算法步骤;
图3示意了本发明的实施过程。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
步骤1、满足综合能源系统的供销平衡的前提下,将综合能源系统最小耗能问题建模为基于马尔可夫博弈的深度神经网络,并设计相应的动作、环境状态、以及奖励函数,包括以下步骤:
步骤101、将动作的表达式设计为:
At=(PA,t,PB,t,PC,t,PD,t,PE,i,t,PH,t)
上式中,At表示t时刻的动作,PA,t表示t时刻的储电系统的放电量,PB,t表示t时刻储热系统的放热量,PC,t表示t时刻的微燃机的消耗燃气量,PD,t表示t时刻的燃气锅炉的消耗燃气量,PE,i,t表示第i个电动汽车t时刻的电动汽车充电量,PH,t表示t时刻的可中断负荷的中断量;
在本实施例中,将一天24小时分为24个时刻;
步骤102、建立综合能源系统模型及需求响应机制:
综合能源系统包括微型燃气轮机、燃气锅炉、储电装置和储热装置,并将电动汽车当作储能装置,参与电力调度,则有:
微型燃气轮机模型如下式所示:
Pgas,t=PC,tLNG
式中,PMT,t表示t时刻微型燃气轮机的发电功率,kW;
表示微型燃气轮机的发电效率,%;
Pgas,t表示t时刻微型燃气轮机消耗的天然气功率,kW;
QMT,t表示t时刻微型燃气轮机的产热功率,kW;
表示微型燃气轮机的散热损失系数;
PC,t表示t时刻微型燃气轮机消耗的燃料量,Nm3;
LNG表示天然气燃烧的低热值,9.7kWh/m3;
燃气锅炉模型如下式所示:
式中,QGB,t表示t时刻燃气锅炉的热功率,kW;
PD,t表示t时刻燃气锅炉在消耗的燃气量,Nm3;
表示燃气锅炉的产热效率,%;
电动汽车充放电模型如下式所示:
当EVSOC,t+PG,t≤EVcapacity时,电动汽车的充电量为PG,t;
当EVSOC,t+PG,t≥EVcapacity时,电动汽车的充电量PG,t=EVcapacity-EVSOC,t;
式中,EVSOC,t为电动汽车t时刻电量,EVcapacity为电动汽车容量;
为了保证不影响车主的使用,需要保证在下班时刻,电动汽车的电量处于最大电量状态,即当t=17时,EVSOC,17=EVcapacity,当t>17和t<9时,电动汽车不参与电力调度;
可中断负荷模型如下式所示:
PH,min≤PH,t≤PH,max
式中,PH,min表示可中断容量的最小值,PH,t表示t时刻可中断容量,PH,max可中断容量的最大值;
储电系统(Electricity storage system,ESS)充放电模型如下式所示:
当PA,t>0时,储电系统处于放电状态,放电状态包括正常放电状态及过度放电状态,当储电系统处于正常放电状态时:
ESSmin<ESSSOC,t-PA,t≤ESScapacity
t时刻电网的购电量PGA,t=eledemand+PG,t-PA,t-PMT,t-Fe,t;
式中,ESSmin、ESScapacity、ESSSOC,t分别为储电系统最低电量、储电系统容量和储电系统t时刻电量,eledemand为电负荷需求量,Fe,t为灵活爬坡量;
当储电系统处于过度放电状态时:
ESSSOC,t-PA,t≤ESSmin
t时刻的放电量为ESSmin-ESSSOC,t,则有:
t时刻电网的购电量PGA,t=eledemand+PG,t-(ESSmin-ESSSOC,t)-PMT,t-Fe,t;
当PA,t<0时,储电系统处于充电状态:
ESSSOC,t-PA,t≥ESScapacity
t时刻储电系统由电源转换成负荷,t时刻的发电量为PA,t=ESSSOC,t-ESScapacity<0,则有:
t时刻电网的购电量PGA,t=eledemand+PG,t-(ESSSOC,t-ESScapacity)-PMT,t-Fe,t;
储热系统(Heat storage system,HSS)蓄/放模型如下式所示:
当PB,t>0时,储热系统处于放热状态,放热状态包括正常放热状态及过度放热状态,当储热系统处于正常放热状态时:
HSSmin<HSSSOC,t-PB,t≤HSScapacity
t时刻的可中断负荷的中断量PH,t=heatdemand-PB,t-QMT,t;
式中,HSSmin为储热系统最低热量,HSScapacity为储热系统容量,HSSSOC,t储热系统t时刻热量,heatdemand,t为热负荷需求量;
当储热系统处于过度放热状态时:
HSSSOC,t-PB,t≤HSSmin
t时刻的放热量为HSSmin-HSSSOC,t,则有:
t时刻的可中断负荷的中断量PH,t=heatdemand-(HSSmin-HSSSOC,t)-QMT;
当PB,t<0时,储热系统处于蓄热状态:
HSSSOC,t-PB,t≥HSScapacity
t时刻储热系统由供热装置转换成热负荷,t时刻的发电量为PB,t=HSSSOC,t-HSScapacity<0,则有:
t时刻的可中断负荷的中断量PH,t=heatdemand-(HSSSOC,t-HSScapacity)-QMT;
步骤103、将环境状态的表达式设计为:
St=(ΔPgrid,ΔPA,t,ΔPB,t,ΔPC,t,ΔPD,t,ΔPE,i,t)
式中,St代表t时刻环境状态值,ΔPgrid代表t时刻与t-1时刻从电网购电价格的差值,ΔPA,t代表t时刻与t-1时刻储电系统的电量的差值,ΔPB,t代表t时刻与t-1时刻储热系统的热量的差值,ΔPC,t代表t时刻与t-1时刻微燃机的发电量的差值,ΔPD,t代表t时刻与t-1时刻燃气锅炉的发热量的差值,ΔPE,t代表时刻与t-1时刻的第i个电动汽车的电动汽车充电量的差值;
步骤104、将奖励函数reward表达式设计为:
式中,priceele,t为t时刻电网买电电价,priceheat,t为t时刻供热价格,pricegas,t为t时刻天然气价格,priceF,t为t时刻灵活爬坡备用价格,priceIL,t为t时刻可中断补偿价格;
马尔科夫决策过程求解奖励函数reward的最大值,故取耗能成本的负值,当奖励函数reward取得最大值时,综合能源系统的耗能成本最低;
步骤2、使用深度确定性梯度算法(Deep Deterministic Policy Gradient,DDPG)对步骤1建立的深度神经网络进行训练,深度确定性梯度算法包括actor当前策略网络、actor目标策略网络、critic当前Q网络和critic目标Q网络,包括以下步骤:
步骤201、初始化St为当前状态序列的第一个状态;
步骤202、actor当前策略网络根据行为策略(behavior policy,BP)选择动作集At,智能体将行为策略BP下达给综合能源系统环境(environment,ENV)执行该动作集At;行为策略BP如图1所示是根据当前策略和随机噪声生成的随机过程,从这个随机过程采样获得所述动作集At的值;
步骤203、综合能源系统环境根据动作集At,返回综合能源系统环境的奖励值Rt和新的状态St+1;
步骤204、actor当前策略网络将转换过程数据(St,At,Rt,St+1)存入回放内容缓冲区(replay memory buffer,RMB)中,作为actor当前策略网络的数据集;
步骤205、St+1=St;
步骤206、从回放内容缓冲区中,随机采样N个转换过程数据作为actor当前策略网络、critic当前Q网络的一个训练数据;
步骤207、计算当前目标Q值yj:
步骤208、使用均方差损失函数,通过深度神经网络的梯度反向传播来更新critic当前Q网络的所有参数ω;
步骤209、通过深度神经网络的梯度反向传播来更新actor当前策略网络的所有参数θ;
步骤210、如果目标Q网络参数更新频率C%最大迭代次数T=1,则更新actor目标Q网络参数和actor目标策略网络参数;
步骤211、判断当前Rt是否达到目标,如果未达到目标则转至步骤202。
步骤3、在实际应用中,依据训练好的深度神经网络和新的环境状态输入即可获得关于综合能源系统中微燃机、储电/热装置和燃气锅炉各个时刻的出力情况以及可中断负荷的中断容量情况。
如图3所示,在实际的中的包括如下操作步骤:
(1)使用综合能源系统的历史数据训练模型。
(2)模型进行优化。
(3)将模型下达至综合能源系统控制中心。
(4)综合能源系统控制中心将当天的电价数据、天然气价格数据、预测的电/热负荷数据等数据作为输入,输入到优化的模型当中。模型通过迭代,输出最优的动作,包括:综合能源系统中微燃机、储电/热装置和燃气锅炉各个时刻的出力情况以及可中断负荷的中断容量情况。
(5)综合能源系统控制中心最优动作下达至具体设备,控制设备的出力情况。
Claims (4)
1.一种基于深度强化学习的需求响应控制方法,其特征在于,包括以下步骤:
步骤1、满足综合能源系统的供销平衡的前提下,将综合能源系统最小耗能问题建模为基于马尔可夫博弈的深度神经网络,并设计相应的动作、环境状态、以及奖励函数,包括以下步骤:
步骤101、将动作的表达式设计为:
At=(PA,t,PB,t,PC,t,PD,t,PE,i,t,PH,t)
上式中,At表示t时刻的动作,PA,t表示t时刻的储电系统的放电量,PB,t表示t时刻储热系统的放热量,PC,t表示t时刻的微燃机的消耗燃气量,PD,t表示t时刻的燃气锅炉的消耗燃气量,PE,i,t表示第i个电动汽车t时刻的电动汽车充电量,PH,t表示t时刻的可中断负荷的中断量;
步骤102、建立综合能源系统模型及需求响应机制,其中,综合能源系统包括微型燃气轮机、燃气锅炉、储电装置和储热装置,并将电动汽车当作储能装置,参与电力调度,则有:
微型燃气轮机模型如下式所示:
Pgas,t=PC,tLNG
式中,PMT,t表示t时刻微型燃气轮机的发电功率,表示微型燃气轮机的发电效率,Pgas,t表示t时刻微型燃气轮机消耗的天然气功率,QMT,t表示t时刻微型燃气轮机的产热功率,/>表示微型燃气轮机的散热损失系数,PC,t表示t时刻微型燃气轮机消耗的燃料量,LNG表示天然气燃烧的低热值;
燃气锅炉模型如下式所示:
式中,QGB,t表示t时刻燃气锅炉的热功率,PD,t表示t时刻燃气锅炉在消耗的燃气量,表示燃气锅炉的产热效率;
电动汽车充放电模型如下式所示:
当EVSOC,t+PG,t≤EVcapacity时,电动汽车的充电量为PG,t;
当EVSOC,t+PG,t≥EVcapacity时,电动汽车的充电量PG,t=EVcapacity-EVSOC,t;
式中,EVSOC,t为电动汽车t时刻电量,EVcapacity为电动汽车容量;
可中断负荷模型如下式所示:
PH,min≤PH,t≤PH,max
式中,PH,min表示可中断容量的最小值,PH,t表示t时刻可中断容量,PH,max可中断容量的最大值;
储电系统充放电模型如下式所示:
当PA,t>0时,储电系统处于放电状态,放电状态包括正常放电状态及过度放电状态,当储电系统处于正常放电状态时:
ESSmin<ESSSOC,t-PA,t≤ESScapacity
t时刻电网的购电量PGA,t=eledemand+PG,t-PA,t-PMT,t-Fe,t;
式中,ESSmin、ESScapacity、ESSSOC,t分别为储电系统最低电量、储电系统容量和储电系统t时刻电量,eledemand为电负荷需求量,Fe,t为灵活爬坡量;
当储电系统处于过度放电状态时:
ESSSOC,t-PA,t≤ESSmin
t时刻电网的购电量PGA,t=eledemand+PG,t-(ESSmin-ESSSOC,t)-PMT,t-Fe,t;
当PA,t<0时,储电系统处于充电状态:
ESSSOC,t-PA,t≥ESScapacity
t时刻电网的购电量PGA,t=eledemand+PG,t-(ESSSOC,t-ESScapacity)-PMT,t-Fe,t;
储热系统蓄/放模型如下式所示:
当PB,t>0时,储热系统处于放热状态,放热状态包括正常放热状态及过度放热状态,当储热系统处于正常放热状态时:
HSSmin<HSSSOC,t-PB,t≤HSScapacity
t时刻的可中断负荷的中断量PH,t=heatdemand-PB,t-QMT,t;
式中,HSSmin为储热系统最低热量,HSScapacity为储热系统容量,HSSSOC,t储热系统t时刻热量,heatdemand,t为热负荷需求量;
当储热系统处于过度放热状态时:
HSSSOC,t-PB,t≤HSSmin
t时刻的可中断负荷的中断量PH,t=heatdemand-(HSSmin-HSSSoC,t)-QMT;
当PB,t<0时,储热系统处于蓄热状态:
HSSSoC,t-PB,t≥HSScapacity
t时刻的可中断负荷的中断量PH,t=heatdemand-(HSSSOC,t-HSScapacity)-QMT;
步骤103、将环境状态的表达式设计为:
St=(ΔPgrid,ΔPA,t,ΔPB,t,ΔPC,t,ΔPD,t,ΔPE,i,t)
式中,St代表t时刻环境状态值,ΔPgrid代表t时刻与t-1时刻从电网购电价格的差值,ΔPA,t代表t时刻与t-1时刻储电系统的电量的差值,ΔPB,t代表t时刻与t-1时刻储热系统的热量的差值,ΔPC,t代表t时刻与t-1时刻微燃机的发电量的差值,ΔPD,t代表t时刻与t-1时刻燃气锅炉的发热量的差值,ΔPE,t代表时刻与t-1时刻的第i个电动汽车的电动汽车充电量的差值;
步骤104、将奖励函数reward表达式设计为:
式中,priceele,t为t时刻电网买电电价,priceheat,t为t时刻供热价格,pricegas,t为t时刻天然气价格,priceF,t为t时刻灵活爬坡备用价格,priceIL,t为t时刻可中断补偿价格;
马尔科夫决策过程求解奖励函数reward的最大值,故取耗能成本的负值,当奖励函数reward取得最大值时,综合能源系统的耗能成本最低;
步骤2、使用深度确定性梯度算法对步骤1建立的深度神经网络进行训练,深度确定性梯度算法包括actor当前策略网络、actor目标策略网络、critic当前Q网络和critic目标Q网络;
步骤3、在实际应用中,依据训练好的深度神经网络和新的环境状态输入即可获得关于综合能源系统中微燃机、储电/热装置和燃气锅炉各个时刻的出力情况以及可中断负荷的中断容量情况。
2.如权利要求1所述的一种基于深度强化学习的需求响应控制方法,其特征在于,将一天24小时分为24个时刻,则在所述电动汽车充放电模型中,当t=17时,EVSOC,17=EVcapacity,当t>17和t<9时,电动汽车不参与电力调度。
3.如权利要求1所述的一种基于深度强化学习的需求响应控制方法,其特征在于,所述步骤2包括以下步骤:
步骤201、初始化St为当前状态序列的第一个状态;
步骤202、actor当前策略网络根据行为策略BP选择动作集At,智能体将行为策略BP下达给综合能源系统环境执行该动作集At;
步骤203、综合能源系统环境根据动作集At,返回综合能源系统环境的奖励值Rt和新的状态St+1;
步骤204、actor当前策略网络将转换过程数据(St,At,Rt,St+1)存入回放内容缓冲区中,作为actor当前策略网络的数据集;
步骤205、St+1=St;
步骤206、从回放内容缓冲区中,随机采样N个转换过程数据作为actor当前策略网络、critic当前Q网络的一个训练数据;
步骤207、计算当前目标Q值yj:
步骤208、使用均方差损失函数,通过深度神经网络的梯度反向传播来更新critic当前Q网络的所有参数ω;
步骤209、通过深度神经网络的梯度反向传播来更新actor当前策略网络的所有参数θ;
步骤210、如果目标Q网络参数更新频率C%最大迭代次数T=1,则更新actor目标Q网络参数和actor目标策略网络参数;
步骤211、判断当前Rt是否达到目标,如果未达到目标则转至步骤202。
4.如权利要求3所述一种基于深度强化学习的需求响应控制方法,其特征在于,步骤202中,所述行为策略BP是根据当前策略和随机噪声生成的随机过程,从这个随机过程采样获得所述动作集At的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010562543.8A CN111725836B (zh) | 2020-06-18 | 2020-06-18 | 一种基于深度强化学习的需求响应控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010562543.8A CN111725836B (zh) | 2020-06-18 | 2020-06-18 | 一种基于深度强化学习的需求响应控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111725836A CN111725836A (zh) | 2020-09-29 |
CN111725836B true CN111725836B (zh) | 2024-05-17 |
Family
ID=72567652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010562543.8A Active CN111725836B (zh) | 2020-06-18 | 2020-06-18 | 一种基于深度强化学习的需求响应控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111725836B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381359B (zh) * | 2020-10-27 | 2021-10-26 | 惠州蓄能发电有限公司 | 一种基于数据挖掘的多critic强化学习的电力经济调度方法 |
CN112836287B (zh) * | 2020-11-10 | 2023-06-27 | 华北电力大学 | 一种基于神经网络的电动汽车资源灵活性预测方法 |
CN112338921A (zh) * | 2020-11-16 | 2021-02-09 | 西华师范大学 | 一种基于深度强化学习的机械臂智能控制快速训练方法 |
CN114619907B (zh) * | 2020-12-14 | 2023-10-20 | 中国科学技术大学 | 基于分布式深度强化学习的协调充电方法及协调充电系统 |
CN115528712B (zh) * | 2022-11-23 | 2023-06-20 | 国网天津市电力公司滨海供电分公司 | 一种源网荷储备不同区储能容量平衡方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109861290A (zh) * | 2019-03-14 | 2019-06-07 | 国网上海市电力公司 | 一种考虑多种柔性负荷的综合能源系统优化调度方法 |
CN109886469A (zh) * | 2019-01-23 | 2019-06-14 | 华北电力大学 | 一种区域综合能源系统需求侧管理方法 |
CN110659830A (zh) * | 2019-09-25 | 2020-01-07 | 国网天津市电力公司 | 面向综合能源系统的多能源微网规划方法 |
CN111222713A (zh) * | 2020-01-17 | 2020-06-02 | 上海电力大学 | 考虑响应行为不确定性的园区能源互联网优化运行方法 |
-
2020
- 2020-06-18 CN CN202010562543.8A patent/CN111725836B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886469A (zh) * | 2019-01-23 | 2019-06-14 | 华北电力大学 | 一种区域综合能源系统需求侧管理方法 |
CN109861290A (zh) * | 2019-03-14 | 2019-06-07 | 国网上海市电力公司 | 一种考虑多种柔性负荷的综合能源系统优化调度方法 |
CN110659830A (zh) * | 2019-09-25 | 2020-01-07 | 国网天津市电力公司 | 面向综合能源系统的多能源微网规划方法 |
CN111222713A (zh) * | 2020-01-17 | 2020-06-02 | 上海电力大学 | 考虑响应行为不确定性的园区能源互联网优化运行方法 |
Non-Patent Citations (1)
Title |
---|
多能互补综合能源电力系统的建设模式初探;李宇泽;齐峰;朱英伟;王鹏;侯健生;文福拴;;电力科学与技术学报;20190328(第01期);5-12 * |
Also Published As
Publication number | Publication date |
---|---|
CN111725836A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111725836B (zh) | 一种基于深度强化学习的需求响应控制方法 | |
CN109858759B (zh) | 一种工业园区综合能源平衡调度方法 | |
CN103997091B (zh) | 一种规模化电动汽车智能充电控制方法 | |
CN106228258A (zh) | 一种计及需求侧管理的家庭能源局域网能量优化控制方法 | |
CN111614121A (zh) | 考虑需求响应的含电动汽车的多能源园区日前经济调度方法 | |
CN113326994A (zh) | 一种考虑源荷储互动的虚拟电厂能量协同优化方法 | |
CN111293682B (zh) | 一种基于协同模型预测控制的多微网能量管理方法 | |
CN103208030B (zh) | 一种能够减小用电代价均值及其波动的电耗调度方法 | |
CN109742755B (zh) | 基于节点分区的含电动汽车的主动配电网运行调度方法 | |
CN112186755A (zh) | 一种区域综合能源系统柔性负荷储能化建模方法 | |
CN114142517B (zh) | 光蓄充一体化系统与电网并网运行的控制方法 | |
CN109866645A (zh) | 一种基于虚拟实时电价的电动汽车有序充电控制方法 | |
CN111864749A (zh) | 光伏系统出力园区电动汽车充电方法、系统及存储介质 | |
CN113487188A (zh) | 考虑电气联合价格引导机制的综合能源系统优化调度方法 | |
CN115115130A (zh) | 一种基于模拟退火算法的风光储制氢系统日前调度方法 | |
CN114881328A (zh) | 计及气网混氢和低碳奖励的综合能源系统经济调度方法 | |
CN114881296A (zh) | 基于有偿分配的综合能源系统削峰填谷调度策略 | |
CN117543581A (zh) | 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用 | |
CN112510690B (zh) | 考虑风火储联合和需求响应奖惩的优化调度方法及系统 | |
CN117833329A (zh) | 一种面向配网优化调度的分布式资源动态聚合调控方法 | |
CN115986833A (zh) | 考虑两阶段需求响应的热电联供微网低碳经济调度方法 | |
CN114936672B (zh) | 一种基于纳什谈判法的多虚拟电厂联合调度方法 | |
CN112785093B (zh) | 一种基于电力消费模式的光伏储能容量配置优化方法 | |
CN112713590B (zh) | 计及idr的冷热电联供微网与主动配电网联合优化调度方法 | |
CN113852139A (zh) | 一种考虑电热需求响应的风储联合供热系统优化调度策略 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |