CN113591375A - 一种基于智能体的多能源系统最优协同运行方法 - Google Patents
一种基于智能体的多能源系统最优协同运行方法 Download PDFInfo
- Publication number
- CN113591375A CN113591375A CN202110808989.9A CN202110808989A CN113591375A CN 113591375 A CN113591375 A CN 113591375A CN 202110808989 A CN202110808989 A CN 202110808989A CN 113591375 A CN113591375 A CN 113591375A
- Authority
- CN
- China
- Prior art keywords
- network
- power
- time
- electric
- load
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/06—Power analysis or power optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/08—Thermal analysis or thermal optimisation
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
- H02J2300/24—The renewable source being solar energy of photovoltaic origin
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/50—Photovoltaic [PV] energy
- Y02E10/56—Power conversion systems, e.g. maximum power point trackers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明公开了一种基于智能体的多能源系统最优协同运行方法,涉及多能源系统技术领域,通过π网络和Q网络生成目标网络,设定循环周期T;将一组历史数据输入至目标网络,通过π网络决定动作,通过多能源系统物理模型计算出下一时刻的观测状态和回报,通过r值更新π网络和Q网络的参数,循环T次后完成DDPG算法的离线学习;通过观测设备获取DDPG算法的观测数据,将观测数据输入至完成离线学习的DDPG算法获得决策动作,完成多能源系统的实时自趋优运行。本发明克服了传统数学算法需要对物理模型间的耦合关系进行复杂建模的问题,并扩展了一般机器学习算法的动作空间,使决策可以更加逼近最优决策。
Description
技术领域
本发明涉及多能源系统技术领域,具体是一种基于智能体的多能源系统最优协同运行方法。
背景技术
多能源系统集热、电、气等多种能源形式于一体,可以实现多种能源形式的相互转化和互补利用。然而,由于负荷和可再生能源出力的不确定性,以及复杂的能源耦合关系,多能源系统的经济运行面临重大挑战。
现有的多能源系统优化调度分为日前调度和实时调度,其中日前调度无法动态的对新能源出力和负荷波动做出响应,难以获得最优的调度效果。而对于实时调度,一般采用基于模型预测控制的调度方法,虽然该方法对实现了多能源系统的动态调度,但仍然依赖于对可再生能源和负荷的准确预测,会受到预测偏差的影响。随着计算机性能的快速发展,许多学者开始使用机器学习的方法来处理调度问题,如Q-learning,DQN等。它们都存在的不同的技术问题,Q-learning算法,需要大量的内存来存储Q值,处理高维空间的调度问题时,会产生维数灾的问题。DQN算法,通过加入神经网络的方法解决了Q值存储问题,消除了维数灾,实现了向高维空间的扩展,但是只能输出离散动作,丧失了很多动作空间,造成调度成本的上升,无法获得最优调度。
发明内容
鉴于上述技术缺点,本发明提供了一种基于智能体的多能源系统最优协同运行方法。
为实现上述发明目的,本发明的技术方案如下:
一种基于智能体的多能源系统最优协同运行方法,包括如下步骤:
S1,通过π网络和Q网络生成目标网络,设定循环周期T,将一组历史数据输入至目标网络,通过π网络决定动作,将动作输入至多能源系统物理模型计算策略的回报和下一时刻历史数据的观测状态,根据回报修正Q网络的参数,得到修正后的Q网络,通过修正后的Q网络得到Q值,通过Q值修正π网络参数,得到修正后的π网络,修正后的Q网络和修正后的π网络生成新的目标网络,循环T次后,完成DDPG算法的离线学习;
S2,通过观测设备实时获取DDPG算法的观测数据,将观测数据输入至完成离线学习的DDPG算法,获得决策动作,通过决策动作完成多能源系统的实时自趋优运行。
作为优选的,步骤S1中的多能源系统物理模型包括热电联产机组模型,光伏电源,储电模型,气锅炉模型,电锅炉模型以及用户侧热补偿模型;
热电联产机组模型:
hCHP,t=δ·pCHP,t
pCHP,t为热电联产机组在t时刻电出力,hCHP,t为热电联产机组在t时刻热出力,gCHP,t为热电联产机组在t时刻耗气量,δ为热电联产机组的热电比,αCHP为热电联产机组的转换因子,为热电联产机组的最小电功率,为热电联产机组的最大电功率;
电锅炉模型:
hEB,t=pEB,t·αEB
气锅炉模型:
储电模型:
Csoc,0=Cini=Csoc,23
pBES,t为储电装置在t时刻的电功率,Csoc,t为储电装置在t时刻的荷电状态,ρBES为储电装置的效率,QBES为储电装置的电容量,ρch为储电装置的充电效率,ρdis为储电装置的放电效率,为储电装置的最小荷电状态,为储电装置的最大荷电状态,为储电装置的最小电功率,为储电装置的最大电功率,Cini为储电装置的初始荷电状态,Csoc,0为储电装置的在0时的荷电状态,Csoc,23为储电装置的在23时的荷电状态;
用户侧热补偿模型:
dh,t=hload,t-(hCHP,t+hEB,t+hGB,t)
0≤dh,t≤0.2·hload,t
hload,t为t时刻的热负荷,dh,t为t时刻的热功率缺额,μh,t为热功率缺额补偿价格,θwil,θuwil为不同梯度的补偿价格;
回报函数:
rt(st,at)=-(Cp(st,at)+CBES(st,at)+Cu(st,at))/1000(24)
回报函数用于衡量决策的优劣,并作为修正神经网络参数的依据,rt为t时刻的回报,st为t时刻的观测状态,at为t时刻的动作;
上层电网交互模型用于计算回报函数中Cp(st,at),CBES(st,at)和Cu(st,at):
pgrid,t=pload,t+pEB,t+pPV,t-pBES,t-pCHP,t
目标函数:
F=min(Cp+CBES+Cu)
Cu=μh,tdh,t
调度的目标是多能源系统的日运行成本达到设定最小值,Cp为购买能源的成本,CBES为蓄电设备折旧成本,Cu为热功率补偿成本,μBES为储电设备折旧单价。
作为优选的,步骤S1中的DDPG算法的离线学习流程如下:
观测空间:
S={pload,hload,pPV,Csoc,μe}
S为智能体需要观测的状态的集合,pload为负荷电功率,hload为负荷热功率,pPV为光伏电源出力功率,Csoc为储电装置的荷电状态,μe为分时电价;
动作空间:
A={pCHP,hEB,hGB,pBES}
A为智能体可以决策的动作的集合,pCHP为热电联产电功率,hEB为电锅炉热功率,hGB为气锅炉热功率,pBES为储电装置充放电功率;
Q函数:
Q值为多个时间步的回报之和,用于衡量策略的优劣,并作为修正神经网络参数的依据,π为神经网络拟合的策略,γ为折扣因子;
π网络为:
at=π(st|θπ)+vt
vt+1=(1-τv)vt+1
Q网络为:
L(θQ)=(yt-Q(st,at|θQ))2
yt=rt+γ(Q′st+1,π′(st+1|θπ′)|θQ′)
θπ′←τθθπ+(1-τθ)θπ′
θQ′←τθθQ+(1-τθ)θQ′
Q网络用于拟合决策动作到Q值的映射,π′为π网络的目标网络,Q′为Q网络的目标网络,用于稳定迭代过程,επ为Q网络参数的更新系数,τθ为目标网络的更新系数。
本发明的有益效果是:
(1)提出了一种基于智能体的多能源系统最优协同运行方法,克服了传统日前调度无法实时决策的问题以及传统日内调度依赖精确负荷预测的问题;
(2)将历史数据与物理模型相结合,使用DDPG算法让智能体自动挖掘当前状态和最优决策之间的关系,克服了传统数学算法需要对物理模型间的耦合关系进行复杂建模的问题,并扩展了一般机器学习算法的动作空间,使决策可以更加逼近最优决策。
附图说明
图1为本发明提供的:多能源系统结构图;
图2为本发明提供的:智能体决策逻辑图;
图3为本发明提供的:DDPG算法离线学习流程图。
具体实施方式
下面结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
多能源系统集热、电、气等多种能源形式于一体,实现多种能源形式的相互转化和互补利用。然而,由于可再生能源产量和负荷的不确定性,以及复杂的能源耦合关系,使多能源系统的实时经济运行面临重大挑战。本专利利用实时监测设备(如电压表、电流表等)采集的数据,即可让计算机在无人为干预的情况下,实时的根据负荷波动和新能源出力情况,自动进行生产设备的调度,实现多能源系统的长期运行成本最小。本专利的物理建模具备通用性,可适用具有不同设备规格的新能源小区或新能源工业园区等。
如图1、2所示,一种基于智能体的多能源系统最优协同运行方法包括:多能源系统物理模型建模方法,数据驱动的DDPG离线学习方法以及多能源系统在线运行方法。
(1)多能源系统物理模型建模方法:
本发明的多能源系统物理模型采用的多能源系统使用与主网并行运行的模式,多能源系统包括热电联产机组模型,光伏电源,储电模型,气锅炉模型,电锅炉模型以及用户侧热补偿模型。多能源系统物理模型的调度目标为多能源系统的日运行成本最小。
热电联产机组模型:
hCHP,t=δ·pCHP,t (1)
pCHP,t为热电联产机组在t时刻电出力,hCHP,t为热电联产机组在t时刻热出力,gCHP,t为热电联产机组在t时刻耗气量,δ为热电联产机组的热电比,αCHP为热电联产机组的转换因子,为热电联产机组的最小电功率,为热电联产机组的最大电功率;
电锅炉模型:
hEB,t=PEB,t·αEB (4)
气锅炉模型:
储电模型:
Csoc,0=Cini=Csoc,23 (12)
pBES,t为储电装置在t时刻的电功率,Csoc,t为储电装置在t时刻的荷电状态,ρBES为储电装置的效率,QBES为储电装置的电容量,ρch为储电装置的充电效率,ρdis为储电装置的放电效率,为储电装置的最小荷电状态,为储电装置的最大荷电状态,为储电装置的最小电功率,为储电装置的最大电功率,Cini为储电装置的初始荷电状态,Csoc,0为储电装置的在0时的荷电状态,Csoc,23为储电装置的在23时的荷电状态;
用户侧热补偿模型:
dh,t=hload,t-(hCHP,t+hEB.t+hGB,t)(13)
0≤dh,t≤0.2·hload,t(15)
hload,t为t时刻的热负荷,dh,t为t时刻的热功率缺额,μh,t为热功率缺额补偿价格,θwil,θuwil为不同梯度的补偿价格。
上层电网交互模型用于计算(24)中Cp(st,at),CBES(st,at)和Cu(st,at):
pgrid,t=pload,t+pEB,t+pPV,t-pBES,t-pCHP,t(16)
目标函数:
F=min(Cp+CBES+Cu)(18)
Cu=μh,tdh,t(21)
调度的目标是多能源系统的日运行成本最小,Cp,CBES,Cu分别为购买能源的成本,蓄电设备折旧成本,和热功率补偿成本,μBES为储电设备折旧单价,实现目标函数是设计回报函数(24)的目的,回报函数是基于目标函数设置,根据这样的回报函数学习出来的智能体才可以完成目标函数,即日运行成本最小。
数据驱动的DDPG离线学习方法:
DDPG算法通过含有大量参数的神经网络来拟合观测状态到最优动作的映射,并根据物理模型计算收益来修正神经网络的参数,经过多次迭代完成数据驱动下的策略学习。
观测空间:
S={pload,hload,PPV,Csoc,μe}(22)
S为智能体需要观测的状态的集合;
动作空间:
A={pCHP,hEB,hGB,pBES} (23)
A为智能体可以决策的动作的集合;
回报函数:
rt(st,at)=-(Cp(st,at)+CBES(st,at)+Cu(st,at))/1000(24)
回报函数用于衡量决策的优劣,并作为修正神经网络参数的依据,rt为t时刻的回报,st为t时刻的观测状态,at为t时刻的动作;
Q函数:
Q值为多个时间步下的回报之和,用于衡量策略的优劣,并作为修正神经网络参数的依据,π为神经网络拟合的策略,γ为折扣因子,循环一次为一个时间步,前文设置循环T次,共有T个时间步;
π网络为:
at=π(st|θπ)+vt(26)
vt+1=(1-τv)vt+1(27)
Q网络为:
L(θQ)=(yt-Q(st,at|θQ))2(30)
yt=rt+γ(Q′st+1,π′(st+1|θπ′)|θQ′)(31)
θπ′←τθθπ+(1-τθ)θπ′ (34)
θQ′←τθθQ+(1-τθ)θQ′ (35)
Q网络用于拟合决策动作到Q值的映射,π′为π网络的目标网络,Q′为Q网络的目标网络,用于稳定迭代过程,επ为Q网络参数的更新系数,τθ为目标网络的更新系数。
DDPG离线学习流程:首先使用随机参数生成一个π网络和Q网络,使用相同的参数生成目标网络(初始时,目标网络就是原网络的复制,在学习过程中,相比于π网络和Q网络,目标网络的参数更新速度更慢,可以稳定学习过程。公式(34)和(35)表明了目标网络的更新方式),然后设定一个循环周期T,输入第一组历史数据(在学习过程,每个新的时间步都会放入一组不同的历史数据作为智能体的观测值,历史数据来自于以往的真实数据。学习完成后,用于实际系统时,智能体的观测值则为根据监测设备所获得的实际数据,历史数据是指综合能源系统在长期的运行过程中所积累下的结构化的数据,如一年的负荷数据等),根据π网络决定动作(π网络本质是一个具有大量随机参数的函数,用于表示智能体的策略。动作是智能体根据策略和观测值做出的决策,a=π(o)。也就是(23)中所包含的四个变量),根据多能源系统物理模型计算策略的收益和下一时刻(每个时刻为一小时)历史数据的观测状态(学习过程中的观测状态来自于历史数据,在线运行时观测状态来自于实时观测数据)并记录,根据回报修正Q网络参数,根据Q网络求得Q值修正π网络参数。最后,循环T次,完成DDPG算法的离线学习。
(3)多能源系统的在线运行方法:通过可以实时上传数据的电压表,电流表和测温仪器等观测设备实时获取DDPG算法的观测数据,然后将观测数据输入完成学习的DDPG算法,可以得到决策动作,实现多能源系统的实时自趋优运行。
如图3所示,一种基于智能体的多能源系统最优协同运行方法包括学习过程和在线运行两部分:
学习过程包括如下步骤:
1,设置学习天数循环上限Episode=M,然后随机生成含有大量参数的π网络和Q网络,并将其复制一份作为目标网络。
2,开始新一天的学习
3,设置一天中的时间步数T作为一天的循环上限。
4,开始新一个时间步的学习,将一天中该时间步的历史数据(负荷电功率,负荷热功率,光伏电源出力功率,分时电价)以及储电装置的荷电状态(第一个时间步取0.4)作为观测值,输入至π网络,并根据π网络计算(26)动作值。然后根据动作值和物理模型计算下一时间步中储电装置的荷电状态(8)以及r值(24)。再然后通过r值修正Q网络及其目标网络的参数(30-35),并根据修正后的Q网络计算Q值来修正π网络及其目标网络(28-29)。最后,若时间步不等于T,则返回4;若时间步等于T且Episode不等于M,则返回2,若时间步等于T且Episode等于M,则学习完成,结束循环。
在线运行部分包括如下步骤:
(1).以(24小时/T)为单位,周期性获取实时观测数据。
(2).将采集的数据输送给智能体,让智能体自行制定下一时间段的调度方案,返回(1)。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (3)
1.一种基于智能体的多能源系统最优协同运行方法,其特征在于,包括如下步骤:
S1,通过π网络和Q网络生成目标网络,设定循环周期T,将一组历史数据输入至目标网络,通过π网络决定动作,将动作输入至多能源系统物理模型计算策略的回报和下一时刻历史数据的观测状态,根据回报修正Q网络的参数,得到修正后的Q网络,通过修正后的Q网络得到Q值,通过Q值修正π网络参数,得到修正后的π网络,修正后的Q网络和修正后的π网络生成新的目标网络,循环T次后,完成DDPG算法的离线学习;
S2,通过观测设备实时获取DDPG算法的观测数据,将观测数据输入至完成离线学习的DDPG算法,获得决策动作,通过决策动作完成多能源系统的实时自趋优运行。
2.根据权利要求1所述的一种基于智能体的多能源系统最优协同运行方法,其特征在于,步骤S1中所述的多能源系统物理模型包括热电联产机组模型,光伏电源,储电模型,气锅炉模型,电锅炉模型以及用户侧热补偿模型;
热电联产机组模型:
hCHP,t=δ·pCHP,t
pCHP,t为热电联产机组在t时刻电出力,hCHP,t为热电联产机组在t时刻热出力,gCHP,t为热电联产机组在t时刻耗气量,δ为热电联产机组的热电比,αCHP为热电联产机组的转换因子,为热电联产机组的最小电功率,为热电联产机组的最大电功率;
电锅炉模型:
hEB,t=pEB,t·αEB
气锅炉模型:
储电模型:
Csoc,0=Cini=Csoc,23
pBES,t为储电装置在t时刻的电功率,Csoc,t为储电装置在t时刻的荷电状态,ρBES为储电装置的效率,QBES为储电装置的电容量,ρch为储电装置的充电效率,ρdis为储电装置的放电效率,为储电装置的最小荷电状态,为储电装置的最大荷电状态,为储电装置的最小电功率,为储电装置的最大电功率,Cini为储电装置的初始荷电状态,Csoc,0为储电装置的在0时的荷电状态,Csoc,23为储电装置的在23时的荷电状态;
用户侧热补偿模型:
dh,t=hload,t-(hCHP,t+hEB,t+hGB,t)
0≤dh,t≤0.2·hload,t
hload,t为t时刻的热负荷,dh,t为t时刻的热功率缺额,μh,t为热功率缺额补偿价格,θwil,θuwil为不同梯度的补偿价格;
回报函数:
rt(st,at)=-(Cp(st,at)+CBES(st,at)+Cu(st,at))/1000(24)
回报函数用于衡量决策的优劣,并作为修正神经网络参数的依据,rt为t时刻的回报,st为t时刻的观测状态,at为t时刻的动作;
上层电网交互模型用于计算回报函数中Cp(st,at),CBES(st,at)和Cu(st,at):
pgrid,t=pload,t+pEB,t+pPV,t-pBES,t-pCHP,t
目标函数:
F=min(Cp+CBES+Cu)
Cu=μh,tdh,t
调度的目标是多能源系统的日运行成本达到设定最小值,Cp为购买能源的成本,CBES为蓄电设备折旧成本,Cu为热功率补偿成本,μBES为储电设备折旧单价。
3.根据权利要求1所述的一种基于智能体的多能源系统最优协同运行方法,其特征在于,步骤S1中所述的DDPG算法的离线学习流程如下:
观测空间:
S={pload,hload,pPV,Csoc,μe}
S为智能体需要观测的状态的集合,pload为负荷电功率,hload为负荷热功率,pPV为光伏电源出力功率,Csoc为储电装置的荷电状态,μe为分时电价;
动作空间:
A={pCHP,hEB,hGB,pBES}
A为智能体可以决策的动作的集合,pCHP为热电联产电功率,hEB为电锅炉热功率,hGB为气锅炉热功率,pBES为储电装置充放电功率;
Q函数:
Q值为多个时间步的回报之和,用于衡量策略的优劣,并作为修正神经网络参数的依据,π为神经网络拟合的策略,γ为折扣因子;
π网络为:
at=π(st∣θπ)+vt
vt+1=(1-τv)vt+1
Q网络为:
L(θQ)=(yt-Q(st,at∣θQ))2
yt=rt+γ(Q′st+1,π′(st+1∣θπ′)∣θQ′)
θπ′←τθθπ+(1-τθ)θπ′
θQ′←τθθQ+(1-τθ)θQ′
Q网络用于拟合决策动作到Q值的映射,π′为π网络的目标网络,Q′为Q网络的目标网络,用于稳定迭代过程,επ为Q网络参数的更新系数,τθ为目标网络的更新系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110808989.9A CN113591375B (zh) | 2021-07-16 | 2021-07-16 | 一种基于智能体的多能源系统最优协同运行方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110808989.9A CN113591375B (zh) | 2021-07-16 | 2021-07-16 | 一种基于智能体的多能源系统最优协同运行方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591375A true CN113591375A (zh) | 2021-11-02 |
CN113591375B CN113591375B (zh) | 2023-04-25 |
Family
ID=78247955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110808989.9A Active CN113591375B (zh) | 2021-07-16 | 2021-07-16 | 一种基于智能体的多能源系统最优协同运行方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591375B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837665A (zh) * | 2021-11-04 | 2021-12-24 | 华北电力大学 | 一种基于智能体建模的区域电供暖负荷预测方法 |
CN114204546A (zh) * | 2021-11-18 | 2022-03-18 | 国网天津市电力公司电力科学研究院 | 一种考虑新能源消纳的机组组合优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934332A (zh) * | 2018-12-31 | 2019-06-25 | 中国科学院软件研究所 | 基于评论家和双经验池的深度确定性策略梯度学习方法 |
CN110365057A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 基于强化学习的分布式能源参与配电网调峰调度优化方法 |
WO2020143104A1 (zh) * | 2019-01-08 | 2020-07-16 | 南京工程学院 | 一种考虑阻塞和储能分时电价的电网混合滚动调度方法 |
CN111985614A (zh) * | 2020-07-23 | 2020-11-24 | 中国科学院计算技术研究所 | 一种构建自动驾驶决策系统的方法、系统和介质 |
-
2021
- 2021-07-16 CN CN202110808989.9A patent/CN113591375B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934332A (zh) * | 2018-12-31 | 2019-06-25 | 中国科学院软件研究所 | 基于评论家和双经验池的深度确定性策略梯度学习方法 |
WO2020143104A1 (zh) * | 2019-01-08 | 2020-07-16 | 南京工程学院 | 一种考虑阻塞和储能分时电价的电网混合滚动调度方法 |
CN110365057A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 基于强化学习的分布式能源参与配电网调峰调度优化方法 |
CN111985614A (zh) * | 2020-07-23 | 2020-11-24 | 中国科学院计算技术研究所 | 一种构建自动驾驶决策系统的方法、系统和介质 |
Non-Patent Citations (4)
Title |
---|
孙长银;穆朝絮;: "多智能体深度强化学习的若干关键科学问题" * |
李涛;胡维昊;李坚;韩晓言;陈哲;: "基于深度强化学习算法的光伏-抽蓄互补系统智能调度" * |
李澄;陈颢;刘恢;陆玉军;葛永高;王宁;: "基于多智能体共享信息的低压配电网拓扑与数据建模技术研究" * |
龚锦霞;刘艳敏;: "基于深度确定策略梯度算法的主动配电网协调优化" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837665A (zh) * | 2021-11-04 | 2021-12-24 | 华北电力大学 | 一种基于智能体建模的区域电供暖负荷预测方法 |
CN113837665B (zh) * | 2021-11-04 | 2024-04-19 | 华北电力大学 | 一种基于智能体建模的区域电供暖负荷预测方法 |
CN114204546A (zh) * | 2021-11-18 | 2022-03-18 | 国网天津市电力公司电力科学研究院 | 一种考虑新能源消纳的机组组合优化方法 |
CN114204546B (zh) * | 2021-11-18 | 2024-04-23 | 国网天津市电力公司电力科学研究院 | 一种考虑新能源消纳的机组组合优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113591375B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Soft actor-critic–based multi-objective optimized energy conversion and management strategy for integrated energy systems with renewable energy | |
CN112821465B (zh) | 包含热电联产的工业微网负荷优化调度方法与系统 | |
CN114744687B (zh) | 一种虚拟电厂的能源调控方法及系统 | |
CN113591375B (zh) | 一种基于智能体的多能源系统最优协同运行方法 | |
Garmroodi et al. | Optimal dispatch of an energy hub with compressed air energy storage: A safe reinforcement learning approach | |
CN114529075A (zh) | 考虑风光预测误差的综合能源系统分布鲁棒优化调度方法 | |
Shen et al. | Optimal dispatch of regional integrated energy system based on a generalized energy storage model | |
CN114611772B (zh) | 一种基于多智能体强化学习的多微网系统协同优化方法 | |
CN116432824A (zh) | 基于多目标粒子群的综合能源系统优化方法及系统 | |
CN114362218B (zh) | 基于深度q学习的微电网内多类型储能的调度方法及装置 | |
Harrold et al. | Battery control in a smart energy network using double dueling deep q-networks | |
Mughees et al. | Reinforcement learning-based composite differential evolution for integrated demand response scheme in industrial microgrids | |
Wen et al. | Data-driven energy management system for flexible operation of hydrogen/ammonia-based energy hub: A deep reinforcement learning approach | |
CN114498769B (zh) | 一种高比例风光孤岛微电网群能量调度方法及系统 | |
CN115619431A (zh) | 微电网的调度方法、装置、终端及存储介质 | |
Xing et al. | Multi-energy simulation and optimal scheduling strategy based on digital twin | |
Fang et al. | Energy scheduling and decision learning of combined cooling, heating and power microgrid based on deep deterministic policy gradient | |
Wang et al. | An integrated energy distribution system planning method with multiple energy storage systems | |
Juárez et al. | Optimal real-time scheduling of battery operation using reinforcement learning | |
Feng et al. | Design and Development of Household Solar-Heat-Storage Coordination Control Software Module | |
Chen et al. | Reinforcement learning based two‐timescale energy management for energy hub | |
CN117592621B (zh) | 一种虚拟电厂集群两阶段调度优化方法 | |
Du et al. | Temporal Rolling-based Coordinated Operation of A Multi-Energy Microgrid Considering Thermal Inertia | |
Guo et al. | A dynamic rolling dispatch for integrated energy system with a hybrid time scale framework | |
Xu et al. | Distributed Dynamic Economic Dispatch of Multi-Microgrid System Based on Multi-Agent Deep Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |