CN113591375A - 一种基于智能体的多能源系统最优协同运行方法 - Google Patents

一种基于智能体的多能源系统最优协同运行方法 Download PDF

Info

Publication number
CN113591375A
CN113591375A CN202110808989.9A CN202110808989A CN113591375A CN 113591375 A CN113591375 A CN 113591375A CN 202110808989 A CN202110808989 A CN 202110808989A CN 113591375 A CN113591375 A CN 113591375A
Authority
CN
China
Prior art keywords
network
power
time
electric
load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110808989.9A
Other languages
English (en)
Other versions
CN113591375B (zh
Inventor
向月
徐博涵
刘友波
刘俊勇
王天昊
项添春
金尧
吴彬
马世乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
State Grid Tianjin Electric Power Co Ltd
Original Assignee
Sichuan University
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, State Grid Tianjin Electric Power Co Ltd filed Critical Sichuan University
Priority to CN202110808989.9A priority Critical patent/CN113591375B/zh
Publication of CN113591375A publication Critical patent/CN113591375A/zh
Application granted granted Critical
Publication of CN113591375B publication Critical patent/CN113591375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/06Power analysis or power optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/50Photovoltaic [PV] energy
    • Y02E10/56Power conversion systems, e.g. maximum power point trackers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明公开了一种基于智能体的多能源系统最优协同运行方法,涉及多能源系统技术领域,通过π网络和Q网络生成目标网络,设定循环周期T;将一组历史数据输入至目标网络,通过π网络决定动作,通过多能源系统物理模型计算出下一时刻的观测状态和回报,通过r值更新π网络和Q网络的参数,循环T次后完成DDPG算法的离线学习;通过观测设备获取DDPG算法的观测数据,将观测数据输入至完成离线学习的DDPG算法获得决策动作,完成多能源系统的实时自趋优运行。本发明克服了传统数学算法需要对物理模型间的耦合关系进行复杂建模的问题,并扩展了一般机器学习算法的动作空间,使决策可以更加逼近最优决策。

Description

一种基于智能体的多能源系统最优协同运行方法
技术领域
本发明涉及多能源系统技术领域,具体是一种基于智能体的多能源系统最优协同运行方法。
背景技术
多能源系统集热、电、气等多种能源形式于一体,可以实现多种能源形式的相互转化和互补利用。然而,由于负荷和可再生能源出力的不确定性,以及复杂的能源耦合关系,多能源系统的经济运行面临重大挑战。
现有的多能源系统优化调度分为日前调度和实时调度,其中日前调度无法动态的对新能源出力和负荷波动做出响应,难以获得最优的调度效果。而对于实时调度,一般采用基于模型预测控制的调度方法,虽然该方法对实现了多能源系统的动态调度,但仍然依赖于对可再生能源和负荷的准确预测,会受到预测偏差的影响。随着计算机性能的快速发展,许多学者开始使用机器学习的方法来处理调度问题,如Q-learning,DQN等。它们都存在的不同的技术问题,Q-learning算法,需要大量的内存来存储Q值,处理高维空间的调度问题时,会产生维数灾的问题。DQN算法,通过加入神经网络的方法解决了Q值存储问题,消除了维数灾,实现了向高维空间的扩展,但是只能输出离散动作,丧失了很多动作空间,造成调度成本的上升,无法获得最优调度。
发明内容
鉴于上述技术缺点,本发明提供了一种基于智能体的多能源系统最优协同运行方法。
为实现上述发明目的,本发明的技术方案如下:
一种基于智能体的多能源系统最优协同运行方法,包括如下步骤:
S1,通过π网络和Q网络生成目标网络,设定循环周期T,将一组历史数据输入至目标网络,通过π网络决定动作,将动作输入至多能源系统物理模型计算策略的回报和下一时刻历史数据的观测状态,根据回报修正Q网络的参数,得到修正后的Q网络,通过修正后的Q网络得到Q值,通过Q值修正π网络参数,得到修正后的π网络,修正后的Q网络和修正后的π网络生成新的目标网络,循环T次后,完成DDPG算法的离线学习;
S2,通过观测设备实时获取DDPG算法的观测数据,将观测数据输入至完成离线学习的DDPG算法,获得决策动作,通过决策动作完成多能源系统的实时自趋优运行。
作为优选的,步骤S1中的多能源系统物理模型包括热电联产机组模型,光伏电源,储电模型,气锅炉模型,电锅炉模型以及用户侧热补偿模型;
热电联产机组模型:
hCHP,t=δ·pCHP,t
Figure BDA0003167574440000011
Figure BDA0003167574440000021
pCHP,t为热电联产机组在t时刻电出力,hCHP,t为热电联产机组在t时刻热出力,gCHP,t为热电联产机组在t时刻耗气量,δ为热电联产机组的热电比,αCHP为热电联产机组的转换因子,
Figure BDA0003167574440000022
为热电联产机组的最小电功率,
Figure BDA0003167574440000023
为热电联产机组的最大电功率;
电锅炉模型:
hEB,t=pEB,t·αEB
Figure BDA0003167574440000024
pEB,t为电锅炉在t时刻的电功率,hEB,t为电锅炉在t时刻的热功率,αEB为电锅炉的转换因子,
Figure BDA0003167574440000025
为电锅炉的最小热功率,
Figure BDA0003167574440000026
为电锅炉的最大热功率;
气锅炉模型:
Figure BDA0003167574440000027
Figure BDA0003167574440000028
hGB,t为气锅炉在t时刻的热功率,gGB,t为气锅炉在t时刻的耗气量,αGB为气锅炉的转化因子,
Figure BDA0003167574440000029
为气锅炉的最小热功率,
Figure BDA00031675744400000210
为气锅炉的最大热功率;
储电模型:
Figure BDA00031675744400000211
Figure BDA00031675744400000212
Figure BDA00031675744400000213
Figure BDA00031675744400000214
Csoc,0=Cini=Csoc,23
pBES,t为储电装置在t时刻的电功率,Csoc,t为储电装置在t时刻的荷电状态,ρBES为储电装置的效率,QBES为储电装置的电容量,ρch为储电装置的充电效率,ρdis为储电装置的放电效率,
Figure BDA00031675744400000215
为储电装置的最小荷电状态,
Figure BDA00031675744400000216
为储电装置的最大荷电状态,
Figure BDA00031675744400000217
为储电装置的最小电功率,
Figure BDA00031675744400000218
为储电装置的最大电功率,Cini为储电装置的初始荷电状态,Csoc,0为储电装置的在0时的荷电状态,Csoc,23为储电装置的在23时的荷电状态;
用户侧热补偿模型:
dh,t=hload,t-(hCHP,t+hEB,t+hGB,t)
Figure BDA00031675744400000219
0≤dh,t≤0.2·hload,t
hload,t为t时刻的热负荷,dh,t为t时刻的热功率缺额,μh,t为热功率缺额补偿价格,θwil,θuwil为不同梯度的补偿价格;
回报函数:
rt(st,at)=-(Cp(st,at)+CBES(st,at)+Cu(st,at))/1000(24)
回报函数用于衡量决策的优劣,并作为修正神经网络参数的依据,rt为t时刻的回报,st为t时刻的观测状态,at为t时刻的动作;
上层电网交互模型用于计算回报函数中Cp(st,at),CBES(st,at)和Cu(st,at):
pgrid,t=pload,t+pEB,t+pPV,t-pBES,t-pCHP,t
Figure BDA0003167574440000031
pload,t为在t时刻的电负荷功率,pPV,t为在t时刻的光伏电源出力,pgrid,t为在t时刻的多能源系统与上层电网的交互功率,
Figure BDA0003167574440000032
为最小交互功率,
Figure BDA0003167574440000033
为最大交互功率;
目标函数:
F=min(Cp+CBES+Cu)
Figure BDA0003167574440000034
Figure BDA0003167574440000035
Cu=μh,tdh,t
调度的目标是多能源系统的日运行成本达到设定最小值,Cp为购买能源的成本,CBES为蓄电设备折旧成本,Cu为热功率补偿成本,μBES为储电设备折旧单价。
作为优选的,步骤S1中的DDPG算法的离线学习流程如下:
观测空间:
S={pload,hload,pPV,Csoc,μe}
S为智能体需要观测的状态的集合,pload为负荷电功率,hload为负荷热功率,pPV为光伏电源出力功率,Csoc为储电装置的荷电状态,μe为分时电价;
动作空间:
A={pCHP,hEB,hGB,pBES}
A为智能体可以决策的动作的集合,pCHP为热电联产电功率,hEB为电锅炉热功率,hGB为气锅炉热功率,pBES为储电装置充放电功率;
Q函数:
Figure BDA0003167574440000041
Q值为多个时间步的回报之和,用于衡量策略的优劣,并作为修正神经网络参数的依据,π为神经网络拟合的策略,γ为折扣因子;
π网络为:
at=π(stπ)+vt
vt+1=(1-τv)vt+1
Figure BDA0003167574440000042
Figure BDA0003167574440000043
π网络用于拟合观测状态到决策动作的映射,vt为t时刻的噪声,τv为噪声的更新系数,επ为π网络参数的更新系数,θQ为Q网络的参数,θπ为π网络的参数,
Figure BDA0003167574440000044
为偏导符号;
Q网络为:
L(θQ)=(yt-Q(st,atQ))2
yt=rt+γ(Q′st+1,π′(st+1π′)|θQ′)
Figure BDA0003167574440000045
Figure BDA0003167574440000046
θπ′←τθθπ+(1-τθπ′
θQ′←τθθQ+(1-τθQ′
Q网络用于拟合决策动作到Q值的映射,π′为π网络的目标网络,Q′为Q网络的目标网络,用于稳定迭代过程,επ为Q网络参数的更新系数,τθ为目标网络的更新系数。
本发明的有益效果是:
(1)提出了一种基于智能体的多能源系统最优协同运行方法,克服了传统日前调度无法实时决策的问题以及传统日内调度依赖精确负荷预测的问题;
(2)将历史数据与物理模型相结合,使用DDPG算法让智能体自动挖掘当前状态和最优决策之间的关系,克服了传统数学算法需要对物理模型间的耦合关系进行复杂建模的问题,并扩展了一般机器学习算法的动作空间,使决策可以更加逼近最优决策。
附图说明
图1为本发明提供的:多能源系统结构图;
图2为本发明提供的:智能体决策逻辑图;
图3为本发明提供的:DDPG算法离线学习流程图。
具体实施方式
下面结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
多能源系统集热、电、气等多种能源形式于一体,实现多种能源形式的相互转化和互补利用。然而,由于可再生能源产量和负荷的不确定性,以及复杂的能源耦合关系,使多能源系统的实时经济运行面临重大挑战。本专利利用实时监测设备(如电压表、电流表等)采集的数据,即可让计算机在无人为干预的情况下,实时的根据负荷波动和新能源出力情况,自动进行生产设备的调度,实现多能源系统的长期运行成本最小。本专利的物理建模具备通用性,可适用具有不同设备规格的新能源小区或新能源工业园区等。
如图1、2所示,一种基于智能体的多能源系统最优协同运行方法包括:多能源系统物理模型建模方法,数据驱动的DDPG离线学习方法以及多能源系统在线运行方法。
(1)多能源系统物理模型建模方法:
本发明的多能源系统物理模型采用的多能源系统使用与主网并行运行的模式,多能源系统包括热电联产机组模型,光伏电源,储电模型,气锅炉模型,电锅炉模型以及用户侧热补偿模型。多能源系统物理模型的调度目标为多能源系统的日运行成本最小。
热电联产机组模型:
hCHP,t=δ·pCHP,t (1)
Figure BDA0003167574440000051
Figure BDA0003167574440000052
pCHP,t为热电联产机组在t时刻电出力,hCHP,t为热电联产机组在t时刻热出力,gCHP,t为热电联产机组在t时刻耗气量,δ为热电联产机组的热电比,αCHP为热电联产机组的转换因子,
Figure BDA0003167574440000053
为热电联产机组的最小电功率,
Figure BDA0003167574440000054
为热电联产机组的最大电功率;
电锅炉模型:
hEB,t=PEB,t·αEB (4)
Figure BDA0003167574440000055
pEB,t为电锅炉在t时刻的电功率,hEB,t为电锅炉在t时刻的热功率,αEB为电锅炉的转换因子,
Figure BDA0003167574440000056
为电锅炉的最小热功率,
Figure BDA0003167574440000057
为电锅炉的最大热功率;
气锅炉模型:
Figure BDA0003167574440000061
Figure BDA0003167574440000062
hGB,t为气锅炉在t时刻的热功率,gGB,t为气锅炉在t时刻的耗气量,αGB为气锅炉的转化因子,
Figure BDA0003167574440000063
为气锅炉的最小热功率,
Figure BDA0003167574440000064
为气锅炉的最大热功率;
储电模型:
Figure BDA0003167574440000065
Figure BDA0003167574440000066
Figure BDA0003167574440000067
Figure BDA0003167574440000068
Csoc,0=Cini=Csoc,23 (12)
pBES,t为储电装置在t时刻的电功率,Csoc,t为储电装置在t时刻的荷电状态,ρBES为储电装置的效率,QBES为储电装置的电容量,ρch为储电装置的充电效率,ρdis为储电装置的放电效率,
Figure BDA0003167574440000069
为储电装置的最小荷电状态,
Figure BDA00031675744400000610
为储电装置的最大荷电状态,
Figure BDA00031675744400000611
为储电装置的最小电功率,
Figure BDA00031675744400000612
为储电装置的最大电功率,Cini为储电装置的初始荷电状态,Csoc,0为储电装置的在0时的荷电状态,Csoc,23为储电装置的在23时的荷电状态;
用户侧热补偿模型:
dh,t=hload,t-(hCHP,t+hEB.t+hGB,t)(13)
Figure BDA00031675744400000613
0≤dh,t≤0.2·hload,t(15)
hload,t为t时刻的热负荷,dh,t为t时刻的热功率缺额,μh,t为热功率缺额补偿价格,θwil,θuwil为不同梯度的补偿价格。
上层电网交互模型用于计算(24)中Cp(st,at),CBES(st,at)和Cu(st,at):
pgrid,t=pload,t+pEB,t+pPV,t-pBES,t-pCHP,t(16)
Figure BDA00031675744400000614
pload,t,pPV,t,pgrid,t分别为在t时刻的电负荷功率,光伏电源出力,以及多能源系统与上层电网的交互功率,
Figure BDA00031675744400000615
分别为最小交互功率和最大交互功率。
目标函数:
F=min(Cp+CBES+Cu)(18)
Figure BDA00031675744400000616
Figure BDA0003167574440000071
Cu=μh,tdh,t(21)
调度的目标是多能源系统的日运行成本最小,Cp,CBES,Cu分别为购买能源的成本,蓄电设备折旧成本,和热功率补偿成本,μBES为储电设备折旧单价,实现目标函数是设计回报函数(24)的目的,回报函数是基于目标函数设置,根据这样的回报函数学习出来的智能体才可以完成目标函数,即日运行成本最小。
数据驱动的DDPG离线学习方法:
DDPG算法通过含有大量参数的神经网络来拟合观测状态到最优动作的映射,并根据物理模型计算收益来修正神经网络的参数,经过多次迭代完成数据驱动下的策略学习。
观测空间:
S={pload,hload,PPV,Csoc,μe}(22)
S为智能体需要观测的状态的集合;
动作空间:
A={pCHP,hEB,hGB,pBES} (23)
A为智能体可以决策的动作的集合;
回报函数:
rt(st,at)=-(Cp(st,at)+CBES(st,at)+Cu(st,at))/1000(24)
回报函数用于衡量决策的优劣,并作为修正神经网络参数的依据,rt为t时刻的回报,st为t时刻的观测状态,at为t时刻的动作;
Q函数:
Figure BDA0003167574440000072
Q值为多个时间步下的回报之和,用于衡量策略的优劣,并作为修正神经网络参数的依据,π为神经网络拟合的策略,γ为折扣因子,循环一次为一个时间步,前文设置循环T次,共有T个时间步;
π网络为:
at=π(stπ)+vt(26)
vt+1=(1-τv)vt+1(27)
Figure BDA0003167574440000073
Figure BDA0003167574440000074
π网络用于拟合观测状态到决策动作的映射,vt为t时刻的噪声,τv为噪声的更新系数,επ为π网络参数的更新系数,θQ为Q网络的参数,θπ为π网络的参数,
Figure BDA0003167574440000075
为偏导符号;
Q网络为:
L(θQ)=(yt-Q(st,atQ))2(30)
yt=rt+γ(Q′st+1,π′(st+1π′)|θQ′)(31)
Figure BDA0003167574440000081
Figure BDA0003167574440000082
θπ′←τθθπ+(1-τθπ′ (34)
θQ′←τθθQ+(1-τθQ′ (35)
Q网络用于拟合决策动作到Q值的映射,π′为π网络的目标网络,Q′为Q网络的目标网络,用于稳定迭代过程,επ为Q网络参数的更新系数,τθ为目标网络的更新系数。
DDPG离线学习流程:首先使用随机参数生成一个π网络和Q网络,使用相同的参数生成目标网络(初始时,目标网络就是原网络的复制,在学习过程中,相比于π网络和Q网络,目标网络的参数更新速度更慢,可以稳定学习过程。公式(34)和(35)表明了目标网络的更新方式),然后设定一个循环周期T,输入第一组历史数据(在学习过程,每个新的时间步都会放入一组不同的历史数据作为智能体的观测值,历史数据来自于以往的真实数据。学习完成后,用于实际系统时,智能体的观测值则为根据监测设备所获得的实际数据,历史数据是指综合能源系统在长期的运行过程中所积累下的结构化的数据,如一年的负荷数据等),根据π网络决定动作(π网络本质是一个具有大量随机参数的函数,用于表示智能体的策略。动作是智能体根据策略和观测值做出的决策,a=π(o)。也就是(23)中所包含的四个变量),根据多能源系统物理模型计算策略的收益和下一时刻(每个时刻为一小时)历史数据的观测状态(学习过程中的观测状态来自于历史数据,在线运行时观测状态来自于实时观测数据)并记录,根据回报修正Q网络参数,根据Q网络求得Q值修正π网络参数。最后,循环T次,完成DDPG算法的离线学习。
(3)多能源系统的在线运行方法:通过可以实时上传数据的电压表,电流表和测温仪器等观测设备实时获取DDPG算法的观测数据,然后将观测数据输入完成学习的DDPG算法,可以得到决策动作,实现多能源系统的实时自趋优运行。
如图3所示,一种基于智能体的多能源系统最优协同运行方法包括学习过程和在线运行两部分:
学习过程包括如下步骤:
1,设置学习天数循环上限Episode=M,然后随机生成含有大量参数的π网络和Q网络,并将其复制一份作为目标网络。
2,开始新一天的学习
3,设置一天中的时间步数T作为一天的循环上限。
4,开始新一个时间步的学习,将一天中该时间步的历史数据(负荷电功率,负荷热功率,光伏电源出力功率,分时电价)以及储电装置的荷电状态(第一个时间步取0.4)作为观测值,输入至π网络,并根据π网络计算(26)动作值。然后根据动作值和物理模型计算下一时间步中储电装置的荷电状态(8)以及r值(24)。再然后通过r值修正Q网络及其目标网络的参数(30-35),并根据修正后的Q网络计算Q值来修正π网络及其目标网络(28-29)。最后,若时间步不等于T,则返回4;若时间步等于T且Episode不等于M,则返回2,若时间步等于T且Episode等于M,则学习完成,结束循环。
在线运行部分包括如下步骤:
(1).以(24小时/T)为单位,周期性获取实时观测数据。
(2).将采集的数据输送给智能体,让智能体自行制定下一时间段的调度方案,返回(1)。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (3)

1.一种基于智能体的多能源系统最优协同运行方法,其特征在于,包括如下步骤:
S1,通过π网络和Q网络生成目标网络,设定循环周期T,将一组历史数据输入至目标网络,通过π网络决定动作,将动作输入至多能源系统物理模型计算策略的回报和下一时刻历史数据的观测状态,根据回报修正Q网络的参数,得到修正后的Q网络,通过修正后的Q网络得到Q值,通过Q值修正π网络参数,得到修正后的π网络,修正后的Q网络和修正后的π网络生成新的目标网络,循环T次后,完成DDPG算法的离线学习;
S2,通过观测设备实时获取DDPG算法的观测数据,将观测数据输入至完成离线学习的DDPG算法,获得决策动作,通过决策动作完成多能源系统的实时自趋优运行。
2.根据权利要求1所述的一种基于智能体的多能源系统最优协同运行方法,其特征在于,步骤S1中所述的多能源系统物理模型包括热电联产机组模型,光伏电源,储电模型,气锅炉模型,电锅炉模型以及用户侧热补偿模型;
热电联产机组模型:
hCHP,t=δ·pCHP,t
Figure FDA0003167574430000011
Figure FDA0003167574430000012
pCHP,t为热电联产机组在t时刻电出力,hCHP,t为热电联产机组在t时刻热出力,gCHP,t为热电联产机组在t时刻耗气量,δ为热电联产机组的热电比,αCHP为热电联产机组的转换因子,
Figure FDA0003167574430000013
为热电联产机组的最小电功率,
Figure FDA0003167574430000014
为热电联产机组的最大电功率;
电锅炉模型:
hEB,t=pEB,t·αEB
Figure FDA0003167574430000015
pEB,t为电锅炉在t时刻的电功率,hEB,t为电锅炉在t时刻的热功率,αEB为电锅炉的转换因子,
Figure FDA0003167574430000016
为电锅炉的最小热功率,
Figure FDA0003167574430000017
为电锅炉的最大热功率;
气锅炉模型:
Figure FDA0003167574430000018
Figure FDA0003167574430000019
hGB,t为气锅炉在t时刻的热功率,gGB,t为气锅炉在t时刻的耗气量,αGB为气锅炉的转化因子,
Figure FDA00031675744300000110
为气锅炉的最小热功率,
Figure FDA00031675744300000111
为气锅炉的最大热功率;
储电模型:
Figure FDA00031675744300000112
Figure FDA0003167574430000021
Figure FDA0003167574430000022
Figure FDA0003167574430000023
Csoc,0=Cini=Csoc,23
pBES,t为储电装置在t时刻的电功率,Csoc,t为储电装置在t时刻的荷电状态,ρBES为储电装置的效率,QBES为储电装置的电容量,ρch为储电装置的充电效率,ρdis为储电装置的放电效率,
Figure FDA0003167574430000024
为储电装置的最小荷电状态,
Figure FDA0003167574430000025
为储电装置的最大荷电状态,
Figure FDA0003167574430000026
为储电装置的最小电功率,
Figure FDA0003167574430000027
为储电装置的最大电功率,Cini为储电装置的初始荷电状态,Csoc,0为储电装置的在0时的荷电状态,Csoc,23为储电装置的在23时的荷电状态;
用户侧热补偿模型:
dh,t=hload,t-(hCHP,t+hEB,t+hGB,t)
Figure FDA0003167574430000028
0≤dh,t≤0.2·hload,t
hload,t为t时刻的热负荷,dh,t为t时刻的热功率缺额,μh,t为热功率缺额补偿价格,θwil,θuwil为不同梯度的补偿价格;
回报函数:
rt(st,at)=-(Cp(st,at)+CBES(st,at)+Cu(st,at))/1000(24)
回报函数用于衡量决策的优劣,并作为修正神经网络参数的依据,rt为t时刻的回报,st为t时刻的观测状态,at为t时刻的动作;
上层电网交互模型用于计算回报函数中Cp(st,at),CBES(st,at)和Cu(st,at):
pgrid,t=pload,t+pEB,t+pPV,t-pBES,t-pCHP,t
Figure FDA0003167574430000029
pload,t为在t时刻的电负荷功率,pPV,t为在t时刻的光伏电源出力,pgrid,t为在t时刻的多能源系统与上层电网的交互功率,
Figure FDA00031675744300000210
为最小交互功率,
Figure FDA00031675744300000211
为最大交互功率;
目标函数:
F=min(Cp+CBES+Cu)
Figure FDA00031675744300000212
Figure FDA00031675744300000213
Cu=μh,tdh,t
调度的目标是多能源系统的日运行成本达到设定最小值,Cp为购买能源的成本,CBES为蓄电设备折旧成本,Cu为热功率补偿成本,μBES为储电设备折旧单价。
3.根据权利要求1所述的一种基于智能体的多能源系统最优协同运行方法,其特征在于,步骤S1中所述的DDPG算法的离线学习流程如下:
观测空间:
S={pload,hload,pPV,Csoce}
S为智能体需要观测的状态的集合,pload为负荷电功率,hload为负荷热功率,pPV为光伏电源出力功率,Csoc为储电装置的荷电状态,μe为分时电价;
动作空间:
A={pCHP,hEB,hGB,pBES}
A为智能体可以决策的动作的集合,pCHP为热电联产电功率,hEB为电锅炉热功率,hGB为气锅炉热功率,pBES为储电装置充放电功率;
Q函数:
Figure FDA0003167574430000031
Q值为多个时间步的回报之和,用于衡量策略的优劣,并作为修正神经网络参数的依据,π为神经网络拟合的策略,γ为折扣因子;
π网络为:
at=π(st∣θπ)+vt
vt+1=(1-τv)vt+1
Figure FDA0003167574430000032
Figure FDA0003167574430000033
π网络用于拟合观测状态到决策动作的映射,vt为t时刻的噪声,τv为噪声的更新系数,επ为π网络参数的更新系数,θQ为Q网络的参数,θπ为π网络的参数,
Figure FDA0003167574430000034
为偏导符号;
Q网络为:
L(θQ)=(yt-Q(st,at∣θQ))2
yt=rt+γ(Q′st+1,π′(st+1∣θπ′)∣θQ′)
Figure FDA0003167574430000035
Figure FDA0003167574430000036
θπ′←τθθπ+(1-τθπ′
θQ′←τθθQ+(1-τθQ′
Q网络用于拟合决策动作到Q值的映射,π′为π网络的目标网络,Q′为Q网络的目标网络,用于稳定迭代过程,επ为Q网络参数的更新系数,τθ为目标网络的更新系数。
CN202110808989.9A 2021-07-16 2021-07-16 一种基于智能体的多能源系统最优协同运行方法 Active CN113591375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110808989.9A CN113591375B (zh) 2021-07-16 2021-07-16 一种基于智能体的多能源系统最优协同运行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110808989.9A CN113591375B (zh) 2021-07-16 2021-07-16 一种基于智能体的多能源系统最优协同运行方法

Publications (2)

Publication Number Publication Date
CN113591375A true CN113591375A (zh) 2021-11-02
CN113591375B CN113591375B (zh) 2023-04-25

Family

ID=78247955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110808989.9A Active CN113591375B (zh) 2021-07-16 2021-07-16 一种基于智能体的多能源系统最优协同运行方法

Country Status (1)

Country Link
CN (1) CN113591375B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837665A (zh) * 2021-11-04 2021-12-24 华北电力大学 一种基于智能体建模的区域电供暖负荷预测方法
CN114204546A (zh) * 2021-11-18 2022-03-18 国网天津市电力公司电力科学研究院 一种考虑新能源消纳的机组组合优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
WO2020143104A1 (zh) * 2019-01-08 2020-07-16 南京工程学院 一种考虑阻塞和储能分时电价的电网混合滚动调度方法
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
WO2020143104A1 (zh) * 2019-01-08 2020-07-16 南京工程学院 一种考虑阻塞和储能分时电价的电网混合滚动调度方法
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
孙长银;穆朝絮;: "多智能体深度强化学习的若干关键科学问题" *
李涛;胡维昊;李坚;韩晓言;陈哲;: "基于深度强化学习算法的光伏-抽蓄互补系统智能调度" *
李澄;陈颢;刘恢;陆玉军;葛永高;王宁;: "基于多智能体共享信息的低压配电网拓扑与数据建模技术研究" *
龚锦霞;刘艳敏;: "基于深度确定策略梯度算法的主动配电网协调优化" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837665A (zh) * 2021-11-04 2021-12-24 华北电力大学 一种基于智能体建模的区域电供暖负荷预测方法
CN113837665B (zh) * 2021-11-04 2024-04-19 华北电力大学 一种基于智能体建模的区域电供暖负荷预测方法
CN114204546A (zh) * 2021-11-18 2022-03-18 国网天津市电力公司电力科学研究院 一种考虑新能源消纳的机组组合优化方法
CN114204546B (zh) * 2021-11-18 2024-04-23 国网天津市电力公司电力科学研究院 一种考虑新能源消纳的机组组合优化方法

Also Published As

Publication number Publication date
CN113591375B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
Zhang et al. Soft actor-critic–based multi-objective optimized energy conversion and management strategy for integrated energy systems with renewable energy
CN112821465B (zh) 包含热电联产的工业微网负荷优化调度方法与系统
CN114744687B (zh) 一种虚拟电厂的能源调控方法及系统
CN113591375B (zh) 一种基于智能体的多能源系统最优协同运行方法
Garmroodi et al. Optimal dispatch of an energy hub with compressed air energy storage: A safe reinforcement learning approach
CN114529075A (zh) 考虑风光预测误差的综合能源系统分布鲁棒优化调度方法
Shen et al. Optimal dispatch of regional integrated energy system based on a generalized energy storage model
CN114611772B (zh) 一种基于多智能体强化学习的多微网系统协同优化方法
CN116432824A (zh) 基于多目标粒子群的综合能源系统优化方法及系统
CN114362218B (zh) 基于深度q学习的微电网内多类型储能的调度方法及装置
Harrold et al. Battery control in a smart energy network using double dueling deep q-networks
Mughees et al. Reinforcement learning-based composite differential evolution for integrated demand response scheme in industrial microgrids
Wen et al. Data-driven energy management system for flexible operation of hydrogen/ammonia-based energy hub: A deep reinforcement learning approach
CN114498769B (zh) 一种高比例风光孤岛微电网群能量调度方法及系统
CN115619431A (zh) 微电网的调度方法、装置、终端及存储介质
Xing et al. Multi-energy simulation and optimal scheduling strategy based on digital twin
Fang et al. Energy scheduling and decision learning of combined cooling, heating and power microgrid based on deep deterministic policy gradient
Wang et al. An integrated energy distribution system planning method with multiple energy storage systems
Juárez et al. Optimal real-time scheduling of battery operation using reinforcement learning
Feng et al. Design and Development of Household Solar-Heat-Storage Coordination Control Software Module
Chen et al. Reinforcement learning based two‐timescale energy management for energy hub
CN117592621B (zh) 一种虚拟电厂集群两阶段调度优化方法
Du et al. Temporal Rolling-based Coordinated Operation of A Multi-Energy Microgrid Considering Thermal Inertia
Guo et al. A dynamic rolling dispatch for integrated energy system with a hybrid time scale framework
Xu et al. Distributed Dynamic Economic Dispatch of Multi-Microgrid System Based on Multi-Agent Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant