CN112862282A - 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法 - Google Patents

一种基于ddqn算法的综合能源系统源-荷协同调度优化方法 Download PDF

Info

Publication number
CN112862282A
CN112862282A CN202110107659.7A CN202110107659A CN112862282A CN 112862282 A CN112862282 A CN 112862282A CN 202110107659 A CN202110107659 A CN 202110107659A CN 112862282 A CN112862282 A CN 112862282A
Authority
CN
China
Prior art keywords
network
energy
load
demand
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110107659.7A
Other languages
English (en)
Other versions
CN112862282B (zh
Inventor
唐昊
李怡瑾
徐春雷
吕凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Hefei University of Technology
Original Assignee
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd, Hefei University of Technology filed Critical State Grid Corp of China SGCC
Priority to CN202110107659.7A priority Critical patent/CN112862282B/zh
Publication of CN112862282A publication Critical patent/CN112862282A/zh
Application granted granted Critical
Publication of CN112862282B publication Critical patent/CN112862282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于能量管理技术领域,公开了一种基于DDQN算法的综合能源系统源‑荷协同调度优化方法,包括以下步骤:步骤1:建立综合能源系统源‑荷协同能量调度优化模型;步骤2:构建DDQN算法所需神经网络;步骤3:根据步骤1建立的模型,利用EMC与系统交互数据产生学习所需样本并存入样本池,同时利用DDQN算法实现网络1和网络2的优化;步骤4:根据步骤3所得优化网络1控制综合能源系统运行。本发明方法有利于经济合理地安排综合能源系统中能量分配,进一步提高能量调度灵活性和优化空间,从而维持系统经济性运行。

Description

一种基于DDQN算法的综合能源系统源-荷协同调度优化方法
技术领域
本发明属于能量管理技术领域,更具体地,涉及一种基于DDQN算法的综合能源系统源-荷协同调度优化方法。
背景技术
随着近些年分布式发电、微电网以及信息技术的发展,综合能源系统通过对不同形式能量的统一规划与调度,以其高效率、低污染、配置灵活等优点日益得到广泛关注,逐渐成为未来能源系统的主要结构形态之一。区域综合能源系统的能量管理系统可以通过协调各类分布式能源产生的电力与热能,通过能量互补与阶梯利用更好地实现供能的经济性并提高能源利用率。
综合能源系统中往往存在多种类型的能源与能量系统,不仅在系统结构与运行约束上较单一能源系统具有更强的复杂性,同时不同能量系统之间存在很强的耦合性,系统中多种类型负荷与可再生能源使得源-荷双侧均存在多种随机不确定性以及不可控特性。能量管理系统通过对各类供能、储能与能量转换设备的管理从而能够实现各类型能源的协调规划、多种形式能源互补、供需互动,是保证系统内不同能量供需平衡、稳定运行的前提。对于存在多种能量形式子系统与冷、热、电多类型负荷需求,综合能源系统能量管理面临大规模状态数据观测与决策变量等问题。而利用深度神经网络强大的拟合功能来逼近强化学习算法中的值函数的深度强化学习算法可以利用网络实现值函数的存储,同时利用线下学习、线上决策的方式可以实现系统实时运行决策。
发明内容
针对目前综合能源系统能量调度在现有技术中存在的问题,本发明提出一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,该方法能够实现对综合能源系统在多种随机因素影响下的经济性运行。
为实现上述目的,本发明采用如下技术方案:
一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,包括综合能源系统,所述综合能源系统中包括能量管理中心(EMC)、光伏发电设备(PV)、电力系统、燃气系统、可控能源设备、能量消耗单元、能量转换设备,所述可控能源设备包括热储能设备(HS)、电储能设备(ES)、燃气轮机组(GT)、锅炉设备(GB),所述能量消耗单元包括电负荷需求、热负荷需求、冷负荷需求,所述能量转换设备包括热制冷/热设备、电制冷/热设备,所述能量管理中心(EMC)向可控能源设备、能量转换设备传递控制信息,所述(EMC)与可控能源设备、能量转换设备、光伏发电设备(PV)、能量消耗单元向能量管理中心(EMC)传递状态信息,所述燃气系统向能量管理中心(EMC)传递价格信息,所述能量管理中心(EMC)与电力系统通过电力联络线相联,可根据配电网实时调峰需求和实时电价模式实时进行运行调整,实现实时调峰需求响应以及经济性运行;其特征在于,调度优化方法具体包括如下步骤:
步骤1:考虑到配电网实时调峰需求是以一天中综合能源系统中可控能源设备运行产生的代价以及与配电网电力交互产生的购电和调峰代价最小化为优化目标,因此,首先建立综合能源系统源-荷协同能量调度优化模型:
步骤1.1、建立随机性出力、调峰需求与负荷离散化模型;
步骤1.2、建立综合能源系统源-荷协同模型;
步骤1.3、建立可控设备调度模型;
步骤1.4、建立综合能源系统调度优化模型;
步骤2:构建DDQN算法所需神经网络:
DDQN算法包括两个中间层数为4的深度神经网络,分别为网络1和网络2,对于两个深度神经网络,其网络间为全连接结构,其中输入层与中间层、中间层与中间层之间为卷积层结构,激活为Relu函数,最后一层中间层与输出层间为全连接层,激活为matmul函数;
步骤3:根据步骤1建立的模型,利用EMC与系统交互数据产生学习所需样本并存入样本池,同时利用DDQN算法实现网络1和网络2的优化:
步骤4:根据步骤3所得优化网络1控制综合能源系统运行:
利用所得训练完成的网络1,在所述综合能源系统运行过程中任意决策时刻tk,根据能量管理中心(EMC)观测的运行状态sk,经过归一化后获得运行状态
Figure BDA0002918167580000031
并将其输入网络1,经过前向传播获得网络1输出,即运行状态sk对应所有行动的值函数;选择最小值函数对应的行动,即为最优策略行动,执行并观测系统运行结果。
进一步地,所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤1.1所述的建立随机性出力、调峰需求与负荷离散化模型,具体步骤为:
光伏出力离散化:
在决策时刻tk将光伏当前时刻最大可能出力Ppv,max(tk)与最小可能出力Ppv,min(tk)差值离散为Npv个等级,并确定当前出力Ppv(tk)的离散状态等级npv(tk):
Figure BDA0002918167580000032
电负荷需求离散化:
在决策时刻tk将电负荷需求可能最大值Pele,max(tk)与最小值Pele,min(tk)差值离散为Nele个等级,并确定当前需求Pele(tk)的离散状态等级nele(tk):
Figure BDA0002918167580000033
热负荷离散化:
在决策时刻tk将热负荷需求可能最大值Ph,max(tk)与最小值Ph,min(tk)离散为Nh个等级,并确定当前需求Pele(tk)的离散状态等级nele(tk):
Figure BDA0002918167580000034
冷负荷需求离散化:
在决策时刻tk将冷负荷需求可能最大值Pcool,max(tk)与最小值Pcool,min(tk)差值离散为Ncool个等级,并确定当前需求Pcool(tk)的离散状态等级ncool(tk):
Figure BDA0002918167580000041
电网实时调峰需求离散化:
在决策时刻tk将电网实时可能最大调峰需求Ppeak,max(tk)与最小调峰需求Ppeak,min(tk)差值离散为Npv个等级,并确定当前调峰需求Ppeak(tk)的离散状态等级npeak(tk):
Figure BDA0002918167580000042
进一步地,所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤1.2所述的建立综合能源系统源-荷协同模型,具体步骤为:
在决策时刻tk,系统电负荷需求为Pele(tk),热负荷需求为Ph(tk),冷负荷需求为Pcool(tk),定义热负荷电热分配率为ηh(tk),冷负荷热电分配率为ηcool(tk),则当前通过电能满足的热负荷需求为Ph(tkh(tk),通过电能满足的冷负荷需求为Ph(tkh(tk),由此可得系统当前电能需求总量为:
Pele,sum=Pele+Pcoolηcool+Phηh
热能需求总量为:
Ph,sum=Pcool(1-ηcool)+Ph(1-ηh)。
进一步地,所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤1.3所述的建立可控设备调度模型,具体步骤为:
GT调度过程与运行代价:
Ngt为GT总台数,在决策时刻tk,GT调度优化状态等级为运行机组数ngt(tk),GT行动为agt(tk)∈[-Ngt,-Ngt]表示GT启停个数,当agt(tk)<0时表示关闭|agt(tk)|台机组;从决策时刻tk到下一决策时刻tk+1过程中,GT运行代价函数为式(2),其中Pgt(t)为输出功率,cop为运行代价系数,cst为启停代价系数:
Figure BDA0002918167580000043
ES设备调度过程与运行代价:
在决策时刻tk,ES剩余电能水平用soces(tk)=Ees(tk)/Ees,max,其中Ees(tk)表示时刻tk电储能剩余电量,Ees,max表示ES容量;将Ees,max离散为Nes等级,则确定时刻tkES离散状态等级nes(tk):
Figure BDA0002918167580000051
ES行动为aes(tk)∈{-1,0,1}分别表示充电、静置和放电,从决策时刻tk到下一决策时刻tk过程中,ES运行代价函数为式(4),其中,ηes为ES充放电效率,βes为损耗代价系数;
Figure BDA0002918167580000052
HS调度过程与运行代价:
在决策时刻tk,HS剩余电能水平用sochs(tk)=Ehs(tk)/Ehs,max,其中Ehs(tk)表示时刻tkHS剩余电量,Ehs,max表示HS容量;将Ehs,max离散为Nhs等级,则确定时刻tkHS离散状态等级nhs(tk):
Figure BDA0002918167580000053
HS行动为aes(tk)∈{-1,0,1}分别表示储热、静置和放热,从决策时刻tk到下一决策时刻tk过程中,HS运行代价函数为式(4),其中,ηhs为HS储放热效率,βhs为损耗代价系数;
Figure BDA0002918167580000054
实时调峰需求响应代价:
在决策时刻tk,电网对综合能源系统提出的实时调峰需求为Ppeak(tk),由于系统经济性运行需求,实际实现的调峰需求响应功率为Pdemand(tk),由此产生的调峰代价为:
cpeak(tk)=λ|Ppeak(tk)-Pdemand(tk)|。
进一步地,所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤1.4所述的建立综合能源系统调度优化模型,具体步骤为:
综合能源系统在一个决策周期内运行代价包括:燃气轮机组运行与启停代价、电储能运行代价、热储能运行代价、从电网购电代价以及调峰代价,如下式所述:
c(sk,ak)=cgt(sk,ak)+ces(sk,ak)+cths(sk,ak)+ctl(sk,ak)+cpeak(sk,ak)
假设日内决策周期数为K,则为日运行代价V可表示为下式:所述协同优化调度目标是找到最优运行策略使得日运行代价期望最低,如下式所示,其中π*表示最优策略:
Figure BDA0002918167580000061
π*=argminEπ[V]。
进一步地,所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤3所述的利用DDQN算法实现网络1和网络2的优化,具体步骤为:
步骤4.1、初始化学习与决策参数,包括:初始化一天内决策周期数K;初始化样本池容量和学习样本批量为M与Batch;初始化学习完成步数STEP;初始化网络参数替换周期Cycle;初始化经验池更新周期loop;初始化神经网络,包括:初始化评估神经网络1的结构与网络参数为θ;初始化目标神经网络2结构与网络参数,其中网络2结构与1相同,且θ-=θ;
步骤4.2、初始化学习步数step=0;初始化状态s0,将所述系统运行数据经过EMC处理,并产生样本存入经验池直到经验池达到设定容量:
步骤4.2.1、将状态s0通过线性归一化为
Figure BDA0002918167580000062
并根据
Figure BDA0002918167580000063
与当前网络1选择行动
Figure BDA0002918167580000064
同时随机选取行动arandom;若满足不等式
Figure BDA0002918167580000065
则选择amin为当前状态sk下的行动ak,即ak=amin;否则ak=arandom,其中Temp为模拟退火温度,rand为(0,1)区间内的随机数.执行当前所选行动ak,经过一周决策周期后系统到达下一状态sk+1并在此过程中观察运行代价ck,获得样本(sk,ak,ck,sk+1,vk+1),并通过归一化处理用入栈方式存入经验池中,k=k+1,Temp=αtemp×Temp,αtemp∈(0,1)为模拟退火温度下降系数;
步骤4.2.2、若k<K则k=k+1,返回步骤4.2.1;若k=K,判断nsample=Nsample是否成立,若不成立则返回步骤4.3.1,否则执行步骤4.3;
步骤4.3、从经验池中随机选取批量为Batch的样本,并将
Figure BDA0002918167580000071
输入网络1,获得网络1输出向量
Figure BDA0002918167580000072
步骤4.4、计算Qtarget(sk,:),分别将
Figure BDA0002918167580000073
输入网络1和网络2,分别得到网络输出
Figure BDA0002918167580000074
Figure BDA0002918167580000075
根据
Figure BDA0002918167580000076
选择行动
Figure BDA0002918167580000077
并计算出
Figure BDA0002918167580000078
步骤4.5、计算损失函数
Figure BDA0002918167580000079
利用loss通过梯度下降法更新评估网络Q的参数θ,step=step+1;
步骤4.6、若step=Nl*Cycle,Nl∈Z+则将评估网络Q的网络参数θ赋值给目标网络,即θ-=θ,若step=Nm*loop,Nm∈Z+,则返回步骤4.2随机初始化系统状态,并更新样本池;若step=STEP则停止学习,网络训练完成;若以上均不成立,则返回步骤4.3。
区别于现有技术,本发明的上述技术方案的有益效果如下:
1.本发明将将负荷侧能量分配与分布式能源与储能行为共同作为决策变量,构建了区域综合能源系统源-荷协同调度优化模式,有利于经济合理地安排综合能源系统中能量分配,进一步提高能量调度灵活性和优化空间,从而维持系统经济性运行。
2.本发明选取的DDQN算法是一类有效的深度学习算法,具有强大的无监督学习能力,同时可以有效地避免传统深度强化学习方法带来的过估计问题,有利于算法收敛到最优,从而提高优化性能。
3.本发明针对负荷分配、燃气轮机组GT、电储能设备ES、热储能设备HS建立基于实时电价模式的综合能源系统源-荷协同调度模型,该模型同时考虑了电网实时调峰需求,借助综合能源系统能量转换与调度优化,引导系统合理配置不同形式供能,从而不仅有利于提高系统运行经济性,同时有利于引导系统相应电网调峰需求,实现削峰填谷,减小电网负荷峰谷差。
附图说明
图1为综合能源系统源荷协同能量调度优化与控制流程图;
图2为综合能源系统能量管理框图;
图3为人工神经元结构;
图4为深度神经网络结构;
图5为DDQN算法流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
实施例1
参阅图2所示,综合能源系统中包括能量管理中心EMC、光伏发电设备PV、电力系统、燃气系统、可控能源设备、能量消耗单元、能量转换设备,可控能源设备包括热储能设备HS、电储能设备ES、燃气轮机组GT、锅炉设备GB,能量消耗单元包括电负荷需求ELOAD、热负荷需求HLOAD、冷负荷需求CLOAD,能量转换设备包括热制冷/热设备、电制冷/热设备,能量管理中心EMC向可控能源设备、能量转换设备传递控制信息,EMC与可控能源设备、能量转换设备、光伏发电设备PV、能量消耗单元向能量管理中心EMC传递状态信息,燃气系统向能量管理中心EMC传递价格信息,能量管理中心EMC与电力系统通过电力联络线相联,可根据配电网实时调峰需求和实时电价模式实时进行运行调整,实现实时调峰需求响应以及经济性运行。
参阅如图1所示,一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,包括如下步骤:
步骤1:考虑到配电网实时调峰需求是以一天中综合能源系统中可控能源设备运行产生的代价以及与配电网电力交互产生的购电和调峰代价最小化为优化目标,因此,首先建立综合能源系统源-荷协同能量调度优化模型:
步骤1.1、建立随机性出力、调峰需求与负荷离散化模型;
光伏出力离散化:
在决策时刻tk将光伏当前时刻最大可能出力Ppv,max(tk)与最小可能出力Ppv,min(tk)差值离散为Npv个等级,并确定当前出力Ppv(tk)的离散状态等级npv(tk):
Figure BDA0002918167580000091
电负荷需求离散化:
在决策时刻tk将电负荷需求可能最大值Pele,max(tk)与最小值Pele,min(tk)差值离散为Nele个等级,并确定当前需求Pele(tk)的离散状态等级nele(tk):
Figure BDA0002918167580000092
热负荷离散化:
在决策时刻tk将热负荷需求可能最大值Ph,max(tk)与最小值Ph,min(tk)离散为Nh个等级,并确定当前需求Pele(tk)的离散状态等级nele(tk):
Figure BDA0002918167580000093
冷负荷需求离散化:
在决策时刻tk将冷负荷需求可能最大值Pcool,max(tk)与最小值Pcool,min(tk)差值离散为Ncool个等级,并确定当前需求Pcool(tk)的离散状态等级ncool(tk):
Figure BDA0002918167580000094
电网实时调峰需求离散化:
在决策时刻tk将电网实时可能最大调峰需求Ppeak,max(tk)与最小调峰需求Ppeak,min(tk)差值离散为Npv个等级,并确定当前调峰需求Ppeak(tk)的离散状态等级npeak(tk):
Figure BDA0002918167580000095
步骤1.2、建立综合能源系统源-荷协同模型:
在决策时刻tk,系统电负荷需求为Pele(tk),热负荷需求为Ph(tk),冷负荷需求为Pcool(tk),定义热负荷电热分配率为ηh(tk),冷负荷热电分配率为ηcool(tk),则当前通过电能满足的热负荷需求为Ph(tkh(tk),通过电能满足的冷负荷需求为Ph(tkh(tk),由此可得系统当前电能需求总量为:
Pele,sum=Pele+Pcoolηcool+Phηh
热能需求总量为:
Ph,sum=Pcool(1-ηcool)+Ph(1-ηh)。
步骤1.3、建立可控设备调度模型:
GT调度过程与运行代价:
Ngt为GT总台数,在决策时刻tk,GT调度优化状态等级为运行机组数ngt(tk),GT行动为agt(tk)∈[-Ngt,-Ngt]表示GT启停个数,当agt(tk)<0时表示关闭|agt(tk)|台机组。从决策时刻tk到下一决策时刻tk+1过程中,GT运行代价函数为式(2),其中Pgt(t)为输出功率,cop为运行代价系数,cst为启停代价系数:
Figure BDA0002918167580000101
ES设备调度过程与运行代价:
在决策时刻tk,ES剩余电能水平用soces(tk)=Ees(tk)/Ees,max,其中Ees(tk)表示时刻tk电储能剩余电量,Ees,max表示ES容量。将Ees,max离散为Nes等级,则确定时刻tkES离散状态等级nes(tk):
Figure BDA0002918167580000102
ES行动为aes(tk)∈{-1,0,1}分别表示充电、静置和放电,从决策时刻tk到下一决策时刻tk过程中,ES运行代价函数为式(4),其中,ηes为ES充放电效率,βes为损耗代价系数。
Figure BDA0002918167580000103
HS调度过程与运行代价:
在决策时刻tk,HS剩余电能水平用sochs(tk)=Ehs(tk)/Ehs,max,其中Ehs(tk)表示时刻tkHS剩余电量,Ehs,max表示HS容量。将Ehs,max离散为Nhs等级,则确定时刻tkHS离散状态等级nhs(tk):
Figure BDA0002918167580000111
HS行动为aes(tk)∈{-1,0,1}分别表示储热、静置和放热,从决策时刻tk到下一决策时刻tk过程中,HS运行代价函数为式(4),其中,ηhs为HS储放热效率,βhs为损耗代价系数。
Figure BDA0002918167580000112
实时调峰需求响应代价:
在决策时刻tk,电网对综合能源系统提出的实时调峰需求为Ppeak(tk),由于系统经济性运行需求,实际实现的调峰需求响应功率为Pdemand(tk),由此产生的调峰代价为:
cpeak(tk)=λ|Ppeak(tk)-Pdemand(tk)|。
步骤1.4、建立综合能源系统调度优化模型:
综合能源系统在一个决策周期内运行代价包括:燃气轮机组运行与启停代价、电储能运行代价、热储能运行代价、从电网购电代价以及调峰代价,如下式所述:
c(sk,ak)=cgt(sk,ak)+ces(sk,ak)+cths(sk,ak)+ctl(sk,ak)+cpeak(sk,ak)
假设日内决策周期数为K,则为日运行代价V可表示为下式。所述协同优化调度目标是找到最优运行策略使得日运行代价期望最低,如下式所示,其中π*表示最优策略:
Figure BDA0002918167580000113
π*=argminEπ[V]
步骤2:构建DDQN算法所需神经网络。
参阅图3和图4分别为人工神经元结构与深度神经网络结构,其中深度网络结构中各结点均由人工神经网络构成。DDQN算法包括两个中间层数为4的深层神经网络,分别为网络1和网络2。对于两个深度神经网络,其网络间为全连接结构,其中输入层与中间层、中间层与中间层之间为卷积层结构,激活为Relu函数,最后一层中间层与输出层间为全连接层,激活为matmul函数。
步骤3:根据步骤1建立的模型,利用EMC与系统交互数据产生学习所需样本并存入样本池,同时利用DDQN算法实现网络1和网络2的优化:
参阅图5为DDQN算法的优化过程:
步骤4.1、初始化学习与决策参数,包括:初始化一天内决策周期数K;初始化样本池容量和学习样本批量为M与Batch;初始化学习完成步数STEP;初始化网络参数替换周期Cycle;初始化经验池更新周期loop;初始化神经网络,包括:初始化评估神经网络1的结构与网络参数为θ;初始化目标神经网络2结构与网络参数,其中网络2结构与1相同,且θ-=θ;
步骤4.2、初始化学习步数step=0;初始化状态s0,将所述系统运行数据经过EMC处理,并产生样本存入经验池直到经验池达到设定容量:
步骤4.2.1、将状态s0通过线性归一化为
Figure BDA0002918167580000121
并根据
Figure BDA0002918167580000122
与当前网络1选择行动
Figure BDA0002918167580000123
同时随机选取行动arandom;若满足不等式
Figure BDA0002918167580000124
则选择amin为当前状态sk下的行动ak,即ak=amin;否则ak=arandom,其中Temp为模拟退火温度,rand为(0,1)区间内的随机数.执行当前所选行动ak,经过一周决策周期后系统到达下一状态sk+1并在此过程中观察运行代价ck,获得样本(sk,ak,ck,sk+1,vk+1),并通过归一化处理用入栈方式存入经验池中,k=k+1,Temp=αtemp×Temp,αtemp∈(0,1)为模拟退火温度下降系数;
步骤4.2.2、若k<K则k=k+1,返回步骤4.2.1;若k=K,判断nsample=Nsample是否成立,若不成立则返回步骤4.3.1,否则执行步骤4.3;
步骤4.3、从经验池中随机选取批量为Batch的样本,并将
Figure BDA0002918167580000125
输入网络1,获得网络1输出向量
Figure BDA0002918167580000131
步骤4.4、计算Qtarget(sk,:)。分别将
Figure BDA0002918167580000132
输入网络1和网络2,分别得到网络输出
Figure BDA0002918167580000133
Figure BDA0002918167580000134
根据
Figure BDA0002918167580000135
选择行动
Figure BDA0002918167580000136
并计算出
Figure BDA0002918167580000137
步骤4.5、计算损失函数
Figure BDA0002918167580000138
利用loss通过梯度下降法更新评估网络Q的参数θ,step=step+1;
步骤4.6、若step=Nl*Cycle,Nl∈Z+则将评估网络Q的网络参数θ赋值给目标网络,即θ-=θ,若step=Nm*loop,Nm∈Z+,则返回步骤4.2随机初始化系统状态,并更新样本池;若step=STEP则停止学习,网络训练完成。若以上均不成立,则返回步骤4.3。
步骤4:根据步骤3所得优化神经网络1控制综合能源系统运行:
利用所得训练完成的深度神经网络1,在所述综合能源系统运行过程中任意决策时刻tk,根据EMC观测的运行状态sk,经过归一化后获得
Figure BDA0002918167580000139
并将其输入网络1,经过前向传播获得网络1输出,即状态sk对应所有行动的值函数;选择最小值函数对应的行动,即为最优策略行动,执行并观测系统运行结果。

Claims (6)

1.一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,包括综合能源系统,所述综合能源系统中包括能量管理中心(EMC)、光伏发电设备(PV)、电力系统、燃气系统、可控能源设备、能量消耗单元、能量转换设备,所述可控能源设备包括热储能设备(HS)、电储能设备(ES)、燃气轮机组(GT)、锅炉设备(GB),所述能量消耗单元包括电负荷需求、热负荷需求、冷负荷需求,所述能量转换设备包括热制冷/热设备、电制冷/热设备,所述能量管理中心(EMC)向可控能源设备、能量转换设备传递控制信息,所述(EMC)与可控能源设备、能量转换设备、光伏发电设备(PV)、能量消耗单元向能量管理中心(EMC)传递状态信息,所述燃气系统向能量管理中心(EMC)传递价格信息,所述能量管理中心(EMC)与电力系统通过电力联络线相联,可根据配电网实时调峰需求和实时电价模式实时进行运行调整,实现实时调峰需求响应以及经济性运行;其特征在于,调度优化方法具体包括如下步骤:
步骤1:考虑到配电网实时调峰需求是以一天中综合能源系统中可控能源设备运行产生的代价以及与配电网电力交互产生的购电和调峰代价最小化为优化目标,因此,首先建立综合能源系统源-荷协同能量调度优化模型:
步骤1.1、建立随机性出力、调峰需求与负荷离散化模型;
步骤1.2、建立综合能源系统源-荷协同模型;
步骤1.3、建立可控设备调度模型;
步骤1.4、建立综合能源系统调度优化模型;
步骤2:构建DDQN算法所需神经网络:
DDQN算法包括两个中间层数为4的深度神经网络,分别为网络1和网络2,对于两个深度神经网络,其网络间为全连接结构,其中输入层与中间层、中间层与中间层之间为卷积层结构,激活为Relu函数,最后一层中间层与输出层间为全连接层,激活为matmul函数;
步骤3:根据步骤1建立的模型,利用EMC与系统交互数据产生学习所需样本并存入样本池,同时利用DDQN算法实现网络1和网络2的优化:
步骤4:根据步骤3所得优化网络1控制综合能源系统运行:
利用所得训练完成的网络1,在所述综合能源系统运行过程中任意决策时刻tk,根据能量管理中心(EMC)观测的运行状态sk,经过归一化后获得运行状态
Figure FDA0002918167570000021
并将其输入网络1,经过前向传播获得网络1输出,即运行状态sk对应所有行动的值函数;选择最小值函数对应的行动,即为最优策略行动,执行并观测系统运行结果。
2.根据权利要求1所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤1.1所述的建立随机性出力、调峰需求与负荷离散化模型,具体步骤为:
光伏出力离散化:
在决策时刻tk将光伏当前时刻最大可能出力Ppv,max(tk)与最小可能出力Ppv,min(tk)差值离散为Npv个等级,并确定当前出力Ppv(tk)的离散状态等级npv(tk):
Figure FDA0002918167570000022
电负荷需求离散化:
在决策时刻tk将电负荷需求可能最大值Pele,max(tk)与最小值Pele,min(tk)差值离散为Nele个等级,并确定当前需求Pele(tk)的离散状态等级nele(tk):
Figure FDA0002918167570000023
热负荷离散化:
在决策时刻tk将热负荷需求可能最大值Ph,max(tk)与最小值Ph,min(tk)离散为Nh个等级,并确定当前需求Pele(tk)的离散状态等级nele(tk):
Figure FDA0002918167570000024
冷负荷需求离散化:
在决策时刻tk将冷负荷需求可能最大值Pcool,max(tk)与最小值Pcool,min(tk)差值离散为Ncool个等级,并确定当前需求Pcool(tk)的离散状态等级ncool(tk):
Figure FDA0002918167570000031
电网实时调峰需求离散化:
在决策时刻tk将电网实时可能最大调峰需求Ppeak,max(tk)与最小调峰需求Ppeak,min(tk)差值离散为Npv个等级,并确定当前调峰需求Ppeak(tk)的离散状态等级npeak(tk):
Figure FDA0002918167570000032
3.根据权利要求2所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤1.2所述的建立综合能源系统源-荷协同模型,具体步骤为:
在决策时刻tk,系统电负荷需求为Pele(tk),热负荷需求为Ph(tk),冷负荷需求为Pcool(tk),定义热负荷电热分配率为ηh(tk),冷负荷热电分配率为ηcool(tk),则当前通过电能满足的热负荷需求为Ph(tkh(tk),通过电能满足的冷负荷需求为Ph(tkh(tk),由此可得系统当前电能需求总量为:
Pele,sum=Pele+Pcoolηcool+Phηh
热能需求总量为:
Ph,sum=Pcool(1-ηcool)+Ph(1-ηh)。
4.根据权利要求3所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤1.3所述的建立可控设备调度模型,具体步骤为:
GT调度过程与运行代价:
Ngt为GT总台数,在决策时刻tk,GT调度优化状态等级为运行机组数ngt(tk),GT行动为agt(tk)∈[-Ngt,-Ngt]表示GT启停个数,当agt(tk)<0时表示关闭|agt(tk)|台机组;从决策时刻tk到下一决策时刻tk+1过程中,GT运行代价函数为式(2),其中Pgt(t)为输出功率,cop为运行代价系数,cst为启停代价系数:
Figure FDA0002918167570000033
ES设备调度过程与运行代价:
在决策时刻tk,ES剩余电能水平用soces(tk)=Ees(tk)/Ees,max,其中Ees(tk)表示时刻tk电储能剩余电量,Ees,max表示ES容量;将Ees,max离散为Nes等级,则确定时刻tkES离散状态等级nes(tk):
Figure FDA0002918167570000041
ES行动为aes(tk)∈{-1,0,1}分别表示充电、静置和放电,从决策时刻tk到下一决策时刻tk过程中,ES运行代价函数为式(4),其中,ηes为ES充放电效率,βes为损耗代价系数;
Figure FDA0002918167570000042
HS调度过程与运行代价:
在决策时刻tk,HS剩余电能水平用sochs(tk)=Ehs(tk)/Ehs,max,其中Ehs(tk)表示时刻tkHS剩余电量,Ehs,max表示HS容量;将Ehs,max离散为Nhs等级,则确定时刻tkHS离散状态等级nhs(tk):
Figure FDA0002918167570000043
HS行动为aes(tk)∈{-1,0,1}分别表示储热、静置和放热,从决策时刻tk到下一决策时刻tk过程中,HS运行代价函数为式(4),其中,ηhs为HS储放热效率,βhs为损耗代价系数;
Figure FDA0002918167570000044
实时调峰需求响应代价:
在决策时刻tk,电网对综合能源系统提出的实时调峰需求为Ppeak(tk),由于系统经济性运行需求,实际实现的调峰需求响应功率为Pdemand(tk),由此产生的调峰代价为:
cpeak(tk)=λ|Ppeak(tk)-Pdemand(tk)|。
5.根据权利要求4所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤1.4所述的建立综合能源系统调度优化模型,具体步骤为:
综合能源系统在一个决策周期内运行代价包括:燃气轮机组运行与启停代价、电储能运行代价、热储能运行代价、从电网购电代价以及调峰代价,如下式所述:
c(sk,ak)=cgt(sk,ak)+ces(sk,ak)+cths(sk,ak)+ctl(sk,ak)+cpeak(sk,ak)
假设日内决策周期数为K,则为日运行代价V可表示为下式:所述协同优化调度目标是找到最优运行策略使得日运行代价期望最低,如下式所示,其中π*表示最优策略:
Figure FDA0002918167570000051
π*=argminEπ[V]。
6.根据权利要求1所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法,其特征在于,步骤3所述的利用DDQN算法实现网络1和网络2的优化,具体步骤为:
步骤4.1、初始化学习与决策参数,包括:初始化一天内决策周期数K;初始化样本池容量和学习样本批量为M与Batch;初始化学习完成步数STEP;初始化网络参数替换周期Cycle;初始化经验池更新周期loop;初始化神经网络,包括:初始化评估神经网络1的结构与网络参数为θ;初始化目标神经网络2结构与网络参数,其中网络2结构与1相同,且θ-=θ;
步骤4.2、初始化学习步数step=0;初始化状态s0,将所述系统运行数据经过EMC处理,并产生样本存入经验池直到经验池达到设定容量:
步骤4.2.1、将状态s0通过线性归一化为
Figure FDA0002918167570000052
并根据
Figure FDA0002918167570000053
与当前网络1选择行动
Figure FDA0002918167570000054
同时随机选取行动arandom;若满足不等式
Figure FDA0002918167570000055
则选择amin为当前状态sk下的行动ak,即ak=amin;否则ak=arandom,其中Temp为模拟退火温度,rand为(0,1)区间内的随机数.执行当前所选行动ak,经过一周决策周期后系统到达下一状态sk+1并在此过程中观察运行代价ck,获得样本(sk,ak,ck,sk+1,vk+1),并通过归一化处理用入栈方式存入经验池中,k=k+1,Temp=αtemp×Temp,αtemp∈(0,1)为模拟退火温度下降系数;
步骤4.2.2、若k<K则k=k+1,返回步骤4.2.1;若k=K,判断nsample=Nsample是否成立,若不成立则返回步骤4.3.1,否则执行步骤4.3;
步骤4.3、从经验池中随机选取批量为Batch的样本,并将
Figure FDA0002918167570000061
输入网络1,获得网络1输出向量
Figure FDA0002918167570000062
步骤4.4、计算Qtarget(sk,:),分别将
Figure FDA0002918167570000063
输入网络1和网络2,分别得到网络输出
Figure FDA0002918167570000064
Figure FDA0002918167570000065
根据
Figure FDA0002918167570000066
选择行动
Figure FDA0002918167570000067
并计算出
Figure FDA0002918167570000068
步骤4.5、计算损失函数
Figure FDA0002918167570000069
利用loss通过梯度下降法更新评估网络Q的参数θ,step=step+1;
步骤4.6、若step=Nl*Cycle,Nl∈Z+则将评估网络Q的网络参数θ赋值给目标网络,即θ-=θ,若step=Nm*loop,Nm∈Z+,则返回步骤4.2随机初始化系统状态,并更新样本池;若step=STEP则停止学习,网络训练完成;若以上均不成立,则返回步骤4.3。
CN202110107659.7A 2021-01-27 2021-01-27 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法 Active CN112862282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110107659.7A CN112862282B (zh) 2021-01-27 2021-01-27 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110107659.7A CN112862282B (zh) 2021-01-27 2021-01-27 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法

Publications (2)

Publication Number Publication Date
CN112862282A true CN112862282A (zh) 2021-05-28
CN112862282B CN112862282B (zh) 2022-12-06

Family

ID=76009339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110107659.7A Active CN112862282B (zh) 2021-01-27 2021-01-27 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法

Country Status (1)

Country Link
CN (1) CN112862282B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222297A (zh) * 2021-06-08 2021-08-06 上海交通大学 适用于固废基地园循环更新规划方法和系统、设备、介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977741A (zh) * 2017-11-24 2018-05-01 合肥工业大学 冷热电联供微网系统的能量调度优化方法
CN108565874A (zh) * 2018-03-06 2018-09-21 合肥工业大学 一种基于负荷频率控制模型的源荷协同调频方法
CN108964042A (zh) * 2018-07-24 2018-12-07 合肥工业大学 基于深度q网络的区域电网运行点调度优化方法
CN109066805A (zh) * 2018-07-18 2018-12-21 合肥工业大学 一种跨区互联电网发输电系统动态调度优化方法
CN109103912A (zh) * 2018-07-18 2018-12-28 合肥工业大学 考虑电网调峰需求的工业园区主动配电系统调度优化方法
US20190147551A1 (en) * 2017-11-13 2019-05-16 Mitsubishi Electric Research Laboratories, Inc. System and Method for Decentralized Energy Production
US20200327411A1 (en) * 2019-04-14 2020-10-15 Di Shi Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning
CN111885155A (zh) * 2020-07-22 2020-11-03 大连理工大学 一种车联网资源融合的车载任务协作迁移方法
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147551A1 (en) * 2017-11-13 2019-05-16 Mitsubishi Electric Research Laboratories, Inc. System and Method for Decentralized Energy Production
CN107977741A (zh) * 2017-11-24 2018-05-01 合肥工业大学 冷热电联供微网系统的能量调度优化方法
CN108565874A (zh) * 2018-03-06 2018-09-21 合肥工业大学 一种基于负荷频率控制模型的源荷协同调频方法
CN109066805A (zh) * 2018-07-18 2018-12-21 合肥工业大学 一种跨区互联电网发输电系统动态调度优化方法
CN109103912A (zh) * 2018-07-18 2018-12-28 合肥工业大学 考虑电网调峰需求的工业园区主动配电系统调度优化方法
CN108964042A (zh) * 2018-07-24 2018-12-07 合肥工业大学 基于深度q网络的区域电网运行点调度优化方法
US20200327411A1 (en) * 2019-04-14 2020-10-15 Di Shi Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning
CN111885155A (zh) * 2020-07-22 2020-11-03 大连理工大学 一种车联网资源融合的车载任务协作迁移方法
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YIJIN LI,HAO TANG: "Optimization of Dynamic Dispatch for Multiarea Integrated Energy System Based on Hierarchical Learning Method", 《IEEE ACCESS》 *
史景坚等: "含储能系统的配电网电压调节深度强化学习算法", 《电力建设》 *
张延: "考虑源荷随机性的跨区互联电网直流联络线调度学习优化", 《控制理论与应用》 *
李怡瑾: "源荷不确定冷热电联供微网能量调度的建模与学习优化", 《控制理论与应用》 *
李锦键等: "基于DNN的光热电站聚光场太阳直接法向辐射预测模型", 《工业仪表与自动化装置》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222297A (zh) * 2021-06-08 2021-08-06 上海交通大学 适用于固废基地园循环更新规划方法和系统、设备、介质

Also Published As

Publication number Publication date
CN112862282B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
JP7261507B2 (ja) 電気ヒートポンプ-熱電併給システムを最適化する調整方法及びシステム
Li et al. A novel bi-level robust game model to optimize a regionally integrated energy system with large-scale centralized renewable-energy sources in Western China
CN108229025A (zh) 一种冷热电联供型多微网主动配电系统经济优化调度方法
CN111934360B (zh) 基于模型预测控制的虚拟电厂-储能系统能量协同优化调控方法
CN105958537B (zh) 面向能源互联网的能源转换系统及其优化控制方法
CN109449925B (zh) 一种多目标联合优化调度的自适应动态规划方法
CN109636056A (zh) 一种基于多智能体技术的多能源微网去中心化优化调度方法
CN113595133B (zh) 基于能源路由器的配电网-多微网系统及其调度方法
CN116667325B (zh) 一种基于改进布谷鸟算法的微电网并网运行优化调度方法
CN111293682A (zh) 一种基于协同模型预测控制的多微网能量管理方法
CN114611772B (zh) 一种基于多智能体强化学习的多微网系统协同优化方法
CN116432824A (zh) 基于多目标粒子群的综合能源系统优化方法及系统
CN115241923A (zh) 一种基于蛇优化算法的微电网多目标优化配置方法
CN113869742B (zh) 基于行动家和评论家网络的综合供需侧的电力调度系统
CN115115130A (zh) 一种基于模拟退火算法的风光储制氢系统日前调度方法
CN109617052B (zh) 一种大规模电储热单元智能化分层控制方法
CN112883630B (zh) 用于风电消纳的多微网系统日前优化经济调度方法
CN112862282B (zh) 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法
CN116502921A (zh) 一种园区综合能源系统优化管理系统及其协调调度方法
CN110766285A (zh) 一种基于虚拟电厂的日前能源调度方法
CN112713590B (zh) 计及idr的冷热电联供微网与主动配电网联合优化调度方法
CN114519249A (zh) 考虑用户体验的虚拟电厂运行优化方法及其应用
Fang et al. Energy scheduling and decision learning of combined cooling, heating and power microgrid based on deep deterministic policy gradient
Han et al. Deep Reinforcement Learning Based Approach for Real-Time Dispatch of Integrated Energy System with Hydrogen Energy Utilization
Dai et al. Joint virtual energy storage modeling with electric vehicle participation in energy local area smart grid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant