CN114091879A - 基于深度强化学习的多园区能源调度方法和系统 - Google Patents

基于深度强化学习的多园区能源调度方法和系统 Download PDF

Info

Publication number
CN114091879A
CN114091879A CN202111348528.4A CN202111348528A CN114091879A CN 114091879 A CN114091879 A CN 114091879A CN 202111348528 A CN202111348528 A CN 202111348528A CN 114091879 A CN114091879 A CN 114091879A
Authority
CN
China
Prior art keywords
energy
park
scheduling
power
storage battery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111348528.4A
Other languages
English (en)
Inventor
张帆
徐汶
伊比益
毛毳
陈玉萍
武东昊
兰哲雄
苏昊成
张有兵
王力成
冯昌森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Zhejiang Huayun Electric Power Engineering Design Consulting Co
Original Assignee
Zhejiang University of Technology ZJUT
Zhejiang Huayun Electric Power Engineering Design Consulting Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT, Zhejiang Huayun Electric Power Engineering Design Consulting Co filed Critical Zhejiang University of Technology ZJUT
Priority to CN202111348528.4A priority Critical patent/CN114091879A/zh
Publication of CN114091879A publication Critical patent/CN114091879A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

基于深度强化学习的多园区能源调度方法,包括:S1:构建分布式园区综合能源系统模型;S2:用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题,搭建分布式园区综合能源系统的多智能体深度强化学习框架;S3:以实时奖励函数代替目标函数,利用各园区内的智能体与环境互动,寻找分布式园区综合能源系统最优调度策略;S4:将测试集数据用于训练后的智能体进行调度决策,并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较,证明算法的有效性。本发明还包括基于深度强化学习的多园区能源调度系统。本发明在促进各园区内的光伏消纳的同时,提高了综合能源系统经济运行的有效性。

Description

基于深度强化学习的多园区能源调度方法和系统
技术领域
本发明涉及一种基于多智能体深度强化学习的多能源协调互补优化调度办法。
背景技术
随着环境压力的增加和可再生能源技术的发展,以化石能源为主的传统电力系统正逐渐被化石能源与可再生能源协调使用的综合能源系统(Integrated EnergySystem,IES)所替代。而综合能源系统内的多种类能源在提升系统灵活性、供能多样性的同时,也为系统提高整体的能源利用率,实现经济运行带来困难。因此研究综合能源系统内的多能协调优化调度策略对于促进可再生能源消纳,提高系统经济性具有重要意义。
对综合能源系统的研究主要集中在日前的调度,依赖于对可再生能源出力、负荷需求等数据的预测,受限于固定的调度计划,不能动态地对源和荷的随机变化做出响应。为解决上述问题,近年来随着人工智能技术的发展,强化学习(reinforcementlearning,RL)算法受到越来越多的青睐。已有研究将强化学习用于电力能源系统的经济调度和能量管理中,但是传统的强化学习算法,在面对综合能源系统的复杂环境时,无法合理从环境中读取状态变量,易发生维数灾难,难以在综合能源场景下实际应用与推广。所以同时具备环境感知能力和决策能力的深度强化学习(deepreinforcementlearning,DRL)算法,慢慢走入研究者们的视线。
由于传统优化调度方法主要集中在综合能源系统的日前调度,依赖于对日前可再生能源出力、负荷需求等数据的预测,受限于固定的调度计划,不能动态地对源和荷的随机变化做出响应。随着以光电为代表的具有强不确定性的可再生能源接入综合能源系统,传统优化调度方法逐渐不能满足综合能源系统的需求。但目前深度强化学习在综合能源系统方面的研究,大多为集中式决策。这种结构的综合能源系统需要控制中心预先建立精确的网络架构,并实时采集综合能源系统内各设备运行工况,这对于结构复杂多变的综合能源系统来说难以实现。且单个主体统一运营的情况,与当前综合能源系统内含多个子能源系统运营相对独立的现状不相符,尤其是在当前市场机制下存在信息隐私的问题。
发明内容
为了克服现有技术的不足,本发明为实现含多个能源子系统的综合能源系统优化调度提出一种基于多智能体深度强化学习的多能源协调互补优化调度办法。通过一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构,并对各园区之间的能源交互进行设计。在促进各园区内的光伏消纳的同时,提高了综合能源系统经济运行的有效性。
为了实现上述目的,本发明的技术方案为:
基于深度强化学习的多园区能源调度方法,包括以下步骤:
S1:构建分布式园区综合能源系统模型,提出一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构,并对各园区之间的能源交互进行设计,分为多园区共享层和单园区消纳层;
S2:在所提架构的基础上,用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题,搭建分布式园区综合能源系统的多智能体深度强化学习框架;
S3:以实时奖励函数代替目标函数,利用各园区内的智能体与环境互动,寻找综合能源系统最优调度策略,避免传统能源调度方式中无法实时响应源和荷随机变动的问题;
S4:将测试集数据用于训练后的智能体进行调度决策,并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较,证明算法的有效性。
进一步,步骤S1所述的构建的分布式园区综合能源系统模型,具体包括:
分布式园区综合能源系统具体架构,分为多园区共享层和单园区消纳层;
S1-1:在多园区共享层中,不同的多能源园区之间可进行信息交流,并通过能源母线进行园区间的能源协调互补。园区间进行能源交互时,能源富余的园区优先考虑将多余的能源供给其他园区,若在供给结束后仍有余能,则考虑将余能卖给外部能源供应商;能源不足的园区优先考虑园区间的内部能源消纳,若园区间的内部供能仍无法满足用能需求,则考虑向外部能源供应商购能。因各园区进行能源交互时,热能传递损耗率大、成本高。所以文中提及的园区间能源交互仍以电能交互为主,热能用于满足各园区内的能源消耗;
S1-2:单个多能源园区平稳运行所需要的能源由其他园区、上级电网、天然气源共同提供;园区内包含电、热两种类型的负荷和燃气轮机、燃气锅炉、光伏、电锅炉和储能电池等设备;各单元按照能量传输介质用电、热两条能量总线连接,忽略线路损耗;
S1-3:多能源园区优化调度的目标是最小化园区运行成本,主要为从上级电网购买的电力成本以及从燃气供应商处购买的天然气成本。目标成本的函数表达式为:
Cmin=Ce+Cf (1)
式中,Cmin为最小运行成本;Ce为向电网购售电的成本;Cf为向燃气供应商购买天然气的成本;购电成本由下式定义:
Figure BDA0003355123540000031
式中,T为系统调度的总时间段数;Δt为时隙长度;
Figure BDA0003355123540000032
为时间t内的园区向电网的购/售电价格;pgrid(t)为时间t内园区与电网的交互功率,为正表示向电网购电,为负表示向电网售电;园区购入天然气的成本为:
Figure BDA0003355123540000033
式中,εgas(t)为时间t内的天然气单位热值价格;γ(t)为天然气消耗速率;
S1-4:单园区优化调度的约束包括功率平衡约束、电网交互功率约束和设备运行约束;
(1)功率平衡约束;
多能源园区内包含多种能源类型,但其主要考虑的功率平衡约束为电功率平衡约束、热功率平衡约束两类,具体如下:
Figure BDA0003355123540000034
式中:pop(t)为时间t内的其他园区功能,为正时表示接受其他园区能量,为负时表示将能量供给其他园区;ppv(t)为时间t内的光伏设备输出功率;pgt(t)为时间t内的燃气轮机输出功率;peb(t)为时间t内的电锅炉需求功率;pbes(t)为时间t内储能电池的充放电功率,为正时表示储能电池的放电功率,为负时表示储能电池的充电功率;heb(t)为时间t内的电锅炉输出热功率;hgt(t)为时间t内的燃气轮机回收热功率;hbt(t)为时间t内的燃气锅炉输出功率;pload(t)、hload(t)分别为时间t内的需求侧电、热负荷;
(2)电网交互功率约束;
考虑到电网侧的稳定运行,上级电网对多能源园区的功率交互有上下限约束要求:
Figure BDA0003355123540000041
式中,
Figure BDA0003355123540000042
分别为微能源网系统和主电网交互功率的上下限;
(3)设备运行约束;
多能源园区中各设备均有设备运行上、下限约束,对于燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率有:
Figure BDA0003355123540000043
Figure BDA0003355123540000044
Figure BDA0003355123540000045
Figure BDA0003355123540000046
式中,
Figure BDA0003355123540000047
分别为燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率的下限;
Figure BDA0003355123540000048
分别为燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率的上限;
对于储能电池,还需避免深度充放电对储能的损害,因此储能电池的荷电状态需要被限定在一定范围内:
Figure BDA0003355123540000049
式中,
Figure BDA00033551235400000410
分别为储能电池荷电状态的上、下限;Esoc(t)为时间t内的储能电池荷电状态。其中Esoc(t)的表达式如下:
Figure BDA00033551235400000411
式中Qbes为储能电池的容量;ηbes为储能电池充/放电系数,如式(10)所示:
Figure BDA0003355123540000051
式中,ηdis和ηch分别为储能电池的放电效率和充电效率;
此外,为保证储能电池能持续稳定运行,一个调度周期初末应保持储能容量相等。所以储能电池充放电应满足约束:
Figure BDA0003355123540000052
式中,
Figure BDA0003355123540000053
为储能电池初始时的荷电状态。
进一步,步骤S2所述的基于多智能体深度强化学习框架模型,具体包括:
S2-1:综合能源系统环境提供给各智能体的信息一般为园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求;因此综合能源系统园区内的状态空间可以定义为:
S=[ppv(t),Esoc(t),hload(t),pload(t)] (12)
智能体观测到综合能源系统园区内的状态信息后,根据自身策略在动作空间A中选择一个动作;本发明所考虑园区内的动作设备,包括燃气轮机、储能电池和电锅炉;对于燃气轮机,其动作是t时段内设备的输出功率pgt(t);对于储能电池,pbes(t)的正负,表示的是t时段内设备的充/放电功率;对于电锅炉,其动作是t时段内设备的输出功率peb(t);因此综合能源系统的动作空间为:
A=[pgt(t),pbes(t),peb(t)] (13)
考虑到深度Q网络算法无法输出连续动作,所以对综合能源系统的动作空间做离散化处理,离散后的动作空间为:
A=[pgt(t),pbes(t),peb(t),|g] (14)
式中,g为离散化的粒度,粒度越大动作空间包含的动作越少,粒度越小动作空间可以描述的动作越多。
S2-2:在深度强化学习中奖励负责引导智能体挖掘状态信息中的决策相关因素并经过提炼后用于动作空间中进行动作选取;
在考虑综合能源系统模型中,系统运行成本来自于向电网购电的成本和购买天然气的成本。据式(1)将系统总成本最小化问题转化为强化学习经典的奖励最大化形式,因此智能体在t时段内的奖励由下式定义:
rt=-(Ce+Cf) (15)
在智能体学习综合能源系统优化调度策略时,有可能会选择不符合系统运行约束条件的动作;面对这种情况需要定义智能体在采取越限动作时的惩罚,通过在奖励函数中增加惩罚项的方式来引导智能体做出正确的决策;
在搭建的综合能源系统框架中存在各种设备运行功率上下限约束、储能电池的荷电状态约束以及储能电池在一个调度周期初末需要保持容量相等的约束条件;在这些约束条件中,燃气轮机的输出功率约束、储能电池的充/放电功率约束以及电锅炉的出力约束,在设置智能体动作空间时就已经进行过考量,无需再对其额外处理;而面对其他的约束条件,本文通过在奖励函数中增加惩罚项的方式进行处理,以使智能体学会合理的调度策略,惩罚项的设置如下式所示:
D=d0+d1+d2 (16)
式中,d0为各设备出力功率越限时的惩罚,其数值大小设置为M,M为一个较小的负数;d1为储能电池出现过充电或过放电时的惩罚,其数值大小同样设置为M;d2惩罚项体现的是储能电池在一个调度周期初末需要保持容量相等的约束,但深度Q网络所能设定的动作空间内只有离散动作,且储能电池在进行充放电动作时受充电/放电效率影响,所以在一个调度周期初末储能电池容量无法达到完全相等;因此定义惩罚项d2为:
Figure BDA0003355123540000061
当调度周期初末电荷状态处于一定误差内时d2等于0,否则d2为一个远小于M的负数;由以上奖励与惩罚项,定义奖励函数为:
Figure BDA0003355123540000062
进一步,在S3步骤中,基于多智能体深度Q网络的求解方法如下:
S3-1:智能体的训练过程可以概括为“集中学习,分散执行”,属于多智能体训练方案中的并行学习范畴,具有较高的计算效率;此外,多智能体深度Q网络通过探索共享环境,将全局控制动作分配给综合能源系统各个分布式园区内执行协调动作的智能体;具体来说,每个智能体根据自己的局部观察来采取动作,并通过特定状态下所有智能体组合动作的总Q值对动作进行评估;
S3-2:各智能体中的神经网络,其作用是对在状态s下采取动作a的价值,即动作值函数Q(s,a)进行近似:
Q(s,a,θ)≈Q(s,a) (19)
深度Q网络通过Q-learning算法获得神经网络可学习的目标函数,即构建神经网络可优化的损
失函数:
L(θ)=E[(Target Q-Predict Q)2] (20)
式中,θ为神经网络的权重参数;Target Q为目标神经网络输出的目标Q值;Predict Q为预测网络输出的预测Q值;
Predict Q=Q(st,at,θi) (21)
式中,st为t时段的综合能源系统环境状态,即各园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求;at为预测神经网络根据t时段的状态,从动作空间A中选取的调度动作;当综合能源系统执行动作at后,获得奖励rt,同时系统进入下一时段的环境状态;
Figure BDA0003355123540000071
式中,γ为未来的Q值在当前时刻的衰减率;st+1为t+1时段的微能源网环境状态;at+1为目标神经网络根据t+1时段的状态,从动作空间A中选取的使动作值函数Q最大的调度动作;
在获得损失函数后,采用Adam算法(Adaptive moment estimation)算法对神经网络损失函数模型L(θ)的权重参数θ进行求解,并将更新后的权重参数θ复制给预测神经网络;经过固定轮次迭代后,将预测神经网络的相关参数复制给目标网络,保持一段时间内目标Q值不变,降低预测Q值和目标Q值的相关性,提高算法稳定性;
深度Q网络算法具有独特的经验池回放机制,在进行每一步循环操作时会将神经网络和微能源网环境交互得到的样本数据即当前状态、当前选取动作、当前动作获得奖励、下一时刻状态及布尔值存储于经验池中,当需要对预测网络和目标网络训练时,从经验池中随机抽取小批量的历史经验样本数据来对神经网络参数进行训练;
每个经验样本以如下(st,at,rt,st+1,done)五元组的形式存储到经验池中,其中,done为布尔值类型,表示新的状态st+1是否为终止状态;微能源网环境每执行一步后,需要把执行该步所获得的经验信息存储于经验池;在执行数步后,从经验池中随机抽小批量经验样本数据,输入到预测网络和目标网络中;基于抽样的经验样本数据,执行式(22),对预测网络和目标网络中的参数θ、
Figure BDA0003355123540000081
进行更新。
在步骤S4中,以分布式园区综合能源系统为算例的仿真如下:
各分布式园区内的智能体,其神经网络结构相同为两层256、128个神经元,在这种神经网络结构下进行训练时,加入惩罚项对智能体所学策略进行约束;
在通过历史数据对智能体神经网络参数进行迭代更新时,当固定间隔达到10000步数,于训练用数据外,采取一组随机光伏设备出力和电、热负荷需求数据为测试集;通过观察智能体在测试集数据上进行实时调度的平均奖励,分析其是否已经学会合理、有效的调度策略,平均奖励的计算方式如式(23)所示:
Figure BDA0003355123540000082
式中N为调度天数;
Figure BDA0003355123540000083
为在调度天数内各智能体神经网络对测试集进行调度所获得的平均奖励总和。
实施本发明的基于深度强化学习的多园区能源调度方法的系统,包括依次连接的分布式园区综合能源系统模型构建模块、分布式园区综合能源系统的多智能体深度强化学习框架搭建模块、分布式园区综合能源系统最优调度策略寻找模块、算法有效性证明模块;其中,
分布式园区综合能源系统模型构建模块,提出一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构,并对各园区之间的能源交互进行设计,分为多园区共享层和单园区消纳层;
分布式园区综合能源系统的多智能体深度强化学习框架搭建模块,在所提架构的基础上,用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题,搭建分布式园区综合能源系统的多智能体深度强化学习框架;
分布式园区综合能源系统最优调度策略寻找模块,以实时奖励函数代替目标函数,利用各园区内的智能体与环境互动,寻找综合能源系统最优调度策略,避免传统能源调度方式中无法实时响应源和荷随机变动的问题;
算法有效性证明模块,将测试集数据用于训练后的智能体进行调度决策,并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较,证明算法的有效性。
本发明的有益效果是:
1.提出了一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构,并对各园区之间的能源交互进行设计。在促进各园区内的光伏消纳的同时,提高了综合能源系统经济运行的有效性。
2.在所提架构的基础上,用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题。以实时奖励函数代替目标函数,利用各园区内的智能体与环境互动,寻找综合能源系统最优调度策略,避免了传统能源调度方式中无法实时响应源和荷随机变动的问题。
3.将测试集数据用于训练后的智能体进行调度决策,并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较,证明了算法的有效性。
附图说明
图1是本发明的分布式园区综合能源系统图。
图2是本发明的单园区能源消纳模型图。
图3是本发明的单智能体神经网络结构图。
图4是本发明的多智能体训练循环图。
图5是本发明的基于数据驱动的智能体神经网络参数训练过程图。
图6是本发明的智能体训练样本数据图。
图7是本发明的各时段能源价格曲线图。
图8是本发明的综合能源系统平均奖励总和收敛曲线图。
图9是本发明的各园区储能电池荷电状态变化图。
图10是本发明方法的流程图。
具体实施方法
下面结合附图对本发明做进一步说明。
参照图1~图9,基于深度强化学习的多园区能源调度方法,包括以下步骤:
S1:构建分布式园区综合能源系统模型,提出了一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构,并对各园区之间的能源交互进行设计,分为多园区共享层和单园区消纳层;
S2:在所提架构的基础上,用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题,搭建分布式园区综合能源系统的多智能体深度强化学习框架;
S3:以实时奖励函数代替目标函数,利用各园区内的智能体与环境互动,寻找综合能源系统最优调度策略,避免了传统能源调度方式中无法实时响应源和荷随机变动的问题;
S4:将测试集数据用于训练后的智能体进行调度决策,并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较,证明了算法的有效性。
进一步,在所述步骤S1中,所构建的分布式园区综合能源系统模型具体内容如下:
分布式园区综合能源系统具体架构,分为多园区共享层和单园区消纳层。
S1-1:在多园区共享层中,不同的多能源园区之间可进行信息交流,并通过能源母线进行园区间的能源协调互补。园区间进行能源交互时,能源富余的园区优先考虑将多余的能源供给其他园区,若在供给结束后仍有余能,则考虑将余能卖给外部能源供应商;能源不足的园区优先考虑园区间的内部能源消纳,若园区间的内部供能仍无法满足用能需求,则考虑向外部能源供应商购能。因各园区进行能源交互时,热能传递损耗率大、成本高。所以文中提及的园区间能源交互仍以电能交互为主,热能用于满足各园区内的能源消耗。
S1-2:单个多能源园区平稳运行所需要的能源由其他园区、上级电网、天然气源共同提供。园区内包含电、热两种类型的负荷和燃气轮机、燃气锅炉、光伏、电锅炉和储能电池等设备。各单元按照能量传输介质用电、热两条能量总线连接,忽略线路损耗。
S1-3:多能源园区优化调度的目标是最小化园区运行成本,主要为从上级电网购买的电力成本以及从燃气供应商处购买的天然气成本。目标成本的函数表达式为:
Cmin=Ce+Cf (1)
式中,Cmin为最小运行成本;Ce为向电网购售电的成本;Cf为向燃气供应商购买天然气的成本。购电成本由下式定义:
Figure BDA0003355123540000111
式中,T为系统调度的总时间段数;Δt为时隙长度;
Figure BDA0003355123540000112
为时间t内的园区向电网的购/售电价格;pgrid(t)为时间t内园区与电网的交互功率,为正表示向电网购电,为负表示向电网售电。园区购入天然气的成本为:
Figure BDA0003355123540000113
式中,εgas(t)为时间t内的天然气单位热值价格;γ(t)为天然气消耗速率。
S1-4:单园区优化调度的约束包括功率平衡约束、电网交互功率约束和设备运行约束。
(1)功率平衡约束
多能源园区内包含多种能源类型,但其主要考虑的功率平衡约束为电功率平衡约束、热功率平衡约束两类,具体如下:
Figure BDA0003355123540000114
式中:pop(t)为时间t内的其他园区功能,为正时表示接受其他园区能量,为负时表示将能量供给其他园区;ppv(t)为时间t内的光伏设备输出功率;pgt(t)为时间t内的燃气轮机输出功率;peb(t)为时间t内的电锅炉需求功率;pbes(t)为时间t内储能电池的充放电功率,为正时表示储能电池的放电功率,为负时表示储能电池的充电功率;heb(t)为时间t内的电锅炉输出热功率;hgt(t)为时间t内的燃气轮机回收热功率;hbt(t)为时间t内的燃气锅炉输出功率;pload(t)、hload(t)分别为时间t内的需求侧电、热负荷。
(2)电网交互功率约束
考虑到电网侧的稳定运行,上级电网对多能源园区的功率交互有上下限约束要求:
Figure BDA0003355123540000121
式中,
Figure BDA0003355123540000122
分别为微能源网系统和主电网交互功率的上下限。
(3)设备运行约束
多能源园区中各设备均有设备运行上、下限约束,对于燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率有:
Figure BDA0003355123540000123
Figure BDA0003355123540000124
Figure BDA0003355123540000125
Figure BDA0003355123540000126
式中,
Figure BDA0003355123540000127
分别为燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率的下限;
Figure BDA0003355123540000128
分别为燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率的上限。
对于储能电池,还需避免深度充放电对储能的损害,因此储能电池的荷电状态需要被限定在一定范围内:
Figure BDA0003355123540000129
式中,
Figure BDA00033551235400001210
分别为储能电池荷电状态的上、下限;Esoc(t)为时间t内的储能电池荷电状态。其中Esoc(t)的表达式如下:
Figure BDA00033551235400001211
式中Qbes为储能电池的容量;ηbes为储能电池充/放电系数,如式(10)所示:
Figure BDA0003355123540000131
式中,ηdis和ηch分别为储能电池的放电效率和充电效率。
此外,为保证储能电池能持续稳定运行,一个调度周期初末应保持储能容量相等。所以储能电池充放电应满足约束:
Figure BDA0003355123540000132
式中,
Figure BDA0003355123540000133
为储能电池初始时的荷电状态。
进一步,在S2步骤中,基于多智能体深度强化学习框架模型如下:
S2-1:综合能源系统环境提供给各智能体的信息一般为园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求。因此综合能源系统园区内的状态空间可以定义为:
S=[ppv(t),Esoc(t),hload(t),pload(t)] (12)
智能体观测到综合能源系统园区内的状态信息后,根据自身策略在动作空间A中选择一个动作。本文所考虑园区内的动作设备,包括燃气轮机、储能电池和电锅炉。对于燃气轮机,其动作是t时段内设备的输出功率pgt(t);对于储能电池,pbes(t)的正负,表示的是t时段内设备的充/放电功率;对于电锅炉,其动作是t时段内设备的输出功率peb(t);因此综合能源系统的动作空间为:
A=[pgt(t),pbes(t),peb(t)] (13)
考虑到深度Q网络算法无法输出连续动作,所以对综合能源系统的动作空间做离散化处理,离散后的动作空间为:
A=[pgt(t),pbes(t),peb(t),|g] (14)
式中,g为离散化的粒度,粒度越大动作空间包含的动作越少,粒度越小动作空间可以描述的动作越多。
S2-2:在深度强化学习中奖励负责引导智能体挖掘状态信息中的决策相关因素并经过提炼后用于动作空间中进行动作选取。
在考虑综合能源系统模型中,系统运行成本来自于向电网购电的成本和购买天然气的成本。据式(1)将系统总成本最小化问题转化为强化学习经典的奖励最大化形式,因此智能体在t时段内的奖励由下式定义:
rt=-(Ce+Cf) (15)
在智能体学习综合能源系统优化调度策略时,有可能会选择不符合系统运行约束条件的动作。面对这种情况需要定义智能体在采取越限动作时的惩罚,通过在奖励函数中增加惩罚项的方式来引导智能体做出正确的决策
在搭建的综合能源系统框架中存在各种设备运行功率上下限约束、储能电池的荷电状态约束以及储能电池在一个调度周期初末需要保持容量相等的约束条件。在这些约束条件中,燃气轮机的输出功率约束、储能电池的充/放电功率约束以及电锅炉的出力约束,在设置智能体动作空间时就已经进行过考量,无需再对其额外处理。而面对其他的约束条件,本文通过在奖励函数中增加惩罚项的方式进行处理,以使智能体学会合理的调度策略,惩罚项的设置如下式所示:
D=d0+d1+d2 (16)
式中,d0为各设备出力功率越限时的惩罚,其数值大小设置为M,M为一个较小的负数;d1为储能电池出现过充电或过放电时的惩罚,其数值大小同样设置为M;d2惩罚项体现的是储能电池在一个调度周期初末需要保持容量相等的约束,但深度Q网络所能设定的动作空间内只有离散动作,且储能电池在进行充放电动作时受充电/放电效率影响,所以在一个调度周期初末储能电池容量无法达到完全相等。因此定义惩罚项d2为:
Figure BDA0003355123540000141
当调度周期初末电荷状态处于一定误差内时d2等于0,否则d2为一个远小于M的负数。由以上奖励与惩罚项,定义奖励函数为:
Figure BDA0003355123540000142
进一步,在S3步骤中,基于多智能体深度Q网络的求解方法如下:
S3-1:智能体的训练过程可以概括为“集中学习,分散执行”,属于多智能体训练方案中的并行学习范畴,具有较高的计算效率。此外,多智能体深度Q网络通过探索共享环境,将全局控制动作分配给综合能源系统各个分布式园区内执行协调动作的智能体。具体来说,每个智能体根据自己的局部观察来采取动作,并通过特定状态下所有智能体组合动作的总Q值对动作进行评估。
S3-2:各智能体中的神经网络,其作用是对在状态s下采取动作a的价值,即动作值函数Q(s,a)进行近似:
Q(s,a,θ)≈Q(s,a) (19)
深度Q网络通过Q-learning算法获得神经网络可学习的目标函数,即构建神经网络可优化的损
失函数:
L(θ)=E[(Target Q-Predict Q)2] (20)
式中,θ为神经网络的权重参数;Target Q为目标神经网络输出的目标Q值;Predict Q为预测网络输出的预测Q值。
Predict Q=Q(st,at,θi) (21)
式中,st为t时段的综合能源系统环境状态,即各园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求;at为预测神经网络根据t时段的状态,从动作空间A中选取的调度动作。当综合能源系统执行动作at后,获得奖励rt,同时系统进入下一时段的环境状态。
Figure BDA0003355123540000151
式中,γ为未来的Q值在当前时刻的衰减率;st+1为t+1时段的微能源网环境状态;at+1为目标神经网络根据t+1时段的状态,从动作空间A中选取的使动作值函数Q最大的调度动作。
在获得损失函数后,采用Adam算法(Adaptive moment estimation)算法对神经网络损失函数模型L(θ)的权重参数θ进行求解,并将更新后的权重参数θ复制给预测神经网络。经过固定轮次迭代后,将预测神经网络的相关参数复制给目标网络,保持一段时间内目标Q值不变,降低预测Q值和目标Q值的相关性,提高算法稳定性。
深度Q网络算法具有独特的经验池回放机制,在进行每一步循环操作时会将神经网络和微能源网环境交互得到的样本数据即当前状态、当前选取动作、当前动作获得奖励、下一时刻状态及布尔值存储于经验池中,当需要对预测网络和目标网络训练时,从经验池中随机抽取小批量的历史经验样本数据来对神经网络参数进行训练。
每个经验样本以如下(st,at,rt,st+1,done)五元组的形式存储到经验池中,其中,done为布尔值类型,表示新的状态st+1是否为终止状态。微能源网环境每执行一步后,需要把执行该步所获得的经验信息存储于经验池。在执行数步后,从经验池中随机抽小批量经验样本数据,输入到预测网络和目标网络中。基于抽样的经验样本数据,执行式(22),对预测网络和目标网络中的参数θ、
Figure BDA0003355123540000161
进行更新。
在步骤S4中,以分布式园区综合能源系统为算例的仿真如下:
各分布式园区内的智能体,其神经网络结构相同为两层256、128个神经元,在这种神经网络结构下进行训练时,加入惩罚项对智能体所学策略进行约束。
在通过历史数据对智能体神经网络参数进行迭代更新时,当固定间隔达到10000步数,于训练用数据外,采取一组随机光伏设备出力和电、热负荷需求数据为测试集。通过观察智能体在测试集数据上进行实时调度的平均奖励,分析其是否已经学会合理、有效的调度策略,平均奖励的计算方式如式(23)所示:
Figure BDA0003355123540000162
式中N为调度天数;
Figure BDA0003355123540000163
为在调度天数内各智能体神经网络对测试集进行调度所获得的平均奖励总和。
实施本发明的基于深度强化学习的多园区能源调度方法的系统,包括依次连接的分布式园区综合能源系统模型构建模块、分布式园区综合能源系统的多智能体深度强化学习框架搭建模块、分布式园区综合能源系统最优调度策略寻找模块、算法有效性证明模块。各模块依次分别对应包含本发明方法的步骤1~步骤4的技术内容。
为使本领域技术人员更好地理解本发明,本文以图1所示的分布式园区综合能源系统为算例进行仿真,包括以下构成:
一、设备参数
为了验证所提基于深度强化学习的分布式园区综合能源系统调度策略的有效性,本文以图1所示的分布式园区综合能源系统为算例进行仿真。本文设定分布式园区数量为3,各园区配有光伏设备、储能电池、燃气轮机和燃气锅炉等,设备参数见表1,实时电价为某小型产业园区实际电价数据,天然气价格固定为0.4元/(kW·h)。
二、训练数据与多智能体网络超参数设置
本文设计的各智能体在应用于综合能源系统前,需要先通过历史数据对其神经网络进行训练,以得到适配于综合能源系统环境的网络参数。训练采用的历史数据为某工业园区6-11月的实际光伏设备出力和电、热负荷需求,部分历史样本数据如图6所示。
以6月1日的0点为起始,智能体接收来自综合能源系统环境的状态信息,然后根据第3章所述的学习过程,进行循环迭代,更新神经网络参数,直至训练结束。训练时采用的电价数据如图7所示。
经过多次尝试,本文设定多智能体深度强化学习中经验回放的样本存储量为480000,每次小批量采样规模为32;初始探索率为0.1,最终探索率为0.001,探索步数为1600000;学习率取0.01;每训练10次更新一次神经网络网络参数。
三、智能体实时调度训练
本文所提各分布式园区内的智能体,其神经网络结构相同为两层256、128个神经元,在这种神经网络结构下进行训练时,加入惩罚项对智能体所学策略进行约束。
四、结果分析对比
在上述各园区内智能体训练完毕的基础上,采用训练样本外,某一日内随机的光伏设备出力和电、热负荷需求数据进行综合能源系统的优化调度,得到基于多智能体深度强化学习调度决策下的综合能源系统稳定运行的目标成本约为为1120元。当天各园区内的储能电池荷电状态变化如图9所示,由图中可以看出,智能体所学会的调度策略处于储能电池充放电容许范围内,而且不会采取过度充、放电的越限动作,最终储能设备会回到与调度周期初相近的电池荷电状态,使得综合能源系统可持续稳定运行。
对比两种方法得到的结果,可以看出能反映模型非线性关系的深度强化学习方法较传统优化调度方法得到的结果更为优秀,减少了18%目标成本,证明了所提方法在综合能源系统下进行能量管理的有效性。
综上所述,本方法将综合能源系统的动态调度问题即随机序贯决策问题转变为马尔科夫决策过程,用实时奖励函数和惩罚函数代替目标函数和约束条件,利用神经网络与环境互动,寻找系统内的最优调度策略,实现了微能源网系统中的多能源协调互补优化,有效的避免了传统调度方式中无法实时响应源荷随机变动的问题。
本发明在保证数据信息完整性的前提下,利用数据本身的分布信息与代价敏感学习思想对过采样的原样本与数量进行精确控制,增加了过采样样本的泛化信息,降低了分类器分类难度。
在本说明书中,对本发明的示意性表述不是必须针对的是相同的实施例或示例,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行结合和组合。此外,本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施案例所陈述的具体形式,本发明的保护范围也包括本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (6)

1.基于深度强化学习的多园区能源调度方法,其特征在于,包括以下步骤:
S1:构建分布式园区综合能源系统模型,提出一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构,并对各园区之间的能源交互进行设计,分为多园区共享层和单园区消纳层;
S2:在所提架构的基础上,用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题,搭建分布式园区综合能源系统的多智能体深度强化学习框架;
S3:以实时奖励函数代替目标函数,利用各园区内的智能体与环境互动,寻找分布式园区综合能源系统最优调度策略,避免传统能源调度方式中无法实时响应源和荷随机变动的问题;
S4:将测试集数据用于训练后的智能体进行调度决策,并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较,证明算法的有效性。
2.如权利要求1所述的基于深度强化学习的多园区能源调度方法,其特征在于,步骤S1所述的构建的分布式园区综合能源系统模型,具体包括:
分布式园区综合能源系统模型的具体架构,分为多园区共享层和单园区消纳层;
S1-1:在多园区共享层中,不同的多能源园区之间可进行信息交流,并通过能源母线进行园区间的能源协调互补;园区间进行能源交互时,能源富余的园区优先考虑将多余的能源供给其他园区,若在供给结束后仍有余能,则考虑将余能卖给外部能源供应商;能源不足的园区优先考虑园区间的内部能源消纳,若园区间的内部供能仍无法满足用能需求,则考虑向外部能源供应商购能;因各园区进行能源交互时,热能传递损耗率大、成本高;所述的园区间能源交互仍以电能交互为主,热能用于满足各园区内的能源消耗;
S1-2:单个多能源园区平稳运行所需要的能源由其他园区、上级电网、天然气源共同提供;园区内包含电、热两种类型的负荷和燃气轮机、燃气锅炉、光伏、电锅炉和储能电池等设备;各单元按照能量传输介质用电、热两条能量总线连接,忽略线路损耗;
S1-3:多能源园区优化调度的目标是最小化园区运行成本,包括从上级电网购买的电力成本以及从燃气供应商处购买的天然气成本;目标成本的函数表达式为:
Cmin=Ce+Cf (1)
式中,Cmin为最小运行成本;Ce为向电网购售电的成本;Cf为向燃气供应商购买天然气的成本;购电成本由下式定义:
Figure FDA0003355123530000021
式中,T为系统调度的总时间段数;Δt为时隙长度;
Figure FDA0003355123530000022
为时间t内的园区向电网的购/售电价格;pgrid(t)为时间t内园区与电网的交互功率,为正表示向电网购电,为负表示向电网售电;园区购入天然气的成本为:
Figure FDA0003355123530000023
式中,εgas(t)为时间t内的天然气单位热值价格;γ(t)为天然气消耗速率;
S1-4:单园区优化调度的约束包括功率平衡约束、电网交互功率约束和设备运行约束;
(1)功率平衡约束
多能源园区内包含多种能源类型,但其主要考虑的功率平衡约束为电功率平衡约束、热功率平衡约束两类,具体如下:
Figure FDA0003355123530000024
式中:pop(t)为时间t内的其他园区功能,为正时表示接受其他园区能量,为负时表示将能量供给其他园区;ppv(t)为时间t内的光伏设备输出功率;pgt(t)为时间t内的燃气轮机输出功率;peb(t)为时间t内的电锅炉需求功率;pbes(t)为时间t内储能电池的充放电功率,为正时表示储能电池的放电功率,为负时表示储能电池的充电功率;heb(t)为时间t内的电锅炉输出热功率;hgt(t)为时间t内的燃气轮机回收热功率;hbt(t)为时间t内的燃气锅炉输出功率;pload(t)、hload(t)分别为时间t内的需求侧电、热负荷;
(2)电网交互功率约束
考虑到电网侧的稳定运行,上级电网对多能源园区的功率交互有上下限约束要求:
Figure FDA0003355123530000031
式中,
Figure FDA0003355123530000032
分别为微能源网系统和主电网交互功率的上下限;
(3)设备运行约束
多能源园区中各设备均有设备运行上、下限约束,对于燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率有:
Figure FDA0003355123530000033
Figure FDA0003355123530000034
Figure FDA0003355123530000035
Figure FDA0003355123530000036
式中,
Figure FDA0003355123530000037
分别为燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率的下限;
Figure FDA0003355123530000038
分别为燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率的上限;
对于储能电池,还需避免深度充放电对储能的损害,因此储能电池的荷电状态需要被限定在一定范围内:
Figure FDA0003355123530000039
式中,
Figure FDA00033551235300000310
分别为储能电池荷电状态的上、下限;Esoc(t)为时间t内的储能电池荷电状态;其中Esoc(t)的表达式如下:
Figure FDA00033551235300000311
式中Qbes为储能电池的容量;ηbes为储能电池充/放电系数,如式(10)所示:
Figure FDA00033551235300000312
式中,ηdis和ηch分别为储能电池的放电效率和充电效率;
此外,为保证储能电池能持续稳定运行,一个调度周期初末应保持储能容量相等;所以储能电池充放电应满足约束:
Figure FDA0003355123530000041
式中,
Figure FDA0003355123530000042
为储能电池初始时的荷电状态。
3.如权利要求1或2所述的基于深度强化学习的多园区能源调度方法,其特征在于,步骤S2所述的基于多智能体深度强化学习框架模型,具体包括:
S2-1:综合能源系统环境提供给各智能体的信息一般为园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求;因此综合能源系统园区内的状态空间可以定义为:
S=[ppv(t),Esoc(t),hload(t),pload(t)] (12)
智能体观测到综合能源系统园区内的状态信息后,根据自身策略在动作空间A中选择一个动作;园区内的动作设备,包括燃气轮机、储能电池和电锅炉;对于燃气轮机,其动作是t时段内设备的输出功率pgt(t);对于储能电池,pbes(t)的正负,表示的是t时段内设备的充/放电功率;对于电锅炉,其动作是t时段内设备的输出功率peb(t);因此综合能源系统的动作空间为:
A=[pgt(t),pbes(t),peb(t)] (13)
考虑到深度Q网络算法无法输出连续动作,所以对综合能源系统的动作空间做离散化处理,离散后的动作空间为:
A=[pgt(t),pbes(t),peb(t),|g] (14)
式中,g为离散化的粒度,粒度越大动作空间包含的动作越少,粒度越小动作空间可以描述的动作越多;
S2-2:在深度强化学习中奖励负责引导智能体挖掘状态信息中的决策相关因素并经过提炼后用于动作空间中进行动作选取;
在考虑综合能源系统模型中,系统运行成本来自于向电网购电的成本和购买天然气的成本;据式(1)将系统总成本最小化问题转化为强化学习经典的奖励最大化形式,因此智能体在t时段内的奖励由下式定义:
rt=-(Ce+Cf) (15)
在智能体学习综合能源系统优化调度策略时,有可能会选择不符合系统运行约束条件的动作;面对这种情况需要定义智能体在采取越限动作时的惩罚,通过在奖励函数中增加惩罚项的方式来引导智能体做出正确的决策
在搭建的综合能源系统框架中存在各种设备运行功率上下限约束、储能电池的荷电状态约束以及储能电池在一个调度周期初末需要保持容量相等的约束条件;在这些约束条件中,燃气轮机的输出功率约束、储能电池的充/放电功率约束以及电锅炉的出力约束,在设置智能体动作空间时就已经进行过考量,无需再对其额外处理;而面对其他的约束条件,通过在奖励函数中增加惩罚项的方式进行处理,以使智能体学会合理的调度策略,惩罚项的设置如下式所示:
D=d0+d1+d2 (16)
式中,d0为各设备出力功率越限时的惩罚,其数值大小设置为M,M为一个较小的负数;d1为储能电池出现过充电或过放电时的惩罚,其数值大小同样设置为M;d2惩罚项体现的是储能电池在一个调度周期初末需要保持容量相等的约束,但深度Q网络所能设定的动作空间内只有离散动作,且储能电池在进行充放电动作时受充电/放电效率影响,所以在一个调度周期初末储能电池容量无法达到完全相等;因此定义惩罚项d2为:
Figure FDA0003355123530000051
当调度周期初末电荷状态处于一定误差内时d2等于0,否则d2为一个远小于M的负数;由以上奖励与惩罚项,定义奖励函数为:
Figure FDA0003355123530000052
4.如权利要求1或2所述的基于深度强化学习的多园区能源调度方法,其特征在于,步骤S3所述的基于多智能体深度Q网络的求解方法如下:
S3-1:智能体的训练过程可以概括为“集中学习,分散执行”,属于多智能体训练方案中的并行学习范畴,具有较高的计算效率;此外,多智能体深度Q网络通过探索共享环境,将全局控制动作分配给综合能源系统各个分布式园区内执行协调动作的智能体;具体来说,每个智能体根据自己的局部观察来采取动作,并通过特定状态下所有智能体组合动作的总Q值对动作进行评估;
S3-2:各智能体中的神经网络,其作用是对在状态s下采取动作a的价值,即动作值函数Q(s,a)进行近似:
Q(s,a,θ)≈Q(s,a) (19)
深度Q网络通过Q-learning算法获得神经网络可学习的目标函数,即构建神经网络可优化的损
失函数:
L(θ)=E[(Target Q-Predict Q)2] (20)
式中,θ为神经网络的权重参数;Target Q为目标神经网络输出的目标Q值;Predict Q为预测网络输出的预测Q值;
Predict Q=Q(st,at,θi) (21)
式中,st为t时段的综合能源系统环境状态,即各园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求;at为预测神经网络根据t时段的状态,从动作空间A中选取的调度动作;当综合能源系统执行动作at后,获得奖励rt,同时系统进入下一时段的环境状态;
Figure FDA0003355123530000061
式中,γ为未来的Q值在当前时刻的衰减率;st+1为t+1时段的微能源网环境状态;at+1为目标神经网络根据t+1时段的状态,从动作空间A中选取的使动作值函数Q最大的调度动作;
在获得损失函数后,采用Adam算法(Adaptive moment estimation)算法对神经网络损失函数模型L(θ)的权重参数θ进行求解,并将更新后的权重参数θ复制给预测神经网络;经过固定轮次迭代后,将预测神经网络的相关参数复制给目标网络,保持一段时间内目标Q值不变,降低预测Q值和目标Q值的相关性,提高算法稳定性;
深度Q网络算法具有独特的经验池回放机制,在进行每一步循环操作时会将神经网络和微能源网环境交互得到的样本数据即当前状态、当前选取动作、当前动作获得奖励、下一时刻状态及布尔值存储于经验池中,当需要对预测网络和目标网络训练时,从经验池中随机抽取小批量的历史经验样本数据来对神经网络参数进行训练;
每个经验样本以如下(st,at,rt,st+1,done)五元组的形式存储到经验池中,其中,done为布尔值类型,表示新的状态st+1是否为终止状态;微能源网环境每执行一步后,需要把执行该步所获得的经验信息存储于经验池;在执行数步后,从经验池中随机抽小批量经验样本数据,输入到预测网络和目标网络中;基于抽样的经验样本数据,执行式(22),对预测网络和目标网络中的参数θ、
Figure FDA0003355123530000071
进行更新。
5.如权利要求1或2所述的基于深度强化学习的多园区能源调度方法,其特征在于,步骤S4所述的以分布式园区综合能源系统为算例的仿真,具体包括:
各分布式园区内的智能体,其神经网络结构相同为两层256、128个神经元,在这种神经网络结构下进行训练时,加入惩罚项对智能体所学策略进行约束;
在通过历史数据对智能体神经网络参数进行迭代更新时,当固定间隔达到10000步数,于训练用数据外,采取一组随机光伏设备出力和电、热负荷需求数据为测试集;通过观察智能体在测试集数据上进行实时调度的平均奖励,分析其是否已经学会合理、有效的调度策略,平均奖励的计算方式如式(23)所示:
Figure FDA0003355123530000072
式中N为调度天数;
Figure FDA0003355123530000073
为在调度天数内各智能体神经网络对测试集进行调度所获得的平均奖励总和。
6.实施权利要求1所述的基于深度强化学习的多园区能源调度方法的系统,其特征在于:包括依次连接的分布式园区综合能源系统模型构建模块、分布式园区综合能源系统的多智能体深度强化学习框架搭建模块、分布式园区综合能源系统最优调度策略寻找模块、算法有效性证明模块;其中,
分布式园区综合能源系统模型构建模块,提出一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构,并对各园区之间的能源交互进行设计,分为多园区共享层和单园区消纳层;
分布式园区综合能源系统的多智能体深度强化学习框架搭建模块,在所提架构的基础上,用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题,搭建分布式园区综合能源系统的多智能体深度强化学习框架;
分布式园区综合能源系统最优调度策略寻找模块,以实时奖励函数代替目标函数,利用各园区内的智能体与环境互动,寻找综合能源系统最优调度策略,避免传统能源调度方式中无法实时响应源和荷随机变动的问题;
算法有效性证明模块,将测试集数据用于训练后的智能体进行调度决策,并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较,证明算法的有效性。
CN202111348528.4A 2021-11-15 2021-11-15 基于深度强化学习的多园区能源调度方法和系统 Pending CN114091879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111348528.4A CN114091879A (zh) 2021-11-15 2021-11-15 基于深度强化学习的多园区能源调度方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111348528.4A CN114091879A (zh) 2021-11-15 2021-11-15 基于深度强化学习的多园区能源调度方法和系统

Publications (1)

Publication Number Publication Date
CN114091879A true CN114091879A (zh) 2022-02-25

Family

ID=80300838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111348528.4A Pending CN114091879A (zh) 2021-11-15 2021-11-15 基于深度强化学习的多园区能源调度方法和系统

Country Status (1)

Country Link
CN (1) CN114091879A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611813A (zh) * 2022-03-21 2022-06-10 特斯联科技集团有限公司 基于氢储能的社区热-冷水循环最优调度方法及系统
CN114611823A (zh) * 2022-03-23 2022-06-10 特斯联科技集团有限公司 电-冷-热-气多能需求典型园区的优化调度方法及系统
CN114707711A (zh) * 2022-03-23 2022-07-05 特斯联科技集团有限公司 园区制冷机组多时间尺度最优调度方法及系统
CN114971250A (zh) * 2022-05-17 2022-08-30 重庆大学 基于深度q学习的综合能源经济调度系统
CN115018668A (zh) * 2022-08-09 2022-09-06 东方电子股份有限公司 一种用于园区的可调控能力建模系统
CN115021332A (zh) * 2022-06-17 2022-09-06 南京邮电大学 基于分布式强化学习的多能源安全优化调度方法
CN115409431A (zh) * 2022-10-31 2022-11-29 国网湖北省电力有限公司信息通信公司 一种基于神经网络的分布式电力资源调度方法
CN115528712A (zh) * 2022-11-23 2022-12-27 国网天津市电力公司滨海供电分公司 一种源网荷储备不同区储能容量平衡方法及系统
CN115759604A (zh) * 2022-11-09 2023-03-07 贵州大学 一种综合能源系统优化调度方法
CN116339166A (zh) * 2023-03-30 2023-06-27 淮阴工学院 一种综合能源楼宇能耗智能调控设备
CN116993128A (zh) * 2023-09-26 2023-11-03 国网江西省电力有限公司电力科学研究院 一种综合能源系统深度强化学习低碳调度方法及系统
CN117151308A (zh) * 2023-10-30 2023-12-01 国网浙江省电力有限公司杭州供电公司 基于联邦强化学习的综合能源系统优化调度方法及系统
CN117272842A (zh) * 2023-11-21 2023-12-22 中国电建集团西北勘测设计研究院有限公司 多工业园区综合能源系统的协同控制系统及方法
CN117335439A (zh) * 2023-11-30 2024-01-02 国网浙江省电力有限公司 一种多元负荷资源联合调度方法及系统
CN117455183A (zh) * 2023-11-09 2024-01-26 国能江苏新能源科技开发有限公司 一种基于深度强化学习的综合能源系统优化调度方法
CN117852710A (zh) * 2024-01-08 2024-04-09 山东大学 多园区综合能源系统协同优化调度方法及系统
CN117863948A (zh) * 2024-01-17 2024-04-12 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611813A (zh) * 2022-03-21 2022-06-10 特斯联科技集团有限公司 基于氢储能的社区热-冷水循环最优调度方法及系统
CN114611813B (zh) * 2022-03-21 2022-09-27 特斯联科技集团有限公司 基于氢储能的社区热-冷水循环最优调度方法及系统
CN114611823A (zh) * 2022-03-23 2022-06-10 特斯联科技集团有限公司 电-冷-热-气多能需求典型园区的优化调度方法及系统
CN114707711A (zh) * 2022-03-23 2022-07-05 特斯联科技集团有限公司 园区制冷机组多时间尺度最优调度方法及系统
CN114707711B (zh) * 2022-03-23 2022-09-16 特斯联科技集团有限公司 园区制冷机组多时间尺度最优调度方法及系统
CN114611823B (zh) * 2022-03-23 2022-11-08 特斯联科技集团有限公司 电-冷-热-气多能需求典型园区的优化调度方法及系统
CN114971250A (zh) * 2022-05-17 2022-08-30 重庆大学 基于深度q学习的综合能源经济调度系统
CN114971250B (zh) * 2022-05-17 2024-05-07 重庆大学 基于深度q学习的综合能源经济调度系统
CN115021332A (zh) * 2022-06-17 2022-09-06 南京邮电大学 基于分布式强化学习的多能源安全优化调度方法
CN115018668A (zh) * 2022-08-09 2022-09-06 东方电子股份有限公司 一种用于园区的可调控能力建模系统
CN115409431A (zh) * 2022-10-31 2022-11-29 国网湖北省电力有限公司信息通信公司 一种基于神经网络的分布式电力资源调度方法
CN115409431B (zh) * 2022-10-31 2023-01-24 国网湖北省电力有限公司信息通信公司 一种基于神经网络的分布式电力资源调度方法
CN115759604B (zh) * 2022-11-09 2023-09-19 贵州大学 一种综合能源系统优化调度方法
CN115759604A (zh) * 2022-11-09 2023-03-07 贵州大学 一种综合能源系统优化调度方法
CN115528712A (zh) * 2022-11-23 2022-12-27 国网天津市电力公司滨海供电分公司 一种源网荷储备不同区储能容量平衡方法及系统
CN116339166A (zh) * 2023-03-30 2023-06-27 淮阴工学院 一种综合能源楼宇能耗智能调控设备
CN116339166B (zh) * 2023-03-30 2023-12-19 淮阴工学院 一种综合能源楼宇能耗智能调控设备
CN116993128B (zh) * 2023-09-26 2023-12-26 国网江西省电力有限公司电力科学研究院 一种综合能源系统深度强化学习低碳调度方法及系统
CN116993128A (zh) * 2023-09-26 2023-11-03 国网江西省电力有限公司电力科学研究院 一种综合能源系统深度强化学习低碳调度方法及系统
CN117151308A (zh) * 2023-10-30 2023-12-01 国网浙江省电力有限公司杭州供电公司 基于联邦强化学习的综合能源系统优化调度方法及系统
CN117455183A (zh) * 2023-11-09 2024-01-26 国能江苏新能源科技开发有限公司 一种基于深度强化学习的综合能源系统优化调度方法
CN117272842B (zh) * 2023-11-21 2024-02-27 中国电建集团西北勘测设计研究院有限公司 多工业园区综合能源系统的协同控制系统及方法
CN117272842A (zh) * 2023-11-21 2023-12-22 中国电建集团西北勘测设计研究院有限公司 多工业园区综合能源系统的协同控制系统及方法
CN117335439A (zh) * 2023-11-30 2024-01-02 国网浙江省电力有限公司 一种多元负荷资源联合调度方法及系统
CN117335439B (zh) * 2023-11-30 2024-02-27 国网浙江省电力有限公司 一种多元负荷资源联合调度方法及系统
CN117852710A (zh) * 2024-01-08 2024-04-09 山东大学 多园区综合能源系统协同优化调度方法及系统
CN117863948A (zh) * 2024-01-17 2024-04-12 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置
CN117863948B (zh) * 2024-01-17 2024-06-11 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置

Similar Documents

Publication Publication Date Title
CN114091879A (zh) 基于深度强化学习的多园区能源调度方法和系统
Li et al. Electric vehicle charging management based on deep reinforcement learning
Tan et al. Multi-objective energy management of multiple microgrids under random electric vehicle charging
Hou et al. Multi-objective economic dispatch of a microgrid considering electric vehicle and transferable load
Sun A multi-objective optimization model for fast electric vehicle charging stations with wind, PV power and energy storage
Moghaddam et al. Multi-objective operation management of a renewable MG (micro-grid) with back-up micro-turbine/fuel cell/battery hybrid power source
Machlev et al. A review of optimal control methods for energy storage systems-energy trading, energy balancing and electric vehicles
Lu et al. Smart load scheduling strategy utilising optimal charging of electric vehicles in power grids based on an optimisation algorithm
Kunya et al. Review of economic dispatch in multi-area power system: State-of-the-art and future prospective
CN109050284B (zh) 一种考虑v2g的电动汽车充放电电价优化方法
Chen et al. A battery management strategy in microgrid for personalized customer requirements
Wu et al. Optimizing home energy management and electric vehicle charging with reinforcement learning
Zhang et al. Within-day rolling optimal scheduling problem for active distribution networks by multi-objective evolutionary algorithm based on decomposition integrating with thought of simulated annealing
Wu Machine learning algorithms and applications for sustainable smart grid
Dong et al. Optimal scheduling framework of electricity-gas-heat integrated energy system based on asynchronous advantage actor-critic algorithm
Erick et al. Power flow management in electric vehicles charging station using reinforcement learning
CN115577909A (zh) 考虑价格型需求响应和v2g的园区综合能源系统调度方法
Erick et al. Energy trading in grid-connected PV-battery electric vehicle charging station
Deng et al. Optimal sizing of residential battery energy storage systems for long-term operational planning
CN111313449A (zh) 一种基于机器学习的集群电动汽车功率优化管理方法
Mao et al. Microgrid group control method based on deep learning under cloud edge collaboration
Zhu et al. Optimal scheduling of a wind energy dominated distribution network via a deep reinforcement learning approach
Suleman et al. Smart scheduling of EVs through intelligent home energy management using deep reinforcement learning
CN113807564A (zh) 基于两阶段强化学习的园区微网负荷优化调度方法及系统
CN117543581A (zh) 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination