CN115409645A - 一种基于改进深度强化学习的综合能源系统能量管理方法 - Google Patents

一种基于改进深度强化学习的综合能源系统能量管理方法 Download PDF

Info

Publication number
CN115409645A
CN115409645A CN202210965022.6A CN202210965022A CN115409645A CN 115409645 A CN115409645 A CN 115409645A CN 202210965022 A CN202210965022 A CN 202210965022A CN 115409645 A CN115409645 A CN 115409645A
Authority
CN
China
Prior art keywords
energy
time
energy system
representing
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210965022.6A
Other languages
English (en)
Inventor
肖浩
浦骁威
裴玮
马腾飞
马丽
彭大健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Electrical Engineering of CAS
Original Assignee
Institute of Electrical Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Electrical Engineering of CAS filed Critical Institute of Electrical Engineering of CAS
Priority to CN202210965022.6A priority Critical patent/CN115409645A/zh
Publication of CN115409645A publication Critical patent/CN115409645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于改进深度强化学习的综合能源系统能量管理方法,包括:1)基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建各综合能源系统等值封装模型;2)构建各综合能源系统能量管理策略学习训练所需的强化学习环境;3)采用k优先采样策略代替ε贪心策略改进深度强化学习算法,并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习。本发明通过长短时记忆神经网络的等值建模简化了多综合能源系统互动时的复杂迭代过程,降低了能量管理方案求解难度,同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次,具有更好的收敛性与稳定性。

Description

一种基于改进深度强化学习的综合能源系统能量管理方法
技术领域
本发明属于综合能源系统控制技术领域,具体涉及一种基于改进深度强化学习的综合能源系统能量管理方法。
背景技术
为了推动全球低碳转型的进程,碳排放中占比较大的能源电力行业带来了新的挑战。综合能源系统可以实现电、热、气多能源互补,是优化转型能源结构转型、促进低碳发展目标实现的重要抓手。面向综合能源系统的建设方向正逐步从“源 -源”横向多能互补系统向“源-网-荷-储”纵向一体化的方向发展。合理的对综合能源系统进行能量管理是减小分布式能源波动对电网冲击、促进可再生能源发展应用,以及缓解化石能源紧张、减少碳排放的有效途径。因此,对综合能源系统配置合理有效的能量管理方法对加速推进低碳综合能源系统的建设具有重要意义。
目前,针对综合能源系统的能量管理和优化调度已有大量研究,其中主流方法包括非线性规划、二阶锥规划,混合整数规划等为代表的数学优化类方法,以及遗传算法、粒子群算法为代表的启发式算法。中国发明专利CN111969602A提供一种综合能源系统的日前随机优化调度方法及装置,采用动态规划的并行优化方法求解最小化综合能源系统运行的期望成本为目标的日前随机优化调度模型;虽然数学优化方法理论清晰,且一定程度能保障解的最优性,但此类数学规划模型通常是对供能系统的约束条件做了适当简化,在处理大规模非线性规划问题时具有局限性。中国发明专利CN111463773A提供一种区域型综合能源系统能量管理优化方法和装置,采用蒙特卡罗法进行抽样,并结合遗传算法进行求解,以区域型综合能源系统的能量管理成本最低为目标进行构建优化模型;此类启发式算法虽然求解方便且可以保证在多项式时间内给出较优的结果,但是求解的结果难以保证解的全局最优性。
发明内容
为克服现有技术的缺点,本发明提出一种基于改进深度强化学习的综合能源系统能量管理方法。本发明通过长短时记忆神经网络的等值建模简化了多个综合能源系统互动时的复杂迭代过程,降低了能量管理方案求解难度,同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次,具有更好的收敛性与稳定性;此外,本发明也不需要详细了解各园区内设备的详细参数信息,还可以实现在复杂变化的场景中热、电多元能量管理策略的自适应学习进化,提升综合能源系统的运行经济性。
为达到上述目的,本发明采用的技术方案为:
一种基于改进深度强化学习的综合能源系统能量管理方法,主要包括以下步骤:
步骤(1):基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型;
步骤(2):构建综合能源系统能量管理策略学习训练所需的强化学习环境;
步骤(3):采用k优先采样策略,并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习。
进一步地,所述步骤(1)中,基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型,步骤如下:
步骤(1-1):选取长短时记忆神经网络模型的输入变量和输出变量
综合能源系统的历史运行数据主要包括:风电机组、光伏机组等这些不可控型分布式可再生能源发电机组的出力,微燃机、燃料电池等可控型分布式发电机组的出力,电负荷,热负荷,电能交易价格,热能交易价格,电能交易额以及热能交易额。出于优化运行和协调运行的需要,输出变量选择综合能源系统的电能交易额和热能交易额,其余变量作为输入变量;
步骤(1-2):数据处理,统计综合能源系统的历史运行数据,对其进行数据标幺化、训练集与测试集的划分等预处理;
Figure BDA0003794510110000021
式(1)中,D表示历史运行数据组成的数据集;X表示一组所有变量构成的列向量,d表示第d天,M表示总共的天数;t表示一天中的第t个时段,N通常为24,表示一天24个时段;Du表示标幺化后的历史数据;min(·)表示取最小值函数,max(·)表示取最大值函数;
Figure BDA0003794510110000022
表示标幺化后从历史数据中取出的训练集,
Figure BDA0003794510110000023
表示标幺化后从历史数据中取出的测试集,ε表示训练集占总数据集的比例;
步骤(1-3):训练长短时记忆神经网络模型:
采用长短期记忆神经网络,基于反向传播的小批量梯度下降法对训练集数据进行学习训练:
Figure BDA0003794510110000031
式(2)中,xt代表第t个时段从训练数据集中取出的数据集合;ht-1代表第t个时段之前累积;ft代表当前迭代第t个时段对应的遗忘门输出,wf和bf为遗忘层中各神经元的权值系数和偏置系数,σ(·)代表s型曲线函数,it代表第t个时段输入层的输出,wi和bi为输入层中各神经元的权值系数和偏置系数,
Figure BDA0003794510110000032
代表第t个时段卷积层的预估输出,wc和bc为卷积层中各神经元的权值系数和偏置系数,tanh(·)代表双曲正切函数,ct代表当第t个时段卷积层的实际输出,ot代表第t个时段输出层输出,wo和bo为输出层中各神经元的权值系数和偏置系数, ht代表当第t个时段实际输出;
步骤(1-4):长短时记忆神经网络模型效果评估:
使用测试集对长短时记忆神经网络模型进行测试,采用均方根误差进行效果评估;
Figure BDA0003794510110000033
式(3)中,RMSE表示模型预测值与真实值的均方根误差,xtest表示测试集中网络的输入变量,ytest表示测试集中网络的输出变量,net表示训练好的网络函数。
进一步地,所述步骤(2)中,构建综合能源系统能量管理策略学习训练所需的强化学习环境的步骤如下:
步骤(2-1):设定状态空间:
将每个综合能源系统的控制中心视作一个智能体,所述智能体可观测到的状态空间为:
S=SC×SX×ST (4)
式(4)中,SC代表可控观测量,SX代表不可控观测量,ST代表时序信息观测量;
可控观测量包括综合能源系统内部分布式储储能状态量SoCt,TCL负荷的状态量SoTt以及市场价格水平Ct,可观测量如下式所示:
SC=[SoCt,SoTt,Cb t] (5)
式(5)中,不可控观测量包括温度Tt,分布式能源提供的电能Gt,分布式能源提供的热能 Ht,与其它综合能源系统的能源交易价格
Figure BDA0003794510110000041
以及电负荷
Figure BDA0003794510110000042
与热负荷
Figure BDA0003794510110000043
不可观测量如式(6) 所示:
Figure BDA0003794510110000044
时序信息观测量包括当前天数td,当前小时th,如式(7)所示:
ST=[td,th] (7)
步骤(2-2):设定动作空间:
所述智能体的动作空间为一个10维的离散空间,该动作空间主要包括对电能的控制Ae以及对热能的控制Ah,如式(8)所示:
A=Ae×Ah (8)
对电能的控制动作为:
Ae=[atcl,al,ac,aG,ap,as] (9)
式(9)中,atcl为TCL负荷的控制信号,al为价格响应型电负荷的控制信息,ac为分布式储能罐的充放电控制信号,aG为燃气轮机的发电功率控制信号,ap为电能交易价格控制信号, as为电能交易顺序控制信号;
对热能的控制动作为:
Ah=[ahc,ahG,ahp,ahs] (10)
式(10)中,ahc为储热罐的控制信号,ahG为锅炉补燃控制信号,ahp为热能交易价格控制信号,ahs为热能交易顺序控制信号。
步骤(2-3):设定奖励函数:
为了使每个综合能源系统的能源管理方案负荷自身利益最大化的目标,设定的奖励函数如下:
Rt=St-Ct+Pent (11)
式(11)中,St为出售能源所获的收益,Ct为获得能源的成本,Pent为惩罚项;
Figure BDA0003794510110000045
式(12)中,出售能源的收益St主要来自向综合能源系统内部用户以及其它综合能源系统; Nl为综合能源系统内部负荷用户数量,Li t为第i个用户在t时刻的电负荷大小,Li h,t为第i个用户在t时刻的热负荷大小,Pt为在t时刻的售电价格,Ph,t为在t时刻的热能出售价格;Na为可交易综合能源系统数量,Pj t为在t时刻向第j个综合能源系统的电能出售价格,Ej t为在 t时刻向第j个综合能源系统出售的电能大小,Pj h,t为在t时刻向第j个综合能源系统的热能出售价格,Hj t为在t时刻向第j个综合能源系统出售的热能大小;
Figure BDA0003794510110000051
式(13)中,获取能源的成本Ct主要来自分布式能源的发电、产热成本以及向其它综合能源系统的购买成本;Ce为发电成本,Gt为t时刻微燃机的发电量,Ch为热能成本,Ht为t时刻锅炉补燃提供的热能,Pk t为在t时刻向第k个综合能源系统的电能购买价格,Ek t为在t时刻向第k个综合能源系统购买的电能大小,Pk h,t为在t时刻向第k个综合能源系统的热能购买价格,Hk t为在t时刻向第k个综合能源系统购买的热能大小;
Figure BDA0003794510110000052
式(14)中,λ为惩罚系数,在每天的非起始时刻惩罚项始终为0,在每天的最后一个时刻根据与当天初始时刻的SoC差值确定惩罚项。
进一步地,所述步骤(3)中,采用k优先采样策略,并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习的步骤如下:
步骤(3-1):初始化经验池以及Q网络参数:
随机初始化智能体的动作,并记录智能体的状态转移过程,将智能体的当前状态,当前采取的动作,下一状态,奖励函数存入经验池,直至填满经验池。同时,初始化目标Q网络的权重;
步骤(3-2):获取当前环境状态st
取当前时段内综合能源系统中的风电机组出力、光伏机组出力,分布式储能状态,电负荷大小,热负荷大小,实时电交易价格以及实时热交易价格,作为智能体可观测的环境状态 st
步骤(3-3):用k优先采样策略改进深度强化学习算法,选择当前动作at
k-优先采样策略先根据所有动作的Q值挑选出k个最高Q值的候选动作,接着根据softmax函数计算出k个候选动作的归一化得分,最后按照符合归一化得分的概率分布完成动作的选取。
k-优先采样策略的数学表达式为:
Figure BDA0003794510110000053
式(15)中,s为当前智能体所处的状态;a为智能体可选的动作;π(a|s)为策略函数,用于描述状态s下选择动作a的概率;Q(s,a)为状态s与动作a构成的动作价值函数;ak∈A*, A*为所有动作价值Q(s,a)中最高的k个动作所构成的集合,其表达式为:
Figure BDA0003794510110000061
式(16)中,
Figure BDA0003794510110000062
代表全体动作集合中动作价值函数最大的k个动作;
步骤(3-4):更新经验池:
执行根据k-优先采用策略获得的当前动作at,获得下一时刻的状态st+1以及奖励值rt,将状态转移过程以(st,at,rt,st+1)的形式存储至经验池,若经验池已经填满则删除最早的经验记录,若经验池没有填满则进行下一步;
步骤(3-5):更新Q网络参数:
从经验池中随机抽取N个数据(si,ai,ri,si+1),计算目标网络预测值:
yi=ri+γmaxaQω′(si+1,a) (17)
式(17)中,yi代表第i个样本目标网络预测值,γ为衰减系数,Qω′(si+1,a)为目标网络计算出的si+1状态下的动作价值函数,
Figure BDA0003794510110000063
代表目标网络参数;
用梯度下降法更新Q网络参数,最小化损失函数为:
Figure BDA0003794510110000064
式(18)中,Qω(si,ai)为评估网络计算出的si状态下的动作价值函数,
Figure BDA0003794510110000065
代表评估网络参数;
最后,重复步骤(3-2)~步骤(3-5)直至达到最大训练次数。
有益效果:
本发明通过长短时记忆神经网络的等值建模简化了多个综合能源系统互动时的复杂迭代过程,降低了能量管理方案求解难度,同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次,具有更好的收敛性与稳定性;此外,本发明也不需要详细了解各综合能源系统内设备的详细参数信息,还可以实现在复杂变化的场景中热、电多元能量管理策略的自适应学习进化,提升综合能源系统的运行经济性。相较传统的数学优化类方法,本发明无需对综合能源系统的约束条件进行简化,能够完整反映综合能源系统的动态特性,求解结果更加精准,能够适用于复杂的非线性场景;相较启发式算法,本发收敛性能更佳,同时可以适用于不同的场景,无需重新训练模型,可以实现实时能量管理的功能。
附图说明
图1为本发明的基于改进深度强化学习算法的综合能源系统管理方法流程图;
图2为本发明的改进深度强化学习算法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基于改进深度强化学习算法的园区综合能源系统能量管理方法,主要包括以下步骤:
步骤1:基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型;
步骤2:构建综合能源系统能量管理策略学习训练所需的强化学习环境;
步骤3:采用k优先采样策略,并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习。
本发明具体实施流程如图1所示,包括以下步骤:
步骤1、基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型,具体包括:
(1-1)选取长短时记忆神经网络模型的输入变量和输出变量。
综合能源系统的历史运行数据主要包括:风电机组、光伏机组等这些不可控型分布式可再生能源发电机组的出力,微燃机、燃料电池等可控型分布式发电机组的出力,电负荷,热负荷,电能交易价格,热能交易价格,电能交易额以及热能交易额。出于优化运行和协调运行的需要,输出变量选择综合能源系统的电能交易额和热能交易额,其余变量作为输入变量;
(1-2)数据处理,统计各个综合能源系统历史运行数据,对其进行数据标幺化、训练集与测试集的划分等预处理;
Figure BDA0003794510110000071
式(1)中,D表示历史运行数据组成的数据集;X表示一组所有变量构成的列向量,d表示第d天,M表示总共的天数;t表示一天中的第t个时段,N通常为24,表示一天24个时段;Du表示标幺化后的历史数据;min(·)表示取最小值函数,max(·)表示取最大值函数;
Figure BDA0003794510110000081
表示标幺化后从历史数据中取出的训练集,
Figure BDA0003794510110000082
表示标幺化后从历史数据中取出的测试集,ε表示训练集占总数据集的比例;
(1-3)训练长短时记忆神经网络模型。
采用长短期记忆神经网络,基于反向传播的小批量梯度下降法对训练集的数据进行学习训练:
Figure BDA0003794510110000083
式(2)中,xt代表第t个时段从训练数据集中取出的数据集合;ht-1代表第t个时段之前累积;ft代表当前迭代第t个时段对应的遗忘门输出,wf和bf为遗忘层中各神经元的权值系数和偏置系数,σ(·)代表s型曲线函数,it代表第t个时段输入层的输出,wi和bi为输入层中各神经元的权值系数和偏置系数,
Figure BDA0003794510110000084
代表第t个时段卷积层的预估输出,wc和bc为卷积层中各神经元的权值系数和偏置系数,tanh(·)代表双曲正切函数,ct代表当第t个时段卷积层的实际输出,ot代表第t个时段输出层输出,wo和bo为输出层中各神经元的权值系数和偏置系数, ht代表当第t个时段实际输出;
(1-4)进行长短时记忆神经网络模型效果评估。
使用测试集对长短时记忆神经网络模型进行测试,采用均方根误差进行效果评估;
Figure BDA0003794510110000085
式(3)中,RMSE表示模型预测值与真实值的均方根误差,xtest表示测试集中网络的输入变量,ytest表示测试集中网络的输出变量,net表示训练好的网络函数。
步骤2、构建综合能源系统能量管理策略学习训练所需的强化学习环境,具体包括:
(2-1)设定状态空间:
智能体可观测到的状态空间为:
S=SC×SX×ST (4)
式(4)中,SC代表可控观测量,SX代表不可控观测量,ST代表时序信息观测量;
可控观测量包括综合能源系统内部分布式储能状态量SoCt,TCL负荷的状态量SoTt以及市场价格水平Ct,可观测量如下式所示:
SC=[SoCt,SoTt,Cb t] (5)
不可控观测量包括温度Tt,分布式能源提供的电能Gt,分布式能源提供的热能Ht,与其它综合能源系统的能源交易价格
Figure BDA0003794510110000091
以及电负荷
Figure BDA0003794510110000092
与热负荷
Figure BDA0003794510110000093
不可观测量如式(6)所示:
Figure BDA0003794510110000094
时序信息观测量包括当前天数td,当前小时th,如式(7)所示:
ST=[td,th] (7)
(2-2)设定动作空间:
将每个综合能源系统的控制中心视作一个智能体,其动作空间为一个10维的离散空间,该动作空间A主要包括对电能的控制Ae以及对热能的控制Ah,如式(8)所示:
A=Ae×Ah (8)
对电能的控制动作为:
Ae=[atcl,al,ac,aG,ap,as] (9)
式(9)中,atcl为TCL负荷的控制信号,al为价格响应型电负荷的控制信息,ac为分布式储能罐的充放电控制信号,aG为燃气轮机的发电功率控制信号,ap为电能交易价格控制信号, as为电能交易顺序控制信号;
对热能的控制动作为:
Ah=[ahc,ahG,ahp,ahs] (10)
式(10)中,ahc为储热罐的控制信号,ahG为锅炉补燃控制信号,ahp为热能交易价格控制信号,ahs为热能交易顺序控制信号。
(2-3)设定奖励函数:
为了使每个综合能源系统的能源管理方案负荷自身利益最大化的目标,设定的奖励函数如下:
Rt=St-Ct+Pent (11)
式(11)中,St为出售能源所获的收益,Ct为获得能源的成本,Pent为惩罚项;
Figure BDA0003794510110000095
式(12)中,出售能源的收益St主要来自向综合能源系统内部用户以及其它综合能源系统;Nl为综合能源系统内部负荷用户数量,Li t为第i个用户在t时刻的电负荷大小,Li h,t为第i个用户在t时刻的热负荷大小,Pt为在t时刻的售电价格,Ph,t为在t时刻的热能出售价格;Na为可交易综合能源系统数量,Pj t为在t时刻向第j个综合能源系统的电能出售价格,Ej t为在 t时刻向第j个综合能源系统出售的电能大小,Pj h,t为在t时刻向第j个综合能源系统的热能出售价格,Hj t为在t时刻向第j个综合能源系统出售的热能大小;
Figure BDA0003794510110000101
式(13)中,获取能源的成本Ct主要来自分布式能源的发电、产热成本以及向其它综合能源系统的购买成本;Ce为发电成本,Gt为t时刻微燃机的发电量,Ch为热能成本,Ht为t时刻锅炉补燃提供的热能,Pk t为在t时刻向第k个综合能源系统的电能购买价格,Ek t为在t时刻向第k个综合能源系统购买的电能大小,Pk h,t为在t时刻向第k个综合能源系统的热能购买价格,Hk t为在t时刻向第k个综合能源系统购买的热能大小;
Figure BDA0003794510110000102
式(14)中,λ为惩罚系数,在每天的非起始时刻惩罚项始终为0,在每天的最后一个时刻根据与当天初始时刻的SoC差值确定惩罚项。
步骤3.采用k优先采样策略代替ε贪心策略改进深度强化学习算法,并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习,具体包括:
(3-1)初始化经验池以及Q网络参数:
随机初始化综合能源系统能量管理智能体的动作,并记录智能体的状态转移过程,将综合能源系统能量管理智能体的当前状态,当前采取的动作,下一状态,奖励函数存入经验池,直至填满经验池。同时,初始化Q网络的权重;在强化学习中,Q(s,a)函数用作表征在状态 s下采用动作a所能获得的累计期望回报,而在状态空间连续的情况下通常无法有效维护Q 表,需要使用值函数近似的方式来逼近Q函数。Q网络为使用神经网络来近似Q值的方法,同时为了避免频繁更新网络带来的Q值不稳定,采用两套Q网络进行交替更新。其中评估 Q网络的参数初始化为
Figure BDA0003794510110000103
目标Q网络的参数初始化为
Figure BDA0003794510110000104
评估Q网络每步都进行更新,目标Q网络每隔一定时长进行更新。
(3-2)获取当前环境状态st
取当前时段内综合能源系统中的风电机组出力、光伏机组出力,分布式储能状态,电负荷大小,热负荷大小,实时电交易价格以及实时热交易价格,作为智能体可观测的环境状态 st
(3-3)用k优先采样策略改进深度强化学习算法,选择当前动作at
传统深度强化学习方法使用的是ε贪心策略,即每次选择动作时以1-ε的概率选择最优动作,以ε的概率探索其他动作,其策略函数为:
Figure BDA0003794510110000111
式(15)中,a*=argmaxa Q(s,a),代表贪心动作;ε贪心策略在小规模动作空间中有助于遍历动作空间,平衡策略的探索率与利用率;s为当前智能体所处的状态;a为智能体可选的动作;π(a|s)为策略函数,用于描述状态s下选择动作a的概率。该策略仅适用于低维离散动作空间的强化学习环境,在面对大规模离散动作空间时会面临探索效率低下,收敛速度慢且容易收敛于次优解的问题。这是由于在高维离散的动作空间中,传统的ε贪心策略在采取非贪心策略探索时过于低效,无法有效更新Q值网络参数。为此,本发明提出一种针对大规模离散动作空间下的k优先采样策略。
本发明的改进深度强化学习算法的流程图如图2所示:
k-优先采样策略先根据所有动作的Q值挑选出k个最高Q值的候选动作,接着根据softmax函数计算出k个候选动作的归一化得分,最后按照符合归一化得分的概率分布完成动作的选取。
k-优先采样策略的数学表达式为:
Figure BDA0003794510110000112
式(16)中,s为当前智能体所处的状态;a为智能体可选的动作;π(a|s)为策略函数,用于描述状态s下选择动作a的概率;Q(s,a)为状态s与动作a构成的动作价值函数;ak∈A*, A*为所有动作价值Q(s,a)中最高的k个动作所构成的集合,其表达式为:
Figure BDA0003794510110000113
式(17)中,
Figure BDA0003794510110000114
代表全体动作集合中动作价值函数最大的k个动作;
(3-4)更新经验池:
执行根据k-优先采用策略获得的当前动作at,获得下一时刻的状态st+1以及奖励值rt,将状态转移过程以(st,at,rt,st+1)的形式存储至经验池,若经验池已经填满则删除最早的经验记录,若经验池没有填满则进行下一步;
(3-5)更新Q网络参数:
从经验池中随机抽取N个数据(si,ai,ri,si+1),计算目标网络预测值:
yi=ri+γmaxa Qω′(si+1,a) (18)
式(18)中,yi代表第i个样本目标网络预测值,γ为衰减系数,Qω′(si+1,a)为目标网络计算出的si+1状态下的动作价值函数,
Figure BDA0003794510110000121
代表目标网络参数;
用梯度下降法更新Q网络参数,最小化损失函数为:
Figure BDA0003794510110000122
式(19)中,Qω(si,ai)为评估网络计算出的si状态下的动作价值函数,
Figure BDA0003794510110000123
代表评估网络参数;
最后,重复步骤(3-2)~步骤(3-5)直至达到最大训练次数。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于改进深度强化学习的综合能源系统能量管理方法,其特征在于,包括以下步骤:
步骤(1):基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型;
步骤(2):构建各综合能源系统能量管理策略学习训练所需的强化学习环境;
步骤(3):采用k优先采样策略,并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习。
2.如权利要求1所述的一种基于改进深度强化学习的综合能源系统能量管理方法,其特征在于,所述步骤(1)具体包括如下步骤:
步骤(1-1)选取长短时记忆神经网络模型的输入变量和输出变量:
所述综合能源系统的历史运行数据包括风电机组、光伏机组的不可控型分布式可再生发电机组的出力,包括微燃机、燃料电池的可控型分布式发电机组的出力,电负荷,热负荷,电能交易价格,热能交易价格,电能交易额以及热能交易额;输出变量选择综合能源系统的电能交易额和热能交易额,其余变量作为输入变量;
步骤(1-2)进行数据处理,统计各个综合能源系统的历史运行数据,对其进行数据标幺化、训练集与测试集的划分;
Figure FDA0003794510100000011
式中,D表示历史运行数据组成的数据集;X表示一组所有变量构成的列向量,d表示第d天,M表示总共的天数;t表示一天中的第t个时段,N通常为24,表示一天24个时段;Du表示标幺化后的历史数据;min(·)表示取最小值函数,max(·)表示取最大值函数;
Figure FDA0003794510100000012
表示标幺化后从历史数据中取出的训练集,
Figure FDA0003794510100000013
表示标幺化后从历史数据中取出的测试集,ε表示训练集占总数据集的比例;
步骤(1-3)训练长短时记忆神经网络模型:
采用长短期记忆神经网络,基于反向传播的小批量梯度下降法对训练集数据进行学习训练:
Figure FDA0003794510100000021
式中,xt代表第t个时段从训练数据集中取出的数据集合;ht-1代表第t个时段之前累积;ft代表当前迭代第t个时段对应的遗忘门输出,wf和bf为遗忘层中各神经元的权值系数和偏置系数,σ(·)代表s型曲线函数,it代表第t个时段输入层的输出,wi和bi为输入层中各神经元的权值系数和偏置系数,
Figure FDA0003794510100000022
代表第t个时段卷积层的预估输出,wc和bc为卷积层中各神经元的权值系数和偏置系数,tanh(·)代表双曲正切函数,ct代表当第t个时段卷积层的实际输出,ot代表第t个时段输出层输出,wo和bo为输出层中各神经元的权值系数和偏置系数,ht代表当第t个时段实际输出;
步骤(1-4)进行长短时记忆神经网络模型效果评估:
使用测试集对长短时记忆神经网络模型进行测试,采用均方根误差进行效果评估;
Figure FDA0003794510100000023
式中,RMSE表示模型预测值与真实值的均方根误差,xtest表示测试集中网络的输入变量,ytest表示测试集中网络的输出变量,net表示训练好的网络函数。
3.如权利要求2所述的一种基于改进深度强化学习的综合能源系统能量管理方法,其特征在于,所述步骤(2)中具体包括如下步骤:
步骤(2-1)设定状态空间:
将每个综合能源系统的控制中心视作一个智能体,所述智能体可观测到的状态空间为:
S=SC×SX×ST
式中,SC代表可控观测量,SX代表不可控观测量,ST代表时序信息观测量;
可控观测量包括综合能源系统内部分布式储储能状态量SoCt,TCL负荷的状态量SoTt以及市场价格水平Ct,可观测量如下式所示:
SC=[SoCt,SoTt,Cb t]
不可控观测量包括温度Tt,分布式能源提供的电能Gt,分布式能源提供的热能Ht,与不同综合能源系统的能源交易价格
Figure FDA0003794510100000031
以及电负荷
Figure FDA0003794510100000032
与热负荷
Figure FDA0003794510100000033
不可观测量如下式所示:
Figure FDA0003794510100000034
时序信息观测量包括当前天数td,当前小时th,如下式所示:
ST=[td,th]
步骤(2-2)设定动作空间:
所述智能体的动作空间为一个10维的离散空间,该动作空间A包括对电能的控制Ae以及对热能的控制Ah,如下式所示:
A=Ae×Ah
对电能的控制动作为:
Ae=[atcl,al,ac,aG,ap,as]
式中,atcl为TCL负荷的控制信号,al为价格响应型电负荷的控制信息,ac为分布式储能罐的充放电控制信号,aG为燃气轮机的发电功率控制信号,ap为电能交易价格控制信号,as为电能交易顺序控制信号;
对热能的控制动作为:
Ah=[ahc,ahG,ahp,ahs]
式中,ahc为储热罐的控制信号,ahG为锅炉补燃控制信号,ahp为热能交易价格控制信号,ahs为热能交易顺序控制信号;
步骤(2-3)设定奖励函数:
为了使每个综合能源系统的能源管理方案负荷自身利益最大化的目标,设定奖励函数如下:
Rt=St-Ct+Pent
式中,St为出售能源所获的收益,Ct为获得能源的成本,Pent为惩罚项;
Figure FDA0003794510100000035
式中,出售能源的收益St主要来自向综合能源系统内部用户以及其他综合能源系统;Nl为综合能源系统内部负荷用户数量,Li t为第i个用户在t时刻的电负荷大小,Li h,t为第i个用户在t时刻的热负荷大小,Pt为在t时刻的售电价格,Ph,t为在t时刻的热能出售价格;Na为可交易综合能源系统数量,Pj t为在t时刻向第j个综合能源系统的电能出售价格,Ej t为在t时刻向第j个综合能源系统出售的电能大小,Pj h,t为在t时刻向第j个综合能源系统的热能出售价格,Hj t为在t时刻向第j个综合能源系统出售的热能大小;
Figure FDA0003794510100000036
式中,获取能源的成本Ct主要来自分布式能源的发电、产热成本以及向其他综合能源系统的购买成本;Ce为发电成本,Gt为t时刻微燃机的发电量,Ch为热能成本,Ht为t时刻锅炉补燃提供的热能,Pk t为在t时刻向第k个综合能源系统的电能购买价格,Ek t为在t时刻向第k个综合能源系统购买的电能大小,Pk h,t为在t时刻向第k个综合能源系统的热能购买价格,Hk t为在t时刻向第k个综合能源系统购买的热能大小;
Figure FDA0003794510100000041
式中,λ为惩罚系数,在每天的非起始时刻惩罚项始终为0,在每天的最后一个时刻根据与当天初始时刻的SoC差值确定惩罚项。
4.如权利要求3所述的一种基于改进深度强化学习的综合能源系统能量管理方法,其特征在于,所述步骤(3)具体包括如下步骤:
步骤(3-1)初始化经验池以及Q网络参数:
随机初始化智能体的动作,并记录智能体的状态转移过程,将智能体的当前状态,当前采取的动作,下一状态,奖励函数存入经验池,直至填满经验池;同时,初始化目标Q网络的权重;
步骤(3-2)获取当前环境状态st
取当前时段内综合能源系统中的风电机组出力、光伏机组出力,分布式储能状态,电负荷大小,热负荷大小,实时电交易价格以及实时热交易价格,作为智能体可观测的环境状态st
步骤(3-3)用k优先采样策略改进深度强化学习算法,选择当前动作at
k-优先采样策略先根据所有动作的Q值挑选出k个最高Q值的候选动作,接着根据softmax函数计算出k个候选动作的归一化得分,最后按照符合归一化得分的概率分布完成动作的选取;
k-优先采样策略的数学表达式为:
Figure FDA0003794510100000042
式中,s为当前智能体所处的状态;a为智能体可选的动作;π(a|s)为策略函数,用于描述状态s下选择动作a的概率;Q(s,a)为状态s与动作a构成的动作价值函数;ak∈A*,A*为所有动作价值Q(s,a)中最高的k个动作所构成的集合,其表达式为:
Figure FDA0003794510100000051
式中,
Figure FDA0003794510100000052
代表全体动作集合中动作价值函数最大的k个动作;
步骤(3-4)更新经验池:
执行k-优先策略获得的当前动作at,获得下一时刻的状态st+1以及奖励值rt,将状态转移过程以(st,at,rt,st+1)的形式存储至经验池,若经验池已经填满则删除最早的经验记录,若经验池没有填满则进行下一步;
步骤(3-5)更新Q网络参数:
从经验池中随机抽取N个数据(si,ai,ri,si+1),计算目标网络预测值:
yi=ri+γmaxaQω′(si+1,a)
式中,yi代表第i个样本目标网络预测值,γ为衰减系数,Qω′(si+1,a)为目标网络计算出的si+1状态下的动作价值函数,
Figure FDA0003794510100000053
代表目标网络参数;
用梯度下降法更新Q网络参数,最小化损失函数为:
Figure FDA0003794510100000054
式中,Qω(si,ai)为评估网络计算出的si状态下的动作价值函数,
Figure FDA0003794510100000055
代表评估网络参数;
最后,重复步骤(3-2)~步骤(3-5)直至达到最大训练次数。
CN202210965022.6A 2022-08-12 2022-08-12 一种基于改进深度强化学习的综合能源系统能量管理方法 Pending CN115409645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210965022.6A CN115409645A (zh) 2022-08-12 2022-08-12 一种基于改进深度强化学习的综合能源系统能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210965022.6A CN115409645A (zh) 2022-08-12 2022-08-12 一种基于改进深度强化学习的综合能源系统能量管理方法

Publications (1)

Publication Number Publication Date
CN115409645A true CN115409645A (zh) 2022-11-29

Family

ID=84159220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210965022.6A Pending CN115409645A (zh) 2022-08-12 2022-08-12 一种基于改进深度强化学习的综合能源系统能量管理方法

Country Status (1)

Country Link
CN (1) CN115409645A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187601A (zh) * 2023-05-04 2023-05-30 华北理工大学 一种基于负荷预测的综合能源系统运行优化方法
CN117726133A (zh) * 2023-12-29 2024-03-19 国网江苏省电力有限公司信息通信分公司 一种基于强化学习的分布式能源实时调度方法及系统
CN117744894A (zh) * 2024-02-19 2024-03-22 中国科学院电工研究所 一种综合能源系统的主动学习代理优化方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187601A (zh) * 2023-05-04 2023-05-30 华北理工大学 一种基于负荷预测的综合能源系统运行优化方法
CN116187601B (zh) * 2023-05-04 2023-06-23 华北理工大学 一种基于负荷预测的综合能源系统运行优化方法
CN117726133A (zh) * 2023-12-29 2024-03-19 国网江苏省电力有限公司信息通信分公司 一种基于强化学习的分布式能源实时调度方法及系统
CN117744894A (zh) * 2024-02-19 2024-03-22 中国科学院电工研究所 一种综合能源系统的主动学习代理优化方法
CN117744894B (zh) * 2024-02-19 2024-05-28 中国科学院电工研究所 一种综合能源系统的主动学习代理优化方法

Similar Documents

Publication Publication Date Title
CN109347149B (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
CN112614009B (zh) 一种基于深度期望q-学习的电网能量管理方法及系统
CN115409645A (zh) 一种基于改进深度强化学习的综合能源系统能量管理方法
CN109361237B (zh) 基于改进混合粒子群算法的微电网容量优化配置方法
CN112131733B (zh) 计及电动汽车充电负荷影响的分布式电源规划方法
CN108206543A (zh) 一种基于能源梯级利用的能源路由器及其运行优化方法
CN110264012A (zh) 基于经验模态分解的可再生能源功率组合预测方法及系统
CN115130785A (zh) 一种可再生能源制氢系统容量优化配置方法
CN114784823A (zh) 基于深度确定性策略梯度的微电网频率控制方法及系统
CN113794199A (zh) 一种考虑电力市场波动的风电储能系统最大收益优化方法
Safari et al. Optimal load sharing strategy for a wind/diesel/battery hybrid power system based on imperialist competitive neural network algorithm
CN114723230A (zh) 面向新能源发电和储能的微电网双层调度方法及系统
CN114611772A (zh) 一种基于多智能体强化学习的多微网系统协同优化方法
CN112072643A (zh) 一种基于深度确定性梯度策略的光-蓄系统在线调度方法
CN115759604A (zh) 一种综合能源系统优化调度方法
Zhang et al. Physical-model-free intelligent energy management for a grid-connected hybrid wind-microturbine-PV-EV energy system via deep reinforcement learning approach
Tan et al. Low‐carbon economic dispatch of the combined heat and power‐virtual power plants: A improved deep reinforcement learning‐based approach
CN114169916A (zh) 一种适应新型电力系统的市场成员报价策略制定方法
CN114239372A (zh) 一种考虑机组组合的多目标机组检修双层优化方法和系统
Dou et al. Double‐deck optimal schedule of micro‐grid based on demand‐side response
CN114188987A (zh) 大规模可再生能源送端系统的共享储能优化配置方法
CN117291390A (zh) 一种基于SumTree-TD3算法的调度决策模型建立方法
CN117543581A (zh) 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用
CN117691586A (zh) 基于行为克隆的新能源基地微电网优化运行方法及系统
CN117595392A (zh) 计及光伏消纳与光储充配置的配电网联合优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination