CN113572157A - 一种基于近端策略优化的用户实时自治能量管理优化方法 - Google Patents

一种基于近端策略优化的用户实时自治能量管理优化方法 Download PDF

Info

Publication number
CN113572157A
CN113572157A CN202110848508.7A CN202110848508A CN113572157A CN 113572157 A CN113572157 A CN 113572157A CN 202110848508 A CN202110848508 A CN 202110848508A CN 113572157 A CN113572157 A CN 113572157A
Authority
CN
China
Prior art keywords
time
energy management
formula
strategy
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110848508.7A
Other languages
English (en)
Other versions
CN113572157B (zh
Inventor
叶宇剑
王卉宇
汤奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110848508.7A priority Critical patent/CN113572157B/zh
Publication of CN113572157A publication Critical patent/CN113572157A/zh
Application granted granted Critical
Publication of CN113572157B publication Critical patent/CN113572157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/14Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading
    • H02J3/144Demand-response operation of the power transmission or distribution network
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • H02J3/322Arrangements for balancing of the load in a network by storage of energy using batteries with converting means the battery being on-board an electric or hybrid vehicle, e.g. vehicle to grid arrangements [V2G], power aggregation, use of the battery for network load balancing, coordinated or cooperative battery charging
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/30Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
    • Y02B70/3225Demand response systems, e.g. load shedding, peak shaving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/20End-user application control systems
    • Y04S20/222Demand response systems, e.g. load shedding, peak shaving

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种基于近端策略优化的用户实时自治能量管理优化方法,管理优化方法包括S1:对用户DER设备进行分类和建模;S2:基于S1中对用户DER设备的分类及建模,将用户实时自治能量管理优化问题建模为序贯决策问题;S3:利用长短期记忆神经网络提取实时的时序数据的未来走势,辅助步骤S4和S5中深度强化学习进行策略优化;S4:将S3中提取的未来走势和能量管理智能体观测的内部状态特征输入到基于深度神经网络的策略函数,赋能能量管理智能同时学习离散与连续动作,实现对各设备的控制;S5:采用基于近端策略优化算法赋能在S4中的离散与连续动作中学习能量管理优化策略。本发明管理优化方法最小化用电成本的同时提升策略对不确定性的适应性。

Description

一种基于近端策略优化的用户实时自治能量管理优化方法
技术领域
本发明涉及家庭能量管理领域,具体是一种基于近端策略优化的用户实时自治能量管理优化方法。
背景技术
近年来,随着分布式光伏、电动汽车等柔性负荷及储能等分布式资源在居民智能用电的广泛普及,居民的能量管理和优化控制面临着由各类不确定性因素带来的挑战。与此同时,智能电表和通信等技术的快速发展为监测和控制居民用户分布式设备提供了关键的技术支撑,大数据和人工智能技术的发展则为能量管理优化提供了由数据驱动的新途径。
家庭能量管理系统作为能量管理技术在用户侧的体现,能够有效管理用户电能的生产、使用及存储过程。现有大部分文献采用基于模型的优化方法作为家庭能量管理优化问题的技术路线。然而,基于模型的能量管理优化方法的性能依赖于对各类DER(distributed energy resource,DER)设备运行模型构建的精度;而追求精细化建模易使得优化问题具有非凸和非光滑特性,增大求解难度与计算负担,使得所得策略多适用于线下的应用,难以实现实时能量管理优化的目标。
发明内容
本发明的目的在于提供一种基于近端策略优化的用户实时自治能量管理优化方法,不依赖对未来信息准确预测,仅靠实时感知环境状态进行自趋优式策略学习;所采用的长短期记忆神经网络通过挖掘智能电表所采集多源时序数据的时序特征,准确感知未来走势;此外,近端策略优化算法赋能在离散与连续动作空间中学习能量管理优化决策,在最小化用电成本的同时提升策略对不确定性的适应性。
本发明的目的可以通过以下技术方案实现:
一种基于近端策略优化的用户实时自治能量管理优化方法,管理优化方法包括以下步骤:
S1:对用户DER设备进行分类和建模,统一的三元组描述各类DER设备的运行特性,确定相应的能量管理动作;
S2:基于S1中对用户DER设备的分类及建模,将用户实时自治能量管理优化问题建模为序贯决策问题;
S3:利用长短期记忆神经网络提取实时的时序数据的未来走势,辅助步骤S4和S5中深度强化学习进行策略优化;
S4:将S3中提取的未来走势和能量管理智能体观测的内部状态特征输入到基于深度神经网络的策略函数,赋能能量管理智能同时学习离散与连续动作,实现对各设备的控制;
S5:采用基于近端策略优化算法赋能在S4中的离散与连续动作中学习能量管理优化策略。
进一步的,所述步骤S1具体包括以下步骤:
用户DER设备分为分布式光伏、储能、柔性负荷和刚性负荷,柔性负荷又分为具备功率连续调节功能的负荷和具备延迟功率周期功能的负荷;对于任意设备n∈{1,...,N},其t时刻运行状态用以下三元组进行描述:
Figure BDA0003181576750000021
式中:ωn,t∈{0,1}表示设备n的运行状态,其值为1表示设备n在t时刻处于允许运行时段,为0则表示设备n在t时刻不允许运行;ρn,t∈[0,1]表示设备n在t时刻任务的完成进度;πn,t描述设备n的特有属性;
暖通空调和电动汽车为具备功率连续调节功能的负荷,智能家电为具备延迟功率周期功能的负荷;
暖通空调在t时刻的状态根据三元组的定义表示为:
Figure BDA0003181576750000031
式中:n为t时刻的室内温度;
Figure BDA0003181576750000032
为t时刻暖通空调的温度设定值;由于暖通空调的允许运行时段为全天,
Figure BDA0003181576750000033
设为1,以当前室温与设定值的差
Figure BDA0003181576750000034
表示暖通空调的运行进度;以用户设定的温度值
Figure BDA0003181576750000035
表示暖通空调的特有属性;
暖通空调在t时刻的负荷功率为Pt AC,其大小在式(3)所示范围内连续调节,其中
Figure BDA0003181576750000036
为暖通空调的最大额定功率;
Figure BDA0003181576750000037
在给定Pt AC影响下,t+1时刻室内温度表示为:
Figure BDA0003181576750000038
式中:ηAC为热转化效率,其值为正代表制冷,为负则为制热;Tt out为t时刻的室外温度;RAC与CAC分别为热阻抗与热容量;
电动汽车在t时刻的状态根据三元组的定义表示为:
Figure BDA0003181576750000039
式中:
Figure BDA00031815767500000310
Figure BDA00031815767500000311
分别为电动汽车接入与断开电网时间;由于电动汽车接入电网时才允许运行,因此当
Figure BDA00031815767500000312
Figure BDA00031815767500000313
为1;
Figure BDA00031815767500000314
表示电动汽车电池t时刻荷电状态,表示电动汽车的运行进度;t用来判断电动汽车在t时刻是否接入电网,为电动汽车特有属性;
电动汽车在t时刻的净负荷功率为Pt EV,正值表示充电,负值表示放电;Pt EV大小在式(6)所示范围内调节,其中
Figure BDA0003181576750000041
为电动汽车功率最大值;Pt EV的取值还受制于电动汽车当前荷电状态与电池可用容量的上下限,如式(7)所示:
Figure BDA0003181576750000042
Figure BDA0003181576750000043
式中:
Figure BDA0003181576750000044
为电动汽车电池容量;ηEVC和ηEVD分别为电动汽车的充电与放电效率;
Figure BDA0003181576750000045
ψ EV分别为电动汽车的最高与最低荷电状态;
基于式(7),电动汽车电池t+1时刻的荷电状态表示为:
Figure BDA0003181576750000046
储能的运行状态按照上述方式类似描述;
智能家电运行周期总时长为TSA,包含K个固定次序的用电步骤τ=1,...,K,对应固定的K个用电功率
Figure BDA0003181576750000047
智能家电的允许运行时段由启始与截止时间
Figure BDA0003181576750000048
Figure BDA0003181576750000049
描述,智能家电在t时刻的状态根据三元组的定义表示为:
Figure BDA00031815767500000410
式中:智能家电的允许运行时段为
Figure BDA00031815767500000411
因此
Figure BDA00031815767500000412
在该时段内设定为1,在其余时段设定为0;
Figure BDA00031815767500000413
表示任务当前完成进度;
Figure BDA00031815767500000414
表示完成允许运行时段的剩余时间;
智能家电的负荷功率t时刻对应的控制变量
Figure BDA00031815767500000415
表示是否执行当前运行步骤,被定义为:
Figure BDA0003181576750000051
给定
Figure BDA0003181576750000052
之后智能家电的负荷功率
Figure BDA0003181576750000053
按式(11)描述:
Figure BDA0003181576750000054
式中:
Figure BDA0003181576750000055
进一步的,所述步骤S2具体为马尔科夫决策过程,包括以下步骤:
能量管理智能体与环境:能量管理系统作为能量管理智能体与环境交互学习经验并对能量管理策略进行优化;环境为S1中所有DER设备构成的用电系统;
有限状态集(S):t时刻环境状态定义为:
Figure BDA0003181576750000056
式中:s1:N,t为所有设备t时刻的三元组状态;
Figure BDA0003181576750000057
Figure BDA0003181576750000058
分别为过去M时段售电商提供的售电和购电价格;
Figure BDA0003181576750000059
为过去M时段室外温度;
有限动作集(A):t时刻的动作定义为:
Figure BDA00031815767500000510
式中:Pt EV、Pt EV与Pt AC分别是对电动汽车、储能与暖通空调的连续控制动作;
Figure BDA00031815767500000511
为Nd个智能家电的离散控制动作;
马尔可夫决策过程问题核心是在最大化奖励函数rt下给出最优策略,由于能量管理的优化目标是在保证用户舒适度和满足各设备运行约束下的用能费用最少。
进一步的,所述步骤奖励函数rt具体包括:
1)用能费用:
Figure BDA00031815767500000611
Figure BDA0003181576750000061
式中:lt为用户的净负荷;Pt ND为刚性负荷的功率;Pt PV为光伏发电功率;
Figure BDA0003181576750000062
Figure BDA0003181576750000063
分别为售电商提供的t时刻的售电和购电价格;
2)舒适度:用户舒适度同当前室内温度与设定的暖通空调温度上下限有关:
Figure BDA0003181576750000064
式中:
Figure BDA0003181576750000065
为温度距离最佳设定温度的差值阈值;
Figure BDA0003181576750000066
为舒适度权重;
3)惩罚项:针对电动汽车用户而言,出行前需保证电池能量足够出行,对于违反该运行约束的部分通过惩罚项施加在奖励函数上,该项表示为式(17):
Figure BDA0003181576750000067
式中:
Figure BDA0003181576750000068
为电动汽车出行需要的总用电量;w2为惩罚项权重;
综上,t时刻的奖励函数rt表示为:
Figure BDA0003181576750000069
能量管理智能体学习的目标在于求解最优策略使T个运行时段的总期望折扣奖励J(π)最大,目标函数表示为:
Figure BDA00031815767500000610
式中:π:st→P(at)表示能量管理智能体所采用的策略,反应环境状态到选择动作概率的映射关系;Π为策略集;γt∈[0,1]为折扣因子,以平衡短期与长期回报;τ=(s0,a0,r0,s1,...)为能量管理智能体与环境不断交互所产生的状态、动作和奖励序列;T为控制周期总数。
进一步的,所述步骤S3中,利用长短期记忆神经网络提取实时电价、光伏发电、室外温度时序数据的未来走势,具体包括以下步骤:
长短期记忆神经网络记忆与预测模块计算流程为:在t时刻时,t-1时刻的记忆单元模块状态ct-1、输入向量xt、t-1时刻的隐含层状态ht-1作为记忆单元模块的输入量,相应地,其3个门的内部输出计算公式如下式(20-22)所示;
ft=σ(Whfht-1+Wxfxt+bf) (20)
it=σ(Whiht-1+Wxixt+bi) (21)
ot=σ(Whoht-1+Wxoxt+bo) (22)
式中:ft、it、ot分别表示遗忘门、输入门、输出门的输出矩阵;Whf、Wxf、Whi、Wxi、Who、Wxo分别表示遗忘门、输入门、输出门与ht-1、xt的连接权值矩阵;bf、bi、bo分别表示表示遗忘门、输入门、输出门的偏置向量;σ表示sigmoid激励函数;
外部记忆模块最终的输出值ht的具体计算公式如下:
zt=tanh(Whcht-1+Whxxt+bc) (23)
ct=ft⊙ct-1+it⊙zt (24)
ht=tanh(ct)⊙ot (25)
式中:zt为t时刻输入到记忆单元模块的预处理信息;Whc与Whx表示ht-1、xt与zt的连接权值矩阵;bc为偏置向量;tanh表示双曲正切函数;⊙表示矩阵的哈达玛乘积。
进一步的,所述步骤S4具体包括以下步骤:
式(26)为离散与连续动作策略函数,其中离散动作服从伯努利分布B(p),连续动作则服从高斯分布N(μ,σ2);
Figure BDA0003181576750000071
式中:p为是否执行智能家电用电步骤的概率,即
Figure BDA0003181576750000072
μ与σ2分别表示对应暖通空调、电动汽车和储能功率调节动作的均值与标准差。
进一步的,所述步骤S5中,采用基于近端策略优化算法,赋能在离散与连续动作空间中高效学习能量管理优化策略,主要包括以下步骤:
近端策略优化算法采用执行器-评判器架构,训练时从经验回放库中抽取一个小批量经验样本供网络参数更新;评判器网络通过时序差分误差
Figure BDA0003181576750000081
的学习方法更新网络参数φ,计算公式如式(27):
Figure BDA0003181576750000082
式中:Vφ(st)为状态值函数;
置信域策略优化算法最终目标函数为式(28):
Figure BDA0003181576750000083
约束:
Figure BDA0003181576750000084
式中:
Figure BDA0003181576750000085
Figure BDA0003181576750000086
分别代表新策略与旧策略;
Figure BDA0003181576750000087
为基于旧策略的状态访问概率;
Figure BDA0003181576750000088
为优势函数,用来表征策略
Figure BDA0003181576750000089
下动作at相对平均动作的优势;
Figure BDA00031815767500000810
为新策略和旧策略之间KL散度;δ为置信域,用以限制KL散度的范围。
进一步的,对所述目标函数进行一阶近似并采用蒙特卡罗方法近似期望后为:
Figure BDA00031815767500000811
Figure BDA00031815767500000812
Figure BDA00031815767500000813
式中:
Figure BDA00031815767500000814
为动作at在状态st下采用B步回报价值估计法得到的优势函数;ξt为新旧策略比率;
为简化计算过程,对式(30)进行了裁剪,进而得到新的目标函数Lclip;Lclip为算法规定了两个约束,从而使新旧策略比率ξt约束到[1-ε,1+ε]之间,确保能起到置信域策略优化算法中置信域δ的作用:
Figure BDA0003181576750000091
Figure BDA0003181576750000092
因此,Lclip实现了一种与随机梯度下降兼容的置信域修正方法,并通过消除KL损失来简化算法以及降低适应性修正的需求。
本发明的有益效果:
本发明管理优化方法不依赖对未来信息准确预测,仅靠实时感知环境状态进行自趋优式策略学习;所采用的长短期记忆神经网络通过挖掘智能电表所采集多源时序数据的时序特征,准确感知未来走势;此外,近端策略优化算法赋能在离散与连续动作空间中学习能量管理优化决策,在最小化用电成本的同时提升策略对不确定性的适应性。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明基于长短期记忆神经网络和深度神经网络的时序特征提取以及策略拟合示意图;
图2是本发明近端策略优化算法训练流程示意图;
图3是本发明分时电价示意图;
图4是本发明四种深度强化学习算法下的平均日用电成本示意图;
图5是本发明DER设备的运行情况示意图;
图6是本发明室内与室外温度变化示意图;
图7是本发明用户净负荷与发电变化示意图;
图8是本发明DER设备的运行情况示意图;
图9是本发明室内与室外温度变化示意图;
图10是本发明用户净负荷与发电变化示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本实施例依据某配电公司所提供的数据作场景分析。数据包含2011年7月1日到2012年6月30日期间以半小时为采集周期与控制时段的用户刚性负荷以及光伏发电的数据,室外温度数据来自澳大利亚政府的公开数据集。如图2所示,售电商的售电价采取区分夏季与冬季的分时电价,而购电价则采用全年统一的光伏上网电价4美分/千瓦。各柔性负荷的运行参数见下表:
柔性负荷运行参数
Figure BDA0003181576750000101
注:°F=℃*1.8+32
本实施例将每日初始室内温度、电动汽车的出行时刻与时长、电动汽车和储能的初始荷电状态、智能家电的启始与截止运行时刻做差异化处理。上述与温度、电量相关的参数通过截断正态分布采样获得,与运行时间相关的参数通过离散均匀分布采样获得,参数取值如下表所示:
用户主导的柔性负荷运行参数的概率分布
Figure BDA0003181576750000111
本实施例具体包括以下步骤:
S1:对用户DER(distributed energy resource,DER)设备进行分类,并用统一的三元组描述各类DER设备的运行特性,确定相应的能量管理动作,具体包括:
所述S1对用户DER设备进行分类,并用统一的三元组描述各类DER设备的运行特性,确定相应的能量管理动作,包括以下步骤:
用户DER设备分为分布式光伏、储能、柔性负荷和刚性负荷,柔性负荷再分为具备功率连续调节功能的负荷和具备延迟功率周期功能的智能家电。对于任意设备n∈{1,...,N},其t时刻运行状态sn,t用以下三元组进行描述:
Figure BDA0003181576750000112
式中:ωn,t∈{0,1}表示设备n的运行状态,其值为1表示设备n在t时刻处于允许运行时段,为0则表示设备n在t时刻不允许运行;ρn,t∈[0,1]表示设备n在t时刻任务的完成进度;πn,t描述设备n的特有属性。
暖通空调和电动汽车为具备功率连续调节功能的负荷,智能家电为具备延迟功率周期功能的负荷;
暖通空调在t时刻的状态根据三元组的定义表示为:
Figure BDA0003181576750000121
式中:Tt AC为t时刻的室内温度;
Figure BDA0003181576750000122
为t时刻暖通空调的温度设定值;由于暖通空调的允许运行时段为全天,
Figure BDA0003181576750000123
为暖通空调的运行状态,其值设为1,以当前室温与设定值的差
Figure BDA0003181576750000124
表示暖通空调的运行进度;以用户设定的温度值
Figure BDA0003181576750000125
表示暖通空调的特有属性。
暖通空调在t时刻的负荷功率为Pt AC,其大小在式(3)所示范围内连续调节,其中
Figure BDA0003181576750000126
为暖通空调的最大额定功率。
Figure BDA0003181576750000127
在给定Pt AC影响下,t+1时刻室内温度表示为:
Figure BDA0003181576750000128
式中:ηAC为热转化效率,其值为正代表制冷,为负则为制热;Tt out为t时刻的室外温度;RAC与CAC分别为热阻抗与热容量。
电动汽车在t时刻的状态根据三元组的定义表示为:
Figure BDA0003181576750000129
式中:
Figure BDA00031815767500001210
Figure BDA00031815767500001211
分别为电动汽车接入与断开电网时间。由于电动汽车接入电网时才允许运行,因此当
Figure BDA00031815767500001212
Figure BDA00031815767500001213
为1;
Figure BDA00031815767500001214
表示电动汽车电池t时刻荷电状态,表示电动汽车的运行进度;t用来判断电动汽车在t时刻是否接入电网,为电动汽车特有属性。
电动汽车在t时刻的净负荷功率为Pt EV,正值表示充电,负值表示放电。Pt EV大小在式(6)所示范围内调节,其中
Figure BDA00031815767500001215
为电动汽车功率最大值。Pt EV的取值还受制于电动汽车当前荷电状态与电池可用容量的上下限,如式(7)所示:
Figure BDA0003181576750000131
Figure BDA0003181576750000132
式中:
Figure BDA0003181576750000133
为电动汽车电池容量;ηEVC和ηEVD分别为电动汽车的充电与放电效率;
Figure BDA0003181576750000134
Figure BDA0003181576750000135
分别为电动汽车的最高与最低荷电状态。
基于式(7),电动汽车电池t+1时刻的荷电状态表示为:
Figure BDA0003181576750000136
储能的运行状态按照上述方式类似描述。
智能家电运行周期总时长为TSA,包含K个固定次序的用电步骤τ=1,...,K,对应固定的K个用电功率
Figure BDA0003181576750000137
智能家电的允许运行时段由启始与截止时间
Figure BDA0003181576750000138
Figure BDA0003181576750000139
描述,智能家电在t时刻的状态根据三元组的定义表示为:
Figure BDA00031815767500001310
式中:智能家电的允许运行时段为
Figure BDA00031815767500001311
因此
Figure BDA00031815767500001312
在该时段内设定为1,在其余时段设定为0;
Figure BDA00031815767500001313
表示任务当前完成进度;
Figure BDA00031815767500001314
表示完成允许运行时段的剩余时间。
智能家电的负荷功率t时刻对应的控制变量
Figure BDA00031815767500001315
表示是否执行当前运行步骤,被定义为:
Figure BDA00031815767500001316
给定
Figure BDA0003181576750000141
之后智能家电的负荷功率
Figure BDA0003181576750000142
按式(11)描述:
Figure BDA0003181576750000143
式中:
Figure BDA0003181576750000144
S2:基于S1中对DER设备的分类及建模,将用户实时自治能量管理优化问题建模为序贯决策问题,具体包括:
能量管理智能体与环境:家庭能量管理系统(home energy management system,HEMS)作为本发明中的能量管理智能体与环境交互学习经验并对能量管理策略进行优化。环境为S1中所有DER设备构成的用电系统。
有限状态集(S):t时刻环境状态定义为:
Figure BDA0003181576750000145
式中:s1:N,t为所有设备t时刻的状态(由各设备的三元组状态组成);
Figure BDA0003181576750000146
Figure BDA0003181576750000147
分别为过去M时段售电商提供的售电和购电价格;
Figure BDA0003181576750000148
为过去M时段室外温度。
有限动作集(A):t时刻的动作定义为:
Figure BDA0003181576750000149
式中:Pt EV、Pt ES与Pt AC分别是对电动汽车、储能与暖通空调的连续控制动作;
Figure BDA00031815767500001410
为Nd个智能家电的离散控制动作。
马尔可夫决策过程问题核心是在最大化奖励函数rt下给出最优策略,由于能量管理的优化目标是在保证用户舒适度和满足各设备运行约束下的用能费用最少;因此奖励函数rt的设置包含以下三部分:
1)用能费用:
Figure BDA00031815767500001411
Figure BDA0003181576750000151
式中:lt为用户的净负荷;Pt ND为刚性负荷的功率;Pt PV为光伏发电功率;
Figure BDA0003181576750000152
Figure BDA0003181576750000153
分别为售电商提供的t时刻的售电和购电价格。
2)舒适度:用户舒适度同当前室内温度与设定的暖通空调温度上下限有关:
Figure BDA0003181576750000154
式中:
Figure BDA0003181576750000155
为温度距离最佳设定温度的差值阈值;w1为舒适度权重。
3)惩罚项:针对电动汽车用户而言,出行前需保证电池能量足够出行,对于违反该运行约束的部分通过惩罚项施加在奖励函数上,该项表示为式(17):
Figure BDA0003181576750000156
式中:
Figure BDA0003181576750000157
为电动汽车出行需要的总用电量;w2为惩罚项权重。
综上,t时刻的奖励函数rt表示为:
Figure BDA0003181576750000158
能量管理智能体学习的目标在于求解最优策略使T个运行时段的总期望折扣奖励J(π)最大,目标函数表示为:
Figure BDA0003181576750000159
式中:π:st→P(at)表示能量管理智能体所采用的策略,反应环境状态到选择动作概率的映射关系;Π为策略集;γt∈[0,1]为折扣因子,以平衡短期与长期回报;τ=(s0,a0,r0,s1,...)为能量管理智能体与环境不断交互所产生的状态、动作和奖励序列;T为控制周期总数。
S3:利用长短期记忆神经网络提取实时电价、光伏发电、室外温度等时序数据的未来走势,辅助S4和S5中深度强化学习进行策略优化,具体包括:
长短期记忆神经网络记忆与预测模块计算流程为:在t时刻时,t-1时刻的记忆单元模块状态ct-1、输入向量xt、t-1时刻的隐含层状态ht-1作为记忆单元模块的输入量,相应地,其3个门的内部输出计算公式如下式(20-21)所示。
ft=σ(Whfht-1+Wxfxt+bf) (20)
it=σ(Whiht-1+Wxixt+bi) (21)
ot=σ(Whoht-1+Wxoxt+bo) (22)
式中:ft、it、ot分别代表遗忘门、输入门、输出门的输出矩阵;Whf、Wxf、Whi、Wxi、Who、Wxo表示遗忘门、输入门、输出门分别与ht-1、xt的连接权值矩阵;bf、bi、bo表示遗忘门、输入门、输出门的偏置向量;σ表示sigmoid激励函数。
外部记忆模块最终的输出值ht的具体计算公式如下:
zt=tanh(Whcht-1+Whxxt+bc) (23)
ct=ft⊙ct-1+it⊙zt (24)
ht=tanh(ct)⊙ot (25)
式中:zt为t时刻输入到记忆单元模块的预处理信息;Whc与Whc表示ht-1、xt与zt的连接权值矩阵;bc为偏置向量;tanh表示双曲正切函数;⊙表示矩阵的哈达玛乘积。
S4:将S3中提取时序数据的未来走势和能量管理智能体观测的内部状态特征输入到基于深度神经网络的策略函数,赋能能量管理智能体同时学习离散与连续动作,实现对各设备的良好控制,具体包括:
基于深度神经网络的策略函数:式(26)为离散与连续动作策略函数,其中离散动作服从伯努利分布B(p),连续动作则服从高斯分布N(μ,σ2)。
Figure BDA0003181576750000161
式中:p为是否执行智能家电用电步骤的概率,即
Figure BDA0003181576750000162
μ与σ2分别表示对应暖通空调、电动汽车和储能功率调节动作的均值与标准差。
S5:采用基于近端策略优化算法赋能在S4中的离散与连续动作空间中学习能量管理优化策略,具体包括:
近端策略优化算法采用执行器-评判器架构,训练时从经验回放库中抽取一个小批量经验样本供网络参数更新。评判器网络通过时序差分误差
Figure BDA0003181576750000171
的学习方法更新网络参数φ,计算公式如式(27):
Figure BDA0003181576750000172
式中:Vφ(st)为状态值函数。
置信域策略优化算法最终目标函数为式(28):
Figure BDA0003181576750000173
约束:
Figure BDA0003181576750000174
式中:
Figure BDA0003181576750000175
Figure BDA0003181576750000176
分别代表新策略与旧策略;
Figure BDA0003181576750000177
为基于旧策略的状态访问概率;
Figure BDA0003181576750000178
为优势函数,用来表征策略
Figure BDA0003181576750000179
下动作at相对平均动作的优势;
Figure BDA00031815767500001710
为新策略和旧策略之间KL散度;δ为置信域,用以限制KL散度的范围。
对式(28)中的目标函数进行一阶近似并采用蒙特卡罗方法近似期望后为:
Figure BDA00031815767500001711
Figure BDA00031815767500001712
Figure BDA00031815767500001713
式中:
Figure BDA00031815767500001714
为动作at在状态st下采用B步回报价值估计法得到的优势函数;ξt为新旧策略比率。
为简化计算过程,对式(30)进行了裁剪,进而得到新的目标函数Lclip。Lclip为算法规定了两个约束,从而使新旧策略比率ξt约束到[1-ε,1+ε]之间,确保能起到置信域策略优化算法中置信域δ的作用:
Figure BDA0003181576750000181
Figure BDA0003181576750000182
因此,Lclip实现了一种与随机梯度下降兼容的置信域修正方法,并通过消除KL损失来简化算法以及降低适应性修正的需求。
为评估所提基于近端策略优化(proximal policy optimization,PPO)的能量管理优化方法,实施例中先以现有广泛采用的DQN(deep Q network,DQN)、DPG(deep policygradient,DPG)和DDPG(deep deterministic policy gradient,DDPG)三种深度强化学习算法方法作对比;然后以两种基于模型的优化方法作为对比:
1)在假设能够对刚性负荷、光伏、温度等进行完美预测的前提下,求解最小化用户日用电成本对应混合整数线性规划问题(mixed integer linear programming,MILP),以此作为理论最优解;
2)模型预测控制MPC在每个控制时段对未来一段时间(即控制时域)的负荷和光伏等进行预测,进而在该时段上求解成本最小化问题,以所得控制序列的第一个元素作为当前时段的控制策略,该优化过程随时间不断向后滚动。本实施例以8小时为控制时域,利用长短期记忆神经网络网络进行时序数据预测。
为降低结果的偶然性,每次生成10个random seeds,每个random seed中每个算法训练20,000epochs,每个epoch代表训练数据集中的一个随机日。训练过程中,每200epoch在测试数据集上对各深度强化学习算法的表现进行评估。图3中线条与阴影分别代表对应各深度强化学习算法在10个random seed上用测试数据集计算所得的日用电成本的平均值与标准差。
如图3所示,近端策略优化在能量管理策略的训练过程中成本效益不断提升,日用电成本的标准差不断下降。最终近端策略优化算法下的收敛结果为372.35美分,为四种基于深度强化学习算法的无模型能量管理优化方法中的最低值,相比于DQN与DPG两种算法,平均日用电成本降低了约15.52%与8.37%,标准差方面分别降低了约29.35%与44.50%。其次,相较DQN算法,近端策略优化赋能对电动汽车,储能和暖通空调功率的连续调节,平均日用电成本显著降低。因DPG算法中缺少策略评估环节,策略梯度估计结果不准确且方差较大,因此导致了收敛速度较低的次优策略。此外,DDPG算法由于无法处理离散动作导致策略次优,性能依赖于对大量超参数的调节,因此存在收敛困难且不稳定的现象。相较之下,近端策略优化因具备“执行器-评价器”的架构,在策略优化过程中通过计算优势值进行评估,稳定性更强。近端策略优化还通过式(32)将策略更新的目标函数做了裁剪,简化需要满足的置信域约束,因此收敛性能更稳定,训练速度更快。
为验证所提长短期记忆神经网络数据特征提取技术的有效性,采用该技术前后所得到的平均日用电成本如下表所示。对比于仅基于当前时段所感知的原始时序数据的策略优化,所拟时序数据未来走势提取技术基于时段t之前M个时段的历史数据的时域特征,挖掘时序数据的未来趋势,更有效地辅助能量管理智能体的序贯决策,进而提升了应对不确定性时的鲁棒性。
有无未来走势特征提取的平均日用电成本
方法 提取未来走势 不提取未来走势
平均日用电成本(美分) 372.35 381.83
通过求解MILP问题得到,364.54美分为53个测试日平均日用电成本的理论最优值。如下表所示,PPO和MPC的平均日用电成本较理论最优解分别高出2.14%和5.41%。这是由于MPC虽然能够一定程度上降低预测不确定性对成本的影响,但优化性能仍然受预测误差所影响。PPO算法不依赖对未来信息的精准预测,并能够对数据未来走势准确感知,因此所得策略更好地应对不确定性。
MILP,MPC和PPO下平均日用电成本
方法 MILP MPC PPO
平均日用电成本(美分) 64.54 384.25 372.35
为进一步验证近端策略优化下能量管理策略对未来场景的泛化性,在近端策略优化算法训练完成后,实施例选取了测试数据集中夏季与冬季两个典型日来分析能量管理策略的成本效益,分别如图5-7和图8-10所示。图5和图6中的夏季典型日呈现出较高的室外温度以及充足的光伏发电特征。如图5所示,因早晨温度较低,HEMS并未启动暖通空调而在8:30以后启动,由于室外温度超过阈值,暖通空调尽可能吸收光伏发电量,在保持室内温度刚好低于24℃的同时减小用电成本。此外在11:00-14:30间,售电商购电价格仍高于售电价格时,HEMS尽可能选择利用储能的充电来吸收剩余的光伏发电量,而非将其出售。此外,智能家电的运行周期被转移到了售电价格较低的时段22:30-24:00。如图7所示,所得的能量管理策略通过利用DER设备的互补性(如电动汽车与储能),在9:00-20:30间实现了用户净负荷为0,完成了光伏的充分消纳,最大程度上挖掘了DER设备的灵活性。
如图8和图9所示,冬季典型日与夏季典型日的区别在于较低的室外温度与稀少的光伏发电量。在图8中,因早晨温度过低,HEMS启动暖通空调的制热功能以保证温度略高于19℃,7:00之后电价升高后关闭暖通空调以降低成本。与夏季典型日相同的是,智能家电的运行周期同样被转移到了售电价格较低的时段。HEMS选择在用电低谷时段向储能与电动汽车充电,在7:30-11:30与14:00-20:30这两个用电高峰时段通过储能与电动汽车放电以满足用户电能需求,在7:30-22:00间实现了用户净负荷接近为0。
实施例结果表明所提方法能够综合考虑电价、室外温度、光伏出力、用户行为等不确定因素,充分挖掘柔性负荷的灵活性,实现对多类型DER设备的实时能量管理优化。与此同时,在对比其它三种无模型深度强化学习算法和两种基于模型的最优化方法后,近端策略优化算法在收敛性、最小化用户成本以及应对不确定性表现等方面均具有更好的表现。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (8)

1.一种基于近端策略优化的用户实时自治能量管理优化方法,其特征在于,管理优化方法包括以下步骤:
S1:对用户DER设备进行分类和建模,统一的三元组描述各类DER设备的运行特性,确定相应的能量管理动作;
S2:基于S1中对用户DER设备的分类及建模,将用户实时自治能量管理优化问题建模为序贯决策问题;
S3:利用长短期记忆神经网络提取实时的时序数据的未来走势,辅助步骤S4和S5中深度强化学习进行策略优化;
S4:将S3中提取的未来走势和能量管理智能体观测的内部状态特征输入到基于深度神经网络的策略函数,赋能能量管理智能同时学习离散与连续动作,实现对各设备的控制;
S5:采用基于近端策略优化算法赋能在S4中的离散与连续动作中学习能量管理优化策略。
2.根据权利要求1所述的用户实时自治能量管理优化方法,其特征在于,所述步骤S1具体包括以下步骤:
用户DER设备分为分布式光伏、储能、柔性负荷和刚性负荷,柔性负荷又分为具备功率连续调节功能的负荷和具备延迟功率周期功能的负荷;对于任意设备n∈{1,...,N},其t时刻运行状态用以下三元组进行描述:
Figure FDA0003181576740000011
式中:ωn,t∈{0,1}表示设备n的运行状态,其值为1表示设备n在t时刻处于允许运行时段,为0则表示设备n在t时刻不允许运行;ρn,t∈[0,1]表示设备n在t时刻任务的完成进度;πn,t描述设备n的特有属性;
暖通空调和电动汽车为具备功率连续调节功能的负荷,智能家电为具备延迟功率周期功能的负荷;
暖通空调在t时刻的状态根据三元组的定义表示为:
Figure FDA0003181576740000021
式中:n为t时刻的室内温度;
Figure FDA0003181576740000022
为t时刻暖通空调的温度设定值;由于暖通空调的允许运行时段为全天,
Figure FDA0003181576740000023
设为1,以当前室温与设定值的差
Figure FDA0003181576740000024
表示暖通空调的运行进度;以用户设定的温度值
Figure FDA0003181576740000025
表示暖通空调的特有属性;
暖通空调在t时刻的负荷功率为Pt AC,其大小在式(3)所示范围内连续调节,其中
Figure FDA0003181576740000026
为暖通空调的最大额定功率;
Figure FDA0003181576740000027
在给定Pt AC影响下,t+1时刻室内温度表示为:
Figure FDA0003181576740000028
式中:ηAC为热转化效率,其值为正代表制冷,为负则为制热;Tt out为t时刻的室外温度;RAC与CAC分别为热阻抗与热容量;
电动汽车在t时刻的状态根据三元组的定义表示为:
Figure FDA0003181576740000029
式中:
Figure FDA00031815767400000210
Figure FDA00031815767400000211
分别为电动汽车接入与断开电网时间;由于电动汽车接入电网时才允许运行,因此当
Figure FDA00031815767400000212
Figure FDA00031815767400000213
为1;
Figure FDA00031815767400000214
表示电动汽车电池t时刻荷电状态,表示电动汽车的运行进度;t用来判断电动汽车在t时刻是否接入电网,为电动汽车特有属性;
电动汽车在t时刻的净负荷功率为Pt EV,正值表示充电,负值表示放电;Pt EV大小在式(6)所示范围内调节,其中
Figure FDA00031815767400000215
为电动汽车功率最大值;Pt EV的取值还受制于电动汽车当前荷电状态与电池可用容量的上下限,如式(7)所示:
Figure FDA0003181576740000031
Figure FDA0003181576740000032
式中:
Figure FDA0003181576740000033
为电动汽车电池容量;ηEVC和ηEVD分别为电动汽车的充电与放电效率;
Figure FDA0003181576740000034
ψ EV分别为电动汽车的最高与最低荷电状态;
基于式(7),电动汽车电池t+1时刻的荷电状态表示为:
Figure FDA0003181576740000035
储能的运行状态按照上述方式类似描述;
智能家电运行周期总时长为TSA,包含K个固定次序的用电步骤τ=1,...,K,对应固定的K个用电功率
Figure FDA0003181576740000036
智能家电的允许运行时段由启始与截止时间
Figure FDA0003181576740000037
Figure FDA0003181576740000038
描述,智能家电在t时刻的状态根据三元组的定义表示为:
Figure FDA0003181576740000039
式中:智能家电的允许运行时段为
Figure FDA00031815767400000310
因此
Figure FDA00031815767400000311
在该时段内设定为1,在其余时段设定为0;
Figure FDA00031815767400000312
表示任务当前完成进度;
Figure FDA00031815767400000313
表示完成允许运行时段的剩余时间;
智能家电的负荷功率t时刻对应的控制变量
Figure FDA00031815767400000314
表示是否执行当前运行步骤,被定义为:
Figure FDA00031815767400000315
给定
Figure FDA0003181576740000041
之后智能家电的负荷功率Pt SA按式(11)描述:
Figure FDA0003181576740000042
式中:
Figure FDA0003181576740000043
3.根据权利要求2所述的用户实时自治能量管理优化方法,其特征在于,所述步骤S2具体为马尔科夫决策过程,包括以下步骤:
能量管理智能体与环境:能量管理系统作为能量管理智能体与环境交互学习经验并对能量管理策略进行优化;环境为S1中所有DER设备构成的用电系统;
有限状态集(S):t时刻环境状态定义为:
Figure FDA0003181576740000044
式中:s1:N,t为所有设备t时刻的三元组状态;
Figure FDA0003181576740000045
Figure FDA0003181576740000046
分别为过去M时段售电商提供的售电和购电价格;
Figure FDA0003181576740000047
为过去M时段室外温度;
有限动作集(A):t时刻的动作定义为:
Figure FDA0003181576740000048
式中:Pt EV、Pt EV与Pt AC分别是对电动汽车、储能与暖通空调的连续控制动作;
Figure FDA0003181576740000049
为Nd个智能家电的离散控制动作;
马尔可夫决策过程问题核心是在最大化奖励函数rt下给出最优策略,由于能量管理的优化目标是在保证用户舒适度和满足各设备运行约束下的用能费用最少。
4.根据权利要求3所述的用户实时自治能量管理优化方法,其特征在于,所述步骤奖励函数rt具体包括:
1)用能费用:
Figure FDA0003181576740000051
Figure FDA0003181576740000052
式中:lt为用户的净负荷;Pt ND为刚性负荷的功率;Pt PV为光伏发电功率;
Figure FDA0003181576740000053
Figure FDA0003181576740000054
分别为售电商提供的t时刻的售电和购电价格;
2)舒适度:用户舒适度同当前室内温度与设定的暖通空调温度上下限有关:
Figure FDA0003181576740000055
式中:
Figure FDA0003181576740000056
为温度距离最佳设定温度的差值阈值;
Figure FDA0003181576740000057
为舒适度权重;
3)惩罚项:针对电动汽车用户而言,出行前需保证电池能量足够出行,对于违反该运行约束的部分通过惩罚项施加在奖励函数上,该项表示为式(17):
Figure FDA0003181576740000058
式中:
Figure FDA0003181576740000059
为电动汽车出行需要的总用电量;w2为惩罚项权重;
综上,t时刻的奖励函数rt表示为:
Figure FDA00031815767400000510
能量管理智能体学习的目标在于求解最优策略使T个运行时段的总期望折扣奖励J(π)最大,目标函数表示为:
Figure FDA00031815767400000511
式中:π:st→P(at)表示能量管理智能体所采用的策略,反应环境状态到选择动作概率的映射关系;Π为策略集;γt∈[0,1]为折扣因子,以平衡短期与长期回报;τ=(s0,a0,r0,s1,...)为能量管理智能体与环境不断交互所产生的状态、动作和奖励序列;T为控制周期总数。
5.根据权利要求1所述的用户实时自治能量管理优化方法,其特征在于,所述步骤S3中,利用长短期记忆神经网络提取实时电价、光伏发电、室外温度时序数据的未来走势,具体包括以下步骤:
长短期记忆神经网络记忆与预测模块计算流程为:在t时刻时,t-1时刻的记忆单元模块状态ct-1、输入向量xt、t-1时刻的隐含层状态ht-1作为记忆单元模块的输入量,相应地,其3个门的内部输出计算公式如下式(20-22)所示;
ft=σ(Whfht-1+Wxfxt+bf) (20)
it=σ(Whiht-1+Wxixt+bi) (21)
ot=σ(Whoht-1+Wxoxt+bo) (22)
式中:ft、it、ot分别表示遗忘门、输入门、输出门的输出矩阵;Whf、Wxf、Whi、Wxi、Who、Wxo分别表示遗忘门、输入门、输出门与ht-1、xt的连接权值矩阵;bf、bi、bo分别表示表示遗忘门、输入门、输出门的偏置向量;σ表示sigmoid激励函数;
外部记忆模块最终的输出值ht的具体计算公式如下:
zt=tanh(Whcht-1+Whxxt+bc) (23)
ct=ft⊙ct-1+it⊙zt (24)
ht=tanh(ct)⊙ot (25)
式中:zt为t时刻输入到记忆单元模块的预处理信息;Whc与Whx表示ht-1、xt与zt的连接权值矩阵;bc为偏置向量;tanh表示双曲正切函数;⊙表示矩阵的哈达玛乘积。
6.根据权利要求1所述的用户实时自治能量管理优化方法,其特征在于,所述步骤S4具体包括以下步骤:
式(26)为离散与连续动作策略函数,其中离散动作服从伯努利分布B(p),连续动作则服从高斯分布N(μ,σ2);
Figure FDA0003181576740000071
式中:p为是否执行智能家电用电步骤的概率,即
Figure FDA0003181576740000072
μ与σ2分别表示对应暖通空调、电动汽车和储能功率调节动作的均值与标准差。
7.根据权利要求1所述的用户实时自治能量管理优化方法,其特征在于,所述步骤S5中,采用基于近端策略优化算法,赋能在离散与连续动作空间中高效学习能量管理优化策略,主要包括以下步骤:
近端策略优化算法采用执行器-评判器架构,训练时从经验回放库中抽取一个小批量经验样本供网络参数更新;评判器网络通过时序差分误差
Figure FDA00031815767400000713
的学习方法更新网络参数φ,计算公式如式(27):
Figure FDA0003181576740000073
式中:Vφ(st)为状态值函数;
置信域策略优化算法最终目标函数为式(28):
Figure FDA0003181576740000074
约束:
Figure FDA0003181576740000075
式中:
Figure FDA0003181576740000076
Figure FDA0003181576740000077
分别代表新策略与旧策略;
Figure FDA0003181576740000078
为基于旧策略的状态访问概率;
Figure FDA0003181576740000079
为优势函数,用来表征策略
Figure FDA00031815767400000710
下动作at相对平均动作的优势;
Figure FDA00031815767400000711
为新策略和旧策略之间KL散度;δ为置信域,用以限制KL散度的范围。
8.根据权利要求7所述的用户实时自治能量管理优化方法,其特征在于,对所述目标函数进行一阶近似并采用蒙特卡罗方法近似期望后为:
Figure FDA00031815767400000712
Figure FDA0003181576740000081
Figure FDA0003181576740000082
式中:
Figure FDA0003181576740000083
为动作at在状态st下采用B步回报价值估计法得到的优势函数;ξt为新旧策略比率;
为简化计算过程,对式(30)进行了裁剪,进而得到新的目标函数Lclip;Lclip为算法规定了两个约束,从而使新旧策略比率ξt约束到[1-ε,1+ε]之间,确保能起到置信域策略优化算法中置信域δ的作用:
Figure FDA0003181576740000084
Figure FDA0003181576740000085
因此,Lclip实现了一种与随机梯度下降兼容的置信域修正方法,并通过消除KL损失来简化算法以及降低适应性修正的需求。
CN202110848508.7A 2021-07-27 2021-07-27 一种基于近端策略优化的用户实时自治能量管理优化方法 Active CN113572157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110848508.7A CN113572157B (zh) 2021-07-27 2021-07-27 一种基于近端策略优化的用户实时自治能量管理优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110848508.7A CN113572157B (zh) 2021-07-27 2021-07-27 一种基于近端策略优化的用户实时自治能量管理优化方法

Publications (2)

Publication Number Publication Date
CN113572157A true CN113572157A (zh) 2021-10-29
CN113572157B CN113572157B (zh) 2023-08-29

Family

ID=78167754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110848508.7A Active CN113572157B (zh) 2021-07-27 2021-07-27 一种基于近端策略优化的用户实时自治能量管理优化方法

Country Status (1)

Country Link
CN (1) CN113572157B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021815A (zh) * 2021-11-04 2022-02-08 东南大学 一种面向含大规模产消者社区的可扩展能量管理协同方法
CN114330852A (zh) * 2021-12-21 2022-04-12 清华大学 一体化数据中心柜末端空调系统节能优化方法及装置
CN114623569A (zh) * 2021-11-04 2022-06-14 国网浙江省电力有限公司湖州供电公司 一种基于深度强化学习的集群空调负荷差异化调控方法
CN114997935A (zh) * 2022-07-19 2022-09-02 东南大学溧阳研究院 一种基于内点策略优化的电动汽车充放电策略优化方法
CN115001002A (zh) * 2022-08-01 2022-09-02 广东电网有限责任公司肇庆供电局 一种求解储能参与削峰填谷的优化调度方法和系统
CN115183474A (zh) * 2022-06-30 2022-10-14 广西大学 一种基于模型预测与深度强化学习的热水系统控制方法
CN115731072A (zh) * 2022-11-22 2023-03-03 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN115840794A (zh) * 2023-02-14 2023-03-24 国网山东省电力公司东营供电公司 一种基于gis和rl模型的光伏系统规划方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458443A (zh) * 2019-08-07 2019-11-15 南京邮电大学 一种基于深度强化学习的智慧家庭能量管理方法及系统
CN112614009A (zh) * 2020-12-07 2021-04-06 国网四川省电力公司电力科学研究院 一种基于深度期望q-学习的电网能量管理方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458443A (zh) * 2019-08-07 2019-11-15 南京邮电大学 一种基于深度强化学习的智慧家庭能量管理方法及系统
CN112614009A (zh) * 2020-12-07 2021-04-06 国网四川省电力公司电力科学研究院 一种基于深度期望q-学习的电网能量管理方法及系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021815B (zh) * 2021-11-04 2023-06-27 东南大学 一种面向含大规模产消者社区的可扩展能量管理协同方法
CN114623569A (zh) * 2021-11-04 2022-06-14 国网浙江省电力有限公司湖州供电公司 一种基于深度强化学习的集群空调负荷差异化调控方法
CN114021815A (zh) * 2021-11-04 2022-02-08 东南大学 一种面向含大规模产消者社区的可扩展能量管理协同方法
CN114623569B (zh) * 2021-11-04 2023-09-29 国网浙江省电力有限公司湖州供电公司 一种基于深度强化学习的集群空调负荷差异化调控方法
CN114330852A (zh) * 2021-12-21 2022-04-12 清华大学 一体化数据中心柜末端空调系统节能优化方法及装置
CN114330852B (zh) * 2021-12-21 2022-09-23 清华大学 一体化数据中心柜末端空调系统节能优化方法及装置
CN115183474B (zh) * 2022-06-30 2023-10-13 广西大学 一种基于模型预测与深度强化学习的热水系统控制方法
CN115183474A (zh) * 2022-06-30 2022-10-14 广西大学 一种基于模型预测与深度强化学习的热水系统控制方法
CN114997935A (zh) * 2022-07-19 2022-09-02 东南大学溧阳研究院 一种基于内点策略优化的电动汽车充放电策略优化方法
CN114997935B (zh) * 2022-07-19 2023-04-07 东南大学溧阳研究院 一种基于内点策略优化的电动汽车充放电策略优化方法
CN115001002B (zh) * 2022-08-01 2022-12-30 广东电网有限责任公司肇庆供电局 一种求解储能参与削峰填谷的优化调度方法和系统
CN115001002A (zh) * 2022-08-01 2022-09-02 广东电网有限责任公司肇庆供电局 一种求解储能参与削峰填谷的优化调度方法和系统
CN115731072A (zh) * 2022-11-22 2023-03-03 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN115731072B (zh) * 2022-11-22 2024-01-30 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN115840794A (zh) * 2023-02-14 2023-03-24 国网山东省电力公司东营供电公司 一种基于gis和rl模型的光伏系统规划方法

Also Published As

Publication number Publication date
CN113572157B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN113572157B (zh) 一种基于近端策略优化的用户实时自治能量管理优化方法
Xu et al. A multi-agent reinforcement learning-based data-driven method for home energy management
Luo et al. A multistage home energy management system with residential photovoltaic penetration
Lissa et al. Deep reinforcement learning for home energy management system control
Shivam et al. A multi-objective predictive energy management strategy for residential grid-connected PV-battery hybrid systems based on machine learning technique
Fu et al. Applications of reinforcement learning for building energy efficiency control: A review
CN110458443B (zh) 一种基于深度强化学习的智慧家庭能量管理方法及系统
CN112614009B (zh) 一种基于深度期望q-学习的电网能量管理方法及系统
Javaid et al. Towards buildings energy management: using seasonal schedules under time of use pricing tariff via deep neuro-fuzzy optimizer
CN105631528B (zh) 一种基于nsga-ii和近似动态规划的多目标动态最优潮流求解方法
Mbuwir et al. Reinforcement learning for control of flexibility providers in a residential microgrid
CN112131733A (zh) 计及电动汽车充电负荷影响的分布式电源规划方法
CN109034587B (zh) 一种协调多种可控单元的主动配电系统优化调度方法
Dimopoulou et al. A Markov decision process for managing a hybrid energy storage system
Ruan et al. Operation strategy optimization of combined cooling, heating, and power systems with energy storage and renewable energy based on deep reinforcement learning
Zhang et al. Deep reinforcement learning based bi-layer optimal scheduling for microgrid considering flexible load control
Harrold et al. Battery control in a smart energy network using double dueling deep q-networks
Zhang et al. Metaems: A meta reinforcement learning-based control framework for building energy management system
KR20230070779A (ko) 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법
TWI639962B (zh) 一種應用於智慧電網之粒群最佳化模糊邏輯控制充電法
CN116362421B (zh) 一种基于能源综合统筹分析的供能分配预测系统及其方法
CN116937601A (zh) 一种基于在线安全分析的多元可控负荷协同调度策略校核方法
CN116227883A (zh) 一种基于深度强化学习的智能家庭能量管理系统预测决策一体化调度方法
Zhou et al. Deep Reinforcement Learning for Microgrid Operation Optimization: A Review
CN113673830B (zh) 基于非侵入式负荷监测技术的自适应家庭能量管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant