CN114841409A - 联合lstm和深度强化学习的家庭能源管理方法及介质 - Google Patents

联合lstm和深度强化学习的家庭能源管理方法及介质 Download PDF

Info

Publication number
CN114841409A
CN114841409A CN202210332358.9A CN202210332358A CN114841409A CN 114841409 A CN114841409 A CN 114841409A CN 202210332358 A CN202210332358 A CN 202210332358A CN 114841409 A CN114841409 A CN 114841409A
Authority
CN
China
Prior art keywords
network
time
strategy
state
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210332358.9A
Other languages
English (en)
Inventor
池明
张梦露
刘智伟
肖江文
王燕舞
刘骁康
韦贵熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210332358.9A priority Critical patent/CN114841409A/zh
Publication of CN114841409A publication Critical patent/CN114841409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/14Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading
    • H02J3/144Demand-response operation of the power transmission or distribution network
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2310/00The network for supplying or distributing electric power characterised by its spatial reach or by the load
    • H02J2310/50The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads
    • H02J2310/56The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads characterised by the condition upon which the selective controlling is based
    • H02J2310/58The condition being electrical
    • H02J2310/60Limiting power consumption in the network or in one section of the network, e.g. load shedding or peak shaving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/20End-user application control systems
    • Y04S20/242Home appliances

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种联合LSTM和深度强化学习的家庭能源管理方法及介质,属于智能电网需求响应领域,方法包括:利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息;根据家庭住宅中各类电气负荷对应电气设备的工作参数以及状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型;设计基于深度神经网络的随机策略,以获得价值网络和策略网络;基于MDP模型,利用近端策略优化算法对价值网络和策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据最优动作策略管理各电气设备。实现最小化家庭用能成本和保证用户舒适度的目标。

Description

联合LSTM和深度强化学习的家庭能源管理方法及介质
技术领域
本发明属于智能电网需求响应领域,更具体地,涉及一种联合LSTM和深度强化学习的家庭能源管理方法及介质。
背景技术
家庭能源管理系统(Home Energy Management System,HEMS)能够根据实时电价自动优化家庭用电负荷的用电量,降低用电成本。然而,由于实时电价定价过程和居民活动中存在随机性或不确定性,开发高效的家庭能源管理系统是具有挑战性的。具体而言,受居民生活活动影响,家庭用电负荷的运行时间和时长通常存在着很多不确定性,且难以预测。这种不确定性使得家庭能源管理系统很难有效地规划需求响应时间调度,以应对动态电价的不确定性。此外,为了能有效地控制调度设备,需要准确的设备模型信息和参数来对这些设备的电力特性和运行动态进行建模。然而,这样精确和专业的信息对于一般的家庭系统来说不是总能获得的。
现有技术中,家用电器的能源管理是以用户电费最低作为最优化目标,并且家庭能源管理调度策略都是基于具体模型的。研究基于模型的家庭能源管理调度策略需要显式的优化模型、预测器和求解器,这个过程需要详细且明确的电气负荷和运行场景的信息,并且算法性能可能会因为模型建立的不准确而恶化。深度强化学习算法利用深度神经网络的学习能力克服了许多问题,它并不需要精确的模型信息,并且可以被用来解决序贯决策问题。随着能源需求量不断增长,发展光伏、风电等清洁能源、应对气候变化已经成为普遍共识,家庭分布式光伏发电系统已逐渐得到推广和应用。但新能源发电系统的不确定性对于研究一种有效的家庭能源管理调度方法又是一种挑战。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种联合LSTM和深度强化学习的家庭能源管理方法及介质,其目的在于对综合了各种电气设备的家庭住宅系统进行实时调度,实现最小化家庭用能成本和保证用户舒适度的目标。
为实现上述目的,按照本发明的一个方面,提供了一种联合LSTM和深度强化学习的家庭能源管理方法,包括:S1,利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息;S2,根据家庭住宅中各类电气负荷对应电气设备的工作参数以及所述状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型;S3,设计基于深度神经网络的随机策略,以获得价值网络和策略网络;S4,基于所述MDP模型,利用近端策略优化算法对所述价值网络和所述策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据所述最优动作策略管理各电气设备。
更进一步地,所述电气负荷分为基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统;所述MDP模型包括状态空间、动作空间、状态转移概率和奖励函数,所述状态转移概率为未知参数。
更进一步地,所述状态空间为:
s(t)={sB(t),sD(t),sC(t),sPV(t),sESS(t),sP(t)}
其中,s(t)为所述状态空间,sB(t)为所有基本家庭用电负荷的状态,sD(t)为所有时间可调负荷的状态,sC(t)为所有功率可调负荷的状态,sPV(t)为家庭分布式光伏发电系统的状态,sESS(t)为储能系统的状态,sP(t)为电价信息的状态,t为时间。
更进一步地,所述功率可调负荷包括空调、电热水器和电动汽车,所述动作空间为:
Figure BDA0003573520980000031
其中,a(t)为所述动作空间,
Figure BDA0003573520980000032
为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为所述空调消耗的功率,PEWH(t)为所述电热水器消耗的功率,PEV(t)为所述电动汽车的充电功率,t为时间。
更进一步地,所述奖励函数为:
r(t)=-Celec(t)-Ccomf(t)
其中,r(t)为所述奖励函数,Celec(t)为用电成本,Ccomf(t)为满意度成本,t为时间。
更进一步地,所述S3中使用以下概率分布来设计基于深度神经网络的随机策略:
Figure BDA0003573520980000033
其中,π(a(t)|s(t))为所述随机策略,a(t)为动作空间,s(t)为状态空间,B(·)为伯努利分布,p(·)为打开离散动作控制的电气设备的概率,N(·)为高斯分布,μc(·)为高斯分布的平均值,σc为高斯分布的标准差,
Figure BDA0003573520980000034
为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为所述空调消耗的功率,PEWH(t)为所述电热水器消耗的功率,PEV(t)为所述电动汽车的充电功率,t为时间。
更进一步地,所述策略网络的输入为s(t),输出为p(s(t))、μc(s(t))和log(σc);所述价值网络的输出维度为1,其他结构和参数与所述策略网络相同,损失函数为:
Figure BDA0003573520980000041
其中,LV(θ)为所述价值网络的损失函数,θ为所述策略网络和价值网络的参数,Et[·]为随机变量的期望值,Vπθ(·)为价值函数,γl为奖励折扣因子,r(t+1)为t+1时刻MDP模型的奖励函数。
更进一步地,所述S4中训练目标是最大化代替函数LCLIP(θ)和最小化损失函数LV(θ),整体损失函数为:
LAll(θ)=LCLIP(θ)-c·LV(θ)
Figure BDA0003573520980000042
其中,LAll(θ)为所述整体损失函数,θ为所述策略网络和价值网络的参数,c为第一超参数,kt(θ)为概率比,
Figure BDA0003573520980000043
为优势函数的采样估计函数,ε为第二超参数,clip()为截断函数,Et[·]为随机变量的期望值。
更进一步地,所述S4中训练操作包括:以代替函数LCLIP(θ)最大化为目标,反复执行以下迭代操作以更新所述策略网络和价值网络的参数:
Figure BDA0003573520980000044
其中,θi+1、θi分别为第i+1、i次迭代时所述策略网络和价值网络的参数,α为更新步长,LCLIPi)为第i次迭代时的代替函数。
按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的联合LSTM和深度强化学习的家庭能源管理方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)采用LSTM网络预测下一时间段的光伏发电量信息和电价信息,能够帮助家庭住宅系统探索状态输入的轨迹,以便在算法学习过程中更有效地计算未来奖励,加快算法收敛速度;
(2)同时涉及各类不同电气负荷的参与性,包括基本家庭用电负荷、时间可调负荷、功率可调负荷的参与性,使得整个参与调度的HEMS适用性更广,在考虑实时电价和室外环境因素(包括温度因素)的不确定性、新能源光伏发电的不确定性和居民用电的活动的不确定性的情况下,给出了一种有效的家庭能源管理方法,实现对一个综合了各种电气设备的家庭住宅系统的实时优化调度;
(3)克服了因为环境等因素导致的光伏发电的不确定性,还将家庭分布式光伏发电系统作为HEMS的一部分进行实时调度,不仅减少了居民用电成本,还能够同时保证居民用户的舒适性。
附图说明
图1为本发明实施例提供的联合LSTM和深度强化学习的家庭能源管理方法的流程图;
图2为本发明实施例提供的家庭能源管理系统的示意图;
图3为本发明实施例提供的策略网络体系的结构示意图;
图4A为本发明实施例提供的一天中的实时电价;
图4B、图4C、图4D分别为洗碗机、洗衣机、干衣机的调度结果;
图4E、图4F、图4G分别为空调、电热水器、电动汽车的调度结果;
图4H为家庭光伏发电系统及其储能设备的调度结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1为本发明实施例提供的联合LSTM和深度强化学习的家庭能源管理方法的流程图。参阅图1,结合图2-图4H,对本实施例中联合LSTM和深度强化学习的家庭能源管理方法进行详细说明,方法包括操作S1-操作S4。
参阅图2,示出了本发明实施例中具备各种不同电气负荷类型的家庭能源管理系统,包含基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统,储能系统例如包括储能设备、智能电表、系统控制中心等。家庭住宅例如包括一台洗碗机、一台洗衣机和一台干衣机这三个时间可调负荷,包括空调、电热水器和电动汽车正三个功率可调负荷,包括冰箱、吹风机、吸尘器、电视和电灯这五个基本家庭用电负荷,包括一个家庭分布式光伏发电系统及其储能系统。
用户可以结合自身需求设置电气负荷的运行工作数据,包括每个电气设备需要在哪些时间段内工作、该设备的调度时间窗口、以及每个设备完成工作任务所需要的运行时间。系统控制中心可以通过智能电表时刻收集住宅中电气负荷的实时信息,包含用电信息、光伏发电系统的组件信息等,可以收到公用电网发布的实时电价信息。该控制中心包含操作S1,它会结合经过优化计算的信息将调度结果通过信息流传给相应的电气设备安排其运行操作。
基本家庭用电负荷是指不能被需求响应策略调度、运行时间固定的负荷,其运行时间不会因任何外部因素而调整。基本家庭用电负荷不参与家庭能源管理系统的协调调度,仅在计算总能耗时作为负荷计入。如果一个基本家庭用电负荷b=1,…,B需要工作在
Figure BDA0003573520980000071
这一时间段,那么它需要立刻响应开始工作,其运行功率可被如下需求等价:
Figure BDA0003573520980000072
其中,
Figure BDA0003573520980000073
表示t时段内基本家庭用电负荷b消耗的功率,
Figure BDA0003573520980000074
表示基本家庭用电负荷b运行时的额定功率。
时间可调负荷的工作周期固定,启动后须连续运行直至任务完成。由于该类负荷的运行时间具有一定弹性且对该类负荷进行调度不会对用户的日常生活行为构成明显限制,因此该类负荷的运行可由HEMS进行统一调度。对于时间可调负荷d=1,…,D,其在t时刻的功率消耗可等价为:
Figure BDA0003573520980000075
其中,
Figure BDA0003573520980000076
为t时段内时间可调负荷d消耗的功率;
Figure BDA0003573520980000077
为时间可调负荷d运行时的额定功率;
Figure BDA0003573520980000078
为t时段内时间可调负荷d的运行状态,负荷运行时为1,否则为0;
Figure BDA0003573520980000079
为调度时间段窗口,二元控制变量
Figure BDA00035735209800000710
的约束条件为:
Figure BDA00035735209800000711
其中,
Figure BDA00035735209800000712
表示电气设备d到目前为止已经完成的工作进度;
Figure BDA00035735209800000713
表示为了满足电气设备d的能源需求所必须的工作时间;上述约束条件中,第一个公式表示要求设备必须连续地运行,第二个公式限制了设备在调度时间范围内必须完成规定的工作量,第三个公式确保了不在调度时间段内时间可调负荷一定是不运行的。
对于功率可调负荷而言,其能源消耗是连续的,负荷运行时的功率是可控的,本发明实施例中考虑了空调、电热水器和电动汽车这三类功率可调负荷。考虑空调系统作用的室内温度TAC(t),空调的功率为:
Figure BDA0003573520980000081
其中,PAC(t)为空调在t时刻消耗的功率,
Figure BDA0003573520980000082
为空调运行的最大功率。
考虑电热水器中水温TEWH(t)的电热水器功率为:
Figure BDA0003573520980000083
其中,
Figure BDA0003573520980000084
为电热水器运行的最大功率,PEWH(t)为t时刻电热水器消耗的功率。
若电动汽车在
Figure BDA0003573520980000085
时刻到家并且在
Figure BDA0003573520980000086
时刻离开,电动汽车的电池模型可表示为:
Figure BDA0003573520980000087
SoCmin≤SoC(t)≤SoCmax
其中,SoC(t+1)为t+1时刻电动汽车蓄电池的荷电状态,
Figure BDA0003573520980000088
为电动汽车充电效率,
Figure BDA0003573520980000089
为电动汽车电池的最大容量(kWh),PEV(t)为t时刻电动汽车的充电功率,SoCmax为电动汽车蓄电池的最大荷电状态,SoCmin为电动汽车蓄电池的最小荷电状态。
为了减少充放电对电池寿命的损耗,本发明实施例中电动汽车的蓄电池仅考虑其充电约束:
Figure BDA00035735209800000810
PEV(t)=0,其他
其中,
Figure BDA00035735209800000811
为蓄电池的最大充电功率。
对于家庭分布式光伏发电系统而言,光伏电池组件的输出由温度、太阳辐射强度等因素决定,具有随机性的特征,RPV(t)代表在t时刻由家庭分布式光伏系统产生的可再生能源:
Figure BDA00035735209800000812
其中,
Figure BDA00035735209800000813
为家庭分布式光伏发电系统产生的最小能量;
Figure BDA00035735209800000814
为家庭分布式光伏发电系统产生的最大能量。
其储能系统选取目前广泛应用的蓄电池储能系统,储能系统的充电和放电行为响应于充放电控制信号uESS(t)。uESS(t)是一个二元变量,当uESS(t)=0时,储能系统进行充电;否则,储能系统放电。为了提高家庭分布式光伏发电系统的就地消纳水平,HEMS为光伏发电系统和储能系统设置了使用优先级,在每一时刻都优先使用光伏发电提供的能量。另外,对于t时刻储能设备放出/充进的电能E(t)有:
Figure BDA0003573520980000091
其中,
Figure BDA0003573520980000092
代表储能系统一次最大充放电功率,若某一时刻HEMS发出了充电信号,储能系统验证充电操作的可行性(介于储能设备的最大容量和一次最大充电量之间),相应地存储能量,类似地,在放电情况下,储能系统接收来自HEMS的供电请求,验证放电操作的可行性(介于储能设备剩余容量和一次最大放电量之间),相应地返回可用电力。
操作S1,利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息。
HEMS的控制中心于t时刻发布调度操作电气设备的执行策略后,系统会通过信息流收到信息,观测到下一个时刻的状态,但由于下一个时刻的实时电价信息和光伏发电量是未知的,这将导致整个系统的下一个状态的不确定性。同时因为这种对未来的未知性,无法获取新的状态来更新下一个时刻光伏系统的状态和电价信息的状态。本发明实施例中,利用长短期记忆网络(Long Short-Term Memory,LSTM)来填补下一个时刻的实时电价信息和光伏发电量信息的缺失,以此获得执行动作更新后的t+1时刻的马尔可夫决策过程(Markov Decision Processes,MDP)的状态空间信息。
操作S2,根据家庭住宅中各类电气负荷对应电气设备的工作参数以及状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型。
根据本发明的实施例,MDP模型包括状态空间、动作空间、状态转移概率、奖励函数和目标(函数)。状态转移概率对于智能体HEMS而言,为未知参数。
状态空间为:
s(t)={sB(t),sD(t),sC(t),sPV(t),sESS(t),sP(t)}
其中,s(t)为状态空间,sB(t)为所有基本家庭用电负荷的状态,sD(t)为所有时间可调负荷的状态,sC(t)为所有功率可调负荷的状态,sPV(t)为家庭分布式光伏发电系统的状态,sESS(t)为储能系统的状态,sP(t)为电价信息的状态,t为时间。
对于一个工作在
Figure BDA0003573520980000101
的基本家庭用电负荷b=1,…,B,其状态定义为:
Figure BDA0003573520980000102
因此,
Figure BDA0003573520980000103
代表所有基本家庭用电负荷的状态集合。
对于时间可调负荷d=1,…,D,定义其在t时刻的状态:
Figure BDA0003573520980000104
因此,集合
Figure BDA0003573520980000105
代表家庭中所有时间可调设备的状态。
对于功率可调负荷而言,t时刻空调状态为
Figure BDA0003573520980000106
电热水器状态为
Figure BDA0003573520980000107
电动汽车在
Figure BDA0003573520980000108
时刻到家并且在
Figure BDA0003573520980000109
时刻离开,电动汽车的状态为:
Figure BDA00035735209800001010
其中,Tindoor(t)是t时刻的室内温度,
Figure BDA00035735209800001011
是t时刻居民用户期望的室内温度,Twater(t)是t时刻电热水器中的水温,
Figure BDA00035735209800001012
是t时刻根据用户期望所设定的电热水器中的水温,SoC(t+1)为t+1时刻电动汽车蓄电池的荷电状态,所以功率可调负荷的在某一时刻t的状态集合是sC(t)={sAC(t),sEWH(t),sEV(t)}。
家庭分布式光伏系统在t时刻的状态为sPV(t)={RPV(t)},其中,RPV(t)为时刻t由家庭分布式光伏系统的光伏产量。
储能系统在t时刻的状态定义为sESS(t)={B(t),E(t)},其中,B(t+1)为t+1时刻储能设备中拥有的电能,E(t)为t时刻储能设备放出或充进的电能。
根据本发明的实施例,功率可调负荷包括空调、电热水器和电动汽车,此时的动作空间为:
Figure BDA0003573520980000111
其中,a(t)为动作空间,
Figure BDA0003573520980000112
为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为空调消耗的功率,PEWH(t)为电热水器消耗的功率,PEV(t)为电动汽车的充电功率,t为时间。
奖励函数为:
r(t)=-Celec(t)-Ccomf(t)
其中,r(t)为奖励函数,Celec(t)为用电成本,Ccomf(t)为满意度成本,t为时间。
MDP模型的奖励函数中,成本模型包括电力成本模型和用户满意度模型。电力成本模型为为:
Celec(t)=[Pg(t)·Δt+E(t)]·price(t)
其中,Celec(t)为用电成本,E(t)为储能系统充进或放出的电量,Pg(t)是家庭住宅在时刻t电器消耗的总功率,price(t)为实时电价,Pg(t)定义为:
Figure BDA0003573520980000113
用户满意度模型为用户满意度受温控负荷影响的温度舒适度和电动汽车带来的里程焦虑影响。用户满意度模型如下:
Ccomf(t)=CEV(t)-CEWH(t)-CAC(t)
其中,Ccomf(t)是以货币为单位的满意度成本,CEV(t)代表以货币为单位的电动汽车充电带来的里程焦虑,CEWH(t)指电热水器所影响的温度舒适性,CAC(t)指空调所影响的温度舒适性。
电动汽车带来的里程焦虑衡量的是居民对电动汽车没有足够能量到达目的地的忧虑,这一担忧的衡量标准为:
Figure BDA0003573520980000121
其中,
Figure BDA0003573520980000122
代表在
Figure BDA0003573520980000123
时刻电动汽车的蓄电池未充电电池的能量,平方项以货币/kWh2为单位衡量里程焦虑,权重因子w1以货币/kWh2为单位将里程焦虑映射为货币。
温控负荷电热水器和空调所影响的热舒适性CEWH(t)和CAC(t)定义分别如下:
Figure BDA0003573520980000124
Figure BDA0003573520980000125
其中,热舒适性是基于偏差
Figure BDA0003573520980000126
测量的,当偏差
Figure BDA0003573520980000127
小于阈值ΔTEWH时,热舒适性就会变大;如果偏差超过了阈值,热舒适性就会降低;权重因子w2和w3以货币/℃为单位将舒适度映射为货币。
HEMS目标是找到最佳的需求响应调度策略π*,以最大化T个时隙范围内带折扣系数的累积奖励的期望。MDP模型的目标函数为:
Figure BDA0003573520980000128
其中,Π为所有策略的集合;策略π(a(t)|s(t))∈[0,1]:s(t)→P(a(t))是当系统状态为s(t)时选择动作a(t)的概率;γ为奖励折扣系数。
若将一天映射为T个时刻,本发明实施例中,可将调度目标表述为
Figure BDA0003573520980000131
例如将一天时间均匀分割为96个时间段、每个时间段时长Δt=15min、需求响应调度时间从每天上午8点开始,基于此设定进行调度。
操作S3,设计基于深度神经网络的随机策略,以获得价值网络和策略网络。
参阅图3,根据本发明的实施例,操作S3中使用以下概率分布来设计基于深度神经网络的随机策略:
Figure BDA0003573520980000132
其中,π(a(t)|s(t))为随机策略,a(t)为动作空间,s(t)为状态空间,B(·)为伯努利分布,p(·)为打开离散动作控制的电气设备的概率,N(·)为高斯分布,μc(·)为高斯分布的平均值,σc为高斯分布的标准差,
Figure BDA0003573520980000133
为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为空调消耗的功率,PEWH(t)为电热水器消耗的功率,PEV(t)为电动汽车的充电功率,t为时间。本实施例中,对于需要调度的具有离散动作的电气设备,近似策略π(a(t)|s(t))是一个伯努利分布B(p(s(t))),其中,p(s(t))表示打开离散动作控制的设备的概率,如
Figure BDA0003573520980000134
或p(uESS(t)=1|st);对于需要调度的具有连续动作的电气设备,近似策略π(a(t)|s(t))是一个高斯分布
Figure BDA0003573520980000135
根据本发明的实施例,策略网络的输入为s(t),输出为p(s(t))、μc(s(t))和log(σc);价值网络的输出维度为1,其他结构和参数与策略网络相同,损失函数为:
Figure BDA0003573520980000136
其中,LV(θ)为价值网络的损失函数,θ为策略网络和价值网络的参数,Et[·]为随机变量的期望值,Vπθ(·)为价值函数,γl为奖励折扣因子,r(t+1)为t+1时刻MDP模型的奖励函数。
操作S4,基于MDP模型,利用近端策略优化算法对价值网络和策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据最优动作策略管理各电气设备。
近端策略优化(Proximal Policy Optimization,PPO)算法使用了一个代替的目标函数LCLIP(θ)来近似目标J(πθ),并以此来计算策略梯度。根据本发明的实施例,操作S4中训练目标是最大化代替函数LCLIP(θ)和最小化损失函数LV(θ),整体损失函数为:
LAll(θ)=LCLIP(θ)-c·LV(θ)
Figure BDA0003573520980000141
其中,LAll(θ)为整体损失函数,θ为策略网络和价值网络的参数,c为第一超参数,kt(θ)为概率比,
Figure BDA0003573520980000142
为优势函数
Figure BDA0003573520980000143
的采样估计函数,
Figure BDA0003573520980000144
ε为第二超参数,clip()为截断函数,Et[·]为随机变量的期望值。
Figure BDA0003573520980000145
是用深度神经网络逼近的价值函数,称之为价值网络。
根据本发明的实施例,操作S4中训练操作包括:以代替函数LCLIP(θ)最大化为目标,反复执行以下迭代操作以更新策略网络和价值网络的参数:
Figure BDA0003573520980000146
其中,θi+1、θi分别为第i+1、i次迭代时策略网络和价值网络的参数,α为更新步长,LCLIPi)为第i次迭代时的代替函数。
如此反复迭代更新网络参数θ后,对策略网络的输出进行采样,就可分别获得对设备进行调度的离散动作和连续动作,得到输出的最佳实时调度操作。
参阅图4A-图4H,示出了对本发明实施例中联合LSTM和深度强化学习的家庭能源管理方法的验证。本验证实施例中,将一天24小时分为96个时间段,每个时间段时长Δt=15min,需求响应调度时间从每天上午8点开始,持续24小时,使用来自真实世界的数据进行实验。实验中,居民用户结合自己需要为电气负荷设定相应的工作参数,这点表明了用户居民活动的不确定性;为了体现该点,本实施例使电气负荷n的调度窗口开始时间
Figure BDA0003573520980000151
服从截断正态分布
Figure BDA0003573520980000152
以此来表述家庭中居民用户行为的随机性与不确定性。该截断正态分布的概率密度函数如下:
Figure BDA0003573520980000153
调度窗口的结束时间
Figure BDA0003573520980000154
与开始时间
Figure BDA0003573520980000155
的设置方式相同;该住宅中时间可调电气设备、功率可调电气设备、基本家庭用电设备的工作参数分别如表1、表2、表3所示。
表1
Figure BDA0003573520980000156
表2
Figure BDA0003573520980000161
表3
Figure BDA0003573520980000162
一天内的实时电价如图4A所示,在本实施例方法作用下,时间可调电气设备洗碗机、洗衣机、干洗机的调度结果分别如图4B、图4C、图4D所示,图中左边虚线形式的竖线至右边虚线形式的竖线之间的时间段为调度时间段窗口。从图4B-图4D中可以看出,洗碗机、洗衣机和干衣机都在相应的调度时间段内完成了任务,满足了用户的需要,并且每个时间可调设备都被安排在其调度时间窗口内价格较低的时段运行。功率可调电气设备空调、电热水器、电动汽车的调度结果分别如图4E、图4F、图4G所示;家庭光伏发电系统及其储能设备的调度结果如图4H所示。参阅4A-图4H,可以观察到每个时间可调设备被调度在其工作时间段内价格相对较低的时段运行,室内温度也持在用户设定的舒适的范围内,即介于22℃和26℃之间;水温也被控制在49℃至55℃这一满意度范围内;电动汽车会在电价相对较低的时期充电,并且当电动汽车离开时,电动汽车电池已经充电充足。不同情况下实验的结果对比,如表4所示。
表4
Figure BDA0003573520980000171
其中,无需求响应调度策略是指家庭中一旦有负荷运行的任务,时间可调设备和功率可调设备就会立即启动完成任务,无预测功能时所给策略是指HEMS的控制中心缺乏预测功能。表4分别展示了三种不同情况下连续30天的累计费用成本。可以看出,与无需求响应调度策略相比,本发明所提的方法可使得累计用电成本降低35.2%,而无预测功能所给策略只能降低24.4%,证明了本发明所提方法的优势。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,包括:
S1,利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息;
S2,根据家庭住宅中各类电气负荷对应电气设备的工作参数以及所述状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型;
S3,设计基于深度神经网络的随机策略,以获得价值网络和策略网络;
S4,基于所述MDP模型,利用近端策略优化算法对所述价值网络和所述策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据所述最优动作策略管理各电气设备。
2.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述电气负荷分为基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统;所述MDP模型包括状态空间、动作空间、状态转移概率和奖励函数,所述状态转移概率为未知参数。
3.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述状态空间为:
s(t)={sB(t),sD(t),sC(t),sPV(t),sESS(t),sP(t)}
其中,s(t)为所述状态空间,sB(t)为所有基本家庭用电负荷的状态,sD(t)为所有时间可调负荷的状态,sC(t)为所有功率可调负荷的状态,sPV(t)为家庭分布式光伏发电系统的状态,sESS(t)为储能系统的状态,sP(t)为电价信息的状态,t为时间。
4.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述功率可调负荷包括空调、电热水器和电动汽车,所述动作空间为:
Figure FDA0003573520970000021
其中,a(t)为所述动作空间,
Figure FDA0003573520970000022
为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为所述空调消耗的功率,PEWH(t)为所述电热水器消耗的功率,PEV(t)为所述电动汽车的充电功率,t为时间。
5.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述奖励函数为:
r(t)=-Celec(t)-Ccomf(t)
其中,r(t)为所述奖励函数,Celec(t)为用电成本,Ccomf(t)为满意度成本,t为时间。
6.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述S3中使用以下概率分布来设计基于深度神经网络的随机策略:
Figure FDA0003573520970000023
其中,π(a(t)|s(t))为所述随机策略,a(t)为动作空间,s(t)为状态空间,B(·)为伯努利分布,p(·)为打开离散动作控制的电气设备的概率,N(·)为高斯分布,μc(·)为高斯分布的平均值,σc为高斯分布的标准差,
Figure FDA0003573520970000024
为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为所述空调消耗的功率,PEWH(t)为所述电热水器消耗的功率,PEV(t)为所述电动汽车的充电功率,t为时间。
7.如权利要求6所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述策略网络的输入为s(t),输出为p(s(t))、μc(s(t))和log(σc);所述价值网络的输出维度为1,其他结构和参数与所述策略网络相同,损失函数为:
Figure FDA0003573520970000031
其中,LV(θ)为所述价值网络的损失函数,θ为所述策略网络和价值网络的参数,Et[·]为随机变量的期望值,Vπθ(·)为价值函数,γl为奖励折扣因子,r(t+1)为t+1时刻MDP模型的奖励函数。
8.如权利要求1-7任一项所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述S4中训练目标是最大化代替函数LCLIP(θ)和最小化损失函数LV(θ),整体损失函数为:
LAll(θ)=LCLIP(θ)-c·LV(θ)
Figure FDA0003573520970000032
其中,LAll(θ)为所述整体损失函数,θ为所述策略网络和价值网络的参数,c为第一超参数,kt(θ)为概率比,
Figure FDA0003573520970000033
为优势函数的采样估计函数,ε为第二超参数,clip()为截断函数,Et[·]为随机变量的期望值。
9.如权利要求8所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述S4中训练操作包括:
以代替函数LCLIP(θ)最大化为目标,反复执行以下迭代操作以更新所述策略网络和价值网络的参数:
Figure FDA0003573520970000034
其中,θi+1、θi分别为第i+1、i次迭代时所述策略网络和价值网络的参数,α为更新步长,LCLIPi)为第i次迭代时的代替函数。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-9中任一项所述的联合LSTM和深度强化学习的家庭能源管理方法。
CN202210332358.9A 2022-03-30 2022-03-30 联合lstm和深度强化学习的家庭能源管理方法及介质 Pending CN114841409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210332358.9A CN114841409A (zh) 2022-03-30 2022-03-30 联合lstm和深度强化学习的家庭能源管理方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210332358.9A CN114841409A (zh) 2022-03-30 2022-03-30 联合lstm和深度强化学习的家庭能源管理方法及介质

Publications (1)

Publication Number Publication Date
CN114841409A true CN114841409A (zh) 2022-08-02

Family

ID=82563901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210332358.9A Pending CN114841409A (zh) 2022-03-30 2022-03-30 联合lstm和深度强化学习的家庭能源管理方法及介质

Country Status (1)

Country Link
CN (1) CN114841409A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731072A (zh) * 2022-11-22 2023-03-03 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN115936195A (zh) * 2022-11-23 2023-04-07 合肥工业大学 智能小区能源优化方法、系统、电子设备和存储介质
CN117726133A (zh) * 2023-12-29 2024-03-19 国网江苏省电力有限公司信息通信分公司 一种基于强化学习的分布式能源实时调度方法及系统
CN117833307A (zh) * 2023-12-08 2024-04-05 三峡大学 一种基于近似集体策略和独立学习器的家庭微网群优化方法
CN117833287A (zh) * 2023-12-08 2024-04-05 三峡大学 一种基于pster-td3的家庭微电网在线能量管理方法
CN118278705A (zh) * 2024-05-30 2024-07-02 湖南工商大学 一种基于深度强化学习的社区家庭微网能量优化调控方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731072A (zh) * 2022-11-22 2023-03-03 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN115731072B (zh) * 2022-11-22 2024-01-30 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN115936195A (zh) * 2022-11-23 2023-04-07 合肥工业大学 智能小区能源优化方法、系统、电子设备和存储介质
CN115936195B (zh) * 2022-11-23 2024-07-12 合肥工业大学 智能小区能源优化方法、系统、电子设备和存储介质
CN117833307A (zh) * 2023-12-08 2024-04-05 三峡大学 一种基于近似集体策略和独立学习器的家庭微网群优化方法
CN117833287A (zh) * 2023-12-08 2024-04-05 三峡大学 一种基于pster-td3的家庭微电网在线能量管理方法
CN117833307B (zh) * 2023-12-08 2024-06-11 三峡大学 一种基于近似集体策略和独立学习器的家庭微网群优化方法
CN117726133A (zh) * 2023-12-29 2024-03-19 国网江苏省电力有限公司信息通信分公司 一种基于强化学习的分布式能源实时调度方法及系统
CN118278705A (zh) * 2024-05-30 2024-07-02 湖南工商大学 一种基于深度强化学习的社区家庭微网能量优化调控方法
CN118278705B (zh) * 2024-05-30 2024-09-20 湖南工商大学 一种基于深度强化学习的社区家庭微网能量优化调控方法

Similar Documents

Publication Publication Date Title
CN114841409A (zh) 联合lstm和深度强化学习的家庭能源管理方法及介质
Fontenot et al. Modeling and control of building-integrated microgrids for optimal energy management–a review
Li et al. A multi-grid reinforcement learning method for energy conservation and comfort of HVAC in buildings
CN109599856B (zh) 一种微网多楼宇中电动汽车充放电管理优化方法及装置
CN111339689B (zh) 建筑综合能源调度方法、系统、存储介质及计算机设备
CN110866641A (zh) 计及源储荷协同的多能互补系统两级优化调度方法及系统
CN114418249B (zh) 一种光储柔系统运行控制方法及装置
Soares et al. Using reinforcement learning for maximizing residential self-consumption–Results from a field test
CN113131519B (zh) 一种基于混合整数线性规划的家庭能量管理优化方法
KR102463146B1 (ko) 계층적 심화 강화학습을 이용한 hems 최적화 방법 및 장치
CN110474370B (zh) 一种空调可控负荷、光伏储能系统的协同控制系统及方法
CN115241927B (zh) 家庭智慧能源系统运行控制方法、装置、设备及介质
Bai et al. Flexibility quantification and enhancement of flexible electric energy systems in buildings
CN117172499A (zh) 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质
CN113158450A (zh) 一种基于楼宇能量管理系统经济调度方法及系统
Garifi et al. Stochastic home energy management systems with varying controllable resources
Xue et al. Interactive building load management for smart grid
Langner et al. Model predictive control of distributed energy resources in residential buildings considering forecast uncertainties
CN105894122A (zh) 一种用于家庭能量管理系统的用电设备运行调度方法
Tiwari et al. Optimal scheduling of home appliances under automated demand response
CN118485208A (zh) 知识融合深度强化学习的计及舒适度的家庭能量调度方法
CN113673830B (zh) 基于非侵入式负荷监测技术的自适应家庭能量管理方法
Amadeh et al. Building cluster demand flexibility: An innovative characterization framework and applications at the planning and operational levels
CN117332989A (zh) 一种区域综合能源系统削峰填谷方法
Ali et al. Day ahead appliance scheduling with renewable energy integration for smart homes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination