CN114841409A - 联合lstm和深度强化学习的家庭能源管理方法及介质 - Google Patents
联合lstm和深度强化学习的家庭能源管理方法及介质 Download PDFInfo
- Publication number
- CN114841409A CN114841409A CN202210332358.9A CN202210332358A CN114841409A CN 114841409 A CN114841409 A CN 114841409A CN 202210332358 A CN202210332358 A CN 202210332358A CN 114841409 A CN114841409 A CN 114841409A
- Authority
- CN
- China
- Prior art keywords
- network
- time
- strategy
- state
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 32
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000005611 electricity Effects 0.000 claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 29
- 238000010248 power generation Methods 0.000 claims abstract description 29
- 230000004044 response Effects 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000007704 transition Effects 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 56
- 238000004146 energy storage Methods 0.000 claims description 33
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 19
- 238000007599 discharging Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 9
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 claims 1
- SCMLGVPMSXTUNC-UHFFFAOYSA-N N-[2-[[5-chloro-2-[4-(4-methylpiperazin-1-yl)anilino]pyrimidin-4-yl]amino]phenyl]prop-2-enamide Chemical compound CN1CCN(CC1)c1ccc(Nc2ncc(Cl)c(Nc3ccccc3NC(=O)C=C)n2)cc1 SCMLGVPMSXTUNC-UHFFFAOYSA-N 0.000 description 22
- 208000019901 Anxiety disease Diseases 0.000 description 5
- 230000036506 anxiety Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005406 washing Methods 0.000 description 4
- 238000004378 air conditioning Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/12—Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
- H02J3/14—Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading
- H02J3/144—Demand-response operation of the power transmission or distribution network
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2310/00—The network for supplying or distributing electric power characterised by its spatial reach or by the load
- H02J2310/50—The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads
- H02J2310/56—The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads characterised by the condition upon which the selective controlling is based
- H02J2310/58—The condition being electrical
- H02J2310/60—Limiting power consumption in the network or in one section of the network, e.g. load shedding or peak shaving
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S20/00—Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
- Y04S20/20—End-user application control systems
- Y04S20/242—Home appliances
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Power Engineering (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种联合LSTM和深度强化学习的家庭能源管理方法及介质,属于智能电网需求响应领域,方法包括:利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息;根据家庭住宅中各类电气负荷对应电气设备的工作参数以及状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型;设计基于深度神经网络的随机策略,以获得价值网络和策略网络;基于MDP模型,利用近端策略优化算法对价值网络和策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据最优动作策略管理各电气设备。实现最小化家庭用能成本和保证用户舒适度的目标。
Description
技术领域
本发明属于智能电网需求响应领域,更具体地,涉及一种联合LSTM和深度强化学习的家庭能源管理方法及介质。
背景技术
家庭能源管理系统(Home Energy Management System,HEMS)能够根据实时电价自动优化家庭用电负荷的用电量,降低用电成本。然而,由于实时电价定价过程和居民活动中存在随机性或不确定性,开发高效的家庭能源管理系统是具有挑战性的。具体而言,受居民生活活动影响,家庭用电负荷的运行时间和时长通常存在着很多不确定性,且难以预测。这种不确定性使得家庭能源管理系统很难有效地规划需求响应时间调度,以应对动态电价的不确定性。此外,为了能有效地控制调度设备,需要准确的设备模型信息和参数来对这些设备的电力特性和运行动态进行建模。然而,这样精确和专业的信息对于一般的家庭系统来说不是总能获得的。
现有技术中,家用电器的能源管理是以用户电费最低作为最优化目标,并且家庭能源管理调度策略都是基于具体模型的。研究基于模型的家庭能源管理调度策略需要显式的优化模型、预测器和求解器,这个过程需要详细且明确的电气负荷和运行场景的信息,并且算法性能可能会因为模型建立的不准确而恶化。深度强化学习算法利用深度神经网络的学习能力克服了许多问题,它并不需要精确的模型信息,并且可以被用来解决序贯决策问题。随着能源需求量不断增长,发展光伏、风电等清洁能源、应对气候变化已经成为普遍共识,家庭分布式光伏发电系统已逐渐得到推广和应用。但新能源发电系统的不确定性对于研究一种有效的家庭能源管理调度方法又是一种挑战。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种联合LSTM和深度强化学习的家庭能源管理方法及介质,其目的在于对综合了各种电气设备的家庭住宅系统进行实时调度,实现最小化家庭用能成本和保证用户舒适度的目标。
为实现上述目的,按照本发明的一个方面,提供了一种联合LSTM和深度强化学习的家庭能源管理方法,包括:S1,利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息;S2,根据家庭住宅中各类电气负荷对应电气设备的工作参数以及所述状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型;S3,设计基于深度神经网络的随机策略,以获得价值网络和策略网络;S4,基于所述MDP模型,利用近端策略优化算法对所述价值网络和所述策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据所述最优动作策略管理各电气设备。
更进一步地,所述电气负荷分为基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统;所述MDP模型包括状态空间、动作空间、状态转移概率和奖励函数,所述状态转移概率为未知参数。
更进一步地,所述状态空间为:
s(t)={sB(t),sD(t),sC(t),sPV(t),sESS(t),sP(t)}
其中,s(t)为所述状态空间,sB(t)为所有基本家庭用电负荷的状态,sD(t)为所有时间可调负荷的状态,sC(t)为所有功率可调负荷的状态,sPV(t)为家庭分布式光伏发电系统的状态,sESS(t)为储能系统的状态,sP(t)为电价信息的状态,t为时间。
更进一步地,所述功率可调负荷包括空调、电热水器和电动汽车,所述动作空间为:
其中,a(t)为所述动作空间,为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为所述空调消耗的功率,PEWH(t)为所述电热水器消耗的功率,PEV(t)为所述电动汽车的充电功率,t为时间。
更进一步地,所述奖励函数为:
r(t)=-Celec(t)-Ccomf(t)
其中,r(t)为所述奖励函数,Celec(t)为用电成本,Ccomf(t)为满意度成本,t为时间。
更进一步地,所述S3中使用以下概率分布来设计基于深度神经网络的随机策略:
其中,π(a(t)|s(t))为所述随机策略,a(t)为动作空间,s(t)为状态空间,B(·)为伯努利分布,p(·)为打开离散动作控制的电气设备的概率,N(·)为高斯分布,μc(·)为高斯分布的平均值,σc为高斯分布的标准差,为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为所述空调消耗的功率,PEWH(t)为所述电热水器消耗的功率,PEV(t)为所述电动汽车的充电功率,t为时间。
更进一步地,所述策略网络的输入为s(t),输出为p(s(t))、μc(s(t))和log(σc);所述价值网络的输出维度为1,其他结构和参数与所述策略网络相同,损失函数为:
其中,LV(θ)为所述价值网络的损失函数,θ为所述策略网络和价值网络的参数,Et[·]为随机变量的期望值,Vπθ(·)为价值函数,γl为奖励折扣因子,r(t+1)为t+1时刻MDP模型的奖励函数。
更进一步地,所述S4中训练目标是最大化代替函数LCLIP(θ)和最小化损失函数LV(θ),整体损失函数为:
LAll(θ)=LCLIP(θ)-c·LV(θ)
其中,LAll(θ)为所述整体损失函数,θ为所述策略网络和价值网络的参数,c为第一超参数,kt(θ)为概率比,为优势函数的采样估计函数,ε为第二超参数,clip()为截断函数,Et[·]为随机变量的期望值。
更进一步地,所述S4中训练操作包括:以代替函数LCLIP(θ)最大化为目标,反复执行以下迭代操作以更新所述策略网络和价值网络的参数:
其中,θi+1、θi分别为第i+1、i次迭代时所述策略网络和价值网络的参数,α为更新步长,LCLIP(θi)为第i次迭代时的代替函数。
按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的联合LSTM和深度强化学习的家庭能源管理方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)采用LSTM网络预测下一时间段的光伏发电量信息和电价信息,能够帮助家庭住宅系统探索状态输入的轨迹,以便在算法学习过程中更有效地计算未来奖励,加快算法收敛速度;
(2)同时涉及各类不同电气负荷的参与性,包括基本家庭用电负荷、时间可调负荷、功率可调负荷的参与性,使得整个参与调度的HEMS适用性更广,在考虑实时电价和室外环境因素(包括温度因素)的不确定性、新能源光伏发电的不确定性和居民用电的活动的不确定性的情况下,给出了一种有效的家庭能源管理方法,实现对一个综合了各种电气设备的家庭住宅系统的实时优化调度;
(3)克服了因为环境等因素导致的光伏发电的不确定性,还将家庭分布式光伏发电系统作为HEMS的一部分进行实时调度,不仅减少了居民用电成本,还能够同时保证居民用户的舒适性。
附图说明
图1为本发明实施例提供的联合LSTM和深度强化学习的家庭能源管理方法的流程图;
图2为本发明实施例提供的家庭能源管理系统的示意图;
图3为本发明实施例提供的策略网络体系的结构示意图;
图4A为本发明实施例提供的一天中的实时电价;
图4B、图4C、图4D分别为洗碗机、洗衣机、干衣机的调度结果;
图4E、图4F、图4G分别为空调、电热水器、电动汽车的调度结果;
图4H为家庭光伏发电系统及其储能设备的调度结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1为本发明实施例提供的联合LSTM和深度强化学习的家庭能源管理方法的流程图。参阅图1,结合图2-图4H,对本实施例中联合LSTM和深度强化学习的家庭能源管理方法进行详细说明,方法包括操作S1-操作S4。
参阅图2,示出了本发明实施例中具备各种不同电气负荷类型的家庭能源管理系统,包含基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统,储能系统例如包括储能设备、智能电表、系统控制中心等。家庭住宅例如包括一台洗碗机、一台洗衣机和一台干衣机这三个时间可调负荷,包括空调、电热水器和电动汽车正三个功率可调负荷,包括冰箱、吹风机、吸尘器、电视和电灯这五个基本家庭用电负荷,包括一个家庭分布式光伏发电系统及其储能系统。
用户可以结合自身需求设置电气负荷的运行工作数据,包括每个电气设备需要在哪些时间段内工作、该设备的调度时间窗口、以及每个设备完成工作任务所需要的运行时间。系统控制中心可以通过智能电表时刻收集住宅中电气负荷的实时信息,包含用电信息、光伏发电系统的组件信息等,可以收到公用电网发布的实时电价信息。该控制中心包含操作S1,它会结合经过优化计算的信息将调度结果通过信息流传给相应的电气设备安排其运行操作。
基本家庭用电负荷是指不能被需求响应策略调度、运行时间固定的负荷,其运行时间不会因任何外部因素而调整。基本家庭用电负荷不参与家庭能源管理系统的协调调度,仅在计算总能耗时作为负荷计入。如果一个基本家庭用电负荷b=1,…,B需要工作在这一时间段,那么它需要立刻响应开始工作,其运行功率可被如下需求等价:
时间可调负荷的工作周期固定,启动后须连续运行直至任务完成。由于该类负荷的运行时间具有一定弹性且对该类负荷进行调度不会对用户的日常生活行为构成明显限制,因此该类负荷的运行可由HEMS进行统一调度。对于时间可调负荷d=1,…,D,其在t时刻的功率消耗可等价为:
其中,表示电气设备d到目前为止已经完成的工作进度;表示为了满足电气设备d的能源需求所必须的工作时间;上述约束条件中,第一个公式表示要求设备必须连续地运行,第二个公式限制了设备在调度时间范围内必须完成规定的工作量,第三个公式确保了不在调度时间段内时间可调负荷一定是不运行的。
对于功率可调负荷而言,其能源消耗是连续的,负荷运行时的功率是可控的,本发明实施例中考虑了空调、电热水器和电动汽车这三类功率可调负荷。考虑空调系统作用的室内温度TAC(t),空调的功率为:
考虑电热水器中水温TEWH(t)的电热水器功率为:
SoCmin≤SoC(t)≤SoCmax
其中,SoC(t+1)为t+1时刻电动汽车蓄电池的荷电状态,为电动汽车充电效率,为电动汽车电池的最大容量(kWh),PEV(t)为t时刻电动汽车的充电功率,SoCmax为电动汽车蓄电池的最大荷电状态,SoCmin为电动汽车蓄电池的最小荷电状态。
为了减少充放电对电池寿命的损耗,本发明实施例中电动汽车的蓄电池仅考虑其充电约束:
PEV(t)=0,其他
对于家庭分布式光伏发电系统而言,光伏电池组件的输出由温度、太阳辐射强度等因素决定,具有随机性的特征,RPV(t)代表在t时刻由家庭分布式光伏系统产生的可再生能源:
其储能系统选取目前广泛应用的蓄电池储能系统,储能系统的充电和放电行为响应于充放电控制信号uESS(t)。uESS(t)是一个二元变量,当uESS(t)=0时,储能系统进行充电;否则,储能系统放电。为了提高家庭分布式光伏发电系统的就地消纳水平,HEMS为光伏发电系统和储能系统设置了使用优先级,在每一时刻都优先使用光伏发电提供的能量。另外,对于t时刻储能设备放出/充进的电能E(t)有:
其中,代表储能系统一次最大充放电功率,若某一时刻HEMS发出了充电信号,储能系统验证充电操作的可行性(介于储能设备的最大容量和一次最大充电量之间),相应地存储能量,类似地,在放电情况下,储能系统接收来自HEMS的供电请求,验证放电操作的可行性(介于储能设备剩余容量和一次最大放电量之间),相应地返回可用电力。
操作S1,利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息。
HEMS的控制中心于t时刻发布调度操作电气设备的执行策略后,系统会通过信息流收到信息,观测到下一个时刻的状态,但由于下一个时刻的实时电价信息和光伏发电量是未知的,这将导致整个系统的下一个状态的不确定性。同时因为这种对未来的未知性,无法获取新的状态来更新下一个时刻光伏系统的状态和电价信息的状态。本发明实施例中,利用长短期记忆网络(Long Short-Term Memory,LSTM)来填补下一个时刻的实时电价信息和光伏发电量信息的缺失,以此获得执行动作更新后的t+1时刻的马尔可夫决策过程(Markov Decision Processes,MDP)的状态空间信息。
操作S2,根据家庭住宅中各类电气负荷对应电气设备的工作参数以及状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型。
根据本发明的实施例,MDP模型包括状态空间、动作空间、状态转移概率、奖励函数和目标(函数)。状态转移概率对于智能体HEMS而言,为未知参数。
状态空间为:
s(t)={sB(t),sD(t),sC(t),sPV(t),sESS(t),sP(t)}
其中,s(t)为状态空间,sB(t)为所有基本家庭用电负荷的状态,sD(t)为所有时间可调负荷的状态,sC(t)为所有功率可调负荷的状态,sPV(t)为家庭分布式光伏发电系统的状态,sESS(t)为储能系统的状态,sP(t)为电价信息的状态,t为时间。
对于时间可调负荷d=1,…,D,定义其在t时刻的状态:
其中,Tindoor(t)是t时刻的室内温度,是t时刻居民用户期望的室内温度,Twater(t)是t时刻电热水器中的水温,是t时刻根据用户期望所设定的电热水器中的水温,SoC(t+1)为t+1时刻电动汽车蓄电池的荷电状态,所以功率可调负荷的在某一时刻t的状态集合是sC(t)={sAC(t),sEWH(t),sEV(t)}。
家庭分布式光伏系统在t时刻的状态为sPV(t)={RPV(t)},其中,RPV(t)为时刻t由家庭分布式光伏系统的光伏产量。
储能系统在t时刻的状态定义为sESS(t)={B(t),E(t)},其中,B(t+1)为t+1时刻储能设备中拥有的电能,E(t)为t时刻储能设备放出或充进的电能。
根据本发明的实施例,功率可调负荷包括空调、电热水器和电动汽车,此时的动作空间为:
其中,a(t)为动作空间,为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为空调消耗的功率,PEWH(t)为电热水器消耗的功率,PEV(t)为电动汽车的充电功率,t为时间。
奖励函数为:
r(t)=-Celec(t)-Ccomf(t)
其中,r(t)为奖励函数,Celec(t)为用电成本,Ccomf(t)为满意度成本,t为时间。
MDP模型的奖励函数中,成本模型包括电力成本模型和用户满意度模型。电力成本模型为为:
Celec(t)=[Pg(t)·Δt+E(t)]·price(t)
其中,Celec(t)为用电成本,E(t)为储能系统充进或放出的电量,Pg(t)是家庭住宅在时刻t电器消耗的总功率,price(t)为实时电价,Pg(t)定义为:
用户满意度模型为用户满意度受温控负荷影响的温度舒适度和电动汽车带来的里程焦虑影响。用户满意度模型如下:
Ccomf(t)=CEV(t)-CEWH(t)-CAC(t)
其中,Ccomf(t)是以货币为单位的满意度成本,CEV(t)代表以货币为单位的电动汽车充电带来的里程焦虑,CEWH(t)指电热水器所影响的温度舒适性,CAC(t)指空调所影响的温度舒适性。
电动汽车带来的里程焦虑衡量的是居民对电动汽车没有足够能量到达目的地的忧虑,这一担忧的衡量标准为:
温控负荷电热水器和空调所影响的热舒适性CEWH(t)和CAC(t)定义分别如下:
HEMS目标是找到最佳的需求响应调度策略π*,以最大化T个时隙范围内带折扣系数的累积奖励的期望。MDP模型的目标函数为:
其中,Π为所有策略的集合;策略π(a(t)|s(t))∈[0,1]:s(t)→P(a(t))是当系统状态为s(t)时选择动作a(t)的概率;γ为奖励折扣系数。
操作S3,设计基于深度神经网络的随机策略,以获得价值网络和策略网络。
参阅图3,根据本发明的实施例,操作S3中使用以下概率分布来设计基于深度神经网络的随机策略:
其中,π(a(t)|s(t))为随机策略,a(t)为动作空间,s(t)为状态空间,B(·)为伯努利分布,p(·)为打开离散动作控制的电气设备的概率,N(·)为高斯分布,μc(·)为高斯分布的平均值,σc为高斯分布的标准差,为第d个时间可调负荷的运行状态,d=1,2,…,D,D为时间可调负荷的总数,uESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号,PAC(t)为空调消耗的功率,PEWH(t)为电热水器消耗的功率,PEV(t)为电动汽车的充电功率,t为时间。本实施例中,对于需要调度的具有离散动作的电气设备,近似策略π(a(t)|s(t))是一个伯努利分布B(p(s(t))),其中,p(s(t))表示打开离散动作控制的设备的概率,如或p(uESS(t)=1|st);对于需要调度的具有连续动作的电气设备,近似策略π(a(t)|s(t))是一个高斯分布
根据本发明的实施例,策略网络的输入为s(t),输出为p(s(t))、μc(s(t))和log(σc);价值网络的输出维度为1,其他结构和参数与策略网络相同,损失函数为:
其中,LV(θ)为价值网络的损失函数,θ为策略网络和价值网络的参数,Et[·]为随机变量的期望值,Vπθ(·)为价值函数,γl为奖励折扣因子,r(t+1)为t+1时刻MDP模型的奖励函数。
操作S4,基于MDP模型,利用近端策略优化算法对价值网络和策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据最优动作策略管理各电气设备。
近端策略优化(Proximal Policy Optimization,PPO)算法使用了一个代替的目标函数LCLIP(θ)来近似目标J(πθ),并以此来计算策略梯度。根据本发明的实施例,操作S4中训练目标是最大化代替函数LCLIP(θ)和最小化损失函数LV(θ),整体损失函数为:
LAll(θ)=LCLIP(θ)-c·LV(θ)
其中,LAll(θ)为整体损失函数,θ为策略网络和价值网络的参数,c为第一超参数,kt(θ)为概率比,为优势函数的采样估计函数,ε为第二超参数,clip()为截断函数,Et[·]为随机变量的期望值。是用深度神经网络逼近的价值函数,称之为价值网络。
根据本发明的实施例,操作S4中训练操作包括:以代替函数LCLIP(θ)最大化为目标,反复执行以下迭代操作以更新策略网络和价值网络的参数:
其中,θi+1、θi分别为第i+1、i次迭代时策略网络和价值网络的参数,α为更新步长,LCLIP(θi)为第i次迭代时的代替函数。
如此反复迭代更新网络参数θ后,对策略网络的输出进行采样,就可分别获得对设备进行调度的离散动作和连续动作,得到输出的最佳实时调度操作。
参阅图4A-图4H,示出了对本发明实施例中联合LSTM和深度强化学习的家庭能源管理方法的验证。本验证实施例中,将一天24小时分为96个时间段,每个时间段时长Δt=15min,需求响应调度时间从每天上午8点开始,持续24小时,使用来自真实世界的数据进行实验。实验中,居民用户结合自己需要为电气负荷设定相应的工作参数,这点表明了用户居民活动的不确定性;为了体现该点,本实施例使电气负荷n的调度窗口开始时间服从截断正态分布以此来表述家庭中居民用户行为的随机性与不确定性。该截断正态分布的概率密度函数如下:
表1
表2
表3
一天内的实时电价如图4A所示,在本实施例方法作用下,时间可调电气设备洗碗机、洗衣机、干洗机的调度结果分别如图4B、图4C、图4D所示,图中左边虚线形式的竖线至右边虚线形式的竖线之间的时间段为调度时间段窗口。从图4B-图4D中可以看出,洗碗机、洗衣机和干衣机都在相应的调度时间段内完成了任务,满足了用户的需要,并且每个时间可调设备都被安排在其调度时间窗口内价格较低的时段运行。功率可调电气设备空调、电热水器、电动汽车的调度结果分别如图4E、图4F、图4G所示;家庭光伏发电系统及其储能设备的调度结果如图4H所示。参阅4A-图4H,可以观察到每个时间可调设备被调度在其工作时间段内价格相对较低的时段运行,室内温度也持在用户设定的舒适的范围内,即介于22℃和26℃之间;水温也被控制在49℃至55℃这一满意度范围内;电动汽车会在电价相对较低的时期充电,并且当电动汽车离开时,电动汽车电池已经充电充足。不同情况下实验的结果对比,如表4所示。
表4
其中,无需求响应调度策略是指家庭中一旦有负荷运行的任务,时间可调设备和功率可调设备就会立即启动完成任务,无预测功能时所给策略是指HEMS的控制中心缺乏预测功能。表4分别展示了三种不同情况下连续30天的累计费用成本。可以看出,与无需求响应调度策略相比,本发明所提的方法可使得累计用电成本降低35.2%,而无预测功能所给策略只能降低24.4%,证明了本发明所提方法的优势。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,包括:
S1,利用LSTM网络预测下一时间段的光伏发电量信息和电价信息,并作为下一时间段马尔可夫决策过程的状态空间信息;
S2,根据家庭住宅中各类电气负荷对应电气设备的工作参数以及所述状态空间信息,将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程,得到MDP模型;
S3,设计基于深度神经网络的随机策略,以获得价值网络和策略网络;
S4,基于所述MDP模型,利用近端策略优化算法对所述价值网络和所述策略网络进行训练,并利用训练后的策略网络输出最优动作策略,根据所述最优动作策略管理各电气设备。
2.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述电气负荷分为基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统;所述MDP模型包括状态空间、动作空间、状态转移概率和奖励函数,所述状态转移概率为未知参数。
3.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述状态空间为:
s(t)={sB(t),sD(t),sC(t),sPV(t),sESS(t),sP(t)}
其中,s(t)为所述状态空间,sB(t)为所有基本家庭用电负荷的状态,sD(t)为所有时间可调负荷的状态,sC(t)为所有功率可调负荷的状态,sPV(t)为家庭分布式光伏发电系统的状态,sESS(t)为储能系统的状态,sP(t)为电价信息的状态,t为时间。
5.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述奖励函数为:
r(t)=-Celec(t)-Ccomf(t)
其中,r(t)为所述奖励函数,Celec(t)为用电成本,Ccomf(t)为满意度成本,t为时间。
6.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法,其特征在于,所述S3中使用以下概率分布来设计基于深度神经网络的随机策略:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-9中任一项所述的联合LSTM和深度强化学习的家庭能源管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210332358.9A CN114841409A (zh) | 2022-03-30 | 2022-03-30 | 联合lstm和深度强化学习的家庭能源管理方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210332358.9A CN114841409A (zh) | 2022-03-30 | 2022-03-30 | 联合lstm和深度强化学习的家庭能源管理方法及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114841409A true CN114841409A (zh) | 2022-08-02 |
Family
ID=82563901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210332358.9A Pending CN114841409A (zh) | 2022-03-30 | 2022-03-30 | 联合lstm和深度强化学习的家庭能源管理方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841409A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115731072A (zh) * | 2022-11-22 | 2023-03-03 | 东南大学 | 一种基于安全深度强化学习的微网时空感知能量管理方法 |
CN115936195A (zh) * | 2022-11-23 | 2023-04-07 | 合肥工业大学 | 智能小区能源优化方法、系统、电子设备和存储介质 |
CN117726133A (zh) * | 2023-12-29 | 2024-03-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于强化学习的分布式能源实时调度方法及系统 |
CN117833307A (zh) * | 2023-12-08 | 2024-04-05 | 三峡大学 | 一种基于近似集体策略和独立学习器的家庭微网群优化方法 |
CN117833287A (zh) * | 2023-12-08 | 2024-04-05 | 三峡大学 | 一种基于pster-td3的家庭微电网在线能量管理方法 |
CN118278705A (zh) * | 2024-05-30 | 2024-07-02 | 湖南工商大学 | 一种基于深度强化学习的社区家庭微网能量优化调控方法 |
-
2022
- 2022-03-30 CN CN202210332358.9A patent/CN114841409A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115731072A (zh) * | 2022-11-22 | 2023-03-03 | 东南大学 | 一种基于安全深度强化学习的微网时空感知能量管理方法 |
CN115731072B (zh) * | 2022-11-22 | 2024-01-30 | 东南大学 | 一种基于安全深度强化学习的微网时空感知能量管理方法 |
CN115936195A (zh) * | 2022-11-23 | 2023-04-07 | 合肥工业大学 | 智能小区能源优化方法、系统、电子设备和存储介质 |
CN115936195B (zh) * | 2022-11-23 | 2024-07-12 | 合肥工业大学 | 智能小区能源优化方法、系统、电子设备和存储介质 |
CN117833307A (zh) * | 2023-12-08 | 2024-04-05 | 三峡大学 | 一种基于近似集体策略和独立学习器的家庭微网群优化方法 |
CN117833287A (zh) * | 2023-12-08 | 2024-04-05 | 三峡大学 | 一种基于pster-td3的家庭微电网在线能量管理方法 |
CN117833307B (zh) * | 2023-12-08 | 2024-06-11 | 三峡大学 | 一种基于近似集体策略和独立学习器的家庭微网群优化方法 |
CN117726133A (zh) * | 2023-12-29 | 2024-03-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于强化学习的分布式能源实时调度方法及系统 |
CN118278705A (zh) * | 2024-05-30 | 2024-07-02 | 湖南工商大学 | 一种基于深度强化学习的社区家庭微网能量优化调控方法 |
CN118278705B (zh) * | 2024-05-30 | 2024-09-20 | 湖南工商大学 | 一种基于深度强化学习的社区家庭微网能量优化调控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114841409A (zh) | 联合lstm和深度强化学习的家庭能源管理方法及介质 | |
Fontenot et al. | Modeling and control of building-integrated microgrids for optimal energy management–a review | |
Li et al. | A multi-grid reinforcement learning method for energy conservation and comfort of HVAC in buildings | |
CN109599856B (zh) | 一种微网多楼宇中电动汽车充放电管理优化方法及装置 | |
CN111339689B (zh) | 建筑综合能源调度方法、系统、存储介质及计算机设备 | |
CN110866641A (zh) | 计及源储荷协同的多能互补系统两级优化调度方法及系统 | |
CN114418249B (zh) | 一种光储柔系统运行控制方法及装置 | |
Soares et al. | Using reinforcement learning for maximizing residential self-consumption–Results from a field test | |
CN113131519B (zh) | 一种基于混合整数线性规划的家庭能量管理优化方法 | |
KR102463146B1 (ko) | 계층적 심화 강화학습을 이용한 hems 최적화 방법 및 장치 | |
CN110474370B (zh) | 一种空调可控负荷、光伏储能系统的协同控制系统及方法 | |
CN115241927B (zh) | 家庭智慧能源系统运行控制方法、装置、设备及介质 | |
Bai et al. | Flexibility quantification and enhancement of flexible electric energy systems in buildings | |
CN117172499A (zh) | 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质 | |
CN113158450A (zh) | 一种基于楼宇能量管理系统经济调度方法及系统 | |
Garifi et al. | Stochastic home energy management systems with varying controllable resources | |
Xue et al. | Interactive building load management for smart grid | |
Langner et al. | Model predictive control of distributed energy resources in residential buildings considering forecast uncertainties | |
CN105894122A (zh) | 一种用于家庭能量管理系统的用电设备运行调度方法 | |
Tiwari et al. | Optimal scheduling of home appliances under automated demand response | |
CN118485208A (zh) | 知识融合深度强化学习的计及舒适度的家庭能量调度方法 | |
CN113673830B (zh) | 基于非侵入式负荷监测技术的自适应家庭能量管理方法 | |
Amadeh et al. | Building cluster demand flexibility: An innovative characterization framework and applications at the planning and operational levels | |
CN117332989A (zh) | 一种区域综合能源系统削峰填谷方法 | |
Ali et al. | Day ahead appliance scheduling with renewable energy integration for smart homes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |