CN114841409A

CN114841409A - 联合lstm和深度强化学习的家庭能源管理方法及介质

Info

Publication number: CN114841409A
Application number: CN202210332358.9A
Authority: CN
Inventors: 池明; 张梦露; 刘智伟; 肖江文; 王燕舞; 刘骁康; 韦贵熙
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-08-02

Abstract

本发明公开了一种联合LSTM和深度强化学习的家庭能源管理方法及介质，属于智能电网需求响应领域，方法包括：利用LSTM网络预测下一时间段的光伏发电量信息和电价信息，并作为下一时间段马尔可夫决策过程的状态空间信息；根据家庭住宅中各类电气负荷对应电气设备的工作参数以及状态空间信息，将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程，得到MDP模型；设计基于深度神经网络的随机策略，以获得价值网络和策略网络；基于MDP模型，利用近端策略优化算法对价值网络和策略网络进行训练，并利用训练后的策略网络输出最优动作策略，根据最优动作策略管理各电气设备。实现最小化家庭用能成本和保证用户舒适度的目标。

Description

联合LSTM和深度强化学习的家庭能源管理方法及介质

技术领域

本发明属于智能电网需求响应领域，更具体地，涉及一种联合LSTM和深度强化学习的家庭能源管理方法及介质。

背景技术

家庭能源管理系统(Home Energy Management System，HEMS)能够根据实时电价自动优化家庭用电负荷的用电量，降低用电成本。然而，由于实时电价定价过程和居民活动中存在随机性或不确定性，开发高效的家庭能源管理系统是具有挑战性的。具体而言，受居民生活活动影响，家庭用电负荷的运行时间和时长通常存在着很多不确定性，且难以预测。这种不确定性使得家庭能源管理系统很难有效地规划需求响应时间调度，以应对动态电价的不确定性。此外，为了能有效地控制调度设备，需要准确的设备模型信息和参数来对这些设备的电力特性和运行动态进行建模。然而，这样精确和专业的信息对于一般的家庭系统来说不是总能获得的。

现有技术中，家用电器的能源管理是以用户电费最低作为最优化目标，并且家庭能源管理调度策略都是基于具体模型的。研究基于模型的家庭能源管理调度策略需要显式的优化模型、预测器和求解器，这个过程需要详细且明确的电气负荷和运行场景的信息，并且算法性能可能会因为模型建立的不准确而恶化。深度强化学习算法利用深度神经网络的学习能力克服了许多问题，它并不需要精确的模型信息，并且可以被用来解决序贯决策问题。随着能源需求量不断增长，发展光伏、风电等清洁能源、应对气候变化已经成为普遍共识，家庭分布式光伏发电系统已逐渐得到推广和应用。但新能源发电系统的不确定性对于研究一种有效的家庭能源管理调度方法又是一种挑战。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种联合LSTM和深度强化学习的家庭能源管理方法及介质，其目的在于对综合了各种电气设备的家庭住宅系统进行实时调度，实现最小化家庭用能成本和保证用户舒适度的目标。

为实现上述目的，按照本发明的一个方面，提供了一种联合LSTM和深度强化学习的家庭能源管理方法，包括：S1，利用LSTM网络预测下一时间段的光伏发电量信息和电价信息，并作为下一时间段马尔可夫决策过程的状态空间信息；S2，根据家庭住宅中各类电气负荷对应电气设备的工作参数以及所述状态空间信息，将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程，得到MDP模型；S3，设计基于深度神经网络的随机策略，以获得价值网络和策略网络；S4，基于所述MDP模型，利用近端策略优化算法对所述价值网络和所述策略网络进行训练，并利用训练后的策略网络输出最优动作策略，根据所述最优动作策略管理各电气设备。

更进一步地，所述电气负荷分为基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统；所述MDP模型包括状态空间、动作空间、状态转移概率和奖励函数，所述状态转移概率为未知参数。

更进一步地，所述状态空间为：

s(t)＝{s^B(t),s^D(t),s^C(t),s^PV(t),s^ESS(t),s^P(t)}

其中，s(t)为所述状态空间，s^B(t)为所有基本家庭用电负荷的状态，s^D(t)为所有时间可调负荷的状态，s^C(t)为所有功率可调负荷的状态，s^PV(t)为家庭分布式光伏发电系统的状态，s^ESS(t)为储能系统的状态，s^P(t)为电价信息的状态，t为时间。

更进一步地，所述功率可调负荷包括空调、电热水器和电动汽车，所述动作空间为：

其中，a(t)为所述动作空间，

为第d个时间可调负荷的运行状态，d＝1,2,…,D，D为时间可调负荷的总数，u^ESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号，P^AC(t)为所述空调消耗的功率，P^EWH(t)为所述电热水器消耗的功率，P^EV(t)为所述电动汽车的充电功率，t为时间。

更进一步地，所述奖励函数为：

r(t)＝-C^elec(t)-C^comf(t)

其中，r(t)为所述奖励函数，C^elec(t)为用电成本，C^comf(t)为满意度成本，t为时间。

更进一步地，所述S3中使用以下概率分布来设计基于深度神经网络的随机策略：

其中，π(a(t)|s(t))为所述随机策略，a(t)为动作空间，s(t)为状态空间，B(·)为伯努利分布，p(·)为打开离散动作控制的电气设备的概率，N(·)为高斯分布，μ_c(·)为高斯分布的平均值，σ_c为高斯分布的标准差，

更进一步地，所述策略网络的输入为s(t)，输出为p(s(t))、μ_c(s(t))和log(σ_c)；所述价值网络的输出维度为1，其他结构和参数与所述策略网络相同，损失函数为：

其中，L^V(θ)为所述价值网络的损失函数，θ为所述策略网络和价值网络的参数，E_t[·]为随机变量的期望值，V_πθ(·)为价值函数，γ^l为奖励折扣因子，r(t+1)为t+1时刻MDP模型的奖励函数。

更进一步地，所述S4中训练目标是最大化代替函数L^CLIP(θ)和最小化损失函数L^V(θ)，整体损失函数为：

L^All(θ)＝L^CLIP(θ)-c·L^V(θ)

其中，L^All(θ)为所述整体损失函数，θ为所述策略网络和价值网络的参数，c为第一超参数，k_t(θ)为概率比，

为优势函数的采样估计函数，ε为第二超参数，clip()为截断函数，E_t[·]为随机变量的期望值。

更进一步地，所述S4中训练操作包括：以代替函数L^CLIP(θ)最大化为目标，反复执行以下迭代操作以更新所述策略网络和价值网络的参数：

其中，θⁱ⁺¹、θⁱ分别为第i+1、i次迭代时所述策略网络和价值网络的参数，α为更新步长，L^CLIP(θⁱ)为第i次迭代时的代替函数。

按照本发明的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的联合LSTM和深度强化学习的家庭能源管理方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)采用LSTM网络预测下一时间段的光伏发电量信息和电价信息，能够帮助家庭住宅系统探索状态输入的轨迹，以便在算法学习过程中更有效地计算未来奖励，加快算法收敛速度；

(2)同时涉及各类不同电气负荷的参与性，包括基本家庭用电负荷、时间可调负荷、功率可调负荷的参与性，使得整个参与调度的HEMS适用性更广，在考虑实时电价和室外环境因素(包括温度因素)的不确定性、新能源光伏发电的不确定性和居民用电的活动的不确定性的情况下，给出了一种有效的家庭能源管理方法，实现对一个综合了各种电气设备的家庭住宅系统的实时优化调度；

(3)克服了因为环境等因素导致的光伏发电的不确定性，还将家庭分布式光伏发电系统作为HEMS的一部分进行实时调度，不仅减少了居民用电成本，还能够同时保证居民用户的舒适性。

附图说明

图1为本发明实施例提供的联合LSTM和深度强化学习的家庭能源管理方法的流程图；

图2为本发明实施例提供的家庭能源管理系统的示意图；

图3为本发明实施例提供的策略网络体系的结构示意图；

图4A为本发明实施例提供的一天中的实时电价；

图4B、图4C、图4D分别为洗碗机、洗衣机、干衣机的调度结果；

图4E、图4F、图4G分别为空调、电热水器、电动汽车的调度结果；

图4H为家庭光伏发电系统及其储能设备的调度结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1为本发明实施例提供的联合LSTM和深度强化学习的家庭能源管理方法的流程图。参阅图1，结合图2-图4H，对本实施例中联合LSTM和深度强化学习的家庭能源管理方法进行详细说明，方法包括操作S1-操作S4。

参阅图2，示出了本发明实施例中具备各种不同电气负荷类型的家庭能源管理系统，包含基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统，储能系统例如包括储能设备、智能电表、系统控制中心等。家庭住宅例如包括一台洗碗机、一台洗衣机和一台干衣机这三个时间可调负荷，包括空调、电热水器和电动汽车正三个功率可调负荷，包括冰箱、吹风机、吸尘器、电视和电灯这五个基本家庭用电负荷，包括一个家庭分布式光伏发电系统及其储能系统。

用户可以结合自身需求设置电气负荷的运行工作数据，包括每个电气设备需要在哪些时间段内工作、该设备的调度时间窗口、以及每个设备完成工作任务所需要的运行时间。系统控制中心可以通过智能电表时刻收集住宅中电气负荷的实时信息，包含用电信息、光伏发电系统的组件信息等，可以收到公用电网发布的实时电价信息。该控制中心包含操作S1，它会结合经过优化计算的信息将调度结果通过信息流传给相应的电气设备安排其运行操作。

基本家庭用电负荷是指不能被需求响应策略调度、运行时间固定的负荷，其运行时间不会因任何外部因素而调整。基本家庭用电负荷不参与家庭能源管理系统的协调调度，仅在计算总能耗时作为负荷计入。如果一个基本家庭用电负荷b＝1,…,B需要工作在

这一时间段，那么它需要立刻响应开始工作，其运行功率可被如下需求等价：

其中，

表示t时段内基本家庭用电负荷b消耗的功率，

表示基本家庭用电负荷b运行时的额定功率。

时间可调负荷的工作周期固定，启动后须连续运行直至任务完成。由于该类负荷的运行时间具有一定弹性且对该类负荷进行调度不会对用户的日常生活行为构成明显限制，因此该类负荷的运行可由HEMS进行统一调度。对于时间可调负荷d＝1,…,D，其在t时刻的功率消耗可等价为：

其中，

为t时段内时间可调负荷d消耗的功率；

为时间可调负荷d运行时的额定功率；

为t时段内时间可调负荷d的运行状态，负荷运行时为1，否则为0；

为调度时间段窗口，二元控制变量

的约束条件为：

其中，

表示电气设备d到目前为止已经完成的工作进度；

表示为了满足电气设备d的能源需求所必须的工作时间；上述约束条件中，第一个公式表示要求设备必须连续地运行，第二个公式限制了设备在调度时间范围内必须完成规定的工作量，第三个公式确保了不在调度时间段内时间可调负荷一定是不运行的。

对于功率可调负荷而言，其能源消耗是连续的，负荷运行时的功率是可控的，本发明实施例中考虑了空调、电热水器和电动汽车这三类功率可调负荷。考虑空调系统作用的室内温度T^AC(t)，空调的功率为：

其中，P^AC(t)为空调在t时刻消耗的功率，

为空调运行的最大功率。

考虑电热水器中水温T^EWH(t)的电热水器功率为：

其中，

为电热水器运行的最大功率，P^EWH(t)为t时刻电热水器消耗的功率。

若电动汽车在

时刻到家并且在

时刻离开，电动汽车的电池模型可表示为：

SoC_min≤SoC(t)≤SoC_max

其中，SoC(t+1)为t+1时刻电动汽车蓄电池的荷电状态，

为电动汽车充电效率，

为电动汽车电池的最大容量(kWh)，P^EV(t)为t时刻电动汽车的充电功率，SoC_max为电动汽车蓄电池的最大荷电状态，SoC_min为电动汽车蓄电池的最小荷电状态。

为了减少充放电对电池寿命的损耗，本发明实施例中电动汽车的蓄电池仅考虑其充电约束：

P^EV(t)＝0,其他

其中，

为蓄电池的最大充电功率。

对于家庭分布式光伏发电系统而言，光伏电池组件的输出由温度、太阳辐射强度等因素决定，具有随机性的特征，R^PV(t)代表在t时刻由家庭分布式光伏系统产生的可再生能源：

其中，

为家庭分布式光伏发电系统产生的最小能量；

为家庭分布式光伏发电系统产生的最大能量。

其储能系统选取目前广泛应用的蓄电池储能系统，储能系统的充电和放电行为响应于充放电控制信号u^ESS(t)。u^ESS(t)是一个二元变量，当u^ESS(t)＝0时，储能系统进行充电；否则，储能系统放电。为了提高家庭分布式光伏发电系统的就地消纳水平，HEMS为光伏发电系统和储能系统设置了使用优先级，在每一时刻都优先使用光伏发电提供的能量。另外，对于t时刻储能设备放出/充进的电能E(t)有：

其中，

代表储能系统一次最大充放电功率，若某一时刻HEMS发出了充电信号，储能系统验证充电操作的可行性(介于储能设备的最大容量和一次最大充电量之间)，相应地存储能量，类似地，在放电情况下，储能系统接收来自HEMS的供电请求，验证放电操作的可行性(介于储能设备剩余容量和一次最大放电量之间)，相应地返回可用电力。

操作S1，利用LSTM网络预测下一时间段的光伏发电量信息和电价信息，并作为下一时间段马尔可夫决策过程的状态空间信息。

HEMS的控制中心于t时刻发布调度操作电气设备的执行策略后，系统会通过信息流收到信息，观测到下一个时刻的状态，但由于下一个时刻的实时电价信息和光伏发电量是未知的，这将导致整个系统的下一个状态的不确定性。同时因为这种对未来的未知性，无法获取新的状态来更新下一个时刻光伏系统的状态和电价信息的状态。本发明实施例中，利用长短期记忆网络(Long Short-Term Memory，LSTM)来填补下一个时刻的实时电价信息和光伏发电量信息的缺失，以此获得执行动作更新后的t+1时刻的马尔可夫决策过程(Markov Decision Processes，MDP)的状态空间信息。

操作S2，根据家庭住宅中各类电气负荷对应电气设备的工作参数以及状态空间信息，将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程，得到MDP模型。

根据本发明的实施例，MDP模型包括状态空间、动作空间、状态转移概率、奖励函数和目标(函数)。状态转移概率对于智能体HEMS而言，为未知参数。

状态空间为：

s(t)＝{s^B(t),s^D(t),s^C(t),s^PV(t),s^ESS(t),s^P(t)}

其中，s(t)为状态空间，s^B(t)为所有基本家庭用电负荷的状态，s^D(t)为所有时间可调负荷的状态，s^C(t)为所有功率可调负荷的状态，s^PV(t)为家庭分布式光伏发电系统的状态，s^ESS(t)为储能系统的状态，s^P(t)为电价信息的状态，t为时间。

对于一个工作在

的基本家庭用电负荷b＝1,…,B，其状态定义为：

因此，

代表所有基本家庭用电负荷的状态集合。

对于时间可调负荷d＝1,…,D，定义其在t时刻的状态：

因此，集合

代表家庭中所有时间可调设备的状态。

对于功率可调负荷而言，t时刻空调状态为

电热水器状态为

电动汽车在

时刻到家并且在

时刻离开，电动汽车的状态为：

其中，T^indoor(t)是t时刻的室内温度，

是t时刻居民用户期望的室内温度，T^water(t)是t时刻电热水器中的水温，

是t时刻根据用户期望所设定的电热水器中的水温，SoC(t+1)为t+1时刻电动汽车蓄电池的荷电状态，所以功率可调负荷的在某一时刻t的状态集合是s^C(t)＝{s^AC(t),s^EWH(t),s^EV(t)}。

家庭分布式光伏系统在t时刻的状态为s^PV(t)＝{R^PV(t)}，其中，R^PV(t)为时刻t由家庭分布式光伏系统的光伏产量。

储能系统在t时刻的状态定义为s^ESS(t)＝{B(t),E(t)}，其中，B(t+1)为t+1时刻储能设备中拥有的电能，E(t)为t时刻储能设备放出或充进的电能。

根据本发明的实施例，功率可调负荷包括空调、电热水器和电动汽车，此时的动作空间为：

其中，a(t)为动作空间，

为第d个时间可调负荷的运行状态，d＝1,2,…,D，D为时间可调负荷的总数，u^ESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号，P^AC(t)为空调消耗的功率，P^EWH(t)为电热水器消耗的功率，P^EV(t)为电动汽车的充电功率，t为时间。

奖励函数为：

r(t)＝-C^elec(t)-C^comf(t)

其中，r(t)为奖励函数，C^elec(t)为用电成本，C^comf(t)为满意度成本，t为时间。

MDP模型的奖励函数中，成本模型包括电力成本模型和用户满意度模型。电力成本模型为为：

C^elec(t)＝[P^g(t)·Δt+E(t)]·price(t)

其中，C^elec(t)为用电成本，E(t)为储能系统充进或放出的电量，P^g(t)是家庭住宅在时刻t电器消耗的总功率，price(t)为实时电价，P^g(t)定义为：

用户满意度模型为用户满意度受温控负荷影响的温度舒适度和电动汽车带来的里程焦虑影响。用户满意度模型如下：

C^comf(t)＝C^EV(t)-C^EWH(t)-C^AC(t)

其中，C^comf(t)是以货币为单位的满意度成本，C^EV(t)代表以货币为单位的电动汽车充电带来的里程焦虑，C^EWH(t)指电热水器所影响的温度舒适性，C^AC(t)指空调所影响的温度舒适性。

电动汽车带来的里程焦虑衡量的是居民对电动汽车没有足够能量到达目的地的忧虑，这一担忧的衡量标准为：

其中，

代表在

时刻电动汽车的蓄电池未充电电池的能量，平方项以货币/kWh²为单位衡量里程焦虑，权重因子w₁以货币/kWh²为单位将里程焦虑映射为货币。

温控负荷电热水器和空调所影响的热舒适性C^EWH(t)和C^AC(t)定义分别如下：

其中，热舒适性是基于偏差

测量的，当偏差

小于阈值ΔT^EWH时，热舒适性就会变大；如果偏差超过了阈值，热舒适性就会降低；权重因子w₂和w₃以货币/℃为单位将舒适度映射为货币。

HEMS目标是找到最佳的需求响应调度策略π^*，以最大化T个时隙范围内带折扣系数的累积奖励的期望。MDP模型的目标函数为：

其中，Π为所有策略的集合；策略π(a(t)|s(t))∈[0,1]:s(t)→P(a(t))是当系统状态为s(t)时选择动作a(t)的概率；γ为奖励折扣系数。

若将一天映射为T个时刻，本发明实施例中，可将调度目标表述为

例如将一天时间均匀分割为96个时间段、每个时间段时长Δt＝15min、需求响应调度时间从每天上午8点开始，基于此设定进行调度。

操作S3，设计基于深度神经网络的随机策略，以获得价值网络和策略网络。

参阅图3，根据本发明的实施例，操作S3中使用以下概率分布来设计基于深度神经网络的随机策略：

其中，π(a(t)|s(t))为随机策略，a(t)为动作空间，s(t)为状态空间，B(·)为伯努利分布，p(·)为打开离散动作控制的电气设备的概率，N(·)为高斯分布，μ_c(·)为高斯分布的平均值，σ_c为高斯分布的标准差，

为第d个时间可调负荷的运行状态，d＝1,2,…,D，D为时间可调负荷的总数，u^ESS(t)为储能系统的充电行为和放电行为响应于充放电控制信号，P^AC(t)为空调消耗的功率，P^EWH(t)为电热水器消耗的功率，P^EV(t)为电动汽车的充电功率，t为时间。本实施例中，对于需要调度的具有离散动作的电气设备，近似策略π(a(t)|s(t))是一个伯努利分布B(p(s(t)))，其中，p(s(t))表示打开离散动作控制的设备的概率，如

或p(u^ESS(t)＝1|s_t)；对于需要调度的具有连续动作的电气设备，近似策略π(a(t)|s(t))是一个高斯分布

根据本发明的实施例，策略网络的输入为s(t)，输出为p(s(t))、μ_c(s(t))和log(σ_c)；价值网络的输出维度为1，其他结构和参数与策略网络相同，损失函数为：

其中，L^V(θ)为价值网络的损失函数，θ为策略网络和价值网络的参数，E_t[·]为随机变量的期望值，V_πθ(·)为价值函数，γ^l为奖励折扣因子，r(t+1)为t+1时刻MDP模型的奖励函数。

操作S4，基于MDP模型，利用近端策略优化算法对价值网络和策略网络进行训练，并利用训练后的策略网络输出最优动作策略，根据最优动作策略管理各电气设备。

近端策略优化(Proximal Policy Optimization，PPO)算法使用了一个代替的目标函数L^CLIP(θ)来近似目标J(π_θ)，并以此来计算策略梯度。根据本发明的实施例，操作S4中训练目标是最大化代替函数L^CLIP(θ)和最小化损失函数L^V(θ)，整体损失函数为：

L^All(θ)＝L^CLIP(θ)-c·L^V(θ)

其中，L^All(θ)为整体损失函数，θ为策略网络和价值网络的参数，c为第一超参数，k_t(θ)为概率比，

为优势函数

的采样估计函数，

ε为第二超参数，clip()为截断函数，E_t[·]为随机变量的期望值。

是用深度神经网络逼近的价值函数，称之为价值网络。

根据本发明的实施例，操作S4中训练操作包括：以代替函数L^CLIP(θ)最大化为目标，反复执行以下迭代操作以更新策略网络和价值网络的参数：

其中，θⁱ⁺¹、θⁱ分别为第i+1、i次迭代时策略网络和价值网络的参数，α为更新步长，L^CLIP(θⁱ)为第i次迭代时的代替函数。

如此反复迭代更新网络参数θ后，对策略网络的输出进行采样，就可分别获得对设备进行调度的离散动作和连续动作，得到输出的最佳实时调度操作。

参阅图4A-图4H，示出了对本发明实施例中联合LSTM和深度强化学习的家庭能源管理方法的验证。本验证实施例中，将一天24小时分为96个时间段，每个时间段时长Δt＝15min，需求响应调度时间从每天上午8点开始，持续24小时，使用来自真实世界的数据进行实验。实验中,居民用户结合自己需要为电气负荷设定相应的工作参数，这点表明了用户居民活动的不确定性；为了体现该点，本实施例使电气负荷n的调度窗口开始时间

服从截断正态分布

以此来表述家庭中居民用户行为的随机性与不确定性。该截断正态分布的概率密度函数如下：

调度窗口的结束时间

与开始时间

的设置方式相同；该住宅中时间可调电气设备、功率可调电气设备、基本家庭用电设备的工作参数分别如表1、表2、表3所示。

表1

表2

表3

一天内的实时电价如图4A所示，在本实施例方法作用下，时间可调电气设备洗碗机、洗衣机、干洗机的调度结果分别如图4B、图4C、图4D所示，图中左边虚线形式的竖线至右边虚线形式的竖线之间的时间段为调度时间段窗口。从图4B-图4D中可以看出，洗碗机、洗衣机和干衣机都在相应的调度时间段内完成了任务，满足了用户的需要，并且每个时间可调设备都被安排在其调度时间窗口内价格较低的时段运行。功率可调电气设备空调、电热水器、电动汽车的调度结果分别如图4E、图4F、图4G所示；家庭光伏发电系统及其储能设备的调度结果如图4H所示。参阅4A-图4H，可以观察到每个时间可调设备被调度在其工作时间段内价格相对较低的时段运行，室内温度也持在用户设定的舒适的范围内，即介于22℃和26℃之间；水温也被控制在49℃至55℃这一满意度范围内；电动汽车会在电价相对较低的时期充电，并且当电动汽车离开时，电动汽车电池已经充电充足。不同情况下实验的结果对比，如表4所示。

表4

其中，无需求响应调度策略是指家庭中一旦有负荷运行的任务，时间可调设备和功率可调设备就会立即启动完成任务，无预测功能时所给策略是指HEMS的控制中心缺乏预测功能。表4分别展示了三种不同情况下连续30天的累计费用成本。可以看出，与无需求响应调度策略相比，本发明所提的方法可使得累计用电成本降低35.2％，而无预测功能所给策略只能降低24.4％，证明了本发明所提方法的优势。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，包括：

S1，利用LSTM网络预测下一时间段的光伏发电量信息和电价信息，并作为下一时间段马尔可夫决策过程的状态空间信息；

S2，根据家庭住宅中各类电气负荷对应电气设备的工作参数以及所述状态空间信息，将实时需求响应调度问题转化为状态转移概率未知的马尔可夫决策过程，得到MDP模型；

S3，设计基于深度神经网络的随机策略，以获得价值网络和策略网络；

S4，基于所述MDP模型，利用近端策略优化算法对所述价值网络和所述策略网络进行训练，并利用训练后的策略网络输出最优动作策略，根据所述最优动作策略管理各电气设备。

2.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述电气负荷分为基本家庭用电负荷、时间可调负荷、功率可调负荷、家庭分布式光伏发电系统及其储能系统；所述MDP模型包括状态空间、动作空间、状态转移概率和奖励函数，所述状态转移概率为未知参数。

3.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述状态空间为：

s(t)＝{s^B(t),s^D(t),s^C(t),s^PV(t),s^ESS(t),s^P(t)}

4.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述功率可调负荷包括空调、电热水器和电动汽车，所述动作空间为：

其中，a(t)为所述动作空间，

5.如权利要求2所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述奖励函数为：

r(t)＝-C^elec(t)-C^comf(t)

6.如权利要求1所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述S3中使用以下概率分布来设计基于深度神经网络的随机策略：

7.如权利要求6所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述策略网络的输入为s(t)，输出为p(s(t))、μ_c(s(t))和log(σ_c)；所述价值网络的输出维度为1，其他结构和参数与所述策略网络相同，损失函数为：

8.如权利要求1-7任一项所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述S4中训练目标是最大化代替函数L^CLIP(θ)和最小化损失函数L^V(θ)，整体损失函数为：

L^All(θ)＝L^CLIP(θ)-c·L^V(θ)

9.如权利要求8所述的联合LSTM和深度强化学习的家庭能源管理方法，其特征在于，所述S4中训练操作包括：

以代替函数L^CLIP(θ)最大化为目标，反复执行以下迭代操作以更新所述策略网络和价值网络的参数：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一项所述的联合LSTM和深度强化学习的家庭能源管理方法。