CN115759611A - 一种基于深度强化学习的智能家庭能量管理方法 - Google Patents

一种基于深度强化学习的智能家庭能量管理方法 Download PDF

Info

Publication number
CN115759611A
CN115759611A CN202211424951.2A CN202211424951A CN115759611A CN 115759611 A CN115759611 A CN 115759611A CN 202211424951 A CN202211424951 A CN 202211424951A CN 115759611 A CN115759611 A CN 115759611A
Authority
CN
China
Prior art keywords
power
equipment
time
energy storage
energy management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211424951.2A
Other languages
English (en)
Inventor
程杰
杨胜天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202211424951.2A priority Critical patent/CN115759611A/zh
Publication of CN115759611A publication Critical patent/CN115759611A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于深度强化学习的智能家庭能量管理方法,属于智能家庭能量管理技术领域。所述方法包括:将目标问题建模为马尔可夫决策过程并设计相应的环境状态、动作和奖励函数,在维持用户基本生活情况下通过非确定性策略Soft Actor Critic算法训练出所有设备的最优控制模型,将最优控制模型参数发送给本地应用模块,用于对智能设备的实时控制。智能家庭能量管理系统架构主要包括设备识别模块、信息收集模块、在线训练模块、本地应用模块和设备控制模块。本发明提出的智能家庭能量管理方法和系统架构不需要建筑热动力学模型参数并且可拓展智能设备,同时采用在线训练本地应用相结合模式,可以有效降低环境变化对设备控制的影响。

Description

一种基于深度强化学习的智能家庭能量管理方法
技术领域
本发明涉及一种基于深度强化学习的智能家庭能量管理方法,属于智能家庭能量管理技术领域。
背景技术
面对不可再生能源的日益枯竭和环境污染的日益严重等挑战,我们一方面需要提高能源利用效率,另一方面也需要开发新能源来满足全社会日益增长的用电需求。随着各国电力市场改革的深入,智能电网实现了用户与电网的双向信息传输,增强了电网与用户的互动,为电网稳定运行提供了有力保障。
智能家庭能量管理是智能电网的核心问题之一。目前已有很多相关研究工作,使用常规控制技术、遗传算法、粒子群优化算法、混合整数线性规划等启发式优化方法和数学优化方法去优化控制智能家庭用电设备,然而这些方法难以应用于含有大量决策变量的在线调度问题。强化学习作为机器学习的分支,即使在缺乏初始环境信息的情况下,也能表现出优异的决策能力,其中深度强化学习更是结合深度学习的感知能力与强化学习的决策能力。为了验证基于深度强化学习的家庭能量管理决策的有效性,有学者提出了深度Q网络和双深度Q网络等算法应用于家庭能源设备的调度,与确定性混合整数线性规划获得的策略相比较,家庭用户消耗的能源成本更低。面对连续状态空间,一些研究工作利用深度确定性策略梯度算法应用于家庭能量管理,仿真结果也验证了该算法的有效性。然而,深度确定性策略梯度算法只能得到一个最优策略,没有探索出所有的最优策略,当环境变化时容易降低决策的有效性。另外现有研究未充分考虑多种设备在智能家庭中可应用于能量管理优化的特定设备属性,因而不适应在智能家庭中添加或者更换其他同属性设备的同时实现最优控制。
发明内容
本发明要解决的技术问题是面对电价、添加或者更换设备等环境状态发生变化情况下智能家庭能量管理系统智能体对所有设备的有效管理,为了解决上述问题,本发明提供了一种基于深度强化学习的智能家庭能量管理方法,包括如下步骤:
设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类;
信息收集模块收集当前智能家庭的实时环境状态信息;
本地应用模块根据当前智能家庭的实时环境状态,实时输出所有设备的动作;
设备控制模块根据所述所有设备的实时动作,对所有设备实施控制;
信息收集模块收集智能家庭的下一时间步环境状态信息和奖励,并将所述当前环境状态信息、当前动作、下一时间步环境状态信息和奖励发送至在线训练模块中的经验池并储存;
在线训练模块从经验池中随机提取一定数量的训练样本集,每个训练样本集包括某时刻环境状态信息、动作和下一时间步的环境状态信息、奖励,以所述奖励和动作熵最大化为目标,利用非确定性策略Soft Actor Critic算法对在线训练模块深度神经网络进行训练,当策略奖励收敛时,将训练好的在线训练模块深度神经网络参数发送至本地应用模块深度神经网络。
进一步地,所述设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类的步骤包括:
(1)若设备功率恒定并且需要及时响应用户需求,则将该设备归为功率恒定即时需求设备,属于不可控设备;
(2)若设备功率可变并且需要及时响应用户需求,则将该设备归为可控设备大类下的功率可变即时需求设备;
(3)若设备功率恒定并且不需要及时响应用户需求,则将该设备归为可控设备大类下的功率恒定可计划设备;
(4)若设备功率可变并且不需要及时响应用户需求,则将该设备归为可控设备大类下的功率可变可计划设备;
(5)若设备为储能设备,则将该设备归为可控设备大类下的储能设备。
进一步地,所述设备的模型如下:
(1)功率恒定即时需求设备冰箱模型,
Figure BDA0003942805540000021
式中,
Figure BDA0003942805540000022
为t时刻冰箱i的输入功率,
Figure BDA0003942805540000023
为冰箱i的额定功率;
(2)功率可变即时需求设备暖通空调模型,
Figure BDA0003942805540000024
式中,
Figure BDA0003942805540000025
为t时刻暖通空调j的输入功率,
Figure BDA0003942805540000026
为暖通空调j输入功率的最大值;
(3)功率恒定可计划设备洗衣机模型,
Figure BDA0003942805540000027
Figure BDA0003942805540000028
式中,
Figure BDA0003942805540000029
为t时刻洗衣机k的输入功率,
Figure BDA00039428055400000210
为洗衣机k的额定功率,
Figure BDA00039428055400000211
Figure BDA00039428055400000212
分别表示用户设定洗衣机k的允许运行的开始和结束时间,
Figure BDA00039428055400000213
表示洗衣机k的工作持续时间,
Figure BDA00039428055400000214
为洗衣机k的状态变量,
Figure BDA00039428055400000215
表示洗衣机k是启动状态,
Figure BDA00039428055400000216
表示洗衣机k是关闭状态,Δt表示时间间隔;
(4)功率可变可计划设备电动汽车模型,
Figure BDA00039428055400000217
Figure BDA00039428055400000218
式中,
Figure BDA00039428055400000219
为电动汽车的状态变量,
Figure BDA00039428055400000220
表示电动汽车在家,
Figure BDA00039428055400000221
表示电动汽车在外面,tarr和rdep分别为电动汽车到家和离开的时间,
Figure BDA0003942805540000031
为t时刻电动汽车的输入功率,
Figure BDA0003942805540000032
为电动汽车充电功率的最大值;
(5)储能设备模型,
Figure BDA0003942805540000033
Figure BDA0003942805540000034
Figure BDA0003942805540000035
式中,
Figure BDA0003942805540000036
为储能设备充电功率的最大值,
Figure BDA0003942805540000037
为储能设备放电功率的最大值,
Figure BDA0003942805540000038
表示储能设备在t时刻的下一时间步的电量,ηc为储能设备的充电效率,ηdisc为储能设备的放电效率,
Figure BDA0003942805540000039
为储能设备的最大电量,
Figure BDA00039428055400000310
为储能设备的最小电量。
进一步地,所述环境状态的表达式如下:
Figure BDA00039428055400000311
式中,St为智能家庭在t时刻的环境状态,
Figure BDA00039428055400000312
为t时刻分布式光伏发电机输出功率,
Figure BDA00039428055400000313
为t时刻冰箱i的额定功率,
Figure BDA00039428055400000314
为t时刻室外温度,
Figure BDA00039428055400000315
为t时刻室内温度,
Figure BDA00039428055400000316
为t时刻洗衣机k的状态变量,
Figure BDA00039428055400000317
为t时刻电动汽车的状态变量,
Figure BDA00039428055400000318
为t时刻电动汽车的电量,
Figure BDA00039428055400000319
为t时刻储能设备的电量,λt为t时刻用户购买电力的价格,t’为t时刻在一天中的时间索引。
进一步地,所述动作的表达式如下:
Figure BDA00039428055400000320
式中,At为智能家庭中的所有可控设备在t时刻的动作空间,
Figure BDA00039428055400000321
为暖通空调j在t时刻的输入功率,
Figure BDA00039428055400000322
为洗衣机k在t时刻的输入功率,
Figure BDA00039428055400000323
为电动汽车在t时刻的输入功率,
Figure BDA00039428055400000324
为储能设备在t时刻的充放电功率,
Figure BDA00039428055400000325
表示充电,
Figure BDA00039428055400000326
表示放电。
进一步地,所述奖励函数的表达式如下:
Figure BDA00039428055400000327
式中,Rt为t时刻的奖励,ρ为家庭能源成本相对于用户不满意情绪成本的权重系数,
Figure BDA00039428055400000328
表示智能家庭t时刻的电力成本,
Figure BDA00039428055400000329
表示储能设备在t时刻充放电导致的设备损耗成本,
Figure BDA00039428055400000330
表示暖通空调j在t时刻的运行功率不当导致的室内温度与预期室内温度偏差过大的不满成本,
Figure BDA00039428055400000331
表示洗衣机k未在期望时间点前完成任务的不满成本,
Figure BDA00039428055400000332
表示电动汽车电池电量不足的不满成本。
进一步地,智能家庭室内温度的动态变化模型如下:
Figure BDA00039428055400000333
式中,
Figure BDA00039428055400000334
Figure BDA00039428055400000335
分别为t时刻室内和室外温度,ε=0.7,ηhavc=2.5/0.14(kW/℉)。
进一步地,电动汽车充电时电量的动态变化模型如下:
Figure BDA0003942805540000041
其中,
Figure BDA0003942805540000042
Figure BDA0003942805540000043
式中,
Figure BDA0003942805540000044
为电动汽车的状态变量,
Figure BDA0003942805540000045
表示电动汽车在家,
Figure BDA0003942805540000046
表示电动汽车在外面,tarr和tdep分别为电动汽车到家和离开的时间,
Figure BDA0003942805540000047
表示电动汽车在t时刻的下一时间步的电量,
Figure BDA0003942805540000048
为电动汽车的最小电量,
Figure BDA0003942805540000049
为电动汽车电池的最大电量,
Figure BDA00039428055400000410
为电动汽车的充电效率,
Figure BDA00039428055400000411
为电动汽车充电功率的最大值。
进一步地,储能设备电量的动态变化模型如下:
Figure BDA00039428055400000412
其中,
ηc∈[0,1],ηdisc∈[0,1],
Figure BDA00039428055400000413
Figure BDA00039428055400000414
式中,
Figure BDA00039428055400000415
表示储能设备在t时刻的下一时间步的电量,ηc和ηdisc分别为储能设备的充电效率和放电效率,
Figure BDA00039428055400000416
为储能设备的最大电量,
Figure BDA00039428055400000417
为储能设备的最小电量,
Figure BDA00039428055400000418
为储能设备充电功率的最大值,
Figure BDA00039428055400000419
为储能设备放电功率的最大值,
Figure BDA00039428055400000420
是储能设备在t时刻的功率,二进制变量b是为了防止储能设备同时充电和放电。
进一步地,所述在线训练模块深度神经网络包括行动者网络、目标行动者网络、评论家网络1、目标评论家网络1,评论家网络2、目标评论家网络2,所述本地应用模块深度神经网络与行动者网络、目标行动者网络的结构相同;
本地应用模块深度神经网络输入层的神经元个数与环境状态的维度相对应,隐藏层所采用的激活函数为线性整流函数,输出层的神经元个数与动作的数量相对应,输出层所采用的激活函数为双曲正切函数;
评论家网络1、评论家网络2、目标评论家网络1和目标评论家网络2的结构均相同,其输入层输入环境状态和动作信息,输入的环境状态和动作的神经元数量分别与环境状态的维度和动作的数量相对应,环境状态和动作信息拼接后输入至隐藏层,所述隐藏层所采用的激活函数为线性整流函数,与所述隐藏层连接的输出层所采用的激活函数为线性整流函数。
附图说明
下面结合附图和实施方式对本发明进一步说明。
图1是本发明具体实施方式提供的一种基于深度强化学习的智能家庭能量管理方法所述马尔可夫决策过程示意图;
图2是本发明具体实施方式提供的一种智能家庭能量管理系统架构示意图;
图3是本发明具体实施方式提供的一种基于深度强化学习的智能家庭能量管理方法的工作流程图;
图4是本发明方法实施例所述本地深度神经网络的结构示意图;
图5是本发明方法实施例所述评论家网络和目标评论家网络的结构示意图;
图6是本发明方法实施例所述在线训练模块深度神经网络的训练过程示意图;
图7是本发明方法基于真实数据与其他方法的测试对比图。
具体实施方式
以下结合附图进一步说明本发明的技术方案和具体实施方式。
本发明具体实施方式提供了一种基于深度强化学习的智能家庭能量管理方法和系统架构,其中系统架构包括设备识别模块、信息收集模块、在线训练模块(经验池和深度神经网络)、本地应用模块(深度神经网络)和设备控制模块。所述智能家庭包括分布式光伏发电设备、功率恒定即时需求设备冰箱、功率可变即时需求设备暖通空调、功率恒定可计划设备洗衣机、功率可变可计划设备电动汽车和储能设备。其中,智能家庭能量管理系统架构各模块之间以及分布式光伏发电设备、功率恒定即时需求设备冰箱、功率可变即时需求设备暖通空调、功率恒定可计划设备洗衣机、功率可变可计划设备电动汽车、储能设备、智能电表和室内外温度传感器之间均存在信息交互。
首先,获得室内温度的准确动态通常是困难的,因为室内温度受到许多外界因素影响。其次,很难知道随机系统参数的所有组合的统计分布。第三,不同设备间存在相关的时间耦合操作限制,这意味着当前的动作将影响未来的决策。第四,智能设备的添加、减小或者更换容易影响对设备的控制效果。因此实现智能家庭中所有设备的实时最优调度非常困难。为解决上述困难,本发明核心设计思想如下:首先,在无建筑热动力模型和维持用户基本生活需求的情况下,将智能家庭能源成本最小化问题建模为马尔可夫决策过程,如图1所示,是本发明具体实施方式提供的一种基于深度强化学习的智能家庭能量管理方法所述马尔可夫决策过程示意图;然后,提出一种智能家庭能量管理系统架构,其中包括设备识别模块、信息收集模块、在线训练模块(经验池和深度神经网络)、本地应用模块(深度神经网络)和设备控制模块。该系统架构采用在线训练本地应用相结合模式,如图2所示,是本发明具体实施方式提供的智能家庭能量管理系统架构示意图。本发明的智能家庭能量管理方法基于非确定性策略Soft Actor Critic算法设计,本地应用模块动作选择所需深度神经网络参数由在线训练模块深度神经网络发送更新。根据马尔可夫决策过程的特性,下一时刻的家庭环境状态应仅依赖于当前家庭环境状态和所有设备的动作,与之前的家庭环境状态和所有设备动作无关。但是马尔可夫决策过程仅仅是智能家庭能量管理问题的近似描述,因为环境状态的某些部分在实际生活中可能不具有马尔可夫性,例如光伏发电发电输出和电价等。根据现有的研究工作,即使环境状态不是严格的马尔可夫决策过程,相应的问题仍然可以通过基于深度强化学习的算法经验性地解决。因而无需知晓任何不确定性系统参数的先验信息,适用于大部分领域的决策相关问题。
如图3所示,是本发明具体实施方式提供的一种基于深度强化学习的智能家庭能量管理方法的工作流程图,所述方法包括如下设计步骤:
步骤一,在无建筑热动力模型和维持用户基本生活的情况下,将智能家庭能源成本最小化问题建模为马尔可夫决策过程,接下来设计马尔可夫决策过程组成部分中的环境状态、动作和奖励函数。
在上述智能家庭能源成本最小化问题中,目标函数是智能家庭能源成本,包括智能家庭的电力成本
Figure BDA0003942805540000061
和储能设备的折旧成本
Figure BDA0003942805540000062
其表达式如下:
Figure BDA0003942805540000063
Figure BDA0003942805540000064
式中,
Figure BDA0003942805540000065
为t时刻智能家庭产生的电力成本,
Figure BDA0003942805540000066
为t时刻储能设备充放电产生的折旧成本,λt
Figure BDA0003942805540000067
分别为t时刻的用户购买电力和售卖电力的价格,
Figure BDA0003942805540000068
为t时刻智能家庭与电网买卖的电力,
Figure BDA0003942805540000069
为储能设备的折旧系数,
Figure BDA00039428055400000610
Figure BDA00039428055400000611
分别为t时刻储能设备的充电功率和放电功率;当
Figure BDA00039428055400000612
时,智能家庭向电网购买电力,此时电力成本为
Figure BDA00039428055400000613
Figure BDA00039428055400000614
时,智能家庭向电网售卖电力,此时电力成本为
Figure BDA00039428055400000615
由于用户基本的生活需求还需要被满足,即维持室内温度处于一定范围内、每天洗好烘干衣物和离家时保证电动汽车电量充足,因而该马尔可夫决策过程的决策变量有:暖通空调、洗衣机和电动汽车的状态和动作;需考虑的约束有:与暖通空调相关的约束、与洗衣机相关的约束、与电动汽车相关的约束、与储能设备相关的约束和与能量守恒相关的约束,在现有的研究中,一个时隙的典型持续时间是几分钟或一小时,为了方便起见,本发明设定每一时间步为1小时,具体如下:
(1)暖通空调可以通过调整输入功率以保持家庭中热舒适性,即
Figure BDA00039428055400000616
式中,
Figure BDA00039428055400000617
为暖通空调j的最大输入功率。由于热舒适性取决于许多因素,为简单起见,本发明使用舒适的温度范围作为热舒适度的表示,即
Figure BDA00039428055400000618
式中,Tmin和Tmax分别表示室内舒适温度范围的最小室内温度和最大室内温度,
Figure BDA00039428055400000619
为t时刻的室内温度。
(2)洗衣机k可以在用户设定的截止时间点前根据实时环境状态决定其启动时间
Figure BDA00039428055400000620
并以额定功率
Figure BDA00039428055400000621
持续运行一段时间,所使用的电量总量不变并且不可被中断,反映在负载曲线上为在时间轴上的平移以及总面积不变。即
Figure BDA00039428055400000622
式中,
Figure BDA00039428055400000623
为洗衣机启动时间,
Figure BDA00039428055400000624
Figure BDA00039428055400000625
分别为用户设定允许运行的开始和结束时间,
Figure BDA00039428055400000626
为洗衣机k的工作持续时间,
Figure BDA00039428055400000627
为洗衣机k的的状态变量,
Figure BDA00039428055400000628
表示洗衣机k处于启动状态,
Figure BDA00039428055400000629
表示洗衣机k处于关闭状态,Δt表示时间间隔。
(3)电动汽车在家时电池可以进行充电,离开家后电动汽车只考虑放电,充电时电量动态变化模型为:
Figure BDA00039428055400000630
式中,t∈[tarr,tdep],
Figure BDA00039428055400000631
Figure BDA00039428055400000632
为t时刻电动汽车的状态变量,
Figure BDA00039428055400000633
表示t时刻电动汽车在家,
Figure BDA00039428055400000634
表示t时刻电动汽车在外面,tarr和tdep分别为电动汽车到家和离开的时间,
Figure BDA0003942805540000071
表示电动汽车在t时刻的下一时间步电量,
Figure BDA0003942805540000072
为电动汽车的充电效率,
Figure BDA0003942805540000073
为电动汽车在t时刻的充电功率。电动汽车电池的充电功率受限于其对应的额定功率,即
Figure BDA0003942805540000074
由于电动汽车电池的容量有限,即电动汽车电池电量
Figure BDA0003942805540000075
应处于最小电量
Figure BDA0003942805540000076
和最大电量
Figure BDA0003942805540000077
之间,即
Figure BDA0003942805540000078
(4)储能设备在任何时刻都可以进行充电或者放电动作,其电量的动态变化模型为:
Figure BDA0003942805540000079
Figure BDA00039428055400000710
式中,
Figure BDA00039428055400000711
表示储能设备在t时刻的下一时间步的电量,ηc∈[0,1],为储能设备的充电效率,ηdisc∈[0,1],为储能设备的放电效率,
Figure BDA00039428055400000712
为储能设备的最大电量,
Figure BDA00039428055400000713
为储能设备的最小电量。由于储能设备的电池容量有限,它的电量
Figure BDA00039428055400000714
应处于最小电量
Figure BDA00039428055400000715
和最大电量
Figure BDA00039428055400000716
之间,即
Figure BDA00039428055400000717
储能设备充电功率受限于其对应的额定功率,即
Figure BDA00039428055400000718
Figure BDA00039428055400000719
式中,
Figure BDA00039428055400000720
为储能设备的充电功率最大值,
Figure BDA00039428055400000721
为储能设备的放电功率最大值,
Figure BDA00039428055400000722
为储能设备充放电功率,二进制变量b是为了防止储能设备同时充电和放电。
(5)为了确保任意时刻的电力功率平衡,智能家庭中的总电力供应功率应等于电力需求功率,即
Figure BDA00039428055400000723
式中,
Figure BDA00039428055400000724
Figure BDA00039428055400000725
分别表示电网买卖功率和光伏发电输出功率。如果
Figure BDA00039428055400000726
则表示智能家庭中有电力被卖到电网,
Figure BDA00039428055400000727
则表示智能家庭需要电网输入电力供能。
在智能家庭中,下一个时隙的环境状态仅取决于当前环境状态和所有设备的动作,与先前的状态环境状态和动作无关,因此所有设备的控制都可以看作是一个马尔可夫决策过程。马尔可夫决策过程是智能家庭能量管理问题的近似描述,因为环境状态的某些部分在实际生活中可能不具有马尔可夫性,例如光伏发电输出功率和电价。对于非严格的马尔可夫决策过程,相应的问题仍然可以通过基于强化学习的算法经验性地解决,而且本发明的结果也能够证实其有效性。
本实施例中,马尔可夫决策过程的主要构成包括环境状态、动作和奖励函数,其设计分别如下:
(1)环境状态。t时刻的环境状态用St表示,分别为:t时刻的光伏发电输出功率
Figure BDA00039428055400000728
冰箱i的输入功率
Figure BDA00039428055400000729
室外温度
Figure BDA00039428055400000730
室内温度
Figure BDA00039428055400000731
洗衣机k的状态变量
Figure BDA00039428055400000732
电动汽车的状态变量
Figure BDA00039428055400000733
电动汽车电量
Figure BDA00039428055400000734
储能设备电量
Figure BDA00039428055400000735
用户购买电力的价格λt,t时刻的在一天中的时间索引t’(如第24小时相当于0点,第25小时相当于1点),因而环境状态
Figure BDA00039428055400000736
Figure BDA00039428055400000737
(2)动作空间。t时刻的所有可控设备的动作空间用At表示,包括在t时刻暖通空调j的输入功率
Figure BDA00039428055400000738
洗衣机k的运行功率
Figure BDA00039428055400000739
电动汽车的输入功率
Figure BDA00039428055400000740
和储能设备的充放电功率
Figure BDA00039428055400000741
为确保洗衣机的正常使用时间、电动汽车和储能设备在充放电过程中不会超出其电池容量限制,需满足以下要求:
Figure BDA00039428055400000742
其中,
Figure BDA00039428055400000743
Figure BDA0003942805540000081
Figure BDA0003942805540000082
Figure BDA0003942805540000083
(3)奖励函数。t时刻的奖励函数用Rt表示,包括五个部分:t时候家庭电力与电网之间的电力成本
Figure BDA0003942805540000084
储能系统充放电导致的储能设备损耗成本
Figure BDA0003942805540000085
暖通空调j输入功率不当导致的室内温度与预期室内温度偏差过大的不满成本
Figure BDA0003942805540000086
洗衣机k未在期望时间点完成的不满成本
Figure BDA0003942805540000087
电动汽车电量不足的不满成本
Figure BDA0003942805540000088
Figure BDA0003942805540000089
式中,ρ为智能家庭能源成本相对于用户不满意情绪成本的重要性系数。
步骤二,以总奖励和每一次输出的动作熵最大化为目标,利用非确定性策略SoftActor Critic算法训练出所有可控设备在不同环境状态下的所有最优行为。
在每个时刻,智能家庭能量管理系统进行策略优化时都希望通过联合控制所有设备以最大化未来的期望回报和策略的熵相互权衡相加得到的目标函数,目标函数为:
Figure BDA00039428055400000810
Figure BDA00039428055400000811
式中,α是熵正则化系数,表示熵在奖励函数中的权重,自适应损失函数为:
Figure BDA00039428055400000812
Figure BDA00039428055400000813
式中,H0为目标熵值,一般为动作空间的维度。
为了获得对智能家庭中所有设备的最优控制策略,本发明基于非确定性策略SoftActor Critic算法设计了智能家庭能量管理方法,其实际运行过程如下:(1)设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类;(2)信息收集模块收集当前智能家庭的实时环境状态信息;(3)本地应用模块根据当前智能家庭的实时环境状态,实时输出所有设备的动作;(4)设备控制模块根据所述所有设备的当前动作,对所有设备实施控制;(5)控制策略满足用户需求时,信息收集模块收集智能家庭的下一时间步环境状态信息和奖励,并将所述当前环境状态信息、当前动作、下一时间步环境状态信息和奖励发送至在线训练模块中的经验池并储存;(6)当所控制设备的策略不能满足用户要求时(包括室内温度不合适,电力成本太高等等),用户启动更新请求,这时在线训练模块需要从经验池中随机提取一定数量的训练样本集,以总奖励和策略的熵最大化为目标,利用非确定性策略Soft Actor Critic算法对深度神经网络进行训练;(7)当策略奖励趋于稳定时将在线训练模块深度神经网络参数发送至本地应用模块深度神经网络,进而对智能家庭中所有设备继续进行控制。
所述在线训练模块深度神经网络包括行动者网络、目标行动者网络、评论家网络1、评论家网络2、目标评论家网络1和目标评论家网络2。所述本地应用模块的深度神经网络与行动者网络、目标行动者网络的结构相同,评论家网络1、评论家网络2、目标评论家网络1与目标评论家网络2的结构均相同;
如图4所示,是本发明方法实施例中所述本地应用模块深度神经网络的结构示意图,其网络结构包含输入层、多个隐藏层和输出层,其中,输入层神经元个数与环境状态维度对应,隐藏层的神经元个数可根据需要设定,采用的激活函数为线性整流函数,输出层个数与动作的数量相对应,采用的激活函数均为双曲正切函数。
如图5所示,是本发明方法实施例所述评论家网络和目标评论家网络的结构示意图,具体结构如下:输入层输入环境状态和动作信息,输入的环境状态和动作的神经元数量分别与环境状态的维度和动作的数量相对应,环境状态和动作拼接后输入至隐藏层,所述隐藏层所采用的激活函数为线性整流函数,与所述隐藏层连接的输出层所采用的激活函数为线性整流函数。
如图6所示,是本发明方法实施例中所述深度神经网络的训练过程示意图。首先,从经验池中随机抽取一定数量的训练样本集,基于这些训练样本集得到评论家网络1和评论家网络2的输出以及目标评论家网络1和目标评论家网络2的输出,通过取相对较小的评论家网络输出值作为目标值来避免最大化带来的高估,然后根据相对应的评论家网络和目标评论家的差值对评论家网络的网络参数进行更新,同时更新熵的系数α,进一步利用训练样本集中的环境状态作为行动者网络的输入,行动者网络对应输出一组行为,该组行为和当前环境状态信息一起输入到评论家网络,进而得到行为值函数。然后利用策略梯度对行动者网络深度神经网络参数进行更新。等行动者网络和评论家网络参数和熵的系数α更新完毕后,对目标行动者网络和目标评论家网络进行更新。上述过程一直迭代,直到训练好的策略奖励略趋于稳定。
步骤三,输入当前环境状态信息后,设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类,然后本地应用模块深度神经网络输出当前所有设备的动作,最后动作控制模块根据当前动作对所有设备实施控制。
本发明实施例与现有技术相比,能够取得以下有益效果:
(1)在维持智能家庭用户基本需求的情况下综合考虑了了光伏发电、室内外温度、实时电价、电力买卖以及拥有多种属性智能设备的智能家庭能源成本最小化问题,并将该问题建模为马尔可夫决策过程,同时重新设计了环境状态、动作和奖励函数;
(2)提出了基于非确定性策略Soft Actor Critic算法的智能家庭能量管理方法,该方法无需知晓任何不确定性系统参数的先验信息和建筑热动力学模型,并且可以学习到所有设备的最优控制策略,更容易找到更好更合适的控制模式,同时学到的策略可以作为更复杂具体任务的初始化。
(3)提出了一种可识别以及拓展设备的智能家庭能量管理系统架构,同时采用在线训练本地应用相结合模式,可以有效降低环境变化对设备控制的影响。
(4)本发明的方法具有高效性。基于实际数据的性能测试表明:相比现有方法,本发明的方法可在维持用户基本生活的前提下,降低能源成本10.11%-23.36%。
如图7所示,是本发明方法实施例与其他方法的性能对比图,方案一:不考虑储能设备,采用传统的开/关方式对暖通空调进行控制,以夏天制冷模式为例,当室内温度高于设定温度上限时,以额定功率启动暖通空调;当室内温度低于设定温度下限时,关闭暖通空调,洗衣机每天在固定时间段使用、电动汽车到家即开始充电,充满为止。方案二:不考虑储能设备,使用非确定性策略Soft Actor Critic对所有设备进行控制。方案三:考虑储能设备,使用确定性策略梯度算法对所有设备进行控制。系统输入的光伏发电功率、室外温度和电价数据均来自2020年6月1日至9月30日美国佛罗里达州某一地区的Pecan Street数据库。相较于对比方案一,本发明方法实施例能够在维持维持用户基本生活的前提下﹐可以降低能源成本23.36%。相较于对比方案二,本发明方法实施例能够在维持维持用户基本生活的前提下﹐储能设备可以有效降低能源成本14.48%。相较于对比方案三,本发明方法可以降低能源成本10.11%。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于深度强化学习的智能家庭能量管理方法,其特征是,所述方法包括如下步骤:
设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类;
信息收集模块收集当前智能家庭的实时环境状态信息;
本地应用模块根据当前智能家庭的实时环境状态,实时输出所有设备的动作;
设备控制模块根据所述所有设备的实时动作,对所有设备实施控制;
信息收集模块收集智能家庭的下一时间步环境状态信息和奖励,同时将所述当前环境状态信息、当前动作、下一时间步环境状态信息和奖励发送至在线训练模块中的经验池并储存;
在线训练模块从经验池中随机提取一定数量的训练样本集,每个训练样本集包括某时刻环境状态信息、动作和下一时间步的环境状态信息、奖励,以所述奖励和动作熵最大化为目标,利用非确定性策略Soft Actor Critic算法对在线训练模块深度神经网络进行训练,当策略奖励收敛时,将训练好的在线训练模块深度神经网络参数发送至本地应用模块深度神经网络。
2.根据权利要求1所述的基于深度强化学习的智能家庭能量管理方法,其特征是,所述设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类的步骤包括:
(1)若设备功率恒定并且需要及时响应用户需求,则将该设备归为功率恒定即时需求设备,属于不可控设备;
(2)若设备功率可变并且需要及时响应用户需求,则将该设备归为可控设备大类下的功率可变即时需求设备;
(3)若设备功率恒定并且不需要及时响应用户需求,则将该设备归为可控设备大类下的功率恒定可计划设备;
(4)若设备功率可变并且不需要及时响应用户需求,则将该设备归为可控设备大类下的功率可变可计划设备;
(5)若设备为储能设备,则将该设备归为可控设备大类下的储能设备。
3.根据权利要求1至2所述的基于深度强化学习的智能家庭能量管理方法,其特征是,所述设备的模型如下:
(1)功率恒定即时需求设备模型,
Figure FDA0003942805530000011
式中,
Figure FDA0003942805530000012
为t时刻功率恒定即时需求设备i的输入功率,
Figure FDA0003942805530000013
为功率恒定即时需求设备i的额定功率;
(2)功率可变即时需求设备模型,
Figure FDA0003942805530000014
式中,
Figure FDA0003942805530000015
为t时刻功率可变即时需求设备j的输入功率,
Figure FDA0003942805530000016
为功率可变即时需求设备j输入功率的最大值;
(3)功率恒定可计划设备模型,
Figure FDA0003942805530000021
Figure FDA0003942805530000022
式中,
Figure FDA0003942805530000023
为t时刻功率恒定可计划设备k的输入功率,
Figure FDA0003942805530000024
为功率恒定可计划设备k的额定功率,
Figure FDA0003942805530000025
Figure FDA0003942805530000026
分别表示用户设定功率恒定可计划设备k的允许运行的开始和结束时间,
Figure FDA0003942805530000027
表示功率恒定可计划设备k的工作持续时间,
Figure FDA0003942805530000028
为功率恒定可计划设备k的状态变量,
Figure FDA0003942805530000029
表示功率恒定可计划设备k是启动状态,
Figure FDA00039428055300000210
表示功率恒定可计划设备k是关闭状态,Δt表示时间间隔;
(4)功率可变可计划设备模型,
Figure FDA00039428055300000211
Figure FDA00039428055300000212
式中,
Figure FDA00039428055300000213
为功率可变可计划设备的状态变量,tarr和tdep分别为功率可变可计划设备允许启动的开始和结束时间,
Figure FDA00039428055300000214
表示功率可变可计划设备是启动状态,
Figure FDA00039428055300000215
表示功率可变可计划设备是关闭状态,
Figure FDA00039428055300000216
为t时刻功率可变可计划设备的输入功率,
Figure FDA00039428055300000217
为功率可变可计划设备的功率最大值;
(5)储能设备模型,
Figure FDA00039428055300000218
Figure FDA00039428055300000219
Figure FDA00039428055300000220
Figure FDA00039428055300000221
式中,
Figure FDA00039428055300000222
为储能设备充电功率的最大值,
Figure FDA00039428055300000223
为储能设备放电功率的最大值,
Figure FDA00039428055300000224
表示储能设备在t时刻的下一时间步的电量,ηc为储能设备的充电效率,ηdisc为储能设备的放电效率,
Figure FDA00039428055300000225
为储能设备的最大电量,
Figure FDA00039428055300000226
为储能设备的最小电量。
4.根据权利要求3所述的基于深度强化学习的智能家庭能量管理方法,其特征是,所述环境状态的表达式如下:
Figure FDA00039428055300000227
式中,St为智能家庭在t时刻的环境状态,
Figure FDA00039428055300000228
为t时刻的分布式光伏发电机输出功率,
Figure FDA00039428055300000229
为t时刻功率恒定即时需求设备i的输入功率,
Figure FDA00039428055300000230
为t时刻的室外温度,
Figure FDA00039428055300000231
为t时刻的室内温度,
Figure FDA00039428055300000232
为t时刻功率恒定可计划设备k的状态变量,
Figure FDA00039428055300000233
为t时刻功率可变可计划设备的状态变量,
Figure FDA00039428055300000234
为t时刻的功率可变可计划设备电动汽车的电量,
Figure FDA00039428055300000235
为t时刻的储能设备的电量,λt为t时刻的用户购买电力的价格,t为t时刻的在一天中的时间索引(t’=mod(t,24))。用户卖电的价格
Figure FDA00039428055300000236
通常与买电的价格λt相关(例如,
Figure FDA0003942805530000031
δ是常数),因此
Figure FDA0003942805530000032
可不作为环境状态的一部分。
5.根据权利要求3所述的基于深度强化学习的智能家庭能量管理方法,其特征是,所述动作的表达式如下:
Figure FDA0003942805530000033
式中,At为智能家庭中的所有可控设备在t时刻的动作空间,
Figure FDA0003942805530000034
为功率可变即时需求设备j在t时刻的输入功率,
Figure FDA0003942805530000035
为功率恒定可计划设备k在t时刻的输入功率,
Figure FDA0003942805530000036
为功率可变可计划设备在t时刻的输入功率,
Figure FDA0003942805530000037
为储能设备在t时刻的充放电功率,
Figure FDA0003942805530000038
表示充电,
Figure FDA0003942805530000039
表示放电。
6.根据权利要求3所述的基于深度强化学习的智能家庭能量管理方法,其特征是,所述奖励函数的表达式如下:
Figure FDA00039428055300000310
式中,Rt为t时刻的奖励,ρ为家庭能源成本相对于用户不满意情绪成本的权重系数,
Figure FDA00039428055300000311
表示智能家庭t时刻的的电力成本,
Figure FDA00039428055300000312
表示储能设备在t时刻充放电导致的设备损耗成本,
Figure FDA00039428055300000313
表示功率可变即时需求设备暖通空调j在t时刻的运行功率不当导致的室内温度与预期室内温度偏差过大的不满成本,
Figure FDA00039428055300000314
表示功率恒定可计划设备洗衣机k未在期望时间点前完成任务的不满成本,
Figure FDA00039428055300000315
表示功率可变可计划设备电动汽车电池电量不足的不满成本。
7.根据权利要求1至6中任一项所述的基于深度强化学习的智能家庭能量管理方法,其特征是,所述在线训练模块深度神经网络包括行动者网络、目标行动者网络、评论家网络1、目标评论家网络1,评论家网络2、目标评论家网络2,所述本地应用模块深度神经网络与行动者网络、目标行动者网络的结构相同;
本地应用模块深度神经网络输入层的神经元个数与环境状态的维度相对应,隐藏层所采用的激活函数为线性整流函数,输出层的神经元个数与动作的数量相对应,输出层所采用的激活函数为双曲正切函数;
评论家网络1、评论家网络2、目标评论家网络1和目标评论家网络2的结构均相同,其输入层输入环境状态和动作信息,输入的环境状态和动作的神经元数量分别与环境状态的维度和动作的数量相对应,环境状态和动作信息拼接后输入至隐藏层,所述隐藏层所采用的激活函数为线性整流函数,与所述隐藏层连接的输出层所采用的激活函数为线性整流函数。
CN202211424951.2A 2022-11-15 2022-11-15 一种基于深度强化学习的智能家庭能量管理方法 Pending CN115759611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211424951.2A CN115759611A (zh) 2022-11-15 2022-11-15 一种基于深度强化学习的智能家庭能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211424951.2A CN115759611A (zh) 2022-11-15 2022-11-15 一种基于深度强化学习的智能家庭能量管理方法

Publications (1)

Publication Number Publication Date
CN115759611A true CN115759611A (zh) 2023-03-07

Family

ID=85370954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211424951.2A Pending CN115759611A (zh) 2022-11-15 2022-11-15 一种基于深度强化学习的智能家庭能量管理方法

Country Status (1)

Country Link
CN (1) CN115759611A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118336781A (zh) * 2024-06-13 2024-07-12 西安热工研究院有限公司 一种考虑输入因素的超级电容储能容量分配方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118336781A (zh) * 2024-06-13 2024-07-12 西安热工研究院有限公司 一种考虑输入因素的超级电容储能容量分配方法及系统

Similar Documents

Publication Publication Date Title
Vázquez-Canteli et al. Reinforcement learning for demand response: A review of algorithms and modeling techniques
Pinto et al. Coordinated energy management for a cluster of buildings through deep reinforcement learning
Vazquez-Canteli et al. CityLearn: Standardizing research in multi-agent reinforcement learning for demand response and urban energy management
CN112633571B (zh) 源网荷互动环境下基于lstm的超短期负荷预测方法
Liu et al. Automated control of transactive hvacs in energy distribution systems
CN112366699A (zh) 一种实现电网侧和用户侧交互的家庭能量双层优化方法
CN114841409A (zh) 联合lstm和深度强化学习的家庭能源管理方法及介质
Keerthisinghe et al. Addressing the stochastic nature of energy management in smart homes
CN108110766A (zh) 一种面向智慧园区的变压器负荷管理方法及装置
CN116227883A (zh) 一种基于深度强化学习的智能家庭能量管理系统预测决策一体化调度方法
CN114862252A (zh) 可调负荷多层聚合调度潜力分析方法、系统、设备及介质
Bai et al. Flexibility quantification and enhancement of flexible electric energy systems in buildings
Chatterjee et al. Multi-objective energy management of a smart home in real time environment
CN118485208A (zh) 知识融合深度强化学习的计及舒适度的家庭能量调度方法
Yi et al. Research of building load optimal scheduling based on multi-objective estimation of distributed algorithm
Amadeh et al. Building cluster demand flexibility: An innovative characterization framework and applications at the planning and operational levels
Masihabadi et al. A novel information gap decision theory‐based demand response scheduling for a smart residential community considering deep uncertainties
CN116780627B (zh) 一种建筑园区内的微电网调控方法
CN117543581A (zh) 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用
Coraci et al. An innovative heterogeneous transfer learning framework to enhance the scalability of deep reinforcement learning controllers in buildings with integrated energy systems
CN115115145B (zh) 分布式光伏智能住宅的需求响应调度方法及系统
CN115759611A (zh) 一种基于深度强化学习的智能家庭能量管理方法
Fang et al. Energy scheduling and decision learning of combined cooling, heating and power microgrid based on deep deterministic policy gradient
Divecha et al. Nonlinear model predictive control for the coordination of electric loads in smart homes
Wan et al. Energy Scheduling Strategy of Ice Storage Air Conditioning System Based on Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination