CN115759611A - 一种基于深度强化学习的智能家庭能量管理方法 - Google Patents
一种基于深度强化学习的智能家庭能量管理方法 Download PDFInfo
- Publication number
- CN115759611A CN115759611A CN202211424951.2A CN202211424951A CN115759611A CN 115759611 A CN115759611 A CN 115759611A CN 202211424951 A CN202211424951 A CN 202211424951A CN 115759611 A CN115759611 A CN 115759611A
- Authority
- CN
- China
- Prior art keywords
- power
- equipment
- time
- energy storage
- energy management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 43
- 230000002787 reinforcement Effects 0.000 title claims abstract description 23
- 230000009471 action Effects 0.000 claims abstract description 49
- 230000007613 environmental effect Effects 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000004146 energy storage Methods 0.000 claims description 62
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 238000005406 washing Methods 0.000 claims description 26
- 238000007599 discharging Methods 0.000 claims description 15
- 230000005611 electricity Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 6
- 210000002364 input neuron Anatomy 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 45
- 230000008569 process Effects 0.000 abstract description 20
- 230000008859 change Effects 0.000 abstract description 8
- 238000010438 heat treatment Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000010248 power generation Methods 0.000 description 8
- 238000004378 air conditioning Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000009423 ventilation Methods 0.000 description 4
- 238000011217 control strategy Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 244000068645 Carya illinoensis Species 0.000 description 1
- 235000009025 Carya illinoensis Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于深度强化学习的智能家庭能量管理方法,属于智能家庭能量管理技术领域。所述方法包括:将目标问题建模为马尔可夫决策过程并设计相应的环境状态、动作和奖励函数,在维持用户基本生活情况下通过非确定性策略Soft Actor Critic算法训练出所有设备的最优控制模型,将最优控制模型参数发送给本地应用模块,用于对智能设备的实时控制。智能家庭能量管理系统架构主要包括设备识别模块、信息收集模块、在线训练模块、本地应用模块和设备控制模块。本发明提出的智能家庭能量管理方法和系统架构不需要建筑热动力学模型参数并且可拓展智能设备,同时采用在线训练本地应用相结合模式,可以有效降低环境变化对设备控制的影响。
Description
技术领域
本发明涉及一种基于深度强化学习的智能家庭能量管理方法,属于智能家庭能量管理技术领域。
背景技术
面对不可再生能源的日益枯竭和环境污染的日益严重等挑战,我们一方面需要提高能源利用效率,另一方面也需要开发新能源来满足全社会日益增长的用电需求。随着各国电力市场改革的深入,智能电网实现了用户与电网的双向信息传输,增强了电网与用户的互动,为电网稳定运行提供了有力保障。
智能家庭能量管理是智能电网的核心问题之一。目前已有很多相关研究工作,使用常规控制技术、遗传算法、粒子群优化算法、混合整数线性规划等启发式优化方法和数学优化方法去优化控制智能家庭用电设备,然而这些方法难以应用于含有大量决策变量的在线调度问题。强化学习作为机器学习的分支,即使在缺乏初始环境信息的情况下,也能表现出优异的决策能力,其中深度强化学习更是结合深度学习的感知能力与强化学习的决策能力。为了验证基于深度强化学习的家庭能量管理决策的有效性,有学者提出了深度Q网络和双深度Q网络等算法应用于家庭能源设备的调度,与确定性混合整数线性规划获得的策略相比较,家庭用户消耗的能源成本更低。面对连续状态空间,一些研究工作利用深度确定性策略梯度算法应用于家庭能量管理,仿真结果也验证了该算法的有效性。然而,深度确定性策略梯度算法只能得到一个最优策略,没有探索出所有的最优策略,当环境变化时容易降低决策的有效性。另外现有研究未充分考虑多种设备在智能家庭中可应用于能量管理优化的特定设备属性,因而不适应在智能家庭中添加或者更换其他同属性设备的同时实现最优控制。
发明内容
本发明要解决的技术问题是面对电价、添加或者更换设备等环境状态发生变化情况下智能家庭能量管理系统智能体对所有设备的有效管理,为了解决上述问题,本发明提供了一种基于深度强化学习的智能家庭能量管理方法,包括如下步骤:
设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类;
信息收集模块收集当前智能家庭的实时环境状态信息;
本地应用模块根据当前智能家庭的实时环境状态,实时输出所有设备的动作;
设备控制模块根据所述所有设备的实时动作,对所有设备实施控制;
信息收集模块收集智能家庭的下一时间步环境状态信息和奖励,并将所述当前环境状态信息、当前动作、下一时间步环境状态信息和奖励发送至在线训练模块中的经验池并储存;
在线训练模块从经验池中随机提取一定数量的训练样本集,每个训练样本集包括某时刻环境状态信息、动作和下一时间步的环境状态信息、奖励,以所述奖励和动作熵最大化为目标,利用非确定性策略Soft Actor Critic算法对在线训练模块深度神经网络进行训练,当策略奖励收敛时,将训练好的在线训练模块深度神经网络参数发送至本地应用模块深度神经网络。
进一步地,所述设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类的步骤包括:
(1)若设备功率恒定并且需要及时响应用户需求,则将该设备归为功率恒定即时需求设备,属于不可控设备;
(2)若设备功率可变并且需要及时响应用户需求,则将该设备归为可控设备大类下的功率可变即时需求设备;
(3)若设备功率恒定并且不需要及时响应用户需求,则将该设备归为可控设备大类下的功率恒定可计划设备;
(4)若设备功率可变并且不需要及时响应用户需求,则将该设备归为可控设备大类下的功率可变可计划设备;
(5)若设备为储能设备,则将该设备归为可控设备大类下的储能设备。
进一步地,所述设备的模型如下:
(1)功率恒定即时需求设备冰箱模型,
(2)功率可变即时需求设备暖通空调模型,
(3)功率恒定可计划设备洗衣机模型,
式中,为t时刻洗衣机k的输入功率,为洗衣机k的额定功率,和分别表示用户设定洗衣机k的允许运行的开始和结束时间,表示洗衣机k的工作持续时间,为洗衣机k的状态变量,表示洗衣机k是启动状态,表示洗衣机k是关闭状态,Δt表示时间间隔;
(4)功率可变可计划设备电动汽车模型,
(5)储能设备模型,
式中,为储能设备充电功率的最大值,为储能设备放电功率的最大值,表示储能设备在t时刻的下一时间步的电量,ηc为储能设备的充电效率,ηdisc为储能设备的放电效率,为储能设备的最大电量,为储能设备的最小电量。
进一步地,所述环境状态的表达式如下:
式中,St为智能家庭在t时刻的环境状态,为t时刻分布式光伏发电机输出功率,为t时刻冰箱i的额定功率,为t时刻室外温度,为t时刻室内温度,为t时刻洗衣机k的状态变量,为t时刻电动汽车的状态变量,为t时刻电动汽车的电量,为t时刻储能设备的电量,λt为t时刻用户购买电力的价格,t’为t时刻在一天中的时间索引。
进一步地,所述动作的表达式如下:
式中,At为智能家庭中的所有可控设备在t时刻的动作空间,为暖通空调j在t时刻的输入功率,为洗衣机k在t时刻的输入功率,为电动汽车在t时刻的输入功率,为储能设备在t时刻的充放电功率,表示充电,表示放电。
进一步地,所述奖励函数的表达式如下:
式中,Rt为t时刻的奖励,ρ为家庭能源成本相对于用户不满意情绪成本的权重系数,表示智能家庭t时刻的电力成本,表示储能设备在t时刻充放电导致的设备损耗成本,表示暖通空调j在t时刻的运行功率不当导致的室内温度与预期室内温度偏差过大的不满成本,表示洗衣机k未在期望时间点前完成任务的不满成本,表示电动汽车电池电量不足的不满成本。
进一步地,智能家庭室内温度的动态变化模型如下:
进一步地,电动汽车充电时电量的动态变化模型如下:
式中,为电动汽车的状态变量,表示电动汽车在家,表示电动汽车在外面,tarr和tdep分别为电动汽车到家和离开的时间,表示电动汽车在t时刻的下一时间步的电量,为电动汽车的最小电量,为电动汽车电池的最大电量,为电动汽车的充电效率,为电动汽车充电功率的最大值。
进一步地,储能设备电量的动态变化模型如下:
式中,表示储能设备在t时刻的下一时间步的电量,ηc和ηdisc分别为储能设备的充电效率和放电效率,为储能设备的最大电量,为储能设备的最小电量,为储能设备充电功率的最大值,为储能设备放电功率的最大值,是储能设备在t时刻的功率,二进制变量b是为了防止储能设备同时充电和放电。
进一步地,所述在线训练模块深度神经网络包括行动者网络、目标行动者网络、评论家网络1、目标评论家网络1,评论家网络2、目标评论家网络2,所述本地应用模块深度神经网络与行动者网络、目标行动者网络的结构相同;
本地应用模块深度神经网络输入层的神经元个数与环境状态的维度相对应,隐藏层所采用的激活函数为线性整流函数,输出层的神经元个数与动作的数量相对应,输出层所采用的激活函数为双曲正切函数;
评论家网络1、评论家网络2、目标评论家网络1和目标评论家网络2的结构均相同,其输入层输入环境状态和动作信息,输入的环境状态和动作的神经元数量分别与环境状态的维度和动作的数量相对应,环境状态和动作信息拼接后输入至隐藏层,所述隐藏层所采用的激活函数为线性整流函数,与所述隐藏层连接的输出层所采用的激活函数为线性整流函数。
附图说明
下面结合附图和实施方式对本发明进一步说明。
图1是本发明具体实施方式提供的一种基于深度强化学习的智能家庭能量管理方法所述马尔可夫决策过程示意图;
图2是本发明具体实施方式提供的一种智能家庭能量管理系统架构示意图;
图3是本发明具体实施方式提供的一种基于深度强化学习的智能家庭能量管理方法的工作流程图;
图4是本发明方法实施例所述本地深度神经网络的结构示意图;
图5是本发明方法实施例所述评论家网络和目标评论家网络的结构示意图;
图6是本发明方法实施例所述在线训练模块深度神经网络的训练过程示意图;
图7是本发明方法基于真实数据与其他方法的测试对比图。
具体实施方式
以下结合附图进一步说明本发明的技术方案和具体实施方式。
本发明具体实施方式提供了一种基于深度强化学习的智能家庭能量管理方法和系统架构,其中系统架构包括设备识别模块、信息收集模块、在线训练模块(经验池和深度神经网络)、本地应用模块(深度神经网络)和设备控制模块。所述智能家庭包括分布式光伏发电设备、功率恒定即时需求设备冰箱、功率可变即时需求设备暖通空调、功率恒定可计划设备洗衣机、功率可变可计划设备电动汽车和储能设备。其中,智能家庭能量管理系统架构各模块之间以及分布式光伏发电设备、功率恒定即时需求设备冰箱、功率可变即时需求设备暖通空调、功率恒定可计划设备洗衣机、功率可变可计划设备电动汽车、储能设备、智能电表和室内外温度传感器之间均存在信息交互。
首先,获得室内温度的准确动态通常是困难的,因为室内温度受到许多外界因素影响。其次,很难知道随机系统参数的所有组合的统计分布。第三,不同设备间存在相关的时间耦合操作限制,这意味着当前的动作将影响未来的决策。第四,智能设备的添加、减小或者更换容易影响对设备的控制效果。因此实现智能家庭中所有设备的实时最优调度非常困难。为解决上述困难,本发明核心设计思想如下:首先,在无建筑热动力模型和维持用户基本生活需求的情况下,将智能家庭能源成本最小化问题建模为马尔可夫决策过程,如图1所示,是本发明具体实施方式提供的一种基于深度强化学习的智能家庭能量管理方法所述马尔可夫决策过程示意图;然后,提出一种智能家庭能量管理系统架构,其中包括设备识别模块、信息收集模块、在线训练模块(经验池和深度神经网络)、本地应用模块(深度神经网络)和设备控制模块。该系统架构采用在线训练本地应用相结合模式,如图2所示,是本发明具体实施方式提供的智能家庭能量管理系统架构示意图。本发明的智能家庭能量管理方法基于非确定性策略Soft Actor Critic算法设计,本地应用模块动作选择所需深度神经网络参数由在线训练模块深度神经网络发送更新。根据马尔可夫决策过程的特性,下一时刻的家庭环境状态应仅依赖于当前家庭环境状态和所有设备的动作,与之前的家庭环境状态和所有设备动作无关。但是马尔可夫决策过程仅仅是智能家庭能量管理问题的近似描述,因为环境状态的某些部分在实际生活中可能不具有马尔可夫性,例如光伏发电发电输出和电价等。根据现有的研究工作,即使环境状态不是严格的马尔可夫决策过程,相应的问题仍然可以通过基于深度强化学习的算法经验性地解决。因而无需知晓任何不确定性系统参数的先验信息,适用于大部分领域的决策相关问题。
如图3所示,是本发明具体实施方式提供的一种基于深度强化学习的智能家庭能量管理方法的工作流程图,所述方法包括如下设计步骤:
步骤一,在无建筑热动力模型和维持用户基本生活的情况下,将智能家庭能源成本最小化问题建模为马尔可夫决策过程,接下来设计马尔可夫决策过程组成部分中的环境状态、动作和奖励函数。
式中,为t时刻智能家庭产生的电力成本,为t时刻储能设备充放电产生的折旧成本,λt和分别为t时刻的用户购买电力和售卖电力的价格,为t时刻智能家庭与电网买卖的电力,为储能设备的折旧系数,和分别为t时刻储能设备的充电功率和放电功率;当时,智能家庭向电网购买电力,此时电力成本为当时,智能家庭向电网售卖电力,此时电力成本为
由于用户基本的生活需求还需要被满足,即维持室内温度处于一定范围内、每天洗好烘干衣物和离家时保证电动汽车电量充足,因而该马尔可夫决策过程的决策变量有:暖通空调、洗衣机和电动汽车的状态和动作;需考虑的约束有:与暖通空调相关的约束、与洗衣机相关的约束、与电动汽车相关的约束、与储能设备相关的约束和与能量守恒相关的约束,在现有的研究中,一个时隙的典型持续时间是几分钟或一小时,为了方便起见,本发明设定每一时间步为1小时,具体如下:
(1)暖通空调可以通过调整输入功率以保持家庭中热舒适性,即式中,为暖通空调j的最大输入功率。由于热舒适性取决于许多因素,为简单起见,本发明使用舒适的温度范围作为热舒适度的表示,即式中,Tmin和Tmax分别表示室内舒适温度范围的最小室内温度和最大室内温度,为t时刻的室内温度。
(2)洗衣机k可以在用户设定的截止时间点前根据实时环境状态决定其启动时间并以额定功率持续运行一段时间,所使用的电量总量不变并且不可被中断,反映在负载曲线上为在时间轴上的平移以及总面积不变。即式中,为洗衣机启动时间,和分别为用户设定允许运行的开始和结束时间,为洗衣机k的工作持续时间,为洗衣机k的的状态变量,表示洗衣机k处于启动状态,表示洗衣机k处于关闭状态,Δt表示时间间隔。
(3)电动汽车在家时电池可以进行充电,离开家后电动汽车只考虑放电,充电时电量动态变化模型为:式中,t∈[tarr,tdep], 为t时刻电动汽车的状态变量,表示t时刻电动汽车在家,表示t时刻电动汽车在外面,tarr和tdep分别为电动汽车到家和离开的时间,表示电动汽车在t时刻的下一时间步电量,为电动汽车的充电效率,为电动汽车在t时刻的充电功率。电动汽车电池的充电功率受限于其对应的额定功率,即由于电动汽车电池的容量有限,即电动汽车电池电量应处于最小电量和最大电量之间,即
(4)储能设备在任何时刻都可以进行充电或者放电动作,其电量的动态变化模型为: 式中,表示储能设备在t时刻的下一时间步的电量,ηc∈[0,1],为储能设备的充电效率,ηdisc∈[0,1],为储能设备的放电效率,为储能设备的最大电量,为储能设备的最小电量。由于储能设备的电池容量有限,它的电量应处于最小电量和最大电量之间,即储能设备充电功率受限于其对应的额定功率,即 式中,为储能设备的充电功率最大值,为储能设备的放电功率最大值,为储能设备充放电功率,二进制变量b是为了防止储能设备同时充电和放电。
(5)为了确保任意时刻的电力功率平衡,智能家庭中的总电力供应功率应等于电力需求功率,即式中,和分别表示电网买卖功率和光伏发电输出功率。如果则表示智能家庭中有电力被卖到电网,则表示智能家庭需要电网输入电力供能。
在智能家庭中,下一个时隙的环境状态仅取决于当前环境状态和所有设备的动作,与先前的状态环境状态和动作无关,因此所有设备的控制都可以看作是一个马尔可夫决策过程。马尔可夫决策过程是智能家庭能量管理问题的近似描述,因为环境状态的某些部分在实际生活中可能不具有马尔可夫性,例如光伏发电输出功率和电价。对于非严格的马尔可夫决策过程,相应的问题仍然可以通过基于强化学习的算法经验性地解决,而且本发明的结果也能够证实其有效性。
本实施例中,马尔可夫决策过程的主要构成包括环境状态、动作和奖励函数,其设计分别如下:
(1)环境状态。t时刻的环境状态用St表示,分别为:t时刻的光伏发电输出功率冰箱i的输入功率室外温度室内温度洗衣机k的状态变量电动汽车的状态变量电动汽车电量储能设备电量用户购买电力的价格λt,t时刻的在一天中的时间索引t’(如第24小时相当于0点,第25小时相当于1点),因而环境状态
(2)动作空间。t时刻的所有可控设备的动作空间用At表示,包括在t时刻暖通空调j的输入功率洗衣机k的运行功率电动汽车的输入功率和储能设备的充放电功率为确保洗衣机的正常使用时间、电动汽车和储能设备在充放电过程中不会超出其电池容量限制,需满足以下要求:
(3)奖励函数。t时刻的奖励函数用Rt表示,包括五个部分:t时候家庭电力与电网之间的电力成本储能系统充放电导致的储能设备损耗成本暖通空调j输入功率不当导致的室内温度与预期室内温度偏差过大的不满成本洗衣机k未在期望时间点完成的不满成本电动汽车电量不足的不满成本
步骤二,以总奖励和每一次输出的动作熵最大化为目标,利用非确定性策略SoftActor Critic算法训练出所有可控设备在不同环境状态下的所有最优行为。
在每个时刻,智能家庭能量管理系统进行策略优化时都希望通过联合控制所有设备以最大化未来的期望回报和策略的熵相互权衡相加得到的目标函数,目标函数为: 式中,α是熵正则化系数,表示熵在奖励函数中的权重,自适应损失函数为: 式中,H0为目标熵值,一般为动作空间的维度。
为了获得对智能家庭中所有设备的最优控制策略,本发明基于非确定性策略SoftActor Critic算法设计了智能家庭能量管理方法,其实际运行过程如下:(1)设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类;(2)信息收集模块收集当前智能家庭的实时环境状态信息;(3)本地应用模块根据当前智能家庭的实时环境状态,实时输出所有设备的动作;(4)设备控制模块根据所述所有设备的当前动作,对所有设备实施控制;(5)控制策略满足用户需求时,信息收集模块收集智能家庭的下一时间步环境状态信息和奖励,并将所述当前环境状态信息、当前动作、下一时间步环境状态信息和奖励发送至在线训练模块中的经验池并储存;(6)当所控制设备的策略不能满足用户要求时(包括室内温度不合适,电力成本太高等等),用户启动更新请求,这时在线训练模块需要从经验池中随机提取一定数量的训练样本集,以总奖励和策略的熵最大化为目标,利用非确定性策略Soft Actor Critic算法对深度神经网络进行训练;(7)当策略奖励趋于稳定时将在线训练模块深度神经网络参数发送至本地应用模块深度神经网络,进而对智能家庭中所有设备继续进行控制。
所述在线训练模块深度神经网络包括行动者网络、目标行动者网络、评论家网络1、评论家网络2、目标评论家网络1和目标评论家网络2。所述本地应用模块的深度神经网络与行动者网络、目标行动者网络的结构相同,评论家网络1、评论家网络2、目标评论家网络1与目标评论家网络2的结构均相同;
如图4所示,是本发明方法实施例中所述本地应用模块深度神经网络的结构示意图,其网络结构包含输入层、多个隐藏层和输出层,其中,输入层神经元个数与环境状态维度对应,隐藏层的神经元个数可根据需要设定,采用的激活函数为线性整流函数,输出层个数与动作的数量相对应,采用的激活函数均为双曲正切函数。
如图5所示,是本发明方法实施例所述评论家网络和目标评论家网络的结构示意图,具体结构如下:输入层输入环境状态和动作信息,输入的环境状态和动作的神经元数量分别与环境状态的维度和动作的数量相对应,环境状态和动作拼接后输入至隐藏层,所述隐藏层所采用的激活函数为线性整流函数,与所述隐藏层连接的输出层所采用的激活函数为线性整流函数。
如图6所示,是本发明方法实施例中所述深度神经网络的训练过程示意图。首先,从经验池中随机抽取一定数量的训练样本集,基于这些训练样本集得到评论家网络1和评论家网络2的输出以及目标评论家网络1和目标评论家网络2的输出,通过取相对较小的评论家网络输出值作为目标值来避免最大化带来的高估,然后根据相对应的评论家网络和目标评论家的差值对评论家网络的网络参数进行更新,同时更新熵的系数α,进一步利用训练样本集中的环境状态作为行动者网络的输入,行动者网络对应输出一组行为,该组行为和当前环境状态信息一起输入到评论家网络,进而得到行为值函数。然后利用策略梯度对行动者网络深度神经网络参数进行更新。等行动者网络和评论家网络参数和熵的系数α更新完毕后,对目标行动者网络和目标评论家网络进行更新。上述过程一直迭代,直到训练好的策略奖励略趋于稳定。
步骤三,输入当前环境状态信息后,设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类,然后本地应用模块深度神经网络输出当前所有设备的动作,最后动作控制模块根据当前动作对所有设备实施控制。
本发明实施例与现有技术相比,能够取得以下有益效果:
(1)在维持智能家庭用户基本需求的情况下综合考虑了了光伏发电、室内外温度、实时电价、电力买卖以及拥有多种属性智能设备的智能家庭能源成本最小化问题,并将该问题建模为马尔可夫决策过程,同时重新设计了环境状态、动作和奖励函数;
(2)提出了基于非确定性策略Soft Actor Critic算法的智能家庭能量管理方法,该方法无需知晓任何不确定性系统参数的先验信息和建筑热动力学模型,并且可以学习到所有设备的最优控制策略,更容易找到更好更合适的控制模式,同时学到的策略可以作为更复杂具体任务的初始化。
(3)提出了一种可识别以及拓展设备的智能家庭能量管理系统架构,同时采用在线训练本地应用相结合模式,可以有效降低环境变化对设备控制的影响。
(4)本发明的方法具有高效性。基于实际数据的性能测试表明:相比现有方法,本发明的方法可在维持用户基本生活的前提下,降低能源成本10.11%-23.36%。
如图7所示,是本发明方法实施例与其他方法的性能对比图,方案一:不考虑储能设备,采用传统的开/关方式对暖通空调进行控制,以夏天制冷模式为例,当室内温度高于设定温度上限时,以额定功率启动暖通空调;当室内温度低于设定温度下限时,关闭暖通空调,洗衣机每天在固定时间段使用、电动汽车到家即开始充电,充满为止。方案二:不考虑储能设备,使用非确定性策略Soft Actor Critic对所有设备进行控制。方案三:考虑储能设备,使用确定性策略梯度算法对所有设备进行控制。系统输入的光伏发电功率、室外温度和电价数据均来自2020年6月1日至9月30日美国佛罗里达州某一地区的Pecan Street数据库。相较于对比方案一,本发明方法实施例能够在维持维持用户基本生活的前提下﹐可以降低能源成本23.36%。相较于对比方案二,本发明方法实施例能够在维持维持用户基本生活的前提下﹐储能设备可以有效降低能源成本14.48%。相较于对比方案三,本发明方法可以降低能源成本10.11%。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种基于深度强化学习的智能家庭能量管理方法,其特征是,所述方法包括如下步骤:
设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类;
信息收集模块收集当前智能家庭的实时环境状态信息;
本地应用模块根据当前智能家庭的实时环境状态,实时输出所有设备的动作;
设备控制模块根据所述所有设备的实时动作,对所有设备实施控制;
信息收集模块收集智能家庭的下一时间步环境状态信息和奖励,同时将所述当前环境状态信息、当前动作、下一时间步环境状态信息和奖励发送至在线训练模块中的经验池并储存;
在线训练模块从经验池中随机提取一定数量的训练样本集,每个训练样本集包括某时刻环境状态信息、动作和下一时间步的环境状态信息、奖励,以所述奖励和动作熵最大化为目标,利用非确定性策略Soft Actor Critic算法对在线训练模块深度神经网络进行训练,当策略奖励收敛时,将训练好的在线训练模块深度神经网络参数发送至本地应用模块深度神经网络。
2.根据权利要求1所述的基于深度强化学习的智能家庭能量管理方法,其特征是,所述设备识别模块根据可应用于能量管理优化的特定设备属性对所有设备进行分类的步骤包括:
(1)若设备功率恒定并且需要及时响应用户需求,则将该设备归为功率恒定即时需求设备,属于不可控设备;
(2)若设备功率可变并且需要及时响应用户需求,则将该设备归为可控设备大类下的功率可变即时需求设备;
(3)若设备功率恒定并且不需要及时响应用户需求,则将该设备归为可控设备大类下的功率恒定可计划设备;
(4)若设备功率可变并且不需要及时响应用户需求,则将该设备归为可控设备大类下的功率可变可计划设备;
(5)若设备为储能设备,则将该设备归为可控设备大类下的储能设备。
3.根据权利要求1至2所述的基于深度强化学习的智能家庭能量管理方法,其特征是,所述设备的模型如下:
(1)功率恒定即时需求设备模型,
(2)功率可变即时需求设备模型,
(3)功率恒定可计划设备模型,
式中,为t时刻功率恒定可计划设备k的输入功率,为功率恒定可计划设备k的额定功率,和分别表示用户设定功率恒定可计划设备k的允许运行的开始和结束时间,表示功率恒定可计划设备k的工作持续时间,为功率恒定可计划设备k的状态变量,表示功率恒定可计划设备k是启动状态,表示功率恒定可计划设备k是关闭状态,Δt表示时间间隔;
(4)功率可变可计划设备模型,
式中,为功率可变可计划设备的状态变量,tarr和tdep分别为功率可变可计划设备允许启动的开始和结束时间,表示功率可变可计划设备是启动状态,表示功率可变可计划设备是关闭状态,为t时刻功率可变可计划设备的输入功率,为功率可变可计划设备的功率最大值;
(5)储能设备模型,
7.根据权利要求1至6中任一项所述的基于深度强化学习的智能家庭能量管理方法,其特征是,所述在线训练模块深度神经网络包括行动者网络、目标行动者网络、评论家网络1、目标评论家网络1,评论家网络2、目标评论家网络2,所述本地应用模块深度神经网络与行动者网络、目标行动者网络的结构相同;
本地应用模块深度神经网络输入层的神经元个数与环境状态的维度相对应,隐藏层所采用的激活函数为线性整流函数,输出层的神经元个数与动作的数量相对应,输出层所采用的激活函数为双曲正切函数;
评论家网络1、评论家网络2、目标评论家网络1和目标评论家网络2的结构均相同,其输入层输入环境状态和动作信息,输入的环境状态和动作的神经元数量分别与环境状态的维度和动作的数量相对应,环境状态和动作信息拼接后输入至隐藏层,所述隐藏层所采用的激活函数为线性整流函数,与所述隐藏层连接的输出层所采用的激活函数为线性整流函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211424951.2A CN115759611A (zh) | 2022-11-15 | 2022-11-15 | 一种基于深度强化学习的智能家庭能量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211424951.2A CN115759611A (zh) | 2022-11-15 | 2022-11-15 | 一种基于深度强化学习的智能家庭能量管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115759611A true CN115759611A (zh) | 2023-03-07 |
Family
ID=85370954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211424951.2A Pending CN115759611A (zh) | 2022-11-15 | 2022-11-15 | 一种基于深度强化学习的智能家庭能量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115759611A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118336781A (zh) * | 2024-06-13 | 2024-07-12 | 西安热工研究院有限公司 | 一种考虑输入因素的超级电容储能容量分配方法及系统 |
-
2022
- 2022-11-15 CN CN202211424951.2A patent/CN115759611A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118336781A (zh) * | 2024-06-13 | 2024-07-12 | 西安热工研究院有限公司 | 一种考虑输入因素的超级电容储能容量分配方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vázquez-Canteli et al. | Reinforcement learning for demand response: A review of algorithms and modeling techniques | |
Pinto et al. | Coordinated energy management for a cluster of buildings through deep reinforcement learning | |
Vazquez-Canteli et al. | CityLearn: Standardizing research in multi-agent reinforcement learning for demand response and urban energy management | |
CN112633571B (zh) | 源网荷互动环境下基于lstm的超短期负荷预测方法 | |
Liu et al. | Automated control of transactive hvacs in energy distribution systems | |
CN112366699A (zh) | 一种实现电网侧和用户侧交互的家庭能量双层优化方法 | |
CN114841409A (zh) | 联合lstm和深度强化学习的家庭能源管理方法及介质 | |
Keerthisinghe et al. | Addressing the stochastic nature of energy management in smart homes | |
CN108110766A (zh) | 一种面向智慧园区的变压器负荷管理方法及装置 | |
CN116227883A (zh) | 一种基于深度强化学习的智能家庭能量管理系统预测决策一体化调度方法 | |
CN114862252A (zh) | 可调负荷多层聚合调度潜力分析方法、系统、设备及介质 | |
Bai et al. | Flexibility quantification and enhancement of flexible electric energy systems in buildings | |
Chatterjee et al. | Multi-objective energy management of a smart home in real time environment | |
CN118485208A (zh) | 知识融合深度强化学习的计及舒适度的家庭能量调度方法 | |
Yi et al. | Research of building load optimal scheduling based on multi-objective estimation of distributed algorithm | |
Amadeh et al. | Building cluster demand flexibility: An innovative characterization framework and applications at the planning and operational levels | |
Masihabadi et al. | A novel information gap decision theory‐based demand response scheduling for a smart residential community considering deep uncertainties | |
CN116780627B (zh) | 一种建筑园区内的微电网调控方法 | |
CN117543581A (zh) | 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用 | |
Coraci et al. | An innovative heterogeneous transfer learning framework to enhance the scalability of deep reinforcement learning controllers in buildings with integrated energy systems | |
CN115115145B (zh) | 分布式光伏智能住宅的需求响应调度方法及系统 | |
CN115759611A (zh) | 一种基于深度强化学习的智能家庭能量管理方法 | |
Fang et al. | Energy scheduling and decision learning of combined cooling, heating and power microgrid based on deep deterministic policy gradient | |
Divecha et al. | Nonlinear model predictive control for the coordination of electric loads in smart homes | |
Wan et al. | Energy Scheduling Strategy of Ice Storage Air Conditioning System Based on Deep Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |