CN115183474A - 一种基于模型预测与深度强化学习的热水系统控制方法 - Google Patents

一种基于模型预测与深度强化学习的热水系统控制方法 Download PDF

Info

Publication number
CN115183474A
CN115183474A CN202210755343.3A CN202210755343A CN115183474A CN 115183474 A CN115183474 A CN 115183474A CN 202210755343 A CN202210755343 A CN 202210755343A CN 115183474 A CN115183474 A CN 115183474A
Authority
CN
China
Prior art keywords
neuron
hot water
output
time
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210755343.3A
Other languages
English (en)
Other versions
CN115183474B (zh
Inventor
殷林飞
熊轶
胡立坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN202210755343.3A priority Critical patent/CN115183474B/zh
Publication of CN115183474A publication Critical patent/CN115183474A/zh
Application granted granted Critical
Publication of CN115183474B publication Critical patent/CN115183474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24HFLUID HEATERS, e.g. WATER OR AIR HEATERS, HAVING HEAT-GENERATING MEANS, e.g. HEAT PUMPS, IN GENERAL
    • F24H15/00Control of fluid heaters
    • F24H15/10Control of fluid heaters characterised by the purpose of the control
    • F24H15/156Reducing the quantity of energy consumed; Increasing efficiency
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24HFLUID HEATERS, e.g. WATER OR AIR HEATERS, HAVING HEAT-GENERATING MEANS, e.g. HEAT PUMPS, IN GENERAL
    • F24H15/00Control of fluid heaters
    • F24H15/10Control of fluid heaters characterised by the purpose of the control
    • F24H15/176Improving or maintaining comfort of users
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24HFLUID HEATERS, e.g. WATER OR AIR HEATERS, HAVING HEAT-GENERATING MEANS, e.g. HEAT PUMPS, IN GENERAL
    • F24H15/00Control of fluid heaters
    • F24H15/40Control of fluid heaters characterised by the type of controllers
    • F24H15/414Control of fluid heaters characterised by the type of controllers using electronic processing, e.g. computer-based
    • F24H15/421Control of fluid heaters characterised by the type of controllers using electronic processing, e.g. computer-based using pre-stored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Thermal Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于模型预测与深度强化学习的热水系统控制方法,该方法将监督学习与近端策略优化方法进行结合,用于控制随机行为居住者的热水系统。首先,所提方法中的监督学习包括循环门控单元、深度神经网络判别器和时间序列预测模块。输入政策信息与行为信息,来预测未来一天居住者行为,并输出未来一天近端策略优化方法接入热水系统的概率。若概率小于阈值,则采用两点控制策略并继续训练智能体;反之,则采用近端策略优化方法。其次,所提方法中的近端策略优化方法能学习随机的居住者行为,无需特定调整即能应用在各种不同的居住场合,该方法能直接用于居住者家居,减少所需设备的安装与调试的时间,并且该方法的整体框架解释性比较优异。

Description

一种基于模型预测与深度强化学习的热水系统控制方法
技术领域
本发明属于建筑能源系统优化运行领域,涉及监督学习与深度强化学习的热水系统控制方法,适用于随机行为居住者的热水系统。
背景技术
在现代低能耗建筑中,热水能源需求占总能量需求的70%左右,热水系统的控制方法日益成为影响建筑能源系统优化运行的重要因素,家庭中热水需求与居住者行为密切相关,居住者行为是建筑能源系统优化运行的不确定性来源之一。
随机行为居住者将导致热水系统的保守操作方法,采用两点控制方法,当水箱温度低于较低阈值时打开热泵,当水箱温度高于较高阈值时关闭热泵。虽然它是一个简单易用的控制方法,但是与居住者的行为无关,过度准备热水会消耗大量能源。
现有的热水系统的控制方法除了两点控制方法还有一种基于强化学习的热水系统控制方法,但是该方法的设备所需的安装和调试时间长、可解释性比较差、并且有扰乱居住者舒适感的可能性。
因此,提出一种基于模型预测与深度强化学习的热水系统控制方法,来解决过度消耗能源、设备所需的安装和调试时间长、可解释性差的问题。
发明内容
本发明提出一种基于模型预测与深度强化学习的热水系统控制方法,该方法将监督学习和近端策略优化方法进行结合,用于随机行为居住者的热水系统的控制;无需特定调整即能应用在各种不同居民居住场合,能直接用于居住者家居,减少所需设备的安装与调试的时间,并且该方法的整体框架可解释性强;在使用过程中的步骤为:
步骤(1):将信息与居住者的行为输入到循环门控单元;居住者的行为表示前一周每日居住者在家每小时的热水使用情况,然后通过循环门控单元进行预测,输出未来一天居住者行为,即未来一天居住者每小时的热水使用情况;
若居住者必须在家,则信息为1,若居住者能够外出,则信息为0;居住者的行为是一个7×24的信息矩阵,为过去一周每天每小时的热水使用情况;将信息和行为输入到循环门控单元后,能得到一个1× 24的信息矩阵,该1×24的信息矩阵表示循环门控单元所预测的居住者未来一天24小时的热水使用情况;
循环门控单元由许多个含两个门的门控神经元组成,包括更新门和重置门;重置门是为得到门控神经元的候选隐藏状态,重置门的输出为:
RGRU,t=σ(XtWxr+HGRU,t-1Whr+br) (1)
式中:RGRU,t为门控神经元中重置门t时刻的输出;σ(·)为激活函数;Xt为门控神经元t时刻的输入;Wxr为门控神经元的输入与重置门之间的权重;HGRU,t-1为门控神经元t-1时刻的隐藏状态;Whr为门控神经元的隐藏状态与重置门之间的权重;br为计算重置门的输出时的偏置;
更新门的输出为:
ZGRU,t=σ(XtWxz+HGRU,t-1Whz+bz) (2)
式中:ZGRU,t为门控神经元中更新门t时刻的输出;Wxz为门控神经元的输入与更新门之间的权重;Whz为门控神经元的隐藏状态与更新门之间的权重;bz为计算门控神经元的更新门的输出时的偏置;
门控神经元的候选隐藏状态
Figure RE-GDA0003834713490000011
为:
Figure RE-GDA0003834713490000021
式中:
Figure RE-GDA0003834713490000022
为门控神经元t时刻的候选隐藏状态;tanh(·)为双曲函数;Wxh为门控神经元的输入与门控神经元的候选隐藏状态之间的权重;⊙为同或逻辑运算符;Whh为门控神经元的隐藏状态与候选隐藏状态之间的权重;bh为计算门控神经元的候选隐藏状态时的偏置;
根据更新门ZGRU,t的输出和候选隐藏状态
Figure RE-GDA0003834713490000023
计算得到隐藏状态HGRU,t
Figure RE-GDA0003834713490000024
式中:HGRU,t为门控神经元t时刻的隐藏状态;
步骤(2):将循环门控单元输出的预测未来一天居住者行为和上一周对应那天的居住者行为输入到深度神经网络判别器中,即将未来一天每小时的热水使用情况和上周对应那天的每小时的热水使用情况输入到深度神经网络判别器中,通过深度神经网络判别器输出结果来判断未来一天居住者每小时的热水使用情况和上周对应那天的每小时的热水使用情况是否一致;若输出结果为一致,则未来一天每小时的热水系统的控制与上周对应那天的每小时的热水系统的控制方法一致,若输出结果为不一致,则进入时间序列预测模块;
深度神经网络判别器的输入为两个1×24的信息矩阵,一个信息矩阵是由步骤(1)中循环门控单元的输出结果,另外一个信息矩阵表示的是上周对应那天的24小时热水使用情况;深度神经网络判别器的输出结果为真或者假;若结果为真,则用1表示,若结果为假,则用0表示;
热水系统包括:热水箱和热泵;
深度神经网络判别器是由深度神经网络组成,包括输入层、隐藏层和输出层;层与层之间是全连接的,即第i层的任意一个神经元一定与第i+1层的任意一个神经元相连,每层共有m个神经元,则对于第l层的第j个神经元输出
Figure RE-GDA0003834713490000025
为:
Figure RE-GDA0003834713490000026
式中:
Figure RE-GDA0003834713490000027
为第l层的第j个神经元的输出值;
Figure RE-GDA0003834713490000028
为第l-1层中第k个神经元与第l层中第j个神经元之间的权重;
Figure RE-GDA0003834713490000029
为计算第l层中第j个神经元输出值中的偏置;
步骤(3):进入时间序列预测模块后,将近端策略优化方法的评价损失函数值和动作损失函数值、归一化的优势函数值以及折扣回报输入到时间序列预测模块,然后输出一个概率值;输出的概率值表示未来一天近端策略优化方法接入热水系统的概率大小,若概率值大于0.95,则将近端策略优化方法接入热水系统,若概率值小于等于0.95,则将两点控制方法接入热水系统;
两点控制方法为:当水箱温度低于65℃时,打开热泵;当水箱温度低于65℃时,关闭热泵;
时间序列预测模块的概率值为:
Figure RE-GDA00038347134900000210
式中:
Figure RE-GDA00038347134900000211
为时间序列预测模块输出的概率值;zi,t表示第i条序列t时刻的值;xi,t表示第i 条序列t时刻的特征,并且
Figure RE-GDA00038347134900000212
xi,1:T=[xi,1,xi,2,...,xi,T];p(zi,t|θ(Hi,t,Θ))为似然因子;t0表示预测的开始时刻;t0-1表示已知的最后时刻;Tforecast为预测的最后时刻;[1,t0-1]表示历史区间,[t0,Tforecast]表示预测区间;Hi,t由长短期记忆神经网络生成;
长短期记忆神经网络由许多个含三个门的网络神经元组成,包括输入门、遗忘门和输出门;其计算过程如下:
首先,计算输入门、遗忘门、输出门的输出;输入门的输出为:
Ii,t=σ(Xi,tWxi+Hi,t-1Whi+bi) (7)
式中:Ii,t为网络神经元输入门第i条序列t时刻的输出;Xi,t为网络神经元第i条序列t时刻的输入;Wxi为网络神经元的输入与输入门之间的权重;Whi为网络神经元的隐藏状态与输入门之间的权重;Hi,t-1为网络神经元第i条序列t时刻的隐藏状态;bi为计算网络神经元的输入门的输出时的偏置;
遗忘门的输出为:
Fi,t=σ(Xi,tWxf+Hi,t-1Whf+bf) (8)
式中:Fi,t为网络神经元遗忘门第i条序列t时刻的输出;Wxf为网络神经元的输入与遗忘门之间的权重;Whf为网络神经元的隐藏状态与遗忘门之间的权重;bf为计算网络神经元的遗忘门的输出时的偏置;
输出门的输出为:
Oi,t=σ(Xi,tWxo+Hi,t-1Who+bo) (9)
式中:Oi,t为网络神经元输出门第i条序列t时刻的输出;Wxo为网络神经元的输入与输出门之间的权重;Who为网络神经元的隐藏状态与输出门之间的权重;bo为计算网络神经元的输出门的输出时的偏置;
其次,计算候选记忆状态:
Figure RE-GDA0003834713490000031
式中:
Figure RE-GDA0003834713490000032
为网络神经元第i条序列t时刻的候选记忆状态;Wxc为网络神经元的候选记忆状态与网络神经元的输入之间的权重;Whc为网络神经元的候选记忆状态与网络神经元的隐藏状态之间的权重;bc为计算网络神经元候选记忆状态时的偏置;
然后,计算记忆状态:
Figure RE-GDA0003834713490000033
式中:Ci,t-1为网络神经元第i条序列t-1时刻的记忆状态;Ci,t为网络神经元第i条序列t时刻的记忆状态;
最后,计算网络神经元的隐藏状态:
Hi,t=Oi,t⊙tanh(Ci,t) (12)
式中:Hi,t为网络神经元第i条序列t时刻的隐藏状态;
近端控制策略优化方法是一种深度强化学习方法,通过不断与环境的交互训练,来最小化评价损失函数和动作损失函数,来更新动作函数参数,近端控制策略优化方法的训练过程为:
(3.1)随机初始化动作函数π(A|S;θ)的参数θ;
式中:A为近端控制策略优化方法对环境做出的动作,动作共有两种,一种是打开热水系统的热泵,一种是关闭热水系统的热泵;S为从环境反馈到近端控制策略优化方法的状态,状态包括前M小时的热水需求间隔、前N小时环境温度、热水箱温度、日期信息;
此外,RPPO为当近端控制策略优化方法的对当前环境做出动作后,从环境返回到近端控制策略优化方法的奖励;奖励设置为:如果有热水需求,则奖励为:
RPPO=-areward×Php-breward×max(40-Ttank,0)-creward×max(Htime-24,0) (13)
如果没有热水需求,则奖励为:
RPPO=-areward×Php-creward×max(Htime-24,0) (14)
式中:areward为奖励中能量项系数;breward为奖励中舒适项系数;creward为奖励中卫生项系数;Php为热泵消耗的能量;max(·,·)为求最大值函数;Ttank为热水箱的温度;Htime为上一次热水箱的温度达到60℃以上的时间长短;
(3.2)随机初始化评价函数V(S;φ)的参数φ;
(3.3)根据当前动作函数和评价函数生成N条轨迹序列,每条轨迹序列为:
Figure RE-GDA0003834713490000041
式中:ts代表某一时刻,即当前轨迹序列的起始时间;
Figure RE-GDA0003834713490000042
为ts时刻的状态;
Figure RE-GDA0003834713490000043
为ts+1时刻的状态;
Figure RE-GDA0003834713490000044
为ts+N-1时刻的状态;
Figure RE-GDA0003834713490000045
为ts+N时刻的状态;
Figure RE-GDA0003834713490000046
是在
Figure RE-GDA00038347134900000418
状态下的一个动作;
Figure RE-GDA0003834713490000047
是在
Figure RE-GDA0003834713490000048
状态下的一个动作;
Figure RE-GDA0003834713490000049
是从状态
Figure RE-GDA00038347134900000410
转变到
Figure RE-GDA00038347134900000411
的奖励;
Figure RE-GDA00038347134900000412
是从状态
Figure RE-GDA00038347134900000413
转变到
Figure RE-GDA00038347134900000414
的奖励;
当处于状态
Figure RE-GDA00038347134900000415
时,利用π(A|S;θ)计算出每个动作的概率,并且根据概率分布随机选择动作
Figure RE-GDA00038347134900000416
在训练的开始,ts=1,对于后续的N条轨迹序列,ts←ts+N;
(3.4)对于t=ts+1,ts+2,...,ts+N这N条轨迹序列,计算每条轨迹序列的折扣回报Gt与优势函数Dt;折扣回报Gt为:
Figure RE-GDA00038347134900000417
式中:γ为折扣系数;RPPO,k是从状态Sk转变到Sk+1的奖励值;bG为计算Gt时的系数;如果Sts+N是最终状态,则bG为0,否则,则bG为1;
优势函数Dt为:
Figure RE-GDA0003834713490000051
式中:λ为平滑因子;bD为计算Dt时的系数,如果
Figure RE-GDA0003834713490000052
是最终状态,则bD为0,否则bD为1;
(3.5)从这N条轨迹序列中进行学习:
(3.5.1)从当前的一条轨迹序列中随机抽取一个大小为M的数据集,该数据集中的每个元素都包含相应的折扣回报和优势函数值;
(3.5.2)通过梯度下降法来最小化评价损失函数Lcritic(φ)用于更新评价函数的参数φ,评价损失函数 Lcritic(φ)为:
Figure RE-GDA0003834713490000053
式中:Gi表示数据集中第i个元素中相应的折扣回报;
(3.5.3)将优势函数值归一化,数据集中第i个元素中相应的归一化的折扣优势函数值为:
Figure RE-GDA0003834713490000054
式中:i为数据集中每个元素的下标数,
Figure RE-GDA0003834713490000055
表示数据集中第i个元素中相应的归一化的折扣优势函数值;Di数据集中第i个元素相应的优势函数值;D1数据集中第1个元素相应的优势函数值;D2数据集中第2个元素相应的优势函数值;DM数据集中第M个元素相应的优势函数值;mean(·,·,...,·)为求平均值函数; std(·,·,...,·)为计算标准偏差的函数;
(3.5.4)通过梯度下降法来最小化动作损失函数Lactor(θ)用于更新动作函数的参数θ,动作损失函数 Lactor(θ)为:
Figure RE-GDA0003834713490000056
其中ri(θ)系数因子和熵损失函数
Figure RE-GDA0003834713490000057
分别为:
Figure RE-GDA0003834713490000058
Figure RE-GDA0003834713490000059
式中:min(·,·)求最小值函数;π(Ai|Si;θ)为在状态Si下,给定参数θ时,采取行动Ai的概率;π(Ai|Si;θold)为在状态Si下,给定当前学习时期之前的参数θold,采取行动Ai的概率;ri(θ)系数因子;ε为剪切因子;
Figure RE-GDA0003834713490000061
是熵损失函数;P为近端控制策略优化方法中动作的种类个数;π(Ak|Si;θ)为在状态Si下,给定参数θ时,采取行动Ak的概率;w是熵损失系数;
(3.6)重复(3.1)-(3.5),直到时间序列预测模块输出的概率值大于0.95;
通过近端控制策略优化方法不断地与环境进行交互训练,然后将得到的评价损失函数值和动作损失函数值、归一化的优势函数值以及折扣回报输入到时间序列预测模块,时间序列预测模块输出的近端控制策略优化方法接入热水系统的概率值将发生改变,当概率大于0.95时,表明近端控制策略优化方法能接入热水系统,并且不会退出,在之后的时间里,一直由近端控制策略优化方法来控制居民家居中的热水系统。
本发明相对于现有技术具有如下的优点及效果:
(1)该方法能够学习随机居住者行为,无需特定调整即可应用在各种不同居民居住场合。现有比较先进的控制方有一种是模型预测方法,但是这种方法的预测偏差比较大;因为随机模型通常是根据是特定类型的几座建筑物的数据所开发的,但一栋建筑物的热水使用行为可能与另一栋类型和所处地形相同建筑物的热水使用行为大不相同;此外,居住者的热水使用行为也会随着时间的推移而发生变化。
(2)该方法能直接用于居住者家居,减少所需设备的安装与调试的时间。传统的强化学习控制方法需要大量的时间进行学习,所以使得设备的投入周期非常长;此外,智能体在学习过程中,需要不断的进行试错,智能体试错的过程会降低居住者的舒适感。
(3)该方法的整体框架可解释性强。
附图说明
图1是本发明方法的热水系统控制方法框架图。
图2是本发明方法的近端策略优化方法训练流程图。
具体实施方式
本发明提出的一种基于模型预测与深度强化学习的热水系统控制方法,结合附图详细说明如下:
图1是本发明方法的热水系统控制方法框架图。
首先,外界输入将相关信息输入到循环门控单元,包括信息与居住者的行为;居住者的行为表示前一周每日居住者在家每小时的热水使用情况,然后通过循环门控单元进行预测,输出未来一天居住者行为,即未来一天居住者每小时的热水使用情况。然后,将循环门控单元输出的预测未来一天居住者行为和上一周对应那天的居住者行为输入到深度神经网络判别器中,即将未来一天每小时的热水使用情况和上周对应那天的每小时的热水使用情况输入到深度神经网络判别器中,通过深度神经网络判别器输出结果来判断未来一天居住者每小时的热水使用情况和上周对应那天的每小时的热水使用情况是否一致;若输出结果为一致,则未来一天每小时热水系统的控制与上周对应那天的每小时的热水系统的控制方法一致,若输出结果为不一致,则进入时间序列预测模块。最后,进入时间序列预测模块后,将近端策略优化方法的评价损失函数值和动作损失函数值、归一化的优势函数值以及折扣回报输入到时间序列预测模块,然后输出一个概率值;输出的概率值表示未来一天近端策略优化方法接入热水系统的概率大小,若概率值大于0.95,则将近端策略优化方法接入热水系统,若概率值小于等于0.95,则将两点控制方法接入热水系统,实施动作来打开或者关闭热泵,并继续训练近端策略优化方法。对近端策略优化方法开始进行训练时需要初始化参数,然后通过不断与环境的交互训练,近端策略优化方法对环境做出动作A,使得环境的状态S发生改变,动作A的种类有两种:打开或者关闭热泵,S为从环境反馈到近端控制策略优化方法的状态,状态包括前M 小时的热水需求间隔、前N小时环境温度、热水箱温度、日期信息;然后由环境返回到近端策略优化方法一个奖励RPPO;每一次对近端策略优化方法进行交互训练时,环境也会将状态S输送到外界输入中。
图2是本发明方法的近端策略优化方法训练流程图。
首先,初始化参数,包括动作函数参数以及评价函数参数。其次,根据当动作函数和评价函数生成N 条轨迹序列。然后,计算每条轨迹序列的折扣回报与优势函数。接着,需要从轨迹序列中进行学习训练,过程如下:先从每条轨迹序列中抽取大小为M的数据集;再最小化评价损失函数,来更新评价函数的参数;接着把优势函数值归一化;再最小化动作损失函数,来更新动作函数的参数。最后,通过时间序列模块判断是否需要继续训练,若仍需要训练,则继续生成N条轨迹序列,并重复以上步骤,反之,结束训练。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (1)

1.一种基于模型预测与深度强化学习的热水系统控制方法,其特征在于,将监督学习和近端策略优化方法进行结合,用于随机行为居住者的热水系统的控制;无需特定调整即能应用在各种不同居民居住场合,能直接用于居住者家居,减少所需设备的安装与调试的时间,并且该方法的整体框架可解释性强;在使用过程中的步骤为:
步骤(1):将信息与居住者的行为输入到循环门控单元;居住者的行为表示前一周每日居住者在家每小时的热水使用情况,然后通过循环门控单元进行预测,输出未来一天居住者行为,即未来一天居住者每小时的热水使用情况;
若居住者必须在家,则信息为1,若居住者能够外出,则信息为0;居住者的行为是一个7×24的信息矩阵,为过去一周每天每小时的热水使用情况;将信息和行为输入到循环门控单元后,能得到一个1×24的信息矩阵,该1×24的信息矩阵表示循环门控单元所预测的居住者未来一天24小时的热水使用情况;
循环门控单元由许多个含两个门的门控神经元组成,包括更新门和重置门;重置门是为得到门控神经元的候选隐藏状态,重置门的输出为:
RGRU,t=σ(XtWxr+HGRU,t-1Whr+br) (1)
式中:RGRU,t为门控神经元中重置门t时刻的输出;σ(·)为激活函数;Xt为门控神经元t时刻的输入;Wxr为门控神经元的输入与重置门之间的权重;HGRU,t-1为门控神经元t-1时刻的隐藏状态;Whr为门控神经元的隐藏状态与重置门之间的权重;br为计算重置门的输出时的偏置;
更新门的输出为:
ZGRU,t=σ(XtWxz+HGRU,t-1Whz+bz) (2)
式中:ZGRU,t为门控神经元中更新门t时刻的输出;Wxz为门控神经元的输入与更新门之间的权重;Whz为门控神经元的隐藏状态与更新门之间的权重;bz为计算门控神经元的更新门的输出时的偏置;
门控神经元的候选隐藏状态
Figure RE-FDA0003834713480000011
为:
Figure RE-FDA0003834713480000012
式中:
Figure RE-FDA0003834713480000013
为门控神经元t时刻的候选隐藏状态;tanh(·)为双曲函数;Wxh为门控神经元的输入与门控神经元的候选隐藏状态之间的权重;⊙为同或逻辑运算符;Whh为门控神经元的隐藏状态与候选隐藏状态之间的权重;bh为计算门控神经元的候选隐藏状态时的偏置;
根据更新门ZGRU,t的输出和候选隐藏状态
Figure RE-FDA0003834713480000014
计算得到隐藏状态HGRU,t
Figure RE-FDA0003834713480000015
式中:HGRU,t为门控神经元t时刻的隐藏状态;
步骤(2):将循环门控单元输出的预测未来一天居住者行为和上一周对应那天的居住者行为输入到深度神经网络判别器中,即将未来一天每小时的热水使用情况和上周对应那天的每小时的热水使用情况输入到深度神经网络判别器中,通过深度神经网络判别器输出结果来判断未来一天居住者每小时的热水使用情况和上周对应那天的每小时的热水使用情况是否一致;若输出结果为一致,则未来一天每小的时热水系统的控制与上周对应那天的每小时的热水系统的控制方法一致,若输出结果为不一致,则进入时间序列预测模块;
深度神经网络判别器的输入为两个1×24的信息矩阵,一个信息矩阵是由步骤(1)中循环门控单元的输出结果,另外一个信息矩阵表示的是上周对应那天的24小时热水使用情况;深度神经网络判别器的输出结果为真或者假;若结果为真,则用1表示,若结果为假,则用0表示;
热水系统包括:热水箱和热泵;
深度神经网络判别器是由深度神经网络组成,包括输入层、隐藏层和输出层;层与层之间是全连接的,即第i层的任意一个神经元一定与第i+1层的任意一个神经元相连,每层共有m个神经元,则对于第l层的第j个神经元输出
Figure RE-FDA0003834713480000029
为:
Figure RE-FDA0003834713480000021
式中:
Figure RE-FDA0003834713480000022
为第l层的第j个神经元的输出值;
Figure RE-FDA0003834713480000023
为第l-1层中第k个神经元与第l层中第j个神经元之间的权重;
Figure RE-FDA0003834713480000024
为计算第l层中第j个神经元输出值中的偏置;
步骤(3):进入时间序列预测模块后,将近端策略优化方法的评价损失函数值和动作损失函数值、归一化的优势函数值以及折扣回报输入到时间序列预测模块,然后输出一个概率值;输出的概率值表示未来一天近端策略优化方法接入热水系统的概率大小,若概率值大于0.95,则将近端策略优化方法接入热水系统,若概率值小于等于0.95,则将两点控制方法接入热水系统;
两点控制方法为:当水箱温度低于65℃时,打开热泵;当水箱温度低于65℃时,关闭热泵;
时间序列预测模块的概率值为:
Figure RE-FDA0003834713480000025
式中:
Figure RE-FDA0003834713480000026
为时间序列预测模块输出的概率值;zi,t表示第i条序列t时刻的值;xi,t表示第i条序列t时刻的特征,并且
Figure RE-FDA0003834713480000027
Figure RE-FDA0003834713480000028
xi,1:T=[xi,1,xi,2,...,xi,T];p(zi,t|θ(Hi,t,Θ))为似然因子;t0表示预测的开始时刻;t0-1表示已知的最后时刻;Tforecast为预测的最后时刻;[1,t0-1]表示历史区间,[t0,Tforecast]表示预测区间;Hi,t由长短期记忆神经网络生成;
长短期记忆神经网络由许多个含三个门的网络神经元组成,包括输入门、遗忘门和输出门;其计算过程如下:
首先,计算输入门、遗忘门、输出门的输出;输入门的输出为:
Ii,t=σ(Xi,tWxi+Hi,t-1Whi+bi) (7)
式中:Ii,t为网络神经元输入门第i条序列t时刻的输出;Xi,t为网络神经元第i条序列t时刻的输入;Wxi为网络神经元的输入与输入门之间的权重;Whi为网络神经元的隐藏状态与输入门之间的权重;Hi,t-1为网络神经元第i条序列t时刻的隐藏状态;bi为计算网络神经元的输入门的输出时的偏置;
遗忘门的输出为:
Fi,t=σ(Xi,tWxf+Hi,t-1Whf+bf) (8)
式中:Fi,t为网络神经元遗忘门第i条序列t时刻的输出;Wxf为网络神经元的输入与遗忘门之间的权重;Whf为网络神经元的隐藏状态与遗忘门之间的权重;bf为计算网络神经元的遗忘门的输出时的偏置;
输出门的输出为:
Oi,t=σ(Xi,tWxo+Hi,t-1Who+bo) (9)
式中:Oi,t为网络神经元输出门第i条序列t时刻的输出;Wxo为网络神经元的输入与输出门之间的权重;Who为网络神经元的隐藏状态与输出门之间的权重;bo为计算网络神经元的输出门的输出时的偏置;
其次,计算候选记忆状态:
Figure RE-FDA0003834713480000031
式中:
Figure RE-FDA0003834713480000032
为网络神经元第i条序列t时刻的候选记忆状态;Wxc为网络神经元的候选记忆状态与网络神经元的输入之间的权重;Whc为网络神经元的候选记忆状态与网络神经元的隐藏状态之间的权重;bc为计算网络神经元候选记忆状态时的偏置;
然后,计算记忆状态:
Figure RE-FDA0003834713480000033
式中:Ci,t-1为网络神经元第i条序列t-1时刻的记忆状态;Ci,t为网络神经元第i条序列t时刻的记忆状态;
最后,计算网络神经元的隐藏状态:
Hi,t=Oi,t⊙tanh(Ci,t) (12)
式中:Hi,t为网络神经元第i条序列t时刻的隐藏状态;
近端控制策略优化方法是一种深度强化学习方法,通过不断与环境的交互训练,来最小化评价损失函数和动作损失函数,来更新动作函数参数,近端控制策略优化方法的训练过程为:
(3.1)随机初始化动作函数π(A|S;θ)的参数θ;
式中:A为近端控制策略优化方法对环境做出的动作,动作共有两种,一种是打开热水系统的热泵,一种是关闭热水系统的热泵;S为从环境反馈到近端控制策略优化方法的状态,状态包括前M小时的热水需求间隔、前N小时环境温度、热水箱温度、日期信息;
此外,RPPO为当近端控制策略优化方法的对当前环境做出动作后,从环境返回到近端控制策略优化方法的奖励;奖励设置为:如果有热水需求,则奖励为:
RPPO=-areward×Php-breward×max(40-Ttank,0)-creward×max(Htime-24,0) (13)
如果没有热水需求,则奖励为:
RPPO=-areward×Php-creward×max(Htime-24,0) (14)
式中:areward为奖励中能量项系数;breward为奖励中舒适项系数;creward为奖励中卫生项系数;Php为热泵消耗的能量;max(·,·)为求最大值函数;Ttank为热水箱的温度;Htime为上一次热水箱的温度达到60℃以上的时间长短;
(3.2)随机初始化评价函数V(S;φ)的参数φ;
(3.3)根据当前动作函数和评价函数生成N条轨迹序列,每条轨迹序列为:
Figure RE-FDA0003834713480000041
式中:ts代表某一时刻,即当前轨迹序列的起始时间;
Figure RE-FDA0003834713480000042
为ts时刻的状态;
Figure RE-FDA0003834713480000043
为ts+1时刻的状态;
Figure RE-FDA0003834713480000044
为ts+N-1时刻的状态;
Figure RE-FDA0003834713480000045
为ts+N时刻的状态;
Figure RE-FDA0003834713480000046
是在
Figure RE-FDA0003834713480000047
状态下的一个动作;
Figure RE-FDA0003834713480000048
是在
Figure RE-FDA0003834713480000049
状态下的一个动作;
Figure RE-FDA00038347134800000410
是从状态
Figure RE-FDA00038347134800000411
转变到
Figure RE-FDA00038347134800000412
的奖励;
Figure RE-FDA00038347134800000413
是从状态
Figure RE-FDA00038347134800000414
转变到
Figure RE-FDA00038347134800000415
的奖励;
当处于状态
Figure RE-FDA00038347134800000416
时,利用π(A|S;θ)计算出每个动作的概率,并且根据概率分布随机选择动作
Figure RE-FDA00038347134800000417
在训练的开始,ts=1,对于后续的N条轨迹序列,ts←ts+N;
(3.4)对于t=ts+1,ts+2,...,ts+N这N条轨迹序列,计算每条轨迹序列的折扣回报Gt与优势函数Dt;折扣回报Gt为:
Figure RE-FDA00038347134800000418
式中:γ为折扣系数;RPPO,k是从状态Sk转变到Sk+1的奖励值;bG为计算Gt时的系数;如果Sts+N是最终状态,则bG为0,否则,则bG为1;
优势函数Dt为:
Figure RE-FDA00038347134800000419
式中:λ为平滑因子;bD为计算Dt时的系数,如果
Figure RE-FDA00038347134800000420
是最终状态,则bD为0,否则bD为1;
(3.5)从这N条轨迹序列中进行学习:
(3.5.1)从当前的一条轨迹序列中随机抽取一个大小为M的数据集,该数据集中的每个元素都包含相应的折扣回报和优势函数值;
(3.5.2)通过梯度下降法来最小化评价损失函数Lcritic(φ)用于更新评价函数的参数φ,评价损失函数Lcritic(φ)为:
Figure RE-FDA00038347134800000421
式中:Gi表示数据集中第i个元素中相应的折扣回报;
(3.5.3)将优势函数值归一化,数据集中第i个元素中相应的归一化的折扣优势函数值为:
Figure RE-FDA0003834713480000051
式中:i为数据集中每个元素的下标数,
Figure RE-FDA0003834713480000052
表示数据集中第i个元素中相应的归一化的折扣优势函数值;Di数据集中第i个元素相应的优势函数值;D1数据集中第1个元素相应的优势函数值;D2数据集中第2个元素相应的优势函数值;DM数据集中第M个元素相应的优势函数值;mean(·,·,...,·)为求平均值函数;std(·,·,...,·)为计算标准偏差的函数;
(3.5.4)通过梯度下降法来最小化动作损失函数Lactor(θ)用于更新动作函数的参数θ,动作损失函数Lactor(θ)为:
Figure RE-FDA0003834713480000053
其中ri(θ)系数因子和熵损失函数
Figure RE-FDA0003834713480000054
分别为:
Figure RE-FDA0003834713480000055
Figure RE-FDA0003834713480000056
式中:min(·,·)求最小值函数;π(Ai|Si;θ)为在状态Si下,给定参数θ时,采取行动Ai的概率;π(Ai|Si;θold)为在状态Si下,给定当前学习时期之前的参数θold,采取行动Ai的概率;ri(θ)系数因子;ε为剪切因子;
Figure RE-FDA0003834713480000057
是熵损失函数;P为近端控制策略优化方法中动作的种类个数;π(Ak|Si;θ)为在状态Si下,给定参数θ时,采取行动Ak的概率;w是熵损失系数;
(3.6)重复(3.1)-(3.5),直到时间序列预测模块输出的概率值大于0.95;
通过近端控制策略优化方法不断地与环境进行交互训练,然后将得到的评价损失函数值和动作损失函数值、归一化的优势函数值以及折扣回报输入到时间序列预测模块,时间序列预测模块输出的近端控制策略优化方法接入热水系统的概率值将发生改变,当概率大于0.95时,表明近端控制策略优化方法能接入热水系统,并且不会退出,在之后的时间里,一直由近端控制策略优化方法来控制居民家居中的热水系统。
CN202210755343.3A 2022-06-30 2022-06-30 一种基于模型预测与深度强化学习的热水系统控制方法 Active CN115183474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210755343.3A CN115183474B (zh) 2022-06-30 2022-06-30 一种基于模型预测与深度强化学习的热水系统控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210755343.3A CN115183474B (zh) 2022-06-30 2022-06-30 一种基于模型预测与深度强化学习的热水系统控制方法

Publications (2)

Publication Number Publication Date
CN115183474A true CN115183474A (zh) 2022-10-14
CN115183474B CN115183474B (zh) 2023-10-13

Family

ID=83515960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210755343.3A Active CN115183474B (zh) 2022-06-30 2022-06-30 一种基于模型预测与深度强化学习的热水系统控制方法

Country Status (1)

Country Link
CN (1) CN115183474B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113572157A (zh) * 2021-07-27 2021-10-29 东南大学 一种基于近端策略优化的用户实时自治能量管理优化方法
WO2021224510A1 (es) * 2020-05-05 2021-11-11 Stemy Energy, S.L. Sistema controlador de cilindros de agua caliente
CN114396728A (zh) * 2021-12-29 2022-04-26 广东万和新电气股份有限公司 电热水器的加热控制方法和有效能耗预测模型的建立方法
CN114623569A (zh) * 2021-11-04 2022-06-14 国网浙江省电力有限公司湖州供电公司 一种基于深度强化学习的集群空调负荷差异化调控方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021224510A1 (es) * 2020-05-05 2021-11-11 Stemy Energy, S.L. Sistema controlador de cilindros de agua caliente
CN113572157A (zh) * 2021-07-27 2021-10-29 东南大学 一种基于近端策略优化的用户实时自治能量管理优化方法
CN114623569A (zh) * 2021-11-04 2022-06-14 国网浙江省电力有限公司湖州供电公司 一种基于深度强化学习的集群空调负荷差异化调控方法
CN114396728A (zh) * 2021-12-29 2022-04-26 广东万和新电气股份有限公司 电热水器的加热控制方法和有效能耗预测模型的建立方法

Also Published As

Publication number Publication date
CN115183474B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN109685252B (zh) 基于循环神经网络和多任务学习模型的建筑能耗预测方法
Abraham et al. A neuro-fuzzy approach for modelling electricity demand in Victoria
CN107544904B (zh) 一种基于深度cg-lstm神经网络的软件可靠性预测方法
US20210149349A9 (en) Networked control system time-delay compensation method based on predictive control
CN108197751A (zh) 基于多层Bi-GRU的Seq2seq网络短期电力负荷预测方法
CN113722985B (zh) 航空发动机健康状态评估和剩余寿命预测方法及系统
CN108711847A (zh) 一种基于编码解码长短期记忆网络的短期风电功率预测方法
CN110837888A (zh) 一种基于双向循环神经网络的交通缺失数据补全方法
CN108732931A (zh) 一种基于jit-rvm的多模态间歇过程建模方法
Chinnathambi et al. Deep neural networks (DNN) for day-ahead electricity price markets
CN116842856B (zh) 一种基于深度强化学习的工业过程优化方法
CN114611808A (zh) 一种基于CEEMDAN-SSA-BiLSTM的短期海上风电功率预测方法
CN114266201B (zh) 一种基于深度学习的自注意力电梯困人预测方法
CN116227180A (zh) 基于数据驱动的机组组合智能决策方法
Wu et al. Automatic fuzzy model identification for short-term load forecast
Konstantakopoulos et al. Leveraging correlations in utility learning
CN115183474A (zh) 一种基于模型预测与深度强化学习的热水系统控制方法
CN117151927A (zh) 一种风电功率概率区间的预测方法
CN117010683A (zh) 基于混合神经网络和多Agent的作业安全风险预测方法
CN113837443A (zh) 基于深度BiLSTM的变电站线路负载预测方法
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及系统
JPH02170904A (ja) 高炉炉熱予測方法
Zhang A Reinforcement Learning Approach for Whole Building Energy Model Assisted HVAC Supervisory Control
Jin Application and Optimization of Long Short-term Memory in Time Series Forcasting
FARAH et al. Prediction for Non-Revenue and Demand of Urban Water Using Hybrid Models of Neural Networks and Genetic Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant