CN115183474A

CN115183474A - 一种基于模型预测与深度强化学习的热水系统控制方法

Info

Publication number: CN115183474A
Application number: CN202210755343.3A
Authority: CN
Inventors: 殷林飞; 熊轶; 胡立坤
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-14
Anticipated expiration: 2042-06-30
Also published as: CN115183474B

Abstract

本发明提出一种基于模型预测与深度强化学习的热水系统控制方法，该方法将监督学习与近端策略优化方法进行结合，用于控制随机行为居住者的热水系统。首先，所提方法中的监督学习包括循环门控单元、深度神经网络判别器和时间序列预测模块。输入政策信息与行为信息，来预测未来一天居住者行为，并输出未来一天近端策略优化方法接入热水系统的概率。若概率小于阈值，则采用两点控制策略并继续训练智能体；反之，则采用近端策略优化方法。其次，所提方法中的近端策略优化方法能学习随机的居住者行为，无需特定调整即能应用在各种不同的居住场合，该方法能直接用于居住者家居，减少所需设备的安装与调试的时间，并且该方法的整体框架解释性比较优异。

Description

一种基于模型预测与深度强化学习的热水系统控制方法

技术领域

本发明属于建筑能源系统优化运行领域，涉及监督学习与深度强化学习的热水系统控制方法，适用于随机行为居住者的热水系统。

背景技术

在现代低能耗建筑中，热水能源需求占总能量需求的70％左右，热水系统的控制方法日益成为影响建筑能源系统优化运行的重要因素，家庭中热水需求与居住者行为密切相关，居住者行为是建筑能源系统优化运行的不确定性来源之一。

随机行为居住者将导致热水系统的保守操作方法，采用两点控制方法，当水箱温度低于较低阈值时打开热泵，当水箱温度高于较高阈值时关闭热泵。虽然它是一个简单易用的控制方法，但是与居住者的行为无关，过度准备热水会消耗大量能源。

现有的热水系统的控制方法除了两点控制方法还有一种基于强化学习的热水系统控制方法，但是该方法的设备所需的安装和调试时间长、可解释性比较差、并且有扰乱居住者舒适感的可能性。

因此，提出一种基于模型预测与深度强化学习的热水系统控制方法，来解决过度消耗能源、设备所需的安装和调试时间长、可解释性差的问题。

发明内容

本发明提出一种基于模型预测与深度强化学习的热水系统控制方法，该方法将监督学习和近端策略优化方法进行结合，用于随机行为居住者的热水系统的控制；无需特定调整即能应用在各种不同居民居住场合，能直接用于居住者家居，减少所需设备的安装与调试的时间，并且该方法的整体框架可解释性强；在使用过程中的步骤为：

步骤(1)：将信息与居住者的行为输入到循环门控单元；居住者的行为表示前一周每日居住者在家每小时的热水使用情况，然后通过循环门控单元进行预测，输出未来一天居住者行为，即未来一天居住者每小时的热水使用情况；

若居住者必须在家，则信息为1，若居住者能够外出，则信息为0；居住者的行为是一个7×24的信息矩阵，为过去一周每天每小时的热水使用情况；将信息和行为输入到循环门控单元后，能得到一个1× 24的信息矩阵，该1×24的信息矩阵表示循环门控单元所预测的居住者未来一天24小时的热水使用情况；

循环门控单元由许多个含两个门的门控神经元组成，包括更新门和重置门；重置门是为得到门控神经元的候选隐藏状态，重置门的输出为：

R_GRU,t＝σ(X_tW_xr+H_GRU,t-1W_hr+b_r) (1)

式中：R_GRU,t为门控神经元中重置门t时刻的输出；σ(·)为激活函数；X_t为门控神经元t时刻的输入；W_xr为门控神经元的输入与重置门之间的权重；H_GRU,t-1为门控神经元t-1时刻的隐藏状态；W_hr为门控神经元的隐藏状态与重置门之间的权重；b_r为计算重置门的输出时的偏置；

更新门的输出为：

Z_GRU,t＝σ(X_tW_xz+H_GRU,t-1W_hz+b_z) (2)

式中：Z_GRU,t为门控神经元中更新门t时刻的输出；W_xz为门控神经元的输入与更新门之间的权重；W_hz为门控神经元的隐藏状态与更新门之间的权重；b_z为计算门控神经元的更新门的输出时的偏置；

门控神经元的候选隐藏状态

为:

式中：

为门控神经元t时刻的候选隐藏状态；tanh(·)为双曲函数；W_xh为门控神经元的输入与门控神经元的候选隐藏状态之间的权重；⊙为同或逻辑运算符；W_hh为门控神经元的隐藏状态与候选隐藏状态之间的权重；b_h为计算门控神经元的候选隐藏状态时的偏置；

根据更新门Z_GRU,t的输出和候选隐藏状态

计算得到隐藏状态H_GRU,t：

式中：H_GRU,t为门控神经元t时刻的隐藏状态；

步骤(2)：将循环门控单元输出的预测未来一天居住者行为和上一周对应那天的居住者行为输入到深度神经网络判别器中，即将未来一天每小时的热水使用情况和上周对应那天的每小时的热水使用情况输入到深度神经网络判别器中，通过深度神经网络判别器输出结果来判断未来一天居住者每小时的热水使用情况和上周对应那天的每小时的热水使用情况是否一致；若输出结果为一致，则未来一天每小时的热水系统的控制与上周对应那天的每小时的热水系统的控制方法一致，若输出结果为不一致，则进入时间序列预测模块；

深度神经网络判别器的输入为两个1×24的信息矩阵，一个信息矩阵是由步骤(1)中循环门控单元的输出结果，另外一个信息矩阵表示的是上周对应那天的24小时热水使用情况；深度神经网络判别器的输出结果为真或者假；若结果为真，则用1表示，若结果为假，则用0表示；

热水系统包括：热水箱和热泵；

深度神经网络判别器是由深度神经网络组成，包括输入层、隐藏层和输出层；层与层之间是全连接的，即第i层的任意一个神经元一定与第i+1层的任意一个神经元相连，每层共有m个神经元，则对于第l层的第j个神经元输出

为：

式中：

为第l层的第j个神经元的输出值；

为第l-1层中第k个神经元与第l层中第j个神经元之间的权重；

为计算第l层中第j个神经元输出值中的偏置；

步骤(3)：进入时间序列预测模块后，将近端策略优化方法的评价损失函数值和动作损失函数值、归一化的优势函数值以及折扣回报输入到时间序列预测模块，然后输出一个概率值；输出的概率值表示未来一天近端策略优化方法接入热水系统的概率大小，若概率值大于0.95，则将近端策略优化方法接入热水系统，若概率值小于等于0.95，则将两点控制方法接入热水系统；

两点控制方法为：当水箱温度低于65℃时，打开热泵；当水箱温度低于65℃时，关闭热泵；

时间序列预测模块的概率值为：

式中：

为时间序列预测模块输出的概率值；z_i,t表示第i条序列t时刻的值；x_i,t表示第i 条序列t时刻的特征，并且

x_i,1:T＝[x_i,1,x_i,2,...,x_i,T]；p(z_i,t|θ(H_i,t,Θ))为似然因子；t₀表示预测的开始时刻；t₀-1表示已知的最后时刻；T_forecast为预测的最后时刻；[1,t₀-1]表示历史区间，[t₀,T_forecast]表示预测区间；H_i,t由长短期记忆神经网络生成；

长短期记忆神经网络由许多个含三个门的网络神经元组成，包括输入门、遗忘门和输出门；其计算过程如下：

首先，计算输入门、遗忘门、输出门的输出；输入门的输出为：

I_i,t＝σ(X_i,tW_xi+H_i,t-1W_hi+b_i) (7)

式中：I_i,t为网络神经元输入门第i条序列t时刻的输出；X_i,t为网络神经元第i条序列t时刻的输入；W_xi为网络神经元的输入与输入门之间的权重；W_hi为网络神经元的隐藏状态与输入门之间的权重；H_i,t-1为网络神经元第i条序列t时刻的隐藏状态；b_i为计算网络神经元的输入门的输出时的偏置；

遗忘门的输出为：

F_i,t＝σ(X_i,tW_xf+H_i,t-1W_hf+b_f) (8)

式中：F_i,t为网络神经元遗忘门第i条序列t时刻的输出；W_xf为网络神经元的输入与遗忘门之间的权重；W_hf为网络神经元的隐藏状态与遗忘门之间的权重；b_f为计算网络神经元的遗忘门的输出时的偏置；

输出门的输出为：

O_i,t＝σ(X_i,tW_xo+H_i,t-1W_ho+b_o) (9)

式中：O_i,t为网络神经元输出门第i条序列t时刻的输出；W_xo为网络神经元的输入与输出门之间的权重；W_ho为网络神经元的隐藏状态与输出门之间的权重；b_o为计算网络神经元的输出门的输出时的偏置；

其次，计算候选记忆状态：

式中：

为网络神经元第i条序列t时刻的候选记忆状态；W_xc为网络神经元的候选记忆状态与网络神经元的输入之间的权重；W_hc为网络神经元的候选记忆状态与网络神经元的隐藏状态之间的权重；b_c为计算网络神经元候选记忆状态时的偏置；

然后，计算记忆状态：

式中：C_i,t-1为网络神经元第i条序列t-1时刻的记忆状态；C_i,t为网络神经元第i条序列t时刻的记忆状态；

最后，计算网络神经元的隐藏状态：

H_i,t＝O_i,t⊙tanh(C_i,t) (12)

式中：H_i,t为网络神经元第i条序列t时刻的隐藏状态；

近端控制策略优化方法是一种深度强化学习方法，通过不断与环境的交互训练，来最小化评价损失函数和动作损失函数，来更新动作函数参数，近端控制策略优化方法的训练过程为：

(3.1)随机初始化动作函数π(A|S；θ)的参数θ；

式中：A为近端控制策略优化方法对环境做出的动作，动作共有两种，一种是打开热水系统的热泵，一种是关闭热水系统的热泵；S为从环境反馈到近端控制策略优化方法的状态，状态包括前M小时的热水需求间隔、前N小时环境温度、热水箱温度、日期信息；

此外，R_PPO为当近端控制策略优化方法的对当前环境做出动作后，从环境返回到近端控制策略优化方法的奖励；奖励设置为：如果有热水需求，则奖励为：

R_PPO＝-a_reward×P_hp-b_reward×max(40-T_tank,0)-c_reward×max(H_time-24,0) (13)

如果没有热水需求，则奖励为：

R_PPO＝-a_reward×P_hp-c_reward×max(H_time-24,0) (14)

式中：a_reward为奖励中能量项系数；b_reward为奖励中舒适项系数；c_reward为奖励中卫生项系数；P_hp为热泵消耗的能量；max(·,·)为求最大值函数；T_tank为热水箱的温度；H_time为上一次热水箱的温度达到60℃以上的时间长短；

(3.2)随机初始化评价函数V(S；φ)的参数φ；

(3.3)根据当前动作函数和评价函数生成N条轨迹序列，每条轨迹序列为：

式中：t_s代表某一时刻，即当前轨迹序列的起始时间；

为t_s时刻的状态；

为t_s+1时刻的状态；

为t_s+N-1时刻的状态；

为t_s+N时刻的状态；

是在

状态下的一个动作；

是在

状态下的一个动作；

是从状态

转变到

的奖励；

是从状态

转变到

的奖励；

当处于状态

时，利用π(A|S；θ)计算出每个动作的概率，并且根据概率分布随机选择动作

在训练的开始，t_s＝1，对于后续的N条轨迹序列，t_s←t_s+N；

(3.4)对于t＝t_s+1,t_s+2,...,t_s+N这N条轨迹序列，计算每条轨迹序列的折扣回报G_t与优势函数D_t；折扣回报G_t为：

式中：γ为折扣系数；R_PPO,k是从状态S_k转变到S_k+1的奖励值；b_G为计算G_t时的系数；如果S_ts+N是最终状态，则b_G为0，否则，则b_G为1；

优势函数D_t为：

式中：λ为平滑因子；b_D为计算D_t时的系数，如果

是最终状态，则b_D为0，否则b_D为1；

(3.5)从这N条轨迹序列中进行学习：

(3.5.1)从当前的一条轨迹序列中随机抽取一个大小为M的数据集，该数据集中的每个元素都包含相应的折扣回报和优势函数值；

(3.5.2)通过梯度下降法来最小化评价损失函数L_critic(φ)用于更新评价函数的参数φ，评价损失函数 L_critic(φ)为：

式中：G_i表示数据集中第i个元素中相应的折扣回报；

(3.5.3)将优势函数值归一化，数据集中第i个元素中相应的归一化的折扣优势函数值为：

式中：i为数据集中每个元素的下标数，

表示数据集中第i个元素中相应的归一化的折扣优势函数值；D_i数据集中第i个元素相应的优势函数值；D₁数据集中第1个元素相应的优势函数值；D₂数据集中第2个元素相应的优势函数值；D_M数据集中第M个元素相应的优势函数值；mean(·,·,...,·)为求平均值函数； std(·,·,...,·)为计算标准偏差的函数；

(3.5.4)通过梯度下降法来最小化动作损失函数L_actor(θ)用于更新动作函数的参数θ，动作损失函数 L_actor(θ)为：

其中r_i(θ)系数因子和熵损失函数

分别为：

式中：min(·,·)求最小值函数；π(A_i|S_i；θ)为在状态S_i下，给定参数θ时，采取行动A_i的概率；π(A_i|S_i；θ_old)为在状态S_i下，给定当前学习时期之前的参数θ_old，采取行动A_i的概率；r_i(θ)系数因子；ε为剪切因子；

是熵损失函数；P为近端控制策略优化方法中动作的种类个数；π(A_k|S_i；θ)为在状态S_i下，给定参数θ时，采取行动A_k的概率；w是熵损失系数；

(3.6)重复(3.1)-(3.5)，直到时间序列预测模块输出的概率值大于0.95；

通过近端控制策略优化方法不断地与环境进行交互训练，然后将得到的评价损失函数值和动作损失函数值、归一化的优势函数值以及折扣回报输入到时间序列预测模块，时间序列预测模块输出的近端控制策略优化方法接入热水系统的概率值将发生改变，当概率大于0.95时，表明近端控制策略优化方法能接入热水系统，并且不会退出，在之后的时间里，一直由近端控制策略优化方法来控制居民家居中的热水系统。

本发明相对于现有技术具有如下的优点及效果：

(1)该方法能够学习随机居住者行为，无需特定调整即可应用在各种不同居民居住场合。现有比较先进的控制方有一种是模型预测方法，但是这种方法的预测偏差比较大；因为随机模型通常是根据是特定类型的几座建筑物的数据所开发的，但一栋建筑物的热水使用行为可能与另一栋类型和所处地形相同建筑物的热水使用行为大不相同；此外，居住者的热水使用行为也会随着时间的推移而发生变化。

(2)该方法能直接用于居住者家居，减少所需设备的安装与调试的时间。传统的强化学习控制方法需要大量的时间进行学习，所以使得设备的投入周期非常长；此外，智能体在学习过程中，需要不断的进行试错，智能体试错的过程会降低居住者的舒适感。

(3)该方法的整体框架可解释性强。

附图说明

图1是本发明方法的热水系统控制方法框架图。

图2是本发明方法的近端策略优化方法训练流程图。

具体实施方式

本发明提出的一种基于模型预测与深度强化学习的热水系统控制方法，结合附图详细说明如下：

图1是本发明方法的热水系统控制方法框架图。

首先，外界输入将相关信息输入到循环门控单元，包括信息与居住者的行为；居住者的行为表示前一周每日居住者在家每小时的热水使用情况，然后通过循环门控单元进行预测，输出未来一天居住者行为，即未来一天居住者每小时的热水使用情况。然后，将循环门控单元输出的预测未来一天居住者行为和上一周对应那天的居住者行为输入到深度神经网络判别器中，即将未来一天每小时的热水使用情况和上周对应那天的每小时的热水使用情况输入到深度神经网络判别器中，通过深度神经网络判别器输出结果来判断未来一天居住者每小时的热水使用情况和上周对应那天的每小时的热水使用情况是否一致；若输出结果为一致，则未来一天每小时热水系统的控制与上周对应那天的每小时的热水系统的控制方法一致，若输出结果为不一致，则进入时间序列预测模块。最后，进入时间序列预测模块后，将近端策略优化方法的评价损失函数值和动作损失函数值、归一化的优势函数值以及折扣回报输入到时间序列预测模块，然后输出一个概率值；输出的概率值表示未来一天近端策略优化方法接入热水系统的概率大小，若概率值大于0.95，则将近端策略优化方法接入热水系统，若概率值小于等于0.95，则将两点控制方法接入热水系统，实施动作来打开或者关闭热泵，并继续训练近端策略优化方法。对近端策略优化方法开始进行训练时需要初始化参数，然后通过不断与环境的交互训练，近端策略优化方法对环境做出动作A，使得环境的状态S发生改变，动作A的种类有两种：打开或者关闭热泵，S为从环境反馈到近端控制策略优化方法的状态，状态包括前M 小时的热水需求间隔、前N小时环境温度、热水箱温度、日期信息；然后由环境返回到近端策略优化方法一个奖励R_PPO；每一次对近端策略优化方法进行交互训练时，环境也会将状态S输送到外界输入中。

图2是本发明方法的近端策略优化方法训练流程图。

首先，初始化参数，包括动作函数参数以及评价函数参数。其次，根据当动作函数和评价函数生成N 条轨迹序列。然后，计算每条轨迹序列的折扣回报与优势函数。接着，需要从轨迹序列中进行学习训练，过程如下：先从每条轨迹序列中抽取大小为M的数据集；再最小化评价损失函数，来更新评价函数的参数；接着把优势函数值归一化；再最小化动作损失函数，来更新动作函数的参数。最后，通过时间序列模块判断是否需要继续训练，若仍需要训练，则继续生成N条轨迹序列，并重复以上步骤，反之，结束训练。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims

1.一种基于模型预测与深度强化学习的热水系统控制方法，其特征在于，将监督学习和近端策略优化方法进行结合，用于随机行为居住者的热水系统的控制；无需特定调整即能应用在各种不同居民居住场合，能直接用于居住者家居，减少所需设备的安装与调试的时间，并且该方法的整体框架可解释性强；在使用过程中的步骤为：

若居住者必须在家，则信息为1，若居住者能够外出，则信息为0；居住者的行为是一个7×24的信息矩阵，为过去一周每天每小时的热水使用情况；将信息和行为输入到循环门控单元后，能得到一个1×24的信息矩阵，该1×24的信息矩阵表示循环门控单元所预测的居住者未来一天24小时的热水使用情况；

R_GRU,t＝σ(X_tW_xr+H_GRU,t-1W_hr+b_r) (1)

更新门的输出为：

Z_GRU,t＝σ(X_tW_xz+H_GRU,t-1W_hz+b_z) (2)

门控神经元的候选隐藏状态

为:

式中：

根据更新门Z_GRU,t的输出和候选隐藏状态

计算得到隐藏状态H_GRU,t：

式中：H_GRU,t为门控神经元t时刻的隐藏状态；

步骤(2)：将循环门控单元输出的预测未来一天居住者行为和上一周对应那天的居住者行为输入到深度神经网络判别器中，即将未来一天每小时的热水使用情况和上周对应那天的每小时的热水使用情况输入到深度神经网络判别器中，通过深度神经网络判别器输出结果来判断未来一天居住者每小时的热水使用情况和上周对应那天的每小时的热水使用情况是否一致；若输出结果为一致，则未来一天每小的时热水系统的控制与上周对应那天的每小时的热水系统的控制方法一致，若输出结果为不一致，则进入时间序列预测模块；

热水系统包括：热水箱和热泵；

为：

式中：

为第l层的第j个神经元的输出值；

为第l-1层中第k个神经元与第l层中第j个神经元之间的权重；

为计算第l层中第j个神经元输出值中的偏置；

时间序列预测模块的概率值为：

式中：

为时间序列预测模块输出的概率值；z_i,t表示第i条序列t时刻的值；x_i,t表示第i条序列t时刻的特征，并且

I_i,t＝σ(X_i,tW_xi+H_i,t-1W_hi+b_i) (7)

遗忘门的输出为：

F_i,t＝σ(X_i,tW_xf+H_i,t-1W_hf+b_f) (8)

输出门的输出为：

O_i,t＝σ(X_i,tW_xo+H_i,t-1W_ho+b_o) (9)

其次，计算候选记忆状态：

式中：

然后，计算记忆状态：

最后，计算网络神经元的隐藏状态：

H_i,t＝O_i,t⊙tanh(C_i,t) (12)

式中：H_i,t为网络神经元第i条序列t时刻的隐藏状态；

(3.1)随机初始化动作函数π(A|S；θ)的参数θ；

如果没有热水需求，则奖励为：

R_PPO＝-a_reward×P_hp-c_reward×max(H_time-24,0) (14)

(3.2)随机初始化评价函数V(S；φ)的参数φ；

式中：t_s代表某一时刻，即当前轨迹序列的起始时间；

为t_s时刻的状态；

为t_s+1时刻的状态；

为t_s+N-1时刻的状态；

为t_s+N时刻的状态；

是在

状态下的一个动作；

是在

状态下的一个动作；

是从状态

转变到

的奖励；

是从状态

转变到

的奖励；

当处于状态

在训练的开始，t_s＝1，对于后续的N条轨迹序列，t_s←t_s+N；

优势函数D_t为：

式中：λ为平滑因子；b_D为计算D_t时的系数，如果

是最终状态，则b_D为0，否则b_D为1；

(3.5)从这N条轨迹序列中进行学习：

(3.5.2)通过梯度下降法来最小化评价损失函数L_critic(φ)用于更新评价函数的参数φ，评价损失函数L_critic(φ)为：

式中：G_i表示数据集中第i个元素中相应的折扣回报；

式中：i为数据集中每个元素的下标数，

表示数据集中第i个元素中相应的归一化的折扣优势函数值；D_i数据集中第i个元素相应的优势函数值；D₁数据集中第1个元素相应的优势函数值；D₂数据集中第2个元素相应的优势函数值；D_M数据集中第M个元素相应的优势函数值；mean(·,·,...,·)为求平均值函数；std(·,·,...,·)为计算标准偏差的函数；

(3.5.4)通过梯度下降法来最小化动作损失函数L_actor(θ)用于更新动作函数的参数θ，动作损失函数L_actor(θ)为：

其中r_i(θ)系数因子和熵损失函数

分别为：