CN114370698B

CN114370698B - 基于强化学习的室内热环境学习效率提升的优化控制方法

Info

Publication number: CN114370698B
Application number: CN202210279251.2A
Authority: CN
Inventors: 李岩学; 王子璇; 李珊珊; 徐阳; 高伟俊
Original assignee: Qindao University Of Technology
Current assignee: Qindao University Of Technology
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-24
Anticipated expiration: 2042-03-22
Also published as: CN114370698A

Abstract

本发明公开一种基于强化学习的室内热环境学习效率提升的优化控制方法，属于建筑环境控制技术领域。该方法包括首先获取观测数据：包括获取室内外热环境和人体的相关参数；再搭建神经网络模型，使用该模型迭代预测下一时刻的室内温度值、空调耗电量、脑电波；最后利用获取的数据在建立的模型中进行循环运算，并引入DQN强化学习方法，基于神经网络训练控制空调体统的智能体，通过对当前状态值的观测以及得到的奖励，自动学习空调系统控制制热量决策的优化过程，得到最优控制策略，即得到最优的控制方法。本发明能够营造高效学习室内热环境，同时实现暖通空调系统自动控制，降低系统能耗。

Description

基于强化学习的室内热环境学习效率提升的优化控制方法

技术领域

本发明属于建筑环境控制技术领域，特别是涉及一种基于强化学习的建筑室内热环境的优化控制方法。

背景技术

随着人类的活动加剧了气候变暖的进程，全球平均气温正在以前所未有的速度上升，中国在第75届联合国大会上提出将力争于2030年前实现碳达峰、2060年前实现碳中和的目标。据调查显示，目前建筑领域碳排放量每年约20亿吨，约占全国总碳排放量的40%。近年来，国内需求侧负荷结构正在发生巨大的变化，据统计，在夏季负荷高峰时期，国内空调负荷目前已占尖峰负荷的30%~40%，北京、上海等大型城市占比达到了50%左右，巨大的空调负荷已成为能源消费不断攀升的重要原因。所以，空调系统运行优化是建筑节能重要的组成部分。为实现系统高效运行，需对整个空调制热序列进行优化，然而，在实际建模过程中普遍存在以下局限性：（1）由于每个建筑的保温性能会有所差异，同时建筑热性能难以预测会估计，因此，难以应用基于模型的控制方法。（2）目前室内热舒适评价主要集中在热感觉投票指标上，即推荐一个满足舒适环境的室内温度设定范围。然而，年龄和学习状态对个体的热舒适感知有显著影响。

深度学习方法主要被用来解决对于事物准确感知和表达的相关问题，而强化学习方法主要解决最优策略的问题。基于深度强化学习的控制方法是一种数据驱动的控制方法，智能体通过不断地“试错”，利用环境的反馈信息来更新智能体的控制策略，寻找出最优控制策略，可以降低对先验知识的依赖。

强化学习的基本原理为智能体在环境反馈奖励或惩罚的刺激下持续学习，根据反馈不断调整策略，最终达成奖励最大化或实现特定目标。其中智能体（Agent）是进行不断学习和实施动作的控制器，智能体之外所有与其相互作用的部分被称为环境（Environment）。智能体在状态

下，根据策略

选择动作

，环境将会基于智能体所做出的动作给出响应的奖励（Reward）

，并转移到下一时刻新的状态

。根据获得的奖励

获得最优策略

。

其中：

为折扣率。

强化学习（原理如图1、5所示）的最终目的是通过最大化奖励值来获得最优策略,具有较强的决策能力，在越来越复杂的现实场景中，深度学习可以从原始大规模交互数据中提取高级特征，具有较强的感知能力，但缺乏一定的决策能力。

发明内容

本发明的目的在于提供一种基于强化学习的室内热环境学习效率提升的优化控制方法，以弥补现有技术的不足。

本发明的目标是满足室内热舒适性要求的前提下，降低空调系统的能耗的同时提升室内热环境中学生的学习效率。为了给强化学习的智能体提供一个精确的环境模型，以便在模拟中学习到更好的策略，且因空调系统设备众多，设备型号多样，使用传统的物理建模方法很难建立精确的系统模型。

深度强化学习（Deep Reinforcement Learning, DRL）将强化学习与深度学习结合起来，本发明将Q-learning算法与卷积神经网络相结合，在Q-learning方法当中，用Q-table存储有限的状态-动作Q值；而当面临高维连续的状态-动作空间时，会遇到维度灾难。所以选用DQN算法取代Q-learning算法，输出动作的Q值。

为达到上述目的，本发明是通过以下技术方案实现的：

一种基于强化学习的室内热环境学习效率提升的优化控制方法，该方法包括以下步骤：

S1：获取观测数据：包括获取室内外热环境和人体的相关参数；

S2：搭建神经网络模型，使用该模型迭代预测下一时刻的室内温度值、空调耗电量、脑电波；

S3：利用S1获取的数据在S2建立的模型中进行循环运算，并引入DQN强化学习方法，基于神经网络训练控制空调体统的智能体，通过对当前状态值的观测以及得到的奖励，自动学习空调系统控制制热量决策的优化过程，得到最优控制策略，即得到最优的控制方法。

进一步的，所述S1中，人体相关参数的获取为：使用热成像仪对学生的体表温度进行识别；根据个体体表温度、室内外温湿度、太阳辐射强度、脑电波确定温度阈值；根据脑电波和温度阈值的比较结果，判断学生的热舒适和学习效率状态；根据个体热舒适状态利用强化学习控制热环境设备的启停。

进一步的，所述S1中，室内外热环境数据：时刻信息，室外温度，室外相对湿度，太阳辐射强度，空调系统耗电量，和室内温度。

进一步的，所述S2中，搭建神经网络模型：选用三层前馈全连接神经网络（一个输入层、一个隐含层、一个输出层）建立系统的输入输出模型；选择均方差（MSE）作为神经网络建模的损失函数；优化器选择随机梯度下降法（Adam）来寻找模型最优解。

进一步的，上述神经网络模型中，选择输入层参数，输出下一时刻的室内温度

、空调系统耗电量

和脑电波

。

具体的，最终选择时刻信息

，室外温度

，室外相对湿度

，太阳辐射强度

，空调系统耗电量

，室内温度

，皮肤温度

，前一分钟时段内脑电波

的平均值，

作为模型的输入层参数，t表示当前时刻，隐含层节点数为10，模型的输出层为下一时刻的室内温度

、下一时刻空调系统耗电量

和脑电波

；隐含层选择Relu函数作为激活函数，输出层选择Sigmoid函数。

神经网络参数建模的目的就是寻找合适的权值参数，使损失函数的值尽可能的小，选择均方差（MSE）作为神经网络建模的损失函数；优化器选择随机梯度下降法（Adam）来寻找模型最优解。

进一步的，所述S3中，将控制方法运行优化问题建模为马尔科夫决策过程。

具体包括：

（1）状态观测空间S设置为

，可控制变量为空调制热量，动作空间A设置为

，奖励函数R的设置为在室内热舒适区间内，在提高学生的学习效率的同时降低空调系统的能耗为优化目标，如式（1）所示，由三部分组成，第一部分，P为控制时间步长内空调系统的能耗，

为实时电；第二部分为控制时间步长内观测到的脑电

波段平均值，影响系数为

，理想范围为

，在这个波段区间内大脑的中枢神经系统最为活跃，学习效率较高，若超出这个范围则给与智能体一定的惩罚；第三部分

，

为室内温度下限，

为室内温度上限；

为惩罚系数，体现了超越温度范围相对系统能源成本的影响；

（2）定义规则缩减探索空间

为确保空调系统运行满足舒适度约束，根据2012《民用建筑供暖通风与空气调节设计规范》，冬季室内温度应保持

在之间，即

为18℃，

为24℃。在满足室内热舒适温度区间时，智能体惩罚函数值为0，否则将对智能体进行惩罚。

（3）运行阶段

假设迭代轮数为M，采样的序列最大长度为T，学习率为

,衰减系数为

，探索系数为

，状态空间为S，动作空间为A，回放记忆（Replay Memory）为D，容量为n，batch的容量为m；

DQN算法流程图如图4所示。

第一步：初始化回放记忆（Replay Memory）D，可容纳的数据量为n。

第二步：初始化Q网络，随机生成权重

；

第三步：初始化target Q网络，权重为

；

第四步：循环遍历事件episode=1,2,…,M

第五步：初始化事件的状态

，预处理状态对应的特征集

输入，最终选择时刻信息

，室外温度

，室外相对湿度

，太阳辐射强度

，空调系统耗电量

，室内温度

，皮肤温度

，脑电波

，

，

；

第六步：循环遍历每个事件的每一步，episode=1,2,…,T；

第七步：利用

策略生成动作

，即以

的概率随机选择一个动作；

第八步：如果随机数大于

，则选择当前值函数最大的那个动作；

第九步：执行动作

，观测环境反馈的奖励

以及下一步状态

；

第十步：设置

，设置

，预处理状态对应的特征集

输入，

；

第十一步，将转换结果

储存在回放记忆D中；

第十二步，从回放记忆D中均匀随机采样m个训练样本，用

来表示，其中

；

第十三步，根据target Q网络参数值

计算优化目标动作值

，

；其中

是折扣系数，取值范围[0,1]；

第十四步：计算损失函数，使用参数为

的值函数

，迭代t次后的损失函数如下如式（5）所示，其中:

表示值函数的优化目标。利用梯度下降算法进行反向传播更新神经网络参数

，如式（6）所示；

第十五步：更新动作价值函数逼近的网络参数

；

第十六步：重复步骤第七步至第十五步T次，每隔固定步数C，将估计的动作值网络参数复制给目标动作值网络参数，

，更新目标动作值网络参数。

第十七步：重复以上步骤M次，直到学习出使得累计奖励值R最大的策略

。

与现有技术相比，本发明的优点和有益效果是：

本发明设计一种基于深度强化优化控制方法具有重要意义，可以形成一套完整的感知决策体系，有效提高学生的学习效率。

附图说明

图1是强化学习基本原理框架图。

图2是实施例中实时监测记录界面图。

图3是神经网络模型结构图。

图4是DQN算法流程图。

图5是本发明原理模型示意图。

具体实施方式

下面结合实施例和附图对本发明所述的技术方案作进一步地描述说明。

实施例1

本实施例优化控制策略的目标是满足室内热舒适性要求的前提下，降低空调系统的能耗的同时提升室内热环境中学生的学习效率。为了给强化学习的智能体提供一个精确的环境模型，以便在模拟中学习到更好的策略，且因空调系统设备众多，设备型号多样，使用传统的物理建模方法很难建立精确的系统模型。

本实施例选用三层前馈全连接神经网络（一个输入层、一个隐含层、一个输出层）建立系统的输入输出模型。最终选择时刻信息

，室外温度

，室外相对湿度

，太阳辐射强度

，空调系统耗电量

，室内温度

，皮肤温度

，前一分钟时段内脑电波

的平均值，

作为模型的输入层参数，t表示当前时刻。其中，脑电参数可进行实时监测记录，记录页面如图2所示。隐含层节点数为10，模型的输出层为下一时刻的室内温度

、下一时刻空调系统耗电量

和脑电波

神经网络参数建模的目的就是寻找合适的权值参数，使损失函数的值尽可能的小，所以选择均方差（MSE）作为神经网络建模的损失函数。优化器选择随机梯度下降法（Adam）来寻找模型最优解。模型结构如图3所示。

将控制系统运行优化问题建模为马尔科夫决策过程。

状态观测空间S设置为

，可控制变量为空调制热量，动作空间A设置为

为实时电；第二部分为控制时间步长内观测到的脑电

波段平均值，影响系数为

，理想范围为

，

为室内温度下限，

为室内温度上限；

为惩罚系数，体现了超越温度范围相对系统能源成本的影响。

定义规则缩减探索空间

在之间，即

为18℃，

运行阶段

假设迭代轮数为M，采样的序列最大长度为T，学习率为

,衰减系数为

，探索系数为

，状态空间为S，动作空间为A，回放记忆（Replay Memory）为D，容量为n，batch的容量为m。

DQN算法流程图如图4所示。

第二步：初始化Q网络，随机生成权重

；

第三步：初始化target Q网络，权重为

；

第四步：循环遍历事件episode=1,2,…,M

第五步：初始化事件的状态

，预处理状态对应的特征集

输入，最终选择时刻信息

，室外温度

，室外相对湿度

，太阳辐射强度

，空调系统耗电量

，室内温度

，皮肤温度

，脑电波

，

，

；

第六步：循环遍历每个事件的每一步，episode=1,2,…,T；

第七步：利用

策略生成动作

，即以

的概率随机选择一个动作；

第八步：如果随机数大于

，则选择当前值函数最大的那个动作；

第九步：执行动作

，观测环境反馈的奖励

以及下一步状态

；

第十步：设置

，设置

，预处理状态对应的特征集

输入，

；

第十一步，将转换结果

储存在回放记忆D中；

第十二步，从回放记忆D中均匀随机采样m个训练样本，用

来表示，其中

；

第十三步，根据target Q网络参数值

计算优化目标动作值

，

；其中

是折扣系数，取值范围[0,1]；

第十四步：计算损失函数，使用参数为

的值函数

，迭代t次后的损失函数如下如式（5）所示，其中:

，如式（6）所示。

第十五步：更新动作价值函数逼近的网络参数

;

，更新目标动作值网络参数。

。通过使用本实施例自动调节暖通空调设备的输入功率；能够营造高效的学习室内热环境，提高学生的学习效率，同时能有效的降低暖通空调系统的能耗。

在上述实施例的基础上，本发明继续对其中涉及到的技术特征及该技术特征在本发明中所起到的功能、作用进行详细的描述，以帮助本领域的技术人员充分理解本发明的技术方案并且予以重现。

最后，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于强化学习的室内热环境学习效率提升的优化控制方法，其特征在于，该方法包括以下步骤：

S1：获取观测数据：包括获取室内外热环境和人体的相关参数；室内外热环境数据：时刻信息，室外温度，室外相对湿度，太阳辐射强度，空调系统耗电量，和室内温度；

S3：利用S1获取的数据在S2建立的模型中进行循环运算，并引入DQN强化学习方法，基于神经网络训练控制空调体统的智能体，通过对当前状态值的观测以及得到的奖励，自动学习空调系统控制制热量决策的优化过程，得到最优控制策略，即得到最优的控制方法；

所述S2中，搭建神经网络模型：选用三层前馈全连接神经网络：一个输入层、一个隐含层、一个输出层，建立系统的输入输出模型；选择均方差作为神经网络建模的损失函数；优化器选择随机梯度下降法来寻找模型最优解；最终选择时刻信息

，室外温度

，室外相对湿度

，太阳辐射强度

，空调系统耗电量

，室内温度

，皮肤温度

，前一分钟时段内脑电波

的平均值，

、下一时刻空调系统耗电量

和脑电波

；

所述S3中，将控制方法运行优化问题建模为马尔科夫决策过程；奖励函数R的设置为在室内热舒适区间内，在提高学生的学习效率的同时降低空调系统的能耗为优化目标，如式（2）所示，由三部分组成，第一部分，P为控制时间步长内空调系统的能耗，

为实时电价；第二部分为控制时间步长内观测到的脑电

波段平均值，影响系数为

，理想范围为

；第三部分

，

为室内温度下限，

为室内温度上限；

。