CN114355767A

CN114355767A - 基于q学习的养老建筑室内热环境的无模型控制方法

Info

Publication number: CN114355767A
Application number: CN202210274212.3A
Authority: CN
Inventors: 李岩学; 许文亚; 顾月; 徐阳; 高伟俊
Original assignee: Qingdao University of Technology
Current assignee: Qingdao University of Technology
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-04-15
Anticipated expiration: 2042-03-21
Also published as: CN114355767B; US20230304689A1

Abstract

本发明提供了一种基于Q学习的养老建筑室内热环境的无模型控制方法，属于建筑环境控制技术领域。本发明利用监测得到的个体用户的室内温度以及老年群体的心率、收缩压数据作为输入数据，利用构建的Q学习模型，输出得到对应建筑的暖通空调的运行调控策略，提升了室内温度的调控效率和暖通空调系统的能效。相较于传统的控制模型，基于Q学习原理的强化学习方法对老年人心血管健康风险的预判更加准确，能够营造更适宜于老年生理健康的动态室内热环境。

Description

基于Q学习的养老建筑室内热环境的无模型控制方法

技术领域

本发明涉及建筑环境控制技术领域，具体涉及利用强化学习的原理对面向老年群体心血管健康提升的养老建筑室内热环境的无模型控制方法。

背景技术

随着生活质量与医疗水平的提高，人们的年龄不断增长，人口老龄化问题成为人们日益关注的焦点。研究显示我国心血管疾病死亡占城乡居民总死亡原因的首位，高血压是造成心血管疾病的主要原因。暴露环境温度，直接影响人体血液循环系统的热平衡过程，老年人身体热平衡管理技能降低，心脑血管疾病病发率高。据统计表明人们大约90%的时间在室内度过，尤其是老年人，室内热环境对人们健康有十分重要的影响，在“健康中国2030”规划纲要和《绿色建筑评价标准》GB/T50378-2019的提出下，为老年群体提供一个健康、舒适的养老建筑室内热环境意义重大。

与一般建筑相比，养老建筑的使用者有着特殊的生理和心理需求，居住环境的舒适、生活空间的健康是其中极为重要的目标。目前中国的养老建筑设计尚处于起步阶段，日益严重的老龄化却对养老建筑室内热环境舒适性提出了更高的要求。同时，互联网、人工智能等技术的发展，为养老建筑的智慧运营提供了可靠支撑。

老年人相对于年轻人是一个特殊群体，随着年龄的增加，身体各项机能的变化影响了整个身体调节，在不同室内环境下身体健康受到影响，从老年人的生理需求出发，改善老年人居住环境，提升养老建筑室内热环境舒适性具有显著意义。人体是一个恒温动物，通过热传导、热辐射和对流换热等形式与周围环境不断的进行能量交换和传递，当周围环境过冷或过热时，人体的体温调节系统通过调节皮肤表层血流量、排汗量和产热量这三种方式维持自身热平衡。

血压是流动的血液对血管侧壁的压强，心率的快慢表示心脏输出血液的速率，体温的改变影响了血管舒缩和血流量的多少，从而影响到血压和心率的变化。有研究表明当血压升高时人体血管会变粗以增加与血液的接触面积减少压强，但血压长期处于这种变化时，血管的不断变粗造成血管壁变厚导致血管变窄，血管变窄又促成血压的升高，反复的相互作用使得血管重塑，需要注意的是中心血压的升高不仅导致大血管的血压及血管结构改变，也会影响小动脉及微动脉的血压及血管结构，血压过高引起的血流灌注改变会引起心、脑、肾等靶器官的损害。

老年人随着年龄的增长，身体各项机能逐渐老化，活动能力受损，室内成为他们主要的活动空间。血压和心率的实时监测数据能够较好地反映老年人不同室内热环境下的生理反应，监测老年人的心血管健康变化。研究发现血压与室内温度呈显著的负相关性，早间和晚间温度较低时血压偏高，尤其是收缩压受室内温度影响较大，而老年人与年轻人相比变化则更为明显。心率与室内温度呈正相关性，当温度较低时心率较慢，温度较高时心率较快，心率较慢时心脏血压输出量较少，长时间处于这种状态下容易造成供血不足，身体各处受到影响。老年群体收缩压的正常范围为90~140mmHg，心率正常范围为60~100次/分钟，理想心率为55~70次/分钟，高血压患者心率超过80次/分钟就需要降心率。

总的来说，老年人与年轻人相比更容易受到热环境变化的刺激，在冷刺激下老年人外周血管收缩，皮肤血流量减少，且血管收缩较小，新陈代谢量较少，为满足身体所需血量，老年人心脏血液输出量较多，心脏负担较大；在热刺激下老年人外周血管舒张，皮肤血流量增加，与年轻人相比总体血流分布较少，心脏血液输出量较少，肾脏等器官血液分布较少。

目前的养老建筑存在忽视室内温度对老年人心血管健康的影响，缺乏更加灵活的室内温度调控手段。因此，为了提升老年群体心血管健康水平，根据老年群体的心血管健康生理参数特点来提升养老建筑的室内热环境舒适性，是解决现有相关技术中存在的不足与问题的关键之一。

发明内容

本发明的目的在于提供一种基于Q学习的养老建筑室内热环境的无模型控制方法，以弥补现有技术的不足。

人类是通过与环境交互来学习的，与此相似， Q学习即离轨策略下的时序差分控制算法的提出是强化学习方法的一种。该方法是一种不基于环境模型，基于数值的强化学习算法，使用者不需要对外部环境进行详细建模，只需要提供满足需要的足够的训练样本，通过智能体与环境的交互获得最优策略集，其收敛特性已得到验证。因此，本发明利用强化学习中的Q学习算法，提出了一种基于室内监测温度和监测生理参数的正常范围对暖通空调系统进行优化控制。

为达到上述目的，本发明是通过以下技术方案实现的：

一种基于Q学习的养老建筑室内热环境的无模型控制方法，该方法包括如下步骤：

S1：确定室内热环境相关影响因素和老年人心血管健康的影响因素；所述室内热环境相关影响因素包括房间热环境的控制量和被控制量，所述老年人心血管健康的影响因素包括收缩压与心率；将采集到的数据分为训练样本数据和待处理数据，进行预处理；

S2：构建建筑室内热环境控制模型，设定室内温度应保持在18-24℃之间；

S3：构建Q学习模型，明确调控的状态变量、动作变量，以及状态动作价值函数约束和奖惩机制；利用训练样本数据训练Q学习模型，得到已训练的Q学习模型；

S4：将待处理数据作为学习样本导入已训练的Q学习模型，通过迭代更新和多次训练，得到的建筑室内热环境控制模型的最优调控运行策略。

进一步的，所述S1包括：

S1-1：确定与室内热环境相关联的心血管健康参数，选定收缩压与心率作为实时监测数据；

S1-2：分析室内热环境的影响因素，确定房间热环境的控制量和被控制量，采集建筑中与时刻信息相对应的室内温度。

更具体为：

（1）采集室内环境中老年人的心血管生理参数数据，数据包括：心率

，收缩压

，从而实现老年人心血管健康状况的动态监测；在样本数据的采集过程中要求详细记录老人的个体特征，如体重、年龄等；准确获得被采集者的实时心率、血压等数据，温湿度记录仪记录相对应的室内温度（控制量）；根据正常心率范围、正常血压范围确定适宜老年人生活的室内温度；

（2）实时监测采集养老建筑室内温度

，并与心率、收缩压数据时刻对应；

（3）将室内温度

、心率

，收缩压

作为Q模型的状态变量。

对于采集数据的一种预处理方式可以为：

（1）填补数据缺失值，在数据采集的过程中可能会由于设备故障等多种原因造成部分时刻的温度、心率等信息丢失和空缺，针对这部分数据选用三次样条插值法进行填充。这种方法计算量较小且具有较高的计算精度，例如在matlab软件环境中，可以利用相应的interp1函数和spline函数进行填充。

（2）离群值的处理，离群值也就是数据集中偏离大部分数据的数据。对于离群值的处理主要有直接删除、均值或其他统计量代替等方法，这里将其视作缺失值进行填补。为了确认离群值，选用

法即标准差法确认采集数据的合理范围

，其中

表示数据集的平均值、

表示标准差，选出超出范围的数据进行替换与填补。

进一步的，所述S2中：

S2-1：基于老年人的心率范围55～80次/分钟，收缩压正常范围90～140mmHg；再综合评价实时监测的心率

和收缩压

对心血管健康的影响，得到健康危险函数：

，式中

,

为影响系数，

；

用户奖励函数R按式（1）计算：

其中，λ、θ为奖励因子，0<θ<λ<1,分别表示室内温度和老年人心血管健康参数在优化调控中的影响占比；

，

是考虑室内温度变化产生的奖励值，

是综合考虑心率、收缩压等老年群体心血管健康参数变化对于智能体状态判断的影响；

S2-2：选择利用标准差和平均值计算一定时间内的心率和收缩压数值，如式（2）是心率标准差的计算公式：

（2）

其中，N表示在该时间段内采集到的心率数据的个数，i=1、2、3……N，

表示具体的心率样本数据，

表示心率样本数据的平均数；收缩压SBP(t)的计算方法和上式（2）相同。

进一步的，所述S3中：

将室内热环境和老年人心血管生理参数数据联系起来，使Q学习模型能够基于室内监测温度及老年人的健康危险函数

计算奖励函数R从而对空调系统进行有效调控；将控制暖通空调系统的制热功率作为动作控制（即被控制量），其中最大值为暖通空调最大制热功率q，最小值为0即暖通空调系统处于休眠状态，即将暖通空调系统消耗电量作为Q学习模型的输出量。

S3-1：将采集到的老年人心血管生理参数数据集导入Q学习模型运行；

S3-2：智能体选择

贪心策略进行决策；

S3-3：智能体采用如下的式子（3）进行Q值的更新：

是当前时刻，

是学习率，表示的是更新部分的可信任程度；

是未来的 Q 值在当前的衰减率，S是环境状态，A是智能体可以执行的动作，R是根据需求定义的奖励函数，

则是智能体的策略集；

式中

是当前状态执行行为策略后观测到的下一个状态，

是得到的奖励，更新环境状态

和

；

S3-4：若Q表和学习次数阈值确定的学习过程收敛效果不好，可结合模型运行情况不断地调整参数

、

，使整个学习过程能够实现更好地收敛效果；

S3-5：重复上述步骤n次，直到学习得出累计奖励值R最大的最优策略集

,即调控运行策略。

进一步的，所述S3中，Q学习模型的建模过程是根据目标问题，将连续的状态变量和动作变量离散化，使智能体通过不断地与环境进行交互，利用不同状态下采取对应动作得到的奖励值更新Q表，经过多次迭代掌握怎样得到最高奖励的方案即得到完成目标问题的最优策略集。

进一步的，所述S3中，Q学习的状态动作价值函数表示为：

其中，

是当前时刻，

是学习率，表示的是更新部分的可信任程度；

是未来的 Q值在当前的衰减率，S是环境状态，A是智能体可以执行的动作，R是根据需求定义的奖励函数，

则是智能体的策略集；

调整参数

、

，其中

、

，使整个学习过程能够正确地收敛；

将训练样本数据输入到Q学习模型中进行训练，迭代更新不同状态下的不同动作的奖惩值，直到得到最优的状态动作价值函数后停止，保存训练后的Q学习模型。

与现有技术相比，本发明的优点和有益效果是：

本发明基于Q学习原理的面向老年群体的室内热环境提升，利用监测得到的个体用户的室内温度以及老年群体的心率、收缩压数据作为输入数据，利用构建的Q学习模型，输出得到对应建筑的暖通空调的运行调控策略，提升了室内温度的调控效率和暖通空调系统的能效。相较于传统的控制模型，基于Q学习原理的强化学习方法对老年人心血管健康风险的预判更加准确，能够营造更适宜于老年生理健康的动态室内热环境。

本发明能够有效地提升老年群体居住环境的热舒适性，并预防老年人心血管疾病的发生。

附图说明

图1是Q-learning模型结构图。

图2是本发明的基本流程图。

图3是室内热环境与老年群体心血管健康影响的示意图。

图4是冬季白天老年群体血压与温度的变化关系。

图5是冬季不同温度下老年群体心率的变化。

具体实施方式

下面通过实施例并结合附图对本发明所述的技术方案作进一步地描述说明。

实施例1：

一种基于Q学习的养老建筑室内热环境的无模型控制方法（具体流程如图2所示），该方法包括如下步骤：

（1）分析老年人心血管健康的影响因素，确定其中与室内热环境相关联的影响因子（室内热环境与老年群体心血管健康影响的示意如图3所示）。

并分析室内热环境的影响因素中，便于实现的控制量和被控制量，即舒适的室内温度对老年人心血管健康有着重要的影响。

采集一段时间内随时间

变化的建筑室内热环境数据室内温度

，以及老年群体生理参数数据，包括心率

，收缩压

。

其中老年群体心血管健康生理参数的具体采集过程为：

在采集开始前，详细记录老年人的年龄、性别、身高、体重，并要求被采集者测量期间不能饮酒。

在采集过程中要求被采集者在起床后佩戴Polar H10心率胸带，通过手机平台实时监测，晚上将心率带取下，登入电脑终端将监测的心率数据导出；血压测试使用H7-CMS06C动态血压检测仪，从早上起床开始测量，每隔2个小时测量一次，到晚上睡觉之前进行最后一次测量。

整个采集过程使用TANDD温湿度记录仪对室内温度进行实时记录。

数据采集完成后，需要将心率、血压与相同时刻下的室内温度相对应，研究不同室内温度下心率、血压的变化。根据正常心率范围、正常血压范围确定适宜老年人生活的室内温度。

将监测采集到的各项数据进行预处理；

如图4表示实验中某位老人冬季白天血压与温度的变化关系，数据分析表明当室内温度较低且低于舒适温度范围时，老人的血压偏高甚至会出现超出正常血压范围。图5是冬季不同温度下老人心率的变化，当温度较低时，心率波动较为明显，当温度逐渐升高，心率变化趋于平稳。

（2）构建用于优化调控运行的Q学习模型（该模型的基本流程图如图1所示），将控制系统优化运行问题建模为马尔可夫决策过程；

首先明确优化目标，确保监测的生理参数保持在正常范围内，考虑到理想心率为55~70次/分钟，高血压患者心率不宜超过80次/分钟，综合考虑设定心率标准范围为55～80次/分钟，收缩压标准范围为90～140mmHg，以及舒适的室内温度18～24℃；

其次，将与老年群体心血管健康相关的生理参数心率

，收缩压

以及室内温度

确定为状态观测空间（状态变量），即

；

第三，由于室内温度便于调控，所以作为可控量，暖通空调制热功率（q）为可控制变量（被控制量），即动作空间A（动作变量）。

适应Q学习模型特点，将动作状态空间离散化。其中，

，为便于计算，相似地将状态空间各观测因子根据监测所得数据的变化范围也等距分成5段，构成状态空间矩阵。

初始化系统状态和Q表；

在区间(0，1]，设置

、

，例如

、

；

设置模型探索的循环迭代次数

，

；

奖励函数与控制目标相对应，以确定当前状态变量下所采取的动作能够获得的奖励值，奖励函数R的设置需要考虑两部分构成，两部分奖励系数关系满足

，

，具体如式（1）、（4）。

其中一部分是温度的影响

，保证以较低的能耗代价营造室内温度在舒适区间，设置下限温度

，上限温度

，相应的惩罚系数

是室温在舒适区间之外时对优化目标造成的影响，如式（5）；

另一部分是老年群体心血管健康参数变化的影响

，基于心率

理想范围55～80次/分钟，收缩压

正常范围90～140mmHg，得出健康奖励函数。由于选定的心血管健康参数在采样时间Δt内有较大的变化,因此这里选择标准差和平均值计算,如式（2）是心率标准差的计算：

（2）

表示具体的心率样本数据，

表示心率样本数据的平均数；收缩压

的计算方法和式(8)相同，求得

。考虑到温度对各个心血管健康参数的影响不同，获得对应的奖励不同，分别确定

,

为惩罚系数，且满足

，具体如式（6）、（7）：

基于上述状态变量、动作变量和奖励函数，对建筑室内暖通空调系统展开运行调控管理；

（3）将采集到的待预测的样本数据集导入Q学习模型运行；

智能体进行决策时的策略选择

贪心策略，智能体每次以

的概率执行随机动作，以

的概率执行贪心策略，其中

，例如当

时，90%的情况智能体会按照Q表的已有的最优值选择相应的行为；10%的情况选择随机选择行为，使用

贪心策略可以保证所有的状态空间都有一定的概率被访问到。

智能体在一定状态下选择相应的行为，采用如下的式子进行Q值的更新：

，

是当前状态执行行为策略后观测到的下一个状态，

是得到的奖励，更新系统状态s和q值；

更新Q表，也就是对应状态动作下的价值函数，帮助智能体判断在每个状态选取什么样的动作能够获得最优奖励；

循环遍历前四个步骤；

直到s是终止状态；

可基于Q表和学习次数阈值确定学习过程是否收敛，结合模型运行情况调整参数

、

，使整个学习过程能够实现更好地收敛效果。

重复以上步骤n次，直到学习得出累计奖励值R最大的最优策略集

,即暖通空调系统调控运行策略。

本实施例利用Q学习模型学习到的控制策略，结合实时监测获得的老年群体心血管健康生理参数状态变化来获得室内热环境调控设备的运行策略，便于营造更适宜于老年群体的舒适室内热环境，利用无模型控制方法为实现面向老年群体室内热环境质量提升提供了有效指导，为营造健康舒适的养老建筑室内热环境提供了技术思路。

在上述实施例的基础上，本发明继续对其中涉及到的技术特征及该技术特征在本发明中所起到的功能、作用进行详细的描述，以帮助本领域的技术人员充分理解本发明的技术方案并且予以重现。

最后，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于Q学习的养老建筑室内热环境的无模型控制方法，其特征在于，该方法包括如下步骤：

S2：构建建筑室内热环境控制模型，设定室内温度保持在18-24℃之间；

2.如权利要求1所述的无模型控制方法，其特征在于，所述S1包括：

3.如权利要求1所述的无模型控制方法，其特征在于，所述S2中：

和收缩压

对心血管健康的影响，得到健康危险函数：

，式中

,

为影响系数，

；

用户奖励函数R按式（1）计算：

其中，λ、θ为奖励因子，0<θ<λ<1，分别表示室内温度和老年人心血管健康参数在优化调控中的影响占比；

，

是考虑室内温度变化产生的奖励值，

（2）

表示具体的心率样本数据，

4.如权利要求1所述的无模型控制方法，其特征在于，所述S3中：

S3-2：智能体选择

贪心策略进行决策；

S3-3：智能体采用如下的式子（3）进行Q值的更新：

其中，

是当前时刻，

是学习率，表示的是更新部分的可信任程度；

则是智能体的策略集；

式中

是当前状态执行行为策略后观测到的下一个状态，

是得到的奖励，更新环境状态

和

；

、

，使整个学习过程能够实现更好地收敛效果；

,即调控运行策略。

5.如权利要求1所述的无模型控制方法，其特征在于，所述S3中，Q学习模型的建模过程是根据目标问题，将连续的状态变量和动作变量离散化，使智能体通过不断地与环境进行交互，利用不同状态下采取对应动作得到的奖励值更新Q表，经过多次迭代掌握怎样得到最高奖励的方案即得到完成目标问题的最优策略集。

6.如权利要求1所述的无模型控制方法，其特征在于，所述S3中，Q学习的状态动作价值函数表示为：

调整参数

、

，其中

、

，使整个学习过程能够正确地收敛；