CN114355767A - 基于q学习的养老建筑室内热环境的无模型控制方法 - Google Patents

基于q学习的养老建筑室内热环境的无模型控制方法 Download PDF

Info

Publication number
CN114355767A
CN114355767A CN202210274212.3A CN202210274212A CN114355767A CN 114355767 A CN114355767 A CN 114355767A CN 202210274212 A CN202210274212 A CN 202210274212A CN 114355767 A CN114355767 A CN 114355767A
Authority
CN
China
Prior art keywords
learning
heart rate
model
thermal environment
old
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210274212.3A
Other languages
English (en)
Other versions
CN114355767B (zh
Inventor
李岩学
许文亚
顾月
徐阳
高伟俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Technology
Original Assignee
Qingdao University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Technology filed Critical Qingdao University of Technology
Priority to CN202210274212.3A priority Critical patent/CN114355767B/zh
Publication of CN114355767A publication Critical patent/CN114355767A/zh
Application granted granted Critical
Publication of CN114355767B publication Critical patent/CN114355767B/zh
Priority to US17/876,165 priority patent/US20230304689A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/30Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
    • F24F11/49Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring ensuring correct operation, e.g. by trial operation or configuration checks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Combustion & Propulsion (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Air Conditioning Control Device (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

本发明提供了一种基于Q学习的养老建筑室内热环境的无模型控制方法,属于建筑环境控制技术领域。本发明利用监测得到的个体用户的室内温度以及老年群体的心率、收缩压数据作为输入数据,利用构建的Q学习模型,输出得到对应建筑的暖通空调的运行调控策略,提升了室内温度的调控效率和暖通空调系统的能效。相较于传统的控制模型,基于Q学习原理的强化学习方法对老年人心血管健康风险的预判更加准确,能够营造更适宜于老年生理健康的动态室内热环境。

Description

基于Q学习的养老建筑室内热环境的无模型控制方法
技术领域
本发明涉及建筑环境控制技术领域,具体涉及利用强化学习的原理对面向老年群体心血管健康提升的养老建筑室内热环境的无模型控制方法。
背景技术
随着生活质量与医疗水平的提高,人们的年龄不断增长,人口老龄化问题成为人们日益关注的焦点。研究显示我国心血管疾病死亡占城乡居民总死亡原因的首位,高血压是造成心血管疾病的主要原因。暴露环境温度,直接影响人体血液循环系统的热平衡过程,老年人身体热平衡管理技能降低,心脑血管疾病病发率高。据统计表明人们大约90%的时间在室内度过,尤其是老年人,室内热环境对人们健康有十分重要的影响,在“健康中国2030”规划纲要和《绿色建筑评价标准》GB/T50378-2019的提出下,为老年群体提供一个健康、舒适的养老建筑室内热环境意义重大。
与一般建筑相比, 养老建筑的使用者有着特殊的生理和心理需求,居住环境的舒适、 生活空间的健康是其中极为重要的目标。目前中国的养老建筑设计尚处于起步阶段,日益严重的老龄化却对养老建筑室内热环境舒适性提出了更高的要求。同时,互联网、人工智能等技术的发展,为养老建筑的智慧运营提供了可靠支撑。
老年人相对于年轻人是一个特殊群体,随着年龄的增加,身体各项机能的变化影响了整个身体调节,在不同室内环境下身体健康受到影响,从老年人的生理需求出发,改善老年人居住环境,提升养老建筑室内热环境舒适性具有显著意义。人体是一个恒温动物,通过热传导、热辐射和对流换热等形式与周围环境不断的进行能量交换和传递,当周围环境过冷或过热时,人体的体温调节系统通过调节皮肤表层血流量、排汗量和产热量这三种方式维持自身热平衡。
血压是流动的血液对血管侧壁的压强,心率的快慢表示心脏输出血液的速率,体温的改变影响了血管舒缩和血流量的多少,从而影响到血压和心率的变化。有研究表明当血压升高时人体血管会变粗以增加与血液的接触面积减少压强,但血压长期处于这种变化时,血管的不断变粗造成血管壁变厚导致血管变窄,血管变窄又促成血压的升高,反复的相互作用使得血管重塑,需要注意的是中心血压的升高不仅导致大血管的血压及血管结构改变,也会影响小动脉及微动脉的血压及血管结构,血压过高引起的血流灌注改变会引起心、脑、肾等靶器官的损害。
老年人随着年龄的增长,身体各项机能逐渐老化,活动能力受损,室内成为他们主要的活动空间。血压和心率的实时监测数据能够较好地反映老年人不同室内热环境下的生理反应,监测老年人的心血管健康变化。研究发现血压与室内温度呈显著的负相关性,早间和晚间温度较低时血压偏高,尤其是收缩压受室内温度影响较大,而老年人与年轻人相比变化则更为明显。心率与室内温度呈正相关性,当温度较低时心率较慢,温度较高时心率较快,心率较慢时心脏血压输出量较少,长时间处于这种状态下容易造成供血不足,身体各处受到影响。老年群体收缩压的正常范围为90~140mmHg,心率正常范围为60~100次/分钟,理想心率为55~70次/分钟,高血压患者心率超过80次/分钟就需要降心率。
总的来说,老年人与年轻人相比更容易受到热环境变化的刺激,在冷刺激下老年人外周血管收缩,皮肤血流量减少,且血管收缩较小,新陈代谢量较少,为满足身体所需血量,老年人心脏血液输出量较多,心脏负担较大;在热刺激下老年人外周血管舒张,皮肤血流量增加,与年轻人相比总体血流分布较少,心脏血液输出量较少,肾脏等器官血液分布较少。
目前的养老建筑存在忽视室内温度对老年人心血管健康的影响,缺乏更加灵活的室内温度调控手段。因此,为了提升老年群体心血管健康水平,根据老年群体的心血管健康生理参数特点来提升养老建筑的室内热环境舒适性,是解决现有相关技术中存在的不足与问题的关键之一。
发明内容
本发明的目的在于提供一种基于Q学习的养老建筑室内热环境的无模型控制方法,以弥补现有技术的不足。
人类是通过与环境交互来学习的,与此相似, Q学习即离轨策略下的时序差分控制算法的提出是强化学习方法的一种。该方法是一种不基于环境模型,基于数值的强化学习算法,使用者不需要对外部环境进行详细建模,只需要提供满足需要的足够的训练样本,通过智能体与环境的交互获得最优策略集,其收敛特性已得到验证。因此,本发明利用强化学习中的Q学习算法,提出了一种基于室内监测温度和监测生理参数的正常范围对暖通空调系统进行优化控制。
为达到上述目的,本发明是通过以下技术方案实现的:
一种基于Q学习的养老建筑室内热环境的无模型控制方法,该方法包括如下步骤:
S1:确定室内热环境相关影响因素和老年人心血管健康的影响因素;所述室内热环境相关影响因素包括房间热环境的控制量和被控制量,所述老年人心血管健康的影响因素包括收缩压与心率;将采集到的数据分为训练样本数据和待处理数据,进行预处理;
S2:构建建筑室内热环境控制模型,设定室内温度应保持在18-24℃之间;
S3:构建Q学习模型,明确调控的状态变量、动作变量,以及状态动作价值函数约束和奖惩机制;利用训练样本数据训练Q学习模型,得到已训练的Q学习模型;
S4:将待处理数据作为学习样本导入已训练的Q学习模型,通过迭代更新和多次训练,得到的建筑室内热环境控制模型的最优调控运行策略。
进一步的,所述S1包括:
S1-1:确定与室内热环境相关联的心血管健康参数,选定收缩压与心率作为实时监测数据;
S1-2:分析室内热环境的影响因素,确定房间热环境的控制量和被控制量,采集建筑中与时刻信息相对应的室内温度。
更具体为:
(1)采集室内环境中老年人的心血管生理参数数据,数据包括:心率
Figure 530279DEST_PATH_IMAGE001
,收缩压
Figure 142526DEST_PATH_IMAGE002
,从而实现老年人心血管健康状况的动态监测;在样本数据的采集过程中要求详细记录老人的个体特征,如体重、年龄等;准确获得被采集者的实时心率、血压等数据,温湿度记录仪记录相对应的室内温度(控制量);根据正常心率范围、正常血压范围确定适宜老年人生活的室内温度;
(2)实时监测采集养老建筑室内温度
Figure 319167DEST_PATH_IMAGE003
,并与心率、收缩压数据时刻对应;
(3)将室内温度
Figure 409483DEST_PATH_IMAGE004
、心率
Figure 918962DEST_PATH_IMAGE005
,收缩压
Figure 374214DEST_PATH_IMAGE006
作为Q模型的状态变量。
对于采集数据的一种预处理方式可以为:
(1)填补数据缺失值,在数据采集的过程中可能会由于设备故障等多种原因造成部分时刻的温度、心率等信息丢失和空缺,针对这部分数据选用三次样条插值法进行填充。这种方法计算量较小且具有较高的计算精度,例如在matlab软件环境中,可以利用相应的interp1函数和spline函数进行填充。
(2)离群值的处理,离群值也就是数据集中偏离大部分数据的数据。对于离群值的处理主要有直接删除、均值或其他统计量代替等方法,这里将其视作缺失值进行填补。为了确认离群值,选用
Figure 336354DEST_PATH_IMAGE007
法即标准差法确认采集数据的合理范围
Figure 731825DEST_PATH_IMAGE008
,其中
Figure 95811DEST_PATH_IMAGE009
表示数据集的平均值、
Figure 721964DEST_PATH_IMAGE010
表示标准差,选出超出范围的数据进行替换与填补。
进一步的,所述S2中:
S2-1:基于老年人的心率范围55~80次/分钟,收缩压正常范围90~140mmHg;再综合评价实时监测的心率
Figure 436979DEST_PATH_IMAGE005
和收缩压
Figure 72360DEST_PATH_IMAGE006
对心血管健康的影响,得到健康危险函数:
Figure 547245DEST_PATH_IMAGE011
,式中
Figure 406617DEST_PATH_IMAGE012
,
Figure 343349DEST_PATH_IMAGE013
为影响系数,
Figure 579158DEST_PATH_IMAGE014
用户奖励函数R按式(1)计算:
Figure 356883DEST_PATH_IMAGE015
其中,λ、θ为奖励因子,0<θ<λ<1,分别表示室内温度和老年人心血管健康参数在优化调控中的影响占比;
Figure 652735DEST_PATH_IMAGE016
Figure 811184DEST_PATH_IMAGE017
Figure 788368DEST_PATH_IMAGE018
是考虑室内温度变化产生的奖励值,
Figure 981451DEST_PATH_IMAGE019
是综合考虑心率、收缩压等老年群体心血管健康参数变化对于智能体状态判断的影响;
S2-2:选择利用标准差和平均值计算一定时间内的心率和收缩压数值,如式(2)是心率标准差的计算公式:
Figure 884423DEST_PATH_IMAGE020
(2)
其中,N表示在该时间段内采集到的心率数据的个数,i=1、2、3……N,
Figure 795747DEST_PATH_IMAGE021
表示具体的心率样本数据,
Figure 107780DEST_PATH_IMAGE022
表示心率样本数据的平均数;收缩压SBP(t)的计算方法和上式(2)相同。
进一步的,所述S3中:
将室内热环境和老年人心血管生理参数数据联系起来,使Q学习模型能够基于室内监测温度及老年人的健康危险函数
Figure 358633DEST_PATH_IMAGE023
计算奖励函数R从而对空调系统进行有效调控;将控制暖通空调系统的制热功率作为动作控制(即被控制量),其中最大值为暖通空调最大制热功率q,最小值为0即暖通空调系统处于休眠状态,即将暖通空调系统消耗电量作为Q学习模型的输出量。
S3-1:将采集到的老年人心血管生理参数数据集导入Q学习模型运行;
S3-2:智能体选择
Figure 996287DEST_PATH_IMAGE024
贪心策略进行决策;
S3-3:智能体采用如下的式子(3)进行Q值的更新:
Figure 834056DEST_PATH_IMAGE025
Figure 215358DEST_PATH_IMAGE026
是当前时刻,
Figure 320718DEST_PATH_IMAGE027
是学习率,表示的是更新部分的可信任程度;
Figure 129274DEST_PATH_IMAGE028
是未来的 Q 值在当前的衰减率,S是环境状态,A是智能体可以执行的动作,R是根据需求定义的奖励函数,
Figure 687294DEST_PATH_IMAGE029
则是智能体的策略集;
式中
Figure 105244DEST_PATH_IMAGE030
是当前状态执行行为策略后观测到的下一个状态,
Figure 127426DEST_PATH_IMAGE031
是得到的奖励,更新环境状态
Figure 44567DEST_PATH_IMAGE032
Figure 417779DEST_PATH_IMAGE033
S3-4:若Q表和学习次数阈值确定的学习过程收敛效果不好,可结合模型运行情况不断地调整参数
Figure 875305DEST_PATH_IMAGE027
Figure 191142DEST_PATH_IMAGE028
,使整个学习过程能够实现更好地收敛效果;
S3-5:重复上述步骤n次,直到学习得出累计奖励值R最大的最优策略集
Figure 607080DEST_PATH_IMAGE029
,即调控运行策略。
进一步的,所述S3中,Q学习模型的建模过程是根据目标问题,将连续的状态变量和动作变量离散化,使智能体通过不断地与环境进行交互,利用不同状态下采取对应动作得到的奖励值更新Q表,经过多次迭代掌握怎样得到最高奖励的方案即得到完成目标问题的最优策略集。
进一步的,所述S3中,Q学习的状态动作价值函数表示为:
Figure 139693DEST_PATH_IMAGE034
其中,
Figure 666489DEST_PATH_IMAGE026
是当前时刻,
Figure 132106DEST_PATH_IMAGE027
是学习率,表示的是更新部分的可信任程度;
Figure 951901DEST_PATH_IMAGE028
是未来的 Q值在当前的衰减率,S是环境状态,A是智能体可以执行的动作,R是根据需求定义的奖励函数,
Figure 768547DEST_PATH_IMAGE029
则是智能体的策略集;
调整参数
Figure 771138DEST_PATH_IMAGE027
Figure 622419DEST_PATH_IMAGE028
,其中
Figure 317843DEST_PATH_IMAGE035
Figure 123250DEST_PATH_IMAGE036
,使整个学习过程能够正确地收敛;
将训练样本数据输入到Q学习模型中进行训练,迭代更新不同状态下的不同动作的奖惩值,直到得到最优的状态动作价值函数后停止,保存训练后的Q学习模型。
与现有技术相比,本发明的优点和有益效果是:
本发明基于Q学习原理的面向老年群体的室内热环境提升,利用监测得到的个体用户的室内温度以及老年群体的心率、收缩压数据作为输入数据,利用构建的Q学习模型,输出得到对应建筑的暖通空调的运行调控策略,提升了室内温度的调控效率和暖通空调系统的能效。相较于传统的控制模型,基于Q学习原理的强化学习方法对老年人心血管健康风险的预判更加准确,能够营造更适宜于老年生理健康的动态室内热环境。
本发明能够有效地提升老年群体居住环境的热舒适性,并预防老年人心血管疾病的发生。
附图说明
图1是Q-learning模型结构图。
图2是本发明的基本流程图。
图3是室内热环境与老年群体心血管健康影响的示意图。
图4是冬季白天老年群体血压与温度的变化关系。
图5是冬季不同温度下老年群体心率的变化。
具体实施方式
下面通过实施例并结合附图对本发明所述的技术方案作进一步地描述说明。
实施例1:
一种基于Q学习的养老建筑室内热环境的无模型控制方法(具体流程如图2所示),该方法包括如下步骤:
(1)分析老年人心血管健康的影响因素,确定其中与室内热环境相关联的影响因子(室内热环境与老年群体心血管健康影响的示意如图3所示)。
并分析室内热环境的影响因素中,便于实现的控制量和被控制量,即舒适的室内温度对老年人心血管健康有着重要的影响。
采集一段时间内随时间
Figure 726270DEST_PATH_IMAGE026
变化的建筑室内热环境数据室内温度
Figure 432058DEST_PATH_IMAGE037
,以及老年群体生理参数数据,包括心率
Figure 32803DEST_PATH_IMAGE038
,收缩压
Figure 322577DEST_PATH_IMAGE039
其中老年群体心血管健康生理参数的具体采集过程为:
在采集开始前,详细记录老年人的年龄、性别、身高、体重,并要求被采集者测量期间不能饮酒。
在采集过程中要求被采集者在起床后佩戴Polar H10心率胸带,通过手机平台实时监测,晚上将心率带取下,登入电脑终端将监测的心率数据导出;血压测试使用H7-CMS06C动态血压检测仪,从早上起床开始测量,每隔2个小时测量一次,到晚上睡觉之前进行最后一次测量。
整个采集过程使用TANDD温湿度记录仪对室内温度进行实时记录。
数据采集完成后,需要将心率、血压与相同时刻下的室内温度相对应,研究不同室内温度下心率、血压的变化。根据正常心率范围、正常血压范围确定适宜老年人生活的室内温度。
将监测采集到的各项数据进行预处理;
如图4表示实验中某位老人冬季白天血压与温度的变化关系,数据分析表明当室内温度较低且低于舒适温度范围时,老人的血压偏高甚至会出现超出正常血压范围。图5是冬季不同温度下老人心率的变化,当温度较低时,心率波动较为明显,当温度逐渐升高,心率变化趋于平稳。
(2)构建用于优化调控运行的Q学习模型(该模型的基本流程图如图1所示),将控制系统优化运行问题建模为马尔可夫决策过程;
首先明确优化目标,确保监测的生理参数保持在正常范围内,考虑到理想心率为55~70次/分钟,高血压患者心率不宜超过80次/分钟,综合考虑设定心率标准范围为55~80次/分钟,收缩压标准范围为90~140mmHg,以及舒适的室内温度18~24℃;
其次,将与老年群体心血管健康相关的生理参数心率
Figure 729287DEST_PATH_IMAGE040
,收缩压
Figure 289582DEST_PATH_IMAGE041
以及室内温度
Figure 857966DEST_PATH_IMAGE042
确定为状态观测空间(状态变量),即
Figure 339763DEST_PATH_IMAGE043
第三,由于室内温度便于调控,所以作为可控量,暖通空调制热功率(q)为可控制变量(被控制量),即动作空间A(动作变量)。
适应Q学习模型特点,将动作状态空间离散化。其中,
Figure 51630DEST_PATH_IMAGE044
,为便于计算,相似地将状态空间各观测因子根据监测所得数据的变化范围也等距分成5段,构成状态空间矩阵。
初始化系统状态和Q表;
在区间(0,1],设置
Figure 669693DEST_PATH_IMAGE027
Figure 940137DEST_PATH_IMAGE028
,例如
Figure 643651DEST_PATH_IMAGE045
Figure 392164DEST_PATH_IMAGE046
设置模型探索的循环迭代次数
Figure 425586DEST_PATH_IMAGE047
Figure 539035DEST_PATH_IMAGE048
奖励函数与控制目标相对应,以确定当前状态变量下所采取的动作能够获得的奖励值,奖励函数R的设置需要考虑两部分构成,两部分奖励系数关系满足
Figure 526583DEST_PATH_IMAGE049
Figure 78787DEST_PATH_IMAGE050
,具体如式(1)、(4)。
Figure 500803DEST_PATH_IMAGE051
Figure 581892DEST_PATH_IMAGE052
其中一部分是温度的影响
Figure 384631DEST_PATH_IMAGE053
,保证以较低的能耗代价营造室内温度在舒适区间,设置下限温度
Figure 973482DEST_PATH_IMAGE054
,上限温度
Figure 76436DEST_PATH_IMAGE055
,相应的惩罚系数
Figure 626629DEST_PATH_IMAGE056
是室温在舒适区间之外时对优化目标造成的影响,如式(5);
Figure 588769DEST_PATH_IMAGE057
另一部分是老年群体心血管健康参数变化的影响
Figure 951617DEST_PATH_IMAGE058
,基于心率
Figure 345296DEST_PATH_IMAGE059
理想范围55~80次/分钟,收缩压
Figure 33766DEST_PATH_IMAGE041
正常范围90~140mmHg,得出健康奖励函数。由于选定的心血管健康参数在采样时间Δt内有较大的变化,因此这里选择标准差和平均值计算,如式(2)是心率标准差的计算:
Figure 483202DEST_PATH_IMAGE060
(2)
其中,N表示在该时间段内采集到的心率数据的个数,i=1、2、3……N,
Figure 384162DEST_PATH_IMAGE061
表示具体的心率样本数据,
Figure 432014DEST_PATH_IMAGE062
表示心率样本数据的平均数;收缩压
Figure 291386DEST_PATH_IMAGE039
的计算方法和式(8)相同,求得
Figure 546828DEST_PATH_IMAGE063
。考虑到温度对各个心血管健康参数的影响不同,获得对应的奖励不同,分别确定
Figure 517058DEST_PATH_IMAGE064
,
Figure 386794DEST_PATH_IMAGE065
为惩罚系数,且满足
Figure 652953DEST_PATH_IMAGE066
具体如式(6)、(7):
Figure 608139DEST_PATH_IMAGE067
Figure 850902DEST_PATH_IMAGE068
基于上述状态变量、动作变量和奖励函数,对建筑室内暖通空调系统展开运行调控管理;
(3)将采集到的待预测的样本数据集导入Q学习模型运行;
智能体进行决策时的策略选择
Figure 339259DEST_PATH_IMAGE024
贪心策略,智能体每次以
Figure 665067DEST_PATH_IMAGE024
的概率执行随机动作,以
Figure 546697DEST_PATH_IMAGE069
的概率执行贪心策略,其中
Figure 655468DEST_PATH_IMAGE070
,例如当
Figure 703058DEST_PATH_IMAGE071
时,90%的情况智能体会按照Q表的已有的最优值选择相应的行为;10%的情况选择随机选择行为,使用
Figure 809554DEST_PATH_IMAGE024
贪心策略可以保证所有的状态空间都有一定的概率被访问到。
智能体在一定状态下选择相应的行为,采用如下的式子进行Q值的更新:
Figure 441130DEST_PATH_IMAGE072
Figure 556854DEST_PATH_IMAGE073
是当前状态执行行为策略后观测到的下一个状态,
Figure 255689DEST_PATH_IMAGE074
是得到的奖励,更新系统状态s和q值;
更新Q表,也就是对应状态动作下的价值函数,帮助智能体判断在每个状态选取什么样的动作能够获得最优奖励;
循环遍历前四个步骤;
直到s是终止状态;
可基于Q表和学习次数阈值确定学习过程是否收敛,结合模型运行情况调整参数
Figure 300130DEST_PATH_IMAGE075
Figure 389309DEST_PATH_IMAGE076
,使整个学习过程能够实现更好地收敛效果。
重复以上步骤n次,直到学习得出累计奖励值R最大的最优策略集
Figure 308723DEST_PATH_IMAGE029
,即暖通空调系统调控运行策略。
本实施例利用Q学习模型学习到的控制策略,结合实时监测获得的老年群体心血管健康生理参数状态变化来获得室内热环境调控设备的运行策略,便于营造更适宜于老年群体的舒适室内热环境,利用无模型控制方法为实现面向老年群体室内热环境质量提升提供了有效指导,为营造健康舒适的养老建筑室内热环境提供了技术思路。
在上述实施例的基础上,本发明继续对其中涉及到的技术特征及该技术特征在本发明中所起到的功能、作用进行详细的描述,以帮助本领域的技术人员充分理解本发明的技术方案并且予以重现。
最后,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于Q学习的养老建筑室内热环境的无模型控制方法,其特征在于,该方法包括如下步骤:
S1:确定室内热环境相关影响因素和老年人心血管健康的影响因素;所述室内热环境相关影响因素包括房间热环境的控制量和被控制量,所述老年人心血管健康的影响因素包括收缩压与心率;将采集到的数据分为训练样本数据和待处理数据,进行预处理;
S2:构建建筑室内热环境控制模型,设定室内温度保持在18-24℃之间;
S3:构建Q学习模型,明确调控的状态变量、动作变量,以及状态动作价值函数约束和奖惩机制;利用训练样本数据训练Q学习模型,得到已训练的Q学习模型;
S4:将待处理数据作为学习样本导入已训练的Q学习模型,通过迭代更新和多次训练,得到的建筑室内热环境控制模型的最优调控运行策略。
2.如权利要求1所述的无模型控制方法,其特征在于,所述S1包括:
S1-1:确定与室内热环境相关联的心血管健康参数,选定收缩压与心率作为实时监测数据;
S1-2:分析室内热环境的影响因素,确定房间热环境的控制量和被控制量,采集建筑中与时刻信息相对应的室内温度。
3.如权利要求1所述的无模型控制方法,其特征在于,所述S2中:
S2-1:基于老年人的心率范围55~80次/分钟,收缩压正常范围90~140mmHg;再综合评价实时监测的心率
Figure 52563DEST_PATH_IMAGE001
和收缩压
Figure 327293DEST_PATH_IMAGE002
对心血管健康的影响,得到健康危险函数:
Figure 434926DEST_PATH_IMAGE003
,式中
Figure 49710DEST_PATH_IMAGE004
,
Figure 18409DEST_PATH_IMAGE005
为影响系数,
Figure 231085DEST_PATH_IMAGE006
用户奖励函数R按式(1)计算:
Figure 124217DEST_PATH_IMAGE007
其中,λ、θ为奖励因子,0<θ<λ<1,分别表示室内温度和老年人心血管健康参数在优化调控中的影响占比;
Figure 651013DEST_PATH_IMAGE008
Figure 208640DEST_PATH_IMAGE009
Figure 529900DEST_PATH_IMAGE010
是考虑室内温度变化产生的奖励值,
Figure 674442DEST_PATH_IMAGE011
是综合考虑心率、收缩压等老年群体心血管健康参数变化对于智能体状态判断的影响;
S2-2:选择利用标准差和平均值计算一定时间内的心率和收缩压数值,如式(2)是心率标准差的计算公式:
Figure 506394DEST_PATH_IMAGE012
(2)
其中,N表示在该时间段内采集到的心率数据的个数,i=1、2、3……N,
Figure 623255DEST_PATH_IMAGE013
表示具体的心率样本数据,
Figure 145110DEST_PATH_IMAGE014
表示心率样本数据的平均数;收缩压SBP(t)的计算方法和上式(2)相同。
4.如权利要求1所述的无模型控制方法,其特征在于,所述S3中:
S3-1:将采集到的老年人心血管生理参数数据集导入Q学习模型运行;
S3-2:智能体选择
Figure 980210DEST_PATH_IMAGE015
贪心策略进行决策;
S3-3:智能体采用如下的式子(3)进行Q值的更新:
Figure 583230DEST_PATH_IMAGE016
其中,
Figure 321641DEST_PATH_IMAGE017
是当前时刻,
Figure 250283DEST_PATH_IMAGE018
是学习率,表示的是更新部分的可信任程度;
Figure 838259DEST_PATH_IMAGE019
是未来的 Q 值在当前的衰减率,S是环境状态,A是智能体可以执行的动作,R是根据需求定义的奖励函数,
Figure 743505DEST_PATH_IMAGE020
则是智能体的策略集;
式中
Figure 100537DEST_PATH_IMAGE021
是当前状态执行行为策略后观测到的下一个状态,
Figure 967124DEST_PATH_IMAGE022
是得到的奖励,更新环境状态
Figure 245658DEST_PATH_IMAGE023
Figure 987218DEST_PATH_IMAGE024
S3-4:若Q表和学习次数阈值确定的学习过程收敛效果不好,可结合模型运行情况不断地调整参数
Figure 166134DEST_PATH_IMAGE018
Figure 702157DEST_PATH_IMAGE019
,使整个学习过程能够实现更好地收敛效果;
S3-5:重复上述步骤n次,直到学习得出累计奖励值R最大的最优策略集
Figure 31770DEST_PATH_IMAGE020
,即调控运行策略。
5.如权利要求1所述的无模型控制方法,其特征在于,所述S3中,Q学习模型的建模过程是根据目标问题,将连续的状态变量和动作变量离散化,使智能体通过不断地与环境进行交互,利用不同状态下采取对应动作得到的奖励值更新Q表,经过多次迭代掌握怎样得到最高奖励的方案即得到完成目标问题的最优策略集。
6.如权利要求1所述的无模型控制方法,其特征在于,所述S3中,Q学习的状态动作价值函数表示为:
Figure 45862DEST_PATH_IMAGE025
调整参数
Figure 735076DEST_PATH_IMAGE018
Figure 238738DEST_PATH_IMAGE019
,其中
Figure 967833DEST_PATH_IMAGE026
Figure 785616DEST_PATH_IMAGE027
,使整个学习过程能够正确地收敛;
将训练样本数据输入到Q学习模型中进行训练,迭代更新不同状态下的不同动作的奖惩值,直到得到最优的状态动作价值函数后停止,保存训练后的Q学习模型。
CN202210274212.3A 2022-03-21 2022-03-21 基于q学习的养老建筑室内热环境的无模型控制方法 Active CN114355767B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210274212.3A CN114355767B (zh) 2022-03-21 2022-03-21 基于q学习的养老建筑室内热环境的无模型控制方法
US17/876,165 US20230304689A1 (en) 2022-03-21 2022-07-28 Q-learning based model-free control method for indoor thermal environment of aged care building

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210274212.3A CN114355767B (zh) 2022-03-21 2022-03-21 基于q学习的养老建筑室内热环境的无模型控制方法

Publications (2)

Publication Number Publication Date
CN114355767A true CN114355767A (zh) 2022-04-15
CN114355767B CN114355767B (zh) 2022-06-24

Family

ID=81095231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210274212.3A Active CN114355767B (zh) 2022-03-21 2022-03-21 基于q学习的养老建筑室内热环境的无模型控制方法

Country Status (2)

Country Link
US (1) US20230304689A1 (zh)
CN (1) CN114355767B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116827685A (zh) * 2023-08-28 2023-09-29 成都乐超人科技有限公司 基于深度强化学习的微服务系统动态防御策略方法
CN116936050A (zh) * 2023-07-19 2023-10-24 青岛理工大学 一种养老设施声环境健康效益测度及优化方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104833063A (zh) * 2015-06-04 2015-08-12 安徽建筑大学 一种空调控制方法及系统
CN105843037A (zh) * 2016-04-11 2016-08-10 中国科学院自动化研究所 基于q学习的智能楼宇温度控制方法
CN106923801A (zh) * 2015-12-29 2017-07-07 财团法人车辆研究测试中心 车辆驾驶者生理状态监测方法
CN111141284A (zh) * 2019-12-28 2020-05-12 西安交通大学 智能建筑人员热舒适度及热环境管理系统和方法
CN111144793A (zh) * 2020-01-03 2020-05-12 南京邮电大学 基于多智能体深度强化学习的商业建筑hvac控制方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112540535A (zh) * 2020-11-13 2021-03-23 南京邮电大学 一种基于深度强化学习的办公建筑热舒适控制系统及方法
EP3885850A1 (en) * 2020-03-28 2021-09-29 Tata Consultancy Services Limited Multi-chiller scheduling using reinforcement learning with transfer learning for power consumption prediction
AU2021105951A4 (en) * 2021-08-19 2021-10-28 Shaofu Lin Method and System for Adjusting Indoor Environment Comfort Based on Deep Learning
CN114020079A (zh) * 2021-11-03 2022-02-08 北京邮电大学 一种室内空间温度和湿度调控方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104833063A (zh) * 2015-06-04 2015-08-12 安徽建筑大学 一种空调控制方法及系统
CN106923801A (zh) * 2015-12-29 2017-07-07 财团法人车辆研究测试中心 车辆驾驶者生理状态监测方法
CN105843037A (zh) * 2016-04-11 2016-08-10 中国科学院自动化研究所 基于q学习的智能楼宇温度控制方法
CN111141284A (zh) * 2019-12-28 2020-05-12 西安交通大学 智能建筑人员热舒适度及热环境管理系统和方法
CN111144793A (zh) * 2020-01-03 2020-05-12 南京邮电大学 基于多智能体深度强化学习的商业建筑hvac控制方法
EP3885850A1 (en) * 2020-03-28 2021-09-29 Tata Consultancy Services Limited Multi-chiller scheduling using reinforcement learning with transfer learning for power consumption prediction
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112540535A (zh) * 2020-11-13 2021-03-23 南京邮电大学 一种基于深度强化学习的办公建筑热舒适控制系统及方法
AU2021105951A4 (en) * 2021-08-19 2021-10-28 Shaofu Lin Method and System for Adjusting Indoor Environment Comfort Based on Deep Learning
CN114020079A (zh) * 2021-11-03 2022-02-08 北京邮电大学 一种室内空间温度和湿度调控方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙梅: "基于多元生理参数特征融合的人体热舒适性模型设计与实现", 《信息科技辑》 *
李威: "基于人体热感觉穿戴传感的公共建筑空调室温智能调控方法研究", 《信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116936050A (zh) * 2023-07-19 2023-10-24 青岛理工大学 一种养老设施声环境健康效益测度及优化方法
CN116827685A (zh) * 2023-08-28 2023-09-29 成都乐超人科技有限公司 基于深度强化学习的微服务系统动态防御策略方法
CN116827685B (zh) * 2023-08-28 2023-11-14 成都乐超人科技有限公司 基于深度强化学习的微服务系统动态防御策略方法

Also Published As

Publication number Publication date
CN114355767B (zh) 2022-06-24
US20230304689A1 (en) 2023-09-28

Similar Documents

Publication Publication Date Title
CN114355767B (zh) 基于q学习的养老建筑室内热环境的无模型控制方法
CN104490371B (zh) 一种基于人体生理参数的热舒适检测方法
CN114370698B (zh) 基于强化学习的室内热环境学习效率提升的优化控制方法
CN109099551A (zh) 一种空调器的控制方法、装置、存储介质及空调器
CN113112077B (zh) 基于多步预测深度强化学习算法的hvac控制系统
TW201715182A (zh) 智能節能環境調控系統及方法
WO2020010668A1 (zh) 基于睡眠大数据的人体健康评估方法及评估系统
CN113283156A (zh) 一种基于深度强化学习的地铁站空调系统节能控制方法
WO2020189529A1 (ja) 環境制御システム
CN114758748B (zh) 一种植发环境的智能化分析处理方法及系统
CN112032971A (zh) 一种基于心率监测的室内热环境调控方法
CN116729060A (zh) 一种基于ddpg的纯电动汽车乘员舱空调制冷控制方法
CN106403162A (zh) 一种局部热舒适控制方法、局部热舒适控制器及控制系统
CN112097378A (zh) 一种基于前馈型神经网络的空调舒适度调节方法
CN117275661A (zh) 一种基于深度强化学习的肺癌患者用药预测方法及装置
CN116294085A (zh) 一种数据中心空调系统运行方法
Li et al. Data-driven adaptive GM (1, 1) time series prediction model for thermal comfort
Bingxin et al. Experimental design and the GA-BP prediction of human thermal comfort index
CN116224870B (zh) 一种基于多网络融合和植物光合作用反馈的智慧种植环境控制系统及方法
CN112923530A (zh) 基于人体热感觉的智能温控方法及系统
JP7437061B2 (ja) 生育環境予測装置、生育環境制御システムおよび生育環境予測方法
Nian et al. Research on indoor environmental comfort based on complaints
CN111341435B (zh) 一种用于疾病诊断的用户IoT设备
Hunt et al. Feedback control of oxygen uptake during treadmill exercise
CN116696803A (zh) 一种多功能的节能风扇及其节能方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant