CN114370698B - 基于强化学习的室内热环境学习效率提升的优化控制方法 - Google Patents

基于强化学习的室内热环境学习效率提升的优化控制方法 Download PDF

Info

Publication number
CN114370698B
CN114370698B CN202210279251.2A CN202210279251A CN114370698B CN 114370698 B CN114370698 B CN 114370698B CN 202210279251 A CN202210279251 A CN 202210279251A CN 114370698 B CN114370698 B CN 114370698B
Authority
CN
China
Prior art keywords
indoor
learning
air conditioning
model
conditioning system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210279251.2A
Other languages
English (en)
Other versions
CN114370698A (zh
Inventor
李岩学
王子璇
李珊珊
徐阳
高伟俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Technology
Original Assignee
Qingdao University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Technology filed Critical Qingdao University of Technology
Priority to CN202210279251.2A priority Critical patent/CN114370698B/zh
Publication of CN114370698A publication Critical patent/CN114370698A/zh
Application granted granted Critical
Publication of CN114370698B publication Critical patent/CN114370698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/30Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
    • F24F11/46Improving electric energy efficiency or saving
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/89Arrangement or mounting of control or safety devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明公开一种基于强化学习的室内热环境学习效率提升的优化控制方法,属于建筑环境控制技术领域。该方法包括首先获取观测数据:包括获取室内外热环境和人体的相关参数;再搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、脑电波;最后利用获取的数据在建立的模型中进行循环运算,并引入DQN强化学习方法,基于神经网络训练控制空调体统的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量决策的优化过程,得到最优控制策略,即得到最优的控制方法。本发明能够营造高效学习室内热环境,同时实现暖通空调系统自动控制,降低系统能耗。

Description

基于强化学习的室内热环境学习效率提升的优化控制方法
技术领域
本发明属于建筑环境控制技术领域,特别是涉及一种基于强化学习的建筑室内热环境的优化控制方法。
背景技术
随着人类的活动加剧了气候变暖的进程,全球平均气温正在以前所未有的速度上升,中国在第75届联合国大会上提出将力争于2030年前实现碳达峰、2060年前实现碳中和的目标。据调查显示,目前建筑领域碳排放量每年约20亿吨,约占全国总碳排放量的40%。近年来,国内需求侧负荷结构正在发生巨大的变化,据统计,在夏季负荷高峰时期,国内空调负荷目前已占尖峰负荷的30%~40%,北京、上海等大型城市占比达到了50%左右,巨大的空调负荷已成为能源消费不断攀升的重要原因。所以,空调系统运行优化是建筑节能重要的组成部分。为实现系统高效运行,需对整个空调制热序列进行优化,然而,在实际建模过程中普遍存在以下局限性:(1)由于每个建筑的保温性能会有所差异,同时建筑热性能难以预测会估计,因此,难以应用基于模型的控制方法。(2)目前室内热舒适评价主要集中在热感觉投票指标上,即推荐一个满足舒适环境的室内温度设定范围。然而,年龄和学习状态对个体的热舒适感知有显著影响。
深度学习方法主要被用来解决对于事物准确感知和表达的相关问题,而强化学习方法主要解决最优策略的问题。基于深度强化学习的控制方法是一种数据驱动的控制方法,智能体通过不断地“试错”,利用环境的反馈信息来更新智能体的控制策略,寻找出最优控制策略,可以降低对先验知识的依赖。
强化学习的基本原理为智能体在环境反馈奖励或惩罚的刺激下持续学习,根据反馈不断调整策略,最终达成奖励最大化或实现特定目标。其中智能体(Agent)是进行不断学习和实施动作的控制器,智能体之外所有与其相互作用的部分被称为环境(Environment)。智能体在状态
Figure 139950DEST_PATH_IMAGE001
下,根据策略
Figure 932457DEST_PATH_IMAGE002
选择动作
Figure 321981DEST_PATH_IMAGE003
,环境将会基于智能体所做出的动作给出响应的奖励(Reward)
Figure 920452DEST_PATH_IMAGE004
,并转移到下一时刻新的状态
Figure 203666DEST_PATH_IMAGE005
。根据获得的奖励
Figure 101828DEST_PATH_IMAGE006
获得最优策略
Figure 306544DEST_PATH_IMAGE007
Figure 302182DEST_PATH_IMAGE008
Figure 908744DEST_PATH_IMAGE009
其中:
Figure 839790DEST_PATH_IMAGE010
为折扣率。
强化学习(原理如图1、5所示)的最终目的是通过最大化奖励值来获得最优策略,具有较强的决策能力,在越来越复杂的现实场景中,深度学习可以从原始大规模交互数据中提取高级特征,具有较强的感知能力,但缺乏一定的决策能力。
发明内容
本发明的目的在于提供一种基于强化学习的室内热环境学习效率提升的优化控制方法,以弥补现有技术的不足。
本发明的目标是满足室内热舒适性要求的前提下,降低空调系统的能耗的同时提升室内热环境中学生的学习效率。为了给强化学习的智能体提供一个精确的环境模型,以便在模拟中学习到更好的策略,且因空调系统设备众多,设备型号多样,使用传统的物理建模方法很难建立精确的系统模型。
深度强化学习(Deep Reinforcement Learning, DRL)将强化学习与深度学习结合起来,本发明将Q-learning算法与卷积神经网络相结合,在Q-learning方法当中,用Q-table存储有限的状态-动作Q值;而当面临高维连续的状态-动作空间时,会遇到维度灾难。所以选用DQN算法取代Q-learning算法,输出动作的Q值。
为达到上述目的,本发明是通过以下技术方案实现的:
一种基于强化学习的室内热环境学习效率提升的优化控制方法,该方法包括以下步骤:
S1:获取观测数据:包括获取室内外热环境和人体的相关参数;
S2:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、脑电波;
S3:利用S1获取的数据在S2建立的模型中进行循环运算,并引入DQN强化学习方法,基于神经网络训练控制空调体统的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量决策的优化过程,得到最优控制策略,即得到最优的控制方法。
进一步的,所述S1中,人体相关参数的获取为:使用热成像仪对学生的体表温度进行识别;根据个体体表温度、室内外温湿度、太阳辐射强度、脑电波确定温度阈值;根据脑电波和温度阈值的比较结果,判断学生的热舒适和学习效率状态;根据个体热舒适状态利用强化学习控制热环境设备的启停。
进一步的,所述S1中,室内外热环境数据:时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量,和室内温度。
进一步的,所述S2中,搭建神经网络模型:选用三层前馈全连接神经网络(一个输入层、一个隐含层、一个输出层)建立系统的输入输出模型;选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
进一步的,上述神经网络模型中,选择输入层参数,输出下一时刻的室内温度
Figure 531803DEST_PATH_IMAGE011
、空调系统耗电量
Figure 206498DEST_PATH_IMAGE012
和脑电波
Figure 667566DEST_PATH_IMAGE013
具体的,最终选择时刻信息
Figure 32164DEST_PATH_IMAGE014
,室外温度
Figure 945893DEST_PATH_IMAGE015
,室外相对湿度
Figure 565225DEST_PATH_IMAGE016
,太阳辐射强度
Figure 146379DEST_PATH_IMAGE017
,空调系统耗电量
Figure 278283DEST_PATH_IMAGE018
,室内温度
Figure 944887DEST_PATH_IMAGE019
,皮肤温度
Figure 961385DEST_PATH_IMAGE020
,前一分钟时段内脑电波
Figure 131466DEST_PATH_IMAGE021
的平均值,
Figure 837867DEST_PATH_IMAGE022
作为模型的输入层参数,t表示当前时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度
Figure 991767DEST_PATH_IMAGE011
、下一时刻空调系统耗电量
Figure 546377DEST_PATH_IMAGE023
和脑电波
Figure 102123DEST_PATH_IMAGE024
;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数。
神经网络参数建模的目的就是寻找合适的权值参数,使损失函数的值尽可能的小,选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
进一步的,所述S3中,将控制方法运行优化问题建模为马尔科夫决策过程。
具体包括:
(1)状态观测空间S设置为
Figure 123300DEST_PATH_IMAGE025
,可控制变量为空调制热量,动作空间A设置为
Figure 498917DEST_PATH_IMAGE026
,奖励函数R的设置为在室内热舒适区间内,在提高学生的学习效率的同时降低空调系统的能耗为优化目标,如式(1)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,
Figure 857218DEST_PATH_IMAGE027
为实时电;第二部分为控制时间步长内观测到的脑电
Figure 287978DEST_PATH_IMAGE028
波段平均值,影响系数为
Figure 198165DEST_PATH_IMAGE029
,理想范围为
Figure 608549DEST_PATH_IMAGE030
,在这个波段区间内大脑的中枢神经系统最为活跃,学习效率较高,若超出这个范围则给与智能体一定的惩罚;第三部分
Figure 36119DEST_PATH_IMAGE031
Figure 176245DEST_PATH_IMAGE032
为室内温度下限,
Figure 660928DEST_PATH_IMAGE033
为室内温度上限;
Figure 542297DEST_PATH_IMAGE034
为惩罚系数,体现了超越温度范围相对系统能源成本的影响;
Figure 180083DEST_PATH_IMAGE035
Figure 705873DEST_PATH_IMAGE036
Figure 98808DEST_PATH_IMAGE037
Figure 201893DEST_PATH_IMAGE038
Figure 374861DEST_PATH_IMAGE039
Figure 614213DEST_PATH_IMAGE040
(2)定义规则缩减探索空间
为确保空调系统运行满足舒适度约束,根据2012《民用建筑供暖通风与空气调节设计规范》,冬季室内温度应保持
Figure 912470DEST_PATH_IMAGE041
在之间,即
Figure 502851DEST_PATH_IMAGE042
为18℃,
Figure 810336DEST_PATH_IMAGE043
为24℃。在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚。
(3)运行阶段
假设迭代轮数为M,采样的序列最大长度为T,学习率为
Figure 904194DEST_PATH_IMAGE044
,衰减系数为
Figure 42527DEST_PATH_IMAGE045
,探索系数为
Figure 854625DEST_PATH_IMAGE046
,状态空间为S,动作空间为A,回放记忆(Replay Memory)为D,容量为n,batch的容量为m
DQN算法流程图如图4所示。
第一步:初始化回放记忆(Replay Memory)D,可容纳的数据量为n
第二步:初始化Q网络,随机生成权重
Figure 231380DEST_PATH_IMAGE047
第三步:初始化target Q网络,权重为
Figure 320689DEST_PATH_IMAGE048
第四步:循环遍历事件episode=1,2,…,M
第五步:初始化事件的状态
Figure 226328DEST_PATH_IMAGE049
,预处理状态对应的特征集
Figure 260144DEST_PATH_IMAGE050
输入,最终选择时刻信息
Figure 768485DEST_PATH_IMAGE051
,室外温度
Figure 571356DEST_PATH_IMAGE052
,室外相对湿度
Figure 379388DEST_PATH_IMAGE053
,太阳辐射强度
Figure 634920DEST_PATH_IMAGE054
,空调系统耗电量
Figure 822319DEST_PATH_IMAGE055
,室内温度
Figure 745275DEST_PATH_IMAGE056
,皮肤温度
Figure 727138DEST_PATH_IMAGE057
,脑电波
Figure 1124DEST_PATH_IMAGE058
Figure 992214DEST_PATH_IMAGE059
Figure 35256DEST_PATH_IMAGE060
第六步:循环遍历每个事件的每一步,episode=1,2,…,T
第七步:利用
Figure 185090DEST_PATH_IMAGE061
策略生成动作
Figure 946373DEST_PATH_IMAGE062
,即以
Figure 882099DEST_PATH_IMAGE063
的概率随机选择一个动作;
第八步:如果随机数大于
Figure 514069DEST_PATH_IMAGE063
,则选择当前值函数最大的那个动作;
第九步:执行动作
Figure 103313DEST_PATH_IMAGE064
,观测环境反馈的奖励
Figure 86313DEST_PATH_IMAGE065
以及下一步状态
Figure 419205DEST_PATH_IMAGE066
第十步:设置
Figure 764736DEST_PATH_IMAGE067
,设置
Figure 787531DEST_PATH_IMAGE064
,预处理状态对应的特征集
Figure 992247DEST_PATH_IMAGE068
输入,
Figure 863251DEST_PATH_IMAGE069
第十一步,将转换结果
Figure 204234DEST_PATH_IMAGE070
储存在回放记忆D中;
第十二步,从回放记忆D中均匀随机采样m个训练样本,用
Figure 135281DEST_PATH_IMAGE071
来表示,其中
Figure 561714DEST_PATH_IMAGE072
第十三步,根据target Q网络参数值
Figure 236409DEST_PATH_IMAGE073
计算优化目标动作值
Figure 697477DEST_PATH_IMAGE074
Figure 924059DEST_PATH_IMAGE075
;其中
Figure 834859DEST_PATH_IMAGE076
是折扣系数,取值范围[0,1];
第十四步:计算损失函数,使用参数为
Figure 313245DEST_PATH_IMAGE077
的值函数
Figure 894399DEST_PATH_IMAGE078
,迭代t次后的损失函数如下如式(5)所示,其中:
Figure 167248DEST_PATH_IMAGE074
表示值函数的优化目标。利用梯度下降算法进行反向传播更新神经网络参数
Figure 833853DEST_PATH_IMAGE077
,如式(6)所示;
Figure 850351DEST_PATH_IMAGE079
Figure 286011DEST_PATH_IMAGE080
Figure 729762DEST_PATH_IMAGE081
Figure 904171DEST_PATH_IMAGE082
第十五步:更新动作价值函数逼近的网络参数
Figure 865304DEST_PATH_IMAGE083
第十六步:重复步骤第七步至第十五步T次,每隔固定步数C,将估计的动作值网络参数复制给目标动作值网络参数,
Figure 421051DEST_PATH_IMAGE084
,更新目标动作值网络参数。
第十七步:重复以上步骤M次,直到学习出使得累计奖励值R最大的策略
Figure 301282DEST_PATH_IMAGE085
与现有技术相比,本发明的优点和有益效果是:
本发明设计一种基于深度强化优化控制方法具有重要意义,可以形成一套完整的感知决策体系,有效提高学生的学习效率。
附图说明
图1是强化学习基本原理框架图。
图2是实施例中实时监测记录界面图。
图3是神经网络模型结构图。
图4是DQN算法流程图。
图5是本发明原理模型示意图。
具体实施方式
下面结合实施例和附图对本发明所述的技术方案作进一步地描述说明。
实施例1
本实施例优化控制策略的目标是满足室内热舒适性要求的前提下,降低空调系统的能耗的同时提升室内热环境中学生的学习效率。为了给强化学习的智能体提供一个精确的环境模型,以便在模拟中学习到更好的策略,且因空调系统设备众多,设备型号多样,使用传统的物理建模方法很难建立精确的系统模型。
本实施例选用三层前馈全连接神经网络(一个输入层、一个隐含层、一个输出层)建立系统的输入输出模型。最终选择时刻信息
Figure 942479DEST_PATH_IMAGE086
,室外温度
Figure 566358DEST_PATH_IMAGE087
,室外相对湿度
Figure 711032DEST_PATH_IMAGE088
,太阳辐射强度
Figure 493656DEST_PATH_IMAGE089
,空调系统耗电量
Figure 622149DEST_PATH_IMAGE090
,室内温度
Figure 784140DEST_PATH_IMAGE091
,皮肤温度
Figure 48899DEST_PATH_IMAGE092
,前一分钟时段内脑电波
Figure 411878DEST_PATH_IMAGE093
的平均值,
Figure 762088DEST_PATH_IMAGE094
作为模型的输入层参数,t表示当前时刻。其中,脑电参数可进行实时监测记录,记录页面如图2所示。隐含层节点数为10,模型的输出层为下一时刻的室内温度
Figure 462191DEST_PATH_IMAGE095
、下一时刻空调系统耗电量
Figure 578527DEST_PATH_IMAGE096
和脑电波
Figure 971462DEST_PATH_IMAGE097
;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数。
神经网络参数建模的目的就是寻找合适的权值参数,使损失函数的值尽可能的小,所以选择均方差(MSE)作为神经网络建模的损失函数。优化器选择随机梯度下降法(Adam)来寻找模型最优解。模型结构如图3所示。
将控制系统运行优化问题建模为马尔科夫决策过程。
状态观测空间S设置为
Figure 808968DEST_PATH_IMAGE098
,可控制变量为空调制热量,动作空间A设置为
Figure 312762DEST_PATH_IMAGE099
,奖励函数R的设置为在室内热舒适区间内,在提高学生的学习效率的同时降低空调系统的能耗为优化目标,如式(1)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,
Figure 286534DEST_PATH_IMAGE100
为实时电;第二部分为控制时间步长内观测到的脑电
Figure 115950DEST_PATH_IMAGE101
波段平均值,影响系数为
Figure 440752DEST_PATH_IMAGE102
,理想范围为
Figure 482657DEST_PATH_IMAGE103
,在这个波段区间内大脑的中枢神经系统最为活跃,学习效率较高,若超出这个范围则给与智能体一定的惩罚;第三部分
Figure 573585DEST_PATH_IMAGE104
Figure 573902DEST_PATH_IMAGE105
为室内温度下限,
Figure 854842DEST_PATH_IMAGE106
为室内温度上限;
Figure 966018DEST_PATH_IMAGE107
为惩罚系数,体现了超越温度范围相对系统能源成本的影响。
Figure 179961DEST_PATH_IMAGE108
Figure 492125DEST_PATH_IMAGE036
Figure 791519DEST_PATH_IMAGE109
Figure 437877DEST_PATH_IMAGE038
Figure 771906DEST_PATH_IMAGE110
Figure 848447DEST_PATH_IMAGE040
定义规则缩减探索空间
为确保空调系统运行满足舒适度约束,根据2012《民用建筑供暖通风与空气调节设计规范》,冬季室内温度应保持
Figure 103979DEST_PATH_IMAGE111
在之间,即
Figure 291378DEST_PATH_IMAGE112
为18℃,
Figure 948755DEST_PATH_IMAGE113
为24℃。在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚。
运行阶段
假设迭代轮数为M,采样的序列最大长度为T,学习率为
Figure 196197DEST_PATH_IMAGE114
,衰减系数为
Figure 939025DEST_PATH_IMAGE045
,探索系数为
Figure 927185DEST_PATH_IMAGE115
,状态空间为S,动作空间为A,回放记忆(Replay Memory)为D,容量为n,batch的容量为m
DQN算法流程图如图4所示。
第一步:初始化回放记忆(Replay Memory)D,可容纳的数据量为n
第二步:初始化Q网络,随机生成权重
Figure 563703DEST_PATH_IMAGE077
第三步:初始化target Q网络,权重为
Figure 982046DEST_PATH_IMAGE116
第四步:循环遍历事件episode=1,2,…,M
第五步:初始化事件的状态
Figure 946590DEST_PATH_IMAGE049
,预处理状态对应的特征集
Figure 741371DEST_PATH_IMAGE117
输入,最终选择时刻信息
Figure 107762DEST_PATH_IMAGE051
,室外温度
Figure 431427DEST_PATH_IMAGE118
,室外相对湿度
Figure 414426DEST_PATH_IMAGE053
,太阳辐射强度
Figure 606373DEST_PATH_IMAGE119
,空调系统耗电量
Figure 92849DEST_PATH_IMAGE120
,室内温度
Figure 115644DEST_PATH_IMAGE121
,皮肤温度
Figure 54781DEST_PATH_IMAGE057
,脑电波
Figure 660206DEST_PATH_IMAGE058
Figure 266768DEST_PATH_IMAGE122
Figure 197815DEST_PATH_IMAGE060
第六步:循环遍历每个事件的每一步,episode=1,2,…,T
第七步:利用
Figure 624248DEST_PATH_IMAGE061
策略生成动作
Figure 564523DEST_PATH_IMAGE123
,即以
Figure 884645DEST_PATH_IMAGE063
的概率随机选择一个动作;
第八步:如果随机数大于
Figure 986594DEST_PATH_IMAGE063
,则选择当前值函数最大的那个动作;
第九步:执行动作
Figure 897393DEST_PATH_IMAGE064
,观测环境反馈的奖励
Figure 375779DEST_PATH_IMAGE065
以及下一步状态
Figure 425775DEST_PATH_IMAGE124
第十步:设置
Figure 964203DEST_PATH_IMAGE067
,设置
Figure 365229DEST_PATH_IMAGE064
,预处理状态对应的特征集
Figure 381727DEST_PATH_IMAGE068
输入,
Figure 817387DEST_PATH_IMAGE125
第十一步,将转换结果
Figure 526717DEST_PATH_IMAGE126
储存在回放记忆D中;
第十二步,从回放记忆D中均匀随机采样m个训练样本,用
Figure 701126DEST_PATH_IMAGE071
来表示,其中
Figure 786893DEST_PATH_IMAGE127
第十三步,根据target Q网络参数值
Figure 483585DEST_PATH_IMAGE128
计算优化目标动作值
Figure 98237DEST_PATH_IMAGE074
Figure 473855DEST_PATH_IMAGE129
;其中
Figure 956789DEST_PATH_IMAGE076
是折扣系数,取值范围[0,1];
第十四步:计算损失函数,使用参数为
Figure 242408DEST_PATH_IMAGE077
的值函数
Figure 152595DEST_PATH_IMAGE078
,迭代t次后的损失函数如下如式(5)所示,其中:
Figure 12579DEST_PATH_IMAGE074
表示值函数的优化目标。利用梯度下降算法进行反向传播更新神经网络参数
Figure 174570DEST_PATH_IMAGE077
,如式(6)所示。
Figure 439329DEST_PATH_IMAGE130
Figure 271150DEST_PATH_IMAGE080
Figure 27885DEST_PATH_IMAGE131
Figure 256216DEST_PATH_IMAGE082
第十五步:更新动作价值函数逼近的网络参数
Figure 375482DEST_PATH_IMAGE132
;
第十六步:重复步骤第七步至第十五步T次,每隔固定步数C,将估计的动作值网络参数复制给目标动作值网络参数,
Figure 174942DEST_PATH_IMAGE133
,更新目标动作值网络参数。
第十七步:重复以上步骤M次,直到学习出使得累计奖励值R最大的策略
Figure 215710DEST_PATH_IMAGE085
。通过使用本实施例自动调节暖通空调设备的输入功率;能够营造高效的学习室内热环境,提高学生的学习效率,同时能有效的降低暖通空调系统的能耗。
在上述实施例的基础上,本发明继续对其中涉及到的技术特征及该技术特征在本发明中所起到的功能、作用进行详细的描述,以帮助本领域的技术人员充分理解本发明的技术方案并且予以重现。
最后,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (1)

1.一种基于强化学习的室内热环境学习效率提升的优化控制方法,其特征在于,该方法包括以下步骤:
S1:获取观测数据:包括获取室内外热环境和人体的相关参数;室内外热环境数据:时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量,和室内温度;
S2:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、脑电波;
S3:利用S1获取的数据在S2建立的模型中进行循环运算,并引入DQN强化学习方法,基于神经网络训练控制空调体统的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量决策的优化过程,得到最优控制策略,即得到最优的控制方法;
所述S2中,搭建神经网络模型:选用三层前馈全连接神经网络:一个输入层、一个隐含层、一个输出层,建立系统的输入输出模型;选择均方差作为神经网络建模的损失函数;优化器选择随机梯度下降法来寻找模型最优解;最终选择时刻信息
Figure DEST_PATH_IMAGE001
,室外温度
Figure DEST_PATH_IMAGE002
,室外相对湿度
Figure DEST_PATH_IMAGE003
,太阳辐射强度
Figure DEST_PATH_IMAGE004
,空调系统耗电量
Figure DEST_PATH_IMAGE005
,室内温度
Figure DEST_PATH_IMAGE006
,皮肤温度
Figure DEST_PATH_IMAGE007
,前一分钟时段内脑电波
Figure DEST_PATH_IMAGE008
的平均值,
Figure DEST_PATH_IMAGE009
作为模型的输入层参数,t表示当前时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度
Figure DEST_PATH_IMAGE010
、下一时刻空调系统耗电量
Figure DEST_PATH_IMAGE011
和脑电波
Figure DEST_PATH_IMAGE012
所述S3中,将控制方法运行优化问题建模为马尔科夫决策过程;奖励函数R的设置为在室内热舒适区间内,在提高学生的学习效率的同时降低空调系统的能耗为优化目标,如式(2)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,
Figure DEST_PATH_IMAGE013
为实时电价;第二部分为控制时间步长内观测到的脑电
Figure DEST_PATH_IMAGE014
波段平均值,影响系数为
Figure DEST_PATH_IMAGE015
,理想范围为
Figure DEST_PATH_IMAGE016
;第三部分
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
为室内温度下限,
Figure DEST_PATH_IMAGE019
为室内温度上限;
Figure DEST_PATH_IMAGE020
为惩罚系数,体现了超越温度范围相对系统能源成本的影响;
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
CN202210279251.2A 2022-03-22 2022-03-22 基于强化学习的室内热环境学习效率提升的优化控制方法 Active CN114370698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210279251.2A CN114370698B (zh) 2022-03-22 2022-03-22 基于强化学习的室内热环境学习效率提升的优化控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279251.2A CN114370698B (zh) 2022-03-22 2022-03-22 基于强化学习的室内热环境学习效率提升的优化控制方法

Publications (2)

Publication Number Publication Date
CN114370698A CN114370698A (zh) 2022-04-19
CN114370698B true CN114370698B (zh) 2022-06-24

Family

ID=81146571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279251.2A Active CN114370698B (zh) 2022-03-22 2022-03-22 基于强化学习的室内热环境学习效率提升的优化控制方法

Country Status (1)

Country Link
CN (1) CN114370698B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907191B (zh) * 2022-12-08 2023-07-14 山东建筑大学 一种自适应建筑光伏表皮模型预测控制方法
CN115930384B (zh) * 2023-03-13 2023-06-06 中国海洋大学 利用强化学习和热成像的智能空调控制设备和控制方法
CN116734424B (zh) * 2023-06-13 2023-12-22 青岛理工大学 基于rc模型和深度强化学习的室内热环境的控制方法
CN117151928A (zh) * 2023-09-05 2023-12-01 广州大学 结合强化学习的节电计算方法及装置
CN117524422B (zh) * 2024-01-08 2024-03-26 青岛理工大学 基于室内绿植改善人体应激恢复性的评估系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4784902B2 (ja) * 1999-08-14 2011-10-05 義隆 平野 脳波で制御される空気調和装置
CN109747382A (zh) * 2019-01-28 2019-05-14 浙江大学 基于脑电信号分析的车舱环境智能控制系统及控制方法
CN110953681B (zh) * 2019-12-10 2020-11-27 珠海格力电器股份有限公司 一种控制空调的方法、装置及存储介质
CN111144793B (zh) * 2020-01-03 2022-06-14 南京邮电大学 基于多智能体深度强化学习的商业建筑hvac控制方法
CN112923525A (zh) * 2021-02-26 2021-06-08 深圳市励科机电科技工程有限公司 机器学习型舒适节能空调智能控制方法
CN113598789A (zh) * 2021-06-21 2021-11-05 天津大学 一种基于脑电信号的跨个体热舒适判别方法
CN113719975B (zh) * 2021-08-03 2023-04-07 南京邮电大学 人体热舒适实时感知和室内环境智能调控方法及系统

Also Published As

Publication number Publication date
CN114370698A (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN114370698B (zh) 基于强化学习的室内热环境学习效率提升的优化控制方法
CN113112077B (zh) 基于多步预测深度强化学习算法的hvac控制系统
CN110856134B (zh) 一种基于无人机的大规模无线传感器网络数据收集方法
CN111144793B (zh) 基于多智能体深度强化学习的商业建筑hvac控制方法
CN110705743B (zh) 一种基于长短期记忆神经网络的新能源消纳电量预测方法
CN110458443A (zh) 一种基于深度强化学习的智慧家庭能量管理方法及系统
CN102589092B (zh) 基于新型模糊控制器的室内环境热舒适度控制方法
CN113572157B (zh) 一种基于近端策略优化的用户实时自治能量管理优化方法
CN112465385B (zh) 一种应用智能电表数据的需求响应潜力分析方法
CN115220351B (zh) 一种基于云边端的建筑空调系统智能节能优化控制方法
CN114811713B (zh) 基于混合深度学习的二级网户间均衡供热调控方法
CN116729060A (zh) 一种基于ddpg的纯电动汽车乘员舱空调制冷控制方法
CN113361744A (zh) 一种基于lstm算法的室内温度预测方法
CN113887141A (zh) 一种基于联邦学习的微电网群运行策略进化方法
CN116045443A (zh) 基于室内温度最优化控制的建筑空调能耗预测方法
CN115840987A (zh) 一种基于深度强化学习的混动汽车热管理策略生成方法
CN108303898B (zh) 新型太阳能-空气能耦合冷热联供系统的智能调度方法
CN117172499A (zh) 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质
CN116415713A (zh) 一种基于e+和人工智能的建筑能耗预测方法
CN114909706B (zh) 一种基于强化学习算法和压差控制的二级网平衡调控方法
CN113435042B (zh) 一种建筑空调系统需求响应的强化学习建模方法
Weng et al. RNN-based forecasting of indoor temperature in a naturally ventilated residential building
CN114200839B (zh) 一种耦合环境行为动态监测的办公建筑能耗智能控制模型
CN115169839A (zh) 一种基于数据-物理-知识联合驱动的供暖负荷调度方法
CN115759458A (zh) 基于综合能源数据处理和多任务深度学习的负荷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant