CN114370698B - 基于强化学习的室内热环境学习效率提升的优化控制方法 - Google Patents
基于强化学习的室内热环境学习效率提升的优化控制方法 Download PDFInfo
- Publication number
- CN114370698B CN114370698B CN202210279251.2A CN202210279251A CN114370698B CN 114370698 B CN114370698 B CN 114370698B CN 202210279251 A CN202210279251 A CN 202210279251A CN 114370698 B CN114370698 B CN 114370698B
- Authority
- CN
- China
- Prior art keywords
- indoor
- learning
- air conditioning
- model
- conditioning system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
- F24F11/63—Electronic processing
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/30—Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
- F24F11/46—Improving electric energy efficiency or saving
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/89—Arrangement or mounting of control or safety devices
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Mechanical Engineering (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Air Conditioning Control Device (AREA)
Abstract
本发明公开一种基于强化学习的室内热环境学习效率提升的优化控制方法,属于建筑环境控制技术领域。该方法包括首先获取观测数据:包括获取室内外热环境和人体的相关参数;再搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、脑电波;最后利用获取的数据在建立的模型中进行循环运算,并引入DQN强化学习方法,基于神经网络训练控制空调体统的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量决策的优化过程,得到最优控制策略,即得到最优的控制方法。本发明能够营造高效学习室内热环境,同时实现暖通空调系统自动控制,降低系统能耗。
Description
技术领域
本发明属于建筑环境控制技术领域,特别是涉及一种基于强化学习的建筑室内热环境的优化控制方法。
背景技术
随着人类的活动加剧了气候变暖的进程,全球平均气温正在以前所未有的速度上升,中国在第75届联合国大会上提出将力争于2030年前实现碳达峰、2060年前实现碳中和的目标。据调查显示,目前建筑领域碳排放量每年约20亿吨,约占全国总碳排放量的40%。近年来,国内需求侧负荷结构正在发生巨大的变化,据统计,在夏季负荷高峰时期,国内空调负荷目前已占尖峰负荷的30%~40%,北京、上海等大型城市占比达到了50%左右,巨大的空调负荷已成为能源消费不断攀升的重要原因。所以,空调系统运行优化是建筑节能重要的组成部分。为实现系统高效运行,需对整个空调制热序列进行优化,然而,在实际建模过程中普遍存在以下局限性:(1)由于每个建筑的保温性能会有所差异,同时建筑热性能难以预测会估计,因此,难以应用基于模型的控制方法。(2)目前室内热舒适评价主要集中在热感觉投票指标上,即推荐一个满足舒适环境的室内温度设定范围。然而,年龄和学习状态对个体的热舒适感知有显著影响。
深度学习方法主要被用来解决对于事物准确感知和表达的相关问题,而强化学习方法主要解决最优策略的问题。基于深度强化学习的控制方法是一种数据驱动的控制方法,智能体通过不断地“试错”,利用环境的反馈信息来更新智能体的控制策略,寻找出最优控制策略,可以降低对先验知识的依赖。
强化学习的基本原理为智能体在环境反馈奖励或惩罚的刺激下持续学习,根据反馈不断调整策略,最终达成奖励最大化或实现特定目标。其中智能体(Agent)是进行不断学习和实施动作的控制器,智能体之外所有与其相互作用的部分被称为环境(Environment)。智能体在状态下,根据策略选择动作,环境将会基于智能体所做出的动作给出响应的奖励(Reward),并转移到下一时刻新的状态。根据获得的奖励获得最优策略。
强化学习(原理如图1、5所示)的最终目的是通过最大化奖励值来获得最优策略,具有较强的决策能力,在越来越复杂的现实场景中,深度学习可以从原始大规模交互数据中提取高级特征,具有较强的感知能力,但缺乏一定的决策能力。
发明内容
本发明的目的在于提供一种基于强化学习的室内热环境学习效率提升的优化控制方法,以弥补现有技术的不足。
本发明的目标是满足室内热舒适性要求的前提下,降低空调系统的能耗的同时提升室内热环境中学生的学习效率。为了给强化学习的智能体提供一个精确的环境模型,以便在模拟中学习到更好的策略,且因空调系统设备众多,设备型号多样,使用传统的物理建模方法很难建立精确的系统模型。
深度强化学习(Deep Reinforcement Learning, DRL)将强化学习与深度学习结合起来,本发明将Q-learning算法与卷积神经网络相结合,在Q-learning方法当中,用Q-table存储有限的状态-动作Q值;而当面临高维连续的状态-动作空间时,会遇到维度灾难。所以选用DQN算法取代Q-learning算法,输出动作的Q值。
为达到上述目的,本发明是通过以下技术方案实现的:
一种基于强化学习的室内热环境学习效率提升的优化控制方法,该方法包括以下步骤:
S1:获取观测数据:包括获取室内外热环境和人体的相关参数;
S2:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、脑电波;
S3:利用S1获取的数据在S2建立的模型中进行循环运算,并引入DQN强化学习方法,基于神经网络训练控制空调体统的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量决策的优化过程,得到最优控制策略,即得到最优的控制方法。
进一步的,所述S1中,人体相关参数的获取为:使用热成像仪对学生的体表温度进行识别;根据个体体表温度、室内外温湿度、太阳辐射强度、脑电波确定温度阈值;根据脑电波和温度阈值的比较结果,判断学生的热舒适和学习效率状态;根据个体热舒适状态利用强化学习控制热环境设备的启停。
进一步的,所述S1中,室内外热环境数据:时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量,和室内温度。
进一步的,所述S2中,搭建神经网络模型:选用三层前馈全连接神经网络(一个输入层、一个隐含层、一个输出层)建立系统的输入输出模型;选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
具体的,最终选择时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量,室内温度,皮肤温度,前一分钟时段内脑电波的平均值,作为模型的输入层参数,t表示当前时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度、下一时刻空调系统耗电量和脑电波;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数。
神经网络参数建模的目的就是寻找合适的权值参数,使损失函数的值尽可能的小,选择均方差(MSE)作为神经网络建模的损失函数;优化器选择随机梯度下降法(Adam)来寻找模型最优解。
进一步的,所述S3中,将控制方法运行优化问题建模为马尔科夫决策过程。
具体包括:
(1)状态观测空间S设置为,可控制变量为空调制热量,动作空间A设置为,奖励函数R的设置为在室内热舒适区间内,在提高学生的学习效率的同时降低空调系统的能耗为优化目标,如式(1)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,为实时电;第二部分为控制时间步长内观测到的脑电波段平均值,影响系数为,理想范围为,在这个波段区间内大脑的中枢神经系统最为活跃,学习效率较高,若超出这个范围则给与智能体一定的惩罚;第三部分,为室内温度下限,为室内温度上限;为惩罚系数,体现了超越温度范围相对系统能源成本的影响;
(2)定义规则缩减探索空间
为确保空调系统运行满足舒适度约束,根据2012《民用建筑供暖通风与空气调节设计规范》,冬季室内温度应保持在之间,即为18℃,为24℃。在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚。
(3)运行阶段
DQN算法流程图如图4所示。
第一步:初始化回放记忆(Replay Memory)D,可容纳的数据量为n。
第四步:循环遍历事件episode=1,2,…,M
第六步:循环遍历每个事件的每一步,episode=1,2,…,T;
与现有技术相比,本发明的优点和有益效果是:
本发明设计一种基于深度强化优化控制方法具有重要意义,可以形成一套完整的感知决策体系,有效提高学生的学习效率。
附图说明
图1是强化学习基本原理框架图。
图2是实施例中实时监测记录界面图。
图3是神经网络模型结构图。
图4是DQN算法流程图。
图5是本发明原理模型示意图。
具体实施方式
下面结合实施例和附图对本发明所述的技术方案作进一步地描述说明。
实施例1
本实施例优化控制策略的目标是满足室内热舒适性要求的前提下,降低空调系统的能耗的同时提升室内热环境中学生的学习效率。为了给强化学习的智能体提供一个精确的环境模型,以便在模拟中学习到更好的策略,且因空调系统设备众多,设备型号多样,使用传统的物理建模方法很难建立精确的系统模型。
本实施例选用三层前馈全连接神经网络(一个输入层、一个隐含层、一个输出层)建立系统的输入输出模型。最终选择时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量,室内温度,皮肤温度,前一分钟时段内脑电波的平均值,作为模型的输入层参数,t表示当前时刻。其中,脑电参数可进行实时监测记录,记录页面如图2所示。隐含层节点数为10,模型的输出层为下一时刻的室内温度、下一时刻空调系统耗电量和脑电波;隐含层选择Relu函数作为激活函数,输出层选择Sigmoid函数。
神经网络参数建模的目的就是寻找合适的权值参数,使损失函数的值尽可能的小,所以选择均方差(MSE)作为神经网络建模的损失函数。优化器选择随机梯度下降法(Adam)来寻找模型最优解。模型结构如图3所示。
将控制系统运行优化问题建模为马尔科夫决策过程。
状态观测空间S设置为,可控制变量为空调制热量,动作空间A设置为,奖励函数R的设置为在室内热舒适区间内,在提高学生的学习效率的同时降低空调系统的能耗为优化目标,如式(1)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,为实时电;第二部分为控制时间步长内观测到的脑电波段平均值,影响系数为,理想范围为,在这个波段区间内大脑的中枢神经系统最为活跃,学习效率较高,若超出这个范围则给与智能体一定的惩罚;第三部分,为室内温度下限,为室内温度上限;为惩罚系数,体现了超越温度范围相对系统能源成本的影响。
定义规则缩减探索空间
为确保空调系统运行满足舒适度约束,根据2012《民用建筑供暖通风与空气调节设计规范》,冬季室内温度应保持在之间,即为18℃,为24℃。在满足室内热舒适温度区间时,智能体惩罚函数值为0,否则将对智能体进行惩罚。
运行阶段
DQN算法流程图如图4所示。
第一步:初始化回放记忆(Replay Memory)D,可容纳的数据量为n。
第四步:循环遍历事件episode=1,2,…,M
第六步:循环遍历每个事件的每一步,episode=1,2,…,T;
第十七步:重复以上步骤M次,直到学习出使得累计奖励值R最大的策略。通过使用本实施例自动调节暖通空调设备的输入功率;能够营造高效的学习室内热环境,提高学生的学习效率,同时能有效的降低暖通空调系统的能耗。
在上述实施例的基础上,本发明继续对其中涉及到的技术特征及该技术特征在本发明中所起到的功能、作用进行详细的描述,以帮助本领域的技术人员充分理解本发明的技术方案并且予以重现。
最后,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (1)
1.一种基于强化学习的室内热环境学习效率提升的优化控制方法,其特征在于,该方法包括以下步骤:
S1:获取观测数据:包括获取室内外热环境和人体的相关参数;室内外热环境数据:时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量,和室内温度;
S2:搭建神经网络模型,使用该模型迭代预测下一时刻的室内温度值、空调耗电量、脑电波;
S3:利用S1获取的数据在S2建立的模型中进行循环运算,并引入DQN强化学习方法,基于神经网络训练控制空调体统的智能体,通过对当前状态值的观测以及得到的奖励,自动学习空调系统控制制热量决策的优化过程,得到最优控制策略,即得到最优的控制方法;
所述S2中,搭建神经网络模型:选用三层前馈全连接神经网络:一个输入层、一个隐含层、一个输出层,建立系统的输入输出模型;选择均方差作为神经网络建模的损失函数;优化器选择随机梯度下降法来寻找模型最优解;最终选择时刻信息,室外温度,室外相对湿度,太阳辐射强度,空调系统耗电量,室内温度,皮肤温度,前一分钟时段内脑电波的平均值,作为模型的输入层参数,t表示当前时刻,隐含层节点数为10,模型的输出层为下一时刻的室内温度、下一时刻空调系统耗电量和脑电波;
所述S3中,将控制方法运行优化问题建模为马尔科夫决策过程;奖励函数R的设置为在室内热舒适区间内,在提高学生的学习效率的同时降低空调系统的能耗为优化目标,如式(2)所示,由三部分组成,第一部分,P为控制时间步长内空调系统的能耗,为实时电价;第二部分为控制时间步长内观测到的脑电波段平均值,影响系数为,理想范围为;第三部分,为室内温度下限,为室内温度上限;为惩罚系数,体现了超越温度范围相对系统能源成本的影响;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210279251.2A CN114370698B (zh) | 2022-03-22 | 2022-03-22 | 基于强化学习的室内热环境学习效率提升的优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210279251.2A CN114370698B (zh) | 2022-03-22 | 2022-03-22 | 基于强化学习的室内热环境学习效率提升的优化控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114370698A CN114370698A (zh) | 2022-04-19 |
CN114370698B true CN114370698B (zh) | 2022-06-24 |
Family
ID=81146571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210279251.2A Active CN114370698B (zh) | 2022-03-22 | 2022-03-22 | 基于强化学习的室内热环境学习效率提升的优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114370698B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115907191B (zh) * | 2022-12-08 | 2023-07-14 | 山东建筑大学 | 一种自适应建筑光伏表皮模型预测控制方法 |
CN115930384B (zh) * | 2023-03-13 | 2023-06-06 | 中国海洋大学 | 利用强化学习和热成像的智能空调控制设备和控制方法 |
CN116734424B (zh) * | 2023-06-13 | 2023-12-22 | 青岛理工大学 | 基于rc模型和深度强化学习的室内热环境的控制方法 |
CN117151928A (zh) * | 2023-09-05 | 2023-12-01 | 广州大学 | 结合强化学习的节电计算方法及装置 |
CN117524422B (zh) * | 2024-01-08 | 2024-03-26 | 青岛理工大学 | 基于室内绿植改善人体应激恢复性的评估系统及方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4784902B2 (ja) * | 1999-08-14 | 2011-10-05 | 義隆 平野 | 脳波で制御される空気調和装置 |
CN109747382A (zh) * | 2019-01-28 | 2019-05-14 | 浙江大学 | 基于脑电信号分析的车舱环境智能控制系统及控制方法 |
CN110953681B (zh) * | 2019-12-10 | 2020-11-27 | 珠海格力电器股份有限公司 | 一种控制空调的方法、装置及存储介质 |
CN111144793B (zh) * | 2020-01-03 | 2022-06-14 | 南京邮电大学 | 基于多智能体深度强化学习的商业建筑hvac控制方法 |
CN112923525A (zh) * | 2021-02-26 | 2021-06-08 | 深圳市励科机电科技工程有限公司 | 机器学习型舒适节能空调智能控制方法 |
CN113598789A (zh) * | 2021-06-21 | 2021-11-05 | 天津大学 | 一种基于脑电信号的跨个体热舒适判别方法 |
CN113719975B (zh) * | 2021-08-03 | 2023-04-07 | 南京邮电大学 | 人体热舒适实时感知和室内环境智能调控方法及系统 |
-
2022
- 2022-03-22 CN CN202210279251.2A patent/CN114370698B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114370698A (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114370698B (zh) | 基于强化学习的室内热环境学习效率提升的优化控制方法 | |
CN113112077B (zh) | 基于多步预测深度强化学习算法的hvac控制系统 | |
CN110856134B (zh) | 一种基于无人机的大规模无线传感器网络数据收集方法 | |
CN111144793B (zh) | 基于多智能体深度强化学习的商业建筑hvac控制方法 | |
CN110705743B (zh) | 一种基于长短期记忆神经网络的新能源消纳电量预测方法 | |
CN110458443A (zh) | 一种基于深度强化学习的智慧家庭能量管理方法及系统 | |
CN102589092B (zh) | 基于新型模糊控制器的室内环境热舒适度控制方法 | |
CN113572157B (zh) | 一种基于近端策略优化的用户实时自治能量管理优化方法 | |
CN112465385B (zh) | 一种应用智能电表数据的需求响应潜力分析方法 | |
CN115220351B (zh) | 一种基于云边端的建筑空调系统智能节能优化控制方法 | |
CN114811713B (zh) | 基于混合深度学习的二级网户间均衡供热调控方法 | |
CN116729060A (zh) | 一种基于ddpg的纯电动汽车乘员舱空调制冷控制方法 | |
CN113361744A (zh) | 一种基于lstm算法的室内温度预测方法 | |
CN113887141A (zh) | 一种基于联邦学习的微电网群运行策略进化方法 | |
CN116045443A (zh) | 基于室内温度最优化控制的建筑空调能耗预测方法 | |
CN115840987A (zh) | 一种基于深度强化学习的混动汽车热管理策略生成方法 | |
CN108303898B (zh) | 新型太阳能-空气能耦合冷热联供系统的智能调度方法 | |
CN117172499A (zh) | 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质 | |
CN116415713A (zh) | 一种基于e+和人工智能的建筑能耗预测方法 | |
CN114909706B (zh) | 一种基于强化学习算法和压差控制的二级网平衡调控方法 | |
CN113435042B (zh) | 一种建筑空调系统需求响应的强化学习建模方法 | |
Weng et al. | RNN-based forecasting of indoor temperature in a naturally ventilated residential building | |
CN114200839B (zh) | 一种耦合环境行为动态监测的办公建筑能耗智能控制模型 | |
CN115169839A (zh) | 一种基于数据-物理-知识联合驱动的供暖负荷调度方法 | |
CN115759458A (zh) | 基于综合能源数据处理和多任务深度学习的负荷预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |