CN116241991A - 一种基于深度强化学习中央空调控制方法及系统 - Google Patents
一种基于深度强化学习中央空调控制方法及系统 Download PDFInfo
- Publication number
- CN116241991A CN116241991A CN202211581021.8A CN202211581021A CN116241991A CN 116241991 A CN116241991 A CN 116241991A CN 202211581021 A CN202211581021 A CN 202211581021A CN 116241991 A CN116241991 A CN 116241991A
- Authority
- CN
- China
- Prior art keywords
- central air
- control
- air conditioner
- reinforcement learning
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002787 reinforcement Effects 0.000 title claims abstract description 39
- 230000009471 action Effects 0.000 claims abstract description 49
- 238000011156 evaluation Methods 0.000 claims abstract description 47
- 238000004378 air conditioning Methods 0.000 claims abstract description 24
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 claims description 22
- 238000005265 energy consumption Methods 0.000 claims description 22
- 230000005611 electricity Effects 0.000 claims description 17
- 229910002092 carbon dioxide Inorganic materials 0.000 claims description 11
- 239000001569 carbon dioxide Substances 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 22
- 230000006870 function Effects 0.000 abstract description 17
- 230000008569 process Effects 0.000 abstract description 13
- 230000005764 inhibitory process Effects 0.000 abstract description 2
- 230000001276 controlling effect Effects 0.000 description 10
- 239000003795 chemical substances by application Substances 0.000 description 9
- 238000011217 control strategy Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000001816 cooling Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Images
Classifications
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/30—Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
- F24F11/46—Improving electric energy efficiency or saving
- F24F11/47—Responding to energy costs
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
- F24F11/63—Electronic processing
- F24F11/64—Electronic processing using pre-stored data
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/70—Control systems characterised by their outputs; Constructional details thereof
- F24F11/80—Control systems characterised by their outputs; Constructional details thereof for controlling the temperature of the supplied air
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F2110/00—Control inputs relating to air properties
- F24F2110/10—Temperature
- F24F2110/12—Temperature of the outside air
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F2120/00—Control inputs relating to users or occupants
- F24F2120/10—Occupancy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B30/00—Energy efficient heating, ventilation or air conditioning [HVAC]
- Y02B30/70—Efficient control or regulation technologies, e.g. for control of refrigerant flow, motor or heating
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Mechanical Engineering (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Air Conditioning Control Device (AREA)
Abstract
本发明属于空调控制技术领域,提供了一种基于深度强化学习中央空调控制方法及系统,包括:获取控制区域内的人员信息和环境信息;依据获取的人员信息和环境信息,以及预设的控制模型,对中央空调进行控制;本发明中中央空调的控制模型采用双延迟深度确定性策略梯度算法,模型训练时,以第一频率更新动作网络,以大于第一频率的第二频率更新评价网络,一个动作网络对应多个评价网络;计算目标值时,采用对应多个评价网络中的最小值,实现抑制值函数网络的过估计问题,避免了训练过程中陷入次优解的问题,实现了对中央空调系统的最优控制。
Description
技术领域
本发明属于空调控制技术领域,尤其涉及一种基于深度强化学习中央空调控制方法及系统。
背景技术
建筑中中央空调系统(Heating Ventilation and Air Conditioning,HVAC)占建筑运行碳排放量的35%以上,建筑HVAC节能低碳运行,是缓解能源紧张和提高建筑能效的有效措施之一。除此之外,HVAC系统能耗约占大型建筑总能耗的40%~50%,因此高效智能的中央空调控制策略,即能在保持住户舒适度的同时降低中央空调的能耗。然而,建筑中的中央空调系统有制冷机、冷却塔、蒸发器、冷凝器和空气处理单元等众多复杂设备,涉及传热传质、蒸发冷却等复杂的热力学过程,致使面向动态控制的大型建筑中央空调系统建模十分困难,加上建筑内部和天气相关的不确定性带来的中央空调负荷的随机扰动,导致基于模型的大型建筑中央空调优化控制充满挑战。
随着人工智能和物联网技术的发展,采用基于深度强化学习(DeepReinforcement Learning,DRL)的方法,来解决大型建筑的多区域能耗与居住者舒适度指标的多目标优化控制的问题,与传统建模优化方法不同,该方法不需要构建建筑的详细物理与热动力学模型,也不用考虑由居住人员或者天气所带来的干扰问题,不需要任何环境的先验知识,基于数据驱动的控制方法,多个智能体通过与环境不断进行交互训练,利用智能体得到的反馈信息来更新控制策略,从而达到优化控制的目的。
发明人发现,目前广泛使用的深度强化学习算法中,深度确定性策略梯度方法(deep deterministic policy gradients,DDPG)在求解优化控制策略应用中表现较好,但它在超参数和其他类型的调整方面会比较敏感,训练过程中无法较快达到稳定收敛状态;这是因为DDPG方法存在两个动作网络和两个评价网络,在更新目标网络时,会选择最大化的Q值来进行评估,使得估计值高于真实的Q值,累计下来的过估计会让算法陷入次优策略,无法实现对中央空调系统的最优控制。
发明内容
本发明为了解决上述问题,提出了一种基于深度强化学习中央空调控制方法及系统,本发明采用双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministicpolicy gradient algorithm,TD3)对建筑中中央空调系统进行最优控制,采用延迟更新策略、多评价网络策略以及目标策略平滑正则化的策略的形式,解决了值函数过估计与高方差现象,从而提高强化学习算法的稳定性,并且综合考虑房间内区域的占用率以及时变电价的情况,利用动态奖励函数的机制来实现在满足区域内热舒适度的同时,保证最低能耗的目标。
为了实现上述目的,本发明是通过如下的技术方案来实现:
第一方面,本发明提供了一种基于深度强化学习中央空调控制方法,包括:
获取控制区域内的人员信息和环境信息;
依据获取的人员信息和环境信息,以及预设的控制模型,对中央空调进行控制;
其中,所述控制模型采用双延迟深度确定性策略梯度算法;模型训练时,以第一频率更新动作网络,以大于第一频率的第二频率更新评价网络,一个动作网络对应多个评价网络;计算目标值时,采用对应多个评价网络中的最小值。
进一步的,所述人员信息为控制区域内的人数,所述环境信息包括室外天气的温度、控制区域室内温度、控制区域室内二氧化碳浓度、每个时间段的电价和控制区域产生的能耗。
进一步的,所述控制模型的动作输出为每个控制区域的温度。
进一步的,奖励值包括能耗成本和舒适度,根据控制区域内的人数调整舒适度指数的权重。
进一步的,奖励值为:
εi,t=μKi,t
其中,μ和ω为常数系数;t为时刻;F(pi,t)为根据舒适度确定的方程,pi,t为舒适度;G(Oi,t)为根据能耗确定的方程,Qi,t为控制区域产生的能耗;δt为随时变电价而变的动态系数;λt为每个时间段的电价;Ki,t控制区域室内人数。
进一步的,舒适度由前馈神经网络根据控制区域内的人数、室外天气的温度、控制区域室内温度、控制区域室内二氧化碳浓度、每个时间段的电价和控制区域产生的能耗得到。
进一步的,计算目标值时,在下一个状态的动作上加入扰动。
第二方面,本发明还提供了一种基于深度强化学习中央空调控制系统,包括:
数据采集模块,被配置为:获取控制区域内的人员信息和环境信息;
控制模块,被配置为:依据获取的人员信息和环境信息,以及预设的控制模型,对中央空调进行控制;
其中,所述控制模型采用双延迟深度确定性策略梯度算法;模型训练时,以第一频率更新动作网络,以大于第一频率的第二频率更新评价网络,一个动作网络对应多个评价网络;计算目标值时,采用对应多个评价网络中的最小值。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了第一方面所述的基于深度强化学习中央空调控制方法的步骤。
第四方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了第一方面所述的基于深度强化学习中央空调控制方法的步骤。
与现有技术相比,本发明的有益效果为:
1、本发明中中央空调的控制模型采用双延迟深度确定性策略梯度算法,模型训练时,以第一频率更新动作网络,以大于第一频率的第二频率更新评价网络,一个动作网络对应多个评价网络;计算目标值时,采用对应多个评价网络中的最小值,实现抑制值函数网络的过估计问题,避免了训练过程中陷入次优解的问题,实现了对中央空调系统的最优控制;
2、本发明中,计算目标值时,在下一个状态的动作上加入扰动,使得价值评估更准确,提高了模型训练的稳定性,加快了收敛速度;
3、本发明采用训练有素的强化学习(Reinforcement Learning,RL)方法,具有较高的泛化性和鲁棒性,能够适应不同价格信号和物理条件下的新环境,提供了最优的多区域大型建筑中央空调系统控制策略。
附图说明
构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解,本实施例的示意性实施例及其说明用于解释本实施例,并不构成对本实施例的不当限定。
图1为本发明实施例1的流程图;
图2为本发明实施例1的前馈预测网络;
图3为本发明实施例1的控制模型。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
实施例1:
现有方法中采用DDPG,在更新目标网络时,会选择最大化的Q值来进行评估,使得估计值高于真实的Q值,累计下来的过估计会让算法陷入次优策略,无法实现对中央空调系统的最优控制,针对上述问题,本实施例提供了一种基于深度强化学习中央空调控制方法,采用TD3实现了对建筑中中央空调系统进行最优控制,包括:
获取控制区域内的人员信息和环境信息;
依据获取的人员信息和环境信息,以及预设的控制模型,对中央空调进行控制;
其中,所述控制模型采用双延迟深度确定性策略梯度算法;模型训练时,以第一频率更新动作网络,以大于第一频率的第二频率更新评价网络,一个动作网络对应多个评价网络;计算目标值时,采用对应多个评价网络中的最小值。
大型建筑中,中央空调系统过于复杂且存在扰动,无法准确建模获得转移概率,基于此,可以通过深度强化学习得到可以进行最优控制的智能体。本实施例中,如图1和图2所示,基于深度强化学习的大型建筑中央空调智能优化控制系统可分为数据采集系统、前馈预测系统、深度强化学习TD3算法和控制执行系统,可以用一个前馈神经网络来预测居住者的舒适度指数PMV(Predicted Mean Vote),把舒适度指数作为控制动作输出的考虑指标之一,通过不断在线学习,迭代更新优化控制策略。
所述数据采集系统可以包括摄像头、二氧化碳浓度检测仪和多个传感器等;摄像头可以实时提取控制区域室内人员数量信息;传感器和浓度检测仪可以定期测量室内外建筑环境的热条件,包括温湿度、二氧化碳浓度和能耗等;可以通过物联网网络把收集到的信息实时传输给控制器,控制器作出控制决策实现对多区域建筑中央空调系统的实时控制。
所述前馈控制系统可以包括深度神经网络,首先利用现有的热预测数据集进行离线训练,经过训练后的神经网络,将室内外建筑的状态信息作为输入,就会输出代表舒适度指标的数据PMV,作为前馈控制影响智能体产生控制决策。
所述深度强化学习TD3算法,可以通过收集到的状态信息,智能体通过试错,进行探索,朝着让奖励函数变大的方法探索,为了让智能体探索范围更加广泛,在智能体训练过程中添加OU噪声,通过多次在线探索训练反馈,智能体可以输出最优控制动作。
所述控制执行系统就是在收集到环境状态后,智能体学习产生动作设定值,中央空调系统按照收到的设定值控制运行。
可选的,把多区域空调控制问题制定为一个马尔可夫决策过程(Markov DecisionProcess,MDP),MDP包括状态state、动作action、奖励reward以及对应的状态转移概率四个基本组成元素,根据采用的TD3算法,定义前三个元素如下:
State可以表示N个区域建筑房间的状态空间组成元素,考虑了室外天气的温度Tout、各控制区域室内温度Ti,t以及CO2浓度Oi,t、控制区域室内空间占用率即房间内的人数Ki,t、每个时间段的电价λt、控制区域产生的能耗Qi,t,状态S表述如下:
St=(Tout,Ti,t,Oi,t,Ki,t,λt,Qi,t),1≤i≤N
其中,所述人员信息可以理解为控制区域内的人数Ki,t,所述环境信息可以包括室外天气的温度Tout、各控制区域室内温度Ti,t、控制区域室内二氧化碳(CO2)浓度Oi,t、每个时间段的电价λt和控制区域产生的能耗Qi,t。
Action表示在采集到的状态信息下,控制执行模块中智能体选择采取的动作状态,可以选取每个区域的温度的设定值作为控制的动作输出:
At=(a1,t,a2,t,…ai,t),1≤i≤N
其中,At为动作输出,t为时间;a1,t,a2,t,…ai,t为每个区域温度的设定值。
Reward表示在状态S下采取动作A带来的奖励值,是对深度强化学习算法控制策略的定量评价,在中央空调系统中,奖励值包括空调所带来的能耗成本和房间内居住者的舒适度问题两部分,综合考虑这两部分作为评价指标。并且为了最大化优化控制策略,采取动态的Reward,根据房间的人数、占用率来调整舒适度指数的权重。
εi,t=μKi,t
其中,μ和ω为常数系数;t为时刻;F(pi,t)为根据舒适度确定的方程,pi,t为舒适度,是由前馈神经网络根据状态所得到的居住者舒适度指数PMV;G(Oi,t)为根据能耗确定的方程,Qi,t为控制区域产生的能耗;δt为随时变电价而变的动态系数,随着电价的升高动态系数适当升高,加大能耗对奖励函数的影响;λt为每个时间段的电价;Ki,t为控制区域室内空间占用率即房间的人数。
pi,t=PMV(Ti,t,Hi,t,Vi,t,Mi,t,Ii,t,Bi,t)
其中,Ti,t为区域i的室内温度;Hi,t为湿度;Vi,t为空气流速;Mi,t为平均辐射温度(Mean Radiant Temperature,MRT);Ii,t代表衣服的绝缘率;Bi,t为人体代谢率。
基于控制模型,可知为使长期最小化中央空调能源成本且保证房间内的舒适度,本实施例中,深度强化学习控制算法训练过程中总的优化问题如下:
其中,γt'为折扣系数;Rt+t'为奖励值;si,t为当前时刻区域i的状态;ai,t为控制区域的温度设定值。
为了解决已有的强化学习算法因为训练过程中,在更新过程中选取对应的目标函数的最大值,从而导致值函数过估计以至于训练陷入次优解的问题,可以采取一个动作网络对应多个评价网络的模式,在计算目标值时取多个评价网络中的最小值,从而抑制值函数网络的过估计问题,比如,一个动作网络对应两个评价网络的模式;同时为帮助网络更有效稳定的训练,在计算目标值时,在下一个状态的动作上加入扰动,从而使得价值评估更准确,即:
ε~clip(N(0,σ),-c,c)
整个学习算法更新过程如下,在状态st时选取动作:
Ai,t=μ(Si,t|θμ)+N(t)
其中,μ(Si,t|θμ)为动作网络,θμ为动作网络参数;N(t)是为增大动作搜索范围添加的OU噪声。
执行动作得到st+1和rt,存入数据缓冲区buffer中,训练时通过最小化损失函数来更新,为了避免动作网络与评价网络之间更新的耦合问题,可以较低的频率更新动作网络,较高频率更新评网络,每更新两次评价网络就更新一次策略,提高actor网络训练效率,从而提高训练的稳定性。
θμ'←τθμ+(1-τ)θμ'
其中,为评价网络1的损失函数,为评价网络1的参数;M为训练回合数;y为目标评价网络的输出Q值;为评价网络2的损失函数,为评价网络2的参数;ηQ为评价网络的学习率;为评价网络的损失函数;为动作网络的更新梯度;ημ为动作网络的学习率;τ为模型更新的折扣因子。
本实施例设计了一种大型建筑中央空调的智能控制系统,其中,数据采集系统,通过传感器设备实时监测室内状态信息,作为控制迭代的状态依据;前馈预测系统,利用建筑内状态信息,根据事先已用数据集训练好的深度神经网络预测此状态下的舒适度,作为学习模块的输入;深度强化学习TD3算法,采用数据驱动的方式,智能体产生空调系统控制的设定值,并与环境不断交互训练更新;控制执行系统,即空调系统收到智能体产生的设定值,完成对应工作目标。考虑到存在不同价格信号和物理条件的建筑环境,采用动态奖励函数的模式,把摄像头实时监测得到的区域占用率作为输入,在工作日时间占用率高的时候,增加舒适度在reward奖励函数的比重,反之亦然;同时引入时变电价对奖励函数的影响,通过训练实现在电价低时提前进行预冷,从而避免在电价高时消耗更多能耗,提高算法对控制环境的灵活性。采用延迟策略更新的方式来解决动作网络与评价网络之间更新的耦合问题;当同步训练动作网络和评价网络时,会导致训练过程不稳定的问题,采用的深度强化学习TD3算法会以较低的频率更新动作网络,较高频率更新评价网络,每更新两次评价网络再更新一次动作网络的策略,提高训练稳定性及动作网络训练效率。采取动作网络和评价网络之间一对二的形式,在计算目标值时取二者中的较小值,抑制值函数网络的过估计问题,避免训练过程中陷入次优解,寻求控制最优解;同时采用目标策略平滑正则化的策略,在计算目标值时,在下一个状态的动作上加入扰动,使得价值评估更准确,帮助网络更有效稳定的训练,加快收敛速度。数据采集系统中加入摄像头、温湿度传感器与二氧化碳浓度检测仪等,实时获取室内环境人员数量与占用率、测量室内外建筑的环境条件,包括温度、湿度以及二氧化碳浓度等,更加精准提取建筑内外状态信息,再通过物联网(IoT)网络与控制器,即深度强化学习TD3算法模块连接。
实施例2:
本实施例提供了一种基于深度强化学习中央空调控制系统,包括:
数据采集模块,被配置为:获取控制区域内的人员信息和环境信息;
控制模块,被配置为:依据获取的人员信息和环境信息,以及预设的控制模型,对中央空调进行控制;
其中,所述控制模型采用双延迟深度确定性策略梯度算法;模型训练时,以第一频率更新动作网络,以大于第一频率的第二频率更新评价网络,一个动作网络对应多个评价网络;计算目标值时,采用对应多个评价网络中的最小值。
所述系统的工作方法与实施例1的基于深度强化学习中央空调控制方法相同,这里不再赘述。
实施例3:
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了实施例1所述的基于深度强化学习中央空调控制方法的步骤。
实施例4:
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了实施例1所述的基于深度强化学习中央空调控制方法的步骤。
以上所述仅为本实施例的优选实施例而已,并不用于限制本实施例,对于本领域的技术人员来说,本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本实施例的保护范围之内。
Claims (10)
1.一种基于深度强化学习中央空调控制方法,其特征在于,包括:
获取控制区域内的人员信息和环境信息;
依据获取的人员信息和环境信息,以及预设的控制模型,对中央空调进行控制;
其中,所述控制模型采用双延迟深度确定性策略梯度算法;模型训练时,以第一频率更新动作网络,以大于第一频率的第二频率更新评价网络,一个动作网络对应多个评价网络;计算目标值时,采用对应多个评价网络中的最小值。
2.如权利要求1所述的一种基于深度强化学习中央空调控制方法,其特征在于,所述人员信息为控制区域内的人数,所述环境信息包括室外天气的温度、控制区域室内温度、控制区域室内二氧化碳浓度、每个时间段的电价和控制区域产生的能耗。
3.如权利要求1所述的一种基于深度强化学习中央空调控制方法,其特征在于,所述控制模型的动作输出为每个控制区域的温度。
4.如权利要求1所述的一种基于深度强化学习中央空调控制方法,其特征在于,奖励值包括能耗成本和舒适度,根据控制区域内的人数调整舒适度指数的权重。
6.如权利要求5所述的一种基于深度强化学习中央空调控制方法,其特征在于,舒适度由前馈神经网络根据控制区域内的人数、室外天气的温度、控制区域室内温度、控制区域室内二氧化碳浓度、每个时间段的电价和控制区域产生的能耗得到。
7.如权利要求1所述的一种基于深度强化学习中央空调控制方法,其特征在于,计算目标值时,在下一个状态的动作上加入扰动。
8.一种基于深度强化学习中央空调控制系统,其特征在于,包括:
数据采集模块,被配置为:获取控制区域内的人员信息和环境信息;
控制模块,被配置为:依据获取的人员信息和环境信息,以及预设的控制模型,对中央空调进行控制;
其中,所述控制模型采用双延迟深度确定性策略梯度算法;模型训练时,以第一频率更新动作网络,以大于第一频率的第二频率更新评价网络,一个动作网络对应多个评价网络;计算目标值时,采用对应多个评价网络中的最小值。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现了如权利要求1-7任一项所述的基于深度强化学习中央空调控制方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现了如权利要求1-7任一项所述的基于深度强化学习中央空调控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211581021.8A CN116241991A (zh) | 2022-12-09 | 2022-12-09 | 一种基于深度强化学习中央空调控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211581021.8A CN116241991A (zh) | 2022-12-09 | 2022-12-09 | 一种基于深度强化学习中央空调控制方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116241991A true CN116241991A (zh) | 2023-06-09 |
Family
ID=86633856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211581021.8A Pending CN116241991A (zh) | 2022-12-09 | 2022-12-09 | 一种基于深度强化学习中央空调控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116241991A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540938A (zh) * | 2024-01-10 | 2024-02-09 | 杭州经纬信息技术股份有限公司 | 基于td3强化学习优化的集成式建筑能耗预测方法及系统 |
-
2022
- 2022-12-09 CN CN202211581021.8A patent/CN116241991A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540938A (zh) * | 2024-01-10 | 2024-02-09 | 杭州经纬信息技术股份有限公司 | 基于td3强化学习优化的集成式建筑能耗预测方法及系统 |
CN117540938B (zh) * | 2024-01-10 | 2024-05-03 | 杭州经纬信息技术股份有限公司 | 基于td3强化学习优化的集成式建筑能耗预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111795484B (zh) | 一种智慧空调控制方法和系统 | |
KR102212663B1 (ko) | 목표 온도를 기반으로 하는 빌딩의 열·공조 시스템에 대한 공급 전력 제어 방법 및 장치 | |
Wang et al. | Model-based optimal control of VAV air-conditioning system using genetic algorithm | |
Moon | Performance of ANN-based predictive and adaptive thermal-control methods for disturbances in and around residential buildings | |
Homod et al. | Gradient auto-tuned Takagi–Sugeno Fuzzy Forward control of a HVAC system using predicted mean vote index | |
Li et al. | Dynamic modeling and control of a direct expansion air conditioning system using artificial neural network | |
CN113283156B (zh) | 一种基于深度强化学习的地铁站空调系统节能控制方法 | |
CN111351180A (zh) | 一种运用人工智能实现数据中心节能温控的系统及方法 | |
CN112963946B (zh) | 一种面向共享办公区域的暖通空调系统控制方法及装置 | |
Huang et al. | A new zone temperature predictive modeling for energy saving in buildings | |
Baghaee et al. | User comfort and energy efficiency in HVAC systems by Q-learning | |
CN114200839B (zh) | 一种耦合环境行为动态监测的办公建筑能耗智能控制模型 | |
Esrafilian-Najafabadi et al. | Towards self-learning control of HVAC systems with the consideration of dynamic occupancy patterns: Application of model-free deep reinforcement learning | |
CN116241991A (zh) | 一种基于深度强化学习中央空调控制方法及系统 | |
Sun et al. | Energy consumption optimization of building air conditioning system via combining the parallel temporal convolutional neural network and adaptive opposition-learning chimp algorithm | |
CN114110824B (zh) | 一种恒湿机智能控制方法及装置 | |
Bayer et al. | Enhancing the performance of multi-agent reinforcement learning for controlling HVAC systems | |
CN113028610B (zh) | 中央空调动态负荷全局优化与节能控制的方法和装置 | |
CN116485044B (zh) | 一种电网交互型高效商业建筑智能运行优化方法 | |
Esrafilian-Najafabadi et al. | Transfer learning for occupancy-based HVAC control: A data-driven approach using unsupervised learning of occupancy profiles and deep reinforcement learning | |
Chang et al. | PMV-based genetic algorithms for indoor temperature control system | |
Li et al. | Thermal comfort control based on MEC algorithm for HVAC systems | |
CN113757852B (zh) | 基于数字孪生技术的多联机空调机组控制方法及控制系统 | |
Wang et al. | A model-based control of CO2 concentration in multi-zone ACB air-conditioning systems | |
Cui et al. | An Online Reinforcement Learning Method for Multi-Zone Ventilation Control With Pre-Training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |