CN116241991A

CN116241991A - 一种基于深度强化学习中央空调控制方法及系统

Info

Publication number: CN116241991A
Application number: CN202211581021.8A
Authority: CN
Inventors: 王新立; 薄婉琳; 段培永; 尹晓红; 王瑞琪; 丁绪东; 李慧
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-06-09

Abstract

本发明属于空调控制技术领域，提供了一种基于深度强化学习中央空调控制方法及系统，包括：获取控制区域内的人员信息和环境信息；依据获取的人员信息和环境信息，以及预设的控制模型，对中央空调进行控制；本发明中中央空调的控制模型采用双延迟深度确定性策略梯度算法，模型训练时，以第一频率更新动作网络，以大于第一频率的第二频率更新评价网络，一个动作网络对应多个评价网络；计算目标值时，采用对应多个评价网络中的最小值，实现抑制值函数网络的过估计问题，避免了训练过程中陷入次优解的问题，实现了对中央空调系统的最优控制。

Description

一种基于深度强化学习中央空调控制方法及系统

技术领域

本发明属于空调控制技术领域，尤其涉及一种基于深度强化学习中央空调控制方法及系统。

背景技术

建筑中中央空调系统(Heating Ventilation and Air Conditioning，HVAC)占建筑运行碳排放量的35％以上，建筑HVAC节能低碳运行，是缓解能源紧张和提高建筑能效的有效措施之一。除此之外，HVAC系统能耗约占大型建筑总能耗的40％～50％，因此高效智能的中央空调控制策略，即能在保持住户舒适度的同时降低中央空调的能耗。然而，建筑中的中央空调系统有制冷机、冷却塔、蒸发器、冷凝器和空气处理单元等众多复杂设备，涉及传热传质、蒸发冷却等复杂的热力学过程，致使面向动态控制的大型建筑中央空调系统建模十分困难，加上建筑内部和天气相关的不确定性带来的中央空调负荷的随机扰动，导致基于模型的大型建筑中央空调优化控制充满挑战。

随着人工智能和物联网技术的发展，采用基于深度强化学习(DeepReinforcement Learning，DRL)的方法，来解决大型建筑的多区域能耗与居住者舒适度指标的多目标优化控制的问题，与传统建模优化方法不同，该方法不需要构建建筑的详细物理与热动力学模型，也不用考虑由居住人员或者天气所带来的干扰问题，不需要任何环境的先验知识，基于数据驱动的控制方法，多个智能体通过与环境不断进行交互训练，利用智能体得到的反馈信息来更新控制策略，从而达到优化控制的目的。

发明人发现，目前广泛使用的深度强化学习算法中，深度确定性策略梯度方法(deep deterministic policy gradients，DDPG)在求解优化控制策略应用中表现较好，但它在超参数和其他类型的调整方面会比较敏感，训练过程中无法较快达到稳定收敛状态；这是因为DDPG方法存在两个动作网络和两个评价网络，在更新目标网络时，会选择最大化的Q值来进行评估，使得估计值高于真实的Q值，累计下来的过估计会让算法陷入次优策略，无法实现对中央空调系统的最优控制。

发明内容

本发明为了解决上述问题，提出了一种基于深度强化学习中央空调控制方法及系统，本发明采用双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministicpolicy gradient algorithm，TD3)对建筑中中央空调系统进行最优控制，采用延迟更新策略、多评价网络策略以及目标策略平滑正则化的策略的形式，解决了值函数过估计与高方差现象，从而提高强化学习算法的稳定性，并且综合考虑房间内区域的占用率以及时变电价的情况，利用动态奖励函数的机制来实现在满足区域内热舒适度的同时，保证最低能耗的目标。

为了实现上述目的，本发明是通过如下的技术方案来实现：

第一方面，本发明提供了一种基于深度强化学习中央空调控制方法，包括：

获取控制区域内的人员信息和环境信息；

依据获取的人员信息和环境信息，以及预设的控制模型，对中央空调进行控制；

其中，所述控制模型采用双延迟深度确定性策略梯度算法；模型训练时，以第一频率更新动作网络，以大于第一频率的第二频率更新评价网络，一个动作网络对应多个评价网络；计算目标值时，采用对应多个评价网络中的最小值。

进一步的，所述人员信息为控制区域内的人数，所述环境信息包括室外天气的温度、控制区域室内温度、控制区域室内二氧化碳浓度、每个时间段的电价和控制区域产生的能耗。

进一步的，所述控制模型的动作输出为每个控制区域的温度。

进一步的，奖励值包括能耗成本和舒适度，根据控制区域内的人数调整舒适度指数的权重。

进一步的，奖励值为：

εi,t＝μKi,t

其中，μ和ω为常数系数；t为时刻；F(p_i,t)为根据舒适度确定的方程，p_i,t为舒适度；G(O_i,t)为根据能耗确定的方程，Q_i,t为控制区域产生的能耗；δ_t为随时变电价而变的动态系数；λ_t为每个时间段的电价；K_i,t控制区域室内人数。

进一步的，舒适度由前馈神经网络根据控制区域内的人数、室外天气的温度、控制区域室内温度、控制区域室内二氧化碳浓度、每个时间段的电价和控制区域产生的能耗得到。

进一步的，计算目标值时，在下一个状态的动作上加入扰动。

第二方面，本发明还提供了一种基于深度强化学习中央空调控制系统，包括：

数据采集模块，被配置为：获取控制区域内的人员信息和环境信息；

控制模块，被配置为：依据获取的人员信息和环境信息，以及预设的控制模型，对中央空调进行控制；

第三方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了第一方面所述的基于深度强化学习中央空调控制方法的步骤。

第四方面，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了第一方面所述的基于深度强化学习中央空调控制方法的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明中中央空调的控制模型采用双延迟深度确定性策略梯度算法，模型训练时，以第一频率更新动作网络，以大于第一频率的第二频率更新评价网络，一个动作网络对应多个评价网络；计算目标值时，采用对应多个评价网络中的最小值，实现抑制值函数网络的过估计问题，避免了训练过程中陷入次优解的问题，实现了对中央空调系统的最优控制；

2、本发明中，计算目标值时，在下一个状态的动作上加入扰动，使得价值评估更准确，提高了模型训练的稳定性，加快了收敛速度；

3、本发明采用训练有素的强化学习(Reinforcement Learning，RL)方法，具有较高的泛化性和鲁棒性，能够适应不同价格信号和物理条件下的新环境，提供了最优的多区域大型建筑中央空调系统控制策略。

附图说明

构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解，本实施例的示意性实施例及其说明用于解释本实施例，并不构成对本实施例的不当限定。

图1为本发明实施例1的流程图；

图2为本发明实施例1的前馈预测网络；

图3为本发明实施例1的控制模型。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

实施例1：

现有方法中采用DDPG，在更新目标网络时，会选择最大化的Q值来进行评估，使得估计值高于真实的Q值，累计下来的过估计会让算法陷入次优策略，无法实现对中央空调系统的最优控制，针对上述问题，本实施例提供了一种基于深度强化学习中央空调控制方法，采用TD3实现了对建筑中中央空调系统进行最优控制，包括：

获取控制区域内的人员信息和环境信息；

大型建筑中，中央空调系统过于复杂且存在扰动，无法准确建模获得转移概率，基于此，可以通过深度强化学习得到可以进行最优控制的智能体。本实施例中，如图1和图2所示，基于深度强化学习的大型建筑中央空调智能优化控制系统可分为数据采集系统、前馈预测系统、深度强化学习TD3算法和控制执行系统，可以用一个前馈神经网络来预测居住者的舒适度指数PMV(Predicted Mean Vote)，把舒适度指数作为控制动作输出的考虑指标之一，通过不断在线学习，迭代更新优化控制策略。

所述数据采集系统可以包括摄像头、二氧化碳浓度检测仪和多个传感器等；摄像头可以实时提取控制区域室内人员数量信息；传感器和浓度检测仪可以定期测量室内外建筑环境的热条件，包括温湿度、二氧化碳浓度和能耗等；可以通过物联网网络把收集到的信息实时传输给控制器，控制器作出控制决策实现对多区域建筑中央空调系统的实时控制。

所述前馈控制系统可以包括深度神经网络，首先利用现有的热预测数据集进行离线训练，经过训练后的神经网络，将室内外建筑的状态信息作为输入，就会输出代表舒适度指标的数据PMV，作为前馈控制影响智能体产生控制决策。

所述深度强化学习TD3算法，可以通过收集到的状态信息，智能体通过试错，进行探索，朝着让奖励函数变大的方法探索，为了让智能体探索范围更加广泛，在智能体训练过程中添加OU噪声，通过多次在线探索训练反馈，智能体可以输出最优控制动作。

所述控制执行系统就是在收集到环境状态后，智能体学习产生动作设定值，中央空调系统按照收到的设定值控制运行。

可选的，把多区域空调控制问题制定为一个马尔可夫决策过程(Markov DecisionProcess，MDP)，MDP包括状态state、动作action、奖励reward以及对应的状态转移概率四个基本组成元素，根据采用的TD3算法，定义前三个元素如下：

State可以表示N个区域建筑房间的状态空间组成元素，考虑了室外天气的温度T_out、各控制区域室内温度T_i,t以及CO2浓度O_i,t、控制区域室内空间占用率即房间内的人数K_i,t、每个时间段的电价λ_t、控制区域产生的能耗Q_i,t，状态S表述如下：

S_t＝(T_out,T_i,t,O_i,t,K_i,t,λ_t,Q_i,t)，1≤i≤N

其中，所述人员信息可以理解为控制区域内的人数K_i,t，所述环境信息可以包括室外天气的温度T_out、各控制区域室内温度T_i,t、控制区域室内二氧化碳(CO₂)浓度O_i,t、每个时间段的电价λ_t和控制区域产生的能耗Q_i,t。

Action表示在采集到的状态信息下，控制执行模块中智能体选择采取的动作状态，可以选取每个区域的温度的设定值作为控制的动作输出：

A_t＝(a_1,t,a_2,t,…a_i,t),1≤i≤N

其中，A_t为动作输出，t为时间；a_1,t,a_2,t,…a_i,t为每个区域温度的设定值。

Reward表示在状态S下采取动作A带来的奖励值，是对深度强化学习算法控制策略的定量评价，在中央空调系统中，奖励值包括空调所带来的能耗成本和房间内居住者的舒适度问题两部分，综合考虑这两部分作为评价指标。并且为了最大化优化控制策略，采取动态的Reward，根据房间的人数、占用率来调整舒适度指数的权重。

ε_i,t＝μK_i,t

其中，μ和ω为常数系数；t为时刻；F(p_i,t)为根据舒适度确定的方程，p_i,t为舒适度，是由前馈神经网络根据状态所得到的居住者舒适度指数PMV；G(O_i,t)为根据能耗确定的方程，Q_i,t为控制区域产生的能耗；δ_t为随时变电价而变的动态系数，随着电价的升高动态系数适当升高，加大能耗对奖励函数的影响；λ_t为每个时间段的电价；K_i,t为控制区域室内空间占用率即房间的人数。

p_i,t＝PMV(T_i,t,H_i,t,V_i,t,M_i,t,I_i,t,B_i,t)

其中，T_i,t为区域i的室内温度；H_i,t为湿度；V_i,t为空气流速；M_i,t为平均辐射温度(Mean Radiant Temperature，MRT)；I_i,t代表衣服的绝缘率；B_i,t为人体代谢率。

基于控制模型，可知为使长期最小化中央空调能源成本且保证房间内的舒适度，本实施例中，深度强化学习控制算法训练过程中总的优化问题如下：

其中，γ^t'为折扣系数；R_t+t'为奖励值；s_i,t为当前时刻区域i的状态；a_i,t为控制区域的温度设定值。

为了解决已有的强化学习算法因为训练过程中，在更新过程中选取对应的目标函数的最大值，从而导致值函数过估计以至于训练陷入次优解的问题，可以采取一个动作网络对应多个评价网络的模式，在计算目标值时取多个评价网络中的最小值，从而抑制值函数网络的过估计问题，比如，一个动作网络对应两个评价网络的模式；同时为帮助网络更有效稳定的训练，在计算目标值时，在下一个状态的动作上加入扰动，从而使得价值评估更准确，即：

ε～clip(N(0,σ),-c,c)

其中，y为目标评价网络的输出Q值；γ为折扣系数；

为目标评价网络的参数；s'为下一时间段的状态；μ_θ'(s')为目标动作网络；N(0,σ)为添加的噪声；c为噪声范围。

整个学习算法更新过程如下，在状态s_t时选取动作：

A_i,t＝μ(S_i,t|θ^μ)+N(t)

其中，μ(S_i,t|θ^μ)为动作网络，θ^μ为动作网络参数；N(t)是为增大动作搜索范围添加的OU噪声。

执行动作得到s_t+1和r_t，存入数据缓冲区buffer中，训练时通过最小化损失函数来更新，为了避免动作网络与评价网络之间更新的耦合问题，可以较低的频率更新动作网络，较高频率更新评网络，每更新两次评价网络就更新一次策略，提高actor网络训练效率，从而提高训练的稳定性。

θ^μ'←τθ^μ+(1-τ)θ^μ'

其中，

为评价网络1的损失函数，

为评价网络1的参数；M为训练回合数；y为目标评价网络的输出Q值；

为评价网络2的损失函数，

为评价网络2的参数；η_Q为评价网络的学习率；

为评价网络的损失函数；

为动作网络的更新梯度；η_μ为动作网络的学习率；τ为模型更新的折扣因子。

本实施例设计了一种大型建筑中央空调的智能控制系统，其中，数据采集系统，通过传感器设备实时监测室内状态信息，作为控制迭代的状态依据；前馈预测系统，利用建筑内状态信息，根据事先已用数据集训练好的深度神经网络预测此状态下的舒适度，作为学习模块的输入；深度强化学习TD3算法，采用数据驱动的方式，智能体产生空调系统控制的设定值，并与环境不断交互训练更新；控制执行系统，即空调系统收到智能体产生的设定值，完成对应工作目标。考虑到存在不同价格信号和物理条件的建筑环境，采用动态奖励函数的模式，把摄像头实时监测得到的区域占用率作为输入，在工作日时间占用率高的时候，增加舒适度在reward奖励函数的比重，反之亦然；同时引入时变电价对奖励函数的影响，通过训练实现在电价低时提前进行预冷，从而避免在电价高时消耗更多能耗，提高算法对控制环境的灵活性。采用延迟策略更新的方式来解决动作网络与评价网络之间更新的耦合问题；当同步训练动作网络和评价网络时，会导致训练过程不稳定的问题，采用的深度强化学习TD3算法会以较低的频率更新动作网络，较高频率更新评价网络，每更新两次评价网络再更新一次动作网络的策略，提高训练稳定性及动作网络训练效率。采取动作网络和评价网络之间一对二的形式，在计算目标值时取二者中的较小值，抑制值函数网络的过估计问题，避免训练过程中陷入次优解，寻求控制最优解；同时采用目标策略平滑正则化的策略，在计算目标值时，在下一个状态的动作上加入扰动，使得价值评估更准确，帮助网络更有效稳定的训练，加快收敛速度。数据采集系统中加入摄像头、温湿度传感器与二氧化碳浓度检测仪等，实时获取室内环境人员数量与占用率、测量室内外建筑的环境条件，包括温度、湿度以及二氧化碳浓度等，更加精准提取建筑内外状态信息，再通过物联网(IoT)网络与控制器，即深度强化学习TD3算法模块连接。

实施例2：

本实施例提供了一种基于深度强化学习中央空调控制系统，包括：

所述系统的工作方法与实施例1的基于深度强化学习中央空调控制方法相同，这里不再赘述。

实施例3：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了实施例1所述的基于深度强化学习中央空调控制方法的步骤。

实施例4：

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了实施例1所述的基于深度强化学习中央空调控制方法的步骤。

以上所述仅为本实施例的优选实施例而已，并不用于限制本实施例，对于本领域的技术人员来说，本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实施例的保护范围之内。

Claims

1.一种基于深度强化学习中央空调控制方法，其特征在于，包括：

获取控制区域内的人员信息和环境信息；

2.如权利要求1所述的一种基于深度强化学习中央空调控制方法，其特征在于，所述人员信息为控制区域内的人数，所述环境信息包括室外天气的温度、控制区域室内温度、控制区域室内二氧化碳浓度、每个时间段的电价和控制区域产生的能耗。

3.如权利要求1所述的一种基于深度强化学习中央空调控制方法，其特征在于，所述控制模型的动作输出为每个控制区域的温度。

4.如权利要求1所述的一种基于深度强化学习中央空调控制方法，其特征在于，奖励值包括能耗成本和舒适度，根据控制区域内的人数调整舒适度指数的权重。

5.如权利要求4所述的一种基于深度强化学习中央空调控制方法，其特征在于，奖励值为：

εi,t＝μKi,t

6.如权利要求5所述的一种基于深度强化学习中央空调控制方法，其特征在于，舒适度由前馈神经网络根据控制区域内的人数、室外天气的温度、控制区域室内温度、控制区域室内二氧化碳浓度、每个时间段的电价和控制区域产生的能耗得到。

7.如权利要求1所述的一种基于深度强化学习中央空调控制方法，其特征在于，计算目标值时，在下一个状态的动作上加入扰动。

8.一种基于深度强化学习中央空调控制系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现了如权利要求1-7任一项所述的基于深度强化学习中央空调控制方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现了如权利要求1-7任一项所述的基于深度强化学习中央空调控制方法的步骤。