CN116792890A

CN116792890A - 基于策略蒸馏的机房空调智能控制方法和系统

Info

Publication number: CN116792890A
Application number: CN202310556399.0A
Authority: CN
Inventors: 吴超; 李骏翔; 李兆丰; 吴成铭; 何政达; 刘松楠; 黄亮; 裴淞莹
Original assignee: Zhejiang Post & Telecommunication Engineering Construction Co ltd
Current assignee: Zhejiang Post & Telecommunication Engineering Construction Co ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-22
Anticipated expiration: 2043-05-17
Also published as: CN116792890B

Abstract

本发明公开了一种基于策略蒸馏的机房空调智能控制方法和系统。在新机房部署前，获取新机房的环境状态，并将在其它环境状态相似的机房中已经训练过一段时间的深度强化学习算法模型作为老师模型，使用迁移强化学习算法中的策略蒸馏算法，迁移到新机房的学生模型中，获得适合部署的深度强化学习算法模型，再将该模型部署到新机房，每小时根据机房当前环境状态，通过深度强化学习算法生成机房调控策略，之后执行机房调控策略进行空调调控并保存调控记录，每次调控后，深度强化学习算法模型依据历史的调控情况进行学习优化。本方案使用策略蒸馏算法减少深度强化学习算法初期学习的时间，使得深度强化学习智能体在初期的时候，就具备比较好的调控效果。

Description

基于策略蒸馏的机房空调智能控制方法和系统

技术领域

本发明属于机房设备管理技术领域，尤其是涉及一种基于策略蒸馏的机房空调智能控制方法和系统。

背景技术

目前传统的网络机房设备维护模式是以人工为基础，依靠人工轮流值班，需要人工24小时巡回查看等方式维护设备，机房大多数时间都无人值守，对于可能出现的紧急情况无法做到及时有效地响应，机房空调设备的设置参数通常固定不变，存在过度设置或者设置不当的可能，可能会导致压缩机频繁启停，影响空调使用寿命，也会造成电能浪费。同时，人工调控效果也极为有限，人工调控可以通过手动设置空调的设定温度来改变机房的室内温湿度，但面对复杂多变的机房环境，机房内部热负荷、外界环境不断变化，人力资源的短缺，使得大规模推广变得难以实现。

基于上述问题，部分方案采用规则控制的方法，根据室内外温度情况以及工作人员经验，采用人为调控的方式，先把空调设置在一个较低的设定温度，在外界温度较低时将空调的设定温度升高几度，在外界温度较高时将空调设定温度降低几度，同时机房大多数时间都无人值守，对于可能出现的紧急情况无法做到及时有效地响应，同时也存在着过度设置或者设置不当的可能，可能会导致压缩机频繁启停，影响空调使用寿命，也会造成电能浪费。同时，人工调控效果也极为有限，面对复杂多变的机房环境，机房内部热负荷、外界环境不断变化，人力资源的短缺，使得大规模推广变得难以实现。

部分方案在基于规则调控的基础之上提出了利用深度强化学习算法生成空调控制策略来控制机房的环境。如公开号为CN112050397A的专利文献公开了一种机房温度调控方法及系统，通过深度强化学习算法，对每个机房训练在不同条件下的空调控制策略，使机房内的温度在不超过机房规定的温度上限的情况下，尽可能达到节能的目的。

使用深度强化学习算法，每隔一段时间，会对机房空调的设定温度进行调控，每进行一次调控，就会对机房调控的效果进行学习，在初期的时候，深度强化学习算法生成的空调控制策略效果是比较差的，随着智能体不断地学习，调控效果会逐渐变好。

在使用深度强化学习算法生成空调控制策略的时候，由于算法本身的原因，需要在初期的时候进行长时间的学习，由于机房这个场景比较特殊，每进行一次调控，会改变空调的设定温度，而空调设定温度的变化，到机房室内环境的变化稳定需要一定的时间。这就导致我们每次调控都需要比较长的时间等待室内环境变得稳定，而每次调控完毕后，深度强化学习算法都会进行一次学习，而较长的调控时间，会导致深度强化学习算法初期的学习时间就会变得很长。

因此，在使用深度强化学习算法时需要在初期进行对算法进行大量的训练和学习，但由于机房本身环境的限制，每次训练时间都会非常长，导致在初期的时候深度强化学习算法生成的空调控制策略效果比较差。

发明内容

为了解决上述的技术问题，本发明的目的是提供一种基于策略蒸馏的机房空调智能控制方法和系统，使用策略蒸馏算法减少深度强化学习算法初期学习的时间，使得深度强化学习智能体在初期的时候，就具备比较好的调控效果。

为了达到上述的目的，本发明采用了以下的技术方案：

一种基于策略蒸馏的机房空调智能控制方法，包括如下步骤：

1)在新机房部署前，获取新机房的环境状态，并将在其它环境状态相似的机房中已经训练过一段时间的深度强化学习算法模型作为老师模型，使用迁移强化学习算法中的策略蒸馏算法，迁移到新机房的学生模型中，获得适合新机房部署的深度强化学习算法模型；

2)将所述适合新机房部署的深度强化学习算法模型部署到新机房，每小时根据机房当前环境状态，通过深度强化学习算法生成机房调控策略，之后执行机房调控策略进行空调调控并保存调控记录，每次调控后，深度强化学习算法模型依据历史的调控情况进行学习优化。

作为优选，所述步骤1)中，先确定要使用策略蒸馏算法的学生机房和老师机房，如果学生机房是第一次加载的话，先初始化学生机房的模型中的神经网络，获取所有指定的老师机房的历史调控数据，之后根据老师机房的历史调控数据进行训练。

作为优选，所述步骤1)中，学生模型的训练方法如下：

根据老师机房的历史调控数据，每次训练随机获取一部分调控前的环境状态和老师机房的调控策略根据这个调控状态，使用学生机房的神经网络生成学生机房的调控策略/>将学生机房的神经网络生成的调控策略和老师机房历史的调控策略进行对比，采用KL散度的损失函数作为策略蒸馏的损失函数，希望能最小化KL散度损失，最后依据KL散度更新学生机房的神经网络；

KL散度：其中/>和/>代表第i个调控环境状态θ_S的输入下教师模型和学生模型输出的动作预期奖励，τ为策略蒸馏中的温度参数，在本发明场景中一般取值小于1，并不是真实的温度。进一步优选，τ为0.005～0.015。低于0.005时，会更多地学习q值更高的知识，导致模型泛化性能较差，容易过拟合；反之，高于0.015时，学习效率会降低，模型训练时间较长。

作为优选，所述步骤2)中，每个小时整点的时候，每个机房根据当前近一小时的环境，通过深度强化学习算法中的Double-DQN算法，生成每个机房的调控策略。

进一步优选，所述步骤2)中，深度强化学习算法模型在学习的时候采取带权重随机选择历史调控记录，使得历史调控记录中的历史环境和当前环境更相近的调控记录会有更高的概率被选择。

进一步优选，历史环境和当前环境的对比方式如下：

当前环境的环境状态为(S₁，S₂，...，S_n)，历史环境的环境状态为(S′₁，S′₂，...，S′_n)，两者之间的差距为dif＝abs(S′₁-S₁)/S₁+abs(S′₂-S₂)/S₂+...+abs(S′_n-S_n)/S_n，差距越小越相近，在随机选择时给予更高的概率选择，对于前10％的数据给予10的权重，前10％-20％的数据给予9的权重，以此类推，最后10％的数据给予1的权重。

一种基于策略蒸馏的机房空调智能控制系统，实施如上所述的一种基于策略蒸馏的机房空调智能控制方法，包括：

采集器，用于采集机房环境状态数据并上传服务器；

服务器，用于接收并存储采集器上传的机房环境状态数据；如是尚未部署算法模型的新机房，则首先根据新机房环境状态数据，将在其它环境状态相似的机房中已经训练过一段时间的深度强化学习算法模型作为老师模型，使用迁移强化学习算法中的策略蒸馏算法，迁移学习训练获得适合新机房部署的深度强化学习算法模型，然后将该深度强化学习算法模型部署到该新机房，并生成机房调控策略并下发至该新机房的空调设备执行，同时保存调控记录；如是已经部署算法模型的机房，则根据机房环境状态数据，通过深度强化学习算法生成机房调控策略并下发至该机房的空调设备执行，同时保存调控记录，每次调控后，深度强化学习算法模型依据历史的调控情况进行学习优化；

空调设备，接收并执行服务器下发的机房调控策略。

作为优选，所述采集器包括空调采集器、温湿度采集器和能耗采集器。

作为优选，所述机房环境状态数据包括机房位置、机房面积及层高、机房设备类型及数量、空调设备数量及制冷量、空调设备出风口数量及位置、机房门窗位置及数量、机房外部温湿度、机房内部温湿度、机房设备工作状态、空调设备工作状态、机房门窗开关状态、机房设备能耗情况。这里的空调设备包括工业空调、中央空调、独立空调、通风设备、排风设备等各种能够改变机房内部温湿度的设备。这里的机房设备包括在机房中使用的电源、服务器、交换机、路由器、硬件网关、硬件防火墙和监控设备等，但并不包括上述空调设备。

本发明由于采用了以上的技术方案，在新机房部署的时候，利用其它的环境相似的已经训练过一段时间机房中的深度强化学习算法模型作为老师模型，使用迁移强化学习算法中的策略蒸馏算法，迁移到新机房的模型中，使得新机房的模型在初期的时候就具备一定的调控效果。这样，不仅可以使用策略蒸馏算法减少深度强化学习算法初期学习的时间，而且使得深度强化学习智能体在初期的时候，就具备比较好的调控效果和节能效果。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的限定。

图1为本发明迁移强化学习算法部分的流程图。

图2为本发明深度强化学习算法部分的流程图。

图3为本发明现场采集器设备的安装调试流程图。

图4为本发明实施策略蒸馏算法的流程图。

图5为本发明策略蒸馏算法的训练流程图。

图6为本发明策略蒸馏算法的训练原理图。

图7为机房使用策略蒸馏算法初始化和带权重随机选择模型的节能效果图。

图8为机房使用随机初始化和带权重随机选择模型的节能效果图。

图9为机房使用随机初始化和随机选择模型的节能效果图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，除非上下文另有明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上，除非另有明确的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

实施例1：

如图1所示，所述步骤1)中，先确定要使用策略蒸馏算法的学生机房和老师机房，如果学生机房是第一次加载的话，先初始化学生机房的模型中的神经网络，获取所有指定的老师机房的历史调控数据，之后根据老师机房的历史调控数据进行训练。

如图2所示，所述步骤2)中，每个小时整点的时候，每个机房根据当前近一小时的环境，通过深度强化学习算法中的Double-DQN算法，生成每个机房的调控策略。

采集器，用于采集机房环境状态数据并上传服务器；

空调设备，接收并执行服务器下发的机房调控策略。

本实施例优选，所述机房环境状态数据包括但不限于机房位置、机房面积及层高、机房设备类型及数量、空调设备数量及制冷量、空调设备出风口数量及位置、机房门窗位置及数量、机房外部温湿度、机房内部温湿度、机房设备工作状态、空调设备工作状态、机房门窗开关状态、机房设备能耗情况。这里的空调设备包括工业空调、中央空调、独立空调、通风设备、排风设备等各种能够改变机房内部温湿度的设备。这里的机房设备包括在机房中使用的电源、服务器、交换机、路由器、硬件网关、硬件防火墙和监控设备等，但并不包括上述空调设备。

本实施例优选，所述采集器包括但不限于空调采集器、温湿度采集器和能耗采集器等。这里的空调采集器包括空调自带的传感器和现场加装的传感器，用于采集空调的设备信息、出风口温度、湿度、风速、制冷量等数据。这里的温湿度采集器是指独立安装在机房内的温湿度传感器。这里的能耗采集器是指通过监测电压、电流、功率等来获得各机房设备和空调设备的耗电量的装置。

下面以一个机房的安装部署调控案例进行具体说明如下：

首先，如图3所示，维护人员在机房现场安装采集器设备(空调采集器、温湿度采集器、能耗采集器)，之后将采集器设备利用AI配置工具进行配置，之后工作人员在线上进行可调控/可用测试，在通过测试之后可以开始算法模型部署。

在新机房部署前，先使用迁移强化学习算法中的策略蒸馏算法，训练获得适合新机房部署的深度强化学习算法模型。

如图4所示，首先确定蒸馏算法的学生机房，之后确定策略蒸馏算法的老师机房，之后确定策略蒸馏算法训练次数trian_time，之后随机初始化学生机房的模型中的参数以及神经网络，之后获取老师机房的历史调控数据，确定每次训练需要的数据数量batch_size以及策略蒸馏的温度参数τ，之后开始训练。学生模型的训练方法如下：

KL散度：

其中，和/>代表第i个调控环境状态θ_S的输入下教师模型和学生模型输出的动作预期奖励，τ为策略蒸馏中的温度参数，在本发明场景中一般取值小于1，并不是真实的温度。进一步优选，τ为0.005～0.015。低于0.005时，会更多地学习q值更高的知识，导致模型泛化性能较差，容易过拟合；反之，高于0.015时，学习效率会降低，模型训练时间较长。本实施例中，τ为0.01。

如图5和图6所示，每次训练，遍历所有的老师机房，对于每个老师机房，先从老师机房的历史数据中随机选取batch_size个数据，之后取出其中的调控前的状态S^T，以及调控的动作的未来预期奖励q^T，学生机房的神经网络根据老师机房的S^T，生成学生机房的调控动作的未来预期奖励q^s，根据q^T，q^s，τ计算KL散度并把KL散度当做loss更新学生机房的神经网络。

机房的调控模型和日常训练采用深度强化学习算法模型。在机房环境中使用深度强化学习算法，在不用的机房环境下通过深度强化学习算法生成空调控制策略，并执行这个空调调控策略，相比起传统的调控方式，能够自动学习到更加有效的调控方式，最终达到节能电费的效果。

本实施例优选使用的深度强化学习方法是使用的Double-DQN算法，迁移强化学习算法是策略蒸馏(Policy Distillation)算法，可以在相同的场景下使用不同的深度强化学习方法或者不同的迁移强化学习方法。比如，强化学习算法中的：A3C算法，Dueling DQN算法；迁移强化学习算法中的：Actor-mimic算法等。

本实施例中，Double-DQN算法智能体包括两个网络：实时更新的评估(eval)神经网络和延迟更新的目标(target)网络，通过这两种网络和经验池以及暂时冻结target网络的参数这些方法使得Double-DQN智能体具有强大的学习能力。

首先确定网络中的经验池为D，eval神经网络为θ，target的神经网络为θ^-，之后每个整点的时候进行调控和训练。

在每个整点的时候，获取上两个小时到上一个小时的机房环境状态S_t-1(s₁，s₂，...，s_n)，之后获取上一个小时到现在的机房环境状态S_t(s₁，s₂，...，s_n)，之后获取上一个小时到现在的空调能耗R_t，之后获取上一次执行的调控动作a_t-1，之后根据调控状态S_t，以及当前的eval神经网络，选择调控动作之后执行调控动作a_t，并储存(θ，S_t-1，a_t-1，S_t，R_t)到经验池D，之后开始学习流程。

从经验池D中选择历史数据(θ，S_i-1，a_i-1，S_i，R_i)，进行学习并计算y₂＝R_i+γQ(S_i，argmaxaQ(S_i，a，θ)，θ^-)，使用损失函数SmoothL1Loss，如果|y₁-y₂|<1，那么loss＝0.5(y₁-y₂)²，否则loss＝|y₁-y₂|-0.5，之后根据loss更新神经网络。

其中，调控记录里的奖励R为每小时的空调耗电量的负数。设置target网络的更新频率为sync_every，每调控sync_every次就把target网络更新为eval网络。设置开始学习时间train_limit，在调控超过train_limit次后才进行学习。

深度强化学习算法在每次调控完之后都会对依据历史调控记录来进行学习，学习的时候，原本是会从历史调控记录随机选择一些调控记录来学习，而在机房环境中，外界环境的变化是有季节性地周期性地变化，也就是说在上个月调控时的环境，可能在接下来几个月甚至一年内都不会遇到，因此我们希望在学习的时候能够学习到更适合当前环境的知识。因此，我们把在学习的时候随机选择调控记录，改成带权重随机选择。也就是说，历史调控记录中的历史环境和当前环境更相近的调控记录会有更高的概率被选择，也就是说我们选择的时候会更多地选择和当前环境更相近的知识进行学习。

历史环境和当前环境的对比方式如下：

如图7所示，为使用本实施例方法系统的机房初始30天的节能情况：将一个已经经过半年训练的老师模型蒸馏到指定的学生模型，观察其在初始30天的节能调控情况，可以计算出机房30天的平均节能率为16.33％，相比于没使用蒸馏算法的模型，使用策略蒸馏算法的机房模型在初期的时候就具备了一定的调控效果，整体的节能率在初始30天的效果相比于没使用蒸馏算法的模型要好很多，而且节能率大多在正数，模型进行随机探索的次数较少。

如图8所示，为同一机房使用随机初始化带权重随机选择模型，初始30天的节能情况：可以计算出机房30天的平均节能率为8.94％，模型在进行探索的次数较多，所以机房的节能率波动比较大，但相比于未使用带权重随机选择的模型，表现出了较好的节能效果。

如图9所示，为同一机房使用随机初始化模型，初始30天的节能情况：可以计算出机房30天的平均节能率为5.53％，与使用带权重随机选择的模型类似，在初期的时候模型探索的次数较多，机房节能情况波动较大，并且最后整体的节能效果一般。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“一种实施方式”、“具体实施方式”、“其他实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例、实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，上述描述的具体特征、结构、材料或者特点也可以在任何的一个或多个实施例、实施方式或示例中以合适的方式结合。本发明记载的技术方案也包括上述描述的任意一个或多个具体特征、结构、材料或者特点以单独或者组合的方式形成的技术方案。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换、变型、删除部分特征、增加特征或重新进行特征组合形成的技术方案，凡是依据本发明的创新原理对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于策略蒸馏的机房空调智能控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述一种基于策略蒸馏的机房空调智能控制方法，其特征在于，所述步骤1)中，先确定要使用策略蒸馏算法的学生机房和老师机房，如果学生机房是第一次加载的话，先初始化学生机房的模型中的神经网络，获取所有指定的老师机房的历史调控数据，之后根据老师机房的历史调控数据进行训练。

3.根据权利要求2所述一种基于策略蒸馏的机房空调智能控制方法，其特征在于，所述步骤1)中，学生模型的训练方法如下：

KL散度：其中/>和/>代表第i个调控环境状态θ_S的输入下教师模型和学生模型输出的动作预期奖励，τ为策略蒸馏中的温度参数。

4.根据权利要求3所述一种基于策略蒸馏的机房空调智能控制方法，其特征在于，τ为0.005～0.015。

5.根据权利要求1所述一种基于策略蒸馏的机房空调智能控制方法，其特征在于，所述步骤2)中，每个小时整点的时候，每个机房根据当前近一小时的环境，通过深度强化学习算法中的Double-DQN算法，生成每个机房的调控策略。

6.根据权利要求5所述一种基于策略蒸馏的机房空调智能控制方法，其特征在于，所述步骤2)中，深度强化学习算法模型在学习的时候采取带权重随机选择历史调控记录，使得历史调控记录中的历史环境和当前环境更相近的调控记录会有更高的概率被选择。

7.根据权利要求6所述一种基于策略蒸馏的机房空调智能控制方法，其特征在于，历史环境和当前环境的对比方式如下：

当前环境的环境状态为(S₁，S₂，...，S_n),历史环境的环境状态为(S′₁，S′₂，...，S′_n)，两者之间的差距为dif＝abs(S′₁-S₁)/S₁+abs(S′₂-S₂)/S₂+...+abs(S′_n-S_n)/S_n，差距越小越相近，在随机选择时给予更高的概率选择，对于前10％的数据给予10的权重，前10％-20％的数据给予9的权重，以此类推，最后10％的数据给予1的权重。

8.一种基于策略蒸馏的机房空调智能控制系统，其特征在于，实施如权利要求1至7中任一项所述的一种基于策略蒸馏的机房空调智能控制方法，包括：

采集器，用于采集机房环境状态数据并上传服务器；

空调设备，接收并执行服务器下发的机房调控策略。

9.根据权利要求8所述一种基于策略蒸馏的机房空调智能控制系统，其特征在于，所述采集器包括空调采集器、温湿度采集器和能耗采集器。

10.根据权利要求8所述一种基于策略蒸馏的机房空调智能控制系统，其特征在于，所述机房环境状态数据包括机房位置、机房面积及层高、机房设备类型及数量、空调设备数量及制冷量、空调设备出风口数量及位置、机房门窗位置及数量、机房外部温湿度、机房内部温湿度、机房设备工作状态、空调设备工作状态、机房门窗开关状态、机房设备能耗情况。