CN113821903B

CN113821903B - 温度控制方法和设备、模块化数据中心及存储介质

Info

Publication number: CN113821903B
Application number: CN202110778803.XA
Authority: CN
Inventors: 唐静娴; 林依挺; 贾庆山; 夏恒; 吴俊杰; 王宇恒
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2024-02-06
Anticipated expiration: 2041-07-09
Also published as: CN113821903A

Abstract

公开了一种温度控制方法和设备、模块化数据中心以及计算机可读存储介质。该温度控制方法包括：获取受控对象的运行状态，所述运行状态包括受控对象的温度场相关信息和功耗相关信息；将所述运行状态作为输入数据输入到温度控制策略模型，所述温度控制策略模型被配置成基于输入数据生成指示针对受控对象的温度控制动作的输出数据；根据所述温度控制策略模型的输出数据，对受控对象进行温度控制。该温度控制方法利用了机器学习、尤其是强化学习技术实现了受控对象的智能温控。

Description

温度控制方法和设备、模块化数据中心及存储介质

技术领域

本公开涉及计算机技术领域，具体地涉及一种温度控制方法和设备、模块化数据中心以及计算机可读存储介质。

背景技术

随着经济的发展，诸如网络机房、数据中心之类的建筑物的复杂度和规模以及和内部空间的各种设备的部署密度显著提高，因此其内部空间的空气温度控制（尤其是冷却）和能耗控制变得尤为重要。

数据中心已经成为现代社会的基础设施之一，它不仅承载大量的互联网应用，而且伴随着物联网技术的普及、5G 商用、边缘计算走进生活，当今大型数据中心的计算能力、信息处理能力、网络通信能力等已经成为国家核心竞争力的标志之一。数据中心在过去10年间高速发展，与此同时，其运行能耗也与日俱增。因而，研究数据中心的运行节能具有重要的社会意义和经济价值。2012-2016年，我国数据中心耗电量以超过12%的速度快速增长。据预测，随着机架数的快速增长，我国数据中心总能耗将在2023年突破2,600亿千瓦时，在全社会总用电量占比达到3.6%。为了提高数据中心能效、优化PUE指标，最直接有效的办法是降低制冷系统的能耗。然而，由于数据中心内部复杂的结构和动态特性，如何在有效的温度管理和降低制冷能耗之间找到平衡，仍然是业内的挑战性问题。

发明内容

本发明的目的是克服相关技术的缺陷中至少一种。

根据本公开的一个方面，提供了一种温度控制方法，包括：获取受控对象的运行状态，所述运行状态包括受控对象的温度场相关信息和功耗相关信息；将所述运行状态作为输入数据输入到温度控制策略模型，所述温度控制策略模型被配置成基于输入数据生成指示针对受控对象的温度控制动作的输出数据；根据所述温度控制策略模型的输出数据，对受控对象进行温度控制。所述温度控制策略模型通过下述步骤得到：设定用于获取温度控制策略的强化学习的要素；基于所述用于获取温度控制策略的强化学习的要素，通过强化学习训练策略模型，以得到第一最优策略模型，作为所述温度控制策略模型。其中，用于获取温度控制策略的强化学习的要素包括：状态、行为、回报函数、策略模型、环境模型，其中状态被设定为受控对象的运行状态；行为被设定为针对受控对象的温度控制动作；回报函数被设定为针对所述温度控制动作的评价；策略模型被设定为待训练的神经网络模型，其被配置成基于受控对象的运行状态输出针对受控对象的温度控制动作；环境模型被设定为基于受控对象的计算流体动力学模型预先训练的神经网络模型，其被配置成基于针对受控对象的温度控制动作预测受控对象的运行状态的变化。

根据本公开的另一方面，提供一种温度控制设备，包括：处理器；以及存储器，其上存储有指令，所述指令当在所述处理器上执行时促使所述处理器执行根据本公开一些实施例的温度控制方法。

根据本公开的另一方面，提供一种模块化数据中心，包括：微模块；以及用于对微模块进行温度控制的根据本公开一些实施例的温度控制设备。

根据本公开的另一方面，提供一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令在被执行时实现根据本公开一些实施例的温度控制方法。

在根据本公开一些实施例的温度控制方法中，首先，通过强化学习算法获取预训练的温度控制策略模型可以预先离线进行，并在需要时部署到受控对象中，直接利用经预训练的温度控制策略模型实现受控对象的温度控制，从而避免了在受控对象温度控制过程中进行在线动态实时训练或创建温度控制策略所带来的算力要求高的问题，显著降低了在线计算开销，提升了工作效率；其次，由于在强化学习的训练过程中使用了基于CFD模型预训练的神经网络模型作为环境模型，在保留CFD模型的仿真精确性（精细准确）的前提下，充分发挥神经网络计算速度块和训练成本低的优势，避免了CFD模型的仿真速度慢的问题，显著提升了的仿真速度且降低了环境模型的训练成本，为强化学习和训练过程提供一个成本高效且仿真精确的信息交互环境，进而提升了温度控制策略的训练（和潜在的在线调整）的速度，进一步改进了工作效率和整体性能。

附图说明

根据以下详细描述和附图，将容易理解本公开的各个不同的方面、特征和优点，在附图中：

图1示意性示出强化学习的原理图；

图2A示意性示出根据本公开一些实施例的温度控制方法的示例实施环境；

图2B示意性示出根据本公开一些实施例的温度控制方法在图2A的实施环境中实现的示例交互流程图；

图3示意性示出根据本公开一些实施例的温度控制方法的流程图；

图4A示意性示出根据本公开一些实施例的温度控制方法的流程图；

图4B示出受控对象的计算流体动力学模型的建模示意图；

图5示意性示出根据本公开一些实施例的温度控制方法的流程图

图6A和6B分别示意性示出根据本公开一些实施例的温度控制方法的流程图；

图6C示意性示出图6A和6B所示的温度控制方法的示例架构原理图；

图7示意性示出根据本公开一些实施例的温度控制设备的结构框图。

应当指出，上述附图仅仅是示意性的和说明性的，且并不一定按照比例绘制。

具体实施方式

下面将参照附图更详细地描述本公开的若干个实施例以便使得本领域技术人员能够实现本公开。本公开可以体现为许多不同的形式和目的并且不应局限于本文所阐述的实施例。提供这些实施例以使得本公开全面且完整，并充分地向本领域技术人员传达本公开的范围。所述实施例并不限定本公开。

将理解的是，尽管术语第一、第二、第三等在本文中可以用来描述各种元件、部件和/或部分，但是这些元件、部件和/或部分不应当由这些术语限制。这些术语仅用来将一个元件、部件或部分与另一个元件、部件或部分相区分。因此，下面讨论的第一元件、部件或部分可以被称为第二元件、部件或部分而不偏离本公开的教导。

本文中使用的术语仅出于描述特定实施例的目的并且不意图限制本发明。如本文中使用的，单数形式“一个”、“一”和“该”意图也包括复数形式，除非上下文清楚地另有指示。将进一步理解的是，术语“包括”和/或“包含”当在本说明书中使用时指定所述及特征、整体、步骤、操作、元件和/或部件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其群组的存在或添加一个或多个其他特征、整体、步骤、操作、元件、部件和/或其群组。如本文中使用的，术语“和/或”包括相关联的列出项目中的一个或多个的任意和全部组合。

除非另有定义，本文中使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域的普通技术人员所通常理解的相同含义。将进一步理解的是，诸如那些在通常使用的字典中定义的之类的术语应当被解释为具有与其在相关领域和/或本说明书上下文中的含义相一致的含义，并且将不在理想化或过于正式的意义上进行解释，除非本文中明确地如此定义。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通、自动控制等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的温度控制方法和设备涉及人工智能的机器学习，尤其是深度学习和强化学习等技术，具体通过下文中所描述的实施例进行说明。

在详细介绍本发明的实施例之前，为了清楚起见，首先对一些相关的概念进行解释：

1、模块化数据中心（MDC：Modular Data Center），指完全按照模块化设计思路搭建的可快速部署的数据中心模型，数据中心内部由N个完全相同的微模块（Micro Module）组成。MDC与传统机房相比，制冷效率提高12%以上，空间节省50%左右，正在逐步取代传统数据中心机房。

2、冷通道和热通道

数据中心中将机柜采用“背靠背、面对面”摆放，这样在两排机柜的正面面对通道中间布置冷风出口，形成一个冷空气区，该通道称为“冷通道”；冷空气流经设备后形成的热空气，排放到两排机柜背面面对的通道中，该通道被称为“热通道”。

2、微模块，指以若干机架为基本单位，包含制冷模块、供配电模块以及网络、布线、监控在内的独立的运行单元。该模块全部组件可在工厂预制，并可灵活拆卸，快速组装。

3、电能使用效率（PUE：Power Usage Effectiveness），指数据中心用电总量与IT设备用电量之比。该指标是衡量数据中心能源效率的国际通用指标，越接近1则数据中心能效越高。

4、计算流体动力学（CFD：Computational Fluid Dynamics）仿真，指通过计算机进行数值计算，对气体流动和传热进行模拟和分析。CFD仿真技术能够准确描述数据中心内部的气流组织和温度场，目前被广泛应用于数据中心规划设计和节能改造。CFD仿真可应用于对室内空气分布情况进行模拟和预测，从而得到房间内空气流动速度、温度、湿度以及有害物浓度等物理量的详细分布情况。

5、比例积分微分控制（PID控制，Proportional-Integral-Derivative Control），指根据给定值和实际输出值构成控制偏差，将偏差按比例、积分和微分通过线性组合构成控制量，对被控对象进行控制。由于其算法简单、可靠性高，被广泛应用于工业过程控制。

目前我国在用数据中心的平均PUE约为1.73，远高于全球水平1.58，为了提高数据中心能效、优化PUE指标，最直接有效的办法是降低制冷系统的能耗。然而，由于数据中心内部复杂的结构和动态特性，确定其温度场分布和气流组织依赖复杂的流体力学与热力学计算，目前在数据中心的温度场研究中，多数使用计算流体动力学（CFD）仿真进行建模分析。CFD仿真极其精细，能够比较准确地估计出数据中心的温度分布，但计算负荷大、耗时长（在64位Win10系统，3.2GHz 4核CPU的硬件条件下，仿真一台MDC 24h的温度场变化需要花费现实时间的30h），实用性不强。如何在有效的温度管理和降低制冷能耗之间找到平衡，仍然是业内的挑战性问题。

在相关技术的温度控制（尤其是冷却）方法中，通常包括静态温度控制策略或简单的动态温度控制策略。静态温度控制策略例如包括在数据中心规划时优化内部结构、设计固定的制冷方案；而动态温度控制策略例如包括通过PID控制实现冷却策略的动态优化，或者基于模型的实时制冷策略优化等。然而，静态温度控制方法为了应对数据中心的突发情况，通常会采取最为保守的制冷策略，导致大部分情况下过度制冷，尚有较大的优化空间。而简单的动态温度控制方法被动地响应环境中的温度热点，无法对温度场进行总体的估计，且由于数据中心内部复杂的热耦合，这些策略通常会产生冷却滞后的问题。现有的基于模型的动态优化方法存在两个弊端：其一是模型不准确，导致基于模型的最优策略在现实场景中性能不佳；其二是实时的优化求解对算力要求高。

针对相关技术的上述问题，发明人提出了一种针对数据中心或其中的微模块之类的受控对象的温度控制方法，该方法利用强化学习算法利用基于CFD仿真数据预先训练好的环境模型对温度控制策略进行线下预训练，随后利用经预训的温度控制策略对受控对象进行温度控制。与相关技术相比，根据本公开的温度控制方法，无需线上实时求解温度控制策略，策略下发速度快、算力需求小；而且其中的环境模型是基于深度学习神经网络的CFD等效加速模型，其是基于神经网络模型和CFD模型训练得到的，于是在保留CFD模型准确性的同时提高计算速度。

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境（environment）的交互过程中通过学习策略以达成回报（Reward）最大化或实现特定目标的问题。强化学习是通过让智能体不断地对所处环境进行探索和开发并根据反馈的回报或奖励进行的一种经验学习。

强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process，MDP）。一个强化学习任务如果满足马尔可夫性质则被称为马尔可夫决策过程。MDP是在环境中模拟智能体的随机性策略与回报的数学模型，且环境的状态具有马尔可夫性质。马尔可夫性质（Markov property）是概率论中的一个概念，因为俄国数学家安德雷·马尔可夫得名。当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态；换句话说，在给定现在状态时，它与过去状态（即该过程的历史路径）是条件独立的，那么此随机过程即具有马尔可夫性质。

由确定可知，MDP包含一组交互对象，即智能体和环境。智能体是MDP中进行机器学习的代理，可以感知外界环境的状态以进行决策、对针对环境状态给出行为并通过环境的反馈调整决策。环境是MDP模型中智能体外部所有事物的集合，其状态会受智能体行为的影响而改变，且上述改变可以完全或部分地被智能体感知。环境在每次决策后可能会反馈给智能体相应的回报，作为对相应决策或行为的评价。

强化学习（例如MDP模型）可以包含下述要素：状态（state）、行为（action）、策略（policy）、立即回报（reward）和累计回报、可选的环境模型等，其常用的符号表示与说明在表1中给出。

表1-强化学习的要素示例

图1示意性示出强化学习的基本原理。如图1所示，机器人指代智能体，地球指代环境。强化学习的特点在于智能体在与环境的交互中不断试错，从错误中学习经验并调整之后的决策或行为，最终总结出能最大化预期累计回报的策略。如图1所示，智能体与环境之间的具体交互过程如下：智能体对当前环境状态s_t进行感知，按策略实施行为a_t作用于环境，环境接受该行为a_t后状态发生变化（s_t变化s_t+1），同时产生一个强化信号—表示奖或惩的回报r_t+1，反馈给智能体，随后智能体根据强化信号r_t+1和环境状态s_t+1再选择下一个行为，选择的原则是使受到正回报的概率增大；以此类推，以实现二者之间的持续交互。选择的行为不仅影响立即回报值，而且影响环境下一时刻的状态及最终的累计回报值，直到达到学习目标为止。也就是说，如果智能体的某个决策或给出的行为导致环境正的收益，那么智能体以后产生此行为策略的趋势便会加强。智能体的学习或训练目标是在每个离散状态发现最优策略以使期望的累计回报最大。强化学习中的回报函数的设计方式通常取决于对应的具体应用场景和所要解决的问题。借助强化学习算法如DQN，DDPG,PPO等，均可基于强化学习的各个要素求解得到强化学习的最优策略。

图2A示意性示出了根据本公开一些实施例的温度控制方法的示例实施环境200。如图2A所示，实施环境200可以包括受控对象210、温度服务器220、以及用于连接受控对象210和温度控制服务器220的网络230。在一些实施例中，温度控制服务器220可以用于实现根据本公开的温度方法。例如该温度控制服务器220可以部署有用于执行本公开提供的各种方法的相应程序或指令，并且温度控制服务器220和受控对象210也可以相互配合以实现根据本公开的各种方法。

受控对象210可以是任何类型封闭环境或空间，例如汽车内部空间、建筑物内部空间等，例如网络机房、服务器机房，或者封闭空间内的物体，例如机房中的至少一台服务器、计算机等。在一些实施例中，如图2A所示，特别地，受控对象210可以是数据中心。在一些实施例中，受控对象210可以是模块化数据中心210中的至少一个微模块，可选地及其周围空间区域。

温度控制服务器220可以是单个服务器或服务器集群，或者可以是能够提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器或云服务器集群。应理解，本文所提及的服务器典型地为具有大量存储器和处理器资源的服务器计算机，但是其他实施例也是可能的。可选地，温度服务器220也可以替换成普通的计算机、具备集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以通过与受控对象的交互实现温度控制。

网络230的示例包括局域网（LAN）、广域网（WAN）、个域网（PAN）、和/或诸如因特网之类的通信网络的组合。服务器220以及终端设备210可以包括能够通过网络230进行通信的至少一个通信接口（未示出）。这样的通信接口可以是下列各项中的一个或多个：任何类型的网络接口（例如，网络接口卡（NIC））、有线或无线（诸如IEEE 802.11无线LAN（WLAN））无线接口、全球微波接入互操作（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、BluetoothTM接口、近场通信（NFC）接口等。

图2B示出了根据本公开一些实施例的温度控制方法在图2A所示的示例实施环境200中实现的示例交互流程图。下面参考图2A所示的示例交互流程图简要描述根据本公开一些实施例的温度控制方法在实施环境200中的工作原理。

如图2B所示，首先，温度控制服务器220可以配置成：获取受控对象的运行状态，所述运行状态包括受控对象的温度场相关信息和功耗相关信息；将所述运行状态作为输入数据输入到温度控制策略模型，所述温度控制策略模被配置成基于输入数据生成指示针对受控对象的温度控制动作的输出数据；根据所述温度控制策略模型的输出数据，对受控对象进行温度控制。其中，所述温度控制策略模型通过下述步骤得到：设定用于获取温度控制策略的强化学习的要素，其包括状态、行为、回报函数、策略模型、环境模型，其中状态被设定为受控对象的运行状态；行为被设定为针对受控对象的温度控制动作；回报函数被设定为针对所述温度控制动作的评价；策略模型被设定为待训练的神经网络模型，其被配置成基于受控对象的运行状态输出针对受控对象的温度控制动作；环境模型被设定为基于受控对象的计算流体动力学模型预先训练的神经网络模型，其被配置成基于针对受控对象的温度控制动作预测受控对象的运行状态的变化；基于所述用于获取温度控制策略的强化学习的要素，通过强化学习训练策略模型，以得到第一最优策略模型，作为所述温度控制策略模型。可选地，温度控制服务器220可以进一步配置成从服务器210获取或接受控对象的历史数据以用于获得环境模型，例如用于通过建立CFD模型来训练神经网络以得到强化学习所需的环境模型。

图2A和图2B的示例实施环境和工作交互流程仅仅是示意性的，根据本公开的温度控制方法并不限于所示出的示例实施环境。应理解，虽然在图2A中，温度控制服务器220与受控对象210被示出和描述为分离的结构，但它们也可以是同一计算设备的不同组成部分。例如，可选地，根据本公开一些实施例的温度控制方法的实施环境也可以仅包括受控对象210，即在满足一定条件时，受控对象210也可以完成上述温度控制服务器220完成各个步骤。

图3示意性示出了根据本公开一些实施例的温度控制方法的流程图。如图3所示，根据本公开一些实施例的温度控制方法可以包括步骤S310-S330。

在步骤S310处，获取受控对象的运行状态。该运行状态包括受控对象的温度场相关信息和功耗相关信息。

在一些实施例中，根据本公开的温度控制方法中的受控对象可以包括各种具有边界的封闭或部分封闭环境或空间，例如建筑物内部空间、汽车内部空间等。更特别地，受控对象可以例如是用于放置计算机相关设备的房间，诸如网络机房、数据中心。在一些实施例中，受控对象可以包括模块化数据中心的之上一个微模块，这时通过强化学习得到的温度控制策略可以被部署到微模块中的制冷模块（例如包括用于调节温度的装置，如空调）中或用于直接控制制冷模块。

一般地，为了对受控对象进行温度控制，首先需要获得受控对象的运行状态相关信息，这样才能根据受控对象的具体运行状况（例如周边空气温度过高，需要冷却；或相关设备运行功率较大，需要通过冷却方法抑制热量增加）提出温度控制策略以用于决策如何进行温度控制。在一些实施例中，受控对象的运行状态可以包括受控对象的温度场相关信息和功耗相关信息。温度场相关信息可以包括受控对象所在环境或空间一个或多个检测点的空气温度、湿度等信息。例如，当受控对象为模块化数据中心的微模块时，运行状态可以包括受控的微模块中的冷热通道的温度分布向量。功耗相关信息可以包括诸如微模块之类的受控对象中各个设备的运行总功率，例如微模块中各个机架的IT运行负载（即微模块的机柜中的计算机相关设备（例如服务器等）运行中的实际功率）。可选地，受控对象的运行状态也可以包括受控对象的其他运行相关信息，例如受控对象本身的温度情况、非IT设备（例如空调设备）的运行功率等。

在步骤S320处，将所述运行状态作为输入数据输入到温度控制策略模型。该温度控制策略模被配置成基于输入数据生成指示针对受控对象的温度控制动作的输出数据。

在本公开中，如S320所述，可以通过强化学习得到的温度控制策略模型来实现受控对象的温度控制。具体地，该温度控制策略模型的输入可以包括受控对象的运行状态（例如包括受控对象的温度场相关信息和功耗相关信息），而输出可以是相应的温度控制动作。温度控制动作可以表示针对受控对象的空气调节装置（例如制冷和/或制热的空调）进行的参数调节或设定的动作。在一些实施例中，温度控制动作的具体数据可以被定义为受控对象的设定的空调参数（例如设定温度、风速等）。例如，微模块中的各个温度调节装置（例如热风加热系统和空调制冷系统）的设定的风机转速和送风温度。

在本公开中，显然用于获取温度控制策略的强化学习过程所针对的问题是温度控制问题，因此强化学习的目标是通过强化学习框架的构建和其中的策略模型的训练获取最优策略，将其作为用于针对受控对象进行温度控制的温度控制策略。因此，要想利用强化学习获取最优策略，首先需要构建针对具体问题的强化学习框架。具体而言，构建用于获取针对受控对象的温度控制策略的强化学习框架就是将上文所述的强化学习的几个要素（例如状态、行为、策略模型、回报函数、环境模型等）根据具体问题（即针对受控对象的温度控制）进行定义。

在一些实施例中，温度控制策略模型可以通过下述步骤得到：设定用于获取温度控制策略的强化学习的要素，其包括状态、行为、回报函数、策略模型、环境模型；基于用于获取温度控制策略的强化学习的要素，通过强化学习训练策略模型，以得到第一最优策略模型，作为温度控制策略模型。

在一些实施例中，如上文所述，在构建用于获取针对受控对象的温度控制策略的强化学习框架的过程中，状态可以被设定为受控对象的运行状态；行为可以被设定为针对受控对象的温度控制动作；回报函数可以被设定为针对所述温度控制动作的评价强化学习的要素的确定或选择是与受控对象相关的。在受控对象为模块化数据中心的至少一个微模块时，温度场相关信息可以包括数据中心中冷热通道温度信息，例如了冷热通道中至少一个观测点的温度；功耗相关信息可以包括数据中心的微模块中的各个机柜的IT负载，即微模块的机柜中的计算机相关设备（例如服务器等）运行中的实际功率；温度控制动作（或决策）包括微模块中的各个温度调节装置（例如热风加热系统和空调制冷系统）的设定的风机转速和送风温度；温度控制动作的评价可以包括两个因素：温度控制动作（例如设定空调风机转速）导致的温控功耗（比如空调制冷功耗）的惩罚和受控对象的温度场相关信息（例如微模块中冷热通道的温度分布向量）超过安全边界的惩罚。

在一些实施例中，策略模型被设定为待训练的神经网络模型，其被配置成基于受控对象的运行状态输出针对受控对象的温度控制动作。如上文所述，策略模型是强化学习的核心内容，因为强化学习的最终目的是寻找最优策略模型，使得根据策略模型决策的行为的长期平均回报最大化。因此，强化学习的过程本质上是策略模型的训练过程，即策略模型的参数调节和优化过程。策略模型的结构可以预先确定，例如可以采用深度强化学习神经网络作为其函数形式，通过强化学习算法（例如DQN、DDPG等）进行训练以得到最优的测量模型。

在强化学习中，一般地，环境模型可以被配置成用于与策略模型或相应的智能体进行交互以响应于行为确定状态的变化情况（例如状态转移概率）并基于所定义的回报函数给出行为的立即回报值，从而为强化学习提供训练样本数据以及为计算该行为的最终回报（例如基于策略的动作的长期平均回报）提供基础。具体地，在根据本公开一些实施例中，环境模型可以被设定为基于受控对象的计算流体动力学模型预先训练的神经网络模型，其被配置成基于针对受控对象的温度控制动作预测受控对象的运行状态的变化。基于温度控制动作预测受控对象运行状态的变化可以表示在受控对象当前时刻的运行状态的基础上、在温度控制动作的作用下，预测下一时刻的运行状态，即运行状态的变化情况。更具体地，环境模型在与策略模型交互过程中，可以基于当前时刻受控对象的温度场相关信息和功耗相关信息以及温度控制动作预测相邻的下一时刻的温度场相关信息和功耗相关信息。

在一些实施例中，基于受控对象的计算流体动力学（CFD）模型训练得到的环境模型可以是与CFD模型等效的仿真模型，以用于基于受控对象的状态模拟热力学和流体动力学相关信息，例如温度场相关信息等。进一步地，环境模型是由神经网络模型（作为环境模型的函数形式）预先训练得到的，该神经网络模型可以包括长短期记忆（LSTM，Long Short-Term Memory）网络。在训练过程中可以采用随机梯度下降法搜寻最优参数，以获得最终的环境模型。因此，根据本公开的环境模型在保留CFD模型的仿真精确性（精细准确）的前提下，可以充分发挥神经网络在计算速度和训练成本方面的优势，为强化学习提供一个成本高效的信息交互的仿真环境。在一些实施例中，据统计，根据本公开的环境模型与CFD模型相比可以实现十万分之一级别的提速，即仿真时间缩短至十万分之一的数量级。

下面，以受控对象为数据中心的至少一个微模块为例，介绍根据本公开的利用强化学习训练方法获取温度控制策略模型的过程。

首先，将数据中心微模块温度控制问题建模为马氏决策过程，即强化学习模型。考虑T+1个离散时间点或时刻t=0,1,2,…,T，T为大于等于2的正整数，两个相邻时刻的间隔可以是固定，也可以是不固定的。

其次，模型中观测变量（或观测数据）为O_t=(T_CA(t), T_HA(t), H_ITE(t))，其中T_CA(t)表示冷通道温度，T_HA(t)表示热通道温度，H_ITE(t)表示受控微模块的IT负载。可选地，观测变量被定义为进一步包括：空调回风温度、冷却水回水温度、冷却水流量、微模块中机柜的进风口温度和出风口温度。

一般地，可以认为微模块内部热力学系统动态具有W步的马氏性（即热力学系统的当前时刻的状态取决于当前时刻之前的W个时刻对应的时间段内的状态），其中W是根据经验预先确定的超参数，例如W对应的时间段可以取10分钟，而相应地W作为10分钟时间对应的离散时间点数量，可以取例如10、100等（这还取决于相邻时间点之间的间隔）。因此，可以采用时刻t之前（包含t）的连续W个时刻的可观测变量的值作为时刻t的状态s_t，即s_t=(O_t-W+1,…,O_t)。

在一些实施例中，温度控制动作a_t=(S_F(t),SP(t))，其中，S_F(t)表示t时刻微模块空调的风机转速，SP(t) 表示t时刻微模块（多个）空调的送风温度（向量）。

在一些实施例中，回报函数也可以称为立即回报函数，其可以由环境模型在被施加温度控制动作（如S_F(t),SP(t)）后H个（H<=W）时刻（步）内的温控功耗（或制冷功耗）和微模块冷热通道温度这两个因素决定。一方面，温控功耗最小化是问题的优化目标；另一方面，冷热通道温度是数据中心安全运行的边界条件。参数H不大于W是因为受到W步的马氏性假设的约束。H是预先根据经验确定的超参数，一般地H需要使得强化学习中的策略（即温度控制策略）能够让行为（即温度控制动作）产生作用进而让温度稳定下来，例如H可以取约3分钟。

在一些实施例中，立即回报函数r_t可以被定义为：

r_t= λ₁ + λ₂/> ₂，（1）

其中：

r_t1= （2）

（3）

是用于温控功耗的第一惩罚函数，λ₁和λ₂为正常数，表示权重系数（根据具体问题预先确定的超参数），j表示微模块中空调编号，J表示微模块中空调的数量； /> ₂是用于冷热通道温度超过安全边界的第二惩罚函数，其中M和N分别表示微模块中冷通道和热通道的测温点的个数，m和n分别表示冷通道和热通道测温点编号，k表示时间点或时刻，T_C0表示冷通道温度的安全边界（超参数，可以预先根据具体情况设定，例如可以设定为29 ℃），T_H0表示热通道温度的安全边界（超参数，可以预先根据具体情况设定，例如可以设定为45℃），函数log(1+exp(∙)²)表示对冷热通道单个测温点的高温的惩罚。

在一些实施例中，累计回报函数：

r= （4）

其中γ为折扣因子且在 0<=γ<=1，r_t+k+1为时刻t+k+1的立即回报函数。强化学习的目标是寻找最优策略参数θ^*使得在策略π_θ*下长期平均累计回报最大化，即θ^*=argmax_θE_πθ[G_t]或者θ^*=argmax_θE_πθ[r]，其中E(.)表示求随机变量的数学期望，其用于刻画在状态s_t下根据策略π选择动作a_t后获得的长期平均回报。

在获得了预训练的温度控制策略之后，可以将其部署到受控对象中，从而利用该策略控制受控对象的温度调节装置以实现受控对象的温度控制。在一些实施例中，温度调节装置例如可以包括：热风加热系统和空调制冷系统。相应地，温度控制可以包括：根据受控对象的当前状态控制热风加热系统进行加热，以升高当前环境的温度，实现制热效果；或者受控对象的当前状态控制空调制冷系统进行制冷，以降低当前环境的温度，实现制冷效果。例如，在受控对象为数据中心的微模块时，温度控制通常是指：在数据中心运行时，利用训练好的温度控制策略控制数据中心的微模块的空调以实现相应的制冷效果。在一些实施例中，温度控制动作具体数据可以指微模块中空气调节装置中被设定的风机转速和送风温度。

在步骤S330处，根据温度控制策略模型的输出数据，对受控对象进行温度控制。

在将输入数据输入温度控制策略模型之后，可以利用温度控制策略模型输出指示受控对象的温度控制动作的输出数据。于是可以依据输出数据确定温度控制动作，例如受控对象的空调设备的设定的风机转速和/或送风温度，从而基于这些设定的空调参数实现相应的温度控制。

在一些实施例中，在利用预训练的温度控制策略进行温度控制的同时，可以根据在线控制过程中的真实数据对预训练的温度控制策略进行调整，以使其控制策略更精确地适用于受控对象。关于利用预训练的温度控制策略进行温度控制的具体过程，请参见图6A。

在根据本公开一些实施例的温度控制方法中，首先，通温度控制策略模型可以预先强化学习算法预先离线进行，并在需要时部署到受控对象中，直接利用经预训练的温度控制策略实现受控对象的温度控制，从而避免了在受控对象温度控制过程中进行在线动态实时训练或创建温度控制策略模型所带来的算力要求高的问题，显著降低了在线计算开销，提升了工作效率；其次，由于在强化学习的训练过程中使用了基于CFD模型预训练的神经网络模型作为环境模型，在保留CFD模型的仿真精确性（精细准确）的前提下，充分发挥神经网络计算速度块和训练成本低的优势，避免了CFD模型的仿真速度慢的问题，显著提升了的仿真速度且降低了环境模型的训练成本，为强化学习和训练过程提供一个成本高效且仿真精确的信息交互环境，进而提升了温度控制策略模型的训练（和潜在的在线调整）的速度，进一步改进了工作效率和整体性能。

图4A示意性示出根据本公开一些实施例的温度控制方法中用于强化学习的环境模型的训练流程图。如图4A所示，图3中所示的根据本公开一些实施例的环境模型可以通过下述步骤训练得到的：

S410，创建受控对象的计算流体动力学模型；

S420，校验计算流体动力学模型；

S430，利用经校验的计算流体动力学模型进行随机仿真，以获取受控对象的温度场相关信息、功耗相关信息和温度控制动作的仿真数据；

S440，基于受控对象的温度场相关信息、功耗相关信息和温度控制动作的仿真数据，对待环境模型进行训练，以得到所述环境模型。

图4B示出了受控对象的CFD建模示意图。如图4B所示，上部的实际的数据中心的微模块通过CFD模型被仿真建模为下部的仿真微模块结构。CFD模型用于通过计算机进行数值计算，对特定环境进行气体流动和传热进行模拟和分析。CFD模型仿真技术能够准确描述诸如数据中心之类的受控对象的内部空间的气流组织和温度场相关信息。CFD模型可应用于对室内空气分布情况进行模拟和预测，从而得到房间内空气流动速度、温度、湿度以及有害物浓度等物理量的详细分布情况。

在根据本公开的一些实施例中，基于CFD模型和诸如LSTM之类的神经网络模型建立或训练得到的环境模型是与CFD模型等效但速度更快的仿真模型，因此该环境模型也可以称为CFD等效加速模型。CFD等效加速模型本质或结构是经训练的神经网络模型，但其功能等效于CFD模型，从而可以兼得神经网络训练成本低速度快和CFD模型预测或仿真精确的双重优势，同时避免了CFD模型的仿真速度慢的缺陷。

关于S410，以受控对象为数据中心的微模块为例，可以基于MDC微模块的规划设计相关数据信息，建立CFD模型。CFD模型的输入包括受控对象的温度控制动作和受控对象的功耗相关信息的仿真数据；输出信息可以包括受控对象的温度场相关信息。关于S420，为了使得CFD模型仿真更准确，可以基于诸如数据中心之类的受控对象的真实运行的历史数据对所创建的CFD模型进行检验和校正，直到仿真误差满足预定标准位置。关于S430，CFD模型的随机仿真是为了CFD等效模型的待训练神经网络提供训练样本数据，具体仿真过程参见图5。关于S440，将所获取的随机仿真数据作为训练样本输入待训练的神经网络模型以实现神经网络的训练，从而得到用于强化学习的经环境模型。

图5示意性示出根据本公开一些实施例的温度控制方法中用于强化学习的环境模型的更详细的训练流程图。在图5中，步骤S410与图4A所示的步骤S410完全一致，不再赘述，其他步骤分别是图4A所示各步骤的进一步的具体化。

如图5所示，图4A的步骤S420-校验计算流体动力学模型可以包括：

S420a，采集多个时刻的第一历史数据和第二历史数据。其中第一历史数据包括针对受控对象的温度控制动作和功耗相关信息以及，第二历史数据包括所述多个时刻的受控对象的温度场相关信息。

S420b，将所述多个时刻的第一历史数据输入到计算流体动力学模型中，以获取所述多个时刻的受控对象的温度场相关信息的模拟数据；

S420c，基于所述多个时刻的模拟数据与所述多个时刻的第二历史数据，计算仿真误差；

S420d，调节计算流体动力学模型的仿真参数，直至仿真误差小于或等于预定的误差阈值。

如上文所述，CFD模型的校验过程是为了仿真效果更准确，从而使得依据CFD仿真数据训练得到的环境模型（即CFD等效加速模型）的仿真效果更精确，进而使得强化学习和训练得到的温度控制策略能够给出更好的决策。

该校验过程采用真实历史数据进行。下面，以受控对象为数据中心的微模块为例，介绍CFD模型的校验过程。

首先，如S420a所述，可以从数据中心后台收集或采集MDC现场作为受控对象的微模块运行时在持续的一段时间内的历史数据，例如T个时刻的数据，每个时刻变量记为t，t=1,2,3,…T。

第一历史数据如下：功耗相关信息包括微模块中各个机架的IT负载各，其中表示机架编号，L为机架总数；温度控制动作包括微模块中各台空调的制冷策略，其中/>表示精密空调编号，/>和/>分别表示编号为/>的空调在/>时刻的风机转速和送风温度。第二历史数据如下：受控对象的温度场相关信息包括微模块冷通道温度分布向量/>，其中/>为冷通道温度测点总数，以及热通道温度分布向量/>，其中/>为热通道温度测点总数。一般来说，在每个机架的上侧和下侧均有一个冷通道温度测点，即通常情况下/>；在每个机架的中部均有一个热通道温度测点，即通常情况下/>。

其次，如S420b所述，对于每个时刻t，依照时刻顺序将和输入给待校验的CFD模型，并收集CFD模型输出数据，即仿真得到的冷通道温度分布向量/>及热通道温度分布向量/>的模拟数据。

再次，如S420c所述，将得到的冷通道温度分布向量及热通道温度分布向量的模拟数据与作为目标输出数据的第二历史数据，即所采集的冷通道温度分布向量及热通道温度分布向量/>历史真实数据进行比较，以计算仿真误差。例如可以根据如下公式（5）计算仿真误差：

（5）。

最后，如S420d所述，可以预先设置误差阈值，例如10%，调节CFD模型的仿真参数直至所计算的仿真误差小于误差阈值，即

。

如图5所示，图4A的步骤S430-计算流体动力学模型随机仿真可以包括步骤S430a-S430c。

在步骤S430a，确定随机仿真的样本空间，所述样本空间包括针对受控对象的温度控制动作和功耗相关信息的所有可能的取值，所述温度控制动作和功耗相关信息为随机变量或随机向量。

CFD模型校验完成之后，需要对利用其进行足够长时间的随机仿真，以得到大量的仿真数据，使得仿真场景能够覆盖真实世界中可能出现的各种情况，尤其是真实世界中较少出现的各种极端工况，例如低温或过热等，以得到更全面、准确地反映真实世界的仿真数据。这样利用这些仿真数据训练的环境模型或CFD等效加速的神经网络模型也能够更真实准确地模拟现实的环境，即受控对象的真实运行情况。为了实现上述随机仿真的目的，首先需要确定作为CFD模型输入的第一仿真数据，即针对受控对象的温度控制动作和功耗相关信息的第一仿真数据。如S430所示，所述温度控制动作和功耗相关信息的取值可以设定为随机变量或向量，且服从特定的分布，例如均匀分布。可以根据例如校验过程中的历史数据中出现的所有可能的值以及各种极端工况的数据确定一个模型输入数据的样本空间，该空间中包括所有温度控制动作和功耗相关信息所有可能的取值。

以受控对象为模块化数据中心的微模块为例，在一些实施例中，如表2所示，可以假设作为功耗相关信息的微模块中IT设备负载或功率Hⁱ _ITE(t)、作为温度控制动作的微模块空调风机转速S^j _F(t)和送风温度SP^j(t)服从离散均匀分布，取值范围分别为{0,1,2,…,100}、{40,41,…,100}、{18,19,…,25}。换言之，可以将样本空间确定为分别对应于上述三个输入随机变量的三个集合，这三个集合各自包含取值范围内所有数值，在相应集合中各个数值的分布是均匀分布，例如同一数值在集合中仅出现一次。

表2-随机仿真输入的随机变量的概率分布示例

随机变量X	概率分布律P（X=x）	X的取值范围
			Hⁱ _ITE(t)	P(Hⁱ _ITE(t)=x)=1/101 t，x	{0,1,2,…,100}
S^j _F(t)	P(S^j _F(t)=x)=1/61 t，x	{40,41,…,100}
			SP^j(t)	P(SP^j(t))=1/8 t，x	{18,19,…,25}

在步骤S430b，从样本空间中随机采样，以得第一仿真数据，即包括T₀个时刻的针对受控对象的温度控制动作和功耗相关信息的第一仿真数据，T₀为大于或等于2的正整数。

在确定了样本空间之后，可以从中随机采样以获取关于模型输入变量的多个样本数据，即多个时刻的针对受控对象的温度控制动作和受控对象的功耗相关信息的第一仿真数据。可以将时刻数量用T₀表示，则T₀的确定将基于受控对象的热力学系统动态的马氏性（（即热力学系统的当前时刻的状态取决于当前时刻之前的W个时刻对应的时间段内的状态））来确定，即T₀要大于或等于W。如上文所述，W是根据经验预先确定的超参数。例如，微模块中W对应的时间段可以取10分钟，而相应地W作为10分钟时间对应的离散时间点数量可以取例如100等，因而相应的T₀至少为100。事实上，在实际操作中T₀的值将远远大于W，因为只有大量的CFD模型的训练样本，才能训练出更精确的仿真模型。

在步骤S430c，将所述T₀个时刻的第一仿真数据输入到经校验的计算流体动力学模型，以得到第二仿真数据，即所述T₀个时刻的受控对象的温度场相关信息的第二仿真数据。

在获得作为模型输入的T₀个时刻的第一仿真数据之后，可以将其输入到CFD模型中，从而得到作为模型输出的相应的T₀个时刻的受控对象的温度场相关信息的第二仿真数据。这样，仿真过程结束，所得的第一和第二仿真数据用于训练待训练的环境模型或神经网络（即CFD等效加速模型）。

如图5所示，图4A所示的步骤S440，环境模型训练步骤，可以包括下述步骤：

S440a，针对所述T₀个时刻中第W时刻到第T₀-1时刻（即时刻集合{W, W+1,…,T₀-1}）中的每一个时刻，利用第一仿真数据和第二仿真数据，确定该时刻的训练误差。具体地，对于时刻集合{W, W+1,…,T₀-1}中的每一个时刻t，W为小于或等于T₀-1的正整数，按照时刻从小到大的顺序依次执行如下步骤：

将第t时刻到第t-W+1时刻的第一仿真数据和第二仿真数据输入到环境模型，以获得第t+1时刻的受控对象的温度场相关信息和功耗相关信息的仿真观测数据，

根据第t+1时刻的仿真观测数据与第t+1时刻的受控对象的温度场相关信息的第二仿真数据和第一仿真数据中功耗相关信息的部分进行比较，确定第t时刻训练误差。

S440b，将第W时刻到第T₀-1时刻的训练误差取算术平均值，以获取总训练误差。

S440c，根据总训练误差更新环境模型的参数，以使总训练误差最小。

在待训练的环境模型（神经网络模型）的训练过程中，考虑诸如微模块之类的受控对象的热力学系统动态具有W步的马氏性。即，对于任意的t，第t+1时刻的环境观测数据O_t+1只与前W步的环境观测数据{O_t-W+1，…,O_t}和温度控制动作{A_t-W+1，…,A_t}有关。例如这里的可以定义为t时刻受控对象所有空调的温度控制动作向量，如/>=(A¹(t), …, A^J(t))，其中J为空调的个数；O_t可以包括t时刻的受控对象的功耗相关信息和温度场相关信息。

以受控对象为数据中心的微模块为例，温度控制动作包括微模块中各台空调的制冷策略，而制冷策略包括风机转速和送风温度，即A^j(t)={S^j _F(t), SP^j(t)},，其中。而环境观测数据可以包括受控对象的温度场相关信息和功耗相关信息，即O_t={H_ITE(t), T_CA(t), T_HA(t)}，其中冷通道温度分布向量T_CA(t)=[/>]，其中/>为冷通道温度测点总数；热通道温度分布向量/>，N为热通道温度测点的总数；IT负载向量H_ITE(t)=[H¹ _ITE(t), …, H^L _ITE(t)]，其中L为IT负载总数。

根据马尔科夫性质，利用仿真数据进行训练的过程中，每一个时刻t>=W，待训练的环境模型的输入为t时刻之前（包含t本身）的W步的环境观测数据集合O_t-W+1:t或{O_t-W+1，…,O_t}和温度控制动作数据集合A_t-W+1:t或{A_t-W+1，…,A_t}的仿真数据，输出为t+1时刻的仿真的观测数据。因此，环境模型可以表示为函数：f_θ(O_t-W+1:t, A_t-W+1:t)=/>。因而，如S440a-440c所示，可以将在每一个t时刻，以第一仿真数据和第二仿真数据中的{O_t-W+1，…,O_t}和温度控制动作数据{A_t-W+1，…,A_t}为模型输入样本，而将其中的Ot+1作为目标输出样本来训练环境模型。具体地，将针对每一个时刻t（>=W），将模型输出/>与目标输出O_t+1进行比较，以得到当前t时刻的训练误差。例如可以用公式：||/>-O_t+1||，表示二者的矢量差；随后计算所有时刻的平均训练误差作为总训练误差。例如，总训练误差可以通过下述公式（6）确定：

（6）。

而训练目的就是调节模型参数θ，使得总训练误差最小，即要找得到θ^＊使得其下述满足公式（7）：

θ^＊=argmin_θ （7）。

在一些实施例中，可以采用LSTM网络作为环境模型的函数形式，采用随机梯度下降算法获取最优参数，以得到训练好的环境模型（或CFD等效加速模型）。可选地，环境模型的函数形式也可以采用简化的热力学模型。

图6A和6B分别示意性示出了根据本公开一些实施例的温度控制方法的流程图。

在图4A和图5所示的环境模型和强化学习模型训练完成之后，得到的训练好的（或预训练）温度控制策略可以部署在受控对象上以用于在受控对象运行期间通过控制受控对象中的温度调节装置（如空调）来实现温度控制。

如图6A所示，图3的步骤S310-获取受控对象的运行状态可以包括步骤S610-S640。在步骤S610，确定针对受控对象的温度控制的多个决策时刻。在一些实施例中，可以利用温度控制策略基于受控对象的状态（例如温度场情况和功耗状况）以一定时间间隔的发起对空调装置的调控以实现温度控制，以节省能源。例如，可以首先确定第一决策时刻，随后确定相邻两个决策时刻的间隔时间，从而可以得到多个决策时刻，其可以是有限的或无限的（一直决策下去，直到受控对象停止运行）。

在步骤620，判断当前时刻是否是决策时刻，若是，则转到步骤S630，否则继续判断。可以通过实时判断当前时刻是否到达决策时刻来确定是否进行温度控制，如果到达决策时刻则通过下述步骤S630-660进行温度控制，否则继续实时判断，如此循环往复，一直进行下去，直到受控对象停止运行为止。可选地，也可以设置跳出循环的条件，例如收到停止控制温度的指令，即可停止决策时刻判断。

在步骤630，收集关于受控对象的观测数据并将其存储在数据库中，该观测数据包括当前决策时刻受控对象的温度场相关信息和功耗相关信息。为了实现通过温度控制策略进行受控对象的温度控制，需要知道温度控制策略的输入信息，即当前决策时刻的（强化学习中）的状态数据或受控对象实际运行中的当前决策时刻之前的W个决策时刻的观测数据。因此，在每一个决策时刻，都需要将相应的状态数据或观测数据存储在数据库中以供后续的决策时刻时使用，观测数据应当包括当前决策时刻受控对象的温度场相关信息和功耗相关信息。

在步骤640，响应于当前决策时刻之前存在的决策时刻的个数大于或等于W-1，确定当前决策时刻的运行状态，所述运行状态包括数据库中的从当前决策时刻及其之前W-1个决策时刻的观测数据。由于温度控制策略π_θ的输入是当前决策时刻之前的W个决策时刻的观测数据（这是由受控对象内部的热力学系统的W步马氏性决定的），因此，并不是每一个决策时刻都可以利用π_θ进行温度控制，只有到第W个决策时刻时才可以进行温度控制，于是在温度控制之前需要判断当前时刻是否是第W个时刻及其之后的时刻。

如图6A所示，图3所示的步骤S330-根据所述温度控制策略模型的输出数据，对受控对象进行温度控制，包括S650-S660。

在步骤650，在将当前决策时刻的运行状态输入温度控制策略之后，根据温度控制策略的输出数据，确定当前决策时刻的行为数据并将其存储在数据库中。行为数据包括当前决策时刻针对受控对象的温度控制动作。在进行温度控制时，根据策略函数π_θ*输入运行状态可以得到包括温度控制动作的行为数据，从而可以根据行为数据控制温度。同时，可选地，可以将行为数据存储在数据库中以供后续潜在的温度控制策略的在线微调（或在线训练）提供目标输出样本数据。

在步骤660，根据当前决策时刻的行为数据对受控对象进行温度控制。在得到行为数据之后，可以根据行为数据（即其指示的温度控制动作）控制受控对象的例如空调设备（如其风机转速和/或送风温度）以得到温控的目的。至此当前决策时刻的温控过程结束，转到下一时刻的温控过程。

图6C示意性示出了6A和6B所示的根据本公开一些实施例的温度控制方法的架构原理图。

如图6C所示，在每一个决策时刻t的具体控制过程中，首先，如步骤630所示，从受控对象602收集观测数据O_t，将其存储在数据库603中；其次，如步骤640所示，根据数据库603中的观测数据O_t确定运行状态或状态数据s_t；再次，如步骤S650所示，将状态数据s_t输入智能体601（即温度控制策略π_θ*）以得到相应的行为数据a_t，并将其存储在数据库603中；最后，如步骤660所示，将行为数据a_t输入受控对象602（的例如空调装置）以实现温度控制。需要注意，在每一个决策时刻t，如当前时刻的观测数据O_t以及根据智能体601的温度控制策略得到的行为数据a_t均需存储在数据库603中以供后续微调或重新训练温度控制策略的智能体601时作为训练样本数据使用。

如图6A所示，图3的步骤S330，利用温度控制策略对受控对象进行温度控制，可以进一步包括步骤S670-S680。

在步骤S670，确定在线微调时刻，其中在每个微调时刻之前包含至少W个决策时刻。由于温度控制策略对应的强化学习模型的训练过程需要考虑W步的马氏性，因此，其训练过程中的输入样本需要至少W个决策时刻的观测数据和行为数据。于是，在每一个在线微调时刻，数据库中至少要包括W个决策时刻的观测数据和行为数据。更优选地，两个相邻的在线微调时刻之间可以包括多于W个决策时刻，以保证每次策略微调或训练的样本都是全新的，从而提高微调效率。

一般地，相邻微调时刻之间的时间间隔或微调周期要远大于W对应的时间段，也可能远大于决策周期，例如微调周期可能取7天（一周），而W对于的时间段可以取10分钟，决策周期可以取例如2小时等。在一些实施例中，微调时刻次数可以根据具体情况设定。例如可以持续进行多次环境模型和温度控制策略微调，直到环境模型能够“较为准确”地描述所部属的诸如微模块之类的受控对象的热力学系统动态为止。比如可参考第四步构建和训练环境模型（CFD等效加速模型）时的约束条件，例如：若在一定时间内（如一天）系统满足约束条件（训练误差小于某个预定阈值），则认为此时已“较为准确”。

在步骤S680，在每一个在线微调时刻，执行温度控制策略的在线微调。

如图6B所示，S680-在线微调步骤可以包括：

S681，将数据库中存储的各决策时刻的观测数据和行为数据作为训练样本，对所述环境模型进行训练，以得到经微调的环境模型；

S682，将环境模型更新为经微调的环境模型；

S683，在更新的环境模型下，通过强化学习训练温度控制策略模型以得到第二最优策略模型，作为经在线微调的温度控制策略；

S684，将所述温度控制策略模型更新为经在线微调的温度控制策略模型。

下面结合图6C详细介绍在线微调步骤S681-684。如图6C中虚线部分所示，首先，如S681所示，在每个在线微调时刻t，环境模型604从数据库603中获取各决策时刻的观测数据和行为数据，并将其作为训练样本对环境模型进行训练，其中输入样本为观测数据{O_t-W+1，…,O_t}和{A_t-W+1，…,A_t}，目标输出样本为O_t+1。具体训练方法，请参考图5所示的步骤S440a-440c，这里不再赘述。随后，如S682所示，将当前环境模型604更新为经微调或训练后的环境模型。环境模型更新之后，如S683所示，可以基于更新的环境模型利用强化学习算法再次训练当前温度控制策略模型π_θ*或对应的智能体601，从而得到第二最优策略，作为经微调的温度控制策略模型。这里的微调或训练方法与上文图3所示的方法相同，不再赘述。最后，如S684所示，将温度控制策略更新为经微调的温度控制策略，继续用于受控对象的温度控制。如图6C所示，经过上述微调过程，温度控制策略π_θ*的参数θ*更新为argmax_θE_πθ[r]。

在上述实施例中，通过在利用离线预训练的温度控制策略进行温度控制的同时通过利用实际工况数据更新环境模型来实时动态地调整最优温度控制（例如制冷）策略，即根据实际运行工况求解满足安全约束的能效最高的温度控制方案，尤其是制冷方案，避免了过度制冷和冷却滞后的问题。而且，在上述实施例中，由于采用了通过强化学习技术离线训练求解的最优策略作为最初的温度控制策略，因此在线部署后只需要针对具体受控对象（例如数据中心的微模块）运行数据进行策略微调，从而算力需求小、鲁棒性强。

如图6B所示，步骤S680可以进一步包括：

S685，在将所述温度控制策略更新为经在线微调的温度控制策略之后，将数据库中除当前微调时刻之前最近的至少W个决策时刻的观测数据之外的其他数据清空。为了提高存储效率和运行效率，可以在进行温度控制（包括温度控制策略微调）期间，将数据库中多余的旧数据清空以供其他更新的数据存储，这样可以显著提高数据库的利用率并节省存储空间。由于每个决策时刻，温度控制策略在生成行为数据时需要该决策时刻之前W个时刻的观测数据（由于热力学系统遵循W步马氏性），因此在每一个微调时刻的策略微调工作完成之后，需要至少保留最近的W个决策时刻的观测数据以供当前微调时刻之后的下一个决策时刻进行温度控制时使用。

图7示意性示出了根据本公开一些实施例的温度控制设备700的示例框图。温度控制设备700可以代表用以实现本文描述的各种装置或模块和/或执行本文描述的各种方法的设备。温度控制设备700可以是例如服务器、台式计算机、膝上型计算机、平板、智能电话、智能手表、可穿戴设备或任何其它合适的计算设备或计算系统，其可以包括从具有大量存储和处理资源的全资源设备到具有有限存储和/或处理资源的低资源设备的各种级别的设备。

如图7所示，示例温度控制设备700包括彼此通信耦合的处理系统701、一个或多个计算机可读介质702以及一个或多个I/O接口703。尽管未示出，但是温度控制设备700还可以包括将各种组件彼此耦合的系统总线或其他数据和命令传送系统。系统总线可以包括不同总线结构的任何一个或组合，所述总线结构可以是诸如存储器总线或存储器控制器、外围总线、通用串行总线和/或利用各种总线架构中的任何一种的处理器或局部总线。或者，还可以包括诸如控制和数据线。

处理系统701代表使用硬件执行一个或多个操作的功能。因此，处理系统701被图示为包括可被配置为处理器、功能块等的硬件元件704。这可以包括在硬件中实现作为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件704不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质702被图示为包括存储器/存储装置705。存储器/存储装置705表示与一个或多个计算机可读介质相关联的存储器/存储装置。存储器/存储装置705可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置705可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。示例性地，存储器/存储装置705可以用于存储上文实施例中提及的第一类别用户的第一音频、请求的排队列表等。计算机可读介质702可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O（输入/输出）接口703代表允许用户向温度控制设备700键入命令和信息并且还允许使用各种输入/输出设备将信息显示给用户和/或发送给其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）、网卡、接收机等等。输出设备的示例包括显示设备（例如，监视器或投影仪）、扬声器、打印机、触觉响应设备、网卡、发射机等。示例性地，在上文描述的实施例中，第一类别用户以及第二类别用户可以通过其各自的终端设备上的输入接口来进行输入以发起请求以及录入音频和/或视频等，并且可以通过输出接口来查看各种通知以及观看视频或聆听音频等。

温度控制设备700还包括温控策略706。温控策略706可以作为计算程序指令存储在存储器/存储装置705中，也可以是硬件或固件。温控策略706可以连同处理系统701等一起实现根据本公开一些实施例的温度控制方法。

本文可以在软件、硬件、元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”、“功能”等一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由温度控制设备700访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到温度控制设备700的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。作为示例而非限制，信号介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件704和计算机可读介质702代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件704体现的一个或多个指令和/或逻辑。温度控制设备700可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件704，可以至少部分地以硬件来实现将模块实现为可由温度控制设备700作为软件执行的模块。指令和/或功能可以由例如一个或多个温度控制设备700和/或处理系统701执行/可操作以实现本文所述的技术、模块和示例。

本文描述的技术可以由温度控制设备700的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。

本公开的实施例提供一种模块化数据中心，包括：微模块；以及用于对微模块进行温度控制的根据本公开一些实施例的温度控制设备。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机程序。例如，本公开的实施例提供一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行本公开的方法实施例中的至少一个步骤的程序代码。

在本公开的一些实施例中，提供了一种或多种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令在被执行时实现根据本公开一些实施例的温度控制方法。根据本公开一些实施例所述的温度控制方法的各个步骤可以通过程序设计被转化为计算机可读指令，从而存储在计算机可读存储介质中。当这样的计算机可读存储介质被计算设备或计算机读取或访问时，其中的计算机可读指令被计算设备或计算机上的处理器执行以实现根据本公开一些实施例所述的温度控制方法。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点被包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序（包括根据所涉及的功能按基本同时的方式或按相反的顺序）来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，则可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列（Programmable Gate Array）、现场可编程门阵列（Field Programmable Gate Array）等。

本技术领域的普通技术人员可以理解上述实施例方法的全部或部分步骤可以通过程序指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括执行方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

Claims

1.一种温度控制方法，包括：

获取受控对象的运行状态，所述运行状态包括受控对象的温度场相关信息和功耗相关信息；

将所述运行状态作为输入数据输入到温度控制策略模型，所述温度控制策略模型被配置成基于输入数据生成指示针对受控对象的温度控制动作的输出数据；

根据所述温度控制策略模型的输出数据，对受控对象进行温度控制，

其中，所述温度控制策略模型通过下述步骤得到：

设定用于获取温度控制策略的强化学习的要素，其包括状态、行为、回报函数、策略模型、环境模型，其中状态被设定为受控对象的运行状态；行为被设定为针对受控对象的温度控制动作；回报函数被设定为针对所述温度控制动作的评价；策略模型被设定为待训练的神经网络模型，其被配置成基于受控对象的运行状态输出针对受控对象的温度控制动作；环境模型被配置成基于针对受控对象的温度控制动作预测受控对象的运行状态的变化；

基于所述用于获取温度控制策略的强化学习的要素，通过强化学习训练策略模型，以得到第一最优策略模型，作为所述温度控制策略模型，

其中所述环境模型是通过下述步骤预先训练的计算流体动力学等效模型：

根据受控对象的规划设计相关数据创建计算流体动力学模型；

基于受控对象的真实运行的历史数据校验计算流体动力学模型；

利用经校验的计算流体动力学模型进行随机仿真，以获取受控对象的运行状态和针对受控对象的温度控制动作的仿真数据；

基于受控对象的运行状态和针对受控对象的温度控制动作的仿真数据，进行环境模型训练，其中初始环境模型包括预设的神经网络模型。

2.根据权利要求1所述的方法，其中所述基于受控对象的真实运行的历史数据校验计算流体动力学模型包括：

采集多个时刻的针对受控对象的温度控制动作和受控对象的功耗相关信息的第一历史数据以及所述多个时刻的受控对象的温度场相关信息的第二历史数据；

将所述多个时刻的第一历史数据依次输入到计算流体动力学模型中，以获取所述多个时刻的受控对象的温度场相关信息的模拟数据；

基于所述多个时刻的模拟数据与所述多个时刻的第二历史数据，计算仿真误差；

调节计算流体动力学模型的仿真参数，直至仿真误差小于或等于预定的误差阈值。

3.根据权利要求1所述的方法，其中所述利用经校验的计算流体动力学模型进行随机仿真，以获取受控对象的运行状态和针对受控对象的温度控制动作的仿真数据，包括：确定随机仿真的样本空间，所述样本空间包括针对受控对象的温度控制动作和受控对象的功耗相关信息的所有可能的取值，且样本空间中所述温度控制动作和功耗相关信息的取值为随机变量或随机向量；

从样本空间中随机采样，以得到T₀个时刻的针对受控对象的温度控制动作和受控对象的功耗相关信息的第一仿真数据，T₀为大于或等于2的正整数；

将所述T₀个时刻的第一仿真数据输入到经校验的计算流体动力学模型，以得到所述T₀个时刻的受控对象的温度场相关信息的第二仿真数据。

4.根据权利要求3所述的方法，其中所述基于受控对象的运行状态和针对受控对象的温度控制动作的仿真数据，进行环境模型训练，包括：

针对所述T₀个时刻中第W时刻到第T₀-1时刻中的每一个时刻t，按照时刻从小到大的顺序依次执行如下步骤，其中W为小于或等于T₀-1的正整数：

将第t时刻到第t-W+1时刻的第一仿真数据和第二仿真数据输入到环境模型，以获得第t+1时刻的受控对象的温度场相关信息和功耗相关信息的仿真观测数据；以及

根据第t+1时刻的仿真观测数据与第t+1时刻的受控对象的温度场相关信息的第二仿真数据和第t+1时刻的第一仿真数据中受控对象的功耗相关信息的部分进行比较，确定第t时刻的训练误差；

将第W时刻到第T₀-1时刻的训练误差取算术平均值，以获取总训练误差；以及

根据总训练误差更新环境模型的参数，以使总训练误差最小。

5.根据权利要求4所述的方法，其中所述状态被设定为受控对象的运行状态包括：

针对所述T₀个时刻中第W时刻到第T₀-1时刻中的每一个时刻t，将第t时刻的状态设定为第t时刻及其之前的W-1个时刻的受控对象的温度场相关信息和功耗相关信息，

并且其中所述行为被设定为针对受控对象的温度控制动作包括：

针对所述T₀个时刻中第W时刻到第T₀-1时刻中的每一个时刻t，将第t时刻的行为确定为第t时刻的针对受控对象的温度控制动作。

6.根据权利要求5所述的方法，其中所述获取受控对象的运行状态包括：

在每一个预定的决策时刻，执行下述步骤：

收集关于受控对象的观测数据并将其存储在数据库中，该观测数据包括当前决策时刻受控对象的温度场相关信息和功耗相关信息；

响应于当前决策时刻之前存在的决策时刻的个数大于或等于W-1，确定当前决策时刻的运行状态，所述运行状态包括数据库中的当前决策时刻及其之前的W-1个决策时刻的观测数据，

并且其中所述根据所述温度控制策略模型的输出数据，对受控对象进行温度控制，包括：

根据所述输出数据，确定当前决策时刻的针对受控对象的温度控制动作并将其作为行为数据存储在数据库中；

根据当前决策时刻的温度控制动作对受控对象进行温度控制。

7.根据权利要求6所述的方法，进一步包括：

确定在线微调时刻，其中在每一个在线微调时刻之前包含至少W个决策时刻；

在每一个在线微调时刻，执行下述步骤：

将数据库中存储的各决策时刻的观测数据和行为数据作为训练样本，对所述环境模型进行训练，以得到经微调的环境模型；

将所述环境模型更新为经微调的环境模型；

在经微调的环境模型下，通过强化学习训练所述温度控制策略模型，以得到第二最优策略模型，作为经在线微调的温度控制策略模型；

将所述温度控制策略模型更新为经在线微调的温度控制策略模型。

8.根据权利要求7所述的方法，进一步包括：

在每一个在线微调时刻，在将所述温度控制策略模型更新为经在线微调的温度控制策略模型之后，将数据库中除当前在线微调时刻之前最近的至少W个决策时刻的观测数据之外的其他数据清空。

9.根据权利要求1-8中任一项所述的方法，其中所述受控对象包括模块化数据中心中至少一个微模块；所述温度控制动作包括设定的所述至少一个微模块中空调的风机转速和出风温度；所述温度场相关信息包括所述至少一个微模块的冷通道温度分布向量、热通道温度分布向量；所述功耗相关信息包括所述至少一个微模块的总功率。

10.根据权利要求9所述的方法，其中所述温度场相关信息进一步包括所述至少一个微模块中空调送回风温度分布向量或所述至少一个微模块中机柜进出风温度分布向量。

11.根据权利要求1所述的方法，其中所述针对所述温度控制动作的评价通过下述步骤确定：

根据针对受控对象的温度控制动作确定第一惩罚函数；

根据受控对象的温度场相关信息确定第二惩罚函数；

基于第一惩罚函数和第二惩罚函数，确定所述针对所述温度控制动作的评价。

12.一种温度控制设备，包括：

处理器；以及

存储器，其上存储有指令，所述指令当在所述处理器上执行时促使所述处理器执行权利要求1-11中任一项所述的方法。

13.一种模块化数据中心，包括：

微模块；以及

用于对所述微模块进行温度控制的根据权利要求12所述的温度控制设备。

14.一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令在被执行时实现根据1-11中任一项所述的方法。