CN116438409A

CN116438409A - 基于可逆因果关系的热控制系统和方法

Info

Publication number: CN116438409A
Application number: CN202180075631.8A
Authority: CN
Inventors: E·拉夫特切夫; 丹尼尔·尼科夫斯基; D·罗梅雷斯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-11-15
Filing date: 2021-06-10
Publication date: 2023-07-14
Also published as: JP2023545873A; JP7511775B2; EP4051968B1; WO2022102157A1; EP4051968A1; US11280514B1

Abstract

提供了一种用于根据加热、通风和空调(HVAC)设定点来控制布置为调节环境的HVAC系统的控制器和方法。该控制器被配置为接受所调节的环境中的预定位置处的热状态的目标值、所调节的环境中的预定位置处的热状态的当前值以及HVAC设定点的当前值。该控制器还被配置为使用神经网络来确定目标HVAC设定点，使得HVAC系统根据目标HVAC点的操作相对于HVAC系统根据当前HVAC设定点的操作的差异将所调节的环境中的预定位置中的热状态从热状态的当前值改变为热状态的目标值。

Description

基于可逆因果关系的热控制系统和方法

技术领域

本公开总体上涉及环境中的热舒适控制，更具体地，涉及用于根据加热、通风和空调(HVAC)设定点来控制布置为调节环境的HVAC系统。

背景技术

热舒适可被认为是表达对热环境的满意度的心境状况，并且通过主观但通常稳定的评估来评定。热舒适显著影响人的生产力和总体幸福感。目前，诸如加热、通风和空调(HVAC)系统的热调节系统基于壁式恒温器或遥控装置来实现热舒适，其目的是打开或关闭HVAC系统并操作HVAC系统，使得维持温度设定点。

温度设定点指示基于房间中的占用者的需求和热状况的期望热舒适水平。设计了一些方法来控制HVAC系统以实现温度设定点。然而，在这些方法中，HVAC系统仅控制设定点空气温度，作为房间中的占用者或占用者集合的热舒适的替代。因此，所设计的这些方法假设恒温器处和占用者自己的位置处的房间温度是相同的。这种假设可被称为房间中的良好混合的温度和/或速度分布的均匀性假设。然而，这种均匀性假设是无效的。结果，即使当达到温度设定点时，房间的一些或所有占用者仍可能不舒适，因为设定点温度是为可能位于距占用者一定距离处的传感器(恒温器)确定的。

为了解决均匀性假设问题，一些方法考虑了受控环境(房间)中的气流动力学。然而，这些方法在计算上昂贵。例如，气流动力学的物理模型可根据纳维-斯托克斯(Navier-Stokes)方程来定义。尽管气流动力学的物理模型可由布森内斯克(Boussinesq)方程近似，但布森内斯克方程是难以实时求解的偏微分方程(PDE)。为此，一些方法旨在使用包括常微分方程(ODE)的降阶模型来降低求解PDE所需的计算复杂度。然而，考虑到气流动力学，对于许多控制系统，特别是对于使用嵌入式处理器的嵌入式控制系统，即使使用降阶模型在计算上仍会富有挑战性。

因此，需要提供一种控制HVAC系统的系统和方法，其考虑受控环境中的热状态动力学，而无需使用热状态模型。

发明内容

技术问题

一些实施方式的目的在于提供一种系统和方法，其利用诸如神经网络的人工智能，以考虑环境中的气流和/或热状态动力学来控制HVAC系统，而无需使用热状态模型。一些实施方式的目的还在于提供这样的神经网络，其克服了由于期望控制使用HVAC单元调节的房间中的所有空间位置的温度而引起的HVAC控制的无限维问题。另外，一些实施方式的目的在于使用具有带自动编码损失函数的自动编码架构的神经网络来学习将HVAC设定点和遍及环境的传感器测量联系起来的预测模型。另外地或另选地，一些实施方式的目的在于学习使环境中的占用者的舒适最大化的控制律。

问题的解决方案

一些实施方式基于这样的认识：考虑环境中的热状态动力学的HVAC系统的控制在连续空间域上操作。例如，环境中的热状态(例如，温度、湿度和/或速度值)可沿着所有空间维度连续地变化。因此，控制命令(也可在连续尺度上给出)和/或环境中的热状态存在无限数量的值。然而，神经网络需要固定数量的输入和输出。因此，尝试使用诸如神经网络的统计模型来近似受控环境中的所有空间位置处的热状态动力学是富有挑战性的。

一些实施方式基于这样的认识：不需要将环境中的所有空间位置中的所有热状态值映射到HVAC致动器的连续状态值。一些实施方式基于这样的认识：为了操作HVAC系统，将环境中仅某些位置中的温度、湿度和/或速度的值映射至设定点就足够了，当达到这些设定点时在那些离散位置处实现热状态的期望值。为此，可推导环境中的特定位置处的热状态与HVAC系统的设定点之间的映射。如本文所使用的，“设定点”是指HVAC系统的变量的期望值。例如，术语“设定点”可指示HVAC系统的操作在环境中的特定位置处需要实现的温度目标值。

为了解决这一问题，使用热状态的稳态的离散化空间表示。一些实施方式基于这样的认识：环境热力学的稳态建模可考虑环境中的热状态与HVAC系统的设定点之间的映射。与考虑热力学的瞬态和稳态二者的完整建模相比，稳态建模可被更容易地准确采样。另外，在稳态下，可在环境中的固定和/或预定位置处更准确地表示环境中的空间连续热状态。以这种方式，热状态的稳态的离散化表示允许解决环境中的热状态的HVAC控制的无限维问题。换言之，热状态的稳态的离散化表示允许将连续热状态和HVAC致动器状态的连续值之间的无限映射变换为位置集合处的离散化稳态热状态和设定点集合之间的有限映射，其与根据设定点的HVAC控制组合。

为此，一些实施方式将环境中的预定位置处的热状态映射至控制HVAC系统的设定点。在各种实现方式中，控制热状态的离散位置的数量大于设定点的数量。以这种方式，HVAC系统的控制可包括环境中的热状态，而不考虑环境中的良好混合的温度和/或速度分布的均匀性假设，同时维持控制使用这种假设的HVAC系统的计算复杂度。

一些实施方式基于这样的认识：需要确定预定位置处的热状态和设定点之间的映射，使得当HVAC系统的操作实现映射的设定点时，固定位置中的热状态接近目标热状态。一些实施方式基于这样的认识：HVAC设定点和热状态之间的映射是复杂的并且高度非线性，但是可从数据学习，而非分析推导。根据实施方式，通过训练神经网络来学习这种映射。从包括布置在环境中的预定位置处的传感器所测量的热状态和HVAC系统的设定点的数据训练神经网络。

然而，这种神经网络的设计和训练带来了许多挑战。作为示例，在具有M个传感器和N个HVAC单元的任何给定环境中，在稳态下，存在从N个HVAC单元的设定点到M个传感器的测量映射数据中的正向(因果)关系的函数。然而，除了正向关系之外，对于这一问题，我们还需要正向关系的反向模型，即，将传感器测量映射到HVAC设定点的反向关系/反向映射。训练可逆关系比训练预测正向模型更困难。另外，映射取决于许多其它参数，这些参数难以测量并且可能使反向映射的训练和准确性显著复杂。例如，映射取决于外部温度，这可能使训练复杂。映射还取决于环境的配置，这降低了训练的映射的可转移性。此外，映射取决于HVAC系统需要传递的热负荷，这难以估计。因此，特别是可逆形式的关系由于上述因素而难以学习。

另外地或另选地，一些实施方式基于这样的认识：收集对于学习可逆关系而言最优的稳态数据既耗时，又需要进一步热力学建模。因此，即使一些实现方式被安排调节严格控制的环境，例如办公室，数据中仍存在热力学瞬态，这意味着学习单个可逆模型即使对于捕获相对反向关系也可能不切实际。为了解决这一问题，一些实施方式学习两个模型。在正向方向上，一些实施方式学习将HVAC设定点映射到所得热状态的热传感器模型。在反向方向上，一些实施方式学习将当前热状态映射到HVAC设定点的估计的热设定点模型。

一些实施方式基于这样的认识：可使用具有自动编码架构的神经网络来学习上述模型。根据实施方式，自动编码架构包括与对应于HVAC设定点的隐层连接的编码器和解码器，使得编码器将热状态连接到HVAC设定点，而解码器将HVAC设定点与热状态连接。以这种方式，在不固定任何模型的情况下，甚至在训练数据中存在瞬态测量的情况下，可学习相对正向和反向关系。后一点是自动编码架构的额外益处。由于当测量中可能存在一些瞬态数据时，学习预测热设定点和热传感器模型并非易事。自动编码架构允许我们同时学习两个模型，同时在整个训练数据集上平均识别导致离散化热状态的最佳HVAC设定点。

另外地或另选地，一些实施方式基于这样的认识：为了在自动编码架构中一起学习热传感器模型和热设定点模型，需要利用使嵌入相对于当前HVAC设定点的偏差最小化的项来增强自动编码损失函数。为此，在一些实施方式中，用于训练神经网络的损失函数包括减小重构输入中的误差的重构损失以及减小嵌入相对于物理观测HVAC设定点的偏差的嵌入损失。以这种方式，嵌入损失允许以适合于训练的可微分方式将目标HVAC设定点公式化。另外，以这种方式，损失函数是用于自动编码架构的隐空间设计方法，其将隐空间专门设计为HVAC设定点的空间。

另外，一些实施方式基于这样的认识：有利的是使用在HVAC系统的操作期间收集的数据周期性地训练或更新训练的神经网络。以这种方式，神经网络可适应环境的配置和/或环境中的占用者的数量和占用者的位置。

根据一些实施方式，预定位置处的目标热状态是设计的参数。例如，目标热状态的目标值可由用户预先选择。然而，即使对于这种预选方法，一些实施方式基于这样的认识：将环境的热状态离散化增加了在维持环境中的占用者的个体热舒适方面的灵活性。这种实现是有益的，因为不同的占用者可与不同位置关联，这允许为不同的位置选择不同的目标热状态和/或强调与数量更多的占用者关联的位置，和/或削弱不与任何占用者关联的位置。为此，权重明确地或隐含地与环境中的各个预定位置关联，各个用户对损失函数做出贡献。预定位置的权重取决于与该预定位置关联的占用者的数量。因此，重构损失是各个预定位置的重构损失的组合。在一些实施方式中，当传感器处存在多个用户时，期望的温度是用户温度的平均。

根据实施方式，基于个性化热舒适模型来确定预定位置处的目标热状态。另外，一些实施方式旨在使在学习个性化热舒适模型时提供关于占用者的反馈的负担最小化。为此，一些实施方式使用弱监督方法来学习个性化热舒适模型。弱监督方法包括使用基于一般规则或外部权威的合成标记数据来学习热舒适模型。此外，使用各个占用者所提供的反馈来调整使用弱监督方法学习的热模型，以学习个性化热舒适模型。

一些实施方式基于这样的认识：热设定点模型估计导致观测到的传感器测量的HVAC设定点。然而，另外，一些实施方式中的一些的目的是预测使占用者舒适最大化的HVAC设定点。为此，一些实施方式旨在学习使所有占用者的舒适概率最大化的控制律。一些实施方式基于这样的认识：热传感器模型和热设定点模型可被组合以学习控制律。为了学习控制律，首先，使用占用者的个性化热舒适模型来确定各个占用者的最优温度。通过从可能环境条件的集合均匀地采样，并且为各个占用者选择舒适概率最高的点来使用个性化热舒适模型。

根据一些实施方式，为了学习控制律，利用热设定点模型来初始化控制律。具体地，控制律利用热设定点模型来热启动。一些实施方式基于这样的认识：通过固定热传感器模型并微调(tune)控制律来实现控制律的训练。使用惩罚相对于各个占用者位置处的最优占用者温度的偏差的损失函数来微调控制律。在替代实施方式中，为了学习控制律，控制律被定义为热设定点模型，向热设定点模型的输出添加了维度N的附加线性层。热传感器模型和热设定点模型是固定的，并且使用用于微调的损失函数在附加线性层上执行训练。这种学习控制律的方法是有利的，因为要学习的模型参数少得多，导致可利用很少的训练数据样本有效地学习的模型。一些实施方式基于这样的认识：热设定点模型几乎正确，因为大多数用户接近其舒适状态。仅需要对模型进行较小的改变以使得控制律输出使用户舒适的HVAC设定点，而非房间中的传感器物理观测的设定点。

根据一些实施方式，控制律也可经由优化来学习。当占用者的座位安排频繁改变需要不断重新学习如上所述的控制律时就是这种情况。在这些情况下，将HVAC设定点确定为优化函数的解在计算上可能更有利。这里，热设定点模型用于提供优化的起点，热传感器模型用于将房间的状态预测为优化解的函数。在占用者位置和占用者的期望热状态上利用相同的损失函数评估误差。

因此，在学习控制律的模型和使用在线优化之间的选择取决于占用者改变座位安排的次数。对于固定座位位置的占用者，计算上高效的是学习提供预测舒适设定点的计算上廉价的方法的一个控制律。相比之下，当占用者动态移动时，优化方法提供在不针对占用者的瞬态空间分布学习控制律的情况下获得期望设定点的方法。可以想到，两个方法可一起使用。例如，初始建模控制律方法部署在员工的固定座位区域上。当员工见面开会(可能在单独的办公室中)时，可在线求解优化问题，以提供这次会议的即时HVAC设定点集合。

因此，一个实施方式公开了一种用于根据加热、通风和空调(HVAC)设定点来控制布置为调节环境的HVAC系统的控制器，该控制器包括：至少一个处理器；以及存储器，其上存储有指令，这些指令在由所述至少一个处理器执行时使得控制器：接受调节的环境中的预定位置处的目标热状态、调节的环境中的预定位置处的当前热状态以及当前HVAC设定点；使用神经网络或通过求解优化问题来确定目标HVAC设定点，使得HVAC系统根据目标HVAC设定点的操作相对于HVAC系统根据当前HVAC设定点的操作的差异将调节的环境中的预定位置中的热状态从当前热状态改变为目标热状态；并且生成控制命令并将其提交给HVAC系统的组件以根据目标HVAC设定点来操作。

因此，另一实施方式公开了一种用于控制的方法。一种用于根据加热、通风和空调(HVAC)设定点来控制布置为调节环境的HVAC系统的方法，其中，该方法使用联接到存储指令的存储器的处理器，该处理器与存储的指令联接，这些指令在由处理器执行时执行该方法的步骤，该方法包括以下步骤：接受调节的环境中的预定位置处的目标热状态、调节的环境中的预定位置处的当前热状态以及当前HVAC设定点；使用神经网络来确定目标HVAC设定点，使得HVAC系统根据目标HVAC设定点的操作相对于HVAC系统根据当前HVAC设定点的操作的差异将调节的环境中的预定位置中的热状态从当前热状态改变为目标热状态；并且生成控制命令并将其提交给HVAC系统的组件以根据目标HVAC设定点来操作。

当前公开的实施方式将参照附图进一步说明。所示的附图未必按比例，而是重点通常放在示出当前公开的实施方式的原理。

附图说明

[图1A]图1A示出根据一些实施方式的控制布置为调节环境的加热、通风和空调(HVAC)系统的原理的示意性概览。

[图1B]图1B示出根据一些实施方式的被训练为在预定位置处的热状态与导致热状态的HVAC设定点之间建立映射的神经网络120的示意图。

[图2]图2示出根据一些实施方式的用于根据HVAC设定点来控制HVAC系统的控制器的框图。

[图3A]图3A示出根据一些实施方式的用于学习热传感器模型和热设定点模型的自动编码架构。

[图3B]图3B示出根据一些实施方式的用于学习热传感器模型和热设定点模型的自动编码架构。

[图4]图4示出根据一些实施方式的训练神经网络的阶段的示意图。

[图5A]图5A示出根据一些实施方式的用于学习个性化热舒适模型的弱监督方法的示意图。

[图5B]图5B示出根据一些实施方式的描绘舒适区域的示例性心理测量图。

[图5C]图5C示出根据一些实施方式的学习标准舒适模型和个性化热舒适模型的神经网络的结构。

[图5D]图5D示出根据一些实施方式的描绘学习的标准舒适模型和个性化热舒适模型的水平集之一的心理测量图。

[图6A]图6A示出根据一些实施方式的学习控制律以控制HVAC系统使得占用者的舒适概率最大化的示意图。

[图6B]图6B示出根据一些实施方式的HVAC设定点优化的框图。

[图7]图7示出根据一些实施方式的使用控制器来控制HVAC系统以实现占用者的热舒适。

具体实施方式

在以下描述中，为了说明，阐述了众多具体细节以便提供本公开的彻底理解。然而，对于本领域技术人员而言将显而易见的是，本公开可在没有这些具体细节的情况下实践。在其它情况下，设备和方法仅以框图形式示出，以避免使本公开模糊。

如本说明书和权利要求中使用的，术语“例如”和“诸如”以及动词“包括”、“具有”、“包含”及其其它动词形式在结合一个或更多个组件或其它项目的列表使用时各自应被解释为开放式，意味着列表不应被视为排除其它附加组件或项目。术语“基于”意指至少部分地基于。此外，将理解，本文所采用的措辞和术语是为了描述目的，不应被视为限制。此描述内利用的任何标题仅是为了方便，不具有法律或限制作用。

图1A示出一些实施方式用来控制布置为调节环境的加热、通风和空调(HVAC)系统的原理的示意性概览。该环境可以是建筑物的房间或空间或整个建筑物，其中安装有HVAC系统。在一些实施方式中，该环境可对应于占用者所在或居住的建筑物的空间。在各种实现方式中，HVAC系统可包括安装到环境的多个HVAC单元。HVAC系统被配置为在环境中输出空气以调节环境并且确保环境的占用者的热舒适。输出的空气的热状态包括HVAC系统所输出的空气的温度和湿度。在替代实施方式中，输出的空气的热状态包括HVAC系统输出到环境的空气的温度、湿度和速度之一或组合。

一些实施方式的目的是使用神经网络以考虑环境中的热状态动力学100来控制HVAC系统，而无需使用热状态模型。一些实施方式基于这样的认识：考虑环境中的热动力学100的HVAC系统的控制在连续空间域中操作。例如，对HVAC系统的致动器的控制命令可连续地变化。同样，环境中诸如温度、湿度和/或速度值的热状态可连续地变化。因此，环境中存在无限数量的控制命令值和无限数量的空间定位的热状态。然而，神经网络需要固定数量的输入和输出。为此，利用考虑热状态而训练的神经网络替换HVAC系统的控制是富有挑战性的。

一些实施方式基于这样的认识：不需要将环境中的热状态的连续分布映射至HVAC致动器的连续状态值。一些实施方式基于这样的认识：为了操作HVAC系统，将调节的环境中的温度、湿度和/或速度的值映射至设定点就足够了，当达到这些设定点时实现环境中的离散位置处的热状态的期望值。为此，可推导环境中的热状态和HVAC系统的设定点之间的映射102。如本文所使用的，“设定点”是指HVAC系统的变量的期望值。术语设定点应用于控制信号以及热力学和环境参数的特定集合的任何特定值。例如，术语“设定点”可指示在环境中的特定位置处HVAC系统的操作需要实现的温度的目标值。另外地或另选地，术语“设定点”可指示HVAC系统的组件的特定状态。

然而，由于环境中存在可估计或测量热状态的无限数量的点，所以在这种映射102中存在无限维问题。此外，热状态可根据热力学定律而快速变化。

为了解决这一问题，使用热状态104的稳态的离散化空间表示。一些实施方式基于这样的认识：环境的热力学的稳态建模可考虑环境中的热状态与HVAC系统的设定点之间的映射102。与考虑热力学的瞬态和稳态二者的完整建模相比，稳态建模可准确地空间离散化，因此，可利用环境中的固定/预定位置处的热状态来表示环境中的连续热状态。以这种方式，热状态104的稳态的离散化表示允许解决无限维问题。换言之，热状态104的稳态的空间离散化表示允许将空间连续热状态和HVAC致动器状态的连续值之间的无限映射变换为位置集合处的离散化稳态热状态和与根据设定点的HVAC控制组合的设定点集合之间的有限映射。

为此，一些实施方式将环境中的预定位置处的热状态映射至设定点以控制HVAC系统。在各种实现方式中，控制热状态的离散位置的数量大于设定点的数量。以这种方式，HVAC系统的控制可包括环境中的热状态100，而不考虑环境中良好混合的温度和/或速度分布的均匀性假设，同时维持控制使用这种假设的HVAC系统的计算复杂度。

一些实施方式基于这样的认识：需要确定预定位置处的热状态与设定点之间的映射，使得当HVAC系统的操作实现映射的设定点时，固定位置中的热状态接近目标热状态。一些实施方式基于这样的认识：这种映射是高度非线性的，并且可从数据学习，而非通过分析推导映射。根据实施方式，通过训练神经网络106来学习这种映射。从包括布置在环境中的预定位置108处的传感器所测量的热状态和HVAC系统110的设定点的数据来训练神经网络。

然而，这种神经网络的设计和训练带来了许多挑战。例如，在具有M个传感器和N个HVAC单元的任何给定环境中，在稳态下，存在从N个HVAC单元的设定点到M个传感器的测量映射数据中的正向(因果)关系的函数。然而，在这种情况下，期望的映射应该是可逆关系，即，映射也应该是可逆的，使得我们也学习将传感器测量映射到HVAC设定点的反向关系。可逆关系比简单预测正向关系更难训练。另外，可逆映射取决于许多其它参数，这些参数难以测量并且可能使反向映射的训练和准确性显著复杂。例如，反向映射取决于外部温度，这可能使训练复杂。可逆映射还取决于环境的配置，这降低了训练的映射的可转移性。此外，可逆映射取决于HVAC系统需要传递的热负荷，这难以估计。因此，可逆关系由于上述因素而难以学习。

为此，代替确定传感器测量和HVAC设定点之间的反向关系，一些实施方式确定将当前传感器测量和目标传感器测量之间的差异映射至当前HVAC设定点和目标HVAC设定点之间的差异的相对反向关系112。由于对于HVAC系统的操作的当前参数和目标参数，诸如外部温度、环境的配置和热负荷的其它参数相同。另外，考虑这些差降低了其它参数对学习相对反向关系112的影响。

图1B示出根据一些实施方式的被训练以建立预定位置处的热状态与导致热状态的HVAC设定点之间的可逆关系的神经网络120的示意图。在一些实现方式中，可逆关系是相对的，使得神经网络确定目标HVAC设定点150，使得HVAC系统根据目标HVAC设定点150的操作相对于HVAC系统根据当前HVAC设定点160的操作的差异将调节的环境中的预定位置中的热状态从当前热状态140改变为目标热状态130。以这种方式，生成控制命令并将其提交给HVAC系统的组件以根据目标HVAC设定点操作的控制器能够实现调节的环境中的目标热状态的非均匀分布，而不考虑热状态的动力学模型。

图2示出根据一些实施方式的根据HVAC设定点控制HVAC系统的控制器200的框图。控制器200包括输入接口202。控制器200被配置为经由输入接口202接受由HVAC系统调节的环境中的预定位置处的热状态的目标值、调节的环境中的预定位置处的热状态的当前值以及HVAC设定点的当前值。

控制器200可具有将控制器200与其它系统和装置连接的许多接口。例如，网络接口控制器(NIC)214适于通过总线212将控制器200连接到网络216，网络216将控制器200操作上连接到传感器集合。通过网络216(无论无线地还是有线地)，控制器200接收调节的环境中的预定位置处的热状态的目标值和当前值以及HVAC设定点的当前值。

控制器200包括被配置为执行所存储的指令的处理器204以及存储可由处理器204执行的指令的存储器206。处理器204可以是单核处理器、多核处理器、计算集群或任何数量的其它配置。存储器206可包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其它合适的存储器系统。处理器204通过总线212连接到一个或更多个输入装置和输出装置。

根据一些实施方式，存储在存储器206中的指令实现用于根据HVAC设定点控制HVAC系统的方法。为此，存储装置208可适于存储不同模块，其存储用于处理器204的可执行指令。存储装置208可使用硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列或其任何组合来实现。存储装置208被配置为存储将HVAC设定点映射至对应热状态的热传感器模型210a。存储装置208还被配置为存储将热状态映射至对应HVAC设定点的热传感器模型210b。存储装置208还被配置为存储所有占用者共同的标准舒适模型210c。标准舒适模型210c用于确定占用者的个性化热舒适模型。存储装置208还被配置为将各个占用者的热舒适模型210d个性化，其确定各个占用者的最优温度。

在一些实施方式中，控制器200被配置为使用神经网络和/或通过求解优化问题来确定目标HVAC设定点，使得当HVAC系统根据目标HVAC设定点操作时，预定位置中的当前热状态改变目标热状态。控制器200还被配置为生成用于HVAC系统的组件根据目标HVAC设定点操作的控制命令。

此外，控制器200包括输出接口220。在一些实施方式中，控制器200还被配置为经由输出接口220将控制命令提交给HVAC系统222的组件以根据目标HVAC设定点操作。控制命令可改变HVAC系统的致动器的状态。致动器的状态的示例包括HVAC系统的压缩机的速度、各种阀的位置、引导排气的通风百叶窗的旋转位置等。

在实施方式中，环境对应于在延长时间段内K个占用者所占用的室内空间，例如，桌子被分配的共享办公室。室内空间配备有分布在室内空间内的N个HVAC单元以及位于预定位置处的可测量温度和湿度的M个传感器。在一些实现方式中，位于预定位置处的M个传感器也可测量室内空间中输出的空气的空气速度。

设i∈1,……,M表示一个传感器及其在室内空间中的位置。x_i(t)＝[x_T,i(t),x_H,i(t)]∈R²表示第i传感器在时间t的测量，称为热状态，其中x_T,i(t)和x_H,i(t)分别是温度和湿度测量。室内空间的热状态由X(t)＝[x₁(t)……,x_M(t)]^T∈R^2M表示。第k占用者∈1,......,K感知的热状态由最近第i传感器的测量近似。位置i处的占用者k的最优温度由

表示。占用者期望的最优温度的向量被表示为

假设各个占用者可通过改变适当(特定)HVAC单元的温度设定点来提供关于其感知到的热舒适的反馈。在实施方式中，占用者可经由恒温器提供反馈。例如，占用者可通过调节与恒温器关联的温度设定点来提供反馈。在替代实施方式中，占用者可使用诸如HVAC系统的遥控器的用户设备来提供反馈。此外，通过将占用者的反馈与最近传感器的测量关联，可确定占用者的热舒适，即，占用者在那时刻感觉到热、冷还是舒适。设j∈1,......,N表示给定HVAC单元，h_j(t)∈R表示第j HVAC单元在时间t的温度设定点。所有HVAC单元的设定点的向量被表示为H(t)＝[h₁(t)……,h_N(t)]^T。

一些实施方式基于这样的认识：在室内空间中，在稳态下，存在从HVAC设定点至布置在室内空间中的传感器的测量映射数据中的正向(因果)关系的函数X(t)＝g(H(t))。另外，存在从传感器的测量至HVAC设定点映射数据中的反向关系g^-1的函数H(t)＝g^-1(X(t))。从稳态的数据学习可逆模型g。然而，收集用于训练的稳态数据既耗时，又需要进一步热力学建模。因此，即使HVAC系统被布置为调节严格控制的环境(例如，办公室)，稳态数据也存在热力学瞬态。换言之，对于捕获相对反向关系，学习可逆模型可能不切实际。为了解决这一问题，一些实施方式学习两个模型，即，热传感器模型和热设定点模型。

在正向方向上，一些实施方式学习将HVAC设定点映射至对应热状态X的热传感器模型：

为此，通过热传感器模型学习正向关系。在反向方向上，一些实施方式学习将热状态映射至HVAC设定点的估计的热设定点模型：

为此，通过热设定点模型学习反向关系。

一些实施方式基于这样的认识：上述模型可使用神经网络来学习，因为函数f_sensor和f_SetPts是非线性和非凸的。具体地，由于上述模型中的对称性并且HVAC设定点N的数量少于传感器的数量M，N<M，一些实施方式基于这样的认识：上述模型可使用具有自动编码架构的神经网络来学习。

图3A示出根据一些实施方式的用于反向关系的弱监督建模的自动编码器的框图。自动编码器是一种用于以无监督方式学习高效数据编码的人工神经网络。自动编码器的目的是通过训练网络忽略信号“噪声”来学习数据集合的表示(编码)，通常用于维数缩减。连同缩减侧一起学习重构侧，其中自动编码器尝试从缩减编码生成尽可能接近其原始输入的表示，因此得名。

为此，在一些实施方式中，被训练为建立预定位置处的热状态和导致热状态的HVAC设定点之间的可逆关系的神经网络具有自动编码架构，该自动编码架构具有与对应于HVAC设定点的隐层311连接的编码器310和解码器320。编码器310形成将预定位置处测量的热状态309连接到HVAC设定点311的热设定点模型315，而解码器320形成将HVAC设定点311与解码器所重构的热状态313连接的热传感器模型312。

值得注意的是，解码器313的热传感器模型312是正向(即，因果)模型，而热设定点模型315是反向模型。然而，这两个模型可基于包括热状态309的测量和预定位置以及导致热状态309的测量的HVAC设定点311的测量的训练数据从训练数据以无监督方式一起学习。以这种方式，训练的神经网络的编码器和解码器表示物理观测的热模型的编码器和解码器。

图3B示出根据一些实施方式的用于学习热传感器模型和热设定点模型的示例性自动编码架构300。热传感器模型312和热设定点模型315在自动编码架构300中链接。热传感器模型和热设定点模型二者可使用自动编码架构300来训练，其中

自动编码架构300包括编码器和解码器。编码器和解码器分别对应于热传感器模型和热设定点模型。编码器的输入层302对应于由预定位置处的传感器的测量确定的室内空间的热状态X(t)。此外，自动编码架构300包括隐藏层304，其包括具有非线性激活函数的可调(tunable)的一组层。编码器经由隐藏层304连接到与HVAC设定点对应的隐层306。隐层306具有等于HVAC设定点的数量的维度，并且表示各个HVAC单元学习的设定点h_j。

此外，自动编码架构300包括隐藏层308，其被配置为将隐层306的输出转换为室内空间的热状态的估计

解码器还连接到隐层306。输出层310对应于室内空间的热状态的估计。为此，编码器和解码器与隐层306连接，使得编码器将热状态连接到HVAC设定点，而解码器将HVAC设定点与热状态连接。换言之，自动编码器架构300涉及重构输入(传感器测量)，使得输出与输入匹配，而HVAC设定点是隐层306。

在一些实现方式中，具有自动编码架构300的神经网络离线(即，预先训练)并以无监督方式学习。换言之，热传感器模型和热设定点模型的学习离线执行，而无需人类专家。输入层302和输出层310的维度等于预定位置(或传感器测量)的数量。在替代实施方式中，如图3B所示，可使用HVAC状态条件来增强输入，例如风扇开/关状态、风扇速度等。这些HVAC状态条件由x_C,j(t)表示。

另外地或另选地，一些实施方式基于这样的认识：为了在自动编码架构300中一起学习热传感器模型和热设定点模型，需要利用使嵌入相对于当前HVAC设定点的偏差最小化的项来增强自动编码损失函数。自动编码损失函数的增强设计了隐空间，使得隐空间表示HVAC设定点的空间。为此，在一些实施方式中，用于训练神经网络的损失函数包括减少重构输入中的误差的重构损失以及减小嵌入相对于物理观测HVAC恒温器设定点的偏差的嵌入损失。以这种方式，嵌入损失允许以适合于训练的可微分方式将目标HVAC设定点公式化。用于训练神经网络的损失函数被表示为L_T(t)，其中T表示损失函数是静态热力学关系的近似。损失函数由下式给出

(4)中的第一项对应于X(t)上的重构损失，(4)中的第二项对应于H(t)上的嵌入损失。

另外，一些实施方式基于这样的认识：有利的是使用在HVAC系统的操作期间(即，HVAC系统的运行时)收集的数据来周期性地训练或更新训练的神经网络。以这种方式，神经网络可适应环境的配置和/或环境的占用者的数量和占用者的位置。为此，在一些实施方式中，神经网络的使用分阶段，使得在不同阶段不同地使用/训练神经网络。

图4示出根据一些实施方式的训练神经网络时的不同阶段的示意图。在初始训练阶段，基于收集的数据400(包括对应热状态400a和HVAC设定点400b值)来训练402具有自动编码架构300的神经网络。根据实施方式，初始训练阶段的目标是训练自动编码架构300的编码器和解码器二者以无监督方式估计/学习热传感器模型和热设定点模型二者。此外，在初始训练阶段期间，诸如(4)的损失函数404用于强制编码器可将热状态反向为HVAC设定点的对应值，其可被正向解码为热状态的对应值。为此，获得训练的神经网络406。

一些实施方式基于这样的认识：在初始训练阶段期间训练的神经网络406可针对目标热状态410执行以恢复目标HVAC设定点412。但这种执行可能没有得到正确的目标设定点，因为离散化用户位置处的期望温度可能没有出现在训练数据集中。因此，在重新训练阶段，一些实施方式通过基于目标热状态410和目标HVAC设定点重新训练来更新408训练的神经网络以获得更新的神经网络416。具体地，实施方式重新训练自动编码架构300，使得编码器将目标热状态410编码为目标HVAC设定点412，其可被解码器解码为目标热状态410。此外，为了重新训练自动编码架构300，包括重构损失的损失函数414用于减小预定位置处的温度测量与目标温度之间的差异。在替代实施方式中，为了重新训练自动编码架构300，包括重构损失的损失函数414用于减小预定位置处的温度和湿度测量与目标湿度值之间的差异。

通过在不同阶段训练神经网络而确定的更新的神经网络416提供了多个优点。例如，更新的神经网络416更准确，因为分别在初始训练阶段和重新训练阶段通过损失函数404和损失函数414强制了HVAC设定点的准确性。另外，在不同阶段训练神经网络允许变化输入层和输出层的维度，以仅考虑环境中与占用者关联的位置处的热状态。

在一些实施方式中，预定位置处的目标热状态是设计的参数。例如，目标热状态的目标值可由用户预先选择。然而，即使对于这种预选方法，一些实施方式基于这样的认识：将环境的热状态离散化增加了维持环境中的占用者的个体热舒适的灵活性。这种认识是真实的，因为不同的占用者可与不同的位置关联，这允许为不同的位置选择不同的目标热状态和/或强调与数量更多的占用者关联的位置和/或削弱不与任何占用者关联的位置。

为此，权重与环境中的各个预定位置关联。预定位置的权重取决于与该预定位置关联的占用者的数量。因此，重构损失是各个预定位置的重构损失的组合。处理器204还被配置为接收环境中的占用者的位置并将占用者与其最近预定位置关联。当用户坐在固定房间位置时，该位置可通过简单地提供离给定用户最近的传感器编号来提供。当占用者的位置是动态的时，其可由室内定位系统确定，这些室内定位系统基于到附近锚节点(具有已知固定位置的节点，例如Wi-Fi接入点或蓝牙信标)的距离测量、磁性定位、网格概念或航位推算。

根据实施方式，基于个性化热舒适模型来确定预定位置处的目标热状态。另外，一些实施方式旨在使在学习个性化热舒适模型时提供关于占用者的反馈的负担最小化。为此，一些实施方式使用弱监督方法来学习个性化热舒适模型。

图5A示出根据一些实施方式的用于学习个性化热舒适模型的弱监督方法的示意图。对于与第i传感器关联的第k占用者，存在将占用者在时间t的热状态

映射至占用者在时间t的个人舒适概率

的未知函数

实际上，占用者的热状态

由包括年龄、性别、代谢率、种族、服装等的参数集合定义。由于参数集合中的许多参数是不可测量的，所以难以学习

然而，一些实施方式基于这样的认识：可测量的量x_i(t)可用于学习对

的近似：

弱监督方法包括使用标记数据来学习热舒适模型f⁰ 500。此外，弱监督方法包括使用各个占用者所提供的反馈来调整502标准舒适模型，以学习个性化热舒适模型。第k占用者的个性化热舒适模型被表示为f^k。

占用者共同的标准舒适模型f⁰使用在环境中可测量的可能温度和湿度值的空间上均匀采样的标记数据来学习。标记数据的标签从对于占用者设想为舒适的温度和湿度范围推导。如果给定温度和湿度数据点落在这些范围内，则其被标记为舒适。否则，数据点被标记为不舒适。

在实施方式中，从专业人士协会所确定的舒适区域确定温度和湿度值范围。例如，诸如美国加热、制冷和空调工程师协会(ASHRAE)公布了示出舒适区域的心理测量图。这些心理测量图用于确定温度和湿度值范围。图5B示出根据一些实施方式的描绘舒适区域的示例性心理测量图。矩形506对应于冬季期间的舒适区域。矩形508对应于夏季期间的舒适区域。

在替代实施方式中，通过在湿度图上定义涵盖位置处的观测数据点510的区域508来确定温度和湿度值范围。区域510为矩形，并且由观测的T_min、T_max、H_min和H_max界定。一些实施方式基于这样的认识：矩形区域510可用于推导可用于学习标准舒适模型f⁰和个性化热舒适模型f^k的神经网络的结构。

图5C示出根据一些实施方式的可用于学习热舒适模型f⁰和个性化热舒适模型f^k的神经网络512的结构。神经网络512包括输入层514、隐藏层516和输出层518。温度x_T(t)和湿度x_H(t)测量被输入到输入层514。隐藏层516包括四个神经元516a、516b、516c和516d。各个神经元学习区域508的一侧的边界。例如，516a学习冷到舒适的温度边界，516b学习舒适到热的温度边界，516c学习湿到舒适的湿度边界，516d学习干到舒适的湿度边界。此外，为了将模型f⁰和f^k的输出解释为概率，对神经网络512的各个神经元应用sigmoid激活。神经网络512输出舒适概率y_c(t)。通过在可能的温度和湿度值的空间上均匀采样并使用区域508的边界标记样本来学习标准舒适模型。

图5D示出描绘根据一些实施方式的学习的热舒适模型和个性化热舒适模型的水平集之一的心理测量图。以虚线示出的形状520表示学习的标准舒适模型f⁰。具体地，形状520的虚线是学习的标准舒适模型f⁰的水平集之一。水平集是由函数预测的舒适概率相同的点集合。例如，由函数评估的概率为0.5的所有点。

此外，为了确定个性化热舒适模型f^k，当占用者k通过调节第j HVAC单元的设定点来提供反馈时，学习的标准模型f⁰适合于占用者k。例如，占用者k可调节第jHVAC单元的设定点温度。此时，观测并获得占用者的热状态x_i(t)和调节的设定点温度h_j(反馈)。由占用者调节的设定点对应于目标HVAC设定点。一些实施方式基于这样的认识：各个调节的设定点(反馈)产生多个级别的信息。例如，各个调节的设定点(反馈)产生三个级别的信息。首先，占用者在当前状态x_i(t)下不舒适。其次，占用者热或冷，取决于设定点h_j改变的方向。第三，占用者假设其最优温度可能为h_j。从上述三个级别的信息，一些实施方式使用第三级别信息，因为占用者所提供的目标HVAC设定点不是最优的，并且模型f⁰和f^k仅确定舒适概率，而没有不适方向。因此，当占用者调节HVAC设定点时，获得表明占用者在当前条件下不舒适的标记数据。

此外，使用f⁰上的反向传播将所获得的标记数据调整为标准舒适模型f⁰，直至在当前数据点处评定的舒适概率低于阈值。这种采用方式得到第k占用者的个性化热舒适模型f^k。当占用者提供反馈时，进一步更新模型f^k。此外，在实施方式中，假设至少在利用模型f^k的第一年期间，可从最近反馈集合周期性地学习模型f^k，从而导致占用者k的季节性个性化热舒适模型的集合。椭圆形状522表示个性化热舒适模型f^k的水平集之一。如图5D所示，个性化热舒适模型f^k涵盖标准舒适模型f⁰ 520所涵盖的数据的子集。

一些实施方式基于这样的认识：热设定点模型估计导致观测到的传感器测量的HVAC设定点。然而，另外，一些实施方式中的一些的目的是预测使占用者舒适最大化的HVAC设定点。为此，对于各个占用者k给定温度

一些实施方式旨在学习使由

表示的所有占用者的舒适概率最大化的控制律

一些实施方式基于这样的认识：热传感器模型和热设定点模型可被组合以学习控制律。为了学习控制律，首先，使用占用者的个性化热舒适模型为各个占用者确定最优温度。通过从可能环境条件集合均匀地采样并且为各个占用者选择舒适概率最高的点来使用个性化热舒适模型。

各种实施方式基于包括热状态的测量和预定位置以及导致热状态的测量的HVAC设定点的测量的训练数据来训练神经网络。由于训练数据包括实际测量，所以训练的神经网络形成物理观测热模型的编码器和解码器。然而，由用户提供或经由个性化或通用热舒适模型确定的目标热状态的实现可能不完全可行。一些实施方式基于这样的认识：训练的神经网络的物理观测热模型仍可用于使用目标热状态的反向映射来确定目标HVAC设定点。另外地或另选地，一些实施方式使用重新训练和/或其它优化技术来减小当前热状态和目标热状态之间的差异。

例如，一个实施方式还被配置为使用包括重构损失的损失函数基于目标HVAC设定点和目标热状态来更新神经网络，以减小预定位置处的温度测量和目标热状态的目标温度的差异。由于神经网络以弱监督方式训练，所以与仅改变输入层的值相比，更新神经网络的参数可直接针对目标热状态的特定值学习热设定点模型的反向关系。

图6A示出根据一些实施方式的学习热设定点模型以推导控制HVAC系统的控制律，使得所有占用者的舒适概率最大化的示意图。在实施方式中，控制律利用热设定点模型初始化(方程(2))。具体地，控制律利用热设定点模型来热启动。此外，训练控制律，使得估计的HVAC设定点在与

对应的占用者位置得到测量x_T,i。控制律的这种训练通过固定热传感器模型600并微调形成控制律602的热舒适模型来实现。使用惩罚相对于各个占用者位置处的最优占用者温度的偏差的损失函数604来微调控制律。这种损失函数由下式给出

其中如果i对应于至少一个占用者的最近传感器位置，则1(i)＝1，如果i对应于第k占用者的最近传感器位置，则1(i,k)＝1。结果，热设定点模型学习强调占用者舒适而非热状态的重构/估计的舒适映射606。

在一些实现方式中，微调602以基于热状态的测量和设定点训练的物理观测热模型为基础。为了利用这种模型的可行性，响应于接收到目标热状态，一些实施方式针对物理观测热模型中的解码器的热传感器模型600的固定参数重新训练物理观测热模型的编码器的热设定点模型602的参数。以这种方式，仅更新将目标热状态连接到目标HVAC设定点的热设定点模型的相关部分。

另外地或另选地，为了学习控制律，将控制律定义为热设定点模型(方程(2))，其中向热设定点模型的输出添加维度N的附加线性层。热传感器模型和热设定点模型被固定，并且使用方程(6)在附加线性层上执行训练。这种学习控制律的方法是有利的，因为要学习的模型参数少得多，得到可利用很少的训练数据样本高效学习的模型。

在一些实施方式中，重新训练编码器的参数以减小重构损失604，以用于重构包括各个预定位置的重构损失的加权组合的目标热状态。各个预定位置的权重取决于与预定位置关联的调节的环境的占用者的数量。以这种方式，所有占用者的总舒适可改进。

然而，一些实施方式基于这样的认识：尽管重新训练自动编码器可提供更好的映射，但重新训练花费时间并且对于调节的环境的占用者的位置固定或很少改变效果最好。当占用者经常改变其位置时，重新训练可能比期望慢很多。为此，对于重新训练另外地或另选地，一些实施方式给定各个占用者的目标热状态在占用者的动态变化的位置处求解给定目标热状态对目标HVAC设定点的优化。

图6B示出根据一些实施方式的HVAC设定点优化的框图。在这些实施方式中，通过求解优化问题607来直接寻找HVAC设定点608。在占用者动态地选择其座位区域或频繁地改变其座位位置的情况下该实施方式特别适用。这里，热设定点模型方程(2)用于选择优化模型的初始解，并且优化问题学习使通过方程(3)的热传感器模型600预测的舒适损失函数方程(6)最小化的最佳HVAC设定点集合。

即，在给定时间点，当前传感器测量被输入到热设定点模型方程(2)中，并且预测物理学习的HVAC设定点。这些设定点被设定为x0，在优化期间使用的初始搜索点。接下来，优化损失函数方程(6)，即，执行在可能HVAC设定点(x0的邻域)上的搜索，使得在用户状态下热传感器模型方程(6)的输出处的预测热状态与用户期望的热状态最优匹配。因此，我们搜索x0附近的最佳设定点，其使相对于用户附近的期望热状态的偏差最小化。

图7示出根据一些实施方式的使用控制器200来控制HVAC系统704以实现占用者的热舒适。HVAC系统704被布置为调节房间706。在情况700中，房间706被相应固定位置处的占用者708、710、712和714占用。控制器200基于各个占用者的个性化热舒适模型以及根据房间706的配置确定的热传感器模型和热设定点模型来确定目标HVAC设定点。此外，控制器200生成与目标HVAC设定点对应的控制命令。HVAC系统704根据控制命令来操作。占用者708-714周围的箭头716、718和720表示当前房间条件，例如房间702中的温度和湿度。

在情况702中，房间706被相应固定位置处的占用者712和714占用。控制器200被配置为接收房间中的占用者(即，占用者712和714)的位置。此外，控制器200基于占用者712和714的个性化热舒适模型以及根据房间706的配置确定的热传感器模型和热设定点模型来确定新目标HVAC设定点。控制器200生成与新目标HVAC设定点对应的控制命令。为此，HVAC系统操作以调节房间702，使得HVAC系统704仅调节当前占用者的位置处的房间702，同时确保占用者712和714的最大舒适。当HVAC系统704根据这些控制命令操作时，房间条件更新为房间条件722和724。此外，由于使用基于数据驱动模型(热传感器模型和热设定点模型)确定的新目标HVAC设定点，而非通过分析推导的模型，所以控制器200上的在线计算负担减少。此外，由于仅考虑占用者712和714的个性化热舒适模型，所以实现最优的每点性能，因此允许计算上更廉价的在线舒适优化。

以下描述仅提供示例性实施方式，并非旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将向本领域技术人员提供用于实现一个或更多个示例性实施方式的使能描述。可以想到在不脱离如所附权利要求中阐述的所公开主题的精神和范围的情况下可对元件的功能和布置进行的各种改变。

以下描述中给出了具体细节以提供实施方式的透彻理解。然而，本领域普通技术人员可理解，实施方式可在没有这些具体细节的情况下实践。例如，所公开主题中的系统、处理和其它元件可按框图形式作为组件示出，以免在不必要的细节方面模糊实施方式。在其它情况下，熟知处理、结构和技术可在没有不必要的细节的情况下示出，以避免模糊实施方式。此外，各种附图中的相似标号指示相似的元件。

另外，各个实施方式可作为描绘为流程图、数据流程图、结构图或框图的处理来描述。尽管流程图可将操作描述为顺序处理，但许多操作可并行或并发执行。另外，操作的顺序可重新安排。处理可在其操作完成时终止，但是可具有图中未讨论或包括的附加步骤。此外，并非任何具体描述的处理中的所有操作可发生在所有实施方式中。处理可对应于方法、函数、过程、子例程、子程序等。当处理对应于函数时，函数的终止可对应于该函数返回到调用函数或主函数。

此外，所公开主题的实施方式可至少部分地手动或自动实现。可通过使用机器、硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微码实现时，执行必要任务的程序代码或代码段可被存储在机器可读介质中。处理器可执行必要任务。

本文中概述的各种方法或处理可被编码为可在采用各种操作系统或平台中的任一种的一个或更多个处理器上执行的软件。另外，这种软件可使用多种合适的编程语言和/或编程或脚本工具中的任一种来编写，并且也可被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常，在各种实施方式中，程序模块的功能可根据需要组合或分布。

本公开的实施方式可被具体实现为一种方法，已提供其示例。作为该方法的一部分执行的动作可按照任何合适的方式排序。因此，可构造以与所示不同的次序执行动作的实施方式，其可包括同时执行一些动作，尽管在例示性实施方式中作为顺序动作示出。尽管参考特定优选实施方式描述了本公开，但是将理解，在本公开的精神和范围内可进行各种其它调整和修改。因此，所附权利要求的方面涵盖落在本公开的真实精神和范围内的所有这些变化和修改。

Claims

1.一种用于根据加热、通风和空调HVAC设定点来控制被布置为调节环境的HVAC系统的控制器，该控制器包括：至少一个处理器；以及其上存储有指令的存储器，所述指令在由所述至少一个处理器执行时使得所述控制器：

接受所调节的环境中的预定位置处的目标热状态、所调节的环境中的所述预定位置处的当前热状态以及当前HVAC设定点；

使用被训练为建立所述预定位置处的热状态与导致所述热状态的HVAC设定点之间的可逆关系的神经网络，确定目标HVAC设定点，使得所述HVAC系统根据所述目标HVAC设定点的操作相对于所述HVAC系统根据所述当前HVAC设定点的操作的差异将所调节的环境中的所述预定位置中的所述热状态从所述当前热状态改变为所述目标热状态；以及

生成控制命令并将所述控制命令提交给所述HVAC系统的组件以根据所述目标HVAC设定点操作。

2.根据权利要求1所述的控制器，其中，所述神经网络具有自动编码架构，该自动编码架构具有与对应于所述HVAC设定点的隐层连接的编码器和解码器，使得所述编码器形成将所述热状态连接到所述HVAC设定点的热设定点模型，而所述解码器形成将所述HVAC设定点与所述热状态连接的热传感器模型。

3.根据权利要求2所述的控制器，其中，所述编码器的输入层和所述解码器的输出层具有等于所述预定位置的数量的维度，并且其中，所述隐层具有等于所述HVAC设定点的数量的维度。

4.根据权利要求2所述的控制器，其中，所述处理器还被配置为使用包括重构损失的损失函数基于所述目标HVAC设定点和所述目标热状态来更新所述神经网络，以减小所述预定位置处的温度测量和所述目标热状态的目标温度的差异。

5.根据权利要求2所述的控制器，其中，所述处理器被配置为基于包括所述热状态的测量和所述预定位置以及导致所述热状态的所述测量的所述HVAC设定点的测量的训练数据来训练所述神经网络，使得所训练的神经网络的编码器和解码器表示物理观测热模型的编码器和解码器。

6.根据权利要求5所述的控制器，其中，响应于接收到所述目标热状态，所述处理器被配置为针对所述物理观测热模型中的所述解码器的固定参数重新训练所述物理观测热模型的所述编码器的参数，以更新将所述目标热状态连接到所述目标HVAC设定点的所述热设定点模型。

7.根据权利要求6所述的控制器，其中，所述编码器包括连接到所述隐层并具有所述隐层的维度的输出层，并且其中，响应于接收到所述目标热状态，所述处理器被配置为仅重新训练编码器的所述输出层的参数。

8.根据权利要求6所述的控制器，其中，重新训练所述编码器的所述参数以减小重构损失，以用于重构包括各个所述预定位置的重构损失的加权组合的所述目标热状态，并且其中，各个所述预定位置的权重取决于与所述预定位置关联的所调节的环境的占用者的数量，其中，所述处理器还被配置为：

接收所调节的环境中的所述占用者的位置；并且

将所述占用者与其最近预定位置关联。

9.根据权利要求8所述的控制器，其中，响应于检测到所述占用者的位置的改变，所述处理器还被配置为根据所述热传感器模型优化所述目标HVAC设定点，以生成所述占用者的所改变的位置处的所述目标热状态。

10.根据权利要求2所述的控制器，其中，所述处理器还被配置为：给定各个占用者的所述目标热状态，在所述占用者的动态变化的位置处给定所述目标热状态求解对所述目标HVAC设定点的优化。

11.根据权利要求1所述的控制器，其中，所述预定位置处的所述目标热状态是基于所调节的环境中的占用者的热舒适模型来确定的。

12.根据权利要求11所述的控制器，其中，所述处理器还被配置为基于所述占用者的反馈来更新所述热舒适模型，以形成各个占用者的个性化热舒适模型并基于所述个性化热舒适模型来确定所述目标热状态。

13.根据权利要求11所述的控制器，其中，所述热舒适模型是基于在受控环境中测量的温度值和湿度值的集合上均匀采样的标记数据来确定的。

14.根据权利要求1所述的控制器，其中，所述处理器还被配置为根据控制律来控制所述HVAC系统以优化占用者的热舒适，其中，基于各个占用者的最优温度和惩罚相对于各个占用者的位置处的所述最优温度的偏差的损失函数来学习所述控制律。

15.一种HVAC系统，该HVAC系统包括根据权利要求1所述的控制器。

16.一种用于根据加热、通风和空调HVAC设定点来控制被布置为调节环境的HVAC系统的方法，其中，该方法使用联接到存储指令的存储器的处理器，该处理器与所存储的指令联接，所述指令在由所述处理器执行时执行所述方法的步骤，该方法包括以下步骤：

使用神经网络确定目标HVAC设定点，使得所述HVAC系统根据所述目标HVAC设定点的操作相对于所述HVAC系统根据所述当前HVAC设定点的操作的差异将所调节的环境中的所述预定位置中的热状态从所述当前热状态改变为所述目标热状态；以及

17.根据权利要求16所述的方法，其中，所述神经网络具有自动编码架构，该自动编码架构具有与对应于所述HVAC设定点的隐层连接的编码器和解码器，使得所述编码器将所述热状态连接到所述HVAC设定点，而所述解码器将所述HVAC设定点与所述热状态连接，其中，所述编码器的输入层和所述解码器的输出层具有等于所述预定位置的数量的维度，并且其中，所述隐层具有等于所述HVAC设定点的数量的维度。

18.根据权利要求17所述的方法，该方法还包括以下步骤：

基于包括所述热状态的测量和所述预定位置以及导致所述热状态的所述测量的所述HVAC设定点的测量的训练数据来训练所述神经网络，使得所训练的神经网络的编码器和解码器表示物理观测热模型的编码器和解码器；以及

响应于接收到所述目标热状态，针对所述物理观测热模型中的所述解码器的固定参数重新训练所述物理观测热模型的所述编码器的参数，以更新将所述目标热状态连接到所述目标HVAC设定点的热设定点模型。

19.根据权利要求18所述的方法，其中，重新训练所述编码器的所述参数以减小重构损失，以用于重构包括各个所述预定位置的重构损失的加权组合的所述目标热状态，并且其中，各个所述预定位置的权重取决于与所述预定位置关联的所调节的环境的占用者的数量。

20.根据权利要求19所述的方法，该方法还包括以下步骤：

响应于检测到所述占用者的位置的改变，根据热传感器模型优化所述目标HVAC设定点，以生成所述占用者的所改变的位置处的所述目标热状态。