CN111684370B

CN111684370B - 用于控制操作的系统和方法

Info

Publication number: CN111684370B
Application number: CN201880088062.9A
Authority: CN
Inventors: E·拉夫特切夫; A·纳塔拉扬
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-02-05
Filing date: 2018-07-30
Publication date: 2023-07-28
Anticipated expiration: 2038-07-30
Also published as: WO2019150612A1; EP3750012B1; JP2021508118A; US10794609B2; US20190242608A1; EP3750012A1; JP6925536B2; CN111684370A

Abstract

用于为居住者控制装置的操作的系统和方法。处理器在初始化时段期间迭代地训练个性化热舒适模型(PTCM)。接收一系列未标记实时数据。当与所接收的未标记数据相似的所存储的历史标记数据(LD)的标签与新的未标记数据上的预测的标签之间的不一致超过阈值时，发送器请求居住者标记未标记数据实例。响应于接收到标记数据，与历史LD相比，处理器使用个性化LD的不同权重来训练PTCM。使用历史数据库和更新的个性化数据库来重新训练PTCM。控制器基于重新训练的PTCM来控制一组装置。

Description

用于控制操作的系统和方法

技术领域

本公开总体上涉及加热、通风和空调(HVAC)系统，更具体地，涉及诸如温度设定点和HVAC系统所传送的潜热量的可调节设置的自动定制，以便使空间内的居住者的热舒适最大化，并使HVAC系统能耗最小化。

背景技术

诸如办公室和住宅建筑的环境中的传统HVAC系统是全世界最大的能源消耗者，据估计消耗了超过40％的全部能源。这是由于现代社会中对室内气候调节的高度重视以及其对人们的生产力和幸福感的影响。然而，利用传统HVAC系统连续维持热舒适目前以不够理想且效率低的方式实现，这主要是因为建筑居住者与HVAC系统之间的主要通信方式非常原始。

大多数情况下，与传统HVAC系统的通信通过壁式恒温器或遥控装置进行，其目的是打开或关闭设备以及设定温度设定点。开/关开关指示何时需要服务以及何时不需要服务。温度设置是根据建筑居住者的需要和热条件指示期望的热舒适度的方式。例如，当办公室职员在寒冷的冬天长时间静坐在办公桌前时，职员可能由于较低的代谢率而感觉寒冷，并且通过增加温度设定点来请求进一步加热。类似地，当体力劳动者在炎热潮湿的夏天进行重体力劳动时，工人可能感觉非常热，并且可通过降低温度设定点来请求进一步冷却。

原则上，只要可能，传统HVAC控制(开/关开关和温度设定点)应该能够提供热舒适。然而，实际上，由于多种原因，这几乎不会发生。至少一个原因在于温度设定点的不断手动重新调节是不切实际的，对于大多数建筑居住者而言将大大分散注意力。例如，在真实生活中，仅当室内气候变得极其不舒适时，才发生这种重新调节，这导致建筑居住者不满意或生产力低下。

传统HVAC不断手动重新调节温度设定点不切实际的另一原因在于，即使当居住者愿意调节温度设定点时，除其它原因外，居住者也很少知道最优值是多少。如上所述，该值很大程度上取决于当前体力活动水平(代谢率)、空气湿度、居住者所穿的衣服以及房间中的其它对象所辐射的辐射热量，以及外部热源(例如，太阳)。

ISO 7730和ASHRAE 55中示出了用于预测居住者的热舒适的模型，然而，对于建筑居住者正确地确定最优温度而言这些模型不切实际。例如，这些模型仅提供确定所需校正的符号(例如，温度升高或降低)，稍后需要进一步校正，代价是建筑居住者浪费更多时间以及工作分散注意力。在许多问题当中，这些模型的另一问题是过度校正是频繁观测到的现象，使得当居住者感觉寒冷时，居住者决定解决寒冷感觉常常导致选择不必要地高的温度设定点，这导致室温来到另一不舒适状态，使得居住者感觉太热。同样，这些模型给建筑居住者带来差的体验，导致建筑居住者甚至浪费更多时间以及工作分散注意力的代价。

传统HVAC不断手动重新调节温度设定点不切实际的另一原因是传统HVAC系统的热舒适温度传感器的非最优调节。例如，传统HVAC传感器位于HVAC装置/系统本身，并且在进入HVAC装置的进口之前测量回流空气的温度。这带来许多问题，例如，至少一个问题是建筑居住者通常对该位置处(即，传统HVAC系统的进口处)的空气温度不感兴趣。相反，居住者需要建筑内其特定位置处的舒适温度。由于居住者位置通常远离传统HVAC装置，并且建筑区域中存在显著温度梯度，所以由传统HVAC装置感测并调节的空气温度不同于特定建筑区域的居住者所体验的温度。导致建筑居住者不舒适并请求或手动调节特定建筑区域环境，这又浪费了时间并分散了居住者的工作注意力以及增加能源成本。

另一传统热舒适监测器包括监测装置，其尝试从传感器测量确定房间中的实际舒适度(Vass等人的美国8,700,227)。然而，Vass模型存在问题，例如，许多问题当中的至少一个问题在于，在居住者所在的区域中感测测量。在许多方面当中，Vass模型在至少一个方面是失败的，因为所感测的测量不是特定居住者的，不是居住者(即，他/她在房间内的条件和/或位置)处的。

尚未解决的其它传统热舒适模型问题包括处于多个居住者共享同一房间(即，气候条件)的建筑环境中。例如，由于多个居住者占据相同的热控制HVAC区域，所以这多个居住者在调节气候控制方面受到限制。一些问题导致这样多个居住者共享空间，使得许多居住者由于温度太热或太冷而明显不舒适。传统热舒适模型的其它问题包括HVAC系统对空区域或未占据区域(例如，会议室和实验室)的热调节。空区域的这种热调节导致显著的费用和资源浪费。即使当区域被占据时，传统热舒适模型在确定可满足当前一组居住者的最优温度设定点方面也非常有挑战性。

因此，需要为空间内的居住者实现更好的热舒适以及更好的HVAC性能等。例如，要解决的一些需求包括控制HVAC设备的自动化方法，其能够使一个或更多个区域居住者的热舒适最大化。其中可识别区域内的各个居住者具有自己的特定偏好，而无需与HVAC装置的过多手动交互，同时能够利用能源效率。

发明内容

本公开涉及提供用于可调节设置(例如，温度设定点和HVAC系统所传送的潜热量)的自动定制的系统和方法，以便使空间内的居住者的热舒适最大化，并使HVAC系统能耗最小化。

本公开的一些实施方式基于这样的认识：根据描述空调环境中的居住者的热舒适的热舒适模型来控制加热、通风和空调(HVAC)系统是有利的。例如，热舒适的一些本公开的实施方式将居住者的热舒适与居住者的生物特征数据和环境内条件的数据相关联。通过实验，这些本公开的热舒适实施方式/模型还在降低HVAC系统的能耗的同时优化环境的居住者的热舒适。然而，在实验期间，这些热舒适实施方式/模型的创建必须克服许多挑战。

例如，本公开的一些实施方式认识到创建描述环境内的一群人的平均热舒适的热舒适模型的能力。然而，通过实验得知，这些热舒适模型依赖于估计平均用户的平均热舒适，其随后未能准确地预测特定用户和/或特定用户群在空调环境中的舒适。具体地，该平均热舒适模型被证明对于特定用户和/或空调环境的居住者的需求不是个性化的。

本公开的一些实施方式认识到基于居住者自己所提供的信息来创建环境的居住者的个性化热舒适模型的能力。然而，从实验得知，这些个性化热舒适模型的创建需要在不同环境条件下来自居住者的关于舒适度的标记数据。另外从实验得知，尝试获得这种标记数据是要克服的挑战性任务。如本文所使用的，短语标记数据可被称为数据集，其中各个数据点可利用感兴趣的一些标签来标记。例如，至少一个温度传感器的温度测量的各个值可与用户/居住者感觉关联，包括寒冷舒适范围、凉爽舒适范围、舒服舒适范围、温暖舒适范围和炎热舒适范围。如果用户针对各个值报告了他/她的感觉，则数据集被完全标记。如果用户报告了他/她的感觉一次或两次，则数据集可仅包括一个或两个标记的示例，并且仅被部分标记。

要标记的数据的示例可包括居住者的生物特征数据(例如，居住者的生命体征)和环境数据(例如，空调环境中的温度、湿度、气流)的各种组合。在许多情况下，获得未标记数据实例的这些数据测量不具有挑战性。例如，生物特征数据可通过用户所穿戴的可穿戴装置(例如，智能手表)来测量，而环境数据也可通过可穿戴装置和/或安装在环境中的各种传感器来测量。

为此，在创建个性化热舒适模型时，当各个单独的用户的未标记数据丰富时一些实施方式面临问题，需要大量来自用户的进一步输入以标记未标记数据实例。然而，如果一直要求用户提供足以训练热舒适模型的数量的反馈，则从用户获得这种输入信息会是不合理的。此外，不仅期望用户为未标记数据提供大量标记，而且用户的受益也滞后，其中，仅在用户已提供几百个或更多标签之后才从这种模型受益。

一些实施方式基于这样的认识：可基于HVAC系统的不同用户所提供的数据来创建描述一群人的聚集热舒适的热舒适模型。然而，这种模型也可能无法准确地预测真实世界中的个体舒适，因为群中的各个用户可具有不同的舒适偏好。要注意的是，向用户请求以训练模型的标签是主观的，主动学习用来从多个用户的反馈训练模型的常规技术不适合于个性化热控制的场景。

一些实施方式基于这样的认识：可使用该个性化热舒适模型的用户所提供的标记数据以及其他用户所提供的标记数据(即，历史居住者数据)二者以混合方法学习个性化热舒适模型。这种混合方法允许减少向用户请求以便训练用户的个性化热舒适模型的标记数据实例的数量，这减少了对用户的干扰并增加了她/他提供反馈的意愿。另外，混合方法允许减少开始在用户所占据的环境中利用该训练的模型控制HVAC的等待时间，这继而降低了HVAC系统的能耗。另外，减少对反馈信息的请求可降低系统构建个性化热舒适模型的存储器、网络业务和计算要求。

然而，当为模型提供反馈的其他用户具有不同的舒适偏好时，通过将用户的反馈与其他用户的反馈组合来简单使用混合方法会降低个性化热舒适模型的准确性。为此，一些实施方式修正混合方法以解决该限制。

例如，一些实施方式针对个性化数据库中用户所提供的标记数据与公共数据库中其他用户所提供的标记数据使用不同的模型权重来为用户构建个性化热舒适模型。此方法允许考虑为学习和/或训练模型所提供的标记数据的可靠性。

另外，当从用户接收到新反馈时，一些实施方式并非利用标记数据的该新实例更新模型，而是将标记数据的该新实例附到个性化数据库，并从头开始重新训练模型。该方法可允许模型朝着用户所提供的数据更快速地学习。

此外，模型的重新训练允许在训练期间调节用户的反馈数据的权重。例如，在一些实施方式中，个性化数据库中用户所提供的标记数据的权重和/或公共数据库中其他用户所提供的标记数据的权重是个性化数据库中的标记数据实例的数量的函数和/或个性化数据库中的标记数据实例的数量与公共数据库中的标记数据实例的数量之比的函数。以这种方式，那些实施方式可减小公共数据库中的标记数据对训练的模型的影响。例如，当个性化数据库具有足够数量的标记数据实例时，一些实施方式逐步淘汰来自公共数据库的标记数据，而无需中断HVAC系统的控制。例如，在个性化数据库中累积一定数量的标记实例之后，一个实施方式仅使用个性化数据库和调整的个性化模型权重来进行模型的将来的训练和/或更新。

一些实施方式基于这样的理解：借用自主动机器学习领域的不同技术可用于减少向用户请求的反馈数量。然而，那些技术用于逐步增加基于所提供的反馈构建的模型的质量。然而，在这种情况下，模型在开始不受信任。为此，期望一种不同的主动学习方法。

具体地，一些实施方式并非在预测当前条件的热舒适时测试模型的置信度，而是测试公共数据库中当前条件的标记数据与未标记数据实例的预测的标记的一致性。当其他用户在当前条件下就其舒适表达的意见与预测的假设的当前标签不一致时，用户接收反馈请求。例如，如果对于与当前条件相似的条件(包括用户的生物医学参数的当前值和空调环境中的环境参数的当前值中的一个或组合)，所有其他用户指示其舒适，则可能那些条件对于个性化热舒适模型的用户是舒适的。相反，当对于相同的条件，一些用户舒适而一些用户不舒适时，请求用户表达其舒适的反馈是合理的。此方法允许减少对反馈的请求数量，而不依赖于个性化热舒适模型的准确性。

此外，本公开的一些实施方式可提供使用针对快速启动建模和基于流的主动学习而修正的迁移主动学习框架来寻找个性化热舒适模型的标签高效的方法。例如，迁移主动学习框架可将至少两个主动学习查询策略并入回归设置中，其可用于基于流的设置等。此外，本公开的各方面利用了先验知识(即，历史数据或历史标记数据)，以快速地学习热舒适预测模型并且当仅给出几个标记的数据示例时调节模型。

根据本公开的实施方式，一种为居住者控制一组装置的操作的系统。该系统包括存储器，该存储器将包括标记数据的历史数据存储在历史数据库中。其中，标记数据的各个实例指示至少一个居住者在至少一个环境的不同条件下的热舒适度。硬件处理器在初始化时段期间迭代地训练存储在存储器中的个性化热舒适模型。输入接口接收一系列未标记实时数据，所述一系列未标记实时数据包括居住者的生物特征数据的测量、居住者所在的环境中的环境数据的测量、或者这二者。当与所接收的未标记数据相似的所存储的历史标记数据的标签相对于未标记数据上的预测的标签之间的不一致超过预定不一致阈值时，发送器请求居住者标记未标记数据实例。其中，响应于标记未标记数据实例，硬件处理器将所标记的未标记数据实例作为个性化标记数据存储在存储器中的个性化标记数据库中。硬件处理器与所存储的历史标记数据相比使用所存储的个性化标记数据的不同权重来训练个性化热舒适模型。使得对于初始化时段期间的各个迭代，利用个性化标记数据来更新个性化标记数据库。使用历史数据库和所更新的个性化数据库来重新训练个性化热舒适模型。最后，控制器基于重新训练的个性化热舒适模型来控制所述一组装置。

根据本公开的另一实施方式，一种为居住者控制一组装置的操作的方法。该方法包括使用存储器将包括标记数据的数据存储在历史数据库中。其中，标记数据的各个实例指示至少一个居住者在至少一个环境的不同条件下的热舒适度。使用硬件处理器在初始化时段期间迭代地训练存储在存储器中的个性化热舒适模型。经由输入接口接收一系列未标记实时数据，所述一系列未标记实时数据包括所述居住者的生物特征数据的测量、所述居住者所在的环境中的环境数据的测量、或者这二者。当与所接收的未标记数据相似的所存储的历史标记数据的标签与未标记数据点上的预测的标签之间的不一致超过预定阈值时，经由发送器请求所述居住者标记未标记数据实例。使用输入接口接收从居住者返回的包括标记未标记数据实例的响应。硬件处理器将所标记的未标记数据实例作为个性化标记数据存储在存储器中的个性化标记数据库中。与所存储的历史标记数据相比使用所存储的个性化标记数据的不同权重来训练个性化热舒适模型。使得对于初始化时段期间的各个迭代，利用个性化标记数据来更新个性化标记数据库，并且使用历史数据库和所更新的个性化数据库来重新训练个性化热舒适模型。最后，经由控制器基于重新训练的个性化热舒适模型来控制所述一组装置。

根据本公开的另一实施方式，一种为居住者控制加热通风和空调(HVAC)系统的操作的系统。该系统包括存储器，该存储器将包括标记数据的历史数据存储在历史数据库中。其中，标记数据的各个实例指示至少一个居住者在至少一个环境的不同条件下的热舒适度。硬件处理器在初始化时段期间迭代地训练存储在存储器中的个性化热舒适模型。其中，个性化热舒适模型在被存储在存储器中之前利用历史标记数据和迁移学习算法初始化，这导致限制用于在初始化时段期间训练个性化热舒适模型的搜索空间。输入接口接收一系列未标记实时数据，所述一系列未标记实时数据包括居住者的生物特征数据的测量、居住者所在的环境中的环境数据的测量、或者这二者。当与所接收的未标记数据相似的所存储的历史标记数据的标签相对于未标记数据上的预测的标签之间的不一致超过预定不一致阈值时，发送器请求居住者标记未标记数据实例。其中，响应于标记未标记数据实例，硬件处理器将所标记的未标记数据实例作为个性化标记数据存储在存储器中的个性化标记数据库中。与所存储的历史标记数据相比使用所存储的个性化标记数据的不同权重来训练个性化热舒适模型。使得对于初始化时段期间的各个迭代，利用个性化标记数据来更新个性化标记数据库，并且使用历史数据库和所更新的个性化数据库来重新训练个性化热舒适模型。最后，控制器基于重新训练的个性化热舒适模型来控制HVAC系统。

当前公开的实施方式将参照附图进一步说明。所示的附图未必按比例，相反通常着重于示出当前公开的实施方式的原理。

附图说明

[图1A]

图1A是示出根据本公开的实施方式的为居住者控制一组装置的操作的方法的流程图。

[图1B]

图1B是示出根据本公开的实施方式的使用系统的一些组件实现的图1A的系统的框图

[图1C]

图1C是示出根据本公开的实施方式的图1A的系统的框图，示出离线阶段和在线阶段。

[图2A]

图2A是示出根据本公开的实施方式的来自多个同时用户的数据收集的示意图。

[图2B]

图2B是示出根据本公开的实施方式的环境中的居住者的可穿戴装置的示意图，其可测量居住者的生物特征数据以及测量环境中的环境数据或获得环境中的所测量的环境数据。

[图3]

图3是示出根据本公开的实施方式的图1C的系统的离线阶段的框图。

[图4A]

图4A是示出根据本公开的实施方式的图1C的系统的在线阶段的各方面的框图。

[图4B]

图4B是示出根据本公开的实施方式的关于不一致得分的图1C的系统的在线阶段的各方面的框图。

[图4C]

图4C是示出根据本公开的实施方式的关于不一致得分的更多方面的图1C的系统的在线阶段的各方面的框图。

[图5]

图5是示出根据本公开的实施方式的可使用另选计算机或处理器实现的图1A和图1B的方法的框图。

具体实施方式

尽管上面标识的附图阐述了当前公开的实施方式，但也可以想到其它实施方式，如讨论中指出的。本公开作为表示而非限制呈现了例示性实施方式。本领域技术人员可以设计出落入当前公开的实施方式的原理的范围和精神内的许多其它修改和实施方式。

概述

一些实施方式基于这样的认识：根据描述空调环境中的居住者的热舒适的热舒适模型来控制加热、通风和空调(HVAC)系统是有利的。其中，模型包括居住者的热舒适与居住者的生物特征数据和环境内条件的数据。

另一认识基于认识到基于居住者自己所提供的信息来创建环境的居住者的个性化热舒适模型的能力。然而，这些个性化热舒适模型需要在不同环境条件下关于居住者的舒适度的几百个居住者标记数据，导致这些模型由于用户需要输入如此大量数据而在一些方面不实际。术语标记数据可被称为数据集，其中各个数据点利用感兴趣的一些标签来标记。例如，至少一个温度传感器的温度测量的各个值可与用户/居住者感觉关联，包括寒冷舒适范围、凉爽舒适范围、舒服舒适范围、温暖舒适范围和炎热舒适范围。此外，如果用户针对各个值报告了他/她的感觉，则数据集可被标记。如果用户报告了他/她的感觉一次或两次，则数据集可仅包括一个或两个标记的示例。例如，居住者的热舒适度可包括约59°F至65°F及以下的寒冷舒适范围、约61°F至67°F及以下的凉爽舒适范围、约68°F至72°F或65°F至74°F的舒服舒适范围、约70°F至75°F及以上或72°F至77°F及以上的温暖舒适范围、以及约73°F至75°F及以上或约74°F至80°F及以上的范围的炎热舒适范围。当然，这些温度范围从用户到用户变化，并且甚至根据其它因素(即，湿度、室内空气速度、室内太阳照度、居住者心率、居住者活动水平、居住者健康、居住者警觉状态等)而为主观的。其中，居住者感觉热舒适度的环境可以是建筑内部、部分建筑内部、具有顶和至少一个墙壁的结构或者构造的结构中的一个。

要标记的数据的示例可包括居住者的生物特征数据(例如，居住者的生命体征)和环境数据(例如，空调环境中的温度、湿度、气流)的各种组合。在许多情况下，得到未标记数据实例的这些数据测量不困难。例如，生物特征数据可通过用户所穿戴的可穿戴装置(例如，智能手表)来测量，而环境数据也可通过可穿戴装置和/或安装在环境中的各种传感器来测量。为此，在创建个性化热舒适模型时，当各个单独的用户的未标记数据丰富时一些实施方式面临问题，需要来自各个用户的进一步输入。然而，从各个用户获得这种输入信息以请求用户提供足以训练热舒适模型的数量的反馈会是不合理的。此外，不仅期望用户提供大量标记，而且用户的受益也滞后，其中，仅在用户提供几百个或更多标签之后才从这种模型受益。

一些实施方式基于这样的认识：可使用该个性化热舒适模型的用户所提供的标记数据以及其他用户所提供的标记数据(即，历史居住者数据)二者以混合方法学习个性化热舒适模型。这种混合方法/框架允许减少向用户请求以便训练用户的个性化热舒适模型的标记数据实例的数量，这减少了对用户的干扰并增加了她/他提供反馈的意愿。具体地，该框架将主动学习和迁移学习的机器学习领域组合，以减少获得热舒适的准确模型所需的标记工作。

换言之，本公开的各方面包括作为一种机器学习的迁移学习，其中来自一个域的知识被迁移到另一域，目标是方便学习。在至少一个实施方式中，域是指不同用户，具体地，源域将涉及来自N-1个用户的数据，目标域将指来自第N用户的数据。当以这种方式描述数据的域时，并且当在源域和目标域二者中标记数据均可用时，则迁移学习方法在本文中可被视为归纳迁移学习方法。其中，本公开的新颖性的至少一个方面可以是除其它方面外，不存在可访问目标域中的所有标记数据的假设。作为非限制性示例，归纳迁移学习的至少一个方法可以是参数迁移，其中假设相似任务的各个模型的参数应该从相同先验分布或类似先验分布采样。

另外，如上所述，该混合方法允许减少开始在用户所占据的环境中利用该训练的模型控制HVAC的等待时间，这继而降低了HVAC系统的能耗。此外，减少对反馈信息的请求可降低系统构建个性化热舒适模型的存储器、网络业务和计算要求。然而，当其他用户为模型提供具有不同舒适偏好的反馈时，将用户的反馈与其他用户的反馈组合的这种混合方法会降低个性化热舒适模型的准确性。

此外，当目标域中的设置数据由目标用户所提供的几个标记数据实例组成时，此混合方法针对回归问题考虑参数迁移。因此，本公开的一些方法的一方面是参数共享可为顺序的，其中首先学习源域中的参数，并且该信息用作在目标域中变得可用的数据。例如，多个用户通过使用系统提供了数据。其数据用于在源域中学习通用热舒适模型。当系统给予新用户时，提供通用模型作为将用于减少新用户的反馈工作的信息。

具体地，此参数共享方法首先学习源域参数(即，在源域中学习通用热舒适模型)，其次，惩罚目标域模型参数相对于源域模型参数的偏差(即，允许新用户具有个性化模型)，但仅其之一与通用热舒适模型相似。至少一个附加益处和附加优点可以是，在缺少目标域数据的情况下，预测模型可回退到源域模型上以做出比随机猜测更好的预测。

为此，一些实施方式通过针对个性化数据库中用户所提供的标记数据与公共数据库中其他用户所提供的标记数据使用不同的模型权重为用户构建个性化热舒适模型来修正混合方法以解决该限制。此方法允许考虑为学习和/或训练模型所提供的标记数据的可靠性。另外，当从用户接收到新反馈时，并非利用标记数据的该新实例更新模型，可发起动作以将标记数据的该新实例附到个性化数据库，并从头开始重新训练模型。因此，该方法可允许模型朝着用户所提供的数据更快速地学习等。

此外，模型的重新训练可允许在训练期间调节用户的反馈数据的权重。例如，在一些实施方式中，个性化数据库中用户所提供的标记数据的权重和/或公共数据库中其他用户所提供的标记数据的权重是个性化数据库中的标记数据实例的数量的函数和/或个性化数据库中的标记数据实例的数量与公共数据库中的标记数据实例的数量之比的函数。以这种方式，那些实施方式可减小公共数据库中的标记数据对训练的模型的影响。例如，当个性化数据库具有足够数量的标记数据实例时，一些实施方式逐步淘汰来自公共数据库的标记数据，而无需中断HVAC系统的控制。例如，在个性化数据库中累积一定数量的标记实例之后，一个实施方式仅使用个性化数据库和调整的个性化模型权重来进行模型的将来的训练和/或更新。

图1A是示出根据本公开的实施方式的为居住者控制一组装置的操作的方法的框图。

步骤110包括方法100使用具有预训练的个性化热舒适模型的存储器。在存储之前以及在使用实时数据和主动学习算法的个性化热舒适模型的迭代训练之前，所存储的预训练的个性化热舒适模型利用历史标记数据和迁移学习算法初始化。

根据本公开，迁移学习算法可以是一种机器学习，其中来自一个域的知识被迁移到另一域，目标是方便学习。例如，根据本公开的实施方式的设置，给定N个用户，域是指不同用户，具体地，源域将涉及来自N-1个用户的数据(历史标记数据)，目标域将指来自第N用户的数据(个性化标记数据)。预测热舒适属于归纳迁移学习，其中标记数据在源域和目标域二者中均可用，然而，根据本公开的实施方式与传统迁移学习算法相比的差异在于，不存在可访问目标域中的所有标记数据的假设。具体地，迁移主动学习框架的至少一个方面可以是在经由迁移学习利用来自其他用户的域知识的同时，经由主动学习使每用户收集的反馈最小化。为了实现所需标记的这种减少，框架使用迁移学习利用来自几个基础用户(即，受控实验的一群初始用户的部分)的知识来获得针对快速启动建模和基于流的主动学习修正的迁移主动学习框架。

步骤115包括方法100在初始化时段期间使用硬件处理器来迭代地训练个性化热舒适模型。个性化热舒适模型用于环境中的居住者，其基于该居住者自己所提供的信息。根据具体应用，个性化热舒适模型可以是回归函数、神经网络、分类器或支持向量机中的一个或组合。

仍参照图1A的步骤115，硬件处理器基于个性化热舒适模型相对于利用历史标记数据预训练的热舒适模型的正则化来迭代地训练个性化热舒适模型，其限制在初始化时段期间用于训练个性化热舒适模型的搜索空间。正则化可被称为向与基于历史标记数据预训练的热舒适模型显著不同的模型增加成本。

仍参照图1A的步骤115，使用主动学习和迁移学习迭代地训练个性化热舒适模型，直至个性化热舒适模型的准确度高于阈值，然后可使用个性化热舒适模型，直至居住者判定他不舒适并且向所观测的数据提供实时标签。阈值可按多个方式确定，包括：将阈值设定为等于热舒适等级的1/2点，使用学习来辨别用户通常舒适的误差水平，或者其它合适的方法，或者根据特定应用。阈值通常将基于国际上接受的热舒适等级或者历史数据库中的历史标记数据。

存储器已存储数据，其可包括具有历史标记数据的历史数据库。在实现系统100期间，存储器还可在个性化标记数据库中存储个性化标记数据。其中，标记数据(历史和个性化)的各个实例指示在至少一个环境的不同条件下至少一个居住者的热舒适度。

所存储的热舒适模型可基于历史标记数据。历史数据可包括一系列数据实例，包括对一组样本装置中的装置的至少一个样本居住者数据、样本环境数据和样本热舒适度，其由样本环境中的至少一个样本居住者基于至少一个样本居住者所提供的装置上的使用历史数据选择，使得样本环境数据是居住者环境的不同环境、居住者环境的相同环境之一或这二者。其中，热舒适度数据包括指示样本居住者在至少一个样本环境的不同条件下的舒适的数据实例。此外，历史数据的一些数据可来自当前用户(居住者)，其与用户当前使用系统100相比在实现该方法之前的一些早前时间点收集。

仍参照图1A的步骤115，具体地，历史标记数据可以是样本居住者的生物特征数据的测量或者样本环境中的环境数据的测量，类似于当前用户的生物特征数据或类似于用户环境的环境数据的当前测量。其中，居住者的热舒适度可包括寒冷舒适范围、凉爽舒适范围、舒服舒适范围、温暖舒适范围和炎热舒适范围。

个性化标记数据可包括居住者标记未标记数据实例，其被存储在存储器中作为个性化标记数据。如上所述，居住者标记数据的各个实例指示至少一个居住者在至少一个环境的不同条件下的热舒适度。

步骤120包括接收一系列未标记实时数据，包括居住者的生物特征数据的测量和居住者所在的环境中的环境数据的测量。一系列数据可包括在一段时间(从小于一秒至一小时、一周、一月或一年)内获得的数据。例如，未标记实时数据可以是与居住者的生物特征数据的测量有关的数据，例如心率、皮肤温度、皮肤电反应、高度计读数、陀螺仪读数、加速度计读数、光级指示器或衣服传感器。其它未标记实时数据可包括居住者所在的环境中的环境数据的测量，可包括诸如温度、亮度、声音、气流量或阳光量的数据。

步骤125包括当与所接收的未标记数据相似的所存储的历史标记数据的标签相对于未标记数据点的预测的标签之间存在不一致时，请求居住者标记未标记数据实例。当历史数据内的不一致高于预定阈值时，则请求标签。为了获得历史不一致，我们首先确定未标记(新)数据点的K个最近邻居。然后，我们计算K个最近邻居的标签与未标记数据点上的预测的标签之间的不一致得分，并且如果该得分超过阈值，则算法请求标签。

根据特定方面，可通过多个方法来选择预定阈值，包括：当所有新用户数据均已知时选择最高不一致，预先计算所有历史数据之间的不一致并将阈值设定为不一致得分的百分比，将不一致设定为期望的建模误差度量的函数等，或者一些其它方法。

步骤130包括从居住者接收响应，包括居住者标记未标记数据实例。响应于标记未标记数据实例，硬件处理器将标记的未标记数据实例作为个性化标记数据存储在存储器中的个性化标记数据库中。然后，硬件处理器与所存储的历史标记数据相比使用所存储的个性化标记数据的不同权重来训练个性化热舒适模型。使得在初始化时段期间对于各个迭代，硬件处理器利用个性化标记数据来更新个性化标记数据库，并且使用历史数据库和更新的个性化数据库来重新训练个性化热舒适模型。

步骤130将主动学习与迁移学习组合，作为减少热舒适建模的标记工作的方法。关于根据本公开的主动学习，主动学习是一种机器学习，其中当允许选择从哪些示例学习时，预测模型实现良好性能。主动学习器经由查询来选择要标记的样本，然后请求权威(oracle)为所选样本提供标签。回归主动学习可被细分为无模型和基于模型的方法。

无模型策略是主动学习方法，其不依赖于预测模型来确定要标记哪些数据样本。相反，这些方法仅依赖于数据分布的统计。关于本公开的实施方式的无模型主动学习方法所面临的困难在于，连续查询不考虑所获得的先验知识，并且常常最终发出冗余查询。因此，无模型主动学习方法不适合本公开的实施方式，因为当问题设置涉及人类用户标记时，关于用户愿意标记的查询数量存在极限约束。

仍参照步骤130，用于构建回归模型的情况的基于模型的主动学习聚焦于使模型方差最小化，使得总泛化误差最小化。针对回归使用方差减小技术的挑战在于，必须在整个数据分布上计算统计，因此当样本一次到达一个时计算是不可行的。这是重要的，因为本公开的实施方式要被移植到完整数据分布的知识未知的基于流的设置。这里，基于流的设置指示数据随着被传感器观测到而被评估，并且在评估之前未被存储。这不同于要求或需要在任何评估之前收集所有新数据的传统方法。

作为非限制性示例，本公开的实施方式提供了独特方面，首先，当组合迁移学习和主动学习方法时，不依赖于计算重要性权重来应对协变量偏移。使得通过估计源域和目标域中的边缘分布的概率密度来计算这些重要性权重。在高维度但具有低样本计数的数据集中这具有挑战性，本公开的实施方式的数据集就是这种情况。其次，无模型和基于模型的方法二者均无法被部署到基于流的设置，必然需要返工。相反，除别的以外，本公开的实施方式包括可利用最小的改变部署到基于流的设置的方法。

步骤135包括基于重新训练的个性化热舒适模型来控制一组装置。

图1B是示出图1A的系统的框图，其中，该系统使用根据本公开的实施方式的一些组件来实现。图1B可包括与输入接口142通信的硬件处理器140、居住者收发器144、存储器146、发送器148、控制器150。控制器可连接到一组装置152。居住者收发器144可以是居住者(用户)穿戴以控制一组装置152以及可发送和接收信息的可穿戴电子装置。

可以想到，根据特定应用的需要，硬件处理器140可包括两个或更多个硬件处理器。当然，方法100可并入其它组件，包括输入接口、输出接口和收发器。

仍参照图1B，系统100的各方面包括从输入接口142接收一系列未标记实时数据的步骤120。步骤122包括从未标记实时数据确定相似的所存储的历史数据，以及标记的实例与未标记数据实例的预测的标签之间的不一致。步骤124包括比较从步骤122所确定的不一致以识别是否超过预定阈值的决策。步骤126导致不超过预定阈值(即，否)。步骤125导致超过预定阈值(即，是)，其中，经由发送器148对居住者进行请求，以标记未标记数据实例。步骤130包括经由发送器148接收居住者标记未标记数据实例的居住者响应(即，个人标记数据)，其被存储在存储器中。步骤135包括利用所存储的居住者标记的未标记数据实例来更新个性化标记数据库，并使用历史热舒适模型和更新的个性化数据库来重新训练个性化热舒适模型。

系统100可由两个阶段，离线阶段111和在线阶段112组成。离线阶段111在初始化时段期间迭代地训练个性化热舒适模型147。迭代训练可基于个性化热舒适模型相对于存储器146中存储的历史热舒适模型的正则化。正则化提供用于限制用于在初始化时段期间训练个性化热舒适模型的搜索空间。具体地，与在存储器中的历史数据库中存储的历史标记数据上确定的历史热舒适模型的权重相比，正则化根据存储在存储器中的个性化数据库中的所接收的个性化标记数据使用个性化热舒适模型的不同权重。

仍参照图1C，在线阶段112可包括输入接口142接收一系列未标记实时数据，包括居住者的生物特征数据的测量、居住者所在的环境的环境数据的测量、或者这二者。输入接口142可连接到存储器146和步骤120。当与所接收的未标记数据相似的所存储的历史标记数据的标签与未标记数据点上预测的标签之间的不一致超过预定阈值时(步骤124)，发送器148可用于请求居住者标记未标记数据实例(步骤125)。响应于居住者标记未标记数据实例(步骤130)，硬件处理器可将居住者标记的未标记数据实例存储在存储器146中，并且可利用所存储的居住者标记的未标记数据实例更新个性化标记数据库，并使用历史热舒适模型和更新的个性化数据库来重新训练个性化热舒适模型。控制器150可用于基于重新训练的个性化热舒适模型来控制一组装置152。

图2A是示出根据本公开的实施方式的从多个同时用户的数据收集的示意图。例如，图2A示出当在共享空间中控制HVAC系统以优化多个用户的个体舒适时许多居住者207、207N的组合。

具体地，图2A示出对于N个用户中的每一个，系统收集来自用户的环境(环境数据)201、用户的身体(生物特征数据)202、外部环境(天气数据)203的数据以及与数据关联的时间信息204。其中，各个用户具有接收查询请求的方法(接收查询请求)205和向系统提供反馈的方法(用户舒适度反馈)206。数据可聚集在数据库中，然后用于创建个体热舒适模型，如本公开中所描述的。然后，由舒适得分优化算法使用模型来确定最优HVAC设定点以使用户热舒适最大化。

换言之，图2A示出用户可包括用户1-数据获取集207以及用户N-数据获取集207N，其中，用户数据(用户1，207和用户N，207N)与管理装置240通信，例如，根据特定应用，这可以是处理器140、不同的处理器，或者可以是彼此通信的多个处理器。作为非限制性示例，在管理装置240内可以是与用户N的更新预测模型244通信的用户1的更新预测模型242，其与训练数据246通信。其中，用户1的预测模型242和用户N的预测模型244可与舒适得分优化248通信，舒适得分优化248与HVAC设定点252通信。

图2B是示出根据本公开的实施方式的环境中的居住者的可穿戴装置的示意图，其可测量居住者的生物特征数据，以及测量环境中的环境数据或获得环境中测量的环境数据。

例如，可穿戴装置144可由居住者229穿戴，其中可测量/收集居住者的生物特征数据。例如，作为非限制性示例，生物特征数据的类型可包括居住者在环境内在特定时间可感觉如何的变化或标度220，即，炎热221、温暖222、略温暖223、中性或可能舒适224、略寒冷225、凉爽226或寒冷220。当然，上述变化可不同地呈现，例如通过从1到10、1至100等的数字、或者通过字母、或者一些其它相似方面来指示居住者在环境内在特定时间可感觉如何。

根据本公开的实施方式，可穿戴装置144还可测量环境中的环境数据，或获得环境中测量的环境数据。当前，附图示出叠加有热舒适度的可穿戴装置。这表明用户可提供反馈的可能标度。用户可使用的另选方法包括但不限于使用用户的语音或手势来反馈。

图3是示出根据本公开的实施方式的图1C的系统的离线阶段的框图。图3示出可如何确定群体水平模型Wp。群体水平模式Wp是用于描述历史数据库中的标记数据的模型。为了确定Wp，将来自历史数据库(所有用户)的所有标记数据组合成单个大的数据集。然后，从各个用户的数据采样适当比例以调整个人热舒适学习算法的学习参数。随后命名该新的数据集，其可以是开发数据集。使用开发数据集和交叉验证技术来确定所需的任何建模参数。然后，使用大数据集的其余部分和学习的建模参数，在标记的历史数据库上学习群体水平模型Wp。将结果和数据存储在历史数据库中。

图4A是示出根据本公开的实施方式的图1C的系统的在线阶段的各方面的框图。图4A可包括如何确定与当前未标记数据点相似的标记的历史数据实例的标签与未标记数据点的预测的标签之间的不一致得分。

例如，步骤122涉及将所接收的未标记数据与所存储的数据关联以确定所接收的未标记数据与相似的所存储的历史标记数据之间的不一致的数量的方面。

图4A的步骤411说明对于历史数据库中存储的各个标记数据点，寻找该数据点与新的未标记数据点之间的距离。

图4A的步骤412包括将这些距离按照向量存储并对该向量排序。

图4A的步骤413说明选择K个最小距离并从历史数据库获得其标签。

图4A的步骤414示出使用用户模型的当前版本如何使用来自历史数据库的标签和未标记数据点的预测的标签来计算不一致度量。

换言之，为了计算不一致得分，首先(411)，寻找新的未标记数据点与标记的历史数据库中的所有数据点之间的距离。其次(412)，将这些距离按照向量存储并对该向量排序(即，对这些距离排序)。第三(413)，选择K个最小距离并从历史数据库获得其标签。第四(414)，使用用户模型的当前版本预测未标记数据点的标签，然后使用来自历史数据库的标签和未标记数据点的预测的标签来计算不一致得分(即，计算不一致度量)。

图4B是示出根据本公开的实施方式的图1C的系统的在线阶段的各方面的框图。例如，图4B可包括在图1C的步骤122(即，将所接收的未标记数据与所存储的数据关联以确定所接收的未标记数据与相似的所存储的历史标记数据之间的不一致的数量)之后，步骤427是如果预定阈值已更新则检查存储器的步骤。

步骤146是存储器，其中，步骤429是确定预定阈值是否已更新的步骤。如果否431，则转到步骤124。如果是433，则更新预定阈值并转到步骤124。

图4B的步骤124包括确定不一致得分是否超过预定阈值。如果是，如果不一致得分超过预定的阈值，则系统向居住者125请求标签。如果不一致得分未超过阈值，则不采取动作126。

图4C是示出根据本公开的实施方式的图1C的系统的在线阶段的各方面的框图。例如，图4B可包括根据本公开的实施方式的步骤130，一旦已获得用户标签，如何获得个性化热舒适模型。

图4C的步骤432包括关于个性化数据库中的标记数据点的数量是否超过最小阈值的判定。

关于图4C的步骤434，如果是，个性化数据库中的标记数据点的数量超过最小阈值，则转到步骤434。然后，将使用历史数据库学习的群体水平模型Wp设定为当前个性化模型，下一步骤是步骤440。然后，转到步骤440，包括使用Wp和个性化数据库寻找更新的模型。

关于图4C的步骤436，如果否，个性化数据库中的标记数据点的数量未超过最小阈值，则转到步骤436。然后，从历史数据库推导群体水平模型Wp。

用于热舒适预测的迁移主动学习框架

记号

在介绍本公开的各方面时，首先介绍一些记号。例如，假设给出数据集D，其包含形式的n个标记样本。这里，各个xⁱ对应于特征向量，各自为实值，xⁱ∈R^p，并且各自对应于来自可穿戴和环境室传感器的数据。索引i表示样本编号，而p表示与预测模型中使用的特征的数量对应的向量长度。为了方便，n个标记数据样本全部被表示为矩阵，我们称为设计矩阵X，具有n行和p列。从预定义的集合yⁱ∈{0,±1,±2,±3}抽取目标值yⁱ。这些对应于作为来自用户的反馈给出的热舒适评级。

在许多目标当中，本公开的至少一个目标是学习预测模型h,h:x→y，其对于任何输入向量x，输出预测目标值由于在此特定示例中，使用回归来学习预测模型，所以规定是预测的目标值与实际目标值的偏差的平方不得超过ε，即

使用历史数据进行迁移学习

对于此区域中的开发，目标值y被当作限制在范围{-3,+3}内的连续值。这里的固有假设是尽管用户被迫将其状态离散化为7个级别，但实际上其热舒适细微得多。

将热舒适预测问题视为回归问题解决了类别不平衡的问题。具体地，由于大多数用户处于HVAC受控空间中，所以我们预计所接收的大多数反馈将在范围{-1,+1}内，导致非常寒冷、寒冷、炎热和非常炎热类别的严重类别不平衡。因此，当训练热舒适预测器时，使用回归方法是自然的方法。

为了简单地说明方法，使用线性回归。线性回归可更容易量化各个特征对模型输出的影响。为了确定线性回归，我们需要寻找权重向量W，使得设计矩阵与权重向量之间的乘积生成目标值的估计，

寻找回归子(regressor)权重向量的方法被称为普通最小二乘(OLS)，其中除别的以外，OLS的目标是使估计的目标值与真实目标值之间的差的平方和最小化。这些差被称为残差，并且常常写为优化目标的残差之和被表示为，

PX^TW-yP₂。 (2)

W的OLS估计易于导致模型权重中的高方差以及特征之间的权重分配(选择)差。此外，没有很好地提出此问题的经典解析方案，在数据矩阵不容易可逆的情况下遭受数值问题。

为了解决这些问题，在回归子权重向量上引入了惩罚。在此区域中惩罚采取2范数的形式，这意味着下面的方程遵循岭回归(Ridge Regression)框架。这里，选择2范数是因为其更有益于处理相关特征。增加的惩罚参数减小了模型方差并得到了一些特征权重可接近零的解。这常常被称为特征选择。因此，要求解的新目标函数为，

PX^TW-yP₂+λPWP₂。 (3)

在方程(3)中，λ是确定解中的惩罚项的权重的惩罚参数。增大λ导致W中的权重系数越小，减小λ导致W中的权重系数越大。因此，可以说λ控制回归子系数的收缩。

经典地，当利用岭回归时，优化收缩参数以使得系数朝着零驱动，而不影响模型误差性能。此经典岭回归方法具有贝叶斯解释，其中权重向量系数从先验正态分布采样，均值为零并且

岭回归的另选方法是将系数朝着非零先验分布收缩。当采用此方法时，非零先验分布表示关于问题的一些先验知识。在这种情况下，可以说系数朝着先验分布的收缩引起域知识的迁移，因为我们寻找的权重向量应该尽可能接近先验分布。修正的岭OLS具有以下形式，

PX^TW-yP₂+λPW-W_pP₂.。 (4)

在方程(4)中，从历史数据库获得的群体水平模型W_p是包含样本回归子向量的向量。该向量表示上述先验分布的均值。要注意的是，将W_p设定为零从方程(3)得到经典岭OLS。

根据本公开，存在多种方法来估计先验回归子W_p。在此区域中，假设用户之间存在很强的相似性，并且仅需略微修正模型以适应新的个体。此假设根植于从一个人到下一人没有不同的体温调节生理学。仅仅是个体偏好不同。

在热舒适建模的情况下迁移学习的一个便利先验是一群用户的一般热舒适。即，假定我们具有从N个不同用户收集的N个数据集。然后，我们可使用方程(3)寻找一般线性回归子，其描述来自N-1个用户的数据。我们将该回归子称为我们的群体模型W_p。然后我们使用方程(4)。

然后，求解方程(4)将得到第N用户的个性化热舒适模型。这种引入先验的方法直观地抓住在允许个体差异的同时新用户的系数W应尽可能与其他用户相似的想法。

专门针对此问题优化，通过使以下目标函数最小化来学习岭回归系数，

在此公式中，第一项是损失函数，其具有方程(3)的通常格式，第二项惩罚新模型W的岭系数相对于先验模型W_p的偏差。将该目标相对于新回归子权重向量W求导并将其设定为等于零得到解析解，我们将其称为修正的岭回归，

并入主动学习

此框架的至少一个目标是创建预测个人热舒适的回归模型，但是不需要从各个用户收集大的训练数据集。到目前为止我们介绍了框架的迁移学习组件，然而，为了将模型个性化给第N用户，该用户必须提供反馈。将主动学习与迁移学习组合是减少热舒适建模的标记工作的逻辑方法。

在基于池的主动学习中，解决方案常常开始于引入还未标记的所有可用示例的池A以及通过一些主动学习策略选择的标记示例的集合L。重要的是，在基于池的设置中，所有标签存在，但是存在一些获得标签的关联成本，其要通过样本选择来最小化。主动学习的总体目标是选择m(其中m<<n)个标记示例的最优子集L，使得在测试集上实现良好的泛化性能。

主动学习有两个重要组件；标记预算和查询策略。标记预算仅仅是可获得的标签的总数。在个性化热舒适建模的上下文中，这是允许询问各个用户的标签的数量。由于在此问题中，不应频繁地打扰用户，所以标记预算应该尽可能小。

查询策略是用于确定应该标记集合A中的哪些示例的方法。在本文中，我们提出了修正的QBC方法。在典型的QBC方法中，使用标记数据集L来更新委员会成员。这里，我们选择不更新委员会成员，而是相反，我们仅更新第N用户的当前预测模型。选择更新第N用户的预测模型有两个原因：首先，来自第N用户的标记示例可仅对在体温调节行为方面表现出显著交叠的那些委员会成员有益。使用标记示例来更新显著不同的委员会成员的结果在发出后续查询时将导致嘈杂的预测；其次，此工作的目标是利用尽可能少的标记示例来开发个性化预测模型，因此更新第N用户的预测模型使我们快速达到该目标。因此，所提出的QBC策略是选择使得委员会成员和第N用户的预测模型最大程度地不一致的示例。直观上，这意味着所提出的QBC技术偏好第N用户的模型不确定，但是委员会相当确定的示例。

除其它关键点外，这里要解决的至少一个关键点是不一致的概念。如先前提及的，我们评估与未标记新数据相似的所存储的数据之间的不一致。作为示例，这里定义A中的第i示例的样本不一致得分d_i被计算为，

在经典的主动学习解释中，方程(7)中的量如下定义。C是委员会成员的数量，是与第c委员会成员关联的预测，对应于通过仅使用至此获得的标记示例L训练的第N用户的预测模型进行的预测。重要的是要注意，该不一致得分使用来自历史数据的模型。稍后我们将仅使用K个最近邻居来描述不一致得分。该不一致得分适应体温调节行为方面的个体差异(例如，衣服的分层)，同时聚焦于从不同个体收集的数据集中可能出现的差异；例如当所有其他用户在相似条件下感觉炎热时，第N用户的模型预测寒冷。

将迁移学习和主动学习组合，可如下呈现完整迁移主动学习框架。首先，创建可用数据示例的池A。该池包含来自历史数据库的所有数据。接下来，使用该池来学习机器学习模型(岭回归)。该模型被称为群体水平模型W_p。该群体水平模型用于对新用户的迁移学习。

在创建初始模型之后，算法试图使用对用户的预算查询数来学习个性化模型。各个查询试图发现对应数据点的标签。一旦针对个性化数据库获得标签，训练数据集已更新并且重新训练通过群体模型惩罚的岭回归模型。

当训练预算耗尽时，模型被认为个性化。此时，用户可选择继续标记数据点，但是算法将不主动地试图查询用户。如果用户然后标记足够大量的数据点，则个性化模型本身可用于从一天到下一天的信息迁移。

数据分割和预处理

在收集到数据之后，重要的问题是如何将完整数据集最佳划分为训练数据集和测试数据集。该划分的最优选择是需要以经验评估的研究参数，然而对于该工作，针对实验的每一天和每个用户将标记数据集划分成两半。第一半用于训练，第二半用于测试舒适预测模型。

通过减去均值并除以标准偏差来使各个收集的特征居中，以使所有特征为同一标度。这确保了不会有单个特征主导回归模型。训练数据集和测试数据集二者使用仅在各个用户内的数据集的训练分区上计算的均值和标准偏差来变换。同样也使用从训练数据推导的归一化系数使用户评级居中。这里，仅从各个评级减去均值。将用户评级归一化使得不再需要在回归设置中适合截距。

主动学习-查询策略

为此可使用两个策略。然而，这不意味着这些是适用本公开的仅有策略。各个策略以基于池的主动学习设置为基础，其针对作为该工作的自然设置的流设置进行了优化。

第一主动学习策略利用K个最近邻居方法(QBC-K)。该标记策略的主要构思是计算池A中的所有可用示例的不一致得分。然后从该不一致得分集合，所选择的示例是具有最大不一致得分的示例。查询该示例的标签。

我们如方程(7)中计算不一致得分，第一项我们将C设定为等于K个最近邻居。然后计算K个最近邻居的均值评级，其中邻居对应于来自N-1个用户的标记示例，并且最近的概念由欧几里得距离定义。针对邻居值K＝5,10,15,20以经验测试在均值用户评级的估计中使用的邻居的数量。这些当中，观测到10个邻居产生最佳性能。使用仅利用标记示例L训练的第N用户的当前预测模型来计算方程(7)中的第二项具体地按预算B，L将至多保持全部来自第N用户的B个标记示例。此策略是利用第N用户的模型的基于模型的查询策略。因此，在各个标记点被添加到L之后重新训练预测模型。

在第二主动学习策略中，N-1个用户中的每一个被创建为被允许针对A中的所有可用示例进行预测的委员会成员。即，对于各个委员会成员，仅使用来自该用户的数据来学习热舒适模型。执行对各个用户的数据的5倍交叉验证以选择超参数。然后，各个委员会成员针对池中的所有可用示例预测热舒适评级。然后，针对各个样本计算委员会评级的加权平均。较高的权重被指派给在特征空间中与第N用户交叠的用户。这些权重被计算为成对的第N用户与N-1个用户之间的AUROC的倒数。策略的剩余细节与上面第一策略中相同。

本公开的一方面在于，该系统帮助识别准确的个性化热舒适模型，这减少了从系统的新用户收集较大的标记数据集的需要。即，认识到可利用混合方法使用该个性化热舒适模型的用户所提供的标记数据和其他用户所提供的标记数据(即，历史居住者数据)二者来学习个性化热舒适模型。例如，通过实验得知，对个体的热舒适进行建模以两个重要方式变化。首先，个人热舒适从一个个体到下一个体变化，此变化常常可由性别、种族、位置和季节解释。其次，个人热舒适可由于其身体状态而在个体内变化，包括诸如疲劳和疾病的状况。

特征

根据本公开的各方面，个性化热舒适模型可以是回归函数、神经网络、分类器或支持向量机中的一个或组合。一方面还可包括个性化热舒适模型在被存储在存储器中之前利用历史标记数据和迁移学习算法初始化。此外，个性化热舒适模型在被存储在存储器中之前基于个性化热舒适模型相对于所存储的历史标记数据的正则化被迭代预训练，这限制了用于在初始化时段期间训练个性化热舒适模型的搜索空间。个性化热舒适模型的权重可对应于包括回归函数、神经网络、分类器、支持向量机中的一个的机器学习模型的参数。

本公开的另一方面可包括居住者标记数据的测量包括受一组装置控制的受控参数以及不受这一组装置控制的参数。其中，受控参数包括温度、湿度或空速中的一个或组合，非受控参数包括心率、皮肤温度、皮肤电反应、高度计读数、陀螺仪读数、加速度计读数、光级指示器或衣服传感器中的一个或组合。或者，其中，通过以下步骤根据所训练的个性化热舒适模型优化所预测的居住者的热舒适度来确定受控参数：在该实时数据实例内将非受控参数和受控参数分组，使用优化方法来确定受控参数的各个受控参数的值，以使得所得个性化热舒适模型根据热舒适等级输出使居住者的舒适最大化的所预测的居住者的热舒适度，然后，控制器根据一组最优受控参数中的至少一个参数来引导所述一组装置。

本公开的另一方面可包括个性化热舒适模型的训练基于归纳迁移学习算法，该算法是一种用于回归方法的机器学习，使用所存储的历史标记数据和个性化标记数据，使得所有个性化标记数据被假设为不可访问或未知。此外，个性化热舒适模型的迭代训练使用实时数据和主动学习算法，使得迭代训练继续，直至个性化热舒适模型的准确度高于阈值为止，然后个性化热舒适模型的迭代训练仅利用所接收的居住者标记的实时数据来训练。

数据可实时接收，使得所接收的居住者的生物特征数据的测量包括心率、皮肤温度、皮肤电反应、高度计读数、陀螺仪读数、加速度计读数、光级指示器或衣服传感器中的一个或组合。另外，居住者可以是所述一组装置的用户，并且可经由电子装置或可穿戴电子装置来控制所述一组装置。

另一方面可包括居住者的热舒适度包括寒冷舒适范围、凉爽舒适范围、舒服舒适范围、温暖舒适范围和炎热舒适范围。此外，由环境中的居住者选择的热舒适度可由该系统基于实时数据使用主动学习算法来发起。另一方面在于，环境中的环境数据的测量包括温度、亮度、声音、气流量或阳光量中的至少一个或其一些组合，并且所述一组装置是与系统通信的恒温器、用于改变环境的温度的空调和加热系统中的一个。

一方面可包括个性化热舒适模型是回归函数、神经网络、分类器或支持向量机中的一个或组合。另外，个性化热舒适模型的权重对应于包括回归函数、神经网络、分类器、支持向量机中的一个的机器学习模型的参数。

图5是示出根据本公开的实施方式的图1A的方法的框图，其可使用另选计算机或硬件处理器来实现。计算机511包括通过总线556连接的硬件处理器540、计算机可读存储器512、存储装置558以及具有显示器552和键盘551的用户接口549。例如，在接收到用户从用户接口564的表面、键盘表面564的输入时，与硬件处理器540和计算机可读存储器512通信的用户接口564获取信号数据示例并存储在计算机可读存储器512中。

计算机511可包括电源554，根据应用，电源554可以可选地位于计算机511的外部。被设置为连接到显示装置548的用户输入接口557可通过总线556链接，其中，显示装置548可包括计算机监视器、相机、电视、投影仪或移动装置等。打印机接口559也可通过总线556连接，并且被设置为连接到打印装置532，其中，打印装置532可包括液体喷墨打印机、固体墨水打印机、大型商用打印机、热打印机、UV打印机或染料升华打印机等。网络接口控制器(NIC)534被设置为通过总线556连接到网络536，其中，时序数据或其它数据等可被渲染在计算机511外部的第三方显示装置、第三方成像装置和/或第三方打印装置上。

仍参照图5，信号数据或其它数据等可经由网络536的通信信道发送，和/或被存储在存储系统558内以便于存储和/或进一步处理。可以想到，信号数据可初始被存储在外部存储器中，稍后由硬件处理器获取以处理，或者将信号数据存储在硬件处理器的存储器中以在稍后的某个时间处理。硬件处理器存储器包括所存储的可由硬件处理器或计算机执行以用于执行电梯系统/方法的可执行程序、电梯操作数据、与电梯相同类型的维护数据和历史电梯数据以及与电梯或与该电梯相似类型的电梯的操作健康管理有关的其它数据。

此外，信号数据或其它数据可从接收器546(或外部接收器538)无线地或硬连线接收，或者经由发送器547(或外部发送器539)无线地或硬连线发送，接收器546和发送器547二者均通过总线556连接。计算机511可经由输入接口508连接到外部感测装置544和外部输入/输出装置541。例如，外部感测装置544可包括传感器，其在所收集的电梯/运输机器的信号数据之前/期间/之后收集数据。例如，环境条件接近机器或不接近电梯/运输机器，即，电梯/运输机器处或附近的温度、建筑中电梯/运输机器的位置的温度、电梯/运输机器的建筑外部的室外温度、电梯/运输机器本身的视频、接近电梯/运输机器的区域的视频、不接近电梯/运输机器的区域的视频、与电梯/运输机器的各方面有关的其它数据。计算机511可连接到其它外部计算机542。输出接口509可用于从硬件处理器540输出所处理的数据。要注意的是，在接收到用户从用户接口549的表面552的输入时，与硬件处理器540和非暂时性计算机可读存储介质512通信的用户接口549获取区域数据并存储在非暂时性计算机可读存储介质512中。

实施方式

以下描述仅提供了示例性实施方式，而非旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将向本领域技术人员提供允许实现一个或更多个示例性实施方式的描述。在不脱离如所附权利要求中阐述的所公开的主题的精神和范围的情况下，可以想到可在元件的功能和布置方面进行的各种改变。

在以下描述中给出具体细节以提供实施方式的彻底理解。然而，本领域普通技术人员可理解，实施方式可在没有这些具体细节的情况下实践。例如，所公开的主题中的系统、过程和其它元件可作为组件以框图形式示出，以免在不必要的细节方面模糊实施方式。在其它情况下，熟知过程、结构和技术可在没有不必要的细节的情况下示出，以避免模糊实施方式。此外，各种附图中的相似标号和指代指示相似的元件。

另外，各个实施方式可作为过程描述，其被描绘为流程图、数据流程图、结构图或框图。尽管流程图可将操作描述为顺序过程，但多个操作可并行或同时执行。另外，操作次序可重新布置。过程在其操作完成时可终止，但是可具有未讨论或附图中未包括的附加步骤。此外，并非任何具体描述的过程中的所有操作可出现在所有实施方式中。过程可对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时，函数的终止可对应于函数返回到调用函数或主函数。

此外，所公开的主题的实施方式可至少部分地手动或自动实现。可通过使用机器、硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微码实现时，执行所需任务的程序代码或代码段可被存储在机器可读介质中。处理器可执行所需任务。

本文所概述的各种方法或处理可被编码为可在采用各种操作系统或平台中的任一种的一个或更多个处理器上执行的软件。另外，这种软件可使用多个合适的编程语言和/或编程或脚本工具中的任一种来编写，并且还可被编译为可执行机器语言代码或在框架或虚拟机上执行的中间代码。通常，在各种实施方式中，程序模块的功能可根据需要组合或分布。

本公开的实施方式可被具体实现为一种方法，已提供其示例。作为该方法的一部分执行的动作可按照任何合适的方式排序。因此，可构造以与所示不同的次序执行动作的实施方式，其可包括同时执行一些动作，尽管在例示性实施方式中作为顺序动作示出。此外，在权利要求中使用诸如“第一”、“第二”的序数词修饰权利要求元素本身并不暗示一个权利要求元素相比于另一权利要求元素的任何优先或次序或者方法动作执行的时间次序，而是仅用作标签以将具有特定名称的一个权利要求元素与具有相同名称(但使用序数词)的另一元素相区分，以区分权利要求元素。

Claims

1.一种用于为环境中的居住者控制加热通风和空调HVAC系统的操作的系统，该系统包括收发器和存储器，所述收发器发送和接收数据，所述存储器存储个性化数据库和历史数据库，所述历史数据库包括从其他用户的标记数据学习的通用热舒适模型，所述标记数据的各个实例根据在至少一个环境的不同条件下至少一个其他用户的热舒适等级来指示热舒适度，所述系统包括：

硬件处理器，其被配置为：

在来自所述居住者的所有标记数据被假设为不可访问或未知的同时利用来自所述其他用户的所述标记数据以及使用所述通用热舒适模型进行迁移学习的迁移主动学习框架来将预训练的个性化热舒适PPTC模型初始化，并且将所述PPTC模型存储在所述存储器中；

接收一系列未标记实时数据，所述一系列未标记实时数据包括所述居住者的生物特征数据的测量以及所述居住者所在的环境中的环境数据的测量；

当与所述未标记实时数据相似的所存储的来自所述其他用户的标记数据的标签与未标记实时数据实例的预测的标签之间的不一致超过预定不一致阈值时，请求所述居住者标记所述未标记实时数据实例，

接收对标记所述未标记实时数据实例的响应，并且将所标记的未标记实时数据实例作为个性化标记数据存储在所述个性化数据库中；

通过与所存储的来自所述其他用户的标记数据相比使用所存储的来自所述居住者的标记数据的不同模型训练所述PPTC模型来发起所述迁移主动学习框架的主动学习，并且对于初始化时段期间的各个迭代，利用所述个性化标记数据来更新所述个性化数据库，并且使用所述历史数据库和所更新的个性化数据库来重新训练所述PPTC模型；以及

控制器，该控制器基于重新训练的个性化热舒适模型来控制所述HVAC系统；

所述硬件处理器还被配置为：

通过标识各个未标记实时数据点与来自所述其他用户的所述标记数据中的所有数据点之间的距离来计算不一致得分，将所述距离按照向量存储并从最小距离开始排序，为各个未标记实时数据点选择K个最小距离并从所述历史数据库获得其标签，预测未标记数据点的标签，并使用所述PPTC模型利用来自所述历史数据库的标签和所预测的所述未标记实时数据点的标签来计算所述不一致得分。

2.根据权利要求1 所述的系统，其中，所述PPTC模型是回归函数、神经网络、分类器或支持向量机中的一个或组合。

3.根据权利要求1 所述的系统，其中，所述PPTC模型在被存储在所述存储器中之前基于所述PPTC模型相对于所存储的来自所述其他用户的标记数据的正则化来被预训练，这限制了在所述初始化时段期间用于训练所述PPTC模型的搜索空间。

4.根据权利要求1 所述的系统，其中，所述PPTC模型的模型对应于包括回归函数、神经网络、分类器、支持向量机中的一个的机器学习模型的参数。

5.根据权利要求1 所述的系统，其中，所述居住者标记的数据的测量包括受所述HVAC系统控制的受控参数以及不受所述HVAC系统控制的参数，其中，所述受控参数包括温度、湿度或空速中的一个或组合，并且非受控参数包括心率、皮肤温度、皮肤电反应、高度计读数、陀螺仪读数、加速度计读数、光级指示器或衣服传感器中的一个或组合。

6.根据权利要求1 所述的系统，其中，所述居住者标记的数据的测量包括受所述HVAC系统控制的受控参数以及不受所述HVAC系统控制的参数，其中，如下根据所述PPTC模型优化所预测的所述居住者的热舒适度来确定所述受控参数：

在所述未标记实时数据实例内将非受控参数和所述受控参数分组，

使用优化方法来确定所述受控参数的各个受控参数的值，以使得所得的PPTC模型根据所述热舒适等级来输出使所述居住者的舒适最大化的所预测的所述居住者的热舒适度，并且

然后，所述控制器根据一组最优受控参数中的至少一个参数来引导所述HVAC系统。

7.根据权利要求1 所述的系统，其中，所述PPTC模型的训练基于归纳迁移学习算法，所述归纳迁移学习算法是一种用于回归方法的机器学习，所述归纳迁移学习算法使用所存储的来自其他用户的标记数据和来自所述居住者的个性化标记数据，使得所有个性化标记数据被假设为不可访问或未知。

8.根据权利要求1 所述的系统，其中，所述PPTC模型的迭代训练使用所述未标记实时数据和主动学习算法，使得所述迭代训练继续，直至所述PPTC模型的准确度高于阈值为止，然后所述PPTC模型的所述迭代训练仅利用所接收的居住者标记的实时数据来训练。

9.根据权利要求1 所述的系统，其中，所述居住者是所述HVAC系统的用户，并且经由电子装置或可穿戴电子装置来控制所述HVAC系统。

10.一种用于为居住者控制HVAC系统的操作的方法，该方法包括收发器发送和接收数据以及存储器存储个性化数据库和历史数据库，所述历史数据库包括从来自其他用户的标记数据学习的通用热舒适模型，其中，所述标记数据的各个实例根据在至少一个环境的不同条件下至少一个其他用户的热舒适等级来指示热舒适度，所述方法包括以下步骤：

使用硬件处理器利用来自所述其他用户的所述标记数据以及使用所述通用热舒适模型进行迁移学习的迁移主动学习框架来将预训练的个性化热舒适PPTC模型初始化；

接收一系列未标记数据，所述一系列未标记数据包括所述居住者的生物特征数据的测量以及所述居住者所在的环境中的环境数据的测量；

当与所接收的未标记数据相似的所存储的来自其他用户的标记数据的标签与未标记数据实例的预测的标签之间的不一致超过预定阈值时，请求所述居住者标记所述未标记数据实例；

接收从所述居住者返回的包括标记所述未标记数据实例的响应，将所标记的未标记数据实例作为个性化标记数据存储在所述存储器中的所述个性化标记数据库中，并且与所存储的来自所述其他用户的标记数据相比使用所存储的个性化标记数据的不同模型来训练所述PPTC模型，并且对于初始化时段期间的各个迭代，利用所述个性化标记数据来更新所述个性化标记数据库，并且使用所述历史数据库和所更新的个性化数据库来重新训练所述PPTC模型；以及

经由控制器基于重新训练的个性化热舒适模型来控制所述HVAC系统；

所述方法还包括以下步骤：

通过标识各个未标记数据点与来自所述其他用户的所述标记数据中的所有数据点之间的距离来计算不一致得分，将所述距离按照向量存储并从最小距离开始排序，为各个未标记数据点选择K个最小距离并从所述历史数据库获得其标签，预测所述未标记数据点的标签，并使用所述PPTC模型利用来自所述历史数据库的标签和所预测的所述未标记数据点的标签来计算所述不一致得分。

11.根据权利要求10所述的方法，其中，由所述环境中的所述居住者选择的所述热舒适度由系统基于数据使用主动学习算法来发起，使得所述数据是实时数据，使得所述居住者的所述热舒适度包括寒冷舒适范围、凉爽舒适范围、舒服舒适范围、温暖舒适范围和炎热舒适范围。

12.根据权利要求10所述的方法，其中，所述环境中的环境数据的测量包括温度、亮度、声音、气流量或阳光量中的至少一个或其一些组合，并且所述HVAC系统是与系统通信的恒温器、用于改变所述环境的温度的空调和加热系统中的一个。

13.根据权利要求10所述的方法，其中，所述PPTC模型是回归函数、神经网络、分类器或支持向量机中的一个或组合，并且其中，所述个性化热舒适模型的模型对应于包括回归函数、神经网络、分类器、支持向量机中的一个的机器学习模型的参数。

14.根据权利要求10所述的方法，其中，所述居住者标记的数据的测量包括受所述HVAC系统控制的受控参数以及不受所述HVAC系统控制的参数，其中，通过以下步骤根据所述PPTC模型优化所预测的所述居住者的热舒适度来确定所述受控参数：

在所述未标记数据实例内将非受控参数和所述受控参数分组，

使用优化方法来确定所述受控参数的各个受控参数的值，使得所得的PPTC模型根据所述热舒适等级来输出使所述居住者的舒适最大化的所预测的所述居住者的热舒适度，并且