CN116157751A

CN116157751A - 用于控制流体输送系统的方法和系统

Info

Publication number: CN116157751A
Application number: CN202180060374.0A
Authority: CN
Inventors: A·奥弗高; 布莱恩·康斯戈德·尼尔森; 卡斯滕·斯科乌莫塞·卡勒瑟
Original assignee: Grundfos Holdings
Current assignee: Grundfos Holdings
Priority date: 2020-05-25
Filing date: 2021-05-21
Publication date: 2023-05-23
Also published as: US20230221682A1; EP3916492A1; WO2021239624A1

Abstract

一种用于通过应用自学习控制过程来控制流体输送系统的操作的计算机实现的方法，该方法包括：在在第一时段期间的流体输送系统的操作期间接收获得的多个输入信号的值，其中，在第一时段期间的流体输送系统的操作由预定控制过程控制；基于接收的获得的多个输入信号的值自动地选择所述多个输入信号的子集；在第二时段期间的流体输送系统的操作期间接收获得的至少选择的输入信号的子集的值，其中，通过应用自学习控制过程来控制在第二时段期间的流体输送系统的操作，其中，自学习控制过程被配置为仅基于选择的输入信号的子集来控制所述流体输送系统的操作，并且其中，应用自学习控制过程包括基于接收的获得的选择的输入信号的子集的值并且至少基于性能指标函数的近似来更新自学习控制过程。

Description

用于控制流体输送系统的方法和系统

技术领域

本公开涉及一种用于控制诸如加热系统、供水系统、废水系统等的流体输送系统的方法和系统。

背景技术

在诸如用于建筑物和区域加热网络的HVAC系统的加热系统中，以尽可能低的成本操作同时仍然为最终用户提供良好的舒适性是几十年来一直致力于解决的问题。但是问题是复杂的，并且在许多现有系统中采用了常规工业控制器。

先前已经尝试了开发可以在具有较多数据的生态系统中使用的控制方法，参见例如EP2807527或Gianluca Serale、Massimo Fiorentini、Alfonso Capozzoli、DanieleBernardini和Alberto Bemporad的《用于提高建筑物和HVAC系统能源效率的模型预测控制(MPC)：问题公式化、应用与机会》，Energies 2018年11月。这些现有技术控制方法基于模型，并且特别地，使用模型预测控制(MPC)框架。然而，这需要用于建筑物或用于区域加热网络中的消费者的适当的模型结构。由于建筑物与建筑物之间或区域加热网络与区域加热网络之间的差异，这种模型不容易获得。特别地，这种差异可能与所涉及的负载的差异、可用数据点的差异、结构细节的差异等相关。因此，每个控制系统可能必须由适当的专家基于特定系统的后验知识来逐个手动地配置。

已经出现了连接至诸如互联网的数据网络的诸如IoT装置的越来越多的装置，由此获得了对装置数据点的增加的访问。因此，大的数据点池可用于改进HVAC系统和区域加热网络的控制，特别是用于为终端用户提供以良好的舒适性来进行操作的系统，同时保持操作成本尽可能低。最近，在尝试降低对逐个手动配置的需要下，提出了数据驱动的(即，无模型的)控制方法。

在第13届REHVA世界大会CLIMA 2019的论文集中Overgaard、

J.D.Bendtsen和B.K.Nielsen的《使用强化学习的混合回路控制》中描述了在用于控制液体循环加热系统中的温度和压力的混合回路的背景下称为Q学习的强化学习方法的研究。

虽然以上研究已经表明，提出的方法比一些商用工业控制器表现得更好，但是强化学习的实际应用涉及许多挑战。

增强代理通常需要长的训练时间以达到足够高或甚至可接受控制质量。此外，加热系统可以根据安装而显著地变化。这降低了从通用模型获得的结果对单独安装的适用性。

因此，仍然希望提供一种用于控制流体输送系统的方法，该用于控制流体输送系统的方法部分地或完全地解决以上问题中的一个或多个问题和/或提供其他益处。

发明内容

根据一个方面，本文公开了一种计算机实现的方法的实施例，该方法用于通过应用自学习控制过程来控制流体输送系统的操作，该方法包括：

-在第一时段期间的流体输送系统的操作期间，接收获得的多个输入信号的值，其中，在第一时段期间的流体输送系统的操作由预定控制过程控制，

-基于接收的获得的多个输入信号的值，自动地选择多个输入信号的子集，

-在第二时段期间的流体输送系统的操作期间，接收获得的至少选择的输入信号的子集的值，其中，通过应用自学习控制过程来控制在第二时段期间的流体输送系统的操作，其中，自学习控制过程被配置为仅基于选择的输入信号的子集来控制流体输送系统的操作，并且其中，应用自学习控制过程包括基于接收的获得的选择的输入信号的子集的值并且至少基于性能指标函数的近似来更新自学习控制过程。

因此，本文公开的过程的实施例通过应用在操作期间，例如，连续地或间歇地更新的自学习过程来控制流体输送系统。基于输入信号并且基于性能指标函数或至少基于其近似来更新。由于对自学习控制过程的输入信号被自动地选择为来自多个可用输入信号的子集，因此可以有效地管理潜在的大量可用输入信号。通过使自学习控制过程仅基于选择的输入信号的子集，可以显著地减少产生性能指标函数的期望值的更新过程需要的时间，特别是产生性能指标函数的至少接近最优值的更新过程需要的时间。自动选择输入信号的子集是基于接收的多个输入信号的值，所述多个输入信号的值在由预定控制过程控制流体输送系统的同时已经被接收。因此，该过程能够选择与自学习过程的更新具有高相关性的输入信号的子集，从而促进更新过程的快速收敛。此外，由于输入信号的子集是从在流体输送系统的操作期间可获得的多个输入信号中选择的，因此本文公开的过程的实施例可以有效地应用于不同类型的流体输送系统，并且提供各种类型的流体输送系统的高质量控制。

在本文中描述的方法的实施例是数据驱动的，并且不严重地依赖于要控制的流体输送系统的模型。特别地，自动选择输入信号可以是数据驱动的。此外，如果对配置控制过程的后验域知识的需要没有完全消除，那么也极大地被减少了。

通常，流体输送系统的示例包括利用流体作为传热介质的系统，诸如加热和/或冷却系统，特别是用于一个或多个建筑物的加热和/或冷却系统。因此，流体输送系统的示例包括液体循环系统、加热和/或通风和/或空调系统——也称为HVAC系统。流体输送系统的其他示例包括区域供热系统。区域供热系统可以包括区域加热网络，所述区域加热网络包括用于各个建筑物的多个供热系统。流体输送系统的又一示例包括流体供应系统或流体处置系统，例如，供水系统或废水系统。由流体输送系统输送的流体的示例包括液体，诸如水或含水的液体，例如，废水或包括大部分水和小部分其他组分的液体。流体的其他示例包括其他形式的液体或气体加热或冷却剂。流体的其他示例包括空气或其他气体。

通常，每个控制过程(即预定控制过程和自学习控制过程)可以通过控制流体输送系统的一个或多个可控的控制变量来控制流体输送系统的操作。可控控制参量的示例包括阀设置(特别是阀打开程度)、温度设定点、泵压力设定点或泵速度设定点、阻尼器的打开程度和/或风扇速度等。通常，每个控制过程(即预定控制过程和自学习控制过程)可以响应于一个或多个输入信号来控制流体输送系统，特别是流体输送系统的一个或多个控制变量。为此，每个控制过程可以实施各自的控制策略，所述各自的控制策略确定如何响应于输入信号来控制流体输送系统，特别是如何响应于输入信号来控制流体输送系统的控制变量。

预定控制过程可以实施预定控制策略，例如，基于模型和/或基于规则的控制策略，例如，前馈控制、反馈控制、固定设定点例程和/或另一常规控制过程。特别地，预定控制过程可以实施非自适应(non-adaptive)控制策略，即由预定控制过程应用的控制策略在第一时段期间可以是静态的，即不改变。因此，自学习控制过程的初始配置，特别是输入信号的选择，既不需要对要控制的特定流体输送系统的广泛专业知识，也不需要在由要配置的自学习控制过程控制时关于流体输送系统的性能的数据。相反，可以收集用于选择输入信号的数据，同时由另一合适的控制过程控制流体输送系统，例如，由传统的非自适应控制过程控制流体输送系统。因此，本文描述的方法的实施例甚至可以以即插即用的方式在新流体输送系统中实施。替代地或另外地，在一些实施例中，预定控制过程可以是先前的自学习控制过程，从而有利于重新配置较早的自学习控制过程，诸如周期性地或由用户命令或其他触发事件触发较早的自学习控制过程，例如，在已对现有流体控制系统进行改变的情况下周期性地或由用户命令或其他触发事件触发较早的自学习控制过程。

自学习控制过程是指自适应控制过程，该自适应控制过程被配置为自动地改变(即更新)控制策略，例如，通过响应于自学习控制系统采取的控制动作而更新流体输送系统的未来反应(特别是未来性能)的数据驱动的估计。得到的自学习控制过程随时间的更新基于一个或多个标准，特别是以便改善(特别是至少近似地优化)性能测量。性能测量的示例是所谓的收益，该所谓的收益可以表示为在相应的时间获得的性能指标的加权和。性能指标或多个性能指标的组合也可以被称为奖励。

流体输送系统在给定时间的性能通常依赖于流体输送系统在一个或多个先前时间的操作状态。因此，在给定时间采取的用于改变流体输送系统的操作状态的控制动作影响系统的未来性能。控制动作也将简称为动作。动作的示例可以包括设定和/或调节流体输送系统的一个或多个控制变量，例如，通过设定或调节阀设定(特别是阀打开程度)、温度设定点、泵压力设定点或泵速度设定点、阻尼器的打开程度和/或风扇速度等。

由于系统的未来性能在做出关于潜在控制措施的决定时尚未被测量，因此自学习控制过程可以寻求选择改善预期未来性能测量的动作。预期未来性能测量也被称为性能指标函数。性能指标函数可以依赖于当前操作状态，并且可选地依赖于采取的动作。依赖于性能指标函数的类型，自学习控制过程可以选择寻求增加或减小性能指标函数的函数值的动作。

由于自学习控制过程可能不知道性能指标函数的确切形式，即，系统的预期未来性能如何依赖于当前状态和/或当前动作，因此自学习过程的一些实施例可以保持性能指标函数的估计或近似，特别是参数化的近似。所述近似也将被称为性能近似器函数，因为它可以表示对估计的未来性能测量如何依赖于流体输送系统的当前操作状态和/或依赖于由自学习控制过程采取的当前控制动作的近似。

自学习控制过程的示例包括实现基于奖励的学习代理的控制过程，诸如用于适配控制策略的强化学习过程。自学习控制过程的一些实施例基于也被称为策略的一个或多个选择规则来选择要采取的控制动作。一个或多个选择规则可以基于流体输送系统的当前状态(特别是基于接收的输入信号的子集)指示要采取哪些动作。选择规则的示例包括选择改善估计的未来性能测量的输出的动作的选择规则。选择规则的一些示例，例如，所谓的ε-贪婪策略(ε-greedy policy)，是探索性选择规则，所述探索性选择规则选择动作以便改善估计的未来性能测量的输出，同时允许具有一定概率的探索性动作。探索性动作可以包括基于当前性能近似器函数的次优动作。

自学习控制过程的一些实施例可以基于观察的性能指标来更新性能近似器函数。观察的性能指标可以是测量值和/或基于测量参数计算的值，并且观察的性能指标可以指示流体输送系统的性能。性能指标也可以被称为奖励，因为它们可以表示与自学习代理采取的先前动作相关联的奖励。因此，得到的自学习控制过程随时间的更新可以包括性能近似器函数的更新，以便减少误差测量，所述误差测量可以指示一个或多个观察的性能指标和从一个或多个先前动作得到的性能近似器函数的输出之间的偏差。

自学习控制过程的其他示例包括自适应控制和迭代学习。为了本说明书的目的，自学习控制过程也将被称为“学习代理(learning agent)”。自学习过程的实施例能够从其经验中学习，特别是基于观察的输入变量并基于一个或多个观察的性能指标来适配控制策略。自学习过程从控制策略的初始版本开始，然后能够通过学习自主地行动和适应，以改善其自身的性能。当前控制策略可以包括当前性能近似器函数和选择规则(也称为策略)，据此自学习过程在给定当前性能近似器函数的输出的情况下选择一个或多个动作。更新自学习过程可以包括基于一个或多个观察的性能指标来更新当前性能指标函数和/或选择规则。

通常，每个输入信号可以指示感测的、确定的或以其他方式获得的输入变量。例如，一些输入信号可以由诸如温度传感器、压力传感器、流量传感器等合适的传感器感测，并直接地或间接地从其接收。一些输入信号可以由该过程从一个或多个感测信号和/或从其他输入数据确定。可以从流体输送系统的部件接收一些输入信号。此外，可以从远程数据处理系统、从互联网或从另一源接收一些输入信号。感测的或以其他方式获得的输入信号可以指示流体在流体输送系统的某位置处的特性，例如，流体温度、流体压力、流体流速。感测的或以其他方式获得的输入信号的其他示例可以指示流体输送系统的其他特性，例如，泵或流体输送系统的另一功能部件的操作温度或功耗。感测的或以其他方式获得的输入信号的又一些示例可以指示流体输送系统的环境的特性，例如，室温、外部温度、风速、风向等。在一些实施例中，从诸如气象站、热量计等的各个IoT连接装置接收输入信号中的一个或多个信号。因此，选择输入信号可以包括选择输入变量的类型，例如，由温度传感器测量的室温、由压力传感器测量的流体压力等。

每个输入信号可以与感测或以其他方式获得输入变量的时刻(例如，绝对时间或相对时间)相关联，例如，相对于当前时间或另一合适的参考时间。在一些实施例中，相关联的时间可以简单地是由该过程接收输入信号的时间；替代地或另外地，一个或多个输入信号可以具有与其相关联的时间戳，例如，指示感测的输入变量的测量的时间等。因此，每个输入信号可以指示输入变量的类型、感测或以其他方式获得输入变量的值、以及已感测或以其他方式获得(例如，接收)输入变量的值的时刻。特别地，在一些实施例中，输入信号中的一个或多个输入变量可以表示感测的或以其他方式获得的输入变量的值的各个时间序列。选择输入信号可以包括选择输入变量的类型，并且还包括选择时移延迟，即选择自学习控制过程要考虑观察的输入变量的值的特定相对时间。

可以相对于合适的参考时间(诸如做出控制决定的当前时间，即控制过程确定采取什么控制动作的时间)来选择时移延迟。例如，选择输入信号可以包括选择由时移1/2h的温度传感器测量的室温的时间序列，或由时移2分钟的压力传感器测量的流体压力的时间序列等。为了从多个输入信号选择输入信号的子集，在第一时间测量的输入变量和在不同于第一时间的第二时间测量的相同输入变量因此可以被认为是不同的输入信号。

在许多流体输送系统中，许多输入变量对流体输送系统性能的影响与延迟相关联，即输入变量的变化不立即影响流体输送系统的性能，而是在稍后的时间点影响流体输送系统的性能。延迟可以依赖于流体输送系统中流体流量。特别地，高流速可以引起输入变量的变化，以比低流速更快地影响流体输送系统的性能。为了较好地考虑这种情况，输入信号的选择可以是有条件的选择，例如，依赖于一个或多个操作条件的选择。例如，可以根据流体的流速来选择与选择的输入信号相关联的选择的时移延迟，特别是关于表示由时间索引的输入变量的值的时间序列的选择的时移延迟。因此，依赖于指示流体输送系统中的流体流速的变量，选择的时移延迟可以是恒定时移延迟或可变时移延迟，特别是依赖于流量的时移延迟。

自动选择优选地导致选择输入信号的真实子集或导致由多个输入信号定义的输入空间的另一形式的降维。因此，在一些实施例中，多个输入信号限定具有第一维数的输入空间，其中，所选择的输入信号的子集限定具有小于第一维数的减少的维数的减少的输入空间。选择的子集可以包括对输入变量的全部或仅输入变量的子集的选择。如上所述，对于表示为时间序列的值的每个输入变量(即表示为由时间变量索引的值的序列)，选择可以包括选择指示时间序列的对应观察的值何时应该用作自学习控制过程的输入信号的时移延迟。因此，在任何给定的时间步骤，自学习控制过程可能不需要评估整个时间序列，而是仅评估时间序列的各个值，即那些在选择的时移延迟处的时间序列的值。因此，关于时间序列的一个或多个单独的时移延迟的选择也可以有助于降低自学习控制过程的输入空间的维度，例如，附加地或替代地选择输入变量的子集。

可以基于一个或多个选择标准(即表示为由时间变量索引的值的序列)来执行自动选择。虽然输入选择可以基于系统的模型，但是优选的是，输入选择是无模型的并且仅由接收的输入信号驱动，并且可选地由合适的性能测量驱动，特别是由观察的性能测量驱动。数据驱动的(特别是无模型)的选择标准有助于将在本文中公开的过程应用于各种不同的流体控制系统，并非所述流体控制系统的全部都是先验已知的。在一些实施例中，选择可以应用非线性选择过程，诸如信息理论选择过程，从而为各种不同类型的流体输送系统提供较可靠的控制。信息理论选择过程是指应用信息理论选择标准的选择过程。术语“信息论选择标准”是指用于基于信息理论的选择的标准，特别是基于熵和/或互信息的测量的标准。基于熵的测量确定输入信号中的信息的水平，而基于互信息的度量确定在两个或多个变量之间共享的信息的水平，例如，在输入信号与观察的性能度量之间共享的信息的水平。在一些实施例中，该选择基于互信息标准，特别是基于基于一个或多个输入信号与观察的性能测量之间的互信息的选择标准。这里和在下文中，术语观察的性能测量是指从实际观察的数据，特别是从在第一时段期间获得的输入信号确定(特别是计算)的性能测量的输出。用于选择输入信号的目的的性能测量可以是寻求在第二时段期间通过自学习控制过程改进的相同性能测量。在一些实施例中，选择包括选择输入变量和与观察的性能测量具有最大互信息的相关联的时移延迟。

输入信号的子集的自动选择可以在第一时段之后并且在第二时段之前的过渡时段期间执行。过渡时段可以短于第一时段和第二时段中的每一个。特别地，可以在完成第一时段之后执行输入信号的子集的选择。在完成输入信号的选择时，流体输送系统的控制可以从预定控制过程切换到自学习控制过程，从而启动第二时段。

在一些实施例中，该方法还包括配置自学习控制过程的初始版本，特别是基于选择的输入信号的子集来配置自学习过程的初始版本。因此，自学习控制过程的初始版本可以应用初始控制策略，所述初始控制策略随后在自学习控制过程的操作期间更新。初始版本的配置可以包括基于在第一时段期间已经接收的所获得的多个输入信号的值，并且基于在第一时段期间的流体输送系统的操作期间记录的性能指标值，预训练自学习控制过程的初始版本。初始版本的配置也可以在过渡时段期间执行。因此，预训练的自学习控制过程从开始就提供了相对高质量的控制，并且朝向优化的过程较快地演变。

性能测量定义了控制策略的质量标准或其他成功标准。性能测量可以依赖于一个或多个变量，诸如温度、湿度、气流、能源消耗等。性能测量可以依赖于一天中的时间和/或一年中的时间和/或工作日等，或者可以是以其他方式依赖于时间的。性能测量的值可以是标量。性能测量可以表示单个性能指标或多个性能指标的组合(例如，加权和)。性能指标的示例可以是指示操作成本的指标，例如，功耗。在加热系统的背景中，成本指标的示例包括基于在系统中测量的一个或多个温度的指标或可以与操作建筑物或区域加热网络的成本相关联的任何其他变量。在供暖系统或HVAC系统的背景下的性能指标的另一示例可以包括指示舒适性水平的指标，例如，室温与目标温度的差异、室温的波动速率、跨建筑物的室温的变化、湿度、空流等。因此，该过程允许控制过程考虑不同的性能标准。

在一些实施例中，性能指标函数表示流体输送系统的预期未来性能测量，即性能指标函数的函数值可以表示性能测量的预期未来值。可以根据流体输送系统的当前状态来确定预期未来性能测量，特别是当由接收的输入信号的子集表示的流体输送系统的当前状态时。可以进一步根据由自学习控制过程确定的控制动作来确定预期未来性能测量。

在一些实施例中，性能测量依赖于在多个时间评估的性能指标，可选地对性能指标值实施依赖于时间的加权，特别是依赖于流体输送系统中的流体流的速率的依赖于时间的加权。在许多流体输送系统中，性能指标的较早值对于流体输送系统的当前性能的重要性依赖于流速。类似地，性能指标的当前值对于流体输送系统的预期未来性能的重要性依赖于流速。因此，在自学习控制过程的更新中，特别是在性能近似器函数的更新中，并入加权(特别是依赖于流量的加权)有助于较准确地补偿流体输送系统中的流量变量输送延迟。在一些实施例中，加权包括先前观察的性能指标如何影响自学习控制过程的更新的依赖于时间的加权。为此，在一些实施例中，自学习控制过程实现由资格迹(eligibility trace)实现的多步方法。已经发现这样的实施例显示出良好的性能。特别地，一些实施例采用依赖于流量的资格迹衰变(eligibility trace decay)。在一些实施例中，体积流速用于输入信号的选择和自学习控制过程两者中，以补偿信号之间的流量变量延迟。

在一些实施例中，自学习控制过程包括至少一个随机分量，从而促进通过自学习控制过程探索控制策略的新变型，并且因此促进自学习控制过程朝向优化的控制策略的改进的演变。

通常，可能不知道流体输送系统的性能指标如何依赖于选择的输入变量，特别是流体输送系统的预期未来性能如何依赖于选择的输入变量和/或控制过程采取的控制动作。因此，在一些实施例中，自学习控制过程基于性能近似器函数，所述性能近似器函数近似性能指标函数对选择的输入信号子集的依赖性，以及可选地对当前控制动作的依赖性。特别地，性能近似器函数可以由多个权重参数进行参数化，并且更新自学习控制过程可以包括更新多个权重参数中的一个或多个权重参数。因此，随着时间的推移，自学习控制过程学习如何近似性能指标函数(即未来预期性能测量)对选择的输入信号的子集的依赖性，以及可选地，对自学习控制过程采取的控制动作的依赖性。

在第二时段期间的流体输送系统的操作期间，操作条件可以改变，流体输送系统的部件可以被替换、添加、移除或以其他方式改变。因此，最初选择的输入信号的子集可能不再是输入信号的最佳选择。为了较好地考虑这种变化，该过程的一些实施例执行输入信号的重新选择。因此，在一些实施方式中，该方法还包括：

-基于接收的获得的多个输入信号的值，自动地选择多个输入信号的新子集，多个输入信号的新子集在第二时段期间被接收，

-在第三时段期间的流体输送系统的操作期间，接收获得的至少选择的输入信号的新子集的值，其中，通过应用适于选择的输入信号的新子集的新自学习控制过程来控制在第三时段期间的流体输送系统的操作，其中，新自学习过程被配置为仅基于选择的输入信号的新子集来控制流体输送系统的操作，并且其中，应用新自学控制过程包括基于接收的获得的选择的输入信号的新子集的值并且基于性能指标函数或至少基于性能指标函数的近似来更新新自学控制过程。

应当注意，以上和下面描述的计算机实现的方法的各种实施例的特征可以至少部分地以软件或固件的形式实现，并且在数据处理系统或由诸如计算机可执行指令的程序代码装置的执行引起的其他处理单元上执行。这里和下文中，术语处理单元包括适合于执行以上功能的任何电路和/或装置。特别地，以上术语包括通用可编程微处理器或专用可编程微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、专用电子电路等或其组合。

本公开涉及不同的方面，包括以上和下面描述的方法、其他方法、系统、装置和产品装置，每个方法、系统、装置和产品装置产生结合一个或多个其他方面描述的一个或多个益处和优点，并且每个方法、系统、装置和产品装置具有对应于结合在本文中描述和/或如所附权利要求中公开的一个或多个其他方面描述的实施例的一个或多个实施例。

特别地，在本文中公开的另一方面涉及用于控制流体输送系统的控制系统的实施例。控制系统的实施例被配置为执行在本文中描述的方法的动作。为此，控制系统可以包括一个或多个处理单元，特别是控制单元和远程数据处理系统。一个或多个处理单元可以在其上存储有程序代码，所述程序代码被配置为当由一个或多个处理单元执行时使控制系统执行在本文中描述的方法的动作。应当理解，控制过程可以包括多个处理单元，每个处理单元被配置为执行在本文中描述的方法的动作的子集。

特别地，在一些实施例中，控制系统包括通信地耦合至流体输送系统的一个或多个可控部件的控制单元；其中，控制单元被配置为在流体输送系统的操作期间接收获得的至少选择的输入信号的子集的值，并且通过应用预定控制过程或通过应用自学习控制过程来选择性地控制流体输送系统的操作。特别地，控制单元可以被配置为通过在第一时段期间以及可选地在过渡时段期间应用预定控制过程来控制流体输送系统的操作，并且通过在第二时段期间应用自学习控制过程来控制流体输送系统的操作。

在一些实施例中，控制系统包括数据处理系统，所述数据处理系统被配置成在第一时段期间的流体输送系统的操作期间接收获得的多个输入信号的值，并且基于接收的获得的多个输入信号的值自动地选择多个输入信号的子集。在一些实施例中，数据处理系统是远离控制单元定位的远程数据处理系统，特别是云服务。在一些实施例中，数据处理系统还被配置为基于选择的输入信号的子集来配置自学习控制过程的初始版本；其中，配置自学习控制过程的初始版本包括：基于在第一时段期间的流体输送系统的操作期间接收的获得的多个输入信号的值，并且基于在第一时段期间的流体输送系统的操作期间记录的性能指标值，训练自学习控制过程的初始版本。

根据又一方面，在本文中公开了流体输送系统的实施例，所述流体输送系统包括如在本文中描述的控制系统的实施例。

在本文中公开的又一方面涉及计算机程序的实施例，所述计算机程序被配置为使控制系统执行以上和下面描述的计算机实现的方法的动作。计算机程序可以包括程序代码装置，当程序代码装置在一个或多个处理单元上执行时，所述程序代码装置适于使一个或多个处理单元执行以上和下面公开的计算机实现的方法的动作。计算机程序可以存储在计算机可读存储介质上(特别是非瞬态存储介质)，或者实现为数据信号。非瞬态存储介质可以包括用于存储数据的任何合适的电路或装置，诸如RAM、ROM、EPROM、EEPROM、闪存、磁性或光学存储装置，诸如CD ROM、DVD和/或硬盘等。

附图说明

从下面参考附图描述的实施例中，以上和其他方面将变得显而易见并得到阐明，其中：

图1示意性地示出了流体输送系统的示例。

图2示意性地示出了流体输送系统的另一示例。

图3示意性地示出了用于控制流体输送系统的控制系统。

图4示意性地示出了用于控制流体输送系统的过程。

图5示意性地示出了用于由自学习控制过程控制流体输送系统的过程。

图6示意性地示出了用于为自学习控制过程选择输入信号的过程。

具体实施方式

在下文中，将在诸如HVAC系统或区域加热网络的加热系统的背景中描述在本文中公开的方面的实施例。

在该背景中，在本文中公开的方法和系统的实施例提供了一种用于建筑物或区域加热网络的自调试(self-commissioning)和最佳控制的数据驱动方法。这里，术语自调试是指其自身从大池中选择哪些数据点用作数据驱动控制方法的输入的系统。

在本文中描述的过程和系统的实施例应用自学习控制过程，该自学习控制过程，如果没有最小化，也降低建筑物HVAC系统或区域加热网络的操作成本，同时保持良好的舒适性。与现有解决方案相反，在本文中描述的系统和方法的实施例不要求大量的后验知识用于配置控制系统的目的。另外，在本文中描述的方法和系统的实施例可以被应用于新的流体输送系统，在该新的流体输送系统，还没有数据日志可用于配置。

图1示意性地示出了流体输送系统的实施例，特别是加热系统。

该系统包括一个或多个可控部件40，也称为致动器。加热系统的可控部件的示例包括阀、泵和/或阻尼器。例如，可控部件40可以包括构成所谓的混合回路的阀/泵组合。应当理解，流体输送系统的一些示例可以包括替代类型和/或附加类型的可控部件，例如，风扇等。除了可控部件40之外，该系统还包括附加部件(未明确地示出)，诸如管道、贮器、散热器等。一些或所有的附加部件可直接或间接操作地耦合至可控部件40(例如，与可控部件40流体连通)。

加热系统包括控制系统10，该控制系统可操作地耦合至可控部件40并且被配置为通过控制可控部件40来控制流体输送系统的一个或多个可控变量。可控变量的示例包括阀设定(特别是阀打开程度)、温度设定点、泵压力设定点或泵速度设定点、阻尼器的打开程度和/或风扇速度等。

控制系统10可以由适当编程的数据处理系统实现，诸如适当编程的计算机，或者由另一数据处理装置或控制单元实现。在一些实施例中，控制系统10可以被实现为包括多个计算机、数据处理装置或控制单元的分布式系统。控制系统10例如经由有线连接或无线连接通信地耦合至可控部件40。控制系统与可控部件之间的通信可以经由直接连接或经由间接连接，例如，经由通信网络的一个或多个节点。有线连接的示例包括局域网、串行通信链路、控制总线、直接控制线等。无线连接的示例包括射频通信链路，例如，Wi-Fi、蓝牙、蜂窝通信等。

控制系统10包括适当编程的处理单元11，例如，CPU、微处理器等。控制系统还包括存储器12，该存储器上可以存储有用于由处理单元10使用的计算机程序和/或数据。应当理解，控制系统10可以包括，例如，包括在数据处理系统的显示器上(诸如在触摸屏上)显示的图形用户界面的附加部件，例如，一个或多个通信接口和/或用户接口。通信接口的示例包括有线网络适配器或无线网络适配器、串行数据接口、蓝牙收发器等。

加热系统包括多个传感器30。传感器的示例包括温度传感器、压力传感器、用于感测风速的传感器、用于感测窗、门等的操作状态的传感器等。

传感器30例如经由有线连接或无线连接通信地耦合至控制系统10。传感器30与控制系统10之间的通信可以经由直接连接或经由间接连接，例如，经由通信网络的一个或多个节点。有线连接的示例包括局域网、串行通信链路、数据总线、直接数据线等。无线连接的示例包括射频通信链路，例如，Wi-Fi、蓝牙、蜂窝通信等。在图1的示例中，控制系统直接地耦合至一些传感器并且间接地耦合至其他传感器。间接耦合可以经由建筑物管理系统20或从多个传感器和/或从其他数据源接收传感器信号，并且将一些或所有的传感器数据转发至控制系统10的其他形式的数据服务器。在一些实施例中，建筑物管理系统可以实现数据服务器和控制系统10两者。

通常，输入信号的示例包括传感器数据，例如，来自与加热系统相关联的指示负载的传感器的传感器数据(例如，温度、压力、流量等)，或来自例如窗或门开关的事件指标器的传感器数据，或来自其他类型的传感器的传感器数据。

除了来自传感器30的传感器信号之外或替代来自传感器30的传感器信号，控制系统10还可以从其他源接收数据或其他输入信号。例如，控制系统可以从天气服务接收天气预报数据，从预订系统接收占用数据，从外部系统接收关于能源价格的信息等。

因此，在操作期间，控制系统10接收来自传感器30的传感器输入，并且可选地接收来自其他源的进一步输入。通常，可以以数字信号的形式或以模拟信号的形式接收来自传感器30和可选地来自其他源的输入，然后可以将该模拟信号转换成数字信号。为了本说明书的目的，接收的输入将被称作输入信号。控制系统10可以间歇地、例如周期性地接收输入信号，例如使得控制系统10接收一个或多个时间序列的感测的值，该一个或多个时间序列的感测的值指示由传感器在不同的时间点感测的相应的输入变量。

控制系统10被配置为执行控制过程，该控制过程响应于接收的输入信号或至少响应于选择的输入信号的子集来控制可控部件40，如在本文中描述的。特别地，控制系统被配置为执行如在本文中描述的过程，例如，下面参考图3至图6描述的过程中的一个或多个过程。

图2示出了流体输送系统的另一实施例。除了控制系统10是分布式系统之外，图2的系统与图1的系统相同。特别地，控制系统包括本地控制单元10A，该本地控制单元通信地耦合至可控部件40和传感器30。控制系统还包括远程数据处理系统10B，例如，远程计算机、分布式计算环境等。本地控制单元10A包括处理单元11A和存储器12A，如结合图1描述的。远程数据处理系统10B还包括一个或多个处理单元11B(例如，一个或多个CPU)，以及至少一个存储器12B。本地控制单元10A和远程数据处理系统10B例如经由直接通信链路或间接通信链路彼此通信地耦合，该直接通信链路或间接通信链路是有线的或无线的。例如，本地控制单元10A和远程数据处理系统10B可以经由因特网或另一合适的计算机网络通信地耦合。在一些实施例中，远程数据处理系统可以直接地从建筑物管理系统20和/或从传感器30接收输入。

在图2的实施例中，本地控制单元10A和远程数据处理系统10B可以合作以实现在本文中描述的过程的实施例。例如，远程数据处理系统10B可以实现输入信号和/或配置的选择，并且可选地，实现自学习控制过程的预训练，而本地控制单元10A可以执行自学习控制过程。可替代地，远程数据处理系统10B还可以执行自学习控制过程的一部分，例如，确定要采取的动作和/或更新自学习控制过程。在这样的实施例中，本地控制单元10A可以从远程数据处理系统接收关于要采取的动作的信息，并向可控部件40翻译特定控制命令中的信息。本地控制单元10A还可以收集输入信号并将至少选择的输入信号转发至远程数据处理系统10B。

图3示意性地示出了用于控制流体输送系统，特别是用于控制加热建筑物的加热系统的自学习控制过程(总体上标记为310)。自学习控制过程310可以是强化学习控制过程或其他自学习控制过程，用于控制流体输送系统60(例如，诸如HVAC或区域加热系统的液体循环系统的)的可控部件40。

自学习控制过程310接收多个输入信号，例如，来自传感器或来自其他源的信号。输入信号可以包括可控控制变量，自学习控制过程可以通过该可控控制变量施加控制动作。输入信号还可以包括其他信号，例如，描述系统上的负载的信号；这些可以被认为是对控制的干扰。自学习控制过程使用可用输入信号的子集作为流体输送系统的状态的表示。选择的变量可以包括描述干扰的控制变量和/或信号中的一些或全部的控制变量和/或信号。在下文中，可用输入变量的总池将由x表示。x在时间t处的值是向量x_t。选择的输入信号将被称为状态s。s在时间t处的值是由状态向量s_t表示的向量。因此，状态向量表示流体输送系统在时间t处的状态。自动地选择由自学习控制过程使用输入信号的哪个子集的过程也将被称为状态选择。自学习控制过程可以直接地从相应的信号源或从数据服务器或以其他方式聚合的另一合适的数据储存库接收输入信号。自学习控制过程和数据服务器可以被实现为单独的模块或彼此集成。特别地，它们可以由本地控制单元、建筑物管理系统或由，例如，在如图1所示的系统中的相同的数据处理系统以其他方式实现。可替代地，自学习控制过程和/或数据服务器可以由通信地耦合至本地控制单元的例如在如图2所示的系统中的远程数据处理系统实现。

自学习控制过程调节用于可控部件的一个或多个控制变量。控制变量可以是用于加热系统中的局部控制回路的设定点，诸如，温度、压力或流量控制回路。例如，结合混合回路，控制设定点可以是温度和泵压力。为此，执行自学习控制过程310的控制系统具有到加热系统的可控部件40的接口，控制系统经由该接口对加热系统施加动作。通过自学习控制过程响应于接收的状态信息对控制变量的调整被称为动作的集合。在时间t施加的该组动作将被指定为向量a_t。可控部件40可以例如是阀、泵或阻尼器。在一个示例中，可控部件包括构成称为混合回路的组合的阀/泵组合。该过程响应于选择的接收的输入信号的子集，即，响应于状态s_t，确定动作a_t。

控制过程是自学习的，即，给定状态的控制动作随时间改变以提高性能，因为学习了关于先前控制动作的结果的新知识。

为此，自学习控制过程接收一个或多个性能指标，该一个或多个性能指标指示由自学习控制过程采取的控制动作的一个或多个结果。该过程可以使自学习过程的更新基于多个性能指标的加权组合和/或一个或多个性能指标的另一函数。性能指标在时间t处的值也将被称为奖励r_t。应当理解，性能指标可以是整体指标，例如，多个不同性能指标的组合。因此，采取动作a_t并使系统进入状态s_t+1，产生奖励r_t+1。奖励可以包括一个或多个性能指标，例如，控制误差，并且可选地包括加热系统的操作成本。奖励可以是选择的输入信号的函数。

通常，强化学习控制过程可以被配置为通过如图3所示的由奖励强化的期望行为来更新自身，即，学习。自学习控制过程310寻求选择随时间优化奖励的组合的动作，也称为收益(return)G。特别地，收益可以被定义为累积的n步奖励：

这里，0≤γ≤1，是减少未来奖励对收益的影响的折扣率。增加的折扣率确保变成无限时间(即，n→∞)时很好地定义收益，同时确保奖励较快地发生的较高的重要性。在强化学习中，用于控制系统的控制策略通常被称为策略。

在采取动作的时刻，还不能测量奖励，因此还不能测量由该动作得到的收益。因此，自学习控制过程可以考虑预期未来收益。可以定义动作值函数，该定义动作值函数描述处于状态s_t、采取动作a_t并遵循策略π的预期收益，例如，定义为：

Q_π(s,a)＝Ε[G_t+∞|s_t＝s,a_t＝a]。

因此，动作值函数是性能指标函数的示例。性能指标函数的其他示例包括描述处于状态s并遵循策略的预期收益的值函数。

给定状态s选择使收益的预期最大化的动作a的策略被称为贪婪策略(greedypolicy)。与贪婪策略相关联的问题是没有对潜在更多的奖励动作进行新的探索。探索与开发当前知识之间的权衡是强化学习的一个关注的方面，因为最优性和适应性都是期望的。因此，可以使用能够实现探索量的随机策略。这种策略的示例是所谓的ε-贪婪策略(ε-greedy policy)，该ε-贪婪策略采取具有概率ε的随机动作。

自学习控制过程通过应用学习过程来寻求改善系统的性能。例如，在Q学习中，通过找到最优动作值函数来寻求使收益最大化的最优策略，而不管遵循什么策略：

这里，α∈[0,1]是学习速率。虽然学习代理的一个目标是近似动作值函数或其他性能指标函数，而代理的另一目标是找到使每个状态的收益最大化的最优策略。由于值函数和最优策略彼此依赖，因此它们通常以称为值-策略迭代(value-policy iteration)的迭代方式进行优化。

通常，自学习控制过程可以使用性能指标函数的近似，特别是性能指标函数的函数近似，其中，选择的输入信号的子集以及可选地一个或多个动作是函数近似的输入。该近似也将被称为性能近似器函数。性能近似器函数可以是参数化的近似，例如，以神经网络函数近似的形式的参数化的近似，或者它可以具有从领域知识导出的函数结构。例如，在一些实施例中，控制系统可以将动作值函数的估计或近似维持为性能近似器函数，在下文中表示为

其中，w表示使/>

参数化的权重向量。通过采取动作a_t并对状态s_t和奖励r_t进行采样，自学习控制过程310可以改进性能指标函数/>

的估计。

性能指标函数的估计的更新可以采用合适的学习过程，例如，时间差分学习。时间差分学习是强化学习中的另一关注的方面。它可以被描述为蒙特卡罗(Monte Carlo)和动态规划(Dynamic Programming)的混合。在蒙特卡罗中，测量动作、状态转换和收益的完整事件，然后纯粹地从测量来计算状态-动作-值函数的估计。在动态规划中，马尔可夫决策过程(Markov Decision Process)的模型是已知的，因此来自该知识的估计可以用于引导(bootstrapping)。在时间差分学习中，从采样的奖励和已经获取的系统知识两者来计算引导目标(bootstrap target)。时间差分误差是状态-动作-值函数的当前估计与新估计之间的误差。

在一些实施离中，采用多步方法。多步方法通常比单步方法表现更好，因为它们使用较多的样品。为此，可以采用收益使用踪迹衰减(trace decay)λ的参数化，使得该方法可以从λ＝0(对应于一步法)跨越，直到…＝1(对应于蒙特卡罗法)：

由于计算优势，多步方法可以优选地被实现为资格迹。资格迹利用踪迹向量(trace vector)z，该踪迹向量根据估计的性能指标函数相对于权重的偏导数而变化，该权重使估计的性能指标函数参数化。踪迹向量通过γλ衰减：

然后根据下式调节权重：

w_t+1＝w_t+αδ_tz_t

其中，时间差误差δ_t是状态-动作-值函数的当前估计与新估计之间的误差。

在一些实施例中，自学习控制过程使用体积流速来调度时间范围，在该时间范围上出于更新性能近似器函数的目的而考虑奖励。对于多个信号，多个范围是可能的。时间范围可以明确地或隐含地定义，例如，通过合适的加权或衰减(诸如通过如在本文中描述的踪迹衰减)定义。

从可用输入信号的池中选择自学习控制过程使用的输入信号的子集。该选择自动地执行，优选地，通过数据驱动的方法执行，也称为状态选择方法。

可以在第一次使用自学习控制过程来控制流体输送系统之前执行状态选择方法。为此，当由标准非自适应控制过程控制流体输送系统时，最初可以从流体输送系统收集数据。而且，随后可以执行新的状态选择，例如，周期性地和/或由触发事件触发的执行新的状态选择。在一些实施例中，基于领域知识，状态选择尽可能频繁地运行，例如，以便保持选择的输入信号的子集更新，例如，如结合图4描述的。随后的状态选择可以基于在由当前自学习控制过程控制流体输送系统期间收集的数据。

通常，数据驱动的状态选择可以标识包含用于自学习控制过程的最相关信息的输入信号。仅使用输入信号的子集得到自学习控制过程的较快的学习速率。状态选择方法可能在计算上是昂贵的，并且可以有利地由具有对可用输入信号x的访问的远程数据处理系统执行，例如，通过云计算环境执行，例如，如结合图2描述的。例如，状态选择方法应用互信息方法，例如，如结合图6描述的。

图4示意性地示出了用于控制流体输送系统的过程。

在初始步骤S1和S2中，在第一时段期间，该过程通过应用预定控制过程、特别是非自适应控制过程来控制流体输送系统。预定控制过程可以例如被实现为常规的、市场上可获得的控制器，例如，本领域中已知的PLC。当预定控制过程控制流体输送系统时，该过程采样并记录多个输入信号。该过程还在第一周期期间采样并记录性能指标，性能指标指示流体输送系统在预定控制过程的控制下的性能。在数据收集期间，在步骤S1中，可以收集训练数据用于状态选择。可以在预定时段t_s期间收集训练数据。用于状态选择的训练数据包括输入信号的集合x_s、在时段t_s期间由预定控制过程采取的动作、以及在时段t_s期间记录的性能指标，也称为奖励r_s。这里，下标s指的是状态选择。

另外，在步骤S2中，可以收集另外的数据用于用作验证数据，特别是用于定义停止标准。可以在预定时段t_v期间收集验证数据。用于状态选择的验证数据包括输入信号的集合x_v、在时段t_v期间预定控制过程采取的动作a_v以及在时段t_v期间记录的奖励r_v。这里，下标v是指验证数据。

在步骤S1和/或步骤S2期间，该过程可以记录流量值q，该流量值可以用作输入信号和/或用于执行流量校正的目的。

可以预先确定第一时段t₁＝t_s+t_v的持续时间以及时段t_s和t_v。合适的持续时间的选择可能依赖于各种参数，诸如要控制的系统的复杂性、输入信号的数量、采样输入信号的频率等。

在本文中描述的过程的一些实施例，通过自学习控制过程应用依赖于流量(flow-dependent)的效应的补偿，特别是输入信号的依赖于流量的选择和/或奖励的依赖于量的加权。为此，在可选的步骤S3中，该过程选择常数

以用于在依赖于流量的效应的补偿中的应用，特别是用于计算流量变量踪迹衰减。给定选择的常数/>

流量变量踪迹衰减λ可以被计算为/>

其中，q_η(t)表示在时间t时流体输送系统中的归一化流体流量。常数/>

可以从归一化的集中体积(lumped volume)v_η计算：φ＝h(v_η)；它可以基于关于流体输送系统的领域知识来确定。例如，集中体积系数v_η可以基于两个变量之间的延迟，该两个变量之间的延迟导致变量之间的最大互信息，或者可以以其他方式基于指示系统中的一般传输延迟的参数。特别地，关于HVAC或区域加热系统，两个变量可以是供应温度和返回温度，后者是较早时刻时的供应温度的函数。

在随后的步骤S4中，当出于状态选择的目的而应用流量补偿时，使用在步骤S3中确定的衰减率λ来计算收益Gt或其他性能测量。

在随后的步骤S5中，该过程选择输入信号的子集用于在所述自学习控制过程对流体输送系统的随后的控制期间供自学习控制过程使用。该选择过程也被称为状态选择。状态选择优选地使用互信息标准或另一合适的选择标准，例如，另一信息理论选择标准。特别地，互信息选择标准可以使选择基于各自的输入信号与计算的收益或其他合适的性能测量之间的互信息。为此，该过程可以应用在步骤S4中计算的流量补偿的收益G_t。下面将参考图6更加详细地描述状态选择过程的示例。

在步骤S6中，该过程基于选择的输入信号配置自学习控制过程的初始版本。特别地，该过程基于在步骤S1期间收集的训练数据和/或在步骤S2期间收集的数据来预训练自学习控制过程。该预训练可以使用自学习方案来执行，该自学习方案随后在自学习控制过程的实际使用期间应用，例如，如以下参考图5描述的。然而，预训练是“离策略(off-policy)”执行，因为在预训练期间使用的动作是由预定控制过程执行的动作，而不是由正在预训练的自学习控制过程执行的动作。预训练还基于可选地流量补偿的收益G_t。

最后，在步骤S7中，该过程使用预训练的自学习控制过程来控制流体输送系统。自学习控制过程对流体输送系统的控制包括根据合适的自学习方案(例如，强化学习)来更新自学习控制过程。下面将参考图5更加详细地描述该过程的示例。自学习控制过程对流体输送系统的控制可以在第二时段期间(例如，直到将其停止)进行。例如，以预定间隔和/或由合适的触发事件触发(诸如由用户命令触发)，该过程可以确定(步骤S8)是否应该执行重新的状态选择。该确定可以基于自先前状态选择以来经过的时间和/或基于一个或多个性能指标和/或基于用户命令。如果该过程启动重新的状态选择，则该过程返回到步骤S5。然后，重新的状态选择可以基于在步骤S7期间(即，在当前自学习控制过程控制流体输送系统期间)记录的数据。如果重新的状态选择导致选择替代输入信号和/或附加输入信号，则可以配置和预训练新的自学习控制过程，然后替换当前的自学习控制过程。

由于状态选择可能在计算上是昂贵的，因此可能优选的是通过云计算环境或其他远程数据处理系统来执行状态选择。而且，状态选择优选地仅在受控系统经历大的变化时运行，由此其他信号更易于用于学习代理的使用。大的变化可能例如是由于受控系统中的结构变化、新的传感器或径向负载变化。

如果学习代理仅使用几个输入信号，则自学习控制过程可以在计算上足够便宜，以使其在加热系统的本地计算装置(例如，HVAC或区域加热系统的本地计算装置)上实现，或者甚至通过加热系统的部件的控制单元(诸如通过智能阀或离心泵)实现。然而，在一些实施例中，自学习控制过程可以由云计算环境或其他远程数据处理系统实现。

通常，在第一时段期间，该过程通过预定的，例如常规的，控制过程来控制流体输送系统，并且该过程可以对多个输入信号各自的时间序列进行采样。在过渡时段中，该过程可以在多个输入信号中选择与性能测量相比给出最多信息的输入信号的子集。同样在过渡时段中，该过程可以通过选择的输入信号预训练自学习控制过程。在随后的第二时段中，该过程使自学习控制过程对选择的输入信号实时地操作，并且在该第二时段中，自学习控制过程控制流体输送系统并继续优化自身，特别是通过适配性能指标函数的参数化的估计来优化自身。

例如，当图4的过程的具体示例应用于加热系统的混合回路时，可以总结如下：

结果：即插即用控制方案

初始化：商用控制器

参数：m_s、m_v

确定

从v^*确定

使用

从记录的数据/>

进行如图6的状态选择

使用数据集合对具有选择的状态离策略

的RL代理进行预训练

这里和在下文中，当使用符号‘时，它是指相同参数的值之间的因果关系。一个示例是s是某个迭代/步骤处的状态向量，并且s’是接下来的迭代/步骤中的状态向量。

图5示意性地示出了用于通过自学习控制过程来控制流体输送系统的过程。在初始化步骤S71中，该过程加载初始权重w，特别是从预训练模型得到的权重。如果尚未执行预训练，或者为了预训练的目的，可以以另一合适的方式将权重初始化为例如随机值或零。该过程进一步加载初始踪迹向量z，该初始踪迹向量也可以从预训练得到。该过程还观察流体输送系统的当前状态s_t，例如，接收在状态选择期间选择的输入信号的子集的当前值。状态向量s可以描述遵循马尔可夫特性(Markov property)的受控系统的状态。当已经观察到足够的输入信号(例如，考虑如在状态选择期间确定的延迟的输入信号)时，该过程根据当前控制策略计算动作a。动作向量a描述学习代理通过什么动作控制系统，即，修改哪些控制变量以及如何修改。

可以通过该动作将流体输送系统移动至不同的状态。处于一状态产生一奖励r。自学习控制过程寻求在时间范围上使奖励的加权和最大化。加权和被称为收益G_t。学习代理保持状态-动作-值函数。状态-动作-值函数描述了在给定状态、动作和控制策略的情况下关于收益预期系统执行得有多好。经由

形式的性能近似器函数(诸如例如神经网络)来近似状态-动作值。这里，/>

是近似给定的状态s动作a的状态-动作值Q的性能近似器函数值。性能近似器函数依赖于权重的集合w，例如，根据：

其中，b_i是合适的基函数，诸如径向基函数。

性能近似器函数随时间不断改进以较好地匹配系统。这是由学习代理通过测量状态和奖励同时采取不同的动作并根据合适的备份函数更新权重来完成的。备份函数利用时间差误差(δ)，该时间差误差描述状态动作-值空间的当前知识与新获取的知识之间的差异，该新获取的知识形成函数应该朝向其移动的目标。

为了确保探索并促进通过新信息更新状态-动作-值函数，代理可以通过代理的当前知识采取次优的探索动作。相比于开发当前知识来优化系统，代理进行多少探索由控制策略确定。

具有衰减率λ的踪迹向量z用于确定历史奖励对收益衰减的影响有多快。对于较高的λ，其遵循奖励的踪迹的影响衰减得较快。

特别地，该过程一旦初始化，就进入控制和更新循环，重复该控制和更新循环直到该过程终止。特别地，在步骤S72中，该过程观察奖励r_t和由采取的先前动作得到的状态s_t+1。

在步骤S73中，该过程根据选择的控制策略(例如，基于ε贪婪策略)来计算动作a_t+1。

在步骤S74中，该过程经由基函数(例如，径向基函数)从观测的状态s_t+1和选择的动作a_t+1计算基向量b_t+1。

在步骤S75中，该过程计算时间差误差δ。

时间差误差的选择可能与预训练(离策略)和在线训练(上策略)不同。

例如，在策略上训练期间，可以选择时间差误差为，

在离策略方法中，代理使用的行为策略与学习的目标策略不同。例如，Q-学习(Q-learing)是离策略，因为目标策略是使用最大化动作由引导看到的最优策略，

在预训练期间，即在图4的过程的步骤S3中，在第一时段期间获得的数据在自学习控制过程接管控制之前用于自学习控制过程的初始训练，即预训练发生在第二时段之前的过渡时段中，在第一时段期间自学习控制过程用于控制流体输送系统。因此，预训练是离策略。为了实现知识共享，时间差误差可以基于参数化，该参数化提供了在上策略与离策略之间切换的方式。

通过设定σ＝0并使强化学习算法对在第一时段中记录的数据训练，可以实现知识的转移。

在步骤S76中，该过程观察流量q并计算由q_max归一化的q_n。由此，该过程计算流量变量踪迹衰减λ，然后更新踪迹向量z。特别地，为了将强化学习实现为多步方法，可以使用荷兰式踪迹(dutch trace)。依赖于流量的踪迹衰减改变了动作何时影响奖励的范围。一些实施例应用与流量成比例的踪迹衰减。在本方法的该实施例和其他实施例中，使用了集中管道体积近似。这意味着仅使用了对输入-输出延迟的影响最高的体积。在每个样本处，可以计算踪迹衰减为：

其中，q_η(t)∈[q_η,min,1]是由最大流量归一化的流量，并且其中，φ∈[0,1]是可以凭经验确定为集中体积的函数的常数，例如，处于正向温度与返回温度之间的以下关系中：

φ＝h(ν_η)关系中。

可以对流量和集中体积进行相对于系统的最大流量的归一化：

这里在混合回路的背景中给出了集中体积ν的描述。考虑不具有终端单元并且在混合回路的供应与返回之间仅具有管道连接的系统的示例，返回温度是正向温度由于不同的管道路线而以不同的延迟进行作用的函数：

T_r(t)＝h(T_s,q)

其中，

q＝[q₁,...,q_N]^T。

不同管道路线中的各个流量并不总是已知的；例如，在混合回路的一些应用中，仅已知离开混合回路的总流量。因此，可以引入流量比β，其中，p个管道路径的流量比的总和为：

q_N(T)＝β_Nq(t)。

由于仅主流量是已知的，因此可以假设流量比率β是恒定的。终端单元由调节阀控制，该调节阀可以改变流量比率怎样分布。由于影响所有区域，外部温度的变化可能在比率上几乎不变，其中，仅到达建筑物的一侧的太阳辐射可能较多地改变比率，并且依赖于特定的建筑物使假设的近似较不准确。现在可以定义v_N为：

/>

将这应用于以上示例给出了：

因此，可以使用最小流量阈值。

在步骤S77中，该过程更新性能近似器函数的权重w。该过程存储基向量b_t+1和状态动作值Q用于下一次迭代。

在步骤S78中，该过程执行动作a_t+1并返回至步骤S72。

应当理解，不同的实施例可以使用不同类型的自学习控制过程，例如，不同类型的备份函数和/或不同类型的时间差测量。

例如，当图5的过程的具体实施方式应用于混合回路时可以总结如下：

结果：在线

初始化：权重w、踪迹向量z，根据ε-贪婪π(.|s₀)

采取动作a′，计算特征状态

b＝b(s₀′a′)，Q_old＝0

参数：ε、α、γ、φ、σ

在本文中描述的实施例的感兴趣的方面包括由性能近似器函数对状态-动作空间的近似。为了确保稳定性，优选例如通过采用权重是线性的性能近似器函数保证收敛的方法。通过资格迹实现的多步方法已经显示出良好的性能。

以上和其他实施例采用依赖于流量的资格迹衰减。为了补偿流体输送系统的流量变量传输延迟，使用了流量变量踪迹衰减。通过这种补偿，较低的流量导致较慢的衰减，这又增加了收益在较大延迟下的影响。集中体积参数用于确定衰减率λ。可以通过分析供应与返回温度之间的相关性来找到集中体积，该供应与返回温度之间的相关性产生关于系统延迟性质的信息。在CCTA 2019第3届IEEE控制技术与应用会议中Overgaard、A.、NielsenB.K.,Kallesoe、C.S.、&Bendtsen和J.D.的在CCTA的《用于混合回路控制的具有流量变量资格迹的强化学习》(2019)(https://doi.org/10.1109/CCTA.2019.8920398)中描述了可以如何应用流量变量资格迹的示例。

在以上实施例中使用的奖励函数是用户舒适性和成本的加权和。用户舒适性可以由与建筑物中的舒适性相关的一个或多个变量来指示。用户舒适度的指标的示例包括由加热系统加热的建筑物中的不同区域的温度和/或湿度误差的平均值。成本可以是热功率和致动器能源消耗的成本的测量。奖励函数可以被构造成使得在可以是用户定义的倒退时段期间，舒适性测量值从奖励函数中移除并且由指定的温度下的软边界代替。该软边界温度确定了在倒退时段期间允许区域温度有多低。由于学习代理优化了随时间的奖励(收益)，因此其将学习如何根据热源的成本结构来以执行具有成本效益再加热的最佳倒退。

图6示意性地示出了用于为自学习控制过程选择输入信号的过程。进行输入信号的选择(也被称为状态选择)，使得学习代理的状态空间的维度被减小以提高训练速度。可以以多种方式完成降维，诸如主成分分析或修剪。

为了强化代理或另一自学习控制过程能够学习，它需要能够从状态和动作预测未来收益。这意味着状态应该掌握足够的信息，以使该过程能够对收益进行合理的预测。对于经由例如混合回路加热和冷却的建筑物，这依赖于安装了混合回路的特定建筑物。

一个建筑物可能具有大的窗户，在该大的窗户处，对太阳辐射的观察给出了自由加热的信息。另一建筑物可能绝缘不良且泄漏，其中，对风速的观测具有更多信息。可以说，如果所有可用的输入都被馈送到强化学习代理中，则如果需要的信息可用，则它将仍然收敛。然而，使用不掌握信息或甚至掌握冗余信息的输入变量将由于维数之害而降低算法的学习速率；尽管输入集合的维度线性地上升，但模型域的总体积指数地增加。在本公开中，发明人提出了数据驱动的状态选择，使得可以根据特定建筑物来选择它们，而不需要关于特定建筑物的专业知识。

为此，在这里将自动状态选择的问题处理为预测问题，在该预测问题中，该过程确定携带适于预测未来收益的信息的输入信号的集合。

在以上实施例中应用的强化学习方法使用动作-值函数，在该动作-值函数中，根据系统所处的状态和采取的动作来进行对预期收益的预测。动作空间包括可由控制过程控制的可控变量。例如，在混合回路的背景下，这包括泵速度和正向温度。

由于这些信息给出了关于对收益的预测的信息，因此可以在选择输入信号之前从预测目标中移除该信息。

本实施例和在本文中描述的其他实施例采用经由互信息的变量选择。该方法的感兴趣特征包括处理非线性相关的能力、是无模型的以及在整个输入经由滤波器移除的意义上是滤波器方法。可以在第1届IEEE控制技术与应用年会CCTA 2017vol.2017-一月，2017年，第1372至1377页中Overgaard、C.S.Kallesoe、J.D.Bendtsen和B.K.Nielsen的《用于混合回路中使用具有流量变量延迟的部分互信息估计返回温度的输入选择》中找到互信息的进一步细节。以上文章描述了将互信息应用于加热系统的返回温度的估计。在本公开中描述的方法的实施例将互信息标准应用于对用于控制流体输送系统的自学习控制过程的输入信号的选择。特别地，在本文中公开的方法的一些实施例中，应用互信息来确定输入信号是否具有关于未来收益或其他合适的性能测量的信息。

该过程可以以迭代的方式执行：在已找到第一输入信号之后，寻求在已给出第一输入信号之后给出最高互信息的第二输入信号，该第一信号包含收益的最高互信息。通过仅使用选择的输入信号对收益进行估计，然后从收益中减去估计，来除去已由第一输入信号给出的信息。为此，可以使用函数近似器基于观察的状态和性能测量来进行估计。这种函数近似器的一个例子包括神经网络[f(s_t:t+k,w)≈G_t:t+k]，其中，调整权重w以使预测器输出与观察的性能测量之间的绝对误差

最小化。同样，也仅使用选择的输入对输入信号进行估计，并将其从剩余的输入信号中减去，从而留下残差的集合。

具体参考图6，在步骤S51中，该过程加载训练数据集和验证数据集，特别是分别地在图4的步骤S1和S2中收集的训练数据集和验证数据集。每个数据集包含用于系统的输入信号x的完整集合。输入信号中的一个输入信号也是体积流量变量q_t和收益G_t。可以经由描述系统被控制得有多好的奖励来计算收益。

在步骤S52中，该过程从输入信号的集合x中选择要分析的输入信号xⁱ。一个循环贯穿集合中的所有输入信号。

在步骤S53至S55中，该过程计算输入信号的互信息。

特别地，在步骤S53中，该过程确定每个状态的体积常数v，该体积常数给出时间偏移为：

使得时间偏移使关于收益的互信息最大化。来自使用依赖于流量的时移延迟的改进是由于系统中的传输延迟。对于没有传输延迟的信号，最小偏移通常为零(通过体积常数v_min＝0给出)。对于给定信号，互信息值在体积恒定区间(v_min至v_max)上最大化。

在步骤S54中，该过程计算训练数据集中偏移信号向量xⁱ与收益G_t之间的互信息I。

可以定义两个变量之间的互信息为：

该过程可以计算互信息的近似。特别地，可以分别使用m数量的输入信号和收益的样本来计算互信息的离散近似，该离散近似基于输入信号和收益的边际概率密度函数和联合概率密度函数(marginal and joint probability density functions)的估计。

在步骤S55中，该过程检查是否已经找到产生最高互信息的v_min与v_max之间的v。如果是，则过程在步骤S56处继续；否则，该过程返回到步骤S53。

在步骤S56中，该过程更新排序的索引向量，以追踪，与其他已经研究的输入信号相比，选择的输入信号包含多少互信息。特别地，该过程将第i’个索引存储在根据最大互信息排序的向量中。

在步骤S57中，该过程确定是否已分析了所有输入信号。如果是，则该过程在步骤S58处继续；否则，该过程返回到步骤S52，即重复步骤S52至S57，直到已根据互信息水平对信号索引向量进行了排序，该互信息水平具有针对所有信号的对应的体积常数v。

在步骤S58中，该过程将具有目前最高互信息s的信号添加至信号向量s。

在步骤S59中，该过程使用来自验证数据集的s中的信号来计算收益G_t的估计。

在步骤S510中，该过程检查是否满足停止标准。如果不是，则该过程在步骤S511处继续并计算新训练数据集，该新训练数据集不包含来自添加的信号的信息。在步骤S511至S514中执行该计算，并且随后重复步骤S52至S57，直到获得了新数据集的排序的索引向量。

本方法以迭代方式使用部分互信息，即通过选择具有最大信息的输入变量，然后从预测目标中除去该信息，从而留下新残差预测目标来使用部分互信息。然后找到给出最多关于残差预测目标的信息的输入，以此类推直到停止或排序了所有输入变量。

为此，该过程可以在相应的时移延迟处，特别是导致针对相应的变量的最高互信息的时移延迟处，比较相应的输入变量的互信息。

特别地，在步骤S511中，该过程基于s生成估计的收益

并且基于s生成估计的状态向量/>

在步骤S512中，该过程通过从新状态向量中减去估计的状态向量来计算新状态向量：

在步骤S513中，该过程通过从先前的收益中减去估计的收益来计算新收益：

在步骤S514中，过程将G_t＝G_t,j+1和x_t＝x_t,j+1设置为新训练集，并返回到步骤S52。

如果满足步骤S510的停止标准，则该过程在步骤S55处继续并选择状态向量作为s。然后，完成状态选择过程。

要在步骤S510中应用的合适的停止标准的示例可以基于白噪声比较，即，关于具有目前最高互信息的信号是否比白噪声更能增加对收益的描述的确定。如果不是这种情况，则信号不包含关于收益的信息，并且可以停止状态选择。

另一种可能的停止标准可以基于RMSE(Root Mean Square Error，均方根误差)改进，即，基于，当添加具有目前最高互信息的信号时对于验证数据集中的收益G_t的估计的RMSE是否改进到特定水平以上的确定。如果不是这种情况，则可以终止该过程。

例如，当图6的过程的具体实施方式应用于混合回路时，可以总结如下：

结果：状态选择

初始化：加载所有输入

收益/>

和

流量

的训练数据，加载n个输入/>

收益

和流量/>

的有效数据。

参数：to/

虽然已在用于建筑物的加热系统的背景下主要描述了在本文中公开的各个方面的实施例，但是应当理解，在本文中描述的方法和系统的实施例也可以应用于其他类型的流体输送系统的控制。

例如，在本文中描述的方法和系统的实施例也可以应用于供水系统的控制。在供水系统的背景下，合适的输入信号的示例可以包括以下中的一个或多个：

-在各个泵站处测量的流量和压力，包括可控流量和/或压力和/或例如在非受控泵站处不能直接控制的流量/压力。

-各个罐或其他贮器中的水位。

-天气预报数据，例如，关于降水和/或温度。

-来自网络内的压力传感器的数据。

-来自在一个或多个消费者处测量水消耗的仪表的数据。

可由控制过程控制的控制变量可以包括供水系统的一个或多个泵站处的流量和/或压力。

类似地，在本文中描述的方法和系统的实施例也可以应用于废水系统的控制。在废水系统的背景下，合适的输入信号的示例可以包括以下中的一个或多个：

-基于重力的废水导管中和/或贮器中的水位。

天气预报数据，例如，关于降水。

关于水消耗的数据。

-来自废水源(例如，来自一个或多个大型工业废水源)的废水生产数据。

可由控制过程控制的控制变量可以包括废水系统的一个或多个泵站处的流量和/或压力和/或一个或多个泵站处的水平的设定点。

在本文中描述的方法的实施例可以借助于包括若干不同元件的硬件和/或至少部分地借助于适当编程的微处理器来实现。在列举了若干装置的装置权利要求中，这些装置中的若干装置可以由同一个元件、部件或硬件项目体现。在相互不同的从属权利要求中记载或在不同实施例中描述某些措施的仅有事实并不指示不能有利地使用这些措施的组合。

应该强调的是，当在本说明书中使用时，术语“包括/包含”用于指定所述特征、元件、步骤或部件的存在，但不排除存在或添加一个或多个其他特征、元件、步骤、部件或其组。

Claims

1.一种计算机实现的方法，用于通过应用自学习控制过程来控制流体输送系统的操作，所述方法包括：

-在第一时段期间的所述流体输送系统的操作期间，接收获得的多个输入信号的值，其中，在所述第一时段期间的所述流体输送系统的操作由预定控制过程控制，

-基于接收的所述获得的多个输入信号的值，自动地选择所述多个输入信号的子集，

-在第二时段期间的所述流体输送系统的操作期间，接收获得的至少选择的输入信号的子集的值，其中，通过应用所述自学习控制过程来控制在所述第二时段期间的所述流体输送系统的操作，其中，所述自学习控制过程被配置为仅基于所述选择的输入信号的子集来控制所述流体输送系统的操作，并且其中，应用所述自学习控制过程包括基于接收的获得的所述选择的输入信号的子集的值并且至少基于性能指标函数的近似来更新所述自学习控制过程。

2.根据权利要求1所述的计算机实现的方法，其中，所述预定控制过程是非自适应控制过程。

3.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述多个输入信号定义具有第一维数的输入空间；其中，所述选择的输入信号的子集定义具有减少的维数的减少的输入空间，所述减少的维数小于所述第一维数。

4.根据前述权利要求中任一项所述的计算机实现的方法，其中，自动地选择包括应用一个或多个信息理论选择标准。

5.根据权利要求4所述的计算机实现的方法，其中，所述一个或多个信息理论选择标准包括互信息标准，所述互信息标准基于所述多个输入信号中的各个输入信号与观察的性能测量之间的确定的互信息测量。

6.根据权利要求5所述的计算机实现的方法，其中，所述观察的性能测量包括在多个时间评估的至少一个观察的性能指标，可选地，实现性能指标值的依赖于时间的加权，特别是依赖于所述流体输送系统中的流体流的速率的依赖于时间的加权。

7.根据前述权利要求中任一项所述的计算机实现的方法，其中，自动地选择包括选择与时移延迟相关联的至少一个输入信号，特别是选择与依赖于所述流体输送系统中的流体流的流速的可变时移延迟相关联的至少一个输入信号。

8.根据前述权利要求中任一项所述的计算机实现的方法，包括，基于所述选择的输入信号的子集来配置所述自学习控制过程的初始版本；其中，配置所述自学习控制过程的初始版本包括基于在所述第一时段期间的接收的所述获得的多个输入信号的值并且基于在所述第一时段期间的所述流体输送系统的操作期间记录的性能指标值，预训练所述自学习控制过程的初始版本。

9.根据权利要求8所述的计算机实现的方法；其中，自动选择和所述自学习控制过程的初始版本的配置在过渡时段期间执行，所述过渡时段在所述第一时段之后并且在所述第二时段之前。

10.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述自学习控制过程实现基于奖励的学习代理。

11.根据权利要求10所述的计算机实现的方法，其中，所述基于奖励的学习代理是强化学习代理。

12.根据权利要求10或11所述的计算机实现的方法，其中，基于一个或多个观察的性能指标来更新所述自学习控制过程，所述一个或多个观察的性能指标是在时间范围期间观察的，特别是在依赖于流量的时间范围期间观察的。

13.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述自学习控制过程包括至少一个随机分量。

14.根据前述权利要求中任一项所述的计算机实现的方法，其中，基于所述性能指标函数的近似来更新所述自学习控制过程，其中，所述近似是性能近似器函数，所述性能近似器函数近似所述性能指标函数对所述选择的输入信号的子集和/或由所述自学习控制过程采取以控制所述流体输送系统的一个或多个控制动作的依赖性。

15.根据权利要求14所述的计算机实现的方法，其中，所述性能近似器函数由多个权重参数来参数化，并且其中，更新所述自学习控制过程包括更新所述多个权重参数中的一个或多个权重参数。

16.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述性能指标函数包括舒适性指标和/或成本指标。

17.根据前述权利要求中任一项所述的计算机实现的方法，还包括：

-基于接收的所述获得的多个输入信号的值，自动地选择所述多个输入信号的新子集，所述多个输入信号的新子集在所述第二时段期间被接收，

-在第三时段期间的所述流体输送系统的操作期间，接收获得的至少选择的输入信号的新子集的值，其中，通过应用适于所述选择的输入信号的新子集的新自学习控制过程来控制在所述第三时段期间的所述流体输送系统的操作，其中，所述新自学习过程被配置为仅基于所述选择的输入信号的新子集来控制所述流体输送系统的操作，并且其中，应用所述新自学控制过程包括基于接收的获得的所述选择的输入信号的新子集的值并且至少基于所述性能指标函数的近似来更新所述新自学控制过程。

18.一种用于控制流体输送系统的控制系统，其中，所述控制系统被配置为执行根据前述权利要求中任一项所述的计算机实现的方法的步骤。

19.根据权利要求18所述的控制系统，包括控制单元，所述控制单元通信地耦合至所述流体输送系统的一个或多个可控部件；其中，所述控制单元被配置为在所述流体输送系统的操作期间接收获得的至少选择的输入信号的子集的值，并且通过应用所述预定控制过程或通过应用所述自学习控制过程来选择性地控制所述流体输送系统的操作。

20.根据权利要求18或19所述的控制系统，包括数据处理系统，所述数据处理系统被配置为在所述第一时段期间的所述流体输送系统的操作期间接收所述获得的多个输入信号的值，并且基于接收的所述获得的多个输入信号的值自动地选择所述多个输入信号的子集。

21.根据权利要求20所述的控制系统，其中，所述数据处理系统是远离所述控制单元定位的远程数据处理系统，特别是云服务。

22.根据权利要求20或21所述的控制系统，其中，所述数据处理系统还被配置为基于所述选择的输入信号的子集来配置所述自学习控制过程的初始版本；其中，配置所述自学习控制过程的初始版本包括，基于在所述第一时段期间的所述流体输送系统的操作期间接收的所述获得的多个输入信号的值并且基于在所述第一时段期间的所述流体输送系统的操作期间记录的性能指标值，训练所述自学习控制过程的初始版本。