CN117836728A

CN117836728A - 复杂动态系统的基于显式规则的控制

Info

Publication number: CN117836728A
Application number: CN202180101500.2A
Authority: CN
Inventors: 迪克·哈特曼; 阿米特·潘迪; 苏阿特·古穆索伊; 乌尔里赫·明茨
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2024-04-05
Also published as: EP4370980A1; WO2023022712A1

Abstract

一种用于配置动态系统的控制器的方法包括：获得由多个所存储的控制点形成的控制数据流形，每个控制点表示指定动态系统的状态的状态信号和分配的控制信号。每个状态信号被映射到多维状态空间。所分配的控制信号由第一控制算法根据状态信号产生。该方法包括：通过标识控制数据流形上属于公共局部近似函数的控制点来检测控制数据流形上的区块，以及训练分类器以将控制点分类成不同的区块。该方法还包括：针对每个检测到的区块训练相应的回归模型以用于近似该区块中的状态信号和控制信号之间的关系，来创建基于显式规则的控制算法。

Description

复杂动态系统的基于显式规则的控制

技术领域

本公开总体上涉及用于控制复杂动态系统的控制器，并且具体地涉及一种用于针对动态系统产生基于显式规则的控制的技术。

背景技术

为了控制复杂的系统(诸如电网、建筑系统、工厂、机动车辆、工厂机器人等)，复杂的控制是必要的。虽然可以合成用于控制这种复杂系统(诸如模型预测控制(MPC))的精妙控制，但是它们的实现通常受限于硬件限制。

利用MPC控制器，取决于输入变量，模拟要控制的系统的未来行为，以便确定优化系统行为的输出信号(控制动作)，通常具有限定的约束。MPC在数学意义上产生最优解。然而，这种控制需要在线求解数学程序以计算控制动作。线性MPC控制器是工业上目前最先进的控制器。考虑到具有许多约束或甚至离散变量/决策的高度非线性问题，MPC的实现可能相当具有挑战性。MPC需要很高的计算工作量，并且数学挑战与相应的非线性优化技术有关，例如，不保证收敛。

解决上述挑战的已知方法涉及显式模型预测控制(显式MPC)。通过针对感兴趣的操作条件的给定范围离线地求解优化问题并且利用多参数编程技术，显式MPC将最优控制动作离线地计算为状态和参考向量的“显式”函数，使得在线操作简化为简单的函数评估。然而，这些显式函数的“大小”随着系统状态和约束的数目而急剧增加，使得它们对于大型复杂的系统可能变得难以计算。

可替换地或附加地，可以在模拟的基础上训练数据驱动的机器学习模型，然后该模型补充或替换在线MPC计算。然而，由诸如神经网络之类的所训练的机器学习模型传达的控制特性，对于诸如技术员之类的用户或用于负责认证控制器的机构等而言，通常难以在分析上理解或解释。此外，为了使神经网络精确地仿真MPC解决方案，可能需要大量的隐藏节点，这可能需要更大的计算资源。

发明内容

简而言之，本公开的各方面提供了一种用于针对动态系统生成基于显式规则的控制的技术，该技术解决了上述技术问题中的至少一些问题。

本发明的第一方面提供了一种用于配置动态系统的控制器的方法。方法包括读取多个状态信号，每个状态信号指定动态系统的状态并被映射到多维状态空间。方法进一步包括使用第一控制算法针对每个状态信号确定分配给该状态信号的控制信号。每个状态信号和所分配的控制信号表示关于动态系统的控制数据流形(manifold)中的相应的控制点。方法进一步包括通过标识控制数据流形上属于公共局部近似函数的控制点来检测控制数据流形上的区块(patch)。方法进一步包括训练分类器以将控制点分类为所检测到的区块之中的不同区块。方法进一步包括针对每个检测到的区块训练相应的回归模型，用于近似该区块中的状态信号和控制信号之间的关系。使用所训练的分类器和回归模型来创建基于显式规则的控制算法，控制算法被配置为通过根据所测量的状态信号标识活动区块并针对所标识的活动区块评估相应的回归模型来将从动态系统获得的所测量的状态信号转换成控制动作。

本公开的第二方面提供了用于控制动态系统的方法。方法包括根据上述方法创建基于显式规则的控制算法。方法进一步包括通过以下方式使用基于显式规则的控制算法来控制动态系统：从动态系统接收所测量的状态信号，根据所测量的状态信号的函数标识活动区块，以及通过评估所标识的活动区块的相应的回归模型，根据所测量的状态信号执行控制动作。

本公开的其他方面在控制器和计算机程序产品中实现上述方法的特征。

通过本公开的技术可以实现附加技术特征和益处。本公开的实施方案和方面在本文中详细描述并且被认为是所要求保护的主题的一部分。为了更好地理解，参考具体实施方式和附图。

附图说明

当结合附图阅读时，从下面的详细描述中可以最好地理解本公开的上述和其他方面。为了容易地标识对任何元素或动作的讨论，参考数字中的最显著数字(多个数字)是指元素或动作首先被引入其中的图号。

图1是说明用于创建基于显式规则的控制算法的平台的示例实施方案的示意图，该算法可由控制器使用来控制动态系统。

图2说明了由具有受限输入的二阶线性系统的模型预测控制产生的控制数据流形的代表性可视化。

图3说明了图2所示的控制数据流形上的近似超平面的可视化。

图4说明了用于使用根据所公开的实施方案创建的基于显式规则的控制算法来控制动态系统的控制器。

图5说明了用于使用支持向量机基于测量的状态信号通过基于显式规则的控制算法来确定控制动作的方法的示例实施方案。

图6A、图6B和图6C描绘了与利用所公开的实施方案来提供来自电网的电力的最优经济调度的说明性用例相关的操作参数。

图7描绘了由模型预测控制算法产生的用于说明性用例的控制信号，其中预测层位(horizon)m＝2。

图8描绘了用于说明性用例的具有近似超平面的控制数据流形的可视化。

具体实施方式

现在将参考附图描述关于系统和方法的各种技术，其中相同的附图标记始终表示相同的元件。以下讨论的附图和用于描述本专利文献中的本公开的原理的各种实施方案仅作为说明，而不应当以任何方式解释为限制本公开的范围。本领域技术人员将理解，本公开的原理可以在任何适当布置的装置中实现。应当理解，被描述为由某些系统元件进行的功能可以由多个元件执行。类似地，例如，元件可以被配置为执行被描述为由多个元件进行的功能。将参考示例性的非限制性实施方案来描述本申请的许多创新教导。

可以认识到，许多现代控制算法可以被合成以在模拟环境中工作良好，但是由于控制器硬件的限制和局限，在控制器上实现复杂动态系统的在线控制存在挑战。所公开的方法可用于从高级控制算法中提取规则，高级控制算法可在诸如可编程逻辑控制器(PLC)或另一类型的计算设备的现有控制器中实现。此外，由于其明确的特性，所得到的控制算法是透明的和易于解释的，允许诸如技术人员或官方机构的人员更好地理解控制器输入和输出之间的关系。

如上所述，在传统显式MPC的情况下，显式函数的“大小”随着系统状态和约束的数目而急剧增加，使得它们对于大型复杂的系统可能变得难以计算。此外，通常将输入状态空间减小到较低维度是不可行的。所公开的方法提供了一种解决方案，其可以通过实现用于标识控制数据流形中的区块(诸如超平面)并根据区块对控制数据点进行分组的技术来扩放到高维系统状态。然后通过训练每个区块的回归模型来提取控制规则，以创建基于显式规则的控制算法。当在用于在线控制的控制器硬件上部署时，基于显式规则的控制算法可以使用简单的指示符函数来根据测量的输入状态信号的函数标识活动区块，并且评估相应的回归量以确定控制动作。

因此，所公开的方法可提供一种有效的机制，通过该机制，硬件控制器可应用控制规则并确定高维系统状态的控制动作，而无需MPC、神经网络或其它高级控制算法的严格计算要求。通过将区块封装在控制数据流形和回归模型中的指示符函数，本文描述的技术可以提供一种计算上精致的方法来评估复杂系统状态的控制动作，同时保持所生成的控制动作的必需的准确性和有效性。

所公开的方法不依赖于要提取规则的控制算法的类型或者要执行所得到的基于显式规则的控制算法的控制器硬件的类型。本文描述的实施方案适当地解决了基于模型预测控制(MPC)生成显式控制规则的问题，该模型预测控制含有复杂的优化问题，而复杂的优化问题可能给老旧或电力不足的现场控制器带来相当大的计算负担。然而，应当理解，基础技术不限于MPC或任何特定类型的控制算法。

现在参考附图，图1说明了根据本公开的示例实施方案的控制规则生成平台100。平台100包含可以在离线阶段执行以创建基于显式规则的控制算法118的计算模块。所得到的基于显式规则的控制算法118可以用于动态系统(参见图4)的在线控制，其方式可以模拟高级控制算法106(诸如MPC算法)，而不必在线解决计算要求高的优化问题。为此，平台100可以相对于动态系统的控制器在远程计算环境中实现，其中平台随后被部署。在一个实施方案中，平台100可以在云计算环境中实现，其可以允许在离线阶段使用几乎无限的计算资源。要控制的动态系统可以包含例如电网、建筑系统、生产或加工厂、机动车辆、工厂机器人或任何其它物理系统，其中系统状态根据由控制器产生的控制动作随时间变化。

平台100包括用以模拟动态系统或其一个或多个部件的模拟器102。模拟器102用作使用与控制算法106交互的动态系统的模拟模型104来模拟地生成大量状态信号X和用于每个状态信号X的控制信号U。每个状态信号X可以指定动态系统的离散状态。在所示实施方案中，从模拟模型104读取状态信号。对于每个状态信号X，由控制算法106生成控制信号U并将其分配给相应的状态信号X。控制信号U可以根据状态信号X来确定，使得当其被施加时优化动态系统的行为，如由模拟模型104所模拟的。在一些实施方案中，模拟模型104可包含高保真度的基于物理学的模型，其可以是动态系统的数字孪生(digital twin)的一部分。

状态信号X可以包括例如物理的、化学的、设计相关的操作参数、特性数据、性能数据、环境数据、监视数据、预测数据、分析数据和/或在动态系统的操作中出现的和/或描述动态系统的操作状态的其它数据。例如，如果动态系统包含车辆，则状态信号X可以包括定位数据、速度、温度、压力、旋转速度、排放、振动、燃料消耗等。控制信号U可以基于由控制算法106求解优化问题来确定，以优化动态系统的行为。优化问题可以包括最小化例如与能量/电力消耗、磨损、距离、时间、价格等相关联的成本函数。

状态信号X可以表示为映射到多维状态空间的数字数据向量。控制信号U还可以表示为映射到多维控制动作空间的数字数据向量，或者可以表示为标量值(一维控制动作空间)。在一个实施方案中，状态信号X和控制信号U表示时间序列数据，其中，对于每个时间步长，由控制算法106基于针对时间步长的更新的状态信号X生成相应的控制信号U。然后，由控制信号U产生的动作引起的状态信号X被更新用于下一时间步长。关于状态信号X和控制信号U的时间序列数据优选地针对动态系统的各种初始状态和操作场景而生成。可以从数据库108获得初始状态和操作场景。

为此，模拟模型104可以针对各种操作场景来模拟动态系统的行为。后者可以包括在动态系统操作期间可能出现的各种操作条件和/或操作状态。这样的操作场景可以从动态系统的操作数据和/或从数据库108中提取。在一个实施方案中，动态系统的各种操作场景和初始状态可以由模拟器102的场景生成器(未示出)生成。场景生成器可以在动态系统的操作中生成可能发生的状态信号、记录、时间序列、外部影响、操作事件和/或要满足的约束。为了改变所生成的操作场景，场景生成也可以是随机的。操作场景的生成可以基于动态系统的基本数据或模型数据，其可以被存储在数据库108中并被馈送到场景生成器中以用于生成操作场景。

在实施方案中，控制算法106是MPC算法。MPC算法106通常针对每个状态信号X生成控制信号的多个变量。动态系统的行为是针对控制信号在规定数量的时间步长(称为预测层位(prediction horizon))上的每个变量来模拟的。基于所模拟的行为，可以选择这些变量中的一个并将其分配作为针对给定状态信号X的控制信号U，该控制信号导致动态系统的优化行为，可能伴随指定约束。例如，提供动态系统的优化行为的变量可以被确定为在多个变量之中产生成本函数受约束的最低值的变量。所分配的控制信号U被应用于单个时间步长，在单个时间步长之后，利用由在前一时间步长确定的所分配的控制信号U引起的更新状态信号X，在向后(receding)预测层位上再次求解上述优化。

作为替换示例，控制算法106可包含基于神经网络的策略。可以例如基于强化学习(RL)或任何其他方法来训练策略，以将状态信号映射到所分配的控制信号。

在各种实施方案中，作为图1所说明的模拟信号生成的替代，状态信号X和控制信号U可以通过执行大量实验来获得(例如，通过实际测量)，实验涉及执行控制算法的现场控制器和动态系统之间的区域性交互。该方法在涉及现有控制器的场景中可能是有用的，对于该现有控制器，不存在对底层控制器代码(例如，含有基于神经网络的策略的控制器代码)的访问。在这种情况下，所公开的方法可用于从底层控制器代码/控制算法中提取规则，以使更可以对相关人员解释。所提取的规则还可以允许将控制器概括并且容易地从一个动态系统移植到另一个(类似的)动态系统。在其它实施方案中，模拟信号生成和实字信号测量可以彼此组合或扩充。

将状态信号X和分配的控制信号U读取到含有控制数据110的存储介质中。控制数据110包含大量控制点(X，U)，每个控制点由状态信号X和分配给该状态信号的控制信号U限定。取决于状态空间(输入空间)和控制动作空间(输出空间)的维数，在具有高维数的控制数据空间中表示控制点。实际上，控制点位于嵌入在较高维控制数据空间中的较低维流形上。这种流形在此称为控制数据流形。对于标量输出，控制数据流形可以具有输入空间的维数。

出于简单直观说明的目的，图2示出了由具有受限输入的二阶线性系统的MPC产生的代表性控制数据流形200。如图所示，输入空间被映射到由状态参数X1和X2表示的二维，而输出空间被映射到由单个控制参数U表示的一维。控制点位于嵌入在三维控制数据空间中的二维控制数据流形200上。

再次参考图1，平台100包括被称为区块检测器的计算模块112，用于检测控制数据流形上的区块。这里限定的术语“区块(patch)”是指由最适合控制数据流形区域的局部近似函数限定的原子元素。因此，区块具有与控制数据流形相同的维数。局部近似函数可以包括例如线性、二次或更高的多项式函数。由线性局部近似函数限定的区块被称为超平面。

在区块检测器112中，通过标识属于公共局部近似函数的控制数据流形上的控制点，以无监督的方式检测区块。根据示例性算法，区块检测器112对控制数据流形中的控制点Q进行采样，并确定每个采样的控制点Q的邻域中的k个最接近的控制点的集合Z。接下来，区块检测器112确定描述控制数据流形中的区域(区块)的局部近似函数的等式E，控制数据流形包含控制点Q和k个邻域控制点(i)的集合Z，即，等式拟合(Q+Z)。如果等式E与所存储的另一个区块的局部近似函数的等式相同或相似，则针对与Q+Z相关联的局部近似函数分配现有的区块标签；如果不是，则针对与Q+Z相关联的局部近似函数分配新的区块标签。在示例性实施方案中，通过将等式E的拟合误差与相应的存储的局部近似函数的拟合误差进行比较，可以确定等式E与任何存储的局部近似函数的“相似性”。如果存在所存储的局部近似函数，其拟合误差接近等式E的拟合误差(例如，在所限定的阈值内)，则将所存储的局部近似函数的区块标签分配给等式E；否则创建新的区块标签。在对控制数据流形中的控制点进行采样之后，检测一组n个区块标签，并且每个区块可以由唯一的局部近似函数来表示。

在线性系统的情况下，例如在图2所示的示例中，在控制数据流形上检测到的区块包含超平面。在这种情况下，在上述区块检测器算法中使用的等式E包含线性等式，其系数可以被确定为适合与每个采样控制点相关联的控制点的邻域上的超平面。

图3说明了在图2所示的控制数据流形200上近似的超平面的可视化。在这种情况下，例如，如上所述，在无监督过程中，通过对属于公共局部近似函数的控制点进行分组，区块检测器算法已经检测到超平面H₁、H₂和H₃。超平面H₁指示线性约束控制，而超平面H₂和H₃指示控制算法106的饱和效应。

在所示的可视化中，由于控制数据流形200是二维的，线性区块H₁、H₂和H₃也属于相应的二维平面。为了概括，对于任何更高阶的线性系统，控制数据流形具有P维(其中P≥2)，并且可以由嵌入在更高维(>P)控制数据空间中的多个P维超平面形成。因此，图2和3所示的示例可以说是具有嵌入在三维控制数据空间中的二维超平面。

因此，在没有控制器行为的先验知识的情况下，区块检测器算法能够标识控制表面上的区域。因此，除了近似控制规则之外，上述区块检测器算法可以被扩展以标识包含控制器的不同功能元件(诸如饱和元件、LQR控制器表面、PID控制器表面)，而不需要控制器的任何现有知识。

对于一些控制器，控制点可以限定一个或多个含有尖锐边缘的区域，这可能潜在地导致沿着这些边缘将控制点误标识为适当的超平面的错误。在这种情况下，假设包含尖锐边缘的区域在测量上比区块/超平面小仍然是合理的。上述技术问题的第一解决方案涉及首先将控制点分类为超平面(使用如下所述的控制点分类器114)，并随后将错误标识的尖锐边缘映射到超平面中的一个超平面。第二种可能的解决方案可以涉及标识局部拟合中的突变并细化邻域点。在基于强化学习(RL)的控制器的情况下，控制数据中的尖锐边缘是特别典型的。对于这样的控制器，RL训练可以被修改为包括更小的步长或远离尖锐边缘。

在一些线性控制中，可以通过活动的不同约束集来区分超平面。在这样的示例中，如果存在关于约束的先验知识，则可以通过评估约束函数来向超平面分配分类标签。然而，所公开的方法不一定依赖于约束的先验知识。

对于复杂的非线性系统，控制数据流形可以包含一个或多个非线性区域。在这种情况下，可以根据下述方法之一来配置区块检测器112。在第一种方法中，区块检测器112可以拟合多个超平面以近似流形上的非线性区域。在一个实施方案中，区块检测器112可以与指定最大数量的与控制规则所近似的超平面一起工作。在第二种方法中，区块检测器112可以用单个非线性区块或多个非线性区块拟合非线性区域，每个区块由二次或更高阶多项式局部近似函数限定。可以采用这种技术来减少或优化用来近似控制数据流形的非线性区域的区块的数量和/或减少流形上的控制点与局部近似函数之间的误差。区块检测器112不需要依赖于关于控制器线性的先验知识，并且可以基于确定每个超平面的变化率并将区域内的变化率相关以拟合线性或多项式局部近似函数来适当地确定局部近似函数。

仍然参考图1，平台100包括用于训练控制点分类器的计算模块114，控制点分类器用于将控制点分类成与检测到的区块中不同的区块。控制点分类器可以在监督过程中使用由区块检测器112创建的区块标签来训练。在一个实施方案中，控制点分类器可以包含用以将控制点分类为不同的区块的支持向量机(SVM)。SVM特别适合于本申请，因为其简单且易于理解和解释。提供易解释性的分类器的另一个合适的实施方案可以包括决策树。在各种实施方案中，可以使用其它数学和/或机器学习模型来将控制点分类为区块。

对于使用SVM的多类分类，在将多类分类问题分解成多个二进制分类问题之后，可以利用二进制分类原理。在所公开的实施方案中，训练的SVM的数量等于在控制数据流形中检测到的区块的数量(n)。这里，每个SVM被训练以执行给定区块和其它区块之间的二进制分类(一对所有(one-versus-all))。在训练之后，为每个区块分配SVM指示符函数，SVM指示符函数可被评估以确定控制点是否属于该区块。对于超平面分类问题，SVM指示符函数采取线性等式的形式(见图5)。总共n个SVM指示符函数F₁、F₂…F_n由此产生。可以评估SVM指示符功能，以在在线操作期间将测量的状态信号分类为活动区块。

继续参考图1，平台100包括计算模块116，用于针对每个检测到的区块训练相应的回归模型(回归量)，用于近似该区块中的状态信号和控制信号之间的关系。总共n个回归量R₁、R₂…R_n被训练，每个回归量对应于相应的区块。在实施方案中，取决于区块，相关联的回归量可以包含线性回归模型或多项式回归模型。在这里所说明的示例中(参见图3)，每个超平面H₁、H₂、H₃可以与相应的训练线性回归模型R₁、R₂、R₃相关联。在该示例中的每个回归模型指定了相应超平面的输入变量(状态参数X1、X2)和输出变量(控制参数U)之间的显式线性关系，其可以容易地在线求解和容易地解释。在一些实施方案中，可通过组合离散规则元素(例如，诸如‘+’、‘*’、EXP…的数学运算符)并执行符号回归以确定最适合区块的表达式来训练回归量中的一个或多个。

所训练的控制点分类器(在这种情况下，由SVM指示符函数F₁、F₂…F_n限定)以及回归模型R₁、R₂…R_n用于创建基于显式规则的控制算法118。基于显式规则的控制算法118可以包含在计算机程序中，计算机程序可以被传送到用于控制动态系统的控制器的存储器。在实施方案中，传送可以从诸如经由因特网的远程位置或通过诸如闪存驱动器的物理存储器以电学的方式进行。或者，基于显式规则的控制算法118的设置可以直接在用于控制动态系统的控制器的硬件上实现。

图4说明了用于通过执行根据所公开的实施方案之一创建的基于显式规则的控制算法118来控制动态系统402的控制器404。控制器404可以包括PLC、工业PC、边缘设备或包括一个或多个处理器408的其它计算设备，以及存储并入基于显式规则的控制算法118的计算机程序的存储器410。控制器404可以实现为动态系统402的一部分(诸如嵌入在车辆或机器人中的控制器)，或者可以实现为动态系统402的一部分或全都在其外部。在附图中，为了清楚起见，控制器404被示为在动态系统402的外部。

动态系统402包括至少一个传感器406，传感器连续地测量动态系统402的一个或多个操作状态，并以测量的状态信号X_a的形式输出它们。测量的状态信号X_a可以各自表示为映射到多维状态空间的数字数据向量。在实施方案中，测量的状态信号X_a按时间编码，表示时间序列数据。测量的状态信号X_a被传送到控制器404。基于在每个时间步长测量的状态信号X_a，控制器404确定控制动作U_a，以通过执行基于显式规则的控制算法118来优化动态系统402的行为。控制作用U_a通过根据测量状态信号X_a的函数标识活动区块并评估用于标识的活动区块的相应的回归模型来确定。

继续描述线性系统的实施方案，图5说明了用于基于测量的状态信号X_a通过基于显式规则的控制算法118来确定控制动作U_a的示例性方法500。如上所述，在所描述的实施方案中，生成n个SVM，每个SVM与相应的超平面相关联，对于相应的超平面，相应的SVM指示符函数F₁、F₂…F_n以基于显式规则的控制算法118编码。

参考图5，在每个时间步长，方法500涉及使用测量的状态信号X_a,评估各个超平面的SVM指示符函数F₁、F₂…F_n，如框502a，502b…502n所示。当相应的SVM指示符函数F_i产生值1时，检测到活动超平面。产生值0的所有其它SVM指示符函数指示不活动的超平面。在确定了活动超平面之后，接下来在框504处，使用相同的测量状态信号X_a来评估活动超平面的相应回归量R_i，以产生控制动作U_a。

如上所述，通过用多个超平面拟合非线性区域或使用多项式局部近似函数和回归量，可以类似地对非线性系统实现所描述的评估SVM指示符函数以标识活动区块和评估与活动区块相关联的回归量以确定控制动作的方法。

再次参考图4，使用基于显式规则的控制算法118，控制器404以模拟图1中描述的控制算法106的方式将状态信号X_a转换成控制动作U_a。控制动作U_a引起动态系统402的系统状态的改变，其反映在下一个时间步长中传送到控制器404的测量状态信号X_a中，对于该状态信号，可以如上所述确定随后的控制动作U_a。由此建立控制器404对动态系统402的时间控制，以在每个时间步长优化动态系统402的未来行为。由于算法118是简单的并且基于显式规则(使用指示符函数和回归量的组合)，所以它不是计算密集的，并且控制器404可以基于高维系统状态来评估控制动作，而不必在运行中解决复杂的优化问题。

现在描述说明性用例，其中所公开的实施方案可以用于提供来自电网的电力的最佳经济调度。虽然说明性用例是简单的，但是基本原则可以应用于具有高维系统状态和大量约束的复杂系统。

所述用例中的动态系统包括电池，电池可通过光伏(PV)板充电并且可放电以向建筑物提供电力，建筑物还从电网接收电力。控制器的任务是控制电池的充电或放电，以最小化从电网交易电力的价格。动态系统的随时间变化的操作状态包括：(i)建筑物功耗或负载L_i，其在图6A中描绘(基于限定的使用模式)，(ii)由PV板产生的电力S_i，其在图6B中描绘(通常匹配太阳能)，以及(iii)电价p_i(每单位电力)，其在图6C中描绘。

在这种用例下的优化问题可以被公式化为由以下给出的线性成本函数的最小化：

最小化

受制于约束：0≤Bi≤100；|ΔB_i|≤d；

其中m是控制器的预测层位，B_i是电池的充电状态，并且d是在单个时间步长中允许的最大充电或放电量。

MPC算法可用于在每个时间步长求解上述优化(等式1)并且应用第一控制步骤，然后以向后层位重新求解。图7中表示了对于m＝2由MPC生成的控制动作，其中，在每个时间步长，MPC算法确定动作，该动作可以是(i)：对电池充电(即，建筑物使用来自电网的电力)；或(ii)电池(i)放电(即建筑物使用自身资源而没有来自电网的电力)；或(iii)不改变充电状态(即，建筑物使用来自电网的电力)；目的是最小化从电网交易的电的价格。

对于预测层位m＝2，可以认识到，可以基于以下状态参数来单独确定每个时间步长的控制动作U：X1-该时间步长的电价变化；和X2-电池充电状态。由此，类似于图2和3中所示的代表性示例，本用例减少了具有受限输入的二阶线性系统的MPC问题。

图8示出了通过对用于当前用例的大量状态信号和控制信号进行采样而形成的控制数据流形800，例如，通过模拟地生成这些信号(如图1所述)和/或通过执行现场实验。从控制数据流形，上述方法可用于检测超平面802、804、806，将控制点分类为超平面并训练每个检测到的超平面的线性回归模型，以创建基于显式规则的算法，该算法可在当前用例下部署在控制器中以模拟MPC解决方案。

上述用例仅仅是说明性的，并且存在所公开的方法的若干其它应用。作为非限制性示例，所公开的方法可用于建筑物控制器(例如，使房间加热/冷却以适应天气和使用)、汽车控制器(例如为给定的速度覆道提供能量最优预测电力控制)、过程控制器(例如，控制高动态反应)、工厂机器人控制器中(例如，提供能量和磨损优化的机器人路径)，以及其他应用。

本公开的实施方案可以用硬件和软件的任何组合来实现。此外，本公开的实施方案可以包括在具有例如非瞬态计算机可读存储介质的制品(例如，一个或多个计算机程序产品)中。计算机可读存储介质中包含例如用于提供和促进本公开的实施方案的机制的计算机可读程序指令。该制品可作为计算机系统的一部分包括在内或单独出售。

计算机可读存储介质可以包括有形设备，有形设备可以保留和存储供指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。这里描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。

附图的系统和过程不是排他性的。可以根据本公开的原理导出其他系统、过程和菜单以实现相同的目的。尽管已经参照特定实施方案描述了本公开，但是应当理解，这里示出和描述的实施方案和变型仅用于说明目的。在不脱离本公开的范围的情况下，本领域技术人员可以实现对当前设计的修改。

Claims

1.一种用于配置动态系统的控制器的方法，包括：

读取多个状态信号，每个状态信号指定所述动态系统的状态并被映射到多维状态空间，

使用第一控制算法针对每个状态信号确定分配给此状态信号的控制信号，其中，每个状态信号和所分配的控制信号表示关于所述动态系统的控制数据流形中的相应的控制点，

通过标识所述控制数据流形上属于公共局部近似函数的控制点来检测所述控制数据流形上的区块，

训练分类器以将控制点分类为来自所检测的区块之中的不同区块，

针对每个检测到的区块训练相应的回归模型，以近似此区块中的所述状态信号和所述控制信号之间的关系，以及

使用所训练的分类器和回归模型来创建基于显式规则的控制算法，所述控制算法被配置为通过根据所测量的状态信号标识活动区块并针对所标识的活动区块评估相应的回归模型来将从所述动态系统获得的所测量的状态信号转换成控制动作。

2.根据权利要求1所述的方法，其中，所述状态信号和所述控制信号表示时间序列数据，其中，对于每个时间步长，由所述第一控制算法基于针对此时间步长的更新的状态信号来生成相应的控制信号，并且其中，针对所述动态系统的各种初始状态和场景参数来生成关于状态信号和所述控制信号的时间序列数据。

3.根据权利要求1和2中任一项所述的方法，包括基于所述第一控制算法与所述动态系统的模拟模型的交互来模拟地生成状态信号和所述控制信号。

4.根据权利要求3所述的方法，其中，所述第一控制算法包括模型预测控制(MPC)算法，其中，所述方法包括：

从所述模拟模型读取状态信号，

使用所述MPC算法针对每个状态信号确定控制信号的多个变量，

使用所述模拟模型来针对所述控制信号的变量中的每一个在所限定的预测层位上模拟所述动态系统的行为，以及

将一个所述控制信号的变量分配给相应的状态信号，所述相应的状态信号导致所述动态系统的优化行为。

5.根据权利要求1至3中任一项所述的方法，其中，所述第一控制算法包括基于策略的神经网络，所述策略被训练为将状态信号映射到所分配的控制信号。

6.根据权利要求1至5中任一项所述的方法，包括通过执行多个实验来生成状态信号和所述控制信号，所述多个实验涉及执行所述第一控制算法的现场控制器与所述动态系统的交互。

7.根据权利要求1至6中任一项所述的方法，其中，检测所述控制数据流形上的区块包括以下无监督过程：

对所述控制数据流形中的控制点进行采样，

针对每个所采样的控制点，确定描述由与此所采样的控制点相关联的控制点的邻域形成的区块的局部近似函数，以及

基于与所存储的表示其它区块的局部近似函数的相似性，用现有的区块标签或新的区块标签来标记所确定的局部近似函数。

8.根据权利要求1至7中任一项所述的方法，其中，每个区块包括嵌入有所述控制数据流形的空间中的超平面。

9.根据权利要求8所述的方法，其中，相应的回归模型各自包括线性回归模型。

10.根据权利要求8至9中任一项所述的方法，其中，所述控制数据流形包括非线性区域：

其中，检测所述控制数据流形上的区块包括在所述非线性区域上拟合多个超平面。

11.根据权利要求1至7中任一项所述的方法，其中，所述控制数据流形包括非线性区域，

其中，检测所述控制数据流形上的区块包括用由多项式局部近似函数限定的一个或多个区块来拟合所述非线性区域。

12.根据权利要求11所述的方法，其中，针对所述一个或多个区块训练的所述回归模型包括相应的多项式回归模型。

13.根据权利要求1至12中任一项所述的方法，包括针对每个区块训练对应的支持向量机(SVM)，以将控制点分类成不同的区块，其中，所述活动区块能够通过使用所测量的状态信号标识，以评估与各个区块相关联的SVM指示符函数。

14.根据权利要求1至13中的任一项所述的方法，其中，所述基于显式规则的控制算法是在相对于所述动态系统的控制器的远程计算环境中创建的，其中，将随后部署所述基于显式规则的控制算法。

15.一种包括指令的非暂时性计算机可读存储介质，所述指令在由计算设备处理时，将所述计算设备配置为执行根据权利要求1至14中任一项所述的方法。

16.一种用于动态系统的控制器，包括：

处理器；以及

存储器，存储并入基于显式规则的控制算法的计算机程序，所述基于显式规则的控制算法在由所述处理器执行时将所述控制器配置为：

从所述动态系统接收所测量的状态信号，

使用所训练的控制点分类器，根据所测量的状态信号标识关于所述动态系统的控制数据流形上的多个区块中的活动区块，

所述控制数据流形由多个所存储的控制点形成，每个控制点表示指定所述动态系统的状态的状态信号和分配给此状态信号的控制信号，每个状态信号被映射到多维状态空间，每个区块由所述控制数据流形上属于公共局部近似函数的所述控制点限定，以及

通过评估与所标识的区块相关联的所训练的回归模型，根据所测量的状态信号执行控制动作，所述回归模型被训练为近似所标识的区块中的所述状态信号与所述控制信号之间的关系。

17.一种用于控制动态系统的方法，包括：

通过以下方式创建基于显式规则的控制算法：

针对每个检测到的区块训练相应的回归模型，以近似此区块中的所述状态信号和所述控制信号之间的关系，以及使用所述基于显式规则的控制算法通过以下各项来控制所述动态系统：

从所述动态系统接收所测量的状态信号，

根据所测量的状态信号标识活动区块，以及

通过评估针对所标识的活动区块的相应的回归模型，根据所测量的状态信号执行控制动作。

18.根据权利要求17所述的方法，其中，针对每个区块训练相应的支持向量机(SVM)，以将控制点分类为不同的区块，所述方法包括通过使用所测量的状态信号来标识所述活动区块，以评估与各个区块相关联的SVM指示符。

19.根据权利要求17和18中任一项所述的方法，包括在离线过程中创建所述基于显式规则的控制算法，并且随后将所述基于显式规则的控制算法传送到控制器的存储器，以控制所述动态系统。

20.根据权利要求19所述的方法，其中，所述基于显式规则的控制算法的创建在云计算环境中执行。