CN108604310A

CN108604310A - 用于使用神经网络架构来控制分配系统的方法、控制器和系统

Info

Publication number: CN108604310A
Application number: CN201680077577.XA
Authority: CN
Inventors: B·克拉森斯; P·弗兰克斯
Original assignee: Vito NV
Current assignee: Vito NV
Priority date: 2015-12-31
Filing date: 2016-12-26
Publication date: 2018-09-28
Anticipated expiration: 2036-12-26
Also published as: WO2017114810A9; WO2017114810A1; US11341396B2; JP2019512757A; US20190019080A1; JP6895440B2; EP3398116A1; CN108604310B

Abstract

描述了深度近似神经网络架构，通过需求响应应用的未见状态来外推数据以控制分配系统(如产品分配系统，能量分配系统(例如，热量或电力分配)是其一个示例)。本发明描述了主要以强化学习(RL)的形式的无模型控制技术，由此，控制器从与要控制的系统的交互中学习以控制产品分配，能量分配系统(例如，热量或电力分配)是产品分配的一个示例。

Description

用于使用神经网络架构来控制分配系统的方法、控制器和系统

本发明涉及用于控制分配系统(如能量分配系统，例如热量或电力分配)的方法、控制器和系统以及当在处理引擎上执行时能够执行此类方法中的任一种方法的软件。

背景技术

基于模型预测控制[1]或完全无模型的强化学习[2]，已知控制能量受限灵活性(ECF)源(诸如电动车辆，热泵或HVAC系统)的需求灵活性。

当在需求响应设置中应用时，这种控制技术的期望结果是在下一个控制步骤期间由任意数量的设备消耗建议功率和/或能量。

需要考虑不同的目标，包括网络约束(诸如不使系统过载)，至少满足最低能量需求以及尽管价格随时间变化但仍以经济的方式操作，例如当能源从能源竞拍获得时。

当考虑基于模型的控制时，需要构建要控制的源的灵活性的模型，即设备能够在多大程度上修改其能量需求或在其需求方面是灵活的。这可能是一项具有挑战性的工程任务，并且取决于基于模型的控制器的经济价值，这样的模型在经济上可能是有趣的或者不是视情况而定的。

基于模型的技术的典型优点是可以将领域知识直接纳入模型中。主要缺点是模型需要是准确的、被调协和维护。后两个方面是为什么MPC优选应用于其中控制器由人类专家持续监控的非常特定的领域，例如在化工行业中。

这种实用性可以通过无模型控制[2]至少部分地减轻。然而，以MDP(马尔科夫决策过程)或部分可观察马尔可夫决策过程(POMDP)的形式来解决问题是一种标准的工作方式。这允许使用诸如Q函数的概念来捕捉控制动作的价值。然而，这里的主要问题在于MDP因维度和可伸缩性而受罚，即对于大状态维度(例如>5/>105个可能状态)，大多数常规技术变得不切实际，因为每个状态的值必须被理解，并且这种穷举技术显然随着状态维度呈指数形态地缩放。

系统或设备级别的传感器数据现在可用或者可以在将来的系统中提供，该传感器数据给出系统状态的指示，例如，房间温度可以通过建筑物或热水箱中的一个传感器测量，可以测量一层或若干层处的水温。该信息可以被看作是部分状态信息，例如通过定义，像建筑物温度那样的温度或者壁式家具的温度不需要直接测量，但可以是表示这种动态的“特征”，其可以基于历史信息来标识。这通过添加历史状态信息来扩展可用状态信息。

对于较大系统，由不同传感器测量的特征之间的动态被耦合到状态空间。该信息需要包括所有的状态信息，例如，在具有不同温度传感器或“传感器群”的热水箱中，动态被群集并因此控制变成为群集控制，例如，当使用基于能量竞拍的分派机制来控制大型ECF群集时。

例如，如果热水槽或建筑物具有10个传感器并且在最后10个时间步长(例如15分钟分辨率)下的测量值被纳入状态矩阵表示，则这导致100维状态空间。

再次参考群集控制，如果群集中的不同ECF针对某个状态被聚合，则可以使用聚合步骤来降低维度，举例而言，具有在0.2和0.3之间的SoC(电荷状态)的所有电池被组合在一起，例如可以选择一种分仓方法，并且0.2和0.3之间的SOC的所有电池都可以放置在一个仓中。

参考文献

[1]J.Cigler、D.Gyalistras、J.Sirok y、V.Tiet、L.Ferkl的“超越理论：在建筑物中实施模型预测控制的挑战(Beyond theory:the`challenge of implementing modelpredictive control in buildings)”，第11届欧洲暖通空调学会世界大会会刊，气候变迁行动总署，2013年。

[2]O'Neill,D.、Levorato，M.、Goldsmith，A.、Mitra，U.的“使用强化学习的住宅需求响应(Residential Demand Response Using Reinforcement Learning)”，2010年第一届IEEE智能电网通信(SmartGridComm)国际会议，第卷，第期，第409-414页，2010年10月4-6日

[3]Kara,E.C.、Berges,M.、Krogh,B.、Kar,S.的“在智能电网中使用智能设备进行系统级管理和控制：强化学习框架(Using smart devices for system-level managementand control in the smart grid:A reinforcement learning framework)”，2012年IEEE第三届智能电网通信(SmartGridComm)国际会议，第卷，第期，第85-90页，2012年11月5日至8日。

[4]Wei Zhang、Kalsi,K.、Fuller,J.、Elizondo,M.、Chassin,D.的“用于具有需求响应的异构恒温控制负载的聚合模型(Aggregate model for heterogeneousthermostatically controlled loads with demand response)”，2012年IEEE电力与能源学会会员大会，第卷，第期，第1-8页,2012年7月22-26日。

[5]Bertsekas的凸优化算法。

[6]S.Koch、J.L.Mathieu和D.S.Callaway的“用于辅助服务的聚合式异构恒温控制负载的建模和控制(Modeling and control of aggregated heterogeneousthermostatically controlled loads for ancillary services)”，第17届IEEE电力系统会议(PSCC)会刊，第1-7页，瑞典斯德哥尔摩，2011年8月。

[7]E.C.Kara、M.Berges、B.Krogh和S.Kar的“使用智能设备进行智能电网中的系统级管理和控制：强化学习框架(Using smart devices for system-level managementand control in the smart grid:A reinforcement learning framework)”，第三届IEEE智能电网通信(SmartGridComm)国际会议会刊，第85-90页，中国台湾台南市，2012年11月。

[8]D.Ernst、P.Geurts和L.Wehenkel的“基于树的批量模式强化学习(Tree-basedbatch mode reinforcement learning)”，机器学习研究期刊，第503-556页，2005年。

[9]M.Riedmiller的“通过数据高效神经强化学习方法的神经拟合Q迭代第一经验(Neural fitted Q-iteration–first experiences with a data efficient neuralreinforcement learning method)”，第十六届欧洲机器学习会议(ECML)会刊，第3720卷，第317页，葡萄牙波尔图：Springer出版社，2005年10月。

[10]V.Mnih、K.Kavukcuoglu、D.Silver、AA Rusu、J.Veness、MG Bellemare、

A.Graves、M.Riedmiller、AK Fidjeland、G.Ostrovski等人的“通过深度强化学习的人类级控制(Human-level control through deep reinforcement learning)”，自然杂质第518卷，第7540期，第529-533页，2015年。

[11]Frederik Ruelens、Bert Claessens、Stijn Vandael、Bart De Schutter、Robert Babuska、Ronnie Belmans的“使用批量强化学习的恒温控制负载的住宅需求响应(Residential Demand Response of Thermostatically Controlled Loads Using BatchReinforcement Learning)”，CORR(ARXIV)，卷abs/1504.02125，2015年4月8日，其通过引用整体纳入于此。

[12]Giuseppe Tommaso Costanzo、Sandro Iacovella、Frederik Ruelens、T.Leurs、Bert Claessens的“对建筑物加热系统的数据驱动控制的实验分析(Experimental analysis of data-driven control for a building heatingsystem)”，其全部内容通过引用纳入于此。

[13]Iacovella，S.、Ruelens，F.、Vingerhoets，P.、Claessens，B、Deconinck，G.的“使用示踪装置的异构恒温控制负载的群集控制(Cluster Control of HeterogeneousThermostatically Controlled Loads Using Tracer Devices)”，IEEE智能电网期刊，卷PP，第99期，第1-9页。

[11]Frederik Ruelens等人描述了用于控制需求响应系统的批量强化学习。其不具备基于历史观察序列来学习的能力。该文献假定在给定当前观察的情况下，不存在对过程历史的依赖性，即在任何给定时间t，当前观测Xt包含所有相关信息以最优地控制目标系统。这可以通过要求观察和动作的过程无记忆并服从马尔可夫属性来陈述。然而，许多真实世界系统不具有该属性。在此类系统中，当前观察不足以确定最优控制动作。这意味着该系统仅仅是部分可观察的，并且具有只能从历史观察中推断出的隐藏状态。这些方法无法控制此类系统。

[10]V.Mnih等人在2015年2月的自然杂志第518卷，第7540期，第529页中的“通过深度强化学习的人类级控制(Human-level control through deepreinforcementlearning)”中公开了用于表示状态动作值函数的卷积神经架构。马尔可夫属性在该环境中不保持。它们不考虑随时间学习特征。存储历史信息序列，但该序列然而使用与其他输入不同地处置的单独图像通道维度来存储。该通道维度不由网络的卷积滤波器来处理。这相当于在时间维度之外的所有输入维度上学习局部相关性并且然后简单地在所有时间步长上求和。整个历史观察序列通过该求和平坦化，这意味着更高层次的网络层不再能够访问历史信息并且不能限制其输出。虽然该方法足以检测到相邻观察值之间的变化(例如，检测到图像序列中的移动对象)，但它缺少学习更复杂的时间相关模式的能力。

发明内容

本发明的目标是提供用于控制产品分配系统(如能量分配系统，例如热量或电力分配)的方法、控制器和系统以及当在处理引擎上执行时能够执行此类方法中的任一种方法的软件。具体而言，基于系统模型来控制产品分配系统(如能量分配系统)遭受以下问题：必须为每一个不同的安装部署合适的系统模型。在系统变化的情况下，模型必须适配该变化。本发明的目的是避免开发系统模型的需求。

需求响应系统常规上使用寻呼来控制远程交换机。本发明的实施例提供了设备或设备群集与网络的控制功能之间的双向通信。该控制功能可包括中央控制器和/或群集控制器和/或设备控制器和/或旧式设备控制器。

因此，在一方面，本发明提供了控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的基于计算机的方法，该方法包括以下步骤：

使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至受限群集元素的物理产品量，由此该控制技术从与要控制的需求响应系统的交互中学习，该方法包括以下特征提取步骤：

向卷积神经网络输入需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D(二维)网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中卷积神经网络执行2D卷积并学习从2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征，

该方法进一步包括：

至少将所提取的本地卷积特征输入至第一神经网络，该第一神经网络至少输出状态动作值函数的近似值，该近似值为该至少一个群集提供与该至少一个群集处于一状态以及采取动作的每一个组合相关联的值，

确定或计算控制动作，该控制动作是采取动作与群集处于一状态的优选组合，或者从采取动作和群集处于一状态的优选组合中导出，以及

根据控制动作来在下一控制步骤期间分配将由群集元素消耗或释放的物理产品的目标量。第一神经网络可以是全连接神经网络。

使用聚合的输入数据减少控制问题的维度。对卷积网络的使用依赖于输入数据中的相关性，并且降低所需计算强度，并缩短训练时间。将第一全连接神经网络限于接管该卷积神经网络的经处理的就绪输出的第二神经网络也降低所需计算强度并且也缩短训练时间。

本发明的实施例提供网络概览。使用各消耗者设备或设备群集与能量分配网络之间的双向通信，该网络具有端对端可见性，以便不仅有从消耗者场所到头端的基础设施的全貌，而且还有卷积神经网络提取的时间模式的全貌。

该控制技术优选地是无模型的。这避免了调查并构建复杂系统模型的需求，并且事实上允许在系统模型甚至是未知的情况下使用本发明。

状态动作值函数可以是Q函数(Q(x,u))。该算法已被发现是快速收敛的。

控制动作和外生状态信息被优选地输入到第二神经网络，该第二神经网络作为输入连接到第一神经网络。该方法还可包括将外生状态信息和控制动作与卷积神经网络的所提取的卷积局部特征合并。这是有利的，因为外生信息不仅包括相关值(诸如外部温度和一天中的时间)，而且还包括控制动作。这允许控制器学习作为输出的Q函数的近似值。

在将外生状态信息和控制动作与卷积神经网络的所提取的卷积局部特征合并之前，可以执行单独的特征提取，其中外生状态信息和控制动作首先被馈送到第二神经网络中，该第二神经网络将外生状态信息和控制动作映射到所学习的内部表示，该内部表示在下一隐藏层中与所提取的卷积局部特征相组合。作为包括控制动作的外生信息如何允许控制器学习Q函数的近似值作为输出的进一步进展，这是有利的。

第二神经网络可以是全连接的。由于外生数据的维数通常很低，因此第二个神经网络可以完全连接，而不需要显著增加计算或训练时间。

隐藏层是全连接的。因为这是更高层，所以隐藏层可以在不显著增加计算或训练时间的情况下全连接。

卷积神经网络首先捕捉2D网格结构和卷积神经网络中的模式，并且第一和第二神经网络学习从聚合的群集状态和包括控制动作的外生数据到目标量的映射。不同类型的神经网络的组合使得这一步骤高效。

2D网格结构具有表示在固定时间步长处的群集状态的所有观察值的一个维度以及第二维度，该第二维度对应于在所有时间步长处的群集元素的多个状态变量中的每一个的值随时间的变化，2D特征提取操作随时间以及空间应用，从而导致对标识状态信息以及历史中的局部结构的时空特征的标识。在需求响应控制系统中，时空特征的标识是重要的，这些控制系统需要随着时间的推移表现良好。

通过该方法可以学习表示在多个时间步长中发生的状态值变化的特征。所学习的特征被第一全连接神经网络的更高网络层用作输入。这允许确定无法从单个输入中发现的相关性。

卷积网络以及第一和第二神经网络是一起训练的。这是一种高效的训练方法。

本发明还提供了用于控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的控制器或者计算机网络架构，包括：

用于使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至受限群集元素的物理产品量的装置，由此该控制技术从与要控制的需求响应系统的交互中学习，

被适配成执行以下操作的用于提取特征的装置：

向卷积神经网络输入需求响应系统中的至少一个群集的历史观察或聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中卷积神经网络被适配成执行2D卷积并学习从2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征。

该卷积神经网络被适配成将所提取的局部卷积特征输出到第一神经网络，

第一神经网络被适配成至少输出状态动作值函数的近似值，该近似值为至少一个群集提供与该至少一个群集处于一状态以及采取动作的每一个组合相关联的值，以及

用于确定或计算控制动作的装置，该控制动作是采取动作与群集处于一状态的优选组合，或者从采取动作和群集处于一状态的优选组合中导出，以及

用于根据控制动作来在下一控制步骤期间分配将由群集元素消耗或释放的物理产品的目标量的装置。

第一神经网络可以是全连接神经网络。该控制技术可以是无模型的。

优选地，状态动作值函数可以是Q函数(Q(x,u))。

要分配的产品可以是热能或电力。

优选地，第二神经网络被适配成允许将控制动作以及外生状态信息输入到作为输入连接到第一神经网络的第二神经网络。

优选地，外生状态信息和控制动作可以与卷积神经网络的所提取的卷积局部特征合并。

优选地，在将外生状态信息和控制动作与卷积神经网络的所提取的卷积局部特征合并之前，执行单独的特征提取，其中外生状态信息和控制动作首先被馈送到第二神经网络中，该第二神经网络将外生状态信息和控制动作映射到所学习的内部表示，该内部表示在下一隐藏层中与所提取的卷积局部特征相组合。

优选地，第二神经网络以及隐藏层是全连接的。

卷积神经网络被优选地适配成首先捕捉2D网格结构和卷积神经网络中的模式，并且第一和第二神经网络被适配成学习从聚合的群集状态和外生数据和控制动作到目标量的映射。

优选地，2D网格结构具有表示在固定时间步长处的群集状态的所有观察值的一个维度以及第二维度，该第二维度对应于在所有时间步长处的群集元素的多个状态变量中的每一个的值随时间的变化，2D特征提取操作随时间以及空间应用，从而导致对标识状态信息以及历史中的局部结构的时空特征的标识。

优选地，所学习的特征表示在多个时间步长中发生的状态值变化。所学习的特征优选地被至少第一全连接神经网络以及可任选的第二神经网络的更高网络层用作输入。

卷积网络以及第一和第二神经网络被优选地适配成使其能够同时在一起训练。

本发明还提供了用于控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的控制器。

被适配成执行以下操作的用于提取特征的装置：

向卷积神经网络输入需求响应系统中的至少一个群集的历史观察或聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中卷积神经网络被适配成执行2D卷积并学习从2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征，

本发明还提供了包括当在处理引擎上执行时被适配成执行本发明的任一种方法的代码的计算机程序产品。非瞬态机器可读信号存储装置可存储计算机程序产品。

本发明的实施例使用深度近似架构，这些架构是通过需求响应应用的未见状态来外推数据的高效方法，以便提供用于控制分配系统(如产品分配系统，能量分配系统(例如，热量或电力分配)是其一个示例)的方法、控制器或系统以及当在处理引擎上执行时能够执行这些方法中的任一种方法的软件。

本发明的实施例提供了一种主要以强化学习(RL)形式的无模型控制技术，由此现有技术的问题被至少部分地缓解，因为控制器从与要控制的系统的交互中学习，以便提供用于控制分配系统(如产品分配系统，能量分配系统(例如，热量或电力分配)是其一个示例)的方法、控制器或系统以及当在处理引擎上执行时能够执行这些方法中的任一种方法的软件。

本发明的实施例提供了解决以下两个问题中的至少一个的方法、系统或控制器：

1、部分信息：由于无模型控制器将基于直接测量采取动作，因此需要考虑与诸如ECF等设备群集的动态相关的隐藏可观测量。本发明的实施例通过在状态的输入中添加全信息向量来补救这种情况，该全信息向量不仅包括直接测量的当前时间“t”的状态值，而且还包括在时间“t-2T”、“t-T”、...t”处的先前测量的状态等。

2、维数

本发明的实施例解决避免高维状态描述的问题。尽管在聚合级别上可以减少聚合状态维度，但对于异构群集，仍然需要状态维数通常为10(例如10个能量状态)，同时考虑历史信息，例如10个时间步长。这导致至少100的状态维数，如果其是构建在MDP形式上的，则该状态维数在典型的RL算法的范围之外。甚至对于单个ECF系统也会出现相同的问题，例如，包括考虑历史信息(例如10个时间步长)的10个温度传感器的热水槽也遭受相同的问题。

即，如果状态维数是100并且每一个维度可具有例如10个值，则这产生了10100个可能的状态，这比我们可见宇宙中的原子更多。这种状态维度不容易计算。

虽然浅层神经网络提供通用函数逼近能力，但本发明的实施例通过使用深度架构来处理高效地表示高度复杂函数的问题。深度神经网络包括创建输入的逐渐抽象的表示的多个非线性变换。这些变换使得网络能够更容易地表示所需功能。此外，可以表明，与本发明的实施例中所使用的更深的架构相比，浅层架构需要呈指数更多的容量的功能存在。

本发明的实施例包含隐藏状态信息和外生信息以用于使用深度近似架构来确定对受限灵活源的群集的需求响应。外生信息不一定包含在内，且优选地不以与设备的状态信息一样的方式被包含在系统中。深度近似架构优选是基于卷积神经网络(CNN)的深度回归架构。卷积神经网络具有2D输入网格，并且本发明的实施例在状态定义内包括测量状态的历史或其衍生物。为了将卷积神经网络架构应用于该数据，优选地包括附加特征提取步骤。系统的历史观察数据聚合在二维网格结构中，其中一个维度表示时间步长，另一个维度捕捉诸如群集元素的能量状态之类的参数的状态分布，这被称为群集状态。通过聚合数据可以减少群集状态的维数。例如，聚合方法可以是根据群集元素的本地参数(例如，它们的本地能量状态(温度，电池容量，电荷状态(SoC)，健康状况(SoH)等))来对群集元素进行分仓。多个2D网格可以同时输入。例如，如果群集行为很有可能被相关，则多个2D网格(N个群集中每个群集一个网格)可以并行输入。例如，一个2D网格可以用于EV群集，另一个2D网格可以是恒温控制负载(TCL)的群集，而另一个2D网格可以用于核电站群集，所有这些群集都消耗电力。

本发明的实施例使用卷积网络来查找数据中允许标识或提取时空特征的局部结构。用于输入数据的聚合方法优选地被设计成使其支持该特征提取。

时间步长数据和聚合的数据组成了一个2D网格，该2D网格被用作到卷积神经网络的输入。在该网络中，2D输入网格通过卷积神经网络中的二维卷积来操作，该卷积神经网络学习在局部时间和状态变化上提取特征。例如，如http://xxx.lanl.gov/abs/1507.03638中所讨论的，所部署的算法可以是拟合Q迭代(FQI)。CNN的输出被馈送到第一全连接神经网络。后一种神经网络的输出优选地是状态动作值函数(诸如Q函数(Q(x，u))的近似值，该近似值提供处于状态“x”并采取动作“u”的值。该信息然后被用来确定(例如，计算)作为针对下一时间步长的建议控制动作的控制动作。该控制动作与外生数据一起反馈并且被输入到第二全连接网络，该网络的输出被提供至第一全连接神经网络，其中该输出与卷积神经网络的输出合并。

卷积神经网络由具有可学习权重和偏差的神经元构成。每一个神经元接收一些输入，执行点积并且可任选地以非线性跟随。整个网络仍然表达单个可微分分数函数。输入是一个或多个2D网格，并且输出是可用于基于优选结果来计算下一控制动作的类分数。

卷积神经网络使用二维网格作为输入，使得前向函数更高效地实现并大大减少了网络中的参数量。具体而言，卷积神经网络层具有以三维排列的神经元，即宽度、高度、深度。一层中的神经元将只连接到它之前的层的一小区域，而不是以全连接方式连接到所有神经元。而且，卷积神经网络的最终输出层是沿着深度维度排列的单个类分数向量。

本发明的实施例利用第一卷积网络和随后的第二全连接神经网络。全连接神经网络接收来自第一卷积神经网络的输入，并通过一系列隐藏层将其转换。每个隐藏层由一组神经元组成，其中每个神经元完全连接到前一层中的所有神经元，并且其中单层中的神经元完全独立运行，且不共享任何连接。最后一个全连接层被称为“输出层”并输出类分数。

卷积神经网络的每一层通过可微分函数将一批量激活转换为另一批量激活。可以使用以下三种主要类型的层来构建可以与本发明的实施例一起使用的卷积神经网络架构：

卷积层、ReLU层和全连接层，由此使用附加的小全连接层来输入外生数据。这些层的栈形成本发明实施例中使用的卷积神经网络架构。输入保存2D网格数据。

卷积层在2D网格中进行特征识别。该层的参数由一组可学习滤波器组成。每个滤波器沿宽度和高度都很小，但是会延伸通过输入卷的整个深度。每个滤波器都跨输入卷的宽度和高度进行卷积，从而产生该滤波器的二维激活图。点积是在滤波器和输入的条目之间计算的。每一个神经元只连接到输入卷的局部区域。该连通性的空间范围是被称为神经元的接受域的超参数。沿着深度轴的连通性的范围始终等于输入卷的深度。网络将学习滤波器，这些滤波器当其在输入中的某个空间/时间位置看到某些特定类型的功能时激活。沿着深度维度堆叠所有滤波器的激活图形成完整的输出卷。因此，输出卷中的每个条目也可以被解读为神经元的输出，该输出仅查看输入中的一小区域并与同一激活图中的神经元共享参数。

ReLU层担当要使用的激活功能。然而，本发明不限于此并且本领域技术人员可使用其他层，诸如S形、线性、双曲正切、径向基函数、softplus和softmax以及不同的方言。池化层是一个可选层，该层可能有助于获得更多稳定性。

在图1和图4中示出了用于本发明的实施例的卷积神经网络架构，其具有一个或多个2D网格12的输入、具有带卷积层的卷积神经网络14的卷积神经网络架构20、ReLU层以及第一神经网络15和第二神经网络17中的全连接层。卷积层计算连接到输入中的局部区域13a的神经元13b的输出，每个神经元计算其权重和它们在输入卷中连接到的区域之间的点积。ReLU层应用逐元素激活函数。全连接层计算类分数。

池化层可被添加到该网络。池化引入转换不变性，并且可以很好地用于对象检测，但它以丢失位置信息为代价。一个选项是在时间维度上扩展池化。

也可使用LSTM(长短期存储器)层。LSTM然后负责学习时间依赖性。

本发明的实施例可被应用于分配系统，其中对该系统的动态建模是困难或烦人的。相邻状态具有相关性，即，状态N+1必须对状态N的动态具有一些影响，因为卷积神经网络利用该影响来提取时空特征。

本发明的实施例在存在隐藏信息时有利地运作。换言之，直接通过观察当前状态来标识此类信息是不可能的。本发明的实施例在隐藏状态信息具有长范围时间依赖性时有利地运作。本发明的实施例的神经架构20能够检测历史中的通过隐藏状态影响当前行为，但在当前观察中不再可见的事件。

如在本发明的实施例中所使用的那样，状态信息不仅是历史性的群集状态，而且还是温度，一天中的时间，太阳辐射，所施加的控制动作。所有这些都可以是同等相关的，并且优选地在同一层面上集成。在架构中更深处添加外生信息。本发明的实施例使用附加状态信息，例如，外部温度或一周中的日子。该外生信息优选与例如以级联聚合的形式输入的状态时间特征不同地对待。外生信息不会被添加到状态时间矩阵中，而是被合并到在卷积层之后的更高层中的神经网络架构中。

在第一次通过一个特征提取层本身之后，外生状态信息以及任何控制动作被添加到架构中的更高处。通常，维数相当小，大约在例如4-5的数量级，并且假设局部相关不合理，所以不需要应用卷积。取而代之的是，标准(而非密集和小的)神经网络17用于在与全连接神经网络15中的卷积神经网络14的输出合并之前提取一些特征。

因此，本发明的实施例使用神经网络架构20，该架构包括然后被合并在顶层中的2个单独网络组件。在将外生信息与卷积特征提取合并之前，使用单独的特征提取来处理该信息。当卷积网络14处理历史群集状态时间信息时，首先将外生状态信息馈送到标准的全连接前馈网络17中。该网络17将外生状态信息映射到所学习的内部表示，然后该内部表示可以与下一个全连接隐藏层中的卷积特征组合。具体而言，在将其与历史群集状态合并之前学习表示允许网络首先捕捉单独数据输入中的模式，并且更容易地学习从组合的群集状态和外生数据到目标输出的映射。

纳入时间信息

历史状态观察值被表示为2D网格12，其中一个维度表示固定时间步长处的系统或设备状态，并且第二维度对应于随着时间的变化，即网格中的列c给出系统状态在时间c的所有观察值，而r行给出了所有时间步长处的第r个状态变量的值。得到的2D网格被用作卷积神经网络(CNN)14的输入，该CNN将状态信息的历史映射到值。时间和状态维度以相同的方式处理，并且2D卷积操作随着时间以及空间而被应用。这导致对标识输入状态信息以及历史中的局部结构的时空特征的标识。这使得容易地学习表示在多个时间步长中发生的事件(例如，状态值变化)的特征。这些特征然后被更高网络层用作输入。本发明的实施例的特定方面是状态和时间维度被相同地处理，并且网络对状态和时间维度应用卷积运算。这意味着网络将学习标识状态和时间上的局部特征。

考虑图1中的示例，其中系统状态随时间的演变11具有正弦形状。通过将时间维度视作CNN 14的另一图像输入维度，可学习捕捉随时间的局部演变并且容易地标识曲线形状的特征。

本发明的优点

在本发明的实施例中使用深度架构的优点在于其允许将状态描述扩展成包括历史信息以“学习”与动态相关的不可观察特征。此外，它允许包括与异构群集相关的全状态分布。

本发明的一个方面是将经预处理的历史信息存储在网格结构中，以便由卷积神经网络进行处理。将历史信息预处理成网格结构允许该方法或系统学习在时间维度上的局部相关性。这通过将该网格传递至卷积神经网络来实现，该卷积神经网络现在能随时间提取局部相关性(即，特征)。最终的神经网络处理卷积网络的输出，以基于所提取的历史特征来明确决定控制动作。因此，时间维度以与其他输入信号相同的方式处理，而不是被添加到单独的通道维度。现在随着时间以及所有其它输入维度学习局部相关性。这具有以下效果：随时间学习提取表示模式的特征。这具有若干优点：

根据本发明的方法或系统能提取显示输入如何随时间变化的模式的历史信息特征

根据本发明的方法或系统可示出无法通过简单地在时间维度上对特征求和来检测到的模式。

根据本发明的方法或系统可以从更长的时间序列中提取更多信息。

根据本发明的方法或系统明确处置时间相关信息，并且该信息通过神经网络架构向上传递，从而使得控制器能够基于该信息来决定控制输出

根据本发明的方法或系统可以提取在最近的观察中可能不再可见的相关历史信息

附图说明

图1是根据本发明的实施例的神经网络架构的示意性表示。

图2是根据本发明的实施例的三步过程的示意性流程图。

图3a是根据本发明的实施例的在应用神经网络架构时TCL群体随时间的分布演变。

图3b是图3a的TCL群体的随时间的聚合功率。

图4是根据本发明的实施例的另一神经网络架构的示意性表示。

图5是用于本发明的实施例的算法1的流程。

图6是用于本发明的实施例的算法2的流程。

图7是用于本发明的实施例的学习过程的图示。最上面一行是从由考虑若干所选日期内的隐藏特征的策略计算出的状态时间特征中导出的控制动作。除了只有状态特征而没有状态时间特征之外，中间行是相同的。下面的图描绘了外部温度(外生数据)。

图8示出了根据本发明的实施例的在应用神经网络体系结构时在包括和不包括历史信息的情况下的累积成本。该图指示在若干次运行中计算出的上限值和下限值

图9示出了根据本发明的一实施例的供应网络。

图10至13示出了用于本发明的任何实施例的消耗者设备。

图14示出了根据本发明的实施例的基于系统的状态来操作电力需求。

图15示出了根据本发明的实施例的如何包括旧式设备。

图16示出了根据本发明的一实施例来操作网络。

定义

与本发明一起使用的“产品”或“物理产品”应被广泛地解释为包括消耗或交付满足市场需要或需求的物品(https://en.wikipedia.org/wiki/Product)。这种产品可以是液体、气体或固体材料中的任何一种，也可以是光或其他形式的辐射，诸如热能或电能之类的能量或诸如电信网络中的电话呼叫等信号。文中给出的示例包括供应电力或热量。其它示例如下：

本发明可以用于对全球变暖建模，由此状态可观察值可以是不同地理区域中的平均日温和/或平均夜温，日照时数等。群集可以是地球本身。聚合可被应用以组合来自不同(理想地是相关的)地理区域的观察到的数据。奖励功能可以阻止冰川流失或减少海平面上升。要分配的项目是一个地理区域的二氧化碳排放。

本申请可以应用浸没式光刻，其中照射激光随时间改变光路中材料的属性，例如，透镜属性。光瞳形状对光刻扫描仪中的动态有影响，例如，在短时间(例如几小时)内发生的光学劣化。因此，光瞳面可以被聚合并作为其中时间为一个轴的二维网格输入，并且提取与材料属性(例如透镜属性)恶化有关的时空时间状态特征。透镜的热动态很慢，且时间状态特征被学习，并且系统控制激光能量以补偿由激光引起的暂时传输损耗，并且因此如果光瞳形状正确地适配，则可以随着时间再次恢复。控制动作控制激光源。

本发明可以应用于物流，例如从供应仓库运送货物。货物可以群集，例如仅考虑药品。通过将储存在供应仓库中的具有多个治疗单位的多种药物进行分仓来聚合各种药品。理想地，库存应该保持在低水平，但这会使交货时间变得更糟。治疗单位根据控制动作进行递送。

文中使用的术语“可用性函数”涉及出价函数的形式，其中设备想要消耗或可以产生的功率或能量是按照启发式变量的函数来定义的，诸如(仅举两个例子)分配给将要消耗或将要产生的每个功率或能量水平的优先级(即消耗或供应的必要性)或电荷状态。对于每个消耗或产生设备，可以为每个功率或能量消耗水平或每个功率或能量生成水平分配启发式变量的值，诸如优先级或电荷状态。可用性函数描述能量或功率消耗或生成与启发式变量的值(诸如那些能量或功率消耗或生成的优先级或电荷状态的值)之间的关系。因此，启发式变量的值(诸如优先级值或电荷状态值)被分配用于分配能量流。每个设备的每个功率或能量生成水平的启发式变量的每个值的赋值(诸如优先级或电荷状态水平)可由消耗者使用设备上的接口手动分配，或者可以由能量分配网络运营商分配或这些的任何组合。

例如，优选地需要接收和使用能量或功率的用户和用户设备来分配相关于优先级的递减能量或功率函数。高优先级的分配应与要供应的少量能量或电力相关联，因为许多用户设备能够将高优先级分配给大量的能量或电力可能导致不平衡。因此，要供应给用户设备的功率或能量优选地是关于诸如优先级之类的启发式变量的递减函数，诸如逐步递减函数或逐步单调递减函数。以相同的方式，用户设备的电荷状态越低，对用户设备充电的需求就越大，因此对于低电荷状态，优先级高，而对于高电荷状态则优先级低。因此，要供应给用户设备的功率或能量优选地是关于用户设备的电荷状态水平的递减函数，诸如逐步递减函数或单调递减函数。

说明性实施例的描述

如本文所使用的，单数形式的“一”、“一个”和“该”旨在也包括复数形式，除非上下文另有明确指示并非如此。还将理解，术语“包括”、“具有”、“包含”和/或“含有”在本说明书中使用时指定所陈述的特征、整数、步骤、操作、要素、和/或组件的存在，但并不排除一个或多个其他特征、整数、步骤、操作、要素、组件和/或其群组的存在或添加。

本发明的描述已出于说明和描述的目的进行了呈现，但它不旨在是穷尽性的或限于所公开形式的本发明。很多修改和变型对于本领域普通技术人员而言将是显而易见的而不背离本发明的范围和精神。选择并描述以下描述的实施例来最好地解释本发明的原理和实践应用，并且使本领域的其他技术人员能够在具有各种适于所构想的特定用途的修改的其它实施例中理解本发明及其应用。

实施例

本发明的实施例将参照图1到8描述。图16示出了根据本发明的实施例的网络的概览。

作为该实施例的示例，与常规q学习[7]相反的拟合q迭代[8,9]-“FQI”被应用于可选聚合状态表示之上的决策制定。对其他强化学习算法的使用被包括在本发明的范围内，诸如举例而言：

时间差学习族：

在线学习值函数，包括Q学习、SARSA和梯度TD算法，

其中一些可以在控制系统的同时学习，但学习可能会慢。

这种强化学习算法可以与诸如Dyna(模型学习)、塑造(启发式知

识)、体验重播或优先扫描(样本重用)等技术相结合以加速学习。

策略梯度族：

使用梯度下降来优化参数化策略。这学习局部最优策略(在可能的

策略集内)。示例：策略梯度、自然策略梯度、PGPE(用基于参数的探

查的策略梯度)、REINFORCE。

动作者评价器(actor critic)：学习值函数和策略两者。可以是TD学习与策略梯度算法的组合，例如，自然动作者评价器。

批量学习可以更样本高效，但不在线学习。而是收集数据并周期性地学习新策略。同时使用当前策略：

LSPI(最小二乘策略迭代)：迭代最小二乘拟合得到值函数序列。

不缩放到高维度

FQI：如该实施例中使用的

PILCO:用于学习控制的概率推理-用高斯过程学习模型。非常样本

高效，但计算上非常昂贵。

强化学习的目标是使用状态轨迹、动作、奖励样本来优化顺序决策制定，而不是从非监督学习中的原始输入数据学习监督学习或结构学习中从输入样本到输出样本的映射，如作为对神经网络的更常规使用。强化学习算法应被选为适应所需训练的速度及其提供必要输出的能力。例如，标准的Q学习经常在文献中描述，但具有非常差的收敛属性。例如，Q学习与拟合Q迭代的收敛性之间的比较已表明FQI比Q学习快约30倍地达到最优解。

根据本发明的该实施例，神经网络的孤立训练可以看作是监督问题，但是与标准监督设置相比，在该实施例中公开的主要差异是：

一系列神经网络被一起训练，例如，卷积神经网络和全连接神经网

络作为一个单元训练

网络的目标输出本身是使用强化学习来学习的，并且每个神经网络

的目标取决于之前迭代中训练的先前网络的输出。

因此，训练中的监督可以被看作是外部强化学习循环中的内部循环。

本发明的该实施例以下参照图1到8在详细示例中描述。例如，作为马尔可夫决策过程(MDP)，决策制定问题被形式化。高维度状态表示11可以用作输入，优选地包括单个(参见图1，附图标记12)或平行的一系列(参见图4，附图标记12a-d)2D聚合状态分布12的时间步进的一系列聚合状态分布[6]。优选地为需求响应应用定制的卷积神经网络架构20[10]被用来在FQI中执行回归算法。

MDP由其状态空间X、其动作空间U和转换函数f来定义：

x_k+1＝f(x_k,u_k,w_k), (1)

这描述了在控制行为u_k∈U下且遵从随机过程wk∈W的情况下的从x_k∈X到x^k+1的动态，且概率分布为p_w(.,x_k)。

伴随每一次状态转换的奖励r_k是：

r_k(x_k,u_k,x_k+1)＝ρ(x_k,u_k,w_k) (2)

通常对于需求响应应用而言，有成本(这是正面奖励的逆)而不是奖励，除非另有说明ρ是成本。

该实施例的目标是找到控制策略h：X→U使得从第一状态x₁开始的T阶段(T是时间)成本最小化，该策略由J^h(x₁)表示：

且：

例如，最优控制策略h*可满足贝尔曼等式：

状态空间X包括例如多个数据集[6]：例如，时间相关状态信息X_t、可控状态信息X_phys和外生(不可控)状态信息X_ex：

X＝X_t x X_phys x X_ex (6)

时间相关信息分量X_t包含与时间有关的信息11，即以例如纳秒、微秒、毫秒、秒、分钟、天、月为单位的时间步长–如适用于应用。在本实施例中，一天中的时间可被使用：

X_t＝{1,…………..24} (7)

时间步长大小的选择是允许标识输入数据中的相关时空行为模式和降低计算强度之间的折衷。可以添加更多与时间相关的特征，诸如工作日或假日或全国罢工或大规模停电。

可控状态信息x_phys_,k涉及要被控制(例如，图1或图4中的图表11)并且要保持在上限和下限之间的参数。例如，对于恒温控制负载(TCL)，该参数可以是每个TCL的工作温度其中

其中和表示可以由例如最终用户设置的T的下限和上限，或者通过适合于应用的其他约束来设置。

外生(例如，不可控制和/或从外部施加的)信息x_ex,k对于控制行为u_k可以是不变的，但是可以对要控制的系统的动态产生影响。在本发明中，外生信息可以包括或包含温度(诸如外部温度T_o)和/或例如内部加热q(尽管假定后者在该实施例中不可用)或者例如会导致通过窗户的辐射加热的太阳辐照度S或者任何其他类似的对要控制的系统的动态具有影响的外生信息。以上列表既不限制也不穷尽，如下所示：

x_ex,k＝(T_o,k,q_k,S_k…….) (9)

至少预测这种或这些外生信息(诸如温度(例如相关外部温度)或太阳辐照度或内部加热)在构建策略h时被假定为可用。音调符^将被用来表示一个预测。

在该实施例中，针对每个TCL的控制动作被表示为指示TCL是否处于OFF/ON状态的二进制值：

初始状态向量可以被定义为(例如，至少为)

由于这种状态向量仅包含可观察的状态信息(例如，工作温度T_o或太阳辐照度)，因此状态向量可以通过添加来自图1或图4中的11的所观察到的历史状态样本来扩展。

要控制的典型设备可以由约束(例如涉及操作设备的安全性或涉及允许值的最大值和最小值的上限和下限)来管控。出于此目的，诸如TCL等设备可配备备用滤波器或备用控制器，其担当策略h产生的控制动作的滤波器。该滤波器可以担当屏蔽以允许一些控制动作发生，同时阻止其他控制动作。例如，函数B可以被适配成将所请求的控制动作映射到物理控制动作该映射可以取决于例如从安全角度来看重要的状态，例如状态

且θⁱ包含关于重要参数的本地信息的上限和下限的信息，诸如安全性(不被过热水烫伤)和/或舒适设置(温水足够热以提供令人愉快的淋浴体验)或者与操作和限制控制动作的范围相关的其它参数。

例如在该实施例中，θⁱ是和的函数，其中B(.)[7]可以被定义为：

合适的奖励模型将被定义以训练卷积神经网络，即定义成功的控制动作。当控制诸如TCL之类的大型设备群集时，可以考虑例如跟踪平衡信号或能量套利。在该实施例中，能量套利被考虑。如先前定义的，伴随每一个状态转换的奖励r_k是：

r_k(x_k,u_k,x_k+1)＝ρ(x_k,u_k,w_k) (2)

在该等式中，有必要通过将理论值u_k替换为等式12和13中定义的实际可用值来进行替换和更新并定义w_k。

在该实施例中，假设诸如TC1的设备群集响应外部成本或价格向量λ。参考成本或价格并不一定与实际的可计费金额相关，而是为了评估控制功能而指派成本值。例如，该“成本”可以是动作造成的二氧化碳影响。因此这是控制参数。例如，成本函数可被定义为：

且P是诸如TCL之类的设备(例如，空调)在时间区间Δt内的平均功耗。

在现在已经定义了最重要的关系后，描述作为包括控制器的本发明的实施例的实现。如图2所示，三步法2、4、6是优选的，即第一步骤聚合2，第二步骤优化和特征提取4以及第三分派或递送步骤6。

步骤1：执行第一步骤2以减少问题维数。在这不是问题的情况下，该步骤可以被遗漏，并且图1或图4的输入2D网格12可以用实际值填充。为了减小输入数据的大小，优选地聚合诸如TCL的7a到d(图2)之类的群集元素的状态值11(图1和4)。在第一步骤中，已经描述的状态信息x_k从要监视的系统中检索。

例如，对于每一个设备(诸如TCL 7a到d)，状态向量x_k被聚合。聚合的一种方法是为每个设备(诸如TCL)向仓添加一个单元，该设备具有在该仓的范围内并属于状态向量x_k的状态值。该分仓用具有落入每一仓范围内的状态值的多个设备来替换实际状态值，并因此生成直方图8(图2)。例如，如图2所示，诸如TCL 7a至d之类的设备可根据电荷状态进行分仓。仓值能够以向量形式表示，诸如b_k包含具有支持点b_s的b个仓。优选地，仓是等距仓。为了获得b_k，可以使用算法1-见图5。

在进一步的步骤中，后续时间步长的分仓向量被级联，从而导致

由此，初始的最终聚合状态向量为：

为了便于后面的第三步，即分派或递送步骤6，为每个设备(诸如TCL 7a至d)定义可用性函数。在理想情况下，系统可以完全满足图2中所示的第二步骤4中找到的或者从图1或图4中的输出18导出的控制动作5。然而，这需要能供应所请求的所有功率。在实际情况下，情况并非总是如此，因此有必要允许可递送产品的可用性函数，例如，考虑到供应所请求的产品(例如，功率)量的实际能力的功率。因此，设备的可用性函数涉及诸如TCL之类的设备如何能够容易地获得可递送产品，例如，诸如来自市场的电力之类的功率。该可用性函数可以被表达为相对于启发式变量(p_r)消耗的可递送产品，例如，诸如电力之类的功率，例如对于每一个设备(诸如TCL i)根据以下表达式：

b_i(p_r)＝P_i(1-H(p_r+SoC_i-1))； (17)

其中H对应于海维赛德函数并且P_i对应于可递送产品，例如每个设备(诸如TCL)在开启时消耗的功率。

步骤2：在第二步骤4中，作为例如批量强化学习的一部分，使用控制策略来确定整个群集的控制动作5。作为该实施例的示例，使用FQI(拟合Q迭代)来从一批多个元组(例如四个元组)中获得状态动作值函数Q*的近似值

可以如下从所得(x,u)获得控制动作u_k：

在该实施例中，奖励函数被假定为先验已知的，并且可以测量备份控制器的所得动作。算法2(见图6)使用(x_l,u_l,x_l’,)形式的元组。算法2示出了当至少对外生数据的预测可用时，FQI如何能用于需求响应应用。如果测量本发明的方法中使用的外生数据而不是仅模拟，则是优选的。在算法2中，表示x_l的后继状态。在算法2中，观察到的x′_ex,l中的外生信息被其预测值代替(算法2中的第5行)。因此，变得偏向于提供的预测。

为了执行回归步骤，使用以下算法。在每个控制步骤期间，控制动作u_k通过以下定义的概率来选择：

温度根据谐波序列每天下降，高温导致更多的探测，而导致贪婪方法。

为了提供回归算法，可以在本实施例中使用FQI，其中由卷积网络架构20给出的Q函数的参数化如图1和图4所示包括卷积神经网络组件14和全连接神经网络，优选地是多层神经网络15。网络架构20以2D网格12的形式将状态动作对(x，u)取作输入并返回近似的Q值(x, u)。输入被拆分成2部分：首先是包括先前描述的分仓表示的一个b×N网格12(图1)或一个或多个b×N网格12a至d(图4)，其次是包括包含动作u的外生状态信息x_ex。包括动作u的外生状态信息xex是第二全连接网络17的输入16，第二全连接网络17的输出被传递到全连接神经网络15。分仓式状态表示xb使用卷积神经网络14来处理。卷积神经网络14通过将每个输入网格12与多个所学习的线性滤波器进行卷积来处理被构造为一个或多个2维网格的输入12。以此方式，卷积神经网络14可被训练以学习检测输入网格12的局部结构中的时空特征。卷积层由多个滤波器W^k组成，每个滤波器产生一个输出特征映射。对应于第k个滤波器权重矩阵W^k的特征映射h^k可以通过以下方式获得：

其中*表示2D卷积运算，x是层输入，b^k是偏置项，σ(西格玛)是非线性激活函数。可以堆叠多个层以获得深度架构。卷积层可以可任选地与池化层交替，这些池化层对其输入进行下采样以向网络中引入一定量的转换不变性。卷积神经网络14以2D网格的形式处理经分仓的该2D网格具有与b个仓相对应的输入网格12的一个维度以及表示在N个先前时间步长处的观察值的另一个维度。时间和状态维度均等对待，且二维卷积运算适用于这两个维度。这与卷积神经网络的先前应用不同，其中输入网格是2D图像且2D网格内没有任何时间维度。引入具有作为以一系列时间步长量化的时间维度的一个轴的2D网格产生了标识时空特征的能力，时空特征标识状态信息及其历史中的局部结构。这使得网络20能够标识对应于在多个时间步长中发生的事件的特征。在卷积神经网络14中提取的这些特征然后被全连接神经网络15中的更高网络层用作输入。附加外生输入值x_ex，k和控制动作u_k作为输入16被馈送到单独的全连接前馈架构17中。多层感知器17首先将输入映射到中间表示。然后将该隐藏表示与卷积神经网络14的输出组合，并且将两个网络14、17的输出合并到全连接层15中。最终的线性输出层19将组合的隐藏特征映射到输入状态动作对的预测Q值18。

步骤3：步骤3包括实时控制，由此上述策略h产生的控制动作将被转换为要被分派的产品，诸如将被分派给诸如TCL之类的不同设备7a至d的能量。可以例如使用基于市场的多智能体系统来在不同设备7a至d(诸如TCL)上分派控制动作u_k。如上所述，给TCL的能量供应由可用性函数bi表示。在清除过程之后，清除优先级p*_r,k被发回，例如发回到被监视的群集中的不同设备7a至d，诸如TCL：

设备根据b_i(p*_r,k)消耗功率。

例如，参照图2，确定要递送的产品(例如，电力)以及要被聚合的每个观察到的群集状态输入参数值(例如，电荷状态)之间的关系9a至d。如图2中指示的，这些关系可被聚合，例如求和以创建群集关系3。在该关系中，当群集状态值接近零(即，SoC非常低)时，要递送的产品(例如，要消耗的电力)是最大值。当群集状态值接近最大值(即SoC非常高)时，要递送的产品(例如，要消耗的电力)是最小值，因为群集应该能够在下一个时间步长中用其自己存储的电荷来满足需求。在步骤6，关系3被示为34。已经在步骤4中确定的最优值是将在下一时间段中递送到群集的功率32。根据关系34，如果要满足下一个时间步长的需求，则将该功率值32作为该群集的期望SoC值36读出。关系9a至d被接管为关系39a至d并且群集的SoC 36的值被用作关系39a至d的输入，以查看这些设备中的哪一个必须被充电(即，接收要分配的产品)以将它们提升至群集的SoC水平36。这些可递送产品(例如功率值38a至d)然后被递送至TCL 7a至d。

示例

作为深度回归架构的具体示例，分仓的群集状态x^b由描述在最后28个时间步长中群集成员的分仓的28×28 2D网格表示。该输入使用卷积神经网络14的两个二维卷积层进行处理。卷积神经网络14的第一层由四个7×7滤波器组成，而第二层使用八个5×5滤波器。卷积神经网络14的卷积层之后是全连接神经网络15的单个全连接层，其将特征映射映射到32个隐藏节点。每一层之后都有经矫正的线性(ReLU)激活层。不使用池化层。包括x_ex，k和动作u_k的外生数据16使用全连接神经网络17中的各单元的单个全连接隐藏层来处理。卷积神经网络14和前馈网络17的组合输出使用两个全连接层来处理，每个层由全连接神经网络15的24个单元组成。所有层都使用ReLU激活。如图1和4所示，最终的隐藏表示使用全连接线性输出层19来映射到单个输出18。使用rmsprop算法将网络架构20作为一个单元进行训练。根据本发明，如果网络架构20作为一个整体被同时训练，则是优选的。

在该实施例中，环境由模型模拟。例如，这是建筑物的热性能模型，其中TCL被容纳在7a到d之间。这是因为没有测量数据可用于该实施例。在操作中，该模拟数据将优选不被使用，而是使用实际测量。因此，仅就本发明的这种解释而言，可以使用二阶模型来描述如图2中所示(7a至d)的每个建筑物的动态：

这里和被建模为操作空气温度和归因于体积质量[13]的虚拟温度典型地，空气的热质量显著小于质量块的热质量由此q归因于热能加热。对于模拟中的每个TCL 7a至d，值和从具有均值x和标准差y的正态分布中随机地选择。另外d从每个时间步长的正态分布z中采样。例如，对于所有TCL 7a到d功率Pi被设置为等于一值(例如，1.5千瓦(CoP＝3))。例如，对于每个TCL 7a到d而言，最小和最大温度例如设置在20和21摄氏度(仅仅作为示例)。在图3中，描绘了使用背照式控制器的1000个TCL的群集的温度动态。可以观察到典型的时间常数约为3-4小时的量级。图3A的上部图表示出了温度分布的演变。最初，所有的TCL都具有相同的状态，但是在一天之后，已经发生了去相位，这是对群集异质性的直接测量。图3b中的下图图表示出了作为时间的函数的聚合功率。最初所有的TCL都处于导致强烈相关的消耗的阶段中。大约1天后，所有的相干性都消失了。如上所述，在测量中假定只有可用，而表示的特征是由回归算法中的卷积规程从的过去测量中推断出的。

图7示出了在第一行的标题中指示的在不同的天数后，即在21、41、61、67和71天后的策略结果的选择。这被示为包括第一行中的状态时间特征并且同时仅考虑中间行中的状态特征。最后一行描绘了假定的外部温度。可以看到，在40天之后，当考虑到状态时间特征时，获得更加平滑的有意义的策略。对于第61天和第67天，价格信号是相同的，但外部温度不是这样，因为算法确实已经学会将这些预测考虑在内。在图8中可以看到有和没有时间特征之间的更量化的比较，其中几次模拟运行的成本的上限和下限累积值是在考虑到状态时间特征24并且没有考虑到它们25的情况下呈现的。差别在5％量级。

上述本发明的实施例可以应用于图9中示意性示出的电力系统40，其中存在生成或消耗电能并通过供电网络41耦合的不同生产者42、43和消耗者设备7(参见图2，设备7a至7d)或消耗者设备7的群集45。该电力供应网络41允许在消耗者设备7以及设备群集45和生产者42,43之间产生和传输电能，并且可以包括用于控制供电网络41的操作的中央控制器46。还可以存在控制消耗者设备7或群集45中的一部分消耗者设备7的本地控制器47。

理想地，在这样的电力系统40运行期间的任何时候，都需要在生产和消耗之间进行平衡。目前主要的控制范式是生产遵循消耗。出于主要两个原因不再高效，随着可再生能源的继续整合，这些平衡需求在能量，功率和斜率(或至少递增率/递减率)方面的要求变得越来越高。处理这种情况效率低下，因为需要主要是燃气发电厂的递(增/减)率，这些发电厂的能源效率不高(初始能源与实际能源相比)。这导致过多的能耗和污染。第二个重点是平衡资产主要连接到高压网络，而可再生能源发电机43通常位于低和中电压电平，从而导致局部电压和拥塞问题，这需要本地灵活性来解决这些问题。对于这两个问题，根据电力消耗而不是生产来进行操作可提供部分解决方案，因为需求灵活性在能量和污染方面是丰富且高效的，进一步连接到高电压和低电压电平。本发明的实施例可以用于控制或操作能耗，诸如展示一些灵活性(即具有随时间调整能量使用的自由度)的大型异构消耗设备群集的电力。

消耗设备7的示例是储热器(即，电力到热)，即图10中示意性示出的储罐50。储罐50可以是根据通过引用纳入于此的WO 2012164102的锅炉或热缓冲器。热水储罐50可将电能转换为热能，例如使用浸入式电加热器52。所产生的热水可用于例如淋浴或一般家庭使用。一般而言，存在一些时间，例如在夜间没有使用热水，因此在夜间的电力消耗方面有一定的灵活性，因为在选择热水储罐加热并因此消耗电力的时间方面有一定的灵活性。所有必要的是，有足够的热水供下一次淋浴使用。通常，使用简单的定时器开关来设置锅炉的加热，以在夜间操作，从而在锅炉加热的夜间当前没有灵活性的使用。

可以从顶部54提取热水并且在底部56注入冷水。电加热器52存在于水容体中以加热水。其他加热水的方法也包括在本发明的范围内。从操作角度来看，可以提供可控继电器58，其闭合或断开加热器所在的电路。该断开或闭合可以例如使用数字控制系统来完成。例如，继电器58可以包括通信端口和微处理器或微控制器，微处理器或微控制器可以接收用于接通和关断继电器58的数字信号。例如，通过向继电器发送0或1信(例如，从中央控制器46或本地控制器47)，继电器相应地闭合或断开。此外，关于热水罐参数的信息可以自动地传递给中央控制器46或本地控制器47，例如，在一个位置测量的水温以规则的时间间隔进行传递。水温与电荷状态(SoC)相关并且可以转换成电荷状态(SoC)，即相对于最大温度并因此相对于设备50可以存储的最大能量。水温和SoC是锅炉的能量状态值，并且可以用许多不同的方式表达，例如，水温、平均水温、中位水温、作为缩放度量的1-SoC(这是对在达到最高水温之前可以向锅炉供应多少能量的度量)、1/SoC，1/1-SoC，即SoC的函数等。这些值中的任一个值也可以通过使用它存储的历史记录来计算相关值的本地智能来导出。

如图10所示的储热罐50将相关数据发送到本地控制器47或中央控制器46，以准备要引入到图1或图4的2D网格12中的数据。状态值应以规则时间间隔发送。储热设备50中的水温或SoC值表示设备中的热能量并因此是该设备的状态值。可以使用的其他状态值是SoC、1-SoC、1/SoC、1/1-SoC、SoC的函数等。该状态值可以与来自其他这样的设备50的值或来自此类设备的群集中的异构设备的值聚合并且然后分仓在图2的直方图8的仓的范围内，参见例如S.Koch、JLMathieu和DSCallaway的“用于辅助服务的聚合式异构恒温控制负载的建模和控制(Modeling and control of aggregated heterogeneous thermostaticallycontrolled loads for ancillary services)”，第17届IEEE电力系统会议(PSCC)会刊，第1-7页，瑞典斯德哥尔摩，2011年8月。分仓值形成上述2D网格12的Y轴。2D网格12的水平轴是时间，因此状态值，例如水温或SoC、1-SoC等以规则的时间间隔传送到本地控制器47或中央控制器46。

如图4所示，多于一个的2D网格序列可被输入到卷积神经网络14、15、19中。平行2D网格12的状态值可以被选择，例如从水温、平均水温、中位水温、SoC、1-SoC、1/SoC、1/1-SoC、SoC的函数等中选择。

参考图2，例如，关系3可以是1-Soc函数中的电力或电能。1-SoC越接近值1，锅炉消耗越多，因此锅炉紧急接收电能的必要性越高。因此，优先接收能量的必要性与设备的1-SoC的值有关。由此，群集中的设备在任何时刻的优先级可以在步骤2中聚合。因此，关系3可以指示该优先级(X轴)以及要以该优先级供应的功率或能量(Y轴)。为了保持稳定性，如果优先级与可供应的能源或功率之间的关系允许高优先级的少量能量或功率以及仅仅低优先级的大量能量，则是优选的。因此，任何设备可以消耗的能量或功率优选是递减的，例如，优先级的逐步递减函数。

关于图2，三步过程中的第二步4向群集递送控制动作u_k。该控制动作“u_k”应该被设计成允许确定设备50的整个群集将在下一个时间帧中消耗的平均功率或能量，并且因此将指示该群集中的哪个设备50必须被充电。聚合涉及信息的丢失和表示中的不准确性，如US2009/228324中所解释的，其中解释了这导致能量的非最优分配。US2009/228324建议提供可调参数以基于控制网络中的可用通信和处理带宽以及期望的能量分配准确性来调整期望准确度。本发明的分派步骤6避免了任何这样的问题，因为它可以使用低带宽通信，因为只有“u_k”的值必须被传送到群集。该值“u_k”可以使用在步骤6中被示为关系34的关系3与明确优先级相关。当值“u_k”用作输入时，优先级高于从关系34获得的明确优先级的任何设备可以在下一时间帧中消耗电能。也可以使用明确的1-SoC值等状态值的明确值，而不是明确的优先级。在这种情况下，当值“u_k”用作输入时，具有比从关系34获得的明确的1-SoC的值高的1-SoC值的设备能在下一时间帧中消耗电力。通常，如关于上面的等式22所解释的，设备根据可用性函数b_i(p*_r,k)消耗功率。除了开/关设备之外的其他设备可以在本发明的实施例中使用。

总结这些分派方法，步骤4提供了值“u_k”，从中可以确定设备50的群集可以消耗的能量或功率。优选地，这个“u_k”的值被转换成与该群集消耗电力或电能的当前必要性相关(即与优先级相关)的值。然后，在消耗功率的必要性高于当前必要性的情况下，群集中的每个设备都被允许消耗电力以用于所有应用。值u_k是整个群集要消耗的功率，并且可以发送给任何合适的竞拍机制(诸如能量竞拍)以获得相关能量或功率。根据当时的市场情况，在下一个时间帧内将有许多功率或能量可用。这一能量可能低于u_k规定的能量，即实际和经济上合理的能量可能小于u_k。然而，与实际获得的能量值无关地，可以使用获取的量来确定明确的优先级，从中可以为每个设备计算要消耗的功率或能量。该计算可以在云中或者在本地完成。本发明的实施例不排除控制动作可以在本地被否决，例如，储存罐可通过手动盖写来加热或冷却。随着时间的推移，卷积神经网络可以学习和适配其操作以满足计划操作中的这种中断。

在下文中描述了其他示例，每个示例都能够如上所述进行控制。

如图11所示，包括储热器的消耗者设备7的另一个示例是房间或房间集合60的加热。储热器直接来自建筑物的热质量，即空气本身、墙壁、家具和/或储热设备。由可以是电加热器62的加热器产生的热能被释放到房间或房间集合60的空气中。这可以直接来自电加热器62或通过包含诸如水之类的介质的散热器电路。可控继电器68可以被适配成开启和关闭加热。该开启和关闭可以例如使用数字控制系统来完成。例如，继电器68可以包括通信端口和微处理器或微控制器，微处理器或微控制器可以接收用于接通和关断继电器68的数字信号。例如，通过向继电器发送0或1信号，继电器68相应地关闭或打开。此外，关于房间60的参数的信息可以传递给控制器46或本地控制器47，例如，通过传感器64在一个位置处测量的空气温度。家具或墙壁或空气的温度或这些值的组合可以被转换成电荷状态(SoC)，即相对于最大温度并因此相对于房间或房间集合60可能具有的最大能量，但通常只有操作空气温度可用，家具/墙壁等的温度未被观测，这正是需要从该状态中的历史数据中推断出来的。

如图11所示的储热设备60将相关数据发送到本地控制器47或中央控制器46，以准备要引入到图1或图4的2D网格12中的数据。储热设备60中的空气温度或SoC值表示房间或房间集合中的热能量并因此是该房间或房间集合的状态值。该状态值可以与来自这样的设备的群集中的其他这样的设备60的值聚合，然后在形成2D网格12的Y轴的箱的各个仓中的一个仓的范围内分仓。2D网格12的水平轴是时间，因此空气温度的状态值以规则的时间间隔传递到本地控制器47或中央控制器46。关于图2，三步过程中的第二步向群集递送控制动作“u_k”。该控制动作可以是房间或房间集合60在下一时帧中可以消耗的能量或功率，并且因此将指导房间或房间集合60中的哪一个可以消耗电能并且可以被加热并在下一个时间帧中持续多久。本发明的实施例不排除控制动作可以在本地被否决，例如，房间可通过手动盖写来加热或冷却。随着时间的推移，卷积神经网络可以学习和适配其操作以满足计划操作中的这种中断。

另一个消耗者设备7可以是图12中所示的蓄电设备70，例如用于驱动混合动力车或电动车的电池或超电容器。蓄电设备70可以消耗/产生电能/电力。可以发送到中央控制器46或本地控制器47的电池的状态值是电池的电荷状态(SoC)或表示该值的任何其他值。

如图11所示的蓄电设备70将相关状态数据发送到本地控制器47或中央控制器46，以准备要引入到图1或图4的2D网格12中的数据。蓄电设备70的SoC值表示设备中的热能量，因此是该设备的合适状态值。该状态值可以与来自这样的设备的群集中的其他这样的设备70的值聚合，然后在形成2D网格12的Y轴的箱的各个仓中的一个仓的范围内分仓。2D网格12的水平轴是时间，因此SoC值以规则的时间间隔传递到本地控制器47或中央控制器46。关于图2，三步过程中的第二步4向群集递送控制动作u_k。该控制动作u_k可以是设备70的群集在下一时间帧中可以消耗的功率或能量，并且因此将指导哪些设备70可以被充电。本发明的实施例不排除控制动作可以在本地被否决，例如，电池可通过手动盖写来充电。随着时间的推移，卷积神经网络可以学习和适配其操作以满足计划操作中的这种中断。

本发明不限于开关控制。在图13中示出了另一种典型的功率到热存储的实现，其与上面的描述非常类似，然而温度设定点被控制而不是开/关开关，并且该设定点可以优选地被远程改变(在人类操作员的约束内)，本地控制器47于是相应地行动。例如，本地控制器47可以是跟踪温度设定点的本地PID控制器，滞后控制器等。

为了不干扰加热系统的运行管理，本地控制器47具有与人类操作员相同的可用动作。当存在本地可再生能源时，设定点可以增加，导致本地控制器47开始允许消耗更多的能量，该能量暂时存储在建筑物的空气和热质量中。因此，在任何实施例中对控制动作u_k的反应可以不是开/关控制，而是可以包括将影响功率或能量消耗的任何变化，例如通过改变本地控制器的设定点。在该实施例中，取决于要控制的系统的状态值(例如，如上所公开的温度、SoC，...)和电力系统的状态来控制操作点(开/关状态，功率，温度等)，例如需求和供应之间的平衡、由例如电压等表达的电网状态等。本发明的实施例能够平衡网络41的能量产生和消耗。为了使网络保持运行，中央控制器46和/或本地控制器47可以被适配成关闭或打开所有相关继电器，改变开关或改变设定点，基于电力系统的状态(即平衡，电压，...)以及能源的连通灵活性的状态来操作功率。这在图14中示意性地示出，其中系统不平衡被看作是整个网络的状态值，例如不平衡信号可以表达为网络中的当前和预期不平衡，用MWh表示。如图2或图4所示，该状态值可作为外部状态信息x_ex被包括为第二全连接网络17的输入16，其输出被传递到全连接神经网络15。这允许卷积神经网络学习和适应系统不平衡。或者，如果不平衡信息将是将来可能出现的高维表示，则其可以被包括为状态值11之一(参见图1和4)。基于网络中的情况和网络中的预测情况，开启或关闭TLC群集中的每个元件的开关或继电器。

为了决定继电器是打开还是关闭，可以考虑整个群集的状态。状态由可用的测量信息表示，例如，在每个TCL本地测量的温度。测量的温度不一定带有整个系统的状态。过去的一系列观察值可以用来表示系统的状态。为了使状态维数保持切合实际，可以使用上述聚合。根据过去的对状态的观察和对网络状态的预测，确定控制策略，根据该控制策略确定针对每个TCL的控制动作，即确定TCL是打开还是关闭。

分布式控制系统的一个问题是旧式设备通常不具有用于与需求响应配电网络41通信的装置。如图15中示意性示出的，可以通过本发明的实施例来控制旧式设备50，例如异构设备。

需求响应配电网络41向工业和消费场所提供电力。例如，在图15中示意性示出的房屋53中存在房间，并且在每个房间或一些房间中存在设备50和可控开关52，例如，EP-A-2618 445中公开的需求响应适配器，该专利通过引用纳入于此。具有本地智能的本地控制器47可以安装在这种房屋中，并通过用于接收功率的电缆或通过其他电信装置连接到需求响应配电系统41，并且至少通过以下方式连接到每个可控开关52和设备50：载流电缆54(例如，使用电力通信上的数据)和/或LAN线缆或无线连接。当每个设备50需要电力时(例如，锅炉在晚间、每个工作日上午7点的制茶机)，本地控制器47用优先级和时间来被编程(例如手动)。本地控制器47被适配成控制每一个开关52以接通或关断该开关。因此，本地控制器47与可控开关52相组合地针对网络41仿真旧式设备。与需求响应系统41的通信可以经由电缆上的信令，如同在住宅中所做的那样。例如，本地控制器47为图1或图4的2D网格12提供输入。例如，该输入可被提供给群集控制器49。群集控制器49的输入可以是房屋中的每一个设备50的电荷状态和/或每一个设备50在下一时间段内的预期需求。此类数据可由用户输入到本地控制器47并且控制器47将该信息提供给群集控制器49。可确定电荷状态，如在通过引用纳入于此的WO2012164102中解释的。本地控制器47可以包括如EP-A-2 608 123中公开的PID控制器，该专利通过引用结合于此。

例如，群集控制器49可以接收来自图2中的步骤4的所广播的控制动作u_k。根据该值u_k，控制器47确定例如房屋53的优先级并且将其发送到本地控制器47，本地控制器47可以从该优先级直接或间接地确定允许设备50消耗多少电力和何时消耗电力。通过使用控制器47和/或群集控制器49中的本地智能，可以通过本发明的实施例来控制异构设备，特别是异构旧式设备，如通常在许多消费场所中找到的那样。

图16示出了根据本发明的实施例的网络的概览。目前可用的需求响应系统通常使用直接负载控制，其中消费电器上的遥控开关在电力需求高峰期或应急供电期间关闭电源。这些系统通常依靠单向寻呼通信来获得控制信号给远程开关。如图16所示，本发明的实施例具有单独设备7或设备45的群集与分配网络41(例如，包括中央控制器46)之间的双向通信。因此，网络41具有端到端的可见性，不仅具有从消费者场所到头端的基础设施的全貌，而且具有由卷积神经网络提取的时间模式。

本发明的实施例涉及控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的方法以及用于执行该方法的控制器。本发明提供了一个或多个神经网络的实现，该一个或多个神经网络包括多个数字神经元以使得每一个神经元都与互连网络相关联，由此在一神经元与至少另一神经元之间存在加权连接。

物理产品可以是例如热能或电能。

这一方法可由控制器(例如，中央控制器46和/或群集控制器49和/或本地控制器47)执行，该控制器具有诸如由一个或多个微处理器、FPGA或综合处理单元(CPU)和/或图形处理单元(GPU)提供的处理能力，并且被适配成通过用软件(即，一个或多个计算机程序)编程来执行相应功能。对软件的引用可涵盖以能由处理器直接或间接执行的任何语言(经由经编译或解释性语言)编写的任何类型的程序。本发明的任何方法的实现可以由逻辑电路、电子硬件、处理器或电路执行，其可以包括任何种类的逻辑或模拟电路，集成到任何程度，并且不限于通用处理器、数字信号处理器、ASIC、FPGA、分立组件或晶体管逻辑门等。

此类控制器可以具有存储器(诸如非瞬态计算机可读介质、RAM和/或ROM)、操作系统、可任选地显示器(诸如固定格式显示器)、数据输入设备(诸如键盘)、指针设备(诸如“鼠标”)、用于与其他设备通信的串行或并行端口、连接到任何网络的网卡和连接。

例如，软件可以被适配成当例如在控制器中的处理引擎上执行时执行控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的方法。软件可被实现在计算机程序产品中，该计算机程序产品被适配成在软件被加载到控制器上并且在一个或多个处理引擎(诸如微处理器、ASIC的处理引擎、FPGA的处理引擎等)上执行时执行下列功能。因此，用于本发明的任何实施例的控制器可以包含能够以计算机软件的形式运行一个或多个计算机应用的计算机系统。

该方法和控制器可被适配成使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至受限群集元素的物理产品量，由此该控制技术从与要控制的需求响应系统的交互中学习，并且通过以下操作来提取特征：向卷积神经网络输入需求响应系统中的至少一个群集的历史观察值或优选地聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中卷积神经网络执行2D卷积并学习从2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征。

上述方法可以由一个或多个计算机应用程序来执行，该一个或多个计算机应用程序通过被加载到存储器中来在计算机系统上运行并且在诸如由美国微软公司提供的Windows^TM、Linux、Android等操作系统上运行或与之相关联地运行。计算机系统可以包括主存储器，优选为随机存取存储器(RAM)，并且还可以包括非瞬态硬盘驱动器和/或可移除非瞬态存储器和/或非瞬态固态存储器。非瞬态可移动存储器可以是由合适的读取器读取并写入的诸如紧凑盘(CD-ROM或DVD-ROM)之类的光盘、磁带。可移动非瞬态存储器可以是其中存储有计算机软件和/或数据的计算机可读介质。

非易失性存储记忆体可被用于存储在计算机系统断电的情况下不会丢失的持久信息。应用程序可使用信息并将其存储在非易失性存储器中。其它应用可被加载到存储器中并且在计算机系统上运行。计算机系统还可包括用于接收2D网格数据作为对卷积神经网络的输入的接口。该接口可以用于接收来自本地源的数据，例如通过键盘输入或从外围存储设备，例如从由合适的读取器读取或写入的诸如紧凑盘(CD-ROM或DVD-ROM)之类的光盘或者从磁带，或者从诸如闪存驱动器之类的固态存储器或直接从传感器。计算机系统可执行本文公开的一个或多个实施例。此外，本文所述的实施例和功能性可在分布式系统(如基于云的计算系统)上操作，其中应用功能性、存储器、数据存储和检索、以及各种处理功能可在诸如因特网或内联网之类的分布式计算网络上彼此远程地操作。在此，2D网格数据可以经由数据传输网络远程地获取。在此，计算机系统可包括通信接口。通信接口允许在该计算机系统与包括网络或“云”的外部设备之间传输软件和数据。通信接口的示例可包括调制解调器、网络接口(诸如以太网卡)、通信端口、PCMCIA槽和卡等。经由通信接口传送的软件和数据是以信号的形式，可以是例如电子的、电磁的、光学的或能够被通信接口接收的其他信号。这些信号经由本地或远程通信信道提供到通信接口。该通信信道携带信号并且可以使用有线或电缆、光纤、电话线、蜂窝电话链路、RF链路和/或其它通信信道来实现。

非瞬态信号存储设备可以存储计算机可执行指令，所述计算机可执行指令在由至少一个处理器执行时执行本发明的任何方法。计算机程序产品(也称为计算机控制逻辑)可被存储在主存储器和/或次存储器中。计算机程序产品还可经由通信接口接收。这种计算机程序产品在运行时使计算机系统能够执行如本文所讨论的本发明特征。因此，这种计算机程序代码计算机系统的控制器。

体现在计算机程序产品中的软件被适配成在软件被加载到相应的一个或多个设备上并且在一个或多个处理引擎(诸如微处理器、ASIC、FPGA等)上执行时执行以下功能：

控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求，

使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至受限群集元素的物理产品量，由此该控制技术从与要控制的需求响应系统的交互中学习。

允许向卷积神经网络输入需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中卷积神经网络执行2D卷积并学习从2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征。

至少将从卷积神经网络中提取的局部卷积特征输入到第一神经网络中，第一神经网络至少输出状态动作值函数的近似值，该近似值为该至少一个群集提供与该至少一个群集处于一状态以及采取动作的每一个组合相关联的值，

根据控制动作来在下一控制步骤期间分配将由群集元素消耗或释放的物理产品的目标量。

计算机系统具有合适的输出接口，该输出接口可以是如上文解释的通信接口。

优选地将第一神经网络作为全连接神经网络来提供，和/或

提供作为无模型控制技术的控制技术。

将状态动作值函数实现为Q函数(Q(x,u))。

将控制动作和外生状态信息输入到第二神经网络，该第二神经网络作为输入连接到第一神经网络，

将外生状态信息和控制动作与卷积神经网络的所提取的卷积局部特征合并，

在将外生状态信息和控制动作与卷积神经网络的所提取的卷积局部特征合并之前，可以执行单独的特征提取，其中外生状态信息和控制动作首先被馈送到第二神经网络中，该第二神经网络将外生状态信息和控制动作映射到所学习的内部表示，该内部表示在下一隐藏层中与所提取的卷积局部特征相组合。

优选地将第二神经网络作为全连接神经网络来提供，和/或

优选地将隐藏层作为全连接层来提供。

卷积神经网络首先捕捉2D网格结构和卷积神经网络中的模式，并且第一和第二神经网络学习从聚合的群集状态和外生数据到目标量的映射。

输入2D网格结构，该2D网格结构具有表示在固定时间步长处的群集状态的所有观察值的一个维度以及第二维度，该第二维度对应于在所有时间步长处的群集元素的多个状态变量中的每一个的值随时间的变化，2D特征提取操作随时间和空间应用，从而导致对标识状态信息以及历史中的局部结构的时空特征的标识。

学习表示在多个时间步长中发生的状态值变化的特征，

将所学习的特征输入到第一和可任选的第二全连接神经网络的更高网络层。

同时一起训练卷积网络以及第一和第二网络。

上述软件中的任何软件可被实现为计算机程序产品，该计算机程序产品已被编译用于服务器或网络节点中的任何一者中的处理引擎。计算机程序产品可被存储在非瞬态信号存储介质上，诸如光盘(CD-ROM或DVD-ROM)数字磁带、磁盘、固态存储器(诸如USB闪存)、ROM等等。

Claims

1.一种控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的基于计算机的方法，所述方法包括以下步骤：

使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至所述受限群集元素的物理产品量，由此所述控制技术从与要控制的所述需求响应系统的交互中学习，所述方法包括以下特征提取步骤：

向卷积神经网络输入所述需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，所述群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中所述卷积神经网络执行2D卷积并学习从所述2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征，

所述方法进一步包括：

至少将所提取的局部卷积特征输入到第一神经网络，所述第一神经网络至少输出状态动作值函数的近似值，所述近似值为所述至少一个群集提供与所述至少一个群集处于一状态以及采取动作的每一个组合相关联的值，

确定或计算控制动作，所述控制动作是采取动作与群集处于一状态的优选组合，或者从采取动作和群集处于一状态的优选组合中导出，以及

根据所述控制动作来在下一控制步骤期间分配将由群集元素消耗或释放的物理产品的目标量。

2.如权利要求1所述的方法，其特征在于，所述控制技术是无模型的。

3.如任意先前权利要求所述的方法，其特征在于，所述状态动作值函数是Q函数(Q(x,u))。

4.如任意先前权利要求所述的方法，其特征在于，所述产品是热能或电力或电能。

5.如任意先前权利要求所述的方法，其特征在于，所述控制动作和外生状态信息被输入到作为输入连接到所述第一神经网络的第二神经网络。

6.如权利要求5所述的方法，其特征在于，进一步包括将外生状态信息和所述控制动作与所述卷积神经网络的所提取的卷积局部特征合并。

7.如权利要求6所述的方法，其特征在于，在将外生状态信息和所述控制动作与所述卷积神经网络的所提取的卷积局部特征合并之前，执行单独的特征提取，其中所述外生状态信息和所述控制动作首先被馈送到所述第二神经网络中，所述第二神经网络将所述外生状态信息和所述控制动作映射到所学习的内部表示，所述内部表示在下一隐藏层中与所提取的卷积局部特征相组合。

8.如权利要求5、6、7所述的方法，其特征在于，网络不平衡值被包括在所述外生状态信息中。

9.如权利要求5到8中的任一项所述的方法，其特征在于，在一个时间步长中确定的控制动作被包括在下一时间步长的外生信息中。

10.如任意先前权利要求所述的方法，其特征在于，进一步包括仿真旧式设备。

11.如权利要求5到10中的任一项所述的方法，其特征在于，所述卷积神经网络首先捕捉所述2D网格结构和所述卷积神经网络中的模式，并且所述第一神经网络和所述第二神经网络学习从聚合的群集状态以及外生数据和所述控制动作到目标量的映射。

12.如任意先前权利要求所述的方法，其特征在于，所述2D网格结构具有表示在固定时间步长处的群集状态的所有观察值的一个维度以及第二维度，所述第二维度对应于在所有时间步长处的群集元素的多个状态变量中的每一个的值随时间的变化，所述2D特征提取操作随时间和空间应用，从而导致对标识状态信息以及历史中的局部结构的时空特征的标识。

13.如权利要求12所述的方法，其特征在于，学习表示发生在多个时间步长中的状态值变化的特征。

14.如权利要求13所述的方法，其特征在于，所学习的特征被至少所述第一神经网络的更高网络层用作输入。

15.如权利要求5到14中的任一项所述的方法，其特征在于，所述卷积网络以及所述第一神经网络和所述第二神经网络是一起训练的。

16.一种用于控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的基于计算机的网络架构，包括：

用于使用强化学习(RL)形式的控制技术来确定要在下一控制步骤期间分配至所述受限群集元素的物理产品量的装置，由此所述控制技术从与要控制的所述需求响应系统的交互中学习，

用于提取特征的装置，所述提取特征包括：

向被适配成用于输入的卷积神经网络输入所述需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，所述群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中所述卷积神经网络执行2D卷积并学习从所述2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征；

至少将从所述卷积神经网络中提取的局部卷积特征输入到第一神经网络中，

所述第一神经网络被适配成至少输出状态动作值函数的近似值，所述近似值为所述至少一个群集提供与所述至少一个群集处于一状态以及采取动作的每一个组合相关联的值，以及

用于确定或计算控制动作的装置，所述控制动作是采取动作与群集处于一状态的优选组合，或者从采取动作和群集处于一状态的优选组合中导出，以及

用于根据所述控制动作来在下一控制步骤期间分配将由群集元素消耗或释放的物理产品的目标量的装置。

17.如权利要求16所述的基于计算机的网络架构，其特征在于，所述控制技术是无模型的。

18.如权利要求16或17所述的基于计算机的网络架构，其特征在于，所述状态动作值函数是Q函数(Q(x,u))。

19.如权利要求16到18中的任一项所述的基于计算机的网络架构，其特征在于，所述产品是热能或电力或电能。

20.如权利要求16到19中的任一项所述的基于计算机的网络架构，其特征在于，提供第二神经网络，所述第二神经网络作为输入连接到所述第一神经网络，并且所述第二神经网络被适配成接收所述控制动作和外生状态信息作为输入。

21.如权利要求20所述的基于计算机的网络架构，其特征在于，进一步包括用于将外生状态信息和所述控制动作与所述卷积神经网络的所提取的卷积局部特征合并的装置。

22.如权利要求21所述的基于计算机的网络架构，其特征在于，提供用于在将外生状态信息和所述控制动作与所述卷积神经网络的所提取的卷积局部特征合并之前执行单独的特征提取的装置，其中所述外生状态信息和所述控制动作首先被馈送到所述第二神经网络中，所述第二神经网络将所述外生状态信息和所述控制动作映射到所学习的内部表示，所述内部表示在下一隐藏层中与所提取的卷积局部特征相组合。

23.如权利要求20、21或22所述的基于计算机的网络架构，其特征在于，网络不平衡值被包括在所述外生状态信息中。

24.如权利要求20到23中的任一项所述的基于计算机的网络架构，其特征在于，在一个时间步长中确定的控制动作被包括在下一时间步长的外生信息中。

25.如权利要求16到24中的任一项所述的基于计算机的网络架构，其特征在于，被进一步适配成仿真旧式设备。

26.如权利要求20到25中的任一项所述的基于计算机的网络架构，其特征在于，所述卷积神经网络被适配成首先捕捉所述2D网格结构和所述卷积神经网络中的模式，并且所述第一神经网络和所述第二神经网络被适配成学习从聚合的群集状态以及外生数据和所述控制动作到目标量的映射。

27.如任意先前权利要求16到26所述的基于计算机的网络架构，其特征在于，所述2D网格结构具有表示在固定时间步长处的群集状态的所有观察值的一个维度以及第二维度，所述第二维度对应于在所有时间步长处的群集元素的多个状态变量中的每一个的值随时间的变化，所述2D特征提取操作随时间和空间应用，从而导致对标识状态信息以及历史中的局部结构的时空特征的标识。

28.如权利要求27所述的基于计算机的网络架构，其特征在于，学习表示发生在多个时间步长中的状态值变化的特征。

29.如权利要求28所述的基于计算机的网络架构，其特征在于，所学习的特征被至少所述第一神经网络的更高网络层用作输入。

30.如权利要求20到29中的任一项所述的基于计算机的网络架构，其特征在于，所述卷积网络以及所述第一神经网络和所述第二神经网络是一起训练的。

31.一种用于控制将被分配至需求响应系统中的以群集组合的受限群集元素的物理产品的需求的控制器，包括：

用于提取特征的装置，所述提取特征包括：

向被适配成用于输入的卷积神经网络输入所述需求响应系统中的至少一个群集的历史观察值或聚合在一个或多个2D网格结构中的历史观察值的衍生物，其中2D网格结构的一个维度表示多个时间步长，而另一个维度在多个时间步长捕捉群集状态，所述群集状态通过对于每一时间步长聚合至少一个群集中的群集元素的局部状态来表示，其中所述卷积神经网络执行2D卷积并学习从所述2D网格结构中的群集元素的局部时间和聚合的局部状态变化的组合中提取局部卷积特征，

32.一种包括代码的计算机程序产品，所述代码当在处理引擎上执行时被适配成执行权利要求1至15所述的方法中的任一种。

33.如权利要求31所述的计算机程序产品，其特征在于，所述计算机程序产品被存储在非瞬态机器可读信号存储装置上。