CN115552412A

CN115552412A - 利用异构代理组进行图卷积强化学习

Info

Publication number: CN115552412A
Application number: CN202180033180.1A
Authority: CN
Inventors: 安东·科切图罗夫; 德米特里·弗拉德金; 尼古拉·博罗季诺夫; 阿基梅德斯·马丁内斯·卡内多
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2020-05-05
Filing date: 2021-04-30
Publication date: 2022-12-30
Also published as: WO2021225879A2; EP4128049A2; WO2021225879A3; US20230185253A1

Abstract

用于自适应地控制系统的异构系统的系统和方法。图卷积网络(GCN)接收表示处于系统的时刻和状态下的观察到的环境的拓扑的图的时间序列。生成具有每个图节点的局部信息的嵌入式特征。这些嵌入式特征被划分为根据限定的分组(诸如节点类型)来分组的嵌入式状态。若干强化学习算法中的每一个强化学习算法都被分配给唯一的组，并且包括自适应控制策略，在该自适应控制策略中学习针对给定嵌入式状态的控制动作。响应于控制动作，从环境接收具有与专用于唯一的组的性能有关的局部奖励和与整个图的性能有关的全局奖励的奖励信息。使用状态信息、控制动作信息和奖励信息来更新GCN和自适应控制策略的参数。

Description

利用异构代理组进行图卷积强化学习

技术领域

本申请涉及通过动态图模型的自适应控制。更具体地，本申请涉及将图卷积网络和强化学习相结合以分析异构代理组的系统。

背景技术

强化学习(RL)已经在许多应用中用于自适应控制。在RL中，代理通过观察环境、选择动作(从某离散或连续动作集合)以及接收偶尔的奖励来与环境交互。在多个交互之后，代理学习用于选择最大化其奖励的动作的策略或模型，这些动作必须被清楚地设计成鼓励代理具备期望的行为。

传统的方法假定对整个系统进行控制，这受到可扩展性问题和不灵活性的影响，进而阻碍了快速适应不断变化的条件。该可替代性解决方案是利用多个系统中的一个系统的概念，其中，代理学习控制一个或一组类似的子系统，并且最大化局部(即，子系统组)和全局(即，整个系统)级别上的奖励(例如，KPI)，同时考虑当前与该代理最相关的信息。

多个系统中的一个系统能够自然地描述为具有表示子系统和它们之间的边缘(例如，子系统之间的关系)的节点的图，其规定了节点如何连接以及信息如何在节点之间传播。为了控制节点，代理能够直接在节点和其邻域中的所有节点处获取可用信息。在该设置中，每个节点与特征的集合(数据)相关联，该特征的集合能够是或不是专用于节点类型的。边缘或链接也能够与它们自己的特征的集合相关联。

一种称为图卷积网络(GCN)的机器学习模型能够应对从此类复杂的类图系统进行学习。GCN能够将一系列参数化聚合和非线性变换应用于每个节点/边缘特征的集合，该每个节点/边缘特征的集合考虑到图的拓扑并且考虑特定任务(如节点分类、链路预测、特征提取等)来学习这些参数。

已经证明组合的GCN和RL框架用于不同的应用，包括分子图生成、自主驾驶、交通信号控制、多代理合作(同类机器人)和组合优化。这些方法显示出性能的显著提高。然而，这些方法在图节点是同类的假设下操作，即，它们共享相同的动作和观察空间，因此RL代理共享相同的策略。此类限制不能提供用于对异质代理的复杂系统进行建模的准确解决方案。

发明内容

一种自适应地控制系统的异构系统的系统和方法。图卷积网络(GCN)接收表示在系统的时刻和状态下观察到的环境的拓扑的图的时间序列。生成具有每个图节点的局部信息的嵌入式特征。嵌入式特征被划分为根据限定的分组(诸如节点类型)来分组的嵌入式状态。若干强化学习算法中的每一个强化学习算法都被分配给唯一的组并且包括自适应控制策略，在该自适应控制策略中，学习针对给定嵌入式状态的控制动作。响应于控制动作，从环境接收具有与专用于唯一的组的性能有关的局部奖励和与整个图的性能有关的全局奖励的奖励信息。使用状态信息、控制动作信息和奖励信息来更新GCN和自适应控制策略的参数。

附图说明

参考以下附图描述本实施例的非限制性和非穷举性实施例，其中，除非另有说明，否则在所有附图中相同的附图标记表示相同的元件。

图1示出了用于实现本公开的实施例的计算环境的框图。

图2示出了根据本公开的实施例的将图卷积网络与用于对异构代理组建模的强化学习相结合的框架的实例。

具体实施方式

本发明公开了用于解决异构控制组的自适应控制的技术问题的方法和系统。训练强化学习(RL)框架以控制彼此通信的异构子系统的动态集合的一个挑战是图节点不共享相同的动作和观察空间，因此RL代理不共享相同的策略。为了克服训练RL代理的挑战，所公开的实施例根据利用每组单独的自适应控制策略进行的异构控制策略分组来操作。图卷积网络被操作用于在系统级提取嵌入式特征，而RL代理被训练以在子系统级控制各组。结果，RL代理执行复杂异构系统的自适应控制。例如，能够通过具有专门的强化学习的图卷积网络的框架来自适应地控制执行不同任务的异构机器人的协作。

图1示出了用于实现本公开的实施例的计算环境的框图。计算系统100包括存储器120、系统总线110和处理器105。图卷积网络模块121是作为程序模块存储在存储器120中的神经网络。强化学习模块122作为程序模块存储在存储器120中。处理器105执行模块121、122以执行所公开的实施例的功能。用于训练神经网络的训练数据115能够被局部存储或者能够被远程存储，诸如存储在基于云的服务器中。在可替代性实施例中，图卷积网络模块121和强化学习模块122能够部署在基于云的服务器中并且由计算系统100使用网络接口来访问。

图2示出了根据本公开的实施例的将图卷积网络与用于对异构代理组建模的强化学习相结合的框架的实例。在一个实施例中，环境201将各系统中的系统表示为表示不同类型的子系统的节点和表示子系统关系的不同类型(例如，数据如何在节点之间传播)的边缘的图。例如，环境201能够包括不同的节点类型202、203、204、205和不同的边缘类型206、207。在时刻t观察环境201的特征的集合，并构成系统的状态S_t。底层图G_t自然是S_t的一部分，因为其描绘了时刻t的拓扑。而图2所示的图G_t出于说明的目的由少量节点组成，实际系统图能够由数以万计的节点组成。因此，为整个系统训练一个控制策略既在计算上是昂贵的又不是自适应的。

框架200包括GCN 210和RL自适应控制策略220。在一个实施例中，图节点被分成组，并且被限定为每组具有单独的控制策略。图节点的分组能够以若干方式实现，包括但不限于：节点类型、域、拓扑、数据集群和功能。例如，能够根据领域专家推荐的策略来限定领域驱动的分组。在拓扑驱动的分组中，中心节点能够落入一个组中，而外围节点上的节点能够落入另一组中。对于数据驱动分组，能够利用一些聚类方法根据节点的相似性将节点划分成组。作为函数驱动分组的实例，图中的节点的函数能够基于其所连接的节点/边缘而随时间改变。在一方面，分组的各种形式中的任一种形式，诸如以上描述的实例，(a)允许一种类型的节点在不同的组中，(b)允许组包含不同类型的节点，以及(c)允许所有节点全局地具有相同类型。

如图2所示，在状态S_t编译的初始特征211被馈送到GCN 210，其经历一系列聚合和非线性变换212(例如，使用GCN的隐藏层、递归层或两者)以提取包含每个节点的局部信息的嵌入式特征213(在节点、其邻居和与它们相邻的边缘处直接可用的特征)。这些层是参数化函数，这些参数是与控制策略同时从数据中学习的。可替代地或附加地，使用例如机器学习方法(诸如自动编码器或对图的节点特征预测)来预先学习参数。因此，GCN 210表示整个系统的全局知识，其在RL自适应控制策略220之间共享。

在一个实施例中，GCN 210根据限定的分组(例如，节点类型、域等)将嵌入式特征的集合213分成嵌入式状态

其中，限定了i组。图2中所示的实例涉及根据节点类型202、203、204、205限定的分组，然而，能够限定其他分组类型。嵌入式状态

被转发到RL自适应控制策略i，每个策略是相同或不同的RL算法221、222、223的单独实例，并且被学习以控制相应的节点组i(即，索引i跟踪组的数量和RL策略)。在一方面中，根据映射，每个嵌入式状态

仅被转发到对应的RL自适应控制策略。可替代地，每个RL自适应控制策略接收所有嵌入式状态

但仅对具有相应的一个或多个组的嵌入式状态起作用。如图2中所示的实例，RL自适应控制策略(ACP)1是针对根据节点类型203、204限定的组1而限定的，而RL ACP 2对应于针对节点类型205的组2，并且RL ACP k对应于根据节点类型1限定的组k。对于给定的输入嵌入式状态

RL自适应控制策略i输出动作

并从环境接收奖励

其能够包含系统的局部奖励r_局部 ⁱ _t+1(特定于节点组)和全局奖励r_全局t+1。因此，每个RL自适应控制策略被用于同时控制考虑到整个系统性能的特定节点组。这样，RL算法221、222、223作为RL代理执行。在学习过程中，三元组

用于如在传统RL中那样更新RL控制策略参数，并且进一步更新GCN层中的相应参数，这随后进一步使可共享层适应于手头的系统控制任务。

系统状态S_t结合了节点和边缘的特征和底层图G_t。根据应用和系统的特定实例，该图能够是静态的(G_t-1＝G_t)，如在电网控制中，其中，假设该图对于特定电网网络是固定的，或者是动态的(G_t-1≠G_t)，如在多代理协作设置中，其中，节点之间的连接随着节点在环境中移动而动态地改变。GCN具有改变通过聚合层的图的拓扑的一般可调节性，这允许考虑节点(新的/移除的边缘或节点)的变化邻域并且处理新的节点。

作为时间无关的隐藏GCN层的替代，框架200能够使用GCN块210中的递归层的集合来学习网络中的暂态转变，该递归层的集合被配置用于捕获图的动态作为特征级处的节点和边缘的演变，并产生具有该信息的嵌入以供控制组策略级处的RL控制策略使用。在这种情况下，系统将先前的环境图的集合(即，图的时间序列)作为输入，并且在下一个时间步骤生成该图作为输出，从而在嵌入式状态中捕获在每个时间步骤和跨多个时间步骤的节点之间的高度非线性交互。由于嵌入捕获节点和边缘的演变，RL组策略220能够使用该信息基于节点和边缘的功能属性来预期组控制策略的调整。

所公开的实施例的优点总结如下。跨策略的网络的可共享知识在GCN层中。组策略中的特定控制由异构RL模型生成。通过单独学习组策略并将RL策略信息反向传播到GCN层来增加可扩展性。经由聚合和/或递归层来学习对变化的条件(变化的拓扑、新的/丢弃的节点和链路)的自适应性，该聚合和/或递归层分析暂态转变并且因此捕获变化的网络动态。通过基于相似性、领域知识或动作空间中的差异的自适应和/或固定聚类来对节点进行分组。此外，由于嵌入捕获节点和边缘的暂态演变，能够基于图中的节点的功能属性来进行聚类。

虽然已经描述了本公开的特定实施例，但是本领域的普通技术人员将认识到，在本公开的范围内存在许多其他修改和可替代性实施例。例如，关于特定设备或组件描述的任何功能和/或处理能力能够由任何其他设备或组件来执行。此外，虽然已经根据本公开的实施例描述了各种说明性实施方式和架构，但是本领域普通技术人员将理解，对本文描述的说明性实施方式和架构的许多其他修改也在本公开的范围内。另外，应当理解，本文描述为基于另一操作、元素、组件、数据等的任何操作、元素、组件、数据等能够附加地基于一个或多个其他操作、元素、组件、数据等。因此，短语“基于”或其变体应被解释为“至少部分基于”。

附图中的框图图示了根据本公开的各种实施例的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这点上，框图中的每个框能够表示指令的模块、区段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些可替代性实施方式中，框中所提及的功能能够不按图中所提及的顺序发生。例如，连续示出的两个框实际上能够基本上同时执行，或者这些框有时能够以相反的顺序执行，这取决于所涉及的功能。还将注意，框图说明的每个框以及框图说明中的框的组合能够由执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。

Claims

1.一种用于系统的异构系统的自适应控制的系统，包括：

存储器，在所述存储器上存储有模块；和

处理器，所述处理器用于执行存储在所述存储器上的所述模块中的可执行指令，所述模块包括：

包括隐藏层的图卷积网络(GCN)，所述GCN被配置用于：

接收图的时间序列，每个图包括表示在系统的时刻和状态下观察到的环境的拓扑的节点和边缘，

提取每个图的初始特征；

处理所述初始特征以根据在所述隐藏层中执行的一系列聚合和非线性变换来提取嵌入式特征，其中，所述嵌入式特征包括用于每个节点的局部信息；以及

将所述嵌入式特征划分为根据限定的分组来分组的嵌入式状态；

强化学习模块，所述强化学习模块包括多个强化学习算法，每个算法被分配给唯一的组并且具有分别链接到所述唯一的组的自适应控制策略，每个算法被配置用于：

根据所述自适应控制策略来学习针对给定嵌入式状态的控制动作；

响应于所述控制动作，从所述环境接收奖励信息，所述奖励信息包括与专用于所述唯一的组的性能有关的局部奖励和与整个图的性能有关的全局奖励；以及

使用状态信息、控制动作信息和奖励信息来更新所述自适应控制策略的参数；

其中，所述状态信息、所述控制动作信息和所述奖励信息还用于更新用于所述GCN的所述隐藏层的参数。

2.根据权利要求1所述的系统，

其中，所述GCN还包括多个递归层，所述多个递归层被配置用于：

在所述嵌入式状态中，使用先前的图的集合作为输入，捕获作为特征级处的节点和边缘的演变的图动态，所述图动态包括在每个时间步骤和跨多个时间步骤的节点之间的非线性交互；以及

其中，所述强化学习模块被配置用于使用所述嵌入式状态来基于所述节点和边缘的功能属性来预期对组控制策略的调整。

3.根据权利要求1或2所述的系统，其中，所述图是静态的。

4.根据权利要求1或2所述的系统，其中，所述图是动态的，使得节点之间的连接在所述节点在所述环境中移动时动态地改变。

5.根据权利要求1或2所述的系统，其中，所述分组是根据节点类型来限定的。

6.根据权利要求1或2所述的系统，其中，所述分组是根据域来限定的。

7.根据权利要求1或2所述的系统，其中，所述分组是根据图拓扑来限定的。

8.根据权利要求1或2所述的系统，其中，所述限定的分组是数据驱动的。

9.根据权利要求1或2所述的系统，其中，所述限定的分组是函数驱动的。

10.根据权利要求1或2所述的系统，其中，所述限定的分组允许一种类型的节点在不同的组中。

11.根据权利要求1或2所述的系统，其中，所述限定的分组允许组包含不同类型的节点。

12.根据权利要求1或2所述的系统，其中，所述限定的分组允许所有节点全局地属于相同类型。

13.一种用于系统的异构系统的自适应控制的方法，包括：

由图卷积网络(GCN)接收图的时间序列，每个图包括表示在系统的时刻和状态下的观察到的环境的拓扑的节点和边缘，

由所述GCN提取每幅图的初始特征；

由所述GCN根据在隐藏层中执行的一系列聚合和非线性变换来处理所述初始特征以提取嵌入式特征，其中，所述嵌入式特征包括用于每个节点的局部信息；以及

由所述GCN将所述嵌入式特征划分为根据限定的分组来分组的嵌入式状态；

强化学习模块，所述强化学习模块包括多个强化学习算法，每个算法由分组策略被分配给唯一的组并且具有分别链接到所述唯一的组的自适应控制策略，每个算法被配置用于：

由强化学习模块算法根据自适应控制策略学习针对给定嵌入式状态的控制动作，其中，所述算法由所述分组策略被分配给唯一的组并且具有分别链接到所述唯一的组的自适应控制策略；

响应于所述控制动作，由所述强化学习模块算法从所述环境接收奖励信息，所述奖励信息包括与专用于所述唯一的组的性能有关的局部奖励和与整个图的性能有关的全局奖励；以及

由强化学习模块算法使用状态信息、控制动作信息和奖励信息来更新自适应控制策略的参数；

其中，所述状态信息、所述控制动作信息和所述奖励信息还用于更新所述GCN的所述隐藏层的参数。

14.根据权利要求13所述的方法，还包括：

在所述嵌入式状态中，使用先前的图的集合作为输入，捕获图动态作为特征级处的节点和边缘的演变，所述图动态包括在每个时间步骤和跨多个时间步骤的节点之间的非线性交互；以及

由强化学习模块算法使用所述嵌入式状态基于所述节点和边缘的功能属性来预期对组控制策略的调整。