CN110427006A

CN110427006A - 一种用于流程工业的多智能体协同控制系统及方法

Info

Publication number: CN110427006A
Application number: CN201910779718.8A
Authority: CN
Inventors: 姜雪松; 胡大鹏; 朱庆存; 孟超
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-08

Abstract

本公开提出了一种用于流程工业的多智能体协同控制系统及方法，设置进行特征提取的状态值到观测值的神经网络模型，更好的提取数据的重要特征，从而可以适应海量数据，甚至是高维数据的处理。然后采用极大极小深度确定性策略梯度算法进行学习，极大极小深度确定性策略梯度算法中的actor和critic网络从新的神经网络中学习，而不是从最初的观察中学习。这种利用神经网络进行状态表示学习的方法，使网络本身能够很好地捕捉特征，对数据的适应性更强。

Description

一种用于流程工业的多智能体协同控制系统及方法

技术领域

本公开涉及智能控制相关技术领域，具体的说，是涉及一种用于流程工业的多智能体协同控制系统及方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

流程工业涉及包括化学、炼油、冶金和制药等多行业，它在中国的工业生产中发挥着重要作用。作为国家主导产业，它在国民经济发展中起着举足轻重的作用。然而，流程工业的高复杂性，强非线性，强相关性，不确定性等特点使得理论研究和实际应用中的优化问题都难以实现。为了实现全球化生产，管理和营销模式的转变，实现流程行业的高端制造是关键。优化生产过程作为工业企业综合自动化的关键部分，也是公司挖掘潜力和提高效率的核心。

现代工业生产越来越朝着智能化方向发展。现代工业越来越依靠数据，同时工业生产中的数据量也开始进入PB级别，这使得工业数据与以往的生产数据对比发生了质的改变。近年来，对多智能体(Agent)人工智能的研究表明，多智能体(Agent)人工智能中的多智能体系统理论为智能制造系统的实现提供了可行的技术支持。它也成为制造领域的研究热点之一。智能体(Agent),泛指一类具有一定智能的抽象或者具象的对象或实体，其具备一定程度的感知环境、感知其他智能体、以及和环境或者其他智能体进行交互的能力。

在工业应用场景下往往都是合作交互的环境，甚至是竞争和合作的混合环境，而传统的多Agent强化学习模型无法适应这种复杂环境，从而降低了工业生产效率。智能制造强调全流程动态优化，需要进行多目标多环节多维度的多Agent协同，简单的协同控制很难达到要求。而流程工业的智能制造流程一般都存在多个相互耦合关联的过程，其整体运行的全局最优是一个混合、多目标、多尺度的动态冲突优化命题，但现有的协同方法很难在一个可接受时间范围内得到合理的答案。流程工业需要结合工艺知识在制造全流程进行实时动态优化，传统的多目标优化手段很难满足，而工艺知识严重依赖一些领域专家，远远没有实现全流程整体运行优化。并且，发明人发现，传统的强化学习方法，比如Q-Learning或者policy gradient都不适用于多智能体环境。因为，在训练过程中，每个智能体都在变化，而且每个智能体的角度来看，环境都会变得不稳定。这给训练稳定性带来了挑战，并且阻碍了直接利用先前的经验。

发明内容

本公开为了解决上述问题，提出了一种用于流程工业的多智能体协同控制系统及方法，设置进行特征提取的状态值到观测值的神经网络模型，可以更好的提取数据的重要特征，从而可以适应海量数据，甚至是高维数据(如图像)的处理。然后采用极大极小深度确定性策略梯度算法进行学习，极大极小深度确定性策略梯度算法中的actor和critic网络从新的神经网络中学习，而不是从最初的观察中学习。这种利用神经网络进行状态表示学习的方法，使网络本身能够很好地捕捉特征，对数据的适应性更强。

为了实现上述目的，本公开采用如下技术方案：

一个或多个实施例提供了一种用于流程工业的多智能体协同控制系统，包括系统智能体和各个生产阶段的智能体，每个生产阶段设置多个可相互通信并相互协作的智能体，所述系统智能体和各个生产阶段的智能体采用分层设置，系统智能体设置在上层用于对各个生产阶段的智能体统一调度和任务分配；各个生产阶段的智能体设置在下层。

一个或多个实施例提供了一种用于流程工业的多智能体协同控制方法，包括以下步骤：

步骤1、根据经验池的真实状态值s和真实观测值o建立状态值到观测值的神经网络模型；基于极大极小深度确定性策略梯度算法，建立输出初始策略的actor网络和评判反馈的critic网络；

步骤2、采集当前智能体i的当前状态值s_t，将当前状态值s_t输入至训练好的神经网络模型，获取当前状态值s_t对应的预测当前智能体的观测值

步骤3、将当前智能体的当前状态值s_t和预测当前智能体的观测值输入actor网络，经过actor网络的若干中间层得到当前智能体的动作矩阵

步骤4、将动作矩阵当前智能体的当前状态值s_t和预测当前智能体的观测值输入critic网络，根据所有智能体的状态值和观测值，评估并选择一个最优当前完成动作后得到下一个状态值s_t+1和奖励r，将状态值s_t和s_t+1、奖励值r、动作值储存到经验池D中。

步骤5、更新actor网络和critic网络，将下一智能体设定为当前智能体，执行步骤2。

一种用于流程工业的多智能体协同控制系统，包括如下模块：

模型网络建立模块：用于根据经验池的真实状态值s和真实观测值o建立状态值到观测值的神经网络模型；基于极大极小深度确定性策略梯度算法，建立输出初始策略的actor网络和评判反馈的critic网络；

观测值预测模块：用于采集当前智能体i的当前状态值s_t，将当前状态值s_t输入至训练好的神经网络模型，获取当前状态值s_t对应的预测当前智能体的观测值

初始策略输出模块：用于将当前智能体的当前状态值s_t和预测当前智能体的观测值输入actor网络，经过actor网络的若干中间层得到当前智能体的动作矩阵

评判反馈模块：用于将动作矩阵当前智能体的当前状态值s_t和预测当前智能体的观测值输入critic网络，根据所有智能体的状态值和观测值，评估并选择一个最优当前完成动作后得到下一个状态值s_t+1和奖励r，将状态值s_t和s_t+1、奖励值r、动作值储存到经验池D中。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

与现有技术相比，本公开的有益效果为：

现实工业生产过程中，Agent的观测能力有限，主流的方法是Agent通过摄像头来获取观测值，而这种方法产生了大量的高维数据，高维数据的分析处理会影响工业生产效率。本公开可以通过状态值和观测值的映射获取预测的观测值，减少了高维数据采集处理的步骤，能够实现实时动态优化。并且采用M3DDPG算法是最新的多智能体强化学习算法，他比传统的强化学习算法有明显的优势，可以让Agent抵抗复杂多变的环境，并在最差情况下也可以让Agent表现良好。

本公开采用的状态值到观测值的神经网络模型提取重要特征，并不会影响M3DDPG算法的功能和结构，具有很强的鲁棒性。在仿真实验中，本公开改进后的SRL_M3DDPG算法比M3DDPG算法表现的更好。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1是本公开实施例1的多智能体协同控制系统的框图；

图2是本公开实施例1的多智能体协同控制系统中的多智能体协同工作示意图；

图3是本公开实施例1的方法流程图；

图4是本公开实施例1的方法数据传输示意图；

图5是采用本公开实施例1方法的效果图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式中公开的技术方案中，如图1所示，一种用于流程工业的多智能体协同控制系统，包括系统智能体(SystemAgent)和各个生产阶段的智能体，每个生产阶段设置多个可相互通信并相互协作的智能体，所述系统智能体和各个生产阶段的智能体采用分层设置，系统智能体设置在上层用于对各个生产阶段的智能体统一调度和任务分配；各个生产阶段的智能体设置在下层。

智能体(Agent)如可以为无人生产车间的机器人，本实施例提出的多智能体协同控制系统是一种面向全过程的智能协同控制系统，如图1和2所示，由系统Agent和各个生产阶段的Agent组成。各个生产阶段可以按照生产流程进行分配，例如，对于制造业，某生产过程可能包括焊接、烤漆和装配，可以对应单独的车间设置焊接车间、烤漆车间和装配车间，每个车间可以单独设置相互配合协作的多个Agent，多个Agent之间可相互通信，相互合作完成任务，图2中三个Agent共同协作完成任务。图2中每个圆代表一个智能体，箭头表示智能体的运动方向，交叉符号表示智能体的目标位置。

本实施例还提供一种用于流程工业的多智能体协同控制方法，包括如下步骤：

本实施例采用极大极小深度确定性策略梯度(Minimax Deep DeterministicPolicy Gradient，简称为M3DDPG)算法，解决强化学习训练的Agent往往对训练环境脆弱而敏感，特别是在多代理场景中的问题。并且M3DDPG是经典MADDPG算法的极大极小扩展，提高了Agent的鲁棒性。能够在训练中，强迫每一个Agent表现良好，即使它的训练对手做出最坏的反应。本实施例首先通过反向传播的预测误差来学习观测到状态的映射建立神经网络，设置进行特征提取的状态值到观测值的神经网络模型，可以更好的提取数据的重要特征，从而可以适应海量数据，甚至是高维数据(如图像)的处理。然后M3DDPG中的actor和critic网络从新的神经网络中学习，而不是从最初的观察中学习。这种利用神经网络进行状态表示学习的方法，使网络本身能够很好地捕捉特征，对数据的适应性更强。

上述步骤所述步骤1中的经验池中存储了各智能体的真实状态值s_t和s_t+1、奖励值r、动作值及观测值o。本实施例中的状态值到观测值的神经网络模型、输出初始策略的actor网络和评判反馈的critic网络可以均为深度神经网络(DNNs)。

状态值可以包括智能体自身的速度、位置和维度等，观测值是当前智能体采集的目标或智能体的状态,包括其他目标智能体的速度、位置和维度。本实施例采用神经网络进行观测值的预测大大减小了数据量，例如真实观测值是采集的图像，通过神经网络模型根据智能体本身的状态值如摄像头的方向、距离拍摄物体的位置关系等，可以预测可能拍摄到的图像里的内容，提取少量的特征，作为后续处理步骤的处理数据，可以提高后续步骤的处理速度。

步骤1中的状态值到观测值的神经网络模型为基于先验的SRL模型的深度神经网络(DNNs)，输入神经元的数目等于状态矩阵的列数，输出神经元的个数等于观察矩阵的列数，隐层又可以设置多个神经元，本实施例设置了20个神经元。

本实施例将交叉熵作为损失函数，是利用adadelta优化器训练的损失函数，其中学习效率a_SRL＝0.01,交叉熵的损失函数是：

其中，y_k是智能体真实观测值，x_k是通过模型预测出来的观测值。

通过根据经验池的真实状态值s和真实观测值o建立状态值到观测值的神经网络模型的方法，具体通过反向传播方法的预测误差来学习观测值到状态值的映射，可以具体包括如下步骤：

(11)采集经验池的真实状态值s和真实观测值o数据建立训练集；

(12)将训练集数据输入到DNNs的输入层，经过隐藏层，最后达到输出层并输出结果，这是DNNs的前向传播过程；

(13)由于DNNs的输出结果与实际结果有误差，则计算估计值与实际值之间的误差，并将误差反向传播，直至传播到输入层；

(14)在反向传播的过程中，根据误差调整各种参数的值；迭代过程中，误差会收敛，迭代设定的次数后停止；迭代次数可以自行设定，如可以设定为30000次。

步骤3中将当前智能体的当前状态值s_t和预测当前智能体的观测值输入actor网络，经过actor网络的若干中间层得到当前智能体的动作矩阵

所述步骤4在critic网络中根据所有智能体的状态值和观测值，评估并选择一个最优

采用极大极小深度确定性策略梯度算法，为了学习稳健策略，可以考虑最坏情况时更新策略，在假设所有其他智能体i行为都相反的情况下，优化每个智能体i的累积奖励。这就产生了极大学习目标其中：

其中，是计算数学期望，是Q函数，s⁰是起始状态，是第i个智能体(Agent)的起始动作,i＝1……N，μ是当前策略，μ＝[μ₁,...,μ_N]，是第i个智能体初始观测值，θ_i是第i个智能体的当前策略参数。

所述步骤5中更新actor网络的方法可以具体为利用采样的策略梯度更新，优化公式为:

其中，x^k为在k步下智能体状态信息，求a_i的梯度，a_i是第i个智能体的非起始动作，求θ_i的梯度，θ_i是第i个智能体的当前策略参数，是第i个智能体第k步时的观测值，μ_i是第i个智能体的当前策略，是当前策略为μ_i的Q函数，是第N个智能体的非起始动作。

步骤5中更新critic网络可以具体为通过最小化损失来更新，损失函数为：

其中，s是样本数量，x^k为在k步智能体的状态信息，y_k是智能体真实观测值，是第N个智能体第k步执行的动作；r_i ^k第i个智能体第k步的奖励，γ是学习效率，偏移值，当前策略为μ'时的Q函数，x′^k当前策略为μ'时第k步智能体的状态信息，a′_N当前策略为μ'时第N个智能体的动作，i表示第i个智能体，j表示第j个智能体。

更新每个智能体i的目标网络参数:

θ'_i←τθ_i+(1-τ)θ'_i

其中，θ_i是第i个智能体的当前策略参数,θ′_i是更新后的第i个智能体的策略参数。

如图3所示，在步骤1中，我们得到了真实的状态s_t和实际观察值o_t并且在第一个DNNs之后获得预测值在其余DNNs(critic网络和actor网络)中，actor网络根据获得的两个参数和s_t和M3DDPG的策略选择一个动作矩阵a_t，critic网络根据状态信息和其他信息(例如其他Agent的动作信息)来评估矩阵a_t，并且选择一个最优的动作a^* _t。当智能体完成动作a^* _t就会获得奖励r_t，并且到达下一状态s_t+1，如图4所示。

为了说明本实施例方法的效果，比较了采用本实施例设置特征提取的状态值到观测值的神经网络模型的方法简称为SRL_M3DDPG算法和只采用M3DDPG算法训练的智能体在多智能体系统中的性能。

最终结果如图5所示，SRL_M3DDPG算法代表本实施例的算法，M3DDPG为改进前的算法，实验结果表明，SRL_M3DDPG算法比M3DDPG算法更有效。其中每100集(episodes)输出对应的平均奖励(mean episode reward)并且记一个记录(record)，分别保存到两个文件内。当运行至60000episodes(600records)时，停止运行并且绘制60000episodes(600records)不同算法的图像。在第一个针对SRL的深度神经网络模型中，学习效率a_SRL＝0.01，并且隐藏层有20个神经元。SRL_M3DDPG算法中的critic网络和actor网络学习率等参数与M3DDPG算法一致。

实施例2

本实施例提供一种用于流程工业的多智能体协同控制系统，包括如下模块：

实施例3

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1所述的步骤。

实施例4

本实施例提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1的方法所述的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种用于流程工业的多智能体协同控制系统，其特征是：包括系统智能体和各个生产阶段的智能体，每个生产阶段设置多个可相互通信并相互协作的智能体，所述系统智能体和各个生产阶段的智能体采用分层设置，系统智能体设置在上层用于对各个生产阶段的智能体统一调度和任务分配；各个生产阶段的智能体设置在下层。

2.一种用于流程工业的多智能体协同控制方法，其特征是，包括以下步骤：

3.如权利要求2所述的一种用于流程工业的多智能体协同控制方法，其特征是，所述步骤5中更新actor网络的方法具体为利用采样的政策梯度更新，优化公式为:

4.如权利要求2所述的一种用于流程工业的多智能体协同控制方法，其特征是，所述步骤5中更新critic网络具体为通过最小化损失来更新，损失函数为：

其中，s是样本数量，x^k为在k步智能体的状态信息，y_k是智能体真实观测值，是第N个智能体第k步执行的动作；第i个智能体第k步的奖励，γ是学习效率，偏移值，当前策略为μ'时的Q函数，x′^k当前策略为μ'时第k步智能体的状态信息，a′_N当前策略为μ'时第N个智能体的动作，i表示第i个智能体，j表示第j个智能体。

5.如权利要求2所述的一种用于流程工业的多智能体协同控制方法，其特征是：所述状态值到观测值的神经网络模型、输出初始策略的actor网络和评判反馈的critic网络均为深度神经网络。

6.如权利要求2所述的一种用于流程工业的多智能体协同控制方法，其特征是：步骤1中，具体通过反向传播方法的预测误差来学习观测值到状态值的映射，具体包括如下步骤：

(12)将训练集数据输入到深度神经网络的输入层，经过隐藏层，最后达到输出层并输出结果；

(13)由于深度神经网络的输出结果与实际结果有误差，则计算估计值与实际值之间的误差，并将误差反向传播，直至传播到输入层；

(14)在反向传播的过程中，根据误差调整各种参数的值；迭代过程中，误差会收敛，迭代设定的次数后停止。

7.如权利要求6所述的一种用于流程工业的多智能体协同控制方法，其特征是：步骤1中状态值到观测值的神经网络模型为基于先验的SRL模型的深度神经网络，输入神经元的数目等于状态矩阵的列数，输出神经元的个数等于观察矩阵的列数，隐层又可以设置多个神经元。

8.一种用于流程工业的多智能体协同控制系统，其特征是，包括如下模块：

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求2-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求2-7任一项方法所述的步骤。