CN110782011A

CN110782011A - 一种基于强化学习的网络化多智能体系统分布式优化控制方法

Info

Publication number: CN110782011A
Application number: CN201910997409.8A
Authority: CN
Inventors: 李金娜; 张一晗
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-11
Anticipated expiration: 2039-10-21
Also published as: CN110782011B

Abstract

一种基于强化学习的网络化多智能体系统分布式优化控制方法，属于系统控制方法技术领域，所述方法为积分强化学习（IRL）给出具有积分器的Bellman方程，非策略（Off‑policy）方法应用不同控制策略作用控制系统，增加数据探究，通过迭代学习得到最优控制策略，再将图博弈与Off‑policy和IRL融合，给出系统模型完全未知情况下，保证网络化多智能体一致性；具体步骤如下：(1)基于IRL和Off‑policy的优化控制问题求解，(2)基于近似策略迭代分布式近似最优控制策略设计；(3)采用仿真软件和多机械手控制系统物理实验平台，根据仿真和物理实验结果，对理论方法和控制技术做相应调整。

Description

一种基于强化学习的网络化多智能体系统分布式优化控制方法

技术领域

本发明属于系统控制方法技术领域，具体涉及一种基于强化学习的网络化多智能体系统分布式优化控制方法，将图博弈（Graphical games)与非策略（Off-policy）和积分强化学习（IRL）融合，给出系统模型完全未知情况下，保证网络化多智能体一致性和性能最优控制优化问题求解方案。

背景技术

实际应用领域，由于大规模复杂加工技术和程序，系统模型复杂，系统辨识精度低且代价高，甚至系统无法辨识。在系统模型完全未知的情况下，现有的完全模型依赖和部分模型依赖优化控制方法，在实际应用中无法实现。目前对基于强化学习的网络化多智能体分布式优化控制研究还处于初级阶段，尚不具备一套完整的理论体系来支持相关技术的发展，急需提出基于强化学习的网络化多智能体系统分布式优化控制方法。本发明针对网络化多智能体，开展无模型一致性最优控制、分布式自适应优化控制等问题，以无模型多智能体系统为对象、以近似策略迭代学习为基本方法、以分布式控制为基本手段、以性能优化和一致性为根本目标，建立强化学习的网络化多智能体分布式优化控制的理论和方法体系。

发明内容

本发明涉及一种基于强化学习的网络化多智能体系统分布式优化控制方法，积分强化学习（IRL）给出具有积分器的Bellman方程。非策略（Off-policy）方法，不利用设计的控制策略评估性能，而是应用各种不同控制策略作用控制系统，增加数据探究，通过迭代学习得到最优控制策略。再将图博弈（Graphical games)与Off-policy和IRL融合，给出系统模型完全未知情况下，保证网络化多智能体一致性，是一种性能最优控制优化问题求解方案。

本发明的目的是通过以下技术方案实现的：

一种基于强化学习的网络化多智能体系统分布式优化控制方法，所述方法为积分强化学习（IRL）给出具有积分器的Bellman方程，非策略（Off-policy）方法应用不同控制策略作用控制系统，增加数据探究，通过迭代学习得到最优控制策略，再将图博弈（Graphicalgames)与Off-policy和IRL融合，给出系统模型完全未知情况下，保证网络化多智能体一致性；具体步骤如下：(1)基于IRL和Off-policy的优化控制问题求解，针对有领导者和无领导者两种情况，涉及网络化多智能体系统模型完全未知的优化控制问题求解算法，将IRL技术和off-policy策略迭代加强学习方法融合，并扩展应用到系统模型完全未知的多智能体系统的最优一致性控制中；(2)基于近似策略迭代分布式近似最优控制策略设计；(3)采用仿真软件和多机械手控制系统物理实验平台，联合验证理论方法和结果的有效性，根据仿真和物理实验结果，对理论方法和控制技术做相应调整。

进一步地，所述步骤（1）分为三个阶段：1）优化问题建模、2）优化问题求解、3）无模型最优控制协议算法设计；

所述步骤1）优化问题建模具体为：首先，根据智能体之间的信息交互，构建通信拓扑图，得到图拉普拉斯矩阵；其次，根据智能体与邻居智能体（包括领导者）之间的相对状态偏差，建模相对状态偏差动态；根据相对状态偏差、控制输入和邻居智能体控制输入，定义二次性能指标函数；最后，构建以相对状态偏差动态为约束，以最优化性能指标和实现一致性（同步）为目标的优化问题数学模型。

所述步骤2）优化问题求解具体为：求解第一阶段构建的优化控制问题，首先，基于动态规划算法和不动点原理，获得耦合协同博弈Hamiltonian-Jacobi-Bellman (HJB）方程；然后基于图论、李雅普诺夫（Lyapunov）稳定性理论、牛顿-莱布尼兹公式，以及Nash均衡理论，证明求解耦合协同博弈HJB方程得到的控制策略，使智能体实现全局Nash均衡，并且保证系统一致或与领导者同步。

所述步骤3）基于第二阶段获得的耦合协同博弈HJB方程，扩展到系统模型完全未知的优化控制中。

进一步地，所述步骤3）中具体为：①、IRL方法与策略迭代算法融合，给出不包含智能体模型信息的关于值函数和控制策略的迭代方程；②、证明Off-policy Bellman方程与耦合协同博弈HJB方程解的等价性；③、根据1)中得到的迭代方程设计Off-policy IRL算法，分析算法的收敛性。

进一步地，所述步骤（2）具体为：1）值函数和控制协议估计：采用多环Actor-Critic神经网络框架结构，估计值函数和最优控制协议，在用NNs估计值函数和控制协议时，限定它们的激活函数是智能体相对状态偏差的函数；基于批最小二乘法，估计神经网络权，综合前两步，给出近似策略迭代算法，估计最优一致性协议；

2）分析算法的收敛性：基于无模型策略迭代算法，利用维尔斯特拉斯高阶逼近定理，提出Actor-Critic神经网络框架结构；讨论通信拓扑图的连通性，基于矩阵的克罗内克积性质、图拉普拉斯矩阵特征和李雅普诺夫稳定性理论，讨论实现网络化多智能体系统一致性以及性能全局近似最优性或纳什均衡的条件；最后，利用加权残差法和梯形数值积分法，估计Actor和Critic神经网络权，获得近似最优控制律；

3）自适应控制协议设计：网络化多智能体系统自适应近似最优控制，采用梯度下降法执行三重指标迭代策略。

进一步地，所述步骤3）具体步骤如下：

①基于梯度下降法的神经网络权递归方程建模：

首先，根据获得的无模型性能和控制行为迭代方程，利用梯度下降法，选择调节因子，构建关于神经网络权（Actor和Critic的神经网络权）的递归方程，此神经网络权有三重指标，包括近似策略迭代步骤指标

，神经网络权递归方程步骤指标

和时间指标

（为正整数，

为第

次采样时刻）；然后，参考无模型性能和控制行为迭代方程，分析神经网络权的收敛性；

②基于三重指标迭代的自适应近似最优控制：

首先，固定步骤指标

，固定控制输入，执行步骤指标

和时间指标

双重迭代，基于数据仓库估计和调整神经网络权；其次，计算新的控制输入，更新数据仓库，增加步骤指标

，产生新的神经网络权估计值；最后如此循环，直到神经网络权收敛，得到最优控制行为估计；

③仿真软件和多机械手控制系统物理实验验证。

进一步地，所述数据仓库包括多智能体状态和控制行为、领导者状态、邻居智能体状态和控制行为。

进一步地，所述步骤③具体步骤如下：

I、应用Java软件编程，设计多智能体模块、通信网络模块、数据处理模块和仿真器模块，构建基于数据挖掘的网络化多智能体系统仿真平台；

Ⅱ、在仿真平台上进行数据挖掘和优化控制算法的验证；

Ⅲ、应用多机械手控制系统，对所提出的理论和方法进行全面验证。

本发明的优点与效果是：

目前对基于强化学习和近似策略迭代的网络化多智能体分布式优化控制研究还处于初级阶段，尚不具备一套完整的理论体系来支持相关技术的发展，急需基于强化学习的网络化多智能体系统分布式优化控制方法的提出。本发明给出系统模型完全未知情况下，保证网络化多智能体一致性，是一种性能最优控制优化问题求解方案。网络化多智能体系统应用领域，环境、通信、任务等都具有动态性。设计近似最优一致性控制策略与动态环境和系统变化适应，这使得所设计的控制策略在网络化多智能体系统应用领域更具有实用性。本发明不仅为网络化多智能体分布式优化问题提供新的控制技术方法，也为复杂大规模系统系统优化控制提供技术支持，在数据驱动下的“中国智能制造”中协同控制、智能控制中发挥重要作用。

附图说明

图1 基于无模型近似策略迭代算法的优化控制总体方案；

图2 网络化多智能体系统自适应近似最优控制总体方案；

图3 基于梯度下降法的自适应近似最优控制方案；

图4 基于数据挖掘的网络化多智能体系统仿真平台。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

实施例1

本发明采用如下技术方案：

(1)基于IRL和Off-policy的优化控制问题求解，在此部分，我们拟针对有领导者和无领导者两种情况，涉及网络化多智能体系统模型完全未知的优化控制问题求解算法。基于前期研究成果，将IRL技术和off-policy策略迭代加强学习方法融合，并扩展应用到系统模型完全未知的多智能体系统的最优一致性控制中。注意到，现有的基于IRL 和off-policy策略迭代加强学习方法优化控制问题，对象为系统模型完全未知的单一系统，而多智能体系统中智能体之间互相耦合，并存在分布式的特征，因此，这种扩展并不是直接、简单的延伸，在这过程中有很多需要解决的科学难题。包括a)如何构建网络化多智能体系统优化控制问题数学模型，以便实现多智能体系统一致性（同步）和性能指标最优化双重目标；b) 如何设计算法求解a) 中优化控制问题；c) 如何消除最优一致性算法对系统模型的依赖。如图1所示，这一部分分为以下三个阶段。

(2)基于近似策略迭代分布式近似最优控制策略设计，此部分重点解决两个科学难题，包括a) 分布式最优一致性控制协议估计；b) 与动态环境和系统变化相适应的自适应控制协议设计。将动作-批判者(Actor-Critic)神经网络框架架构应用到此部分中。分为三个阶段。

(3)采用仿真软件和多机械手控制系统物理实验平台，联合验证理论方法和结果的有效性。根据仿真和物理实验结果，对理论方法和控制技术做相应调整。

本发明方法原理描述：

基于IRL和Off-policy本项目将针对网络化多智能体，开展无模型一致性最优控制、分布式自适应优化控制等问题，以无模型多智能体系统为对象、以近似策略迭代学习为基本方法、以分布式控制为基本手段、以性能优化和一致性为根本目标，建立强化学习的网络化多智能体分布式优化控制的理论和方法体系。

（1）基于IRL和Off-policy的优化控制问题求解，分为三个阶段：

优化问题建模：首先，根据智能体之间的信息交互，构建通信拓扑图，得到图拉普拉斯矩阵；其次，根据智能体与邻居智能体（包括领导者）之间的相对状态偏差，建模相对状态偏差动态。根据相对状态偏差、控制输入和邻居智能体控制输入，定义二次性能指标函数；最后，构建以相对状态偏差动态为约束，以最优化性能指标和实现一致性（同步）为目标的优化问题数学模型。此第一阶段用于解决科学难题a)。

优化问题求解：为求解第一阶段构建的优化控制问题，首先，基于动态规划算法和不动点原理，获得耦合协同博弈Hamiltonian-Jacobi-Bellman (HJB）方程；然后，基于图论、李雅普诺夫（Lyapunov）稳定性理论、牛顿-莱布尼兹公式，以及Nash均衡理论，证明求解耦合协同博弈HJB方程得到的控制策略，使智能体实现全局Nash均衡，并且保证系统一致或与领导者同步。此第一阶段用于解决科学难题b)。

无模型最优控制协议算法设计：基于第二阶段获得的耦合协同博弈HJB方程，将项目组前期研究成果扩展到系统模型完全未知的优化控制问题中。在这一阶段，我们需要解决以下问题：1）IRL方法与策略迭代算法有机融合，给出不包含智能体模型信息的关于值函数和控制策略的迭代方程；2) 证明Off-policy Bellman方程与耦合协同博弈HJB方程解的等价性；3) 根据1) 中得到的迭代方程设计Off-policy IRL算法，分析算法的收敛性。利用此算法收敛于耦合协同博弈HJB方程的解，为在系统模型完全未知的情况，设计控制协议，实现多智能体系统一致性和性能最优性提供可行途径。此第一阶段用于解决科学难题 c)。

（2）基于近似策略迭代的分布式近似最优控制策略设计，分为三个阶段：

值函数和控制协议估计

采用多环Actor-Critic神经网络框架结构，估计值函数和最优控制协议。鉴于网络化多智能体系统的分布式特征，为保证基于内容（2）中Off-policy IRL算法得到的控制协议是分布式的。在用NNs估计值函数和控制协议时，我们限定它们的激活函数是智能体相对状态偏差的函数；然后，基于批最小二乘法，估计神经网络权。最后，综合前两步，给出近似策略迭代算法，估计最优一致性协议。

分析算法的收敛性

然后提出首先，基于无模型策略迭代算法，利用维尔斯特拉斯高阶逼近定理，提出Actor-Critic神经网络框架结构，目的为估计性能函数和最优控制行为；其次，讨论通信拓扑图的连通性，基于矩阵的克罗内克积性质、图拉普拉斯矩阵特征和李雅普诺夫稳定性理论，讨论实现网络化多智能体系统一致性以及性能全局近似最优性或纳什均衡的条件；最后，利用加权残差法和梯形数值积分法，估计Actor和Critic神经网络权，获得近似最优控制律。

自适应控制协议设计

此部分解决网络化多智能体系统自适应近似最优控制问题，总体方案如图2所示。采用梯度下降法，如图3所示。执行三重指标迭代策略，目的与外界环境动态和系统变化适应，以自适应控制方式优化网络化多智能体系统性能。

具体步骤如下：

1) 基于梯度下降法的神经网络权递归方程建模

首先，根据获得的无模型性能和控制行为迭代方程，利用梯度下降法，选择调节因子，构建关于神经网络权（Actor和Critic的神经网络权）的递归方程。此神经网络权有三重指标，包括近似策略迭代步骤指标

，神经网络权递归方程步骤指标

和时间指标

（

为正整数，

为第

次采样时刻）；然后，参考无模型性能和控制行为迭代方程，分析神经网络权的收敛性。

2) 基于三重指标迭代的自适应近似最优控制

首先，固定步骤指标

，固定控制输入，执行步骤指标

和时间指标

双重迭代，基于数据仓库（包括多智能体状态和控制行为、领导者状态、邻居智能体状态和控制行为），估计和调整神经网络权；其次，计算新的控制输入（利用“基于无模型近似策略迭代算法的优化控制”此部分方法），更新数据仓库。增加步骤指标

，产生新的神经网络权估计值；最后，如此循环，直到神经网络权收敛，得到最优控制行为估计。

（3）仿真软件和多机械手控制系统物理实验验证

具体步骤如下：

应用Java软件编程，设计多智能体模块、通信网络模块、数据处理模块和仿真器模块，构建如图4所示的基于数据挖掘的网络化多智能体系统仿真平台。

在仿真平台上进行数据挖掘和优化控制算法的验证；

应用多机械手控制系统，对所提出的理论和方法进行全面验证。

Claims

1.一种基于强化学习的网络化多智能体系统分布式优化控制方法，其特征在于：所述方法为积分强化学习（IRL）给出具有积分器的Bellman方程，非策略（Off-policy）方法应用不同控制策略作用控制系统，增加数据探究，通过迭代学习得到最优控制策略，再将图博弈（Graphical games)与Off-policy和IRL融合，给出系统模型完全未知情况下，保证网络化多智能体一致性；具体步骤如下：(1)基于IRL和Off-policy的优化控制问题求解，针对有领导者和无领导者两种情况，涉及网络化多智能体系统模型完全未知的优化控制问题求解算法，将IRL技术和off-policy策略迭代加强学习方法融合，并扩展应用到系统模型完全未知的多智能体系统的最优一致性控制中；(2)基于近似策略迭代分布式近似最优控制策略设计；(3)采用仿真软件和多机械手控制系统物理实验平台，联合验证理论方法和结果的有效性，根据仿真和物理实验结果，对理论方法和控制技术做相应调整。

2.根据权利要求1所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法，其特征在于：所述步骤（1）分为三个阶段：1）优化问题建模、2）优化问题求解、3）无模型最优控制协议算法设计；

所述步骤1）优化问题建模具体为：首先，根据智能体之间的信息交互，构建通信拓扑图，得到图拉普拉斯矩阵；其次，根据智能体与邻居智能体（包括领导者）之间的相对状态偏差，建模相对状态偏差动态；根据相对状态偏差、控制输入和邻居智能体控制输入，定义二次性能指标函数；最后，构建以相对状态偏差动态为约束，以最优化性能指标和实现一致性（同步）为目标的优化问题数学模型；

所述步骤2）优化问题求解具体为：求解第一阶段构建的优化控制问题，首先，基于动态规划算法和不动点原理，获得耦合协同博弈Hamiltonian-Jacobi-Bellman (HJB）方程；然后基于图论、李雅普诺夫（Lyapunov）稳定性理论、牛顿-莱布尼兹公式，以及Nash均衡理论，证明求解耦合协同博弈HJB方程得到的控制策略，使智能体实现全局Nash均衡，并且保证系统一致或与领导者同步；

3.根据权利要求2所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法，其特征在于：所述步骤3）中具体为：①、IRL方法与策略迭代算法融合，给出不包含智能体模型信息的关于值函数和控制策略的迭代方程；②、证明Off-policy Bellman方程与耦合协同博弈HJB方程解的等价性；③、根据1)中得到的迭代方程设计Off-policy IRL算法，分析算法的收敛性。

4.根据权利要求1所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法，其特征在于：所述步骤（2）具体为：1）值函数和控制协议估计：采用多环Actor-Critic神经网络框架结构，估计值函数和最优控制协议，在用NNs估计值函数和控制协议时，限定它们的激活函数是智能体相对状态偏差的函数；基于批最小二乘法，估计神经网络权，综合前两步，给出近似策略迭代算法，估计最优一致性协议；

5.根据权利要求4所述的一种基于强化学习的网络化多智能体系统分布式优化控制方法，其特征在于：所述步骤3）具体步骤如下：

①基于梯度下降法的神经网络权递归方程建模：