CN110209050B

CN110209050B - 复杂智能系统中多智能体协作的优化方法和系统

Info

Publication number: CN110209050B
Application number: CN201910437659.6A
Authority: CN
Inventors: 任明仑; 黄晓地; 程八一; 褚伟; 朱晓曦
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2022-05-06
Anticipated expiration: 2039-05-24
Also published as: CN110209050A

Abstract

本发明提供复杂智能系统中多智能体协作的优化方法和系统，涉及人工智能技术领域。本发明通过将多智能体视为一个不断进行内外部信息交互的群体。将系统中单个智能体视为一个没有质量和体积的粒子，每个粒子能够独立获取环境信息并进行交互。不同智能体之间能够根据环境对其自身行为和其它智能体的行为所做出的反馈信息对自身进行调整与优化。智能体之间根据环境反馈信息，以群体最优为目标，相互协作，不会过度依赖主控制器，提高多智能体协作的灵活性和多智能体协作的优化效率。

Description

复杂智能系统中多智能体协作的优化方法和系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种复杂智能系统中多智能体协作的优化方法和系统。

背景技术

随着人工智能研究领域不断取得突破性进展，RFID、微型嵌入式设备和传感器在智能系统中得到广泛应用。信息处理能力可以应用到每一个物理部件，并通过网络对这些部件进行连接，实现彼此之间的信息交换和状态识别，构成实时动态的多智能体协同网络。如智能装备系统、多机器人系统、智慧工厂、智能车联网系统等，在不同时空维度下，每个智能体在对自身运行状态和环境信息全面感知的基础上，通过互联互通形成合力，以群体协作的方式实现系统最优目标。

现有多智能体协作方法主要是集中式或由上到下的分层式，即主要依靠主控制器对多智能体的协作进行控制。

然而，这两种方法都过度依赖主控制器，仅通过有限的环境反馈信息对协调方式进行调整，虽然有较强的环境开采能力，但忽略了每个智能体其自身的灵活性和适应性，对环境信息的开发能力不足，容易陷入局部困境，难以实现协调效率的最优化。同时，对主控器的依赖程度难以度量，动态复杂多变的工作环境下，基于系统自身或人为干预很难做出实时性的调整，而不恰当的主控方式亦会进一步降低多智能体协作的优化效率。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种复杂智能系统中多智能体协作的优化方法，解决了现有技术中多智能体协作的优化效率过低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供了一种复杂智能系统中多智能体协作的优化方法，该方法由多智能体执行，包括以下步骤：

获取多智能体的工作数据，形成历史工作数据，根据历史工作数据构建工作模型，并根据实时获取的工作数据更新工作模型的参数，所述工作数据包括运行状态和环境信息；

构建工作模型的约束条件，所述约束条件包括：将多智能体作为一个群体，将多智能体中的智能体视为群体中单个的粒子，且单个的粒子能独立获取环境信息；粒子之间根据环境信息对自身行为的反馈进行通信；

基于不动点粒子群算法将目标优化函数转换成不动点方程，所述目标优化函数包括工作模型和约束条件；

基于不动点粒子群算法获取不动点方程的最优解，得到多智能体实时的最优协作方案；

基于实时最优协作方案，调整多智能体的运行状态。

优选的，所述不动点粒子群算法为：

基于不动点定理，将目标优化函数转换为等价的不动点方程；

基于所述不动点方程，获取完备单纯形序列；

基于所述完备单纯形序列确定粒子群算法的初始种群规模和粒子初始位置，获取不动点方程的最优解，得到目标优化函数的最优解，所述目标优化函数的最优解为多智能体实时的最优协作方案。

优选的，所述基于约束条件和不动点粒子群算法将工作模型转换成不动点方程的具体方法为：

基于

构造不动点方程F(X)＝X-f'(X)；根据不动点定理，若函数F(X)存在精确不动点X*，必然满足F(X*)＝X*-f'(X*)＝X*，由此可得f'(X*)＝0，即目标协作优化函数y＝f(X)在点X*处取得值；

其中：

f(X)为多智能体的目标优化函数；

X为n维度优化变量；

g_i(X)为函数可行域空间内的m个约束函数。

优选的，所述获取完备单纯形序列的方法为：

对不动点方程的搜索空间进行划分；

对划分后的搜索空间进行单纯剖分，得到单纯形；

对单纯形进行标号，输出完备单纯形序列。

本发明还提供一种复杂智能系统中多智能体协作的优化系统，所述系统包括多智能体，所述多智能体包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

基于不动点粒子群算法将目标协作函数转换成不动点方程，所述目标协作函数包括工作模型和约束条件；

基于实时最优协作方案，调整多智能体的运行状态。

(三)有益效果

本发明提供了一种复杂智能系统中多智能体协作的优化方法和系统。与现有技术相比，具备以下有益效果：

本发明通过将多智能体视为一个不断进行内外部信息交互的群体。群体中单个智能体视为一个粒子，每个粒子能够独立获取环境信息并进行交互。不同智能体之间能够根据环境对其自身行为和其它智能体的行为所做出的反馈信息对自身进行调整与优化。智能体之间根据环境反馈信息，以群体最优为目标，相互协作，不会过度依赖主控制器，提高多智能体协作的灵活性和多智能体协作的优化效率。

本发明通过多智能体的目标协作函数转换为不动点方程组求解问题，再以完备单纯形序列确定粒子群算法的初始种群规模和粒子初始位置。完备单纯形序列几乎包含了目标优化函数的全部极值点，因此保证了粒子群算法中种群的多样性和粒子搜索方向的有效性，从而提高多智能体协作的优化时的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种复杂智能系统中多智能体协作的优化方法的流程框图；

图2为本发明实施例的方法和常规方法在目标协作函数非旋转情况下(即简单工作环境下)的优化效率收敛曲线；

图3为本发明实施例的方法和常规方法在目标协作函数旋转情况下(即复杂工作环境下)的优化效率收敛曲线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种复杂智能系统中多智能体协作的优化方法和系统，解决了现有技术中多智能体协作的优化效率过低问题，实现提高多智能体协作的优化效率。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过将多智能体作为一个群体，将多智能体中的智能体视为群体中单个的粒子，且单个的粒子能独立获取环境信息，粒子之间根据环境信息对自身行为的反馈进行通信，智能体之间能相互协作，不会过度依赖主控制器，提高多智能体协作的灵活性和多智能体协作的优化效率。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种复杂智能系统中多智能体协作的优化方法，该方法由多智能体执行，该方法包括以下步骤：

S1、获取多智能体的工作数据，形成历史工作数据，根据历史工作数据构建工作模型，并根据实时获取的工作数据更新工作模型的参数，所述工作数据包括运行状态和环境信息；

S2、构建工作模型的约束条件，所述约束条件包括：将多智能体作为一个群体，将多智能体中的智能体视为群体中单个的粒子，且单个的粒子能独立获取环境信息；粒子之间根据环境信息对自身行为的反馈进行通信；

S3、基于不动点粒子群算法将目标协作函数转换成不动点方程，所述目标优化函数包括工作模型和约束条件；

S4、基于不动点粒子群算法获取不动点方程的最优解，得到多智能体实时的最优协作方案；

S5、基于实时最优协作方案，调整多智能体运行状态。

本发明实施例通过将多智能体视为一个不断进行内外部信息交互的群体。群体中单个智能体视为一个粒子，每个粒子能够独立获取环境信息并进行交互。不同智能体之间能够根据环境对其自身行为和其它智能体行为所做出的反馈信息对自身进行调整与优化。智能体之间根据环境反馈信息，以群体最优为目标，相互协作，不会过度依赖主控制器，提高多智能体协作的灵活性和多智能体协作的优化效率。

本发明实施例通过多智能体的目标优化函数转换为不动点方程组求解问题，再以完备单纯形序列确定粒子群算法的初始种群规模和粒子初始位置。完备单纯形序列几乎包含了目标优化函数的全部极值点，因此保证了粒子群算法中种群的多样性和粒子搜索方向的有效性，从而提高多智能体协作的优化时的精度。

下面对各步骤进行详细描述：

本发明实施例提供一种复杂智能系统中多智能体协作的优化方法，该方法由多智能体执行，该方法包括以下步骤S1～S5：

S1、获取多智能体的工作数据，形成历史工作数据，根据历史工作数据构建工作模型，并根据实时获取的工作数据更新工作模型的参数，所述工作数据包括运行状态和环境信息。

具体的，通过多智能体的内部的数据处理模块收集并存储多智能体的工作数据，然后根据历史工作数据构建工作模型，并根据实时获取的工作数据更新工作模型的参数，所述工作数据包括运行状态和环境信息。

S2、构建工作模型的约束条件，所述约束条件包括：

将多智能体作为一个群体，将多智能体中的智能体视为群体中单个的粒子，且单个的粒子能独立获取环境信息；

粒子之间根据环境信息对自身行为的反馈进行通信。

S3、基于不动点粒子群算法(FP-PSO算法)将目标优化函数转换成不动点方程，所述目标优化函数包括工作模型和约束条件，其包括S301～S302。

具体的：

S301、基于不动点定理，将目标优化函数转换为等价不动点方程。

其中，不动点定理包括：

定理1：设X是Rⁿ的一个子集，若对于X中每一点x，都有确定的f(x)∈X与之对应，则f是X的一个自映射，记作f：X→X。

定理2：设X是非空集合，f：X→X为其自映射，若存在x*∈X，满足f(x*)＝x*，则称x*为f的一个精确不动点。

定理3：设(X，ρ)为一度量空间，T∶X→X为一映射，若存在L∈[0，1)，使得任意x，y∈X，有ρ(T(x)，T(y))≤Lρ(x，y)，则称T是X上的压缩映射。

定理4：近似不动点：设ε为任意正数，若对于压缩映射T∶X→X，|x-f(x)|表示n维欧式空间Rⁿ的中向量x-f(x)的模，若存在点x*满足|x^*-f(x^*)|＜ε，则称x*为f的一个近似不动点。

定理5：对n维欧式空间进行剖分，寻求这样一种多面体，在映射f的作用下它第一个顶点的第一个坐标分量下降，第二个顶点的第二个坐标分量下降，第n个顶点的第n个坐标分量下降，第n+1个顶点的n个坐标分量都保持不减，若这种多面体直径足够小，其n+1个顶点在映射f作用下的变化情况相差不会太远，称这样的多面体为完备单纯形，每个顶点都可以视为不动点。

Banach不动点定理：又称压缩映射定理，设(X，ρ)为一非空的完备度量空间，T∶X→X为一压缩映射，则T在X中存在惟一的不动点，Banach不动点定理指出了不动点方程T(x)＝x解的存在性和惟一性。

将目标协作函数转换为等价的不动点方程：

其中：

f(X)为多智能体的目标优化函数；

X为n维度优化变量；

g_i(X)为函数可行域空间内的m个约束函数；

求目标优化函数y＝f(X)最值(最大值与最小值可以相互转换，本发明实施例以最小值为例)，若目标优化函数在定义域内处处可导，则最值必然出现在f'(X)＝0的位置，反之，f'(X)＝0的点可能是极值、拐点等，不一定是最值。通过构建不动点方程，筛选出f'(X)＝0的点，再通过目标优化函数判断，可极大程度降低算法搜索空间。因此，构造不动点方程F(X)＝X-f'(X)，根据不动点定理中的定理2，若函数F(X)存在精确不动点X*，必然满足F(X*)＝X*-f'(X*)＝X*，由此可得f'(X*)＝0，目标优化函数y＝f(X)在点X*处取得值。

S302、基于所述不动点方程，获取完备单纯形序列。

具体的，在很多现实问题中，往往虽然能够证明不动点的存在，但若要通过数值计算求出其精确解，计算开销往往很大。比如，x²-2＝0精确解是无限循环的，必须近似取值才能参与随后的计算。因此，为保证求解过程能够稳定收敛，根据定理4，引入近似不动点概念替代精确不动点：设任意ε>0，如果|X-f′(X)|＜ε，则称X是f(X)的一个近似不动点，|X-f′(X)|表示向量的模。具体包括步骤S3021～S3023：

S3021、对不动点方程的搜索进行空间划分，具体为：

在n维欧式空间Rⁿ中，用n族直线x_i＝mh_i(i＝1,2,…,n)将对不动点方程的搜索空间划分为均匀的多面体，其中m为精度控制，根据优化问题的精度要求，对每一维优化变量的可行域取值按百分之一至万分之一步长进行划分。对于特定领域内的高精度优化可适当细化步长，但步长过细会增加算法复杂度，降低运算效率。

S3032、对划分后的搜索空间进行单纯剖分，得到单纯形，具体为：

对于n维欧式空间Rⁿ，N＝{1，2，…，n}，π是N的置换。Rn的n个基底向量：u¹，…，uⁿ，满足：u＝u¹+…+uⁿ＝(1，…，1),是n阶单位矩阵的n列。设

为Rⁿ中整点集(所有坐标分量均为整数的点的集合)，若

以k₁(y⁰，π)记n维单纯形<y⁰，y¹，…，yⁿ>，其中yⁱ＝y^i-1+u^π(i)，i∈N。记所有k₁(y⁰，π)的集合形成一个K₁剖分。

对划分后的搜索空间按进行单纯剖分，由于N的置换π的变化，从Rⁿ中每个整点y⁰出发，向正侧形成n！个n维单纯剖分，总起来就得到整个Rⁿ的一个K₁剖分。

S3023、对单纯形进行标号，输出完备单纯形序列，具体为：

对K₁剖分后所有单纯形得顶点进行标号，通过逻辑规则找出完备单纯形即可识别出不动点。单纯形标号规则有两种：整数标号法与向量标号法。

整数标号比向量标号的迭代次数多好几倍，但单次算法循环的复杂度低；向量标号法单次循环比整数标号复杂，但迭代次数较少。对于复杂函数，计算迭代要占用大量机器时间，必须使迭代次数尽可能少，此时向量标号法优于整数标号法；若函数计算简单，则整数标号更省时间。具体规则如下：

向量标号法：据l(x)＝f(x)-x，可得(n+1)×(n+1)矩阵：

记为n维单纯形σ＝<y⁰，y¹，…，yⁿ>的标号矩阵。若线性方程L_σw＝v有解，v＝(1，2，…，0)^T，则单纯形为完备单纯形，

为一个近似不动点。

整数标号法：根据公式

对单纯形每个顶点进行标号，可得序列：Lσ＝(0，1，2…)，记为n维单纯形σ＝<y⁰，y¹，…，yⁿ>的标号序列。在欧式空间Rⁿ中，标号为序列为(0，1，2，…，n)的单纯形为完备单纯形，单纯形每个顶点可视为近似不动点。

在多智能体协作优化的应用中，根据目标优化函数和约束函数的复杂程度，分别采用不同的标号方式进行不动点求解，平衡算法的运算速度和求解精度。

S4、基于完备单纯形序列确定粒子群算法的初始种群中的种群规模和粒子初始位置，获取不动点方程的最优解，得到多智能体实时的最优协作方案。

具体的，将利用步骤S3023种得到的完备单纯形序列设置粒子群算法的初始种群规模和粒子初始位置以及其他参数，获取不动点方程的最优解，即得到多智能体实时的最优协作方案。

S5、基于实时最优协作方案，调整多智能体的运行状态。

具体的，根据实时最优协作方案的信息，实时调整多智能的运行状态和环境信息，使多智能体在协作过程种处于最优的运用状态。

本发明实施例还提供一种复杂智能系统中多智能体协作的优化系统，其特征在于，所述系统包括多智能体，所述多智能体包括：

至少一个存储单元；

至少一个处理单元；

基于实时最优协作方案，调整多智能体的运行状态。

为测试本发明实施例提出多智能体协作优化方法的有效性，将本发明实施例提出的FP-PSO算法与标准粒子群算法进行对比实验。

选择5种多智能体的目标协作函数进行验证，其中包括2个单峰函数Sphere、Rosenbrock和3个多峰函数Ackley、Griewanks和Rastrigin具体信息见下表1：

表1 5种多智能体的目标协作函数基本信息

为增加算法测试难度，对3个多峰函数进行旋转。这里采用Salomon算法产生正交矩阵：

X＝[x₁，x₂，…，x_n]为非旋转函数的自变量，Y＝[y₁，y₂，…，y_d]＝MX，为旋转后的函数自变量，旋转函数记为f*(x)。

惯性权重w均采用线性递减惯性权重设置，将整个群体作为粒子的邻域，采用抑制的边界策略。FP-PSO算法参数基于不动点求解结果确定，对于单峰函数采用整数标号法，对于多峰函数和旋转函数采用向量标号法；标准的PSO算法设定种群规模为30个粒子，最大速度设定为取值范围宽度，种群初始状态随机确定，取加速常数c₁＝c₂＝2。

为保证算法测试公平性，设定测试函数维度n＝30，每个检测函数独立运行50次，算法终止条件为达到最大迭代次数，记录实验结果平均最优值和标准方差，非旋转检测函数算法终止条件为2×10⁵次函数评价；旋转检测函数算法终止条件为4×10⁵次函数评价。

表2 50次独立实验，非旋转函数在2×10⁵函数评价后的均值与平均标准差

表3 50次独立实验，旋转函数在4×10⁵函数评价后的均值与平均标准差

图2和图3分别给出两种种算法在非旋转和旋转情况下的收敛曲线。其中，图2包括图2a、图2b、图2c、图2d和图2e，图3包括图3a、图3b和图3c。

从图2和图3可以看出，无论是非旋转或旋转的检测函数，本发明实施例所提出的FP-PSO优化协作方法的平均收敛速度和平均求解精度均明显优于传统算法。在求解精度方面，以单纯剖分搜寻到的近似不动点作为粒子群初始种群，FP-PSO算法的初始状态总是明显优于传统PSO基于随机选择的种群初始状态。近似不动点几乎都分布在函数极值边缘，每个粒子都能更好地进行局部搜索，种群多样性得到提升，算法整体跳出局部最优解能力增强，搜索过程表现出持续优化的状态，尤其是对于存在大量局部极值的多峰函数Ackley、Griewanks和Rastrigin，搜索过程几乎没有陷入局部最优，FP-PSO算法求解精度非常显著的优于传统PSO算法。在求解效率方面，优秀的种群初始状态，一方面通过定向引导，大大减少了种群冗余的飞行步数；另一方面，通过极大程度缩小搜索空间，显著提高了迭代飞行的效率，FP-PSO算法能以较快的收敛速度找到高质量的解。同时，从表2和表3中的平均标准差可以看出，基于近似不动点集作为初始种群的FP-PSO算法，其运行平稳性也明显优于传统PSO算法，即使在处理复杂旋转函数时，多次实验结果的标准差依然保有明显的优势，进一步证明了FP-PSO算法在处理复杂问题时具备较好的适用性和稳定性。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例通过将多智能体作为一个群体，将多智能体中的智能体视为群体中单个的粒子，且单个的粒子能独立获取环境信息，粒子之间根据环境信息对自身行为的反馈进行通信，智能体之间能相互协作，不会过度依赖主控制器，提高多智能体协作的灵活性和多智能体协作的优化效率。

2、本发明实施例通过多智能体的目标优化函数转换为不动点方程组求解问题，再以完备单纯形序列确定粒子群算法的初始种群规模和粒子初始位置，因完备单纯形序列几乎包含了目标优化函数的全部极值点，保证了粒子群算法中种群的多样性和粒子搜索方向的有效性，从而提高多智能体协作的优化时的精度。

3、本发明实施例利用单纯剖分法较强的搜索能力对函数可行域空间进行筛选，提高初始参数质量，降低算法进化代数；同时，本发明的不动点定理条件一般比较弱，但结论却很强，利用其优秀的数学收敛性，平衡算法后期收敛，提高粒子群优化算法跳出局部收敛的能力。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种复杂智能系统中多智能体协作的优化方法，其特征在于，该方法由多智能体执行，包括以下步骤：

基于不动点粒子群算法获取不动点方程的最优解，得到多智能体实时的最优协作方案，包括：

基于不动点定理，将目标优化函数转换为等价不动点方程；

基于所述不动点方程，获取完备单纯形序列，包括：

对不动点方程的搜索空间进行划分，具体为：

在n维欧式空间Rⁿ中，用n族直线x_i＝mh_i(i＝1，2，…，n)将不动点方程的搜索空间划分为均匀的多面体，其中m为精度控制；

对划分后的搜索空间进行单纯剖分，得到单纯形，具体为：

对于欧式空间Rⁿ，N＝{1，2，…，n}，π是N的置换，Rⁿ的n个基底向量：u¹，…，uⁿ，满足：u＝u¹+…+uⁿ＝(1，…，1),是n阶单位矩阵的n列；设

为Rⁿ中整点集，若

以k₁(y⁰,π)记n维单纯形<y⁰，y¹，…，yⁿ>，其中yⁱ＝y^i-1+u^π(i)，i∈N，记k₁(y⁰,π)组成的集合为K₁；

对单纯形进行标号，输出完备单纯形序列，具体为：

采用整数标号法或向量标号法对单纯形进行标号，根据逻辑判别式，得到满足标号要求的完备单纯形序列，以完备单纯性序列的取值范围作为更新的搜索空间；

基于完备单纯形序列确定粒子群算法的初始种群中的种群规模和粒子初始位置，获取不动点方程的最优解，得到多智能体实时的最优协作方案；

基于实时最优协作方案，调整多智能体的运行状态。

2.如权利要求1所述的复杂智能系统中多智能体协作的优化方法，其特征在于，所述基于约束条件和不动点粒子群算法将工作模型转换成不动点方程的具体方法为：

基于

其中：

f(X)为多智能体的目标优化函数；

X为n维度优化变量；

g_i(X)为函数可行域空间内的m个约束函数。

3.一种复杂智能系统中多智能体协作的优化系统，其特征在于，所述系统包括多智能体，所述多智能体包括：

至少一个存储单元；

至少一个处理单元；

基于不动点定理，将目标优化函数转换为等价不动点方程；

基于所述不动点方程，获取完备单纯形序列，包括：

对不动点方程的搜索空间进行划分，具体为：

对划分后的搜索空间进行单纯剖分，得到单纯形，具体为：

为Rⁿ中整点集，若

对单纯形进行标号，输出完备单纯形序列，具体为：

基于实时最优协作方案，调整多智能体的运行状态。