CN115001787A

CN115001787A - 一种适用于受攻击情况下多智能体网络的分布式优化方法

Info

Publication number: CN115001787A
Application number: CN202210590266.0A
Authority: CN
Inventors: 刘智伟; 张世珩; 姚伟; 俞耀文; 王博; 胡琪浩; 刘海光; 蔡德福; 陈汝斯
Original assignee: Huazhong University of Science and Technology; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Current assignee: Huazhong University of Science and Technology; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-02
Anticipated expiration: 2042-05-26
Also published as: CN115001787B

Abstract

本发明提供了一种适用于受攻击情况下多智能体网络的分布式优化方法，涉及系统、网络安全和信息技术领域。本发明考虑了网络中至多有F个智能体受到攻击的情况，每个智能体每次更新迭代之前对入邻居的信息进行适应性过滤，得到可信的信息进行使用，同时在迭代过程中，使用了平均梯度跟踪法来加快迭代速度，最终使得智能体的决策趋于一致，收敛到每个智能体最优值的凸组合中。本发明在多智能体网络受到外部攻击或者网络内存在恶意智能体的情况下，不需要识别受到攻击智能体，即可适应外部攻击，加快收敛速度，适用于邻接矩阵为非对称的行随机矩阵的应用场景，具有普适性。

Description

一种适用于受攻击情况下多智能体网络的分布式优化方法

技术领域

本发明属于网络安全和信息技术领域，更具体地，涉及一种适用于受攻击情况下多智能体网络的分布式优化方法。

背景技术

在多智能体网络系统(Multi-Agent System)在车辆编队、无人机系统、机器人路径规划、传感器网络系统以及智能电网等领域有广泛的应用。为了信息传输的小规模性，在多智能体网络中，其一般采用分布式协作的方式，协作目标一般是使得分布式网络中这些智能体的目标函数和达到最小值，实现全局优化。为了信息传输的小规模性，一般在这种问题中，采用分布式优化方法。分布式优化方法中，一个重要的概念就是仅仅使用智能体自身和邻居的局部信息，该方法能够以分布式的方式操作，并且收敛到最优点。这一分布式的方法有助于减少网络中信息传输的负担，有助于保护个人智能体的隐私。

但是传统的基于分布式优化方法的多智能体网络存在严重的安全问题，安全性能得不到保障。尤其是在当多智能体网络受到外部攻击，或者网络中存在恶意智能体的情况下，网络中会被注入错误的信息，这些错误的信息会使得网络中智能体的决策、计算和通信行为与正常情况发生偏差，导致网络不能达到预期目标，甚至不能收敛。可以证明的是，只要多智能体网络中任意一个智能体受到外部攻击或者任意一个智能体变为恶意智能体，整个系统都会失效，收敛到任意值，不能达到既定目标。再者，传统的基于分布式优化方法因为其没有中心节点的全局调控，只能通过网络中智能体之间局部信息交互的方式进行通信和迭代计算，所以还存在收敛速度慢的问题。而这种较慢的收敛速度会降低整个多智能体系统的运行效率，导致规定时间不能收敛到最优。而现有的分布式加速方法对多智能体网络中邻接矩阵的要求是很高的，要求为对称的双随机矩阵，这一假设在现实中是很难实现的。在实际情况中，非对称的行随机矩阵具有普适性。

总结来说，现有分布式多智能体网络并不能很好地适应外部攻击，且现有分布式加速技术对多智能体网络中邻接矩阵的要求很高，难以在受到攻击的网络多智能体网络中实现。针对上述问题，研究如何在多智能体网络受到外部攻击或者网络内存在恶意智能体的情况下，提出一种既具有普适性，又可以使网络适应外部攻击，还可以加快收敛速度的新型分布式优化方法具有重大意义。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种适用于受攻击情况下多智能体网络的分布式优化方法，其目的在于提高受到攻击的多智能体网络鲁棒性和收敛速度。

为实现上述目的，本发明提供了一种适用于受攻击情况下多智能体网络的分布式优化方法，包括：

S1.在多智能体网络受攻击情况下，使网络中未受攻击智能体的决策值和梯度值按照以下步骤进行更新：

01.设置初始的未受攻击智能体的决策值和平均梯度估计值；

02.未受攻击智能体基于带攻击情况下的多智能体网络结构拓扑图分别收集它入邻居的决策值和梯度估计值；同时向其所有的出邻居发送其当前决策值和平均梯度估计值；

03.未受攻击智能体v_i对收集到的决策值按照大小进行排序，并与v_i自身的决策值进行比较；如果大于v_i自身决策值的个数大于F，移除大于其自身决策值的F个最大值；如果小于v_i自身决策值的个数大于F，移除小于其自身决策值的F个最小值；如果大于或小于v_i自身决策值的个数小于或等于F，则删除所有大于或小于v_i自身决策值的值；如果收集到的决策值与v_i自身决策值相等，则保留这些值；得到智能体v_i在每次迭代t中保留满足以上条件的决策值对应的智能体的集合J_i(t)，

F为网络中至多能够承受外部恶意节点攻击的数目；i为第i个智能体；N_i表示第i个智能体决策值的入邻居集合；

同理得到智能体v_i在每次迭代t中保留的梯度估计值对应的智能体的集合K_i(t)；

W_i表示第i个智能体梯度值的入邻居集合；

04.未受攻击智能体根据其在迭代t中自身的决策值和J_i(t)中保留邻居的决策值的加权平均和递减步长与平均梯度的乘积值更新自身决策值；同时根据其在迭代t中自身的梯度估计值和K_i(t)中保留邻居的梯度估计值的加权平均和两次梯度的差值更新梯度估计值；

S2.设定相关参数，不断重复步骤S1中02-04，使决策值所求解与最优解之间的误差值最小，得到智能体的近似最优决策值。

进一步地，带攻击情况下的多智能体网络对应地分布式优化模型为：

其中，n为多智能体网络中所有智能体的个数，a为受攻击的智能体的个数，

为实数域，i为第i个智能体。

进一步地，多智能体网络结构拓扑图表示为G＝(V,E)，其中V表示智能体的集合，V＝(A,R)，A为受到攻击的智能体的集合，数目为a；R为未受到攻击的正常智能体的集合，数目为n-a，E表示有向边的集合。

进一步地，未受攻击智能体v_i采用以下公式更新自身的决策值和平均梯度估计：

n_ij、w_ij分别表示第i个智能体对第j个智能体的决策值和梯度估计值权重，若第j个智能体属于第i个智能体的入邻居集合，则n_ij>0，w_ij>0否则n_ij＝0，w_ij＝0；其中i∈{1，…，n}，j∈{1，…，n}；n为多智能体网络中所有智能体的个数；f_i(x_i)未受攻击智能体x_i的局部目标函数，

表示

α_t表示迭代步长。

进一步地，步骤S4中设定相关参数包括，设定函数f_i(x)梯度的界限，强凸参数κ和光滑参数β；多智能体网络中所有智能体的个数n、受攻击智能体的个数a、网络中至多能够承受外部恶意节点攻击的数目F和迭代步长α_t。

进一步地，α_t满足以下选取规则

进一步地，网络中至多能够承受外部恶意节点攻击的数目

按照本发明的另一方面提供了一种适用于受攻击情况下多智能体网络的分布式优化装置，包括：快速分布式优化模块和迭代循环模块；

快速分布式优化模块，用于在多智能体网络受攻击情况下，使网络中未受攻击智能体的决策值和梯度值按照以下过程进行更新：

01.设置初始的未受攻击智能体的决策值和平均梯度估计值；

W_i表示第i个智能体梯度值的入邻居集合；

迭代循环模块，用于设定相关参数，不断重复执行快速分布式优化模块的功能，使决策值所求解与最优解之间的误差值最小，得到智能体的近似最优决策值。

为实数域，i为第i个智能体。

表示

α_t表示迭代步长。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，由于能够取得下列有益效果。

(1)本发明针对多智能体网络受到外部攻击或者网络内存在恶意智能体的情况，在每个未受到攻击的正常智能体收到其入邻居的信息之后，通过“过滤”的操作分别移除大于和小于其自身值的部分值，得到经过“过滤”操作之后的可靠信息，这些可靠信息会被正常节点使用进行迭代，由此可以在不检测出恶意节点的情况下，很好地适应至多F个恶意节点的攻击，改善了传统分布式多智能体网络鲁棒性差、不能抵抗外部攻击的缺点；同时本发明克服了传统分布式多智能体网络加速方法要求其邻接矩阵为双随机的强假设问题，提升了适应恶意节点攻击的多智能体分布式网络的收敛速率，减少了迭代步骤和收敛时间，由于加速过程只要求邻接矩阵满足行随机的弱假设即可，在应用中具有实际意义，提高了方法的普适性。

(2)在整个计算迭代过程中，多智能体使用的是执行“过滤”操作后得到的可靠信息，该操作减少了每个智能体需要计算和存储的信息量，克服了智能体要求存储空间过大的缺陷，同时也减少了计算复杂度。

(3)在整个迭代过程中，针对网络中多智能体之间通信，仅要求智能体进行决策值和梯度估计值两种信息的交互，不需要网络中的智能体获得其他智能体的额外信息，有利于保护智能体隐私、减小信息通信量和复杂度。

(4)本发明适用场景丰富，参数设置简单，假设条件弱，实用性强，易于实现。

附图说明

图1为本发明的多智能体网络的优化方法流程图；

图2为本发明实施例中多智能体系统网络结构示意图；

图3中(a)和(b)为本发明实施例中未受到攻击的智能体决策值和梯度值分别为固定值和随机值收敛情况曲线图；

图4为本发明实施例中本方法和传统分布式梯度下降法的收敛情况效果比较示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

基于分布式优化方法的多智能体网络存在严重的安全问题，尤其是在当多智能体网络受到外部攻击，或者网络中存在恶意智能体的情况下，网络中会被注入错误的信息，这些错误的信息会使得网络中智能体的决策、计算和通信行为与正常情况发生偏差，导致网络不能达到预期目标，甚至不能收敛。而且受到外部攻击的智能体的行为是任意的，即他们通信方式、通信范围、状态值、梯度值和更新方式都是任意的，在这种情况下，想辨别出受到外部攻击的恶意节点几乎是不可能的，因为这些节点可以任意改变其状态来躲避检测。可以证明的是，只要多智能体网络中任意一个智能体受到外部攻击或者任意一个智能体变为恶意智能体，整个系统都会失效，收敛到任意值，不能达到既定目标。

因此，本发明提出一种在不检测出恶意节点的情况下，提高多智能体网络鲁棒性的方法。虽然正常智能体无法区分多智能体网络中的受到攻击的智能体并将其剔除，但是可以将正常智能体利用的信息限制在一个可靠的区间内，不论利用的信息是否来源于正常智能体，都可以保证正常智能体利用的信息在这个可靠的区间内。具体做法是，在每个未受到攻击的正常智能体收到其入邻居的信息之后，可以通过“过滤”的操作分别移除大于和小于其自身值的部分值，得到经过“过滤”操作之后的信息，这些信息会被正常节点使用进行迭代。在数学上可以证明的是，虽然执行“过滤”操作后使用的部分信息可能来源于受到攻击的智能体，但是这部分的信息也被看作是可信的，这部分信息可以写作未受到攻击的正常智能体的凸组合的形式。

同时传统的基于分布式优化方法的多能治网络因为其没有中心节点的全局调控，只能通过网络中智能体之间局部信息交互的方式进行通信和迭代计算，所以还存在收敛速度慢的问题。而这种较慢的收敛速度会降低整个多智能体系统的运行效率，导致规定时间不能收敛到最优的问题。而现有的分布式加速方法对多智能体网络中邻接矩阵的要求是很高的，即要求临界矩阵为对称的双随机矩阵，这一假设在现实中很难实现。在实际情况中，非对称的行随机矩阵具有普适性。

本发明提出的加速方法克服了上述问题，具有普适性。决策值和梯度值的两步迭代算法的权重邻接矩阵可以写成非对称行随机矩阵的形式，在此基础上，本发明提出采用递减步长α_t的形式，通过递减步长lim_t→∞α_t→0的性质对迭代过程中产生的误差项进行消去，通过数学上的证明(具体证明思路为：全局不等式放缩)，证明了在邻接矩阵为非对称行随机的情况下，加速方法也是适用的，改善了邻接矩阵对称双随机的条件，实现了邻接矩阵非对称行随机的普适条件。

实施例一

本发明提供的一种适用于受攻击情况下多智能体网络的分布式优化方法，如图1所示，包括以下步骤：

S1.建立带攻击情况下的多智能体网络对应地智能体分布式优化模型；

具体为每个未受攻击的智能体都有一个局部目标函数f_i(x_i)，全局目标函数f(x)是这些局部目标函数的和，每个未受攻击的智能体通过与邻居智能体进行信息交互，最终协同实现全局优化的目标，即每个智能体的自身决策收敛到全局最优解。所述优化模型用下式表示：

其中，n为多智能体网络中所有智能体的个数，a为实际受到攻击的智能体的个数，

为实数域，i为第i个智能体，x_i:

是第i个智能体的局部决策值；f_i(x_i):

是第i个智能体的局部目标函数，具有强凸且光滑的特点，κ为其强凸系数，β为其光滑系数；

本实施例中每个智能体局部函数最优点设置具体如图2，为了在实施例中清晰地表示仿真效果，每个未受到攻击的智能体的函数具有相同的最优点f_i(x)＝x²-b_i，

本实施例中的全局目标仅包含未受到外部攻击的智能体，受到外部攻击的智能体可以看作恶意的，在逻辑上，其传输的信息不应被采用，所以本发明在全局目标中只包含未受到外部攻击的正常智能体。

S2.构造带攻击情况下的多智能体网络结构拓扑图，该图为完全图；具体地，构造受到攻击智能体和未受到攻击智能体组成的网络结构拓扑图，使每个未受到攻击的智能体与网络中所有的邻居智能体进行通信，并生成相邻智能体集合；受到攻击的智能体的行为可以是任意的，即可以进行任意方式、任意范围进行通信，其决策值和梯度值可以是任意值，并以任意的方式更新。

所述多智能体网络结构拓扑图表示为G＝(V,E)，为完全图，即网络中任意两个智能体之间都能进行双向通信，其中V表示智能体的集合，E表示有向边的集合，智能体集合V分为两部分，V＝(A,R)，A为受到攻击的智能体的集合，数目为a；R为未受到攻击的正常智能体的集合，数目为n-a。多智能体网络最多可容忍受攻击智能体的数目为F；

定义(i,j)为第j个智能体到第i个智能体的有向边；入邻居为向智能体i发送信息的邻居，出邻居为可以收到智能体i发送信息的邻居；N_i表示第i个智能体决策值的入邻居集合；W_i表示第i个智能体梯度值的入邻居集合；以n_ij、w_ij分别表示第i个智能体对第j个智能体的决策值和梯度估计值权重，若第j个智能体属于第i个智能体的入邻居集合，则n_ij>0，w_ij>0否则n_ij＝0，w_ij＝0；其中i∈{1，…，n}，j∈{1，…，n}。

本实施例中的网络结构具体如图2所示，建立的网络为带攻击情况下的多智能体网络，网络中存在两个不相交的智能体集合，一个是受攻击智能体组成的集合，另一个是未受攻击智能体集合。

S3.使网络中未受到攻击的智能体的决策值按照本以下过程进行更新，梯度值根据梯度计算方法进行计算，具体步骤见S3-1至3-6；

网络中受到攻击的智能体的决策值和梯度值都是以任意值，且受到攻击的智能体可以采用任意的方式进行决策值和梯度值更新，可以以任意的方式进行通信；本实施例中受到攻击的智能体的决策值和梯度值在一般意义下都是随机的，为了使得仿真结果清晰，本实施例分别对决策值和梯度值为固定值和随机值的情况进行了模拟仿真，收敛结果分别如图3中(a)和(b)所示。固定值的情况下，决策值为30，梯度值为1000；随机值的情况下，决策值和梯度值都是随机值；图3中(a)和(b)横坐标均为迭代次数t，纵坐标名称为“Indi”的子图展示的是每个智能体的决策值与最优值的差值x_i-x^*、纵坐标名称为“Cons to Opit”的子图展示的是每个时刻的一致值与最优值的差值

纵坐标名称为“Indi to Cons”的子图展示的是每个智能体决策值与一致性值的差值

纵坐标名称为“Indi-Fuc”的子图展示的是每个智能体的函数值与最优函数值的差值f_i-f^*、纵坐标名称为“Indi-Fuc toOpit”的子图展示的是一致性值的函数值与最优函数值的差值

纵坐标名称为“Indi-Fuc to Cons”的子图展示的是每个智能体的函数值与一致性值的函数值的差值

可以看出达到了收敛效果。

未受攻击的智能体决策值和梯度值更更新过程如下：

S3-1.设置初始的未受攻击的正常智能体v_i的决策值x_i(0)，平均梯度估计值s_i(0)；

x_i(0)是可以是任意值，

本实施例中未受攻击的正常智能体v_i的决策值x_i(0)设置是随机分布在0-50之间的随机值。

S3-2.未受攻击的正常智能体v_i分别收集它入邻居的决策值{x_j(t)，v_j∈N_i}和梯度估计值{s_j(t)，v_j∈W_i}；同时向其所有的出邻居发送其当前决策值x_i(t)和平均梯度估计值s_i(t)；

S3-3.未受攻击智能体v_i对收集到的决策值按照大小进行排序，并与v_i自身的决策值进行比较；如果大于v_i自身决策值的个数大于F，移除大于其自身决策值的F个最大值；如果小于v_i自身决策值的个数大于F，移除小于其自身决策值的F个最小值；如果大于或小于v_i自身决策值的个数小于或等于F，则删除所有大于或小于v_i自身决策值的值；如果收集到的决策值与v_i自身决策值相等，则保留这些值；得到智能体v_i在每次迭代t中保留满足以上条件的决策值对应的智能体的集合J_i(t)，

具体为，未受攻击智能体v_i对收集到的梯度估计值按照大小进行排序，并与v_i自身的梯度估计值进行比较；如果大于v_i自身梯度估计值的个数大于F，移除大于其自身梯度估计值的F个最大值；如果小于v_i自身梯度估计值的个数大于F，移除小于其自身梯度估计值的F个最小值；如果大于或小于v_i自身梯度估计值的个数小于或等于F，则删除所有大于或小于v_i自身梯度估计值的值；如果收集到的梯度估计值与v_i自身梯度估计值相等，则保留这些值；得到智能体v_i在每次迭代t中保留满足以上条件的梯度估计值对应的智能体的集合K_i(t)，

例如，在某个迭代步骤t过程中，未受攻击智能体v_i自身的决策值x_i(t)＝15，v_i的入邻居个数为10，未受攻击智能体v_i收到其的入邻居v_j∈N_i的决策值信息，并组成集合{1,2,3,4,5,6,15,18,19,20}。此时，参数F＝3，根据上述步骤的“过滤”规则，v_i留下的值为{4,5,6,15}；

本发明中网络受到攻击，在分布式的情况下想要找出网络中受到外部攻击的恶意智能体几乎是不可能的，所以本发明提供的方法可以在不找出受到外部攻击的智能体的情况下适应外部攻击。

本发明中使得网络能够适应外部攻击的主要关键点在于S5-4和S5-5两个步骤，两个步骤的主要作用是对网络中的错误信息进行过滤。主要思想是使得每个未受到攻击的正常智能体在每步迭代中通过过滤操作，留下的信息(要使用的)都是在正常智能体的最大值和最小值的区间内，在数学上可以证明这些值不论其是否来自正常智能体，都是可以写成正常智能体所提供的值的凸组合的形式，也就是可以看作这些留下来的值均来源于未受到攻击的正常节点，只是使用权重发生了变化，并不影响最终的结果。S3-4.未受攻击的正常智能体v_i更新它自己的决策值和平均梯度估计：

其中n_ii和w_ii是自我权重，n_ij和w_ij是与保留的入邻居通信的权重，α_t>0为递减步长，每个未受攻击的智能体i对决策值x_i(t+1)进行估计，并且计算自己和入邻居的下降方向s_i(t)和s_j(t)的加权平均值，对迭代方向进行估计，并且仅考虑最近梯度估计中包含的新信息

传统的基于分布式优化方法的多能治网络因为其没有中心节点的全局调控，只能通过网络中智能体之间局部信息交互的方式进行通信和迭代计算，所以还存在收敛速度慢的问题。而这种较慢的收敛速度会降低整个多智能体系统的运行效率，导致规定时间不能收敛到最优的问题。

本发明采用了历史信息有效地对梯度下降方向重新进行估计，加快收敛速度。通过对过滤后的可靠信息进行加权平均，重新估计下降方向，具体见下式

等式右边第一和第二项

为平均梯度，未受到攻击的正常智能体对过滤后的信息和自身信息进行加权平均，等式右边第三项和第四项

为梯度差，这一项是对梯度的跟踪，将这两者有效地结合起来可以很好地对梯度下降方向进行估计，得到更加精确的下降方向，从而加快收敛速率。

但是上述加速方法对邻接矩阵具有较高的要求，要求为对称的双随机矩阵。这一假设意味着智能体v_i与v_j之间必须使用相同的权重进行双向通信，这在现实中是很难实现的，在实际情况中，非对称的行随机矩阵具有普适性。在本发明中，若要求矩阵为对称的双随机矩阵，也就意味着智能体v_i保留其入邻居v_j的信息的同时，v_j也必须保留v_i的信息；这一假设在执行“过滤”操作之后并不能得到保证，只能保证矩阵为非对称行随机的一般矩阵。

本发明中克服了上述问题，具有普适性。在S3-4中，两步迭代算法的权重邻接矩阵可以写成非对称行随机矩阵的形式，本发明提出的算法采用的递减步长α_t的形式，通过递减步长lim_t→∞α_t→0的性质对迭代过程中产生的误差项进行消去，通过数学上的证明(具体证明思路为：全局不等式放缩)，证明了在邻接矩阵为非对称行随机的情况下，加速方法也是适用的，改善了邻接矩阵对称双随机的条件，实现了邻接矩阵非对称行随机的普适条件。

S4.设定函数f_i(x)梯度的界限，强凸参数κ和光滑参数β；网络相关参数n、a、F；算法相关参数α_t；不断重复S3-1-S3-4步骤，使决策值所求解与最优解之间的误差值最小，得到智能体的近似最优决策值。

函数f_i(·)的梯度有界，即满足||f(x)-f(y)||≤L||x-y||，其中L为正常数，是次梯度的上界；

表示

函数f_i(·)满足光滑性，即满足

参数

函数f_i(·)满足强凸性，即满足

参数

为多智能体网络中所有智能体的个数，

为实际受到攻击的智能体的个数；α_t需要满足以下选取规则(1)

(2)

(3)

网络中至多可以承受外部恶意节点攻击的数目

本实施例中的参数设置具体如图2，网络中智能体的个数为n＝300，实际受到攻击的智能体的个数a＝50，局部函数的光滑系数L＝2，局部函数的光滑系数β＝2，局部函数的强凸系数κ＝2，步长

多智能体网络可以承受的最大攻击的数目F＝149。

为了比较本发明优化优化方法与传统优化方法的收敛速度，进行了相同初始参数设定下的收敛速度比较。具体如图4，图4可以看出本方法收敛速度最快的方法，远远大于传统方法。

实施例二

与上述方法相对应，按照本发明还提供了一种适用于受攻击情况下多智能体网络的分布式优化装置，包括：快速分布式优化模块和迭代循环模块；快速分布式优化模块，用于在多智能体网络受攻击情况下，使网络中未受攻击智能体的决策值和梯度值按照以下过程进行更新：

01.设置初始的未受攻击智能体的决策值和平均梯度估计值；

02.未受攻击智能体基于带攻击情况下的多智能体网络结构拓扑图分别收集它入邻居的决策值和梯度估计值；同时向其所有的出邻居发送其当前决策值和平均梯度估计值；所述多智能体网络结构拓扑图包含n个智能体的完全图；所述完全图是网络中任意两个智能体都能进行双向交互；

W_i表示第i个智能体梯度值的入邻居集合；

装置中各个模块的具体实施过程和方法步骤相对应，本发明再次不再赘述。

综上表明，本发明在抵抗多智能体网络攻击和加快优化方法的收敛速度方面取得了良好的效果。能够在分布式多智能体网络中的智能体受到攻击的情况下，保证未受到攻击智能体的决策趋于一致，最终收敛到每个未受到攻击智能体最优值的凸组合中，并且加快了收敛速度。同时，本发明适用场景丰富，参数设置简单，实用性强，易于实现。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于受攻击情况下多智能体网络的分布式优化方法，其特征在于，包括：

01.设置初始的未受攻击智能体的决策值和平均梯度估计值；

W_i表示第i个智能体梯度值的入邻居集合；

2.根据权利要求1所述的一种适用于受攻击情况下多智能体网络的分布式优化方法，其特征在于，带攻击情况下的多智能体网络对应地分布式优化模型为：

为实数域，i为第i个智能体。

3.根据权利要求2所述的一种适用于受攻击情况下多智能体网络的分布式优化方法，其特征在于，多智能体网络结构拓扑图表示为G＝(V,E)，其中V表示智能体的集合，V＝(A,R)，A为受到攻击的智能体的集合，数目为a；R为未受到攻击的正常智能体的集合，数目为n-a，E表示有向边的集合。

4.根据权利要求3所述的一种适用于受攻击情况下多智能体网络的分布式优化方法，其特征在于，未受攻击智能体v_i采用以下公式更新自身的决策值和平均梯度估计：

表示

α_t表示迭代步长。

5.根据权利要求1所述的一种适用于受攻击情况下多智能体网络的分布式优化方法，其特征在于，步骤S4中设定相关参数包括，设定函数f_i(x)梯度的界限，强凸参数κ和光滑参数β；多智能体网络中所有智能体的个数n、受攻击智能体的个数a、网络中至多能够承受外部恶意节点攻击的数目F和迭代步长α_t；α_t满足以下选取规则