CN115001787A - 一种适用于受攻击情况下多智能体网络的分布式优化方法 - Google Patents

一种适用于受攻击情况下多智能体网络的分布式优化方法 Download PDF

Info

Publication number
CN115001787A
CN115001787A CN202210590266.0A CN202210590266A CN115001787A CN 115001787 A CN115001787 A CN 115001787A CN 202210590266 A CN202210590266 A CN 202210590266A CN 115001787 A CN115001787 A CN 115001787A
Authority
CN
China
Prior art keywords
agent
value
decision
values
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210590266.0A
Other languages
English (en)
Other versions
CN115001787B (zh
Inventor
刘智伟
张世珩
姚伟
俞耀文
王博
胡琪浩
刘海光
蔡德福
陈汝斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Original Assignee
Huazhong University of Science and Technology
Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd filed Critical Huazhong University of Science and Technology
Priority to CN202210590266.0A priority Critical patent/CN115001787B/zh
Publication of CN115001787A publication Critical patent/CN115001787A/zh
Application granted granted Critical
Publication of CN115001787B publication Critical patent/CN115001787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种适用于受攻击情况下多智能体网络的分布式优化方法,涉及系统、网络安全和信息技术领域。本发明考虑了网络中至多有F个智能体受到攻击的情况,每个智能体每次更新迭代之前对入邻居的信息进行适应性过滤,得到可信的信息进行使用,同时在迭代过程中,使用了平均梯度跟踪法来加快迭代速度,最终使得智能体的决策趋于一致,收敛到每个智能体最优值的凸组合中。本发明在多智能体网络受到外部攻击或者网络内存在恶意智能体的情况下,不需要识别受到攻击智能体,即可适应外部攻击,加快收敛速度,适用于邻接矩阵为非对称的行随机矩阵的应用场景,具有普适性。

Description

一种适用于受攻击情况下多智能体网络的分布式优化方法
技术领域
本发明属于网络安全和信息技术领域,更具体地,涉及一种适用于受攻击情况下多智能体网络的分布式优化方法。
背景技术
在多智能体网络系统(Multi-Agent System)在车辆编队、无人机系统、机器人路径规划、传感器网络系统以及智能电网等领域有广泛的应用。为了信息传输的小规模性,在多智能体网络中,其一般采用分布式协作的方式,协作目标一般是使得分布式网络中这些智能体的目标函数和达到最小值,实现全局优化。为了信息传输的小规模性,一般在这种问题中,采用分布式优化方法。分布式优化方法中,一个重要的概念就是仅仅使用智能体自身和邻居的局部信息,该方法能够以分布式的方式操作,并且收敛到最优点。这一分布式的方法有助于减少网络中信息传输的负担,有助于保护个人智能体的隐私。
但是传统的基于分布式优化方法的多智能体网络存在严重的安全问题,安全性能得不到保障。尤其是在当多智能体网络受到外部攻击,或者网络中存在恶意智能体的情况下,网络中会被注入错误的信息,这些错误的信息会使得网络中智能体的决策、计算和通信行为与正常情况发生偏差,导致网络不能达到预期目标,甚至不能收敛。可以证明的是,只要多智能体网络中任意一个智能体受到外部攻击或者任意一个智能体变为恶意智能体,整个系统都会失效,收敛到任意值,不能达到既定目标。再者,传统的基于分布式优化方法因为其没有中心节点的全局调控,只能通过网络中智能体之间局部信息交互的方式进行通信和迭代计算,所以还存在收敛速度慢的问题。而这种较慢的收敛速度会降低整个多智能体系统的运行效率,导致规定时间不能收敛到最优。而现有的分布式加速方法对多智能体网络中邻接矩阵的要求是很高的,要求为对称的双随机矩阵,这一假设在现实中是很难实现的。在实际情况中,非对称的行随机矩阵具有普适性。
总结来说,现有分布式多智能体网络并不能很好地适应外部攻击,且现有分布式加速技术对多智能体网络中邻接矩阵的要求很高,难以在受到攻击的网络多智能体网络中实现。针对上述问题,研究如何在多智能体网络受到外部攻击或者网络内存在恶意智能体的情况下,提出一种既具有普适性,又可以使网络适应外部攻击,还可以加快收敛速度的新型分布式优化方法具有重大意义。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种适用于受攻击情况下多智能体网络的分布式优化方法,其目的在于提高受到攻击的多智能体网络鲁棒性和收敛速度。
为实现上述目的,本发明提供了一种适用于受攻击情况下多智能体网络的分布式优化方法,包括:
S1.在多智能体网络受攻击情况下,使网络中未受攻击智能体的决策值和梯度值按照以下步骤进行更新:
01.设置初始的未受攻击智能体的决策值和平均梯度估计值;
02.未受攻击智能体基于带攻击情况下的多智能体网络结构拓扑图分别收集它入邻居的决策值和梯度估计值;同时向其所有的出邻居发送其当前决策值和平均梯度估计值;
03.未受攻击智能体vi对收集到的决策值按照大小进行排序,并与vi自身的决策值进行比较;如果大于vi自身决策值的个数大于F,移除大于其自身决策值的F个最大值;如果小于vi自身决策值的个数大于F,移除小于其自身决策值的F个最小值;如果大于或小于vi自身决策值的个数小于或等于F,则删除所有大于或小于vi自身决策值的值;如果收集到的决策值与vi自身决策值相等,则保留这些值;得到智能体vi在每次迭代t中保留满足以上条件的决策值对应的智能体的集合Ji(t),
Figure BDA0003664846950000031
F为网络中至多能够承受外部恶意节点攻击的数目;i为第i个智能体;Ni表示第i个智能体决策值的入邻居集合;
同理得到智能体vi在每次迭代t中保留的梯度估计值对应的智能体的集合Ki(t);
Figure BDA0003664846950000032
Wi表示第i个智能体梯度值的入邻居集合;
04.未受攻击智能体根据其在迭代t中自身的决策值和Ji(t)中保留邻居的决策值的加权平均和递减步长与平均梯度的乘积值更新自身决策值;同时根据其在迭代t中自身的梯度估计值和Ki(t)中保留邻居的梯度估计值的加权平均和两次梯度的差值更新梯度估计值;
S2.设定相关参数,不断重复步骤S1中02-04,使决策值所求解与最优解之间的误差值最小,得到智能体的近似最优决策值。
进一步地,带攻击情况下的多智能体网络对应地分布式优化模型为:
Figure BDA0003664846950000033
其中,n为多智能体网络中所有智能体的个数,a为受攻击的智能体的个数,
Figure BDA0003664846950000034
为实数域,i为第i个智能体。
进一步地,多智能体网络结构拓扑图表示为G=(V,E),其中V表示智能体的集合,V=(A,R),A为受到攻击的智能体的集合,数目为a;R为未受到攻击的正常智能体的集合,数目为n-a,E表示有向边的集合。
进一步地,未受攻击智能体vi采用以下公式更新自身的决策值和平均梯度估计:
Figure BDA0003664846950000035
Figure BDA0003664846950000041
nij、wij分别表示第i个智能体对第j个智能体的决策值和梯度估计值权重,若第j个智能体属于第i个智能体的入邻居集合,则nij>0,wij>0否则nij=0,wij=0;其中i∈{1,…,n},j∈{1,…,n};n为多智能体网络中所有智能体的个数;fi(xi)未受攻击智能体xi的局部目标函数,
Figure BDA0003664846950000042
表示
Figure BDA0003664846950000043
αt表示迭代步长。
进一步地,步骤S4中设定相关参数包括,设定函数fi(x)梯度的界限,强凸参数κ和光滑参数β;多智能体网络中所有智能体的个数n、受攻击智能体的个数a、网络中至多能够承受外部恶意节点攻击的数目F和迭代步长αt
进一步地,αt满足以下选取规则
Figure BDA0003664846950000044
进一步地,网络中至多能够承受外部恶意节点攻击的数目
Figure BDA0003664846950000045
按照本发明的另一方面提供了一种适用于受攻击情况下多智能体网络的分布式优化装置,包括:快速分布式优化模块和迭代循环模块;
快速分布式优化模块,用于在多智能体网络受攻击情况下,使网络中未受攻击智能体的决策值和梯度值按照以下过程进行更新:
01.设置初始的未受攻击智能体的决策值和平均梯度估计值;
02.未受攻击智能体基于带攻击情况下的多智能体网络结构拓扑图分别收集它入邻居的决策值和梯度估计值;同时向其所有的出邻居发送其当前决策值和平均梯度估计值;
03.未受攻击智能体vi对收集到的决策值按照大小进行排序,并与vi自身的决策值进行比较;如果大于vi自身决策值的个数大于F,移除大于其自身决策值的F个最大值;如果小于vi自身决策值的个数大于F,移除小于其自身决策值的F个最小值;如果大于或小于vi自身决策值的个数小于或等于F,则删除所有大于或小于vi自身决策值的值;如果收集到的决策值与vi自身决策值相等,则保留这些值;得到智能体vi在每次迭代t中保留满足以上条件的决策值对应的智能体的集合Ji(t),
Figure BDA0003664846950000051
F为网络中至多能够承受外部恶意节点攻击的数目;i为第i个智能体;Ni表示第i个智能体决策值的入邻居集合;
同理得到智能体vi在每次迭代t中保留的梯度估计值对应的智能体的集合Ki(t);
Figure BDA0003664846950000052
Wi表示第i个智能体梯度值的入邻居集合;
04.未受攻击智能体根据其在迭代t中自身的决策值和Ji(t)中保留邻居的决策值的加权平均和递减步长与平均梯度的乘积值更新自身决策值;同时根据其在迭代t中自身的梯度估计值和Ki(t)中保留邻居的梯度估计值的加权平均和两次梯度的差值更新梯度估计值;
迭代循环模块,用于设定相关参数,不断重复执行快速分布式优化模块的功能,使决策值所求解与最优解之间的误差值最小,得到智能体的近似最优决策值。
进一步地,带攻击情况下的多智能体网络对应地分布式优化模型为:
Figure BDA0003664846950000053
其中,n为多智能体网络中所有智能体的个数,a为受攻击的智能体的个数,
Figure BDA0003664846950000054
为实数域,i为第i个智能体。
进一步地,未受攻击智能体vi采用以下公式更新自身的决策值和平均梯度估计:
Figure BDA0003664846950000055
Figure BDA0003664846950000056
nij、wij分别表示第i个智能体对第j个智能体的决策值和梯度估计值权重,若第j个智能体属于第i个智能体的入邻居集合,则nij>0,wij>0否则nij=0,wij=0;其中i∈{1,…,n},j∈{1,…,n};n为多智能体网络中所有智能体的个数;fi(xi)未受攻击智能体xi的局部目标函数,
Figure BDA0003664846950000061
表示
Figure BDA0003664846950000062
αt表示迭代步长。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,由于能够取得下列有益效果。
(1)本发明针对多智能体网络受到外部攻击或者网络内存在恶意智能体的情况,在每个未受到攻击的正常智能体收到其入邻居的信息之后,通过“过滤”的操作分别移除大于和小于其自身值的部分值,得到经过“过滤”操作之后的可靠信息,这些可靠信息会被正常节点使用进行迭代,由此可以在不检测出恶意节点的情况下,很好地适应至多F个恶意节点的攻击,改善了传统分布式多智能体网络鲁棒性差、不能抵抗外部攻击的缺点;同时本发明克服了传统分布式多智能体网络加速方法要求其邻接矩阵为双随机的强假设问题,提升了适应恶意节点攻击的多智能体分布式网络的收敛速率,减少了迭代步骤和收敛时间,由于加速过程只要求邻接矩阵满足行随机的弱假设即可,在应用中具有实际意义,提高了方法的普适性。
(2)在整个计算迭代过程中,多智能体使用的是执行“过滤”操作后得到的可靠信息,该操作减少了每个智能体需要计算和存储的信息量,克服了智能体要求存储空间过大的缺陷,同时也减少了计算复杂度。
(3)在整个迭代过程中,针对网络中多智能体之间通信,仅要求智能体进行决策值和梯度估计值两种信息的交互,不需要网络中的智能体获得其他智能体的额外信息,有利于保护智能体隐私、减小信息通信量和复杂度。
(4)本发明适用场景丰富,参数设置简单,假设条件弱,实用性强,易于实现。
附图说明
图1为本发明的多智能体网络的优化方法流程图;
图2为本发明实施例中多智能体系统网络结构示意图;
图3中(a)和(b)为本发明实施例中未受到攻击的智能体决策值和梯度值分别为固定值和随机值收敛情况曲线图;
图4为本发明实施例中本方法和传统分布式梯度下降法的收敛情况效果比较示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
基于分布式优化方法的多智能体网络存在严重的安全问题,尤其是在当多智能体网络受到外部攻击,或者网络中存在恶意智能体的情况下,网络中会被注入错误的信息,这些错误的信息会使得网络中智能体的决策、计算和通信行为与正常情况发生偏差,导致网络不能达到预期目标,甚至不能收敛。而且受到外部攻击的智能体的行为是任意的,即他们通信方式、通信范围、状态值、梯度值和更新方式都是任意的,在这种情况下,想辨别出受到外部攻击的恶意节点几乎是不可能的,因为这些节点可以任意改变其状态来躲避检测。可以证明的是,只要多智能体网络中任意一个智能体受到外部攻击或者任意一个智能体变为恶意智能体,整个系统都会失效,收敛到任意值,不能达到既定目标。
因此,本发明提出一种在不检测出恶意节点的情况下,提高多智能体网络鲁棒性的方法。虽然正常智能体无法区分多智能体网络中的受到攻击的智能体并将其剔除,但是可以将正常智能体利用的信息限制在一个可靠的区间内,不论利用的信息是否来源于正常智能体,都可以保证正常智能体利用的信息在这个可靠的区间内。具体做法是,在每个未受到攻击的正常智能体收到其入邻居的信息之后,可以通过“过滤”的操作分别移除大于和小于其自身值的部分值,得到经过“过滤”操作之后的信息,这些信息会被正常节点使用进行迭代。在数学上可以证明的是,虽然执行“过滤”操作后使用的部分信息可能来源于受到攻击的智能体,但是这部分的信息也被看作是可信的,这部分信息可以写作未受到攻击的正常智能体的凸组合的形式。
同时传统的基于分布式优化方法的多能治网络因为其没有中心节点的全局调控,只能通过网络中智能体之间局部信息交互的方式进行通信和迭代计算,所以还存在收敛速度慢的问题。而这种较慢的收敛速度会降低整个多智能体系统的运行效率,导致规定时间不能收敛到最优的问题。而现有的分布式加速方法对多智能体网络中邻接矩阵的要求是很高的,即要求临界矩阵为对称的双随机矩阵,这一假设在现实中很难实现。在实际情况中,非对称的行随机矩阵具有普适性。
本发明提出的加速方法克服了上述问题,具有普适性。决策值和梯度值的两步迭代算法的权重邻接矩阵可以写成非对称行随机矩阵的形式,在此基础上,本发明提出采用递减步长αt的形式,通过递减步长limt→∞αt→0的性质对迭代过程中产生的误差项进行消去,通过数学上的证明(具体证明思路为:全局不等式放缩),证明了在邻接矩阵为非对称行随机的情况下,加速方法也是适用的,改善了邻接矩阵对称双随机的条件,实现了邻接矩阵非对称行随机的普适条件。
实施例一
本发明提供的一种适用于受攻击情况下多智能体网络的分布式优化方法,如图1所示,包括以下步骤:
S1.建立带攻击情况下的多智能体网络对应地智能体分布式优化模型;
具体为每个未受攻击的智能体都有一个局部目标函数fi(xi),全局目标函数f(x)是这些局部目标函数的和,每个未受攻击的智能体通过与邻居智能体进行信息交互,最终协同实现全局优化的目标,即每个智能体的自身决策收敛到全局最优解。所述优化模型用下式表示:
Figure BDA0003664846950000091
其中,n为多智能体网络中所有智能体的个数,a为实际受到攻击的智能体的个数,
Figure BDA0003664846950000092
为实数域,i为第i个智能体,xi:
Figure BDA0003664846950000093
是第i个智能体的局部决策值;fi(xi):
Figure BDA0003664846950000094
是第i个智能体的局部目标函数,具有强凸且光滑的特点,κ为其强凸系数,β为其光滑系数;
本实施例中每个智能体局部函数最优点设置具体如图2,为了在实施例中清晰地表示仿真效果,每个未受到攻击的智能体的函数具有相同的最优点fi(x)=x2-bi
Figure BDA0003664846950000095
本实施例中的全局目标仅包含未受到外部攻击的智能体,受到外部攻击的智能体可以看作恶意的,在逻辑上,其传输的信息不应被采用,所以本发明在全局目标中只包含未受到外部攻击的正常智能体。
S2.构造带攻击情况下的多智能体网络结构拓扑图,该图为完全图;具体地,构造受到攻击智能体和未受到攻击智能体组成的网络结构拓扑图,使每个未受到攻击的智能体与网络中所有的邻居智能体进行通信,并生成相邻智能体集合;受到攻击的智能体的行为可以是任意的,即可以进行任意方式、任意范围进行通信,其决策值和梯度值可以是任意值,并以任意的方式更新。
所述多智能体网络结构拓扑图表示为G=(V,E),为完全图,即网络中任意两个智能体之间都能进行双向通信,其中V表示智能体的集合,E表示有向边的集合,智能体集合V分为两部分,V=(A,R),A为受到攻击的智能体的集合,数目为a;R为未受到攻击的正常智能体的集合,数目为n-a。多智能体网络最多可容忍受攻击智能体的数目为F;
定义(i,j)为第j个智能体到第i个智能体的有向边;入邻居为向智能体i发送信息的邻居,出邻居为可以收到智能体i发送信息的邻居;Ni表示第i个智能体决策值的入邻居集合;Wi表示第i个智能体梯度值的入邻居集合;以nij、wij分别表示第i个智能体对第j个智能体的决策值和梯度估计值权重,若第j个智能体属于第i个智能体的入邻居集合,则nij>0,wij>0否则nij=0,wij=0;其中i∈{1,…,n},j∈{1,…,n}。
本实施例中的网络结构具体如图2所示,建立的网络为带攻击情况下的多智能体网络,网络中存在两个不相交的智能体集合,一个是受攻击智能体组成的集合,另一个是未受攻击智能体集合。
S3.使网络中未受到攻击的智能体的决策值按照本以下过程进行更新,梯度值根据梯度计算方法进行计算,具体步骤见S3-1至3-6;
网络中受到攻击的智能体的决策值和梯度值都是以任意值,且受到攻击的智能体可以采用任意的方式进行决策值和梯度值更新,可以以任意的方式进行通信;本实施例中受到攻击的智能体的决策值和梯度值在一般意义下都是随机的,为了使得仿真结果清晰,本实施例分别对决策值和梯度值为固定值和随机值的情况进行了模拟仿真,收敛结果分别如图3中(a)和(b)所示。固定值的情况下,决策值为30,梯度值为1000;随机值的情况下,决策值和梯度值都是随机值;图3中(a)和(b)横坐标均为迭代次数t,纵坐标名称为“Indi”的子图展示的是每个智能体的决策值与最优值的差值xi-x*、纵坐标名称为“Cons to Opit”的子图展示的是每个时刻的一致值与最优值的差值
Figure BDA0003664846950000101
纵坐标名称为“Indi to Cons”的子图展示的是每个智能体决策值与一致性值的差值
Figure BDA0003664846950000102
纵坐标名称为“Indi-Fuc”的子图展示的是每个智能体的函数值与最优函数值的差值fi-f*、纵坐标名称为“Indi-Fuc toOpit”的子图展示的是一致性值的函数值与最优函数值的差值
Figure BDA0003664846950000111
纵坐标名称为“Indi-Fuc to Cons”的子图展示的是每个智能体的函数值与一致性值的函数值的差值
Figure BDA0003664846950000112
可以看出达到了收敛效果。
未受攻击的智能体决策值和梯度值更更新过程如下:
S3-1.设置初始的未受攻击的正常智能体vi的决策值xi(0),平均梯度估计值si(0);
xi(0)是可以是任意值,
Figure BDA0003664846950000113
本实施例中未受攻击的正常智能体vi的决策值xi(0)设置是随机分布在0-50之间的随机值。
S3-2.未受攻击的正常智能体vi分别收集它入邻居的决策值{xj(t),vj∈Ni}和梯度估计值{sj(t),vj∈Wi};同时向其所有的出邻居发送其当前决策值xi(t)和平均梯度估计值si(t);
S3-3.未受攻击智能体vi对收集到的决策值按照大小进行排序,并与vi自身的决策值进行比较;如果大于vi自身决策值的个数大于F,移除大于其自身决策值的F个最大值;如果小于vi自身决策值的个数大于F,移除小于其自身决策值的F个最小值;如果大于或小于vi自身决策值的个数小于或等于F,则删除所有大于或小于vi自身决策值的值;如果收集到的决策值与vi自身决策值相等,则保留这些值;得到智能体vi在每次迭代t中保留满足以上条件的决策值对应的智能体的集合Ji(t),
Figure BDA0003664846950000114
同理得到智能体vi在每次迭代t中保留的梯度估计值对应的智能体的集合Ki(t);
Figure BDA0003664846950000115
具体为,未受攻击智能体vi对收集到的梯度估计值按照大小进行排序,并与vi自身的梯度估计值进行比较;如果大于vi自身梯度估计值的个数大于F,移除大于其自身梯度估计值的F个最大值;如果小于vi自身梯度估计值的个数大于F,移除小于其自身梯度估计值的F个最小值;如果大于或小于vi自身梯度估计值的个数小于或等于F,则删除所有大于或小于vi自身梯度估计值的值;如果收集到的梯度估计值与vi自身梯度估计值相等,则保留这些值;得到智能体vi在每次迭代t中保留满足以上条件的梯度估计值对应的智能体的集合Ki(t),
Figure BDA0003664846950000121
例如,在某个迭代步骤t过程中,未受攻击智能体vi自身的决策值xi(t)=15,vi的入邻居个数为10,未受攻击智能体vi收到其的入邻居vj∈Ni的决策值信息,并组成集合{1,2,3,4,5,6,15,18,19,20}。此时,参数F=3,根据上述步骤的“过滤”规则,vi留下的值为{4,5,6,15};
本发明中网络受到攻击,在分布式的情况下想要找出网络中受到外部攻击的恶意智能体几乎是不可能的,所以本发明提供的方法可以在不找出受到外部攻击的智能体的情况下适应外部攻击。
本发明中使得网络能够适应外部攻击的主要关键点在于S5-4和S5-5两个步骤,两个步骤的主要作用是对网络中的错误信息进行过滤。主要思想是使得每个未受到攻击的正常智能体在每步迭代中通过过滤操作,留下的信息(要使用的)都是在正常智能体的最大值和最小值的区间内,在数学上可以证明这些值不论其是否来自正常智能体,都是可以写成正常智能体所提供的值的凸组合的形式,也就是可以看作这些留下来的值均来源于未受到攻击的正常节点,只是使用权重发生了变化,并不影响最终的结果。S3-4.未受攻击的正常智能体vi更新它自己的决策值和平均梯度估计:
Figure BDA0003664846950000122
Figure BDA0003664846950000123
其中nii和wii是自我权重,nij和wij是与保留的入邻居通信的权重,αt>0为递减步长,每个未受攻击的智能体i对决策值xi(t+1)进行估计,并且计算自己和入邻居的下降方向si(t)和sj(t)的加权平均值,对迭代方向进行估计,并且仅考虑最近梯度估计中包含的新信息
Figure BDA0003664846950000131
传统的基于分布式优化方法的多能治网络因为其没有中心节点的全局调控,只能通过网络中智能体之间局部信息交互的方式进行通信和迭代计算,所以还存在收敛速度慢的问题。而这种较慢的收敛速度会降低整个多智能体系统的运行效率,导致规定时间不能收敛到最优的问题。
本发明采用了历史信息有效地对梯度下降方向重新进行估计,加快收敛速度。通过对过滤后的可靠信息进行加权平均,重新估计下降方向,具体见下式
Figure BDA0003664846950000132
等式右边第一和第二项
Figure BDA0003664846950000133
为平均梯度,未受到攻击的正常智能体对过滤后的信息和自身信息进行加权平均,等式右边第三项和第四项
Figure BDA0003664846950000134
为梯度差,这一项是对梯度的跟踪,将这两者有效地结合起来可以很好地对梯度下降方向进行估计,得到更加精确的下降方向,从而加快收敛速率。
但是上述加速方法对邻接矩阵具有较高的要求,要求为对称的双随机矩阵。这一假设意味着智能体vi与vj之间必须使用相同的权重进行双向通信,这在现实中是很难实现的,在实际情况中,非对称的行随机矩阵具有普适性。在本发明中,若要求矩阵为对称的双随机矩阵,也就意味着智能体vi保留其入邻居vj的信息的同时,vj也必须保留vi的信息;这一假设在执行“过滤”操作之后并不能得到保证,只能保证矩阵为非对称行随机的一般矩阵。
本发明中克服了上述问题,具有普适性。在S3-4中,两步迭代算法的权重邻接矩阵可以写成非对称行随机矩阵的形式,本发明提出的算法采用的递减步长αt的形式,通过递减步长limt→∞αt→0的性质对迭代过程中产生的误差项进行消去,通过数学上的证明(具体证明思路为:全局不等式放缩),证明了在邻接矩阵为非对称行随机的情况下,加速方法也是适用的,改善了邻接矩阵对称双随机的条件,实现了邻接矩阵非对称行随机的普适条件。
S4.设定函数fi(x)梯度的界限,强凸参数κ和光滑参数β;网络相关参数n、a、F;算法相关参数αt;不断重复S3-1-S3-4步骤,使决策值所求解与最优解之间的误差值最小,得到智能体的近似最优决策值。
函数fi(·)的梯度有界,即满足||f(x)-f(y)||≤L||x-y||,其中L为正常数,是次梯度的上界;
Figure BDA0003664846950000141
表示
Figure BDA0003664846950000142
函数fi(·)满足光滑性,即满足
Figure BDA0003664846950000143
参数
Figure BDA0003664846950000144
函数fi(·)满足强凸性,即满足
Figure BDA0003664846950000145
参数
Figure BDA0003664846950000146
为多智能体网络中所有智能体的个数,
Figure BDA0003664846950000147
为实际受到攻击的智能体的个数;αt需要满足以下选取规则(1)
Figure BDA0003664846950000148
(2)
Figure BDA0003664846950000149
(3)
Figure BDA00036648469500001410
网络中至多可以承受外部恶意节点攻击的数目
Figure BDA00036648469500001411
本实施例中的参数设置具体如图2,网络中智能体的个数为n=300,实际受到攻击的智能体的个数a=50,局部函数的光滑系数L=2,局部函数的光滑系数β=2,局部函数的强凸系数κ=2,步长
Figure BDA00036648469500001412
多智能体网络可以承受的最大攻击的数目F=149。
为了比较本发明优化优化方法与传统优化方法的收敛速度,进行了相同初始参数设定下的收敛速度比较。具体如图4,图4可以看出本方法收敛速度最快的方法,远远大于传统方法。
实施例二
与上述方法相对应,按照本发明还提供了一种适用于受攻击情况下多智能体网络的分布式优化装置,包括:快速分布式优化模块和迭代循环模块;快速分布式优化模块,用于在多智能体网络受攻击情况下,使网络中未受攻击智能体的决策值和梯度值按照以下过程进行更新:
01.设置初始的未受攻击智能体的决策值和平均梯度估计值;
02.未受攻击智能体基于带攻击情况下的多智能体网络结构拓扑图分别收集它入邻居的决策值和梯度估计值;同时向其所有的出邻居发送其当前决策值和平均梯度估计值;所述多智能体网络结构拓扑图包含n个智能体的完全图;所述完全图是网络中任意两个智能体都能进行双向交互;
03.未受攻击智能体vi对收集到的决策值按照大小进行排序,并与vi自身的决策值进行比较;如果大于vi自身决策值的个数大于F,移除大于其自身决策值的F个最大值;如果小于vi自身决策值的个数大于F,移除小于其自身决策值的F个最小值;如果大于或小于vi自身决策值的个数小于或等于F,则删除所有大于或小于vi自身决策值的值;如果收集到的决策值与vi自身决策值相等,则保留这些值;得到智能体vi在每次迭代t中保留满足以上条件的决策值对应的智能体的集合Ji(t),
Figure BDA0003664846950000151
F为网络中至多能够承受外部恶意节点攻击的数目;i为第i个智能体;Ni表示第i个智能体决策值的入邻居集合;
同理得到智能体vi在每次迭代t中保留的梯度估计值对应的智能体的集合Ki(t);
Figure BDA0003664846950000152
Wi表示第i个智能体梯度值的入邻居集合;
04.未受攻击智能体根据其在迭代t中自身的决策值和Ji(t)中保留邻居的决策值的加权平均和递减步长与平均梯度的乘积值更新自身决策值;同时根据其在迭代t中自身的梯度估计值和Ki(t)中保留邻居的梯度估计值的加权平均和两次梯度的差值更新梯度估计值;
迭代循环模块,用于设定相关参数,不断重复执行快速分布式优化模块的功能,使决策值所求解与最优解之间的误差值最小,得到智能体的近似最优决策值。
装置中各个模块的具体实施过程和方法步骤相对应,本发明再次不再赘述。
综上表明,本发明在抵抗多智能体网络攻击和加快优化方法的收敛速度方面取得了良好的效果。能够在分布式多智能体网络中的智能体受到攻击的情况下,保证未受到攻击智能体的决策趋于一致,最终收敛到每个未受到攻击智能体最优值的凸组合中,并且加快了收敛速度。同时,本发明适用场景丰富,参数设置简单,实用性强,易于实现。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种适用于受攻击情况下多智能体网络的分布式优化方法,其特征在于,包括:
S1.在多智能体网络受攻击情况下,使网络中未受攻击智能体的决策值和梯度值按照以下步骤进行更新:
01.设置初始的未受攻击智能体的决策值和平均梯度估计值;
02.未受攻击智能体基于带攻击情况下的多智能体网络结构拓扑图分别收集它入邻居的决策值和梯度估计值;同时向其所有的出邻居发送其当前决策值和平均梯度估计值;
03.未受攻击智能体vi对收集到的决策值按照大小进行排序,并与vi自身的决策值进行比较;如果大于vi自身决策值的个数大于F,移除大于其自身决策值的F个最大值;如果小于vi自身决策值的个数大于F,移除小于其自身决策值的F个最小值;如果大于或小于vi自身决策值的个数小于或等于F,则删除所有大于或小于vi自身决策值的值;如果收集到的决策值与vi自身决策值相等,则保留这些值;得到智能体vi在每次迭代t中保留满足以上条件的决策值对应的智能体的集合Ji(t),
Figure FDA0003664846940000011
F为网络中至多能够承受外部恶意节点攻击的数目;i为第i个智能体;Ni表示第i个智能体决策值的入邻居集合;
同理得到智能体vi在每次迭代t中保留的梯度估计值对应的智能体的集合Ki(t);
Figure FDA0003664846940000012
Wi表示第i个智能体梯度值的入邻居集合;
04.未受攻击智能体根据其在迭代t中自身的决策值和Ji(t)中保留邻居的决策值的加权平均和递减步长与平均梯度的乘积值更新自身决策值;同时根据其在迭代t中自身的梯度估计值和Ki(t)中保留邻居的梯度估计值的加权平均和两次梯度的差值更新梯度估计值;
S2.设定相关参数,不断重复步骤S1中02-04,使决策值所求解与最优解之间的误差值最小,得到智能体的近似最优决策值。
2.根据权利要求1所述的一种适用于受攻击情况下多智能体网络的分布式优化方法,其特征在于,带攻击情况下的多智能体网络对应地分布式优化模型为:
Figure FDA0003664846940000021
其中,n为多智能体网络中所有智能体的个数,a为受攻击的智能体的个数,
Figure FDA0003664846940000022
为实数域,i为第i个智能体。
3.根据权利要求2所述的一种适用于受攻击情况下多智能体网络的分布式优化方法,其特征在于,多智能体网络结构拓扑图表示为G=(V,E),其中V表示智能体的集合,V=(A,R),A为受到攻击的智能体的集合,数目为a;R为未受到攻击的正常智能体的集合,数目为n-a,E表示有向边的集合。
4.根据权利要求3所述的一种适用于受攻击情况下多智能体网络的分布式优化方法,其特征在于,未受攻击智能体vi采用以下公式更新自身的决策值和平均梯度估计:
Figure FDA0003664846940000023
Figure FDA0003664846940000024
nij、wij分别表示第i个智能体对第j个智能体的决策值和梯度估计值权重,若第j个智能体属于第i个智能体的入邻居集合,则nij>0,wij>0否则nij=0,wij=0;其中i∈{1,…,n},j∈{1,…,n};n为多智能体网络中所有智能体的个数;fi(xi)未受攻击智能体xi的局部目标函数,
Figure FDA0003664846940000025
表示
Figure FDA0003664846940000026
αt表示迭代步长。
5.根据权利要求1所述的一种适用于受攻击情况下多智能体网络的分布式优化方法,其特征在于,步骤S4中设定相关参数包括,设定函数fi(x)梯度的界限,强凸参数κ和光滑参数β;多智能体网络中所有智能体的个数n、受攻击智能体的个数a、网络中至多能够承受外部恶意节点攻击的数目F和迭代步长αt;αt满足以下选取规则
Figure FDA0003664846940000031
6.根据权利要求4所述的一种适用于受攻击情况下多智能体网络的分布式优化方法,其特征在于,网络中至多能够承受外部恶意节点攻击的数目
Figure FDA0003664846940000032
7.一种适用于受攻击情况下多智能体网络的分布式优化系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至6任一项所述的适用于受攻击情况下多智能体网络的分布式优化方法。
8.一种适用于受攻击情况下多智能体网络的分布式优化装置,其特征在于,包括:快速分布式优化模块和迭代循环模块;
快速分布式优化模块,用于在多智能体网络受攻击情况下,使网络中未受攻击智能体的决策值和梯度值按照以下过程进行更新:
01.设置初始的未受攻击智能体的决策值和平均梯度估计值;
02.未受攻击智能体基于带攻击情况下的多智能体网络结构拓扑图分别收集它入邻居的决策值和梯度估计值;同时向其所有的出邻居发送其当前决策值和平均梯度估计值;
03.未受攻击智能体vi对收集到的决策值按照大小进行排序,并与vi自身的决策值进行比较;如果大于vi自身决策值的个数大于F,移除大于其自身决策值的F个最大值;如果小于vi自身决策值的个数大于F,移除小于其自身决策值的F个最小值;如果大于或小于vi自身决策值的个数小于或等于F,则删除所有大于或小于vi自身决策值的值;如果收集到的决策值与vi自身决策值相等,则保留这些值;得到智能体vi在每次迭代t中保留满足以上条件的决策值对应的智能体的集合Ji(t),
Figure FDA0003664846940000041
F为网络中至多能够承受外部恶意节点攻击的数目;i为第i个智能体;Ni表示第i个智能体决策值的入邻居集合;
同理得到智能体vi在每次迭代t中保留的梯度估计值对应的智能体的集合Ki(t);
Figure FDA0003664846940000042
Wi表示第i个智能体梯度值的入邻居集合;
04.未受攻击智能体根据其在迭代t中自身的决策值和Ji(t)中保留邻居的决策值的加权平均和递减步长与平均梯度的乘积值更新自身决策值;同时根据其在迭代t中自身的梯度估计值和Ki(t)中保留邻居的梯度估计值的加权平均和两次梯度的差值更新梯度估计值;
迭代循环模块,用于设定相关参数,不断重复执行快速分布式优化模块的功能,使决策值所求解与最优解之间的误差值最小,得到智能体的近似最优决策值。
9.根据权利要求8所述的一种适用于受攻击情况下多智能体网络的分布式优化装置,其特征在于,带攻击情况下的多智能体网络对应地分布式优化模型为:
Figure FDA0003664846940000043
其中,n为多智能体网络中所有智能体的个数,a为受攻击的智能体的个数,
Figure FDA0003664846940000044
为实数域,i为第i个智能体。
10.根据权利要求9所述的一种适用于受攻击情况下多智能体网络的分布式优化装置,其特征在于,未受攻击智能体vi采用以下公式更新自身的决策值和平均梯度估计:
Figure FDA0003664846940000051
Figure FDA0003664846940000052
nij、wij分别表示第i个智能体对第j个智能体的决策值和梯度估计值权重,若第j个智能体属于第i个智能体的入邻居集合,则nij>0,wij>0否则nij=0,wij=0;其中i∈{1,…,n},j∈{1,…,n};n为多智能体网络中所有智能体的个数;fi(xi)未受攻击智能体xi的局部目标函数,
Figure FDA0003664846940000053
表示
Figure FDA0003664846940000054
αt表示迭代步长。
CN202210590266.0A 2022-05-26 2022-05-26 一种适用于受攻击情况下多智能体网络的分布式优化方法 Active CN115001787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210590266.0A CN115001787B (zh) 2022-05-26 2022-05-26 一种适用于受攻击情况下多智能体网络的分布式优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210590266.0A CN115001787B (zh) 2022-05-26 2022-05-26 一种适用于受攻击情况下多智能体网络的分布式优化方法

Publications (2)

Publication Number Publication Date
CN115001787A true CN115001787A (zh) 2022-09-02
CN115001787B CN115001787B (zh) 2023-03-14

Family

ID=83028580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210590266.0A Active CN115001787B (zh) 2022-05-26 2022-05-26 一种适用于受攻击情况下多智能体网络的分布式优化方法

Country Status (1)

Country Link
CN (1) CN115001787B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020100182A4 (en) * 2020-02-05 2020-03-12 Southwest University A Multi-Step Strategy with Stochastic Averaging Gradient for Distributed Optimization
CN112583633A (zh) * 2020-10-26 2021-03-30 东北大学秦皇岛分校 一种基于粗糙信息的有向多智能体网络的分布式优化方法
CN114063652A (zh) * 2021-11-23 2022-02-18 北京理工大学 基于应力矩阵优化的多智能体系统仿射编队控制方法
CN114386331A (zh) * 2022-01-14 2022-04-22 国网浙江省电力有限公司信息通信分公司 基于多智能体宽大强化学习的电力安全经济调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020100182A4 (en) * 2020-02-05 2020-03-12 Southwest University A Multi-Step Strategy with Stochastic Averaging Gradient for Distributed Optimization
CN112583633A (zh) * 2020-10-26 2021-03-30 东北大学秦皇岛分校 一种基于粗糙信息的有向多智能体网络的分布式优化方法
CN114063652A (zh) * 2021-11-23 2022-02-18 北京理工大学 基于应力矩阵优化的多智能体系统仿射编队控制方法
CN114386331A (zh) * 2022-01-14 2022-04-22 国网浙江省电力有限公司信息通信分公司 基于多智能体宽大强化学习的电力安全经济调度方法

Also Published As

Publication number Publication date
CN115001787B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
Ji et al. Distributed coordination control of multiagent systems while preserving connectedness
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
US11757723B2 (en) Distributed secure state reconstruction method based on double-layer dynamic switching observer
CN113110039B (zh) 一种多智能体系统的有限时间分布式聚合优化方法
CN111935724B (zh) 基于异步深度强化学习的无线传感器网络拓扑优化方法
Chen et al. Observer-based event-triggered tracking consensus of non-ideal general linear multi-agent systems
CN114924588A (zh) 一种无人机集群弹性安全编队方法
CN116862021B (zh) 基于信誉评估的抗拜占庭攻击的去中心化学习方法及系统
CN115001787B (zh) 一种适用于受攻击情况下多智能体网络的分布式优化方法
CN111736593B (zh) 一种防不确定DoS攻击的舞台移动机器人编队控制方法
Li et al. Resilient control design of the third-order discrete-time connected vehicle systems against cyber-attacks
CN111934917A (zh) 基于信任节点的异质多智能体系统分组一致性控制方法
CN114371625B (zh) 节点数变化的多智能体编队控制方法
CN113283536B (zh) 面向成员推理攻击的基于异常点检测的深度模型隐私保护方法
CN113132163B (zh) 一种分布式系统的优化方法及系统
Hajshirmohamadi et al. Actuator fault estimation for multi-agent systems: a sliding-mode observer-based approach
Del Vecchio et al. Discrete state estimators for a class of hybrid systems on a lattice
Nogueira et al. Detection and mitigation of corrupted information in distributed model predictive control based on resource allocation
CN109167678A (zh) 一种多段关键通信链路的分布式搜索方法
Yan et al. Consensus control of leader-following multi-agent system in partial directed topology
Li et al. Resilient Average Consensus in Presence of False Data Injection Attacks
CN116442212B (zh) 预置时间和精度下人在环多机械臂系统分群安全控制方法
CN116340593A (zh) 一种复杂网络高阶结构重要度识别方法
CN117039859A (zh) 基于深度q学习的电力cps信息风险传播控制方法及系统
CN107301452B (zh) 一种含有对抗因素的多智能体一致性控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant