CN114826737A - 一种基于ai辅助博弈的无标度网络防御性能提升方法 - Google Patents

一种基于ai辅助博弈的无标度网络防御性能提升方法 Download PDF

Info

Publication number
CN114826737A
CN114826737A CN202210447423.2A CN202210447423A CN114826737A CN 114826737 A CN114826737 A CN 114826737A CN 202210447423 A CN202210447423 A CN 202210447423A CN 114826737 A CN114826737 A CN 114826737A
Authority
CN
China
Prior art keywords
node
network
nodes
index
game
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210447423.2A
Other languages
English (en)
Inventor
陈宝超
卢子月
刘秀龙
曲雯毓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210447423.2A priority Critical patent/CN114826737A/zh
Publication of CN114826737A publication Critical patent/CN114826737A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于AI辅助博弈的无标度网络防御性能提升方法,属于人工智能技术领域。一种基于AI辅助博弈的无标度网络防御性能提升方法,首先,将海量异质设备构成的无标度网络抽象为一个博弈环境,并设计一套博弈规则;网络中存在攻击者和防御者两个智能体,对抗博弈在二者之间进行;然后,通过卷积神经网络来评估深度Q网络中的动作价值,并将博弈的状态整合成张量形式,以此作为CNN的输入;本发明结合了CNN网络中节点的权重和网络连接参数,来衡量防御者在博弈中特定动作的价值。仿真结果表明,使用CNN作为策略的防御者智能体可以在均衡状态下延迟攻击者的入侵,并在保护高权重节点和保持网络连通性之间取得平衡。

Description

一种基于AI辅助博弈的无标度网络防御性能提升方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于AI辅助博弈的无标度网络防御性能提升方法。
背景技术
为了增强无标度网络的安全性,研究人员重点研究了网络结构的鲁棒性、针对性攻击的最优防御策略等方向。获得最优防御策略的主要挑战之一是难以用传统的数学方法计算均衡点。为了解决这一挑战,研究者们开始使用策略空间不断增加的种群策略。DO方法是该类策略中出现比较早的方法,该方法迭代扩展了带有均衡的最佳响应的枚举策略集。
人工智能的发展,例如强化学习和深度学习,使得解决多方博弈的均衡不限于上述方法。研究者们通过强化学习缩短隐形僵尸网络的生命周期,优化和动态部署有限数量的防御机制。通过结合广义DO方法和深度Q网络提出的PSRO框架,能够用来统一许多现有的多智能体学习方法。该框架已经在一些博弈场景中得到应用,并取得了不错的效果。此外,一些研究者进一步扩展了智能体在攻击图博弈中的能力,让他们能够在博弈中逐渐学习到更好的DNN策略。为了增强安全性,一些工作设计了具有实时信息的绿色安全博弈模型,并为智能体训练策略。针对物联平台中设备海量异质、网络状态多变、平台易受攻击等挑战,本发明提出了一种基于AI辅助博弈的无标度网络防御性能提升方法。
发明内容
本发明的目的在于通过结合人工智能与博弈论,解决网络博弈空间巨大的问题,从而找到最佳的抵御网络攻击的策略,构建智能物联平台的主动防御机制,在发现平台故障或网络攻击后,系统能智能地采取应对措施。
为了实现上述目的,本发明采用了如下技术方案:
一种基于AI辅助博弈的无标度网络防御性能提升方法,具体包括以下步骤:
S1、根据无标度网络中节点的相对位置及连接关系,构建一个有向图G=(V,E),其中,V表示节点的集合;E表示所有边的集合;
S2、为每个节点分配一个状态变量,用于表示节点的当前状态;其中,用active表示当前节点已经被入侵;用inactive表示当前节点处于安全状态;
S3、选择能够反映节点对网络连通性贡献的指标,计算每个节点对应指标的值以及节点的权重;所选择的指标包括结构洞、接近中心性以及中介中心性;
S4、对所述S3中计算所得的每个节点对应指标的值以及节点的权重进行排序;
S5、采用综合分析方法,根据所述S3、S4中定义的指标及指标排序,对节点的重要性进行排序;
S6、通过将所述S5中计算所得的节点的重要性与一个因子相乘,计算Q值;
S7、选用Policy Space Response Oracle来训练智能体;
S8、所述S7中提到的智能体训练基于Oracle O来搜索策略,采用深度Q网络作为Oracle O,更具体的,利用卷积神经网络作为智能体的策略。
优选地,所述S3中提到的计算每个节点对应指标的值以及节点的权重,即每个节点的结构洞、接近中心性、中介中心性和权重的计算,具体计算过程如下:
A1、结构洞S(u)是反映网络结构中节点重要性的指标,其计算公式为:
Figure BDA0003615969750000031
其中,N(v)表示节点v的邻居节点的集合;puv是与节点u和v相邻的边的归一化相互权重;
A2、接近中心性C(u)反映了节点在信息传输路径中的重要性,其计算公式为:
Figure BDA0003615969750000032
其中,d(u,v)表示节点u和v之间的最短路径距离;n是可以到达u的节点数;
A3、中介中心性B(u)反映了节点在信息传输中的重要性,其计算公式为:
Figure BDA0003615969750000033
其中,V是所有节点的集合;σ(i,j)是i和j之间的最短路径数;σ(i,j|u)是通过u的最短路径数量;
A4、节点的权重W(u)表示网络设备中包含的内容的重要性。
优选地,所述S5中提到的对节点的重要性进行排序,具体计算过程如下:
B1、将N个节点的节点权重、结构洞、接近中心性及中介中心性四项指标用矩阵A表示,具体为:
Figure BDA0003615969750000041
其中,Aij表示节点i的第j个指标;
B2、对节点权重、中介中心性和接近中心性三项正面指标进行标准化,具体为:
Figure BDA0003615969750000042
Figure BDA0003615969750000043
其中,
Figure BDA0003615969750000044
表示第j个指标的最大值,则rij为节点i的第j个指标归一化的结果;
B3、对结构洞这一负面指标进行标准化,具体为:
Figure BDA0003615969750000045
Figure BDA0003615969750000046
其中,
Figure BDA0003615969750000047
表示第j个指标的最小值,则rij为节点i的第j个指标归一化的结果;
B4、根据指标的排名,为标准化指标分配不同的权重,用wj表示第j个指标的权重,并且
Figure BDA0003615969750000051
通过分配权重,可以获得具有权重的归一化矩阵X,具体为:
Figure BDA0003615969750000052
其中,wj表示第j个指标的权重,rij为节点i的第j个指标归一化的结果,xij表示wj*rij的结果;
B5、获取每个指标的最大值和最小值,并组成最大和最小理想解的向量,具体为:
Figure BDA0003615969750000053
Figure BDA0003615969750000054
其中,
Figure BDA0003615969750000055
为第一个指标加权的最大值,
Figure BDA0003615969750000056
为第四个指标加权的的最大值,
Figure BDA0003615969750000057
为第一个指标加权的的最小值,
Figure BDA0003615969750000058
为第四个指标加权的的最小值;
B6、计算每个节点接近最大理想解A+的程度
Figure BDA0003615969750000059
及接近最小理想解A-的程度
Figure BDA00036159697500000510
具体为:
Figure BDA00036159697500000511
Figure BDA00036159697500000512
其中,
Figure BDA0003615969750000061
是第j个指标加权的最大值,
Figure BDA0003615969750000062
是第j个指标加权的最小值,xij是加权归一化矩阵X的第i行第j列值;
B7、计算节点的重要性Pi,具体为:
Figure BDA0003615969750000063
其中,
Figure BDA0003615969750000064
表示节点接近最大理想解A+的程度;
Figure BDA0003615969750000065
表示接近最小理想解A-的程度。
优选地,所述S7中提到的智能体训练,具体训练过程如下:
C1、为每个智能体通过随机选择合法的动作来初始化一个统一的策略,并形成一个初始策略配置文件s,其中,包含两个智能体的统一策略;
C2、通过在博弈环境中模拟配置文件s来获得每个智能体的收益U(s),并用U(s)来初始化收益张量M并迭代地扩展它;
C3、使用Meta-solver M来得到M上的纳什均衡分布π;
C4、智能体通过Oracle O输入π来搜索新的策略,并以受益偏差为准则;
C5、当Policy Space Response Oracle算法的一次迭代结束时,如果发现至少一个智能体的最优响应,那么将形成所有新的策略配置文件,并得到新的收益U(s)来扩展收益张量M;
C6、在更新的收益张量M上计算新的纳什均衡π,并探索新的最佳响应;
C7、当没有新的最佳响应时,终止训练并返回最终的纳什均衡π、智能体的策略集和收益张量M作为结果。
优选地,所述S8中提到的利用卷积神经网络作为智能体的策略,具体计算过程如下:
D1、定义三维张量
Figure BDA0003615969750000071
Figure BDA0003615969750000072
来分别表示攻击者和防御者对网络状态的观察,其中,
Figure BDA0003615969750000073
Figure BDA0003615969750000074
是有网络形成的邻接矩阵;(i,j)等于1代表着网络图中从节点vi到节点vj有一条边eij,否则等于0;
Figure BDA0003615969750000075
代表攻击者观察到的存在观察误差的全局防御措施,
Figure BDA0003615969750000076
表示攻击者认为在边eij上存在防御措施,否则
Figure BDA0003615969750000077
Figure BDA0003615969750000078
代表着没有观察误差的全局防御措施;
Figure BDA0003615969750000079
表示节点的激活状态,
Figure BDA00036159697500000710
表示节点vi处于激活状态,否则
Figure BDA00036159697500000711
Figure BDA00036159697500000712
表示防御者观察到的存在观察误差的节点激活状态;
D2、博弈是由智能体随机选择动作开始,并将得到的
Figure BDA00036159697500000713
Figure BDA00036159697500000714
分别作为智能体的CNN输入,从而对智能体进行训练;
D3、在每一步结束时,攻击者根据这一步中被激活的节点获得奖励ra以及新的观测O′A
D4、防御者根据被激活的节点得到处罚rd以及新的观测O′D
D5、根据得到的O′A和O′D,继续Oracle O的操作,直至满足预期要求。
与现有技术相比,本发明提供了一种基于AI辅助博弈的无标度网络防御性能提升方法,具备以下有益效果:
本发明利用无标度网络中的网络对抗博弈,构建了博弈环境,设计了合适的博弈规则,并采用基于值的深度强化学习(DRL)、深度Q网络(DQN)来指导种群进化。通过利用结合多种指标的Q,以CNN为策略的防御代理能够采取合理有效的行动来阻止攻击者的入侵,在保护高权重节点和保持网络连通性之间取得平衡。作为智能物联平台的主动防御机制,本发明能够让平台在发现故障或网络攻击后,智能地采取应对措施。
附图说明
图1为本发明提出的一种基于AI辅助博弈的无标度网络防御性能提升方法的深度Q网络中智能体的训练过程示意图;
图2为本发明提出的一种基于AI辅助博弈的无标度网络防御性能提升方法的20个节点的卷积神经网络架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1:
请参阅图1-2,一种基于AI辅助博弈的无标度网络防御性能提升方法,具体包括以下步骤:
S1、根据无标度网络中节点的相对位置及连接关系,构建一个有向图G=(V,E),其中,V表示节点的集合;E表示所有边的集合;
S2、为每个节点分配一个状态变量,用于表示节点的当前状态;其中,用active表示当前节点已经被入侵;用inactive表示当前节点处于安全状态;
S3、选择能够反映节点对网络连通性贡献的指标,计算每个节点对应指标的值以及节点的权重;所选择的指标包括结构洞、接近中心性以及中介中心性;
S3中提到的计算每个节点对应指标的值以及节点的权重,即每个节点的结构洞、接近中心性、中介中心性和权重的计算,具体计算过程如下:
A1、结构洞S(u)是反映网络结构中节点重要性的指标,其计算公式为:
Figure BDA0003615969750000091
其中,N(v)表示节点v的邻居节点的集合;puv是与节点u和v相邻的边的归一化相互权重;
A2、接近中心性C(u)反映了节点在信息传输路径中的重要性,其计算公式为:
Figure BDA0003615969750000092
其中,d(u,v)表示节点u和v之间的最短路径距离;n是可以到达u的节点数;
A3、中介中心性B(u)反映了节点在信息传输中的重要性,其计算公式为:
Figure BDA0003615969750000093
其中,V是所有节点的集合;σ(i,j)是i和j之间的最短路径数;σ(i,j|u)是通过u的最短路径数量;
A4、节点的权重W(u)表示网络设备中包含的内容的重要性;
S4、对S3中计算所得的每个节点对应指标的值以及节点的权重进行排序;
S5、采用综合分析方法,根据S3、S4中定义的指标及指标排序,对节点的重要性进行排序;
S5中提到的对节点的重要性进行排序,具体计算过程如下:
B1、将N个节点的节点权重、结构洞、接近中心性及中介中心性四项指标用矩阵A表示,具体为:
Figure BDA0003615969750000101
其中,Aij表示节点i的第j个指标;
B2、对节点权重、中介中心性和接近中心性三项正面指标进行标准化,具体为:
Figure BDA0003615969750000102
Figure BDA0003615969750000103
其中,
Figure BDA0003615969750000104
表示第j个指标的最大值,则rij为节点i的第j个指标归一化的结果;
B3、对结构洞这一负面指标进行标准化,具体为:
Figure BDA0003615969750000105
Figure BDA0003615969750000111
其中,
Figure BDA0003615969750000112
表示第j个指标的最小值,则rij为节点i的第j个指标归一化的结果;
B4、根据指标的排名,为标准化指标分配不同的权重,用wj表示第j个指标的权重,并且
Figure BDA0003615969750000113
通过分配权重,可以获得具有权重的归一化矩阵X,具体为:
Figure BDA0003615969750000114
其中,wj表示第j个指标的权重,rij为节点i的第j个指标归一化的结果,xij表示wj*rij的结果;
B5、获取每个指标的最大值和最小值,并组成最大和最小理想解的向量,具体为:
Figure BDA0003615969750000115
Figure BDA0003615969750000116
其中,
Figure BDA0003615969750000117
为第一个指标加权的最大值,
Figure BDA0003615969750000118
为第四个指标加权的的最大值,
Figure BDA0003615969750000119
为第一个指标加权的的最小值,
Figure BDA00036159697500001110
为第四个指标加权的的最小值;
B6、计算每个节点接近最大理想解A+的程度
Figure BDA00036159697500001111
及接近最小理想解A-的程度
Figure BDA00036159697500001112
具体为:
Figure BDA00036159697500001113
Figure BDA0003615969750000121
其中,
Figure BDA0003615969750000122
是第j个指标加权的最大值,
Figure BDA0003615969750000123
是第j个指标加权的最小值,xij是加权归一化矩阵X的第i行第j列值;
B7、计算节点的重要性Pi,具体为:
Figure BDA0003615969750000124
其中,
Figure BDA0003615969750000125
表示节点接近最大理想解A+的程度;
Figure BDA0003615969750000126
表示接近最小理想解A-的程度;
S6、通过将S5中计算所得的节点的重要性与一个因子相乘,计算Q值;
S7、选用Policy Space Response Oracle来训练智能体;
S7中提到的智能体训练,具体训练过程如下:
C1、为每个智能体通过随机选择合法的动作来初始化一个统一的策略,并形成一个初始策略配置文件s,其中,包含两个智能体的统一策略;
C2、通过在博弈环境中模拟配置文件s来获得每个智能体的收益U(s),并用U(s)来初始化收益张量M并迭代地扩展它;
C3、使用Meta-solver M来得到M上的纳什均衡分布π;
C4、智能体通过Oracle O输入π来搜索新的策略,并以受益偏差为准则;
C5、当Policy Space Response Oracle算法的一次迭代结束时,如果发现至少一个智能体的最优响应,那么将形成所有新的策略配置文件,并得到新的收益U(s)来扩展收益张量M;
C6、在更新的收益张量M上计算新的纳什均衡π,并探索新的最佳响应;
C7、当没有新的最佳响应时,终止训练并返回最终的纳什均衡π、智能体的策略集和收益张量M作为结果;
S8、S7中提到的智能体训练基于Oracle O来搜索策略,采用深度Q网络作为OracleO,更具体的,利用卷积神经网络作为智能体的策略;
S8中提到的利用卷积神经网络作为智能体的策略,具体计算过程如下:
D1、定义三维张量
Figure BDA0003615969750000131
Figure BDA0003615969750000132
来分别表示攻击者和防御者对网络状态的观察,其中,
Figure BDA0003615969750000133
Figure BDA0003615969750000134
是有网络形成的邻接矩阵;(i,j)等于1代表着网络图中从节点vi到节点vj有一条边eij,否则等于0;
Figure BDA0003615969750000135
代表攻击者观察到的存在观察误差的全局防御措施,
Figure BDA0003615969750000136
表示攻击者认为在边eij上存在防御措施,否则
Figure BDA0003615969750000137
Figure BDA0003615969750000138
代表着没有观察误差的全局防御措施;
Figure BDA0003615969750000139
表示节点的激活状态,
Figure BDA00036159697500001310
表示节点vi处于激活状态,否则
Figure BDA00036159697500001311
Figure BDA00036159697500001312
表示防御者观察到的存在观察误差的节点激活状态;
D2、博弈是由智能体随机选择动作开始,并将得到的
Figure BDA00036159697500001313
Figure BDA00036159697500001314
分别作为智能体的CNN输入,从而对智能体进行训练;
D3、在每一步结束时,攻击者根据这一步中被激活的节点获得奖励ra以及新的观测O′A
D4、防御者根据被激活的节点得到处罚rd以及新的观测O′D
D5、根据得到的O′A和O′D,继续Oracle O的操作,直至满足预期要求。
本发明利用无标度网络中的网络对抗博弈,构建了博弈环境,设计了合适的博弈规则,并采用基于值的深度强化学习(DRL)、深度Q网络(DQN)来指导种群进化。通过利用结合多种指标的Q,以CNN为策略的防御代理能够采取合理有效的行动来阻止攻击者的入侵,在保护高权重节点和保持网络连通性之间取得平衡。作为智能物联平台的主动防御机制,本发明能够让平台在发现故障或网络攻击后,智能地采取应对措施。
实施例2:
请参阅图1-2,基于实施例1但有所不同之处在于,
一种基于AI辅助博弈的无标度网络防御性能提升方法,具体包括以下步骤:
步骤1:根据无标度网络中节点的相对位置及连接关系,构建出一个有向图G=(V,E);
步骤2:依次计算节点的权重、结构洞、接近中心性以及中介中心性,并根据四个指标获取对应的Q值;
步骤3:执行PSRO算法,每个智能体通过随机选择合法的动作来初始化一个统一的策略,并形成一个初始策略配置文件s,其中,包含两个智能体的统一策略;
步骤4:通过在博弈环境中模拟配置文件s来获得每个智能体的收益U(s),并用U(s)来初始化收益张量M并迭代地扩展它;
步骤5:使用Meta-solver M来得到M上的纳什均衡分布π;
步骤6:智能体通过Oracle O输入π来搜索新的策略,具体为根据得到的
Figure BDA0003615969750000151
Figure BDA0003615969750000152
分别作为智能体的CNN输入,从而对智能体进行训练;
步骤7:在每一步结束时,攻击者根据这一步中被激活的节点获得奖励ra
以及新的观测O′A,防御者根据被激活的节点得到处罚rd以及新的观测O′D
步骤8:根据得到的O′A和O′D,继续Oracle O的操作,直至满足预期要求;
步骤9:当PSRO算法的一次迭代结束时,如果发现至少一个智能体的最优响应,那么将形成所有新的策略配置文件,并得到新的收益U(s)来扩展收益张量M;
步骤10:在更新的收益张量M上计算新的纳什均衡π,并探索新的最佳响应;
步骤11:当没有新的最佳响应时,终止训练并返回最终的纳什均衡π、智能体的策略集和收益张量M作为结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于AI辅助博弈的无标度网络防御性能提升方法,其特征在于,具体包括以下步骤:
S1、根据无标度网络中节点的相对位置及连接关系,构建一个有向图G=(V,E),其中,V表示节点的集合;E表示所有边的集合;
S2、为每个节点分配一个状态变量,用于表示节点的当前状态;其中,用active表示当前节点已经被入侵;用inactive表示当前节点处于安全状态;
S3、选择能够反映节点对网络连通性贡献的指标,计算每个节点对应指标的值以及节点的权重;所选择的指标包括结构洞、接近中心性以及中介中心性;
S4、对所述S3中计算所得的每个节点对应指标的值以及节点的权重进行排序;
S5、采用综合分析方法,根据所述S3、S4中定义的指标及指标排序,对节点的重要性进行排序;
S6、通过将所述S5中计算所得的节点的重要性与一个因子相乘,计算Q值;
S7、选用Policy Space Response Oracle来训练智能体;
S8、所述S7中提到的智能体训练基于Oracle O来搜索策略,采用深度Q网络作为OracleO,更具体的,利用卷积神经网络作为智能体的策略。
2.根据权利要求1所述的一种基于AI辅助博弈的无标度网络防御性能提升方法,其特征在于,所述S3中提到的计算每个节点对应指标的值以及节点的权重,即每个节点的结构洞、接近中心性、中介中心性和权重的计算,具体计算过程如下:
A1、结构洞S(u)是反映网络结构中节点重要性的指标,其计算公式为:
Figure FDA0003615969740000021
其中,N(v)表示节点v的邻居节点的集合;puv是与节点u和v相邻的边的归一化相互权重;
A2、接近中心性C(u)反映了节点在信息传输路径中的重要性,其计算公式为:
Figure FDA0003615969740000022
其中,d(u,v)表示节点u和v之间的最短路径距离;n是可以到达u的节点数;
A3、中介中心性B(u)反映了节点在信息传输中的重要性,其计算公式为:
Figure FDA0003615969740000023
其中,V是所有节点的集合;σ(i,j)是i和j之间的最短路径数;σ(i,j|u)是通过u的最短路径数量;
A4、节点的权重W(u)表示网络设备中包含的内容的重要性。
3.根据权利要求1所述的一种基于AI辅助博弈的无标度网络防御性能提升方法,其特征在于,所述S5中提到的对节点的重要性进行排序,具体计算过程如下:
B1、将N个节点的节点权重、结构洞、接近中心性及中介中心性四项指标用矩阵A表示,具体为:
Figure FDA0003615969740000031
其中,Aij表示节点i的第j个指标值;
B2、对节点权重、中介中心性和接近中心性三项正面指标进行标准化,具体为:
Figure FDA0003615969740000032
Figure FDA0003615969740000033
其中,
Figure FDA0003615969740000034
表示第j个指标的最大值,则rij为节点i的第j个指标归一化的结果;
B3、对结构洞这一负面指标进行标准化,具体为:
Figure FDA0003615969740000035
Figure FDA0003615969740000036
其中,
Figure FDA0003615969740000037
表示第j个指标的最小值,则rij为节点i的第j个指标归一化的结果;
B4、根据指标的排名,为标准化指标分配不同的权重,用wj表示第j个指标的权重,并且
Figure FDA0003615969740000038
通过分配权重,可以获得具有权重的归一化矩阵X,具体为:
Figure FDA0003615969740000041
其中,wj表示第j个指标的权重,rij为节点i的第j个指标归一化的结果,xij表示wj*rij的结果;
B5、获取每个指标的最大值和最小值,并组成最大和最小理想解的向量,具体为:
Figure FDA0003615969740000042
Figure FDA0003615969740000043
其中,
Figure FDA0003615969740000044
为第一个指标加权的最大值,
Figure FDA0003615969740000045
为第四个指标加权的的最大值,
Figure FDA0003615969740000046
为第一个指标加权的的最小值,
Figure FDA0003615969740000047
为第四个指标加权的的最小值;
B6、计算每个节点接近最大理想解A+的程度
Figure FDA0003615969740000048
及接近最小理想解A-的程度
Figure FDA0003615969740000049
具体为:
Figure FDA00036159697400000410
Figure FDA00036159697400000411
其中,
Figure FDA00036159697400000412
是第j个指标加权的最大值,
Figure FDA00036159697400000413
是第j个指标加权的最小值,xij是加权归一化矩阵X的第i行第j列值;
B7、计算节点的重要性Pi,具体为:
Figure FDA0003615969740000051
其中,
Figure FDA0003615969740000052
表示节点接近最大理想解A+的程度;
Figure FDA0003615969740000053
表示接近最小理想解A-的程度。
4.根据权利要求1所述的一种基于AI辅助博弈的无标度网络防御性能提升方法,其特征在于,所述S7中提到的智能体训练,具体训练过程如下:
C1、为每个智能体通过随机选择合法的动作来初始化一个统一的策略,并形成一个初始策略配置文件s,其中,包含两个智能体的统一策略;
C2、通过在博弈环境中模拟配置文件s来获得每个智能体的收益U(s),并用U(s)来初始化收益张量M并迭代地扩展它;
C3、使用Meta-solver M来得到M上的纳什均衡分布π;
C4、智能体通过Oracle O输入π来搜索新的策略,并以受益偏差为准则;
C5、当Policy Space Response Oracle算法的一次迭代结束时,如果发现至少一个智能体的最优响应,那么将形成所有新的策略配置文件,并得到新的收益U(s)来扩展收益张量M;
C6、在更新的收益张量M上计算新的纳什均衡π,并探索新的最佳响应;
C7、当没有新的最佳响应时,终止训练并返回最终的纳什均衡π、智能体的策略集和收益张量M作为结果。
5.根据权利要求1所述的一种基于AI辅助博弈的无标度网络防御性能提升方法,其特征在于,所述S8中提到的利用卷积神经网络作为智能体的策略,具体计算过程如下:
D1、定义三维张量
Figure FDA0003615969740000061
Figure FDA0003615969740000062
来分别表示攻击者和防御者对网络状态的观察,其中,
Figure FDA0003615969740000063
Figure FDA0003615969740000064
是网络形成的邻接矩阵;(,j)等于1代表着网络图中从节点vi到节点vj有一条边eij,否则等于0;
Figure FDA0003615969740000065
代表攻击者观察到的存在观察误差的全局防御措施,
Figure FDA0003615969740000066
表示攻击者认为在边eij上存在防御措施,否则
Figure FDA0003615969740000067
Figure FDA0003615969740000068
代表着没有观察误差的全局防御措施;
Figure FDA0003615969740000069
表示节点的激活状态,
Figure FDA00036159697400000610
表示节点vi处于激活状态,否则
Figure FDA00036159697400000611
Figure FDA00036159697400000612
表示防御者观察到的存在观察误差的节点激活状态;
D2、博弈是由智能体随机选择动作开始,并将得到的
Figure FDA00036159697400000613
Figure FDA00036159697400000614
分别作为智能体的CNN输入,从而对智能体进行训练;
D3、在每一步结束时,攻击者根据这一步中被激活的节点获得奖励ra以及新的观测O′A
D4、防御者根据被激活的节点得到处罚rd以及新的观测O′D
D5、根据得到的OA′和O′D,继续OracleO的操作,直至满足预期要求。
CN202210447423.2A 2022-04-26 2022-04-26 一种基于ai辅助博弈的无标度网络防御性能提升方法 Withdrawn CN114826737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210447423.2A CN114826737A (zh) 2022-04-26 2022-04-26 一种基于ai辅助博弈的无标度网络防御性能提升方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210447423.2A CN114826737A (zh) 2022-04-26 2022-04-26 一种基于ai辅助博弈的无标度网络防御性能提升方法

Publications (1)

Publication Number Publication Date
CN114826737A true CN114826737A (zh) 2022-07-29

Family

ID=82508580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210447423.2A Withdrawn CN114826737A (zh) 2022-04-26 2022-04-26 一种基于ai辅助博弈的无标度网络防御性能提升方法

Country Status (1)

Country Link
CN (1) CN114826737A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111245828A (zh) * 2020-01-09 2020-06-05 南京航空航天大学 一种基于三方动态博弈的防御策略产生方法
WO2021180017A1 (zh) * 2020-03-09 2021-09-16 南京邮电大学 一种面向数据服务的自适应入侵响应博弈方法及其系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111245828A (zh) * 2020-01-09 2020-06-05 南京航空航天大学 一种基于三方动态博弈的防御策略产生方法
WO2021180017A1 (zh) * 2020-03-09 2021-09-16 南京邮电大学 一种面向数据服务的自适应入侵响应博弈方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZIYUE LU等: "AI-Aided Game: Enhancing the Defense Performance", 《IEEE》 *

Similar Documents

Publication Publication Date Title
Zahavy et al. Learn what not to learn: Action elimination with deep reinforcement learning
CN112329348B (zh) 一种面向非完全信息条件下军事对抗博弈的智能决策方法
Zhu et al. Online minimax Q network learning for two-player zero-sum Markov games
Ponsen et al. Integrating opponent models with monte-carlo tree search in poker
Guo et al. Adversarial policy learning in two-player competitive games
CN109598342B (zh) 一种决策网络模型自博弈训练方法及系统
CN110460572A (zh) 基于Markov信号博弈的移动目标防御策略选取方法及设备
Emilio et al. Pac-mAnt: Optimization based on ant colonies applied to developing an agent for Ms. Pac-Man
Moradi et al. Automatic skill acquisition in reinforcement learning using graph centrality measures
CN111416797A (zh) 改进天牛群算法优化正则化极限学习机的入侵检测方法
CN116757497B (zh) 基于图类感知Transformer的多模态军事智能辅助作战决策方法
CN109514553A (zh) 一种机器人移动控制的方法、系统及设备
Xiao et al. Network security situation prediction method based on MEA-BP
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
Xu et al. Learning self-game-play agents for combinatorial optimization problems
Sheikh et al. Learning intrinsic symbolic rewards in reinforcement learning
WO2019240047A1 (ja) 行動学習装置、行動学習方法、行動学習システム、プログラム、及び記録媒体
CN114826737A (zh) 一种基于ai辅助博弈的无标度网络防御性能提升方法
CN116841708A (zh) 一种基于智能规划的多智能体强化学习方法
Liu et al. Towards understanding chinese checkers with heuristics, monte carlo tree search, and deep reinforcement learning
Vejandla et al. Evolving gaming strategies for attacker-defender in a simulated network environment
Liu et al. An improved minimax-Q algorithm based on generalized policy iteration to solve a Chaser-Invader game
Nakashima et al. Performance evaluation of an evolutionary method for robocup soccer strategies
Moraes et al. Choosing well your opponents: How to guide the synthesis of programmatic strategies
Wang et al. A new approach to compute deficiency number of Mahjong configurations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220729

WW01 Invention patent application withdrawn after publication