CN114826737A

CN114826737A - 一种基于ai辅助博弈的无标度网络防御性能提升方法

Info

Publication number: CN114826737A
Application number: CN202210447423.2A
Authority: CN
Inventors: 陈宝超; 卢子月; 刘秀龙; 曲雯毓
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-29

Abstract

本发明公开了一种基于AI辅助博弈的无标度网络防御性能提升方法，属于人工智能技术领域。一种基于AI辅助博弈的无标度网络防御性能提升方法，首先，将海量异质设备构成的无标度网络抽象为一个博弈环境，并设计一套博弈规则；网络中存在攻击者和防御者两个智能体，对抗博弈在二者之间进行；然后，通过卷积神经网络来评估深度Q网络中的动作价值，并将博弈的状态整合成张量形式，以此作为CNN的输入；本发明结合了CNN网络中节点的权重和网络连接参数，来衡量防御者在博弈中特定动作的价值。仿真结果表明，使用CNN作为策略的防御者智能体可以在均衡状态下延迟攻击者的入侵，并在保护高权重节点和保持网络连通性之间取得平衡。

Description

一种基于AI辅助博弈的无标度网络防御性能提升方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于AI辅助博弈的无标度网络防御性能提升方法。

背景技术

为了增强无标度网络的安全性，研究人员重点研究了网络结构的鲁棒性、针对性攻击的最优防御策略等方向。获得最优防御策略的主要挑战之一是难以用传统的数学方法计算均衡点。为了解决这一挑战，研究者们开始使用策略空间不断增加的种群策略。DO方法是该类策略中出现比较早的方法，该方法迭代扩展了带有均衡的最佳响应的枚举策略集。

人工智能的发展，例如强化学习和深度学习，使得解决多方博弈的均衡不限于上述方法。研究者们通过强化学习缩短隐形僵尸网络的生命周期，优化和动态部署有限数量的防御机制。通过结合广义DO方法和深度Q网络提出的PSRO框架，能够用来统一许多现有的多智能体学习方法。该框架已经在一些博弈场景中得到应用，并取得了不错的效果。此外，一些研究者进一步扩展了智能体在攻击图博弈中的能力，让他们能够在博弈中逐渐学习到更好的DNN策略。为了增强安全性，一些工作设计了具有实时信息的绿色安全博弈模型，并为智能体训练策略。针对物联平台中设备海量异质、网络状态多变、平台易受攻击等挑战，本发明提出了一种基于AI辅助博弈的无标度网络防御性能提升方法。

发明内容

本发明的目的在于通过结合人工智能与博弈论，解决网络博弈空间巨大的问题，从而找到最佳的抵御网络攻击的策略，构建智能物联平台的主动防御机制，在发现平台故障或网络攻击后，系统能智能地采取应对措施。

为了实现上述目的，本发明采用了如下技术方案：

一种基于AI辅助博弈的无标度网络防御性能提升方法，具体包括以下步骤：

S1、根据无标度网络中节点的相对位置及连接关系，构建一个有向图G＝(V,E)，其中，V表示节点的集合；E表示所有边的集合；

S2、为每个节点分配一个状态变量，用于表示节点的当前状态；其中，用active表示当前节点已经被入侵；用inactive表示当前节点处于安全状态；

S3、选择能够反映节点对网络连通性贡献的指标，计算每个节点对应指标的值以及节点的权重；所选择的指标包括结构洞、接近中心性以及中介中心性；

S4、对所述S3中计算所得的每个节点对应指标的值以及节点的权重进行排序；

S5、采用综合分析方法，根据所述S3、S4中定义的指标及指标排序，对节点的重要性进行排序；

S6、通过将所述S5中计算所得的节点的重要性与一个因子相乘，计算Q值；

S7、选用Policy Space Response Oracle来训练智能体；

S8、所述S7中提到的智能体训练基于Oracle O来搜索策略，采用深度Q网络作为Oracle O，更具体的，利用卷积神经网络作为智能体的策略。

优选地，所述S3中提到的计算每个节点对应指标的值以及节点的权重，即每个节点的结构洞、接近中心性、中介中心性和权重的计算，具体计算过程如下：

A1、结构洞S(u)是反映网络结构中节点重要性的指标，其计算公式为：

其中，N(v)表示节点v的邻居节点的集合；p_uv是与节点u和v相邻的边的归一化相互权重；

A2、接近中心性C(u)反映了节点在信息传输路径中的重要性，其计算公式为：

其中，d(u,v)表示节点u和v之间的最短路径距离；n是可以到达u的节点数；

A3、中介中心性B(u)反映了节点在信息传输中的重要性，其计算公式为：

其中，V是所有节点的集合；σ(i,j)是i和j之间的最短路径数；σ(i,j|u)是通过u的最短路径数量；

A4、节点的权重W(u)表示网络设备中包含的内容的重要性。

优选地，所述S5中提到的对节点的重要性进行排序，具体计算过程如下：

B1、将N个节点的节点权重、结构洞、接近中心性及中介中心性四项指标用矩阵A表示，具体为：

其中，A_ij表示节点i的第j个指标；

B2、对节点权重、中介中心性和接近中心性三项正面指标进行标准化，具体为：

其中，

表示第j个指标的最大值，则r_ij为节点i的第j个指标归一化的结果；

B3、对结构洞这一负面指标进行标准化，具体为：

其中，

表示第j个指标的最小值，则r_ij为节点i的第j个指标归一化的结果；

B4、根据指标的排名，为标准化指标分配不同的权重，用w_j表示第j个指标的权重，并且

通过分配权重，可以获得具有权重的归一化矩阵X，具体为：

其中，w_j表示第j个指标的权重，r_ij为节点i的第j个指标归一化的结果，x_ij表示w_j*r_ij的结果；

B5、获取每个指标的最大值和最小值，并组成最大和最小理想解的向量，具体为：

其中，

为第一个指标加权的最大值，

为第四个指标加权的的最大值，

为第一个指标加权的的最小值，

为第四个指标加权的的最小值；

B6、计算每个节点接近最大理想解A⁺的程度

及接近最小理想解A^-的程度

具体为：

其中，

是第j个指标加权的最大值，

是第j个指标加权的最小值，x_ij是加权归一化矩阵X的第i行第j列值；

B7、计算节点的重要性P_i，具体为：

其中，

表示节点接近最大理想解A⁺的程度；

表示接近最小理想解A^-的程度。

优选地，所述S7中提到的智能体训练，具体训练过程如下：

C1、为每个智能体通过随机选择合法的动作来初始化一个统一的策略，并形成一个初始策略配置文件s，其中，包含两个智能体的统一策略；

C2、通过在博弈环境中模拟配置文件s来获得每个智能体的收益U(s)，并用U(s)来初始化收益张量M并迭代地扩展它；

C3、使用Meta-solver M来得到M上的纳什均衡分布π；

C4、智能体通过Oracle O输入π来搜索新的策略，并以受益偏差为准则；

C5、当Policy Space Response Oracle算法的一次迭代结束时，如果发现至少一个智能体的最优响应，那么将形成所有新的策略配置文件，并得到新的收益U(s)来扩展收益张量M；

C6、在更新的收益张量M上计算新的纳什均衡π，并探索新的最佳响应；

C7、当没有新的最佳响应时，终止训练并返回最终的纳什均衡π、智能体的策略集和收益张量M作为结果。

优选地，所述S8中提到的利用卷积神经网络作为智能体的策略，具体计算过程如下：

D1、定义三维张量

和

来分别表示攻击者和防御者对网络状态的观察，其中，

和

是有网络形成的邻接矩阵；(i,j)等于1代表着网络图中从节点v_i到节点v_j有一条边e_ij，否则等于0；

代表攻击者观察到的存在观察误差的全局防御措施，

表示攻击者认为在边e_ij上存在防御措施，否则

代表着没有观察误差的全局防御措施；

表示节点的激活状态，

表示节点v_i处于激活状态，否则

表示防御者观察到的存在观察误差的节点激活状态；

D2、博弈是由智能体随机选择动作开始，并将得到的

和

分别作为智能体的CNN输入，从而对智能体进行训练；

D3、在每一步结束时，攻击者根据这一步中被激活的节点获得奖励r_a以及新的观测O′_A；

D4、防御者根据被激活的节点得到处罚r_d以及新的观测O′_D；

D5、根据得到的O′_A和O′_D，继续Oracle O的操作，直至满足预期要求。

与现有技术相比，本发明提供了一种基于AI辅助博弈的无标度网络防御性能提升方法，具备以下有益效果：

本发明利用无标度网络中的网络对抗博弈，构建了博弈环境，设计了合适的博弈规则，并采用基于值的深度强化学习(DRL)、深度Q网络(DQN)来指导种群进化。通过利用结合多种指标的Q，以CNN为策略的防御代理能够采取合理有效的行动来阻止攻击者的入侵，在保护高权重节点和保持网络连通性之间取得平衡。作为智能物联平台的主动防御机制，本发明能够让平台在发现故障或网络攻击后，智能地采取应对措施。

附图说明

图1为本发明提出的一种基于AI辅助博弈的无标度网络防御性能提升方法的深度Q网络中智能体的训练过程示意图；

图2为本发明提出的一种基于AI辅助博弈的无标度网络防御性能提升方法的20个节点的卷积神经网络架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

请参阅图1-2，一种基于AI辅助博弈的无标度网络防御性能提升方法，具体包括以下步骤：

S3中提到的计算每个节点对应指标的值以及节点的权重，即每个节点的结构洞、接近中心性、中介中心性和权重的计算，具体计算过程如下：

A4、节点的权重W(u)表示网络设备中包含的内容的重要性；

S4、对S3中计算所得的每个节点对应指标的值以及节点的权重进行排序；

S5、采用综合分析方法，根据S3、S4中定义的指标及指标排序，对节点的重要性进行排序；

S5中提到的对节点的重要性进行排序，具体计算过程如下：

其中，A_ij表示节点i的第j个指标；

其中，

B3、对结构洞这一负面指标进行标准化，具体为：

其中，

通过分配权重，可以获得具有权重的归一化矩阵X，具体为：

其中，

为第一个指标加权的最大值，

为第四个指标加权的的最大值，

为第一个指标加权的的最小值，

为第四个指标加权的的最小值；

B6、计算每个节点接近最大理想解A⁺的程度

及接近最小理想解A^-的程度

具体为：

其中，

是第j个指标加权的最大值，

B7、计算节点的重要性P_i，具体为：

其中，

表示节点接近最大理想解A⁺的程度；

表示接近最小理想解A^-的程度；

S6、通过将S5中计算所得的节点的重要性与一个因子相乘，计算Q值；

S7、选用Policy Space Response Oracle来训练智能体；

S7中提到的智能体训练，具体训练过程如下：

C3、使用Meta-solver M来得到M上的纳什均衡分布π；

C7、当没有新的最佳响应时，终止训练并返回最终的纳什均衡π、智能体的策略集和收益张量M作为结果；

S8、S7中提到的智能体训练基于Oracle O来搜索策略，采用深度Q网络作为OracleO，更具体的，利用卷积神经网络作为智能体的策略；

S8中提到的利用卷积神经网络作为智能体的策略，具体计算过程如下：

D1、定义三维张量

和

来分别表示攻击者和防御者对网络状态的观察，其中，

和

代表攻击者观察到的存在观察误差的全局防御措施，

表示攻击者认为在边e_ij上存在防御措施，否则

代表着没有观察误差的全局防御措施；

表示节点的激活状态，

表示节点v_i处于激活状态，否则

表示防御者观察到的存在观察误差的节点激活状态；

D2、博弈是由智能体随机选择动作开始，并将得到的

和

分别作为智能体的CNN输入，从而对智能体进行训练；

实施例2：

请参阅图1-2，基于实施例1但有所不同之处在于，

步骤1：根据无标度网络中节点的相对位置及连接关系，构建出一个有向图G＝(V,E)；

步骤2：依次计算节点的权重、结构洞、接近中心性以及中介中心性，并根据四个指标获取对应的Q值；

步骤3：执行PSRO算法，每个智能体通过随机选择合法的动作来初始化一个统一的策略，并形成一个初始策略配置文件s，其中，包含两个智能体的统一策略；

步骤4：通过在博弈环境中模拟配置文件s来获得每个智能体的收益U(s)，并用U(s)来初始化收益张量M并迭代地扩展它；

步骤5：使用Meta-solver M来得到M上的纳什均衡分布π；

步骤6：智能体通过Oracle O输入π来搜索新的策略，具体为根据得到的

和

分别作为智能体的CNN输入，从而对智能体进行训练；

步骤7：在每一步结束时，攻击者根据这一步中被激活的节点获得奖励r_a

以及新的观测O′_A，防御者根据被激活的节点得到处罚r_d以及新的观测O′_D；

步骤8：根据得到的O′_A和O′_D，继续Oracle O的操作，直至满足预期要求；

步骤9：当PSRO算法的一次迭代结束时，如果发现至少一个智能体的最优响应，那么将形成所有新的策略配置文件，并得到新的收益U(s)来扩展收益张量M；

步骤10：在更新的收益张量M上计算新的纳什均衡π，并探索新的最佳响应；

步骤11：当没有新的最佳响应时，终止训练并返回最终的纳什均衡π、智能体的策略集和收益张量M作为结果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于AI辅助博弈的无标度网络防御性能提升方法，其特征在于，具体包括以下步骤：

S7、选用Policy Space Response Oracle来训练智能体；

S8、所述S7中提到的智能体训练基于Oracle O来搜索策略，采用深度Q网络作为OracleO，更具体的，利用卷积神经网络作为智能体的策略。

2.根据权利要求1所述的一种基于AI辅助博弈的无标度网络防御性能提升方法，其特征在于，所述S3中提到的计算每个节点对应指标的值以及节点的权重，即每个节点的结构洞、接近中心性、中介中心性和权重的计算，具体计算过程如下：

A4、节点的权重W(u)表示网络设备中包含的内容的重要性。

3.根据权利要求1所述的一种基于AI辅助博弈的无标度网络防御性能提升方法，其特征在于，所述S5中提到的对节点的重要性进行排序，具体计算过程如下：

其中，A_ij表示节点i的第j个指标值；

其中，

B3、对结构洞这一负面指标进行标准化，具体为：

其中，

通过分配权重，可以获得具有权重的归一化矩阵X，具体为：

其中，

为第一个指标加权的最大值，

为第四个指标加权的的最大值，

为第一个指标加权的的最小值，

为第四个指标加权的的最小值；

B6、计算每个节点接近最大理想解A⁺的程度

及接近最小理想解A^-的程度

具体为：

其中，

是第j个指标加权的最大值，

B7、计算节点的重要性P_i，具体为：

其中，

表示节点接近最大理想解A⁺的程度；

表示接近最小理想解A^-的程度。

4.根据权利要求1所述的一种基于AI辅助博弈的无标度网络防御性能提升方法，其特征在于，所述S7中提到的智能体训练，具体训练过程如下：

C3、使用Meta-solver M来得到M上的纳什均衡分布π；

5.根据权利要求1所述的一种基于AI辅助博弈的无标度网络防御性能提升方法，其特征在于，所述S8中提到的利用卷积神经网络作为智能体的策略，具体计算过程如下：

D1、定义三维张量

和

来分别表示攻击者和防御者对网络状态的观察，其中，

和

是网络形成的邻接矩阵；(,j)等于1代表着网络图中从节点v_i到节点v_j有一条边e_ij，否则等于0；

代表攻击者观察到的存在观察误差的全局防御措施，

表示攻击者认为在边e_ij上存在防御措施，否则

代表着没有观察误差的全局防御措施；

表示节点的激活状态，

表示节点v_i处于激活状态，否则

表示防御者观察到的存在观察误差的节点激活状态；

D2、博弈是由智能体随机选择动作开始，并将得到的

和

分别作为智能体的CNN输入，从而对智能体进行训练；

D5、根据得到的O_A′和O′_D，继续OracleO的操作，直至满足预期要求。