CN114723005B

CN114723005B - 一种基于深度图表征学习的多层网络瓦解策略推断方法

Info

Publication number: CN114723005B
Application number: CN202210323694.7A
Authority: CN
Inventors: 刘鸿福; 曾诚逸; 陆丽娜; 陈立斌; 陈璟; 周宗潭; 谷学强; 王超; 付雅晶
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-03-28
Filing date: 2022-03-30
Publication date: 2024-05-03
Anticipated expiration: 2042-03-30
Also published as: CN114723005A

Abstract

本发明涉及网络瓦解技术领域，其公开了一种基于深度图表征学习的多层网络瓦解策略推断方法，解决现有技术中的多层网络瓦解方案存在的无法平衡算法的有效性和计算效率的问题。该方法首先进行模型训练，在训练过程中，基于输入的多层网络构建其各层网络，根据多层网络的节点交叉信息计算网络的节点表示向量，根据多层网络的层级交叉信息计算图表示向量；然后，以图表示向量表征状态，以节点表示向量表征动作，基于深度强化学习模型进行迭代训练，获得训练好的网络瓦解模型；在实际应用时，将待瓦解的网络输入至完成训练的网络瓦解模型中，获得瓦解节点序列作为瓦解策略。

Description

一种基于深度图表征学习的多层网络瓦解策略推断方法

技术领域

本发明涉及网络瓦解技术领域，具体涉及一种基于深度图表征学习的多层网络瓦解策略推断方法。

背景技术

网络描述了客观世界中不同事物之间的普遍联系。网络无处不在，包括社会合作网络，人际社会网络，交流网络，运输网络，以及一些看不到的网络，如代谢网络，蛋白质相互作用网络，以及基因转录网络。网络健壮性的研究是网络科学的一个重要研究领域，很多研究都集中在提高网络健壮性上。然而，人们并不是期望所有的网络都是高度稳健的，比如犯罪网络、病毒传播网络。

寻找最佳瓦解策略以获得最佳攻击效果通常是一个NP-hard问题。对网络瓦解的传统研究大多采用近似的和启发式的策略。基于专业领域知识的启发式策略的效果很难令人满意，而且过于依赖先验信息。通过智能算法寻找最优瓦解策略的元启发式算法缺乏时效性，且可扩展性普遍较差，不能适应网络的动态变化。这些缺点导致需要更多的计算复杂性和场景迁移的通用方法。

深度学习在解决组合优化问题方面的发展给解决网络瓦解问题提供了新思路。以往基于图神经网络和强化学习寻找复杂网络中的关键节点，进行关键节点攻击瓦解网络的方法只适用于单层网络。现实世界中也有很多不同层耦合在一起的网络，多层网络是描述耦合关系的合适模型。它既可以描述不同网络中相同节点之间的耦合关系，典型的如社交网络，同一群人可以通过不同的社交媒体进行互动。它也可以描述不同节点集之间的耦合关系，比如由电网和通信网络组成的相互依存的网络，其中每个电站都依赖于通信网络的一个节点，通信网络对其进行动态监测，通信节点的运行受控于电网的电力支持。在研究多层网络时忽略不同网络层之间的相互作用，将对系统的功能和特性产生重大影响。

以往提出的多层网络瓦解方法大部分是将单层网络瓦解策略进行扩展，以适合于多层网络。然而，这些方法也面临着与单层网络瓦解问题相同的困境，无法平衡算法的有效性和计算效率。

发明内容

本发明所要解决的技术问题是：提出一种基于深度图表征学习的多层网络瓦解策略推断方法，解决现有技术中的多层网络瓦解方案存在的无法平衡算法的有效性和计算效率的问题。

本发明解决上述技术问题采用的技术方案是：

一种基于深度图表征学习的多层网络瓦解策略推断方法，包括以下步骤：

A、训练模型：

A1、生成多层网络训练集，并初始化深度强化学习模型的回放经验池以及编解码参数；

A2、输入训练集的多层网络；

A3、判断是否满足预设的更新条件，若满足，则更新编解码参数，然后执行步骤A4；否则，执行步骤A4；

所述更新编解码参数，包括：

更新编码及评估网络的参数，所述评估网络的参数也即对应评估网络的解码参数，其更新过程是从经验回放池中随机采样获得训练样本，根据训练样本并基于损失函数对参数进行更新；

和/或更新目标网络的参数，所述目标网络的参数也即对应目标网络的解码参数，其是根据评估网络的参数对目标网络的参数进行同步；

A4、基于输入的多层网络进行编码：

首先构建多层网络的各层网络，并分别表示为G^[l](V，E^[l])，其中，V表示节点集代表功能实体，E^[l]表示第l层网络中的边集集合代表功能实体间的信息流；然后，根据多层网络的节点交叉信息计算网络的节点表示向量，根据多层网络的层级交叉信息计算图表示向量；

A5、首先，基于深度强化学习模型进行解码：

在所述深度强化学习模型中，以图表示向量表征状态，以节点表示向量表征动作；基于深度强化学习模型的价值函数，根据图表示向量与节点表示向量，获得在当前步的状态下，各节点表示向量所对应的价值度；

然后，进行决策：

根据当前步的状态下，各节点表示向量所对应的价值度，采用贪心策略作为决策策略，确定当前步的动作；执行当前步的动作，基于价值度的变化表征当前步动作对应状态变化的回报；

完成决策后，根据当前步的状态、动作、回报及执行动作后的状态构建训练样本，并将训练样本存入深度强化学习模型的回放经验池；

A6、判定执行完成当前步动作后，网络是否瓦解：

若不是，则将执行当前步动作后的剩余网络作为输入，跳转至步骤A3；

若是，则完成本轮训练迭代，并执行步骤A7；

A7、判定是否收敛或达到设定的迭代次数，若是，则完成训练，并获得完成训练的模型；

否则，跳转至步骤A2；

B、网络瓦解：

将待瓦解的网络输入至完成训练的网络瓦解模型中，获得瓦解节点序列作为瓦解策略。

进一步的，步骤A1中，采用BA模型(无标度网络模型)生成多层网络训练集，多层网络中的每一层均由无标度网络的BA模型生成，层与层之间的节点以随机一一对应连接的方式构成层间节点对。

进一步的，所述步骤A4中，所述根据多层网络的节点交叉信息计算网络的节点表示向量，根据多层网络的层级交叉信息计算图表示向量，包括：

A41、基于多层网络中各层网络的节点信息构建聚合层，并将聚合层及多层网络的各层网络进行融合，构建融合网络；在融合网络的各层网络中，分别引入虚拟节点u^[l]，所述虚拟节点u^[l]与第l层的其他节点仅单向链接；

A42、通过GraphSage嵌入算法，计算融合网络中各层网络的节点嵌入信息，并通过其中的虚拟节点收集对应网络层的层内节点特征；

A43、采用Attention机制，根据多层网络中相同节点在各层网络中的节点嵌入信息所表征的节点交叉信息，获取多层网络的各层网络节点的节点表示向量；

A44、采用Attention机制，根据聚合层的虚拟节点与多层网络中各层网络的虚拟节点的节点嵌入信息的交叉嵌入所表征的层级交叉信息，获取多层网络的图表示向量。

进一步的，所述步骤A41中，所述基于多层网络中各层网络的节点信息，构建聚合层，包括：

基于多层网络中各层网络的节点信息，构建聚合层G^[agg](V，E^[1]∪E^[2]∪…∪E^[M])，其中，V代表节点集，E^[M]代表第M层网络中的连边集合；并采用聚合拓扑邻接矩阵A^[agg]＝(η_ij)_N×N描述聚合层，其中，i，j∈V，当i和j在任一层有相邻的边时，η_ij＝η_ji＝1；否则，η_ij＝η_ji＝0。

进一步的，所述步骤A42，通过GraphSage嵌入算法，计算融合网络中各层网络的节点嵌入信息，包括：

A421、计算节点v在第l层网络的节点度生成节点特征向量/>并将节点特征向量拼接为节点特征矩阵X^[l]；

A422、初始化第l层网络的节点嵌入信息：

其中，W₁为权重参数，R^c×p表示^c×p维实数域矩阵，c是节点特征向量维度，p为隐藏层嵌入信息维度，V代表节点集，{u}表示虚拟节点集；

A423、按下式进行迭代计算：

其中，K表示迭代次数，表示节点υ在第l层网络的邻居集合；W₂、W₃为权重参数，R^p×(p/2)表示^p×(p/2)维实数域矩阵，p为隐藏层嵌入信息维度；

将第K次迭代的输出，作为第l层网络节点v的节点嵌入信息即：

其中，agg表示聚合层网络；

A424、循环所述步骤A421至步骤A423，计算获得所述融合网络中的各层网络的节点嵌入信息。

进一步的，所述步骤A43，采用Attention机制，根据多层网络中相同节点在各层网络中的节点嵌入信息所表征的节点交叉信息，获取多层网络的各层网络节点的节点表示向量包括：

其中，表示节点v在第l层网络的节点表示向量，σ是一个非线性激活函数；/> 和/>分别表示节点v在第l层网络、第k层网络和第m层网络的节点嵌入信息，m∈L，k∈L，L＝{1，2，3，…，M)，v∈V；权重参数W₄∈R^p×q/2，a₁∈R^1×q，p为隐藏层嵌入信息维度，q是图嵌入信息维度。

进一步的，所述步骤A44，采用Attention机制，根据聚合层的虚拟节点与多层网络中各层网络的虚拟节点的节点嵌入信息的交叉嵌入所表征的层级交叉信息，获取多层网络的图表示向量z_u，包括：

其中，σ是一个非线性激活函数，和/>分别表示第k层网络，第m层网络和聚合层的虚拟节点嵌入信息，m∈L，k∈L，L＝{1，2，3，...，M}∪{agg}，agg表示聚合层网络；权重参数W₅∈R^q×q，a₂∈R^1×q，q是图嵌入信息维度。

进一步的，在所述步骤A5中，以步骤A4中获得的多层网络的图表示向量z_u和节点表示向量分别对应作为解码过程中的状态向量S和动作向量a，使用价值函数评价由状态向量S和动作向量a组成的状态动作对(S，a)：

其中，权重参数W₆∈R^q×1，W₇∈R^q×1，q是图嵌入信息维度。

进一步的，步骤A3中，判断是否满足预设的更新条件，若满足，则更新编解码参数，然后执行步骤A4；否则，执行步骤A4，具体包括如下步骤：

A31、判定经验回放池是否已满，若是则执行步骤A32，否则执行步骤A4；

A32、更新编码及评估网络的参数，并累计训练步长；

A33、判定训练步长是否达到步长阈值C，若是，则更新目标网络的参数并重置训练步长，然后，执行步骤A4；否则，执行步骤A4。

进一步的，步骤A32中，更新编码及评估网络的参数，具体包括：

A321、从经验回放池中随机采样获得训练样本(S_t，a_t，r_t，S_t+1)，其中，S_t表示训练样本当前步的状态，a_t表示训练样本当前步的动作，r_t表示执行动作a_t的奖励，S_t+1表示执行动作a_t后的状态；

A322、根据训练样本计算损失函数：

其中，为任务损失，表示评估网络Q_eval和目标网络Q_tar之间的差距，γ是奖励的折扣因子，t表示训练样本的当前步，Θ为编解码各权重参数的统一表示；/>为结构损失，L＝{1,2,3,...,M}∪{agg}，agg表示聚合层网络，N为第l层网络的节点数，z表示节点表示向量，其上标l表示第l层网络，下标i和j表示节点i和j，/>表示节点i和j在第l层网络是否连接，连接则为1，否则为0；

A323、判定循环次数是否达到批量样本数量P，若是，则基于各次的损失函数的和对编码及评估网络的参数进行更新，然后执行步骤A33；否则，跳转至步骤A321。

进一步的，所述步骤B中，在获得瓦解节点序列后，采用累计归一化连通性ANC对网络的瓦解效能进行评估：

其中，M代表网络层数，N代表节点数量，v_k的代表移除的第k个节点，Γ是网络性能的评估函数，Γ(G\{v₁,v₂,…,v_k})表示依次移除网络G的节点集中的节点后的网络性能，{v₁,v₂,…,v_k}表示瓦解节点序列。

进一步的，所述网络性能的评估函数Γ为网络中的最大互连通片GMCC中的节点数量，即:

其中，表示第一层网络G^[1]中任意选取的一个子网络簇，/>表示第二层网络G^[2]中任意选取的一个子网络簇，/>表示第L层网络G^[L]中任意选取的一个子网络簇。

本发明的有益效果是：

(1)采用归纳图表示法来表示网络的状态和行动，然后结合深度强化学习来自动学习网络瓦解策略。在图表示学习过程中，本发明采用Attention机制来耦合不同层的节点特征，以适应多层网络的层间节点耦合特点，从而更加迅速准确地找到影响多层网络性能的关键节点，有利于实现网络的高效瓦解。

(2)对于不同规模节点数量的多层网络以及瓦解成本不均匀条件下的多层网络均能保持良好和稳定的瓦解能力。

附图说明

图1为实施例中的多层网络瓦解模型训练过程图；

图2为本发明中的编码解码框架图。

具体实施方式

本发明基于深度图表征学习提出了针对多层网络的瓦解框架Multiplex networkdisintegration strategy Inference based on deep Network Representationlearning(以下简称MINER)。它采用归纳图表示法来表示网络的状态和行动，然后结合深度强化学习来自动学习网络瓦解策略。在图表示学习过程中，本发明采用Attention机制来耦合不同层的节点特征，以适应多层网络的层间节点耦合特点。

实施例：

本实施例中的基于深度图表征学习的多层网络瓦解策略推断方法，首先训练多层网络瓦解模型，训练多层网络瓦解模型的过程如图1所示，其包括以下实施步骤：

S1、生成多层网络训练集，并初始化深度强化学习模型的回放经验池以及编解码参数；

所述编解码参数包括编码参数和解码参数，其中解码参数，根据其对应深度强化学习模型的评估网络，也或目标网络，又被区分为评估网络的参数和目标网络的参数；

本步骤中，采用BA模型产生多层网络中各层的网络连接，层与层之间的节点以随机一一对应连接的方式构成层间节点对，从而生成多层网络训练集。

S2、输入训练集的多层网络；

本步骤中，将多层网络训练集的多层网络作为深度强化学习模型的输入。

S3、判断回放经验池是否已满；

本步骤中，若判断出回放经验池未满，则进入步骤S4中对多层网络的编码过程：若回放经验池已满，则首先更新编解码参数，然后再执行步骤S4。

S4、多层网络的编码表示；

本步骤中，即是对多层网络的节点表示向量和整个网络进行编码表示。为了能够更深入地挖掘网络的结构特征，本实施例将图表示的学习与网络的结构特征相结合。基于此，本实施例提出的MINER框架如图2所示，其包括编码部分和解码部分，其中编码部分首先生成聚合层网络，然后基于聚合层网络与多层网络的融合网络进行GraphSage(图神经网络)嵌入、节点交叉嵌入和层间交叉嵌入的处理过程。具体说明如下：

(1)首先基于输入的多层网络构建其各层网络，并分别表示为G^[l](V，E^[l])，其中，V表示节点集代表功能实体，E^[l]表示第l层网络中的边集集合代表功能实体间的信息流。

比如：为了刻画集群作战中个体之间相互作用的关系，使用多层网络对集群系统进行建模，将一个典型的集群对抗军事网络数据按照FINC模型将节点具备的功能分为情报侦察、指挥决策和火力打击，其中单个个体可以具备多种功能，将集群作战网络建模成多层网络，包括三层网络，分别为侦察层G^[1](V，E^[1])、决策层G^[2](V，E^[2])和打击层G^[3](V，E^[3])，其中V代表各层中的节点，这里各层节点集相同，为集群中所有个体；E^[M]代表M层网络中的连边集合，各层使用不同的通信频谱，层间不干涉。

(2)生成多层网络的聚合层网络：

在多层网络的基础上增加一个聚合层G^[agg](V，E^[1]∪E^[2]∪…∪E^[M])，其中，V代表各层中的节点，这里各层节点集相同，为集群中所有个体；E^[M]代表M层网络中的连边集合。采用聚合拓扑邻接矩阵A^[agg]＝(η_ij)_N×N来描述聚合网络，i，j∈V，当i和j在任一层有相邻的边，η_ij＝η_ji＝1；否则，η_ij＝η_ji＝0。

在生成聚合层后，将聚合层及多层网络的各层网络进行融合，构建融合网络，在融合网络的各层网络中，分别引入虚拟节点u^[l]，所述虚拟节点u^[l]与第l层的其他节点仅单向链接。具体的，这里的单向连接为：只接收其他节点的信息而不向其他节点传递信息。

(3)GraphSage(图神经网络)嵌入：

即通过GraphSage嵌入算法，计算融合网络中各层网络的节点嵌入信息，具体包括：

a.计算节点v在第l层网络的节点度生成节点特征向量/>并将节点特征向量拼接为节点特征矩阵X^[l]；所述节点度表示与节点相关联的边的数量；

b.初始化第l层网络的节点嵌入信息：

c.按下式进行迭代计算：

其中，agg表示聚合层网络；

d.循环所述步骤a至步骤c，计算获得所述融合网络中的各层网络的节点嵌入信息。

上述计算包括了节点和虚拟节点，通过其中的虚拟节点能收集对应网络层的层内节点特征。

(4)节点交叉嵌入:

在初步获得每个节点的嵌入信息后，考虑到各层中的相同节点具有强关联性，需要将其综合考虑。为了在每一层的节点之间交换信息，将每一层的相同节点连接起来，形成一个独立的全连接网络，如图2中的节点交叉嵌入部分所示。根据多层网络中相同节点在各层网络中的节点嵌入信息所表征的节点交叉信息，采用Attention机制，获取多层网络的各层网络节点的节点表示向量具体包括：

其中，表示节点v在第l层网络的节点表示向量，σ是一个非线性激活函数；/> 和/>分别表示节点v在第l层网络、第k层网络和第m层网络的节点嵌入信息，m∈L，k∈L，L＝{1，2，3，…，M}，v∈V；权重参数W₄∈R^p×q/2，a₁∈R^1×q，p为隐藏层嵌入信息维度，q是图嵌入信息维度。

(5)层间交叉嵌入：

在GraphSage嵌入部分，通过引入虚拟节点，利用虚拟节点嵌入提供网络层的向量表示，收集层内的节点特征。在获得各层虚拟节点的嵌入信息后，将聚合层虚拟节点与其他层虚拟节点连接起来，如图2中的层间交叉嵌入部分，根据聚合层的虚拟节点与多层网络中各层网络的虚拟节点的节点嵌入信息的交叉嵌入所表征的层级交叉信息，获取多层网络的图表示向量z_u，具体包括：

S5、进行解码并决策执行网络瓦解动作；

本发明采用深度Q网络(DQN)来解决在数学上被形式化为马尔可夫决策过程(MDP)的选择攻击节点的决策过程。本步骤中，以图表示向量z_u表征状态S，以节点表示向量表征动作a；基于深度强化学习模型的价值函数，根据图表示向量与节点表示向量，获得在当前步的状态下，各节点表示向量所对应的价值度。

具体而言，对于解码，以步骤S4中获得的多层网络的图表示向量z_u和节点表示向量分别对应作为解码过程中的状态向量S和动作向量a，使用价值函数评价由状态向量S和动作向量a组成的状态动作对(S，a)：

然后，基于解码获得的各节点表示向量所对应的价值度，根据当前步的状态下，各节点表示向量所对应的价值度，采用贪心策略作为决策策略，确定当前步的动作；执行当前步的动作，基于价值度的变化表征当前步动作对应状态变化的回报；完成决策后，根据当前步的状态、动作、回报及执行动作后的状态构建训练样本，并将训练样本存入深度强化学习模型的回放经验池，进入步骤S6。

S6、判断在执行完当前步动作后，网络是否被瓦解；

本步骤中，在执行完当前步动作后，若网络已经被瓦解，则判断模型是否收敛或者达到设定的迭代次数，若是，则完成训练，获得完成训练的多层网络瓦解模型，否则，返回步骤S2，从训练集中重新选择新的多层网络继续迭代训练；

在执行完当前步动作后，若网络未被瓦解，则将执行当前步后的剩余网络作为输入，返回步骤S3继续迭代训练。

对于编解码参数更新，其中，更新编码参数和评估网络参数，是从经验回放池中随机采样获得训练样本，根据训练样本并基于损失函数对参数进行更新；更新目标网络的参数，则是根据评估网络的参数对目标网络的参数进行同步。

现有技术中，针对评估网络参数的更新包括以下方式：

1)基于完整的动作序列进行训练，也即by episode；

2)基于每一步动作进行训练，也即by step。

参数更新频率越大则算法越容易收敛。因此，本发明基于by step进行更新，对参数更新，具体包括：

首先，判定经验回放池是否已满，若是则更新，否则不更新，并执行步骤S4；

然后，更新编码及评估网络的参数，并累计训练步长；

最后，判定训练步长是否达到步长阈值C，若是，则更新目标网络的参数并重置训练步长，然后，执行步骤S4；否则，执行步骤S4。

其中，更新编码及评估网络的参数，包括如下步骤：

a.从经验回放池中随机采样获得训练样本(S_t,a_t,r_t,S_t+1)，其中，S_t表示训练样本当前步的状态，a_t表示训练样本当前步的动作，r_t表示执行动作a_t的奖励，S_t+1表示执行动作a_t后的状态；

b.根据训练样本计算损失函数：

其中，为任务损失，表示评估网络Q_eval和目标网络Q_tar之间的差距，γ是奖励的折扣因子，t表示训练样本的当前步，Θ为编解码各权重参数W₁、W₂、W₃、W₄、W₅、W₆、W₇的统一表示；/>为结构损失，L＝{1,2,3,...,M}∪{agg}，agg表示聚合层网络，N为第l层网络的节点数，z表示节点表示向量，其上标l表示第l层网络，下标i和j表示节点i和j，/>表示节点i和j在第l层网络是否连接，连接则为1，否则为0；

c.判定循环次数是否达到批量样本数量P，若是，则基于各次的损失函数的和对编码及评估网络的参数进行更新，然后执行后续步骤；否则，跳转至步骤a。

基于上述多层网络瓦解模型的训练，在模型应用时，将待瓦解的多层网络输入至训练获得的多层网络瓦解模型中，获得瓦解节点序列，作为瓦解策略。

此外，本实施例还采用累计归一化连通性ANC对多层网络的瓦解效能进行评估。具体而言，将瓦解序列的发现视为一个马尔可夫决策过程：通过状态、行动和奖励的序列与环境互动。状态被定义为前一次攻击后的当前剩余网络，行动是删除确定的最佳攻击节点，每一步的行动奖励是行动后的归一化连通性，总体奖励是累计归一化连通性ANC(accumulated normalized connectivity)。

在单层网络中，网络互连的程度通常由连通组件的大小来衡量，这被称为互连集片(MCC)。对于本发明研究的多层网络，将MCC的定义扩展到多层网络，如果一个节点在同一层至少有一个邻居属于同一个MCC，并且其他层的每个相互依赖的复制节点也属于同一个MCC；也就是说，如果节点集S是多层网络G中的互连通组件，那么由这些节点组成的各层网络的子网络表示为节点集中的任何两个节点都可以通过所有子网络中的一条路径连接。特别是，将专注于这些节点集中最多的一个，通常称为最大互连通片(GMCC)。

在本发明中，采用GMCC中节点的数量作为评估函数，即：

实验验证：

以对集群作战网络瓦解作为实验对象，为了刻画集群作战中个体之间相互作用的关系，使用多层网络对集群系统进行建模。将一个典型的集群对抗军事网络数据按照FINC模型将节点具备的功能分为情报侦察、指挥决策和火力打击，其中单个个体可以具备多种功能，将集群作战网络建模成多层网络，包括三层网络，分别为侦察层G^[1](V，E^[1])、决策层G^[2](V，E^[2])和打击层G^[3](V，E^[3])，其中V代表各层中的节点，这里各层节点集相同，为集群中所有个体；E^[M]代表M层网络中的连边集合，各层使用不同的通信频谱，层间不干涉。

实验中，首先生成多层网络训练集，采用BA模型产生多层网络中各层的网络连接。为了测试算法对不同规模多层作战网络的瓦解效果，生成四种节点规模的多层网络，每种规模随机生成100个多层网络，然后评价算法在这100个网络上的平均表现。

为了进行比较，使用从一些现有的单层网络的攻击策略演变而来的基线策略，使其适用于多层网络。这些扩展方法被区分为两类：基于多层网络的节点策略和基于层节点的策略。其中，基于多层网络综合信息的有效多层度自适应策略EMDA、最大多层度策略HMD和最大多层度自适应策略HMDA属于基于多层网络的节点策略。另一种基于层节点的策略是区分不同层对应节点的信息，采用最大层节点度策略HLD和最大层节点度自适应策略HLDA进行比较。将这些算法作为基线策略与本发明提出的MINER方法分别对上述多层网络进行瓦解。MINER方法训练过程的超参数设置如表1所示：

表1：MINER方法超参数设置表

根据Fan等人的研究，现实世界中的大部分网络都表现出幂律特性，而从无标度网络中学习的模型可以有更出色的泛化性能。在合成训练集和验证集中，多层网络中的每一层都是由无标度网络的BA模型生成的，层与层之间的节点以随机连接的方式构成层间节点对。训练集中的节点数量为10-20个。这种设置使MINER面对更小的攻击行动空间，并使MINER在学习网络特征时能更快地收敛。验证集使用了四个具有不同节点数区分为30-50、50-100、100-200和200-300的复用网络集，以验证MINER方法的泛化性能。在不同规模的合成网络验证集中，每个策略的平均ANC值如表2所示：

表2：在攻击合成多层网络上通过不同策略获得的ANC×100的比较

从表2可以看出，MINER明显优于其他基线策略，而且由MINER推断出的瓦解策略效果稳定，相对于基线策略达到的最小ANC值，MINER在四个不同验证集中的平均ANC值分别下降了46.65％、48.26％、45.73％和44.72％。

Claims

1.一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，包括以下步骤：

A、训练模型：

A2、输入训练集的多层网络；

所述更新编解码参数，包括：

A4、基于输入的多层网络进行编码：

A5、首先，基于深度强化学习模型进行解码：

然后，进行决策：

A6、判定执行完成当前步动作后，网络是否瓦解：

若是，则完成本轮训练迭代，并执行步骤A7；

A7、判定是否收敛或达到设定的迭代次数，若是，则完成训练，并获得完成训练的模型；否则，跳转至步骤A2；

B、网络瓦解：

2.如权利要求1所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，所述步骤A1中，采用BA模型生成多层网络训练集，训练集中多层网络的每一层均由无标度网络的BA模型生成，层与层之间的节点以随机一一对应连接的方式构成层间节点对。

3.如权利要求1所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，所述步骤A4中，所述根据多层网络的节点交叉信息计算网络的节点表示向量，根据多层网络的层级交叉信息计算图表示向量，包括：

4.如权利要求3所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，所述步骤A41中，所述基于多层网络中各层网络的节点信息，构建聚合层，包括：

基于多层网络中各层网络的节点信息，构建聚合层G^[agg](V，E^[1]∪E^[2]∪…∪E^[M])，其中，代表节点集，E^[M]代表第M层网络中的连边集合；并采用聚合拓扑邻接矩阵A^[agg]＝(η_ij)_N×N描述聚合层，其中，i,j∈V，当i和j在任一层有相邻的边时，η_ij＝η_ji＝1；否则，η_ij＝η_ji＝0。

5.如权利要求3所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，所述步骤A42，通过GraphSage嵌入算法，计算融合网络中各层网络的节点嵌入信息，包括：

A422、初始化第l层网络的节点嵌入信息：

A423、按下式进行迭代计算：

其中，K表示迭代次数，表示节点v在第l层网络的邻居集合；W₂、W₃为权重参数，R^p ^×(p/2)表示^p×(p/2)维实数域矩阵，p为隐藏层嵌入信息维度；

其中，agg表示聚合层网络；

6.如权利要求3所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，所述步骤A43，采用Attention机制，根据多层网络中相同节点在各层网络中的节点嵌入信息所表征的节点交叉信息，获取多层网络的各层网络节点的节点表示向量包括：

其中，表示节点v在第l层网络的节点表示向量，σ是一个非线性激活函数；/> 和分别表示节点v在第l层网络、第k层网络和第m层网络的节点嵌入信息，m∈L，k∈L，L＝{1，2，3，…，M}，v∈V；权重参数W₄∈R^p×q/2，a₁∈R^1×q，p为隐藏层嵌入信息维度，q是图嵌入信息维度。

7.如权利要求3所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，所述步骤A44，采用Attention机制，根据聚合层的虚拟节点与多层网络中各层网络的虚拟节点的节点嵌入信息的交叉嵌入所表征的层级交叉信息，获取多层网络的图表示向量z_u，包括：

其中，σ是一个非线性激活函数，和/>分别表示第k层网络，第m层网络和聚合层的虚拟节点嵌入信息，m∈L，k∈L，L＝{1,2,3,...,M}∪{agg}，agg表示聚合层网络；权重参数W₅∈R^q×q,a₂∈R^1×q，q是图嵌入信息维度。

8.如权利要求3所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，在所述步骤A5中，以步骤A4中获得的多层网络的图表示向量z_u和节点表示向量分别对应作为解码过程中的状态向量S和动作向量a，使用价值函数评价由状态向量S和动作向量a组成的状态动作对(S,a)：

9.如权利要求3所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，步骤A3中，判断是否满足预设的更新条件，若满足，则更新编解码参数，然后执行步骤A4；否则，执行步骤A4，具体包括如下步骤：

A32、更新编码及评估网络的参数，并累计训练步长；

10.如权利要求9所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，步骤A32中，更新编码及评估网络的参数，具体包括：

A321、从经验回放池中随机采样获得训练样本(S_t,a_t,r_t,S_t+1)，其中，S_t表示训练样本当前步的状态，a_t表示训练样本当前步的动作，r_t表示执行动作a_t的奖励，S_t+1表示执行动作a_t后的状态；

A322、根据训练样本计算损失函数：

其中，为任务损失，表示评估网络Q_eval和目标网络Q_tar之间的差距，γ是奖励的折扣因子，t表示训练样本的当前步，Θ为编解码各权重参数的统一表示；/>为结构损失，L＝{1,2,3,...,M}∪{agg}，agg表示聚合层网络，N为第l层网络的节点数，z表示节点表示向量，其上标l表示第l层网络，下标i和j表示节点i和j，/>表示节点i和l在第l层网络是否连接，连接则为1，否则为0；

11.如权利要求1-10任一项所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，所述步骤B中，在获得瓦解节点序列后，采用累计归一化连通性ANC对网络的瓦解效能进行评估：

12.如权利要求11所述的一种基于深度图表征学习的多层网络瓦解策略推断方法，其特征在于，所述网络性能的评估函数Γ为网络中的最大互连通片GMCC中的节点数量，即: