CN113708976B

CN113708976B - 一种基于深度强化学习的异质作战网络瓦解方法

Info

Publication number: CN113708976B
Application number: CN202111112735.XA
Authority: CN
Inventors: 刘鸿福; 王辰; 曾诚逸; 陈璟; 王超; 张万鹏; 陈立斌; 付雅晶
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2023-09-01
Anticipated expiration: 2041-09-23
Also published as: CN113708976A

Abstract

本发明涉及网络攻击瓦解技术领域，其公开了一种基于深度强化学习的异质作战网络瓦解方法，其既可以提高瓦解速度及效率，又能保证瓦解效果、提高作战效能，该方法包括：首先将作战网络转换为网络拓扑图，然后基于图嵌入获得邻接矩阵、类型邻接矩阵与类型特征矩阵，进而获得图表示向量和节点表示向量；定义图表示向量为状态，定义节点表示向量为动作，基于状态变化所导致的网络性能差异定义奖励，建立深度强化学习模型，通过训练得到最终的模型；根据敌方作战体系构建异质作战网络，输入最终的模型，获得瓦解该网络的节点序列集，其适用于不同规模异质作战网络的瓦解。

Description

一种基于深度强化学习的异质作战网络瓦解方法

技术领域

本发明涉及网络攻击瓦解技术领域，具体涉及一种基于深度强化学习的异质作战网络瓦解方法。

背景技术

在军事领域，网络瓦解通常应用于摧毁敌方的武器装备体系作战网络，实现体系破击的目的。针对实际的军事作战体系，各种类型的信息化装备，包括侦察、决策、打击等多种类型，通过复杂的交互关系相互配合完成作战任务。因此，实际的军事网络模型，是一个复杂的异质作战网络，而研究异质作战网络瓦解，对于优化指挥作战具有重要的军事意义。

但当前网络瓦解的大量研究集中在同质网络，忽略了装备间的异质性，不能直接应用于异质网络瓦解，并且缺少针对异质网络瓦解以及其性能评价的研究。

专利公布号为CN112600795A，名称为“一种不完全信息下的作战网络瓦解方法及系统”的专利申请，公开了一种不完全信息下的作战网络瓦解方法及系统，包括输入观测到的敌方武器装备体系，并根据武器装备体系构建异质作战网络；对该异质作战网络进行恢复重构；对恢复重构后的异质作战网络基于网络瓦解策略进行瓦解。通过恢复重构不完全信息条件下的作战网络，在对作战网络进行瓦解时，考虑了节点和链接的异质特性，基于杀伤链的思想，综合考虑装备节点的能力属性和攻击代价，提出了异质作战网络的能力评估指标，并据此计算出每个节点的瓦解效率，提出了基于瓦解效率的网络瓦解策略，找出最易瓦解的节点先进行攻击，实现快速瓦解的目的。

但该专利方法的瓦解过程，每一次瓦解均需要遍历网络中的所有节点，计算节点能力值并进行排序，需要消耗大量的时间成本和计算成本。对于大规模异质作战网络瓦解实施比较困难。

发明内容

本发明所要解决的技术问题是提供了一种基于深度强化学习的异质作战网络瓦解方法，其既可以提高瓦解速度及效率，又能保证瓦解效果、提高作战效能。

本发明解决上述技术问题采用的技术方案是：

一种基于深度强化学习的异质作战网络瓦解方法，包括以下步骤：

A、训练模型

A1、初始化深度强化学习模型的回放经验池以及Q网络和目标网络的参数；

A2、输入训练网络；

A3、采用FINC模型建立网络的拓扑图G(V,E)，其中，V表示节点集代表功能实体，E表示边集代表功能实体间的信息流；

A4、采用图嵌入的方法对拓扑图G(V,E)进行编码，获得包括所有节点的邻接矩阵以及分别对应各类型节点的类型邻接矩阵与类型特征矩阵；

A5、根据步骤A4获得的邻接矩阵以及类型邻接矩阵与类型特征矩阵，通过卷积网络获得节点表示向量通过非线性聚合和多层感知器获得图表示向量X_G；

A6、基于深度强化学习模型的价值函数，根据图表示向量X_G与节点表示向量获得在当前步的状态下，各节点表示向量所对应的价值度；在所述深度强化学习模型中，定义网络的拓扑结构，也即图表示向量X_G为环境的状态；定义移除网络拓扑结构中的节点及其所连接的边，也即节点表示向量/>为动作；

A7、根据当前步的状态下，各节点表示向量所对应的价值度，采用贪心策略作为决策策略，确定当前步的动作；执行当前步的动作，得到当前步动作对应的奖励；在所述深度强化学习模型中，基于环境的状态变化所导致的网络性能差异定义环境给予的奖励；

A8、判定执行完成当前步动作后，剩余网络是否为孤立的节点：

若不是，则将执行当前步动作后的剩余网络作为输入，跳转至步骤A3；

若是，则完成本轮训练迭代，更新回放经验池、Q网络的参数和目标网络的参数，然后跳转至步骤A9；

所述更新回放经验池是基于当前步的状态构建训练样本，并将训练样本存入深度强化学习模型的回放经验池；所述更新Q网络的参数是从经验回放池中随机采样获得训练样本，根据训练样本并基于损失函数对Q网络的参数进行更新；所述更新目标网络的参数是根据Q网络的参数对目标网络的参数进行更新；

A9、判定是否收敛或达到设定的迭代次数，若是则完成训练，并获得完成训练的模型；若未达到，则从异质作战网络训练集提取新的训练网络作为输入，跳转至步骤A2；

B、网络瓦解

根据敌方作战体系构建异质作战网络，并输入完成训练的模型，获得瓦解该网络的节点序列集。

进一步的，所述步骤A8中，若判定执行完成当前步动作后，剩余网络不是孤立的节点，则在跳转至步骤A3前完成以下步骤：

首先，判定当前步是否大于或等于更新阈值，若是则更新回放经验池和Q网络的参数，否则不更新；

然后，判定当前步与上一次目标网络更新的间隔步数是否等于更新间隔，若是则更新目标网络的参数，否则不更新。

具体的，在步骤A3中，所述采用FINC模型建立网络的拓扑图G(V,E)，基于以下设定：

将输入的网络的功能实体划分为传感器实体集合S、决策实体集合D和影响实体集合I，定义作战链包括：

1)由一个传感器实体、一个决策实体和一个影响实体组成的S-D-I作战链；

2)由两个传感器实体、一个决策实体和一个影响实体组成的S-S-D-I作战链；

3)由一个传感器实体、两个决策实体和一个影响实体组成的S-D-D-I作战链；

4)由两个传感器实体、两个决策实体和一个影响实体组成的S-S-D-D-I作战链；

并由作战链相互交织形成网络拓扑图。

具体的，在步骤A4中，所述采用图嵌入的方法对拓扑图G(V,E)进行编码，获得包括所有节点的邻接矩阵以及分别对应各类型节点的类型邻接矩阵与类型特征矩阵，包括如下步骤：

1)基于拓扑图G(V,E)的节点V，计算其邻接矩阵A，所述邻接矩阵为g×g维矩阵，所述g为节点数量；根据节点的类型，抽取邻接矩阵A的行向量，将相同类型节点的行向量拼接得到与各类型节点对应的类型邻接矩阵；

2)构造节点的类型特征向量，维度为1×(h+1)，其中h为节点的类型数；向量的前h维，各维分别对应节点类型，节点在其类型对应的维度取值为1，其他维度取值为0；向量最后一维则表示节点的度，所述度表示与节点相关联的边的数量；将相同类型节点的类型特征向量拼接，并补充对应个数的零向量，将其扩展到g维，得到各类型节点的类型特征矩阵，所述g为节点数量。

具体的，在步骤A5中，所述获得节点表示向量包括如下步骤：

1)分别将各类型节点的类型邻接矩阵与类型特征矩阵，输入卷积网络gcn₁并通过非线性激活函数ReLU，获得各类型节点的卷积结果；

2)拼接各类型节点的卷积结果，然后将拼接的卷积结果与包含所有节点的邻接矩阵，输入卷积网络gcn₂并通过非线性激活函数ReLU，获得节点表示矩阵X_N，X_N的第i行向量即为节点i的节点表示向量

具体的，在步骤A5中，所述获得图表示向量X_G，包括如下步骤：

1)将各类型节点的类型特征矩阵，分别进行非线性聚合得到类型聚合向量；

2)拼接各类型节点的类型聚合向量，并将其非线性映射到一个潜在空间，得到图特征向量L；

3)将图特征向量L通过多层感知器得到图表示向量X_G。

具体的，在步骤A6中，所述基于深度强化学习模型的价值函数，根据图表示向量X_G与节点表示向量获得在当前步的状态下，各节点表示向量所对应的价值度，其计算公式如下：

其中，表示从网络中移除节点i的价值度，σ为ReLU激活函数，W_h、W_i为可学习参数。

具体的，所述更新Q网络的参数，包括：

1)从经验回放池中随机采样获得训练样本(s_u,a_u,r_u,u+n,s_u+n)，其中，表示第u步至第u+n步环境所给予的累积奖励，s_u表示第u步的状态，a_u表示第u步的动作，S_u+n表示第u+n步的状态；

2)根据训练样本并基于损失函数对Q网络的参数进行更新：

L＝L_Q+αL_G

其中，L_Q为学习损失，表示预测价值度与目标价值度之间的差距，L_G表示图重构损失，α为权重系数；γ是奖励的折扣因子，为目标网络在贪婪策略下选择动作/>的最大价值度，/>为目标网络的参数，Q(s_u,a_u；Θ_Q)为预测的价值度，Θ_Q＝{Θ_E,Θ_D}为Q网络的参数，Θ_E为步骤A5所涉及编码过程的参数的统一表示，Θ_D步骤A6所涉及解码过程的参数的统一表示；s_i,k表示两个节点i和k是否相连，x_i、x_k分别为节点i和k的表示向量，g是初始状态下的节点数量。

具体的，在所述深度强化学习模型中，基于环境的状态变化所导致的网络性能差异定义环境给予的奖励，其计算过程如下；

1)、计算各类节点的作战能力，并给定：

其中，是采取对应动作后剩余网络的节点数，j为实体类型，c_j为实体的初始作战能力值；

2)、对作战链l_k所包含节点的作战能力，进行求和，然后按作战链l_k的长度取平均，作为该计算作战链l_k的作战能力；

3)、对作战网络所包含作战链的作战能力求和，获得该作战网络的作战能力；

4)、对作战能力指数O_G进行归一化处理。

本发明的有益效果是：本发明的异质作战网络瓦解方法，采用分类型编码-聚合的方式将异质作战网络中的节点类型信息和结构信息嵌入到表示向量中，可以充分挖掘异质作战网络的异质信息和结构信息；然后，通过深度强化学习的方式，训练得到最优瓦解策略，解决异质网络瓦解问题，训练完成后可以直接用于异质作战网络瓦解，更加迅速准确地找到影响异质作战网络作战能力的关键节点，因此，既可以提高瓦解速度及效率，又能保证瓦解效果、提高作战效能。

附图说明

图1是本发明的一种基于深度强化学习的异质作战网络瓦解方法的流程示意图；

图2是本发明异质作战网络瓦解方法构建网络拓扑图的流程示意图；

图3是本发明异质作战网络瓦解方法获取节点表示向量的流程示意图；

图4是本发明异质作战网络瓦解方法获取图表示向量的流程示意图；

图5是本发明异质作战网络瓦解方法与HAD算法瓦解能力在不同规模网络条件下相同初始作战能力配置的对比结果图；

图6是是本发明异质作战网络瓦解方法与HAD算法瓦解能力在大规模网络条件下不同初始作战能力配置的对比结果图；

图7是是本发明异质作战网络瓦解方法与HAD算法瓦解能力在中规模网络条件下不同初始作战能力配置的对比结果图；

图8是是本发明异质作战网络瓦解方法与HAD算法瓦解能力在小规模网络条件下不同初始作战能力配置的对比结果图。

具体实施方式

本发明旨在提出一种基于深度强化学习的异质作战网络瓦解方法，采用分类型编码-聚合的方式，将异质作战网络中的节点类型信息和结构信息嵌入到表示向量中，其首先将作战网络基于FINC(Force,Intelligence,Networking and C2)模型转换为网络拓扑图，然后根据拓扑图基于图嵌入的方法，获得各类型节点的类型邻接矩阵与类型特征矩阵，进而获得图表示向量和节点表示向量；结合深度强化学习，定义网络的拓扑结构，也即图表示向量为环境的状态，定义移除网络拓扑结构中的节点及其所连接的边，也即节点表示向量为动作，基于环境的状态变化所导致的网络性能差异定义环境给予的奖励，通过训练得到最优瓦解策略。训练完成后，根据敌方作战体系构建异质作战网络，并输入完成训练的模型，获得瓦解该网络的节点序列集，从而解决异质网络瓦解问题。

为了获得正确的深度强化学习的回报评价，本发明设定攻击方对防御方的作战网络具备完全信息，并且攻击方式为节点攻击，即如果一个节点受到攻击，它所连接的边将一起被删除。因此，基于完成训练的模型对敌方作战体系进行瓦解，该敌方作战体系的作战网络应当具备完全信息；针对不完全信息网络，可以通过现有技术中的各类手段进行处理，在不完全信息网络基础上获得具备完全信息的作战网络，然后再基于完成训练的模型对其进行瓦解。

具体的，本发明的方法包括如下步骤：

A、训练模型

A2、输入训练网络；

B、网络瓦解

为了进一步的加快模型的训练，尤其是针对规模较大的网络，所述步骤A8中，若判定执行完成当前步动作后，剩余网络不是孤立的节点，则在跳转至步骤A3前完成以下步骤：

首先，判定当前步是否大于或等于更新阈值q，若是则更新回放经验池和Q网络的参数，否则不更新；

然后，判定当前步与上一次目标网络更新的间隔步数是否等于更新间隔C，若是则更新目标网络的参数，否则不更新。

因此，此时，针对Q网络参数的更新包括以下方式：

1)当网络规模较小时，当还未到达或恰好达到更新阈值q，即已完成网络瓦解，则在完成时，对回放经验池、Q网络参数和目标网络参数进行更新，此时，可将深度强化学习模型的更新方式理解为by episode；

2)当网络规模较大时，当到达到更新阈值q，还未完成网络瓦解，则在更新阈值q之后决策步中，按by step的方式对回放经验池、Q网络参数进行更新，直至完成网络瓦解，并在完成时，再次对回放经验池、Q网络参数和目标网络参数进行一次更新。

上述by episode，可以理解为基于瓦解网络的完整动作序列，进行参数训练；bystep，可以理解为基于瓦解网络的每一步动作，进行参数训练。参数更新频率越大则算法越容易收敛。

而目标网络参数，除了在完成网络瓦解时进行更新外，在过程中则按更新间隔C进行更新。

因此，本发明的方法，对于不同规模和作战能力不均匀条件下的异质作战网络均能保持良好和稳定的瓦解能力。

实施例：

本实施例中，根据不同装备实体在异质作战网络中的具体任务，将武器装备体系中的实体分为以下3类：

1)传感器实体(Sensor)，如目标侦察、战场监视与预警的装备实体，用S表示；

2)决策实体(Decision)，如指挥决策与控制的装备实体，用D表示；

3)影响实体(Influence)，如火力打击、电子干扰的装备实体，用I表示。

在军事作战过程中，首先由传感器实体完成目标的发现和确认，并将目标信息在作战网络内共享，而后由决策实体对来自传感器实体或其它决策实体的目标信息进行数据融合和信息分析，制定作战决策并命令影响实体进行实施攻击，最后再由传感器实体进行毁伤评估。因此，本实施例中，根据实体类型和数量的不同，定义以下4种作战链：

4)由两个传感器实体、两个决策实体和一个影响实体组成的S-S-D-D-I作战链。

最终，由作战链相互交织形成异质作战网络网络拓扑图G(V,E)，其中，V＝S∪D∪I＝{v₁,v₂,v₃…,v_g}表示节点集代表功能实体，表示边集代表功能实体间的信息流。进一步的，将所有功能的装备实体划分为一个传感器实体集合一个决策实体集合/>以及一个影响实体集合变量g＝|V|和w＝|E|分别表示作战网络中节点和边的数量，而k＝|S|、l＝|D|、p＝|I|分别表示传感器实体、决策实体和影响实体的数量。传感器实体、决策实体和影响实体的作战能力表示为CA_S、CA_D和CA_I。

基于以上定义，如图1所示，本实施例，其训练过程包括如下步骤：

S1、初始化深度强化学习模型的回放经验池D，其容量设置为M，用随机权重Θ初始化Q网络的参数Θ_Q，用随机权重Θ初始化目标网络的参数设置C为更新间隔，表示每隔C步，根据Q网络的参数对目标网络的参数进行更新；设置q为更新阈值，表示当当前步大于或等于q步时，则每进行一步，均对回放经验池和Q网络的参数进行更新。

S2、输入训练网络。

S3、如图2所示，采用FINC模型建立网络的拓扑图G(V,E)，其中，V表示节点代表功能实体，E表示边集代表功能实体间的信息流。

S4、采用图嵌入的方法对拓扑图G(V,E)进行编码，获得包括所有节点的邻接矩阵以及分别对应各类型节点的类型邻接矩阵与类型特征矩阵，具体包括以下子步骤：

S41、基于拓扑图G(V,E)的节点V，计算其邻接矩阵A，所述邻接矩阵为g×g维矩阵，所述g为节点数量；根据节点的类型，按照S、D、I三种节点类型，抽取邻接矩阵A的行向量，将相同类型节点的行向量拼接得到与各类型节点对应的类型邻接矩阵，即A_S,A_D,A_I，矩阵维度分别为k×g,l×g,p×g，其中，k、l、p三种节点类型的数量；

S42、构造节点的类型特征向量，维度为1×4；向量的前三维，各维分别对应节点类型，节点在其类型对应的维度取值为1，其他维度取值为0，对应S、D、I三种节点类型分别为(1,0,0)、(0,1,0)、(0,0,1)；

向量最后一维则表示节点的度d，所述度表示与节点相关联的边的数量，按照S,D,I三种节点类型其类型特征向量分别为(1,0,0,d)、(0,1,0,d)、(0,0,1,d)；

将相同类型节点的类型特征向量拼接，并补充对应个数的零向量(0,0,0,0)，将其扩展到g维，得到各类型节点的类型特征矩阵F_S,F_D,F_I，矩阵维度分别为g×4,g×4,g×4，所述g为节点数量。

S5、根据步骤S4获得的邻接矩阵以及类型邻接矩阵与类型特征矩阵，获得图表示向量X_G和节点表示向量具体包括以下子步骤：

S51、如图3所示，分别将各类型节点的类型邻接矩阵与类型特征矩阵，输入卷积网络gcn₁并通过非线性激活函数ReLU，获得各类型节点的卷积结果。gcn₁网络结构为一层conv_layer(卷积层)，维度为4×8，gcn₁中参数的维度为4×8，公式如下：

H_j＝σ[gcn₁(A_j,F_j)],j＝S,D,I

其中，A_j,j＝S,D,I分别为S,D,I三种类型节点的邻接矩阵，F_j,j＝S,D,I分别为S,D,I三种节点的类型特征矩阵，σ为ReLU激活函数。

S52、拼接各类型节点的卷积结果，然后将拼接的卷积结果与包含所有节点的邻接矩阵A，输入卷积网络gcn₂并通过非线性激活函数ReLU，获得节点表示矩阵X_N，X_N的第i行向量即为节点i的节点表示向量gcn₂网络为一层conv_layer(卷积层)，维度为8×16，gcn₂中参数/>的维度为8×16，公式如下：

X_N＝σ[gcn₂(A,H_S||H_D||H_I)]

其中，A为图的邻接矩阵，||为拼接运算，H_S,H_D,H_I也即H_j,j＝S,D,I，分别为步骤S51中获得的S,D,I三种节点的卷积结果。

S53、如图4所示，将各类型节点的类型特征矩阵F_S,F_D,F_I，分别进行非线性聚合得到类型聚合向量R_S,R_D,R_I，维度为1×4，公式如下：

R_j＝σ(W_jF_j+b_j),j＝S,D,I

其中，F_j,j＝S,D,I分别为S,D,I三种节点的类型特征矩阵，R_j,j＝S,D,I分别为S,D,I三种节点的类型聚合向量，σ为ReLU激活函数，W_j、b_j为可学习参数，参数W_j也即W_S、W_D、W_I的维度为1×g，参数b_j也即b_S、b_D、b_I的维度为1×4。

S54、拼接各类型节点的类型聚合向量，并将其非线性映射到一个潜在空间，得到图特征向量L，公式如下：

L＝σ[W_k(R_S||R_D||R_I)]

其中，L为图特征向量，σ为ReLU激活函数，参数W_k为可学习参数，其维度为1×3。

S55、将图特征向量L通过多层感知器得到图表示向量X_G，公式如下：

X_G＝σ[σ(LW_n+b_n)W_m+b_m]

其中，X_G为图表示向量，σ为ReLU激活函数，W_n、b_n、W_m、b_m为可学习参数，参数W_n维度为4×8，参数b_n维度为1×8，参数W_m维度为8×16，参数维度为1×16。

为方便表示，在本发明中，将上述步骤S5中的可学习参数W_S、W_D、W_I、b_S、b_D、b_I、W_k、W_m、W_n、b_m、b_n统一表示为：Θ_E。

S6、在深度强化学习模型中，定义网络的拓扑结构，也即图表示向量X_G为环境的状态；定义移除网络拓扑结构中的节点及其所连接的边，也即节点表示向量为动作。基于如下所示的深度强化学习模型的价值函数，根据图表示向量X_G与节点表示向量/>获得在当前步的状态下，各节点表示向量所对应的价值度：

其中，表示从网络中移除节点i的价值度，σ为ReLU激活函数，W_h、W_i为可学习参数，参数W_h维度为1×16，参数W_i维度为16×1。

为方便表示，在本发明中，将上述步骤S6中的可学习参数W_h,W_i统一表示为：Θ_D。

S7、根据当前步的状态下，各节点表示向量所对应的价值度，采用贪心策略作为决策策略，确定当前步的动作。也即，每次以概率(1-∈)选择最高价值度对应的动作a_t，以概率∈随机选择动作a_t。执行当前步的动作a_t，得到当前步动作对应的奖励r_t，其中，t表示当前步。

在本发明的深度强化学习模型中，基于环境的状态变化所导致的网络性能差异定义环境给予的奖励。具体的，在本实施例中，设定r_t＝C_G，其中，C_G是归一化作战能力指数，用于评估异质作战网络的作战性能，其计算过程包括如下步骤：

S71、计算各类节点的作战能力，并给定：

其中，是采取对应动作后剩余网络的节点数，j为实体类型；c_j为实体的初始作战能力值，取值为大于0的实数，根据作战网络自由设定，越大表示实体的作战能力越强。

S72、对作战链l_k所包含节点的作战能力，进行求和，然后按作战链l_k的长度取平均，作为该计算作战链l_k的作战能力，公式如下：

其中，j为实体类型,j_k表示第j种类型的第k个节点，CA_j(j_k)表示节点k的作战能力，|l_k表示作战链l_k的长度；

S73、对作战网络所包含作战链的作战能力求和，获得该作战网络的作战能力O_G，公式如下：

其中，L_G＝{l_k}，k＝1,2,…,m

S74、对作战能力指数O_G进行归一化处理，公式如下：

其中，表示当前状态的网络，G表示完整作战网络。

上述归一化作战能力指数能准确地评估动态变化的异质作战网络的作战能力，能够根据作战进程，随着网络结构的变化动态准确地评估网络作战能力，更加贴合真实的作战场景。

S8、判定执行完成当前步动作后，剩余网络是否为孤立的节点：

若不是，则执行以下步骤：

最后，将执行当前步动作后的剩余网络作为输入，跳转至步骤S3；

若是，则执行以下步骤：

完成本轮训练迭代，更新回放经验池、Q网络的参数和目标网络的参数，然后跳转至步骤S9。

上述更新Q网络的参数，包括如下步骤：

1)从经验回放池D中随机采样获得训练样本(s_u,a_u,r_u,u+n,s_u+n)，其中，表示第u步至第u+n步环境所给予的累积奖励，s_u表示第u步的状态，a_u表示第u步的动作，S_u+n表示第u+n步的状态；

2)根据训练样本并基于损失函数对Q网络的参数进行更新：

L＝L_Q+αL_G

其中，L_Q为学习损失，表示预测价值度(Q网络的价值度)与目标价值度(目标网络的价值度)之间的差距，L_G表示图重构损失，α为权重系数；γ是奖励的折扣因子，为目标网络在贪婪策略下选择动作/>的最大价值度，/>为目标网络的参数，Q(s_u,a_u；Θ_Q)为预测的价值度，Θ_Q＝{Θ_E,Θ_D}为Q网络的参数，Θ_E为步骤S5所涉及编码过程的参数的统一表示，Θ_D步骤S6所涉及解码过程的参数的统一表示；s_i,k表示两个节点i和k是否相连，x_i、x_k分别为节点i和k的表示向量，g是初始状态下的节点数量。

上述更新回放经验池是基于当前步的状态构建训练样本，并将训练样本存入深度强化学习模型的回放经验池D。训练样本的结构如上述Q网络参数更新步骤所示，其包括起始状态、起始动作、当前状态以及在起始至当前的累积奖励，若将当前步表示为t，起始至当前所进行的步数表示为n，则训练样本可以表示为(s_t-n,a_t-n,r_t-n,t,s_t)。

上述更新目标网络的参数是根据Q网络的参数对目标网络的参数进行更新，也即赋值

S9、判定是否收敛或达到设定的迭代次数，若是则完成训练，并获得完成训练的模型；若未达到，则从异质作战网络训练集随机提取一个新的训练网络作为输入，并跳转至步骤S2。在实施例中，训练过程使用(BA)模型产生100个模拟异质作战网络作为训练集。

基于上述训练过程，获得最终的参数Θ_Q，也即获得了最终的模型。在实战或测试时，根据敌方作战体系构建异质作战网络，加载训练获得的参数Θ_Q，也即编码参数、解码参数和DQN参数获得完成训练的模型，通过完成训练的模型获得瓦解该网络的节点序列集。

为了测试本发明方法对不同规模异质作战网络的瓦解效果，生成三种规模的异质作战网络测试集，将最大度攻击算法(英文全称High Degree Attack，简称为HDA)作为基线算法，与本发明的方法进行对比，对本发明方法在上述测试集的表现进行评价。

其中，大规模异质作战网络测试集包括550个传感器节点S、120个决策节点D和300个影响节点I，中规模异质作战网络测试集包括260个传感器节点S、60个决策节点D和180个影响节点I，小规模异质作战网络测试集包括55个传感器节点S、12个决策节点D和30个影响节点I，每种规模随机生成100个网络。

超参数设置，经验回放池的容量，越大则训练时间越长，训练效果越好；Adam优化器的学习率，越大则算法越不容易收敛，训练时间越长；更新阈值q，影响参数更新频率，越大则算法越容易收敛；更新间隔C，表示目标网络每隔C步将Q网络的参数复制；折扣因子γ，越大则训练时间越长；批样本大小，即批量训练样本的数量，过大会导致泛化性能差；训练迭代次数，越大训练时间越长。具体的，在对比实验中，训练过程的超参数设置为：经验回放池D的容量为500、Adam优化器的学习率为0.0001、更新阈值q为100、更新间隔C为3、折扣因子γ为0.99、批样本大小为32、训练迭代次数为5000。

基于本发明的设定，攻击方对防御方的作战网络具备完全信息，并且攻击方式为节点攻击，即如果一个节点受到攻击，它所连接的边将一起被删除。假设表示被攻击的节点集，/>表示被移除的链路集，那么节点攻击后得到的网络就是/>因此，可将比值/>定义为攻击强度。

以f_N作为横坐标，以归一化作战能力指数C_G作为纵坐标，构成网络作战能力指数随攻击强度的变化曲线，能很好的呈现网络瓦解速度及效率。为表示方便，在图中，本发明的方法简称为HDGED，也即the Heterogeneous combat network Disintegration methodbased on Graph Embedding via DQN的缩写。

图5给出了第一组对比结果，该组中的c_S、c_D和c_I均配置为2。其中，图5a是HDGED和HDA在大规模异质作战网络上瓦解结果对比、b为HDGED和HDA在中规模异质作战网络上瓦解结果对比、c为HDGED和HDA在小规模异质作战网络上瓦解结果对比。从图5可知，对于不同规模的异质网络，HDA算法能够在f_N为0.26实现完全瓦解，而本发明方法均在f_N为0.14时即可实现完全瓦解，相比基线算法提高了46％，其表明，在相同的条件下，本发明的方法比HDA算法的瓦解效率更高。

为验证算法的可迁移性，改变三种类型实体的作战能力值，从c_S、c_D和c_I中选取一个类型的作战能力设置为7，其余两个类型的作战能力设置为2，构成三组对照实验。其中，图6为HDGED和HDA在大规模异质作战网络上不同作战能力下的瓦解能力对比，图6a、b、c的c_S、c_D和c_I取分别设置为7-2-2、2-7-2、2-2-7；图7为HDGED和HDA在中规模异质作战网络上不同作战能力下的瓦解能力对比，图7a、b、c的c_S、c_D和c_I取分别设置为7-2-2、2-7-2、2-2-7；图8为HDGED和HDA在小规模异质作战网络上不同作战能力下的瓦解能力对比，图8a、b、c的c_S、c_D和c_I取分别设置为7-2-2、2-7-2、2-2-7。

图6、图7、图8的结果显示，对于不同的作战能力，本发明方法仍然能够保持在f_N＝0.15时实现对网络的瓦解，而HDA算法依然在f_N＝0.26时瓦解网络，本发明的方法比HDA算法的瓦解效率更高。

Claims

1.一种基于深度强化学习的异质作战网络瓦解方法，包括以下步骤：

A、训练模型

A2、输入训练网络；

B、网络瓦解

2.如权利要求1所述的一种基于深度强化学习的异质作战网络瓦解方法，其特征在于，所述步骤A8中，若判定执行完成当前步动作后，剩余网络不是孤立的节点，则在跳转至步骤A3前完成以下步骤：

3.如权利要求1或2所述的一种基于深度强化学习的异质作战网络瓦解方法，其特征在于，在步骤A3中，所述采用FINC模型建立网络的拓扑图G(V,E)，基于以下设定：

并由作战链相互交织形成网络拓扑图。

4.如权利要求1或2所述的一种基于深度强化学习的异质作战网络瓦解方法，其特征在于，在步骤A4中，所述采用图嵌入的方法对拓扑图G(V,E)进行编码，获得包括所有节点的邻接矩阵以及分别对应各类型节点的类型邻接矩阵与类型特征矩阵，包括如下步骤：

5.如权利要求4所述的一种基于深度强化学习的异质作战网络瓦解方法，其特征在于，在步骤A5中，所述获得节点表示向量包括如下步骤：

6.如权利要求4所述的一种基于深度强化学习的异质作战网络瓦解方法，其特征在于，在步骤A5中，所述获得图表示向量X_G，包括如下步骤：

3)将图特征向量L通过多层感知器得到图表示向量X_G。

7.如权利要求1或2所述的一种基于深度强化学习的异质作战网络瓦解方法，其特征在于，在步骤A6中，所述基于深度强化学习模型的价值函数，根据图表示向量X_G与节点表示向量获得在当前步的状态下，各节点表示向量所对应的价值度，其计算公式如下：

8.如权利要求1或2所述的一种基于深度强化学习的异质作战网络瓦解方法，其特征在于，所述更新Q网络的参数，包括：

2)根据训练样本并基于损失函数对Q网络的参数进行更新：

L＝L_Q+αL_G

其中，L_Q为学习损失，表示预测价值度与目标价值度之间的差距，L_G表示图重构损失，α为权重系数；γ是奖励的折扣因子，为目标网络在贪婪策略下选择动作的最大价值度，/>为目标网络的参数，Q(s_u,a_u；Θ_Q)为预测的价值度，Θ_Q＝{Θ_E,Θ_D}为Q网络的参数，Θ_E为步骤A5所涉及编码过程的参数的统一表示，Θ_D步骤A6所涉及解码过程的参数的统一表示；s_i,k表示两个节点i和k是否相连，x_i、x_k分别为节点i和k的表示向量，g是初始状态下的节点数量。

9.如权利要求1或2所述的一种基于深度强化学习的异质作战网络瓦解方法，其特征在于，在所述深度强化学习模型中，基于环境的状态变化所导致的网络性能差异定义环境给予的奖励，其计算过程如下；

1)、计算各类节点的作战能力，并给定：

2)、对作战链l_k所包含节点的作战能力，进行求和，然后按作战链l_k的长度取平均，作为该计算的作战链l_k的作战能力；

4)、对作战能力指数O_G进行归一化处理。