CN115296857A

CN115296857A - 基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法

Info

Publication number: CN115296857A
Application number: CN202210812894.9A
Authority: CN
Inventors: 杨进; 吴松洋; 董健; 李思宇; 马梓城; 姜鑫涢; 梁刚; 梁炜恒
Original assignee: Sichuan University; Third Research Institute of the Ministry of Public Security
Current assignee: Sichuan University; Third Research Institute of the Ministry of Public Security
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-11-04

Abstract

本发明公开了基于拓扑结构和DeepLearning‑AIS的网络威胁感知及免疫方法，原始数据流量数据格式转换后输入到流量数据可视化程序中，所得输入改进的ViT训练模型结合参数进行特征提取训练，得到基于ViT模型的自动化特征提取模型，而后处理所有会话数据，得到数据的特征表示，将数据映射到向量空间，形成高维空间内的拓扑结构；利用拓扑结构，挖掘节点之间的关联性信息，执行LBP，迭代训练节点分类器至其收敛；将流量数据与分类结果输入AIS进行进化学习；选取自动生成的各类初始加密流量特征抗原种群和记忆抗体，存入各类抗体数组和记忆抗体数组；对流量特征抗原进行人工免疫系统训练，得到所有的抗原集合，进一步对AIS免疫网络系统进行训练，直到搜索完毕。

Description

基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法

技术领域

本发明涉及网络安全技术等领域，具体的说，是基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法。

背景技术

随着新兴的网络攻击行为中的广泛应用，大量恶意攻击开始使用加密传输的方式逃避检测，从而达到对受害者进行攻击的目的。这些以加密流量为载体实施的网络恶意行为，对网络威胁感知以及对应的应急处理造成了新的挑战。

图结构数据以及其蕴含的的拓扑结构信息，因为其能够从根本上表征非欧氏空间中的信息，因此被用于社交网络、网络拓扑结构、生物蛋白质大分子等拥有复杂结构与关系的场景中，相较传统方法有着更好的性能表现。

AIS是人工免疫系统(Artificial Immune System)的简称。近年来，生物免疫系统成为一个新兴的生物信息研究课题。计算机的安全问题与生物免疫系统所遇到的问题具有惊人的相似性，两者都要在不断变化的环境中维持系统的稳定性。人体免疫系统具有天生发现并消灭外来病原体的能力，生物免疫系统所具有的这些特性正是计算机科学工作者所梦寐以求的。

作为Deep Learning领域中的计算机视觉方向的代表性成果，VisionTransformer(又称ViT)将在自然语言处理任务中取得巨大成功的Transformer架构引入了计算机视觉方向，能够在图片分类、图片Embedding等任务中，将注意力机制引入图像感受野，取得比传统CNN模型和ResNet模型更好的效果。ViT模型使用Transformer模型的编码器结构，通过对输入图片进行切分并分批获取Embedding，并且引入位置编码以获取图片更丰富的信息，根据公式2获取图片的注意力权重信息：

其中Q、K、V分别为运算中涉及的注意力权重矩阵。

AIS对人工神经网络不仅是有效的补充，更重要的是它们之间可以互相促进，提出多种解决问题的新思路。

发明内容

本发明的目的在于提供基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，将基于拓扑结构的网络表征，同ViT与AIS相结合，充分利用深度学习在自动化特征提取方面的优势，采用拓扑结构中的信息传播机制，结合AIS算法在自动免疫进化学习上的长处，用于网络威胁感知及免疫的进化学习。

本发明通过下述技术方案实现：基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，包括下述步骤：

1)通过数据收集工作获取网络中的原始数据流量包，并将原始数据流量包的网络流量元数据按Pcap的形式存储，原始数据流量包的网络流量元数据存储在单独的Pcap文件中，每个Pcap文件是一个包含不同大小的数据包的集合，每个Pcap文件代表一种应用程序；

2)将原始数据流量包中的原始数据流量经数据预处理转换为改进的ViT训练模型所需数据格式；

3)将步骤2)所得输入到流量数据可视化程序(Python程序，能快速批量处理数据，将输入数据之间归入相应的类别)中，得二维灰度图像；

4)将二维灰度图像输入改进的ViT训练模型，结合改进的ViT训练网络所需的参数，进行特征提取训练，得到基于ViT模型的自动化特征提取模型；

5)使用基于ViT模型的自动化特征提取模型处理所有会话数据，得到数据的特征表示，将数据映射到向量空间，形成高维空间内的拓扑结构；

6)利用拓扑结构所特有的结构特征和信息传播机制，根据节点同质性(Homophily)与影响力(Influence)属性挖掘节点之间的关联性信息，执行循环信任传播算法(LBP)，迭代训练节点分类器至其收敛；

7)将经过以上步骤得到的流量数据与分类结果输入AIS进行进化学习，并输入算法参数；

8)选取自动生成的各类初始加密流量特征抗原种群和记忆抗体，存入各类抗体数组和记忆抗体数组；

9)对流量特征抗原进行人工免疫系统训练，直到得到所有的抗原集合；

10)将步骤9)所得到的所有抗原集合，进一步对AIS免疫网络系统进行训练；

11)重复步骤1)～10)直到所有抗原模式搜索完毕，否则继续重复步骤10)。

进一步的为更好地实现本发明所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，特别采用下述设置方式：所述步骤2)包括下述具体步骤：

2.1)使用所有协议层次数据，根据相同的五元组将原始数据流量在会话层面进行划分，删除会话中与检测无关的信息，将会话长度固定为784Bytes；

1.2)将固定长度后的会话转换为二维灰度图像，以png的格式存储。

进一步的为更好地实现本发明所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，特别采用下述设置方式：所述改进的ViT训练网络所需的参数包括学习率、激活函数、优化算法、损失函数、批处理大小、迭代次数，且采用损失函数计算值的大小作为特征提取停止的判断条件。

进一步的为更好地实现本发明所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，特别采用下述设置方式：在高维空间内的拓扑结构上，按照随机顺序，根据公式

更新节点的类别概率，直至算法收敛。

进一步的为更好地实现本发明所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，特别采用下述设置方式：迭代训练节点分类器的过程包括：

步骤一：在训练集上求两个分类器

和

分类器

基于节点特征向量f_v预测节点类标签，分类器

基于节点特征向量f_v和邻居节点的类标签聚合z_v预测节点类标签；

步骤二：基于分类器

设置节点v的类标签，计算z_v并利用分类器

预测节点v的类标签。

进一步的为更好地实现本发明所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，特别采用下述设置方式：所述步骤7)的算法参数包括选择抗体数、克隆率、最大迭代次数、分类类别数；其中，最大迭代次数作为AIS进化学习训练停止的判断条件，根据克隆率对选择出来的抗体进行克隆操作。

进一步的为更好地实现本发明所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，特别采用下述设置方式：所述步骤10)包括下述具体步骤：

10.1)从抗原集合中选出一个子集作为初始的网络细胞；

10.2)计算每一个网络细胞的受激程度；

10.3)通过资源分配机制，去除低受激程度的网络细胞；

10.4)选择受激程度较大的细胞，并根据它们的受激程度对它们进行克隆再生；

10.5)以与受激程度成反比的几率将每个克隆细胞进行变异；

10.6)选择变异后的克隆细胞组成新的网络。

进一步的为更好地实现本发明所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，特别采用下述设置方式：通过下述公式选择受激程度较大的细胞：s＝arg max Ab_j，j∈O；其中O＝{Ab_j|ζ_j>1}，ε为亲和力阈值，当ζ_j>1时，细胞s为分裂的候选者，且具有最高抗原浓度的细胞s是唯一的候选者；每次被选择的细胞s将进行克隆，新克隆细胞的权值与细胞s最差匹配的抗原的互补，这点与克隆选择原理不相同，但这产生了一个与所有给定抗原能最大匹配的抗体网络。

每一个网络细胞的受激程度通过下述公式计算：

其中，s_i为受激程度，M表示抗原的数量，n为相连的B细胞数量，D_i,j为抗原j与B细胞i之间的Euclidean距离，D_i,k为B细胞i和与之相连的B细胞k之间的Euclidean距离，

本发明与现有技术相比，具有以下优点及有益效果：

本发明将基于拓扑结构的网络表征，同ViT与AIS相结合，充分利用深度学习在自动化特征提取方面的优势，采用拓扑结构中的信息传播机制，结合AIS算法在自动免疫进化学习上的长处，用于网络威胁感知及免疫的进化学习。

附图说明

图1为生物免疫过程示意图。

图2为AIS算法一般步骤示意图。

图3为使用ViT获取图片编码表示的过程图。

图4为流量数据拓扑结构图。

图5为免疫网络的适应度进化学习流程图。

图6为训练得到的基于免疫系统的检测器生命周期图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本发明基于下述理论基础而得到：

随着网络攻防博弈的不断升级，越来越多的恶意攻击利用加密等手段隐藏攻击特征，从而绕过传统的网络威胁感知系统的检测，对企业形成新威胁、新挑战。据Gartner统计，2020年有超过70％的恶意网络攻击能够绕过传统的网络威胁感知系统。目前，基于传统的规则匹配以及基于算法的防护措施无法及时发现和阻止恶意加密流量的攻击行为，这可能会对资产、声誉和数据造成严重损害，如何形成对网络威胁的有效感知已成为工业界和学术界的重点难点课题，对于这个重要且具有挑战性的主题，企业需要探索新的安全技术以增强其安全能力。

恶意加密流量是一种使用加密技术如https加密等，对攻击命令、恶意攻击软件、恶意程序等加密后进行传输的数据流。识别基于恶意加密流量的网络威胁涉及处理和分析大量数据的复杂任务，对网络安全运营提出了重大挑战。主要有三个原因：首先，加密的流量特征与明文的流量特征相比变化很大，不能通过常规的负载匹配来检测和识别；其次，恶意软件利用流量伪装技术(如流量变形、链路信息填充)将恶意流量特征转化为常规流量特征，使得识别更加困难；第三，不同编码协议的编码方法和封装模式存在显着差异，需要考虑检测和区分策略。

拓扑结构主要以图结构数据(Graph-Structured Data)的形式将以流量数据为代表的网络威胁感知信息进行建模表征，并且为AIS实现相关免疫功能进行支撑。

人工免疫系统(Artificial Immune System,简称AIS)是一种受免疫学理论启发的计算机系统，它通过观察免疫系统的功能、原理和模型，用于解决现实世界的问题。二十世纪八十年代，学术界首次出现基于免疫网络学说的免疫系统的动态模型，并探讨了免疫系统与其它人工智能方法的联系，开始了人工免疫系统的研究。直到1996年12月，在日本首次举行了基于免疫性系统的国际专题讨论会，首次提出了“人工免疫系统”的概念。随后，人工免疫系统进入了兴盛发展时期。

以ViT模型为代表的深度学习模型和免疫系统之间有许多异同。AIS和深度学习模型都是受生物启发而产生的技术，二者利用学习、记忆、联想恢复等能力实现在高度分布式系统中识别问题功能。由于AIS能学习并记住曾被识别的模式并能高效地组建新的模式检测器，所以Glenn认为免疫系统是继神经系统之后的“第二大脑系统”。免疫系统中亲和力成熟过程等同于神经网络中权值更新过程，二者都是增加对被识别模式的响应能力。

本发明使用循环信念传播算法(Loopy Belief Propagation,LBP)处理网络威胁感知拓扑结构图，首先做以下定义：

Label-Label potential matrixψ(Y_i,Y_j)：表示节点i是类别Y_i,的条件下，其邻接节点j为类别Y_j的概率；

Prior beliefφ_i(Y_i)：表示节点i为类别Y_i的先验概率；

m_i→j(Y_j):节点i预测其邻接节点j为状态Y_j；

根据公式(1)进行节点之间的信息传递：

在节点间的信息传递中，考虑节点i为Y_i，的先验概率ψ，且根据类似于状态转移矩阵来得到节点j为Y_j，同时考虑所有邻居节点传递的信息m_k→j(Y_i)，随机顺序迭代，直到最终状态稳定，得到节点i为类别Y_i的概率

因此，AIS对神经网络不仅是有效的补充，更重要的是它们之间可以互相促进，提出多种解决问题的新思路。基于此，本发明提出了基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法。

实施例1：

本发明设计出基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，基于拓扑结构的网络表征，同ViT与AIS相结合，充分利用深度学习在自动化特征提取方面的优势，采用拓扑结构中的信息传播机制，结合AIS算法在自动免疫进化学习上的长处，用于网络威胁感知及免疫的进化学习，包括下述步骤：

2)将原始数据流量包中的原始数据流量经数据预处理转换为改进的ViT训练模型所需数据格式，具体包括下述步骤：

2.1)使用所有协议层次数据，根据相同的五元组(源IP，目的IP，源端口，目的端口，协议号)将原始数据流量在会话层面进行划分，删除会话中与检测无关的信息，将会话长度固定为784Bytes；

1.2)将固定长度后的会话转换为二维灰度图像，以png的格式存储；

4)将二维灰度图像输入改进的ViT训练模型，结合改进的ViT训练网络所需的参数(包括学习率、激活函数、优化算法、损失函数、批处理大小、迭代次数，且采用损失函数计算值的大小作为特征提取停止的判断条件)，进行特征提取训练，得到基于ViT模型的自动化特征提取模型；

5)使用基于ViT模型的自动化特征提取模型处理所有会话数据，得到数据的特征表示，将数据映射到向量空间，形成高维空间内的拓扑结构，在高维空间内的拓扑结构上，按照随机顺序，根据公式

更新节点的类别概率，直至算法收敛；

6)利用拓扑结构所特有的结构特征和信息传播机制，根据节点同质性(Homophily)与影响力(Influence)属性挖掘节点之间的关联性信息，执行循环信任传播算法(LBP)，迭代训练节点分类器至其收敛；迭代训练节点分类器的过程包括：

步骤一：在训练集上求两个分类器

和

分类器

基于节点特征向量f_v预测节点类标签，分类器

步骤二：基于分类器

设置节点v的类标签，计算z_v并利用分类器

预测节点v的类标签；

7)将经过以上步骤得到的流量数据与分类结果输入AIS进行进化学习，并输入算法参数(包括选择抗体数、克隆率、最大迭代次数、分类类别数；其中，最大迭代次数作为AIS进化学习训练停止的判断条件，根据克隆率对选择出来的抗体进行克隆操作)；

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，特别采用下述设置方式：所述步骤10)包括下述具体步骤：

10.1)从抗原集合中选出一个子集作为初始的网络细胞；

10.2)计算每一个网络细胞的受激程度；

10.3)通过资源分配机制，去除低受激程度的网络细胞；

10.5)以与受激程度成反比的几率将每个克隆细胞进行变异；

10.6)选择变异后的克隆细胞组成新的网络。

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，抗体网络的成长过程基于克隆选择原理。成长过程基于两个参数：ζ_j和亲和力阈值ε，特别采用下述设置方式：通过下述公式选择受激程度较大的细胞：s＝arg max Ab_j，j∈O；其中O＝{Ab_j|ζ_j>1}，ε为亲和力阈值，当ζ_j>1时，细胞s为分裂的候选者，且具有最高抗原浓度的细胞s是唯一的候选者；每次被选择的细胞s将进行克隆，新克隆细胞的权值与细胞s最差匹配的抗原的互补，这点与克隆选择原理不相同，但这产生了一个与所有给定抗原能最大匹配的抗体网络。

免疫网络训练过程中每一个网络细胞的受激程度通过下述公式计算：

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，包括下述步骤：

(1)通过数据预处理，将原始数据流量包中的原始数据流量转换为改进的ViT训练模型所需数据格式。原始数据流量包的数据存储在单独的Pcap文件中，每个Pcap文件是一个包含不同大小的数据包的集合，每个Pcap文件代表一种应用程序。在这一步骤中，原始数据流量包数据文件首先按会话分段，使用所有协议层次数据，根据五元组(源IP地址，源端口，目的IP地址，目的端口，传输层协议)将原始数据流量包划分为会话；删除会话中与检测无关的信息，例如IP地址、MAC地址，同时，删除重复的数据包和空数据包；将会话长度固定为784字节(Bytes)；对固定长度的会话文件进行复制和扩展，并将固定长度后的会话转换为二维灰度图像，规定以png的格式存储；

(2)将经过预处理的数据输入到数据标注处理程序(流量数据可视化程序)中进行类别标注，程序的输入数据为预处理后的二维灰度图像，输出数据为打好标签的数据；数据标注程序为Python程序，能快速批量处理数据，将输入数据之间归入相应的类别；(步骤(2)与前面的步骤存在不同，请核对)

(3)对二维灰度图像输入改进的ViT训练模型进行特征提取，并确定训练网络所需的参数；采用公开可用的预训练模型为基础，调整网络结构以适应加密流量输入数据得到改进的ViT训练模型；

(4)对经过改进的ViT训练模型训练得到的图特征构建成为网络威胁拓扑结构图，并且应用LBP算法进行拓扑结构图的节点分类，从中识别出威胁节点输入AIS进行进化学习，并输入算法参数；

(5)选取自动生成的各类初始加密流量特征抗原种群和记忆抗体，存入各类抗体数组和记忆抗体数组；

(6)根据学习到的抗原集合，进一步对AIS免疫网络系统进行训练，该训练过程包含以下六个阶段：

(6.1)从抗原集合中选出一个子集作为初始的网络细胞；

(6.2)对每一个网络细胞，计算它的受激程度；

(6.3)通过资源分配机制，去除低受激程度的网络细胞；

(6.4)选择受激程度较大的细胞，并根据它们的受激程度对它们进行克隆再生；

(6.5)以与受激程度成反比的几率对每个克隆细胞进行变异；

(6.6)选择变异后的克隆细胞组成新的网络；

(7)判断是否满足训练结束条件，如果不满足则从步骤(6)开始进行下一次迭代，满足则检测完成并输出检测结果。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，其特征在于：包括下述步骤：

1)获取网络中的原始数据流量包，并按Pcap的形式存储；

3)将步骤2)所得输入到流量数据可视化程序中，得二维灰度图像；

6)利用拓扑结构，根据节点同质性与影响力属性挖掘节点之间的关联性信息，执行循环信任传播算法，迭代训练节点分类器至其收敛；

2.根据权利要求1所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，其特征在于：所述步骤2)包括下述具体步骤：

3.根据权利要求1或2所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，其特征在于：所述改进的ViT训练网络所需的参数包括学习率、激活函数、优化算法、损失函数、批处理大小、迭代次数，且采用损失函数计算值的大小作为特征提取停止的判断条件。

4.根据权利要求1或2所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，其特征在于：在高维空间内的拓扑结构上，按照随机顺序，根据公式

更新节点的类别概率，直至算法收敛。

5.根据权利要求1或2所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，其特征在于：迭代训练节点分类器的过程包括：

步骤一：在训练集上求两个分类器

和

分类器

基于节点特征向量f_v预测节点类标签，分类器

步骤二：基于分类器

设置节点v的类标签，计算z_v并利用分类器

预测节点v的类标签。

6.根据权利要求1或2所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，其特征在于：所述步骤7)的算法参数包括选择抗体数、克隆率、最大迭代次数、分类类别数；其中，最大迭代次数作为AIS进化学习训练停止的判断条件，根据克隆率对选择出来的抗体进行克隆操作。

7.根据权利要求1或2所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，其特征在于：所述步骤10)包括下述具体步骤：

10.1)从抗原集合中选出一个子集作为初始的网络细胞；

10.2)计算每一个网络细胞的受激程度；

10.3)通过资源分配机制，去除低受激程度的网络细胞；

10.5)以与受激程度成反比的几率将每个克隆细胞进行变异；

10.6)选择变异后的克隆细胞组成新的网络。

8.根据权利要求7所述的基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法，其特征在于：通过下述公式选择受激程度较大的细胞：s＝arg max Ab_j，j∈O；其中O＝{Ab_j|ζ_j>1}，ε为亲和力阈值，当ζ_j>1时，细胞s为分裂的候选者，且具有最高抗原浓度的细胞s是唯一的候选者；每次被选择的细胞s将进行克隆，新克隆细胞的权值与细胞s最差匹配的抗原的互补。

每一个网络细胞的受激程度通过下述公式计算：

其中，s_i为受激程度，M表示抗原的数量，n为相连的B细胞数量，D_i,j为抗原j与B细胞i之间的Euclidean距离，D_i,k为B细胞i和与之相连的B细胞k之间的Euclidean距离。