CN114172688A

CN114172688A - 基于gcn-dl的加密流量网络威胁关键节点自动提取方法

Info

Publication number: CN114172688A
Application number: CN202111307889.4A
Authority: CN
Inventors: 杨进; 李静涵; 姜鑫涢; 倪胜巧; 梁刚; 梁炜恒
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-03-11
Anticipated expiration: 2041-11-05
Also published as: CN114172688B

Abstract

本发明公开了基于GCN‑DL的加密流量网络威胁关键节点自动提取方法，具有对加密流量网络中威胁关键节点自动提取准确率高、扩展性好、稳健性高的特点，并具有较好的检测准确率和良好的鲁棒性及可扩展性，并减少人工参与的依赖，包括下述步骤：1）数据预处理，将原始流量数据转换为改进的Efficientnet训练模型所需数据格式；2）数据训练，将经过预处理的数据输入到改进的Efficientnet训练模型中进行数据训练，实现输入数据为预处理后的二维灰度图像到输出数据为打好标签的数据的转换；3）特征提取，将经过改进的Efficientnet训练模型训练后的数据输入到GCN门框内进行自动化的数据特征提取。

Description

基于GCN-DL的加密流量网络威胁关键节点自动提取方法

技术领域

本发明涉及加密技术、网络技术等领域，具体的说，是基于GCN-DL的加密流量网络威胁关键节点自动提取方法。

背景技术

目前，国内外研究者们对于加密流量网络威胁关键节点的提取研究较为深入，并采用了多种不同方法：

1、基于机器学习的恶意加密流量检测与网络威胁关键节点提取，2016年，BlakeAnderson和David McGrew提供了第一个利用上下文信息(即DNS响应和HTTP头)来识别加密流量中的威胁[2]。该方法扩展了考虑数据omnia的方法，开发了监督机器学习模型，利用fow数据特征集，它使用关于fow和上下文流的详细信息，即DNS响应和HTTP头，以识别加密流量中的威胁。但是该算法使用的模型准确度欠佳，容易欠拟合。另外，该模型仍依赖于人工特征提取，人工提取的特征将很大程度上影响模型的学习能力，进而影响检测准确率。

2018年，Seth Alornyo等人[4]提出了使用基于身份的加密与平等测试的云计算加密流量分析。计算出元数据被发送到远程MAP服务器进行验证。如果发现匹配，则意味着机器学习分类器生成的匹配到标准的握手方案，因此密文被转发到云服务器进行存储，否则如果没有发现匹配，密文被拒绝。从而解决了由于恶意软件样本使用加密流量使得使用深度包检测(DPI)无效造成的一些问题。尽管Seth Alornyo等人验证了方案的可行性和有效性，但是在计算元数据时只考虑了加密数据的少数几个特征，没有考虑上下文、序列化等特征，不具备良好的泛化能力。

2020年Y Fang等人提出了一种基于随机森林的SSL/TLS加密恶意流量识别方法，以SSL/TLS加密方式收集恶意和良性流量数据作为数据集[9]，技术框架分为五个层：数据层，特征层，模型层，识别层和备份层。数据层主要负责处理原始网络数据流。特征层将提取每个数据的统计特征作为记录。获取所有要素数据后，要素层会将数据分类到下一层作为建模数据集。模型层读取上层的建模数据集程序集。最后，机器学习模型将被传输到识别层以识别恶意加密流量。备份层是一个特定的层，可自动保存要素层中的建模数据集并直接为模型层提供建模数据。该方法的检测速度较慢，且真实结果可能被多个分类器掩盖，进而影响检测的准确率。

2、基于深度学习的恶意加密流量检测方法：

2018年，Zhuang Zou等人提出采用高效卷积神经网络(CNN)进行数据包特征提取，采用长短时记忆(LSTM)进行流级时间序列特征提取，可以自动提取数据包级别和流量级别的特征。其中系统输入可以是pcap文件或路由器上捕获的实际流量，在使用流量作为网络输入之前，需要将流量分成离散的单位。对于每个流，提取三个连续的数据包，经过数据预处理，生成了三个数据包图像。然后，将这三个数据包图像提供给卷积神经网络。卷积神经网络的输出被发送到LSTM，利用柔性LSTM单元实现递归神经网络，最后在LSTM输出端设置一个softmax层作为最终结果。

该算法从图像中提取特征时，计算量巨大，导致整个算法的时间复杂度高，检测效率低。

2019年，Tangda Yu等人提出基于multi-AEs(Autoencoder)的加密恶意流量检测系统[12]。结合了异常检测和加密流量检测技术，使用恶意沙箱收集流量数据，用标签标记恶意流和正常流，然后利用AEs的多层网络进行特征提取和分类器模型的训练，得到一个多类型的分类模型，便可以使用分类器模型来检测网络内部流量中其他类似的恶意行为。该系统在已有研究的基础上，分析了正常和恶意流量的密码协议从握手阶段到认证阶段的不同特征，并通过进一步向高维扩展流特征向量来提取流量特征以便更好地分类。该系统具有较高的检测精度和较低的丢失率。

但该算法的流量特征提取效果较差，进而导致其不具备良好的泛化能力。

上述两大类方法中(基于机器学习的恶意加密流量检测与网络威胁关键节点提取、基于深度学习的恶意加密流量检测方法)存在下述缺陷：

依赖人工特征提取，在攻击者更新代码后需要重新选择分类器的模型，否则检测准确率会快速下降，流量检测的可扩展能力、兼容性和稳健性都无法得到保证。同时，人工方式提取的特征并不能包含原始序列的所有信息，一些复杂的隐含特征可能和最终的结果具有很强的相关性很难通过特征工程提取。

当前的研究成果大都基于小规模流量的测试，应用于真实环境还有一定距离，无法保证其在进行大量流量检测时的扩展能力；项目成果的能力需要在不同环境下进行长时间验证其性能，保证其兼容性；并且，随着时间的推移，流量加密协议可能改变，需要进行系统更新，才能保证其准确性、鲁棒性和可扩展性。

参考文献：

[2]Anderson B,McGrew D.Identifying encrypted malware traffic withcontextual flow data[C]//Proceedings of the 2016 ACM workshop on artificialintelligence and security.2016:35-46。

[4]Alornyo S,Asante M,Hu X,et al.Encrypted Traffic Analytic usingIdentity Based Encryption with Equality Test for Cloud Computing[C]//2018IEEE 7th International Conference on Adaptive Science&Technology(ICAST).IEEE,2018:1-4。

[9]Fang Y,Xu Y,Huang C,et al.Against Malicious SSL/TLS Encryption:Identify Malicious Traffic Based on Random Forest[C]//Fourth InternationalCongress on Information and Communication Technology.Springer,Singapore,2020:99-115。

[12]Yu T,Zou F,Li L,et al.An Encrypted Malicious Traffic DetectionSystem Based on Neural Network[C]//2019 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery(CyberC).IEEE,2019:62-70。

[14]Wang W,Zhu M,Wang J,et al.End-to-end encrypted trafficclassification with one-dimensional convolution neural networks[C]//2017 IEEEInternational Conference on Intelligence and Security Informatics(ISI).IEEE,2017:43-48。

[15]ZHAI M.F,ZHANG X.M,ZHAO B.Survey of encrypted malicious trafficdetection based on deep learning[J].Chinese Journal of Network andInformation Security,2020,6(3):59-70。

[16]ISCX UNB.VPN-nonVPN dataset[EB/OL].http://www.unb.ca/cic/research/datasets/vpn.html,2017-08。

[17]CTU University.The stratosphere IPS project dataset[EB/OL].https://stratosphereips.org/category/dataset.html,2017-08。

[18]Tan M,Le Q.V.EfficientNet:Rethinking Model Scaling forConvolutional Neural Networks[J].2019。

[19]M.Sandler A.Howard,M.Zhu,A.Zhmoginov,LC Chen.MobileNetV2:InvertedResiduals and Linear Bottlenecks[C]//2018 IEEE/CVF Conference onComputerVision and Pattern Recognition(CVPR).IEEE,2018。

[20]Tan M,Chen B,Pang R,et al.MnasNet:Platform-Aware NeuralArchitecture Search for Mobile[C]//2019 IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR).IEEE,2019。

发明内容

本发明的目的在于提供基于GCN-DL的加密流量网络威胁关键节点自动提取方法，具有对加密流量网络中威胁关键节点自动提取准确率高、扩展性好、稳健性高的特点，并具有较好的检测准确率和良好的鲁棒性及可扩展性，并减少人工参与的依赖。

本发明通过下述技术方案实现：基于GCN-DL的加密流量网络威胁关键节点自动提取方法，包括下述步骤：

1)数据预处理，将原始流量数据转换为改进的Efficientnet训练模型所需数据格式；

2)数据训练，将经过预处理的数据输入到改进的Efficientnet训练模型中进行数据训练，实现输入数据为预处理后的二维灰度图像到输出数据为打好标签的数据的转换；

3)特征提取，将经过改进的Efficientnet训练模型训练后的数据输入到GCN门框内进行自动化的数据特征提取。

进一步的为更好地实现本发明，特别采用下述设置方式：所述数据预处理包括下述具体步骤：

1.1)使用所有协议层次数据，根据五元组将原始流量包划分为会话；

原始流量包的数据存储在单独的Pcap文件中，每个Pcap文件是一个包含不同大小的数据包的集合，每个文件代表一种应用程序。在这一步骤中，原始流量包数据文件首先按会话分段，使用所有协议层次数据，这是在文献[14]中王伟等人所评价的基于深度学习的流量分类中最理想的流量表示形式。会话是由具有相同五元组(源IP地址，源端口，目的IP地址，目的端口，传输层协议)的双向流组成的一组数据包，其源IP地址和目的IP地址可以互换。

1.2)删除会话中与检测无关的信息；

对于每条会话，依次迭代其中的每个数据包，删除数据链路层中一些与以太网相关的数据，如MAC地址；同时，删除重复的数据包和空数据包。

1.3)将会话长度固定为1024字节；

为了使传输层段均匀，在UDP段的标头(8字节)末尾填充0，以使其与TCP标头的长度(20字节)相等；并将每条会话长度固定为1024字节，如果会话长度大于1024字节则截断，小于1024字节则在会话末尾补零。

1.4)根据改进的Efficientnet训练模型所需的输入分辨率，对固定长度的会话文件进行复制和迭代扩展，并将其转换为二维灰度图像，依次以png的格式存储；

即将长度统一后的会话文件根据改进的Efficientnet训练模型需要的输入分辨率大小进行迭代复制扩充，比如以分辨率要求是64×64为例，分别将每条会话(1024字节)迭代复制扩充至长度为4096(64×64)，之后将扩充后的会话文件转换为的二维灰度图像，输出格式为png格式。会话文件中的一个字节对应灰度图像中的一个像素值，例如0x00对应黑色，0xff对应白色。

1.5)将灰度图像按9:1的比例划分为训练集和测试集，即将所有类别的灰度图像按9：1的比例分割成训练集和测试集。

进一步的为更好地实现本发明，特别采用下述设置方式：所述五元组包括源IP地址、源端口、目的IP地址、目的端口及传输层协议；所述与检测无关的信息包括MAC地址、重复数据包、空数据包等。

进一步的为更好地实现本发明，特别采用下述设置方式：所述改进的Efficientnet训练模型包括

改进的Efficientnet-B0层(将现有的Efficientnet模型最后的全连接层去除，保留之前所有的层)，使用MobileNet V2中的移动翻转瓶颈卷积(Mobile InvertedBottleneck Convolution,MBConv)模块作为模型的主要构造块，在此基础上用多目标神经架构搜索，其中，移动翻转瓶颈卷积模块(MBConv模块)是通过在深度可分离卷积(Depthwise Separable Convolution,DSC)的基础上，使用SENet中的压缩与激发(Squeezeand Excitation,SE)方法进行优化而形成的。

全局平均池化层，用于将特征图所有像素值相加求平均，得到一个用于表示对应特征图的数值，其不以窗口的形式取均值，而是以feature map为单位进行均值化；

在全局平均池化技术被提出之前，全连接层一直是卷积神经网络的标配，用来改变卷积层输出特征图的维度，将学到的“分布式特征表示”映射到样本标记空间，即实现特征图的向量化，从而实现分类。但是全连接层参数过多，容易造成过拟合。为了避免此风险，同时实现特征图到特征向量的转换，全局平均池化技术应运而生，两者的结构如图2所示。

密集层：

由于改进的Efficientnet-B0层输出的特征图在经过全局平均池化层之后，可以得到长度为1280的一维特征向量。为了进一步整合特征，增强改进的Efficientnet训练模型的非线性表达能力，本发明增加一个密集全连接层(密集层)，采用线性整流函数(Rectified Linear Unit，ReLU函数)作为激活函数，可以得到长度为256的高阶特征向量。其中，ReLU函数如式(1)所示。

f(x)＝max(0，x) (1)，其中，x为进入神经元的来自上一层神经网络的输入向量；

ReLU函数保留全部正值，并将所有负值置为0，通过这种方式赋予神经元稀疏激活性，从而使其能够更好地挖掘输入信息中与目标相关的特征，拟合训练数据。与线性函数相比，ReLU函数具有更强的表达能力；而与其他非线性函数相比，其非负区间的梯度为常数，因此能够避免神经网络训练过程中经常出现的梯度消失问题。

Softmax层，为一种激活函数采用Softmax函数的全连接层，其中，Softmax函数的计算公式如式(2)所示：

其中，p_i是输入样本属于类别i的概率，z_i是分数，i为加密流量类别索引，k为加密流量类别总数。

Softmax层为网络结构的最后一层，该层将密集层输出的一维特征向量，继续映射为(-∞，+∞)范围内的实数，又称为分数。Softmax函数将这些实数进一步转化为(0，1)范围内的实数，即各类的概率，同时保证它们的和为1。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤3)中在GCN门框内进行自动化的数据特征提取为采用基于谱域GCN的入侵数据特征提取方法，具体为：

3.1)对于已经进行拓扑结构构建的加密流量数据集，获取其邻接矩阵和度矩阵；其中，邻接矩阵通过关联加密流量数据的处理方法得到，且无需进行额外对称化；度矩阵通过邻接矩阵变换获得；在度矩阵中，除主对角线元素外的其余元素均为0，即仅使用对角元素表示各条攻击记录与其他攻击记录的相关数量。

3.2)借助加密流量数据的度矩阵和邻接矩阵，求得拉普拉斯矩阵，在拉普拉斯矩阵进行谱分解后，获得拉普拉斯矩阵的特征向量；

3.3)利用数据处理方法量化加密流量数据的节点属性，并将其表示为矩阵形式，得到节点特征矩阵；

3.4)将拉普拉斯矩阵的特征向量和节点特征矩阵共同作为输入数据进入图卷积神经网络层；

3.5)在卷积神经网络层中通过滤波器对于加密流量数据的拓扑结构进行运算；在进行运算时，通过Chebyshev多项式的K阶截断展开来拟g_θ(Λ)，然后以特征向量的对角矩阵的切比雪夫多项式为基础，通过引入一阶近似ChebNet的方法构造滤波器，并对滤波器进行归一化操作得到计算复杂度较低的滤波器；

3.6)经过步骤3.5)后，运算所得加密流量数据矩阵通过激活层的激活函数加入非线性因素，而后作为下一次卷积操作的输入。

基于谱域的图卷积神经网络(基于谱域GCN)不仅继承了卷积神经网络对于局部结构的建模能力，使其可以依赖于共享滤波器对于局部加密流量数据进行节点特征提取，同时通过其特有的拉普拉斯矩阵谱分解及傅里叶变换，完成对于图上普遍存在的节点依赖关系的提取分析。它有效地解决了卷积神经网络难以选取固定卷积核来适应非欧结构不规则性的问题，从而实现加密流量数据的拓扑结构特征有效自动提取。

进一步的为更好地实现本发明，特别采用下述设置方式：还包括采用下述评价指标对该自动提取算法的评估：

式中TP为True Positive，即正确分类为X的实例数；TN为True Negative，即正确分类为Not-X的实例数；FP为假阳性，是错误分类为X的实例的数量；FN为假阴性，是错误分类为Not-X的实例的数量；Accuracy(准确率)，表示样本被正确分类的比例)；Precision(精确率，又称查准率)，表示在所有被预测为正的样本中实际为正的样本所占的比例；Recall(召回率，又称查全率)，表示在实际为正的样本中被预测为正的样本所占的比例；F1-Score是精确率和召回率的调和平均，可作为模型的实际评分准则。

本发明与现有技术相比，具有以下优点及有益效果：

本发明针对已知加密流量网络威胁关键节点，在实验中，将所有正常加密流量标记为0，所有网络威胁关键节点标记为1，将原始流量分为两类。将数据集中的所有原始流量进行预处理，得到一个尺寸为224×224的二维图像，并将其输入到模型的网络结构中进行训练和测试。最后，基于GCN-DL的加密流量网络威胁关键节点自动提取方法，在二进制分类的情况下，准确率达到100％，训练时间在30秒以内。

本发明针对未知加密流量网络威胁关键节点，为了体现该方法能够检测到加密流量网络威胁关键节点，使用具有不同类型的加密流量的数据集进行训练和测试。得益于本发明的泛化能力和对特征的良好描述能力，检测未知加密流量网络威胁关键节点时，自动提取特征性能较高。

本发明能够在不解密的情况下对加密流量的网络威胁关键节点进行自动提取。加密流量检测与非加密流量最大的不同之处在于其实际内容不可见，而基于解密技术的网络威胁关键节点提取方法耗时长、成本高。本发明在不解密的条件下直接将流量数据包经过一系列处理转换为数据包，避免了对用户隐私的侵犯。

本发明的模型训练模块使用的是目前效果最好的卷积神经网络Efficientnet，与以往的卷积神经网络模型相比，Efficientnet对模型的网络深度、网络宽度、图像分辨率进行了多维度混合的放缩，同时兼顾了模型的速度和精度，在本发明的模型训练模块达到了极佳的效果。

本发明的特征提取模块使用的是GCN(图卷积神经网络)，它减少了以往方法在针对图数据节点的特征信息以及结构信息按照手工规则进行提取的依赖，能够以一种自动化的方式学习图的特征信息与结构信息。并且解决了传统的离散卷积在Non EuclideanStructure的数据上无法保持平移不变性的问题，能够在拓扑数据结构上有效地提取空间特征来进行学习。

附图说明

图1为数据预处理流程图。

图2为图卷积神经网络拓扑结构图。

图3为本发明所述Efficientnet训练模型结构图。

图4为全连接层和全局平均池化层示意图。

图5为本发明所述GCN门框结构示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

网络威胁关键节点检测是网络空间安全的关键任务。随着公众网络安全意识的不断提高和加密技术的快速发展，互联网加密流量所占比例呈现出爆炸式增长的趋势，越来越多的恶意网络服务也依赖加密来逃避检测。根据巴拉克的预测，到2021年，89％的流量将被加密。届时，超过50％的加密流量将由网络恶意软件生成。加密技术正成为恶意服务的温床，给网络安全带来巨大挑战。考虑到隐私保护，如何在不解密的情况下有效检测威胁关键节点是当前网络安全，特别是流量安全中的热点和难点。

人工智能技术为加密流量检测提供了可行的思路。然而，传统的机器学习方法必须依靠专家经验进行人工特征提取，不仅费时费力，而且难以及时、准确地对加密恶意流量进行检测；深度学习可以自动从原始流量中提取特征，无需复杂的人工特征提取过程。经过一定的训练，在自动检测率、准确率、假阴性率等方面都能取得良好的效果。然而，性能较好的深度学习模型依赖于大量正确标记的流量数据，这也是加密恶意流量检测面临的一大难题。现有的公共可用加密恶意流量数据集相对较小且陈旧，同时，检测模型必须能够在真实网络环境中小样本条件下实现快速训练和准确检测。

针对此类问题，本发明提出了基于图神经网络和深度学习的加密流量网络威胁关键节点自动提取系统，在该系统的基础上，本发明进一步提出了基于GCN-DL的加密流量网络威胁关键节点自动提取方法。

名词解释：

GCN：Graph Convolutional Network的缩写，即图卷积神经网络。

DL：Deep Learning的缩写，即深度学习。

实施例1：

本发明设计出基于GCN-DL()的加密流量网络威胁关键节点自动提取方法，包括下述步骤：

2)数据训练，将经过预处理的数据输入到改进的Efficientnet训练模型中进行数据训练，实现输入数据为预处理后的二维灰度图像到输出数据为打好标签的数据的转换(优选的，正常流量标记为0，恶意流量标记为1)；

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述数据预处理包括下述具体步骤：

1.2)删除会话中与检测无关的信息；

1.3)将会话长度固定为1024字节；

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述五元组包括源IP地址、源端口、目的IP地址、目的端口及传输层协议；所述与检测无关的信息包括MAC地址、重复数据包、空数据包等。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述改进的Efficientnet训练模型包括

在全局平均池化技术被提出之前，全连接层一直是卷积神经网络的标配，用来改变卷积层输出特征图的维度，将学到的“分布式特征表示”映射到样本标记空间，即实现特征图的向量化，从而实现分类。但是全连接层参数过多，容易造成过拟合。为了避免此风险，同时实现特征图到特征向量的转换，全局平均池化技术应运而生。

密集层：

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤3)中在GCN门框内进行自动化的数据特征提取为采用基于谱域GCN的入侵数据特征提取方法，具体为：

实施例6：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明，特别采用下述设置方式：还包括采用下述评价指标对该自动提取算法的评估：

实施例7：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，基于GCN-DL的加密流量网络威胁关键节点自动提取方法，采用数据预处理模块、模型训练模块和特征提取模块所构成的网络架构实现。

Zhai等[15]总结了目前常用的流量数据集，但发现很难找到既能满足包含加密恶意和正常流量的条件，又能以Pcap格式存储原始流量的公共数据集。因此，本发明的创作团队在创作时，决定集成ISCX VPN-nonVPN[16]和CTU-13[17]构建原始流量数据集。ISCXVPN-non VPN数据集包含14种加密流量，包括7种常规加密流量和7种协议封装流量，既包含流特征数据，也包含不带标签的原始流量数据。由于关注的是加密流量检测，所以选择常规行加密流量作为数据集的一部分。

在数据预处理阶段(数据预处理模块给予实现)，被存储为Pcap格式的原始流量数据(原始流量包所包含的数据)经流量切分、数据清洗、长度统一、格式转换及数据集划分等步骤，转换为可作为模型输入的png格式，如图1所示，在数据预处理阶段，包括下述步骤：

1.1)流量切分：根据五元组将原始流量包划分为会话。

1.2)数据清洗：删除会话中与检测无关的信息。

1.3)长度统一：固定会话长度以适应改进的Efficientnet训练模型输入的要求。

1.4)格式转换：将会话文件转换为灰度图像。

将长度统一后的会话文件根据改进的Efficientnet训练模型需要的输入分辨率大小进行迭代复制扩充，比如以分辨率要求是64×64为例，分别将每条会话(1024字节)迭代复制扩充至长度为4096(64×64)，之后将扩充后的会话文件转换为的二维灰度图像，输出格式为png格式。会话文件中的一个字节对应灰度图像中的一个像素值，例如0x00对应黑色，0xff对应白色。

1.5)数据集划分：将灰度图像按9:1的比例划分为训练集和测试集，即将所有类别的灰度图像按9：1的比例分割成训练集和测试集。

数据训练阶段

EfficientNet由Google Brain工程师谭明星和首席科学家Quoc V.Le于2019年提出[18]。在这篇论文中，作者使用了移动反向瓶颈卷积(MBConv)模块Mobile Net V2[19-20]为主要构建块，构造一个基线网络结构Efficientnet-B0多目标神经结构搜索。此外，他们还提出了一种模型缩放方法，可以兼顾速度和精度。通过使用该方法并分别扩展不同的倍数，生成EfficientNet-B1～EfficientNet-B7。与ResNet、Exception和Inception等经典网络模型相比，ImageNet数据集上EfficientNet系列的分类性能更好。

EfficientNet是一种使用简单而高效的复合系数的新型模型缩放方法(复合缩放方法)，以更结构化的方式扩展CNN。与任意缩放网络维度(例如宽度、深度和分辨率)的传统方法不同，该方法使用一组固定的缩放系数统一缩放每个维度。在这种新颖的缩放方法和AutoML的最新进展的支持下，EfficientNets以高达10倍的效率(更小更快)超越最先进的准确性。

虽然缩放单个维度可以提高模型性能，但平衡网络的所有维度(宽度、深度和图像分辨率)与可用资源之间的关系可以最好地提高整体性能。

复合缩放方法的第一步是执行网格搜索，以找到在固定资源约下基线网络的不同缩放维度之间的关系)。这决定了上述每个维度的适当缩放系数。然后应用这些系数将基线网络扩大到所需的目标模型大小或计算预算。

与传统的缩放方法相比，这种复合缩放方法在缩放现有模型，例如MobileNet(+1.4％imagenet准确度)和ResNet(+0.7％))方面能够不断提高模型准确性和效率。

模型缩放的有效性也严重依赖于基线网络。EfficientNets通过使用AutoML MNAS框架执行神经架构搜索开发了一个新的基线网络，该框架优化了准确性和效率(FLOPS)。由此产生的架构使用移动反向瓶颈卷积(MBConv)，类似于MobileNetV2和MnasNet，然后扩大基线网络以获得一系列模型得到EfficientNets。

在本发明中将现有的Efficientnet模型进一步的进行改进，将其最后的全连接层去除，保留之前所有的层，并在其之后添加全局平均池化层(Global Average Pooling,GAP)、密集层以及Softmax层。以基于Efficientnet-B0模型形成的改进的Efficientnet-B0层的6分类实验为例，整体网络架构如图3所示。

Efficientnet-B0(除去全连接层)，亦即是改进的Efficientnet-B0层，使用MobileNet V2中的移动翻转瓶颈卷积(Mobile Inverted Bottleneck Convolution,MBConv)模块作为模型的主要构造块，在此基础上用多目标神经架构搜索，其中，移动翻转瓶颈卷积模块(MBConv模块)是通过在深度可分离卷积(Depthwise SeparableConvolution,DSC)的基础上，使用SENet中的压缩与激发(Squeeze and Excitation,SE)方法进行优化而形成的，改进的Efficientnet-B0层的结构如表1所示；

表1

全局平均池化层

在全局平均池化技术被提出之前，全连接层一直是卷积神经网络的标配，它被用来改变卷积层输出特征图的维度，将学到的“分布式特征表示”映射到样本标记空间，即实现特征图的向量化，从而实现分类。

全连接使用矩阵乘法，相当于一个特征空间变换，可以将有用的信息提取整合。再加上激活函数的非线性映射，多层全连接层理论上可以模拟任何非线性变换。全连接可以进行维度变换，尤其可以把高维变到低维，同时把有用的信息保留下来；全连接的另一个作用是隐含语义的表达(embedding)，把原始特征映射到各个隐语义节点(hidden node)。对于最后一层全连接而言，就是分类的显示表达。

但全连接的缺点也很明显:无法保持空间结构。全连接层参数过多，容易造成过拟合。为了避免此风险，同时实现特征图到特征向量的转换，全局平均池化技术应运而生，两者(全连接层和全局平均池化层)的结构如图4所示。

全局平均池化技术是将特征图所有像素值相加求平均，得到一个数值，即用该数值表示对应特征图。全局平均池化不以窗口的形式取均值，而是以feature map为单位进行均值化。即一个feature map输出一个值。各个类别与feature map之间的联系更加直观(相比于全连接层的黑箱来说)，feature map被转化为分类概率更加容易；因为在GAP中没有参数需要调，所以避免了过拟合问题；GAP汇总了空间信息，因此对输入的空间转换更为鲁棒。使用全局平均池化技术替代全连接层减少了参数数量，减少计算量，减少过拟合，对整个网络从结构上做正则化防止过拟合，剔除了全连接层黑箱子操作的特征，直接赋予了每个channel实际的类别意义。全局平均池化技术还能使模型具有全局的感受野，使得网络低层也能利用全局信息。

密集层：

由于改进的Efficientnet-B0层输出的特征图在经过全局平均池化层之后，可以得到长度为1280的一维特征向量。为了进一步整合特征，增强改进的Efficientnet训练模型的非线性表达能力，本发明增加一个密集全连接层(密集层)，采用线性整流函数(Rectified Linear Unit,ReLU函数)作为激活函数，可以得到长度为256的高阶特征向量。其中，ReLU函数如式(1)所示。

f(x)＝max(0,x) (1)，其中，x为进入神经元的来自上一层神经网络的输入向量；

Softmax层为网络结构的最后一层，该层将密集层输出的一维特征向量，继续映射为(-∞,+∞)范围内的实数，又称为分数。Softmax函数将这些实数进一步转化为(0,1)范围内的实数，即各类的概率，同时保证它们的和为1。

特征提取阶段：

在对于加密流量数据进行预处理和训练后，还需要进一步挖掘数据间隐藏的关联网，以确定其关联结构特征。为了有效挖掘大体量数据项集之间相关联系，本发明选择关联规则方法对于加密流量数据进行关联分析。关联规则生成被分为以下三个步骤：特征选取，区间划分以及规则生成。

1、特征选取

在数据训练阶段之后，需要选取合适的属性特征作为后续模块的输入，而其余特征作为无关特征予以剔除。特征选择不仅能降低数据维度、减小数据处理模型的过拟合程度、提升模型精确率及泛化能力、提高模型的训练效率，并且还使得模型更具有解释性。

本发明针对不同数据集样本，采用的特征选择方法主要包括以下两类：

(一)Filter方法

Filter方法(过滤式方法)的特征选择过程与后续训练过程关联度较小。其主要通过赋予单维特征权重，并依照权重排序结果进行特征选择。本发明主要选取以下两种Filter类子方法：

方差检验法

方差作为代表数据发散程度的指标，可以作为特征选取的标准，其公式如下：

其中s²为方差，i为加密流量类别索引，n为加密流量类别总数，M为某种类别的加密流量特征，x_i为标准流量特征。

方差较大的子类特征取值差异较大，因而选择此类特征可以有效降低离散程度，从而提升模型准确性。

Pearson相关系数法

Pearson相关系数主要用于衡量特征分布的线性相关性。其公式如下：

其中p为相关系数，i为加密流量类别索引，n为加密流量类别总数，x_i为一维流量特征，

为一维流量特征均值，y_i为二维流量特征，

为一维流量特征均值。

在误差范围内服从高斯分布的特征通过以上计算可以获得相关系数，并基于此选取合适的特征。

(二)Embedding方法

Embedding方法(嵌入式方法)是基于先验知识调节模型的一种特征选择方法，它以分类器本身特性为基础对数据特征进行筛选。Embedding方法的特征选择模式兼顾了效率与效果的平衡。结合本发明加密流量数据的属性特征的多重共线性以及对于离群噪声较为敏感，择优选择其子方法基于正则化进行特征选择。

本发明使用Embedding方法通过对于加密流量数据特征权值系数的计算，可以有效防止特征选择过拟合，从而保证模型构建的准确性。

2、区间划分

在数据预处理模块已经将网络加密流量数据集中所有离散型特征转化为连续型特征。但连续型特征无法直接作用于关联规则，而是需要先通过区间划分转化为分类型，再利用关联规则算法对于布尔型特征进行求解。区间划分的核心为k-means聚类算法，本发明以KDD cup 99恶意流量数据集的num_root(root权限访问的次数)特征为例进行阐述。

(1)在num_root特征中随机选择k个样本作为聚类质心点，分别为：

μ₁，μ₂，……，μ₂∈R

其中R为num_root的样本空间。

(2)将每个需要聚类的num_root特征样本按照最小距离原则分配给聚类质心点：

c⁽ⁱ⁾＝arg min_j||x⁽ⁱ⁾-μ_j||²

其中x⁽ⁱ⁾是num_root特征样例i，c⁽ⁱ⁾是样例i与k个类中满足最小距离原则的类，μ_j是对于聚类样本质心点的猜测值。

(3)重新计算聚类质心点：

(4)重复(2)、(3)步骤直至收敛。

通过上述方法可以将num_root这一连续型特征转化k个聚类，并且可以得到k个聚类质心点。本发明通过该方法的构造，实现了将连续型特征转化到k个区间的布尔型特征，便于后续关联规则生成。

3、规则生成

当对于加密流量特征进行区间划分后，为了确定大体量记录间的关联性和相互依存性，选择通过关联规则进行处理。在关联规则中关键评估指标为支持度以及置信度。

在利用关联规则获取网络入侵记录节点关联后，通过构建拓扑结构进一步明确结构特征，拓扑结构如图2所示。

图卷积神经网络(Graph Convolutional Networks,GCN)是一种前沿神经网络算法，主要可分为谱域图卷积神经网络(Spectral Domain GCN)和空域图卷积神经网络(Spatial Domain GCN)。其核心思想是利用图结构中边的信息对于节点信息进行聚合从而生成新的节点表示。在非矩阵结构数据上，它克服了传统卷积神经网络难以选取固定卷积核适应图的不规则性因而无法保持平移不变性(Translation Invariance)的缺陷，具有稳定效果的同时对数据没有额外的特征工程(Feature Engineering)要求。本发明主要采用谱域图卷积神经网络对图结构入侵数据特征进行提取。

基于谱域GCN的入侵数据特征提取：

谱域图卷积神经网络在处理结构化数据方面作为一种有利模型，其优势在于：谱域GCN中的卷积操作可以有效响应拓扑结构输入特征的平移不变性，并且特征随着隐藏层不断深入而不断抽象的同时不损失有效信息。

本发明提出的基于GCN的非欧几里得结构数据特征提取方法(亦为基于谱域GCN的入侵数据特征提取方法)中，第一层为输入层。首先对于已经进行拓扑结构构建的加密流量数据集，获取其邻接矩阵和度矩阵；其中，邻接矩阵通过关联加密流量数据的处理方法得到，且无需进行额外对称化；度矩阵通过邻接矩阵变换获得；在度矩阵中，除主对角线元素外的其余元素均为0，即仅使用对角元素表示各条攻击记录与其他攻击记录的相关数量。

借助加密流量数据的度矩阵和邻接矩阵，求得拉普拉斯矩阵，在拉普拉斯矩阵进行谱分解后，获得拉普拉斯矩阵的特征向量；

利用数据处理方法量化加密流量数据的节点属性，并将其表示为矩阵形式，得到节点特征矩阵；

将拉普拉斯矩阵的特征向量和节点特征矩阵共同作为输入数据进入图卷积神经网络层；

在卷积神经网络层中通过滤波器对于加密流量数据的拓扑结构进行运算，而不同滤波器所进行卷积的效果也不尽相同；由于谱域卷积中特征值函数g_θ(Λ)的计算复杂度较高，选择通过Chebyshev多项式的K阶截断展开来拟g_θ(Λ)。然后以特征向量对角矩阵的切比雪夫多项式为基础，通过引入一阶近似ChebNet的方法构造滤波器。此外，针对其反复使用所导致的数值发散和梯度爆炸问题，选择引入归一化操作进行解决。通过以上步骤，可以得到计算复杂度较低的滤波器；

每个滤波器对于加密流量数据矩阵做卷积操作，得到的结果不可以直接作为下一次卷积操作的输入，还需要通过激活层的激活函数加入非线性因素。激活函数能有效解决梯度消失问题，缓解过拟合问题的同时强化了图卷积神经网络对模型的表达能力。

基于谱域的图卷积神经网络(基于谱域GCN)不仅继承了卷积神经网络对于局部结构的建模能力，使其可以依赖于共享滤波器对于局部加密流量数据进行节点特征提取，同时通过其特有的拉普拉斯矩阵谱分解及傅里叶变换，完成对于图上普遍存在的节点依赖关系的提取分析。它有效地解决了卷积神经网络难以选取固定卷积核来适应非欧结构不规则性的问题，从而实现加密流量数据的拓扑结构特征有效自动提取。本发明所提出的适用于加密流量数据特征提取的谱域GCN结构如图5所示。

还包括采用下述评价指标对该自动提取算法的评估：

在实施时，将训练集输入到数据预处理模块内进行训练，训练得到可以进行应用的改进的Efficientnet训练模型，而后可以将测试集内的数据输送到训练好后的改进的Efficientnet训练模型内进行测试，经改进的Efficientnet训练模型后的数据将在特征提取门框内进行特征提取。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.基于GCN-DL的加密流量网络威胁关键节点自动提取方法，其特征在于：包括下述步骤：

2.根据权利要求1所述的基于GCN-DL的加密流量网络威胁关键节点自动提取方法，其特征在于：所述数据预处理包括下述具体步骤：

1.2)删除会话中与检测无关的信息；

1.3)将会话长度固定为1024字节；

1.5)将灰度图像按9:1的比例划分为训练集和测试集。

3.根据权利要求2所述的基于GCN-DL的加密流量网络威胁关键节点自动提取方法，其特征在于：所述五元组包括源IP地址、源端口、目的IP地址、目的端口及传输层协议；所述与检测无关的信息包括MAC地址、重复数据包、空数据包。

4.根据权利要求1或2或3所述的基于GCN-DL的加密流量网络威胁关键节点自动提取方法，其特征在于：所述改进的Efficientnet训练模型包括

改进的Efficientnet-B0层，使用MobileNet V2中的移动翻转瓶颈卷积模块作为模型的主要构造块，在此基础上用多目标神经架构搜索，其中，移动翻转瓶颈卷积模块是通过在深度可分离卷积的基础上，使用SENet中的压缩与激发方法进行优化而形成的；

密集层，采用ReLU函数作为激活函数，用于得到长度为256的高阶特征向量，其中，ReLU函数的如式(1)所示：

及Softmax层，为一种激活函数采用Softmax函数的全连接层，其中，Softmax函数的计算公式如式(2)所示：

5.根据权利要求1或2或3所述的基于GCN-DL的加密流量网络威胁关键节点自动提取方法，其特征在于：所述步骤3)中在GCN门框内进行自动化的数据特征提取为采用基于谱域GCN的入侵数据特征提取方法，具体为：

3.1)对于已经进行拓扑结构构建的加密流量数据集，获取其邻接矩阵和度矩阵；其中，邻接矩阵通过关联加密流量数据的处理方法得到，且无需进行额外对称化；度矩阵通过邻接矩阵变换获得；在度矩阵中，除主对角线元素外的其余元素均为0；

3.5在卷积神经网络层中通过滤波器对于加密流量数据的拓扑结构进行运算；

6.根据权利要求1或2或3所述的基于GCN-DL的加密流量网络威胁关键节点自动提取方法，其特征在于：还包括采用下述评价指标对该自动提取算法的评估：

式中TP为True Positive，即正确分类为X的实例数；TN为True Negative，即正确分类为Not-X的实例数；FP为假阳性，是错误分类为X的实例的数量；FN为假阴性，是错误分类为Not-X的实例的数量；Accuracy表示样本被正确分类的比例；Precision表示在所有被预测为正的样本中实际为正的样本所占的比例；Recall表示在实际为正的样本中被预测为正的样本所占的比例)；F1-Score是精确率和召回率的调和平均，作为模型的实际评分准则。