CN114745175A

CN114745175A - 一种基于注意力机制的网络恶意流量识别方法及系统

Info

Publication number: CN114745175A
Application number: CN202210371900.1A
Authority: CN
Inventors: 刘思岐; 韩言妮; 揭昕政; 张雁强
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-12
Anticipated expiration: 2042-04-11
Also published as: CN114745175B

Abstract

本发明涉及一种基于注意力机制的网络恶意流量识别方法及系统，其方法包括：步骤S1：采集网络流量，提取原始字节和统计特征向量，构建样本集，按照预设比例划分训练集，验证集和测试集；步骤S2：将训练集中原始字节和统计特征向量输入恶意HTTPs流量分类模型FA‑net中，得到恶意软件流量分类的概率分布；其中，FA‑net包括：原始字节特征提取模块RF‑net、统计特征提取模块SF‑net和特征结合模块C‑net；步骤S3：构建总体损失函数用于训练FA‑net；其中，总体损失函数包括：分类损失函数和重构损失函数。本发明提供的方法，融合了网络数据流的统计特征的全局特征和原始字节的深层代表特征，实现更高精度的流量识别。

Description

一种基于注意力机制的网络恶意流量识别方法及系统

技术领域

本发明涉及网络安全的入侵检测领域，具体涉及一种基于注意力机制的网络恶意流量识别方法及系统。

背景技术

近年来，出现了许多网络流量加密技术，如SSL/TLS(Secure Sockets Layer，安全套接字协议，Transport Layer Security，传输层安全协议，TLS是SSL的升级版本)，SSH(Secure Shell)，IPsec(Internet Protocol Security)等，这些技术将网络中原本通过明文传输的信息进行加密，保护了用户的隐私，其中应用最为广泛的技术是SSL/TLS，而SSL/TLS常被用于加密HTTP协议，即HTTPs。

HTTPs在保护用户隐私的同时，恶意流量也通过HTTPs隐藏自己的行为，以此绕过入侵检测设备的检测，进而实施恶意操作，如破坏企业网络稳定性，盗取用户数据，安装后门等。

流量识别方法主要有基于特定端口号的流量识别技术，基于深度包检测的流量识别技术，基于统计特征的流量识别技术，基于深度学习的流量识别技术。

基于特定端口号的流量识别技术简单并能快速识别应用类型，但是端口混淆技术使基于端口的流量识别技术失效，知名应用程序和服务放弃使用知名端口，而是使用一些注册端口或动态端口，这时就不能依据端口和应用的映射关系成功识别出该应用。

基于深度包检测技术，虽然深度包检测方法可靠性高，识别粒度高，但是它需要维护一个特征库，现在网络流量种类不断增加，经常更新特征库不太现实。此外由于加密技术的出现，深度包检测技术无法有效提取流量载荷的特征，因此该方法在处理加密流量时的效果不好。

基于统计特征的流量识别技术将有代表性的统计特征搭配一个简单的机器学习模型，如支持向量机，就可以达到不错的识别效果。基于深度学习的流量识别技术以原始字节作为输入，实现端到端的流量识别。统计特征往往包含一些全局信息，如总数据包数，总字节数等，原始字节中往往包含一些更具代表性的深层特征。

因此，如何更好地结合统计特征和原始字节以提高恶意HTTPs流量分类的精度，成为一个亟待解决的问题。

发明内容

为了解决上述技术问题，本发明提供一种基于注意力机制的网络恶意流量识别方法及系统。

本发明技术解决方案为：一种基于注意力机制的网络恶意流量识别方法，包括：

步骤S1：采集网络流量，提取原始字节和统计特征向量，构建样本集，按照预设比例划分训练集，验证集和测试集；

步骤S2：将所述训练集中所述原始字节和所述统计特征向量输入恶意HTTPs流量分类模型FA-net中，得到恶意软件流量分类的概率分布；其中，FA-net包括：原始字节特征提取模块RF-net用于提取所述原始字节的代表特征F_r、统计特征提取模块SF-net用于提取统计特征的重构特征F_s和特征结合模块C-net用于将F_r和F_s经过注意力机制后结合得到结合特征F_c，F_c经过全连接层和softmax层后，输出网络恶意流量概率分布；

步骤S3：构建总体损失函数用于训练FA-net；其中，所述总体损失函数包括：分类损失函数和重构损失函数。

本发明与现有技术相比，具有以下优点：

1、本发明公开了一种基于注意力机制的网络恶意流量识别方法，结合统计特征和原始字节对恶意HTTPs流量进行分类，通过融合统计特征的全局特征和原始字节的深层代表特征实现更高精度的流量识别，解决了现有技术往往只利用统计特征或者原始字节的问题。

2、本发明利用自动编码器重构统计特征以获得统计特征的重构特征。

3、针对不同的统计特征和原始字节特征对最终的识别效果影响不同的问题，本发明利用注意力机制为不同的统计特征和原始字节特征分配不同的权重，并且利用调节因子α更有效地结合统计特征和原始字节特征。

附图说明

图1为本发明实施例中一种基于注意力机制的网络恶意流量识别方法的流程图；

图2为本发明实施例中恶意HTTPs流量分类模型FA-net结构示意图；

图3为本发明实施例中一种基于注意力机制的网络恶意流量识别系统的结构框图。

具体实施方式

本发明提供了一种基于注意力机制的网络恶意流量识别方法，融合了网络数据流的统计特征的全局特征和原始字节的深层代表特征，实现更高精度的流量识别。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于注意力机制的网络恶意流量识别方法，包括下述步骤：

步骤S2：将训练集中原始字节和统计特征向量输入恶意HTTPs流量分类模型FA-net中，得到恶意软件流量分类的概率分布；其中，FA-net包括：原始字节特征提取模块RF-net用于提取原始字节的代表特征F_r、统计特征提取模块SF-net用于提取统计特征的重构特征F_s和特征结合模块C-net用于将F_r和F_s经过注意力机制后结合得到结合特征F_c，F_c经过全连接层和softmax层后，输出网络恶意流量概率分布；

步骤S3：构建总体损失函数用于训练FA-net；其中，总体损失函数包括：分类损失函数和重构损失函数。

在一个实施例中，上述步骤S1：采集网络流量，提取原始字节和统计特征向量，构建样本集，按照预设比例划分训练集，验证集和测试集，具体包括：

步骤S11：提取网络数据流中的原始字节f_1:m，原始字节包括：一条网络数据流的前m个数据包和每个数据包的前n个字节；

本发明实施例采集双向HTTPs数据流作为样本集，样本集中的每个样本是具有相同5元组{sip,sport,dip,dport,protocol}的数据包序列；其中，数据包序列中包含前向数据包和后向数据包，前向数据包是客户端向服务器发送的，后向数据包是服务器向客户端发送的，五元组中sip和dip分别是源IP地址和目的IP地址，sport和dport分别是源端口和目的端口，protocol是TCP协议或UDP协议。由于本发明实施例采集的HTTPs是基于TCP协议的，因此本发明实施例只关注protocol是TCP协议的数据包。并且，对于每个数据包，本发明实施例只关注TCP包头和TCP有效载荷，忽略对流量分类没有用处的MAC帧头部和IP包头。

将一条包含l个数据包的HTTPs流表示为

c_i表示该条流的第i个数据包，

代表拼接操作。

样本中原始字节包含一条流的前m个数据包和每个数据包的前n个字节，用f_1:m表示原始字节。由于用于后续神经网络输入的大小必须是相同的，因此原始字节都必须变为相同大小，填充规则如下：

(1)一条HTTPs流若不满m个数据包，用0填充直至达到m个数据包；

(2)一个数据包若不满n个字节，用0填充直至达到n个字节。

步骤S12：统计得到大小为263+2m的公有特征向量，以及大小为422的TLS握手特征向量，二者相加，得到大小为U的统计特征向量S，如公式(1)所示：

U＝685+2m (1)

样本的统计特征包含公有特征和TLS握手特征。公有特征包括dport是否为443端口，前向数据包数，后向数据包数，前向字节数，后向字节数，以及数据包字节数的均值、方差和标准差。同时考虑了数据包的时间间隔序列和长度序列，其大小分别为m-1和m。此外，也考虑了字节分布，每个字节可以转换为0到255之间的整数，每个字节出现的次数就是字节分布，其大小为256。此处的数据包序列和字节分布由原始样本计算得到，而不是使用填充后的样本。最终，得到了一个大小为263+2m的公有特征向量。

TLS握手特征是从TLS握手阶段提取的特征。HTTPs可以看作是HTTP协议和SSL/TLS的结合，SSL/TLS是一种加密协议，它为两个实体之间的通信提供完整性和机密性保护。建立HTTPs连接需要三个步骤：

步骤一，通过三次握手建立TCP连接；

步骤二，SSL/TLS握手阶段，通信双方以明文方式发送ClientHello、ServerHello、Client Key Exchange等握手消息，协商加密参数；

步骤三，通信双方使用协商好的加密参数传输后续数据。

因此，在SSL/TLS握手阶段，可以获得一些特征：从ClientHello中获取SSL/TLS版本、提供的密码套件的列表和数量以及扩展的列表和数量。从ServerHello中获取SSL/TLS版本、选择的密码套件、扩展的数量和列表。从ServerHello中也可提取到证书特征，证书特征包括证书的数量、公钥的大小、第一个证书的长度、扩展的数量、签名密钥的大小以及主题和颁发者的长度。此外，从Client Key Exchange中获得客户端密钥的大小。SSL/TLS协议通常使用346个密码套件和31个扩展，因此，本发明实施例将密码套件列表转换为长度为346的二进制向量，若存在某密码套件，则将密码套件向量中对应位置设为1，不存在的密码套件位置设为0。以同样的方式，扩展列表被转换为长度为31的二进制向量。最终，得到了一个大小为422的TLS握手特征向量。最终，我们得到了一个大小为U的统计特征向量S。

经过上述处理后的样本集按照0.6，0.2，0.2的比例划分训练集、验证集和测试集。

在一个实施例中，上述步骤S2：将训练集中原始字节和统计特征向量输入恶意HTTPs流量分类模型FA-net中，得到恶意软件流量分类的概率分布；其中，FA-net包括：原始字节特征提取模块RF-net用于提取原始字节的代表特征F_r、统计特征提取模块SF-net用于提取统计特征的重构特征F_s和特征结合模块C-net用于将F_r和F_s经过注意力机制后结合得到结合特征F_c，F_c经过全连接层和softmax层后，输出网络恶意流量概率分布，具体包括：

步骤S21：将原始字节f_1:m输入原始字节特征提取模块RF-net，原始字节特征提取模块RF-net包括2个卷积层和1个全连接层，输出一个多维的代表特征F_r；

将原始字节f_1:m视为一个带有m个通道的特殊图像，每个通道的大小为k×k，其中n＝k×k，其中，m为原始字节f_1:m的前m个数据包，n为每个数据包的前n个字节。然后将特殊图像输入由两个卷积层和一个全连接层组成的原始字节特征提取模块RF-net，如图2所示，其结构如下：

(1)卷积层1有64个卷积核，大小为(3,3)，步长为1，卷积层1使用同样的填充是为了尽可能多地提取边界信息。该卷积层捕获原始字节f_1:m中不同数据包之间的相关性，这对于区分恶意软件流量至关重要。

(2)卷积层2有32个卷积核，大小为(3,3)，步长为1，卷积层2不使用填充。该层旨在捕获更具代表性的特征。

(3)卷积层2的输出被展平并输入到一个大小为(t₁:200)的全连接层，其中t₁是展平后向量的大小。最后，RF-net的输出是一个200维的向量，即F_r。

本发明实施例的RF-net模块的每个卷积层后面都有一个最大池化层，以避免过拟合并保证旋转不变性。

步骤S22：将统计特征向量S输入统计特征提取模块SF-net，统计特征提取模块SF-net包括：由编码器和解码器构成的自动编码器，编码器和解码器均由四个全连接层组成，将S输入编码器，得到重构特征F_s，如公式(2)所示：

F_s＝encoder(S) (2)

然后将F_s输入到解码器中，S经过重构得到S′，如公式(3)所示：

S′＝decoder(F_s) (3)

统计特征提取模块SF-net中的自动编码器(AE)是一种通过重构输入来学习判别特征的无监督方法，本发明实施例使用自动编码器从统计特征向量S中提取重构特征F_s。自编码器由编码器和解码器组成。如图2所示，编码器和解码器都分别由四个全连接层组成，八个全连接层的大小为(U,500),(500,400),(400,300),(300,200),(200,300),(300,400),(400,500),(500,U)，其中U为统计特征向量S的大小。

步骤S23：将F_r和F_s输入特征结合模块C-net，特征结合模块C-net包括：两个注意力层，一个全连接层和一个softmax层；F_r和F_s利用注意力机制来为每个子特征赋予不同的权重得到分类特征F_ra和F_sa，如公式(4)～(7)所示：

其中，

和

是F_r和F_s的第i个子特征，Q_r和Q_s是查询向量，每个的大小是20，对其进行随机初始化；β_i是F_r的第i个子特征的权重，λ_i是F_s的第i个子特征的权重；

最终的结合后的特征为F_c如公式(8)所示：

F_c＝α×F_ra+(1-α)×F_sa (8)

其中，α是调节因子；

将F_c输入全连接层，其大小为(20,V)，其中，V是恶意软件流量种类数量；最后经过softmax层输出恶意软件流量分类的概率分布q(·)。

特征结合模块C-net的目标是将原始字节的代表性特征F_r和统计特征的代表性特征F_s有效地结合起来得到F_c。如图2所示，C-net由两个注意力层，一个全连接层和一个softmax层组成。C-net的输入是F_r和F_s，本发明实施例中的F_r和F_s都由10个子特征向量组成，且每个子向量的大小都为20。由于，并非所有子特征对最终的最佳分类特征表示的贡献都相同，因此，本发明实施例采用注意力机制来为每个子特征赋予不同的权重来得到最佳的分类特征F_ra和F_sa。F_ra和F_sa利用体现原始字节特征的重视程度的调节因子α，计算得到结合后的特征F_c。最后，F_c经过大小为(20,V)的全连接层以及softmax层，最终的输出是一个网络恶意流量概率分布q(·)。

在一个实施例中，上述步骤S3：构建总体损失函数用于训练FA-net；其中，总体损失函数包括：分类损失函数和重构损失函数，具体包括：

步骤S31：构建分类损失L_C，如公式(9)所示：

其中，N是样本数，V是恶意软件流量种类数量，p(·)是真实概率分布，q(·)是预测概率分布；

是第i个样本被预测为第j类的概率；

步骤S32：构建重构损失函数L_R，如公式(10)所示：

其中，s_ij和s′_ij是第i个样本的S和S′的第j个元素；

步骤S33：构建总体损失函数L，如公式(11)所示：

L＝L_C+L_R (11)。

训练FA-net模型的原则是使分类损失和重构损失尽可能地小。训练阶段使用训练集初步训练FA-net模型参数，训练轮次train_epoch设置为50，训练train_epoch次后停止训练；验证阶段使用验证集对模型参数调优，验证轮次valid_epoch设置为30，decay_num设置为10，如果模型损失连续下降decay_num次，就停止验证阶段，如果不能连续下降decay_num次，当达到valid_epoch次后停止验证阶段，停止验证阶段后，即得到了最优的FA-net模型；测试阶段使用测试集测试最优FA-net模型的准确率。使用PyTorch深度模型框架搭建FA-net模型。训练阶段和验证阶段的优化器都为Adam优化器，学习率设置为0.001。

本发明公开了一种基于注意力机制的网络恶意流量识别方法，结合统计特征和原始字节对恶意HTTPs流量进行分类，通过融合统计特征的全局特征和原始字节的深层代表特征实现更高精度的流量识别，解决了现有技术往往只利用统计特征或者原始字节的问题。本发明利用自动编码器重构统计特征以获得统计特征的重构特征。针对不同的统计特征和原始字节特征对最终的识别效果影响不同的问题，本发明利用注意力机制为不同的统计特征和原始字节特征分配不同的权重，并且利用调节因子α更有效地结合统计特征和原始字节特征。

实施例二

如图3所示，本发明实施例提供了一种基于注意力机制的网络恶意流量识别系统，包括下述模块：

构建样本集模块41，用于采集网络流量，提取原始字节和统计特征向量，构建样本集，按照预设比例划分训练集，验证集和测试集；

构建恶意HTTPs流量分类模型模块42，用于将训练集中原始字节和统计特征向量输入恶意HTTPs流量分类模型FA-net中，得到恶意软件流量分类的概率分布；其中，FA-net包括：原始字节特征提取模块RF-net用于提取原始字节的代表特征F_r、统计特征提取模块SF-net用于提取统计特征的重构特征F_s和特征结合模块C-net用于将F_r和F_s经过注意力机制后结合得到结合特征F_c，F_c经过全连接层和softmax层后，输出网络恶意流量概率分布；

构建损失函数模块43，用于构建总体损失函数用于训练FA-net；其中，总体损失函数包括：分类损失函数和重构损失函数。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于注意力机制的网络恶意流量识别方法，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制的网络恶意流量识别方法，其特征在于，所述步骤S1：采集网络流量，提取原始字节和统计特征向量，构建样本集，按照预设比例划分训练集，验证集和测试集，具体包括：

步骤S11：提取所述网络数据流中的原始字节f_1：m，所述原始字节包括：一条所述网络数据流的前m个数据包和每个数据包的前n个字节；

U＝685+2m (1)。

3.根据权利要求1所述的基于注意力机制的网络恶意流量识别方法，其特征在于，所述步骤S2：将所述训练集中所述原始字节和所述统计特征向量输入恶意HTTPs流量分类模型FA-net中，得到恶意软件流量分类的概率分布；其中，FA-net包括：原始字节特征提取模块RF-net用于提取所述原始字节的代表特征F_r、统计特征提取模块SF-net用于提取统计特征的重构特征F_s和特征结合模块C-net用于将F_r和F_s经过注意力机制后结合得到结合特征F_c，F_c经过全连接层和softmax层后，输出网络恶意流量概率分布，具体包括：

步骤S21：将所述原始字节f_1：m输入所述原始字节特征提取模块RF-net，所述原始字节特征提取模块RF-net包括2个卷积层和1个全连接层，输出一个多维的代表特征F_r；

步骤S22：将所述统计特征向量S输入所述统计特征提取模块SF-net，所述统计特征提取模块SF-net包括：由编码器和解码器构成的自动编码器，所述编码器和所述解码器均由四个全连接层组成，将S输入所述编码器，得到重构特征F_s，如公式(2)所示：

F_s＝encoder(S) (2)

然后将F_s输入到所述解码器中，S经过重构得到S′，如公式(3)所示：

S′＝decoder(F_s) (3)

步骤S23：将F_r和F_s输入所述特征结合模块C-net，所述特征结合模块C-net包括：两个注意力层，一个全连接层和一个softmax层；F_r和F_s利用注意力机制来为每个子特征赋予不同的权重得到分类特征F_ra和F_sa，如公式(4)～(7)所示：

其中，

和

是F_r和F_s的第i个子特征，Q_r和Q_s是查询向量；β_i是F_r的第i个子特征的权重，λ_i是F_s的第i个子特征的权重；

最终的结合后的特征为F_c如公式(8)所示：

F_c＝α×F_ra+(1-α)×F_sa (8)

其中，α是调节因子；

将F_c输入全连接层，其大小为(20，V)，其中，V是恶意软件流量种类数量；最后经过softmax层输出恶意软件流量分类的概率分布q(·)。

4.根据权利要求1所述的基于注意力机制的网络恶意流量识别方法，其特征在于，所述步骤S3：构建总体损失函数用于训练FA-net；其中，所述总体损失函数包括：分类损失函数和重构损失函数，具体包括：

步骤S31：构建分类损失L_C，如公式(9)所示：

是第i个样本被预测为第j类的概率；

步骤S32：构建重构损失函数L_R，如公式(10)所示：

其中，s_ij和s′_ij是第i个样本的S和S′的第j个元素；

步骤S33：构建总体损失函数L，如公式(11)所示：

L＝L_C+L_R (11)。

5.一种基于注意力机制的网络恶意流量识别系统，其特征在于，包括下述模块：

构建样本集模块，用于采集网络流量，提取原始字节和统计特征向量，构建样本集，按照预设比例划分训练集，验证集和测试集；

构建恶意HTTPs流量分类模型模块，用于将所述训练集中所述原始字节和所述统计特征向量输入恶意HTTPs流量分类模型FA-net中，得到恶意软件流量分类的概率分布；其中，FA-net包括：原始字节特征提取模块RF-net用于提取所述原始字节的代表特征F_r、统计特征提取模块SF-net用于提取统计特征的重构特征F_s和特征结合模块C-net用于将F_r和F_s经过注意力机制后结合得到结合特征F_c，F_c经过全连接层和softmax层后，输出网络恶意流量概率分布；

构建损失函数模块，用于构建总体损失函数用于训练FA-net；其中，所述总体损失函数包括：分类损失函数和重构损失函数。