CN112367334A

CN112367334A - 网络流量识别方法、装置、电子设备和存储介质

Info

Publication number: CN112367334A
Application number: CN202011324405.2A
Authority: CN
Inventors: 蔡利君; 刘玮琦; 马建刚; 赵力欣; 于爱民; 孟丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-12

Abstract

本发明提供一种网络流量识别方法、装置、电子设备和存储介质，其中方法包括：将待识别的网络数据包序列进行预处理，得到若干条数据流；将每一条数据流输入至网络流量识别模型，得到网络流量识别模型输出的每一条数据流的流量识别结果；其中，网络流量识别模型是基于样本数据流及其样本流量类型训练得到的；网络流量识别模型用于提取每一条数据流的时空特征，并基于时空特征对每一条数据流进行流量识别；其中时空特征可以通过卷积神经网络和循环神经网络提取得到，或通过卷积神经网络和时序卷积网络提取得到。本发明提供的网络流量识别方法、装置、电子设备和存储介质，充分利用了数据包之间的时序关系以及空间特征，提高了流量识别的准确性。

Description

网络流量识别方法、装置、电子设备和存储介质

技术领域

本发明涉及网络安全技术领域，尤其涉及一种网络流量识别方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的迅速发展，网络威胁以及目前网络所面临的风险日益加剧。尤其近年来网络攻击事件频发，互联网上的木马、蠕虫、勒索病毒、会话劫持、拒绝服务攻击、信息流监视、协议指纹等攻击手段层出不穷，互联网安全形势依然严峻，因此需要一种有效的网络流量识别方法以提前辨识出恶意的流量。

目前对网络流量识别的研究主要是基于流量特征和基于流量内容两大类。例如，1980年，Anderson等人首次提出入侵检测技术这一概念，入侵检测的提出就是为了发现任何有破坏主机系统的行为。而异常检测的关键是要寻找有效的检测算法对网络样本数据进行分析。Heberlein等人在1990年提出了一种网络监视器(Network Security Monitor,NSM)用于检测网络流量数据。该系统使用一种网络资源使用的概要文件，并将当前使用的网络模式与历史概要文件进行对比从而发现可能违规的安全现象。Zhang等人将随机森林的算法应用与网络入侵检测系统中。其方法是通过使用随机森林算法在网络流上构建模型实现的。该算法是基于无监督的学习方法，从而解决了监督学习中对标签依赖的问题。

2010年，Li等人通过对网络流量进行分析检测，提出了一种基于阈值的网络流量异常检测方法。该算法通过统计多点异常来设定入侵检测报警阈值。Shreekhand等使用RP(随机森林)和MLP(多层感知机)分别对CICIDS2017数据集中的80个特征对正常流量和DoS攻击流量进行了二分类。Yao等提出了一种基于图的特征学习算法来表示主机上的网络流关系，并通过特征评估程序来选择揭示良性和攻击性网络流不同模式的重要特征。Hou等提取了NetFlow数据中基于流的特征和基于模式的特征，使用随机森林以及降采样的方法对DDoS进行了检测。Yepeng Yao等提出了一种系统地将图核与深度学习技术相结合的方法，对低强度的网络攻击流量进行识别。使用了图核特征和流统计特征分别作为不同神经网络的输入。在输出层对两者的结果进行加权作为最终的输出。Mohammad Lotfollahi等提出了一种深度包检测，将数据包送入嵌入叠层自动编码器和卷积神经网络的深层数据包框架中，对网络流量进行分类。Fang Feng等提出了一种即插即用设备来检测拒绝服务攻击和隐私攻击，该设备包括捕获攻击和深度神经网络(DNN)，利用深度神经网络(DNN)检测模型检测DoS攻击。

总体而言，现有的网络流量识别方法主要分为：基于端口的识别方法，基于深度包检测的识别方法，基于传统的机器学习识别方法(基于统计的识别方法和基于行为的识别方法)。

其中，基于端口的方法只需通过传输层的端口号识别，互联网编号管理机构(IANA,Internet Assigned Numbers Authority)会为每一项应用分配一个公开且固定的端口号。如：http的80端口，dns的53号端口。然而，随着新应用的数量越来越多，很多应用不再使用可查询的固定端口号，尤其是近几年流行的P2P应用，普遍采用随机端口的策略。另外，为了躲避入侵检测系统或者防火墙的检测，一些应用开始使用端口伪装技术。再加上NAT的使用，使得通过端口来识别流量的方法准确性较低，此方法已经变得不可行。

随着基于端口的方法识别网络流量的准确率不断下降，研究人员逐渐探索出一种基于深度包检测分类方法。该方法首先预定义一些固定字符串或字符串模式，建立指纹库，通过检查网络流中的数据包头部以及载荷内容，与预定义的指纹库采用正则表达式的方式进行匹配，从而判定所属流量类别。但是该方法无法处理加密流量且计算复杂度较高。

基于传统机器学习的方法主要包含以下两种，分别是基于统计的方法和基于行为的方法。其中，基于统计的方法利用不同类型的应用所产生的流量特征不同的特点，通过提取一些重要特征的特征数据，输入到某种机器学习模型中进行训练，如：支持向量机(SVM,Support Vector Machine)，随机森林(RF,Random Forests)等。训练好的模型可以学习到不同流量特征之间的区别。但是该方法需要基于专家知识选择合适的流量特征集，另外在准确性方面，该方法不如深度包检测的方法高。而基于行为的方法通过使用流量特征学习主机之间的通信行为。例如，一台主机与其他多个主机的通信情况，分别采用的协议以及端口等。该方法的基本思想是不同应用所产生的行为模式不同。例如，P2P应用使用不同的端口与不同的主机进行通信，而web应用的通信端口则较为固定。但是，该方法的缺点同基于统计的方法，依赖于专家对网络攻击特征的广泛了解，为了提高流量分类性能，需要设计一组合适的流量特征集。

发明内容

本发明提供一种网络流量识别方法、装置、电子设备和存储介质，用以解决现有技术中流量识别准确性不高的缺陷。

本发明提供一种网络流量识别方法，包括：

将待识别的网络数据包序列进行预处理，得到若干条数据流；

将每一条数据流输入至网络流量识别模型，得到所述网络流量识别模型输出的每一条数据流的流量识别结果；

其中，所述网络流量识别模型是基于样本数据流及其样本流量类型训练得到的；

所述网络流量识别模型用于提取每一条数据流的时空特征，并基于所述时空特征对每一条数据流进行流量识别；其中所述时空特征可以通过卷积神经网络和循环神经网络提取得到，或通过卷积神经网络和时序卷积网络提取得到。

根据本发明提供的一种网络流量识别方法，所述将每一条数据流输入至网络流量识别模型，得到所述网络流量识别模型输出的每一条数据流的流量识别结果，具体包括：

将任一数据流输入至所述网络流量识别模型的空间特征提取层，得到所述空间特征提取层输出的所述任一数据流中每一数据包的空间特征；

将所述任一数据流中每一数据包的空间特征按照时间排序后，输入至所述网络流量识别模型的时序特征提取层，得到所述时序特征提取层输出的所述任一数据流的时空特征；

将所述任一数据流的时空特征输入至所述网络流量识别模型的流量识别层，得到所述流量识别层输出的所述任一数据流的流量识别结果。

根据本发明提供的一种网络流量识别方法，所述空间特征提取层可以基于卷积神经网络构建得到，所述时序特征提取层可以基于长短时记忆网络或时序卷积网络构建得到。

根据本发明提供的一种网络流量识别方法，所述网络流量识别模型的损失函数是基于每一条样本数据流的流量识别结果中对应样本流量类型的概率、调制指数以及每一流量类型的类型权重确定的；其中，所述调制指数用于抑制简单样本数据流的损失和放大困难样本数据流的损失。

根据本发明提供的一种网络流量识别方法，任一流量类型的类型权重是基于所述任一流量类型对应的样本数据流数量以及所有流量类型的样本数据流的总量确定的。

根据本发明提供的一种网络流量识别方法，所述网络流量识别模型的损失函数为：

FL＝-α_t(1-p_t)^γlog(p_t)

α_t＝num_t/num_all

其中，t为任一样本数据流的样本流量类型，p_t为网络流量识别模型对所述任一样本数据流进行流量识别后计算得到的对应类型t的概率，num_t为属于类型t的样本数据流的数量，num_all为所有流量类型的样本数据流的总量。

根据本发明提供的一种网络流量识别方法，所述将待识别的网络数据包序列进行预处理，得到若干条数据流，具体包括：

对所述待识别的网络数据包序列进行切流，将具有相同五元组信息的数据包划分到同一数据流中，得到若干条数据流；

其中，所述五元组信息包括源IP、源端口、目的IP、目的端口和协议。

本发明还提供一种网络流量识别装置，包括：

数据预处理单元，用于将待识别的网络数据包序列进行预处理，得到若干条数据流；

流量识别单元，用于将每一条数据流输入至网络流量识别模型，得到所述网络流量识别模型输出的每一条数据流的流量识别结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述网络流量识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述网络流量识别方法的步骤。

本发明提供的网络流量识别方法、装置、电子设备和存储介质，利用深度学习机制，通过卷积神经网络和循环神经网络的组合或卷积神经网络和时序卷积网络的组合自动提取每一条数据流的时空特征，并基于每一条数据流的时空特征进行流量识别，充分利用了数据包之间的时序关系以及空间特征，提高了流量识别的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的网络流量识别方法的流程示意图；

图2为本发明提供的网络流量模型的训练和测试方法的流程示意图；

图3为本发明提供的网络流量识别装置的结构示意图；

图4为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的网络流量识别方法的流程示意图，如图1所示，该方法包括：

步骤110，将待识别的网络数据包序列进行预处理，得到若干条数据流；

步骤120，将每一条数据流输入至网络流量识别模型，得到网络流量识别模型输出的每一条数据流的流量识别结果；

其中，网络流量识别模型是基于样本数据流及其样本流量类型训练得到的；

网络流量识别模型用于提取每一条数据流的时空特征，并基于时空特征对每一条数据流进行流量识别；其中所述时空特征可以通过卷积神经网络和循环神经网络提取得到，或通过卷积神经网络和时序卷积网络提取得到。

具体地，将待识别的网络数据包序列进行数据预处理，将其切分成若干条数据流，并以数据流为单位进行网络流量识别。本发明实施例考虑到深度学习可以直接从原始数据中自动学习特征，可以避免传统机器学习方法需要人工设计特征的问题，因此基于深度学习机制构建了网络流量识别模型。将每一条数据流输入至网络流量识别模型后，网络流量识别模型会对每一条数据流进行特征提取，并基于提取得到的数据包特征进行流量识别。

目前的网络流量识别方法在提取网络流量的特征时，通常采用的是包长度、包的间隔时间、每秒钟数据流的比特数、数据流的持续时间或者数据流内数据包的内容等。然而，本发明实施例考虑到网络数据流中数据包与数据包之间存在时间的先后关系，而数据包之间的时序关系作为网络流量的重要特征，可以有效提高网络流量识别的准确性，尤其是对DoS攻击进行检测时，数据包的时序关系起着重要作用。因此，在将数据流输入到网络流量识别模型后，网络流量识别模型提取了每条数据流的时空特征，并基于每条数据流的时空特征进行流量识别，得到每条数据流的流量识别结果。其中，数据流的时空特征中包含有该数据流中每个数据包的空间特征以及数据包与数据包之间的时序关系。数据流的流量识别结果可以包括该数据流是否为攻击流量，也可以包括该数据流的具体流量类型，本发明实施例对此不作具体限定。

另外，网络流量识别模型在提取数据流的时空特征时，可以通过卷积神经网络和循环神经网络进行特征提取，还可以通过卷积神经网络和时序卷积网络进行特征提取。其中，卷积神经网络可以有效提取数据流中每一数据包的空间特征，循环神经网络和时序卷积网络均可以提取数据包之间的时序特征，并且时序卷积网络对于时序特征的提取效果相对于循环神经网络更好。

在执行步骤120之前，还可以预先训练得到网络流量识别模型，具体可以通过如下方式训练得到网络流量识别模型：首先，收集大量样本数据流，并确定样本数据流的样本流量类型。随即，基于样本数据流及其样本流量类型训练初始模型，从而得到网络流量识别模型。

本发明实施例提供的方法，利用深度学习机制，通过卷积神经网络和循环神经网络的组合或卷积神经网络和时序卷积网络的组合自动提取每一条数据流的时空特征，并基于每一条数据流的时空特征进行流量识别，充分利用了数据包之间的时序关系以及空间特征，提高了流量识别的准确性。

基于上述实施例，步骤120具体包括：

将任一数据流输入至网络流量识别模型的空间特征提取层，得到空间特征提取层输出的该数据流中每一数据包的空间特征。

具体地，空间特征提取层用于提取任一数据流中每一数据包的空间特征。其中，空间特征提取层可以基于卷积神经网络(Convolutional Neural Networks,CNN)构建得到。此处，卷积神经网络可以将每条数据流视为一张图，而将数据流中的数据包视为该图中的像素进行特征提取，得到每个数据包的空间特征。

使用CNN提取数据包的空间特征时，可以使用卷积核W与数据包对应的二维矩阵X进行卷积操作，其中可以将数据流中的数据包利用独热(One-hot)向量，将数据流中的数据包处理成对应的二维矩阵形式。

将二维矩阵X输入至CNN网络后，计算其对应的输出向量，即每一数据包的空间特征。其中，可采用如下公式计算每一数据包的空间特征：

Q＝Fn(…(F2(F1(XW(1))W(2))…)W(n))

具体如下：

其中，F1、F2、…、Fn分别是每一层CNN神经网络的变换函数f；W(1)、W(2)、…、W(n)是权重参数，即卷积运算的过滤器；i和j分别是二维矩阵X的横纵坐标，过滤器w(m,n)中的m和n分别为过滤器w的长和宽。

将该数据流中每一数据包的空间特征按照时间排序后，输入至网络流量识别模型的时序特征提取层，得到时序特征提取层输出的该数据流的时空特征。

具体地，将该数据流中的每一数据包的空间特征按照时间排序后，一起输入到时序特征提取层。此处，时序特征提取层用于基于按照时间顺序排序后的每一数据包的空间特征，提取各个数据包之间的时序关系，得到该数据流的时空特征。其中，时序特征提取层可以基于长短时记忆网络或时序卷积网络构建得到。

由于基础的循环神经网络(Recurrent Neural Network,RNN)隐含层的输入随着时间的递推会覆盖之前的数据信息，容易丢失上下文信息，从而导致长时依赖知识的学习结果出现偏差。而数据流中数据包的数量较多，在提取数据包之间的时序关系时，存在长时依赖问题，因此本发明实施例在构建时序特征提取层时，采用的是长短时记忆网络(LongShort-Term Memory，LSTM)或时序卷积网络(Temporal Convolutional Network，TCN)，以解决长时依赖问题，提高数据包之间时序特征提取的准确性和完整性。

若采用LSTM提取数据流的时空特征，LSTM前项传播计算公式如下，对于某一时刻的输入q_t，首先通过遗忘门获得此部分输出为：

f_t＝σ(W_f*[h_t-1,q_t]+b_f)

其中，σ是激活函数；W_f是遗忘门权重参数；h_t-1是上一时刻隐藏层的输出；b_f是遗忘门偏置值。

q_t在输入门上的输出如下：

i_t＝σ(W_i·[h_t-1,q_t]+b_i)

其中，W_i是信息门权重系数；b_i是信息门偏置值；W_c是细胞门权重系数。

细胞门状态C_t计算如下：

其中，C_t-1是上一时刻的细胞门状态。

最后计算每个细胞元隐含层的输出：

o_t＝σ(W_o·[h_t-1,q_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，W_o是输出门权重系数；b_o是输出门偏置值。

最终将每一个包在隐含层的输出，作为该数据流的时空特征。

还可以利用TCN提取数据流的时空特征。其中，TCN具有以下两个特征：1)结构上的卷积是因果关系，即对过去的信息不会遗漏，类似于RNN；2)TCN可以输入任意长度的序列，并将其映射到具有相同长度的输出序列。

假设TCN的输入序列如下：

Q＝{q₁,q₂,q₃,q₄,…,q_t}

得到的对应的输出为：

Y＝{y₁,y₂,y₃,y₄,…,y_t}

整体架构公式如下：

Y＝1D FCN+F(q_t)

其中，FCN是对图像进行像素级的分类，与传统的CNN不同的是，CNN使用全连接层得到固定长度的特征向量，而FCN可以接收任意尺寸的输入图像。传统的CNN前5层是卷积层，后三层是长度不一的一维向量，而FCN将最后这三层表示为卷积层，故称为全卷积网络。

1D FCN是为了防止网络退化，让网络产生恒等映射而增加的，故：

1D FCN＝1×1Conv＝x

对于一维的输入序列Q＝(q₁,q₂,…q_t)，滤波器为F＝(f₁,f₂,…,f_K)，则q_t处膨胀率为d时的空洞卷积为：

其中，K是卷积核大小，d是膨胀系数，q_t-(K-k)d是过去的数据信息，空洞卷积的感受野大小为(K-1)d+1。

将该数据流的时空特征输入至网络流量识别模型的流量识别层，得到流量识别层输出的该数据流的流量识别结果。

具体地，流量识别层用于基于该数据流的时空特征，对该数据流进行分类，从而得到该数据流的流量识别结果。其中，流量识别层可以基于Softmax分类器构建得到。

现有深度学习模型通常会采用降采样等方法使样本数据均衡，然后将样本输入到神经网络中进行处理。然而，在网络流量识别领域，现实中的网络流量中正常流量与异常流量的分布是极其不均衡的，对于分布不均衡的样本，使用以上方法表现非常差，在实际进行流量识别时，属于样本数量较少的类别的数据流会被错误地分到样本数据量大的类别中，导致流量识别准确性大幅降低。

另外，在真实的网络流量中，即使是正常的网络流量，各个样本也具有很大的差异。一些样本容易被识别而一些样本特征不够明显，不易识别。然而，现有的网络流量识别的方法均忽略了网络数据流中由于样本识别的难易程度不同导致分类效果差的问题。

对此，基于上述任一实施例，网络流量识别模型的损失函数是基于每一条样本数据流的流量识别结果中对应样本流量类型的概率、调制指数以及每一流量类型的类型权重确定的；其中，调制指数用于抑制简单样本数据流的损失和放大困难样本数据流的损失。

具体地，在利用网络流量识别模型进行实际的流量识别之前，可以为其设置一个损失函数，利用该损失函数不断调整网络流量识别模型中的各个参数，直至损失函数收敛，得到训练好的网络流量识别模型。

考虑到网络流量中不同类别的样本数据流的数量不均衡，设计损失函数时，在每一条样本数据流的流量识别结果中对应样本流量类型的概率基础上，可以为每一种流量类型设置对应的类型权重，来平衡不同类别样本数据流的数量差别较大带来的样本不均衡问题。其中，任一流量类型的类型权重用于调整该流量类型的样本数据流的损失在所有样本数据流的损失中的比重。

此外，仅靠类型权重来解决样本不平衡问题的效果不够理想，因为虽然表面上是样本不均衡导致模型训练效果欠佳，但实质上导致效果不好的原因并非简单地因为样本数量不均衡，还因为样本中存在一些困难样本(Hard Example)，同时存在大量的简单样本(Easy Example)。其中，困难样本是指特征不明显，不易识别的样本，而简单样本则是易于识别的样本。对于简单样本而言，虽然该类样本容易被分类器分辨，损失较小，但是由于其数量大，这些简单样本的损失累积起来之后，依然大于困难样本的损失，导致模型在训练过程中难以学到困难样本的特征，对于困难样本的识别准确性较低。因此，在设计损失函数时，还可以设置一个调制指数，用于抑制简单样本数据流的损失，并相应放大困难样本数据流的损失，以克服样本识别的难易程度不同导致分类效果差的问题。

本发明实施例提供的方法，基于每一条样本数据流的流量识别结果中对应样本流量类型的概率、调制指数以及每一流量类型的类型权重，确定网络流量识别模型的损失函数，平衡了不同类别样本数据流的数量差别较大带来的样本不均衡问题，克服了样本识别的难易程度不同导致分类效果差的问题。

基于上述任一实施例，任一流量类型的类型权重是基于该流量类型对应的样本数据流数量以及所有流量类型的样本数据流的总量确定的。

具体地，在设置每一流量类型的类型权重时，本发明实施例没有将每一流量类型的类型权重设置为一个固定的数值，而是基于任一流量类型对应的样本数据流数量以及所有流量类型的样本数据流的总量，确定该流量类型的类型权重。此处，根据任一流量类型对应的样本数据流数量和所有样本数据流的总量，动态确定该流量类型的类型权重，可以在获取的样本发生变动，导致某一流量类型或某几种流量类型的样本数据流数量发生变化时，进行类型权重的自适应调整，提升损失函数的灵活性。

本发明实施例提供的方法，基于任一流量类型对应的样本数据流数量以及所有流量类型的样本数据流的总量，动态确定该流量类型的类型权重，提升了损失函数的灵活性。

基于上述任一实施例，网络流量识别模型的损失函数为：

FL＝-α_t(1-p_t)^γlog(p_t)

α_t＝num_t/num_all

其中，t为任一样本数据流的样本流量类型，p_t为网络流量识别模型对该样本数据流进行流量识别后计算得到的对应类型t的概率，num_t为属于类型t的样本数据流的数量，num_all为所有流量类型的样本数据流的总量。

具体地，本发明实施例中给出的损失函数是基于交叉熵损失函数改进得到的。其中，传统的交叉熵损失函数如下：

有N个样本，输入一个C分类器，得到的输出为X∈R^N×C，共有C类；其中某个样本的输出记为x∈R^1×C，即x[j]是x的某个行向量，那么交叉熵损失可以写成如下公式：

其中class∈[0,C)是这个样本的类标签，若为每一类型的类标签设置类型权重向量W∈R^1×C，那么带类型权重的交叉熵损失可以更改为如下公式：

其中，W[class]为class这一类型的类型权重。

最终可以对N个样本的损失求和或者求平均：

在交叉熵损失的基础上，网络流量识别模型的损失函数可以基于如下方式构建得到：

令一个C类分类器的输出为y∈R^C×1，定义函数f将输出y转为概率值p＝f(y)，当样本的类标签为t时，记为p_t＝p[t]，表示分类器z测为t类的概率，结合上面的交叉熵损失，可以定义：

FL＝-(1-p_t)log(p_t)

其中，在交叉熵损失前加了一个权重(1-p_t)，该权重与样本预测的概率相关，可以用于抑制简单样本数据流的损失，并相应放大困难样本数据流的损失。为了更好地控制前面权重的大小，还可以为该权重添加一个指数γ，即将上式更改为：

FL＝-(1-p_t)^γlog(p_t)

其中γ取值为0时与交叉熵损失等价，γ越大，就越抑制简单样本的损失，并相应越放大困难样本的损失。同时，为解决样本类型不平衡的问题，可以再给上式添加一个类型的权重α_t：

FL＝-α_t(1-p_t)^γlog(p_t)

α_t＝num_t/num_all

基于上述任一实施例，步骤110具体包括：

对待识别的网络数据包序列进行切流，将具有相同五元组信息的数据包划分到同一数据流中，得到若干条数据流；

其中，五元组信息包括源IP、源端口、目的IP、目的端口和协议。

具体地，将待识别的网络数据包序列按照五元组信息进行切流，将五元组信息相同的数据包划分道同一数据流中，得到若干条数据流。

原始的待识别网络数据包序列中的所有数据包集合用集合P表示，每个数据包用pⁱ来表示，则：

P＝{p¹,…,p^|P|}

pⁱ＝(xⁱ,X,tⁱ)

i＝1,2,…,|P|,tⁱ∈[0,∞)

其中，xⁱ表示包的五元组信息，X是该数据包的内容，以二维数组的格式表示，tⁱ表示包开始发送的时间。

基于上述任一实施例，图2为本发明实施例提供的网络流量模型的训练和测试方法的流程示意图，如图2所示，该方法包括：

首先对收到的PCAP数据包文件进行预处理，将其中的每一条数据流提取出来，作为训练和测试样本数据。其中数据流是指具有相同五元组(源IP、源端口、目的IP、目的端口、协议)的所有包。然后将每一条流中的每一个包利用One-hot技术处理成二位矩阵的形式，来模拟一张图片，作为卷积神经网络CNN的输入。通过CNN来提取每一条数据流中每一个数据包的空间特征。将一条数据流中的数据包的空间特征按照时间序列排序后，分别作为LSTM和TCN的输入。再将LSTM或TCN输出的每条数据流的时空特征输入到Softmax分类器中，通过softmax函数计算流量类型，将其与真实的类型标签进行对比并计算损失，以不断调整网络权重，直至网络收敛。

在测试阶段，测试样本的原始数据仍然是pcap包，通过将pcap包进行切流，得到多种类别的数据流样本，包含正常流样本以及其他多种类别的攻击数据流样本。将这些样本随机打乱顺序，输入到训练好的模型中，输出每一样本对应的流量类型，与真实的类型标签进行对比，并使用混淆矩阵输出检测结果。

下面对本发明提供的网络流量识别装置进行描述，下文描述的网络流量识别装置与上文描述的网络流量识别方法可相互对应参照。

基于上述任一实施例，图3为本发明实施例提供的网络流量识别装置的结构示意图，如图3所示，该装置包括：数据预处理单元310和流量识别单元320。

其中，数据预处理单元310用于将待识别的网络数据包序列进行预处理，得到若干条数据流；

流量识别单元320用于将每一条数据流输入至网络流量识别模型，得到网络流量识别模型输出的每一条数据流的流量识别结果；

本发明实施例提供的装置，利用深度学习机制，通过卷积神经网络和循环神经网络的组合或卷积神经网络和时序卷积网络的组合自动提取每一条数据流的时空特征，并基于每一条数据流的时空特征进行流量识别，充分利用了数据包之间的时序关系以及空间特征，提高了流量识别的准确性。

基于上述任一实施例，流量识别单元320具体用于：

将任一数据流输入至网络流量识别模型的空间特征提取层，得到空间特征提取层输出的该数据流中每一数据包的空间特征；

将该数据流中每一数据包的空间特征按照时间排序后，输入至网络流量识别模型的时序特征提取层，得到时序特征提取层输出的该数据流的时空特征；

基于上述任一实施例，网络流量识别模型的损失函数是基于每一条样本数据流的流量识别结果中对应样本流量类型的概率、调制指数以及每一流量类型的类型权重确定的；其中，调制指数用于抑制简单样本数据流的损失和放大困难样本数据流的损失。

本发明实施例提供的装置，基于每一条样本数据流的流量识别结果中对应样本流量类型的概率、调制指数以及每一流量类型的类型权重，确定网络流量识别模型的损失函数，平衡了不同类别样本数据流的数量差别较大带来的样本不均衡问题，克服了样本识别的难易程度不同导致分类效果差的问题。

本发明实施例提供的装置，基于任一流量类型对应的样本数据流数量以及所有流量类型的样本数据流的总量，动态确定该流量类型的类型权重，提升了损失函数的灵活性。

基于上述任一实施例，网络流量识别模型的损失函数为：

FL＝-α_t(1-p_t)^γlog(p_t)

α_t＝num_t/num_all

基于上述任一实施例，数据预处理单元310具体用于：

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行网络流量识别方法，该方法包括：将待识别的网络数据包序列进行预处理，得到若干条数据流；将每一条数据流输入至网络流量识别模型，得到所述网络流量识别模型输出的每一条数据流的流量识别结果；其中，所述网络流量识别模型是基于样本数据流及其样本流量类型训练得到的；所述网络流量识别模型用于提取每一条数据流的时空特征，并基于所述时空特征对每一条数据流进行流量识别；其中所述时空特征可以通过卷积神经网络和循环神经网络提取得到，或通过卷积神经网络和时序卷积网络提取得到。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的网络流量识别方法，该方法包括：将待识别的网络数据包序列进行预处理，得到若干条数据流；将每一条数据流输入至网络流量识别模型，得到所述网络流量识别模型输出的每一条数据流的流量识别结果；其中，所述网络流量识别模型是基于样本数据流及其样本流量类型训练得到的；所述网络流量识别模型用于提取每一条数据流的时空特征，并基于所述时空特征对每一条数据流进行流量识别；其中所述时空特征可以通过卷积神经网络和循环神经网络提取得到，或通过卷积神经网络和时序卷积网络提取得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的网络流量识别方法，该方法包括：将待识别的网络数据包序列进行预处理，得到若干条数据流；将每一条数据流输入至网络流量识别模型，得到所述网络流量识别模型输出的每一条数据流的流量识别结果；其中，所述网络流量识别模型是基于样本数据流及其样本流量类型训练得到的；所述网络流量识别模型用于提取每一条数据流的时空特征，并基于所述时空特征对每一条数据流进行流量识别；其中所述时空特征可以通过卷积神经网络和循环神经网络提取得到，或通过卷积神经网络和时序卷积网络提取得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络流量识别方法，其特征在于，包括：

2.根据权利要求1所述的网络流量识别方法，其特征在于，所述将每一条数据流输入至网络流量识别模型，得到所述网络流量识别模型输出的每一条数据流的流量识别结果，具体包括：

3.根据权利要求2所述的网络流量识别方法，其特征在于，所述空间特征提取层可以基于卷积神经网络构建得到，所述时序特征提取层可以基于长短时记忆网络或时序卷积网络构建得到。

4.根据权利要求1所述的网络流量识别方法，其特征在于，所述网络流量识别模型的损失函数是基于每一条样本数据流的流量识别结果中对应样本流量类型的概率、调制指数以及每一流量类型的类型权重确定的；其中，所述调制指数用于抑制简单样本数据流的损失和放大困难样本数据流的损失。

5.根据权利要求4所述的网络流量识别方法，其特征在于，任一流量类型的类型权重是基于所述任一流量类型对应的样本数据流数量以及所有流量类型的样本数据流的总量确定的。

6.根据权利要求5所述的网络流量识别方法，其特征在于，所述网络流量识别模型的损失函数为：

FL＝-α_t(1-p_t)^γlog(p_t)

α_t＝num_t/num_all

7.根据权利要求1至6任一项所述的网络流量识别方法，其特征在于，所述将待识别的网络数据包序列进行预处理，得到若干条数据流，具体包括：

8.一种网络流量识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述网络流量识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网络流量识别方法的步骤。