CN115022049B

CN115022049B - 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质

Info

Publication number: CN115022049B
Application number: CN202210634083.4A
Authority: CN
Inventors: 刘立坤; 余翔湛; 史建焘; 车佳臻; 张晓慧; 葛蒙蒙; 苗钧重; 刘凡; 李精卫; 韦贤葵; 石开宇; 郭明昊; 冯帅; 赵跃; 宋赟祖; 王久金
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2024-05-14
Anticipated expiration: 2042-06-06
Also published as: CN115022049A

Abstract

本发明提出一种基于计算马氏距离的分布外网络流量数据检测方法，属于数据检测技术领域。包括以下步骤：S1.原始网络流量的预处理和分类模型的预训练；S2.在预训练分类模型的基础上，获取新样本X与已知类别中最相似类别；S3.计算新样本x与最相似类别实例的马氏距离；S4.设定分布外数据阈值，分布外数据阈值采用实验的方式确定，对原网络流量数据加入小量的扰动数据，计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。判断是否属于分布外数据。本发明提高了分类器分类结果的置信度。解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题。

Description

一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质

技术领域

本申请涉及数据检测方法，尤其涉及一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质，属于数据检测技术领域。

背景技术

随着网络私有协议的增多，网络流量的种类也越来越多同时其相似度也逐渐提高。现如今的许多网络安全问题都需要落脚于网络流量的识别和检测，传统识别和检测技术大都基于机器学习算法或深度学习算法训练分类模型。但有研究表明深度学习模型的分类结果在测试数据中含有分布外数据的情况下置信度很低，在许多网络安全问题中分类错误将导致严重的后果。

基于机器学习或深度学习算法的分类模型，在分类网络流量任务中，得到的分类结果并不是可信的，原因有两个，其一，当训练模型被投入到实际应用中，不能保证测试数据中的数据全部为分布内数据；其二，若出现分布外数据与分布内数据较为相似的情况时，大部分深度学习模型会将分布外数据以高置信度划分为分布内数据类型。对于网络安全问题来说，分类错误将会导致更加严重的问题。

为解决上述问题，有研究人员对此提出以下方案解决：

基于计算样本间距离的检测方法，通过定义不同样本间距离判断两个样本是否属于同一类别进行检测。

上述技术仍存在以下问题：

对于基于计算相似度的检测方法，本质上是通过提取两个类别数据的特征从而计算二者之间的距离来表征相似度。但由于如何提取特征以及提取到的特征会有很大的随意性，并没有一个标准，对于不同类型的数据有大的差距，因此计算出的距离并不具有唯一性。同时，不同特征之间的度量尺度也不相同，计算距离或相似度是一件主观性很强且困难的事情。此外，判断是否为分布外数据的尺度也不容易设置，设置过大或过小都容易造成很高的误报率。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，为解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题，本发明提供一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质。目前大部分检测方法中用于表征相似度的距离计算采用欧氏距离计算，即欧几里得度量。欧氏距离可以表示多维空间中两点时间的距离，虽然计算简单，但是欧氏距离易受到不同量纲以及数据分布的影响，因此欧式距离并不适用于高维数据。因此为了通过度量样本之间距离检测分布外数据，本发明将使用马氏距离作为计算样本间距离的方法。

方案一、一种基于计算马氏距离的分布外网络流量数据检测方法，包括以下步骤：

S1.原始网络流量的预处理和分类模型的预训练；

S2.在预训练分类模型的基础上，获取新样本X与已知类别中最相似类别；

S3.计算新样本x与最相似类别实例的马氏距离；

S4.设定分布外数据阈值，判断是否属于分布外数据。

优选的，原始网络流量的预处理方法是：

S11.对网络流量数据进行特征提取；特征包括IP地址、端口号、网络协议、时间戳，IP地址包括源IP地址和目的IP地址；

S12.对IP特征进行分向，包括正向和反向；源IP地址到目的IP地址为正向，目的IP地址到源IP地址反向；

S13.为每个数据流构建Flow-ID标志，Flow-ID标志包括源IP地址、目的IP地址和协议号。

优选的，分类模型的预训练方法是：

S14.将网络流量数据输入深度学习模型卷积神经网络CNN中进行前向传播，经感受局部特征、权值共享以及池化层；

S15.进行后向传播包括计算实际输出与相应的理想输出的差，即计算损失函数和按照极小化误差的方法更新权值矩阵，计算损失函数的方法是：

优选的，获取新样本X与已知类别中最相似类别方法是：

S21.假设现有已知类别A和B，首先表示出类别A和B概率分布P(A)、P(B)，其次计算新样本x分别在类别A和B的概率分布：

其中，X表示新样本，n表示样本特征个数，μ表示均值，C表示协方差矩阵；

S22.计算新样本x在两个类别概率分布下的概率：

P(A1x)＝P(x|A)×(1-P(A))

P(B|x)＝P(x|B)×(1-P(B))

S23.比较P(A|x)和P(B|x)大小，概率大的类别为新样本x最为相似类别。

优选的，计算新样本x与最相似类别实例的马氏距离方法是：

其中，μ＝(μ₁,μ₂,μ₃…,μ_p)^T表示均值，μ＝(μ₁,μ₂,μ₃…,μ_p)^T，S表示协方差矩阵为S的多变量x＝(x₁,x₂,x₃…,x_p)^T。

优选的，设定分布外数据阈值的方法是，采用实验的方式确定，对原网络流量数据加入小量的扰动数据，计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。

优选的，判断是否属于分布外数据方法是：将新样本x与最相似类别实例的马氏距离与分布外数据阈值进行比较，若新样本x与最相似类别实例的马氏距离大于阈值，则判断该新样本x属于分布外数据，若若新样本x与最相似类别实例的马氏距离小于阈值，则判断该新样本x属于分布内数据。

方案二、电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现方案一所述的一种基于计算马氏距离的分布外网络流量数据检测方法的步骤。

方案三、计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案一所述的一种基于计算马氏距离的分布外网络流量数据检测方法。

本发明的有益效果如下：本发明使用马氏距离作为计算样本间距离的方法，首先对分类模型进行预训练，得到一个预训练分类器，再使用高斯判别方法找出最为相似的类别，计算马氏距离并与阈值进行比较，若计算出的距离大于阈值则判断为分布外数据。提高了分类器分类结果的置信度。解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为方法流程图；

图2为模型训练流程示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1、参照图1-2说明本实施方式，一种基于计算马氏距离的分布外网络流量数据检测方法，包括以下步骤：

S1.原始网络流量的预处理和分类模型的预训练；

原始网络流量的预处理方法是：

原始网络流量数据存在形式为pcap文件，包含了应用层和传输层信息，因此执行对网络流量数据进行特征提取，本实施例采用开源特征提取工具Cicflowmeter完成，Cicflowmeter工具提取多维特征，例如，传输层的一些统计信息，且以一个TCP流或UDP流为一个单位。TCP流以FIN标志为结束，UDP以设置的flowtimeout为限制，超时则判为结束。在一个TCP流中存在很多数据包。特征提取后得到的数据形式为CSV。

分类模型的预训练方法是：

S15.进行后向传播包括计算实际输出与相应的理想输出的差，即计算损失函数和按照极小化误差的方法更新权值矩阵，方法是：

在基于softmax函数的CNN，其中X：＝{x₁,x₂…x_n}为输入数据，X为样本空间，Y：＝{y₁,y₂…y_j}为数据标签集合，那么基于softmax分类器的输出结果可以表示为：

其中，W和b矩阵分别表示类别y_i的权重和偏差，f(x)表示卷积神经网络输出层的输出结果，其损失函数计算公式为：

预训练模型实深度学习框架的一种，预训练模型可以完成分类问题和聚类问题。

S2.在预训练分类模型的基础上，获取新样本X与已知类别中最相似类别；分布外数据具有分布外数据与已知类别数据的某一类非常相似的特征，该特征导致传统机器学习和深度学习模型分类结果置信度低。

因此，本实施例采用高斯判别分析再预训练的分类器分类基础上判断新样本与已知类别中最相似的类别。获取新样本X与已知类别中最相似类别方法是：

S22.计算新样本x在两个类别概率分布下的概率：

P(A|x)＝P(x|A)×(1-P(A))

P(B|x)＝P(x|B)×(1-P(B))

S3.计算新样本x与最相似类别实例的马氏距离，方法是：

S4.设定分布外数据阈值，判断是否属于分布外数据。

设定分布外数据阈值的方法是，采用实验的方式确定，对原网络流量数据加入小量的扰动数据，计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。

判断是否属于分布外数据方法是：将新样本x与最相似类别实例的马氏距离与分布外数据阈值进行比较，若新样本x与最相似类别实例的马氏距离大于阈值，则判断该新样本x属于分布外数据，若若新样本x与最相似类别实例的马氏距离小于阈值，则判断该新样本x属于分布内数据。

对本实施例进行测试：

原始模型的训练使用的训练数据采用公开流量数据集Moore数据集。Moore数据集中包含了邮件，恶意流量，数据库等12种类别流量。将原始Moore数据集在S3中加入高斯白噪声后生成扰动数据。并使用生成的扰动数据训练扰动模型。测试数据使用Moore数据集和自行收集的流量数据的混合数据集。其中自行收集的流量数据集包含与Moore数据集相同类别的流量，但由于数据流量形式和网络协议的更新，自行收集的流量虽然类别与Moore数据集中相同但较与Moore数据集中的流量来说，自行收集的流量属于分布外数据，因此测试的目的在于检测出混合数据集当中的自行收集的流量。根据实验结果显示，本发明识别分布外数据的准确率可以达到92％以上。此外，识别出的分布外数据作为新类别数据，将其贴上新的标签作为新的分布内数据并加入到原始模型中，增强原始模型的鲁棒性。

本发明的关键术语定义：

分布外数据：是指假设存在一个数据集S，S由数据(X，Y)构成，其中X表示提取的特征集合，Y表示数据的标签集合。若存在样本s(x，y)其中y不属于Y，那么样本s称为分布外数据。

马氏距离：马氏距离是一种有效的计算两个未知样本集合相似度的方法。通过计算数据空间的协方差距离来表示各个数据空间的特性之间的联系，并且不受不同量纲的影响。除此之外，马氏距离还可以排除变量之间相关性的干扰。马氏距离的应用目的在于将方差归一化，使得特征之间的关系更加符合实际情况。

高斯判别分析：高斯判别分析的基本思想是分别使用两个多元高斯分布来描述不同类别数据的概率分布，在已知类别的情况下，寻找样本的多元高斯分布，在得到各个类别的概率分布后，对于新的样本，分别计算在这些概率分布下的概率，概率最大所对应的类别即是新样本的类别。

实施例2、本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例3、计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于计算马氏距离的分布外网络流量数据检测方法，其特征在于，包括以下步骤：

S1.原始网络流量的预处理和分类模型的预训练；

S2.在预训练分类模型的基础上，获取新样本X与已知类别中最相似类别，方法是：

S21.现有已知类别A和B，首先表示出类别A和B概率分布P(A)、P(B)，其次计算新样本X分别在类别A和B的概率分布：

S22.计算新样本X在两个类别概率分布下的概率：

P(A|X)＝P(X|A)×(1-P(A))

P(B|X)＝P(X|B)×(1-P(B))

S23.比较P(A|X)和P(B|X)大小，概率大的类别为新样本X最为相似类别；

S3.计算新样本X与最相似类别实例的马氏距离，方法是：

其中，μ表示均值，μ＝(μ₁,μ₂,μ₃,...,μ_p)^T；

S4.设定分布外数据阈值，判断是否属于分布外数据；

设定分布外数据阈值的方法是，采用实验的方式确定，对原网络流量数据加入扰动数据，计算原网络流量数据与处理后的数据的马氏距离作为阈值的值；

判断是否属于分布外数据方法是：将新样本X与最相似类别实例的马氏距离与分布外数据阈值进行比较，若新样本X与最相似类别实例的马氏距离大于阈值，则判断该新样本X属于分布外数据，若新样本X与最相似类别实例的马氏距离小于阈值，则判断该新样本X属于分布内数据。

2.根据权利要求1所述的一种基于计算马氏距离的分布外网络流量数据检测方法，其特征在于，原始网络流量的预处理方法是：

3.电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1或2所述的一种基于计算马氏距离的分布外网络流量数据检测方法的步骤。

4.计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2所述的一种基于计算马氏距离的分布外网络流量数据检测方法。