CN109474598A

CN109474598A - 一种基于数据包时序的恶意加密流量分析特征提取方法

Info

Publication number: CN109474598A
Application number: CN201811377517.7A
Authority: CN
Inventors: 马小博; 安冰玉; 师马玮; 焦洪山; 彭嘉豪; 赵延康; 李剑锋; 毛蔚轩
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-03-15

Abstract

本文发明提出了一种基于数据包序列的时序和顺序特性的恶意加密流量分析特征提取方法。本发明能够在给定任意一个数据包序列的前提下，有效的提取刻画数据包序列时序特性的所有特征，组成一个可以直接用作训练分类模型的特征组的重要部分。有利于提高网站指纹识别技术的识别准确率，并且节省分类模型构建过程中消耗的时间和空间成本，能够更加高效的监控用户的非法上网行为。

Description

一种基于数据包时序的恶意加密流量分析特征提取方法

技术领域

本发明属于网络安全与用户隐私领域，特别涉及一种基于数据包时序的恶意加密流量分析特征提取方法。

背景技术

近年来，随着互联网的高速发展，网络已经紧密地融入我们的生产与生活，网络安全也成为一个不可忽视的问题。在日常生活中，人们的网络安全意识也逐渐提高，越来越多的用户和企业开始重视信息的保护和安全传输。基于恶意加密流量的网络行为识别技术，可以用来实现网络的安全监管，特别是非法业务和不良信息的监管，如人口贩卖，卖淫赌博，军火交易等等。恶意加密流量分析可以分析出用户的非法行为，目前，恶意加密流量的分析主要是基于网站指纹识别技术。网站指纹识别就是一种基于机器学习算法识别通过加密方式访问的网站，通过对网络流量的特征提取并结合有监督的分类技术对网站进行分类的技术。其中，这种技术的关键就在于通过提取的特征对能够对网站分类的分类模型的构建过程，所以提取的特征就显得尤为重要。

本发明旨在设计一种能够对数据包时序进行准确刻画的恶意加密流量分析特征提取方法，以期组成一个特征明显的特征组，能够构建一个更加有效的分类模型，提高网站指纹识别技术对于恶意网站识别的准确性。选择一种有效的特征提取方法，构成一个有效的特征组，是一个非常重要的问题，理由包括：(1)恶意加密流量分析的关键技术—网站指纹识别技术的本质就是使用机器学习中的分类算法构建能够对网站进行分类的分类器，所以提取的特征的有效性将会影响分类准确率等。(2)恶意加密流量分析过程中构建的分类器是以提取出的数值特征训练的。因此，提取出的特征必须能准确刻画一个非法网站的特点。

国内外关于恶意加密流量分析特征提取方法目前并没有一个确切的定论，也没有一个确定的可以分类别刻画恶意加密流量特征的特征提取方法。由此可见，关于恶意加密流量分析的特征选择及提取问题尚未被广泛深入研究，相关技术也尚未被广泛应用。

发明内容

本发明的目的在于提供一种基于数据包时序的恶意加密流量分析特征提取方法，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种基于数据包时序的恶意加密流量分析特征提取方法，包括以下步骤：

步骤1，给定从任意加密网络抓取的经过预处理的加密流量，具体为数据包序列；

步骤2，在得到上述的数据包序列后，根据数据包序列中的数据包顺序以及数据包时序两个重要特性分析出能够代表一个数据包序列时序特征的多维特征；

步骤3，整合步骤2中的多维时序特征，设计基于数据包时序的特征提取算法，将得到的数据包序列作为此特征提取算法的输入，输出步骤2中设计的所有特征；

步骤4，经过步骤2与步骤3之后，能够得到一组直接用于训练分类器模型的有效特征，直接用于网站指纹识别分类器模型的训练及分类；

步骤5，经过被监视的某些恶意网站以及根据所构建的分类模型的分类结果分析某些用户的恶意上网行为。

进一步的，步骤2中的数据包顺序特性和数据包时序特性的定义如下：

数据包顺序特性：关注客户端与服务端之间流量的请求与响应的交互顺序，从不同流量的方向变化及其分布来观察它们的差异性；

数据包时序特性：描述流量中的数据包传输的时间间隔差异。

进一步的，步骤1中数据包序列格式为：域名，IP：[时间戳，数据包大小]。

进一步的，以“+”表示发送的数据包方向，“-”表示接收数据包方向。

进一步的，步骤3中，基于数据包时序的特征提取算法包含以下计算步骤：

1)计算数据包在接收方向的个数和发送方向的个数比值，计算方法为；

2)统计接收方向上每个数据包到达之前接收到的所有数据包的平均大小，即所有数据包的总大小与数据包总个数的比值，对这个序列求均值和标准差；

统计发送方向上每个数据包发送之前发送的所有数据包的平均大小，即所有数据包的总大小与数据包总个数的比值，对这个序列求均值和标准差；

3)确定单位时间，然后统计每单位时间内的数据包个数，并对该序列求均值、标准差、最大值、最小值和中值；

4)统计整体数据包序列中每3个连续数据包之间的时间间隔(若数据包个数不能被 3整除，则可以舍弃最后剩余数据包)，并对这个时间间隔序列求取均值、最大值、最小值、标准差。

与现有技术相比，本发明有以下技术效果：

本发明在基于数据包时序和数据包顺序特性上，全面且创新的提出了能够刻画数据包时序的多维数值特征。在对数据包序列的刻画上能够更加准确，可以用于训练分类精度更高的分类模型，并且这些特征可以用于任何分类器。

本发明提取出的特征集可以适用于所有的分类模型的训练及构建；并且因为特征集中特征的全面及精简，会节省分类模型构建的时间和空间成本，同时也能提高分类的准确率。

附图说明

图1为本发明基于数据包时序特征提取流程图；

具体实施方式

以下结合附图对本发明进一步说明：

请参阅图1，一种基于数据包时序的恶意加密流量分析特征提取方法，包括以下步骤：

现在得到访问一个网站的数据包序列如下：

('gorgon.youdao.com','202.117.43.76'):[[[1512460671.746477,+62],[1512460671.74654, -62],[1512460671.827178,+296],[1512460672.111997,-1506],[1512460672.201402,-1124], [1512460672.276805,+180],[1512460672.367518,-296],[1512460672.455021,+778]]]

其中前面的域名和IP表示被访问的地址，后面的内容为数据包的时间和大小序列，形式为：[时间戳，数据包大小]。其中以“+”表示发送的数据包方向，“-”表示接收数据包方向。

步骤2中的数据包顺序特性和数据包时序特性的定义如下：

步骤1中数据包序列格式为：域名，IP：[时间戳，数据包大小]。

以“+”表示发送的数据包方向，“-”表示接收数据包方向。

步骤3中，基于数据包时序的特征提取算法包含以下计算步骤：

1)计算数据包在接收方向的个数和发送方向的个数比值，计算方法为

3)确定单位时间Δt，然后统计每单位时间内的数据包个数，并对该序列求均值、标准差、最大值、最小值和中值；

对于上述的数据包序列提取以上特征，如：

1)数据包在接收方向的个数为4，发送方向的个数为4，故最后的比值：2；

2)接收方向中每个数据包到达之前的数据包个数序列[1,3,4,6],数据包总大小序列为 [62,296,-1210,-2154],所以最后的数据包平均大小序列为[62,98.7,-302.5,-359]其中均值为 -125.2，标准差为721.14；

发送方向中每个数据包到达之前的数据包个数序列[0,2,5,7],数据包总大小序列为 [0,0,-2334，-2450],所以最后的数据包平均大小序列为[0,0,-466.8,-350]其中均值为-204.2，标准差为245.2；

3)为了方便计算，本次暂定单位时间Δt＝1s，其中根据时间戳的时间转化规律可以得到每秒内数据包的个数序列为[3,5],所以该序列的均值、标准差、最大值、最小值和中值分别为：4，1.414，5，3，4。

4)统计数据包序列中的每3个连续数据包之间的时间间隔，得到的序列为[0.080701,0.164808]，这个序列的均值、最大值、最小值、标准差分别为：0.1227545，0.164808，0.080701，0.0680248。

Claims

1.一种基于数据包时序的恶意加密流量分析特征提取方法，其特征在于，包括以下步骤：

步骤3，根据步骤2中的多维时序特征，设计基于数据包时序的特征提取算法，将得到的数据包序列作为此特征提取算法的输入，输出步骤2中设计的所有特征；

2.根据权利要求1所述的一种基于数据包时序的恶意加密流量分析特征提取方法，其特征在于，步骤2中的数据包顺序特性和数据包时序特性的定义如下：

3.根据权利要求1所述的一种基于数据包时序的恶意加密流量分析特征提取方法，其特征在于，步骤1中数据包序列格式为：域名，IP：[时间戳，数据包大小]。

4.根据权利要求3所述的一种基于数据包时序的恶意加密流量分析特征提取方法，其特征在于，以“+”表示发送的数据包方向，“-”表示接收数据包方向。

5.根据权利要求1所述的一种基于数据包时序的恶意加密流量分析特征提取方法，其特征在于，步骤3中，基于数据包时序的特征提取算法包含以下计算步骤：

4)统计整体数据包序列中每3个连续数据包之间的时间间隔(若数据包个数不能被3整除，则可以舍弃最后剩余数据包)，并对这个时间间隔序列求取均值、最大值、最小值、标准差。