CN105721242B

CN105721242B - 一种基于信息熵的加密流量识别方法

Info

Publication number: CN105721242B
Application number: CN201610052839.9A
Authority: CN
Inventors: 李冰; 孙恩博; 锁延峰; 戴中印; 肖彪; 吴安彬; 刘鸿运; 李霞; 汪星; 周德键
Original assignee: National Information Technology Security Research Center
Current assignee: National Information Technology Security Research Center
Priority date: 2016-01-26
Filing date: 2016-01-26
Publication date: 2018-10-12
Anticipated expiration: 2036-01-26
Also published as: CN105721242A

Abstract

一种基于信息熵的加密流量识别方法，属于计算机网络安全技术领域。含有信息熵加密检测算法，通过计算待测流量有效载荷的信息熵，如果计算出的信息熵在与相对应的平均信息熵的3倍置信区间之内，则为加密信息，否则为非加密信息；包括以下步骤：网络数据采集；平均信息熵计算；实际数据包信息熵计算；流量识别及结果分析。本发明的优点在于能够实现在线识别，不会侵犯用户隐私，并且拥有较高的分析效率和低误报率。

Description

一种基于信息熵的加密流量识别方法

技术领域

本发明涉及一种基于信息熵的加密流量识别方法，属于计算机网络安全技术领域。

背景技术

随着计算机网络的不断发展和普及，各种网络应用层出不穷，安全性问题也不断升级，都要求网络监管机构能对各种网络流量进行识别、分类和控制。其中加密流量在网络中占有相当的比重，一些恶意破坏分子利用加密流量和匿名通信协议进行破坏活动，在一定程度上极有可能危及国家网络安全，因此对加密流量和匿名通信协议进行识别逐渐成为亟需解决的问题。

网络应用层流量识别对网络规划、网络管理、流量工程等至关重要。传统方法中针对网络流量应用分析的研究主要有两类：第一种途径是根据熟知的TCP/UDP协议中的端口号进行应用识别，这种检测方法假设网络中的应用均遵循和使用由IANA(InternetAssigned Numbers Authority)提供的知名端口，然而这种假设逐渐被非标准端口的使用所推翻。一些应用软件(例如Skype，迅雷)为了穿越防火墙或者绕过操作系统的某些限制而使用动态端口或常用协议的端口(例如80,443端口)，致使基于端口的流识别方法的准确率受到极大影响。

而另外一种途径则是采用深层数据包检测技术(DPI)对网络流进行分类识别。这类检测方法则是基于深层数据包检测技术(Deep Packet Inspection,DPI技术)，而DPI技术则主要通过对数据包的应用层数据进行特征匹配来进行流量的识别，这种特征匹配的识别技术也决定了被遍历的所有数据包内容均需可以被正确访问。然而，以Secure Shell(SSH)和Skype Voice over Internet Protocol(VoIP)为代表的加密流量的普及使得DPI技术正逐步失去其原有的统治地位。因此，针对加密流量的高准确度识别技术研究也变得极具有实际意义，并且逐步成为了一个发展方向。

发明内容

为了克服现有技术的不足,本发明提供一种基于信息熵的加密流量识别方法，对网络流量审计和识别有重要作用，并且拥有较高的分析效率和低误报率,针对现有的各种匿名网络实行加密流量传输的情况，采用此方法提高加密流量的识别效率。

从网络流量中区分出加密流量对维护网络环境的安全起着非常重要的作用,本方法通过对加密流量编码特征的深入研究，借鉴信息论编码知识提出了一种基于信息熵的加密流量识别方法，该方法可以结合传统机器学习方法，且能够实现在线识别，不会侵犯用户隐私，并且拥有较高的分析效率和低误报率。

一种基于信息熵的加密流量识别方法,含有信息熵加密检测算法，通过计算待测流量有效载荷的信息熵，如果计算出的信息熵在与相对应的平均信息熵的3倍置信区间之内，则为加密信息，否则为非加密信息。

包括以下步骤：

步骤S1、网络数据采集；

步骤S2、平均信息熵计算；

步骤S3、实际数据包信息熵计算；

步骤S4、流量识别及结果分析。

本发明的优点在于借鉴信息论编码知识提出了一种基于信息熵的加密流量识别方法，且能够实现在线识别，不会侵犯用户隐私，并且拥有较高的分析效率和低误报率。

附图说明

当结合附图考虑时，通过参照下面的详细描述，能够更完整更好地理解本发明以及容易得知其中许多伴随的优点，但此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，如图其中：

图1为本发明的结构示意图。

下面结合附图和实施例对本发明进一步说明。

具体实施方式

显然，本领域技术人员基于本发明的宗旨所做的许多修改和变化属于本发明的保护范围。

实施例1：如图1所示，一种基于信息熵的加密流量识别方法,含有以下步骤；

步骤S1、网络数据采集；

步骤S2、平均信息熵计算；

步骤S3、实际数据包信息熵计算；

步骤S4、流量识别及结果分析。

步骤S1的包括下列步骤：

步骤S11、从网络中截取一部分数据流量包，将其保存为pacp文件；

步骤S12、按照数据包的格式读取TCP协议下数据流负载的有效载荷部分，即将协议头去掉后的部分的前64字节的内容存储至一个64*256的二维特征向量中；

步骤S2的包括下列步骤：

步骤S21、利用蒙特卡洛方法模拟10000次长度为64字节的在0-256之间伪随机数生成序列；

步骤S22、将每次的序列根据公式(1)：

其中

来计算H_N(u)，N为字节长度64，m为256，ni表示0-256之间字符i对应的频率；此方法即为利用最大似然估计得到的平均信息熵H_N(u)；

步骤S3的包括下列步骤；

步骤S31、统计步骤S12中64*256的二维特征向量中每个0～256字符的个数；

步骤S32、利用公式(3)

来计算此次事件的信息熵H，其中P_i为每个字符的频数；

步骤S4的包括下列步骤：

步骤S41、将步骤S2中每次产生的信息熵的方差σ计算出来，公式(4)如下：

σ＝((H₁(P)-H_u(p))²+...(H_k(P)-H_u(p))²)/k (4)

其中H_K(P)表示第K次事件的信息熵，H_u(p)表示所有事件的平均信息熵；

步骤S42、看每次在S3中计算的实际信息熵是否在平均信息熵的三倍置信区间内，是则为加密信息，反之则，没有加密。

实施例2：如图1所示，一种基于信息熵的加密流量识别方法,含有以下步骤；

步骤S1、网络数据采集；本步骤直接用现有的抓包软件如Wireshark等来采集网络的数据流量包，作为输入的样本，然后对流量包按照需要的格式进行处理，提取出本实验需要的信息，并对数据进行保存,值得注意的是在此过程中尽量将不属于TCP的流量先过滤掉，这样可以在后面的识别过程中达到尽可能高的识别率；

步骤S2、平均信息熵计算：此过程是该发明要执行的尤为重要的过程，通过利用对s1过程中形成的数据向量进行处理，为了更好的从样本中反应总体参数特征，引入N截断信息熵，也就是说利用长度为N的语句w，然后根据蒙特卡洛的方法来模拟出每种情况下N字节的不同组成情况，然后根据公式(1)的最大似然方法来求出所有N字节情况的信息熵的平均值，作为判断信息熵的阀值，以备下面步骤的输入用；

步骤S3、实际数据包信息熵计算:该步骤是此次发明的核心步骤，主要根据香农在信息论中提出的信息熵的计算，一个系统越是有序，信息熵就越低，因此信息熵是系统有序化程度的一个度量。在数据处理过程中，导致信息熵增加的方法主要有压缩算法和加密算法两种。压缩算法使得数据表示的比特数最少，数据加密使得任何原消息中可以预测的特征模式被去除。其中指出m个可能事件A₁～A_m每个可能发生的概率分别为P₁,P₂,..P_m已知。熵定义为以下所示公式：

其中P_i表示事件A_i发生的频率；

它能够测量信息量不确定性的大小，进而通过这种方法使得可以根据每次截取的数据包的数据来计算单独一次的信息熵，并作为以下步骤的输入；

步骤S4、流量识别及结果分析：该步骤用来形成对观测流量的识别结果。在此过程总根据在计算平均信息熵阀值的过程中模拟计算出所有情况的信息熵的方差，在取得步骤S2、步骤S3的计算结果后，利用概率统计中的无偏估计法，得出在最大似然估计值和(1)式得出的值越接近，那么该待测样本越有可能是平均分布的。也就说越接近则越有可能是加密数据或者是压缩数据，在此取3倍的方差，作为置信区间的阀值来判断，如果在其范围内，就认为是加密信息，反之则不是。

本方案相关术语定义:

信息熵：信息熵能够用作测量消息的信息量不确定性大小。一个系统越是有序，信息熵就越低，因此信息熵是系统有序化程度的一个度量。

最大似然估计：是一种具有理论性的点估计法，此方法的基本思想是：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。

平均信息熵：所有长度为N的信息熵求和的平均值。

如上所述，对本发明的实施例进行了详细地说明，但是只要实质上没有脱离本发明的发明点及效果可以有很多的变形，这对本领域的技术人员来说是显而易见的。因此，这样的变形例也全部包含在本发明的保护范围之内。

Claims

1.一种基于信息熵的加密流量识别方法,其特征在于含有信息熵加密检测算法，通过计算待测流量有效载荷的信息熵，如果计算出的信息熵在与相对应的平均信息熵的3倍置信区间之内，则为加密信息，否则为非加密信息；包括以下步骤：

步骤S1、网络数据采集；

步骤S2、平均信息熵计算；

步骤S3、实际数据包信息熵计算；

步骤S4、流量识别及结果分析。

2.根据权利要求1所述的一种基于信息熵的加密流量识别方法，其特征在于步骤S1的包括下列步骤：

步骤S12、按照数据包的格式读取TCP协议下数据流负载的有效载荷部分，即将协议头去掉后的部分的前64字节的内容存储至一个64*256的二维特征向量中。

3.根据权利要求1所述的一种基于信息熵的加密流量识别方法，其特征在于步骤S2的包括下列步骤：

步骤S22、将每次的序列根据公式(1)：

其中

来计算H_N(u)，N为字节长度64，m为256，n_i表示0-256之间字符i对应的频率；此方法即为利用最大似然估计得到的平均信息熵H_N(u)。

4.根据权利要求1所述的一种基于信息熵的加密流量识别方法，其特征在于步骤S3的包括下列步骤；

步骤S32、利用公式(3)

来计算此次事件的信息熵H，其中P_i为每个字符的频率。

5.根据权利要求1所述的一种基于信息熵的加密流量识别方法，其特征在于步骤S4的包括下列步骤：

σ＝((H₁(P)-H_u(p))²+...(H_k(P)-H_u(p))²)/k (4)

6.根据权利要求1所述的一种基于信息熵的加密流量识别方法，其特征在于步骤S1网络数据采集；用现有的抓包软件如Wireshark来采集网络的数据流量包，作为输入的样本，然后对流量包按照需要的格式进行处理，提取出需要的信息，并对数据进行保存,将不属于TCP的流量先过滤掉。

7.根据权利要求3所述的一种基于信息熵的加密流量识别方法，其特征在于步骤S2平均信息熵计算：通过利用对步骤S1过程中形成的数据向量进行处理，引入N截断信息熵，利用长度为N的语句w，然后根据蒙特卡洛的方法来模拟出每种情况下N字节的不同组成情况，然后根据公式(1)的最大似然方法来求出所有N字节情况的信息熵的平均值，作为判断信息熵的阀值，以备下面步骤的输入用。

8.根据权利要求3所述的一种基于信息熵的加密流量识别方法，其特征在于步骤S3实际数据包信息熵计算，根据每次截取的数据包的数据来计算单独一次的信息熵，并作为以下步骤的输入。

9.根据权利要求3所述的一种基于信息熵的加密流量识别方法，其特征在于步骤S4流量识别及结果分析：根据在计算平均信息熵阀值的过程中模拟计算出所有情况的信息熵的方差，在取得步骤S2、步骤S3的计算结果后，利用概率统计中的无偏估计法，得出在最大似然估计值和(1)式得出的值越接近，那么该待测样本越有可能是平均分布的；也就说越接近则越有可能是加密数据或者是压缩数据，在此取3倍的方差，作为置信区间的阀值来判断，如果在其范围内，就认为是加密信息，反之则不是。