CN104954365A

CN104954365A - 一种快速自动识别加密网络行为的方法

Info

Publication number: CN104954365A
Application number: CN201510279195.2A
Authority: CN
Inventors: 朱贺军
Original assignee: Beijing Esafenet Science & Technology Co Ltd
Current assignee: Beijing Esafenet Science & Technology Co Ltd
Priority date: 2015-05-27
Filing date: 2015-05-27
Publication date: 2015-09-30
Anticipated expiration: 2035-05-27
Also published as: CN104954365B

Abstract

本发明针对海量的加密网络行为难以识别的问题，提出了一种快速自动识别加密网络行为的方法，该方法首先构建具体的加密网络行为模型库，然后进行实时采集网络交互数据，同时计算实时采集网络交互数据与模型库的相关系数，并依据计算的相关系数结合预设阈值进行自动分类识别。本发明的有益之处在于：本发明的识别方法能够及时、快速、高效地实现对加密数据的加密流量的在线判断，进而有效解决因加密协议频繁升级而带来的研发工作量加大的问题。

Description

一种快速自动识别加密网络行为的方法

技术领域

本发明涉及一种识别加密网络行为的方法，具体涉及一种快速自动识别加密网络行为的方法，属于网络安全技术领域。

背景技术

网络的出现大大的改变了人们的通信方式，使人们的生活发生了翻天覆地的变化，不同的用户使用网络中的各种应用，每天都会产生数以亿计的应用流，而这些看似正常的流量中可能隐藏着各种恶意攻击行为。因此，分类识别网络流量，对规范网络应用、净化网络环境以及保护网络用户的隐私安全都具有重大意义，这也是网络安全领域所要研究的热点问题，尤其是如何快速准确地识别加密的网络行为更是重中之重。

目前，常见的加密流量分类识别方法包括：基于端口号识别、基于载荷信息识别、基于机器学习识别以及基于流的统计特征识别。其中，基于端口号识别原理和实现都比较简单，但容易受到加密类流量的动态端口、伪造端口等影响；基于载荷信息识别对于加密应用模式匹配难度大，易受版本升级的影响；基于机器学习识别和基于流的统计特征识别的识别准确率尚可，但计算开销大，实现复杂度高，无法满足在线实时识别的要求。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种快速自动识别加密网络行为的方法，该识别方法能够及时、快速、高效地实现对加密数据的加密流量的在线判断，进而有效解决因加密协议频繁升级而带来的研发工作量加大的问题。

为了实现上述目标，本发明采用如下的技术方案：

一种快速自动识别加密网络行为的方法，其特征在于，包括以下步骤：

Step1：构建具体的加密网络行为模型库；

Step2：实时采集网络交互数据；

Step3：计算实时采集网络交互数据与模型库中不同参考样本的相关系数；

Step4：依据计算相关系数结合预设阈值进行网络行为自动分类识别。

前述的快速自动识别加密网络行为的方法，其特征在于，在Step1中，构建加密网络行为模型库的方法为：

(1)分析大量不同版本的加密网络行为数据；

(2)在前一步的分析基础上，提取出能够表征该加密网络行为的特征；

(3)根据相关系数原理和前一步提取出来的特征，构建该加密网络行为的模型库及参考样本。

前述的快速自动识别加密网络行为的方法，其特征在于，在Step2中，实时采集网络交互数据的方法为：采用滑动窗口方式采集与参考样本相同长度的测量数据集。

前述的快速自动识别加密网络行为的方法，其特征在于，在Step2中，根据下列公式计算实时采集网络交互数据与模型库的相关系数：

ρ = \frac{Σ_{i = 1}^{N} XY - \frac{Σ_{i = 1}^{N} X Σ_{i = 1}^{N} Y}{N}}{\sqrt{(Σ_{i = 1}^{N} X^{2} - \frac{{(Σ_{i = 1}^{N} X)}^{2}}{N}) (Σ_{i = 1}^{N} Y^{2} - \frac{{(Σ_{i = 1}^{N} Y)}^{2}}{N})}}

其中，X＝[x₁,x₂,…,x_N]表示样本数据，Y＝[y₁,y₂,…,y_N]表示新采集数据，相关系数ρ>0表示正相关，ρ<0表示负相关，ρ＝0表示无关。

前述的快速自动识别加密网络行为的方法，其特征在于，在Step3中，

(1)对于音频和消息类，直接计算实时采集网络交互数据与模型库的相关系数；

(2)对于视频和图片类，先对采集到的数据进行预处理，预处理的方式是针对特定位置使数据的值发生微小波动，从而使采集数据值与参考样本完全一样，然后计算预处理后的数据与模型库的相关系数。

本发明的有益之处在于：本发明的识别方法能够及时、快速、高效地实现对加密数据的加密流量的在线判断，进而有效解决因加密协议频繁升级而带来的研发工作量加大的问题。

附图说明

图1是发消息交互过程中的流量记录图；

图2是行为识别总体流程图；

图3是数据采集方式示意图；

图4是Twitter行为分析的程序实现流程图。

具体实施方式

针对海量的加密网络行为难以识别的问题，本发明提出了一种快速自动识别加密网络行为的方法。该方法首先构建具体的加密网络行为模型库，然后进行实时采集网络交互数据，同时计算实时采集网络交互数据与模型库的相关系数，并依据计算的相关系数结合预设阈值进行自动分类识别。

以下结合附图和具体实施例对本发明作具体的介绍。

在本实施例中，以Android版Twitter发帖为研究对象。

Twitter发帖时涉及文字消息和上传图片，发文字消息时，从安全套接层(Secure Sockets Layer，SSL)的交互过程中可以获取域名为：“api.twitter.com”，在upload图片时的域名为“upload.twitter.com”。发消息属于长连接，且容易和看帖的行为相混淆，为区别看帖，采用本实施例的方案进行实现。

基本原理：

同一类行为有相似的统计特征或其他外在特征，本发明依据网络数据流量的统计特征，通过构建具体行为样本库，将实时采集的网络数据向样本库投影，投影值是依据相关系数进行计算。系数值的大小反映了两个随机变量之间的相似程度。

经过对Twitter数据大量研究分析表明，明文和密文从外在形式上保持一致，密文包的大小反映明文内容的多少，不同的行为动作，其特征不同，对于某一具体动作，例如发消息，客户端和服务器之间的交互模式相对固定，交互过程中，反映交互双方负载流量也保持了某种趋势，该趋势也不会因为小版本不同而发生变化。

图1是发消息交互过程中的流量记录图。如图1所示，图1(A)和图1(B)是两次真Twitter消息，图1(C)是一次伪消息，欲辨真伪，可选择其中一次真Twitter消息数据作为模板，将其它两个消息与之比对，为能给出数值结果，可采用相关系数。而相关系数反映了两个随机向量间的相关程度，计算公式如下：

ρ = \frac{Σ_{i = 1}^{N} XY - \frac{Σ_{i = 1}^{N} X Σ_{i = 1}^{N} Y}{N}}{\sqrt{(Σ_{i = 1}^{N} X^{2} - \frac{{(Σ_{i = 1}^{N} X)}^{2}}{N}) (Σ_{i = 1}^{N} Y^{2} - \frac{{(Σ_{i = 1}^{N} Y)}^{2}}{N})}}

其中，X＝[x₁,x₂,…,x_N]表示样本数据，Y＝[y₁,y₂,…,y_N]表示新采集数据，相关系数ρ>0表示正相关，ρ<0表示负相关，ρ＝0表示无关。ρ的绝对值越大表示相关程度越高。

按照上述公式，两个真Twitter消息之间的相关系数为0.8881，另外两个消息之间的相关系数为0.6058。因此，本实施例以Twitter的登陆、聊天、音频、图片以及视频等消息为样板，通过大量的数据分析，分别建立相应的模板，且设定阈值为0.8，若大于设定阈值，判为真，否则为假。

算法实现：

结合数据包大小及特点区分，将基于相关系数的行为识别分成两类情形进行分析，如图2所示，行为识别总体流程为：

Step1：构建具体的加密网络行为模型库

经过分析大量不同版本的加密网络行为数据，Twitter发推时的方式可归纳为两种情况：音频/消息、视频/图片。因此，需要建立两个参考样本。

参考样本I，如表1所示，其包的大小分布为X。

表1 参考样本I的数据包的大小分布表

源地址	目标地址	协议	包长度(字节)
				192.168.8.195	199.59.148.87	TLSv1	199
199.59.148.87	192.168.8.195	TLSv1	407
				199.59.148.87	192.168.8.195	TLSv1	135
192.168.8.195	199.59.148.87	TCP	66
				199.59.148.87	192.168.8.195	TLSv1	183
199.59.148.87	192.168.8.195	TLSv1	167
				192.168.8.195	199.59.148.87	TCP	66
192.168.8.195	199.59.148.87	TLSv1	199
				199.59.148.87	192.168.8.195	TLSv1	519
199.59.148.87	192.168.8.195	TLSv1	135
				192.168.8.195	199.59.148.87	TCP	66
192.168.8.195	199.59.148.87	TLSv1	199
				199.59.148.87	192.168.8.195	TLSv1	327
199.59.148.87	192.168.8.195	TLSv1	135
				192.168.8.195	199.59.148.87	TCP	66
192.168.8.195	199.59.148.87	TLSv1	199
				199.59.148.87	192.168.8.195	TCP	66

199.59.148.87	192.168.8.195	TLSv1	407
				199.59.148.87	192.168.8.195	TLSv1	151

X = [199, \underset{&OverBar;}{407}, 135, \underset{&OverBar;}{183}, \underset{&OverBar;}{167}, 199, \underset{&OverBar;}{519}, 135,199, \underset{&OverBar;}{327}, 135,199, \underset{&OverBar;}{407}, 151] .

带有下划线的数字表示对于同一个抓包环境，不同发推时其值不确定。考虑到样本的普适性，选取最后9个变量作为参考样本，即：

X_{1} = [199, \underset{&OverBar;}{519}, 135,199, \underset{&OverBar;}{327}, 135,199, \underset{&OverBar;}{407}, 151] .

参考样本II，如表2所示，其包的大小分布为X₂。

表2 参考样本II的数据包的大小分布表

源地址	目标地址	协议	包长度(字节)
				192.168.8.195	199.59.148.87	TLSv1	231
199.59.148.87	192.168.8.195	TCP	66
				192.168.8.195	199.59.148.87	TLSv1	103
199.59.148.87	192.168.8.195	TCP	66
				199.59.148.87	192.168.8.195	TLSv1	551
199.59.148.87	192.168.8.195	TLSv1	935
				192.168.8.195	199.59.148.87	TCP	66
192.168.8.195	199.59.148.87	TLSv1	119

X_{2} = [\underset{&OverBar;}{231}, \underset{&OverBar;}{103}, \underset{&OverBar;}{551}, \underset{&OverBar;}{951}, \underset{&OverBar;}{119}] .

带有下划线的数字表示对于同一个抓包环境，不同发推时其值不确定。

Step2：实时采集网络交互数据

参照图3，采用滑动窗口方式采集与参考样本相同长度的测量数据集。

Twitter发消息时新采集的数据如表3所示，其包的大小分布为Y。

表3 Twitter发消息时新采集的数据

源地址	目标地址	协议	包长度(字节)
				192.168.8.195	199.59.148.87	TLSv1	199
199.59.148.87	192.168.8.195	TLSv1	551
				199.59.148.87	192.168.8.195	TLSv1	135
192.168.8.195	199.59.148.87	TCP	66
				192.168.8.195	199.59.148.87	TLSv1	199
199.59.148.87	192.168.8.195	TLSv1	183
				199.59.148.87	192.168.8.195	TLSv1	135
192.168.8.195	199.59.148.87	TCP	66
				192.168.8.195	199.59.148.87	TLSv1	199
199.59.148.87	192.168.8.195	TLSv1	279
				199.59.148.87	192.168.8.195	TLSv1	151

Y = [199, \underset{&OverBar;}{551}, 135,199, \underset{&OverBar;}{183}, 135,199, \underset{&OverBar;}{279}, 151] .

Step3：计算实时采集网络交互数据与模型库中不同参考样本的相关系数

根据下列公式计算相关系数：

ρ = \frac{Σ_{i = 1}^{N} XY - \frac{Σ_{i = 1}^{N} X Σ_{i = 1}^{N} Y}{N}}{\sqrt{(Σ_{i = 1}^{N} X^{2} - \frac{{(Σ_{i = 1}^{N} X)}^{2}}{N}) (Σ_{i = 1}^{N} Y^{2} - \frac{{(Σ_{i = 1}^{N} Y)}^{2}}{N})}}

计算结果：参考样本X₁与测试数据Y的相关系数为0.8881，参考样本X₂与测试数据Y的相关系数分别为-0.4409、-0.1159、-0.5945、-0.3657。相关系数的绝对值越大，表示相关程度越高，值为正表示正相关，值为负表示负相关。

对于音频类，与发消息一样，直接计算参考样本与测试数据的正相关系数。

对于视频和图片类，因为参考样本和采集数据集其中一个为常量数组，并且参考样本和测量数据不完全一样，例如：Y＝[1414,1400,…,1410]，X＝[1414,1414,…,1414]，所以此时是不能依据相关系数进行直接判断的。为此，需要对数据进行预处理，预处理的方式是针对特定位置使数据的值微小波动，从而使采集数据值与参考样本完全一样，例如：改变上述变量的第二个数值和最后一个数值，得到如下形式：经数据实验证明，上述微小波动不影响判别结果。采集的数据经过预处理后，再计算预处理后的数据与模型库的相关系数。

Step4：依据计算相关系数结合预设阈值进行网络行为自动分类识别

Twitter的行为分析主要包括登陆、聊天、音频、图片以及视频等。图4为Twitter行为分析的程序实现流程图。

目前，依据相关系数值的大小决定分类，相关系数值大小根据经验值测定，在本发明中，相关系数参考值取0.8，大于0.8则判为发推。由Step2相关系数的计算可知，X₁与Y相关性较强，而X₂与Y相关程度较弱，结论：超过相关系数参考值的强相关为符合该种行为模式的加密的网络行为。

同理，当样本库中有图片或视频的参考样本，根据相关系数值的大小决定该时动作属于哪一类。

总结：

本实施例以Twitter为例，对它的登陆、聊天、音频、图片以及视频等加密行为进行研究分析，提出了基于相关系数的加密网络行为识别模型，同时经过实验验证，该方法高效、适用、可靠，并在实际的项目中得到应用，且其行为识别的准确率在96％以上。

同时还以Twitter发消息为例，模板数据维数为40，数据包大小877M，参与预算数据包大小686M，相关系数运算1957885次，其中输出相关记录1957次，总耗时6秒，其效率完全可以满足实时在线识别的要求。

由此可见，本发明的识别方法不仅实现了快速识别加密网络行为，而且有效解决了因加密协议频繁升级带来的研发工作量加大的问题。

需要说明的是，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种快速自动识别加密网络行为的方法，其特征在于，包括以下步骤：

Step1：构建具体的加密网络行为模型库；

Step2：实时采集网络交互数据；

2.根据权利要求1所述的快速自动识别加密网络行为的方法，其特征在于，在Step1中，构建加密网络行为模型库的方法为：

(1)分析大量不同版本的加密网络行为数据；

3.根据权利要求1所述的快速自动识别加密网络行为的方法，其特征在于，在Step2中，实时采集网络交互数据的方法为：采用滑动窗口方式采集与参考样本相同长度的测量数据集。

4.根据权利要求3所述的快速自动识别加密网络行为的方法，其特征在于，在Step3中，根据下列公式计算实时采集网络交互数据与模型库的相关系数：

ρ = \frac{Σ_{i = 1}^{N} XY - \frac{Σ_{i = 1}^{N} X Σ_{i = 1}^{N} Y}{N}}{\sqrt{(Σ_{i = 1}^{N} X^{2} - \frac{{(Σ_{i = 1}^{N} X)}^{2}}{N}) (Σ_{i = 1}^{N} Y^{2} - \frac{{(Σ_{i = 1}^{N} Y)}^{2}}{N})}}

5.根据权利要求4所述的快速自动识别加密网络行为的方法，其特征在于，在Step3中，