CN109831448A

CN109831448A - 针对特定加密网页访问行为的检测方法

Info

Publication number: CN109831448A
Application number: CN201910165406.8A
Authority: CN
Inventors: 华纯阳; 曾昊
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-05-31

Abstract

本发明提出了一种针对特定加密网页访问行为的检测方法，首先对某特定网页建立指纹库，然后在复杂流量环境中根据指纹库中的内容对特定网页进行特征的匹配，最后根据匹配结果，对本次识别进行建模并得到相似度系数，最终确定流量环境中是否存在访问行为。本发明充分利用了网页传输过程中的特点，具有较高的可靠性以及稳定性。

Description

针对特定加密网页访问行为的检测方法

技术领域

本发明涉及网络与信息安全技术，具体涉及一种针对特定加密网页访问行为的检测方法。

背景技术

随着移动互联网通信的蓬勃发展，各种类型的网络服务为人们的生产生活提供了极大便利，与此同时网络中包含的信息就越来越多。出于安全性考虑，服务提供者将传输协议逐渐从HTTP协议[1]升级成加密的HTTPS协议[2]，这样做可以使得原本对攻击没有抵抗能力的数据传输方式变得能够抵抗大多数的攻击。国内的阿里和百度均实现了全站使用HTTPS协议，如Google、Facebook、Twitter等也都使用了这样的安全传输机制，国内的百度和阿里的全线产品也都进行了HTTPS的保护。HTTPS使用的是SSL加密HTTP流量，使得访问的内容在流量上不可观测。

在以往对网页访问行为的识别有基于分类器的、特征匹配的，但是其都是针对单流的，没有对网页访问行为的其他流量相关联，这样很显然会造成对流量使用率降低，以及对网页识别的不准确性。

发明内容

本发明的目的在于提出了一种针对特定加密网页访问行为的检测方法。

实现本发明的技术解决方案为：一种针对特定加密网页访问行为的检测方法，包括以下流程：

步骤1、对目标网页X进行访问，抓取访问X网页的流量，所述流量包括HTTPS加密流以及HTTP明文流；

步骤2、从TCP层对步骤1中获得到的HTTPS加密流提取特征，并将其作为该网页的指纹库，所述特征包括DNS中的A记录名称、该流资源个数、该流资源长度序列；

步骤3、提取HTTP明文流特征，并将其作为该网页的指纹库，所述特征包括DNS中的A记录名称、最大资源TCP重组后的字节数、资源的MD5值；

步骤4、采集待检测流量，根据步骤2、步骤3中的DNS中的A记录名称，提取出待检测流量中DNS协议内容中的IP地址，根据IP地址将待检测流量中不包含这些IP地址的流量过滤；

步骤5、设置时间窗口，以匹配到主流的时间为开始时间，以这个开始时间+10s的时间为结束时间，将步骤4中经过IP地址过滤并且在这个时间内开始的流量提取出来，作为本次对目标网页识别的流量集合；

步骤6、在步骤5的流量集合中，分别选择HTTP明文流、HTTPS加密流与指纹库中的相应特征进行匹配比较，最终得到n条HTTP明文流命中结果以及m条HTTPS加密流命中结果，并且每个结果对应命中的流中资源个数；

步骤7、建立网页访问流量识别模型，具体为：

T’＝M_MR*AP_coefficient*AE_coefficient

式中，M_MR为匹配度系数的基准值，AP_coefficient为辅助明文流补偿系数，AE_coefficient为辅助密文流补偿系数，T’采样相似度系数；

对采样相似度系数T’作归一化，得到T记为相似度系数，其计算公式为：

T＝min(T',1)

当得到的T大于等于0.9，则表示识别到对特定网页的访问行为。

优选地，从TCP层对步骤1中获得到的HTTPS加密流提取特征，并将其作为该网页的指纹库的具体方法为：

提取每一条HTTPS加密流的长度序列，并按时间顺序对其进行排列，排序为第一个的称为主流，其余的称为辅助流，分别记录每条流对应的DNS中的A记录名称，最终对每条得到的HTTPS流得到特征值为：DNS中的A记录名称、该流资源个数、该流资源长度序列。

优选地，提取的HTTPS加密流的长度序列为：

式中，表示flow这条流对应的第i个资源的长度，具体为：

其中，则是传输第i个资源的第j个数据包的长度。

优选地，步骤7网页访问流量识别模型中匹配度系数的基准值M_MR具体计算公式为：

M_MR＝Sim_encrypt(num)

函数Sim_encrypt()为匹配到HTTPS加密流对应的匹配度，其是一个关于资源数num的离散函数，对应值为：

优选地，辅助明文流补偿系数AP_coefficient计算公式为：

式中n为匹配到特定网页指纹中HTTP流的个数，P设置为1.5。

优选地，辅助密文流补偿系数AE_coefficient的计算公式为：

式中m为匹配到质问中HTTPS流的个数，num_i为第i条辅助密文流的资源个数。

本发明与现有技术相比，其显著优点为：本发明充分利用了网页传输过程中的特点，并提出了一种建模以及判断的标准，具有高可靠性以及识别稳定性。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1是本发明的流程图。

具体实施方式

一种针对特定加密网页访问行为的检测方法，包括以下流程：

步骤2、从TCP层对步骤1中获得到的HTTPS加密流提取特征，并将其作为该网页的指纹库，所述特征包括DNS中的A记录名称、该流资源个数、该流资源长度序列，具体方法为：

进一步的实施例中，提取的HTTPS加密流的长度序列为：

式中，len_resourcei表示flow这条流对应的第i个资源的长度，具体为：

其中len_resourcei表示第i个资源的长度，而len_packet _i，j则是传输第i个资源的第j个数据包的长度。

步骤7、建立网页访问流量识别模型，具体为：

T’＝M_MR*AP_coefficient*AE_coefficient

匹配度系数的基准值M_MR具体计算公式为：

M_MR＝Sim_encrypt(num)

辅助明文流补偿系数AP_coefficient计算公式为：

式中n为匹配到特定网页指纹中HTTP流的个数，P设置为1.5。

辅助密文流补偿系数AE_coefficient的计算公式为：

T＝min(T',1)

在本发明中将HTTPS加密流中资源长度定义为流中非TLS握手包，且ACK值相同的服务器传给客户端的数据包重组得到的长度值，即一条HTTPS加密流可以被描述为式(1)。

flow＝{resource₁}∪{resource₂}...∪{resource_n} (1)

其中，flow代表一条HTTPS流，resource_i代表所传输的第i个资源。一条HTTPS加密流中的资源是由若干个数据包传输的，因此资源可以被描述为式(2)。

resource_i＝{packet_i,1}∪{packet_i,2}∪...∪{packet_i,j} (2)

其中，packet指的是传输对应资源的数据包，下标i表示了其归属于第i个资源，j表示其对应数据包的顺序。

本发明中是直接比较采样得到的指纹内容是否与指纹库中的内容相同，对于HTTP明文流，比较DNS协议中存在的A记录与检测到的流的IP是否相同，比较对应重组后长度最大的资源的长度与指纹中的是否相同，比较重组后长度最大资源内容的哈希值与指纹中的哈希值是否相同，对于HTTPS加密流，比较DNS协议中存在的A记录与检测到的流的IP是否相同，比较对应的资源个数是否相同，比较对应的资源长度序列是否相同。

实施例

如图1所示，本发明首先对某特定网页建立指纹库，然后在复杂流量环境中根据指纹库中的内容对特定网页进行特征的匹配，最后根据匹配结果，对本次识别进行建模并得到相似度系数，最终确定流量环境中是否存在访问行为，具体流程如下：

步骤1、对目标网页X进行访问，利用wireshark对访问Github.comd网页的流量进行抓取，此网页主页是HTTPS协议传输的网页，不含HTTP协议的成分；

步骤2、提取数据流的特征，提取出对应HTTPS，得到其主流的特征如表1所示。

表1主流指纹内容

辅助加密流特征为表2，表3，表4，表5，表6。

表2第一条流的特征

表3第二条流的特征

表4第三条流的特征

表5第四条流的特征

表6第五条流的特征

步骤3、本实施例中不包含HTTP流，因此没有辅助明文流特征。

步骤4、在实验环境中访问其主页，并加入其他的流量，采集待检测流量；

步骤5、对流量进行过滤操作。

步骤5、匹配主流，匹配结果如表7的中展示的流的特征。

表7主流匹配到的特征

第一个特征为根据DNS查询到的IP，资源长度序列以及资源个数与指纹中的完全一样，因此匹配到主流。

不包含HTTP明文流因此n＝0

HTTPS明文流匹配到的第一到第五条辅助加密流的特征如表8，表9，表10，表11，表12所示。

表8第一条密文辅助流匹配到的特征

表9第二条密文辅助流匹配到的特征

表10第三条密文辅助流匹配到的特征

表11第四条密文辅助流匹配到的特征

表12第五条密文辅助流匹配到的特征

得到m＝5，以及对应的元素个数。

步骤7、根据步骤6得到AP_coefficient＝1，根据步骤6得到相的系数如表14所示。

表14密文流对应的系数

计算系数根据得到AE_coefficient＝1.4*1.2*1.2*1.4*1.3＝3.66912，M_MR＝0.25，AP_coefficient＝1，得到T值为0.91大于0.9，因此存在本网页的访问行为。

Claims

1.一种针对特定加密网页访问行为的检测方法，其特征在于，包括以下流程：

步骤7、建立网页访问流量识别模型，具体为：

T’＝M_MR*AP_coefficient*AE_coefficient

T＝min(T',1)

2.根据权利要求1所述的针对特定加密网页访问行为的检测方法，其特征在于，从TCP层对步骤1中获得到的HTTPS加密流提取特征，并将其作为该网页的指纹库的具体方法为：

3.根据权利要求2所述的针对特定加密网页访问行为的检测方法，其特征在于，提取的HTTPS加密流的长度序列为：

式中，表示flow这条流对应的第i个资源的长度，具体为：

其中，是传输第i个资源的第j个数据包的长度。

4.根据权利要求1所述的针对特定加密网页访问行为的检测方法，其特征在于，步骤7网页访问流量识别模型中匹配度系数的基准值M_MR具体计算公式为：

M_MR＝Sim_encrypt(num)

5.根据权利要求1所述的针对特定加密网页访问行为的检测方法，其特征在于，辅助明文流补偿系数AP_coefficient计算公式为：

式中n为匹配到特定网页指纹中HTTP流的个数，P设置为1.5。

6.根据权利要求1所述的针对特定加密网页访问行为的检测方法，其特征在于，辅助密文流补偿系数AE_coefficient的计算公式为：