CN116016365A

CN116016365A - 一种加密流量下基于数据包长度信息的网页识别方法

Info

Publication number: CN116016365A
Application number: CN202310019534.8A
Authority: CN
Inventors: 余翔湛; 李竑杰; 李精卫; 刘立坤; 孔德文; 羿天阳; 刘奉哲; 龚家兴; 王钲浩; 郭一澄; 张森; 程明明
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-04-25
Anticipated expiration: 2043-01-06
Also published as: CN116016365B

Abstract

本发明提出一种加密流量下基于数据包长度信息的网页识别方法，属于网页识别技术领域。包括以下步骤：S1.模拟用户的浏览行为，访问不同网站，获取加密流量数据；S2.对加密流量数据进行处理；S3.提取加密流量数据特征，保存为网页指纹；S4.将网页指纹进行分类，建立加密流量数据特征与网页指纹的对应关系；S5.构建网页指纹识别模型；S6.将加密流量数据特征和网页的真实ID作为网页指纹识别模型的输入，输出网页的预测ID。解决现有技术中存在的无法细粒度的识别网页的技术问题。本发明将数据包长度信息作为一维特征的预处理算法，可以解决网页识别问题中的特征提取时间复杂性问题，并且训练时间较短，时间复杂度很低。

Description

一种加密流量下基于数据包长度信息的网页识别方法

技术领域

本申请涉及一种网页识别方法，尤其涉及一种加密流量下基于数据包长度信息的网页识别方法，属于网页识别技术领域。

背景技术

全球互联网进入加密时代已经是大势所趋，这为管理机构带来了网络流量分类的相关挑战和问题，如何通过这些信息获取到用户具体在访问哪一个网页，进而对用户的加密通信进行监控与管理，是一个很有挑战性的问题。当前的研究粒度多数只局限在网站或者应用程序这一层面，而不是更加细粒度的相同网站下具体的不同网页的区分。而同一个网站下的不同网页通常具有非常类似的流量，现有的网站识别方法通常不适用于更加细粒度的网页识别。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，为解决现有技术中存在的无法细粒度的识别网页的技术问题，本发明提供一种加密流量下基于数据包长度信息的网页识别方法。本发明提出了一种基于加密网络流的细粒度网页识别，主要针对特定大型的加密网站，例如京东，亚马逊等等，通过旁路检测，复制用户的流量，利用数据包长度信息提取块特征(数据包长度序列的层次)、序列特征(数据包长度信息的子序列)和统计特征，构造每个网页的特征向量，将其输入到机器学习分类算法中构造模型，使用特征向量对该模型进行训练，最后将生成的模型用于细粒度的网页识别，从而判断出用户在访问哪些网页。

方案一：一种加密流量下基于数据包长度信息的网页识别方法，包括以下步骤：

S1.模拟用户的浏览行为，访问不同网站，获取加密流量数据；

S2.对加密流量数据进行处理；

S3.提取加密流量数据特征，保存为网页指纹；

S4.将网页指纹进行分类，建立加密流量数据特征与网页指纹的对应关系；

S5.构建网页指纹识别模型；

S6.将加密流量数据特征和网页的真实ID作为网页指纹识别模型的输入，输出网页的预测ID。

优选的，S1具体是：

S11.请求访问网站的搜索页面；

S12.获取网页响应内容,解析网页内容；

S13.获得网站下不同商品网页的URL,生成网页列表；

S14.启动webdriver驱动,启动流量器，等待10S；

S15.启动OpenQpa或者调用scapy开始抓包；

S16.重复访问不同网页；

S17.捕获访问每个网页60S生成的加密流量数据，使用selenium定位网页元素清楚chrome流量器的缓存；

S18.将捕获的流量保存为pcap文件。

S19.重复S14-S18，直至收集完成所有网页的加密流量数据。

优选的，S2具体是：

S21.查看SSL/TLS协议中的Client Hello和Server Hello信息的服务器名称指示扩展字段；

S22.如果指示扩展字段中包括服务器名称，将相应的IP地址记录为有效服务器地址；

S23.如果指示扩展字段中不包括服务器名称，将相应的IP地址记录为无效服务器地址；

S24.遍历所有加密流量数据；

S25.将源或目的服务器地址为无效服务器地址的数据进行丢弃。

优选的，S3具体是：

S31.提取数据包长度的原始信息，得出序列T₀＝{t₁,t₂,t₃,...,,t_n}，序列中t_i>0的表示下载数据包长度，t_i＝0表示所有上传数据包长度；

S32.计算数据包长度的累加和，获得上传数据包长度为0的序列L₀＝{l₁,l₂,l₃,...,,l_n}，其中l_i的通过下式计算得到：

其中，t_i表示第i个数据包的原始长度，i表示数据包长度的原始信息序列的下标，N表示原始数据包长度序列的元素总数；

S33.提取L₀序列的块特征、序列特征和统计特征；

块特征：

F₁＝{(b₁,e₁,l₁),(b₂,e₂,l₂),...,(b_K,e_K,l_K)}

其中，b_i表示块的开始位置，e_i表示块的结束位置，l_i表示块对应的累积数据包长度；

序列特征：

F₂＝{l_x,l_x+1,...,l_y}

其中x和y分别指的是序列特征的开始与结束位置，其中，l_x表示序列特征的第一个元素，l_y表示序列特征的最后一个元素。

统计特征：从原始数据包的长度序列中提取，对于每个原始的数据包长度序列，分为三个子序列：上传数据包长度信息序列、下载数据包长度信息系列和完整的数据包长度信息系列，计算每个子序列的最小值、最大值、平均值、中位数绝对偏差、标准偏差、方差、偏度、峰度、百分位数以及数据包的总数量。

方案二、一种电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现方案一所述的一种加密流量下基于数据包长度信息的网页识别方法的步骤。

方案三、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案一所述的一种加密流量下基于数据包长度信息的网页识别方法。

本发明的有益效果如下：本发明将数据包长度信息作为一维特征的预处理算法，可以解决网页识别问题中的特征提取时间复杂性问题，并且训练时间较短，时间复杂度很低。本发明可以更加细粒度，更加稳定地推测用户访问同一网站上的哪一个特定网页，可以解决网页识别的细粒度问题，并且使用了机器学习算法的分类器，在加密流量识别的方面更准确，更高效。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一种加密流量下基于数据包长度信息的网页识别方法流程示意图；

图2为获取加密流量数据流程示意图；

图3为对加密流量数据进行处理流程示意图；

图4为上传数据包块的示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1、参照图1-图4说明本实施方式，一种加密流量下基于数据包长度信息的网页识别方法，包括以下步骤：

S11.请求访问网站的搜索页面；

S12.获取网页响应内容,解析网页内容；

S13.获得网站下不同商品网页的URL,生成网页列表；

S14.启动webdriver驱动,启动流量器，等待10S；

S15.启动OpenQpa或者调用scapy开始抓包；

S16.重复访问不同网页；

S18.将捕获的流量保存为pcap文件。

S19.重复S14-S18，直至收集完成所有网页的加密流量数据。

本发明收集了真实的网页流量数据集，为了模拟浏览器的多样性，本发明在数据收集的过程中使用了Chrome，Mozilla Firefox和edge浏览器，使用脚本模拟用户的浏览行为。

脚本指的是使用python代码，库是使用Chromedriver和Selenium库，模拟用户鼠标点击以及网页切换的过程。Chromedriver和Selenium库均为现有技术，只是使用python脚本进行调用，模拟用户的点击和对网页的访问，调用scapy库收集流量。

流量捕获的部分本发明使用了OpenQpa和python的scapy库进行流量的抓取；使用python脚本自动捕获访问特定网页30秒生成的流量，这个网页加载时间可以保证一般情况下浏览器可以成功加载网页中的所有元素。另外，脚本会在访问一个网页之前清空浏览器缓存，在每次访问完成之后关闭浏览器。

具体的流量采集流程为：第一步，selenium脚本调用webdriver驱动器，它会开启一个特别的firefox，chrome或edge浏览器，这个浏览器经过selenium的程序操控来完成进行下一步的工作。第二步，再建立一个新线程，使用scapy库的sniff功能来捕捉，或者调用OpenQPA.exe程序来进行基于进程的流量捕获，如果使用scapy库，它只能捕获所有进程经过该网卡的流量，所以系统需要对所有捕获到的流量进行预处理，得出网页访问的纯净流量。而使用OpenQPA，它能够将selenium开启的chrome，firefox或者edge浏览器识别并当作一个独立的进程，获取该进程经过网卡的流量并将其作为pcap分别存储，减少预处理步骤，因此较为方便。第三步，浏览器通过预先设定好的selenium代码脚本，访问特定的网站，对于每一个网站，设定的时间窗口为60秒，这个相对较长的时间窗口可以保证在一般情况下，浏览器都会成功加载网站中的所有元素。而且在每次访问某个网站之前，selenium会跳转到clearBrowserData网页，定位清除缓存的按钮，并执行相关操作，清空浏览器的所有缓存。访问每个网站结束，而且selenium的动作序列执行完毕之后，在Python代码中关闭浏览器，并且终止OpenQPA.exe进程或者停止scapy的sniff函数，进而生成相应的pcap文件。最后将生成的pcap文件保存到对应的该网页的目录下。

S2.对加密流量数据进行处理；

加密流量数据的每个数据包都包含以下信息：源和目的IP地址，源和目的端口号，通信协议，时间戳，数据包长度信息和数据包标志位(例如FIN，SYN，ACK)。

为了筛选出不同网页的流量中更加有代表性的数据包，本发明标记其中的部分IP地址，方法是查看SSL/TLS协议中的Client Hello和Server Hello信息的服务器名称指示扩展字段(SNI)，具体来说，如果SNI中存在“item.jd.com”或者“360buying.com”(代表京东商品网页的图像加载)的服务器名称，会将相应的IP地址(即下载数据包中的源IP地址和上传数据包中的目的IP地址)记录为有效的服务器地址。然后遍历数据集，将源或目的IP为无效IP的数据包进行丢弃。由于网站通常涉及具有不同IP地址的多个服务器，因此收集服务器IP地址使本发明能够保留所需的数据包。

本发明将该字段与“item.jd.com”和“360buying.com”等指定字符串进行一次正则匹配，如果命中，则将服务器的IP地址加入有效IP地址列表。本发明通过端口号区分服务器的IP地址和客户端的IP地址，SSL/TLS协议的端口号一般都是443，而且远小于客户端的端口号。得出有效IP地址列表后，再次对数据包进行遍历，只保留数据包中服务器IP地址为有效的那些。

具体的，步骤如下：

S24.遍历所有加密流量数据；

S3.提取加密流量数据特征，保存为网页指纹；

具体的，为了使得数据包长度序列中的仅上传数据包块更加容易识别本发明将数据包长度序列中所有的上传数据包长度设置为0，并且保持所有的下载数据包长度不变。

其中，t_i表示第i个数据包的原始长度，i表示数据包长度的原始信息序列的下标，N表示原始数据包长度序列的元素总数，也就是总长。

S33.提取L₀序列的块特征、序列特征和统计特征；

块特征就是指L₀序列中的仅上传数据包块的起始终止位置和具体的值，例如，如果L₀序列是[0，66，66，66，66，66，1414,2828,4242,5656,5656,5656,7070,8484,9898,11312,11312,12726,13569,14983,16397,17811,19225,19225,19225,19225,19225,20639]，其中共有2块仅上传数据包块，分别是[66,66,66,66,66]和[19225,19225,19225,19225,19225]，那么，其中66和19225就是仅上传数据包块B1和仅上传数据包块B2的值，块特征就是[(1，5，66)，(21，25，19225)]；需要注意的是只有连续4个及以上值不变的子序列才被看作是仅上传数据包块，如上述中的两个仅上传数据包块的长度均为5，而[5656,5656,5656]的长度为3，不可以视为仅上传数据包块。

序列特征：序列特征指的是根据块特征中所有仅上传数据包块的开始和终止位置提取出中间这段序列，例如，上文中第一个仅上传数据包块的开始位置是1，最后一个仅上传数据包块结束位置是25，那么序列特征就是L₀序列的第1到第25位的子序列；实际计算中使用平均数的方法对所有序列的第一个仅上传数据包的开始位置b₁和最后一个仅上传数据包的结束位置e_k求平均值；分别取整得到x与y，然后，提取L₀序列的第x到第y位的子序列作为序列特征。

最后得到的序列特征格式为F₂＝{l_x,l_x+1,...,l_y}。

统计特征：统计特征是对原始数据包的长度序列进行整体的数学运算。计算每个序列的以下统计特征：最小值，最大值，平均值，中位数绝对偏差，标准偏差，方差，偏度，峰度，百分位数(从10％到90％)以及数据包的总数量。计算出来的是一个54维的一维向量。

原始数据包长度序列的格式如下，是网页的加密流量的原始数据包长度信息序列。

块特征：

F₁＝{(b₁,e₁,l₁),(b₂,e₂,l₂),...,(b_K,e_K,l_K)}

块特征的计算方法是：

步骤一、初始化计数器集合V＝{l:c}，开始位置集合B＝{l:b}，结束位置集合E＝{l:e}；三个集合刚开始都是空集，不包含元素；

步骤二、对于L₀序列中的每个l_i，如果l_i等于l_i+1并且计数器V中包含l_i，那么将l_i对应的计数器V[l_i]的值加1；否则，将l_i对应的开始位置B[l_i]设置为i；

步骤三、对于L₀序列中的每个l_i，如果l_i不等于l_i+1并且计数器V中包含l_i，那么将l_i对应的结束位置E[l_i]设置为i；

步骤四、提取计数器集合V中大于等于4的元素，也就是仅上传数据包块，将其个数记作K，根据V,B,S计算得到仅上传数包块集合，也就是块特征，格式为F₁＝{(b₁,e₁,l₁),(b₂,e₂,l₂),...,(b_K,e_K,l_K)}。

序列特征：

F₂＝{l_x,l_x+1,...,l_y}

其中，x和y分别指的是序列特征的开始与结束位置，l_x表示序列特征的第一个元素，l_y表示序列特征的最后一个元素；

统计特征：从原始数据包的长度序列中提取，对于每个原始的数据包长度序列，分为三个子序列：上传数据包长度信息序列、下载数据包长度信息系列和完整的数据包长度信息系列，计算每个子序列的最小值、最大值、平均值、中位数绝对偏差、标准偏差、方差、偏度、峰度、百分位数以及数据包的总数量；

参照图4，说明数据包长度的序列特征和仅上传数据包块特征可以充分体现客户端和服务器的双向交互过程中的上传数据包主导阶段的特征，因为每个仅上传数据包块中的累积数据包长度是保持不变的。而且不同的网页流量在上传数据包主导阶段是存在异同点的(请求文本，图像，音视频等等资源的不同)。

数据包长度信息序列的计算示例参见表1三种类型的数据包长度序列示例表；

统计特征参见表2基于数据包长度的统计特征表；

块特征、序列特征和统计特征序列参见表3块特征、序列特征和统计特征序列表。

表1三种类型的数据包长度序列示例表

表2基于数据包长度的统计特征表

将块特征、序列特征和统计特征进行连接构成网页指纹，例如表3块特征、序列特征和统计特征序列表，那么网页指纹就是一维向量：[(11,17,21320),(47,50,56330),47494,47494,48908,48908,50322,54,1414,895,603,625,391194,0,-2,54,54,153,765,1414,1414,1414,1414,1414,2033,54,750,119,86,133,17809,3,7,54,54,54,54,54,54,128,153,187,510,54,1414,1155,397,497,247124,-2,0,85,769,1414,1414,1414,1414,1414,1414,1414,1523]；

系统对每个网页分配一个网页ID，0,1,2,...,X，X为总的网页数量，将网页对应的网页指纹和网页的ID作为机器学习分类器的输入，分类器预测后输出预测结果，也就是预测的网页ID，与真实的网页ID进行比较可以计算出分类的准确率和分类效果。

表3块特征、序列特征和统计特征序列表

S5.构建网页指纹识别模型；

本系统是将加密流量的三种特征进行连接构成的特征向量作为网页指纹输入到传统的机器学习模型中来构建分类模块的，使用了四种典型的全监督式机器学习方法作为分类器：k-近邻算法(k-NN)、随机森林算法(RF)，朴素贝叶斯算法(NB)和决策树算法(DTree)。本系统使用四种分类器进行对比，将网页指纹数据集按照0.75，0.25的比例划分训练集和测试集合，对四种分类器均分别进行训练，输出训练完成的网页指纹识别的四种分类器模型。最后将根据准确率，选择分类效果最佳的分类器作为系统的分类器。

本发明将流量的特征向量作为网页指纹，形如[(11,17,21320),(47,50,56330)，47494,47494,48908,48908,50322，54,1414,895,603,625,391194,0,-2,54,54,153,765,1414,1414,1414,1414,1414,2033,54,750,119,86,133,17809,3,7,54,54,54,54,54,54,128,153,187,510,54,1414,1155,397,497,247124,-2,0,85,769,1414,1414,1414,1414,1414,1414,1414,1523]输入到传统的机器学习模型中来构建分类模块的，本发明使用了四种典型的全监督式机器学习方法作为分类器：k-近邻算法(k-NN)、随机森林算法(RF)，朴素贝叶斯算法(NB)和决策树算法(DTree)。

使用随机森林算法的好处是训练和测试时间短，易于优化和改变上述的特征，而且在使用随机森林算法时可以很容易地进行预测，而无需进行大量计算或预处理。RandomForests学习模型创建了许多独立的决策树，分类器之间的相关性较低，具有不同的预测特征组合。随机森林模型通过获取所有决策树的结果并进行多数投票来评估数据的类。很容易推断，某些决策树将返回比其他树更准确的成功预测，因为它们会随机地捕获一组预测特征。从逻辑上讲，这些树做出的决策应该比准确预测率较低的树做出的决策更重要。因此，系统使用袋外错误率(OOB error)来预测准确性，并且将这些准确性指定为决策树的权重，这样可以为集合中的高精度决策树做出的决策分配更大的权重。

一旦集合中的所有决策树都以这种方式训练完毕，测试集就会传递到随机森林模型，其中每个决策树都将给定的数据分类为对应的类。这些决策，h_i(x)，乘以其各自决策树的权重以给出加权投票，

最后执行加权多数投票以决定项目的最终类别，H(x)。

计算方法见如下公式。

本发明还使用了k-最近邻(k-NN)算法，这是最广为人知的分类方法之一。该算法需要计算未标记对象到训练集中所有标记对象的距离。然后使用多数投票原则根据距离的权重来确定样本的类标签。本发明使用的k-近邻算法的距离指标是欧氏距离，也是最常用的距离测量值，计算公式如下：

因为在网页指纹分类问题中，网页指纹向量样本的分布是比较成簇的，较少出现离群的异常向量，所以本发明为所有最近邻样本分配的权重都一样，选择算法的参数为"uniform"，而不是选择将权重和距离成反比例的“distance”参数。

然后本模块使用朴素贝叶斯算法，决策树算法与随机森林算法进行对比，一般来说，随机森林是优于单一的决策树算法的，因为随机森林的树木未被修剪，而且数目多种多样，特征集合也多种多样，为不同的树木创造了多样性。

本模块按照上述过程构造分类器算法，将网页指纹数据集按照0.75，0.25的比例划分训练集和测试集合，对分类器进行训练，最后输出训练完成的网页指纹识别的四种分类器模型，经过测试本发明在网页数量为500的规模下准确度可以达到75.9％，并且计算复杂度低，响应时间短。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种加密流量下基于数据包长度信息的网页识别方法，其特征在于，包括以下步骤：

S2.对加密流量数据进行处理；

S3.提取加密流量数据特征，保存为网页指纹；

S5.构建网页指纹识别模型；

2.根据权利要求1所述一种加密流量下基于数据包长度信息的网页识别方法，其特征在于，S1具体是：

S11.请求访问网站的搜索页面；

S12.获取网页响应内容,解析网页内容；

S13.获得网站下不同商品网页的URL,生成网页列表；

S14.启动webdriver驱动,启动流量器，等待10S；

S15.启动OpenQpa或者调用scapy开始抓包；

S16.重复访问不同网页；

S18.将捕获的流量保存为pcap文件。

S19.重复S14-S18，直至收集完成所有网页的加密流量数据。

3.根据权利要求1所述一种加密流量下基于数据包长度信息的网页识别方法，其特征在于，S2具体是：

S21.查看SSL/TLS协议中的ClientHello和ServerHello信息的服务器名称指示扩展字段；

S24.遍历所有加密流量数据；

4.根据权利要求1所述一种加密流量下基于数据包长度信息的网页识别方法，其特征在于，S3具体是：

S33.提取L₀序列的块特征、序列特征和统计特征；

块特征：

F₁＝{(b₁,e₁,l₁),(b₂,e₂,l₂),...,(b_K,e_K,l_K)}

序列特征：

F₂＝{l_x,l_x+1,...,l_y}

5.一种电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1-4任一项所述的一种加密流量下基于数据包长度信息的网页识别方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的一种加密流量下基于数据包长度信息的网页识别方法。