CN108881305B

CN108881305B - 一种面向加密流量识别的样本自动标定方法

Info

Publication number: CN108881305B
Application number: CN201810897782.1A
Authority: CN
Inventors: 马小博; 师马玮; 焦洪山; 安冰玉; 赵延康; 李剑锋; 彭嘉豪
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2020-04-28
Anticipated expiration: 2038-08-08
Also published as: CN108881305A

Abstract

本发明公开了一种面向加密流量识别的样本自动标定方法，提出基于TCP特性的流量拆分方法，从划分不同的应用程序为出发点，将流量拆分为多个不同的样本，借助代理服务器端的日志信息对流量数据进行解析和拆分，从而实现响应网络行为与流量数据的对应关系，即实现分类学习中的流量数据标定。本方法充分利用了应用层通信协议TCP的相关知识和代理服务器端的日志信息，可应用于真实场景下的加密流量识别。

Description

一种面向加密流量识别的样本自动标定方法

技术领域

本发明属于网络安全与用户隐私领域，特别涉及一种面向加密流量识别的样本自动标定方法。

背景技术

近年来，随着互联网的高速发展，网络已经紧密地融入我们的生产与生活，网络安全也成为一个不可忽视的问题。在日常生活中，人们的网络安全意识也逐渐提高，越来越多的用户和企业开始重视信息的保护和安全传输。基于加密流量的网络行为识别技术，可以用来实现网络的安全监管，特别是非法业务和不良信息的监管，如人口贩卖，卖淫赌博，军火交易等。加密流量识别(Website Fingerprinting，WF)就是一种通过对网络流量的特征提取并结合有监督的分类模型对用户行为基于网站进行分类的技术。目前关于加密流量识别技术的研究中，实验数据的采集假设性很强，即通过严格的时间戳控制一次人为的网站请求的开始和结束以确保流量数据和网络行为的对应关系。然而，在真实的网络环境下，这种假设性很强的流量样本训练出的分类器并不适用，因为在出口抓流量并不能确定用户访问的开始和结束时间点，获取到的流量是多个用户甚至多个网站请求杂糅在一起的，因此不能抓到整个会话的所有流量与网络行为进行对应。何把获取到的混合流量拆分为不同的网站请求数据因此是值得关注的重要问题。

选择一种合理有效的流量预处理方法，是一个非常重要的问题，理由包括：(1)加密流量识别技术的本质是基于有监督机器学习模型的分类技术，对于样本的标定是至关重要的问题，即如何确定网络行为和流量数据的对应关系。(2)真实网络场景下只能得到混合流量的数据，如何将其拆分为不同的网站请求数据作为训练样本是分类学习中的基本问题。

国内外关于加密流量识别技术的流量预处理方法目前只有针对Tor的仿真数据处理方法。在实验数据采集时就具有较强的假设，即通过严格的时间戳来控制每一次请求的开始和结束，具有很强指向性的流量很容易确保数据与网络行为的对应关系。然而，在真实的网络环境下，这种假设性很强的流量样本训练出的分类器并不适用，因为在出口抓流量并不能确定用户访问的开始和结束时间点，获取到的流量是多个用户甚至多个网站请求杂糅在一起的，因此不能抓到整个会话的所有流量与网络行为进行对应。

发明内容

本发明的目的在于提供一种面向加密流量识别的样本自动标定方法，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种面向加密流量识别的样本自动标定方法，包括以下步骤：

步骤1：给定连续抓取n天的流量数据pcap文件，将其解析为<时间戳，客户端IP，客户端Port，传输方向，数据包长度>格式的流量数据序列，要求序列按照时间戳从小到大排序；给定在代理服务器端生成的通信日志，其中每条记录的格式为<时间戳，目标网址，客户端IP，客户端Port>，要求通信日志是每隔两小时生成一个日志文件，命名格式为“年-月-日-起始时刻”；

步骤2：选出包含从流量抓取到结束这一时间段的所有日志文件；

步骤3：以每天的偶数整点时刻为一个划分点，将在相邻两个偶数整点时刻内的流量数据划分到id为“年-月-日-起始时刻”的集合内，在每个集合内将具有相同客户端IP和客户端Port的流量数据的时间戳和数据包长度提取出来组合成按照时间戳从小到大排序的序列，每个序列被定义为一个TCP流；

步骤4：将流量数据集合与名称等于集合id的日志文件匹配，即同一时间段的流量数据集合与日志文件对，在每个集合中，将拥有相同的IP和Port的目标网址和TCP流对应起来，将目标网址作为该TCP流的类别标签；

步骤5：遍历每个流量数据集合，完成对所有TCP流的类别标定。

进一步的，步骤1中，生成日志文件的具体方法为：在每天的偶数整点时刻0:00，2:00，4:00，6:00，8:00…以此类推生成一个日志文件。

进一步的，步骤2中，选出特定日志文件的具体方法为：将流量数据序列中最大和最小的时间戳记为ts₀和ts₁，将其转换为“年-月-日-时:分:秒”的格式，记为t₀和t₁；比较出小于且最接近t₀和小于且最接近于t₁的偶数整点时刻_t₀和_t₁，格式为“年-月-日-偶数时刻”，与步骤1生成的日志文件名称进行匹配，挑选出名称所表示的时间在_t₀和_t₁之间且包含_t₀和_t₁在内的所有日志文件。

进一步的，访问的网站集合和样本采集时间由用户自行设定。

与现有技术相比，本发明有以下技术效果：

本发明在获取的通信流量是多个用户发起甚至多个网站请求杂糅在一起的情况下，根据<源IP，源端口，目的IP，目的端口>四元组作为划分TCP流的唯一标识，将相同时间段内的流量数据和网站访问日志一一对应，此方法能准确的将TCP流与网站行为对应起来，完成流量样本的类别标定。

本发明与其他假设性较强的仿真流量相比，将TCP流作为研究的基本数据单元，而非一次完整的网站请求行为，从而解决加密流量识别的真实流量预处理问题，可以将优秀的分类模型应用在真实网络场景下，准确识别用户行为。

附图说明

图1为本发明流程图。

具体实施方式

以下结合附图对本发明进一步说明：

请参阅图1，一种面向加密流量识别的样本自动标定方法，包括以下步骤：

步骤1中，生成日志文件的具体方法为：在每天的偶数整点时刻0:00，2:00，4:00，6:00，8:00…以此类推生成一个日志文件。

步骤2中，选出特定日志文件的具体方法为：将流量数据序列中最大和最小的时间戳记为ts₀和ts₁，将其转换为“年-月-日-时:分:秒”的格式，记为t₀和t₁；比较出小于且最接近t₀和小于且最接近于t₁的偶数整点时刻_t₀和_t₁，格式为“年-月-日-偶数时刻”，与步骤1生成的日志文件名称进行匹配，挑选出名称所表示的时间在_t₀和_t₁之间且包含_t₀和_t₁在内的所有日志文件。

访问的网站集合和样本采集时间由用户自行设定。

实施例：

步骤1：给定连续抓取n天的流量数据pcap文件，将其解析为<时间戳，客户端IP，客户端Port，数据包长度>格式的数据包序列，要求序列按照时间戳从小到大排序。给定在代理服务器端生成的通信日志，其中每条记录的格式为<时间戳，目标网址，客户端IP，客户端Port>，根据每两小时同一IP的端口不会复用的特性，要求通信日志是每隔两小时生成一个文件，即每天的偶数整点时刻0:00，2:00，4:00，6:00，8:00…以此类推生成一个日志文件，如2018/4/20的18:00到20:00的通信日志记为2018-04-20.18:00的文件。

步骤2：将数据包序列中最大和最小的时间戳记为ts₀和ts₁，将其转换为[年-月-日.时:分:秒]的格式，记为t₀和t₁。计算出小于且最接近t₀和小于且最接近于t₁的[年-月-日.偶数时刻:00]记为_t₀和_t₁，与记录的日志文件名称进行匹配，挑选出名称所表示的时间在_t₀和_t₁之间且包含_t₀和_t₁在内的所有日志文件，如2018-01-23.18:00到2018-02-11.22:00之间。

步骤3：以每日的偶数整点时刻为一个划分点，如2018/4/20的18:00到20:00为一个区间，将18:00到20:00的数据包都划分在id为2018/4/20.18:00的集合内，每个集合内根据每个数据包记录的IP和Port，将具有相同的IP和Port的数据包再组合成序列作为一个TCP流，新集合中每个元素格式如下：

[{IP1,Port1:[timstamp₁,len₁],[timestamp₂,len₂],…,[timestamp_n,len_n]},

{IP2,Port2:[timstamp₁,len₁],[timestamp₂,len₂],…,[timestamp_n,len_n]},

…]

步骤4：根据数据包集合的id，将集合与名称等于集合id的日志文件匹配，在集合中，以IP和Port为唯一标识，将拥有相同的IP和Port的目标网址和TCP流对应起来，将目标网址作为该TCP流的类别标签。

步骤5：遍历每个数据包集合，完成对所有TCP流的类别标定。

Claims

1.一种面向加密流量识别的样本自动标定方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向加密流量识别的样本自动标定方法，其特征在于，步骤1中，生成日志文件的具体方法为：在每天的偶数整点时刻0:00，2:00，4:00，6:00，8:00…以此类推生成一个日志文件。

3.根据权利要求1所述的一种面向加密流量识别的样本自动标定方法，其特征在于，步骤2中，选出特定日志文件的具体方法为：将流量数据序列中最大和最小的时间戳记为ts₀和ts₁，将其转换为“年-月-日-时:分:秒”的格式，记为t₀和t₁；比较出小于且最接近t₀和小于且最接近于t₁的偶数整点时刻_t₀和_t₁，格式为“年-月-日-偶数时刻”，与步骤1生成的日志文件名称进行匹配，挑选出名称所表示的时间在_t₀和_t₁之间且包含_t₀和_t₁在内的所有日志文件。

4.根据权利要求1所述的一种面向加密流量识别的样本自动标定方法，其特征在于，访问的网站集合和样本采集时间由用户自行设定。