CN111953669B

CN111953669B - 适用于SDN的Tor流量溯源与应用类型识别方法和系统

Info

Publication number: CN111953669B
Application number: CN202010751906.2A
Authority: CN
Inventors: 王良民; 王世豪; 殷尚男; 黄龙霞; 申屠浩; 余春堂; 谢晴晴
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2022-10-25
Anticipated expiration: 2040-07-30
Also published as: CN111953669A

Abstract

本发明公开一种适用于SDN的Tor流量溯源与应用类型识别方法和系统，首先对Tor流量进行发现与溯源，并提取多层次双向累积特征和基础的流特征作为基础特征向量，然后使用训练好的特征提取模型对基础特征向量进行特征重提取作为深度特征向量，最后使用训练好的分类器识别深度特征向量，得到Tor流量的应用类别。本发明能够实现Tor流量的识别与溯源，并提取用于应用类型识别的深度特征，提升识别率。

Description

适用于SDN的Tor流量溯源与应用类型识别方法和系统

技术领域

本发明属于网络安全技术，具体涉及一种适用于SDN的Tor流量溯源与应用类型识别方法和系统。

背景技术

Tor是当前最受欢迎的匿名通信系统之一，Tor致力于保护用户在访问网络时的安全性和隐私性，防止窃听者关联用户及其通信对象。然而，Tor良好的匿名性也被犯罪分子加以利用。

软件定义网络(Software Defined Network，SDN)作为新兴的网络架构，将网络设备控制面和数据面分离，实现了网络流量的灵活控制，被应用于大型数据中心等场景。

大型数据中心是Tor流量汇聚的关键场景，如何在SDN网络架构中打击Tor网络犯罪成为关键问题，当前在SDN网络架构中打击基于Tor网络的匿名犯罪面临以下问题：其一，基于传统网络架构的Tor流量监控方法，监控点的监控范围与溯源能力成反比，随着监控范围的扩大，虽然能够收集到的Tor流量越来越多，但是与此同时也越来越难以找到生成Tor流量的用户；其二，现有针对Tor的攻击，如网站指纹攻击(Website FingerprintingAttack)建立在正确识别Tor流量的应用类型的基础上，现有Tor流量应用类型识别方案往往使用基础流特征，统计数据包大小、时间间隔等信息，实际上Tor流量的前N个数据包中包含了丰富的应用协议握手信息，如何将这部分信息应用于应用类型识别任务成为关键问题；其三，受限于技术人员的知识范围，人工提出的特征并不是最具分离性的特征，如何自动提取能够应用于应用类型识别任务的具备高分离性的特征同样非常重要。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种适用于SDN的Tor流量溯源与应用类型识别方法和系统,实现SDN网络架构中针对Tor流量的大范围发现与溯源，并提升Tor流量应用类型识别任务的准确率。

技术方案：本发明的一种适用于SDN的Tor流量溯源与应用类型识别方法，依次包括以下步骤：

(1)SDN控制器周期性分析Tor网络的入口节点信息，SDN控制器控制SDN交换机依据IP和端口发现待识别Tor流量，并将待识别Tor流量复制转发至SDN域内的服务器，服务器抓取捕获保存所述待识别Tor流量，并确定所述待识别Tor流量与发送者的对应关系，形成待识别Tor流量集，实现Tor流量的发现与溯源；

(2)提取步骤(1)所得待识别Tor流量集中每条待识别Tor流量的基础特征集，形成基础特征待识别Tor流量集，所述基础特征集包括：双向累积特征和基础流特征；

(3)使用训练好的基于深度学习算法的特征提取模型对步骤(2)所得基础特征待识别Tor流量集中的每条基础特征待识别Tor流量进行特征重提取，得到128维深度特征向量，形成深度特征待识别Tor流量集；

(4)使用训练好的基于K近邻算法的集成学习分类器识别步骤(3)所得深度特征待识别Tor流量集，得到对应的应用类型，实现对步骤(1)所述待识别Tor流量集的应用类型的识别。

进一步的，所述步骤(1)中SDN控制器周期性分析Tor网络的入口节点信息的方法为：SDN控制器下载匿名通信工具Tor的源码，并从中解析权威目录服务器的IP地址；SDN控制器向任意权威目录服务器发出请求获取共识文件consensus.z；SDN控制器解析所述共识文件，依据fresh-until字段确定下一次请求所述共识文件的时间；SDN控制器解析所述共识文件依据“r”字段识别Tor节点的IP地址、提供服务的端口，依据“s”字段识别Tor节点中的入口节点，得到所有入口节点的IP和端口；

进一步的，步骤(1)中SDN交换机发现待识别Tor流量的具体方法为：SDN控制器修改SDN交换机的流表，控制SDN交换机通过IP和端口信息识别用户的通信对象是否是Tor入口节点，并以此发现Tor流量；SDN控制器指示SDN交换机在正常转发Tor流量的同时，将Tor流量复制转发至SDN域内的服务器；

进一步的，步骤(1)中服务器捕获所述Tor流量后，将其划分为不同的流量文件，具体方法为：服务器使用捕包分析工具，如Wireshark或tcpdump捕获Tor流量，并依据通信双方的IP和端口为依据保存Tor流量，命名格式为：用户MAC地址-Tor节点IP-时间.pcap，形成待识别Tor流量集。

进一步的，所述步骤(2)中基础流特征包括：传输数据包数量、接收数据包数量、接收数据包数量占比、传输字节数量、接收字节数量、接收字节数量占比、数据包大小(最大值、最小值、平均值，标准差)、数据包间隔到达时间(最大值、最小值、平均值，标准差)、每秒传输数据包数量(最大值、最小值、平均值，标准差)、每秒传输字节数量(最大值、最小值、平均值，标准差)、深度包检测分类以及前20个数据包的间隔到达时间；双向累积特征包括前100个数据包、前1000个数据包、前100个TLS记录和前100个TLS记录的加权和非加权双向累积特征；

依据需要提取特征的Tor流量序列T、Tor用户的IP地址G、需要提取特征的范围N、需要提取的特征数量S、是否提取TLS层的特征B以及是否加权W，来进行特征提取，所述双向累积特征的具体提取方法如下：如果B为True，则提取Tor流量序列T的前N个TLS记录形成子流量序列T₁，否则提取Tor流量序列T的前N个数据包形成子流量序列T₁；创建列表M用于存储特征，第一个元素的值为0；对于T₁中的每个item，获取item的方向信息d，如果item的源IP为G则d＝1，否则d＝-1，如果W为True则获取item的长度信息i，否则i＝1，获取M的最后一个元素的值l，将d*i+l添加到列表M的尾部；从M中均匀地获取S个特征并输出。

如下所示：

进一步的，所述步骤(3)的具体过程为：

(3.1)训练特征提取模型：服务器调用SDN控制器所辖域内受控制的PC集群主动生成大批量的不同应用类型的Tor流量，然后服务器捕获Tor流量集，并赋予相应的应用类型标签，形成带标签Tor流量集1；对带标签Tor流量集1提取基础特征集，形成带标签Tor流量基础特征训练集1；接着，构建基于深度学习的特征提取模型，并随机初始化深度学习模型的参数；将带标签Tor流量基础特征训练集1输入构建好的特征提取模型，并使用深度度量学习方法指导特征提取模型更新网络参数，训练完毕后获得该特征提取模型的最终参数；

(3.2)使用训练好的特征提取模型提取深度特征：将步骤(2)所得的基础特征待识别Tor流量集输入所述特征提取模型，提取深度特征形成深度特征待识别Tor流量集。

进一步的，所述步骤(4)的具体方法为：

(4.1)训练应用类型分类模型：服务器调用SDN控制器所辖域内PC集群主动生成小批量的不同应用类型的Tor流量，服务器捕获通过步骤(1)所述方法捕获主动生成的Tor流量集，并赋予相应的应用类型标签，形成带标签Tor流量集2；对该带标签Tor流量集2提取步骤(2)所得基础特征集，形成带标签Tor流量基础特征训练集2；将带标签Tor流量基础特征训练集2输入步骤(3)所述特征提取模型，提取深度特征，形成带标签Tor流量深度特征训练集1；然后使用该带标签Tor流量深度特征训练集1训练基于K近邻算法的集成学习分类器；

(4.2)Tor流量应用类型识别：将步骤(3)所得到的深度特征待识别Tor流量集输入训练好的基于K近邻算法的集成学习分类器，识别得到Tor流量的应用类型。

本发明还公开一种用于实现适用于SDN的Tor流量溯源与应用类型识别方法的系统，包括Tor流量发现与溯源模块、基础特征集提取模块、特征提取模型训练模块、应用类型分类器训练模块和Tor流量类型识别模块；

所述Tor流量发现与溯源模块在SDN网络架构中使用IP和端口发现Tor流量，并复制转发至服务器保存并溯源Tor流量；

所述基础特征集提取模块根据基础流特征提取方法和双向累积特征提取方法，提取Tor流量的基础流特征和双向累积特征，形成基础特征集；

所述特征提取模型训练模块使用深度度量学习方法在带标签基础特征训练集上训练基于深度学习的特征提取模型；

所述应用类型分类器训练模块首先使用训练好的特征提取模型提取带标签深度特征训练集，然后使用该带标签深度特征训练集训练基于K近邻算法的集成学习分类器；

所述Tor流量类型识别模块首先使用训练好的特征提取模型提取深度特征待识别Tor流量集，然后使用训练好的基于K近邻算法的集成学习分类器识别深度特征待识别Tor流量集，得到待识别Tor流量的应用类型。

本发明还公开一种计算机存储介质，该计算机存储介质中存储有适用于SDN的Tor流量溯源与应用类型识别程序，执行该程序时实现上述适用于SDN的Tor流量溯源与应用类型识别方法。

有益效果：本发明针对SDN网络架构与传统网络架构的差异，结合SDN网络架构集中控制数据流转发的特性，以及Tor网络使用共识文件公开节点的特性，提出了适用于SDN网路架构的Tor流量监控与溯源方法，并能够在此基础上应用于收集带标签Tor流量；基于对应用协议握手过程的观察，提出了使用前N个数据包的加权双向累积特征和非加权双向累积特征表示应用协议握手阶段的特征信息；并提出了利用深度度量学习方法训练深度学习模型在基础特征的基础上进行特征重提取，提取更加有效的深度特征用于区分不同的应用类型；使用基于K近邻算法的集成学习分类器对匿名流量的深度特征进行识别，提升识别率。

附图说明

图1为本发明的整体流程示意图；

图2为实施例中的SDN网络环境的网络拓扑图；

图3为实施例中的具体流程示意图；

图4为实施例中的具体流程示意图；

图5为实施例中深度学习匿名应用类型特征提取模型示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1和图2所示，本发明利用SDN网络架构、网络功能和集中处理的特点对Tor流量进行集中发现、溯源与应用类型识别。本发明利用SDN集中控制流量转发和Tor网络公布入口节点的特性，实现Tor流量的发现与溯源；由于流量的前N个数据包或TLS记录包含应用协议的握手过程，提出双向累积特征来表示Tor流量的前N个数据包或TLS记录中蕴含的丰富的握手信息；利用深度度量学习方法指导深度学习特征提取模型在基础特征的基础上自动提取用于应用类型识别的深度特征；使用基于K近邻算法的集成学习分类器对匿名流量的深度特征进行识别，提升识别率。

本实施例的具体步骤为：

S101：SDN控制器周期性分析Tor网络的入口节点信息，控制SDN交换机依据IP和端口发现待识别Tor流量并将其复制转发至SDN域内的服务器，服务器抓取保存所述待识别Tor流量，并确定所述待识别Tor流量与发送者的对应关系，形成待识别Tor流量集，实现Tor流量的发现与溯源；

S102：提取S101所述待识别Tor流量集中每条待识别Tor流量的基础特征集，形成基础特征待识别Tor流量集，所述基础特征集包括：基础的流特征、前100个数据包的双向累积特征、前1000个数据包的双向累积特征、前100个TLS记录的双向累积特征和前1000个TLS记录的双向累积特征；

S103：使用训练好的基于深度学习算法的特征提取模型对步骤S102所述基础特征待识别Tor流量集中的每条基础特征待识别Tor流量进行特征重提取，得到128维深度特征向量，形成深度特征待识别Tor流量集；

S104：使用训练好的基于K近邻算法的集成学习分类器识别S103所述深度特征待识别Tor流量集，得到对应的应用类型，实现对S101所述待识别Tor流量集的应用类型的识别。

如图3所示，本发明的一个实施例的一种适用于SDN的Tor流量溯源与应用类型识别系统，包括以下模块：包括Tor流量发现与溯源模块100、基础特征集提取模块200、特征提取模型训练模块300、应用类型分类器训练模块400和Tor流量类型识别模块500。

Tor流量发现与溯源模块100，负责在SDN网络架构中，首先利用Tor共识文件获取Tor网络入口节点IP和端口等信息，随后利用SDN中集中控制的思想操控SDN交换机依据IP和端口信息集中地发现Tor流量，在正常转发Tor流量的同时将Tor流量复制转发至服务器，并对Tor流量进行溯源，确定Tor流量与其发送者之间的对应关系；

基础特征集提取模块200，负责根据基础流特征提取算法和双向累积特征提取算法，提取Tor流量的基础流特征和双向累积特征，形成基础特征集；

特征提取模型训练模块300，负责使用深度度量学习方法在带标签基础特征训练集上训练基于深度学习的特征提取模块；

应用类型分类器训练模块400，首先负责使用训练好的特征提取模型提取带标签深度特征训练集1，然后使用带标签Tor流量深度特征训练集1训练基于K近邻算法的集成学习分类器；

Tor流量类型识别模块500，首先负责使用训练好的特征提取模型提取深度特征待识别Tor流量集，然后使用训练好的基于K近邻算法的集成学习分类器识别所述深度特征待识别Tor流量集，得到待识别Tor流量的应用类型。

在上述实施例的基础上，在本发明的一个优选实施例中，如图4所示其特征提取模型训练模块301，使用基于Multi-Similarly损失的深度度量学习方法训练基于卷积神经网络的深度学习特征提取模型，用于从基础特征集中提取深度特征集。

构建基于卷积神经网络(CNN)的深度学习匿名应用类型特征提取模型如图5所示，并随机初始化所述深度学习模型的参数：审查者使用常用的深度学习框架如Tensorflow和Pytorch，依据所述基础流特征的维度确定深度学习匿名应用类型特征提取模型的输入维度，并构建一层或多层由一维卷积层、一维池化层、激活函数和Dropout组成的一维卷积神经网络，依据输出特征向量的维度确定最后一个全连接层的维度，最终随机初始化整个一维卷积神经网络的参数。

将所述训练数据输入所述特征提取模型，并使用基于Multi-Similarly损失的深度度量学习方法指导所述特征提取模型更新网络参数，训练完毕后获得所述特征提取模型的最终参数：

审查者首先确定所述特征提取模型在所述训练数据集上的训练次数，即世代(Epoch)，并确定每次更新所述特征提取模型的网络参数所需的训练数据的数量，即训练批次大小(Batch size)，和每个世代所述特征提取模型的更新次数(Iteration)，所述特征提取模型需要更新Epoch*Iteration次。

所述特征提取模型的具体更新方法如下：审查者将数量为Batch size的一批训练样本输入所述特征提取模型，得到Batch size个特征向量，审查者将Batch size个特征向量及其标签输入深度度量学习方法所对应的损失函数，计算本次训练的损失值，通过梯度下降算法更新所述特征提取模型的网络参数，降低整体的损失值。

损失值的具体的计算过程为：

设多种训练样本x_Anchor、x_Positive和x_Negative，其中x_Anchor和x_Positive是同类样本，x_Anchor和x_Negative是异类样本；

G_W(x_Anchor)为所述模型接收输入x_Anchor后输出的特征向量；

S_W(x_Anchor,x_Positive)＝||G_W(x_Anchor)-G_W(x_Positive)||₂表示神经网络输出的x_Anchor和x_Positive对应的特征向量之间的余弦相似度；

Multi-Similarly Loss包含样本挖掘、样本加权两个步骤：

(1)使用S_W(x_Anchor,x_Positive)挖掘Anchor-Negative样本对，使用S_W(x_Anchor,x_Negative)挖掘Anchor-Positive样本对：

Anchor-Negative样本对挖掘方案：依据Anchor样本和与Anchor样本相似度最低的Positive样本(相似度为S_ik)，如Anchor样本与Negative样本之间相似度

大于S_ik-ε则被选中。给定Anchor样本x_i筛选出的Negative样本对集合表示为N_i

Anchor-Positive样本对挖掘方案：依据Anchor样本和与Anchor样本相似度最高的Negative样本(相似度为S_ik)，如果Anchor样本与Positive样本之间相似度

小于S_ik+ε则被选中。给定Anchor样本x_i筛选出的Positive样本对集合表示为P_i

(2)使用S_W(x_Anchor,x_{Negative_Self})和S_W(x_Anchor,x_Negative)对Anchor-Negative样本对的权重进行评估，使用S_W(x_Anchor,x_{Positive_Self})和S_W(x_Anchor,x_Positive)对Anchor-Positive样本对的权重进行评估(α和β是超参数)：

使用公式

评估Anchor-Negative样本对的权重使用公式

评估Anchor-Positive样本对的权重

Multi-Similarly损失函数的计算公式为：

所述特征提取模型训练模块的训练目的是减小L_MS，由于L_MS是所述模型G_W的网络参数W的函数，因此可以通过求解L_MS对于参数W的偏导的形式求出参数W的梯度并加以更新，以逐步降低整体的L_MS，最终所述模型G_W输出的特征向量具备以下特性：同类型的样本对应的特征向量之间的余弦距离近，余弦相似度高；不同类型的样本对应的特征向量之间的余弦距离远，余弦相似度低。这类特征向量可以被基于距离的机器学习分类算法(如k-近邻算法)用来区分属于不同类别的对象，提升分类准确率。

Claims

1.一种适用于SDN的Tor流量溯源与应用类型识别方法，其特征在于：依次包括以下步骤：

(1)SDN控制器周期性分析Tor网络的入口节点信息，SDN控制器控制SDN交换机依据IP和端口发现待识别Tor流量，并将待识别Tor流量复制转发至SDN域内的服务器，服务器抓取捕获保存所述待识别Tor流量，并确定所述待识别Tor流量与发送者的对应关系，形成待识别Tor流量集；

(4)使用训练好的基于K近邻算法的集成学习分类器识别步骤(3)所得深度特征待识别Tor流量集，得到对应的应用类型，实现对步骤(1)所述待识别Tor流量集的应用类型的识别；

所述步骤(1)中SDN控制器周期性分析Tor网络的入口节点信息的方法为：SDN控制器下载匿名通信工具Tor的源码，并从中解析权威目录服务器的IP地址；SDN控制器向任意权威目录服务器发出请求获取共识文件consensus.z；SDN控制器解析所述共识文件，依据fresh-until字段确定下一次请求所述共识文件的时间；SDN控制器解析所述共识文件依据“r”字段识别Tor节点的IP地址、提供服务的端口，依据“s”字段识别Tor节点中的入口节点，得到所有入口节点的IP和端口；

步骤(1)中SDN交换机发现待识别Tor流量的具体方法为：SDN控制器修改SDN交换机的流表，控制SDN交换机通过IP和端口信息识别用户的通信对象是否是Tor入口节点，并以此发现Tor流量；SDN控制器指示SDN交换机在正常转发Tor流量的同时，将Tor流量复制转发至SDN域内的服务器；

步骤(1)中服务器捕获所述Tor流量后，将其划分为不同的流量文件，具体方法为：服务器使用捕包分析工具捕获Tor流量，并依据通信双方的IP和端口为依据保存Tor流量，形成待识别Tor流量集；

所述步骤(2)中基础流特征包括：传输数据包数量、接收数据包数量、接收数据包数量占比、传输字节数量、接收字节数量、接收字节数量占比、数据包大小、数据包间隔到达时间、每秒传输数据包数量、每秒传输字节数量、深度包检测分类以及前20个数据包的间隔到达时间；

双向累积特征包括前100个数据包、前1000个数据包、前100个TLS记录和前100个TLS记录的加权和非加权双向累积特征；

依据需要提取特征的Tor流量序列T、Tor用户的IP地址G、需要提取特征的范围N、需要提取的特征数量S、是否提取TLS层的特征B以及是否加权W，来进行特征提取，所述双向累积特征的具体提取方法如下：如果B为True，则提取Tor流量序列T的前N个TLS记录形成子流量序列T₁，否则提取Tor流量序列T的前N个数据包形成子流量序列T₁；创建列表M用于存储特征，第一个元素的值为0；对于T₁中的每个item，获取item的方向信息d，如果item的源IP为G则d＝1，否则d＝-1，如果W为True则获取item的长度信息i，否则i＝1，获取M的最后一个元素的值l，将d*i+l添加到列表M的尾部；从M中均匀地获取S个特征并输出；

所述步骤(3)的具体过程为：

(3.2)使用训练好的特征提取模型提取深度特征：将步骤(2)所得的基础特征待识别Tor流量集输入特征提取模型，提取深度特征形成深度特征待识别Tor流量集；

所述步骤(4)的具体方法为：

(4.1)训练应用类型分类模型：服务器调用SDN控制器所辖域内PC集群主动生成小批量的不同应用类型的Tor流量，服务器捕获通过步骤(1)所述方法捕获主动生成的Tor流量集，并赋予相应的应用类型标签，形成带标签Tor流量集2；对该带标签Tor流量集2提取步骤(2)所得基础特征集，形成带标签Tor流量基础特征训练集2；将带标签Tor流量基础特征训练集2输入步骤(3)所述特征提取模型，提取深度特征，形成带标签Tor流量深度特征训练集1；使用该带标签Tor流量深度特征训练集1训练基于K近邻算法的集成学习分类器；

(4.2)Tor流量应用类型识别：将步骤(3)所得到的深度特征待识别Tor流量集输入所述训练好的基于K近邻算法的集成学习分类器，识别得到Tor流量的应用类型。

2.一种用于实现如权利要求1所述的适用于SDN的Tor流量溯源与应用类型识别方法的系统，其特征在于：包括Tor流量发现与溯源模块、基础特征集提取模块、特征提取模型训练模块、应用类型分类器训练模块和Tor流量类型识别模块；

3.一种计算机存储介质，其特征在于：该计算机存储介质中存储有适用于SDN的Tor流量溯源与应用类型识别程序，执行该程序时实现如权利要求1所述的适用于SDN的Tor流量溯源与应用类型识别方法。