CN111953669B - 适用于SDN的Tor流量溯源与应用类型识别方法和系统 - Google Patents

适用于SDN的Tor流量溯源与应用类型识别方法和系统 Download PDF

Info

Publication number
CN111953669B
CN111953669B CN202010751906.2A CN202010751906A CN111953669B CN 111953669 B CN111953669 B CN 111953669B CN 202010751906 A CN202010751906 A CN 202010751906A CN 111953669 B CN111953669 B CN 111953669B
Authority
CN
China
Prior art keywords
tor
flow
identified
feature
sdn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010751906.2A
Other languages
English (en)
Other versions
CN111953669A (zh
Inventor
王良民
王世豪
殷尚男
黄龙霞
申屠浩
余春堂
谢晴晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010751906.2A priority Critical patent/CN111953669B/zh
Publication of CN111953669A publication Critical patent/CN111953669A/zh
Application granted granted Critical
Publication of CN111953669B publication Critical patent/CN111953669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/146Tracing the source of attacks

Abstract

本发明公开一种适用于SDN的Tor流量溯源与应用类型识别方法和系统,首先对Tor流量进行发现与溯源,并提取多层次双向累积特征和基础的流特征作为基础特征向量,然后使用训练好的特征提取模型对基础特征向量进行特征重提取作为深度特征向量,最后使用训练好的分类器识别深度特征向量,得到Tor流量的应用类别。本发明能够实现Tor流量的识别与溯源,并提取用于应用类型识别的深度特征,提升识别率。

Description

适用于SDN的Tor流量溯源与应用类型识别方法和系统
技术领域
本发明属于网络安全技术,具体涉及一种适用于SDN的Tor流量溯源与应用类型识别方法和系统。
背景技术
Tor是当前最受欢迎的匿名通信系统之一,Tor致力于保护用户在访问网络时的安全性和隐私性,防止窃听者关联用户及其通信对象。然而,Tor良好的匿名性也被犯罪分子加以利用。
软件定义网络(Software Defined Network,SDN)作为新兴的网络架构,将网络设备控制面和数据面分离,实现了网络流量的灵活控制,被应用于大型数据中心等场景。
大型数据中心是Tor流量汇聚的关键场景,如何在SDN网络架构中打击Tor网络犯罪成为关键问题,当前在SDN网络架构中打击基于Tor网络的匿名犯罪面临以下问题:其一,基于传统网络架构的Tor流量监控方法,监控点的监控范围与溯源能力成反比,随着监控范围的扩大,虽然能够收集到的Tor流量越来越多,但是与此同时也越来越难以找到生成Tor流量的用户;其二,现有针对Tor的攻击,如网站指纹攻击(Website FingerprintingAttack)建立在正确识别Tor流量的应用类型的基础上,现有Tor流量应用类型识别方案往往使用基础流特征,统计数据包大小、时间间隔等信息,实际上Tor流量的前N个数据包中包含了丰富的应用协议握手信息,如何将这部分信息应用于应用类型识别任务成为关键问题;其三,受限于技术人员的知识范围,人工提出的特征并不是最具分离性的特征,如何自动提取能够应用于应用类型识别任务的具备高分离性的特征同样非常重要。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种适用于SDN的Tor流量溯源与应用类型识别方法和系统,实现SDN网络架构中针对Tor流量的大范围发现与溯源,并提升Tor流量应用类型识别任务的准确率。
技术方案:本发明的一种适用于SDN的Tor流量溯源与应用类型识别方法,依次包括以下步骤:
(1)SDN控制器周期性分析Tor网络的入口节点信息,SDN控制器控制SDN交换机依据IP和端口发现待识别Tor流量,并将待识别Tor流量复制转发至SDN域内的服务器,服务器抓取捕获保存所述待识别Tor流量,并确定所述待识别Tor流量与发送者的对应关系,形成待识别Tor流量集,实现Tor流量的发现与溯源;
(2)提取步骤(1)所得待识别Tor流量集中每条待识别Tor流量的基础特征集,形成基础特征待识别Tor流量集,所述基础特征集包括:双向累积特征和基础流特征;
(3)使用训练好的基于深度学习算法的特征提取模型对步骤(2)所得基础特征待识别Tor流量集中的每条基础特征待识别Tor流量进行特征重提取,得到128维深度特征向量,形成深度特征待识别Tor流量集;
(4)使用训练好的基于K近邻算法的集成学习分类器识别步骤(3)所得深度特征待识别Tor流量集,得到对应的应用类型,实现对步骤(1)所述待识别Tor流量集的应用类型的识别。
进一步的,所述步骤(1)中SDN控制器周期性分析Tor网络的入口节点信息的方法为:SDN控制器下载匿名通信工具Tor的源码,并从中解析权威目录服务器的IP地址;SDN控制器向任意权威目录服务器发出请求获取共识文件consensus.z;SDN控制器解析所述共识文件,依据fresh-until字段确定下一次请求所述共识文件的时间;SDN控制器解析所述共识文件依据“r”字段识别Tor节点的IP地址、提供服务的端口,依据“s”字段识别Tor节点中的入口节点,得到所有入口节点的IP和端口;
进一步的,步骤(1)中SDN交换机发现待识别Tor流量的具体方法为:SDN控制器修改SDN交换机的流表,控制SDN交换机通过IP和端口信息识别用户的通信对象是否是Tor入口节点,并以此发现Tor流量;SDN控制器指示SDN交换机在正常转发Tor流量的同时,将Tor流量复制转发至SDN域内的服务器;
进一步的,步骤(1)中服务器捕获所述Tor流量后,将其划分为不同的流量文件,具体方法为:服务器使用捕包分析工具,如Wireshark或tcpdump捕获Tor流量,并依据通信双方的IP和端口为依据保存Tor流量,命名格式为:用户MAC地址-Tor节点IP-时间.pcap,形成待识别Tor流量集。
进一步的,所述步骤(2)中基础流特征包括:传输数据包数量、接收数据包数量、接收数据包数量占比、传输字节数量、接收字节数量、接收字节数量占比、数据包大小(最大值、最小值、平均值,标准差)、数据包间隔到达时间(最大值、最小值、平均值,标准差)、每秒传输数据包数量(最大值、最小值、平均值,标准差)、每秒传输字节数量(最大值、最小值、平均值,标准差)、深度包检测分类以及前20个数据包的间隔到达时间;双向累积特征包括前100个数据包、前1000个数据包、前100个TLS记录和前100个TLS记录的加权和非加权双向累积特征;
依据需要提取特征的Tor流量序列T、Tor用户的IP地址G、需要提取特征的范围N、需要提取的特征数量S、是否提取TLS层的特征B以及是否加权W,来进行特征提取,所述双向累积特征的具体提取方法如下:如果B为True,则提取Tor流量序列T的前N个TLS记录形成子流量序列T1,否则提取Tor流量序列T的前N个数据包形成子流量序列T1;创建列表M用于存储特征,第一个元素的值为0;对于T1中的每个item,获取item的方向信息d,如果item的源IP为G则d=1,否则d=-1,如果W为True则获取item的长度信息i,否则i=1,获取M的最后一个元素的值l,将d*i+l添加到列表M的尾部;从M中均匀地获取S个特征并输出。
如下所示:
Figure BDA0002610300220000031
Figure BDA0002610300220000041
进一步的,所述步骤(3)的具体过程为:
(3.1)训练特征提取模型:服务器调用SDN控制器所辖域内受控制的PC集群主动生成大批量的不同应用类型的Tor流量,然后服务器捕获Tor流量集,并赋予相应的应用类型标签,形成带标签Tor流量集1;对带标签Tor流量集1提取基础特征集,形成带标签Tor流量基础特征训练集1;接着,构建基于深度学习的特征提取模型,并随机初始化深度学习模型的参数;将带标签Tor流量基础特征训练集1输入构建好的特征提取模型,并使用深度度量学习方法指导特征提取模型更新网络参数,训练完毕后获得该特征提取模型的最终参数;
(3.2)使用训练好的特征提取模型提取深度特征:将步骤(2)所得的基础特征待识别Tor流量集输入所述特征提取模型,提取深度特征形成深度特征待识别Tor流量集。
进一步的,所述步骤(4)的具体方法为:
(4.1)训练应用类型分类模型:服务器调用SDN控制器所辖域内PC集群主动生成小批量的不同应用类型的Tor流量,服务器捕获通过步骤(1)所述方法捕获主动生成的Tor流量集,并赋予相应的应用类型标签,形成带标签Tor流量集2;对该带标签Tor流量集2提取步骤(2)所得基础特征集,形成带标签Tor流量基础特征训练集2;将带标签Tor流量基础特征训练集2输入步骤(3)所述特征提取模型,提取深度特征,形成带标签Tor流量深度特征训练集1;然后使用该带标签Tor流量深度特征训练集1训练基于K近邻算法的集成学习分类器;
(4.2)Tor流量应用类型识别:将步骤(3)所得到的深度特征待识别Tor流量集输入训练好的基于K近邻算法的集成学习分类器,识别得到Tor流量的应用类型。
本发明还公开一种用于实现适用于SDN的Tor流量溯源与应用类型识别方法的系统,包括Tor流量发现与溯源模块、基础特征集提取模块、特征提取模型训练模块、应用类型分类器训练模块和Tor流量类型识别模块;
所述Tor流量发现与溯源模块在SDN网络架构中使用IP和端口发现Tor流量,并复制转发至服务器保存并溯源Tor流量;
所述基础特征集提取模块根据基础流特征提取方法和双向累积特征提取方法,提取Tor流量的基础流特征和双向累积特征,形成基础特征集;
所述特征提取模型训练模块使用深度度量学习方法在带标签基础特征训练集上训练基于深度学习的特征提取模型;
所述应用类型分类器训练模块首先使用训练好的特征提取模型提取带标签深度特征训练集,然后使用该带标签深度特征训练集训练基于K近邻算法的集成学习分类器;
所述Tor流量类型识别模块首先使用训练好的特征提取模型提取深度特征待识别Tor流量集,然后使用训练好的基于K近邻算法的集成学习分类器识别深度特征待识别Tor流量集,得到待识别Tor流量的应用类型。
本发明还公开一种计算机存储介质,该计算机存储介质中存储有适用于SDN的Tor流量溯源与应用类型识别程序,执行该程序时实现上述适用于SDN的Tor流量溯源与应用类型识别方法。
有益效果:本发明针对SDN网络架构与传统网络架构的差异,结合SDN网络架构集中控制数据流转发的特性,以及Tor网络使用共识文件公开节点的特性,提出了适用于SDN网路架构的Tor流量监控与溯源方法,并能够在此基础上应用于收集带标签Tor流量;基于对应用协议握手过程的观察,提出了使用前N个数据包的加权双向累积特征和非加权双向累积特征表示应用协议握手阶段的特征信息;并提出了利用深度度量学习方法训练深度学习模型在基础特征的基础上进行特征重提取,提取更加有效的深度特征用于区分不同的应用类型;使用基于K近邻算法的集成学习分类器对匿名流量的深度特征进行识别,提升识别率。
附图说明
图1为本发明的整体流程示意图;
图2为实施例中的SDN网络环境的网络拓扑图;
图3为实施例中的具体流程示意图;
图4为实施例中的具体流程示意图;
图5为实施例中深度学习匿名应用类型特征提取模型示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1和图2所示,本发明利用SDN网络架构、网络功能和集中处理的特点对Tor流量进行集中发现、溯源与应用类型识别。本发明利用SDN集中控制流量转发和Tor网络公布入口节点的特性,实现Tor流量的发现与溯源;由于流量的前N个数据包或TLS记录包含应用协议的握手过程,提出双向累积特征来表示Tor流量的前N个数据包或TLS记录中蕴含的丰富的握手信息;利用深度度量学习方法指导深度学习特征提取模型在基础特征的基础上自动提取用于应用类型识别的深度特征;使用基于K近邻算法的集成学习分类器对匿名流量的深度特征进行识别,提升识别率。
本实施例的具体步骤为:
S101:SDN控制器周期性分析Tor网络的入口节点信息,控制SDN交换机依据IP和端口发现待识别Tor流量并将其复制转发至SDN域内的服务器,服务器抓取保存所述待识别Tor流量,并确定所述待识别Tor流量与发送者的对应关系,形成待识别Tor流量集,实现Tor流量的发现与溯源;
S102:提取S101所述待识别Tor流量集中每条待识别Tor流量的基础特征集,形成基础特征待识别Tor流量集,所述基础特征集包括:基础的流特征、前100个数据包的双向累积特征、前1000个数据包的双向累积特征、前100个TLS记录的双向累积特征和前1000个TLS记录的双向累积特征;
S103:使用训练好的基于深度学习算法的特征提取模型对步骤S102所述基础特征待识别Tor流量集中的每条基础特征待识别Tor流量进行特征重提取,得到128维深度特征向量,形成深度特征待识别Tor流量集;
S104:使用训练好的基于K近邻算法的集成学习分类器识别S103所述深度特征待识别Tor流量集,得到对应的应用类型,实现对S101所述待识别Tor流量集的应用类型的识别。
如图3所示,本发明的一个实施例的一种适用于SDN的Tor流量溯源与应用类型识别系统,包括以下模块:包括Tor流量发现与溯源模块100、基础特征集提取模块200、特征提取模型训练模块300、应用类型分类器训练模块400和Tor流量类型识别模块500。
Tor流量发现与溯源模块100,负责在SDN网络架构中,首先利用Tor共识文件获取Tor网络入口节点IP和端口等信息,随后利用SDN中集中控制的思想操控SDN交换机依据IP和端口信息集中地发现Tor流量,在正常转发Tor流量的同时将Tor流量复制转发至服务器,并对Tor流量进行溯源,确定Tor流量与其发送者之间的对应关系;
基础特征集提取模块200,负责根据基础流特征提取算法和双向累积特征提取算法,提取Tor流量的基础流特征和双向累积特征,形成基础特征集;
特征提取模型训练模块300,负责使用深度度量学习方法在带标签基础特征训练集上训练基于深度学习的特征提取模块;
应用类型分类器训练模块400,首先负责使用训练好的特征提取模型提取带标签深度特征训练集1,然后使用带标签Tor流量深度特征训练集1训练基于K近邻算法的集成学习分类器;
Tor流量类型识别模块500,首先负责使用训练好的特征提取模型提取深度特征待识别Tor流量集,然后使用训练好的基于K近邻算法的集成学习分类器识别所述深度特征待识别Tor流量集,得到待识别Tor流量的应用类型。
在上述实施例的基础上,在本发明的一个优选实施例中,如图4所示其特征提取模型训练模块301,使用基于Multi-Similarly损失的深度度量学习方法训练基于卷积神经网络的深度学习特征提取模型,用于从基础特征集中提取深度特征集。
构建基于卷积神经网络(CNN)的深度学习匿名应用类型特征提取模型如图5所示,并随机初始化所述深度学习模型的参数:审查者使用常用的深度学习框架如Tensorflow和Pytorch,依据所述基础流特征的维度确定深度学习匿名应用类型特征提取模型的输入维度,并构建一层或多层由一维卷积层、一维池化层、激活函数和Dropout组成的一维卷积神经网络,依据输出特征向量的维度确定最后一个全连接层的维度,最终随机初始化整个一维卷积神经网络的参数。
将所述训练数据输入所述特征提取模型,并使用基于Multi-Similarly损失的深度度量学习方法指导所述特征提取模型更新网络参数,训练完毕后获得所述特征提取模型的最终参数:
审查者首先确定所述特征提取模型在所述训练数据集上的训练次数,即世代(Epoch),并确定每次更新所述特征提取模型的网络参数所需的训练数据的数量,即训练批次大小(Batch size),和每个世代所述特征提取模型的更新次数(Iteration),所述特征提取模型需要更新Epoch*Iteration次。
所述特征提取模型的具体更新方法如下:审查者将数量为Batch size的一批训练样本输入所述特征提取模型,得到Batch size个特征向量,审查者将Batch size个特征向量及其标签输入深度度量学习方法所对应的损失函数,计算本次训练的损失值,通过梯度下降算法更新所述特征提取模型的网络参数,降低整体的损失值。
损失值的具体的计算过程为:
设多种训练样本xAnchor、xPositive和xNegative,其中xAnchor和xPositive是同类样本,xAnchor和xNegative是异类样本;
GW(xAnchor)为所述模型接收输入xAnchor后输出的特征向量;
SW(xAnchor,xPositive)=||GW(xAnchor)-GW(xPositive)||2表示神经网络输出的xAnchor和xPositive对应的特征向量之间的余弦相似度;
Multi-Similarly Loss包含样本挖掘、样本加权两个步骤:
(1)使用SW(xAnchor,xPositive)挖掘Anchor-Negative样本对,使用SW(xAnchor,xNegative)挖掘Anchor-Positive样本对:
Anchor-Negative样本对挖掘方案:依据Anchor样本和与Anchor样本相似度最低的Positive样本(相似度为Sik),如Anchor样本与Negative样本之间相似度
Figure BDA0002610300220000084
大于Sik-ε则被选中。给定Anchor样本xi筛选出的Negative样本对集合表示为Ni
Anchor-Positive样本对挖掘方案:依据Anchor样本和与Anchor样本相似度最高的Negative样本(相似度为Sik),如果Anchor样本与Positive样本之间相似度
Figure BDA0002610300220000085
小于Sik+ε则被选中。给定Anchor样本xi筛选出的Positive样本对集合表示为Pi
(2)使用SW(xAnchor,xNegative_Self)和SW(xAnchor,xNegative)对Anchor-Negative样本对的权重进行评估,使用SW(xAnchor,xPositive_Self)和SW(xAnchor,xPositive)对Anchor-Positive样本对的权重进行评估(α和β是超参数):
使用公式
Figure BDA0002610300220000081
评估Anchor-Negative样本对的权重使用公式
Figure BDA0002610300220000082
评估Anchor-Positive样本对的权重
Multi-Similarly损失函数的计算公式为:
Figure BDA0002610300220000083
所述特征提取模型训练模块的训练目的是减小LMS,由于LMS是所述模型GW的网络参数W的函数,因此可以通过求解LMS对于参数W的偏导的形式求出参数W的梯度并加以更新,以逐步降低整体的LMS,最终所述模型GW输出的特征向量具备以下特性:同类型的样本对应的特征向量之间的余弦距离近,余弦相似度高;不同类型的样本对应的特征向量之间的余弦距离远,余弦相似度低。这类特征向量可以被基于距离的机器学习分类算法(如k-近邻算法)用来区分属于不同类别的对象,提升分类准确率。

Claims (3)

1.一种适用于SDN的Tor流量溯源与应用类型识别方法,其特征在于:依次包括以下步骤:
(1)SDN控制器周期性分析Tor网络的入口节点信息,SDN控制器控制SDN交换机依据IP和端口发现待识别Tor流量,并将待识别Tor流量复制转发至SDN域内的服务器,服务器抓取捕获保存所述待识别Tor流量,并确定所述待识别Tor流量与发送者的对应关系,形成待识别Tor流量集;
(2)提取步骤(1)所得待识别Tor流量集中每条待识别Tor流量的基础特征集,形成基础特征待识别Tor流量集,所述基础特征集包括:双向累积特征和基础流特征;
(3)使用训练好的基于深度学习算法的特征提取模型对步骤(2)所得基础特征待识别Tor流量集中的每条基础特征待识别Tor流量进行特征重提取,得到128维深度特征向量,形成深度特征待识别Tor流量集;
(4)使用训练好的基于K近邻算法的集成学习分类器识别步骤(3)所得深度特征待识别Tor流量集,得到对应的应用类型,实现对步骤(1)所述待识别Tor流量集的应用类型的识别;
所述步骤(1)中SDN控制器周期性分析Tor网络的入口节点信息的方法为:SDN控制器下载匿名通信工具Tor的源码,并从中解析权威目录服务器的IP地址;SDN控制器向任意权威目录服务器发出请求获取共识文件consensus.z;SDN控制器解析所述共识文件,依据fresh-until字段确定下一次请求所述共识文件的时间;SDN控制器解析所述共识文件依据“r”字段识别Tor节点的IP地址、提供服务的端口,依据“s”字段识别Tor节点中的入口节点,得到所有入口节点的IP和端口;
步骤(1)中SDN交换机发现待识别Tor流量的具体方法为:SDN控制器修改SDN交换机的流表,控制SDN交换机通过IP和端口信息识别用户的通信对象是否是Tor入口节点,并以此发现Tor流量;SDN控制器指示SDN交换机在正常转发Tor流量的同时,将Tor流量复制转发至SDN域内的服务器;
步骤(1)中服务器捕获所述Tor流量后,将其划分为不同的流量文件,具体方法为:服务器使用捕包分析工具捕获Tor流量,并依据通信双方的IP和端口为依据保存Tor流量,形成待识别Tor流量集;
所述步骤(2)中基础流特征包括:传输数据包数量、接收数据包数量、接收数据包数量占比、传输字节数量、接收字节数量、接收字节数量占比、数据包大小、数据包间隔到达时间、每秒传输数据包数量、每秒传输字节数量、深度包检测分类以及前20个数据包的间隔到达时间;
双向累积特征包括前100个数据包、前1000个数据包、前100个TLS记录和前100个TLS记录的加权和非加权双向累积特征;
依据需要提取特征的Tor流量序列T、Tor用户的IP地址G、需要提取特征的范围N、需要提取的特征数量S、是否提取TLS层的特征B以及是否加权W,来进行特征提取,所述双向累积特征的具体提取方法如下:如果B为True,则提取Tor流量序列T的前N个TLS记录形成子流量序列T1,否则提取Tor流量序列T的前N个数据包形成子流量序列T1;创建列表M用于存储特征,第一个元素的值为0;对于T1中的每个item,获取item的方向信息d,如果item的源IP为G则d=1,否则d=-1,如果W为True则获取item的长度信息i,否则i=1,获取M的最后一个元素的值l,将d*i+l添加到列表M的尾部;从M中均匀地获取S个特征并输出;
所述步骤(3)的具体过程为:
(3.1)训练特征提取模型:服务器调用SDN控制器所辖域内受控制的PC集群主动生成大批量的不同应用类型的Tor流量,然后服务器捕获Tor流量集,并赋予相应的应用类型标签,形成带标签Tor流量集1;对带标签Tor流量集1提取基础特征集,形成带标签Tor流量基础特征训练集1;接着,构建基于深度学习的特征提取模型,并随机初始化深度学习模型的参数;将带标签Tor流量基础特征训练集1输入构建好的特征提取模型,并使用深度度量学习方法指导特征提取模型更新网络参数,训练完毕后获得该特征提取模型的最终参数;
(3.2)使用训练好的特征提取模型提取深度特征:将步骤(2)所得的基础特征待识别Tor流量集输入特征提取模型,提取深度特征形成深度特征待识别Tor流量集;
所述步骤(4)的具体方法为:
(4.1)训练应用类型分类模型:服务器调用SDN控制器所辖域内PC集群主动生成小批量的不同应用类型的Tor流量,服务器捕获通过步骤(1)所述方法捕获主动生成的Tor流量集,并赋予相应的应用类型标签,形成带标签Tor流量集2;对该带标签Tor流量集2提取步骤(2)所得基础特征集,形成带标签Tor流量基础特征训练集2;将带标签Tor流量基础特征训练集2输入步骤(3)所述特征提取模型,提取深度特征,形成带标签Tor流量深度特征训练集1;使用该带标签Tor流量深度特征训练集1训练基于K近邻算法的集成学习分类器;
(4.2)Tor流量应用类型识别:将步骤(3)所得到的深度特征待识别Tor流量集输入所述训练好的基于K近邻算法的集成学习分类器,识别得到Tor流量的应用类型。
2.一种用于实现如权利要求1所述的适用于SDN的Tor流量溯源与应用类型识别方法的系统,其特征在于:包括Tor流量发现与溯源模块、基础特征集提取模块、特征提取模型训练模块、应用类型分类器训练模块和Tor流量类型识别模块;
所述Tor流量发现与溯源模块在SDN网络架构中使用IP和端口发现Tor流量,并复制转发至服务器保存并溯源Tor流量;
所述基础特征集提取模块根据基础流特征提取方法和双向累积特征提取方法,提取Tor流量的基础流特征和双向累积特征,形成基础特征集;
所述特征提取模型训练模块使用深度度量学习方法在带标签基础特征训练集上训练基于深度学习的特征提取模型;
所述应用类型分类器训练模块首先使用训练好的特征提取模型提取带标签深度特征训练集,然后使用该带标签深度特征训练集训练基于K近邻算法的集成学习分类器;
所述Tor流量类型识别模块首先使用训练好的特征提取模型提取深度特征待识别Tor流量集,然后使用训练好的基于K近邻算法的集成学习分类器识别深度特征待识别Tor流量集,得到待识别Tor流量的应用类型。
3.一种计算机存储介质,其特征在于:该计算机存储介质中存储有适用于SDN的Tor流量溯源与应用类型识别程序,执行该程序时实现如权利要求1所述的适用于SDN的Tor流量溯源与应用类型识别方法。
CN202010751906.2A 2020-07-30 2020-07-30 适用于SDN的Tor流量溯源与应用类型识别方法和系统 Active CN111953669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010751906.2A CN111953669B (zh) 2020-07-30 2020-07-30 适用于SDN的Tor流量溯源与应用类型识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010751906.2A CN111953669B (zh) 2020-07-30 2020-07-30 适用于SDN的Tor流量溯源与应用类型识别方法和系统

Publications (2)

Publication Number Publication Date
CN111953669A CN111953669A (zh) 2020-11-17
CN111953669B true CN111953669B (zh) 2022-10-25

Family

ID=73338591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010751906.2A Active CN111953669B (zh) 2020-07-30 2020-07-30 适用于SDN的Tor流量溯源与应用类型识别方法和系统

Country Status (1)

Country Link
CN (1) CN111953669B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036518B (zh) * 2020-11-05 2021-02-02 中国人民解放军国防科技大学 基于数据包字节分布的应用程序流量分类方法和存储介质
CN114666398B (zh) * 2020-12-07 2024-02-23 深信服科技股份有限公司 应用分类方法、装置、设备及存储介质
CN112887329B (zh) * 2021-02-24 2022-06-21 北京邮电大学 隐藏服务溯源方法、装置及电子设备
CN113347156B (zh) * 2021-05-11 2022-10-11 江苏大学 一种网站指纹防御的智能流量混淆方法、系统及计算机存储介质
CN114363353A (zh) * 2021-10-27 2022-04-15 北京邮电大学 一种比特币隐藏服务的匿名通信流量的识别方法和装置
CN114710310B (zh) * 2022-01-18 2023-06-09 中国人民解放军战略支援部队信息工程大学 基于网络流量频域指纹的Tor用户访问网站识别方法及系统
CN115118505B (zh) * 2022-06-29 2023-06-09 上海众人智能科技有限公司 一种基于入侵数据溯源的行为基线靶向抓取方法
CN115242724A (zh) * 2022-07-21 2022-10-25 东南大学 一种基于两阶段聚类的高速网络流量服务分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8989192B2 (en) * 2012-08-15 2015-03-24 Futurewei Technologies, Inc. Method and system for creating software defined ordered service patterns in a communications network
CN105391568B (zh) * 2014-09-05 2019-07-23 华为技术有限公司 一种软件定义网络sdn的实现方法、装置和系统
CN105471883A (zh) * 2015-12-10 2016-04-06 中国电子科技集团公司第三十研究所 基于web注入的Tor网络溯源系统、溯源方法
CN107682216B (zh) * 2017-09-01 2018-06-05 南京南瑞集团公司 一种基于深度学习的网络流量协议识别方法
CN110275437B (zh) * 2019-06-06 2022-11-15 江苏大学 Sdn网络流量优势监控节点动态选择系统及其方法
CN110519298B (zh) * 2019-09-19 2021-11-12 北京丁牛科技有限公司 一种基于机器学习的Tor流量识别方法及装置

Also Published As

Publication number Publication date
CN111953669A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111953669B (zh) 适用于SDN的Tor流量溯源与应用类型识别方法和系统
CN111865815B (zh) 一种基于联邦学习的流量分类方法及系统
Wang et al. A survey of techniques for mobile service encrypted traffic classification using deep learning
CN111860628A (zh) 一种基于深度学习的流量识别与特征提取方法
CN105871832A (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN111464485A (zh) 一种加密代理流量检测方法和装置
Wang et al. Multilevel identification and classification analysis of Tor on mobile and PC platforms
Song et al. Encrypted traffic classification based on text convolution neural networks
CN112822189A (zh) 一种流量识别方法及装置
CN112804253B (zh) 一种网络流量分类检测方法、系统及存储介质
CN111711545A (zh) 一种软件定义网络中基于深度包检测技术的加密流量智能识别方法
Li et al. Street-Level Landmarks Acquisition Based on SVM Classifiers.
Xu et al. DDoS detection using a cloud-edge collaboration method based on entropy-measuring SOM and KD-tree in SDN
CN109728977B (zh) Jap匿名流量检测方法及系统
Yin et al. Identifying iot devices based on spatial and temporal features from network traffic
CN113382039B (zh) 一种基于5g移动网络流量分析的应用识别方法和系统
Min et al. Online Internet traffic identification algorithm based on multistage classifier
Banihashemi et al. Encrypted network traffic classification using deep learning method
Sun et al. Deep learning-based anomaly detection in LAN from raw network traffic measurement
CN113726809B (zh) 基于流量数据的物联网设备识别方法
CN115866615A (zh) 一种基于电磁频谱特征的无线网络通联关系发现方法
Hao et al. IoTTFID: An Incremental IoT device identification model based on traffic fingerprint
Du et al. Fenet: Roles classification of ip addresses using connection patterns
CN114679318A (zh) 一种高速网络中轻量级的物联网设备识别方法
CN108668265B (zh) 基于循环神经网络预测移动用户间相遇概率的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant