CN113283498A - 一种面向高速网络的vpn流量快速识别方法 - Google Patents
一种面向高速网络的vpn流量快速识别方法 Download PDFInfo
- Publication number
- CN113283498A CN113283498A CN202110560776.9A CN202110560776A CN113283498A CN 113283498 A CN113283498 A CN 113283498A CN 202110560776 A CN202110560776 A CN 202110560776A CN 113283498 A CN113283498 A CN 113283498A
- Authority
- CN
- China
- Prior art keywords
- flow
- vpn
- data
- client
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005070 sampling Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 239000003795 chemical substances by application Substances 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000011895 specific detection Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/46—Interconnection of networks
- H04L12/4641—Virtual LANs, VLANs, e.g. virtual private networks [VPN]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种面向高速网络的VPN流量快速识别方法,方法的具体步骤分为模型训练和模型使用两个场景。模型训练时,在可控的网络环境中进行流量抽样采集,选择能够用于抽样后VPN流量识别分类的相关特征,构建小规模的流量数据训练集进行模型训练。使用该模型时,在高速网络中进行流量抽样,通过Count Bloom Filter算法过滤出长流流量,使用链接法散列表存储统计信息,并根据记录的统计信息提取特征值,得到流量特征记录,用于流量检测。本发明能够快速精确地识别出高速网络中存在的VPN流量,并对VPN流量使用的代理工具进行分类,有效提高了网络流量的检测能力。
Description
技术领域
本发明属于网络空间安全技术领域,涉及一种面向高速网络的VPN流量快速识别方法。
背景技术
随着信息技术的飞速发展,互联网规模快速扩张,各种类型的网络服务不断增多,信息的安全性问题日益受到关注。为了保障数据传输的安全性,越来越多的流量都在加密后进行传输。加密技术为用户提供了很多好处,以确保端到端的保密性和数据的保密性。在保障信息安全的同时,加密技术也使得恶意用户通过这种方式来隐藏自己的信息和行踪,这给流量的审计带来了新的挑战。
虚拟专用网(VPN)技术作为加密网络流量的主要技术之一,被广泛应用于网络通信中,依靠加密隧道等手段,向用户提供便利、隐秘的远程访问等操作,以满足不同的安全要求。然而,被VPN工具(V2Ray等)掩盖下的流量,失去了原有流量的报文头部信息、流量侧信道等特征信息,给网络监管带来了巨大的挑战。同时,各类基于VPN技术的通信服务迅速发展,使信息安全问题日益突出。因此,针对VPN加密流量的识别分析刻不容缓。
国内外近年来针对VPN流量进行识别研究基本都围绕特征选择和机器学习算法的改进展开。基于时域特征和握手协议特征的SSL VPN流量识别方法将连续的持续时间作为流量特征,基于特征增强的VPN流量识别方法根据流量密度完成激增周期的特征提取,这类特征都具有很强的时间相关性,由于不同的网络状态会导致不同的流量特征,易受到样本流量的网络状态的影响从而影响识别的准确率。基于密度数据提取的流量特征的方法,不涉及具体的协议内容,对VPN流量的识别缺乏较强的针对性,导致其准确性和实用性较差。也有的方法采用Bit级DPI指纹生成技术,然而,该方法涉及对数据包的有效负载中的明文进行分析,在计算上效率不高,不适用于高速网络的海量流量检测,并且随着加密协议的发展,TLS1.3协议的普遍应用,可以进行DPI分析的明文指纹特征已经很少出现了,导致该方法无法适用。此外,还有方法针对VPN内加密流量协议的识别研究,使用了深度学习技术,但该方法没有给出VPN流量的识别过程的描述,没有给出如何获得VPN流量的特征,识别效果不明确。此外,上述方法都是针对完整的数据流进行检测,而在高速网络中,将完整流量全部镜像保存并分析在资源耗费上是不现实的,现有的高速网络管理系统对一般性的流量监控需求都是通过保留抽样数据分析的方法,这导致上述方法不能应用于高速网络。
综上,现有的方法存在如下主要问题:(1)目前的方法都基于完整流量数据进行研究,选取的特征只适用于完整流量的识别数据;(2)高速网络中的海量数据处理需要消耗大量的计算和存储资源,只能通过抽样流量进行分析,因此目前对完整流量进行识别的方法不适用于高速网络中的抽样流量数据检测;(3)目前的方法受到时间因素和网络服务质量的影响,对VPN流量的识别缺乏针对性和稳定性;(4)现有的方法涉及数据包的有效负载分析,在计算上效率不高,不适用于高速网络的海量流量数据检测。上述问题导致现有的方法无法实现高速网络环境的VPN流量快速识别。
因此,本发明提出了一种面向高速网络的VPN流量快速识别方法。本发明基于抽样的思想从高速网络中获得流量,并根据抽样数据下的VPN流量特征完成识别分类过程。
发明内容
为了提高网络流量的检测能力,实现在高速网络中VPN流量的快速识别,本发明提出了一种面向高速网络的VPN流量快速识别方法。首先在可控的网络环境中进行流量抽样采集,选择能够用于抽样后VPN流量识别分类的相关特征,构建小规模的流量数据训练集,使用随机森林算法进行模型训练得到流量检测模型。然后在高速网络中进行流量抽样,通过Count Bloom Filter算法过滤出长流流量,使用链接法散列表存储统计信息,并根据统计记录计算特征值,得到流量特征记录。最后使用训练好的检测模型完成VPN流量的识别和分类。
为实现本发明的目的,本方案具体技术步骤如下:
(1)采集用于模型训练的VPN流量数据和普通流量数据并保存;
(2)从原始数据中选择可用于抽样后VPN流量识别分类的特征,进行机器学习的模型训练;
(3)在高速网络中进行流量数据抽样,然后使用Count Bloom Filter算法和链接法散列表对抽样数据包进行处理,获得流量统计记录;
(4)根据步骤(3)中获得的统计记录提取流量特征,使用步骤(2)中训练完成的模型,进行流量检测。
进一步,所述步骤(1)具体包括如下子步骤:
(1.1)在主机端安装VPN代理工具;
(1.2)启动应用开始进行VPN流量数据采集;
(1.3)使用VPN代理工具进行网络访问;
(1.4)网络访问结束后停止采集,存储当前采集的主机端与VPS之间的VPN流量数据文件;
(1.5)启动应用开始进行普通流量数据采集;
(1.6)关闭VPN代理工具,使用常见应用进行操作;
(1.7)操作完成后停止采集,存储当前采集的普通流量数据文件;
(1.8)重复(1.2)~(1.7)操作,直到采集到足够多数量的流量数据。
进一步,所述步骤(2)具体包括如下子步骤:
(2.1)对步骤(1)中采集的完整流量数据进行抽样处理;
(2.2)对抽样流量进行特征选择,选择合适的可用特征;
(2.3)将步骤(1)中采集的流量数据作为原始数据,经过步骤(2.1)的抽样处理,提取出步骤(2.2)选择的可用特征,构建小规模的流量数据训练集;
(2.4)针对特定的检测场景对训练集中的流量数据进行标签设置,用于机器学习的模型训练,最终建立流量检测模型。
进一步的,所述步骤(2.2)中合适的可用特征如表4所示。
表4可用特征
特征 | 含义 |
F1 | 客户端初始接收窗口 |
F2 | 客户端最终接收窗口 |
F3 | 客户端接收窗口的增长率 |
F4 | 客户端接收的数据包平均报文长度 |
F5 | 客户端接收的负载不为0的包与客户端发出的负载为0的包的比值 |
F6 | 客户端接收的数据包平均传输速率 |
F7 | 是否具有时间戳 |
进一步,所述步骤(3)具体包括如下子步骤:
(3.1)在高速主干网中设置数据包抽样比λ进行抽样;
(3.2)使用Count Bloom Filter算法进行长流过滤;
(3.3)使用链接法散列表存储统计信息并获得统计记录。
进一步的,所述步骤(3.2)具体包括如下子步骤:
(3.2.1)对于抽样后的每个数据包,将数据包的五元组作为哈希函数的输入,映射到k个相应的CBF向量中,其中k是哈希函数的个数;
(3.2.2)判断相应的k个CBF向量中计数器的值是否小于长流阈值,若CBF向量中计数器的值小于长流阈值,则在计数器中执行加1操作,否则计数器的值保持不变;
(3.2.3)找到相应的k个CBF向量中所有计数器的最小值,当最小值达到长流阈值时,该数据包作为长流数据包通过过滤,否则直接丢弃。
进一步的,所述步骤(3.3)具体包括如下子步骤:
(3.3.1)对于过滤得到的长流数据包,将数据包的五元组作为哈希函数的输入,映射到散列表相应的位置中;
(3.3.2)若相应的位置内容为空,则直接添加该数据包的统计信息;
(3.3.3)若相应的位置已存在流统计信息,则通过五元组判断该数据包是否属于已存在的流,若属于同一流则直接更新已存在的流量统计信息,否则在链表尾部添加节点并存储新的流量统计信息;
(3.3.4)当某个流的数据包个数达到设定的记录阈值θ时,提取存储的统计信息,得到流量统计记录。
所述步骤(3.3.2)和(3.3.3)中,所需存储的流量统计信息如表5所示。
表5流量统计信息
其中,由于存储的流信息是基于抽样数据包得到的,C1记录的值实际是抽样后第一个客户端发送的数据包的接收窗口大小,C2记录的值实际是抽样后最后一个客户端发送的数据包的接收窗口大小,C7和C8记录的值也是根据第一个抽样数据包和最后一个抽样数据包得到的。
进一步,所述步骤(4)具体包括如下子步骤:
(4.1)对步骤(3)中得到的统计记录进行计算,提取流量特征,得到流量特征记录;
(4.2)将流量特征记录输入步骤(2)中训练完成的模型,分别进行VPN流量的识别和VPN代理工具的区分,得到流量检测结果。
进一步的,所述步骤(4.1)中,流量统计记录与特征值的计算对应关系如表6所示。
表6流量统计记录与特征值的对应关系
特征 | 对应关系 |
F1 | C1 |
F2 | C2 |
F3 | C2/C1 |
F4 | C6/(C4-C5) |
F5 | (C4-C5)/C3 |
F6 | (C4-C5)*λ/(C8-C7) |
F7 | C9 |
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明可对抽样过的网络流量进行VPN识别,适用于现有高速主干网的数据采集技术,具有很好的实用性和应用前景;
(2)本发明提取的特征筛选掉了受抽样影响的特征,基于VPN协议特点创新地提出了在数据抽样后仍然具有很好的区分性的特征,因此适用于抽样后的网络流量;
(3)本发明提取的特征不仅考虑了VPN应用流量的时域特点,也考虑了VPN协议呈现的特点,因此本发明的识别效果不受网络服务质量变化的影响,具有良好的识别稳定性;
(4)本发明提取的特征不涉及数据包的有效负载的明文分析,不仅提高了流量检测的计算效率,也保护了数据的隐私性问题;
(5)本发明使用Count Bloom Filter算法进行长流过滤,避免了对不必要短流的处理,提高了识别效率。
附图说明
图1为本发明提供的面向高速网络的VPN流量快速识别的方法框架。
图2为训练完成的模型在抽样比为64时,VPN流量识别的混淆矩阵。
图3为训练完成的模型在抽样比为64时,VPN代理工具分类的混淆矩阵。
图4为Count Bloom Filter算法长流过滤结构图。
图5为链接法散列表统计信息记录结构图。
图6为不同抽样比下VPN流量识别的预测结果参数。
图7为不同抽样比下VPN代理工具分类的预测结果参数。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1:本发明提出了一种面向高速网络的VPN流量快速识别方法,其结构框架如图1所示,包括如下步骤:
(1)采集用于模型训练的VPN流量数据和普通流量数据并保存;
本步骤的具体过程如下:
(1.1)安装VPN代理工具,其中PC端安装V2RayN,移动端安装V2RayNG,路由器安装V2Ray代理插件;
(1.2)启动tcpdump开始进行VPN流量数据采集;
(1.3)使用VPN代理工具进行网络访问;
(1.4)网络访问结束后停止采集,存储当前采集的主机端与VPS之间的VPN流量数据文件(.pcap);
(1.5)启动tcpdump开始进行普通流量数据采集;
(1.6)关闭VPN代理服务,使用常见应用进行操作;
(1.7)操作完成后停止采集,存储当前采集的普通流量数据文件(.pcap);
(1.8)重复(1.2)~(1.7)操作,直到采集到足够多数量的流量数据。
(2)从原始数据中选择可用于抽样后VPN流量识别分类的特征,进行机器学习的模型训练;
本步骤的具体过程如下:
(2.1)对步骤(1)中采集的完整流量数据进行抽样处理;
(2.2)对抽样流量进行特征选择,选择合适的可用特征,最终选择的特征如表7所示;
表7可用特征
特征 | 含义 |
F1 | 客户端初始接收窗口 |
F2 | 客户端最终接收窗口 |
F3 | 客户端接收窗口的增长率 |
F4 | 客户端接收的数据包平均报文长度 |
F5 | 客户端接收的负载不为0的包与客户端发出的负载为0的包的比值 |
F6 | 客户端接收的数据包平均传输速率 |
F7 | 是否具有时间戳 |
(2.3)将步骤(1)中采集的流量数据作为原始数据,经过步骤(2.1)的抽样处理,提取出步骤(2.2)选择的可用特征,构建小规模的流量数据训练集;
(2.4)针对特定的检测场景对训练集中的流量数据进行标签设置,用于机器学习的模型训练,根据VPN流量的识别和VPN代理工具的分类两个方面进行标签的设置:在进行VPN流量识别时,设置二分类标签VPNlabel,将VPN流量标记为1,非VPN流量标记为0;在进行VPN代理工具的分类时,设置多分类标签V2Raylabel,将使用PC端V2RayN工具的VPN流量标记为1,将使用路由器代理插件的VPN流量标记为2,将使用移动端V2RayNG工具的VPN流量标记为3,其余非VPN流量标记为0。最终建立的流量检测模型,在抽样比为64时对VPN流量的识别情况如图2所示,对VPN代理工具的分类情况如图3所示。
(3)在高速网络中进行流量数据抽样,然后使用Count Bloom Filter算法和链接法散列表对抽样获得的数据包进行处理,获得流量统计记录;
本步骤的具体过程如下:
(3.1)获取验证数据集,包括两部分,一部分为使用VPN代理工具进行网络访问的VPN流量,另一部分为MAWI工作组2020年6月10日采集的15分钟流量数据。对该验证数据集进行抽样,抽样过程如下:
(3.1.1)选定抽样比例λ=64,随机生成初始数据包的序列号n0,其中n0∈[0,λ-1];
(3.1.2)记数据包的序列号为n,若mod(n,λ)=n0,则读入该数据包作为抽样数据包继续后续处理。
(3.2)使用Count Bloom Filter算法进行长流过滤,算法结构如图4所示,具体过程如下:
(3.2.1)对于抽样后的每个数据包,将数据包的五元组作为哈希函数的输入,映射到k个相应的CBF向量中,其中k是哈希函数的个数;
(3.2.2)判断相应的k个CBF向量中计数器的值是否小于长流阈值,若CBF向量中计数器的值小于长流阈值,则在计数器中执行加1操作,否则计数器的值保持不变;
(3.2.3)找到相应的k个CBF向量中所有计数器的最小值,当最小值达到长流阈值时,该数据包作为长流数据包通过过滤,否则直接丢弃。
(3.3)使用链接法散列表存储流量统计信息,并获得统计记录,算法结构如图5所示,具体过程如下:
(3.3.1)对于过滤得到的长流数据包,将数据包的五元组作为哈希函数的输入,映射到散列表对应的位置中;
(3.3.2)若相应的位置内容为空,则直接添加该数据包的统计信息;
(3.3.3)若相应的位置已存在流量统计信息,则通过五元组判断该数据包是否属于已存在的流,若属于同一流则直接更新已存在的流量统计信息,否则在链表尾部添加节点并存储新的流量统计信息。所需存储的流量统计信息如表8所示;
表8流量统计信息
统计信息 | 含义 |
C1 | 客户端初始接收窗口的大小 |
C2 | 客户端最终接收窗口的大小 |
C3 | 客户端发送的负载为0的数据包的数量 |
C4 | 客户端接收的数据包的数量 |
C5 | 客户端接收的负载为0的数据包的数量 |
C6 | 客户端接收的数据包长度 |
C7 | 流开始时间 |
C8 | 流结束时间 |
C9 | 是否具有时间戳 |
其中,由于存储的流信息是基于抽样数据包得到的,C1记录的值实际是抽样后第一个客户端发送的数据包的接收窗口大小,C2记录的值实际是抽样后最后一个客户端发送的数据包的接收窗口大小,C7和C8记录的值也是根据第一个抽样数据包和最后一个抽样数据包得到的。
(3.3.4)当某个流的数据包个数达到设定的记录阈值θ=50时,提取存储的统计信息,得到流量统计记录。
(4)根据步骤(3)中获得的统计记录提取流量特征,使用步骤(2)中训练完成的模型,进行流量检测。
本过程的具体步骤如下:
(4.1)对步骤(3)中得到的统计记录进行计算,提取流量特征,得到流量特征记录,流量统计记录与特征值的对应关系如表9所示,部分特征记录如表10所示;
表9流量统计记录与特征值的对应关系
表10部分特征记录
(4.2)将流量特征记录输入步骤(2)中训练完成的模型,分别进行VPN流量的识别和VPN代理工具的区分,得到流量检测结果,部分检测结果如表11所示;
表11 VPN流量识别及VPN代理工具分类结果
(4.3)以上特征记录和识别结果均是基于64的抽样比得到的。为验证其他抽样比下本发明的准确性,进一步设置抽样比λ为8、16、32、128、256,重复步骤(3)和步骤(4.1)(4.2),进行实验验证,得到不同抽样比下VPN流量识别结果如图6所示,不同抽样比下VPN代理工具分类结果如图7所示。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种面向高速网络的VPN流量快速识别方法,其特征在于,包括如下步骤:
(1)采集用于模型训练的VPN流量数据和普通流量数据并保存;
(2)从原始数据中选择可用于抽样后VPN流量识别分类的特征,进行机器学习的模型训练;
(3)在高速网络中进行流量数据抽样,然后使用Count Bloom Filter算法和链接法散列表对抽样数据包进行处理,获得流量的统计记录;
(4)根据步骤(3)中获得的统计记录提取特征值,使用步骤(2)中训练完成的模型,进行流量检测。
2.根据权利要求1所述的面向高速网络的VPN流量快速识别方法,其特征在于,所述步骤(1)具体包括如下子步骤:
(1.1)在主机端安装VPN代理工具;
(1.2)启动应用开始进行VPN流量数据采集;
(1.3)使用VPN代理工具进行网络访问;
(1.4)网络访问结束后停止采集,存储当前采集的主机端与VPS之间的VPN流量数据文件;
(1.5)启动应用开始进行普通流量数据采集;
(1.6)关闭VPN代理工具,使用常见应用进行操作;
(1.7)操作完成后停止采集,存储当前采集的普通流量数据文件;
(1.8)重复(1.2)~(1.7)操作,直到采集到足够多数量的流量数据。
3.根据权利要求1所述的面向高速网络的VPN流量快速识别方法,其特征在于,所述步骤(2)具体包括如下子步骤:
(2.1)对步骤(1)中采集的完整流量数据进行抽样处理;
(2.2)对抽样流量进行特征选择,选择合适的可用特征;
(2.3)将步骤(1)中采集的流量数据作为原始数据,经过步骤(2.1)的抽样处理,提取出步骤(2.2)选择的可用特征,构建小规模的流量数据训练集;
(2.4)针对特定的检测场景对训练集中的流量数据进行标签设置,用于机器学习的模型训练,最终建立流量检测模型。
4.根据权利要求3所述的面向高速网络的VPN流量快速识别方法,其特征在于,所述步骤(2.2)中合适的可用特征如表1所示,
表1可用特征
。
5.根据权利要求1所述的面向高速网络的VPN流量快速识别方法,其特征在于,所述步骤(3)具体包括如下子步骤:
(3.1)在高速网络中设置数据包抽样比λ进行抽样;
(3.2)使用Count Bloom Filter算法进行长流过滤;
(3.3)使用链接法散列表存储流量统计信息并获得统计记录。
6.根据权利要求5所述的面向高速网络的VPN流量快速识别方法,其特征在于,所述步骤(3.2)具体包括如下子步骤:
(3.2.1)对于抽样后的每个数据包,将数据包的五元组作为哈希函数的输入,映射到k个相应的CBF向量中,其中k是哈希函数的个数;
(3.2.2)判断相应的k个CBF向量中计数器的值是否小于长流阈值,若CBF向量中计数器的值小于长流阈值,则在计数器中执行加1操作,否则计数器的值保持不变;
(3.2.3)找到相应的k个CBF向量中所有计数器的最小值,当最小值达到长流阈值时,该数据包作为长流数据包通过过滤,否则直接丢弃。
7.根据权利要求5所述的面向高速网络的VPN流量快速识别方法,其特征在于,所述步骤(3.3)具体包括如下子步骤:
(3.3.1)对于过滤得到的长流数据包,将数据包的五元组作为哈希函数的输入,映射到散列表相应的位置中;
(3.3.2)若相应的位置内容为空,则直接添加该数据包的统计信息;
(3.3.3)若相应的位置已存在流量统计信息,则通过五元组判断该数据包是否属于已存在的流,若属于同一流则直接更新已存在的流量统计信息,否则在链表尾部添加节点并存储新的流量统计信息;
(3.3.4)当某个流的数据包个数达到设定的记录阈值θ时,提取存储的统计信息得到统计记录。
8.根据权利要求7所述的面向高速网络的VPN流量快速识别方法,其特征在于,所述步骤(3.3.2)和(3.3.3)中所需存储的流量统计信息如表2所示,
表2流量统计信息
其中,由于存储的流信息是基于抽样数据包得到的,C1记录的值实际是抽样后第一个客户端发送的数据包的接收窗口大小,C2记录的值实际是抽样后最后一个客户端发送的数据包的接收窗口大小,C7和C8记录的值也是根据第一个抽样数据包和最后一个抽样数据包得到的。
9.根据权利要求1所述的面向高速网络的VPN流量快速识别方法,其特征在于,所述步骤(4)具体包括如下子步骤:
(4.1)对步骤(3)中得到的统计记录进行计算,提取流量特征,得到流量特征记录;
(4.2)将流量特征记录输入步骤(2)中训练完成的模型,分别进行VPN流量的识别和VPN代理工具的区分,得到流量检测结果。
10.根据权利要求9所述的面向高速网络的VPN流量快速识别方法,其特征在于,所述步骤(4.1)中流量统计记录与特征值的对应关系如表3所示,
表3流量统计记录与特征值的对应关系
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110560776.9A CN113283498B (zh) | 2021-05-21 | 2021-05-21 | 一种面向高速网络的vpn流量快速识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110560776.9A CN113283498B (zh) | 2021-05-21 | 2021-05-21 | 一种面向高速网络的vpn流量快速识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283498A true CN113283498A (zh) | 2021-08-20 |
CN113283498B CN113283498B (zh) | 2024-10-18 |
Family
ID=77280778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110560776.9A Active CN113283498B (zh) | 2021-05-21 | 2021-05-21 | 一种面向高速网络的vpn流量快速识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283498B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113949672A (zh) * | 2021-10-18 | 2022-01-18 | 南京中孚信息技术有限公司 | 一种新型vpn识别通用技术及装置 |
CN115174198A (zh) * | 2022-07-01 | 2022-10-11 | 东南大学 | 一种基于特征优化的开源代理软件流量识别方法 |
CN115174170A (zh) * | 2022-06-23 | 2022-10-11 | 东北电力大学 | 一种基于集成学习的vpn加密流量识别方法 |
CN117240657A (zh) * | 2023-09-07 | 2023-12-15 | 中国电子产业工程有限公司 | 一种基于图匹配网络的vpn应用识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101202652A (zh) * | 2006-12-15 | 2008-06-18 | 北京大学 | 网络应用流量分类识别装置及其方法 |
CN110460502A (zh) * | 2019-09-10 | 2019-11-15 | 西安电子科技大学 | 基于分布特征随机森林的vpn下应用程序流量识别方法 |
CN112235254A (zh) * | 2020-09-22 | 2021-01-15 | 东南大学 | 一种高速主干网中Tor网桥的快速识别方法 |
-
2021
- 2021-05-21 CN CN202110560776.9A patent/CN113283498B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101202652A (zh) * | 2006-12-15 | 2008-06-18 | 北京大学 | 网络应用流量分类识别装置及其方法 |
CN110460502A (zh) * | 2019-09-10 | 2019-11-15 | 西安电子科技大学 | 基于分布特征随机森林的vpn下应用程序流量识别方法 |
CN112235254A (zh) * | 2020-09-22 | 2021-01-15 | 东南大学 | 一种高速主干网中Tor网桥的快速识别方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113949672A (zh) * | 2021-10-18 | 2022-01-18 | 南京中孚信息技术有限公司 | 一种新型vpn识别通用技术及装置 |
CN115174170A (zh) * | 2022-06-23 | 2022-10-11 | 东北电力大学 | 一种基于集成学习的vpn加密流量识别方法 |
CN115174170B (zh) * | 2022-06-23 | 2023-05-09 | 东北电力大学 | 一种基于集成学习的vpn加密流量识别方法 |
CN115174198A (zh) * | 2022-07-01 | 2022-10-11 | 东南大学 | 一种基于特征优化的开源代理软件流量识别方法 |
CN117240657A (zh) * | 2023-09-07 | 2023-12-15 | 中国电子产业工程有限公司 | 一种基于图匹配网络的vpn应用识别方法 |
CN117240657B (zh) * | 2023-09-07 | 2024-03-12 | 中国电子产业工程有限公司 | 一种基于图匹配网络的vpn应用识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113283498B (zh) | 2024-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113283498B (zh) | 一种面向高速网络的vpn流量快速识别方法 | |
CN111865815B (zh) | 一种基于联邦学习的流量分类方法及系统 | |
CN110011931B (zh) | 一种加密流量类别检测方法及系统 | |
CN105871832B (zh) | 一种基于协议属性的网络应用加密流量识别方法及其装置 | |
CN110290022B (zh) | 一种基于自适应聚类的未知应用层协议识别方法 | |
CN113301041B (zh) | 一种基于分段熵和时间特征的V2Ray流量识别方法 | |
CN107370752B (zh) | 一种高效的远控木马检测方法 | |
CN112019449B (zh) | 流量识别抓包方法和装置 | |
CN110611640A (zh) | 一种基于随机森林的dns协议隐蔽通道检测方法 | |
CN110460502B (zh) | 基于分布特征随机森林的vpn下应用程序流量识别方法 | |
CN110247819B (zh) | 一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统 | |
CN109275045B (zh) | 基于dfi的移动端加密视频广告流量识别方法 | |
CN112019500B (zh) | 一种基于深度学习的加密流量识别方法及电子装置 | |
CN115941555B (zh) | 一种基于流量指纹的app个人信息收集行为检测方法及系统 | |
Li et al. | Activetracker: Uncovering the trajectory of app activities over encrypted internet traffic streams | |
CN111626322A (zh) | 一种基于小波变换的加密流量的应用活动识别方法 | |
CN117650935A (zh) | 一种基于业务应用分类模型的干扰流量识别方法 | |
Shaman et al. | User profiling based on application-level using network metadata | |
CN114679318B (zh) | 一种高速网络中轻量级的物联网设备识别方法 | |
Hejun et al. | Online and automatic identification and mining of encryption network behavior in big data environment | |
CN115242724A (zh) | 一种基于两阶段聚类的高速网络流量服务分类方法 | |
CN111835720B (zh) | 基于特征增强的vpn流量web指纹识别方法 | |
CN111274235B (zh) | 一种未知协议的数据清洗和协议字段特征提取方法 | |
CN116668085B (zh) | 基于lightGBM的流量多进程入侵检测方法及系统 | |
CN115378741B (zh) | 一种轻量级的加密应用细粒度行为流量早期识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |