CN111209959A - 基于数据包时序的加密网页流量分割点识别方法 - Google Patents

基于数据包时序的加密网页流量分割点识别方法 Download PDF

Info

Publication number
CN111209959A
CN111209959A CN202010007696.6A CN202010007696A CN111209959A CN 111209959 A CN111209959 A CN 111209959A CN 202010007696 A CN202010007696 A CN 202010007696A CN 111209959 A CN111209959 A CN 111209959A
Authority
CN
China
Prior art keywords
sequence
data packet
vector
encrypted
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010007696.6A
Other languages
English (en)
Other versions
CN111209959B (zh
Inventor
杨超
孟献昆
苏锐丹
尤伟
郑昱
郭刚
陈明哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010007696.6A priority Critical patent/CN111209959B/zh
Publication of CN111209959A publication Critical patent/CN111209959A/zh
Application granted granted Critical
Publication of CN111209959B publication Critical patent/CN111209959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种基于数据包时序的加密网页流量分割点识别方法,用于解决现有技术中存在的识别准确率较低的技术问题。实现步骤为,获取加密网页流量原始数据集T;定义加密网页流量数据Ti的矢量数据包;基于数据包时序获取加密网页流量数据Ti的序列段集合;获取加密网页流量序列Ti'的时序特征向量集合CTi和标签集合Yi;获取训练集集合Vtrain和测试集集合Vtest;构建分类模型M;最后获取加密网页流量分割点的识别结果。本发明通过数据包时序对数据包进行分段,并以此进行特征构造对加密网页流量分割点进行识别,解决了现有技术识别准确率较低的问题,同时由于采用分段处理,能够提高识别方法的效率。

Description

基于数据包时序的加密网页流量分割点识别方法
技术领域
本发明属于网络安全与用户隐私领域,涉及一种加密网页流量分割点识别方法,具体涉及一种基于数据包时序的加密网页流量分割点识别方法。
背景技术
加密通信网络的目的是隐藏通信双方的关系和内容,一旦双方建立了加密通信网络,通信内容就会被加密,第三方的源和目标IP等路由信息就会被隐藏。然而这种高度的匿名性却给那些利用网络从事违法犯罪的不法分子提供了便利,同时也给网络监管机构带来了更大的困难和挑战。
当用户通过加密通信网络进行网页访问活动时产生的多次请求和应答的流量就是加密网页流量,使用网站指纹识别技术对这些加密网页流量进行识别,就可以在不破解用户加密数据的情况下得到用户访问的网页信息,对用户网络进行内容审查。在对进行加密网页流量进行网站指纹识别时,其中最重要的一步就是确保输入的待识别流量是单网页加密流量,因为现有的网站指纹识别技术都是基于单网页流量进行网站指纹模型的构建,如果输入的待检测加密网页流量是多个网页的混杂流量,就会造成网站指纹模型的识别错误,影响网站指纹识别技术在现实场景的应用。所以对每个加密网页流量的起始数据包即加密网页流量分割点进行识别,在此基础上得到单网页的加密网页流量,就显得格外重要。
目前对于加密网页流量的分割点识别方法的研究,主要基于对加密网页流量数据包的时间间隔的分析。其中有两种方法较为广泛,一种是根据数据包的时间间隔对加密网页流量进行分析,一种是使用机器学习的方法提取分割点周围的特征进行分析。前一种方法是最朴素的一种方法,根据数据包之间的间隔确认加密网页分割点的位置,当相邻数据包之间的时间间隔大于某一数值时,就认为第二个数据包为加密网页流量的分割点,这种方法仅仅能识别两个网页起始访问时间时间间隔较大时产生的加密网页流量分割点,对同时打开两个网页即零时间间隔加密网页流量分割点就不能识别,因此,后一种方法得到了更多研究人员的关注。
目前,使用机器学习的方法提取分割点周围的特征进行分析的方法大多包含以下三个步骤:1)加密网页流量数据获取与预处理;2)特征提取;3)机器学习分类器构建。在数据获取与预处理步骤中,需要获取加密网页流量数据,并将数据进行初步分组与序列化;在特征提取步骤中,需要从每组数据中提取具有能显著区分分割点和非分割点特性的特征;在分类器构建步骤中,需要将从特征提取步骤中得到特征输入到分类器中进行训练,并得到分类模型。目前最常用的分类算法是随机森林。
2016年,滑铁卢大学的Tao Wang等人在Proceedings on Privacy EnhancingTechnologies期刊上发表了论文“On Realistically Attacking Tor with WebsiteFingerprinting”,提出一种使用机器学习对加密网页流量数据进行分割点识别的方法。该方法主要使用数据包之间的时间间隔特点进行特征提取和构造,对分割点的识别使用了23个特征,包括每个数据包与相邻的5个数据包之间的到达时间间隔、每个数据包与下一个传入数据包之间的间隔时间,以及每个数据包与前后50个数据包之间到达时间的时间间隔平均值、标准差、最大值,以及每个数据包前2、4、6、…16、18个数据包和后2、4、6、…16、18个数据包之间的到达时间的时间间隔,以及每个数据包前后5、10个数据包中传入数据包和传出数据包的数量。然而这种方法在用于加密网页流量分割点识别时,对于高度同质化的流量所提取出的时间间隔特征不能明显的区分网页分割点,因此对于零时间间隔的加密网页流量的识别准确率较低,除此之外该方法在构建特征向量时需要对每个数据包前后的50个数据包进行时间间隔的统计和缓存,需要很大的计算空间,影响分割点的识别效率。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提出了一种基于数据包时序的加密网页流量分割点识别方法,用于解决现有技术中存在的识别准确率较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取加密网页流量原始数据集T:
(1a)构建包含计算机D、加密网络N和网页服务器S的数据采集网络,计算机D包含匿名浏览器C和抓包软件,网页服务器S包括至少一个网页W;
(1b)匿名浏览器C通过加密网络N对网页服务器S所包含的网页W进行n次访问,并通过抓包软件对每次访问的请求和应答过程所产生的双向加密网页流量数据进行抓取,得到加密网页流量原始数据集T,T={T1,T2,...Ti,...Tn},其中,Ti表示第i次抓取的包含m个数据包的加密网页流量数据,第j个数据包的时间戳和长度分别为tij和lij,n≥2,m≥3;
(2)定义加密网页流量数据Ti的矢量数据包:
定义加密网页流量数据Ti中带有方向的数据包为矢量数据包,匿名浏览器C通过加密网络N向网页服务器S发送的请求数据包为矢量数据包-lij,网页服务器S通过加密网络N向匿名浏览器C发送的应答数据包为矢量数据包+lij
(3)基于数据包时序获取加密网页流量数据Ti的序列段集合:
(3a)将加密网页流量数据Ti中数据包的矢量数据包记为l'ij,并以[时间戳,矢量]为格式对Ti进行序列化,得到加密网页流量序列T'i
T'i={(ti1,l'i1),(ti2,l'i2),...,(tij,l'ij),...(tim,l'im)};
(3b)以Δt为单位时间对加密网页流量序列T'i进行划分,得到包括s段子序列的序列段集合T'i={T'i1,T'i2,...T'ik,...T'is},其中,T'ik表示第k段序列;
(4)获取加密网页流量序列T'i的时序特征向量集合CTi和标签集合Yi
(4b)计算第k段T'ik内序列个数的统计值和矢量的统计值,以及第k段T'ik内相邻序列之间时间间隔的统计值,其中:
第k段T'ik内序列个数的统计值和矢量的统计值,包括矢量为“+”的序列个数scnk和序列总矢量和sclk、矢量为“-”的序列个数csnk和序列总矢量和cslk、sclk的长度|sclk|和cslk的长度|cslk|、序列总个数vnk和序列总矢量和vlk,以及序列总矢量长度vl'k、scnk与vnk的比值
Figure BDA0002355922560000031
csnk与vnk的比值
Figure BDA0002355922560000032
sclk与vlk的比值
Figure BDA0002355922560000033
cslk与vlk的比值
Figure BDA0002355922560000034
|sclk|与vl'k的比值
Figure BDA0002355922560000035
|cslk|与vl'k的比值
Figure BDA0002355922560000036
k≥2,其中:
vnk=scnk+csnk
vlk=sclk+cslk
vl'k=|sclk|+|cslk|
Figure BDA0002355922560000041
Figure BDA0002355922560000042
Figure BDA0002355922560000043
Figure BDA0002355922560000044
Figure BDA0002355922560000045
Figure BDA0002355922560000046
第k段T'ik内相邻序列之间时间间隔的统计值,包括最大时间间隔、最小时间间隔、所有时间间隔的平均值和标准差;
(4c)将加密网页流量序列T'i中第k段T'ik内序列个数的统计值和矢量的统计值,以及第k段T'ik内相邻序列之间时间间隔的统计值组成时序特征向量CTik,并将T'i中s段的时序特征向量组成时序特征向量集合CTi
CTi={CTi1,CTi2,...CTik,...CTis};
(4d)通过标签yik对第k段T'ik的时序特征向量CTik进行标注,得到标签集合Yi:Yi={yi1,yi2,...yik,...yis},其中:
Figure BDA0002355922560000047
0表示为加密网页流量的分割点,1表示为非加密网页流量的分割点;
(5)获取训练集集合Vtrain和测试集集合Vtest
将从时序特征向量集合CTi中随机选取的半数以上的特征向量,以及每个特征向量在标签集合Yi中对应的标签作为训练集Vi train,n个训练集组成训练集集合Vtrain,同时将CTi其余特征向量和每个特征向量在标签集合Yi中对应的标签作为测试集Vi test,n个测试集组成测试集集合Vtest,其中:
Figure BDA0002355922560000048
Figure BDA0002355922560000051
(6)构建分类模型M:
将训练集集合Vtrain作为随机森林算法的输入进行训练,得到分类模型M;
(7)获取加密网页流量分割点的识别结果:
将测试集集合Vtest作为分类模型M的输入进行分类,得到Vtest中每个特征向量的标签。
本发明与现有技术相比,具有如下优点:
1.本发明根据数据包时序对数据包序列进行分段,并统计段内的序列个数的统计值和矢量的统计值等多种特征构建训练集,输入随机森林算法进行训练得出一个分类模型来识别加密网页流量的分割点,根据数据包时序对数据包序列进行分段处理,所提取的段内不同方向数据包序列个数和长度特征能够通过双向流量分布不均衡的特点,体现出加密网页流量分割点与非分割点的明显区别,从而使得根据时序特征通过随机森林算法建立的分类模型能够准确识别加密网络流量的分割点,与现有技术相比,有效提高了加密网页流量分割点识别准确率。
2.本发明在进行特征构建时,根据数据包时序对数据包序列进行分段,对段内的数据包序列进行个数和长度的统计计算,避免对每个数据包进行分割点特征向量构造的步骤,减少加密网页流量分割点识别时特征向量的数量,解决了现有技术对每个数据包进行特征构造的方法特征提取繁琐、识别效率低的问题,提高了特征向量的构造效率,与现有技术相比,提高了加密网页流量分割点识别的效率。
附图说明
图1是本发明的实现流程图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)获取加密网页流量原始数据集T:
步骤1a)构建包含计算机D、加密网络N和网页服务器S的数据采集网络,计算机D包含匿名浏览器C和抓包软件,网页服务器S包括至少一个网页W;
该步骤中的计算机D可以包含装有Windows系统、Linux系统等主流操作系统的计算机,本实例中选取的是一款Windows 10系统的计算机;加密网络N可以包括洋葱网络、虚拟专用网络(Virtual Private Network,VPN)等的网络,本实例中选取的是洋葱网络;匿名浏览器C可以包含洋葱头(The Onion Router,Tor)浏览器、火狐浏览器、谷歌浏览器等主流浏览器,本实例选取的是洋葱头浏览器;抓包软件包含Wireshark、Sniffer、tcpdump等主流抓包软件,本实例选用的是Wireshark作为抓包软件;网页服务器S可以包含所有可以提供网页服务的网页服务器,本实例选择百度搜索的网页服务器;网页W可以包含网页服务器所提供的所有单页网页,本实例选择百度搜索首页作为访问的目标网页,网页地址为“https://www.baidu.com/”;
步骤1b)匿名浏览器C通过加密网络N对网页服务器S所包含的网页W进行n次访问,并通过抓包软件对每次访问的请求和应答过程所产生的双向加密网页流量数据进行抓取,得到加密网页流量原始数据集T,T={T1,T2,...Ti,...Tn},其中,Ti表示第i次抓取的包含m个数据包的加密网页流量数据,第j个数据包的时间戳和长度分别为tij和lij,n≥2,m≥3;
在对访问网页的流量进行抓取时,因为访问的网页W不同或者网络波动等因素的影响,每次抓取的数据包数目m可能不一样,本实例中对百度搜索首页进行访问2次,因为网络波动的影响,两次得到的数据包数目m值分别为506,522;
步骤2)定义加密网页流量数据Ti的矢量数据包:
定义加密网页流量数据Ti中带有方向的数据包为矢量数据包,匿名浏览器C通过加密网络N向网页服务器S发送的请求数据包为矢量数据包-lij,网页服务器S通过加密网络N向匿名浏览器C发送的应答数据包为矢量数据包+lij
本实例中洋葱头浏览器通过洋葱网络向百度首页的网页服务器发送的一个请求数据包长度为565,则其矢量数据包表示为-565,百度首页的网页服务器通过洋葱网络向洋葱头浏览器发送的一个应答数据包长度为1448,则其矢量数据包表示为+1448;通过矢量数据包的定义,可以将数据包的方向和长度使用一个矢量表示,通过矢量数据包在数据包方向和长度的基础上进行丰富的特征构建,可以表现出数据包的局部分布特性,这是接下来分割点特征构造的基础;
步骤3)基于数据包时序获取加密网页流量数据Ti的序列段集合:
步骤3a)将加密网页流量数据Ti中数据包的矢量数据包记为l'ij,并以[时间戳,矢量]为格式对Ti进行序列化,得到加密网页流量序列T'i
T'i={(ti1,l'i1),(ti2,l'i2),...,(tij,l'ij),...(tim,l'im)};
步骤3b)以Δt为单位时间对加密网页流量序列T'i进行划分,得到包括s段子序列的序列段集合T'i={T'i1,T'i2,...T'ik,...T'is},其中,T'ik表示第k段序列;
Δt可以根据实验效果进行调整,本实例为了方便计算,选择Δt的单位时间为1s;本实例中T1第一个序列的时间戳为分为1564713657.091550s,最后一个序列的时间戳为1564713665.372121s,时间间隔为8.280571s,故将这个序列分为9个序列,与第一个序列时间戳时间间隔小于1s的序列在T1的第一个子序列中,与第一个序列时间戳时间间隔大于等于1s并小于2s的序列在T1的第二个子序列中,与第一个序列时间戳时间间隔大于等于2s并小于3s的序列在T1的第二个子序列中,…以此类推,得到9个子序列;
步骤4)获取加密网页流量序列T'i的时序特征向量集合CTi和标签集合Yi
步骤4b)计算第k段T'ik内序列个数的统计值和矢量的统计值,以及第k段T'ik内相邻序列之间时间间隔的统计值,其中:
第k段T'ik内序列个数的统计值和矢量的统计值,包括矢量为“+”的序列个数scnk和序列总矢量和sclk、矢量为“-”的序列个数csnk和序列总矢量和cslk、sclk的长度|sclk|和cslk的长度|cslk|、序列总个数vnk和序列总矢量和vlk,以及序列总矢量长度vl'k、scnk与vnk的比值
Figure BDA0002355922560000071
csnk与vnk的比值
Figure BDA0002355922560000072
sclk与vlk的比值
Figure BDA0002355922560000073
cslk与vlk的比值
Figure BDA0002355922560000074
|sclk|与vl'k的比值
Figure BDA0002355922560000075
|cslk|与vl'k的比值
Figure BDA0002355922560000076
k≥2,其中:
vnk=scnk+csnk
vlk=sclk+cslk
vl'k=|sclk|+|cslk|
Figure BDA0002355922560000081
Figure BDA0002355922560000082
Figure BDA0002355922560000083
Figure BDA0002355922560000084
Figure BDA0002355922560000085
Figure BDA0002355922560000086
第k段T'ik内相邻序列之间时间间隔的统计值,包括最大时间间隔、最小时间间隔、所有时间间隔的平均值和标准差;
步骤4b)中对第k段T'ik内子序列矢量的统计值,需要该子序列的总矢量和进行计算,计算时以矢量形式进行求和运算,计算结果以数字形式表示,当矢量计算结果为“-”时,以负整数形式表示该计算结果,其数值为-1与矢量长度的乘积,当矢量计算结果为“+”时,以正整数形式表示该计算结果,其数值为+1与矢量长度的乘积,对单个方向的序列总矢量和cslk与sclk计算时遵循一样的表示原则;
步骤4c)将加密网页流量序列T'i中第k段T'ik内序列个数的统计值和矢量的统计值,以及第k段T'ik内相邻序列之间时间间隔的统计值组成时序特征向量CTik,并将T'i中s段的时序特征向量组成时序特征向量集合CTi
CTi={CTi1,CTi2,...CTik,...CTis};
步骤4d)通过标签yik对第k段T'ik的时序特征向量CTik进行标注,得到标签集合Yi:Yi={yi1,yi2,...yik,...yis},其中:
Figure BDA0002355922560000087
0表示为加密网页流量的分割点,1表示为非加密网页流量的分割点;
步骤3)和步骤4)中根据数据包时序对数据包序列进行分段处理,所提取的段内不同方向数据包序列个数和长度特征能够通过双向流量分布不均衡的特点,体现出加密网页流量分割点与非分割点的明显区别,与现有技术相比,其特征更能表现出分割点的特征,从而使得后续步骤中根据时序特征通过随机森林算法建立的分类模型能够准确识别加密网络流量的分割点,有效提高了加密网页流量分割点识别准确率,除此之外,根据数据包时序对数据包序列进行分段,对段内的数据包序列进行个数和长度的统计计算,避免对每个数据包进行分割点特征向量构造的步骤,减少加密网页流量分割点识别时特征向量的数量,解决了现有技术对每个数据包进行特征构造的方法特征提取繁琐、识别效率低的问题,提高了特征向量的构造效率,与现有技术相比,提高了加密网页流量分割点识别的效率;
步骤5)获取训练集集合Vtrain和测试集集合Vtest
将从时序特征向量集合CTi中随机选取的半数以上的特征向量,以及每个特征向量在标签集合Yi中对应的标签作为训练集Vi train,n个训练集组成训练集集合Vtrain,同时将CTi其余特征向量和每个特征向量在标签集合Yi中对应的标签作为测试集Vi test,n个测试集组成测试集集合Vtest,其中:
Figure BDA0002355922560000091
Figure BDA0002355922560000092
步骤6)构建分类模型M:
将训练集集合Vtrain作为随机森林算法的输入进行训练,得到分类模型M;
步骤6a)从训练集集合Vtrain中有放回的随机抽取q次,每次抽取的p个特征向量组成子训练集集合V'train
Figure BDA0002355922560000093
其中
Figure BDA0002355922560000094
表示第c个子训练集,1≤c≤q,且
Figure BDA0002355922560000095
CTcr为第r个特征向量,且CTcr=(fea1,fea2,...,feau,feaw),feau为第u个特征,w为特征总数;
步骤6b)从
Figure BDA0002355922560000096
中的特征向量CTcr中随机选择or个特征组成部分特征向量CTc'r
Figure BDA0002355922560000101
对应的部分特征向量组成部分特征子训练集
Figure BDA0002355922560000102
并将
Figure BDA0002355922560000103
作为决策树算法的输入构建决策树treec,所有决策树组成分类模型M:
M={tree1,tree2,...treec,...treeq}
其中treec为第c个决策树,1≤c≤q;
步骤6a)步骤6b)是通过调用python的sklearn库中的随机森林算法函数RandomForestClassifier来实现的,将训练集合Vtrain作为随机森林算法的输入,以与步骤6a)步骤6b)相同的方式,构建分类模型M;
步骤7)获取加密网页流量分割点的识别结果:
将测试集集合Vtest作为分类模型M的输入进行分类,得到Vtest中每个特征向量的标签,当标签为1时,说明预测样本为非加密网页流量的分割点,当标签为0时,说明该预测样本为加密网页流量的分割点。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (2)

1.一种基于数据包时序的加密网页流量分割点识别方法,其特征在于,包括以下步骤:
(1)获取加密网页流量原始数据集T:
(1a)构建包含计算机D、加密网络N和网页服务器S的数据采集网络,计算机D包含匿名浏览器C和抓包软件,网页服务器S包括至少一个网页W;
(1b)匿名浏览器C通过加密网络N对网页服务器S所包含的网页W进行n次访问,并通过抓包软件对每次访问的请求和应答过程所产生的双向加密网页流量数据进行抓取,得到加密网页流量原始数据集T,T={T1,T2,...Ti,...Tn},其中,Ti表示第i次抓取的包含m个数据包的加密网页流量数据,第j个数据包的时间戳和长度分别为tij和lij,n≥2,m≥3;
(2)定义加密网页流量数据Ti的矢量数据包:
定义加密网页流量数据Ti中带有方向的数据包为矢量数据包,匿名浏览器C通过加密网络N向网页服务器S发送的请求数据包为矢量数据包-lij,网页服务器S通过加密网络N向匿名浏览器C发送的应答数据包为矢量数据包+lij
(3)基于数据包时序获取加密网页流量数据Ti的序列段集合:
(3a)将加密网页流量数据Ti中数据包的矢量数据包记为l′ij,并以[时间戳,矢量]为格式对Ti进行序列化,得到加密网页流量序列T′i
T′i={(ti1,l′i1),(ti2,l′i2),...,(tij,l′ij),...(tim,l′im)};
(3b)以Δt为单位时间对加密网页流量序列T′i进行划分,得到包括s段子序列的序列段集合T′i={T′i1,T′i2,...T′ik,...T′is},其中,T′ik表示第k段序列;
(4)获取加密网页流量序列T′i的时序特征向量集合CTi和标签集合Yi
(4b)计算第k段T′ik内序列个数的统计值和矢量的统计值,以及第k段T′ik内相邻序列之间时间间隔的统计值,其中:
第k段T′ik内序列个数的统计值和矢量的统计值,包括矢量为“+”的序列个数scnk和序列总矢量和sclk、矢量为“-”的序列个数csnk和序列总矢量和cslk、sclk的长度|sclk|和cslk的长度|cslk|、序列总个数vnk和序列总矢量和vlk,以及序列总矢量长度vl′k、scnk与vnk的比值
Figure FDA0002355922550000021
csnk与vnk的比值
Figure FDA0002355922550000022
sclk与vlk的比值
Figure FDA0002355922550000023
cslk与vlk的比值
Figure FDA0002355922550000024
|sclk|与vl′k的比值
Figure FDA0002355922550000025
|cslk|与vl′k的比值
Figure FDA0002355922550000026
k≥2,其中:
vnk=scnk+csnk
vlk=sclk+cslk
vl′k=|sclk|+|cslk|
Figure FDA0002355922550000027
Figure FDA0002355922550000028
Figure FDA0002355922550000029
Figure FDA00023559225500000210
Figure FDA00023559225500000211
Figure FDA00023559225500000212
第k段T′ik内相邻序列之间时间间隔的统计值,包括最大时间间隔、最小时间间隔、所有时间间隔的平均值和标准差;
(4c)将加密网页流量序列T′i中第k段T′ik内序列个数的统计值和矢量的统计值,以及第k段T′ik内相邻序列之间时间间隔的统计值组成时序特征向量CTik,并将T′i中s段的时序特征向量组成时序特征向量集合CTi
CTi={CTi1,CTi2,...CTik,...CTis};
(4d)通过标签yik对第k段T′ik的时序特征向量CTik进行标注,得到标签集合Yi:Yi={yi1,yi2,...yik,...yis},其中:
Figure FDA0002355922550000031
0表示为加密网页流量的分割点,1表示为非加密网页流量的分割点;
(5)获取训练集集合Vtrain和测试集集合Vtest
将从时序特征向量集合CTi中随机选取的半数以上的特征向量,以及每个特征向量在标签集合Yi中对应的标签作为训练集Vi train,n个训练集组成训练集集合Vtrain,同时将CTi其余特征向量和每个特征向量在标签集合Yi中对应的标签作为测试集Vi test,n个测试集组成测试集集合Vtest,其中:
Figure FDA0002355922550000032
Figure FDA0002355922550000033
(6)构建分类模型M:
将训练集集合Vtrain作为随机森林算法的输入进行训练,得到分类模型M;
(7)获取加密网页流量分割点的识别结果:
将测试集集合Vtest作为分类模型M的输入进行分类,得到Vtest中每个特征向量的标签。
2.根据权利要求1所述的基于数据包时序的加密网页流量分割点识别方法,其特征在于,步骤(6)中所述的构建分类模型,实现步骤为:
(6a)从训练集集合Vtrain中有放回的随机抽取q次,每次抽取的p个特征向量组成子训练集集合V′train
Figure FDA0002355922550000041
其中
Figure FDA0002355922550000042
表示第c个子训练集,1≤c≤q,且
Figure FDA0002355922550000043
CTcr为第r个特征向量,且CTcr=(fea1,fea2,...,feau,feaw),feau为第u个特征,w为特征总数;
(6b)从
Figure FDA0002355922550000044
中的特征向量CTcr中随机选择or个特征组成部分特征向量CT′cr
Figure FDA0002355922550000045
对应的部分特征向量组成部分特征子训练集
Figure FDA0002355922550000046
并将
Figure FDA0002355922550000047
作为决策树算法的输入构建决策树treec,所有决策树组成分类模型M:
M={tree1,tree2,...treec,...treeq}
其中treec为第c个决策树,1≤c≤q。
CN202010007696.6A 2020-01-05 2020-01-05 基于数据包时序的加密网页流量分割点识别方法 Active CN111209959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010007696.6A CN111209959B (zh) 2020-01-05 2020-01-05 基于数据包时序的加密网页流量分割点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010007696.6A CN111209959B (zh) 2020-01-05 2020-01-05 基于数据包时序的加密网页流量分割点识别方法

Publications (2)

Publication Number Publication Date
CN111209959A true CN111209959A (zh) 2020-05-29
CN111209959B CN111209959B (zh) 2022-03-04

Family

ID=70789465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010007696.6A Active CN111209959B (zh) 2020-01-05 2020-01-05 基于数据包时序的加密网页流量分割点识别方法

Country Status (1)

Country Link
CN (1) CN111209959B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113037709A (zh) * 2021-02-02 2021-06-25 厦门大学 一种针对匿名网络的多标签浏览的网页指纹监控方法
CN113141364A (zh) * 2021-04-22 2021-07-20 西安交通大学 一种加密流量分类方法、系统、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8726005B2 (en) * 2009-12-10 2014-05-13 George Mason Intellectual Properties, Inc. Website matching based on network traffic
CN105430021A (zh) * 2015-12-31 2016-03-23 中国人民解放军国防科学技术大学 基于载荷相邻概率模型的加密流量识别方法
CN109040128A (zh) * 2018-09-18 2018-12-18 四川长虹电器股份有限公司 一种基于离线pcap流量包的WAF反向代理检测方法
CN110417810A (zh) * 2019-08-20 2019-11-05 西安电子科技大学 基于逻辑回归的增强模型的恶意加密流量检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8726005B2 (en) * 2009-12-10 2014-05-13 George Mason Intellectual Properties, Inc. Website matching based on network traffic
CN105430021A (zh) * 2015-12-31 2016-03-23 中国人民解放军国防科学技术大学 基于载荷相邻概率模型的加密流量识别方法
CN109040128A (zh) * 2018-09-18 2018-12-18 四川长虹电器股份有限公司 一种基于离线pcap流量包的WAF反向代理检测方法
CN110417810A (zh) * 2019-08-20 2019-11-05 西安电子科技大学 基于逻辑回归的增强模型的恶意加密流量检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG T, GOLDBERG I: "On realistically attacking Tor with website fingerprinting", 《PROCEEDINGS ON PRIVACY ENHANCING TECHNOLOGIES》 *
何高峰等: "Tor 匿名通信流量在线识别方法", 《软件学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113037709A (zh) * 2021-02-02 2021-06-25 厦门大学 一种针对匿名网络的多标签浏览的网页指纹监控方法
CN113037709B (zh) * 2021-02-02 2022-03-29 厦门大学 一种针对匿名网络的多标签浏览的网页指纹监控方法
CN113141364A (zh) * 2021-04-22 2021-07-20 西安交通大学 一种加密流量分类方法、系统、设备及可读存储介质
CN113141364B (zh) * 2021-04-22 2022-07-12 西安交通大学 一种加密流量分类方法、系统、设备及可读存储介质

Also Published As

Publication number Publication date
CN111209959B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
Kim et al. AI-IDS: Application of deep learning to real-time Web intrusion detection
WO2021082339A1 (zh) 将机器学习和规则匹配相融合的安全检测方法和设备
Ieracitano et al. Statistical analysis driven optimized deep learning system for intrusion detection
CN108156131B (zh) Webshell检测方法、电子设备和计算机存储介质
US20170026391A1 (en) System and method for the automated detection and prediction of online threats
EP3614645B1 (en) Embedded dga representations for botnet analysis
CN108282460B (zh) 一种面向网络安全事件的证据链生成方法及装置
CN111209959B (zh) 基于数据包时序的加密网页流量分割点识别方法
CN110708339B (zh) 一种基于web日志的关联分析方法
Gabryel et al. Browser fingerprint coding methods increasing the effectiveness of user identification in the web traffic
Hejun et al. Encrypted network behaviors identification based on dynamic time warping and k-nearest neighbor
Xu et al. Seeing traffic paths: Encrypted traffic classification with path signature features
Wang et al. 2ch-TCN: a website fingerprinting attack over tor using 2-channel temporal convolutional networks
Pretorius et al. Attributing users based on web browser history
CN114710417B (zh) 基于格拉姆角场变换的Tor用户访问网站识别方法及系统
Xu et al. Obfuscated tor traffic identification based on sliding window
Liang et al. FECC: DNS Tunnel Detection model based on CNN and Clustering
CN108055227A (zh) 基于站点自学习的waf未知攻击防御方法
CN113037709B (zh) 一种针对匿名网络的多标签浏览的网页指纹监控方法
US11822636B1 (en) Biometric keystroke attribution
CN116155572A (zh) 一种基于集成学习的加密流量网络入侵检测方法
Zou et al. Browser fingerprinting identification using incremental clustering algorithm based on autoencoder
CN106982147A (zh) 一种Web通讯应用的通讯监控方法和装置
CN115392238A (zh) 一种设备识别方法、装置、设备及可读存储介质
WO2022143483A1 (zh) 确定数据流标签的方法、装置以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant