CN113037709B - 一种针对匿名网络的多标签浏览的网页指纹监控方法 - Google Patents

一种针对匿名网络的多标签浏览的网页指纹监控方法 Download PDF

Info

Publication number
CN113037709B
CN113037709B CN202110144506.XA CN202110144506A CN113037709B CN 113037709 B CN113037709 B CN 113037709B CN 202110144506 A CN202110144506 A CN 202110144506A CN 113037709 B CN113037709 B CN 113037709B
Authority
CN
China
Prior art keywords
webpage
flow
classifier
label
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110144506.XA
Other languages
English (en)
Other versions
CN113037709A (zh
Inventor
谢怡
孙学良
张亦希
吴德文
文亚杰
罗夏朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110144506.XA priority Critical patent/CN113037709B/zh
Publication of CN113037709A publication Critical patent/CN113037709A/zh
Application granted granted Critical
Publication of CN113037709B publication Critical patent/CN113037709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Abstract

本发明涉及一种针对匿名网络的多标签浏览的网页指纹监控方法,适用于多个标签网页浏览的现实场景,同时兼容单标签网页浏览的特殊场景。本发明利用网页指纹识别技术,首先对多标签的网页流量进行基于块的最优分割,然后对分割后的标签网页流量进行准确的网页识别,即可监控在多标签情景下通过匿名网络浏览网页的行为。本发明以数据块而不是数据包为分割粒度来划分不同标签网页的网页流量,提升了分割的效率和网页识别的准确率,也体现了一定的鲁棒性。本发明使用同一个CNN分类器判定多标签浏览行为和分割每个标签网页流量,然后使用两个CNN分类器识别多个标签网页;本发明执行过程中,无需人工调整参数,CNN分类器训练快速收敛,且具有鲁棒性。

Description

一种针对匿名网络的多标签浏览的网页指纹监控方法
技术领域
本发明涉及匿名浏览网页监控的技术领域,更具体地说,涉及一种针对匿名网络的多标签浏览的网页指纹监控方法。
背景技术
随着网络技术的发展,互联网产生和发布的信息激增,但内容良莠不齐,大量不良甚至违法信息在网页上被不法分子恶意传播。这些网页往往部署在境外服务器难以管控,相关部门需要对访问恶意网页的用户进行监控,以防范违法行为带来的危险。然而这些危险用户往往通过匿名网络隐秘地浏览这些网页,使监控人员难以判断用户是否浏览了某个受监视的恶意网页。这给网络环境的监控与治理带了挑战和困难。
现有技术中,网页指纹识别是实现网页监控的有效方法,它通过统计和分析用户产生的网页浏览流量来识别被访问的网页。监控者首先搜集受监视网页的浏览流量样本,分析和提取这些流量样本的特征,用来训练网页分类器。然后通过监听危险用户的网络流量,再次提取相关特征并使用训练好的分类器来识别是否浏览了某个受监视网页。由于把每个受监视网页视作一个类别,网页识别任务则转换成流量分类任务,而流量特征则被视作“网页指纹”。即便使用了Tor等匿名网络,网页指纹识别方法仍然有效,无需任何解密操作亦能准确地识别用户所浏览的受监视网页。另一方面,匿名网络或网站也会采取一些主动防御措施(如WTFPAD(Juarez,Marc,et al."Toward an efficient websitefingerprinting defense."European Symposium on Research in ComputerSecurity.Springer,Cham,2016.)来降低网页指纹识别性能,例如填充垃圾包和主动延迟某些数据包(或组合)来改变网页浏览流量特征,使网页识别的假阳率提高或准确率降低。
现有的针对匿名网络的网页指纹识别方法主要分为以下两类:
一、基于传统机器学习的方法
监控者手动构建一系列用于区分不同网页浏览的流量特征,如整个网页的加载时长、总传输字节数、收到和发出的数据包比例等,并训练和使用朴素贝叶斯(naive bayes,NB)、支持向量机(support vector machine,SVM)、随机森林(random forest,RF)和最邻近算法(k-nearest neighbor,kNN)等分类器识别网页指纹,判断用户是否浏览了受监视页面。
基于手工构建特征和传统机器算法的网页指纹识别方法能识别网页,但是其分析和提取的过程需要花费大量的时间和精力,而且识别的准确率容易受到干扰,鲁棒性差,难以适应多变的实际应用场景。
二、基于深度学习的方法
深度学习例如堆栈去噪自编码器(stacked denoising autoencoder,SDAE)、卷积神经网络(convolutional neural network,CNN)、长短记忆人工神经网络(long shortterm memory,LSTM)等方法可以从网页流量样本中自动地提取指纹特征,完成网页指纹识别工作。这类网页指纹识别方法具有良好的适用性和鲁棒性,对经过主动防御的流量样本也能获得较好的网页识别准确率,有利于实际应用和部署。
然而现有的绝大多数网页指纹识别方法都基于单标签浏览的假设:用户在浏览网页过程中,每次只会使用一个标签页。单标签场景常被认为脱离实际,因为大部分用户习惯一次性打开多个标签或者打开多个浏览器界面,并在不关闭前一个页面时访问新页面。这个假设过分简化了应用场景,不适用于多标签浏览器流行的实际情况。
但是,基于单标签的网页指纹识别无法适用于多标签场景,由于不同标签的网页流量特征互相干扰,这些方法准确率会急剧下降甚至接近随机猜测。文献(Juarez,Marc,etal."Toward an efficient website fingerprinting defense."European Symposium onResearch in Computer Security.Springer,Cham,2016.)测试了5种单标签网页指纹识别方法He-MNB(Herrmann D,Wendolsky R,Federrath H.Website fingerprinting:Attacking popular privacy enhancing technologies with the multinomial
Figure BDA0002929682760000021
classifier[C]//Proc of ACM Workshop on Cloud Computing Security.NewYork:ACM,2009:31-42)、Wa-cOSAD(Wang Tao,Goldberg I.Improved websitefingerprinting on tor[C]//Proc of the 12th ACM Workshop on Privacy in theElectronic Society.New York:ACM,2013:201-212)、Dy-VNG++(Dyer K P,Coull S E,Ristenpart T,et al.Peek-a-boo,I still see you:Why efficient traffic analysiscountermeasures fail[C]//Proc of IEEE Symp on Security andPrivacy.Piscataway,NJ:IEEE,2012:332-346)、Pa-SVM(Panchenko A,Niessen L,ZinnenA,et al.Website fingerprinting in onion routing based anonymization networks[C]//Proc of the 10th Annual ACM Workshop on Privacy in the ElectronicSociety.New York:ACM,2011:103-114)和决策树算法在多标签场景下的性能,结果表明它们的网页识别准确率低于20%,显然识别失败了。
现有技术中,面向多标签场景的网页指纹识别方法也存在许多不足。例如,文献(Juarez,Marc,et al."Toward an efficient website fingerprinting defense."European Symposium on Research in Computer Security.Springer,Cham,2016.)仅针对SSH加密网页,无法应对匿名网络;而且很不现实的规定用户用固定时间间隔(例如2秒)浏览不同的标签网页,并据此时差简化标签网页的流量分割。
文献(Cui Weiqi,Chen Tao,Fields C,et al.Revisiting assumptions forwebsite fingerprinting attacks[C]//Proc of ACM Asia Conf on Computer andCommunications Security.New York:ACM,2019:328-339)假设用户仅使用两个标签页浏览受监视的网页,进而判断出每个标签浏览的是哪一个受监视网页。但在实际应用中,用户可能浏览的网页难以列举,肯定不限于被监视网页。
文献(Wang Tao,Goldberg I.On realistically attacking Tor with websitefingerprinting[J].Proc on Privacy Enhancing Technologies,2016,2016(4):21-36)虽然能判定多标签流量样本并分割流量,但是没有进一步识别分割后的网页流量。
文献(Xu Yixiao,Wang Tao,Li Qi,et al.A multi-tab websitefingerprinting attack[C]//Proc of the 34th Annual Computer SecurityApplications Conf.New York:ACM,2018:327-341)仅仅分割和识别第一个标签页的网页流量,其余的流量均被忽略了。
显然,上述的方法都不够完整和实用,或采用不现实的假设,或受限于监视页面和少数标签页(例如1~2个标签页)。
发明内容
本发明的目的在于克服现有技术的不足,提供一种针对匿名网络的多标签浏览的网页指纹监控方法,支持用户使用多个标签页进行自由浏览的场景(浏览对象包括普通网页和受监视网页),具有实用价值。
本发明的技术方案如下:
一种针对匿名网络的多标签浏览的网页指纹监控方法,包括网页流量分割阶段、网页识别阶段;
网页流量分割阶段中,以数据块为单位对网页流量进行分割,确定分割块的位置;如果分割块指向网页流量的最后一个数据块,则判定当前网页流量为单标签网页流量;否则,判定当前网页流量为多标签网页流量,并根据分割块的位置进行流量分割从而获得每一个标签网页的流量,再逐一输入网页分类器进行识别;
网页识别阶段中,输出相应标签网页所访问的受监视网页。
作为优选,网页流量分割阶段的步骤如下:
1.1)统一网页流量的长度;网页流量包含L个数据包,每个数据包的信息包括数据包的捕获时间ti、传输方向di,i=1,…,L,则网页流量的流量序列T·D中,网页流量的数据包的捕获时间序列T={t1,…,tL},网页流量的数据包的传输方向序列D={d1,…,dL};其中,第一个数据包的捕获时间为t1=0,其余数据包的捕获时间ti为当前数据包与第一个数据包的捕获时间的时间差;当传输方向di=+1时,表示当前数据包由用户发出,当传输方向di=-1时,表示当前数据包由用户接收;
1.2)将网页流量分割为M个粒度为LB的数据块,则
Figure BDA0002929682760000041
1.3)分割分类器输入流量序列,输出分割块的序号向量K={k1,…,kN-1},其中,N是浏览器打开的标签数目;
1.4)在分割块的序号向量K={k1,…,kN-1}中,如果k1=M,则判定当前网页流量为单标签网页流量,无需进行分割;否则,将样本流量分割为N段,并以第kv个数据块所覆盖的所有数据包中的首个数据包为边界进行分割,完成第v个标签网页和第v+1个标签网页的流量分割;其中,v=1,…,N-1。
作为优选,步骤1.3)具体为:
1.3.1)输入网页流量的流量序列T·D,其中,第i个元素为ti×di,i=1,…,L;
1.3.2)分割分类器返回每个数据块是分割块的概率pj,j=1,…,M;对pj进行排序,选取概率最大的前N-1个数据块的序号,并按照分割块出现的顺序,依次记为k1,…,kN-1
作为优选,设置第一网页分类器、第二网页分类器,分割获得每一个标签网页的流量后,第一个标签网页的流量输入第一网页分类器进行识别,第二个及其后的标签网页的流量输入第二网页分类器进行识别。
作为优选,网页识别阶段中,当判定当前网页流量为单标签网页流量时,将当前网页流量的数据包的传输方向序列D输入第一网页分类器。
作为优选,网页识别阶段中,当判定当前网页流量为多标签网页流量时,将当前网页流量分割为N段;然后将第一段网页流量的数据包的传输方向序列
Figure BDA0002929682760000051
输入第一网页分类器,其余网页流量的传输方向序列
Figure BDA0002929682760000052
被分割为N-1段,分别将每段传输方向序列输入第二网页分类器。
作为优选,所述的分割分类器、第一网页分类器、第二网页分类器为结构相同的CNN分类器,分割分类器、第一网页分类器、第二网页分类器的网络权重相互独立,互不共享。
作为优选,CNN分类器包括一个特征提取网络和一个决策网络,特征提取网络和决策网络的每个卷积层和全连接层后面均为批量规范化层和激活层;CNN分类器还包括池化层和Dropout层。
作为优选,输出层的激活函数是softmax,卷积层和全连接层的激活函数均为relu。
作为优选,对分割分类器、第一网页分类器、第二网页分类器进行训练中,使用受监控页面的流量样本进行训练,每个流量样本都标注了不同标签网页的真实分割点;分割分类器输入完整的已知流量样本进行训练;第一网页分类器和第二网页分类器输入根据标注的真实分割点进行分割的各标签网页的流量样本进行训练。
本发明的有益效果如下:
本发明所述的针对匿名网络的多标签浏览的网页指纹监控方法,利用网页指纹识别技术,首先对多标签的网页流量进行基于块的最优分割,然后对分割后的标签网页流量进行准确的网页识别,即可监控在多标签情景下通过匿名网络浏览网页的行为。本发明以数据块而不是数据包为分割粒度来划分不同标签网页的网页流量,提升了分割的效率和网页识别的准确率,也体现了一定的鲁棒性。本发明使用同一个CNN分类器判定多标签浏览行为和分割每个标签网页流量,有效的简化监控方法的流程。本发明在执行过程中,无需人工调整参数,CNN分类器训练快速收敛,且具有鲁棒性。
本发明在多种复杂场景下均具备较高的准确率,同时也能较强的鲁棒性以及快速收敛的能力。基于实验,本发明对两个标签的网页识别真阳性率最高分别达到了97%和96%,即使面对WTFPAD防御过的流量,两个标签的网页识别真阳性率最高也能达到90%和88%。
本发明适用于多个标签网页浏览的现实场景,同时兼容单标签网页浏览的特殊场景。
附图说明
图1是本发明的原理图;
图2是CNN分类器的结构示意图(批量规范化层和激活层未示出)。
具体实施方式
以下结合附图及实施例对本发明进行进一步的详细说明。
为了解决现有技术存在的需要手工构建特征、适用于单标签网页、网页识别准确率低、鲁棒性差、实用性低等不足等问题,本发明提供一种针对匿名网络的多标签浏览的网页指纹监控方法,符合实际应用需求,具有很好的通用性,可以兼容单标签网页的浏览场景的监控。
如图1所示,本发明所述的针对匿名网络的多标签浏览的网页指纹监控方法,实现多标签网页与单标签网页的网页指纹监控,本发明所述的方法包括网页流量分割阶段、网页识别阶段。
本发明先使用分割分类器判定网页流量的浏览行为是否为多标签网页的浏览,然后按标签对网页流量进行分割。具体地,网页流量分割阶段中,以数据块为单位对网页流量进行分割,确定分割块的位置;其中,数据块(packet block)是一个单位,每个网页流量都可以分成若干数据块,分割块(split block)则是前后两个标签网页流量的边界所在的数据块。如果分割块指向网页流量的最后一个数据块,则判定当前网页流量为单标签网页流量;否则,判定当前网页流量为多标签网页流量,并根据分割块的位置进行流量分割从而获得每一个标签网页的流量,再逐一输入网页分类器进行识别;
网页识别阶段中,输出相应标签网页所访问的受监视网页。
本实施例中,网页流量分割阶段的步骤如下:
1.1)通过填充或者截断技术,统一网页流量的长度;网页流量包含L个数据包,每个数据包的信息包括数据包的捕获时间ti、传输方向di,i=1,…,L,则网页流量的流量序列T·D中,网页流量的数据包的捕获时间序列T={t1,…,tL},网页流量的数据包的传输方向序列D={d1,…,dL};其中,第一个数据包的捕获时间t1=0,其余数据包的捕获时间ti为当前数据包与第一个数据包的捕获时间的时间差;当传输方向di=+1时,表示当前数据包由用户发出,当传输方向di=-1时,表示当前数据包由用户接收;其中,第一个数据包的捕获时间t1=0,可理解为第一个数据包的捕获时间与自身的时间差为0,故而,将t1=0表示第一个数据包的捕获时间,以方便表述。
1.2)将网页流量分割为M个粒度为LB的数据块,则
Figure BDA0002929682760000071
1.3)分割分类器输入流量序列(即网页流量的流量序列T·D),输出分割块的序号向量K={k1,…,kN-1},其中,N是浏览器打开的标签数目;步骤1.3)具体为:
1.3.1)输入网页流量的序列T·D,其中,第i个元素为ti×di,i=1,…,L;
1.3.2)分割分类器返回每个数据块是分割块的softmax概率pj,j=1,…,M;对pj进行排序,选取概率最大的前N-1个数据块的序号,并按照分割块出现的顺序,依次记为k1,…,kN-1
1.4)在分割块的序号向量K={k1,…,kN-1}中,如果k1=M,则判定当前网页流量为单标签网页流量,无需进行分割;否则,将样本流量分割为N段,并以第v个分割块(对应于第kv个数据块)所覆盖的所有数据包中的首个数据包为边界进行分割,完成第v个标签网页和第v+1个标签网页的流量分割;其中,v=1,…,N-1。由于本发明基于数据块对网页流量进行分割,则每个数据块覆盖多个数据包,进而,本发明中,将数据块所覆盖的所有数据包中的首个数据包为边界,对网页流量进行分割。
本发明中,设置第一网页分类器、第二网页分类器,分割获得每一个标签网页的流量后,第一个标签网页的流量输入第一网页分类器进行识别,第二个及其后的标签网页的流量输入第二网页分类器进行识别。
进而,网页识别阶段中,当判定当前网页流量为单标签网页流量时,将当前网页流量的数据包的传输方向序列D输入第一网页分类器。当判定当前网页流量为多标签网页流量时,将当前网页流量分割为N段;然后将第一段网页流量的数据包的传输方向序列
Figure BDA0002929682760000081
输入第一网页分类器,其余网页流量的传输方向序列
Figure BDA0002929682760000082
被分割为N-1段(即第二段至第N段网页流量),分别将每段传输方向序列输入第二网页分类器。其中,k1为第一段网页流量与第二段网页流量的临界位置的数据包的序号。
本发明中,所述的分割分类器、第一网页分类器、第二网页分类器为结构相同的CNN分类器,但分割分类器、第一网页分类器、第二网页分类器的网络权重相互独立,互不共享。
如图2所示,CNN分类器包括一个特征提取网络和一个决策网络,特征提取网络和决策网络的每个卷积层(Conv)和全连接层(FC)后面均为批量规范化层和激活层;CNN分类器还包括池化层和Dropout层。本实施例中,每个分类器包括激活层共有60层。输出层的激活函数是softmax,卷积层和全连接层的激活函数均为relu。如在(1×9Conv,32,1)层中,1×9Conv是一维卷积窗口的内核大小,32是过滤器的数目,最右边的数字1是步长;全连接层(FC 256)层中,输出的数量为256;池化层(MaxPooling,6,3)的窗口大小为6,步长为3。
为了防止深度神经网络中普遍存在的过拟合问题,本发明使用了批量规范化化和Dropout来提高神经网络的鲁棒性和适应性。其中,如在(Dropout 0.1)层,设其每个输入置为0的概率为0.1。
本发明中,对分割分类器、第一网页分类器、第二网页分类器进行训练中,使用受监控页面的流量样本进行训练,每个流量样本都标注了不同标签网页的真实分割点;分割分类器输入完整的已知流量样本进行训练;第一网页分类器和第二网页分类器输入根据标注的真实分割点进行分割(即正确分割)的各标签网页的流量样本进行训练。
实验验证
以用户使用N=2个标签网页进行Tor匿名访问作为验证对象,以测试本发明在三种典型多标签访问场景下中的网页识别准确率:两个标签网页的网页流量之间有部分重叠(S1)、两个标签网页的网页流量没有任何时间间隔(S2)和两个标签网页的网页流量之间有一定时间间隔(S3)。每个数据集各包括90个受监视页面和10000个普通页面。其中,每个受监视页面有300个流量样本,每个普通页面有1个流量样本。
为了进一步验证本发明方法的鲁棒性,实验还测试了经过WTFPAD防御的S1、S2和S3流量数据集的监控性能。WTFPAD是最受关注的网页指纹识别防御措施,较好的折衷了性能和开销,插件形式易于使用。
本实验中,输入的网页流量的长度均为L=10000,每个数据块的长度为LB=25。分割分类器输出softmax概率最大的数据块的序列作为分割块,来区分第一个标签网页的网页流量和第二个标签网页的网页流量。
在训练阶段,从S1、S2和S3数据集中各均匀地抽取80%的流量样本组成训练集,用于训练分类器。在测试阶段,分别对这三个数据集剩余的20%的流量样本组成测试集对分类器的性能进行测试。
当测试用的流量样本中的受监视网页标签流量被正确识别出是哪一个受监视网页时,称作被正确识别的受监视网页;当测试用的流量样本中的普通网页标签页流量被错误识别为任意一个受监视网页时,称作被错误识别的普通网页。表1用两个性能指标来评估本发明方法的性能:
Figure BDA0002929682760000091
Figure BDA0002929682760000092
表1:实验结果
Figure BDA0002929682760000093
Figure BDA0002929682760000101
实验1表明,本发明对标签网页1识别监控的真阳性率TPR达到90%以上,而假阳性率FPR均小于6%。对于标签网页2,本发明在S2和S3数据集中也获得了很好的识别监控结果,为95%左右的TPR和接近6%的FPR。即使是面对S1数据集流量重叠的挑战,本发明也能准确识别监控81.72%的受监视网页;说明本发明可以较好解决多标签匿名网页监控的问题。
实验2表明,对于WTFPAD防御,本发明对三个数据集的网页识别监控仍然有效,体现了很好的鲁棒性。例如两个标签网页的TPR最高分别达到90.38%和88.44%。面对防御下的流量重叠S1数据集(最困难的监控情景),本发明仍然获得70%左右的TPR,明显高于现有的网页指纹识别监控方法。
对于单标签网页流量的实验验证,本实验中输入的网页流量的长度均为L=10000,每个数据块的长度为LB=25,形成400个数据块(序号为0~399);如果分割分类器输出的第一元素k1=399,那么在这段网页流量中,实际上不包括上述实验的标签网页2的网页流量,则视为单标签网页流量。经实验,本发明所述的方法在未经防护的数据集及WTFPAD防护后的数据集中,对于单标签网页流量的真阳性率TPR分别为96.63%和93.54%。
实验表明,对于单标签网页流量,本发明所述的方法也具备良好的兼容性。
上述实施例仅是用来说明本发明,而并非用作对本发明的限定。只要是依据本发明的技术实质,对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。

Claims (9)

1.一种针对匿名网络的多标签浏览的网页指纹监控方法,其特征在于,包括网页流量分割阶段、网页识别阶段;
网页流量分割阶段中,以数据块为单位对网页流量进行分割,确定分割块的位置;网页流量分割阶段的步骤如下:1.1)统一网页流量的长度;网页流量包含L个数据包,每个数据包的信息包括数据包的捕获时间ti、传输方向di,i=1,···,L,则网页流量的流量序列T·D中,网页流量的数据包的捕获时间序列T={t1,···,tL},网页流量的数据包的传输方向序列D={d1,···,dL};其中,第一个数据包的捕获时间为t1=0,其余数据包的捕获时间ti为当前数据包与第一个数据包的捕获时间的时间差;当传输方向di=+1时,表示当前数据包由用户发出,当传输方向di=-1时,表示当前数据包由用户接收;
1.2)将网页流量分割为M个粒度为LB的数据块,则
Figure FDA0003394433190000011
1.3)分割分类器输入流量序列,输出分割块的序号向量K={k1,···,kN-1},其中,N是浏览器打开的标签数目;
1.4)在分割块的序号向量K={k1,···,kN-1}中,如果k1=M,则判定当前网页流量为单标签网页流量,无需进行分割;否则,将样本流量分割为N段,并以第kv个数据块所覆盖的所有数据包中的首个数据包为边界进行分割,完成第v个标签网页和第v+1个标签网页的流量分割;其中,v=1,···,N-1;
如果分割块指向网页流量的最后一个数据块,则判定当前网页流量为单标签网页流量;否则,判定当前网页流量为多标签网页流量,并根据分割块的位置进行流量分割从而获得每一个标签网页的流量,再逐一输入网页分类器进行识别;
网页识别阶段中,输出相应标签网页所访问的受监视网页。
2.根据权利要求1所述的针对匿名网络的多标签浏览的网页指纹监控方法,其特征在于,步骤1.3)具体为:
1.3.1)输入网页流量的流量序列T·D,其中,第i个元素为ti×di,i=1,···,L;
1.3.2)分割分类器返回每个数据块是分割块的概率pj,j=1,···,M;对pj进行排序,选取概率最大的前N-1个数据块的序号,并按照分割块出现的顺序,依次记为k1,···,kN-1
3.根据权利要求1至2任一项所述的针对匿名网络的多标签浏览的网页指纹监控方法,其特征在于,设置第一网页分类器、第二网页分类器,分割获得每一个标签网页的流量后,第一个标签网页的流量输入第一网页分类器进行识别,第二个及其后的标签网页的流量输入第二网页分类器进行识别。
4.根据权利要求3所述的针对匿名网络的多标签浏览的网页指纹监控方法,其特征在于,网页识别阶段中,当判定当前网页流量为单标签网页流量时,将当前网页流量的数据包的传输方向序列D输入第一网页分类器。
5.根据权利要求3所述的针对匿名网络的多标签浏览的网页指纹监控方法,其特征在于,网页识别阶段中,当判定当前网页流量为多标签网页流量时,将当前网页流量分割为N段;然后将第一段网页流量的数据包的传输方向序列
Figure FDA0003394433190000021
输入第一网页分类器,其余网页流量的传输方向序列
Figure FDA0003394433190000022
被分割为N-1段,分别将每段传输方向序列输入第二网页分类器。
6.根据权利要求3所述的针对匿名网络的多标签浏览的网页指纹监控方法,其特征在于,所述的分割分类器、第一网页分类器、第二网页分类器为结构相同的CNN分类器,分割分类器、第一网页分类器、第二网页分类器的网络权重相互独立,互不共享。
7.根据权利要求6所述的针对匿名网络的多标签浏览的网页指纹监控方法,其特征在于,CNN分类器包括一个特征提取网络和一个决策网络,特征提取网络和决策网络的每个卷积层和全连接层后面均为批量规范化层和激活层;CNN分类器还包括池化层和Dropout层。
8.根据权利要求7所述的针对匿名网络的多标签浏览的网页指纹监控方法,其特征在于,输出层的激活函数是softmax,卷积层和全连接层的激活函数均为relu。
9.根据权利要求6至8任一项所述的针对匿名网络的多标签浏览的网页指纹监控方法,其特征在于,对分割分类器、第一网页分类器、第二网页分类器进行训练中,使用受监控页面的流量样本进行训练,每个流量样本都标注了不同标签网页的真实分割点;分割分类器输入完整的已知流量样本进行训练;第一网页分类器和第二网页分类器输入根据标注的真实分割点进行分割的各标签网页的流量样本进行训练。
CN202110144506.XA 2021-02-02 2021-02-02 一种针对匿名网络的多标签浏览的网页指纹监控方法 Active CN113037709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110144506.XA CN113037709B (zh) 2021-02-02 2021-02-02 一种针对匿名网络的多标签浏览的网页指纹监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110144506.XA CN113037709B (zh) 2021-02-02 2021-02-02 一种针对匿名网络的多标签浏览的网页指纹监控方法

Publications (2)

Publication Number Publication Date
CN113037709A CN113037709A (zh) 2021-06-25
CN113037709B true CN113037709B (zh) 2022-03-29

Family

ID=76459686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110144506.XA Active CN113037709B (zh) 2021-02-02 2021-02-02 一种针对匿名网络的多标签浏览的网页指纹监控方法

Country Status (1)

Country Link
CN (1) CN113037709B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641935B (zh) * 2021-08-12 2023-10-20 厦门大学 一种利用数据增强提高匿名网络网页指纹监控能力的方法
CN114579834B (zh) * 2022-03-11 2023-07-21 北京墨云科技有限公司 网页登录实体识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135385A (zh) * 2014-07-30 2014-11-05 南京市公安局 Tor匿名通信流量应用分类的方法
CN111209959A (zh) * 2020-01-05 2020-05-29 西安电子科技大学 基于数据包时序的加密网页流量分割点识别方法
CN112202782A (zh) * 2020-09-30 2021-01-08 上海交通大学 一种基于网络流量的暗网用户行为检测方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10375096B2 (en) * 2016-12-08 2019-08-06 Cisco Technology, Inc. Filtering onion routing traffic from malicious domain generation algorithm (DGA)-based traffic classification
CN109728977B (zh) * 2019-01-14 2022-09-27 电子科技大学 Jap匿名流量检测方法及系统
CN110912888B (zh) * 2019-11-22 2021-08-10 上海交通大学 一种基于深度学习的恶意http流量检测系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135385A (zh) * 2014-07-30 2014-11-05 南京市公安局 Tor匿名通信流量应用分类的方法
CN111209959A (zh) * 2020-01-05 2020-05-29 西安电子科技大学 基于数据包时序的加密网页流量分割点识别方法
CN112202782A (zh) * 2020-09-30 2021-01-08 上海交通大学 一种基于网络流量的暗网用户行为检测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于匿名流量分析的网站识别;赵晓娟;《信息科技辑》;20191231(第12期);全文 *

Also Published As

Publication number Publication date
CN113037709A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
Corona et al. Deltaphish: Detecting phishing webpages in compromised websites
Lin et al. Phishpedia: A hybrid deep learning based approach to visually identify phishing webpages
Ieracitano et al. Statistical analysis driven optimized deep learning system for intrusion detection
Jerlin et al. A new malware detection system using machine learning techniques for API call sequences
US10686829B2 (en) Identifying changes in use of user credentials
Chapaneri et al. A comprehensive survey of machine learning-based network intrusion detection
KR101767454B1 (ko) 다양한 웹 서비스 환경에서 사용자의 행위 패턴 분석을 통한 이상행위 탐지 방법과 그를 위한 장치
CN107332848B (zh) 一种基于大数据的网络流量异常实时监测系统
Zhao et al. A review of computer vision methods in network security
Muhammad et al. Stacked autoencoder-based intrusion detection system to combat financial fraudulent
CN113037709B (zh) 一种针对匿名网络的多标签浏览的网页指纹监控方法
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
US20220200959A1 (en) Data collection system for effectively processing big data
Rupa Devi et al. A review on network intrusion detection system using machine learning
Elsayed et al. Detecting abnormal traffic in large-scale networks
Abirami et al. Building an ensemble learning based algorithm for improving intrusion detection system
Fallah et al. Android malware detection using network traffic based on sequential deep learning models
Hwang et al. Semi-supervised based unknown attack detection in EDR environment
Kheddar et al. Deep transfer learning for intrusion detection in industrial control networks: A comprehensive review
Vuong et al. N-tier machine learning-based architecture for DDoS attack detection
US20230164180A1 (en) Phishing detection methods and systems
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
Ali et al. A generic machine learning approach for IoT device identification
Kasim Automatic detection of phishing pages with event-based request processing, deep-hybrid feature extraction and light gradient boosted machine model
Schumacher et al. One-Class Models for Intrusion Detection at ISP Customer Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant