CN111698223B - 一种基于自动特征工程的加密web网站指纹识别方法 - Google Patents

一种基于自动特征工程的加密web网站指纹识别方法 Download PDF

Info

Publication number
CN111698223B
CN111698223B CN202010438373.2A CN202010438373A CN111698223B CN 111698223 B CN111698223 B CN 111698223B CN 202010438373 A CN202010438373 A CN 202010438373A CN 111698223 B CN111698223 B CN 111698223B
Authority
CN
China
Prior art keywords
data
matrix
sequence
sizes
fingerprint identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010438373.2A
Other languages
English (en)
Other versions
CN111698223A (zh
Inventor
杨武
玄世昌
王巍
苘大鹏
吕继光
刘梦翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010438373.2A priority Critical patent/CN111698223B/zh
Publication of CN111698223A publication Critical patent/CN111698223A/zh
Application granted granted Critical
Publication of CN111698223B publication Critical patent/CN111698223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Power Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明属于网站指纹识别技术领域,具体涉及一种基于自动特征工程的加密WEB网站指纹识别方法。本发明通过自动特征工程构造出高维的流量特征,并使用PCA进行特征降维,降低了人为选择特征对加密WEB网站指纹识别效果的影响,提高了识别的准确率。

Description

一种基于自动特征工程的加密WEB网站指纹识别方法
技术领域
本发明属于网站指纹识别技术领域,具体涉及一种基于自动特征工程的加密WEB网站指纹识别方法。
背景技术
在网络浏览过程中,用户容易受到有害信息、恶意攻击和隐私泄露的侵害,所以需要对网络流量进行监督和保护。网络管理需要页面识别来优化资源分配,提高服务质量,传统的网站识别及方法已经取得了一定的成功,但是加密流量的出现给网页识别技术带来了挑战。加密流量通过加密算法对有效负载进行加密来保证数据的安全性和信息完整性,所以基于机器学习的方法越来越受到大家的关注。
现今对于网站指纹分析的研究中,对于加密网站指纹识别的研究大部分都在于提高分类的精确率上,而提高分类精确率的两个关键点在于特征的选择和分类器的选择。大多数研究学者使用的特征都是直接从流量中提取或计算出的特征,而加密流量由于其加密性所以能够提供的特征相对来说较少,所以加密WEB网站指纹识别的精确率还有待提高。有鉴于此,有必要对现有的加密WEB网站指纹识别进行补充,以解决上述技术方案的不足。
发明内容
本发明的目的在于提供具有更高的识别准确率的一种基于自动特征工程的加密WEB网站指纹识别方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:从流量数据中提取请求数据包大小的序列以及响应数据包大小的序列;
步骤2:自动特征构造,生成高维特征;
步骤3:构造特征降维;
步骤3.1:将高维特征形成一个n行m列的矩阵X;
步骤3.2:将矩阵X的每一行进行中心化处理;
步骤3.3:计算矩阵X的协方差矩阵;
步骤3.4:对协方差矩阵进行对角化处理,得出协方差矩阵的特征向量和每个特征向量所对应的特征值;
步骤3.5:将所有特征向量按照其对应的特征值的大小从上到下排成矩阵,取前k行得到矩阵P;
步骤3.6:计算降维后的矩阵Y;Y=PX;
步骤4:加密网站分类识别
步骤4.1:将降维后的矩阵Y还原成数据集,并将数据集划分为测试集和训练集;对训练集中的数据进行标注;
步骤4.2:从训练集中选取一个测试数据。计算测试数据与训练集中各个训练数据之间的距离;
步骤4.3:选取训练集中与测试数据距离最小的K个点;
步骤4.4:确定选取的K个点类别出现的频率,将出现频率最高的类别作为测试数据的预测分类;
步骤4.5:若未完成对测试集中所有数据的分类;则重复执行步骤4.2至步骤4.4直到完成所有加密网站指纹的识别。
本发明的有益效果在于:
本发明通过自动特征工程构造出高维的流量特征,并使用PCA进行特征降维,降低了人为选择特征对加密WEB网站指纹识别效果的影响,提高了识别的准确率。
附图说明
图1是URL存储形式示意图。
图2是自动特征工程的算法图。
图3是本发明中构造特征降维的流程图。
图4是本发明中加密网站分类识别的流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明通过自动特征工程构造出高维的流量特征,并使用PCA进行特征降维,降低了人为选择特征对加密WEB网站指纹识别效果的影响,提高了识别的准确率。本发明提供的基于自动特征工程的加密WEB网站指纹识别技术通过以下步骤实现:
(1)基础特征选取
根据研究表明,加密和代理并不会严重改变数据包的大小和顺序,网站指纹的一种简单的表示方法就是使用所有数据包的大小和方向的序列,即指纹WF={(s1,d1),(s2,d2)…(sn,dn)}。其中si和di分别表示数据包的大小和数据包的方向,但是只依靠这些特征来对网站指纹进行识别的准确率过低,因为每个序列很容易包括超过1000个元素,而且由于各种噪声的影响,一些包的排序也会随之发生变化,从而影响识别的精度。
其实在理想情况下,在网站指纹识过程中,传输对象的大小比数据包的大小更具有影响力。但是由于多个TCP连接,不同传输对象的数据在传输中会产生交错,难以将数据包与它们各自的传输对象相关联。然而,大多数WEB服务器都是以块的形式来传输数据,在每个数据块中,除了数据块的最后的一个数据包外,所有数据包的大小都等于路径MTU。一般改变其顺序的数据包是不同对象的中间包,所以可以利用数据块的最后一个数据包的大小的序列,降低对指纹识别的结果的影响。
数据包可以分为请求数据包和响应数据包,一个请求数据包可能会对应多个响应数据包,根据调查,不同网站的平均请求响应次数也有所不同。并且,不同网站的页面对象的分布也有所不同,请求序列和响应序列能侧面反映出网站的某些特征。请求序列可以显示网页中嵌入对象的相对位置及其URL长度,而响应序列可以显示传输对象的完成顺序。
所以选取的请求数据包大小的序列以及响应数据包(除了MTU包)大小的序列为基础特征。
(2)收集数据集并计算特征
在windows环境下安装Google浏览器,对Alexa排名前200的网站进行访问,将能够稳定访问的URL以每行一个URL的形式写入.txt文件中,存储形式如图1所示。然后使用python语言编写代码,实现对文件中的URL自动访问,并进行抓包存储。然后使用流量分析工具计算基础特征,将其以.csv文件保存,以方便实验使用。
(3)自动特征构造
特征工程就是基于数据原有的特征来构造特征的过程,机器学习通过这些特征来解决问题。将请求数据包大小的序列称为表Q,响应数据包大小的序列称为表P,以表Q为例,表Q里包含了所有请求数据包大小的序列,转换就是直接分析表Q中的数据,经过数学公式构造特征。假设SF(Simple Festures)是对每张数据表中的特征进行计算的数学公式,如公式(1):
X′ij=SF(Xij) (1)
其中xij为表Q中的第i条数据的第j个特征的值,xij'为通过公式SF得到的新的特征,SF可能是特征xij的对数、信息熵等。
经过上述的基本数学计算之后,再根据各表之间的相互关系进行转换得出高维特征。例如本文中表Q和表P是通过关系FD(Forward)和BD(Backword)相互关联。其中FD是两个表中的数据存在的一一对应的关系,例如表P中的一个响应数据包值对应表Q中的一个请求数据包。BD指的是两个表中的数据存在的一对多的一种关系,例如表Q中的一个请求数据包对应表P中的多个相应数据包。然后使用DF和RF派生出更深层次征,其中DF(DirectFeatures)是通过关系FD在数据表中直接转换构造特征,而RF就是通过关系PQ进行特征构造。其算法如图2:
(4)构造特征降维
PCA提供了一个路线图,说明如何将复杂的数据集降到一个较低的维度,从而揭示其背后隐藏的、简化的动态特性。PCA将原始的数据通过现线性变换转换为一组各个维度的特征都相互无关的特征集,即通过线性分析提取出原始数据的主要特征。本文使用PCA降维的主要流程如图3所示。
具体步骤如下:
第一步:将原始的数据集形成一个n行m列的矩阵X。
第二步:将矩阵X的每一行进行中心化处理,即求出每一行(每一行代表每一个特征)的平均值,然后将所有特征减去其所在行的平均值。
第三步:求出原始数据集的协方差矩阵(方差表示一维数组的离散度,协方差能表明两维特征的相关度,当特征有多维时需要计算其方差矩阵才能表明多维特征之间的相互关系)。
第四步:对第三步所的的协方差矩阵进行对角化处理,得出协方差矩阵的特征向量和每个特征向量所对应的特征值。
第五步:将第四步得出的所有特征向量按照其对应的特征值得大小从上到下排成矩阵,取前k行得到矩阵P。
第六步:Y=PX,Y就是X经过PCA降维后得到的数据。
(5)加密网站分类识别
在选取流量的基础特征、使用自动特征进行特征构造、经过主成分分析方法降维处理之后,选取机器学习方法中的KNN分类方法进行网站识别的最后一步。K-NN的全称是KNearest Neighbors,K-NN算法的原理就是在判别一个数据X的类别时,根据它距离最近的K个点是什么类别来确定其类别。KNN流程图如图4所示。两个对象之间的距离计算公式如公式(2)所示。
Figure GDA0003391217220000041
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于自动特征工程的加密WEB网站指纹识别方法,其特征在于,包括以下步骤:
步骤1:从流量数据中提取请求数据包大小的序列以及响应数据包大小的序列;
步骤2:自动特征构造,生成高维特征;
将请求数据包大小的序列称为表Q,响应数据包大小的序列称为表P;表Q里包含了所有请求数据包大小的序列,转换就是直接分析表Q中的数据,经过数学公式构造特征;
X ij ’=SF(X ij )
其中,SF是对每张数据表中的特征进行计算的数学公式;X ij 为表Q中的第i条数据的第j个特征的值;X ij ’为通过公式SF得到的新的特征;
经过上述的基本数学计算之后,再根据各表之间的相互关系进行转换得出高维特征,然后使用DF和RF派生出更深层次征;其中,DF是通过关系FD在数据表中直接转换构造特征;RF是通过关系PQ进行特征构造;
表Q和表P是通过关系FD和BD相互关联;其中,FD是两个表中的数据存在的一一对应的关系,例如表P中的一个响应数据包值对应表Q中的一个请求数据包;BD指的是两个表中的数据存在的一对多的一种关系,例如表Q中的一个请求数据包对应表P中的多个相应数据包;步骤3:构造特征降维;
步骤3.1:将高维特征形成一个n行m列的矩阵X;
步骤3.2:将矩阵X的每一行进行中心化处理;
步骤3.3:计算矩阵X的协方差矩阵;
步骤3.4:对协方差矩阵进行对角化处理,得出协方差矩阵的特征向量和每个特征向量所对应的特征值;
步骤3.5:将所有特征向量按照其对应的特征值的大小从上到下排成矩阵,取前k行得到矩阵P;
步骤3.6:计算降维后的矩阵Y;Y=PX;
步骤4:加密网站分类识别
步骤4.1:将降维后的矩阵Y还原成数据集,并将数据集划分为测试集和训练集;对训练集中的数据进行标注;
步骤4.2:从训练集中选取一个测试数据,计算测试数据与训练集中各个训练数据之间的距离;
步骤4.3:选取训练集中与测试数据距离最小的K个点;
步骤4.4:确定选取的K个点类别出现的频率,将出现频率最高的类别作为测试数据的预测分类;
步骤4.5:若未完成对测试集中所有数据的分类;则重复执行步骤4.2 至步骤4.4直到完成所有加密网站指纹的识别。
CN202010438373.2A 2020-05-22 2020-05-22 一种基于自动特征工程的加密web网站指纹识别方法 Active CN111698223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010438373.2A CN111698223B (zh) 2020-05-22 2020-05-22 一种基于自动特征工程的加密web网站指纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010438373.2A CN111698223B (zh) 2020-05-22 2020-05-22 一种基于自动特征工程的加密web网站指纹识别方法

Publications (2)

Publication Number Publication Date
CN111698223A CN111698223A (zh) 2020-09-22
CN111698223B true CN111698223B (zh) 2022-02-22

Family

ID=72477166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010438373.2A Active CN111698223B (zh) 2020-05-22 2020-05-22 一种基于自动特征工程的加密web网站指纹识别方法

Country Status (1)

Country Link
CN (1) CN111698223B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434801B (zh) * 2021-07-07 2022-01-28 中国人民解放军国防科技大学 一种基于主题概率模型的网站指纹识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105281973A (zh) * 2015-08-07 2016-01-27 南京邮电大学 一种针对特定网站类别的网页指纹识别方法
CN109474598A (zh) * 2018-11-19 2019-03-15 西安交通大学 一种基于数据包时序的恶意加密流量分析特征提取方法
CN110247930A (zh) * 2019-07-01 2019-09-17 北京理工大学 一种基于深度神经网络的加密网络流量识别方法
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105281973A (zh) * 2015-08-07 2016-01-27 南京邮电大学 一种针对特定网站类别的网页指纹识别方法
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备
CN109474598A (zh) * 2018-11-19 2019-03-15 西安交通大学 一种基于数据包时序的恶意加密流量分析特征提取方法
CN110247930A (zh) * 2019-07-01 2019-09-17 北京理工大学 一种基于深度神经网络的加密网络流量识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于自动特征工程与压缩感知的网络隧道检测方法;余红星,申国伟,郭春;《计算机与现代化》;20190630;1-6页 *

Also Published As

Publication number Publication date
CN111698223A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
EP2499569B1 (en) Clustering method and system
CN108768986B (zh) 一种加密流量分类方法及服务器、计算机可读存储介质
WO2023071105A1 (zh) 一种特征变量的分析方法、装置、计算机设备及存储介质
CN104008174A (zh) 一种海量图像检索的隐私保护索引生成方法
Xu et al. Seeing traffic paths: Encrypted traffic classification with path signature features
CN110753065B (zh) 网络行为检测方法、装置、设备及存储介质
CN109190698B (zh) 一种网络数字虚拟资产的分类识别系统及方法
CN104090835A (zh) 基于eID和谱理论的跨平台虚拟资产交易审计方法
WO2021175021A1 (zh) 产品推送方法、装置、计算机设备和存储介质
CN110855648A (zh) 一种网络攻击的预警控制方法及装置
CN113553582A (zh) 恶意攻击检测方法、装置及电子设备
CN111698223B (zh) 一种基于自动特征工程的加密web网站指纹识别方法
CN107886009A (zh) 防隐私泄露的大数据生成方法和系统
Khan et al. DVAEGMM: Dual variational autoencoder with gaussian mixture model for anomaly detection on attributed networks
CN114710417A (zh) 基于格拉姆角场变换的Tor用户访问网站识别方法及系统
CN116527357A (zh) 一种基于门控Transformer的Web攻击检测方法
Chen et al. CCFS: a confidence-based cost-effective feature selection scheme for healthcare data classification
US9147162B2 (en) Method for classification of newly arrived multidimensional data points in dynamic big data sets
Zou et al. Browser fingerprinting identification using incremental clustering algorithm based on autoencoder
CN110363023B (zh) 一种基于phmm的匿名网络溯源方法
CN114528908B (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN110879893A (zh) 基于区块链和云计算的物流供应链大数据处理系统
CN116910587A (zh) 一种基于数据分布差异的聚类联邦方法及装置
Wang The development of web log mining based on improve-K-means clustering analysis
CN115883152A (zh) 基于联邦学习的网络流量攻击检测方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant