CN109831448A - 针对特定加密网页访问行为的检测方法 - Google Patents
针对特定加密网页访问行为的检测方法 Download PDFInfo
- Publication number
- CN109831448A CN109831448A CN201910165406.8A CN201910165406A CN109831448A CN 109831448 A CN109831448 A CN 109831448A CN 201910165406 A CN201910165406 A CN 201910165406A CN 109831448 A CN109831448 A CN 109831448A
- Authority
- CN
- China
- Prior art keywords
- stream
- coefficient
- resource
- https
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出了一种针对特定加密网页访问行为的检测方法,首先对某特定网页建立指纹库,然后在复杂流量环境中根据指纹库中的内容对特定网页进行特征的匹配,最后根据匹配结果,对本次识别进行建模并得到相似度系数,最终确定流量环境中是否存在访问行为。本发明充分利用了网页传输过程中的特点,具有较高的可靠性以及稳定性。
Description
技术领域
本发明涉及网络与信息安全技术,具体涉及一种针对特定加密网页访问行为的检测方法。
背景技术
随着移动互联网通信的蓬勃发展,各种类型的网络服务为人们的生产生活提供了极大便利,与此同时网络中包含的信息就越来越多。出于安全性考虑,服务提供者将传输协议逐渐从HTTP协议[1]升级成加密的HTTPS协议[2],这样做可以使得原本对攻击没有抵抗能力的数据传输方式变得能够抵抗大多数的攻击。国内的阿里和百度均实现了全站使用HTTPS协议,如Google、Facebook、Twitter等也都使用了这样的安全传输机制,国内的百度和阿里的全线产品也都进行了HTTPS的保护。HTTPS使用的是SSL加密HTTP流量,使得访问的内容在流量上不可观测。
在以往对网页访问行为的识别有基于分类器的、特征匹配的,但是其都是针对单流的,没有对网页访问行为的其他流量相关联,这样很显然会造成对流量使用率降低,以及对网页识别的不准确性。
发明内容
本发明的目的在于提出了一种针对特定加密网页访问行为的检测方法。
实现本发明的技术解决方案为:一种针对特定加密网页访问行为的检测方法,包括以下流程:
步骤1、对目标网页X进行访问,抓取访问X网页的流量,所述流量包括HTTPS加密流以及HTTP明文流;
步骤2、从TCP层对步骤1中获得到的HTTPS加密流提取特征,并将其作为该网页的指纹库,所述特征包括DNS中的A记录名称、该流资源个数、该流资源长度序列;
步骤3、提取HTTP明文流特征,并将其作为该网页的指纹库,所述特征包括DNS中的A记录名称、最大资源TCP重组后的字节数、资源的MD5值;
步骤4、采集待检测流量,根据步骤2、步骤3中的DNS中的A记录名称,提取出待检测流量中DNS协议内容中的IP地址,根据IP地址将待检测流量中不包含这些IP地址的流量过滤;
步骤5、设置时间窗口,以匹配到主流的时间为开始时间,以这个开始时间+10s的时间为结束时间,将步骤4中经过IP地址过滤并且在这个时间内开始的流量提取出来,作为本次对目标网页识别的流量集合;
步骤6、在步骤5的流量集合中,分别选择HTTP明文流、HTTPS加密流与指纹库中的相应特征进行匹配比较,最终得到n条HTTP明文流命中结果以及m条HTTPS加密流命中结果,并且每个结果对应命中的流中资源个数;
步骤7、建立网页访问流量识别模型,具体为:
T’=MMR*APcoefficient*AEcoefficient
式中,MMR为匹配度系数的基准值,APcoefficient为辅助明文流补偿系数,AEcoefficient为辅助密文流补偿系数,T’采样相似度系数;
对采样相似度系数T’作归一化,得到T记为相似度系数,其计算公式为:
T=min(T',1)
当得到的T大于等于0.9,则表示识别到对特定网页的访问行为。
优选地,从TCP层对步骤1中获得到的HTTPS加密流提取特征,并将其作为该网页的指纹库的具体方法为:
提取每一条HTTPS加密流的长度序列,并按时间顺序对其进行排列,排序为第一个的称为主流,其余的称为辅助流,分别记录每条流对应的DNS中的A记录名称,最终对每条得到的HTTPS流得到特征值为:DNS中的A记录名称、该流资源个数、该流资源长度序列。
优选地,提取的HTTPS加密流的长度序列为:
式中,表示flow这条流对应的第i个资源的长度,具体为:
其中,则是传输第i个资源的第j个数据包的长度。
优选地,步骤7网页访问流量识别模型中匹配度系数的基准值MMR具体计算公式为:
MMR=Simencrypt(num)
函数Simencrypt()为匹配到HTTPS加密流对应的匹配度,其是一个关于资源数num的离散函数,对应值为:
优选地,辅助明文流补偿系数APcoefficient计算公式为:
式中n为匹配到特定网页指纹中HTTP流的个数,P设置为1.5。
优选地,辅助密文流补偿系数AEcoefficient的计算公式为:
式中m为匹配到质问中HTTPS流的个数,numi为第i条辅助密文流的资源个数。
本发明与现有技术相比,其显著优点为:本发明充分利用了网页传输过程中的特点,并提出了一种建模以及判断的标准,具有高可靠性以及识别稳定性。
下面结合附图对本发明做进一步详细的描述。
附图说明
图1是本发明的流程图。
具体实施方式
一种针对特定加密网页访问行为的检测方法,包括以下流程:
步骤1、对目标网页X进行访问,抓取访问X网页的流量,所述流量包括HTTPS加密流以及HTTP明文流;
步骤2、从TCP层对步骤1中获得到的HTTPS加密流提取特征,并将其作为该网页的指纹库,所述特征包括DNS中的A记录名称、该流资源个数、该流资源长度序列,具体方法为:
提取每一条HTTPS加密流的长度序列,并按时间顺序对其进行排列,排序为第一个的称为主流,其余的称为辅助流,分别记录每条流对应的DNS中的A记录名称,最终对每条得到的HTTPS流得到特征值为:DNS中的A记录名称、该流资源个数、该流资源长度序列。
进一步的实施例中,提取的HTTPS加密流的长度序列为:
式中,lenresourcei表示flow这条流对应的第i个资源的长度,具体为:
其中lenresourcei表示第i个资源的长度,而lenpacket i,j则是传输第i个资源的第j个数据包的长度。
步骤3、提取HTTP明文流特征,并将其作为该网页的指纹库,所述特征包括DNS中的A记录名称、最大资源TCP重组后的字节数、资源的MD5值;
步骤4、采集待检测流量,根据步骤2、步骤3中的DNS中的A记录名称,提取出待检测流量中DNS协议内容中的IP地址,根据IP地址将待检测流量中不包含这些IP地址的流量过滤;
步骤5、设置时间窗口,以匹配到主流的时间为开始时间,以这个开始时间+10s的时间为结束时间,将步骤4中经过IP地址过滤并且在这个时间内开始的流量提取出来,作为本次对目标网页识别的流量集合;
步骤6、在步骤5的流量集合中,分别选择HTTP明文流、HTTPS加密流与指纹库中的相应特征进行匹配比较,最终得到n条HTTP明文流命中结果以及m条HTTPS加密流命中结果,并且每个结果对应命中的流中资源个数;
步骤7、建立网页访问流量识别模型,具体为:
T’=MMR*APcoefficient*AEcoefficient
式中,MMR为匹配度系数的基准值,APcoefficient为辅助明文流补偿系数,AEcoefficient为辅助密文流补偿系数,T’采样相似度系数;
匹配度系数的基准值MMR具体计算公式为:
MMR=Simencrypt(num)
函数Simencrypt()为匹配到HTTPS加密流对应的匹配度,其是一个关于资源数num的离散函数,对应值为:
辅助明文流补偿系数APcoefficient计算公式为:
式中n为匹配到特定网页指纹中HTTP流的个数,P设置为1.5。
辅助密文流补偿系数AEcoefficient的计算公式为:
式中m为匹配到质问中HTTPS流的个数,numi为第i条辅助密文流的资源个数。
对采样相似度系数T’作归一化,得到T记为相似度系数,其计算公式为:
T=min(T',1)
当得到的T大于等于0.9,则表示识别到对特定网页的访问行为。
在本发明中将HTTPS加密流中资源长度定义为流中非TLS握手包,且ACK值相同的服务器传给客户端的数据包重组得到的长度值,即一条HTTPS加密流可以被描述为式(1)。
flow={resource1}∪{resource2}...∪{resourcen} (1)
其中,flow代表一条HTTPS流,resourcei代表所传输的第i个资源。一条HTTPS加密流中的资源是由若干个数据包传输的,因此资源可以被描述为式(2)。
resourcei={packeti,1}∪{packeti,2}∪...∪{packeti,j} (2)
其中,packet指的是传输对应资源的数据包,下标i表示了其归属于第i个资源,j表示其对应数据包的顺序。
本发明中是直接比较采样得到的指纹内容是否与指纹库中的内容相同,对于HTTP明文流,比较DNS协议中存在的A记录与检测到的流的IP是否相同,比较对应重组后长度最大的资源的长度与指纹中的是否相同,比较重组后长度最大资源内容的哈希值与指纹中的哈希值是否相同,对于HTTPS加密流,比较DNS协议中存在的A记录与检测到的流的IP是否相同,比较对应的资源个数是否相同,比较对应的资源长度序列是否相同。
实施例
如图1所示,本发明首先对某特定网页建立指纹库,然后在复杂流量环境中根据指纹库中的内容对特定网页进行特征的匹配,最后根据匹配结果,对本次识别进行建模并得到相似度系数,最终确定流量环境中是否存在访问行为,具体流程如下:
步骤1、对目标网页X进行访问,利用wireshark对访问Github.comd网页的流量进行抓取,此网页主页是HTTPS协议传输的网页,不含HTTP协议的成分;
步骤2、提取数据流的特征,提取出对应HTTPS,得到其主流的特征如表1所示。
表1主流指纹内容
辅助加密流特征为表2,表3,表4,表5,表6。
表2第一条流的特征
表3第二条流的特征
表4第三条流的特征
表5第四条流的特征
表6第五条流的特征
步骤3、本实施例中不包含HTTP流,因此没有辅助明文流特征。
步骤4、在实验环境中访问其主页,并加入其他的流量,采集待检测流量;
步骤5、对流量进行过滤操作。
步骤5、匹配主流,匹配结果如表7的中展示的流的特征。
表7主流匹配到的特征
第一个特征为根据DNS查询到的IP,资源长度序列以及资源个数与指纹中的完全一样,因此匹配到主流。
不包含HTTP明文流因此n=0
HTTPS明文流匹配到的第一到第五条辅助加密流的特征如表8,表9,表10,表11,表12所示。
表8第一条密文辅助流匹配到的特征
表9第二条密文辅助流匹配到的特征
表10第三条密文辅助流匹配到的特征
表11第四条密文辅助流匹配到的特征
表12第五条密文辅助流匹配到的特征
得到m=5,以及对应的元素个数。
步骤7、根据步骤6得到APcoefficient=1,根据步骤6得到相的系数如表14所示。
表14密文流对应的系数
计算系数根据得到AEcoefficient=1.4*1.2*1.2*1.4*1.3=3.66912,MMR=0.25,APcoefficient=1,得到T值为0.91大于0.9,因此存在本网页的访问行为。
Claims (6)
1.一种针对特定加密网页访问行为的检测方法,其特征在于,包括以下流程:
步骤1、对目标网页X进行访问,抓取访问X网页的流量,所述流量包括HTTPS加密流以及HTTP明文流;
步骤2、从TCP层对步骤1中获得到的HTTPS加密流提取特征,并将其作为该网页的指纹库,所述特征包括DNS中的A记录名称、该流资源个数、该流资源长度序列;
步骤3、提取HTTP明文流特征,并将其作为该网页的指纹库,所述特征包括DNS中的A记录名称、最大资源TCP重组后的字节数、资源的MD5值;
步骤4、采集待检测流量,根据步骤2、步骤3中的DNS中的A记录名称,提取出待检测流量中DNS协议内容中的IP地址,根据IP地址将待检测流量中不包含这些IP地址的流量过滤;
步骤5、设置时间窗口,以匹配到主流的时间为开始时间,以这个开始时间+10s的时间为结束时间,将步骤4中经过IP地址过滤并且在这个时间内开始的流量提取出来,作为本次对目标网页识别的流量集合;
步骤6、在步骤5的流量集合中,分别选择HTTP明文流、HTTPS加密流与指纹库中的相应特征进行匹配比较,最终得到n条HTTP明文流命中结果以及m条HTTPS加密流命中结果,并且每个结果对应命中的流中资源个数;
步骤7、建立网页访问流量识别模型,具体为:
T’=MMR*APcoefficient*AEcoefficient
式中,MMR为匹配度系数的基准值,APcoefficient为辅助明文流补偿系数,AEcoefficient为辅助密文流补偿系数,T’采样相似度系数;
对采样相似度系数T’作归一化,得到T记为相似度系数,其计算公式为:
T=min(T',1)
当得到的T大于等于0.9,则表示识别到对特定网页的访问行为。
2.根据权利要求1所述的针对特定加密网页访问行为的检测方法,其特征在于,从TCP层对步骤1中获得到的HTTPS加密流提取特征,并将其作为该网页的指纹库的具体方法为:
提取每一条HTTPS加密流的长度序列,并按时间顺序对其进行排列,排序为第一个的称为主流,其余的称为辅助流,分别记录每条流对应的DNS中的A记录名称,最终对每条得到的HTTPS流得到特征值为:DNS中的A记录名称、该流资源个数、该流资源长度序列。
3.根据权利要求2所述的针对特定加密网页访问行为的检测方法,其特征在于,提取的HTTPS加密流的长度序列为:
式中,表示flow这条流对应的第i个资源的长度,具体为:
其中,是传输第i个资源的第j个数据包的长度。
4.根据权利要求1所述的针对特定加密网页访问行为的检测方法,其特征在于,步骤7网页访问流量识别模型中匹配度系数的基准值MMR具体计算公式为:
MMR=Simencrypt(num)
函数Simencrypt()为匹配到HTTPS加密流对应的匹配度,其是一个关于资源数num的离散函数,对应值为:
5.根据权利要求1所述的针对特定加密网页访问行为的检测方法,其特征在于,辅助明文流补偿系数APcoefficient计算公式为:
式中n为匹配到特定网页指纹中HTTP流的个数,P设置为1.5。
6.根据权利要求1所述的针对特定加密网页访问行为的检测方法,其特征在于,辅助密文流补偿系数AEcoefficient的计算公式为:
式中m为匹配到质问中HTTPS流的个数,numi为第i条辅助密文流的资源个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910165406.8A CN109831448A (zh) | 2019-03-05 | 2019-03-05 | 针对特定加密网页访问行为的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910165406.8A CN109831448A (zh) | 2019-03-05 | 2019-03-05 | 针对特定加密网页访问行为的检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109831448A true CN109831448A (zh) | 2019-05-31 |
Family
ID=66865402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910165406.8A Pending CN109831448A (zh) | 2019-03-05 | 2019-03-05 | 针对特定加密网页访问行为的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109831448A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111464550A (zh) * | 2020-04-10 | 2020-07-28 | 南京铱迅信息技术股份有限公司 | 一种用于报文处理设备的https透明防护方法 |
CN111786971A (zh) * | 2020-06-19 | 2020-10-16 | 杭州安恒信息技术股份有限公司 | 主机爆破攻击的防御方法、装置和计算机设备 |
CN112788159A (zh) * | 2020-12-31 | 2021-05-11 | 山西三友和智慧信息技术股份有限公司 | 一种基于dns流量和knn算法的网页指纹追踪方法 |
CN112836232A (zh) * | 2019-11-22 | 2021-05-25 | 南京理工大学 | 网页指纹识别背景下基于k匿名的动态网页隐私保护方法 |
CN113407880A (zh) * | 2021-05-06 | 2021-09-17 | 中南大学 | 一种适用于加密http/2网页的访问行为识别方法 |
CN115567503A (zh) * | 2022-12-07 | 2023-01-03 | 华信咨询设计研究院有限公司 | 一种基于流量分析的https协议分析方法 |
CN116016365A (zh) * | 2023-01-06 | 2023-04-25 | 哈尔滨工业大学 | 一种加密流量下基于数据包长度信息的网页识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103840983A (zh) * | 2014-01-09 | 2014-06-04 | 中国科学技术大学苏州研究院 | 基于协议行为分析的web隧道检测方法 |
CN104765884A (zh) * | 2015-04-30 | 2015-07-08 | 哈尔滨工业大学 | 一种https网页的指纹提取方法和指纹识别方法 |
CN105281973A (zh) * | 2015-08-07 | 2016-01-27 | 南京邮电大学 | 一种针对特定网站类别的网页指纹识别方法 |
US9479519B1 (en) * | 2014-12-18 | 2016-10-25 | Amazon Technologies, Inc. | Web content fingerprint analysis to detect web page issues |
-
2019
- 2019-03-05 CN CN201910165406.8A patent/CN109831448A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103840983A (zh) * | 2014-01-09 | 2014-06-04 | 中国科学技术大学苏州研究院 | 基于协议行为分析的web隧道检测方法 |
US9479519B1 (en) * | 2014-12-18 | 2016-10-25 | Amazon Technologies, Inc. | Web content fingerprint analysis to detect web page issues |
CN104765884A (zh) * | 2015-04-30 | 2015-07-08 | 哈尔滨工业大学 | 一种https网页的指纹提取方法和指纹识别方法 |
CN105281973A (zh) * | 2015-08-07 | 2016-01-27 | 南京邮电大学 | 一种针对特定网站类别的网页指纹识别方法 |
Non-Patent Citations (1)
Title |
---|
康宁: "HTTPS 网页流量的指纹提取和识别技术研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836232A (zh) * | 2019-11-22 | 2021-05-25 | 南京理工大学 | 网页指纹识别背景下基于k匿名的动态网页隐私保护方法 |
CN112836232B (zh) * | 2019-11-22 | 2022-12-13 | 南京理工大学 | 网页指纹识别背景下基于k匿名的动态网页隐私保护方法 |
CN111464550A (zh) * | 2020-04-10 | 2020-07-28 | 南京铱迅信息技术股份有限公司 | 一种用于报文处理设备的https透明防护方法 |
CN111464550B (zh) * | 2020-04-10 | 2021-12-28 | 南京铱迅信息技术股份有限公司 | 一种用于报文处理设备的https透明防护方法 |
CN111786971A (zh) * | 2020-06-19 | 2020-10-16 | 杭州安恒信息技术股份有限公司 | 主机爆破攻击的防御方法、装置和计算机设备 |
CN112788159A (zh) * | 2020-12-31 | 2021-05-11 | 山西三友和智慧信息技术股份有限公司 | 一种基于dns流量和knn算法的网页指纹追踪方法 |
CN113407880A (zh) * | 2021-05-06 | 2021-09-17 | 中南大学 | 一种适用于加密http/2网页的访问行为识别方法 |
CN115567503A (zh) * | 2022-12-07 | 2023-01-03 | 华信咨询设计研究院有限公司 | 一种基于流量分析的https协议分析方法 |
CN116016365A (zh) * | 2023-01-06 | 2023-04-25 | 哈尔滨工业大学 | 一种加密流量下基于数据包长度信息的网页识别方法 |
CN116016365B (zh) * | 2023-01-06 | 2023-09-19 | 哈尔滨工业大学 | 一种加密流量下基于数据包长度信息的网页识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109831448A (zh) | 针对特定加密网页访问行为的检测方法 | |
Meidan et al. | ProfilIoT: A machine learning approach for IoT device identification based on network traffic analysis | |
US11399288B2 (en) | Method for HTTP-based access point fingerprint and classification using machine learning | |
Wang et al. | Seeing through network-protocol obfuscation | |
CN105429968B (zh) | 基于布隆过滤器的网络取证载荷归属方法及系统 | |
CN105357082B (zh) | 一种网络流量的识别方法及装置 | |
US9961095B2 (en) | System and method for extracting and preserving metadata for analyzing network communications | |
US20210211369A1 (en) | System and method for extracting identifiers from traffic of an unknown protocol | |
CN102664935B (zh) | 一种web类用户行为和用户信息的关联输出方法及系统 | |
CN103780610A (zh) | 基于协议特征的网络数据恢复方法 | |
CN107426049A (zh) | 一种网络流量精确检测方法、设备及存储介质 | |
CN101977235A (zh) | 一种针对https加密网站访问的网址过滤方法 | |
CN110868409A (zh) | 一种基于tcp/ip协议栈指纹的操作系统被动识别方法及系统 | |
CN103840983A (zh) | 基于协议行为分析的web隧道检测方法 | |
US20180062950A1 (en) | Network traffic monitoring and classification | |
CN103618726A (zh) | 一种基于https协议实现移动数据业务识别的方法 | |
US20220141252A1 (en) | System and method for data filtering in machine learning model to detect impersonation attacks | |
CN109450733A (zh) | 一种基于机器学习的网络终端设备识别方法及系统 | |
Kausar et al. | Traffic analysis attack for identifying users’ online activities | |
Wang et al. | Benchmark data for mobile app traffic research | |
Ruffing et al. | Smartphone reconnaissance: Operating system identification | |
CN110472410B (zh) | 识别数据的方法、设备和数据处理方法 | |
Herrmann et al. | Fingerprinting techniques for target-oriented investigations in network forensics | |
Hasselquist et al. | Lightweight fingerprint attack and encrypted traffic analysis on news articles | |
KR102119636B1 (ko) | 수동 핑거프린팅을 이용한 익명 네트워크 분석 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20211203 |