CN112291273B - 基于多维向量比较的页面模糊匹配实现方法 - Google Patents

基于多维向量比较的页面模糊匹配实现方法 Download PDF

Info

Publication number
CN112291273B
CN112291273B CN202011547586.5A CN202011547586A CN112291273B CN 112291273 B CN112291273 B CN 112291273B CN 202011547586 A CN202011547586 A CN 202011547586A CN 112291273 B CN112291273 B CN 112291273B
Authority
CN
China
Prior art keywords
dimension
diff
abs
error
rlt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011547586.5A
Other languages
English (en)
Other versions
CN112291273A (zh
Inventor
杨泽辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Webray Beijing Network Safety Technology Co ltd
Original Assignee
Webray Beijing Network Safety Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Webray Beijing Network Safety Technology Co ltd filed Critical Webray Beijing Network Safety Technology Co ltd
Priority to CN202011547586.5A priority Critical patent/CN112291273B/zh
Publication of CN112291273A publication Critical patent/CN112291273A/zh
Application granted granted Critical
Publication of CN112291273B publication Critical patent/CN112291273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多维向量比较的页面模糊匹配实现方法,包括:将待比较的两个应用页面A和B分别抽象为维数为n的多维向量VA和VB;计算VA与对应的VB的每个维度间的绝对差值和相对差值,得到第i维的差值绝对值Diff_Abs[i]和第i维的绝对差值占比Diff_Rlt[i];将Diff_Abs[i]与预设的最大绝对误差值F_Abs_Max相比较,Diff_Rlt[i]与预设的最大相对误差值F_Rlt_Max相比较;当Diff_Abs[i]大于F_Abs_Max,或Diff_Rlt[i]大于F_Rlt_Max时判定为误差维度,并统计至误差维数统计值;重复直至n维全部比较完毕,得到误差维数N_diff,当N_diff小于最大误差维数N_diff_Max时判定A和B为相似页面。其通过页面的多维向量实现页面间的模糊匹配,有效避免了Web漏洞扫描、篡改监控等多种安全监测方法在实际操作过程中遇到因页面抖动等原因造成的误判的弊端。

Description

基于多维向量比较的页面模糊匹配实现方法
技术领域
本发明涉及网络安全技术领域,特别涉及一种基于多维向量比较的页面模糊匹配实现方法。
背景技术
随着互联网技术的发展,尤其是移动互联网的发展,Web应用越来越成为了主流应用,据统计互联网上的流量90%以上为http/https协议的流量,Web应用和人们的生活、切身利益也紧密相连,其安全问题也越来越受到关注,针对Web应用的漏洞爆发也是层出不穷,帮助用户提前发现自身网站存在的安全弱点也变得尤为紧要,目前主要的手段是通过Web爬虫的方式爬取应用页面,并对其进行漏洞检测或监控,对页面的漏洞检测、篡改检测都会涉及到要对页面进行比较的问题,由于网络,页面抖动(访问相同的页面,每次的结果稍有差异,比如:页面中包含时钟信息等)等原因,通过对页面进行完整的字符串匹配来认定页面不同显然是非常武断的,造成漏洞检测、篡改检测的不准确,因此设计一种高效、准确的页面比较模糊匹配方法变得非常迫切。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于多维向量比较的页面模糊匹配实现方法,通过页面的多维向量实现页面间的模糊匹配,有效避免了Web漏洞扫描、篡改监控等多种安全监测方法在实际操作过程中遇到因页面抖动等原因造成的误判的弊端。
为了实现根据本发明的这些目的和其它优点,提供了一种基于多维向量比较的页面模糊匹配实现方法,包括以下步骤:
S1、将待比较的两个应用页面A和B分别抽象为维数为n的多维向量VA和VB,1≦n≦255;
S2、计算VA的每个维度与对应的VB的每个维度间的绝对差值和相对差值,得到第i维的差值绝对值Diff_Abs[i]和第i维的绝对差值占比Diff_Rlt[i],i≦n;
S3、将Diff_Abs[i]与预设的最大绝对误差值F_Abs_Max相比较,Diff_Rlt[i]与预设的最大相对误差值F_Rlt_Max相比较;若Diff_Abs[i]大于F_Abs_Max,或Diff_Rlt[i]大于F_Rlt_Max,则均判定维度i为误差维度,并统计至误差维数统计值内;
S4、重复S2和S3直至n维全部比较完毕,依据所述误差维数统计值得到误差维数N_diff,比较N_diff是否小于预设的最大误差维数N_diff_Max;是,则判定A和B为相似页面;否,则判定A和B为差异页面。
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,20≦n≦255。
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,S1中基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB的具体方法为:
S1-1、依次根据应用页面A或B中的每一个字符求取字符值C和维度n的余数R;
S1-2、根据得到的R将A或B的多维向量的第R维加1;
S1-3、重复S1-1和S1-2,直至求取了A或B中的所有字符的余数R。
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,S2中,第i维的差值绝对值Diff_Abs[i]依据下述公式1计算得到:
Diff_Abs[i]=ABS(VA[i]-VB[i]) 公式1;
其中,VA[i]和VB[i]分别为应用页面A和B的第i维向量值;ABS为求绝对值的函数。
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,S2中,第i维的绝对差值占比Diff_Rlt[i]依据下述公式2计算得到:
Diff_Rlt[i]= Diff_Abs[i]*100/MAX(VA[i],VB[i]) 公式2;
其中,MAX(Va[i],Vb[i])指取应用页面A和B的第i维向量值VA[i]和VB[i]中的较大值。
本发明至少包括以下有益效果:
本发明的基于多维向量比较的页面模糊匹配实现方法中,通过将待比较的两个应用页面分别抽象为多维向量,然后利用两个多维向量针对每个维度的绝对差值和相对差值与预设的最大绝对误差值和最大相对误差值进行比较,进而最终得到两个多维向量的误差维数总数,最后利用误差维数总数与预设的最大误差维数的比较确定两个应用页面是否相似,有效的避免了现有技术中通过对页面进行完整的字符串匹配来认定页面不同时,由于网络,页面抖动(访问相同的页面,每次的结果稍有差异,比如:页面中包含时钟信息等)等原因造成的检测不准确的弊端,进而使得对于应用页面的漏洞检测、篡改检测的准确性显著提高。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
具体实施方式
下面对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
本发明提供一种基于多维向量比较的页面模糊匹配实现方法,包括以下步骤:
S1、将待比较的两个应用页面A和B分别抽象为维数为n的多维向量VA和VB,1≦n≦255;
S2、计算VA的每个维度与对应的VB的每个维度间的绝对差值和相对差值,得到第i维的差值绝对值Diff_Abs[i]和第i维的绝对差值占比Diff_Rlt[i],i≦n;
S3、将Diff_Abs[i]与预设的最大绝对误差值F_Abs_Max相比较,Diff_Rlt[i]与预设的最大相对误差值F_Rlt_Max相比较;若Diff_Abs[i]大于F_Abs_Max,或Diff_Rlt[i]大于F_Rlt_Max,则均判定维度i为误差维度,并统计至误差维数统计值内;
S4、重复S2和S3直至n维全部比较完毕,依据所述误差维数统计值得到误差维数N_diff,比较N_diff是否小于预设的最大误差维数N_diff_Max;是,则判定A和B为相似页面;否,则判定A和B为差异页面。
在上述方案中,通过将待比较的两个应用页面分别抽象为多维向量,然后利用两个多维向量针对每个维度的绝对差值和相对差值与预设的最大绝对误差值和最大相对误差值进行比较,进而最终得到两个多维向量的误差维数总数,最后利用误差维数总数与预设的最大误差维数的比较确定两个应用页面是否相似,有效的避免了现有技术中通过对页面进行完整的字符串匹配来认定页面不同时,由于网络,页面抖动(访问相同的页面,每次的结果稍有差异,比如:页面中包含时钟信息等)等原因造成的检测不准确的弊端,进而使得对于应用页面的漏洞检测、篡改检测的准确性显著提高。
一个优选方案中,20≦n≦255。
在上述方案中,维数如果选择太小,结果的偏差会较大,因此根据反复实验计算,建议n值最少为20维,但因字符的大小范围为0-255,所以n值不应超过255。
一个优选方案中,S1中基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB
在上述方案中,余数Hash算法在算法性能,以及准确性上均显著优于其他的Hash算法。
一个优选方案中,基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB的具体方法为:
S1-1、依次根据应用页面A或B中的每一个字符求取字符值C和维度n的余数R;
S1-2、根据得到的R将A或B的多维向量的第R维加1;
S1-3、重复S1-1和S1-2,直至求取了A或B中的所有字符的余数R。
在上述方案中,采用余数Hash算法,能够快速形成对页面数据的抽象,将页面的对法转换为数学的多维向量对比,在性能和准确性上都有很大的优势。
一个优选方案中,S2中,第i维的差值绝对值Diff_Abs[i]依据下述公式1计算得到:
Diff_Abs[i]=ABS(VA[i]-VB[i]) 公式1;
其中,VA[i]和VB[i]分别为应用页面A和B的第i维向量值;ABS为求绝对值的函数。
一个优选方案中,S2中,第i维的绝对差值占比Diff_Rlt[i]依据下述公式2计算得到:
Diff_Rlt[i]= Diff_Abs[i]*100/MAX(VA[i],VB[i]) 公式2;
其中,MAX(Va[i],Vb[i])指取应用页面A和B的第i维向量值VA[i]和VB[i]中的较大值。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。

Claims (5)

1.一种基于多维向量比较的页面模糊匹配实现方法,其特征在于,包括以下步骤:
S1、将待比较的两个应用页面A和B分别抽象为维数为n的多维向量VA和VB,1≦n≦255;
S2、计算VA的每个维度与对应的VB的每个维度间的绝对差值和相对差值,得到第i维的差值绝对值Diff_Abs[i]和第i维的绝对差值占比Diff_Rlt[i],i≦n;其中,第i维的绝对差值占比Diff_Rlt[i]依据下述公式2计算得到:
Diff_Rlt[i]= Diff_Abs[i]*100/MAX(VA[i],VB[i]) 公式2;
其中,MAX(Va[i],Vb[i])指取应用页面A和B的第i维向量值VA[i]和VB[i]中的较大值;
S3、将Diff_Abs[i]与预设的最大绝对误差值F_Abs_Max相比较,Diff_Rlt[i]与预设的最大相对误差值F_Rlt_Max相比较;若Diff_Abs[i]大于F_Abs_Max,或Diff_Rlt[i]大于F_Rlt_Max,则均判定维度i为误差维度,并统计至误差维数统计值内;
S4、重复S2和S3直至n维全部比较完毕,依据所述误差维数统计值得到误差维数N_diff,比较N_diff是否小于预设的最大误差维数N_diff_Max;是,则判定A和B为相似页面;否,则判定A和B为差异页面。
2.如权利要求1所述的基于多维向量比较的页面模糊匹配实现方法,其特征在于,20≦n≦255。
3.如权利要求1所述的基于多维向量比较的页面模糊匹配实现方法,其特征在于,S1中基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB
4.如权利要求3所述的基于多维向量比较的页面模糊匹配实现方法,其特征在于,基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB的具体方法为:
S1-1、依次根据应用页面A或B中的每一个字符求取字符值C和维度n的余数R;
S1-2、根据得到的R将A或B的多维向量的第R维加1;
S1-3、重复S1-1和S1-2,直至求取了A或B中的所有字符的余数R。
5.如权利要求1所述的基于多维向量比较的页面模糊匹配实现方法,其特征在于,S2中,第i维的差值绝对值Diff_Abs[i]依据下述公式1计算得到:
Diff_Abs[i]=ABS(VA[i]-VB[i]) 公式1;
其中,VA[i]和VB[i]分别为应用页面A和B的第i维向量值;ABS为求绝对值的函数。
CN202011547586.5A 2020-12-24 2020-12-24 基于多维向量比较的页面模糊匹配实现方法 Active CN112291273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011547586.5A CN112291273B (zh) 2020-12-24 2020-12-24 基于多维向量比较的页面模糊匹配实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011547586.5A CN112291273B (zh) 2020-12-24 2020-12-24 基于多维向量比较的页面模糊匹配实现方法

Publications (2)

Publication Number Publication Date
CN112291273A CN112291273A (zh) 2021-01-29
CN112291273B true CN112291273B (zh) 2021-03-26

Family

ID=74426061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011547586.5A Active CN112291273B (zh) 2020-12-24 2020-12-24 基于多维向量比较的页面模糊匹配实现方法

Country Status (1)

Country Link
CN (1) CN112291273B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390044A (zh) * 2019-06-11 2019-10-29 平安科技(深圳)有限公司 一种相似网络页面的搜索方法及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170447A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于最近邻及相似度测量检测钓鱼网页的方法
US10200381B2 (en) * 2015-08-05 2019-02-05 Mcafee, Llc Systems and methods for phishing and brand protection
CN105975547B (zh) * 2016-04-29 2019-06-25 武汉大学 基于内容与位置特征的近似web文档检测方法
CN111488422A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种结构化数据样本的增量方法、装置、电子设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390044A (zh) * 2019-06-11 2019-10-29 平安科技(深圳)有限公司 一种相似网络页面的搜索方法及设备

Also Published As

Publication number Publication date
CN112291273A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
Hanif et al. Intrusion detection in IoT using artificial neural networks on UNSW-15 dataset
Yang et al. Estimating user behavior toward detecting anomalous ratings in rating systems
US20070061882A1 (en) Instance based learning framework for effective behavior profiling and anomaly intrusion detection
CN110445801B (zh) 一种物联网的态势感知方法和系统
Qiu et al. Multi-view convolutional neural network for data spoofing cyber-attack detection in distribution synchrophasors
CN109347807B (zh) 一种基于信任度的差异化入侵防御方法
Ahmad et al. Role of machine learning and data mining in internet security: standing state with future directions
Kotani et al. Unsupervised scanning behavior detection based on distribution of network traffic features using robust autoencoders
Chiu et al. Semi-supervised learning for false alarm reduction
He et al. Network Security Threat Detection under Big Data by Using Machine Learning.
Perini et al. Transferring the contamination factor between anomaly detection domains by shape similarity
Hendry et al. Intrusion signature creation via clustering anomalies
Wang et al. CPFL: An effective secure cognitive personalized federated learning mechanism for industry 4.0
CN112291273B (zh) 基于多维向量比较的页面模糊匹配实现方法
CN113746780B (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
Choudhary et al. CRIDS: Correlation and regression-based network intrusion detection system for IoT
Tran et al. DeepInsight-convolutional neural network for intrusion detection systems
Dong et al. Traffic Characteristic Map-based Intrusion Detection Model for Industrial Internet.
Truong et al. A data-driven approach for network intrusion detection and monitoring based on kernel null space
Tang et al. A novel LDoS attack detection method based on reconstruction anomaly
Aleroud et al. Detecting zero-day attacks using contextual relations
Horchulhack et al. A stream learning intrusion detection system for concept drifting network traffic
Liu et al. A Blockchain-assisted Collaborative Ensemble Learning for Network Intrusion Detection
Ramprasath et al. Cloud Service Anomaly Traffic Detection Using Random Forest
Jia et al. FITIC: A few-shot learning based IoT traffic classification method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant