CN112291273B - 基于多维向量比较的页面模糊匹配实现方法 - Google Patents
基于多维向量比较的页面模糊匹配实现方法 Download PDFInfo
- Publication number
- CN112291273B CN112291273B CN202011547586.5A CN202011547586A CN112291273B CN 112291273 B CN112291273 B CN 112291273B CN 202011547586 A CN202011547586 A CN 202011547586A CN 112291273 B CN112291273 B CN 112291273B
- Authority
- CN
- China
- Prior art keywords
- dimension
- diff
- abs
- error
- rlt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多维向量比较的页面模糊匹配实现方法,包括:将待比较的两个应用页面A和B分别抽象为维数为n的多维向量VA和VB;计算VA与对应的VB的每个维度间的绝对差值和相对差值,得到第i维的差值绝对值Diff_Abs[i]和第i维的绝对差值占比Diff_Rlt[i];将Diff_Abs[i]与预设的最大绝对误差值F_Abs_Max相比较,Diff_Rlt[i]与预设的最大相对误差值F_Rlt_Max相比较;当Diff_Abs[i]大于F_Abs_Max,或Diff_Rlt[i]大于F_Rlt_Max时判定为误差维度,并统计至误差维数统计值;重复直至n维全部比较完毕,得到误差维数N_diff,当N_diff小于最大误差维数N_diff_Max时判定A和B为相似页面。其通过页面的多维向量实现页面间的模糊匹配,有效避免了Web漏洞扫描、篡改监控等多种安全监测方法在实际操作过程中遇到因页面抖动等原因造成的误判的弊端。
Description
技术领域
本发明涉及网络安全技术领域,特别涉及一种基于多维向量比较的页面模糊匹配实现方法。
背景技术
随着互联网技术的发展,尤其是移动互联网的发展,Web应用越来越成为了主流应用,据统计互联网上的流量90%以上为http/https协议的流量,Web应用和人们的生活、切身利益也紧密相连,其安全问题也越来越受到关注,针对Web应用的漏洞爆发也是层出不穷,帮助用户提前发现自身网站存在的安全弱点也变得尤为紧要,目前主要的手段是通过Web爬虫的方式爬取应用页面,并对其进行漏洞检测或监控,对页面的漏洞检测、篡改检测都会涉及到要对页面进行比较的问题,由于网络,页面抖动(访问相同的页面,每次的结果稍有差异,比如:页面中包含时钟信息等)等原因,通过对页面进行完整的字符串匹配来认定页面不同显然是非常武断的,造成漏洞检测、篡改检测的不准确,因此设计一种高效、准确的页面比较模糊匹配方法变得非常迫切。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于多维向量比较的页面模糊匹配实现方法,通过页面的多维向量实现页面间的模糊匹配,有效避免了Web漏洞扫描、篡改监控等多种安全监测方法在实际操作过程中遇到因页面抖动等原因造成的误判的弊端。
为了实现根据本发明的这些目的和其它优点,提供了一种基于多维向量比较的页面模糊匹配实现方法,包括以下步骤:
S1、将待比较的两个应用页面A和B分别抽象为维数为n的多维向量VA和VB,1≦n≦255;
S2、计算VA的每个维度与对应的VB的每个维度间的绝对差值和相对差值,得到第i维的差值绝对值Diff_Abs[i]和第i维的绝对差值占比Diff_Rlt[i],i≦n;
S3、将Diff_Abs[i]与预设的最大绝对误差值F_Abs_Max相比较,Diff_Rlt[i]与预设的最大相对误差值F_Rlt_Max相比较;若Diff_Abs[i]大于F_Abs_Max,或Diff_Rlt[i]大于F_Rlt_Max,则均判定维度i为误差维度,并统计至误差维数统计值内;
S4、重复S2和S3直至n维全部比较完毕,依据所述误差维数统计值得到误差维数N_diff,比较N_diff是否小于预设的最大误差维数N_diff_Max;是,则判定A和B为相似页面;否,则判定A和B为差异页面。
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,20≦n≦255。
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,S1中基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB。
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB的具体方法为:
S1-1、依次根据应用页面A或B中的每一个字符求取字符值C和维度n的余数R;
S1-2、根据得到的R将A或B的多维向量的第R维加1;
S1-3、重复S1-1和S1-2,直至求取了A或B中的所有字符的余数R。
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,S2中,第i维的差值绝对值Diff_Abs[i]依据下述公式1计算得到:
Diff_Abs[i]=ABS(VA[i]-VB[i]) 公式1;
其中,VA[i]和VB[i]分别为应用页面A和B的第i维向量值;ABS为求绝对值的函数。
优选的是,所述的基于多维向量比较的页面模糊匹配实现方法中,S2中,第i维的绝对差值占比Diff_Rlt[i]依据下述公式2计算得到:
Diff_Rlt[i]= Diff_Abs[i]*100/MAX(VA[i],VB[i]) 公式2;
其中,MAX(Va[i],Vb[i])指取应用页面A和B的第i维向量值VA[i]和VB[i]中的较大值。
本发明至少包括以下有益效果:
本发明的基于多维向量比较的页面模糊匹配实现方法中,通过将待比较的两个应用页面分别抽象为多维向量,然后利用两个多维向量针对每个维度的绝对差值和相对差值与预设的最大绝对误差值和最大相对误差值进行比较,进而最终得到两个多维向量的误差维数总数,最后利用误差维数总数与预设的最大误差维数的比较确定两个应用页面是否相似,有效的避免了现有技术中通过对页面进行完整的字符串匹配来认定页面不同时,由于网络,页面抖动(访问相同的页面,每次的结果稍有差异,比如:页面中包含时钟信息等)等原因造成的检测不准确的弊端,进而使得对于应用页面的漏洞检测、篡改检测的准确性显著提高。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
具体实施方式
下面对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
本发明提供一种基于多维向量比较的页面模糊匹配实现方法,包括以下步骤:
S1、将待比较的两个应用页面A和B分别抽象为维数为n的多维向量VA和VB,1≦n≦255;
S2、计算VA的每个维度与对应的VB的每个维度间的绝对差值和相对差值,得到第i维的差值绝对值Diff_Abs[i]和第i维的绝对差值占比Diff_Rlt[i],i≦n;
S3、将Diff_Abs[i]与预设的最大绝对误差值F_Abs_Max相比较,Diff_Rlt[i]与预设的最大相对误差值F_Rlt_Max相比较;若Diff_Abs[i]大于F_Abs_Max,或Diff_Rlt[i]大于F_Rlt_Max,则均判定维度i为误差维度,并统计至误差维数统计值内;
S4、重复S2和S3直至n维全部比较完毕,依据所述误差维数统计值得到误差维数N_diff,比较N_diff是否小于预设的最大误差维数N_diff_Max;是,则判定A和B为相似页面;否,则判定A和B为差异页面。
在上述方案中,通过将待比较的两个应用页面分别抽象为多维向量,然后利用两个多维向量针对每个维度的绝对差值和相对差值与预设的最大绝对误差值和最大相对误差值进行比较,进而最终得到两个多维向量的误差维数总数,最后利用误差维数总数与预设的最大误差维数的比较确定两个应用页面是否相似,有效的避免了现有技术中通过对页面进行完整的字符串匹配来认定页面不同时,由于网络,页面抖动(访问相同的页面,每次的结果稍有差异,比如:页面中包含时钟信息等)等原因造成的检测不准确的弊端,进而使得对于应用页面的漏洞检测、篡改检测的准确性显著提高。
一个优选方案中,20≦n≦255。
在上述方案中,维数如果选择太小,结果的偏差会较大,因此根据反复实验计算,建议n值最少为20维,但因字符的大小范围为0-255,所以n值不应超过255。
一个优选方案中,S1中基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB。
在上述方案中,余数Hash算法在算法性能,以及准确性上均显著优于其他的Hash算法。
一个优选方案中,基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB的具体方法为:
S1-1、依次根据应用页面A或B中的每一个字符求取字符值C和维度n的余数R;
S1-2、根据得到的R将A或B的多维向量的第R维加1;
S1-3、重复S1-1和S1-2,直至求取了A或B中的所有字符的余数R。
在上述方案中,采用余数Hash算法,能够快速形成对页面数据的抽象,将页面的对法转换为数学的多维向量对比,在性能和准确性上都有很大的优势。
一个优选方案中,S2中,第i维的差值绝对值Diff_Abs[i]依据下述公式1计算得到:
Diff_Abs[i]=ABS(VA[i]-VB[i]) 公式1;
其中,VA[i]和VB[i]分别为应用页面A和B的第i维向量值;ABS为求绝对值的函数。
一个优选方案中,S2中,第i维的绝对差值占比Diff_Rlt[i]依据下述公式2计算得到:
Diff_Rlt[i]= Diff_Abs[i]*100/MAX(VA[i],VB[i]) 公式2;
其中,MAX(Va[i],Vb[i])指取应用页面A和B的第i维向量值VA[i]和VB[i]中的较大值。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。
Claims (5)
1.一种基于多维向量比较的页面模糊匹配实现方法,其特征在于,包括以下步骤:
S1、将待比较的两个应用页面A和B分别抽象为维数为n的多维向量VA和VB,1≦n≦255;
S2、计算VA的每个维度与对应的VB的每个维度间的绝对差值和相对差值,得到第i维的差值绝对值Diff_Abs[i]和第i维的绝对差值占比Diff_Rlt[i],i≦n;其中,第i维的绝对差值占比Diff_Rlt[i]依据下述公式2计算得到:
Diff_Rlt[i]= Diff_Abs[i]*100/MAX(VA[i],VB[i]) 公式2;
其中,MAX(Va[i],Vb[i])指取应用页面A和B的第i维向量值VA[i]和VB[i]中的较大值;
S3、将Diff_Abs[i]与预设的最大绝对误差值F_Abs_Max相比较,Diff_Rlt[i]与预设的最大相对误差值F_Rlt_Max相比较;若Diff_Abs[i]大于F_Abs_Max,或Diff_Rlt[i]大于F_Rlt_Max,则均判定维度i为误差维度,并统计至误差维数统计值内;
S4、重复S2和S3直至n维全部比较完毕,依据所述误差维数统计值得到误差维数N_diff,比较N_diff是否小于预设的最大误差维数N_diff_Max;是,则判定A和B为相似页面;否,则判定A和B为差异页面。
2.如权利要求1所述的基于多维向量比较的页面模糊匹配实现方法,其特征在于,20≦n≦255。
3.如权利要求1所述的基于多维向量比较的页面模糊匹配实现方法,其特征在于,S1中基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB。
4.如权利要求3所述的基于多维向量比较的页面模糊匹配实现方法,其特征在于,基于哈希算法页面字符统计将应用页面A或B抽象为多维向量VA或VB的具体方法为:
S1-1、依次根据应用页面A或B中的每一个字符求取字符值C和维度n的余数R;
S1-2、根据得到的R将A或B的多维向量的第R维加1;
S1-3、重复S1-1和S1-2,直至求取了A或B中的所有字符的余数R。
5.如权利要求1所述的基于多维向量比较的页面模糊匹配实现方法,其特征在于,S2中,第i维的差值绝对值Diff_Abs[i]依据下述公式1计算得到:
Diff_Abs[i]=ABS(VA[i]-VB[i]) 公式1;
其中,VA[i]和VB[i]分别为应用页面A和B的第i维向量值;ABS为求绝对值的函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011547586.5A CN112291273B (zh) | 2020-12-24 | 2020-12-24 | 基于多维向量比较的页面模糊匹配实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011547586.5A CN112291273B (zh) | 2020-12-24 | 2020-12-24 | 基于多维向量比较的页面模糊匹配实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112291273A CN112291273A (zh) | 2021-01-29 |
CN112291273B true CN112291273B (zh) | 2021-03-26 |
Family
ID=74426061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011547586.5A Active CN112291273B (zh) | 2020-12-24 | 2020-12-24 | 基于多维向量比较的页面模糊匹配实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112291273B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390044A (zh) * | 2019-06-11 | 2019-10-29 | 平安科技(深圳)有限公司 | 一种相似网络页面的搜索方法及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102170447A (zh) * | 2011-04-29 | 2011-08-31 | 南京邮电大学 | 一种基于最近邻及相似度测量检测钓鱼网页的方法 |
US10200381B2 (en) * | 2015-08-05 | 2019-02-05 | Mcafee, Llc | Systems and methods for phishing and brand protection |
CN105975547B (zh) * | 2016-04-29 | 2019-06-25 | 武汉大学 | 基于内容与位置特征的近似web文档检测方法 |
CN111488422A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种结构化数据样本的增量方法、装置、电子设备及介质 |
-
2020
- 2020-12-24 CN CN202011547586.5A patent/CN112291273B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390044A (zh) * | 2019-06-11 | 2019-10-29 | 平安科技(深圳)有限公司 | 一种相似网络页面的搜索方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112291273A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hanif et al. | Intrusion detection in IoT using artificial neural networks on UNSW-15 dataset | |
Yang et al. | Estimating user behavior toward detecting anomalous ratings in rating systems | |
US20070061882A1 (en) | Instance based learning framework for effective behavior profiling and anomaly intrusion detection | |
CN110445801B (zh) | 一种物联网的态势感知方法和系统 | |
Qiu et al. | Multi-view convolutional neural network for data spoofing cyber-attack detection in distribution synchrophasors | |
CN109347807B (zh) | 一种基于信任度的差异化入侵防御方法 | |
Ahmad et al. | Role of machine learning and data mining in internet security: standing state with future directions | |
Kotani et al. | Unsupervised scanning behavior detection based on distribution of network traffic features using robust autoencoders | |
Chiu et al. | Semi-supervised learning for false alarm reduction | |
He et al. | Network Security Threat Detection under Big Data by Using Machine Learning. | |
Perini et al. | Transferring the contamination factor between anomaly detection domains by shape similarity | |
Hendry et al. | Intrusion signature creation via clustering anomalies | |
Wang et al. | CPFL: An effective secure cognitive personalized federated learning mechanism for industry 4.0 | |
CN112291273B (zh) | 基于多维向量比较的页面模糊匹配实现方法 | |
CN113746780B (zh) | 基于主机画像的异常主机检测方法、装置、介质和设备 | |
Choudhary et al. | CRIDS: Correlation and regression-based network intrusion detection system for IoT | |
Tran et al. | DeepInsight-convolutional neural network for intrusion detection systems | |
Dong et al. | Traffic Characteristic Map-based Intrusion Detection Model for Industrial Internet. | |
Truong et al. | A data-driven approach for network intrusion detection and monitoring based on kernel null space | |
Tang et al. | A novel LDoS attack detection method based on reconstruction anomaly | |
Aleroud et al. | Detecting zero-day attacks using contextual relations | |
Horchulhack et al. | A stream learning intrusion detection system for concept drifting network traffic | |
Liu et al. | A Blockchain-assisted Collaborative Ensemble Learning for Network Intrusion Detection | |
Ramprasath et al. | Cloud Service Anomaly Traffic Detection Using Random Forest | |
Jia et al. | FITIC: A few-shot learning based IoT traffic classification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |