CN106503244A - 一种统一资源定位符相似度的处理方法 - Google Patents

一种统一资源定位符相似度的处理方法 Download PDF

Info

Publication number
CN106503244A
CN106503244A CN201610981810.9A CN201610981810A CN106503244A CN 106503244 A CN106503244 A CN 106503244A CN 201610981810 A CN201610981810 A CN 201610981810A CN 106503244 A CN106503244 A CN 106503244A
Authority
CN
China
Prior art keywords
url
similarity
result
carried out
similarity measure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610981810.9A
Other languages
English (en)
Inventor
郭猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Mass Information Technology Ltd By Share Ltd
Original Assignee
Tianjin Mass Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Mass Information Technology Ltd By Share Ltd filed Critical Tianjin Mass Information Technology Ltd By Share Ltd
Priority to CN201610981810.9A priority Critical patent/CN106503244A/zh
Publication of CN106503244A publication Critical patent/CN106503244A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种统一资源定位符相似度的处理方法,包括如下内容:无效参数过滤、特征字检测、统一资源定位符自动结构化、统一资源定位符相似度计算和相似度结果说明。本发明将一个完整的统一资源定位符进行有限程度的简化并根据其特点拆分为若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有将一个统一资源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低算法逻辑复杂度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行分析,从而确认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。

Description

一种统一资源定位符相似度的处理方法
技术领域
本发明属于软件技术开发领域,尤其涉及一种统一资源定位符相似度的处理方法。
背景技术
在很多基于互联网信息的计算服务中,经常需要对数据的有效性进行识别,通过各种手段,过滤掉其中的数据“杂质”或者“无效”、“失效”的数据内容。部分来源于互联网的信息,在很多时候,我们主动访问的统一资源定位符地址(起始统一资源定位符)和最终提供数据的统一资源定位符地址(终止统一资源定位符)是有区别的,例如:对方站点路径重新规划、过期的统一资源定位符或涉嫌违规的文章,站点服务异常等等。
鉴于上述情况的存在,在互联网信息的分析过程中,对比数据来源的统一资源定位符(URL)对于数据有效性分析具有重要的参考价值。由于统一资源定位符的简单、明确等特性,如果在对“正文”内容进行分析之前通过统一资源定位符进行初步筛选,会极大的减少后续数据分析过程中的软、硬件成本。
发明内容
该算法的设计目的是:通过解析统一资源定位符(URL),将其拆分为若干个数据模型进行并对最初访问的统一资源定位符和最终提供数据的统一资源定位符进行对比计算以获取统一资源定位符的相似度,进而在不分析实际内容数据的基础上评估数据是否“有效”。该算法有效性会针对多个方面的对比给出的“评分”来综合计算最终的“相似度”结果。
本发明所解决的技术问题采用以下技术方案来实现:本发明提供一种统一资源定位符相似度的处理方法,包括如下内容:
A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;
B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;
C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段的相似度结果;
D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。
E、相似度结果说明:该算法最终会得到一个0-9的相似度的评分,相似度越高则评分越高,一般情况下:7-9为“高度相似”;3-6为“无法确认”;“0-2”为“差异过大”。
本发明的有益效果为:将一个完整的统一资源定位符进行有限程度的简化并根据其特点拆分为若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有将一个统一资源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低算法逻辑复杂度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行分析,从而确认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。
在完成了算法的基本结构设计后,对于不同的对比计算,分别设计了对应的权重来对计算结果进行修正。权重的确认需要通过大量的样本计算来摸索每个步骤的差异权重。
附图说明
图1是本发明流程示意图。
具体实施方式
以下结合附图对本发明做进一步描述:一种统一资源定位符相似度的处理方法,包括如下内容:
A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;
B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;
C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段的相似度结果;
D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。相似度算法说明:
1.在终止URL中检测起始URL中分组后的内容,如果出现同样的关键字会根据其出现的位置给出一个“正面”的评分,否则给出一个“负面”的评分。
2.在起始URL中检测终止URL的分组后的内容,如果出现同样的关键字会根据其出现的位置给出一个“正面”的评分,否则给出一个“负面”的评分。
3.检测起始URL和终止URL分组后的内容中,是否出现了一般在URL中用于标识内容索引的“纯数字”信息,如果出现会根据其相似度给出给出一个“正面”的评分,否则给出一个“负面”的评分。
4.对比URL路径部分的层级,如果层级差异小于预期的数量则根据差异情况给出一个“正面”的评分,否则给出一个“负面”的评分。
5.进一步精简路径,过滤其中的特殊符号,数值等内容,通过最终获得的“文字”描述结果重复上述对比。
6.根据上述各个环节给出的评分参考URL自身复杂度计算起始URL和终止URL的相似度结果。
E、相似度结果说明:该算法最终会得到一个0-9的相似度的评分,相似度越高则评分越高,一般情况下:7-9为“高度相似”;3-6为“无法确认”;“0-2”为“差异过大”。
本发明将一个完整的统一资源定位符进行有限程度的简化并根据其特点拆分为若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有将一个统一资源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低算法逻辑复杂度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行分析,从而确认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。
在完成了算法的基本结构设计后,对于不同的对比计算,分别设计了对应的权重来对计算结果进行修正。权重的确认需要通过大量的样本计算来摸索每个步骤的差异权重。
利用本发明所述的技术方案,或本领域的技术人员在本发明技术方案的启发下,设计出类似的技术方案,而达到上述技术效果的,均是落入本发明的保护范围。

Claims (1)

1.一种统一资源定位符相似度的处理方法,其特征在于:包括如下内容:
A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;
B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;
C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段的相似度结果;
D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。
E、相似度结果说明:该算法最终会得到一个0-9的相似度的评分,相似度越高则评分越高,一般情况下:7-9为“高度相似”;3-6为“无法确认”;“0-2”为“差异过大”。
CN201610981810.9A 2016-11-08 2016-11-08 一种统一资源定位符相似度的处理方法 Pending CN106503244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610981810.9A CN106503244A (zh) 2016-11-08 2016-11-08 一种统一资源定位符相似度的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610981810.9A CN106503244A (zh) 2016-11-08 2016-11-08 一种统一资源定位符相似度的处理方法

Publications (1)

Publication Number Publication Date
CN106503244A true CN106503244A (zh) 2017-03-15

Family

ID=58323719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610981810.9A Pending CN106503244A (zh) 2016-11-08 2016-11-08 一种统一资源定位符相似度的处理方法

Country Status (1)

Country Link
CN (1) CN106503244A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679029A (zh) * 2017-08-28 2018-02-09 昆明理工大学 一种高准确性英文域名相似度检测方法
WO2020034212A1 (zh) * 2018-08-17 2020-02-20 华为技术有限公司 检测web网页安全性的方法和装置
CN110825947A (zh) * 2019-10-31 2020-02-21 深圳前海微众银行股份有限公司 Url去重方法、装置、设备与计算机可读存储介质
CN113783855A (zh) * 2021-08-30 2021-12-10 北京百度网讯科技有限公司 站点评估方法、装置、电子设备、存储介质和程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080263103A1 (en) * 2007-03-02 2008-10-23 Mcgregor Lucas Digital asset management system (DAMS)
CN104281703A (zh) * 2014-10-22 2015-01-14 小米科技有限责任公司 统一资源定位符url间相似度计算的方法及装置
CN106055574A (zh) * 2016-05-19 2016-10-26 微梦创科网络科技(中国)有限公司 一种识别非法统一资源标识符url的方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080263103A1 (en) * 2007-03-02 2008-10-23 Mcgregor Lucas Digital asset management system (DAMS)
CN104281703A (zh) * 2014-10-22 2015-01-14 小米科技有限责任公司 统一资源定位符url间相似度计算的方法及装置
CN106055574A (zh) * 2016-05-19 2016-10-26 微梦创科网络科技(中国)有限公司 一种识别非法统一资源标识符url的方法与装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679029A (zh) * 2017-08-28 2018-02-09 昆明理工大学 一种高准确性英文域名相似度检测方法
WO2020034212A1 (zh) * 2018-08-17 2020-02-20 华为技术有限公司 检测web网页安全性的方法和装置
CN110825947A (zh) * 2019-10-31 2020-02-21 深圳前海微众银行股份有限公司 Url去重方法、装置、设备与计算机可读存储介质
WO2021082938A1 (zh) * 2019-10-31 2021-05-06 深圳前海微众银行股份有限公司 Url去重方法、装置、设备与计算机可读存储介质
CN110825947B (zh) * 2019-10-31 2024-03-08 深圳前海微众银行股份有限公司 Url去重方法、装置、设备与计算机可读存储介质
CN113783855A (zh) * 2021-08-30 2021-12-10 北京百度网讯科技有限公司 站点评估方法、装置、电子设备、存储介质和程序产品

Similar Documents

Publication Publication Date Title
US10275407B2 (en) Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection
CN106503244A (zh) 一种统一资源定位符相似度的处理方法
AU2024203337A1 (en) Post-filtering of named entities with machine learning
US20170026390A1 (en) Identifying Malware Communications with DGA Generated Domains by Discriminative Learning
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
CN105956179B (zh) 数据过滤方法及装置
CN110602045B (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN103605691B (zh) 用于处理社交网络中发布内容的装置和方法
CN102054016A (zh) 用于撷取及管理社群智能信息的系统及方法
CN110266675A (zh) 一种基于深度学习的xss攻击自动化检测方法
US11968162B1 (en) Message content cleansing
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN110427628A (zh) 基于神经网络算法的web资产分类检测方法及装置
CN106469144A (zh) 文本相似度计算方法及装置
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN106227770A (zh) 一种智能化的新闻网页信息抽取方法
CN108683649A (zh) 一种基于文本特征的恶意域名检测方法
US20210165966A1 (en) Systems and methods of updating computer modeled processes based on real time external data
CN109889471B (zh) 结构化查询语句sql注入检测方法和系统
CN108462624A (zh) 一种垃圾邮件的识别方法、装置以及电子设备
US10909144B1 (en) Taxonomy generation with statistical analysis and auditing
CN111125704B (zh) 一种网页挂马识别方法及系统
CN113590421A (zh) 日志模板提取方法、程序产品及存储介质
WO2023179014A1 (zh) 流量识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170315

WD01 Invention patent application deemed withdrawn after publication