CN106503244A - 一种统一资源定位符相似度的处理方法 - Google Patents
一种统一资源定位符相似度的处理方法 Download PDFInfo
- Publication number
- CN106503244A CN106503244A CN201610981810.9A CN201610981810A CN106503244A CN 106503244 A CN106503244 A CN 106503244A CN 201610981810 A CN201610981810 A CN 201610981810A CN 106503244 A CN106503244 A CN 106503244A
- Authority
- CN
- China
- Prior art keywords
- url
- similarity
- result
- carried out
- similarity measure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种统一资源定位符相似度的处理方法,包括如下内容:无效参数过滤、特征字检测、统一资源定位符自动结构化、统一资源定位符相似度计算和相似度结果说明。本发明将一个完整的统一资源定位符进行有限程度的简化并根据其特点拆分为若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有将一个统一资源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低算法逻辑复杂度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行分析,从而确认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。
Description
技术领域
本发明属于软件技术开发领域,尤其涉及一种统一资源定位符相似度的处理方法。
背景技术
在很多基于互联网信息的计算服务中,经常需要对数据的有效性进行识别,通过各种手段,过滤掉其中的数据“杂质”或者“无效”、“失效”的数据内容。部分来源于互联网的信息,在很多时候,我们主动访问的统一资源定位符地址(起始统一资源定位符)和最终提供数据的统一资源定位符地址(终止统一资源定位符)是有区别的,例如:对方站点路径重新规划、过期的统一资源定位符或涉嫌违规的文章,站点服务异常等等。
鉴于上述情况的存在,在互联网信息的分析过程中,对比数据来源的统一资源定位符(URL)对于数据有效性分析具有重要的参考价值。由于统一资源定位符的简单、明确等特性,如果在对“正文”内容进行分析之前通过统一资源定位符进行初步筛选,会极大的减少后续数据分析过程中的软、硬件成本。
发明内容
该算法的设计目的是:通过解析统一资源定位符(URL),将其拆分为若干个数据模型进行并对最初访问的统一资源定位符和最终提供数据的统一资源定位符进行对比计算以获取统一资源定位符的相似度,进而在不分析实际内容数据的基础上评估数据是否“有效”。该算法有效性会针对多个方面的对比给出的“评分”来综合计算最终的“相似度”结果。
本发明所解决的技术问题采用以下技术方案来实现:本发明提供一种统一资源定位符相似度的处理方法,包括如下内容:
A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;
B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;
C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段的相似度结果;
D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。
E、相似度结果说明:该算法最终会得到一个0-9的相似度的评分,相似度越高则评分越高,一般情况下:7-9为“高度相似”;3-6为“无法确认”;“0-2”为“差异过大”。
本发明的有益效果为:将一个完整的统一资源定位符进行有限程度的简化并根据其特点拆分为若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有将一个统一资源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低算法逻辑复杂度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行分析,从而确认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。
在完成了算法的基本结构设计后,对于不同的对比计算,分别设计了对应的权重来对计算结果进行修正。权重的确认需要通过大量的样本计算来摸索每个步骤的差异权重。
附图说明
图1是本发明流程示意图。
具体实施方式
以下结合附图对本发明做进一步描述:一种统一资源定位符相似度的处理方法,包括如下内容:
A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;
B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;
C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段的相似度结果;
D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。相似度算法说明:
1.在终止URL中检测起始URL中分组后的内容,如果出现同样的关键字会根据其出现的位置给出一个“正面”的评分,否则给出一个“负面”的评分。
2.在起始URL中检测终止URL的分组后的内容,如果出现同样的关键字会根据其出现的位置给出一个“正面”的评分,否则给出一个“负面”的评分。
3.检测起始URL和终止URL分组后的内容中,是否出现了一般在URL中用于标识内容索引的“纯数字”信息,如果出现会根据其相似度给出给出一个“正面”的评分,否则给出一个“负面”的评分。
4.对比URL路径部分的层级,如果层级差异小于预期的数量则根据差异情况给出一个“正面”的评分,否则给出一个“负面”的评分。
5.进一步精简路径,过滤其中的特殊符号,数值等内容,通过最终获得的“文字”描述结果重复上述对比。
6.根据上述各个环节给出的评分参考URL自身复杂度计算起始URL和终止URL的相似度结果。
E、相似度结果说明:该算法最终会得到一个0-9的相似度的评分,相似度越高则评分越高,一般情况下:7-9为“高度相似”;3-6为“无法确认”;“0-2”为“差异过大”。
本发明将一个完整的统一资源定位符进行有限程度的简化并根据其特点拆分为若干个用于进行对比计算的子元素。该步骤是后续相似度计算的基础,只有将一个统一资源定位符进行合理、有效的拆分才能获得更精确的计算结果,最大化的降低算法逻辑复杂度。通过反复、大量的分析统一资源定位符样本,并针对实际产生的内容进行分析,从而确认整体算法的各个步骤,以尽可能简单,精准的获取到期待的结果。
在完成了算法的基本结构设计后,对于不同的对比计算,分别设计了对应的权重来对计算结果进行修正。权重的确认需要通过大量的样本计算来摸索每个步骤的差异权重。
利用本发明所述的技术方案,或本领域的技术人员在本发明技术方案的启发下,设计出类似的技术方案,而达到上述技术效果的,均是落入本发明的保护范围。
Claims (1)
1.一种统一资源定位符相似度的处理方法,其特征在于:包括如下内容:
A、无效参数过滤:用于在进行统一资源定位符相似度计算之前有限的减少统一资源定位符复杂对,过滤掉其中对于统一资源定位符对比计算无意义的字符;
B、特征字检测:根据已知的数据,检测提供数据的统一资源定位符中是否存在明显的异常特征字,并根据出现的位置及次数情况计算相似度评分参数;
C、统一资源定位符自动结构化:根据统一资源定位符的特性将其拆分为3个部分,包括:域名,路径,参数;之后会检查其中是否存在连字符,并对其进行进一步的分组拆分;后续的相似度计算会分别针对每个部分以及某几个部分进行综合性对比,并给出每个阶段的相似度结果;
D、统一资源定位符相似度计算:将结构化的后的起始统一资源定位符和终止统一资源定位符进行对比,比较其中的每个部分出现的位置及次数,并给出相似度结果。
E、相似度结果说明:该算法最终会得到一个0-9的相似度的评分,相似度越高则评分越高,一般情况下:7-9为“高度相似”;3-6为“无法确认”;“0-2”为“差异过大”。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610981810.9A CN106503244A (zh) | 2016-11-08 | 2016-11-08 | 一种统一资源定位符相似度的处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610981810.9A CN106503244A (zh) | 2016-11-08 | 2016-11-08 | 一种统一资源定位符相似度的处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106503244A true CN106503244A (zh) | 2017-03-15 |
Family
ID=58323719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610981810.9A Pending CN106503244A (zh) | 2016-11-08 | 2016-11-08 | 一种统一资源定位符相似度的处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503244A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679029A (zh) * | 2017-08-28 | 2018-02-09 | 昆明理工大学 | 一种高准确性英文域名相似度检测方法 |
WO2020034212A1 (zh) * | 2018-08-17 | 2020-02-20 | 华为技术有限公司 | 检测web网页安全性的方法和装置 |
CN110825947A (zh) * | 2019-10-31 | 2020-02-21 | 深圳前海微众银行股份有限公司 | Url去重方法、装置、设备与计算机可读存储介质 |
CN113783855A (zh) * | 2021-08-30 | 2021-12-10 | 北京百度网讯科技有限公司 | 站点评估方法、装置、电子设备、存储介质和程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080263103A1 (en) * | 2007-03-02 | 2008-10-23 | Mcgregor Lucas | Digital asset management system (DAMS) |
CN104281703A (zh) * | 2014-10-22 | 2015-01-14 | 小米科技有限责任公司 | 统一资源定位符url间相似度计算的方法及装置 |
CN106055574A (zh) * | 2016-05-19 | 2016-10-26 | 微梦创科网络科技(中国)有限公司 | 一种识别非法统一资源标识符url的方法与装置 |
-
2016
- 2016-11-08 CN CN201610981810.9A patent/CN106503244A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080263103A1 (en) * | 2007-03-02 | 2008-10-23 | Mcgregor Lucas | Digital asset management system (DAMS) |
CN104281703A (zh) * | 2014-10-22 | 2015-01-14 | 小米科技有限责任公司 | 统一资源定位符url间相似度计算的方法及装置 |
CN106055574A (zh) * | 2016-05-19 | 2016-10-26 | 微梦创科网络科技(中国)有限公司 | 一种识别非法统一资源标识符url的方法与装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679029A (zh) * | 2017-08-28 | 2018-02-09 | 昆明理工大学 | 一种高准确性英文域名相似度检测方法 |
WO2020034212A1 (zh) * | 2018-08-17 | 2020-02-20 | 华为技术有限公司 | 检测web网页安全性的方法和装置 |
CN110825947A (zh) * | 2019-10-31 | 2020-02-21 | 深圳前海微众银行股份有限公司 | Url去重方法、装置、设备与计算机可读存储介质 |
WO2021082938A1 (zh) * | 2019-10-31 | 2021-05-06 | 深圳前海微众银行股份有限公司 | Url去重方法、装置、设备与计算机可读存储介质 |
CN110825947B (zh) * | 2019-10-31 | 2024-03-08 | 深圳前海微众银行股份有限公司 | Url去重方法、装置、设备与计算机可读存储介质 |
CN113783855A (zh) * | 2021-08-30 | 2021-12-10 | 北京百度网讯科技有限公司 | 站点评估方法、装置、电子设备、存储介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10275407B2 (en) | Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection | |
CN106503244A (zh) | 一种统一资源定位符相似度的处理方法 | |
AU2024203337A1 (en) | Post-filtering of named entities with machine learning | |
US20170026390A1 (en) | Identifying Malware Communications with DGA Generated Domains by Discriminative Learning | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN116629275B (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN105956179B (zh) | 数据过滤方法及装置 | |
CN110602045B (zh) | 一种基于特征融合和机器学习的恶意网页识别方法 | |
CN103605691B (zh) | 用于处理社交网络中发布内容的装置和方法 | |
CN102054016A (zh) | 用于撷取及管理社群智能信息的系统及方法 | |
CN110266675A (zh) | 一种基于深度学习的xss攻击自动化检测方法 | |
US11968162B1 (en) | Message content cleansing | |
CN104142912A (zh) | 一种精确的语料类别标注方法及装置 | |
CN110427628A (zh) | 基于神经网络算法的web资产分类检测方法及装置 | |
CN106469144A (zh) | 文本相似度计算方法及装置 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN106227770A (zh) | 一种智能化的新闻网页信息抽取方法 | |
CN108683649A (zh) | 一种基于文本特征的恶意域名检测方法 | |
US20210165966A1 (en) | Systems and methods of updating computer modeled processes based on real time external data | |
CN109889471B (zh) | 结构化查询语句sql注入检测方法和系统 | |
CN108462624A (zh) | 一种垃圾邮件的识别方法、装置以及电子设备 | |
US10909144B1 (en) | Taxonomy generation with statistical analysis and auditing | |
CN111125704B (zh) | 一种网页挂马识别方法及系统 | |
CN113590421A (zh) | 日志模板提取方法、程序产品及存储介质 | |
WO2023179014A1 (zh) | 流量识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170315 |
|
WD01 | Invention patent application deemed withdrawn after publication |