CN105975526A - 一种url链接有效性的验证方法 - Google Patents

一种url链接有效性的验证方法 Download PDF

Info

Publication number
CN105975526A
CN105975526A CN201610280958.XA CN201610280958A CN105975526A CN 105975526 A CN105975526 A CN 105975526A CN 201610280958 A CN201610280958 A CN 201610280958A CN 105975526 A CN105975526 A CN 105975526A
Authority
CN
China
Prior art keywords
url link
judge
browser
network request
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610280958.XA
Other languages
English (en)
Inventor
钮艳
杜翠兰
项菲
杨博
易立
佟玲玲
李鹏霄
刘晓辉
张琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201610280958.XA priority Critical patent/CN105975526A/zh
Publication of CN105975526A publication Critical patent/CN105975526A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种URL链接有效性的验证方法。该方法包括:向待验证的URL链接发送网络请求,根据网络请求状态返回码判定网络请求是否访问成功;当访问失败时,直接判定URL链接失效;当访问成功时,调用浏览器,模拟用户访问过程,并根据浏览器的渲染结果判定URL链接是否有效。本发明将待验证的URL链接通过网络请求返回状态码对URL进行粗过滤,然后在根据浏览器的渲染结果对URL链接进行更为准确的判断。通过将两者相结合的方式,可提升整个验证过程的验证效率、减小系统开销,同时保证了验证结果的准确性。

Description

一种URL链接有效性的验证方法
技术领域
本发明涉及互联网应用技术领域,尤其涉及一种URL链接有效性的验证方法。
背景技术
统一资源定位符(Uniform Resource Locator)是对可以从互联网上获取资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
互联网上的每个文件都有一个唯一的URL。随着互联网的迅速发展,URL数量也呈现爆炸式的增长,如2012年Google公司发布的数据显示,Google独立URL索引数量就已经超过了1万亿。实际上,并非每个URL都指向独立的页面。URL链接很可能因网站过期、Web应用服务器硬件或软件故障等问题而导致链接失效。因此,如何筛选出失效的URL,减小失效URL所占内存空间,就成为互联网应用技术领域一个很重要的基础需求。
发明内容
本发明提供一种URL链接有效性的验证方法,用以解决现有技术中系统存在过多失效URL,致使系统内存降低的问题。
为实现上述发明目的,本发明采用下述的技术方案:
依据本发明的一个方面,提供一种URL链接有效性的验证方法,包括:
向待验证的URL链接发送网络请求,根据网络请求状态返回码判定所述网络请求是否访问成功;
当访问失败时,直接判定所述URL链接失效;当访问成功时,调用浏览器,模拟用户访问过程,并根据浏览器的渲染结果判定所述URL链接是否有效。
进一步地,所述根据网络请求状态返回码判定所述网络请求是否访问成功,包括:
判断所述状态返回码是否在预设阈值范围内,若是,则判定访问成功;否则,判定访问失败。
进一步地,所述根据浏览器的渲染结果判定所述URL链接是否有效,包括:
根据所述浏览器显示区域是否为空白判断所述URL链接是否有效;和/或,
根据网页标题过滤方法判定所述URL链接是否有效;和/或,
根据浏览器显示区域的内容判定所述所述URL链接是否有效。
进一步地,根据所述浏览器显示区域是否为空白判断所述URL链接是否有效,包括:
获取浏览器显示区域的图片信息;
当检测到所述图片信息为空白信息时,则判定所述URL链接失效。
进一步地,通过像素比对的方式判断所述图片信息为空白信息。
进一步地,所述根据网页标题过滤方法判定所述URL链接是否有效,包括:
获取浏览器显示区域的网页标题;
当所述网页标题在预设的异常标题库中时,则判定所述URL链接失效。
进一步地,根据浏览器显示区域的内容判定所述所述URL链接是否有效,包括:
获取浏览器显示区域的图片信息;
当所述图片信息与预设的图片信息不一致,判定所述URL链接失效。
进一步地,根据图片相似度比对算法判断述图片信息与预设的图片信息是否一致。
进一步地,所述图片相似度比对算法采用逐像素比对法、直方图特征比对法、汉明距离比对法或者矩阵特征值比对法中的任一种。
本发明具有以下有益效果:
本发明所提供的URL链接有效性的验证方法,基于两个阶段对URL链接的有效性进行验证:首先将待验证的URL链接通过网络请求返回状态码对URL进行粗过滤,然后再根据浏览器的渲染结果对URL链接进行更为准确的判断。通过将两者相结合的方式,可提升整个验证过程的验证效率、减小系统开销,同时保证了验证结果的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中URL链接有效性的验证方法的流程图;
图2为本发明实施例中基于浏览器的渲染结果验证URL链接有效性的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例中所提供的URL链接有效性的验证方法,包括如下步骤:
步骤1,向待验证的URL链接发送网络请求,根据网络请求状态返回码判定网络请求是否访问成功;
步骤2,当访问失败时,直接判定URL链接失效;当访问成功时,调用浏览器,模拟用户访问过程,并根据浏览器的渲染结果判定URL链接是否有效。
本发明实施例中基于两个阶段对URL链接的有效性进行验证,首先将待验证的URL链接通过网络请求返回状态码对URL进行粗过滤,然后再根据浏览器的渲染结果对URL链接进行更为准确的判断。通过将两者相结合的方式,可提升整个验证过程的验证效率、减小系统开销,同时保证了验证结果的准确性。
下面结合具体的实施例对本发明的具体实施过程进行详细说明。
步骤101,建立一个HTTP客户端,并向待验证URL链接发送HTTP GET请求。
步骤102,根据返回的HTTP状态码判定URL链接的有效性。
具体地,若该HTTP状态码在预设阈值范围内,本发明实施例中阈值范围设置为200~299之间,则表示网络请求访问成功,可以进入步骤2进行模拟人工交互的过程。若该HTTP状态码在预设阈值范围之外,则表示网络请求访问失败,则判定URL链接失效。
当访问成功时,调用浏览器,模拟用户访问过程,并根据浏览器的渲染结果判定URL链接是否有效,具体包括如下步骤:
步骤201,启动浏览器应用程序,并采用模拟人机交互的方式在浏览器地址栏中输入URL链接。
步骤202,确定浏览器显示区域是否空白。
在该步骤中,预先设定网络访问时间,在即将超时时,抓取浏览器显示区域的截图,并通过像素比对的方式判断浏览器显示区域是否空白,若为空白,则表示加载URL链接内容失败,判定URL链接失效。若不是空白,则表示浏览器加载内容,并根据步骤203进一步判定URL链接的有效性。
步骤203,通过网页标题过滤机制检测URL链接是否有效。
在实际应用中,URL加载失败时,浏览器显示区域中的网页标题可能为“无法访问此页”、“无法访问此网页”、“连接被重置”或“404Not Found”等信息,也可能会受运营商网络设置、DNS设置等影响网页标题为“中国电信”、“域名纠错系统”等链接失败信息。
针对上述情况,本发明实施例中需要预先建立异常标题库,将可能的异常标题纳入标题库,并不断更新完善标题库。在进行验证时,获取显示区域的网页标题信息,并与预先建立的异常标题库进行比对,若该网页标题处于异常标题库中,则判定URL链接失效;否则根据步骤204进一步判断URL链接的有效性。
步骤204,将显示区域的图片信息与预设的图片信息进行比对,判定URL链接是否有效。
具体地,深入比较URL页面内容,需将抓取的浏览器显示区域图片与预设的URL链接加载正确内容的图片信息进行对比。在进行图片比对时,可采用图片相似度比对算法,例如,逐像素比对、直方图特征比对、汉明距离比对或矩阵特征值比对等方法。在对比结果一致时,则可直接判定URL链接的有效性,否则,则判定URL链接失效。
基于上述可知,步骤204通过图片相似度对比算法进行URL有效性的判断,判定结果虽然更为精确,但是整个系统的开销是非常大的,不能进行快速高效的验证。因此本发明的实施例中,优选采用需预先通过步骤202和步骤203对URL进行粗略验证,再通过步骤204进行精确验证,这样可以有效降低整个检测过程的系统开销,同时保证了验证的效率和准确性。
本发明实施例中优选采用步骤202、步骤203和步骤204三种验证方法依次对浏览器的渲染结果进行逐一验证。当然,也可以采用三种验证方法中的任意一种或多种组合的实施方案,例如,通过步骤202或者步骤203或者步骤204直接进行URL验证,或者通过步骤202及步骤204的结合进行验证,或者通过步骤203及步骤204的结合进行验证、或者通过步骤202及步骤203的结合进行验证。对于每个实施方法的具体过程,这里不再赘述,可以参考上述对于每个步骤的介绍。
综上所述,本发明所提供的URL链接有效性的验证方法,基于两个阶段对URL链接的有效性进行验证:首先将待验证的URL链接通过网络请求返回状态码对URL进行粗过滤,然后再根据浏览器的渲染结果对URL链接进行更为准确的判断。通过将两者相结合的方式,可提升整个验证过程的验证效率、减小系统开销,同时保证了验证结果的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
虽然通过实施例描述了本申请,本领域的技术人员知道,本申请有许多变形和变化而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种URL链接有效性的验证方法,其特征在于,包括:
向待验证的URL链接发送网络请求,根据网络请求状态返回码判定所述网络请求是否访问成功;
当访问失败时,直接判定所述URL链接失效;当访问成功时,调用浏览器,模拟用户访问过程,并根据浏览器的渲染结果判定所述URL链接是否有效。
2.如权利要求1所述的方法,其特征在于,所述根据网络请求状态返回码判定所述网络请求是否访问成功,包括:
判断所述状态返回码是否在预设阈值范围内,若是,则判定访问成功;否则,判定访问失败。
3.如权利要求1所述的方法,其特征在于,所述根据浏览器的渲染结果判定所述URL链接是否有效,包括:
根据所述浏览器显示区域是否为空白判断所述URL链接是否有效;和/或,
根据网页标题过滤方法判定所述URL链接是否有效;和/或,
根据浏览器显示区域的内容判定所述所述URL链接是否有效。
4.如权利要求3所述的方法,其特征在于,根据所述浏览器显示区域是否为空白判断所述URL链接是否有效,包括:
获取浏览器显示区域的图片信息;
当检测到所述图片信息为空白信息时,则判定所述URL链接失效。
5.如权利要求4所述的方法,其特征在于,通过像素比对的方式判断所述图片信息为空白信息。
6.如权利要求3所述的方法,其特征在于,所述根据网页标题过滤方法判定所述URL链接是否有效,包括:
获取浏览器显示区域的网页标题;
当所述网页标题在预设的异常标题库中时,则判定所述URL链接失效。
7.如权利要求3所述的方法,其特征在于,根据浏览器显示区域的内容判定所述所述URL链接是否有效,包括:
获取浏览器显示区域的图片信息;
当所述图片信息与预设的图片信息不一致,判定所述URL链接失效。
8.如权利要求7所述的方法,其特征在于,根据图片相似度比对算法判断述图片信息与预设的图片信息是否一致。
9.如权利要求8所述的方法,其特征在于,所述图片相似度比对算法采用逐像素比对法、直方图特征比对法、汉明距离比对法或者矩阵特征值比对法中的任一种。
CN201610280958.XA 2016-04-29 2016-04-29 一种url链接有效性的验证方法 Pending CN105975526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610280958.XA CN105975526A (zh) 2016-04-29 2016-04-29 一种url链接有效性的验证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610280958.XA CN105975526A (zh) 2016-04-29 2016-04-29 一种url链接有效性的验证方法

Publications (1)

Publication Number Publication Date
CN105975526A true CN105975526A (zh) 2016-09-28

Family

ID=56994211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610280958.XA Pending CN105975526A (zh) 2016-04-29 2016-04-29 一种url链接有效性的验证方法

Country Status (1)

Country Link
CN (1) CN105975526A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106961443A (zh) * 2017-04-26 2017-07-18 杭州迪普科技股份有限公司 一种报文的过滤方法及装置
CN107729395A (zh) * 2017-09-20 2018-02-23 杭州安恒信息技术有限公司 一种冗余页面的发现方法
CN107979576A (zh) * 2016-10-25 2018-05-01 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN108207119A (zh) * 2016-10-17 2018-06-26 谷歌有限责任公司 对损坏网络连接的基于机器学习的识别
CN108600866A (zh) * 2018-05-18 2018-09-28 电子科技大学 一种网络音视频可播放性高效自动判别方法
CN109033399A (zh) * 2018-08-02 2018-12-18 挖财网络技术有限公司 一种检测链接有效性的方法
CN110351162A (zh) * 2019-05-30 2019-10-18 平安银行股份有限公司 页面可用性监控方法、装置、计算机设备及存储介质
CN111130993A (zh) * 2019-11-22 2020-05-08 北京知道创宇信息技术股份有限公司 一种信息提取的方法及装置、可读存储介质
CN113411332A (zh) * 2021-06-18 2021-09-17 杭州安恒信息技术股份有限公司 一种cors漏洞检测方法、装置、设备及介质
CN113438295A (zh) * 2021-06-22 2021-09-24 康键信息技术(深圳)有限公司 容器组地址分配方法、装置、设备及存储介质
CN115982440A (zh) * 2022-12-28 2023-04-18 唯品会(广州)软件有限公司 一种验证网页链接有效性的方法、装置及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1497478A (zh) * 2002-10-17 2004-05-19 日本电气株式会社 用于检验超级文本的装置、方法和计算机程序产品
US20060265493A1 (en) * 2005-05-20 2006-11-23 Richard Brindley Fraud prevention and detection for online advertising
CN102663062A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种处理搜索结果中无效链接的方法及装置
CN103198062A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 一种监控页面死链和js错误的方法及系统
CN104036053A (zh) * 2014-07-07 2014-09-10 广州金山网络科技有限公司 一种无效链接地址处理方法及装置
CN104317938A (zh) * 2014-10-31 2015-01-28 北京国双科技有限公司 网页链接有效性验证方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1497478A (zh) * 2002-10-17 2004-05-19 日本电气株式会社 用于检验超级文本的装置、方法和计算机程序产品
US20060265493A1 (en) * 2005-05-20 2006-11-23 Richard Brindley Fraud prevention and detection for online advertising
CN103198062A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 一种监控页面死链和js错误的方法及系统
CN102663062A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种处理搜索结果中无效链接的方法及装置
CN104036053A (zh) * 2014-07-07 2014-09-10 广州金山网络科技有限公司 一种无效链接地址处理方法及装置
CN104317938A (zh) * 2014-10-31 2015-01-28 北京国双科技有限公司 网页链接有效性验证方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
霍根: "《Web开发秘方》", 31 July 2013, 华中科技大学出版社 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108207119A (zh) * 2016-10-17 2018-06-26 谷歌有限责任公司 对损坏网络连接的基于机器学习的识别
US11361046B2 (en) 2016-10-17 2022-06-14 Google Llc Machine learning classification of an application link as broken or working
CN108207119B (zh) * 2016-10-17 2021-06-01 谷歌有限责任公司 对损坏网络连接的基于机器学习的识别
CN107979576B (zh) * 2016-10-25 2020-08-11 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN107979576A (zh) * 2016-10-25 2018-05-01 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN106961443A (zh) * 2017-04-26 2017-07-18 杭州迪普科技股份有限公司 一种报文的过滤方法及装置
CN107729395A (zh) * 2017-09-20 2018-02-23 杭州安恒信息技术有限公司 一种冗余页面的发现方法
CN107729395B (zh) * 2017-09-20 2020-11-24 杭州安恒信息技术股份有限公司 一种冗余页面的发现方法
CN108600866A (zh) * 2018-05-18 2018-09-28 电子科技大学 一种网络音视频可播放性高效自动判别方法
CN109033399B (zh) * 2018-08-02 2021-06-18 挖财网络技术有限公司 一种检测链接有效性的方法
CN109033399A (zh) * 2018-08-02 2018-12-18 挖财网络技术有限公司 一种检测链接有效性的方法
CN110351162A (zh) * 2019-05-30 2019-10-18 平安银行股份有限公司 页面可用性监控方法、装置、计算机设备及存储介质
CN111130993A (zh) * 2019-11-22 2020-05-08 北京知道创宇信息技术股份有限公司 一种信息提取的方法及装置、可读存储介质
CN111130993B (zh) * 2019-11-22 2022-03-29 北京知道创宇信息技术股份有限公司 一种信息提取的方法及装置、可读存储介质
CN113411332A (zh) * 2021-06-18 2021-09-17 杭州安恒信息技术股份有限公司 一种cors漏洞检测方法、装置、设备及介质
CN113438295A (zh) * 2021-06-22 2021-09-24 康键信息技术(深圳)有限公司 容器组地址分配方法、装置、设备及存储介质
CN115982440A (zh) * 2022-12-28 2023-04-18 唯品会(广州)软件有限公司 一种验证网页链接有效性的方法、装置及相关设备

Similar Documents

Publication Publication Date Title
CN105975526A (zh) 一种url链接有效性的验证方法
CN101808093B (zh) 一种对web安全进行自动化检测的系统和方法
US20190334947A1 (en) Method and device for classifying uniform resource locators based on content in corresponding websites
CN104954372B (zh) 一种钓鱼网站的取证与验证方法及系统
CN105553917B (zh) 一种网页漏洞的检测方法和系统
US20130263263A1 (en) Web element spoofing prevention system and method
US20160241588A1 (en) Methods for determining cross-site scripting and related vulnerabilities in applications
CN103297394B (zh) 网站安全检测方法和装置
CN110035075A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN106101145A (zh) 一种网站漏洞检测方法及装置
CN103647678A (zh) 一种网站漏洞在线验证方法及装置
CN107908946A (zh) 图片验证码生成方法、图片验证码、验证方法及装置
CN111666573A (zh) 网站系统漏洞等级评估的方法、装置和计算机设备
CN111130845A (zh) 基于视觉信息的网站页面IPv6支持度测试方法及装置
CN102664872B (zh) 用于检测和防止对计算机网络中服务器攻击的方法
CN111783159A (zh) 网页篡改的验证方法、装置、计算机设备和存储介质
CN107590236A (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN103870752B (zh) 一种用于检测Flash XSS漏洞的方法、装置与设备
CN105404816A (zh) 基于内容的漏洞检测方法及装置
CN110378886B (zh) 图像比对方法、图像比对装置、电子设备和介质
CN104219251B (zh) 获取网站数据的方法和装置
CN106097403B (zh) 一种基于图像曲线推算的网络受保护指数数据的获取方法
CN102801740A (zh) 木马病毒的阻止方法及装置
CN105337946A (zh) 网页防伪验证的方法和装置
CN111767542A (zh) 一种越权检测方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160928

RJ01 Rejection of invention patent application after publication