CN104158697B - 一种死链检测方法及装置 - Google Patents
一种死链检测方法及装置 Download PDFInfo
- Publication number
- CN104158697B CN104158697B CN201310493452.3A CN201310493452A CN104158697B CN 104158697 B CN104158697 B CN 104158697B CN 201310493452 A CN201310493452 A CN 201310493452A CN 104158697 B CN104158697 B CN 104158697B
- Authority
- CN
- China
- Prior art keywords
- dead chain
- url
- website
- dead
- catalogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
本发明适用于网络技术领域,提供了一种死链检测方法及装置,包括:根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样,所述死链条件包括目录死链条件和站点死链条件;对随机采样得到的url进行死链检测,得到检测结果;当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链。本发明减少了检测量,解决了在互联网链接数量巨大的情况下,现有死链的检测方式难以快速有效地检测出海量的死链信息,使得大型网站或搜索引擎难以及时发现所提供的网页链接中存在死链的问题,提升了检测的效率。
Description
技术领域
本发明属于网络技术领域,尤其涉及一种死链检测方法及装置。
背景技术
随着互联网的快速发展,网站越来越多,与此同时。当动态网站或网页的数据库的路径变更时,之前的网络链接无法连接到目标站点,也就是造成死链,此时,当用户的输入信息与死链的相关信息相匹配时,该死链将被提供给用户,造成用户获得了死链的情况,耗费了用户的时间。
然而,由于现有技术中死链的检测方式,是将单个站点下的所有网络链接进行检测的,此时存在两个方面的问题,一方面是自身的机器、带宽成本很高的问题,另一方面是被检测网站带来很大的访问压力的问题,因此在互联网链接数量巨大的情况下,现有技术中死链的检测方式难以快速有效地检测出海量的死链信息,使得大型网站或搜索引擎难以及时发现所提供的网页链接中存在死链。
发明内容
本发明实施例的目的在于提供一种死链检测方法,旨在解决在互联网链接数量巨大的情况下,现有死链的检测方式难以快速有效地检测出海量的死链信息,使得大型网站或搜索引擎难以及时发现所提供的网页链接中存在死链的问题。
本发明实施例是这样实现的,一种死链检测方法,包括:
根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样,所述死链条件包括目录死链条件和站点死链条件;
对随机采样得到的url进行死链检测,得到检测结果;
当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链。
本发明实施例的另一目的在于提供一种死链检测装置,包括:
采样单元,用于根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样,所述死链条件包括目录死链条件和站点死链条件;
检测单元,用于对随机采样得到的url进行死链检测,得到检测结果;
判断单元,用于当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链。
在本发明实施例中,根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样;对随机采样得到的url进行死链检测,得到检测结果;当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链,减少了检测量,解决了在互联网链接数量巨大的情况下,现有死链的检测方式难以快速有效地检测出海量的死链信息,使得大型网站或搜索引擎难以及时发现所提供的网页链接中存在死链的问题,提升了检测的效率。
附图说明
图1是本发明实施例提供的死链检测方法的实现流程图;
图2是本发明实施例提供的在实际应用中一种死链检测装置的实施流程图;
图3是本发明实施例提供的死链检测装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的一种死链检测方法的实现流程,详述如下:
在步骤S101中,根据预设的死链条件,对目录或站点下的网页地址url进行随机采样,所述死链条件包括目录死链条件和站点死链条件;
在本实施例中,目录死链条件为从一个目录(portal)中随机抽取N个url,N为大于等于预设阈值的整数,经下载后若全部为死链的条件。其中,预设数量可以为用户自设,也可以为系统默认,优选地,预设阈值为10。
在本实施例中,站点死链条件为从一个站点中随机抽取N个不同的目录下的url,N为大于等于预设阈值的整数,再加上首页进行检测,经下载后若全部为死链条件。其中,预设数量可以为用户自设,也可以为系统默认,优选地,预设阈值为10。
在本实施例中,对目录或站点下的网页地址url进行随机采样,具体地,可在搜索引擎、大型网站服务器端根据用户的搜索日志、搜索引擎爬虫的抓取日志,抽取出目录/portal,站点列表,对目录或站点下的网页地址url进行随机采样,得到后续进行检测是否为死链的样品url。
其中,用户搜索日志,记录了用户每次在搜索引擎中的搜索行为,包括搜索的问题,搜索引擎展现的结果,以及用户点击浏览了哪些url。
爬虫日志,记录了搜索引擎在互联网上抓取到的大量数据,以及每个url的下载状态。
在本实施例中,当站点、目录的样本没有达到预设阀值时,还需要从url库中抽样补充,最终得到每个目录/portal,站点需要检测的url列表。
作为本发明的一个优选实施例,对目录或站点下的网页地址url进行随机采样,包括:
获取关注度高的目录或站点,根据预设的死链条件,对关注度高的目录或站点下的网页地址url进行随机采样。
在本实施例中,关注度高目录或站点表示点击率率或排名较前的目录或站点。可在用户搜索日志或者爬虫日志中,对点击率率或排名较前的目录或站点进行随机采样,得到具有代表性的url。
在本实施例中,为便于说明,以搜索引擎为例,利用搜索引擎日常的抓取行为,获取关注度高的目录或站点,根据经验,搜索引擎具有很高的数据热点效应,即在最近一段时间内经常被展现、点击的数据,在未来一段时间内也会经常被展现、点击。这部分数据具有质量高、数据量小的特点,如果它们是死链,对用户的伤害较大,是检测优先级最高的一部分数据源。
在本实施例中,优先对用户关注的搜索结果热点数据进行检测,以使后续可根据死链条件对搜索引擎第一页的url进行死链检测,节省检测时间,提高死链检测效率和搜索质量。
作为本发明的一个优选实施例,当预设的死链条件为目录死链条件时,对目录下的网页地址url进行随机采样。
在本实施例中,当预设的死链条件为目录死链条件时,需要抽取该目录/portal下的预设数量的url,预设数量可以为用户自设,也可以为系统默认,优选地,预设数量为10。
作为本发明的一个优选实施例,当预设的死链条件为站点死链条件时,对站点下的不同目录的网页地址url进行随机采样,并获取所述站点的首页的url。
在本实施例中,在站点下的不同目录的网页地址url进行随机采样,并且每个目录下采样预设数量的url,并获取所述站点的首页的url,预设数量可以为用户自设,也可以为系统默认,优选地,预设数量为10。
在本实施例中,对站点下的不同目录的网页地址url进行随机采样,并获取所述站点的首页的url,使得后续进行死链检测时,若检测结果中站点下的不同目录的url和站点的首页的url均为死链,则表示该站点下的url均为死链。
在步骤S102中,对随机采样得到的url进行死链检测,得到检测结果;
在本实施例中,把待检测的url进行下载,得到他们的http状态码,据此判断是否为死链。判断是否为死链为现在技术,在此不做赘述。
在步骤S103中,当所述检测结果中的url均为死链时,表示所述目录下的url均为死链或所述站点下的url均为死链。
在本实施例中,检测结果中的url均为死链时,表示所述目录下的url均为死链或所述站点下的url均为死链,例如,当预设的死链条件为站点死链条件时,对站点下的不同目录的网页地址url进行随机采样,并获取所述站点的首页的url,此时,若检测结果中站点下的不同目录的url和站点的首页的url均为死链时,表示该站点下的url均为死链。
作为本发明的一个优选实施例,当所述检测结果中的url不均为死链时,获取死链的数量,根据死链的数量和检测结果中url的数量,生成死链比例;
当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑死链规则,生成待检测的URL列表,所述可疑死链规则为预设时间内其目录或站点的死链占检测结果中url的比例超过预设阀值的规则。
在本实施例中,获取预设时间内其目录或站点的死链的数量,以及检测结果中的url的数量,根据死链的数量和url的数量得到死链占检测结果中url的比例,从而生成死链比例。
在本实施例中,当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑死链规则,预设阀值可以为用户自设,也可以为系统默认,优选地,预设阀值为80%。
在本实施例中,因为搜索引擎的爬虫系统都是按照站点独立调度的,也即每个站点每天都会下载url(除非站点主动通过robots文件明确告诉搜索引擎爬虫不要采集),对于死链或不稳定的站点,其下载状态为死链的比例会非常高。当把一段时间内下载过的url状态汇总到目录/portal、站点,若其目录/portal、站点的死链比例超过预设阀值时,则认为是符合可疑死链规则。
在本实施例中,可生成待检测的URL列表,便于后续经过预设时间再次进行检测。其中,预设时间可以为用户自设,也可以为系统默认,在此不做限制。
参考图2,图2是本发明实施例提供的在实际应用中一种死链检测装置的实施流程图。
图3示出了本发明实施例提供的一种死链检测装置的结构框图,该装置可以运行于的各种终端,包括但不限于服务器、计算机等。为了便于说明,仅示出了与本实施例相关的部分。
参照图3,该死链检测装置,包括:
采样单元31,用于根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样,所述死链条件包括目录死链条件和站点死链条件;
检测单元32,用于对随机采样得到的url进行死链检测,得到检测结果;
判断单元33,用于当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链。
进一步地,在该装置中,所述采样单元31,包括:
获取子单元,用于获取关注度高的目录或者站点,根据预设的死链条件,对关注度高的目录或者站点下的网页地址url进行随机采样。
进一步地,在该装置中,所述采样单元31,还包括:
第一采样子单元,用于当预设的死链条件为目录死链条件时,对目录下的网页地址url进行随机采样。
进一步地,在该装置中,所述采样单元31,还包括:
第二采样子单元,用于当预设的死链条件为站点死链条件时,对站点下不同目录的网页地址url进行随机采样,并获取所述站点的首页的url。
进一步地,在该装置中,还包括:
获取单元,用于当所述检测结果中的url不均为死链时,获取死链的数量,根据死链的数量和检测结果中url的数量,生成死链比例;
生成单元,用于当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑死链规则,生成待检测的URL列表,所述可疑死链规则为预设时间内其目录或站点的死链占检测结果中url的比例超过预设阀值的规则。
本发明实施例提供的装置可以应用在前述对应的方法实施例中,详情参见上述实施例的描述,在此不再赘述。
在本发明实施例中,根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样;对随机采样得到的url进行死链检测,得到检测结果;当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链,减少了检测量,解决了在互联网链接数量巨大的情况下,现有死链的检测方式难以快速有效地检测出海量的死链信息,使得大型网站或搜索引擎难以及时发现所提供的网页链接中存在死链的问题,提升了检测的效率
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种死链检测方法,其特征在于,包括:
根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样,所述死链条件包括目录死链条件和站点死链条件;
对随机采样得到的url进行死链检测,得到检测结果;
当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链;
当所述检测结果中的url不均为死链时,获取死链的数量,根据死链的数量和检测结果中url的数量,生成死链比例;
当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑死链规则,生成待检测的URL列表,所述可疑死链规则为预设时间内其目录或站点的死链占检测结果中url的比例超过预设阀值的规则。
2.如权利要求1所述的方法,其特征在于,所述对目录或者站点下的网页地址url进行随机采样,包括:
获取关注度高的目录或者站点,根据预设的死链条件,对关注度高的目录或者站点下的网页地址url进行随机采样。
3.如权利要求1或2所述的方法,其特征在于,所述对目录或者站点下的网页地址url进行随机采样,还包括:
当预设的死链条件为目录死链条件时,对目录下的网页地址url进行随机采样。
4.如权利要求1或2所述的方法,其特征在于,所述对目录或者站点下的网页地址url进行随机采样,还包括:
当预设的死链条件为站点死链条件时,对站点下不同目录的网页地址url进行随机采样,并获取所述站点的首页的url。
5.一种死链检测装置,其特征在于,包括:
采样单元,用于根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样,所述死链条件包括目录死链条件和站点死链条件;
检测单元,用于对随机采样得到的url进行死链检测,得到检测结果;
判断单元,用于当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链;
获取单元,用于当所述检测结果中的url不均为死链时,获取死链的数量,根据死链的数量和检测结果中url的数量,生成死链比例;
生成单元,用于当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑死链规则,生成待检测的URL列表,所述可疑死链规则为预设时间内其目录或站点的死链占检测结果中url的比例超过预设阀值的规则。
6.如权利要求5所述的装置,其特征在于,所述采样单元,包括:
获取子单元,用于获取关注度高的目录或者站点,根据预设的死链条件,对关注度高的目录或者站点下的网页地址url进行随机采样。
7.如权利要求5或6所述的装置,其特征在于,所述采样单元,包括:
第一采样子单元,用于当预设的死链条件为目录死链条件时,对目录下的网页地址url进行随机采样。
8.如权利要求5或6所述的装置,其特征在于,所述采样单元,包括:
第二采样子单元,用于当预设的死链条件为站点死链条件时,对站点下不同目录的网页地址url进行随机采样,并获取所述站点的首页的url。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310493452.3A CN104158697B (zh) | 2013-10-18 | 2013-10-18 | 一种死链检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310493452.3A CN104158697B (zh) | 2013-10-18 | 2013-10-18 | 一种死链检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104158697A CN104158697A (zh) | 2014-11-19 |
CN104158697B true CN104158697B (zh) | 2017-07-21 |
Family
ID=51884108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310493452.3A Expired - Fee Related CN104158697B (zh) | 2013-10-18 | 2013-10-18 | 一种死链检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104158697B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104504097B (zh) * | 2014-12-29 | 2016-09-28 | 北京奇虎科技有限公司 | 活链规则挖掘方法和装置以及搜索方法和装置 |
CN104572928B (zh) * | 2014-12-29 | 2016-06-22 | 奇飞翔艺(北京)软件有限公司 | 死链规则挖掘方法和装置以及搜索方法和装置 |
CN104869033B (zh) * | 2015-04-23 | 2018-05-01 | 百度在线网络技术(北京)有限公司 | 一种用于确定死链接的方法和装置 |
CN106682041A (zh) * | 2015-11-11 | 2017-05-17 | 北京国双科技有限公司 | 网页断链的检测方法和装置 |
CN108255868B (zh) * | 2016-12-29 | 2020-11-24 | 北京国双科技有限公司 | 检查网站中链接的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010088965A1 (en) * | 2009-02-09 | 2010-08-12 | Robert Bosch Gmbh | Method for using a computer network |
CN102025559A (zh) * | 2010-11-09 | 2011-04-20 | 百度在线网络技术(北京)有限公司 | 用于基于分级来进行死链检测和处理的方法和网络设备 |
CN102024042A (zh) * | 2010-12-03 | 2011-04-20 | 百度在线网络技术(北京)有限公司 | 一种监控图片展现效果的方法、装置和系统 |
CN102662957A (zh) * | 2012-03-02 | 2012-09-12 | 百度在线网络技术(北京)有限公司 | 用于优化浏览器的搜索结果页面的装置及方法 |
CN102663062A (zh) * | 2012-03-30 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种处理搜索结果中无效链接的方法及装置 |
-
2013
- 2013-10-18 CN CN201310493452.3A patent/CN104158697B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010088965A1 (en) * | 2009-02-09 | 2010-08-12 | Robert Bosch Gmbh | Method for using a computer network |
CN102025559A (zh) * | 2010-11-09 | 2011-04-20 | 百度在线网络技术(北京)有限公司 | 用于基于分级来进行死链检测和处理的方法和网络设备 |
CN102024042A (zh) * | 2010-12-03 | 2011-04-20 | 百度在线网络技术(北京)有限公司 | 一种监控图片展现效果的方法、装置和系统 |
CN102662957A (zh) * | 2012-03-02 | 2012-09-12 | 百度在线网络技术(北京)有限公司 | 用于优化浏览器的搜索结果页面的装置及方法 |
CN102663062A (zh) * | 2012-03-30 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种处理搜索结果中无效链接的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104158697A (zh) | 2014-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609135B (zh) | 页面元素确定方法及设备、用户行为路径确定方法及装置 | |
EP1979840B1 (en) | Website monitoring and cookie setting | |
CN104158697B (zh) | 一种死链检测方法及装置 | |
CN107241296B (zh) | 一种Webshell的检测方法及装置 | |
CN104881603B (zh) | 网页重定向漏洞检测方法及装置 | |
JP6001084B2 (ja) | リダイレクトの低減 | |
US20090024748A1 (en) | Website monitoring and cookie setting | |
CN103618696B (zh) | 对cookie信息进行处理的方法和服务器 | |
CN104572777B (zh) | 基于UIWebView组件的网页加载方法及装置 | |
CN104572798A (zh) | 一种用于处理网页的方法、设备与系统 | |
CN103077254B (zh) | 网页获取方法和装置 | |
US9582590B2 (en) | Method and system for presenting a navigation path for enabling retrieval of content | |
WO2015103122A2 (en) | A method and system for tracking and gathering multivariate testing data | |
CN111177519B (zh) | 网页内容获取方法、装置、存储介质及设备 | |
CN102870118B (zh) | 用户行为的获取方法、设备及系统 | |
CN104918119B (zh) | 基于iOS浏览器的视频处理方法及视频处理装置 | |
CN107357903A (zh) | 用户行为数据整合方法、装置及电子设备 | |
CN110020339A (zh) | 基于无埋点的网页数据采集方法及装置 | |
Jayamalini et al. | Research on web data mining concepts, techniques and applications | |
CN104219230A (zh) | 识别恶意网站的方法及装置 | |
CN109684571A (zh) | 一种数据采集方法及装置、存储介质 | |
CN103577447A (zh) | 一种用于确定目标页面的页面类型信息的方法和设备 | |
CN105159992A (zh) | 一种应用程序的页面内容及网络行为的检测方法及装置 | |
CN111177623A (zh) | 信息处理方法及装置 | |
CN102868938A (zh) | 一种用于获取网络中分段视频文件的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhan Feng Inventor after: Li Xiaotang Inventor after: Li Rui Inventor after: Zhao Xuehua Inventor after: Ma Chao Inventor before: Zhan Feng Inventor before: Li Xiaotang |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170721 Termination date: 20201018 |