CN104317938A - 网页链接有效性验证方法及装置 - Google Patents

网页链接有效性验证方法及装置 Download PDF

Info

Publication number
CN104317938A
CN104317938A CN201410602695.0A CN201410602695A CN104317938A CN 104317938 A CN104317938 A CN 104317938A CN 201410602695 A CN201410602695 A CN 201410602695A CN 104317938 A CN104317938 A CN 104317938A
Authority
CN
China
Prior art keywords
webpage
link address
verified
webpage link
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410602695.0A
Other languages
English (en)
Other versions
CN104317938B (zh
Inventor
杨韬
王晓群
余德乐
谭紫萱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410602695.0A priority Critical patent/CN104317938B/zh
Publication of CN104317938A publication Critical patent/CN104317938A/zh
Application granted granted Critical
Publication of CN104317938B publication Critical patent/CN104317938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页链接有效性验证方法及装置。该网页链接有效性验证方法包括:确定待验证的网页链接地址;判断待验证的网页链接地址对应的网页是否可以访问;如果待验证的网页链接地址对应的网页可以访问,则获取待验证的网页链接地址对应的网页;判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词;如果待验证的网页链接地址对应的网页中包含预设域名或者预设关键词,则确定待验证的网页链接地址为有效的网页链接地址。通过本发明,解决了通过人工验证网站链接有效性导致的准确性差、效率低的问题,通过判断网页中是否包含预设域名或预设关键词,达到了自动高效地验证网页链接地址有效性的效果。

Description

网页链接有效性验证方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网页链接有效性验证方法及装置。
背景技术
通常情况下,网站为增加访客流量,会在众多网站上通过合作或收费的方式部署指向到自身网站的链接,称之为该网站的外部链接(也叫反向链接或友情链接)。这些链接的部署往往由相关的代理商承接,因此涉及到计算虚拟资源的业务。在计算时,理想的情况是要根据链接网页的真实存活情况来确定最终的计算结果;而对于未存活的链接是不应该计算在内的。视为未存活的链接包括被部署的网站不能被有效访问、被部署的网站能够有效访问但网页上并不存在指定的链接内容两种情况。
为避免代理商利用死链接或者删除链接等虚假手段伪造虚拟资源,需要检测代理商所提供的链接是否有效,进而准确计算网页链接虚拟资源。
现有方法是通过人工访问链接所在的页面来验证链接是否有效。一个网站的链接部署往往是数以千计的,因此,利用该方法工作量巨大,时效性往往难以保证;通过肉眼查看页面中是否包含指定的链接关键词,难以得到全面和准确的结果;同时,在链接的部署验证中,预匹配的统一资源定位符和关键词是批量的,并且二者的存在是或的关系,因此,校验逻辑的复杂性也导致了现有方法获得的验证结果精确性较差。
针对相关技术中通过人工验证网页链接有效性导致的准确性差、效率低的问题,目前尚未提出有效的解决方案。
发明内容
针对现有的通过人工验证网站链接有效性导致的准确性差、效率低的问题而提出本发明,为此,本发明的主要目的在于提供一种网站链接有效性验证方法及装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页链接有效性验证方法。该方法包括:确定待验证的网页链接地址;判断待验证的网页链接地址对应的网页是否可以访问;如果待验证的网页链接地址对应的网页可以访问,则获取待验证的网页链接地址对应的网页;解析待验证的网页链接地址对应的网页,判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词,其中,通过预设关键词可以链接到预设域名对应的网站;如果待验证的网页链接地址对应的网页中包含预设域名或者预设关键词,则确定待验证的网页链接地址为有效的网页链接地址。
进一步地,判断待验证的网页链接地址对应的网页是否可以访问包括:向待验证的网页链接地址发出访问请求;获取待验证的网页链接地址返回的对应访问请求的状态码;根据状态码判断待验证的网页链接地址对应的网页是否可以访问。
进一步地,通过解析待验证的网页链接地址对应的网页,判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词包括:读取预设域名;将读取的预设域名与待验证的网页链接地址对应的网页进行对比,判断读取的预设域名是否出现在待验证的网页链接地址对应的网页中;如果读取的预设域名没有出现在待验证的网页链接地址对应的网页中,则读取预设关键词;以及将读取的预设关键词与待验证的网页链接地址对应的网页进行对比,以及判断读取的预设关键词是否出现在待验证的网页链接地址对应的网页中,或者,读取预设关键词;将读取的预设关键词与待验证的网页链接地址对应的网页进行对比,判断读取的预设关键词是否出现在待验证的网页链接地址对应的网页中;如果读取的预设关键词没有出现在待验证的网页链接地址对应的网页中,则读取预设域名;以及将读取的预设域名与待验证的网页链接地址对应的网页进行对比,判断读取的预设域名是否出现在待验证的网页链接地址对应的网页中。
进一步地,确定待验证的网页链接地址包含确定多个待验证的网页链接地址,确定待验证的网页链接地址为有效的网页链接地址之后,该方法还包括:统计待验证的网页链接地址的数量;统计有效的网页链接地址的数量;根据有效的网页链接地址的数量和待验证的网页链接地址的数量计算网页链接存活率。
进一步地,确定待验证的网页链接地址为有效的网页链接地址之后,该方法还包括:获取预设网页链接虚拟资源结算公式,其中,预设网页链接虚拟资源结算公式用于根据有效的网页链接地址的数量计算网页链接虚拟资源;按照预设网链页接虚拟资源结算公式计算网页链接虚拟资源。
进一步地,按照预设网页链接虚拟资源结算公式计算网页链接虚拟资源包括按照以下方式计算网页链接虚拟资源:统计有效的网页链接地址的数量;确定网页链接单价;按照以下公式计算网页链接虚拟资源:Q=S*P,其中,Q为网页链接虚拟资源,S为有效的网页链接地址的数量,P为网页链接单价。
进一步地,判断待验证的网页链接地址对应的网页是否可以访问之后,该方法还包括:如果待验证的网页链接地址对应的网页不可访问,则删除待验证的网页链接地址。
进一步地,判断待验证的网页链接地址对应的网页中是否包含预设域名或者预设关键词之后,该方法还包括:如果待验证的网页链接地址对应的网页中不包含预设域名和预设关键词,则删除待验证的网页链接地址。
为了实现上述目的,根据本发明的另一方面,提供了一种网页链接有效性验证装置,该装置包括:第一确定单元,用于确定待验证的网页链接地址;第一判断单元,用于判断待验证的网页链接地址对应的网页是否可以访问;获取单元,用于在待验证的网页链接地址对应的网页可以访问时,获取待验证的网页链接地址对应的网页;第二判断单元,用于解析待验证的网页链接地址对应的网页,判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词,其中,通过预设关键词可以链接到预设域名对应的网站;第二确定单元,用于在待验证的网页链接地址对应的网页中包含预设域名或者预设关键词时,确定待验证的网页链接地址为有效的网页链接地址。
进一步地,第一判断单元包括:访问模块,用于向待验证的网页链接地址发出访问请求;获取模块,用于获取待验证的网页链接地址返回的对应访问请求的状态码;判断模块,用于根据状态码判断待验证的网页链接地址对应的网页是否可以访问。
通过本发明,采用包括以下步骤的方法:确定待验证的网页链接地址;判断待验证的网页链接地址对应的网页是否可以访问;如果待验证的网页链接地址对应的网页可以访问,则获取待验证的网页链接地址对应的网页;解析待验证的网页链接地址对应的网页,判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词,其中,通过预设关键词可以链接到预设域名对应的网站;如果待验证的网页链接地址对应的网页中包含预设域名或者预设关键词,则确定待验证的网页链接地址为有效的网页链接地址,解决了通过人工验证网站链接有效性导致的准确性差、效率低的问题,通过判断待验证的网页链接地址对应网页的可访问性,获取并解析可访问的待验证的网页链接地址对应的网页,进而判断获取的网页中是否包含预设域名或预设关键词,达到了自动高效地验证网页链接地址的有效性的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明的网页链接有效性验证方法的第一实施例的流程图;
图2是根据本发明的网页链接有效性验证方法的第二实施例的流程图;
图3是根据本发明的网页链接有效性验证方法的第三实施例的示意图;
图4是根据本发明的计算网页链接存活率及网页链接虚拟资源的示意图;以及
图5是根据本发明的网页链接有效性验证装置的第一实施例的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1是根据本发明的网页链接有效性验证方法的第一实施例的流程图。如图1所示,该方法包括步骤S102至步骤S110。
步骤S102,确定待验证的网页链接地址。
网站为增加访客访问量,往往在众多其他网站上通过合作或者收费的方式部署指向自身网站的链接,称之为该网站的外部链接、反向链接或者友情链接。这些链接的部署一般由代理商承接。由于一个网站部署的外部链接可能是数以千计的,因此,优选地,通过代理商获取所有待验证的网页链接地址。获取的所有待验证的网页链接地址可以存储在表中,如表1所示。
表1
网页链接地址
http://www.***.cn/read-htm-tid-39533-ds-1.html
http://www.***.net/forum.php
http://www.***.cn/read/61491
http://bbs.***.com/news/28035166_28035166.htm
http://bbs.***.com/thread-18961189-1-1.html
http://bbs.***.com/t-1862712-1.htm
http://www.***.com/hread-5415-1-1.html
步骤S104,判断待验证的网页链接地址对应的网页是否可以访问。
为了检验网页链接的有效性,需要先验证网页链接地址对应的网页是否可以访问,对于待验证的网站链接为死链接或者链接已被删除等情况下(即网页不可访问),可以直接认定该链接为无效的,以免于进行后续的有效性验证。
优选地,判断待验证的网页链接地址对应的网页是否可以访问,可以通过如下步骤实现:向待验证的网页链接地址发出访问请求;获取待验证的网页链接地址返回的对应访问请求的状态码;根据状态码判断待验证的网页链接地址对应的网页是否可以访问。预先设定不同的状态码对应不同的可访问状态,比如,状态码为200时,表示网页链接地址对应的网页可以访问,状态码为404、301表示网页链接地址对应的网页不可以访问。利用自动获取的状态码来判断网页链接地址对应的网页是否可以访问,在兼顾准确性的同时,提高了执行效率,对于大量的网页链接地址有效性的验证尤为重要。
可将返回的状态码存储在表中,如表2所示。需要注意的是,在表2中只有状态码为200的网页链接对应的网页为可访问的。
表2
网页链接地址 状态码 是否可访问
http://www.***.cn/read-htm-tid-39533-ds-1.html 200 可访问
http://www.***.net/forum.php 200 可访问
http://www.***.cn/read/61491 200 可访问
http://bbs.***.com/news/28035166_28035166.htm 404 不能访问
http://bbs.***.com/thread-18961189-1-1.html 200 可访问
http://bbs.***.com/t-1862712-1.htm 301 不能访问(重定向)
http://www.***.com/hread-5415-1-1.html 200 可访问
步骤S106,如果待验证的网页链接地址对应的网页可以访问,则获取待验证的网页链接地址对应的网页。
由于在待验证的网页链接地址对应的网页可以访问的情况下,网页链接地址对应的网页可能还会出现不存在指定链接内容的情况,因此有必要对网页链接地址对应的网页的内容作进一步地验证。如果通过状态码判断出待验证的网页链接地址对应的网页可以访问,则在获知状态码之后采用直接下载的方式,获取待验证的网页链接地址对应的网页,从而进一步获取网页链接地址对应的网页信息。
步骤S108,解析待验证的网页链接地址对应的网页,判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词。
在其他网站部署链接时,会预先设定链接域名和链接对应网页的关键词信息。正常情况下,部署的网页链接地址对应的网页中会包含预先设定的1个或多个关键词信息或者预先设定的域名。这里,通过点击预设的关键词可以链接到预设域名对应的网站上。
可选地,通过解析待验证的网页链接地址对应的网页,判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词可以通过如下步骤实现:读取预设域名;将读取的预设域名与待验证的网页链接地址对应的网页进行对比,判断读取的预设域名是否出现在待验证的网页链接地址对应的网页中;如果读取的预设域名没有出现在待验证的网页链接地址对应的网页中,则读取预设关键词;将读取的预设关键词与待验证的网页链接地址对应的网页进行对比,以及判断读取的预设关键词是否出现在待验证的网页链接地址对应的网页中。
或者,读取预设关键词;将读取的预设关键词与待验证的网页链接地址对应的网页进行对比,判断读取的预设关键词是否出现在待验证的网页链接地址对应的网页中;如果读取的预设关键词没有出现在待验证的网页链接地址对应的网页中,则读取预设域名;以及将读取的预设域名与待验证的网页链接地址对应的网页进行对比,判断读取的预设域名是否出现在待验证的网页链接地址对应的网页中。
需要说明的是,预设关键词即可以指定,也可以不指定。当不指定预设关键词,即不进行预设关键词与待验证的网页地址对应的网页之间的对比时,只需进行预设域名与待验证的网页链接地址对应的网页之间的对比。同样地,也可以只进行预设关键词与待验证的网页链接地址对应的网页之间的对比;或者,先进行预设关键词与待验证的网页链接地址对应的网页之间的对比,如果网页中存在预设关键词,则认为该网页链接地址为有效的,如果网页中不存在预设关键词,则进行预设域名与待验证的网页链接地址对应的网页之间的对比,如果网页中存在预设域名,则认为该网页链接地址为有效的;再或者,先进行预设域名与待验证的网页链接地址对应的网页之间的对比,如果网页中存在预设域名,则认为网页链接地址是有效的,如果网页中不存在预设域名,则进行预设关键词与与待验证的网页链接地址对应的网页之间的对比,如果网页中存在预设关键词,则认为该网页链接地址为有效的。
例如,只进行预设域名与网页链接地址对应的网页之间的对比。待验证的网页链接地址为http://www.cqylq.com/bbs/thread-3220-1-1.html。这里,假设预设域名为www.cignacmb.com,将该域名与待验证的网页链接地址对应的网页进行对比,如果获知待验证的网页链接地址对应的网页是以该域名开头的,则待验证的网页链接即为匹配成功的有效链接。
例如,只进行预设关键词与网页链接地址对应的网页之间的对比。假设预设关键词为“个人如何买养老保险”和“小孩分红教育保险哪个好”。待验证的网页链接地址为http://www.yitouzi.net/forum.php?mod=viewthread&tid=229&extra=page%3D1。当向该链接发出访问请求后,返回的状态码表明该链接对应的网页可以访问。并且获取的网页内容是论坛网站中的一篇帖子,即有大量文本内容。通过解析该网页,发现文本中包含关键词“个人如何买养老保险”,并且在这个关键词上部署有到预设域名的链接,通过点击这个关键词可以进入预设域名对应的网站。则可以认为该待验证的网页链接地址为有效的。
步骤S110,如果待验证的网页链接地址对应的网页中包含预设域名或者预设关键词,则确定待验证的网页链接地址为有效的网页链接地址。
需要说明的是,这里的预设域名和预设关键词之间是或的关系,不必满足二者同时出现在待验证的网页链接地址对应的网页中,可根据不同用户的不同的验证场景自行设置。
同样地,可以将网页链接地址有效性的验证结果存储在表中,如表3所示。表3中最后一列存活项即为有效的网页链接地址。
表3
该实施例由于采取了以下步骤:确定待验证的网页链接地址;判断待验证的网页链接地址对应的网页是否可以访问;如果待验证的网页链接地址对应的网页可以访问,则获取待验证的网页链接地址对应的网页;解析待验证的网页链接地址对应的网页,判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词;如果待验证的网页链接地址对应的网页中包含预设域名或者预设关键词,则确定待验证的网页链接地址为有效的网页链接地址,通过判断待验证的网页链接地址对应网页的可访问性,获取并解析可访问的待验证的网页链接地址对应的网页,进而判断获取的网页中是否包含预设域名或预设关键词,达到了自动高效地验证网页链接地址的有效性的效果。
图2是根据本发明的网页链接有效性验证方法的第二实施例的流程图,该实施例可以作为图1所示实施例的一种优选实施方式。如图2所示,该方法包括步骤S201至步骤S207。
S201,确定待验证的网页链接地址。
该步骤同步骤S102,这里不再赘述。
S202,判断待验证的网页链接地址对应的网页是否可以访问。
该步骤同步骤S104,这里不再赘述。
S203,如果待验证的网页链接地址对应的网页可以访问,则获取待验证的网页链接地址对应的网页。
该步骤同步骤S106,这里不再赘述。
S204,解析待验证的网页链接地址对应的网页,判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词。
该步骤同步骤S108,这里不再赘述。
S205,如果待验证的网页链接地址对应的网页中包含预设域名或者预设关键词,则确定待验证的网页链接地址为有效的网页链接地址。
该步骤同步骤S110,这里不再赘述。
S206,获取预设网页链接虚拟资源结算公式,其中,预设网页链接虚拟资源结算公式用于根据有效的网页链接地址的数量计算网页链接虚拟资源。
S207,按照预设网页链接虚拟资源结算公式计算网页链接虚拟资源。
在计算网页链接虚拟资源时,理想的情况是要根据网页链接的真实存活情况来确定最终的虚拟资源。对于无效的网页链接(即网页链接死亡的情况,包括网页链接地址对应的网站不能有效访问或者能够有效访问但网页上并不存在指定的链接内容),是不应该计算在网页链接虚拟资源之内的。因此有必要根据有效的网页链接地址的数量计算网页链接虚拟资源。
预设网页链接虚拟资源结算公式是预先设定的根据有效的网页链接地址的数量计算网页链接虚拟资源。该公式可以根据不同的业务需求进行设置。
优选地,按照预设网页链接虚拟资源结算公式计算网页链接虚拟资源可以通过如下方式实现:统计有效的网页链接地址的数量;确定网页链接单价;按照以下预设网页链接虚拟资源结算公式计算网页链接虚拟资源:Q=S*P,其中,Q为网页链接虚拟资源,S为有效的网页链接地址的数量,P为网页链接单价。
对于一个网站来说,部署在外部网站的网页链接往往是数以千计的,因此,有必要辨别哪些网页链接是有效的,哪些已经无效。根据本发明的验证方法,可以对外部链接的有效性进行识别,进而统计出有效的外部链接的数量。网页链接单价可以根据业务情况设定。本优选实施例提供了一种最简洁的计算网页链接虚拟资源的方法,当然,也可以根据具体的业务情况自行拟定计算方法。
优选地,确定待验证的网页链接地址包含确定多个待验证的网页链接地址,确定待验证的网页链接地址为有效的网页链接地址之后,还可以执行如下步骤:统计待验证的网页链接地址的数量;统计有效的网页链接地址的数量;根据有效的网页链接地址的数量和待验证的网页链接地址的数量计算网页链接存活率。
网页链接存活率一般为有效的网页链接地址的数量和待验证的网页链接地址的数量计算网页链接的比值,用来表征网页链接存活情况的一个参考量。对于一个网站来说,部署在其他网站的外部链接数以千计,实际存活的网页链接很可能小于实际部署的外部链接的总量。由于外部链接的部署存活比例,影响到外部链接投放者的后续投放计划,因此,网页链接存活率的计算,对网页链接投放者来说可以起到一个参考的作用。
可选地,判断待验证的网页链接地址对应的网页是否可以访问之后,还可以执行如下步骤:如果待验证的网页链接地址对应的网页不可访问,则删除待验证的网页链接地址。
可选地,判断待验证的网页链接地址对应的网页中是否包含预设域名或者预设关键词之后,还可以执行如下步骤:如果待验证的网页链接地址对应的网页中不包含预设域名和预设关键词,则删除待验证的网页链接地址。
对于无效的(即死亡的)网页链接地址,由于并没有起到实际的作用,因此,可以取消对于该网页链接的部署,并且,在后续进行对网页链接有效性的验证时,不再考虑这些无效的网页链接地址,从而可以提高验证过程的执行效率。或者,根据业务需求,对于无效的网页链接地址所部署在的网站,可以投入新的网页链接。
图3是根据本发明的网站链接有效性验证方法的第三实施例的示意图。该实施例可以作为图1所示实施例的一种优选实施方式。如图3所示,该实施例可以包括如下步骤:
步骤S301,创建URL_List。
URL_List存储了待验证的网页链接的统一资源定位符数据和预设的关键词与预设链接域名。URL_List在运用过程中是输入的数据来源表。
步骤S302,从URL_List中提取一个网站链接地址。
步骤S303,向提取的网站链接地址发出访问请求。
步骤S304,判断提取出的网站链接地址是否可以访问。
步骤S305,如果提取出的网站链接地址可以访问,则将提取出的网站链接地址记录到Request_List列表中的可访问列表。
Request_List中存储了网页链接网址的状态码返回状态,用以判断网页是否能够正常访问。Request_List在运用过程中起到中间作用,可视为结果表之一。对于可以访问的网页链接地址,存储在Request_List列表中的可访问列表中;对于不可以访问的网页链接地址,存储在Request_List列表中的不可访问列表中。
步骤S306,如果提取出的网站链接地址不可以访问,则将提取出的网站链接地址记录到Request_List列表中的不可访问列表。
步骤S307,下载提取到的可访问的网站链接地址对应的网页。
步骤S308,解析下载的可访问的网站链接地址对应的网页。
步骤S309,根据解析结果,判断该网页中是否包含到预设域名的链接。
步骤S310,如果该网页中包含到预设域名的链接,则更新Request_List列表,将提取出的网页链接地址标记为有效的网页链接地址。
对于Request_List中可访问列表中的网页链接地址,对其中的有效链接地址和无效链接地址分别进行标记。
步骤S311,如果该网页中不包含到预设域名的链接,则判断网页中是否包含一个或者多个预设关键词。
步骤S310,网页中包含一个或者多个预设关键词,则更新Request_List列表,将提取出的网页链接地址标记为有效的网页链接地址。
步骤S312,网页中不包含预设关键词,则更新Request_List列表,将提取出的网页链接地址标记为无效的网页链接地址。
步骤S313,检测URL_List中是否存在未验证的网站链接地址。
步骤S314,如果URL_List中不存在未验证的网站链接地址,则更新Request_List列表为Result_List列表。
Result_List是最关键的解决方案表,根据从Request_List中得到的页面状态,对可访问的页面进行下载、解析,解析后验证网页内容中是否存在URL_List中预设的域名或关键词,如果存在,则记为该网页有效(存活),反之为无效(死亡),并将得出相关数据进行记录。Result_List在验证过程中既是输出的结果表,也是计算最终网页链接虚拟资源的中间表。
步骤S302,如果URL_List中存在未验证的网站链接地址,则从URL_List中提取另外一个网站链接地址。
本实施例在执行网页链接有效性验证过程中,设定了URL_List、Request_List以及Result_List等多个列表,用于分类存储执行过程中涉及到的所有网页链接地址,流程更加简明,同时便于从不同的列表中获取需要研究的网页链接地址。同时,本实施例利用程序模拟浏览器访问,自动高效地访问指定网页,对待验证的网页链接地址逐个发起请求,通过返回的状态码判断网页是否可访问,然后下载和解析可访问的网页,提取出该网页所包含的链接域名及链接文字。从待匹配的预设域名库或者预设关键词库中读取预设域名或者预设关键词信息,与已提取出的网页域名或者链接关键词进行匹配,验证所下载的网页中是否存在指定的域名或者关键词,进而更加准确地判断网页链接的存活情况。
图4是根据本发明的计算网页链接存活率及网站链接虚拟资源的示意图。
步骤S401,统计Result_List中的有效的网页链接地址的数量。
步骤S402,统计待验证的网页链接地址的总数。
步骤S403,计算网页链接存活率。
步骤S404,确定网页链接单价。
步骤S405,根据有效的网页链接地址数量和网页链接单价计算网页链接虚拟资源。
本实施例提供了在验证网页链接有效性之后计算网站链接虚拟资源以及网页链接存活率的实现方式。对于一个网站来说,如果在其他网站投放了多个外部链接,则不仅需要获知多个外部链接中有哪些是有效的(存活的),同时,在获知所有有效网页链接之后,还需要计算网页链接地址的存活率并且计算这些虚拟资源的价值。这对于一个投放外部链接的网站来说,根据计算得到的存活率和虚拟资源的价值可以对其外部链接投放策略进行优化。
需要说明的是,本发明实施例的网站链接有效性验证装置可以用于执行本发明实施例所提供的网站链接有效性验证方法,本发明实施例的网站链接有效性验证方法也可以通过本发明实施例所提供的网站链接有效性验证装置来执行。
图5是根据本发明的网站链接有效性验证装置的第一实施例的示意图。如图5所示,该装置结构包括:第一确定单元10、第一判断单元20、获取单元30、第二判断单元40和第二确定单元50。
第一确定单元10,用于确定待验证的网页链接地址。
第一判断单元20,用于判断待验证的网页链接地址对应的网页是否可以访问。
优选地,第一判断单元20还可以包括以下模块:访问模块,用于向待验证的网页链接地址发出访问请求;获取模块,用于获取待验证的网页链接地址返回的对应访问请求的状态码;判断模块,用于根据状态码判断待验证的网页链接地址对应的网页是否可以访问。
获取单元30,用于在待验证的网页链接地址对应的网页可以访问时,获取待验证的网页链接地址对应的网页。
第二判断单元40,用于解析待验证的网页链接地址对应的网页,判断待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词。
第二确定单元50,用于在待验证的网页链接地址对应的网页中包含预设域名或者预设关键词时,确定待验证的网页链接地址为有效的网页链接地址。
本实施例提供的网站链接有效性验证装置包括:第一确定单元10、第一判断单元20、获取单元30、第二判断单元40和第二确定单元50,使得通过第一判断单元20判断待验证的网页链接地址对应网页的可访问性,第二判断单元40解析可访问的待验证的网页链接地址对应的网页,进而判断获取的网页中是否包含预设域名或预设关键词,达到了自动高效地验证网页链接地址的有效性的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页链接有效性验证方法,其特征在于,包括:
确定待验证的网页链接地址;
判断所述待验证的网页链接地址对应的网页是否可以访问;
如果所述待验证的网页链接地址对应的网页可以访问,则获取所述待验证的网页链接地址对应的网页;
解析所述待验证的网页链接地址对应的网页,判断所述待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词,其中,通过所述预设关键词可以链接到所述预设域名对应的网站;以及
如果所述待验证的网页链接地址对应的网页中包含所述预设域名或者所述预设关键词,则确定所述待验证的网页链接地址为有效的网页链接地址。
2.根据权利要求1所述的方法,其特征在于,判断所述待验证的网页链接地址对应的网页是否可以访问包括:
向所述待验证的网页链接地址发出访问请求;
获取所述待验证的网页链接地址返回的对应所述访问请求的状态码;以及
根据所述状态码判断所述待验证的网页链接地址对应的网页是否可以访问。
3.根据权利要求1所述的方法,其特征在于,通过解析所述待验证的网页链接地址对应的网页,判断所述待验证的网页链接地址对应的网页中是否包含所述预设域名或所述预设关键词包括:
读取所述预设域名;
将读取的预设域名与所述待验证的网页链接地址对应的网页进行对比,判断所述读取的预设域名是否出现在所述待验证的网页链接地址对应的网页中;
如果所述读取的预设域名没有出现在所述待验证的网页链接地址对应的网页中,则读取所述预设关键词;以及
将读取的预设关键词与所述待验证的网页链接地址对应的网页进行对比,判断所述读取的预设关键词是否出现在所述待验证的网页链接地址对应的网页中,
或者,
读取所述预设关键词;
将读取的预设关键词与所述待验证的网页链接地址对应的网页进行对比,判断所述读取的预设关键词是否出现在所述待验证的网页链接地址对应的网页中;
如果所述读取的预设关键词没有出现在所述待验证的网页链接地址对应的网页中,则读取所述预设域名;以及
将读取的预设域名与所述待验证的网页链接地址对应的网页进行对比,判断所述读取的预设域名是否出现在所述待验证的网页链接地址对应的网页中。
4.根据权利要求1所述的方法,其特征在于,确定待验证的网页链接地址包含确定多个待验证的网页链接地址,确定所述待验证的网页链接地址为有效的网页链接地址之后,所述方法还包括:
统计所述待验证的网页链接地址的数量;
统计所述有效的网页链接地址的数量;以及
根据所述有效的网页链接地址的数量和所述待验证的网页链接地址的数量计算网站链接存活率。
5.根据权利要求1所述的方法,其特征在于,确定所述待验证的网页链接地址为有效的网页链接地址之后,所述方法还包括:
获取预设网页链接虚拟资源结算公式,其中,所述预设网页链接虚拟资源结算公式用于根据所述有效的网页链接地址的数量计算网页链接虚拟资源;以及
按照所述预设网页链接虚拟资源结算公式计算网页链接虚拟资源。
6.根据权利要求5所述的方法,其特征在于,按照所述预设网页链接虚拟资源结算公式计算网页链接虚拟资源包括按照以下方式计算所述网页链接虚拟资源:
统计所述有效的网页链接地址的数量;
确定网页链接单价;以及
按照以下公式计算所述网页链接虚拟资源:
Q=S*P,
其中,Q为所述网页链接虚拟资源,S为所述有效的网页链接地址的数量,P为所述网页链接单价。
7.根据权利要求1所述的方法,其特征在于,判断所述待验证的网页链接地址对应的网页是否可以访问之后,所述方法还包括:如果所述待验证的网页链接地址对应的网页不可访问,则删除所述待验证的网页链接地址。
8.根据权利要求1所述的方法,其特征在于,判断所述待验证的网页链接地址对应的网页中是否包含所述预设域名或者所述预设关键词之后,所述方法还包括:如果所述待验证的网页链接地址对应的网页中不包含所述预设域名和所述预设关键词,则删除所述待验证的网页链接地址。
9.一种网页链接有效性验证装置,其特征在于,包括:
第一确定单元,用于确定待验证的网页链接地址;
第一判断单元,用于判断所述待验证的网页链接地址对应的网页是否可以访问;
获取单元,用于在所述待验证的网页链接地址对应的网页可以访问时,获取所述待验证的网页链接地址对应的网页;
第二判断单元,用于解析所述待验证的网页链接地址对应的网页,判断所述待验证的网页链接地址对应的网页中是否包含预设域名或预设关键词,其中,通过所述预设关键词可以链接到所述预设域名对应的网站;以及
第二确定单元,用于在所述待验证的网页链接地址对应的网页中包含所述预设域名或者所述预设关键词时,确定所述待验证的网页链接地址为有效的网页链接地址。
10.根据权利要求9所述的装置,其特征在于,所述第一判断单元包括:
访问模块,用于向所述待验证的网页链接地址发出访问请求;
获取模块,用于获取所述待验证的网页链接地址返回的对应所述访问请求的状态码;以及
判断模块,用于根据所述状态码判断所述待验证的网页链接地址对应的网页是否可以访问。
CN201410602695.0A 2014-10-31 2014-10-31 网页链接有效性验证方法及装置 Active CN104317938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410602695.0A CN104317938B (zh) 2014-10-31 2014-10-31 网页链接有效性验证方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410602695.0A CN104317938B (zh) 2014-10-31 2014-10-31 网页链接有效性验证方法及装置

Publications (2)

Publication Number Publication Date
CN104317938A true CN104317938A (zh) 2015-01-28
CN104317938B CN104317938B (zh) 2018-02-02

Family

ID=52373170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410602695.0A Active CN104317938B (zh) 2014-10-31 2014-10-31 网页链接有效性验证方法及装置

Country Status (1)

Country Link
CN (1) CN104317938B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260469A (zh) * 2015-10-16 2016-01-20 广州神马移动信息科技有限公司 一种处理网站地图的方法、装置及设备
CN105975526A (zh) * 2016-04-29 2016-09-28 国家计算机网络与信息安全管理中心 一种url链接有效性的验证方法
CN106202028A (zh) * 2015-04-30 2016-12-07 阿里巴巴集团控股有限公司 一种地址信息识别方法及装置
CN106326485A (zh) * 2016-09-05 2017-01-11 郑州悉知信息科技股份有限公司 检测网站链接的方法和装置
CN106453207A (zh) * 2015-08-07 2017-02-22 北京奇虎科技有限公司 广告物料数据网址验证方法和装置
CN106649531A (zh) * 2016-10-24 2017-05-10 福建中金在线信息科技有限公司 一种网页检测方法及装置
CN106682041A (zh) * 2015-11-11 2017-05-17 北京国双科技有限公司 网页断链的检测方法和装置
CN107124309A (zh) * 2017-04-28 2017-09-01 福建中金在线信息科技有限公司 一种域名地址状态的监控方法及网站处理器
CN107729395A (zh) * 2017-09-20 2018-02-23 杭州安恒信息技术有限公司 一种冗余页面的发现方法
CN108062362A (zh) * 2017-12-01 2018-05-22 北京小度互娱科技有限公司 死链检测方法及装置
CN108090091A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 网页爬取方法和装置
CN108304402A (zh) * 2017-01-12 2018-07-20 广州市动景计算机科技有限公司 外链可用性监控方法和监控装置
CN108664493A (zh) * 2017-03-29 2018-10-16 北京京东尚科信息技术有限公司 统计url是否有效的方法、装置、电子设备和存储介质
CN109033399A (zh) * 2018-08-02 2018-12-18 挖财网络技术有限公司 一种检测链接有效性的方法
CN109242262A (zh) * 2018-08-14 2019-01-18 阿里巴巴集团控股有限公司 服务插件质量检测的方法、装置、服务器及可读存储介质
CN110913035A (zh) * 2019-11-28 2020-03-24 杭州安恒信息技术股份有限公司 失效域名的检测方法及装置
WO2020238567A1 (zh) * 2019-05-30 2020-12-03 华为技术有限公司 一种资源检测方法及装置
CN112052163A (zh) * 2020-08-19 2020-12-08 北京天融信网络安全技术有限公司 高并发网页压力测试方法、装置、电子设备以及存储介质
CN112269666A (zh) * 2020-11-10 2021-01-26 北京百度网讯科技有限公司 小程序死链检测方法及设备、计算设备和介质
CN113095885A (zh) * 2021-04-22 2021-07-09 加和(北京)信息科技有限公司 信息投放数据的处理方法和装置
CN115495688A (zh) * 2022-11-16 2022-12-20 上海金仕达软件科技有限公司 一种业务办理智能切换方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452483A (zh) * 2008-12-25 2009-06-10 阿里巴巴集团控股有限公司 网站访问方法及系统
CN102622553A (zh) * 2012-04-24 2012-08-01 腾讯科技(深圳)有限公司 检测网页安全的方法及装置
CN103200179A (zh) * 2013-02-23 2013-07-10 杨筑平 网站认证、部署和鉴别方法
CN103530391A (zh) * 2013-10-22 2014-01-22 北京国双科技有限公司 网页广告监测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452483A (zh) * 2008-12-25 2009-06-10 阿里巴巴集团控股有限公司 网站访问方法及系统
CN102622553A (zh) * 2012-04-24 2012-08-01 腾讯科技(深圳)有限公司 检测网页安全的方法及装置
CN103200179A (zh) * 2013-02-23 2013-07-10 杨筑平 网站认证、部署和鉴别方法
CN103530391A (zh) * 2013-10-22 2014-01-22 北京国双科技有限公司 网页广告监测方法和装置

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202028A (zh) * 2015-04-30 2016-12-07 阿里巴巴集团控股有限公司 一种地址信息识别方法及装置
CN106202028B (zh) * 2015-04-30 2019-10-11 阿里巴巴集团控股有限公司 一种地址信息识别方法及装置
CN106453207A (zh) * 2015-08-07 2017-02-22 北京奇虎科技有限公司 广告物料数据网址验证方法和装置
WO2017063596A1 (zh) * 2015-10-16 2017-04-20 广州神马移动信息科技有限公司 一种处理网站地图的方法、装置及设备
CN105260469B (zh) * 2015-10-16 2017-12-26 广州神马移动信息科技有限公司 一种处理网站地图的方法、装置及设备
CN105260469A (zh) * 2015-10-16 2016-01-20 广州神马移动信息科技有限公司 一种处理网站地图的方法、装置及设备
CN106682041A (zh) * 2015-11-11 2017-05-17 北京国双科技有限公司 网页断链的检测方法和装置
CN105975526A (zh) * 2016-04-29 2016-09-28 国家计算机网络与信息安全管理中心 一种url链接有效性的验证方法
CN106326485A (zh) * 2016-09-05 2017-01-11 郑州悉知信息科技股份有限公司 检测网站链接的方法和装置
CN106649531A (zh) * 2016-10-24 2017-05-10 福建中金在线信息科技有限公司 一种网页检测方法及装置
CN108090091A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 网页爬取方法和装置
CN108304402A (zh) * 2017-01-12 2018-07-20 广州市动景计算机科技有限公司 外链可用性监控方法和监控装置
CN108664493A (zh) * 2017-03-29 2018-10-16 北京京东尚科信息技术有限公司 统计url是否有效的方法、装置、电子设备和存储介质
CN108664493B (zh) * 2017-03-29 2021-09-03 北京京东尚科信息技术有限公司 统计url是否有效的方法、装置、电子设备和存储介质
CN107124309A (zh) * 2017-04-28 2017-09-01 福建中金在线信息科技有限公司 一种域名地址状态的监控方法及网站处理器
CN107729395A (zh) * 2017-09-20 2018-02-23 杭州安恒信息技术有限公司 一种冗余页面的发现方法
CN107729395B (zh) * 2017-09-20 2020-11-24 杭州安恒信息技术股份有限公司 一种冗余页面的发现方法
CN108062362A (zh) * 2017-12-01 2018-05-22 北京小度互娱科技有限公司 死链检测方法及装置
CN109033399B (zh) * 2018-08-02 2021-06-18 挖财网络技术有限公司 一种检测链接有效性的方法
CN109033399A (zh) * 2018-08-02 2018-12-18 挖财网络技术有限公司 一种检测链接有效性的方法
CN109242262A (zh) * 2018-08-14 2019-01-18 阿里巴巴集团控股有限公司 服务插件质量检测的方法、装置、服务器及可读存储介质
WO2020238567A1 (zh) * 2019-05-30 2020-12-03 华为技术有限公司 一种资源检测方法及装置
CN110913035A (zh) * 2019-11-28 2020-03-24 杭州安恒信息技术股份有限公司 失效域名的检测方法及装置
CN112052163A (zh) * 2020-08-19 2020-12-08 北京天融信网络安全技术有限公司 高并发网页压力测试方法、装置、电子设备以及存储介质
CN112052163B (zh) * 2020-08-19 2023-11-10 北京天融信网络安全技术有限公司 高并发网页压力测试方法、装置、电子设备以及存储介质
CN112269666A (zh) * 2020-11-10 2021-01-26 北京百度网讯科技有限公司 小程序死链检测方法及设备、计算设备和介质
CN112269666B (zh) * 2020-11-10 2023-07-25 北京百度网讯科技有限公司 小程序死链检测方法及设备、计算设备和介质
CN113095885A (zh) * 2021-04-22 2021-07-09 加和(北京)信息科技有限公司 信息投放数据的处理方法和装置
CN113095885B (zh) * 2021-04-22 2024-04-12 加和(北京)信息科技有限公司 信息投放数据的处理方法和装置
CN115495688A (zh) * 2022-11-16 2022-12-20 上海金仕达软件科技有限公司 一种业务办理智能切换方法及系统
CN115495688B (zh) * 2022-11-16 2023-05-16 上海金仕达软件科技股份有限公司 一种业务办理智能切换方法及系统

Also Published As

Publication number Publication date
CN104317938B (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN104317938A (zh) 网页链接有效性验证方法及装置
CN106528657A (zh) 浏览器跳转至应用程序的控制方法及装置
CN103699669B (zh) 一种浏览器中进行消息推送的方法和一种浏览器终端
CN103685308A (zh) 一种钓鱼网页的检测方法及系统、客户端、服务器
CN103777980A (zh) 一种加载网站点评信息的方法和浏览器
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN103401835A (zh) 一种展现微博页面的安全检测结果的方法及装置
CN107239701B (zh) 识别恶意网站的方法及装置
CN103455758A (zh) 恶意网站的识别方法及装置
CN103870573A (zh) 对网址进行分析的方法和装置
CN104050286A (zh) 一种提供搜索结果整合的方法和装置
CN104158828A (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN105117340B (zh) 用于iOS浏览器应用质量评估的URL检测方法和装置
CN103685606A (zh) 关联域名的获取方法和系统以及网站管理员权限验证方法
CN103336693B (zh) refer链的创建方法、装置及安全检测设备
CN104317884B (zh) 网站来源页面类型的获取方法和装置
CN103530337A (zh) 识别统一资源定位符url中无效参数的设备及方法
CN103530343A (zh) 结构化数据交互系统、数据接收端和结构化数据交互方法
CN104391955B (zh) 网页相关性检测方法及装置
CN103544288A (zh) 浏览器网页加载控制方法及装置
CN102929948B (zh) 列表页识别系统及方法
CN102917053B (zh) 一种用于判断网页网址重写的方法、设备和系统
CN103823905A (zh) 对搜索结果页中网址进行标示的方法和装置
CN112769792A (zh) 一种isp攻击检测方法、装置、电子设备及存储介质
CN106126538A (zh) 页面的转化处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Webpage validation method and device

Effective date of registration: 20190531

Granted publication date: 20180202

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20180202