CN106649327A - 网页链接的检测方法和装置 - Google Patents

网页链接的检测方法和装置 Download PDF

Info

Publication number
CN106649327A
CN106649327A CN201510719847.XA CN201510719847A CN106649327A CN 106649327 A CN106649327 A CN 106649327A CN 201510719847 A CN201510719847 A CN 201510719847A CN 106649327 A CN106649327 A CN 106649327A
Authority
CN
China
Prior art keywords
webpage
title
network linking
unit
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510719847.XA
Other languages
English (en)
Inventor
孙德彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510719847.XA priority Critical patent/CN106649327A/zh
Publication of CN106649327A publication Critical patent/CN106649327A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种网页链接的检测方法和装置。其中,该方法包括:提取第一网页上的网络链接的标题,其中,第一网页是待检测网站的任意一个具有链接的网页;提取网络链接链接到的第二网页的标题;判断网络链接的标题与第二网页的标题是否相同;以及在判断出网络链接的标题与第二网页的标题相同的情况下,确定第二网页是网络链接的正确链接网页。本申请解决了无法高效检测网页链接的正确性的技术问题。

Description

网页链接的检测方法和装置
技术领域
本申请涉及网络领域,具体而言,涉及一种网页链接的检测方法和装置。
背景技术
随着互联网的发展,出现了很多网站,网站的网页错链数量是影响用户体验的一个重要因素。
网页错链的意思是由于编辑或者程序等问题造成链接错误,造成链接的文字与链接到的内容页不符,比如,链接的文字是“刘备入川为什么不用诸葛亮随行”,点击链接文字后,得到的网页的内容是关于某某明星出行有若干助理随行的,这样网站的用户体验是非常差的。目前,大多使用人工来检测网页链接的正确性,不仅繁琐效率低,且易出错。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种网页链接的检测方法和装置,以至少解决无法高效检测网页链接的正确性的技术问题。
根据本申请实施例的一个方面,提供了一种网页链接的检测方法,包括:提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;提取所述网络链接链接到的第二网页的标题;判断所述网络链接的标题与所述第二网页的标题是否相同;以及在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。
进一步地,在判断所述网络链接的标题与所述第二网页的标题是否相同之后,所述方法还包括:在判断出所述网络链接的标题与所述第二网页的标题不相同的情况下,计算所述网络链接的标题与所述第二网页的标题的相似度;判断所述相似度是否在第一预设范围之内;以及如果判断出所述相似度在所述第一预设范围之内,确定所述第二网页是所述网络链接的正确链接网页。
进一步地,在判断所述相似度是否在第一预设范围之内之后,所述方法还包括:如果判断出所述相似度不在所述第一预设范围之内,将所述网络链接的标题进行分词,得到第一分词结果;将所述第二网页的标题和内容进行分词,得到第二分词结果;计算所述第一分词结果和所述第二分词结果的匹配度;如果所述第一分词结果和所述第二分词结果的所述匹配度在第二预设范围之内,确定所述第二网页是所述网络链接的正确链接网页;以及如果所述第一分词结果和所述第二分词结果的所述匹配度不在第二预设范围之内,确定所述第二网页是所述网络链接的错误链接网页。
进一步地,在提取所述网络链接链接到的第二网页的标题之前,所述方法还包括:在所述待检测网站上部署网络爬虫;提取所述网络爬虫在所述第一网页上爬取到的所述网络链接的地址;以及确定爬取到的地址所表示的网页为所述第二网页。
进一步地,在所述待检测网站部署网络爬虫之后,所述方法还包括:设置所述网络爬虫在所述待检测网站上的爬取层级;以及控制所述网络爬虫按照所述爬取层级进行爬取。
根据本申请实施例的另一方面,提供了一种网页链接的检测装置,包括:第一提取单元,用于提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;第二提取单元,用于提取所述网络链接链接到的第二网页的标题;第一判断单元,用于判断所述网络链接的标题与所述第二网页的标题是否相同;以及第一确定单元,用于在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。
进一步地,所述装置还包括:第一计算单元,用于在所述第一判断单元判断所述网络链接的标题与所述第二网页的标题是否相同之后,当判断出所述网络链接的标题与所述第二网页的标题不相同时,计算所述网络链接的标题与所述第二网页的标题的相似度;第二判断单元,用于判断所述相似度是否在第一预设范围之内;以及第二确定单元,用于如果判断出所述相似度在所述第一预设范围之内,确定所述第二网页是所述网络链接的正确链接网页。
进一步地,所述装置还包括:第一分词单元,用于在所述第二判断单元判断所述相似度是否在第一预设范围之内之后,当判断出所述相似度不在所述第一预设范围之内时,将所述网络链接的标题进行分词,得到第一分词结果;第二分词单元,用于将所述第二网页的标题和内容进行分词,得到第二分词结果;第二计算单元,用于计算所述第一分词结果和所述第二分词结果的匹配度;第三确定单元,用于当所述第一分词结果和所述第二分词结果的所述匹配度在第二预设范围之内时,确定所述第二网页是所述网络链接的正确链接网页;以及第四确定单元,用于当所述第一分词结果和所述第二分词结果的所述匹配度不在第二预设范围之内时,确定所述第二网页是所述网络链接的错误链接网页。
进一步地,所述装置还包括:部署单元,用于在所述第二提取单元提取所述网络链接链接到的第二网页的标题之前,在所述待检测网站上部署网络爬虫;第三提取单元,用于提取所述网络爬虫在所述第一网页上爬取到的所述网络链接的地址;以及第五确定单元,用于确定爬取到的地址所表示的网页为所述第二网页。
进一步地,所述装置还包括:设置单元,用于在所述部署单元在所述待检测网站部署网络爬虫之后,设置所述网络爬虫在所述待检测网站上的爬取层级;以及控制单元,用于控制所述网络爬虫按照所述爬取层级进行爬取。
在本申请实施例中,采用提取第一网页上的网络链接的标题,其中,第一网页是待检测网站的任意一个具有链接的网页,提取网络链接链接到的第二网页的标题,判断网络链接的标题与第二网页的标题是否相同,在判断出网络链接的标题与第二网页的标题相同的情况下,确定第二网页是网络链接的正确链接网页的方式,通过提取网页上的网络链接的标题和网络链接链接到的新的网页的标题,比较这两个标题是否相同,如果这两个标题相同,则说明网络链接链接到的新的网页是网络链接的正确链接网页,达到了检测网页链接的正确性的目的,从而实现了高效检测网页链接正确性的技术效果,进而解决了无法高效检测网页链接的正确性的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网页链接的检测方法的流程图;
图2是根据本申请实施例所提供的网页链接的检测方法进行网页链接的检测的流程图;以及
图3是根据本申请实施例的网页链接的检测装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种网页链接的检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的网页链接的检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,提取第一网页上的网络链接的标题,其中,第一网页是待检测网站的任意一个具有链接的网页。
步骤S104,提取网络链接链接到的第二网页的标题。
步骤S106,判断网络链接的标题与第二网页的标题是否相同。
步骤S108,在判断出网络链接的标题与第二网页的标题相同的情况下,确定第二网页是网络链接的正确链接网页。
待检测网站上有若干个网页,这些网页中,有的网页上有网络链接,有的网页上没有网络链接,通过点击第一网页上的网络链接,用户可以定位到新的网页,这个新的网页即为网络链接链接到的网页,也就是第二网页。需要注意的是,某一个网页是第一网页还是第二网页不是绝对的,而是相对的。例如,网页A上有一个网络链接L1,通过点击网络链接L1,定位到网页B,则网页A为第一网页,网页B为第二网页。网页B上有一个网络链接L2,通过点击网络链接L2,定位到网页C,则网页B为第一网页,网页C为第二网页。第二网页上包括标题和内容。判断第一网页上的网络链接的标题与第二网页上的标题是否完全相同,如果判断出第一网页上的网络链接的标题与第二网页上的标题完全相同,则第二网页是第一网页的网络链接的正确链接网页。如果判断出第一网页上的网络链接的标题与第二网页上的标题不完全相同,则需要进一步判断第二网页是否为第一网页的网络链接的正确链接网页。
例如,网页P1上有一个网络链接,网络链接的标题为“刘备入川为什么不用诸葛亮随行”,点击这个网络链接,得到网页P2,则网页P1为第一网页,网页P2为第二网页,网页P2上具有标题和内容,网页P2上的标题是“刘备入川为什么不用诸葛亮随行”。由于网页P1的网络链接的标题和网页P2上的标题相同,故网页P2是网页P1的网络链接的正确链接网页。
再例如,网页P上有3个网络链接,分别为网络链接L1、网络链接L2和网络链接L3,网络链接L1的标题是“万圣节的起源”,网络链接L2的标题是“韩国传统节日”,网络链接L3的标题是“家的慢节奏生活品味”,点击网络链接L1,得到网页P1;点击网络链接L2,得到网页P2;点击网络链接L3,得到网页P3。网页P为第一网页,网页P1、网页P2和网页P3均为第二网页。网页P1的标题是“万圣节的起源”,网页P2的标题是“韩国传统节日”,网页P3的标题是“家的生活品味”。由于网页P1的标题与网页P的网络链接L1的标题完全相同,故网页P1是网页P的网络链接L1的正确链接网页。由于网页P2的标题与网页P的网络链接L2的标题完全相同,故网页P2是网页P的网络链接L2的正确链接网页。网页P3的标题与网页P的网络链接L3的标题不完全相同,故需要进一步判断网页P3是否为网页P的网络链接L3的正确链接网页。
通过提取网页上的网络链接的标题和网络链接链接到的新的网页的标题,比较这两个标题是否相同,如果这两个标题相同,则说明网络链接链接到的新的网页是网络链接的正确链接网页,达到了检测网页链接的正确性的目的,从而实现了高效检测网页链接正确性的技术效果,进而解决了无法高效检测网页链接的正确性的技术问题。
可选地,在判断网络链接的标题与第二网页的标题是否相同之后,本申请实施例所提供的网页链接的检测方法还包括:在判断出网络链接的标题与第二网页的标题不相同的情况下,计算网络链接的标题与第二网页的标题的相似度;判断相似度是否在第一预设范围之内;以及如果判断出相似度在第一预设范围之内,确定第二网页是网络链接的正确链接网页。
即,如果判断出网络链接的标题与链接到的网页的标题不完全相同的情况下,继续计算网络链接的标题与链接到的网页的标题的相似度,如果相似度很高,那么该网络链接链接到的网页很可能是该网络链接的正确链接网页。可以采用字符串匹配等方式计算相似度。第一预设范围可以预先设置,例如设置成(70%,100%]或者(80%,100%],等等。相似度如果在第一预设范围之内,那么可以确定网络链接链接到的网页是该网络链接的正确链接网页。
例如,网页P1上有一个网络链接,网络链接的标题为“刘备入川为什么不用诸葛亮随行”,点击这个网络链接,得到网页P2,则网页P1为第一网页,网页P2为第二网页,网页P2上具有标题和内容,网页P2上的标题是“刘备进入四川时为什么不用诸葛亮随行”。由于网页P1的网络链接的标题和网页P2上的标题不相同,因此计算网页P1的网络链接的标题和网页P2上的标题的相似度。设置第一预设范围为(75%,100%]。假设计算出相似度是78%,在第一预设范围之内,故可以确定网页P2是网页P1的网络链接的正确链接网页。
可选地,在判断相似度是否在第一预设范围之内之后,本申请实施例所提供的网页链接的检测方法还包括:如果判断出相似度不在第一预设范围之内,将网络链接的标题进行分词,得到第一分词结果;将第二网页的标题和内容进行分词,得到第二分词结果;计算第一分词结果和第二分词结果的匹配度;如果第一分词结果和第二分词结果的匹配度在第二预设范围之内,确定第二网页是网络链接的正确链接网页;以及如果第一分词结果和第二分词结果的匹配度不在第二预设范围之内,确定第二网页是网络链接的错误链接网页。
如果第一网页上的网络链接的标题与网络链接链接到的第二网页的标题不相同,且二者的相似度不在第一预设范围之内,则将第一网页的网络链接的标题进行分词,将第二网页的标题和内容进行分词,将两个分词结果进行匹配,得到匹配度,如果匹配度在第二预设范围之内,则第二网页是网络链接的正确链接网页;如果匹配度不在第二预设范围之内,则第二网页是网络链接的错误链接网页。对语句进行分词时,需要去除掉一些动词及连词,计算每个词的个数,将出现频率高的若干个词提取出来。
例如,网页P1上有一个网络链接,网络链接的标题为“袁隆平与超级水稻”,点击这个网络链接,得到网页P2,则网页P1为第一网页,网页P2为第二网页,网页P2上具有标题和内容,网页P2上的标题是“袁隆平的故事”。由于网页P1的网络链接的标题和网页P2上的标题不相同,因此计算网页P1的网络链接的标题和网页P2上的标题的相似度。设置第一预设范围为(75%,100%]。假设计算出相似度是40%,不在第一预设范围之内。设置第二预设范围为(80%,100%]。将网络链接的标题“袁隆平与超级水稻”进行分词,得到第一分词结果。将网页P2上的标题和内容进行分词,得到第二分词结果。计算得到第一分词结果和第二分词结果的匹配度为89%,在第二预设范围之内,故网页P2是网页P1上的网络链接的正确链接网页。
可选地,在提取网络链接链接到的第二网页的标题之前,本申请实施例所提供的网页链接的检测方法还包括:在待检测网站上部署网络爬虫;提取网络爬虫在第一网页上爬取到的网络链接的地址;以及确定爬取到的地址所表示的网页为第二网页。
即,在需要进行检测的网站上部署网络爬虫,提取网络爬虫爬取到的网络链接的地址,该地址即为第二网页的地址,该地址可以是URL地址。
可选地,在待检测网站部署网络爬虫之后,本申请实施例所提供的网页链接的检测方法还包括:设置网络爬虫在待检测网站上的爬取层级;以及控制网络爬虫按照爬取层级进行爬取。
网站具有一定的深度。以组织结构为树形结构的网站为例进行说明,网站首页视为第一级网页,第一级网页的网络链接链接到的网页为第二级网页,第二级网页的网络链接链接到的网页为第三级网页,以此类推可以得到一个完整的树形链接结构。在整个树形结构中,链接的层数为网页链接的深度。由于深度非常大的网页很难被用户访问,而且被搜索引擎收录的可能性也较低,因此,需要设置一个爬取层级,使得网络爬虫只爬取层级小于等于预设爬取层级的网页,这样,可以大大提高网络爬虫爬取网页的效率。
图2是根据本申请实施例所提供的网页链接的检测方法进行网页链接的检测的流程图。如图2所示,使用该检测方法进行网页链接的检测时,主要包括以下几个步骤:
步骤S202,在需要进行检测的网站部署网络爬虫。
步骤S204,提取网页的网络链接。该网页即为第一网页。
步骤S206,爬取网络链接链接到的网页。该网络链接链接到的网页为第二网页。
步骤S208,提取网络链接链接到的网页的标题。步骤S208的具体实施方式与上述步骤S104相同。
步骤S210,判断网络链接的标题与该网络链接链接到的网页的标题是否相同。如果判断出网络链接的标题与该网络链接链接到的网页的标题相同,执行步骤S212;如果判断出网络链接的标题与该网络链接链接到的网页的标题不相同,执行步骤S214。步骤S210的具体实施方式与上述步骤S106相同。
步骤S212,确定网络链接链接到的网页是该网络链接的正确链接网页。步骤S212的具体实施方式与上述步骤S108相同。
步骤S214,计算网络链接的标题与该网络链接链接到的网页的标题之间的相似度。
步骤S216,判断相似度是否大于等于第一预设值。如果判断出相似度大于等于第一预设值,执行步骤S212;如果判断出相似度小于第一预设值,执行步骤S218。第一预设值即为上述第一预设范围。
步骤S218,将网络链接的标题进行分词,将该网络链接链接到的网页的标题、内容进行分词,计算这两个分词结果的匹配度。
步骤S220,判断匹配度是否大于等于第二预设值。如果判断出匹配度大于等于第二预设值,执行步骤S212;如果判断出匹配度小于第二预设值,执行步骤S222。第二预设值即为上述第二预设范围。
步骤S222,确定网络链接链接到的网页是该网络链接的错误链接网页。
通过上述实施例,达到了检测网页链接的正确性的目的,从而实现了高效检测网页链接正确性的技术效果,进而解决了无法高效检测网页链接的正确性的技术问题。
根据本申请实施例,还提供了一种网页链接的检测装置。该网页链接的检测装置可以执行上述网页链接的检测方法,上述网页链接的检测方法也可以通过该网页链接的检测装置实施。
图3是根据本申请实施例的网页链接的检测装置的示意图。如图3所示,该装置包括第一提取单元32、第二提取单元34、第一判断单元36和第一确定单元38。
第一提取单元32用于提取第一网页上的网络链接的标题,其中,第一网页是待检测网站的任意一个具有链接的网页。
第二提取单元34用于提取网络链接链接到的第二网页的标题。
第一判断单元36用于判断网络链接的标题与第二网页的标题是否相同。
第一确定单元38用于在判断出网络链接的标题与第二网页的标题相同的情况下,确定第二网页是网络链接的正确链接网页。
待检测网站上有若干个网页,这些网页中,有的网页上有网络链接,有的网页上没有网络链接,通过点击第一网页上的网络链接,用户可以定位到新的网页,这个新的网页即为网络链接链接到的网页,也就是第二网页。需要注意的是,某一个网页是第一网页还是第二网页不是绝对的,而是相对的。例如,网页A上有一个网络链接L1,通过点击网络链接L1,定位到网页B,则网页A为第一网页,网页B为第二网页。网页B上有一个网络链接L2,通过点击网络链接L2,定位到网页C,则网页B为第一网页,网页C为第二网页。第二网页上包括标题和内容。判断第一网页上的网络链接的标题与第二网页上的标题是否完全相同,如果判断出第一网页上的网络链接的标题与第二网页上的标题完全相同,则第二网页是第一网页的网络链接的正确链接网页。如果判断出第一网页上的网络链接的标题与第二网页上的标题不完全相同,则需要进一步判断第二网页是否为第一网页的网络链接的正确链接网页。
例如,网页P1上有一个网络链接,网络链接的标题为“刘备入川为什么不用诸葛亮随行”,点击这个网络链接,得到网页P2,则网页P1为第一网页,网页P2为第二网页,网页P2上具有标题和内容,网页P2上的标题是“刘备入川为什么不用诸葛亮随行”。由于网页P1的网络链接的标题和网页P2上的标题相同,故网页P2是网页P1的网络链接的正确链接网页。
再例如,网页P上有3个网络链接,分别为网络链接L1、网络链接L2和网络链接L3,网络链接L1的标题是“万圣节的起源”,网络链接L2的标题是“韩国传统节日”,网络链接L3的标题是“家的慢节奏生活品味”,点击网络链接L1,得到网页P1;点击网络链接L2,得到网页P2;点击网络链接L3,得到网页P3。网页P为第一网页,网页P1、网页P2和网页P3均为第二网页。网页P1的标题是“万圣节的起源”,网页P2的标题是“韩国传统节日”,网页P3的标题是“家的生活品味”。由于网页P1的标题与网页P的网络链接L1的标题完全相同,故网页P1是网页P的网络链接L1的正确链接网页。由于网页P2的标题与网页P的网络链接L2的标题完全相同,故网页P2是网页P的网络链接L2的正确链接网页。网页P3的标题与网页P的网络链接L3的标题不完全相同,故需要进一步判断网页P3是否为网页P的网络链接L3的正确链接网页。
通过提取网页上的网络链接的标题和网络链接链接到的新的网页的标题,比较这两个标题是否相同,如果这两个标题相同,则说明网络链接链接到的新的网页是网络链接的正确链接网页,达到了检测网页链接的正确性的目的,从而实现了高效检测网页链接正确性的技术效果,进而解决了无法高效检测网页链接的正确性的技术问题。
可选地,本申请实施例所提供的网页链接的检测装置还包括第一计算单元、第二判断单元和第二确定单元。第一计算单元用于在第一判断单元判断网络链接的标题与第二网页的标题是否相同之后,当判断出网络链接的标题与第二网页的标题不相同时,计算网络链接的标题与第二网页的标题的相似度。第二判断单元用于判断相似度是否在第一预设范围之内。第二确定单元用于如果判断出相似度在第一预设范围之内,确定第二网页是网络链接的正确链接网页。
即,如果判断出网络链接的标题与链接到的网页的标题不完全相同的情况下,继续计算网络链接的标题与链接到的网页的标题的相似度,如果相似度很高,那么该网络链接链接到的网页很可能是该网络链接的正确链接网页。可以采用字符串匹配等方式计算相似度。第一预设范围可以预先设置,例如设置成(70%,100%]或者(80%,100%],等等。相似度如果在第一预设范围之内,那么可以确定网络链接链接到的网页是该网络链接的正确链接网页。
例如,网页P1上有一个网络链接,网络链接的标题为“刘备入川为什么不用诸葛亮随行”,点击这个网络链接,得到网页P2,则网页P1为第一网页,网页P2为第二网页,网页P2上具有标题和内容,网页P2上的标题是“刘备进入四川时为什么不用诸葛亮随行”。由于网页P1的网络链接的标题和网页P2上的标题不相同,因此计算网页P1的网络链接的标题和网页P2上的标题的相似度。设置第一预设范围为(75%,100%]。假设计算出相似度是78%,在第一预设范围之内,故可以确定网页P2是网页P1的网络链接的正确链接网页。
可选地,本申请实施例所提供的网页链接的检测装置还包括第一分词单元、第二分词单元、第二计算单元、第三确定单元和第四确定单元。第一分词单元用于在第二判断单元判断相似度是否在第一预设范围之内之后,当判断出相似度不在第一预设范围之内时,将网络链接的标题进行分词,得到第一分词结果。第二分词单元用于将第二网页的标题和内容进行分词,得到第二分词结果。第二计算单元用于计算第一分词结果和第二分词结果的匹配度。第三确定单元用于当第一分词结果和第二分词结果的匹配度在第二预设范围之内时,确定第二网页是网络链接的正确链接网页。第四确定单元,用于当第一分词结果和第二分词结果的匹配度不在第二预设范围之内时,确定第二网页是网络链接的错误链接网页。
如果第一网页上的网络链接的标题与网络链接链接到的第二网页的标题不相同,且二者的相似度不在第一预设范围之内,则将第一网页的网络链接的标题进行分词,将第二网页的标题和内容进行分词,将两个分词结果进行匹配,得到匹配度,如果匹配度在第二预设范围之内,则第二网页是网络链接的正确链接网页;如果匹配度不在第二预设范围之内,则第二网页是网络链接的错误链接网页。对语句进行分词时,需要去除掉一些动词及连词,计算每个词的个数,将出现频率高的若干个词提取出来。
例如,网页P1上有一个网络链接,网络链接的标题为“袁隆平与超级水稻”,点击这个网络链接,得到网页P2,则网页P1为第一网页,网页P2为第二网页,网页P2上具有标题和内容,网页P2上的标题是“袁隆平的故事”。由于网页P1的网络链接的标题和网页P2上的标题不相同,因此计算网页P1的网络链接的标题和网页P2上的标题的相似度。设置第一预设范围为(75%,100%]。假设计算出相似度是40%,不在第一预设范围之内。设置第二预设范围为(80%,100%]。将网络链接的标题“袁隆平与超级水稻”进行分词,得到第一分词结果。将网页P2上的标题和内容进行分词,得到第二分词结果。计算得到第一分词结果和第二分词结果的匹配度为89%,在第二预设范围之内,故网页P2是网页P1上的网络链接的正确链接网页。
可选地,本申请实施例所提供的网页链接的检测装置还包括部署单元、第三提取单元和第五确定单元。部署单元用于在第二提取单元提取网络链接链接到的第二网页的标题之前,在待检测网站上部署网络爬虫。第三提取单元用于提取网络爬虫在第一网页上爬取到的网络链接的地址。第五确定单元,用于确定爬取到的地址所表示的网页为第二网页。
即,在需要进行检测的网站上部署网络爬虫,提取网络爬虫爬取到的网络链接的地址,该地址即为第二网页的地址,该地址可以是URL地址。
可选地,本申请实施例所提供的网页链接的检测装置还包括设置单元和控制单元。设置单元用于在部署单元在待检测网站部署网络爬虫之后,设置网络爬虫在待检测网站上的爬取层级。控制单元,用于控制网络爬虫按照爬取层级进行爬取。
网站具有一定的深度。以组织结构为树形结构的网站为例进行说明,网站首页视为第一级网页,第一级网页的网络链接链接到的网页为第二级网页,第二级网页的网络链接链接到的网页为第三级网页,以此类推可以得到一个完整的树形链接结构。在整个树形结构中,链接的层数为网页链接的深度。由于深度非常大的网页很难被用户访问,而且被搜索引擎收录的可能性也较低,因此,需要设置一个爬取层级,使得网络爬虫只爬取层级小于等于预设爬取层级的网页,这样,可以大大提高网络爬虫爬取网页的效率。
所述网页链接的检测装置包括处理器和存储器,上述第一提取单元32、第二提取单元34、第一判断单元36和第一确定单元38等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来高效检测网页链接的正确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:提取第一网页上的网络链接的标题,其中,第一网页是待检测网站的任意一个具有链接的网页,提取网络链接链接到的第二网页的标题,判断网络链接的标题与第二网页的标题是否相同,在判断出网络链接的标题与第二网页的标题相同的情况下,确定第二网页是网络链接的正确链接网页。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,单元或模块的间接耦合或通信链接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种网页链接的检测方法,其特征在于,包括:
提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;
提取所述网络链接链接到的第二网页的标题;
判断所述网络链接的标题与所述第二网页的标题是否相同;以及
在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。
2.根据权利要求1所述的方法,其特征在于,在判断所述网络链接的标题与所述第二网页的标题是否相同之后,所述方法还包括:
在判断出所述网络链接的标题与所述第二网页的标题不相同的情况下,计算所述网络链接的标题与所述第二网页的标题的相似度;
判断所述相似度是否在第一预设范围之内;以及
如果判断出所述相似度在所述第一预设范围之内,确定所述第二网页是所述网络链接的正确链接网页。
3.根据权利要求2所述的方法,其特征在于,在判断所述相似度是否在第一预设范围之内之后,所述方法还包括:
如果判断出所述相似度不在所述第一预设范围之内,将所述网络链接的标题进行分词,得到第一分词结果;
将所述第二网页的标题和内容进行分词,得到第二分词结果;
计算所述第一分词结果和所述第二分词结果的匹配度;
如果所述第一分词结果和所述第二分词结果的所述匹配度在第二预设范围之内,确定所述第二网页是所述网络链接的正确链接网页;以及
如果所述第一分词结果和所述第二分词结果的所述匹配度不在第二预设范围之内,确定所述第二网页是所述网络链接的错误链接网页。
4.根据权利要求1所述的方法,其特征在于,在提取所述网络链接链接到的第二网页的标题之前,所述方法还包括:
在所述待检测网站上部署网络爬虫;
提取所述网络爬虫在所述第一网页上爬取到的所述网络链接的地址;以及
确定爬取到的地址所表示的网页为所述第二网页。
5.根据权利要求4所述的方法,其特征在于,在所述待检测网站部署网络爬虫之后,所述方法还包括:
设置所述网络爬虫在所述待检测网站上的爬取层级;以及
控制所述网络爬虫按照所述爬取层级进行爬取。
6.一种网页链接的检测装置,其特征在于,包括:
第一提取单元,用于提取第一网页上的网络链接的标题,其中,所述第一网页是待检测网站的任意一个具有链接的网页;
第二提取单元,用于提取所述网络链接链接到的第二网页的标题;
第一判断单元,用于判断所述网络链接的标题与所述第二网页的标题是否相同;以及
第一确定单元,用于在判断出所述网络链接的标题与所述第二网页的标题相同的情况下,确定所述第二网页是所述网络链接的正确链接网页。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一计算单元,用于在所述第一判断单元判断所述网络链接的标题与所述第二网页的标题是否相同之后,当判断出所述网络链接的标题与所述第二网页的标题不相同时,计算所述网络链接的标题与所述第二网页的标题的相似度;
第二判断单元,用于判断所述相似度是否在第一预设范围之内;以及
第二确定单元,用于如果判断出所述相似度在所述第一预设范围之内,确定所述第二网页是所述网络链接的正确链接网页。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一分词单元,用于在所述第二判断单元判断所述相似度是否在第一预设范围之内之后,当判断出所述相似度不在所述第一预设范围之内时,将所述网络链接的标题进行分词,得到第一分词结果;
第二分词单元,用于将所述第二网页的标题和内容进行分词,得到第二分词结果;
第二计算单元,用于计算所述第一分词结果和所述第二分词结果的匹配度;
第三确定单元,用于当所述第一分词结果和所述第二分词结果的所述匹配度在第二预设范围之内时,确定所述第二网页是所述网络链接的正确链接网页;以及
第四确定单元,用于当所述第一分词结果和所述第二分词结果的所述匹配度不在第二预设范围之内时,确定所述第二网页是所述网络链接的错误链接网页。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
部署单元,用于在所述第二提取单元提取所述网络链接链接到的第二网页的标题之前,在所述待检测网站上部署网络爬虫;
第三提取单元,用于提取所述网络爬虫在所述第一网页上爬取到的所述网络链接的地址;以及
第五确定单元,用于确定爬取到的地址所表示的网页为所述第二网页。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
设置单元,用于在所述部署单元在所述待检测网站部署网络爬虫之后,设置所述网络爬虫在所述待检测网站上的爬取层级;以及
控制单元,用于控制所述网络爬虫按照所述爬取层级进行爬取。
CN201510719847.XA 2015-10-29 2015-10-29 网页链接的检测方法和装置 Pending CN106649327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510719847.XA CN106649327A (zh) 2015-10-29 2015-10-29 网页链接的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510719847.XA CN106649327A (zh) 2015-10-29 2015-10-29 网页链接的检测方法和装置

Publications (1)

Publication Number Publication Date
CN106649327A true CN106649327A (zh) 2017-05-10

Family

ID=58830287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510719847.XA Pending CN106649327A (zh) 2015-10-29 2015-10-29 网页链接的检测方法和装置

Country Status (1)

Country Link
CN (1) CN106649327A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067716A (zh) * 2018-07-18 2018-12-21 杭州安恒信息技术股份有限公司 一种识别暗链的方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1497478A (zh) * 2002-10-17 2004-05-19 日本电气株式会社 用于检验超级文本的装置、方法和计算机程序产品
CN101000628A (zh) * 2006-01-13 2007-07-18 国际商业机器公司 错误超链接检测设备及其方法
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN104182429A (zh) * 2013-05-28 2014-12-03 腾讯科技(深圳)有限公司 网页处理方法和终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1497478A (zh) * 2002-10-17 2004-05-19 日本电气株式会社 用于检验超级文本的装置、方法和计算机程序产品
CN101000628A (zh) * 2006-01-13 2007-07-18 国际商业机器公司 错误超链接检测设备及其方法
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN104182429A (zh) * 2013-05-28 2014-12-03 腾讯科技(深圳)有限公司 网页处理方法和终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067716A (zh) * 2018-07-18 2018-12-21 杭州安恒信息技术股份有限公司 一种识别暗链的方法与系统

Similar Documents

Publication Publication Date Title
CN108777674B (zh) 一种基于多特征融合的钓鱼网站检测方法
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN108959383A (zh) 网络舆情的分析方法、装置及计算机可读存储介质
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN102087648B (zh) 一种新闻评论页面的爬取方法及系统
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN104778164B (zh) 检测重复url的方法及装置
CN104391978B (zh) 用于浏览器的网页收藏处理方法及装置
CN103399872B (zh) 对网页抓取进行优化的方法和装置
CN104679825A (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN109815381A (zh) 用户画像构建方法、系统、计算机设备及存储介质
CN103530429A (zh) 一种网页正文抽取的方法
CN104268289B (zh) 链接url的失效检测方法和装置
CN106611029A (zh) 提高网站站内搜索效率的方法和装置
CN109347873A (zh) 一种命令注入攻击的检测方法、装置及计算机设备
CN106547778A (zh) 网页的爬取方法和装置
CN110781497B (zh) 网页链接的检测方法及存储介质
CN105183843A (zh) 列表页识别系统及方法
CN106649327A (zh) 网页链接的检测方法和装置
CN108694192B (zh) 网页类型的判断方法及装置
CN107526833A (zh) 一种url管理方法、系统
CN103870590B (zh) 具有报错特征的网页识别方法和装置
CN103324720A (zh) 根据用户状态进行个性化推荐的方法和系统
CN111125704A (zh) 一种网页挂马识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication