CN106547775A - 网站内容的检测方法及装置 - Google Patents

网站内容的检测方法及装置 Download PDF

Info

Publication number
CN106547775A
CN106547775A CN201510605160.3A CN201510605160A CN106547775A CN 106547775 A CN106547775 A CN 106547775A CN 201510605160 A CN201510605160 A CN 201510605160A CN 106547775 A CN106547775 A CN 106547775A
Authority
CN
China
Prior art keywords
content
character string
link
crawls
links
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510605160.3A
Other languages
English (en)
Other versions
CN106547775B (zh
Inventor
冯鸳鹤
孙德彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510605160.3A priority Critical patent/CN106547775B/zh
Publication of CN106547775A publication Critical patent/CN106547775A/zh
Application granted granted Critical
Publication of CN106547775B publication Critical patent/CN106547775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网站内容的检测方法及装置。其中,该方法包括:获取爬取页面集合中任意一个列表页面;获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;获取第一字符串和第二字符串,其中,第一字符串是由第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,第二字符串是由第二爬取内容中链接的链接地址按照预设顺序拼成的字符串;以及根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新。通过本申请,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题。

Description

网站内容的检测方法及装置
技术领域
本申请涉及信息检测领域,具体而言,涉及一种网站内容的检测方法及装置。
背景技术
网站的内容更新是指网站有新的页面发布。大多数网站在有新的页面发布时都会把新发布页面的链接在网站首页上展现,甚至很多会展现新页面的简介等。网站首页内容更新是指网站首页的内容有新的变化,大多时候是某些栏目的链接列表有更新。网站的内容是否有更新这个指标主要体现出网站的活跃度和信息的有效度。特别对政府网站,这也是上级政府考核下级政府门户网站的重要指标。有关政府文件中明确规定了以网站内容的更新情况对所有政府网站进行考核。所以准确的判断网站的内容是否更新在政府行业网站中受到极大的重视。为了更新的内容能够更便捷的被用户访问,也为了集中体现网站的更新比较及时,大多政府网站有更新时,都会把最新的内容更新在网站首页上体现。
网站内容更新无非两种情况,发布新的内容页面和列表页面出现新的链接。网站发布新的内容页面可以通过爬虫准确的检测到,但列表页面出现新的链接却非常不容易甄别。相关技术中,通过列表页面中的链接和链接标题来分析列表页面是否有更新,从而判断网站内容是否有更新。但是当列表页面引用同一个链接,但是链接的标题会随着时间变化,最常见的就是列表页面显示当地的天气预报。天气预报链接不变,但是随着三个小时发布一次天气预报,链接标题就会变化。这样就会被认为列表页面有更新,从而误判网站内容有更新。
针对相关技术中在判断网站的内容是否有更新时准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网站内容的检测方法及装置,以解决相关技术中在判断网站的内容是否有更新时准确性较低的问题。
为了实现上述目的,根据本发明本申请的一个方面,提供了一种网站内容的检测方法。该方法包括:获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;获取第一爬取内容和第二爬 取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;获取第一字符串和第二字符串,其中,第一字符串是由第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,第二字符串是由第二爬取内容中链接的链接地址按照预设顺序拼成的字符串;以及根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新。
进一步地,在获取第一爬取内容和第二爬取内容之后,在获取第一字符串和第二字符串之前,该方法还包括:统计多个第一链接数量和多个第二链接数量,其中,多个第一链接数量分别为第一链接集合中多个容器级父元素下的子元素是链接的链接个数,多个第二链接数量分别为第二链接集合中多个容器级父元素下的子元素是链接的链接个数,第一链接集合为第一爬取内容中所有链接的集合,第二链接集合为第二爬取内容中所有链接的集合;确定第一目标链接集合和第二目标链接集合,其中,第一目标链接集合为第一链接集合中多个第一链接数量大于预设数值的链接组成的集合,第二目标链接集合为第一链接集合中多个第二链接数量大于预设数值的链接组成的集合,获取第一字符串和第二字符串包括:获取由第一目标链接集合中链接地址按照预设顺序拼成的第一字符串,获取由第二目标链接集合中链接地址按照预设顺序拼成的第二字符串。
进一步地,根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新包括:根据第一字符串和第二字符串检测在目标时间段内列表页面的内容是否有更新;以及基于在目标时间段内列表页面的内容是否有更新判定在目标时间段内目标网站的内容是否有更新。
进一步地,根据第一字符串和第二字符串检测在目标时间段内列表页面的内容是否有更新包括:按照预设算法对第一字符串进行计算,得到第一哈希值;按照预设算法对第二字符串进行计算,得到第二哈希值;判断第一哈希值与第二哈希值是否相同;如果第一哈希值与第二哈希值相同,确定在目标时间段内列表页面的内容没有更新;如果第一哈希值与第二哈希值不相同,确定在目标时间段内列表页面的内容有更新。
进一步地,在获取爬取页面集合中任意一个列表页面之前,该方法还包括:获取目标网站的爬取页面集合;获取爬取页面集合中任意一个爬取页面;计算爬取页面中的链接内容在爬取页面中所有内容的占比,得到链接比例;判断链接比例是否大于预设比例;以及如果链接比例大于预设比例,确定爬取页面为列表页面。
进一步地,获取目标网站的爬取页面集合包括:确定目标时间段和目标网站;在预设数据库中提取在目标时间段内对目标网站进行爬取的多个网站页面;以及将多个网站页面作为爬取页面集合。
进一步地,第一时刻为目标时间段的起始时刻,第二时刻为目标时间段的结束时刻。
为了实现上述目的,根据本申请的另一方面,提供了一种网站内容的检测装置。该装置包括:第一获取单元,用于获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;第二获取单元,用于获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;第三获取单元,用于获取第一字符串和第二字符串,其中,第一字符串是由第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,第二字符串是由第二爬取内容中链接的链接地址按照预设顺序拼成的字符串;以及检测单元,用于根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新。
进一步地,该装置还包括:统计单元,用于统计多个第一链接数量和多个第二链接数量,其中,多个第一链接数量分别为第一链接集合中多个容器级父元素下的子元素是链接的链接个数,多个第二链接数量分别为第二链接集合中多个容器级父元素下的子元素是链接的链接个数,第一链接集合为第一爬取内容中所有链接的集合,第二链接集合为第二爬取内容中所有链接的集合;确定单元,用于确定第一目标链接集合和第二目标链接集合,其中,第一目标链接集合为第一链接集合中多个第一链接数量大于预设数值的链接组成的集合,第二目标链接集合为第一链接集合中多个第二链接数量大于预设数值的链接组成的集合,第三获取单元还用于获取由第一目标链接集合中链接地址按照预设顺序拼成的第一字符串,并获取由第二目标链接集合中链接地址按照预设顺序拼成的第二字符串。
进一步地,检测单元包括:检测模块,用于根据第一字符串和第二字符串检测在目标时间段内列表页面的内容是否有更新;以及判定模块,用于基于在目标时间段内列表页面的内容是否有更新判定在目标时间段内目标网站的内容是否有更新。
通过本申请,采用以下步骤:获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;获取第一字符串和第二字符串,其中,第一字符串是由第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,第二字符串是由第二爬取内容中链接的链接地址按照预设顺序拼成的字符串;以及根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题,根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新, 进而达到了提升判断网站的内容是否有更新的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网站内容的检测方法的流程图;以及
图2是根据本申请实施例的网站内容的检测装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种网站内容的检测方法。
图1是根据本申请第一实施例的网站内容的检测方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合。
为了分析目标网站内容是否有更新,通过爬虫技术对目标网站的网站内容进行爬取,对网站内容爬取后的爬取结果为多个网站页面。爬取结果的历史数据包括多个时 间段的爬取结果,在目标时间段内对目标网站进行爬取的网站页面的集合为爬取页面集合。其中,爬取页面集合中包括列表页面和内容页面。获取爬取页面集合中任意一个列表页面。
例如,目标网站为news.sina.com,通过爬虫技术对news.sina.com的网站内容进行爬取,在爬取的历史数据中,包含了2015年1月1日至2015年8月28日的爬取结果,为了判断news.sina.com在2015年8月27日网站的内容是否有更新,在历史数据中,2015年8月27日对news.sina.com进行爬取由多个网站页面组成爬取页面集合,获取该爬取页面集合中任意一个列表页面。
步骤S102,获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容。
例如,获取2015年8月27日的00:30分news.sina.com列表页面的内容;获取2015年8月27日的23:30分news.sina.com列表页面的内容。
步骤S103,获取第一字符串和第二字符串,其中,第一字符串是由第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,第二字符串是由第二爬取内容中链接的链接地址按照预设顺序拼成的字符串。
需要说明的是:链接由链接地址和链接标题组成,具体地,每一个链接都包含以下内容:<a href="链接地址"target="_blank">链接标题</a>。
例如,2015年8月27日的00:30分news.sina.com列表页面的内容中的链接为“<a href=http://news.sina.com.cn/c/2015-08-27/100232242111.shtml target=”blank”>女童帮奶奶扫马路</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9328934.shtml target=”blank”>飞机发动机解体</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafi9645753.shtml target=”blank”>发改委连发三文谈经济:下半年有望平稳增长</a>;<a href=http://news.sina.com.cn/c/2015-08-27/083432240842.shtm l target=”blank”>我最喜爱的十大抗战歌曲发布</a>;<a href=http://mil.news.sina.co m.cn/2015-08-27/0815837905.html target=”blank”>农村大学生的未来</a>;<a href=http://news.sina.com.cn/c/sd/2015-08-27/doc-ifxhehqr6342167.shtml target=”blank”>中式快餐第一股纽交所上市5年后将退市</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9317832.shtml target=”blank”>广州将率先试行中小学开设金融理财课程</a>;<a href=http://news.sina.com.cn/c/2015-08-27/050232240783.shtml tar get=”blank”>长沙修地铁200颗树被砍伐移栽官方回应</a>;<a href=http://news.sin a.com.cn/c/2015-08-27/042532240775.shtml target=”blank”>流浪乞讨人员将建寻亲服 务机制</a>。2015年8月27日的23:30分news.sina.com列表页面的内容中的链接为”<a href=http://news.sina.com.cn/c/2015-08-27/100232242111.shtml target=”blank”>女童帮奶奶扫马路</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9328934.shtml target=”blank”>飞机发动机解体</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafi9645753.shtml target=”blank”>发改委连发三文谈经济:下半年有望平稳增长</a>;<a href=http://news.sina.com.cn/c/2015-08-27/083432240842.shtm l target=”blank”>我最喜爱的十大抗战歌曲发布</a>;<a href=http://mil.news.sina.co m.cn/2015-08-27/0815837905.html target=”blank”>农村大学生的未来</a>;<a href=http://news.sina.com.cn/c/sd/2015-08-27/doc-ifxhehqr6342167.shtml target=”blank”>中式快餐第一股纽交所上市5年后将退市</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9317832.shtml target=”blank”>广州将率先试行中小学开设金融理财课程</a>;<a href=http://news.sina.com.cn/c/2015-08-27/050232240783.shtml target=”blank”>长沙修地铁200颗树被砍伐移栽官方回应</a>;<a href=http://news.sina.com.cn/c/2015-08-27/042532040875.shtml target=”blank”>中国好声音最受欢迎歌曲公布</a>”。
将第一爬取内容和第二爬取内容中无意义的内容全部去掉,例如,页面的标头、标尾和导航等,只保留主体内容部分。将第一爬取内容和第二爬取内容中链接按照顺序从头至尾提取链接地址。并将所有链接地址按照顺序进行拼接,分别组成第一字符串和第二字符串。
即第一字符串为“http://news.sina.com.cn/c/2015-08-27/100232242111.shtmlhttp://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9328934.shtmlhttp://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafi9645753.shtmlhttp://news.sina.com.cn/c/2015-08-27/083432240842.shtmlhttp://mil.news.sina.com.cn/2015-08-27/0815837905.htmlhttp://news.sina.com.cn/c/sd/2015-08-27/doc-ifxhehqr6342167.shtmlhttp://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9317832.shtmlhttp://news.sina.com.cn/c/2015-08-27/050232240783.shtmlhttp://news.sina.com.cn/c/2015-08-27/042532240775.shtml”;第二字符串为“http://news.sina.com.cn/c/2015-08-27/100232242111.shtmlhttp://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9328934.shtmlhttp://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafi9645753.shtmlhttp://news.sina.com.cn/c/2015-08-27/083432240842.shtmlhttp://mil.news.sina.com.cn/2015-08-27/0815837905.htmlhttp://news.sina.com.cn/c/sd/2015-08-27/doc-ifxhehqr6342167.shtmlhttp://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9317832.shtmlhttp://news.sina.com.cn/c/2015-08-27/050232240783.shtmlhttp://news.sina.com.cn/c/2015-08-27/042532040875.shtml”。
步骤S104,根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新。
上述步骤S101至步骤S104,通过抽取列表页面中的链接中的链接地址,来检测在目标时间段内目标网站的内容是否有更新。避免了由于列表页面引用同一个链接,但是链接的标题会随着时间变化,从而认为网站内容有更新的问题,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题,进而达到了提升判断网站的内容是否有更新的准确性的效果。
本申请实施例提供的网站内容的检测方法,通过获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;获取第一字符串和第二字符串,其中,第一字符串是由第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,第二字符串是由第二爬取内容中链接的链接地址按照预设顺序拼成的字符串;以及根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题。进而达到了提升判断网站的内容是否有更新的准确性的效果。
可选地,在本申请实施例提供的网站内容的检测方法中,在获取第一爬取内容和第二爬取内容之后,在获取第一字符串和第二字符串之前,该方法还包括:统计多个第一链接数量和多个第二链接数量,其中,多个第一链接数量分别为第一链接集合中多个容器级父元素下的子元素是链接的链接个数,多个第二链接数量分别为第二链接集合中多个容器级父元素下的子元素是链接的链接个数,第一链接集合为第一爬取内容中所有链接的集合,第二链接集合为第二爬取内容中所有链接的集合;确定第一目标链接集合和第二目标链接集合,其中,第一目标链接集合为第一链接集合中多个第一链接数量大于预设数值的链接组成的集合,第二目标链接集合为第一链接集合中多个第二链接数量大于预设数值的链接组成的集合,获取第一字符串和第二字符串包括:获取由第一目标链接集合中链接地址按照预设顺序拼成的第一字符串,获取由第二目标链接集合中链接地址按照预设顺序拼成的第二字符串。
通过分别提取第一爬取内容和第二爬取内容中的所有集中出现的链接,在列表页面的第一时刻和第二时刻的内容中查找具体链接,如果该链接是容器级父元素下的子元素都是链接,则认为这个链接是集中出现的链接,即第一目标链接集合和第二目标链接集合。通过本申请实施例提供的网站内容的检测方法,避免了在网站内容中由于个别单独出现的链接,链接地址不变,链接标题发生变化,误认为列表页有更新,从而认定网站内容有更新的问题。例如,列表页面显示当地的天气预报,天气预报链接不变,但是随着三个小时发布一次天气预报,链接标题就会变化。这样就会认为列表页有更新,从而误认网站内容有更新。
可选地,在本申请实施例提供的网站内容的检测方法中,根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新还可以通过以下步骤实现:根据第一字符串和第二字符串检测在目标时间段内列表页面的内容是否有更新;以及基于在目标时间段内列表页面的内容是否有更新判定在目标时间段内目标网站的内容是否有更新。
根据第一字符串和第二字符串检测在目标时间段内列表页面的内容是否有更新,如果在目标时间段内列表页面的内容有更新,确定在目标时间段内目标网站的内容有更新;如果在目标时间段内列表页面的内容没有更新,确定在目标时间段内目标网站的内容没有更新。
可选地,在本申请实施例提供的网站内容的检测方法中,根据第一字符串和第二字符串检测在目标时间段内列表页面的内容是否有更新还可以通过以下步骤实现:按照预设算法对第一字符串进行计算,得到第一哈希值;按照预设算法对第二字符串进行计算,得到第二哈希值;判断第一哈希值与第二哈希值是否相同;如果第一哈希值与第二哈希值相同,确定在目标时间段内列表页面的内容没有更新;如果第一哈希值与第二哈希值不相同,确定在目标时间段内列表页面的内容有更新。
需要说明的是,以上的预设算法为相同的哈希(hash)算法,使用相同的hash算法,对第一首页内容和第二首页内容进行计算,分别得到第一哈希值和第二哈希值。
例如,按照预设算法对2015年8月27日的00:30分news.sina.com列表页面的内容中的链接组成的第一链接字符串进行计算,得到aacdedsangkblyed,按照预设算法对2015年8月27日的23:59分news.sina.com列表页面的内容中的链接组成的第一链接字符串进行计算,得到aacdfdsangkblyed。第一哈希值aacdedsangkblyed与第二哈希值aacdfdsangkblyed不相同,确定2015年8月27日news.sina.com的列表页面的内容有更新。
可选地,为了提升获取列表页面的准确性,在本申请实施例提供的网站内容的检测方法中,在获取爬取页面集合中任意一个列表页面之前,该方法还包括:获取目标网站的爬取页面集合;获取爬取页面集合中任意一个爬取页面;计算爬取页面中的链接内容在爬取页面中所有内容的占比,得到链接比例;判断链接比例是否大于预设比例;以及如果链接比例大于预设比例,确定爬取页面为列表页面。
可选地,在本申请实施例提供的网站内容的检测方法中,获取目标网站的爬取页面集合还可以通过以下步骤实现:确定目标时间段和目标网站;在预设数据库中提取在目标时间段内对目标网站进行爬取的多个网站页面;以及将多个网站页面作为爬取页面集合。
通过预先将爬取结果的历史数据存储在预设数据库中,在预设数据库中提取在目标时间段内对目标网站进行爬取的多个网站页面,从而提升了获取目标网站的爬取页面集合的效率。
可选地,本申请第一实施例提供的网站内容的检测方法中,第一时刻为目标时间段的起始时刻,第二时刻为目标时间段的结束时刻。
例如,第一时刻为2015年8月27日的00:00分,第二时刻为2015年8月27日的23:59分。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网站内容的检测装置,需要说明的是,本申请实施例的网站内容的检测装置可以用于执行本申请实施例所提供的用于网站内容的检测方法。以下对本申请实施例提供的网站内容的检测装置进行介绍。
图2是根据本申请实施例的网站内容的检测装置的示意图。如图2所示,该装置包括:第一获取单元10、第二获取单元20、第三获取单元30和检测单元40。
第一获取单元10,用于获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;第二获取单元20,用于获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;第三获取单元30,用于获取第一字符串和第二字符串,其中,第一字符串是由第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,第二字符串是由第二爬取内容中链接的链接地址按照预设顺序拼成的字符串;以及检测单元40,用于根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新。
本申请实施例提供的网站内容的检测装置,通过第一获取单元10获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;第二获取单元20获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;第三获取单元30获取第一字符串和第二字符串,其中,第一字符串是由第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,第二字符串是由第二爬取内容中链接的链接地址按照预设顺序拼成的字符串;以及检测单元40根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题, 通过检测单元40根据第一字符串和第二字符串检测在目标时间段内目标网站的内容是否有更新,进而达到了提升判断网站的内容是否有更新的准确性的效果。
可选地,为了提升判断网站的内容是否有更新的准确性,在本申请实施例提供的网站内容的检测装置中,该装置还包括:统计单元,用于统计多个第一链接数量和多个第二链接数量,其中,多个第一链接数量分别为第一链接集合中多个容器级父元素下的子元素是链接的链接个数,多个第二链接数量分别为第二链接集合中多个容器级父元素下的子元素是链接的链接个数,第一链接集合为第一爬取内容中所有链接的集合,第二链接集合为第二爬取内容中所有链接的集合;确定单元,用于确定第一目标链接集合和第二目标链接集合,其中,第一目标链接集合为第一链接集合中多个第一链接数量大于预设数值的链接组成的集合,第二目标链接集合为第一链接集合中多个第二链接数量大于预设数值的链接组成的集合,第三获取单元还用于获取由第一目标链接集合中链接地址按照预设顺序拼成的第一字符串,并获取由第二目标链接集合中链接地址按照预设顺序拼成的第二字符串。
可选地,在本申请实施例提供的网站内容的检测装置中,检测单元40包括:检测模块,用于根据第一字符串和第二字符串检测在目标时间段内列表页面的内容是否有更新;以及判定模块,用于基于在目标时间段内列表页面的内容是否有更新判定在目标时间段内目标网站的内容是否有更新。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种网站内容的检测方法,其特征在于,包括:
获取爬取页面集合中任意一个列表页面,其中,所述爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;
获取第一爬取内容和第二爬取内容,其中,所述第一爬取内容为在所述目标时间段内的第一时刻爬取所述列表页面的内容,所述第二爬取内容为在所述目标时间段内的第二时刻爬取所述列表页面的内容;
获取第一字符串和第二字符串,其中,所述第一字符串是由所述第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,所述第二字符串是由所述第二爬取内容中链接的链接地址按照所述预设顺序拼成的字符串;以及
根据所述第一字符串和所述第二字符串检测在所述目标时间段内所述目标网站的内容是否有更新。
2.根据权利要求1所述的方法,其特征在于,
在获取所述第一爬取内容和所述第二爬取内容之后,在获取所述第一字符串和所述第二字符串之前,所述方法还包括:统计多个第一链接数量和多个第二链接数量,其中,所述多个第一链接数量分别为第一链接集合中多个容器级父元素下的子元素是链接的链接个数,所述多个第二链接数量分别为第二链接集合中多个容器级父元素下的子元素是链接的链接个数,所述第一链接集合为所述第一爬取内容中所有链接的集合,所述第二链接集合为所述第二爬取内容中所有链接的集合;确定第一目标链接集合和第二目标链接集合,其中,所述第一目标链接集合为所述第一链接集合中所述多个第一链接数量大于预设数值的链接组成的集合,所述第二目标链接集合为所述第一链接集合中所述多个第二链接数量大于所述预设数值的链接组成的集合,
获取所述第一字符串和所述第二字符串包括:获取由所述第一目标链接集合中链接地址按照预设顺序拼成的第一字符串,获取由所述第二目标链接集合中链接地址按照预设顺序拼成的第二字符串。
3.根据权利要求1或2所述的方法,其特征在于,根据所述第一字符串和所述第二字符串检测在所述目标时间段内所述目标网站的内容是否有更新包括:
根据所述第一字符串和所述第二字符串检测在所述目标时间段内所述列表页面的内容是否有更新;以及
基于在所述目标时间段内所述列表页面的内容是否有更新判定在所述目标时间段内所述目标网站的内容是否有更新。
4.根据权利要求3所述的方法,其特征在于,根据所述第一字符串和所述第二字符串检测在所述目标时间段内所述列表页面的内容是否有更新包括:
按照预设算法对所述第一字符串进行计算,得到第一哈希值;
按照所述预设算法对所述第二字符串进行计算,得到第二哈希值;
判断所述第一哈希值与所述第二哈希值是否相同;
如果所述第一哈希值与所述第二哈希值相同,确定在所述目标时间段内所述列表页面的内容没有更新;以及
如果所述第一哈希值与所述第二哈希值不相同,确定在所述目标时间段内所述列表页面的内容有更新。
5.根据权利要求1所述的方法,其特征在于,在获取所述爬取页面集合中任意一个列表页面之前,所述方法还包括:
获取所述目标网站的爬取页面集合;
获取所述爬取页面集合中任意一个爬取页面;
计算所述爬取页面中的链接内容在所述爬取页面中所有内容的占比,得到链接比例;
判断所述链接比例是否大于预设比例;以及
如果所述链接比例大于所述预设比例,确定所述爬取页面为所述列表页面。
6.根据权利要求5所述的方法,其特征在于,获取所述目标网站的爬取页面集合包括:
确定所述目标时间段和所述目标网站;
在预设数据库中提取在所述目标时间段内对所述目标网站进行爬取的多个网站页面;以及
将所述多个网站页面作为所述爬取页面集合。
7.根据权利要求1所述的方法,其特征在于,所述第一时刻为所述目标时间段的起始时刻,所述第二时刻为所述目标时间段的结束时刻。
8.一种网站内容的检测装置,其特征在于,包括:
第一获取单元,用于获取爬取页面集合中任意一个列表页面,其中,所述爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;
第二获取单元,用于获取第一爬取内容和第二爬取内容,其中,所述第一爬取内容为在所述目标时间段内的第一时刻爬取所述列表页面的内容,所述第二爬取内容为在所述目标时间段内的第二时刻爬取所述列表页面的内容;
第三获取单元,用于获取第一字符串和第二字符串,其中,所述第一字符串是由所述第一爬取内容中链接的链接地址按照预设顺序拼成的字符串,所述第二字符串是由所述第二爬取内容中链接的链接地址按照所述预设顺序拼成的字符串;以及
检测单元,用于根据所述第一字符串和所述第二字符串检测在所述目标时间段内所述目标网站的内容是否有更新。
9.根据权利要求8所述的装置,其特征在于,
所述装置还包括:统计单元,用于统计多个第一链接数量和多个第二链接数量,其中,所述多个第一链接数量分别为第一链接集合中多个容器级父元素下的子元素是链接的链接个数,所述多个第二链接数量分别为第二链接集合中多个容器级父元素下的子元素是链接的链接个数,所述第一链接集合为所述第一爬取内容中所有链接的集合,所述第二链接集合为所述第二爬取内容中所有链接的集合;确定单元,用于确定第一目标链接集合和第二目标链接集合,其中,所述第一目标链接集合为所述第一链接集合中所述多个第一链接数量大于预设数值的链接组成的集合,所述第二目标链接集合为所述第一链接集合中所述多个第二链接数量大于所述预设数值的链接组成的集合,
所述第三获取单元还用于获取由所述第一目标链接集合中链接地址按照预设顺序拼成的第一字符串,并获取由所述第二目标链接集合中链接地址按照预设顺序拼成的第二字符串。
10.根据权利要求8或9所述的装置,其特征在于,所述检测单元包括:
检测模块,用于根据所述第一字符串和所述第二字符串检测在所述目标时间段内所述列表页面的内容是否有更新;以及
判定模块,用于基于在所述目标时间段内所述列表页面的内容是否有更新判定在所述目标时间段内所述目标网站的内容是否有更新。
CN201510605160.3A 2015-09-21 2015-09-21 网站内容的检测方法及装置 Active CN106547775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510605160.3A CN106547775B (zh) 2015-09-21 2015-09-21 网站内容的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510605160.3A CN106547775B (zh) 2015-09-21 2015-09-21 网站内容的检测方法及装置

Publications (2)

Publication Number Publication Date
CN106547775A true CN106547775A (zh) 2017-03-29
CN106547775B CN106547775B (zh) 2020-03-03

Family

ID=58364591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510605160.3A Active CN106547775B (zh) 2015-09-21 2015-09-21 网站内容的检测方法及装置

Country Status (1)

Country Link
CN (1) CN106547775B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955813A (zh) * 2018-09-27 2020-04-03 北京国双科技有限公司 一种数据爬取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120179666A1 (en) * 2008-06-30 2012-07-12 Vobile, Inc. Methods and systems for monitoring and tracking videos on the internet
CN103020313A (zh) * 2013-01-08 2013-04-03 北京航空航天大学 一种基于探测网页更新周期的抓取方法
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN103218452A (zh) * 2013-04-27 2013-07-24 人民搜索网络股份公司 一种识别Hub页中有效链接的方法和装置
CN103294732A (zh) * 2012-03-05 2013-09-11 富士通株式会社 网页抓取方法及爬虫
CN103970787A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种增量更新与爬取技术

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120179666A1 (en) * 2008-06-30 2012-07-12 Vobile, Inc. Methods and systems for monitoring and tracking videos on the internet
CN103294732A (zh) * 2012-03-05 2013-09-11 富士通株式会社 网页抓取方法及爬虫
CN103020313A (zh) * 2013-01-08 2013-04-03 北京航空航天大学 一种基于探测网页更新周期的抓取方法
CN103970787A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种增量更新与爬取技术
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN103218452A (zh) * 2013-04-27 2013-07-24 人民搜索网络股份公司 一种识别Hub页中有效链接的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955813A (zh) * 2018-09-27 2020-04-03 北京国双科技有限公司 一种数据爬取方法及装置

Also Published As

Publication number Publication date
CN106547775B (zh) 2020-03-03

Similar Documents

Publication Publication Date Title
CN102708096B (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN107566376A (zh) 一种威胁情报生成方法、装置及系统
CN103136358B (zh) 一种自动抽取论坛数据的方法
CN103678528B (zh) 基于段落抄袭检测的电子作业反抄袭系统和方法
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
EP2657853A1 (en) Webpage information detection method and system
CN102591965B (zh) 一种黑链检测的方法及装置
CN103593615B (zh) 一种网页篡改的检测方法及装置
CN103399872B (zh) 对网页抓取进行优化的方法和装置
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN104182412A (zh) 一种网页爬取方法及系统
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN104618132A (zh) 一种应用程序识别规则生成方法和装置
CN102567521B (zh) 网页数据抓取过滤方法
CN103279476A (zh) 一种web应用系统敏感文字的检测方法及系统
CN106547774A (zh) 网站内容的检测方法及装置
CN103559202B (zh) 一种网页内容抽取装置和方法
CN106547803A (zh) 爬取网站增量资源的方法和装置
CN105119910A (zh) 基于模板的在线社交网络垃圾信息实时检测方法
CN102902792B (zh) 列表页识别系统及方法
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN106874340A (zh) 一种网页地址分类方法及装置
CN102929948B (zh) 列表页识别系统及方法
Tarissan et al. Selecting the cases that defined Europe: complementary metrics for a network analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant