CN106547774B - 网站内容的检测方法及装置 - Google Patents
网站内容的检测方法及装置 Download PDFInfo
- Publication number
- CN106547774B CN106547774B CN201510604999.5A CN201510604999A CN106547774B CN 106547774 B CN106547774 B CN 106547774B CN 201510604999 A CN201510604999 A CN 201510604999A CN 106547774 B CN106547774 B CN 106547774B
- Authority
- CN
- China
- Prior art keywords
- content
- character string
- crawling
- time period
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种网站内容的检测方法及装置。其中,该方法包括:获取爬取页面集合中任意一个列表页面;获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;获取第一链接字符串和第二链接字符串,其中,第一链接字符串为提取第一爬取内容中的链接组成的字符串,第二链接字符串为提取第二爬取内容中的链接组成的字符串;以及根据第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新。通过本申请,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题。
Description
技术领域
本申请涉及信息检测领域,具体而言,涉及一种网站内容的检测方法及装置。
背景技术
网站的内容更新是指网站有新的页面发布。大多数网站在有新的页面发布时都会把新发布页面的链接在网站首页上展现,甚至很多会展现新页面的简介等。网站首页内容更新是指网站首页的内容有新的变化,大多时候是某些栏目的链接列表有更新。网站的内容是否有更新这个指标主要体现出网站的活跃度和信息的有效度。特别对政府网站,这也是上级政府考核下级政府门户网站的重要指标。有关政府文件中明确规定了以网站内容的更新情况对所有政府网站进行考核。所以准确的判断网站的内容是否更新在政府行业网站中受到极大的重视。为了更新的内容能够更便捷的被用户访问,也为了集中体现网站的更新比较及时,大多政府网站有更新时,都会把最新的内容更新在网站首页上体现。
网站内容更新无非两种情况,发布新的内容页面和列表页面出现新的链接。网站发布新的内容页面可以通过爬虫准确的检测到,但列表页面出现新的链接却非常不容易甄别。相关技术中对网站的列表页面进行内容更新检测,采用不同时间点对同一列表页面的内容的Hash值比较的办法分析列表页内容是否有更新。当两次比较的内容完全一致则认为没有更新,如果页面的任何细节稍有变化,两次比较的内容则不一致,则就会认为网站内容有更新,这样会导致判断错误。例如,列表页面中自动显示了一个当前时间,由于比较的两个时间段时间值不一样,则会被误认为网站内容有更新。再例如,有的网站给每个链接提供链接点击数统计,也会显示在链接后面,由于比较的两个时间段的点击数统计不一样,则会被误认为网站内容有更新。
针对相关技术中在判断网站的内容是否有更新时准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网站内容的检测方法及装置,以解决相关技术中在判断网站的内容是否有更新时准确性较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网站内容的检测方法。该方法包括:获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;获取第一链接字符串和第二链接字符串,其中,第一链接字符串为提取第一爬取内容中的链接组成的字符串,第二链接字符串为提取第二爬取内容中的链接组成的字符串;以及根据第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新。
进一步地,根据第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新包括:根据第一链接字符串和第二链接字符串检测在目标时间段内列表页面的内容是否有更新;以及基于在目标时间段内列表页面的内容是否有更新判定在目标时间段内目标网站的内容是否有更新。
进一步地,根据第一链接字符串和第二链接字符串检测在目标时间段内列表页面的内容是否有更新包括:按照预设算法对第一链接字符串进行计算,得到第一哈希值;按照预设算法对第二链接字符串进行计算,得到第二哈希值;判断第一哈希值与第二哈希值是否相同;如果第一哈希值与第二哈希值相同,确定在目标时间段内列表页面的内容没有更新;如果第一哈希值与第二哈希值不相同,确定在目标时间段内列表页面的内容有更新。
进一步地,在获取爬取页面集合中任意一个列表页面之前,该方法还包括:获取目标网站的爬取页面集合;获取爬取页面集合中任意一个爬取页面;计算爬取页面中的链接内容在爬取页面中所有内容的占比,得到链接比例;判断链接比例是否大于预设比例;以及如果链接比例大于预设比例,确定爬取页面为列表页面。
进一步地,获取目标网站的爬取页面集合包括:确定目标时间段和目标网站;在预设数据库中提取在目标时间段内对目标网站进行爬取的多个网站页面;以及将多个网站页面作为爬取页面集合。
进一步地,第一时刻为目标时间段的起始时刻,第二时刻为目标时间段的结束时刻。
为了实现上述目的,根据本申请的另一方面,提供了一种网站内容的检测装置。该装置包括:第一获取单元,用于获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;第二获取单元,用于获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;第三获取单元,用于获取第一链接字符串和第二链接字符串,其中,第一链接字符串为提取第一爬取内容中的链接组成的字符串,第二链接字符串为提取第二爬取内容中的链接组成的字符串;以及检测单元,用于根据第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新。
进一步地,检测单元包括:检测模块,用于根据第一链接字符串和第二链接字符串检测在目标时间段内列表页面的内容是否有更新;以及判定模块,用于基于在目标时间段内列表页面的内容是否有更新判定在目标时间段内目标网站的内容是否有更新。
进一步地,检测模块包括:第一计算子模块,用于按照预设算法对第一链接字符串进行计算,得到第一哈希值;第二计算子模块,用于按照预设算法对第二链接字符串进行计算,得到第二哈希值;判断子模块,用于判断第一哈希值与第二哈希值是否相同;第一确定子模块,用于在第一哈希值与第二哈希值相同的情况下,确定在目标时间段内列表页面的内容没有更新;第二确定子模块,用于在第一哈希值与第二哈希值不相同的情况下,确定在目标时间段内列表页面的内容有更新。
进一步地,该装置还包括:第四获取单元,用于获取目标网站的爬取页面集合;第五获取单元,用于获取爬取页面集合中任意一个爬取页面;计算单元,用于计算爬取页面中的链接内容在爬取页面中所有内容的占比,得到链接比例;判断单元,用于判断链接比例是否大于预设比例;以及确定单元,用于在链接比例大于预设比例的情况下,确定爬取页面为列表页面。
通过本申请,采用以下步骤:获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;获取第一链接字符串和第二链接字符串,其中,第一链接字符串为提取第一爬取内容中的链接组成的字符串,第二链接字符串为提取第二爬取内容中的链接组成的字符串;以及根据第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题,通过第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新,进而达到了提升判断网站的内容是否有更新的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的网站内容的检测方法的流程图;
图2是根据本申请第二实施例的网站内容的检测方法的流程图;以及
图3是根据本申请实施例的网站内容的检测装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种网站内容的检测方法。
图1是根据本申请第一实施例的网站内容的检测方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合。
为了分析目标网站内容是否有更新,通过爬虫技术对目标网站的网站内容进行爬取,对网站内容爬取后的爬取结果为多个网站页面。爬取结果的历史数据包括多个时间段的爬取结果,在目标时间段内对目标网站进行爬取的网站页面的集合为爬取页面集合。其中,爬取页面集合中包括列表页面和内容页面。获取爬取页面集合中任意一个列表页面。
例如,目标网站为news.sina.com,通过爬虫技术对news.sina.com的网站内容进行爬取,在爬取的历史数据中,包含了2015年1月1日至2015年8月28日的爬取结果,为了判断news.sina.com在2015年8月27日网站的内容是否有更新,在历史数据中,2015年8月27日对news.sina.com进行爬取由多个网站页面组成爬取页面集合,获取该爬取页面集合中任意一个列表页面。
步骤S102,获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容。
例如,获取2015年8月27日的00:30分news.sina.com列表页面的内容;获取2015年8月27日的23:30分news.sina.com列表页面的内容。
步骤S103,获取第一链接字符串和第二链接字符串,其中,第一链接字符串为提取第一爬取内容中的链接组成的字符串,第二链接字符串为提取第二爬取内容中的链接组成的字符串。
例如,2015年8月27日的00:30分news.sina.com列表页面的内容中的链接为“<ahref=http://news.sina.com.cn/c/2015-08-27/100232242111.shtml target=”blank”>女童帮奶奶扫马路</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9328934.shtml target=”blank”>飞机发动机解体</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafi9645753.shtml target=”blank”>发改委连发三文谈经济:下半年有望平稳增长</a>;<a href=http://news.sina.com.cn/c/2015-08-27/083432240842.shtm l target=”blank”>我最喜爱的十大抗战歌曲发布</a>;<a href=http://mil.news.sina.co m.cn/2015-08-27/0815837905.html target=”blank”>农村大学生的未来</a>;<a href=http://news.sina.com.cn/c/sd/2015-08-27/doc-ifxhehqr6342167.shtml target=”blank”>中式快餐第一股纽交所上市5年后将退市</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9317832.shtml target=”blank”>广州将率先试行中小学开设金融理财课程</a>;<a href=http://news.sina.com.cn/c/2015-08-27/050232240783.shtml tar get=”blank”>长沙修地铁200颗树被砍伐移栽官方回应</a>;<a href=http://news.sina.com.cn/c/2015-08-27/042532240775.shtml target=”blank”>流浪乞讨人员将建寻亲服务机制</a>。2015年8月27日的23:30分news.sina.com列表页面的内容中的链接为”<ahref=http://news.sina.com.cn/c/2015-08-27/100232242111.shtml target=”blank”>女童帮奶奶扫马路</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9328934.shtml target=”blank”>飞机发动机解体</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafi9645753.shtml target=”blank”>发改委连发三文谈经济:下半年有望平稳增长</a>;<a href=http://news.sina.com.cn/c/2015-08-27/083432240842.shtm l target=”blank”>我最喜爱的十大抗战歌曲发布</a>;<a href=http://mil.news.sina.co m.cn/2015-08-27/0815837905.html target=”blank”>农村大学生的未来</a>;<a href=http://news.sina.com.cn/c/sd/2015-08-27/doc-ifxhehqr6342167.shtml target=”blank”>中式快餐第一股纽交所上市5年后将退市</a>;<a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9317832.shtml target=”blank”>广州将率先试行中小学开设金融理财课程</a>;<a href=http://news.sina.com.cn/c/2015-08-27/050232240783.shtml tar get=”blank”>长沙修地铁200颗树被砍伐移栽官方回应</a>;<a href=http://news.sina.com.cn/c/2015-08-27/042532040875.shtml target=”blank”>中国好声音最受欢迎歌曲公布</a>”。
将第一爬取内容和第二爬取内容中链接按照顺序从头至尾按照顺序进行拼接,分别组成第一链接字符串和第二链接字符串。
即第一链接字符串为<a href=http://news.sina.com.cn/c/2015-08-27/100232242111.s html target=”blank”>女童帮奶奶扫马路</a><a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9328934.shtml target=”blank”>飞机发动机解体</a><a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafi9645753.shtml target=”blank”>发改委连发三文谈经济:下半年有望平稳增长</a><a href=http://news.sina.com.cn/c/2015-08-27/083432240842.shtml target=”blank”>我最喜爱的十大抗战歌曲发布</a><a href=http://mil.news.sina.com.cn/2015-08-27/0815837905.html target=”blank”>农村大学生的未来</a><a href=http://news.sina.com.cn/c/sd/2015-08-27/doc-ifxhehqr6342167.shtml target=”blank”>中式快餐第一股纽交所上市5年后将退市</a><a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9317832.shtml target=”blank”>广州将率先试行中小学开设金融理财课程</a><a href=http://news.sina.com.cn/c/2015-08-27/050232240783.shtml target=”blank”>长沙修地铁200颗树被砍伐移栽官方回应</a><a href=http://news.sin a.com.cn/c/2015-08-27/042532240775.shtmltarget=”blank”>流浪乞讨人员将建寻亲服务机制</a>;第二链接字符串为<a href=http://news.sina.com.cn/c/2015-08-27/100232242111.shtml target=”blank”>女童帮奶奶扫马路</a><a href=http://news.sina.com.cn/c/n d/2015-08-27/doc-ifxhkafa9328934.shtml target=”blank”>飞机发动机解体</a><a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafi9645753.shtml target=”blank”>发改委连发三文谈经济:下半年有望平稳增长</a><a href=http://news.sina.com.cn/c/2015-08-27/083432240842.shtml target=”blank”>我最喜爱的十大抗战歌曲发布</a><a href=http://mil.news.sina.com.cn/2015-08-27/0815837905.html target=”blank”>农村大学生的未来</a><a href=http://news.sina.com.cn/c/sd/2015-08-27/doc-ifxhehqr6342167.shtml target=”blank”>中式快餐第一股纽交所上市5年后将退市</a><a href=http://news.sina.com.cn/c/nd/2015-08-27/doc-ifxhkafa9317832.shtml target=”blank”>广州将率先试行中小学开设金融理财课程</a><a href=http://news.sina.com.cn/c/2015-08-27/050232240783.shtml target=”blank”>长沙修地铁200颗树被砍伐移栽官方回应</a><a href=h ttp://news.sina.com.cn/c/2015-08-27/042532040875.shtml target=”blank”>中国好声音最受欢迎歌曲公布</a>。
步骤S104,根据第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新。
上述步骤S101至步骤S104,通过抽取列表页面中的链接,来检测在目标时间段内目标网站的内容是否有更新。避免了由于页面的任何细节稍有变化,则就会认为网站内容有更新的问题,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题,进而达到了提升判断网站的内容是否有更新的准确性的效果。
可选地,为了提升获取列表页面的准确性,在本申请第一实施例的网站内容的检测方法中,在获取爬取页面集合中任意一个列表页面之前,该方法还包括:获取目标网站的爬取页面集合;获取爬取页面集合中任意一个爬取页面;计算爬取页面中的链接内容在爬取页面中所有内容的占比,得到链接比例;判断链接比例是否大于预设比例;以及如果链接比例大于预设比例,确定爬取页面为列表页面。
需要说明的是,列表页面包括人工自定的列表页面和自增长列表页面,在本申请第一实施例的网站内容的检测方法中涉及的列表页面是可以获取目标时间段内的第一时刻爬取列表页面的内容,在目标时间段内的第二时刻爬取列表页面的内容的列表页面。
可选地,在本申请第一实施例的网站内容的检测方法中,获取目标网站的爬取页面集合还可以通过以下步骤实现:确定目标时间段和目标网站;在预设数据库中提取在目标时间段内对目标网站进行爬取的多个网站页面;以及将多个网站页面作为爬取页面集合。
通过预先将爬取结果的历史数据存储在预设数据库中,在预设数据库中提取在目标时间段内对目标网站进行爬取的多个网站页面,从而提升了获取目标网站的爬取页面集合的效率。
可选地,本申请第一实施例提供的网站内容的检测方法中,第一时刻为目标时间段的起始时刻,第二时刻为目标时间段的结束时刻。
例如,第一时刻为2015年8月27日的00:00分,第二时刻为2015年8月27日的23:59分。
图2是根据本申请第二实施例的网站内容的检测方法的流程图。图2可以作为图1所示实施例的一种优选实施方式。如图2所示,该方法包括以下步骤:
步骤S201,获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合。
步骤S201同上述步骤S101,在此不再赘述。
步骤S202,获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容。
步骤S202同上述步骤S102,在此不再赘述。
步骤S203,获取第一链接字符串和第二链接字符串,其中,第一链接字符串为提取第一爬取内容中的链接组成的字符串,第二链接字符串为提取第二爬取内容中的链接组成的字符串。
步骤S203同上述步骤S103,在此不再赘述。
步骤S204,按照预设算法对第一链接字符串进行计算,得到第一哈希值。
步骤S205,按照预设算法对第二链接字符串进行计算,得到第二哈希值。
需要说明的是,以上的预设算法为相同的哈希(hash)算法,使用相同的hash算法,对第一首页内容和第二首页内容进行计算,分别得到第一哈希值和第二哈希值。
例如,按照预设算法对2015年8月27日的00:30分news.sina.com列表页面的内容中的链接组成的第一链接字符串进行计算,得到aacdedsangkblyed,按照预设算法对2015年8月27日的23:59分news.sina.com列表页面的内容中的链接组成的第一链接字符串进行计算,得到aacdfdsangkblyed。
步骤S206,判断第一哈希值与第二哈希值是否相同。
步骤S207,如果第一哈希值与第二哈希值相同,确定在目标时间段内列表页面的内容没有更新。
步骤S208,如果第一哈希值与第二哈希值不相同,确定在目标时间段内列表页面的内容有更新。
例如,第一哈希值aacdedsangkblyed与第二哈希值aacdfdsangkblyed不相同,确定2015年8月27日news.sina.com的列表页面的内容有更新。
步骤S209,基于在目标时间段内列表页面的内容是否有更新判定在目标时间段内目标网站的内容是否有更新。
如果在目标时间段内列表页面的内容有更新,确定在目标时间段内目标网站的内容有更新;如果在目标时间段内列表页面的内容没有更新,确定在目标时间段内目标网站的内容没有更新。
本申请第二实施例提供的网站内容的检测方法,通过获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;获取第一链接字符串和第二链接字符串,其中,第一链接字符串为提取第一爬取内容中的链接组成的字符串,第二链接字符串为提取第二爬取内容中的链接组成的字符串;按照预设算法对第一链接字符串进行计算,得到第一哈希值;按照预设算法对第二链接字符串进行计算,得到第二哈希值;判断第一哈希值与第二哈希值是否相同;如果第一哈希值与第二哈希值相同,确定在目标时间段内列表页面的内容没有更新;如果第一哈希值与第二哈希值不相同,确定在目标时间段内列表页面的内容有更新;基于在目标时间段内列表页面的内容是否有更新判定在目标时间段内目标网站的内容是否有更新,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题,根据第一首页内容计算出的第一哈希值和第二首页内容计算出的第二哈希值,判断在目标时间段内目标网站的内容是否有更新,进而达到了提升判断网站的内容是否有更新的准确性的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网站内容的检测装置,需要说明的是,本申请实施例的网站内容的检测装置可以用于执行本申请实施例所提供的用于网站内容的检测方法。以下对本申请实施例提供的网站内容的检测装置进行介绍。
图3是根据本申请实施例的网站内容的检测装置的示意图。如图3所示,该装置包括:第一获取单元10、第二获取单元20、第三获取单元30和检测单元40。
第一获取单元10,用于获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合。
第二获取单元20,用于获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容。
第三获取单元30,用于获取第一链接字符串和第二链接字符串,其中,第一链接字符串为提取第一爬取内容中的链接组成的字符串,第二链接字符串为提取第二爬取内容中的链接组成的字符串。
检测单元40,用于根据第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新。
本申请实施例提供的网站内容的检测装置,通过第一获取单元10获取爬取页面集合中任意一个列表页面,其中,爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;第二获取单元20获取第一爬取内容和第二爬取内容,其中,第一爬取内容为在目标时间段内的第一时刻爬取列表页面的内容,第二爬取内容为在目标时间段内的第二时刻爬取列表页面的内容;第三获取单元30获取第一链接字符串和第二链接字符串,其中,第一链接字符串为提取第一爬取内容中的链接组成的字符串,第二链接字符串为提取第二爬取内容中的链接组成的字符串;以及检测单元40根据第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新,解决了相关技术中在判断网站的内容是否有更新时准确性较低的问题,通过检测单元40根据第一链接字符串和第二链接字符串检测在目标时间段内目标网站的内容是否有更新,进而达到了提升判断网站的内容是否有更新的准确性的效果。
可选地,在本申请实施例提供的网站内容的检测装置中,检测单元40包括:检测模块,用于根据第一链接字符串和第二链接字符串检测在目标时间段内列表页面的内容是否有更新;以及判定模块,用于基于在目标时间段内列表页面的内容是否有更新判定在目标时间段内目标网站的内容是否有更新。
可选地,为了提升判断列表页面的内容是否有更新的准确性,在本申请实施例提供的网站内容的检测装置中,检测模块包括:第一计算子模块,用于按照预设算法对第一链接字符串进行计算,得到第一哈希值;第二计算子模块,用于按照预设算法对第二链接字符串进行计算,得到第二哈希值;判断子模块,用于判断第一哈希值与第二哈希值是否相同;第一确定子模块,用于在第一哈希值与第二哈希值相同的情况下,确定在目标时间段内列表页面的内容没有更新;第二确定子模块,用于在第一哈希值与第二哈希值不相同的情况下,确定在目标时间段内列表页面的内容有更新。
可选地,在本申请实施例提供的网站内容的检测装置中,该装置还包括:第四获取单元,用于获取目标网站的爬取页面集合;第五获取单元,用于获取爬取页面集合中任意一个爬取页面;计算单元,用于计算爬取页面中的链接内容在爬取页面中所有内容的占比,得到链接比例;判断单元,用于判断链接比例是否大于预设比例;以及确定单元,用于在链接比例大于预设比例的情况下,确定爬取页面为列表页面。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种网站内容的检测方法,其特征在于,包括:
获取爬取页面集合中任意一个列表页面,其中,所述爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;
获取第一爬取内容和第二爬取内容,其中,所述第一爬取内容为在所述目标时间段内的第一时刻爬取所述列表页面的内容,所述第二爬取内容为在所述目标时间段内的第二时刻爬取所述列表页面的内容;
获取第一链接字符串和第二链接字符串,其中,所述第一链接字符串为提取所述第一爬取内容中的链接组成的字符串,所述第二链接字符串为提取所述第二爬取内容中的链接组成的字符串;以及
根据所述第一链接字符串和所述第二链接字符串检测在所述目标时间段内所述目标网站的内容是否有更新;
其中,在获取所述爬取页面集合中任意一个列表页面之前,所述方法还包括:
获取所述目标网站的爬取页面集合;
获取所述爬取页面集合中任意一个爬取页面;
计算所述爬取页面中的链接内容在所述爬取页面中所有内容的占比,得到链接比例;
判断所述链接比例是否大于预设比例;以及
如果所述链接比例大于所述预设比例,确定所述爬取页面为所述列表页面。
2.根据权利要求1所述的方法,其特征在于,根据所述第一链接字符串和所述第二链接字符串检测在所述目标时间段内所述目标网站的内容是否有更新包括:
根据所述第一链接字符串和所述第二链接字符串检测在所述目标时间段内所述列表页面的内容是否有更新;以及
基于在所述目标时间段内所述列表页面的内容是否有更新判定在所述目标时间段内所述目标网站的内容是否有更新。
3.根据权利要求2所述的方法,其特征在于,根据所述第一链接字符串和所述第二链接字符串检测在所述目标时间段内所述列表页面的内容是否有更新包括:
按照预设算法对所述第一链接字符串进行计算,得到第一哈希值;
按照所述预设算法对所述第二链接字符串进行计算,得到第二哈希值;
判断所述第一哈希值与所述第二哈希值是否相同;
如果所述第一哈希值与所述第二哈希值相同,确定在所述目标时间段内所述列表页面的内容没有更新;以及
如果所述第一哈希值与所述第二哈希值不相同,确定在所述目标时间段内所述列表页面的内容有更新。
4.根据权利要求1所述的方法,其特征在于,获取所述目标网站的爬取页面集合包括:
确定所述目标时间段和所述目标网站;
在预设数据库中提取在所述目标时间段内对所述目标网站进行爬取的多个网站页面;以及
将所述多个网站页面作为所述爬取页面集合。
5.根据权利要求1所述的方法,其特征在于,所述第一时刻为所述目标时间段的起始时刻,所述第二时刻为所述目标时间段的结束时刻。
6.一种网站内容的检测装置,其特征在于,包括:
第一获取单元,用于获取爬取页面集合中任意一个列表页面,其中,所述爬取页面集合为在目标时间段内对目标网站进行爬取的网站页面的集合;
第二获取单元,用于获取第一爬取内容和第二爬取内容,其中,所述第一爬取内容为在所述目标时间段内的第一时刻爬取所述列表页面的内容,所述第二爬取内容为在所述目标时间段内的第二时刻爬取所述列表页面的内容;
第三获取单元,用于获取第一链接字符串和第二链接字符串,其中,所述第一链接字符串为提取所述第一爬取内容中的链接组成的字符串,所述第二链接字符串为提取所述第二爬取内容中的链接组成的字符串;以及
检测单元,用于根据所述第一链接字符串和所述第二链接字符串检测在所述目标时间段内所述目标网站的内容是否有更新;
其中,所述装置还包括:
第四获取单元,用于获取所述目标网站的爬取页面集合;
第五获取单元,用于获取所述爬取页面集合中任意一个爬取页面;
计算单元,用于计算所述爬取页面中的链接内容在所述爬取页面中所有内容的占比,得到链接比例;
判断单元,用于判断所述链接比例是否大于预设比例;以及
确定单元,用于在所述链接比例大于所述预设比例的情况下,确定所述爬取页面为所述列表页面。
7.根据权利要求6所述的装置,其特征在于,所述检测单元包括:
检测模块,用于根据所述第一链接字符串和所述第二链接字符串检测在所述目标时间段内所述列表页面的内容是否有更新;以及
判定模块,用于基于在所述目标时间段内所述列表页面的内容是否有更新判定在所述目标时间段内所述目标网站的内容是否有更新。
8.根据权利要求7所述的装置,其特征在于,所述检测模块包括:
第一计算子模块,用于按照预设算法对所述第一链接字符串进行计算,得到第一哈希值;
第二计算子模块,用于按照所述预设算法对所述第二链接字符串进行计算,得到第二哈希值;
判断子模块,用于判断所述第一哈希值与所述第二哈希值是否相同;
第一确定子模块,用于在所述第一哈希值与所述第二哈希值相同的情况下,确定在所述目标时间段内所述列表页面的内容没有更新;以及
第二确定子模块,用于在所述第一哈希值与所述第二哈希值不相同的情况下,确定在所述目标时间段内所述列表页面的内容有更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510604999.5A CN106547774B (zh) | 2015-09-21 | 2015-09-21 | 网站内容的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510604999.5A CN106547774B (zh) | 2015-09-21 | 2015-09-21 | 网站内容的检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106547774A CN106547774A (zh) | 2017-03-29 |
CN106547774B true CN106547774B (zh) | 2020-02-28 |
Family
ID=58365452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510604999.5A Active CN106547774B (zh) | 2015-09-21 | 2015-09-21 | 网站内容的检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106547774B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108880921B (zh) * | 2017-05-11 | 2021-07-02 | 腾讯科技(北京)有限公司 | 网页监测方法、装置、存储介质及服务器 |
CN110489684A (zh) * | 2019-08-16 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 用于显示浏览器页面的方法、设备、装置和存储介质 |
CN111143744B (zh) * | 2019-12-26 | 2023-10-13 | 杭州安恒信息技术股份有限公司 | 一种web资产检测的方法、装置、设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020313A (zh) * | 2013-01-08 | 2013-04-03 | 北京航空航天大学 | 一种基于探测网页更新周期的抓取方法 |
CN103092999A (zh) * | 2013-02-22 | 2013-05-08 | 人民搜索网络股份公司 | 一种网页抓取周期调整方法和装置 |
CN103218452A (zh) * | 2013-04-27 | 2013-07-24 | 人民搜索网络股份公司 | 一种识别Hub页中有效链接的方法和装置 |
CN103294732A (zh) * | 2012-03-05 | 2013-09-11 | 富士通株式会社 | 网页抓取方法及爬虫 |
CN103970787A (zh) * | 2013-02-01 | 2014-08-06 | 北京英富森信息技术有限公司 | 一种增量更新与爬取技术 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8131708B2 (en) * | 2008-06-30 | 2012-03-06 | Vobile, Inc. | Methods and systems for monitoring and tracking videos on the internet |
-
2015
- 2015-09-21 CN CN201510604999.5A patent/CN106547774B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294732A (zh) * | 2012-03-05 | 2013-09-11 | 富士通株式会社 | 网页抓取方法及爬虫 |
CN103020313A (zh) * | 2013-01-08 | 2013-04-03 | 北京航空航天大学 | 一种基于探测网页更新周期的抓取方法 |
CN103970787A (zh) * | 2013-02-01 | 2014-08-06 | 北京英富森信息技术有限公司 | 一种增量更新与爬取技术 |
CN103092999A (zh) * | 2013-02-22 | 2013-05-08 | 人民搜索网络股份公司 | 一种网页抓取周期调整方法和装置 |
CN103218452A (zh) * | 2013-04-27 | 2013-07-24 | 人民搜索网络股份公司 | 一种识别Hub页中有效链接的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106547774A (zh) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104065565B (zh) | 推送消息的方法、服务器、客户端装置和系统 | |
US9705761B2 (en) | Opinion information display system and method | |
CN103605715B (zh) | 用于多个数据源的数据整合处理方法和装置 | |
US20150128272A1 (en) | System and method for finding phishing website | |
CN102567407B (zh) | 一种论坛回帖增量采集方法及系统 | |
CN107145556B (zh) | 通用的分布式采集系统 | |
CN103838785A (zh) | 一种专利领域的垂直搜索引擎 | |
CN104182506A (zh) | 日志管理方法 | |
CN105183873A (zh) | 恶意点击行为检测方法及装置 | |
CN102682046A (zh) | 社交网络的节点搜索和分析方法及搜索系统 | |
CN106547774B (zh) | 网站内容的检测方法及装置 | |
CN103714116A (zh) | 网页信息提取方法及设备 | |
CN104077295A (zh) | 一种数据标签的挖掘方法及系统 | |
CN102722562B (zh) | 基于互联网的组织机构信息整合与更新方法 | |
CN104598536B (zh) | 一种分布式网络信息结构化处理方法 | |
CN103577566A (zh) | 一种网页阅读内容加载方法和装置 | |
CN103077254A (zh) | 网页获取方法和装置 | |
CN102567521B (zh) | 网页数据抓取过滤方法 | |
CN104391953A (zh) | 检测网页更新的方法及装置 | |
CN103198078B (zh) | 一种互联网新闻事件报道趋势分析方法及系统 | |
CN103218452A (zh) | 一种识别Hub页中有效链接的方法和装置 | |
CN102902784A (zh) | 网页分类存储系统及方法 | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
Basyuk | Popularization of website and without anchor promotion | |
CN102902792B (zh) | 列表页识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |