CN111177522B - 页面聚合方法、装置、计算机设备及存储介质 - Google Patents

页面聚合方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111177522B
CN111177522B CN201811330607.0A CN201811330607A CN111177522B CN 111177522 B CN111177522 B CN 111177522B CN 201811330607 A CN201811330607 A CN 201811330607A CN 111177522 B CN111177522 B CN 111177522B
Authority
CN
China
Prior art keywords
page
mapping rule
pages
cover page
cover
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811330607.0A
Other languages
English (en)
Other versions
CN111177522A (zh
Inventor
刘欢
叶八达
陈亮辉
潘旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811330607.0A priority Critical patent/CN111177522B/zh
Publication of CN111177522A publication Critical patent/CN111177522A/zh
Application granted granted Critical
Publication of CN111177522B publication Critical patent/CN111177522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了页面聚合方法、装置、计算机设备及存储介质,其中方法包括:按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;根据物料库中的页面的URL挖掘出分页与封面页之间的映射规则;根据映射规则,将物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。应用本发明所述方案,能够优化推荐结果等。

Description

页面聚合方法、装置、计算机设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及页面聚合方法、装置、计算机设备及存储介质。
【背景技术】
推荐系统等可以根据用户的浏览行为为用户提供相关推荐结果。
但实践发现,很多网页内容会分成多个页面显示。比如较长的新闻,可能会分成多页显示,用户通过点击下一页等浏览整篇新闻,小说或文摘等站点更是如此,一篇文章经常会分成很多页显示。
如果将所有分页都当成独立页面处理,会带来很多问题,比如:推荐结果中有分页,用户点击推荐结果,可能首先看到的是某个中间页,不符合用户的浏览习惯,另外,不同分页本质上属于同一可推荐对象,如果能将内容聚合后用于策略分析,能获得更优质的推荐结果,提升点击率等。
【发明内容】
有鉴于此,本发明提供了页面聚合方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种页面聚合方法,包括:
按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;
根据所述物料库中的页面的统一资源定位符URL挖掘出分页与封面页之间的映射规则;
根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。
根据本发明一优选实施例,所述映射规则中包括:所述映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。
根据本发明一优选实施例,所述挖掘出分页与封面页之间的映射规则之后,进一步包括:
对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则。
根据本发明一优选实施例,所述对挖掘出的映射规则进行过滤包括:
按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则。
根据本发明一优选实施例,所述按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则包括:
针对任一映射规则,统计满足以下条件的URL对数:
所述物料库中的一个分页通过所述映射规则映射到的封面页也存储在所述物料库中,且所述分页与所述封面页的标题的相似度大于预先设定的第一阈值;
将统计出的URL对数作为所述映射规则的打分;
若所述打分大于预先设定的第二阈值,则确定所述映射规则为符合要求的映射规则,否则,确定所述映射规则为不符合要求的映射规则。
根据本发明一优选实施例,所述对挖掘出的映射规则进行过滤包括:
针对任一映射规则,确定所述映射规则是否位于预先生成的黑名单中,若是,则确定所述映射规则为不符合要求的映射规则。
根据本发明一优选实施例,获取映射规则的白名单;
所述根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页包括:根据所述白名单中的映射规则以及过滤后的挖掘出的映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页。
根据本发明一优选实施例,所述根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料包括:
针对所述物料库中的每个页面,分别进行以下处理:
确定所述页面是否为分页;
若是,则根据所述分页对应的映射规则映射得到所述分页对应的封面页,并分别获取所述封面页对应的各分页,将各分页内容聚合到所述封面页,生成一条新的物料。
根据本发明一优选实施例,所述分别获取所述封面页对应的各分页包括:
根据所述封面页对应的映射规则生成所述封面页对应的各分页的URL;
分别确定生成的各URL对应的分页是否存储在所述物料库中,若否,则根据所述分页的URL抓取所述分页。
根据本发明一优选实施例,该方法进一步包括:当每次满足更新条件时,抓取新的页面存储到所述物料库中,并根据所述物料库中的物料进行映射规则的挖掘以及页面聚合操作。
一种页面聚合装置,包括:抓取单元、挖掘单元以及聚合单元;
所述抓取单元,用于按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;
所述挖掘单元,用于根据所述物料库中的页面的统一资源定位符URL挖掘出分页与封面页之间的映射规则;
所述聚合单元,用于根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。
根据本发明一优选实施例,所述映射规则中包括:所述映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。
根据本发明一优选实施例,所述装置中进一步包括:过滤单元;
所述过滤单元,用于对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则。
根据本发明一优选实施例,所述过滤单元按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则。
根据本发明一优选实施例,所述过滤单元针对任一映射规则,统计满足以下条件的URL对数:
所述物料库中的一个分页通过所述映射规则映射到的封面页也存储在所述物料库中,且所述分页与所述封面页的标题的相似度大于预先设定的第一阈值;
将统计出的URL对数作为所述映射规则的打分;
若所述打分大于预先设定的第二阈值,则确定所述映射规则为符合要求的映射规则,否则,确定所述映射规则为不符合要求的映射规则。
根据本发明一优选实施例,针对任一映射规则,所述过滤单元确定所述映射规则是否位于预先生成的黑名单中,若是,则确定所述映射规则为不符合要求的映射规则。
根据本发明一优选实施例,所述过滤单元进一步用于,获取映射规则的白名单;
所述聚合单元根据所述白名单中的映射规则以及过滤后的挖掘出的映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页。
根据本发明一优选实施例,所述聚合单元针对所述物料库中的每个页面,分别进行以下处理:
确定所述页面是否为分页;
若是,则根据所述分页对应的映射规则映射得到所述分页对应的封面页,并分别获取所述封面页对应的各分页,将各分页内容聚合到所述封面页,生成一条新的物料。
根据本发明一优选实施例,所述聚合单元根据所述封面页对应的映射规则生成所述封面页对应的各分页的URL,并分别确定生成的各URL对应的分页是否存储在所述物料库中,若否,则根据所述分页的URL抓取所述分页。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可从抓取到的物料中自动挖掘出分页与封面页之间的映射规则,进而可根据挖掘出的映射规则,将封面页对应的分页内容聚合到封面页,这样,当需要向用户推荐页面时,可极大地减少推荐结果中的分页,从而更符合用户的浏览习惯,并优化了推荐结果,提升了点击率等。
【附图说明】
图1为本发明所述页面聚合方法实施例的流程图。
图2为本发明所述页面聚合装置实施例的组成结构示意图。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述页面聚合方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中。
在102中,根据物料库中的页面的统一资源定位符(URL,Uniform ResoureLocator)挖掘出分页与封面页之间的映射规则。
在103中,根据映射规则,将物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。
本实施例中,可首先按照抓取要求从站点抓取页面,抓取要求具体为何种要求可根据实际需要而定。比如,可对指定的站点进行全站抓取,或者,对指定的抓取范围内的页面进行抓取,或者,对指定站点中有过用户浏览记录的页面进行抓取等。可采用现有抓取方式来进行页面抓取。
对于抓取到的页面,可分别提取页面的标题、作者、发表时间、主图、内容、URL等信息,并可按照预定格式结构化后存储,如作为一条物料存储到物料库中。
之后,可基于物料库中的页面的URL,挖掘出分页与封面页之间的映射规则。映射规则中可包括:映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。
URL的组成结构通常为:protocol://hostname[:port]/path/[?query]#fragment。绝大多数情况下,分页的页码信息会隐藏在URL中,页码从0或1开始,分页的URL与封面页的URL的关系可总结出以下规律。
a)分页的页码位于query参数中
比如,http://www.191.cn/read.php?tid=142273&page=4
封面页的URL的query参数中一般不包含页码,少部分情况下会包含初始页码如0或1,但一般去掉也能连接到封面页。
b)分页的页码位于path中
分页的页码一般会在path最后一级,有些页码单独作为一级,如大部分小说章节URL,但大部分情况是跟其它成分组合作为一级,组合方式和分隔符多样,比如,http://oday.net/201408/42848_3.html、http://www.zyxiu.com/news/xiuxun-35646-page-2.html等,大部分封面页的URL的path不包含页码,但也存在一些站点的封面页的path包含页码,且不能去掉的情况。
根据上述规律(先验规则),可针对物料库中的各物料的URL生成映射规则,即将URL中的数字替换,并按照先验生成可能的sub_regex与main_regex对等。
相应地,一条映射规则可表示为:domain sub_regex main_regex。其中,domain表示该条映射规则所属的站点,sub_regex表示分页的URL的正则形式,main_regex表示封面页的URL的正则形式。
举例说明:
封面页的URL为:http://oday.net/201408/42848.html
分页的URL为:http://oday.net/201408/42848_3.html
对应挖掘出的映射规则可为:
oday.net --domain
http://oday.net/(\d+)/(\d+)_(\d+).html --sub_regex
http://oday.net/\1/\2.html --main_regex。
可选地,在挖掘出分页与封面页之间的映射规则后,可进一步对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则。
具体地,可按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出该映射规则是否为符合要求的映射规则,即验证该映射规则是否成立。
通常来说,分页和封面页的标题相同或者几乎相同,分页可能带有页码信息。比如,封面页的标题为:***和***被曝拍戏假戏真做电影天下,分页的标题为:***和***被曝拍戏假戏真做第三页电影天下,因此可以基于映射规则前后的分页和封面页的标题来验证映射规则是否成立。
相应地,针对任一映射规则,可统计满足以下条件的URL对数:物料库中的一个分页通过该映射规则映射到的封面页也存储在物料库中,且该分页与该封面页的标题的相似度大于预先设定的第一阈值;将统计出的URL对数作为该映射规则的打分;若该打分大于预先设定的第二阈值,则可确定该映射规则为符合要求的映射规则,否则,可确定该映射规则为不符合要求的映射规则。第一阈值和第二阈值的具体取值均可根据实际需要而定。
通过控制打分规则以及各阈值的取值等,可平衡准确率和覆盖率。
另外,还可预先生成黑名单,若挖掘出的任一映射规则位于黑名单中,则可确定该映射规则为不符合要求的映射规则。
黑名单还可和前述的打分结合使用。比如,对于挖掘出的一条映射规则,可先利用黑名单来确定该映射规则是否为符合要求的映射规则,若确定结果为是,即该映射规则没有位于黑名单中,可再根据打分来确定该映射规则是否为符合要求的映射规则。
另外,还可获取映射规则的白名单,比如,针对站点物料少但对分页映射需求大等情况,可人工补充相应的映射规则,加入到白名单中。
之后,可根据白名单中的映射规则以及过滤后的挖掘出的映射规则,将物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料,同时可删除物料库中相应的分页。
具体地,可针对物料库中的每个页面,分别进行以下处理:确定该页面是否为分页;若是,则根据该分页对应的映射规则映射得到该分页对应的封面页,并分别获取该封面页对应的各分页,将各分页内容聚合到该封面页,生成一条新的物料。
其中,分别获取该封面页对应的各分页的方式可为:根据该封面页对应的映射规则生成该封面页对应的各分页的URL;分别确定生成的各URL对应的分页是否存储在物料库中,若否,则根据该分页的URL抓取该分页。
针对物料库中的每个页面,可根据映射规则中的分页的URL的正则形式等确定出该页面是否为分页,若否,可不作处理,即跳过,若是,可根据该分页对应的映射规则映射得到该分页对应的封面页,之后可根据对应的映射规则顺序生成该封面页对应的各分页的URL,进而可分别确定生成的各URL对应的分页是否存储在物料库中,若否,可根据该分页的URL抓取该分页。
举例说明:
某一分页的URL为:http://oday.net/201408/42848_3.html
映射得到的封面页的URL为:http://oday.net/201408/42848.html
可首先批量生成该封面页对应的第一批分页的URL:http://oday.net/201408/42848_1.html~http://oday.net/201408/42848_10.html;
针对上述每个分页,可并行分别判断该分页是否存储在物料库中,若是,则备用,若否,可根据该分页的URL对该分页进行抓取;比如,在抓取页面时,按照对指定站点中有过用户浏览记录的页面进行抓取的方式进行抓取,某一分页没有被用户浏览过,那么在之前的抓取中则不会被抓取到物料库中;
若第一批分页均已获取,可批量生成下一批分页的URL:http://oday.net/ 201408/42848_11.htmlhttp://oday.net/201408/42848_20.html;依此类推,直到出现连续N个URL都不存在对应的页面(既未存储在物料库中也无法抓取到),N为大于一的正整数,则说明该封面页对应的分页已抓取完毕,进而可将已获取到的各分页内容解析后按顺序聚合并结构化后存储,从而生成一条新的物料,同时将存储在物料库中的相应分页的物料删除,N的具体取值可根据实际需要而定。
至此,即完成了一次完整的页面聚合过程。后续,当每次满足更新条件时,可抓取新的页面存储到物料库中,并根据物料库中的物料进行映射规则的挖掘以及页面聚合等操作,即可周期性的重复图1所示过程。
当新增站点或栏目时,有些分页可能不能被原有的映射规则覆盖。但随着新的分页和封面页的积累,对应的映射规则也会被自动挖掘出。随着映射规则的不断完善,物料库中包含的分页会越来越少。
在抓取到新的页面后,如果已经存在对应的映射规则,也可先映射到对应的封面页,并与该封面页下的其它分页聚合为同一个物料,提取相应内容并结构化后存储。
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
总之,采用本发明方法实施例所述方案,可从抓取到的物料中自动挖掘出分页与封面页之间的映射规则,进而可根据挖掘出的映射规则,将封面页对应的分页内容聚合到封面页,这样,当需要向用户推荐页面时,可极大地减少推荐结果中的分页,从而更符合用户的浏览习惯,并优化了推荐结果,提升了点击率等,而且,当出现新增站点或栏目等情况时,能够自动挖掘出新的映射规则,实现自适应更新等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图2为本发明所述页面聚合装置实施例的组成结构示意图。如图2所示,包括:抓取单元201、挖掘单元202以及聚合单元204。
抓取单元201,用于按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中。
挖掘单元202,用于根据物料库中的页面的URL挖掘出分页与封面页之间的映射规则。
聚合单元204,用于根据映射规则,将物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。
抓取单元201可按照抓取要求从站点抓取页面,抓取要求具体为何种要求可根据实际需要而定。比如,可对指定的站点进行全站抓取,或者,对指定的抓取范围内的页面进行抓取,或者,对指定站点中有过用户浏览记录的页面进行抓取等。可采用现有抓取方式来进行页面抓取。
对于抓取到的页面,抓取单元201可分别提取页面的标题、作者、发表时间、主图、内容、URL等信息,并可按照预定格式结构化后存储,如作为一条物料存储到物料库中。
挖掘单元202可基于物料库中的页面的URL,挖掘出分页与封面页之间的映射规则。映射规则中可包括:映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。
可选地,图2所示装置中还可进一步包括:过滤单元203,用于对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则。
具体地,过滤单元203可按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出该映射规则是否为符合要求的映射规则。
比如,过滤单元203可针对任一映射规则,统计满足以下条件的URL对数:
物料库中的一个分页通过该映射规则映射到的封面页也存储在物料库中,且分页与封面页的标题的相似度大于预先设定的第一阈值;
将统计出的URL对数作为该映射规则的打分;
若打分大于预先设定的第二阈值,则确定该映射规则为符合要求的映射规则,否则,确定该映射规则为不符合要求的映射规则。
另外,针对任一映射规则,过滤单元203还可确定该映射规则是否位于预先生成的黑名单中,若是,则可确定该映射规则为不符合要求的映射规则。
黑名单还可和打分结合使用。比如,对于挖掘出的一条映射规则,可先利用黑名单来确定该映射规则是否为符合要求的映射规则,若确定结果为是,即该映射规则没有位于黑名单中,可再根据打分来确定该映射规则是否为符合要求的映射规则。
另外,过滤单元203还可获取映射规则的白名单,这样,聚合单元204可根据白名单中的映射规则以及过滤后的挖掘出的映射规则,将物料库中的封面页对应的分页内容聚合到封面页。
具体地,聚合单元204可针对物料库中的每个页面,分别进行以下处理:确定该页面是否为分页;若是,则根据该分页对应的映射规则映射得到该分页对应的封面页,并分别获取该封面页对应的各分页,将各分页内容聚合到封面页,生成一条新的物料。
其中,聚合单元204分别获取该封面页对应的各分页的方式可为:根据该封面页对应的映射规则生成该封面页对应的各分页的URL;分别确定生成的各URL对应的分页是否存储在物料库中,若否,则根据该分页的URL抓取该分页。
图2所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本发明装置实施例所述方案,可从抓取到的物料中自动挖掘出分页与封面页之间的映射规则,进而可根据挖掘出的映射规则,将封面页对应的分页内容聚合到封面页,这样,当需要向用户推荐页面时,可极大地减少推荐结果中的分页,从而更符合用户的浏览习惯,并优化了推荐结果,提升了点击率等,而且,当出现新增站点或栏目等情况时,能够自动挖掘出新的映射规则,实现自适应更新等。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图3显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (15)

1.一种页面聚合方法,其特征在于,包括:
按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;
根据所述物料库中的页面的统一资源定位符URL挖掘出分页与封面页之间的映射规则;
对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则,包括:针对任一映射规则,统计满足以下条件的URL对数:所述物料库中的一个分页通过所述映射规则映射到的封面页也存储在所述物料库中,且所述分页与所述封面页的标题的相似度大于预先设定的第一阈值,将统计出的URL对数作为所述映射规则的打分;若所述打分大于预先设定的第二阈值,则确定所述映射规则为符合要求的映射规则,否则,确定所述映射规则为不符合要求的映射规则;
根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。
2.根据权利要求1所述的方法,其特征在于,
所述映射规则中包括:所述映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。
3.根据权利要求1所述的方法,其特征在于,
所述对挖掘出的映射规则进行过滤进一步包括:
针对任一映射规则,确定所述映射规则是否位于预先生成的黑名单中,若是,则确定所述映射规则为不符合要求的映射规则。
4.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:获取映射规则的白名单;
所述根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页包括:根据所述白名单中的映射规则以及过滤后的挖掘出的映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页。
5.根据权利要求1所述的方法,其特征在于,
所述根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料包括:
针对所述物料库中的每个页面,分别进行以下处理:
确定所述页面是否为分页;
若是,则根据所述分页对应的映射规则映射得到所述分页对应的封面页,并分别获取所述封面页对应的各分页,将各分页内容聚合到所述封面页,生成一条新的物料。
6.根据权利要求5所述的方法,其特征在于,
所述分别获取所述封面页对应的各分页包括:
根据所述封面页对应的映射规则生成所述封面页对应的各分页的URL;
分别确定生成的各URL对应的分页是否存储在所述物料库中,若否,则根据所述分页的URL抓取所述分页。
7.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:当每次满足更新条件时,抓取新的页面存储到所述物料库中,并根据所述物料库中的物料进行映射规则的挖掘以及页面聚合操作。
8.一种页面聚合装置,其特征在于,包括:过滤单元、抓取单元、挖掘单元以及聚合单元;
所述抓取单元,用于按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;
所述挖掘单元,用于根据所述物料库中的页面的统一资源定位符URL挖掘出分页与封面页之间的映射规则;
所述过滤单元,用于对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则,包括:针对任一映射规则,统计满足以下条件的URL对数:所述物料库中的一个分页通过所述映射规则映射到的封面页也存储在所述物料库中,且所述分页与所述封面页的标题的相似度大于预先设定的第一阈值,将统计出的URL对数作为所述映射规则的打分;若所述打分大于预先设定的第二阈值,则确定所述映射规则为符合要求的映射规则,否则,确定所述映射规则为不符合要求的映射规则;
所述聚合单元,用于根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。
9.根据权利要求8所述的装置,其特征在于,
所述映射规则中包括:所述映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。
10.根据权利要求8所述的装置,其特征在于,
所述过滤单元进一步用于,针对任一映射规则,确定所述映射规则是否位于预先生成的黑名单中,若是,则确定所述映射规则为不符合要求的映射规则。
11.根据权利要求8所述的装置,其特征在于,
所述过滤单元进一步用于,获取映射规则的白名单;
所述聚合单元根据所述白名单中的映射规则以及过滤后的挖掘出的映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页。
12.根据权利要求8所述的装置,其特征在于,
所述聚合单元针对所述物料库中的每个页面,分别进行以下处理:
确定所述页面是否为分页;
若是,则根据所述分页对应的映射规则映射得到所述分页对应的封面页,并分别获取所述封面页对应的各分页,将各分页内容聚合到所述封面页,生成一条新的物料。
13.根据权利要求12所述的装置,其特征在于,
所述聚合单元根据所述封面页对应的映射规则生成所述封面页对应的各分页的URL,并分别确定生成的各URL对应的分页是否存储在所述物料库中,若否,则根据所述分页的URL抓取所述分页。
14.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN201811330607.0A 2018-11-09 2018-11-09 页面聚合方法、装置、计算机设备及存储介质 Active CN111177522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811330607.0A CN111177522B (zh) 2018-11-09 2018-11-09 页面聚合方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811330607.0A CN111177522B (zh) 2018-11-09 2018-11-09 页面聚合方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111177522A CN111177522A (zh) 2020-05-19
CN111177522B true CN111177522B (zh) 2023-08-18

Family

ID=70647892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811330607.0A Active CN111177522B (zh) 2018-11-09 2018-11-09 页面聚合方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111177522B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399872A (zh) * 2013-07-10 2013-11-20 北京奇虎科技有限公司 对网页抓取进行优化的方法和装置
CN103617229A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页数据库的建立方法和装置
WO2015074455A1 (zh) * 2013-11-25 2015-05-28 北京奇虎科技有限公司 一种计算关联网页URL模式pattern的方法和装置
CN105786894A (zh) * 2014-12-22 2016-07-20 广州市动景计算机科技有限公司 页面展示方法和页面展示设备
CN106021418A (zh) * 2016-05-13 2016-10-12 北京奇虎科技有限公司 新闻事件的聚类方法及装置
WO2017107403A1 (zh) * 2015-12-23 2017-06-29 北京奇虎科技有限公司 电子书更新章节的调度方法和装置
CN108153851A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于规则和语义的通用论坛主题帖页面信息抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240067B2 (en) * 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US7680785B2 (en) * 2005-03-25 2010-03-16 Microsoft Corporation Systems and methods for inferring uniform resource locator (URL) normalization rules

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399872A (zh) * 2013-07-10 2013-11-20 北京奇虎科技有限公司 对网页抓取进行优化的方法和装置
CN103617229A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页数据库的建立方法和装置
WO2015074455A1 (zh) * 2013-11-25 2015-05-28 北京奇虎科技有限公司 一种计算关联网页URL模式pattern的方法和装置
CN105786894A (zh) * 2014-12-22 2016-07-20 广州市动景计算机科技有限公司 页面展示方法和页面展示设备
WO2017107403A1 (zh) * 2015-12-23 2017-06-29 北京奇虎科技有限公司 电子书更新章节的调度方法和装置
CN106021418A (zh) * 2016-05-13 2016-10-12 北京奇虎科技有限公司 新闻事件的聚类方法及装置
CN108153851A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于规则和语义的通用论坛主题帖页面信息抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
布式书籍网络爬虫系统的设计与实现;赵鹏程;《优秀硕士论文》;全文 *

Also Published As

Publication number Publication date
CN111177522A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
US11606384B2 (en) Clustering-based security monitoring of accessed domain names
US10567412B2 (en) Security threat detection based o patterns in machine data events
US20220046052A1 (en) Automatic creation and updating of event group summaries
KR102455232B1 (ko) 콘텍스트 기반 탭 관리를 위한 방법 및 전자 장치
CN107241296B (zh) 一种Webshell的检测方法及装置
US20170323025A1 (en) Browser acceleration method and browser device having accelerator
CN108038119A (zh) 利用新词发现投资标的的方法、装置及存储介质
US8788925B1 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
CN104933056A (zh) 统一资源定位符去重方法及装置
JP6827116B2 (ja) ウェブページのクラスタリング方法及び装置
CN111008348A (zh) 反爬虫方法、终端、服务器及计算机可读存储介质
CN106599270B (zh) 网络数据抓取方法和爬虫
WO2021098242A1 (zh) 页面处理方法、装置、电子设备和计算机可读介质
CN109213824B (zh) 数据抓取系统、方法和装置
CN115766184A (zh) 一种网页数据处理方法、装置、电子设备及存储介质
US20140129490A1 (en) Image url-based junk detection
CN110825947B (zh) Url去重方法、装置、设备与计算机可读存储介质
CN111177522B (zh) 页面聚合方法、装置、计算机设备及存储介质
US10594809B2 (en) Aggregation of web interactions for personalized usage
US20200089712A1 (en) System and method of crawling wide area computer network for retrieving contextual information
CN113722416A (zh) 一种数据清洗方法、装置、设备及可读存储介质
CN111339453A (zh) 导航页的判别方法和装置
CN117478743A (zh) 平衡新鲜度和访问频率的数据缓存方法、装置、设备及介质
CN117435795A (zh) 数据获取方法、装置、设备、存储介质和程序产品
CN113190753A (zh) 数据采集方法和装置、电子设备、计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant