CN105138701B - 索引页内容提取方法和装置、搜索引擎 - Google Patents

索引页内容提取方法和装置、搜索引擎 Download PDF

Info

Publication number
CN105138701B
CN105138701B CN201510634772.5A CN201510634772A CN105138701B CN 105138701 B CN105138701 B CN 105138701B CN 201510634772 A CN201510634772 A CN 201510634772A CN 105138701 B CN105138701 B CN 105138701B
Authority
CN
China
Prior art keywords
index page
main body
page
current
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510634772.5A
Other languages
English (en)
Other versions
CN105138701A (zh
Inventor
郑燕琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510634772.5A priority Critical patent/CN105138701B/zh
Publication of CN105138701A publication Critical patent/CN105138701A/zh
Application granted granted Critical
Publication of CN105138701B publication Critical patent/CN105138701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种索引页内容提取方法和装置、搜索引擎,其中,方法包括:对指定网站的索引页系列中的当前索引页进行内容提取,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取。本发明实施例可以在不增加流量成本的情况下提高Spider对网络资源的收录覆盖率。

Description

索引页内容提取方法和装置、搜索引擎
技术领域
本发明涉及互联网技术,尤其是一种索引页内容提取方法和装置、搜索引擎。
背景技术
作为互联网资源的HTML(Hypertext Markup Language,超文本标记语言)文档使用超链接连接了起来,就像织成了一张网。搜索引擎使用Spider(网络爬虫,也称网络蜘蛛)寻找网络资源。Spider位于搜索引擎数据流的最上游,负责将互联网网站上的资源采集到本地数据库,提供给后续检索使用,是搜索引擎最主要数据来源之一。Spider的目标就是发现并抓取互联网中一切有价值的网页。
当前大多数互联网网站以索引页和翻页的形式来组织网站资源,当有新资源增加时,老资源往后或往前推移到翻页系列中。对Spider来说,这种特定类型的索引页是资源链接发现的一种有效渠道。但是,由于Spider是定期检查这些网页来获得新增的资源链接,检查的周期同资源链接发布的周期不可避免会有不同,周期不同的时候,资源链接很有可能就被推到翻页序列中。
为实现上述发现并抓取互联网中一切有价值网页的目标,首先就需要发现有价值的网页链接。目前,Spider可以通过多种调度机制尽量快而全的发现网页链接。
在现有的一种调度机制中,Spider对挖掘的种子(即:网站网页爬行入口)按照一定的较短周期进行调度,例如按照1天调度20次的平均周期进行调度,以便能覆盖到所有的时效性网页;考虑到有限的网络流量资源、而存在大量的索引页,对不在种子集合范围内的一般索引页按一定的较长周期进行调度,例如按照一周重抓一次的较长周期进行调度。
在实现本发明的过程中,发明人发现,上述现有的调度机制至少存在以下问题:
对种子的调度周期较短时,一般不会出现遗漏资源链接(网页链接,简称:漏链)的问题,然而当采点不准时,即:Spider对种子的调度周期同资源链接的发布周期不同时,较短的调度周期就会造成网络流量资源的浪费;若将对种子的调度周期设置较长,可能会出现漏链问题;
对于一般索引页,由于调度周期较长,可能会出现漏链问题;
由于存在以上漏链问题,降低了Spider对网络资源的收录覆盖率。
发明内容
本发明实施例所要解决的一个技术问题是:提供一种索引页内容提取方法和装置、搜索引擎,以避免调度周期较长时出现的漏链问题,在不增加流量成本的情况下提高Spider对网络资源的收录覆盖率。
根据本发明实施例的一个方面,提供的一种索引页内容提取方法,包括:
对指定网站的索引页系列中的当前索引页进行内容提取,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;
响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取。。
示例性地,在本发明上述方法的另一个实施例的中,还包括:
响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,将当前索引页中的所有主体链接记录到所述历史主体链接集合中;或者
响应于当前索引页中的主体链接集合与历史主体链接集合存在交集,将当前索引页中、所述交集之外的主体链接记录到所述历史主体链接集合中。
示例性地,在本发明上述方法的另一个实施例的中,所述定位到下一索引页进行内容提取包括:
识别索引页系列是否存在当前索引页的下一索引页;
响应于索引页系列存在当前索引页的下一索引页,根据当前索引页上翻页块的翻页特征锚点anchor或当前索引页的链接地址获取下一索引页的链接地址,以所述当前索引页的下一索引页作为当前索引页进行内容提取。
示例性地,在本发明上述方法的另一个实施例中,还包括:
响应于当前索引页中的主体链接集合与历史主体链接集合存在交集,将所述历史主体链接集合中不存在的、所述索引页系列中的主体链接记录到所述历史主体链接集合中;
其中,所述历史主体链接集合中不存在的、所述索引页系列中的主体链接包括与所述历史主体链接集合存在交集的当前索引页的主体链接集合中所述交集之外的主体链接,或进一步包括与所述历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接。
示例性地,在本发明上述方法的另一个实施例中,所述定位到下一索引页进行内容提取包括:
识别索引页系列是否存在当前索引页的下一索引页;
响应于索引页系列存在当前索引页的下一索引页,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址,以所述当前索引页的下一索引页作为当前索引页进行内容提取;
响应于索引页系列不存在当前索引页的下一索引页,将索引页系列中与所述历史主体链接集合不存在交集的所有索引页的主体链接集合中的所有主体链接记录到所述历史主体链接集合中。
示例性地,在本发明上述各方法的另一个实施例中,所述对当前索引页进行内容提取包括:
对当前索引页进行解析,发现当前索引页中的主体链接并进行集合,得到当前索引页中的的主体链接集合。
示例性地,在本发明上述各方法的另一个实施例中,所述发现当前索引页中的主体链接包括:
获取当前索引页中的相似块并计算相似块在当前索引页中的位置和面积;其中,相似块为可扩展标记语言XML文档元素路径xpath相同的节点集合在当前索引页上形成的区域;
从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块;
确定最大相似块中的链接为主体链接。
示例性地,在本发明上述各方法的另一个实施例中,所述节点集合中的节点数量大于4。
示例性地,在本发明上述各网络资源的调度方法的另一个实施例中,还包括:
判断索引页系列中主体链接是否按照发布时间排布,其中,按照发布时间排布包括按照发布时间顺序排布、或者按照发布时间逆序排布;
响应于索引页系列中主体链接按照发布时间排布,确定索引页系列中的首个索引页,开始执行所述对指定网站的索引页系列中的当前索引页进行内容提取的操作;
其中,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者按照发布时间顺序排布的最后一个索引页;下一索引页为索引页系列中,主体链接按照时间逆序排布时所述当前索引页相邻的后一个索引页、或者按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
示例性地,在本发明上述各方法的另一个实施例中,所述判断索引页系列中主体链接是否按照发布时间排布包括:
获取索引页上记录的各主体链接的发布时间信息,判断各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列;在各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列时,确定索引页系列中主体链接按照发布时间排布;或者
获取索引页上主体链接区块的元素的类class属性信息,根据class属性信息中包含的主体链接区块的排布方式说明信息判断索引页系列中主体链接按照发布时间排布。
示例性地,在本发明上述各方法的另一个实施例中,还包括:
识别所述网站需要进行内容提取的网页为索引页系列或单个索引页;
响应于需要进行内容提取的网页为索引页系列,执行所述判断索引页系列中主体链接是否按照发布时间排布的操作;
响应于需要进行内容提取的网页为单个索引页,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合,将当前索引页中的主体链接集合中与所述历史主体链接集合的交集之外的主体链接记录到所述历史主体链接集合中。
根据本发明实施例的又一个方面,提供的一种索引页内容提取装置,包括:
内容提取单元,对指定网站的索引页系列中的当前索引页进行内容提取;以及根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,定位到下一索引页进行内容提取;
比较单元,用于比较内容提取单元提取的当前索引页中的主体链接集合与上一次提取到的历史主体链接集合。
示例性地,在本发明上述装置的另一个实施例的中,还包括:
第一记录单元,用于根据比较单元的比较结果,在当前索引页中的的主体链接集合与历史主体链接集合不存在交集时,将当前索引页中的所有主体链接记录到所述历史主体链接集合中;以及在当前索引页中的主体链接集合与历史主体链接集合存在交集时,将当前前索引页中、所述交集之外的主体链接记录到所述历史主体链接集合中。
示例性地,在本发明上述装置的另一个实施例的中,还包括:
第一识别单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,识别索引页系列是否存在当前索引页的下一索引页;
地址获取单元,用于根据第一识别单元的识别结果,在索引页系列存在当前索引页的下一索引页时,根据当前索引页上翻页块的翻页特征锚点anchor或当前索引页的链接地址获取下一索引页的链接地址并提供给内容提取单元,以便所述内容提取单元以所述当前索引页的下一索引页作为当前索引页进行内容提取。
示例性地,在本发明上述装置的另一个实施例的中,还包括:
第二记录单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合存在交集时,将所述历史主体链接集合中不存在的、所述索引页系列中的主体链接记录到所述历史主体链接集合中;
其中,所述历史主体链接集合中不存在的、所述索引页系列中的主体链接包括与所述历史主体链接集合存在交集的当前索引页的主体链接集合中所述交集之外的主体链接,或进一步包括与所述历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接。
示例性地,在本发明上述装置的另一个实施例的中,还包括:
第一识别单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,识别索引页系列是否存在当前索引页的下一索引页;
地址获取单元,用于根据第一识别单元的识别结果,在索引页系列存在当前索引页的下一索引页时,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址,并提供给所述内容提取单元,以便所述内容提取单元以所述当前索引页的下一索引页作为当前索引页进行网络资源调度;
所述第二记录单元,还用于根据第一识别单元的识别结果,在索引页系列不存在当前索引页的下一索引页时,将索引页系列中与所述历史主体链接集合不存在交集的所有索引页的主体链接集合中的所有主体链接记录到所述历史主体链接集合中。
示例性地,在本发明上述各装置的另一个实施例中,所述内容提取单元对当前索引页进行网络资源调度时,具体用于对当前索引页进行解析,发现当前索引页中的主体链接并进行集合,得到当前索引页中的主体链接集合。
示例性地,在本发明上述各装置的另一个实施例中,所述内容提取单元提取当前索引页中的主体链接时,具体用于:
获取当前索引页中的相似块并计算相似块在当前索引页中的位置和面积;其中,相似块为可扩展标记语言XML文档元素路径xpath相同的节点集合在当前索引页上形成的区域;
从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块;
确定最大相似块中的链接为主体链接。
示例性地,在本发明上述各装置的另一个实施例中,所述节点集合中的节点数量大于4。
示例性地,在本发明上述各装置的另一个实施例中,还包括:
判断单元,用于判断索引页系列中主体链接是否按照发布时间排布,其中,按照发布时间排布包括按照发布时间顺序排布、或者按照发布时间逆序排布;以及在索引页系列中主体链接按照发布时间排布时,确定索引页系列中的首个索引页并提供给内容提取单元;
其中,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者按照发布时间顺序排布的最后一个索引页;下一索引页为索引页系列中,主体链接按照时间逆序排布时所述当前索引页相邻的后一个索引页、或者按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
示例性地,在本发明上述各装置的另一个实施例中,所述判断单元判断索引页系列中主体链接是否按照发布时间排布时,具体用于:
获取索引页上记录的各主体链接的发布时间信息,判断各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列;在各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列时,确定索引页系列中主体链接按照发布时间排布;或者
获取索引页上主体链接区块的元素的类class属性信息,根据class属性信息中包含的主体链接区块的排布方式说明信息判断索引页系列中主体链接按照发布时间排布。
示例性地,在本发明上述各装置的另一个实施例中,还包括:
第二识别单元,用于识别所述网站需要进行内容提取的网页为索引页系列或单个索引页;
所述判断单元,具体用于根据第二识别单元输出的识别结果,在需要进行内容提取的网页为索引页系列时,执行判断索引页系列中主体链接是否按照发布时间排布的操作;
所述内容提取单元,还用于对单个索引页进行内容提取;
所述比较单元,还用于根据第二识别单元输出的识别结果,在需要进行网络资源调度的网页为单个索引页的时,比较内容提取单元提取的当前索引页中的主体链接集合与上一次提取到的历史主体链接集合并输出给第一记录单元或第二记录单元;
所述第一记录单元或第二记录单元,还用于将内容提取单元提取的当前索引页中的主体链接集合中与所述历史主体链接集合的交集之外的主体链接记录到所述历史主体链接集合中。
根据本发明实施例的再一个方面,提供的一种搜索引擎,包括索引页内容提取装置和数据库;其中:
所述索引页内容提取装置,用于对指定网站的索引页系列中的当前索引页进行内容提取,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取;
所述数据库,用于存储所述索引页内容提取装置提取的主体链接集合。
示例性地,在上述搜索引擎的另一个实施例中,索引页内容提取装置具体可以采用上述任一实施例的索引页内容提取装置实现。
基于本发明上述实施例提供的索引页内容提取方法和装置、搜索引擎,通过将每次进行索引页内容提取得到的主体链接集合与上一次提取到的历史主体链接集合进行比较,如果有交集,说明本次调度发现了所有的新增资源链接;否则,说明本次调度并未发现所有的新增资源,继续调度下一页甚至下几页来发现所有的新增资源链接,直至与上一次调度发现的历史主体链接有交集,可以断定已经补全了这段时间内新增的资源链接,保证该翻页系列的所有资源链接的补全,与现有技术相比,本发明实施例避免了调度周期较长时出现的漏链问题,提高了Spider对网络资源的收录覆盖率,从而提升了搜索产品的收录效果。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为一个索引页系列中一个索引页的部分截图示例。
图2为图1所示索引页系列中一个索引页的部分截图示例。
图3为本发明索引页内容提取方法一个实施例的流程图。
图4为一个索引页的部分截图示例。
图5为另一个索引页的部分截图示例。
图6为本发明索引页内容提取方法另一个实施例的流程图。
图7为本发明索引页内容提取方法又一个实施例的流程图。
图8为本发明索引页内容提取装置一个实施例的结构示意图。
图9为本发明索引页内容提取装置另一个实施例的结构示意图。
图10为本发明索引页内容提取装置又一个实施例的结构示意图。
图11为本发明索引页内容提取装置再一个实施例的结构示意图。
图12为本发明搜索引擎一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在本发明实施例中,索引页是指:主体是链接、而非内容文字的网页;主体链接是指:索引页上的主体对应的链接,如图1、图2所示;索引页系列是指:以翻页形式组织的索引页及其对应的一系列翻页;历史主体链接集合是指:对索引页调度时抽取出的主体链接总和。
对于以索引页和翻页形式组织网站资源,当有新资源增加时,老资源往后或往前推移到翻页系列(也即:索引页系列)中。如图1所示,为6月05日10:00抓取的网页http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml的翻页系列中的第1页,图2为图1所示网页经过13个小时后,该翻页系列的第4页的内容,在这段时间内新增了三页的资源链接,图1中第1页的资源在13个小时后已往后有序推移到第4页。由于Spider是定期检查这些网页来获得新增的资源链接,检查的周期同资源链接发布的周期不可避免会有不同,周期不同的时候,资源链接很有可能就被推到翻页序列中,对于以翻页形式组织的网站资源,其具有更新速度快、更新不定时等特点,发现新增资源链接时可能存在漏链问题。本发明实施例针对这种以翻页形式组织的索引页序列进行翻页补全,以保证收录资源的完全。
本发明实施例提供的一种索引页内容提取方法,包括:
对指定网站的索引页系列中的当前索引页进行内容提取,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;
响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取。
本发明上述实施例提供的索引页内容提取方法,通过将每次进行索引页内容提取得到的主体链接集合与上一次提取到的历史主体链接集合进行比较,如果有交集,说明本次调度发现了所有的新增资源链接;否则,说明本次调度并未发现所有的新增资源,继续调度下一页甚至下几页来发现所有的新增资源链接,直至与上一次提取到的历史主体链接集合有交集,说明已经补全了这段时间内新增的资源链接,保证该翻页系列的所有资源链接的补全,避免了调度周期较长时出现的漏链问题,提高了Spider对网络资源的收录覆盖率,从而提升了搜索产品的收录效果。
图3为本发明索引页内容提取方法一个实施例的流程图。如图3所示,该实施例索引页内容提取方法包括:
102,以指定网站的索引页系列中的首个索引页作为当前索引页,进行内容提取,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合。
其中,索引页系列包括多个索引页。若当前索引页中的主体链接集合与历史主体链接集合不存在交集,说明本次调度并未发现该网站所有的新增资源链接,本次调度与上次调度之间存在漏链,执行104的操作。若当前索引页中的主体链接集合与历史主体链接集合存在交集,说明本次调度已发现该网站所有的新增资源链接,不再需要进行翻页调度,执行106的操作。
104,将当前索引页中的主体链接集合中的所有主体链接记录到历史主体链接集合中,并定位到当前索引页的下一索引页,以该下一索引页作为当前索引页,返回执行操作102开始进行内容提取的操作。
在实际应用中,网站索引页系列中的主体链接通常按照发布时间排布,例如按照发布时间逆序或逆序排布。在本发明的一个示例性实施例中,索引页系列中主体链接按照发布时间排布时,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者主体链接按照发布时间顺序排布的最后一个索引页;下一索引页为索引页系列中,主体链接按照时间逆序排布时当前索引页相邻的后一个索引页、或者主体链接按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
具体地,在本发明各实施例中,索引页系列中的主体链接按照发布时间逆序排布时,索引页系列中的第一页为首个索引页,第二页为首个索引页的下一索引页,第三页为第二页的下一索引页,…,以此类推;在索引页系列中的主体链接按照发布时间顺序排布时,索引页系列中的最后一页为首个索引页,倒数第二页为首个索引页的下一索引页,倒数第三页为倒数第二页的下一索引页,…,以此类推。
之后,不执行本实施例的后续流程。
106,将当前索引页中的主体链接集合中与历史主体链接集合的交集之外的主体链接记录到历史主体链接集合中。
该实施例提供的索引页内容提取方法,对指定网站进行网络资源调度时,从索引页系列中的首个索引页开始进行索引页内容提取(即:抓取),并将提取的当前索引页中的资源链接(即:本发明实施例当前索引页中的主体链接集合)与上一次提取到的历史资源链接(即:本发明实施例的历史主体链接集合)进行比较,如果有交集,说明本次调度发现了所有的新增资源链接,否则,说明本次调度并未发现所有的新增资源,本次调度与上次调度之间存在漏链,将当前索引页中的主体链接集合中的全部主体链接补充到历史主体链接集合中,并继续定位到下一页索引页甚至下几索引页来发现所有的新增资源链接,直至与上一次提取到的历史主体链接集合有交集,可以断定已经补全了从上一次调度到本次调度这段时间内新增的资源链接,保证该翻页系列的所有资源链接的补全,避免了调度周期较长时出现的漏链问题,提高了Spider对网络资源的收录覆盖率,从而提升了搜索产品的收录效果。
根据图3所示索引页内容提取方法实施例的一个示例而非限制,操作104中,定位到下一索引页进行内容提取,具体可以通过如下方式实现:
识别索引页系列是否存在当前索引页的下一索引页;
若索引页系列存在当前索引页的下一索引页,根据当前索引页上翻页块的翻页特征anchor(锚点)或当前索引页的链接地址,获取下一索引页的链接地址,然后以当前索引页的下一索引页作为当前索引页进行内容提取。
其中,索引页系列的网页上具有翻页块,如图1、图2示所示。翻页块具有翻页特征anchor,即:翻页特征字符串,例如可以是:数字、<、>、<<、>>、上一页、下一页、第一页、最后一页等,可以将网页上的DOM(文件对象模型)树节点与预先设置的翻页特征anchor进行正则匹配,来判断一个网页上是否具有翻页块、以及网页上的翻页块。
在一个具体示例中,获取下一索引页的链接地址时,可以首先将翻页块中的节点与翻页特征anchor进行正则匹配,判断翻页块中的节点是否匹配预先设置的翻页特征anchor,若匹配,则将该翻页特征anchor对应的链接作为下一索引页的链接地址URL(统一资源定位符);否则,通过当前索引页的页数计算下一索引页的页数,并根据当前索引页的链接地址拼接出下一索引页的链接地址URL。
如图4所示,翻页块中的节点正则匹配翻页特征anchor“下一页”,则其下一索引页的链接地址即为翻页特征anchor为“下一页”对应的链接http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml。
如图5所示,翻页块中的节点未能与翻页特征“下一页”、“后一页”、“>”正则匹配,由当前索引页的页数1计算出下一索引页的页数为2,从当前索引页的链接地址http:// gold.jrj.com.cn/list/hjzx.shtml中找出翻页特征anchor匹配数字2的链接,拼接出第二页的链接地址:http://gold.jrj.com.cn/list/hjzx-2.shtml。
图6为本发明索引页内容提取方法另一个实施例的流程图。如图6所示,该实施例索引页内容提取方法包括:
202,以指定网站的索引页系列中的首个索引页作为当前索引页,进行内容提取,比较当前索引页中的主体链接集合与上一次提取的历史主体链接集合。
其中,索引页系列包括多个索引页。
若当前索引页中的主体链接集合与历史主体链接集合不存在交集,说明本次调度并未发现该网站所有的新增资源链接,本次调度与上次调度之间存在漏链,执行204的操作。若当前索引页中的主体链接集合与历史主体链接集合存在交集,说明本次调度已发现该网站所有的新增资源链接,不再需要进行翻页调度,执行206的操作。
204,定位到当前索引页的下一索引页,以该下一索引页作为当前索引页,返回执行操作202开始进行内容提取的操作。
在实际应用中,网站索引页系列中的主体链接通常按照发布时间排布,例如按照发布时间逆序或逆序排布。在本发明的一个示例性实施例中,索引页系列中主体链接按照发布时间排布时,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者主体链接按照发布时间顺序排布的最后一个索引页;,下一索引页为索引页系列中,主体链接按照时间逆序排布时当前索引页相邻的后一个索引页、或者主体链接按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
之后,不执行本实施例的后续流程。
206,将历史主体链接集合中不存在的索引页系列中的主体链接,包括与历史主体链接集合存在交集的当前索引页的主体链接集合中上述交集之外的主体链接,或进一步包括与历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接,记录到历史主体链接集合中。
该实施例提供的索引页内容提取方法,从指定网站的索引页系列中的首个索引页开始进行网络资源调度,并将调度当前索引页发现的资源链接与上一次调度发现的历史资源链接进行比较,如果有交集,说明本次调度发现了所有的新增资源链接;否则,说明本次调度并未发现所有的新增资源,需要继续调度下一索引页甚至下几索引页来发现所有的新增资源链接,直至与上一次提取到的历史资源链接有交集,将索引页系列中的所有新增主体资源链接补充到历史资源链接集合中,从而补全了这段时间内新增的资源链接,保证该翻页系列的所有资源链接的补全,避免了调度周期较长时出现的漏链问题,提高了Spider对网络资源的收录覆盖率,从而提升了搜索产品的收录效果。
图7为本发明索引页内容提取方法又一个实施例的流程图。如图7所示,该实施例索引页内容提取方法包括:
302,以指定网站的索引页系列中的首个索引页作为当前索引页,对当前索引页进行内容提取,比较提取到的当前索引页中的主体链接集合与上一次提取到的历史主体链接集合。
其中,索引页系列包括多个索引页。
若当前索引页中的主体链接集合与历史主体链接集合不存在交集,执行304的操作。若当前索引页的主体链接集合与历史主体链接集合存在交集,执行310的操作。
304,识别索引页系列是否存在当前索引页的下一索引页。
其中,下一索引页为索引页系列中,主体链接按照时间逆序排布时当前索引页相邻的后一个索引页、或者主体链接按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
若索引页系列存在当前索引页的下一索引页,执行306的操作。若索引页系列不存在当前索引页的下一索引页,执行308的操作。
306,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址,以当前索引页的下一索引页作为当前索引页,返回执行操作302中进行内容提取的操作。
308,将索引页系列中与历史主体链接集合不存在交集的所有索引页的主体链接集合中的主体链接记录到历史主体链接集合中。
之后,不执行本实施例的后续流程。
310,将历史主体链接集合中不存在的索引页系列中的主体链接,包括与历史主体链接集合存在交集的当前索引页的主体链接集合中交集之外的主体链接,或进一步包括与历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接,记录到历史主体链接集合中。
在上述各索引页内容提取方法实施例的一个具体示例中,对当前索引页进行网络资源调度可以是:对当前索引页进行解析,发现当前索引页中的主体链接并进行集合,得到当前索引页中的主体链接集合。
具体地,可以通过如下方式发现当前索引页中的主体链接:
获取当前索引页中的相似块并计算相似块在当前索引页中的位置和面积。其中,相似块为xpath(可扩展标记语言XML(可扩展标记语言)文档元素路径)相同的节点集合在当前索引页上形成的区域;
从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块,如图4所示的相似块3;
确定最大相似块中的链接为主体链接。
其中,可以根据预先制定的xPath的匹配规则,来找到XML文档树中的任何一个节点。根据预先制定的xPath的匹配规则查询到当前索引页中xpath相同的节点集合后,由这些xpath相同的节点集合在当前索引页上形成的区域即为相似块,如图4所示,存在三个相似块;然后分别获取各相似块在当前索引页面中宽度、高度、上边距、左边距,从而确定各相似块在网页中的位置,并计算各相似块的面积;从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块,例如图4中的相似块3即为最大相似块。最大相似块中的链接即为主体链接,即相似块3中各条新闻对应的链接即为主体链接,例如,北京西四环一间平房起火消防揭房顶扑救(图):http://news.sina.com.cn/c/2015-06-05/133131917716.shtml、财政部:严禁行业协会商会打着政府旗号擅自收费:http://news.sina.com.cn/c/2015-06-05/125531917706.shtml。
在一个具体示例中,可以设置要求xpath相同、且节点数量大于4的节点集合在当前索引页上形成的区域才为相似块,以提高主体链接的判断准确率,避免网上少数节点造成的误判干扰。
在本发明上述各索引页内容提取方法实施例中,在以索引页系列中的首个索引页作为当前索引页进行网络资源调度之前,可以先判断索引页系列中主体链接是否按照发布时间排布,其中,按照发布时间排布包括按照发布时间顺序排布、或者按照发布时间逆序排布;
若索引页系列中主体链接按照发布时间排布,确定索引页系列中的首个索引页,然后开始执行上述各实施例的索引页内容提取流程,即:开始执行102、202或302的操作。
具体地,在索引页系列中的主体链接按照发布时间逆序排布时,确定索引页系列中的第一页为首个索引页;在索引页系列中的主体链接按照发布时间顺序排布时,确定索引页系列中的最后一页为首个索引页。
相应地,定位下一索引页时,若索引页系列中的主体链接按照发布时间逆序排布,定位索引页系列中当前索引页相邻的后一个索引页为下一索引页;若索引页系列中的主体链接按照发布时间顺序排布,定位索引页系列中当前索引页相邻的前一个索引页为下一索引页。
另外,在上述索引页内容提取方法实施例的一个示例中,可以通过如下方式判断索引页系列中主体链接是否按照发布时间排布:
获取索引页上记录的各主体链接的发布时间信息,判断各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列;在各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列时,确定索引页系列中主体链接按照发布时间排布。
如图4所示,各主体链接旁边都标出了其发布时间,顺序抽取各主体链接的发布时间进行集合,通过判断该集合中各元素是否按照由大到小或者由小到大的顺序排列,如果是的话,则说明索引页中的资源链接是按发布时间有序排布,反之亦然。根据集合中各元素是按照由大到小还是由小到大的顺序排列,可以确定该索引页上的主体链接是按照发布时间顺序或逆序排布。
另外,一些网站对网站网页上的主体链接区块设置了元素的class(类)属性信息,来标志主体链接区块相应的特征,以供Spider识别使用,在class属性信息中扩展设置了主体链接区块的排布方式说明信息。在上述索引页内容提取方法实施例的另一个示例中,针对此类网页,也可以通过如下方式判断索引页系列中主体链接是否按照发布时间排布:获取索引页上主体链接区块的元素的class属性信息,根据class属性信息中包含的主体链接区块的排布方式说明信息判断索引页系列中主体链接按照发布时间排布。
进一步地,在本发明索引页内容提取方法再一个实施例中,执行上述各实施例索引页内容提取方法流程之前,还可以先识别该网站需要进行内容提取的网页为索引页系列或单个索引页,即:该网站需要进行内容提取的索引页具有多个或仅有一个;
若需要进行内容提取的网页为索引页系列,即:具有多个索引页,开始执行判断索引页系列中主体链接是否按照发布时间排布的操作;
若需要进行内容提取的网页为单个索引页,则可以比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合,将当前索引页中的主体链接集合中与历史主体链接集合的交集之外的主体链接记录到历史主体链接集合中。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分操作可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的操作;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图8为本发明索引页内容提取装置一个实施例的结构示意图。该实施例的调度装置可作为Spider,实现图3所示实施例及其进一步实施例和相应示例所示的方法。
如图8所示,该实施例的调度装置包括内容提取单元402和比较单元404。其中:
内容提取单元402,用于对指定网站的索引页系列中的当前索引页进行内容提取;以及根据比较单元404的比较结果,在当前索引页中的主体链接集合与上一次提取到的历史主体链接集合不存在交集时,开始执行定位到当前索引页的下一索引页内容提取的操作。其中,索引页系列包括多个索引页;
比较单元404,用于比较内容提取单元402提取的当前索引页的主体链接集合与上一次提取到的历史主体链接集合。
图9为本发明索引页内容提取装置另一个实施例的结构示意图。如图9所示,与图8所示的实施例相比,该实施例的索引页内容提取装置还包括第一记录单元406,用于根据比较单元404的比较结果,在内容提取单元402提取的当前索引页的主体链接集合与历史主体链接集合不存在交集时,将内容提取单元402提取的当前索引页中的主体链接集合中的所有主体链接记录到历史主体链接集合中;以及在内容提取单元402提取的当前索引页中的主体链接集合与历史主体链接集合存在交集时,将内容提取单元402提取的当前索引页中的主体链接集合中交集之外的主体链接记录到历史主体链接集合中。
进一步地,再参见图9,在本发明另一实施例的索引页内容提取装置还可以包括第一识别单元408和地址获取单元410。其中:
第一识别单元408,用于根据比较单元404的比较结果,在内容提取单元402提取的当前索引中的主体链接集合与历史主体链接集合不存在交集时,识别索引页系列是否存在当前索引页的下一索引页;
地址获取单元410,用于根据第一识别单元408的识别结果,在索引页系列存在当前索引页的下一索引页时,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址并提供给内容提取单元402,以便内容提取单元402以当前索引页的下一索引页作为当前索引页进行内容提取。
图10为本发明索引页内容提取装置又一个实施例的结构示意图。该实施例的调度装置可作为Spider,实现图6所示实施例及其进一步实施例和相应示例所示的方法。如图10所示,如图10所示,与图8所示的实施例相比,该实施例的索引页内容提取装置还包括第二记录单元502,用于根据比较单元404输出的比较结果,在当前索引页中的主体链接集合与历史主体链接集合存在交集时,将内容提取单元402提取到的、历史主体链接集合中不存在的索引页系列中的主体链接,包括与历史主体链接集合存在交集的当前索引页的主体链接集合中交集之外的主体链接,或进一步包括与历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接,记录到历史主体链接集合中。
图11为本发明索引页内容提取装置再一个实施例的结构示意图。如图11所示,与图10所示的实施例相比,该实施例的索引页内容提取装置还包括第一识别单元408和地址获取单元410。其中:
第一识别单元408,用于根据比较单元404的比较结果,在内容提取单元402提取的当前索引页中的主体链接集合与历史主体链接集合不存在交集时,识别索引页系列是否存在当前索引页的下一索引页;
地址获取单元410,用于根据第一识别单元408的识别结果,在索引页系列存在当前索引页的下一索引页时,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址,并提供给内容提取单元402,以便内容提取单元402以当前索引页的下一索引页作为当前索引页进行内容提取;
相应地,第二记录单元502,还用于根据第一识别单元408的识别结果,在索引页系列不存在当前索引页的下一索引页时,将索引页系列中与历史主体链接集合不存在交集的所有索引页的主体链接集合中的所有主体链接记录到历史主体链接集合中。
在上述各调度装置实施例的一个具体示例中,内容提取单元402对当前索引页进行网络资源调度时,具体用于对当前索引页进行解析,发现当前索引页中的主体链接并进行集合,得到当前索引页中的主体链接集合。
具体地,内容提取单元402发现当前索引页中的主体链接时,具体可以获取当前索引页中的相似块并计算相似块在当前索引页中的位置和面积;其中,相似块为xpath相同的节点集合在当前索引页上形成的区域,在一个可选实施例中,节点集合中的节点数量大于4;以及从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块;确定最大相似块中的链接为主体链接。
进一步地,再参见图9和图11,在上述各调度装置的再一个实施例中,还可以包括判断单元602,用于判断索引页系列中主体链接是否按照发布时间排布,其中,按照发布时间排布包括按照发布时间顺序排布、或者按照发布时间逆序排布;以及在索引页系列中主体链接按照发布时间排布时,确定索引页系列中的首个索引页并提供给内容提取单元402。
其中,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者按照发布时间顺序排布的最后一个索引页;下一索引页为索引页系列中,主体链接按照时间逆序排布时当前索引页相邻的后一个索引页、或者按照发布时间顺序排布时当前索引页相邻的前一个索引页。
作为一个具体示例,判断单元602判断索引页系列中主体链接是否按照发布时间排布时,具体获取索引页上记录的各主体链接的发布时间信息,判断各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列;在各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列时,确定索引页系列中主体链接按照发布时间排布。
作为另一个具体示例,判断单元602判断索引页系列中主体链接是否按照发布时间排布时,具体获取索引页上主体链接区块的元素的class属性信息,根据class属性信息中包含的主体链接区块的排布方式说明信息判断索引页系列中主体链接按照发布时间排布。
进一步地,再参见图9和图11,在上述各调度装置的再一个实施例中,还可以包括第二识别单元604,用于识别需要进行内容提取的网页为索引页系列或单个索引页。相应地,该实施例中:
判断单元602,具体用于根据第二识别单元604输出的识别结果,在需要进行内容提取的网页为索引页系列时,执行判断索引页系列中主体链接是否按照发布时间排布的操作;
内容提取单元402,还用于对单个索引页进行内容提取;
比较单元404,还用于根据第二识别单元604输出的识别结果,在需要进行内容提取的网页为单个索引页时,比较内容提取单元402提取的当前索引页中的主体链接集合与上一次调度发现的历史主体链接集合并输出给第一记录单元406或第二记录单元502;
第一记录单元406或第二记录单元502,还用于将内容提取单元402提取的当前索引页中的主体链接集合中与历史主体链接集合的交集之外的主体链接记录到历史主体链接集合中。
图12为本发明搜索引擎一个实施例的结构示意图。如图12所示,本发明实施例的搜索引擎包括索引页内容提取装置1和数据库2。其中:
索引页内容提取装置1,可以作为Spider,用于对指定网站的索引页系列中的当前索引页进行内容提取,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取;
数据库2,用于存储索引页内容提取装置1提取的主体链接集合。
示例性地,该实施例的索引页内容提取装置1具体可以通过图8至图11所示任一实施例的结构实现。
本发明实施例公开了如下技术方案:
C1、一种索引页内容提取方法,其特征在于,包括:
对指定网站的索引页系列中的当前索引页进行内容提取,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;
响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取。
C2、根据权利要求C1所述的方法,其特征在于,还包括:
响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,将当前索引页中的所有主体链接记录到所述历史主体链接集合中;或者
响应于当前索引页中的主体链接集合与历史主体链接集合存在交集,将当前索引页中、所述交集之外的主体链接记录到所述历史主体链接集合中。
C3、根据权利要求C1或C2所述的方法,其特征在于,所述定位到下一索引页进行内容提取包括:
识别索引页系列是否存在当前索引页的下一索引页;
响应于索引页系列存在当前索引页的下一索引页,根据当前索引页上翻页块的翻页特征锚点anchor或当前索引页的链接地址获取下一索引页的链接地址,以所述当前索引页的下一索引页作为当前索引页进行内容提取。
C4、根据权利要求C1所述的方法,其特征在于,还包括:
响应于当前索引页中的主体链接集合与历史主体链接集合存在交集,将所述历史主体链接集合中不存在的、所述索引页系列中的主体链接记录到所述历史主体链接集合中;
其中,所述历史主体链接集合中不存在的、所述索引页系列中的主体链接包括与所述历史主体链接集合存在交集的当前索引页的主体链接集合中所述交集之外的主体链接,或进一步包括与所述历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接。
C5、根据权利要求C4所述的方法,其特征在于,所述定位到下一索引页进行内容提取包括:
识别索引页系列是否存在当前索引页的下一索引页;
响应于索引页系列存在当前索引页的下一索引页,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址,以所述当前索引页的下一索引页作为当前索引页进行内容提取;
响应于索引页系列不存在当前索引页的下一索引页,将索引页系列中与所述历史主体链接集合不存在交集的所有索引页的主体链接集合中的所有主体链接记录到所述历史主体链接集合中。
C6、根据权利要求C1至C5任意一项所述的方法,其特征在于,所述对当前索引页进行内容提取包括:
对当前索引页进行解析,发现当前索引页中的主体链接并进行集合,得到当前索引页中的的主体链接集合。
C7、根据权利要求C6述的方法,其特征在于,所述发现当前索引页中的主体链接包括:
获取当前索引页中的相似块并计算相似块在当前索引页中的位置和面积;其中,相似块为可扩展标记语言XML文档元素路径xpath相同的节点集合在当前索引页上形成的区域;
从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块;
确定最大相似块中的链接为主体链接。
C8、根据权利要求C7所述的方法,其特征在于,所述节点集合中的节点数量大于4。
C9、根据权利要求C1至C8任意一项所述的方法,其特征在于,还包括:
判断索引页系列中主体链接是否按照发布时间排布,其中,按照发布时间排布包括按照发布时间顺序排布、或者按照发布时间逆序排布;
响应于索引页系列中主体链接按照发布时间排布,确定索引页系列中的首个索引页,开始执行所述对指定网站的索引页系列中的当前索引页进行内容提取的操作;
其中,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者按照发布时间顺序排布的最后一个索引页;下一索引页为索引页系列中,主体链接按照时间逆序排布时所述当前索引页相邻的后一个索引页、或者按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
C10、根据权利要求C9所述的方法,其特征在于,所述判断索引页系列中主体链接是否按照发布时间排布包括:
获取索引页上记录的各主体链接的发布时间信息,判断各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列;在各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列时,确定索引页系列中主体链接按照发布时间排布;或者
获取索引页上主体链接区块的元素的类class属性信息,根据class属性信息中包含的主体链接区块的排布方式说明信息判断索引页系列中主体链接按照发布时间排布。
C11、根据权利要求C8至C10任意一项所述的方法,其特征在于,还包括:
识别所述网站需要进行内容提取的网页为索引页系列或单个索引页;
响应于需要进行内容提取的网页为索引页系列,执行所述判断索引页系列中主体链接是否按照发布时间排布的操作;
响应于需要进行内容提取的网页为单个索引页,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合,将当前索引页中的主体链接集合中与所述历史主体链接集合的交集之外的主体链接记录到所述历史主体链接集合中。
C12、一种索引页内容提取装置,其特征在于,包括:
内容提取单元,对指定网站的索引页系列中的当前索引页进行内容提取;以及根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,定位到下一索引页进行内容提取;
比较单元,用于比较内容提取单元提取的当前索引页中的主体链接集合与上一次提取到的历史主体链接集合。
C13、根据权利要求C12所述的装置,其特征在于,还包括:
第一记录单元,用于根据比较单元的比较结果,在当前索引页中的的主体链接集合与历史主体链接集合不存在交集时,将当前索引页中的所有主体链接记录到所述历史主体链接集合中;以及在当前索引页中的主体链接集合与历史主体链接集合存在交集时,将当前前索引页中、所述交集之外的主体链接记录到所述历史主体链接集合中。
C14、根据权利要求C12或C13所述的装置,其特征在于,还包括:
第一识别单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,识别索引页系列是否存在当前索引页的下一索引页;
地址获取单元,用于根据第一识别单元的识别结果,在索引页系列存在当前索引页的下一索引页时,根据当前索引页上翻页块的翻页特征锚点anchor或当前索引页的链接地址获取下一索引页的链接地址并提供给内容提取单元,以便所述内容提取单元以所述当前索引页的下一索引页作为当前索引页进行内容提取。
C15、根据权利要求C12所述的装置,其特征在于,还包括:
第二记录单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合存在交集时,将所述历史主体链接集合中不存在的、所述索引页系列中的主体链接记录到所述历史主体链接集合中;
其中,所述历史主体链接集合中不存在的、所述索引页系列中的主体链接包括与所述历史主体链接集合存在交集的当前索引页的主体链接集合中所述交集之外的主体链接,或进一步包括与所述历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接。
C16、根据权利要求C12或C15所述的装置,其特征在于,还包括:
第一识别单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,识别索引页系列是否存在当前索引页的下一索引页;
地址获取单元,用于根据第一识别单元的识别结果,在索引页系列存在当前索引页的下一索引页时,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址,并提供给所述内容提取单元,以便所述内容提取单元以所述当前索引页的下一索引页作为当前索引页进行内容提取;
所述第二记录单元,还用于根据第一识别单元的识别结果,在索引页系列不存在当前索引页的下一索引页时,将索引页系列中与所述历史主体链接集合不存在交集的所有索引页的主体链接集合中的所有主体链接记录到所述历史主体链接集合中。
C17、根据权利要求C12至C16任意一项所述的装置,其特征在于,所述内容提取单元对当前索引页进行网络资源调度时,具体用于对当前索引页进行解析,发现当前索引页中的主体链接并进行集合,得到当前索引页中的主体链接集合。
C18、根据权利要求C17述的装置,其特征在于,所述内容提取单元提取当前索引页中的主体链接时,具体用于:
获取当前索引页中的相似块并计算相似块在当前索引页中的位置和面积;其中,相似块为可扩展标记语言XML文档元素路径xpath相同的节点集合在当前索引页上形成的区域;
从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块;
确定最大相似块中的链接为主体链接。
C19、根据权利要求C18所述的装置,其特征在于,所述节点集合中的节点数量大于4。
C20、根据权利要求C12至C19任意一项所述的装置,其特征在于,还包括:
判断单元,用于判断索引页系列中主体链接是否按照发布时间排布,其中,按照发布时间排布包括按照发布时间顺序排布、或者按照发布时间逆序排布;以及在索引页系列中主体链接按照发布时间排布时,确定索引页系列中的首个索引页并提供给内容提取单元;
其中,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者按照发布时间顺序排布的最后一个索引页;下一索引页为索引页系列中,主体链接按照时间逆序排布时所述当前索引页相邻的后一个索引页、或者按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
C21、根据权利要求C20所述的装置,其特征在于,所述判断单元判断索引页系列中主体链接是否按照发布时间排布时,具体用于:
获取索引页上记录的各主体链接的发布时间信息,判断各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列;在各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列时,确定索引页系列中主体链接按照发布时间排布;或者
获取索引页上主体链接区块的元素的类class属性信息,根据class属性信息中包含的主体链接区块的排布方式说明信息判断索引页系列中主体链接按照发布时间排布。
C22、根据权利要求C20或C21所述的装置,其特征在于,还包括:
第二识别单元,用于识别所述网站需要进行内容提取的网页为索引页系列或单个索引页;
所述判断单元,具体用于根据第二识别单元输出的识别结果,在需要进行内容提取的网页为索引页系列时,执行判断索引页系列中主体链接是否按照发布时间排布的操作;
所述内容提取单元,还用于对单个索引页进行内容提取;
所述比较单元,还用于根据第二识别单元输出的识别结果,在需要进行网络资源调度的网页为单个索引页的时,比较内容提取单元提取的当前索引页中的主体链接集合与上一次提取到的历史主体链接集合并输出给第一记录单元或第二记录单元;
所述第一记录单元或第二记录单元,还用于将内容提取单元提取的当前索引页中的主体链接集合中与所述历史主体链接集合的交集之外的主体链接记录到所述历史主体链接集合中。
C23、一种搜索引擎,其特征在于,包括索引页内容提取装置和数据库;其中:
所述索引页内容提取装置,用于对指定网站的索引页系列中的当前索引页进行内容提取,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取;
所述数据库,用于存储所述索引页内容提取装置提取的主体链接集合。
C24、根据权利要求C23所述的搜索引擎,其特征在于,所述索引页内容提取装置具体为权利要求C12~C22中任意一项所述的索引页内容提取装置。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置、搜索引擎实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法、装置和搜索引擎。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法、装置和搜索引擎。用于所述方法的操作的上述顺序仅是为了进行说明,本发明的方法的操作不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (24)

1.一种索引页内容提取方法,其特征在于,包括:
对指定网站的索引页系列中的当前索引页进行内容提取包括:从当前索引页内的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块,以便根据所述最大相似块中的链接确定当前索引页中的主体链接集合;
比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;
响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取。
2.根据权利要求1所述的方法,其特征在于,还包括:
响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,将当前索引页中的所有主体链接记录到所述历史主体链接集合中;或者
响应于当前索引页中的主体链接集合与历史主体链接集合存在交集,将当前索引页中、所述交集之外的主体链接记录到所述历史主体链接集合中。
3.根据权利要求1或2所述的方法,其特征在于,所述定位到下一索引页进行内容提取包括:
识别索引页系列是否存在当前索引页的下一索引页;
响应于索引页系列存在当前索引页的下一索引页,根据当前索引页上翻页块的翻页特征锚点anchor或当前索引页的链接地址获取下一索引页的链接地址,以所述当前索引页的下一索引页作为当前索引页进行内容提取。
4.根据权利要求1所述的方法,其特征在于,还包括:
响应于当前索引页中的主体链接集合与历史主体链接集合存在交集,将所述历史主体链接集合中不存在的、所述索引页系列中的主体链接记录到所述历史主体链接集合中;
其中,所述历史主体链接集合中不存在的、所述索引页系列中的主体链接包括与所述历史主体链接集合存在交集的当前索引页的主体链接集合中所述交集之外的主体链接,或进一步包括与所述历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接。
5.根据权利要求4所述的方法,其特征在于,所述定位到下一索引页进行内容提取包括:
识别索引页系列是否存在当前索引页的下一索引页;
响应于索引页系列存在当前索引页的下一索引页,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址,以所述当前索引页的下一索引页作为当前索引页进行内容提取;
响应于索引页系列不存在当前索引页的下一索引页,将索引页系列中与所述历史主体链接集合不存在交集的所有索引页的主体链接集合中的所有主体链接记录到所述历史主体链接集合中。
6.根据权利要求1所述的方法,其特征在于,对当前索引页进行内容提取包括:
对当前索引页进行解析,发现当前索引页中的主体链接并进行集合,得到当前索引页中的的主体链接集合。
7.根据权利要求6所述的方法,其特征在于,所述发现当前索引页中的主体链接包括:
获取当前索引页中的相似块并计算相似块在当前索引页中的位置和面积;其中,相似块为可扩展标记语言XML文档元素路径xpath相同的节点集合在当前索引页上形成的区域;
从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块;
确定最大相似块中的链接为主体链接。
8.根据权利要求7所述的方法,其特征在于,所述节点集合中的节点数量大于4。
9.根据权利要求1所述的方法,其特征在于,还包括:
判断索引页系列中主体链接是否按照发布时间排布,其中,按照发布时间排布包括按照发布时间顺序排布、或者按照发布时间逆序排布;
响应于索引页系列中主体链接按照发布时间排布,确定索引页系列中的首个索引页,开始执行所述对指定网站的索引页系列中的当前索引页进行内容提取的操作;
其中,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者按照发布时间顺序排布的最后一个索引页;下一索引页为索引页系列中,主体链接按照时间逆序排布时所述当前索引页相邻的后一个索引页、或者按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
10.根据权利要求9所述的方法,其特征在于,所述判断索引页系列中主体链接是否按照发布时间排布包括:
获取索引页上记录的各主体链接的发布时间信息,判断各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列;在各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列时,确定索引页系列中主体链接按照发布时间排布;或者
获取索引页上主体链接区块的元素的类class属性信息,根据class属性信息中包含的主体链接区块的排布方式说明信息判断索引页系列中主体链接按照发布时间排布。
11.根据权利要求10所述的方法,其特征在于,还包括:
识别所述网站需要进行内容提取的网页为索引页系列或单个索引页;
响应于需要进行内容提取的网页为索引页系列,执行所述判断索引页系列中主体链接是否按照发布时间排布的操作;
响应于需要进行内容提取的网页为单个索引页,比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合,将当前索引页中的主体链接集合中与所述历史主体链接集合的交集之外的主体链接记录到所述历史主体链接集合中。
12.一种索引页内容提取装置,其特征在于,包括:
内容提取单元,对指定网站的索引页系列中的当前索引页进行内容提取包括:从当前索引页内的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块,以便根据所述最大相似块中的链接确定当前索引页中的主体链接集合;以及根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,定位到下一索引页进行内容提取;
比较单元,用于比较内容提取单元提取的当前索引页中的主体链接集合与上一次提取到的历史主体链接集合。
13.根据权利要求12所述的装置,其特征在于,还包括:
第一记录单元,用于根据比较单元的比较结果,在当前索引页中的的主体链接集合与历史主体链接集合不存在交集时,将当前索引页中的所有主体链接记录到所述历史主体链接集合中;以及在当前索引页中的主体链接集合与历史主体链接集合存在交集时,将当前前索引页中、所述交集之外的主体链接记录到所述历史主体链接集合中。
14.根据权利要求12或13所述的装置,其特征在于,还包括:
第一识别单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,识别索引页系列是否存在当前索引页的下一索引页;
地址获取单元,用于根据第一识别单元的识别结果,在索引页系列存在当前索引页的下一索引页时,根据当前索引页上翻页块的翻页特征锚点anchor或当前索引页的链接地址获取下一索引页的链接地址并提供给内容提取单元,以便所述内容提取单元以所述当前索引页的下一索引页作为当前索引页进行内容提取。
15.根据权利要求12所述的装置,其特征在于,还包括:
第二记录单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合存在交集时,将所述历史主体链接集合中不存在的、所述索引页系列中的主体链接记录到所述历史主体链接集合中;
其中,所述历史主体链接集合中不存在的、所述索引页系列中的主体链接包括与所述历史主体链接集合存在交集的当前索引页的主体链接集合中所述交集之外的主体链接,或进一步包括与所述历史主体链接集合不存在交集的各索引页的主体链接集合中的所有主体链接。
16.根据权利要求15所述的装置,其特征在于,还包括:
第一识别单元,用于根据比较单元的比较结果,在当前索引页中的主体链接集合与历史主体链接集合不存在交集时,识别索引页系列是否存在当前索引页的下一索引页;
地址获取单元,用于根据第一识别单元的识别结果,在索引页系列存在当前索引页的下一索引页时,根据当前索引页上翻页块的翻页特征anchor或当前索引页的链接地址获取下一索引页的链接地址,并提供给所述内容提取单元,以便所述内容提取单元以所述当前索引页的下一索引页作为当前索引页进行内容提取;
所述第二记录单元,还用于根据第一识别单元的识别结果,在索引页系列不存在当前索引页的下一索引页时,将索引页系列中与所述历史主体链接集合不存在交集的所有索引页的主体链接集合中的所有主体链接记录到所述历史主体链接集合中。
17.根据权利要求12所述的装置,其特征在于,所述内容提取单元对当前索引页进行网络资源调度时,具体用于对当前索引页进行解析,发现当前索引页中的主体链接并进行集合,得到当前索引页中的主体链接集合。
18.根据权利要求17所述的装置,其特征在于,所述内容提取单元提取当前索引页中的主体链接时,具体用于:
获取当前索引页中的相似块并计算相似块在当前索引页中的位置和面积;其中,相似块为可扩展标记语言XML文档元素路径xpath相同的节点集合在当前索引页上形成的区域;
从获取到的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块;
确定最大相似块中的链接为主体链接。
19.根据权利要求18所述的装置,其特征在于,所述节点集合中的节点数量大于4。
20.根据权利要求12所述的装置,其特征在于,还包括:
判断单元,用于判断索引页系列中主体链接是否按照发布时间排布,其中,按照发布时间排布包括按照发布时间顺序排布、或者按照发布时间逆序排布;以及在索引页系列中主体链接按照发布时间排布时,确定索引页系列中的首个索引页并提供给内容提取单元;
其中,首个索引页为索引页系列中主体链接按照发布时间逆序排布的第一个索引页、或者按照发布时间顺序排布的最后一个索引页;下一索引页为索引页系列中,主体链接按照时间逆序排布时所述当前索引页相邻的后一个索引页、或者按照发布时间顺序排布时所述当前索引页相邻的前一个索引页。
21.根据权利要求20所述的装置,其特征在于,所述判断单元判断索引页系列中主体链接是否按照发布时间排布时,具体用于:
获取索引页上记录的各主体链接的发布时间信息,判断各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列;在各主体链接的发布时间是否按照由大到小或者由小到大的顺序排列时,确定索引页系列中主体链接按照发布时间排布;或者
获取索引页上主体链接区块的元素的类class属性信息,根据class属性信息中包含的主体链接区块的排布方式说明信息判断索引页系列中主体链接按照发布时间排布。
22.根据权利要求21所述的装置,其特征在于,还包括:
第二识别单元,用于识别所述网站需要进行内容提取的网页为索引页系列或单个索引页;
所述判断单元,具体用于根据第二识别单元输出的识别结果,在需要进行内容提取的网页为索引页系列时,执行判断索引页系列中主体链接是否按照发布时间排布的操作;
所述内容提取单元,还用于对单个索引页进行内容提取;
所述比较单元,还用于根据第二识别单元输出的识别结果,在需要进行网络资源调度的网页为单个索引页的时,比较内容提取单元提取的当前索引页中的主体链接集合与上一次提取到的历史主体链接集合并输出给第一记录单元或第二记录单元;
所述第一记录单元或第二记录单元,还用于将内容提取单元提取的当前索引页中的主体链接集合中与所述历史主体链接集合的交集之外的主体链接记录到所述历史主体链接集合中。
23.一种搜索引擎,其特征在于,包括索引页内容提取装置和数据库;其中:
所述索引页内容提取装置,用于对指定网站的索引页系列中的当前索引页进行内容提取包括:从当前索引页内的相似块中选择面积最大且包含当前索引页的几何中心点的相似块作为最大相似块,以便根据所述最大相似块中的链接确定当前索引页中的主体链接集合;比较当前索引页中的主体链接集合与上一次提取到的历史主体链接集合;响应于当前索引页中的主体链接集合与历史主体链接集合不存在交集,定位到下一索引页进行内容提取;
所述数据库,用于存储所述索引页内容提取装置提取的主体链接集合。
24.根据权利要求23所述的搜索引擎,其特征在于,所述索引页内容提取装置具体为权利要求12~22中任意一项所述的索引页内容提取装置。
CN201510634772.5A 2015-09-29 2015-09-29 索引页内容提取方法和装置、搜索引擎 Active CN105138701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510634772.5A CN105138701B (zh) 2015-09-29 2015-09-29 索引页内容提取方法和装置、搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510634772.5A CN105138701B (zh) 2015-09-29 2015-09-29 索引页内容提取方法和装置、搜索引擎

Publications (2)

Publication Number Publication Date
CN105138701A CN105138701A (zh) 2015-12-09
CN105138701B true CN105138701B (zh) 2018-12-11

Family

ID=54724048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510634772.5A Active CN105138701B (zh) 2015-09-29 2015-09-29 索引页内容提取方法和装置、搜索引擎

Country Status (1)

Country Link
CN (1) CN105138701B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI738126B (zh) * 2019-11-25 2021-09-01 大數軟體有限公司 網頁內容篩選的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663012A (zh) * 2012-03-20 2012-09-12 北京搜狗信息服务有限公司 一种网页预加载方法及系统
CN102831135A (zh) * 2011-12-16 2012-12-19 中国科学技术信息研究所 一种新型的中文新闻页面增量采集的方法及装置
CN103106221A (zh) * 2011-11-15 2013-05-15 盛乐信息技术(上海)有限公司 一种网页链接库的更新方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366907B1 (en) * 1999-12-15 2002-04-02 Napster, Inc. Real-time search engine

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106221A (zh) * 2011-11-15 2013-05-15 盛乐信息技术(上海)有限公司 一种网页链接库的更新方法及系统
CN102831135A (zh) * 2011-12-16 2012-12-19 中国科学技术信息研究所 一种新型的中文新闻页面增量采集的方法及装置
CN102663012A (zh) * 2012-03-20 2012-09-12 北京搜狗信息服务有限公司 一种网页预加载方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"面向论坛页面的增量搜集技术研究";杜言琦;《中国优秀硕士学位论文全文数据库信息科技辑》;20100915(第9期);第I139-102页 *

Also Published As

Publication number Publication date
CN105138701A (zh) 2015-12-09

Similar Documents

Publication Publication Date Title
US10152488B2 (en) Static-analysis-assisted dynamic application crawling architecture
CN103678511B (zh) 根据可视化模板进行网页内容抽取的方法及装置
JP5990605B2 (ja) Ajaxウェブページコンテンツを取得する方法およびシステム
CN106126648B (zh) 一种基于重做日志的分布式商品信息爬虫方法
CN102270331B (zh) 基于可视化搜索的网络购物导航方法
CN102880607A (zh) 网络动态内容抓取方法及网络动态内容爬虫系统
US10853380B1 (en) Framework for displaying interactive visualizations of event data
CN102054028B (zh) 一种网络爬虫系统实现页面渲染功能的方法
CN101443751A (zh) 用于应用爬取器的方法和装置
TW201250492A (en) Method and system of extracting web page information
CN107729385A (zh) 一种采集动态网页完整数据内容的方法
CN102982161A (zh) 网页信息的获取方法和装置
CN101404666A (zh) 一种基于Web页无限层采集方法
Chasins et al. Browser record and replay as a building block for end-user web automation tools
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN103914488A (zh) 文档的采集、标识、关联、搜索及展现的系统
CN107368546A (zh) 一种生成文章大纲的方法和装置
CN105138701B (zh) 索引页内容提取方法和装置、搜索引擎
CN108121743A (zh) 一种通用网页模版的生成和使用方法、系统
JP2010198058A (ja) 文書処理システム及び方法
CN104408101A (zh) 一种全程化Web信息抽取集成方法
Matta et al. Comparative Study Of Various Scraping Tools: Pros And Cons
CN103092937A (zh) 可视化网页收录检测方法
Bertoli et al. Crawling programs for wrapper-based applications
CN109101636A (zh) 一种通过可视化配置进行云端数据采集的方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220706

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.