CN103077254A - 网页获取方法和装置 - Google Patents

网页获取方法和装置 Download PDF

Info

Publication number
CN103077254A
CN103077254A CN2013100487658A CN201310048765A CN103077254A CN 103077254 A CN103077254 A CN 103077254A CN 2013100487658 A CN2013100487658 A CN 2013100487658A CN 201310048765 A CN201310048765 A CN 201310048765A CN 103077254 A CN103077254 A CN 103077254A
Authority
CN
China
Prior art keywords
webpage
hub
page
address
page turning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100487658A
Other languages
English (en)
Other versions
CN103077254B (zh
Inventor
樊波
崔世起
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's daily media technology Limited by Share Ltd
Original Assignee
PEOPLE SEARCH NETWORK AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEOPLE SEARCH NETWORK AG filed Critical PEOPLE SEARCH NETWORK AG
Priority to CN201310048765.8A priority Critical patent/CN103077254B/zh
Publication of CN103077254A publication Critical patent/CN103077254A/zh
Application granted granted Critical
Publication of CN103077254B publication Critical patent/CN103077254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种网页获取方法和装置,所述方法包括:确定抓取的网页中的第一中心hub网页;解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址;根据所述第二hub网页地址,获取内容网页。通过本申请实施例提高了网页获取时的网页覆盖率,使得能够获取更全面的网络信息。

Description

网页获取方法和装置
技术领域
本申请涉及网络处理技术领域,特别是涉及一种网页获取方法和装置。
背景技术
随着互联网技术的发展,互联网信息数量越来越多,更新速度也越来越快,因此如何及时且全面的获取互联网信息以提供更好的网络服务,成为人们日益研究的重点。
在网络搜索、舆情监控以及网络挖掘等网络服务领域中,互联网信息都是通过网页获取方式得到的,通过获取内容网页,进而即可得到内容网页承载的互联网信息。现有技术中,在进行网页获取时,通常是通过抓取hub(中心)网页,即网页内容是以网页链接地址为核心的网页,进而再根据hub网页的网页链接地址轮询抓取不同的内容网页,以得到不同内容网页承载的网络信息。
但是由于互联网信息更新速度很快,内容网页也越来越多,而网页承载内容是有限的,在实现本发明的过程中,发明人发现,一个hub网页是不能承载所有的内容网页链接地址,因此现有的网页获取方法通常只能抓取较少部分的内容网页,这就使得网页覆盖率较低,使得不能全面有效获取网络信息。
发明内容
本申请所要解决的技术问题是提供一种网页获取方法,用以解决现有技术中网页覆盖率较低,不能有效获取网页信息的技术问题。
本申请还提供了一种网页获取装置,用以保证上述方法在实际中的实现及应用。
为了解决上述问题,本申请的一方面公开了一种网页获取方法,包括:
确定抓取的网页中的第一中心hub网页;
解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;
根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址;
根据所述第二hub网页地址,获取内容网页。
优选地,所述解析所述第一hub网页中包含的翻页信息包括:
解析所述第一hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容;
根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。
优选地,所述根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址包括:
根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围;
根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二hub网页地址。
优选地,所述根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二hub网页地址包括:
根据翻页链接地址,生成初始链接地址内容;
根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识;
将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二hub网页地址。
优选地,所述确定目标索引范围包括:
确定第一预设索引范围;
确定所述第一预设索引范围中的一个或多个索引标识,生成对应的预设第二hub网页地址;
根据所述预设第二hub网页地址进行网页抓取,并根据抓取结果调整所述第一预设索引范围,以得到目标索引范围。
优选地,所述根据所述多个第二hub网页地址,获取内容网页包括:
根据所述第二hub网页地址,获取多个第二hub网页;
获取所述第二hub网页分别对应的内容网页。
优选地,所述根据所述翻页信息,生成所述第一hub网页相关的第二hub网页地址包括:
根据所述翻页信息,生成所述第一hub网页相关的预设数量个第二hub网页地址。
本申请的另一方面公开了一种网页获取装置,包括:
第一确定模块,用于确定抓取的网页中的第一hub网页;
解析模块,用于解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;
地址生成模块,用于根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址;
网页获取模块,用于根据所述第二hub网页地址,获取内容网页。
优选地,所述解析模块包括:
解析子模块,用于解析所述第一hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容;
翻页信息确定模块,用于根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。
优选地,所述地址生成模块包括:
第二确定模块,用于根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围;
地址生成子模块,用于根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二hub网页地址。
优选地,所述地址生成子模块包括:
初始内容生成模块,用于根据翻页链接地址,生成初始链接地址内容;
标识获取模块,用于根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识;
地址确定模块,用于将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二hub网页地址。
优选地,所述第二确定模块包括:
预设范围估计模块,用于确定第一预设索引范围;
预设地址生成模块,用于确定所述第一预设索引范围中的一个或多个索引标识,生成对应的预设第二hub网页地址;
目标范围确定模块,用于根据所述预设第二hub网页地址进行网页抓取,并根据抓取结果调整所述第一预设索引范围,以得到目标索引范围。
优选地,所述网页获取模块包括:
第一网页获取子模块,用于根据所述第二hub网页地址,获取多个第二hub网页;
第二网页获取子模块,用于获取所述第二hub网页分别对应的内容网页。
与现有技术相比,本申请包括以下优点:
在本申请中,通过从抓取的网页中确定出第一hub网页,并解析该第一hub网页得到翻页信息,然后依据该翻页信息可以生成与第一hub网页相关的第二hub网页地址,从而可以依据第二hub网页地址,进行内容网页的抓取,在网页获取时,不仅获取第一hub网页对应的内容网页。同时还可以获取第二hub网页对应的内容网页,从而增加了网页覆盖率,使得能够全面的获取网络信息,进而可以实现更精确的处理操作。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一种网页获取方法实施例1的流程图;
图2是本申请实施例中网页翻页区域的示意图;
图3是本申请的一种网页获取方法实施例2的流程图;
图4是本申请的一种网页获取装置实施例1的结构框图;
图5是本申请的一种网页获取装置实施例2的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请的主要思想之一可以包括,确定抓取的网页中的第一hub(中心)网页,解析该第一hub网页获取翻页信息,根据该翻页信息生成与第一hub网页相关的第二hub网页地址,根据该第二hub网页地址,抓取内容网页。第二hub网页地址包括但不限于翻页链接地址,从而可以增加网页抓取时的网页覆盖率,使得能够全面获取网络信息。
参考图1,示出了本申请一种网页获取方法实施例1的流程图,可以包括以下几个步骤:
步骤101:确定抓取的网页中的第一hub网页。
在网络搜索、舆情监控、网络挖掘以及其他的需要海量数据的网络服务中,都需要通过抓取网页以获取互联网信息,以网络搜索为例,搜索引擎可以自动抓取网页,读取网页内容,以搜索网络信息,并经过相应整理后,供用户进行查询。
hub(中心)网页是指网页内容以网络链接地址,如url(UniformResource Locator,统一资源定位符)为核心内容的网页,例如网站的导航网页、呈现中心网页等。
本实施例中,可以从抓取的网页中,首先确定出第一hub网页。需要说明的是所述第一hub网页的“第一”只是为了描述清楚,实现与其它网页的区分,并不作为对顺序或者与其它网页的关系等的限定。
从抓取的网页中确定出第一hub网页可以根据抓取的网页的网页地址深度、长度以及网页结构中的锚文本、面包屑、链接等确定。以网页地址为url为例,hub网页的url其深度以及长度均较小,锚文本以及链接等较多,则当网页的url深度小于阈值、且网页的url长度小于阈值、以及网页存在的锚文本、面包屑和链接等满足预定条件时,可以确定所抓取的该网页为第一hub网页,该第一hub网页可以是抓取的网页中的任一hub网页。
在实际应用中,由于互联网信息的数量庞大,且更新速度很快,一个hub网页通常不能承载所有的内容网页的链接地址,因此需要多个hub网页。最近更新的内容网页的链接地址承载在第一个hub网页中,即网站首页,优先展现给用户。而在实际抓取网页时,通常只会抓取网站优先展现的该第一个hub网页,因此本实施例的一种特殊情况,该第一hub网页可以是指该第一个hub网页。
步骤102:解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址。
由于可能需要多个hub网页分别承载内容网页的链接地址,每一hub网页在展现时即会出现如图2所示的翻页区域。根据该翻页区域所对应的网页内容,即可解析出翻页信息,该翻页信息至少包括翻页链接地址。每一翻页链接地址均对应一个hub网页地址。
因此获取到第一hub网页,可以通过解析其网页内容,获取翻页信息。
为了获取翻页信息,本步骤操作的一种实现方式可以包括:
解析所述第一hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容。
根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。
翻页区域内容,即第一hub网页的翻页区域对应的网页内容。当第一hub网页具有相关的其他hub网页时,第一hub网页的网页内容中即包括翻页关键词,例如“首页”、“下一页”、“上一页”、“尾页”、数值“1、2、3、4、5”等,以及具有重复链接内容的链接节点。因此可以确定出包括翻页关键词以及重复地址内容的翻页区域内容。例如如下的一种翻页区域对应的源代码内容:
<a
href="/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=0"class="first″>首页</a>
<a
href="/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=0"class="pre"><上一页</a>
<a
href="/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=0">1</a>
<span class="cur">2</span>
<a
href="/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=100">3</a>
......
<a
href="/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=37050"class="last">尾页</a>。
通过解析该第一hub网页的网页内容,即可以获取包括数字标识的翻页链接地址。
例如,从上述翻页区域内容中所获取的翻页链接地址可以包括:
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=0;
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=50;
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=100;
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=37050等。
步骤103:根据所述翻页信息,生成所述第一hub网页相关的多个第二hub网页地址。
为了描述上的方便,本申请实施例中,在同一网站由多个hub网页分别承载所有的内容网页的链接地址时,非第一hub网页的其他hub网页描述为第二hub网页,因此每一翻页链接地址即是对应一个第二hub网页。在实际应用中,第一hub网页为网站首页展现的hub网页时,第二hub网页即为网站的历史hub网页。
而由于第二hub网页的数量可能非常多,而从第一hub网页所获取的翻页链接地址只是数量有限的一部分第二hub网页,例如如图2所示翻页区域对应的第一hub网页,根据该第一hub网页的网页内容,只能得到网站第1个、第2个、第3个、第4个、第5个以及尾页即最后一个对应的6个hub网页的网页地址,即是翻页链接地址。而实际上网站可能包括上百甚至上千个hub网页,现有技术中只能抓取第1个,或者最多6个hub网页,这就使得网页覆盖率很低,导致获取的网络信息不全面。
因此本申请实施例中,除了翻页链接地址外,还根据该翻页链接地址,生成了与第一hub网页相关的非翻页链接地址是其他的第二hub网页的网页地址。该第二hub网页地址可以是全部的非第一hub网页地址的hub网页地址,也可以根据实际需要,获取预定数量个第二hub网页地址。
步骤104:根据所述多个第二hub网页地址,获取内容网页。
每一hub网页均承载有内容网页的链接地址。根据第二hub网页地址可以抓取第二hub网页,进而根据第二hub网页,可以分析得出第二hub网页承载的内容网页链接地址,进而可以抓取更多内容网页。使得在进行网页抓取时,可以不只是根据第一hub网页,抓取内容网页,从而增加了网页覆盖率,使得能够全面的获取网络信息。
在本实施例中,通过从抓取的网页中确定出第一hub网页,并解析该第一hub网页得到翻页信息,然后依据该翻页信息可以生成与第一hub网页相关的第二hub网页地址,从而可以依据第二hub网页地址,进行内容网页的抓取,在网页获取时,不仅获取第一hub网页对应的内容网页。同时还可以获取第二hub网页对应的内容网页,从而增加了网页覆盖率,使得能够全面的获取网络信息,进而可以实现更精确的处理操作。
参考图3,示出了本申请一种网页获取方法实施例2的流程图,该方法可以包括以下几个步骤:
步骤301:确定抓取的网页中的第一hub网页。
步骤302:解析所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址。
其中,该步骤302可以具体包括:
解析所述第一hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容。
根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。
步骤303:根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围。
具有翻页关键词以及重复链接内容的所对应的翻页链接地址至少包括两个,因此根据翻页链接地址,可以得到翻页起始标识、翻页步长以及目标索引范围。
例如,仍以实施例1中所举实例为例,根据第一hub网页内容得到的翻页链接地址包括:
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=0;(首页链接地址)
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=50;(首页的下一页,即第2页链接地址)
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=100;(第3页链接地址)
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=37050。(尾页链接地址)
其中,可以得知,翻页起始标识为0,翻页结束标识为37050,翻页步长,即相邻两个hub网页对应的索引标识之差为50,目标索引范围为0~37050。
翻页起始标识对应的hub网页为首页,翻页结束标识对应的hub网页为尾页,在翻页起始标识基础上每增加一个步长得到的索引标识,即对应下一页的hub网页。目标索引范围是根据起始标识与结束标识形成的,不同hub网页的索引标识处于该索引范围内。
其中,结束标识可以根据翻页区域内容中的尾页关键词对应的翻页链接地址得到,但是由于不同的网页设计,hub网页中可能不包括尾页链接,也即不能得到尾页关键词对应的翻页链接地址。
因此,当翻页链接地址中不包含结束标识时,该目标索引范围可以具体通过下述方式确定:
确定第一预设索引范围;
确定所述第一预设索引范围中的一个或多个索引标识,生成预设第二hub网页地址;
根据所述预设第二hub网页地址抓取网页,并根据抓取结果调整所述第一预设索引范围,得到目标索引范围。
其中,该第一预设索引范围可以是一个经验数值,例如可以设定为0~5500。
根据翻页步长,可以该第一预设索引范围中确定的一个或者多个索引标识可以任意选取,也可以按照相应的算法进行选取。
选择出索引标识后,即可生成对应的预设第二hub网页地址。由于该预设第二hub网页不一定存在,因此本实施例中依据该预设第二hub网页进行抓取,再根据抓取结果调整该第一预设索引范围,以得到目标索引范围。
选择一个或者多个索引标识,生成预设第二hub网页地址,并根据所述预设第二hub网页地址抓取网页,根据抓取结果调整所述第一预设索引范围,以得到目标索引范围可以采用多种实现方式。
例如,一种可能的实现方式为:
A1、选择第一预设索引范围的最大值作为索引标识;
B1、依据选择的索引标识,生成一个预设第二hub网页地址;
C1、根据该预设第二hub网页地址抓取网页;
D1、若抓取结果表明抓取的预设第二hub网页为正常网页,则可以调整第一预设索引范围,将最大值增加一个步长。然后,从该调整后的第一预设索引范围中重新选择最大值为索引标识,并返回C步骤继续执行。直至抓取的结果表明当前所抓取的预设第二hub网页为异常网页,则可以确定当前调整之前的第一预设索引范围为目标索引范围。
E1、若抓取结果表明抓取的预设第二hub网页为异常网页,则可以调整第一预设索引范围,将最大值减小一个步长。然后,从该调整后的第一预设索引范围中重新选择最大值为索引标识,并返回C1步骤继续执行。直至抓取的结果表明当前所抓取的预设第二hub网页为正常网页,则可以确定当前调整的第一预设索引范围为目标索引范围。
为了提高确定效率,节约资源,另一种可能的实现方式为:
A2、选择位于第一预设索引范围的一个中间数值作为索引标识。
B2、依据选择的索引标识,生成一个预设第二hub网页地址;
C2、根据该预设第二hub网页地址抓取网页;
D2、若抓取结果表明抓取的预设第二hub网页为正常hub网页,则调整所述第一预设索引范围,将该预设第二hub网页地址的索引标识作为该第一预设索引范围的最小索引标识值,重新从调整后的第一预设索引范围中选择一个中间值作为索引标识,返回步骤B2继续执行。
E2、若抓取结果表明抓取的预设第二hub网页为异常网页,则调整第一预设索引范围,将该预设第二hub网页地址的索引标识减小一个步长后作为该第一预设索引范围的最大索引标识值,重新从调整后的第一预设索引范围中选择一个中间值作为索引标识,返回步骤B2继续执行。
每次抓取结果均按照D2或E2的方式进行判断,直至调整后的第一预设索引范围最小值和最大值的差值小于步长,或者依据选择的索引标识,抓取的网页次数大于预设值,则可以确定成功抓取的预设第二hub网页所对应的索引标识即为目标索引范围的最大值,也即结束标识,从而可确定出目标索引范围。
当然,确定目标索引范围并不仅限定上述两种实现方式。
步骤304:根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二hub网页地址。
其中,一种可能的实现方式是首先根据翻页链接地址,生成初始链接地址内容。
例如,根据下述的翻页链接地址:
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=0;
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=50;
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=100。
可以得知相同的地址内容为:
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=。
该相同的地址内容即为初始链接地址内容。
然后,根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识。
从目标索引范围中可以得到翻页结束标识,从而根据翻页起始标识,翻页结束标识以及翻页步长可以得到一等差数列,从而可以得到该等差数列中的不同索引标识。
其次,将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二hub网页地址。
例如,索引标识为300时,则对应的第二hub网页地址即为:
http://tieba.baidu.com/f?kw=%BA%EC%B6%B9%B0%AE%B0%A2%CE%CC&tp=0&pn=300。
其中,由于第二hub网页的数量可能非常大时,而索引标识越大其对应的hub网页记录的信息越不及时,因此为了在保证网页覆盖率的前提下,可以生成预设数量个第二hub网页地址。也即所生成的第二hub网页地址可以不是全部的第二hub网页对应的地址,而是预设数量个地址,从而可以在一定程度上避免资源的浪费。
步骤305:根据所述第二hub网页地址,获取多个第二hub网页。
步骤306:获取所述第二hub网页分别对应的内容网页。
该第二hub网页地址包括但不仅包括翻页链接地址,从而根据第二hub网页地址,可以获取对应的第二hub网页,进而可以获取不同第二hub网页对应的内容网页。使得在网页获取时,不仅可以获取第一hub网页对应的内容网页,还可以确定出与第一hub网页相关的第二hub网页,进而可以获取第二hub网页对应的内容网页,大大增加了网页覆盖率,使得可以全面获取网络信息。特别是对于新出现的搜索引擎,使得可以收录更多的网页。
在本实施例中,通过从抓取的网页中确定出第一hub网页,并解析该第一hub网页得翻页区域内容,从而确定出翻页信息,翻页信息包括翻页链接地址。然后依据该翻页链接地址可以生成与第一hub网页相关的第二hub网页地址,该第二hub网页地址包括但不限于该翻页链接地址。从而可以依据该第二hub网页地址,进行内容网页的抓取,在网页获取时,不仅获取第一hub网页对应的内容网页。同时还可以获取第二hub网页对应的内容网页,从而增加了网页覆盖率,使得能够全面的获取网络信息,进而可以实现更精确的处理操作。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
与上述本申请一种网页获取方法实施例1所提供的方法相对应,参见图4,本申请还提供了一种网页获取装置实施例1,在本实施例中,该装置可以包括:
第一确定模块401,用于确定抓取的网页中的第一hub网页。
解析模块402,用于解析所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址。
地址生成模块403,用于根据所述翻页信息,生成所述第一hub网页相关的第二hub网页地址。
其中该第二hub网页地址可以是与第一hub网页相关的所有hub网页的地址,也可以是预设数量个与第一hub网页相关的hub网页的地址。
因此该地址生成模块可以具体生成预设数量个与所述第一hub网页相关的第二hub网页地址。
网页获取模块404,用于根据所述第二hub网页地址,获取内容网页。
每一hub网页均承载有内容网页的链接地址。根据第二hub网页地址可以抓取第二hub网页,进而根据第二hub网页,可以分析得出第二hub网页承载的内容网页链接地址,进而可以抓取更多内容网页。使得在进行网页抓取时,可以不只是根据第一hub网页抓取内容网页,从而增加了网页覆盖率,使得能够全面的获取互联网信息。
在本实施例中,通过从抓取的网页中确定出第一hub网页,并解析该第一hub网页得到翻页信息,然后依据该翻页信息可以生成与第一hub网页相关的第二hub网页地址,从而可以依据第二hub网页地址,进行内容网页的抓取,在网页获取时,不仅获取第一hub网页对应的内容网页。同时还可以获取第二hub网页对应的内容网页,从而增加了网页覆盖率,使得能够全面的获取网络信息,进而可以实现更精确的处理操作。
本实施例所述的装置可以集成到搜索引擎上,也可以单独作为一个实体与搜索引擎相连,另外,需要说明的是,当本申请所述的方法采用软件实现时,可以作为搜索引擎器新增的一个功能,也可以单独编写相应的程序,本申请不限定所述方法或装置的实现方式。
与上述本申请一种网页获取方法实施例2所提供的方法相对应,参见图5,本申请还提供了一种网页获取装置实施例2,在本实施例中,该装置具体可以包括:
第一确定模块501,用于确定抓取的网页中的第一hub网页。
解析模块502,用于解析所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址。
其中,该解析模块502可以包括:
解析子模块5021,用于解析所述第一hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容。
翻页信息确定模块5022,用于根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。
翻页区域内容,即第一hub网页的翻页区域对应的网页内容。当第一hub网页具有相关的其他hub网页时,第一hub网页的网页内容中即包括翻页关键词以及具有重复链接内容的链接节点。
通过解析该翻页区域内容,即可以获取包括数字标识的翻页链接地址。
地址生成模块503,用于根据所述翻页信息,生成所述第一hub网页相关的第二hub网页地址。
其中,该地址生成模块503可以包括:
第二确定模块5031,用于根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围。
具有翻页关键词以及重复链接内容的所对应的翻页链接地址至少包括两个,因此根据翻页链接地址,可以得到翻页起始标识、翻页步长以及目标索引范围。
翻页起始标识对应的hub网页为首页,翻页结束标识对应的hub网页为尾页,在翻页起始标识基础上每增加一个步长得到的索引标识,即对应下一页的hub网页。目标索引范围是根据起始标识与结束标识形成的,不同hub网页的索引标识处于该索引范围内。
其中,结束标识可以根据翻页区域内容中的尾页关键词对应的翻页链接地址得到,但是由于不同的网页设计,hub网页中可能不包括尾页链接,也即不能得到尾页关键词对应的翻页链接地址。
因此,当翻页链接地址中不包含结束标识时,该第二确定模块可以包括:
预设范围估计模块,用于确定第一预设索引范围;
预设地址生成模块,用于确定所述第一预设索引范围中的一个或多个索引标识,生成对应的预设第二hub网页地址;
目标范围确定模块,用于根据所述预设第二hub网页地址进行网页抓取,并根据抓取结果调整所述第一预设索引范围,以得到目标索引范围。
如何选择索引标识以及调整第一预设索引范围,可以参见方法实施例中所述,在此不再赘述。
地址生成子模块5032,用于根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二hub网页地址。
其中,该地址生成子模块可以包括:
初始内容生成模块,用于根据翻页链接地址,生成初始链接地址内容。
标识获取模块,用于根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识。
从目标索引范围中可以得到翻页结束标识,从而根据翻页起始标识,翻页结束标识以及翻页步长可以得到一等差数列,从而可以得到该等差数列中的不同索引标识。
地址确定模块,用于将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二hub网页地址。
其中,由于第二hub网页的数量可能非常大时,因此该地址生成子模块可以具体生成预设数量个第二hub网页地址。
网页获取模块504,用于根据所述第二hub网页地址,获取内容网页。
该网页获取模块可以具体包括:
第一网页获取子模块5041,用于根据所述第二hub网页地址,获取多个第二hub网页;
第二网页获取子模块5042,用于获取所述第二hub网页分别对应的内容网页。
该第二hub网页地址包括但不仅包括翻页链接地址,从而根据第二hub网页地址,可以获取对应的第二hub网页,进而可以获取不同第二hub网页对应的内容网页。使得在网页获取时,不仅可以获取第一hub网页对应的内容网页,还可以确定出与第一hub网页相关的第二hub网页,进而可以获取第二hub网页对应的内容网页。
在本实施例中,通过从抓取的网页中确定出第一hub网页,并解析该第一hub网页得翻页区域内容,从而确定出翻页信息,翻页信息包括翻页链接地址。然后依据该翻页链接地址可以生成与第一hub网页相关的第二hub网页地址,该第二hub网页地址包括但不限于该翻页链接地址。从而可以依据该第二hub网页地址,进行内容网页的抓取,在网页获取时,不仅获取第一hub网页对应的内容网页。同时还可以获取第二hub网页对应的内容网页,从而增加了网页覆盖率,使得能够全面的获取网络信息,进而可以实现更精确的处理操作。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种检索方法、装置及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种网页获取方法,其特征在于,包括:
确定抓取的网页中的第一中心hub网页;
解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;
根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址;
根据所述第二hub网页地址,获取内容网页。
2.根据权利要求1所述的方法,其特征在于,所述解析所述第一hub网页中包含的翻页信息包括:
解析所述第一hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容;
根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址包括:
根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围;
根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二hub网页地址。
4.根据权利要求3所述的方法,其特征在于,所述根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二hub网页地址包括:
根据翻页链接地址,生成初始链接地址内容;
根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识;
将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二hub网页地址。
5.根据权利要求3所述的方法,其特征在于,所述确定目标索引范围包括:
确定第一预设索引范围;
确定所述第一预设索引范围中的一个或多个索引标识,生成对应的预设第二hub网页地址;
根据所述预设第二hub网页地址进行网页抓取,并根据抓取结果调整所述第一预设索引范围,以得到目标索引范围。
6.根据权利要求1所述的方法,其特征在于,所述根据所述多个第二hub网页地址,获取内容网页包括:
根据所述第二hub网页地址,获取多个第二hub网页;
获取所述第二hub网页分别对应的内容网页。
7.根据权利要求1所述的方法,其特征在于,所述根据所述翻页信息,生成所述第一hub网页相关的第二hub网页地址包括:
根据所述翻页信息,生成所述第一hub网页相关的预设数量个第二hub网页地址。
8.一种网页获取装置,其特征在于,包括:
第一确定模块,用于确定抓取的网页中的第一hub网页;
解析模块,用于解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;
地址生成模块,用于根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址;
网页获取模块,用于根据所述第二hub网页地址,获取内容网页。
9.根据权利要求8所述的装置,其特征在于,所述解析模块包括:
解析子模块,用于解析所述第一hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容;
翻页信息确定模块,用于根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。
10.根据权利要求8或9所述的装置,其特征在于,所述地址生成模块包括:
第二确定模块,用于根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围;
地址生成子模块,用于根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二hub网页地址。
11.根据权利要求10所述的装置,其特征在于,所述地址生成子模块包括:
初始内容生成模块,用于根据翻页链接地址,生成初始链接地址内容;
标识获取模块,用于根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识;
地址确定模块,用于将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二hub网页地址。
12.根据权利要求10所述的装置,其特征在于,所述第二确定模块包括:
预设范围估计模块,用于确定第一预设索引范围;
预设地址生成模块,用于确定所述第一预设索引范围中的一个或多个索引标识,生成对应的预设第二hub网页地址;
目标范围确定模块,用于根据所述预设第二hub网页地址进行网页抓取,并根据抓取结果调整所述第一预设索引范围,以得到目标索引范围。
13.根据权利要求8所述的装置,其特征在于,所述网页获取模块包括:
第一网页获取子模块,用于根据所述第二hub网页地址,获取多个第二hub网页;
第二网页获取子模块,用于获取所述第二hub网页分别对应的内容网页。
CN201310048765.8A 2013-02-06 2013-02-06 网页获取方法和装置 Active CN103077254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310048765.8A CN103077254B (zh) 2013-02-06 2013-02-06 网页获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310048765.8A CN103077254B (zh) 2013-02-06 2013-02-06 网页获取方法和装置

Publications (2)

Publication Number Publication Date
CN103077254A true CN103077254A (zh) 2013-05-01
CN103077254B CN103077254B (zh) 2017-11-03

Family

ID=48153784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310048765.8A Active CN103077254B (zh) 2013-02-06 2013-02-06 网页获取方法和装置

Country Status (1)

Country Link
CN (1) CN103077254B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617229A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页数据库的建立方法和装置
CN104156397A (zh) * 2014-07-16 2014-11-19 百度在线网络技术(北京)有限公司 一种用于收藏页面的方法与设备
WO2016177216A1 (zh) * 2015-07-06 2016-11-10 中兴通讯股份有限公司 一种内容植入的实现方法和装置
CN106407217A (zh) * 2015-07-31 2017-02-15 北京国双科技有限公司 导航网页的识别方法和装置
CN107451160A (zh) * 2016-06-01 2017-12-08 广州市动景计算机科技有限公司 一种页面预读方法及装置
CN108388614A (zh) * 2018-02-08 2018-08-10 金蝶软件(中国)有限公司 新闻数据爬取处理方法、装置、计算机设备和存储介质
CN112818199A (zh) * 2021-01-28 2021-05-18 平安普惠企业管理有限公司 网页访问方法、装置、计算机设备及存储介质
CN114417200A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 网络数据的采集方法、装置及电子设备
CN114417216A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 数据采集方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256596A (zh) * 2008-03-28 2008-09-03 北京搜狗科技发展有限公司 一种站内导航的方法及系统
CN101753559A (zh) * 2009-12-17 2010-06-23 深圳创维-Rgb电子有限公司 一种网络资源的获取系统及网络资源列表获取方法
CN102355488A (zh) * 2011-08-15 2012-02-15 北京星网锐捷网络技术有限公司 爬虫种子获取方法与设备及爬虫爬取方法与设备
CN102402539A (zh) * 2010-09-15 2012-04-04 倪毅 对象级个性化垂直搜索引擎设计技术
US20130014019A1 (en) * 2011-07-04 2013-01-10 Samsung Electronics Co., Ltd. Method and apparatus for providing user interface for internet service

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256596A (zh) * 2008-03-28 2008-09-03 北京搜狗科技发展有限公司 一种站内导航的方法及系统
CN101753559A (zh) * 2009-12-17 2010-06-23 深圳创维-Rgb电子有限公司 一种网络资源的获取系统及网络资源列表获取方法
CN102402539A (zh) * 2010-09-15 2012-04-04 倪毅 对象级个性化垂直搜索引擎设计技术
US20130014019A1 (en) * 2011-07-04 2013-01-10 Samsung Electronics Co., Ltd. Method and apparatus for providing user interface for internet service
CN102355488A (zh) * 2011-08-15 2012-02-15 北京星网锐捷网络技术有限公司 爬虫种子获取方法与设备及爬虫爬取方法与设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617229A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页数据库的建立方法和装置
CN104156397A (zh) * 2014-07-16 2014-11-19 百度在线网络技术(北京)有限公司 一种用于收藏页面的方法与设备
WO2016177216A1 (zh) * 2015-07-06 2016-11-10 中兴通讯股份有限公司 一种内容植入的实现方法和装置
CN106407217A (zh) * 2015-07-31 2017-02-15 北京国双科技有限公司 导航网页的识别方法和装置
CN107451160A (zh) * 2016-06-01 2017-12-08 广州市动景计算机科技有限公司 一种页面预读方法及装置
CN107451160B (zh) * 2016-06-01 2020-10-16 阿里巴巴(中国)有限公司 一种页面预读方法及装置
CN108388614A (zh) * 2018-02-08 2018-08-10 金蝶软件(中国)有限公司 新闻数据爬取处理方法、装置、计算机设备和存储介质
CN108388614B (zh) * 2018-02-08 2020-08-18 金蝶软件(中国)有限公司 新闻数据爬取处理方法、装置、计算机设备和存储介质
CN112818199A (zh) * 2021-01-28 2021-05-18 平安普惠企业管理有限公司 网页访问方法、装置、计算机设备及存储介质
CN114417200A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 网络数据的采集方法、装置及电子设备
CN114417216A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 数据采集方法、装置、电子设备及可读存储介质
CN114417216B (zh) * 2022-01-04 2022-11-29 马上消费金融股份有限公司 数据采集方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN103077254B (zh) 2017-11-03

Similar Documents

Publication Publication Date Title
CN103077254A (zh) 网页获取方法和装置
AU2014201827B2 (en) Scoring concept terms using a deep network
US9646110B2 (en) Managing information assets using feedback re-enforced search and navigation
US20150082221A1 (en) Multi-lane time-synched visualizations of machine data events
WO2018004829A1 (en) Methods and apparatus for subgraph matching in big data analysis
US20130132851A1 (en) Sentiment estimation of web browsing user
Nasridinov et al. A decision tree-based classification model for crime prediction
JP5856139B2 (ja) 仮想ドキュメントを用いたインデックス付与と検索
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN104021125B (zh) 一种搜索引擎排序的方法、系统以及一种搜索引擎
US9135307B1 (en) Selectively generating alternative queries
CN105224554A (zh) 推荐搜索词进行搜索的方法、系统、服务器和智能终端
JP2014106661A (ja) ユーザ状態予測装置及び方法及びプログラム
Zhu et al. Cyber-physical-social-thinking modeling and computing for geological information service system
CN103077250A (zh) 一种网页内容抓取方法及装置
Wu et al. Concinnity: A generic platform for big sensor data applications
CN104361092A (zh) 搜索方法及装置
CN110069693A (zh) 用于确定目标页面的方法和装置
CN105373546A (zh) 一种用于知识服务的信息处理方法及系统
CN104484392A (zh) 数据库查询语句生成方法及装置
WO2014176182A1 (en) Auto-completion of partial line pattern
Nigam et al. Web scraping: from tools to related legislation and implementation using python
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
US11361031B2 (en) Dynamic linguistic assessment and measurement
CN107679186A (zh) 基于实体库进行实体搜索的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yu Weiwei

Inventor after: Liu Zhuo

Inventor before: Fan Bo

Inventor before: Cui Shiqi

Inventor before: Yang Qing

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20171011

Address after: 100026 Beijing City, Chaoyang District Jintai Road No. 2 [4-2] Building No. 9 room 321

Applicant after: People's daily media technology Limited by Share Ltd

Address before: 100020 East Third Ring Road, Beijing, Chaoyang District, No. 1 global financial center, West Tower, floor 16

Applicant before: People Search Network AG

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant