CN105912547A

CN105912547A - 一种基于网络爬虫实现数据快速处理的方法和装置

Info

Publication number: CN105912547A
Application number: CN201510938570.XA
Authority: CN
Inventors: 尹斐
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Information Technology Beijing Co Ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2016-08-31

Abstract

本发明实施例提供一种基于网络爬虫实现数据快速处理的方法和装置，其中方法包括：对当前网页进行解析，获取所述当前网页的页面信息；如果所述当前网页的页面信息中包含快速处理标签，则基于网络爬虫对所述当前网页优先进行数据处理。本发明实施例通过在网页中设置快速处理标签，对更新的网页和已有的网页进行区分处理，从而提高了网页数据的处理速度。

Description

一种基于网络爬虫实现数据快速处理的方法和装置

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种基于网络爬虫实现数据快速处理的方法和装置。

背景技术

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo！、Google和Baidu等等，作为辅助人们检索信息的工具，成为了用户访问万维网的入口和指南。搜索引擎通常会提供分钟级别的实时索引，以及时向用户展示强时效性网页信息，如新闻网站中的新闻资讯、视频网站中的视频更新动、论坛网友中的热门帖子等。为及时获取这些强时效性网页信息，相关搜索引擎需要维护一批种子页(又称列表页、hub页)；其中，所述种子页相当于内容页的索引页面，以新闻网站为例，其种子页用于展示多个新闻标题，每个新闻标题链接到一个内容页，且该内容页用于展示相应新闻标题对应的具体新闻内容。

但是，这些通用性搜索引擎也存在着一定的局限性，如：

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。

(4)通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

为了解决上述问题，定向抓取相关网页资源的网络爬虫(Computer Robot)应运而生，网络爬虫(Computer Robot)，又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者，另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

如图1所示，为现有的网络爬虫应用的组网图，包括控制节点和爬虫节点。网络爬虫技术是通过控制节点控制爬虫节点按照一定的规则，自动地抓取万维网信息的程序或者脚本，为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。搜索引擎使用网络爬虫寻找网络内容，网络上的HTML文档使用超链接连接了起来，就像织成了一张网，网络爬虫也叫网络蜘蛛，顺着这张网爬行，每到一个网页就用抓取程序将这个网页抓下来，将内容抽取出来，同时抽取超链接，作为进一步爬行的线索。

如图2所示，为现有的网络爬虫抓取万维网信息的示意图。传统的网络爬虫从一个或若干初始网页的统一资源定位符(URL，UniformResource Locator)开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。

在现有技术中，搜索引擎可以通过网络爬虫系统按照预设的刷新间隔来抓取种子页所需的内容页数据，对上一次抓取的种子页进行更新，从而可以将新的内容页及时展示给用户，保证相关网站的时效性。但是，网络爬虫按照统一的规则对网络获取的网页数据进行处理。如果存在更新的内容，网络爬虫对于更新的内容和以前的内容，都将采用相同的处理规则，很可能导致处理速度过慢，无法及时的将更新的内容页展示给用户。

有鉴于此，需要一种改进的网络爬虫方案来解决现有技术中存在的问题。

发明内容

本发明实施例提供一种基于网络爬虫实现数据快速处理的方法和装置，能够提高网页数据的处理速度。

本发明实施例提供一种基于网络爬虫实现数据快速处理的方法，包括：

对当前网页进行解析，获取所述当前网页的页面信息；

如果所述当前网页的页面信息中包含快速处理标签，则基于网络爬虫对所述当前网页优先进行数据处理。

本发明实施例提供一种基于网络爬虫实现数据快速处理装置，包括：

第一处理模块，用于对当前网页进行解析，获取所述当前网页的页面信息；

第二处理模块，用于如果所述当前网页的页面信息中包含快速处理标签，则基于网络爬虫对所述当前网页优先进行数据处理。

相比较于现有技术本发明实施例提供的基于网络爬虫实现数据快速处理的方法和系统，预先定义用于优先处理网页数据的快速处理标签，如果当前网页中包含快速处理标签时，则基于网络爬虫对当前网页优先进行数据处理，从而能够提高网页数据的处理速度，避免了现有技术中对于更新的内容和以前的内容都采用相同的处理规则，导致对网页数据处理速度过慢的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有的网络爬虫应用的组网图；

图2为现有的网络爬虫抓取万维网信息的示意图；

图3为本发明的一个具体实施例中基于网络爬虫实现数据快速处理的方法的流程示意图；

图4为本发明的一个具体实施例中基于网络爬虫实现数据快速处理的方法的详细流程示意图；

图5本发明的一个具体实施例中基于网络爬虫实现数据快速处理装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的网络爬虫技术按照一定的规则获得网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列等待处理。但是对于更新的内容和以前的内容都采用相同的处理规则，有可能会导致处理速度过慢。

相比较于现有技术，本发明根据需要，将更新的内容和以前的内容加以区别，使得更新的内容能够根据需要得到优先处理，从而避免了现有技术中处理速度过慢的缺点。

实施例一：

图3为本发明的一个具体实施例中基于网络爬虫实现数据快速处理的方法的流程示意图。

如图3所示，该方法包括：

步骤S31，对当前网页进行解析，获取所述当前网页的页面信息；

步骤S22，如果所述当前网页的页面信息中包含快速处理标签，则基于网络爬虫对所述当前网页优先进行数据处理。

实施例二：

图4为本发明的一个具体实施例中基于网络爬虫实现数据快速处理的方法的详细流程示意图。

如图4所示，该方法包括：

步骤S41，预先定义快速处理标签，所述快速处理标签用于标识优先处理网页数据。

相较于现有技术，在本发明中预先定义快速处理标签，根据需要将快速处理标签添加在网页信息中，从而可以标识该网页具有优先处理数据的权利。

互联网上的网页通常以超文本标记语言(HTML，HyperText Mark-upLanguage)文件。超文本就是指页面内可以包含图片、链接，甚至音乐、程序等非文字元素。超文本标记语言的结构包括头部分和主体部分，其中头部提供关于网页的信息，主体部分提供网页的具体内容。

表1列出了HTML文件的头部分的元素：

表1

标签	描述
		<head>	定义了文档的信息
<title>	定义了文档的标题
		<base>	定义了页面链接标签的默认链接地址
<link>	定义了一个文档和外部资源之间的关系
		<meta>	定义了HTML文档中的元数据
<script>	定义了客户端的脚本文件
		<style>	定义了HTML文档的样式文件

在本发明的具体实施例中，可以对HTML文件的头部分进行扩展，增加一个元素，用以放置快速处理标签。

在本发明的具体实施例中，快速处理标签可以采用数值或字母表示，当然也可以是其他的形式，在本发明中不做具体的限制。

步骤S42，抓取当前网页，并对当前网页进行解析，获取所述当前网页的页面信息。

在本步骤中，对当前网页执行抓取操作，并对当前网页进行解析，得到该当前网页的页面信息。

网页以HTML文件的形式存在，因此可以对当前网页的HTML文件进行解析，得到该当前网页的页面信息。

步骤S43，判断网页信息中是否包含快速处理标签，如果是，进行步骤S44；如果否，进行步骤S45。

在本步骤中，判断在当前网页的HTML文件的头部分是否包含快速处理标签。

步骤S44，基于网络爬虫将所述当前网页的数据放入优先队列中，按照优先队列顺序进行数据处理。

相较于现有技术，在本发明具体实施例中，在普通队列的基础上增加了优先队列，在数据处理时，优先队列中的数据比普通队列的数据将进行优先处理。

在本步骤中，如果判断出当前网页的HTML文件的头部分包含快速处理标签，基于网络爬虫将所述当前网页中需要处理的数据放入优先队列中，按照优先队列顺序进行数据处理。

网络爬虫根据设定的网页分析算法对网页中的数据进行过滤，保留爬行范围受控的需要处理的有用数据放到优先队列中，通过设定的搜索策略从优先队列中选择要网页进行数据处理，其中网页中的数据可以是网页中的超链接的HTML文件，通过该超链接的HTML文件可以导向其他的网页。

在本发明的具体实施例中，网页分析算法可以为网络拓扑的分析算法、基于文本的网页分析算法或基于用户访问行为的分析算法，网络爬虫根据设定的网页分析算法对网页中的数据进行过滤。其中，基于网络拓扑的分析算法是基于网页之间的链接，通过已知的网页或数据，来对与其有直接或间接链接关系的对象作出评价的算法，又分为网页粒度、网站粒度和网页块粒度的分析算法；基于文本的网页分析算法包括纯文本分类与聚类算法和超文本分类和聚类算法。

在本发明的具体实施例中，搜索策略可以为深度优先搜索策略、广度优先搜索策略或最佳优先搜索策略。其中，深度优先搜索是要达到被搜索结构的叶结点，即不包含任何超链接的HTML文件；广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索；最佳优先搜索策略按照网页分析算法，预测候选HTML文件与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个HTML文件进行抓取。

步骤S45，基于网络爬虫将所述当前网页的数据放入普通队列中，按照普通队列顺序进行数据处理。

在本步骤中，如果判断出当前网页的HTML文件的头部分没有快速处理标签，基于网络爬虫将所述当前网页中需要处理的数据放入普通队列中，按照普通队列顺序进行数据处理。

基于网络爬虫对数据进行处理的具体方式可参考S44，故在此不赘述。

本发明的实施例一和实施例二提供的基于网络爬虫实现数据快速处理的方法，预先定义用于优先处理网页数据的快速处理标签，如果当前网页中包含快速处理标签时，则基于网络爬虫对当前网页优先进行数据处理，从而能够提高网页数据的处理速度，避免了现有技术中对于更新的内容和以前的内容都采用相同的处理规则，导致对网页数据处理速度过慢的问题。

实施例三：

如图5所示，本发明的装置包括：

第一处理模块51，用于对当前网页进行解析，获取所述当前网页的页面信息；

第二处理模块52，用于如果所述当前网页的页面信息中包含快速处理标签，则基于网络爬虫对所述当前网页优先进行数据处理。

本发明的装置还包括：第三处理模块(未图示)，用于预先定义快速处理标签，所述快速处理标签用于标识优先处理网页数据。

相较于现有技术，通过第三处理模块预先定义快速处理标签，根据需要将快速处理标签添加在网页信息中，从而可以标识该网页具有优先处理数据的权利。在本发明的具体实施例中，可以对HTML文件的头部分进行扩展，增加一个元素，用以放置快速处理标签，快速处理标签可以采用数值或字母表示，当然也可以是其他的形式，在本发明中不做具体的限制。

第一处理模块51，具体用于：对当前网页执行抓取操作，对当前网页的HTML进行解析，得到该当前网页的页面信息。

第二处理模块52，具体用于：判断在当前网页的HTML文件的头部分是否包含快速处理标签；如果判断出当前网页的HTML文件的头部分包含快速处理标签，基于网络爬虫将所述当前网页中需要处理的数据放入优先队列中，按照优先队列顺序进行数据处理；如果判断出当前网页的HTML头部分没有快速处理标签，基于网络爬虫将所述当前网页中需要处理的数据放入普通队列中，按照普通队列顺序进行数据处理。

相较于现有技术，在本发明具体实施例中，在普通队列的基础上增加了优先队列，在数据处理时，优先队列中的数据比普通队列的数据将进行优先处理。网络爬虫根据设定的网页分析算法对网页中的数据进行过滤，保留爬行范围受控的需要处理的有用数据放到优先队列中，通过设定的搜索策略从优先队列中选择要网页进行数据处理。

网页分析算法和搜索策略可以参考实施例二的步骤S44，故在此不赘述。

本发明的实施例三提供的基于网络爬虫实现数据快速处理装置，通过预先定义用于优先处理网页数据的快速处理标签，如果当前网页中包含快速处理标签时，则基于网络爬虫对当前网页优先进行数据处理，从而能够提高网页数据的处理速度，避免了现有技术中对于更新的内容和以前的内容都采用相同的处理规则，导致对网页数据处理速度过慢的问题。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于网络爬虫实现数据快速处理的方法，其特征在于，包括：

对当前网页进行解析，获取所述当前网页的页面信息；

2.根据权利要求1所述的基于网络爬虫实现数据快速处理的方法，其特征在于，所述方法还包括：

预先定义快速处理标签，所述快速处理标签用于标识优先处理网页数据。

3.根据权利要求2所述的基于网络爬虫实现数据快速处理的方法，其特征在于，所述当前网页采用HTML文件；所述快速处理标签添加在所述HTML文件的头部分。

4.根据权利要求3所述的基于网络爬虫实现数据快速处理的方法，其特征在于，所述方法还包括：

判断在所述当前网页的HTML文件的头部分是否包含快速处理标签。

5.根据权利要求4所述的基于网络爬虫实现数据快速处理的方法，其特征在于，所述如果所述当前网页的页面信息中包含快速处理标签，则基于网络爬虫对所述当前网页优先进行数据处理的步骤包括：

如果判断出当前网页的HTML文件的头部分包含快速处理标签，基于网络爬虫将所述当前网页中需要处理的数据放入优先队列中，按照优先队列顺序进行数据处理。

6.根据权利要求4所述的基于网络爬虫实现数据快速处理的方法，其特征在于，所述方法还包括：

如果判断出当前网页的HTML头部分没有快速处理标签，基于网络爬虫将所述当前网页中需要处理的数据放入普通队列中，按照普通队列顺序进行数据处理。

7.一种基于网络爬虫实现数据快速处理装置，其特征在于，包括：

8.根据权利要求7所述的基于网络爬虫实现数据快速处理装置，其特征在于，所述装置还包括：

第三处理模块，用于预先定义快速处理标签，所述快速处理标签用于标识优先处理网页数据。

9.根据权利要求8所述的基于网络爬虫实现数据快速处理装置，其特征在于，所述当前网页采用HTML文件；所述快速处理标签添加在所述HTML文件的头部分。

10.根据权利要求9所述的基于网络爬虫实现数据快速处理装置，其特征在于，所述第二处理模块，具体用于：

判断在所述当前网页的HTML文件的头部分是否包含快速处理标签；