CN107016102A

CN107016102A - 一种大数据网络爬虫分页配置方法

Info

Publication number: CN107016102A
Application number: CN201710236259.XA
Authority: CN
Inventors: 张志成; 王纯斌; 覃进学; 刘佳
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2017-04-12
Filing date: 2017-04-12
Publication date: 2017-08-04
Anticipated expiration: 2037-04-12
Also published as: CN107016102B

Abstract

本发明公开了一种大数据网络爬虫分页配置方法，它包括以下步骤：（1）第一配置，配置分页组的定位符；（2）第二配置，配置页面按钮的匹配符；（3）第三配置，配置标签的属性元素；（4）第四配置，配置标题元素；（5）第五配置，配置文本元素。本发明通过对爬虫脚本的分页部分进行配置，通过采用一种可配置匹配符，在一组选定的标签中自动匹配其属性信息，然后返回特征值信息，用于分页数据精准指向相应的页面按钮，防止网络页面结构混乱导致无法循环爬取网页数据，能够充分保障大数据网络爬虫产品能够循环爬取数据，增强网页过滤能力，有助于提高大数据爬虫产品的网络数据爬取效率。

Description

一种大数据网络爬虫分页配置方法

技术领域

本发明涉及大数据分析处理技术领域，具体是一种大数据网络爬虫分页配置方法。

背景技术

随着网络的迅速发展，每时每刻万维网都在产生各式各样的数据。目前，中国的网站总数约454万个，网页数量突破2000亿个，浪涌般的数据蕴藏着惊人的价值。如何有效地提取并利用这些信息成为一个巨大的挑战。如何让这些繁杂无序的互联网数据产生价值，如何把万维网变成自家的数据库，如何让企业轻松驾驭这些海量数据信息来进行创新、快速洞悉商机，搜索引擎(Search Engine)，例如传统的通用搜索引擎Google和Baidu等，作为一种辅助人们检索信息的工具成为用户访问万维网的入口和指南，被人们广泛使用。但是，这些通用性搜索引擎也存在着一定的局限性，为了尽可能大的网络覆盖率，其搜索出来的数据庞杂精准度低，所返回的结果包中含大量用户不关心的网页。

在目前大数据产业的背景下，网络爬虫通常是一种快速获取互联网数据的有效途径。其中，聚焦类爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，它根据既定的抓取目标，根据一定的网页分析算法过滤与主题无关的链接，有选择的访问万维网上的网页与相关的链接获取所需要的信息。往往我们需要获取的数据是在网页有列表或在表格信息中，而这些数据一般都是具有分页的，聚焦爬虫需要精准识别其分页标签，才能循环获取下一页的数据。当在爬取数据时，有些网页中的“下一页”HTML结构在点击几次“下一页”后会发生改变，数据结构发生改变后则不能通过原来的HTML定位符定位到“下一页”这个按钮，导致无法循环爬取网页数据，而爬虫脚本的配置方式，直接影响大数据网络爬虫的循环爬虫效率。例如，在网络页面的第1页时，页面按钮“下一页“的CSS路径为：body > div > div.main > div.jRight > div.page > a:nth-child(2)，而当循环爬取到第6页的时候，由于分页组中的1、2、3、4等数字下标发生变化，导致页面按钮“下一页“的CSS路径变更为：body > div > div.main > div.jRight > div.page > a:nth-child(3)，下一页结构混乱，导致无法循环判断，不能实现循环爬取网页。

发明内容

本发明的目的在于克服现有技术的不足，提供一种大数据网络爬虫分页配置方法，通过对爬虫脚本分页部分的配置，能够防止网页结构混乱对循环爬取的影响，保障爬虫程序对网页数据循环爬取，尤其是在超大数据量的网络爬虫系统中，有助于提高爬虫产品的网络爬取效率。

本发明的目的是通过以下技术方案来实现的：一种大数据网络爬虫分页配置方法，其特征在于，它包括以下步骤：

（1）第一配置，配置分页组的定位符；

（2）第二配置，配置页面按钮的匹配符；

（3）第三配置，配置标签的属性元素；

（4）第四配置，配置标题元素；

（5）第五配置，配置文本元素。

所述的分页组为页数标签的CSSPATH地址。

所述的定位符为CSSPATH定位符。

所述的第二配置，根据网页中页面按钮的显示字段来配置。

所述页面按钮的显示字段包括中文显示字段、英文显示字段和数字显示字段。

所述的第二配置，如果页面按钮的匹配符和分页组中的标签按钮匹配成功，则该标签的属性元素作为页面按钮的分页路径加入待爬取的URL队列中。

所述的标签的属性元素为Href元素。

所述的标题元素为分页组中的所有按钮的标签的标题属性值。

所述的第四配置，将标签的标题属性值字段与页面按钮的匹配符逐一匹配，如果过匹配成功，则获取该标签的Href值。

所述的第五配置，将标签的文本属性值字段与页面按钮的匹配符逐一匹配，如果匹配成功，则获取该标签的Href值。

所述的文本元素为分页组中所有按钮的标签的文本属性值。

进一步，爬虫引擎根据显示字段进行分页标签定位。

本发明的有益效果是：

（1）本发明通过对爬虫脚本的分页部分进行配置，采用一种可配置匹配符，在一组选定的标签中自动匹配其属性信息，然后返回特征值信息，用于分页数据精准指向相应的页面按钮，防止网络页面结构混乱导致无法循环爬取网页数据，充分保障了大数据网络爬虫产品能够循环爬取数据；

（2）本发明应用到爬虫脚本中，能够增强网页过滤能力，尤其是在应用聚焦爬虫脚本，在选定的标签中进行特征值匹配和快速定位，可以快速过滤掉与主题无关的链接，有选择地高效访问万维网上的网页和相关的链接并下载所需要的相关网页的HTML信息；

（3）本发明还可应用到搜索引擎中，通过自动匹配标签属性信息，返回特征值信息，精准指向页面按钮数据，可以快速抓取网页数据，再进一步结合网页分析算法过滤与主题无关的链接，可以进一步提高搜索精度。

附图说明

图1为本发明的步骤示意图；

图2为本发明的脚本对象化结构示意图；

图3为本发明的实施例—用于大数据爬虫的分页处理流程图；

图4为本发明的实施例—用于大数据爬虫的分页处理模块的结构示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种大数据网络爬虫分页配置方法，它包括以下步骤：

（1）第一配置，配置分页组的定位符；

（2）第二配置，配置页面按钮的匹配符；

（3）第三配置，配置标签的属性元素；

（4）第四配置，配置标题元素；

（5）第五配置，配置文本元素。

所述的分页组为页数标签的CSSPATH地址。

所述的定位符为CSSPATH定位符。

进一步描述，爬虫引擎根据显示字段进行分页标签定位。

所述的标签的属性元素为Href元素。

实施例1：

将本发明应用到一种大数据网络爬虫分页选择方法中，它包括以下步骤：

S0：分别配置分页组的定位符、页面按钮的匹配符、标签的属性元素、标题元素和文本元素；

进一步描述，在本发明的配置步骤中包括：

分页组为页数标签的CSSPATH地址，定位符为CSSPATH定位符。CSSPATH定位符是CSS选择器用于对网页中元素位置的排版进行像素级精确控制的路径，根据CSS路径则能对HTML页面中的元素实现一对一，一对多或者多对一的控制。Xpath定位符为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSLT间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。

S1：解析爬虫脚本，爬虫脚本是爬虫引擎能够识别的一种网页定位符集合体的TXT文件，其本质是带有一定格式的字符串文件，用于爬虫引擎运行中过滤与主题无关的链接，有选择地访问万维网上的网页与相关的链接并下载相关所需要的网页HTML信息。

S2：获取匹配符，对爬虫脚本内容中的标签信息进行匹配，进一步表述，如图4所示，使用爬虫引擎分页处理模块处理S1步骤解析后的脚本详细内容对象，获取regex中的匹配符，逐一对脚本详细内容对象中的选定的A标签的文本元素（txt元素）和标题元素（title元素）进行匹配；

S3：将匹配成功的标签的特征值存入URL队列中；将匹配成功后将该A标签的Href值存入待爬取URL队列中等待爬取；

S4：获取及校验，获取URL队列中的URL连接地址，校验URL连接地址；

S5：获取校验后的URL连接地址，进行地址匹配；如果匹配成功，则可以采用同一处理网页解析模块进行解析处理。

地址匹配：对URL地址进行过滤匹配，一种模糊匹配规则：

例如：http://chengdu.customs.gov.cn/publish/portal130/tab70899/module193591/{page}.html是一个地址，匹配其中{}中的值是一种匹配变量。

再例如：

http://chengdu.customs.gov.cn/publish/portal130/tab70899/module193591/page1.html这个地址将会被该地址匹配成功；而http://chengdu.customs.gov.cn/publish/page2.html这个地址将不会被地址匹配器匹配。

S6：解析地址匹配成功的URL地址的网页，获取分页信息，爬虫引擎网页解析模块将处理S5步骤中匹配成功的URL地址的网页，对其进行解析分析页面元素获取分页信息后回到步骤S1进行处理，完成循环爬取。

进一步描述，在步骤S6之后，还包括一个返回步骤S7，所述的返回步骤S7，在获取分页信息后，返回到步骤S2中，从而实现循环爬取。

其中，URL队列为内存队列，例如一种简单的内存队列如Redis的List链表结构，主要功能有push、pop等，用于存放URL地址是线程安全的；URL队列也可以是一种文件队列，它可以用于耗时较长的下载任务，在任务中途停止后，下次执行仍然从中止的URL开始继续爬取。

进一步描述，在步骤S1中，包括以下子步骤：

S11：读取爬虫脚本文件并校验，然后把爬虫脚本文件中的规则字符串转换为JsonArray；

S12：将JsonArray转化为脚本JAVA对象；

S13：解析脚本JAVA对象中的爬虫规则，再将解析结果设置到脚本JAVA对象中。

再进一步表述，爬虫引擎先读取页面传来的脚本文件，然后进行基础校验后再将爬虫脚本文件中规则字符串转换为JsonArray，接着将JsonArray转化为爬虫引擎识别的脚本JAVA对象，它含有脚本详细内容JAVA对象以及另一个脚本JAVA对象，通过递归解析脚本详细内容对象中的爬虫规则和解析脚本规则中各个关键字和关键字的属性信息，例如：name信息、css信息、save信息、click信息、regex信息、type信息等，然后将解析好的属性信息和字段信息设置回脚本详细内容JAVA对象中。

进一步描述，在步骤S13中，使用递归解析来获取脚本内容对象中爬虫规则中的字段及字段的信息。

所述字段的信息包括name信息、css信息、save信息、click信息、regex信息和type信息。

进一步描述，在步骤S2中，获取字段中的匹配符，逐一对脚本内容对象中的标签的文本元素和标题元素进行匹配。

进一步描述，在步骤S3中，所述的特征值为Href值。

进一步描述，在步骤S3中，在步骤S2中匹配成功后，将相应标签的Href值存入待爬取的URL队列中等待爬取。

进一步描述，在步骤S5中，对URL地址进行过滤匹配，通过模糊匹配变量来实现地址匹配。

实施例2：

将本发明应用于一种大数据网络爬虫分页选择系统，它包括：

第一配置模块，用于配置分页组的定位符；

第二配置模块，用于配置页面按钮的匹配符；

第三配置模块，用于配置标签的属性元素；

第四配置模块，用于配置标题元素；

第五配置模块，用于配置文本元素；

第一解析模块，用于解析爬虫脚本；

第一匹配模块，用于获取匹配符，对爬虫脚本内容中的标签信息进行匹配；

存储模块，用于将匹配成功的标签的特征值存入URL队列中；

获取模块，用于获取URL队列中的URL连接地址，校验URL连接地址；

第二匹配模块，用于获取校验后的URL连接地址，进行地址匹配；

第二解析模块，用于解析地址匹配成功的URL地址的网页，获取分页信息。

在本发明中，页面按钮的显示字段包括中文显示字段、英文显示字段和数字显示字段。

爬虫引擎可以根据显示字段进行分页标签定位，如果页面按钮的匹配符和分页组中的标签按钮匹配成功，则该标签的属性元素作为页面按钮的分页路径加入待爬取的URL队列中。选定的标签的属性元素可以为Href元素，标题元素可以为分页组中的所有按钮的标签的标题属性值。将标签的标题属性值字段与页面按钮的匹配符逐一匹配，如果过匹配成功，则获取该标签的Href值，并且，将标签的文本属性值字段与页面按钮的匹配符逐一匹配，如果匹配成功，则获取该标签的Href值。

基于本发明的配置方法以及承载方法步骤的相应配置模块，再一实施例，分页配置部分的爬虫脚本，可以配置如下：

1 name：‘nextpage’，

2 css：‘#ess_ctrl193591_ListC_AspNetPager>table>tbody>tr>td：nth-child(2)>a’，

3 type：‘list’，

4 regex：‘下一页’，

5 rule：{

6 name：‘Href’，

7 keys：[

{

8 name：‘Href’，

9 type：‘pagelink’，

10 css：‘a’

}，

{

11 name：‘title’，

12 type：‘text’，

13 css：‘a’

}，

{

14 name：‘txt’，

15 type：‘text’，

16 css：‘a’

}

]

}

爬虫脚本如下：

1 name：‘liuyugaikuang’，

2 url：‘http：//www.gdwater.gov.cn/yszx/ysgk/lygk’，

3 keys：[{

4 name：‘news’，

5 css：‘body’>div.wrap>div>div.glcom.clearfix>div.gl-right>ul>li，

6 type:‘list’，

7 rule：{

8 name：‘Titile’，

9 keys：[{

10 name：‘tit’，

11 type：‘a’，

12 css：‘li>a’，

13 click：‘true’，

}

]

}

]

其中，本领域技术人员依照如上爬虫分页部分的配置方式以及相应的爬虫脚本，可以通过以下步骤，实施本发明：

（1）新建爬虫任务，设置爬虫初始种子URL、爬虫任务名称。初始种子URL，爬虫引擎能够通过该URL放问到的网页作为起点，再向深度、或广度一层层的扩展爬取。

（2）配置爬虫策略，设置爬取一次还是循环爬取，可以设置每30分钟爬取一次或者1小时爬取1次等，设置爬虫线程每次请求间隔时间，可以设置1000毫秒、1500毫秒等。

（3）配置网络爬虫脚本，本爬虫脚本是一种JSON格式的字符串，其页面与页面间的层级关系采用JSON格式中常见的嵌套格式，并且在爬虫引擎中则能对象化成JsonArray如图2中所呈现的层级关系。

进一步地，步骤（3）包括子步骤：

（31）配置“分页组”CSSPATH定位符，分页组：是一组选定标签A的集合，其业务含义为一系列页数标签（A标签）。例如爬虫脚本中第6行代码示意，它是以type为List的一组A标签的CSSPATH地址。

（32）配置“下一页”按钮匹配符，该匹配符是用于做智能分页的匹配符，例如在分页配置部分的爬虫脚本中第4行代码示意，“regex”标签其业务含义为页面按钮标签的显示字段，例如“下一页”的显示字段，这个字段根据具体网页中“下一页”的显示来具体配置，有可能是中文、英文、数字，爬虫引擎根据这个字段进行最终的分页A标签定位。

（33）配置Href元素，该字段为分页组中所有按钮的A标签的Href属性，如果“下一页”按钮匹配符和“分页组”中某一A标签按钮匹配成功后该A标的Href属性将会作为“下一页”的分页路径加入爬虫引擎中“待爬取URL队列”。例如在分页配置部分的爬虫脚本中第9行代码示意，该元素中的type为pageLink的Href标签。

（34）配置title元素，该字段为分页组中所有按钮的A标签的title的属性值，该字段将和“下一页”按钮匹配符进行逐一匹配，如果匹配成功则获取该A标签的Href值。

（35）配置txt元素，该字段为分页组中所有按钮的A标签的txt的属性值，该字段将和“下一页”按钮匹配符进行逐一匹配，如过匹配成功则获取该A标签的Href值。

（4）爬虫引擎读取页面传来的脚本文件，基础校验后把爬虫脚本文件中规则字符串转换为JsonArray。

（5）如图2所示，将JsonArray转化为爬虫引擎识别的脚本JAVA对象，该对象含有脚本详细内容JAVA对象以及另一个脚本JAVA对象，如图3所示。

（6）递归解析（5）步骤中脚本详细内容对象中的爬虫规则，解析脚本规则中各个关键字和其属性信息，例如：name信息、css信息、save信息、click信息、regex信息、type信息等，然后将解析好的属性和字段重新设置到脚本详细内容对象中。

（7）爬虫引擎分页处理器处理（6）步骤解析后的脚本详细内容对象，获取regex中的匹配符，逐一对脚本详细内容对象中的A标签的TXT元素和Title元素进行匹配。

（8）匹配成功后将该A标签的Href值存入待爬取URL队列中等待爬取。

（9）爬虫引擎获取（8）步骤中待爬取URL队列中的URL连接地址，并加以校验。

（10）爬虫引擎获取（9）步骤中的地址后，交由下载器进行地址下载，下载完网页后，根据URL地址匹配，匹配成功后将采取对应的网页解析器进行解析处理。

（11）爬虫引擎网页解析器将会根据爬虫脚本中配置的清洗过滤条件，对其下载后的网页进行解析分析过滤，过滤出业务想要的页面元素，并且处理后入库。

（12）步骤11处理完毕后返回（8）步骤进行循环爬取网页。

本发明应用到爬虫脚本中，能够增强网页过滤能力，尤其是在应用聚焦爬虫脚本，在选定的标签中进行特征值匹配和快速定位，可以快速过滤掉与主题无关的链接，有选择地高效访问万维网上的网页和相关的链接并下载所需要的相关网页的HTML信息。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的方法、系统和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所揭露的方法、系统和模块，可以通过其它的方式实现。例如，以上所描述的实施例仅是示意性的，例如，所述模块的划分，可以仅仅是一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以说通过一些接口，系统或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述分立部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例的方案目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、制度存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种大数据网络爬虫分页配置方法，其特征在于，它包括以下步骤：

（1）第一配置，配置分页组的定位符；

（2）第二配置，配置页面按钮的匹配符；

（3）第三配置，配置标签的属性元素；

（4）第四配置，配置标题元素；

（5）第五配置，配置文本元素。

2.根据权利要求1所述的一种大数据网络爬虫分页配置方法，其特征在于：所述的分页组为页数标签的CSSPATH地址。

3.根据权利要求1所述的一种大数据网络爬虫分页配置方法，其特征在于：所述的定位符为CSSPATH定位符。

4.根据权利要求1所述的一种大数据网络爬虫分页配置方法，其特征在于：所述的第二配置，根据网页中页面按钮的显示字段来配置。

5.根据权利要求4所述的一种大数据网络爬虫分页配置方法，其特征在于：所述页面按钮的显示字段包括中文显示字段、英文显示字段和数字显示字段。

6.根据权利要求1所述的一种大数据网络爬虫分页配置方法，其特征在于：所述的第二配置，如果页面按钮的匹配符和分页组中的标签按钮匹配成功，则该标签的属性元素作为页面按钮的分页路径加入待爬取的URL队列中。

7.根据权利要求1所述的一种大数据网络爬虫分页配置方法，其特征在于：所述的标签的属性元素为Href元素。

8.根据权利要求1所述的一种大数据网络爬虫分页配置方法，其特征在于：所述的标题元素为分页组中的所有按钮的标签的标题属性值。

9.根据权利要求1所述的一种大数据网络爬虫分页配置方法，其特征在于：所述的第四配置，将标签的标题属性值字段与页面按钮的匹配符逐一匹配，如果过匹配成功，则获取该标签的Href值。

10.根据权利要求1所述的一种大数据网络爬虫分页配置方法，其特征在于：所述的第五配置，将标签的文本属性值字段与页面按钮的匹配符逐一匹配，如果匹配成功，则获取该标签的Href值。

11.根据权利要求1所述的一种大数据网络爬虫分页配置方法，其特征在于：所述的文本元素为分页组中所有按钮的标签的文本属性值。

12.根据权利要求1-5任一项所述的一种大数据网络爬虫分页配置方法，其特征在于：爬虫引擎根据显示字段进行分页标签定位。