CN105335516A

CN105335516A - 一种通用采集系统的构建方法

Info

Publication number: CN105335516A
Application number: CN201510739293.XA
Authority: CN
Inventors: 毛立花; 王传超
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2015-11-04
Filing date: 2015-11-04
Publication date: 2016-02-17

Abstract

本发明公开了一种通用采集系统的构建方法，包括以下四个步骤：入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置，各采集配置步骤之间为顺序进行，即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。该一种通用采集系统的构建方法与现有技术相比，设计了多线程并发机制，任务之间通过数据库进行交互协作，能够进行简单的分布式采集；实现了对多大多数的网站的配置采集和分布式采集，简化了网站采集的繁琐的开发工作，实用性强，适用范围广泛，易于推广。

Description

一种通用采集系统的构建方法

技术领域

本发明涉及数据采集技术领域，具体地说是一种实用性强、通用采集系统的构建方法。

背景技术

互联网数据的采集，是结合内部数据与互联网数据产生价值的基础和前提。由于网页语法的灵活性，不同的网站的网页结构差别很大，即使是同一个网页也可能使用不同的模板。对不同的网站进行数据采集时，由于采集的位置及数据展现方式的不同，很难进行自动化的通用采集，定制化的通用采集是必须的。

在对网页进行处理和抽取的过程中通常会将网页形成DOM树。DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把DOM认为是页面上数据和结构的一个树形表示。

HtmlUnit是一款常用的Java语言的页面分析工具，可以下载网页，解析网页形成DOM树，并且可以定位到网页上的任意节点的内容。Xpath即XML路径语言，它是一种用来确定XML文档中的位置的语言。Xpath基于XML的树状结构，提供在数据结构中寻找节点的能力。Xpath中可以配置选择的节点的路径，通过节点的属性进行筛选。配置Xpath，可以对网页中的数据进行任意的抽取。

Quartz是一个Java编写的开源作业调度框架，能够对数百个甚至上千个作业进行调度。对Quartz进行简单配置就能实现定时任务的开发。

基于此，现提供一种通用采集系统的构建方法。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、通用采集系统的构建方法。

一种通用采集系统的构建方法，包括以下四个步骤：入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置，各采集配置步骤之间为顺序进行，即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。

所述四个步骤中，前后的采集配置步骤之间通过操作同一个数据库中的表，实现串联关系，且当前一个采集步骤结束之前，后一个采集步骤不能结束。

所述入口地址配置方式包括以下三种：根据搜索词语配置入口地址集合、根据链接块位置配置入口地址集合、根据前置任务配置入口地址集合。

所述根据搜索词语配置入口地址集合是指配置包括地址前缀、地址后缀、搜索词集合、搜索词编码方式的参数，然后根据这些参数拼接形成入口地址；

根据链接块位置配置入口地址集合是指配置网页地址、链接块的Xpath路径，下载网页后根据Xpath抽取出入口地址；

根据前置任务配置入口地址集合是指配置前置任务的任务名称、子步骤名称，从前置任务的某个子步骤的输出结果中获取入口地址。

所述翻页地址采集配置方式包括以下两种：根据Xpath发现下一页，根据参数规则发现下一页。

所述根据Xpath发现下一页即为配置下一页的Xpath的路径，其具体过程为：根据入口网页内容和下一页的Xpath路径抽取出下一页的地址；

根据参数规则发现下一页的具体过程为：获取参数名称、参数变化量，根据入口地址，从中抽取出变化的参数名称及值，进行改变；当不存在参数名称时，则默认选择url中的最后一个数字进行改变。

所述翻页地址采集配置过程中，根据日期进行过滤和根据页面个数进行翻页过滤。

所述详情页地址采集配置是根据Xpath进行抽取，且在进行详情页采集的过程中，根据标题进行过滤和根据条数进行过滤。

所述字段抽取配置方式包括以下三种：根据标签进行匹配，根据正则表达式进行匹配和根据xpath进行匹配。

所述根据标签进行匹配是指配置所抽取内容的前标签、后标签，将前后标签中间的内容抽取出来；

根据正则表达式进行匹配是指配置正则表达式、组号，根据正则表达式匹配网页内容，将对应的组号中的内容抽取出来；

根据xpath进行匹配是指配置xpath路径、是否取出HTML，如果包含HTML，则将xpath中的所有内容抽取出来，否则仅仅取出节点的文字内容。

本发明的一种通用采集系统的构建方法，具有以下优点：

该发明的一种通用采集系统的构建方法，通用的网站配置采集系统，节约数据采集所需要的人力成本，同时降低数据采集的技术门槛；设计了多线程并发机制，任务之间通过数据库进行交互协作，能够进行简单的分布式采集；实现了对大多数的网站的配置采集和分布式采集，简化了网站采集的繁琐的开发工作；设计了多个支持模块，包括定时器、爬虫代理、网页DOM树生成、网页清洗等，使得整个采集体统能够灵活配置，达到通用的效果，实用性强，适用范围广泛，易于推广。

附图说明

附图1为本发明的采集步骤之间的协作示意图。

附图2为每个采集步骤的执行流程图。

附图3为通用采集系统功能架构设计图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明的提供一种通用采集系统的构建方法，互联网上的信息组织方式主要分为两种：导航式和搜索式、导航式的网页，通过导航栏不断进入下一级导航，然后进入最终的页面。当数据量较大时，会把同一类的数据进行列表展示。因此，综合两种方式，该采集系统把一个采集任务分成四个步骤：：入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置，各采集配置步骤之间为顺序进行，即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。

当然并不是所有的采集任务都完全具备这四个步骤，也有的网站的入口地址可能是多级导航后才获取。当缺少其中的一个步骤时，该步骤会复制前一个步骤的输出结果作为该任务的输出。当采集任务需要多于这四个步骤时，可以将该采集任务拆分成多个子采集任务，然后配置子采集任务之间的前后关系。

在进行翻页的过程中，经常需要对页面进行过滤。因此需要进行翻页过滤，常用的翻页过滤方式有：根据日期进行过滤和根据页面个数进行过滤。

所述详情页地址采集配置是根据Xpath进行抽取。在进行详情页采集的过程中，经常需要对页面进行过滤。因此需要进行详情页的过滤，常用的过滤方式有：根据标题进行过滤和根据条数进行过滤。

通用采集系统中的每个采集任务有多个采集步骤，各采集步骤之间有串联的关系，前一个采集步骤的输出作为后一个采集步骤的输入。前后的采集步骤之间通过操作同一个数据库中的表，实现串联关系。另外前一个采集步骤结束之前，后一个采集步骤不能结束，因为前一个采集步骤仍可能在生成数据，通过查询日志数据表中采集步骤的运行状态实现。当然最好使用类似Kafka的消息中间件能实现这种通信效果。每个采集步骤也是一个任务，采集步骤之间的协作示意图如图1所示。

附图1中描述了一个采集任务的子步骤之间的协作关系，每个子步骤在执行时也是一个任务，整体采集任务负责子任务的调度和管理。子任务之间通过数据库中的表进行通信。例如，列表地址采集任务在执行时，需要写入日志表，同时从日志表中查询翻页地址采集任务的状态。列表地址采集任务读取翻页地址采集任务的输出表，而翻页地址表中维护了每一条数据是否被列表地址采集任务处理的标记。

为了提高采集效率，每个采集步骤都是多线程的，每个子线程锁住并读取一批数据进行处理，每个采集步骤的执行流程图如附图2所示。

一个完整的采集系统还需要其他模块的支持，例如定时系统等。通用采集系统功能架构设计图如图3所示，由于该技术在现有技术中较为常见，故不再赘述。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种通用采集系统的构建方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种通用采集系统的构建方法，其特征在于，包括以下四个步骤：入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置，各采集配置步骤之间为顺序进行，即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。

2.根据权利要求1所述的一种通用采集系统的构建方法，其特征在于，所述四个步骤中，前后的采集配置步骤之间通过操作同一个数据库中的表，实现串联关系，且当前一个采集步骤结束之前，后一个采集步骤不能结束。

3.根据权利要求2所述的一种通用采集系统的构建方法，其特征在于，所述入口地址配置方式包括以下三种：根据搜索词语配置入口地址集合、根据链接块位置配置入口地址集合、根据前置任务配置入口地址集合。

4.根据权利要求3所述的一种通用采集系统的构建方法，其特征在于，所述根据搜索词语配置入口地址集合是指配置包括地址前缀、地址后缀、搜索词集合、搜索词编码方式的参数，然后根据这些参数拼接形成入口地址；

5.根据权利要求2所述的一种通用采集系统的构建方法，其特征在于，所述翻页地址采集配置方式包括以下两种：根据Xpath发现下一页，根据参数规则发现下一页。

6.根据权利要求5所述的一种通用采集系统的构建方法，其特征在于，所述根据Xpath发现下一页即为配置下一页的Xpath的路径，其具体过程为：根据入口网页内容和下一页的Xpath路径抽取出下一页的地址；

7.根据权利要求6所述的一种通用采集系统的构建方法，其特征在于，所述翻页地址采集配置过程中，根据日期进行过滤和根据页面个数进行翻页过滤。

8.根据权利要求2所述的一种通用采集系统的构建方法，其特征在于，所述详情页地址采集配置是根据Xpath进行抽取，且在进行详情页采集的过程中，根据标题进行过滤和根据条数进行过滤。

9.根据权利要求2所述的一种通用采集系统的构建方法，其特征在于，所述字段抽取配置方式包括以下三种：根据标签进行匹配，根据正则表达式进行匹配和根据xpath进行匹配。

10.根据权利要求9所述的一种通用采集系统的构建方法，其特征在于，所述根据标签进行匹配是指配置所抽取内容的前标签、后标签，将前后标签中间的内容抽取出来；