CN102254046A

CN102254046A - 一种网页数据采集方法、系统

Info

Publication number: CN102254046A
Application number: CN2011102373915A
Authority: CN
Inventors: 阮航
Original assignee: Shenzhen Temobi Science and Technology Co Ltd
Current assignee: World (Shanghai) Technology Development Co., Ltd.
Priority date: 2011-08-18
Filing date: 2011-08-18
Publication date: 2011-11-23

Abstract

本发明提供的一种网页数据采集系统包括：扩展接口装置、任务接收装置、加载装置；任务执行装置：扩展接口装置；本发明还提供了一种网页数据采集方法。本发明提供的网页数据采集方法、装置，通过扩展自定义网页数据采集接口、预置业务模型模板，以及预置一个或多个执行功能，能够快速有效的获取网页数据，与此同时由于可以将获取的网页数据直接应用于企业模型中，不需将获取的数据存入数据库或EXCLE，以及将获取的数据从数据库或EXCLE转出、并应用于企业模型等中间操作的情况，因此降低了用户操作的难度，降低了获取网页数据的门槛。

Description

一种网页数据采集方法、系统

技术领域

本发明涉及数据采集领域，尤其涉及一种网页数据采集方法、装置。

背景技术

随着网络信息技术的发展、网站、论坛、博客等网页信息越来越大，搜索引擎、内容分析、舆情分析等技术都是对这些信息进行某种分析处理的，他们都用到了网页数据采集这一技术。网络数据采集方法也称作网络爬虫，是一种对网页连接进行自动分析，并自动获取信息存储到本地的数据采集方法，本文全文中所述的网络爬虫即网络数据采集方法。

目前，现有的网页数据采集系统通常采用封闭逻辑的处理办法处理网页数据，其输入一般采用自定义方式，没有采用通用标准处理，用户需要大量理解其自定义方式的含义，学习周期较长；另外，当输出如中间文件(EXECL，XML等)时，即当输出为中间文件时，通常将获取的网页数据以特定方式保存；操作人员还需要掌握数据库或EXCLE等数据结构等内容；而且当用户需要从数据库或EXCLE将获取的数据应用到企业模型上时，操作人员也需要掌握数据库或EXCLE等数据结构等内容，从而使得这项技术难以和现有企业模型结合使用，给企业造成使用上的困难。

因此，传统的仅仅下载网页的网络爬虫已经越来越不适合发展的需要了，需要一种新型的采用标准定义、并且能够方便企业根据自身需要进行定制的网络爬虫。

发明内容

本发明实施例的目的在于提出一种网页数据采集方法、装置，旨在解决现有网络爬虫不能够与企业模型结合使用的技术问题。

本发明提供的一种网页数据采集系统包括：扩展接口装置、任务接收装置、加载装置；任务执行装置：

扩展接口装置：用于预置业务模型属性；

任务接收装置：与所述扩展接口装置相连，用于接收属于预置的业务模型属性的网页数据采集指令；

加载装置：用于根据所述的网页数据采集指令、预置的执行逻辑描述文件、预置的业务模型数据形成执行逻辑描述内容；

任务执行装置，用于根据爬虫上下文进行网页数据采集。

其中，所述的任务接收装置进一步用于根据所述指令构建爬虫上下文；

所述的加载装置包括：执行逻辑文件分析单元、存储单元、业务模型处理单元、业务模型适配单元；

所述的执行逻辑文件分析单元，用于在接收到网页数据采集指令后，根据所述网页采集指令中携带的属性，到存储单元中定位预置的执行逻辑描述文件，将所述执行逻辑描述文件加载到爬虫上下文中；

所述的存储单元，用于预置执行逻辑描述文件；

所述的业务模型处理单元，用于将预置的业务模型数据与执行逻辑描述文件进行解析合并，更新爬虫上下文；

所述的业务模型适配单元，用于预置业务模型数据。

其中，所述的任务执行装置可以包括：连接单元、分析单元、循环处理单元、提取单元、转换单元和第一操作单元；

连接单元，用于根据所述的爬虫上下文打开指定网页采集地址；

分析单元，用于分析网页采集地址包含的有效链接；

循环处理单元，用于循环打开有效连接，将有效连接的第一格式转换为第二格式；

提取单元，用于分析有效连接的第二格式并到对应网页提取需要的数据到临时文件中；

转换单元，用于读取所述的临时文件中的数据并将其转换成业务模型数据；

第一操作单元，用于调用所述的业务模型数据进行业务操作。

其中，所述的任务执行装置可以包括：连接单元、分析单元、更新单元、循环处理单元、分页链接处理单元、提取单元、转换单元、第二操作单元；

分析单元，用于分析网页采集地址包含的有效链接；

更新单元，用于判断有效链接是否已更新，如果已更新则设置相应的标志，没有更新的但已存在的则直接忽略；

分页链接处理单元，用于重复分析第二格式的有效连接是否含有分页链接地址，若有则提取分页链接属性的值作为采集下一页的依据，直到所有分页链接地址都已经提取；

提取单元，用于分析有效连接第二格式并到对应网页提取需要的数据到临时文件中；

第二操作单元，用于调用所述的业务模型数据进行业务操作，并根据更新单元的标志进行有效连接的更新。

本发明还提供了一种网页数据采集方法，所述的方法包括：

接收网页数据采集指令；

根据所述的网页数据采集指令、预置的执行逻辑描述文件、预置的业务模型数据形成执行逻辑描述内容；

根据所述执行逻辑描述内容进行网页数据采集。

其中，所述接收网页数据采集指令后进一步根据所述指令构建爬虫上下文；

所述的“根据所述的网页数据采集指令、预置的执行逻辑描述文件、预置的业务模型数据形成执行逻辑描述内容”具体为：

接收到网页数据采集指令后，根据所述网页采集指令中携带的属性，到预置的执行逻辑描述文件中定位执行逻辑描述文件，将所述执行逻辑描述文件加载到爬虫上下文中；

将预置的业务模型数据与执行逻辑描述文件进行解析合并，更新爬虫上下文。

其中，所述的“根据所述执行逻辑描述内容进行网页数据采集”具体为：

根据所述的爬虫上下文打开指定的采集地址；

分析采集地址包含的有效链接；

循环打开有效链接，将所有有效连接由第一格式转换成第二格式；

分析有效连接第二格式并到对应网页提取需要的数据到临时文件中；

读取所述的临时文件中的数据并将其转换成业务模型数据；

调用所述的业务模型数据进行业务操作。

根据所述的爬虫上下文打开指定网页采集地址；

分析网页采集地址包含的有效链接；

判断被采集链接是否已更新，如果已更新则设置相应的标志，没有更新的但已存在的则直接忽略；

循环打开有效连接，将有效连接由第一格式转换为第二格式；

重复分析第二格式链接是否含有分页链接地址，若有则提取分页链接属性的值作为采集下一页的依据，直到所有分页链接地址都已经提取；

读取所述的临时文件中的数据并将其转换成业务模型数据；

调用所述的业务模型数据进行业务操作。

其中，所述的第一格式为超级文本标记语言；所述的第二格式为可扩展标记语言。

其中，所述的“提取需要的数据到预置的临时文件中”具体为：根据指定的XPATH表达式分析提取需要的数据到临时文件中。

本发明提供的网页数据采集方法、装置，通过扩展自定义网页数据采集接口、预置业务模型模板，以及预置一个或多个执行功能，能够快速有效的获取网页数据，与此同时由于可以将获取的网页数据直接应用于企业模型中，不需将获取的数据存入数据库或EXCLE，以及将获取的数据从数据库或EXCLE转出、并应用于企业模型等中间操作的情况，因此降低了用户操作的难度，降低了获取网页数据的门槛；

进一步的，本发明提供的网页数据采集方法、装置，可以通过企业根据自身需要自定义执行功能，使得企业能够以更加灵活的方式获取网页数据；而不必受限于传统网页数据获取方法的封闭模式；

进一步的，本发明提供的网页数据采集方法、装置，可以支持多任务模式，提高了网页数据获取的速度；

进一步的，本发明提供的网页数据采集方法、装置，可以实时更新网页数据采集的逻辑，实现不间断服务；从而避免了现有技术中要实现新的逻辑时必须整体升级网页数据采集的方法、装置，导致间断服务的缺陷。

附图说明

图1是本发明实施例1的网页数据采集方法流程图；

图2是本发明实施例2的网页数据采集系统结构示意图；

图3是本发明实施例2的任务执行装置的结构示意图；

图4是本发明实施例2的任务执行装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明，为了便于说明，仅示出了与本发明实施例相关的部分。应当理解，此处所描写的具体实施例，仅仅用于解释本发明，并不用以限制本发明。

实施例一

本发明提供了一种网页数据采集方法，参见图1，该方法包括：

步骤101：接收网页数据采集指令，根据所述网页数据采集指令构建爬虫上下文；

网页数据采集指令中可以包括通用业务模型属性，也可以包括预先自定义的业务模型属性，(也就是扩展业务模型接口)，这些属性预置于系统中，其中自定义的属性可以用于实现扩展业务模型。

这里可以是接收多任务并发控制器或者计划任务控制器发送的网页数据采集指令；由于是多任务并发控制器发送网页数据采集指令，那么相应的在网页数据采集过程中就可以是多任务模式，例如可以是3个或5个网页数据采集任务同时执行，也可以设置执行网页数据采集任务的阈值，达到阈值时其他任务则处于等待状态，当正在执行的任务有一个完成时，处于等待的任务则结束等待状态开始进行网页数据采集。

并且在该步骤中具体执行时可以是接收包含有网页采集指令的爬虫上下文，并且该所述的网页采集指令包含有需要采集的网页地址。

步骤102：根据所述的网页数据采集指令、预置的执行逻辑描述文件、预置的业务模型数据形成执行逻辑描述内容；

该步骤中所述的加载执行逻辑描述内容可以具体为：

接收到网页数据采集指令后，根据所述网页采集指令中携带的属性定位执行逻辑描述文件，将所述执行逻辑描述文件加载到爬虫上下文中，再将业务模型数据解析合并到执行逻辑描述文件中，更新爬虫上下文。

上述步骤中所述的爬虫上下文即一种承载执行逻辑描述文件以及属性值等内容的变量。上述的执行逻辑描述文件即在系统中预置的在进行网页数据采集过程中的逻辑；上述的业务模型数据即承载了用户实际需求数据的业务模型。

例如上述的执行逻辑描述文件可以是用户可以根据自身需要，自行编写一部分功能代码；

在上述代码中可以通过${}这样的描述符来定义一种业务模型其中一个属性，如${id}表示取得业务模型的id属性值，上面代码即是执行逻辑描述文件的一部分；当网页数据采集启动后会取得预置的业务模型数据并读取业务模型相关的属性，即变量dir的值经过解析最后输出为/etc/20110703/01，此处所述的“/etc/20110703/01”就是最后形成的执行逻辑描述内容的一部分。

用户需要将编写好的XML格式执行逻辑描述文件部署到网页数据采集系统的特定位置。

步骤103：根据所述执行逻辑描述内容进行网页数据采集。

该步骤的实现需要在系统中自定义一个或多个执行单元；也就是说可以对应于执行逻辑描述文件的内容，将每个执行逻辑分成一个执行单元，也可以将多个执行逻辑合成一个执行单元来进行；用于处理中间数据到自有业务模型数据的转换(调用远程接口做业务操作，如入库等)；

该步骤中所述的网页数据采集过程可以是：

步骤1031：根据爬虫上下文打开指定的采集地址；

步骤1032：根据指定的XPATH(XPath是一门在XML文档中查找信息的语言。XPath用于在XML文档中通过元素和属性进行导航。)分析采集地址包含的有效链接；

步骤1033：循环打开有效链接，将所有有效连接由第一格式(本申请中第一格式链接即html(Hypertext Markup Language，超级文本标记语言)转换成第二格式(本申请中所述第二格式链接即标准XML(Extensible MarkupLanguage即可扩展标记语言)；

步骤1034：通过Xquery(XQuery＝XML Query，是W3C所制定的一套标准，用来从类XML文档中提取信息，类XML文档可以理解成一切符合XML数据模型和接口的实体)表达式分析，到第二格式对应的有效连接地址对应的网页提取需要的数据到临时文件中；

步骤1035：读取临时文件夹中的数据转换成业务模型数据；

步骤1036：调用所述的业务模型数据进行业务操作，如批量入库等。

以上步骤1031到1036仅是一个标准的网页数据采集流程；用户可以根据需要自定义开发需要的功能；也可以将上述步骤1031到步骤1036的每个步骤单独设置一个执行单元，也可以将上述步骤1031到步骤1036合成一个总的执行单元，设置方法并不构成对本发明的限制。

又例如，步骤103中所述的网页数据采集过程可以是：

步骤2031：根据爬虫上下文打开指定的采集地址；

步骤2032：根据指定的XPATH(XPath是一门在XML文档中查找信息的语言。XPath用于在XML文档中通过元素和属性进行导航。)分析采集地址包含的有效链接；

步骤2033：判断被采集链接是否已更新，如果已更新设置标志位为“需要更新的内容”，没有更新的但已存在的则直接忽略不采集。

步骤2034：循环打开有效链接，将有效链接的第一格式(第一格式即htmlHypertext Markup Language，超级文本标记语言)转换成第二格式(第二格式即标准XML Extensible Markup Language即可扩展标记语言)格式；

步骤2035：通过预置XPATH表达式分析转换后的XML是否含有分页链接地址，如<a href＝”xxx”>下一页</a>，此时可提取分页链接属性href(分页链接的其中一种属性)的值作为采集下一页的依据；重复执行该步骤，直到所有分页链接地址都已经提取。

步骤2036：通过Xquery表达式分析提取需要的数据到临时文件中；

步骤2037：读取临时文件数据转换成业务模型数据；

步骤2038：调用所述的业务模型数据进行业务操作，如批量入库等，在入库前对每个抓取的内容进行“是否更新”判断(该状态由2034步骤设置)，如果需要更新，则在入库时直接更新现有数据源(如数据库，文件系统等)的数据，否则新增一条内容。

以上步骤2031到2038仅是一个标准的网页数据采集流程；用户可以根据需要自定义开发需要的功能；也可以将上述步骤2031到2038的每个步骤单独设置一个执行单元，也可以将上述步步骤2031到2038合成一个总的执行单元，设置方法并不构成对本发明的限制。

通过本发明提供的网页数据采集方法、装置，通过扩展业务模型接口、预置执行逻辑描述文件，以及预置一个或多个执行功能，能够快速有效的获取网页数据，与此同时由于可以将获取的网页数据直接应用于企业模型中，不需将获取的数据存入数据库或EXCLE，以及将获取的数据从数据库或EXCLE转出、并应用于企业模型等中间操作的情况，因此降低了用户操作的难度，降低了获取网页数据的门槛；

进一步的，本发明提供的网页数据采集方法、装置，由于只需将执行逻辑描述文件进行更新就可以完成整个方法及系统的更新，因此可以实时更新网页数据采集的逻辑，实现不间断服务；从而避免了现有技术中要实现新的逻辑时必须整体升级网页数据采集的方法、装置，导致间断服务的缺陷。

实施例二

对应于实施例一，本发明提供了一种网页数据采集的系统，参见图2，该系统包括：扩展接口装置、任务接收装置、加载装置；任务执行装置

扩展接口装置：用于预置业务模型属性；

该装置可以接收任务并发控制器和/或计划任务控制器的指令，然后爬虫任务执行装置根据所述指令构建爬虫上下文；

由多任务并发控制器和/或划任务控制器发送网页数据采集指令，该指令中可以包括预先自定义的业务模型属性，(也就是扩展业务模型接口)，这些属性预置于系统中，其中自定义的属性可以用于实现扩展业务模型。并由爬虫任务装置构建网页数据采集上下文。

加载装置：用于根据所述的网页数据采集指令、预置的执行逻辑描述文件、业务模型数据形成执行逻辑描述内容；

其中所述的所述的任务接收装置进一步用于根据所述指令构建爬虫上下文，那么所述加载装置可以包括：执行逻辑文件分析单元、存储单元、业务模型处理单元、业务模型适配单元；

所述的执行逻辑文件分析单元，用于接收到网页数据采集指令后，根据所述网页采集指令中携带的属性到存储单元中定位执行逻辑描述文件，将所述执行逻辑描述文件加载到爬虫上下文中；

所述的存储单元，用于预置执行逻辑描述文件；

所述的业务模型适配单元，用于预置业务模型数据；

任务执行装置，用于根据爬虫上下文进行网页数据采集。

其中任务执行装置的一种结构可以为：

参加图3，所述的任务执行装置可以包括：连接单元、分析单元、循环处理单元、提取单元、转换单元、第一操作单元；

分析单元，用于根据指定XPATH分析网页采集地址包含的有效链接；

循环处理单元，用于循环打开有效连接，将有效连接的html转换为标准XML格式；

提取单元，用于通过Xquery分析提取需要的数据到临时文件中；也就是用于分析有效连接的第二格式并到对应网页提取需要的数据到临时文件中；

转换单元，用于读取临时文件数据转换成业务模型数据；

第一操作单元，用于调用所述的业务模型数据进行业务操作，如批量入库等。

在上述的任务执行装置，还可以包括其他自定义的单元，用来完成新的功能。只要能够完成网页数据采集，所述的任务执行装置并不仅仅限于上述的几种功能单元。

其中任务执行装置的一种结构可以为：

参见图4，所述的任务执行装置可以包括：连接单元、分析单元、更新单元、循环处理单元、分页链接处理单元、提取单元、转换单元、第二操作单元；

更新单元，用于判断有效链接是否已更新，如果已更新设置标志位为“需要更新的内容”，没有更新的但已存在的则直接忽略；

分页链接处理单元，用于重复分析预置的XPATH表达式分析转换后的XML是否含有分页链接地址，若有则提取分页链接属性href的值作为采集下一页的依据；直到所有分页链接地址都已经提取；

提取单元，用于通过Xquery分析提取需要的数据到临时文件中；也就是分析有效连接第二格式并到对应网页提取需要的数据到临时文件中；

转换单元，用于读取临时文件数据转换成业务模型数据；

第二操作单元，用于调用所述的业务模型数据进行业务操作，并根据更新单元的标志进行有效连接的更新。如批量入库等，在入库前对每个抓取的内容进行“是否更新”判断(该状态由更新单元设置)，如果需要更新，则在入库时直接更新现有数据源(如数据库，文件系统等)的数据，否则新增一条内容。

通过本发明提供的网页数据采集方法、系统，通过扩展业务模型接口、预置执行逻辑描述文件，以及预置一个或多个执行功能，能够快速有效的获取网页数据，与此同时由于可以将获取的网页数据直接应用于企业模型中，不需将获取的数据存入数据库或EXCLE，以及将获取的数据从数据库或EXCLE转出、并应用于企业模型等中间操作的情况，因此降低了用户操作的难度，降低了获取网页数据的门槛；

本领域的普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序指令相关硬件来完成的，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质可以为ROM、RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页数据采集系统，其特征在于，所述的系统包括：扩展接口装置、任务接收装置、加载装置；任务执行装置：

扩展接口装置：用于预置业务模型属性；

任务执行装置，用于根据爬虫上下文进行网页数据采集。

2.根据权利要求1所述的网页数据采集系统，其特征在于，所述的任务接收装置进一步用于根据所述指令构建爬虫上下文；

所述的存储单元，用于预置执行逻辑描述文件；

所述的业务模型适配单元，用于预置业务模型数据。

3.根据权利要求2所述的网页数据采集系统，其特征在于，所述的任务执行装置可以包括：连接单元、分析单元、循环处理单元、提取单元、转换单元和第一操作单元；

分析单元，用于分析网页采集地址包含的有效链接；

4.根据权利要求2所述的网页数据采集系统，其特征在于，所述的任务执行装置可以包括：连接单元、分析单元、更新单元、循环处理单元、分页链接处理单元、提取单元、转换单元、第二操作单元；

分析单元，用于分析网页采集地址包含的有效链接；

5.一种网页数据采集方法，其特征在于，所述的方法包括：

接收网页数据采集指令；

根据所述执行逻辑描述内容进行网页数据采集。

6.根据权利要求5所述的网页数据采集方法，其特征在于，所述接收网页数据采集指令后进一步根据所述指令构建爬虫上下文；

7.根据权利要求6所述的网页数据采集方法，其特征在于，

所述的“根据所述执行逻辑描述内容进行网页数据采集”具体为：

根据所述的爬虫上下文打开指定的采集地址；

分析采集地址包含的有效链接；

读取所述的临时文件中的数据并将其转换成业务模型数据；

调用所述的业务模型数据进行业务操作。

8.根据权利要求6所述的网页数据采集方法，其特征在于，所述的“根据所述执行逻辑描述内容进行网页数据采集”具体为：

根据所述的爬虫上下文打开指定网页采集地址；

分析网页采集地址包含的有效链接；

读取所述的临时文件中的数据并将其转换成业务模型数据；

调用所述的业务模型数据进行业务操作。

9.根据权利要求7或8所述的网页数据采集方法，其特征在于，所述的第一格式为超级文本标记语言；所述的第二格式为可扩展标记语言。

10.根据权利要求7或8所述的网页数据采集方法，其特征在于，所述的“提取需要的数据到预置的临时文件中”具体为：根据指定的XPATH表达式分析提取需要的数据到临时文件中。