CN110955414A

CN110955414A - 自定义数据采集系统及方法

Info

Publication number: CN110955414A
Application number: CN201911197455.6A
Authority: CN
Inventors: 田丹; 田俊豪; 银虹宇; 李奇宇
Original assignee: Chengdu Precision Cloud Education Technology Co Ltd; University of Electronic Science and Technology of China
Current assignee: Chengdu Precision Cloud Education Technology Co Ltd; University of Electronic Science and Technology of China
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-03

Abstract

本申请涉及一种自定义数据采集系统及方法，所述系统包括：任务生成模块和数据采集模块；任务生成模块用于为用户提供可视化交互界面，以便用户通过可视化交互界面自定义爬虫任务脚本；数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集，以及进行数据存储。如此设置，用户可以通过可视化交互界面自定义爬虫任务脚本，轻松地实现对爬虫任务的创建，并通过selenium工具实现对数据的采集。并且selenium的工作原理不同于传统的测试工具，因此可以绕过传统爬虫遇到的反爬虫机制方面的问题，从而具有很高的通用性。

Description

自定义数据采集系统及方法

技术领域

本申请涉及数据挖掘技术领域，尤其涉及一种自定义数据采集系统及方法。

背景技术

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。例如，通过网络爬虫(简称爬虫，又称为网页蜘蛛、网络机器人等)自动地抓取万维网中的信息，并基于爬取的信息进行分析和梳理从而获取其中隐藏信息的过程。

目前爬虫领域已经有很多有关数据采集的工具及代码，比如scrapy，pyspider等。这些工具或代码的共同点都是从一个url(uniform resource locator；统一资源定位系统)出发，通过向web服务器请求下载url相应的网页，从中提取数据，并将爬取到的新url存入待爬取队列，等待下次爬取。这种策略近年来一方面是受到反爬虫策略的限制，设计出的爬虫程序无法满足所有形形色色的网站；另一方面，由于所使用框架的约束性，难以开发出与用户进行交互的通用采集软件，普通用户不方便理解和使用。

发明内容

本申请提供一种自定义数据采集系统及方法，以解决目前的网络爬虫通用性不强，以及普通用户难以理解和使用的问题。

本申请的上述目的是通过以下技术方案实现的：

第一方面，本申请实施例提供一种自定义数据采集系统，包括：任务生成模块和数据采集模块；

所述任务生成模块，用于为用户提供可视化交互界面，以便用户通过所述可视化交互界面自定义爬虫任务脚本；

所述数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集，以及进行数据存储。

可选的，所述任务生成模块为基于QT框架实现的嵌入式浏览器，所述嵌入式浏览器用于记录用户网页操作、获取元素定位信息以及智能识别网页相似元素。

可选的，所述数据采集模块包括任务解析子模块和数据持久化子模块，所述任务解析子模块用于对所述爬虫任务脚本进行解析，以及基于解析后的爬虫任务脚本进行数据采集；所述数据持久化子模块用于将采集的数据存入数据库。

可选的，所述任务生成模块包括预设的数据结构；所述数据结构用于存储预设的基本动作，以及存储由所述基本动作组成的爬虫任务；其中，所述基本动作为预先定义的、用户能够对所述嵌入式浏览器进行的操作动作。

可选的，所述基本动作包括：1.打开网页，2.点击元素，3.提取数据，4.输入文本，5.识别验证码，6.切换下拉框，7.鼠标移到元素上，8.循环，9.判断条件，10.条件分支，11.结束循环，12.结束流程。

可选的，所述任务解析子模块包括初始化单元和动作单元；所述初始化单元用于基于Selenium WebDriver工具创建浏览器对象和数据管道对象；所述动作单元用于根据所述12种基本动作，对Selenium WebDriver工具提供的相应的应用程序接口API进行封装。

可选的，所述任务解析子模块对外用于提供接收描述所述数据结构中的所述基本动作的参数，对内用于结合所述数据结构，对用户创建的动作进行解析，以及通过所述浏览器对象调用Selenium WebDriver的应用程序接口API，实现对浏览器及网页的操作。

可选的，所述任务解析子模块对内还用于若在解析中发现有嵌套的子动作，将该子动作的动作描述以参数的形式传给对应的操作方法；所述嵌套的子动作为在可嵌套动作下嵌套的任一种所述基本动作；其中所述12种基本动作中的循环、判断条件和条件分支为可嵌套动作。

特殊的，所述12种基本动作中的判断条件下嵌套的子动作只能为条件分支。

第二方面，本申请实施例还提供一种基于上述系统的自定义数据采集方法，包括：

获取用户通过可视化交互界面自定义的爬虫任务脚本；

对所述爬虫任务脚本进行解析，基于解析后的爬虫任务脚本进行数据采集；

将采集的数据进行过滤和处理，存储于数据库中。

本申请的实施例提供的技术方案可以包括以下有益效果：

由于目前已有的爬虫无法为普通用户提供交互式操作，一些非编程人员对信息获取时有一定难度，而本申请中通过为用户提供可视化交互界面，可以支持用户自定义爬虫任务脚本，从而用户可以轻松地实现对爬虫任务的创建，并通过selenium工具实现对数据的采集。由于selenium的工作原理不同于传统的测试工具，其是通过驱动浏览器加载页面实现网页的请求，而由于浏览器会发送若干个异步请求来加载动态脚本从而将Dom树填充完整，因此使用Selenium进行数据采集时，便可以绕过传统爬虫遇到的一些例如Ajax技术和反爬虫机制方面的问题，从而具有很高的通用性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种自定义数据采集系统的架构示意图；

图2为本申请实施例提供的一种自定义数据采集系统中的任务解析子模块内部的执行流程图；

图3为本申请实施例提供的一种自定义数据采集方法的流程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

由于目前的网络爬虫通用性不强，且用户难以理解和使用。本发明结合QT和selenium实现了一种爬虫，从而使用户可以通过操作浏览器实现对爬虫任务的自定义和编辑操作。

以下结合实施例对本发明做进一步说明。

实施例

请参阅图1，图1为本申请实施例提供的一种自定义数据采集系统的架构示意图。如图1所示，该系统整体包括：任务生成模块和数据采集模块；其中，

任务生成模块用于为用户提供可视化交互界面，以便用户通过可视化交互界面自定义爬虫任务脚本；

数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于爬虫任务脚本进行数据采集，以及进行数据存储。

数据采集模块具体包括任务解析子模块和数据持久化子模块，由任务解析子模块实现对爬虫任务脚本的解析，以及基于解析后的爬虫任务脚本进行数据采集；由数据持久化子模块将采集的数据存入数据库。其中，数据库可以是基于分布式文件存储的mongodb数据库。

在具体实现时，任务生成模块可以用QT框架实现。QT框架是由Qt Company开发的跨平台C++图形用户界面应用程序开发框架，本实施例可以通过QT框架实现一个嵌入式浏览器，来作为面向用户的可视化交互界面。

嵌入式浏览器就是运行在各种嵌入式设备中的浏览器软件，对本申请来说通常为用户计算机中的浏览器软件。该浏览器实现以下功能：

1、根据鼠标所在网页的位置，改变该位置的颜色，从而方便用户精准的选出网页中的内容(元素)，即快速获取元素定位信息。

2、用户点击网页元素时，首先弹出选择框，等用户选出对该网页元素所要进行的操作动作后，再执行网页的预设操作，即记录用户网页操作。

3、根据用户鼠标当前位置指示的网页元素，以相同颜色显示其他位置的同类元素，即智能识别网页相似元素。

进一步的，为了方便记录用户的操作，也便于用户实际进行操作，本实施例预先设置如下12种基本动作：1.打开网页open，2.点击元素click，3.提取数据extract_data，4.输入文本input_text，5.识别验证码veryfication_code，6.切换下拉框loop_option，7.鼠标移到元素上mouse_over，8.循环loop，9.判断条件condition，10.条件分支branch，11.结束循环end_loop，12.结束流程end_process。用户通过以上12种基本动作及其组合，基本能满足大多数的网页操作，从而生成爬虫任务。当然，应当理解的是，除上述12种基本动作之外，还可以根据实际需要增加其他基本动作，对此不进行限制。

在具体实施时，可以构建数据结构来存储上述预设的基本动作以及根据上述基本动作组合生成的爬虫任务。数据结构是一种编程术语，指相互之间存在一种或多种特定关系的数据元素的集合。

一些实施例中，构建的数据结构可以包括：用于存储基本动作的数据结构Opnode和用于存储爬虫任务的数据结构Task。

数据结构Opnode如下所示：

数据结构Opnode包括动作类型(op_type)、动作设置(op_setting)、动作参数(op_param)和子动作链表(sub_opList)。其中，动作类型用于唯一标示一个子动作，用序号表示；动作设置包含了对动作的一些配置信息，比如执行该动作前等待的时间等；动作参数包含了该动作所需的一些阐述，比如打开网页动作需要网页的url，循环动作需要循环的参数列表等，子动作链表包含了在该动作下所要执行的子动作，用于动作的嵌套。子动作指的是在可嵌套动作下嵌套的任一种基本动作；其中，上述12种基本动作中的序号为8、9、10的动作(即循环loop、判断条件condition和条件分支branch)为可嵌套动作。特殊地，判断条件condition(序号9)的子动作只能为条件分支branch(序号10)动作。

数据结构Task如下所示：

数据结构Task包括任务名称(title)、任务描述(descript)、最后修改时间(timestamp)、任务配置参数(config)和动作流列表(opList)。

其中任务配置参数包含对该任务的一些配置信息，比如是否需要对该任务进行拆分，是否进行智能防采集策略等。动作流列表是由动作数据结构顺序构成，用于记录用户在定义该爬虫任务时依次对网页进行的操作(基本动作)。

以上是对任务生成模块的说明，接下来将在上述说明的基础上，对数据采集模块进行说明。

其中的任务解析子模块在具体编程实现时，可以设置两个类(Class)，即动作类和任务解析类。动作类进一步包括初始化单元和动作单元(此处的“单元”在编程领域中被称为“方法(methods)”；初始化单元用于基于Selenium WebDriver工具创建浏览器对象driver和数据管道对象；动作单元用于根据上述12种基本动作，对Selenium WebDriver工具提供的相应的应用程序接口API进行封装。

需要说明的是，在计算机科学中，封装，即隐藏对象的属性和实现细节，仅对外公开接口，控制在程序中属性的读和修改的访问级别，将抽象得到的数据和行为(或功能)相结合，形成一个有机的整体，也就是将数据与操作数据的源代码进行有机的结合，形成“类”。类(Class)是面向对象程序设计(OOP，Object-Oriented Programming)实现信息封装的基础，其是一种用户定义的引用数据类型。对象(object)是类的一个实例。而方法(methods)是指类中的某个动态的行为。

此外，WebDriver是Selenium工具的扩展工具，其相对于Selenium的最大区别在于可以提供API(Application Programming Interface，应用程序接口)，API是一些预先定义的函数，或指软件系统不同组成部分衔接的约定。其目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问原码，或理解内部工作机制的细节。

本实施例中，初始化单元(初始化方法)主要是负责基于Selenium WebDriver工具创建浏览器对象driver和数据管道对象；动作单元(动作方法)用于根据上述12种基本动作，对Selenium WebDriver工具提供的相应的API进行封装。如此，通过浏览器对象driver可以调用API实现对网页的操作和对爬虫任务的解析，通过数据管道对象可以将采集的数据传输至数据持久化子模块进行存储。其中，数据管道(在编程术语中)是指实现系统之间的数据迁移的处理过程，在具体实施时，也可以单独设置一个数据管道子模块来执行该功能。

需要注意的是，本申请中所涉及的对爬虫任务的解析过程为现有技术，本申请并未对其进行改进，因此其过程不再详述。

任务解析子模块的具体执行流程如图2所示，即：对外提供接收描述预设的数据结构中的基本动作的参数，对内结合数据结构，对用户创建的动作进行解析，以及通过所述浏览器对象调用Selenium WebDriver的应用程序接口API，实现对浏览器及网页的操作。并且，若在解析中发现有嵌套的子动作，将该子动作的动作描述以参数的形式传给对应的操作方法。

数据持久化子模块是将采集到的数据进行存储，可以选取mongodb实现，在存储之前可以对数据进行过滤和处理，本申请未对该过程进行改进，因此对此不再详述。

本申请的上述实施例提供的技术方案可以包括以下有益效果：通过为用户提供可视化交互界面，可以支持用户自定义爬虫任务脚本，从而用户可以轻松地实现对爬虫任务的创建，并通过selenium工具实现对数据的采集。由于selenium的工作原理不同于传统的测试工具，其是通过驱动浏览器加载页面实现网页的请求，而由于浏览器会发送若干个异步请求来加载动态脚本从而将Dom树填充完整，因此使用Selenium进行数据采集时，便可以绕过传统爬虫遇到的一些例如Ajax技术和反爬虫机制方面的问题，从而具有很高的通用性。

虽然采用的Selenium工具使用浏览器进行采集数据时，存在一些缺点，即采集数据期间需要等待页面全部渲染完成，因此速度上相对于传统的数据采集技术较慢。但实际上，考虑到如果实际采集过程中速度过快，一般会遭到web服务器的IP禁封等一些保护机制的屏蔽，因此传统的数据采集器也会适当的对爬虫进行速度的限制，因此通过Selenium进行数据采集时，速度相对合理。同时又考虑到，本发明实现的数据采集方法，使用户不需掌握任何编程知识，便能根据自己的需求对网页数据进行提取，具有很高的实用性。因此，通过Selenium进行数据采集时，降低的速度完全在可接受范围内。

基于以上同样的发明构思，本申请实施例还提供一种自定义数据采集方法。请参阅图3，图3为本申请实施例提供的一种自定义数据采集方法的流程示意图。如图3所示，该方法包括如下步骤：

S1、获取用户通过可视化交互界面自定义的爬虫任务脚本；

S2、对所述爬虫任务脚本进行解析，基于解析后的爬虫任务脚本进行数据采集；

S3、将采集的数据进行过滤和处理，存储于数据库中。

对于上述方法的具体实现过程，请参阅上述实施例中的自定义数据采集系统部分的相同或相应内容，在此不再详述。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种自定义数据采集系统，其特征在于，包括：任务生成模块和数据采集模块；

2.根据权利要求1所述的系统，其特征在于，所述任务生成模块为基于QT框架实现的嵌入式浏览器，所述嵌入式浏览器用于记录用户网页操作、获取元素定位信息以及智能识别网页相似元素。

3.根据权利要求2所述的系统，其特征在于，所述数据采集模块包括任务解析子模块和数据持久化子模块，所述任务解析子模块用于对所述爬虫任务脚本进行解析，以及基于解析后的爬虫任务脚本进行数据采集；所述数据持久化子模块用于将采集的数据存入数据库。

4.根据权利要求3所述的系统，其特征在于，所述任务生成模块包括预设的数据结构；所述数据结构用于存储预设的基本动作，以及存储由所述基本动作组成的爬虫任务；其中，所述基本动作为预先定义的、用户能够对所述嵌入式浏览器进行的操作动作。

5.根据权利要求4所述的系统，其特征在于，所述基本动作包括：1.打开网页，2.点击元素，3.提取数据，4.输入文本，5.识别验证码，6.切换下拉框，7.鼠标移到元素上，8.循环，9.判断条件，10.条件分支，11.结束循环，12.结束流程。

6.根据权利要求5所述的系统，其特征在于，所述任务解析子模块包括初始化单元和动作单元；所述初始化单元用于基于Selenium WebDriver工具创建浏览器对象和数据管道对象；所述动作单元用于根据所述12种基本动作，对Selenium WebDriver工具提供的相应的应用程序接口API进行封装。

7.根据权利要求6所述的系统，其特征在于，所述任务解析子模块对外用于提供接收描述所述数据结构中的所述基本动作的参数，对内用于结合所述数据结构，对用户创建的动作进行解析，以及通过所述浏览器对象调用Selenium WebDriver的应用程序接口API，实现对浏览器及网页的操作。

8.根据权利要求7所述的系统，其特征在于，所述任务解析子模块对内还用于若在解析中发现有嵌套的子动作，将该子动作的动作描述以参数的形式传给对应的操作方法；所述嵌套的子动作为在可嵌套动作下嵌套的任一种所述基本动作；其中所述12种基本动作中的循环、判断条件和条件分支为可嵌套动作。

9.根据权利要求8所述的系统，其特征在于，所述12种基本动作中的判断条件下嵌套的子动作只能为条件分支。

10.一种基于权利要求1-9任一项所述系统的自定义数据采集方法，其特征在于，包括：

获取用户通过可视化交互界面自定义的爬虫任务脚本；

将采集的数据进行过滤和处理，存储于数据库中。