CN111859076A

CN111859076A - 数据爬取方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN111859076A
Application number: CN202010757615.4A
Authority: CN
Inventors: 王彦葛
Original assignee: Ping An Health Insurance Company of China Ltd
Current assignee: Ping An Health Insurance Company of China Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-10-30
Anticipated expiration: 2040-07-31
Also published as: CN111859076B

Abstract

本发明公开了一种数据爬取方法、装置、计算机设备及计算机可读存储介质，涉及大数据处理，确定目标网站以及待爬取数据特征，获取目标解密算法，基于预设爬虫工具，执行目标解密算法，提取目标数据，生成分析报告并返回，提供一个用户可以直接与预设爬虫工具交互的平台，简化了数据爬取过程，降低了沟通成本，提升了爬取效率。所述方法包括：确定用户选取的目标网站以及待爬取数据特征；获取目标网站对应的目标解密算法；基于预设爬虫工具，执行目标解密算法，对目标网站进行访问；在目标网站中提取与待爬取数据特征匹配的目标数据；根据目标数据生成分析报告，将分析报告返回。本发明还涉及区块链技术，将所述分析报告存储于区块链中。

Description

数据爬取方法、装置、计算机设备及计算机可读存储介质

技术领域

本发明涉及大数据处理，特别是涉及一种数据爬取方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着互联网技术的飞速发展，带来了网络信息量的指数性增长，在网络信息资源充足的条件下，为了快速、针对性获取相关的网络信息，搜索引擎应运而生。搜索引擎是运用特定的计算机程序按照一定的策略自动从互联网上搜集信息，对信息进行组织和处理后提供给用户参考的服务。目前的搜索引擎大多是依赖爬虫工具对相关网站信息进行爬取，由爬虫工具自动浏览网络、分析网页内容，从而获取到用户想要的信息和数据。

相关技术中，很多企业运用市面上的开源框架或自行编写爬虫程序作为爬虫工具，当用户有爬虫需求时，向开发人员提供所需信息以及数据的特征，开发人员按照特征对爬虫工具进行一系列的修改以及设置，之后，爬虫工具便可以按照设置的参数进行信息和数据的爬取。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

爬虫工具与用户之间无交互，需要用户与开发人员沟通自己的需求，每一次不同的爬取需求都需要对爬虫工具进行一系列的设置和修改，导致整个数据的爬取过程较为繁琐，沟通成本较高，降低了数据爬取的效率。

发明内容

有鉴于此，本发明提供了一种数据爬取方法、装置、计算机设备及计算机可读存储介质，主要目的在于解决目前整个数据的爬取过程较为繁琐，沟通成本较高，降低了数据爬取的效率的问题。

依据本发明第一方面，提供了一种数据爬取方法，该方法包括：

确定用户选取的目标网站以及待爬取数据特征；

获取所述目标网站对应的目标解密算法，所述目标解密算法用于建立与所述目标网站之间的数据连接；

基于预设爬虫工具，执行所述目标解密算法，对所述目标网站进行访问；

在所述目标网站中提取与所述待爬取数据特征匹配的目标数据；

根据所述目标数据生成分析报告，将所述分析报告返回。

在另一个实施例中，所述确定用户选取的目标网站以及待爬取数据特征之前，所述方法还包括：

当接收到所述用户的数据爬取请求时，获取所述用户的用户标识；

查询所述用户标识绑定的用户权限；

若所述用户权限指示允许所述用户进行数据爬取，则展示参数选取页面，并当检测到所述参数选取页面被确认时，继续在所述参数选取页面上确定所述目标网站以及所述待爬取数据特征；

若所述用户权限指示禁止所述用户进行数据爬取，则展示失败响应，并结束当前流程。

接收上传的所述预设爬虫工具的工具安装包，根据所述工具安装包，对所述预设爬虫工具进行安装；

接收上传的至少一个可爬取网站对应的至少一个解密机制描述；

对于所述至少一个解密机制描述中的每个解密机制描述，对所述解密机制描述进行封装，得到解密算法；

确定所述解密机制描述对应的指定可爬取网站，采用所述指定可爬取网站的网站标识对所述解密算法进行标记；

分别对所述至少一个解密机制描述进行封装以及标记，得到至少一个解密算法。

在另一个实施例中，所述基于预设爬虫工具，执行所述目标解密算法，对所述目标网站进行访问，包括：

对所述目标解密算法进行解封操作，得到目标解密机制描述；

按照所述目标解密机制描述的执行指示，运行所述预设爬虫工具，建立与所述目标网站之间的数据连接；

基于所述数据连接，访问所述目标网站。

在另一个实施例中，所述在所述目标网站中提取与所述待爬取数据特征匹配的目标数据，包括：

读取所述目标网站提供的多个网站数据的数据标签，在所述多个网站数据中提取数据标签与所述待爬取数据特征一致的网站数据作为候选数据；

获取筛选方式，按照所述筛选方式，在所述候选数据中提取预设数目的指定候选数据作为所述目标数据。

在另一个实施例中，所述根据所述目标数据生成分析报告，包括：

获取报告模板，所述报告模板用于指示所述目标数据的分析方式；

若所述分析方式指示分析变化趋势，则获取所述目标数据包括的每项子数据的时间属性，按照所述时间属性，对所述目标数据包括的每项子数据进行排序整理，生成所述分析报告；

若所述分析方式指示分析关联关系，则确定所述目标数据包括的每项子数据的关联内容，按照所述关联内容，建立所述目标数据包括的每项子数据之间的关联关系，生成所述分析报告。

在另一个实施例中，所述将所述分析报告返回，包括：

获取所述用户设置的用户信息，确定所述用户信息指示的目标接收方，生成携带所述分析报告的报告附件，将所述报告附件返回至所述目标接收方，所述用户信息至少包括邮箱地址、运营商地址、应用账号中的一种或多种；或，

将所述分析报告存储至区块链，按照所述分析报告在所述区块链中的存储位置，生成存储路径，将所述存储路径返回至所述目标接收方。

依据本发明第二个方面，提供了一种数据爬取装置，该装置包括：

确定模块，用于确定用户选取的目标网站以及待爬取数据特征；

获取模块，用于获取所述目标网站对应的目标解密算法，所述目标解密算法用于建立与所述目标网站之间的数据连接；

访问模块，用于基于预设爬虫工具，执行所述目标解密算法，对所述目标网站进行访问；

提取模块，用于在所述目标网站中提取与所述待爬取数据特征匹配的目标数据；

生成模块，用于根据所述目标数据生成分析报告，将所述分析报告返回。

在另一个实施例中，所述装置还包括：

第一接收模块，用于当接收到所述用户的数据爬取请求时，获取所述用户的用户标识；

查询模块，用于查询所述用户标识绑定的用户权限；

所述确定模块，还用于若所述用户权限指示允许所述用户进行数据爬取，则展示参数选取页面，并当检测到所述参数选取页面被确认时，继续在所述参数选取页面上确定所述目标网站以及所述待爬取数据特征；

展示模块，用于若所述用户权限指示禁止所述用户进行数据爬取，则展示失败响应，并结束当前流程。

在另一个实施例中，所述装置还包括：

安装模块，用于接收上传的所述预设爬虫工具的工具安装包，根据所述工具安装包，对所述预设爬虫工具进行安装；

第二接收模块，用于接收上传的至少一个可爬取网站对应的至少一个解密机制描述；

封装模块，用于对于所述至少一个解密机制描述中的每个解密机制描述，对所述解密机制描述进行封装，得到解密算法；

标记模块，用于确定所述解密机制描述对应的指定可爬取网站，采用所述指定可爬取网站的网站标识对所述解密算法进行标记；

所述封装模块，还用于分别对所述至少一个解密机制描述进行封装以及标记，得到至少一个解密算法。

在另一个实施例中，所述访问模块，包括：

解封单元，用于对所述目标解密算法进行解封操作，得到目标解密机制描述；

运行单元，用于按照所述目标解密机制描述的执行指示，运行所述预设爬虫工具，建立与所述目标网站之间的数据连接；

访问单元，用于基于所述数据连接，访问所述目标网站。

在另一个实施例中，所述提取模块，包括：

读取单元，用于读取所述目标网站提供的多个网站数据的数据标签，在所述多个网站数据中提取数据标签与所述待爬取数据特征一致的网站数据作为候选数据；

提取单元，用于获取筛选方式，按照所述筛选方式，在所述候选数据中提取预设数目的指定候选数据作为所述目标数据。

在另一个实施例中，所述生成模块，用于获取报告模板，所述报告模板用于指示所述目标数据的分析方式；若所述分析方式指示分析变化趋势，则获取所述目标数据包括的每项子数据的时间属性，按照所述时间属性，对所述目标数据包括的每项子数据进行排序整理，生成所述分析报告；若所述分析方式指示分析关联关系，则确定所述目标数据包括的每项子数据的关联内容，按照所述关联内容，建立所述目标数据包括的每项子数据之间的关联关系，生成所述分析报告。

在另一个实施例中，所述生成模块，用于获取所述用户设置的用户信息，确定所述用户信息指示的目标接收方，生成携带所述分析报告的报告附件，将所述报告附件返回至所述目标接收方，所述用户信息至少包括邮箱地址、运营商地址、应用账号中的一种或多种；或，将所述分析报告存储至区块链，按照所述分析报告在所述区块链中的存储位置，生成存储路径，将所述存储路径返回至所述目标接收方。

依据本发明第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。

依据本发明第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。

借由上述技术方案，本发明提供的一种数据爬取方法、装置、计算机设备及计算机可读存储介质，本发明可以确定用户选取的目标网站以及待爬取数据特征，获取目标网站对应的目标解密算法，基于预设爬虫工具，执行目标解密算法，对目标网站进行访问，并在目标网站中提取与待爬取数据特征匹配的目标数据，进而根据目标数据生成分析报告并返回，提供一个用户可以直接与预设爬虫工具进行交互的平台，无需用户与开发人员多次沟通需求，节省了大量重复的工作量，简化了数据爬取过程，降低了沟通成本，提升了数据爬取的效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种数据爬取方法流程示意图；

图2A示出了本发明实施例提供的一种数据爬取方法流程示意图；

图2B示出了本发明实施例提供的一种数据爬取方法流程示意图；

图3A示出了本发明实施例提供的一种数据爬取装置的结构示意图；

图3B示出了本发明实施例提供的一种数据爬取装置的结构示意图；

图3C示出了本发明实施例提供的一种数据爬取装置的结构示意图；

图3D示出了本发明实施例提供的一种数据爬取装置的结构示意图；

图3E示出了本发明实施例提供的一种数据爬取装置的结构示意图；

图4示出了本发明实施例提供的一种计算机设备的装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种数据爬取方法，如图1所示，该方法包括：

101、确定用户选取的目标网站以及待爬取数据特征。

102、获取目标网站对应的目标解密算法，目标解密算法用于建立与目标网站之间的数据连接。

103、基于预设爬虫工具，执行目标解密算法，对目标网站进行访问。

104、在目标网站中提取与待爬取数据特征匹配的目标数据。

105、根据目标数据生成分析报告，将分析报告返回。

本发明实施例提供的方法，可以确定用户选取的目标网站以及待爬取数据特征，获取目标网站对应的目标解密算法，基于预设爬虫工具，执行目标解密算法，对目标网站进行访问，并在目标网站中提取与待爬取数据特征匹配的目标数据，进而根据目标数据生成分析报告并返回，提供一个用户可以直接与预设爬虫工具进行交互的平台，无需用户与开发人员多次沟通需求，节省了大量重复的工作量，简化了数据爬取过程，降低了沟通成本，提升了数据爬取的效率。

在对本发明进行详细的解释说明之前，先对本发明涉及的数据爬取平台进行简单介绍。

为了实现用户自主进行数据爬取操作，避免用户与开发人员之间的频繁沟通，降低沟通成本，提升数据爬取效率，本发明中设置有数据爬取平台，用户将自身的需求提供给数据爬取平台，数据爬取平台就会自动按照用户的要求爬取到相应的数据，同时还可以对数据进行一定的分析。数据爬取平台以Python(一种计算机程序设计语言)的Django(开放源代码的应用框架)经典框架为设计根本，将爬虫框架Scrapy(结构性数据提取应用框架)以及前端的框架Vue(一种用于构建用户页面的渐进式框架)进行整合，利用框架Vue容易与其他库或者已有项目整合的特性，搭建一个强交互性的前后端分离的数据爬取平台。开发人员将用于进行数据爬取的爬虫脚本、爬虫工具等上传至数据爬取平台中，在数据爬取平台中设置多个用于处理解密机制描述，并与相应的网站进行关联。当用户使用数据爬取平台时，用户可以自己在数据爬取平台中选择网站，输入想要爬取的数据特征，数据爬取平台会自动浏览用户选择的网站进行数据的爬取，并将爬取结果展示在主页面中，向用户提供结果下载或导出的功能，或者也可以选择由数据爬取平台进行数据分析。其中，数据爬取平台具体包括搜索模块、配置中心模块、分析模块以及后台管理模块。

搜索模块在前端提供交互页面，交互页面中设置选择框，用户可以在选择框中选择想要爬取的目标网站作为数据源。之后，搜索模块会将爬取到的数据保存在数据库中。其中，交互页面的呈现需要用到Python的Template(模板)以及View(视图)层，数据库可以设置在Modules(模组)层中，这样，当用户在交互页面中指示开始数据爬取时，数据爬取平台会调用提前封装好的工具类去调用Scrapy框架进行爬虫。

配置中心模块向开发人员提供配置各个可爬取网站的登录账户、代理IP(Internet Protocol，网络之间互联的协议)、解密算法等功能，并且开发人员还可以通过配置中心模块，将现有的或者编写的爬虫脚本作为预设爬虫工具上传到数据爬取平台。其中，解密算法用于应对网站中的反爬机制，利用解密算法可以在进行数据爬取时绕过反爬机制，从而成功爬取到想要的数据。

分析模块用于根据所爬取的数据制作一些简单的图表，实现对爬取数据的分析，例如，可以生成柱状图、折线图、关联关系图等。分析模块中还可以设置数据库，以便将生成的分析报告存储在数据库中。需要说明的是，为进一步保证上述分析报告的私密和安全性，上述分析报告还可以存储于一区块链的节点中。

后台管理模块用于设置平台中注册的用户的用户角色、用户权限等等，用户权限具体可以包括数据的读写权限、数据的修改权限等等。

本发明实施例提供了一种数据爬取方法，如图2A所示，该方法包括：

201、当接收到用户的数据爬取请求时，获取用户的用户标识，查询用户标识绑定的用户权限。若用户权限指示允许用户进行数据爬取，则执行下述步骤202至步骤206。若用户权限指示禁止用户进行数据爬取，则执行下述步骤207。

发明人认识到，随着目前公司的发展趋势以及数据技术的普及，如何快速地、精准地从海量数据中获取满足用户需求、可以创造巨大价值的数据信息越来越值得思考。目前业内公司爬取数据的爬虫手段都是运用市面上的开源框架或自行编写爬虫程序进行数据爬取，主要存在以下缺陷及痛点：首先，用于爬取数据的预设爬虫工具无交互、未可视化，用户如有数据爬取的需求需要开发人员随时进行配合，沟通成本过高。其次，散乱的爬虫工具及爬取到的数据未进行有效管理，爬取到的数据常以文件的形式随意放置，存在数据丢失的风险，如何解决以上缺点并且提高数据爬取的效率，让用户自主进行数据爬取，成为当下亟需解决的技术问题。因此，本发明提出了一种数据爬取方法，以Python的Django经典框架为设计根本，通过整合爬虫框架Scrapy以及前端非常容易与其它库或已有项目整合的框架VUE进行整合，搭建一个强交互性的前后端分离的数据爬取平台。其中，Scrapy框架进行数据的爬取相比于普通的爬虫框架来说便于进行管理、分层，同时Django框架的应用提升了数据爬取平台的交互以及数据存储能力，使用VUE以及Echarts(图标库)可以将爬取的数据图形化进行分析展示，便于用户进一步了解数据。这样，用户只需要将想要爬取的目标网站以及待爬取数据特征提供给数据爬取平台，数据爬取平台就会自动去到目标网站中爬取用户所需的目标数据，将目标数据分析后返回给用户进行查看，使用户获取所期望的数据的时效大幅提升，通过简单操作便可获取所需要的其他业务来源的数据，同时数据爬取平台实现了配置化、便于管理，通过框架分层可随时在原有数据爬取平台基础上进行迭代，不仅可以减少开发重复的工作量，还能及时满足业务需求。

在实际应用的过程中，对数据的爬取操作往往需要借助一些工具，所以，开发人员需要事先将工具安装包上传给数据爬取平台，这样，数据爬取平台就会接收上传的预设爬虫工具的工具安装包，根据工具安装包，对预设爬虫工具进行安装。其中，开发人员上传的工具安装包可以是现有的已经在市面上使用的爬虫工具的工具安装包，或者也可以是开发人员手动编写的爬虫工具的工具安装包，本发明对工具安装包的内容不进行具体限定。

另外，目前，很多网站都具备自身的反爬机制，因此，开发人员事先需要将应对网站反爬机制的解密机制描述封装为解密算法，并上传到数据爬取平台上，这样，后续当某个网站被用户选为目标网站时，就可以基于该目标网站的解密算法绕过该目标网站的反爬机制，保证数据爬取平台与目标网站之间成功建立数据连接，从而爬取到想要的数据。所以，数据爬取平台会接收到上传的至少一个可爬取网站对应的至少一个解密机制描述。对于至少一个解密机制描述中的每个解密机制描述，首先，需要对解密机制描述进行封装，得到解密算法。随后，为了对解密算法进行区分，确定解密机制描述对应的指定可爬取网站，采用指定可爬取网站的网站标识对解密算法进行标记，保证对反爬机制处理的成功率。最后，分别对至少一个解密机制描述进行封装以及标记，便可以得到至少一个解密算法。其中，在生成解密算法时，可以采用封装包的方式对解密机制机制描述进行封装存储，得到解密算法。

在准备好预设爬虫工具以及解密算法后，数据爬取平台就能够正常为用户提供数据爬取的服务。而在使用数据爬取平台时，用户需要在数据爬取平台上注册，提供自己的个人信息，设置唯一的个人账号(该账号也可以是用户注册成功后数据爬取平台自动生成的唯一账号)，实现在数据爬取平台上的注册。注册完成后，考虑到使用数据爬取平台的用户具体可以分为开发人员以及普通用户，为了将二者的身份以及具有的权限区分开，在注册成功后，可以根据用户的身份为其设置权限，例如设置爬取数据的权限、数据读取的权限、数据写入的权限、参数修改的权限等等，这样，当接收到用户的数据爬取请求时，需要获取用户的用户标识，查询用户标识绑定的用户权限，其中，该用户标识可以是用户提供的个人信息中的某一项信息或者用户在数据爬取平台中的个人账号，本发明对此不进行具体限定。若用户权限指示允许用户进行数据爬取，则可以继续对用户的操作进行响应，允许用户使用数据爬取平台中的数据爬取功能，也即执行下述步骤202至步骤206中的过程。若用户权限指示禁止用户进行数据爬取，则表示用户无权执行该操作，也即执行下述步骤207中的过程。

202、若用户权限指示允许用户进行数据爬取，则展示参数选取页面，并当检测到参数选取页面被确认时，确定用户选取的目标网站以及待爬取数据特征。

在本发明实施例中，当用户成功登录到数据爬取平台后，便可以使用数据爬取平台的数据爬取功能。其中，数据爬取平台会以页面的形式将可以作为数据源的网站提供给用户，也即展示参数选取页面，在参数选取页面上将全部的可爬取网站链入一个选择框中，用户可以在选择框中选择需要爬取的网站。另外，参数选取页面上还提供有待爬取数据特征的输入窗口，输入窗口中可以输入诸如日期、关键字等内容作为待爬取数据特征，例如，假设输入窗口中输入的待爬取数据特征是日期，日期为2020年6月1日至2020年7月1日，则后续数据爬取平台会在目标网站中爬取2020年6月1日至2020年7月1日之间产生的数据。再假设输入窗口中输入的待爬取数据特征是关键字“上海”，则后续数据爬取平台会在目标网站中爬取有关“上海”的数据。在目标网站以及待爬取数据特征设置完毕后，当数据爬取平台检测到参数选取页面被确认时，便确定用户选取的目标网站以及待爬取数据特征。

另外，在该参数选取页面上还可以提供提供限制目标数据大小的窗口，用户可以在该窗口中输入预设数目，用预设数目来规定一次的数据爬取操作具体爬取多少条数据，这样，数据爬取平台会按照用户设置的预设数目筛选目标数据，从而基于筛选后的目标数据向用户反馈分析报告。

203、获取目标网站对应的目标解密算法。

在本发明实施例中，由于数据爬取平台中为每个可爬取网站都设置了对应的解密算法，且采用网站标识进行了标记，因此，可以获取目标网站的目标网站标识，查询采用目标网站标识标记的解密算法作为目标解密算法，以便后续采用该目标解密算法建立与目标网站之间的数据连接，将目标网站作为数据源进行数据爬取。

204、基于预设爬虫工具，执行目标解密算法，对目标网站进行访问。

在本发明实施例中，当获取到目标解密算法后，便可以开始对目标网站进行访问。其中，由于目标解密算法是封装得到的，所以，需要先对目标解密算法进行解封操作，得到目标解密机制描述。随后，按照目标解密机制描述的执行指示，运行预设爬虫工具，建立与目标网站之间的数据连接，进而基于数据连接，访问目标网站，以便在目标网站上进行数据爬取的操作。

205、在目标网站中提取与待爬取数据特征匹配的目标数据。

在本发明实施例中，当访问目标网站成功后，便可以按照用户提供的待爬取数据特征进行数据的爬取。具体地，在进行数据爬取时，首先，需要读取目标网站提供的多个网站数据的数据标签，在多个网站数据中提取数据标签与待爬取数据特征一致的网站数据作为候选数据。例如，假设待爬取数据特征是2020年6月1日至2020年7月1日，则将在目标网站中爬取的2020年6月1日至2020年7月1日之间产生的数据的数据作为候选数据。随后，由于数据爬取平台中会由用户自行设置预设数目，需要按照预设数目进行数据的筛选，因此，在获取到候选数据后，获取筛选方式，按照筛选方式，在候选数据中提取预设数目的指定候选数据作为目标数据。

其中，筛选方式可以是随机筛选、先入先出筛选、日期筛选以及相关性筛选中的任一种。如果筛选方式为随机筛选，则随机在候选数据中提取预设数目的候选数据作为目标数据即可。如果筛选方式为先入先出筛选，则先爬取到的候选数据先提取出来，直至提取到的候选数据的条数达到了预设数目。如果筛选方式为日期筛选，则将数据的产生日期最近的预设数目的候选数据作为目标数据。如果筛选方式为相关性筛选，则对于基于日期形式的待爬取数据特征爬取到的候选数据，与开始时间最近表明与待爬取数据特征的相关性越强，因此，将与开始时间最近的预设数目的候选数据作为目标数据；对于基于关键字形式的待爬取数据特征爬取到的候选数据，统计每个候选数据中出现该关键字的次数，次数越高表明与待爬取数据特征的相关性越强，因此，将次数最高的预设数目的候选数据作为目标数据即可。需要说明的是，本发明以日期和关键字为例进行说明，而在实际应用的过程中，待爬取数据特征还可能是人物姓名，这样，在进行目标数据的筛选时，可以提取预设数目的与该人物姓名之间直接存在好友、互关或者联系人关系等的关联人物姓名作为目标数据，将那些间接与该人物姓名之间存在关系的其他人物姓名过滤掉。本发明对筛选方式不进行具体限定。

206、根据目标数据生成分析报告，并将分析报告返回。

在本发明实施例中，数据爬取平台还为用户提供数据分析的功能。因为有时目标数据是数值型的数据，例如季度增长量、商品的销售量等等，而有时目标数据是存在关联的，例如查询用户A关注了哪些用户，用户A关注的用户还关注了哪些其他用户等等，所以，为了体现目标数据中的数据特性，数据爬取平台中还设置有多个报告模板，报告模板用于指示目标数据的分析方式，用户可以自行选择报告模板对目标数据进行数据分析，从而得出分析报告并返回。

这样，在生成分析报告时，需要获取用户设置的报告模板。若报告模板的分析方式指示分析变化趋势，则获取目标数据包括的每项子数据的时间属性，按照时间属性，对目标数据包括的每项子数据进行排序整理，生成分析报告。比如，建立时间和子数据取值的坐标系，按照每项子数据的时间属性，将每项子数据的子数据取值映射在坐标系中，形成柱状图或者折线图等作为分析报告。若报告模板的分析方式指示分析关联关系，则确定目标数据包括的每项子数据的关联内容，按照关联内容，建立目标数据包括的每项子数据之间的关联关系，生成分析报告。例如，假设待爬取数据特征为用户A，则根据目标数据包括的每项子数据的关联内容以及与用户A之间的关系，建立目标数据包括的每项子数据之间的关联关系，生成关联关系图作为分析报告。

另外，在本发明实施例中，当分析报告生成后，数据爬取平台会将分析报告提供给用户，以供用户参考。其中，用户可以事先设置邮箱地址、运营商地址、应用账号中的一种或多种作为用户信息，使数据爬取平台按照用户信息确定目标接收方，将生成的分析报告发送给目标接收方。这样，数据爬取平台会获取用户设置的用户信息，确定用户信息指示的目标接收方，生成携带分析报告的报告附件，将报告附件返回给目标接收方。另外，数据爬取平台也可以将生成的分析报告存储在区块链中，按照分析报告在区块链中的存储位置，生成存储路径，将该存储路径在提供给用户的前端页面中展示或者以通知的形式发送给用户，以便用户按照存储路径下载分析报告，从而保证分析报告的私密性和安全性。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

207、若用户权限指示禁止用户进行数据爬取，则展示失败响应，并结束当前流程。

在本发明实施例中，若用户权限指示禁止用户进行数据爬取，则表示用户无权执行该操作，因此，展示失败响应，并结束当前流程。

综上，整个数据爬取的流程如下：

参见图2B，开发人员实现在数据爬取平台中设置用户的权限，将预设爬虫工具以及解密算法上传给数据爬取平台。用户登录到数据爬取平台中后，数据爬取平台会对用户具有的用户权限进行校验，在确定用户具有数据爬取的权限后，确定用户选取的目标网站以及待爬取数据特征。随后，数据爬取平台会利用事先已经上传的预设爬虫工具以及目标解密算法，按照待爬取数据特征在目标网站上进行数据的爬取。当数据爬取成功后，对爬取到的目标数据进行数据分析，输出分析报告。当数据爬取失败后，重新校验预设爬虫工具以及目标解密算法，并在校验完成后，再重新执行数据的爬取操作。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种数据爬取装置，如图3A所示，所述装置包括：确定模块301，获取模块302，访问模块303，提取模块304和生成模块305。

该确定模块301，用于确定用户选取的目标网站以及待爬取数据特征；

该获取模块302，用于获取所述目标网站对应的目标解密算法，所述目标解密算法用于建立与所述目标网站之间的数据连接；

该访问模块303，用于基于预设爬虫工具，执行所述目标解密算法，对所述目标网站进行访问；

该提取模块304，用于在所述目标网站中提取与所述待爬取数据特征匹配的目标数据；

该生成模块305，用于根据所述目标数据生成分析报告，将所述分析报告返回。

在具体的应用场景中，如图3B所示，该装置还包括：第一接收模块306，查询模块307和展示模块308。

该第一接收模块306，用于当接收到所述用户的数据爬取请求时，获取所述用户的用户标识；

该查询模块307，用于查询所述用户标识绑定的用户权限；

该确定模块301，还用于若所述用户权限指示允许所述用户进行数据爬取，则展示参数选取页面，并当检测到所述参数选取页面被确认时，继续在所述参数选取页面上确定所述目标网站以及所述待爬取数据特征；

该展示模块308，用于若所述用户权限指示禁止所述用户进行数据爬取，则展示失败响应，并结束当前流程。

在具体的应用场景中，如图3C所示，该装置还包括：安装模块309，第二接收模块310，封装模块311和标记模块312。

该安装模块309，用于接收上传的所述预设爬虫工具的工具安装包，根据所述工具安装包，对所述预设爬虫工具进行安装；

该第二接收模块310，用于接收上传的至少一个可爬取网站对应的至少一个解密机制描述；

该封装模块311，用于对于所述至少一个解密机制描述中的每个解密机制描述，对所述解密机制描述进行封装，得到解密算法；

该标记模块312，用于确定所述解密机制描述对应的指定可爬取网站，采用所述指定可爬取网站的网站标识对所述解密算法进行标记；

该封装模块311，还用于分别对所述至少一个解密机制描述进行封装以及标记，得到至少一个解密算法。

在具体的应用场景中，如图3D所示，该访问模块303，包括：解封单元3031，运行单元3032和访问单元3033。

该解封单元3031，用于对所述目标解密算法进行解封操作，得到目标解密机制描述；

该运行单元3032，用于按照所述目标解密机制描述的执行指示，运行所述预设爬虫工具，建立与所述目标网站之间的数据连接；

该访问单元3033，用于基于所述数据连接，访问所述目标网站。

在具体的应用场景中，如图3E所示，该提取模块304，包括：读取单元3041和提取单元3042。

该读取单元3041，用于读取所述目标网站提供的多个网站数据的数据标签，在所述多个网站数据中提取数据标签与所述待爬取数据特征一致的网站数据作为候选数据；

该提取单元3042，用于获取筛选方式，按照所述筛选方式，在所述候选数据中提取预设数目的指定候选数据作为所述目标数据。

在具体的应用场景中，该生成模块305，用于获取报告模板，所述报告模板用于指示所述目标数据的分析方式；若所述分析方式指示分析变化趋势，则获取所述目标数据包括的每项子数据的时间属性，按照所述时间属性，对所述目标数据包括的每项子数据进行排序整理，生成所述分析报告；若所述分析方式指示分析关联关系，则确定所述目标数据包括的每项子数据的关联内容，按照所述关联内容，建立所述目标数据包括的每项子数据之间的关联关系，生成所述分析报告。

在具体的应用场景中，该生成模块305，用于获取所述用户设置的用户信息，确定所述用户信息指示的目标接收方，生成携带所述分析报告的报告附件，将所述报告附件返回至所述目标接收方，所述用户信息至少包括邮箱地址、运营商地址、应用账号中的一种或多种；或，将所述分析报告存储至区块链，按照所述分析报告在所述区块链中的存储位置，生成存储路径，将所述存储路径返回至所述目标接收方。

本发明实施例提供的装置，可以确定用户选取的目标网站以及待爬取数据特征，获取目标网站对应的目标解密算法，基于预设爬虫工具，执行目标解密算法，对目标网站进行访问，并在目标网站中提取与待爬取数据特征匹配的目标数据，进而根据目标数据生成分析报告并返回，提供一个用户可以直接与预设爬虫工具进行交互的平台，无需用户与开发人员多次沟通需求，节省了大量重复的工作量，简化了数据爬取过程，降低了沟通成本，提升了数据爬取的效率。

需要说明的是，本发明实施例提供的一种数据爬取装置所涉及各功能单元的其他相应描述，可以参考图1和图2A至图2B中的对应描述，在此不再赘述。

在示例性实施例中，参见图4，还提供了一种设备，该设备400包括通信总线、处理器、存储器和通信接口，还可以包括、输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例中的数据爬取方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的数据爬取方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种数据爬取方法，其特征在于，包括：

确定用户选取的目标网站以及待爬取数据特征；

根据所述目标数据生成分析报告，将所述分析报告返回。

2.根据权利要求1所述的方法，其特征在于，所述确定用户选取的目标网站以及待爬取数据特征之前，所述方法还包括：

查询所述用户标识绑定的用户权限；

3.根据权利要求1所述的方法，其特征在于，所述确定用户选取的目标网站以及待爬取数据特征之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于预设爬虫工具，执行所述目标解密算法，对所述目标网站进行访问，包括：

基于所述数据连接，访问所述目标网站。

5.根据权利要求1所述的方法，其特征在于，所述在所述目标网站中提取与所述待爬取数据特征匹配的目标数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标数据生成分析报告，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述分析报告返回，包括：

8.一种数据爬取装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。