CN110134854A

CN110134854A - 一种基于用户激励机制的爬虫采集方法

Info

Publication number: CN110134854A
Application number: CN201910453256.0A
Authority: CN
Inventors: 吴青松
Original assignee: Nanjing Shaoshao Technology Co Ltd; Jiangsu Fast Page Information Technology Co Ltd
Current assignee: Nanjing Shaoshao Technology Co Ltd; Jiangsu Fast Page Information Technology Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-16

Abstract

本发明公开了一种基于用户激励机制的爬虫采集方法，它涉及爬虫采集技术领域。其步骤为：建立会员管理系统，为每个用户账号维护一个唯一的用户ID和数字证书；用户登陆后，从云端获得采集任务，通过定制的浏览器采集插件进行数据采集；用户将采集到的数据上传至云数据中心，每成功上传一条数据获得虚拟币奖励；云数据中心将采集到的内容存入Elasticsearch搜索服务器，以供数据利用。本发明大大提高信息采集的成功性和有效性，极大降低了传统大数据运营商的采集硬件投资成本，采集效率更高，效果更好，应用前景广阔。

Description

一种基于用户激励机制的爬虫采集方法

技术领域

本发明涉及的是爬虫采集技术领域，具体涉及一种基于用户激励机制的爬虫采集方法。

背景技术

目前，对于使用爬虫采集数据的大数据应用系统，均是租用IDC机房，放置成百上千台服务器用于部署爬虫系统采集数据，存在以下问题：一方面投入成本巨大，另一方面由于代理IP质量良莠不齐，各大网站反爬措施严厉，采集成功率不高。为了解决上述问题，设计一种基于用户激励机制的爬虫采集方法尤为必要。

发明内容

针对现有技术上存在的不足，本发明目的是在于提供一种基于用户激励机制的爬虫采集方法，大大提高信息采集的成功性，极大降低了传统大数据运营商的采集硬件投资成本，采集效率更高，提高了数据采集有效性，效果更好，易于推广使用。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种基于用户激励机制的爬虫采集方法，包括以下步骤：

(1)建立会员管理系统，为每个用户账号维护一个唯一的用户ID和数字证书；

(2)用户登陆后，从云端获得采集任务，通过定制的浏览器采集插件进行数据采集；

(3)用户将采集到的数据上传至云数据中心，每成功上传一条数据获得一定数量的虚拟币奖励；

(4)云数据中心将采集到的内容存入Elasticsearch搜索服务器，以供数据利用。

作为优选，所述的步骤(1)中会员管理系统的建立包括对用户进行分类分级和用户画像，添加所在地区、常用IP地址、终端类型等多种属性和标签。

作为优选，所述的步骤(2)中用户使用基于Chromium内核定制的专用浏览器或谷歌、Firefox等浏览器登陆账号，启动爬虫插件，通过采集任务API获取采集任务，并通过解析规则API获取页面内容解析规则，即开始进行“挖矿”任务；爬虫插件根据终端资源使用情况，分配合适的计算和带宽资源用于“挖矿”，对终端日常使用影响不大。

作为优选，所述的步骤(3)中用户将爬虫插件采集到的数据通过云数据中心的API接口，将数据上传至云数据中心，云数据中心根据不同的数据类型，给用户数量不等的虚拟币进行奖励，虚拟币可以兑换礼品。

本发明的有益效果：本方法扩大采集范围，提升采集质量，大大提高信息采集的成功性和有效性，同时极大降低了传统大数据运营商的采集硬件投资成本，采集效率更高，效果更好，应用前景广阔。

附图说明

下面结合附图和具体实施方式来详细说明本发明；

图1为本发明实施例1的分布式采集流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

参照图1，本具体实施方式采用以下技术方案：一种基于用户激励机制的爬虫采集方法，包括以下步骤：

(1)建立会员管理系统，为每个用户账号维护一个唯一的用户ID和数字证书；对用户进行分类分级和用户画像，添加所在地区、常用IP地址、终端类型等多种属性和标签，比如：推荐常用IP地址为南京的用户去采集南京的网站或南京的自媒体账号。

(2)用户登陆后，从云端获得采集任务，通过定制的浏览器采集插件进行数据采集；用户使用基于Chromium内核定制的专用浏览器或谷歌、Firefox等浏览器登陆账号，启动爬虫插件，通过采集任务API获取采集任务，并通过解析规则API获取页面内容解析规则，即可利用本机资源进行“挖矿”任务；爬虫插件根据终端资源使用情况，分配合适的计算和带宽资源用于“挖矿”，对终端日常使用影响不大。

(3)用户将采集到的数据上传至云数据中心，每成功上传一条数据均可获得一定数量的虚拟币奖励；用户将爬虫插件采集到的数据通过云数据中心的API接口，将采集数据上传至云数据中心，云数据中心根据不同的数据类型，给用户数量不等的虚拟币进行奖励，虚拟币可以兑换礼品。

(4)云数据中心将采集到的内容存入Elasticsearch搜索服务器，以供数据利用,将采集到的信息自动存入云数据中心的Elasticsearch，从而实现数据整合。

值得注意的是，所述的步骤(2)通过定制的浏览器爬虫采集插件进行数据采集，可以根据终端画像，选择最合适的采集任务，使采集终端更接近目标网站的访问群体，从而最大程度的模拟自然人访问，避免了反爬网站的封锁，提高了采集成功率。

此外，所述的步骤(3)中用户将采集到的数据上传至云数据中心，每成功上传一条数据获得一定数量的虚拟币奖励。该方法充分借鉴区块链挖矿技术思路，支持对每条数据进行质量评价打分，从而可获得不同的虚拟币奖励，充分发挥浏览器客户端的计算价值。

本具体实施方式率先实现了针对反爬能力较强的网站内容的有效采集，充分发挥浏览器客户端的资源优势，降低了数据采集成本，其技术优势在于：

(1)支持分布式采集，可以若干个终端浏览器插件同时采集，从而扩大了采集范围，提供采集效率和质量；

(2)支持根据用户画像自动派发采集任务，个性化推荐合适的用户去采集合适的网站对象；

(3)极大降低了数据采集的运营投入成本，根据实施效果测算，采用区块链挖矿技术对采集方式进行改造后,只需要二十分之一的计算资源即可，且不需要再购买代理IP地址。

实施例1：一种基于用户激励机制的爬虫采集方法，包括以下步骤：

(2)用户登陆后，从云端获得采集任务，通过定制的浏览器采集插件进行数据采集；主要支持两种类型的浏览器。第一种是谷歌浏览器Google Chrome、火狐Firefox等主流浏览器；第二种是自行基于Chromium内核开发的韶韶浏览器；爬虫挖矿插件对于这两种浏览器都可以兼容；

该实施例针对目标网站的采集过程，如图1所示，综合考虑目标对象采集的难易程度，本实施例制定了会员浏览器爬虫挖矿奖励计划，该计划的目标对象类别(或目标网站)和奖励数量均可以在系统后台进行配置维护，包括添加、修改，如表1所示：

表1 浏览器爬虫挖矿奖励计划

目标对象类别	虚拟币奖励数量
		通用资讯类网站	0.01
论坛类网站	0.02
		视频类网站	0.03
新浪微博	0.05
		微信公众号	0.05
今日头条	0.05

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于用户激励机制的爬虫采集方法，其特征在于，包括以下步骤：

(3)用户将采集到的数据上传至云数据中心，每成功上传一条数据获得虚拟币奖励；

2.根据权利要求1所述的一种基于用户激励机制的爬虫采集方法，其特征在于，所述的步骤(1)中会员管理系统的建立包括对用户进行分类分级和用户画像，添加所在地区、常用IP地址、终端类型多种属性和标签。

3.根据权利要求1所述的一种基于用户激励机制的爬虫采集方法，其特征在于，所述的步骤(2)中用户使用基于Chromium内核定制的浏览器或谷歌、Firefox浏览器登陆账号，启动爬虫插件，通过采集任务API获取采集任务，并通过解析规则API获取页面内容解析规则，即开始进行“挖矿”任务。

4.根据权利要求1所述的一种基于用户激励机制的爬虫采集方法，其特征在于，所述的步骤(3)中用户将爬虫插件采集到的数据通过云数据中心的API接口，将数据上传至云数据中心，云数据中心根据不同的数据类型，给用户虚拟币进行奖励。