CN110134854A - 一种基于用户激励机制的爬虫采集方法 - Google Patents

一种基于用户激励机制的爬虫采集方法 Download PDF

Info

Publication number
CN110134854A
CN110134854A CN201910453256.0A CN201910453256A CN110134854A CN 110134854 A CN110134854 A CN 110134854A CN 201910453256 A CN201910453256 A CN 201910453256A CN 110134854 A CN110134854 A CN 110134854A
Authority
CN
China
Prior art keywords
user
data
acquisition
crawler
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910453256.0A
Other languages
English (en)
Inventor
吴青松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shaoshao Technology Co Ltd
Jiangsu Fast Page Information Technology Co Ltd
Original Assignee
Nanjing Shaoshao Technology Co Ltd
Jiangsu Fast Page Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shaoshao Technology Co Ltd, Jiangsu Fast Page Information Technology Co Ltd filed Critical Nanjing Shaoshao Technology Co Ltd
Priority to CN201910453256.0A priority Critical patent/CN110134854A/zh
Publication of CN110134854A publication Critical patent/CN110134854A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于用户激励机制的爬虫采集方法,它涉及爬虫采集技术领域。其步骤为:建立会员管理系统,为每个用户账号维护一个唯一的用户ID和数字证书;用户登陆后,从云端获得采集任务,通过定制的浏览器采集插件进行数据采集;用户将采集到的数据上传至云数据中心,每成功上传一条数据获得虚拟币奖励;云数据中心将采集到的内容存入Elasticsearch搜索服务器,以供数据利用。本发明大大提高信息采集的成功性和有效性,极大降低了传统大数据运营商的采集硬件投资成本,采集效率更高,效果更好,应用前景广阔。

Description

一种基于用户激励机制的爬虫采集方法
技术领域
本发明涉及的是爬虫采集技术领域,具体涉及一种基于用户激励机制的爬虫采集方法。
背景技术
目前,对于使用爬虫采集数据的大数据应用系统,均是租用IDC机房,放置成百上千台服务器用于部署爬虫系统采集数据,存在以下问题:一方面投入成本巨大,另一方面由于代理IP质量良莠不齐,各大网站反爬措施严厉,采集成功率不高。为了解决上述问题,设计一种基于用户激励机制的爬虫采集方法尤为必要。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种基于用户激励机制的爬虫采集方法,大大提高信息采集的成功性,极大降低了传统大数据运营商的采集硬件投资成本,采集效率更高,提高了数据采集有效性,效果更好,易于推广使用。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种基于用户激励机制的爬虫采集方法,包括以下步骤:
(1)建立会员管理系统,为每个用户账号维护一个唯一的用户ID和数字证书;
(2)用户登陆后,从云端获得采集任务,通过定制的浏览器采集插件进行数据采集;
(3)用户将采集到的数据上传至云数据中心,每成功上传一条数据获得一定数量的虚拟币奖励;
(4)云数据中心将采集到的内容存入Elasticsearch搜索服务器,以供数据利用。
作为优选,所述的步骤(1)中会员管理系统的建立包括对用户进行分类分级和用户画像,添加所在地区、常用IP地址、终端类型等多种属性和标签。
作为优选,所述的步骤(2)中用户使用基于Chromium内核定制的专用浏览器或谷歌、Firefox等浏览器登陆账号,启动爬虫插件,通过采集任务API获取采集任务,并通过解析规则API获取页面内容解析规则,即开始进行“挖矿”任务;爬虫插件根据终端资源使用情况,分配合适的计算和带宽资源用于“挖矿”,对终端日常使用影响不大。
作为优选,所述的步骤(3)中用户将爬虫插件采集到的数据通过云数据中心的API接口,将数据上传至云数据中心,云数据中心根据不同的数据类型,给用户数量不等的虚拟币进行奖励,虚拟币可以兑换礼品。
本发明的有益效果:本方法扩大采集范围,提升采集质量,大大提高信息采集的成功性和有效性,同时极大降低了传统大数据运营商的采集硬件投资成本,采集效率更高,效果更好,应用前景广阔。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明实施例1的分布式采集流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
参照图1,本具体实施方式采用以下技术方案:一种基于用户激励机制的爬虫采集方法,包括以下步骤:
(1)建立会员管理系统,为每个用户账号维护一个唯一的用户ID和数字证书;对用户进行分类分级和用户画像,添加所在地区、常用IP地址、终端类型等多种属性和标签,比如:推荐常用IP地址为南京的用户去采集南京的网站或南京的自媒体账号。
(2)用户登陆后,从云端获得采集任务,通过定制的浏览器采集插件进行数据采集;用户使用基于Chromium内核定制的专用浏览器或谷歌、Firefox等浏览器登陆账号,启动爬虫插件,通过采集任务API获取采集任务,并通过解析规则API获取页面内容解析规则,即可利用本机资源进行“挖矿”任务;爬虫插件根据终端资源使用情况,分配合适的计算和带宽资源用于“挖矿”,对终端日常使用影响不大。
(3)用户将采集到的数据上传至云数据中心,每成功上传一条数据均可获得一定数量的虚拟币奖励;用户将爬虫插件采集到的数据通过云数据中心的API接口,将采集数据上传至云数据中心,云数据中心根据不同的数据类型,给用户数量不等的虚拟币进行奖励,虚拟币可以兑换礼品。
(4)云数据中心将采集到的内容存入Elasticsearch搜索服务器,以供数据利用,将采集到的信息自动存入云数据中心的Elasticsearch,从而实现数据整合。
值得注意的是,所述的步骤(2)通过定制的浏览器爬虫采集插件进行数据采集,可以根据终端画像,选择最合适的采集任务,使采集终端更接近目标网站的访问群体,从而最大程度的模拟自然人访问,避免了反爬网站的封锁,提高了采集成功率。
此外,所述的步骤(3)中用户将采集到的数据上传至云数据中心,每成功上传一条数据获得一定数量的虚拟币奖励。该方法充分借鉴区块链挖矿技术思路,支持对每条数据进行质量评价打分,从而可获得不同的虚拟币奖励,充分发挥浏览器客户端的计算价值。
本具体实施方式率先实现了针对反爬能力较强的网站内容的有效采集,充分发挥浏览器客户端的资源优势,降低了数据采集成本,其技术优势在于:
(1)支持分布式采集,可以若干个终端浏览器插件同时采集,从而扩大了采集范围,提供采集效率和质量;
(2)支持根据用户画像自动派发采集任务,个性化推荐合适的用户去采集合适的网站对象;
(3)极大降低了数据采集的运营投入成本,根据实施效果测算,采用区块链挖矿技术对采集方式进行改造后,只需要二十分之一的计算资源即可,且不需要再购买代理IP地址。
实施例1:一种基于用户激励机制的爬虫采集方法,包括以下步骤:
(1)建立会员管理系统,为每个用户账号维护一个唯一的用户ID和数字证书;
(2)用户登陆后,从云端获得采集任务,通过定制的浏览器采集插件进行数据采集;主要支持两种类型的浏览器。第一种是谷歌浏览器Google Chrome、火狐Firefox等主流浏览器;第二种是自行基于Chromium内核开发的韶韶浏览器;爬虫挖矿插件对于这两种浏览器都可以兼容;
(3)用户将采集到的数据上传至云数据中心,每成功上传一条数据获得一定数量的虚拟币奖励;
(4)云数据中心将采集到的内容存入Elasticsearch搜索服务器,以供数据利用。
该实施例针对目标网站的采集过程,如图1所示,综合考虑目标对象采集的难易程度,本实施例制定了会员浏览器爬虫挖矿奖励计划,该计划的目标对象类别(或目标网站)和奖励数量均可以在系统后台进行配置维护,包括添加、修改,如表1所示:
表1 浏览器爬虫挖矿奖励计划
目标对象类别 虚拟币奖励数量
通用资讯类网站 0.01
论坛类网站 0.02
视频类网站 0.03
新浪微博 0.05
微信公众号 0.05
今日头条 0.05
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (4)

1.一种基于用户激励机制的爬虫采集方法,其特征在于,包括以下步骤:
(1)建立会员管理系统,为每个用户账号维护一个唯一的用户ID和数字证书;
(2)用户登陆后,从云端获得采集任务,通过定制的浏览器采集插件进行数据采集;
(3)用户将采集到的数据上传至云数据中心,每成功上传一条数据获得虚拟币奖励;
(4)云数据中心将采集到的内容存入Elasticsearch搜索服务器,以供数据利用。
2.根据权利要求1所述的一种基于用户激励机制的爬虫采集方法,其特征在于,所述的步骤(1)中会员管理系统的建立包括对用户进行分类分级和用户画像,添加所在地区、常用IP地址、终端类型多种属性和标签。
3.根据权利要求1所述的一种基于用户激励机制的爬虫采集方法,其特征在于,所述的步骤(2)中用户使用基于Chromium内核定制的浏览器或谷歌、Firefox浏览器登陆账号,启动爬虫插件,通过采集任务API获取采集任务,并通过解析规则API获取页面内容解析规则,即开始进行“挖矿”任务。
4.根据权利要求1所述的一种基于用户激励机制的爬虫采集方法,其特征在于,所述的步骤(3)中用户将爬虫插件采集到的数据通过云数据中心的API接口,将数据上传至云数据中心,云数据中心根据不同的数据类型,给用户虚拟币进行奖励。
CN201910453256.0A 2019-05-28 2019-05-28 一种基于用户激励机制的爬虫采集方法 Pending CN110134854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910453256.0A CN110134854A (zh) 2019-05-28 2019-05-28 一种基于用户激励机制的爬虫采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910453256.0A CN110134854A (zh) 2019-05-28 2019-05-28 一种基于用户激励机制的爬虫采集方法

Publications (1)

Publication Number Publication Date
CN110134854A true CN110134854A (zh) 2019-08-16

Family

ID=67582420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910453256.0A Pending CN110134854A (zh) 2019-05-28 2019-05-28 一种基于用户激励机制的爬虫采集方法

Country Status (1)

Country Link
CN (1) CN110134854A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428107A (zh) * 2020-03-23 2020-07-17 新华智云科技有限公司 多中心综合网络爬虫系统
CN117437371A (zh) * 2023-12-18 2024-01-23 北京道仪数慧科技有限公司 地图数据采集资源调用方法及系统
CN117892333A (zh) * 2024-03-14 2024-04-16 快页信息技术有限公司 一种基于区块链的信息安全监管系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117484A (zh) * 2015-09-17 2015-12-02 广州银讯信息科技有限公司 一种互联网舆情监测方法和系统
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN109150700A (zh) * 2018-09-06 2019-01-04 北京云测信息技术有限公司 一种数据采集的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117484A (zh) * 2015-09-17 2015-12-02 广州银讯信息科技有限公司 一种互联网舆情监测方法和系统
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN109150700A (zh) * 2018-09-06 2019-01-04 北京云测信息技术有限公司 一种数据采集的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428107A (zh) * 2020-03-23 2020-07-17 新华智云科技有限公司 多中心综合网络爬虫系统
CN111428107B (zh) * 2020-03-23 2023-09-01 新华智云科技有限公司 多中心综合网络爬虫系统
CN117437371A (zh) * 2023-12-18 2024-01-23 北京道仪数慧科技有限公司 地图数据采集资源调用方法及系统
CN117892333A (zh) * 2024-03-14 2024-04-16 快页信息技术有限公司 一种基于区块链的信息安全监管系统及方法
CN117892333B (zh) * 2024-03-14 2024-05-14 快页信息技术有限公司 一种基于区块链的信息安全监管系统及方法

Similar Documents

Publication Publication Date Title
CN110134854A (zh) 一种基于用户激励机制的爬虫采集方法
US20120290654A1 (en) Rewarding Users for Sharing Digital Content
US10210533B2 (en) Revenue sharing system that optimizes ad revenue with preformatted page generator and preview distribution system
KR101297271B1 (ko) 소셜 네트워크 분석 서비스 방법 및 장치
US10423675B2 (en) System and method for automated domain-extensible web scraping
CN105095470B (zh) 用于应用程序的数据推荐方法及装置
US20100082360A1 (en) Age-Targeted Online Marketing Using Inferred Age Range Information
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及系统
CN105989074A (zh) 一种通过移动设备信息进行推荐冷启动的方法和装置
CN103605714B (zh) 网站异常数据的识别方法及装置
CN103678652A (zh) 一种基于Web日志数据的信息个性化推荐方法
US6175838B1 (en) Method and apparatus for forming page map to present internet data meaningful to management and business operation
CN102622365B (zh) 一种网页重复的判断系统及其判断方法
CN103927376A (zh) 一种经第三方社交账户进行信息传播的系统和方法
CN105589922A (zh) 页面显示方法、装置、系统以及页面显示辅助方法、装置
JP2019212345A (ja) インターネットコンテンツ提供サーバ及びその方法が具現化されたコンピュータで判読できる記録媒体
CN104348871A (zh) 一种同类账号扩展方法及装置
CN106874368B (zh) 一种rtb竞价广告位价值分析方法及系统
US20100082359A1 (en) Multi-Granular Age Range Products For Use in Online Marketing
CN109756556B (zh) 一种一站式云服务生态系统
KR20150131413A (ko) 광고 컨텐츠에 대한 분석 서비스를 제공하는 방법 및 장치
CN103294730B (zh) 一种数据推送系统及方法
Bush et al. Parkinson's disease support groups in rural America: barriers, resources, and opportunities
CN106027291B (zh) 基于韦伯费希纳定理的BE业务QoE评价方法
CN106230871A (zh) 一种基于云技术的网络游戏平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190816