CN111428107B - 多中心综合网络爬虫系统 - Google Patents

多中心综合网络爬虫系统 Download PDF

Info

Publication number
CN111428107B
CN111428107B CN202010206809.5A CN202010206809A CN111428107B CN 111428107 B CN111428107 B CN 111428107B CN 202010206809 A CN202010206809 A CN 202010206809A CN 111428107 B CN111428107 B CN 111428107B
Authority
CN
China
Prior art keywords
crawler
center
service
data
providing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010206809.5A
Other languages
English (en)
Other versions
CN111428107A (zh
Inventor
闫长江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN202010206809.5A priority Critical patent/CN111428107B/zh
Publication of CN111428107A publication Critical patent/CN111428107A/zh
Application granted granted Critical
Publication of CN111428107B publication Critical patent/CN111428107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4488Object-oriented
    • G06F9/4493Object persistence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种多中心综合网络爬虫系统,包括:爬虫中心和若干不同特色业务中心;若干不同特色业务中心分别处理不同的特色业务;爬虫中心用于对爬虫进行集中管理为不同特色业务中心服务;爬虫中心包括:爬虫池、爬虫执行缓存池、爬虫持久化数据库、爬虫维护API、爬虫执行器和爬虫组。本发明的有益之处在于,用户覆盖面广,爬虫的利用率及效益高。

Description

多中心综合网络爬虫系统
技术领域
本发明涉及一种多中心综合网络爬虫系统。
背景技术
随着互联网技术的不断发展,信息的传输速度也越来越快,信息的种类也逐渐发生着变化,以网络新闻为例,传统网络新闻已由文字加图片的形式转为多媒资类型混合展示的现代化新闻,传统网络爬虫平台往往只包含一种媒资类型的爬取能力,即使有单页面多媒资爬取能力,往往也需要业务方进行数据整合,或者爬取与此类业务进行强耦合,用户体验差,开发成本高。
传统爬虫平台用户对象往往只是单纯的爬虫开发者,使用成本高,同时传统爬虫平台爬取能力着重体现在大规模数据爬取上,能力拓展性差,资源浪费严重。用户体验差,覆盖面低,爬虫效益产出低。
发明内容
为解决现有技术的不足,本发明提供了一种多中心综合网络爬虫系统,提升爬取能力,提高用户覆盖面,提高爬虫效益。
为了实现上述目标,本发明采用如下的技术方案:
一种多中心综合网络爬虫系统,包括:爬虫中心和若干不同特色业务中心;若干不同特色业务中心分别处理不同的特色业务;爬虫中心用于对爬虫进行集中管理为不同特色业务中心服务。
进一步地,爬虫中心包括:爬虫池、爬虫执行缓存池、爬虫持久化数据库、爬虫维护API、爬虫执行器和爬虫组;
爬虫池构建完成后对各脚本的爬虫进行提前编译置入爬虫执行缓存池;爬虫执行器根据具体需求构建爬虫组从而处理不同爬取类型任务;构建的爬虫组由对文本爬虫、图片爬虫、音频爬虫和视频爬虫中的两个或两个以上的爬虫组成。
进一步地,爬虫中心启动时通过爬虫持久化数据库构建爬虫池。
进一步地,爬虫维护API对爬虫进行CRUD操作,操作完成之后将脚本进行编译,并置入爬虫执行缓存池。
进一步地,若干不同特色业务中心包括:大客户中心、开发者中心、智能体验中心、爬虫众包中心和支持中心中的任意两种或两种以上;
大客户中心用于承接规模化数据爬取业务;
开发者中心用于提供爬虫开发相关服务;
智能体验中心用于面向普通用户,提供智能体验服务;
爬虫众包中心用于提供爬虫开发众包服务,减少爬虫开发成本;
支持中心用于提供各类反馈、需求评估及商务支持服务。
进一步地,若干不同特色业务中心的模型均包括:
API、鉴权中心、业务模型和分发中心;
API用于对外提供相关服务接口;
鉴权中心对API请求进行鉴权及分发;
业务模型与爬虫中心进行交互:
分发中心根据业务模型进行数据分发。
进一步地,若干不同特色业务中心包括:大客户中心;
大客户中心用于承接规模化数据爬取业务。
进一步地,大客户中心的数据采集及推送流程包括步骤:
用户通过API提交数据采集需求;
鉴权中心对用户请求进行鉴权及转发;
控制中心接收请求,并根据需求构建特定爬取类型任务至任务中心;
调度中心按照需求时间从任务中心获取指定任务,并将其发送至爬虫中心;
爬虫中心根据爬取类型进行数据采集,并将数据返回至调度中心;
调度中心将基础数据发送至配置中心进行数据验证及数据特色化处理;
调度中心都会将携带特定配置的数据发至分发中心,分发中心根据特定配置,进行相应的数据推送。
进一步地,若干不同特色业务中心还包括:开发者中心;
开发者中心用于提供爬虫开发相关服务。
进一步地,若干不同特色业务中心还包括:智能体验中心、爬虫众包中心和支持中心;
智能体验中心用于面向普通用户,提供智能体验服务;
爬虫众包中心用于提供爬虫开发众包服务,减少爬虫开发成本;
支持中心用于提供各类反馈、需求评估及商务支持服务。
本发明的有益之处在于用户覆盖面广,爬虫的利用率及效益高。
采取多功能中心实施方案,各中心通过不同的组合方式构建不同的数据产出平台,不带单纯面对爬虫开发者,用户覆盖面广。
具有同时爬取文本、图片、音频、视频等综合爬取能力。
附图说明
图1是一种多中心综合网络爬虫系统的示意图;
图2是图1中多中心综合网络爬虫系统的爬虫中心的示意图;
图3是图1中多中心综合网络爬虫系统的大客户中心的数据采集及推送流程图;
图4是图1中多中心综合网络爬虫系统的特色业务中心的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1至图4所示,一种多中心综合网络爬虫系统,包括:爬虫中心和若干不同特色业务中心;若干不同特色业务中心分别处理不同的特色业务;爬虫中心用于对爬虫进行集中管理为不同特色业务中心服务。
作为一种具体的实施方式,若干不同特色业务中心包括:大客户中心、开发者中心、智能体验中心、爬虫众包中心和支持中心。
大客户中心用于承接规模化数据爬取业务。开发者中心用于提供爬虫开发相关服务。智能体验中心用于面向普通用户,提供智能体验服务。爬虫众包中心用于提供爬虫开发众包服务,减少爬虫开发成本。支持中心用于提供各类反馈、需求评估及商务支持服务。
爬虫中心为核心多个不同特色业务中心环绕爬虫中心。围绕爬虫中心构建特色业务中心,特色业务中心可单独或组合对外提供服务对爬虫能力进行扩展提高爬虫产出。
作为可选的实施方式,若干不同特色业务中心包括:大客户中心、开发者中心、智能体验中心、爬虫众包中心和支持中心中的任意两种或两种以上。或者说根据需要从大客户中心、开发者中心、智能体验中心、爬虫众包中心和支持中心中选择特色业务中心。
爬虫中心实现脚本爬虫动态化,脚本爬虫预编译以及多节点部署。
作为一种优选的实施方式,爬虫中心包括:爬虫池(SpiderPool)、爬虫执行缓存池(ExecuterCachePool)、爬虫持久化数据库(DB)、爬虫维护API、爬虫执行器(SpiderExecuter)和爬虫组。
爬虫池构建完成后对各脚本的爬虫进行提前编译置入爬虫执行缓存池。爬虫执行器根据具体需求构建爬虫组从而处理不同爬取类型任务。构建的爬虫组由对文本爬虫、图片爬虫、音频爬虫和视频爬虫中的两个或两个以上的爬虫组成。爬虫组之间基础数据共享。
进一步地,爬虫中心启动时通过爬虫持久化数据库构建爬虫池。进一步地,爬虫维护API对爬虫进行CRUD操作,操作完成之后将脚本进行编译,并置入爬虫执行缓存池。爬虫组为文本、图片、音频、视频等爬虫组合,提供单条数据的综合爬取能力。
爬虫中心任务缓存池介质选型:单节点可选用Redis、memcached和物理内存;多节点可选用Redis和memcached。
作为一种优选的实施方式,大客户中心的数据采集及推送流程包括步骤:
(1)用户通过API提交数据采集需求;
(2)鉴权中心对用户请求进行鉴权及转发;
(3)控制中心接收请求,并根据需求构建特定爬取类型(文本、图片、音视频、综合等)任务至任务中心;
(4)调度中心按照需求时间从任务中心获取指定任务,并将其发送至爬虫中心;
(5)爬虫中心根据爬取类型进行数据采集,并将数据返回至调度中心;
(6)调度中心将基础数据发送至配置中心进行数据验证及数据特色化处理(字段名称变更、数据结构变更等);如数据不满足需求则重试步骤(5)和步骤(6),超出重试次数判定为失败;
(7)无论成功或失败,调度中心都会将携带特定配置的数据发至分发中心,分发中心根据特定配置,进行相应的数据推送。
作为一种优选的实施方式,若干不同特色业务中心的模型(即开发者中心、智能体验中心等模型)均包括:
API、鉴权中心、业务模型和分发中心;
API用于对外提供相关服务接口;
鉴权中心对API请求进行鉴权及分发;
业务模型与爬虫中心进行交互:
分发中心根据业务模型进行数据分发。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (5)

1.一种多中心综合网络爬虫系统,其特征在于,包括:爬虫中心和若干不同特色业务中心;若干不同特色业务中心分别处理不同的特色业务;所述爬虫中心用于对爬虫进行集中管理为不同特色业务中心服务;
若干不同特色业务中心包括:大客户中心、开发者中心、智能体验中心、爬虫众包中心和支持中心中的任意两种或两种以上;
所述大客户中心用于承接规模化数据爬取业务;
所述开发者中心用于提供爬虫开发相关服务;
所述智能体验中心用于面向普通用户,提供智能体验服务;
所述爬虫众包中心用于提供爬虫开发众包服务,减少爬虫开发成本;
所述支持中心用于提供各类反馈、需求评估及商务支持服务;
若干不同特色业务中心的模型均包括:
API、鉴权中心、业务模型和分发中心;
所述API用于对外提供相关服务接口;
所述鉴权中心对API请求进行鉴权及分发;
所述业务模型与所述爬虫中心进行交互:
所述分发中心根据所述业务模型进行数据分发;
所述爬虫中心包括:爬虫池、爬虫执行缓存池、爬虫持久化数据库、爬虫维护API、爬虫执行器和爬虫组;
所述爬虫池构建完成后对各脚本的爬虫进行提前编译置入爬虫执行缓存池;所述爬虫执行器根据具体需求构建所述爬虫组从而处理不同爬取类型任务;构建的所述爬虫组由对文本爬虫、图片爬虫、音频爬虫和视频爬虫中的两个或两个以上的爬虫组成;
所述爬虫中心启动时通过所述爬虫持久化数据库构建所述爬虫池;
所述爬虫维护API对爬虫进行CRUD操作,操作完成之后将脚本进行编译,并置入所述爬虫执行缓存池。
2.根据权利要求1所述的多中心综合网络爬虫系统,其特征在于,
若干不同特色业务中心包括:大客户中心;
所述大客户中心用于承接规模化数据爬取业务。
3.根据权利要求2所述的多中心综合网络爬虫系统,其特征在于,
所述大客户中心的数据采集及推送流程包括步骤:
用户通过API提交数据采集需求;
鉴权中心对用户请求进行鉴权及转发;
控制中心接收请求,并根据需求构建特定爬取类型任务至任务中心;
调度中心按照需求时间从任务中心获取指定任务,并将其发送至爬虫中心;
爬虫中心根据爬取类型进行数据采集,并将数据返回至调度中心;
调度中心将基础数据发送至配置中心进行数据验证及数据特色化处理;
调度中心都会将携带特定配置的数据发至分发中心,分发中心根据特定配置,进行相应的数据推送。
4.根据权利要求2所述的多中心综合网络爬虫系统,其特征在于,
若干不同特色业务中心还包括:开发者中心;
所述开发者中心用于提供爬虫开发相关服务。
5.根据权利要求4所述的多中心综合网络爬虫系统,其特征在于,
若干不同特色业务中心还包括:智能体验中心、爬虫众包中心和支持中心;
所述智能体验中心用于面向普通用户,提供智能体验服务;
所述爬虫众包中心用于提供爬虫开发众包服务,减少爬虫开发成本;
所述支持中心用于提供各类反馈、需求评估及商务支持服务。
CN202010206809.5A 2020-03-23 2020-03-23 多中心综合网络爬虫系统 Active CN111428107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010206809.5A CN111428107B (zh) 2020-03-23 2020-03-23 多中心综合网络爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010206809.5A CN111428107B (zh) 2020-03-23 2020-03-23 多中心综合网络爬虫系统

Publications (2)

Publication Number Publication Date
CN111428107A CN111428107A (zh) 2020-07-17
CN111428107B true CN111428107B (zh) 2023-09-01

Family

ID=71548690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010206809.5A Active CN111428107B (zh) 2020-03-23 2020-03-23 多中心综合网络爬虫系统

Country Status (1)

Country Link
CN (1) CN111428107B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101969475A (zh) * 2010-11-15 2011-02-09 张军 基于云计算的商业数据可控分发与融合应用系统
CN103995692A (zh) * 2013-02-16 2014-08-20 马侠安 构建动态应用系统的vnms
CN107734059A (zh) * 2017-11-10 2018-02-23 海尔工业控股有限公司 工业互联网云平台
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN110134854A (zh) * 2019-05-28 2019-08-16 江苏快页信息技术有限公司 一种基于用户激励机制的爬虫采集方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082126B2 (en) * 2009-09-25 2015-07-14 National Electronics Warranty, Llc Service plan web crawler
US10229371B2 (en) * 2013-03-04 2019-03-12 Avaya Inc. Systems and methods for indexing and searching administrative data
CN104766014B (zh) * 2015-04-30 2017-12-01 安一恒通(北京)科技有限公司 用于检测恶意网址的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101969475A (zh) * 2010-11-15 2011-02-09 张军 基于云计算的商业数据可控分发与融合应用系统
CN103995692A (zh) * 2013-02-16 2014-08-20 马侠安 构建动态应用系统的vnms
CN107734059A (zh) * 2017-11-10 2018-02-23 海尔工业控股有限公司 工业互联网云平台
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN110134854A (zh) * 2019-05-28 2019-08-16 江苏快页信息技术有限公司 一种基于用户激励机制的爬虫采集方法

Also Published As

Publication number Publication date
CN111428107A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN107193545B (zh) 一种面向构件的多语言协同开发装置、方法与系统
CN102394875B (zh) 由第一网络的成员访问第二网络上可用业务的方法及系统
CN102880503A (zh) 数据分析系统及数据分析方法
CN101383839A (zh) 基于数据服务器的数据分发系统及其实现方法
CN110022354A (zh) 基于http协议的移动应用集成方法、装置、计算机设备及存储介质
CN103401909A (zh) 基于bs的数据交互方法与系统、客户端及服务器
CN107147817A (zh) 虚拟呼叫中心系统及其操作方法
CN114615096B (zh) 基于事件驱动架构的电信计费方法、系统及相关设备
CN106330683A (zh) 一种多媒体座席系统
CN110289975A (zh) 公众号消息群发管理系统及方法
CN111428107B (zh) 多中心综合网络爬虫系统
CN107249019A (zh) 基于业务的数据处理系统、方法、装置和服务器
CN102932484A (zh) 针对电信运营商营帐系统的物联网运营计费中间件系统
CN104753860B (zh) 基于中间件的网络服务系统
CN105450878A (zh) 坐席资源码的分配方法和分配系统
CN107896242A (zh) 一种服务共享方法及装置
CN1858732B (zh) 一种数字家庭网络中的文件搜索系统及方法
CN109858933A (zh) 一种社交客户关系管理方法、设备及系统
CN110555201B (zh) 知识文档生成方法、装置、电子设备及存储介质
CN105761179A (zh) 创新城市知识产权公共信息服务平台系统
CN116450189A (zh) 一种用于软件集成的系统、处理方法、介质以及设备
CN110839080B (zh) 语音服务云平台、提供语音服务的方法、装置及存储介质
CN118051339B (zh) 用于云平台的智能化测试工具浮动许可管理系统和方法
CN113377371B (zh) 多场景配置方法、系统、设备及介质
CN112968930B (zh) 区块链键值对智能合约及其设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant