CN109814992A - 用于大规模网络数据采集的分布式动态调度方法和系统 - Google Patents

用于大规模网络数据采集的分布式动态调度方法和系统 Download PDF

Info

Publication number
CN109814992A
CN109814992A CN201811634642.1A CN201811634642A CN109814992A CN 109814992 A CN109814992 A CN 109814992A CN 201811634642 A CN201811634642 A CN 201811634642A CN 109814992 A CN109814992 A CN 109814992A
Authority
CN
China
Prior art keywords
acquisition
node
collector
scheduling
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811634642.1A
Other languages
English (en)
Inventor
孟剑
俞晓明
程学旗
史存会
郭岩
贺广福
周秀花
余智华
刘悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811634642.1A priority Critical patent/CN109814992A/zh
Publication of CN109814992A publication Critical patent/CN109814992A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种用于大规模网络数据采集的分布式动态调度方法,包括:获取网络数据所在的信源;将参与数据采集的节点注册为采集节点或调度节点;获取数据采集的调度策略;根据该调度策略和该信源的信源信息,生成采集任务;将该采集任务传递至该采集节点的采集器,以配置并启动该采集器;通过该采集器执行该采集任务,以获取采集结果。本发明的分布式调度方法是采集器、信息来源无关的通用调度方法,本方法支持多种异构采集器,支持异构节点,支持采集节点与采集器的热插拔,动态扩展。

Description

用于大规模网络数据采集的分布式动态调度方法和系统
技术领域
本发明属于数据感知与获取领域,特别涉及一种面向网络数据大规模采集的分布式动态任务调度系统。
背景技术
分布式采集任务的调度管理是分布式采集技术的核心组成部分。
随着互联网的发展,网络中的数据量不断增加。相对应的是计算资源的逐步廉价化,这使得分布式的采集成为了互联网数据采集的趋势。
但是互联网的发展所带来的不仅仅是数据量的增加,同样也带来了数据载体的多样性,不仅仅是传统的web数据,还有诸如微博,今日头条等流式数据,以及手机应用等各种各样的载体。这就导致了传统的通用采集框架的失效,需要根据不同数据载体,进行分析设计,使用不同的采集方法,这些方法可能是异构的,跨语言的。因此调度过程应当仅仅关注于采集器的运行状态和结果,而不应当关注于采集细节和内部状态,或者说采集过程对调度而言是透明的。
为了保证能够采集到完整的数据,传统方法常是不断地轮循整个采集过程,这就造成了大量的重复采集,这不仅仅对于采集者是一种计算资源的浪费,同时也对被采集方造成了一定的压力。因而有必要使用灵活的,按需的调度策略。
任务调度通常是很多业务系统的基础架构部分,常见的任务调度方法按照对于程序的控制可以分为抢占式的调度和非抢占式的调度。按照调度基准可以分为基于时间的调度和基于优先级的调度。
抢占式和非抢占式与基于时间和基于优先级的调度是对调度的两个不同维度的策略,因而往往会按照实际应用需求进行组合。
现有的采集任务调度往往是和采集任务紧密耦合的,这就导致任务调度模块和采集模块强相关。这样虽然使得开发过程相对轻松,也给更细粒度的调度方法提供了支持。但是这导致了采集升级的困难,每次的采集升级都需要和调度进行适配。同时当新消息源的加入,新采集器的加入发生时,会极有可能出现不兼容的情况。无法进行灵活的部署升级。
对于调度策略而言,当前的采集调度设计多是关注于任务本身的调度,关注在任务的下发,执行过程。但是如上文所述,为了保证对采集资源的有效利用和尽可能的降低对于被采集资源的压力,合理的动态调度是需要被支持的,而不应仅仅是简单的轮循方式。
同样的,虽然分布式意味着大量的可用计算资源,但是我们依然需要考虑到资源的合理利用问题,因此多节点的资源管理与合理应用依然是一个需要关注的地方
发明内容
针对上述问题,本发明提出一种用于大规模网络数据采集的分布式动态调度方法,包括:获取网络数据所在的信源;将参与数据采集的节点注册为采集节点或调度节点;获取数据采集的调度策略;根据该调度策略和该信源的信源信息,生成采集任务;将该采集任务传递至该采集节点的采集器,以配置并启动该采集器;通过该采集器执行该采集任务,以获取采集结果。
本发明所述的分布式动态调度方法,其中该调度策略包括第一调度策略和 /或第二调度策略,该第一调度策略由用户的数据采集请求获得,该第二调度策略为默认调度策略,该调度策略包括该采集任务的调度优先级、调度周期和调度频次。
本发明所述的分布式动态调度方法,其中该节点上的代理程序将该节点的第一注册信息发送至注册中心,以将该节点注册为该采集节点,或将该节点的第二注册信息发送至该注册中心,以将该节点注册为该调度节点;该第一注册信息包括该节点所在设备的IP、该设备的物理资源使用情况、该节点支持的采集器类型和该节点支持的最大采集进程数,该第二注册信息包括该节点所在设备的IP、该设备的物理资源使用情况。
本发明所述的分布式动态调度方法,其中该采集节点接收该采集任务,拉取该采集器,并将该采集任务发送至该采集器,该采集器根据该采集任务的参数配置信息进行配置,以启动并初始化该采集器。
本发明还提出一种用于大规模网络数据采集的分布式动态调度系统,包括:信源配置模块,用于获取网络数据所在的信源;节点注册模块,用于将参与数据采集的节点注册为采集节点或调度节点;调度策略获取模块,用于获取数据采集的调度策略;采集任务生成模块,用于根据该调度策略和该信源的信源信息,生成采集任务;采集器配置模块,用于将该采集任务传递至该采集节点的采集器,以配置并启动该采集器;数据采集模块,用于通过该采集器执行该采集任务,以获取采集结果。
本发明所述的分布式动态调度系统,其中该调度策略包括第一调度策略和 /或第二调度策略,该第一调度策略由用户的数据采集请求获得,该第二调度策略为默认调度策略,该调度策略包括该采集任务的调度优先级、调度周期和调度频次。
本发明所述的分布式动态调度系统,其中该节点注册模块包括:采集节点注册模块,用于通过该节点上的代理程序将该节点的第一注册信息发送至注册中心,以将该节点注册为该采集节点,该第一注册信息包括该节点所在设备的 IP、该设备的物理资源使用情况、该节点支持的采集器类型和该节点支持的最大采集进程数;调度节点注册模块,用于通过该节点上的代理程序将该节点的第二注册信息发送至注册中心,以将该节点注册为该调度节点,该第二注册信息包括该节点所在设备的IP和该设备的物理资源使用情况。
本发明所述的分布式动态调度系统,其中采集器配置模块具体包括:该采集节点接收该采集任务,拉取该采集器,并将该采集任务发送至该采集器,该采集器根据该采集任务的参数配置信息进行配置,以启动并初始化该采集器。
本发明还提出一种计算机可读介质,存储有计算机可执行指令,该计算机可执行指令用于执行上述的用于大规模网络数据采集的分布式动态调度方法。
本发明还提出一种数据处理装置,包括上述的计算机可读介质,该数据处理装置调取并执行该计算机可读介质中的计算机可执行指令,以对采集网络数据的采集任务进行分布式动态调度。
附图说明
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。
图2是本发明的一种大规模网络数据的感知与获取方法的数据流示意图。
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意图。
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的大规模网络数据的感知与获取方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
本发明的说明书中包括以下术语:
“信息来源”,指互联网信息的来源;“传媒-信簇-信源”架构,“传媒”指网络空间中的不同信息传播媒体如新闻、论坛、博客、新闻APP、微博、微信、社交类网站等媒体;“信簇”指一种传媒的一个具体网络数据的集合,例如新闻类网站中的新浪新闻网站;“信源”,指网络空间中信息聚合的最小单位,例如新浪新闻网站中的国内频道;“Board-Article”架构,Board页,指网络空间中专门用于展示具体信息内容链接的页面,Article页,指用于展示具体信息内容的页面;“Web Map”,是用于描述网络空间中信息来源之间的复杂关系的映射,例如链接互指关系、主题相关关系、好友关系等。
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。如图1所示,本发明的大规模网络数据的感知与获取系统,按照功能逻辑划分为四个子平台,信源管理与配置子平台、调度子平台、采集子平台和监控与统计子平台。其中:
信源管理与配置子平台,通过不同维度,实现对多传媒类型信源的统一管理;实现对信源的采集、抽取配置,以及对各流程的配置验证;与业务系统数据和业务用户相结合,能够提供面向业务的信源数据分析。
调度子平台,提供分布式的采集架构,支持采集节点的线性扩展;调度的最小单元为任务,任务具有抽象性,支持实现多种不同采集类型的采集任务;调度策略是对任务执行优先级和频次的定义,用于保证任务被调度的及时性。
采集子平台,提供实现不同采集任务的采集器,如新闻采集器、论坛采集器,实现解析采集任务,执行采集,提交采集结果至数据输出接口的功能;提供采集的基础服务,包括查重服务,状态服务,代理服务,JS解析服务。
监控与统计子平台,提供对分布式采集系统的采集节点信息、调度信息、任务执行信息的监控,以界面的方式与用户进行交互;对各类信源的采集信息进行基础统计,利用线上数据检测失效信源,并汇总至信源管理与配置子平台。
多信息来源在配置与管理子平台进行感知、拆分、管理和采集抽取配置;配置信息通过调度子平台的任务接口和调度策略接口形成具有不同调度策略的多信息来源任务,通过分布式架构下发到采集节点;采集任务由采集子平台中的采集器完成数据的获取,并将获取的数据写入到数据输出接口;监控与统计子平台通过界面化的方式提供用户对系统运行状态的监控,通过实时分析在线数据提供多维度的数据统计和数据质量的实时反馈。
具体来说,信源管理与配置子平台主要包括信息来源自动感知模块、信息来源自动拆分模块、信源管理模块、信源配置模块、信簇分类模块、信源分类模块、信源验证模块和传媒分类模块,以及批次类别管理、用户管理、业务系统管理、配置任务管理、账号与Cookie管理、配置任务统计、信源多维度统计等模块。信源管理与配置子平台通过“传媒-信簇-信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织;通过根据Board-Article架构把信息来源的最小粒度设置为网站的版块,结合“传媒-信簇-信源”三级结构的分层概念体系,实现对大规模网络信息来源的精确感知;利用自动化和半自动化的抽取算法的协同合作,结合不同抽取算法的组合抽取策略,通过界面化的多阶段信源模板验证,实现高质量的结构化数据提取。配置好的信源可通过信源配置下发模块下发到各子平台。配置任务统计、信源多维统计给出信源的统计视图,辅助用户决策。
调度子平台主要包括分布式架构、调度策略模块、任务管理模块和采集器管理模块。调度子平台通过分布式架构,实现一套支持可线性动态伸缩的分布式架构,支持采集节点的动态增减,包括注册中心和节点的代理程序;利用配置平台下发的配置,通过任务生成模块生成具有不同优先级的采集任务;调度策略模块根据采集任务和采集资源,按照不同的调度策略完成任务的调度;任务通过分布式架构的采集节点Agent进行执行。
采集子平台主要包括多信息来源网络数据的采集器和采集基础服务框架,如查重服务模块、状态服务模块、代理服务模块、JS解析服务模块等。采集器内部基于Board-Article架构建模信源实现对信源信息改变的快速精准感知,包括新闻采集器、论坛采集器和博客采集器等;采集器被采集节点Agent启动,根据采集和抽取配置项,执行特定信源的数据获取和结构化解析。在采集完成后,将数据写入到数据输出接口。
监控与统计子平台主要包括采集调度监控模块、采集信息统计模块和在线失效信源检测模块。采集调度监控模块通过采集调度监控对系统运行状态的实时监控和调度,包括采集节点、调度节点、采集任务;采集信息统计模块对数据的多维度统计,通过报表的方式展示,便于用户了解获取数据的情况;在线失效信源检测模块利用基于线上实时内容的失效检测算法,及时检测网站变更导致的采集抽取配置失效情况,实时反馈给用户,辅助用户决策,并定期反馈给信源配置模块。
本发明的大规模网络数据的感知与获取系统还包括数据输出接口,主要实现接收采集器采集数据的写入,以及上层业务系统的订阅。根据不同的业务场景,数据输出接口实现可包括文件系统、消息队列系统、数据库系统等。
图2是本发明的一种大规模网络数据的感知与获取方法的业务逻辑流程图。如图2所示,本发明的数据感知与获取方法通过各子平台,实现大规模网络数据的获取。具体来说,本发明的数据感知与获取方法包括:
步骤1,信源管理与配置
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意图。如图3所示,信源管理与配置步骤包括:
步骤11,感知并导入信息来源,包括:
步骤111,通过自动感知技术获取信息来源;
步骤112,使用自动结合人工参与的技术将信息来源依据信息来源的信息组织特点依次拆分成传媒、信簇和信源;
步骤113,根据传媒、信簇、信源的定义把信息来源和拆分得到信源对齐到“传媒-信簇-信源”的分层概念体系,将拆分得到的传媒、信簇、信源导入信源管理与配置子平台中;
步骤12,信息来源类别标注,包括:
步骤121,根据需求定义要标注的类别,例如以信源、信簇主题内容为维度划分的主题类别,以信源、信簇关注地域为维度划分的地域类别,以信源网页结构为维度划分的页面类别;
步骤122,对信簇和信源进行类别标注,形成Web Map;
步骤13,根据信息来源类别配置采集模板,包括:
步骤131根据采集入口URL调用采集子平台抓取入口页面,如有必要则人工修改入口URL。
步骤132,根据采集入口页面中的链接设置候选的抓取规则,抓取规则的表达方式根据抓取方法的不同而不同,例如抓取规则可以用正则表达式、XPath (XML路径语言,XMLPath Language)、CSS(层叠样式表,Cascading Style Sheets)选择器表达,也可以用网页的DOM树(文档对象模型,Document Object Model)中节点的标签名、属性名值对表达,或者使用以上方式中两种或两种以上的组合进行表达;
步骤133,调用采集子平台,选取样例页面对抓取规则的效果进行验证,如有必要则人工修改抓取规则;将通过验证的抓取规则配置为采集模板;
步骤14,根据信息来源内容配置抽取模板,包括:
步骤141,针对样例页面中不同的目标信息内容使用不同的信息抽取算法进行抽取测试,例如新闻页面中的新闻正文,论坛中的帖子标题,根据抽取效果选择最好的目标信息内容与抽取算法的对应关系;
步骤142,根据步骤141得到的对应关系自动生成分层的不同抽取算法的抽取模板,其中抽取模板可以为某一种数据抽取算法,也可以为多种数据抽取算法按某种规律的组合,例如,利用A算法抽取新闻中的标题和正文,以A 算法生抽抽取模板;又例如,利用A算法抽取新闻中的标题,利用B算法抽取新闻中的正文,将A算法和B算法组合生成抽取模板;
步骤143,调用采集子平台校验步骤142生成的抽取模板的效果,如有必要则转至步骤141进行重新测试;
步骤15,信源的验证,包括:
步骤151,根据用户需求人工触发或定期触发自动校验程序对信源进行验证,验证内容包括信源的入口是否有效、采集模板和抽取模板对信源的适应性等;
步骤152,定时巡查从监控与统计子平台反馈的的信源采集情况,如有潜在失效信源,则人工检验采集模板和抽取模板的有效性,根据检验结果重新配置采集模板和抽取模板,或将潜在失效信源置为无效。
步骤2,采集任务调度
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。如图4 所示,采集任务调度步骤包括:
步骤21:将用于调度任务的信源信息生成信源表;
步骤22:采集任务的生成:根据信源表的信源信息和用户提交的调度策略生成采集任务,或根据信源表的信息和调度子平台默认的调度策略生成采集任务,或根据信源表的信源信息、用户提交的调度策略和调度子平台默认的调度策略生成采集任务,写入采集任务表,其中调度策略包括采集任务的调度优先级、采集任务的调度周期、采集任务的调度频次等;
步骤23:注册采集节点,节点通过部署在节点上的代理程序在注册中心进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情况、节点能支持的采集器类型、节点能支持的最大采集进程数,采集进程数由代理根据设备物理配置自动推算,完成注册的节点成为采集节点;代理程序同时将采集节点的状态存入注册中心;
步骤24:注册调度节点,节点通过部署在节点上的代理程序在注册中心进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情况,完成注册的节点成为调度节点;代理程序同时将调度节点的状态存入注册中心;
步骤25:调度器执行任务调度,包括:
步骤251,任务加载线程,加载采集任务表中的采集任务的参数配置信息,并且根据采集任务的类型解析采集任务的参数配置信息;
步骤252,任务更新线程,加载采集任务被调度的信息,更新采集任务的参数配置信息,包括采集任务已经被调度次数和最近一次被调度的时间;
步骤253,任务拉取线程,从任务队列中按优先级拉取任务;
步骤254,调度器将自身的工作状态存入注册中心;
步骤26,采集节点代理拉取采集器执行任务,采集节点收到调度器传递的启动请求,进行分析,得到采集任务具体类型,将首先从HDFS拉取相应的采集器,然后将采集任务传递到采集器,采集器使用调度的通用接口,获取采集任务的参数配置信息启动采集器。此时代理程序将监控采集器状态,将采集器状态存入注册中心,并将启动的采集器进程信息上报至调度器,当采集器状态发生改变时通知调度器,由调度器对采集器进行统一的管理;
步骤3,网络数据采集
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。如图5 所示,网络数据采集步骤包括:
步骤31,加载采集任务的参数配置信息形成的配置文件,配置文件包含调用采集子平台模块的配置,以及采集任务需求。采集任务需求包括采集目标信息来源,需要提供Board页的URL以及抽取的范围要求,诸如采集抽取深度,数据持久化操作,是否去重,Article页的期望数量等;
步骤32:按照采集任务需求,进行采集子平台的配置,对采集子平台提供的模块进行编排,选择使用的采集器、查重服务模块、状态服务模块、代理服务模块及JS解析服务模块等,部分模块按配置文件的要求进行单独的配置;
步骤33,采集子平台根据配置文件进行初始化,包括持久化接口的初始化,查重模块的初始化,页面缓存的初始化,以及编排好的采集器初始化;
步骤34,采集器启动,进行Board页采集,使用配置要求的抽取模板,抽取Board页中的Article页链接,放入待采集数据链接队列中,不断重复本步直到完成配置文件要求,或采集完成所有的Board页;
步骤35,对待采集数据链接队列中的Article页链接进行采集,获取时按配置文件的要求进行过滤,直到待采集数据链接队列为空,采集时,使用配置的抽取模板,对Article页面进行抽取,得到结构化数据;
步骤37,将步骤35得到的结构化数据进行持久化操作,将结构化数据输出到数据输出接口中,据不同的业务场景,数据输出接口实现可包括文件系统、消息队列系统、数据库系统等;
步骤4,数据采集的监控与统计
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。如图6所示,监控与统计步骤包括:
步骤41,对采集任务信息和信源统计信息进行统计,并写入监控与统计数据库;
步骤42,采集调度监控,包括:
步骤421,用户在前端的面板上选取需要查看的监控指标;
步骤422,如果该指标是调度器状态、采集节点状态或采集器状态,则从注册中心中查询调度器状态数据、采集节点状态数据、采集器状态数据,返回给前端;如果指标是采集任务信息和信源统计信息,则从监控与统计数据库中获取采集任务信息和信源统计信息,聚合后发送给前端;
步骤423,前端使用绘图工具渲染步骤412获取的数据,展示到面板中;
步骤424,使用前端面板上的启动/停用调度器、启动/停用采集节点按钮可实现相应的控制功能;
步骤425,使用前端面板上的停止采集任务、停用采集器按钮可实现控制采集任务和采集器的功能;
步骤43,采集量统计,包括:
步骤431,读取结构化数据,按照监控与统计子平台中配置的采集时间粒度,统计各信源的数据采集量,并存入监控与统计数据库中;其中采集时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤432,按照监控与统计子平台中配置的活跃度时间粒度,基于信源前 n个时间粒度的数据采集量计算信源的活跃等级,并存入监控与统计数据库中;活跃度时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤433,用户通过前端面板查看统计信息,发送查询请求;
步骤434,查询监控与统计数据库,将查询结果返回给前端;
步骤44,在线失效检测,包括:
步骤441,获取同一信源所采集数据的相似度,例如按照文章的标题与正文的相关性获取文章的相似度,通过相似度对信源进行动态的累计相似度打分,得到相似度分值,将相似度分值存入监控与统计数据库;
步骤442,分析信源最近m个失效检测时间粒度的数据采集量和相似度分值的变化情况,若数据采集量变化量大于根据历史经验设定的数据采集量阈值,和或相似度分值变化量大于根据历史经验设定的相似度分值阈值,则判断这个信源为潜在失效信源,把检测到的潜在失效信源信息写入监控与统计数据库;失效检测时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤443,将检测到的潜在失效信源推送到信源管理与配置子平台,供信源管理与配置子平台用户确认潜在失效信源为有效或失效,并做进一步处理以优化信源。
需要说明的是,上述实施例中介绍的各个步骤并非都是必须的,本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。
本发明实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令被处理器执行时实现上述大规模网络数据的感知与获取方法。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
具体而言,本发明实施例还提供一种数据处理设备,数据处理设备安装有上述有计算机可执行指令,并与网络连接;数据处理设备通过执行计算机可执行指令实现上述大规模网络数据的感知与获取,并可以通过前端面板,例如是数据输入/输出设备与用户交互。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种用于大规模网络数据采集的分布式动态调度方法,其特征在于,包括:
获取网络数据所在的信源;
将参与数据采集的节点注册为采集节点或调度节点;
获取数据采集的调度策略;
根据该调度策略和该信源的信源信息,生成采集任务;
将该采集任务传递至该采集节点的采集器,以配置并启动该采集器;
通过该采集器执行该采集任务,以获取采集结果。
2.如权利要求1所述的分布式动态调度方法,其特征在于,该调度策略包括第一调度策略和/或第二调度策略,该第一调度策略由用户的数据采集请求获得,该第二调度策略为默认调度策略,该调度策略包括该采集任务的调度优先级、调度周期和调度频次。
3.如权利要求1所述的分布式动态调度方法,其特征在于,该节点上的代理程序将该节点的第一注册信息发送至注册中心,以将该节点注册为该采集节点,或将该节点的第二注册信息发送至该注册中心,以将该节点注册为该调度节点;该第一注册信息包括该节点所在设备的IP、该设备的物理资源使用情况、该节点支持的采集器类型和该节点支持的最大采集进程数,该第二注册信息包括该节点所在设备的IP、该设备的物理资源使用情况。
4.如权利要求1所述的分布式动态调度方法,其特征在于,该采集节点接收该采集任务,拉取该采集器,并将该采集任务发送至该采集器,该采集器根据该采集任务的参数配置信息进行配置,以启动并初始化该采集器。
5.一种用于大规模网络数据采集的分布式动态调度系统,其特征在于,包括:
信源配置模块,用于获取网络数据所在的信源;
节点注册模块,用于将参与数据采集的节点注册为采集节点或调度节点;
调度策略获取模块,用于获取数据采集的调度策略;
采集任务生成模块,用于根据该调度策略和该信源的信源信息,生成采集任务;
采集器配置模块,用于将该采集任务传递至该采集节点的采集器,以配置并启动该采集器;
数据采集模块,用于通过该采集器执行该采集任务,以获取采集结果。
6.如权利要求5所述的分布式动态调度系统,其特征在于,该调度策略包括第一调度策略和/或第二调度策略,该第一调度策略由用户的数据采集请求获得,该第二调度策略为默认调度策略,该调度策略包括该采集任务的调度优先级、调度周期和调度频次。
7.如权利要求5所述的分布式动态调度系统,其特征在于,该节点注册模块包括:
采集节点注册模块,用于通过该节点上的代理程序将该节点的第一注册信息发送至注册中心,以将该节点注册为该采集节点,该第一注册信息包括该节点所在设备的IP、该设备的物理资源使用情况、该节点支持的采集器类型和该节点支持的最大采集进程数;
调度节点注册模块,用于通过该节点上的代理程序将该节点的第二注册信息发送至注册中心,以将该节点注册为该调度节点,该第二注册信息包括该节点所在设备的IP和该设备的物理资源使用情况。
8.如权利要求5所述的分布式动态调度系统,其特征在于,采集器配置模块具体包括:该采集节点接收该采集任务,拉取该采集器,并将该采集任务发送至该采集器,该采集器根据该采集任务的参数配置信息进行配置,以启动并初始化该采集器。
9.一种计算机可读介质,存储有计算机可执行指令,该计算机可执行指令用于执行如权利要求1~4任一项所述的用于大规模网络数据采集的分布式动态调度方法。
10.一种数据处理装置,包括如权利要求9所述的计算机可读介质,该数据处理装置调取并执行该计算机可读介质中的计算机可执行指令,以对采集网络数据的采集任务进行分布式动态调度。
CN201811634642.1A 2018-12-29 2018-12-29 用于大规模网络数据采集的分布式动态调度方法和系统 Pending CN109814992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811634642.1A CN109814992A (zh) 2018-12-29 2018-12-29 用于大规模网络数据采集的分布式动态调度方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811634642.1A CN109814992A (zh) 2018-12-29 2018-12-29 用于大规模网络数据采集的分布式动态调度方法和系统

Publications (1)

Publication Number Publication Date
CN109814992A true CN109814992A (zh) 2019-05-28

Family

ID=66602719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811634642.1A Pending CN109814992A (zh) 2018-12-29 2018-12-29 用于大规模网络数据采集的分布式动态调度方法和系统

Country Status (1)

Country Link
CN (1) CN109814992A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442766A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 网页数据采集方法、装置、设备及存储介质
CN110851253A (zh) * 2019-11-06 2020-02-28 万达信息股份有限公司 一种远程运维的方法、系统、存储介质及电子设备
CN111309457A (zh) * 2019-07-10 2020-06-19 浙江商安信息科技有限公司 一种采集订餐商铺信息的方法、终端、采集节点及系统
CN112818201A (zh) * 2021-02-07 2021-05-18 四川封面传媒有限责任公司 一种网络数据采集方法、装置、计算机设备及存储介质
CN113010372A (zh) * 2020-12-08 2021-06-22 云智慧(北京)科技有限公司 一种api监控的分布式实现方法和系统
CN113806159A (zh) * 2020-06-11 2021-12-17 马上消费金融股份有限公司 数据的处理方法及装置、电子设备和可读存储介质
CN114124643A (zh) * 2021-11-10 2022-03-01 中盈优创资讯科技有限公司 一种基于PaaS的网络设备流量采集方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810023A (zh) * 2014-03-06 2014-05-21 中国科学院信息工程研究所 一种云平台中分布式应用的智能部署方法及系统
CN104158878A (zh) * 2014-08-18 2014-11-19 浪潮(北京)电子信息产业有限公司 一种自适应调度的分布式监控数据采集方法和系统
CN105631006A (zh) * 2015-12-28 2016-06-01 杭州东方通信软件技术有限公司 一种数据调度采集装置与方法
US20180018007A1 (en) * 2012-02-13 2018-01-18 Accenture Global Services Limited Electric vehicle distributed intelligence
CN108241528A (zh) * 2017-01-19 2018-07-03 上海直真君智科技有限公司 一种用户自定义海量网络安全数据动态采集方法
CN108769115A (zh) * 2018-04-19 2018-11-06 中国科学院计算技术研究所 分布式rss数据采集方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180018007A1 (en) * 2012-02-13 2018-01-18 Accenture Global Services Limited Electric vehicle distributed intelligence
CN103810023A (zh) * 2014-03-06 2014-05-21 中国科学院信息工程研究所 一种云平台中分布式应用的智能部署方法及系统
CN104158878A (zh) * 2014-08-18 2014-11-19 浪潮(北京)电子信息产业有限公司 一种自适应调度的分布式监控数据采集方法和系统
CN105631006A (zh) * 2015-12-28 2016-06-01 杭州东方通信软件技术有限公司 一种数据调度采集装置与方法
CN108241528A (zh) * 2017-01-19 2018-07-03 上海直真君智科技有限公司 一种用户自定义海量网络安全数据动态采集方法
CN108769115A (zh) * 2018-04-19 2018-11-06 中国科学院计算技术研究所 分布式rss数据采集方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309457A (zh) * 2019-07-10 2020-06-19 浙江商安信息科技有限公司 一种采集订餐商铺信息的方法、终端、采集节点及系统
CN110442766A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 网页数据采集方法、装置、设备及存储介质
CN110851253A (zh) * 2019-11-06 2020-02-28 万达信息股份有限公司 一种远程运维的方法、系统、存储介质及电子设备
CN113806159A (zh) * 2020-06-11 2021-12-17 马上消费金融股份有限公司 数据的处理方法及装置、电子设备和可读存储介质
CN113010372A (zh) * 2020-12-08 2021-06-22 云智慧(北京)科技有限公司 一种api监控的分布式实现方法和系统
CN112818201A (zh) * 2021-02-07 2021-05-18 四川封面传媒有限责任公司 一种网络数据采集方法、装置、计算机设备及存储介质
CN114124643A (zh) * 2021-11-10 2022-03-01 中盈优创资讯科技有限公司 一种基于PaaS的网络设备流量采集方法及装置
CN114124643B (zh) * 2021-11-10 2023-08-01 中盈优创资讯科技有限公司 一种基于PaaS的网络设备流量采集方法及装置

Similar Documents

Publication Publication Date Title
CN109814992A (zh) 用于大规模网络数据采集的分布式动态调度方法和系统
CN111241078B (zh) 数据分析系统、数据分析的方法及装置
CN107766205B (zh) 一种面向微服务调用过程跟踪的监控系统及方法
CN111339071B (zh) 一种多源异构数据的处理方法及装置
US10606711B2 (en) Recovery strategy for a stream processing system
CN109840298A (zh) 大规模网络数据的多信息来源采集方法和系统
CN109753596A (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
CN109815382A (zh) 大规模网络数据的感知与获取方法和系统
CN109034993A (zh) 对账方法、设备、系统及计算机可读存储介质
CN107103064B (zh) 数据统计方法及装置
US20130262443A1 (en) Method and system for processing data queries
CN108415832A (zh) 接口自动化测试方法、装置、设备及存储介质
CN110515912A (zh) 日志处理方法、装置、计算机装置及计算机可读存储介质
CN109471845A (zh) 日志管理方法、服务器及计算机可读存储介质
CN101655943A (zh) 企业应用集成工作流管理方法及系统
WO2024012221A1 (zh) 基于版式数据流文件底板创建虚拟服务共享池的方法
CN105095329B (zh) 一种人口数据校核方法
CN111966943A (zh) 流式数据分发方法和系统
CN109819019A (zh) 用于大规模网络数据采集的监控与统计分析方法和系统
CN111611479B (zh) 用于网络资源推荐的数据处理方法及相关装置
CN112579552A (zh) 日志存储及调用方法、装置及系统
CN114756629B (zh) 基于sql的多源异构数据交互分析引擎及方法
WO2021043066A1 (zh) 一种多管理域的通信方法和装置
CN114756301A (zh) 日志处理方法、装置和系统
CN103823875B (zh) 服务组合的检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190528

WD01 Invention patent application deemed withdrawn after publication