CN104915259A - 一种应用于分布式采集系统的任务调度方法 - Google Patents

一种应用于分布式采集系统的任务调度方法 Download PDF

Info

Publication number
CN104915259A
CN104915259A CN201510327473.7A CN201510327473A CN104915259A CN 104915259 A CN104915259 A CN 104915259A CN 201510327473 A CN201510327473 A CN 201510327473A CN 104915259 A CN104915259 A CN 104915259A
Authority
CN
China
Prior art keywords
task
acquisition
cluster
tasks
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510327473.7A
Other languages
English (en)
Inventor
张裕超
孙海峰
王传超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201510327473.7A priority Critical patent/CN104915259A/zh
Publication of CN104915259A publication Critical patent/CN104915259A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

本发明公开了一种应用于分布式采集系统的任务调度方法,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。该一种应用于分布式采集系统的任务调度方法与现有技术相比,让批量采集任务或者不断变化的采集任务,能够被动态的分配到多个服务区的应用中并行执行。所有的任务能够被不重复,不遗漏的快速处理。

Description

一种应用于分布式采集系统的任务调度方法
技术领域
本发明涉及大数据技术领域,具体地说是一种实用性强、应用于分布式采集系统的任务调度方法。
背景技术
随者互联网的飞速发展,大数据这个概念越来越受到人们的关注。企业通过采集互联网中的数据,可以从大量数据中找出有价值数据进行分析,并通过分析结果提供决策支持,驱动企业的加速发展。数据的价值越来越受到人们的关注。
但互联网中的信息各种各样,互联网的规模也越来越庞大,传统的采集方式需要在大量服务器中部署采集系统,采集时需要逐个服务器进行管理和配置。各采集系统之间没有关联,也非常容易出现重复采集或者少采集的情况,导致采集的效率不高,维护起来也十分不便。
任务调度管理作为基础架构通常会出现于我们的业务系统中,目的是让各种任务能够按计划有序执行。在数据采集系统中,我们需要对不同网站的多个种类进行采集,采集时需要针对网站地址、采集分类进行大量配置,然后在多个服务器上分别进行采集,这些相对耗时的操作通过任务调度系统来异步并行执行,既能提高任务的执行效率又能保障任务执行的可靠性。基于此,现提供一种可解决上述问题、应用于分布式采集系统的任务调度方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、应用于分布式采集系统的任务调度方法。
一种应用于分布式采集系统的任务调度方法,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。
所述任务调度过程的详细步骤为:
部署服务器集群和控制该集群的控制台,在集群内的每台服务器上均配置采集程序;
在控制台上设置任务调度策略,即确定任务名称、最大线程数、执行任务的所有采集程序服务器地址信息;
通过控制台配置采集任务信息,该信息包括任务名称、任务执行类、任务执行的开始时间和结束时间、数据任务项;
将上述信息配置完成后保存,由控制台系统自动分发任务给集群并执行采集任务,完成采集过程。
所述采集用的集群为ZooKeeper服务器集群,该集群内的服务器实现对各个采集节点的监控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相关信息;采集程序中集成分布试调试管理框架,以实现任务的动态分发调度。
所述分布试调试管理框架是指TbSchedule开源框架,并实现IScheduleTaskDealMulti批量任务接口。
所述IScheduleTaskDealMulti接口实现类的selectTasks,获取要采集的网站及采集类型信息,获取参数由调度器自行分配,该selectTasks参数为采集网站、网站类别的数据集合,集合信息存储在数据库中。
所述采集任务的分配通过调度程序完成,该调度程序自动查询出selectTasks参数,并根据配置信息,对数据ID的哈希值取模,将任务均分,使得系统按任务项将任务均分给采集服务器。
本发明的一种应用于分布式采集系统的任务调度方法,具有以下优点:
该发明的一种应用于分布式采集系统的任务调度方法可以让让一种批量采集任务或者不断变化的采集任务,能够被动态的分配到多个服务区的应用中并行执行。所有的任务能够被不重复,不遗漏的快速处理;可以指定调度的时间区间,灵活性强,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的系统架构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明的提供一种应用于分布式采集系统的任务调度方法,让多个采集任务动态的分配到多台服务器的采集程序中并行执行,所有的任务能够被不重复,不遗漏的快速处理,并且能动态的监控、管理采集任务的执行。
如附图1所示,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。
所述任务调度过程的详细步骤为:
部署服务器集群和控制该集群的控制台,在集群内的每台服务器上均配置采集程序;
在控制台上设置任务调度策略,即确定任务名称、最大线程数、执行任务的所有采集程序服务器地址信息;
通过控制台配置采集任务信息,该信息包括任务名称、任务执行类、任务执行的开始时间和结束时间、数据任务项;
将上述信息配置完成后保存,由控制台系统自动分发任务给集群并执行采集任务,完成采集过程。
所述采集用的集群为ZooKeeper服务器集群,该集群内的服务器实现对各个采集节点的监控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相关信息;采集程序中集成分布试调试管理框架,以实现任务的动态分发调度。
所述分布试调试管理框架是指TbSchedule开源框架,并实现IScheduleTaskDealMulti批量任务接口。
所述IScheduleTaskDealMulti接口实现类的selectTasks,获取要采集的网站及采集类型信息,获取参数由调度器自行分配,该selectTasks参数为采集网站、网站类别的数据集合,集合信息存储在数据库中。
所述采集任务的分配通过调度程序完成,该调度程序会自动查询出集合,并根据配置信息,对数据ID的哈希值取模,将任务均分,比如将一个网站类别数据表的数据ID哈希后按1000取模,即可得到最多1000个任务项,系统可以按任务项将任务均分给指定的采集服务器。
具体实施例:在实际操作中,通过以下步骤实现任务调度过程。
步骤一,本方法依赖于Hadoop ZooKeeper组件,首先要配好ZooKeeper集群,以便实现任务的分布式配置及各服务间的交互通信。
步骤二,在各ZooKeeper服务器上部署采集程序。
步骤三,部署TbSchedule的TbScheduleConsole程序,这个是对调度任务配置、部署、监控的终端。
步骤四,在TbScheduleConsole控制台中配置ZooKeeper服务器的连接。
步骤四,在任务管理页面配置调度策略,填写任务名称、最大线程数、执行任务的所有采集程序服务器地址等信息(多个服务器以逗号分隔)。
步骤五,配置任务,配置信息包含任务名称、任务执行类、任务执行的开始结束时间、数据任务项等信息,其中任务名称要和策略中的任务名称对应;任务执行类和采集程序中配置的执行类对应;开始结束时间为Crontab格式,见下表:
数据任务项对应采集资源的分组信息,控制台调度器将数据任务项均分给各采集服务器。
步骤六,将以上设置配置完并保存后,系统自动分发执行采集任务,可以在管理页面看到各服务器节点的任务执行情况。
在上述技术方案中,相类似的采集任务可以统一维护,根据网站、资源类型等参数信息通过调度程序自动分类,并分发给各个采集服务器进行自动采集;少数特殊任务也可以进行单个维护配置,从而对所有任务进行统一管理。避免了在多个采集服务器中进行大量而重复的配置维护工作。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种应用于分布式采集系统的任务调度方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (6)

1.一种应用于分布式采集系统的任务调度方法,其特征在于,其具体实现过程为:将采集任务动态分配到集群的若干服务器中,每台服务器都配备采集程序且执行不同的采集任务,从而完成动态采集监控。
2.根据权利要求1所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述任务调度过程的详细步骤为:
部署服务器集群和控制该集群的控制台,在集群内的每台服务器上均配置采集程序;
在控制台上设置任务调度策略,即确定任务名称、最大线程数、执行任务的所有采集程序服务器地址信息;
通过控制台配置采集任务信息,该信息包括任务名称、任务执行类、任务执行的开始时间和结束时间、数据任务项;
将上述信息配置完成后保存,由控制台系统自动分发任务给集群并执行采集任务,完成采集过程。
3.根据权利要求2所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述采集用的集群为ZooKeeper服务器集群,该集群内的服务器实现对各个采集节点的监控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相关信息;采集程序中集成分布试调试管理框架,以实现任务的动态分发调度。
4.根据权利要求3所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述分布试调试管理框架是指TbSchedule开源框架,并实现IScheduleTaskDealMulti批量任务接口。
5.根据权利要求4所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述IScheduleTaskDealMulti接口实现类的selectTasks,获取要采集的网站及采集类型信息,获取参数由调度器自行分配,该selectTasks参数为采集网站、网站类别的数据集合,集合信息存储在数据库中。
6.根据权利要求5所述的一种应用于分布式采集系统的任务调度方法,其特征在于,所述采集任务的分配通过调度程序完成,该调度程序自动查询出selectTasks参数,并根据配置信息,对数据ID的哈希值取模,将任务均分,使得系统按任务项将任务均分给采集服务器。
CN201510327473.7A 2015-06-15 2015-06-15 一种应用于分布式采集系统的任务调度方法 Pending CN104915259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510327473.7A CN104915259A (zh) 2015-06-15 2015-06-15 一种应用于分布式采集系统的任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510327473.7A CN104915259A (zh) 2015-06-15 2015-06-15 一种应用于分布式采集系统的任务调度方法

Publications (1)

Publication Number Publication Date
CN104915259A true CN104915259A (zh) 2015-09-16

Family

ID=54084340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510327473.7A Pending CN104915259A (zh) 2015-06-15 2015-06-15 一种应用于分布式采集系统的任务调度方法

Country Status (1)

Country Link
CN (1) CN104915259A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105338086A (zh) * 2015-11-04 2016-02-17 浪潮软件股份有限公司 一种分布式的消息转发方法
CN105373428A (zh) * 2015-12-09 2016-03-02 北京奇虎科技有限公司 一种任务调度方法和系统
CN105446812A (zh) * 2016-01-04 2016-03-30 中国南方电网有限责任公司 一种多任务调度配置方法
CN105631006A (zh) * 2015-12-28 2016-06-01 杭州东方通信软件技术有限公司 一种数据调度采集装置与方法
CN105791166A (zh) * 2016-04-14 2016-07-20 北京思特奇信息技术股份有限公司 一种负载均衡分配的方法及系统
CN106095483A (zh) * 2016-05-31 2016-11-09 乐视控股(北京)有限公司 服务的自动化部署方法及装置
CN106599116A (zh) * 2016-11-30 2017-04-26 中国南方电网有限责任公司 云平台数据集成管理系统和方法
CN107205040A (zh) * 2017-06-29 2017-09-26 麦格创科技(深圳)有限公司 网络信息采集方法及系统
CN107222564A (zh) * 2017-07-04 2017-09-29 贵州数据宝网络科技有限公司 数据采集方法及装置
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
CN108132837A (zh) * 2018-01-02 2018-06-08 中国工商银行股份有限公司 一种分布式集群调度系统及方法
CN108241528A (zh) * 2017-01-19 2018-07-03 上海直真君智科技有限公司 一种用户自定义海量网络安全数据动态采集方法
CN108268549A (zh) * 2016-12-31 2018-07-10 中国移动通信集团湖北有限公司 数据稽核系统和方法
CN108647093A (zh) * 2018-05-09 2018-10-12 厦门南讯软件科技有限公司 一种分布式任务处理系统及其使用方法
CN110209475A (zh) * 2019-05-07 2019-09-06 北京明略软件系统有限公司 数据采集方法及装置
CN110246006A (zh) * 2019-05-26 2019-09-17 必成汇(成都)科技有限公司 分布式环境动态分配撮合任务量的方法
CN110750341A (zh) * 2018-07-24 2020-02-04 深圳市优必选科技有限公司 任务调度方法、装置、系统、终端设备及存储介质
CN111984505A (zh) * 2020-08-21 2020-11-24 豪越科技有限公司 一种运维数据采集引擎及采集方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739775A (zh) * 2012-05-29 2012-10-17 宁波东冠科技有限公司 物联网数据采集服务器集群的监控和管理方法
CN103605764A (zh) * 2013-11-26 2014-02-26 Tcl集团股份有限公司 一种网络爬虫系统及网络爬虫多任务执行和调度方法
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集系统和数据采集方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739775A (zh) * 2012-05-29 2012-10-17 宁波东冠科技有限公司 物联网数据采集服务器集群的监控和管理方法
CN103605764A (zh) * 2013-11-26 2014-02-26 Tcl集团股份有限公司 一种网络爬虫系统及网络爬虫多任务执行和调度方法
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集系统和数据采集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LAZY TEST: "《TBschedule入门》", 《互联网资源HTTP://BLOG.CSDN.NET/KAKA1121/ARTICLE/DETAILS/45060247》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105338086A (zh) * 2015-11-04 2016-02-17 浪潮软件股份有限公司 一种分布式的消息转发方法
CN105338086B (zh) * 2015-11-04 2019-06-25 浪潮软件股份有限公司 一种分布式的消息转发方法
CN105373428A (zh) * 2015-12-09 2016-03-02 北京奇虎科技有限公司 一种任务调度方法和系统
CN105631006B (zh) * 2015-12-28 2019-03-29 杭州东方通信软件技术有限公司 一种数据调度采集装置与方法
CN105631006A (zh) * 2015-12-28 2016-06-01 杭州东方通信软件技术有限公司 一种数据调度采集装置与方法
CN105446812A (zh) * 2016-01-04 2016-03-30 中国南方电网有限责任公司 一种多任务调度配置方法
CN105791166A (zh) * 2016-04-14 2016-07-20 北京思特奇信息技术股份有限公司 一种负载均衡分配的方法及系统
CN106095483A (zh) * 2016-05-31 2016-11-09 乐视控股(北京)有限公司 服务的自动化部署方法及装置
CN106599116A (zh) * 2016-11-30 2017-04-26 中国南方电网有限责任公司 云平台数据集成管理系统和方法
CN108268549A (zh) * 2016-12-31 2018-07-10 中国移动通信集团湖北有限公司 数据稽核系统和方法
CN108241528B (zh) * 2017-01-19 2020-10-09 上海直真君智科技有限公司 一种用户自定义海量网络安全数据动态采集方法
CN108241528A (zh) * 2017-01-19 2018-07-03 上海直真君智科技有限公司 一种用户自定义海量网络安全数据动态采集方法
CN107205040A (zh) * 2017-06-29 2017-09-26 麦格创科技(深圳)有限公司 网络信息采集方法及系统
CN107222564A (zh) * 2017-07-04 2017-09-29 贵州数据宝网络科技有限公司 数据采集方法及装置
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
CN108132837A (zh) * 2018-01-02 2018-06-08 中国工商银行股份有限公司 一种分布式集群调度系统及方法
CN108132837B (zh) * 2018-01-02 2022-04-15 中国工商银行股份有限公司 一种分布式集群调度系统及方法
CN108647093A (zh) * 2018-05-09 2018-10-12 厦门南讯软件科技有限公司 一种分布式任务处理系统及其使用方法
CN110750341A (zh) * 2018-07-24 2020-02-04 深圳市优必选科技有限公司 任务调度方法、装置、系统、终端设备及存储介质
CN110209475A (zh) * 2019-05-07 2019-09-06 北京明略软件系统有限公司 数据采集方法及装置
CN110246006A (zh) * 2019-05-26 2019-09-17 必成汇(成都)科技有限公司 分布式环境动态分配撮合任务量的方法
CN111984505A (zh) * 2020-08-21 2020-11-24 豪越科技有限公司 一种运维数据采集引擎及采集方法
CN111984505B (zh) * 2020-08-21 2023-06-16 豪越科技有限公司 一种运维数据采集装置及采集方法

Similar Documents

Publication Publication Date Title
CN104915259A (zh) 一种应用于分布式采集系统的任务调度方法
CN107688496B (zh) 任务分布式处理方法、装置、存储介质和服务器
CN106844198B (zh) 一种分布式调度自动化测试平台及方法
CN109582466A (zh) 一种定时任务执行方法、分布式服务器集群及电子设备
CN108845878A (zh) 基于无服务器计算的大数据处理方法及装置
CN106331150A (zh) 用于调度云服务器的方法和装置
CN104391918B (zh) 基于对等部署的分布式数据库查询优先级管理的实现方法
CN102841846B (zh) 一种基于Hadoop的软件测试方法、装置和系统
CN102880503A (zh) 数据分析系统及数据分析方法
CN104699736A (zh) 一种分布式的基于可移动设备的大规模数据采集系统及方法
CN105847378B (zh) 一种实现大数据同步的方法和系统
CN108009258A (zh) 一种可在线配置的数据采集与分析平台
CN104168326A (zh) 一种服务器均衡负载的方法及系统
CN104850583A (zh) 海量气候模式输出数据的分布式协同分析系统及方法
WO2018157768A1 (zh) 调度运行设备的方法、设备和运行设备
CN109450694B (zh) 基于自主可控软硬件的多节点异构运维管理方法及系统
CN109298924A (zh) 定时任务的管理方法、计算机可读存储介质和终端设备
CN109800081A (zh) 一种大数据任务的管理方法及相关设备
CN113485806A (zh) 处理任务的方法、装置、设备和计算机可读介质
CN103678488B (zh) 分布式大批量动态任务引擎及采用其处理数据的方法
CN106293911A (zh) 分布式调度系统、方法
CN105791166A (zh) 一种负载均衡分配的方法及系统
US20230376397A1 (en) Method and System for Determining Interval Time for Testing of Server, and Device and Medium
CN108228355A (zh) 任务处理方法及装置、任务调度方法及装置
CN103795642A (zh) 一种负载均衡的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150916

WD01 Invention patent application deemed withdrawn after publication