CN111897636A - 一种基于数据计算与分析的调度方法、设备、存储介质 - Google Patents

一种基于数据计算与分析的调度方法、设备、存储介质 Download PDF

Info

Publication number
CN111897636A
CN111897636A CN202010675761.2A CN202010675761A CN111897636A CN 111897636 A CN111897636 A CN 111897636A CN 202010675761 A CN202010675761 A CN 202010675761A CN 111897636 A CN111897636 A CN 111897636A
Authority
CN
China
Prior art keywords
data
analysis
scheduling
scheduling method
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010675761.2A
Other languages
English (en)
Inventor
沈汉标
王妙玉
邓建平
吴宁泉
周小桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ketyoo Intelligent Technology Co Ltd
Original Assignee
Guangdong Ketyoo Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ketyoo Intelligent Technology Co Ltd filed Critical Guangdong Ketyoo Intelligent Technology Co Ltd
Priority to CN202010675761.2A priority Critical patent/CN111897636A/zh
Publication of CN111897636A publication Critical patent/CN111897636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据计算与分析的调度方法,包括以下步骤:步骤S1、收集资源池中的不同资源的状态及负载信息,保存至数据库中;步骤S2、对数据库内不同资源的状态及负载信息进行整合,将不同资源的状态及负载信息按预先设置的调度策略和调度优先级对数据进行资源协同调度;步骤S3、大数据计算平台按照资源协同调度的结果进行资源的动态分配,分析、输出数据指标。本发明对大数据的分析过程按预设的调度策略及优先级进行动态调度处理,降低资源消耗,在保持业务需求情况下降低集群配置,实现服务器资源的合理应用和高效的数据分析,对企业压缩成本具有积极意义。

Description

一种基于数据计算与分析的调度方法、设备、存储介质
技术领域
本发明涉及大数据计算处理技术领域,尤其涉及一种基于数据计算与分析的调度方法、设备、存储介质。
背景技术
随着大数据技术的发展,计算引擎不断优化和更新,在技术选型上提高计算效率已经接近极限。而随着数据量的增加,大数据平台计算资源承载的数据计算与分析压力越来越大。计算资源包括CPU、内存、磁盘吞吐量、带宽等硬件;在大数据领域,资源消耗是非常巨大的。一个集群有成百上千的服务器,每台服务器都需要较高的配置成本,另外还有电费、机房、运维等成本。
计算资源具有高度异动性,用户对计算资源的请求是动态的,计算资源的调度需要动态进行。因此,如何充分利用机器,在不影响业务需求的情况下合理分配业务数据计算,使机器不闲置,提高资源最大化和高效是急需攻克的难题。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于数据计算与分析的调度方法,对大数据的分析过程按预设的调度策略及优先级进行动态调度处理,实现服务器资源的合理应用和高效数据分析。
本发明的目的之二在于提供一种设备,执行上述一种基于数据计算与分析的调度方法,对大数据的分析过程按预设的调度策略及优先级进行动态调度处理,实现服务器资源的合理应用和高效数据分析。
本发明的目的之三在于提供一种存储介质,执行上述基于数据计算与分析的调度方法,对大数据的分析过程按预设的调度策略及优先级进行动态调度处理,实现服务器资源的合理应用和高效数据分析。
本发明的目的之一采用以下技术方案实现:
一种基于数据计算与分析的调度方法包括以下步骤:
步骤S1、收集资源池中的不同资源的状态及负载信息,保存至数据库中;
步骤S2、对数据库内不同资源的状态及负载信息进行整合,将不同资源的状态及负载信息按预先设置的调度策略和调度优先级对数据进行资源协同调度;
步骤S3、大数据计算平台按照资源协同调度的结果进行资源的动态分配,分析、输出数据指标。
进一步地,所述调度策略为将所述不同资源的状态及负载信息按时间与空间进行划分;按时间划分为按照资源的业务指标划分数据的周期,按空间划分为将不同数据分为不同流数据,根据数据的关键字分区汇总。
进一步地,所述调度优先级为所述时间的优先级高于所述空间的优先级;所述数据的周期为按照月、天、小时、分钟划分。
进一步地,所述根据数据的关键字分区汇总为判断所述数据是否需要全表分析,若所述数据无需全表分析,则将所述数据存储于分区计算单元,进行分区计算;若所述数据需要全表计算,则将数据存储于全表计算单元。
进一步地,若所述数据的周期为月或天,则将所述数据安排于大数据计算平台的闲时计算。
进一步地,所述闲时为每天的0点~6点。
进一步地,所述不同资源包括CPU、内存、网络、虚拟资源;所述资源的状态及负载信息包括资源的总容量、使用量及利用率。
进一步地,所述按空间划分为将不同资源分为不同流数据,缓存于kafka;大数据计算平台在所述kafka存储周期内进行分析。
本发明的目的之二采用以下技术方案实现:
一种设备,包括多个处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,多个处理器执行所述计算机程序时实现如上所述的一种基于数据计算与分析的调度方法。
本发明的目的之三采用以下技术方案实现:
一种存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上所述的一种基于数据计算与分析的调度方法。
相比现有技术,本发明的有益效果在于:
本发明提供了一种基于数据计算与分析的调度方发、设备及存储介质,提供时间与空间的调度策略,以满足大数据计算平台的不同调度需求、分配策略,在不影响业务需求的情况下充分利用机器,合理分配业务数据计算,降低集群配置,实现服务器资源合理应用与高效的数据分析,对企业压缩成本具有积极意义。
附图说明
图1为本发明所提供实施例一的流程示意图;
图2为本发明所提供实施例一的调整策略示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一
如图1、2所示,本发明提供了一种基于数据计算与分析的调度方法,包括以下步骤:
步骤S1、收集资源池中的不同资源的状态及负载信息,保存至数据库中;收集资源池中的不同资源的状态及负载信息,存入数据库中,作为后续资源调度的执行依据。收集资源池中不同资源的状态及负载信息,具体资源包括CPU、内存、网络、虚拟资源;所述资源的状态及负载信息包括资源的总容量、使用量及利用率。将上述信息保存至数据库的表中,实时更新与查询,以方便及时调动资源。
步骤S2、对数据库内不同资源的状态及负载信息进行整合,将不同资源的状态及负载信息按预先设置的调度策略和调度优先级进行资源协同调度。根据历史数据,分别设置不同资源的负载上限阈值与负载下限阈值。当资源的实时负载高于负载上限阈值时,则该资源的负载状态为高负载,应资源扩展,请求增加虚拟机;当资源的实时负载低于负载下限阈值时,则该资源的负载为低负载,应资源收缩,请求移除虚拟机。当资源的负载为高负载或低负载时,则按照预先设置的调度策略及调度优先级进行协同调度,以实现负载均衡。在本实施例中,调度是通过工作流调度引擎Oozie实现的,实时监控与管理集群的工作流,快速定位问题;掌握集群的资源使用情况,并根据需要调整工作流的调度,最大化利用集群资源。
所述调度策略具体为将不同资源的状态及负载信息按时间和空间进行划分。具体的,按时间进行划分为按照资源的业务指标划分数据的周期,所述数据周期为按月、天、小时、分钟划分。且在不同时间内的调度请求,优先处理时间早的调度请求,若该资源的业务指标划分周期为月或天,则可以安排该资源在大数据计算平台的闲时计算。闲时一般为每天的0点~6点,在此时间段负资源的实时负载多数为正常负载,可处理周期较长的数据,不与业务指标划分周期为小时、分钟的资源占用计算资源,实现负载均衡。
而按空间划分为将不同资源划分为不同流数据,根据数据的关键字分区汇总。所述根据数据的关键字分区汇总为判断所述数据是否需要全表分析,若所述数据无需全表分析,则将所述数据存储于分区计算单元,进行分区计算分析,降低数据量减轻集群运算压力;若所述数据需要全表计算,则将数据存储于全表计算单元。将数据分成不同的流数据,且分区汇总,错开数据处理的高峰期。例如IOT物联网平台推送数据和APP埋点数据是连续不断的推送的,但其计算分析并无需立即完成,因此将其缓存于kafka中。Kafka是一个分布式、支持分区的、多副本的基于zookeeper协调的分布式消息系统以实时的处理大量数据以满足各种需求场景,具有持久性、可靠性、高并发性与可拓展性。在kafka的存储周期内且资源的实时负载低于负载上限阈值或负载下限阈值时取出来数据分析。进一步地,调度的优先级为时间优先级高于空间的优先级。优先处理请求时间早且数据的周期短的调度请求,对资源进行收缩或者扩展,即虚拟机的增加或移除。
步骤S3、大数据计算平台按照资源协同调度的结果进行资源的动态分配,分析、输出数据指标。将上述的调度方法应用于实际项目中,无需增加企业成本购买硬件资源,通过调度资源,缩短计算分析的时间。
本发明提供了一种基于数据计算与分析的调度方发、设备及存储介质,提供时间与空间的调度策略,以满足大数据计算平台的不同调度需求、分配策略,在不影响业务需求的情况下充分利用机器,合理分配业务数据计算,提高资源利用率降低集群配置,实现服务器资源合理应用与高效的数据分析,适用于发数据资源监控、协调和分配,对企业压缩成本具有积极意义。
另外,本发明还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述一种基于数据计算与分析的调度方法的步骤。
其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可议介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等,如实施例二。
实施例二
本发明还提供了一种电子设备,包括存储器、多个处理器以及存储在存储器中的程序,所述程序被配置成由处理器执行,多个处理器执行所述程序时实现上述一种基于数据计算与分析的调度方法的步骤。
本实施例中的设备与前述实施例中的方法是基于同一发明构思下的两个方面,在前面已经对方法实施过程作了详细的描述,所以本领域技术人员可根据前述描述清楚地了解本实施中的设备及实施过程,为了说明书的简洁,在此就不再赘述。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (10)

1.一种基于数据计算与分析的调度方法,其特征在于,包括以下步骤:
步骤S1、收集资源池中的不同资源的状态及负载信息,保存至数据库中;
步骤S2、对数据库内不同资源的状态及负载信息进行整合,将不同资源的状态及负载信息按预先设置的调度策略和调度优先级对数据进行资源协同调度;
步骤S3、大数据计算平台按照资源协同调度的结果进行资源的动态分配,分析、输出数据指标。
2.如权利要求1所述的一种基于数据计算与分析的调度方法,其特征在于,所述调度策略为将所述不同资源的状态及负载信息按时间划分与按空间划分;按时间划分为按照资源的业务指标划分数据的周期,按空间划分为将不同数据分为不同流数据,根据数据的关键字分区汇总。
3.如权利要求2所述的一种基于数据计算与分析的调度方法,其特征在于,所述调度优先级为所述时间的优先级高于所述空间的优先级;所述数据的周期为按照月、天、小时、分钟划分。
4.如权利要求3所述的一种基于数据计算与分析的调度方法,其特征在于,所述根据数据的关键字分区汇总为判断所述数据是否需要全表分析,若所述数据无需全表分析,则将所述数据存储于分区计算单元,进行分区计算;若所述数据需要全表计算,则将数据存储于全表计算单元。
5.如权利要求4所述的一种基于数据计算与分析的调度方法,其特征在于,若所述数据的周期为月或天,则将所述数据安排于大数据计算平台的闲时计算。
6.如权利要求5所述的一种基于数据计算与分析的调度方法,其特征在于,所述闲时为每天的0点~6点。
7.如权利要求1所述的一种基于数据计算与分析的调度方法,其特征在于,所述不同资源包括CPU、内存、网络、虚拟资源;所述资源的状态及负载信息包括资源的总容量、使用量及利用率。
8.如权利要求2所述的一种基于数据计算与分析的调度方法,其特征在于,所述按空间划分为将不同资源分为不同流数据,缓存于kafka;大数据计算平台在所述kafka存储周期内进行分析。
9.一种设备,其特征在于,包括多个处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,多个处理器执行所述计算机程序时实现权利要求1~8任意一项所述的一种基于数据计算与分析的调度方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现权利要求1~8任意一项所述的一种基于数据计算与分析的调度方法。
CN202010675761.2A 2020-07-14 2020-07-14 一种基于数据计算与分析的调度方法、设备、存储介质 Pending CN111897636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010675761.2A CN111897636A (zh) 2020-07-14 2020-07-14 一种基于数据计算与分析的调度方法、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010675761.2A CN111897636A (zh) 2020-07-14 2020-07-14 一种基于数据计算与分析的调度方法、设备、存储介质

Publications (1)

Publication Number Publication Date
CN111897636A true CN111897636A (zh) 2020-11-06

Family

ID=73192665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010675761.2A Pending CN111897636A (zh) 2020-07-14 2020-07-14 一种基于数据计算与分析的调度方法、设备、存储介质

Country Status (1)

Country Link
CN (1) CN111897636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024082861A1 (zh) * 2022-10-20 2024-04-25 天翼数字生活科技有限公司 一种应用于视频监控中的云存储调度系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591921A (zh) * 2010-12-20 2012-07-18 微软公司 个人数据中心内的调度和管理
US9229774B1 (en) * 2012-07-13 2016-01-05 Google Inc. Systems and methods for performing scheduling for a cluster
US20170286180A1 (en) * 2016-03-31 2017-10-05 International Business Machines Corporation Joint Network and Task Scheduling
CN109445931A (zh) * 2018-08-31 2019-03-08 安徽四创电子股份有限公司 一种大数据资源调度系统及方法
US20190373031A1 (en) * 2018-05-31 2019-12-05 Salesforce.Com, Inc. Control message from streaming source to facilitate scaling
US20200151269A1 (en) * 2018-11-08 2020-05-14 International Business Machines Corporation Consensus transaction scheduler

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591921A (zh) * 2010-12-20 2012-07-18 微软公司 个人数据中心内的调度和管理
US9229774B1 (en) * 2012-07-13 2016-01-05 Google Inc. Systems and methods for performing scheduling for a cluster
US20170286180A1 (en) * 2016-03-31 2017-10-05 International Business Machines Corporation Joint Network and Task Scheduling
US20190373031A1 (en) * 2018-05-31 2019-12-05 Salesforce.Com, Inc. Control message from streaming source to facilitate scaling
CN109445931A (zh) * 2018-08-31 2019-03-08 安徽四创电子股份有限公司 一种大数据资源调度系统及方法
US20200151269A1 (en) * 2018-11-08 2020-05-14 International Business Machines Corporation Consensus transaction scheduler

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
戴炳荣;李超;旷志光;宋俊典;: "基于多策略的私有云资源弹性调度方法", 计算机应用, no. 1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024082861A1 (zh) * 2022-10-20 2024-04-25 天翼数字生活科技有限公司 一种应用于视频监控中的云存储调度系统

Similar Documents

Publication Publication Date Title
CN107329837B (zh) 一种负载均衡的方法和单元、分布式NewSQL数据库系统
Ren et al. Workload characterization on a production hadoop cluster: A case study on taobao
CN111124679B (zh) 一种面向多源异构海量数据限时自动处理方法
US7668703B1 (en) Determining required capacity for a resource
CN107861796B (zh) 一种支持云数据中心能耗优化的虚拟机调度方法
CN102541460B (zh) 一种多磁盘场景下的磁盘管理方法和设备
CN105700948A (zh) 一种用于在集群中调度计算任务的方法与设备
CN104407926B (zh) 一种云计算资源的调度方法
CN108595254B (zh) 一种查询调度方法
CN109981702B (zh) 一种文件存储方法及系统
CN101963969B (zh) Oracle RAC系统中实现负载均衡的方法和数据库服务器
CN106815254A (zh) 一种数据处理方法和装置
CN111897636A (zh) 一种基于数据计算与分析的调度方法、设备、存储介质
Lang et al. Not for the Timid: On the Impact of Aggressive Over-booking in the Cloud
US8914417B2 (en) Apparatus, system, and method for maintaining a context stack
Talluri et al. Characterization of a big data storage workload in the cloud
CN107193749B (zh) 测试方法、装置及设备
CN108664322A (zh) 数据处理方法及系统
US20160253591A1 (en) Method and apparatus for managing performance of database
US20160110219A1 (en) Managing i/o operations in a shared file system
CN112783892A (zh) 一种通过事件驱动模型实现的链式任务执行引擎
CN113177060A (zh) 一种管理sql语句的方法、装置及设备
CN113296907A (zh) 一种基于集群的任务调度处理方法、系统和计算机设备
Luo et al. Towards efficiently supporting database as a service with QoS guarantees
US12028271B2 (en) Prioritizing messages for server processing based on monitoring and predicting server resource utilization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 511434 No.1 and No.2, Shihua Road, Hualong Town, Panyu District, Guangzhou City, Guangdong Province

Applicant after: Guangdong haomadame smart home Co.,Ltd.

Address before: No.1, No.2 highway, No.2, Panyu, Guangzhou

Applicant before: GUANGDONG KELAINI INTELLIGENT TECHNOLOGY Co.,Ltd.