CN112099937A - 一种资源治理方法和装置 - Google Patents

一种资源治理方法和装置 Download PDF

Info

Publication number
CN112099937A
CN112099937A CN201910525788.0A CN201910525788A CN112099937A CN 112099937 A CN112099937 A CN 112099937A CN 201910525788 A CN201910525788 A CN 201910525788A CN 112099937 A CN112099937 A CN 112099937A
Authority
CN
China
Prior art keywords
resource
real
time computing
occupied
computing task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910525788.0A
Other languages
English (en)
Inventor
闫莉刚
高廉墀
张升
刘昕
裴周宇
张蛟
李豆豆
刘彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910525788.0A priority Critical patent/CN112099937A/zh
Publication of CN112099937A publication Critical patent/CN112099937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种资源治理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:采集实时计算任务的元数据信息;基于所述元数据信息和预设的规则,确定所述实时计算任务占用的资源情况;在占用的资源情况满足资源回收条件时,则反馈资源回收信息,所述资源回收信息用于指示回收至少部分预分配给所述实时计算任务的资源,所述资源回收信息包括可回收的资源类型和相对应可回收的资源量。该实施方式能够在不干扰实时计算任务顺利运行的同时提高实时计算平台资源利用率,节省实时计算平台资源成本,还能够定量分析需要减少的资源量,从而最大化提高资源利用率。

Description

一种资源治理方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种资源治理方法和装置。
背景技术
随着互联网技术的不断发展,互联网大数据的趋势日益显著,数据处理的时效性、准确性、稳定性越来越重要,在此趋势下,大数据实时计算平台应运而生。大数据实时计算平台可以为企业提供精准的数据加工、数据存储、数据计算等服务。为保证业务能够顺利进展,业务方会估算任务所需的资源,从而配置软硬件环境。目前,常用的计算任务所需资源的方法包括如下几种:(1)根据实时计算任务输入数据量大小评估所需资源量;(2)根据实时计算任务计算逻辑复杂程度评估所需资源量;(3)根据实时计算任务依赖的外部服务处理效率及网络等因素评估所需资源量;(4)根据实时计算任务多次调试得出所需资源量。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
各业务对资源的需求没有准确的计算方式,不能准确的计算出各业务所需的资源,而为了满足业务发展的需求,平台需要不断增加软硬件方面的基础建设,容易导致资源浪费问题,使得实时计算平台的资源没有得到充分利用。而且,不断增加软硬件方面的基础建设也会时成本不断上升,不利于业务的快速发展。
发明内容
有鉴于此,本发明实施例提供一种资源治理方法和装置,能够在不干扰实时计算任务顺利运行的同时提高实时计算平台资源利用率,节省实时计算平台资源成本,还能够定量分析需要减少的资源量,从而最大化提高资源利用率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种资源治理方法,包括:
采集实时计算任务的元数据信息;
基于所述元数据信息,确定所述实时计算任务占用的资源情况;
在占用的资源情况满足资源回收条件时,则根据预设的规则确定资源回收信息,所述资源回收信息用于指示回收至少部分预分配给所述实时计算任务的资源,所述资源回收信息包括可回收的资源类型和相对应可回收的资源量。
可选地,所述可回收的资源类型包括分配给所述实时计算任务的执行单元或硬件配置。
可选地,所述实时计算任务占用的资源情况包括:所述实时计算任务占用的资源量,或所述实时计算任务占用的资源使用率;
占用的资源情况满足资源回收条件包括:预定周期内所述占用的资源量的最大值小于预分配给该实时计算任务的资源,或预定周期内所述资源使用率的最大值小于资源阈值;
根据预设的规则确定资源回收信息包括:
根据所述实时计算任务占用的资源使用率和所述资源阈值,确定可回收的执行单元的数量或硬件配置。
可选地,根据下式确定可回收的执行单元的数量或硬件配置:
R1=(S-K)×R2
其中,K表示资源使用率,S表示与资源使用率对应的资源阈值,R2表示实时计算任务占用的执行单元的数量或占用的硬件配置,R1表示可回收的执行单元的数量或硬件配置。
可选地,所述方法还包括:统计所述资源回收信息和实际回收的资源情况;根据统计结果,调整所述资源阈值。
为实现上述目的,根据本发明实施例的另一方面,提供了一种资源治理装置,包括:信息采集模块,用于采集实时计算任务的元数据信息;资源确定模块,用于基于所述元数据信息,确定所述实时计算任务占用的资源情况;资源治理模块,用于在占用的资源情况满足资源回收条件时,则根据预设的规则确定资源回收信息,所述资源回收信息用于指示回收至少部分预分配给所述实时计算任务的资源,所述资源回收信息包括可回收的资源类型和相对应可回收的资源量。
可选地,所述资源治理模块还用于:所述可回收的资源类型包括分配给所述实时计算任务的执行单元或硬件配置。
可选地,所述实时计算任务占用的资源情况包括:所述实时计算任务占用的资源量,或所述实时计算任务占用的资源使用率;
占用的资源情况满足资源回收条件包括:预定周期内所述占用的资源量的最大值小于预分配给该实时计算任务的资源,或预定周期内所述资源使用率的最大值小于资源阈值;
所述资源治理模块还用于:根据所述实时计算任务占用的资源使用率和所述资源阈值,确定可回收的执行单元的数量或硬件配置。
可选地,所述资源治理模块还用于根据下式确定可回收的执行单元的数量或硬件配置:
R1=(S-K)×R2
其中,K表示资源使用率,S表示与资源使用率对应的资源阈值,R2表示实时计算任务占用的执行单元的数量或占用的硬件配置,R1表示可回收的执行单元的数量或硬件配置。
可选地,所述装置还包括阈值调整模块,用于:统计所述资源回收信息和实际回收的资源情况;根据统计结果,调整所述资源阈值。
为实现上述目的,根据本发明实施例的又一方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的资源治理方法。
为实现上述目的,根据本发明实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的资源治理方法。
上述发明中的一个实施例具有如下优点或有益效果:通过采集的实时计算任务的元数据信息和预设的规则判断确定所述实时计算任务占用的资源是否满足资源回收条件,在占用的资源情况满足资源回收条件时,则回收至少部分预分配给所述实时计算任务的资源,重启实时计算任务使该实时计算任务的配置信息生效,进而可以在不干扰实时计算任务顺利运行的同时提高实时计算平台资源利用率,节省实时计算平台资源成本;根据所述元数据信息和预设的规则确定预计减少的资源量,能够定量分析需要减少的资源量,从而最大化提高资源利用率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的资源治理方法的主要流程的示意图;
图2是根据本发明实施例的资源治理方法的主要流程的示意图;
图3是根据本发明实施例的资源治理装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1和图2是根据本发明实施例的资源治理方法的主要流程的示意图。如图1和图2所示,该方法包括:
步骤S101:采集实时计算任务的元数据信息。
具体的,可以获取所有运行中的实时计算任务,查询数据库或调用接口获取每个实时计算任务的元数据信息。作为示例,可以将采集的元数据信息保存至元数据采样表中,元数据采样表的字段可以包括:主键ID、任务ID、采样时间、采样值(采样值的数量可以是多个)。
其中,元数据(metadata),又称中介数据,中继数据,为描述数据的数据(dataabout data),主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。在本实施例中,通过实时计算任务的元数据信息可以确定该实时计算任务所占用的资源。对于不同的实时计算引擎,所获取的元数据信息不同,可以根据实际情况灵活设置。
作为具体的示例,以常用的实时计算引擎Storm、Spark streaming和Flink为例,说明实时计算任务的元数据信息。其中,Storm是一个免费并开源的分布式实时计算系统,利用Storm可以很容易做到可靠地处理无限的数据流。Spark Streaming是Spark core API的扩展,支持实时数据流的处理,并且具有可扩展,高吞吐量,容错的特点,所处理的数据可以从许多来源获取,并且可以使用复杂的算法进行处理,处理后的数据可以推送到文件系统,数据库等。Flink是一个开源的分布式流处理和批处理系统。Flink的核心是在数据流上提供数据分发、通信、具备容错的分布式计算。同时,Flink在流处理引擎上构建了批处理引擎,原生支持了迭代计算、内存管理和程序优化。
对于实时计算引擎Storm,采集的元数据信息可以包括以下一种或几种:
(1)实时计算任务占用的进程数(work数),可以通过Storm任务管理中的任务配置表获取;其中,一个进程就是一个worker,对于在k8s上运行的Storm,一个worker对应一个容器,k8s为Kubernetes的简称,其用于自动部署、扩展和管理容器化应用程序的开源系统;
(2)实时计算任务占用的CPU的规格,可以通过Storm任务管理中的任务配置表获取;其中,CPU的规格可以采用CPU的核数(即组成该CPU的核心数)表示;
(3)实时计算任务占用的内存规格,可以通过Storm任务管理中的任务配置表获取;其中,内存规格可以采用内存大小表示;
(4)实时计算任务占用的spout和bolt的总并发数,可以通过Storm任务管理中的任务组件配置表获取;spout是Storm的数据来源,而spout的数据来源又是从其他地方,比如数据库或者消息中间件中流入的,比如spout从Kafka中拉取数据;bolt是Storm集群中的一个关键组件,处理输入的数据流(Stream),并产生新的输出数据流(Stream),bolt可以执行过滤、函数操作、Join、操作数据库等任何操作;
(5)实时计算任务输入源消费数据量,例如可以通过关联Kafka集群数据消费者的消费位点获取;其中,消费位点是指消费者消费数据的位置,消费数据量是根据消费者位点计算得到,例如,根据当前时间点消费位点与1小时前消费位点之间的差值得到消费数据量;
(6)实时计算任务CPU使用值,可以通过k8s接口获取;
(7)实时计算任务CPU使用率,可以通过k8s接口获取当前CPU的使用值和k8s的CPU最小资源需求值(CPU request值)计算得到,具体的,CPU使用率=当前CPU使用值/CPU最小资源需求值;K8s request表示容器使用的最小资源需求,作为容器调度时资源分配的判断依赖,只有当节点上可分配资源量大于或等于容器资源请求数时才允许将容器调度到该节点,request参数不限制容器的最大可使用资源;
(8)实时计算任务内存使用值,可以通过k8s接口获取;
(9)实时计算任务内存使用率,可以通过k8s接口获取当前内存的使用值和k8s的内存最小资源需求值(内存request值)计算得到,具体的,内存使用率=当前内存使用值/内存最小资源需求值;
(10)实时计算任务所有进程(worker)每N分钟重启次数(N为大于或等于1的整数),通过k8s对pod资源观测,获取任务部署(deployment)pod运行数的变化,并计算任务pod重启次数,计算方式为:前一次的pod数减后一次的pod数,当结果为负数时取0,计算N分钟内的所有计算结果之和,例如9点10分到9点11分内一个任务的pod数依次为:10、8、9、6、10,重启次数=(10-8)+0+(9-6)+0=5,因为(8-9)和(6-10)为负数,则取0;pod为Kubernetes的基本调度单元称为,通过该种抽象类别可以把更高级别的抽象内容增加到容器化组件;
(11)实时计算任务前M小时所有进程bolt负载最大值(M为大于或等于1的整数),通过采集Storm metric接口的信息获取进程bolt负载值,选取前M小时所有进程bolt最大值;Storm metric接口是一个可以获取整个拓扑中所有的统计信息的度量接口。
对于实时计算引擎Spark streaming,采集的元数据信息可以包括以下一种或几种:
(1)实时计算任务(以下简称Spark streaming任务)占用excutor数,通过Sparkstreaming任务管理中任务配置表获取;executor是Spark streaming任务(task)的执行单元,运行在worker上,但是不等同于worker,实际上它是一组计算资源(CPU、内存)的集合。一个worker上的内存(memory)、CPU由多个executor共同分摊;
(2)Spark streaming任务excutor和driver所占用的CPU规格,通过Sparkstreaming任务管理中任务配置表获取;driver是指应用逻辑执行的起点,负责作业的调度,即Task任务的分发;
(3)Spark streaming任务excutor和driver所占用的内存规格,通过Sparkstreaming任务管理中任务配置表获取;
(4)Spark streaming输入源消费数据量,例如可以通过关联Kafka集群数据消费者的消费位点获取;其中,消费位点是指消费者消费数据的位置,消费数据量是根据消费者位点计算得到,例如,根据当前时间点消费位点与1小时前消费位点之间的差值得到消费数据量;
(5)Spark streaming任务driver和excutor占用的CPU使用值,可以通过k8s接口获取;
(6)Spark streaming任务driver和excutor占用的CPU使用率,通过k8s接口获取spark streaming任务当前CPU使用值及k8s CPU request值,Spark streaming任务CPU使用率=当前CPU使用值/k8s CPU request值;
(7)Spark streaming任务driver和excutor所占用的内存使用值,通过k8s接口获取;
(8)Spark streaming任务driver和excutor所占用的内存使用率,通过k8s接口获取Spark streaming任务当前内存使用值及k8s内存request值,Spark streaming任务内存使用率=当前内存使用值/k8s内存request值。
对于实时计算引擎Flink,采集的元数据信息可以包括以下一种或几种:
(1)实时计算任务(以下简称Flink任务)占用jobManager的规格和数量,通过Flink集群管理中的配置表获取;jobManager是Flink系统的协调者,它负责接收FlinkJob,调度组成Job的多个任务(task)的执行,同时,JobManager还负责收集Job的状态信息,并管理Flink集群中从节点taskManager;taskManager实际负责执行计算的worker,在其上执行Flink Job的一组task;
(2)Flink任务占用taskManager的规格、数量和单个taskManager槽位数,通过Flink集群管理中的配置表获取;
(3)Flink任务输入源消费数据量,例如可以通过关联Kafka集群数据消费者的消费位点获取;
(4)Flink任务jobManager和taskManager的CPU使用值,通过k8s接口获取;
(5)Flink任务jobManager和taskManager的CPU使用率,通过k8s接口获取Flink任务的CPU使用值及k8s的CPU request值,CPU使用率=当前CPU使用值/CPU request值;
(6)Flink任务jobManager和taskManager的内存使用值,通过k8s接口获取;
(7)Flink任务jobManager和taskManager的内存使用率,通过k8s接口获取Flink任务当前内存使用值及k8s的内存request值,Flink任务内存使用率=当前内存使用值/内存request值;
(8)Flink任务总槽位数和空闲槽位数,通过Flink集群接口获取总槽位数和空闲槽位数。
步骤S102:基于所述元数据信息,确定所述实时计算任务占用的资源情况。
其中,所述实时计算任务占用的资源情况包括所述实时计算任务占用的资源量,或所述实时计算任务占用的资源使用率。
在本实施例中所述的资源包括CPU和内存,因此,可以通过以下一种或多种指标表示该实时计算任务占用的资源情况:CPU使用值、CPU使用率、内存使用值和内存使用率,进而可以通过以上一种或多种指标确定是否满足资源回收条件。
步骤S103:在占用的资源情况满足资源回收条件时,则根据预设的规则确定资源回收信息,所述资源回收信息用于指示回收至少部分预分配给所述实时计算任务的资源,所述资源回收信息包括可回收的资源类型和相对应可回收的资源量。
其中,可以针对不同的实时计算引擎和不同的元数据信息设置不同的资源回收条件,作为具体的示例,占用的资源情况满足资源回收条件包括:预定周期内所述占用的资源量的最大值小于预分配给该实时计算任务的资源,或预定周期内所述资源使用率的最大值小于资源阈值。预定周期可以是一个周期,也可以是多个周期(如3个周期),本发明在此不做限制。可回收的资源类型包括分配给所述实时计算任务的执行单元或硬件配置。
对于实时计算引擎Storm,当采集的元数据信息包括实时计算任务占用的进程数以及spout和bolt的总并发数,则资源回收条件还可以包括:所述spout和bolt的总并发数小于所述进程数。
在本步骤中,可以针对不同的实时计算引擎和不同的元数据信息设置不同的规则确定资源回收信息,作为具体的示例可以根据如下规则确定资源回收信息:
根据所述实时计算任务占用的资源使用率和所述资源阈值,确定可回收的执行单元的数量或硬件配置。该资源阈值可以根据应用需求灵活设置,本发明在此不做限制。
由于资源使用率可以更好地描述实时计算任务占用的资源,所以,在本实施例中,利用资源使用率和资源阈值确定可回收的资源量。
在可选的实施例中,当确定所述实时计算任务占用的资源小于预分配给该实时计算任务的资源时,可以减少所述实时计算任务的执行单元,还可以减少所述实时计算任务的硬件配置,以减少预分配给所述实时计算任务的资源。
具体的,可以根据下式确定可回收的执行单元的数量或硬件配置:
R1=(S-K)×R2
其中,K表示资源使用率,S表示与资源使用率对应的资源阈值,R2表示实时计算任务占用的执行单元的数量或占用的硬件配置,R1表示可回收的执行单元的数量或硬件配置。
为使本发明实施例更清楚,继续以上述实时计算引擎Storm、Spark streaming和Flink为例进行说明。
对于实时计算引擎Storm:
(1)若CPU使用率小于资源阈值m%,则减少worker数或减少CPU配置;其中,m可以根据实际场景灵活设置,本发明在此不做限制。
计算公式:减少worker数=(m%-CPU使用率)×使用worker数。
计算公式:减少CPU配置=(m%-CPU使用率)×CPU规格。
(2)若内存使用率小于资源阈值m%,则建议减少worker数或减少内存配置;计算公式:减少worker数=(m%-内存使用率)×使用worker数;
计算公式:减少内存配置=(m%-内存使用率)×内存规格。
在上述计算公式中,所有计算结果都取整数。
对于其他元数据信息,则按照如下方式进行计算:
(1)若spout和bolt的总并发数小于所占用的worker数,则建议减少worker数;
计算公式:减少worker数=占用worker数-总并发数。
(2)Storm任务worker每N分钟重启次数大于y次则建议停止任务;(3)前M小时所有进程bolt负载最大值小于d则建议减少worker数;
计算公式:减少worker数=(w-负载最大值)×当前使用worker数/0.4,其中,d和w可以根据实际场景灵活设置,本发明在此不做限制,作为示例,d=0.1,w=0.4。
(4)若输入源n天内没有数据输入则建议停止任务。
同理,对于实时计算引擎Spark streaming:
(1)输入源n天内没有数据输入则建议停止任务;
(2)若Spark streaming任务driver的CPU使用率小于m%,则减少dirver CPU配置;
计算公式:减少dirver CPU配置=(m%-CPU使用率)×driver CPU规格。
(3)若Spark streaming任务excutor的CPU使用率小于m%则减少excutor数或减少excutor CPU配置;
计算公式:减少excutor数=(m%-CPU使用率)×使用excutor数;
计算公式:减少excutor CPU配置=(m%-CPU使用率)×excutor CPU规格。
(4)若Spark streaming任务driver的内存使用率小于m%则减少driver数或减少driver内存配置;
计算公式:减少driver内存配置=(m%-内存使用率)×driver内存配置;
(5)若Spark streaming任务excutor的内存使用率小于m%则减少excutor数或减少excutor内存配置;
计算公式:减少excutor数=(m%-内存使用率)×使用excutor数;
计算公式:减少excutor内存配置=(m%-内存使用率)×excutor内存规格。
同理,对于实时计算引擎Flink:
(1)Flink任务输入源n天内没有数据输入则建议停止任务;
(2)若Flink任务jobManager的CPU使用率小于m%则减少jobManager数或减少CPU配置;
计算公式:减少jobManager数=(m%-CPU使用率)×使用jobManager数;
计算公式:减少jobManager CPU配置=(m%-CPU使用率)×jobManager CPU规格。
(3)若Flink任务jobManager的内存使用率小于m%则减少jobManager数或减少内存配置;
计算公式:减少jobManager数=(m%-内存使用率)×使用jobManager数;
计算公式:减少jobManager内存配置=(m%-内存使用率)×使用jobManager内存规格。
(4)若Flink任务taskManager的CPU使用率小于m%则减少taskManager数或减少CPU配置;
计算公式:减少taskManager数=(m%-CPU使用率)×使用taskManager数;
计算公式:减少taskManager CPU配置=(m%-CPU使用率)×taskManager CPU规格。
(5)若Flink任务taskManager的内存使用率小于m%则减少taskManager数或减少内存配置;
计算公式:减少taskManager数=(m%-内存使用率)×使用taskManager数;
计算公式:减少taskManager内存配置=(m%-内存使用率)×使用taskManager内存规格。
(6)若Flink任务空闲槽位数大于阈值,其中,阈值=已使用槽位数×m%,已使用槽位数=总槽位数-空闲槽位数;在本实施例中按照上述公式设置阈值是为了预留一部分空闲的槽位作为备用。
计算公式:减少taskManager数=(空闲槽位数-m%×已使用槽位数)/单个taskManager槽位数。
在上述示例中,每一个计算公式中的m%的取值可以相同,也可以不相同,本发明在此不做限制。
在可选的实施例中,还可以设置各个规则的优先级顺序。
本发明实施例的资源治理方法,通过采集的实时计算任务的元数据信息和预设的规则判断确定所述实时计算任务占用的资源是否满足资源回收条件,在占用的资源情况满足资源回收条件时,则回收至少部分预分配给所述实时计算任务的资源,可重启实时计算任务使该实时计算任务的配置信息生效,进而以在不干扰实时计算任务顺利运行的同时提高实时计算平台资源利用率,节省实时计算平台资源成本;根据所述元数据信息和预设的规则确定预计减少的资源量,能够定量分析需要减少的资源量,从而最大化提高资源利用率。
在可选的实施例中,所述方法还包括:
统计所述资源回收信息和实际回收的资源情况;根据统计结果,调整所述资源阈值
本发明实施例通过统计结果调整资源阈值,能够动态、及时的调整资源治理规则,从而提高资源治理效果。
在可选的实施例中,可以设置资源治理定时任务,定时按照上述步骤S101-S103进行资源治理,然后如图2所示,将资源治理信息保存至资源治理分析表,将该资源治理信息发送给相关工作人员,推进资源治理。还可以通过页面统计和展示资源治理效果,方便工作人员及时调整,统计和展示的信息可以包括:时间段、任务数、预计回收work数、实际回收work数、预计回收CPU、实际回收CPU、预计回收内存、实际回收内存等信息。
图3是根据本发明实施例的资源治理装置300的主要模块的示意图,如图3所示,该装置300包括:
信息采集模块301,用于采集实时计算任务的元数据信息;
资源确定模块302,用于基于所述元数据信息,确定所述实时计算任务占用的资源情况;
资源治理模块303,用于在占用的资源情况满足资源回收条件时,则根据预设的规则确定资源回收信息,所述资源回收信息用于指示回收至少部分预分配给所述实时计算任务的资源,所述资源回收信息包括可回收的资源类型和相对应可回收的资源量。
可选地,所述资源治理模块303还用于:所述可回收的资源类型包括分配给所述实时计算任务的执行单元或硬件配置。
可选地,所述实时计算任务占用的资源情况包括:所述实时计算任务占用的资源量,或所述实时计算任务占用的资源使用率;
占用的资源情况满足资源回收条件包括:预定周期内所述占用的资源量的最大值小于预分配给该实时计算任务的资源,或预定周期内所述资源使用率的最大值小于资源阈值;
所述资源治理模块303还用于:根据所述实时计算任务占用的资源使用率和所述资源阈值,确定可回收的执行单元的数量或硬件配置。
可选地,所述资源治理模块303还用于根据下式确定可回收的执行单元的数量或硬件配置:
R1=(S-K)×R2
其中,K表示资源使用率,S表示与资源使用率对应的资源阈值,R2表示实时计算任务占用的执行单元的数量或占用的硬件配置,R1表示可回收的执行单元的数量或硬件配置。
可选地,所述装置还包括阈值调整模块,用于:统计所述资源回收信息和实际回收的资源情况;根据统计结果,调整所述资源阈值。
上述装置可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
图4示出了可以应用本发明实施例的资源治理方法或资源治理装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。
需要说明的是,本发明实施例所提供的资源治理方法一般由服务器405执行,相应地,资源治理装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中,这些模块的名称在某种情况下并不构成对该单元本身的限定,例如,发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
采集实时计算任务的元数据信息;
基于所述元数据信息和预设的规则,确定所述实时计算任务占用的资源是否小于预分配给该实时计算任务的资源;
若是,则减少预分配给所述实时计算任务的资源,并根据所述元数据信息和预设的规则确定预计减少的资源量。
本发明实施例的技术方案,通过采集的实时计算任务的元数据信息和预设的规则判断确定所述实时计算任务占用的资源是否小于预分配给该实时计算任务的资源,若小于,则减少预分配给所述实时计算任务的资源,重启实时计算任务使该实时计算任务的配置信息生效,进而可以在不干扰实时计算任务顺利运行的同时提高实时计算平台资源利用率,节省实时计算平台资源成本;根据所述元数据信息和预设的规则确定预计减少的资源量,能够定量分析需要减少的资源量,从而最大化提高资源利用率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种资源治理方法,其特征在于,包括:
采集实时计算任务的元数据信息;
基于所述元数据信息,确定所述实时计算任务占用的资源情况;
在占用的资源情况满足资源回收条件时,则根据预设的规则确定资源回收信息,所述资源回收信息用于指示回收至少部分预分配给所述实时计算任务的资源,所述资源回收信息包括可回收的资源类型和相对应可回收的资源量。
2.根据权利要求1所述的方法,其特征在于,所述可回收的资源类型包括分配给所述实时计算任务的执行单元或硬件配置。
3.根据权利要求2所述的方法,其特征在于,所述实时计算任务占用的资源情况包括:所述实时计算任务占用的资源量,或所述实时计算任务占用的资源使用率;
占用的资源情况满足资源回收条件包括:预定周期内所述占用的资源量的最大值小于预分配给该实时计算任务的资源,或预定周期内所述资源使用率的最大值小于资源阈值;
根据预设的规则确定资源回收信息包括:
根据所述实时计算任务占用的资源使用率和所述资源阈值,确定可回收的执行单元的数量或硬件配置。
4.根据权利要求3所述的方法,其特征在于,
根据下式确定可回收的执行单元的数量或硬件配置:
R1=(S-K)×R2
其中,K表示资源使用率,S表示与资源使用率对应的资源阈值,R2表示实时计算任务占用的执行单元的数量或占用的硬件配置,R1表示可回收的执行单元的数量或硬件配置。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
统计所述资源回收信息和实际回收的资源情况;
根据统计结果,调整所述资源阈值。
6.一种资源治理装置,其特征在于,包括:
信息采集模块,用于采集实时计算任务的元数据信息;
资源确定模块,用于基于所述元数据信息,确定所述实时计算任务占用的资源情况;
资源治理模块,用于在占用的资源情况满足资源回收条件时,则根据预设的规则确定资源回收信息,所述资源回收信息用于指示回收至少部分预分配给所述实时计算任务的资源,所述资源回收信息包括可回收的资源类型和相对应可回收的资源量。
7.根据权利要求6所述的装置,其特征在于,所述可回收的资源类型包括分配给所述实时计算任务的执行单元或硬件配置。
8.根据权利要求7所述的装置,其特征在于,所述实时计算任务占用的资源情况包括:所述实时计算任务占用的资源量,或所述实时计算任务占用的资源使用率;
占用的资源情况满足资源回收条件包括:预定周期内所述占用的资源量的最大值小于预分配给该实时计算任务的资源,或预定周期内所述资源使用率的最大值小于资源阈值;
所述资源治理模块还用于:根据所述实时计算任务占用的资源使用率和所述资源阈值,确定可回收的执行单元的数量或硬件配置。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201910525788.0A 2019-06-18 2019-06-18 一种资源治理方法和装置 Pending CN112099937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910525788.0A CN112099937A (zh) 2019-06-18 2019-06-18 一种资源治理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910525788.0A CN112099937A (zh) 2019-06-18 2019-06-18 一种资源治理方法和装置

Publications (1)

Publication Number Publication Date
CN112099937A true CN112099937A (zh) 2020-12-18

Family

ID=73749049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910525788.0A Pending CN112099937A (zh) 2019-06-18 2019-06-18 一种资源治理方法和装置

Country Status (1)

Country Link
CN (1) CN112099937A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817692A (zh) * 2021-01-29 2021-05-18 中国工商银行股份有限公司 资源回收方法、装置、设备、介质和程序产品
CN113610493A (zh) * 2021-07-26 2021-11-05 北京沃东天骏信息技术有限公司 一种资源信息处理方法和装置
CN115080209A (zh) * 2022-06-28 2022-09-20 北京百度网讯科技有限公司 系统资源调度方法、装置、电子设备及存储介质
CN116032737A (zh) * 2022-12-06 2023-04-28 京东科技信息技术有限公司 一种服务资源处理的方法和装置
CN117632380A (zh) * 2024-01-25 2024-03-01 泰德网聚(北京)科技股份有限公司 一种基于用户需求的自动生成脚本的低码工作流系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817692A (zh) * 2021-01-29 2021-05-18 中国工商银行股份有限公司 资源回收方法、装置、设备、介质和程序产品
CN113610493A (zh) * 2021-07-26 2021-11-05 北京沃东天骏信息技术有限公司 一种资源信息处理方法和装置
CN115080209A (zh) * 2022-06-28 2022-09-20 北京百度网讯科技有限公司 系统资源调度方法、装置、电子设备及存储介质
CN116032737A (zh) * 2022-12-06 2023-04-28 京东科技信息技术有限公司 一种服务资源处理的方法和装置
CN117632380A (zh) * 2024-01-25 2024-03-01 泰德网聚(北京)科技股份有限公司 一种基于用户需求的自动生成脚本的低码工作流系统

Similar Documents

Publication Publication Date Title
CN112099937A (zh) 一种资源治理方法和装置
CN111950988B (zh) 分布式工作流调度方法、装置、存储介质及电子设备
CN108549583B (zh) 大数据处理方法、装置、服务器及可读存储介质
WO2021159638A1 (zh) 集群队列资源的调度方法、装置、设备及存储介质
CN109032805A (zh) 一种弹性扩缩容方法、装置、服务器及存储介质
CN112114950A (zh) 任务调度方法和装置、以及集群管理系统
Petrov et al. Adaptive performance model for dynamic scaling Apache Spark Streaming
US10331484B2 (en) Distributed data platform resource allocator
CN111949389A (zh) 基于Slurm的信息采集方法和装置、服务器、计算机可读存储介质
CN114116173A (zh) 动态调整任务分配的方法、装置和系统
CN112667368A (zh) 一种任务数据处理方法和装置
CN114490048A (zh) 任务执行方法、装置、电子设备及计算机存储介质
CN114153609A (zh) 资源控制方法及装置、电子设备、计算机可读存储介质
CN117950850A (zh) 一种数据传输方法、装置、电子设备及计算机可读介质
CN109347982A (zh) 一种数据中心的调度方法及装置
CN113742057A (zh) 一种任务执行方法和装置
CN116185578A (zh) 计算任务的调度方法和计算任务的执行方法
CN116383207A (zh) 一种数据标签管理方法、装置、电子设备和存储介质
CN115952054A (zh) 一种仿真任务资源管理方法、装置、设备及介质
CN113722141B (zh) 数据任务的延迟原因确定方法、装置、电子设备及介质
CN114237858A (zh) 一种基于多集群网络的任务调度方法及系统
CN111786801B (zh) 一种基于数据流量进行计费的方法和装置
CN113971083A (zh) 任务调度方法、装置、设备、介质及产品
CN111090513B (zh) 车联网平台终端链路健康状态的检测方法及存储介质
CN113204426A (zh) 资源池的任务处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination