CN115934342A - 一种作业资源调优方法、装置、设备及存储介质 - Google Patents

一种作业资源调优方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115934342A
CN115934342A CN202211651789.8A CN202211651789A CN115934342A CN 115934342 A CN115934342 A CN 115934342A CN 202211651789 A CN202211651789 A CN 202211651789A CN 115934342 A CN115934342 A CN 115934342A
Authority
CN
China
Prior art keywords
resource
monitor
tuning
strategy
telescopic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211651789.8A
Other languages
English (en)
Inventor
王炎培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202211651789.8A priority Critical patent/CN115934342A/zh
Publication of CN115934342A publication Critical patent/CN115934342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Stored Programmes (AREA)

Abstract

本申请公开了一种作业资源调优方法、装置、设备及存储介质,通过资源监控器获取到用户配置的伸缩策略并转化为告警规则,然后通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标,进一步通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理,解决了用户需要花费大量的时间进行如何配置该作业的资源、并发数、TaskManager个数及大小等作业调优,从而导致的用户往往需要手动重启作业再次设置资源用量,而这种操作繁琐的同时也是滞后的技术问题。

Description

一种作业资源调优方法、装置、设备及存储介质
技术领域
本申请涉及分布式处理技术领域,尤其涉及一种作业资源调优方法、装置、设备及存储介质。
背景技术
Flink是一个框架和分布式处理引擎,用于对无限制和有限制的数据留进行有状态的计算。Flink被设计为可在所有常见的集群环境中运行,以内存速度和任何规模执行计算。flink运行在yarn或者k8s上时,需要根据数据量提前计算出最大并行度,然后由yarn或者k8s根据最大并行度确定所需要占用的taskManager,一直到运行结束,实时任务资源占用值始终处于固定值,需要在提交之前明确资源用量且作业运行过程中不会自动调整,但是运行过程中数据量是不断变化的,所以实时任务的负载也会呈周期性变化,有非常明显的波峰波谷。
然而,用户需要花费大量的时间进行作业调优。例如,新上线一个作业,需要考虑如何配置该作业的资源、并发数、TaskManager个数及大小等,从而导致了用户往往需要手动重启作业再次设置资源用量,而这种操作繁琐的同时也是滞后的技术问题。
发明内容
本申请提供了一种作业资源调优方法、装置、设备及存储介质,解决了目前用户需要花费大量的时间进行如何配置该作业的资源、并发数、TaskManager个数及大小等作业调优,从而导致的用户往往需要手动重启作业再次设置资源用量,而这种操作繁琐的同时也是滞后的技术问题。
有鉴于此,本申请第一方面提供了一种作业资源调优方法,方法包括:
S1、通过资源监控器获取到用户配置的伸缩策略并转化为告警规则;
S2、通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标;
S3、通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则执行步骤S4;
S4、通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理。
优选地,步骤S1之前还包括:
S5、通过Kubernetes平台的控制器对flink的standalone模式进行任务隔离部署。
优选地,步骤S3具体包括:
S31、通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否有作业资源出现反压,若是,则执行步骤S4。
优选地,步骤S3具体包括:
S32、通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否对应节点CPU负载升高,若是,则执行步骤S4。
优选地,步骤S3具体包括:
S33、通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否对应时间段多个节点负载降低,若是,则执行步骤S4。
优选地,步骤S4具体包括:
S41、通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器;
S42、通过伸缩监控器根据作业资源调整策略和可用资源确定作业资源需求并行度,并根据作业资源调整策略进行作业资源调优处理。
优选地,步骤S42具体包括:作业资源调优处理包括:与用户配置的伸缩伸缩策略对应的基础资源量调整的纵向伸缩作业资源调优处理,和对TaskManager数量的增减的横向伸缩作业资源调优处理。
本申请第二方面提供一种作业资源调优装置,装置包括:
获取单元,用于通过资源监控器获取到用户配置的伸缩策略并转化为告警规则;
实时收集单元,用于通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标;
作业调优判断单元,用于通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则触发作业调优单元;
作业调优单元,用于通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理。
本申请第三方面提供一种作业资源调优设备,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令,执行如上述第一方面的作业资源调优方法的步骤。
本申请第四方面提供一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行上述第一方面的作业资源调优方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种作业资源调优方法,通过资源监控器获取到用户配置的伸缩策略并转化为告警规则,然后通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标,进一步通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理,解决了用户需要花费大量的时间进行如何配置该作业的资源、并发数、TaskManager个数及大小等作业调优,从而导致的用户往往需要手动重启作业再次设置资源用量,而这种操作繁琐的同时也是滞后的技术问题。
进一步,本申请通过伸缩监控器根据作业资源调整策略和可用资源确定作业资源需求并行度,并根据作业资源调整策略进行作业资源调优处理,作业资源调优处理为对与用户配置的伸缩伸缩策略对应的基础资源量调整的纵向伸缩作业资源调优处理,和对TaskManager数量的增减的横向伸缩作业资源调优处理,从而实现解决了由于实时作业的负载往往随着流量的变化而变化,初始设置的资源量容易过多或太少,从而造成资源浪费或者资源不足而导致作业延时的技术问题,同时实现了可以自动调整资源使用量,降低运维成本和提高处理问题的时效性,在高峰期提高资源使用量以避免作业失败重启的可能性,在低峰期自动降低资源使用量提供给其它作业执行,实现任务错峰执行的可能,降低业务成本,提高资源使用率。
附图说明
图1为本申请实施例中一种作业资源调优方法的方法的一个实施例的流程图;
图2为本申请实施例中一种作业资源调优装置的结构示意图;
图3为本申请实施例中一种作业资源调优设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请设计了一种作业资源调优方法、装置、设备及存储介质,解决了用户需要花费大量的时间进行如何配置该作业的资源、并发数、TaskManager个数及大小等作业调优,从而导致的用户往往需要手动重启作业再次设置资源用量,而这种操作繁琐的同时也是滞后的技术问题。
为了便于理解,请参阅图1,图1为本申请实施例中一种作业资源调优方法的方法流程图,如图1所示,具体为:
S1、通过资源监控器获取到用户配置的伸缩策略并转化为告警规则;
本实施例中,自定义资源监控器resourceMonitor,用户将配置的伸缩策略上传到resourceMonitor,resourceMonitor将相关的策略转化为告警规则。
需要说明的是,通过资源监控器获取到用户配置的伸缩策略并转化为告警规则之前需要通过Kubernetes平台的控制器对flink的standalone模式进行任务隔离部署。
实际上自定义k8s(Kubernetes)的operator,与flink自带的standalone模式整合,在原生的standalone模式基础上进行优化,简化部署模式,每个任务都会在k8s上以standalone模式运行,但是每个任务的jobMaster都是相互隔离的。
S2、通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标;
需要说明的是,这个resourceMonitor会实时收集flink集群的资源信息以及实时作业的各种指标。
S3、通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则执行步骤S4;
当resourceMonitor会实时收集flink集群的资源信息以及实时作业的各种指标之后,通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否有作业资源出现反压,若是,则执行步骤S4;
通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否对应节点CPU负载升高,若是,则执行步骤S4;
通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否对应时间段多个节点负载降低,若是,则执行步骤S4。
比如如果任务中有算子出现了反压,则会增加整个链路的并行度;如果出现某个节点CPU负载过高,则会增加CPU个数;如果某段时间流量下降导致大部分节点负载降低出现资源闲置较长的状态,则会降低并行度。
S4、通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理。
需要说明的是,通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器,然后通过伸缩监控器根据作业资源调整策略和可用资源确定作业资源需求并行度,并根据作业资源调整策略进行作业资源调优处理。
当做出调整的策略之后,会把调整策略上报给伸缩监控器scheduleMonitor,由伸缩监控器具体实施伸缩策略,scheduleMonitor会根据调整策略和可用资源确定作业的实际并行度,并在合适时间执行部署,当有外部资源增减的时候不会立即执行,需要等待checkpoint完成的时候会检查是否存在资源增减的Request,如果由才会立即执行重新部署JobGrap并从当前完成的checkpoint恢复,这样在保证作业不丢的情况下,尽量减少重复消费数据的可能。
scheduleMonitor也支持固定某些算子的最大并发,比如消费kafka的source算子。
进一步地,作业资源调优处理包括:与用户配置的伸缩伸缩策略对应的基础资源量调整的纵向伸缩作业资源调优处理,和对TaskManager数量的增减的横向伸缩作业资源调优处理。
需要说明的是,scheduleMonitor支持纵向伸缩和横向伸缩,在收到上报的监控调整通知之后,首先看纵向伸缩是否满足要求,如果不满足要求则进行横向伸缩。
其中,纵向伸缩:纵向的伸缩主要依赖于Pod在声明资源的时候设置request和limit。当我们在创建TaskManager的时候,在用户配置的基础资源量上额外设置最小资源量(降低下限),最大资源量会略大于用户配置的基础资源量(提高上限)。作业的负载波动的时候,单个Pod(TM)占用的资源也会在request和limit之间波动。这样在纵向上,减少资源的固定占用。也能很好的解决堆外内存占用突高引起的容器OOM的问题。
横向伸缩:对TaskManager数量的增减。
本申请实施例中,通过资源监控器获取到用户配置的伸缩策略并转化为告警规则,然后通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标,进一步通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理,解决了用户需要花费大量的时间进行如何配置该作业的资源、并发数、TaskManager个数及大小等作业调优,从而导致的用户往往需要手动重启作业再次设置资源用量,而这种操作繁琐的同时也是滞后的技术问题。
进一步,本申请实施例通过伸缩监控器根据作业资源调整策略和可用资源确定作业资源需求并行度,并根据作业资源调整策略进行作业资源调优处理,作业资源调优处理为对与用户配置的伸缩伸缩策略对应的基础资源量调整的纵向伸缩作业资源调优处理,和对TaskManager数量的增减的横向伸缩作业资源调优处理,从而实现解决了由于实时作业的负载往往随着流量的变化而变化,初始设置的资源量容易过多或太少,从而造成资源浪费或者资源不足而导致作业延时的技术问题,同时实现了可以自动调整资源使用量,降低运维成本和提高处理问题的时效性,在高峰期提高资源使用量以避免作业失败重启的可能性,在低峰期自动降低资源使用量提供给其它作业执行,实现任务错峰执行的可能,降低业务成本,提高资源使用率。
请参阅图2,图2为本申请实施例中一种作业资源调优装置的结构示意图,如图2所示,具体为:
获取单元201,用于通过资源监控器获取到用户配置的伸缩策略并转化为告警规则;
实时收集单元202,用于通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标;
作业调优判断单元203,用于通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则触发作业调优单元;
作业调优单元204,用于通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理。
本实施例中的一种作业资源调优装置,获取单元201通过资源监控器获取到用户配置的伸缩策略并转化为告警规则,然后实时收集单元202通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标,进一步作业调优判断单元203通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则触发作业调优单元204通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理,解决了用户需要花费大量的时间进行如何配置该作业的资源、并发数、TaskManager个数及大小等作业调优,从而导致的用户往往需要手动重启作业再次设置资源用量,而这种操作繁琐的同时也是滞后的技术问题。
进一步,作业调优单元204通过伸缩监控器根据作业资源调整策略和可用资源确定作业资源需求并行度,并根据作业资源调整策略进行作业资源调优处理,作业资源调优处理为对与用户配置的伸缩伸缩策略对应的基础资源量调整的纵向伸缩作业资源调优处理,和对TaskManager数量的增减的横向伸缩作业资源调优处理,从而实现解决了由于实时作业的负载往往随着流量的变化而变化,初始设置的资源量容易过多或太少,从而造成资源浪费或者资源不足而导致作业延时的技术问题,同时实现了可以自动调整资源使用量,降低运维成本和提高处理问题的时效性,在高峰期提高资源使用量以避免作业失败重启的可能性,在低峰期自动降低资源使用量提供给其它作业执行,实现任务错峰执行的可能,降低业务成本,提高资源使用率。
本申请实施例还提供了另一种作业资源调优设备,如图3所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称:Personal DigitalAssistant,英文缩写:PDA)、销售终端(英文全称:Point of Sales,英文缩写:POS)、车载电脑等任意终端设备,以终端为手机为例:
图3示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图3,手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称:wirelessfidelity,英文缩写:WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图3中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图3对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:LowNoise Amplifier,英文缩写:LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:Global System of Mobile communication,英文缩写:GSM)、通用分组无线服务(英文全称:General Packet Radio Service,GPRS)、码分多址(英文全称:CodeDivision Multiple Access,英文缩写:CDMA)、宽带码分多址(英文全称:Wideband CodeDivision Multiple Access,英文缩写:WCDMA)、长期演进(英文全称:Long TermEvolution,英文缩写:LTE)、电子邮件、短消息服务(英文全称:Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(英文全称:Liquid Crystal Display,英文缩写:LCD)、有机发光二极管(英文全称:Organic Light-Emitting Diode,英文缩写:OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图3中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1080还具有以下功能:
S1、通过资源监控器获取到用户配置的伸缩策略并转化为告警规则;
S2、通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标;
S3、通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则执行步骤S4;
S4、通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理。
本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例的一种作业资源调优方法中的任意一种实施方式。
本申请实施例中,提供了一种作业资源调优方法,通过资源监控器获取到用户配置的伸缩策略并转化为告警规则,然后通过资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标,进一步通过资源监控器对资源信息及多个指标与告警规则进行匹配判断是否需要对作业资源进行调优,若是,则通过资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据作业资源调整策略进行作业资源调优处理,解决了用户需要花费大量的时间进行如何配置该作业的资源、并发数、TaskManager个数及大小等作业调优,从而导致的用户往往需要手动重启作业再次设置资源用量,而这种操作繁琐的同时也是滞后的技术问题。
进一步,本申请通过伸缩监控器根据作业资源调整策略和可用资源确定作业资源需求并行度,并根据作业资源调整策略进行作业资源调优处理,作业资源调优处理为对与用户配置的伸缩伸缩策略对应的基础资源量调整的纵向伸缩作业资源调优处理,和对TaskManager数量的增减的横向伸缩作业资源调优处理,从而实现解决了由于实时作业的负载往往随着流量的变化而变化,初始设置的资源量容易过多或太少,从而造成资源浪费或者资源不足而导致作业延时的技术问题,同时实现了可以自动调整资源使用量,降低运维成本和提高处理问题的时效性,在高峰期提高资源使用量以避免作业失败重启的可能性,在低峰期自动降低资源使用量提供给其它作业执行,实现任务错峰执行的可能,降低业务成本,提高资源使用率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种作业资源调优方法,其特征在于,包括:
S1、通过资源监控器获取到用户配置的伸缩策略并转化为告警规则;
S2、通过所述资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标;
S3、通过所述资源监控器对所述资源信息及多个所述指标与所述告警规则进行匹配判断是否需要对作业资源进行调优,若是,则执行步骤S4;
S4、通过所述资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据所述作业资源调整策略进行作业资源调优处理。
2.根据权利要求1所述的作业资源调优方法,其特征在于,所述步骤S1之前还包括:
S5、通过Kubernetes平台的控制器对flink的standalone模式进行任务隔离部署。
3.根据权利要求1所述的作业资源调优方法,其特征在于,所述步骤S3具体包括:
S31、通过所述资源监控器对所述资源信息及多个所述指标与所述告警规则进行匹配判断是否有作业资源出现反压,若是,则执行步骤S4。
4.根据权利要求1所述的作业资源调优方法,其特征在于,所述步骤S3具体包括:
S32、通过所述资源监控器对所述资源信息及多个所述指标与所述告警规则进行匹配判断是否对应节点CPU负载升高,若是,则执行步骤S4。
5.根据权利要求1所述的作业资源调优方法,其特征在于,所述步骤S3具体包括:
S33、通过所述资源监控器对所述资源信息及多个所述指标与所述告警规则进行匹配判断是否对应时间段多个节点负载降低,若是,则执行步骤S4。
6.根据权利要求1至5中任意一项所述的作业资源调优方法,其特征在于,所述步骤S4具体包括:
S41、通过所述资源监控器进行对应的作业资源调整策略制定,并发送至所述伸缩监控器;
S42、通过所述伸缩监控器根据所述作业资源调整策略和可用资源确定所述作业资源需求并行度,并根据所述作业资源调整策略进行作业资源调优处理。
7.根据权利要求6所述的作业资源调优方法,其特征在于,所述步骤S42具体包括:所述作业资源调优处理包括:与所述用户配置的伸缩伸缩策略对应的基础资源量调整的纵向伸缩作业资源调优处理,和对TaskManager数量的增减的横向伸缩作业资源调优处理。
8.一种作业资源调优装置,其特征在于,包括:
获取单元,用于通过资源监控器获取到用户配置的伸缩策略并转化为告警规则;
实时收集单元,用于通过所述资源监控器实时收集flink集群的资源信息以及实时作业对应的多个指标;
作业调优判断单元,用于通过所述资源监控器对所述资源信息及多个所述指标与所述告警规则进行匹配判断是否需要对作业资源进行调优,若是,则触发作业调优单元;
作业调优单元,用于通过所述资源监控器进行对应的作业资源调整策略制定,并发送至伸缩监控器根据所述作业资源调整策略进行作业资源调优处理。
9.一种作业资源调优设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的作业资源调优方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的作业资源调优方法。
CN202211651789.8A 2022-12-21 2022-12-21 一种作业资源调优方法、装置、设备及存储介质 Pending CN115934342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211651789.8A CN115934342A (zh) 2022-12-21 2022-12-21 一种作业资源调优方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211651789.8A CN115934342A (zh) 2022-12-21 2022-12-21 一种作业资源调优方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115934342A true CN115934342A (zh) 2023-04-07

Family

ID=86655869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211651789.8A Pending CN115934342A (zh) 2022-12-21 2022-12-21 一种作业资源调优方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115934342A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117278424A (zh) * 2023-11-17 2023-12-22 广州市玄武无线科技股份有限公司 一种Flink集群的部署方法、装置、设备以及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117278424A (zh) * 2023-11-17 2023-12-22 广州市玄武无线科技股份有限公司 一种Flink集群的部署方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN111143005B (zh) 一种应用分享方法、电子设备及计算机可读存储介质
CN107231159B (zh) 一种射频干扰处理方法、装置、存储介质和终端
CN110620822A (zh) 一种网元确定方法和装置
CN110597793A (zh) 数据管理方法及装置、电子设备和计算机可读存储介质
CN111651339B (zh) 一种请求数量的控制方法和相关装置
CN115934342A (zh) 一种作业资源调优方法、装置、设备及存储介质
CN107122036B (zh) 中央处理器频率调节方法及装置
CN109688611B (zh) 一种频段参数的配置方法、装置、终端和存储介质
CN116208613A (zh) 云主机的迁移方法、装置、电子设备及存储介质
CN107066197A (zh) 终端设备的控制方法及终端设备
CN107635277B (zh) 一种物联网终端设备的省电管理方法、及物联网终端设备
CN111371916B (zh) 一种数据处理方法及相关设备
CN106851784B (zh) 网络扫描方法与终端设备
CN111367502A (zh) 一种数值处理方法和装置
CN103034319B (zh) 一种对终端进行显示控制的方法、控制装置及终端
CN115794654A (zh) 一种测试案例分发处理方法、系统、设备及存储介质
CN108804434B (zh) 一种消息查询方法、服务器及终端设备
CN106777383B (zh) 文件排序方法及智能终端
CN111132282B (zh) 一种应用于移动终端的应用处理器唤醒方法及装置
CN104965753A (zh) 一种桌面布局方法、服务器、终端,及系统
CN111475141B (zh) 榜单的生成方法、装置及电子设备
CN109638416B (zh) 天线结构和电子设备
CN113835957A (zh) 一种爬虫任务的监控方法和装置
CN112214699A (zh) 一种页面处理的方法及相关装置
CN109151154B (zh) 功耗控制方法、及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination