CN117076251A - 一种实时计算任务监控方法、装置及电子设备 - Google Patents
一种实时计算任务监控方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117076251A CN117076251A CN202311099884.6A CN202311099884A CN117076251A CN 117076251 A CN117076251 A CN 117076251A CN 202311099884 A CN202311099884 A CN 202311099884A CN 117076251 A CN117076251 A CN 117076251A
- Authority
- CN
- China
- Prior art keywords
- target
- instance
- real
- pushgateway
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 224
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000004364 calculation method Methods 0.000 claims abstract description 77
- 230000003993 interaction Effects 0.000 claims description 25
- 238000012806 monitoring device Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 21
- 238000004590 computer program Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 229910002804 graphite Inorganic materials 0.000 description 1
- 239000010439 graphite Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供了一种实时计算任务监控方法、装置及电子设备,其中,该方法包括获取用户的监控需求指令,并根据该监控需求指令生成目标Flink实时计算任务,由于该监控需求指令中携带有用户所需监控的运行指标信息,如此将该用户所需的监控运行指标信息推送至目标PushGateway实例中,可使得该目标PushGataeway实例基于用户所需监控的运行指标信息,对该目标Flink实时计算任务进行监控。如此,目标PushGateway实例仅需按照用户所需的监控的运行指标对目标Flink实时计算任务进行监控,而不再对目标Flink实时计算任务的所有运行指标进行监控,可有效减少目标PushGateway的负载,提高了目标PushGateway的监控效率,有利于针对用户的实际监控需求,给出精准的监控结果。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种实时计算任务监控方法、装置及电子设备。
背景技术
在互联网技术领域,任一数据处理平台每天均需应对大量高速的数据计算,相关技术提出利用Flink(一种分布式处理引擎)技术生成Flink实时计算任务,借由Flink实时计算任务对所需进行计算的数据进行流式处理,以保障数据计算的实时性。
但是,存在一些需要精准监控Flink任务是否正常执行的应用场景,比如电子商务场景下,需要对根据成交的销售订单对商品的销量进行实时监控,以精准获悉当前商品的销售情况以及对应的库存情况。针对此类场景,若实时计算任务存在延迟或者出现错误,导致实时监控得到的销量数据或者库存数据存在误差,进一步影响商家或者消费者的后续操作。
针对Flink计算任务的实时监控需求,现有相关技术提出借助Prometheus监控生态的PushGateway组件进行监控。但是,此种方案常常因同一Flink计算任务中包含大量的运行监控指标,但是固定的目标PushGateway组件常常因为自身存在性能瓶颈,无法监控大量的运行指标,这易导致PushGateway负载较高,监控效率较低,从而进一步影响实时计算任务的监控精度。
发明内容
有鉴于此,本申请实施例提供了一种实时计算任务监控方法、装置及电子设备,以解决现有技术存在的Flink实时计算任务监控精度较低的问题。
第一方面,本申请提供了一种实时计算任务监控方法,其中,所述方法包括:
获取用户的监控需求指令,其中,所述监控需求指令中携带有用户所需监控的运行指标信息;
基于所述监控需求指令,生成目标Flink实时计算任务;
将所述用户所需监控的运行指标信息推送至目标PushGateway实例中,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控。
结合第一方面,在第二种可能的实施例中,所述方法还包括:
向目标Prometheus实例获取实时负载信息,其中,所述实时负载信息为在所述目标Prometheus实例上运行的各PushGateway实例的实时负载信息;
将所述实时负载信息最低的PushGateway实例,确定为所述目标PushGateway实例。
结合第一方面的第二种可能的实施例,在第三种可能的实施例中,所述方法还包括:
基于各所述PushGateway实例的运行指标信息拉取量级以及运行指标信息拉取耗时,确定各所述PushGateway实例中实时负载信息最低的目标PushGateway实例;
将所述目标Flink实时计算任务携带的运行指标信息定向推送至所述目标PushGateway实例,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控。
结合第一方面的第二种可能的实施例,在第四种可能的实施例中,所述方法还包括:
若所述监控需求指令中携带的各目标监控开关为开启状态,且所述监控需求指令信息中携带有所述目标Prometheus实例配置信息,则通过预设请求报文,向所述目标Prometheus实例请求获取所述目标PushGateway实例的地址信息;
所述基于所述监控需求指令,生成目标Flink实时计算任务,包括:
将所述目标PushGateway实例的地址信息以及所述监控需求指令信息中携带的运行指标信息,添加至Flink实时计算任务的配置信息中,以生成所述目标Flink实时计算任务。
结合第一方面,在第五种可能的实施例中,所述方法还包括:
获取用户在用户交互界面输入的自定义配置信息,其中,所述自定义配置信息包括:全局监控开关、任务监控开关、Prometheus实例配置信息以及运行指标配置信息中的一种或多种;
根据所述自定义配置信息,生成所述监控需求指令信息。
结合第一方面,在第六种可能的实施例中,所述方法应用于Flink on Yarn场景中的Flink客户端,所述Yarn为一种资源调度平台,所述方法还包括:
获取所述目标PushGateway实例的地址信息以及所述用户所需监控的运行指标信息;
所述将所述用户所需的运行指标信息推送至所述目标PushGateway实例中,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控,包括:
将所述地址信息以及所述运行指标信息发送至所述Yarn资源调度平台,以使得所述Yarn资源调度平台运行所述目标Flink实时计算任务,以便所述目标Flink实时计算任务根据所述地址信息向所述目标PushGateway实例发送自身的运行指标信息,以实现所述目标PushGateway实例基于接收到的运行指标信息对所述目标Flink实时计算任务进行监控。
第二方面,本申请提供了一种实时计算任务监控装置,所述装置包括:
获取模块,用于获取用户的监控需求指令,其中,所述监控需求指令中携带有用户所需监控的运行指标信息;
实时计算任务生成模块,用于基于所述监控需求指令,生成目标Flink实时计算任务;
监控模块,用于将所述用户所需监控的运行指标信息推送至目标PushGateway实例中,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控。
结合第二方面,在第二种可能的实施例中,所述装置还包括:
实例获取模块,用于向目标Prometheus实例获取实时负载信息,其中,所述实时负载信息为在所述目标Prometheus实例上运行的各PushGateway实例的实时负载信息;
将所述实时负载信息最低的PushGateway实例,确定为所述目标PushGateway实例。
结合第二方面的第二种可能的实施例,在第三种可能的实施例中,所述装置还包括:
确定模块,用于基于各所述PushGateway实例的运行指标信息拉取量级以及运行指标信息拉取耗时,确定各所述PushGateway实例中实时负载信息最低的目标PushGateway实例;
所述监控模块,具体用于将所述目标Flink实时计算任务携带的运行指标信息定向推送至所述目标PushGateway实例,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控。
结合第二方面的第二种可能的实施例,在第四种可能的实施例中,所述实例获取模块,还用于若所述监控需求指令中携带的各目标监控开关为开启状态,且所述监控需求指令信息中携带有所述目标Prometheus实例配置信息,则通过预设请求报文,向所述目标Prometheus实例请求获取所述目标PushGateway实例的地址信息。
所述实时计算任务生成模块,具体用于:
将所述目标PushGateway实例的地址信息以及所述监控需求指令信息中携带的运行指标信息,添加至Flink实时计算任务的配置信息中,以生成所述目标Flink实时计算任务。
结合第二方面,在第五种可能的实施例中,所述获取模块具体用于:
获取用户在用户交互界面输入的自定义配置信息,其中,所述自定义配置信息包括:全局监控开关、任务监控开关、Prometheus实例配置信息以及运行指标配置信息中的一种或多种;
根据所述自定义配置信息,生成所述监控需求指令信息。
结合第二方面,在第六种可能的实施例中,所述装置为Flink on Yarn场景中的Flink客户端,所述Yarn为一种资源调度平台,所述获取模块具体用于:
获取所述目标PushGateway实例的地址信息以及所述用户所需监控的运行指标信息;
所述监控模块,具体用于:
将所述地址信息以及所述运行指标信息发送至所述Yarn资源调度平台,以使得所述Yarn资源调度平台运行所述目标Flink实时计算任务,以便所述目标Flink实时计算任务根据所述地址信息向所述目标PushGateway实例发送自身的运行指标信息,以实现所述目标PushGateway实例基于接收到的运行指标信息对所述目标Flink实时计算任务进行监控。
第三方面,本申请提供了一种电子设备,所述电子设备包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行第一方面所述的实时计算任务监控方法。
第四方面,本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行第一方面所述的实时计算任务监控方法。
本申请的有益效果:
本申请实施例提供了一种实时计算任务监控方法、装置及电子设备,其中,该方法包括获取用户的监控需求指令,并根据该监控需求指令生成目标Flink实时计算任务,由于该监控需求指令中携带有用户所需监控的运行指标信息,如此将该用户所需的监控运行指标信息推送至目标PushGateway实例中,可使得该目标PushGataeway实例基于用户所需监控的运行指标信息,对该目标Flink实时计算任务进行监控。如此,目标PushGateway实例仅需按照用户所需的监控的运行指标对目标Flink实时计算任务进行监控,而不再对目标Flink实时计算任务的所有运行指标进行监控,可有效减少目标PushGateway的负载,提高了目标PushGateway的监控效率,有利于针对用户的实际监控需求,给出精准的监控结果。
附图说明
在下面结合附图对于示例性实施例的描述中,本申请的更多细节、特征和优点被公开,在附图中:
图1为本申请实施例提供的一种Flink、Prometheus、PushGataeway之间的逻辑结构关系示意图;
图2为本申请实施例提供的实时计算任务监控方法的一种可能的流程示意图;
图3为本申请实施例提供的另一种Flink、Prometheus、PushGataeway之间的逻辑结构关系示意图;
图4为本申请实施例提供的另一种Flink、Prometheus、PushGataeway之间的逻辑结构关系示意图;
图5为本申请实施例提供的另一种Flink、Prometheus、PushGataeway之间的逻辑结构关系示意图;
图6为本申请实施例提供的实时计算任务监控方法的另一种可能的流程示意图;
图7为本申请实施例提供的实时计算任务监控方法的一种可能的流程示意图;
图8为本申请实施例提供的实时计算任务监控装置的一种可能的逻辑结构示意图;
图9为本申请实施例提供的电子设备的一种可能的逻辑结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
为了便于清楚理解本申请所提供的实时计算任务监控方法、装置及电子设备,此处优先对本文中所涉及的部分专业术语进行解释:
Flink:属于Apache基金会的一个项目,其本质是一个分布式处理框架和分布式处理引擎,主要用于在无边界和有边界数据流上进行有状态的计算。其中,Flink能在所有常见集群环境中运行,并能以内存速度和任意规模进行流式计算,其中,通过Flink数据处理框架执行的实时计算任务为Flink实时计算任务。区别于Spark数据处理框架由为批次数据流驱动任务执行,Flink数据处理框架由一个个Event事件驱动任务执行,具有更好的实时处理效果。
Prometheus:属于CNCF(Cloud Native Computing Foundation,组织云原生计算基金会)的开源项目,其本质属于一个监控系统项目。其中,Prometheus提供了从指标暴露,到指标抓取、存储以及可视化,以及对应的监控告警等等的一系列的组件,本领域中将Prometheus提供的各个组件所构成的整个Prometheus项目称为Prometheus生态。其中,Prometheus生态中起到核心处理功能的是Prometheus server,该Prometheus server通常采用的是Pull模式,对于一些场景中,比如不在一个子网或者防火墙,将无法直接拉取监控指标数据,比如,如图1所示,Flink项目是通过推送数据的方式,向其他组件推送数据,而Prometheus server主要是通过数据拉取的方式,从其他组件拉取数据,这使得Prometheusserver无法直接拉取Flink上的数据。
PushGateway:属于Prometheus生态下的一个组件,用于解决Prometheus存在无法直接拉取监控指标数据的问题。PushGateway如同一个数据中转站,将Prometheus采用的pull模式,转换为业务侧push模式,从而将不同数据汇总后,借由Prometheus统一拉取后收集。比如如图1所示,PushGateway通过收集Flink定向推送的指标数据,以便Prometheus从PushGateway拉取Flink推送的数据。
Pull模式:Prometheus采用的指标收集模式,需要被采集目标暴露固定端口,以供Prometheus进行数据采集。
Push模式:PushGateway提供的指标收集模式,由PushGateway暴露固定端口,被采集目标将运行时指标推送至PushGateway组件上,再由Prometheus通过Pull模式拉取到Prometheus中。
Yarn(Yet Another Resource Negotiator):也属于Apache基金会的一个项目,其本质是一个资源调度平台,属于一种新型的Hadoop资源管理器,常用于向运算程序提供服务器运算资源,相当于一个分布式的操作系统平台。
K8s:Kubernetes(也称k8s或“kube”),属于一种开源的容器编排平台,可以自动完成在部署、管理和扩展容器化应用过程中涉及的许多手动操作。
在互联网技术领域,Flink因其可在无边界和有边界数据流上进行有状态的计算,且能够在集群环境中运行,并以内存速度和任意规模进行流式计算,常被用于对数据实时性要求较高的场景中进行数据处理。
Flink技术在应用时,针对不同的运算需求,生成不同的Flink实时计算任务,此时Flink实时计算任务属于一个7*24小时不停运行的计算任务。在实际应用场景中,Flink实时计算任务是否正常执行直接影响到了Flink实际应用效果,所以对于任务的实时监控就显得尤为重要。
虽然Flink技术本身提供了丰富的指标报告器(Metric Reporters)与其他管理监控框架进行连接,以对运行的各计算任务进行监控。其中,其他管理监控架构包括JMX(JavaManagement Extensions,一种为应用程序植入管理功能的框架)、InfluxDB(一个由InfluxData开发的开源时序型数据库)、Graphite、Prometheus等等。实际应用场景中,常用的较多的监控接入方案包括如下几种:
第一种、基于Kafka的监控方案。具体实现方式为:自定义实现Kafka Reporter,新增Flink任务配置该固定Kafka Reporter,而后将运行时指标推送至Kafka,基于此Kafka编写Flink任务对指标进行处理、收纳、存储进TSDB(Time Series Database,时序数据库)中。此种方案由于指标推送采集到TSDB的整个过程处理链路较长,延迟较高,Flink实时计算任务监控效率较低。
第二种、基于Prometheus kubernetes_sd_configs的监控方案。具体实现方式为:依赖k8s所提供的Pod自动发现机制。新增Flink任务创建Pod时触发自动发现,进而由k8s将其暴露给Prometheus动态服务发现模块,从而建立连接并进行指标拉取与收纳。此种方案由于依赖于k8s的Pod自动发现机制,对于Flink on Yarn场景并不适用。主要体现在Prometheus直接拉取指标的模式在on Yarn集群场景下易出现端口冲突问题,并且无法识别Flink任务的业务等级信息,无法针对性对进行定向监控。
第三种、基于PushGateway的监控方案。具体实现方式为:为新增的Flink实时计算任务配置固定一个固定的PushGateway组件,而后运行时将指标推送到该指定PushGateway组件中,由Prometheus从PushGateway组件完成指标拉取与收纳。此种方案若所固定的PushGateway本身资源不足,负载较高的话,该固定的PushGateway性能容易存在瓶颈。若Flink实时计算任务的规模逐渐增大,则会出现内存资源消耗逐渐增大,拉取耗时逐渐升高,导致指标采集延迟逐渐增大,进一步容易出现监控效率较低的问题。
本申请基于第三种基于固定PushGateway组件进行Flink实时计算任务监控方案存在的监控效率较低的技术缺陷,提出了一种实时计算任务监控方法,致力于提升基于PushGateway对Flink实时计算任务运行指标监控的效率。该实时计算任务可应用于任一个具备实时计算任务监控功能的电子设备中,该电子设备的种类包括但不限于个人移动终端、计算机或者服务器等。
如图2所示,本申请实施例所提供的实时计算任务监控方法包括如下几个步骤:
S11、获取用户的监控需求指令,该监控需求指令中携带有用户所需监控的运行指标信息。
S12、基于该监控需求指令,生成目标Flink实时计算任务。
S13、将该用户所需监控的运行指标信息推送至目标PushGateway实例中,以使的该目标PushGateway实例基于用户所需监控的运行指标信息,对目标Flink实时计算任务进行监控。
选用本申请实施例,通过获取用户的监控需求指令,并根据该监控需求指令生成目标Flink实时计算任务,由于该监控需求指令中携带有用户所需监控的运行指标信息,如此将该用户所需的监控运行指标信息推送至目标PushGateway实例中,可使得该目标PushGataeway实例基于用户所需监控的运行指标信息,对该目标Flink实时计算任务进行监控。
如此,目标PushGateway实例仅需按照用户所需的监控的运行指标对目标Flink实时计算任务进行监控,而不再对目标Flink实时计算任务的所有运行指标进行监控,可有效减少目标PushGateway的负载,提高了目标PushGateway的监控效率,有利于针对用户的实际监控需求,给出精准的监控结果。
下文将对上述步骤S11至步骤S13进行详细说明:
在执行步骤S11时,获取用户的监控需求指令,可以是通过监听用户在用户交互界面UI上输入的监控需求指令,也可以是通过读取用户基于需求修改的监控需求文档中的修改内容,获取用户的监控需求并生成指令。
在本申请实施例中,用户的监控需求指令是指针对Flink实时计算任务,用于指示应用程序用户需要按照何种监控方式进行监控的指令信息。其中,用户针对Flink实时计算任务所需监控的需求根据实际应用场景的不同而不同。用户的监控需求包括:是否需要对实时计算任务进行监控、按照何种监控方式进行监控。其中,按照何种监控方式进行监控又细分为全局运行指标监控还是局部运行指标监控。
示例性的,以电子商务场景为例,用户针对商品的实时计算任务所需监控的需求可能包括:监控商品的实时交易量、监控商品近一个月的平均交易价格。针对监控商品的实时交易量这一实际需求而言,实时计算任务的计算延时便成为了核心监控需求,需要Flink实时计算任务高效地计算出商品的实时交易量。但是,针对监控商品近一个月的平均交易价格这一实际需求而言,实时计算任务的计算延时便显得不是那么重要了,相应的计算得到的价格精度便显得更为重要,即实时计算任务所能支持计算的浮点数位数才是针对监控商品近一个月的平均交易价格这一实际需求的核心监控需求。
现有技术中所采用的监控方案,多数是由用户告知代码编写人员具体的监控需求,由代码编写人员根据用户的实际需求修改任务的配置信息中包含的监控指标。此种方式,用户需要代码编写人员的协助,方可对应用程序进行监控,这样用户体验较差,且无法自主根据需求灵活修改自己的监控需求。为了提高用户体验,使得用户能够灵活自主针对监控需求进行修改,在一种可能的实施例中,在执行步骤S11时,可通过如下步骤S111以及步骤S112来实现用户自主修改自身的监控需求:
S111、获取用户在用户交互界面输入的自定义配置信息,其中,该自定义配置信息包括:全局监控开关、任务监控开关、Prometheus实例配置信息以及运行指标配置信息中的一种或多种。
其中,在本申请实施例中,全局监控开关用于全局控制运行指标汇总情况。具体的,若监控Flink实时计算任务的系统存在系统性异常时,关闭全局监控开关可达到关闭所有Flink实时计算任务监控汇报行为。本申请实施例中通过设计用户交互界面,为全局监控开关配置页面元素,以及设计全局监控开关页面元素与后端内部存储单元中的全局监控开关的配置信息的交互链路,可使得用户通过用户交互界面对全局监控开关状态进行选择,以实现对全局监控开关进行控制。
任务监控开关用于控制当前Flink实时计算任务是否汇报其运行时的各项运行指标,或者汇报其中某一项运行指标。该任务监控开关的配置信息位于后端实时计算任务运行平台内部存储单元中,本申请实施例中通过设计用户交互界面,为任务监控开关配置页面元素,以及设计任务监控开关的页面元素与后端实时计算任务运行平台内部存储单元中的配置信息的交互链路,可使得用户通过用户交互界面对任务监控开关进行配置,选取目标Flink实时计算任务运行时应该汇报的运行指标。
在本申请实施例中,Prometheus实例配置信息至少包括:Prometheus实例地址信息。其中,Prometheus实例地址:用于指示该Flink实时计算任务运行时各项运行指标的最终存储地址。同时,该Prometheus实例地址也可用于获取最低负载的PushGateway实例。在一种可能的实施例中,该Prometheus实例配置信息存放在Flink客户端内部,不对外部业务方开放,由集群管理员管理。当集群有Prometheus实例切换需求时,可通过修改配置信息,后续新增Flink实时计算任务时,将运行时指标汇报至修改的配置信息中对应Prometheus下辖的PushGateway当中即可。
运行指标配置信息至少包括:运行指标汇报周期参数。其中,运行指标汇报周期参数包括:定制化监控运行指标、自动监控运行指标、实时监控运行指标等等自定义的参数信息。其中,定制化监控运行指标为按照用户指定的监控需求,生成汇报周期参数以及汇报策略,然后按照所生成的汇报周期以及汇报策略,向目标PushGateway实例汇报所监控的运行指标结果。
S112、根据该自定义配置信息,生成监控需求指令信息。
在本申请实施例中,通过设计用于与用户交互的用户交互界面,将与Flink实时计算任务监控有关的各配置项设计成用户交互界面上的页面元素,该页面元素与实际后端实时计算任务的数据相关联。如此,用户可通过本申请所设计的用户交互界面,直观地选择自身所需监控的各项运行指标信息或者Flink实时计算任务的配置参数。其中,用户交互界面可通过提供输入框、可选词条等形式向用户直观展示可供选择或者输入的内容。
在执行步骤S111时,通过解析用户在用户交互界面输入、勾选的自定义的配置信息,获取针对目标Flink实时计算任务的监控需求指令,在执行步骤S12时,可基于该监控需求指令,获取用户在用户交互界面上输入或勾选的自定义的配置信息,并自适应地将获取得到的配置信息对目标Flink实时计算任务的执行代码中对应的配置信息进行修改,以生成目标Flink实时计算任务。具体的,借助Flink原生支持配置的PushGateway Reporter获取用户输入的自定义配置信息,然后根据用户输入的自定义配置信息,自适应地改变目标Flink实时计算任务的代码中配置信息部分的参数,以得到用户所需监控的目标Flink实时计算任务,并便于后续根据修改后的参数对目标Flink实时计算任务进行监控。
选用本申请实施例,通过将Flink实时计算任务的配置信息与用户交互界面上的页面元素衔接起来,可使得用户直接通过用户交互界面输入自身所需的自定义配置信息,本申请实施例能够自行根据用户输入的自定义配置信息,生成监控需求指令信息。如此,用户可在无专业代码人员帮助的情况下,自定义自己所需的监控配置信息,从而得到符合自己需求的监控结果。可有效地提升用户的用户体验,提高自定义的监控结果的输出效率,进一步提升了实时计算任务的监控效率。
如前文所述以及如图3所示,第三种基于PushGateway的监控方案是由单一的PushGateway实例接收Flink实时计算任务定向推送的数据,由Prometheus实例从该PushGateway实例上定向拉取PushGateway收集的Flink实时计算任务推动的数据,此种方案存在固定的PushGateway组件(或实例)监控效率较低的技术缺陷。
其中,该固定的PushGateway实例存在监控效率较低的原因为单个PushGateway存在单点性能瓶颈的问题,其根本原因是因为该固定的PushGateway实例为代码编写人员或者用户指定的PushGateway实例,而代码编写人员或者用户多数是在不清楚各PushGateway实例当前负载情况的情况下,凭借经验指定的固定的PushGateway实例,这就存在指定的固定的PushGateway实例可能是各PushGateway实例中负载已经是很高的PushGateway实例,如此便容易产生负载较高,监控效率较低的问题。为了克服固定PushGateway单点性能瓶颈导致的监控效率低的问题,在一种可能的实施例中,预先通过如下步骤获取步骤S13中的目标PushGateway实例:
S21、向目标Prometheus实例获取实时负载信息,其中,该实时负载信息为在该目标Prometheus实例上运行的各PushGateway实例的实时负载信息。
在本申请实施例中,实例是指计算机语言中某个类实例化后的产物,其中,类是静态的,不占进程内存,而实例拥有动态的内存,用于运行该实例并输出对应的结果。实例也可以理解为一个项目运行的程序,其中,目标Prometheus实例为Prometheus生态运行的一个程序,PushGateway实例为PushGateway组件运行的一个程序,程序与程序之间通过设置的端口进行数据交互。
在本申请实施例中,目标Prometheus实例上运行有至少两个PushGateway实例,PushGateway的实时负载信息可包括:PushGateway占用的计算资源情况、PushGatew占用的内存资源情况、PushGateway的待处理任务情况等等。
在一种可能的实施例中,目标Prometheus实例通过将运行的各PushGateway实例的实时负载信息以日志表的形式存储在指定路径下。在执行步骤S21时,通过向目标Prometheus实例发送请求消息,以请求获取各PushGateway实例的实时负载信息。目标Prometheus实例通过查询指定路径下的日志表,并将该日志表中的信息返回至执行主体中,以便执行主体确定负载最低的PushGateway实例。
S22、将其中实时负载信息最低的PushGateway实例,确定为目标PushGateway实例。
在执行步骤S22时,可以是通过将实时负载信息由小至大的顺序进行排序,获取排序第一的PushGateway实例作为目标PushGateway实例,也可以通过将实时负载信息由大至小的顺序进行排序,获取排序最后的PushGateway实例作为目标PushGateway实例。具体的,本申请不作具体限定。
选用本申请实施例,摒弃传统的通过代码人员或者用户指定固定的PushGateway实例的方式,通过向目标Prometheus实例进行通信,获取该目标Prometheus实例上运行的各PushGateway实例的真实实时负载情况,然后获取实时负载信息最低的PushGateway实例为目标PushGateway实例,不仅能够指定负载最低的PushGateway实例来执行获取目标Flink实时计算任务的运行指标,而且结合步骤S11获取的用户指定监控的运行指标信息,可使得负载最低的目标PushGateway实例仅监控用户所需的运行指标信息,如此,可使得用户的需求得到更多的处理资源进行计算、存储,有助于提高监控结果的输出效率,有效保障了用户的使用体验。
具体的,因为不同Flink实时计算任务本身所需要推送汇报的指标量不同,在部署多个PushGateway实例后,为了保障整个监控系统的稳定性,需要均衡PushGateway多实例间的负载。否则随着Flink实时计算任务的持续增长,必然会出现部分PushGateway实例空闲,拉取耗时低、延迟低,部分PushGateway实例拉取耗时高、延迟高的情形。从而导致系统整体不稳定,进一步存在宕机风险,使得监控结果无法正常输出。基于此,在一种可能的实施例中,在步骤S21、步骤S22的基础上,还通过如下步骤获取目标PushGateway实例:
S210、基于各PushGateway实例的运行指标信息拉取量级以及运行指标信息拉取耗时,确定各PushGateway实例中实时负载信息最低的目标PushGateway实例;
S211、将目标Flink实时计算任务携带的运行指标信息定向推送至目标PushGateway实例,以使得目标PushGateway实例基于用户所需监控的运行指标信息,对目标Flink实时计算任务进行监控。
具体的,可如图4所示,目标Prometheus实例在拉取各PushGateway实例内注册的指标信息时,还会同时拉取对应各PushGateway本身的实例运行信息及拉取过程信息。其中,拉取过程信息包括:“指标拉取量级”与“指标拉取耗时”两项指标。然后,根据该拉取过程指标信息,目标Prometheus实例可以实时判断出当前负载最低的PushGateway实例。当新建Flink任务接入运行时,任务只需要将其自身的运行时指标定向推送到当时负载最低的PushGateway实例,即可完成负载均衡能力。
如此,可如图5所示,在现有运行的多个PushGateway实例横向扩展PushGateway实例场景下,新增PushGateway实例本身并不包含运行时指标,故一定会被目标Prometheus实例优先拉取,从而优先承接指标汇报的工作。由此,便实现了分担负载的功能。
在一种可能的实施例中,本申请所提供的实时计算任务监控方法还包括如下步骤:
若监控需求指令中携带的各目标监控开关为开启状态,且监控需求指令信息中携带有目标Prometheus实例配置信息,则通过预设请求报文,向该目标Prometheus实例请求获取目标PushGateway实例的地址信息。
其中,目标监控开关包括上文提及的全局监控开关、任务监控开关,目标Prometheus实例配置信息包括目标Prometheus实例地址信息以及目标Prometheus实例上运行的各PushGateway实例地址信息。
在本申请实施例中,预设请求报文可以是HTTP(Hypertext Transfer Protocol,超文本传输协议)报文,也可以是其他同类型的通信协议报文。可如图6所示,本申请实施例中预设请求报文协议与目标Prometheus实例进行信息交互,向目标Prometheus实例请求负载最低的PushGateway实例的地址信息,目标Prometheus实例通过执行上述步骤S210获取负载最低的目标PushGateway实例,然后获取该目标PushGateway实例的地址信息,并通过预设请求报文将该目标PushGateway实例的地址信息返回至执行主体,以便执行主体与最低负载PushGateway实例信息构建连接。
具体的,可如图6所示,通过读取flink-conf.yaml监控需求指令,读取Flink任务动态参数-yD,并覆盖flink-conf.yaml同名的配置。然后若配置中包含全局监控开关,且全局监控开关开启。此外该配置中包含任务监控开关,且任务开关开启,且配置中包含Prometheus实例配置信息,便请求Prometheus实例,获取Prometheus实例上负载最低的PushGateway实例地址,然后将PushGateway实例地址以及相关的配置动态添加至任务配置参数中,之后启动任务,开启整个监控Flink实时计算任务流程。
基于此,执行步骤S12时具体可以通过如下步骤实现:
将该目标PushGateway实例的地址信息,以及监控需求指令中携带的运行指标信息,添加至Flink实时计算任务的配置信息中,以生成该目标Flink实时计算任务。
本申请实施例中,确定各目标监控开关都开启,可通过HTTP请求的方式,从配置汇报的目标Prometheus实例中请求获取负载最低的PushGateway实例地址,然后将该实例地址以及相关的配置信息动态添加到任务配置参数中,进而实现将目标PushGateway实例的地址信息以及监控需求指令中携带的运行指标信息添加至Flink实时计算任务的配置信息中,以生成目标Flink实时计算任务。
在本申请实施例中,如图6所示,若监控需求指令中携带的各目标监控开关的状态不全是开启状态,或者没有携带目标Prometheus实例的配置信息时,便可无需基于监控需求指令,生成目标Flink实时计算任务。如此,可在用户无需对实时计算任务进行监控时,按照原始监控方式输出监控结果,在用户需要对实时计算任务进行监控时,根据用户输入的各目标监控开关的状态以及携带的目标Prometheus实例的配置信息,自行生成目标Flink实时计算任务,并对该目标Flink实时计算任务按照携带的运行指标进行监控,有助于更好地提高用户体验。
在一种可能的实施例中,可如图7所示,本申请所提供的实时计算任务监控装置运行于Flink on Yarn场景中的Flink客户端,如前文介绍的,Yarn为一种资源调度平台,该方法还包括:
由该Flink客户端获取目标PushGateway实例的地址信息以及用户所需监控的运行指标信息;
具体的,任务与集群配置模块用于获取用户输入的全局监控开关、任务监控开关以及Prometheus实例,然后由执行主体Flink客户端中的配置管理模块中的自定义监控配置,获取目标PushGateway实例的地址信息以及任务需要监控的运行指标信息。基于此,执行步骤S21,向目标Prometheus实例请求获取最低负载PushGateway实例为目标PushGateway实例。
然后,在执行步骤S13时,可通过如下步骤实现:
将目标PushGateway实例的地址信息以及用户输入的需要监控的目标Flink实时计算任务的运行指标信息发送至Yarn资源调度平台,以使得Yarn资源调度平台运行该目标Flink实时计算任务,以使得该目标Flink实时计算任务基于该目标PushGateway实例的地址信息向目标PushGateway实例发送自身的运行指标信息,以实现目标PushGateway实例基于接收到的运行指标信息对目标Flink实时计算任务进行监控。
具体的,Flink客户端基于接收到的所需监控的运行指标信息,以及目标PushGateway的地址信息,然后通过预设协议报文(比如HTTP协议报文,或者其他类似的协议报文)将接收到的信息转发给Yarn Container中,由该Yarn Container运行该目标Flink实时计算任务,目标Flink实时计算任务会实时按照所需监控的运行指标信息采集所需监控的运行指标信息数据,然后并将采集到的所需监控的运行指标信息汇总,通过预设协议报文发送给对应的目标PushGateway实例的端口,以使得目标PushGateway实例通过端口收集目标Flink实时计算任务的运行指标监控结果,以便于目标Prometheus通过目标PushGateway实例定向拉取针对目标Flink实时计算任务的监控运行指标结果。其中,Prometheus通过PromQL运行于Grafana平台上。
从而,可以使得携带如上动态参数的目标Flink实时计算任务启动后,即可将其运行时指标,经由预定义的裁剪策略过滤后,依据预定义汇报周期汇报到对应的目标PushGateway实例上,以供目标Prometheus实例拉取。
其中,能够如此操作以实现负载均衡的原因如下:
原因1、Flink原生支持配置PushGateway Reporter,如上改动契合Flink源码设计,便于后续拓展升级。
原因2、Prometheus以PushGateway实例粒度拉取指标。使用动态配置参数的方式,可以保证单一Flink任务的所有运行时指标可以固定推送至单一PushGateway实例,并被Prometheus在同一时间拉取,以便于进行聚合计算,避免时钟不同步的情况发生。
原因3、使用动态配置参数的方式,在Flink任务部分TaskManager宕机重启的情况下,仍可以保障其运行时指标固定推送至原定PushGateway实例。
原因4、当某一台PushGateway实例宕机时,其对Flink任务监控的影响一定为丢失全部指标或不丢失指标,不会对任务指标计算造成影响。
选用本申请实施例,可在Flink On Yarn场景下,新增Flink实时计算任务且自动依据任务等级定制化接入Prometheus指标,以实现在Flink原生客户端中定制化开发自定义监控模块,并实现指标裁剪逻辑,在Flink任务接入运行时,其内部结合多组自定义配置项逻辑,控制最低负载PushGateway实例的实时获取,并依据任务等级预设生成指标裁剪与汇报延迟策略,将这些配置与策略动态生成为Flink原生Reporter配置以供Flink实时计算任务使用,有助于在较小的PushGateway负载的情况下,对Flink实时计算任务进行高效率的监控,进一步保证监控结果的准确性。
第二方面,本申请实施例提供了一种实时计算任务监控装置,其中,如图8所示,该装置800包括:
获取模块801,用于获取用户的监控需求指令,其中,该监控需求指令中携带有用户所需监控的运行指标信息;
实时计算任务生成模块802,用于基于该监控需求指令,生成目标Flink实时计算任务;
监控模块803,用于将该用户所需监控的运行指标信息推送至目标PushGateway实例中,以使得该目标PushGateway实例基于该用户所需监控的运行指标信息,对该目标Flink实时计算任务进行监控。在一种可能的实施例中,监控模块803位于目标Flink实时计算任务内部,即由Flink实时计算任务自己通过自身的监控模块803将自身的运行指标信息定向推送到PushGateway。
在一种可能的实施例中,该目标PushGateway实例通过如下方式确定得到:
向目标Prometheus实例获取实时负载信息,其中,该实时负载信息为在该目标Prometheus实例上运行的各PushGateway实例的实时负载信息;
将该实时负载信息最低的PushGateway实例,确定为该目标PushGateway实例。
在一种可能的实施例中,该装置800还包括:
确定模块804,用于基于各该PushGateway实例的运行指标信息拉取量级以及运行指标信息拉取耗时,确定各该PushGateway实例中实时负载信息最低的目标PushGateway实例;
该监控模块803,具体用于将该目标Flink实时计算任务携带的运行指标信息定向推送至该目标PushGateway实例,以使得该目标PushGateway实例基于该用户所需监控的运行指标信息,对该目标Flink实时计算任务进行监控。
在一种可能的实施例中,该装置还包括:
实例获取模块805,用于若该监控需求指令中携带的各目标监控开关为开启状态,且该监控需求指令信息中携带有该目标Prometheus实例配置信息,则通过预设请求报文,向该目标Prometheus实例获取该目标PushGateway实例的地址信息;
该实时计算任务生成模块802,具体用于:
将该目标PushGateway实例的地址信息以及该监控需求指令信息中携带的运行指标信息,添加至Flink实时计算任务的配置信息中,以生成该目标Flink实时计算任务。
在一种可能的实施例中,该获取模块801具体用于:
获取用户在用户交互界面输入的自定义配置信息,其中,该自定义配置信息包括:全局监控开关、任务监控开关、Prometheus实例配置信息以及运行指标配置信息中的一种或多种;
根据该自定义配置信息,生成该监控需求指令信息。
在一种可能的实施例中,该装置为Flink on Yarn场景中的Flink客户端,该Yarn为一种资源调度平台,该获取模块801具体用于:
获取该目标PushGateway实例的地址信息以及该用户所需监控的运行指标信息;
该监控模块803,具体用于:
将该地址信息以及该运行指标信息发送至该Yarn资源调度平台,以使得该Yarn资源调度平台运行该目标Flink实时计算任务,以便该目标Flink实时计算任务根据该地址信息向该目标PushGateway实例发送自身的运行指标信息,以实现该目标PushGateway实例基于接收到的运行指标信息对该目标Flink实时计算任务进行监控。
本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本申请示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本申请实施例的方法。
本申请示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。
本申请示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。
参考图9,现将描述可以作为本申请的服务器或客户端的电子设备900的结构框图,其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
电子设备900中的多个部件连接至I/O接口905,包括:输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向电子设备900输入信息的任何类型的设备,输入单元906可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元907可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元904可以包括但不限于磁盘、光盘。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理。例如,在一些实施例中,前述实时计算任务监控方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。在一些实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行前述实时计算任务监控方法。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本申请使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (12)
1.一种实时计算任务监控方法,其特征在于,所述方法包括:
获取用户的监控需求指令,其中,所述监控需求指令中携带有用户所需监控的运行指标信息;
基于所述监控需求指令,生成目标Flink实时计算任务;
将所述用户所需监控的运行指标信息推送至目标PushGateway实例中,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向目标Prometheus实例获取实时负载信息,其中,所述实时负载信息为在所述目标Prometheus实例上运行的各PushGateway实例的实时负载信息;
将所述实时负载信息最低的PushGateway实例,确定为所述目标PushGateway实例。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于各所述PushGateway实例的运行指标信息拉取量级以及运行指标信息拉取耗时,确定各所述PushGateway实例中实时负载信息最低的目标PushGateway实例;
将所述目标Flink实时计算任务携带的运行指标信息定向推送至所述目标PushGateway实例,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述监控需求指令中携带的各目标监控开关为开启状态,且所述监控需求指令信息中携带有所述目标Prometheus实例配置信息,则通过预设请求报文,向所述目标Prometheus实例请求获取所述目标PushGateway实例的地址信息;
所述基于所述监控需求指令,生成目标Flink实时计算任务,包括:
将所述目标PushGateway实例的地址信息以及所述监控需求指令信息中携带的运行指标信息,添加至Flink实时计算任务的配置信息中,以生成所述目标Flink实时计算任务。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户在用户交互界面输入的自定义配置信息,其中,所述自定义配置信息包括:全局监控开关、任务监控开关、Prometheus实例配置信息以及运行指标配置信息中的一种或多种;
根据所述自定义配置信息,生成所述监控需求指令信息。
6.根据权利要求1所述的方法,其特征在于,所述方法应用于Flink on Yarn场景中的Flink客户端,所述Yarn为一种资源调度平台,所述方法还包括:
获取所述目标PushGateway实例的地址信息以及所述用户所需监控的运行指标信息;
所述将所述用户所需的运行指标信息推送至所述目标PushGateway实例中,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控,包括:
将所述地址信息以及所述运行指标信息发送至所述Yarn资源调度平台,以使得所述Yarn资源调度平台运行所述目标Flink实时计算任务,以便所述目标Flink实时计算任务根据所述地址信息向所述目标PushGateway实例发送自身的运行指标信息,以使得所述目标PushGateway实例基于接收到的运行指标信息对所述目标Flink实时计算任务进行监控。
7.一种实时计算任务监控装置,其特征在于,所述装置包括:
获取模块,用于获取用户的监控需求指令,其中,所述监控需求指令中携带有用户所需监控的运行指标信息;
实时计算任务生成模块,用于基于所述监控需求指令,生成目标Flink实时计算任务;
监控模块,用于将所述用户所需监控的运行指标信息推送至目标PushGateway实例中,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
实例获取模块,用于向目标Prometheus实例获取实时负载信息,其中,所述实时负载信息为在所述目标Prometheus实例上运行的各PushGateway实例的实时负载信息;
将所述实时负载信息最低的PushGateway实例,确定为所述目标PushGateway实例;
所述装置还包括:
确定模块,用于基于各所述PushGateway实例的运行指标信息拉取量级以及运行指标信息拉取耗时,确定各所述PushGateway实例中实时负载信息最低的目标PushGateway实例;
所述监控模块,具体用于将所述目标Flink实时计算任务携带的运行指标信息定向推送至所述目标PushGateway实例,以使得所述目标PushGateway实例基于所述用户所需监控的运行指标信息,对所述目标Flink实时计算任务进行监控;
所述实例获取模块,还用于若所述监控需求指令中携带的各目标监控开关为开启状态,且所述监控需求指令信息中携带有所述目标Prometheus实例配置信息,则通过预设请求报文,向所述目标Prometheus实例请求获取所述目标PushGateway实例的地址信息;
所述实时计算任务生成模块,具体用于:
将所述目标PushGateway实例的地址信息以及所述监控需求指令信息中携带的运行指标信息,添加至Flink实时计算任务的配置信息中,以生成所述目标Flink实时计算任务。
9.根据权利要求7所述的装置,其特征在于,所述获取模块具体用于:
获取用户在用户交互界面输入的自定义配置信息,其中,所述自定义配置信息包括:全局监控开关、任务监控开关、Prometheus实例配置信息以及运行指标配置信息中的一种或多种;
根据所述自定义配置信息,生成所述监控需求指令信息。
10.根据权利要求7所述的装置,其特征在于,所述装置为Flink on Yarn场景中的Flink客户端,所述Yarn为一种资源调度平台,所述获取模块具体用于:
获取所述目标PushGateway实例的地址信息以及所述用户所需监控的运行指标信息;
所述监控模块,具体用于:
将所述地址信息以及所述运行指标信息发送至所述Yarn资源调度平台,以使得所述Yarn资源调度平台运行所述目标Flink实时计算任务,以便所述目标Flink实时计算任务根据所述地址信息向所述目标PushGateway实例发送自身的运行指标信息,以使得所述目标PushGateway实例基于接收到的运行指标信息对所述目标Flink实时计算任务进行监控。
11.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311099884.6A CN117076251A (zh) | 2023-08-29 | 2023-08-29 | 一种实时计算任务监控方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311099884.6A CN117076251A (zh) | 2023-08-29 | 2023-08-29 | 一种实时计算任务监控方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076251A true CN117076251A (zh) | 2023-11-17 |
Family
ID=88715067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311099884.6A Pending CN117076251A (zh) | 2023-08-29 | 2023-08-29 | 一种实时计算任务监控方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076251A (zh) |
-
2023
- 2023-08-29 CN CN202311099884.6A patent/CN117076251A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10171377B2 (en) | Orchestrating computing resources between different computing environments | |
US9137130B2 (en) | Dynamic network load forecasting | |
US9942353B2 (en) | Management of connections within a messaging environment based on the statistical analysis of server responsiveness | |
CN113742031B (zh) | 节点状态信息获取方法、装置、电子设备及可读存储介质 | |
EP3901773A1 (en) | Dynamically allocated cloud worker management system and method therefor | |
CN109614227B (zh) | 任务资源调配方法、装置、电子设备及计算机可读介质 | |
US11381463B2 (en) | System and method for a generic key performance indicator platform | |
US9785507B2 (en) | Restoration of consistent regions within a streaming environment | |
CN112579304A (zh) | 基于分布式平台的资源调度方法、装置、设备及介质 | |
CN116325705A (zh) | 边缘计算环境中的管理任务流 | |
CN113656239A (zh) | 针对中间件的监控方法、装置及计算机程序产品 | |
US10999393B2 (en) | Cloud broker for connecting with enterprise applications | |
CN116992982A (zh) | 模型部署方法、装置、系统、电子设备和存储介质 | |
US11971907B2 (en) | Component monitoring framework with predictive analytics | |
CN116185578A (zh) | 计算任务的调度方法和计算任务的执行方法 | |
CN114756301A (zh) | 日志处理方法、装置和系统 | |
CN117076251A (zh) | 一种实时计算任务监控方法、装置及电子设备 | |
CN113778973B (zh) | 数据存储方法和装置 | |
US11537433B2 (en) | Resource and asset lifecycle costing | |
CN115129565A (zh) | 日志数据处理方法、装置、系统、设备和介质 | |
CN114564249A (zh) | 推荐调度引擎、推荐调度方法及计算机可读存储介质 | |
CN113138772A (zh) | 数据处理平台的构建方法、装置、电子设备和存储介质 | |
US11985051B1 (en) | Dynamically visualizing service mesh topologies with event-based messaging | |
US20240103903A1 (en) | Dynamic pod priority inference utilizing service mesh telemetry data | |
US20230376363A1 (en) | Framework for digital workers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |