CN111930561A - 流式任务自动化监控告警重启系统及方法 - Google Patents
流式任务自动化监控告警重启系统及方法 Download PDFInfo
- Publication number
- CN111930561A CN111930561A CN202010628813.0A CN202010628813A CN111930561A CN 111930561 A CN111930561 A CN 111930561A CN 202010628813 A CN202010628813 A CN 202010628813A CN 111930561 A CN111930561 A CN 111930561A
- Authority
- CN
- China
- Prior art keywords
- task
- state
- registration
- streaming
- registry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种流式任务自动化监控告警重启系统及方法,包括:注册服务模块:对流式任务进行注册;发现服务模块:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;告警重启系统:轮询注册中心的非RUNNING状态的任务。本发明通过采用单一部署执行和批量部署执行的双重模式,不但可以对单个任务进行注册也可以对现有的流式job进行批量部署注册可以有效的减少运维工程师的工作量和操作复杂度。
Description
技术领域
本发明涉及大数据处理技术领域,具体地,涉及流式任务自动化监控告警重启系统及方法。尤其地,涉及MAFJ在工业大数据流任务自动化监控重启中的应用。
背景技术
随着大数据的发展,人们对大数据的处理的工具也越来越丰富,作为目前最受欢迎的流式处理框架flink,自然也是在各个领域中被引用,flink的实时计算能力也是在各种场景中表现优异,在工业大数据领域中,也渐渐被应用起来。然而,目前对技术的应用普遍是对业务的出来和数据的整合,并没有对其本身任务的一种调度系统。
现市场上的flink大数据架构大多数习惯于对处理数据的监控,反而对其本身的状态的监控并不严谨,所以当任务出现异常,解决问题会变得复杂和缓慢,同时,也对实际的业务数据存在一定的影响,如果不能及时解决,则会带来更大的损失。MAFJ系统是为了实现简洁化部署,任务的注册和异常发现服务,以及对异常任务进行报警和重启的功能,实现自动化管理的功能,同时,出现难以解决的异常状况,报警功能也可以找到相关的负责人进行手动解决,保证了最短时间内解决问题,减少其带来的损失。
经对现有技术进行检索,发现如下相关检索结果。
相关检索结果1:
申请号:201911251688.X
名称:一种基于flink的微服务性能实时监控方法
该发明公开一种基于flink的微服务性能实时监控方法,包括以下步骤S1:性能日志埋点;S2:日志采集;S3:聚合计算;S4:结果存储。本发明对微服务架构涉及到的应用服务调用,进行全方位监控,任何一个组件出现问题,就可以通过监控看出出问题的源头在哪。日志埋点时,通过异步单线程进行写入,避免了对应用性能造成影响。在应用层进行一分钟内的监控数据的统计,避免造成了过多的资源浪费。本发明使用flink计算引擎,能够非常实时地计算出结果,使用cl ickhouse作为数据存储,能支持集群部署,提供稳定性,可靠性,并且不依赖其他组件,更加简单,不易出问题;查询,批量写入性能高;压缩比高,能为企业降低成本。
技术要点比较:
其系统是对日志文件的内容进行实时监控,使用了微服务技术以及clickhouse进行存储,是对业务数据进行监控的系统,而本系统是对flink的任务进行实时的监控,存在心跳机制,可以实时的监控到任务的异常状态,相比较于这种处理业务的系统,MAFJ监控是侧重于其去处理业务数据的任务的维护,主要可以降低风险,实现自动化告警重启,极大的降低的运维成本和系统架构异常而带来的损失。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种流式任务自动化监控告警重启系统及方法。
根据本发明提供的一种流式任务自动化监控告警重启系统,包括
注册服务模块:对流式任务进行注册;
发现服务模块:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;
告警重启系统:轮询注册中心的非RUNNING状态的任务。
优选地,所述注册服务模块包括两种部署和执行模式:
单个部署执行模式:工程师完成相应的流式任务的开发并按照规定的注册参数将自己的job注册到注册中心;
批量部署执行模式:运维工程师将所有现有的流式任务进行统一管理统一注册。
优选地,所述对流式任务进行注册包括以下步骤:
步骤一:重写注册服务中的一个开放api主程序将相关参数传入到接口中,相关参数包括:任务名称,任务负责人信息以及任务启动命令信息;
步骤二:将重写的api主程序加入批量注册管道,以使服务器或者CDH集群重启能够直接批量注册;
步骤三:将重写的api主程序执行注册。
优选地,所述发现服务模块:
模块S1:定期去查询注册中心中所有的状态显示正常的任务名;
模块S2:将查到的任务名,逐个进行在服务器上此任务是否在资源管理器系统yarn上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,调用模块S3;
模块S2:资源管理器系统yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态;
模块S4:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务已经结束,此时需要先用命令杀死掉资源管理器系统上的对应进程,再进行注册中心状态的修改,将状态改为失败;
模块S5:如果状态为其他的状态,表示任务目前处于异常状态,但任务仍然在运行,此时需要在注册中心进行状态的修改,将状态改为其他的状态。
优选地,所述轮询注册中心的非RUNNING状态的任务包括以下步骤:
步骤一:轮询监控注册中心的非RUNNING状态的任务到一个列表;
步骤二:列表中短期任务和非失败的任务只需要告警出来;
步骤三:将长期类型的失败状态的任务需要告警另外需要重写执行注册服务中的开发api主程序重新注册任务到注册中心。
根据本发明提供的一种流式任务自动化监控告警重启方法,包括
注册服务步骤:对流式任务进行注册;
发现服务步骤:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;
告警重启步骤:轮询注册中心的非RUNNING状态的任务。
优选地,所述注册服务步骤包括两种部署和执行模式:
单个部署执行模式:工程师完成相应的流式任务的开发并按照规定的注册参数将自己的job注册到注册中心;
批量部署执行模式:运维工程师将所有现有的流式任务进行统一管理统一注册。
优选地,所述对流式任务进行注册包括以下步骤:
步骤一:重写注册服务中的一个开放api主程序将相关参数传入到接口中,相关参数包括:任务名称,任务负责人信息以及任务启动命令信息;
步骤二:将重写的api主程序加入批量注册管道,以使服务器或者CDH集群重启能够直接批量注册;
步骤三:将重写的api主程序执行注册。
优选地,所述发现服务步骤:
步骤S1:定期去查询注册中心中所有的状态显示正常的任务名;
步骤S2:将查到的任务名,逐个进行在服务器上此任务是否在资源管理器系统yarn上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,进入步骤S3;
步骤S3:资源管理器系统yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态;
步骤S4:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务已经结束,此时需要先用命令杀死掉资源管理器系统上的对应进程,再进行注册中心状态的修改,将状态改为失败;
步骤S5:如果状态为其他的状态,表示任务目前处于异常状态,但任务仍然在运行,此时需要在注册中心进行状态的修改,将状态改为其他的状态。
优选地,所述轮询注册中心的非RUNNING状态的任务包括以下步骤:
步骤一:轮询监控注册中心的非RUNNING状态的任务到一个列表;
步骤二:列表中短期任务和非失败的任务只需要告警出来;
步骤三:将长期类型的失败状态的任务需要告警另外需要重写执行注册服务中的开发api主程序重新注册任务到注册中心。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过采用单一部署执行和批量部署执行的双重模式,不但可以对单个任务进行注册也可以对现有的流式job进行批量部署注册可以有效的减少运维工程师的工作量和操作复杂度。
2、本发明通过采用架构分离模块,各个模块之间解耦有效的增加对流式任务的异常检测和预警。
3、本发明通过采用fl ink框架webui接口返回参数的实时异步解析和对yarn上的session的进程的定时获取从而快速精准的得到流式任务的心跳判断是否存活和决策是否自动重启从而减少因流式job死亡发现缓慢而产生不必要的损失。
4、当前的监控主要在flink的UI界面上查看任务的状态信息及运行状况,然而本发明是可以通过脚本的方式在后台实时的将任务状态更新到数据库中,从而监控到任务的状态,同时对出现异常的任务及时告警和重启。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的Flink job监控告警自动重启流程框架示意图。
图2为本发明提供的发现服务流程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种流式任务自动化监控告警重启系统,包括
注册服务模块:对流式任务进行注册;
发现服务模块:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;
告警重启系统:轮询注册中心的非RUNNING状态的任务。
具体地,所述注册服务模块包括两种部署和执行模式:
单个部署执行模式:工程师完成相应的流式任务的开发并按照规定的注册参数将自己的job注册到注册中心;
批量部署执行模式:运维工程师将所有现有的流式任务进行统一管理统一注册。
具体地,所述对流式任务进行注册包括以下步骤:
步骤一:重写注册服务中的一个开放api主程序将相关参数传入到接口中,相关参数包括:任务名称,任务负责人信息以及任务启动命令信息;
步骤二:将重写的api主程序加入批量注册管道,以使服务器或者CDH集群重启能够直接批量注册;
步骤三:将重写的api主程序执行注册。
具体地,所述发现服务模块:
模块S1:定期去查询注册中心中所有的状态显示正常的任务名;
模块S2:将查到的任务名,逐个进行在服务器上此任务是否在资源管理器系统yarn上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,调用模块S3;
模块S2:资源管理器系统yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态;
模块S4:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务已经结束,此时需要先用命令杀死掉资源管理器系统上的对应进程,再进行注册中心状态的修改,将状态改为失败;
模块S5:如果状态为其他的状态,表示任务目前处于异常状态,但任务仍然在运行,此时需要在注册中心进行状态的修改,将状态改为其他的状态。
具体地,所述轮询注册中心的非RUNNING状态的任务包括以下步骤:
步骤一:轮询监控注册中心的非RUNNING状态的任务到一个列表;
步骤二:列表中短期任务和非失败的任务只需要告警出来;
步骤三:将长期类型的失败状态的任务需要告警另外需要重写执行注册服务中的开发api主程序重新注册任务到注册中心。
根据本发明提供的一种流式任务自动化监控告警重启方法,包括
注册服务步骤:对流式任务进行注册;
发现服务步骤:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;
告警重启步骤:轮询注册中心的非RUNNING状态的任务。
具体地,所述注册服务步骤包括两种部署和执行模式:
单个部署执行模式:工程师完成相应的流式任务的开发并按照规定的注册参数将自己的job注册到注册中心;
批量部署执行模式:运维工程师将所有现有的流式任务进行统一管理统一注册。
具体地,所述对流式任务进行注册包括以下步骤:
步骤一:重写注册服务中的一个开放api主程序将相关参数传入到接口中,相关参数包括:任务名称,任务负责人信息以及任务启动命令信息;
步骤二:将重写的api主程序加入批量注册管道,以使服务器或者CDH集群重启能够直接批量注册;
步骤三:将重写的api主程序执行注册。
具体地,所述发现服务步骤:
步骤S1:定期去查询注册中心中所有的状态显示正常的任务名;
步骤S2:将查到的任务名,逐个进行在服务器上此任务是否在资源管理器系统yarn上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,进入步骤S3;
步骤S3:资源管理器系统yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态;
步骤S4:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务已经结束,此时需要先用命令杀死掉资源管理器系统上的对应进程,再进行注册中心状态的修改,将状态改为失败;
步骤S5:如果状态为其他的状态,表示任务目前处于异常状态,但任务仍然在运行,此时需要在注册中心进行状态的修改,将状态改为其他的状态。
具体地,所述轮询注册中心的非RUNNING状态的任务包括以下步骤:
步骤一:轮询监控注册中心的非RUNNING状态的任务到一个列表;
步骤二:列表中短期任务和非失败的任务只需要告警出来;
步骤三:将长期类型的失败状态的任务需要告警另外需要重写执行注册服务中的开发api主程序重新注册任务到注册中心。
下面通过优选例,对本发明进行更为具体地说明。
优选例1:
本发明采用集群架构,对于系统的扩展性、健壮性有着明显优势。工业发展非常快速,智能化信息程度越来越高,使用到的机器设备占比也越来越大,同时会产生大量的数据需要通过大数据的实时技术来做到数据秒级响应,MAFJ则是针对工业级大数据流式任务注册监控重启一体化的智能架构系统,能做到批量注册,单个注册,异常自动发现,异常任务告警,以及异常任务自动重启等。
如图1所示,MAFJ主要通过三个服务模块对flink job的生命周期的注册中心的信息进行注册,监控并实现自动告警重启功能,具体包括注册服务,发现服务以及告警重启服务:
注册服务:
注册服务模块分两种部署和执行的方式,第一则是单个部署执行模式即工程师完成相应的流式job的开发并按照规定的注册参数将自己的job注册到注册中心以用于发现服务和告警重启服务的使用,第二则是批量部署执行模式即运维工程师将所有现有的流式job进行统一管理统一注册。注册服务具体包含以下步骤:
步骤一:工程师重写注册服务中的一个开放api主程序将自己的相关参数比如job名称,job负责人,job启动命令等信息传入到接口中即可
步骤二:将自己重写的api主程序加入批量注册管道以方便服务器或者CDH集群重启可以直接批量注册
步骤三:将重写的api主程序执行注册
发现服务:
如图2所示,监听正常的任务,发现了异常情况时,进行对应的操作处理并在注册中心对应异常任务的状态修改,为告警和重启服务提供发现异常的服务,包含以下步骤:
步骤一:定期去查询注册中心中所有的状态显示正常的任务名
步骤二:将查到的任务名,逐个进行在服务器上此任务是否在yarn(一种通用的资源管理器系统,任务的运行环境由此系统进行调度)上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,进行下一步判断
步骤三:yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态
步骤四:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务已经dead,此时需要先用命令kill掉yarn的对应进程,再进行注册中心状态的修改,将状态改为失败
步骤五:如果状态为其他的状态,表示任务目前处于异常状态,但任务仍然在运行,此时需要在注册中心进行状态的修改,将状态改为其他的状态。所述其他的状态指正常状态和失败状态意外的状态。
告警重启服务:
告警重启服务是MAFJ的核心部分,相当于大脑,承担着观察和发声和奔跑的作用。轮询注册中心的非RUNNING状态的job。具体包含以下步骤:
步骤一:轮询监控注册中心的非RUNNING状态的job等到一个列表
步骤二:列表中短期job和非失败的任务只需要告警出来
步骤三:将长期类型的失败状态的任务需要告警另外需要重写执行注册服务中的开发api主程序重新提交job重新注册job到注册中心
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种流式任务自动化监控告警重启系统,其特征在于,包括
注册服务模块:对流式任务进行注册;
发现服务模块:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;
告警重启系统:轮询注册中心的非RUNNING状态的任务。
2.根据权利要求1所述的流式任务自动化监控告警重启系统,其特征在于,所述注册服务模块包括两种部署和执行模式:
单个部署执行模式:工程师完成相应的流式任务的开发并按照规定的注册参数将自己的job注册到注册中心;
批量部署执行模式:运维工程师将所有现有的流式任务进行统一管理统一注册。
3.根据权利要求2所述的流式任务自动化监控告警重启系统,其特征在于,所述对流式任务进行注册包括以下步骤:
步骤一:重写注册服务中的一个开放api主程序将相关参数传入到接口中,相关参数包括:任务名称,任务负责人信息以及任务启动命令信息;
步骤二:将重写的api主程序加入批量注册管道,以使服务器或者CDH集群重启能够直接批量注册;
步骤三:将重写的api主程序执行注册。
4.根据权利要求1所述的流式任务自动化监控告警重启系统,其特征在于,所述发现服务模块:
模块S1:定期去查询注册中心中所有的状态显示正常的任务名;
模块S2:将查到的任务名,逐个进行在服务器上此任务是否在资源管理器系统yarn上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,调用模块S3;
模块S2:资源管理器系统yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态;
模块S4:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务已经结束,此时需要先用命令杀死掉资源管理器系统上的对应进程,再进行注册中心状态的修改,将状态改为失败;
模块S5:如果状态为其他的状态,表示任务目前处于异常状态,但任务仍然在运行,此时需要在注册中心进行状态的修改,将状态改为其他的状态。
5.根据权利要求1所述的流式任务自动化监控告警重启系统,其特征在于,所述轮询注册中心的非RUNNING状态的任务包括以下步骤:
步骤一:轮询监控注册中心的非RUNNING状态的任务到一个列表;
步骤二:列表中短期任务和非失败的任务只需要告警出来;
步骤三:将长期类型的失败状态的任务需要告警另外需要重写执行注册服务中的开发api主程序重新注册任务到注册中心。
6.一种流式任务自动化监控告警重启方法,其特征在于,包括
注册服务步骤:对流式任务进行注册;
发现服务步骤:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;
告警重启步骤:轮询注册中心的非RUNNING状态的任务。
7.根据权利要求6所述的流式任务自动化监控告警重启方法,其特征在于,所述注册服务步骤包括两种部署和执行模式:
单个部署执行模式:工程师完成相应的流式任务的开发并按照规定的注册参数将自己的job注册到注册中心;
批量部署执行模式:运维工程师将所有现有的流式任务进行统一管理统一注册。
8.根据权利要求7所述的流式任务自动化监控告警重启方法,其特征在于,所述对流式任务进行注册包括以下步骤:
步骤一:重写注册服务中的一个开放api主程序将相关参数传入到接口中,相关参数包括:任务名称,任务负责人信息以及任务启动命令信息;
步骤二:将重写的api主程序加入批量注册管道,以使服务器或者CDH集群重启能够直接批量注册;
步骤三:将重写的api主程序执行注册。
9.根据权利要求6所述的流式任务自动化监控告警重启方法,其特征在于,所述发现服务步骤:
步骤S1:定期去查询注册中心中所有的状态显示正常的任务名;
步骤S2:将查到的任务名,逐个进行在服务器上此任务是否在资源管理器系统yarn上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,进入步骤S3;
步骤S3:资源管理器系统yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态;
步骤S4:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务已经结束,此时需要先用命令杀死掉资源管理器系统上的对应进程,再进行注册中心状态的修改,将状态改为失败;
步骤S5:如果状态为其他的状态,表示任务目前处于异常状态,但任务仍然在运行,此时需要在注册中心进行状态的修改,将状态改为其他的状态。
10.根据权利要求6所述的流式任务自动化监控告警重启方法,其特征在于,所述轮询注册中心的非RUNNING状态的任务包括以下步骤:
步骤一:轮询监控注册中心的非RUNNING状态的任务到一个列表;
步骤二:列表中短期任务和非失败的任务只需要告警出来;
步骤三:将长期类型的失败状态的任务需要告警另外需要重写执行注册服务中的开发api主程序重新注册任务到注册中心。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010628813.0A CN111930561B (zh) | 2020-07-02 | 2020-07-02 | 流式任务自动化监控告警重启系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010628813.0A CN111930561B (zh) | 2020-07-02 | 2020-07-02 | 流式任务自动化监控告警重启系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930561A true CN111930561A (zh) | 2020-11-13 |
CN111930561B CN111930561B (zh) | 2021-07-27 |
Family
ID=73317862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010628813.0A Active CN111930561B (zh) | 2020-07-02 | 2020-07-02 | 流式任务自动化监控告警重启系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930561B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666237A (zh) * | 2022-02-25 | 2022-06-24 | 众安在线财产保险股份有限公司 | 秒级监控方法、装置及存储介质 |
CN116841649A (zh) * | 2023-08-28 | 2023-10-03 | 杭州玳数科技有限公司 | 一种基于flink on yarn的热重启方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109246246A (zh) * | 2018-10-31 | 2019-01-18 | 成都知道创宇信息技术有限公司 | 一种中心化全自动服务发现负载均衡系统 |
CN110618869A (zh) * | 2019-09-19 | 2019-12-27 | 北京思维造物信息科技股份有限公司 | 一种资源管理方法、装置及设备 |
CN110837399A (zh) * | 2019-10-31 | 2020-02-25 | 锐捷网络股份有限公司 | 一种管理流式计算应用程序的方法、装置及计算设备 |
-
2020
- 2020-07-02 CN CN202010628813.0A patent/CN111930561B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109246246A (zh) * | 2018-10-31 | 2019-01-18 | 成都知道创宇信息技术有限公司 | 一种中心化全自动服务发现负载均衡系统 |
CN110618869A (zh) * | 2019-09-19 | 2019-12-27 | 北京思维造物信息科技股份有限公司 | 一种资源管理方法、装置及设备 |
CN110837399A (zh) * | 2019-10-31 | 2020-02-25 | 锐捷网络股份有限公司 | 一种管理流式计算应用程序的方法、装置及计算设备 |
Non-Patent Citations (1)
Title |
---|
王知无: "《https://www.cnblogs.com/importbigdata/p/10747061.html》", 21 April 2019 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666237A (zh) * | 2022-02-25 | 2022-06-24 | 众安在线财产保险股份有限公司 | 秒级监控方法、装置及存储介质 |
CN114666237B (zh) * | 2022-02-25 | 2023-10-31 | 众安在线财产保险股份有限公司 | 秒级监控方法、装置及存储介质 |
CN116841649A (zh) * | 2023-08-28 | 2023-10-03 | 杭州玳数科技有限公司 | 一种基于flink on yarn的热重启方法及装置 |
CN116841649B (zh) * | 2023-08-28 | 2023-12-08 | 杭州玳数科技有限公司 | 一种基于flink on yarn的热重启方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111930561B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930589B (zh) | 流式任务自动化监控系统及方法 | |
US11659020B2 (en) | Method and system for real-time modeling of communication, virtualization and transaction execution related topological aspects of monitored software applications and hardware entities | |
US9063788B2 (en) | Stream processing with runtime adaptation | |
US9471474B2 (en) | Cloud deployment infrastructure validation engine | |
EP2659371B1 (en) | Predicting, diagnosing, and recovering from application failures based on resource access patterns | |
US20200201699A1 (en) | Unified error monitoring, alerting, and debugging of distributed systems | |
JP2019032864A (ja) | 連続イベント処理(cep)クエリの並列の実行 | |
WO2016188100A1 (zh) | 信息系统故障场景信息收集方法及系统 | |
CN111930561B (zh) | 流式任务自动化监控告警重启系统及方法 | |
CN110399107B (zh) | 日志打印方法、装置、存储介质及设备 | |
US20180143897A1 (en) | Determining idle testing periods | |
CN112000350A (zh) | 一种动态规则更新方法、装置及存储介质 | |
CN109901889A (zh) | 基于j2ee平台的支撑业务系统运维的全链路监控方法 | |
CN114880159A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN114398179B (zh) | 一种跟踪标识的获取方法、装置、服务器及存储介质 | |
CN112416762B (zh) | Api测试方法及装置、设备、计算机可读存储介质 | |
Jacques-Silva et al. | Building user-defined runtime adaptation routines for stream processing applications | |
CN111897626A (zh) | 一种面向云计算场景的虚拟机高可靠系统和实现方法 | |
Yuan et al. | How are distributed bugs diagnosed and fixed through system logs? | |
CN111176959B (zh) | 跨域的应用服务器的预警方法、系统及存储介质 | |
CN114791900A (zh) | 基于Operator的Redis运维方法、装置、系统及存储介质 | |
CN113824601A (zh) | 一种基于业务日志的电力营销监控系统 | |
CN107066366B (zh) | 面向物联网的复杂事件处理引擎状态监控与灾难恢复方法 | |
CN110806917A (zh) | 一种防脑裂的虚拟机高可用的管理装置及方法 | |
US20230315604A1 (en) | Using a task identifier to identify processing services that have processed a task |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Streaming task automation monitoring alarm restart system and method Effective date of registration: 20230524 Granted publication date: 20210727 Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch Pledgor: Shanghai Weiyi Intelligent Manufacturing Technology Co.,Ltd. Registration number: Y2023310000207 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |