CN113835916A - 一种基于Ambari大数据平台的告警方法、系统及设备 - Google Patents

一种基于Ambari大数据平台的告警方法、系统及设备 Download PDF

Info

Publication number
CN113835916A
CN113835916A CN202111017133.6A CN202111017133A CN113835916A CN 113835916 A CN113835916 A CN 113835916A CN 202111017133 A CN202111017133 A CN 202111017133A CN 113835916 A CN113835916 A CN 113835916A
Authority
CN
China
Prior art keywords
alarm
task
definition
preset
alarm task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111017133.6A
Other languages
English (en)
Inventor
武鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Jinan data Technology Co ltd
Original Assignee
Inspur Jinan data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Jinan data Technology Co ltd filed Critical Inspur Jinan data Technology Co ltd
Priority to CN202111017133.6A priority Critical patent/CN113835916A/zh
Publication of CN113835916A publication Critical patent/CN113835916A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种基于Ambari大数据平台的告警方法、系统及设备,该方法包括:首先响应于用户对告警模板的输入操作,生成告警定义,并将其写入告警文件,然后,定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断告警任务的运行状态是否正常,接着,获取至少一项告警任务的运行结果,并将其通过预设的推送渠道进行推送;同时,定时获取报错日志,并从其中分析出当前未定义的告警定义;进而再根据每项告警任务出现的次数和预设等级,计算每项告警任务的优先级,以对每项告警任务的执行顺序进行重新排序。从而能够对Ambari大数据平台现有的告警功能进行扩充和完善,以提供更好地集群告警效果。

Description

一种基于Ambari大数据平台的告警方法、系统及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于Ambari大数据平台的告警方法、系统及设备。
背景技术
Ambari是一套基于Hadoop生态圈的大数据平台管理软件,其中支持多种大数据组件的安装和使用,用户登录Ambari平台,通过页面点击操作的方式就可以创建、安装、启动、停止、运维大数据服务组件,而无需像传统的方式一样执行大量的命令和脚本,极大地简化了用户的使用。
目前,为了能够及时暴露出大数据集群运行过程中出现的问题,避免系统运行风险,Ambari中预置了如图1所示的告警系统,虽然该告警系统能够提供基本的告警功能,但也存在以下5个方面的问题:一是不支持自定义告警,无法新增告警;二是缺少对告警任务本身的监控,导致无法提供准确的实时告警信息;三是缺少对告警信息的实时推送;四是缺少根据集群异常对新告警定义的自动规划;五是缺少对告警执行的弹性调度。因此,如何提高Ambari大数据平台的告警效果,以提供更好地集群告警是目前亟待解决的问题。
发明内容
本申请实施例的主要目的在于提供一种基于Ambari大数据平台的告警方法、系统及设备,能够对现有的告警功能进行扩充和完善,以提供更好地集群告警效果。
第一方面,本申请实施例提供了一种基于Ambari大数据平台的告警方法,包括:
响应于用户对告警模板的输入操作,生成告警定义,并将所述告警定义写入告警文件;
定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断所述告警任务的运行状态是否正常;
获取至少一项所述告警任务的运行结果,并将所述运行结果通过预设的推送渠道,推送至用户的终端设备;
定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义;
根据所述每项告警任务出现的次数和预设等级,计算所述每项告警任务的优先级;并根据所述优先级的排序,对所述每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度。
可选的,在所述定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断所述告警任务的运行状态是否正常之后,所述方法还包括:
若判断出所述告警任务的运行状态出现异常,则更新所述数据库中对应告警任务的运行状态为异常。
可选的,所述获取至少一项所述告警任务的运行结果,并将所述运行结果通过预设的推送渠道,推送至用户的终端设备,包括:
获取至少一项所述告警任务的运行结果,并根据所述告警任务的运行结果与推送渠道之间的预设对应关系,选择至少一个推送渠道;
利用所述至少一个推送渠道,组装所述运行结果对应的推送消息;
将所述推送消息推送至用户的终端设备。
可选的,所述定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义,包括:
定时获取平台运行的报错日志,并从所述报错日志中提取出报错的关键字;
将所述报错的关键字与已存在的告警定义进行匹配,得到匹配结果;
当所述匹配结果表明已存在的告警定义中未包含所述报错的关键字时,确定出当前未定义的新的告警定义。
可选的,所述定时获取平台运行的报错日志,并从所述报错日志中提取出报错的关键字,包括:
定时获取平台运行的报错日志,并将所述报错日志输入预先构建的关键字识别算法模型,以通过所述模型计算出报错的关键字。
可选的,所述根据所述每项告警任务出现的次数和预设等级,计算所述每项告警任务的优先级,包括:
从数据库读取所述每项告警任务的历史出现次数;
确定所述每项告警任务的服务级别;
计算所述每项告警任务的历史出现次数和服务级别的和值,并根据所述和值,确定所述每项告警任务的优先级。
可选的,在所述根据所述优先级的排序,对所述每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度之后,所述方法还包括:
将重新排序后的所述每项告警任务的执行顺序同步更新至所述Ambari大数据平台的服务器管理节点,以便根据更新后的执行顺序执行所述每项告警任务。
第二方面,本申请实施例还提供了基于Ambari大数据平台的告警系统,包括:
自定义告警模块,用于响应于用户对告警模板的输入操作,生成告警定义,并将所述告警定义写入告警文件;
告警状态监控模块,用于定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断所述告警任务的运行状态是否正常;
告警信息推送模块,用于获取至少一项所述告警任务的运行结果,并将所述运行结果通过预设的推送渠道,推送至用户的终端设备;
新告警规划模块,用于定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义;
告警弹性调度模块,用于根据所述每项告警任务出现的次数和预设等级,计算所述每项告警任务的优先级;并根据所述优先级的排序,对所述每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度。
可选的,所述装置还包括:
第一更新模块,用于在所述定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断所述告警任务的运行状态是否正常之后,若判断出所述告警任务的运行状态出现异常,则更新所述数据库中对应告警任务的运行状态为异常。
可选的,所述告警信息推送模块包括:
选择子模块,用于获取至少一项所述告警任务的运行结果,并根据所述告警任务的运行结果与推送渠道之间的预设对应关系,选择至少一个推送渠道;
组装子模块,用于利用所述至少一个推送渠道,组装所述运行结果对应的推送消息;
推送子模块,用于将所述推送消息推送至用户的终端设备。
可选的,所述新告警规划模块包括:
提取子模块,用于定时获取平台运行的报错日志,并从所述报错日志中提取出报错的关键字;
匹配子模块,用于将所述报错的关键字与已存在的告警定义进行匹配,得到匹配结果;
第一确定子模块,用于当所述匹配结果表明已存在的告警定义中未包含所述报错的关键字时,确定出当前未定义的新的告警定义。
可选的,所述提取子模块具体用于:
定时获取平台运行的报错日志,并将所述报错日志输入预先构建的关键字识别算法模型,以通过所述模型计算出报错的关键字。
可选的,所述告警弹性调度模块包括:
读取子模块,用于从数据库读取所述每项告警任务的历史出现次数;
第二确定子模块,用于确定所述每项告警任务的服务级别;
计算子模块,用于计算所述每项告警任务的历史出现次数和服务级别的和值,并根据所述和值,确定所述每项告警任务的优先级。
可选的,所述装置还包括:
第二更新模块,用于在所述根据所述优先级的排序,对所述每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度之后,将重新排序后的所述每项告警任务的执行顺序同步更新至所述Ambari大数据平台的服务器管理节点,以便根据更新后的执行顺序执行所述每项告警任务。
本申请实施例还提供了一种基于Ambari大数据平台的告警设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述基于Ambari大数据平台的告警方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述基于Ambari大数据平台的告警方法中的任意一种实现方式。
本申请实施例提供的一种基于Ambari大数据平台的告警方法、系统及设备,首先响应于用户对告警模板的输入操作,生成告警定义,并将其写入告警文件,然后,定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断告警任务的运行状态是否正常,接着,获取至少一项告警任务的运行结果,并将运行结果通过预设的推送渠道,推送至用户的终端设备;同时,定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义;进而再根据每项告警任务出现的次数和预设等级,计算每项告警任务的优先级;并根据优先级的排序,对每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度。从而能够对Ambari大数据平台现有的告警功能进行扩充和完善,以提供更好地集群告警效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为Ambari大数据平台上现有的告警系统的结构示意图;
图2为本申请实施例提供的一种基于Ambari大数据平台的告警方法的流程示意图;
图3为本申请实施例提供的对告警状态进行监控的流程图;
图4为本申请实施例提供的对告警信息进行推送的流程图;
图5为本申请实施例提供的确定新的告警定义的流程图;
图6为本申请实施例提供的对告警任务进行弹性调度的流程图;
图7为本申请实施例提供的一种基于Ambari大数据平台的告警系统的组成示意图。
具体实施方式
目前,为了能够及时暴露出Ambari大数据集群运行过程中出现的问题,避免系统运行风险,Ambari中预置了如图1所示的告警系统,其中,Ambari-Server中预置了告警定义文件,该文件中预先定义好了很多告警任务(包含Ambari-Server告警、Ambari-Agent告警、各组件服务告警),Server启动后会读取该定义文件,在集群运行的过程中实际运行告警,Ambari Server告警在Server上面运行,Ambari Agent告警在Agent上面运行,服务组件告警在对应的机器上面运行,最终将运行结果写入数据库。虽然该告警系统能够提供基本的告警功能,但也存在以下5个方面的问题:
一是不支持自定义告警,无法新增告警;如果预置的告警无法满足现有的需求,无法进行自定义地添加;二是缺少对告警任务本身的监控,如果告警本身运行异常,无法获取最新的告警状态,很有可能导致无法提供准确的实时告警信息;三是缺少对告警信息的实时推送,导致用户只能登录平台查看告警信息;四是缺少根据集群异常对新告警定义的自动规划,,当集群运行的过程中经常出现一些问题,如果此时告警定义中并没有关于此问题的告警,就不能通过告警及时地发现问题,可见,此时需要根据异常规划出新的告警并及时运行;五是缺少对告警执行的弹性调度,导致所有的告警任务以相同的优先级执行,没有根据服务的重要程度和告警出现频率的高低按优先级执行告警任务。因此,如何提高Ambari大数据平台的告警效果,以提供更好地集群告警是目前亟待解决的问题。
为解决上述缺陷,本申请实施例提供了一种基于Ambari大数据平台的告警方法,首先响应于用户对告警模板的输入操作,生成告警定义,并将其写入告警文件,然后,定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断告警任务的运行状态是否正常,接着,获取至少一项告警任务的运行结果,并将运行结果通过预设的推送渠道,推送至用户的终端设备;同时,定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义;进而再根据每项告警任务出现的次数和预设等级,计算每项告警任务的优先级;并根据优先级的排序,对每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度。从而能够对Ambari大数据平台现有的告警功能进行扩充和完善,以提供更好地集群告警效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图2,为本实施例提供的一种基于Ambari大数据平台的告警方法的流程示意图,该方法包括以下步骤:
S201:响应于用户对告警模板的输入操作,生成告警定义,并将该告警定义写入告警文件。
在本实施例中,在Ambari中通常会预置了告警模板(具体包含内容请参见后续图7的自定义告警模块包含的框图内容),以便用户按照模板填写自定义告警,这样,Ambari大数据平台可以响应于用户对告警模板的输入操作(如填写或选择操作等),生成告警定义,并将该告警定义写入告警文件,以便Ambari-Server重新读取告警定义文件并运行告警任务。
S202:定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断告警任务的运行状态是否正常。
在本实施例中,为了对现有的告警功能进行扩充和完善,以提供更好地集群告警效果,需要定时从数据库读取每项告警任务的最新运行时间,如图3所示,并将其与预设的时间阈值进行比较判断,若得到超过时间阈值则的比较结果,则发送测试告警任务,若测试任务没有正常返回结果就判定告警任务运行异常,即,判断出所述告警任务的运行状态出现异常,此时需要更新数据库中对应的告警任务运行状态为异常。
其中,预设的时间阈值指的是用于判断告警任务的当前状态是否为最新状态的临界值。预设的时间阈值的具体取值可根据实际情况和经验值来确定,本申请实施例对此不进行限定,比如可以将其取值为1分钟或2分钟等。
S203:获取至少一项告警任务的运行结果,并将该运行结果通过预设的推送渠道,推送至用户的终端设备。
在本实施例中,为了对现有的告警功能进行扩充和完善,以提供更好地集群告警效果,需要获取至少一项告警任务的运行结果,并将该运行结果通过预设的推送渠道,推送至用户的终端设备。其中,一种可选的实现方式是,预设的推送渠道包括但不限于短信、电子邮件、手机应用程序等。
一种可选的实现方式是,本步骤S203的实现过程可以包括:首先获取至少一项所述告警任务的运行结果,并根据告警任务的运行结果与推送渠道之间的预设对应关系,选择至少一个推送渠道;然后,利用选择出的至少一个推送渠道,组装告警任务的运行结果对应的推送消息;进而可以将该推送消息推送至用户的终端设备(如手机、平板电脑等)。
具体来讲,如图4所示,当Ambari-Server收到告警任务的运行结果时,首先根据告警任务的运行结果选择对应的推送渠道(告警任务的运行结果和推送渠道的对应关系预先进行配置,可以默认选择为电子邮件,用户可灵活配置,或者,也可以默认选择为全部用户,用户的数量可灵活配置),然后根据不同的渠道组装需要推送的推送消息,最后将推送消息发送至推送渠道(如短信、电子邮件、手机APP等),且支持及时推送或延时推送。
S204:定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义。
在本实施例中,为了对现有的告警功能进行扩充和完善,以提供更好地集群告警效果,还需要定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义。
具体来讲,如图5所示,一种可选的实现方式是,首先,需要定时从Ambari-Server读取日志,并从中过滤出报错日志。然后,将报错日志输入预先构建的关键字识别算法模型(具体构建过程与现有方法一致,在此不再赘述),以通过模型计算出报错的关键字(关键字的格式如Ambari-Agent/心跳超时,HDFS/磁盘容量已满);接着,可以将报错的关键字与已存在的告警定义进行匹配,得到匹配结果,当匹配结果表明已存在的告警定义中未包含报错的关键字时,即在现有的告警定义中找不到这些关键字时,则可以确定出这是当前未定义的新的告警定义,此时,即可按照告警模板的格式生成新的告警并同步至AmbariServer,同时默认新规划生成的告警不开启运行,用户查看后自行决定是否开启等。
S205:根据每项告警任务出现的次数和预设等级,计算每项告警任务的优先级;并根据优先级的排序,对每项告警任务的执行顺序进行重新排序,实现对每项告警任务的弹性调度。
在本实施例中,为了对现有的告警功能进行扩充和完善,以提供更好地集群告警效果,还需要根据每项告警任务出现的次数和预设等级,计算每项告警任务的优先级;并根据优先级的排序,对每项告警任务的执行顺序进行重新排序,实现对每项告警任务的弹性调度。
具体来讲,如图6所示,为了提供更好地集群告警效果,需要定期从数据库查询各个告警任务运行的历史记录,并统计出现各项告警任务的历史出现次数,并确定出每项告警任务的服务级别,用以计算每项告警任务的优先级,具体的计算公式为:告警任务的优先级=告警次数+服务级别。其中,服务级别默认为1,用户可根据集群的实际情况给每个告警任务赋予不同的服务级别,再依据预设的优先级匹配规则来动态调整告警任务的执行周期和优先级,其中,匹配规则是可配置(示例执行规则如图6右侧虚线框内容所示),最后,可以将重新排序后的每项告警任务的执行顺序同步更新至Ambari大数据平台的服务器管理节点Ambari-Server,以便根据更新后的执行顺序执行每项告警任务,实现对每项告警任务的弹性调度。
这样,本实施例通过执行上述步骤S201-S205,第一方面增加了自定义告警,用户可以添加现有告警定义中没有的告警;第二方面对告警的运行状态增加了监控,对于未及时反馈告警结果的告警,发送测试任务检查告警的运行状态;第三方面增加了告警的实时推送,将最新告警信息及时通过多种渠道推送至用户终端。第四方面增加了新告警的智能规划,可扫描报错日志分析推理出目前未定义而需要的告警,弥补了告警缺失带来的问题。第五方面增加了告警弹性调度,对于重要的服务和高频出现的告警可以提高执行频率,不重要的服务和低频出现的告警可以降低执行频率。从而对Ambari中现有的告警功能进行了扩充和完善,使其具备更加强大的功能,更能满足客户定制化的需求,同时优化了告警的执行效率。告警的智能规划有效地弥补了告警缺失可能带来的系统问题,降低了系统运行的风险。
综上,本实施例提供的一种基于Ambari大数据平台的告警方法,首先响应于用户对告警模板的输入操作,生成告警定义,并将其写入告警文件,然后,定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断告警任务的运行状态是否正常,接着,获取至少一项告警任务的运行结果,并将运行结果通过预设的推送渠道,推送至用户的终端设备;同时,定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义;进而再根据每项告警任务出现的次数和预设等级,计算每项告警任务的优先级;并根据优先级的排序,对每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度。从而能够对Ambari大数据平台现有的告警功能进行扩充和完善,以提供更好地集群告警效果。
第二实施例
本实施例将对一种基于Ambari大数据平台的告警系统进行介绍,相关内容请参见上述方法实施例。
参见图7,为本实施例提供的一种基于Ambari大数据平台的告警系统700的组成示意图,该系统700包括:
自定义告警模块701,用于响应于用户对告警模板的输入操作,生成告警定义,并将所述告警定义写入告警文件;
这样,用户可以根据实际的需求新增定义文件中没有的告警。
告警状态监控模块702,用于定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断所述告警任务的运行状态是否正常;
这样,增加了对告警任务运行状态的监控,当告警运行异常时,通过界面给出展示,及时提示异常。
告警信息推送模块703,用于获取至少一项所述告警任务的运行结果,并将所述运行结果通过预设的推送渠道,推送至用户的终端设备;
这样,可将最新告警信息及时通过多种渠道推送至用户的终端显示。
新告警规划模块704,用于定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义;
这样,对于现有系统中可能缺少的告警,可通过定期的扫描和推算,规划出新的告警,及时弥补现有系统的缺失。
告警弹性调度模块705,用于根据所述每项告警任务出现的次数和预设等级,计算所述每项告警任务的优先级;并根据所述优先级的排序,对所述每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度。
这样,可以根据组件服务的重要性和告警出现频次动态地调度告警任务的执行,重要的服务和高频出现的告警可以给与高的优先级高频执行,不重要的服务和低频出现的告警可以给与低的优先级低频执行或者不执行
在本实施例的一种实现方式中,所述装置还包括:
第一更新模块,用于在所述定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断所述告警任务的运行状态是否正常之后,若判断出所述告警任务的运行状态出现异常,则更新所述数据库中对应告警任务的运行状态为异常。
在本实施例的一种实现方式中,所述告警信息推送模块703包括:
选择子模块,用于获取至少一项所述告警任务的运行结果,并根据所述告警任务的运行结果与推送渠道之间的预设对应关系,选择至少一个推送渠道;
组装子模块,用于利用所述至少一个推送渠道,组装所述运行结果对应的推送消息;
推送子模块,用于将所述推送消息推送至用户的终端设备。
在本实施例的一种实现方式中,所述新告警规划模块704包括:
提取子模块,用于定时获取平台运行的报错日志,并从所述报错日志中提取出报错的关键字;
匹配子模块,用于将所述报错的关键字与已存在的告警定义进行匹配,得到匹配结果;
第一确定子模块,用于当所述匹配结果表明已存在的告警定义中未包含所述报错的关键字时,确定出当前未定义的新的告警定义。
在本实施例的一种实现方式中,所述提取子模块具体用于:
定时获取平台运行的报错日志,并将所述报错日志输入预先构建的中关键字识别算法模型,以通过所述模型计算出报错的关键字。
在本实施例的一种实现方式中,所述告警弹性调度模块704包括:
读取子模块,用于从数据库读取所述每项告警任务的历史出现次数;
第二确定子模块,用于确定所述每项告警任务的服务级别;
计算子模块,用于计算所述每项告警任务的历史出现次数和服务级别的和值,并根据所述和值,确定所述每项告警任务的优先级。
在本实施例的一种实现方式中,所述装置还包括:
第二更新模块,用于在所述根据所述优先级的排序,对所述每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度之后,将重新排序后的所述每项告警任务的执行顺序同步更新至所述Ambari大数据平台的服务器管理节点,以便根据更新后的执行顺序执行所述每项告警任务。
综上,本实施例提供的一种基于Ambari大数据平台的告警系统,首先响应于用户对告警模板的输入操作,生成告警定义,并将其写入告警文件,然后,定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断告警任务的运行状态是否正常,接着,获取至少一项告警任务的运行结果,并将运行结果通过预设的推送渠道,推送至用户的终端设备;同时,定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义;进而再根据每项告警任务出现的次数和预设等级,计算每项告警任务的优先级;并根据优先级的排序,对每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度。从而能够对Ambari大数据平台现有的告警功能进行扩充和完善,以提供更好地集群告警效果。
进一步地,本申请实施例还提供了一种基于Ambari大数据平台的告警设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述基于Ambari大数据平台的告警方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述基于Ambari大数据平台的告警方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于Ambari大数据平台的告警方法,其特征在于,包括:
响应于用户对告警模板的输入操作,生成告警定义,并将所述告警定义写入告警文件;
定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断所述告警任务的运行状态是否正常;
获取至少一项所述告警任务的运行结果,并将所述运行结果通过预设的推送渠道,推送至用户的终端设备;
定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义;
根据所述每项告警任务出现的次数和预设等级,计算所述每项告警任务的优先级;并根据所述优先级的排序,对所述每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度。
2.根据权利要求1所述的方法,其特征在于,在所述定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断所述告警任务的运行状态是否正常之后,所述方法还包括:
若判断出所述告警任务的运行状态出现异常,则更新所述数据库中对应告警任务的运行状态为异常。
3.根据权利要求1所述的方法,其特征在于,所述获取至少一项所述告警任务的运行结果,并将所述运行结果通过预设的推送渠道,推送至用户的终端设备,包括:
获取至少一项所述告警任务的运行结果,并根据所述告警任务的运行结果与推送渠道之间的预设对应关系,选择至少一个推送渠道;
利用所述至少一个推送渠道,组装所述运行结果对应的推送消息;
将所述推送消息推送至用户的终端设备。
4.根据权利要求1所述的方法,其特征在于,所述定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义,包括:
定时获取平台运行的报错日志,并从所述报错日志中提取出报错的关键字;
将所述报错的关键字与已存在的告警定义进行匹配,得到匹配结果;
当所述匹配结果表明已存在的告警定义中未包含所述报错的关键字时,确定出当前未定义的新的告警定义。
5.根据权利要求4所述的方法,其特征在于,所述定时获取平台运行的报错日志,并从所述报错日志中提取出报错的关键字,包括:
定时获取平台运行的报错日志,并将所述报错日志输入预先构建的关键字识别算法模型,以通过所述模型计算出报错的关键字。
6.根据权利要求1所述的方法,其特征在于,所述根据所述每项告警任务出现的次数和预设等级,计算所述每项告警任务的优先级,包括:
从数据库读取所述每项告警任务的历史出现次数;
确定所述每项告警任务的服务级别;
计算所述每项告警任务的历史出现次数和服务级别的和值,并根据所述和值,确定所述每项告警任务的优先级。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述优先级的排序,对所述每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度之后,所述方法还包括:
将重新排序后的所述每项告警任务的执行顺序同步更新至所述Ambari大数据平台的服务器管理节点,以便根据更新后的执行顺序执行所述每项告警任务。
8.一种基于Ambari大数据平台的告警系统,其特征在于,包括:
自定义告警模块,用于响应于用户对告警模板的输入操作,生成告警定义,并将所述告警定义写入告警文件;
告警状态监控模块,用于定时从数据库读取每项告警任务的最新运行时间,并将其与预设的时间阈值进行比较,以根据比较结果,判断所述告警任务的运行状态是否正常;
告警信息推送模块,用于获取至少一项所述告警任务的运行结果,并将所述运行结果通过预设的推送渠道,推送至用户的终端设备;
新告警规划模块,用于定时获取平台运行的报错日志,并从其中分析出当前未定义的新的告警定义;
告警弹性调度模块,用于根据所述每项告警任务出现的次数和预设等级,计算所述每项告警任务的优先级;并根据所述优先级的排序,对所述每项告警任务的执行顺序进行重新排序,实现对所述每项告警任务的弹性调度。
9.一种基于Ambari大数据平台的告警设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的方法。
CN202111017133.6A 2021-08-31 2021-08-31 一种基于Ambari大数据平台的告警方法、系统及设备 Pending CN113835916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111017133.6A CN113835916A (zh) 2021-08-31 2021-08-31 一种基于Ambari大数据平台的告警方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111017133.6A CN113835916A (zh) 2021-08-31 2021-08-31 一种基于Ambari大数据平台的告警方法、系统及设备

Publications (1)

Publication Number Publication Date
CN113835916A true CN113835916A (zh) 2021-12-24

Family

ID=78961697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111017133.6A Pending CN113835916A (zh) 2021-08-31 2021-08-31 一种基于Ambari大数据平台的告警方法、系统及设备

Country Status (1)

Country Link
CN (1) CN113835916A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443429A (zh) * 2022-01-21 2022-05-06 苏州浪潮智能科技有限公司 一种告警事件的处理方法、装置及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013026312A1 (zh) * 2011-08-23 2013-02-28 中兴通讯股份有限公司 基于日志检测的告警方法及系统
WO2015039461A1 (zh) * 2013-09-18 2015-03-26 中兴通讯股份有限公司 告警处理优先级确定方法、系统及计算机存储介质
CN108491310A (zh) * 2018-03-26 2018-09-04 北京九章云极科技有限公司 一种日志监测方法及系统
CN108681598A (zh) * 2018-05-21 2018-10-19 平安科技(深圳)有限公司 任务自动重跑方法、系统、计算机设备和存储介质
CN108809724A (zh) * 2018-06-14 2018-11-13 郑州云海信息技术有限公司 云数据系统中告警管理方法和装置
CN110401570A (zh) * 2019-08-06 2019-11-01 中国联合网络通信集团有限公司 告警方法、装置、系统、设备及可读存储介质
CN111611137A (zh) * 2020-06-30 2020-09-01 平安银行股份有限公司 告警监控方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013026312A1 (zh) * 2011-08-23 2013-02-28 中兴通讯股份有限公司 基于日志检测的告警方法及系统
WO2015039461A1 (zh) * 2013-09-18 2015-03-26 中兴通讯股份有限公司 告警处理优先级确定方法、系统及计算机存储介质
CN108491310A (zh) * 2018-03-26 2018-09-04 北京九章云极科技有限公司 一种日志监测方法及系统
CN108681598A (zh) * 2018-05-21 2018-10-19 平安科技(深圳)有限公司 任务自动重跑方法、系统、计算机设备和存储介质
CN108809724A (zh) * 2018-06-14 2018-11-13 郑州云海信息技术有限公司 云数据系统中告警管理方法和装置
CN110401570A (zh) * 2019-08-06 2019-11-01 中国联合网络通信集团有限公司 告警方法、装置、系统、设备及可读存储介质
CN111611137A (zh) * 2020-06-30 2020-09-01 平安银行股份有限公司 告警监控方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张伟;杨大龙;陈丽;高中纤;韩波;: "基于QLExpress规则引擎的自动化运维告警系统的设计与实现", 信息通信技术, no. 1, 20 December 2019 (2019-12-20) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443429A (zh) * 2022-01-21 2022-05-06 苏州浪潮智能科技有限公司 一种告警事件的处理方法、装置及计算机可读存储介质
CN114443429B (zh) * 2022-01-21 2024-05-28 苏州浪潮智能科技有限公司 一种告警事件的处理方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
EP3798846B1 (en) Operation and maintenance system and method
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
CN107678907B (zh) 数据库业务逻辑监控方法、系统、及存储介质
CN105095056B (zh) 一种数据仓库数据监控的方法
CN107562556B (zh) 故障的恢复方法、恢复装置及存储介质
US8199900B2 (en) Automated performance monitoring for contact management system
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN107566172B (zh) 一种基于存储系统的主动式管理方法及系统
CN112380089A (zh) 一种数据中心监控预警方法及系统
WO2015187001A2 (en) System and method for managing resources failure using fast cause and effect analysis in a cloud computing system
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
CN113032252A (zh) 埋点数据的收集方法、装置、客户端设备和存储介质
CN111597091A (zh) 数据监控方法及系统、电子设备、计算机存储介质
CN113835916A (zh) 一种基于Ambari大数据平台的告警方法、系统及设备
CN110825580A (zh) Kuberrnates Pod健康监控方法
CN111756778A (zh) 一种服务器磁盘清理脚本推送的方法、装置和存储介质
CN112597123A (zh) 数据多版本动态切换方法及装置
CN110968475A (zh) 监控网页的方法、装置、电子设备及可读存储介质
CN115391141A (zh) 数据库流量分析方法、装置、设备及可读存储介质
CN113676356A (zh) 报警信息处理方法、装置、电子设备及可读存储介质
CN115604135B (zh) 一种业务监控方法及装置
CN115686583B (zh) 海量物联网设备升级方法、装置、电子设备和存储介质
CN115827050A (zh) 一种数据调用方法、装置、电子设备及存储介质
CN114168440A (zh) 一种元数据采集的性能测试方法、装置、设备和介质
CN115987756A (zh) 告警信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination