CN113722060A - 一种告警任务管理方法、装置及相关组件 - Google Patents

一种告警任务管理方法、装置及相关组件 Download PDF

Info

Publication number
CN113722060A
CN113722060A CN202110873771.1A CN202110873771A CN113722060A CN 113722060 A CN113722060 A CN 113722060A CN 202110873771 A CN202110873771 A CN 202110873771A CN 113722060 A CN113722060 A CN 113722060A
Authority
CN
China
Prior art keywords
task
state
alarm
alarm task
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110873771.1A
Other languages
English (en)
Inventor
旷聪贤
孔祥生
张连法
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202110873771.1A priority Critical patent/CN113722060A/zh
Publication of CN113722060A publication Critical patent/CN113722060A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种告警任务管理方法、装置、电子设备及计算机可读存储介质,应用于分布式集群中的每一节点,该告警任务管理方法包括:接收调度中心下发的告警任务,获取与告警任务对应的任务数据,任务数据包括执行状态及上一次执行告警任务的节点的运行状态,告警任务为按监控周期执行的告警任务;根据执行状态和运行状态判断告警任务是否为可执行状态;若否,不执行告警任务;若是,执行告警任务,并计算执行告警任务的耗时,以便调度中心根据耗时确定下一次执行告警任务的节点。本申请能够避免多个节点同时执行同一告警任务,使分布式集群中各节点任务均衡,提升节点资源的利用效率,减轻单节点计算的压力,降低系统维护难度。

Description

一种告警任务管理方法、装置及相关组件
技术领域
本申请涉及分布式集群领域,特别涉及一种告警任务管理方法、装置及相关组件。
背景技术
在云计算时代,随着企业业务的扩张,需要的资源种类也日益增多,包括物理机、云主机、云物理机、存储集群和网络设备等等。相应的,为了支撑业务,监控系统需要监控的资源数量越来越庞大,在这种情况下,企业的IT架构由单节点向着分布式集群化发展。分布式集群化能够将告警任务分散在多个节点上,从而减轻单节点的计算压力,提升节点资源的利用效率。但是如果没有合理的告警任务调度方法,可能导致多个节点同时执行同一个任务,不仅达不到减轻单节点计算的压力,增加系统维护难度。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本申请的目的是提供一种告警任务管理方法、装置、电子设备及计算机可读存储介质,能够避免多个节点同时执行同一告警任务,使分布式集群中各节点任务均衡,提升节点资源的利用效率,减轻单节点计算的压力,降低系统维护难度。
为解决上述技术问题,本申请提供了一种告警任务管理方法,应用于分布式集群中的每一节点,该告警任务管理方法包括:
接收调度中心下发的告警任务,获取与所述告警任务对应的任务数据,所述任务数据包括执行状态及上一次执行所述告警任务的节点的运行状态,所述告警任务为按监控周期执行的告警任务;
根据所述执行状态和所述运行状态判断所述告警任务是否为可执行状态;
若否,不执行所述告警任务;
若是,执行所述告警任务,并计算执行所述告警任务的耗时,以便所述调度中心根据所述耗时确定下一次执行所述告警任务的节点,使所述分布式集群中的各个所述节点任务均衡。
可选的,所述获取与所述告警任务对应的任务数据的过程包括:
在数据库中获取与所述告警任务对应的任务数据,并将所述数据库中的所述任务数据锁定,以使其他节点无法获取所述任务数据。
可选的,所述根据所述执行状态和所述运行状态判断所述告警任务是否为可执行状态的过程包括:
当所述执行状态为未执行状态,判定所述告警任务为可执行状态;
当所述执行状态为正在执行状态、且所述运行状态为异常状态,判定所述告警任务为所述可执行状态;
当所述执行状态为所述正在执行状态、且所述运行状态为正常运行状态,判定所述告警任务为不可执行状态。
可选的,所述根据所述执行状态和所述运行状态判断所述告警任务是否为可执行状态的过程还包括:
当所述执行状态为正在执行状态,判断上一次执行所述告警任务的节点是否为本机节点;
若是,判定所述告警任务为所述可执行状态;
若否,当所述运行状态为正常运行状态,判定所述告警任务为不可执行状态,当所述运行状态为异常状态,判定所述告警任务为所述可执行状态。
可选的,所述当所述执行状态为未执行状态,判定所述告警任务为可执行状态的过程包括:
当所述执行状态为未执行状态、且当前监控周期未执行过所述告警任务,判定所述告警任务为所述可执行状态。
可选的,所述执行所述告警任务之后,该告警任务管理方法还包括:
将所述告警任务的执行状态置为未执行状态。
可选的,所述调度中心根据所述耗时确定下一次执行所述告警任务的节点的过程包括:
所述调度中心获取所述告警任务的平均耗时,为所述告警任务分配下一次执行所述告警任务的节点,以使所述分布式集群中处于正常运行状态的任意两个所述节点的总耗时的差值小于预设值。
为解决上述技术问题,本申请还提供了一种告警任务管理装置,应用于分布式集群中的每一节点,该告警任务管理装置包括:
获取模块,用于接收调度中心下发的告警任务,获取与所述告警任务对应的任务数据,所述任务数据包括执行状态及上一次执行所述告警任务的节点的运行状态,所述告警任务为按监控周期执行的告警任务;
判断模块,用于根据所述执行状态和所述运行状态判断所述告警任务是否为可执行状态,若否,不执行所述告警任务,若是,触发所述执行模块;
所述执行模块,用于执行所述告警任务,并计算执行所述告警任务的耗时,以便所述调度中心根据所述耗时确定下一次执行所述告警任务的节点,使所述分布式集群中的各个所述节点任务均衡。
为解决上述技术问题,本申请还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任意一项所述的告警任务管理方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文任意一项所述的告警任务管理方法的步骤。
本申请提供了一种告警任务管理方法,分布式集群中每一节点在接收到调度中心下发的告警任务后,根据告警任务的执行状态以及上一次执行告警任务的节点的运行状态确定该告警任务是否有其他节点正在执行该告警任务,从而确定该告警任务在本机节点是否为可执行状态,以避免多个节点同时执行同一告警任务。此外,本机节点执行该告警任务时,对该告警任务的耗时进行计算,以便调度中心根据耗时确定下一次执行该告警任务的节点,使分布式集群中各节点任务均衡,提升节点资源的利用效率,减轻单节点计算的压力,降低系统维护难度。本申请还提供了一种告警任务管理装置、电子设备及计算机可读存储介质,具有和上述告警任务管理方法相同的有益效果。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种告警任务管理方法的步骤流程图;
图2为本申请所提供的一种告警任务管理装置的结构示意图。
具体实施方式
本申请的核心是提供一种告警任务管理方法、装置、电子设备及计算机可读存储介质,能够避免多个节点同时执行同一告警任务,使分布式集群中各节点任务均衡,提升节点资源的利用效率,减轻单节点计算的压力,降低系统维护难度。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先需要说明的是,在云计算时代,随着企业业务的扩张,需求的资源种类日益增多,包括物理机、云主机、云物理机、存储集群和网络设备等。将各种资源类下的各个告警项指标作为一个告警任务,比如主机CPU使用率告警、网络流量告警等。本实施例中,告警任务为一种按监控周期执行的告警任务,告警任务由调度中心统筹下发到分布式集群的各个节点。
本实施例中的方案由分布式集群的每一节点完成,下面对本申请所提供的告警任务管理方法进行详细说明。
请参照图1,图1为本申请所提供的一种告警任务管理方法的步骤流程图,该告警任务管理方法包括:
S101:接收调度中心下发的告警任务,获取与告警任务对应的任务数据,任务数据包括执行状态及上一次执行告警任务的节点的运行状态,告警任务为按监控周期执行的告警任务;
可以理解的是,在执行本步骤之前,该告警任务管理方法还包括预先创建数据库的操作,该数据库用于存储各个告警任务对应的任务数据,任务数据包括但不限于任务名称、执行节点名称、运行状态、任务监控周期、任务上次开始执行时间、监控数据以及各个的节点运行状态等。
具体的,当本机节点接收到调度中心下发的告警任务后,首先在数据库中查找与该告警任务对应的执行状态以及上一次执行该告警任务的节点的运行状态,以便后续判断本机节点是否需要执行该告警任务。
具体的,每一节点还会按预设周期向数据库发送一次心跳报文,以便更新本机节点的运行状态。
S102:根据执行状态和运行状态判断告警任务是否为可执行状态,若否,执行S103,若是,执行S104;
S103:不执行告警任务;
S104:执行告警任务,并计算执行告警任务的耗时,以便调度中心根据耗时确定下一次执行告警任务的节点,使分布式集群中的各个节点任务均衡。
具体的,根据执行状态和上一次执行该告警任务的节点的运行状态,判断该告警任务对于本机节点来说是否为可执行状态,若判定为不可执行状态,则本机节点不执行该告警任务,若判定为执行状态,则执行该告警任务,同时还对执行该告警任务的执行时间进行计时,得到该告警任务的耗时,同样可将耗时写入数据库中,以便调度中心根据每一告警任务的平均耗时,为各个告警任务分配对应的节点。
作为一种可选的实施例,调度中心根据耗时确定下一次执行告警任务的节点的过程包括:
调度中心获取告警任务的平均耗时,为告警任务分配下一次执行告警任务的节点,以使分布式集群中处于正常运行状态的任意两个节点的总耗时的差值小于预设值。
具体的,调度中心可以每隔一段时间,对告警任务的执行节点进行一次重新分配,可根据各个告警任务的平均耗时进行分配,使各个正常运行节点上的任务的执行总耗时接近,使各个节点分摊计算压力,避免各个节点平均分配任务量导致的计算压力差距较大的问题,达到分布式集群中各节点任务均衡的目的。当然,在保证各个正常运行节点上的任务的执行总耗时接近的基础上,将告警任务优先分配给上一次执行该告警任务的节点,提高节点的任务执行效率,避免资源浪费。
可见,本实施例中,分布式集群中每一节点在接收到调度中心下发的告警任务后,根据告警任务的执行状态以及上一次执行告警任务的节点的运行状态确定该告警任务是否有其他节点正在执行该告警任务,从而确定该告警任务在本机节点是否为可执行状态,以避免多个节点同时执行同一告警任务。此外,本机节点执行该告警任务时,对该告警任务的耗时进行计算,以便调度中心根据耗时确定下一次执行该告警任务的节点,使分布式集群中各节点任务均衡,提升节点资源的利用效率,减轻单节点计算的压力,降低系统维护难度。
在上述实施例的基础上:
作为一种可选的实施例,获取与告警任务对应的任务数据的过程包括:
在数据库中获取与告警任务对应的任务数据,并将数据库中的任务数据锁定,以使其他节点无法获取任务数据。
具体的,本实施例中考虑到调度中心可能会误操作将同一告警任务下发到多个节点上,因此,当某一节点最先接收到该告警任务,从数据库获取与告警任务对应的任务数据的同时,将数据库中的任务数据锁定,如添加锁定标识等,其他节点在数据库中查找该告警任务对应的任务数据时,若识别到该锁定标识,则不再获取任务数据,即不执行所述告警任务,保证同一时间内相同告警任务只能访问一次,进一步避免分布式集群中出现多个节点执行同一告警任务的问题,从而避免资源浪费。
作为一种可选的实施例,根据执行状态和运行状态判断告警任务是否为可执行状态的过程包括:
当执行状态为未执行状态,判定告警任务为可执行状态;
当执行状态为正在执行状态、且运行状态为异常状态,判定告警任务为可执行状态;
当执行状态为正在执行状态、且运行状态为正常运行状态,判定告警任务为不可执行状态。
具体的,若本机节点的接收到的告警任务的执行状态为未执行状态,且当前监控周期也未执行过告警任务,则判定该告警任务对于本机节点来说是可执行状态,本机节点允许执行该告警任务。若本机节点接收到的告警任务的执行状态为正在执行状态,则首先判断上一次执行该告警任务的节点是否还有心跳,即是否处于正常运行状态,若是,说明该告警任务耗时比较长,其他节点还在正常执行,不需要本机节点重复执行,若上一次执行该告警任务的节点没有心跳,即处于异常状态,说明上一次执行该告警任务的节点在任务执行期间挂了,此时,本机节点允许执行该告警任务。
作为一种可选的实施例,根据执行状态和运行状态判断告警任务是否为可执行状态的过程还包括:
当执行状态为正在执行状态,判断上一次执行告警任务的节点是否为本机节点;
若是,判定告警任务为可执行状态;
若否,当运行状态为正常运行状态,判定告警任务为不可执行状态,当运行状态为异常状态,判定告警任务为可执行状态。
具体的,在上述实施例的基础上,当判断执行状态为正在执行状态后,先判断上一次执行告警任务的节点是否为本机节点,若是,说明本机节点在上一次执行该告警任务期间被重启了,此时允许继续执行该告警任务。进一步的,若上一次执行告警任务的节点不是本机节点,则判断上一次执行该告警任务的节点是否还有心跳,即是否处于正常运行状态,若是,说明该告警任务耗时比较长,其他节点还在正常执行,不需要本机节点重复执行,若上一次执行该告警任务的节点没有心跳,即处于异常状态,说明上一次执行该告警任务的节点在任务执行期间挂了,此时,本机节点允许执行该告警任务。
作为一种可选的实施例,执行告警任务之后,该告警任务管理方法还包括:
将告警任务的执行状态置为未执行状态。
可以理解的是,在每次执行完该告警任务后将该告警任务的执行状态置为未执行状态,以便后续各个节点判断自身是否可以执行该告警任务。
综上所述,采用本申请的方案,通过调度中心对整个分布式集群的告警任务完成统一调度,保证监控系统能够稳定高效地运行。每个节点获取告警任务,准备执行前会检测本机节点是否还需要执行该任务,每个节点成功执行完告警任务后,会将该告警任务的执行状态置为未执行状态,并且该告警任务的执行数据会被采集下来,用于后续的性能分析以及优化,调度中心定时对每个节点的告警任务进行均衡,以平衡每个节点的计算压力,提升了监控告警的实时性以及高可用性,提升告警任务的执行效率。
请参照图2,图2为本申请所提供的一种告警任务管理装置的结构示意图,应用于分布式集群中的每一节点,该告警任务管理装置包括:
获取模块1,用于接收调度中心下发的告警任务,获取与告警任务对应的任务数据,任务数据包括执行状态及上一次执行告警任务的节点的运行状态,告警任务为按监控周期执行的告警任务;
判断模块2,用于根据执行状态和运行状态判断告警任务是否为可执行状态,若否,不执行告警任务,若是,触发执行模块3;
执行模块3,用于执行告警任务,并计算执行告警任务的耗时,以便调度中心根据耗时确定下一次执行告警任务的节点,使分布式集群中的各个节点任务均衡。
可见,本实施例中,分布式集群中每一节点在接收到调度中心下发的告警任务后,根据告警任务的执行状态以及上一次执行告警任务的节点的运行状态确定该告警任务是否有其他节点正在执行该告警任务,从而确定该告警任务在本机节点是否为可执行状态,以避免多个节点同时执行同一告警任务。此外,本机节点执行该告警任务时,对该告警任务的耗时进行计算,以便调度中心根据耗时确定下一次执行该告警任务的节点,使分布式集群中各节点任务均衡,提升节点资源的利用效率,减轻单节点计算的压力,降低系统维护难度。
作为一种可选的实施例,根据执行状态和运行状态判断告警任务是否为可执行状态的过程包括:
当执行状态为未执行状态,判定告警任务为可执行状态;
当执行状态为正在执行状态、且运行状态为异常状态,判定告警任务为可执行状态;
当执行状态为正在执行状态、且运行状态为正常运行状态,判定告警任务为不可执行状态。
作为一种可选的实施例,根据执行状态和运行状态判断告警任务是否为可执行状态的过程还包括:
当执行状态为正在执行状态,判断上一次执行告警任务的节点是否为本机节点;
若是,判定告警任务为可执行状态;
若否,当运行状态为正常运行状态,判定告警任务为不可执行状态,当运行状态为异常状态,判定告警任务为可执行状态。
作为一种可选的实施例,当执行状态为未执行状态,判定告警任务为可执行状态的过程包括:
当执行状态为未执行状态、且当前监控周期未执行过告警任务,判定告警任务为可执行状态。
作为一种可选的实施例,该告警任务管理装置还包括:
置位模块,用于当执行告警任务之后,将告警任务的执行状态置为未执行状态。
作为一种可选的实施例,调度中心根据耗时确定下一次执行告警任务的节点的过程包括:
调度中心获取告警任务的平均耗时,为告警任务分配下一次执行告警任务的节点,以使分布式集群中处于正常运行状态的任意两个节点的总耗时的差值小于预设值。
另一方面,本申请还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上文任意一个实施例所描述的告警任务管理方法的步骤。
对于本申请所提供的一种电子设备的介绍请参照上述实施例,本申请在此不再赘述。
本申请所提供的一种电子设备具有和上述告警任务管理方法相同的有益效果。
另一方面,本申请还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上文任意一个实施例所描述的告警任务管理方法的步骤。
对于本申请所提供的一种计算机可读存储介质的介绍请参照上述实施例,本申请在此不再赘述。
本申请所提供的一种计算机可读存储介质具有和上述告警任务管理方法相同的有益效果。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其他实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种告警任务管理方法,其特征在于,应用于分布式集群中的每一节点,该告警任务管理方法包括:
接收调度中心下发的告警任务,获取与所述告警任务对应的任务数据,所述任务数据包括执行状态及上一次执行所述告警任务的节点的运行状态,所述告警任务为按监控周期执行的告警任务;
根据所述执行状态和所述运行状态判断所述告警任务是否为可执行状态;
若否,不执行所述告警任务;
若是,执行所述告警任务,并计算执行所述告警任务的耗时,以便所述调度中心根据所述耗时确定下一次执行所述告警任务的节点,使所述分布式集群中的各个所述节点任务均衡。
2.根据权利要求1所述的告警任务管理方法,其特征在于,所述获取与所述告警任务对应的任务数据的过程包括:
在数据库中获取与所述告警任务对应的任务数据,并将所述数据库中的所述任务数据锁定,以使其他节点无法获取所述任务数据。
3.根据权利要求1所述的告警任务管理方法,其特征在于,所述根据所述执行状态和所述运行状态判断所述告警任务是否为可执行状态的过程包括:
当所述执行状态为未执行状态,判定所述告警任务为可执行状态;
当所述执行状态为正在执行状态、且所述运行状态为异常状态,判定所述告警任务为所述可执行状态;
当所述执行状态为所述正在执行状态、且所述运行状态为正常运行状态,判定所述告警任务为不可执行状态。
4.根据权利要求1所述的告警任务管理方法,其特征在于,所述根据所述执行状态和所述运行状态判断所述告警任务是否为可执行状态的过程还包括:
当所述执行状态为正在执行状态,判断上一次执行所述告警任务的节点是否为本机节点;
若是,判定所述告警任务为所述可执行状态;
若否,当所述运行状态为正常运行状态,判定所述告警任务为不可执行状态,当所述运行状态为异常状态,判定所述告警任务为所述可执行状态。
5.根据权利要求1所述的告警任务管理方法,其特征在于,所述当所述执行状态为未执行状态,判定所述告警任务为可执行状态的过程包括:
当所述执行状态为未执行状态、且当前监控周期未执行过所述告警任务,判定所述告警任务为所述可执行状态。
6.根据权利要求1所述的告警任务管理方法,其特征在于,所述执行所述告警任务之后,该告警任务管理方法还包括:
将所述告警任务的执行状态置为未执行状态。
7.根据权利要求1-6任意一项所述的告警任务管理方法,其特征在于,所述调度中心根据所述耗时确定下一次执行所述告警任务的节点的过程包括:
所述调度中心获取所述告警任务的平均耗时,为所述告警任务分配下一次执行所述告警任务的节点,以使所述分布式集群中处于正常运行状态的任意两个所述节点的总耗时的差值小于预设值。
8.一种告警任务管理装置,其特征在于,应用于分布式集群中的每一节点,该告警任务管理装置包括:
获取模块,用于接收调度中心下发的告警任务,获取与所述告警任务对应的任务数据,所述任务数据包括执行状态及上一次执行所述告警任务的节点的运行状态,所述告警任务为按监控周期执行的告警任务;
判断模块,用于根据所述执行状态和所述运行状态判断所述告警任务是否为可执行状态,若否,不执行所述告警任务,若是,触发所述执行模块;
所述执行模块,用于执行所述告警任务,并计算执行所述告警任务的耗时,以便所述调度中心根据所述耗时确定下一次执行所述告警任务的节点,使所述分布式集群中的各个所述节点任务均衡。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-7任意一项所述的告警任务管理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的告警任务管理方法的步骤。
CN202110873771.1A 2021-07-30 2021-07-30 一种告警任务管理方法、装置及相关组件 Pending CN113722060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110873771.1A CN113722060A (zh) 2021-07-30 2021-07-30 一种告警任务管理方法、装置及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110873771.1A CN113722060A (zh) 2021-07-30 2021-07-30 一种告警任务管理方法、装置及相关组件

Publications (1)

Publication Number Publication Date
CN113722060A true CN113722060A (zh) 2021-11-30

Family

ID=78674552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110873771.1A Pending CN113722060A (zh) 2021-07-30 2021-07-30 一种告警任务管理方法、装置及相关组件

Country Status (1)

Country Link
CN (1) CN113722060A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094661A1 (en) * 2005-10-22 2007-04-26 Cisco Technology, Inc. Techniques for task management using presence
US20170185454A1 (en) * 2015-12-25 2017-06-29 Le Holdings (Beijing) Co., Ltd. Method and Electronic Device for Determining Resource Consumption of Task
CN107229511A (zh) * 2017-05-11 2017-10-03 东软集团股份有限公司 集群任务均衡调度方法、装置、存储介质及电子设备
CN108628674A (zh) * 2018-05-11 2018-10-09 深圳市零度智控科技有限公司 基于云平台的任务调度方法、云平台及计算机存储介质
US20190138358A1 (en) * 2017-11-07 2019-05-09 Hitachi, Ltd. Task management system, task management method, and task management program
CN109977161A (zh) * 2019-03-28 2019-07-05 上海中通吉网络技术有限公司 presto集群的监控系统
CN111429033A (zh) * 2020-04-21 2020-07-17 贵州新致普惠信息技术有限公司 一种工作流任务调度系统、方法及服务终端
CN112463315A (zh) * 2020-11-13 2021-03-09 苏州浪潮智能科技有限公司 一种集群任务调度方法、装置及相关组件

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094661A1 (en) * 2005-10-22 2007-04-26 Cisco Technology, Inc. Techniques for task management using presence
US20170185454A1 (en) * 2015-12-25 2017-06-29 Le Holdings (Beijing) Co., Ltd. Method and Electronic Device for Determining Resource Consumption of Task
CN107229511A (zh) * 2017-05-11 2017-10-03 东软集团股份有限公司 集群任务均衡调度方法、装置、存储介质及电子设备
US20190138358A1 (en) * 2017-11-07 2019-05-09 Hitachi, Ltd. Task management system, task management method, and task management program
CN108628674A (zh) * 2018-05-11 2018-10-09 深圳市零度智控科技有限公司 基于云平台的任务调度方法、云平台及计算机存储介质
CN109977161A (zh) * 2019-03-28 2019-07-05 上海中通吉网络技术有限公司 presto集群的监控系统
CN111429033A (zh) * 2020-04-21 2020-07-17 贵州新致普惠信息技术有限公司 一种工作流任务调度系统、方法及服务终端
CN112463315A (zh) * 2020-11-13 2021-03-09 苏州浪潮智能科技有限公司 一种集群任务调度方法、装置及相关组件

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHAOJIAN WANG ET AL.: "Distributed Frequency Control With Operational Constraints, Part I: Per-Node Power Balance", 《IEEE TRANSACTIONS ON SMART GRID》, 25 July 2017 (2017-07-25), pages 1 - 12 *
袁子淇: "基于ZooKeeper的集群应用配置管理的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 5 January 2016 (2016-01-05), pages 138 - 237 *

Similar Documents

Publication Publication Date Title
WO2017140131A1 (zh) 数据写入、读取方法及装置、云存储系统
US9319281B2 (en) Resource management method, resource management device, and program product
CN108132837B (zh) 一种分布式集群调度系统及方法
CN107016480B (zh) 任务调度方法、装置及系统
CN105049268A (zh) 分布式计算资源分配系统和任务处理方法
CN107589951B (zh) 一种集群升级方法及装置
CN112579304A (zh) 基于分布式平台的资源调度方法、装置、设备及介质
US10623281B1 (en) Dynamically scheduled checkpoints in distributed data streaming system
US11042409B2 (en) Leader election with lifetime term
CN112162852A (zh) 一种多架构cpu节点的管理方法、装置及相关组件
CN110727508A (zh) 一种任务调度系统和调度方法
CN114816709A (zh) 任务调度方法、装置、服务器及可读存储介质
CN111580951A (zh) 一种任务分配方法及资源管理平台
CN112149975B (zh) 一种基于人工智能的apm监控系统及监控方法
CN106815318B (zh) 一种时序数据库的集群化方法及系统
CN113157426A (zh) 一种任务调度方法、系统、设备及存储介质
CN115858499A (zh) 一种数据库分区处理方法、装置、计算机设备和存储介质
CN116594752A (zh) 流程调度方法、装置、设备、介质和程序产品
CN116055499A (zh) 基于redis的集群任务智能化调度方法、设备、介质
CN113722060A (zh) 一种告警任务管理方法、装置及相关组件
CN115858667A (zh) 用于同步数据的方法、装置、设备和存储介质
EP4206915A1 (en) Container creation method and apparatus, electronic device, and storage medium
CN109257256A (zh) 设备监控方法、装置、计算机设备及存储介质
CN111104220A (zh) 基于Arm架构的服务器配置方法、系统及相关设备
CN112612606A (zh) 消息主题的处理方法、装置、计算机设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231122

Address after: Room 2301, No. 395 Linjiang Avenue, Tianhe District, Guangzhou City, Guangdong Province, 510655 (Location: Self made Unit 01)

Applicant after: Guangdong Inspur Intelligent Computing Technology Co.,Ltd.

Applicant after: INSPUR ELECTRONIC INFORMATION INDUSTRY Co.,Ltd.

Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong

Applicant before: INSPUR ELECTRONIC INFORMATION INDUSTRY Co.,Ltd.

TA01 Transfer of patent application right