CN117271277A - 异常业务的告警方法、装置、设备及存储介质 - Google Patents

异常业务的告警方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117271277A
CN117271277A CN202311229254.6A CN202311229254A CN117271277A CN 117271277 A CN117271277 A CN 117271277A CN 202311229254 A CN202311229254 A CN 202311229254A CN 117271277 A CN117271277 A CN 117271277A
Authority
CN
China
Prior art keywords
target
node
available
alarm
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311229254.6A
Other languages
English (en)
Inventor
刘微
郭相林
魏博言
李硕蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202311229254.6A priority Critical patent/CN117271277A/zh
Publication of CN117271277A publication Critical patent/CN117271277A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种异常业务的告警方法,可以应用于信息安全和金融科技技术领域。该异常业务的告警方法包括:响应于接收到的用于处理异常业务的告警请求,生成与告警请求对应的目标告警事件,目标告警事件用于生成并触发针对异常业务的告警操作;获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表;响应于确定第一可用节点列表和第二可用节点列表不同,确定与第一可用节点列表相对应的目标属性列表,其中,目标属性列表包括与每个第一可用节点对应的目标属性取值范围;以及基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点,以便目标节点处理目标告警事件。

Description

异常业务的告警方法、装置、设备及存储介质
技术领域
本公开涉及信息安全和金融科技领域,尤其涉及一种异常业务的告警方法、装置、设备及存储介质。
背景技术
调度系统通过运行多种调度任务以实现多种业务功能。在实现业务功能的过程中,调度系统与上层任务和底层组件对接,基础组件服务故障、任务配置以及数据读取写入出现异常等都会造成任务调度失败,导致出现异常业务。
随着调度系统涉及的业务范围逐渐增大,针对异常业务的告警信息量也急剧增长。相关技术中,一般通过集中式系统实现对异常业务的告警、对告警信息的处理。然而,上述方案会导致在同一时刻触发的告警信息被延迟调度,从而造成告警延迟。此外,在告警信息量非常大时,仅通过集中式系统也难以实现对全部告警信息的处理。
发明内容
鉴于上述问题,本公开提供了的异常业务的告警方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种异常业务的告警方法,包括:响应于接收到的用于处理异常业务的告警请求,生成与告警请求对应的目标告警事件,目标告警事件用于生成并触发针对异常业务的告警操作;获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表,其中,第一可用节点列表包括M个第一可用节点,第二可用节点列表包括N个第二个可用节点,每个第一可用节点或第二可用节点用于处理至少一个告警事件,M大于等于1,N大于等于1;响应于确定第一可用节点列表和第二可用节点列表不同,确定与第一可用节点列表相对应的目标属性列表,其中,目标属性列表包括与每个第一可用节点对应的目标属性取值范围;以及基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点,以便目标节点处理目标告警事件。
根据本公开的实施例,在获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表之前,包括:获取分布式系统中S个节点的资源使用信息,其中,S大于等于M、且S大于等于N;根据资源使用信息,确定S个节点中每个节点的可用状态;以及基于可用状态,从S个节点中确定M个第一可用节点,并生成第一可用节点列表。
根据本公开的实施例,资源使用信息包括每个节点待处理的告警事件数量、告警记录数量和延迟告警总时长,每个告警事件与按照延迟告警时长从短到长排列的至少一个告警记录相对应;根据资源使用信息,确定S个节点中每个节点的可用状态包括:根据目标比较结果,确定S个节点中每个节点的可用状态,其中,目标比较结果包括以下至少其中之一:告警事件数量和第一阈值之间的第一比较结果、告警记录数量和第二阈值之间的第二比较结果、延迟告警总时长和第三阈值之间的第三比较结果。
根据本公开的实施例,资源使用信息还包括内存使用量和处理器使用率;根据资源使用信息,确定S个节点中每个节点的可用状态还包括:确定内存使用量和第四阈值之间的第四比较结果、处理器使用率和第五阈值之间的第五比较结果;以及根据第四比较结果和第五比较结果,确定S个节点中每个节点的可用状态。
根据本公开的实施例,响应于确定第一可用节点列表和第二可用节点列表不同,确定与第一可用节点列表相对应的目标属性列表包括:响应于确定第一可用节点的数目与第二可用节点的数目不同,以M个第一可用节点为标准,重新确定与每个第一可用节点对应的目标属性取值范围。
根据本公开的实施例,异常业务的告警方法,还包括:根据目标告警事件的告警标识,计算目标告警事件的哈希值;以及根据哈希值,计算目标告警事件的目标属性值。
根据本公开的实施例,基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点,包括:基于目标属性列表,确定目标属性值落入的目标属性取值范围;以及将目标属性值落入的目标属性取值范围对应的第一可用节点确定为目标节点。
根据本公开的实施例,在基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点之后,包括:将目标告警事件发送至目标节点,以便目标节点判断是否能够处理目标告警事件,得到判断结果;以及响应于接收到由目标节点返回的判断结果表征无法处理目标告警事件,重新确定目标节点。
本公开的第二方面提供了一种异常业务的告警装置,包括:
生成模块,用于响应于接收到的用于处理异常业务的告警请求,生成与告警请求对应的目标告警事件,目标告警事件用于生成并触发针对异常业务的告警操作;
第一获取模块,用于获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表,其中,第一可用节点列表包括M个第一可用节点,第二可用节点列表包括N个第二个可用节点,每个第一可用节点或第二可用节点用于处理至少一个告警事件,M大于等于1,N大于等于1;
第一确定模块,用于响应于确定第一可用节点列表和第二可用节点列表不同,确定与第一可用节点列表相对应的目标属性列表,其中,目标属性列表包括与每个第一可用节点对应的目标属性取值范围;以及
第二确定模块,用于基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点,以便目标节点处理目标告警事件。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述异常业务的告警方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述异常业务的告警方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述异常业务的告警方法。
根据本公开的实施例,根据目标告警事件的目标属性值选择处理目标告警事件的目标节点,通过使用多个节点进行异常业务的处理,避免了因告警事件数量过多导致的延迟告警问题。通过对可用节点列表进行实时更新,并重新确定对应的目标属性取值范围,保证在任何时刻下都能够根据当前告警事件数量、状态将新的目标告警事件分配给合适的目标节点,使得每个告警事件只会被一个对应的节点处理,避免由于一个告警事件被多次处理造成的错误。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的异常业务的告警方法的应用场景;
图2示意性示出了根据本公开实施例的异常业务的告警方法的流程图;
图3示意性示出了根据本公开实施例的将延迟告警总时长的目标比较结果作为最高优先级进行节点可用状态的判断的流程图;
图4示意性示出了根据本公开实施例的异常业务的告警装置的结构框图;以及
图5示意性示出了根据本公开实施例的适于异常业务的告警方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
传统方法中,当异常业务触发告警时,一般通过集中式系统实现对告警信息的处理,实现异常业务的告警,从而实现异常业务的处理。当集中式系统中的一个节点处理某告警信息时,其他节点不应再对该告警信息进行处理,否则就会对同一告警信息进行多次处理,导致告警接收人多次收到同一告警信息提示,影响告警接收人对于告警系统的使用体验。
本公开的实施例提供了一种异常业务的告警方法,包括:响应于接收到的用于处理异常业务的告警请求,生成与告警请求对应的目标告警事件,目标告警事件用于生成并触发针对异常业务的告警操作;获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表,其中,第一可用节点列表包括M个第一可用节点,第二可用节点列表包括N个第二个可用节点,每个第一可用节点或第二可用节点用于处理至少一个告警事件,M大于等于1,N大于等于1;响应于确定第一可用节点列表和第二可用节点列表不同,确定与第一可用节点列表相对应的目标属性列表,其中,目标属性列表包括与每个第一可用节点对应的目标属性取值范围;以及基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点,以便目标节点处理目标告警事件。
图1示意性示出了根据本公开实施例的异常业务的告警方法的应用场景。
如图1所示,根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103,网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的异常业务的告警方法一般可以由服务器105执行。相应地,本公开实施例所提供的异常业务的告警装置一般可以设置于服务器105中。本公开实施例所提供的异常业务的告警方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的异常业务的告警装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图3对本公开实施例的异常业务的告警方法进行详细描述。
图2示意性示出了根据本公开实施例的异常业务的告警方法的流程图。
如图2所示,该方法包括操作S210~S240。
在操作S210,响应于接收到的用于处理异常业务的告警请求,生成与告警请求对应的目标告警事件,目标告警事件用于生成并触发针对异常业务的告警操作。
根据本公开的实施例,异常业务可以是在执行过程中出现的数据异常、组件运行故障、任务配置异常和数据读写异常等任务失败的业务;还包括处理时长超时或启动后长时间未调起的业务。
例如,对于“查询”业务,查询组件运行失败,该业务为异常业务;在完成查询之后,查询结果一直未展示,该业务为异常业务。对于“转账”业务,转账金额读取或写入失败,该业务为异常业务。
根据本公开的实施例,在出现异常业务时,业务系统通过向告警系统发送告警请求,立即触发告警任务。告警系统响应于接收到的用于处理异常业务的告警请求,生成对应的目标告警事件。
在操作S220,获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表。
根据本公开的实施例,第一可用节点列表包括M个第一可用节点,第二可用节点列表包括N个第二个可用节点,每个第一可用节点或第二可用节点用于处理至少一个告警事件,M大于等于1,N大于等于1。
根据本公开的实施例,可用节点可以是根据工作状态,确定能够处理告警事件的节点。第一可用节点列表是根据当前的目标告警事件确定的可用节点列表,第二可用节点列表是根据当前时刻之前的目标告警事件确定的可用节点列表。
在操作S230,响应于确定第一可用节点列表和第二可用节点列表不同,确定与第一可用节点列表相对应的目标属性列表。
根据本公开的实施例,目标属性列表包括与每个第一可用节点对应的目标属性取值范围。
根据本公开的实施例,目标属性可以用来标记目标告警事件,每个目标告警事件经过计算处理可以得到唯一的目标属性,一个目标属性可以对应多个目标告警事件。目标属性列表包括与每个第一可用节点对应的目标属性取值范围,在确定第一可用节点列表和第二可用节点列表不同的情况下,需要根据可用节点的数量和每个第一可用节点各自的性能,重新划分每个第一可用节点对应的目标属性取值范围,形成新的目标属性列表。
在操作S240,基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点,以便目标节点处理目标告警事件。
根据本公开的实施例,判断与目标告警事件的目标属性值对应的目标属性取值范围,根据该目标属性取值范围对应的节点,即可确定处理该目标告警事件的目标节点,以便目标节点处理目标告警事件。
根据本公开的实施例,确定目标节点后,目标节点可以先将目标告警事件记录到数据库中,在业务处理过程中,目标节点会自动从数据库获取本节点需要处理的目标告警事件进行处理。
根据本公开的实施例,根据目标告警事件的目标属性值选择处理目标告警事件的目标节点,通过使用多个节点进行异常业务的处理,避免了因告警事件数量过多导致的延迟告警问题。通过对可用节点列表进行实时更新,并重新确定对应的目标属性取值范围,保证在任何时刻下都能够根据当前告警事件数量、状态将新的目标告警事件分配给合适的目标节点,使得每个告警事件只会被一个对应的节点处理,避免由于一个告警事件被多次处理造成的错误。
根据本公开的实施例,在获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表之前,包括:获取分布式系统中S个节点的资源使用信息,其中,S大于等于M、且S大于等于N;根据资源使用信息,确定S个节点中每个节点的可用状态;以及基于可用状态,从S个节点中确定M个第一可用节点,并生成第一可用节点列表。
根据本公开的实施例,告警系统可以包括一个控制节点和用于执行告警业务的节点,控制节点用于执行节点注册和分配目标属性取值范围。每个节点可以向控制节点发送注册请求,将IP地址、端口号等信息告知控制节点,控制节点接收节点的注册请求后,将节点的信息加入到节点列表中。
根据本公开的实施例,节点的资源使用信息包括当前节点的工作状态和负载状态,工作状态包括当前节点需要处理的任务队列中的任务数量,负载状态包括当前节点的硬件资源使用状态。在当前节点的工作状态和负载状态均满足预定条件的情况下,当前节点可用,可以作为第一可用节点。
根据本公开的实施例,通过各个节点的资源使用信息确定其可用状态,能够使得各个计算机节点的负载达到相对平衡,从而提高系统的整体性能。
根据本公开的实施例,资源使用信息包括每个节点待处理的告警事件数量、告警记录数量和延迟告警总时长,每个告警事件与按照延迟告警时长从短到长排列的至少一个告警记录相对应;根据资源使用信息,确定S个节点中每个节点的可用状态包括:根据目标比较结果,确定S个节点中每个节点的可用状态,其中,目标比较结果包括以下至少其中之一:告警事件数量和第一阈值之间的第一比较结果、告警记录数量和第二阈值之间的第二比较结果、延迟告警总时长和第三阈值之间的第三比较结果。
根据本公开的实施例,第一阈值、第二阈值和第三阈值可以是根据各节点的性能确定的预设值。针对每个节点,可以通过对每个节点设置任务队列,将待处理的告警事件入队,通过读取任务队列中的任务数量确定告警事件数量。
根据本公开的实施例,告警事件可以包括多个维度的信息,如:告警ID、告警事件名称、告警规则和告警原因等。在第一比较结果表征当前节点的待处理的告警事件数量大于第一阈值的情况下,该节点的任务队列中待处理的告警事件过多,继续处理新的告警事件可能会导致告警不及时,因此该节点不可用。
根据本公开的实施例,告警记录是通过对告警事件进行解析生成的,告警记录包括延迟告警时长,延迟告警时长可以用于在预设时刻触发告警记录,以便告警系统将该告警记录发送至终端设备。在第二比较结果表征当前节点的告警记录数量大于第二阈值的情况下,当前节点需要发送的告警记录数量过多,因此该节点不可用。
根据本公开的实施例,延迟告警总时长是根据当前节点的全部告警记录中的延迟告警时长求和确定的。在第三比较结果表征当前节点的延迟告警总时长大于第三阈值的情况下,当前节点的告警记录延迟告警总时长过大,继续处理新的告警事件可能造成等待时间过长,导致告警不及时,因此该节点不可用。
根据本公开的实施例,可以根据实际告警情况,根据资源使用信息和目标比较结果判断节点是否可用。
例如,在目标比较结果包括告警事件数量和第一阈值之间的第一比较结果、告警记录数量和第二阈值之间的第二比较结果以及延迟告警总时长和第三阈值之间的第三比较结果的情况下,可以在目标比较结果表征当前节点的待处理告警事件数量、告警记录数量和延迟告警总时长分别小于第一阈值、第二阈值、第三阈值的情况下,确定该节点可用。
由于待处理告警事件数量和告警记录数量都是表征节点还需要处理的任务数量的信息,而在每个告警记录的延迟告警时长比较短的情况下,即使告警事件数量和告警记录数量比较多,当前节点的延迟告警总时长也会比较短,这种情况下所有的告警事件和告警记录都会在一个较短的等待时长后就被处理,因此还可以将延迟告警总时长的目标比较结果作为最高优先级进行节点可用状态的判断。
图3示意性示出了根据本公开实施例的将延迟告警总时长的目标比较结果作为最高优先级进行节点可用状态的判断的流程图。
如图3所示,该判断过程包括操作S310~S340。
在操作S310,判断当前节点的延迟告警总时长是否小于第三阈值。如果小于,确定该节点可用,结束;如果不小于,执行操作S320。
在操作S320,获取当前节点的待处理告警事件数量和告警记录数量。
在操作S330,判断当前节点的待处理告警事件数量是否小于第一阈值。如果小于,执行操作S340;如果不小于,确定该节点不可用,结束。
在操作S340,判断当前节点的告警记录数量是否小于第二阈值。如果小于,确定该节点可用,结束;如果不小于,确定该节点不可用,结束。
根据本公开的实施例,将延迟告警总时长的目标比较结果作为最高优先级进行节点可用状态的判断的情况下,获取节点的延迟告警总时长,然后将延迟告警总时长与第三阈值比对,在第三比较结果延迟告警总时长的目标比较结果表征延迟告警总时长小于第三阈值的情况下,不需要判断待处理告警事件数量和告警记录数量的目标比较结果,即可确定该节点可用。
在第三比较结果表征延迟告警总时长大于第三阈值的情况下,获取待处理告警事件数量和告警记录数量,并分别将待处理告警事件数量和告警记录数量与第一阈值和第二阈值作比对,在第一比较结果和第二比较结果分别表征待处理告警事件数量和告警记录数量分别大于第一阈值和第二阈值的情况下,可以确定该节点可用。
根据本公开的实施例,资源使用信息还包括内存使用量和处理器使用率;根据资源使用信息,确定S个节点中每个节点的可用状态还包括:确定内存使用量和第四阈值之间的第四比较结果、处理器使用率和第五阈值之间的第五比较结果;以及根据第四比较结果和第五比较结果,确定S个节点中每个节点的可用状态。
根据本公开的实施例,第四阈值、第五阈值可以是根据各节点的性能,预设在节点中的值。在当前节点的内存使用量大于第四阈值时,该节点不可用;在当前节点的处理器使用率大于第五阈值时,该节点不可用。在第四比较结果和第五比较结果表征当前节点的内存使用量和处理器使用率分别小于第四阈值和第五阈值时,表示该节点可用,否则该节点不可用。
根据本公开的实施例,响应于确定第一可用节点列表和第二可用节点列表不同,确定与第一可用节点列表相对应的目标属性列表包括:响应于确定第一可用节点的数目与第二可用节点的数目不同,以M个第一可用节点为标准,重新确定与每个第一可用节点对应的目标属性取值范围。
根据本公开的实施例,目标属性的取值范围可以包括与每个第一可用节点对应的目标属性取值范围的并集,并且与每个第一可用节点对应的目标属性取值范围之间不存在交集。
根据本公开的实施例,在确定第一可用节点的数目与第二可用节点的数目不同的情况下,需要对与每个第一可用节点对应的目标属性取值范围进行重新确定,按照更新后的第一可用节点的数目,对目标属性的取值范围进行平均划分,得到新的与每个第一可用节点对应的目标属性取值范围。
例如,目标属性的取值范围设为(第一数值,第五数值],第二可用节点列表中有四个节点,其目标属性取值范围分别为(第一数值,第二数值]、(第二数值,第三数值]、(第三数值,第四数值]、(第四数值,第五数值],第一可用节点列表中有五个节点,以五个第一可用节点为标准,对目标属性的取值范围进行重新划分,得到节点1目标属性取值范围为(第一数值,第六数值],节点2的目标属性取值范围为(第六数值,第七数值],节点3的目标属性取值范围为(第七数值,第八数值],节点4的目标属性取值范围为(第八数值,第九数值],节点5的目标属性取值范围为(第九数值,第五数值]。其中,各个取值范围区间均为左开右闭区间。
根据本公开的实施例,在执行节点更新并重新划分目标属性取值范围后,控制节点根据任务类型和节点数量等因素重新调整任务的分配情况,以确保任务能够平衡地分配给各个执行节点,并充分利用系统资源。
根据本公开的实施例,目标属性的取值范围可以根据告警数量确定,由于单个节点在固定时间内处理的告警事件数量是一定的,通常情况下,告警事件数量越大,需要的节点数量也越大,但在节点数量大于目标属性的取值范围的情况下,增加新节点不会对系统性能有提升。
例如,目标属性的取值范围是(第一数值,第一百数值],可用节点数量大于目标属性的取值范围大小,那么其中可用节点的目标属性取值范围分别是(第一数值,第二数值]、(第二数值,第三数值]、…(第九十八数值,第九十九数值]、(第九十九数值,第一百数值]。多出的可用节点的目标属性取值范围是无效范围值,因此在可用节点数量大于目标属性的取值范围的情况下,继续增加新的可用节点不会对系统性能有提升。
根据本公开的实施例,异常业务的告警方法,还包括:根据目标告警事件的告警标识,计算目标告警事件的哈希值;以及根据哈希值,计算目标告警事件的目标属性值。
根据本公开的实施例,目标属性可以是哈希值,目标属性的取值范围可以是总哈希值范围。确定总哈希值范围后,可以将目标告警事件的告警标识取哈希值,再将哈希值对总哈希值范围大小取余并加一,得到结果,保证结果在总哈希值范围内,将结果作为该目标告警事件的目标属性值,根据目标告警事件的目标属性值和目标属性列表即可确定处理该目标告警事件的目标节点,以便目标节点处理目标告警事件。
根据本公开的实施例,可以设置一个总哈希值范围,节点的目标属性取值范围可以根据节点数量对哈希值范围进行平均分配,表示节点能够处理的告警事件的哈希值取值范围。
例如,总哈希值范围设为(第一数值,第五数值],第一可用节点列表中有四个节点,则节点1的目标属性取值范围为(第一数值,第二数值],节点2的目标属性取值范围为(第二数值,第三数值],节点3的目标属性取值范围为(第三数值,第四数值],节点4的目标属性取值范围为(第四数值,第五数值]。表1是某时刻的第一可用节点列表状态。
表1第一可用节点列表状态
根据本公开的实施例,基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点,包括:基于目标属性列表,确定目标属性值落入的目标属性取值范围;以及将目标属性值落入的目标属性取值范围对应的第一可用节点确定为目标节点。
例如,确定告警事件A的目标属性值后,将告警事件A的目标属性值对目标属性的取值范围大小取余并加1,得到结果,根据目标属性列表,结果落在节点1的目标属性取值范围内,因此告警事件A由节点1处理。
根据本公开的实施例,在基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点之后,包括:将目标告警事件发送至目标节点,以便目标节点判断是否能够处理目标告警事件,得到判断结果;以及响应于接收到由目标节点返回的判断结果表征无法处理目标告警事件,重新确定目标节点。
根据本公开的实施例,确定处理目标告警事件的目标节点后,将目标告警事件发送至目标节点,目标节点根据自己的目标属性取值范围判断是否能够处理目标告警事件,得到判断结果并返回。在判断结果表征目标节点不能处理目标告警事件的情况下,根据当前的目标属性列表重新确定用于处理目标告警事件的目标节点。
例如,目标属性的取值范围设为(第一数值,第五数值],第二可用节点列表中有四个节点,第一可用节点列表中有五个节点,在可用节点列表更新之前,目标告警事件被分配给节点1处理,在可用节点列表更新之后,根据更新后的目标属性列表判断节点1不能处理该目标属性值的目标告警事件,重新确定节点2为用于处理目标告警事件的目标节点。
根据本公开的实施例,在对第一可用节点列表更新后,在目标节点侧再次判断是否需要处理分配的目标告警事件,以避免由于第一可用节点列表更新导致目标属性列表变化带来的告警事件重复分配被多次处理的问题。
图4示意性示出了根据本公开实施例的异常业务的告警装置的结构框图。
如图4所示,该实施例的异常业务的告警装置400包括生成模块410、第一获取模块420、第一确定模块430和第二确定模块440。
生成模块410,用于响应于接收到的用于处理异常业务的告警请求,生成与告警请求对应的目标告警事件,目标告警事件用于生成并触发针对异常业务的告警操作。在一实施例中,生成模块410,可以用于执行前文描述的操作S210,在此不再赘述。
第一获取模块420,用于获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表,其中,第一可用节点列表包括M个第一可用节点,第二可用节点列表包括N个第二个可用节点,每个第一可用节点或第二可用节点用于处理至少一个告警事件,M大于等于1,N大于等于1。在一实施例中,第一获取模块420可以用于执行前文描述的操作S220,在此不再赘述。
第一确定模块430,用于响应于确定第一可用节点列表和第二可用节点列表不同,确定与第一可用节点列表相对应的目标属性列表,其中,目标属性列表包括与每个第一可用节点对应的目标属性取值范围。在一实施例中,第一确定模块430可以用于执行前文描述的操作S230,在此不再赘述。
第二确定模块440,用于基于目标属性列表和目标告警事件的目标属性值,从M个第一可用节点中确定目标节点,以便目标节点处理目标告警事件。在一实施例中,第二确定模块440可以用于执行前文描述的操作S240,在此不再赘述。
根据本公开的实施例,异常业务的告警装置400还包括第二获取模块和第三确定模块。
第二获取模块,用于获取分布式系统中S个节点的资源使用信息,其中,S大于等于M、且S大于等于N。
第三确定模块,用于根据资源使用信息,确定S个节点中每个节点的可用状态;以及基于可用状态,从S个节点中确定M个第一可用节点,并生成第一可用节点列表。
根据本公开的实施例,第三确定模块包括第一确定单元。
第一确定单元,用于根据目标比较结果,确定S个节点中每个节点的可用状态,其中,目标比较结果包括以下至少其中之一:告警事件数量和第一阈值之间的第一比较结果、告警记录数量和第二阈值之间的第二比较结果、延迟告警总时长和第三阈值之间的第三比较结果。
根据本公开的实施例,第三确定模块还包括第二确定单元和第三确定单元。
第二确定单元,用于确定内存使用量和第四阈值之间的第四比较结果、处理器使用率和第五阈值之间的第五比较结果。
第三确定单元,用于根据第四比较结果和第五比较结果,确定S个节点中每个节点的可用状态。
根据本公开的实施例,第一确定模块430包括第四确定单元。
第四确定单元,用于响应于确定第一可用节点的数目与第二可用节点的数目不同,以M个第一可用节点为标准,重新确定与每个第一可用节点对应的目标属性取值范围。
根据本公开的实施例,异常业务的告警装置400还包括第一计算模块和第二计算模块。
第一计算模块,用于根据目标告警事件的告警标识,计算目标告警事件的哈希值。
第二计算模块,用于根据哈希值,计算目标告警事件的目标属性值。
根据本公开的实施例,第二确定模块440包括第五确定单元和第六确定单元。
第五确定单元,用于基于目标属性列表,确定目标属性值落入的目标属性取值范围。
第六确定单元,用于将目标属性值落入的目标属性取值范围对应的第一可用节点确定为目标节点。
根据本公开的实施例,异常业务的告警装置400还包括发送模块和第四确定模块。
发送模块,用于将目标告警事件发送至目标节点,以便目标节点判断是否能够处理目标告警事件,得到判断结果。
第四确定模块,用于响应于接收到由目标节点返回的判断结果表征无法处理目标告警事件,重新确定目标节点。
根据本公开的实施例,生成模块410、第一获取模块420、第一确定模块430和第二确定模块440中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,生成模块410、第一获取模块420、第一确定模块430和第二确定模块440中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,生成模块410、第一获取模块420、第一确定模块430和第二确定模块440中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图5示意性示出了根据本公开实施例的适于异常业务的告警方法的电子设备的方框图。
如图5所示,根据本公开实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至输入/输出I/O接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供上述方法。
在该计算机程序被处理器501执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分509被下载和安装,和/或从可拆卸介质511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (12)

1.一种异常业务的告警方法,包括:
响应于接收到的用于处理异常业务的告警请求,生成与所述告警请求对应的目标告警事件,所述目标告警事件用于生成并触发针对所述异常业务的告警操作;
获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表,其中,所述第一可用节点列表包括M个第一可用节点,所述第二可用节点列表包括N个第二个可用节点,每个所述第一可用节点或第二可用节点用于处理至少一个告警事件,M大于等于1,N大于等于1;
响应于确定所述第一可用节点列表和所述第二可用节点列表不同,确定与所述第一可用节点列表相对应的目标属性列表,其中,所述目标属性列表包括与每个所述第一可用节点对应的目标属性取值范围;以及
基于所述目标属性列表和所述目标告警事件的目标属性值,从M个所述第一可用节点中确定目标节点,以便所述目标节点处理所述目标告警事件。
2.根据权利要求1所述的方法,其中,在所述获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表之前,包括:
获取分布式系统中S个节点的资源使用信息,其中,S大于等于M、且S大于等于N;
根据所述资源使用信息,确定所述S个节点中每个节点的可用状态;以及
基于所述可用状态,从所述S个节点中确定所述M个第一可用节点,并生成所述第一可用节点列表。
3.根据权利要求2所述的方法,其中,所述资源使用信息包括每个节点待处理的告警事件数量、告警记录数量和延迟告警总时长,每个告警事件与按照延迟告警时长从短到长排列的至少一个告警记录相对应;
所述根据所述资源使用信息,确定所述S个节点中每个节点的可用状态包括:
根据目标比较结果,确定所述S个节点中每个节点的可用状态,其中,所述目标比较结果包括以下至少其中之一:所述告警事件数量和第一阈值之间的第一比较结果、所述告警记录数量和第二阈值之间的第二比较结果、所述延迟告警总时长和第三阈值之间的第三比较结果。
4.根据权利要求2或3所述的方法,其中,所述资源使用信息还包括内存使用量和处理器使用率;
所述根据所述资源使用信息,确定所述S个节点中每个节点的可用状态还包括:
确定所述内存使用量和第四阈值之间的第四比较结果、所述处理器使用率和第五阈值之间的第五比较结果;以及
根据所述第四比较结果和所述第五比较结果,确定所述S个节点中每个节点的可用状态。
5.根据权利要求1所述的方法,其中,所述响应于确定所述第一可用节点列表和所述第二可用节点列表不同,确定与所述第一可用节点列表相对应的目标属性列表包括:
响应于确定所述第一可用节点的数目与所述第二可用节点的数目不同,以M个所述第一可用节点为标准,重新确定与每个所述第一可用节点对应的目标属性取值范围。
6.根据权利要求1所述的方法,还包括:
根据所述目标告警事件的告警标识,计算所述目标告警事件的哈希值;以及
根据所述哈希值,计算所述目标告警事件的目标属性值。
7.根据权利要求1或6所述的方法,其中,所述基于所述目标属性列表和所述目标告警事件的目标属性值,从M个所述第一可用节点中确定目标节点,包括:
基于所述目标属性列表,确定所述目标属性值落入的目标属性取值范围;以及
将所述目标属性值落入的目标属性取值范围对应的第一可用节点确定为目标节点。
8.根据权利要求1所述的方法,其中,在基于所述目标属性列表和所述目标告警事件的目标属性值,从M个所述第一可用节点中确定目标节点之后,包括:
将所述目标告警事件发送至所述目标节点,以便所述目标节点判断是否能够处理所述目标告警事件,得到判断结果;以及
响应于接收到由所述目标节点返回的判断结果表征无法处理所述目标告警事件,重新确定目标节点。
9.一种异常业务的告警装置,包括:
生成模块,用于响应于接收到的用于处理异常业务的告警请求,生成与所述告警请求对应的目标告警事件,所述目标告警事件用于生成并触发针对所述异常业务的告警操作;
第一获取模块,用于获取当前时刻的第一可用节点列表和位于当前时刻之前的第二可用节点列表,其中,所述第一可用节点列表包括M个第一可用节点,所述第二可用节点列表包括N个第二个可用节点,每个所述第一可用节点或第二可用节点用于处理至少一个告警事件,M大于等于1,N大于等于1;
第一确定模块,用于响应于确定所述第一可用节点列表和所述第二可用节点列表不同,确定与所述第一可用节点列表相对应的目标属性列表,其中,所述目标属性列表包括与每个所述第一可用节点对应的目标属性取值范围;以及
第二确定模块,用于基于所述目标属性列表和所述目标告警事件的目标属性值,从M个所述第一可用节点中确定目标节点,以便所述目标节点处理所述目标告警事件。
10.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~8中任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~8中任一项所述的方法。
CN202311229254.6A 2023-09-22 2023-09-22 异常业务的告警方法、装置、设备及存储介质 Pending CN117271277A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311229254.6A CN117271277A (zh) 2023-09-22 2023-09-22 异常业务的告警方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311229254.6A CN117271277A (zh) 2023-09-22 2023-09-22 异常业务的告警方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117271277A true CN117271277A (zh) 2023-12-22

Family

ID=89213777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311229254.6A Pending CN117271277A (zh) 2023-09-22 2023-09-22 异常业务的告警方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117271277A (zh)

Similar Documents

Publication Publication Date Title
US10878355B2 (en) Systems and methods for incident queue assignment and prioritization
CN110310034B (zh) 一种应用于SaaS的服务编排、业务流程处理方法和装置
CN107729139B (zh) 一种并发获取资源的方法和装置
US8141151B2 (en) Non-intrusive monitoring of services in a service-oriented architecture
CN109033814B (zh) 智能合约触发方法、装置、设备及存储介质
EP2998862A1 (en) Method, device, and system for memory management
CN113900834B (zh) 基于物联网技术的数据处理方法、装置、设备及存储介质
CN110673959A (zh) 用于处理任务的系统、方法和装置
CN114760233A (zh) 业务处理方法、装置、电子设备及存储介质
CN112882895B (zh) 健康检查方法、装置、计算机系统及可读存储介质
CN117667573A (zh) 基于ai语言模型的集群运维方法及装置
CN116594752A (zh) 流程调度方法、装置、设备、介质和程序产品
CN116360937A (zh) 任务调度方法、装置、设备及存储介质
CN114356713A (zh) 线程池监控方法、装置、电子设备及存储介质
CN115373886A (zh) 服务群组容器停机方法、装置、计算机设备和存储介质
CN117271277A (zh) 异常业务的告警方法、装置、设备及存储介质
CN114168607A (zh) 全局序列号生成方法、装置、设备、介质和产品
CN111221847B (zh) 监控数据存储方法、装置及计算机可读存储介质
CN110764882B (zh) 分布式管理方法、分布式管理系统及装置
CN112596974A (zh) 一种全链路监控方法、装置、设备和存储介质
CN110868564B (zh) 一种存储任务分配方法、云存储系统及电子设备
CN114844957B (zh) 链路报文转换方法、装置、设备、存储介质和程序产品
CN110262756B (zh) 用于缓存数据的方法和装置
CN116112336A (zh) 一种告警数据处理方法及装置
US7898964B1 (en) Queue information monitoring system and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination