CN116719703A - 数据监控报警方法、装置及电子设备 - Google Patents
数据监控报警方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116719703A CN116719703A CN202310619273.3A CN202310619273A CN116719703A CN 116719703 A CN116719703 A CN 116719703A CN 202310619273 A CN202310619273 A CN 202310619273A CN 116719703 A CN116719703 A CN 116719703A
- Authority
- CN
- China
- Prior art keywords
- alarm
- items
- target
- information
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012544 monitoring process Methods 0.000 title claims abstract description 52
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 9
- 230000001364 causal effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000001960 triggered effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Alarm Systems (AREA)
Abstract
本申请实施例提供了一种数据监控报警方法、装置及电子设备,其中,该方法包括:获取目标系统运行过程中用于反映自身运行状态的多个报警项;获取与多个报警项对应的报警策略,其中,报警策略至少用于指示报警项触发报警的报警条件以及多个报警项中不同报警项用于触发报警的报警逻辑关系,报警策略与报警项为一对多的对应关系;基于报警条件与报警逻辑关系确定是否触发报警。通过本申请,实现了准确及时对系统中各项性能指标进行监控的技术效果,进而解决了无法满足对多个报警项同时进行监控的场景,尤其在训练任务多,资源使用复杂情况下,无法准确及时监控系统中各项性能指标的问题。
Description
技术领域
本申请实施例涉及计算机领域,具体而言,涉及一种数据监控报警方法、装置及电子设备。
背景技术
相关技术中,人工智能平台的报警策略中往往智能配置一个报警项,即报警策略中只能存在1条报警项,也就是说同一个报警策略中无法满足对多个报警项同时进行监控的场景,因此,导致人工智能平台的灵活性较差,尤其在训练任务多,资源使用复杂的情况下,无法准确及时监控系统中各项性能指标。
发明内容
本申请实施例提供了一种数据监控报警方法、装置及电子设备,以至少解决相关技术中无法满足对多个报警项同时进行监控的场景,导致人工智能平台的灵活性较差,尤其在训练任务多,资源使用复杂的情况下,无法准确及时监控系统中各项性能指标。
根据本申请的一个实施例,提供了一种数据监控报警方法,包括:获取目标系统运行过程中用于反映自身运行状态的多个报警项;获取与多个报警项对应的报警策略,其中,报警策略至少用于指示报警项触发报警的报警条件以及多个报警项中不同报警项用于触发报警的报警逻辑关系,报警策略与报警项为一对多的对应关系;基于报警条件与报警逻辑关系确定是否触发报警。
在一个示例性实施例中,基于报警条件与报警逻辑关系确定是否触发报警,包括:确定多个报警项为目标集合;基于报警逻辑关系确定目标集合中各个元素对应的目标报警逻辑关系;在目标报警项目标逻辑关系为或的关系的情况下,在多个报警项中至少一个报警项满足报警条件的情况下,则触发报警。
在一个示例性实施例中,基于报警条件与报警逻辑关系确定是否触发对报警项的报警,包括:确定多个报警项为目标集合;基于报警逻辑关系确定目标集合中各个元素对应的目标报警逻辑关系;在目标报警项目标逻辑关系为和的关系的情况下,在多个报警项中所有报警项均满足报警条件的情况下,则触发报警。
在一个示例性实施例中,在触发报警之后,上述方法还包括:生成针对目标系统的报警信息,推送报警信息至不同的终端。
在一个示例性实施例中,推送报警信息至不同的终端,包括:展示选择界面,其中,选择界面包括第一对象集合,以及第二对象集合,第一对象集合包括:基于用户的标识信息标识的多个用户;第二对象集合包括:基于用户所承担的工作角色分组的多个用户群体,其中,每一组用户群体中所承担的工作角色相同;接收目标对象的操作指令,基于操作指令将报警信息推送至第一对象集合中目标对象所选中的第一对象所持有的终端,或者基于操作指令将报警信息推送至第二对象集合中目标对象所选中的第二对象所持有的终端。
在一个示例性实施例中,推送报警信息至不同的终端,包括:将所述报警信息直接推送至第三对象所持有的终端,其中,第三对象包括:目标系统的系统管理员;对报警信息进行分析,在确定报警信息为与目标系统的业务相关的报警信息的情况下,将报警信息推送至第四对象所持有的终端,其中,第四对象包括:目标系统的普通用户。
在一个示例性实施例中,报警策略还用于指示报警项的报警级别,在触发报警之后,上述方法还包括:确定各个报警项对应的目标报警级别;根据各个目标报警级别确定各个报警项对应的报警方式,其中,报警级别不同,则相应的报警方式不同;基于各个报警项对应的报警方式展示各个报警项对应的内容。
根据本申请实施例的另一方面,还提供了一种数据监控报警装置,包括:第一获取模块,用于获取目标系统运行过程中用于反映自身运行状态的多个报警项;第二获取模块,用于获取与多个报警项对应的报警策略,其中,报警策略至少用于指示报警项触发报警的报警条件以及多个报警项中不同报警项用于触发报警的报警逻辑关系,报警策略与报警项为一对多的对应关系;确定模块,用于基于报警条件与报警逻辑关系确定是否触发报警。
根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被处理器执行时实现任意一种的数据监控报警方法的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现任意一种的数据监控报警方法的步骤。
通过本申请的技术方案,可以在一条报警策略设置多个报警项,同时,可以设置各个报警项之间的报警逻辑关系,然后,在各个报警项满足报警条件的情况下,再通过报警逻辑关系确定是否真的进行报警,达到了在同一条报警策略中配置多个报警项,并根据多个报警项的报警条件以及各个报警项之间的逻辑关系进行综合判断,确定是否触发报警的目的,实现了提升人工智能平台的灵活性,准确及时对系统中各项性能指标进行监控的技术效果,进而解决了无法满足对多个报警项同时进行监控的场景,导致人工智能平台的灵活性较差,尤其在训练任务多,资源使用复杂的情况下,无法准确及时监控系统中各项性能指标。
附图说明
图1是相关技术中报警策略的配置过程的流程图;
图2是根据本申请实施例的数据监控报警方法的流程图;
图3是本申请一实施例中配置报警策略的流程示意图;
图4是本申请实施例中基于报警通知对象的流程示意图;
图5是根据本申请实施例数据监控报警装置的结构示意图;
图6是根据本申请实施例的电子设备的示意性结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
相关技术中,人工智能平台监控报警信息功能单一,仅仅满足系统内置的报警项监控,而且达到阈值后产生的报警信息的接收者为系统管理员,当报警信息产生时无法及时通知租户;且针对于特定的监控项无法满足自定义创建报警策略,不能灵活实现人工智能平台报警监控,以下对相关技术进行详细介绍:
图1是相关技术中报警策略的配置示意图,如图1所示,该人工智能平台中,报警策略配置中的报警项只有1个,只能针对某一个采集项采集到的数据进行监控,报警策略设置报警阈值后,存入到报警引擎缓存中,当采集项采集到的数据超过设置的阈值后,报警引擎缓存更新,从而产生报警信息。
容易注意到的是,该人工智能平台中监控报警策略中只能存在1条报警项,也就是说同一个报警策略无法满足多个报警项同时监控的场景,大大减少了人工智能平台监控的灵活性,因此,在训练任务多,资源使用复杂的情况下其不能准确、及时的监控平台中各项性能指标。
另外,在该人工智能平台中,报警信息等级一般只能分为一般报警和严重报警,当阈值达到一般报警时,报警通知方式为界面报警;当阈值达到严重报警时,报警通知方式一般为界面报警加站内信通知。而一般报警和严重报警界面报警的通知对象为系统管理员,站内信通知接收者也是系统管理员,可见其通知策略的粒度较粗。
为了解决上述技术问题,本申请实施例中,增加了当前报警系统的灵活性,满足了报警需求的多样性,以及对报警后续处理动作进行了灵活配置,实现报警规则的灵活配置,针对人工智能平台报警监控作出了多种优化,例如如下优化:1)同一个报警策略配置可以关联多个报警项,多个报警项之间可以是AND或OR的关系;2)优化报警通知的发送策略,使报警信息可以按用户或角色发送,使报警信息及时准确的通知到联系人。
为了便于本领域技术人员更好理解本申请实施例,现在对本申请可能涉及的技术术语或者名词进行解释:
1.报警策略:报警策略的创建,主要是针对特定的报警项或报警项的组合定义报警规则,之后,报警引擎通过读取监控数据和报警策略,实现报警信息的生成。
2.报警信息:人工智能平台部署完成后,会根据系统内设置的报警策略初始化所有报警策略的监控项阈值,当环境中监控项达到阈值后,就会触发监控报警引擎,从而产生相应的报警信息。
3.报警项规则:用于定义报警策略关联的报警规则,报警规则的定义分两种情况:当报警指标类型为单一报警指标时,报警级别同阈值信息绑定,不同阈值对应不同报警级别,并且各阈值条件之间是互斥的;当报警指标类型为组合报警指标时,当前报警策略只定义一个报警级别(一般报警或严重报警)。
图2是根据本申请实施例的数据监控报警方法的流程图,如图2所示,该流程包括如下步骤:
S202,获取目标系统运行过程中用于反映自身运行状态的多个报警项;
S204,获取与多个报警项对应的报警策略,其中,报警策略至少用于指示报警项触发报警的报警条件以及多个报警项中不同报警项用于触发报警的报警逻辑关系,报警策略与报警项为一对多的对应关系;
可以理解的,在获取报警策略需要预先配置好报警策略,图3是本申请一实施例中配置报警策略的流程示意图,如图3所示:
报警策略可以设置多个报警项(报警项a、报警项b)。新增t_mo_alert_item表(报警项表),用于存放报警项的信息,报警项的alert_item_id与报警策略的strategy_id关联,对应关系优化为一对多,实现同一报警策略设置多个报警项。另外,如图3所示,当新增报警策略时,可以先定义报警级别,在图3中该报警级别包括一般报警和严重报警,然后,再去设置报警项,通过以上配置过程,报警策略可以优化为一条报警策略对应多个报警项,当同时满足报警项的报警阈值时,报警策略产生对应的报警信息。
S206,基于报警条件与报警逻辑关系确定是否触发报警。
该数据监控报警方法中,可以在一条报警策略设置多个报警项,同时,可以设置各个报警项之间的报警逻辑关系,然后,在各个报警项满足报警条件的情况下,再通过报警逻辑关系确定是否真的进行报警,具体的,通过获取目标系统运行过程中用于反映自身运行状态的多个报警项,然后,获取与多个报警项对应的报警策略,其中,报警策略至少用于指示报警项触发报警的报警条件以及多个报警项中不同报警项用于触发报警的报警逻辑关系,报警策略与报警项为一对多的对应关系;最后,基于报警条件与报警逻辑关系确定是否触发报警,达到了在同一条报警策略中配置多个报警项,并根据多个报警项的报警条件以及各个报警项之间的逻辑关系进行综合判断,确定是否触发报警的目的,实现了提升人工智能平台的灵活性,准确及时对系统中各项性能指标进行监控的技术效果,进而解决了无法满足对多个报警项同时进行监控的场景,导致人工智能平台的灵活性较差,尤其在训练任务多,资源使用复杂的情况下,无法准确及时监控系统中各项性能指标。
作为一种可选的实施方式,基于报警条件与报警逻辑关系确定是否触发报警,可以通过如下步骤实现:确定多个报警项为目标集合;基于报警逻辑关系确定目标集合中各个元素对应的目标报警逻辑关系;在目标报警项目标逻辑关系为或的关系的情况下,在多个报警项中至少一个报警项满足报警条件的情况下,则触发报警。需要说明的是,上述报警逻辑关系为或的关系的报警项,只要目标集合中其中一个元素满足触发条件时则就会触发报警,例如,目标集合中的元素(即报警项)分别为A报警项、B报警项、C报警项、D报警项,报警条件中为各个报警项的值大于预设的报警阈值,假如A报警项、B报警项、C报警项、D报警项对应的报警阈值分别为20%、30%、40%、50%,而当前目标系统中,A报警项、B报警项、C报警项、D报警项的值分别为10%、20%、30%、60%,则由于D报警项的值大于50%则进行报警;同理,假设A报警项、B报警项、C报警项、D报警项的值分别为10%、20%、30%、40%,则由于各个报警项的值均小于预设的报警阈值,则不触发报警。
作为另一种可选的实施方式,基于报警条件与报警逻辑关系确定是否触发对报警项的报警,包括:确定多个报警项为目标集合;基于报警逻辑关系确定目标集合中各个元素对应的目标报警逻辑关系;在目标报警项目标逻辑关系为和的关系的情况下,在多个报警项中所有报警项均满足报警条件的情况下,则触发报警。需要说明的是,上述报警逻辑关系为和的关系的报警项,只有在目标集合中各个元素均满足触发条件时才会触发报警,例如,目标集合中的元素分别为A报警项、B报警项、C报警项、D报警项,报警条件中为各个报警项的大于预设的报警阈值,假如A报警项、B报警项、C报警项、D报警项对应的报警阈值分别为20%、30%、40%、50%,而当前目标系统中,A报警项、B报警项、C报警项、D报警项的值分别为10%、35%、45%、55%,则由于A报警项小于10%,则不进行报警;同理,假设A报警项、B报警项、C报警项、D报警项的值分别为25%、35%、45%、55%,则由于各个报警项的值均大于报警阈值,则触发报警。容易注意到的是,通过结合报警条件,以及报警逻辑关系,可同时对多个不同的报警项进行综合判断,减少数据处理时间,提升报警处理效率。
另外,还需要说明的是,在本申请相关实施例中,之所以设置或的报警,以及和的报警关系,这是因为各个报警项存在关联关系,例如,对于同一目标集合中的元素,其报警逻辑关系如果是或的关系,则意味着其中报警项(对应的指标)出现问题,则剩余指标极有可能出现问题(或者已经出现问题),因此通过设置的或的报警逻辑关系可以防止漏报,同理,如果在一个目标集合中,各个报警项之间为和的关系,则往往意味着该目标集合中的报警项为一个需要综合考量的整体,即使该整体中某一指标出现问题,则不进行系统的正常运转,通过这种手段同样可以减少误报警的次数。
在本申请一些可选的实施例中,在基于报警条件与报警逻辑关系确定是否触发报警之前,上述方法还包括:对历史时段的报警信息进行分析,确定各个历史报警项之间的因果关系;并将具有因果关系的历史报警项划分至同一集合中,其中,该因果关系是指部分报警项一旦触发报警,则一定会引起另外剩余部分报警项也触发报警。例如,CPU的占用率过高就会导致CPU的温度升高,而CPU的温度升高又会进一步导致CPU的数据处理速度较低(反应迟钝、卡顿等)。可以理解的,上述因果关系包括两方面的含义,第一是各个报警项触发报警的因果关系,同时也隐含了各个报警项触发报警的时间前后顺序。
因此,基于报警条件与报警逻辑关系确定是否触发报警还可以通过如下方式实现:对目标系统运行过程中用于反映自身运行状态的多个报警项进行逻辑分析,确定该多个报警项中存在上述因果关系的报警项,将存在上述因果关系的报警项划分至同一目标集合中;确定该目标集合中满足报警条件的目标元素,然后可基于因果关系所指示的触发报警的时间前后顺序,确定该目标元素之后的元素为待预警元素,对待预警元素进行提前量的报警预告,生成预告信息,该预告信息包括:当前目标元素的报警信息以及预测的各个预警元素触发报警的时间。
容易注意到的是,通过基于触发报警的因果关系对各个报警项进行报警分析,不仅可以对已经触发报警的报警项进行提示,更重要的是,其可以预测在未来一段时间可能出现异常的指标,进而给系统运维人员预留出处理时间,以通过系统运维人员的操作避免异常情况的发生,维持系统运行的稳定性。例如,该目标集合中共有A、B、C、D、E五个元素,该目标集合中满足报警条件的目标元素是C元素,而基于因果关系所指示的触发报警的时间前后顺序,确定该C元素之后的元素为D、E元素,且D、E元素为待预警元素,且基于历史数据可知在C元素触发报警后的第25分钟、第60分钟,D、E元素分别也会由于C元素的触发而引起报警。假如C元素当前触发报警的时刻为18:00,则生成的预告信息可以为:在18:00,C元素触发报警,预计18:25、19:00将分别引起D、E元素的异常。
可以理解的,对于一些特别重要的报警项,例如,中央处理器CPU的温度,则依然可以采用单一配置策略,即报警策略与报警项一一对应。
在一个示例性实施例中,在触发报警之后,可生成针对目标系统的报警信息,然后,推送报警信息至不同的终端。
为了提高报警信息推送的效率,在本申请一些可选的实施例中提供了一种多样化的选择界面,具体的,在该实施例中,推送报警信息至不同的终端,包括:展示选择界面,其中,选择界面包括第一对象集合,以及第二对象集合,其中,第一对象集合包括:基于用户的标识信息标识的多个用户;第二对象集合包括:基于用户所承担的工作角色分组的多个用户群体,其中,每一组用户群体中所承担的工作角色相同;接收目标对象的操作指令,基于操作指令将报警信息推送至第一对象集合中目标对象所选中的第一对象所持有的终端,或者基于操作指令将报警信息推送至第二对象集合中目标对象所选中的第二对象所持有的终端。即一般支持按用户通知和按角色通知两种方式。可选地,当选择“按用户通知”时,列出所有用户列表供选择,此处引用平台内部的用户列表,右侧为已选择用户列表。当选择“按角色通知”时,左侧列出所有角色列表供选择,右侧为已选择角色列表。
图4是本申请实施例中基于报警通知对象的流程示意图,如图4所示,报警通知对象可分为按用户通知和按角色通知,其中,该用户可以包含平台中用户管理模块中的用户,也可以自定义创建外部用户;其中,该角色中包含同一功能角色的多个用户,角色中的成员通过维护成员功能进行添加。另外,还可以通过新增t_mo_alert_notice_member表,用于存放报警信息通知对象id,通过strategy_id与报警策略关联,当新增报警策略时,可以通过选择报警通知对象,完成对报警信息的通知。
需要说明的是,上述第一对象的标识信息,包括但不限于:第一对象的姓名信息、账号信息、工号、座位号、联系方式(如电话、电子邮件地址等。)而上述所承担的工作角色则包括但不限于:测试人员、运维人员、开发人员(前后端)、项目负责人等。
为了便于对报警信息进行区别关系,提高报警处理效率及运维效率,在一个示例性实施例中,推送报警信息至不同的终端,包括两种实现方式,第一种:将所述报警信息直接推送至第三对象所持有的终端,需要说明的是,该第三对象包括:目标系统的系统管理员;第二种:对报警信息进行分析,在确定报警信息为与目标系统的业务相关的报警信息的情况下,将报警信息推送至第四对象所持有的终端,其中,第四对象包括:目标系统的普通用户。即所有报警信息都需要让该系统的系统管理员知悉,而如果将报警信息推送给普通用户的话,则只需要将与该用户相关的报警信息进行推送即可,这种分类化的推送方式,即节省了数据的处理时间,又避免了将无效的报警信息给用户进行推送,减少了对用户的干扰。
为了对不同的报警信息进行区别化的显示,以便于对重要且紧急的报警信息进行及时快速处理,作为一种可选的实施方式,上述报警策略还可以用于指示报警项的报警级别,则在触发报警之后,可确定各个报警项对应的目标报警级别;根据各个目标报警级别确定各个报警项对应的报警方式,其中,报警级别不同,则相应的报警方式不同;基于各个报警项对应的报警方式展示各个报警项对应的内容。例如,上述报警级别包括:重要紧急(不重要紧急),重要不紧急,不重要不紧急,则其对应的报警方式,可以分别为语音呼叫提示,短信提示或者邮件提醒,系统桌面(例如,在电脑上的桌面界面进行弹窗提示)或者通过APP进行信息推送展示。需要说明的是,由于不重要紧急的任务也需要加急处理,因此,其和重要紧急属于同一报警级别,当然可依理解的,本申请的报警级别,以及报警级别对应的报警方式可以根据实际情况进行灵活调整,本申请对此并不做具体限制。
容易注意到的是,本申请相关实施例中通过优化人工智能平台报警策略,达到了同时监控多个报警项及以新增了报警通知对象的功能。通过设置多个报警项,实现了同一个报警策略完成对多个报警项即多个报警指标的监控,以及及时全面的对平台各项指标进行监控的目的;而通过增加报警通知对象功能,能够及时的通知普通用户、运维人员等角色,提高了处理平台的报警故障的效率,减少了人工智能平台故障处理时长,提高人工智能平台的稳健性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种数据监控装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例一种数据监控报警装置,如图5所示,该装置包括:
第一获取模块50,用于获取目标系统运行过程中用于反映自身运行状态的多个报警项;
第二获取模块52,用于获取与多个报警项对应的报警策略,其中,报警策略至少用于指示报警项触发报警的报警条件以及多个报警项中不同报警项用于触发报警的报警逻辑关系,报警策略与报警项为一对多的对应关系;
确定模块54,用于基于报警条件与报警逻辑关系确定是否触发报警。
该数据监控报警装置中,第一获取模块50,用于获取目标系统运行过程中用于反映自身运行状态的多个报警项;第二获取模块52,用于获取与多个报警项对应的报警策略,其中,报警策略至少用于指示报警项触发报警的报警条件以及多个报警项中不同报警项用于触发报警的报警逻辑关系,报警策略与报警项为一对多的对应关系;确定模块54,用于基于报警条件与报警逻辑关系确定是否触发报警,达到了在同一条报警策略中配置多个报警项,并根据多个报警项的报警条件以及各个报警项之间的逻辑关系进行综合判断,确定是否触发报警的目的,实现了提升人工智能平台的灵活性,准确及时对系统中各项性能指标进行监控的技术效果,解决了无法满足对多个报警项同时进行监控的场景,导致人工智能平台的灵活性较差,尤其在训练任务多,资源使用复杂的情况下,无法准确及时监控系统中各项性能指标。
在本申请一示例性实施例中,确定模块,包括:第一确定单元,用于确定多个报警项为目标集合;第二确定单元,用于基于报警逻辑关系确定目标集合中各个元素对应的目标报警逻辑关系;触发单元,用于在目标报警项目标逻辑关系为或的关系的情况下,在多个报警项中至少一个报警项满足报警条件的情况下,则触发报警。
在本申请一示例性实施例中,确定模块,包括:第三确定单元,用于确定多个报警项为目标集合;第四确定单元,用于基于报警逻辑关系确定目标集合中各个元素对应的目标报警逻辑关系;触发单元,用于在目标报警项目标逻辑关系为和的关系的情况下,在多个报警项中所有报警项均满足报警条件的情况下,则触发报警。
在本申请一示例性实施例中,装置还包括:推送模块,用于在触发报警之后,生成针对目标系统的报警信息,推送报警信息至不同的终端。
在本申请一示例性实施例中,推送模块,包括:展示单元,用于展示选择界面,其中,选择界面包括第一对象集合,以及第二对象集合,第一对象集合包括:基于用户的标识信息标识的多个用户;第二对象集合包括:基于用户所承担的工作角色分组的多个用户群体,其中,每一组用户群体中所承担的工作角色相同;接收单元,用于接收目标对象的操作指令,基于操作指令将报警信息推送至第一对象集合中目标对象所选中的第一对象所持有的终端,或者第一推送单元,用于基于操作指令将报警信息推送至第二对象集合中目标对象所选中的第二对象所持有的终端。
在本申请一示例性实施例中,推送模块,包括:第二推送单元,用于将报警信息直接推送至第三对象所持有的终端,其中,第三对象包括:目标系统的系统管理员;分析单元,用于对报警信息进行分析,在确定报警信息为与目标系统的业务相关的报警信息的情况下,将报警信息推送至第四对象所持有的终端,其中,第四对象包括:目标系统的普通用户。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被处理器执行时实现任意一种的数据监控报警方法的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
根据本申请实施例的另一方面,还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现任意一种的数据监控报警方法的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
图6示出了可以用来实施本申请的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如数据监控报警方法。例如,在一些实施例中,数据监控报警方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的数据监控报警方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据监控报警方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据监控报警方法,其特征在于,包括:
获取目标系统运行过程中用于反映自身运行状态的多个报警项;
获取与所述多个报警项对应的报警策略,其中,所述报警策略至少用于指示所述报警项触发报警的报警条件以及多个报警项中不同报警项用于触发报警的报警逻辑关系,所述报警策略与所述报警项为一对多的对应关系;
基于所述报警条件与所述报警逻辑关系确定是否触发报警。
2.根据权利要求1所述的数据监控报警方法,其特征在于,基于所述报警条件与所述报警逻辑关系确定是否触发报警,包括:
确定所述多个报警项为目标集合;
基于所述报警逻辑关系确定所述目标集合中各个元素对应的目标报警逻辑关系;
在所述目标报警项目标逻辑关系为或的关系的情况下,在所述多个报警项中至少一个报警项满足所述报警条件的情况下,则触发报警。
3.根据权利要求1所述的数据监控报警方法,其特征在于,基于所述报警条件与所述报警逻辑关系确定是否触发对所述报警项的报警,包括:
确定所述多个报警项为目标集合;
基于所述报警逻辑关系确定所述目标集合中各个元素对应的目标报警逻辑关系;
在所述目标报警项目标逻辑关系为和的关系的情况下,在所述多个报警项中所有报警项均满足所述报警条件的情况下,则触发报警。
4.根据权利要求2或者权利要求3所述的数据监控报警方法,其特征在于,在触发报警之后,所述方法还包括:
生成针对所述目标系统的报警信息,推送所述报警信息至不同的终端。
5.根据权利要求4所述的数据监控报警方法,其特征在于,推送所述报警信息至不同的终端,包括:
展示选择界面,其中,所述选择界面包括第一对象集合,以及第二对象集合,所述第一对象集合包括:基于用户的标识信息标识的多个用户;所述第二对象集合包括:基于用户所承担的工作角色分组的多个用户群体,其中,每一组用户群体中所承担的工作角色相同;
接收所述目标对象的操作指令,基于所述操作指令将所述报警信息推送至第一对象集合中所述目标对象所选中的第一对象所持有的终端,或者
基于所述操作指令将所述报警信息推送至第二对象集合中所述目标对象所选中的第二对象所持有的终端。
6.根据权利要求4所述的数据监控报警方法,其特征在于,推送所述报警信息至不同的终端,包括:
将所述报警信息直接推送至第三对象所持有的终端,其中,所述第三对象包括:所述目标系统的系统管理员;
对所述报警信息进行分析,在确定所述报警信息为与所述目标系统的业务相关的报警信息的情况下,将所述报警信息推送至第四对象所持有的终端,其中,所述第四对象包括:所述目标系统的普通用户。
7.根据权利要求2所述的数据监控报警方法,其特征在于,所述报警策略还用于指示所述报警项的报警级别,在触发报警之后,所述方法还包括:
确定各个报警项对应的目标报警级别;
根据各个所述目标报警级别确定各个报警项对应的报警方式,其中,所述报警级别不同,则相应的报警方式不同;
基于所述各个报警项对应的报警方式展示所述各个报警项对应的内容。
8.一种数据监控报警装置,其特征在于,包括:
第一获取模块,用于获取目标系统运行过程中用于反映自身运行状态的多个报警项;
第二获取模块,用于获取与所述多个报警项对应的报警策略,其中,所述报警策略至少用于指示所述报警项触发报警的报警条件以及多个报警项中不同报警项用于触发报警的报警逻辑关系,所述报警策略与所述报警项为一对多的对应关系;
确定模块,用于基于所述报警条件与所述报警逻辑关系确定是否触发报警。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310619273.3A CN116719703A (zh) | 2023-05-29 | 2023-05-29 | 数据监控报警方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310619273.3A CN116719703A (zh) | 2023-05-29 | 2023-05-29 | 数据监控报警方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116719703A true CN116719703A (zh) | 2023-09-08 |
Family
ID=87870782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310619273.3A Pending CN116719703A (zh) | 2023-05-29 | 2023-05-29 | 数据监控报警方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719703A (zh) |
-
2023
- 2023-05-29 CN CN202310619273.3A patent/CN116719703A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10303509B2 (en) | Distributed task system based on internet of things and service processing method for distributed tasks based on the same | |
US10687306B2 (en) | Intelligent throttling and notifications management for monitoring and incident management systems | |
CN109257200B (zh) | 大数据平台监控的方法和装置 | |
US20180287925A1 (en) | Assessing user activity using dynamic windowed forecasting on historical usage | |
CN110300067B (zh) | 队列调整方法、装置、设备及计算机可读存储介质 | |
CN109861856B (zh) | 系统故障信息的通知方法、装置、存储介质及计算机设备 | |
CN109766198B (zh) | 流式处理方法、装置、设备及计算机可读存储介质 | |
CN113114504B (zh) | 用于分配资源的方法、装置、设备、介质和产品 | |
CN114201278A (zh) | 任务处理方法、任务处理装置、电子设备以及存储介质 | |
CN114911598A (zh) | 任务调度方法、装置、设备以及存储介质 | |
CN116307546A (zh) | 基于机器人社群的任务智慧决策系统 | |
CN111865720A (zh) | 用于处理请求的方法、装置、设备以及存储介质 | |
CN113468021B (zh) | 监控性能数据的方法、装置、设备以及存储介质 | |
CN114996085A (zh) | 一种基于Prometheus的实时业务监控方法和系统 | |
CN112685256B (zh) | 服务端监控方法、设备和介质 | |
CN113590437A (zh) | 一种告警信息处理方法、装置、设备和介质 | |
CN112965799A (zh) | 任务状态的提示方法、装置、电子设备和介质 | |
CN116719703A (zh) | 数据监控报警方法、装置及电子设备 | |
CN114697247B (zh) | 流媒体系统的故障检测方法、装置、设备和存储介质 | |
CN116112342A (zh) | 告警信息处理方法、装置、电子设备以及存储介质 | |
CN113656239A (zh) | 针对中间件的监控方法、装置及计算机程序产品 | |
CN113504969A (zh) | 容器事件告警的方法、装置及电子设备 | |
CN112925623A (zh) | 任务处理方法、装置、电子设备和介质 | |
CN113835733B (zh) | 云应用更新方法、装置、电子设备以及存储介质 | |
CN113342463B (zh) | 计算机程序模块的容量调整方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |