CN113886198A - 一种告警方法、系统、设备以及介质 - Google Patents
一种告警方法、系统、设备以及介质 Download PDFInfo
- Publication number
- CN113886198A CN113886198A CN202111166443.4A CN202111166443A CN113886198A CN 113886198 A CN113886198 A CN 113886198A CN 202111166443 A CN202111166443 A CN 202111166443A CN 113886198 A CN113886198 A CN 113886198A
- Authority
- CN
- China
- Prior art keywords
- alarm
- module
- alarm rule
- rule
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012544 monitoring process Methods 0.000 claims abstract description 86
- 230000004044 response Effects 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
- G06F11/3093—Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种告警方法,包括以下步骤:响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;根据所述配置文件生成告警规则;将所述告警规则通过预设接口发送到数据库;将所述数据库中的告警规则发送到监控告警模块;响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案通过异构芯片基于配置文件反馈参数,无需单独提供该芯片的监控组件,进而无需再将监控组件接入到平台,减少了开发人员的工作量,且增加了用户体验,用户仅需要根据自己的需求对告警规则进行编辑即可,无需过多的操作。
Description
技术领域
本发明涉及告警领域,具体涉及一种告警方法、系统、设备以及存储介质。
背景技术
各芯片厂商提供了Device plugin来将芯片托管在k8s集群内部,能够调度各芯片计算资源。例如寒武纪以及NVIDIA这些芯片厂商在提供相应的芯片之后,为接入入k8s集群监控,西片厂商均自己定制了相关的exporter对接到prometheus,AIStation的开发人员需研究如何部署exporter,如何获取监控指标,然后定制化将其加入到AIStaiton推理平台,进行告警操作。
AIStation推理平台已对异构芯片的接入服务进行抽象化,用户仅通过如下步骤即可在推理集群中发现、使用计算资源,对于AIStation推理平台已经支持的异构芯片,例如:NVIDIA GPU(T4、V100、P100、P4、RTX系列),寒武纪MLU S270,高通AIC100,百度昆仑K200,鲲云CorerainX9,Xilinx FPGA U50,浪潮FPGA F37X,在安装好相应的device plugin之后,用户可以直接使用上述加速卡进行推理服务。
虽然目前用户可以使用这些异构资源,但对异构资源的监控和告警还未实现。鉴于传统技术方法需要开发人员做出大量的工作,需要大量的时间。导致平台推理服务已经使用此类异构卡,但不能进行及时告警的现象,造成用户的困扰。而且不管是AIStation推理平台还是异构芯片厂商,在开发相应的告警工具的时候都有很大的开发量,因而从异构芯片的使用到告警需要大量的时间。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种告警方法,包括以下步骤:
响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
根据所述配置文件生成告警规则;
将所述告警规则通过预设接口发送到数据库;
将所述数据库中的告警规则发送到监控告警模块;
响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步还包括:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
在一些实施例中,将所述数据库中的告警规则发送到监控告警模块,进一步包括:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
在一些实施例中,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息,进一步包括:
响应于所述监控模块采集到的所述异构芯片的当前状态数据符合所述第一预设参数,生成告警消息并发送到所述转发模块;
所述转发模块根据所述第二预设参数转发所述告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步包括:
响应于接收到对告警规则进行修改的指令,根据所述指令对所述数据库中的告警规则进行修改。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种告警系统,包括:
获取模块,配置为响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
规范模块,配置为根据所述配置文件生成告警规则;
第一发送模块,配置为将所述告警规则通过预设接口发送到数据库;
第二发送模块,配置为将所述数据库中的告警规则发送到监控告警模块;
监控告警模块,配置为响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
在一些实施例中,第一发送模块还配置为:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
在一些实施例中,第二发送模块还配置为:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
在一些实施例中,监控告警模块还配置为:
响应于所述监控模块采集到的所述异构芯片的当前状态数据符合所述第一预设参数,生成告警消息并发送到所述转发模块;
所述转发模块根据所述第二预设参数转发所述告警消息。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行以下步骤:
响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
根据所述配置文件生成告警规则;
将所述告警规则通过预设接口发送到数据库;
将所述数据库中的告警规则发送到监控告警模块;
响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步还包括:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
在一些实施例中,将所述数据库中的告警规则发送到监控告警模块,进一步包括:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
在一些实施例中,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息,进一步包括:
响应于所述监控模块采集到的所述异构芯片的当前状态数据符合所述第一预设参数,生成告警消息并发送到所述转发模块;
所述转发模块根据所述第二预设参数转发所述告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步包括:
响应于接收到对告警规则进行修改的指令,根据所述指令对所述数据库中的告警规则进行修改。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行以下步骤:
响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
根据所述配置文件生成告警规则;
将所述告警规则通过预设接口发送到数据库;
将所述数据库中的告警规则发送到监控告警模块;
响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步还包括:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
在一些实施例中,将所述数据库中的告警规则发送到监控告警模块,进一步包括:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
在一些实施例中,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息,进一步包括:
响应于所述监控模块采集到的所述异构芯片的当前状态数据符合所述第一预设参数,生成告警消息并发送到所述转发模块;
所述转发模块根据所述第二预设参数转发所述告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步包括:
响应于接收到对告警规则进行修改的指令,根据所述指令对所述数据库中的告警规则进行修改。
本发明具有以下有益技术效果之一:本发明提出的方案通过异构芯片基于配置文件反馈参数,无需单独提供该芯片的监控组件,进而无需再将监控组件接入到平台,减少了开发人员的工作量,且增加了用户体验,用户仅需要根据自己的需求对告警规则进行编辑即可,无需过多的操作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的实施例提供的告警方法的流程示意图;
图2为本发明的实施例提供的配置文件的一个实例;
图3为本发明的实施例提供的告警方法的流程框图;
图4为本发明的实施例提供的告警系统的结构示意图;
图5为本发明的实施例提供的计算机设备的结构示意图;
图6为本发明的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
在本发明的实施例中,Prometheus是一个开源的服务监控系统和时间序列数据库,用于采集集群信息并储存部分时序数据。prometheus可与多种监控组件对接,用以汇集多种监控数据。Alertmanagr是一个独立的告警模块,接收Prometheus等客户端发来的警报,之后通过分组、删除重复等处理,并将它们通过路由发送给正确的接收器;告警方式可以按照不同的规则发送给不同的模块负责人,Alertmanager支持Email、Slack等告警方式,也可以通过webhook接入钉钉等IM工具。Prometheus Sever指Prometheus服务器,负责拉取或接收metric。
Exporter向prometheus提供监控数据的程序或者组件均可以成为exporter。
CRD,CustomResourceDefinition。在Kubernetes中一切都可视为资源,Kubernetes 1.7之后增加了对CRD自定义资源二次开发能力来扩展Kubernetes API,通过CRD我们可以向Kubernetes API中增加新资源类型,而不需要修改Kubernetes源码来创建自定义的API server,该功能大大提高了Kubernetes的扩展能力。
根据本发明的一个方面,本发明的实施例提出一种告警方法,如图1所示,其可以包括步骤:
S1,响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
S2,根据所述配置文件生成告警规则;
S3,将所述告警规则通过预设接口发送到数据库;
S4,将所述数据库中的告警规则发送到监控告警模块;
S5,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
本发明提出的方案通过异构芯片基于配置文件反馈参数,无需单独提供该芯片的监控组件,进而无需再将监控组件接入到平台,减少了开发人员的工作量,且增加了用户体验,用户仅需要根据自己的需求对告警规则进行编辑即可,无需过多的操作。
在一些实施例中,步骤S1中,响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件,具体的,异构芯片的监控是需要定义相应的监控指标,因此创建一个告警至少需要配置几种参数,例如监控查询表达式、告警描述、告警阈值、发送间隔等等。
在一些实施例中,配置文件中可以设置监控指标名称、告警描述、单位、可区分卡的label值、告警等级(可选)、阈值(与等级对应)、运算符(与等级对应,可选)、发送间隔(与等级对应,可选)、持续时间(与等级对应,可选)。这样,芯片提供厂商根据该芯片的特性将配置文件中对应的参数进行填写,当芯片插入到平台后,即可获取到芯片的配置文件进而生成告警规则。
例如,如图2示出了根据数据采集的需求以及告警需求,设计出的规范化配置文件的样例,在该样例中,cmd表示芯片参数查询命令行;dependences表示命令行依赖库;name表示监控指标名称;help表示监控指标描述(告警描述);unit表示单位;valueCMD表示获取此监控指标的命令行指令;labels表示描述卡的标签值;threshold表示告警阈值;level表示告警等级;duration表示持续时间,即超过阈值多长时间才会发出告警;Repeat_interval表示告警信息的发送间隔;Operator表示操作符,>=,<=等,用以生成告警表达式。
在一些实施例中,步骤S2中,根据所述配置文件生成告警规则,具体的,如图3所示,可以在异构芯片接入模块中部署代理服务以对配置文件进行规范化或者资源对象的解析,此服务可直接对接配置文件或者对接通过规范化配置文件在k8s集群中创建的资源对象(如comfigmap资源),然后解析出告警所需要的参数如告警等级,告警间隔等,并根据阈值、指标名称、label值和运算符等自动生成告警规则查询语句,如sum(dcgm_gpu_temp)by(uuid,hostname,device,gpu)>=90,并生成告警规则描述hostname master1,uuid GPU-4343421-049343-0000,device nvidia1,gpu1,GPU temperature>=90℃。最后将自动生成的告警规则推送到平台(例如AIStation推理平台)中告警规则检测接口。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步还包括:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
具体的,当接收到根据新插入的异构芯片的配置文件生成的告警规则后,如果当前数据库中存在该异构芯片对应的告警规则,则需要将两者进行对比,如果新生成的告警规则多于数据库中该芯片当前的告警规则,则需要利用新生成的告警规则对数据库中的告警规则进行更新,例如可以将数据库中已存在的告警规则进行删除,然后重新将新生成的告警规则导入到数据库中。
这样做的好处是不会向推理平台重复输入告警规则,而且重试操作会尽可能全面的添加告警,尽可能减少造成告警规则的丢失。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步包括:
响应于接收到对告警规则进行修改的指令,根据所述指令对所述数据库中的告警规则进行修改。
具体的,当生成告警规则后,可以对生成的告警规则进行修改。由于初始的告警规则更加芯片厂商提供的配置文件中的参数生成的,在实际使用过程中,可以根据实际需求对生成的告警规则进行修改。
在一些实施例中,将所述数据库中的告警规则发送到监控告警模块,进一步包括:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
在一些实施例中,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息,进一步包括:
响应于所述监控模块采集到的所述异构芯片的当前状态数据符合所述第一预设参数,生成告警消息并发送到所述转发模块;
所述转发模块根据所述第二预设参数转发所述告警消息。
具体的,可以利用Prometheus(监控模块)和Alertmanagr(转发模块)采集芯片实际运行过程中的数据并结合告警规则生成告警消息。其中,如图3所示,Prometheus(监控模块)可以利用各种Exporter获取提供监控数据。
在一些实施例中,可以利用平台的告警模块基于生成的告警规则创建CRD资源,然后将CRD资源推送到Prometheus(监控模块)和Alertmanagr(转发模块)中。由于Prometheus(监控模块)和Alertmanagr(转发模块)具有不同的功能,因此若同一个告警规则中包含不同参数,可能会将不同的参数分别推送到Prometheus(监控模块)和Alertmanagr(转发模块)中。
例如,对于包括持续时长和发送间隔的告警规则,则可以将持续时长推送到Prometheus(监控模块)中,这样当其根据持续时长判断采集到的实时数据符合告警规则,则生成告警消息,然后将告警消息发送给Alertmanagr(转发模块),Alertmanagr(转发模块)则根据发送间隔决定反馈该告警消息的时长,当满足该时长后则将该告警消息反馈到平台的告警模块,最后通过平台的告警模块配置的反馈方式和反馈人进行反馈。
这样,通过Prometheus和Alertmanager组件来创建一个告警的通路,使得异构芯片告警快速接入AIStation推理平台。
本发明提出的方案通过异构芯片基于配置文件反馈参数,无需单独提供该芯片的监控组件,进而无需再将监控组件接入到平台,减少了开发人员的工作量,且增加了用户体验,用户仅需要根据自己的需求对告警规则进行编辑即可,无需过多的操作。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种告警系统400,如图4所示,包括:
获取模块401,配置为响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
规范模块402,配置为根据所述配置文件生成告警规则;
第一发送模块403,配置为将所述告警规则通过预设接口发送到数据库;
第二发送模块404,配置为将所述数据库中的告警规则发送到监控告警模块;
监控告警模块405,配置为响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
在一些实施例中,第一发送模块403还配置为:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
在一些实施例中,第二发送模块404还配置为:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
在一些实施例中,监控告警模块405还配置为:
响应于所述监控模块采集到的所述异构芯片的当前状态数据符合所述第一预设参数,生成告警消息并发送到所述转发模块;
所述转发模块根据所述第二预设参数转发所述告警消息。
在一些实施例中,还包括更新模块,配置为:
响应于接收到对告警规则进行修改的指令,根据所述指令对所述数据库中的告警规则进行修改。
本发明提出的方案通过异构芯片基于配置文件反馈参数,无需单独提供该芯片的监控组件,进而无需再将监控组件接入到平台,减少了开发人员的工作量,且增加了用户体验,用户仅需要根据自己的需求对告警规则进行编辑即可,无需过多的操作。
基于同一发明构思,根据本发明的另一个方面,如图5所示,本发明的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行以下步骤:
S1,响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
S2,根据所述配置文件生成告警规则;
S3,将所述告警规则通过预设接口发送到数据库;
S4,将所述数据库中的告警规则发送到监控告警模块;
S5,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步还包括:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
在一些实施例中,将所述数据库中的告警规则发送到监控告警模块,进一步包括:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
在一些实施例中,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息,进一步包括:
响应于所述监控模块采集到的所述异构芯片的当前状态数据符合所述第一预设参数,生成告警消息并发送到所述转发模块;
所述转发模块根据所述第二预设参数转发所述告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步包括:
响应于接收到对告警规则进行修改的指令,根据所述指令对所述数据库中的告警规则进行修改。
基于同一发明构思,根据本发明的另一个方面,如图6所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行以下步骤:
S1,响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
S2,根据所述配置文件生成告警规则;
S3,将所述告警规则通过预设接口发送到数据库;
S4,将所述数据库中的告警规则发送到监控告警模块;
S5,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步还包括:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
在一些实施例中,将所述数据库中的告警规则发送到监控告警模块,进一步包括:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
在一些实施例中,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息,进一步包括:
响应于所述监控模块采集到的所述异构芯片的当前状态数据符合所述第一预设参数,生成告警消息并发送到所述转发模块;
所述转发模块根据所述第二预设参数转发所述告警消息。
在一些实施例中,将所述告警规则通过预设接口发送到数据库,进一步包括:
响应于接收到对告警规则进行修改的指令,根据所述指令对所述数据库中的告警规则进行修改。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种告警方法,其特征在于,包括以下步骤:
响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
根据所述配置文件生成告警规则;
将所述告警规则通过预设接口发送到数据库;
将所述数据库中的告警规则发送到监控告警模块;
响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
2.如权利要求1所述的方法,其特征在于,将所述告警规则通过预设接口发送到数据库,进一步还包括:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
3.如权利要求1所述的方法,其特征在于,将所述数据库中的告警规则发送到监控告警模块,进一步包括:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
4.如权利要求3所述的方法,其特征在于,响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息,进一步包括:
响应于所述监控模块采集到的所述异构芯片的当前状态数据符合所述第一预设参数,生成告警消息并发送到所述转发模块;
所述转发模块根据所述第二预设参数转发所述告警消息。
5.如权利要求1所述的方法,其特征在于,将所述告警规则通过预设接口发送到数据库,进一步包括:
响应于接收到对告警规则进行修改的指令,根据所述指令对所述数据库中的告警规则进行修改。
6.一种告警系统,其特征在于,包括:
获取模块,配置为响应于检测到异构芯片的接入,获取所述异构芯片提供的配置文件;
规范模块,配置为根据所述配置文件生成告警规则;
第一发送模块,配置为将所述告警规则通过预设接口发送到数据库;
第二发送模块,配置为将所述数据库中的告警规则发送到监控告警模块;
监控告警模块,配置为响应于所述监控告警模块采集到的所述异构芯片的当前状态数据符合所述告警规则,生成并反馈告警消息。
7.如权利要求6所述的系统,其特征在于,第一发送模块还配置为:
获取数据库中与所述异构芯片的类型对应的已存在的告警规则;
对比所述已存在的告警规则与根据所述配置文件生成的告警规则;
响应于根据所述配置文件生成的告警规则与所述已存在的告警规则不同,利用根据所述配置文件生成的告警规则对所述数据库中已存在的告警规则进行更新。
8.如权利要求6所述的系统,其特征在于,第二发送模块还配置为:
响应于所述告警规则包括第一预设参数和第二预设参数,将所述第一预设参数发送到监控模块,将所述第二预设参数发送到转发模块。
9.一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-5任意一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-5任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111166443.4A CN113886198A (zh) | 2021-09-30 | 2021-09-30 | 一种告警方法、系统、设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111166443.4A CN113886198A (zh) | 2021-09-30 | 2021-09-30 | 一种告警方法、系统、设备以及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113886198A true CN113886198A (zh) | 2022-01-04 |
Family
ID=79005283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111166443.4A Withdrawn CN113886198A (zh) | 2021-09-30 | 2021-09-30 | 一种告警方法、系统、设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886198A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114647549A (zh) * | 2022-03-10 | 2022-06-21 | 苏州浪潮智能科技有限公司 | 异构加速芯片的管理方法、装置、设备和介质 |
CN115473785A (zh) * | 2022-05-30 | 2022-12-13 | 北京罗克维尔斯科技有限公司 | 告警信息处理方法、装置、电子设备及存储介质 |
TWI814587B (zh) * | 2022-09-22 | 2023-09-01 | 台灣大哥大股份有限公司 | 告警系統及其方法 |
CN114647549B (zh) * | 2022-03-10 | 2024-07-05 | 苏州浪潮智能科技有限公司 | 异构加速芯片的管理方法、装置、设备和介质 |
-
2021
- 2021-09-30 CN CN202111166443.4A patent/CN113886198A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114647549A (zh) * | 2022-03-10 | 2022-06-21 | 苏州浪潮智能科技有限公司 | 异构加速芯片的管理方法、装置、设备和介质 |
CN114647549B (zh) * | 2022-03-10 | 2024-07-05 | 苏州浪潮智能科技有限公司 | 异构加速芯片的管理方法、装置、设备和介质 |
CN115473785A (zh) * | 2022-05-30 | 2022-12-13 | 北京罗克维尔斯科技有限公司 | 告警信息处理方法、装置、电子设备及存储介质 |
CN115473785B (zh) * | 2022-05-30 | 2024-02-27 | 北京罗克维尔斯科技有限公司 | 告警信息处理方法、装置、电子设备及存储介质 |
TWI814587B (zh) * | 2022-09-22 | 2023-09-01 | 台灣大哥大股份有限公司 | 告警系統及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210405629A1 (en) | System and method for interoperable communication of an automation system component with multiple information sources | |
CN101061688B (zh) | 基于简单网络管理协议的网络管理设备和方法 | |
US9246777B2 (en) | Computer program and monitoring apparatus | |
CN113886198A (zh) | 一种告警方法、系统、设备以及介质 | |
US8498635B2 (en) | Dynamic fault analysis for a centrally managed network element in a telecommunications system | |
CN107908488B (zh) | 消息请求接口交互方法、装置、计算机设备及存储介质 | |
CN110784374A (zh) | 业务系统运行状态的监控方法、装置、设备和系统 | |
CN106790131B (zh) | 一种参数修改方法、装置及分布式平台 | |
CN114968754A (zh) | 一种应用程序接口api测试方法以及装置 | |
US9158639B2 (en) | Method and apparatus for correlating input and output messages of system under test | |
CN110764894A (zh) | 一种定时任务管理方法、装置、设备及存储介质 | |
WO2018202440A1 (en) | Data transmission method and apparatus | |
CN114172785B (zh) | 告警信息处理方法、装置、设备和存储介质 | |
CN115168031A (zh) | 一种雾计算系统、方法、电子设备及存储介质 | |
CN114840213A (zh) | 一种服务实例配置管理方法和装置 | |
CN114726789A (zh) | 流量管理、配置流量管理策略的方法、装置、设备及介质 | |
US11893383B2 (en) | Configuration properties management for software | |
CN110309028B (zh) | 监控信息获取方法、服务监控方法、装置及系统 | |
CN115878860A (zh) | 一种菜单的生成方法、装置、服务器设备及介质 | |
WO2016165468A1 (zh) | 一种管理应用系统的方法、装置和系统 | |
US20110055286A1 (en) | Method of providing element dossiers that include elements from nonadjacent lifecycle phases | |
CN114003480A (zh) | 一种app启动时长监控系统及方法 | |
CN112051985B (zh) | 事件触发方法、装置、电子设备及可读存储介质 | |
CN118276866A (zh) | 编译配置方法、编译方法、电子设备及可读存储介质 | |
US20230336410A1 (en) | Method and apparatus for configuring node |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220104 |