CN117743080A - 一种多源设备的智能告警管理方法、装置、设备及介质 - Google Patents
一种多源设备的智能告警管理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117743080A CN117743080A CN202311546529.9A CN202311546529A CN117743080A CN 117743080 A CN117743080 A CN 117743080A CN 202311546529 A CN202311546529 A CN 202311546529A CN 117743080 A CN117743080 A CN 117743080A
- Authority
- CN
- China
- Prior art keywords
- alarm
- acquisition
- equipment
- managed
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 93
- 238000012423 maintenance Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 230000015654 memory Effects 0.000 claims description 38
- 230000006835 compression Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 abstract description 14
- 230000000007 visual effect Effects 0.000 abstract description 4
- 230000009471 action Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及设备信息管理技术领域,公开了一种多源设备的智能告警管理方法、装置、设备及介质,方法包括:获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及对应的采集接口;基于被管理设备用户对应的预设采集指标以及采集模板调用采集接口,每间隔第一预设时间段发出一次采集请求,得到各个被管理设备的性能指标数据;根据告警过滤阈值以及性能指标数据,每间隔第一预设时间段生成一条告警信息并显示,本发明通过利用预先注册的统一的采集模板和采集接口,定时从被管理设备获取性能指标数据,提供了清晰直观的告警展示,从而帮助运维人员及时完成告警运维决策,提高了监控不同被管理设备用户设备性能数据的效率。
Description
技术领域
本发明涉及设备信息管理技术领域,具体涉及一种多源设备的智能告警管理方法、装置、设备及介质。
背景技术
不同设备制造厂商(可以理解为被管理的用户)可能采用不同的监控技术标准和通讯协议,在一个统一的监控系统中整合这些设备的数据就变得困难。就比如一些厂商的设备可能使用SNMP(Simple Network Management Protocol),而另外的厂商的设备可能使用RESTful API或者自定义的协议。导致厂商之间缺乏一致的监控数据格式和标准化的接口,导致整合厂商设备性能数据进行监控变得更加困难。
发明内容
有鉴于此,本发明提供了一种多源设备的智能告警管理方法,以解决如何提高监控不同被管理设备用户设备性能数据的效率的问题。
第一方面,本发明提供了一种多源设备的智能告警管理方法,方法包括:获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及所述采集平台服务器对应的采集接口;基于被管理设备用户对应的预设采集指标以及所述采集模板,调用所述采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据;根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示;其中,所述告警信息包括:设备标识、性能指标以及告警状态。
本发明实施例通过预先注册的采集模板以及采集接口,定时通过对应的采集平台服务器采集各个被管理设备的性能指标数据,实现对多个设备的实时监测,根据被管理设备用户对应的预设采集指标以及预设运维标准配置告警过滤阈值,统一处理生成告警信息并显示,告警信息包括设备标识、性能指标以及告警状态,提供了清晰直观的告警展示,从而帮助运维人员及时完成告警运维决策,提高了监控不同被管理设备用户设备性能数据的效率。
在一种可选的实施方式中,所述被管理设备用户对应的采集平台服务器中配置被管理设备用户对应的各个被管理设备的设备模板,以及设备模板对应的权限账号;所述被管理设备用户与采集平台服务器为一对一的关系,所述被管理设备用户与各个被管理设备为一对多的关系;所述采集平台服务器与采集模板为一对一的关系。
本发明实施例通过配置被管理设备用户对应的各个被管理设备的设备模板和权限账号,保证了数据的安全性;并且采集平台服务器与采集模板为一对一的关系,统一管理采集模板不仅能够提高管理效率,还保证数据的一致性;被管理设备用户与采集平台服务器为一对一的关系,避免了被管理设备用户在别的采集服务器上重复配置相关信息。
在一种可选的实施方式中,所述获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及所述采集平台服务器对应的采集接口的步骤之前,还包括:基于管理用户信息登录所述被管理设备用户对应的采集平台服务器;登录成功后,获取所述管理用户信息对应的权限账号,基于所述权限账号获取对应被管理设备的设备模板;将所述被管理设备的设备模板以及所述权限账号封装注册为采集模板。
本发明实施例通过基于管理用户信息登录被管理设备用户对应的采集平台服务器,获取管理用户信息对应的权限账号,并基于该权限账号获取对应被管理设备的设备模板,来实现对用户权限控制;将所述被管理设备的设备模板以及所述权限账号封装注册为采集模板,只有采集模板能直接与具体的管理用户和设备相关联,从而确保只有经过授权的用户才能够获取设备模板和进行后续的操作,提高了系统的安全性。
在一种可选的实施方式中,所述基于被管理设备用户对应的预设采集指标以及所述采集模板,调用所述采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据的步骤之前,还包括:获取被管理设备用户对应的采集指标配置信息;基于所述采集指标配置信息创建预设采集指标。
本发明实施例通过获取被管理设备用户对应的采集指标配置信息,并基于上述的信息创建预设采集指标,实现对采集指标的准确配置,避免了由于某些指标不能被公开获取,而导致产生了不必要的性能数据采集的问题,从而有效提高了数据采集的效率。
在一种可选的实施方式中,所述根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示的步骤之后,还包括:基于根据预设运维标准配置告警查询类型,并基于告警查询类型查询被管理设备用户对应的各个被管理设备;所述告警查询类型,至少包括设备告警级别、设备告警名称、网管告警源、设备告警位置、设备告警网元名称、设备所属集群参数。
本发明实施例通过配置不同的告警查询类型,如设备告警级别、设备告警名称、网管告警源、设备告警位置,帮助针对性地查询某个被管理设备用户对应的各个被管理设备的告警信息。从而有效提高告警查询的精确度和效率,使得运维人员能更快速地定位处理某个设备的告警事件。
在一种可选的实施方式中,所述根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示的步骤之后,还包括:在第二预设时间段内,若多次在间隔第一预设时间段生成的多条告警信息中设备标识、性能指标以及告警状态均相同,则基于预设告警压缩组件将多条告警信息压缩为一条告警信息并显示。
本发明实施例通过在第二预设时间段内对多次生成的相同设备标识、性能指标以及告警状态的告警信息进行压缩,有效减少重复的告警信息,简洁清晰的显示告警信息,从而提高了运维人员对告警信息的处理效率。
在一种可选的实施方式中,所述根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示的步骤之后,还包括:基于预设管理用户值班时间表以及所述告警信息生成告警工单;将所述告警工单传输至管理用户设备。
本发明实施例基于预设的管理用户值班时间表,系统可以根据当前时间和对应值班用户的身份生成相应的告警工单,保证告警工单能够及时地分配给负责的管理用户或运维人员,将告警工单传输至管理用户设备,能确保管理用户能够及时收到告警信息快速处理,从而提高了运维人员对告警信息的处理效率。
第二方面,本发明提供了一种多源设备的智能告警管理装置,所述装置包括:
模板接口获取模块,用于获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及所述采集平台服务器对应的采集接口;
性能数据采集模块,用于基于被管理设备用户对应的预设采集指标以及所述采集模板,调用所述采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据;
告警生成模块,用于根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示;其中,所述告警信息包括:设备标识、性能指标以及告警状态。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的多源设备的智能告警管理方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的多源设备的智能告警管理方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的多源设备的智能告警管理方法的流程示意图;
图2是根据本发明实施例的另一多源设备的智能告警管理方法的流程示意图;
图3是根据本发明实施例的另一多源设备的智能告警管理方法的流程示意图;
图4是根据本发明实施例的另一多源设备的智能告警管理方法的流程示意图;
图5是根据本发明实施例的多源设备的智能告警管理装置的模块组成示意图;
图6是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的一种多源设备的智能告警管理方法,应用于对于企业的网络设备、服务器、存储设备等进行实时监测和告警管理的场景下,针对性能告警、硬件故障告警、网络告警等多种告警情况,利用多源设备的智能告警管理装置,实现对多个设备的实时监测和告警管理,帮助运维人员及时发现设备异常,提高设备性能数据的监控效率。
根据本发明实施例,提供了一种多源设备的智能告警管理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种多源设备的智能告警管理方法,可用于上述的计算机设备,图1是根据本发明实施例的多源设备的智能告警管理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及采集平台服务器对应的采集接口。
需要说明的是,被管理设备用户指的是设备的所有者或制造厂商,例如网络设备、门禁设备等设备的制造厂商。采集平台服务器指的是用于数据采集和管理的服务器,例如某个设备制造厂商的中心服务平台,从制造厂商的各种设备中收集数据。采集模板指的是配置数据采集的模板,包括要采集的数据类别等信息。采集接口指的是用于从设备中获取数据的接口,可以是一组API或者其他访问数据的链接。
其中,被管理设备用户对应的采集平台服务器中配置被管理设备用户对应的各个被管理设备的设备模板,以及设备模板对应的权限账号;被管理设备用户与采集平台服务器为一对一的关系,被管理设备用户与各个被管理设备为一对多的关系;采集平台服务器与采集模板为一对一的关系。
可以理解的是,在采集平台服务器上,被管理设备用户会配置各个被管理设备的设备模板,并且为这些设备模板指定相应的权限账号,来保证数据的安全性和访问控制。每个被管理设备用户在系统中有唯一的关联采集平台服务器,例如,一个网络设备制造厂商可以通过一个采集平台服务器管理许多网络设备,而这些设备都属于该制造厂商的被管理设备用户,并且每个采集平台服务器上的采集模板是唯一的。
本发明实施例通过配置被管理设备用户对应的各个被管理设备的设备模板和权限账号,保证了数据的安全性;并且采集平台服务器与采集模板为一对一的关系,统一管理采集模板不仅能够提高管理效率,还保证数据的一致性;被管理设备用户与采集平台服务器为一对一的关系,避免了被管理设备用户在别的采集服务器上重复配置相关信息。
步骤S102,基于被管理设备用户对应的预设采集指标以及采集模板,调用采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据。
需要说明的是,预设采集指标指的是预先定义好的要从设备中采集的指标或数据类型,例如CPU利用率、内存利用率等。性能指标数据指的是从设备中获取的实际性能数据,例如服务器的CPU利用率为70%、内存利用率为80%等。第一预设时间指的是预设的时间间隔,即设定的采集数据的时间间隔,比如每5分钟采集一次数据。
可以理解的是,间隔一定的时间来采集性能数据能够帮助运维人员及时、高效快速的发现问题并采取措施。通过定期采集数据,还能帮助运维人员更好地了解设备的性能波动情况。
步骤S103,根据预设运维标准配置告警过滤阈值,并基于配置告警阈值以及性能指标数据,每间隔第一预设时间段生成一条告警信息并显示;其中,告警信息包括:设备标识、性能指标以及告警状态。
需要说明的是,告警过滤阈值指的是判断是否生成告警信息的阈值,当性能指标数据低于或者高于某个阈值时触发告警。设备标识指的是设备的唯一标识,性能指标指的是触发告警的具体性能参数,告警状态表示告警的状态,例如触发状态。
具体的,基于配置的告警过滤阈值,对每次获取的性能指标数据进行分析,针对每个预设的性能指标,判断其数值是否超过了设定的阈值;如果高于或低于预设的阈值,会生成一条告警信息。生成的告警信息会被显示,会在监控界面或者通过通知的方式呈现给相关的运维人员或管理员,例如在总览大屏提示系统告警、3D机房大屏提示机房区域告警、IT设备概览大屏提示网络区域告警等。
示例性的,假设第一预设时间为五分钟,则根据预设运维标准配置告警过滤阈值为:CPU利用率不超过85%,内存利用率不超过90%,网络带宽利用率不超过总宽带的70%;在五分钟内,采集到的性能指标数据分别为:CPU利用率为90%,内存利用率为92%,发送比特数占总带宽的60%,接收比特数占总带宽的65%;此时,CPU利用率超过了85%的阈值,因此会生成一条告警信息,表示CPU利用率过高,会影响其他业务运行,设备标识为服务器A,性能指标为CPU利用率为90%,告警状态为触发状态;内存利用率超过了90%的阈值,因此会生成一条告警信息,表示内存利用率过高,可能会影响并发触发的程序任务,甚至导致内存爆满,设备标识为服务器A,性能指标为内存利用率为92%,告警状态为触发状态;发送比特数和接收比特数均未超过总带宽的70%,因此不会生成网络带宽利用率的告警信息。
本发明实施例通过预先注册的采集模板以及采集接口,定时通过对应的采集平台服务器采集各个被管理设备的性能指标数据,实现对多个设备的实时监测,根据被管理设备用户对应的预设采集指标以及预设运维标准配置告警过滤阈值,统一处理生成告警信息并显示,告警信息包括设备标识、性能指标以及告警状态,提供了清晰直观的告警展示,从而帮助运维人员及时完成告警运维决策,提高了监控不同被管理设备用户设备性能数据的效率。
在本实施例中提供了一种多源设备的智能告警管理方法,可用于上述的计算机等,图2是根据本发明实施例的多源设备的智能告警管理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,基于管理用户信息登录被管理设备用户对应的采集平台服务器。
具体的,使用管理用户的身份信息(用户名、密码等)通过API方式向采集平台服务器发送登录请求,在采集平台服务器上进行用户身份验证和授权,确保用户有权限进行数据采集操作,在采集平台服务器上进行用户身份验证和授权,保证了登录的用户有权限进行数据采集操作。
步骤S202,登录成功后,获取管理用户信息对应的权限账号,基于权限账号获取对应被管理设备的设备模板。
具体的,使用登录成功后获得的权限信息或令牌,向采集平台服务器发送请求,获取已经登录的管理用户对应的权限账号,使用权限账号向采集平台服务器发送请求,获取对应被管理设备的设备模板信息,将获取的设备模板信息以及权限账号封装为一个采集模板,这个采集模板将用于后续的数据采集操作。
步骤S203,将被管理设备的设备模板以及权限账号封装注册为采集模板。
可以理解的是,具体的接口地址、权限信息的获取格式、以及封装数据格式等会根据采集平台的实际采集规则而不同,本实施例不以此为限。
本发明实施例通过基于管理用户信息登录被管理设备用户对应的采集平台服务器,获取管理用户信息对应的权限账号,并基于该权限账号获取对应被管理设备的设备模板,来实现对用户权限控制;将被管理设备的设备模板以及权限账号封装注册为采集模板,只有采集模板能直接与具体的管理用户和设备相关联,从而确保只有经过授权的用户才能够获取设备模板和进行后续的操作,提高了系统的安全性。
步骤S204,获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及采集平台服务器对应的采集接口。详细请参见图1所示实施例的步骤S101,在此不再赘述。
步骤S205,获取被管理设备用户对应的采集指标配置信息,基于采集指标配置信息创建预设采集指标。
示例性的,通过与被管理设备相关的管理平台或者配置中心,获取该设备需要采集的指标配置信息,也可以理解为可以被公开采集的公共的指标。例如:collection_config={"cpuUtilization":80,"memoryUtilization":90,},对获取的配置信息进行解析(解析collection_config中的key为“cpuUtilization”),将配置信息转换为系统可识别的数据结构,基于解析后的配置信息,系统可以创建预设的采集指标(cpuUtilization等)。
本发明实施例通过获取被管理设备用户对应的采集指标配置信息,并基于上述的信息创建预设采集指标,实现对采集指标的准确配置,避免了由于某些指标不能被公开获取,而导致产生了不必要的性能数据采集的问题,从而有效提高了数据采集的效率。
步骤S206,基于被管理设备用户对应的预设采集指标以及采集模板,调用采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据。详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S207,根据预设运维标准配置告警过滤阈值,并基于配置告警阈值以及性能指标数据,每间隔第一预设时间段生成一条告警信息并显示;其中,告警信息包括:设备标识、性能指标以及告警状态。详细请参见图1所示实施例的步骤S103,在此不再赘述。
步骤S208,基于预设管理用户值班时间表以及告警信息生成告警工单,将告警工单传输至管理用户设备。
具体的,根据预设的管理用户值班时间表,获取当前时间段内值班的管理用户信息,基于生成的告警信息以及管理用户值班时间表,自动创建相应的告警工单。生成的告警工单可以通过系统内置的通知模块传输至值班的管理用户设备。
示例性的,遍历告警信息问题列表,获取告警信息问题列表中的触发器ID,通过触发器ID获取当前触发的告警信息问题以及事件ID,基于问题告警问题的描述信息,以及告警信息问题的触发时间生成唯一告警编号(编号由平台名称、触发器ID、事件ID以及触发时间组成)将告警编号、扩展信息与管理用户信息组装成为告警工单通过邮件传输至运维人员或管理用户的手机、电脑等设备。
本发明实施例基于预设的管理用户值班时间表,系统可以根据当前时间和对应值班用户的身份生成相应的告警工单,保证告警工单能够及时地分配给负责的管理用户或运维人员,将告警工单传输至管理用户设备,能确保管理用户能够及时收到告警信息快速处理,从而提高了运维人员对告警信息的处理效率。
在本实施例中提供了一种多源设备的智能告警管理方法,可用于上述的计算机等,图3是根据本发明实施例的多源设备的智能告警管理方法的流程图,如图3所示,该流程包括如下步骤:
步骤S301,获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及采集平台服务器对应的采集接口。详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S302,基于被管理设备用户对应的预设采集指标以及采集模板,调用采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据。详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S303,根据预设运维标准配置告警过滤阈值,并基于配置告警阈值以及性能指标数据,每间隔第一预设时间段生成一条告警信息并显示;其中,告警信息包括:设备标识、性能指标以及告警状态。详细请参见图1所示实施例的步骤S103,在此不再赘述。
步骤S304,基于根据预设运维标准配置告警查询类型,并基于告警查询类型查询被管理设备用户对应的各个被管理设备。
其中,告警查询类型,至少包括设备告警级别、设备告警名称、网管告警源、设备告警位置、设备告警网元名称、设备所属集群参数。
需要说明的是,告警级别指的是告警程度,包括严重(一级)、主要(二级)、次要三级)等级别;告警名称指的是具体的告警类型,例如CPU利用率异常、内存利用率异常等;网管告警源指的是告警信息来源的网络管理系统或设备,例如网络管理系统A或设备B;设备告警位置指的是告警发生的具体位置,例如机房的物理位置或者逻辑位置,例如机柜1、交换机区域等;告警网元名称指的是发生告警的具体设备,例如路由器A、交换机B等;所属集群参数,指的是如果设备分布在不同的集群中,可以指明告警所属的集群,例如集群1等。
可以理解的是,生成的告警信息会按照告警查询类型进行展示,运维人员可以根据特定的告警级别、位置、网元名称等条件进行查询,按照顺序进行排列展示,快速筛选和定位出相关的被管理设备,以及时处理和响应各类告警情况。
本发明实施例通过配置不同的告警查询类型,如设备告警级别、设备告警名称、网管告警源、设备告警位置,帮助针对性地查询某个被管理设备用户对应的各个被管理设备的告警信息。从而有效提高告警查询的精确度和效率,使得运维人员能更快速地定位处理某个设备的告警事件。
在本实施例中提供了一种多源设备的智能告警管理方法,可用于上述的计算机等,图4是根据本发明实施例的多源设备的智能告警管理方法的流程图,如图4所示,该流程包括如下步骤:
步骤S401,获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及采集平台服务器对应的采集接口。详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S402,基于被管理设备用户对应的预设采集指标以及采集模板,调用采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据。详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S403,根据预设运维标准配置告警过滤阈值,并基于配置告警阈值以及性能指标数据,每间隔第一预设时间段生成一条告警信息并显示;其中,告警信息包括:设备标识、性能指标以及告警状态。详细请参见图1所示实施例的步骤S103,在此不再赘述。
步骤S404,在第二预设时间段内,若多次在间隔第一预设时间段生成的多条告警信息中设备标识、性能指标以及告警状态均相同,则基于预设告警压缩组件将多条告警信息压缩为一条告警信息并显示。
其中,预设的告警压缩组件指的是一个根据预设压缩条件来处理告警信息压缩的组件,用于根据设定的条件将多条相似的告警信息合并成一条。
具体的,在编写XML格式的预设告警压缩组件时,可以在<rule>标签下定义条件和动作,条件部分中,<expression>标签指定了告警名称为"CPU利用率"或"内存利用率"的条件;在动作部分中,<action>标签定义了基于规则条件的告警压缩动作,其type属性为BatchAlarmDerivate,表示这是一个批量告警派生动作,包括时间范围(TimeRange)、批量告警阀值(TimeRange)、派生告警级别(AlarmLevel)、派生告警清除方式(IsReserve)等参数。根据预设告警压缩组件的规则中定义的动作,压缩多条相似的告警信息为一条告警信息。
示例代码如下:配置条件分析时间范围为:5分钟;批量告警阀值为:2;派生告警级别为:紧急;派生清除时间为:1分钟;派生告警清除方式为:源告警清除;是否打上根子标识为:是;是否保留源告警为:是,系统根据上述条件生成压缩条件代码:
<?xml version="1.0"encoding="GB2312"?>
<rule>
<conditions>
<condition index="1">
<expression type="logic"operator="or">
<expression field="S_PROB_CAUSE"fieldText="告警名称"operator="normallike"value="CPU利用率"add_info=""fieldValueType="1"type="rela"/>
<expression field="S_PROB_CAUSE"fieldText="告警名称"operator="normallike"value="内存利用率"add_info=""fieldValueType="1"type="rela"/>
</expression>
</condition>
</conditions>
<actions>
<action AnalysisType="1"TimeRange="5"AlarmNum="2"AlarmLevel="1"CleanType="1"CleanTime=""AlarmLevel_text="紧急"AnalysisType_text="根据规则条件直接分析"CleanType_text="源告警清除"CheckRoot="1"IsReserve="1"index="1"type="BatchAlarmDerivate">
<content/>
</action>
</actions>
</rule>
本发明实施例通过在第二预设时间段内对多次生成的相同设备标识、性能指标以及告警状态的告警信息进行压缩,有效减少重复的告警信息,简洁清晰的显示告警信息,从而提高了运维人员对告警信息的处理效率。
在本实施例中还提供了一种多源设备的智能告警管理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种多源设备的智能告警管理装置,如图5所示,包括:
模板接口获取模块501,用于获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及采集平台服务器对应的采集接口;
性能数据采集模块502,用于基于被管理设备用户对应的预设采集指标以及采集模板,调用采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据;
告警生成模块503,用于根据预设运维标准配置告警过滤阈值,并基于配置告警阈值以及性能指标数据,每间隔第一预设时间段生成一条告警信息并显示;其中,告警信息包括:设备标识、性能指标以及告警状态。
在一种可选的实施方式中,被管理设备用户对应的采集平台服务器中配置被管理设备用户对应的各个被管理设备的设备模板,以及设备模板对应的权限账号;被管理设备用户与采集平台服务器为一对一的关系,被管理设备用户与各个被管理设备为一对多的关系;采集平台服务器与采集模板为一对一的关系。
在一种可选的实施方式中,多源设备的智能告警管理装置,还包括:模版封装模块,用于基于管理用户信息登录被管理设备用户对应的采集平台服务器;登录成功后,获取管理用户信息对应的权限账号,基于权限账号获取对应被管理设备的设备模板;将被管理设备的设备模板以及权限账号封装注册为采集模板。
在一种可选的实施方式中,多源设备的智能告警管理装置,还包括指标设置模块,用于获取被管理设备用户对应的采集指标配置信息;基于采集指标配置信息创建预设采集指标。
在一种可选的实施方式中,多源设备的智能告警管理装置,还包括告警查询模块,用于基于根据预设运维标准配置告警查询类型,并基于告警查询类型查询被管理设备用户对应的各个被管理设备;告警查询类型,至少包括设备告警级别、设备告警名称、网管告警源、设备告警位置、设备告警网元名称、设备所属集群参数。
在一种可选的实施方式中,多源设备的智能告警管理装置,还包括告警压缩模块,用于在第二预设时间段内,若多次在间隔第一预设时间段生成的多条告警信息中设备标识、性能指标以及告警状态均相同,则基于预设告警压缩组件将多条告警信息压缩为一条告警信息并显示。
在一种可选的实施方式中,多源设备的智能告警管理装置,还包括工单生成模块,用于基于预设管理用户值班时间表以及告警信息生成告警工单;将告警工单传输至管理用户设备。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例通过预先注册的采集模板以及采集接口,定时通过对应的采集平台服务器采集各个被管理设备的性能指标数据,实现对多个设备的实时监测,根据被管理设备用户对应的预设采集指标以及预设运维标准配置告警过滤阈值,统一处理生成告警信息并显示,告警信息包括设备标识、性能指标以及告警状态,提供了清晰直观的告警展示,从而帮助运维人员及时完成告警运维决策,提高了监控不同被管理设备用户设备性能数据的效率。
本实施例中的多源设备的智能告警管理装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图5所示的多源设备的智能告警管理装置。
请参阅图6,图6是本发明可选实施例提供的一种计算机设备的结构示意图,如图6所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,存储器20存储有可由至少一个处理器10执行的指令,以使至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所限定的范围之内。
Claims (10)
1.一种多源设备的智能告警管理方法,其特征在于,所述方法包括:
获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及所述采集平台服务器对应的采集接口;
基于被管理设备用户对应的预设采集指标以及所述采集模板,调用所述采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据;
根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示;其中,所述告警信息包括:设备标识、性能指标以及告警状态。
2.根据权利要求1所述的方法,其特征在于,所述被管理设备用户对应的采集平台服务器中配置被管理设备用户对应的各个被管理设备的设备模板,以及设备模板对应的权限账号;所述被管理设备用户与采集平台服务器为一对一的关系,所述被管理设备用户与各个被管理设备为一对多的关系;所述采集平台服务器与采集模板为一对一的关系。
3.根据权利要求2所述的方法,其特征在于,所述获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及所述采集平台服务器对应的采集接口的步骤之前,还包括:
基于管理用户信息登录所述被管理设备用户对应的采集平台服务器;
登录成功后,获取所述管理用户信息对应的权限账号,基于所述权限账号获取对应被管理设备的设备模板;
将所述被管理设备的设备模板以及所述权限账号封装注册为采集模板。
4.根据权利要求1所述的方法,其特征在于,所述基于被管理设备用户对应的预设采集指标以及所述采集模板,调用所述采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据的步骤之前,还包括:
获取被管理设备用户对应的采集指标配置信息;
基于所述采集指标配置信息创建预设采集指标。
5.根据权利要求1所述的方法,其特征在于,所述根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示的步骤之后,还包括:
基于根据预设运维标准配置告警查询类型,并基于告警查询类型查询被管理设备用户对应的各个被管理设备;
所述告警查询类型,至少包括设备告警级别、设备告警名称、网管告警源、设备告警位置、设备告警网元名称、设备所属集群参数。
6.根据权利要求1所述的方法,其特征在于,所述根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示的步骤之后,还包括:
在第二预设时间段内,若多次在间隔第一预设时间段生成的多条告警信息中设备标识、性能指标以及告警状态均相同,则基于预设告警压缩组件将多条告警信息压缩为一条告警信息并显示。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示的步骤之后,还包括:
基于预设管理用户值班时间表以及所述告警信息生成告警工单;
将所述告警工单传输至管理用户设备。
8.一种多源设备的智能告警管理的装置,其特征在于,所述装置包括:
模板接口获取模块,用于获取被管理设备用户对应的采集平台服务器中预先注册的采集模板以及所述采集平台服务器对应的采集接口;
性能数据采集模块,用于基于被管理设备用户对应的预设采集指标以及所述采集模板,调用所述采集接口,每间隔第一预设时间段向被管理设备用户对应的采集平台服务器发出一次采集请求,得到被管理设备用户对应的各个被管理设备的性能指标数据;
告警生成模块,用于根据预设运维标准配置告警过滤阈值,并基于所述配置告警阈值以及所述性能指标数据,每间隔第一预设时间段生成一条告警信息并显示;其中,所述告警信息包括:设备标识、性能指标以及告警状态。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的多源设备的智能告警管理的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的多源设备的智能告警管理的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311546529.9A CN117743080A (zh) | 2023-11-17 | 2023-11-17 | 一种多源设备的智能告警管理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311546529.9A CN117743080A (zh) | 2023-11-17 | 2023-11-17 | 一种多源设备的智能告警管理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117743080A true CN117743080A (zh) | 2024-03-22 |
Family
ID=90249742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311546529.9A Pending CN117743080A (zh) | 2023-11-17 | 2023-11-17 | 一种多源设备的智能告警管理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743080A (zh) |
-
2023
- 2023-11-17 CN CN202311546529.9A patent/CN117743080A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104699759B (zh) | 一种数据库自动化运行维护方法 | |
US10002526B1 (en) | Internet-of-things systems and methods | |
CN105282772A (zh) | 无线网数通设备监控系统及设备监控方法 | |
CN104025516A (zh) | 远程通信的系统和方法 | |
CN103746840B (zh) | 网络设备软件版本信息自动核对方法和系统 | |
US8935388B2 (en) | Systems and methods of automated event processing | |
CN114244676A (zh) | 一种智能it综合网关系统 | |
CN110929896A (zh) | 一种系统设备的安全分析方法及装置 | |
EP2916616A2 (en) | M2m gateway device and applying method thereof | |
WO2016177054A1 (zh) | 充电设备的管理方法及装置 | |
CN104460610A (zh) | 一种院感设备远程监控管理系统以及监控管理方法 | |
TW201626324A (zh) | 智慧社區之設備與告警事件處理方法及其系統 | |
CN103166779A (zh) | 一种基于移动终端的告警确认和处理方法及装置 | |
CN104967667A (zh) | 一种基于云服务的软件稳定性测试远程监控系统 | |
CN117743080A (zh) | 一种多源设备的智能告警管理方法、装置、设备及介质 | |
CN110633191A (zh) | 实时监控软件系统业务健康度的方法和系统 | |
CN116069540A (zh) | 一种系统软硬件部位运行状态的采集分析处理方法及装置 | |
WO2023279831A1 (zh) | 网管代理以及网元管理平台 | |
KR101358131B1 (ko) | Snmp를 이용한 중앙 집중형 plc 관리 시스템 및 방법 | |
Cisco | Polling-The Event Generation Process | |
Cisco | Polling---The Event Generation Process | |
Cisco | Polling-The Event Generation Process | |
Cisco | Polling---The Event Generation Process | |
Cisco | Polling---The Event Generation Process | |
Cisco | Polling---The Event Generation Process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |