CN109462494A - 云服务器监控报警实时智能分析诊断方法及系统 - Google Patents
云服务器监控报警实时智能分析诊断方法及系统 Download PDFInfo
- Publication number
- CN109462494A CN109462494A CN201811150783.6A CN201811150783A CN109462494A CN 109462494 A CN109462494 A CN 109462494A CN 201811150783 A CN201811150783 A CN 201811150783A CN 109462494 A CN109462494 A CN 109462494A
- Authority
- CN
- China
- Prior art keywords
- cloud server
- server
- real
- cloud
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/02—Standardisation; Integration
- H04L41/0246—Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
- H04L41/026—Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using e-messaging for transporting management information, e.g. email, instant messaging or chat
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了云服务器监控报警实时智能分析诊断方法及系统,该方法包括以下步骤:步骤S1:接收云服务器产生报警后的报警信息;步骤S2:根据报警信息获取产生报警的云服务器的实时性能数据;步骤S3:根据报警信息获取产生报警的云服务器的历史数据,并进行逻辑运算;步骤S4:将步骤S3中得到的数据与步骤S2中报警信息对应的实时性能数据进行分析,根据分析结果自动处置,最终得出诊断报告。通过实施本发明,运维方式得到了本质的变化,由原来的人工7*24小时值班加实时查看监控系统手动处置转变为实时,自动、智能的处置,运维过程中人为的出错率也得到极大的降低,同时提升了效率。
Description
技术领域
本发明涉及运维自动化及人工智能技术,尤其涉及一种云服务器监控报警实时智能分析诊断方法及系统。
背景技术
图1是现有阿里云服务器监控结构示意图,请参见图1,目前阿里云监控能实现阿里云服务器(Elastic Compute Service,ECS)的监控报警,可通过发送短信和邮件通知管理员。阿里云监控能够监控到阿里云服务器某个系统资源的使用率过高从而产生报警,如:CPU使用率超过80%,阿里云监控却无法诊断是什么原因造成CPU使用率过高,而要找出原因就需要管理员立即登陆阿里云服务器查看各项性能健康数据并进行分析得出结论,这种重复性工作较为繁琐,效率低,出错率也高。
发明内容
本发明要解决的技术问题在于,针对现有技术每次在收到阿里云监控报警信息后,需要管理员立即登陆阿里云服务器查看各项性能健康数据并进行分析得出原因的重复性工作的缺陷,提供云服务器监控报警实时智能分析诊断方法及系统。
本发明解决其技术问题所采用的技术方案是:构造云服务器监控报警实时智能分析诊断方法,所述方法包括以下步骤:
步骤S1:接收云服务器产生报警后的报警信息;
步骤S2:根据所述报警信息获取产生报警的所述云服务器的实时性能数据;
步骤S3:根据所述报警信息获取产生报警的所述云服务器的历史数据,并进行逻辑运算;
步骤S4:将所述步骤S3中得到的数据与所述步骤S2中所述报警信息对应的所述实时性能数据进行分析,根据分析结果自动处置,最终得出诊断报告。
优选地,在本发明所述的云服务器监控报警实时智能分析诊断方法中,所述步骤S1进一步包括:
接收云服务器产生报警后通过云消息服务传递过来的报警信息;
所述报警信息包括:服务器IP和/或服务器名称以及报警指标;
所述报警指标包括:内存使用率、CPU使用率、服务器最近第一时间周期的负载、服务器最近第二时间周期的负载以及服务器最近第三时间周期的负载中的至少一个;其中,所述第一时间周期、所述第二时间周期以及所述第三时间周期逐级递增。
优选地,在本发明所述的云服务器监控报警实时智能分析诊断方法中,所述步骤S2进一步包括:
根据所述报警信息中的服务器IP,自动登陆到产生报警的所述云服务器上,获取所述云服务器上的实时性能数据,并保存至本地;
所述实时性能数据包括:服务器最近第一时间周期的负载、服务器最近第二时间周期的负载、服务器最近第三时间周期的负载、服务器的总CPU使用率、服务器用户空间的CPU使用率、服务器系统空间的CPU使用率、服务器的总内存使用率、服务器用户空间的内存使用率、服务器系统空间的内存使用率、服务器目前正在运行的用户应用以及各应用占用的CPU、内存、负载、及服务器操作系统本身的应用以及各应用占用的CPU、内存、负载中的至少一个。
优选地,在本发明所述的云服务器监控报警实时智能分析诊断方法中,所述步骤S3进一步包括:
根据所述报警信息中的报警指标从云监控中获取相应于所述报警指标的历史数据,并对所述历史数据取第N百分位数,得出五个数据,对所述五个数据进行方差计算得到一个数值;其中,1≤N≤99。
优选地,在本发明所述的云服务器监控报警实时智能分析诊断方法中,所述步骤S4进一步包括:
步骤S4-1:从所述步骤S2得到的数据中取出所述报警信息的报警指标对应的所述实时性能数据,并与所述步骤S3得到的数据进行对比分析,若两个数据相差在预定范围内,则确认云监控上配置的报警阈值不合理,将所述云监控上配置的阈值修改为所述步骤S3得到的数据;若两个数据相差超过预定范围,则确认所述报警指标对应的所述实时性能数据产生异常。
优选地,在本发明所述的云服务器监控报警实时智能分析诊断方法中,若所述报警信息的报警指标为内存使用率或CPU使用率,则继续执行步骤S4-2:
再次执行步骤S3,根据所述报警信息中的报警指标,从产生报警的所述云服务器中得到所述云服务器用户空间的内存或CPU使用率的历史数据和所述云服务器系统空间的内存或CPU使用率的历史数据,并进行逻辑运算,再从所述步骤S2得到的实时性能数据中取出的所述云服务器用户空间的内存或CPU使用率和所述云服务器系统空间的内存或CPU使用率,分别进行对比分析,若得出所述云服务器系统空间的内存或CPU使用率过高从而产生报警,则发送消息至管理员;若得出所述云服务器用户空间的内存或CPU使用率过高从而产生报警,则再次执行所述步骤S3,得到所述云服务器目前正在运行的用户应用以及各应用占用的CPU或内存的历史数据,并与所述步骤S2中得到的所述云服务器目前正在运行的用户应用以及各应用占用的CPU或内存进行对比,最终得到占用CPU或内存过高的应用,并重启所述应用,最后生成诊断报告发送至管理员。
优选地,在本发明所述的云服务器监控报警实时智能分析诊断方法中,若所述报警信息的报警指标为服务器最近第一时间周期的负载或服务器最近第二时间周期的负载或服务器最近第三时间周期的负载,则继续执行步骤S4-3:
再次执行步骤S3,根据所述报警信息中的报警指标,从产生报警的所述云服务器中得到所述云服务器目前正在运行的用户应用以及各应用占用的负载的历史数据和所述云服务器系统本身的应用以及各应用占用的负载的历史数据,并进行逻辑运算,并与所述步骤S2中得到的所述云服务器目前正在运行的用户应用以及各应用占用的负载和所述云服务器系统本身的应用以及各应用占用的负载进行对比,得出是所述云服务器目前正在运行的用户应用以及各应用造成的负载过高还是所述云服务器系统本身的应用以及各应用造成的负载过高,最后生成诊断报告发送至管理员。
本发明还构造了云服务器监控报警实时智能分析诊断系统,所述智能分析诊断系统与云服务器、云监控以及云消息服务配合使用,所述智能分析诊断系统包括:
数据获取模块,用于接收云服务器产生报警后的报警信息,根据所述报警信息获取产生报警的所述云服务器的实时性能数据,及用于根据所述报警信息获取产生报警的所述云服务器的历史数据;
分析处理模块,用于对所述历史数据进行逻辑运算,并与所述报警信息对应的实时性能数据进行分析,根据分析结果自动处置,最终得出诊断报告。
优选地,在本发明所述的云服务器监控报警实时智能分析诊断系统中,所述数据获取模块包括:
接收模块,用于接收云服务器产生报警后通过云消息服务传递过来的报警信息;
提取模块,用于根据所述报警信息中的服务器IP,自动登陆到产生报警的所述云服务器上,获取所述云服务器上的实时性能数据;根据所述报警信息中的报警指标从所述云监控中获取相应于所述报警指标的历史数据;根据所述报警信息中的报警指标从所述实时性能数据中获取对应的实时性能数据。
优选地,在本发明所述的云服务器监控报警实时智能分析诊断系统中,所述分析处理模块进一步包括:
用于对所述历史数据取第N百分位数,得出五个数据,对所述五个数据进行方差计算得到一个数值,所述数值与所述报警指标对应的实时性能数据进行对比分析,若两个数据相差在预定范围以内,则确认云监控上配置的报警阈值不合理,将所述云监控上配置的阈值修改为所述数值;若两个数据相差超过预定范围,则确认所述报警指标对应的所述实时性能数据产生异常;其中,1≤N≤99。
通过实施本发明具有以下有益效果:
本发明能实时获取云服务器的报警信息,然后实时的获取云服务器的各项性能数据并进行智能分析得出诊断报告以及处理建议,并通过短信邮件发送给管理员。通过本发明,运维方式得到了本质的变化,由原来的人工7*24小时值班加实时查看监控系统手动处置转变为实时,自动、智能的处置,运维人员的工作也由原来的日常运维变更为运维方法论的输出及智能分析诊断工具的开发输出,单个运维人员能运维的机器数量也从原来的纯手动运维的几十台变更为成百上千台,运维过程中人为的出错率也得到极大的降低,同时提升了效率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是现有云服务器监控结构示意图;
图2是本发明云服务器监控报警实时智能分析诊断方法流程图;
图3是本发明云服务器监控报警实时智能分析诊断系统与云服务器、云监控以及云消息服务配合使用的结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
图2是本发明云服务器监控报警实时智能分析诊断方法流程图,请参见图2,本发明构造了云服务器监控报警实时智能分析诊断方法,该方法包括以下步骤:
步骤S1:接收云服务器产生报警后的报警信息;
具体地,步骤S1进一步包括:接收云服务器产生报警后通过云消息服务传递过来的报警信息。
报警信息包括:服务器IP和/或服务器名称以及报警指标;该报警指标包括:内存使用率、CPU使用率、服务器最近第一时间周期的负载、服务器最近第二时间周期的负载以及服务器最近第三时间周期的负载中的至少一个;其中,第一时间周期、第二时间周期以及第三时间周期逐级递增。在本实施例中,第一时间周期优选为1分钟,第二时间周期优选为5分钟,第三时间周期优选为15分钟。在其他实施例中,可根据实际服务器反馈设置相应的周期。
步骤S2:根据报警信息获取产生报警的云服务器的实时性能数据;
具体地,步骤S2进一步包括:根据报警信息中的服务器IP,自动登陆到产生报警的云服务器上,获取云服务器上的实时性能数据,并保存至本地。保存至本地可用于管理人员后续查看性能数据记录。
实时性能数据包括:服务器最近第一时间周期的负载、服务器最近第二时间周期的负载、服务器最近第三时间周期的负载、服务器的总CPU使用率、服务器用户空间的CPU使用率、服务器系统空间的CPU使用率、服务器的总内存使用率、服务器用户空间的内存使用率、服务器系统空间的内存使用率、服务器目前正在运行的用户应用以及各应用占用的CPU、内存、负载、及服务器操作系统本身的应用以及各应用占用的CPU、内存、负载中的至少一个。在本实施例中,第一时间周期优选为1分钟,第二时间周期优选为5分钟,第三时间周期优选为15分钟。在其他实施例中,可根据实际服务器反馈设置相应的周期。
步骤S3:根据报警信息获取产生报警的云服务器的历史数据,并进行逻辑运算;
具体地,步骤S3进一步包括:根据报警信息中的报警指标从云监控中获取相应于报警指标的历史数据,并对历史数据取第N百分位数,得出五个数据,对五个数据进行方差计算得到一个数值;其中,1≤N≤99。在本实施例中,优选地设置第N百分位数为第95百分位数。在其他实施中,可设置第N百分位数在第1百分位数和第99百分位数之间。
步骤S4:将步骤S3中得到的数据与步骤S2中报警信息对应的实时性能数据进行分析,根据分析结果自动处置,最终得出诊断报告。
具体地,步骤S4进一步包括:步骤S4-1:从步骤S2得到的数据中取出报警信息的报警指标对应的实时性能数据,并与步骤S3得到的数据进行对比分析,若两个数据相差在预定范围内,则确认云监控上配置的报警阈值不合理,将云监控上配置的阈值修改为步骤S3得到的数据;若两个数据相差超过预定范围,则确认报警指标对应的实时性能数据产生异常。
在步骤S4-1的基础上,若报警信息的报警指标为内存使用率或CPU使用率,则继续执行步骤S4-2:再次执行步骤S3,根据报警信息中的报警指标,从产生报警的云服务器中得到云服务器用户空间的内存或CPU使用率的历史数据和云服务器系统空间的内存或CPU使用率的历史数据,并进行逻辑运算,再从步骤S2得到的实时性能数据中取出的云服务器用户空间的内存或CPU使用率和云服务器系统空间的内存或CPU使用率,分别进行对比分析,若两个数据相差在30%以内认为正常,超过30%则认为不正常,可得出是服务器用户空间的内存或CPU使用率过高导致得报警还是服务器系统空间的内存或CPU使用率过高导致的报警,若得出云服务器系统空间的内存或CPU使用率过高从而产生报警,则发送消息至管理员;若得出云服务器用户空间的内存或CPU使用率过高从而产生报警,则再次执行步骤S3,得到云服务器目前正在运行的用户应用以及各应用占用的CPU或内存的历史数据,并与步骤S2中得到的云服务器目前正在运行的用户应用以及各应用占用的CPU或内存进行对比,最终得到占用CPU或内存过高的应用,并重启应用,最后生成诊断报告通过短信或邮件发送至管理员。在本实施例中,预定范围为25%-35%,且可进一步优选30%作为两个数据相差的判断值。在其他实施例中,可配置预定范围为30%-35%,且可进一步优选33%作为两个数据相差的判断值,在此不再赘述。
在步骤S4-1的基础上,若报警信息的报警指标为服务器最近第一时间周期的负载或服务器最近第二时间周期的负载或服务器最近第三时间周期的负载,则继续执行步骤S4-3:再次执行步骤S3,根据报警信息中的报警指标,从产生报警的云服务器中得到云服务器目前正在运行的用户应用以及各应用占用的负载的历史数据和云服务器系统本身的应用以及各应用占用的负载的历史数据,并进行逻辑运算,并与步骤S2中得到的云服务器目前正在运行的用户应用以及各应用占用的负载和云服务器系统本身的应用以及各应用占用的负载进行对比,得出是云服务器目前正在运行的用户应用以及各应用造成的负载过高还是云服务器系统本身的应用以及各应用造成的负载过高,最后生成诊断报告通过邮件或短信发送至管理员。在其他实施例中,可通过电话、微信、QQ等交流工具通知管理人员,在此不作限定。
图3是本发明云服务器监控报警实时智能分析诊断系统与云服务器、云监控以及云消息服务配合使用的结构示意图,请参见图3,构造了云服务器监控报警实时智能分析诊断系统,该智能分析诊断系统与云服务器、云监控以及云消息服务配合使用,智能分析诊断系统包括:数据获取模块和分析处理模块;
数据获取模块,用于接收云服务器产生报警后的报警信息,根据报警信息获取产生报警的云服务器的实时性能数据,及用于根据报警信息获取产生报警的云服务器的历史数据;
该数据获取模块进一步包括接收模块和提取模块:
接收模块,用于接收云服务器产生报警后通过云消息服务传递过来的报警信息;报警信息包括:服务器IP和/或服务器名称以及报警指标;该报警指标包括:内存使用率、CPU使用率、服务器最近第一时间周期的负载、服务器最近第二时间周期的负载以及服务器最近第三时间周期的负载中的至少一个;其中,第一时间周期、第二时间周期以及第三时间周期逐级递增。在本实施例中,第一时间周期优选为1分钟,第二时间周期优选为5分钟,第三时间周期优选为15分钟。在其他实施例中,可根据实际服务器反馈设置相应的周期。
提取模块,用于根据报警信息中的服务器IP,自动登陆到产生报警的云服务器上,获取云服务器上的实时性能数据;根据报警信息中的报警指标从云监控中获取相应于报警指标的历史数据;根据报警信息中的报警指标从实时性能数据中获取对应的实时性能数据。
实时性能数据包括:服务器最近第一时间周期的负载、服务器最近第二时间周期的负载、服务器最近第三时间周期的负载、服务器的总CPU使用率、服务器用户空间的CPU使用率、服务器系统空间的CPU使用率、服务器的总内存使用率、服务器用户空间的内存使用率、服务器系统空间的内存使用率、服务器目前正在运行的用户应用以及各应用占用的CPU、内存、负载、及服务器操作系统本身的应用以及各应用占用的CPU、内存、负载中的至少一个。
分析处理模块,用于对历史数据进行逻辑运算,并与报警信息对应的实时性能数据进行分析,根据分析结果自动处置,最终得出诊断报告。
该分析处理模块进一步包括:用于对获取模块中的历史数据取第N百分位数,得出五个数据,对五个数据进行方差计算得到一个数值,该数值与报警指标对应的实时性能数据进行对比分析,若两个数据相差在预定范围以内,则确认云监控上配置的报警阈值不合理,将云监控上配置的阈值修改为该数值;若两个数据相差超过预定范围,则确认报警指标对应的实时性能数据产生异常;其中,1≤N≤99。在本实施例中,优选地设置第N百分位数为第95百分位数。在其他实施中,可设置第N百分位数在第1百分位数和第99百分位数之间。
若报警信息的报警指标为内存使用率或CPU使用率,则再次根据报警指标,从产生报警的云服务器中得到云服务器用户空间的内存或CPU使用率的历史数据和云服务器系统空间的内存或CPU使用率的历史数据,并进行逻辑运算,再从实时性能数据中取出的云服务器用户空间的内存或CPU使用率和云服务器系统空间的内存或CPU使用率,分别进行对比分析,若得出云服务器系统空间的内存或CPU使用率过高从而产生报警,则发送消息至管理员;若得出云服务器用户空间的内存或CPU使用率过高从而产生报警,则再得到云服务器目前正在运行的用户应用以及各应用占用的CPU或内存的历史数据,并与实时性能数据中的云服务器目前正在运行的用户应用以及各应用占用的CPU或内存进行对比,最终得到占用CPU或内存过高的应用,并重启应用,最后生成诊断报告发送至管理员;在本实施例中,预定范围为25%-35%,且可进一步优选30%作为两个数据相差的判断值。在其他实施例中,可配置预定范围为30%-35%,且可进一步优选33%作为两个数据相差的判断值,在此不再赘述。
若报警信息的报警指标为服务器最近第一时间周期的负载或服务器最近第二时间周期的负载或服务器最近第三时间周期的负载,则根据报警信息中的报警指标,从产生报警的云服务器中得到云服务器目前正在运行的用户应用以及各应用占用的负载的历史数据和云服务器系统本身的应用以及各应用占用的负载的历史数据,并进行逻辑运算,并与实时性能数据中的云服务器目前正在运行的用户应用以及各应用占用的负载和云服务器系统本身的应用以及各应用占用的负载进行对比,得出是云服务器目前正在运行的用户应用以及各应用造成的负载过高还是云服务器系统本身的应用以及各应用造成的负载过高,最后生成诊断报告通过邮件或短信发送至管理员。在其他实施例中,可通过电话、微信、QQ等交流工具通知管理人员,在此不作限定。
进一步地,在本实施例中,该智能分析诊断系统还包括存储模块,与数据获取模块和分析处理模块连接,用于存储获取到的云服务器上的实时性能数据。
在本实施例中,本发明中的云服务器优选为阿里云服务器,可通过配置阿里云服务器、阿里云监控以及阿里云消息服务来实施本发明的技术方案。在其他实施例中,也可为其他云服务器的报警提供实时智能分析诊断,在此不再赘述。
完整地,以CPU使用率过高为例,对本发明的技术方案进行详细说明:
步骤S1:阿里云服务器产生报警,报警信息通过阿里云消息服务传递到智能分析诊断系统中,报警信息包括:服务器IP和/或服务器名称以及报警指标;该报警指标为CPU使用率。
步骤S2:智能分析诊断系统收到阿里云消息服务传递过来的报警信息后,根据报警信息中的服务器IP,自动登陆到产生报警的阿里云服务器上,获取云服务器上的实时性能数据,并保存至本地。获取的实时性能数据包括:服务器最近1分钟的负载、服务器最近5分钟的负载以及服务器最近15分钟的负载、服务器的总CPU使用率、服务器用户空间的CPU使用率、服务器系统空间的CPU使用率、服务器的总内存使用率、服务器用户空间的内存使用率、服务器系统空间的内存使用率、服务器目前正在运行的用户应用以及各应用占用的CPU、内存、负载、及服务器操作系统本身的应用以及各应用占用的CPU、内存、负载中的至少一个。
步骤S3:智能分析诊断系统收到阿里云消息服务传递过来的报警信息后,根据报警信息中的报警指标,即CPU使用率,从云监控中获取相应于报警指标的历史数据,并对历史数据取第95百分位数,得出五个数据,对五个数据进行方差计算得到一个数值;且,默认配置为最近3天同一时刻前后1分钟的历史数据,在其他实施例中,可根据实际需要进行配置。以CPU使用率报警为例,说明如下:
2018-09-28日09:05:00阿里云消息队列传递一条告警(告警内容为:服务器192.168.1.1的CPU使用率为88%(0.88),超过阀值)到智能分析工具,智能分析工具则会登陆到阿里云监控获取这台服务器(192.168.1.1)在2018-09-2709:04:00至09:06:00,2018-09-26 09:04:00至09:06:00,2018-09-25 09:04:00至09:06:00,2018-09-24 09:04:00至09:06:00,2018-09-23 09:04:00至09:06:00,2018-09-22 09:04:00至09:06:00的CPU使用率数据,此时可得到5条数组如
[0.61,0.62,0.50,0.45,0.55,0.60,0.70,0.71]
[0.66,0.68,0.50,0.45,0.55,0.60,0.69,0.71]
[0.67,0.61,0.50,0.55,0.55,0.60,0.70,0.71]
[0.63,0.62,0.50,0.45,0.55,0.60,0.70,0.71]
[0.64,0.62,0.50,0.45,0.55,0.60,0.70,0.71]
然后分别对这5条数组取第95百分位数最终可得到5个数据,如0.70,0.69,0.70,0.70,0.70,最后对上面得到的这5个数据进行方差计算最终可得到一个值(如:0.698)。
步骤S4:从步骤S2中得到的数据中取出阿里云服务器的总CPU使用率,并与步骤S3中得到的数据进行对比分析:
(1)如果两个数据相差在30%以内,则确认阿里云监控上配置的报警阈值不合理,直接修改阿里云监控上配置的阈值为步骤S3得到的数据;
(2)如果两个数据相差超过30%,则确认为阿里云服务器的CPU使用率产生异常,进行下一步;
(3)再次执行步骤S3,根据报警信息中的报警指标,从产生报警的阿里云服务器中得到阿里云服务器用户空间的CPU使用率的历史数据和阿里云服务器系统空间的CPU使用率的历史数据,并进行逻辑运算,再从步骤S2得到的实时性能数据中取出的阿里云服务器用户空间的CPU使用率和阿里云服务器系统空间的CPU使用率,进行对比分析,若两个数据相差在30%以内认为正常,超过30%则认为不正常,可得出是服务器用户空间的CPU使用率过高导致得报警还是服务器系统空间的CPU使用率过高导致的报警,若得出云服务器系统空间的CPU使用率过高从而产生报警,则发送消息至管理员;若得出云服务器用户空间的CPU使用率过高从而产生报警,则再次执行步骤S3,得到云服务器目前正在运行的用户应用以及各应用占用的CPU的历史数据,并与步骤S2中得到的云服务器目前正在运行的用户应用以及各应用占用的CPU进行对比,最终得到占用CPU过高的应用,并重启应用,最后生成诊断报告通过短信或邮件发送至管理员。
CPU报警的诊断思路为:
(1)确定是服务器系统空间的CPU使用率过高,还是服务器用户空间的CPU使用率过高;
(2)如果是服务器系统空间的CPU使用率过高,则确定是哪个系统应用占用的CPU使用率过高;
(3)如果是服务器用户空间的CPU使用率过高,则确定是哪个用户应用占用的CPU使用率过高。
完整地,以阿里云服务器负载过高为例,对本发明的技术方案进行详细说明:
步骤S1:阿里云服务器产生报警,报警信息通过阿里云消息服务传递到智能分析诊断系统中,报警信息包括:服务器IP和/或服务器名称以及报警指标;该报警指标为阿里云服务器最近1分钟负载或阿里云服务器最近5分钟负载或阿里云服务器最近15分钟负载;
步骤S2:智能分析诊断系统收到阿里云消息服务传递过来的报警信息后,根据报警信息中的服务器IP,自动登陆到产生报警的阿里云服务器上,获取云服务器上的实时性能数据,并保存至本地。获取的实时性能数据包括:服务器最近1分钟的负载、服务器最近5分钟的负载以及服务器最近15分钟的负载、服务器的总CPU使用率、服务器用户空间的CPU使用率、服务器系统空间的CPU使用率、服务器的总内存使用率、服务器用户空间的内存使用率、服务器系统空间的内存使用率、服务器目前正在运行的用户应用以及各应用占用的CPU、内存、负载、及服务器操作系统本身的应用以及各应用占用的CPU、内存、负载中的至少一个。
步骤S3:智能分析诊断系统收到阿里云消息服务传递过来的报警信息后,根据报警信息中的报警指标,即阿里云服务器最近1分钟负载或阿里云服务器最近5分钟负载或阿里云服务器最近15分钟负载,从云监控中获取相应于报警指标的历史数据,并对历史数据取第95百分位数,得出五个数据,对五个数据进行方差计算得到一个数值;
步骤S4:从步骤S2中得到的数据中取出阿里云服务器最近1分钟负载或阿里云服务器最近5分钟负载或阿里云服务器最近15分钟负载,并与步骤S3中得到的数据进行对比分析:
(1)如果两个数据相差在30%以内,则确认阿里云监控上配置的报警阈值不合理,直接修改阿里云监控上配置的阈值为步骤S3得到的数据;
(2)如果两个数据相差超过30%,则确认为阿里云服务器的CPU使用率产生异常,进行下一步;
(3)再次执行步骤S3,根据报警信息中的报警指标,从产生报警的云服务器中得到云服务器目前正在运行的用户应用以及各应用占用的负载的历史数据和云服务器系统本身的应用以及各应用占用的负载的历史数据,并进行逻辑运算,并与步骤S2中得到的云服务器目前正在运行的用户应用以及各应用占用的负载和云服务器系统本身的应用以及各应用占用的负载进行对比,得出是云服务器目前正在运行的用户应用以及各应用造成的负载过高还是云服务器系统本身的应用以及各应用造成的负载过高,最后生成诊断报告通过邮件或短信发送至管理员。
通过实施本发明具有以下有益效果:本发明能实时获取云服务器的报警信息,然后实时的获取云服务器的各项性能数据并进行智能分析得出诊断报告以及处理建议,并通过短信邮件发送给管理员。通过本发明,运维方式得到了本质的变化,由原来的人工7*24小时值班加实时查看监控系统手动处置转变为实时,自动、智能的处置,运维人员的工作也由原来的日常运维变更为运维方法论的输出及智能分析诊断工具的开发输出,单个运维人员能运维的机器数量也从原来的纯手动运维的几十台变更为成百上千台,运维过程中人为的出错率也得到极大的降低,同时提升了效率。
本发明是通过具体实施例进行说明的,本领域技术人员应当明白,在不脱离本发明范围的情况下,还可以对本发明进行各种变换和等同替代。另外,针对特定情形或具体情况,可以对本发明做各种修改,而不脱离本发明的范围。因此,本发明不局限于所公开的具体实施例,而应当包括落入本发明权利要求范围内的全部实施方式。
Claims (10)
1.云服务器监控报警实时智能分析诊断方法,其特征在于,所述方法包括以下步骤:
步骤S1:接收云服务器产生报警后的报警信息;
步骤S2:根据所述报警信息获取产生报警的所述云服务器的实时性能数据;
步骤S3:根据所述报警信息获取产生报警的所述云服务器的历史数据,并进行逻辑运算;
步骤S4:将所述步骤S3中得到的数据与所述步骤S2中所述报警信息对应的所述实时性能数据进行分析,根据分析结果自动处置,最终得出诊断报告。
2.根据权利要求1所述的云服务器监控报警实时智能分析诊断方法,其特征在于,所述步骤S1进一步包括:
接收云服务器产生报警后通过云消息服务传递过来的报警信息;
所述报警信息包括:服务器IP和/或服务器名称以及报警指标;
所述报警指标包括:内存使用率、CPU使用率、服务器最近第一时间周期的负载、服务器最近第二时间周期的负载以及服务器最近第三时间周期的负载中的至少一个;其中,所述第一时间周期、所述第二时间周期以及所述第三时间周期逐级递增。
3.根据权利要求1所述的云服务器监控报警实时智能分析诊断方法,其特征在于,所述步骤S2进一步包括:
根据所述报警信息中的服务器IP,自动登陆到产生报警的所述云服务器上,获取所述云服务器上的实时性能数据,并保存至本地;
所述实时性能数据包括:服务器最近第一时间周期的负载、服务器最近第二时间周期的负载、服务器最近第三时间周期的负载、服务器的总CPU使用率、服务器用户空间的CPU使用率、服务器系统空间的CPU使用率、服务器的总内存使用率、服务器用户空间的内存使用率、服务器系统空间的内存使用率、服务器目前正在运行的用户应用以及各应用占用的CPU、内存、负载、及服务器操作系统本身的应用以及各应用占用的CPU、内存、负载中的至少一个。
4.根据权利要求1所述的云服务器监控报警实时智能分析诊断方法,其特征在于,所述步骤S3进一步包括:
根据所述报警信息中的报警指标从云监控中获取相应于所述报警指标的历史数据,并对所述历史数据取第N百分位数,得出五个数据,对所述五个数据进行方差计算得到一个数值;其中,1≤N≤99。
5.根据权利要求4所述的云服务器监控报警实时智能分析诊断方法,其特征在于,所述步骤S4进一步包括:
步骤S4-1:从所述步骤S2得到的数据中取出所述报警信息的报警指标对应的所述实时性能数据,并与所述步骤S3得到的数据进行对比分析,若两个数据相差在预定范围内,则确认云监控上配置的报警阈值不合理,将所述云监控上配置的阈值修改为所述步骤S3得到的数据;若两个数据相差超过预定范围,则确认所述报警指标对应的所述实时性能数据产生异常。
6.根据权利要求5所述的云服务器监控报警实时智能分析诊断方法,其特征在于,若所述报警信息的报警指标为内存使用率或CPU使用率,则继续执行步骤S4-2:
再次执行步骤S3,根据所述报警信息中的报警指标,从产生报警的所述云服务器中得到所述云服务器用户空间的内存或CPU使用率的历史数据和所述云服务器系统空间的内存或CPU使用率的历史数据,并进行逻辑运算,再从所述步骤S2得到的实时性能数据中取出的所述云服务器用户空间的内存或CPU使用率和所述云服务器系统空间的内存或CPU使用率,分别进行对比分析,若得出所述云服务器系统空间的内存或CPU使用率过高从而产生报警,则发送消息至管理员;若得出所述云服务器用户空间的内存或CPU使用率过高从而产生报警,则再次执行所述步骤S3,得到所述云服务器目前正在运行的用户应用以及各应用占用的CPU或内存的历史数据,并与所述步骤S2中得到的所述云服务器目前正在运行的用户应用以及各应用占用的CPU或内存进行对比,最终得到占用CPU或内存过高的应用,并重启所述应用,最后生成诊断报告发送至管理员。
7.根据权利要求5所述的云服务器监控报警实时智能分析诊断方法,其特征在于,若所述报警信息的报警指标为服务器最近第一时间周期的负载或服务器最近第二时间周期的负载或服务器最近第三时间周期的负载,则继续执行步骤S4-3:
再次执行步骤S3,根据所述报警信息中的报警指标,从产生报警的所述云服务器中得到所述云服务器目前正在运行的用户应用以及各应用占用的负载的历史数据和所述云服务器系统本身的应用以及各应用占用的负载的历史数据,并进行逻辑运算,并与所述步骤S2中得到的所述云服务器目前正在运行的用户应用以及各应用占用的负载和所述云服务器系统本身的应用以及各应用占用的负载进行对比,得出是所述云服务器目前正在运行的用户应用以及各应用造成的负载过高还是所述云服务器系统本身的应用以及各应用造成的负载过高,最后生成诊断报告发送至管理员。
8.云服务器监控报警实时智能分析诊断系统,所述智能分析诊断系统与云服务器、云监控以及云消息服务配合使用,其特征在于,所述智能分析诊断系统包括:
数据获取模块,用于接收云服务器产生报警后的报警信息,根据所述报警信息获取产生报警的所述云服务器的实时性能数据,及用于根据所述报警信息获取产生报警的所述云服务器的历史数据;
分析处理模块,用于对所述历史数据进行逻辑运算,并与所述报警信息对应的实时性能数据进行分析,根据分析结果自动处置,最终得出诊断报告。
9.根据权利要求8所述的云服务器监控报警实时智能分析诊断系统,其特征在于,所述数据获取模块包括:
接收模块,用于接收云服务器产生报警后通过云消息服务传递过来的报警信息;
提取模块,用于根据所述报警信息中的服务器IP,自动登陆到产生报警的所述云服务器上,获取所述云服务器上的实时性能数据;根据所述报警信息中的报警指标从所述云监控中获取相应于所述报警指标的历史数据;根据所述报警信息中的报警指标从所述实时性能数据中获取对应的实时性能数据。
10.根据权利要求8所述的云服务器监控报警实时智能分析诊断系统,其特征在于,所述分析处理模块进一步包括:
用于对所述提取模块中的历史数据取第N百分位数,得出五个数据,对所述五个数据进行方差计算得到一个数值,所述数值与所述报警指标对应的实时性能数据进行对比分析,若两个数据相差在预定范围以内,则确认云监控上配置的报警阈值不合理,将所述云监控上配置的阈值修改为所述数值;若两个数据相差超过预定范围,则确认所述报警指标对应的所述实时性能数据产生异常;其中,1≤N≤99。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811150783.6A CN109462494A (zh) | 2018-09-29 | 2018-09-29 | 云服务器监控报警实时智能分析诊断方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811150783.6A CN109462494A (zh) | 2018-09-29 | 2018-09-29 | 云服务器监控报警实时智能分析诊断方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109462494A true CN109462494A (zh) | 2019-03-12 |
Family
ID=65607207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811150783.6A Pending CN109462494A (zh) | 2018-09-29 | 2018-09-29 | 云服务器监控报警实时智能分析诊断方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109462494A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112783480A (zh) * | 2021-01-26 | 2021-05-11 | 华能国际电力江苏能源开发有限公司南通电厂 | 基于Web界面厂级监控信息系统的智能监盘实现方法 |
CN112885479A (zh) * | 2021-02-23 | 2021-06-01 | 武汉大学 | 一种对医疗数据中数据项对比验证的实现方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412805A (zh) * | 2013-07-31 | 2013-11-27 | 交通银行股份有限公司 | 一种it故障源诊断方法及系统 |
CN104022917A (zh) * | 2014-06-18 | 2014-09-03 | 南京斯坦德云科技股份有限公司 | 云桥监控方法 |
CN105740124A (zh) * | 2016-02-01 | 2016-07-06 | 南京邮电大学 | 一种面向云计算监控系统的冗余数据过滤方法 |
US20170104653A1 (en) * | 2015-10-13 | 2017-04-13 | Freescale Semiconductor, Inc. | Packet loss debug system and method |
-
2018
- 2018-09-29 CN CN201811150783.6A patent/CN109462494A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412805A (zh) * | 2013-07-31 | 2013-11-27 | 交通银行股份有限公司 | 一种it故障源诊断方法及系统 |
CN104022917A (zh) * | 2014-06-18 | 2014-09-03 | 南京斯坦德云科技股份有限公司 | 云桥监控方法 |
US20170104653A1 (en) * | 2015-10-13 | 2017-04-13 | Freescale Semiconductor, Inc. | Packet loss debug system and method |
CN105740124A (zh) * | 2016-02-01 | 2016-07-06 | 南京邮电大学 | 一种面向云计算监控系统的冗余数据过滤方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112783480A (zh) * | 2021-01-26 | 2021-05-11 | 华能国际电力江苏能源开发有限公司南通电厂 | 基于Web界面厂级监控信息系统的智能监盘实现方法 |
CN112783480B (zh) * | 2021-01-26 | 2023-06-23 | 华能国际电力江苏能源开发有限公司南通电厂 | 基于Web界面厂级监控信息系统的智能监盘实现方法 |
CN112885479A (zh) * | 2021-02-23 | 2021-06-01 | 武汉大学 | 一种对医疗数据中数据项对比验证的实现方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3557819B1 (en) | Server failure detection method and system | |
US9686166B2 (en) | Power fluctuation detection and analysis | |
CN106549829B (zh) | 大数据计算平台监控系统及方法 | |
CN105337765B (zh) | 一种分布式hadoop集群故障自动诊断修复系统 | |
CN107491375A (zh) | 一种云计算环境下的设备检测及故障预警系统及方法 | |
CN110032463B (zh) | 一种基于贝叶斯网络的系统故障定位方法和系统 | |
CN102053608A (zh) | 一种生产过程中能耗交互处理方法 | |
CN109670584A (zh) | 一种基于大数据的故障诊断方法及系统 | |
CN109462494A (zh) | 云服务器监控报警实时智能分析诊断方法及系统 | |
CN113516244B (zh) | 一种智能运维方法、装置、电子设备及存储介质 | |
CN102866942B (zh) | 一种基于贝叶斯推断的软件服务质量监控方法及系统 | |
CN109459659A (zh) | 一种用于预测电力系统故障的系统及方法 | |
CN115825635A (zh) | 一种船舶机舱机电设备状态监测及故障诊断方法 | |
CN110135603A (zh) | 一种基于改进熵权法的电力网络告警空间特征分析方法 | |
CN112134754A (zh) | 压力测试方法、装置、网络设备及存储介质 | |
CN110941558B (zh) | 一种智慧办公远程运维的方法及系统 | |
CN108199920A (zh) | 监控云平台中的服务器的性能的方法和服务器 | |
CN109347682A (zh) | 基于dhnn的自组织实时微服务故障诊断方法及系统 | |
CN109523030A (zh) | 一种基于机器学习的遥测参数异常监测系统 | |
CN109412902A (zh) | 一种电力调度数据网系统的智能监测方法、存储设备、终端和系统 | |
CN112803587A (zh) | 一种基于诊断决策库的自动化设备状态智能巡视方法 | |
CN102769774B (zh) | 宽带视频网络系统中实现跨平台视频服务质量诊断的方法 | |
Avolio et al. | Applications of advanced data analysis and expert system technologies in the ATLAS Trigger-DAQ Controls framework | |
Li et al. | An integrated data-driven framework for computing system management | |
CN105740822B (zh) | 一种机械故障诊断优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190312 |
|
WD01 | Invention patent application deemed withdrawn after publication |