CN110413488B - 服务器使用率预警方法及装置 - Google Patents

服务器使用率预警方法及装置 Download PDF

Info

Publication number
CN110413488B
CN110413488B CN201910699428.2A CN201910699428A CN110413488B CN 110413488 B CN110413488 B CN 110413488B CN 201910699428 A CN201910699428 A CN 201910699428A CN 110413488 B CN110413488 B CN 110413488B
Authority
CN
China
Prior art keywords
time
real
server
early warning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910699428.2A
Other languages
English (en)
Other versions
CN110413488A (zh
Inventor
朱秋生
向雪萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201910699428.2A priority Critical patent/CN110413488B/zh
Publication of CN110413488A publication Critical patent/CN110413488A/zh
Application granted granted Critical
Publication of CN110413488B publication Critical patent/CN110413488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种服务器使用率预警方法及装置,方法包括:获取服务器对应在目标虚拟机中的实时数据组,实时数据组包括:当前目标虚拟机中应用的运行状态发生改变前的第一时间点的各个性能数据;所述实时后向数据集包括:当前目标虚拟机中应用的运行状态发生改变后的第二时间点的各个性能数据,其中,所述第一时间点和所述第二时间点均与所述应用的运行状态发生改变之时的时间间隔预设时段;据此,若经判断实时前向数据集和实时后向数据集均满足各自对应的预设的预警条件,则生成针对服务器的使用率预警信息;输出服务器使用率预警信息。本申请能够实时且全面的监控服务器的运行状态并提前预警,进而提高服务器资源使用率和运行的稳定性。

Description

服务器使用率预警方法及装置
技术领域
本申请涉及服务器监控技术领域,尤其涉及一种服务器使用率预警方法及装置。
背景技术
随着信息化技术的高速发展,大量高密度的应用部署,加剧了设备运行压力,越来越多设备性能的问题暴露出来。在企业中,尤其是大型金融企业中,为了保证服务器安全、稳定、高效且可控的连续运行,需要对服务器的进行实时监控和预警。现有技术中,通常运用Tivoli监控模式对服务器运行情况进行实时监控,即在服务器上安装监控软件进行服务器运行状态的监控。
这类手段具有一定的局限性和监控方位的短板,在主机资源较紧和压力较大的情况下,不能正常收集应用状态信息,对服务器进程假死等状态无法全面监控;监控软件运行级别小于系统运行级别,无法保证监控软件在应用主机上正常运行。
发明内容
针对现有技术中的问题,本申请提出了一种服务器使用率预警方法及装置,能够实时且全面的监控服务器的运行状态并对将要发生的故障提前预警,进而提高服务器资源使用率和运行的稳定性。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种服务器使用率预警方法,包括:
获取服务器对应在目标虚拟机中的实时数据组,该实时数据组包括:实时前向数据集和实时后向数据集,所述实时前向数据集包括:当前目标虚拟机中应用的运行状态发生改变前的第一时间点的各个性能数据;所述实时后向数据集包括:当前目标虚拟机中应用的运行状态发生改变后的第二时间点的各个性能数据,其中,所述第一时间点和所述第二时间点均与所述应用的运行状态发生改变之时的时间间隔预设时段;
根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,若是,则生成针对所述服务器的使用率预警信息;
输出所述服务器的使用率预警信息。
进一步地,所述根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,包括:判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内,并且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
进一步地,所述实时数据组中还包括:与发生改变的应用运行状态相对应的应用状态标志位;相对应的,在所述获取实时数据组之前还包括:若目标虚拟机中应用的运行状态发生改变,则生成一组参考组,并将该参考组存入本地数据库,所述参考组中包括:与发生改变的应用运行状态相对应的应用状态标志位、历史前向数据集和历史后向数据集,所述历史前向数据集包括:该应用运行状态发生改变前的预设时间点的目标虚拟机的各个性能数据;所述历史后向数据集包括:该应用运行状态发生改变后的预设时间点的目标虚拟机的各个性能数据;对本地数据库中的所述参考组根据对应的应用状态标志位进行分类,生成至少一个同类参考集;若所述同类参考集中有多个参考组,则对所述同类参考集中所有的历史前向数据集中的各个所述性能分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定作为与该同类参考集的应用状态标志位相同的实时数据组的实时前向数据集中的该性能对应的第一预设阈值范围;以及,对所述同类参考集中所有的历史后向数据集中的各个所述性能分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定大小作为与该同类参考集的应用状态标志位相同的实时数据组的实时后向数据集中的该性能对应的第二预设阈值范围。
进一步地,所述输出所述服务器的使用率预警信息包括:将预警信息发送至目标显示屏以显示预警信息,和/或,控制对应的音频或视频播放器播报所述预警信息。
进一步地,在所述生成针对所述服务器的使用率预警信息之前,还包括:接收阈值调整请求,调整所述第一预设阈值范围和/或所述第二预设阈值范围;根据调整后的第一预设阈值范围和第二预设阈值范围,再次判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
进一步地,所述应用状态标志位包括:应用进程标志位、操作系统标志位和性能容量标志位。
进一步地,所述性能数据包括:CPU使用率、内存使用率、磁盘使用率、换页应答时间、进程数量和状态、网络使用率和端口状态。
进一步地,在所述生成针对所述服务器的使用率预警信息之后,还包括:对目标虚拟机进行重启操作,并切换到其他主机以提供服务。
进一步地,在所述生成针对所述服务器的使用率预警信息之后,还包括:对目标虚拟机生成快照,用以实现问题分析后数据恢复。
进一步地,在所述生成针对所述服务器的使用率预警信息之后,还包括:将预警信息进行格式化处理后以邮件的形式发送至相关人员的邮箱内。
进一步地,在所述获取实时数据组之前,还包括:实时采集第一预设时间段的目标虚拟机的各性能数据的均值,用以获取第二预设时间段与该第一预设时间段的目标虚拟机的各性能数据对应的预估值;判断所述预估值是否超过预设的预警阈值,若是,则生成针对服务器使用率的预警信息;输出所述服务器的使用率预警信息。
进一步地,在所述实时采集第一预设时间段的目标虚拟机的各性能数据的均值之前,还包括:按照预设的时间段序列采集各时间段历史目标虚拟机的各性能数据均值,生成一组历史参考组,其中,所述历史参考组之间时间连续;将在预定时间段采集的多组历史参考组存入本地数据库中,用以确定实时采集的目标虚拟机的各性能数据的均值和对应预估值之间的关系。
第二方面,本申请提供一种服务器使用率预警装置,包括:
实时数据采集模块,用于获取服务器对应在目标虚拟机中的实时数据组,该实时数据组包括:实时前向数据集和实时后向数据集,所述实时前向数据集包括:当前目标虚拟机中应用的运行状态发生改变前的第一时间点的各个性能数据;所述实时后向数据集包括:当前目标虚拟机中应用的运行状态发生改变后的第二时间点的各个性能数据,其中,所述第一时间点和所述第二时间点均与所述应用的运行状态发生改变之时的时间间隔预设时段;
判断模块,用于根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,若是,则生成针对所述服务器的使用率预警信息;
输出模块,用于输出所述服务器的使用率预警信息。
进一步地,所述第一判断模块,还包括:
阈值范围判断单元,用于判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内,并且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
进一步地,所述的服务器使用率预警装置,还包括:历史数据采集模块,用于若目标虚拟机中应用的运行状态发生改变,则生成一组参考组,并将该参考组存入本地数据库,所述参考组中包括:与发生改变的应用运行状态相对应的应用状态标志位、历史前向数据集和历史后向数据集,所述历史前向数据集包括:该应用运行状态发生改变前的预设时间点的目标虚拟机的各个性能数据;所述历史后向数据集包括:该应用运行状态发生改变后的预设时间点的目标虚拟机的各个性能数据;分类模块,用于对本地数据库中的所述参考组依照对应的应用状态标志位进行分类,生成至少一个同类参考集;第一预设阈值范围获取模块,用于若所述同类参考集中有多个参考组,则对所述同类参考集中所有的历史前向数据集中的各个所述性能数据分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定作为与该同类参考集的应用状态标志位相同的实时数据组的实时前向数据集中的该性能对应的第一预设阈值范围;第二预设阈值范围获取模块,用于对所述同类参考集中所有的历史后向数据集中的各个所述性能数据分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定大小作为与该同类参考集的应用状态标志位相同的实时数据组的实时后向数据集中的该性能对应的第二预设阈值范围。
进一步地,所述输出所述服务器的使用率预警信息包括:将预警信息发送至目标显示屏以显示预警信息,和/或,控制对应的音频或视频播放器播报所述预警信息。
进一步地,所述的服务器使用率预警装置,还包括:过滤模块,用于接收阈值调整请求,调整所述第一预设阈值范围和/或所述第二预设阈值范围;相对应的,所述判断模块,还用于根据调整后的第一预设阈值范围和第二预设阈值范围,再次判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
进一步地,所述应用状态标志位包括:应用进程标志位、操作系统标志位和性能容量标志位。
进一步地,所述目标虚拟机的性能数据包括:CPU使用率、内存使用率、磁盘使用率、换页应答时间、进程数量和状态、网络使用率和端口状态。
进一步地,所述的服务器使用率预警装置,还包括:重启模块,用于在所述生成针对所述服务器的使用率预警信息之后,对目标虚拟机进行重启操作,并切换到其他主机以提供服务。
进一步地,所述的服务器使用率预警装置,还包括:生成快照模块,用于在所述生成针对所述服务器的使用率预警信息之后,对目标虚拟机生成快照,用以实现问题分析后数据恢复。
进一步地,所述输出模块还包括:信息输出单元,用于在所述生成针对所述服务器的使用率预警信息之后,将预警信息进行格式化处理后以邮件的形式发送至相关人员的邮件内。
进一步地,所述的服务器使用率预警装置,还包括:实时数据预估值采集模块,用于在所述获取实时数据组之前,实时采集第一预设时间段的目标虚拟机的各性能数据的均值,用以获取第二预设时间段与该第一预设时间段的目标虚拟机的各性能数据对应的预估值;阈值判断模块,用于判断所述预估值是否超过预设的预警阈值,若是,则生成针对服务器使用率的预警信息;相对应的,所述输出模块,还用于输出所述服务器的使用率预警信息。
进一步地,所述的服务器使用率预警装置,还包括:历史数据分组模块,用于在所述实时采集第一预设时间段的目标虚拟机的各性能数据的均值之前,按照预设的时间段序列采集各时间段历史目标虚拟机的各性能数据均值,生成一组历史参考组,其中,所述历史参考组之间时间连续;建立实时数据和预估值关系模块,将在预定时间段采集的多组历史参考组存入本地数据库中,用以确定实时采集的目标虚拟机的各性能数据的均值和对应预估值之间的关系。
第三方面,本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的服务器使用率预警方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述的服务器使用率预警方法的步骤。
由上述技术方案可知,本申请提供一种服务器使用率预警方法及装置。其中,服务器使用率预警方法通过获取服务器对应在目标虚拟机中的实时数据组,该实时数据组包括:实时前向数据集和实时后向数据集,所述实时前向数据集包括:应用所述目标虚拟机获取的当前目标系统目标虚拟机中应用的运行状态发生改变前的间隔预设时间时的各个性能数据;所述实时后向数据集包括:应用目标虚拟机获取的当前目标虚拟机中应用的运行状态发生改变后的间隔所述预设时间时的各个性能数据;根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,若是,则生成针对所述服务器的使用率预警信息;输出所述服务器的使用率预警信息。能够实时且全面的监控服务器的运行状态并对将要发生的故障提前预警,进而提高服务器资源使用率和运行的稳定性。不存在对操作系统操作,降低系统资源消耗,提高服务器资源使用率,能够实时准确展示服务器运行情况,提高日常巡检的工作效率,以更好保障服务器系统的安全稳定运行,同时应用虚拟化的推进大大降低应用部署周期和成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的服务器使用率预警方法的流程示意图;
图2是本申请实施例的服务器使用率预警方法的步骤101至104的流程示意图;
图3是本申请具体应用实例中的同类参考集的示意图;
图4是本申请实施例的服务器使用率预警方法的步骤010至030的流程示意图;
图5是本申请实施例的服务器使用率预警方法的步骤011至012的流程示意图;
图6是本申请实施例的服务器使用率预警装置的结构示意图;
图7是本申请另一实施例的服务器使用率预警装置的结构示意图;
图8是本申请另一实施例的服务器使用率预警装置中的输出模块及其相关模块的结构示意图;
图9为本申请实施例的电子设备9600的系统构成示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着信息化技术的发展,企业在享受信息化发展带来的好处的同时,也承担着巨大的风险。在系统在运行过程中,任何细小的故障都可能对企业和客户造成巨大的损失,因此,对服务器运行状态进行预警显得十分重要。现有技术中,通常采用Tivoli监控模式对服务器运行情况进行实时监控,Tivoli是IBM公司为帮助企业增强全方位安全运营策略管理的一系列软件系统,它能对网络、服务器和数据库等进行的监控,这种监控模式具有一定的局限性,对于服务器出现进程假死等情况无法进行全面监控,并且这类监控软件系统都很庞大,不但价格昂贵且系统实施复杂,对系统资源消耗高。
基于此,为了能够实时且全面的监控服务器运行情况并对将要发生的故障提前预警,考虑从改变现有的监控模式入手,将虚拟化技术应用到服务器预警过程中,大大降低应用部署周期和成本,虚拟化技术将成为将来科技创新基础建设的中坚力量;为了满足应用部署的需要,对虚拟化应用工具的智能化开发显得尤为重要。本申请使用VMware官方提供的API接口,对ESXi上运行的VM虚拟机应用进行直接访问,收集Windows或SUSE等各类操作系统的运行情况;并依据历史运行结果和策略级别设置,针对性的对性能异常事件进行通知发送和展示,不存在对操作系统操作,能够降低系统资源消耗,提高服务器资源使用率,并且能够实时准确展示服务器运行情况。
其中,展示部分可以使用业界认可的Echarts功能套件,分别使用气泡,树图和平行坐标系等工具图像,展现实时报警数据、物理逻辑结构和实时运行情况等各类数据,加强对数据的可视化展示,便于及时和准确的掌握各类生产数据,缩短应急快速放映时间,提高日常巡检工作效率,以更好的保障服务器系统安全稳定的运行。
为此,在本申请实施例中提供了一种服务器使用率预警装置,所述服务器使用率预警装置可以是被监控使用率的服务器本身,也可以是一个单独的服务器用以监控另一个服务器。
具体通过下述各个实施例进行说明。
为了能够实时且全面的监控服务器的运行状态并对将要发生的故障提前预警本申请提供一种执行主体是服务器使用率预警装置的服务器使用率预警方法,参见图1,该方法具体包含有:
步骤100:获取服务器对应在目标虚拟机中的实时数据组,该实时数据组包含有:实时前向数据集和实时后向数据集,所述实时前向数据集包含有:当前目标虚拟机中应用的运行状态发生改变前的第一时间点的各个性能数据;所述实时后向数据集包含有:当前目标虚拟机中应用的运行状态发生改变后的第二时间点的各个性能数据,其中,所述第一时间点和所述第二时间点均与所述应用的运行状态发生改变之时的时间间隔预设时段。
具体地,所述当前应用的运行状态发生改变包含有:应用进程发生改变,如,WAS应用进程停止、启动或僵死等;操作系统发生改变,如,关机、暂停、添加磁盘或网络等;虚拟机性能容量发生改变,如,删除历史日志和线程等。据此,所述应用状态标志位分为应用进程类、操作系统类和性能容量类。
具体地,所述预设时段可根据实际需要进行设定,如3秒,那么相对应的,所述实时前向数据集包含有:当前目标虚拟机中应用的运行状态发生改变前的3秒时的目标虚拟机的各个性能数据;所述实时后向数据集包含有:当前目标虚拟机中应用运行状态发生改变后的3秒时的目标虚拟机的各个性能数据。
举例来说,所述第一时间点与所述应用的运行状态发生改变之时的时间向前间隔3秒,所述第二时间点与所述应用的运行状态发生改变之时的时间向后间隔3秒。
具体地,所述性能数据包含有:CPU使用率、内存使用率、磁盘使用率、换页应答时间、进程数量和状态、网络使用率和端口状态。
步骤200:根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,若是,则生成针对所述服务器的使用率预警信息。
具体地,所述预设的预警条件为根据目标虚拟机的历史性能数据进行排序后得到的预警条件,所述预设的预警条件包含有:实时数据组中的各个性能各自对应的第一预设阈值和第二预设阈值,具体参见步骤102至步骤104。
步骤300:输出所述服务器的使用率预警信息。
具体地,所述使用率预警信息包含有:目标虚拟机的各个性能数据实时值、预设时间点的预估值和预警服务器对应的设备标识,如,CPU实时的使用率为70%,5分钟后的预估值为80%,该设备标识能够区分服务器,是服务器的唯一标识,可以为由字母和/或数字组成的编码串。
具体地,在本申请一个或多个实施例中,为了进一步提高服务器监控的全面性和准确性,在步骤200中,具体包含有:
步骤210:判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内,并且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
在本申请一个或多个实施例中,为了能够实时且全面的监控服务器的运行状态并对将要发生的故障提前预警,所述实时数据组中还含有:与发生改变的应用运行状态相对应的应用状态标志位,相对应的,在步骤100之前,参见图2,具体包含有:
步骤101:若目标虚拟机中应用的运行状态发生改变,则生成一组参考组,并将该参考组存入本地数据库,所述参考组中包含有:历史前向数据集和历史后向数据集,所述历史前向数据集包含有:该应用运行状态发生改变前的间隔所述预设时间时的目标虚拟机的各个性能数据;所述历史后向数据集包含有:该应用运行状态发生改变后的间隔所述预设时间时的目标虚拟机的各个性能数据。
步骤102:对本地数据库中的所述参考组根据对应的应用状态标志位进行分类,生成至少一个同类参考集。
具体地,所述应用状态标志位包含有:应用进程标志位、操作系统标志位和性能容量标志位。当目标虚拟机中发生was应用进程停止,启动或僵死等情况时,应用状态标志位设为应用进程标志位;当目标虚拟机中发生关机,暂停,添加磁盘和网络等情况是,应用状态标志位设为操作系统标志位;当目标虚拟机中发生删除历史日志和线程扩容等操作时,应用状态标志位设为性能容量类标志位。
步骤103:若所述同类参考集中有多个参考组,则对所述同类参考集中所有的历史前向数据集中的各个所述性能分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定与该同类参考集的应用状态标志位相同的实时数据组的实时前向数据集中的该性能对应的第一预设阈值范围;
步骤104:以及,对所述同类参考集中所有的历史后向数据集中的各个所述性能数据分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定与该同类参考集的应用状态标志位相同的实时数据组的实时后向数据集中的该性能对应的第二预设阈值范围。
具体地,若所述同类参考集中仅有一个参考组,则不对所述性能数据进行排序。
具体地,所述预设的规则可根据实际需要进行设定,本申请对此不作限制。举例来说,预设的规则为将排序后的性能数据分为四部分,取中间两部分中的性能数据的最大值和最小值分别作为阈值范围的上限和下限。
举例来说,生成应用状态标志位为应用进程类标志位的实时数据组的前向数据集中的CPU性能对应的第一预设阈值范围的过程为:
参见图3,当目标虚拟机发生was应用进程停止,生成一组参考组ab1,参考组ab1对应的应用状态标志位为应用进程类标志位,参考组ab1中包含有历史前向数据集a1和历史后向数据集b1,将参考组ab1存入本地数据库中;将参考组ab1和本地数据库中其它的参考组根据对应的应用状态标志位进行归类,将对应的应用状态标志位为应用进程标志位的参考组归为一个同类参考集ab,相对应的,当目标虚拟机发生关机操作,生成一组参考组cd1,依照相同应用状态标志位进行分类,生成同类参考组cd。
在同类参考集ab中有历史前向数据集a1至a5,各个历史前向数据集中包含有虚拟机各个性能数据,参见表1,为历史前向数据集a1中目标虚拟机的各个性能数据;参见表2,对所述同类参考集ab中所有的历史前向数据集中的CPU性能数据按照CPU使用率的大小进行排序。
根据排序结果,将历史前向数据集分成四部分,分别为a3和a2,a1和a4,a5和a6,a8和a7,取中间两部分对应的最大CPU使用率的值77%,最小CPU使用率的值40%,作为第一预设阈值范围的最大值和最小值,因此生成应用状态标志位为进程类标志位的实时数据组的前向数据集中的CPU性能对应的第一预设阈值范围为40%~77%。
获取第二预设阈值范围的过程与上述相同,本申请对此不再具体举例。
表1
CPU使用率 内存使用率 磁盘使用率 ……
40% 40% 45% ……
表2
Figure BDA0002150347290000111
为了进一步提高服务器使用率预警实时性和效率,在步骤300中,还包含有:
步骤310:将预警信息发送至目标显示屏以显示预警信息,和/或,控制对应的音频或视频播放器播报所述预警信息。
为了进一步提高服务器使用率预警的灵活性,在步骤200中所述生成针对所述服务器的使用率预警信息之前,还包含有:
步骤220:接收阈值调整请求,调整所述第一预设阈值范围和/或所述第二预设阈值范围。
步骤230:根据调整后的第一预设阈值范围和第二预设阈值范围,判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内,并且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
为了进一步提高服务器使用率预警的全面性,进而提高服务器的使用效率,在本申请一个或多个实施例中,在步骤200之后,还具体包含有:
步骤400:对目标虚拟机进行重启操作,并切换到其他主机以提供服务。
步骤500:对目标虚拟机生成快照,用以实现问题分析后数据恢复。
步骤600:将预警信息进行格式化处理后以邮件的形式发送至相关人员的邮箱内。
为了进一步提高服务器使用率预警的全面性和实时性,进而提高服务器运行的稳定性,在本申请一个或多个实施例中,参见图4,在步骤100之前还包含有:
步骤010:实时采集第一预设时间段的目标虚拟机的各性能数据的均值,用以获取第二预设时间段与该第一预设时间段的目标虚拟机的各性能数据对应的预估值。
具体地,所述第一预设时间段可根据实际需要进行设置,例如,5分钟,本申请对此不作限制。
具体地,所述第二预设时间段可根据实际需要进行设置,本申请对此不作限制。例如,所述第一预设时间为5分钟,所述第二预设时间段为10分钟,那么该10分钟包含有第一预设时间的5分钟及第一预设时间后的5分钟。
具体地,所述第一预设时间段的各性能数据与对应的预估值之间的关系可以根据历史参考组内各性能数据之间的关系获得。
步骤020:判断所述预估值是否超过预设的预警阈值,若是,则生成针对服务器使用率的预警信息。
具体地,所述预设的预警阈值可根据实际需要进行设定,本申请对此不作限制。
步骤030:输出所述服务器的使用率预警信息。
具体地,输出所述服务器的使用率预警信息可以包含有将预警信息发送至目标显示屏以显示预警信息,和/或,控制对应的音频或视频播放器播报所述预警信息。
具体地,为了进一步提高所述预估值的准确性,进而提高服务器使用率预警的准确性,在步骤010之前,参见图5,还包含有:
步骤011:按照预设的时间段序列采集各时间段的历史目标虚拟机的各性能数据均值,生成一组历史参考组,其中,所述历史参考组之间时间连续。
具体地,所述预设的时间段序列可根据实际需要进行设置,本申请对此不作限制。举例来说,参见表3,为一组历史参考组,所述时间段序列为从零点开始计时的1秒、5分钟、10分钟,30分钟,60分钟,90分钟,120分钟和240分钟的一组序列,下一时间段序列为从240分钟开始计时的1秒、5分钟、10分钟,30分钟,60分钟,90分钟,120分钟和240分钟的一组序列。因此,一天内可以生成6组时间段序列(取值覆盖一天峰谷期关键指标),对应的可以生成6组历史参考组,连续记录10个月,生成多组历史参考组。
表3
Figure BDA0002150347290000131
步骤012:将在预定时间段采集的多组历史参考组存入本地数据库中,用以确定实时采集的目标虚拟机的各性能数据的均值和对应预估值之间的关系。
具体地,参见表3,若5分钟内实时采集的目标虚拟机的CPU使用率均值为30%,那么其对应在10分钟内的预估值为35%,据此确定实时采集的目标虚拟机的各性能数据的均值和对应预估值之间的关系;若CPU使用率对应的所述预设的预警阈值为70%,那么10分钟内的预估值并未超过预设的预警阈值,无需预警。
具体地,所述预设时间段可根据实际需要进行设定,本申请对此不作限制。例如,10个月或者1年等,时间越长,据此得到的实时采集的目标虚拟机的各性能数据的均值和对应预估值之间的关系越准确。
具体地,在实时采集目标虚拟机的各性能数据的均值之后,也可以存入本地数据库,作为历史数据,在之后的服务器预警过程中提高预测的精确性。
具体地,所述本地数据库为服务器使用率预警方法的执行主体对应的服务器使用率预警装置的数据库。
从软件层面来说,为了实时且全面的监控服务器的运行状态并对将要发生的故障提前预警,进而提高服务器资源使用率和运行的稳定性,本申请提供一种服务器使用率预警方法中全部或部分内容的服务器使用率预警装置的实施例,所述服务器使用率预警装置,参见图6,具体包含有如下内容:
实时数据采集模块10,用于获取服务器对应在目标虚拟机中的实时数据组,该实时数据组包含有:实时前向数据集和实时后向数据集,所述实时后向数据集包含有:当前目标虚拟机中应用的运行状态发生改变前的第一时间点的各个性能数据;所述实时后向数据集包含有:当前目标虚拟机中应用的运行状态发生改变后的第二时间点的各个性能数据,其中,所述第一时间点和所述第二时间点均与所述应用的运行状态发生改变之时的时间间隔预设时段。
判断模块20,用于根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,若是,则生成针对所述服务器的使用率预警信息。
具体地,所述目标虚拟机的性能数据包含有:CPU使用率、内存使用率、磁盘使用率、换页应答时间、进程数量和状态、网络使用率和端口状态。
输出模块30,用于输出所述服务器的使用率预警信息。
具体地,将预警信息发送至目标显示屏以显示预警信息,和/或,控制对应的音频或视频播放器播报所述预警信息。
具体地,在本申请一个或多个实施例中,所述输出模块30还包含有:
信息输出单元31,用于在所述生成针对所述服务器的使用率预警信息之后,将预警信息进行格式化处理后以邮件的形式发送至相关人员的邮件内。
在本申请一个或多个实施例中,所述判断模块20,还包含有:
阈值范围判断单元21,用于判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内,并且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
在本申请一个或多个实施例中,所述实时数据组中还包含有:与发生改变的应用运行状态相对应的应用状态标志位,相对应的,所述服务器使用率预警装置,参见图7,还包含有:
历史数据采集模块40,用于若目标虚拟机中应用的运行状态发生改变,则生成一组参考组,并将该参考组存入本地数据库,所述参考组中包含有:与发生改变的应用运行状态相对应的应用状态标志位、历史前向数据集和历史后向数据集,所述历史前向数据集包含有:该应用运行状态发生改变前的预设时间点的目标虚拟机的各个性能数据;所述历史后向数据集包含有:该应用运行状态发生改变后的预设时间点的目标虚拟机的各个性能数据。
分类模块50,用于对本地数据库中的所述参考组依照对应的应用状态标志位进行分类,生成至少一个同类参考集。
第一预设阈值范围获取模块60,用于若所述同类参考集中有多个参考组,则对所述同类参考集中所有的历史前向数据集中的各个所述性能数据分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定作为与该同类参考集的应用状态标志位相同的实时数据组的实时前向数据集中的该性能对应的第一预设阈值范围。
第二预设阈值范围获取模块70,用于对所述同类参考集中所有的历史后向数据集中的各个所述性能数据分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定大小作为与该同类参考集的应用状态标志位相同的实时数据组的实时后向数据集中的该性能对应的第二预设阈值范围。
具体地,所述应用状态标志位包含有:应用进程标志位、操作系统标志位和性能容量标志位。
在本申请一个或多个实施例中,所述服务器使用率预警装置,参见图7,还包含有:
过滤模块80,用于在生成针对所述服务器的使用率预警信息之前,接收阈值调整请求,调整所述第一预设阈值范围和/或所述第二预设阈值范围。
相对应的,所述判断模块20,还用于根据调整后的第一预设阈值范围和第二预设阈值范围,再次判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
在本申请一个或多个实施例中,所述服务器使用率预警装置,还包含有:
重启模块90,用于在所述生成针对所述服务器的使用率预警信息之后,对目标虚拟机进行重启操作,并切换到其他主机以提供服务。
生成快照模块01,用于在所述生成针对所述服务器的使用率预警信息之前,对目标虚拟机生成快照,用以实现问题分析后数据恢复。
在本申请一个或多个实施例中,所述服务器使用率预警装置,参见图8,还包含有:
实时数据预估值采集模块02,用于在所述获取实时数据组之前,实时采集第一预设时间段的目标虚拟机的各性能数据的均值,用以获取第二预设时间段与该第一预设时间段的目标虚拟机的各性能数据对应的预估值。
阈值判断模块03,用于判断所述预估值是否超过预设的预警阈值,若是,则生成针对服务器使用率的预警信息。
相对应的,所述输出模块30,还用于输出所述服务器的使用率预警信息。
在本申请一个或多个实施例中,还包含有:
历史数据分组模块04,用于在所述实时采集第一预设时间段內的目标虚拟机的各性能数据的均值之前,按照预设的时间段序列采集各时间段的历史目标虚拟机的各性能数据均值,生成一组历史参考组,其中,所述历史参考组之间时间连续。
建立实时数据和预估值关系模块05,将在预定时间段采集的多组历史参考组存入本地数据库中,用以确定实时采集的目标虚拟机的各性能数据的均值和对应预估值之间的关系。
基于上述服务器使用率预警方法及装置,本申请实施例可以通过服务器使用率预警装置执行服务器使用率预警的过程,为了进一步提高服务器使用率预警的全面性和实时性,同时提高服务器资源使用率和运行的稳定性,下面对应用本申请实施例所述的服务器使用率预警方法及装置的应用场景进行具体说明。
(一)服务器使用率预警的过程
为了进一步提高服务器使用率预警的全面性,本申请提供了一种服务器使用率预警的具体应用实例。
设计虚拟化系统智能预警系统,将各种实时监控系统信息,历史信息和IT服务台记录各种实际发生生产事件、问题结合比对并进行数据挖掘,从中获得实时监控告警信息和实际发生生产事件的关系并提供预警,最终目的为各种实时监控告警信息提供事件丰富,使运维人员看到实时监控告警的同时得到将会导致的生产事件的预警提示。
S1:将VMware系统的网络、系统、应用和硬件设备等监控系统信息导入各自的数据库,形成各种事件库,从已有数据库中导入的各种事件应包含有发生时间、设备名称和信息摘要等关键字段,各类监控系统事件库字段格式尽量统一以便事后分析。
S2:将各种知识库(运维资料、应急预案和应急处理过程记录等)导入,格式尽量统一以便事后分析。
S3:部署虚拟化系统智能预警系统将上述各种信息进行综合比对和数据挖掘,最终目的是通过大量数据的分析,从中获得实时监控告警信息和实际发生生产事件的关系。具体处理步骤如下:
S31:虚拟化系统智能预警系统将各种实时监控系统事件库导入,转换形成统一格式保存。
S32:虚拟化系统智能预警系统将各种服务台人工记录已发生事件和问题导入,转换形成统一格式保存。
S33:利用发生时间、设备名称、发生单位和信息摘要等关键信息,同时结合各种知识库信息。通过数据库检索或数据挖掘技术得到上述实时监控告警信息和实际发生生产事件的关联关系、生产事件预期发生率等。
S4:实时监控告警信息提供事件丰富,生成实时预警信息。
S5:运行网页接收实时预警信息,在远可见网络上进行显示。
S6:对预警进行预处理和历史处理报告展示。
(二)服务器使用率预警装置的具体应用实例
在本申请应用实例中,基于快速投产,及时监控和方便部署的原则,本申请大部分执行过程在内存中实现,最低配置为2C8G,操作系统为常用win2008或suse11版本操作系统,需安装“VMware-vSphere-Perl-SDK-5.1.0-780721”,“vix 1.15.8”和“jdk-7u60”版本的工具,实现对vmware vc6.0主机所在的虚拟机进行监控。
本工具为ZIP压缩包,解压后更改配置文件即可对虚拟机进行监控和展示,部署在服务器上,可以使用网页实现远程访问,可以拷贝服务器上的程序文件夹到内网,实现本地化监控展示(含有数据可智能判断快照模板,实现准确预警和定位),智能分析依据虚拟机运行状态和历史操作和运行规律进行预警,预警准确度根据实时运行请款和预估和判断,智能学习并对重复事件类进行准确预警,并根据运行状态对服务器资源使用趋势进行预估和预警。能够实时预警,根据依据监控指标占用资源的安全百分比,对各类指标进行初始化,对超过初始化的项进行自动报警和处理,很少需要人工配置。
建立事件分析处理模型,模型分为事件收集模块和分析、预警、处理模块类。
1、历史数据收集模块:
a、实时性能数据收集模块:利用vmware提供的api对虚拟机的性能数据进行收集(采集过程为:1、利用vmware提供api函数提取VC的认证码。2、利用认证码每台主机进行采集授权。3、对主机和虚拟机进行数据采集。4、对数据进行整理分类入库。)对监控各类指标(CPU、内存、磁盘的使用率,换页应答时间,进程数量和状态,网络使用率,端口状态等资源)进行统计,建立1秒,5分钟,10分钟,30分钟,60分钟,90分钟,120分钟,240分钟各类指标均值的历史数据日均值快照参考组,共设立6组(取值覆盖一天峰谷期关键指标),以零点计时,依据实时数据,每日记录6组平均值快照参考组,连续记录10月。生成预警历史均值分布趋势图。
b、实时操作和运行状态收集模块:实时监控应用运行的状态修改操作记录,对关键字“run”、“*.sh”、“*.bat”、“start|stop”、“reboot|shutdown|init6|poweroff”等运行参数进行监控,记录操作和改动时间。
c、生成预警历史均值分布趋势图:建立业务运行周期快照参考组,生成环比状态报表,以2周,5周,10周和1个月,2个月,5个月,10个月,两组为统计段,其中2周表记录14个参数,每个包含一天内日均值快照参考组成员,5周、10周以此类推。其中1个月记录参数的数量为当月天数,每个参数为每天各类指标的均值,5个月、10个月以此类推。
2、实时预警模块:以虚拟机允许状态的经验指标对各个虚拟机的性能数据进行初始化,对实时收集的数据根据初始化阀值进行预警,对预警区间按照预警过滤模块进行预警和通知。
3、操作预警模块:在每个应用运行状态修改记录发生时刻,记录该状态运行前后间隔3秒的虚拟机的性能数据,生成before_sta和after_sta两对数据集,组成实时状态修改参考组,改组根据应用状态标志分类(分类依据服务器运行指标:应用进程类,was应用进程停止,启动,僵死等;操作系统类,包含关机,暂停,添加磁盘和网络;性能容量类:删除历史日志和线程扩容),对应用状态标志相同的成员相互计算四分位计算,取中位(当应用状态标志相同的组内只有一条数据时,不计算),例如计算was进程停止类(对其中性能数据例如:服务器的PUC使用率取值,内存使用率取值等)四分位计算,取中位数,其中n为样本总数量,对样本进行排序,进行四等分分组,取中间,即为n25%到n75%的中位数。,以中位数为对照组,与实时数据进行匹配,预警提示阀值满足条件:实时取值的前后两笔数据T1和T2(实时时刻的前后3秒数据的两笔数据),对T1、T2数据与中位数匹配的进行预警。
4、故障预警模块:捕获硬件、容量、存储、网络、光纤主机切换、应急演练事件和趋势分析模块预警信息,记录该状态运行前后隔3秒的虚拟机的性能数据,生成before_sta和after_sta两对数据集,组成实时状态修改参考组,根据应用状态标志(分类依据服务器运行的指标,io使用情况类如:cpu使用率变化、网络带宽使用率大小、内存使用情况,应用进程状态类如:进程数量、进程占用资源大小)分类,对应用状态标志相同的成员相互计算四分位计算,取中位(当应用状态标志相同的组内只有一条数据时,不计算),例如计算网络故障类(对其中性能数据例如:服务器的网络使用率取值,内存使用率取值等)四分位计算,取中位数,其中n为样本总数量,对样本进行排序,进行四等分分组,取中间,即为n25%到n75%的中位数。以中位数为对照组,与实时数据进行匹配,预警提示阀值满足条件:实时取值的前后两笔数据T1和T2(实时时刻的前后3秒数据的两笔数据),T1、T2数据与中位数匹配的进行预警。
5、趋势分析模块:对历史数据收集模块搜集的数据进行分析运算,取历史数据日均值快照参考组的各组(如:5分钟,10分钟,30分钟等)和每日记录6组平均值快照参考组,对该数据在后续一段时间内达到阀值或预警值的预估时间,事件阀值根据应用级别分类做初始化(应用类别高的应用进行提前预警)。使用逻辑回归(Logistic Regression)算法对各项阀值进行判断,判断标本为各类指标均值的日均值快照参考组的成员,使用最小二乘法公式来计算截距b0和斜率b1,其中y为各类虚拟机的性能的数据,x为各类指标均值的日均值快照参考组成员时间段,b1的求值公式为,b0的求值公式为,计算后将b1和b0带入公式,得出回归方程,。计算判定系数,判定系数在0-1之间,值越大说明拟合越好,说明趋势成立,我们取值为0.7,判定系数计算公式为SST=SSR+SSE,其中SST是总平方和,SSR是回归平方和,计算公式为,判定系数大于0.7的判定为趋势成立,然后利用回归公式,对两倍历史数据日均值快照参考组成员时间时间段(例如:对5分钟成员内的监控各类指标进行趋势预估计算,根据计算结果,在10分钟内趋势达到预警阀值的指标进行预警)的满足公式的项进行预警,根据应用分类对应用级别较高的应用,实施四倍历史数据日均值快照参考组成员时间时间段(同两倍即:对于5分钟成员内预警,趋势预估计算结果在20分钟内监控各类指标满足预警阀值的项进行预警)的满足公式的项进行预警。
6、数据整合分析模块:利用CMDB(硬件资产和应用类型账台)提取信息对每台虚拟机进行归类,归类分组依据服务器服务类型(应用服务器,数据库服务器,中间件服务器,文件服务器等)、应用类别进行归类(具体提供的应用类型)。根据预警模块采集的信息进行记录,生成性能和操作报告,在同类事件发生时自动提示生成操作报告,每一类应用和单独应用进行预警阀值,可以根据需要调整预警阀值、参考实施运行状态报告和维护信息。
7、自动进程启停处理模块:对重要应用的标注进行实时监控(例如中间件进程、应用自带监控和信息参数传递进程),该类不产生数据更改,需要实时提供服务的进程,检测到进程状态变动后,进行预处理操作(清理并重启进程)。实现方式利用vmware提供的api制定进程管理工具,对虚拟机进行操作。
8、虚拟机自动重启和切换模块:对虚拟机状态进行监控,待虚拟机状态达到故障阀值后,对虚拟机进行重启操作(相关api模块:VixVM_PowerOn()|VixVM_PowerOff()),虚拟机启动后无法提供服务,可实时切换到其他主机。
9、虚拟机快照预生成模块:在数据整合模块中判定虚拟机趋势在预警阀值范围内,对虚拟机进行自动快照生成,便于进行问题分析后数据恢复。
10、环比趋势分析模块:日均值快照参考组内,对每个快照使用逻辑回归算法对各项阀值进行判断(依照趋势分析模块计算公式进行计算),对日均数据的满足公式的项进行预警。以此对一周、一个月和一年时间内满足逻辑回归的项进行预警。
11、预警提示模块:对趋势分析模块中,计算判定系数,判定系数取值为0.4-0.7之间的进行图标展示,该类为预警前状态,以便进行后续分析判断。
12、预警展示平台:使用tomcat网页展示,利用echarts插件树图,散点图对实时预警进行准确定位,使用折线图展示趋势,相关图片参考文档后截图。
13、邮件通知模块:使用邮件smtp协议,利用邮件服务器转发功能进行对预警信息格式化后发送到应用人员邮件内。
14、预警过滤模块:根据报警的集群,存储、网络、服务器类别组和应用类别组进行预警阈值初始化和调整,添加过滤策略,根据需求对预警进行展示和通知,通知使用smtp邮件系统对预警和历史报警数据进行展示,对可执行的操作步骤进行提示,也可以在网页中检查该信息。
15、客户端接口模块:可以根据报警类别分组和单个应用进行组合选取,对相关引用和操作信息进行提取下载和上传,便于分析和维护预警个性化展示信息。
从上述描述可知,本申请实施例提供的一种服务器使用率预警方法及装置,能够将各种实时监控系统信息和IT服务台记录各种实际发生生产事件及问题结合比对并进行数据挖掘,从中获得实时监控告警信息和即将发生生产事件的关系并提供预警。所述服务器使用率预警方法具有可扩展性,随着各种信息采集量的增加,预警精确度将会随之增加。通过自动发送邮件,能够对相关事件进行提醒和建议。提高了服务器使用率预警的全面性和实时性,进而提高服务器使用效率和运行的稳定性。
从硬件层面来说,为了能够实时且全面的监控服务器的运行状态并对将要发生的故障提前预警,进而提高服务器资源使用率和运行状态,本申请提供一种用于服务器使用率预警方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述服务器使用率预警装置以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述服务器使用率预警方法的实施例及用于实现所述服务器使用率预警装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图9为本申请实施例的电子设备9600的系统构成的示意框图。如图9所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图9是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在本申请一个或多个实施例中,服务器使用率预警功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤100:获取服务器对应在目标虚拟机中的实时数据组,该实时数据组包括:实时前向数据集和实时后向数据集,所述实时前向数据集包括:当前目标虚拟机中应用的运行状态发生改变前的第一时间点的各个性能数据;所述实时后向数据集包括:当前目标虚拟机中应用的运行状态发生改变后的第二时间点的各个性能数据,其中,所述第一时间点和所述第二时间点均与所述应用的运行状态发生改变之时的时间间隔预设时段。
步骤200:根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,若是,则生成针对所述服务器的使用率预警信息。
步骤300:输出所述服务器的使用率预警信息。
从上述描述可知,本申请的实施例提供的电子设备,为了能够实时且全面的监控服务器的运行状态并对将要发生的故障提前预警,进而提高服务器资源使用率和运行状态。
在另一个实施方式中,服务器资源使用率预警装置可以与中央处理器9100分开配置,例如可以将服务器资源使用率预警配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现服务器资源使用率预警功能。
如图9所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图9中所示的所有部件;此外,电子设备9600还可以包括图9中没有示出的部件,可以参考现有技术。
如图9所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本地上录音,且使得可以通过扬声器9131来播放本地上存储的声音。
上述描述可知,本申请的实施例提供的电子设备,能够实时且全面的监控服务器的运行状态并对将要发生的故障提前预警,进而提高服务器资源使用率和运行的稳定性。
本申请的实施例还提供能够实现上述实施例中的服务器使用率预警方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的服务器使用率预警方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:获取服务器对应在目标虚拟机中的实时数据组,该实时数据组包括:实时前向数据集和实时后向数据集,所述实时前向数据集包括:当前目标虚拟机中应用的运行状态发生改变前的第一时间点的各个性能数据;所述实时后向数据集包括:当前目标虚拟机中应用的运行状态发生改变后的第二时间点的各个性能数据,其中,所述第一时间点和所述第二时间点均与所述应用的运行状态发生改变之时的时间间隔预设时段。
步骤200:根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,若是,则生成针对所述服务器的使用率预警信息。
步骤300:输出所述服务器的使用率预警信息。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够实时且全面的监控服务器的运行状态并对将要发生的故障提前预警,进而提高服务器资源使用率和运行的稳定性。
本申请中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (26)

1.一种服务器使用率预警方法,其特征在于,包括:
获取服务器对应在目标虚拟机中的实时数据组,该实时数据组包括:实时前向数据集和实时后向数据集,所述实时前向数据集包括:当前目标虚拟机中应用的运行状态发生改变前的第一时间点的各个性能数据;所述实时后向数据集包括:当前目标虚拟机中应用的运行状态发生改变后的第二时间点的各个性能数据,其中,所述第一时间点和所述第二时间点均与所述应用的运行状态发生改变之时的时间间隔预设时段;
根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,若是,则生成针对所述服务器的使用率预警信息;
输出所述服务器的使用率预警信息。
2.根据权利要求1所述的服务器使用率预警方法,其特征在于,所述根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,包括:
判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内,并且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
3.根据权利要求2所述的服务器使用率预警方法,其特征在于,所述实时数据组中还包括:与发生改变的应用运行状态相对应的应用状态标志位;
相对应的,在所述获取服务器对应在目标虚拟机中的实时数据组之前还包括:
若目标虚拟机中应用的运行状态发生改变,则生成一组参考组,并将该参考组存入本地数据库,所述参考组中包括:与发生改变的应用运行状态相对应的应用状态标志位、历史前向数据集和历史后向数据集,所述历史前向数据集包括:该应用运行状态发生改变前的预设时间点的目标虚拟机的各个性能数据;所述历史后向数据集包括:该应用运行状态发生改变后的预设时间点的目标虚拟机的各个性能数据;
对本地数据库中的所述参考组根据对应的应用状态标志位进行分类,生成至少一个同类参考集;
若所述同类参考集中有多个参考组,则对所述同类参考集中所有的历史前向数据集中的各个所述性能分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据作为与该同类参考集的应用状态标志位相同的实时数据组的实时前向数据集中的该性能对应的第一预设阈值范围;
以及,对所述同类参考集中所有的历史后向数据集中的各个所述性能分别按照该性能数据的大小进行排序,选取其中指定范围的性能数据大小作为与该同类参考集的应用状态标志位相同的实时数据组的实时后向数据集中的该性能对应的第二预设阈值范围。
4.根据权利要求1所述的服务器使用率预警方法,其特征在于,所述输出所述服务器的使用率预警信息包括:
将预警信息发送至目标显示屏以显示预警信息,和/或,控制对应的音频或视频播放器播报所述预警信息。
5.根据权利要求2所述的服务器使用率预警方法,其特征在于,在所述生成针对所述服务器的使用率预警信息之前,还包括:
接收阈值调整请求,调整所述第一预设阈值范围和/或所述第二预设阈值范围;
根据调整后的第一预设阈值范围和第二预设阈值范围,再次判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
6.根据权利要求3所述的服务器使用率预警方法,其特征在于,所述应用状态标志位包括:应用进程标志位、操作系统标志位和性能容量标志位。
7.根据权利要求1所述的服务器使用率预警方法,其特征在于,所述性能数据包括:CPU使用率、内存使用率、磁盘使用率、换页应答时间、进程数量和状态、网络使用率和端口状态。
8.根据权利要求1所述的服务器使用率预警方法,其特征在于,在所述生成针对所述服务器的使用率预警信息之后,还包括:
对目标虚拟机进行重启操作,并切换到其他主机以提供服务。
9.根据权利要求1所述的服务器使用率预警方法,其特征在于,在所述生成针对所述服务器的使用率预警信息之后,还包括:
对目标虚拟机生成快照,用以实现问题分析后数据恢复。
10.根据权利要求1所述的服务器使用率预警方法,其特征在于,在所述生成针对所述服务器的使用率预警信息之后,还包括:
将预警信息进行格式化处理后以邮件的形式发送至相关人员的邮箱内。
11.根据权利要求1所述的服务器使用率预警方法,其特征在于,在所述获取服务器对应在目标虚拟机中的实时数据组之前,还包括:
实时采集第一预设时间段的目标虚拟机的各性能数据的均值,用以获取第二预设时间段与该第一预设时间段的目标虚拟机的各性能数据对应的预估值;
判断所述预估值是否超过预设的预警阈值,若是,则生成针对服务器使用率的预警信息;
输出所述服务器的使用率预警信息。
12.根据权利要求11所述的服务器使用率预警方法,其特征在于,在所述实时采集第一预设时间段的目标虚拟机的各性能数据的均值之前,还包括:
按照预设的时间段序列采集各时间段历史目标虚拟机的各性能数据均值,生成一组历史参考组,其中,所述历史参考组之间时间连续;
将在预定时间段采集的多组历史参考组存入本地数据库中,用以确定实时采集的目标虚拟机的各性能数据的均值和对应预估值之间的关系。
13.一种服务器使用率预警装置,其特征在于,包括:
实时数据采集模块,用于获取服务器对应在目标虚拟机中的实时数据组,该实时数据组包括:实时前向数据集和实时后向数据集,所述实时前向数据集包括:当前目标虚拟机中应用的运行状态发生改变前的第一时间点的各个性能数据;所述实时后向数据集包括:当前目标虚拟机中应用的运行状态发生改变后的第二时间点的各个性能数据,其中,所述第一时间点和所述第二时间点均与所述应用的运行状态发生改变之时的时间间隔预设时段;
判断模块,用于根据所述实时前向数据集和实时后向数据集各自对应的性能数据,判断所述实时前向数据集和实时后向数据集是否均满足各自对应的预设的预警条件,若是,则生成针对所述服务器的使用率预警信息;
输出模块,用于输出所述服务器的使用率预警信息。
14.根据权利要求13所述的服务器使用率预警装置,其特征在于,所述判断模块,还包括:
阈值范围判断单元,用于判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内,并且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
15.根据权利要求14所述的服务器使用率预警装置,其特征在于,所述实时数据组中还包括:与发生改变的应用运行状态相对应的应用状态标志位;相对应的,所述的服务器使用率预警装置,还包括:
历史数据采集模块,用于若目标虚拟机中应用的运行状态发生改变,则生成一组参考组,并将该参考组存入本地数据库,所述参考组中包括:与发生改变的应用运行状态相对应的应用状态标志位、历史前向数据集和历史后向数据集,所述历史前向数据集包括:该应用运行状态发生改变前的预设时间点的目标虚拟机的各个性能数据;所述历史后向数据集包括:该应用运行状态发生改变后的预设时间点的目标虚拟机的各个性能数据;
分类模块,用于对本地数据库中的所述参考组依照对应的应用状态标志位进行分类,生成至少一个同类参考集;
第一预设阈值范围获取模块,用于若所述同类参考集中有多个参考组,则对所述同类参考集中所有的历史前向数据集中的各个所述性能数据分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定作为与该同类参考集的应用状态标志位相同的实时数据组的实时前向数据集中的该性能对应的第一预设阈值范围;
第二预设阈值范围获取模块,用于对所述同类参考集中所有的历史后向数据集中的各个所述性能数据分别按照该性能数据的大小进行排序,依照预设的规则选取性能数据的最大值和最小值,以确定大小作为与该同类参考集的应用状态标志位相同的实时数据组的实时后向数据集中的该性能对应的第二预设阈值范围。
16.根据权利要求13所述的服务器使用率预警装置,其特征在于,所述输出所述服务器的使用率预警信息包括:
将预警信息发送至目标显示屏以显示预警信息,和/或,控制对应的音频或视频播放器播报所述预警信息。
17.根据权利要求14所述的服务器使用率预警装置,其特征在于,还包括:
过滤模块,用于接收阈值调整请求,调整所述第一预设阈值范围和/或所述第二预设阈值范围;
相对应的,所述判断模块,还用于根据调整后的第一预设阈值范围和第二预设阈值范围,再次判断所述实时前向数据集中是否存在所述性能数据在对应的第一预设阈值范围内且所述实时后向数据集中是否存在同一所述性能数据在对应的第二预设阈值范围内。
18.根据权利要求15所述的服务器使用率预警装置,其特征在于,所述应用状态标志位包括:应用进程标志位、操作系统标志位和性能容量标志位。
19.根据权利要求13所述的服务器使用率预警装置,其特征在于,所述目标虚拟机的性能数据包括:CPU使用率、内存使用率、磁盘使用率、换页应答时间、进程数量和状态、网络使用率和端口状态。
20.根据权利要求13所述的服务器使用率预警装置,其特征在于,还包括:
重启模块,用于在所述生成针对所述服务器的使用率预警信息之后,对目标虚拟机进行重启操作,并切换到其他主机以提供服务。
21.根据权利要求13所述的服务器使用率预警装置,其特征在于,还包括:
生成快照模块,用于在所述生成针对所述服务器的使用率预警信息之后,对目标虚拟机生成快照,用以实现问题分析后数据恢复。
22.根据权利要求13所述的服务器使用率预警装置,其特征在于,所述输出模块还包括:
信息输出单元,用于在所述生成针对所述服务器的使用率预警信息之后,将预警信息进行格式化处理后以邮件的形式发送至相关人员的邮件内。
23.根据权利要求13所述的服务器使用率预警装置,其特征在于,还包括:
实时数据预估值采集模块,用于在所述获取服务器对应在目标虚拟机中的实时数据组之前,实时采集第一预设时间段的目标虚拟机的各性能数据的均值,用以获取第二预设时间段与该第一预设时间段的目标虚拟机的各性能数据对应的预估值;
阈值判断模块,用于判断所述预估值是否超过预设的预警阈值,若是,则生成针对服务器使用率的预警信息;
相对应的,所述输出模块,还用于输出所述服务器的使用率预警信息。
24.根据权利要求22所述的服务器使用率预警装置,其特征在于,还包括:
历史数据分组模块,用于在所述实时采集第一预设时间段的目标虚拟机的各性能数据的均值之前,按照预设的时间段序列采集各时间段历史目标虚拟机的各性能数据均值,生成一组历史参考组,其中,所述历史参考组之间时间连续;
建立实时数据和预估值关系模块,将在预定时间段采集的多组历史参考组存入本地数据库中,用以确定实时采集的目标虚拟机的各性能数据的均值和对应预估值之间的关系。
25.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至12任一项所述的服务器使用率预警方法的步骤。
26.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至12任一项所述的服务器使用率预警方法的步骤。
CN201910699428.2A 2019-07-31 2019-07-31 服务器使用率预警方法及装置 Active CN110413488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910699428.2A CN110413488B (zh) 2019-07-31 2019-07-31 服务器使用率预警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910699428.2A CN110413488B (zh) 2019-07-31 2019-07-31 服务器使用率预警方法及装置

Publications (2)

Publication Number Publication Date
CN110413488A CN110413488A (zh) 2019-11-05
CN110413488B true CN110413488B (zh) 2022-12-23

Family

ID=68364392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910699428.2A Active CN110413488B (zh) 2019-07-31 2019-07-31 服务器使用率预警方法及装置

Country Status (1)

Country Link
CN (1) CN110413488B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112866044B (zh) * 2019-11-27 2023-05-12 中盈优创资讯科技有限公司 网络设备状态信息采集方法及装置
CN110908824A (zh) * 2019-12-04 2020-03-24 支付宝(杭州)信息技术有限公司 一种故障识别方法、装置及设备
CN111767198A (zh) * 2020-06-23 2020-10-13 中国工商银行股份有限公司 基于分类标签序列匹配的系统风险预测方法及装置
CN112084093B (zh) * 2020-09-11 2022-07-05 山东英信计算机技术有限公司 一种服务器的能耗管控装置、方法及设备
CN112800003B (zh) * 2021-01-20 2024-07-09 华云数据(厦门)网络有限公司 创建快照的推荐方法、快照创建方法、装置及电子设备
CN113407541B (zh) * 2021-06-23 2022-10-18 中移(杭州)信息技术有限公司 数据采集方法、设备、存储介质及装置
CN113505042A (zh) * 2021-07-28 2021-10-15 中国工商银行股份有限公司 服务器内存动态监控方法、装置、设备及存储介质
CN113779086B (zh) * 2021-08-27 2024-04-30 深圳百斯特控制技术有限公司 发电站设备数据采集方法、装置、设备及存储介质
CN114416191B (zh) * 2021-12-06 2024-05-28 奇安信科技集团股份有限公司 应用配置使用率预测方法及装置
CN117519620B (zh) * 2024-01-08 2024-04-26 珠海芯烨电子科技有限公司 一种云打印机智能运维管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170315836A1 (en) * 2014-11-21 2017-11-02 Telefonaktiebolaget Lm Ericsson (Publ) Monitoring of Virtual Machines In a Data Center
CN109117341A (zh) * 2018-08-14 2019-01-01 郑州云海信息技术有限公司 一种虚拟机的监控方法、装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170315836A1 (en) * 2014-11-21 2017-11-02 Telefonaktiebolaget Lm Ericsson (Publ) Monitoring of Virtual Machines In a Data Center
CN109117341A (zh) * 2018-08-14 2019-01-01 郑州云海信息技术有限公司 一种虚拟机的监控方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Resource usage monitoring for KVM based virtual machines;Ankit Anand, et at.;《2012 18th International Conference on Adavanced Computing and Communications (ADCOM)》;20121216;第1-5页 *
服务器监控技术综述及展望;王慧强等;《计算机科学》;20160831;第1-18页 *

Also Published As

Publication number Publication date
CN110413488A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413488B (zh) 服务器使用率预警方法及装置
US10554805B2 (en) Information processing method, terminal, and computer-readable storage medium
US9691008B2 (en) Systems and methods for inferential sharing of photos
US20210360077A1 (en) Determining session intent
WO2018080840A1 (en) Systems and methods for identifying process flows from log files and visualizing the flow
CN110708204A (zh) 一种基于运维知识库的异常处理方法、系统、终端及介质
CN110737726B (zh) 一种确定待测试接口的测试数据的方法和装置
US8705800B2 (en) Profiling activity through video surveillance
CN109840183B (zh) 数据中心分级预警方法、装置及存储介质
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN113742174B (zh) 云手机应用监控方法、装置、电子设备和存储介质
CN113595886A (zh) 即时通讯消息的处理方法、装置、电子设备及存储介质
CN110677271A (zh) 基于elk的大数据告警方法、装置、设备及存储介质
US11423230B2 (en) Process extraction apparatus and non-transitory computer readable medium
CN112612679A (zh) 系统运行状态监控方法、装置、计算机设备和存储介质
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN116824455A (zh) 事件检测方法、装置、设备和存储介质
CN109491970B (zh) 面向云存储的不良图片检测方法、装置及存储介质
CN116303072A (zh) 全链路性能测试方法及装置
KR102464688B1 (ko) 모니터링 결과의 이벤트 등급 결정 방법 및 장치
CN115269519A (zh) 一种日志检测方法、装置及电子设备
CN106776623B (zh) 一种用户行为分析方法和设备
CN110569172B (zh) 一种业务层级的性能监控系统
CN112764957A (zh) 应用故障定界方法及装置
CN111861488B (zh) 机器学习模型对比方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant