CN117608974A - 基于人工智能的服务器故障检测方法、装置、设备及介质 - Google Patents

基于人工智能的服务器故障检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN117608974A
CN117608974A CN202410085839.3A CN202410085839A CN117608974A CN 117608974 A CN117608974 A CN 117608974A CN 202410085839 A CN202410085839 A CN 202410085839A CN 117608974 A CN117608974 A CN 117608974A
Authority
CN
China
Prior art keywords
historical
type
current
abnormality
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410085839.3A
Other languages
English (en)
Inventor
龚磊
董云飞
陈炳旭
徐进荣
曹旭楠
张昊
果立楠
于建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gold Products Computer Technology Tianjin Co ltd
Original Assignee
Gold Products Computer Technology Tianjin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gold Products Computer Technology Tianjin Co ltd filed Critical Gold Products Computer Technology Tianjin Co ltd
Priority to CN202410085839.3A priority Critical patent/CN117608974A/zh
Publication of CN117608974A publication Critical patent/CN117608974A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及涉及基于人工智能的服务器故障检测方法、装置、设备及介质,涉及服务器技术领域,该方法包括获取服务器的当前运行数据;将当前运行数据输入至预先训练的预测模型中,确定当前异常数据以及当前异常数据对应的当前异常类型;根据当前异常类型,确定目标故障概率,目标故障概率为当前异常类型在历史数据库中对应的故障概率;对目标故障概率大于预设故障概率阈值的当前异常类型进行检测,得到检测结果。本申请具有提高服务器故障检测的效率的效果。

Description

基于人工智能的服务器故障检测方法、装置、设备及介质
技术领域
本申请涉及服务器技术领域,尤其是涉及基于人工智能的服务器故障检测方法、装置、设备及介质。
背景技术
服务器是一种运行快、负载高、性能强的计算机,长时间运行是服务器的一个重要指标,监测服务器的运行状态是保证服务器长期可靠运行的一个重要方法,一旦服务器发生故障无法正常运行,需要借助服务器远端控制器对服务器进行复位等操作。
目前,传统服务器的故障检测常用的方法主要是通过远程管理主板对服务器内的每个设备的运行状态分别进行监控,当存在设备的运行状态出现故障时,则生成对应的故障参数,工作人员登录相应的管理平台查询故障参数,根据故障参数对服务器进行定向维护。
在进行故障检测时,当出现的故障较多,则对应的故障参数较多,工作人员在查询故障参数时也比较多,查询过程繁琐,且耗费大量时间,从而降低故障检测的效率。
发明内容
为了提高服务器故障检测的效率,本申请提供基于人工智能的服务器故障检测方法、装置、设备及介质。
第一方面,本申请提供基于人工智能的服务器故障检测方法,采用如下的技术方案:
基于人工智能的服务器故障检测方法,包括:
获取服务器的当前运行数据;
将所述当前运行数据输入至预先训练的预测模型中,确定当前异常数据以及所述当前异常数据对应的当前异常类型;
根据所述当前异常类型,确定目标故障概率,所述目标故障概率为当前异常类型在历史数据库中对应的故障概率;
对所述目标故障概率大于预设故障概率阈值的所述当前异常类型进行检测,得到检测结果。
通过采用上述技术方案,由于预测模型表征服务器在运行时的运行数据与类型之间的关系,以及运行数据出现异常时的变化规律,因此将获取到的当前运行数据输入至预测模型中,从而可以准确地确定当前异常数据以及当前异常数据对应的当前异常类型,然后通过历史数据库确定当前异常类型对应的目标故障概率,有助于准确地预测运行数据可能出现故障的概率;目标故障概率大于预设故障概率阈值说明服务器在运行时出现该故障的次数比较多,因此,根据预设故障阈值进一步筛选进行检测的异常类型,对目标故障概率大于预设故障概率阈值的当前异常类型进行检测,得到检测结果,从而提高服务器检测的效率。
在另一种可能实现的方式中,所述根据所述当前异常类型,确定目标故障概率包括:
获取预设时间段内的检测次数以及历史异常类型的数量;
对所述检测次数以及所述历史异常类型的数量进行计算,得到所述历史异常类型的故障概率;
基于所述历史异常类型以及所述当前异常类型,确定目标异常类型,所述目标异常类型为历史异常数据与所述当前异常数据相同的异常数据对应的异常类型;
将所述目标异常类型对应的故障概率确定为目标故障概率。
通过采用上述技术方案,通过获取预设时间段内的检测次数和历史异常类型的数量,并计算历史异常类型的故障概率,可以准确地确定历史异常类型的故障概率,将当前的异常数据与历史异常数据进行比较,确定目标异常类型,可以准确地识别出与历史异常数据相同的异常类型,从而提高故障概率确定的准确性。
在另一种可能实现的方式中,所述方法还包括:
获取预设时间段内所述服务器多次故障检测时各自对应的历史异常类型数量以及每个历史异常类型的异常等级;
根据所述历史异常类型数量以及所述异常等级进行计算,得到所述预设时间段内的平均得分;
输出所述平均得分。
通过采用上述技术方案,通过获取多个检测时对应的历史异常类型数量和异常等级,可以更全面地评估服务器的状态,通过计算平均得分,可以快速便捷地确定服务器的状态。
在另一种可能实现的方式中,所述根据所述历史异常类型数量以及所述异常等级进行计算,得到所述预设时间段内的平均得分包括:
基于所述历史异常类型数量、平均异常等级以及各自对应的权重确定每次服务器故障检测时的得分,所述平均异常等级为所述每次服务器故障检测中的全部历史异常类型的平均异常等级;
基于所述每次服务器故障检测时的得分,确定所述预设时间段内的平均得分。
通过采用上述技术方案,历史异常类型数量单纯地表征电子设备在预设时间段出现异常的数量,平均风险等级表征在预设时间段内服务器发生故障的风险等级,权重根据历史异常类型数量以及平均风险等级的重要程度设置,通过对服务器每次检测时的得分进行计算,可以确定检测时服务器的健康程度,为了准确地分析服务器的健康状况,因此对服务器的平均得分进行计算。从而准确地确定服务器在预设时间段内的健康程度。
在另一种可能实现的方式中,所述当前运行数据包括当前CPU使用率,所述方法还包括:
获取历史中每次检测的历史CPU使用率以及对应的历史异常类型;
基于所述当前CPU使用率、所述历史CPU使用率以及所述历史异常类型确定目标异常类型;
对所述目标异常类型进行检测,得到检测结果。
通过采用上述技术方案,每个历史CPU使用率对应有相应的历史异常类型,当当前CPU使用率与历史CPU使用率相同时,则说明当前CPU使用率下的异常类型和历史CPU使用率对应的历史异常类型可能相同,因此,为了快速确定服务器存在的异常类型,根据所述当前CPU使用率、所述历史CPU使用率以及所述历史异常类型确定目标异常类型,并对目标异常类型进行检测,确定检测结果。从而使得可以优先对目标异常类型进行检测,提高检测效率,进而提高异常类型确定的准确性。
在另一种可能实现的方式中,所述基于所述当前CPU使用率、所述历史CPU使用率以及所述历史异常类型确定目标异常类型包括:
基于所述历史异常类型,生成每次服务器故障检测时所述历史CPU使用率对应的历史异常类型变化折线图;
确定当前CPU使用率;
将所述当前CPU使用率与所述历史CPU进行匹配,确定所述目标异常类型,所述目标异常类型为所述当前CPU使用率与所述历史CPU使用率相同时,所述历史CPU使用率对应的历史异常类型。
通过采用上述技术方案,通过生成历史异常类型变化折线图,可以直观地展示不同历史异常类型的变化趋势,通过将当前CPU使用率与历史CPU使用率进行匹配,可以更准确地确定目标异常类型。由于当前CPU使用率与历史CPU使用率相同时的历史异常类型更有可能成为当前异常的原因,因此可以提高匹配的准确度和故障预测的准确性,进而提高服务器检测的效率。
在另一种可能实现的方式中,所述方法还包括:
基于所述检测结果生成报警信息;
输出报警信息。
通过采用上述技术方案,由于检测得到的异常类型较多,因此将检测结果生成报警信息,并将报警信息输出,则可以方便相关人员确定服务器异常类型。
第二方面,本申请提供基于人工智能的服务器故障检测装置,采用如下的技术方案:
数据获取模块,用于获取服务器的当前运行数据;
异常确定模块,用于将所述当前运行数据输入至预先训练的预测模型中,确定当前异常数据以及所述当前异常数据对应的当前异常类型;
概率确定模块,用于根据所述当前异常类型,确定目标故障概率,所述目标故障概率为所述当前异常类型在历史数据库中对应的故障概率;
结果确定模块,用于对所述目标故障概率大于预设故障概率阈值的所述当前异常类型进行检测,得到检测结果。
通过采用上述技术方案,数据获取模块获取服务器的当前运行数据,由于预测模型表征服务器在运行时的运行数据与类型之间的关系,以及运行数据出现异常时的变化规律,因此,异常确定模块将获取到的当前运行数据输入至预测模型中,从而可以准确地确定当前异常数据以及所述当前异常数据对应的当前异常类型,然后概率确定模块通过历史数据库确定当前异常类型对应的目标故障概率,有助于准确地预测运行数据可能出现故障的概率;目标故障概率大于预设故障概率阈值说明服务器在运行时出现该故障的次数比较多,因此,结果确定模块根据预设故障阈值进一步筛选进行检测的异常类型,对所述目标故障概率大于预设故障概率阈值的所述当前异常类型进行检测,得到检测结果,从而提高服务器检测的效率。
在另一种可能的实现方式中,概率确定模块在所述根据所述当前异常类型,确定目标故障概率时,具体用于:
获取预设时间段内的检测次数以及历史异常类型的数量;
对所述检测次数以及所述历史异常类型的数量进行计算,得到所述历史异常类型的故障概率;
基于所述历史异常类型以及所述当前异常类型,确定目标异常类型,所述目标异常类型为历史异常数据与所述当前异常数据相同的异常数据对应的异常类型;
将所述目标异常类型对应的故障概率确定为目标故障概率。
在另一种可能的实现方式中,所述装置还包括:
等级获取模块,用于获取预设时间段内所述服务器多次故障检测时各自对应的历史异常类型数量以及每个历史异常类型的异常等级;
得分确定模块,用于根据所述历史异常类型数量以及所述异常等级进行计算,得到所述预设时间段内的平均得分;
得分输出模块,用于输出所述平均得分。
在另一种可能的实现方式中,得分确定模块在所述根据所述历史异常类型数量以及所述异常等级进行计算,得到所述预设时间段内的平均得分时,具体用于:
基于所述历史异常类型数量、平均异常等级以及各自对应的权重确定每次服务器故障检测时的得分,所述平均异常等级为所述每次服务器故障检测中的全部历史异常类型的平均异常等级;
基于所述每次服务器故障检测时的得分,确定所述预设时间段内的平均得分。
在另一种可能的实现方式中,所述当前运行数据包括当前CPU使用率,所述装置还包括:
使用率获取模块,用于获取历史中每次检测的历史CPU使用率以及对应的历史异常类型;
目标异常类型确定模块,用于基于所述当前CPU使用率、所述历史CPU使用率以及所述历史异常类型确定目标异常类型;
检测结果确定模块,用于对所述目标异常类型进行检测,得到检测结果。
在另一种可能的实现方式中,目标异常类型确定模块在所述基于所述当前CPU使用率、所述历史CPU使用率以及所述历史异常类型确定目标异常类型时,具体用于:
基于所述历史异常类型,生成每次服务器故障检测时所述历史CPU使用率对应的历史异常类型变化折线图;
确定当前CPU使用率;
将所述当前CPU使用率与所述历史CPU进行匹配,确定所述目标异常类型,所述目标异常类型为所述当前CPU使用率与所述历史CPU使用率相同时,所述历史CPU使用率对应的历史异常类型。
在另一种可能的实现方式中,所述装置还包括:
信息生成装置,用于基于所述检测结果生成报警信息;
信息输出装置,用于输出报警信息。
第三方面,本申请提供一种电子设备,采用如下的技术方案:
一种电子设备,该电子设备包括:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,至少一个配置用于:执行根据第一方面任一种可能的实现方式所示的基于人工智能的服务器故障检测方法。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,当所述计算机程序在计算机中执行时,令所述计算机执行第一方面任一项所述的基于人工智能的服务器故障检测方法。
综上所述,本申请包括以下至少一种有益技术效果:
1.由于预测模型表征服务器在运行时的运行数据与类型之间的关系,以及运行数据出现异常时的变化规律,因此将获取到的当前运行数据输入至预测模型中,从而可以准确地确定当前异常数据以及所述当前异常数据对应的当前异常类型,然后通过历史数据库确定当前异常类型对应的目标故障概率,有助于准确地预测运行数据可能出现故障的概率;目标故障概率大于预设故障概率阈值说明服务器在运行时出现该故障的次数比较多,因此,根据预设故障阈值进一步筛选进行检测的异常类型,对所述目标故障概率大于预设故障概率阈值的所述当前异常类型进行检测,得到检测结果,从而提高服务器检测的效率;
2. 通过生成历史异常类型变化折线图,可以直观地展示不同历史异常类型的变化趋势,通过将当前CPU使用率与历史CPU使用率进行匹配,可以更准确地确定目标异常类型。由于当前CPU使用率与历史CPU使用率相同时的历史异常类型更有可能成为当前异常的原因,因此可以提高匹配的准确度和故障预测的准确性,进而提高服务器检测的效率。
附图说明
图1是本申请实施例中的基于人工智能的服务器故障检测方法的流程示意图。
图2是本申请实施例中的基于人工智能的服务器故障检测装置的流程示意图。
图3是本申请实施例中的一种电子设备的结构示意图。
具体实施方式
以下结合附图1-3对本申请作进一步详细说明。
本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本申请实施例作进一步详细描述。
本申请实施例提供了基于人工智能的服务器故障检测方法,由电子设备执行,该电子设备可以为服务器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此,该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制,如图1所示,该方法包括:步骤S10、步骤S11、步骤S12以及步骤S13,其中,
步骤S10,获取服务器的当前运行数据。
在本申请实施中,电子设备通过服务器监控系统获取服务器的当前运行数据,或电子设备向服务器发送访问请求,服务器通过电子设备的访问请求,然后将当前运行数据反馈给电子设备,本申请实施例不做具体限定。
步骤S11,将当前运行数据输入至预先训练的预测模型中,确定当前异常数据以及当前异常数据对应的当前异常类型。
在本申请实施中,预测模型在训练时,收集和准备用于训练模型的数据,预测模型可以是线性回归模型,也可以是决策树、随机森林等模型,然后根据选择的模型通过交叉验证、网格搜索等方式对训练的参数进行调整,然后将准备好的数据输入到模型中,利用训练集对模型进行训练,其中,在训练的过程中,模型会学习数据的规律和特征,使得在将运行数据输入至预测模型中时,可以准确地确定当前异常数据以及当前异常类型。
步骤S12,根据当前异常类型,确定目标故障概率。
其中,目标故障概率为当前异常类型在历史数据库中对应的故障概率。
在本申请实施中,在历史数据库中查询与当前异常数据一致的异常类型,从而根据找到的异常类型方便快速地确定目标故障概率。其中,可以使用查询语句在历史数据库中进行查询异常类型。由于目标故障概率表征异常类型出现故障的频率,因此,目标故障概率越高,则需要优先进行检测,从而方便快捷地确定故障类型。
步骤S13,对目标故障概率大于预设故障概率阈值的当前异常类型进行检测,得到检测结果。
在本申请实施中,预设故障概率是通过对历史故障概率进行分析得到的,每次检测中每个异常类型发生故障的概率可能相同也可能不同,因此,通过设置预设故障概率阈值准确地判定是否需要对异常类型进行检测,从而可以优先对可能发生故障的异常类型进行检测,进而准确地得到检测结果。
本申请实施例的一种可能的实现方式,根据当前异常类型,确定目标故障概率包括:步骤S120(图中未示出)、步骤S121(图中未示出)、步骤S122(图中未示出)以及步骤S123(图中未示出),其中,
步骤S120,获取预设时间段内的检测次数以及历史异常类型的数量。
在本申请实施中,根据实际使用需求设定预设时间段,通过查询算法在历史数据库中查询预设时间段内的检测次数以及历史异常类型的数量。
假设,预设时间段为2023年1月1日至2023年5月1日,检测次数为40次,历史异常类型1的数量为20;历史异常类型2的数量为30;历史异常类型3的数量为35。
步骤S121,对检测次数以及历史异常类型的数量进行计算,得到历史异常类型的故障概率。
在本申请实施中,为了准确地确定故障概率,根据公式,故障概率 = (第一历史异常类型数量 / 检测次数)计算故障概率。以步骤S120为例,历史异常类型1的故障概率=(20 / 40)=50%,历史异常类型2的故障概率=(30 / 40)=75%,历史异常类型3的故障概率=(35 / 40)=87.5%。
步骤S122,基于历史异常类型以及当前异常类型,确定目标异常类型。
其中,目标异常类型为历史异常数据与当前异常数据相同的异常数据对应的异常类型。
在本申请实施例中,将当前异常数据以及历史异常数据进行特征比对,将当前数据与历史异常数据特征一致的数据确定为目标异常数据,将目标异常数据对应的异常类型确定为目标异常类型,从而准确地确定目标异常类型。假设,当前异常数据1、当前异常数据2、当前异常数据3以及当前异常数据4中,当前异常数据1、当前异常数据2以及当前异常数据3分别与历史异常数据1、历史异常数据2以及历史异常数据3特征一致,因此,将历史异常数据1、历史异常数据2以及历史异常数据3对应的历史异常类型确定为目标异常类型,即历史异常类型1、历史异常类型2以及历史类型3。
步骤S123,将目标异常类型对应的故障概率确定为目标故障概率。
在本申请实施例中,目标异常类型为服务器在历史检测中发生故障的数据,发生故障概率越多,则说明该服务器该类型发生故障的概率越大。因此,将目标异常类型对应的故障概率确定为目标故障概率,从而可以方便快捷地确定当前异常类型的故障概率。以步骤S122以及步骤S121为例,由于历史异常类型1的故障概率为50%、历史异常类型2的故障概率为75%以及历史异常类型3的故障概率为87.5%,因此,当前异常类型1的故障概率为50%,当前异常类型2的故障概率75%,当前异常类型3的故障概率为87.5%,即目标故障概率1为50%,目标故障概率2为75%,目标故障概率3为87.5%。
本申请实施例的一种可能的实现方式,方法还包括:步骤S14(图中未示出)、步骤S15(图中未示出)以及步骤S16(图中未示出),其中,
步骤S14,获取预设时间段内服务器多次故障检测时各自对应的历史异常类型数量以及每个历史异常类型的异常等级。
在本申请实施例中,在获取预设时间段内多次服务器故障检测时,可以通过电子设备访问历史数据库进行获取,在历史数据库中记录每个历史异常类型对应的异常等级,使得在确定具体异常类型之后可以通过历史数据库查找该异常类型对应的风险等级。假设,2023年1月1日至2023年2月1日的服务器故障检测次数为2次,即1月15日为第一次服务器故障检测,其检测的异常类型为3个,即异常类型1、异常类型2以及异常类型3,其分别对应的异常等级为2级、1级以及3级。
步骤S15,根据历史异常类型数量以及每个历史异常类型对应的异常等级进行计算,得到预设时间段内的平均得分。
在本申请实施例中,基于历史异常类型数量、平均异常等级以及各自对应的权重确定每次服务器故障检测时的得分,基于每次服务器故障检测时的得分,确定预设时间段内的平均得分。
步骤S16,输出平均得分。
在本申请实施例中,电子设备可以控制显示屏显示平均得分,也可以通过短信的方式将平均得分发送至相关人员对应的终端设备,具体的输出平均得分的方式本申请实施例不做具体限定。使得相关人员根据平均得分准确地确定服务器的健康程度。
本申请实施例的一种可能的实现方式,根据历史异常类型数量以及异常等级进行计算,得到预设时间段内的平均得分包括:步骤S151(图中未示出)以及步骤S152(图中未示出),其中,
步骤S151,基于历史异常类型数量、平均异常等级以及各自对应的权重确定每次服务器故障检测时的得分。
其中,平均异常等级为每次服务器故障检测中的全部历史异常类型的平均异常等级。
在本申请实施例中,历史异常类型数量单纯地表征电子设备在预设时间段出现异常的数量,平均风险等级表征在预设时间段内服务器发生故障的风险等级,权重根据历史异常类型数量以及平均风险等级的重要程度设置,本申请实施例不做具体限定。需要说明的是,历史异常类型数量越多和/或平均风险等级越高,则服务器的健康程度越低。假设,历史异常类型数量的权重为0.4,平均风险等级的权重为0.6,以步骤S14为例,第一次检测的平均风险等级为(3+2+1)/3=2,则第一次检测服务器的得分为0.4×3+0.6×2=2.4。
步骤S152,基于每次服务器故障检测时的得分,确定预设时间段内的平均得分。
在本申请实施例中,由于得分只能表征每次检测时服务器发生异常的程度,即得分越高服务器发生异常的可能性越高,则服务器的健康程度越低。因此,为了准确地确定服务器在预设时间段内的健康程度,计算预设时间段内的平均得分。以步骤S14为例,在2023年1月1日至2023年2月1日第一次检测的得分为2.4,假设,第二次检测的得分为8.75,则2023年1月1日至2023年2月1日的平均得分为(2.4+8.75)/2=5.575。
本申请实施例的一种可能的实现方式,当前运行数据包括当前CPU使用率方法还包括:步骤S17(图中未示出)、步骤S18(图中未示出)以及步骤S19(图中未示出),其中,
步骤S17,获取历史中每次检测的历史CPU使用率以及对应的历史异常类型。
在本申请实施例中,电子设备可以通过监控系统的历史记录获取历史CPU使用率以及对应的历史异常类型,电子设备也可以向历史数据库发送访问请求,历史数据库通过电子设备的访问请求,然后将历史CPU使用率以及对应的历史异常类型反馈给电子设备。
步骤S18,基于当前CPU使用率、历史CPU使用率以及历史异常类型确定目标异常类型。
在本申请实施例中,每个历史CPU使用率对应有相应的历史异常类型,当当前CPU使用率与历史CPU使用率相同时,则说明当前CPU使用率下的异常类型和历史CPU使用率对应的历史异常类型可能相同,因此,为了快速确定服务器存在的异常类型,根据当前CPU使用率、历史CPU使用率以及历史异常类型确定目标异常类型,进而使得可以优先对目标异常类型进行检测,提高检测效率。
步骤S19,对目标异常类型进行检测,得到检测结果。
在本申请实施例中,由于目标异常类型为当前CPU使用率与历史CPU使用率相同时,历史CPU使用率对应的历史异常类型,为了确定目标异常类型的准确性,从而对目标异常类型进行检测,得到检测结果,即确定目标异常类型是否存在异常。
本申请实施例的一种可能的实现方式,基于当前CPU使用率、历史CPU使用率以及历史异常类型确定目标异常类型包括:步骤S181(图中未示出)、步骤S182(图中未示出)以及步骤S183(图中未示出),其中,
步骤S181,基于历史异常类型,生成每次服务器故障检测时历史CPU使用率对应的历史异常类型变化折线图。
在本申请实施例中,建立历史CPU与历史异常类型数量坐标系,X轴为历史CPU使用率,Y轴为不同检测时间对应的历史异常类型数量,将不同检测时间的历史异常类型数量与Y轴对应标记,从而得到历史异常类型数量的折线图,进而可以直观的观察不同历史CPU使用率下历史异常类型的变化。假设,2023年1月1日至2023年5月1日的检测次数为4次,即2023年1月15日检测到CPU使用率为8%,历史异常类型为2个,即历史异常类型D以及历史异常类型E、2023年2月15日检测到CPU使用率为10%,历史异常类型为4个,即历史异常类型A、历史异常类型B、历史异常类型C以及历史异常类型D、2023年3月15日检测到CPU使用率为15%,历史异常类型为6个,即历史异常类型A、历史异常类型B、历史异常类型C、历史异常类型D、历史异常类型E以及历史异常类型F、2023年4月15日检测到CPU使用率为13%,历史异常类型为5个,即历史异常类型B、历史异常类型C、历史异常类型D、历史异常类型E以及历史异常类型F。
步骤S182,确定当前CPU使用率。
在本申请实施例中,电子设备通过访问任务管理器确定当前CPU使用率。CPU使用率表征电子设备运行的程序占用的CPU资源,CPU使用率越高,说明电子设备运行的程序越多。因此为了准确地确定电子设备发生异常的类型从而确定当前CPU使用率。
步骤S183,将当前CPU使用率与折线图进行匹配,确定目标异常类型,目标异常类型为当前CPU使用率与历史CPU使用率相同时,历史CPU使用率对应的历史异常类型。
在本申请实施例中,将当前CPU使用率与历史CPU使用率进行比较,确定当前CPU使用率在折线图中对应的坐标点,从而确定历史CPU使用率对应的历史异常类型,由于当前CPU使用率与历史CPU使用率相同时,则说明电子设备运行程序占用的CPU资源相似,因此,将历史CPU使用率对应的历史异常类型确定为当前CPU使用率对应的异常类型,即目标异常类型,从而对目标异常类型进行检测,可以快速便捷地知道服务器是否发生异常。
假设,当前CPU使用率为13%,以步骤S181为例,由于历史异常类型为5个,即历史异常类型B、历史异常类型C、历史异常类型D、历史异常类型E以及历史异常类型F,即目标异常类型为目标异常类型B、目标异常类型C、目标异常类型D、目标异常类型E以及目标异常类型F。
本申请实施例的一种可能的实现方式,方法还包括:步骤S20(图中未示出)以及步骤S21(图中未示出),其中,
步骤S20,基于检测结果生成报警信息。
在本申请实施例中,通过检测得到检测结果后,电子设备对检测结果进行整合,生成报警信息。以步骤S183为例,目标异常类型为目标异常类型B、目标异常类型C、目标异常类型D、目标异常类型E以及目标异常类型F,其中检测结果为目标异常类型B、目标异常类型C、目标异常类型D、目标异常类型E以及目标异常类型F均发生异常。电子设备生成报警信息“目标异常类型B、目标异常类型C、目标异常类型D、目标异常类型E以及目标异常类型F均异常”
步骤S21,输出报警信息。
在本申请实施例中,电子设备生成报警信息后,可将报警信息发送至目标终端设备,以使得目标终端设备对应的工作人员及时得知报警信息,从而便于对服务器修护。
上述实施例从方法流程的角度介绍基于人工智能的服务器故障检测方法,下述实施例从虚拟模块或者虚拟单元的角度介绍了基于人工智能的服务器故障检测装置30,具体详见下述实施例。
本申请实施例提供基于人工智能的服务器故障检测装置30,如图2所示,基于人工智能的服务器故障检测装置30具体可以包括:
本申请实施例的一种可能的实现方式,基于人工智能的服务器故障检测装置30,包括:
数据获取模块301,用于获取服务器的当前运行数据;
异常确定模块302,用于将当前运行数据输入至预先训练的预测模型中,确定当前异常数据以及当前异常数据对应的当前异常类型;
概率确定模块303,用于根据当前异常类型,确定目标故障概率,目标故障概率为当前异常类型在历史数据库中对应的故障概率;
结果确定模块304,用于对目标故障概率大于预设故障概率阈值的当前异常类型进行检测,得到检测结果。
本申请实施例提供了基于人工智能的服务器故障检测装置30,其中,数据获取模块301获取服务器的当前运行数据,由于预测模型表征服务器在运行时的运行数据与类型之间的关系,以及运行数据出现异常时的变化规律,因此,异常确定模块302将获取到的当前运行数据输入至预测模型中,从而可以准确地确定当前异常数据以及当前异常数据对应的当前异常类型,然后概率确定模块303通过历史数据库确定当前异常类型对应的目标故障概率,有助于准确地预测运行数据可能出现故障的概率;目标故障概率大于预设故障概率阈值说明服务器在运行时出现该故障的次数比较多,因此,根据预设故障阈值进一步筛选进行检测的异常类型,结果确定模块304对目标故障概率大于预设故障概率阈值的当前异常类型进行检测,得到检测结果,从而提高服务器检测的效率。
本申请实施例的一种可能的实现方式,概率确定模块303在根据当前异常类型,确定目标故障概率时,具体用于:
获取预设时间段内的检测次数以及历史异常类型的数量;
对检测次数以及历史异常类型的数量进行计算,得到历史异常类型的故障概率;
基于历史异常类型以及当前异常类型,确定目标异常类型,目标异常类型为历史异常数据与当前异常数据相同的异常数据对应的异常类型;
将目标异常类型对应的故障概率确定为目标故障概率。
本申请实施例的一种可能的实现方式,装置30还包括:
等级获取模块,用于获取预设时间段内服务器多次故障检测时各自对应的历史异常类型数量以及每个历史异常类型的异常等级;
得分确定模块,用于根据历史异常类型数量以及异常等级进行计算,得到预设时间段内的平均得分;
得分输出模块,用于输出平均得分。
本申请实施例的一种可能的实现方式,得分确定模块在根据历史异常类型数量以及异常等级进行计算,得到预设时间段内的平均得分时,具体用于:
基于历史异常类型数量、平均异常等级以及各自对应的权重确定每次服务器故障检测时的得分,平均异常等级为每次服务器故障检测中的全部历史异常类型的平均异常等级;
基于每次服务器故障检测时的得分,确定预设时间段内的平均得分。
本申请实施例的一种可能的实现方式,当前运行数据包括当前CPU使用率,装置30还包括:
使用率获取模块,用于获取历史中每次检测的历史CPU使用率以及对应的历史异常类型;
目标异常类型确定模块,用于基于当前CPU使用率、历史CPU使用率以及历史异常类型确定目标异常类型;
检测结果确定模块,用于对目标异常类型进行检测,得到检测结果。
本申请实施例的一种可能的实现方式,目标异常类型确定模块在基于当前CPU使用率、历史CPU使用率以及历史异常类型确定目标异常类型时,具体用于:
基于历史异常类型,生成每次服务器故障检测时历史CPU使用率对应的历史异常类型变化折线图;
确定当前CPU使用率;
将当前CPU使用率与历史CPU进行匹配,确定目标异常类型,目标异常类型为当前CPU使用率与历史CPU使用率相同时,历史CPU使用率对应的历史异常类型。
本申请实施例的一种可能的实现方式,装置30还包括:
信息生成装置,用于基于检测结果生成报警信息;
信息输出装置,用于输出报警信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例中提供了一种电子设备,如图3所示,图3所示的电子设备40包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。可选地,电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结构并不构成对本申请实施例的限定。
处理器401可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一型的总线。
存储器403可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图3示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与相关技术相比,本申请实施例中获取当前运行数据,由于预测模型表征服务器在运行时的运行数据与类型之间的关系,以及运行数据出现异常时的变化规律,因此将获取到的当前运行数据输入至预测模型中,从而可以准确地确定当前异常数据以及当前异常数据对应的当前异常类型,然后通过历史数据库确定当前异常类型对应的目标故障概率,有助于准确地预测运行数据可能出现故障的概率;目标故障概率大于预设故障概率阈值说明服务器在运行时出现该故障的次数比较多,因此,根据预设故障阈值进一步筛选进行检测的异常类型,对目标故障概率大于预设故障概率阈值的当前异常类型进行检测,得到检测结果,从而提高服务器检测的效率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.基于人工智能的服务器故障检测方法,其特征在于,包括:
获取服务器的当前运行数据;
将所述当前运行数据输入至预先训练的预测模型中,确定当前异常数据以及所述当前异常数据对应的当前异常类型;
根据所述当前异常类型,确定目标故障概率,所述目标故障概率为所述当前异常类型在历史数据库中对应的故障概率;
对所述目标故障概率大于预设故障概率阈值的所述当前异常类型进行检测,得到检测结果。
2.根据权利要求1所述的基于人工智能的服务器故障检测方法,其特征在于,所述根据所述当前异常类型,确定目标故障概率包括:
获取预设时间段内的检测次数以及历史异常类型的数量;
对所述检测次数以及所述历史异常类型的数量进行计算,得到所述历史异常类型的故障概率;
基于所述历史异常类型以及所述当前异常类型,确定目标异常类型,所述目标异常类型为历史异常数据与所述当前异常数据相同的异常数据对应的异常类型;
将所述目标异常类型对应的故障概率确定为目标故障概率。
3.根据权利要求2所述的基于人工智能的服务器故障检测方法,其特征在于,所述方法还包括:
获取预设时间段内所述服务器多次故障检测时各自对应的历史异常类型数量以及每个历史异常类型的异常等级;
根据所述历史异常类型数量以及所述异常等级进行计算,得到所述预设时间段内的平均得分;
输出所述平均得分。
4.根据权利要求3所述的基于人工智能的服务器故障检测方法,其特征在于,所述根据所述历史异常类型数量以及所述异常等级进行计算,得到所述预设时间段内的平均得分包括:
基于所述历史异常类型数量、平均异常等级以及各自对应的权重确定每次服务器故障检测时的得分,所述平均异常等级为所述每次服务器故障检测中的全部历史异常类型的平均异常等级;
基于所述每次服务器故障检测时的得分,确定所述预设时间段内的平均得分。
5.根据权利要求2所述的基于人工智能的服务器故障检测方法,其特征在于,所述当前运行数据包括当前CPU使用率,所述方法还包括:
获取历史中每次检测的历史CPU使用率以及对应的历史异常类型;
基于所述当前CPU使用率、所述历史CPU使用率以及所述历史异常类型确定目标异常类型;
对所述目标异常类型进行检测,得到检测结果。
6.根据权利要求5所述的基于人工智能的服务器故障检测方法,其特征在于,所述基于所述当前CPU使用率、所述历史CPU使用率以及所述历史异常类型确定目标异常类型包括:
基于所述历史异常类型,生成每次服务器故障检测时所述历史CPU使用率对应的历史异常类型变化折线图;
确定当前CPU使用率;
将所述当前CPU使用率与所述历史CPU进行匹配,确定所述目标异常类型,所述目标异常类型为所述当前CPU使用率与所述历史CPU使用率相同时,所述历史CPU使用率对应的历史异常类型。
7.根据权利要求1或5任一项所述的基于人工智能的服务器故障检测方法,其特征在于,所述方法还包括:
基于所述检测结果生成报警信息;
输出报警信息。
8.基于人工智能的服务器故障检测装置,其特征在于,包括:
数据获取模块,用于获取服务器的当前运行数据;
异常确定模块,用于将所述当前运行数据输入至预先训练的预测模型中,确定当前异常数据以及所述当前异常数据对应的当前异常类型;
概率确定模块,用于根据所述当前异常类型,确定目标故障概率,所述目标故障概率为所述当前异常类型在历史数据库中对应的故障概率;
结果确定模块,用于对所述目标故障概率大于预设故障概率阈值的所述当前异常类型进行检测,得到检测结果。
9.一种电子设备,其特征在于,其包括:
至少一个处理器;
存储器;
至少一个应用程序,其中所述至少一个应用程序被存储在所述存储器中并被配置为由所述至少一个处理器执行,所述至少一个应用程序:用于执行根据权利要求1~7任一项所述的基于人工智能的服务器故障检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1~7任一项所述的基于人工智能的服务器故障检测方法。
CN202410085839.3A 2024-01-22 2024-01-22 基于人工智能的服务器故障检测方法、装置、设备及介质 Pending CN117608974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410085839.3A CN117608974A (zh) 2024-01-22 2024-01-22 基于人工智能的服务器故障检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410085839.3A CN117608974A (zh) 2024-01-22 2024-01-22 基于人工智能的服务器故障检测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117608974A true CN117608974A (zh) 2024-02-27

Family

ID=89956485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410085839.3A Pending CN117608974A (zh) 2024-01-22 2024-01-22 基于人工智能的服务器故障检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117608974A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108111359A (zh) * 2018-01-19 2018-06-01 北京奇艺世纪科技有限公司 一种监控处理方法、装置及监控处理系统
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN112365066A (zh) * 2020-11-17 2021-02-12 日立楼宇技术(广州)有限公司 电梯故障预测方法、系统、装置、计算机设备和存储介质
CN117234844A (zh) * 2023-09-07 2023-12-15 中国平安财产保险股份有限公司 云服务器异常管理方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108111359A (zh) * 2018-01-19 2018-06-01 北京奇艺世纪科技有限公司 一种监控处理方法、装置及监控处理系统
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN112365066A (zh) * 2020-11-17 2021-02-12 日立楼宇技术(广州)有限公司 电梯故障预测方法、系统、装置、计算机设备和存储介质
CN117234844A (zh) * 2023-09-07 2023-12-15 中国平安财产保险股份有限公司 云服务器异常管理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN108564181B (zh) 电力设备故障检测与维修方法及终端设备
CN111143102B (zh) 异常数据检测方法、装置、存储介质及电子设备
CN108573355B (zh) 模型更新后替换运行的方法、装置、及业务服务器
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
CN106407052B (zh) 一种检测磁盘的方法及装置
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
CN109976971B (zh) 硬盘状态监测方法和装置
CN107391335B (zh) 一种用于检查集群健康状态的方法和设备
CN116502166B (zh) 一种对目标设备故障预测的方法、装置、设备和介质
CN113837596B (zh) 一种故障确定方法、装置、电子设备及存储介质
CN112286771A (zh) 一种针对全域资源监控的告警方法
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
WO2014204470A1 (en) Generating a fingerprint representing a response of an application to a simulation of a fault of an external service
CN115115190A (zh) 一种基于工况的质量监控方法及相关装置和程序介质产品
CN114063582A (zh) 用于监控产品测试过程的方法和装置
CN115904883B (zh) 一种rpa流程执行可视化异常监控方法、装置及介质
US20170302506A1 (en) Methods and apparatus for fault detection
CN111783883A (zh) 一种异常数据的检测方法及装置
CN111597093B (zh) 一种异常处理方法、装置及其设备
CN112116204A (zh) 一种动态风险评估方法、装置、电子设备及存储介质
CN117608974A (zh) 基于人工智能的服务器故障检测方法、装置、设备及介质
US20230177152A1 (en) Method, apparatus, and computer-readable recording medium for performing machine learning-based observation level measurement using server system log and performing risk calculation using the same
JP2007164346A (ja) 決定木変更方法、異常性判定方法およびプログラム
CN110910061A (zh) 一种物料管理方法、系统、存储介质以及电子设备
CN115509853A (zh) 一种集群数据异常检测方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination