CN114826971B - 一种服务器异常检测方法、装置、设备及可读存储介质 - Google Patents

一种服务器异常检测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114826971B
CN114826971B CN202210738323.5A CN202210738323A CN114826971B CN 114826971 B CN114826971 B CN 114826971B CN 202210738323 A CN202210738323 A CN 202210738323A CN 114826971 B CN114826971 B CN 114826971B
Authority
CN
China
Prior art keywords
data
abnormal
server system
server
system data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210738323.5A
Other languages
English (en)
Other versions
CN114826971A (zh
Inventor
邹德强
满宏涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210738323.5A priority Critical patent/CN114826971B/zh
Publication of CN114826971A publication Critical patent/CN114826971A/zh
Application granted granted Critical
Publication of CN114826971B publication Critical patent/CN114826971B/zh
Priority to PCT/CN2023/078528 priority patent/WO2024001254A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20718Forced ventilation of a gaseous coolant
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Thermal Sciences (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器异常检测方法,包括:对接收到的各服务器系统数据进行特征提取;根据提取到的各特征数据进行二叉树构建;计算在构建得到的二叉树群中各服务器系统数据分别对应的平均路径长度;当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据;基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型;结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。本发明提高检测效率,有效规避一般基于距离异常检测等高负荷计算的弊端。本发明还公开了一种装置、设备及存储介质,具有相应技术效果。

Description

一种服务器异常检测方法、装置、设备及可读存储介质
技术领域
本发明涉及人工智能与异常检测技术领域,特别是涉及一种服务器异常检测方法、装置、设备及计算机可读存储介质。
背景技术
异常检测是检测数据集中不符合逻辑的异常数据,即离群点、不一致点、特殊点,适用于系统健康检测、传感器网络事件检测、故障检测等,保障系统生态的正常运作。异常检测属于机器学习的应用之一,概括来说,算法原理基于概率统计、基于最近邻、基于聚类等角度,有许多经典算法及衍生算法,又可分为有监督学习、无监督学习和半监督学习等。
BMC(Baseboard Management Controller,基板管理控制器),是整个服务器系统的“大管家”,具有一系列的监视和控制功能,利用传感器监视系统部件温度、湿度、电压、风扇、电源、通信参数、操作系统函数等,做适合的调节,保持系统处于健康状态。BMC 具有丰富的解决方案,服务器带内与带外的联合监控方式,可以调取任何系统的状态信息,如 CPU(Central Processing Unit,中央处理器)负载、内存使用率、网络流量、扇区磁盘通道数量等。
当前,BMC 在服务器系统的检测中,一般使用阈值作为判断条件,当温度超出阈值后,利用风扇将温度降下来,保持系统处于健康状态。然而,这种条件反射略有滞后,高温对部件的损害是不可逆的,会降低部件寿命。当服务器发生重大系统风险时,风扇降温的效果微弱,待机、死机等不良后果,若未能做出合理的反应及调整,会造成文件丢失等情况,带来重大的经济损失,也给生产安全带来隐患。在预研的 BMC 方案中,传统基于机器学习的异常检测,尤其基于距离,易发生计算爆炸。
综上所述,如何有效地解决现有的服务器异常检测方法条件反射滞后,降低部件寿命,易发生计算爆炸等问题,是目前本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种服务器异常检测方法,该方法通过双端协同异常检测,可以科学分配计算资源,防止计算量爆炸,提高检测效率,有效规避一般基于距离异常检测等高负荷计算的弊端;本发明的另一目的是提供一种服务器异常检测装置、设备及计算机可读存储介质。
为解决上述技术问题,本发明提供如下技术方案:
一种服务器异常检测方法,包括:
接收各服务器系统数据;
对各所述服务器系统数据进行特征提取,得到各特征数据;
根据各所述特征数据进行二叉树构建,得到各二叉树;
计算在由各所述二叉树构成的二叉树群中各所述服务器系统数据分别对应的平均路径长度;
当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据;
基于各所述正常数据建立第一多元高斯分布模型,并基于各所述异常数据建立第二多元高斯分布模型;
结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测。
在本发明的一种具体实施方式中,结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测,包括:
利用所述第一多元高斯分布模型计算各所述服务器系统数据分别对应的正常概率,并利用所述第二多元高斯分布模型计算各所述服务器系统数据分别对应的异常概率;
获取预设的正常概率阈值和异常概率阈值,针对每个服务器系统数据,结合所述正常概率阈值、所述异常概率阈值以及所述服务器系统数据对应的正常概率和异常概率进行叠加异常检测。
在本发明的一种具体实施方式中,当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,还包括:
获取第一异常检测结果;
将所述第一异常检测结果反馈至基板管理控制器,以使所述基板管理控制器控制风扇对相应系统部件进行降温操作。
在本发明的一种具体实施方式中,在针对每个服务器系统数据,结合所述正常概率阈值、所述异常概率阈值以及所述服务器系统数据对应的正常概率和异常概率进行叠加异常检测之后,还包括:
获取叠加异常检测得到的第二异常检测结果;
结合所述第一异常检测结果和所述第二异常检测结果进行服务器异常维护操作。
在本发明的一种具体实施方式中,结合所述第一异常检测结果和所述第二异常检测结果进行服务器异常维护操作,包括:
当所述第一异常检测结果为存在异常数据,且所述第二异常检测结果为存在正常概率不在所述正常概率阈值内且异常概率在所述异常概率阈值内的服务器系统数据时,向所述基板管理控制器发送磁盘封存指令,以使所述基板管理控制器进行磁盘封存操作,并向上级发送异常检测报告;
当所述第一异常检测结果为存在异常数据且所述第二异常检测结果为不存在异常概率在所述异常概率阈值内的服务器系统数据时,向所述基板管理控制器发送风扇控制指令,以使所述基板管理控制器控制风扇对相应系统部件进行降温操作;
当所述第一异常检测结果为存在异常数据,且所述第二异常检测结果为存在正常概率在所述正常概率阈值内且异常概率在所述异常概率阈值内的服务器系统数据时,向所述基板管理控制器发送风扇控制指令,以使所述基板管理控制器控制风扇对相应系统部件进行降温操作。
在本发明的一种具体实施方式中,根据各所述特征数据进行二叉树构建,包括:
利用所述基板管理控制器中各分布式计算结构单元根据各所述特征数据并行进行预设数量的二叉树构建。
在本发明的一种具体实施方式中,当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据,包括:
根据各所述平均路径长度分别计算各所述服务器系统数据在所述二叉树群中的异常得分;
当根据各所述异常得分检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据。
在本发明的一种具体实施方式中,在接收各服务器系统数据之后,还包括:
将各所述服务器系统数据存储至具有队列属性的临时储存模块中;
对各所述服务器系统数据进行特征提取,包括:
从所述临时储存模块中获取各所述服务器系统数据,并对各所述服务器系统数据进行特征提取。
在本发明的一种具体实施方式中,在结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测之后,还包括:
当各所述服务器系统数据中存在异常数据时,对所述临时储存模块中的异常数据进行剔除操作。
在本发明的一种具体实施方式中,对各所述服务器系统数据进行特征提取,包括:
从各服务器系统数据中随机选取预设数量的服务器系统数据;
对选取到的各所述服务器系统数据进行特征提取。
在本发明的一种具体实施方式中,计算在由各所述二叉树构成的二叉树群中各所述服务器系统数据分别对应的平均路径长度,包括:
在由各所述二叉树构成的二叉树群中,针对每个服务器系统数据计算所述服务器系统数据在每个二叉树中所在叶子节点到根节点的距离,得到所述服务器系统数据在每个二叉树上的路径长;
对各二叉树上的路径长进行均值计算,得到所述服务器系统数据对应的平均路径长度。
在本发明的一种具体实施方式中,当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据,包括:
当确定存在小于预设异常路径长度阈值的平均路径长度时,获取远端对各所述服务器系统数据进行分流得到的各所述正常数据和各所述异常数据。
一种服务器异常检测装置,包括:
数据接收模块,用于接收各服务器系统数据;
特征提取模块,用于对各所述服务器系统数据进行特征提取,得到各特征数据;
二叉树构建模块,用于根据各所述特征数据进行二叉树构建,得到各二叉树;
路径长度计算模块,用于计算在由各所述二叉树构成的二叉树群中各所述服务器系统数据分别对应的平均路径长度;
数据获取模块,用于当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据;
模型建立模块,用于基于各所述正常数据建立第一多元高斯分布模型,并基于各所述异常数据建立第二多元高斯分布模型;
叠加异常检测模块,用于结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测。
一种服务器异常检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前所述服务器异常检测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述服务器异常检测方法的步骤。
本发明所提供的服务器异常检测方法,接收各服务器系统数据;对各服务器系统数据进行特征提取,得到各特征数据;根据各特征数据进行二叉树构建,得到各二叉树;计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度;当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据;基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型;结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
由上述技术方案可知,通过在近端对接收到的各服务器系统数据进行特征提取,根据提取到的各特征数据构建得到各二叉树,计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度,根据各平均路径长度对各服务器系统数据进行初始异常检测。远端在接收到各服务器系统数据时,会预先将各服务器系统数据分流为各正常数据和各异常数据,当在近端进行初始异常检测的检测结果为存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据,并基于各正常数据和各异常数据分别进行建立多元高斯分布模型,从而在远端对各服务器系统数据进行叠加异常检测。近端异常检测具有边缘计算的特点,省略数据传输过程,反应速度更快。当近端检测到服务器系统数据发生异常后,可以及时在系统部件升温之初或未升温前对部件进行保护,防止高温对部件的损坏,也可保持系统的最优工作状态,高效输出。远端使用多元高斯分布模型进行全局异常检测,由近端异常检测触发,作叠加异常检测,预知服务器待机、死机等重大风险,进而可以提前采取维护措施。通过双端协同异常检测,可以科学分配计算资源,防止计算量爆炸,提高检测效率,有效规避一般基于距离异常检测等高负荷计算的弊端。
相应的,本发明还提供了与上述服务器异常检测方法相对应的服务器异常检测装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中服务器异常检测方法的一种实施流程图;
图2为本发明实施例中服务器异常检测方法的另一种实施流程图;
图3为本发明实施例中一种服务器异常检测装置的结构框图;
图4为本发明实施例中一种服务器异常检测设备的结构框图;
图5为本实施例提供的一种服务器异常检测设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1为本发明实施例中服务器异常检测方法的一种实施流程图,该方法可以包括以下步骤:
S101:接收各服务器系统数据。
在服务器运行过程中,会生成各系统部件分别对应的服务器系统数据,基板管理控制器接收各服务器系统数据。
S102:对各服务器系统数据进行特征提取,得到各特征数据。
在接收到各服务器系统数据之后,对各服务器系统数据进行特征提取,得到各特征数据。特征数据可以包括CPU温度、电压、内存使用率、CPU负载、网络流量等。
在本发明的一种具体实施方式中,在步骤S101之后,该方法还可以包括以下步骤:
将各服务器系统数据存储至具有队列属性的临时储存模块中;
相应的,对各服务器系统数据进行特征提取,可以包括以下步骤:
从临时储存模块中获取各服务器系统数据,并对各服务器系统数据进行特征提取。
基板管理控制器中包含集成在芯片内部的临时储存模块,基板管理控制器在接收到各服务器系统数据之后,可以将各服务器系统数据存储至临时储存模块。临时储存模块可以设置为具有队列属性的储存单元,即数据先入先出,用于临时储存服务器系统数据。当临时储存模块饱和后,数据滑动储存,左端滑入一个单位数据
Figure 753547DEST_PATH_IMAGE001
,右端滑出一个单位数据,新滑入的单位数据标记为待检测数据点
Figure 207662DEST_PATH_IMAGE001
。初始期存在数据收集过程,当临时储存模块饱和后,边缘端(即近端)异常检测环境就绪。假定服务器系统每 15 分钟产生一个状态信息,即一个单位数据,临时储存模块滑入一个单位数据。
在本发明的一种具体实施方式中,对各服务器系统数据进行特征提取,可以包括以下步骤:
步骤一:从各服务器系统数据中随机选取预设数量的服务器系统数据;
步骤二:对选取到的各服务器系统数据进行特征提取。
为方便描述,可以将上述两个步骤结合起来进行说明。
还可以在接收到各服务器系统数据之后,先从所有的服务器系统数据中随机选取预设数量的服务器系统数据,即随机选择出一部分服务器系统数据,仅对选取的各服务器系统数据进行特征提取。通过随机选取一部分服务器系统数据进行特征提取,并从提取到的所有特征中选择出一部分特征进行二叉树构建,既可以保证每棵树上服务器系统数据的多样性,还可以减少内存的消耗,可避免维度灾难。选择特征时,可以通过随机选择方式进行特征选择,充分利用随机选择速度快的优势,也可以通过使用峰度检验的方式进行特征选择,从而保证有较好的特征选取效果。
S103:根据各特征数据进行二叉树构建,得到各二叉树。
在从各服务器系统数据中提取到各特征数据之后,根据各特征数据进行二叉树构建,如可以利用袋装法进行二叉树构建,得到各二叉树。
在构建二叉树时,将选取的各服务器系统数据放到根节点,随机从预先选择的各特征数据中选择一个特征,在当前特征中随机产生一个切割点c,切割点c产生于该特征的最小值和最大值之间,以此切割点生成一个超平面,将服务器系统数据空间切分成两个子空间,将该特征下小于c的服务器系统数据放在左子树,将该特征下大于等于c的服务器系统数据放在右子树。各子树递归步骤分割服务器系统数据,不断构造新的子树,直到遇到满足终止条件。
终止条件可以包括:
(1)分割出待检测点;
(2)子树已到达限定高度
Figure 596049DEST_PATH_IMAGE002
,其中,
Figure 994670DEST_PATH_IMAGE003
为预先选取的服务器系统数据总数;
(3)子树上的服务器系统数据所有特征值相同;
(4)子树无法继续分割。
S104:计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度。
在构建得到各二叉树之后,计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度。
在本发明的一种具体实施方式中,步骤S104可以包括以下步骤:
步骤一:在由各二叉树构成的二叉树群中,针对每个服务器系统数据计算服务器系统数据在每个二叉树中所在叶子节点到根节点的距离,得到服务器系统数据在每个二叉树上的路径长;
步骤二:对各二叉树上的路径长进行均值计算,得到服务器系统数据对应的平均路径长度。
为方便描述,可以将上述两个步骤结合起来进行说明。
在计算各服务器系统数据分别对应的平均路径长度时,首先针对每个服务器系统数据计算其在每个二叉树中所在叶子节点到根节点的距离,分别得到该服务器系统数据在每个二叉树上的路径长
Figure 782497DEST_PATH_IMAGE004
。再对各二叉树上的路径长
Figure 700906DEST_PATH_IMAGE004
进行均值计算,得到该服务器系统数据对应的平均路径长度
Figure 915986DEST_PATH_IMAGE005
S105:当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
在计算得到在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度之后,根据各平均路径长度判断各服务器系统数据中是否存在异常数据。服务器系统数据在发送至近端的同时,也会将相同的服务器系统数据发送至远端(如云平台),远端会将各服务器系统数据分流为各正常数据和各异常数据。当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,触发远端异常检测,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
在本发明的一种具体实施方式中,步骤S105可以包括以下步骤:
步骤一:根据各平均路径长度分别计算各服务器系统数据在二叉树群中的异常得分;
步骤二:当根据各异常得分检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
为方便描述,可以将上述两个步骤结合起来进行说明。
在计算得到在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度之后,可以根据各平均路径长度分别计算各服务器系统数据在二叉树群中的异常得分。当根据各异常得分检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
可以根据异常得分与平均路径长度及二叉树高度之间的关系,进行异常得分计算。给定一个n个样本的数据集,二叉树的高度为:
Figure 801903DEST_PATH_IMAGE006
其中,
Figure 127842DEST_PATH_IMAGE007
为调和数。
异常得分可以将异常概念映射到[0,1]区间,定义如下:
Figure 166336DEST_PATH_IMAGE008
设置阈值
Figure 286739DEST_PATH_IMAGE009
Figure 925531DEST_PATH_IMAGE009
Figure 789582DEST_PATH_IMAGE010
是映射关系,即一一对应,映射公式为:
Figure 676723DEST_PATH_IMAGE011
。当且仅当
Figure 233606DEST_PATH_IMAGE012
时,待检测服务器系统数据
Figure 94115DEST_PATH_IMAGE013
被判定为异常。
一般,当
Figure 761857DEST_PATH_IMAGE014
趋向于1时,待检测服务器系统数据
Figure 899577DEST_PATH_IMAGE013
被判定为异常,当
Figure 502728DEST_PATH_IMAGE014
趋向于0时,待检测服务器系统数据
Figure 584953DEST_PATH_IMAGE013
被判定为正常。
在本发明的一种具体实施方式中,步骤S105可以包括以下步骤:
当确定存在小于预设异常路径长度阈值的平均路径长度时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
一般情况下,异常数据的平均路径长度
Figure 790807DEST_PATH_IMAGE005
偏短,易分割出去。可以预先设定异常路径长度阈值
Figure 48613DEST_PATH_IMAGE015
,当确定存在小于预设异常路径长度阈值的平均路径长度时,如当存在服务器系统数据
Figure 822665DEST_PATH_IMAGE013
的平均路径长
Figure 267552DEST_PATH_IMAGE016
时,样本
Figure 401731DEST_PATH_IMAGE013
被判定为异常。在这种情况下,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
S106:基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型。
在获取到远端对各服务器系统数据进行分流得到的各正常数据和各异常数据之后,基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型。
在对第一多元高斯分布模型建立的过程中,通过以下公式计算
Figure 514043DEST_PATH_IMAGE017
个正常数据的均值
Figure 193417DEST_PATH_IMAGE018
和协方差
Figure 391180DEST_PATH_IMAGE019
Figure 63470DEST_PATH_IMAGE020
Figure 295868DEST_PATH_IMAGE021
可得正常数据的第一多元高斯分布模型
Figure 146144DEST_PATH_IMAGE022
Figure 831203DEST_PATH_IMAGE023
在对第二多元高斯分布模型建立的过程中,通过以下公式计算
Figure 307184DEST_PATH_IMAGE024
个正常数据的均值
Figure 128509DEST_PATH_IMAGE025
和协方差
Figure 805478DEST_PATH_IMAGE026
Figure 587621DEST_PATH_IMAGE027
Figure 477079DEST_PATH_IMAGE028
可得异常数据的概率模型第二多元高斯分布模型
Figure 543124DEST_PATH_IMAGE029
Figure 859836DEST_PATH_IMAGE030
从而得到分别基于各正常数据建立的第一多元高斯分布模型和基于各异常数据建立的第二多元高斯分布模型。
S107:结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
在基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型之后,结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
在本发明的一种具体实施方式中,在步骤S107之后,该方法还可以包括以下步骤:
当各服务器系统数据中存在异常数据时,对临时储存模块中的异常数据进行剔除操作。
当各服务器系统数据中存在异常数据时,对临时储存模块中的异常数据进行剔除操作。
承接上述举例,当待检测数据点
Figure DEST_PATH_IMAGE031
异常时,临时储存模块中数据流不进行滑动,而直接剔除。从而实现对正常数据和异常数据的分离。
由上述技术方案可知,通过在近端对接收到的各服务器系统数据进行特征提取,根据提取到的各特征数据构建得到各二叉树,计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度,根据各平均路径长度对各服务器系统数据进行初始异常检测。远端在接收到各服务器系统数据时,会预先将各服务器系统数据分流为各正常数据和各异常数据,当在近端进行初始异常检测的检测结果为存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据,并基于各正常数据和各异常数据分别进行建立多元高斯分布模型,从而在远端对各服务器系统数据进行叠加异常检测。近端异常检测具有边缘计算的特点,省略数据传输过程,反应速度更快。当近端检测到服务器系统数据发生异常后,可以及时在系统部件升温之初或未升温前对部件进行保护,防止高温对部件的损坏,也可保持系统的最优工作状态,高效输出。远端使用多元高斯分布模型进行全局异常检测,由近端异常检测触发,作叠加异常检测,预知服务器待机、死机等重大风险,进而可以提前采取维护措施。通过双端协同异常检测,可以科学分配计算资源,防止计算量爆炸,提高检测效率,有效规避一般基于距离异常检测等高负荷计算的弊端。
需要说明的是,基于上述实施例,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
参见图2,图2为本发明实施例中服务器异常检测方法的另一种实施流程图,该方法可以包括以下步骤:
S201:接收各服务器系统数据。
S202:对各服务器系统数据进行特征提取,得到各特征数据。
S203:根据各特征数据进行二叉树构建,得到各二叉树。
在本发明的一种具体实施方式中,根据各特征数据进行二叉树构建,可以包括以下步骤:
利用基板管理控制器中各分布式计算结构单元根据各特征数据并行进行预设数量的二叉树构建。
基板管理控制器中存在多个分布式计算结构单元,预先设置待构建的二叉树数量,在二叉树构建时,利用基板管理控制器中各分布式计算结构单元根据各特征数据并行进行预设数量的二叉树构建。通过利用各分布式计算结构单元对各二叉树进行并行构建,较大地提升了二叉树构建效率。
在二叉树的构建过程中加入注意力机制,只关心待检测点
Figure 926012DEST_PATH_IMAGE032
的分割情况,所以二叉树并不需要分割所有数据点,可以提前停止,提升效率。
S204:计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度。
S205:当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取第一异常检测结果。
当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取第一异常检测结果。第一异常检测结果中可以包含具体的是哪个部件出现了异常。
S206:将第一异常检测结果反馈至基板管理控制器,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
在获取到第一异常检测结果之后,将第一异常检测结果反馈至基板管理控制器,基板管理控制器在接收到第一异常检测结果之后,可以解析出具体是哪个系统部件出现了异常,进而控制风扇对相应系统部件进行降温操作,从而当近端检测(或预测)到服务器系统数据发生异常后,可在系统部件升温之初(或未升温前)对部件进行保护,防止高温对部件的损坏,也可保持系统的最优工作状态,高效输出。
S207:获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
S208:基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型。
S209:利用第一多元高斯分布模型计算各服务器系统数据分别对应的正常概率,并利用第二多元高斯分布模型计算各服务器系统数据分别对应的异常概率。
在建立得到第一多元高斯分布模型和第二多元高斯分布模型之后,利用第一多元高斯分布模型计算各服务器系统数据分别对应的正常概率,并利用第二多元高斯分布模型计算各服务器系统数据分别对应的异常概率。
S210:获取预设的正常概率阈值和异常概率阈值,针对每个服务器系统数据,结合正常概率阈值、异常概率阈值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测。
预先设置正常概率阈值和异常概率阈值,获取预设的正常概率阈值和异常概率阈值,针对每个服务器系统数据,结合正常概率阈值、异常概率阈值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测。
承接步骤S106,可以设置阈值
Figure 494528DEST_PATH_IMAGE033
Figure 290446DEST_PATH_IMAGE034
,对于待检测服务器系统数据,当且仅当
Figure 168272DEST_PATH_IMAGE035
Figure 315219DEST_PATH_IMAGE036
时,模型会判断服务器出现(或即将出现)异常,反馈基板管理控制器封存磁盘,并向上级发送报告,以使作业人员合理制定工作计划,保证工作的完整性。
S211:获取叠加异常检测得到的第二异常检测结果。
在结合正常概率阈值、异常概率阈值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测之后,获取叠加异常检测得到的第二异常检测结果。即,通过将服务器系统数据对应的正常概率与正常概率阈值进行对比,并将服务器系统数据对应的异常概率与异常概率阈值进行对比,通过两个对比结果得到第二异常检测结果。
S212:结合第一异常检测结果和第二异常检测结果进行服务器异常维护操作。
在得到第一异常检测结果和第二异常检测结果之后,结合第一异常检测结果和第二异常检测结果进行服务器异常维护操作。
在本发明的一种具体实施方式中,步骤S212可以包括以下步骤:
步骤一:当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率不在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送磁盘封存指令,以使基板管理控制器进行磁盘封存操作,并向上级发送异常检测报告;
步骤二:当第一异常检测结果为存在异常数据且第二异常检测结果为不存在异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作;
步骤三:当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
为方便描述,可以将上述三个步骤结合起来进行说明。
当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率不在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,以正常概率值大于等于
Figure 150408DEST_PATH_IMAGE033
为正常概率阈值范围,异常概率值小于
Figure 800832DEST_PATH_IMAGE034
为异常概率阈值范围,即当
Figure 849560DEST_PATH_IMAGE037
或者
Figure 218224DEST_PATH_IMAGE038
时,说明存在系统部件出现较严重的异常,向基板管理控制器发送磁盘封存指令,基板管理控制器根据磁盘封存指令进行磁盘封存操作,并向上级发送异常检测报告。
当第一异常检测结果为存在异常数据且第二异常检测结果为不存在异常概率在异常概率阈值内的服务器系统数据时,即以正常概率值大于等于
Figure 518755DEST_PATH_IMAGE033
为正常概率阈值范围,异常概率值小于
Figure 633473DEST_PATH_IMAGE034
为异常概率阈值范围,当
Figure 994047DEST_PATH_IMAGE039
或者
Figure 974642DEST_PATH_IMAGE040
时,说明存在系统部件出现较轻的异常,向基板管理控制器发送风扇控制指令,基板管理控制器根据风扇控制指令控制风扇对相应系统部件进行降温操作。
当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,即以正常概率值大于等于
Figure 547705DEST_PATH_IMAGE033
为正常概率阈值范围,异常概率值小于
Figure 48088DEST_PATH_IMAGE034
为异常概率阈值范围,当
Figure 313984DEST_PATH_IMAGE041
或者
Figure 781875DEST_PATH_IMAGE042
时,说明存在系统部件出现较轻的异常,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
若是考虑工程应用场景,也可合理修改模型的计算方式,达到预期效果且计算廉价。假设服务器系统数据特征具有独立性,那么:
Figure 424209DEST_PATH_IMAGE043
其中,
Figure 247939DEST_PATH_IMAGE044
是服务器系统任意特征数据,便有:
Figure 809371DEST_PATH_IMAGE045
Figure 374344DEST_PATH_IMAGE046
那么:
Figure 164577DEST_PATH_IMAGE047
其中,设置阈值
Figure 764185DEST_PATH_IMAGE048
,当且仅当
Figure 496518DEST_PATH_IMAGE049
时,服务器系统数据
Figure 548788DEST_PATH_IMAGE050
判断为异常。
相应于上面的方法实施例,本发明还提供了一种服务器异常检测装置,下文描述的服务器异常检测装置与上文描述的服务器异常检测方法可相互对应参照。
参见图3,图3为本发明实施例中一种服务器异常检测装置的结构框图,该装置可以包括:
数据接收模块31,用于接收各服务器系统数据;
特征提取模块32,用于对各服务器系统数据进行特征提取,得到各特征数据;
二叉树构建模块33,用于根据各特征数据进行二叉树构建,得到各二叉树;
路径长度计算模块34,用于计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度;
数据获取模块35,用于当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据;
模型建立模块36,用于基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型;
叠加异常检测模块37,用于结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
由上述技术方案可知,通过在近端对接收到的各服务器系统数据进行特征提取,根据提取到的各特征数据构建得到各二叉树,计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度,根据各平均路径长度对各服务器系统数据进行初始异常检测。远端在接收到各服务器系统数据时,会预先将各服务器系统数据分流为各正常数据和各异常数据,当在近端进行初始异常检测的检测结果为存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据,并基于各正常数据和各异常数据分别进行建立多元高斯分布模型,从而在远端对各服务器系统数据进行叠加异常检测。近端异常检测具有边缘计算的特点,省略数据传输过程,反应速度更快。当近端检测到服务器系统数据发生异常后,可以及时在系统部件升温之初或未升温前对部件进行保护,防止高温对部件的损坏,也可保持系统的最优工作状态,高效输出。远端使用多元高斯分布模型进行全局异常检测,由近端异常检测触发,作叠加异常检测,预知服务器待机、死机等重大风险,进而可以提前采取维护措施。通过双端协同异常检测,可以科学分配计算资源,防止计算量爆炸,提高检测效率,有效规避一般基于距离异常检测等高负荷计算的弊端。
在本发明的一种具体实施方式中,叠加异常检测模块37包括:
概率计算子模块,用于利用第一多元高斯分布模型计算各服务器系统数据分别对应的正常概率,并利用第二多元高斯分布模型计算各服务器系统数据分别对应的异常概率;
叠加异常检测子模块,用于获取预设的正常概率阈值和异常概率阈值,针对每个服务器系统数据,结合正常概率阈值、异常概率阈值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测。
在本发明的一种具体实施方式中,该装置还可以包括:
第一结果获得模块,用于当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取第一异常检测结果;
部件降温模块,用于将第一异常检测结果反馈至基板管理控制器,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
在本发明的一种具体实施方式中,该装置还可以包括:
第一结果获得模块,在针对每个服务器系统数据,结合正常概率阈值、异常概率阈值以及服务器系统数据对应的正常概率和异常概率进行叠加异常检测之后,获取叠加异常检测得到的第二异常检测结果;
服务器异常维护模块,用于结合第一异常检测结果和第二异常检测结果进行服务器异常维护操作。
在本发明的一种具体实施方式中,服务器异常维护模块包括:
磁盘封存及报告发送子模块,用于当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率不在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送磁盘封存指令,以使基板管理控制器进行磁盘封存操作,并向上级发送异常检测报告;
第一部件降温子模块,用于当第一异常检测结果为存在异常数据且第二异常检测结果为不存在异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作;
第二部件降温子模块,用于当第一异常检测结果为存在异常数据,且第二异常检测结果为存在正常概率在正常概率阈值内且异常概率在异常概率阈值内的服务器系统数据时,向基板管理控制器发送风扇控制指令,以使基板管理控制器控制风扇对相应系统部件进行降温操作。
在本发明的一种具体实施方式中,数据获取模块35包括:
异常得分计算子模块,用于根据各平均路径长度分别计算各服务器系统数据在二叉树群中的异常得分;
数据获取子模块,用于当根据各异常得分检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据。
在本发明的一种具体实施方式中,该装置还可以包括:
数据存储模块,用于在接收各服务器系统数据之后,将各服务器系统数据存储至具有队列属性的临时储存模块中;
特征提取模块32具体为从临时储存模块中获取各服务器系统数据,并对各服务器系统数据进行特征提取的模块。
在本发明的一种具体实施方式中,该装置还可以包括:
数据剔除模块,用于在结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测之后,当各服务器系统数据中存在异常数据时,对临时储存模块中的异常数据进行剔除操作。
在本发明的一种具体实施方式中,特征提取模块32包括:
数据选取子模块,用于从各服务器系统数据中随机选取预设数量的服务器系统数据;
特征提取子模块,用于对选取到的各服务器系统数据进行特征提取。
在本发明的一种具体实施方式中,路径长度计算模块34包括:
路径长计算子模块,用于在由各二叉树构成的二叉树群中,针对每个服务器系统数据计算服务器系统数据在每个二叉树中所在叶子节点到根节点的距离,得到服务器系统数据在每个二叉树上的路径长;
均值计算子模块,用于对各二叉树上的路径长进行均值计算,得到服务器系统数据对应的平均路径长度。
在本发明的一种具体实施方式中,数据获取模块35具体为当确定存在小于预设异常路径长度阈值的平均路径长度时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据的模块。
相应于上面的方法实施例,参见图4,图4为本发明所提供的服务器异常检测设备的示意图,该设备可以包括:
存储器332,用于存储计算机程序;
处理器322,用于执行计算机程序时实现上述方法实施例的服务器异常检测方法的步骤。
具体的,请参考图5,图5为本实施例提供的一种服务器异常检测设备的具体结构示意图,该服务器异常检测设备可因配置或性能不同而产生比较大的差异,可以包括处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,处理器322可以设置为与存储器332通信,在服务器异常检测设备301上执行存储器332中的一系列指令操作。
服务器异常检测设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的服务器异常检测方法中的步骤可以由服务器异常检测设备的结构实现。
相应于上面的方法实施例,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
接收各服务器系统数据;对各服务器系统数据进行特征提取,得到各特征数据;根据各特征数据进行二叉树构建,得到各二叉树;计算在由各二叉树构成的二叉树群中各服务器系统数据分别对应的平均路径长度;当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取远端对各服务器系统数据进行分流得到的各正常数据和各异常数据;基于各正常数据建立第一多元高斯分布模型,并基于各异常数据建立第二多元高斯分布模型;结合第一多元高斯分布模型和第二多元高斯分布模型对各服务器系统数据进行叠加异常检测。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (13)

1.一种服务器异常检测方法,其特征在于,包括:
接收各服务器系统数据;
对各所述服务器系统数据进行特征提取,得到各特征数据;
根据各所述特征数据进行二叉树构建,得到各二叉树;
计算在由各所述二叉树构成的二叉树群中各所述服务器系统数据分别对应的平均路径长度;
当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取第一异常检测结果;
将所述第一异常检测结果反馈至基板管理控制器,以使所述基板管理控制器控制风扇对相应系统部件进行降温操作;
获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据;
基于各所述正常数据建立第一多元高斯分布模型,并基于各所述异常数据建立第二多元高斯分布模型;
结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测;
获取叠加异常检测得到的第二异常检测结果;
结合所述第一异常检测结果和所述第二异常检测结果进行服务器异常维护操作。
2.根据权利要求1所述的服务器异常检测方法,其特征在于,结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测,包括:
利用所述第一多元高斯分布模型计算各所述服务器系统数据分别对应的正常概率,并利用所述第二多元高斯分布模型计算各所述服务器系统数据分别对应的异常概率;
获取预设的正常概率阈值和异常概率阈值,针对每个服务器系统数据,结合所述正常概率阈值、所述异常概率阈值以及所述服务器系统数据对应的正常概率和异常概率进行叠加异常检测。
3.根据权利要求2所述的服务器异常检测方法,其特征在于,结合所述第一异常检测结果和所述第二异常检测结果进行服务器异常维护操作,包括:
当所述第一异常检测结果为存在异常数据,且所述第二异常检测结果为存在正常概率不在所述正常概率阈值内且异常概率在所述异常概率阈值内的服务器系统数据时,向所述基板管理控制器发送磁盘封存指令,以使所述基板管理控制器进行磁盘封存操作,并向上级发送异常检测报告;
当所述第一异常检测结果为存在异常数据且所述第二异常检测结果为不存在异常概率在所述异常概率阈值内的服务器系统数据时,向所述基板管理控制器发送风扇控制指令,以使所述基板管理控制器控制风扇对相应系统部件进行降温操作;
当所述第一异常检测结果为存在异常数据,且所述第二异常检测结果为存在正常概率在所述正常概率阈值内且异常概率在所述异常概率阈值内的服务器系统数据时,向所述基板管理控制器发送风扇控制指令,以使所述基板管理控制器控制风扇对相应系统部件进行降温操作。
4.根据权利要求1所述的服务器异常检测方法,其特征在于,根据各所述特征数据进行二叉树构建,包括:
利用基板管理控制器中各分布式计算结构单元根据各所述特征数据并行进行预设数量的二叉树构建。
5.根据权利要求1至4任一项所述的服务器异常检测方法,其特征在于,当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据,包括:
根据各所述平均路径长度分别计算各所述服务器系统数据在所述二叉树群中的异常得分;
当根据各所述异常得分检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据。
6.根据权利要求1所述的服务器异常检测方法,其特征在于,在接收各服务器系统数据之后,还包括:
将各所述服务器系统数据存储至具有队列属性的临时储存模块中;
对各所述服务器系统数据进行特征提取,包括:
从所述临时储存模块中获取各所述服务器系统数据,并对各所述服务器系统数据进行特征提取。
7.根据权利要求6所述的服务器异常检测方法,其特征在于,在结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测之后,还包括:
当各所述服务器系统数据中存在异常数据时,对所述临时储存模块中的异常数据进行剔除操作。
8.根据权利要求1所述的服务器异常检测方法,其特征在于,对各所述服务器系统数据进行特征提取,包括:
从各服务器系统数据中随机选取预设数量的服务器系统数据;
对选取到的各所述服务器系统数据进行特征提取。
9.根据权利要求1所述的服务器异常检测方法,其特征在于,计算在由各所述二叉树构成的二叉树群中各所述服务器系统数据分别对应的平均路径长度,包括:
在由各所述二叉树构成的二叉树群中,针对每个服务器系统数据计算所述服务器系统数据在每个二叉树中所在叶子节点到根节点的距离,得到所述服务器系统数据在每个二叉树上的路径长;
对各二叉树上的路径长进行均值计算,得到所述服务器系统数据对应的平均路径长度。
10.根据权利要求1所述的服务器异常检测方法,其特征在于,当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据,包括:
当确定存在小于预设异常路径长度阈值的平均路径长度时,获取远端对各所述服务器系统数据进行分流得到的各所述正常数据和各所述异常数据。
11.一种服务器异常检测装置,其特征在于,包括:
数据接收模块,用于接收各服务器系统数据;
特征提取模块,用于对各所述服务器系统数据进行特征提取,得到各特征数据;
二叉树构建模块,用于根据各所述特征数据进行二叉树构建,得到各二叉树;
路径长度计算模块,用于计算在由各所述二叉树构成的二叉树群中各所述服务器系统数据分别对应的平均路径长度;
数据获取模块,用于当根据各所述平均路径长度检测到各所述服务器系统数据中存在异常数据时,获取远端对各所述服务器系统数据进行分流得到的各正常数据和各异常数据;
第一结果获得模块,用于当根据各平均路径长度检测到各服务器系统数据中存在异常数据时,获取第一异常检测结果;
部件降温模块,用于将第一异常检测结果反馈至基板管理控制器,以使基板管理控制器控制风扇对相应系统部件进行降温操作;
模型建立模块,用于基于各所述正常数据建立第一多元高斯分布模型,并基于各所述异常数据建立第二多元高斯分布模型;
叠加异常检测模块,用于结合所述第一多元高斯分布模型和所述第二多元高斯分布模型对各所述服务器系统数据进行叠加异常检测;
第一结果获得模块,用于获取叠加异常检测得到的第二异常检测结果;
服务器异常维护模块,用于结合第一异常检测结果和第二异常检测结果进行服务器异常维护操作。
12.一种服务器异常检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至10任一项所述服务器异常检测方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述服务器异常检测方法的步骤。
CN202210738323.5A 2022-06-28 2022-06-28 一种服务器异常检测方法、装置、设备及可读存储介质 Active CN114826971B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210738323.5A CN114826971B (zh) 2022-06-28 2022-06-28 一种服务器异常检测方法、装置、设备及可读存储介质
PCT/CN2023/078528 WO2024001254A1 (zh) 2022-06-28 2023-02-27 一种服务器异常检测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210738323.5A CN114826971B (zh) 2022-06-28 2022-06-28 一种服务器异常检测方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114826971A CN114826971A (zh) 2022-07-29
CN114826971B true CN114826971B (zh) 2022-12-27

Family

ID=82522604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210738323.5A Active CN114826971B (zh) 2022-06-28 2022-06-28 一种服务器异常检测方法、装置、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN114826971B (zh)
WO (1) WO2024001254A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826971B (zh) * 2022-06-28 2022-12-27 苏州浪潮智能科技有限公司 一种服务器异常检测方法、装置、设备及可读存储介质
CN118012662B (zh) * 2024-04-08 2024-06-18 广东琴智科技研究院有限公司 分布式故障修复方法、智能计算云操作系统以及计算平台

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008082B (zh) * 2019-03-16 2022-06-17 平安科技(深圳)有限公司 异常任务智能监测方法、装置、设备及存储介质
WO2021126243A1 (en) * 2019-12-20 2021-06-24 Cintra Holding US Corp. Systems and methods for detecting and responding to anomalous traffic conditions
CN111666169B (zh) * 2020-05-13 2023-03-28 云南电网有限责任公司信息中心 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法
CN113361186B (zh) * 2021-04-28 2023-04-07 山东大学 一种基于完全数据风电机组故障诊断方法
CN113887932A (zh) * 2021-09-29 2022-01-04 平安医疗健康管理股份有限公司 基于人工智能的运维管控方法、装置、计算机设备
CN114826971B (zh) * 2022-06-28 2022-12-27 苏州浪潮智能科技有限公司 一种服务器异常检测方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
WO2024001254A1 (zh) 2024-01-04
CN114826971A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114826971B (zh) 一种服务器异常检测方法、装置、设备及可读存储介质
US10452845B2 (en) Generic framework to detect cyber threats in electric power grid
Wang et al. The node degree distribution in power grid and its topology robustness under random and selective node removals
WO2020124973A1 (zh) 功率优化方法及其装置、光伏设备和光伏系统
KR102096466B1 (ko) 실시간 데이터베이스를 이용한 원격 제어 및 경보 장치 및 방법
CN112653591B (zh) 一种集线线缆速率平衡方法、系统、终端及存储介质
CN104517041B (zh) 一种基于最大信息熵的化工数据流实时异常检测方法
CN112468339B (zh) 告警处理方法、系统、装置和存储介质
JP5711675B2 (ja) ネットワーク異常検出装置およびネットワーク異常検出方法
CN104763576B (zh) 一种抽水蓄能机组保护辅助信号异常判别和修正方法
CN110838940B (zh) 地下电缆巡检任务配置方法和装置
CN103326367B (zh) 一种基于在线电压稳定指标的集中式低压减载方法
CN117239929A (zh) 电力设备的电力控制方法、装置、设备及存储介质
CN114720128B (zh) 一种电磁轴承控制方法、装置及系统
CN112686501B (zh) 生产线的分析方法、装置、生产线、存储介质及处理器
CN113570473B (zh) 设备故障监测方法、装置、计算机设备和存储介质
CN114912638A (zh) 一种有效运行参数上报的数字电缆
CN212115347U (zh) 一种网络流量数据采集系统
CN110972210B (zh) 基于农业物联网的LoRa网关断网决策方法及装置
CN105892387A (zh) 基于跨平台多点数据采集mpca模型的机房隐患自动上报装置及方法
CN112463045A (zh) 磁盘冗余阵列多样性批量控制方法、装置、设备、产品
CN112989129A (zh) 一种基于图论的输电网重点感知断面识别方法及系统
CN114339468B (zh) 机组设备的数据发送方法、装置、计算机设备和存储介质
CN114484037B (zh) 水阀控制方法及其装置、电子设备和计算机可读存储介质
CN117914007B (zh) 一种构网型储能系统运行监测系统及其监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant