CN116107842A - 列头柜功耗的检测方法、装置、设备及存储介质 - Google Patents

列头柜功耗的检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116107842A
CN116107842A CN202310181658.6A CN202310181658A CN116107842A CN 116107842 A CN116107842 A CN 116107842A CN 202310181658 A CN202310181658 A CN 202310181658A CN 116107842 A CN116107842 A CN 116107842A
Authority
CN
China
Prior art keywords
sub
acquired data
data
server
power consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310181658.6A
Other languages
English (en)
Inventor
王静
阮前
杨敬巍
罗娜
王祎晨
胡建村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310181658.6A priority Critical patent/CN116107842A/zh
Publication of CN116107842A publication Critical patent/CN116107842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种列头柜功耗的检测方法、装置、设备及存储介质。方法包括:获取列头柜所控制的服务器的第一采集数据,每个服务器的第一采集数据包括第一子采集数据,每个第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据;按照加权规则对第一子采集数据中的每种采集数据的最大值进行加权并求取平均值,得到对应的加权平均值;基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值;在功耗检测值大于预设的功耗阈值的时,生成列头柜功耗异常的提示信息。本申请能够列头柜所管理的服务器的采集数据,判断列头柜是否功耗异常。

Description

列头柜功耗的检测方法、装置、设备及存储介质
技术领域
本申请属于通信技术领域,尤其涉及一种列头柜功耗的检测方法、装置、设备及存储介质。
背景技术
随着大数据和云计算技术的普及以及业务量和数据量的增大,导致服务器集群的规模与日俱增,而列头柜作为一组服务器集群功耗控制的基础单元,因此基于列头柜功耗是否异常的准确判断是提升云计算能力的基础环节。目前已有的对于列头柜功耗是否异常的判断手段中仅仅通过利用仪器直接测量列头柜的实际功耗,来判断列头柜是否功耗异常,因此造成判断不准确。
发明内容
本申请实施例提供一种列头柜功耗的检测方法、装置、设备及存储介质,能够与基于列头柜所控制的服务器的中央处理器使用率、磁盘输入输出读写率以及网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据的指标数据,确定列头柜功耗是否异常。
第一方面,本申请实施例提供一种列头柜功耗的检测方法,包括:
获取第一预设时间段内列头柜所控制的至少一个服务器的第一采集数据,每个服务器的第一采集数据包括多个第一子采集数据,每个第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据;
按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值;
分别计算至少一个服务器的每种采集数据分别对应的加权值求取平均值,得到每种采集数据对应的加权平均值;
基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值;
在功耗检测值大于预设的功耗阈值的情况下,生成列头柜功耗异常的提示信息。
可选地,按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值,包括:
获取至少一个服务器中的每个服务器的额定功率;
计算至少一个服务器的额定功率平均值;
将每个服务器的额定功率与额定功率平均值的比值确定为对应服务器的加权系数;
根据加权系数分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权。
可选地,基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值,满足以下条件:
y=a+bf1+cf2+df3+...+nfn
其中,y为功耗检测值,a、b、c、d以及n为常数,f1,f2,f3...fn分别为每种采集数据对应的加权平均值。
可选地,方法还包括:
获取第二预设时间段内列头柜所控制的至少一个服务器的第二采集数据,每个服务器的第二采集数据中包括多个第二子采集数据,每个第二子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据;
根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度;
根据预设的检测分值算法,通过每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值;
对第一检测分值以及第二检测分值进行排序;
在预设数量的较大的检测分值中有大于阈值的检测分值类型为第一检测分值情况下,生成因服务器功耗异常导致列头柜功耗异常的提示信息。
可选地,根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,包括:
分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及
分别将每个服务器的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值;
分别计算每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值落入预设区间的概率,得到每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及
分别计算每个服务器的每个第二子采集数据中的每种采集数据对应的的归一化值落入预设区间的概率,每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度。
可选地,分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及分别将每个服务器的的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值,满足以下条件:
Figure BDA0004104077350000031
其中,xj为每个第一子采集数据中的第i种采集数据对应的第i归一化值,xi为第i归一化值对应的每个第一子采集数据中的第i种采集数据,xmin为多个第一子采集数据中的第i种采集数据的最小值,xmax为多个第一子采集数据中的第i种采集数据的最大值,其中i为整数;或者
xj为每个第二子采集数据中的第j种采集数据对应的第j归一化值,xi为每个第二子采集数据中的第j种采集数据,xmin为多个第二子采集数据中的第j种采集数据的最小值,xmax为多个第二子采集数据中的第j种采集数据的最大值,其中j为整数。
可选地,根据预设的检测分值算法,通过每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值,满足以下条件:
Figure BDA0004104077350000041
其中,HBOS(P)为第一检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第一子采集数据中的每种采集数据对应的概率密度,或者HBOS(P)为第二检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第二子采集数据中的每种采集数据对应的概率密度。
可选地,所述每个服务器的第一子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率;
所述每个服务器的第二子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率。第二方面,本申请实施例提供一种列头柜功耗的检测装置,包括:
获取模块,用于获取第一预设时间段内列头柜所控制的至少一个服务器的第一采集数据,每个服务器的第一采集数据包括多个第一子采集数据,每个第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据;
加权模块,用于按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值;
计算模块,用于分别计算至少一个服务器的每种采集数据分别对应的加权值求取平均值,得到每种采集数据对应的加权平均值;
确定模块,用于基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值;
提示模块,用于在功耗检测值大于预设的功耗阈值的情况下,生成列头柜功耗异常的提示信息。
可选地,加权模块按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值,包括:
获取模块,还用于获取至少一个服务器中的每个服务器的额定功率;
计算模块,还用于计算至少一个服务器的额定功率平均值;
确定模块,还用于将每个服务器的额定功率与额定功率平均值的比值确定为对应服务器的加权系数;
加权模块,还用于根据加权系数分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权。
可选地,确定模块基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值,满足以下条件:
y=a+bf1+cf2+df3+...+nfn
其中,y为功耗检测值,a、b、c、d以及n为常数,f1,f2,f3...fn分别为每种采集数据对应的加权平均值。
可选地,装置还包括:
获取模块,还用于获取第二预设时间段内列头柜所控制的至少一个服务器的第二采集数据,每个服务器的第二采集数据中包括多个第二子采集数据,每个第二子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据;
计算模块,还用于根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度;
确定模块,还用于根据预设的检测分值算法,通过每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值;
排序模块,用于对第一检测分值以及第二检测分值进行排序;
提示模块,还用于在预设数量的较大的检测分值中有大于阈值的检测分值类型为第一检测分值情况下,生成因服务器功耗异常导致列头柜功耗异常的提示信息。
可选地,计算模块根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,包括:
计算模块,还用于分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及
分别将每个服务器的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值;
计算模块,还用于分别计算每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值落入预设区间的概率,得到每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及
计算模块,还用于分别计算每个服务器的每个第二子采集数据中的每种采集数据对应的的归一化值落入预设区间的概率,每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度。
可选地,计算模块分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及分别将每个服务器的的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值,满足以下条件:
Figure BDA0004104077350000071
其中,xj为每个第一子采集数据中的第i种采集数据对应的第i归一化值,xi为第i归一化值对应的每个第一子采集数据中的第i种采集数据,xmin为多个第一子采集数据中的第i种采集数据的最小值,xmax为多个第一子采集数据中的第i种采集数据的最大值,其中i为整数;或者
xj为每个第二子采集数据中的第j种采集数据对应的第j归一化值,xi为每个第二子采集数据中的第j种采集数据,xmin为多个第二子采集数据中的第j种采集数据的最小值,xmax为多个第二子采集数据中的第j种采集数据的最大值,其中j为整数。
可选地,确定模块根据预设的检测分值算法,通过每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值,满足以下条件:
Figure BDA0004104077350000072
其中,HBOS(P)为第一检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第一子采集数据中的每种采集数据对应的概率密度,,,或者HBOS(P)为第二检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第二子采集数据中的每种采集数据对应的概率密度。
可选地,所述每个服务器的第一子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率;
所述每个服务器的第二子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率。
第三方面,本申请实施例提供了一种电子设备,设备包括:
处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时用于执行上述第一方面的列头柜功耗的检测方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述第一方面的列头柜功耗的检测方法。
本申请实施例通过获取至少一个服务器的第一采集数据,第一采集数据中包括由中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据构成的多个第一子采集数据来检测列头柜的功耗是否异常,从而将列头柜功耗的异常信息与列头柜所控制的服务器的上述指标性能联系起来,避免直接通过仪器测量列头柜的功耗带来的测量不准确问题,提高检测列头柜功耗异常的准确率。之后分别计算了多个服务器的每种采集数据的最大值的加权平均值能够减小计算误差,进一步提高检测列头柜功耗值的准确率。最后根据多种采集数据的加权平均值确定列头柜的功耗检测值,通过将检测值与阈值进行比较的方法,简单易实现,不会过多增加系统的运算量。
因此上述方法不仅提高了检测列头柜功耗是否异常的准确率,也具有普适性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个实施例提供的一种列头柜功耗的检测方法的流程示意图。
图2为本申请一个实施例提供的一种预设的加权规则方法的流程示意图。
图3为本申请一个实施例提供的又一种列头柜功耗的检测方法的流程示意图。
图4为本申请一个实施例提供的一种示例性的服务器cpu利用率指标概率密度分布直方图。
图5为本申请一个实施例提供的一种列头柜功耗的检测装置示意图。
图6为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术问题,本申请实施例提供了一种列头柜功耗的检测方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的列头柜功耗的检测方法进行介绍。
目前已有的对于列头柜功耗是否异常的判断手段中仅仅通过利用仪器直接测量列头柜的实际功耗,来判断列头柜是否功耗异常,因此造成判断不准确。并且现有技术只能单纯检测出列头柜的功耗是否异常,无法洞悉影响列头柜功耗异常的内部因素,因此在只检测出列头柜的功耗异常而没有继续判断功耗异常的原因的情况下,对于机房的运维人员来说是极大地考验。因此,本申请实施例提供了一种列头柜功耗的检测方法、装置、设备及计算机存储介质,从而能够解决或部分解决上述问题。
首先,本申请实施例需要筛选出对列头柜功耗影响程度最高的服务器资源利用率的指标特征集,列头柜的功耗由其所控制的所有服务器功耗共同决定,显然服务器资源利用率的变化会导致服务器的功耗发生改变,同时也会影响列头柜总功耗的变化。服务器的资源利用率指标有多种如:中央处理器(Central Processing Unit,CPU)使用率、内存利用率、磁盘输入输出(Input Output,IO)读写使用率、网卡带宽利用率、CPU风扇温度以及显卡数据等。但是这些参数并不都是可以导致服务器功耗发生改变的因素,现在的研究结果只能表明这些参数与服务器实际功耗有相关性的,因此要找出与服务器功耗相关性最高的参数指标,从而构建指标特征集。
第一步:本申请获取了多种服务器利用率指标的检测数据,包括:CPU利用率、内存利用率、磁盘IO读写使用率、网卡带宽利用率、CPU风扇温度、以及显卡数据等检测数据。
第二步:根据列头柜功耗以及检测数据构建特征矩阵,然后进行两两计算协方差得到协方差矩阵。
第三步:根据协方差矩阵中的协方差矩阵中每种检测数据与列头柜功耗的协方差系数的大小,最终选择出与列头柜功耗影响最大的指标特征,从而构建出指标特征集。
作为一个示例,本申请实施例采用以列头柜总功耗作为X,服务器资源利用率指标作为Y、Z、W,6条样本数据举例说明,具体数据参照下表:
Figure BDA0004104077350000101
Figure BDA0004104077350000111
基于上述样本数据,构造构造了5*4特征矩阵如下:
powerD={X,Y,Z,W}
Figure BDA0004104077350000112
之后特征矩阵中的数据两两协方差得到协方差矩阵如下:
Figure BDA0004104077350000113
由于协方差矩阵的特性,因此得到Cov(X,Y)=89.03>1,Cov(X,Z)=53.97>1,并且在协方差矩阵中可以看出上述服务器CPU使用率以及服务器磁盘IO读写率的协方差系数较大,因此得出服务器CPU使用率以及服务器磁盘IO读写率对列头柜功耗的影响较大。
最终,本申请实施例确定出对于选择出与列头柜功耗影响最大的指标特征集中包括服务器的中央处理器使用率、磁盘输入输出读写率以及网卡带宽使用率三个指标特征。之后基于上述三个指标特征来检测列头柜是否功耗异常,具体方法如下:
如图1所示,一种列头柜功耗的检测方法,包括:
S110:获取第一预设时间段内列头柜所控制的至少一个服务器的第一采集数据,每个服务器的第一采集数据包括多个第一子采集数据,每个第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据。列头柜作为服务器集群功耗控制的基础单元,因此一个列头柜可能会控制多个服务器,因此本申请实施例获取到列头柜所控制的至少一个服务器的第一采集数据。并且,由于是为了检测列头柜的功耗是否异常,因此在获取上述采集数据时,为了提高检测的准确率,常常选择获取距离当前时刻较近的第一预设时间段内的数据采集。例如当前时间为上午12:00,因此可以选择获取在当前时刻12:00前一个小时内的采集数据,也就是说获取上午11:00-12:00这个第一预设时间段内的采集数据。
同时,在通常情况下,在第一预设时间段每个列头柜的采集数据可能存在多组,因此在第一采集数据中可能包括多个第一子采集数据,每个第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据。可以想到的是,服务器采集数据的采集频率可以人为设置,例如可以5分钟采集一次采集数据,在上午11:00-12:00这个第一预设时间段内每个服务器可以包括12组不同的包括中央处理器使用率、磁盘输入输出读写率以及网卡带宽使用率的第一子采集数据。
S120:按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值。
在获取到至少一个服务器的多个第一子采集数据后,可以选择对每个服务器的多个第一子采集数据中的每种采集数据最大值按照预设的加权规则进行加权,得到对应的加权值。
在一些示例中,以第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率以及网卡带宽使用率为例,可以在第一采集数据中先分别选出多个中央处理器使用率的最大值、多个磁盘输入输出读写率的最大值以及多个网卡带宽使用率中的最大值,然后分别进行加权,得到第一加权值、第二加权值以及第三加权值。
在一些实施例中,也可以分别选择每个服务器的中央处理器使用率、磁盘输入输出读写率以及网卡带宽使用率中的几个排序最大的值,之后再分别求取出每个服务器的中央处理器使用率、磁盘输入输出读写率以及网卡带宽使用率中的几个排序最大的值的平均值,然后分别对每个服务器的几个排序最大值的平均值按照预设的加权规则进行加权,得到对应的第一加权值、第二加权值以及第三加权值。
S130:分别计算至少一个服务器的每种采集数据分别对应的加权值求取平均值,得到每种采集数据对应的加权平均值。
为了提高列头柜功耗异常的检测率,在获取到每个服务器每种采集数据分别对应的加权值之后,可以分别求取每个服务器的每种采集数据分别对应的加权值的平均值,得到每种采集数据对应的加权平均值。。
S140:基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值。
基于列头柜所控制的至少一个服务器的每种采集数据对应的加权平均值,可以确定出列头柜的功耗检测值。继续以以第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率以及网卡带宽使用率为例,分别对上述三个采集数据求取最大值的加权值的平均值后,可以得到第一加权平均值、第二加权平均值以及第三加权平均值,然后将三个加权平均值代入预设的检测函数求取到列头柜的功耗检测值。
S150:在功耗检测值大于预设的功耗阈值的情况下,生成列头柜功耗异常的提示信息。
求取出列头柜的功耗检测值之后,可以将列头柜的功耗检测值与预设的功耗阈值进行比较,在功耗检测值大于预设的功耗阈值的情况下,生成列头柜功耗异常的提示信息。例如:提示信息可以是在列头柜上安装提示灯的信息,以此来提醒运维人员对列头柜进行维修等操作。
本实施例中将列头柜功耗是否异常的信息与列头柜所控制的至少一个服务器的包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据联系起来,然后基于预设的加权规则对每个服务器的每种采集数据的最大值进行加权,得到对应的每种采集数据对应的加权值,选择最大值进行加权可以提高对于列头柜功耗是否异常的检测准确率。之后对分别对至少一个服务器的每种采集数据对应的加权值求取平均值,通过求取加权值的平均值是为了确定列头柜的功耗检测值,通过最终判断功耗检测在与预设功耗阈值的大小判断列头柜是否功耗异常,实现了通过列头柜所控制的至少一个服务器的中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据分别对应加权平均值来确定列头柜功是否耗异常,提高了对于列头柜功是否耗异常的检测的准确率,同时也为检测是否列头柜功耗异常提供了一个新的思路。
如图2所示,在一些实施例中,S120、按照预设的加权规则分别对每个服务器的多个第一子采集数据中的中央处理器使用率、磁盘输入输出读写率和网卡带宽使用率中的最大值进行加权,得到对应的第一加权值、第二加权值以及第三加权值,包括:
S1201:获取至少一个服务器中的每个服务器的额定功率。
获取到至少一个服务器中的每个服务器的额定功率,可以想到的是,每个服务器都会具有各自的额定功率,例如在每个服务器的说明书中会描写到服务器的额定功率,因此可以通过每个服务器的说明书直接获取到列头柜所控制的服务器的额定功率。
S1202:计算至少一个服务器的额定功率平均值。
在获取到每个服务器的额定功率后,可以求取至少一个服务器的额定功率平均值。通过求取额定功率平均值,能够计算出列头柜所控制的至少一个服务器的一个“基线功率”。
S1203:将每个服务器的额定功率与额定功率平均值的比值确定为对应服务器的加权系数。将每个服务器的额定功率除以额定功率平均值的比值作为对应的每个服务器的加权系数,相当于是将每个服务器的额定功率与基线功率的比值作为加权系数,将每个服务器的额定功率考虑进去,因此在最终检测列头柜功耗是否异常时可以提高检测的准确率。
S1204:根据加权系数分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权。根据每个服务器对应的加权系数,对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,加权系数可以直接与每种采集数据的最大值相乘,分别得到对应的每种采集数据的加权值。
本申请实施例在获取到了列头柜所控制的至少一个服务器的多个第一子采集数据后,因为不同服务器的厂家型号由于硬件制作工艺不同,对功耗的输出影响程度也具有很大区别,因此本申请实施例提出了一种加权方法,基于列头柜所控制的每个服务器的额定功率,采用计算所有服务器额定功率平均值作为基线功率,从而计算出服务器的加权系数的方法,以解决不同型号服务器由于在硬件上的差异对服务器功耗的影响程度问题。
可选地,S140基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值,满足以下条件:
y=a+bf1+cf2+df3+...+nfn      (1)
其中,y为功耗检测值,a、b、c、d以及n为常数,f1,f2,f3...fn分别为每种采集数据对应的加权平均值。
在基于基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值时,可以将上述基于每种采集数据对应的加权平均值带入上述公式(1)中,得到功耗检测值,a、b、c、d以及n为常数。继续以第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率以及网卡带宽使用率为例,得到第一加权平均值、第二加权平均值以及第三加权平均值之后,代入公式(1)中计算得到功耗检测值,公式中的a、b、c以及d为常数,f1为第一加权平均值,f2第二加权平均值,f3为第三加权平均值。可以想到的是,上述公式中的常数可以通过对于可以通过训练确定。
例如,在第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率以及网卡带宽使用率为例,具体地训练过程如下:
第一步:随机设置四个常数作为a、b、c以及d的初始值,例如在本实施例中,选择设置a=2.6,b=1.3,,c=2.2,d=1.5作为初始值,得到初始的检测函数为:y=2.6+1.3f1+2.2f2+1.5f3
第二步:选择不同预设时间段内的不同第一加权平均值、第二加权平均值以及第三加权平均值作为训练样本。例如本申请实施例选择的训练不同时间段内的第一加权平均值、第二加权平均值以及第三加权平均值的训练样本如下表:
Figure BDA0004104077350000151
Figure BDA0004104077350000161
第三步:将不同时间段内加加权平均值代入到初始检测函数中,计算出每个每个时间段内的功耗检测值,并求取功耗监测值与该时间段内的列头柜功耗的差值,在本实施例中,设置每5分钟采集一次至少一个服务器的第一子采集数据,因此得到的加权平均值的具体数据参考下表:
Figure BDA0004104077350000162
第四步:设置损失函数为和损失阈值,判断出损失函数的损失值与损失阈值的大小,决定是否要对检测函数中的参数a、b、c以及d进行迭代,具体过程如下:
设置损失函数:
Figure BDA0004104077350000163
计算损失值L(w),损失阈值为L=0.01。
在本实施例中,计算得到的损失值为
L(w)=(-3.9)2+8.62+2.32+3.82+1.12+1.52=112.36,
因此计算得到的损失值大于预设的损失阈值,因此需要对检测函数中的参数进行迭代。
第四步:设置参数的迭代公式分别为
Figure BDA0004104077350000171
Figure BDA0004104077350000172
Figure BDA0004104077350000173
Figure BDA0004104077350000174
其中,α为学习率是个常数可以人为设置,本实施例中设置α=0.01,f1i,f2i,f3i分别为每次测得的第一加权平均值、第二加权平均值以及第三加权平均值的样本值,因此在第一次迭代后,检测函数的四个参数分别如下:
a'=2.6-0.001×2[-3.9+8.6+2.3+(-3.8)+(-1.1)+2.5]=2.592
b'=1.3-0.001×2[(-3.9)×69+8.6×71+2.3×65+(-3.8)×68+(-1.1)×72+2.5×76]=0.765
c'=2.2-0.001×2[(-3.9)×25+8.6×26+2.3×29+(-3.8)×23+(-1.1)×27+2.5×24]=1.977
d'=1.5-0.001×2[(-3.9)×49+8.6×56+2.3×44+(-3.8)×57+(-1.1)×58+2.5×59]=1.1
因此得到迭代后的检测函数为:y=2.592+0.765f1+1.977f2+1.1f3
第五步:重复上述第三步以及第四步,继续训练检测函数的四个参数,直到最终得到的损失值小于损失阈值。
在本实施例中,最终得到的较优的检测函数为:y=2.53+0.791f1+2.29f2+1.6f3
通过上述对于检测函数的参数的迭代过程能够选择出最优的检测函数参数,能够提高之后由检测函数计算得到的检测值来判断列头柜的功耗是否异常的准确率。并且可以想到的是,在实际使用中,可以实现训练好检测函数,之后在应用中直接使用。
如图3所示,在一些实施例中,方法还包括:
S160:获取第二预设时间段内列头柜所控制的至少一个服务器的第二采集数据,每个服务器的第二采集数据中包括多个第二子采集数据,每个第二子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据。
在确定了列头柜功耗异常之后,为了确定列头柜功耗异常是否因为服务器功耗异常所导致,因此本申请实施例继续获取获取第二预设时间段内列头柜所控制的至少一个服务器的第二采集数据,并且每个服务器的第二采集数据中包括多个第二子采集数据,每个第二子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据。
可以想到的是,第二预设时间段与第一预设时间段是完全不同的时间段,在实际过程中,第二预设时间段可以为第一预设时间段之前的时间段。例如,当前时间为上午12:00,在通过获取到11:00-12:00这个第一预设时间段内的第一采集数据,检测出列头柜的功耗异常之后,可以选择获取上午6:00-11:00这5个小时内的第二采集数据,以5分钟采集一次采集数据举例,5个小时内每个服务器将会有60个第二子采集数据。
S170:根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度。
通过预设的概率密度算法对每个服务器的每个第一子采集数据中每种采集数据进行计算,得到每种采集数据对应的概率密度。例如,在每个第一子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率时,可以根据预设概率密度算法得到中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率分别对应的第一概率密度、第二概率密度以及第三概率密度;在每个第二子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率时,可以根据预设的概率密度算法计算出每个服务器的每个第二子采集数据中的中央处理器使用率、磁盘输入输出读写率和网卡带宽使用率对应的第四概率密度、第五概率密度以及第六概率密度,继续以第一预设时间段为1小时,第二预设时间段为5小时,并且每5分钟采集一次数据为例,因此就会得到12组第一概率密度、第二概率密度以及第三概率密度,同时还有60组第四概率密度、第五概率密度以及第六概率密度。
在一些实施例中,预设的概率密度算法可以是分别统计不同设置不同的概率密度区间,分别统计在不同区间内的每种采集数据的数量,通过计算落入不同区间内的每种采集数据的数量与总数的比值,得到得到对应的概率。可以想到的是,上述的区间可以人为设置,通过上述方法求取的每种采集数据会拥有相同的概率密度。
在一些实施例中,也可以基于上述的概率密度算法,在计算出落入不同区间的每种采集数据的概率密度之后,通过拟合得到概率密度曲线,因此可以基于每种采集数据在对应的概率密度曲线上得到对应的概率密度。
通过预设的概率密度算法同时计算出每个服务器的多个概率密度,避免只计算其中一个时间段内的采集数据而导致最终判断服务器的功耗对列头柜功耗的影响时,导致判断错误的情况。
S180:根据预设的检测分值算法,通过每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值。
在获取到每个服务器每个第一子采集数据中的每种采集数据对应的概率密度可以根据预设的检测分值算法,确定出每个服务器的每个第一子采集数据对应的第一检测分值,同时根据预设的检测分值算法,也可以通过每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值,预设的检测分值算法可以是预先设置的检测函数,通过将多个不同的概率密度带入到检测函数中求取对应的检测分值,因此每个服务器都会有两种不同预设时间段内分别对应的第一检测分值以及第二检测分值。
S190:对第一检测分值以及第二检测分值进行排序。
获取了每个服务器的多个第一检测分值以及第二检测分值之后,可以对多个第一检测分值以及第二检测分值进行排序,得到排序结果。
S200:在预设数量的较大的检测分值中有大于阈值的检测分值类型为第一检测分值情况下,生成因服务器功耗异常导致列头柜功耗异常的提示信息。
根据排序结果,可以选择出预设数量的检测分值较大部分检测分值。继续以得到12个第一子采集数据以及60个第二子采集数据为例,通过上述方法可以得到12个第一检测分值以及60个第二检测分值,然后对72个检测分值进行排序。选择出检测分值较大的部分检测值,例如可以选择检测分值较大的前10位。
选择出预设数量的检测检测分值较大部分检测分值之后,可以判断该检测分值的类型,判断上述部分检测分值中的每个检测分值是第一检测分值还是第二检测分值。可以想到的是,每个检测分值都是通过原始的第一子采集数据或者第二子采集数据得到,因此可以获取到每个检测分值对应的原始采集数据,由于第一子采集数据和第二子采集数据具有不同的预设时间段,因此可以通过判断每个检测分值对应的原始采集数据的采集时间判断检测分值的类型,在确定部分检测分值中每个检测分值的类型之后,如果有大于阈值的检测分值的数量为第一检测分值的情况下,可以确定出该服务器的功耗可能发生异常,由于服务器的功耗与列头柜的功耗息息相关,因此可以生成由于服务器功耗异常导致列头柜功耗异常的提示信息。
例如,在检测分值较大的前10位之后,通过每个检测分值对应的原始采集数据的采集时间判断每个检测分值的类型,可以设置阈值为8,在确定10个检测分值中有8个以上的检测分值为第一检测分值时,可以生成因该服务器功耗异常导致列头柜功耗异常的提示信息。
对于列头柜所管理的每个服务器都可以使用上述方法去判断是否因服务器功耗异常导致列头柜功耗异常的提示信息,上述方法将列头柜功耗异常的原因与列头柜所控制的服务器的功耗联系起来,因此可以为运维人员在排查列头柜功耗异常的原因时,提供方便。
在一些实施例中,根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,包括:S1701:分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及
分别将每个服务器的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值。
在一些实施例中,分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及分别将每个服务器的的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值,满足以下条件:
Figure BDA0004104077350000211
其中,xj为每个第一子采集数据中的第i种采集数据对应的第i归一化值,xi为第i归一化值对应的每个第一子采集数据中的第i种采集数据,xmin为多个第一子采集数据中的第i种采集数据的最小值,xmax为多个第一子采集数据中的第i种采集数据的最大值,其中i为整数;或者
xj为每个第二子采集数据中的第j种采集数据对应的第j归一化值,xi为每个第二子采集数据中的第j种采集数据,xmin为多个第二子采集数据中的第j种采集数据的最小值,xmax为多个第二子采集数据中的第j种采集数据的最大值,其中j为整数。
在一些实施例中,在每个第一子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率,每个第二子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率时:
xj为第一归一化值,xi为每个第一子采集数据中的中央处理器使用率,xmin为多个第一子采集数据中的中央处理器使用率中的最小值,xmax为多个第一子采集数据中的中央处理器使用率中的最大值;或者
xj为第二归一化值,xi为每个第一子采集数据中的磁盘输入输出读写率,xmin为多个第一子采集数据中的磁盘输入输出读写率中的最小值,xmax为多个第一子采集数据中的磁盘输入输出读写率中的最大值;或者
xj为第三归一化值,xi为每个第一子采集数据中的网卡带宽使用率,xmin为多个第一子采集数据中的网卡带宽使用率中的最小值,xmax为多个第一子采集数据中的网卡带宽使用率中的最大值;或者
xj为第四归一化值,xi为每个第二子采集数据中的中央处理器使用率,xmin为多个第二子采集数据中的中央处理器使用率中的最小值,xmax为多个第二子采集数据中的中央处理器使用率中的最大值;或者
xj为第五归一化值,xi为每个第二子采集数据中的磁盘输入输出读写率,xmin为多个第二子采集数据中的磁盘输入输出读写率中的最小值,xmax为多个第二子采集数据中的磁盘输入输出读写率中的最大值;或者
xj为第六归一化值,xi为每个第二子采集数据中的网卡带宽使用率,xmin为多个第二子采集数据中的网卡带宽使用率中的最小值,xmax为多个第二子采集数据中的网卡带宽使用率中的最大值。
通过上述的归一化算法能够将每个服务器的每种采集数据转化为一个0-1之间的常数,方便之后统计各个采集数据的概率密度。
S1702:分别计算每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值落入预设区间的概率,得到每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及
分别计算每个服务器的每个第二子采集数据中的每种采集数据对应的的归一化值落入预设区间的概率,每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度。
在计算不同归一化值落入不同预设区间的概率时,可以包括以下步骤:
首先在0-1之间设置不同的预设区间,预设区间可以是等距划分,例如可以选择划分10个预设区间,分别是0-0.1,0.1-0.2…0.9-1,之后统计每个区间内有多少个归一化值。然后将每个区间内归一化值的数量除以每种归一化值的总数,因此通过上述方法,在相同区间内的归一化值都有相同的概率密度。例如,以计算第一归一化值为例,在统计每个区间内的第一归一化值的数量时,可以采用如图4所示的直方图来统计,在计算第一归一化值对应的概率密度时,例如在区间0.2-0.3内的第一归一化值的数量为4,因此在该区间内的每个第一归一化值的概率密度都为:
Figure BDA0004104077350000231
上述计算概率密度的方法简单易实现,可以快速得到每个归一化值对应的概率密度,方便之后计算检测分值。
在一些实施例中,根据预设的检测分值算法,通过每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值,满足以下条件:
Figure BDA0004104077350000232
其中,HBOS(P)为第一检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第一子采集数据中的每种采集数据对应的概率密度,或者HBOS(P)为第二检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第二子采集数据中的每种采集数据对应的概率密度。
在一些示例中,HBOS(P)为第一检测分值,P1(p)为第一概率密度,P2(p)为第二概率密度,P3(p)为第三概率密度,或者HBOS(P)为第二检测分值,P1(p)为第四概率密度,P2(p)为第五概率密度,P3(p)为第六概率密度。
通过上述方法可以计算得到每个服务器的每个第一子采集数据对应的第一检测分值以及每个服务器的每个第二子采集数据对应的第二检测分值,最终提高对于服务器是否功耗异常的判断。
作为一种实现方式,本申请实施例可以构建两个模型,分别为:列头柜功耗异常检测模型以及基于线性复杂度的异常检测(Histogram-based Outlier Score,HBOS)算法的服务器功耗异常检测模型,列头柜功耗异常检测模型用于检测列头柜功耗是否异常,HBOS算法的服务器功耗异常检测模型用于检测列头柜所控制的服务器是否功耗异常,最终将列头柜功耗异常的原因与服务器功耗异常联系起来,通过两种分析模型的结合,发挥1+1>2的优势,能有效解决列头柜功耗异常与其控制的服务器功耗相关联的难题,不仅能提前给出列头柜的功耗异常的提示,还能同时给出异常的原因即哪些服务器的功耗异常导致了列头柜的功耗异常,为运维人员提供方便。
如图5所示,本申请实施例提供一种列头柜功耗的检测装置,包括:
获取模块201,用于获取第一预设时间段内列头柜所控制的至少一个服务器的第一采集数据,每个服务器的第一采集数据包括多个第一子采集数据,每个第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据。
加权模块202,用于按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值。
计算模块203,用于分别计算至少一个服务器的每种采集数据分别对应的加权值求取平均值,得到每种采集数据对应的加权平均值;
确定模块204,用于基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值。
提示模块205,用于在功耗检测值大于预设的功耗阈值的情况下,生成列头柜功耗异常的提示信息。
在一些实施例中,加权模块按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值,包括:
获取模块,还用于获取至少一个服务器中的每个服务器的额定功率。
计算模块,还用于计算至少一个服务器的额定功率平均值。
确定模块,还用于将每个服务器的额定功率与额定功率平均值的比值确定为对应服务器的加权系数。
加权模块,还用于根据加权系数分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权。
在一些实施例中,确定模块基于每种采集数据对应的加权平均值,确定列头柜的功耗检测值,满足以下条件:
y=a+bf1+cf2+df3+...+nfn
其中,y为功耗检测值,a、b、c、d以及n为常数,f1,f2,f3...fn分别为每种采集数据对应的加权平均值。
在一些实施例中,装置还包括:
获取模块,还用于获取第二预设时间段内列头柜所控制的至少一个服务器的第二采集数据,每个服务器的第二采集数据中包括多个第二子采集数据,每个第二子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据。
计算模块,还用于根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度。
确定模块,还用于根据预设的检测分值算法,通过每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值。
排序模块,用于对第一检测分值以及第二检测分值进行排序。
提示模块,还用于在预设数量的较大的检测分值中有大于阈值的检测分值类型为第一检测分值情况下,生成因服务器功耗异常导致列头柜功耗异常的提示信息。
在一些实施例中,计算模块根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,包括:
计算模块,还用于分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及
分别将每个服务器的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值。
计算模块,还用于分别计算每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值落入预设区间的概率,得到每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及
计算模块,还用于分别计算每个服务器的每个第二子采集数据中的每种采集数据对应的的归一化值落入预设区间的概率,每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度。
在一些实施例中,计算模块分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及分别将每个服务器的的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值,满足以下条件:
Figure BDA0004104077350000261
其中,xj为每个第一子采集数据中的第i种采集数据对应的第i归一化值,xi为第i归一化值对应的每个第一子采集数据中的第i种采集数据,xmin为多个第一子采集数据中的第i种采集数据的最小值,xmax为多个第一子采集数据中的第i种采集数据的最大值,其中i为整数。或者
xj为每个第二子采集数据中的第j种采集数据对应的第j归一化值,xi为每个第二子采集数据中的第j种采集数据,xmin为多个第二子采集数据中的第j种采集数据的最小值,xmax为多个第二子采集数据中的第j种采集数据的最大值,其中j为整数。
在一些实施例中,确定模块根据预设的检测分值算法,通过每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值,满足以下条件:
Figure BDA0004104077350000271
其中,HBOS(P)为第一检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第一子采集数据中的每种采集数据对应的概率密度,,,或者HBOS(P)为第二检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第二子采集数据中的每种采集数据对应的概率密度。
在一些实施例中,每个服务器的第一子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率。
每个服务器的第二子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率。
上述实施例的装置用于实现前述任一实施例中相应的列头柜功耗的检测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图6申请实施例提供的一种电子设备的硬件结构示意图。
该电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
在特定实施例中,存储器302包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请的第一方面的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种列头柜功耗的检测方法。
在一个示例中,该电子设备还可包括通信接口303和总线310。其中,如图6,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
上述实施例的电子设备用于实现前述任一实施例中相应的列头柜功耗的检测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
另外,结合上述实施例中的列头柜功耗的检测方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种列头柜功耗的检测方法。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或装置。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(装置)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (11)

1.一种列头柜功耗的检测方法,其特征在于,包括:
获取第一预设时间段内列头柜所控制的至少一个服务器的第一采集数据,每个服务器的第一采集数据包括多个第一子采集数据,每个第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据;
按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值;
分别计算至少一个服务器的每种采集数据分别对应的加权值求取平均值,得到每种采集数据对应的加权平均值;
基于所述每种采集数据对应的加权平均值,确定所述列头柜的功耗检测值;
在所述功耗检测值大于预设的功耗阈值的情况下,生成所述列头柜功耗异常的提示信息。
2.根据权利要求1所述的列头柜功耗的检测方法,其特征在于,所述按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值,包括:
获取所述至少一个服务器中的每个服务器的额定功率;
计算所述至少一个服务器的额定功率平均值;
将每个服务器的额定功率与所述额定功率平均值的比值确定为对应服务器的加权系数;
根据所述加权系数分别对所述每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权。
3.根据权利要求1所述的列头柜功耗的检测方法,其特征在于,所述基于每种采集数据对应的加权平均值,确定所述列头柜的功耗检测值,满足以下条件:
y=a+bf1+cf2+df3+...+nfn
其中,y为功耗检测值,a、b、c、d以及n为常数,f1,f2,f3...fn分别为每种采集数据对应的加权平均值。
4.根据权利要求1所述的列头柜功耗的检测方法,其特征在于,所述方法还包括:
获取第二预设时间段内列头柜所控制的至少一个服务器的第二采集数据,所述每个服务器的第二采集数据中包括多个第二子采集数据,每个第二子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据;
根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度;
根据预设的检测分值算法,通过所述每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过所述每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值;
对所述第一检测分值以及第二检测分值进行排序;
在预设数量的较大的检测分值中有大于阈值的检测分值类型为第一检测分值情况下,生成因所述服务器功耗异常导致所述列头柜功耗异常的提示信息。
5.根据权利要求4所述的列头柜功耗的检测方法,其特征在于,所述根据预设的概率密度算法,分别计算出每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及计算出每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度,包括:
分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及
分别将每个服务器的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值;
分别计算所述每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值落入预设区间的概率,得到每个服务器的每个第一子采集数据中的每种采集数据对应的概率密度,以及
分别计算所述每个服务器的每个第二子采集数据中的每种采集数据对应的的归一化值落入预设区间的概率,每个服务器的每个第二子采集数据中的每种采集数据对应的概率密度。
6.根据权利要求5所述的列头柜功耗的检测方法,其特征在于,所述分别将每个服务器的每个第一子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第一子采集数据中的每种采集数据对应的归一化值,以及分别将所述每个服务器的的每个第二子采集数据中的每种采集数据进行归一化,得到每个服务器的每个第二子采集数据中的每种采集数据对应的归一化值,满足以下条件:
Figure FDA0004104077340000031
其中,xj为每个第一子采集数据中的第i种采集数据对应的第i归一化值,xi为所述第i归一化值对应的每个第一子采集数据中的第i种采集数据,xmin为多个第一子采集数据中的所述第i种采集数据的最小值,xmax为多个第一子采集数据中的所述第i种采集数据的最大值,其中i为整数;或者
xj为每个第二子采集数据中的第j种采集数据对应的第j归一化值,xi为每个第二子采集数据中的所述第j种采集数据,xmin为多个第二子采集数据中的所述第j种采集数据的最小值,xmax为多个第二子采集数据中的所述第j种采集数据的最大值,其中j为整数。
7.根据权利要求4所述的列头柜功耗的检测方法,其特征在于,
根据预设的检测分值算法,通过每个第一子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第一子采集数据对应的第一检测分值,以及
根据预设的检测分值算法,通过每个第二子采集数据中的每种采集数据对应的概率密度,确定每个服务器的每个第二子采集数据对应的第二检测分值,满足以下条件:
Figure FDA0004104077340000041
其中,HBOS(P)为第一检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第一子采集数据中的每种采集数据对应的概率密度,或者HBOS(P)为第二检测分值,P1(p),P2(p),P3(p)...Pn(p)分别为每个第二子采集数据中的每种采集数据对应的概率密度。
8.根据权利要求1或4任一所述的列头柜功耗的检测方法,其特征在于,包括:
所述每个服务器的第一子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率;
所述每个服务器的第二子采集数据包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率。
9.一种列头柜功耗的检测装置,其特征在于,包括:
获取模块,用于获取第一预设时间段内列头柜所控制的至少一个服务器的第一采集数据,每个服务器的第一采集数据包括多个第一子采集数据,每个第一子采集数据中包括中央处理器使用率、磁盘输入输出读写率、网卡带宽使用率、中央处理器风扇温度、内存利用率以及显卡数据中的至少三种采集数据;
加权模块,用于按照预设的加权规则分别对每个服务器的多个第一子采集数据中的每种采集数据的最大值进行加权,得到每种采集数据分别对应的加权值;
计算模块,用于分别计算至少一个服务器的每种采集数据分别对应的加权值求取平均值,得到每种采集数据对应的加权平均值;
确定模块,用于基于所述每种采集数据对应的加权平均值,确定所述列头柜的功耗检测值;
提示模块,用于在所述功耗检测值大于预设的功耗阈值的情况下,生成所述列头柜功耗异常的提示信息。
10.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-8任意一项所述的列头柜功耗的检测方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的列头柜功耗的检测方法。
CN202310181658.6A 2023-02-20 2023-02-20 列头柜功耗的检测方法、装置、设备及存储介质 Pending CN116107842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310181658.6A CN116107842A (zh) 2023-02-20 2023-02-20 列头柜功耗的检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310181658.6A CN116107842A (zh) 2023-02-20 2023-02-20 列头柜功耗的检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116107842A true CN116107842A (zh) 2023-05-12

Family

ID=86258034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310181658.6A Pending CN116107842A (zh) 2023-02-20 2023-02-20 列头柜功耗的检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116107842A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117215868A (zh) * 2023-09-06 2023-12-12 中移互联网有限公司 一种磁盘异常检测方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117215868A (zh) * 2023-09-06 2023-12-12 中移互联网有限公司 一种磁盘异常检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
WO2022110557A1 (zh) 一种台区户变关系异常诊断方法及装置
CN117093879A (zh) 一种数据中心智能化运营管理方法及系统
CN117421687B (zh) 一种数字化电力环网柜运行状态监测方法
CN109874148B (zh) 天馈异常检测方法、装置、系统及计算机设备
CN109298225B (zh) 一种电压量测数据异常状态自动识别模型系统及方法
CN116107842A (zh) 列头柜功耗的检测方法、装置、设备及存储介质
CN111401785A (zh) 一种基于模糊关联规则的电力系统设备故障预警方法
CN114564370B (zh) 告警阈值的确定方法、装置、设备及计算机存储介质
CN113125903A (zh) 线损异常检测方法、装置、设备及计算机可读存储介质
CN113763217B (zh) 一种基于智慧校园的网络监管方法及系统
CN115617784A (zh) 一种信息化配电的数据处理系统及其处理方法
CN110147493B (zh) 活跃因子的确定方法、装置、计算机设备及存储介质
CN114676749A (zh) 一种基于数据挖掘的配电网运行数据异常判定方法
CN117330850A (zh) 用于智能移动终端的辐射检测方法、系统、设备及介质
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN117273551A (zh) 一种改性沥青智能生产管理方法、系统及存储介质
CN105303194A (zh) 一种电网指标体系建立方法、装置以及计算设备
CN115082135B (zh) 一种在网时长差异识别方法、装置、设备及介质
CN116341290A (zh) 一种长贮装备可靠性抽样检测方法
CN113313582A (zh) 拒客回捞模型训练方法、装置及电子设备
CN113868831A (zh) 一种电池容量一致性估计方法及系统
CN109993388B (zh) 劣化小区主因判断方法、装置、设备及介质
CN110942093A (zh) 一种配电自动化终端状态评价方法
CN114219307A (zh) 产品确定方法、装置、设备及计算机存储介质
CN117354053B (zh) 一种基于大数据的网络安全保护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination