CN112631892A - 预测服务器健康状态的方法、计算设备和计算机介质 - Google Patents

预测服务器健康状态的方法、计算设备和计算机介质 Download PDF

Info

Publication number
CN112631892A
CN112631892A CN202110257354.4A CN202110257354A CN112631892A CN 112631892 A CN112631892 A CN 112631892A CN 202110257354 A CN202110257354 A CN 202110257354A CN 112631892 A CN112631892 A CN 112631892A
Authority
CN
China
Prior art keywords
server
predicted
time period
determining
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110257354.4A
Other languages
English (en)
Other versions
CN112631892B (zh
Inventor
张�杰
徐仲夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongzhi Guanaitong Shanghai Technology Co ltd
Zhongzhi Aiyoutong Nanjing Information Technology Co ltd
Original Assignee
Zhongzhi Guanaitong Shanghai Technology Co ltd
Zhongzhi Aiyoutong Nanjing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongzhi Guanaitong Shanghai Technology Co ltd, Zhongzhi Aiyoutong Nanjing Information Technology Co ltd filed Critical Zhongzhi Guanaitong Shanghai Technology Co ltd
Priority to CN202110257354.4A priority Critical patent/CN112631892B/zh
Publication of CN112631892A publication Critical patent/CN112631892A/zh
Application granted granted Critical
Publication of CN112631892B publication Critical patent/CN112631892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种预测服务器健康状态的方法、计算设备和计算机可读存储介质。该方法包括:获取多个服务器中的每个服务器在至少一个第一时间段内的服务性能元数据;基于每个服务器的服务性能元数据确定服务器在每个第一时间段内的多个性能特征;基于多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得线性回归模型的收敛参数;获取待预测服务器在第二时间段内的服务性能元数据;基于待预测服务器的服务性能元数据确定待预测服务器在第二时间段内的多个性能特征;基于待预测服务器在第二时间段内的多个性能特征和线性回归模型的收敛参数确定待预测服务器的预测异常值;以及确定待预测服务器的健康状态。

Description

预测服务器健康状态的方法、计算设备和计算机介质
技术领域
本发明概括而言涉及机器学习领域,更具体地,涉及一种预测服务器健康状态的方法、计算设备和计算机可读存储介质。
背景技术
当前,对于许多企业来说,随着业务量的增大,所需的服务器数量也不断增加。例如,对于诸如京东和淘宝之类的电商企业来说,每年都需要扩充数千甚至上万的服务器。在提供服务器托管的数据中心中,随着时间推移和业务拓展,也经常需要新采购并上架服务器。在这种多服务器的场景中,由于各个服务器的上架时间不同,配置规格不同,在长时间的运行过程中个别服务器不稳定运行的情况时有发生,一定程度上会影响业务稳定运行。
当前,对于这种多服务器系统中的每个服务器的健康状态的预测通常是基于该服务器的单个性能指标进行的,缺乏多因素的统计分析结果,因此预测准确度不高。此外,通过检索系统故障日志的方式确定服务器健康状态虽然速度快,但是一旦检测出问题就往往是高危状态,难以提前采取应对措施。
为此,需要一种在多服务器的系统中能够准确快速地预测工作中的每个服务器的健康状态的方法,使得系统运维人员能够主动对健康状态处于危险或高危的服务器采取适当措施以保障业务稳定运行。
发明内容
针对上述问题,本发明提供了一种预测服务器健康状态的方案,其中通过对大量服务器在给定时间段内的服务性能元数据进行整合以从中提取各个服务器的多个性能特征,并且利用这些服务器的性能特征对线性回归模型进行训练以利用训练好的线性回归模型对服务器的健康状态进行预测。
根据本发明的一个方面,提供了一种预测服务器健康状态的方法。该方法包括:获取多个服务器中的每个服务器在至少一个第一时间段内的服务性能元数据,其中所述服务性能元数据包括所述服务器在每个第一时间段内的质保时间数据、处理器负载数据、内存数据、每秒磁盘IO数、处理器温度数据和风扇速度数据;基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征;基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数,所述收敛参数包括所述多个性能特征的各自的收敛权重和所述线性回归模型的收敛截距;获取待预测服务器在第二时间段内的服务性能元数据;基于所述待预测服务器的服务性能元数据确定所述待预测服务器在所述第二时间段内的多个性能特征;基于所述待预测服务器在所述第二时间段内的多个性能特征和所述线性回归模型的收敛参数确定所述待预测服务器的预测异常值;以及基于所述待预测服务器的预测异常值和至少一个异常阈值确定所述待预测服务器的健康状态。
根据本发明的另一个方面,提供了一种计算设备。该计算设备包括:至少一个处理器;以及至少一个存储器,该至少一个存储器被耦合到该至少一个处理器并且存储用于由该至少一个处理器执行的指令,该指令当由该至少一个处理器执行时,使得该计算设备执行根据上述方法的步骤。
根据本发明的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序代码,该计算机程序代码在被运行时执行如上所述的方法。
在一些实施例中,所述多个性能特征包括所述服务器的质保特征、处理器负载特征、内存使用率特征、磁盘IO特征、处理器温度特征以及风扇特征,并且其中基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征包括:基于所述第一时间段内、所述服务器的最后一个质保剩余天数与所述服务器的质保总天数确定所述服务器的质保特征;基于所述第一时间段内、所述服务器的处理器负载值与处理器核心数之比大于或等于第一阈值的天数与所述第一时间段确定所述服务器的处理器负载特征;基于所述第一时间段内、所述服务器的内存使用率大于或等于第二阈值的天数与所述第一时间段确定所述服务器的内存使用率特征;基于所述第一时间段内、所述服务器的每秒磁盘IO数大于或等于第三阈值的天数与所述第一时间段确定所述服务器的磁盘IO特征;基于所述第一时间段内、所述服务器的处理器温度大于或等于处理器指导温度的天数与所述第一时间段确定所述服务器的处理器温度特征;以及基于所述第一时间段内、所述服务器的风扇速度大于或等于风扇指导速度的天数与所述第一时间段确定所述服务器的风扇特征。
在一些实施例中,所述第二时间段的天数不等于所述第一时间段的天数。
在一些实施例中,所述多个性能特征包括所述服务器的质保特征、处理器负载特征、内存使用率特征、磁盘IO特征、处理器温度特征以及风扇特征,并且其中基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征包括:基于所述第一时间段内、所述服务器的最后一个质保剩余天数确定所述服务器的质保特征;基于所述第一时间段内、所述服务器的处理器负载值与处理器核心数之比大于或等于第一阈值的天数确定所述服务器的处理器负载特征;基于所述第一时间段内、所述服务器的内存使用率大于或等于第二阈值的天数确定所述服务器的内存使用率特征;基于所述第一时间段内、所述服务器的每秒磁盘IO数大于或等于第三阈值的天数确定所述服务器的磁盘IO特征;基于所述第一时间段内、所述服务器的处理器温度大于或等于第四阈值的天数确定所述服务器的处理器温度特征;以及基于所述第一时间段内、所述服务器的风扇速度大于或等于第五阈值的天数确定所述服务器的风扇特征。
在一些实施例中,所述第二时间段的天数等于所述第一时间段的天数。
在一些实施例中,基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数包括:设置所述多个性能特征中的每个性能特征的权重参数、所述线性回归模型的截距参数和所述线性回归模型的学习步长;基于每个服务器的多个性能特征和相应的权重参数以及所述线性回归模型的截距参数确定所述服务器的健康状态的预测异常值;计算所述预测异常值和所述服务器的真实异常值之间的最大似然估计值作为所述线性回归模型的损失函数;确定所述损失函数相对于所述服务器的每个性能特征的权重参数的第一偏导数和相对于所述线性回归模型的截距参数的第二偏导数;基于所述第一偏导数、所述第二偏导数和所述学习步长更新所述服务器的每个性能特征的权重参数和所述线性回归模型的截距参数;确定所述权重参数的更新值是否小于预定值;以及如果所述更新值小于所述预定值,确定所述服务器的每个性能特征的权重参数作为所述收敛权重并且确定更新后的截距参数作为所述收敛截距。
在一些实施例中,基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数还包括:基于每个服务器的多个性能特征确定所述服务器的真实异常值;以及基于每个服务器的多个性能特征和所述服务器的真实异常值对所述线性回归模型进行训练以获得所述线性回归模型的收敛参数。
在一些实施例中,所述服务性能元数据还包括所述服务器在每个第一时间段内的故障数据,所述故障数据包括主板报错故障、内存损坏故障、磁盘损坏故障和宕机故障中的至少一种;其中确定所述服务器的真实异常值包括:基于所述服务器在每个第一时间段内存在故障数据的天数与所述第一时间段的比值确定所述服务器的真实异常值。
在一些实施例中,所述服务性能元数据还包括所述服务器在每个第一时间段内的故障数据,所述故障数据包括主板报错故障、内存损坏故障、磁盘损坏故障和宕机故障中的至少一种;其中确定所述服务器的真实异常值包括:基于所述服务器在每个第一时间段内存在故障数据的天数确定所述服务器的真实异常值。
在一些实施例中,所述至少一个异常阈值包括第一异常阈值、第二异常阈值和第三异常阈值,并且所述第一异常阈值小于所述第二异常阈值,所述第二异常阈值小于所述第三异常阈值,其中基于所述待预测服务器的预测异常值和至少一个异常阈值确定所述待预测服务器的健康状态包括:确定所述待预测服务器的预测异常值是否小于所述第一异常阈值,如果确定所述待预测服务器的预测异常值小于所述第一异常阈值,确定所述待预测服务器的健康状态为第一级别;如果确定所述待预测服务器的预测异常值大于或等于所述第一异常阈值,确定所述待预测服务器的预测异常值是否小于所述第二异常阈值,如果确定所述待预测服务器的预测异常值小于所述第二异常阈值,确定所述待预测服务器的健康状态为第二级别;如果确定所述待预测服务器的预测异常值大于或等于所述第二异常阈值,确定所述待预测服务器的预测异常值是否小于所述第三异常阈值,如果确定所述待预测服务器的预测异常值小于所述第三异常阈值,确定所述待预测服务器的健康状态为第三级别;以及如果确定所述待预测服务器的预测异常值大于或等于所述第三异常阈值,确定所述待预测服务器的健康状态为第四级别,其中所述第一级别所指示的健康状态优于所述第二级别所指示的健康状态,所述第二级别所指示的健康状态优于所述第三级别所指示的健康状态,所述第三级别所指示的健康状态优于所述第四级别所指示的健康状态。
附图说明
通过参考下列附图所给出的本发明的具体实施方式的描述,将更好地理解本发明,并且本发明的其他目的、细节、特点和优点将变得更加显而易见。
图1示出了用于实现根据本发明的实施例的用于预测服务器健康状态的方法的系统的示意图。
图2示出了根据本发明的一些实施例的预测服务器健康状态的方法的流程图。
图3示出了根据本发明一种实施例的用于获取服务器在第一时间段内的多个性能特征的步骤的流程图。
图4示出了根据本发明另一种实施例的用于获取服务器在第一时间段内的多个性能特征的步骤的流程图。
图5示出了根据本发明实施例的对线性回归模型进行训练的步骤的流程图。
图6示出了适合实现本发明的实施例的计算设备的结构方框图。
具体实施方式
下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整的传达给本领域的技术人员。
在下文的描述中,出于说明各种发明的实施例的目的阐述了某些具体细节以提供对各种发明实施例的透彻理解。但是,相关领域技术人员将认识到可在无这些具体细节中的一个或多个细节的情况来实践实施例。在其它情形下,与本申请相关联的熟知的装置、结构和技术可能并未详细地示出或描述从而避免不必要地混淆实施例的描述。
除非语境有其它需要,在整个说明书和权利要求中,词语“包括”和其变型,诸如“包含”和“具有”应被理解为开放的、包含的含义,即应解释为“包括,但不限于”。
在整个说明书中对“一个实施例”或“一些实施例”的提及表示结合实施例所描述的特定特点、结构或特征包括于至少一个实施例中。因此,在整个说明书的各个位置“在一个实施例中”或“在一些实施例”中的出现不一定全都指相同实施例。另外,特定特点、结构或特征可在一个或多个实施例中以任何方式组合。
此外,说明书和权利要求中所用的第一、第二等术语,仅仅出于描述清楚起见来区分各个对象,而并不限定其所描述的对象的大小或其他顺序等。
图1示出了用于实现根据本发明的实施例的用于预测服务器健康状态的方法的系统1的示意图。如图1中所示,系统1包括计算设备10、多个服务器20和网络30。计算设备10和多个服务器20可以通过网络30进行数据交互。计算设备10可以与多个服务器20通信,以向服务器20发送信息和/或从服务器20接收信息。计算设备10可以是系统1中的专用于性能监控和管理的设备,或者,其可以是多个服务器20中的一个或其一部分。计算设备10可以包括至少一个处理器110和与该至少一个处理器110耦合的至少一个存储器120,该存储器120中存储有可由该至少一个处理器110执行的指令130,该指令130在被该至少一个处理器110执行时执行如下所述的方法200的至少一部分。计算设备10或服务器20的具体结构例如可以如下结合图6所述。
图2示出了根据本发明的一些实施例的预测服务器健康状态的方法200的流程图。方法200例如可以由图1中所示的系统1中的计算设备10执行。以下结合图1至图6对方法200进行描述。
如图2中所示,方法200包括步骤210,其中计算设备10获取多个服务器20中的每个服务器20在至少一个第一时间段内的服务性能元数据。取决于预测需求,第一时间段可以是一周、一个月、三个月等。在本文中,以一个月为例进行描述,即,基于每个服务器的一个月的服务性能元数据产生一个训练样本。
服务性能元数据可以包括服务器20在每个第一时间段内的质保时间数据、处理器负载数据、内存数据、每秒磁盘输入输出(IO)数、处理器温度数据和风扇速度数据。
例如,系统1中的监控设备(如计算设备10或另一设备)会定期(如每隔一分钟)或不定期地对每台服务器20的各种服务性能元数据进行采样,计算设备10可以从该监控设备或者直接从各个服务器20获取这些服务性能元数据。
在一种实施例中,质保时间数据可以包括质保剩余天数和质保总天数;处理器负载数据可以包括处理器负载值和核心数;内存数据包括内存使用量和内存总量;处理器温度数据包括处理器温度和处理器指导温度;风扇速度数据包括风扇速度和风扇指导速度。
本领域技术人员可以理解,上述服务性能元数据只是示例性的,本发明并不局限于此。例如,上述质保时间数据可以不包括质保剩余天数和质保总天数,而是包括当前日期和质保到期日。此外,上述数据中,一个服务器的质保总天数、核心数、内存总量、处理器指导温度和风扇指导速度通常是不变的(本文中也称为标准值),因此可以将其预先存储在计算设备10中,而不需要每次单独获取。
具体地,步骤210可以包括:获取每个服务器20在该第一时间段内的每天的服务性能元数据的至少一个采样值。表1示出了根据本发明实施例的一个服务器20的服务性能元数据的多个采样值的实例。
Figure 931286DEST_PATH_IMAGE001
如表1中所示,对于一个服务器20,在2020-1-1日获取了服务性能元数据的5个采样值(即时间序列t1至t5),在2020-1-2日获取了服务性能元数据的3个采样值(即时间序列t6至t8),在2020-1-3日获取了服务性能元数据的2个采样值(即时间序列t9至t10),在2020-1-4、2020-1-5、2020-1-6、2020-1-7、2020-1-8、2020-1-9、2020-1-10日分别获取了服务性能元数据的1个采样值(即时间序列t11至t17)。
接下来,如果确定在同一天获取了同一个服务器20的多条采样值(如2020-1-1日、2020-1-2日和2020-1-3日所示的情况),可以对该多条采样值进行预处理以获得该服务器20在该天的一条采样数据。这样,可以获得每个服务器20每天的一条采样数据作为其该天的服务性能元数据。
例如,对于2020-1-1日获取的5个采样值,可以对其求平均以将其均值作为服务器20在该天的采样数据。或者,也可以采取其他方式,例如选择多个采样值中的最大值、最小值或者中值作为服务器20在该天的采样数据。这样,表1所示的实例将变型为如下表2所示的情况。
Figure 973060DEST_PATH_IMAGE002
如表2中所示,得到了该服务器20在至少一个第一时间段中的每天的一条服务性能元数据,其中该服务性能元数据包括该服务器在该天的质保时间数据、处理器负载数据、内存数据、每秒磁盘IO数、处理器温度数据和风扇速度数据。
接下来,在步骤220,计算设备10基于每个服务器20的服务性能元数据确定该服务器20在每个第一时间段内的多个性能特征。
如前所述,在步骤210,获得了每个服务器20在每个第一时间段中的每天的一条服务性能元数据。在步骤220,可以基于如表2所示的每天的服务性能元数据获取该服务器20在该第一时间段(如一个月)内的多个性能特征。
这里,多个性能特征可以包括服务器20的质保特征、处理器负载特征、内存使用率特征、磁盘IO特征、处理器温度特征以及风扇特征。
图3示出了根据本发明一种实施例的用于获取服务器20在第一时间段内的多个性能特征的步骤220的流程图。在图3所示的实施例中,根据第一时间段内各项服务性能元数据的统计结果与相应的标准值之间的比值来确定各个性能特征。这样,在对待预测服务器进行预测时,针对待预测服务器获取的服务性能元数据的时间段(以下称为第二时间段)的天数可以不同于第一时间段,从而使得预测有更高的灵活性。
如图3中所示,步骤220可以包括子步骤221,其中计算设备10可以基于第一时间段内、一个服务器20的最后一个质保剩余天数与该服务器20的质保总天数确定该服务器20的质保特征。例如,该质保特征x 1可以通过如下公式(1)表示:
Figure 441213DEST_PATH_IMAGE003
(1)
其中,n 1是服务器20在该第一时间段内的最后一个质保剩余天数,s是该服务器20的质保总天数。如表2中所示,在该第一时间段(2020年1月)内,服务器20的第一个质保剩余天数是1095,最后一个质保剩余天数(即2020年1月31日)是1065(表中未示出),则该服务器20在该第一时间段内的质保特征x 1=1065/1095=0.97。类似地,在接下来的第一时间段(2020年2月)内,服务器20的最后一个质保剩余天数(即2020年2月29日)是1036(表中未示出),则该服务器20在该第一时间段内的质保特征x 1=1036/1095=0.95。此外,对于已经超过质保期限的服务器20,其质保剩余天数为负值,即,当前日期与质保到期日之差,从而其质保特征x 1为负值。
在子步骤222,计算设备10可以基于第一时间段内、服务器20的处理器负载值与处理器核心数之比大于或等于第一阈值(th1)的天数与该第一时间段确定该服务器20的处理器负载特征。例如,该处理器负载特征x 2可以通过如下公式(2)表示:
Figure 774105DEST_PATH_IMAGE004
(2)
其中,n 2是服务器20在该第一时间段内的处理器负载值与处理器核心数之比大于或等于第一阈值th1的天数,n是该第一时间段的总天数。该第一阈值th1可以设置为一个处于[0.6, 0.8]之间的值,优选地可以设置为0.7。这样,对于一个服务器20来说,某一天其处理器负载值与处理器核心数之比大于或等于第一阈值th1则认为该服务器20在该天处于高位负载状态,这是指示服务器健康状态的一个重要因素。
在子步骤223,计算设备10可以基于该第一时间段内、该服务器20的内存使用率大于或等于第二阈值(th2)的天数与第一时间段确定该服务器20的内存使用率特征。例如,该内存使用率特征x 3可以通过如下公式(3)表示:
Figure 775428DEST_PATH_IMAGE005
(3)
其中,n 3是服务器20在该第一时间段内的内存使用率(即表2中所示的内存使用量与内存总量之比)大于或等于第二阈值th2的天数,n是该第一时间段的总天数。该第二阈值th2可以设置为一个处于[0.6, 0.8]之间的值,优选地可以设置为0.7。这样,对于一个服务器20来说,某一天其内存使用率大于或等于第二阈值th2则认为该服务器20在该天处于高位内存状态,这是指示服务器健康状态的另一个重要因素。
在子步骤224,计算设备10可以基于该第一时间段内、服务器20的每秒磁盘IO数大于或等于第三阈值(th3)的天数与该第一时间段确定服务器20的磁盘IO特征。例如,该磁盘IO特征x 4可以通过如下公式(4)表示:
Figure 597891DEST_PATH_IMAGE006
(4)
其中,n 4是服务器20在该第一时间段内的每秒磁盘IO数(IOPS)大于或等于第三阈值th3的天数,n是该第一时间段的总天数。取决于所使用的磁盘规格,该第三阈值th3可以设置为不同的值。例如,对于7200rpm的机械磁盘来说,该第三阈值th3可以是[30, 76]之间的一个值,例如可以是30;对于10000rpm的机械磁盘来说,该第三阈值th3可以是[50, 111]之间的一个值,例如可以是50;对于15000rpm的机械磁盘来说,该第三阈值th3可以是[80,166]之间的一个值,例如可以是80。这样,对于一个服务器20来说,某一天其IOPS大于或等于第三阈值th3则认为该服务器20在该天处于高位磁盘状态,这是指示服务器健康状态的又一个重要因素。
在子步骤225,计算设备10可以基于第一时间段内、该服务器20的处理器温度大于或等于处理器指导温度的天数与该第一时间段确定该服务器20的处理器温度特征。例如,该处理器温度特征x 5可以通过如下公式(5)表示:
Figure 802607DEST_PATH_IMAGE007
(5)
其中,n 5是服务器20在该第一时间段内的处理器温度大于或等于处理器指导温度的天数,n是该第一时间段的总天数。对于一个服务器20来说,某一天其处理器温度大于或等于处理器指导温度则认为该服务器20在该天处于高温运行状态,这是指示服务器健康状态的又一个重要因素。
在子步骤226,计算设备10可以基于该第一时间段内、该服务器20的风扇速度大于或等于风扇指导速度的天数与该第一时间段确定该服务器20的风扇特征。例如,该风扇特征x 6可以通过如下公式(6)表示:
Figure 678204DEST_PATH_IMAGE008
(6)
其中,n 6是服务器20在该第一时间段内的风扇速度大于或等于风扇指导速度的天数,n是该第一时间段的总天数。对于一个服务器20来说,某一天其风扇速度大于或等于风扇指导速度则认为该服务器20在该天处于风扇高速运行状态,这是指示服务器健康状态的又一个重要因素。
通过这种方式,可以得到如表3所示的多个服务器20的多组性能特征。这里,一个服务器20可以获得一组性能特征(即一个第一时间段的情况),也可以获得多组性能特征(即多个第一时间段的情况)。
Figure 471717DEST_PATH_IMAGE009
如表3中所示,对于服务器S1,获取了其5个第一时间段(即2020年1月至2020年5月这5个月)的5组性能特征,对于服务器S2,获取了其5个第一时间段(即2020年3月至2020年7月这5个月)的5组性能特征,对于服务器S3,获取了其3个第一时间段(即2020年9月至2020年11月这3个月)的3组性能特征,对于服务器S4,获取了其1个第一时间段(即2021年1月这1个月)的1组性能特征。每组性能特征X=[x 1, x 2, x 3, x 4, x 5, x 6]可以作为后续步骤230中对线性回归模型进行训练的一个训练样本,因此,在表3所示的实例中,训练样本的数量N=14。当然,在实际的训练过程中,使用的训练样本的数量将远大于此。
图4示出了根据本发明另一种实施例的用于获取服务器20在第一时间段内的多个性能特征的步骤220的流程图。与图3所示实施例不同,在图4所示的实施例中,根据第一时间段内各项服务性能元数据的统计结果(即绝对值)来确定各个性能特征。这样,对服务性能元数据的处理将更加简单,并且不需要获取和存储各个标准值。在这种实施例中,在对待预测服务器进行预测时,针对待预测服务器获取的服务性能元数据的时间段的天数应当与第一时间段相同。
如图4中所示,步骤220可以包括子步骤221',其中计算设备10可以基于第一时间段内、一个服务器20的最后一个质保剩余天数确定该服务器的质保特征。例如,该质保特征x 1'可以通过如下公式(7)表示:
x 1'= n 1 (7)
其中,n 1是服务器20在该第一时间段内的最后一个质保剩余天数。如表2中所示,在该第一时间段(2020年1月)内,服务器20的第一个质保剩余天数是1095,最后一个质保剩余天数(即2020年1月31日)是1065(表中未示出),则该服务器20在该第一时间段内的质保特征x 1'=1065。类似地,在接下来的第一时间段(2020年2月)内,服务器20的最后一个质保剩余天数(即2020年2月29日)是1036(表中未示出),则该服务器20在该第一时间段内的质保特征x 1'=1036。此外,对于已经超过质保期限的服务器20,其质保剩余天数为负值,即,当前日期与质保到期日之差,从而其质保特征x 1'为负值。
在子步骤222',计算设备10可以基于第一时间段内、服务器20的处理器负载值与处理器核心数之比大于或等于第一阈值th1的天数确定该服务器20的处理器负载特征。例如,该处理器负载特征x 2'可以通过如下公式(8)表示:
x 2'= n 2 (8)
其中,n 2是服务器20在该第一时间段内的处理器负载值与处理器核心数之比大于或等于第一阈值th1的天数。如前所述,该第一阈值th1可以设置为一个处于[0.6, 0.8]之间的值,优选地可以设置为0.7。这样,对于一个服务器20来说,某一天其处理器负载值与处理器核心数之比大于或等于第一阈值th1则认为该服务器20在该天处于高位负载状态,这是指示服务器健康状态的一个重要因素。
在子步骤223',计算设备10可以基于该第一时间段内、该服务器20的内存使用率大于或等于第二阈值th2的天数确定该服务器20的内存使用率特征。例如,该内存使用率特征x 3'可以通过如下公式(9)表示:
x 3'= n 3 (9)
其中,n 3是服务器20在该第一时间段内的内存使用率(即表2中所示的内存使用量与内存总量之比)大于或等于第二阈值th2的天数。该第二阈值th2可以设置为一个处于[0.6, 0.8]之间的值,优选地可以设置为0.7。这样,对于一个服务器20来说,某一天其内存使用率大于或等于第二阈值th2则认为该服务器20在该天处于高位内存状态,这是指示服务器健康状态的另一个重要因素。
在子步骤224',计算设备10可以基于该第一时间段内、服务器的每秒磁盘IO数大于或等于第三阈值th3的天数确定该服务器20的磁盘IO特征。例如,该磁盘IO特征x 4'可以通过如下公式(10)表示:
x 4'= n 4 (10)
其中,n 4是服务器20在该第一时间段内的每秒磁盘IO数(IOPS)大于或等于第三阈值th3的天数。取决于所使用的磁盘规格,该第三阈值th3可以设置为不同的值。例如,对于7200rpm的机械磁盘来说,该第三阈值th3可以是[30, 76]之间的一个值,例如可以是30;对于10000rpm的机械磁盘来说,该第三阈值th3可以是[50, 111]之间的一个值,例如可以是50;对于15000rpm的机械磁盘来说,该第三阈值th3可以是[80, 166]之间的一个值,例如可以是80。这样,对于一个服务器20来说,某一天其IOPS大于或等于第三阈值th3则认为该服务器20在该天处于高位磁盘状态,这是指示服务器健康状态的又一个重要因素。
在子步骤225',计算设备10可以基于第一时间段内、该服务器20的处理器温度大于或等于处理器指导温度的天数确定该服务器20的处理器温度特征。例如,该处理器温度特征x 5'可以通过如下公式(11)表示:
x 5'= n 5 (11)
其中,n 5是服务器20在该第一时间段内的处理器温度大于或等于处理器指导温度的天数。对于一个服务器20来说,某一天其处理器温度大于或等于处理器指导温度则认为该服务器20在该天处于高温运行状态,这是指示服务器健康状态的又一个重要因素。
在子步骤226',计算设备10可以基于该第一时间段内、该服务器的风扇速度大于或等于风扇指导速度的天数确定该服务器20的风扇特征。例如,该风扇特征x 6'可以通过如下公式(12)表示:
x 6'= n 6 (12)
其中,n 6是服务器20在该第一时间段内的风扇速度大于或等于风扇指导速度的天数。对于一个服务器20来说,某一天其风扇速度大于或等于风扇指导速度则认为该服务器20在该天处于风扇高速运行状态,这是指示服务器健康状态的又一个重要因素。
通过这种方式,可以得到如表4所示的多个服务器20的多组性能特征。这里,一个服务器20可以获得一组性能特征(即一个第一时间段的情况),也可以获得多组性能特征(即多个第一时间段的情况)。
Figure 402763DEST_PATH_IMAGE010
与表3类似,在表4中,对于服务器S1,获取了其5个第一时间段(即2020年1月至2020年5月这5个月)的5组性能特征,对于服务器S2,获取了其5个第一时间段(即2020年3月至2020年7月这5个月)的5组性能特征,对于服务器S3,获取了其3个第一时间段(即2020年9月至2020年11月这3个月)的3组性能特征,对于服务器S4,获取了其1个第一时间段(即2021年1月这1个月)的1组性能特征。每组性能特征X'=[x 1', x 2', x 3', x 4', x 5', x 6']可以作为后续步骤230中对线性回归模型进行训练的一个训练样本,因此,在表3所示的实例中,训练样本的数量N=14。当然,在实际的训练过程中,使用的训练样本的数量将远大于此。
继续图2,接下来,在步骤230,计算设备10可以基于步骤220获取的多个服务器中的每个服务器的多个性能特征X或X'对线性回归模型进行训练以获得该线性回归模型的收敛参数。该收敛参数包括多个性能特征的各自的收敛权重和该线性回归模型的收敛截距。
线性回归模型是一种经典的人工智能算法模型,其是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间的关系进行建模的一种回归分析。线性回归模型可以简单表达为:
y = XW+b, (13)
其中y表示输出值,X表示输入值,W表示该输入值的权重,b表示模型的截距。
输入值X可以是一个由N个m维输入值构成的输入矩阵(大小为N*m),W为每个m维输入值的权重构成的权重矩阵(大小为一个m*1向量)。其中权重矩阵W和截距b构成了线性回归模型的模型参数,对线性回归模型的训练即是对W和b进行训练以获取收敛权重和收敛截距。
在本文中,输入值X是上述步骤220中获取的每组性能特征X=[x 1, x 2, x 3, x 4, x 5,x 6]或者X'=[x 1', x 2', x 3', x 4', x 5', x 6']构成的矩阵(m=6,N是步骤220中获取的性能特征组的数量,即训练样本的数量)。当然,本领域技术人员可以理解,本发明并不局限于此。输入值X可以是由(x 1, x 2, x 3, x 4, x 5, x 6)或者(x 1', x 2', x 3', x 4', x 5', x 6')中的一部分(而非全部)构成。
图5示出了根据本发明实施例的对线性回归模型进行训练的步骤230的流程图。
如图5中所示,步骤230可以包括子步骤231,其中计算设备10可以设置多个性能特征中的每个性能特征的权重参数、线性回归模型的截距参数和线性回归模型的学习步长。这里,假设多个性能特征包括上述的服务器20的质保特征x 1/x 1'、处理器负载特征x 2/x 2'、内存使用率特征x 3/x 3'、磁盘IO特征x 4/x 4'、处理器温度特征x 5/x 5'、风扇特征x 6/x 6'。
初始时,计算设备10可以为这些性能特征分别设置初始权重参数W=[w1, w2, w3,w4, w5, w6]和截距参数b,例如设置为全0。学习步长α决定模型参数的收敛速度,例如α=0.01。
接下来,在子步骤232,计算设备20可以基于一个服务器20的多个性能特征X或X'和相应的权重参数W以及线性回归模型的截距参数b确定该服务器20的健康状态的预测异常值。例如,预测异常值
Figure 845508DEST_PATH_IMAGE011
可以通过下面的公式(14)计算得到:
Figure 582520DEST_PATH_IMAGE013
(14)
其中,
Figure 43589DEST_PATH_IMAGE011
是第i个训练样本的预测异常值,
Figure 473433DEST_PATH_IMAGE014
是第i个训练样本的第j个性能特征。这里,j=1, 2, …, k,k≤6,即,可以选择上述x 1x 2x 3x 4x 5x 6或者x 1'、x 2'、x 3'、x 4'、x 5'、x 6'中的任意k个性能特征来进行训练。
接下来,在子步骤233,计算设备10计算该预测异常值
Figure 902009DEST_PATH_IMAGE011
和该服务器20的真实异常值y i 之间的最大似然估计值作为该线性回归模型的损失函数loss。
该损失函数loss可以表示为:
Figure 114816DEST_PATH_IMAGE015
, (15)
接下来,在子步骤234,计算设备10确定该损失函数loss相对于该服务器20的每个性能特征的权重参数wj的第一偏导数
Figure 758287DEST_PATH_IMAGE016
和相对于该线性回归模型的截距参数b的第二偏导数
Figure 781869DEST_PATH_IMAGE017
Figure 448473DEST_PATH_IMAGE018
, (16)
其中j=1、2、……k,
Figure 714238DEST_PATH_IMAGE019
。 (17)
接下来,在子步骤235,计算设备10可以基于子步骤234得到的第一偏导数
Figure 212216DEST_PATH_IMAGE016
、第二偏导数
Figure 921546DEST_PATH_IMAGE017
和学习步长α更新服务器20的每个性能特征的权重参数wj和该线性回归模型的截距参数b。
例如,可以如下确定更新后的权重参数wj'和截距参数b':
Figure 872184DEST_PATH_IMAGE020
, (18)
Figure 443105DEST_PATH_IMAGE021
。 (19)
在子步骤236,计算设备10可以确定权重参数的更新值(wj'- wj,即
Figure 795589DEST_PATH_IMAGE022
)是否小于预定值。这里,预定值是一个用于判断权重参数是否收敛的阈值,基于经验可将其设定在0.01的量级。
如果在子步骤236确定该更新值小于该预定值,即,确定线性回归模型的权重参数wj收敛,则在子步骤237,计算设备10可以确定该服务器20的每个性能特征的权重参数wj'作为收敛权重并且确定更新后的截距参数b'作为收敛截距。
在步骤230中,如在上述子步骤233中,通过计算该预测异常值
Figure 675820DEST_PATH_IMAGE011
和该服务器20的真实异常值y i 之间的最大似然估计值作为该线性回归模型的损失函数loss。因此,步骤230还包括基于每个服务器20的多个性能特征确定该服务器20的真实异常值y i ,并且基于每个服务器20的多个性能特征和该服务器20的真实异常值y i 对该线性回归模型进行训练以获得该线性回归模型的收敛参数。
与上述图3和图4所示的确定多个性能特征的不同实施例相对应,确定服务器20的真实异常值y i 也有不同的实施方式。具体地,服务器20的真实异常值y i 可以基于服务器20在第一时间段内的故障数据来确定。服务器20的故障数据可以包括主板报错故障、内存损坏故障、磁盘损坏故障和宕机故障中的至少一种。
在一种实施例中,服务器20的故障数据可以作为服务器20的服务性能元数据的一部分,在步骤210中由计算设备10获取。然而本领域技术人员可以理解,本发明并不局限于此,服务器20的故障数据也可以通过其他方式获取,例如在执行步骤230时通过查询每个服务器20的故障日志来获取。
与图3所示的实施例对应,可以基于服务器20在每个第一时间段内存在故障数据的天数与该第一时间段来确定该服务器20的真实异常值y i 。例如,真实异常值y i 可以通过如下公式(20)确定:
Figure 113755DEST_PATH_IMAGE023
(20)
其中n i 是服务器20在该第一时间段内存在故障数据的天数,n是该第一时间段的总天数。在第一时间段的某一天中,服务器20出现主板报错故障、内存损坏故障、磁盘损坏故障和宕机故障中的任一种即认为该服务器20在该天存在故障数据。
与图4所示的实施例对应,可以基于服务器20在每个第一时间段内存在故障数据的天数确定该服务器20的真实异常值y i 。例如,真实异常值y i 可以通过如下公式(21)确定:
y i =n i (21)
其中n i 是服务器20在该第一时间段内存在故障数据的天数。在第一时间段的某一天中,服务器20出现主板报错故障、内存损坏故障、磁盘损坏故障和宕机故障中的任一种即认为该服务器20在该天存在故障数据。
至此,通过对大量服务器在给定时间段内的服务性能元数据进行整合以从中提取各个服务器的多个性能特征,并且利用这些服务器的性能特征对线性回归模型进行训练得到了训练好的线性回归模型。从而,可以利用训练好的线性回归模型对待预测服务器的健康状态进行预测。
继续图2,方法200还包括步骤240,其中计算设备10获取待预测服务器在第二时间段内的服务性能元数据。这里,待预测服务器可以是图1所示的多个服务器20中的任一个,获取待预测服务器在第二时间段内的服务性能元数据的方法与上面结合步骤210所述相同,因此不再赘述。取决于对线性回归模型进行训练所使用的性能特征的实现方式,第二时间段可以与第一时间段相同也可以与第一时间段不同。
接下来,在步骤250,计算设备10可以基于待预测服务器20的服务性能元数据确定该待预测服务器20在该第二时间段内的多个性能特征。这里,确定该待预测服务器20在该第二时间段内的多个性能特征的方式与上面结合步骤220所述相同,因此不再赘述。
在步骤260,计算设备10可以基于该待预测服务器20在该第二时间段内的多个性能特征和该线性回归模型的收敛参数(即训练后的线性回归模型)确定该待预测服务器20的预测异常值
Figure 721323DEST_PATH_IMAGE011
。预测异常值
Figure 131576DEST_PATH_IMAGE011
例如可以通过上面的公式(14)计算得到。
接下来,在步骤270,计算设备10可以基于该待预测服务器20的预测异常值和至少一个异常阈值确定该待预测服务器的健康状态。
在一种实施例中,该至少一个异常阈值可以包括第一异常阈值、第二异常阈值和第三异常阈值,并且第一异常阈值小于第二异常阈值,第二异常阈值小于第三异常阈值。如前所述,在如图3所示的实施例中,预测异常值是一个[0, 1]之间的值。因此,该至少一个异常阈值也是一个[0, 1]之间的值。例如,第一异常阈值可以是0.2,第二异常阈值可以是0.4,第三异常阈值可以是0.6。
在步骤270中,计算设备10可以确定该待预测服务器20的预测异常值是否小于该第一异常阈值,如果确定该待预测服务器20的预测异常值小于该第一异常阈值,则确定待预测服务器20的健康状态为第一级别。第一级别指示该待检测服务器20的健康状态最佳,例如可以将其标识为“良好”。
如果确定该待预测服务器20的预测异常值大于或等于第一异常阈值,则继续确定该待预测服务器20的预测异常值是否小于第二异常阈值,并且如果确定该待预测服务器20的预测异常值小于该第二异常阈值,确定该待预测服务器20的健康状态为第二级别。该第二级别指示该待预测服务器20的健康状态差于第一级别,例如可以将其标识为“合格”。
如果确定该待预测服务器20的预测异常值大于或等于第二异常阈值,继续确定该待预测服务器20的预测异常值是否小于第三异常阈值,如果确定待预测服务器30的预测异常值小于第三异常阈值,则确定该待预测服务器20的健康状态为第三级别。该第三级别指示该待预测服务器20的健康状态差于第二级别,例如可以将其标识为“危险”。
如果确定待预测服务器的预测异常值大于或等于第三异常阈值,则确定待预测服务器20的健康状态为第四级别。该第四级别指示该待预测服务器20的健康状态差于第三级别,例如可以将其标识为“高危”。
通过这种方式,可以利用训练好的线性回归模型对服务器20的健康状态进行预测,并可以为其赋予相应的标识“良好”、“合格”、“危险”、“高危”等,从而使得运维人员能够快速识别处于“危险”和“高危”状态的服务器20,从而提前采取相应的管理措施。
图6示出了适合实现本发明的实施例的计算设备600的结构方框图。计算设备600例如可以是如上所述的系统1中的计算设备10。
如图6中所示,计算设备600可以包括一个或多个中央处理单元(CPU)610(图中仅示意性地示出了一个),其可以根据存储在只读存储器(ROM)620中的计算机程序指令或者从存储单元680加载到随机访问存储器(RAM)630中的计算机程序指令,来执行各种适当的动作和处理。在RAM 630中,还可存储计算设备600操作所需的各种程序和数据。CPU 610、ROM 620以及RAM 630通过总线640彼此相连。输入/输出(I/O)接口650也连接至总线640。
计算设备600中的多个部件连接至I/O接口650,包括:输入单元660,例如键盘、鼠标等;输出单元670,例如各种类型的显示器、扬声器等;存储单元680,例如磁盘、光盘等;以及通信单元690,例如网卡、调制解调器、无线通信收发机等。通信单元690允许计算设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的方法200例如可由一个或多个计算设备600的CPU 610执行。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包括于机器可读介质,例如存储单元680。在一些实施例中,计算机程序的部分或者全部可以经由ROM 620和/或通信单元690而被载入和/或安装到计算设备600上。当计算机程序被加载到RAM 630并由CPU610执行时,可以执行上文描述的方法200的一个或多个操作。此外,通信单元690可以支持有线或无线通信功能。
本领域技术人员可以理解,图6所示的计算设备600仅是示意性的。在一些实施例中,计算设备600可以包含比图6所示的更多或更少的部件。
利用本发明的方案,通过对大量服务器在给定时间段内的服务性能元数据进行整合以从中提取各个服务器的多个性能特征,并且利用这些服务器的性能特征对线性回归模型进行训练以利用训练好的线性回归模型对服务器的健康状态进行预测,从而能够准确快速地预测工作中的每个服务器的健康状态。
以上结合附图对根据本发明的预测服务器健康状态的方法200以及可用来实现该方法200的计算设备600进行了描述。然而本领域技术人员可以理解,方法200的步骤的执行并不局限于图中所示和以上所述的顺序,而是可以以任何其他合理的顺序来执行。此外,计算设备600也不必须包括图6中所示的所有组件,其可以仅仅包括执行本发明中所述的功能所必须的其中一些组件,并且这些组件的连接方式也不局限于图中所示的形式。
本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
在一个或多个示例性设计中,可以用硬件、软件、固件或它们的任意组合来实现本发明所述的功能。例如,如果用软件来实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上,或者作为计算机可读介质上的一个或多个指令或代码来传输。
本文公开的装置的各个单元可以使用分立硬件组件来实现,也可以集成地实现在一个硬件组件,如处理器上。例如,可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑、分立硬件组件或用于执行本文所述的功能的任意组合来实现或执行结合本发明所描述的各种示例性的逻辑块、模块和电路。
本领域普通技术人员还应当理解,结合本发明的实施例描述的各种示例性的逻辑块、模块、电路和算法步骤可以实现成电子硬件、计算机软件或二者的组合。
本发明的以上描述用于使本领域的任何普通技术人员能够实现或使用本发明。对于本领域普通技术人员来说,本发明的各种修改都是显而易见的,并且本文定义的一般性原理也可以在不脱离本发明的精神和保护范围的情况下应用于其它变形。因此,本发明并不限于本文所述的实例和设计,而是与本文公开的原理和新颖性特性的最广范围相一致。

Claims (12)

1.一种预测服务器健康状态的方法,包括:
获取多个服务器中的每个服务器在至少一个第一时间段内的服务性能元数据,其中所述服务性能元数据包括所述服务器在每个第一时间段内的质保时间数据、处理器负载数据、内存数据、每秒磁盘IO数、处理器温度数据和风扇速度数据;
基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征;
基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数,所述收敛参数包括所述多个性能特征的各自的收敛权重和所述线性回归模型的收敛截距;
获取待预测服务器在第二时间段内的服务性能元数据;
基于所述待预测服务器的服务性能元数据确定所述待预测服务器在所述第二时间段内的多个性能特征;
基于所述待预测服务器在所述第二时间段内的多个性能特征和所述线性回归模型的收敛参数确定所述待预测服务器的预测异常值;以及
基于所述待预测服务器的预测异常值和至少一个异常阈值确定所述待预测服务器的健康状态。
2.如权利要求1所述的方法,其中所述多个性能特征包括所述服务器的质保特征、处理器负载特征、内存使用率特征、磁盘IO特征、处理器温度特征以及风扇特征,并且其中基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征包括:
基于所述第一时间段内、所述服务器的最后一个质保剩余天数与所述服务器的质保总天数确定所述服务器的质保特征;
基于所述第一时间段内、所述服务器的处理器负载值与处理器核心数之比大于或等于第一阈值的天数与所述第一时间段确定所述服务器的处理器负载特征;
基于所述第一时间段内、所述服务器的内存使用率大于或等于第二阈值的天数与所述第一时间段确定所述服务器的内存使用率特征;
基于所述第一时间段内、所述服务器的每秒磁盘IO数大于或等于第三阈值的天数与所述第一时间段确定所述服务器的磁盘IO特征;
基于所述第一时间段内、所述服务器的处理器温度大于或等于处理器指导温度的天数与所述第一时间段确定所述服务器的处理器温度特征;以及
基于所述第一时间段内、所述服务器的风扇速度大于或等于风扇指导速度的天数与所述第一时间段确定所述服务器的风扇特征。
3.如权利要求2所述的方法,其中所述第二时间段的天数不等于所述第一时间段的天数。
4.如权利要求1所述的方法,其中所述多个性能特征包括所述服务器的质保特征、处理器负载特征、内存使用率特征、磁盘IO特征、处理器温度特征以及风扇特征,并且其中基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征包括:
基于所述第一时间段内、所述服务器的最后一个质保剩余天数确定所述服务器的质保特征;
基于所述第一时间段内、所述服务器的处理器负载值与处理器核心数之比大于或等于第一阈值的天数确定所述服务器的处理器负载特征;
基于所述第一时间段内、所述服务器的内存使用率大于或等于第二阈值的天数确定所述服务器的内存使用率特征;
基于所述第一时间段内、所述服务器的每秒磁盘IO数大于或等于第三阈值的天数确定所述服务器的磁盘IO特征;
基于所述第一时间段内、所述服务器的处理器温度大于或等于第四阈值的天数确定所述服务器的处理器温度特征;以及
基于所述第一时间段内、所述服务器的风扇速度大于或等于第五阈值的天数确定所述服务器的风扇特征。
5.如权利要求4所述的方法,其中所述第二时间段的天数等于所述第一时间段的天数。
6.如权利要求1所述的方法,其中基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数包括:
设置所述多个性能特征中的每个性能特征的权重参数、所述线性回归模型的截距参数和所述线性回归模型的学习步长;
基于每个服务器的多个性能特征和相应的权重参数以及所述线性回归模型的截距参数确定所述服务器的健康状态的预测异常值;
计算所述预测异常值和所述服务器的真实异常值之间的最大似然估计值作为所述线性回归模型的损失函数;
确定所述损失函数相对于所述服务器的每个性能特征的权重参数的第一偏导数和相对于所述线性回归模型的截距参数的第二偏导数;
基于所述第一偏导数、所述第二偏导数和所述学习步长更新所述服务器的每个性能特征的权重参数和所述线性回归模型的截距参数;
确定所述权重参数的更新值是否小于预定值;以及
如果所述更新值小于所述预定值,确定所述服务器的每个性能特征的权重参数作为所述收敛权重并且确定更新后的截距参数作为所述收敛截距。
7.如权利要求1所述的方法,其中基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数还包括:
基于每个服务器的多个性能特征确定所述服务器的真实异常值;以及
基于每个服务器的多个性能特征和所述服务器的真实异常值对所述线性回归模型进行训练以获得所述线性回归模型的收敛参数。
8.如权利要求7所述的方法,其中所述服务性能元数据还包括所述服务器在每个第一时间段内的故障数据,所述故障数据包括主板报错故障、内存损坏故障、磁盘损坏故障和宕机故障中的至少一种;
其中确定所述服务器的真实异常值包括:
基于所述服务器在每个第一时间段内存在故障数据的天数与所述第一时间段的比值确定所述服务器的真实异常值。
9.如权利要求7所述的方法,其中所述服务性能元数据还包括所述服务器在每个第一时间段内的故障数据,所述故障数据包括主板报错故障、内存损坏故障、磁盘损坏故障和宕机故障中的至少一种;
其中确定所述服务器的真实异常值包括:
基于所述服务器在每个第一时间段内存在故障数据的天数确定所述服务器的真实异常值。
10.如权利要求1所述的方法,其中所述至少一个异常阈值包括第一异常阈值、第二异常阈值和第三异常阈值,并且所述第一异常阈值小于所述第二异常阈值,所述第二异常阈值小于所述第三异常阈值,其中基于所述待预测服务器的预测异常值和至少一个异常阈值确定所述待预测服务器的健康状态包括:
确定所述待预测服务器的预测异常值是否小于所述第一异常阈值,如果确定所述待预测服务器的预测异常值小于所述第一异常阈值,确定所述待预测服务器的健康状态为第一级别;
如果确定所述待预测服务器的预测异常值大于或等于所述第一异常阈值,确定所述待预测服务器的预测异常值是否小于所述第二异常阈值,如果确定所述待预测服务器的预测异常值小于所述第二异常阈值,确定所述待预测服务器的健康状态为第二级别;
如果确定所述待预测服务器的预测异常值大于或等于所述第二异常阈值,确定所述待预测服务器的预测异常值是否小于所述第三异常阈值,如果确定所述待预测服务器的预测异常值小于所述第三异常阈值,确定所述待预测服务器的健康状态为第三级别;以及
如果确定所述待预测服务器的预测异常值大于或等于所述第三异常阈值,确定所述待预测服务器的健康状态为第四级别,
其中所述第一级别所指示的健康状态优于所述第二级别所指示的健康状态,所述第二级别所指示的健康状态优于所述第三级别所指示的健康状态,所述第三级别所指示的健康状态优于所述第四级别所指示的健康状态。
11.一种计算设备,包括:
至少一个处理器;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理器并且存储用于由所述至少一个处理器执行的指令,所述指令当由所述至少一个处理器执行时,使得所述计算设备执行根据权利要求1至10中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序代码,所述计算机程序代码在被运行时执行如权利要求1至10中任一项所述的方法。
CN202110257354.4A 2021-03-10 2021-03-10 预测服务器健康状态的方法、计算设备和计算机介质 Active CN112631892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110257354.4A CN112631892B (zh) 2021-03-10 2021-03-10 预测服务器健康状态的方法、计算设备和计算机介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110257354.4A CN112631892B (zh) 2021-03-10 2021-03-10 预测服务器健康状态的方法、计算设备和计算机介质

Publications (2)

Publication Number Publication Date
CN112631892A true CN112631892A (zh) 2021-04-09
CN112631892B CN112631892B (zh) 2021-05-25

Family

ID=75297641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110257354.4A Active CN112631892B (zh) 2021-03-10 2021-03-10 预测服务器健康状态的方法、计算设备和计算机介质

Country Status (1)

Country Link
CN (1) CN112631892B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057356A1 (en) * 2017-08-21 2019-02-21 Hirevue, Inc. Detecting disability and ensuring fairness in automated scoring of video interviews
US20190294925A1 (en) * 2018-03-26 2019-09-26 Clinc, Inc. Systems and methods for intelligently curating machine learning training data and improving machine learning model performance
CN111737076A (zh) * 2019-05-23 2020-10-02 北京京东尚科信息技术有限公司 服务器监测方法、装置、设备和存储介质
CN111897706A (zh) * 2020-07-15 2020-11-06 中国工商银行股份有限公司 服务器性能预测方法、装置、计算机系统和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057356A1 (en) * 2017-08-21 2019-02-21 Hirevue, Inc. Detecting disability and ensuring fairness in automated scoring of video interviews
US20190294925A1 (en) * 2018-03-26 2019-09-26 Clinc, Inc. Systems and methods for intelligently curating machine learning training data and improving machine learning model performance
CN111737076A (zh) * 2019-05-23 2020-10-02 北京京东尚科信息技术有限公司 服务器监测方法、装置、设备和存储介质
CN111897706A (zh) * 2020-07-15 2020-11-06 中国工商银行股份有限公司 服务器性能预测方法、装置、计算机系统和介质

Also Published As

Publication number Publication date
CN112631892B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
US10585774B2 (en) Detection of misbehaving components for large scale distributed systems
US10248528B2 (en) System monitoring method and apparatus
US11507881B2 (en) Analysis apparatus, analysis method, and analysis program for calculating prediction error and extracting error factor
US8751417B2 (en) Trouble pattern creating program and trouble pattern creating apparatus
US20200026635A1 (en) System Operational Analytics Using Additional Features for Health Score Computation
CN108683530A (zh) 多维度数据的数据分析方法、装置及存储介质
US9858106B2 (en) Virtual machine capacity planning
CN107958297B (zh) 一种产品需求预测方法及产品需求预测装置
CN113837596B (zh) 一种故障确定方法、装置、电子设备及存储介质
CN112882889A (zh) 异常监控方法、系统、电子设备和存储介质
CN108390793A (zh) 一种分析系统稳定性的方法及装置
CN110866698A (zh) 用于评定服务提供方的服务分值的装置
US11301763B2 (en) Prediction model generation system, method, and program
CN111626498A (zh) 设备运行状态预测方法、装置、设备及存储介质
US20130275812A1 (en) Determining root cause
WO2020220437A1 (zh) 一种基于AdaBoost-Elman的虚拟机软件老化预测方法
US9225608B1 (en) Evaluating configuration changes based on aggregate activity level
CN112631892B (zh) 预测服务器健康状态的方法、计算设备和计算机介质
CN108073464A (zh) 一种基于速度和加速度的时序数据异常点检测方法及装置
CN108549981A (zh) 一种提高大批量并行业务流程服务质量的方法
CN111783883A (zh) 一种异常数据的检测方法及装置
CN110717653A (zh) 风险识别方法及装置和电子设备
CN113626282B (zh) 云计算物理节点负载监控方法、装置、终端及存储介质
CN112306831B (zh) 计算集群错误预测方法及相关设备
CN116804957A (zh) 一种系统监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant