CN117785607A - 服务器故障预测方法、装置、设备及存储介质 - Google Patents

服务器故障预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117785607A
CN117785607A CN202311786053.6A CN202311786053A CN117785607A CN 117785607 A CN117785607 A CN 117785607A CN 202311786053 A CN202311786053 A CN 202311786053A CN 117785607 A CN117785607 A CN 117785607A
Authority
CN
China
Prior art keywords
server
power consumption
fault
failure
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311786053.6A
Other languages
English (en)
Inventor
唐彦婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202311786053.6A priority Critical patent/CN117785607A/zh
Publication of CN117785607A publication Critical patent/CN117785607A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器故障预测方法、装置、设备及存储介质,涉及服务器技术领域,方法包括:获取服务器上待测部件的电源功耗数据以及电源功耗数据的采集时间;根据采集时间和预设时间窗口确定目标时间段,并根据电源功耗数据得到目标时间段对应的目标功耗数据;根据目标功耗数据,利用故障预测模型预测服务器发生故障的概率,得到故障预测值;其中,故障预测模型基于故障诊断模型得到;根据故障预测值,基于服务器故障预测值与时间序列的关系得到服务器的故障预测结果。本发明解决了相关技术中无法有效预测服务器故障的问题,实现了根据部件功耗,直观且准确地预测服务器故障的效果。

Description

服务器故障预测方法、装置、设备及存储介质
技术领域
本发明涉及服务器技术领域,尤其涉及一种服务器故障预测方法、装置、设备及存储介质。
背景技术
服务器长时间运行的过程中,其内部的部件随时存在产生故障的风险。如何提前预知服务器将要产生故障是一个比较困难的技术,目前的相关技术中,诊断服务器故障的方法比较多,但是预测服务器故障的方法寥寥无几。因为服务器内部部件的各项参数指标不是随着时间线性增长变化的,这给故障预测带来了较大难度。而且,服务器的所有部件均需要上电后才能正常工作,再与服务器进行数据交互,该特点也会减少故障预测实现的可能性。
因此,相关技术中还没有可以有效预测服务器故障的方法。
发明内容
本发明的主要目的在于:提供一种服务器故障预测方法、装置、设备及存储介质,旨在解决相关技术中无法有效预测服务器故障的技术问题。
为实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供了一种服务器故障预测方法,所述方法包括:
获取服务器上待测部件的电源功耗数据以及所述电源功耗数据的采集时间;
根据所述采集时间和预设时间窗口确定目标时间段,并根据所述电源功耗数据得到所述目标时间段对应的目标功耗数据;
根据所述目标功耗数据,利用故障预测模型预测所述服务器发生故障的概率,得到故障预测值;其中,所述故障预测模型基于故障诊断模型得到;
根据所述故障预测值,基于服务器故障预测值与时间序列的关系得到所述服务器的故障预测结果。
可选地,上述服务器故障预测方法中,所述根据所述目标功耗数据,利用故障预测模型预测所述服务器发生故障的概率,得到故障预测值的步骤之前,所述方法还包括:
构建故障诊断模型;
对所述故障诊断模型的参数进行校正,得到校正后的故障诊断模型;
根据所述校正后的故障诊断模型以及所述目标功耗数据对应的采集次数,得到故障预测模型。
可选地,上述服务器故障预测方法中,所述构建故障诊断模型的步骤包括:
获取第一数据集;所述第一数据集包括所述服务器上故障部件的电源功耗;
根据所述第一数据集确定所述故障部件的初始上限阈值和初始下限阈值,以及所述故障部件反映服务器故障的权重;
根据所述初始上限阈值、所述初始下限阈值和所述权重,构建所述故障诊断模型,其中,所述故障诊断模型的表达式为:
其中,Z表示服务器发生故障的概率,N表示服务器上部件的类别数量,Yi表示第i类部件反映服务器故障的权重,xi表示第i类部件的电源功耗,low_limiti表示第i类部件的初始上限阈值,upper_limiti表示第i类部件的初始下限阈值。
可选地,上述服务器故障预测方法中,所述对所述故障诊断模型的参数进行校正,得到校正后的故障诊断模型的步骤包括:
获取第二数据集;所述第二数据集包括所述服务器上各个部件的电源功耗以及对应的数据采集时间;
基于所述数据采集时间的时间顺序,将所述各个部件的电源功耗分别输入所述故障诊断模型,输出所述各个部件的诊断结果;
在所述诊断结果大于零的情况下,调整所述故障诊断模型中的所述初始上限阈值和所述初始下限阈值,得到校正后的故障诊断模型。
可选地,上述服务器故障预测方法中,所述根据所述校正后的故障诊断模型以及所述目标功耗数据对应的采集次数,得到故障预测模型的步骤包括:
根据所述目标功耗数据以及所述目标功耗数据对应的采集次数,得到电源功耗平均值
其中,M表示采集次数,表示第m次采集的第i类部件的电源功耗;
根据所述电源功耗平均值对所述校正后的故障诊断模型进行转换,得到故障预测模型,其中,所述故障预测模型的表达式为:
可选地,上述服务器故障预测方法中,所述根据所述故障预测值,基于服务器故障预测值与时间序列的关系得到所述服务器的故障预测结果的步骤之前,所述方法还包括:
获取第三数据集,所述第三数据集包括所述服务器产生故障时的故障时间,以及所述故障时间对应的电源功耗;
将所述故障时间对应的电源功耗输入所述故障诊断模型,得到对应的模型输出结果;
统计多组所述故障时间及其对应的所述模型输出结果,得到二维数据表;
根据所述二维数据表进行曲线拟合,得到模型输出结果与时间序列的关系;
根据所述故障预测模型和所述模型输出结果与时间序列的关系,得到所述故障预测值与时间序列的关系。
可选地,上述服务器故障预测方法中,所述根据所述故障预测值,基于服务器故障预测值与时间序列的关系得到所述服务器的故障预测结果的步骤包括:
根据所述故障预测值以及所述故障预测值与时间序列的关系,得到所述服务器发生故障的预测时间;
根据所述预测时间和所述预设时间窗口,确定当前时间距离所述预测时间的剩余时间,作为所述服务器的故障预测结果。
第二方面,本发明提供了一种服务器故障预测装置,所述装置包括:
数据获取模块,用于获取服务器上待测部件的电源功耗数据以及所述电源功耗数据的采集时间;
数据筛选模块,用于根据所述采集时间和预设时间窗口确定目标时间段,并根据所述电源功耗数据得到所述目标时间段对应的目标功耗数据;
故障预测模块,用于根据所述目标功耗数据,利用故障预测模型预测所述服务器发生故障的概率,得到故障预测值;其中,所述故障预测模型基于故障诊断模型得到;
预测结果模块,用于根据所述故障预测值,基于服务器故障预测值与时间序列的关系得到所述服务器的故障预测结果。
第三方面,本发明提供了一种服务器故障预测设备,该服务器故障预测设备包括处理器和存储器,存储器中存储有故障预测程序,该故障预测程序被处理器执行时,实现如上述的服务器故障预测方法。
第四方面,本发明提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被一个或多个处理器执行时,实现如上述的服务器故障预测方法。
本发明提供的上述一个或多个技术方案,可以具有如下优点或至少实现了如下技术效果:
本发明提出的一种服务器故障预测方法、装置、设备及存储介质,通过获取服务器上待测部件的电源功耗数据以及电源功耗数据的采集时间,根据与采集时间和预设时间窗口确定目标时间段,得到目标时间段对应的目标功耗数据;然后根据目标功耗数据,利用故障预测模型预测服务器发生故障的概率,得到故障预测值;再根据故障预测值,基于服务器故障预测值与时间序列的关系得到服务器的故障预测结果,实现了预测服务器故障的目的;本发明利用了服务器的所有部件均需要上电后才能正常工作并与服务器进行数据交互的特点,根据服务器部件的电源功耗来预测服务器的故障,比较直观且准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的这些附图获得其他的附图。
图1为本发明服务器故障预测方法第一实施例的流程示意图;
图2为本发明涉及的服务器故障预测设备的硬件结构示意图;
图3为本发明服务器故障预测方法第二实施例中模型输出结果与时间序列的关系曲线图;
图4为本发明服务器故障预测方法第二实施例中故障预测值与时间序列的关系曲线图;
图5为本发明服务器故障预测装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。在本发明中,若有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。另外,各个实施例的技术方案可以相互结合,但是,是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
鉴于相关技术中无法有效预测服务器故障的技术问题,本发明提供了一种服务器故障预测方法,总体思路如下:
获取服务器上待测部件的电源功耗数据以及电源功耗数据的采集时间;根据采集时间和预设时间窗口确定目标时间段,并根据电源功耗数据得到目标时间段对应的目标功耗数据;根据目标功耗数据,利用故障预测模型预测服务器发生故障的概率,得到故障预测值;其中,故障预测模型基于故障诊断模型得到;根据故障预测值,基于服务器故障预测值与时间序列的关系得到服务器的故障预测结果。
通过上述技术方案,实现了预测服务器故障的目的;利用了服务器的所有部件均需要上电后才能正常工作并与服务器进行数据交互的特点,根据服务器部件的电源功耗来预测服务器的故障,比较直观且准确。
下面结合附图,通过具体的实施例和实施方式对本发明提供的服务器故障预测方法、装置、设备及存储介质进行详细说明。
实施例一
参照图1的流程示意图,提出本发明服务器故障预测方法的第一实施例,该服务器故障预测方法应用于服务器故障预测设备。
服务器故障预测设备是指能够实现网络连接的终端设备或网络设备,服务器故障预测设备可以是手机、电脑、平板电脑、便携计算机、嵌入式工控机等终端设备,也可以是服务器、云平台等网络设备。
如图2所示,为服务器故障预测设备的硬件结构示意图。服务器故障预测设备可以包括:处理器1001,例如CPU(Central Processing Unit,中央处理器),通信总线1002,用户接口1003,网络接口1004,存储器1005。
具体的,通信总线1002用于实现这些组件之间的连接通信;
用户接口1003用于连接客户端,与客户端进行数据通信,用户接口1003可以包括输出单元、输入单元;
网络接口1004用于连接后台服务器,与后台服务器进行数据通信,网络接口1004可以包括输入/输出接口;
存储器1005用于存储各种类型的数据,这些数据例如可以包括该服务器故障预测设备中任何应用程序或方法的指令,以及应用程序相关的数据,存储器1005可以是内置存储器;可选的,存储器1005还可以是独立于处理器1001的存储装置,继续参照图2,存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及故障预测程序;
处理器1001用于调用存储器1005中存储的故障预测程序,并执行以下操作:
获取服务器上待测部件的电源功耗数据以及电源功耗数据的采集时间;
根据采集时间和预设时间窗口确定目标时间段,并根据电源功耗数据得到目标时间段对应的目标功耗数据;
根据目标功耗数据,利用故障预测模型预测服务器发生故障的概率,得到故障预测值;其中,故障预测模型基于故障诊断模型得到;
根据故障预测值,基于服务器故障预测值与时间序列的关系得到服务器的故障预测结果。
基于上述的服务器故障预测设备,下面结合图1所示的流程示意图,对本实施例的服务器故障预测方法进行详细描述。方法可以包括以下步骤:
步骤S100:获取服务器上待测部件的电源功耗数据以及电源功耗数据的采集时间。
具体的,待测部件可以是用户指定的部件,也可以是默认设置的部件,例如,可以为服务器的处理器、内存条、硬盘、磁盘阵列、网卡、主机总线适配器、图形处理器、电源、风扇和主板等等部件中的一种或多种,此处不作限定。电源功耗数据可以包含在多个时间点采集的待测部件的电源功耗,服务器故障预测设备具体可以采集多个待测部件的电源功耗数据,每个待测部件的电源功耗数据包括了具体数值以及采集该数值的时间即采集时间。
步骤S200:根据采集时间和预设时间窗口确定目标时间段,并根据电源功耗数据得到目标时间段对应的目标功耗数据。
具体的,服务器故障预测设备可以根据预先设置的预设时间窗口选取一个时间段,作为目标时间段,该目标时间段内可以具有多个采集时间,多个采集时间对应多个电源功耗数据,具体可以从获取的电源功耗数据中筛选出该目标时间段对应的电源功耗数据,得到目标功耗数据。
步骤S300:根据目标功耗数据,利用故障预测模型预测服务器发生故障的概率,得到故障预测值;其中,故障预测模型基于故障诊断模型得到。
具体的,故障诊断模型可以是预先构建得到,基于该构建的故障诊断模型,还可以通过参数选择和优化等步骤来得到更准确的故障预测模型。服务器故障预测设备可以直接调用已经得到的故障预测模型来对目标功耗数据进行处理,进行故障预测,以得到服务器发生故障的概率,作为故障预测值。
步骤S400:根据故障预测值,基于服务器故障预测值与时间序列的关系得到服务器的故障预测结果。
具体的,服务器故障预测值与时间序列的关系可以通过采集该服务器的历史数据,包括采集时间、采集到的电源功耗、以及服务器的故障情况等进行统计,再进行曲线拟合,得到拟合关系,作为服务器故障预测值与时间序列的关系。服务器故障预测设备可以调用该故障预测值与时间序列的关系,将故障预测值代入后,对应得到一时间值,该时间值即为预测时间,可以作为故障预测结果,也可以基于当前时间和该预测时间进行计算,确定故障将要发生的剩余时间,再将该剩余时间作为故障预测结果。
本实施例提供的服务器故障预测方法,通过获取服务器上待测部件的电源功耗数据以及电源功耗数据的采集时间,根据与采集时间和预设时间窗口确定目标时间段,得到目标时间段对应的目标功耗数据;然后根据目标功耗数据,利用故障预测模型预测服务器发生故障的概率,得到故障预测值;再根据故障预测值,基于服务器故障预测值与时间序列的关系得到服务器的故障预测结果,实现了预测服务器故障的目的;本发明利用了服务器的所有部件均需要上电后才能正常工作并与服务器进行数据交互的特点,根据服务器部件的电源功耗来预测服务器的故障,比较直观且准确。
实施例二
基于同一发明构思,提出本发明服务器故障预测方法的第二实施例,该服务器故障预测方法应用于服务器故障预测设备。下面对本实施例的服务器故障预测方法进行详细描述。方法可以包括以下步骤:
步骤S100:获取服务器上待测部件的电源功耗数据以及电源功耗数据的采集时间。
具体的,本实施例涉及的服务器部件是指自身异常时会影响服务器故障的部件,包括该步骤中的待测部件以及后续的需要采集电源功耗的故障部件以及需要采集电源功耗的服务器上的各个部件。服务器部件电源功耗上下浮动的关联关系能够反映出服务器的故障情况。因为服务器的所有部件均需要通电后才能提供服务,如此一来,服务器部件可以是服务器上的所有部件。每个服务器部件均有自己正常工作的电源功耗范围,因此服务器上的每个部件都具有电源功耗上限和电源功耗下限。
本实施例中,以10个服务器部件作为待测部件,包括处理器、内存条、硬盘、磁盘阵列、网卡、主机总线适配器、图形处理器、电源、风扇和主板等,分别表示为b1、b2……b10,表示该服务器上的10类待测部件。
步骤S200:根据采集时间和预设时间窗口确定目标时间段,并根据电源功耗数据得到目标时间段对应的目标功耗数据。
预设时间窗口可以是用户自定义的,用来选取目标功耗数据,防止数据过多,导致处理过程复杂以及占用过多设备算力。如果想要知道该服务器多长时间之后将会发生故障,可以选择一个短时间段范围内的电源功耗数据作为目标功耗数据。
本实施例中,预设时间窗口可以定义为时长为W的时间段,假设采集时间为t,那么目标时间段可以为t-W/2到t+W/2的时间段,该时间段内的采集时间t对应采集到的数据,即为目标功耗数据。
步骤A10:构建故障诊断模型。
实际应用中,导致服务器产生故障的情况可分为由一个服务器部件导致或者由多个服务器部件共同作用导致。如果只是单独的一个部件出现故障,若它的功耗浮动范围很大,那么可以较容易地诊断出服务器是否出现故障,但实际上很多时候并不是仅由一个部件来决定的;如果是多个部件共同作用并且功耗浮动较小的情况下,诊断服务器故障难度将会很大,因为部件故障导致服务器故障的可能情况可以有至/>这些组合的和那么多种,因而服务器故障的情况非常多,这就增加了服务器故障的诊断和预测的难度。
基于上述情况,本实施例中,基于构建的故障诊断模型来得到故障预测模型,利用该故障预测模型直接进行准确且直观的故障预测。
具体的,步骤A10可以包括:
步骤A11:获取第一数据集;所述第一数据集包括所述服务器上故障部件的电源功耗;
步骤A12:根据所述第一数据集确定所述故障部件的初始上限阈值和初始下限阈值,以及所述故障部件反映服务器故障的权重;
步骤A13:根据所述初始上限阈值、所述初始下限阈值和所述权重,构建所述故障诊断模型,其中,所述故障诊断模型的表达式为:
其中,Z表示服务器发生故障的概率,N表示服务器上部件的类别数量,Yi表示第i类部件反映服务器故障的权重,xi表示第i类部件的电源功耗,low_limiti表示第i类部件的初始上限阈值,upper_limiti表示第i类部件的初始下限阈值。
首先,收集服务器上故障部件的功耗数据信息,作为第一数据集。
然后,在第一数据集的数据信息中,可以只分析故障部件特征集合{b1、b2……b10}中一种类型部件bi的功耗数据信息,将该部件的电源功耗下限的众数记为下限阈值low_limit,并将该部件的电源功耗上限的众数记为上限阈值upper_limit,便可得到该部件的初始上限阈值和初始下限阈值。
例如,本实施例中针对内存条这一部件的电源功耗数据,可以得到内存条对应的下限阈值low_limiti和上限阈值upper_limiti,此时得到的是初始值,并不是最终确定值。
本实施例中,先假设一个条件,服务器上各个故障部件的电源功耗数据是相互独立的,那么在特征集合{b1、b2……b10}中的一种部件因故障导致功耗波动而引起服务器故障的公式可推算为:
其中,y(x)表示因部件bi产生故障导致服务器出现故障的概率,x表示特征集合{b1、b2……b10}中特征参数b的一个取值,0<x<low_limit或x>upper_limit,low_limit为部件bi的电源功耗下限,upper_limit为部件bi的电源功耗上限。
接着,用C表示第一数据集,并以此第一数据集C作为样本,来估算特征部件bi引起服务器故障的概率为P(bi),估算每种部件电源功耗的条件概率为P(x|bi),服务器的故障是因部件bi故障产生的,那么服务器部件bi电源功耗的值为x的概率为P(x|bi)。在第一数据集C中第b类样本组成的样本集合Mb,在样本数据量足够大并且独立分布的条件下,可以估计出来先验概率:
在样本集合Mb中,第i个部件上电源功耗取值等于x的集合样本可以记为那么从部件电源功耗数据波动上估算服务器故障的条件概率P(x|bi)为:
通过上面两步的推算可以得出特征集合{b1、b2……b10}中每种类型部件的电源功耗波动反映出服务器产生故障的概率为:y1、y2……y10,在服务器产生故障的情况下,每种部件的电源功耗能够反映出服务器故障的权重为:Y=100*y。
经过上述推导,可以得出,通过部件电源功耗诊断服务器故障的公式为:
该公式中,部件种类数量记为N,基于该公式构建的模型即为故障诊断模型。可以看出,当服务器无故障时,Z=0,此时所有部件的电源功耗都是在low_limiti≤xi≤upper_limiti这个正常工作范围内,当Z的值越大时,服务器产生故障的可能性就越大。
步骤A20:对所述故障诊断模型的参数进行校正,得到校正后的故障诊断模型。
前述步骤中得到的部件的电源功耗上限阈值是通过众数粗略选定,针对这种阈值,对诊断结果而言难免会产生大误差,所以各个部件的电源功耗阈值需要进一步校正,这样才能提高服务器预测准确率。
具体的,步骤A20可以包括:
步骤A21:获取第二数据集;所述第二数据集包括所述服务器上各个部件的电源功耗以及对应的数据采集时间;
步骤A22:基于所述数据采集时间的时间顺序,将所述各个部件的电源功耗分别输入所述故障诊断模型,输出所述各个部件的诊断结果;
步骤A23:在所述诊断结果大于零的情况下,调整所述故障诊断模型中的所述初始上限阈值和所述初始下限阈值,得到校正后的故障诊断模型。
首先,对多个正常服务器进行跟踪监测,每间隔时间T可以进行一次采集,采集服务器上部件的电源功耗数据并做记录,得到服务器上各个部件的电源功耗以及对应的数据采集时间,作为第二数据集。
然后,可以将采集后的电源功耗数据用前述的诊断服务器故障的公式进行计算,随着时间的推移,数据量的采集将越来越多,Z的值将会由Z=0逐渐变化到大于0。因部件电源功耗阈值的选定较为粗略,服务器诊断结果可能出现如下两种情况:一种是Z=0,但服务器产生故障,另一种是Z>0,服务器产生故障。针对第一种情况,服务器故障预测存在误差,因此需要调整电源功耗的阈值范围,使得Z>0,从而与服务器产生故障的实际情况对应一致。
具体校正过程为:
按照数据采集时间的时间顺序,利用故障诊断模型计算,并得出计算结果Z,为使得存在误差的计算结果由Z=0变为Z>0,并且在这期间服务器由运行状态良好逐步变为故障状态。在这个变化过程中,需要微调部件的功耗下限参数low_limiti和功耗上限参数upper_limiti,以满足Z=0变为Z>0,该调整后的功耗下限参数low_limiti和功耗上限参数upper_limiti可以确定为第i类部件的功耗下限阈值和第i类部件的功耗上限阈值,从而可以得到参数校正后的故障诊断模型。
本实施例中,通过对部件功耗上下限的调整,将会使得预测服务器故障的公式模型更为准确。到此为止虽然已经有了能够诊断出服务器产生故障的模型,但是还是没法预测一个服务器需要多长时间才能产生故障,因为目前为止我们还没有将故障模型和时间序列关联在一起。后续还需要将时间序列与部件功耗数据关联起来,才能推算出一个故障预测模型。
步骤A30:根据所述校正后的故障诊断模型以及所述目标功耗数据对应的采集次数,得到故障预测模型。
具体的,步骤A30可以包括:
步骤A31:根据所述目标功耗数据以及所述目标功耗数据对应的采集次数,得到电源功耗平均值
其中,M表示采集次数,表示第m次采集的第i类部件的电源功耗;
步骤A32:根据所述电源功耗平均值对所述校正后的故障诊断模型进行转换,得到故障预测模型,其中,所述故障预测模型的表达式为:
具体的,在预设时间窗口W对应的时间段范围内,部件的电源功耗值基本上都是不一样的,此时需要将预设时间窗口W范围内的功耗数据累加求平均值,假设预设时间窗口W的滑动窗口范围内,一共采集了M次部件功耗数据,那么部件的电源功耗平均值可表示为:
从而,可以将故障诊断模型对应的公式转换为:
该公式便可作为故障预测模型。
步骤S300:根据目标功耗数据,利用故障预测模型预测服务器发生故障的概率,得到故障预测值;其中,故障预测模型基于故障诊断模型得到。
具体的,故障预测模型是针对预设时间窗口范围内的电源功耗平均值建立的,将预设时间窗口对应的目标功耗数据输入故障预测模型,可以输出故障预测值/>
步骤B10:获取第三数据集,所述第三数据集包括所述服务器产生故障时的故障时间,以及所述故障时间对应的电源功耗;
步骤B20:将所述故障时间对应的电源功耗输入所述故障诊断模型,得到对应的模型输出结果;
步骤B30:统计多组所述故障时间及其对应的所述模型输出结果,得到二维数据表;
步骤B40:根据所述二维数据表进行曲线拟合,得到模型输出结果与时间序列的关系;
步骤B50:根据所述故障预测模型和所述模型输出结果与时间序列的关系,得到所述故障预测值与时间序列的关系。
首先,每间隔时间段T采集一次部件功耗数据,连续采集相当长的一段时间部件功耗数据,并记录每次采集数据时的时间点,在数据采集过程中服务器可能会产生故障,若此期间产生了故障,那么将产生故障的时间点及此时的部件电源功耗数据标记出来并记为一个故障点。经过长时间的批量服务器的数据采集与记录可以得出第三数据集。
然后,针对第三数据集,可以将其中服务器产生故障时的对应的电源功耗输入故障诊断模型,得到对应的模型输出结果Z,从而可以得到一个时间t与服务器故障诊断模型输出结果Z的二维数据表:
基于该二维数据表可知,只要数据量足够大,服务器故障诊断模型的输出结果Z与时间t两者之间必然存在某种函数关系:f=Z(t)。
将上述的时间t与模型输出结果Z之间看做一个平面二维点(t,Z),并在平面二维坐标中撒点分布,可以获得一个时间t与模型输出结果Z的曲线示意图,如图3所示为模型输出结果与时间序列的关系曲线图。
假如通过一个点(ti,Zi)直接推算服务器产生故障还剩余多长时间,这种计算方式存在较大误差,因为一台服务器在正常运行期间,其部件功耗的数字也是在不断变化的,并且这种变化有可能存在随机性。因此,当一台服务器正常运行时,其内部部件的电源功耗并不是随着时间均匀增加的,所以,本实施例为了降低预测误差,可以通过增大检测时间范围即预设时间窗口的方式来估算服务器预计产生故障的可能性。比如获取一段时长为W小时的时间范围,将此时间范围看作一个时间序列滑动窗口,便得到预设时间窗口,如图4所示为故障预测值与时间序列的关系曲线图,图中t1表示预设时间窗口W的起始时间,t2表示预设时间窗口W的结束时间。
步骤S400:根据故障预测值,基于服务器故障预测值与时间序列的关系得到服务器的故障预测结果。
具体的,步骤S400可以包括:
步骤S410:根据所述故障预测值以及所述故障预测值与时间序列的关系,得到所述服务器发生故障的预测时间;
步骤S420:根据所述预测时间和所述预设时间窗口,确定当前时间距离所述预测时间的剩余时间,作为所述服务器的故障预测结果。
具体的,在步骤S300得到故障预测值之后,基于图4所示的故障预测值与时间序列的关系,可以计算出大致的时间点为/>从而可以获得在一个时间段W范围内的时间与故障预测值的对应关系为:/>
随着时间在逐渐增加,/>的值是一个逐渐大于0的过程,在此过程中,所需要的时间可视为服务器将要产生的故障距离当前时间所需要的时长,得到故障预测值/>之后,将其代入图4的关系中,可以得到时长/>从而可以得到该待测部件导致服务器发生故障的预测时间tj,从而还可以得到当前时间/>距离产生故障的剩余时间为/>
本事实例中,服务器部件的功耗能够直接反映该部件的运行健康状态,如果一个部件的性能处于健康状态那么该部件的功耗将会处于一个正常范围内,若部件产生故障那么该部件将运行异常,其功耗也会处于一个异常范围。基于该特点,本实施例提出了根据部件电源功耗来预测服务器故障。
上述方法步骤的具体实施方式中更多实施细节可参见实施例一中具体实施方式的描述,为了说明书的简洁,此处不再重复赘述。
本实施例提供的服务器故障预测方法,通过监控服务器上待测部件的电源功耗来判定待测部件是否工作在一个良好的状态,从而判定该待测部件是否存在导致服务器产生故障的风险或者概率;提出了一种根据部件电源功耗来预测服务器故障的新技术,待测部件作为固件,方法作为程序执行,采用了固件与系统结合的方式来实现服务器故障预测;通过提前预知服务器将要产生故障,可以避免服务器因故障导致宕机,继而引发业务关闭及数据丢失等风险。应用该方法之后,可提前知晓服务器将发生故障,从而可以提前将服务器上运行的服务和重要数据转移,从而可以将服务器故障导致的风险降低至最小,提升了服务器所应用环境的安全性。
实施例三
基于同一发明构思,参照图5,提出本发明服务器故障预测装置的第一实施例,该服务器故障预测装置可以为虚拟装置,应用于服务器故障预测设备。
下面结合图5所示的功能模块示意图,对本实施例提供的服务器故障预测装置进行详细描述,装置可以包括:
数据获取模块,用于获取服务器上待测部件的电源功耗数据以及所述电源功耗数据的采集时间;
数据筛选模块,用于根据所述采集时间和预设时间窗口确定目标时间段,并根据所述电源功耗数据得到所述目标时间段对应的目标功耗数据;
故障预测模块,用于根据所述目标功耗数据,利用故障预测模型预测所述服务器发生故障的概率,得到故障预测值;其中,所述故障预测模型基于故障诊断模型得到;
预测结果模块,用于根据所述故障预测值,基于服务器故障预测值与时间序列的关系得到所述服务器的故障预测结果。
进一步地,装置还可以包括:
模型构建模块,用于构建故障诊断模型;
参数校正模块,用于对所述故障诊断模型的参数进行校正,得到校正后的故障诊断模型;
模型训练模块,用于根据所述校正后的故障诊断模型以及所述目标功耗数据对应的采集次数,得到故障预测模型。
更进一步地,模型构建模块可以包括:
第一数据采集单元,用于获取第一数据集;所述第一数据集包括所述服务器上故障部件的电源功耗;
初始阈值确定单元,用于根据所述第一数据集确定所述故障部件的初始上限阈值和初始下限阈值,以及所述故障部件反映服务器故障的权重;
诊断模型构建单元,用于根据所述初始上限阈值、所述初始下限阈值和所述权重,构建所述故障诊断模型,其中,所述故障诊断模型的表达式为:
其中,Z表示服务器发生故障的概率,N表示服务器上部件的类别数量,Yi表示第i类部件反映服务器故障的权重,xi表示第i类部件的电源功耗,low_limiti表示第i类部件的初始上限阈值,upper_limiti表示第i类部件的初始下限阈值。
更进一步地,参数校正模块可以包括:
第二数据采集单元,用于获取第二数据集;所述第二数据集包括所述服务器上各个部件的电源功耗以及对应的数据采集时间;
条件获取单元,用于基于所述数据采集时间的时间顺序,将所述各个部件的电源功耗分别输入所述故障诊断模型,输出所述各个部件的诊断结果;
参数调整单元,用于在所述诊断结果大于零的情况下,调整所述故障诊断模型中的所述初始上限阈值和所述初始下限阈值,得到校正后的故障诊断模型。
更进一步地,模型训练模块可以包括:
平均值计算单元,用于根据所述目标功耗数据以及所述目标功耗数据对应的采集次数,得到电源功耗平均值
其中,M表示采集次数,表示第m次采集的第i类部件的电源功耗;
预测模型获取单元,用于根据所述电源功耗平均值对所述校正后的故障诊断模型进行转换,得到故障预测模型,其中,所述故障预测模型的表达式为:
进一步地,装置还可以包括:
第三数据采集单元,用于获取第三数据集,所述第三数据集包括所述服务器产生故障时的故障时间,以及所述故障时间对应的电源功耗;
模型输出结果单元,用于将所述故障时间对应的电源功耗输入所述故障诊断模型,得到对应的模型输出结果;
数据统计单元,用于统计多组所述故障时间及其对应的所述模型输出结果,得到二维数据表;
曲线拟合单元,用于根据所述二维数据表进行曲线拟合,得到模型输出结果与时间序列的关系;
关系确定单元,用于根据所述故障预测模型和所述模型输出结果与时间序列的关系,得到所述故障预测值与时间序列的关系。
进一步地,预测结果模块可以包括:
预测时间单元,用于根据所述故障预测值以及所述故障预测值与时间序列的关系,得到所述服务器发生故障的预测时间;
结果输出单元,用于根据所述预测时间和所述预设时间窗口,确定当前时间距离所述预测时间的剩余时间,作为所述服务器的故障预测结果。
需要说明,本实施例提供的服务器故障预测装置中各个模块可实现的功能和对应达到的技术效果可以参照本发明服务器故障预测方法各个实施例中具体实施方式的描述,为了说明书的简洁,此处不再赘述。
实施例四
基于同一发明构思,参照图2的硬件结构示意图,本实施例提供了一种服务器故障预测设备,服务器故障预测设备可以包括处理器和存储器,存储器中存储有故障预测程序,该故障预测程序被处理器执行时,实现本发明服务器故障预测方法各个实施例的全部或部分步骤。
具体的,服务器故障预测设备是指能够实现网络连接的终端设备或网络设备,可以是手机、电脑、平板电脑、便携计算机、嵌入式工控机等终端设备,也可以是服务器、云平台等网络设备。
可以理解,服务器故障预测设备还可以包括通信总线,用户接口和网络接口。
其中,通信总线用于实现这些组件之间的连接通信;用户接口用于连接客户端,与客户端进行数据通信,用户接口可以包括输出单元如显示屏、扬声器等,输入单元如键盘、话筒等;网络接口用于连接后台服务器,与后台服务器进行数据通信,网络接口可以包括输入/输出接口,比如标准的有线接口、无线接口如Wi-Fi接口;存储器用于存储各种类型的数据,这些数据例如可以包括该服务器故障预测设备中任何应用程序或方法的指令,以及应用程序相关的数据,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(StaticRandom Access Memory,SRAM),只读存储器(Read-Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM),磁存储器,快闪存储器,磁盘或光盘等;可选的,存储器还可以是独立于处理器的存储装置;处理器用于调用存储器中存储的故障预测程序,并执行如上述的服务器故障预测方法,处理器可以是专用集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital SignalProcessor,DSP)、数字信号处理设备(Digital Signal Processing Device,DSPD)、可编程逻辑器件(Programmable Logic Device,PLD)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、控制器、微控制器、微处理器或其他电子元件,用于执行如上述服务器故障预测方法各个实施例的全部或部分步骤。
需要说明,图2中示出的硬件结构并不构成对本发明服务器故障预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
实施例五
基于同一发明构思,本实施例提供了一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁性存储器、磁盘、光盘、服务器等等,该存储介质上存储有计算机程序,该计算机程序可被一个或多个处理器执行,该计算机程序被处理器执行时可以实现本发明服务器故障预测方法各个实施例的全部或部分步骤。
需要说明,上述本发明实施例序号仅为了描述,不代表实施例的优劣。以上实施例仅为本发明的可选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均包括在本发明的专利保护范围内。

Claims (10)

1.一种服务器故障预测方法,其特征在于,所述方法包括:
获取服务器上待测部件的电源功耗数据以及所述电源功耗数据的采集时间;
根据所述采集时间和预设时间窗口确定目标时间段,并根据所述电源功耗数据得到所述目标时间段对应的目标功耗数据;
根据所述目标功耗数据,利用故障预测模型预测所述服务器发生故障的概率,得到故障预测值;其中,所述故障预测模型基于故障诊断模型得到;
根据所述故障预测值,基于服务器故障预测值与时间序列的关系得到所述服务器的故障预测结果。
2.如权利要求1所述的服务器故障预测方法,其特征在于,所述根据所述目标功耗数据,利用故障预测模型预测所述服务器发生故障的概率,得到故障预测值的步骤之前,所述方法还包括:
构建故障诊断模型;
对所述故障诊断模型的参数进行校正,得到校正后的故障诊断模型;
根据所述校正后的故障诊断模型以及所述目标功耗数据对应的采集次数,得到故障预测模型。
3.如权利要求2所述的服务器故障预测方法,其特征在于,所述构建故障诊断模型的步骤包括:
获取第一数据集;所述第一数据集包括所述服务器上故障部件的电源功耗;
根据所述第一数据集确定所述故障部件的初始上限阈值和初始下限阈值,以及所述故障部件反映服务器故障的权重;
根据所述初始上限阈值、所述初始下限阈值和所述权重,构建所述故障诊断模型,其中,所述故障诊断模型的表达式为:
其中,Z表示服务器发生故障的概率,N表示服务器上部件的类别数量,Yi表示第i类部件反映服务器故障的权重,xi表示第i类部件的电源功耗,low_limiti表示第i类部件的初始上限阈值,upper_limiti表示第i类部件的初始下限阈值。
4.如权利要求3所述的服务器故障预测方法,其特征在于,所述对所述故障诊断模型的参数进行校正,得到校正后的故障诊断模型的步骤包括:
获取第二数据集;所述第二数据集包括所述服务器上各个部件的电源功耗以及对应的数据采集时间;
基于所述数据采集时间的时间顺序,将所述各个部件的电源功耗分别输入所述故障诊断模型,输出所述各个部件的诊断结果;
在所述诊断结果大于零的情况下,调整所述故障诊断模型中的所述初始上限阈值和所述初始下限阈值,得到校正后的故障诊断模型。
5.如权利要求4所述的服务器故障预测方法,其特征在于,所述根据所述校正后的故障诊断模型以及所述目标功耗数据对应的采集次数,得到故障预测模型的步骤包括:
根据所述目标功耗数据以及所述目标功耗数据对应的采集次数,得到电源功耗平均值
其中,M表示采集次数,表示第m次采集的第i类部件的电源功耗;
根据所述电源功耗平均值对所述校正后的故障诊断模型进行转换,得到故障预测模型,其中,所述故障预测模型的表达式为:
6.如权利要求1所述的服务器故障预测方法,其特征在于,所述根据所述故障预测值,基于服务器故障预测值与时间序列的关系得到所述服务器的故障预测结果的步骤之前,所述方法还包括:
获取第三数据集,所述第三数据集包括所述服务器产生故障时的故障时间,以及所述故障时间对应的电源功耗;
将所述故障时间对应的电源功耗输入所述故障诊断模型,得到对应的模型输出结果;
统计多组所述故障时间及其对应的所述模型输出结果,得到二维数据表;
根据所述二维数据表进行曲线拟合,得到模型输出结果与时间序列的关系;
根据所述故障预测模型和所述模型输出结果与时间序列的关系,得到所述故障预测值与时间序列的关系。
7.如权利要求1-6任一项所述的服务器故障预测方法,其特征在于,所述根据所述故障预测值,基于服务器故障预测值与时间序列的关系得到所述服务器的故障预测结果的步骤包括:
根据所述故障预测值以及所述故障预测值与时间序列的关系,得到所述服务器发生故障的预测时间;
根据所述预测时间和所述预设时间窗口,确定当前时间距离所述预测时间的剩余时间,作为所述服务器的故障预测结果。
8.一种服务器故障预测装置,其特征在于,所述装置包括:
数据获取模块,用于获取服务器上待测部件的电源功耗数据以及所述电源功耗数据的采集时间;
数据筛选模块,用于根据所述采集时间和预设时间窗口确定目标时间段,并根据所述电源功耗数据得到所述目标时间段对应的目标功耗数据;
故障预测模块,用于根据所述目标功耗数据,利用故障预测模型预测所述服务器发生故障的概率,得到故障预测值;其中,所述故障预测模型基于故障诊断模型得到;
预测结果模块,用于根据所述故障预测值,基于服务器故障预测值与时间序列的关系得到所述服务器的故障预测结果。
9.一种服务器故障预测设备,其特征在于,所述设备包括处理器和存储器,所述存储器上存储有故障预测程序,所述故障预测程序被所述处理器执行时,实现如权利要求1至7中任一项所述的服务器故障预测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如权利要求1至7中任一项所述的服务器故障预测方法。
CN202311786053.6A 2023-12-22 2023-12-22 服务器故障预测方法、装置、设备及存储介质 Pending CN117785607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311786053.6A CN117785607A (zh) 2023-12-22 2023-12-22 服务器故障预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311786053.6A CN117785607A (zh) 2023-12-22 2023-12-22 服务器故障预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117785607A true CN117785607A (zh) 2024-03-29

Family

ID=90399394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311786053.6A Pending CN117785607A (zh) 2023-12-22 2023-12-22 服务器故障预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117785607A (zh)

Similar Documents

Publication Publication Date Title
US7437281B1 (en) System and method for monitoring and modeling system performance
US7698113B2 (en) Method to automatically detect and predict performance shortages of databases
US7712083B2 (en) Method and apparatus for monitoring and updating system software
CN109992473B (zh) 应用系统的监控方法、装置、设备及存储介质
EP2613207A2 (en) Adaptive trend-change detection and function fitting system and method
JP6164311B1 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN109976971B (zh) 硬盘状态监测方法和装置
CN115841046B (zh) 基于维纳过程的加速退化试验数据处理方法和装置
US11032627B2 (en) Maintenance device, presentation system, and program
JP2007318471A (ja) 通信システム異常検出装置
CN115315922A (zh) 检测指示网络操作特性的度量并基于检测到的异常进行识别和控制
CN114721912A (zh) 一种数据分析方法、装置、设备及介质
CN111752481A (zh) 一种基于spd的内存监控及寿命预测方法和系统
US8214693B2 (en) Damaged software system detection
CN111259338B (zh) 元器件失效率修正方法、装置、计算机设备及存储介质
CN117785607A (zh) 服务器故障预测方法、装置、设备及存储介质
CN115795928B (zh) 基于伽马过程的加速退化试验数据处理方法和装置
JP5985328B2 (ja) 蓄電池の残存価値格付け装置およびプログラム
CN114021302A (zh) 输电线路的寿命评估方法、装置、系统及存储介质
CN113608953B (zh) 测试数据生成方法、装置、电子设备及可读存储介质
JP7437163B2 (ja) 診断装置、診断方法およびプログラム
US20230179501A1 (en) Health index of a service
CN117896236A (zh) 时频系统故障诊断方法、装置、设备及存储介质
CN113448828A (zh) 对象数据检测方法、装置、电子设备及计算机存储介质
CN115604091A (zh) 数据处理方法、装置、基板控制管理系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination