CN116361093A - 硬件设备的故障预测方法、故障预测装置、电子设备 - Google Patents

硬件设备的故障预测方法、故障预测装置、电子设备 Download PDF

Info

Publication number
CN116361093A
CN116361093A CN202310331436.8A CN202310331436A CN116361093A CN 116361093 A CN116361093 A CN 116361093A CN 202310331436 A CN202310331436 A CN 202310331436A CN 116361093 A CN116361093 A CN 116361093A
Authority
CN
China
Prior art keywords
threshold
fault
determining
failure rate
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310331436.8A
Other languages
English (en)
Inventor
漆俊伟
张橙
葛懂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310331436.8A priority Critical patent/CN116361093A/zh
Publication of CN116361093A publication Critical patent/CN116361093A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Abstract

本公开提供了一种硬件设备的故障预测方法、故障预测装置、电子设备,可以应用于信息安全技术领域。该方法包括:获取目标硬件设备的检测数据,检测数据包括设备型号;根据设备型号,确定与目标硬件设备对应的故障阈值和预警阈值,故障阈值高于预警阈值,故障阈值和预警阈值是根据M个参考硬件设备的失效率曲线确定的,失效率曲线是根据比例风险模型确定的,参考硬件设备的设备型号与目标硬件设备相同,M大于等于2;根据检测数据,确定目标硬件设备的失效率计算值;以及根据失效率计算值与故障阈值的第一比较关系、以及失效率计算值与预警阈值的第二比较关系,确定目标硬件设备的预测结果。

Description

硬件设备的故障预测方法、故障预测装置、电子设备
技术领域
本公开涉及信息安全技术领域,具体涉及一种硬件设备的故障预测方法、故障预测装置、电子设备方法。
背景技术
数据中心内设置有大量硬件设备,硬件设备用于管理、处理和传输计算机信息。
相关技术中,业务人员一般通过硬件系统的检测插件,对硬件设备是是否出现故障进行检测。但是,相关技术中的故障排查方法是在硬件实际出现故障,已经对业务信息产生影响后进行的排查和维护,无法在硬件出现故障之前进行维护设备,导致出现故障的硬件设备影响设备性能、业务运行效率和运行连续性。
发明内容
鉴于上述问题,本公开提供了一种硬件设备的故障预测方法、故障预测装置、电子设备。
根据本公开的第一个方面,提供了一种硬件设备的故障预测方法,包括:
获取目标硬件设备的检测数据,检测数据包括设备型号;
根据设备型号,确定与目标硬件设备对应的故障阈值和预警阈值,故障阈值高于预警阈值,故障阈值和预警阈值是根据M个参考硬件设备的失效率曲线确定的,失效率曲线是根据比例风险模型确定的,参考硬件设备的设备型号与目标硬件设备相同,M大于等于2;
根据检测数据,确定目标硬件设备的失效率计算值;以及
根据失效率计算值与故障阈值的第一比较关系、以及失效率计算值与预警阈值的第二比较关系,确定目标硬件设备的预测结果。
根据本公开的实施例,其中,预测结果包括故障设备、非故障设备和风险设备;根据失效率计算值与故障阈值的第一比较关系、以及失效率计算值与预警阈值的第二比较关系,确定目标硬件设备的预测结果,包括:
在第一比较关系表征失效率计算值大于或等于故障阈值的情况下,将目标硬件设备确定为故障设备;
在第二比较关系表征失效率计算值小于预警阈值的情况下,将目标硬件设备确定为非故障设备;
在第一比较关系表征失效率计算值小于故障阈值,且第二比较关系表征失效率计算值大于或等于预警阈值的情况下,将目标硬件设备确定为风险设备。
根据本公开的实施例,其中,检测数据包括使用时长和累计错误数;
根据检测数据,确定目标硬件设备的失效率计算值,包括:
根据使用时长和累计错误数,确定目标硬件设备的生存函数曲线,第t时刻的生存函数曲线值表征目标硬件设备的使用时间大于t时刻的概率,t大于等于0;以及
根据生存函数曲线的密度函数与生存函数曲线的比值,确定失效率计算值。
根据本公开的实施例,其中,在根据设备型号,确定与目标硬件设备对应的故障阈值和预警阈值之前,包括:
根据M个参考硬件设备的历史数据,建立比例风险模型,历史数据包括设备型号、使用时长、累计错误数和故障状态;
确定比例风险模型的极大似然估计解;以及
基于极大似然估计解,确定故障阈值和预警阈值。
根据本公开的实施例,其中,基于极大似然估计解,确定故障阈值和预警阈值包括:
根据极大似然估计解,计算失效率曲线;
根据失效率曲线确定阈值间隔;
基于阈值间隔、下限阈值和上限阈值,确定阈值序列,阈值序列包括N个阈值,N个阈值之间的阈值间隔相同,上限阈值为1,下限阈值与0之间的差值为阈值间隔,N大于等于2;
基于阈值序列,计算每个阈值对应的故障指标值;以及
将最大的故障指标值对应的阈值确定为故障阈值,将次大的故障指标值对应的阈值确定为预警阈值。
根据本公开的实施例,其中,故障状态包括第一故障状态和第二故障状态,第一故障状态表征目标硬件设备之前已出现故障且已更换配件,第二故障状态表征目标硬件设备之前未出现故障;
根据故障状态和阈值序列,计算每个阈值对应的故障指标值,包括:
针对第n个阈值,从M个目标硬件设备中,确定处于第一故障状态下的第一设备数量、以及处于第二故障状态下的第二设备数量,n大于等于2,且n小于等于N;
计算第n个阈值和第N个阈值与第n个阈值之差的比值;以及
根据第一设备数量、第二设备数量、比值和目标硬件设备的总数,计算故障指标值。
根据本公开的实施例,该方法还包括:
更新参考硬件设备,并重新确定比例风险模型的极大似然解;
根据重新确定的极大似然解,确定验证故障阈值和验证预警阈值;
根据验证故障阈值和故障阈值,更新故障阈值;以及
根据验证预警阈值和预警阈值,更新预警阈值。
本公开的第二方面提供了一种硬件设备的故障预测装置,包括:
获取模块,用于获取目标硬件设备的检测数据,检测数据包括设备型号;
第一确定模块,用于根据设备型号,确定与目标硬件设备对应的故障阈值和预警阈值,故障阈值高于预警阈值,故障阈值和预警阈值是根据M个参考硬件设备的失效率曲线确定的,失效率曲线是根据比例风险模型确定的,参考硬件设备的设备型号与目标硬件设备相同,M大于等于2;
第二确定模块,用于根据检测数据,确定目标硬件设备的失效率计算值;以及
预测模块,用于根据失效率计算值与故障阈值的第一比较关系、以及失效率计算值与预警阈值的第二比较关系,确定目标硬件设备的预测结果。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述硬件设备的故障预测方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述硬件设备的故障预测方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述硬件设备的故障预测方法。
在本公开实施例中,通过相同设备类型的参考硬件设备确定故障阈值和预警阈值,因此,基于故障阈值和预警阈值预测目标硬件设备是否出现故障,能够确定准确的故障划定标准,提高故障预测准确性。此外,通过设备型号确定故障阈值和预警阈值,不仅能够保证故障划定标准的准确性,还能够提高故障划定标准的灵活性。
由于每个硬件设备的实际处理情况不同,通过将失效率计算值与设备型号对应的故障阈值和预警阈值分别进行比较,能够主动、准确地确定目标硬件设备是否出现故障,无需在硬件设备实际出现故障之后进行维护,能够减少设备性能恢复时间,保证业务服务的连续性。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的硬件设备的故障预测方法的应用场景;
图2示意性示出了根据本公开实施例的硬件设备的故障预测方法的流程图;
图3示意性示出了根据本公开实施例的预测结果确定方法的流程图;
图4示意性示出了根据本公开实施例的故障阈值和预警阈值确定方法的流程图;
图5示意性示出了根据本公开一具体实施例的根据极大似然估计解确定故障阈值和预警阈值的方法的流程图;
图6A示意性示出了根据本公开实施例的第一组测试案例的失效率曲线图;
图6B示意性示出了根据本公开实施例的第二组测试案例的失效率曲线图;
图7示意性示出了根据本公开实施例的故障指标值示意图;
图8示意性示出了根据本公开实施例的硬件设备的故障预测装置的结构框图;以及
图9示意性示出了根据本公开实施例的适于硬件设备的故障预测方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的数据(如包括但不仅限于用户个人信息)的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
银行业数据中心设置有大量互联网硬件设备,硬件设备的数量规模在数万台以上。为了向用户提供服务,这些硬件设备需要在7*24小时内不间断运行。对于承载核心银行系统等重要执行系统的硬件设备,一旦设备发生故障,会造成严重的业务影响,例如交易数据丢失、无法正常提供业务功能,进而影响用户的使用体验。
银行数据中心的业务团队通常依靠带外检查以及检测应用的感知进行硬件故障情况排查。在计算机技术领域,网络管理通常可分为带外管理(out-of-band)和带内管理(in-band)两种管理模式。带外网络是通过独立于数据网络之外的专用管理通道对机房网络设备(路由器、交换机、防火墙等)、服务器设备(小型机、服务器、工作站)以及机房电源系统进行集中化整合管理的网络集中管理系统。在数据中心中硬件出现问题时,通过带外网络进行故障的排查,保障系统的稳定。
然而,带外检查只能在硬件出现实际故障、可能产生影响或已经产生影响时进行排查,无法主动性的排查未来一段时间内是否会出现故障,导致设备恢复时间长、业务影响大。对于配置较为敏感的系统、应用、架构等,在硬件设备出现部分损坏或存在报错计数(此时带外检查和硬件监控无告警信息)的情况下,导致硬件设备的性能下降,从而影响硬件设备的寿命,提高硬件维护成本。
此外,现有的硬件设备维护根据硬件设备厂商提供的故障定义和故障划分标准,对硬件设备进行故障判定和维护。但是,由于硬件设备的品牌、型号、购置日期以及设备的用途不相同,使得各厂商的故障定义和故障划分标准也不同。
由于硬件设备的实际运行情况不同,无法根据厂商提供的故障定义和故障划分标准准确地判定硬件设备的故障状态,从而导致延误设备恢复时间、影响业务连续性。
本公开的实施例提供了一种硬件设备的故障预测方法,包括:获取目标硬件设备的检测数据,检测数据包括设备型号;根据设备型号,确定与目标硬件设备对应的故障阈值和预警阈值,故障阈值高于预警阈值,故障阈值和预警阈值是根据M个参考硬件设备的失效率曲线确定的,失效率曲线是根据比例风险模型确定的,参考硬件设备的设备型号与目标硬件设备相同,M大于等于2;根据检测数据,确定目标硬件设备的失效率计算值;以及根据失效率计算值与故障阈值的第一比较关系、以及失效率计算值与预警阈值的第二比较关系,确定目标硬件设备的预测结果。
图1示意性示出了根据本公开实施例的硬件设备的故障预测方法的应用场景。
如图1所示,根据该实施例的应用场景100可以包括机房101、服务器102和终端设备103。机房101内包括多个机柜,每个机柜内可以放置多个硬件设备1011。终端设备103包括第一终端设备1031、第二终端设备1032和第三终端设备1033。
网络用以在硬件设备1011、服务器102和终端设备103之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
硬件设备1011包括数据中心中常用的硬件设备,包括服务器硬件设备,例如内存(memory)、硬盘(disk)、风扇(fan)等等。
服务器102可以获取硬件设备101的检测数据,并对硬件设备是否出现故障进行预测,得到预测结果。在得到预测结果之后,服务器102可以将预测结果发送至终端设备103,例如第一终端设备1031、第二终端设备1032和第三终端设备1033。
用户可以使用第一终端设备1031、第二终端设备1032和第三终端设备1033中的至少一个通过网络与服务器102交互,以接收或发送消息等。例如,用户使用第一终端设备1031、第二终端设备1032和第三终端设备1033的至少一个通过网络接收来自服务器的预测结果;或者用户使用第一终端设备1031、第二终端设备1032和第三终端设备1033的至少一个通过网络向服务器发送查询请求。
第一终端设备1031、第二终端设备1032和第三终端设备1033上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备1031、第二终端设备1032和第三终端设备1033可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器102可以是提供各种服务的服务器,例如,用于对硬件设备进行故障预测的服务器。
例如,服务器102从机房101中获取目标硬件设备的检测数据,检测数据包括设备型号;根据设备型号,确定与目标硬件设备对应的故障阈值和预警阈值,故障阈值高于预警阈值,故障阈值和预警阈值是根据M个参考硬件设备的失效率曲线确定的,失效率曲线是根据比例风险模型确定的,参考硬件设备的设备型号与目标硬件设备相同,M大于等于2;根据检测数据,确定目标硬件设备的失效率计算值;根据失效率计算值与故障阈值的第一比较关系、以及失效率计算值与预警阈值的第二比较关系,确定目标硬件设备的预测结果。之后,服务器102通过网络将预测结果发送至终端设备103。
根据本公开的实施例,服务器102可以是设置于机房101内的任意一个或多个服务器,用于对硬件设备进行故障预测;还可以是设置于机房101之外,位于其他机房的任意一个或多个服务器,用于对硬件设备进行故障预测。
需要说明的是,本公开实施例所提供的硬件设备的故障预测方法一般可以由服务器102执行。相应地,本公开实施例所提供的硬件设备的故障预测装置一般可以设置于服务器102中。本公开实施例所提供的硬件设备的故障预测方法也可以由不同于服务器102且能够与硬件设备1011、终端设备103和/或服务器102通信的服务器或服务器集群执行。相应地,本公开实施例所提供的硬件设备的故障预测装置也可以设置于不同于服务器102且能够与硬件设备1011、终端设备103和/或服务器102通信的服务器或服务器集群中。
应该理解,图1中的终端设备、机房和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、机房和服务器。
以下将基于图1描述的场景,通过图2~图7对公开实施例的硬件设备的故障预测方法进行详细描述。
图2示意性示出了根据本公开实施例的硬件设备的故障预测方法的流程图。
如图2所示,该方法200包括操作S210~S240。
在操作S210,获取目标硬件设备的检测数据,检测数据包括设备型号。
根据本公开的实施例,目标硬件设备包括服务器设备。硬件设备包括多个配件,例如,内存、风扇、硬盘、处理器等,任何一个配件的故障都会导致硬件设备出现故障。
根据本公开的实施例,在对目标硬件设备进行故障预测时,可以将内存、硬盘、风扇、处理器等配件作为单独的目标硬件设备,还可以将包括多个配件的服务器设备作为目标硬件设备。
根据本公开的实施例,数据中心包括多个硬件设备,多个硬件设备属于多个品牌、多个设备用途以及多个购置日期等,并且,每个生产厂商的故障定义和划分标准不同。由此,多个硬件设备对应多个硬件故障标准。
根据本公开的实施例,同一设备型号的硬件设备具有相同或相近的生产工艺。因此,在进行故障预测时,同一设备型号的硬件设备会具有相同或类似的故障情况,相应地,同一设备型号的硬件设备具有相同的硬件故障标准。
在操作S220,根据设备型号,确定与目标硬件设备对应的故障阈值和预警阈值。故障阈值高于预警阈值,故障阈值和预警阈值是根据M个参考硬件设备的失效率曲线确定的,失效率曲线是根据比例风险模型确定的,参考硬件设备的设备型号与目标硬件设备相同,M大于等于2。
根据本公开的实施例,根据目标硬件设备的设备型号,可以确定当前设备型号对应的硬件故障标准,例如,故障阈值和预警阈值。
根据本公开的实施例,故障阈值用于确定硬件设备是否出现故障,预警阈值用于确定是否对硬件设备进行预警,以避免硬件设备出现故障,故障阈值高于预警阈值。
根据本公开的实施例,故障阈值和预警阈值是根据参考硬件设备的实际运行情况确定的。具体地,通过利用比例风险模型确定参考硬件设备的失效率曲线,再利用失效率曲线确定故障阈值和预警阈值。其中,参考硬件设备的设备型号与目标硬件设备的设备型号相同,以保证故障标准的准确性。失效率曲线表征参考硬件设备已经失效或者发生故障的比例。
根据本公开的实施例,比例风险模型(proportional hazards model)是由英国统计学家D.R.Cox在1972年提出的一种半参数回归模型,又称为Cox模型。
需要说明的是,硬件设备具有使用寿命,对硬件设备的不当保存、不当使用以及频繁使用都会加速缩短使用寿命,导致硬件设备发生故障。以内存为例,内存运行温度变化过大、主板电压变化导致内存出现读写错误等,都会导致内存发生故障,影响硬件设备的使用寿命。内存作为硬件设备的一个配件,内存发生故障会进一步导致服务器设备发生故障,导致设备维护成本上升。例如,内存CE(Correctable Error)次数过多会导致CE风暴,引发设备宕机。
根据本公开的实施例,在运行硬件设备的过程中,多种因素都会导致硬件设备出现故障。业务人员无法量化评估某个因素造成的使用寿命损耗,但是可以通过对参考硬件设备的使用时间进行分析,从而预测目标硬件设备是否发生故障。由此,利用Cox模型对M个参考硬件设备进行分析并生成失效率曲线,能够确定与参考硬件设备类型相同的其他硬件设备的故障阈值和预警阈值。
在操作S230,根据检测数据,确定目标硬件设备的失效率计算值。
根据本公开的实施例,根据检测数据可以确定目标硬件设备当前的使用状态,从而根据当前的使用状态确定目标硬件的失效率计算值。
根据本公开的实施例,失效率计算值表征硬件设备失效/故障的概率的计算值。
在操作S240,根据失效率计算值与故障阈值的第一比较关系、以及失效率计算值与预警阈值的第二比较关系,确定目标硬件设备的预测结果。
根据本公开的实施例,在确定目标硬件设备的失效率计算值之后,将失效率计算值分别与故障阈值和预警阈值进行比较,以确定目标硬件设备是否可能会出现故障。
根据本公开的实施例,由于故障阈值和预警阈值是与设备型号对应的故障标准,因此,根据目标硬件设备的检测数据确定失效率计算值之后,通过将失效率计算值分别与故障阈值和预警阈值进行比较,能够利用准确的故障划定标准提高硬件预测的准确性和灵活性,此外,由于故障预测包括故障阈值和预警阈值,因此,本公开的实施例还能够基于不同紧急程度,对目标设备是否故障进行预测,能够进一步提高故障预测和故障维护的灵活性。
由于每个硬件设备的实际处理情况不同,在环境电压、配件故障情况、环境温度不同的情况下,仅根据失效率计算值不能准确地判定目标硬件设备是否会出现故障。因此,通过将失效率计算值与设备型号对应的故障阈值和预警阈值分别进行比较,能够主动、准确地确定目标硬件设备是否出现故障,无需在硬件设备实际出现故障之后进行维护,能够减少设备性能恢复时间,保证业务服务的连续性。
根据本公开的实施例,根据失效率计算值与故障阈值的第一比较关系、以及失效率计算值与预警阈值的第二比较关系,确定目标硬件设备的预测结果,包括以下步骤:
在第一比较关系表征失效率计算值大于或等于故障阈值的情况下,将目标硬件设备确定为故障设备。
在第二比较关系表征失效率计算值小于预警阈值的情况下,将目标硬件设备确定为非故障设备。
在第一比较关系表征失效率计算值小于故障阈值,且第二比较关系表征失效率计算值大于或等于预警阈值的情况下,将目标硬件设备确定为风险设备。
根据本公开的实施例,预测结果包括故障设备、非故障设备和风险设备。
根据本公开的实施例,在实际生产过程中,目标硬件设备一般与多个硬件设备进行数据交互,一旦目标硬件设备出现故障,会导致直接相连或间接相连的多个硬件设备都出现数据错误,不仅会造成安全风险,还会使得上述多个硬件设备耗费额外的计算机资源修复数据错误。
根据本公开的实施例,在确定失效率计算值大于或等于故障阈值的情况下,虽然目标硬件设备当前还未出现故障,但是,目标硬件设备出现故障的概率已经超过了基于相同设备型号确定故障划分标准,目标设备在后续使用过程中,极有可能出现不可修复的故障。
由此,即使目标硬件设备当前还未出现故障,也将该目标硬件设备确定为故障设备,以便业务人员及时进行更换,将故障后更换的维护方案变化为故障前修复,降低了计算机资源的浪费和维护成本。
根据本公开的实施例,在失效率计算值小于预警阈值的情况下,目标硬件设备的使用寿命还没有达到重点观测的阶段,目标硬件设备可以继续提供服务,因此将目标硬件设备确定为非故障设备。
根据本公开的实施例,在确定失效率计算值大于或等于预警阈值,且失效率计算值小于预警阈值的情况下,目标硬件设备当前未出现故障,但是目标硬件设备已经进入风险阶段,因此将目标硬件设备确定为风险设备。虽然失效率计算值没有超过故障阈值,但是目标硬件设备也存在出现故障的可能性。在实际使用过程中,业务人员可以根据实际运行情况确定是否更换风险设备。
图3示意性示出了根据本公开实施例的预测结果确定方法的流程图。
如图3所示,该实施例的预测结果确定方法300包括操作S340~操作S344,可以作为操作S240的一个具体实施例。
在操作S340,确定失效率计算值是否大于或等于故障阈值。
根据本公开的实施例,在确定失效率计算值大于或等于故障阈值的情况下,进入操作S342,将目标硬件设备确定为故障设备。在确定失效率计算值小于故障阈值的情况下,进入操作S341,确定失效率计算值是否大于或等于预警阈值。
在操作S341,确定失效率计算值是否大于或等于预警阈值。
根据本公开的实施例,在确定失效率计算值大于或等于预警阈值的情况下,进入操作S343,将目标硬件设备确定为风险设备。在确定失效率计算值小于预警阈值的情况下,进入操作S344,将目标硬件设备确定为非故障设备。
在操作S342,将目标硬件设备确定为故障设备。
在操作S343,将目标硬件设备确定为风险设备。
在操作S344,将目标硬件设备确定为非故障设备。
根据本公开的实施例,上述操作SS340~操作S344仅作为一个具体实施例,并不限制操作S340和操作S341之间的操作顺序。
例如,可以先执行操作S341,确定失效率计算值是否大于或等于预警阈值。
在确定失效率计算值大于或等于预警阈值的情况下,再执行操作S340,确定失效率计算值是否大于或等于故障阈值。在操作S340中,在确定失效率计算值大于或等于故障阈值的情况下,执行操作S342,将目标硬件设备确定为故障设备;在确定失效率计算值小于故障阈值的情况下,执行操作S343,将目标硬件设备确定为风险设备。
在确定失效率计算值小于预警阈值的情况下,执行操作S344将目标硬件设备确定为非故障设备。
再例如,可以同时执行操作S340,确定失效率计算值是否大于或等于故障阈值,和操作S341,确定失效率计算值是否大于或等于预警阈值。
在操作S340中,在确定失效率计算值大于或等于故障阈值的情况下,执行操作S342,将目标硬件设备确定为故障设备。
在操作S341中,在确定失效率计算值小于预警阈值的情况下,执行操作S344,将目标硬件设备确定为非故障设备。
在确定失效率计算值小于故障阈值、且失效率计算值大于或等于预警阈值的情况下,执行操作S343,将目标硬件设备确定为故障设备。
根据本公开的实施例,检测数据包括使用时长和累计错误数。
根据使用时长和累计错误数,确定目标硬件设备的生存函数曲线,第t时刻的生存函数曲线值表征目标硬件设备的使用时间大于t时刻的概率,t大于等于0;根据生存函数曲线的密度函数与生存函数曲线的比值,确定失效率计算值。
根据本公开的实施例,生存函数曲线为:
S(t)=P(T>t,X) (1)
其中,S(t)表示生存函数曲线,T表示目标硬件设备的使用时长,X表示协变量,表征累计错误数。
第t时刻生存函数曲线值的计算方式为:第t时刻的累计错误数除以使用时长内全部的累计错误数。
根据本公开的实施例,失效率曲线为:
Figure BDA0004155052020000141
其中,S(t)表示生存函数曲线,f(t)表示生存函数曲线的密度函数,S'(t)表示生存函数曲线的一阶导数,λ(t)表示失效率曲线,F(t)表示分布函数。
第t时刻失效率计算值的计算方式为:第t时刻的瞬时报错率除以第t时刻的未错误数。
图4示意性示出了根据本公开实施例的故障阈值和预警阈值确定方法的流程图。
如图4所示,该实施例的故障阈值和预警阈值确定400包括操作S410~操作S430。根据本公开的实施例,操作S410~操作S430设置于操作S210之前,也可以设置于操作S220之前。
在操作S410,根据M个参考硬件设备的历史数据,建立比例风险模型,历史数据包括设备型号、使用时长、累计错误数和故障状态。
在操作S420,确定比例风险模型的极大似然估计解。
在操作S430,基于极大似然估计解和故障状态,确定故障阈值和预警阈值。
根据本公开的实施例,建立的比例风险模型满足:
λ(t,u)=eβ'uλ0(t) (3)
其中,λ(t,u)表征失效率曲线,u表示因变量,t表示时间变量,β'表示自变量的偏回归系数,λ0(t)表示基准失效率。
根据本公开的实施例,M个参考硬件设备可以通过简单随机抽样获取的。例如,先根据地区确定全队列抽样框,再根据全队列抽样框内的更小的地区确定子队列抽样框。例如,确定XX省的所有硬件设备作为全队列抽样框,将XX省YY市的所有硬件设备作为子队列抽样框。从子队列抽样框内随机确定M个参考硬件设备。
根据本公开的实施例,可以基于计算机设备或计算机软件实现比例风险模型的构建、极大似然估计解的确定。在建立比例风险模型的过程中,使用时长、设备型号、累计错误数和故障状态等都可以作为构建参数。
根据本公开的实施例,可以根据开始时刻和结束时刻确定测试时段,例如,开始时刻为20XX-01-01,结束时刻为20XX-02-26。在测试时段内,M个参考硬件设备使用时长可以大于测试时段的时长,也可以小于测试时段的时长,相应地,M个参考硬件设备可能发生故障也可能未发生故障。
根据本公开的实施例,历史数据还包括设备标识、设备出厂时长、硬件设备上线时间、硬件观测周期起始日期、硬件观测周期截止日期、硬件观测周期内错误计数、硬件品牌、截止日期设备台数和硬件状态。
根据本公开的实施例,设备型号和设备出厂时长可以通过检测插件获取。累计错误数和使用时长等信息可以通过抓取message日志获取。通过硬件设备带外接口的一键日志提取数据时,每次故障检测都需要通过带外接口。由于每台设备都具有特殊标识,利用带外接口频繁抓取数据会导致计算资源浪费。由此,本公开的实施例通过抓取message日志可以批量确定多个硬件设备的累计错误数和使用时长,降低计算资源的浪费。
根据本公开的实施例,由于对全部硬件设备的数据采集费时费力,且观察周期较长,因此选择统计方法对典型抽样样本进行研究,从而估计总体情况,这样的样本曲线参数值称为极大似然估计。通过利用极大似然估计确定的参数模型,可计算概率密度函数作为硬件自然寿命函数。
根据本公开的实施例,由于硬件设备的检测存在截断的情况,对于生存函数曲线的极大似然估计,可以通过Kaplan-Meier估计实现。K-M估计几乎处处收敛,且收敛速度非常快,因此通过K-M估计可以确定较为准确的比例风险模型。
例如,以内存为例,在同一台服务器上,由于CPU等其他设备的失效,使得内存设备也同样失效,这使得内存的故障预测出现误差,从而使独立性假设失效。在不同服务器上,内存也可能因为系统层面的调用错误而产生错误,使得内存设备也同样失效,也使独立性假设失效。在上述独立性假设失效的情况下,利用K-M估计仍然可以准确地排除其他关联因素的干扰,确定准确的比例失效模型。
根据本公开的实施例,在估计一部分样本相较于全量样本的硬件故障情况时,可以将全量样本作为全队列抽样框,研究样本作为子队列抽样框,子队列抽样框内的设备的故障高发或者数据获取难度远低于全队列抽样框。本公开的实施例通过引入case-cohort设计构建Cox模型,一方面,为避免两阶段采样的复杂性建立了等效的采样方案,另一方面为半参数模型提供了数值评估,降低了构建模型的难度,并提高了模型构建的准确性。
根据本公开的实施例,在确定比例失效模型中β'的极大似然估计解之后,基于极大似然估计解和故障状态,即可确定故障阈值和预警阈值。
根据本公开的实施例,硬件的使用状态包括已出现故障且已更换配件、已发生故障且未更换配件、未出现故障且已更换配件和未出现故障且未更换配件。本公开中关注可以正常使用的硬件状态,由此,故障状态包括已出现故障且已更换配件、未出现故障。
根据本公开的实施例,故障状态可以通过特殊标签表征。
根据本公开的实施例,针对已更换配件的硬件设备,使用时长为更换配件后该硬件设备的使用时长。针对未更换配件的硬件设备,使用时长仍为该硬件设备的使用时长。
根据本公开的实施例,确定比例风险模型的极大似然估计解的过程包括以下步骤。
首先,定义Yi(t)=I(T∧tend≥t),Ni(t)=δiI(T^tend≤t),tend表示结束时刻,Yi(t)表示第i个参考硬件设备中使用时长T和与结束时刻tend均大于当前时刻的第一参数,Ni(t)表示第i个参考硬件设备中使用时长T和与结束时刻tend均大于当前时刻的第二参数。I表示故障状态的参数值,可以根据参数表确定,δi表示第i个参考硬件的德尔塔函数。
例如,当故障状态为已出现故障且已更换配件时,I为1,δi函数也为1。在实际应用中,I还可以为2、3等。
定义经验过程:
Figure BDA0004155052020000161
Figure BDA0004155052020000162
Figure BDA0004155052020000171
Figure BDA0004155052020000172
其中,Zi为协变量向量,表征对硬件故障产生影响的参数,包括温度、和/或电压,m表示样本数。
通过Cox模型求得如下方程的解,以得到极大似然估计解:
Figure BDA0004155052020000173
将公式(4)~(7)带入公式(8),并利用数值方法做积分的逼近,得到逼近公式:
Figure BDA0004155052020000174
根据本公开的实施例,在确定逼近公式之后,将M个参考硬件设备的数据输入计算机,通过计算机确定极大似然估计解
Figure BDA0004155052020000175
根据定积分的定义可知当m充分大时,逼近公式的解收敛于定积分的解,由此可以通过极大似然估计解的一致性得到收敛性证明。
例如,以内存为例,针对linux操作系统,当系统开启EDAC服务时,可以通过grep命令获取内存的累计错误数,例如,获取路径可以是:/sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count。还可以基于路径/var/log/下的messages文件,将CE作为词频分类,根据内存槽位提取内存的累计错误数,并根据时间轴加工一周内的累计错误数以及当日错误数。然后,再通过uptime获取系统运行时长,作为观测时长。
参考硬件设备的协变量指标如表1所示。其中,server_id为内存所属服务器的id编码,time为系统运行时间,total、week、day分别代表内存在观测期间、数据采集一周内、数据采集24小时内内存的累计错误数;status为是否产生影响或进行更换,均表征未出现故障。
通过极大似然估计确当比例风险模型的估计参数如表2所示,其中,SD表示标准差。
表1协变量指标表
Figure BDA0004155052020000181
表2估计参数
Figure BDA0004155052020000182
本公开的实施例基于比例风险模型,根据极大似然估计值可以确定较为准确的方程解,以确定更准确的故障阈值和预警阈值。
图5示意性示出了根据本公开一具体实施例的根据极大似然估计解确定故障阈值和预警阈值的方法的流程图。
如图5所示,该实施例的方法500包括操作S531~操作S535,可以作为操作S430的一个具体实施例。
在操作S531,根据极大似然估计解,计算失效率曲线。
在操作S532,根据失效率曲线确定阈值间隔。
在操作S533,基于阈值间隔、下限阈值和上限阈值,确定阈值序列,阈值序列包括N个阈值,N个阈值之间的阈值间隔相同,上限阈值为1,下限阈值与0之间的差值为阈值间隔,N大于等于2。
在操作S534,根据故障状态和阈值序列,计算每个阈值对应的故障指标值。
在操作S535,将最大的故障指标值对应的阈值确定为故障阈值,将次大的故障指标值对应的阈值确定为预警阈值。
根据本公开的实施例,基于Cox模型对失效率曲线做出了一个估计
Figure BDA0004155052020000191
满足:/>
Figure BDA0004155052020000192
根据本公开的实施例,将得到的极大似然估计解
Figure BDA0004155052020000193
带入公式(10),得到Cox模型的失效率曲线。
根据本公开的实施例,在确定失效率曲线之后,以失效率曲线上下限差值的1%作为阈值间隔。还可以根据失效率曲线的2%或其他比例作为阈值间隔,以确定阈值序列。例如,在阈值间隔为1%时,下限阈值为1%。
根据本公开的实施例,假定失效率高于阈值的硬件设备均可以通过更换配件解决故障,由此,基于阈值序列中的阈值p和故障状态,可以将参考硬件设备划分为以已出现故障且已更换配件为前提,在阈值p下再次更换配件(TP);以已出现故障且已更换配件为前提,在阈值p下未更换配件(TN);以未出现故障为前提,在阈值p下更换配件(FP);以未出现故障为前提,在阈值p下未更换配件(FN)。
根据本公开的实施例,根据在确定阈值间隔和阈值序列之后,根据“以已出现故障且已更换配件为前提,在阈值p下再次更换配件(TP)”和“以未出现故障为前提,在阈值p下更换配件(FP)”两类数据的数量,计算每个阈值对应的故障指标值。将最大的故障指标值对应的阈值确定为故障阈值,将次大的故障指标值对应的阈值确定为预警阈值。
本公开的实施例通过融合历史数据的失效率曲线表征设备的历史状态;通过计算故障指标值,在保证设备安全运行的情况下,可以最大化提高设备利用率,降低成本。
图6A示意性示出了根据本公开实施例的第一组测试案例的失效率曲线图。
图6B示意性示出了根据本公开实施例的第二组测试案例的失效率曲线图。
如图6A和如图6B所示,本公开利用两组测试案例计算失效率曲线。失效率曲线的趋势均为上升趋势,参考硬件设备的失效率从0到1。
根据本公开的实施例,故障状态包括第一故障状态和第二故障状态,第一故障状态表征目标硬件设备之前已出现故障且已更换配件,第二故障状态表征目标硬件设备之前未出现故障。
根据故障状态和阈值序列,计算每个阈值对应的故障指标值,包括:针对第n个阈值,从M个目标硬件设备中,确定处于第一故障状态下的第一设备数量、以及处于第二故障状态下的第二设备数量,n大于等于2,且n小于等于N;计算第n个阈值和第N个阈值与第n个阈值之差的比值;根据第一设备数量、第二设备数量、比值和目标硬件设备的总数,计算故障指标值。
根据本公开的实施例,第一故障状态对应“以已出现故障且已更换配件为前提,在阈值p下再次更换配件(TP)”,第二故障状态对应“以未出现故障为前提,在阈值p下更换配件(FP)”。
针对每个阈值p计算故障指标值满足:
Figure BDA0004155052020000201
其中,P表示故障指标值,p表示阈值,TP表示第一设备数量,FP表示第二设备数量,m表示参考设备总数。
图7示意性示出了根据本公开实施例的故障指标值示意图。
如图7所示,故障指标值的最大值在0.3~0.4之间,次大值在0.2~0.3之前,阈值分别对应0.50和0.26。
根据本公开的实施例,可以将0.50设置为与该设备型号对应的故障阈值,将0.26设置为与该设备型号对应的预警阈值。
根据本公开的实施例,在根据参考硬件设备的历史数据确定故障阈值和预警阈值之后,可以通过可视化界面向用户展示故障阈值和预警阈值。
根据本公开的实施例,在确定故障阈值和预警阈值之后可以通过定期任务检测目标硬件设备的故障情况,以便及时维护、更换设备或配件。还可以由用户通过预设操作主动调用接口分析单台硬件,并以图表形式在web页面上展示,以便用户随时进行故障排查。
根据本公开的实施例,在确定目标硬件设备的失效率计算值超过预警阈值时,自动发送电子邮件提醒运维团队加强对目标硬件设备的监测或人工介入处理。在确定目标硬件设备的失效率计算值超过故障阈值时,自动发送电子邮件提醒运维团队硬件存在失效风险,及时进行更换。
根据本公开的实施例,还包括:更新参考硬件设备,并重新确定比例风险模型的极大似然解;根据重新确定的极大似然解,确定验证故障阈值和验证预警阈值;根据验证故障阈值和故障阈值,更新故障阈值;以及根据验证预警阈值和预警阈值,更新预警阈值。
例如,可以通过替换预设比例的参考硬件设备更新M个参考硬件设备,从而重新确定比例风险模型。通过更新参考硬件设备,减少因样本选取误差导致的阈值确定差异,提高故障阈值和预警阈值的准确性。
根据本公开的实施例,多个硬件设备之间会因多种环境因素的不同,导致故障的类型或故障阈值出现波动,仅通过一个设备型号来确定设备是否出现故障也可能会导致故障预测不准确。
由此,在第一次对目标硬件设备进行故障预测时,可以通过设备型号获取较为标准的预警阈值和故障阈值,并基于目标硬件设备的检测数据预测是否发生故障。
根据本公开的实施例,在非第一次对目标硬件设备进行故障预测时,可以将目标硬件设备本身作为参考硬件设备,将目标硬件设备的历史检测数据作为样本数据。通过利用目标硬件设备自身的历史检测数据,解决因设备单个个体的影响因素差异导致预测不准确的问题,针对单个设备提高预测准确率。
例如,在将目标硬件设备本身作为参考硬件设备、将目标硬件设备的历史检测数据作为样本数据时,将样本数据带入逼近公式(9),通过计算机重新计算比例风险模型的极大似然估计解。在重新计算的极大似然估计解与原先的极大似然估计解之间的比较关系满足预设条件的情况下,利用重新计算的极大似然估计解更新比例失效模型。此外,还可以利用重新计算的极大似然估计解更新失效率曲线,进而计算得到验证故障阈值和验证预警阈值。
根据本公开的实施例,对重新计算的极大似然估计解和原先的极大似然估计解进行统计分析,以置信度0.95为标准,确定是否更新比例失效模型。例如,在置信度低于0.95时,不更新比例失效模型;在置信度高于0.95时,利用重新计算的极大似然估计解更新比例失效模型。
根据本公开的实施例,根据验证故障阈值和故障阈值,更新故障阈值;根据验证预警阈值和预警阈值,更新预警阈值包括:直接利用验证预警阈值替换预警阈值,得到更新预警阈值;利用验证故障阈值替换故障阈值,得到更新故障阈值。
根据本公开的另一个实施例,还可以包括:将验证预警阈值和预警阈值的平均值作为更新预警阈值,将故障阈值和故障阈值的平均值作为更新故障阈值。
根据本公开的另一个实施例,还可以包括:比较验证预警阈值和预警阈值,将数值小的作为更新预警阈值;比较验证故障阈值和故障阈值,将数值小的作为更新故障阈值。
图8示意性示出了根据本公开实施例的硬件设备的故障预测装置的结构框图。
如图8所示,该实施例的硬件设备的故障预测装置800包括获取模块810、第一确定模块820、第二确定模块830和预测模块840。
获取模块810,用于获取目标硬件设备的检测数据,检测数据包括设备型号。在一实施例中,第一获取模块810,可以用于执行前文描述的操作S210,在此不再赘述。
第一确定模块820,用于根据设备型号,确定与目标硬件设备对应的故障阈值和预警阈值,故障阈值高于预警阈值,故障阈值和预警阈值是根据M个参考硬件设备的失效率曲线确定的,失效率曲线是根据比例风险模型确定的,参考硬件设备的设备型号与目标硬件设备相同,M大于等于2。在一实施例中,第一确定模块820可以用于执行前文描述的操作S220,在此不再赘述。
第二确定模块830,用于获根据检测数据,确定目标硬件设备的失效率计算值。在一实施例中,第二获取模块830可以用于执行前文描述的操作S230,在此不再赘述。
预测模块840,用于根据失效率计算值与故障阈值的第一比较关系、以及失效率计算值与预警阈值的第二比较关系,确定目标硬件设备的预测结果。在一实施例中,第二确定模块840可以用于执行前文描述的操作S240,在此不再赘述。
根据本公开的实施例,预测模块840包括第一预测单元、第二预测单元和第三预测单元。
第一预测单元用于在第一比较关系表征失效率计算值大于或等于故障阈值的情况下,将目标硬件设备确定为故障设备。在一实施例中,第一预测单元可以用于执行前文描述的操作S342,在此不再赘述。
第二预测单元用于在第二比较关系表征失效率计算值小于预警阈值的情况下,将目标硬件设备确定为非故障设备。在一实施例中,第二预测单元可以用于执行前文描述的操作S344,在此不再赘述。
第三预测单元用于在第一比较关系表征失效率计算值小于故障阈值,且第二比较关系表征失效率计算值大于或等于预警阈值的情况下,将目标硬件设备确定为风险设备。在一实施例中,第三预测单元可以用于执行前文描述的操作S343,在此不再赘述。
根据本公开的实施例,第二确定模块830包括第一确定子模块和第二确定子模块。
第一确定子模块用于根据使用时长和累计错误数,确定目标硬件设备的生存函数曲线,第t时刻的生存函数曲线值表征目标硬件设备的使用时间大于t时刻的概率,t大于等于0。
第二确定子模块用于根据生存函数曲线的密度函数与生存函数曲线的比值,确定失效率计算值。
根据本公开的实施例,故障预测装置800包括模型确定模块。其中,模型确定模块包括第三确定子模块、第四确定子模块和第五确定子模块。
第三确定子模块用于根据M个参考硬件设备的历史数据,建立比例风险模型,历史数据包括设备型号、使用时长、累计错误数和故障状态。在一实施例中,第三确定子模块可以用于执行前文描述的操作S410,在此不再赘述。
第四确定子模块用于确定比例风险模型的极大似然估计解。在一实施例中,第四确定子模块可以用于执行前文描述的操作S420,在此不再赘述。
第五确定子模块用于基于极大似然估计解和故障状态,确定故障阈值和预警阈值。在一实施例中,第五确定子模块可以用于执行前文描述的操作S430,在此不再赘述。
根据本公开的实施例,第五确定子模块包括第一确定单元、第二确定单元、第三确定单元、第四确定单元和第五确定单元。
第一确定单元用于根据极大似然估计解,计算失效率曲线。在一实施例中,第一确定单元可以用于执行前文描述的操作S531,在此不再赘述。
第二确定单元用于根据失效率曲线确定阈值间隔。在一实施例中,第二确定单元可以用于执行前文描述的操作S532,在此不再赘述。
第三确定单元用于基于阈值间隔、下限阈值和上限阈值,确定阈值序列,阈值序列包括N个阈值,N个阈值之间的阈值间隔相同,上限阈值为1,下限阈值与0之间的差值为阈值间隔,N大于等于2。在一实施例中,第三确定单元可以用于执行前文描述的操作S533,在此不再赘述。
第四确定单元用于根据阈值序列和故障状态,计算每个阈值对应的故障指标值。在一实施例中,第四确定单元可以用于执行前文描述的操作S534,在此不再赘述。
第五确定单元用于将最大的故障指标值对应的阈值确定为故障阈值,将次大的故障指标值对应的阈值确定为预警阈值。在一实施例中,第五确定单元可以用于执行前文描述的操作S535,在此不再赘述。
根据本公开的实施例,第五确定单元包括第一确定子单元、第二确定子单元和第三确定子单元。
第一确定子单元用于针对第n个阈值,从M个目标硬件设备中,确定处于第一故障状态下的第一设备数量、以及处于第二故障状态下的第二设备数量,n大于等于2,且n小于等于N。
第二确定子单元用于计算第n个阈值和第N个阈值与第n个阈值之差的比值。
第三确定子单元用于根据第一设备数量、第二设备数量、比值和目标硬件设备的总数,计算故障指标值。
根据本公开的实施例,模型确定模块还包括更新子模块,更新子模块包括第一更新单元、第二更新单元、第三更新单元和第四更新单元。
第一更新单元用于更新参考硬件设备,并重新确定比例风险模型的极大似然解。
第二更新单元用于根据重新确定的极大似然解,确定验证故障阈值和验证预警阈值。
第三更新单元用于根据验证故障阈值和故障阈值,更新故障阈值。
第四更新单元用于根据验证预警阈值和预警阈值,更新预警阈值。
根据本公开的实施例,获取模块810、第一确定模块820、第二确定模块830和预测模块840中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,获取模块810、第一确定模块820、第二确定模块830和预测模块840中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块810、第一确定模块820、第二确定模块830和预测模块840中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图9示意性示出了根据本公开实施例的适于硬件设备的故障预测方法的电子设备的方框图。
如图9所示,根据本公开实施例的电子设备900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至输入/输出I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供上述方法。
在该计算机程序被处理器901执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分909被下载和安装,和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (11)

1.一种硬件设备的故障预测方法,包括:
获取目标硬件设备的检测数据,所述检测数据包括设备型号;
根据所述设备型号,确定与所述目标硬件设备对应的故障阈值和预警阈值,所述故障阈值高于所述预警阈值,所述故障阈值和所述预警阈值是根据M个参考硬件设备的失效率曲线确定的,所述失效率曲线是根据比例风险模型确定的,所述参考硬件设备的设备型号与所述目标硬件设备相同,M大于等于2;
根据所述检测数据,确定所述目标硬件设备的失效率计算值;以及
根据所述失效率计算值与故障阈值的第一比较关系、以及所述失效率计算值与预警阈值的第二比较关系,确定所述目标硬件设备的预测结果。
2.根据权利要求1所述的方法,其中,所述预测结果包括故障设备、非故障设备和风险设备;
所述根据所述失效率计算值与故障阈值的第一比较关系、以及所述失效率计算值与预警阈值的第二比较关系,确定所述目标硬件设备的预测结果,包括:
在所述第一比较关系表征所述失效率计算值大于或等于所述故障阈值的情况下,将所述目标硬件设备确定为故障设备;
在所述第二比较关系表征所述失效率计算值小于所述预警阈值的情况下,将所述目标硬件设备确定为非故障设备;
在所述第一比较关系表征所述失效率计算值小于所述故障阈值,且所述第二比较关系表征所述失效率计算值大于或等于所述预警阈值的情况下,将所述目标硬件设备确定为风险设备。
3.根据权利要求1所述的方法,其中,所述检测数据包括使用时长和累计错误数;
所述根据所述检测数据,确定所述目标硬件设备的失效率计算值,包括:
根据所述使用时长和累计错误数,确定所述目标硬件设备的生存函数曲线,第t时刻的生存函数曲线值表征所述目标硬件设备的使用时间大于t时刻的概率,t大于等于0;以及
根据所述生存函数曲线的密度函数与所述生存函数曲线的比值,确定所述失效率计算值。
4.根据权利要求1所述的方法,其中,在根据所述设备型号,确定与所述目标硬件设备对应的故障阈值和预警阈值之前,包括:
根据M个所述参考硬件设备的历史数据,建立比例风险模型,所述历史数据包括设备型号、使用时长、累计错误数和故障状态;
确定所述比例风险模型的极大似然估计解;以及
基于所述极大似然估计解和所述故障状态,确定所述故障阈值和所述预警阈值。
5.根据权利要求4所述方法,其中,所述基于所述极大似然估计解和所述故障状态,确定所述故障阈值和所述预警阈值包括:
根据所述极大似然估计解,计算失效率曲线;
根据所述失效率曲线确定阈值间隔;
基于所述阈值间隔、下限阈值和上限阈值,确定阈值序列,所述阈值序列包括N个阈值,所述N个阈值之间的阈值间隔相同,所述上限阈值为1,所述下限阈值与0之间的差值为所述阈值间隔,N大于等于2;
根据所述阈值序列和所述故障状态,计算每个阈值对应的故障指标值;以及
将最大的故障指标值对应的阈值确定为所述故障阈值,将次大的故障指标值对应的阈值确定为所述预警阈值。
6.根据权利要求5所述的方法,其中,所述故障状态包括第一故障状态和第二故障状态,所述第一故障状态表征所述目标硬件设备之前已出现故障且已更换配件,所述第二故障状态表征所述目标硬件设备之前未出现故障;
根据所述故障状态和所述阈值序列,计算每个阈值对应的故障指标值,包括:
针对第n个阈值,从所述M个目标硬件设备中,确定处于所述第一故障状态下的第一设备数量、以及处于所述第二故障状态下的第二设备数量,n大于等于2,且n小于等于N;
计算所述第n个阈值和第N个阈值与所述第n个阈值之差的比值;以及
根据所述第一设备数量、所述第二设备数量、所述比值和所述目标硬件设备的总数,计算所述故障指标值。
7.根据权利要求5所述的方法,还包括:
更新所述参考硬件设备,并重新确定所述比例风险模型的极大似然解;
根据重新确定的极大似然解,确定验证故障阈值和验证预警阈值;
根据所述验证故障阈值和所述故障阈值,更新所述故障阈值;以及
根据所述验证预警阈值和所述预警阈值,更新所述预警阈值。
8.一种硬件设备的故障预测装置,包括:
获取模块,用于获取目标硬件设备的检测数据,所述检测数据包括设备型号;
第一确定模块,用于根据所述设备型号,确定与所述目标硬件设备对应的故障阈值和预警阈值,所述故障阈值高于所述预警阈值,所述故障阈值和所述预警阈值是根据M个参考硬件设备的失效率曲线确定的,所述失效率曲线是根据比例风险模型确定的,所述参考硬件设备的设备型号与所述目标硬件设备相同,M大于等于2;
第二确定模块,用于根据所述检测数据,确定所述目标硬件设备的失效率计算值;以及
预测模块,用于根据所述失效率计算值与故障阈值的第一比较关系、以及所述失效率计算值与预警阈值的第二比较关系,确定所述目标硬件设备的预测结果。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN202310331436.8A 2023-03-30 2023-03-30 硬件设备的故障预测方法、故障预测装置、电子设备 Pending CN116361093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310331436.8A CN116361093A (zh) 2023-03-30 2023-03-30 硬件设备的故障预测方法、故障预测装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310331436.8A CN116361093A (zh) 2023-03-30 2023-03-30 硬件设备的故障预测方法、故障预测装置、电子设备

Publications (1)

Publication Number Publication Date
CN116361093A true CN116361093A (zh) 2023-06-30

Family

ID=86919676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310331436.8A Pending CN116361093A (zh) 2023-03-30 2023-03-30 硬件设备的故障预测方法、故障预测装置、电子设备

Country Status (1)

Country Link
CN (1) CN116361093A (zh)

Similar Documents

Publication Publication Date Title
US20200358826A1 (en) Methods and apparatus to assess compliance of a virtual computing environment
JP6356304B2 (ja) 保守有効性推定に基づく保守推奨システム
US7409316B1 (en) Method for performance monitoring and modeling
US7082381B1 (en) Method for performance monitoring and modeling
US8949676B2 (en) Real-time event storm detection in a cloud environment
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US20140365829A1 (en) Operation management apparatus, operation management method, and program
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
CN109960635B (zh) 实时计算平台的监控和报警方法、系统、设备及存储介质
US7197428B1 (en) Method for performance monitoring and modeling
CN109976975B (zh) 一种磁盘容量预测方法、装置、电子设备及存储介质
US8788230B2 (en) Methods, system, and computer-readable media for facility integrity testing
US9396432B2 (en) Agreement breach prediction system, agreement breach prediction method and agreement breach prediction program
US20220035356A1 (en) Equipment failure diagnosis support system and equipment failure diagnosis support method
US7369967B1 (en) System and method for monitoring and modeling system performance
JP6482743B1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
CN112631887A (zh) 异常检测方法、装置、电子设备和计算机可读存储介质
US7617313B1 (en) Metric transport and database load
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN111209153B (zh) 异常检测处理方法、装置及电子设备
CN115409283A (zh) 设备故障预测方法、设备故障预测装置、设备及存储介质
US20190369165A1 (en) Management device, management method, and non-transitory storage medium
US10657199B2 (en) Calibration technique for rules used with asset monitoring in industrial process control and automation systems
JPWO2019049521A1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
CN116361093A (zh) 硬件设备的故障预测方法、故障预测装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination