CN117170915A - 数据中心设备故障预测方法、装置和计算机设备 - Google Patents

数据中心设备故障预测方法、装置和计算机设备 Download PDF

Info

Publication number
CN117170915A
CN117170915A CN202311010805.XA CN202311010805A CN117170915A CN 117170915 A CN117170915 A CN 117170915A CN 202311010805 A CN202311010805 A CN 202311010805A CN 117170915 A CN117170915 A CN 117170915A
Authority
CN
China
Prior art keywords
data
fault
running state
historical
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311010805.XA
Other languages
English (en)
Inventor
吕志博
吴嘉
张晶奇
李腾飞
彭昶
丁二帅
张一大
惠超
何佳豪
刘丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202311010805.XA priority Critical patent/CN117170915A/zh
Publication of CN117170915A publication Critical patent/CN117170915A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种数据中心设备故障预测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取数据中心设备的运行状态数据和历史故障数据,分别对运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据,按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据,基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。采用本方法能够实现准确的故障预测。

Description

数据中心设备故障预测方法、装置和计算机设备
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种数据中心设备故障预测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
IPMI(Intelligent Platform Management Interface,智能型平台管理接口)是使硬件管理具备“智能化”的新一代通用接口标准,主要用于服务器系统集群自治,监视服务器的物理健康特征,如温度、电压、风扇工作状态、电源状态等。同时,IPMI还负责记录各种硬件的信息和日志记录,用于提示用户和后续问题的定位。
目前,数据中心设备的维护主要采用以下两种方式:第一种,在设备管理系统中设置预警阈值,通过比较设备运行状态参数和预警阈值,判断是否发出告警;另一种是运维人员结合IPMI告警上报的信息和定时定点的现场巡检等被动发现的维护方法进行维护。
然而,上述方式,均无法对数据中心设备的故障进行准确预测,进而及时检测出故障。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现准确故障预测的数据中心设备故障预测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种数据中心设备故障预测方法。所述方法包括:
获取数据中心设备的运行状态数据和历史故障数据;
分别对运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据;
按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据;
基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。
在其中一个实施例中,基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到各类部件的故障预测结果包括:
以各类部件的运行状态特征数据和历史故障特征数据为输入,调用已训练的故障预测模型进行故障预测,得到故障预测结果,故障预测结果包括故障类型预测结果、故障概率以及预测故障发生时间;
其中,故障预测模型为通过数据中心设备的历史故障数据和历史运行状态数据,对包含时间序列分析模型和深度学习模型的初始故障预测模型训练得到。
在其中一个实施例中,以各类部件的运行状态特征数据和历史故障特征数据为输入,调用已训练的故障预测模型进行故障预测,得到故障预测结果包括:
将各类部件的运行状态特征数据和历史故障特征数据分割为连续的窗口数据,获取运行状态时间序列集合和历史故障时间序列集合;
标注运行状态时间序列集合和历史故障时间序列集合中的异常数据点,得到标注后的运行状态时间序列集合和历史故障时间序列集合;
以标注后的运行状态时间序列集合和历史故障时间序列集合为输入,调用回归移动平均模型进行故障预测,得到故障概率和预测故障发生时间;
以各类部件的运行状态特征数据和历史故障特征数据为输入,调用注意力机制模型进行故障预测,得到故障类型预测结果。
在其中一个实施例中,基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果包括:
对各类部件的运行状态特征数据与历史故障特征数据进行相似度匹配,得到各类部件的特征相似度;
将各类部件的特征相似度与预设的各类部件的故障阈值进行比较,得到各类部件的故障预测结果;
基于各类部件的故障预测结果,得到故障预测结果。
在其中一个实施例中,对各类部件的运行状态特征数据与历史故障特征数据进行相似度匹配,得到各类部件的特征相似度包括:
获取各类部件的相似度匹配项、以及相似度匹配项的权重;
根据相似度匹配项和权重,对各类部件的运行状态特征数据与历史故障特征数据进行相似度计算,得到各类部件的特征相似度。
在其中一个实施例中,分别对运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据之前,还包括:
对运行状态数据和历史故障数据进行数据预处理,数据预处理包括数据清洗、数据对齐、数据平衡以及特征选择中的至少一种;
分别对运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据包括:
对数据预处理后的运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据。
第二方面,本申请还提供了一种数据中心设备故障预测装置。所述装置包括:
数据获取模块,用于获取数据中心设备的运行状态数据和历史故障数据;
特征提取模块,用于对所述运行状态数据和所述历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据;
数据分类模块,用于按照所述数据中心设备中部件的种类,对所述运行状态特征数据和所述历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据;
故障预测模块,用于基于各类部件的运行状态特征数据和所述历史故障特征数据,对所述数据中心设备进行故障预测,得到故障预测结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取数据中心设备的运行状态数据和历史故障数据;
分别对运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据;
按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据;
基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取数据中心设备的运行状态数据和历史故障数据;
分别对运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据;
按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据;
基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取数据中心设备的运行状态数据和历史故障数据;
分别对运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据;
按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据;
基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。
上述数据中心设备故障预测方法、装置、计算机设备、存储介质和计算机程序产品,通过对数据中心设备的运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据,然后,按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据,最后,基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。整个方案,不再依赖运维人员现场巡检维护或者简单的阈值比较的方式,而是基于丰富的各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,能够提供更细粒度的故障预测,精确地预测硬件设备的各类部件的运行状态和故障规律,进而得到更为精确的故障预测结果,提高故障预测的精确度。
附图说明
图1为一个实施例中数据中心设备故障预测方法的应用环境图;
图2为一个实施例中数据中心设备故障预测方法的流程示意图;
图3为另一个实施例中数据中心设备故障预测方法的流程示意图;
图4为一个实施例中故障预测步骤的流程示意图;
图5为一个实施例中故障预测步骤的详细流程示意图;
图6为另一个实施例中故障预测步骤的流程示意图;
图7为另一个实施例中数据中心设备故障预测方法的流程示意图;
图8为一个实施例中数据中心设备故障预测装置的结构框图;
图9为另一个实施例中数据中心设备故障预测装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的数据中心设备故障预测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,服务器104通过网络与IPMI端106进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。具体地,可以是IPMI端106定时采集数据中心设备的运行状态数据,并将采集到的运行状态数据上报至服务器104。运维人员通过终端104发送故障预测消息至服务器104,服务器104接收到故障预测消息后,便触发故障预测流程,获取数据中心设备的运行状态数据和历史故障数据,然后,分别对运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据,然后,按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据,最后,基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在其中一个实施例中,如图2所示,提供了一种数据中心设备故障预测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S200,获取数据中心设备的运行状态数据和历史故障数据。
数据中心设备包括服务器、网络设备、数据存储设备交换机等。运行状态数据可以是由IPMI采集,包括但不限于数据中心设备的日志数据(包括告警日志)、设备运行环境地理、温度、温度、电力以及各类型部件的运行状态参数(如数据发送速率、数据接收速率、延迟等)等数据。历史故障数据可以是故障案例数据,包括但不限于硬件类型、硬件生产时间、生产厂家、固件版本号、硬件使用时间、所在数据中心的经纬度、电力、温湿度、系统负载、上层应用种类以及对应的故障等级、故障类型、故障原因以及故障规律等数据。具体地,可以是通过大数据技术,从大数据平台采集全球厂商中心以及各数据平台中的历史故障数据。
本实施例中,以数据中心设备为计算机网络设备为例,可以是IPMI定时采集计算机网络设备的运行状态数据,并将运行状态数据上报至服务器,且运维人员收集网络设备的故障案例数据,将故障案例数据整理为历史故障数据上传至服务器。当运维人员想要对网络设备进行故障预测时,可通过终端发送故障预测消息至服务器,服务器获取运行状态数据以及历史故障数据。
S400,分别对运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据。
承接上一实施例,当获取运行状态数据和历史故障数据后,由于数据量非常大,其中,包含了大量的噪声数据和无用数据。因此,需要对运行状态数据和历史故障数据进行特征提取,提出有用的特征数据,得到运行状态特征数据和历史故障特征数据。具体地,可以是根据特征的重要性、相关性、独特性等指标,采用统计方法或特征重要性评估方法,确定与故障诊断相关的高质量特征。然后,按照选择的高质量特征,从运行状态数据和历史故障数据中提取出相应的特征数据,包括统计特征(如均值、标准差、最大值、最小值等)、时序特征(如趋势、季节性、周期性等)等,得到运行状态特征数据和历史故障特征数据。
以数据中心设备为网络设备为例,运行状态特征数据包括CPU使用率(CentralProcessing Unit,中央处理器)、内存使用率、磁盘使用率、数据包发送和接收速率、丢包率、网络延迟、温湿度、运行时长以及相关电力数据等。历史故障特征数据包括但不限于故障类型、故障等级、故障发生时间、故障持续时间、故障原因以及故障维护数据等。
S600,按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据。
以数据中心设备为计算机网络设备为例,计算机网络设备所包含的部件包括但不限于网卡、路由器、内存、调制解调器等。
具体实施时,由于IPMI采集的设备的运行状态数据是包含多种硬件部件的数据,历史故障数据也包含了多种硬件部件的故障数据。因此,为了便于后续的故障预测处理,可以是按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据。
S800,基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。
本实施例中,故障预测结果包括但不限于故障类型、故障类型、故障等级、预测故障发生时间点以及故障发生原因等数据。其中,故障类型包括两大类,具体为硬件故障和软件故障。其中,硬件故障分为硬件老化故障和异常故障。具体地,老化故障预测结果包括硬件使用时间,使用期间的负载,电力温湿度信息,具体的老化异常的最小单元。异常故障预测结果包含发生异常情况的信息,包括不限于电力故障,温湿度异常值,发生故障的最小单元。软件故障预测结果包括固件版本信息以及最小故障单元等
承接上一实施例,在完成对运行状态特征数据和历史故障特征数据,得到各类部件的运行状态特征数据和历史故障特征数据,可以是各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。具体地,可以是针对每一类型部件,对比分析的运行状态特征数据和历史故障特征数据,对每一类型部件进行故障预测,得到每一类型部件的故障预测结果,然后,综合分析每一类型部件的故障预测结果,得到整个数据中心设备的故障预测结果。在另一些实施例中,还可以是基于历史故障数据和历史运行状态,构建训练故障预测模型,然后,将各类部件的运行状态特征数据和历史故障特征数据输入至已训练的故障预测模型,得到故障预测结果。
上述数据中心设备故障预测方法中,通过对数据中心设备的运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据,然后,按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据,最后,基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。整个方案,不再依赖运维人员现场巡检维护或者简单的阈值比较的方式,而是基于丰富的各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,能够提供更细粒度的故障预测,精确地预测硬件设备的各类部件的运行状态和故障规律,进而得到更为精确的故障预测结果,提高故障预测的精确度,便于故障的快速定位和修复。
如图3所示,在其中一个实施例中,S400之前,还包括:S300,对运行状态数据和历史故障数据进行数据预处理,数据预处理包括数据清洗、数据对齐、数据平衡以及特征选择中的至少一种。
S400包括:S420,对数据预处理后的运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据。
在实际应用中,为了保证数据的可靠性和一致性,需要对运行状态数据和历史故障数据进行数据预处理。本实施例中,可以是对运行状态数据和历史故障数据进行数据清洗、数据对齐、数据平衡以及特征选择中的至少一种。具体地,数据清洗:检查数据中是否存在缺失值、异常值或错误数据,并进行相应的处理。例如,可以删除包含缺失值的数据记录,使用插值方法填充缺失值,或纠正错误数据。数据对齐:将运行状态数据和历史故障数据进行对齐,确保它们的时间戳或其他关键标识符是一致的。这可以帮助将运行状态数据与相应的故障数据对应起来,以进行后续的分析。数据平衡:将运行状态数据和历史故障数据中不同类别存在不平衡的数据,通过欠采样、过采样或合成样本等方式平衡数据。特征选择:统计方法、特征重要性评估方法(如基于树模型的特征重要性)或领域知识来进行特征选择,选择出与故障预测最相关的特征来进行分析。此外,还可将经过预处理的数据保存在适当的格式中,以供后续的故障分析或其他任务使用。
进一步地,在完成上述数据预处理之后,可以是从数据预处理后的运行状态数据和历史故障数据进行特征提取,提取出统计特征(如均值、标准差、最大值、最小值等)、时序特征(如趋势、季节性、周期性等)等特征,得到运行状态特征数据和历史故障特征数据。
本实施例的技术方案中,通过对数据进行数据预处理,能够提高数据质量,便于后续故障分析,提高预测精度和效率。
如图3所示,在其中一个实施例中,S800包括:S820,以各类部件的运行状态特征数据和历史故障特征数据为输入,调用已训练的故障预测模型进行故障预测,得到故障预测结果,故障预测结果包括故障类型预测结果、故障概率以及预测故障发生时间;
其中,故障预测模型为通过数据中心设备的历史故障数据和历史运行状态数据,对包含时间序列分析模型和深度学习模型的初始故障预测模型训练得到。
本实施例中,故障预测模型可以是选用包含时间序列分析模型和深度学习模型的组合模型。具体地,时间序列模型可以是回归移动平均模型、自回归积分滑动平均模型等,深度学习模型可以选用循环神经网络、长短期记忆网络以及卷积神经网络等模型。具体实施时,可以是选用包括回归移动平均模型和长短期记忆网络的组合模型作为初始的故障预测模型。故障预测模型的训练过程可以是:收集数据中心设备的历史时期下历史故障数据和历史运行状态数据,包括设备的各部件的运行状态数据和历史故障案例数据、日志文件、维修记录等。然后,对数据进行清理和预处理,包括去除噪声、处理缺失值和异常值等。接着,从处理后的数据中提取对故障预测有意义的特征数据,具体地,可以通过计算统计指标、提取频域特征、时间窗口以及其他相关领域的特征工程方法,提取出运行状态特征数据和故障特征数据。根据已知的故障数据,对上述特征数据进行数据标签标注,将准备好的数据划分为训练集和测试集。采用使用训练集对选定的上述初始故障预测模型进行训练,并通过优化算法来优化模型的参数。在训练过程中,根据模型在验证集上的性能,进行模型的调优,例如调整模型结构、正则化、学习率调整等,得到训练后的故障预测模型。然后,使用测试集评估训练后的故障预测模型的性能,性能评估指标可以包括但不限于准确率、召回率和F1分数等。最后,当故障预测模型达到满意的性能后,可以其部署到实际的现网运行的数据中心设备中进行实际的故障预测。
具体实施时,可以是以各类部件的运行状态特征数据和历史故障特征数据为输入,调用已训练的故障预测模型进行故障预测,得到故障预测结果,故障预测结果包括故障类型预测结果、故障概率以及预测故障发生时间。
本实施例的技术方案中,通过调用故障预测模型进行故障预测,能够快速且精准地分析设备的故障趋势,得到准确的故障预测结果。
如图4所示,在其中一个实施例中,S820包括:
S822,将各类部件的运行状态特征数据和历史故障特征数据分割为连续的窗口数据,获取运行状态时间序列集合和历史故障时间序列集合。
S824,标注运行状态时间序列集合和历史故障时间序列集合中的异常数据点,得到标注后的运行状态时间序列集合和历史故障时间序列集合。
S826,以标注后的运行状态时间序列集合和历史故障时间序列集合为输入,调用回归移动平均模型进行故障预测,得到故障概率和预测故障发生时间。
S828,以各类部件的运行状态特征数据和历史故障特征数据为输入,调用注意力机制模型进行故障预测,得到故障类型预测结果。
运行状态数据和历史故障数据均包括各数据的数据采集时间点。本实施例中,以时间序列分析模型为回归移动平均模型为例,以深度学习模型为注意力机制模型为例,可以是:将目标时间段内的运行状态特征数据和历史故障特征数据分割为连续的窗口数据,基于窗口数据获取对应的运行状态时间序列集合和历史故障时间序列集合,然后标注出运行状态时间序列集合和历史故障时间序列集合中的数值超过预设阈值的异常数据点。再将标注后的运行状态时间序列集合和历史故障时间序列集合输入至回归移动平均模型中进行故障预测,得到故障概率和预测故障发生时间,然后,将各类部件的运行状态特征数据和历史故障特征数据输入至注意力机制模型进行故障预测,预测故障类型,得到故障类型预测结果。
本实施例的技术方案中,通过回归移动平均模型能够准确预测故障发生概率,通过注意力机制模型能够准确预测出故障类型。
在其中一个实施例中,得到故障预测结果之后,方法还包括:根据日志数据、设备运行环境信息和故障类型进行故障原因分析,得到故障原因分析结果。
如上述实施例所述,故障预测结果包括故障类型,运行状态数据包括日志数据和设备运行环境信息。在实际应用中,得到故障类型结果后,可以是根据故障类型和故障特征信息,结合领域知识和专家经验,推断故障的可能原因。具体地,可以是根据故障类型在历史故障数据中匹配出该故障类型对应的故障数据,该故障数据包括设备运行环境信息、故障原因数据和维护记录等数据,然后,基于匹配出的故障原因数据,分析设备运行环境信息和日志数据,得到故障原因分析结果。可以理解的是,在其他实施例中,还可以采用其他维度的数据和分析方式进行故障原因分析,在此不做限定。
本实施例的技术方案中,通过分析故障原因能够便于运维人员快速定位故障原因,并有针对性地采取应对措施,减少因故障带来的风险。
如图5所示,在其中一个实施例中,S800包括:
S840,对各类部件的运行状态特征数据与历史故障特征数据进行相似度匹配,得到各类部件的特征相似度。
S860,将各类部件的特征相似度与预设的各类部件的故障阈值进行比较,得到各类部件的故障预测结果。
S880,基于各类部件的故障预测结果,得到故障预测结果。
本实施例中,各类部件的故障阈值是基于大量的故障案例数据分析得到的数值,可以理解的是,各类部件的故障阈值可以根据实际情况而设定。
具体实施时,可以是针对每一部件,按照预设的相似度匹配维度,分别提取运行状态特征数据与历史故障特征数据中与相似度匹配维度对应的数据进行相似度计算,本实施例中,可以是采用余弦相似度计算方式,将提取出的部分运行状态特征数据转化为运行状态特征向量,将部分历史故障特征数据转化为历史故障特征向量,利用余弦相似度计算公式,计算历史故障特征向量和运行状态特征向量的余弦相似度,然后比较余弦相似度与对应的故障阈值,若余弦相似度大于或大于故障阈值,则表征该部件很大几率会发生故障,并进一步分析历史故障数据,得到故障发生概率和故障类型。然后,按照上述方式,对每一类型部件进行余弦相似度计算,进而进行故障预测,得到故障预测结果。然后,综合各类部件的故障发生概率和故障类型等故障预测结果,得到数据中心设备的故障预测结果。具体地,可以将是将各类部件的故障预测结果输入至故障预测模型中,得到数据中心设备的故障类型、故障发生概率等故障预测结果。可以理解的是,在其他实施例中,还可以采用如杰卡德相似度系数、欧式距离、马氏距离等其他相似度计算方式。
本实施例的技术方案中,通过使用相似度匹配和比较算法,可以更准确地预测各类部件的故障,从而提高整个数据中心的稳定性和可靠性。通过预测故障并提前采取措施,可以减少维修和更换部件的成本。
如图6所示,在其中一个实施例中,S840包括:S842,获取各类部件的相似度匹配项、以及相似度匹配项的权重,根据相似度匹配项和权重,对各类部件的运行状态特征数据与历史故障特征数据进行相似度计算,得到各类部件的特征相似度。
相似度匹配项是用来衡量各类部件之间相似度的特征,可以包括部件的型号、生产日期、厂商、重要性等方面的信息,相似度匹配项的选择应该以能够准确反映部件之间的相似度为依据,具体可以由运维人员根据业务需求、专业知识和大量的故障案例数据确定。每一相似度匹配项,均设置有相应的权重,权重用于衡量不同匹配项对相似度计算的重要程度。例如,对于部件型号可能赋予较高的权重,因为特定型号的部件可能具有类似的故障模式。
以部件为硬盘为例,计算硬盘的特征相似度,相似度匹配项可以包括但不限于硬盘容量、型号、制造厂商、数据中心所在地、地理位置、数据写入量以及运行时长等,运维人员可以是基于大量的故障案例数据分析结果,对上述每一相似度匹配项设置相应的权重占比。例如,经过对大量的故障案例数据分析得到,某个制造厂商制造的硬盘出现故障的概率更高,可将“制造厂商”这一相似度匹配项的权重设置得最高。其他相似度匹配项依据对引发故障的影响程度分配相应的权重,例如,影响程度越大,其分配的权重占比越高。所有相似度匹配项的权重为1。
具体实施时,可以是获取各类部件的相似度匹配项、以及相似度匹配项的权重,然后,根据相似度匹配项,对运行状态特征数据和历史故障特征数据进行匹配,如根据型号进行匹配,将相同型号的硬盘的历史故障特征数据和运行状态特征数据进行对应,然后,计算相同型号的历史故障特征数据和运行状态特征数据的相似度,得到型号特征相似度。然后,针对其他相似度匹配项,按照上述同样的方式进行处理,得到各相似匹配项的相似度,基于各相似度匹配项的权重,将不同匹配项的相似度进行加权求和,得到最终的特征相似度。可以理解的是,在其他实施例中还可以是采用加权平均的方式进行计算,得到最终的特征相似度。
本实施例的技术方案中,通过采用相似度匹配项和分配权重的方法,可以针对关键特征对相似度的贡献,分配不同的权重,提供个性化的故障预测和维护策略。并且,根据部件的具体特征进行相似度计算,可以提供更加细粒度的相似度的度量,反映部件之间在不同特征上的相似程度。
为了对本申请实施例提供的数据中心设备硬件设备故障预测方法做出更为详细的说明,下面结合附图7和具体实施例进行说明,该具体实施例包括以下步骤:
S200,获取数据中心设备的运行状态数据和历史故障数据。
运行状态数据可以是由IPMI采集,包括但不限于数据中心设备的日志数据(包括告警日志)、设备运行环境地理、温度、温度、电力以及各类型部件的运行状态参数(如数据发送速率、数据接收速率、延迟等)等数据。历史故障数据可以是故障案例数据,包括但不限于硬件类型、硬件生产时间、生产厂家、固件版本号、硬件使用时间、所在数据中心的经纬度、电力、温湿度、系统负载、上层应用种类以及对应的故障等级、故障类型、故障原因以及故障规律等数据。
S300,对运行状态数据和历史故障数据进行数据预处理,数据预处理包括数据清洗、数据对齐、数据平衡以及特征选择中的至少一种。
S420,对数据预处理后的运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据。
S600,按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据。
S800,基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。
S822,将各类部件的运行状态特征数据和历史故障特征数据分割为连续的窗口数据,获取运行状态时间序列集合和历史故障时间序列集合。
S824,标注运行状态时间序列集合和历史故障时间序列集合中的异常数据点,得到标注后的运行状态时间序列集合和历史故障时间序列集合。
S826,以标注后的运行状态时间序列集合和历史故障时间序列集合为输入,调用回归移动平均模型进行故障预测,得到故障概率和预测故障发生时间。
S828,以各类部件的运行状态特征数据和历史故障特征数据为输入,调用注意力机制模型进行故障预测,得到故障类型预测结果。
S900,根据日志数据、设备运行环境信息和故障类型进行故障原因分析,得到故障原因预测结果。
上述数据中心设备故障预测方法可以应用于金融科技领域,如银行数据中心服务器集群的管理,通过该方法能够提前对数据中心服务器集群进行故障预测,使得运维人员能够提前干预,采取相应的应对措施,减少故障导致的不利影响。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据中心设备故障预测方法的数据中心设备故障预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多数据中心设备故障预测装置实施例中的具体限定可以参见上文中对于数据中心设备故障预测方法的限定,在此不再赘述。
在其中一个实施例中,如图8所示,提供了一种数据中心设备故障预测装置800,包括:数据获取模块810、特征提取模块820、数据分类模块830和故障预测模块840,其中:
数据获取模块810,用于获取数据中心设备的运行状态数据和历史故障数据;
特征提取模块820,用于对所述运行状态数据和所述历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据。
数据分类模块830,用于按照所述数据中心设备中部件的种类,对所述运行状态特征数据和所述历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据。
故障预测模块840,用于基于各类部件的运行状态特征数据和所述历史故障特征数据,对所述数据中心设备进行故障预测,得到故障预测结果。
上述数据中心设备故障预测装置,通过对数据中心设备的运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据,然后,按照数据中心设备中部件的种类,对运行状态特征数据和历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据,最后,基于各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,得到故障预测结果。整个方案,不再依赖运维人员现场巡检维护或者简单的阈值比较的方式,而是基于丰富的各类部件的运行状态特征数据和历史故障特征数据,对数据中心设备进行故障预测,能够提供更细粒度的故障预测,精确地预测硬件设备的各类部件的运行状态和故障规律,进而得到更为精确的故障预测结果,提高故障预测的精确度,便于故障的快速定位和修复。
在其中一个实施例中,故障预测模块840还用于以各类部件的运行状态特征数据和历史故障特征数据为输入,调用已训练的故障预测模型进行故障预测,得到故障预测结果,故障预测结果包括故障类型预测结果、故障概率以及预测故障发生时间,其中,故障预测模型为通过数据中心设备的历史故障数据和历史运行状态数据,对包含时间序列分析模型和深度学习模型的初始故障预测模型训练得到。
在其中一个实施例中,故障预测模块840还用于将各类部件的运行状态特征数据和历史故障特征数据分割为连续的窗口数据,获取运行状态时间序列集合和历史故障时间序列集合,标注运行状态时间序列集合和历史故障时间序列集合中的异常数据点,得到标注后的运行状态时间序列集合和历史故障时间序列集合,以标注后的运行状态时间序列集合和历史故障时间序列集合为输入,调用回归移动平均模型进行故障预测,得到故障概率和预测故障发生时间,以各类部件的运行状态特征数据和历史故障特征数据为输入,调用注意力机制模型进行故障预测,得到故障类型预测结果。
在其中一个实施例中,故障预测模块840还用于对各类部件的运行状态特征数据与历史故障特征数据进行相似度匹配,得到各类部件的特征相似度,将各类部件的特征相似度与预设的各类部件的故障阈值进行比较,得到各类部件的故障预测结果,基于各类部件的故障预测结果,得到故障预测结果。
在其中一个实施例中,故障预测模块840还用于获取各类部件的相似度匹配项、以及相似度匹配项的权重,根据相似度匹配项和权重,对各类部件的运行状态特征数据与历史故障特征数据进行相似度计算,得到各类部件的特征相似度。
如图9所示,在其中一个实施例中,装置还包括:数据预处理模块812,用于对运行状态数据和历史故障数据进行数据预处理,数据预处理包括数据清洗、数据对齐、数据平衡以及特征选择中的至少一种;
特征提取模块820还用于对数据预处理后的运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据。
如图9所示,在其中一个实施例中,装置还包括故障原因分析模块850,用于根据日志数据、设备运行环境信息和故障类型进行故障原因分析,得到故障原因分析结果。
上述数据中心设备故障预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在其中一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史故障数据、运行状态数据以及故障预测结果数据等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据中心设备故障预测方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在其中一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各数据中心设备故障预测方法中的步骤。
在其中一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各数据中心设备故障预测方法中的步骤。
在其中一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各数据中心设备故障预测方法中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据中心设备故障预测方法,其特征在于,所述方法包括:
获取数据中心设备的运行状态数据和历史故障数据;
分别对所述运行状态数据和所述历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据;
按照所述数据中心设备中部件的种类,对所述运行状态特征数据和所述历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据;
基于各类部件的运行状态特征数据和所述历史故障特征数据,对所述数据中心设备进行故障预测,得到故障预测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于各类部件的运行状态特征数据和所述历史故障特征数据,对所述数据中心设备进行故障预测,得到各类部件的故障预测结果包括:
以各类部件的运行状态特征数据和所述历史故障特征数据为输入,调用已训练的故障预测模型进行故障预测,得到故障预测结果,所述故障预测结果包括故障类型预测结果、故障概率以及预测故障发生时间;
其中,所述故障预测模型为通过所述数据中心设备的历史故障数据和历史运行状态数据,对包含时间序列分析模型和深度学习模型的初始故障预测模型训练得到。
3.根据权利要求2所述的方法,其特征在于,所述以各类部件的运行状态特征数据和所述历史故障特征数据为输入,调用已训练的故障预测模型进行故障预测,得到故障预测结果包括:
将所述各类部件的运行状态特征数据和历史故障特征数据分割为连续的窗口数据,获取运行状态时间序列集合和历史故障时间序列集合;
标注所述运行状态时间序列集合和所述历史故障时间序列集合中的异常数据点,得到标注后的运行状态时间序列集合和历史故障时间序列集合;
以所述标注后的运行状态时间序列集合和历史故障时间序列集合为输入,调用回归移动平均模型进行故障预测,得到故障概率和预测故障发生时间;
以各类部件的运行状态特征数据和所述历史故障特征数据为输入,调用注意力机制模型进行故障预测,得到故障类型预测结果。
4.根据权利要求1所述的方法,其特征在于,所述基于各类部件的运行状态特征数据和所述历史故障特征数据,对所述数据中心设备进行故障预测,得到故障预测结果包括:
对各类部件的运行状态特征数据与所述历史故障特征数据进行相似度匹配,得到各类部件的特征相似度;
将各类部件的特征相似度与预设的各类部件的故障阈值进行比较,得到各类部件的故障预测结果;
基于各类部件的故障预测结果,得到故障预测结果。
5.根据权利要求4所述的方法,其特征在于,所述对各类部件的运行状态特征数据与所述历史故障特征数据进行相似度匹配,得到各类部件的特征相似度包括:
获取各类部件的相似度匹配项、以及所述相似度匹配项的权重;
根据所述相似度匹配项和所述权重,对各类部件的运行状态特征数据与历史故障特征数据进行相似度计算,得到各类部件的特征相似度。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述对所述运行状态数据和所述历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据之前,还包括:
对所述运行状态数据和所述历史故障数据进行数据预处理,所述数据预处理包括数据清洗、数据对齐、数据平衡以及特征选择中的至少一种;
所述对所述运行状态数据和所述历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据包括:
对数据预处理后的运行状态数据和历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据。
7.一种数据中心设备故障预测装置,其特征在于,所述装置包括:
数据获取模块,用于获取数据中心设备的运行状态数据和历史故障数据;
特征提取模块,用于分别对所述运行状态数据和所述历史故障数据进行特征提取,得到运行状态特征数据和历史故障特征数据;
数据分类模块,用于按照所述数据中心设备中部件的种类,对所述运行状态特征数据和所述历史故障特征数据进行分类处理,得到各类部件的运行状态特征数据和历史故障特征数据;
故障预测模块,用于基于各类部件的运行状态特征数据和所述历史故障特征数据,对所述数据中心设备进行故障预测,得到故障预测结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202311010805.XA 2023-08-10 2023-08-10 数据中心设备故障预测方法、装置和计算机设备 Pending CN117170915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311010805.XA CN117170915A (zh) 2023-08-10 2023-08-10 数据中心设备故障预测方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311010805.XA CN117170915A (zh) 2023-08-10 2023-08-10 数据中心设备故障预测方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN117170915A true CN117170915A (zh) 2023-12-05

Family

ID=88938501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311010805.XA Pending CN117170915A (zh) 2023-08-10 2023-08-10 数据中心设备故障预测方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN117170915A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370848A (zh) * 2023-12-08 2024-01-09 深圳市明心数智科技有限公司 设备故障预测方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370848A (zh) * 2023-12-08 2024-01-09 深圳市明心数智科技有限公司 设备故障预测方法、装置、计算机设备及存储介质
CN117370848B (zh) * 2023-12-08 2024-04-02 深圳市明心数智科技有限公司 设备故障预测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN113098723B (zh) 一种故障根因定位方法、装置、存储介质及设备
AU2017274576B2 (en) Classification of log data
CN105071983A (zh) 一种面向云计算在线业务的异常负载检测方法
Lim et al. Identifying recurrent and unknown performance issues
CN111177714A (zh) 异常行为检测方法、装置、计算机设备和存储介质
CN111027615A (zh) 基于机器学习的中间件故障预警方法和系统
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
US20210397956A1 (en) Activity level measurement using deep learning and machine learning
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
US10733514B1 (en) Methods and apparatus for multi-site time series data analysis
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN113360722A (zh) 一种基于多维数据图谱的故障根因定位方法及系统
CN112882898B (zh) 基于大数据日志分析的异常检测方法、系统、设备及介质
US20220303188A1 (en) Managing telecommunication network event data
CN114138601A (zh) 一种业务告警方法、装置、设备及存储介质
Zeydan et al. Cloud 2 HDD: large-scale HDD data analysis on cloud for cloud datacenters
CN113110961A (zh) 设备异常检测方法、装置、计算机设备及可读存储介质
Burmeister et al. Exploration of production data for predictive maintenance of industrial equipment: A case study
CN111400122B (zh) 一种硬盘健康度评估方法及装置
CN114553473B (zh) 一种基于登录ip和登陆时间的异常登陆行为检测系统和方法
CN115659271A (zh) 传感器异常检测方法、模型训练方法、系统、设备及介质
Wang et al. Hard disk drives failure detection using a dynamic tracking method
CN109978038B (zh) 一种集群异常判定方法及装置
CN115829543B (zh) 基于故障需检区间的电力设备预防性试验有效性确定方法
CN117574303B (zh) 施工状况的监测预警方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination