CN117331790A - 一种用于数据中心的机房故障检测方法及装置 - Google Patents

一种用于数据中心的机房故障检测方法及装置 Download PDF

Info

Publication number
CN117331790A
CN117331790A CN202311401948.3A CN202311401948A CN117331790A CN 117331790 A CN117331790 A CN 117331790A CN 202311401948 A CN202311401948 A CN 202311401948A CN 117331790 A CN117331790 A CN 117331790A
Authority
CN
China
Prior art keywords
data
fault detection
data set
fault
predefined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311401948.3A
Other languages
English (en)
Inventor
李汶骅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Zhaoxin Information Technology Co ltd
Original Assignee
Hunan Zhaoxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Zhaoxin Information Technology Co ltd filed Critical Hunan Zhaoxin Information Technology Co ltd
Priority to CN202311401948.3A priority Critical patent/CN117331790A/zh
Publication of CN117331790A publication Critical patent/CN117331790A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种用于数据中心的机房故障检测方法及装置。该用于数据中心的机房故障检测方法,包括以下步骤:S1,数据采集预处理;S2,数据标准化;S3,数据特征提取;S4,数据分割过滤;S5,数据压缩;S6,故障告警;S7,故障修复;S8,持续监测和优化。本发明通过对用于数据中心的机房故障检测的数据采集预处理、标准化、特征提取、分割过滤、数据压缩,对数据压缩结果通过机器学习算法进行计算后检测故障,进行故障告警和修复并持续监测和优化,达到了大大提高故障检测方法准确有效性的效果,解决了现有技术中存在不能大量简化数据和突出数据特征以提高故障检测方法准确有效性的问题。

Description

一种用于数据中心的机房故障检测方法及装置
技术领域
本发明涉及机房故障检测技术领域,尤其涉及一种用于数据中心的机房故障检测方法及装置。
背景技术
随着物联网技术的发展,采用物联网和传感器网络的机房故障检测方法具有广阔的应用前景,在环境监测、设备状态监测、能源管理、故障预测与预警、数据分析和优化方面都有诸多应用,可以提升数据中心运营的智能化和自动化水平,减少故障风险,提高故障响应和维修效率,从而提供稳定、高效的数据中心服务。
现有的用于数据中心的机房故障检测方法通过多种技术实现,这些技术通常结合在一起,以提供全面的故障检测和监测功能。以下是一些常见的技术:传感器技术:传感器是机房故障检测的基础。不同类型的传感器用于监测温度、湿度、电力消耗、烟雾、漏水、气体浓度等环境参数和设备状态。物联网(IoT)技术:物联网允许传感器和设备相互连接,并与云端系统通信。这使得从分布在机房各处的传感器中收集数据变得容易,同时还支持远程监控和管理。云计算和大数据分析:云计算平台可以存储大量的传感器数据,并提供高性能的计算能力,以进行实时分析和预测。自动化和远程监控:自动化系统可以实施故障检测后的自动响应,例如关闭受影响的设备或切换到备用设备。红外热成像技术:红外热成像相机可以检测设备或电缆的过热情况,这可能是故障的先兆。通过红外热成像,可以及早识别潜在的电气问题。电力质量分析:用于监测电力质量的仪器可以检测电压波动、谐波和电流不平衡等问题,这些问题可能导致设备故障。数据中心设备监控系统:专门的设备监控系统(DCIM)可以监测服务器、网络设备、UPS(不间断电源)等数据中心设备的状态和性能。
例如公开号为:CN113176962A的发明专利公开的一种用于数据中心的机房IT设备故障精准检测方法及系统,包括:按照目标周期采集目标IT设备的性能指标信息,获得周期性能数据序列,对所述周期性能数据序列进行归一化处理,按照预设故障类型对处理后的周期性能数据进行聚类,获得聚类结果,计算聚类结果中每个预设故障类型对应的周期性能数据子序列的目标异常值分数,根据每个预设故障类型对应的目标异常值分数判断目标IT设备是否出现故障以及具体故障信息。可智能地根据计算的分数确定目标IT设备是否出现故障以及当出现故障时的具体故障信息,无需人工逐个进行故障排查。
例如公开号为:CN113010394A的发明专利公开的一种用于数据中心的机房故障检测方法,包括:基于数据采集平台,获得数据中心中各个设备的检测数据,并发送至故障检测平台;基于故障检测平台,对检测数据进行分析,得到异常数据;对异常数据进行分析,确定发生故障的设备,并进行报警提醒;对所述发生故障的设备进行分析,确定发生故障的类型;通过采集数据,确定故障发生的设备和故障发生的类型,辅助对后续的故障维修,免去工作人员的排查,提高检测效率。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术中,对用于数据中心的机房故障检测的大量监测数据的数据处理效率不足,增加了维护和管理的复杂性,存在不能大量简化数据和突出数据特征以提高故障检测方法准确有效性的问题。
发明内容
本申请实施例通过提供一种用于数据中心的机房故障检测方法及装置,解决了现有技术中,存在不能大量简化数据和突出数据特征以提高故障检测方法准确有效性的问题,实现了大大提高故障检测方法准确有效性。
本申请实施例提供了一种用于数据中心的机房故障检测方法,包括以下步骤:S1,数据采集预处理:部署传感器并进行数据采集预处理,得到故障检测有效数据组;S2,数据标准化:对故障检测有效数据组进行标准化处理,得到故障检测标准数据组;S3,数据特征提取:对故障检测标准数据组进行特征提取,得到故障检测特征数据组;S4,数据分割过滤:对故障检测特征数据组进行分割滤波,得到故障检测过滤数据组;S5,数据压缩:对故障检测过滤数据组进行压缩,得到故障检测压缩数据组;S6,故障告警:通过机器学习算法对故障检测压缩数据组进行计算,若计算出检测故障时,触发故障告警;S7,故障修复:若接收故障告警,采取对应的措施进行故障排除和修复;S8,持续监测和优化:根据机房故障检测实际检测、告警和修复情况,对数据处理方法进行对应的优化。
进一步的,所述部署传感器并进行数据采集预处理的具体步骤为:S11,确定监测参数:确定需要监测的参数;S12,选择传感器:根据确定的监测参数,选择对应的传感器类型;S13,布置传感器:根据机房的大小和布局,将传感器放置在监测相关参数的对应位置;S14,连接传感器:将传感器连接到数据采集设备;S15,数据采集:数据采集设备设置对应的采集频率,根据采集频率采集读取传感器数据;S16,数据预处理:获取数据采集设备采集读取的传感器数据,合并记为故障检测原始数据组,故障检测原始数据组数据类别记为a0,a0=1,2,...,a,a为故障检测原始数据组数据类别总数,故障检测原始数据组数据第a0类的数据记为c0,c0=1,2,...,c,c为故障检测原始数据组第a0类数据数量总数,则第a0类第c0个故障检测原始数据组数据记为并据此通过计算公式得到则第a0个故障检测原始数据组数据噪声评估值/>具体计算公式为/>其中/>表示第a0类第c0个设定故障检测原始数据组数据噪音阈值标准值,α表示故障检测原始数据组数据噪音值读取误差因子,/>表示第a0类第c0个设定故障检测原始数据组数据噪音差值标准值,b表示第a0类第c0个预定义故障检测原始数据组数据噪音修正标准值,将第a0类第c0个故障检测原始数据组数据噪声评估值与设定故障检测原始数据组数据噪声评估值对比,在误差允许范围之内的保留对应的故障检测原始数据组原始数据,对所有故障检测原始数据组数据重复此步骤,将所有保留的数据记为故障检测有效数据组。
进一步的,所述得到故障检测标准数据组的具体步骤为:对故障检测有效数据组进行标准化处理,得到故障检测标准化数据组,故障检测标准化数据组数据类别记为d0,d0=1,2,...,d,d为故障检测标准化数据组数据总数,故障检测标准化数据组d0类别下数据数量记为f0,f0=1,2,...,f,f为故障检测标准化数据组数据b0类别下数据数量总数,则第d0类第f0个故障检测标准化数据组数据标准度记为并据此通过计算公式得到第d0类第f0个故障检测标准化数据组数据标准化评估系数记为/>具体计算公式为其中/>表示第d0类第f0个预定义故障检测标准化数据组数据标准度,/>表示第d0类第f0个设定故障检测标准化数据组数据标准度误差标准值,γ表示第d0类第f0个故障检测标准化数据组数据分布偏离度影响误差因子,χ表示预定义第d0类第f0个故障检测标准化数据组数据标准化对应的预定义误差评估参考系数,e表示自然常数;将第d0类第f0个故障检测标准化数据组数据标准化评估系数与预定义故障检测标准化数据组数据标准化评估系数比较,在预定义系数误差允许范围内时判定第d0类第f0个故障检测标准化数据组数据有效,依次比较全部数据组数据,得到故障检测标准数据组。
进一步的,所述得到故障检测特征数据组的具体步骤为:对故障检测标准数据组进行特征提取,得到的新数据组记为特征提取数据组,不同的特征提取数据组特征数据类别记为g0,g0=1,2,...,g,g为特征提取数据组数据类别总数,第g0类特征提取数据组特征数据记为h0,h0=1,2,...,h,h为第g0类别特征提取数据组数据总数,并据此通过计算公式得到第g0类第h0个特征提取数据组数据特征系数记为具体计算公式为其中/>表示预定义特征提取数据组数据特征系数,ε表示预定义特征提取数据组数据对应的数据类别误差因子,φ表示预定义特征提取数据组信息密度变化误差修正因子,/>表示设定特征提取数据组数据特征系数提取误差标准值,δ表示预定义第g0类第h0个特征提取数据组数据特征系数对应的影响匹配系数;将第g0类第h0个特征提取数据组数据特征系数与第g0类第h0个设定特征提取数据组数据特征系数对比,在误差允许范围之内的保留对应的故障检测标准数据组数据,对所有故障检测标准数据组数据重复此过程,将所有保留的数据记为故障检测特征数据组。
进一步的,所述得到故障检测过滤数据组的具体步骤为:获得预定义故障检测特征数据组过滤分割大小,故障检测特征数据组按预定义故障检测特征数据组过滤分割大小分割成j0个,将分割后的故障检测特征数据组记为分割过滤数据组,j0=1,2,...,j,j为分割过滤数据组总数,第j0个分割后的分割过滤数据组记为 的特征数据数量记为r0,r0=1,2,...,r,r为特征数据总数,则第r0个特征数据为/>并据此通过计算公式得到第h0个分割后的分割过滤数据组滤波系数为/>具体计算公式为/>其中表示预定义过滤滤波判定阈值,/>表示故障检测特征数据组过滤滤波提取误差因子,/>表示设定过滤滤波判定差值标准值;将第j0个分割后的分割过滤数据组滤波系数为/>与预定义第j0个分割后的分割过滤数据组滤波系数最低阈值对比,依次对比所有分割过滤数据组,将预定义阈值以外的全部舍去,得到故障检测过滤数据组。
进一步的,所述得到故障检测压缩数据组的具体步骤为:对故障检测过滤数据组进行数据压缩,将压缩后的记为故障检测压缩化数据组,与故障检测过滤数据组对比评估得到故障检测压缩化数据组的压缩数据精确度J和第j0个分割过滤数据组特征信息保留率根据压缩数据精确度J和第j0个分割过滤数据组特征信息保留率/>和预定义故障检测特征数据组过滤分割大小/>通过计算公式得到压缩评估系数记为μ,具体计算公式为其中θ表示预定义故障检测特征数据组过滤分割大小范围修正因子,表示分割过滤数据组分割相对比例修正因子,L表示故障检测过滤数据组压缩对比误差系数,将压缩评估系数与预定义压缩评估系数比较,在误差允许范围内的记为有效压缩,得到故障检测压缩数据组。
进一步的,所述通过机器学习算法对故障检测压缩数据组进行计算的具体步骤为:S61,通过机器学习算法经过预定义故障检测特征训练集训练;S62,经过预定义故障检测测试集评估机器学习算法效率直到达到预定义算法效率阈值;S63,通过达到预定义算法效率阈值的机器学习算法对故障检测压缩数据组进行故障检测,根据算法结果与实际情况对比评估得到算法评估准确率M、评估算法评估召回率N、可超参数调优匹配系数O、特征重要性修正匹配系数P和预定义故障检测特征训练集评估权重R,预定义故障检测特征训练集数量记为k0,k0=1,2,...,k,k为预定义故障检测特征训练集数量总数,并据此通过计算公式得到算法综合评估系数具体计算公式为/>其中σ表示算法评估准确率和评估算法评估召回率的调和平均因子,第a0个预定义中继站点的网络带宽需求的预定义标准值,R表示预定义故障检测特征训练集评估权重标准平均值,O表示设定可超参数调优匹配系数标准值;S64,根据算法综合评估系数对机器学习算法做对应的调整并设定故障告警阈值;S65,若算法综合评估系数对故障检测压缩数据组评估结果超过故障告警阈值,则触发故障告警:生成告警信息、指定告警级别、选择通知方式和发送告警通知。
进一步的,所述采取对应的措施进行故障排除和修复的具体步骤为:S71,问题诊断:根据接收的告警通知,进行问题诊断,包括:确定故障的性质、原因、影响范围和优先级,若告警通知是优先级最高的严重故障,则进入S72,若告警通知是优先级较高的一般故障,则进入S73;S72,紧急措施:立即采取对应的紧急措施,包括:切换备份系统、重启设备、更换故障硬件;S73,制定修复计划:根据问题诊断结果,制定对应的修复计划,包括:确定需要的资源、时间估计、修复步骤和验证方法;S74,修复操作:根据修复计划,执行故障修复操作,包括:更换故障硬件、恢复数据、调整配置、应用补丁;S75,验证修复:修复操作完成,验证故障是否已成功修复,包括:运行测试、监测系统性能;S75,留档记录:对每一次检测或告警的故障留档记录,并加入预定义故障检测特征训练集。
本申请实施例提供了一种用于数据中心的机房故障检测装置,包括数据采集预处理模块、数据标准化模块、数据特征提取模块、数据分割过滤模块、数据压缩模块、故障告警模块、故障修复模块和持续监测和优化模块:所述数据采集预处理模块:用于部署传感器并进行数据采集预处理,得到故障检测有效数据组;所述数据标准化模块:用于对故障检测有效数据组进行标准化处理,得到故障检测标准数据组;所述数据特征提取模块:用于对故障检测标准数据组进行特征提取,得到故障检测特征数据组;所述数据分割过滤模块:用于对故障检测特征数据组进行分割滤波,得到故障检测过滤数据组;所述数据压缩模块:用于对故障检测过滤数据组进行压缩,得到故障检测压缩数据组;所述故障告警模块:用于通过机器学习算法对故障检测压缩数据组进行计算,若计算出检测故障时,触发故障告警;所述故障修复模块:用于若接收故障告警,采取对应的措施进行故障排除和修复;所述持续监测和优化模块:用于根据机房故障检测实际检测、告警和修复情况,对数据处理方法进行对应的优化。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、通过对用于数据中心的机房故障检测的数据采集预处理、标准化、特征提取、分割过滤、数据压缩,从而极大提高了用于数据中心的机房故障检测的数据的精简性、特征性和可处理性,对数据压缩结果通过机器学习算法进行计算后检测故障,进行故障告警和修复从而提高了故障告警修复的响应效率和准确性,最后持续监测和优化,达到了提高故障检测方法准确有效性的效果,有效解决了现有技术中,不能大量简化数据和突出数据特征以提高故障检测方法准确有效性的问题。
2、通过对用于数据中心的机房故障检测的数据一系列的处理,对数据压缩结果通过机器学习算法进行计算后检测故障,进行故障告警和修复,从而提高故障检测精度,减少误报率,节省存储和带宽,同时降低维护成本,进而实现了提高数据中心的机房故障检测方法可用性和稳定性的效果。
3、通过持续监测和优化,根据机房故障检测实际检测、告警和修复情况,对数据处理方法进行对应的优化,根据故障检测和修复结果不断修正机器学习算法的训练集和测试集,从而适应不断变化的数据中心的故障检测需求,进而实现了提高故障检测方法可拓展性和可优化性的效果。
附图说明
图1为本申请实施例提供的用于数据中心的机房故障检测方法流程图;
图2为本申请实施例提供的用于持续监测和优化步骤示意图;
图3为本申请实施例提供的用于数据中心的机房故障检测装置结构图。
具体实施方式
本申请实施例通过提供一种用于数据中心的机房故障检测方法及装置,解决了现有技术中,不能大量简化数据和突出数据特征以提高故障检测方法准确有效性的问题,通过对故障检测数据的一系列处理,实现了大大提高故障检测方法准确有效性的效果。
本申请实施例中的技术方案为解决上述,不能大量简化数据和突出数据特征以提高故障检测方法准确有效性的问题,总体思路如下:
通过对用于数据中心的机房故障检测的数据采集预处理、标准化、特征提取、分割过滤、数据压缩,对数据压缩结果通过机器学习算法进行计算后检测故障,进行故障告警和修复并持续监测和优化,达到了大大提高故障检测方法准确有效性的效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
如图1所示,为本申请实施例提供的用于数据中心的机房故障检测方法流程图,该方法应用于用于数据中心的机房故障检测装置中,该方法包括以下步骤:S1,数据采集预处理:部署传感器并进行数据采集预处理,得到故障检测有效数据组;S2,数据标准化:对故障检测有效数据组进行标准化处理,得到故障检测标准数据组;S3,数据特征提取:对故障检测标准数据组进行特征提取,得到故障检测特征数据组;S4,数据分割过滤:对故障检测特征数据组进行分割滤波,得到故障检测过滤数据组;S5,数据压缩:对故障检测过滤数据组进行压缩,得到故障检测压缩数据组;S6,故障告警:通过机器学习算法对故障检测压缩数据组进行计算,若计算出检测故障时,触发故障告警;S7,故障修复:若接收故障告警,采取对应的措施进行故障排除和修复;S8,持续监测和优化:根据机房故障检测实际检测、告警和修复情况,对数据处理方法进行对应的优化。
进一步的,部署传感器并进行数据采集预处理的具体步骤为:S11,确定监测参数:确定需要监测的参数;S12,选择传感器:根据确定的监测参数,选择对应的传感器类型;S13,布置传感器:根据机房的大小和布局,将传感器放置在监测相关参数的对应位置;S14,连接传感器:将传感器连接到数据采集设备;S15,数据采集:数据采集设备设置对应的采集频率,根据采集频率采集读取传感器数据;S16,数据预处理:获取数据采集设备采集读取的传感器数据,合并记为故障检测原始数据组,故障检测原始数据组数据类别记为a0,a0=1,2,...,a,a为故障检测原始数据组数据类别总数,故障检测原始数据组数据第a0类的数据记为c0,c0=1,2,...,c,c为故障检测原始数据组第a0类数据数量总数,则第a0类第c0个故障检测原始数据组数据记为并据此通过计算公式得到则第a0个故障检测原始数据组数据噪声评估值/>具体计算公式为/>其中/>表示第a0类第c0个设定故障检测原始数据组数据噪音阈值标准值,α表示故障检测原始数据组数据噪音值读取误差因子,/>表示第a0类第c0个设定故障检测原始数据组数据噪音差值标准值,b表示第a0类第c0个预定义故障检测原始数据组数据噪音修正标准值,将第a0类第c0个故障检测原始数据组数据噪声评估值与设定故障检测原始数据组数据噪声评估值对比,在误差允许范围之内的保留对应的故障检测原始数据组原始数据,对所有故障检测原始数据组数据重复此步骤,将所有保留的数据记为故障检测有效数据组。
在本实施例中,对于数据中心的机房故障检测方法中的传感器部署并数据采集预处理的实现步骤,可以按照以下方式进行:S11,确定监测参数,包括:温度、湿度、电流、电压、烟雾浓度,这些参数应该与数据中心设备运行和环境条件相关。S12,选择传感器:根据确定的监测参数,选择对应的传感器类型,例如,温度传感器、湿度传感器、电力传感器、烟雾传感器等。S13,布置传感器:根据机房的大小和布局,将传感器放置在关键位置,以确保可以准确地监测到相关参数。例如,在机柜、空调出风口、电源输入等位置安装传感器。S14,传感器连接和供电:将传感器连接到数据采集设备或中央监测系统。连接方式可以根据传感器和采集系统的要求使用有线或无线方式。为传感器提供适当的电源供应。有些传感器可能需要外部电源,而其他传感器可能通过采用电池或使用低功耗技术来延长使用寿命。S15,数据采集:采集数据是从传感器读取数据的过程。这可以通过采集设备或中央监测系统来完成。采集设备或中央监测系统应设置相应的采集频率,以确定数据的获取频率和精度。数据采集设备应具备足够的存储容量,以便在网络中断或传输延迟时能够缓存数据。S16,数据预处理:数据预处理可能包括数据清洗、去噪声、异常值检测和纠正等。清洗数据可以去除采集过程中的异常值、干扰和错误数据。去噪声可以通过滤波技术或平滑算法来降低噪声对数据的影响。通过以上步骤,您可以成功部署传感器并采集并预处理机房相关参数的数据。这些数据可供后续处理和分析,以进行机房的故障检测和监测。
进一步的,得到故障检测标准数据组的具体步骤为:对故障检测有效数据组进行标准化处理,得到故障检测标准化数据组,故障检测标准化数据组数据类别记为d0,d0=1,2,...,d,d为故障检测标准化数据组数据总数,故障检测标准化数据组d0类别下数据数量记为f0,f0=1,2,...,f,f为故障检测标准化数据组数据b0类别下数据数量总数,则第d0类第f0个故障检测标准化数据组数据标准度记为并据此通过计算公式得到第d0类第f0个故障检测标准化数据组数据标准化评估系数记为/>具体计算公式为其中/>表示第d0类第f0个预定义故障检测标准化数据组数据标准度,/>表示第d0类第f0个设定故障检测标准化数据组数据标准度误差标准值,γ表示第d0类第f0个故障检测标准化数据组数据分布偏离度影响误差因子,χ表示预定义第d0类第f0个故障检测标准化数据组数据标准化对应的预定义误差评估参考系数,e表示自然常数;将第d0类第f0个故障检测标准化数据组数据标准化评估系数与预定义故障检测标准化数据组数据标准化评估系数比较,在预定义系数误差允许范围内时判定第d0类第f0个故障检测标准化数据组数据有效,依次比较全部数据组数据,得到故障检测标准数据组。
在本实施例中,数据中心的机房故障检测方法中,数据标准化具有以下意义:消除尺度差异:数据中心的机房故障检测通常涉及多个传感器或指标,这些指标可能具有不同的度量单位和尺度范围。通过标准化数据,可以消除尺度差异,使得不同指标在相同的尺度上进行比较和分析。提高算法效果:某些故障检测算法对数据的分布和范围敏感。如果数据未经标准化,可能会导致算法的性能下降。标准化后的数据更有利于算法的有效运行和准确的故障检测。提取关键特征:故障检测通常需要从原始数据中提取关键特征来识别故障模式。标准化数据可以使得特征提取过程更加稳定和可靠,减少非关键信息的干扰,提高故障检测的准确性。对于数据中心的机房故障检测,常用的数据标准化算法包括:最小-最大标准化:将数据映射到指定的最小值和最大值之间。可以通过计算数据的最大值和最小值,并进行线性变换来实现。z-score标准化:将数据转换为均值为0,标准差为1的分布。可以通过计算数据的均值和标准差,并进行线性变换来实现。小数定标标准化:通过移动十进制点的位置将数据缩放到[-1,1]之间。可根据数据的最大值或最小值确定缩放因子。
进一步的,得到故障检测特征数据组的具体步骤为:对故障检测标准数据组进行特征提取,得到的新数据组记为特征提取数据组,不同的特征提取数据组特征数据类别记为g0,g0=1,2,...,g,g为特征提取数据组数据类别总数,第g0类特征提取数据组特征数据记为h0,h0=1,2,...,h,h为第g0类别特征提取数据组数据总数,并据此通过计算公式得到第g0类第h0个特征提取数据组数据特征系数记为具体计算公式为其中/>表示预定义特征提取数据组数据特征系数,ε表示预定义特征提取数据组数据对应的数据类别误差因子,φ表示预定义特征提取数据组信息密度变化误差修正因子,/>表示设定特征提取数据组数据特征系数提取误差标准值,δ表示预定义第g0类第h0个特征提取数据组数据特征系数对应的影响匹配系数;将第g0类第h0个特征提取数据组数据特征系数与第g0类第h0个设定特征提取数据组数据特征系数对比,在误差允许范围之内的保留对应的故障检测标准数据组数据,对所有故障检测标准数据组数据重复此过程,将所有保留的数据记为故障检测特征数据组。
在本实施例中,在用于数据中心的机房故障检测方法中,进行数据特征提取有以下好处:降低维度:数据中心通常会产生大量的监测数据,包括温度、湿度、能耗等多个维度的数据。通过特征提取,可以从海量的原始数据中提取出一组代表性的特征,将数据的维度降低到一个可管理和分析的范围,简化了后续的故障检测和分析过程。减少计算开销:数据中心的监测数据通常以时间序列的形式记录,数据量大、频率高。通过特征提取,可以将时间序列数据转化为具有一定代表性的特征向量,极大地减少了需要处理的数据量,从而降低了计算开销,提高了故障检测的效率。突出关键信息:特征提取可以突出表现故障状态和模式的关键信息。通过选择有效的特征,可以提取出反映设备状态和运行趋势的重要信息,将故障相关的特征放大,并忽略无关的背景噪声和波动,提高故障检测的准确性和可靠性。支持模式识别:特征提取可以将复杂的数据转化为易于理解和分析的特征表示。这有助于应用机器学习和模式识别算法来识别故障模式和异常行为。通过学习和比较特征之间的模式,可以建立故障检测的模型,发现与正常运行有明显差异的故障行为。适应不同故障类型:特征提取方法可以灵活地适应不同类型的故障。根据具体的数据中心和设备情况,可以选择不同的特征提取方式,捕捉不同故障模式和异常情况,从而能够有效地检测多种类型的故障,提高机房的稳定性和可靠性。
进一步的,得到故障检测过滤数据组的具体步骤为:获得预定义故障检测特征数据组过滤分割大小,故障检测特征数据组按预定义故障检测特征数据组过滤分割大小分割成j0个,将分割后的故障检测特征数据组记为分割过滤数据组,j0=1,2,...,j,j为分割过滤数据组总数,第j0个分割后的分割过滤数据组记为 的特征数据数量记为r0,r0=1,2,...,r,r为特征数据总数,则第r0个特征数据为/>并据此通过计算公式得到第h0个分割后的分割过滤数据组滤波系数为/>具体计算公式为/>其中/>表示预定义过滤滤波判定阈值,/>表示故障检测特征数据组过滤滤波提取误差因子,/>表示设定过滤滤波判定差值标准值;将第j0个分割后的分割过滤数据组滤波系数为/>与预定义第j0个分割后的分割过滤数据组滤波系数最低阈值对比,依次对比所有分割过滤数据组,将预定义阈值以外的全部舍去,得到故障检测过滤数据组。
在本实施例中,在数据中心的机房故障检测方法中,将数据特征提取后再进行过滤具有以下好处:提高故障检测的精度:过滤可以去除不相关的特征,从而集中注意力在最重要的特征上,提高了故障检测模型的精度。这有助于减少误报率,确保只有真正的故障被检测到。减少计算成本:过滤后的特征数据集通常比原始数据集更小,因此需要更少的计算资源来进行分析和检测。这降低了计算成本,提高了算法的效率。简化模型训练和部署:过滤后的特征集合更具可解释性和可理解性,更容易用于模型的训练和部署。模型不再需要处理大量不相关的信息,从而简化了模型的复杂性。增强可扩展性:过滤可以根据不同的需求和数据中心的特点进行调整和定制。这意味着您可以根据具体情况对特征进行不同的过滤处理,从而增强了方法的可扩展性和适应性。
进一步的,通过机器学习算法对故障检测压缩数据组进行计算的具体步骤为:S61,通过机器学习算法经过预定义故障检测特征训练集训练;S62,经过预定义故障检测测试集评估机器学习算法效率直到达到预定义算法效率阈值;S63,通过达到预定义算法效率阈值的机器学习算法对故障检测压缩数据组进行故障检测,根据算法结果与实际情况对比评估得到算法评估准确率M、评估算法评估召回率N、可超参数调优匹配系数O、特征重要性修正匹配系数P和预定义故障检测特征训练集评估权重R,预定义故障检测特征训练集数量记为k0,k0=1,2,...,k,k为预定义故障检测特征训练集数量总数,并据此通过计算公式得到算法综合评估系数具体计算公式为/>其中σ表示算法评估准确率和评估算法评估召回率的调和平均因子,第a0个预定义中继站点的网络带宽需求的预定义标准值,R表示预定义故障检测特征训练集评估权重标准平均值,O表示设定可超参数调优匹配系数标准值;S64,根据算法综合评估系数对机器学习算法做对应的调整并设定故障告警阈值;S65,若算法综合评估系数对故障检测压缩数据组评估结果超过故障告警阈值,则触发故障告警:生成告警信息、指定告警级别、选择通知方式和发送告警通知。
在本实施例中,通过机器学习算法对故障检测压缩数据组进行计算的具体步骤为:S61,通过机器学习算法经过预定义故障检测特征训练集训练,S62,经过预定义故障检测测试集评估机器学习算法效率直到达到预定义算法效率阈值;S63,故障检测任务通常涉及到多个性能指标,如准确率、召回率、F1分数等。算法综合评估系数可以将这些指标结合起来,以便更好地理解算法在各个方面的性能表现,而不是只关注单一指标。数据标注:为数据中的故障和非故障样本进行标注。根据已知的故障事件和数据中心的维护记录,将故障样本标记为正类,非故障样本标记为负类。数据集划分:将收集到的数据集划分为训练集和测试集。训练集用于模型的训练和参数优化,而测试集用于评估模型的性能和泛化能力。模型选择和训练:选择适当的机器学习算法,如支持向量机(SVM)、决策树、随机森林、神经网络等,用于故障检测任务。根据数据集的规模和特征的复杂性,选择合适的模型结构并进行训练。通过使用训练集的数据来训练模型,调整模型参数,以使其能够对故障样本和非故障样本进行准确分类。使用测试集评估已训练模型的性能。通过计算准确率、精确率、召回率、F1分数等指标来评估模型的准确性和泛化能力。根据评估结果进行模型的调优,如调整模型的超参数、特征选择或使用集成方法等。S64和S65,故障检测:使用训练好的模型对新的压缩数据组进行故障检测。将压缩数据组输入到模型中,根据模型的输出进行故障判断。如果模型输出为故障的概率高于设定的阈值,即可认为有故障存在。
进一步的,采取对应的措施进行故障排除和修复的具体步骤为:S71,问题诊断:根据接收的告警通知,进行问题诊断,包括:确定故障的性质、原因、影响范围和优先级,若告警通知是优先级最高的严重故障,则进入S72,若告警通知是优先级较高的一般故障,则进入S73;S72,紧急措施:立即采取对应的紧急措施,包括:切换备份系统、重启设备、更换故障硬件;S73,制定修复计划:根据问题诊断结果,制定对应的修复计划,包括:确定需要的资源、时间估计、修复步骤和验证方法;S74,修复操作:根据修复计划,执行故障修复操作,包括:更换故障硬件、恢复数据、调整配置、应用补丁;S75,验证修复:修复操作完成,验证故障是否已成功修复,包括:运行测试、监测系统性能;S76,留档记录:对每一次检测或告警的故障留档记录,并加入预定义故障检测特征训练集。
在本实施例中,故障修复在数据中心的机房故障管理中至关重要,它旨在尽快恢复服务以减少业务中断。以下是一般的故障修复实现步骤:故障检测和告警:故障修复的第一步是依靠前面提到的故障检测方法来检测故障。故障被检测到,并且故障告警已触发,相关人员或系统管理员将会收到通知。问题诊断:收到故障告警,团队需要立即开始问题诊断。这包括确定故障的性质、原因和影响范围。可以使用监控工具、日志分析、远程访问设备等方式来帮助进行诊断。优先级分类:对于不同类型的故障,需要分配不同的优先级。一些故障可能会对业务产生严重影响,需要紧急处理,而其他故障可能相对较小,可以在稍后的时间进行修复。这有助于有效地分配资源。紧急措施:对于严重的故障,可能需要立即采取紧急措施来最小化业务中断。这可能包括手动切换到备份系统、重启设备、更换故障硬件等。制定修复计划:问题诊断完成,需要制定详细的修复计划。这包括确定所需的资源、时间估计、修复步骤以及验证方法。计划应该经过仔细审查,确保安全性和可行性。修复操作:根据修复计划,执行故障修复操作。这可能涉及到更换故障硬件、恢复数据、调整配置、应用补丁等。确保在操作之前备份关键数据和配置。验证修复:修复操作完成,需要验证故障是否已成功修复。这包括运行测试、监测系统性能、确保服务恢复正常等。如果问题未能解决,可能需要重新诊断和修复。文档记录:对于每个故障事件,都应该进行详细的文档记录。这包括问题诊断、修复计划、操作步骤、验证结果以及故障的根本原因。这有助于未来的故障分析和改进。持续监控:即使问题已经得到解决,持续监控数据中心的性能和稳定性仍然很重要。这可以帮助及时发现潜在问题,并采取预防措施以防止未来的故障。
进一步的,持续监测和优化的具体步骤为:S81,实时监测和数据可视化:将数据可视化呈现,以便操作团队能够直观地了解数据中心的状态;S82,日常维护和定期巡检:进行定期的设备巡检和维护,确保监测设备运行良好;S83,数据分析:通过机器学习算法定期分析监测数据,将潜在的问题和趋势加入预定义故障检测特征训练集,便于机器学习算法更新故障检测内容;S84,持续优化:根据故障检测和修复结果不断修正预定义故障检测特征训练集和预定义故障检测测试集。
在本实施例中,如图2所示,为本申请实施例提供的用于持续监测和优化步骤示意图,持续监测和优化在数据中心机房故障检测方法中非常关键,它可以帮助预防故障并改进数据中心的性能。以下是持续监测和优化的具体实现步骤:实时监测和数据可视化:使用监测系统实时监测指标,并将数据可视化呈现,以便操作团队能够直观地了解数据中心的状态。这可以通过仪表板、图表和报告来实现。日常维护和定期巡检:进行定期的设备巡检和维护,确保监测设备本身不会成为故障点。这包括检查传感器、更新监测系统、更换老化的硬件等。数据分析和趋势分析:定期分析监测数据,以识别潜在的问题和趋势。这有助于预测性维护和优化数据中心性能。使用历史数据来识别周期性问题或逐渐恶化的情况。容量规划和优化:根据监测数据,进行容量规划,确保数据中心的资源能够满足未来的需求。这可能包括增加服务器、存储容量或网络带宽,以应对业务增长。自动化优化:利用自动化工具来执行一些常见的优化任务,例如自动负载均衡、资源分配调整和节能措施的实施。这可以提高效率并降低故障风险。持续改进:将监测和优化过程纳入持续改进计划中。根据经验教训和反馈不断改进监测方法和工具,以适应不断变化的数据中心需求。
如图3所示,为本申请实施例提供的用于数据中心的机房故障检测装置结构图,本申请实施例提供的用于数据中心的机房故障检测装置包括:包括数据采集预处理模块、数据标准化模块、数据特征提取模块、数据分割过滤模块、数据压缩模块、故障告警模块、故障修复模块和持续监测和优化模块:数据采集预处理模块:用于部署传感器并进行数据采集预处理,得到故障检测有效数据组;数据标准化模块:用于对故障检测有效数据组进行标准化处理,得到故障检测标准数据组;数据特征提取模块:用于对故障检测标准数据组进行特征提取,得到故障检测特征数据组;数据分割过滤模块:用于对故障检测特征数据组进行分割滤波,得到故障检测过滤数据组;数据压缩模块:用于对故障检测过滤数据组进行压缩,得到故障检测压缩数据组;故障告警模块:用于通过机器学习算法对故障检测压缩数据组进行计算,若计算出检测故障时,触发故障告警;故障修复模块:用于若接收故障告警,采取对应的措施进行故障排除和修复;持续监测和优化模块:用于根据机房故障检测实际检测、告警和修复情况,对数据处理方法进行对应的优化。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:相对于公开号为:CN113176962A的发明专利公开的一种用于数据中心的机房IT设备故障精准检测方法及系统,本申请实施例通过对用于数据中心的机房故障检测的数据采集预处理、标准化、特征提取、分割过滤、数据压缩提高了数据的可处理性、特征性和精简性,进而实现了达提高故障检测方法准确性的效果;相对于公开号为:CN113010394A的发明专利公开的一种用于数据中心的机房故障检测方法,本申请实施例通过对数据处理方法进行对应的优化,根据故障检测和修复结果不断修正机器学习算法的训练集和测试集,从而适应不断变化的数据中心的故障检测需求,进而实现了提高故障检测方法有效性的效果。
本领域内的技术人员应明数据,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种用于数据中心的机房故障检测方法,用于服务器,其特征在于,包括以下步骤:
S1,数据采集预处理:部署传感器并进行数据采集预处理,得到故障检测有效数据组;
S2,数据标准化:对故障检测有效数据组进行标准化处理,得到故障检测标准数据组;
S3,数据特征提取:对故障检测标准数据组进行特征提取,得到故障检测特征数据组;
S4,数据分割过滤:对故障检测特征数据组进行分割滤波,得到故障检测过滤数据组;
S5,数据压缩:对故障检测过滤数据组进行压缩,得到故障检测压缩数据组;
S6,故障告警:通过机器学习算法对故障检测压缩数据组进行计算,若计算出检测故障时,触发故障告警;
S7,故障修复:若接收故障告警,采取对应的措施进行故障排除和修复;
S8,持续监测和优化:根据机房故障检测实际检测、告警和修复情况,对数据处理方法进行对应的优化。
2.如权利要求1所述用于数据中心的机房故障检测方法,其特征在于,所述部署传感器并进行数据采集预处理的具体步骤为:
S11,确定监测参数:确定需要监测的参数;
S12,选择传感器:根据确定的监测参数,选择对应的传感器类型;
S13,布置传感器:根据机房的大小和布局,将传感器放置在监测相关参数的对应位置;
S14,连接传感器:将传感器连接到数据采集设备;
S15,数据采集:数据采集设备设置对应的采集频率,根据采集频率采集读取传感器数据;
S16,数据预处理:获取数据采集设备采集读取的传感器数据,合并记为故障检测原始数据组,故障检测原始数据组数据类别记为a0,a0=1,2,...,a,a为故障检测原始数据组数据类别总数,故障检测原始数据组数据第a0类的数据记为c0,c0=1,2,...,c,c为故障检测原始数据组第a0类数据数量总数,则第a0类第c0个故障检测原始数据组数据记为并据此通过计算公式得到则第a0个故障检测原始数据组数据噪声评估值/>具体计算公式为其中/>表示第a0类第c0个设定故障检测原始数据组数据噪音阈值标准值,α表示故障检测原始数据组数据噪音值读取误差因子,/>表示第a0类第c0个设定故障检测原始数据组数据噪音差值标准值,b表示第a0类第c0个预定义故障检测原始数据组数据噪音修正标准值,将第a0类第c0个故障检测原始数据组数据噪声评估值与设定故障检测原始数据组数据噪声评估值对比,在误差允许范围之内的保留对应的故障检测原始数据组原始数据,对所有故障检测原始数据组数据重复此步骤,将所有保留的数据记为故障检测有效数据组。
3.如权利要求2所述用于数据中心的机房故障检测方法,其特征在于,所述得到故障检测标准数据组的具体步骤为:
对故障检测有效数据组进行标准化处理,得到故障检测标准化数据组,故障检测标准化数据组数据类别记为d0,d0=1,2,...,d,d为故障检测标准化数据组数据总数,故障检测标准化数据组d0类别下数据数量记为f0,f0=1,2,...,f,f为故障检测标准化数据组数据b0类别下数据数量总数,则第d0类第f0个故障检测标准化数据组数据标准度记为并据此通过计算公式得到第d0类第f0个故障检测标准化数据组数据标准化评估系数记为/>具体计算公式为/>其中/>表示第d0类第f0个预定义故障检测标准化数据组数据标准度,/>表示第d0类第f0个设定故障检测标准化数据组数据标准度误差标准值,γ表示第d0类第f0个故障检测标准化数据组数据分布偏离度影响误差因子,χ表示预定义第d0类第f0个故障检测标准化数据组数据标准化对应的预定义误差评估参考系数,e表示自然常数;
将第d0类第f0个故障检测标准化数据组数据标准化评估系数与预定义故障检测标准化数据组数据标准化评估系数比较,在预定义系数误差允许范围内时判定第d0类第f0个故障检测标准化数据组数据有效,依次比较全部数据组数据,得到故障检测标准数据组。
4.如权利要求3所述用于数据中心的机房故障检测方法,其特征在于,所述得到故障检测特征数据组的具体步骤为:
对故障检测标准数据组进行特征提取,得到的新数据组记为特征提取数据组,不同的特征提取数据组特征数据类别记为g0,g0=1,2,...,g,g为特征提取数据组数据类别总数,第g0类特征提取数据组特征数据记为h0,h0=1,2,...,h,h为第g0类别特征提取数据组数据总数,并据此通过计算公式得到第g0类第h0个特征提取数据组数据特征系数记为具体计算公式为/>其中/>表示预定义特征提取数据组数据特征系数,ε表示预定义特征提取数据组数据对应的数据类别误差因子,φ表示预定义特征提取数据组信息密度变化误差修正因子,/>表示设定特征提取数据组数据特征系数提取误差标准值,δ表示预定义第g0类第h0个特征提取数据组数据特征系数对应的影响匹配系数;
将第g0类第h0个特征提取数据组数据特征系数与第g0类第h0个设定特征提取数据组数据特征系数对比,在误差允许范围之内的保留对应的故障检测标准数据组数据,对所有故障检测标准数据组数据重复此过程,将所有保留的数据记为故障检测特征数据组。
5.如权利要求4所述用于数据中心的机房故障检测方法,其特征在于,所述得到故障检测过滤数据组的具体步骤为:
获得预定义故障检测特征数据组过滤分割大小,故障检测特征数据组按预定义故障检测特征数据组过滤分割大小分割成j0个,将分割后的故障检测特征数据组记为分割过滤数据组,j0=1,2,...,j,j为分割过滤数据组总数,第j0个分割后的分割过滤数据组记为的特征数据数量记为r0,r0=1,2,...,r,r为特征数据总数,则第r0个特征数据为并据此通过计算公式得到第h0个分割后的分割过滤数据组滤波系数为/>具体计算公式为/>其中/>表示预定义过滤滤波判定阈值,/>表示故障检测特征数据组过滤滤波提取误差因子,/>表示设定过滤滤波判定差值标准值;将第j0个分割后的分割过滤数据组滤波系数为/>与预定义第j0个分割后的分割过滤数据组滤波系数最低阈值对比,依次对比所有分割过滤数据组,将预定义阈值以外的全部舍去,得到故障检测过滤数据组。
6.如权利要求5所述用于数据中心的机房故障检测方法,其特征在于,所述得到故障检测压缩数据组的具体步骤为:
对故障检测过滤数据组进行数据压缩,将压缩后的记为故障检测压缩化数据组,与故障检测过滤数据组对比评估得到故障检测压缩化数据组的压缩数据精确度J和第j0个分割过滤数据组特征信息保留率根据压缩数据精确度J和第j0个分割过滤数据组特征信息保留率/>和预定义故障检测特征数据组过滤分割大小/>通过计算公式得到压缩评估系数记为μ,具体计算公式为/>其中θ表示预定义故障检测特征数据组过滤分割大小范围修正因子,/>表示分割过滤数据组分割相对比例修正因子,L表示故障检测过滤数据组压缩对比误差系数,将压缩评估系数与预定义压缩评估系数比较,在误差允许范围内的记为有效压缩,得到故障检测压缩数据组。
7.如权利要求6所述用于数据中心的机房故障检测方法,其特征在于,所述通过机器学习算法对故障检测压缩数据组进行计算的具体步骤为:
S61,通过机器学习算法经过预定义故障检测特征训练集训练;
S62,经过预定义故障检测测试集评估机器学习算法效率直到达到预定义算法效率阈值;
S63,通过达到预定义算法效率阈值的机器学习算法对故障检测压缩数据组进行故障检测,根据算法结果与实际情况对比评估得到算法评估准确率M、评估算法评估召回率N、可超参数调优匹配系数O、特征重要性修正匹配系数P和预定义故障检测特征训练集评估权重R,预定义故障检测特征训练集数量记为k0,k0=1,2,...,k,k为预定义故障检测特征训练集数量总数,并据此通过计算公式得到算法综合评估系数θ,具体计算公式为其中σ表示算法评估准确率和评估算法评估召回率的调和平均因子,第a0个预定义中继站点的网络带宽需求的预定义标准值,R表示预定义故障检测特征训练集评估权重标准平均值,O表示设定可超参数调优匹配系数标准值;
S64,根据算法综合评估系数对机器学习算法做对应的调整并设定故障告警阈值;
S65,若算法综合评估系数对故障检测压缩数据组评估结果超过故障告警阈值,则触发故障告警:生成告警信息、指定告警级别、选择通知方式和发送告警通知。
8.如权利要求7所述用于数据中心的机房故障检测方法,其特征在于,所述采取对应的措施进行故障排除和修复的具体步骤为:
S71,问题诊断:根据接收的告警通知,进行问题诊断,包括:确定故障的性质、原因、影响范围和优先级,若告警通知是优先级最高的严重故障,则进入S72,若告警通知是优先级较高的一般故障,则进入S73;
S72,紧急措施:立即采取对应的紧急措施,包括:切换备份系统、重启设备、更换故障硬件;
S73,制定修复计划:根据问题诊断结果,制定对应的修复计划,包括:确定需要的资源、时间估计、修复步骤和验证方法;
S74,修复操作:根据修复计划,执行故障修复操作,包括:更换故障硬件、恢复数据、调整配置、应用补丁;
S75,验证修复:修复操作完成,验证故障是否已成功修复,包括:运行测试、监测系统性能;
S76,留档记录:对每一次检测或告警的故障留档记录,并加入预定义故障检测特征训练集。
9.如权利要求8所述用于数据中心的机房故障检测方法,其特征在于,所述持续监测和优化的具体步骤为:
S81,实时监测和数据可视化:将数据可视化呈现,以便操作团队能够直观地了解数据中心的状态;
S82,日常维护和定期巡检:进行定期的设备巡检和维护,确保监测设备运行良好;
S83,数据分析:通过机器学习算法定期分析监测数据,将潜在的问题和趋势加入预定义故障检测特征训练集,便于机器学习算法更新故障检测内容;
S84,持续优化:根据故障检测和修复结果不断修正预定义故障检测特征训练集和预定义故障检测测试集。
10.一种用于数据中心的机房故障检测装置,其特征在于,包括数据采集预处理模块、数据标准化模块、数据特征提取模块、数据分割过滤模块、数据压缩模块、故障告警模块、故障修复模块和持续监测和优化模块:
所述数据采集预处理模块:用于部署传感器并进行数据采集预处理,得到故障检测有效数据组;
所述数据标准化模块:用于对故障检测有效数据组进行标准化处理,得到故障检测标准数据组;
所述数据特征提取模块:用于对故障检测标准数据组进行特征提取,得到故障检测特征数据组;
所述数据分割过滤模块:用于对故障检测特征数据组进行分割滤波,得到故障检测过滤数据组;
所述数据压缩模块:用于对故障检测过滤数据组进行压缩,得到故障检测压缩数据组;
所述故障告警模块:用于通过机器学习算法对故障检测压缩数据组进行计算,若计算出检测故障时,触发故障告警;
所述故障修复模块:用于若接收故障告警,采取对应的措施进行故障排除和修复;
所述持续监测和优化模块:用于根据机房故障检测实际检测、告警和修复情况,对数据处理方法进行对应的优化。
CN202311401948.3A 2023-10-26 2023-10-26 一种用于数据中心的机房故障检测方法及装置 Pending CN117331790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311401948.3A CN117331790A (zh) 2023-10-26 2023-10-26 一种用于数据中心的机房故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311401948.3A CN117331790A (zh) 2023-10-26 2023-10-26 一种用于数据中心的机房故障检测方法及装置

Publications (1)

Publication Number Publication Date
CN117331790A true CN117331790A (zh) 2024-01-02

Family

ID=89291682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311401948.3A Pending CN117331790A (zh) 2023-10-26 2023-10-26 一种用于数据中心的机房故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN117331790A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117632664A (zh) * 2024-01-11 2024-03-01 深圳市柏特瑞电子有限公司 一种基于自动比对的机房设备监测方法及系统
CN117632664B (zh) * 2024-01-11 2024-04-26 深圳市柏特瑞电子有限公司 一种基于自动比对的机房设备监测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117632664A (zh) * 2024-01-11 2024-03-01 深圳市柏特瑞电子有限公司 一种基于自动比对的机房设备监测方法及系统
CN117632664B (zh) * 2024-01-11 2024-04-26 深圳市柏特瑞电子有限公司 一种基于自动比对的机房设备监测方法及系统

Similar Documents

Publication Publication Date Title
CN111555716B (zh) 光伏阵列工作状态的确定方法、装置、设备及存储介质
CN111061620A (zh) 一种混合策略的服务器异常智能检测方法及检测系统
CN112561736A (zh) 智能变电站继电器保护装置故障诊断系统和方法
CN112148561B (zh) 业务系统的运行状态预测方法、装置及服务器
CN115865649B (zh) 一种智能运维管理控制方法、系统和存储介质
CN112559305B (zh) 不间断电源系统内部关键模块性能预测方法、装置和设备
CN110580492A (zh) 一种基于小幅波动检测的轨道电路故障前兆发现方法
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN117010601B (zh) 数据处理方法、装置、计算机设备及计算机可读存储介质
CN115169650B (zh) 一种大数据分析的装备健康预测方法
JP7062505B2 (ja) 設備管理支援システム
CN117331790A (zh) 一种用于数据中心的机房故障检测方法及装置
KR20220097252A (ko) 스마트 플랜트에 관한 머신러닝 기반 설비 관리 방법 및 시스템
Sridevi et al. Predictive Maintenance of Lead-Acid Batteries Using Machine Learning Algorithms
CN114492636B (zh) 一种变压器绕组状态信号的采集系统
CN117272844B (zh) 配电盘工作寿命的预测方法及系统
JP2020135739A (ja) 障害予兆検知システム
CN113806495B (zh) 一种离群机器检测方法和装置
CN116502156B (zh) 一种换流站光ct异常状态智能辨识方法及系统
US20230034061A1 (en) Method for managing proper operation of base station and system applying the method
CN117761444B (zh) 一种电涌保护器的寿命监测方法及系统
KR102212022B1 (ko) 양수 수차의 건전성 자동 판정 방법 및 이를 위한 시스템
CN117474357A (zh) 基于深度学习的配电房运维管理方法及系统
CN117674418A (zh) 一种输电线路状态监测方法、系统、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination