CN113010394A - 一种用于数据中心的机房故障检测方法 - Google Patents

一种用于数据中心的机房故障检测方法 Download PDF

Info

Publication number
CN113010394A
CN113010394A CN202110227525.9A CN202110227525A CN113010394A CN 113010394 A CN113010394 A CN 113010394A CN 202110227525 A CN202110227525 A CN 202110227525A CN 113010394 A CN113010394 A CN 113010394A
Authority
CN
China
Prior art keywords
fault
data
equipment
type
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110227525.9A
Other languages
English (en)
Other versions
CN113010394B (zh
Inventor
赵希峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongda Kehui Technology Development Co ltd
Original Assignee
Beijing Zhongda Kehui Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongda Kehui Technology Development Co ltd filed Critical Beijing Zhongda Kehui Technology Development Co ltd
Priority to CN202110227525.9A priority Critical patent/CN113010394B/zh
Publication of CN113010394A publication Critical patent/CN113010394A/zh
Application granted granted Critical
Publication of CN113010394B publication Critical patent/CN113010394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Alarm Systems (AREA)

Abstract

本发明提供了一种用于数据中心的机房故障检测方法,包括:基于数据采集平台,获得数据中心中各个设备的检测数据,并发送至故障检测平台;基于故障检测平台,对检测数据进行分析,得到异常数据;对异常数据进行分析,确定发生故障的设备,并进行报警提醒;对所述发生故障的设备进行分析,确定发生故障的类型;通过采集数据,确定故障发生的设备和故障发生的类型,辅助对后续的故障维修,免去工作人员的排查,提高检测效率。

Description

一种用于数据中心的机房故障检测方法
技术领域
本发明涉及故障检测领域,具体涉及一种用于数据中心的机房故障检测方法。
背景技术
机房普遍指的是电信、网通、移动、双线、电力以及政府或者企业等,存放服务器的,为用户以及员工提供IT服务的地方。
目前机房故障的检测通常是利用视频监控或传感器报警,可能造成故障检测出现误判等情况,并且像一些不能由传感器直接检测获得的故障,若发生故障,需要由工作人员进行逐个排查,会浪费大量的人力和时间,导致故障维修的效率低下。
发明内容
针对上述所显示出来的问题,本发明提供了一种用于数据中心的机房故障检测方法,通过采集数据,确定故障发生的设备和故障发生的类型,辅助对后续的故障维修,免去工作人员的排查,提高检测效率。
本发明提供一种一种用于数据中心的机房故障检测方法,包括:
步骤1:基于数据采集平台,获得数据中心中各个设备的检测数据,并发送至故障检测平台;
步骤2:基于故障检测平台,对检测数据进行分析,得到异常数据;
步骤3:对异常数据进行分析,确定发生故障的设备,并进行报警提醒;
步骤4:对所述发生故障的设备进行分析,确定发生故障的类型。
在一种可能实现的方式中,
步骤1中,获得数据中心中各个设备的检测数据,并发送至故障检测平台包括:
基于数据采集平台在各个设备中设置与对应设备相匹配的数据采集单元;
基于所述数据采集平台,控制所述数据采集单元进行数据采集,获取采集数据,并获取所述采集数据所对应设备的设备类型,生成特定标识;
将所述采集数据与对应的特定标识进行组合,得到检测数据,并发送至故障检测平台。
在一种可能实现的方式中,
步骤2中,基于故障检测平台,对检测数据进行分析,得到异常数据包括:
对所述检测数据进行特征提取,得到特征集合,并将所述特征集合输入至异常检测模型中,得到输出结果,获得所述输出结果所对应的检测数据,作为异常数据;
对所述异常数据进行分析,获得所述异常数据的存在时长、出现次数;
判断所述存在时长是否大于预设时长,或所述出现次数大于预设次数;
若是,对所述异常数据进一步检测;
否则,不对所述异常数据进行任何操作。
在一种可能实现的方式中,
还包括:所述异常检测模型的建立过程如下:
获取各个设备中每个数据采集单元下的检测数据的正常数据范围;
基于所述故障检测平台,获取历史检测数据,并按照数据采集单元采集的数据类型对所述历史检测数据进行分类,获得分类数据,提取出所述分类数据中不在正常数据范围内的数据,作为历史异常数据;
获得所述历史异常数据、正常数据范围之间的关系,并基于所述关系建立初步分类模型;
将包含异常数据的历史检测数据进行随机划分,分为多组数据组;
分别将多组数据组作为训练样本,输入至初步分类模型中进行多次训练,得到多个检测模型,并获取每个检测模型的输出结果为历史异常数据的概率;
从多个检测模型选择输出结果为历史异常数据的概率最大的检测模型,并判断输出结果为历史异常数据的概率是否大于预设概率;
若是,将所述检测模型作为异常检测模型;
否则,对所述检测模型进行修正,重新训练,直到所述历史异常数据的概率大于预设概率,并将调整后的检测模型作为异常检测模型。
在一种可能实现的方式中,
步骤3中,对异常数据进行分析,确定发生故障的设备,并进行报警提醒包括:
对所述异常数据进行解析,获得采集数据和特定标识;
基于所述特定标识,确定采集所述异常数据的设备类型,即为发生故障的设备类型;
基于故障检测平台,获取所述设备类型下的第一设备;
获取所述第一设备下的第一数据采集单元,获取与所述采集数据相匹配的第二数据采集单元;
将所述第一数据采集单元与所述第二数据采集单元进行对比,获得同时属于第一数据采集单元和第二数据采集单元的第三数据采集单元;
所述第三数据采集单元所检测的设备,即为发生故障的设备;
基于故障检测平台,获取所述发生故障的设备的具体位置信息并进行显示,且进行报警提醒。
在一种可能实现的方式中,
步骤4中,对所述发生故障的设备进行分析,确定发生故障的类型包括:
获取所述发生故障的设备的参数信息,从设备故障数据库中获取与所述参数信息匹配的相关设备,并获取所述相关设备的第一故障类型集合;
基于述发生故障的设备的异常数据进行分析,获的所述异常数据的数据类型,基于所述数据类型,对所述第一故障类型集合进行筛选得到第二故障类型集合;
获取所述异常数据的波动变化率,并从所述第二故障集合中获取与所述波动变化率相匹配的故障类型,作为第三故障类型集合;
获取所述第三故障类型集合中历史异常数据和标准数据的差异值与故障类型的对应关系,建立差异值-故障类型匹配表;
获取所述异常数据与标准数据之间的差异值,对所述差异值按照预设规则进行扩展,获得差异值取值范围,并基于所述立差异值-故障类型匹配表获取所述差异值范围所对应的故障类型,作为第四故障类型集合;
根据所述第四故障类型集合中故障类型,对所述发生故障的设备进行排查,确定发生故障的类型。
在一种可能实现的方式中,
步骤4中,确定发生故障的类型后还包括,对故障发生的原因进行检测,其过程如下:
获取故障发生类型所对应的设备参数,并基于所述设备参数确定可能导致故障发生类型的故障原因信息;
对所述故障原因信息进行分析,提取出关于故障原因的有效信息,并对所述有效信息进行归一化处理,获得名称格式一致的第一故障原因;
从历史故障记录中,获取在所述故障发生类型下,多个第一故障原因分别出现的次数,并对多个第一故障原因按照预设方法设置对应的加权值,基于所述加权值,计算得到多个第一故障原因分别与所述故障发生类型的关联度;
基于所述关联度,从多个第一故障原因中选择满足关联度要求的第一故障原因;
基于所述第一个故障原因,从故障原因数据库中查找与第一故障原因相关联的第二故障原因,其中,所述第一故障原因的等级大于第二故障原因;
基于所述第一个故障原因的关联度大小,为所述第一故障原因设置优先级,并按照优先级顺序对第一故障原因进行遍历,直到确定导致故障发生类型的第一故障原因;
获取在第一故障原因下的第二故障原因,并按照第二故障原因在故障原因数据库的出现频率设置遍历顺序,对第二故障原因进行遍历,直到确定在第一故障原因下的第二故障原因,并从故障原因数据库中调取出现第二故障原因的修复方案。
在一种可能实现的方式中,
步骤3中,确定发生故障的设备后还包括:对发生故障的设备进行评估和维护,其过程如下:
基于所述故障检测平台,获取与所述故障发生的设备相关的历史故障发生次数、历史故障发生类型、历史故障发生原因;
根据所述历史故障发生类型对设备的伤害程度,为所述历史故障发生类型设置强度值;
基于所述历史故障发生原因,对发生故障的设备设置修复难度值;
根据如下公式,计算所述发生故障的设备发生历史故障的平均修复时间:
Figure BDA0002957086200000051
其中,T表示所述发生故障的设备发生历史故障的平均修复时间,Ti表示所述发生故障的设备在第i次历史故障发生时,基于所述故障类型对应的标准修复时间,ε表示所述发生故障的设备的开机正常运行次数,N表示所述发生故障的设备的历史故障发生次数,e表示自然常数,Qi表示所述发生故障在第i次历史故障的故障类型所对应的的强度值,取值为[0.3,1],τi表示第i次故障发生的修复难度值,取值范围为[0.5,1.0];
基于所述发生故障的设备发生历史故障的平均修复时间,并根据如下公式计算所述发生故障的设备的老化程度值:
Figure BDA0002957086200000052
其中,
Figure BDA0002957086200000053
表示所述发生故障的设备的老化程度值,μ表示历史维护的次数,α表示所述发生故障的设备与初始设备的外形差异比,取值范围为[0.4,0.8],β表示所述发生故障的设备与初始设备的性能差异比,取值范围为[0.2,0.6],T1表示所述发生故障的设备的使用时间,TA表示发生故障的设备的标定使用寿命;
基于所述老化程度值,从设备维护方案中选取与所述发生故障的设备的老化程度相匹配的维护方案;
基于所述维护方案,对所述发生故障的设备进行维护。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中用于检测机房故障方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明实施例提供一种用于数据中心的机房故障检测方法,如图1所示,包括:
步骤1:基于数据采集平台,获得数据中心中各个设备的检测数据,并发送至故障检测平台;
步骤2:基于故障检测平台,对检测数据进行分析,得到异常数据;
步骤3:对异常数据进行分析,确定发生故障的设备,并进行报警提醒;
步骤4:对所述发生故障的设备进行分析,确定发生故障的类型。
在在实施例中,所述各个设备包括高压柜、低压柜、电容柜、变压器、空调、定压补水装置等。
上述设计方案的有益效果是:通过设置数据采集平台采集各个设备的检测数据,提高采集数据的精度,从而提高故障检测的精度,将检测数据发送至故障检测平台进行分析,确定故障发生的设备和故障发生的类型,辅助对后续的故障维修,免去工作人员的排查,节省了人力和时间,提高检测效率。
实施例2
基于实施例1的基础上,本发明实施例提供一种用于数据中心的机房故障检测方法,步骤1中,获得数据中心中各个设备的检测数据,并发送至故障检测平台包括:
基于数据采集平台在各个设备中设置与对应设备相匹配的数据采集单元;
基于所述数据采集平台,控制所述数据采集单元进行数据采集,获取采集数据,并获取所述采集数据所对应设备的设备类型,生成特定标识;
将所述采集数据与对应的特定标识进行组合,得到检测数据,并发送至故障检测平台。
在该实施例中,对于高压柜、低压柜、电容柜等电气设备,对应的数据采集单元采集的数据为电压数据、电流数据、温度数据;对于空调、加湿器、定压补水装置等空调暖通系统,对应的数据采集单元采集的数据为温度数据、压力数据、水位数据等。
在该实施例中,所述特定标识用于表示设备的类型,且一一对应。
上述设计方案的有益效果是:通过设置数据采集单元,采集各个设备不同类型的数据,保证了获取数据的精度,从而提高了故障检测的精度,同时,将检测数据与表示设备类型的特定标识组合在一起,方便之后确定故障发生的设备。
实施例3
基于实施例1的基础上,本发明实施例提供一种用于数据中心的机房故障检测方法,步骤2中,基于故障检测平台,对检测数据进行分析,得到异常数据包括:
对所述检测数据进行特征提取,得到特征集合,并将所述特征集合输入至异常检测模型中,得到输出结果,获得所述输出结果所对应的检测数据,作为异常数据;
对所述异常数据进行分析,获得所述异常数据的存在时长、出现次数;
判断所述存在时长是否大于预设时长,或所述出现次数大于预设次数;
若是,对所述异常数据进一步检测;
否则,不对所述异常数据进行任何操作。
在该实施例中,所述特征集合表示从所述检测数据提取的数值大小、运行状态、信号波动等特征。
上述设计方案的有益效果是:通过将检测数据输入至异常检测模型中,得到异常数据,并对所述异常数据的存在时长、出现次数进行分析,确保所述异常数据为故障所导致,避免出现故障检测失误,提高故障检测的精度。
实施例4
基于实施例3的基础上,本发明实施例提供一种用于数据中心的机房故障检测方法,还包括:所述异常检测模型的建立过程如下:
获取各个设备中每个数据采集单元下的检测数据的正常数据范围;
基于所述故障检测平台,获取历史检测数据,并按照数据采集单元采集的数据类型采集的数据类型对所述历史检测数据进行分类,获得分类数据,提取出所述分类数据中不在正常数据范围内的数据,作为历史异常数据;
获得所述历史异常数据、正常数据范围之间的关系,并基于所述关系建立初步分类模型;
将包含异常数据的历史检测数据进行随机划分,分为多组数据组;
分别将多组数据组作为训练样本,输入至初步分类模型中进行多次训练,得到多个检测模型,并获取每个检测模型的输出结果为历史异常数据的概率;
从多个检测模型选择输出结果为历史异常数据的概率最大的检测模型,并判断输出结果为历史异常数据的概率是否大于预设概率;
若是,将所述检测模型作为异常检测模型;
否则,对所述检测模型进行修正,重新训练,直到所述历史异常数据的概率大于预设概率,并将调整后的检测模型作为异常检测模型。
在该实施例中,所述数据采集单元采集的数据类型包括电压数据、电流数据、温度数据、压力数据、水位数据等。
在该实施例中,所述述历史异常数据、正常数据范围之间的关系为函数关系。
在该实施例中,对所述检测模型的修正包括正则化、梯度优化、调整迭代次数,降低模型自由度等。
上述设计方案的有益效果是:通过对历史检测数据进行划分后,训练检测模型,选择训练效果最好的检测模型作为异常检测模型,从而提高对异常数据的判断精度。
实施例5
基于实施例1的基础上,本发明实施例提供一种用于数据中心的机房故障检测方法,步骤3中,对异常数据进行分析,确定发生故障的设备,并进行报警提醒包括:
对所述异常数据进行解析,获得采集数据和特定标识;
基于所述特定标识,确定采集所述异常数据的设备类型,即为发生故障的设备类型;
基于故障检测平台,获取所述设备类型下的第一设备;
获取所述第一设备下的第一数据采集单元,获取与所述采集数据相匹配的第二数据采集单元;
将所述第一数据采集单元与所述第二数据采集单元进行对比,获得同时属于第一数据采集单元和第二数据采集单元的第三数据采集单元;
所述第三数据采集单元所检测的设备,即为发生故障的设备;
基于故障检测平台,获取所述发生故障的设备的具体位置信息并进行显示,且进行报警提醒。
在该实施例中,所述第一设备为多个,且所述第一设备的设备类型相同。
在该实施例中,所述第一数据采集单元检测的设备类型相同。
在该实施例中,所述第二数据采集单元检测的数据类型相同。
上述设计方案的有益效果是:通过对设备类型和数据类型进行判定,确定故障发生的设备,并确定故障设备的具体位置,进行报警提醒,提醒工作人员故障发生设备及所在位置,方便工作人员快速锁定故障设备,节省了排查时间。
实施例6
基于实施例1的基础上,本发明实施例提供一种用于数据中心的机房故障检测方法,步骤4中,对所述发生故障的设备进行分析,确定发生故障的类型包括:
获取所述发生故障的设备的参数信息,从设备故障数据库中获取与所述参数信息匹配的相关设备,并获取所述相关设备的第一故障类型集合;
基于述发生故障的设备的异常数据进行分析,获的所述异常数据的数据类型,基于所述数据类型,对所述第一故障类型集合进行筛选得到第二故障类型集合;
获取所述异常数据的波动变化率,并从所述第二故障集合中获取与所述波动变化率相匹配的故障类型,作为第三故障类型集合;
获取所述第三故障类型集合中历史异常数据和标准数据的差异值与故障类型的对应关系,建立差异值-故障类型匹配表;
获取所述异常数据与标准数据之间的差异值,对所述差异值按照预设规则进行扩展,获得差异值取值范围,并基于所述立差异值-故障类型匹配表获取所述差异值范围所对应的故障类型,作为第四故障类型集合;
根据所述第四故障类型集合中故障类型,对所述发生故障的设备进行排查,确定发生故障的类型。
在该实施例中,所述发生故障设备的参数信息包括设备名称、设备用途、设备大小等可以表示设备特征的参数。
在该实施例中,所述异常数据的数据类型包括包括电压数据、电流数据、温度数据、压力数据、水位数据等。
在该实施例中,所述异常数据不同的波动变化率,可以表示不同的故障类型,例如导致电流数据在不同的范围内波动的故障类型有电压不稳、线路故障等。
在该实施例中,所述预设规则为根据所述异常数据的数据类型,确定数量级,对所述差异值按照所述数量级向上向下进行扩展。
上述设计方案的有益效果是:通过根据设备参数、异常数据分析一层一层的缩小故障类型的范围,然后基于故障类型的范围进行对设备进行特定的检测,确定发生故障的类型,提高了故障类型检测的效率,节约了人力和时间。
实施例7
基于实施例1的基础上,本发明实施例提供一种用于数据中心的机房故障检测方法,其特征在于,步骤4中,确定发生故障的类型后还包括,对故障发生的原因进行检测,其过程如下:
获取故障发生类型所对应的设备参数,并基于所述设备参数确定可能导致故障发生类型的故障原因信息;
对所述故障原因信息进行分析,提取出关于故障原因的有效信息,并对所述有效信息进行归一化处理,获得名称格式一致的第一故障原因;
从历史故障记录中,获取在所述故障发生类型下,多个第一故障原因分别出现的次数,并对多个第一故障原因按照预设方法设置对应的加权值,基于所述加权值,计算得到多个第一故障原因分别与所述故障发生类型的关联度;
基于所述关联度,从多个第一故障原因中选择满足关联度要求的第一故障原因;
基于所述第一个故障原因,从故障原因数据库中查找与第一故障原因相关联的第二故障原因,其中,所述第一故障原因的等级大于第二故障原因;
基于所述第一个故障原因的关联度大小,为所述第一故障原因设置优先级,并按照优先级顺序对第一故障原因进行遍历,直到确定导致故障发生类型的第一故障原因;
获取在第一故障原因下的第二故障原因,并按照第二故障原因在故障原因数据库的出现频率设置遍历顺序,对第二故障原因进行遍历,直到确定在第一故障原因下的第二故障原因,并从故障原因数据库中调取出现第二故障原因的修复方案。
在该实施例中,所述预设方法为:基于历史故障记录,获取多个故障原因的发生时间,按照发生时间的先后顺序,为对应的故障原因设置权重值,发生时间越靠后,设置的权重值越大。
在该实施例中,所述故障原因信息包括故障发生的原因、故障类型与故障原因之间的关系、故障原理等。
在该实施例中,所述有效信息为表示故障原因的数据或文字。
在该实施例中,对有效信息进行归一化处理,获取名称格式一致的故障原因,便于分析。
在该实施例中,所述第一故障原因与第二故障原因的关系例如可以是:第一故障原因为水位异常,则第二故障原因为水位过高、水位过低。
在该实施例中,所述第一个故障原因的关联度越大,优先级越高。
上述设计方案的有益效果是:通过基于设备参数、故障类型来确定第一故障原因,并在第一故障原因的基础上进行检测,确定第二故障原因,提高了故障原因检测的效率,节约了人力和时间。
实施例8
基于实施例1的基础上,本发明实施例提供一种用于数据中心的机房故障检测方法,步骤3中,确定发生故障的设备后还包括:对发生故障的设备进行评估和维护,其过程如下:
基于所述故障检测平台,获取与所述故障发生的设备相关的历史故障发生次数、历史故障发生类型、历史故障发生原因;
根据所述历史故障发生类型对设备的伤害程度,为所述历史故障发生类型设置强度值;
基于所述历史故障发生原因,对发生故障的设备设置修复难度值;
根据如下公式,计算所述发生故障的设备发生历史故障的平均修复时间:
Figure BDA0002957086200000131
其中,T表示所述发生故障的设备发生历史故障的平均修复时间,Ti表示所述发生故障的设备在第i次历史故障发生时,基于所述故障类型对应的标准修复时间,ε表示所述发生故障的设备的开机正常运行次数,N表示所述发生故障的设备的历史故障发生次数,e表示自然常数,Qi表示所述发生故障在第i次历史故障的故障类型所对应的的强度值,取值为[0.3,1],τi表示第i次故障发生的修复难度值,取值范围为[0.5,1.0];
基于所述发生故障的设备发生历史故障的平均修复时间,并根据如下公式计算所述发生故障的设备的老化程度值:
Figure BDA0002957086200000132
其中,
Figure BDA0002957086200000133
表示所述发生故障的设备的老化程度值,μ表示历史维护的次数,α表示所述发生故障的设备与初始设备的外形差异比,取值范围为[0.4,0.8],β表示所述发生故障的设备与初始设备的性能差异比,取值范围为[0.2,0.6],T1表示所述发生故障的设备的使用时间,TA表示发生故障的设备的标定使用寿命;
基于所述老化程度值,从设备维护方案中选取与所述发生故障的设备的老化程度相匹配的维护方案;
基于所述维护方案,对所述发生故障的设备进行维护。
在该实施例中,所述历史故障发生类型对设备的伤害程度越大,强度值越大。
在该实施例中,所述历史故障发生原因与已有故障原因的相关度越小,修复难度值越大。
上述设计方案的有益效果是:通过根据与修复时间相关的历史故障对设备的伤害程度、修复难度来计算所述发生故障的设备发生历史故障的平均修复时间,使计算得到的平均修复时间更具有可靠度,利用平均修复时间作为参考指标,计算发生故障的设备的老化程度值,提高检测的精度,并根据老化程度值来确定维护方案,保护了设备,减少设备的故障发生率,延长了设备的使用时间。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种用于数据中心的机房故障检测方法,其特征在于,包括:
步骤1:基于数据采集平台,获得数据中心中各个设备的检测数据,并发送至故障检测平台;
步骤2:基于故障检测平台,对检测数据进行分析,得到异常数据;
步骤3:对异常数据进行分析,确定发生故障的设备,并进行报警提醒;
步骤4:对所述发生故障的设备进行分析,确定发生故障的类型。
2.根据权利要求1所述的一种用于数据中心的机房故障检测方法,其特征在于,步骤1中,获得数据中心中各个设备的检测数据,并发送至故障检测平台包括:
基于数据采集平台在各个设备中设置与对应设备相匹配的数据采集单元;
基于所述数据采集平台,控制所述数据采集单元进行数据采集,获取采集数据,并获取所述采集数据所对应设备的设备类型,生成特定标识;
将所述采集数据与对应的特定标识进行组合,得到检测数据,并发送至故障检测平台。
3.根据权利要求1所述的一种用于数据中心的机房故障检测方法,其特征在于,步骤2中,基于故障检测平台,对检测数据进行分析,得到异常数据包括:
对所述检测数据进行特征提取,得到特征集合,并将所述特征集合输入至异常检测模型中,得到输出结果,获得所述输出结果所对应的检测数据,作为异常数据;
对所述异常数据进行分析,获得所述异常数据的存在时长、出现次数;
判断所述存在时长是否大于预设时长,或所述出现次数大于预设次数;
若是,对所述异常数据进一步检测;
否则,不对所述异常数据进行任何操作。
4.根据权利要求3所述的一种用于数据中心的机房故障检测方法,其特征在于,所述异常检测模型的建立过程如下:
获取各个设备中每个数据采集单元下的检测数据的正常数据范围;
基于所述故障检测平台,获取历史检测数据,并按照数据采集单元采集的数据类型对所述历史检测数据进行分类,获得分类数据,提取出所述分类数据中不在正常数据范围内的数据,作为历史异常数据;
获得所述历史异常数据、正常数据范围之间的关系,并基于所述关系建立初步分类模型;
将包含异常数据的历史检测数据进行随机划分,分为多组数据组;
分别将多组数据组作为训练样本,输入至初步分类模型中进行多次训练,得到多个检测模型,并获取每个检测模型的输出结果为历史异常数据的概率;
从多个检测模型选择输出结果为历史异常数据的概率最大的检测模型,并判断输出结果为历史异常数据的概率是否大于预设概率;
若是,将所述检测模型作为异常检测模型;
否则,对所述检测模型进行修正,重新训练,直到所述历史异常数据的概率大于预设概率,并将调整后的检测模型作为异常检测模型。
5.根据权利要求1所述的一种用于数据中心的机房故障检测方法,其特征在于,步骤3中,对异常数据进行分析,确定发生故障的设备,并进行报警提醒包括:
对所述异常数据进行解析,获得采集数据和特定标识;
基于所述特定标识,确定采集所述异常数据的设备类型,即为发生故障的设备类型;
基于故障检测平台,获取所述设备类型下的第一设备;
获取所述第一设备下的第一数据采集单元,获取与所述采集数据相匹配的第二数据采集单元;
将所述第一数据采集单元与所述第二数据采集单元进行对比,获得同时属于第一数据采集单元和第二数据采集单元的第三数据采集单元;
所述第三数据采集单元所检测的设备,即为发生故障的设备;
基于故障检测平台,获取所述发生故障的设备的具体位置信息并进行显示,且进行报警提醒。
6.根据权利要求1所述的一种用于数据中心的机房故障检测方法,其特征在于,步骤4中,对所述发生故障的设备进行分析,确定发生故障的类型包括:
获取所述发生故障的设备的参数信息,从设备故障数据库中获取与所述参数信息匹配的相关设备,并获取所述相关设备的第一故障类型集合;
基于述发生故障的设备的异常数据进行分析,获的所述异常数据的数据类型,基于所述数据类型,对所述第一故障类型集合进行筛选得到第二故障类型集合;
获取所述异常数据的波动变化率,并从所述第二故障集合中获取与所述波动变化率相匹配的故障类型,作为第三故障类型集合;
获取所述第三故障类型集合中历史异常数据和标准数据的差异值与故障类型的对应关系,建立差异值-故障类型匹配表;
获取所述异常数据与标准数据之间的差异值,对所述差异值按照预设规则进行扩展,获得差异值取值范围,并基于所述差异值-故障类型匹配表获取所述差异值范围所对应的故障类型,作为第四故障类型集合;
根据所述第四故障类型集合中故障类型,对所述发生故障的设备进行排查确定发生故障的类型。
7.根据权利要求1所述的一种用于数据中心的机房故障检测方法,其特征在于,步骤4中,确定发生故障的类型后还包括,对故障发生的原因进行检测,其过程如下:
获取故障发生类型所对应的设备参数,并基于所述设备参数确定可能导致故障发生类型的故障原因信息;
对所述故障原因信息进行分析,提取关于故障原因的有效信息,并对所述有效信息进行归一化处理,获得名称格式一致的第一故障原因;
从历史故障记录中,获取在所述故障发生类型下,多个第一故障原因分别出现的次数,并对多个第一故障原因按照预设方法设置对应的加权值,基于所述加权值,计算得到多个第一故障原因分别与所述故障发生类型的关联度;
基于所述关联度,从多个第一故障原因中选择满足关联度要求的第一故障原因;
基于所述第一个故障原因,从故障原因数据库中查找与第一故障原因相关联的第二故障原因,其中,所述第一故障原因的等级大于第二故障原因;
基于所述第一个故障原因的关联度大小,为所述第一故障原因设置优先级,并按照优先级顺序对第一故障原因进行遍历,直到确定导致故障发生类型的第一故障原因;
获取在第一故障原因下的第二故障原因,并按照第二故障原因在故障原因数据库的出现频率设置遍历顺序,对第二故障原因进行遍历,直到确定在第一故障原因下的第二故障原因,并从故障原因数据库中调取出现第二故障原因的修复方案。
8.根据权利要求1所述的一种用于数据中心的机房故障检测方法,其特征在于,步骤3中,确定发生故障的设备后还包括:对发生故障的设备进行评估和维护,其过程如下:
基于所述故障检测平台,获取与所述故障发生的设备相关的历史故障发生次数、历史故障发生类型、历史故障发生原因;
根据所述历史故障发生类型对设备的伤害程度,为所述历史故障发生类型设置强度值;
基于所述历史故障发生原因,对发生故障的设备设置修复难度值;
根据如下公式,计算所述发生故障的设备发生历史故障的平均修复时间:
Figure FDA0002957086190000051
其中,T表示所述发生故障的设备发生历史故障的平均修复时间,Ti表示所述发生故障的设备在第i次历史故障发生时,基于所述故障类型对应的标准修复时间,ε表示所述发生故障的设备的开机正常运行次数,N表示所述发生故障的设备的历史故障发生次数,e表示自然常数,Qi表示所述发生故障在第i次历史故障的故障类型所对应的的强度值,取值为[0.3,1],τi表示第i次故障发生的修复难度值,取值范围为[0.5,1.0];
基于所述发生故障的设备发生历史故障的平均修复时间,并根据如下公式计算所述发生故障的设备的老化程度值:
Figure FDA0002957086190000052
其中,
Figure FDA0002957086190000053
表示所述发生故障的设备的老化程度值,μ表示历史维护的次数,α表示所述发生故障的设备与初始设备的外形差异比,取值范围为[0.4,0.8],β表示所述发生故障的设备与初始设备的性能差异比,取值范围为[0.2,0.6],T1表示所述发生故障的设备的使用时间,TA表示发生故障的设备的标定使用寿命;
基于所述老化程度值,从设备维护方案中选取与所述发生故障的设备的老化程度相匹配的维护方案;
基于所述维护方案,对所述发生故障的设备进行维护。
CN202110227525.9A 2021-03-01 2021-03-01 一种用于数据中心的机房故障检测方法 Active CN113010394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110227525.9A CN113010394B (zh) 2021-03-01 2021-03-01 一种用于数据中心的机房故障检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110227525.9A CN113010394B (zh) 2021-03-01 2021-03-01 一种用于数据中心的机房故障检测方法

Publications (2)

Publication Number Publication Date
CN113010394A true CN113010394A (zh) 2021-06-22
CN113010394B CN113010394B (zh) 2024-04-16

Family

ID=76387212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110227525.9A Active CN113010394B (zh) 2021-03-01 2021-03-01 一种用于数据中心的机房故障检测方法

Country Status (1)

Country Link
CN (1) CN113010394B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022186770A1 (en) * 2021-03-01 2022-09-09 The Regents Of The University Of California Method and system for determining a condition of an airflow device
CN117310394A (zh) * 2023-11-29 2023-12-29 天津市英环信诚科技有限公司 基于大数据的电力故障检测方法、装置及电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874135A (zh) * 2017-02-20 2017-06-20 北京百度网讯科技有限公司 用于检测机房故障的方法、装置及设备
CN108827632A (zh) * 2018-03-30 2018-11-16 刘文飞 一种通信机房设备健康状态的检测分析方法
KR20190043792A (ko) * 2017-10-19 2019-04-29 한국수자원공사 수력발전용 어플 기반 고장복구 시스템
CN109726048A (zh) * 2018-12-13 2019-05-07 中国银联股份有限公司 一种交易系统中数据恢复方法及装置
CN110675079A (zh) * 2019-09-30 2020-01-10 腾讯科技(深圳)有限公司 故障数据处理方法、装置和计算机设备
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统
CN112346941A (zh) * 2019-08-08 2021-02-09 北京国双科技有限公司 一种故障诊断方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874135A (zh) * 2017-02-20 2017-06-20 北京百度网讯科技有限公司 用于检测机房故障的方法、装置及设备
KR20190043792A (ko) * 2017-10-19 2019-04-29 한국수자원공사 수력발전용 어플 기반 고장복구 시스템
CN108827632A (zh) * 2018-03-30 2018-11-16 刘文飞 一种通信机房设备健康状态的检测分析方法
CN109726048A (zh) * 2018-12-13 2019-05-07 中国银联股份有限公司 一种交易系统中数据恢复方法及装置
CN112346941A (zh) * 2019-08-08 2021-02-09 北京国双科技有限公司 一种故障诊断方法及装置
CN110675079A (zh) * 2019-09-30 2020-01-10 腾讯科技(深圳)有限公司 故障数据处理方法、装置和计算机设备
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022186770A1 (en) * 2021-03-01 2022-09-09 The Regents Of The University Of California Method and system for determining a condition of an airflow device
CN117310394A (zh) * 2023-11-29 2023-12-29 天津市英环信诚科技有限公司 基于大数据的电力故障检测方法、装置及电子设备及介质

Also Published As

Publication number Publication date
CN113010394B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN110210512B (zh) 一种自动化日志异常检测方法及系统
CN111126824B (zh) 多指标关联模型训练方法及多指标异常分析方法
CN105184084B (zh) 一种电力计量自动化终端故障类型预测方法和系统
CN112508105B (zh) 一种采油机故障检测与检索方法
CN103761173A (zh) 一种基于日志的计算机系统故障诊断方法及装置
CN113010394B (zh) 一种用于数据中心的机房故障检测方法
CN113982850B (zh) 融合高低频信号的风机综合健康分析方法及系统
CN113094244B (zh) 一种用于数据中心的机房运行智能检测系统
CN113676343B (zh) 电力通信网故障源定位方法及装置
CN108287327A (zh) 基于贝叶斯分类的计量自动化终端故障诊断方法
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN114255784A (zh) 一种基于声纹识别的变电站设备故障诊断方法及相关装置
CN110580492A (zh) 一种基于小幅波动检测的轨道电路故障前兆发现方法
CN114239734A (zh) 一种分布式车载健康管理系统
CN118034990B (zh) 一种基于机器学习的集中器校验方法及系统
CN111444075A (zh) 一种自动发现关键影响力指标的方法
CN114460519A (zh) 基于电力互感器检验的现场与终端融合管理系统和方法
CN118399883A (zh) 一种光伏发电数据采集系统及方法
CN116381419B (zh) 输电线路故障处理方法、装置、计算机设备和存储介质
CN116204846B (zh) 一种基于可见图的配电网传感器数据异常快速定位方法
CN111459697A (zh) 一种基于深度学习网络的励磁系统故障监测方法
CN111488272A (zh) 一种复杂交易文件的自动化测试方法及装置
CN114666774B (zh) 一种蓝牙设备的标识匹配系统及方法
CN113176962B (zh) 一种用于数据中心的机房it设备故障精准检测方法及系统
CN115587312A (zh) 一种基于多维大数据分析的故障点定位方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant