CN105868035B - 一种故障预测的方法、装置和系统 - Google Patents

一种故障预测的方法、装置和系统 Download PDF

Info

Publication number
CN105868035B
CN105868035B CN201610266495.1A CN201610266495A CN105868035B CN 105868035 B CN105868035 B CN 105868035B CN 201610266495 A CN201610266495 A CN 201610266495A CN 105868035 B CN105868035 B CN 105868035B
Authority
CN
China
Prior art keywords
operating conditions
value
current operating
level
timer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610266495.1A
Other languages
English (en)
Other versions
CN105868035A (zh
Inventor
段国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610266495.1A priority Critical patent/CN105868035B/zh
Publication of CN105868035A publication Critical patent/CN105868035A/zh
Application granted granted Critical
Publication of CN105868035B publication Critical patent/CN105868035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种故障预测的方法、装置和系统,该方法通过构建自学习模型,根据自学习模型,确定目标硬件的不同层级及每一个层级对应的工作区间;为每一层级对应的工作区间配置至少一个预测故障时间;采集目标硬件的当前运行状态值;确定当前运行状态值属于的目标层级;判断当前运行状态值是否在所述目标层级对应的工作区间,如果否,则根据当前运行状态值,确定目标预测故障时间。本发明提供的方案实现了对硬件故障的预测。

Description

一种故障预测的方法、装置和系统
技术领域
本发明涉及计算机技术领域,特别涉及一种故障预测的方法、装置和系统。
背景技术
随着互联网和电子商务的快速发展,为了实现对海量数据的处理,服务器系统日渐庞大,构造日趋复杂,运行环境的变更,造成服务器中硬件故障随时都有可能发生,随时都有可能影响服务器的可用性和处理数据的效率。那么,及时发现并处理硬件故障显得十分重要。目前,只有在服务器运行异常时,用户通过检修各个硬件才能发现硬件故障发生的原因,而不能对硬件故障进行预测。
发明内容
本发明实施例提供了一种故障预测的方法、装置和系统,实现了对硬件故障的预测。
一种故障预测的方法,构建自学习模型,还包括:
根据所述自学习模型,确定目标硬件的不同层级及每一个层级对应的工作区间;
为每一层级对应的工作区间配置至少一个预测故障时间;
采集目标硬件的当前运行状态值;
确定所述当前运行状态值属于的目标层级;
判断所述当前运行状态值是否在所述目标层级对应的工作区间,如果否,则根据所述当前运行状态值,确定目标预测故障时间。
优选地,所述构建自学习模型,包括:
确定处于正常工作状态的多个学习硬件,对所述学习硬件的所有运行状态值进行统计;
根据多个学习硬件运载情况和硬件已运行时长,对所有运行状态值进行层级的划分,属于同一层级的运行状态值组成该层级对应的工作范围;
对每一层级对应的工作范围进行验证,剔除工作范围内不合理状态值,形成每一层级对应的工作区间。
优选地,所述判断所述当前运行状态值是否在所述目标层级对应的工作区间,包括:
将所述当前运行状态值与所述目标层级对应的工作区间中的运行状态值进行匹配;
在所述目标层级对应的工作区间中,确定与所述当前运行状态值差距最小的标准运行状态值;
根据下述公式,计算所述当前运行状态值与所述标准运行状态值的最小偏差;
其中,所述ω表征最小偏差;所述α表征当前运行状态值;所述β表征目标层级对应的工作区间中标准运行状态值;
判断所述最小偏差是否小于5%,如果是,则确定所述当前运行状态值在所述目标层级对应的工作区间;否则,确定所述当前运行状态值不在所述目标层级对应的工作区间。
优选地,上述方法进一步包括:设置至少两个计时器,为每一个计时器设置上限阈值,并设置特征存储区域;
当所述最小偏差小于5%时,触发所述至少两个计时器中第一计时器进行第一记录数加1操作,当所述第一记录数达到第一计数器的上限阈值时,执行所述确定目标预测故障时间;
当所述最小偏差大于等于5%时,触发所述至少两个计时器中第二计时器进行第二记录数加1操作,并将所述当前运行状态值存储到所述特征存储区域,当所述第二记录数达到第二计数器的上限阈值时,执行所述确定目标预测故障时间。
优选地,上述方法进一步包括:设置损坏阈值、损坏告知、正常告知和紧急告知;
当所述当前运行状态值大于所述损坏阈值时,确定硬件损坏,并发送所述损坏告知;
当所述第一记录数达到第一计数器的上限阈值时,发送所述正常告知和目标预测故障时间;
当所述第二记录数达到第二计数器的上限阈值时,发送所述紧急告知和目标预测故障时间。
一种故障预测的装置,包括:故障学习单元、分析单元和故障预测单元,其中,
所述故障学习单元,用于构建自学习模型,根据所述自学习模型,确定硬件的不同层级及每一个层级对应的工作区间,将各个层级及每一个层级对应的工作区间发送给所述分析单元和所述故障预测单元;
所述分析单元,用于接收所述故障学习单元发送的各个层级及每一个层级对应的工作区间,采集目标硬件的当前运行状态值,确定所述当前运行状态值属于的目标层级;判断所述当前运行状态值是否在所述目标层级对应的工作区间,如果否,则发送所述当前运行状态值,并触发所述故障预测单元;
所述故障预测单元,用于接收所述故障学习单元发送的各个层级及每一个层级对应的工作区间,为每一层级对应的工作区间配置至少一个预测故障时间,接收所述分析单元发送的所述当前运行状态值,根据所述当前运行状态值,确定目标预测故障时间。
优选地,所述故障学习单元,用于确定处于正常工作状态的多个学习硬件,对所述学习硬件的所有运行状态值进行统计;根据硬件运载情况和硬件已运行时长,对所有运行状态值进行层级的划分,属于同一层级的运行状态值组成该层级对应的工作范围;对每一层级对应的工作范围进行验证,剔除工作范围内不合理状态值,形成每一层级对应的工作区间。
优选地,所述分析单元,用于将所述当前运行状态值与所述目标层级对应的工作区间中的运行状态值进行匹配;在所述目标层级对应的工作区间中,确定与所述当前运行状态值差距最小的标准运行状态值;根据下述公式,计算所述当前运行状态值与所述标准运行状态值的最小偏差;
其中,所述ω表征最小偏差;所述α表征当前运行状态值;所述β表征目标层级对应的工作区间中标准运行状态值;
判断所述最小偏差是否小于5%,如果是,则确定所述当前运行状态值在所述目标层级对应的工作区间;否则,确定所述当前运行状态值不在所述目标层级对应的工作区间。
优选地,上述装置进一步包括:至少两个计时器和特征存储区域,其中,
所述至少两个计时器中,第一计时器,用于设置自身的上限阈值,当所述分析单元判断出最小偏差小于5%时,进行第一记录数加1操作,当所述第一记录数达到第一计数器的上限阈值时,触发所述故障预测单元;
所述至少两个计时器中,第二计时器,用于设置自身的上限阈值,当所述分析单元判断出最小偏差大于等于5%时,进行第二记录数加1操作,并触发所述分析单元,当所述第二记录数达到第一计数器的上限阈值时,触发所述故障预测单元;
所述分析单元,进一步用于当接收到所述第二计时器的触发时,将所述当前运行状态值发送给所述特征存储区域;
所述特征存储区域,用于接收所述分析单元发送的所述当前运行状态值;
所述故障预测单元,用于当接收到所述至少两个计时器中任意计时器的触发时,执行所述确定目标预测故障时间。
优选地,
所述分析单元,进一步用于设置损坏阈值,当分析出所述当前运行状态值大于所述损坏阈值时,触发所述故障预测单元;
所述故障预测单元,进一步用于设置损坏告知,当接收到所述分析单元的触发时,发送所述损坏告知。
优选地,所述故障预测单元,进一步用于设置正常告知,当接收到所述第一计时器的触发时,发送所述正常告知和目标预测故障时间。
优选地,所述故障预测单元,进一步用于设置紧急告知,当接收到所述第二计时器的触发时,发送所述紧急告知和目标预测故障时间。
一种故障预测的系统,包括:上述任意一种故障预测的装置和各个硬件,其中,
所述各个硬件,用于为所述故障预测的装置提供运行状态值。
本发明实施例提供了一种故障预测的方法、装置和系统,该方法通过构建自学习模型,根据自学习模型,确定硬件的不同层级及每一个层级对应的工作区间;为每一层级对应的工作区间配置至少一个预测故障时间;通过上述过程建立起来了预测故障时间,通过采集目标硬件的当前运行状态值;确定当前运行状态值属于的目标层级;判断当前运行状态值是否在目标层级对应的工作区间,如果否,则根据当前运行状态值,确定目标预测故障时间,由于在前面已经为每个区间配置至少一个预测故障时间,那么当为当前运行状态值确定出工作区间之后,就很容易确定出预测故障时间,实现了对硬件故障的预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种故障预测的方法的流程图;
图2是本发明另一个实施例提供的一种故障预测的方法的流程图;
图3是本发明一个实施例提供的故障预测的装置所在架构的结构示意图;
图4是本发明一个实施例提供的一种故障预测的装置的结构示意图;
图5是本发明另一个实施例提供的一种故障预测的装置的结构示意图;
图6是本发明一个实施例提供的一种故障预测的系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种故障预测的方法,该方法可以包括以下步骤:
步骤101:构建自学习模型;
步骤102:根据自学习模型,确定硬件的不同层级及每一个层级对应的工作区间;
步骤103:为每一层级对应的工作区间配置至少一个预测故障时间;
步骤104:采集目标硬件的当前运行状态值;
步骤105:确定当前运行状态值属于的目标层级;
步骤106:判断当前运行状态值是否在目标层级对应的工作区间,如果是,则执行步骤107,否则,执行步骤108;
步骤107:确定当前运行状态值在合理范围内,并舍弃当前运行状态值,结束当前流程;
步骤108:根据当前运行状态值,确定目标预测故障时间。
在图1所示的实施例中,通过构建自学习模型,根据自学习模型,确定硬件的不同层级及每一个层级对应的工作区间;为每一层级对应的工作区间配置至少一个预测故障时间;通过上述过程建立起来了预测故障时间,通过采集目标硬件的当前运行状态值;确定当前运行状态值属于的目标层级;判断当前运行状态值是否在目标层级对应的工作区间,如果否,则根据当前运行状态值,确定目标预测故障时间,由于在前面已经为每个区间配置至少一个预测故障时间,那么当为当前运行状态值确定出工作区间之后,就很容易确定出预测故障时间,实现了对硬件故障的预测。
在本发明一个实施例中,为了保证自学习模型的准确性,步骤101的具体实施方式,包括:确定处于正常工作状态的多个学习硬件,对学习硬件的所有运行状态值进行统计;根据硬件运载情况和硬件已运行时长,对所有运行状态值进行层级的划分,属于同一层级的运行状态值组成该层级对应的工作范围;对每一层级对应的工作范围进行验证,剔除工作范围内不合理状态值,形成每一层级对应的工作区间。
在本发明一个实施例中,为了能够准确的判断当前运行状态值是否在工作区间,步骤106的具体实施方式包括:将当前运行状态值与所述目标层级对应的工作区间中的运行状态值进行匹配;在目标层级对应的工作区间中,确定与当前运行状态值差距最小的标准运行状态值;根据下述公式,计算当前运行状态值与标准运行状态值的最小偏差;
其中,ω表征最小偏差;α表征当前运行状态值;β表征目标层级对应的工作区间中标准运行状态值;
判断最小偏差是否小于5%,如果是,则确定当前运行状态值在目标层级对应的工作区间;否则,确定当前运行状态值不在目标层级对应的工作区间。
在本发明一个实施例中,为了保证预测故障时间的准确性,上述方法进一步包括:设置至少两个计时器,为每一个计时器设置上限阈值,并设置特征存储区域;当最小偏差小于5%时,触发至少两个计时器中第一计时器进行第一记录数加1操作,当第一记录数达到第一计数器的上限阈值时,执行确定目标预测故障时间;当最小偏差大于等于5%时,触发至少两个计时器中第二计时器进行第二记录数加1操作,并将当前运行状态值存储到特征存储区域,当第二记录数达到第二计数器的上限阈值时,执行确定目标预测故障时间。
在本发明一个实施例中,为了能够为用户提供不同的告知,以使用户进行不同的处理,该方法进一步包括:设置损坏阈值、损坏告知、正常告知和紧急告知;当当前运行状态值大于损坏阈值时,确定硬件损坏,并发送损坏告知;当第一记录数达到第一计数器的上限阈值时,发送正常告知和目标预测故障时间;当第二记录数达到第二计数器的上限阈值时,发送紧急告知和目标预测故障时间。
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述。
如图2所示,本发明实施例提供了一种故障预测的方法,该方法可以包括以下步骤:
步骤200:设置至少两个计时器,为每一个计时器设置上限阈值,并设置特征存储区域;
在该步骤中,设置的计时器主要是根据需要进行计数统计,特征存储区域主要是为了存储偏差比较大的运行状态值,以供用户查看。
步骤201:设置损坏阈值、损坏告知、正常告知和紧急告知;
该损坏阈值是达到硬件损坏的值,即硬件运行状态值达到该损坏阈值时,表明硬件已被损坏,损坏告知、正常告知和紧急告知是为了让用户清楚知晓硬件情况,并及时做出处理。
步骤202:确定处于正常工作状态的多个学习硬件,对学习硬件的所有运行状态值进行统计;
本发明实施例可以对服务器的各个硬件进行预测故障时间,该各个硬件包括:CPU、内存、硬盘、NET、TB、风扇等等,例如:为CPU构建自学习模型过程,在该步骤中,统计多个同种类型的CPU的运行状态值,在这过程中,需要保障多个同种类型的CPU处于正常工作状态。
步骤203:根据多个学习硬件运载情况和硬件已运行时长,对所有运行状态值进行层级的划分,属于同一层级的运行状态值组成该层级对应的工作范围;
该步骤中,层级可以按照运载量进行划分,例如:对于CPU来说,可以划分为空运载量的时候为一个层级,满运载量的时候为另一个层级,运载量为10%至50%时可以划分为一个层级等等。
步骤204:对每一层级对应的工作范围进行验证,剔除工作范围内不合理状态值,形成每一层级对应的工作区间;
上述步骤202和步骤203是构建硬件正常工作的工作范围,为了保障每一层级工作区间的准确性,还需要通过该步骤204对工作范围进行验证。
步骤205:确定目标硬件的不同层级及每一个层级对应的工作区间;
对于相同类型和相同品牌的硬件来说,其工作区间基本一致,那么,对于相同类型和相同品牌的硬件来说,上述步骤202至步骤204构建的工作区间可以通过导入的方式直接被应用,而无需重新构建工作区间,有效地提高了预测效率。
步骤206:为每一层级对应的工作区间配置至少一个预测故障时间;
例如:对于CPU来说,对于负载量为0%-50%的层级来说,当其累计工作时常为900天时,工作状态值a对应的预测故障时间为30天;当其累计工作时常为1000天时,工作状态值b对应的预测故障时间为3天等等。
步骤207:采集目标硬件的当前运行状态值;
该当前运行状态值可以直接从硬件中采集得到,一般硬件运行过程中每时每刻都会返回一个运行状态值,通过该运行状态值能够清楚地反映硬件的运行状态。
步骤208:确定当前运行状态值属于的目标层级;
前面已经提及层级主要按照运载量来划分,例如:对于CPU来说,运载量为0%的时候为第一层级,运载量为1%-30%的时候为第二层级,运载量为30%-50%的时候为第三层级,运载量为50%-70%的时候为第四层级,运载量为70%-100%的时候为第五层级等等。
步骤209:判断当前运行状态值是否大于损坏阈值,如果是,则执行步骤210,否则,执行步骤211;
例如:当前运行状态值为a,而损坏阈值为c,那么,如果a大于c则表明硬件已被损坏,此时执行步骤210。
步骤210:确定硬件损坏,并发送损坏告知,结束当前流程;
步骤211:将当前运行状态值与目标层级对应的工作区间中的运行状态值进行匹配;
步骤212:在目标层级对应的工作区间中,确定与当前运行状态值差距最小的标准运行状态值;
步骤211的匹配的过程是为了步骤212确定出与当前运行状态值差距最小的标准运行状态值。例如:当前运行状态值α与工作区间{e,f,g,β,d}中每一个值进行对比,确定出β与当前运行状态值α差距最小。
步骤213:计算当前运行状态值与标准运行状态值的最小偏差;
该步骤的计算过程主要是按照下述公式来完成,
其中,ω表征最小偏差;α表征当前运行状态值;β表征目标层级对应的工作区间中标准运行状态值;
步骤214:判断最小偏差是否小于5%,如果是,则执行步骤215,否则,执行步骤217;
该步骤提及的5%是在实际应用过程中根据实验结果获得,当偏差小于5%时,硬件运行状态认为是在可以接受的范围之内,但是当偏差小于5%的次数达到一定值(通过步骤215中第一计数器计数)时,仍然说明硬件具有发生故障的趋势,但是并不紧急,那么需要执行步骤216为用户提供预测故障时间(某年某月某日)和正常告知,该正常告知中包含有硬件运行状态值,以供用户进一步确定。
步骤215:触发至少两个计时器中第一计时器进行第一记录数加1操作;
步骤216:当第一记录数达到第一计数器的上限阈值时,确定第一目标预测故障时间,并发送第一目标预测故障时间和正常告知,结束当前流程;
步骤217:触发至少两个计时器中第二计时器进行第二记录数加1操作,并将当前运行状态值存储到特征存储区域;
步骤218:当第二记录数达到第二计数器的上限阈值时,确定第二目标预测故障时间,并发送第二目标预测故障时间和紧急告知。
当偏差大于5%时,认为硬件运行状态已经急速向故障的趋势变化,当偏差大于5%的次数达到一定值(通过步骤217中第二计数器计数)时,需要执行步骤218通过紧急告知的方式,为用户提供预测故障时间(某年某月某日)和硬件运行状态值,以使用户及时更换硬件。
如图3、图4所示,本发明实施例提供了一种故障预测的装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的故障预测的装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的故障预测的装置,包括:
故障学习单元401、分析单元402和故障预测单元403,其中,
故障学习单元401,用于构建自学习模型,根据自学习模型,确定硬件的不同层级及每一个层级对应的工作区间,将各个层级及每一个层级对应的工作区间发送给分析单元402和故障预测单元403;
分析单元402,用于接收故障学习单元401发送的各个层级及每一个层级对应的工作区间,采集目标硬件的当前运行状态值,确定当前运行状态值属于的目标层级;判断当前运行状态值是否在目标层级对应的工作区间,如果否,则将当前运行状态值发送给故障预测单元403,并触发故障预测单元403;
故障预测单元403,用于接收故障学习单元401发送的各个层级及每一个层级对应的工作区间,为每一层级对应的工作区间配置至少一个预测故障时间,接收分析单元402发送的当前运行状态值,根据当前运行状态值,确定目标预测故障时间。
在本发明另一个实施例中,故障学习单元401,用于确定处于正常工作状态的多个学习硬件,对学习硬件的所有运行状态值进行统计;根据硬件运载情况和硬件已运行时长,对所有运行状态值进行层级的划分,属于同一层级的运行状态值组成该层级对应的工作范围;对每一层级对应的工作范围进行验证,剔除工作范围内不合理状态值,形成每一层级对应的工作区间。
在本发明又一实施例中,分析单元402,用于将当前运行状态值与目标层级对应的工作区间中的运行状态值进行匹配;在目标层级对应的工作区间中,确定与当前运行状态值差距最小的标准运行状态值;根据下述公式,计算当前运行状态值与标准运行状态值的最小偏差;
其中,ω表征最小偏差;α表征当前运行状态值;β表征目标层级对应的工作区间中标准运行状态值;
判断最小偏差是否小于5%,如果是,则确定当前运行状态值在目标层级对应的工作区间;否则,确定当前运行状态值不在目标层级对应的工作区间。
如图5所示,在本发明另一实施例中,上述装置进一步包括:至少两个计时器501和特征存储区域502,其中,
至少两个计时器501中,第一计时器5011,用于设置自身的上限阈值,当分析单元402判断出最小偏差小于5%时,进行第一记录数加1操作,当第一记录数达到第一计数器的上限阈值时,触发故障预测单元403;
至少两个计时器501中,第二计时器5012,用于设置自身的上限阈值,当分析单元402判断出最小偏差大于等于5%时,进行第二记录数加1操作,并触发分析单元402,当第二记录数达到第一计数器的上限阈值时,触发故障预测单元403;
分析单元402,进一步用于当接收到第二计时器5012的触发时,将当前运行状态值发送给特征存储区域502;
特征存储区域502,用于接收分析单元402发送的当前运行状态值;
故障预测单元403,用于当接收到至少两个计时器501中任意计时器的触发时,执行确定目标预测故障时间。
在本发明另一实施例中,分析单元402,进一步用于设置损坏阈值,当分析出当前运行状态值大于损坏阈值时,触发故障预测单元403;
故障预测单元403,进一步用于设置损坏告知,当接收到分析单元402的触发时,发送损坏告知。
在本发明另一实施例中,故障预测单元403,进一步用于设置正常告知,当接收到第一计时器5011的触发时,发送正常告知和目标预测故障时间。
在本发明另一实施例中,故障预测单元403,进一步用于设置紧急告知,当接收到第二计时器5012的触发时,发送紧急告知和目标预测故障时间。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
如图6所示,本发明实施例提供一种故障预测的系统,该系统包括:上述任意一种故障预测的装置601和各个硬件602,其中,
各个硬件602,用于为故障预测的装置601提供运行状态值。
根据上述方案,本发明的各实施例,至少具有如下有益效果:
1.通过构建自学习模型,根据自学习模型,确定硬件的不同层级及每一个层级对应的工作区间;为每一层级对应的工作区间配置至少一个预测故障时间;通过上述过程建立起来了预测故障时间,通过采集目标硬件的当前运行状态值;确定当前运行状态值属于的目标层级;判断当前运行状态值是否在目标层级对应的工作区间,如果否,则根据当前运行状态值,确定目标预测故障时间,由于在前面已经为每个区间配置至少一个预测故障时间,那么当为当前运行状态值确定出工作区间之后,就很容易确定出预测故障时间,实现了对硬件故障的预测。
2.通过确定处于正常工作状态的多个学习硬件,对学习硬件的所有运行状态值进行统计;根据多个学习硬件运载情况和硬件已运行时长,对所有运行状态值进行层级的划分,属于同一层级的运行状态值组成该层级对应的工作范围;对每一层级对应的工作范围进行验证,剔除工作范围内不合理状态值,形成每一层级对应的工作区间,保障了工作区间的准确性,从而提高预测的准确性。
3.通过本发明实施例提供的方案进行硬件预测故障时间,并根据需要发送损坏告知或者正常告知或者紧急告知,能够提醒用户根据告知情况及时更换硬件,从而保障服务器进行数据处理的稳定性和安全性。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃·····”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (5)

1.一种故障预测的方法,其特征在于,构建自学习模型,还包括:
根据所述自学习模型,确定目标硬件的不同层级及每一个层级对应的工作区间;
为每一层级对应的工作区间配置至少一个预测故障时间;
采集目标硬件的当前运行状态值;
确定所述当前运行状态值属于的目标层级;
判断所述当前运行状态值是否在所述目标层级对应的工作区间,如果否,则根据所述当前运行状态值,确定目标预测故障时间;
所述构建自学习模型,包括:
确定处于正常工作状态的多个学习硬件,对所述学习硬件的所有运行状态值进行统计;
根据多个学习硬件运载情况和硬件已运行时长,对所有运行状态值进行层级的划分,属于同一层级的运行状态值组成该层级对应的工作范围;
对每一层级对应的工作范围进行验证,剔除工作范围内不合理状态值,形成每一层级对应的工作区间;
所述判断所述当前运行状态值是否在所述目标层级对应的工作区间,包括:
将所述当前运行状态值与所述目标层级对应的工作区间中的运行状态值进行匹配;
在所述目标层级对应的工作区间中,确定与所述当前运行状态值差距最小的标准运行状态值;
根据下述公式,计算所述当前运行状态值与所述标准运行状态值的最小偏差;
其中,所述ω表征最小偏差;所述α表征当前运行状态值;所述β表征目标层级对应的工作区间中标准运行状态值;
判断所述最小偏差是否小于5%,如果是,则确定所述当前运行状态值在所述目标层级对应的工作区间;否则,确定所述当前运行状态值不在所述目标层级对应的工作区间。
2.根据权利要求1所述的方法,其特征在于,进一步包括:设置至少两个计时器,为每一个计时器设置上限阈值,并设置特征存储区域;
当所述最小偏差小于5%时,触发所述至少两个计时器中第一计时器进行第一记录数加1操作,当所述第一记录数达到第一计时器的上限阈值时,执行所述确定目标预测故障时间;
当所述最小偏差大于等于5%时,触发所述至少两个计时器中第二计时器进行第二记录数加1操作,并将所述当前运行状态值存储到所述特征存储区域,当所述第二记录数达到第二计时器的上限阈值时,执行所述确定目标预测故障时间。
3.根据权利要求2所述的方法,其特征在于,进一步包括:设置损坏阈值、损坏告知、正常告知和紧急告知;
当所述当前运行状态值大于所述损坏阈值时,确定硬件损坏,并发送所述损坏告知;
当所述第一记录数达到第一计时器的上限阈值时,发送所述正常告知和目标预测故障时间;
当所述第二记录数达到第二计时器的上限阈值时,发送所述紧急告知和目标预测故障时间。
4.一种故障预测的装置,其特征在于,包括:故障学习单元、分析单元和故障预测单元,其中,
所述故障学习单元,用于构建自学习模型,根据所述自学习模型,确定硬件的不同层级及每一个层级对应的工作区间,将各个层级及每一个层级对应的工作区间发送给所述分析单元和所述故障预测单元;
所述分析单元,用于接收所述故障学习单元发送的各个层级及每一个层级对应的工作区间,采集目标硬件的当前运行状态值,确定所述当前运行状态值属于的目标层级;判断所述当前运行状态值是否在所述目标层级对应的工作区间,如果否,则发送所述当前运行状态值,并触发所述故障预测单元;
所述故障预测单元,用于接收所述故障学习单元发送的各个层级及每一个层级对应的工作区间,为每一层级对应的工作区间配置至少一个预测故障时间,接收所述分析单元发送的所述当前运行状态值,根据所述当前运行状态值,确定目标预测故障时间;
所述故障学习单元,用于确定处于正常工作状态的多个学习硬件,对所述学习硬件的所有运行状态值进行统计;根据硬件运载情况和硬件已运行时长,对所有运行状态值进行层级的划分,属于同一层级的运行状态值组成该层级对应的工作范围;对每一层级对应的工作范围进行验证,剔除工作范围内不合理状态值,形成每一层级对应的工作区间;
和/或,
所述分析单元,用于将所述当前运行状态值与所述目标层级对应的工作区间中的运行状态值进行匹配;在所述目标层级对应的工作区间中,确定与所述当前运行状态值差距最小的标准运行状态值;根据下述公式,计算所述当前运行状态值与所述标准运行状态值的最小偏差;
其中,所述ω表征最小偏差;所述α表征当前运行状态值;所述β表征目标层级对应的工作区间中标准运行状态值;
判断所述最小偏差是否小于5%,如果是,则确定所述当前运行状态值在所述目标层级对应的工作区间;否则,确定所述当前运行状态值不在所述目标层级对应的工作区间;
进一步包括:至少两个计时器和特征存储区域,其中,
所述至少两个计时器中,第一计时器,用于设置自身的上限阈值,当所述分析单元判断出最小偏差小于5%时,进行第一记录数加1操作,当所述第一记录数达到第一计时器的上限阈值时,触发所述故障预测单元;
所述至少两个计时器中,第二计时器,用于设置自身的上限阈值,当所述分析单元判断出最小偏差大于等于5%时,进行第二记录数加1操作,并触发所述分析单元,当所述第二记录数达到第二计时器的上限阈值时,触发所述故障预测单元;
所述分析单元,进一步用于当接收到所述第二计时器的触发时,将所述当前运行状态值发送给所述特征存储区域;
所述特征存储区域,用于接收所述分析单元发送的所述当前运行状态值;
所述故障预测单元,用于当接收到所述至少两个计时器中任意计时器的触发时,执行所述确定目标预测故障时间。
5.根据权利要求4所述的装置,其特征在于,
所述分析单元,进一步用于设置损坏阈值,当分析出所述当前运行状态值大于所述损坏阈值时,触发所述故障预测单元;
所述故障预测单元,进一步用于设置损坏告知,当接收到所述分析单元的触发时,发送所述损坏告知;
和/或,
所述故障预测单元,进一步用于设置正常告知,当接收到所述第一计时器的触发时,发送所述正常告知和目标预测故障时间;
和/或,
所述故障预测单元,进一步用于设置紧急告知,当接收到所述第二计时器的触发时,发送所述紧急告知和目标预测故障时间。
CN201610266495.1A 2016-04-26 2016-04-26 一种故障预测的方法、装置和系统 Active CN105868035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610266495.1A CN105868035B (zh) 2016-04-26 2016-04-26 一种故障预测的方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610266495.1A CN105868035B (zh) 2016-04-26 2016-04-26 一种故障预测的方法、装置和系统

Publications (2)

Publication Number Publication Date
CN105868035A CN105868035A (zh) 2016-08-17
CN105868035B true CN105868035B (zh) 2018-09-04

Family

ID=56629135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610266495.1A Active CN105868035B (zh) 2016-04-26 2016-04-26 一种故障预测的方法、装置和系统

Country Status (1)

Country Link
CN (1) CN105868035B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017077B2 (en) * 2018-03-21 2021-05-25 Nxp Usa, Inc. Run-time security protection system and method
CN108647794B (zh) * 2018-05-16 2022-06-21 京东方科技集团股份有限公司 一种卫生间管理系统及卫生间管理方法
JP6863341B2 (ja) * 2018-06-28 2021-04-21 横河電機株式会社 フィールド機器、フィールド機器の診断方法および診断装置
CN109144835A (zh) * 2018-08-02 2019-01-04 广东浪潮大数据研究有限公司 一种应用服务故障的自动预测方法、装置、设备及介质
CN113590406A (zh) * 2021-08-16 2021-11-02 湖南博匠信息科技有限公司 一种基于电变量进行固态硬盘故障检测的方法及系统
CN114355390B (zh) * 2021-12-06 2023-07-07 浙江时空道宇科技有限公司 一种服务端产品的故障检测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1616204A (zh) * 2003-11-12 2005-05-18 青岛高校软控股份有限公司 橡胶密炼生产过程的故障监测与专家系统及其使用方法
CN105068901A (zh) * 2015-07-27 2015-11-18 浪潮电子信息产业股份有限公司 一种磁盘检测的方法
CN105159815A (zh) * 2015-09-02 2015-12-16 浪潮(北京)电子信息产业有限公司 高性能计算集群系统故障预测方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138772A1 (en) * 2001-03-22 2002-09-26 Crawford Timothy James Battery management system employing software controls upon power failure to estimate battery duration based on battery/equipment profiles and real-time battery usage
US6917888B2 (en) * 2002-05-06 2005-07-12 Arkados, Inc. Method and system for power line network fault detection and quality monitoring

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1616204A (zh) * 2003-11-12 2005-05-18 青岛高校软控股份有限公司 橡胶密炼生产过程的故障监测与专家系统及其使用方法
CN105068901A (zh) * 2015-07-27 2015-11-18 浪潮电子信息产业股份有限公司 一种磁盘检测的方法
CN105159815A (zh) * 2015-09-02 2015-12-16 浪潮(北京)电子信息产业有限公司 高性能计算集群系统故障预测方法和装置

Also Published As

Publication number Publication date
CN105868035A (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN105868035B (zh) 一种故障预测的方法、装置和系统
WO2021109314A1 (zh) 一种异常数据的检测方法、系统及设备
EP3772005B1 (en) Visualization and control of remotely monitored hosts
US8270579B2 (en) Methods, computer program products, and systems for managing voice over internet protocol (VOIP) network elements
CN105989155B (zh) 识别风险行为的方法及装置
US9070121B2 (en) Approach for prioritizing network alerts
JP4232828B2 (ja) アプリケーション分類方法、ネットワーク異常検知方法、アプリケーション分類プログラム、ネットワーク異常検知プログラム、アプリケーション分類装置、ネットワーク異常検知装置
CN108334972A (zh) 车辆行程监控方法及装置
CN111935172A (zh) 基于网络拓扑的网络异常行为检测方法、计算机装置及计算机可读存储介质
JP2006323471A (ja) サービス処理状況分析プログラム、サービス処理状況分析方法、およびサービス処理状況分析装置
US10896073B1 (en) Actionability metric generation for events
US20240305614A1 (en) Fingerprint-based network mapping of cyber-physical assets
US11805106B2 (en) System and method for trigger-based scanning of cyber-physical assets
JP6413537B2 (ja) 障害予兆通報装置および予兆通報方法、予兆通報プログラム
WO2020000744A1 (zh) 一种去重流量提示方法、装置、服务器及存储介质
CN107332802B (zh) 一种防火墙策略监控方法及装置
CN108737193A (zh) 一种故障预测方法及装置
CN111897700B (zh) 应用指标监控方法及装置、电子设备和可读存储介质
CN111143325A (zh) 一种数据采集的监测方法、监测装置及可读存储介质
Ramírez et al. Standard and inverse bond percolation of straight rigid rods on square lattices
CN110389885A (zh) 高频交易监控方法及装置
CN115686381B (zh) 存储集群运行状态的预测方法及装置
US10599509B2 (en) Management system and management method for computer system
CN105868991B (zh) 识别机器辅助作弊的方法和装置
JP5735998B2 (ja) 運用システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant