CN108196985A - 一种基于智能预测的存储系统故障预测方法与装置 - Google Patents

一种基于智能预测的存储系统故障预测方法与装置 Download PDF

Info

Publication number
CN108196985A
CN108196985A CN201711498131.7A CN201711498131A CN108196985A CN 108196985 A CN108196985 A CN 108196985A CN 201711498131 A CN201711498131 A CN 201711498131A CN 108196985 A CN108196985 A CN 108196985A
Authority
CN
China
Prior art keywords
node
detected
copy
isolated
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711498131.7A
Other languages
English (en)
Inventor
王惠峰
张峰
张德
张昆
王子玮
许涛
赵飞
熊荔
李明强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201711498131.7A priority Critical patent/CN108196985A/zh
Publication of CN108196985A publication Critical patent/CN108196985A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于智能预测的存储系统故障预测方法,包括以下步骤:S1:对一定历史时期的节点历史数据进行分析挖掘,获取孤立节点;S2:为获取到的孤立节点配置三副以上副本,对于其他节点配置两副副本;S3:获取待检测节点的进程信息,并且确定所述待检测的进程是否存在,当发现待检测节点不存在时,判定所述待检测节点发生故障;S4:依据副本进行故障恢复。此外本发明还提供了一种基于智能预测的存储系统故障预测装置。

Description

一种基于智能预测的存储系统故障预测方法与装置
技术领域
本发明设计大数据存储技术领域,更具体的涉及一种存储系统的故障诊断预测方法与装置。
背景技术
存储系统是大数据应用开发的核心支撑技术。现有的存储系统是由分散的、低故障率的中高端商用服务器以主从结构通过网络互联进行数据管理的系统。存储系统采用可扩展的系统结构对数据进行分散存储、并行访问,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展,最终满足云计算、大数据、人工智能平台的大规模存储需要。存储系统已经成为数据中心中不可缺少的重要组成部分。然而,存储系统故障是其常态,随时随刻都在发生,严重威胁着存储系统的可用性和可靠性。因此,实现存储系统故障预测诊断,以便及时处理,对于增强大数据存储系统健壮性和稳定性具有重要意义。
现有技术大部分存储系统故障诊断方案依据侦测目标主机的心跳或者进程信息确定其状态,例如,如果运行于目标主机上指定进程不存在或者长时间无心跳信息,就判断该目标主机状态为故障,随后采取故障处理。虽然上述方法可以有效的诊断存储系统故障,但是其是一种后发式的诊断方式,即故障发生后诊断。这种诊断方式具有滞后性,将导致故障处理不够及时,有可能造成存储系统短暂而不可用,甚至数据丢失。并且,采用后发式诊断,使得存储系统往往采用高成本代价保证系统的健壮性。例如提早准备好副本,以保证数据可恢复。因此为了解决上述问题,现有技术迫切需要对存储系统故障技术预测的技术。
发明内容
本发明旨在提出一种基于智能预测的存储系统故障诊断方法,以解决现有技术中存储系统故障发现时间滞后、预防故障成本较高的技术问题。
具体的,本发明的基于智能预测的存储系统故障预测方法,包括以下步骤:S1:对一定历史时期的节点历史数据进行分析挖掘,获取孤立节点;S2:为获取到的孤立节点配置三副以上副本,对于其他节点配置两副副本;S3:获取待检测节点的进程信息,并且确定所述待检测的进程是否存在,当发现待检测节点不存在时,判定所述待检测节点发生故障;S4:依据副本进行故障恢复。
其中,所述孤立节点为在在相同条件下,历史数据存在明显偏离的节点。
其中,所述孤立节点的判定为:在同一个局域网络、同一个机架或同一配置的服务器,网络带宽或者存取性能低于规定阈值的节点。
其中,将所述孤立节点划分为高危节点组,并根据节点位置,将配置的所述三副以上副本放在在能够快速恢复的服务器上。
其中,所述其他节点的两个副本中的一个放在一个高安全的服务器上。
其中,所述每个节点的历史数据以时间顺序形成单向数据信息链表。
另外,本发明还提供了基于智能预测的存储系统故障预测装置,包括:获取单元,用于对一定历史时期的节点历史数据进行分析挖掘,获取孤立节点;副本配置单元,为获取到的孤立节点配置三副以上副本,对于其他节点配置两副副本;故障检测单元,获取待检测节点的进程信息,并且确定所述待检测的进程是否存在,当发现待检测节点不存在时,判定所述待检测节点发生故障,所述待检测节点发生故障;恢复单元;根据副本进行故障恢复。
其中,所述获取单元在相同条件下,获取历史数据存在明显偏离的节点作为孤立节点。
其中,所述获取单元将在同一个局域网络、同一个机架或同一配置的服务器中网络带宽或者存取性能低于规定阈值的节点判定为孤立节点。
其中,所述副本配置单元将所述孤立节点划分为高危节点组,并根据节点位置,将配置的所述三副以上副本放在在能够快速恢复的服务器上。
其中,所述副本配置单元将其他节点的两个副本中的一个放在一个高安全的服务器上。
其中,所述每个节点的历史数据以时间顺序形成单向数据信息链表。
采用本发明的方法,可以对大数据存储系统故障进行预测感知,以提高系统的健壮性,并降低系统维护健壮性的成本。
附图说明
附图,其被包括以提供本发明的进一步理解并且被并入并构成本说明书的一部分,所述附图示出本发明的实施例并且连同说明书用来解释本发明的原理,在附图中:
图1为本发明提供的一种基于智能预测的存储系统故障诊断方法流程图;
图2为本发明提供的一种基于智能预测的存储系统故障诊断装置框图;
具体实施方式
以下结合附图说明本发明的具体实现方式。
本发明提供一种基于智能预测的存储系统故障诊断方法与装置,作为大数据存储系统故障预处理阶段,使用该方法可以在对存储系统故障预测时提前采取预处理措施,保证系统的可用性,同时能够采用差异化副本策略,节省了存储系统维护可用性的成本。
本方法通过一些历史存取数据的指标的分析挖掘,得出存储系统中不同存储节点或者磁盘的故障概率的大小,然后根据存储节点或者磁盘的位置调整数据副本策略并设置其故障处理方法,从而达到系统故障预处理和节省故障处理成本的目的。
本方法的输入为存储系统各个节点的基本信息,例如存取性能、网络带宽等,以此形成每个节点的历史数据。每个节点的历史数据以时间顺序形成单向数据信息链表。
本发明提供的方法的流程图如图1所示,
S1,对一定历史时期的节点历史数据进行分析挖掘,获取孤立节点。即在相同条件下,历史数据存在明显偏离的节点。例如,在同一个局域网络、同一个机架,同一配置的服务器,网络带宽或者存取性能低于规定阈值,则判定该节点为孤立节点。
S2,对于获取到的孤立节点划分了一个高危节点组,作为重点监视对象,并且配置三副本或者更多副本,并且依据节点位置放置在能够快速恢复的服务器上(三个副本或更多副本),以便在其出现故障时快速恢复数;对于其余处于阈值范围内的正常节点,配置两副副本并且将其中一个副本在一个高安全的服务器上,以保证其可用性。
S3,获取待检测节点的进程信息,例如进程名称、标识等;并确定待检测节点的进程是否存在;并且确定所述待检测节点发生故障。当发现待检测节点的进程不存在时,判定待检测节点故障。
S4,进行节点故障处理。依据预设定的副本进行故障恢复。因为待检测节点至少存有一个副本,所以能够正常完成数据恢复。并且,为高危节点组配置了三副本并且设定了快速恢复策略,所以当接收到数据恢复指令后故障节点能够被多副本进行并行恢复。
本发明还提供了一种基于智能预测的存储系统故障预测装置,如图2所示,包括:
获取单元201,用于对一定历史时期的节点历史数据进行分析挖掘,获取孤立节点;
副本配置单元202,为获取到的孤立节点配置三副以上副本,对于其他节点配置两副副本;
故障检测单元203,获取待检测节点的进程信息,并且确定所述待检测的进程是否存在,当发现待检测节点不存在时,判定所述待检测节点发生故障,所述待检测节点发生故障;
恢复单元204,根据副本进行故障恢复。
所述获取单元201在相同条件下,获取历史数据存在明显偏离的节点作为孤立节点。
所述获取单元201将在同一个局域网络、同一个机架或同一配置的服务器中网络带宽或者存取性能低于规定阈值的节点判定为孤立节点。
所述副本配置单元202将所述孤立节点划分为高危节点组,并根据节点位置,将配置的所述三副以上副本放在在能够快速恢复的服务器上。
所述副本配置单元202将其他节点的两个副本中的一个放在一个高安全的服务器上。
此外,采用本发明的方法,还可以带来以下有益效果:
传统故障诊断方法采用一种事后发现的方式,造成故障处理滞后,数据恢复效率慢。本方法采用预测方式进行了故障处理优化,在其处于高危状态时进行针对性处理,例如设置多副本保证其可用性,并且配置快速恢复策略,保证其恢复速度。
本诊断方法能够保证正常节点不会设置过多副本造成故障维护成本过高。本方法对于正常节点采用两副副本策略,节省了一个副本存储空间,并且使用高可用性节点设置其中一个副本保证了该节点的可恢复性。
本方法为存储系统故障发生前的故障预处理,可以与现有的故障处理方法进行无缝结合,具有较好的通用性和扩展性。并且该方法复杂度不高,只是利用历史数据从其中发现孤立节点,具有较高的效率。
应该理解由本领域技术人员通过本发明能够实现的效果并不局限于在上文已经特别描述的内容,并且本发明的其他优点从上面的详细描述中将更清楚地理解。
对于本领域技术人员,显然可以在不脱离本发明精神或范围的情况下在发明中做出各种修改和变形。因此,本发明旨在如果本发明的修改和变形落入随附的权利要求和他们等同形式的范围内,那么本发明覆盖这些修改和变形。

Claims (12)

1.一种基于智能预测的存储系统故障预测方法,包括以下步骤:
S1:对一定历史时期的节点历史数据进行分析挖掘,获取孤立节点;
S2:为获取到的孤立节点配置三副以上副本,对于其他节点配置两副副本;
S3:获取待检测节点的进程信息,并且确定所述待检测的进程是否存在,当发现待检测节点不存在时,判定所述待检测节点发生故障;
S4:依据副本进行故障恢复。
2.如权利要求1所述的方法,所述孤立节点为在在相同条件下,历史数据存在明显偏离的节点。
3.如权利要求1所述的方法,所述孤立节点的判定为:在同一个局域网络、同一个机架或同一配置的服务器,网络带宽或者存取性能低于规定阈值的节点。
4.如权利要求1所述的方法,将所述孤立节点划分为高危节点组,并根据节点位置,将配置的所述三副以上副本放在在能够快速恢复的服务器上。
5.如权利要求1所述的方法,所述其他节点的两个副本中的一个放在一个高安全的服务器上。
6.如权利要求1所述的方法,所述每个节点的历史数据以时间顺序形成单向数据信息链表。
7.一种基于智能预测的存储系统故障预测装置,包括:
获取单元,用于对一定历史时期的节点历史数据进行分析挖掘,获取孤立节点;
副本配置单元,为获取到的孤立节点配置三副以上副本,对于其他节点配置两副副本;
故障检测单元,获取待检测节点的进程信息,并且确定所述待检测的进程是否存在,当发现待检测节点不存在时,判定所述待检测节点发生故障,所述待检测节点发生故障;
恢复单元;根据副本进行故障恢复。
8.如权利要求6所述的装置,所述获取单元在相同条件下,获取历史数据存在明显偏离的节点作为孤立节点。
9.如权利要求6所述的方法,所述获取单元将在同一个局域网络、同一个机架或同一配置的服务器中网络带宽或者存取性能低于规定阈值的节点判定为孤立节点。
10.如权利要求6所述的装置,所述副本配置单元将所述孤立节点划分为高危节点组,并根据节点位置,将配置的所述三副以上副本放在在能够快速恢复的服务器上。
11.如权利要求6所述的装置,所述副本配置单元将其他节点的两个副本中的一个放在一个高安全的服务器上。
12.如权利要求6所述的装置,所述每个节点的历史数据以时间顺序形成单向数据信息链表。
CN201711498131.7A 2017-12-29 2017-12-29 一种基于智能预测的存储系统故障预测方法与装置 Pending CN108196985A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711498131.7A CN108196985A (zh) 2017-12-29 2017-12-29 一种基于智能预测的存储系统故障预测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711498131.7A CN108196985A (zh) 2017-12-29 2017-12-29 一种基于智能预测的存储系统故障预测方法与装置

Publications (1)

Publication Number Publication Date
CN108196985A true CN108196985A (zh) 2018-06-22

Family

ID=62587712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711498131.7A Pending CN108196985A (zh) 2017-12-29 2017-12-29 一种基于智能预测的存储系统故障预测方法与装置

Country Status (1)

Country Link
CN (1) CN108196985A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965858A (zh) * 2021-03-04 2021-06-15 电信科学技术第五研究所有限公司 一种组网分布式存储数据冲突处理的实现方法
WO2023040400A1 (zh) * 2021-09-14 2023-03-23 树根互联股份有限公司 一种挖掘机故障的预测方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095533A (zh) * 2013-02-22 2013-05-08 浪潮电子信息产业股份有限公司 一种云计算系统平台中的定时监控方法
CN103116531A (zh) * 2013-01-25 2013-05-22 浪潮(北京)电子信息产业有限公司 存储系统故障预测方法和装置
US20130159787A1 (en) * 2011-12-20 2013-06-20 Ncr Corporation Methods and systems for predicting a fault
CN103259688A (zh) * 2013-06-04 2013-08-21 北京搜狐新媒体信息技术有限公司 一种分布式存储系统的故障诊断方法与装置
CN103345207A (zh) * 2013-05-31 2013-10-09 北京泰乐德信息技术有限公司 一种轨道交通监控数据的挖掘分析与故障诊断系统
CN105099759A (zh) * 2015-06-23 2015-11-25 上海华为技术有限公司 一种检测方法及装置
CN106934050A (zh) * 2017-03-16 2017-07-07 郑州云海信息技术有限公司 一种分布式存储系统中文件副本数量的确定方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130159787A1 (en) * 2011-12-20 2013-06-20 Ncr Corporation Methods and systems for predicting a fault
CN103116531A (zh) * 2013-01-25 2013-05-22 浪潮(北京)电子信息产业有限公司 存储系统故障预测方法和装置
CN103095533A (zh) * 2013-02-22 2013-05-08 浪潮电子信息产业股份有限公司 一种云计算系统平台中的定时监控方法
CN103345207A (zh) * 2013-05-31 2013-10-09 北京泰乐德信息技术有限公司 一种轨道交通监控数据的挖掘分析与故障诊断系统
CN103259688A (zh) * 2013-06-04 2013-08-21 北京搜狐新媒体信息技术有限公司 一种分布式存储系统的故障诊断方法与装置
CN105099759A (zh) * 2015-06-23 2015-11-25 上海华为技术有限公司 一种检测方法及装置
CN106934050A (zh) * 2017-03-16 2017-07-07 郑州云海信息技术有限公司 一种分布式存储系统中文件副本数量的确定方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965858A (zh) * 2021-03-04 2021-06-15 电信科学技术第五研究所有限公司 一种组网分布式存储数据冲突处理的实现方法
WO2023040400A1 (zh) * 2021-09-14 2023-03-23 树根互联股份有限公司 一种挖掘机故障的预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN107544839B (zh) 虚拟机迁移系统、方法及装置
US7574620B2 (en) Method for operating an arrangement of a plurality of computers in the event of a computer failure
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
CN105095001A (zh) 分布式环境下虚拟机异常恢复方法
CN102402395A (zh) 基于仲裁磁盘的高可用系统不间断运行方法
CN107729190B (zh) 一种io路径故障转移处理方法和系统
CN102394914A (zh) 集群脑裂处理方法和装置
US9208039B2 (en) System and method for detecting server removal from a cluster to enable fast failover of storage
CN102594596A (zh) 识别集群网络中可用分区的方法、装置及集群网络系统
CN102075368A (zh) 一种业务故障诊断方法、装置和系统
CN103490914A (zh) 一种网络应用设备多机热备的切换系统及方法
CN104914815A (zh) 处理器监控方法、装置及系统
CN108196985A (zh) 一种基于智能预测的存储系统故障预测方法与装置
CN103368789A (zh) 集群监视器、用于监视集群的方法及计算机可读记录介质
CN105703952A (zh) 网络故障监测方法及装置
CN103647710A (zh) 一种路径配置方法及装置
CN102546652B (zh) 一种服务器负载平衡系统及方法
CN113147776A (zh) 车辆用热备份故障处理系统、方法及采用其的车辆
CN104158843A (zh) 分布式文件存储系统的存储单元失效检测方法及装置
CN112866009B (zh) 一种综合服务站虚拟网络故障诊断方法及装置
CN103885441A (zh) 一种控制器局域网络的自适应故障诊断方法
CN110991673B (zh) 用于复杂系统的故障隔离和定位方法
CN112379640B (zh) 分布式智能感知控制器
CN107438010A (zh) 故障保护方法、第一、第二处理器、网络存储设备和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180622