CN105975212A - 分布式数据系统失效检测处理方法及装置 - Google Patents

分布式数据系统失效检测处理方法及装置 Download PDF

Info

Publication number
CN105975212A
CN105975212A CN201610289605.6A CN201610289605A CN105975212A CN 105975212 A CN105975212 A CN 105975212A CN 201610289605 A CN201610289605 A CN 201610289605A CN 105975212 A CN105975212 A CN 105975212A
Authority
CN
China
Prior art keywords
node
data
back end
distributed
fail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610289605.6A
Other languages
English (en)
Inventor
张锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Longrise Technology Co Ltd
Original Assignee
Shenzhen Longrise Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Longrise Technology Co Ltd filed Critical Shenzhen Longrise Technology Co Ltd
Priority to CN201610289605.6A priority Critical patent/CN105975212A/zh
Publication of CN105975212A publication Critical patent/CN105975212A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0634Configuration or reconfiguration of storage systems by changing the state or mode of one or more devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式数据系统失效检测处理方法和装置,该方法包括:控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表;定期获取所有中心节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;对所述参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点。本发明通过让分布式数据系统的维护人员及时了解到哪些数据节点失效,以利于维护人员及时采取措施,进而避免因过多的数据节点失效而导致数据不能正常访问,提高了分布式数据系统数据的可靠性。

Description

分布式数据系统失效检测处理方法及装置
技术领域
本发明涉及分布式数据系统技术领域,尤其涉及一种分布式数据系统失效检测处理方法及装置。
背景技术
随着信息化的深入开展,各行各业的业务系统所产生的数据越来越多,由于传统的集中式数据系统方案(集中式数据系统是指为待存储的数据制定一个特定的存取区域,将所有数据都存取在该存取区域中)将所有的数据均存在数据中心主机上以供集中提取数据,若数据中心主机出故障,则整个系统无法存储和提取数据,即集中式数据系统方案相较于分布式数据系统方案,数据稳定性较低,故而分布式数据系统应运而生。
特别是近年来,网络分布式数据系统存储方案已经成为存储技术发展的新趋势。分布式数据系统是构建大规模的分布式存储系统必不可少的组成部分。由于数据是分布存储在不同数据节点上的,即使某几个数据节点失效不可用时,由于这些数据在其他数据节点上依然存在,所以访问节点依然可以正常访问数据,这就提供了数据的高可靠性。虽然数据在其它数据节点上有备份存储,但是当失效的数据节点不断的累积增加时,可能会导致数据的丢失,进而导致数据不能正常访问,分布式文件存储系统失效不可用,导致分布式数据系统的数据不可靠。
发明内容
本发明的主要目的在于提供一种分布式数据系统失效检测处理方法及装置,旨在解决因数据节点失效而导致分布式数据系统的数据不可靠的技术问题。
为实现上述目的,本发明提供的一种分布式数据系统失效检测处理方法,所述分布式数据系统包括多个存储组,每个存储组包括负责存储组间数据传递的中心节点和多个存储数据的数据节点,每个中心节点存有邻接状态表,所述邻接状态表包括一个存储组内各个数据节点的节点标识以及各个数据节点对应的消息计数值,
所述分布式数据系统失效检测处理方法包括:
控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表;
定期获取所有中心节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;
对所述参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点。
优选地,在所述对所述参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点的步骤之后还包括:
统计分布式数据系统中失效数据节点的数量;
在分布式数据系统中所述失效数据节点的数量大于第一阈值时,确定所述分布式系统失效。
优选地,所述统计分布式数据系统中失效数据节点的数量的步骤之后还包括:
在分布式数据系统中所述失效数据节点的数量小于第二阈值时,确定所述分布式系统有效,其中第二阈值小于或等于第一阈值。
优选地,在所述对所述参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点的步骤之后还包括:
使用预存的正确程序内容对所述失效数据节点的程序内容进行数据修复;
若检测到失效数据节点基于进行数据修复后的程序发送的响应消息,则判定所述失效数据节点发生软件失效,输出第一事件提示。
优选地,所述使用预存的正确程序内容对所述失效数据节点的程序内容进行数据修复的步骤之后还包括:
若未检测到失效数据节点基于进行数据修复后的程序发送的响应消息,则复位重启所述失效数据节点;
若检测到复位重启后的失效数据节点发送的响应消息,则判定所述失效数据节点发生软件失效,输出第一事件提示;
若未检测到复位重启后的失效数据节点发送的响应消息,则判定所述失效数据节点发生硬件失效,输出第二事件提示。
本发明还提供一种分布式数据系统失效检测处理装置,所述分布式数据系统包括多个存储组,每个存储组包括负责存储组间数据传递的中心节点和多个存储数据的数据节点,每个中心节点存有邻接状态表,所述邻接状态表包括一个存储组内各个数据节点的节点标识以及各个数据节点对应的消息计数值,
所述分布式数据系统失效检测处理装置包括:
控制模块,用于控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表;
获取模块,用于定期获取所有中心数据节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;
分析模块,用于对所述参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点。
优选地,所述分布式数据系统失效检测处理装置还包括:
统计模块,用于统计分布式数据系统中失效数据节点的数量;
系统确定模块,用于在分布式数据系统中所述失效数据节点的数量大于第一阈值时,确定所述分布式系统失效。
优选地,所述系统确定模块还用于:
在分布式数据系统中所述失效数据节点的数量小于第二阈值时,确定所述分布式系统有效,其中第二阈值小于或等于第一阈值。
优选地,所述分布式数据系统失效检测处理装置还包括:
软件修复模块,用于使用预存的正确程序内容对所述失效数据节点的程序内容进行数据修复;
第一输出模块,用于在检测到失效数据节点基于进行数据修复后的程序发送的响应消息时,判定所述失效数据节点发生软件失效,输出第一事件提示。
优选地,所述分布式数据系统失效检测处理装置还包括硬件修复模块和第二输出模块,
所述硬件修复模块,用于在未检测到失效数据节点基于进行数据修复后的程序发送的响应消息时,复位重启所述失效数据节点;
所述第二输出模块用于:
在检测到复位重启后的失效数据节点发送的响应消息时,判定所述失效数据节点发生软件失效,输出第一事件提示;
在未检测到复位重启后的失效数据节点发送的响应消息时,判定所述失效数据节点发生硬件失效,输出第二事件提示。
本发明通过在分布式数据系统启动时,控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表;然后定期获取所有中心节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;再对参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点,从而通过对参考表中消息计数值的变化状况,并根据数据节点若预设时长未发送响应消息,则判定失效的判断规则,推测各个数据节点的运行情况,从而确定分布式数据系统当前的失效数据节点,让分布式数据系统的维护人员及时了解到哪些数据节点失效,以利于维护人员及时采取措施,进而避免因过多的数据节点失效而导致数据不能正常访问,提高了分布式数据系统数据的可靠性,也减少了维护人员查询、确认失效节点的工作量。
附图说明
图1为本发明分布式数据系统失效检测处理方法第一实施例的流程示意图;
图2为本发明分布式数据系统失效检测处理方法第二实施例的流程示意图;
图3为本发明分布式数据系统失效检测处理方法第三实施例的流程示意图;
图4为本发明分布式数据系统失效检测处理方法第四实施例的流程示意图;
图5为本发明分布式数据系统失效检测处理方法第五实施例的流程示意图;
图6为本发明分布式数据系统失效检测处理装置第一实施例的功能模块示意图;
图7为本发明分布式数据系统失效检测处理装置第二实施例的功能模块示意图;
图8为本发明分布式数据系统失效检测处理装置第三实施例的功能模块示意图;
图9为本发明分布式数据系统失效检测处理装置第四实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种分布式数据系统失效检测处理方法(以下简称失效检测处理方法),在本发明失效检测处理方法的第一实施例中,参照图1,分布式数据系统包括多个存储组,每个存储组包括负责存储组间数据传递的中心节点和多个存储数据的数据节点,每个中心节点存有邻接状态表,邻接状态表包括一个存储组内各个数据节点的节点标识以及各个数据节点对应的消息计数值,失效检测处理方法包括:
步骤S10,控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表;
分布式数据系统中有多个存储组,每个存储组包括多个用于存储数据的数据节点和负责与其它存储组的中心节点进行数据传递的中心节点,每个数据节点在运行时,有唯一对应的节点标识(例如存储组编号+节点编号)。每个存储组的中心节点都存有自己的邻接状态表,该邻接状态表包括了该中心节点所在存储组所有数据节点的节点标识以及每个节点对应的消息计数值,即邻接状态表中每个节点标识对应一个消息计数值,该消息计数值为存储该消息计数值的数据节点接收该消息计数值对应节点标识所对应的数据节点发送响应消息的次数,例如中心节点A存有的邻接状态表中存有一项数据:节点标识010001—消息计数值30,则表示中心节点接收节点标识为010001的数据节点发送的响应消息30次,其中,节点标识010001可标识该数据节点处于编号01存储组,存储组中节点编号为0001。
在分布式数据系统运行时,启动各个数据节点,各个数据节点每间隔预设周期(例如1s)向自身所在存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表,即各个中心节点基于接收的响应消息更新邻接状态表中对应节点标识的消息计数值。
例如分布式数据系统有存储组01、存储组02和存储组03三个存储组,存储组01中包括节点标识为01001、01002、01003三个数据节点,存储组02中包括节点标识为02001、02002、02003三个数据节点,存储组03中包括节点标识为03001、03002、03003三个数据节点,则节点标识为01001、01002、01003三个数据节点每间隔预设周期向存储组01的中心节点发送一次响应消息,同理,节点标识为02001、02002、02003三个数据节点每间隔预设周期向存储组02的中心节点发送一次响应消息,节点标识为03001、03002、03003三个数据节点每间隔预设周期向存储组03的中心节点发送一次响应消息,在经历了一个预设周期后,存储组01的中心节点内存储的邻接状态表中内容为:节点标识01001—消息计数值1,节点标识01002—消息计数值1,节点标识01003—消息计数值1,同理可推知存储组02中心节点和存储组03中心节点内存储的邻接状态表,并且,随着时间的推移,各中心节点中邻接状态表中消息计数值不断累加。
步骤S20,定期获所有中心节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;
步骤S30,对参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点。
分布式数据系统定期获取所有中心节点当前时刻存储的邻接状态表(即参考表),将获取的邻接状态表作为评定数据节点是否失效的参考表。对参考表中的数据进行分析,统计各个存储组中所有节点标识的消息计数值保持不变所持续的时长,将消息计数值保持不变所持续的时长大于预设时长的节点标识作为失效节点标识,并将失效节点标识对应的数据节点作为失效数据节点。
在本实施例中,通过在分布式数据系统启动时,控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表;然后定期获取所有中心节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;再对参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点,从而通过对参考表中消息计数值的变化状况,并根据数据节点若预设时长未发送响应消息,则判定失效的判断规则,推测各个数据节点的运行情况,从而确定分布式数据系统当前的失效数据节点,让分布式数据系统的维护人员及时了解到哪些数据节点失效,以利于维护人员及时采取措施,进而避免因过多的数据节点失效而导致数据不能正常访问,提高了分布式数据系统数据的可靠性,也减少了维护人员查询、确认失效节点的工作量。
进一步地,在本发明失效检测处理方法第一实施例的基础上,提出失效检测处理方法第二实施例,在第二实施例中,参照图2,在步骤S30之后还包括:
步骤S41,统计分布式数据系统中失效数据节点的数量;
步骤S42,在分布式数据系统中失效数据节点的数量大于第一阈值时,确定分布式系统失效。
在分布式数据系统确定失效数据节点之后,定时统计一次分布式数据系统中失效数据节点的数量。预设的第一阈值优选为分布式数据系统中所有可用的数据节点(即未失效的数据节点)总数的一半。分布式数据系统中失效数据节点的数量超过第一阈值时,则认为分布式数据系统的数据传输和访问容易出现异常(不能访问数据或访问的数据不正确等等),分布式数据系统的数据可靠性低,此时确定分布式数据系统失效,停止运行。
在本实施例中,通过对失效数据节点的数量进行统计,在分布式数据系统中的失效数据节点的数量超过第一阈值时,将分布式数据系统确定为失效,停止分布式数据系统运行,避免分布式数据系统继续运行造成数据丢失和访问数据异常。
更进一步地,参照图3,在本发明失效检测处理方法第三实施例中,步骤S41之后还包括:
步骤S43,在分布式数据系统中失效数据节点的数量小于第二阈值时,确定分布式系统有效,其中第二阈值小于或等于第一阈值。
预设的第二阀值优选为分布式数据系统中数据节点数量的一半,在分布式数据系统中数据节点大部分不可用(即存在大部分失效数据节点)时,则认为该分布式数据系统已不可进行数据传输,确定该分布式数据系统失效,此时分布式数据系统已经不可用,再对分布式数据系统各存储组的数据节点进行失效检测已经没有了意义。
在分布式数据系统中失效数据节点的数量小于第二阈值时,分布式数据系统才确定为有效,此时对分布式数据系统数据节点的失效检测才有意义。在记录失效数据节点以及确定该分布式数据系统失效之后,可向维护终端(如服务器以及维修人员携带的终端等)发送维护请求,要保证失效数据节点和分布式数据系统及时恢复正常。
进一步地,在本发明失效检测处理方法第一实施例的基础上,提出失效检测处理方法第四实施例,参照图4,在第四实施例中,步骤S30之后还包括:
步骤S51,使用预存的正确程序内容对失效数据节点的程序内容进行数据修复;
步骤S52,若检测到失效数据节点基于进行数据修复后的程序发送的响应消息,则判定失效数据节点发生软件失效,输出第一事件提示。
数据节点的存储空间中一般包括程序内容和数据内容,通常程序内容是固定不变的,数据内容则会随着数据处理的不断发生而改变。在确定分布式数据系统中的失效数据节点之后,使用预存的正确程序内容对失效数据节点的程序内容进行数据修复,若失效数据节点在基于正确程序内容进行数据修复后,能够向其所在存储组的中心节点发送响应消息,即分布式数据系统检测到失效数据节点基于进行数据修复后的程序发送的响应消息,则判定失效数据节点发生软件失效,向维护终端输出第一事件提示,该第一事件提示用于向维护终端报告失效数据节点是程序软件失效,提示维护人员注意对数据节点进行软件方面的维护,从而为维护人员提供较为准确的失效检测结果,以及自动解决失效数据节点软件方面的失效问题。
更进一步地,参照图5,在本发明失效检测处理方法第五实施例中,步骤S51之后还包括:
步骤S53,若未检测到失效数据节点基于进行数据修复后的程序发送的响应消息,则复位重启失效数据节点;
步骤S54,若检测到复位重启后的失效数据节点发送的响应消息,则判定失效数据节点发生软件失效,输出第一事件提示;
步骤S55,若未检测到复位重启后的失效数据节点发送的响应消息,则判定失效数据节点发生硬件失效,输出第二事件提示。
在对失效数据节点进行软件数据修复之后,若还是未检测到未检测到失效数据节点基于进行数据修复后的程序发送的响应消息,此时可推测失效数据节点出现硬件上问题,则复位并重启失效数据节点;若检测到复位重启后的失效数据节点发送的响应消息,表明失效数据节点内部软件程序在运行上出了问题,则判定失效数据节点发生软件失效,输出第一事件提示;若还是未检测到复位重启后的失效数据节点发送的响应消息,即对失效数据节点进行数据修复和复位重启之后,失效数据节点还是不能正常发送响应消息,则判定失效数据节点发生硬件失效,输出第二事件提示,该第二事件提示用于向维护终端报告失效数据节点是存储设备硬件失效,提示维护人员注意对失效数据节点进行硬件方面的维护,从而为维护人员提供较为准确的失效检测结果,以便维护人员及时准备数据节点硬件维护所需的工具和耗材。
本发明还提供一种分布式数据系统失效检测处理装置(以下简称失效检测处理装置),在失效检测处理装置第一实施例中,参照图6,分布式数据系统包括多个存储组,每个存储组包括负责存储组间数据传递的中心节点和多个存储数据的数据节点,每个中心节点存有邻接状态表,邻接状态表包括一个存储组内各个数据节点的节点标识以及各个数据节点对应的消息计数值,
该数失效检测处理装置包括:
控制模块10,用于控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表;
分布式数据系统中有多个存储组,每个存储组包括多个用于存储数据的数据节点和负责与其它存储组的中心节点进行数据传递的中心节点,每个数据节点在运行时,有唯一对应的节点标识(例如存储组编号+节点编号)。每个存储组的中心节点都存有自己的邻接状态表,该邻接状态表包括了该中心节点所在存储组所有数据节点的节点标识以及每个节点对应的消息计数值,即邻接状态表中每个节点标识对应一个消息计数值,该消息计数值为存储该消息计数值的数据节点接收该消息计数值对应节点标识所对应的数据节点发送响应消息的次数,例如中心节点A存有的邻接状态表中存有一项数据:节点标识010001—消息计数值30,则表示中心节点接收节点标识为010001的数据节点发送的响应消息30次,其中,节点标识010001可标识该数据节点处于编号01存储组,存储组中节点编号为0001。
在分布式数据系统运行时,控制模块10启动各个数据节点,各个数据节点每间隔预设周期(例如1s)向自身所在存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表,即各个中心节点基于接收的响应消息更新邻接状态表中对应节点标识的消息计数值。
例如存储组01、存储组02和存储组03三个存储组,存储组01中包括节点标识为01001、01002、01003三个数据节点,存储组02中包括节点标识为02001、02002、02003三个数据节点,存储组03中包括节点标识为03001、03002、03003三个数据节点,则节点标识为01001、01002、01003三个数据节点每间隔预设周期向存储组01的中心节点发送一次响应消息,同理,节点标识为02001、02002、02003三个数据节点每间隔预设周期向存储组02的中心节点发送一次响应消息,节点标识为03001、03002、03003三个数据节点每间隔预设周期向存储组03的中心节点发送一次响应消息,在经历了一个预设周期后,存储组01的中心节点内存储的邻接状态表中内容为:节点标识01001—消息计数值1,节点标识01002—消息计数值1,节点标识01003—消息计数值1,同理可推知存储组02中心节点和存储组03中心节点内存储的邻接状态表,并且,随着时间的推移,各中心节点中邻接状态表中消息计数值不断累加。
获取模块20,用于定期获取所有中心节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;
分析模块30,用于对参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点。
获取模块20定期获取所有中心节点当前时刻存储的邻接状态表(即参考表),将获取的邻接状态表作为评定数据节点是否失效的参考表。分析模块30对参考表中的数据进行分析,统计各个存储组中所有节点标识的消息计数值保持不变所持续的时长,将消息计数值保持不变所持续的时长大于预设时长的节点标识作为失效节点标识,并将失效节点标识对应的数据节点作为失效数据节点。
在本实施例中,在分布式数据系统启动时,控制模块10控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供存储组的中心节点基于接收的响应消息更新自存的邻接状态表;然后获取模块20定期获取所有中心节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;分析模块30再对参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点,从而通过对参考表中消息计数值的变化状况,并根据数据节点若预设时长未发送响应消息,则判定失效的判断规则,推测各个数据节点的运行情况,从而确定分布式数据系统当前的失效数据节点,让分布式数据系统的维护人员及时了解到哪些数据节点失效,以利于维护人员及时采取措施,进而避免因过多的数据节点失效而导致数据不能正常访问,提高了分布式数据系统数据的可靠性,也减少了维护人员查询、确认失效节点的工作量。
进一步地,在本发明失效检测处理装置第一实施例的基础上,提出失效检测处理装置第二实施例,在第二实施例中,参照图7,失效检测处理装置还包括:
统计模块41,用于统计分布式数据系统中失效数据节点的数量;
系统确定模块42,用于在分布式数据系统中失效数据节点的数量大于第一阈值时,确定分布式系统失效。
在分布式数据系统确定失效数据节点之后,统计模块41定时统计一次分布式数据系统中失效数据节点的数量。预设的第一阈值优选为分布式数据系统中所有可用的数据节点(即未失效的数据节点)总数的一半。分布式数据系统中失效数据节点的数量超过第一阈值时,则认为分布式数据系统的数据传输和访问容易出现异常(不能访问数据或访问的数据不正确等等),分布式数据系统的数据可靠性低,此时系统确定模块42确定分布式数据系统失效,停止运行。
在本实施例中,通过统计模块41对失效数据节点的数量进行统计,在分布式数据系统中的失效数据节点的数量超过第一阈值时,系统确定模块42将分布式数据系统确定为失效,停止分布式数据系统运行,避免分布式数据系统继续运行造成数据丢失和访问数据异常。
更进一步地,系统确定模块42还用于:
在分布式数据系统中失效数据节点的数量小于第二阈值时,确定分布式系统有效,其中第二阈值小于或等于第一阈值。
预设的第二阀值优选为分布式数据系统中数据节点数量的一半,在分布式数据系统中数据节点大部分不可用(即存在大部分失效数据节点)时,则认为该分布式数据系统已不可进行数据传输,系统确定模块42确定该分布式数据系统失效,此时分布式数据系统已经不可用,再对分布式数据系统各存储组的数据节点进行失效检测已经没有了意义。
在分布式数据系统中失效数据节点的数量小于第二阈值时,分布式数据系统才确定为有效,此时对分布式数据系统数据节点的失效检测才有意义。在记录失效数据节点以及确定该分布式数据系统失效之后,可向维护终端(如服务器以及维修人员携带的终端等)发送维护请求,要保证失效数据节点和分布式数据系统及时恢复正常。
进一步地,在本发明失效检测处理方法第一实施例的基础上,提出失效检测处理方法第三实施例,参照图8,在第三实施例中,失效检测处理装置还包括:
软件修复模块51,用于使用预存的正确程序内容对失效数据节点的程序内容进行数据修复;
第一输出模块52,用于在检测到失效数据节点基于进行数据修复后的程序发送的响应消息时,判定失效数据节点发生软件失效,输出第一事件提示。
数据节点的存储空间中一般包括程序内容和数据内容,通常程序内容是固定不变的,数据内容则会随着数据处理的不断发生而改变。在确定分布式数据系统中的失效数据节点之后,软件修复模块51使用预存的正确程序内容对失效数据节点的程序内容进行数据修复,若失效数据节点在基于正确程序内容进行数据修复后,能够向其所在存储组的中心节点发送响应消息,即第一输出模块52检测到失效数据节点基于进行数据修复后的程序发送的响应消息,则判定失效数据节点发生软件失效,向维护终端输出第一事件提示,该第一事件提示用于向维护终端报告失效数据节点是程序软件失效,提示维护人员注意对数据节点进行软件方面的维护,从而为维护人员提供较为准确的失效检测结果,以及自动解决失效数据节点软件方面的失效问题。
更进一步地,参照图9,在本发明失效检测处理方法第四实施例中,失效检测处理装置还包括硬件修复模块53和第二输出模块54,
硬件修复模块53,用于在未检测到失效数据节点基于进行数据修复后的程序发送的响应消息时,复位重启失效数据节点;
第二输出模块54用于:
在检测到复位重启后的失效数据节点发送的响应消息时,判定失效数据节点发生软件失效,输出第一事件提示;
在未检测到复位重启后的失效数据节点发送的响应消息时,判定失效数据节点发生硬件失效,输出第二事件提示。
在对失效数据节点进行软件数据修复之后,若还是未检测到未检测到失效数据节点基于进行数据修复后的程序发送的响应消息,此时可推测失效数据节点出现硬件上问题,则硬件修复模块53复位并重启失效数据节点;若检测到复位重启后的失效数据节点发送的响应消息,表明失效数据节点内部软件程序在运行上出了问题,则第二输出模块54判定失效数据节点发生软件失效,输出第一事件提示;若还是未检测到复位重启后的失效数据节点发送的响应消息,即对失效数据节点进行数据修复和复位重启之后,失效数据节点还是不能正常发送响应消息,则第二输出模块54判定失效数据节点发生硬件失效,输出第二事件提示,该第二事件提示用于向维护终端报告失效数据节点是存储设备硬件失效,提示维护人员注意对失效数据节点进行硬件方面的维护,从而为维护人员提供较为准确的失效检测结果,以便维护人员及时准备数据节点硬件维护所需的工具和耗材。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种分布式数据系统失效检测处理方法,其特征在于,所述分布式数据系统包括多个存储组,每个存储组包括负责存储组间数据传递的中心节点和多个存储数据的数据节点,每个中心节点存有邻接状态表,所述邻接状态表包括一个存储组内各个数据节点的节点标识以及各个数据节点对应的消息计数值,
所述分布式数据系统失效检测处理方法包括:
控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表;
定期获取所有中心节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;
对所述参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点。
2.如权利要求1所述的分布式数据系统失效检测处理方法,其特征在于,在所述对所述参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点的步骤之后还包括:
统计分布式数据系统中失效数据节点的数量;
在分布式数据系统中所述失效数据节点的数量大于第一阈值时,确定所述分布式系统失效。
3.如权利要求2所述的分布式数据系统失效检测处理方法,其特征在于,所述统计分布式数据系统中失效数据节点的数量的步骤之后还包括:
在分布式数据系统中所述失效数据节点的数量小于第二阈值时,确定所述分布式系统有效,其中第二阈值小于或等于第一阈值。
4.如权利要求1至3任意一项所述的分布式数据系统失效检测处理方法,其特征在于,在所述对所述参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点的步骤之后还包括:
使用预存的正确程序内容对所述失效数据节点的程序内容进行数据修复;
若检测到失效数据节点基于进行数据修复后的程序发送的响应消息,则判定所述失效数据节点发生软件失效,输出第一事件提示。
5.如权利要求4所述的分布式数据系统失效检测处理方法,其特征在于,所述使用预存的正确程序内容对所述失效数据节点的程序内容进行数据修复的步骤之后还包括:
若未检测到失效数据节点基于进行数据修复后的程序发送的响应消息,则复位重启所述失效数据节点;
若检测到复位重启后的失效数据节点发送的响应消息,则判定所述失效数据节点发生软件失效,输出第一事件提示;
若未检测到复位重启后的失效数据节点发送的响应消息,则判定所述失效数据节点发生硬件失效,输出第二事件提示。
6.一种分布式数据系统失效检测处理装置,其特征在于,所述分布式数据系统包括多个存储组,每个存储组包括负责存储组间数据传递的中心节点和多个存储数据的数据节点,每个中心节点存有邻接状态表,所述邻接状态表包括一个存储组内各个数据节点的节点标识以及各个数据节点对应的消息计数值,
所述分布式数据系统失效检测处理装置包括:
控制模块,用于控制各个数据节点每间隔预设周期向其所属存储组的中心节点发送响应消息,以供各存储组的中心节点基于接收的响应消息更新自存的邻接状态表;
获取模块,用于定期获取所有中心数据节点当前的邻接状态表,将获取当前的邻接状态表作为参考表;
分析模块,用于对所述参考表进行分析,将消息计数值在预设时长未变动的节点标识所对应的数据节点作为失效数据节点。
7.如权利要求6所述的分布式数据系统失效检测处理装置,其特征在于,所述分布式数据系统失效检测处理装置还包括:
统计模块,用于统计分布式数据系统中失效数据节点的数量;
系统确定模块,用于在分布式数据系统中所述失效数据节点的数量大于第一阈值时,确定所述分布式系统失效。
8.如权利要求7所述的分布式数据系统失效检测处理装置,其特征在于,所述系统确定模块还用于:
在分布式数据系统中所述失效数据节点的数量小于第二阈值时,确定所述分布式系统有效,其中第二阈值小于或等于第一阈值。
9.如权利要求6至8任意一项所述的分布式数据系统失效检测处理装置,其特征在于,所述分布式数据系统失效检测处理装置还包括:
软件修复模块,用于使用预存的正确程序内容对所述失效数据节点的程序内容进行数据修复;
第一输出模块,用于在检测到失效数据节点基于进行数据修复后的程序发送的响应消息时,判定所述失效数据节点发生软件失效,输出第一事件提示。
10.如权利要求9所述的分布式数据系统失效检测处理装置,其特征在于,所述分布式数据系统失效检测处理装置还包括硬件修复模块和第二输出模块,
所述硬件修复模块,用于在未检测到失效数据节点基于进行数据修复后的程序发送的响应消息时,复位重启所述失效数据节点;
所述第二输出模块用于:
在检测到复位重启后的失效数据节点发送的响应消息时,判定所述失效数据节点发生软件失效,输出第一事件提示;
在未检测到复位重启后的失效数据节点发送的响应消息时,判定所述失效数据节点发生硬件失效,输出第二事件提示。
CN201610289605.6A 2016-04-29 2016-04-29 分布式数据系统失效检测处理方法及装置 Pending CN105975212A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610289605.6A CN105975212A (zh) 2016-04-29 2016-04-29 分布式数据系统失效检测处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610289605.6A CN105975212A (zh) 2016-04-29 2016-04-29 分布式数据系统失效检测处理方法及装置

Publications (1)

Publication Number Publication Date
CN105975212A true CN105975212A (zh) 2016-09-28

Family

ID=56993702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610289605.6A Pending CN105975212A (zh) 2016-04-29 2016-04-29 分布式数据系统失效检测处理方法及装置

Country Status (1)

Country Link
CN (1) CN105975212A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102769673A (zh) * 2012-07-25 2012-11-07 楚云汉智武汉网络存储系统有限公司 一种适应于大规模存储集群的失效检测方法
CN103995901A (zh) * 2014-06-10 2014-08-20 北京京东尚科信息技术有限公司 一种确定数据节点失效的方法
CN104158843A (zh) * 2014-07-14 2014-11-19 深圳市中博科创信息技术有限公司 分布式文件存储系统的存储单元失效检测方法及装置
US20160105323A1 (en) * 2014-10-14 2016-04-14 Microsoft Corporation Node identification using clusters

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102769673A (zh) * 2012-07-25 2012-11-07 楚云汉智武汉网络存储系统有限公司 一种适应于大规模存储集群的失效检测方法
CN103995901A (zh) * 2014-06-10 2014-08-20 北京京东尚科信息技术有限公司 一种确定数据节点失效的方法
CN104158843A (zh) * 2014-07-14 2014-11-19 深圳市中博科创信息技术有限公司 分布式文件存储系统的存储单元失效检测方法及装置
US20160105323A1 (en) * 2014-10-14 2016-04-14 Microsoft Corporation Node identification using clusters

Similar Documents

Publication Publication Date Title
CN110430071A (zh) 业务节点故障自愈方法、装置、计算机设备及存储介质
CN105162994B (zh) 呼叫中心话务量故障的检测方法、系统及服务器
US20120278663A1 (en) Operation management apparatus, operation management method, and program storage medium
CN106445781A (zh) 基于消息传递的hpc大规模并行程序异常自动监测及软硬件原因判断的检测系统
CN106161090A (zh) 一种分区集群系统的监测方法及装置
CN112636979B (zh) 一种集群告警方法及相关装置
CN108173672A (zh) 检测故障的方法和装置
CN103154904A (zh) 操作管理设备、操作管理方法和程序
CN110417586A (zh) 服务监控方法、服务节点、服务器及计算机可读存储介质
CN112073250A (zh) 控制器集群故障处理方法、装置、控制器及控制器集群
JP2006039786A (ja) プラントデータ評価システムと方法、復水器真空度監視方法、データマイニング方法、および、プログラム
JP6718367B2 (ja) 判定システム、判定方法、及びプログラム
CN105490837B (zh) 一种网络监控处理方法以及装置
CN108873023A (zh) 一种提高定位精度的观测量的处理方法
CN106385343A (zh) 一种分布式系统下监控客户端的方法及装置、分布式系统
CN104158843B (zh) 分布式文件存储系统的存储单元失效检测方法及装置
CN105975212A (zh) 分布式数据系统失效检测处理方法及装置
CN116260707B (zh) 基于共识的区块链节点灾备方法、装置、设备及存储介质
CN109728869B (zh) 一种自来水管网监测节点间的时间同步系统及其方法
CN117439912A (zh) 一种网络探测方法、相关装置、设备以及可读存储介质
CN110474821A (zh) 节点故障检测方法及装置
CN116737444A (zh) 一种数据库服务器故障处理方法及系统
CN105912446A (zh) 分布式数据系统失效检测处理方法及装置
CN114661506A (zh) 故障隔离方法和故障隔离装置
CN113407432B (zh) 一种评估应用系统健康度的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402

Applicant after: Yongxing Shenzhen Polytron Technologies Inc

Address before: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402

Applicant before: Shenzhen Longrise Technology Co., Ltd.

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication

Application publication date: 20160928

RJ01 Rejection of invention patent application after publication