CN108664346A - 分布式存储系统的节点异常的定位方法、装置和系统 - Google Patents

分布式存储系统的节点异常的定位方法、装置和系统 Download PDF

Info

Publication number
CN108664346A
CN108664346A CN201710189034.3A CN201710189034A CN108664346A CN 108664346 A CN108664346 A CN 108664346A CN 201710189034 A CN201710189034 A CN 201710189034A CN 108664346 A CN108664346 A CN 108664346A
Authority
CN
China
Prior art keywords
node
memory node
information
memory
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710189034.3A
Other languages
English (en)
Inventor
蔡陆滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Fujian Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Fujian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Fujian Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710189034.3A priority Critical patent/CN108664346A/zh
Publication of CN108664346A publication Critical patent/CN108664346A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式存储系统的节点异常的定位方法、装置和系统。该定位方法包括:收集分布式存储系统中存储节点的状态信息;计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。根据本发明实施例提供的定位方法,可以在出现业务异常时快速定位到出现异常的节点。

Description

分布式存储系统的节点异常的定位方法、装置和系统
技术领域
本发明涉及分布式存储系统维护领域,尤其涉及分布式存储系统的节点异常的定位方法。
背景技术
在分布式存储系统中,为保证数据均衡和有效避免热点出现,数据采用全打散的方式存储在系统各个存储节点中。当某个节点的业务处理出现某些非物理硬件故障的异常,例如存储节点CPU被其他程序占满导致输入输出处理异常、某存储节点的磁盘或者固态硬盘出现故障导致输入输出处理很慢、或者某个存储节点的网络出现降速等情况时,将导致整个系统输入输出处理出现异常。
目前在这种分布式系统中定位某个节点出现业务异常时,通常需要专业维护人员,通过查找日志,观察各个节点的CPU、内存以及网络流量等参数,来进行排查分析。但在大规模集群环境下,节点数量可能达到上万个,这些节点会产生巨大的日志量,如果依赖人工方式在巨大的日志量中搜索关键信息,将大大影响问题定位的时间。
发明内容
本发明实施例提供一种分布式存储系统的节点异常的定位方法、装置和系统,可以在出现业务异常时快速定位到异常的节点。
根据本发明实施例的一方面,提供一种分布式存储系统的节点异常的定位方法,该定位方法包括:收集分布式存储系统中存储节点的状态信息;计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。
根据本发明实施例的另一方面,提供一种分布式存储系统的节点异常的定位装置,该定位装置包括:状态信息收集模块,用于收集分布式存储系统中存储节点的状态信息;健康状态评估模块,用于计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;节点异常定位模块,用于根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。
根据本发明实施例的再一方面,提供一种分布式存储系统的节点异常的定位系统,该定位系统包括:存储器、处理器、通信接口和总线;存储器、处理器和通信接口通过总线连接并完成相互间的通信;存储器用于存储程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行一种分布式存储系统的节点异常的定位方法,其中,该分布式存储系统的节点异常的定位方法包括:收集分布式存储系统中存储节点的状态信息;计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。
根据本发明实施例的分布式存储系统的节点异常的定位方法、装置和系统,通过节点间相对值比较的方法进行分布式存储系统节点健康的评估,在节点出现异常的情况下快速进行问题定位。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是示出根据本发明一实施例的分布式存储系统的节点异常的定位方法的流程图;
图2是图1中评估存储节点的健康状态的具体的流程图;
图3是示出根据本发明实施例的根据评估结果定位异常节点的第一示例性流程图;
图4是示出根据本发明实施例的根据评估结果定位异常节点的第二示例性流程图;
图5示出了根据本发明一实施例的分布式存储系统的节点异常的定位装置的结构示意图;
图6示出了图5中节点异常定位模块的具体地结构示意图;
图7是示出了根据本发明另一实施例的分布式存储系统的节点异常的定位装置的结构示意图;
图8是示出能够实现根据本发明实施例的分布式存储系统的节点异常的定位方法和装置的分布式存储系统的节点异常的定位系统的硬件架构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合附图,详细描述根据本发明实施例的分布式存储系统的节点异常的定位方法、装置和系统。应注意,这些实施例并不是用来限制本发明公开的范围。
图1是示出根据本发明实施例的分布式存储系统的节点异常的定位方法的流程图。如图1所示,本实施例中的分布式存储系统的节点异常的定位方法100包括以下步骤:
步骤S110,收集分布式存储系统中存储节点的状态信息。
步骤S120,计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态。
步骤S130,根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。
根据本发明实施例的分布式存储系统的节点异常的定位方法,利用节点相对值比较的方法进行分布式系统存储节点健康评估,出现业务异常时可以快速定位到出现问题的节点,有效避免节点出现问题不能迅速排查到问题节点时造成的业务长时间中断。
在步骤S110中,为了快速定位到某个节点的某个进程出现问题,可以采集存储节点的状态信息。作为示例,存储节点的状态信息包括如下项中的一种或一种以上:存储节点的系统资源使用信息、存储节点的磁盘的输入输出读写信息、存储节点的固态硬盘的输入输出读写信息、存储节点的输入输出类异常信息。
具体地,针对抢占不到物理资源的情况,需要观察存储节点的系统资源使用信息可以包括:存储节点运行的进程数量、CPU使用情况、内存使用情况、节点网卡收发包情况等。
具体地,针对磁盘出现异常,可以观察对比存储节点的磁盘的输入输出读写信息可以包括:该磁盘处理读写数据的数据量、平均处理读写请求的等待时间、磁盘的CPU使用情况等。
具体地,针对固态硬盘出现异常,可以观察对比存储节点的固态硬盘的输入输出读写信息可以包括:该固态硬盘处理读写数据的数据量、平均处理读写请求的等待时间、固态硬盘的CPU使用情况等。
具体地,针对网络出现频繁丢包的情况,可以通过要求业务进程将存储节点的处理异常的输入输出类信息输出到一个日志文件中。
作为记录存储节点输入输出类处理异常信息的一个具体示例,存储节点A发送请求给存储节点B,重发超过5次B都未响应时,记录存储节点A的关于读写的源端信息、目标端信息、以及重试次数,并将记录的这些状态信息输出到统计信息文件中。
在一些实施例中,对存储节点的状态信息进行统计和收集可以使用一些统计生成和收集工具,这些工具可以定期调用系统命令,例如调用top、ps、iostat、sar等系统命令来查询存储节点的状态信息,并将运行上述系统命令得到的查询结构输出到指定的存储目录上。并且,存储节点的业务进程还可以将一些异常输入输入(IO)信息,定期输出到指定的存储目录上。
在另一些实施例中,统计生成和收集工具还可以将记录在指定的存储目录上的统计信息文件,进行压缩打包,并通过FTP将这些压缩打包得到的文件上传到信息汇总节点上。
在一些实施例中,与存储节点的状态信息相对应的,存储节点的健康状态包括如下项中的一种或一种以上:存储节点的系统资源使用信息对应的存储节点的进程健康状态、存储节点的磁盘的输入输出读写信息对应的磁盘的健康状态、存储节点的固态硬盘的输入输出读写信息对应的固态硬盘的健康状态、存储节点的输入输出类异常信息对应的存储节点间网络连接的健康状态。
图2是图1中评估存储节点的健康状态的具体的流程图。如图2所示,在一些实施例中,步骤S120中评估存储节点的健康状态的步骤可以进一步包括:
步骤S121,将存储节点的状态信息汇总到统计信息汇总节点。
步骤S122,在统计信息汇总节点上,根据存储节点的状态信息生成存储节点的分析任务。
在该步骤中,如果存储节点的状态信息是压缩格式,可以将存储节点的状态信息解压缩,并且可以对统计信息汇总节点上存储节点的状态信息定期启动后台分析业务,并生成每个存储节点的分析任务。
步骤S123,采用大数据分析方式,将存储节点的分析任务发送到大数据分析集群,大数据分析集群包括多个分析节点,每个分析节点包括一个或一个以上存储节点的分析任务。
在该步骤中,大数据分析集群是一个单独的集群,根据分析处理的数据量来决定集群的规模,由于存储节点的状态信息的信息量巨大,为了快速完成分析处理工作,可以采用大数据分析方式,将分析任务按存储节点进行分解,分解到大数据分析集群中,最终将得到的分析结果记录到数据库中。
步骤S124,获取大数据分析集群中每个分析节点中的分析任务,根据预设的规则,计算分析任务对应的存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行对比,评估存储节点的健康状态。
作为一个示例,可以根据存储节点运行的进程数量、CPU使用情况和内存使用情况,评估存储节点的进程健康情况。
作为一个示例,可以根据存储节点磁盘的统计信息情况,评估存储节点上磁盘的健康情况,或者根据存储节点上固态硬盘的统计信息情况,评估存储节点上的固态硬盘的健康状态。
作为一个示例,可以根据网卡流量信息和存储业务进程输出的IO异常情况,评估出存储节点间网络连接的健康情况。
在一些实施例中,根据存储节点的进程健康情况、磁盘健康情况、固态硬盘的健康情况或者网络连接的健康情况,综合分析评估后得到该存储节点的健康评估情况。
在一些实施例中,步骤S124中存储节点的状态信息的相对值包括指定数量的存储节点的状态信息的平均值。
为了便于理解,以评估存储节点的系统资源使用信息为例,根据信息汇总节点中存储节点CPU使用情况得到该存储节点的CPU使用情况平均值,将每个存储节点CPU使用情况跟该CPU使用情况平均值进行对比,如果存储节点CPU使用情况超出CPU使用情况平均值达到设定的门限值,则说明该存储节点的CPU使用情况所反馈的系统资源使用信息健康状况不理想。
在另一些实施例中,步骤S124中存储节点的状态信息的相对值还可以是存储节点的状态信息的经验值。存储节点状态信息的经验值可以是维护人员日常对分布式系统维护中,观察总结存储节点业务正常运行时的状态信息,并进行综合评估得到。
作为一个示例,根据存储节点网卡收发包情况统计指定时间段内的接收数据包的数量和发送数据包的数量,如果某个存储节点接收数据包的数量超过接收数据包的数量的平均值越多或超过网络连接正常时存储节点接收数据包的数量经验值越多;或者如果某个存储节点发送数据包的数量超过发送数据包的数量的平均值越多或网络连接正常时存储节点接收数据包的经验值越多,可以反映出该存储节点的网卡收发包情况所反馈的系统资源使用信息健康状况不理想。
在本发明实施例中,由于分布式存储系统的业务情况并不是恒定不变的,而会在不同时间段出现波动,所以本发明实施例没有采用绝对值方式,而是采用相对值的方式评估分布式存储系统的健康状况,符合业务实际运行的情况,提高了健康评估的准确率。
在一些实施例中,可以根据步骤S124中得到的评估信息记录到指定的统计数据库,该统计数据库可以用于存放大数据分析集群的分析结果。
图3是示出根据本发明实施例的根据评估结果定位异常节点的第一示例性流程图。如图3所示,在一些实施例中,步骤S130中根据存储节点的健康状态的评估结果,定位分布式存储系统中的节点异常的步骤具体可以包括:
步骤S301,将存储节点的健康状态的评估结果记录在历史统计信息数据库中。
步骤S302,当分布式存储系统出现周期性业务异常波动时,查询历史统计信息数据中指定时间周期内的存储节点的健康状态的评估结果,定位分布式存储系统中的节点异常。
在该实施例中,当系统维护人员需要查看系统运行情况时,可以从统计数据库中获取存储节点健康评估信息的历史统计信息,维护人员可以对存储节点和网络的健康评估情况进行观察,捕捉到有规律的周期性出现业务异常,并定位到出现问题的节点,从而进一步对原始的统计数据进行分析定位。
在一些实施例中,统计信息汇总单元可以将存储节点的状态信息保留指定的时间,当出现周期性业务异常波动时,根据保留的状态信息的历史数据可以找到出现业务波动的节点。
在另一个实施例中,可以定期清理信息汇总节点中已经提交分析的数据文件,避免数据文件信息过大。
图4是示出根据本发明实施例的根据评估结果定位异常节点的第二示例性流程图。如图4所示,在一些实施例中,步骤S130中根据存储节点的健康状态的评估结果,定位分布式存储系统中的节点异常的步骤具体可以包括:
步骤S401,获取分布式存储系统中存储节点的拓扑信息。
步骤S402,在存储节点的拓扑信息中显示存储节点的健康状态的评估结果,定位分布式存储系统中的节点异常。
在该实施例中,可以通过拓扑信息展现统计数据库中存储节点的当前的健康状态监控评估数据。维护人员在拓扑信息界面中直观的观察到每个存储节点的当前健康状态,快速定位到出问题的节点上。
在该实施例中,系统维护人员需要查看系统运行情况时,可以先从系统的运营管理系统中获取系统安装配置的拓扑信息,再从统计数据库的历史数据中获取存储节点的健康评估结果,将这些评估结果通过形象方式,如通过不同颜色区分,展现在拓扑信息中对应的存储节点上。
维护人员可以通过拓扑中对存储节点和网络的健康评估情况,进行观察,当发现异常的情况下,再对原始的统计数据进行分析定位。
根据本发明实施例的分布式存储系统的节点异常的定位方法,通过记录节点CPU使用率、内存使用率、磁盘或者固态硬盘的输入输出处理情况、网卡流量以及业务异常输入输出记录情况等节点状态信息,使用节点间相对比较方法来对存储节点业务健康情况进行评估,快速定位到出问题的节点,避免人工方式在海量的日志中逐个排查分析,提高效率和准确率。
下面结合附图,描述根据本发明实施例的分布式存储系统的节点异常的定位装置。
图5示出了根据本发明一实施例的分布式存储系统的节点异常的定位装置的结构示意图。如图5所示,分布式存储系统的节点异常的定位装置500包括:
状态信息收集模块510,用于收集分布式存储系统中存储节点的状态信息;健康状态评估模块520,用于计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;节点异常定位模块530,用于根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。
根据本发明实施例的节点异常的定位装置,利用存储节点的状态信息的相对值对存储节点的健康状态进行评估,从而根据评估结果定位异常节点。
在一些实施例中,存储节点的状态信息包括如下项中的一种或一种以上:存储节点的系统资源使用信息、存储节点的磁盘的输入输出读写信息、存储节点的固态硬盘的输入输出读写信息、存储节点的输入输出类异常信息。
在该实施例中,存储节点的健康状态包括如下项中的一种或一种以上:存储节点的系统资源使用信息对应的存储节点的进程健康状态、存储节点的磁盘的输入输出读写信息对应的磁盘的健康状态、存储节点的固态硬盘的输入输出读写信息对应的固态硬盘的健康状态、存储节点的输入输出类异常信息对应的存储节点间网络连接的健康状态。
图6示出了图5中节点异常定位模块的具体的结构示意图。如图6所示,健康状态评估模块520可以进一步包括:
统计信息汇总单元521,用于将存储节点的状态信息汇总到统计信息汇总节点;分析任务生成单元522,用于在统计信息汇总节点上,根据存储节点的状态信息生成存储节点的分析任务;集群分析任务获取单元523,用于采用大数据分析方式,将存储节点的分析任务发送到大数据分析集群,大数据分析集群包括多个分析节点,每个分析节点包括一个或一个以上存储节点的分析任务;节点分析单元524,用于获取大数据分析集群中每个分析节点中的分析任务,根据预设的规则,计算分析任务对应的存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行对比,评估存储节点的健康状态。
通过大数据分析集群的方式对存储节点的状态信息进行分析和信息提取,对于数据来源很多而且数据量大的存储节点的状态信息具有较好的处理速度和响应能力。
图7示出了根据本发明另一实施例的分布式存储系统的节点异常的定位装置的结构示意图,图7与图5中相同或等同的模块使用相同的编号。
如图7所示,分布式存储系统的节点异常的定位装置700基本相同于分布式存储系统的节点异常的定位装置500,不同之处在于,分布式存储系统的节点异常的定位装置700还可以包括:历史信息统计模块540,用于将存储节点的健康状态的评估结果记录在历史统计信息数据库中;节点异常定位模块530还用于当分布式存储系统出现周期性业务异常波动时,查询历史统计信息数据中指定时间周期内的存储节点的健康状态的评估结果,定位分布式存储系统中的节点异常。
在该实施例中,当分布式存储系统出现周期性业务异常波动时,根据历史数据找到出现业务波动的节点。
继续参考图7,分布式存储系统的节点异常的定位装置700还可以包括:拓扑信息获取模块550,用于获取分布式存储系统中存储节点的拓扑信息;拓扑信息显示模块560,用于在存储节点的拓扑信息中显示存储节点的健康状态的评估结果,定位分布式存储系统中的节点异常。
在该实施例中,维护人员通过观察拓扑界面中直观的观察到存储节点的健康状态信息,快速定位到出问题的节点上。
根据本发明实施例的分布式存储系统的节点异常的定位装置,通过节点间相对值比较的方法,可以降低维护人员的专业知识门槛,快速定位出现问题的节点,保障系统的正常运行。
为了便于理解,下面通过一个具体的示例描述根据本发明实施例的分布式存储系统的节点异常的定位方法的运行流程。
在一些实施例中,状态信息收集模块510和统计信息汇总单元521可以被实现为本发明实施例中的统计生成和收集工具,利用统计生成和收集工具在各个存储节点定期收集存储节点的状态信息,这些状态信息例如可以是系统资源使用信息例如CPU占用率等CPU使用情况,磁盘每秒进行读写操作的次数(Input/Output Operations Per Second,简称IOPS)等磁盘的输入输出读写信息、IO时延等存储节点的输入输出类异常信息等,并将这些存储节点的状态信息按照预定的格式,并持久化到文件,并且统计生成和收集工具可以定期将记录有存储节点的状态信息的文件发送到节点异常定位模块的分析任务生成单元522。
分析任务生成单元522根据存储节点的状态信息生成存储节点的分析任务,集群分析任务获取单元523利用大数据分析的方式,将存储节点的分析任务发送到大数据分析集群,节点分析单元524将状态信息与状态信息的相对值进行对比,评估存储节点的健康状态,最终将分析结果写到历史信息统计模块540,例如历史信息统计数据库;
维护人员通过拓扑信息获取模块550查询到每个节点的当前和历史健康状态,并通过拓扑信息显示模块560将从历史信息统计信息数据库中查询出对应的值用于展现给管理员。
根据本发明实施例的分布式存储系统的节点异常的定位装置的其他细节与以上结合图1至图4描述的根据本发明实施例的分布式存储系统的节点异常的定位方法类似,在此不再赘述。
根据本发明实施例的分布式存储系统的节点异常的定位装置的其他细节与以上结合图1至图4描述的根据本发明实施例的分布式存储系统的节点异常的定位方法类似,在此不再赘述。
结合图1至图7描述的根据本发明实施例的分布式存储系统的节点异常的定位方法和定位装置可以由分布式存储系统的节点异常的定位系统来实现。在下述实施例的描述中,可以将分布式存储系统的节点异常的定位系统简称为定位系统。图8是示出能够实现根据本发明实施例的分布式存储系统的节点异常的定位方法和装置的分布式存储系统的节点异常的定位系统的硬件架构示意图。
如图8所示,该定位系统800包括:处理器801、存储器802、通信接口803和总线810,其中,处理器801、存储器802、通信接口803通过总线810连接并完成相互间的通信。
具体地,上述处理器801可以包括中央处理器(CPU),或者特定集成电路(ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器802可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器802可包括HDD、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器或者两个或更多个以上这些的组合。
通信接口803,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线810包括硬件、软件或两者,将定位系统800的部件彼此耦接在一起。在合适的情况下,总线810可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
在一些实施例中,图8所示的定位系统800可以被实现为包括:处理器801、存储器802、通信接口803和总线810。处理器801、存储器802和通信接口803通过总线810连接并完成相互间的通信。存储器802用于存储程序代码;处理器801通过读取存储器802中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行一种分布式存储系统的节点异常的定位方法,其中,该分布式存储系统的节点异常的定位方法包括:收集分布式存储系统中存储节点的状态信息;计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。
根据本发明实施例的节点异常的定位方法、装置和系统,节点异常定位模块可以定期启动分析任务,将统计的存储节点的状态信息从汇总的文件中解析出来;并根据解析出来的信息生成存储节点的分析任务即大数据分析任务,发送到大数据分析集群进行分析处理,大数据分析集群中的节点分析单元利用节点间相对值比较的方法对存储节点的状态信息进行分析,得到对应的存储节点的健康状态评估。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (11)

1.一种分布式存储系统的节点异常的定位方法,其特征在于,所述定位方法包括:
收集分布式存储系统中存储节点的状态信息;
计算所述存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行比较,评估所述存储节点的健康状态;
根据所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的异常节点。
2.根据权利要求1所述的定位方法,其特征在于,
所述存储节点的状态信息包括如下项中的一种或一种以上:所述存储节点的系统资源使用信息、所述存储节点的磁盘的输入输出读写信息、所述存储节点的固态硬盘的输入输出读写信息、所述存储节点的输入输出类异常信息;
所述存储节点的健康状态包括如下项中的一种或一种以上:所述存储节点的系统资源使用信息对应的存储节点的进程健康状态、所述存储节点的磁盘的输入输出读写信息对应的磁盘的健康状态、所述存储节点的固态硬盘的输入输出读写信息对应的固态硬盘的健康状态、所述存储节点的输入输出类异常信息对应的存储节点间网络连接的健康状态。
3.根据权利要求1所述的定位方法,其特征在于,所述计算所述存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行比较,评估所述存储节点的健康状态,包括:
将所述存储节点的状态信息汇总到统计信息汇总节点;
在所述统计信息汇总节点上,根据所述存储节点的状态信息生成所述存储节点的分析任务;
采用大数据分析方式,将所述存储节点的分析任务发送到大数据分析集群,所述大数据分析集群包括多个分析节点,每个分析节点包括一个或一个以上存储节点的分析任务;
获取所述大数据分析集群中每个分析节点中的分析任务,根据预设的规则,计算所述分析任务对应的存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行对比,评估所述存储节点的健康状态。
4.根据权利要求1所述的定位方法,其特征在于,所述根据所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的异常节点,包括:
将所述存储节点的健康状态的评估结果记录在历史统计信息数据库中;
当所述分布式存储系统出现周期性业务异常波动时,查询所述历史统计信息数据中指定时间周期内的存储节点的健康状态的评估结果,定位所述分布式存储系统中的节点异常。
5.根据权利要求1所述的定位方法,其特征在于,所述根据所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的异常节点,包括:
获取分布式存储系统中存储节点的拓扑信息;
在所述存储节点的拓扑信息中显示所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的节点异常。
6.一种分布式存储系统的节点异常的定位装置,其特征在于,所述定位装置包括:
状态信息收集模块,用于收集分布式存储系统中存储节点的状态信息;
健康状态评估模块,用于计算所述存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行比较,评估所述存储节点的健康状态;
节点异常定位模块,用于根据所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的异常节点。
7.根据权利要求6所述的定位装置,其特征在于,
所述存储节点的状态信息包括如下项中的一种或一种以上:所述存储节点的系统资源使用信息、所述存储节点的磁盘的输入输出读写信息、所述存储节点的固态硬盘的输入输出读写信息、所述存储节点的输入输出类异常信息;
所述存储节点的健康状态包括如下项中的一种或一种以上:所述存储节点的系统资源使用信息对应的存储节点的进程健康状态、所述存储节点的磁盘的输入输出读写信息对应的磁盘的健康状态、所述存储节点的固态硬盘的输入输出读写信息对应的固态硬盘的健康状态、所述存储节点的输入输出类异常信息对应的存储节点间网络连接的健康状态。
8.根据权利要求6所述的定位装置,其特征在于,所述健康状态评估模块包括:
统计信息汇总单元,用于将所述存储节点的状态信息汇总到统计信息汇总节点;
分析任务生成单元,用于在所述统计信息汇总节点上,根据所述存储节点的状态信息生成所述存储节点的分析任务;
集群分析任务获取单元,用于采用大数据分析方式,将所述存储节点的分析任务发送到大数据分析集群,所述大数据分析集群包括多个分析节点,每个分析节点包括一个或一个以上存储节点的分析任务;
节点分析单元,用于获取所述大数据分析集群中每个分析节点中的分析任务,根据预设的规则,计算所述分析任务对应的存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行对比,评估所述存储节点的健康状态。
9.根据权利要求6所述的定位装置,其特征在于,所述定位装置还包括:
历史信息统计单元,用于将所述存储节点的健康状态的评估结果记录在历史统计信息数据库中;
所述节点异常定位模块还用于当所述分布式存储系统出现周期性业务异常波动时,查询所述历史统计信息数据中指定时间周期内的存储节点的健康状态的评估结果,定位所述分布式存储系统中的节点异常。
10.根据权利要求6所述的定位装置,其特征在于,所述定位装置还包括:
拓扑信息获取单元,用于获取分布式存储系统中存储节点的拓扑信息;
拓扑信息显示单元,用于在所述存储节点的拓扑信息中显示所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的节点异常。
11.一种分布式存储系统的节点异常的定位系统,其特征在于,所述定位系统包括:
存储器、处理器、通信接口和总线;
所述存储器、所述处理器和所述通信接口通过所述总线连接并完成相互间的通信;
所述存储器用于存储程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行一种分布式存储系统的节点异常的定位方法,其中,所述分布式存储系统的节点异常的定位方法包括:
收集分布式存储系统中存储节点的状态信息;
计算所述存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行比较,评估所述存储节点的健康状态;
根据所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的异常节点。
CN201710189034.3A 2017-03-27 2017-03-27 分布式存储系统的节点异常的定位方法、装置和系统 Pending CN108664346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710189034.3A CN108664346A (zh) 2017-03-27 2017-03-27 分布式存储系统的节点异常的定位方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710189034.3A CN108664346A (zh) 2017-03-27 2017-03-27 分布式存储系统的节点异常的定位方法、装置和系统

Publications (1)

Publication Number Publication Date
CN108664346A true CN108664346A (zh) 2018-10-16

Family

ID=63786207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710189034.3A Pending CN108664346A (zh) 2017-03-27 2017-03-27 分布式存储系统的节点异常的定位方法、装置和系统

Country Status (1)

Country Link
CN (1) CN108664346A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815048A (zh) * 2019-01-31 2019-05-28 新华三技术有限公司成都分公司 数据读取方法、装置及设备
CN110515757A (zh) * 2019-07-26 2019-11-29 北京达佳互联信息技术有限公司 分布式存储系统的信息处理方法、装置、服务器、介质
CN110555009A (zh) * 2019-08-09 2019-12-10 苏州浪潮智能科技有限公司 一种网络文件系统nfs服务的处理方法及装置
CN113407409A (zh) * 2021-06-11 2021-09-17 济南浪潮数据技术有限公司 一种分布式存储系统的节点状态检测方法和装置
CN115686381A (zh) * 2022-12-29 2023-02-03 苏州浪潮智能科技有限公司 存储集群运行状态的预测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309439A (ja) * 2005-04-27 2006-11-09 Fujitsu Ltd フレキシブルクラスタシステム
CN102664961A (zh) * 2012-05-04 2012-09-12 北京邮电大学 MapReduce环境下的异常检测方法
CN103888304A (zh) * 2012-12-19 2014-06-25 华为技术有限公司 一种多节点应用的异常检测方法及相关装置
CN104270268A (zh) * 2014-09-28 2015-01-07 曙光信息产业股份有限公司 一种分布式系统网络性能分析及故障诊断方法
CN106407083A (zh) * 2016-10-26 2017-02-15 华为技术有限公司 故障检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309439A (ja) * 2005-04-27 2006-11-09 Fujitsu Ltd フレキシブルクラスタシステム
CN102664961A (zh) * 2012-05-04 2012-09-12 北京邮电大学 MapReduce环境下的异常检测方法
CN103888304A (zh) * 2012-12-19 2014-06-25 华为技术有限公司 一种多节点应用的异常检测方法及相关装置
CN104270268A (zh) * 2014-09-28 2015-01-07 曙光信息产业股份有限公司 一种分布式系统网络性能分析及故障诊断方法
CN106407083A (zh) * 2016-10-26 2017-02-15 华为技术有限公司 故障检测方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815048A (zh) * 2019-01-31 2019-05-28 新华三技术有限公司成都分公司 数据读取方法、装置及设备
CN109815048B (zh) * 2019-01-31 2022-11-08 新华三技术有限公司成都分公司 数据读取方法、装置及设备
CN110515757A (zh) * 2019-07-26 2019-11-29 北京达佳互联信息技术有限公司 分布式存储系统的信息处理方法、装置、服务器、介质
CN110515757B (zh) * 2019-07-26 2023-05-23 北京达佳互联信息技术有限公司 分布式存储系统的信息处理方法、装置、服务器、介质
CN110555009A (zh) * 2019-08-09 2019-12-10 苏州浪潮智能科技有限公司 一种网络文件系统nfs服务的处理方法及装置
CN110555009B (zh) * 2019-08-09 2023-01-10 苏州浪潮智能科技有限公司 一种网络文件系统nfs服务的处理方法及装置
CN113407409A (zh) * 2021-06-11 2021-09-17 济南浪潮数据技术有限公司 一种分布式存储系统的节点状态检测方法和装置
CN113407409B (zh) * 2021-06-11 2022-06-03 济南浪潮数据技术有限公司 一种分布式存储系统的节点状态检测方法和装置
CN115686381A (zh) * 2022-12-29 2023-02-03 苏州浪潮智能科技有限公司 存储集群运行状态的预测方法及装置

Similar Documents

Publication Publication Date Title
CN108664346A (zh) 分布式存储系统的节点异常的定位方法、装置和系统
US20190311278A1 (en) Application performance analyzer and corresponding method
US10291463B2 (en) Large-scale distributed correlation
US10002144B2 (en) Identification of distinguishing compound features extracted from real time data streams
US10318366B2 (en) System and method for relationship based root cause recommendation
US9298525B2 (en) Adaptive fault diagnosis
CN110502494A (zh) 日志处理方法、装置、计算机设备及存储介质
US10909018B2 (en) System and method for end-to-end application root cause recommendation
US8326971B2 (en) Method for using dynamically scheduled synthetic transactions to monitor performance and availability of E-business systems
WO2014109112A1 (ja) 情報処理システム監視装置、監視方法、及び監視プログラム
CN105488610A (zh) 一种电力应用系统故障实时分析诊断系统及方法
CN109144813B (zh) 一种云计算系统服务器节点故障监控系统及方法
US11144376B2 (en) Veto-based model for measuring product health
JP2008009842A (ja) コンピュータシステムの制御方法及びコンピュータシステム
CN107124289B (zh) 网络日志时间对齐方法、装置及主机
CN102567185B (zh) 一种应用服务器的监控方法
JP2005327261A (ja) 性能監視装置、性能監視方法及びプログラム
JP2019507454A (ja) アプリケーションの実行中に観察される問題の根本原因を特定する方法
WO2011017955A1 (zh) 一种告警数据分析的方法及其系统
JP5677592B2 (ja) データ処理方法、データ処理システム、及びデータ処理装置
CN112052149A (zh) 一种大数据信息采集系统及使用方法
JP2012186667A (ja) ネットワーク障害検出装置、ネットワーク障害検出装置のネットワーク障害検出方法およびネットワーク障害検出プログラム
CN110928750B (zh) 数据处理方法、装置及设备
CN108289035B (zh) 一种直观的网络及业务系统运行状态展现方法及系统
US20110078102A1 (en) System and method for detecting system relationships by correlating system workload activity levels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181016

RJ01 Rejection of invention patent application after publication