CN111953560B - 一种分布式集群故障测试方法及装置 - Google Patents

一种分布式集群故障测试方法及装置 Download PDF

Info

Publication number
CN111953560B
CN111953560B CN202010692471.9A CN202010692471A CN111953560B CN 111953560 B CN111953560 B CN 111953560B CN 202010692471 A CN202010692471 A CN 202010692471A CN 111953560 B CN111953560 B CN 111953560B
Authority
CN
China
Prior art keywords
fault
test
node
testing
configuration file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010692471.9A
Other languages
English (en)
Other versions
CN111953560A (zh
Inventor
张震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010692471.9A priority Critical patent/CN111953560B/zh
Publication of CN111953560A publication Critical patent/CN111953560A/zh
Application granted granted Critical
Publication of CN111953560B publication Critical patent/CN111953560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种分布式集群故障测试方法及装置,各节点实时同步故障测试配置文件;故障测试配置文件内记录各节点的测试顺序因子、测试故障类型;各节点基于测试顺序因子依据测试顺序规则,依次基于对应测试故障类型进行故障测试。本发明无需依次单独对各个节点进行测试,可自动覆盖多个节点的故障测试,极大提高测试效率;各节点依据一定规则进行顺序测试,避免测试时的盲目性,使测试有序高效;且在任意一个节点上修改配置文件均可同步到所有节点,实现分布式、无中心的故障测试集群方案,使测试灵活可控。

Description

一种分布式集群故障测试方法及装置
技术领域
本发明涉及故障测试领域,具体涉及一种分布式集群故障测试方法及装置。
背景技术
当前,不管是私有云还是公有云,计算节点的规模越来越大,500甚至1000以上的计算集群越来越多,因此,对系统整体的健壮性、高可用性要求越来越高,为了提升产品的竞争力,势必要有足够的保障,最大限度的降低产品故障的可能性,因此,需要及时对节点进行故障测试,以及时发现问题。但现有的故障测试仅支持各个节点单独进行故障测试,不支持集群部署,无法自动完成集群的故障测试,导致分布式集群的测试过程费时费力,测试效率低。
发明内容
为解决上述问题,本发明提供一种分布式集群故障测试方法及装置,分布式集群各节点之间相互联系,自动完成集群内多个节点的故障测试,提高测试效率。
本发明的技术方案是:一种分布式集群故障测试方法,包括以下步骤:
各节点实时同步故障测试配置文件;故障测试配置文件内记录各节点的测试顺序因子、测试故障类型;
各节点基于测试顺序因子依据测试顺序规则,依次基于对应测试故障类型进行故障测试。
进一步地,所述测试顺序因子为测试权重;测试顺序规则为依据各节点的测试权重进行测试优先级排序,测试权重越高,测试优先级越高;
其中,测试权重的影响因素包括节点启动时间和故障解除成功次数;节点启动时间越长,测试权重越大;故障解除成功一次,测试权重相应降低,否则测试权重升高。
进一步地,故障测试配置文件内还记录节点当前的故障状态;
某节点的故障发生后,该节点修改故障测试配置文件内该节点的故障状态为“故障”;该节点的故障解除后,该节点修改故障测试配置文件内该节点的故障状态为“正常”。
进一步地,各节点实时同步故障测试配置文件具体为:各节点根据故障测试进程和结果对故障测试配置文件修改后,实时将最新的故障测试配置文件同步到所有节点;
各节点基于测试顺序因子依据测试顺序规则,依次基于对应测试故障类型进行故障测试,具体为:各节点接收到最新的故障测试配置文件时,基于测试权重进行测试优先级排序,优先级最高的节点基于对应测试故障类型进行故障测试。
进一步地,故障状态为“正常”的节点参与测试优先级排序。
进一步地,故障测试配置文件中还记录各故障类型对应的节点恢复成功的条件;
当某节点的故障解除后,检查是否满足节点恢复成功的条件,若满足则将故障测试配置文件内该节点的故障状态为“正常”;若不满足,则发出故障告警。
进一步地,该方法还包括:
在第一个启动故障测试程序的节点上手动配置故障测试配置文件;
非第一个启动故障测试程序的节点,同步其他已启动故障测试程序节点上的故障测试配置文件。
进一步地,故障类型包括系统的假死、软关机、软重启、硬重启、CPU高负载、内存空间不足、磁盘空间不足、网络延迟高、网络抖动大。
本发明的技术方案还包括一种分布式集群故障测试装置,配置于各节点,包括,
文件同步模块:与其他节点实时同步故障测试配置文件;故障测试配置文件内记录各节点的测试顺序因子、测试故障类型;
节点选举模块:基于测试顺序因子依据测试顺序规则选出进行故障测试的节点;
故障测试模块:基于对应测试故障类型进行故障测试;
文件修改模块:根据测试进程和结果修改故障测试配置文件内的对应内容。
进一步地,所述测试顺序因子为测试权重;测试顺序规则为依据各节点的测试权重进行测试优先级排序,测试权重越高,测试优先级越高;
其中,测试权重的影响因素包括节点启动时间和故障解除成功次数;节点启动时间越长,测试权重越大;故障解除成功一次,测试权重相应降低,否则测试权重升高。
本发明提供的一种分布式集群故障测试方法及装置,在各节点实时同步故障测试配置文件,故障测试配置文件内记录各节点的测试顺序规则、测试故障类型,各节点依据测试顺序规则依次基于对应测试故障类型进行测试,无需依次单独对各个节点进行测试,可自动覆盖多个节点的故障测试,极大提高测试效率;各节点依据一定规则进行顺序测试,避免测试时的盲目性,使测试有序高效;且在任意一个节点上修改配置文件均可同步到所有节点,实现分布式、无中心的故障测试集群方案,使测试灵活可控。
附图说明
图1是本发明具体实施例一方法流程示意图。
图2是本发明具体实施例二结构示意框图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
本实施例提供一种分布式集群故障测试方法,通过配置文件分发同步实现故障测试节点集群,使各节点相互联系,依据测试顺序规则自动完成各节点的故障测试,实现分布式、无中心的故障测试集群方案,在任何一个节点修改配置都可以同步到集群中所有节点,测试灵活方便,且测试效率高。
如图1所示,本发明具体包括以下步骤:
SS1,各节点实时同步故障测试配置文件;故障测试配置文件内记录各节点的测试顺序因子、测试故障类型;
SS2,各节点基于测试顺序因子依据测试顺序规则,依次基于对应测试故障类型进行故障测试。
本实施例中,测试顺序因子为测试权重;测试顺序规则为依据各节点的测试权重进行测试优先级排序,测试权重越高,测试优先级越高。
根据经验,运行时间越久的设备,发生故障的概率越高,因此,将节点启动时间作为测试权重的影响因素。相应的,在故障解除后,发送故障的概率降低,因此,将故障解除成功次数也作为影响测试权重的因素。具体的,节点启动时间越长,测试权重越大;故障解除成功一次,测试权重相应降低,否则测试权重升高。例如,运行30天权重加2,故障成功恢复一次权重减1。测试权重越高的节点,发生故障的概率也越高,因此,设置在测试权重高的节点上优先制造故障。需要说明的是,也可根据需要设置其他测试顺序规则或者权重影响因素,以避免测试的盲目性,使测试有序进行。
本实施例中,故障测试配置文件内还记录节点当前的故障状态。某节点进行故障测试,故障发生后,该节点修改故障测试配置文件内该节点的故障状态为“故障”;该节点的故障解除后,该节点修改故障测试配置文件内该节点的故障状态为“正常”。
需要说明的是,故障测试配置文件中还记录各故障类型对应的节点恢复成功的条件(如一个进程列表,只要列表中的进程启动成功,则表示节点恢复成功)。当某节点的故障解除后,检查是否满足节点恢复成功的条件,若满足,则将故障测试配置文件内该节点的故障状态为“正常”;若不满足,则发出故障告警(告警方式采取邮件通知、测试平台弹窗提醒等)。
故障状态更新为“正常”时,表示故障解除成功一次,相应测试权重降低。当故障解除后,不满足节点恢复成功的条件,则相应测试权重升高。
故障类型包括系统的假死、软关机、软重启、硬重启、CPU高负载、内存空间不足、磁盘空间不足、网络延迟高、网络抖动大。本方法可实现多种故障类型的测试。
本实施例中,某节点测试权重更新或测试状态变更时,都会更新故障测试配置文件,此时需要将更新的故障测试配置文件分发同步的其他所有节点,以继续后续节点测试。即各节点实时同步最新的故障测试配置文件。需要说明的是,也可人为手动在任意节点更改故障测试配置文件,如更改某节点的测试类型,增加新的节点等,人为更改的故障测试配置文件也作为最新的故障测试配置文件同步到各个节点。
故障测试配置文件更新后,各节点进行测试权重排序,选出测试权重最高的节点进行故障测试。需要说明的是,故障状态为“正常”的节点参与测试优先级排序,处于“故障”状态的节点不再进行发生故障。
本实施例通过在各节点启动故障测试程序执行该方法,对于第一个启动故障测试程序的节点,工作人员可手动在该节点上配置故障测试配置文件,预填配置信息。第一个启动故障测试程序的节点,通过在局域网中广播自己的启动时间,判断其是第一个启动节点,则使用当前的故障测试配置文件进行故障测试。对于其他非第一个启动故障测试程序的节点,判断自身非第一个启动节点,则同步其他节点的故障配置文件,加入分布式故障测试集群进行测试。
为进一步理解本发明,以下基于上述步骤,结合本发明原理,提供一具体实施方式。包括以下步骤:
S1,预先在各节点上布置故障测试程序,在某个节点上配置故障测试配置文件;
该程序为一启动测试的程序,可以是指令或脚本等,启动该故障测试程序,即执行下述流程。
其中,故障测试配置文件内记录所有待测目标节点的测试顺序因子、测试故障类型、故障状态、各故障类型对应的节点恢复成功的条件。需要说明的是,可将所有节点的原始故障状态设置为正常。
测试顺序因子为测试权重;测试顺序规则为依据各节点的测试权重进行测试优先级排序,测试权重越高,测试优先级越高。测试权重的影响因素包括节点启动时间和故障解除成功次数;节点启动时间越长,测试权重越大;故障解除成功一次,测试权重相应降低,否则测试权重升高。
S2,在步骤S1中配置故障测试配置文件的节点上启动故障测试程序;该节点判断出其是第一个启动故障测试程序的节点,则使用当前的故障测试配置文件进行故障测试。
S3,启动其他节点上的故障测试程序,被启动的节点判断出其不是第一个启动故障测试程序的节点,则同步其他已启动节点上的配置文件,加入分布式故障测试集群进行故障测试;
需要说明的是,在最初的配置故障测试配置文件中可包含新被启动节点的相关信息,也可在其他已启动的节点上更改故障测试配置文件,添加进需新启动节点的信息。
其中,被启动的节点判断其是否为第一个启动故障测试程序的依据是在局域网中广播自己的启动时间,如果没有启动比自己早的节点,那么自己就是第一个启动的,否则不是第一个启动的。
多个节点被启动故障测试程序时,测试过程包括以下过程:
进行故障测试的节点基于其运行状态更新故障测试配置文件(故障状态更新和测试权重更新)时,将更新的故障测试配置文件分发同步的其他所有节点;
各个节点接收到最新的故障测试配置文件时,选出测试权重最高,且故障状态处于“正常”的节点进行故障测试;
故障发生后,更新故障测试配置文件内该节点的故障状态为“故障”;
当故障测试完,故障解除后,根据故障测试配置文件内对应的该节点的节点恢复成功的条件判断其是否故障解除成功,若成功,则更新故障测试配置文件内该节点的故障状态为“正常”,同时降低其测试权重;否则,发出故障告警,提高其测试权重。
实施例二
如图2所示,基于实施例一,本实施例提供一种分布式集群故障测试装置,配置于各节点,包括以下功能模块。
文件同步模块101:与其他节点实时同步故障测试配置文件;故障测试配置文件内记录各节点的测试顺序因子、测试故障类型;
节点选举模块102:基于测试顺序因子依据测试顺序规则选出进行故障测试的节点;
故障测试模块103:基于对应测试故障类型进行故障测试;
文件修改模块104:根据测试进程和结果修改故障测试配置文件内的对应内容。
故障测试配置文件内记录的测试顺序因子为测试权重;测试顺序规则为依据各节点的测试权重进行测试优先级排序,测试权重越高,测试优先级越高。其中,测试权重的影响因素包括节点启动时间和故障解除成功次数;节点启动时间越长,测试权重越大;故障解除成功一次,测试权重相应降低,否则测试权重升高。
另外,故障测试配置文件内记录内还记录各节点的故障状态,故障发生时更新故障状态为“故障”,故障解除成功后更新故障状态为“正常”。
故障测试进行过程中,故障测试配置文件被不断更新,各节点实时同步最新的故障测试文件。
在各节点接收到最新的故障测试文件时,故障状态为“正常”的节点选出测试权重最高的节点进行故障测试。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (7)

1.一种分布式集群故障测试方法,其特征在于,包括以下步骤:
各节点实时同步故障测试配置文件;故障测试配置文件内记录各节点的测试顺序因子、测试故障类型;
各节点基于测试顺序因子依据测试顺序规则,依次基于对应测试故障类型进行故障测试;
所述测试顺序因子为测试权重;测试顺序规则为依据各节点的测试权重进行测试优先级排序,测试权重越高,测试优先级越高;
其中,测试权重的影响因素包括节点启动时间和故障解除成功次数;节点启动时间越长,测试权重越大;故障解除成功一次,测试权重相应降低,否则测试权重升高;
各节点实时同步故障测试配置文件具体为:各节点根据故障测试进程和结果对故障测试配置文件修改后,实时将最新的故障测试配置文件同步到所有节点;
各节点基于测试顺序因子依据测试顺序规则,依次基于对应测试故障类型进行故障测试,具体为:各节点接收到最新的故障测试配置文件时,基于测试权重进行测试优先级排序,优先级最高的节点基于对应测试故障类型进行故障测试。
2.根据权利要求1所述的分布式集群故障测试方法,其特征在于,故障测试配置文件内还记录节点当前的故障状态;
某节点的故障发生后,该节点修改故障测试配置文件内该节点的故障状态为“故障”;该节点的故障解除后,该节点修改故障测试配置文件内该节点的故障状态为“正常”。
3.根据权利要求2所述的分布式集群故障测试方法,其特征在于,故障状态为“正常”的节点参与测试优先级排序。
4.根据权利要求3所述的分布式集群故障测试方法,其特征在于,故障测试配置文件中还记录各故障类型对应的节点恢复成功的条件;
当某节点的故障解除后,检查是否满足节点恢复成功的条件,若满足则将故障测试配置文件内该节点的故障状态为“正常”;若不满足,则发出故障告警。
5.根据权利要求1-4任一项所述的分布式集群故障测试方法,其特征在于,该方法还包括:
在第一个启动故障测试程序的节点上手动配置故障测试配置文件;
非第一个启动故障测试程序的节点,同步其他已启动故障测试程序节点上的故障测试配置文件。
6.根据权利要求1-4任一项所述的分布式集群故障测试方法,其特征在于,故障类型包括系统的假死、软关机、软重启、硬重启、CPU高负载、内存空间不足、磁盘空间不足、网络延迟高、网络抖动大。
7.一种分布式集群故障测试装置,其特征在于,配置于各节点,包括,
文件同步模块:与其他节点实时同步故障测试配置文件;故障测试配置文件内记录各节点的测试顺序因子、测试故障类型;
节点选举模块:基于测试顺序因子依据测试顺序规则选出进行故障测试的节点;
故障测试模块:基于对应测试故障类型进行故障测试;
文件修改模块:根据测试进程和结果修改故障测试配置文件内的对应内容;
所述测试顺序因子为测试权重;测试顺序规则为依据各节点的测试权重进行测试优先级排序,测试权重越高,测试优先级越高;
其中,测试权重的影响因素包括节点启动时间和故障解除成功次数;节点启动时间越长,测试权重越大;故障解除成功一次,测试权重相应降低,否则测试权重升高;
与其他节点实时同步故障测试配置文件具体为:各节点根据故障测试进程和结果对故障测试配置文件修改后,实时将最新的故障测试配置文件同步到所有节点;
基于测试顺序因子依据测试顺序规则选出进行故障测试的节点具体为:各节点接收到最新的故障测试配置文件时,基于测试权重进行测试优先级排序,选出优先级最高的节点。
CN202010692471.9A 2020-07-17 2020-07-17 一种分布式集群故障测试方法及装置 Active CN111953560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010692471.9A CN111953560B (zh) 2020-07-17 2020-07-17 一种分布式集群故障测试方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010692471.9A CN111953560B (zh) 2020-07-17 2020-07-17 一种分布式集群故障测试方法及装置

Publications (2)

Publication Number Publication Date
CN111953560A CN111953560A (zh) 2020-11-17
CN111953560B true CN111953560B (zh) 2022-02-25

Family

ID=73340170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010692471.9A Active CN111953560B (zh) 2020-07-17 2020-07-17 一种分布式集群故障测试方法及装置

Country Status (1)

Country Link
CN (1) CN111953560B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112783769A (zh) * 2021-01-19 2021-05-11 深圳市莫廷影像技术有限公司 一种自定义的自动化软件测试方法
CN115080438B (zh) * 2022-06-28 2023-11-28 中电金信软件有限公司 一种可用性测试方法、装置、电子设备及存储介质
CN116743550B (zh) * 2023-08-11 2023-12-29 之江实验室 一种分布式存储集群的故障存储节点的处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06265596A (ja) * 1993-03-16 1994-09-22 Fujitsu Ltd 多機能デバイス試験方法
CN106874159A (zh) * 2016-12-30 2017-06-20 北京同有飞骥科技股份有限公司 一种集群式自动化测试方法
CN109725249A (zh) * 2019-01-31 2019-05-07 安庆师范大学 一种测试流程动态调整方法及调整系统
CN111124724A (zh) * 2019-11-15 2020-05-08 苏州浪潮智能科技有限公司 一种分布式块存储系统的节点故障测试方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11132288B2 (en) * 2018-04-26 2021-09-28 EMC IP Holding Company LLC Data-driven scheduling of automated software program test suites

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06265596A (ja) * 1993-03-16 1994-09-22 Fujitsu Ltd 多機能デバイス試験方法
CN106874159A (zh) * 2016-12-30 2017-06-20 北京同有飞骥科技股份有限公司 一种集群式自动化测试方法
CN109725249A (zh) * 2019-01-31 2019-05-07 安庆师范大学 一种测试流程动态调整方法及调整系统
CN111124724A (zh) * 2019-11-15 2020-05-08 苏州浪潮智能科技有限公司 一种分布式块存储系统的节点故障测试方法及装置

Also Published As

Publication number Publication date
CN111953560A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111953560B (zh) 一种分布式集群故障测试方法及装置
CN103580915B (zh) 集群系统中确定主控节点的方法及装置
CN106533753B (zh) 一种分布式系统的角色配置方法及装置
CN107566165B (zh) 一种发现及部署电力云数据中心可用资源的方法及系统
CN111901422B (zh) 一种集群中节点的管理方法、系统及装置
CN106095911A (zh) 搜索系统及数据同步方法
CN110399152A (zh) 一种设备系统双备份升级方法及装置
CN113051110A (zh) 集群切换方法、装置及设备
CN111104260A (zh) 服务升级的监测方法、装置、服务器及存储介质
CN113031979A (zh) 一种基于galaxy框架配置分离装置及实现方法
CN111158956A (zh) 一种集群系统的数据备份方法及相关装置
CN109039781B (zh) 一种网络设备故障诊断方法、执行节点、服务器和系统
US11797291B2 (en) Software update management device and software update management method
JPH08503343A (ja) ネットワーク構成
CN115421891A (zh) 一种任务分发方法、装置、设备及介质
CN115617452A (zh) 虚拟机批量安装时的调度方法及装置
CN112231142B (zh) 系统备份恢复方法、装置、计算机设备和存储介质
CN111400107B (zh) 一种数据库多主集群的自启恢复系统及方法
CN111324513B (zh) 一种人工智能开发平台的监控管理方法及系统
CN114372799A (zh) 一种平行链系统及其共识方法、设备及储存介质
CN114297182A (zh) 一种工业模型数据管理方法、装置、设备及可读存储介质
CN113157476A (zh) 虚拟云环境中显卡故障的处理方法及装置
CN114096947A (zh) 更新多个风力涡轮机设备的软件和/或固件
CN115543585B (zh) 企业号卡数据同步方法、服务器及存储介质
CN110113395A (zh) 共享文件系统维护方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant