CN110365520B - 分布式系统中节点的巡检方法、装置及设备 - Google Patents

分布式系统中节点的巡检方法、装置及设备 Download PDF

Info

Publication number
CN110365520B
CN110365520B CN201910517784.8A CN201910517784A CN110365520B CN 110365520 B CN110365520 B CN 110365520B CN 201910517784 A CN201910517784 A CN 201910517784A CN 110365520 B CN110365520 B CN 110365520B
Authority
CN
China
Prior art keywords
node
current seed
seed node
type
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910517784.8A
Other languages
English (en)
Other versions
CN110365520A (zh
Inventor
李智勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Fortune Shanghai Financial Information Service Co ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910517784.8A priority Critical patent/CN110365520B/zh
Publication of CN110365520A publication Critical patent/CN110365520A/zh
Application granted granted Critical
Publication of CN110365520B publication Critical patent/CN110365520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例提供一种分布式系统中节点的巡检方法、装置及设备,本说明书实施例从分布式系统的节点中将指定起点节点确定为当前种子节点后,循环执行对当前种子节点进行异常检测和处理,并且将当前种子节点的下游节点确定为当前种子节点的过程,从而实现在不知道节点结构的情况下,依据当前节点是否有下游节点自动对每个节点进行异常检测和处理,提高灵活性并且降低集中管理的复杂性。

Description

分布式系统中节点的巡检方法、装置及设备
技术领域
本说明书涉及信息监测技术领域,尤其涉及分布式系统中节点的巡检方法、装置及设备。
背景技术
随着互联网的快速发展,促进了互联网业务系统的不断改进和发展,为人们的生活带来极大的便利。为用户提供互联网业务的软件系统,在设计、开发和维护过程中,需要各种机制去保障系统正确运行,特别是对分布式系统中各节点的异常检测和处理。例如,节点配置有限制条件,可以通过判断限制条件是否满足来判断该节点是否异常,并对异常结果进行相应的处理。为了避免用户使用时才发现分布式系统所提供的业务不可用,亟需一种能对节点进行异常检测和处理的手段。
发明内容
为克服相关技术中存在的问题,本说明书提供了分布式系统中节点的巡检方法、装置及设备。
根据本说明书实施例的第一方面,提供一种分布式系统中节点的巡检方法,所述分布式系统包括多个节点,针对不同的节点类型,预先构建与节点类型对应的巡检器,所述方法包括:
从分布式系统的节点中,将指定起点节点确定为当前种子节点;
获得当前种子节点的节点类型;
从预构建的巡检器中,获取与当前种子节点的节点类型对应的巡检器;
利用所获取的巡检器对当前种子节点进行异常检测和处理;
在当前种子节点存在下游节点的情况下,将下游节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。
在一个实施例中,所述巡检器包括检测策略和处理策略,所述利用所获取的巡检器对当前种子节点进行异常检测和处理,包括:
获得当前种子节点配置的限制条件、以及当前种子节点中与所述限制条件对应的当前信息;
基于所述检测策略判断所述当前信息是否使限制条件满足,获得检测结果;
按照所述检测结果对应的处理策略进行异常处理。
在一个实施例中,所述获得当前种子节点的节点类型,包括:从巡检消息中获得当前种子节点的节点类型;
所述将下游节点确定为当前种子节点包括:将携带有下游节点的节点类型的消息确定为巡检消息。
在一个实施例中,所述方法还包括:
若新增或更改目标业务的节点,且新增或更改的节点属于新的节点类型,则构建与新的节点类型对应的巡检器。
在一个实施例中,当前种子节点的检查和处理步骤是在:当前种子节点在其对应的巡检疲劳度时间内没有被检查和处理过的情况下执行,所述方法还包括:
判断当前种子节点是否在其预置的巡检疲劳度时间内已被检查和处理过,若是,将当前种子节点的下游节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。
在一个实施例中,当前种子节点的检查和处理步骤是在:当前种子节点不是已检测节点路径中的节点的情况下执行;所述已检测节点路径在每次利用巡检器进行检测和处理后更新。
在一个实施例中,所述指定起点节点为业务的种子节点,所述分布式系统包括至少两个种子节点,所述方法还包括:
若当前种子节点不存在下游节点,将未进行异常检测和处理的种子节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。
根据本说明书实施例的第二方面,提供一种分布式系统中节点的巡检装置,所述分布式系统包括多个节点,针对不同的节点类型,预先构建与节点类型对应的巡检器,所述装置包括:
节点确定模块,用于从分布式系统的节点中,将指定起点节点确定为当前种子节点;
类型获得模块,用于获得当前种子节点的节点类型;
巡检器获取模块,用于从预构建的巡检器中,获取与当前种子节点的节点类型对应的巡检器;
检测和处理模块,用于利用所获取的巡检器对当前种子节点进行异常检测和处理;
节点确定模块,还用于在当前种子节点存在下游节点的情况下,将下游节点确定为当前种子节点,并通知类型获得模块执行获得当前种子节点的节点类型的步骤。
在一个实施例中,所述装置还包括疲劳判断模块,用于判断当前种子节点是否在其预置的巡检疲劳度时间内已被检查和处理过,若否,通知类型获得模块执行获得当前种子节点的节点类型的步骤,若是,通知节点确定模块执行将当前种子节点的下游节点确定为当前种子节点的步骤。
在一个实施例中,当前种子节点的检查和处理步骤是在:当前种子节点不是已检测节点路径中的节点的情况下执行;所述已检测节点路径在每次利用巡检器进行检测和处理后更新。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如上所述方法。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本实施例从分布式系统的节点中将指定起点节点确定为当前种子节点后,循环执行对当前种子节点进行异常检测和处理,并且将当前种子节点的下游节点确定为当前种子节点的过程,从而实现在不知道节点结构的情况下,依据当前节点是否有下游节点自动对每个节点进行异常检测和处理,提高灵活性并且降低集中管理的复杂性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1以树形拓扑为例示意出一种分布式系统中节点结构示意图。
图2是本说明书根据一示例性实施例示出的一种分布式系统中节点的巡检方法的流程图。
图3是本说明书根据一示例性实施例示出的两种节点结构示意图。
图4是本说明书根据一示例性实施例示出的另一种分布式系统中节点的巡检方法的流程图。
图5是本说明书分布式系统中节点的巡检装置所在计算机设备的一种硬件结构图。
图6是本说明书根据一示例性实施例示出的一种分布式系统中节点的巡检装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
分布式系统包括多个提供指定服务的节点,多个具有关联的节点可以实现一个完整业务。分布式系统可以实现一种或多种业务。巡检,即检查分布式系统中各个节点(服务模块),以保证各个节点运行的正确性。为了对分布式系统中节点进行异常检测和处理,可以分析出分布式系统中节点结构,然后依据节点结构对每个节点进行异常检测和处理。而实际应用中,分布式系统中节点结构往往是复杂的拓扑结构,例如,可以是总线型拓扑、星型拓扑、环形拓扑、树形拓扑等结构。如图1所示,以树形拓扑为例示意出一种分布式系统中节点结构示意图。并且,基于任一业务需求而更新节点时,都需要重新梳理并维护节点结构,集中进行图库管理,复杂性高,占用较多资源。
本说明书提供一种分布式系统中节点的巡检方案,从分布式系统的节点中将指定起点节点确定为当前种子节点后,循环执行对当前种子节点进行异常检测和处理,并且将当前种子节点的下游节点确定为当前种子节点的过程,从而实现在不知道节点结构的情况下,依据当前节点是否有下游节点自动对每个节点进行异常检测和处理,提高灵活性并且降低集中管理的复杂性。
如图2所示,是本说明书根据一示例性实施例示出的一种分布式系统中节点的巡检方法的流程图,所述分布式系统包括多个节点,针对不同的节点类型,预先构建与节点类型对应的巡检器,所述方法包括:
在步骤202中,从分布式系统的节点中,将指定起点节点确定为当前种子节点;
在步骤204中,获得当前种子节点的节点类型;
在步骤206中,从预构建的巡检器中,获取与当前种子节点的节点类型对应的巡检器;
在步骤208中,利用所获取的巡检器对当前种子节点进行异常检测和处理;
在步骤210中,在当前种子节点存在下游节点的情况下,将下游节点确定为当前种子节点,并返回步骤204。
本实施例提供的分布式系统中节点的巡检方法可以通过软件执行,也可以通过软件和硬件相结合或者硬件执行的方式实现,所涉及的硬件可以由两个或多个物理实体构成,也可以由一个物理实体构成。本实施例方法可以应用于具有处理能力的电子设备。
分布式系统可以包括多个节点,任一节点可以与另一个节点存在关联关系,多个具有关联关系的节点可以构成链路,以实现某种业务。虽然没有一个节点能管控整个节点结构,但每个节点可以配置有关于其下游节点的下游信息,可以依据下游信息判断该节点是否有下游节点,从而在存在下游节点时对下游节点进行异常检测和处理,从而提高灵活性并且降低集中管理的复杂性。
从分布式系统的节点中,将指定起点节点确定为当前种子节点。其中指定起点节点可以默认是业务的种子节点,种子节点可以是实现业务的所有节点中的起始节点。以业务所对应节点结构为树结构为例,种子节点是指根节点。指定起点节点也可以是基于设置命令确定的节点,可以实现巡检过程中,由任意节点发起重试。在一个实施例中,指定起点节点为种子节点,可以实现对节点异常检测和处理的全面性。某些场景中,可能仅存在一个指定起点节点,则在步骤208中判定当前种子节点不存在下游节点时,结束巡检过程。而某些场景中,可能存在多个指定起点节点的情况,为此,在另一个实施例中,可以在步骤208中判定当前种子节点不存在下游节点时,将下一个指定起点节点确定为当前种子节点。以指定起点节点为业务的种子节点为例,若分布式系统中包括至少两个种子节点,所述方法还包括:若当前种子节点不存在下游节点,将未进行异常检测和处理的种子节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。该实施例将所有种子节点及其下游节点进行异常检测和处理后,可以实现对分布式系统中整个拓扑网络巡检完成。
在本说明书实施例中,可以预先构建与节点类型对应的巡检器,同一巡检器用于对同节点类型的节点进行异常检测和处理。
关于节点类型,在一个例子中,可以是依据节点所提供的服务而划分的类型。例如,提供相同服务的节点可以被划分为同一类型。为此,节点类型也可以称为服务类型或子业务类型等。在某些场景中,可能存在提供不同服务的节点能利用相同巡检器进行异常检测和处理的情况,为此,在另一个例子中,节点类型也可以是依据节点是否能利用相同的巡检器进行异常检测和处理而划分的类型。在该例子中,能利用相同巡检器进行异常检测和处理的节点可能提供相同服务,也可能提供不同服务,相应的,同一节点类型的节点可能提供相同服务,也可能提供不同服务,从而减少巡检器的数量。
关于巡检器,可以是对节点进行异常检测和处理的策略。异常检测,可以是检测节点是否异常,异常处理,可以是检测到节点异常后对节点进行处理。示例的,巡检器可以包括检测策略和处理策略,通过检测策略检测节点是否异常,通过处理策略对异常节点进行处理。针对不同的应用场景和业务需求,可以配置不同的检测策略和处理策略以对节点进行异常检测和处理。节点异常,可以是由其提供的服务能否实现或节点功能是否正常来判断。在一个例子中,以节点配置有限制条件为例,可以通过判断限制条件是否满足来判断节点提供的服务能否实现,即通过判断限制条件是否满足来判断节点是否异常。示例的,所述利用所获取的巡检器对当前种子节点进行异常检测和处理,可以包括:
获得当前种子节点配置的限制条件、以及当前种子节点中与所述限制条件对应的当前信息;
基于所述检测策略判断所述当前信息是否使限制条件满足,获得检测结果;
按照所述检测结果对应的处理策略进行异常处理。
其中,限制条件可以是当前种子节点正常运行时所需条件。在限制条件满足的情况下,才判定该当前种子节点能正常提供相应服务,否则,节点处于异常状态。与限制条件对应的当前信息可以是进行限制条件判断时所需信息、且该信息是当前种子节点在当前阶段的信息,以便利用当前信息判断限制条件是否满足。以投放营销活动的业务为例,所述分布式系统可以为投放营销活动的系统。活动节点配置有开始时间、结束时间、库存、参与人员等限制条件,活动奖品节点配置有奖品金额、使用范围等限制条件。在当前种子节点为活动节点时,可以根据当前时间是否在开始时间和结束时间范围内,可以根据当前库存是否为0等,从而判断活动节点是否异常。在活动节点异常时,可以停止活动节点所提供的服务,将该活动的投放业务下线,或者是对于错误的营销活动快速报错等。从而可以避免营销活动投放给用户后,由于用户无法参与导致转化效果不达预期,甚至出现投诉等情况。
在一个例子中,不仅利用巡检器对当前种子节点进行异常检测和处理,还可以利用巡检器来判断当前种子节点是否存在下游节点,并在当前种子节点存在下游节点的情况下,将下游节点确定为当前种子节点。
巡检器可以是预先构建好的,在一个实施例中,若新增或更改目标业务的节点,且新增或更改的节点属于新的节点类型,则构建与新的节点类型对应的巡检器。一方面,提前构建,可以避免后续使用时才构建导致降低效率的缺陷,另一方面,在新增或更改目标业务节点后,只需构建新的巡检器,而无需重新梳理出节点结构,从而节约资源。
关于节点类型的获得方式,在一个实施例中,可以直接从当前种子节点中获取,在另一个实施例中,节点类型可以从巡检消息中获得。巡检消息可以是首次巡检前触发生成的消息。例如,巡检可以由定时任务触,也可以由外部主动触,触发巡检后,可以获得巡检消息。巡检消息可以包括当前种子节点的节点类型。为此,所述获得当前种子节点的节点类型,可以包括:从巡检消息中获得当前种子节点的节点类型;所述将下游节点确定为当前种子节点包括:将携带有下游节点的节点类型的消息确定为巡检消息。
可见,在该实施例中,通过生成巡检消息,不仅可以触发对下游节点进行异常检测和处理的操作,还能提供节点类型,以便直接根据消息中的节点类型获取巡检器,提高获取效率。
进一步的,在另一个实施例中,所述巡检消息还包括当前种子节点的节点标识,如节点id。所述限制条件和当前信息可以依据节点标识查询获得。如,所述限制条件和当前信息的获得过程包括:从巡检消息中获得当前种子节点的节点标识,并依据节点标识查询获得当前种子节点的限制条件和当前信息。该实施例通过巡检消息获得节点标识,进而依据节点标识查询获得限制条件和当前信息。
实际应用中,节点结构可以出现环状的情况或者多个节点对应同一个下游节点的情况,如图3所示,是本说明书根据一示例性实施例示出的两种节点结构示意图。图3的(a)示意出一种环形拓扑结构,在该场景下,可能存在死循环的情况。图3的(b)中示意出一种多个节点对应相同下游节点的情况,在该场景下,可能存在同一个节点被异常检测和处理多次的情况。鉴于此,在一个实施例中,还通过设置节点的巡检疲劳度时间来解决上述问题。不同节点的巡检疲劳度时间可以相同,也可以不同,具体可以根据需求设置。在巡检疲劳度时间内节点仅被允许执行一次或指定次数的异常检测和处理。在一个例子中,当前种子节点的检查和处理步骤是在:当前种子节点在其对应的巡检疲劳度时间内没有被检查和处理过的情况下执行,所述方法还包括:
判断当前种子节点是否在其预置的巡检疲劳度时间内已被检查和处理过,若是,将当前种子节点的下游节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。
示例的,巡检疲劳度时间的检测过程可以在步骤204之前执行,判断当前种子节点是否在其预置的巡检疲劳度时间内已被检查和处理过,若否,则执行步骤204至步骤210;若是,可以执行步骤210。
例如,当前种子节点被执行异常检测和处理后,可以对其巡检疲劳度时间进行倒计时,在该期间内,在疲劳度时间内重复巡检同一个节点可视为放弃。在一个例子中,巡检疲劳度时间的检测策略可以配置在巡检器中。
可见,该实施例既可以避免由于环状网络导致死循环的情况,还可以避免多个节点对应同一个下游节点,导致出现下游节点被进行多次异常检测和处理的情况。
在另一个实施例中,还提供另一种避免死循环的情况。当前种子节点的检查和处理步骤是在:当前种子节点不是已检测节点路径中的节点的情况下执行;所述已检测节点路径在每次利用巡检器进行检测和处理后更新。
在该实施例中,可以在步骤204之前,判断当前种子节点是不是已检测节点路径中的节点,若不是,则执行步骤204至210,若是,可以执行步骤210,或者结束本次巡检,或者重新将一个指定起点节点作为当前种子节点进行轮询等。可见,通过判断当前种子节点是不是已检测节点路径中的节点,来判断当前种子节点是否已进行异常检测和处理,可以避免死循环的情况。
在利用所获取的巡检器对当前种子节点进行异常检测和处理后,可以判断当前种子节点是否存在下游节点。例如,直接向当前种子节点发咨询请求,以确定当前种子节点是否存在下游节点。在当前种子节点存在下游节点的情况下,将下游节点确定为当前种子节点,并返回执行步骤204。在当前种子节点不存在下游节点的情况下,本次巡检结束,或者,将未进行异常检测和处理的种子节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。
以上实施方式中的各种技术特征可以任意进行组合,只要特征之间的组合不存在冲突或矛盾,但是限于篇幅,未进行一一描述。
以下以其中一种组合进行示例说明。
如图4所示,是本说明书根据一示例性实施例示出的另一种分布式系统中节点的巡检方法的流程图,所述分布式系统包括多个节点,针对不同的节点类型,预先构建与节点类型对应的巡检器,所述方法包括:
在步骤402中,获取分布式系统中所有指定起点节点。
指定起点节点可以是业务的种子节点,分布式系统中可能存在多个种子节点的情况,该实施例可以先获取分布式系统中所有种子节点。
在步骤404中,接收巡检消息。
巡检消息中包括当前种子节点的节点类型和节点标识。巡检可以由定时任务触发,或外部主动触发,在触发巡检时,可以往巡检平台投递巡检消息。触发巡检时,可以从分布式系统的节点中,将指定起点节点确定为当前种子节点。此时,巡检消息中可以包括指定起点节点的节点类型和节点标识。在后续检测到有下游节点、并将下游节点作为当前种子节点时,巡检消息中也可以包括下游节点的节点类型和节点标识。可见,当前种子节点可以是指定起点节点,也可以是下游节点。
在步骤406中,按照巡检消息中的节点类型获取巡检器。
在该步骤中,可以从巡检消息中获得当前种子节点的节点类型;从预构建的巡检器中,获取与当前种子节点的节点类型对应的巡检器;
在步骤408中,利用所获取的巡检器对当前种子节点进行异常检测和处理。
在该步骤中,巡检器可以按照节点标识读取当前种子节点的数据,对当前种子节点进行巡检,并对于不同的巡检结果,巡检器进行相应的处理。
在步骤410中,判断当前种子节点是否存在下游节点,若是,执行步骤412,将下游节点确定为当前种子节点,并发送对下游节点进行巡检的巡检消息;若否,执行步骤414,将未进行异常检测和处理的指定起点节点确定为当前种子节点,并发送对未进行异常检测和处理的指定起点节点进行巡检的巡检消息。
本节点巡检结束后,会查询当前种子节点是否还有下游节点,如果有,投递包括下游节点的节点类型和节点标识的巡检消息,以对下游节点进行巡检。如果没有,可以认为针对指定起点节点的轮询结束,可以判断是否存在其他未进行异常检测和处理的指定起点节点。
本实施例从业务的种子节点开始巡检,对类型的节点配置不同巡检器;巡检完种子节点,检查是否有下游节点;如果有,视下游节点为种子节点,继续巡检,循环一致到整个拓扑网络巡检结束。本实施例不需要管理整个拓扑网络的结构,不需要集中式维护一个图库以及各自节点的关系。网络中每个节点巡检内容由各自的巡检器管理,每个节点了解自己下游子节点情况,每个节点和各自下游节点串联起来形成整个拓扑网络。
与前述分布式系统中节点的巡检方法的实施例相对应,本说明书还提供了分布式系统中节点的巡检装置及其所应用的电子设备的实施例。
本说明书分布式系统中节点的巡检装置的实施例可以应用在计算机设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在计算机设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本说明书分布式系统中节点的巡检装置所在计算机设备的一种硬件结构图,除了图5所示的处理器510、网络接口520、内存530、以及非易失性存储器540之外,实施例中分布式系统中节点的巡检装置531所在的计算机设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
如图6所示,是本说明书根据一示例性实施例示出的一种分布式系统中节点的巡检装置的框图,所述分布式系统包括多个节点,针对不同的节点类型,预先构建与节点类型对应的巡检器,所述装置包括:
节点确定模块62,用于从分布式系统的节点中,将指定起点节点确定为当前种子节点;
类型获得模块64,用于获得当前种子节点的节点类型;
巡检器获取模块66,用于从预构建的巡检器中,获取与当前种子节点的节点类型对应的巡检器;
检测和处理模块68,用于利用所获取的巡检器对当前种子节点进行异常检测和处理;
节点确定模块62,还用于在当前种子节点存在下游节点的情况下,将下游节点确定为当前种子节点,并通知类型获得模块执行获得当前种子节点的节点类型的步骤。
在一个实施例中,所述装置还包括疲劳判断模块(图6未示出),用于判断当前种子节点是否在其预置的巡检疲劳度时间内已被检查和处理过,若否,通知类型获得模块执行获得当前种子节点的节点类型的步骤,若是,通知节点确定模块执行将当前种子节点的下游节点确定为当前种子节点的步骤。
在一个实施例中,当前种子节点的检查和处理步骤是在:当前种子节点不是已检测节点路径中的节点的情况下执行;所述已检测节点路径在每次利用巡检器进行检测和处理后更新。
在一个实施例中,所述巡检器包括检测策略和处理策略,所述检测和处理模块68用于:
获得当前种子节点配置的限制条件、以及当前种子节点中与所述限制条件对应的当前信息;
基于所述检测策略判断所述当前信息是否使限制条件满足,获得检测结果;
按照所述检测结果对应的处理策略进行异常处理。
在一个实施例中,所述类型获得模块64用于:从巡检消息中获得当前种子节点的节点类型;
所述节点确定模块62将下游节点确定为当前种子节点包括:将携带有下游节点的节点类型的消息确定为巡检消息。
在一个实施例中,所述装置还包括巡检器构建模块(图6未示出),用于:
若新增或更改目标业务的节点,且新增或更改的节点属于新的节点类型,则构建与新的节点类型对应的巡检器。
在一个实施例中,所述指定起点节点为业务的种子节点,所述分布式系统包括至少两个种子节点,所述节点确定模块62还用于:
若当前种子节点不存在下游节点,将未进行异常检测和处理的种子节点确定为当前种子节点,并通知类型获得模块64执行获得当前种子节点的节点类型的步骤。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本说明书实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述任一项分布式系统中节点的巡检方法。例如,所述方法包括:
从分布式系统的节点中,将指定起点节点确定为当前种子节点;
获得当前种子节点的节点类型;
从预构建的巡检器中,获取与当前种子节点的节点类型对应的巡检器;
利用所获取的巡检器对当前种子节点进行异常检测和处理;
在当前种子节点存在下游节点的情况下,将下游节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
相应的,本说明书实施例还提供一种计算机存储介质,所述存储介质中存储有程序指令,所述程序指令被处理器执行时实现上述任一项分布式系统中节点的巡检方法。
本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (11)

1.一种分布式系统中节点的巡检方法,所述分布式系统包括多个节点,针对不同的节点类型,预先构建与节点类型对应的巡检器,所述方法包括:
从分布式系统的节点中,将指定起点节点确定为当前种子节点;
获得当前种子节点的节点类型;
从预构建的巡检器中,获取与当前种子节点的节点类型对应的巡检器;
利用所获取的巡检器对当前种子节点进行异常检测和处理;
在当前种子节点存在下游节点的情况下,将下游节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。
2.根据权利要求1所述的方法,所述巡检器包括检测策略和处理策略,所述利用所获取的巡检器对当前种子节点进行异常检测和处理,包括:
获得当前种子节点配置的限制条件、以及当前种子节点中与所述限制条件对应的当前信息;
基于所述检测策略判断所述当前信息是否使限制条件满足,获得检测结果;
按照所述检测结果对应的处理策略进行异常处理。
3.根据权利要求1所述的方法,所述获得当前种子节点的节点类型,包括:从巡检消息中获得当前种子节点的节点类型;
所述将下游节点确定为当前种子节点包括:将携带有下游节点的节点类型的消息确定为巡检消息。
4.根据权利要求1所述的方法,所述方法还包括:
若新增或更改目标业务的节点,且新增或更改的节点属于新的节点类型,则构建与新的节点类型对应的巡检器。
5.根据权利要求1至4任一项所述的方法,当前种子节点的检查和处理步骤是在:当前种子节点在其对应的巡检疲劳度时间内没有被检查和处理过的情况下执行,所述方法还包括:
判断当前种子节点是否在其预置的巡检疲劳度时间内已被检查和处理过,若是,将当前种子节点的下游节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。
6.根据权利要求1至4任一项所述的方法,当前种子节点的检查和处理步骤是在:当前种子节点不是已检测节点路径中的节点的情况下执行;所述已检测节点路径在每次利用巡检器进行检测和处理后更新。
7.根据权利要求1至4任一项所述的方法,所述指定起点节点为业务的种子节点,所述分布式系统包括至少两个种子节点,所述方法还包括:
若当前种子节点不存在下游节点,将未进行异常检测和处理的种子节点确定为当前种子节点,并返回执行获得当前种子节点的节点类型的步骤。
8.一种分布式系统中节点的巡检装置,所述分布式系统包括多个节点,针对不同的节点类型,预先构建与节点类型对应的巡检器,所述装置包括:
节点确定模块,用于从分布式系统的节点中,将指定起点节点确定为当前种子节点;
类型获得模块,用于获得当前种子节点的节点类型;
巡检器获取模块,用于从预构建的巡检器中,获取与当前种子节点的节点类型对应的巡检器;
检测和处理模块,用于利用所获取的巡检器对当前种子节点进行异常检测和处理;
节点确定模块,还用于在当前种子节点存在下游节点的情况下,将下游节点确定为当前种子节点,并通知类型获得模块执行获得当前种子节点的节点类型的步骤。
9.根据权利要求8所述的装置,所述装置还包括疲劳判断模块,用于判断当前种子节点是否在其预置的巡检疲劳度时间内已被检查和处理过,若否,通知类型获得模块执行获得当前种子节点的节点类型的步骤,若是,通知节点确定模块执行将当前种子节点的下游节点确定为当前种子节点的步骤。
10.根据权利要求8所述的装置,当前种子节点的检查和处理步骤是在:当前种子节点不是已检测节点路径中的节点的情况下执行;所述已检测节点路径在每次利用巡检器进行检测和处理后更新。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至7任一项所述方法。
CN201910517784.8A 2019-06-14 2019-06-14 分布式系统中节点的巡检方法、装置及设备 Active CN110365520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910517784.8A CN110365520B (zh) 2019-06-14 2019-06-14 分布式系统中节点的巡检方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910517784.8A CN110365520B (zh) 2019-06-14 2019-06-14 分布式系统中节点的巡检方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110365520A CN110365520A (zh) 2019-10-22
CN110365520B true CN110365520B (zh) 2021-12-14

Family

ID=68217323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910517784.8A Active CN110365520B (zh) 2019-06-14 2019-06-14 分布式系统中节点的巡检方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110365520B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111901204B (zh) * 2020-08-06 2022-09-02 银联商务股份有限公司 一种云网络的巡检方法、装置及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499934A (zh) * 2008-01-29 2009-08-05 华为技术有限公司 在对等网络中诊断节点是否异常的方法、装置及系统
CN105052205A (zh) * 2013-03-15 2015-11-11 思科技术公司 提供无服务中断的备份网络拓扑
CN105429791A (zh) * 2015-11-03 2016-03-23 国网技术学院 一种分布式服务状态检测器及方法
CN106023334A (zh) * 2016-05-04 2016-10-12 郝迎春 一种巡检方法和装置
CN106357473A (zh) * 2016-08-29 2017-01-25 东软集团股份有限公司 分布式多机系统、控制方法及控制装置
CN107294796A (zh) * 2017-08-14 2017-10-24 宁波甬凌新材料科技有限公司 一种电力通信网络故障的定位方法
CN107832188A (zh) * 2017-10-30 2018-03-23 郑州云海信息技术有限公司 设备巡检的方法、装置、设备及计算机可读存储介质
CN109698763A (zh) * 2017-10-24 2019-04-30 中兴通讯股份有限公司 一种巡检的方法、装置及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145949B2 (en) * 2010-06-16 2012-03-27 Plx Technology, Inc. Automated regression failure management system
JP5938965B2 (ja) * 2012-03-19 2016-06-22 富士通株式会社 マルチノードストレージシステムのノード装置および処理速度管理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499934A (zh) * 2008-01-29 2009-08-05 华为技术有限公司 在对等网络中诊断节点是否异常的方法、装置及系统
CN105052205A (zh) * 2013-03-15 2015-11-11 思科技术公司 提供无服务中断的备份网络拓扑
CN105429791A (zh) * 2015-11-03 2016-03-23 国网技术学院 一种分布式服务状态检测器及方法
CN106023334A (zh) * 2016-05-04 2016-10-12 郝迎春 一种巡检方法和装置
CN106357473A (zh) * 2016-08-29 2017-01-25 东软集团股份有限公司 分布式多机系统、控制方法及控制装置
CN107294796A (zh) * 2017-08-14 2017-10-24 宁波甬凌新材料科技有限公司 一种电力通信网络故障的定位方法
CN109698763A (zh) * 2017-10-24 2019-04-30 中兴通讯股份有限公司 一种巡检的方法、装置及计算机可读存储介质
CN107832188A (zh) * 2017-10-30 2018-03-23 郑州云海信息技术有限公司 设备巡检的方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110365520A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
TW201941058A (zh) 異常檢測方法及裝置
CN112416581B (zh) 定时任务的分布式调用系统
CN111324423B (zh) 容器内进程的监控方法、装置、存储介质和计算机设备
CN107423942B (zh) 一种业务流转的方法及装置
CN107203464B (zh) 业务问题的定位方法以及装置
CN114745295A (zh) 数据采集方法、装置、设备和可读存储介质
CN109902028A (zh) Acl特性的自动化测试方法、装置、设备及存储介质
CN110365520B (zh) 分布式系统中节点的巡检方法、装置及设备
Zhang et al. A hybrid diagnosis approach for QoS management in service-oriented architecture
CN110333984B (zh) 接口异常检测方法、装置、服务器及系统
CN106445784B (zh) 一种信息监控方法及装置
CN114816915A (zh) 链路追踪方法以及设备
CN110768904B (zh) 电力通信网的业务通信检测方法、装置、终端及存储介质
CN114579252A (zh) 一种监测应用状态的方法、系统、存储介质及设备
EP3756310B1 (en) Method and first node for managing transmission of probe messages
EP4364374A1 (en) Conflict detection in network management
Zhang et al. An efficient Bayesian diagnosis for QoS management in service-oriented architecture
CN111901174A (zh) 一种服务状态通知的方法、相关装置及存储介质
Jarrah et al. A time-free comparison-based system-level fault diagnostic model for highly dynamic networks
CN115242613B (zh) 目标节点确定方法以及装置
CN114564369B (zh) 应用程序的异常监测方法、装置、电子设备及存储介质
CN116107786A (zh) 分布式集群中的数据传递方法及装置
CN116737177A (zh) 应用程序的部署方法、装置、计算机设备和存储介质
CN116149937A (zh) 一种分布式服务监控方法及相关装置
CN118277233A (zh) 测试用例的生成方法和装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220414

Address after: Room 602, No. 618 Wai Road, Huangpu District, Shanghai

Patentee after: Ant fortune (Shanghai) Financial Information Service Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Innovative advanced technology Co.,Ltd.