CN114422391A - 分布式系统的检测方法、电子设备及计算机可读存储介质 - Google Patents

分布式系统的检测方法、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114422391A
CN114422391A CN202111433090.XA CN202111433090A CN114422391A CN 114422391 A CN114422391 A CN 114422391A CN 202111433090 A CN202111433090 A CN 202111433090A CN 114422391 A CN114422391 A CN 114422391A
Authority
CN
China
Prior art keywords
node
nodes
data
determining
distributed system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111433090.XA
Other languages
English (en)
Inventor
秦绍程
蒋宁
曾琳铖曦
吴海英
尹大渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202111433090.XA priority Critical patent/CN114422391A/zh
Publication of CN114422391A publication Critical patent/CN114422391A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了分布式系统的检测方法、电子设备及计算机可读存储介质。该方法包括:确定分布式系统中多个节点的历史数据;根据历史数据确定多个节点的数据处理能力参数;根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点。通过上述方式,能够快速基于节点的数据处理能力参数确定出瓶颈节点,进而能够基于瓶颈节点快速应对突发容量故障,提高用户体验,且减少分布式系统的宕机时间、提升分布式系统的服务时长。

Description

分布式系统的检测方法、电子设备及计算机可读存储介质
技术领域
本申请涉及分布式系统技术领域,特别涉及分布式系统的检测方法、电子设备及计算机可读存储介质。
背景技术
分布式系统能够在网络信息环境中,根据不同情况和需求提供各种分布式的微服务和文献信息产品。
而不同节点的服务能力是存在差异的,而在海量请求产生的容量压力的背景下,易出现故障。
发明内容
为了解决上述问题,本申请提供分布式系统的检测方法、电子设备及计算机可读存储介质,能够快速基于节点的数据处理能力参数确定出瓶颈节点,进而能够基于瓶颈节点快速应对突发容量故障,提高用户体验,且减少分布式系统的宕机时间、提升分布式系统的服务时长。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种分布式系统的检测方法,该方法包括:确定分布式系统中多个节点的历史数据;根据历史数据确定多个节点的数据处理能力参数;根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点。
其中,获取所述多个节点中每一节点的历史时序数据;确定所述每一节点的所述历史时序数据中响应时长最大的目标数据;根据所述每一节点的数据类型和对应所述每一节点的所述目标数据,确定所述每一节点的数据处理能力参数。
其中,根据所述每一节点的数据类型和对应所述每一节点的所述目标数据,确定所述每一节点的数据处理能力参数,包括:在所述多个节点中节点的数据类型为线性指标数据的情况下,将所述目标数据作为所述对应节点的数据处理能力参数;或在所述多个节点中节点的数据类型为非线性指标数据的情况下,将所述目标数据的前一数据作为所述对应节点的数据处理能力参数。
其中,根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点,包括:确定分布式系统中多个节点的节点全景拓扑图;确定多个节点在节点全景拓扑图中的链路结构;根据多个节点的数据处理能力参数、以及链路结构,确定多个节点的整体处理能力参数;根据整体处理能力参数确定多个节点中的瓶颈节点。
其中,确定分布式系统中多个节点的节点全景拓扑图,包括:获取分布式系统中每个节点的节点信息,以及每个节点的上下游节点的节点信息;根据每个节点的节点信息以及对应的上下游节点的节点信息,建立分布式系统的节点全景拓扑图。
其中,根据多个节点的数据处理能力参数、以及链路结构,确定多个节点的整体处理能力参数,包括:响应于多个节点中的两个节点为串联结构,确定两个节点的整体处理能力参数为两个节点分别对应的数据处理能力参数中较小者;或,响应于多个节点中的两个节点为并联结构,确定两个节点的整体处理能力参数为两个节点分别对应的数据处理能力参数中较大者。
其中,该方法还包括:获取目标节点的历史时序数据;确定目标节点中的数据元素与数据均值的马氏距离;响应于马氏距离大于设定距离阈值,确定目标节点为异常节点。
其中,该方法还包括:响应于分布式系统出现容量故障,基于瓶颈节点进行提醒。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,该电子设备包括处理器以及与处理器耦接的存储器,存储器中存储有计算机程序,处理器用于执行计算机程序以实现如上述技术方案提供的方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序在被处理器执行时,实现如上述技术方案提供的方法。
本申请实施例的有益效果是:区别于现有技术,本申请提供的分布式系统的检测方法,该方法包括:确定分布式系统中多个节点的历史数据;根据历史数据确定多个节点的数据处理能力参数;根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点。通过上述方式,能够快速基于节点的数据处理能力参数确定出瓶颈节点,进而能够基于瓶颈节点快速应对突发容量故障,提高用户体验,且减少分布式系统的宕机时间、提升分布式系统的服务时长。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的分布式系统的检测方法第一实施例的流程示意图;
图2是本申请提供的分布式系统的检测方法第二实施例的流程示意图;
图3是本申请提供的步骤25一实施例的流程示意图;
图4是本申请提供的步骤251一实施例的流程示意图;
图5是本申请提供的节点全景拓扑图的示意图;
图6是本申请提供的分布式系统的检测方法第三实施例的流程示意图;
图7是本申请提供的电子设备一实施例的结构示意图;
图8是本申请提供的计算机可读存储介质一实施例的结构示意图;
图9是本申请提供的分布式系统的检测装置一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
分布式系统能够在网络信息环境中,根据不同情况和需求提供各种分布式的微服务和文献信息产品。
而不同节点的服务能力是存在差异的,而在海量请求产生的容量压力的背景下,易出现故障。
为应对在分布式服务架构下,海量请求产生的容量压力的背景下,如何能从成千上万个服务节点中快速分析、快速发现分布式链路中的容量瓶颈点的需求,成为需要解决的问题。
基于此,本申请利用分布式系统中节点的历史数据确定出每一节点的数据处理能力,并基于数据处理能力和分布式系统的链路结构来确定出瓶颈节点的方式,能够快速确定出瓶颈节点。具体技术方案参阅以下实施例:
参阅图1,图1是本申请提供的分布式系统的检测方法第一实施例的流程示意图。该方法包括:
步骤11:确定分布式系统中多个节点的历史数据。
分布式系统是一些独立的计算机集合,但是对这个系统的用户来说,系统就像一台计算机一样。”这个定义有两方面的含义:第一,从硬件角度来讲,每台计算机都是自主的;第二,从软件角度来讲,用户将整个系统看做是一台计算机。这两者都是必需的,缺一不可。
其中,这些计算机可以作为分布式系统中的节点。
分布式系统具有以下特性:
1.分布性:分布式系统中的多个节点之间没有主、从之分,即没有控制整个系统的主机,也没有受控的从机。
2.透明性:分布式系统资源被所有节点共享。每个节点的用户不仅可以使用本机的资源,还可以使用本分布式系统中其他节点的资源,如CPU、文件、打印机等)。
3.同一性:分布式系统中的若干个节点可以互相协作来完成一个共同的任务,或者说一个程序可以分布在几个节点上并行地运行。
4.通信性:分布式系统中任意两个节点都可以通过通信来交换信息。
在一些实施例中,分布式系统包括若干节点,每一节点可独立完成对应的任务。以及,多个节点可以根据连接关系,形成链路,合作完成相应的任务。
在完成这些任务的过程中,节点产生的数据均可以作为历史数据。如,节点处理任务的处理速度、节点处理任务的数量以及节点在处理任务时的状态等等。
步骤12:根据历史数据确定多个节点的数据处理能力参数。
数据处理能力参数能够表征节点的实际处理任务的能力,数据处理能力参数的数值越高,代表能力越强。
在一些实施例中,在历史数据为处理任务的数量时,可计算单位时间内每一节点处理任务的数量,将单位时间内每一节点处理任务的数量作为该节点的数据处理能力参数。
在一些实施例中,在历史数据为处理任务的处理速度时,可计算每一任务的平均处理速度,将平均处理速度作为该节点的数据处理能力参数。
在一些实施例中,在历史数据为处理任务的状态时,可确定每一状态出现的次数,将出现次数最多的状态进行转换,将转换后的值作为该节点的数据处理能力参数。
在一些实施例中,在历史数据为处理任务的数量、处理速度以及状态时,计算单位时间内每一节点处理任务的数量、计算每一任务的平均处理数据以及确定每一状态出现的次数,对这些信息进行加权求和,将求和的结果作为该节点的数据处理能力参数。
步骤13:根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点。
分布式系统中的多个节点之间的链路结构可以是串联、并联或者串并联相结合。如一个节点连接若干个节点。以四个节点为例:节点A和节点B串联,节点B和节点C并联,节点C和节点D串联。
在一些实施例中,确定多个节点在分布式系统中的链路结构可以基于全链路追踪技术进行实现。如,整个路径由用户的X请求发起,穿过一个分布式式系统。用字母标识的节点代表分布式系统中的不同处理过程。在处理过程中,需要记录在一次特定的请求后分布式系统中完成的所有工作的信息,如,参与的节点包括前端节点A,两个中间层节点B和节点C,以及两个后端节点D和节点E。当一个用户发起一个请求时,首先到达前端节点A,然后发送两个RPC(remote procedure call,远程过程调用)到节点B和节点C。节点B会马上做出反应,但是节点C需要和后端的节点D和节点E交互之后再返还给节点A,由节点A来响应最初的请求。
以此,通过记录整个工作流程,则可确定出执行请求的节点,进而确定出节点间的链路结构。
瓶颈节点的容量瓶颈可以表示服务介于正常与异常临界状态时所需计算或存储资源的状态。根据瓶颈约束理论:在一条业务链中,瓶颈节点的节拍决定了整条链的节拍,即任何一个多阶段生产系统,如果其中一个阶段的产出取决于前面一个或几个阶段的产出,那么产出率最低的阶段决定着整个系统的生产能力。
如,以两个节点串联为例,节点A和节点B串联,其中,节点A的数据处理能力参数高于节点B的数据处理能力参数,则在处理过程中,因节点B的数据处理能力参数较小,则节点B为瓶颈节点。
如,以两个节点并联为例,节点C和节点D并联,其中,节点C的数据处理能力参数高于节点D的数据处理能力参数,则在处理过程中,因节点C的数据处理能力参数较大,则节点C为瓶颈节点。在并联时,节点C和节点D同时处理任务,因节点C的数据处理能力参数高于节点D的数据处理能力参数,则在节点C出现异常时,则对整体影响较大,则将节点C确定为瓶颈节点。
在本实施例中,通过确定分布式系统中多个节点的历史数据;根据历史数据确定多个节点的数据处理能力参数;根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点的方式,能够快速基于节点的数据处理能力参数确定出瓶颈节点,进而能够基于瓶颈节点快速应对突发容量故障,提高用户体验,且减少分布式系统的宕机时间、提升分布式系统的服务时长。
参阅图2,图2是本申请提供的分布式系统的检测方法第二实施例的流程示意图。该方法包括:
步骤21:确定分布式系统中多个节点的历史数据。
步骤22:获取多个节点中每一节点的历史时序数据。
在确定多个节点的历史数据后,对每一节点的历史数据进行区分。并将每一节点的历史数据按照时间顺序进行排序,得到每一节点的历史时序数据。时间顺序可以是根据时间的先后顺序,也可以是从当前时间到离当前时间越长的时间的顺序。由此,可对每一节点执行步骤22-步骤24的步骤。在一些实施例中,在历史数据为处理任务的状态时,可根据时间顺序对处理任务的状态进行排序,排序后得到对应该历史数据的历史时序数据,也即得到每一节点的历史时序数据;在一些实施例中,在历史数据为处理任务的数量、处理速度以及状态时,也可以根据时间顺序对每一节点处理任务的数量、计算每一任务的平均处理数据以及确定每一状态出现的次数进行排序,得到对应的历史时序数据。
步骤23:确定每一节点的历史时序数据中响应时长最大的目标数据。
可以理解,每一节点在处理不同的数据时,处理的时间不一定相同,此时,将处理的时间定义为响应时长,则从历史时序数据中确定响应时长最大的数据,将响应时长最大的数据作为目标数据。
在一些实施例中,可以根据数据的数据量和响应时长计算出每秒事务数(Transactions Per Second,TPS)。然后根据每秒事务数来确定响应时长的最大值,进而确定为目标数据。
步骤24:每一节点的数据类型和对应所述每一节点的目标数据,确定每一节点的数据处理能力参数。
在一些实施例中,响应于该节点的数据类型为线性指标数据,将目标数据作为该节点的数据处理能力参数。
若该节点的数据类型为线性指标数据,说明该节点的数据处理能力与时间呈正相关,即随着时间的增加,数据处理能力也在提高。则在确定出响应时长最大的目标数据时,此时的目标数据为历史时间内最后一个时间对应的数据,则可以确定出此目标数据体现出了该节点在历史时间内的最高数据处理能力,则将目标数据作为该节点的数据处理能力参数。
在一些实例中,在所述多个节点中节点的数据类型为线性指标数据的情况下,将所述目标数据作为所述对应节点的数据处理能力参数。
若该节点的数据类型为非线性指标数据,说明该节点的数据处理能力与时间不相关,也可说明该节点处理的数据在时间序列中为非线性模型表示的复杂数据集,由此,不能将响应时长最大的目标数据作为该节点的数据处理能力参数,而是将目标数据的前一数据作为该节点的数据处理能力参数。将目标数据的前一数据作为该节点的数据处理能力参数,能够以较小的数据来将该节点的数据处理能力参数进行表示,避免以最大值表示,则可能最大值就是该节点的阈值,直接导致节点异常,则无法预警。
步骤25:根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点。
在一些实施例中,参阅图3,步骤25可以是以下流程:
步骤251:确定分布式系统中多个节点的节点全景拓扑图。
如,先确定出多个目标节点,以及多个目标节点之间的连接关系,然后将连接关系作为多个节点的节点全景拓扑图。
具体地,依据执行任务对应节点来确定节点全景拓扑图。
在一些实施例中,参阅图4,步骤251可以是以下流程:
步骤2511:获取分布式系统中每个节点的节点信息,以及每个节点的上下游节点的节点信息。
步骤2512:根据每个节点的节点信息以及对应的上下游节点的节点信息,建立分布式系统的节点全景拓扑图。
结合图5进行说明:
在分布式系统中存在节点E、节点F、节点G、节点H以及节点I。其中,节点E分别连接节点F和节点G,节点G连接节点H,节点F和节点H连接节点I,构成如图5所示节点全景拓扑图。
图5的分布式系统的处理任务的流向为,向由节点E处理,然后由节点F和节点G处理,节点G处理后节点H处理,然后节点F和节点H处理后,由节点I处理。
步骤252:确定多个节点在节点全景拓扑图中的链路结构。
步骤253:根据多个节点的数据处理能力参数、以及链路结构,确定多个节点的整体处理能力参数。
在一些实施例中,响应于多个节点中的两个节点为串联结构,确定两个节点的整体处理能力参数为两个节点分别对应的数据处理能力参数中较小者。
结合图5进行说明,在图5中,节点G和节点H串联,若节点G的数据处理能力参数高于节点H的数据处理能力参数,则在处理过程中,因节点H的数据处理能力参数较小,则在节点G实际处理的任务数量超过节点H理论上能够处理的任务数量时,则节点H为瓶颈节点。
若节点G的数据处理能力参数小于节点H的数据处理能力参数,则在处理过程中,因节点G的数据处理能力参数较小,则在节点G实际处理的任务数量达到理论上能够处理的任务数量时,节点H还为达到理论上能够处理的任务数量,则节点H还未达到理想状态,则节点G为瓶颈节点。
因此,两个串联的节点的整体处理能力参数被两个节点中的数据处理能力参数中较小者所影响。
在一些实施例中,响应于多个节点中的两个节点为并联结构,确定两个节点的整体处理能力参数为两个节点分别对应的数据处理能力参数中较大者。
如,以节点并联为例,节点J和节点K并联,其中,节点J的数据处理能力参数高于节点K的数据处理能力参数,则在处理过程中,因节点J的数据处理能力参数较大,则节点J为瓶颈节点。在并联时,节点J和节点K同时处理任务,因节点J的数据处理能力参数高于节点K的数据处理能力参数,则在节点J出现异常时,则对整体影响较大,则将节点J确定为瓶颈节点。
因此,两个并联的节点的整体处理能力参数被两个节点中的数据处理能力参数中较大者所影响。
步骤254:根据整体处理能力参数确定多个节点中的瓶颈节点。
结合图5进行说明:
若节点E、节点F、节点G、节点H以及节点I的数据处理能力参数按照以下排序:
节点E>节点F>节点G>节点H>节点I。
因节点G>节点H且节点G和节点H串联,则节点H的数据处理能力参数表示节点G和节点H的整体处理能力参数,则将节点H确定为节点G和节点H中的瓶颈节点。
因节点F与串联的节点G和节点H并联,且节点F>节点G>节点H,则节点F的数据处理能力参数表示节点F、节点G和节点H的整体处理能力参数,则将节点F确定为节点F、节点G和节点H中的瓶颈节点。
因节点E、节点I与节点F、节点G和节点H整体串联,且节点E>节点F>节点G>节点H>节点I,则节点I的数据处理能力参数表示节点E、节点F、节点G、节点H和节点I的整体处理能力参数,则将节点I确定为节点E、节点F、节点G、节点H和节点I中的瓶颈节点。
在一应用场景中,可通过关注相应结构中的代表瓶颈点的节点的数据处理量,以进行预警提醒。结合图5进行说明:
图5中节点E、节点F、节点G、节点H以及节点I的数据处理能力参数按照以下排序:
节点E>节点F>节点G>节点H>节点I。
在利用图5所示的分布式系统进行数据处理时,可以优先关注节点I的数据处理量,在节点I的数据处理量将到达瓶颈时,进行预警提醒。进而可以对节点I进行扩容。扩容后,关注节点F的数据处理量,在节点F的数据处理量将到达瓶颈时,进行预警提醒。进而可以对节点F进行扩容。扩容后,关注节点H的数据处理量,在节点H的数据处理量将到达瓶颈时,进行预警提醒。进而可以对节点H进行扩容。
进一步,在对上述中任一节点扩容后,则需要重新确定相应节点的数据处理能力参数。进而重新确定相应的新的瓶颈节点,对新的瓶颈节点进行关注,以下瓶颈节点异常时进行预警。
在本实施例中,能够快速从不同链路结构的多个节点中,基于节点的数据处理能力参数确定出瓶颈节点,进而能够基于瓶颈节点快速应对突发容量故障,提高用户体验,且减少分布式系统的宕机时间、提升分布式系统的服务时长。
参阅图6,图6是本申请提供的分布式系统的检测方法第三实施例的流程示意图。该方法包括:
步骤61:获取目标节点的历史时序数据。
在本实施例中,在确定多个节点的历史数据后,将每一节点的历史数据按照时间顺序进行排序,得到每一节点的历史时序数据,每个节点的历史时序数据是历史数据按照时间顺序排序得到的数据集合。时间顺序可以是根据时间的先后顺序,也可以是从当前时间到离当前时间越长的时间的顺序。也即,历史时序数据可以为根据时间顺序对处理任务的状态进行排序得到的数据,也可以为根据时间顺序对每一节点处理任务的数量、计算每一任务的平均处理数据以及确定每一状态出现的次数进行排序得到的数据等。
步骤62:根据目标节点的历史时序数据确定目标节点中的数据元素。
在本实施例中,目标节点的数据元素也即历史时序数据中的每个数据。例如,当历史时序数据为根据时间顺序对处理任务的状态进行排序得到的数据,该数据元素就是历史数据中根据时间顺序排序得到的数据集合中的各个元素。
步骤63:确定目标节点的数据元素与数据均值的马氏距离;
其中,可以采用以下公式进行计算:
Figure BDA0003380912610000121
其中,x表示数据元素,
Figure BDA0003380912610000122
表示数据均值,s表示协方差矩阵,T表示转置,a为预设参数。
上述数据均值为当前历史时序数据中各个元素的平均值。协方差矩阵是对应数据元素的协方差矩阵。上述预设参数a与对应系统的性能相关,是实际业务过程中,根据经验得到的,可以为1,也可以为其他数值。
马氏距离是一种距离的度量,表示点与一个分布之间的距离。可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题,马氏距离在测量数据间相关程度高的时候效果佳。
步骤63:响应于马氏距离大于设定距离阈值,确定目标节点为异常节点。
在一些实施例中,可以将异常点确定为瓶颈节点。
在上述任一实施例中,响应于分布式系统出现容量故障,基于瓶颈节点进行提醒。
如,在数据处理过程中,如数据邻近度的趋势出现快速变化,也可判断为容量趋势发生变化进而提前进行预警,提前进行干预。如对瓶颈节点进行扩容,或者替换等操作,通过上述方式,能够基于瓶颈节点快速应对突发容量故障,提高用户体验,且减少分布式系统的宕机时间、提升分布式系统的服务时长。
参阅图7,图7是本申请提供的电子设备一实施例的结构示意图。该电子设备70包括处理器71以及与处理器71耦接的存储器72,存储器72中存储有计算机程序,处理器71用于执行计算机程序以实现以下方法:
确定分布式系统中多个节点的历史数据;根据历史数据确定多个节点的数据处理能力参数;根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点。
可以理解,处理器71还用于执行计算机程序以实现上述任一实施例的方法,具体请参阅上述任一技术方案,这里不做赘述。
参阅图8,图8是本申请提供的计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质80存储有计算机程序81,计算机程序81在被处理器执行时,实现以下方法:
确定分布式系统中多个节点的历史数据;根据历史数据确定多个节点的数据处理能力参数;根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点。
可以理解,计算机程序81在被处理器执行时,还用于实现上述任一实施例的方法,具体请参阅上述任一技术方案,这里不做赘述。
在一应用场景中,在复杂互联网微服务环境下,面对突发流量,通过运用上述任一实施例,快速确定出全链路中可能性最大的业务瓶颈点,提示后及时进行扩容操作保障系统容量足够支撑业务开展,保障用户体验。能够可以克服突发情况下短时间内无法完整梳理出复杂业务支撑的系统链路,提高指标检测的准确度,提高多指标检测精度和速度,对复杂串并联容量问题快速发现,避免业务损失。
可快速处理海量数据,识别出其中关键指标与异常节点、依照串并联模型确认复杂系统中最大可能出现的瓶颈点,快速应对突发容量故障,提高用户体验,减少宕机时间、提升服务可用时长。可覆盖全链路服务节点,应对当前微服务架构带来的手工无法处理的复杂度,使分析覆盖面更广。
参阅图9,图9是本申请提供的分布式系统的检测装置的结构示意图,该检测装置90包括监控模块91、拓扑模块92和计算模块93。
其中,监控模块91用于确定分布式系统中多个节点的历史数据。
拓扑模块92用于确定多个节点在分布式系统中的链路结构。
计算模块93用于根据历史数据确定多个节点的数据处理能力参数;以及根据多个节点的数据处理能力参数和多个节点在所述分布式系统中的链路结构,确定多个节点中的瓶颈节点。
在其他实施例中,监控模块91还用于获取多个节点中一节点的历史时序数据。
计算模块93还用于确定一节点的历史时序数据中响应时长最大的目标数据;以及根据一节点的数据类型和目标数据,确定一节点的数据处理能力参数。
在其他实施例中,计算模块93还用于响应于一节点的数据类型为线性指标数据,将目标数据作为一节点的数据处理能力参数;或响应于一节点的数据类型为非线性指标数据,将目标数据的前一数据作为一节点的数据处理能力参数。
在其他实施例中,拓扑模块92还用于确定分布式系统中多个节点的节点全景拓扑图;确定多个节点在节点全景拓扑图中的链路结构。计算模块93还用于根据多个节点的数据处理能力参数、以及链路结构,确定多个节点的整体处理能力参数;以及根据整体处理能力参数确定多个节点中的瓶颈节点。
在其他实施例中,拓扑模块92还用于获取分布式系统中每个节点的节点信息,以及每个节点的上下游节点的节点信息;以及根据每个节点的节点信息以及对应的上下游节点的节点信息,建立分布式系统的节点全景拓扑图。
在其他实施例中,计算模块93还用于响应于多个节点中的两个节点为串联结构,确定两个节点的整体处理能力参数为两个节点分别对应的数据处理能力参数中较小者;或,响应于多个节点中的两个节点为并联结构,确定两个节点的整体处理能力参数为两个节点分别对应的数据处理能力参数中较大者。
在其他实施例中,监控模块91还用于获取目标节点的历史时序数据。计算模块93还用于确定目标节点中的数据元素与数据均值的马氏距离;响应于马氏距离大于设定距离阈值,确定目标节点为异常节点。
在其他实施例中,监控模块91还用于响应于分布式系统出现容量故障,基于瓶颈节点进行提醒。
综上,本申请提供的分布式系统的检测方法,该方法包括:确定分布式系统中多个节点的历史数据;根据历史数据确定多个节点的数据处理能力参数;根据多个节点的数据处理能力参数和多个节点在分布式系统中的链路结构,确定多个节点中的瓶颈节点。通过上述方式,能够快速基于节点的数据处理能力参数确定出瓶颈节点,进而能够基于瓶颈节点快速应对突发容量故障,提高用户体验,且减少分布式系统的宕机时间、提升分布式系统的服务时长。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种分布式系统的检测方法,其特征在于,所述方法包括:
确定所述分布式系统中多个节点的历史数据;
根据所述历史数据确定所述多个节点的数据处理能力参数;
根据所述多个节点的数据处理能力参数和所述多个节点在所述分布式系统中的链路结构,确定所述多个节点中的瓶颈节点。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述历史数据确定所述多个节点的数据处理能力参数,包括:
获取所述多个节点中每一节点的历史时序数据;
确定所述每一节点的所述历史时序数据中响应时长最大的目标数据;
根据所述每一节点的数据类型和对应所述每一节点的所述目标数据,确定所述每一节点的数据处理能力参数。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述每一节点的数据类型和对应所述每一节点的所述目标数据,确定所述每一节点的数据处理能力参数,包括:
在所述多个节点中节点的数据类型为线性指标数据的情况下,将所述目标数据作为所述对应节点的数据处理能力参数;或
在所述多个节点中节点的数据类型为非线性指标数据的情况下,将所述目标数据的前一数据作为所述对应节点的数据处理能力参数。
4.根据权利要求1所述的方法,其特征在于,
所述根据所述多个节点的数据处理能力参数和所述多个节点在所述分布式系统中的链路结构,确定所述多个节点中的瓶颈节点,包括:
确定所述分布式系统中多个节点的节点全景拓扑图;
确定所述多个节点在所述节点全景拓扑图中的链路结构;
根据所述多个节点的数据处理能力参数、以及所述链路结构,确定所述多个节点的整体处理能力参数;
根据所述整体处理能力参数确定所述多个节点中的瓶颈节点。
5.根据权利要求4所述的方法,其特征在于,
所述确定所述分布式系统中多个节点的节点全景拓扑图,包括:
获取所述分布式系统中每个节点的节点信息,以及每个节点的上下游节点的节点信息;
根据每个节点的节点信息以及对应的上下游节点的节点信息,建立所述分布式系统的节点全景拓扑图。
6.根据权利要求4所述的方法,其特征在于,
所述根据所述多个节点的数据处理能力参数、以及所述链路结构,确定所述多个节点的整体处理能力参数,包括:
响应于所述多个节点中的两个节点为串联结构,确定所述两个节点的整体处理能力参数为所述两个节点分别对应的数据处理能力参数中较小者;或
响应于所述多个节点中的两个节点为并联结构,确定所述两个节点的整体处理能力参数为所述两个节点分别对应的数据处理能力参数中较大者。
7.根据权利要求1所述的方法,其特征在于,
所述方法还包括:
获取目标节点的历史时序数据;
根据所述目标节点的历史时序数据确定所述目标节点中的数据元素;
确定所述目标节点的数据元素与数据均值的马氏距离;
响应于所述马氏距离大于设定距离阈值,确定所述目标节点为异常节点。
8.根据权利要求1所述的方法,其特征在于,
所述方法还包括:
响应于所述分布式系统出现容量故障,基于所述瓶颈节点进行提醒。
9.一种电子设备,其特征在于,所述电子设备包括处理器以及与所述处理器耦接的存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被处理器执行时,实现如权利要求1-8任一项所述的方法。
CN202111433090.XA 2021-11-29 2021-11-29 分布式系统的检测方法、电子设备及计算机可读存储介质 Pending CN114422391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111433090.XA CN114422391A (zh) 2021-11-29 2021-11-29 分布式系统的检测方法、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111433090.XA CN114422391A (zh) 2021-11-29 2021-11-29 分布式系统的检测方法、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114422391A true CN114422391A (zh) 2022-04-29

Family

ID=81265135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111433090.XA Pending CN114422391A (zh) 2021-11-29 2021-11-29 分布式系统的检测方法、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114422391A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120233310A1 (en) * 2011-03-09 2012-09-13 International Business Machines Corporation Comprehensive bottleneck detection in a multi-tier enterprise storage system
US20150120637A1 (en) * 2013-10-30 2015-04-30 Seoul National University R&Db Foundation Apparatus and method for analyzing bottlenecks in data distributed data processing system
CN108521353A (zh) * 2018-04-02 2018-09-11 深圳前海微众银行股份有限公司 定位性能瓶颈的处理方法、设备及可读存储介质
CN111209178A (zh) * 2020-01-13 2020-05-29 中信银行股份有限公司 全链路瓶颈测试方法及系统
CN112838962A (zh) * 2020-12-31 2021-05-25 中国银联股份有限公司 一种大数据集群的性能瓶颈检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120233310A1 (en) * 2011-03-09 2012-09-13 International Business Machines Corporation Comprehensive bottleneck detection in a multi-tier enterprise storage system
US20150120637A1 (en) * 2013-10-30 2015-04-30 Seoul National University R&Db Foundation Apparatus and method for analyzing bottlenecks in data distributed data processing system
CN108521353A (zh) * 2018-04-02 2018-09-11 深圳前海微众银行股份有限公司 定位性能瓶颈的处理方法、设备及可读存储介质
CN111209178A (zh) * 2020-01-13 2020-05-29 中信银行股份有限公司 全链路瓶颈测试方法及系统
CN112838962A (zh) * 2020-12-31 2021-05-25 中国银联股份有限公司 一种大数据集群的性能瓶颈检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MUELLER CHAUDHRY: "Windows 2000性能优化技术参考", 1 January 2001, 机械工业出版社, pages: 88 *

Similar Documents

Publication Publication Date Title
CN110502494B (zh) 日志处理方法、装置、计算机设备及存储介质
EP3373516B1 (en) Method and device for processing service calling information
CN109656782A (zh) 可视化调度监控方法、装置及服务器
KR101965277B1 (ko) 하이퍼그래프 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
CN109981416A (zh) 一种区块链性能检测方法与系统
CN108733464A (zh) 一种确定计算任务的调度方案的方法及装置
CN110532152A (zh) 一种基于Kapacitor计算引擎的监控告警处理方法及系统
WO2023066084A1 (zh) 算力分配方法、装置及算力服务器
CN111966289A (zh) 基于Kafka集群的分区优化方法和系统
CN115514619B (zh) 告警收敛方法及系统
CN110471945A (zh) 活跃数据的处理方法、系统、计算机设备和存储介质
CN109787850A (zh) 监控系统、监控方法及计算节点
CN113220534A (zh) 集群多维度异常监控方法、装置、设备及存储介质
Altiok et al. Analysis of production lines with general service times and finite buffers: a two-node decomposition approach
CN110300008A (zh) 一种确定网络设备的状态的方法及装置
CN115033477A (zh) 一种面向大规模微服务的性能异常主动检测和处理方法及系统
CN105357026A (zh) 一种资源信息收集方法和计算节点
CN111078503B (zh) 一种异常监控方法及系统
CN114422391A (zh) 分布式系统的检测方法、电子设备及计算机可读存储介质
CN116974805A (zh) 根因确定方法、设备和存储介质
CN103326880A (zh) Genesys呼叫系统高可用性云计算监控系统及方法
CN116804957A (zh) 一种系统监控方法及装置
CN115713395A (zh) 一种基于Flink的用户风控管理方法、装置及设备
CN114153646A (zh) 一种运维故障处置方法、装置及存储介质、处理器
CN114049065A (zh) 一种数据处理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination