CN111385122B - 分布式系统链路跟踪方法、装置、计算机设备及存储介质 - Google Patents
分布式系统链路跟踪方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111385122B CN111385122B CN201811638529.0A CN201811638529A CN111385122B CN 111385122 B CN111385122 B CN 111385122B CN 201811638529 A CN201811638529 A CN 201811638529A CN 111385122 B CN111385122 B CN 111385122B
- Authority
- CN
- China
- Prior art keywords
- tracking
- request information
- transmission
- link
- log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000005540 biological transmission Effects 0.000 claims abstract description 186
- 238000012546 transfer Methods 0.000 claims description 43
- 238000005070 sampling Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 8
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 abstract description 32
- 238000012544 monitoring process Methods 0.000 abstract description 6
- 238000012423 maintenance Methods 0.000 abstract description 5
- 238000005457 optimization Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 4
- 238000013024 troubleshooting Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003999 initiator Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
- H04L67/63—Routing a service request depending on the request content or context
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明实施例公开了一种分布式系统链路跟踪方法、装置、计算机设备及存储介质,包括:获取目标终端的请求信息,其中,响应所述请求信息的目标服务器节点位于分布式服务器系统中,所述请求信息传输至所述目标服务器需要通过指定的第一传递路径进行传输;根据预设的跟踪规则在所述请求信息中设置跟踪标签;根据所述跟踪标签在所述第一传递路径的各个传递节点处采集所述采集事项生成第一跟踪消息。由于,跟踪标签被设置在请求信息中,因此,不需要通过监听反馈信息得到异常情况,异常情况发生时,会被跟踪标签进行记录,并统一呈现在第一跟踪消息中,实现了在异步调用模型的分布式系统中的数据跟踪,有利于分布式系统的优化和维护。
Description
技术领域
本发明实施例涉及数据跟踪领域,尤其是一种分布式系统链路跟踪方法、装置、计算机设备及存储介质。
背景技术
在分布式系统中,伴随着微服务化,系统功能模块被拆分越来越细,服务节点变得越来越多,整个系统调用关系链也越来越复杂。在调用关系链趋于复杂化的环境下,如何对系统的进行监控,检查各个分布式节点是否处于正常的工作状态,成为一个新的课题。
现有技术中,在分布式系统的接入节点对客户端的请求以及对应的后端服务节点的回复状况进行统计监控。如果发现异常,则通过在各个服务节点查找打印出来的错误日志,根据错误日志进行分析,最终发现问题。
但是对于异步调用模型系统,服务调用方将请求发送出去后,并不等待结果的返回,这使得跟踪调用结果,尤其是在一连串的异步调用关系链中跟踪传输信息变得比较困难。
发明内容
本申请针对现有方式在异步调用模型分布式系统中因为无响应信息导致无法追踪调用信息问,提出了一种分布式系统链路跟踪方法、装置、计算机可读存储介质及终端,以对异步调用模型的分布式系统中的传输数据进行采集。
本申请的实施例根据第一个方面,提供了一种分布式系统链路跟踪方法,包括:
获取目标终端的请求信息,其中,响应所述请求信息的目标服务器节点位于分布式服务器系统中,所述请求信息传输至所述目标服务器需要通过指定的第一传递路径进行传输;
根据预设的跟踪规则在所述请求信息中设置跟踪标签,其中,所述跟踪标签包括设定的采集事项;
根据所述跟踪标签在所述第一传递路径的各个传递节点处采集所述采集事项生成第一跟踪消息。
可选地,所述根据所述跟踪标签在所述第一传递路径的各个传递节点处采集所述采集事项生成第一跟踪消息之后,包括:
响应于所述请求信息向所述目标终端发送回复消息,其中,所述回复消息传输至所述目标终端需要通过指定的第二传递路径进行传输,且所述回复消息中包括所述跟踪标签;
根据所述跟踪标签在所述第二传递路径的各个传递节点处采集所述采集事项生成第二跟踪消息。
可选地,所述根据所述跟踪标签在所述第二传递路径的各个传递节点处采集所述采集事项生成第二跟踪消息之后,包括:
获取预设的跟踪日志的日志模板;
将所述第一跟踪消息和所述第二跟踪消息写入到所述日志模板中生成跟踪日志。
可选地,所述采集事项采集的信息为各个传递节点链路传输的传输时间,所述将所述第一跟踪消息和所述第二跟踪消息写入到所述日志模板中生成跟踪日志之后,包括:
获取所述跟踪日志中第一传递路径和第二传递路径的链路传输的总传输时间,其中,所述总传输时间为所述各个传递节点链路传输的传输时间的累加之和;
将所述总传输时间与预设的第一时间阈值进行比对;
当所述总传输时间大于所述第一时间阈值时,确定所述跟踪日志为待查跟踪日志。
可选地,当所述总传输时间大于所述第一时间阈值时,确定所述跟踪日志为待查跟踪日志之后,包括:
获取所述待查跟踪日志中所述各个传递节点之间链路传输的传输时间;
将所述传输时间依次与预设的第二时间阈值进行比对;
当所述传输时间大于所述第二时间阈值时,确定所述传输之间表征的传输链路层为问题链路。
可选地,所述根据预设的跟踪规则在所述请求信息中设置跟踪标签之前,包括:
根据预设的采样规则判断所述请求信息是否为采样数据;
当所述请求信息为采样数据时,确认在所述请求信息中设置跟踪标签。
可选地,所述跟踪标签中包括跟踪ID,其中,所述跟踪ID在所述分布式服务器系统中具有唯一性。
本申请的实施例根据第二个方面,还提供了一种分布式系统链路跟踪装置,包括:
获取模块,用于获取目标终端的请求信息,其中,响应所述请求信息的目标服务器节点位于分布式服务器系统中,所述请求信息传输至所述目标服务器需要通过指定的第一传递路径进行传输;
处理模块,用于根据预设的跟踪规则在所述请求信息中设置跟踪标签,其中,所述跟踪标签包括设定的采集事项;
执行模块,用于根据所述跟踪标签在所述第一传递路径的各个传递节点处采集所述采集事项生成第一跟踪消息。
本申请的实施例根据第三个方面,还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述分布式系统链路跟踪方法的步骤。
本申请的实施例根据第四个方面,还提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述分布式系统链路跟踪方法的步骤。
本申请实施例的有益效果是:在接收到用户终端发送的请求信息后,在请求信息中设置跟踪标签,该跟踪标签中设置有采集事项,根据该采集事项,在请求信息在分布式系统中进行传递时,在每个传递的节点均会采集该节点中的采集事项,将该请求信息经过的所有节点的事项进行采集生成第一跟踪消息。由于,跟踪标签被设置在请求信息中,因此,不需要通过监听反馈信息得到异常情况,异常情况发生时,会被跟踪标签进行记录,并统一呈现在第一跟踪消息中,实现了在异步调用模型的分布式系统中的数据跟踪,有利于分布式系统的优化和维护。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个实施例的直播控制方法的基本流程示意图;
图2为本申请一个具体实施例的对回复消息的传递过程进行跟踪的流程示意图;
图3为本申请一具体实施例的请求信息和回复消息的第一种传递示意图;
图4为本申请一个实施例的请求信息和回复消息的第二种传递示意图;
图5为本申请一个实施例的生成跟踪日志的流程示意图;
图6为本申请一个实施例的通过跟踪日志测评传递问题的流程示意图;
图7为本申请一个实施例的跟踪日志中各个传递节点之间的时间信息的一种展示示意图;
图8为本申请一个实施例的通过跟踪日志排查异常问题的流程示意图;
图9为本申请一个实施例的通过采样确定是否进行跟踪的流程示意图;
图10为本申请一个实施例的分布式系统链路跟踪装置基本结构示意图;
图11为本申请一个实施例的计算机设备基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
请参阅图1,图1为本实施例直播控制方法的基本流程示意图。
如图1所示,一种分布式系统链路跟踪方法,包括:
S1100、获取目标终端的请求信息,其中,响应所述请求信息的目标服务器节点位于分布式服务器系统中,所述请求信息传输至所述目标服务器需要通过指定的第一传递路径进行传输;
本实施方式中,分布式服务器系统为异步调用模型系统,服务调用方将请求发送出去后,并不等待结果的返回,在处理方处理完成后,在将处理结果主动发送至服务调用方。
分布式服务器系统中,每个服务器或者服务器集群均为分布式服务器系统的节点。各个节点负责不同的工作职能,但是也有部分节点负责与其他节点相同的职能,但是分布在不同的区域内。
对于终端发送至分布式服务器系统中的请求信息,传递至响应该请求信息的目标服务器时,需要通过至少两个服务器端的处理,例如,DNS(域名转换服务器)和目标服务器两个服务器节点。在分布式服务器系统中每个参与处理请求信息的服务器节点统称为传递节点,即传递节点包括目标服务器。
请求信息在分布式服务器系统中经过传递节点组成的传递路径为第一传递路径。因此,第一传递路径并非固定的传递路径,而是能够随着不同请求信息进行变化。但是,第一传递路径至少由两个传递节点组成。
目标终端为能够访问分布式服务器系统的客户端的载体终端。
S1200、根据预设的跟踪规则在所述请求信息中设置跟踪标签,其中,所述跟踪标签包括设定的采集事项;
当位于分布式服务器系统中的接入节点接收到目标终端发送的请求消息时,根据预设的跟踪规则设置跟踪标签。其中,跟踪规则为在请求信息的头部位置写入跟踪标签。
跟踪标签中写入采集事项,该采集事项为设定的请求信息每经过一个传递节点需要采集的信息,例如,通过采集各个传递节点响应该请求信息的时间戳。但是,采集事项采集的内容不局限于此,根据具体应用场景的不同,采集事项还能够采集(不限于):各个传递节点处理请求信息的时间类型、各个传递节点的服务器名称或者各个节点向下一个节点传递该请求信息时赋予该请求信息在下一个传递节点的请求事项等。
S1300、根据所述跟踪标签在所述第一传递路径的各个传递节点处采集所述采集事项生成第一跟踪消息。
根据在请求信息中写入的跟踪标签,在分布式服务器系统中,每到达一个传递节点时,即采集该节点中对应的采集事项的数据并加以保存。例如,请求信息从进入分布式服务器系统后,需要经过三个传送节点(包括接入节点和目标服务器),则该三个传递节点组成了第一传递路径,请求消息在经过每一个传递节点时,均需要读取该节点采集事项的采集消息,并加以存储。请求消息在处理完成前经过的所有传递节点的采集事项的信息总和,成为第一跟踪消息。由于,对于不同请求消息,组成第一传递路径的传递节点也可能有所不同,因此,组成第一跟踪消息的消息内容和消息类型也不尽相同。
在一些实施方式中,为了提高分布式服务器系统的整体效率,减轻系统进行数据跟踪的负担,对于请求信息的消息跟踪采用抽样的方式予以进行,在保证评价样本的同时,能够减少进行消息跟踪的数量,提高了分布式服务器系统的效率。
在一些实施方式中,通过对获取的跟踪消息进行深度处理,确定分布式服务器系统存在的问题。
上述实施方式在接收到用户终端发送的请求信息后,在请求信息中设置跟踪标签,该跟踪标签中设置有采集事项,根据该采集事项,在请求信息在分布式系统中进行传递时,在每个传递的节点均会采集该节点中的采集事项,将该请求信息经过的所有节点的事项进行采集生成第一跟踪消息。由于,跟踪标签被设置在请求信息中,因此,不需要通过监听反馈信息得到异常情况,异常情况发生时,会被跟踪标签进行记录,并统一呈现在第一跟踪消息中,实现了在异步调用模型的分布式系统中的数据跟踪,有利于分布式系统的优化和维护。
在一些实施方式中,在分布式服务器中处请求信息需要进行传递外,目标服务器生成回复消息也需要进行传递,才能够发送至目标终端。因此,需要对回复消息在分布式服务器中的传递过程进行跟踪。请参阅图,图2为本实施方式对回复消息的传递过程进行跟踪的流程示意图。
如图2所示,图1所示的S1300步骤之后,包括:
S1311、响应于所述请求信息向所述目标终端发送回复消息,其中,所述回复消息传输至所述目标终端需要通过指定的第二传递路径进行传输,且所述回复消息中包括所述跟踪标签;
当目标服务器在接收到请求信息后,对该请求信息进行处理,并将处理结果转化为对请求信息的回复信息,回复信息的发出方为目标服务器接收方为目标终端。
回复信息形成过程中,调用请求信息中的跟踪标签,以使该回复消息也具有跟踪各个传递节点的消息的能力。
S1312、根据所述跟踪标签在所述第二传递路径的各个传递节点处采集所述采集事项生成第二跟踪消息。
对于终端发送至分布式服务器系统中的请求信息,传递该回复消息至目标终端,需要通过至少两个服务器端的处理,例如,目标服务器和接入节点(例如DNS或任务分配节点)。在分布式服务器系统中每个参与回复信息处理的服务器节点统称为传递节点,即传递节点包括目标服务器。
回复信息在分布式服务器系统中经过传递节点组成的传递路径为第二传递路径。因此,第二传递路径并非固定的传递路径,而是能够随着不同回复信息进行变化。但是,第二传递路径至少由两个传递节点组成。
回复消息通过继承请求信息的跟踪标签具备了采集信息的能力,对第二传递路径中的各个传递节点的数据进行采集。
举例说明,设定采集事项为各个传递节点响应的时间戳,请参阅图3,图3为本实施例请求信息和回复消息的第一种传递示意图。
如图3所示,目标终端的完整请求链分为多个服务之间的单向消息交互构成,每两个服务之间的一次单向交互设为一个Span,每个Span涉及两个服务节点,分为四个阶段,分别是:
CS(Client Send):服务发起方发送请求;
SR(Server Recieve):服务接收方收到请求;
SS(Server Send):服务接收方返回响应;
CR(Client Recieve):服务发起方接收到响应。
请参阅图4,图4为本实施例请求信息和回复消息的第二种传递示意图。
如图4所示,在一些实施方式中,分布式服务器系统中采用异步通信直接返回回复消息的情况:ServerC处理完后不将处理结果返回给ServerB,而是直接返回给接入服务节点。
在一些实施方式中,在跟踪标签采集完成整个传递过程的数据后,将跟踪得到的数据进行记录生成跟踪日志。请参阅图5,图5为本实施例生成跟踪日志的流程示意图。
如图5所示,图2所述的S1312的步骤之后,包括:
S1321、获取预设的跟踪日志的日志模板;
本实施方式中设置日志模板,当跟踪标签的收集完成整个信息传递过程的信息后,调用该日志模板。日志模板中写明各个数据的写入格式和写入次序。
S1322、将所述第一跟踪消息和所述第二跟踪消息写入到所述日志模板中生成跟踪日志。
根据该日志模板将第一跟踪消息和第二跟踪消息按日志模板写入的格式和写入次序,依次写入到日志模板中生成跟踪日志。
将采集得到的跟踪消息生成对应的跟踪日志,有利于对跟踪消息进行存储,以便于后期对跟踪数据进行深度挖掘。
在一些实施方式中,在生成了跟踪日志后,根据跟踪日志中的各个传递节点的响应时间,计算得到与该跟踪日志具有对应关系的数据传递所经过的总时长。然后通过大数据比对分析该消息的传递是否存在问题。请参阅图6,图6为本实施例通过跟踪日志测评传递问题的流程示意图。
如图6所示,图5所示的S1322步骤之后,包括
S1331、获取所述跟踪日志中第一传递路径和第二传递路径的链路传输的总传输时间,其中,所述总传输时间为所述各个传递节点链路传输的传输时间的累加之和;
获取跟踪日志中第一传递路径和第二传递路径的链路传输的总传输时间。其中总传输时间的计算方式为各个传递节点链路传输的传输时间的累加之和。
举例说明,请参阅图7,图7为本实施例跟踪日志中各个传递节点之间的时间信息的一种展示示意图。
如图7所示,请求信息和回复信息在传递过程中,共经过4个传递节点,形成了4条传递路径,每条传递路径均为一条传输链路,通过跟踪日志收集的各个链路的传输时间,累加得到的时间之和为总传输时间。
S1332、将所述总传输时间与预设的第一时间阈值进行比对;
将计算得到的总传输时间与预设的第一时间阈值进行比对。其中,第一时间阈值为:通过历史跟踪数据的大数据集合,统计得到的同类请求信息和回复信息在分布式服务器系统中正常状态下最长的传输时间。
S1333、当所述总传输时间大于所述第一时间阈值时,确定所述跟踪日志为待查跟踪日志。
通过比对得到总传输时间大于第一时间阈值时,即表明该跟踪日志表征的传递过程出现一处或者多处异常,需要对该传递路径中的传输链路进行排查,以确认该异常所在的传输链路。当总传输时间小于等于第一时间阈值时,则表明跟踪日志表征的传递过程正常。在一些实施方式中,对正常的传输过程的传输时间进行排序,以排列出传输时间较短的一批传输节点,当具有同类型数据进行处理时,将该数据调度至上述节点进行处理,以提高分布式服务器系统的处理效率。
在一些实施方式中,对历史跟踪数据进行深度挖掘,确定超时跟踪日志表征的传输过程排查得到的异常问题,然后根据超时间段对异常问题的占比进行统计。例如,通过统计确定超时0-10ms的10000件异常问题时,70%的异常问题为该链路中某个节点的负载过大;20%的问题在于某个传输链路负载过大,造成网络拥堵;10%的问题在于链路层的物理硬件出现了接触不良。通过上述统计能够快速对后续相同超时的跟踪日志进行异常预测,同时,通过减少对应节点的任务分配数量,对出现的问题进行排查,提高异常排查的效率。
通过对传递过程中的传输总时间进行统计和比对,能够快速排查出异常链路或者节点,能够提高问题排查效率,同时,优化分布式服务器系统。
在一些实施方式中,在跟踪日志的总传输时间出现异常超时,需要对该跟踪日志中的所有传输链路进行排查,以确定造成异常超时的问题所在。请参阅图8,图8为本实施例通过跟踪日志排查异常问题的流程示意图。
如图8所示,图6所示的S1333之后,包括:
S1341、获取所述待查跟踪日志中所述各个传递节点之间链路传输的传输时间;
通过对跟踪日志中的总传输时间进行比对后,确认该总传输时间存在异常超时,定义该跟踪日志为待查跟踪日志。
对待查跟踪日志进行细分排查,获取待查跟踪日志中各个传递节点之间链路传输的传输时间。例如,如图7所示的传输过程,总传输时间出现异常超时,获取4个传输链路的传输时间。但是,传输链路的个数不局限于此,根据具体应用场景的不同,在一些实施方式中,传输链路能够是(不限于):2条、3条、5条或者更多条。
S1342、将所述传输时间依次与预设的第二时间阈值进行比对;
将待查跟踪日志的所有传输链路中的传输时间一次与第二时间阈值进行比对。其中,第二时间阈值为通过历史跟踪数据的大数据集合,统计得到的同类请求信息和回复信息在单个链路中正常传输最长的传输时间。但是,第二时间阈值不局限于此,根据具体应用场景的不同,在一些实施方式中,第二时间阈值为动态阈值,根据不同链路的传输时间,第二时间阈值能够是历史数据中该链路中正常传输最长的传输时间。
S1343、当所述传输时间大于所述第二时间阈值时,确定所述传输之间表征的传输链路层为问题链路。
通过比对得到单个传输链路的传输时间大于第二时间阈值时,即表明该链路中的节点或者链路本身出现了问题,从而确定出超时传输的问题所在。在一些实施方式中出现超时异常时,造成问题的传输链路不局限于一个,有可能是两个、三个或者整个链路均出现问题。因此,当排查出一个链路出现问题后,还需要对剩余的其他链路也进行比对排查。当传输时间小于等于第二时间阈值时,则表明该传输链路表征的传递过程正常。
在一些实施方式中,对历史跟踪数据进行深度挖掘,确定超时跟踪日志表征的传输过程排查得到的异常问题,然后根据超时间段对异常问题的占比进行统计。例如,通过统计链路中超过第二时间阈值的超时区间为1000-2000ms的10000件异常问题时,30%的异常问题为该链路中某个节点的负载过大;20%的问题在于某个传输链路负载过大,造成网络拥堵;50%的问题在于链路层的物理硬件出现了接触不良。通过上述统计能够快速对后续相同链路超时异常进行预测,提高异常排查的效率。
在一些实施方式中,分布式服务器系统对所有的请求消息和回复消息进行跟踪,会增大整个服务器系统的负担,降低服务器系统的工作效率。因此,对于请求消息和回复消息的跟踪需要兼顾效率。请参阅图9,图9为本实施例通过采样确定是否进行跟踪的流程示意图。
如图9所示,图1所示的S1200步骤之前,包括:
S1111、根据预设的采样规则判断所述请求信息是否为采样数据;
分布式服务器系统的接入端(DNS或者智能分配服务器),在接受到目标终端的发送的请求消息后,调用预存储的采样规则判断该请求信息是否为采样数据。
采样规则为预设的对众多目标终端发送的请求信息进行采样跟踪的方法。例如,设定每500个请求消息进行一次采样,则采样数据则为第500、1000、1500、2000等500的整数倍的序号所表征的请求数据。但是采样规则的采样率不局限于此,根据具体应用场景的不同,在一些实施方式中,设定的采样点的数能够更大或者更小。
在一些实施方式中,采样规则为随机采样,即设定每个请求信息进行采样的几率,但不设定具体地采样数。例如,设定每个请求信息的采样率为5%,则每个请求信息被采样的几率为5%,但是采样率的取值不局限于此,根据具体应用场景的不同,采样的取值能够更大或者更小。进行随机采样,能够增加采样的随机性,能够使采集的样本更加贴近分布式服务器系统实际运行的规律。在一些实施方式中,采样率动态设置,对于分布式服务器系统中,历史数据中出错率较高的请求信息类型,增大采样率;对于历史数据中出错率较低的请求信息类型,减小采样率。动态采样率的设定能够更加合理的分配跟踪资源,提高跟踪的效率。
S1112、当所述请求信息为采样数据时,确认在所述请求信息中设置跟踪标签。
通过判断该请求信息为采样数据,则确认在该请求信息上设置跟踪标签;否则,则不在该请求数据上设置跟踪标签。
通过采样规则对请求信息进行具有筛选性的添加跟踪消息,减轻了分布式服务器系统的负担,在对系统进行监控的同时兼顾了效率。
在上述实施方式中跟踪标签中包括跟踪ID(TraceId),其中,跟踪ID在分布式服务器系统中具有唯一性。能够使不同的请求消息之间的跟踪ID具有区别性,方便讲跟踪标签与目标终端进行一一对应。
为解决技术问题,本发明实施例还提供一种分布式系统链路跟踪装置。
具体请参阅图10,图10为本实施例分布式系统链路跟踪装置基本结构示意图。
如图10所示,一种分布式系统链路跟踪装置,包括:获取模块2100、处理模块2200和执行模块2300。其中,获取模块2100用于获取目标终端的请求信息,其中,响应请求信息的目标服务器节点位于分布式服务器系统中,请求信息传输至目标服务器需要通过指定的第一传递路径进行传输;处理模块2200用于根据预设的跟踪规则在请求信息中设置跟踪标签,其中,跟踪标签包括设定的采集事项;执行模块2300用于根据跟踪标签在第一传递路径中采集各个传递节点处采集事项生成第一跟踪消息。
分布式系统链路跟踪装置在接收到用户终端发送的请求信息后,在请求信息中设置跟踪标签,该跟踪标签中设置有采集事项,根据该采集事项,在请求信息在分布式系统中进行传递时,在每个传递的节点均会采集该节点中的采集事项,将该请求信息经过的所有节点的事项进行采集生成第一跟踪消息。由于,跟踪标签被设置在请求信息中,因此,不需要通过监听反馈信息得到异常情况,异常情况发生时,会被跟踪标签进行记录,并统一呈现在第一跟踪消息中,实现了在异步调用模型的分布式系统中的数据跟踪,有利于分布式系统的优化和维护。
在一些实施方式中,分布式系统链路跟踪装置还包括:第一回复模块和第一执行子模块。其中,第一回复模块用于响应于请求信息向目标终端发送回复消息,其中,回复消息传输至目标终端需要通过指定的第二传递路径进行传输,且回复消息中包括跟踪标签;第一执行子模块用于根据跟踪标签在第二传递路径的各个传递节点处采集事项生成第二跟踪消息。
在一些实施方式中,分布式系统链路跟踪装置还包括:第一获取子模块和第一处理子模块。其中,第一获取子模块用于获取预设的跟踪日志的日志模板;第一处理子模块用于将第一跟踪消息和第二跟踪消息写入到日志模板中生成跟踪日志。
在一些实施方式中,采集事项采集的信息为各个传递节点链路传输的传输时间,分布式系统链路跟踪装置还包括:第二获取子模块、第二处理子模块和第二执行子模块。其中,第二获取子模块用于获取跟踪日志中第一传递路径和第二传递路径的链路传输的总传输时间,其中,总传输时间为各个传递节点链路传输的传输时间的累加之和;第二处理子模块用于将总传输时间与预设的第一时间阈值进行比对;第二执行子模块用于当总传输时间大于第一时间阈值时,确定跟踪日志为待查跟踪日志。
在一些实施方式中,分布式系统链路跟踪装置还包括:第三获取子模块、第三处理子模块和第三执行子模块。其中,第三获取子模块用于获取待查跟踪日志中各个传递节点之间链路传输的传输时间;第三处理子模块用于将传输时间依次与预设的第二时间阈值进行比对;第三执行子模块用于当传输时间大于第二时间阈值时,确定传输之间表征的传输链路层为问题链路。
在一些实施方式中,分布式系统链路跟踪装置还包括:第四处理子模块和第四执行子模块。其中,第四处理子模块用于根据预设的采样规则判断请求信息是否为采样数据;第四执行子模块用于当请求信息为采样数据时,确认在请求信息中设置跟踪标签。
在一些实施方式中,跟踪标签中包括跟踪ID,其中,跟踪ID在分布式服务器系统中具有唯一性。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图11,图11为本实施例计算机设备基本结构框图。
如图11所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种分布式系统链路跟踪方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种分布式系统链路跟踪方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图10中获取模块2100、处理模块2200和执行模块2300的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有人脸图像关键点检测装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备在接收到用户终端发送的请求信息后,在请求信息中设置跟踪标签,该跟踪标签中设置有采集事项,根据该采集事项,在请求信息在分布式系统中进行传递时,在每个传递的节点均会采集该节点中的采集事项,将该请求信息经过的所有节点的事项进行采集生成第一跟踪消息。由于,跟踪标签被设置在请求信息中,因此,不需要通过监听反馈信息得到异常情况,异常情况发生时,会被跟踪标签进行记录,并统一呈现在第一跟踪消息中,实现了在异步调用模型的分布式系统中的数据跟踪,有利于分布式系统的优化和维护。
本发明还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例分布式系统链路跟踪方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
Claims (10)
1.一种分布式系统链路跟踪方法,其特征在于,包括:
获取目标终端的请求信息,其中,响应所述请求信息的目标服务器节点位于分布式服务器系统中,所述请求信息传输至所述目标服务器需要通过指定的第一传递路径进行传输;
在所述请求信息中设置跟踪标签,包括在所述请求信息的头部位置写入跟踪标签,其中,所述跟踪标签包括设定的采集事项,该采集事项包括设定的请求信息经过传递节点所需采集的信息;
根据所述跟踪标签在所述第一传递路径的各个传递节点处采集所述采集事项生成第一跟踪消息。
2.根据权利要求1所述的分布式系统链路跟踪方法,其特征在于,所述根据所述跟踪标签在所述第一传递路径的各个传递节点处采集所述采集事项生成第一跟踪消息之后,包括:
响应于所述请求信息向所述目标终端发送回复消息,其中,所述回复消息传输至所述目标终端需要通过指定的第二传递路径进行传输,且所述回复消息中包括所述跟踪标签;
根据所述跟踪标签在所述第二传递路径的各个传递节点处采集所述采集事项生成第二跟踪消息。
3.根据权利要求2所述的分布式系统链路跟踪方法,其特征在于,所述根据所述跟踪标签在所述第二传递路径的各个传递节点处采集所述采集事项生成第二跟踪消息之后,包括:
获取预设的跟踪日志的日志模板;
将所述第一跟踪消息和所述第二跟踪消息写入到所述日志模板中生成跟踪日志。
4.根据权利要求3所述的分布式系统链路跟踪方法,其特征在于,所述采集事项采集的信息为各个传递节点链路传输的传输时间,所述将所述第一跟踪消息和所述第二跟踪消息写入到所述日志模板中生成跟踪日志之后,包括:
获取所述跟踪日志中第一传递路径和第二传递路径的链路传输的总传输时间,其中,所述总传输时间为所述各个传递节点链路传输的传输时间的累加之和;
将所述总传输时间与预设的第一时间阈值进行比对;
当所述总传输时间大于所述第一时间阈值时,确定所述跟踪日志为待查跟踪日志。
5.根据权利要求4所述的分布式系统链路跟踪方法,其特征在于,当所述总传输时间大于所述第一时间阈值时,确定所述跟踪日志为待查跟踪日志之后,包括:
获取所述待查跟踪日志中所述各个传递节点之间链路传输的传输时间;
将所述传输时间依次与预设的第二时间阈值进行比对;
当所述传输时间大于所述第二时间阈值时,确定所述传输之间表征的传输链路层为问题链路。
6.根据权利要求1所述的分布式系统链路跟踪方法,其特征在于,所述在所述请求信息中设置跟踪标签之前,包括:
根据预设的采样规则判断所述请求信息是否为采样数据;
当所述请求信息为采样数据时,确认在所述请求信息中设置跟踪标签。
7.根据权利要求1-6任意一项所述的分布式系统链路跟踪方法,其特征在于,所述跟踪标签中包括跟踪ID,其中,所述跟踪ID在所述分布式服务器系统中具有唯一性。
8.一种分布式系统链路跟踪装置,其特征在于,包括:
获取模块,用于获取目标终端的请求信息,其中,响应所述请求信息的目标服务器节点位于分布式服务器系统中,所述请求信息传输至所述目标服务器需要通过指定的第一传递路径进行传输;
处理模块,用于在所述请求信息中设置跟踪标签,包括在所述请求信息的头部位置写入跟踪标签,其中,所述跟踪标签包括设定的采集事项,该采集事项包括设定的请求信息经过传递节点所需采集的信息;
执行模块,用于根据所述跟踪标签在所述第一传递路径的各个传递节点处采集所述采集事项生成第一跟踪消息。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述分布式系统链路跟踪方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述分布式系统链路跟踪方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811638529.0A CN111385122B (zh) | 2018-12-29 | 2018-12-29 | 分布式系统链路跟踪方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811638529.0A CN111385122B (zh) | 2018-12-29 | 2018-12-29 | 分布式系统链路跟踪方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111385122A CN111385122A (zh) | 2020-07-07 |
CN111385122B true CN111385122B (zh) | 2023-06-16 |
Family
ID=71220899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811638529.0A Active CN111385122B (zh) | 2018-12-29 | 2018-12-29 | 分布式系统链路跟踪方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111385122B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112104706B (zh) * | 2020-08-24 | 2022-12-20 | 中国银联股份有限公司 | 分布式系统中模型发布方法、装置、设备、存储介质 |
CN112311811B (zh) * | 2020-11-16 | 2022-10-18 | 深圳市欢太科技有限公司 | 全链路跟踪方法、装置、存储介质以及服务器 |
CN112910945B (zh) * | 2020-12-08 | 2023-06-30 | 江苏苏宁云计算有限公司 | 请求链路跟踪方法和业务请求处理方法 |
CN112860519A (zh) * | 2021-02-22 | 2021-05-28 | 中国工商银行股份有限公司 | 一种分布式系统的监测方法及装置 |
CN114547208B (zh) * | 2022-04-21 | 2022-09-02 | 北京奥星贝斯科技有限公司 | 用于全链路追踪事务的方法及原生分布式数据库 |
CN115391215B (zh) * | 2022-08-31 | 2023-11-17 | 江苏安超云软件有限公司 | 微服务架构下全链路调试的方法及应用 |
CN116962407B (zh) * | 2023-07-31 | 2024-02-13 | 上海中汇亿达金融信息技术有限公司 | 分布式链路标签的处理方法和装置、分布式链路追踪系统及分布式系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103684898A (zh) * | 2012-09-14 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种监测用户请求在分布式系统中运行的方法及装置 |
CN106487596A (zh) * | 2016-10-26 | 2017-03-08 | 宜人恒业科技发展(北京)有限公司 | 分布式服务跟踪实现方法 |
CN108183927A (zh) * | 2017-11-22 | 2018-06-19 | 链家网(北京)科技有限公司 | 一种分布式系统中链路调用的监控方法及系统 |
CN108228432A (zh) * | 2016-12-12 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种分布式链路跟踪、分析方法及服务器、全局调度器 |
-
2018
- 2018-12-29 CN CN201811638529.0A patent/CN111385122B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103684898A (zh) * | 2012-09-14 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种监测用户请求在分布式系统中运行的方法及装置 |
CN106487596A (zh) * | 2016-10-26 | 2017-03-08 | 宜人恒业科技发展(北京)有限公司 | 分布式服务跟踪实现方法 |
CN108228432A (zh) * | 2016-12-12 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种分布式链路跟踪、分析方法及服务器、全局调度器 |
CN108183927A (zh) * | 2017-11-22 | 2018-06-19 | 链家网(北京)科技有限公司 | 一种分布式系统中链路调用的监控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111385122A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111385122B (zh) | 分布式系统链路跟踪方法、装置、计算机设备及存储介质 | |
EP3906656B1 (en) | System and method for estimation of quality of experience (qoe) for web browsing using passive measurements | |
US8266279B2 (en) | System and method for generating and using fingerprints for integrity management | |
JP6097889B2 (ja) | 監視システム、監視装置、および検査装置 | |
CN110730246A (zh) | 一种微服务架构下的分布式链路跟踪方法 | |
CN109684052B (zh) | 事务分析方法、装置、设备及存储介质 | |
CN111143163B (zh) | 数据监控方法、装置、计算机设备和存储介质 | |
CN105159964A (zh) | 一种日志监控方法及系统 | |
US9929930B2 (en) | Reducing an amount of captured network traffic data to analyze | |
CN108228322B (zh) | 一种分布式链路跟踪、分析方法及服务器、全局调度器 | |
CN103081403A (zh) | 用于使用事件分析通信系统的操作的方法和装置 | |
CN111740860A (zh) | 日志数据传输链路监控方法及装置 | |
CN115220995A (zh) | 一种基于agent探针的微服务全链路分析方法 | |
CN113207146B (zh) | 无线通信网络质量监控系统及方法 | |
US20220103442A1 (en) | Internet of things operations monitoring system | |
CN110535699B (zh) | 基础设施确定方法、装置、电子设备及可读取存储介质 | |
CN110609761B (zh) | 确定故障源的方法、装置、存储介质和电子设备 | |
CN116578911A (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
CN114598622B (zh) | 数据监控方法及装置、存储介质、计算机设备 | |
Priovolos et al. | Using anomaly detection techniques for securing 5G infrastructure and applications | |
CN115664992A (zh) | 网络运行数据的处理方法、装置、电子设备及介质 | |
CN113807697A (zh) | 基于告警关联的派单方法及装置 | |
CN110532253B (zh) | 一种业务分析方法、系统及集群 | |
CN114598904B (zh) | 交互式网络电视iptv业务的故障定位方法和装置 | |
US11528211B2 (en) | Data inspection system for inspecting operating situations of multiple IoT devices in a plurality of target IoT systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230926 Address after: 31a, 15 / F, building 30, maple mall, bangrang Road, Brazil, Singapore Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd. Address before: Building B-1, North District, Wanda Commercial Plaza, Wanbo business district, No. 79, Wanbo 2nd Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province Patentee before: GUANGZHOU BAIGUOYUAN INFORMATION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |