CN111190756A

CN111190756A - 一种基于调用链数据的根因定位算法

Info

Publication number: CN111190756A
Application number: CN201911129086.7A
Authority: CN
Inventors: 陈鹏飞; 关子杰; 郑子彬
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-05-22
Anticipated expiration: 2039-11-18
Also published as: CN111190756B

Abstract

本发明公开一种基于调用链数据的根因定位算法，对时间窗口的调用链数据进行异常检测，若出现异常，则从每个异常请求的请求头开始遍历调用链数据，通过3δ异常过滤从每个请求访问的服务实例中过滤异常并逐个打分，将以上得分情况、服务实例间依赖关系和每个请求覆盖服务实例信息输入自定义方阵迭代计算得到服务实例异常得分；将正常请求的服务实例被请求覆盖情况、请求覆盖服务实例情况以及服务实例间依赖关系输入自定义方阵迭代计算得到服务实例正常得分；结合服务实例异常得分和正常得分，采用频谱方法计算每个服务实例的最终得分，并根据最终得分高低返回可疑服务实例列表。本发明输出一个具有排名顺序的故障根因列表，缩小运维人员排查范围。

Description

一种基于调用链数据的根因定位算法

技术领域

本发明涉及智能运维领域，尤其涉及一种基于调用链数据的根因定位算法。

背景技术

当前软件架构正迅速从单一体系转变为微服务体系结构。利用微服务架构，应用程序可以根据业务功能将复杂的交互解耦成许多松耦合度的细粒度服务。但由于微服务环境下各个服务之间复杂的依赖关系、持续集成和交付工具的应用以及动态运行时环境，当环境中其中一个或者几个服务发生错误或故障时，会造成一系列服务的级联失效。因此当故障发生时，及时定位到故障的根本原因十分关键。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种基于调用链数据的根因定位算法。

本发明旨在至少在一定程度上解决上述技术问题。

为了达到上述技术效果，本发明的技术方案如下：

一种基于调用链数据的根因定位算法，包括：

S10对时间窗口的调用链数据进行异常检测，若当前时间窗口出现异常，则进入S20；

S20从每个异常请求的请求头开始遍历调用链数据，对每个请求访问的服务实例进行3δ异常过滤，通过对异常过滤结果中的服务实例逐个打分，将异常请求的得分、服务实例间的依赖关系和每个请求覆盖的服务实例信息输入自定义的 PageRank矩阵进行迭代，得出服务实例异常得分；

S30对每个正常请求，将服务实例被请求覆盖情况、请求覆盖服务实例情况以及服务实例间依赖关系输入自定义的PageRank矩阵进行迭代，得出服务实例正常得分；

S40根据S20所得的服务实例异常得分和S30所得的服务实例正常得分，采用频谱方法计算每个服务实例的最终得分，并根据得分高低返回可疑服务实例列表。

优选地，所述所述异常检测采用Kmeans聚类异常检测方法，具体如下：

S101对上一个未出现异常的时间窗口tw0内的调用链数据以及当前时间窗口tw1内的调用链数据，对每个请求总时延进行一维Kmeans聚类，设置聚类类别为2，对应得到两个类的类中心cen0和cen1，两个类的点个数n0和n1；

S102将n0或n1与参与聚类所有点的噪声临界值进行比较，若n0或n1小于噪声临界值，则舍弃该类的所有点，重新对存在的点进行聚类；

S103比较两个类的类中心cen0和cen1，若cen0＜cen1则交换类中心cen0和 cen1；

S104若(cen0-cen1)＞σ*cen1，则认为当前时间窗口tw1发生异常，异常请求为总时延值经过聚类后中心在cen0处的一类请求。

优选地，所述20中从每个异常请求的请求头开始遍历调用链数据，对每个请求访问的服务实例进行3δ异常过滤的方法具体如下：

S201从头至尾深度优先遍历每个异常请求，对于单个异常请求r，设异常服务实例集合为G_an，计算上一个未现异常的时间窗口tw0中每个服务实例的访问时延平均值μ_s0及其标准差δ_s0，计算当前时间窗口tw1中每个服务实例访问时延平均值μ_s1，若μ_s1＞μ_s0+3δ_s0，则该服务实例判定为异常；

S202从头至尾深度优先遍历每个异常请求，若服务实例与其他服务实例存在父子依赖关系，计算该服务实例所访问的所有其他服务实例的时延之和，通过该服务实例的时延减去所访问的所有其他服务实例的时延之和得到该服务实例的自身耗时，对于时间窗口tw0中的每个服务实例n计算服务自身耗时，设为d_cn；若服务实例n在集合G_an中，则其在时间窗口tw1中异常请求的自身耗时为d_fn，若服务实例n不在集合G_an中，则d_fn＝d_cn；

S203对于每个异常请求r，计算每个服务实例的异常得分

其中n为异常请求r中访问该服务实例的次数，l为服务实例所在层级，即从异常请求r访问第一个服务实例开始，第l次访问访问该服务实例；d_fn为该服务实例正常工作时访问延迟，d_cn为该服务实例异常时访问延迟；ω为可调参数，控制层级得分和异常程度得分的比例；

S204对所有异常请求，构造PageRank矩阵

该PageRank 矩阵可以看做作向量

自乘的结果，其中n_m为系统中m 个服务实例，r_k为时间窗口tw1中k个异常请求，p_fnn为服务实例关系子矩阵，若服务实例A访问服务实例B、C，则P_fnn(A，B)＝1，P_fnn(A，C)＝1，p_fnr为服务实例对异常请求贡献得分子矩阵，对于单个异常请求r和单个服务实例n， p_fnr(n,r)＝s_n，p_frn为异常请求对服务实例贡献得分子矩阵，若异常请求r访问了服务实例A、B、C，则

S205根据异常请求覆盖的服务实例数量构造传递向量

对应PageRank矩阵P_f，传递向量R中[0，...，0]代表随机跳转到服务实例的概率为0，

分别为随机跳转到异常请求r₁到异常请求r_k的概率，其中，N_rk表示第k个异常请求访问的服务实例数量；

S206将PageRank矩阵p_a作为转移矩阵，R作为传递向量，取预定转移系数输入PageRank算法进行迭代计算，得出每个服务实例的异常得分s_fn。

优选地，所述S30具体为：对所有正常请求，构造PageRank矩阵

子矩阵p_cnn为正常请求服务实例关系子矩阵，p_crn为正常请求对服务实例贡献得分子矩阵，P_cnr对服务实例对正常请求贡献得分子矩阵，若服务实例A被正常请求r₁,r₂访问，则

将PageRank 矩阵P_C作为转移矩阵，根据正常请求覆盖的服务实例数量构造传递向量

传递向量R中[0，...，0]代表随机跳转到服务实例的概率为0，

分别为随机跳转到正常请求r₁到正常请求r_k的概率，其中，N_rk表示第k个正常请求访问的服务实例数量，取预定转移系数输入PageRank算法进行迭代计算，得出每个服务实例的正常得分S_sn。

优选地，所述S40具体为：

S401计算频谱方法所需统计量，所需统计量至少包括：经过服务实例n的异常请求数量e_fn，经过服务实例n的正常请求数量e_pn，未经过服务实例n的异常请求数量n_fn，未经过服务实例n的正常请求数量n_pn，将e_fn调整为

将e_pn调整为

将n_fn调整为

将n_pn调整为

N_f代表时间窗口tw1中异常请求的数量，N_p代表时间窗口 tw1中正常请求的数量；

S402对于没有被任何正常请求访问的服务实例n，其正常得分为所有s_sn得分最小值的

对于没有被任何异常请求访问的服务实例n，其异常得分为所有 s_fn得分最小值的

S403对每个服务实例n，通过

计算其最终得分，并按照得分从高到低排序，最后返回可疑服务实例列表。

优选地，所述预定转移系数d＝0.85。

优选地，所述σ∈[2,3]。

与现有技术相比，本发明技术方案的有益效果是：本发明通过时间窗口是对调用链数据在时间维度上进行划分，自动化的根因定位，当故障发生时能够自动触发该算法并对微服务环境下的服务进行分析，输出一个故障根因列表，排名越高的服务约有可能是根因，大大缩小运维人员排查范围。同时，本发明能够地充分利用调用链数据，包括调用链数据中的服务示例依赖关系以及请求在每个服务示例上的访问时间，并利用时间窗口内的一定数量请求为根因定位提供不同线索，让调用链数据发挥最大价值，而非当前系统中发生故障后人工检查调用链数据。

附图说明

图1为本发明的方法流程示意图。

图2为本发明服务实施例的服务依赖关系图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、 “长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、 “右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、 “逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中， “多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、 “固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下” 可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于调用链数据的根因定位算法，包括：

本发明的时间窗口包含了这个时间窗口内所有到达系统的请求，时间窗口只是对调用链数据在时间维度上进行划分。

S103比较两个类的类中心cen0和cen1，若cen0＜cen1则交换类中心 cen0和cen1；

S104若(cen0-cen1)＞σ*cen1，则认为当前时间窗口tw1发生异常，异常请求为总时延值经过聚类后中心在cen0处的一类请求，σ代表两个类类中心的间距大小，σ∈[2,3]。

S203对于每个异常请求r，计算每个服务实例的异常得分

其中n为异常请求r中访问该服务实例的次数，l为服务实例所在层级，即从异常请求r访问第一个服务实例开始，第l 次访问访问该服务实例；d_fn为该服务实例正常工作时访问延迟，d_cn为该服务实例异常时访问延迟；ω为可调参数，控制层级得分和异常程度得分的比例；

S204对所有异常请求，构造PageRank矩阵

该PageRank 矩阵可以看做作向量

自乘的结果，其中n_m为系统中m 个服务实例，r_k为时间窗口tw1中k个异常请求，p_fnn为服务实例关系子矩阵，若服务实例A访问服务实例B、C，则P_fnn(A，B)＝1，P_fnn(A，C)＝1，p_fnr为服务实例对异常请求贡献得分子矩阵，对于单个异常请求r和单个服务实例n，p_fnr(n,r)＝s_n，p_frn为异常请求对服务实例贡献得分子矩阵，若异常请求r访问了服务实例A、B、C，则

S205根据异常请求覆盖的服务实例数量构造传递向量

优选地，所述S30具体为：对所有正常请求，构造PageRank矩阵

传递向量R中[0，...，0]代表随机跳转到服务实例的概率为0，

优选地，所述S40具体为：

将e_pn调整为

将n_fn调整为

将n_pn调整为

N_f代表时间窗口tw1中异常请求的数量，N_p代表时间窗口tw1中正常请求的数量；

S403对每个服务实例n，通过

优选地，所述预定转移系数d＝0.85。

实操实例：

S1：假设有5个异常请求A、B、C、D、E，其是否异常已经标定，因此无异常检测步骤，该步骤也非本发明的内容，而应视作本发明的前置条件或触发器；表1为实施例的请求详细情况，

表1

S2：对每个异常请求进行如下计算，首先，从请求头开始遍历调用链，对每个请求访问的服务实例进行3δ异常过滤；然后，对异常过滤的结果，对异常的服务实例逐个打分；最后，将得分情况、所有服务实例的依赖关系和每个请求覆盖的服务实例信息输入自定义的PageRank矩阵进行迭代，得出服务实例异常得分；

S21：从头至尾深度优先遍历每个异常请求，使用3δ方法过滤异常服务实例，在实施例中请求3、4、5的A、C、D服务实例，都为异常服务实例；

S22：从头至尾深度优先遍历每个异常请求，对请求其它服务的服务实例，使用该服务实例的访问时延减去所有访问的服务总时延，还原在该服务实例自身耗时。表2为异常请求3～5中节点自身耗时；

表2

S23：对每个请求r，按照该步骤所述公式计算每个服务实例的异常得分；

S24：对所有异常请求，构造如下PageRank矩阵

对实施例而言，

S25：根据请求覆盖的服务实例数量构造传递向量

其中，N_rk表示第k个请求访问的服务实例数量；

S26：将PageRank矩阵P_a作为转移矩阵，R作为传递向量，取转移系数 d＝0.85输入PageRank算法进行迭代计算，得出每个服务实例的异常得分， [s_fA，s_fB，s_fC，s_fD，s_fE]＝[0.063，0.10，0.26，0.11]；

S3：对所有异常请求，构造如下PageRank矩阵

对实施例而言，

传递向量

取转移系数d＝0.85输入PageRank算法进行迭代计算，得出每个服务实例的异常得分，[s_sA，s_sB，s_sC，s_sE]＝[0.171，0.137，0.132，0.133]；

S4：对S2和S3步骤的服务实例异常得分和正常得分，调整频谱方法，计算每个服务实例的最终得分，[S_A，S_B，S_C，S_D，S_E]＝[0.19，0.03，0.35，1.76，0.37]；返回的可以服务实例列表为[S_D，S_E，S_C，S_A，S_B]。

相同或相似的标号对应相同或相似的部件。

Claims

1.一种基于调用链数据的根因定位算法，其特征在于，包括：

S20从每个异常请求的请求头开始遍历调用链数据，对每个请求访问的服务实例进行3δ异常过滤，对异常过滤结果中的服务实例逐个打分，将异常请求的得分、服务实例间的依赖关系和每个请求覆盖的服务实例信息输入自定义的PageRank矩阵进行迭代，得出服务实例异常得分；

S40根据S20所得的服务实例异常得分和S30所得的服务实例正常得分，采用频谱方法计算每个服务实例的最终得分，并根据最终得分高低返回可疑服务实例列表。

2.如权利要求1所述的基于调用链数据的根因定位算法，其特征在于，所述所述异常检测采用Kmeans聚类异常检测方法，具体如下：

S103比较两个类的类中心cen0和cen1，若cen0＜cen1则交换类中心cen0和cen1；

S104若(cen0-cen1)＞σ*cen1，则认为当前时间窗口tw1发生异常，异常请求为总时延值经过聚类后中心在cen0处的一类请求，σ代表两个类类中心的间距大小。

3.如权利要求1所述的基于调用链数据的根因定位算法，其特征在于，所述20中从每个异常请求的请求头开始遍历调用链数据，对每个请求访问的服务实例进行3δ异常过滤的方法具体如下：

S203对于每个异常请求r，计算每个服务实例的异常得分

S204对所有异常请求，构造PageRank矩阵

该PageRank矩阵可以看做作向量

自乘的结果，其中n_m为系统中m个服务实例，r_k为时间窗口tw1中k个异常请求，p_fnn为服务实例关系子矩阵，若服务实例A访问服务实例B、C，则P_fnn(A，B)＝1，P_fnn(A，C)＝1，p_fnr为服务实例对异常请求贡献得分子矩阵，对于单个异常请求r和单个服务实例n，p_fnr(n,r)＝s_n，p_frn为异常请求对服务实例贡献得分子矩阵，若异常请求r访问了服务实例A、B、C，则