CN113179179A - 一种用于定位服务调用成功率指标异常线索的算法 - Google Patents

一种用于定位服务调用成功率指标异常线索的算法 Download PDF

Info

Publication number
CN113179179A
CN113179179A CN202110435018.4A CN202110435018A CN113179179A CN 113179179 A CN113179179 A CN 113179179A CN 202110435018 A CN202110435018 A CN 202110435018A CN 113179179 A CN113179179 A CN 113179179A
Authority
CN
China
Prior art keywords
clue
algorithm
dimension combination
node
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110435018.4A
Other languages
English (en)
Other versions
CN113179179B (zh
Inventor
汪浩
荣国平
张贺
邵栋
周鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110435018.4A priority Critical patent/CN113179179B/zh
Publication of CN113179179A publication Critical patent/CN113179179A/zh
Application granted granted Critical
Publication of CN113179179B publication Critical patent/CN113179179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/133Protocols for remote procedure calls [RPC]

Abstract

本发明公开了一种用于定位服务调用成功率指标异常线索的算法,包括步骤S1.在服务被判断为异常时,自动加载当前时间段T2和前一个时间段T1内的服务调用数据;S2.遍历当前时间段T2和前一个时间段T1内的每一种维度组合E,该维度组合E作为节点建立树状结构;S3.根据剪枝算法筛选出线索节点;S4.基于S3得到的线索节点,使用层次遍历的方式搜索每一个节点并计算该节点所表示的维度组合E成为一个线索的可能性大小;S5.线索集合的计算。本发明为异常排查人员提供更好的支持,使得对于许多拥有大量用户的在线系统而言,可更快速的查找处根因。

Description

一种用于定位服务调用成功率指标异常线索的算法
技术领域
本发明涉及线上系统维护技术领域,具体为一种用于定位服务调用成功率指标异常线索的算法。
背景技术
对于许多拥有大量用户的在线系统而言,持续稳定地提供服务对业务至关重要,当服务出现异常并告警后需要算法及时发现解决。然而这类系统一般都非常庞大,这使得异常的方向和原因的排查都非常困难。对于拥有大量用户的线上系统而言,即使很小幅的服务调用成功率下降也会导致很多的用户受到影响。为了解决这个问题,当前几乎所有提供互联网业务的公司都会引入各种APM工具(应用性能管理)来监视公司的所有线上的服务,比如CAT、Pinpoint、Skywalking、Zipkin等开源工具。上述多种开源的APM工具在接入到系统服务中后提供了对服务运行中的实时监控数据,APM会对服务的请求调用、服务运行状态、硬件状态等进行监控,但是记录并提供数据并不意味着服务异常以及背后根因的自动暴露。实践中,通过算法和人工排查结合的方式处理指标值异常仍然是主流的方式。
此外,在指标的异常检测上,当前国内外研究中提出了多种方法,例如基于预测算法、基于统计、基于机器学习等算法,而实际上上述类型的异常检测方式在线上生产环境中实现较为困难,导致服务异常后找到原因较为艰难,有以下两点原因:
首先,事实上服务异常的真实原因在大型系统中并不是很容易被发现,尤其是当前几乎都是分布式部署的情况下,很可能同一个服务,有的地区正常,有的地区不正常,而一旦等到用户明显感知到服务异常,问题往往已经比较严重,这类事件的例子在通信、银行、证券、电商、社交等各种依托大型互联网系统的领域比比皆是,给业务造成极大影响;
其次,真实线上环境中,APM工具能够记录下每条服务调用所附带的维度属性值(例如,城市、运营商、平台、网络等),并且每个维度下都包含多个值(例如,运营商维度下有电信、移动、联通等),即每条服务调用在每个维度属性下都具备对应的属性值,例如一条安卓手机发出的使用上海地区的联通4G网络的服务调用,这使得事实上的根因是不可能自动被发现的,现有的研究事实上只能给出线索,真正的根因只能人工排查,这往往耗时耗力,甚至人工排查依据的线索未必是正确的。
简而言之,当线上的服务成功率指标出现异常后(我们称为症状),我们就需要通过识别算法提供有效的线索,进而辅助运维人员排查真实导致异常的根因,这是目前围绕在线服务异常根因定位的工作范式。需要指出的是,现有的国内外研究工作中,根因定位算法定位的实际上只能够达到单个微服务实例,即现有研究所给出的所谓根因事实上只只是辅助运维人员排查根因的线索,并不是问题真正的根本原因。这些线索可能能够很大程度上提高运维人员的工作效率,但是,往往离服务异常的根因还有较大的差距。这个差距需要人工排查方式去弥补。然而,一旦这个线索指引的方向有错误,那么排查人员的工作就白费了。甚至在很多时候,这些线索就算是对的,但是如果对应的根因是一个偶发因素,那么排查也没有实际意义。遗憾的是,现有的相关研究以及工具中,一方面将线索定义为根因,同时也没有任何线索优化措施,使得实际运维环境中的根因排查仍然耗时耗力,甚至是白费力气,极大地影响了相关技术在生产领域的应用。
本发明公开的一种用于定位服务调用成功率指标异常线索的算法,用于在高维线索的定位下,进一步实现对持续服务产生负面影响的线索的识别算法,在一个时间序列中不断优化线索排序,为异常排查人员提供更好的支持。
发明内容
本发明的目的在于提供一种用于定位服务调用成功率指标异常线索的算法,以解决上述背景技术中提出的问题。
如图1,为了解决上述技术问题,本发明提供如下技术方案:一种用于定位服务调用成功率指标异常线索的算法,包括步骤:
S1.在服务被判断为异常时,自动加载当前时间段T2和前一个时间段T1内的服务调用数据;
S2.遍历当前时间段T2和前一个时间段T1内的每一种维度组合E,该维度组合E作为节点建立树状结构;
S3.根据剪枝算法筛选出线索节点;
S4.基于S3得到的线索节点,使用层次遍历的方式搜索每一个节点并计算该节点所表示的维度组合E成为一个线索的可能性大小;
S5.线索集合的计算。
优选的,所述S2中维度组合E的建立方式包括:
以5个维度为例进行说明,5个维度分别为Network(N)、Platform(P)、ISP(I)、City(C)、APP(A),假设所述5个维度下分别具有5、3、8、310、100个纬度值,使用向量的形式表示一种维度组合E,则向量(N_2,*,*,*,A_5)表示由network属性下的第2个纬度值与APP属性下的第5个纬度值所组成的维度组合,对应到现实中,该维度组合E代表了“由APP-5使用N-2类型网络的所有请求”;
在树结构中,使用向量(*,*,*,*,*)表示树的根节点,树的第n层表示该层节点所表示的维度组合中仅存在n个有效的纬度值,而其他都使用通配符“*”表示,例如树的第二层中可能存在的维度组合有(N_1,*,I_3,*,*)、(*,P_1,*,C_10,*)、(*,*,I_4,*,A_20)等情况,如图2所示;
总的来看,如果树的每一个可能的节点(即每一种维度组合)都需要去创建,这个树的结构会非常的庞大,即树中的节点会非常巨大,对后续使用算法筛选线索的候选集合造成很严重的性能影响。以上述5个维度为例,第一层到第五层分别存在426、37639、528510、2498200、3720000,总计6784775种维度组合,所以需要使用合适的剪枝策略缩小搜索空间,提高筛选线索集合的算法性能。
优选的,所述S3中的剪枝算法筛选线索包括了基于ImpactFactor(IF)指标值进行的剪枝操作和基于调用基数阈值(Requests Threshold)进行的剪枝操作,没有被剪枝的节点作为线索。
优选的,所述基于ImpactFactor(IF)指标值进行的剪枝操作包括:
定义满足维度组合E的请求调用数量为Request Number(Rn),调用成功的数量为Successful Number(Sn),成功率为Successful Rate(SR),当前时间为T,则满足:
Figure BDA0003032578170000031
设置需要衡量的维度组合E0、与E0互补的维度组合E1以及维度组合E2(*,*,*,*,*),三者存在关系:
Rn(E0,T)+Rn(E1,T)=Rn(E2,T)
ImpactFactor(IF)指标的定义为:
IF(E0)=SR(E1,T)-SR(E0,T)
则基于IF指标值的剪枝策略为:当一个维度组合E的IF值为正时,对该结点以及该结点的子树进行剪枝操作。如果IF指标值为负数,则表示所有满足维度组合E0的请求对该时间段T的整体成功率呈现负影响(使整体成功率降低),则该时间段T的维度组合E0作为异常线索,降低的程度由IF的绝对值决定;同理,当IF指标值为正数时,表示所有满足E0的请求调用对整体成功率呈正影响(使整体成功率变高),则该时间段T的维度组合E0不是异常线索,需要进行剪枝处理,提高的程度由IF的绝对值决定,。
优选的,所述基于调用基数阈值(Requests Threshold)进行的剪枝操作包括:
假设异常检测的阈值为t,则当一个维度组合E满足下式:
Rn(E,T)<t*Rn(T)
表示该维度组合E的节点以及该节点的子树均需要进行剪枝操作,即调用基数阈值的剪枝策略是与异常检测的阈值t相关的,即如果设定指标异常检测中的差值阈值t为0.05时,则当前时间段内的成功率相较于上一个时间段成功率下降超过了该阈值,则视为异常情况。
优选的,所述S4包括了基于Contribution Power(CP)计算线索的可能性大小和基于Diversity Factor(DF)计算线索的可能性大小。
优选的,所述基于Contribution Power(CP)计算线索的可能性大小包括:
定义CP为:
CP(E,T)=IF(E,T2)-IF(E,T1)
当CP指标值为非负数时,视为对应的维度组合E为无效线索,当CP指标值为负数时,视为对应的维度组合E为有效线索,当CP指标值为非负数时,说明该维度组合在前后两个时间段内对整体成功率呈现负的影响相对减弱,因此不适合视作一条有效的线索;如果CP指标值为负数,则说明该维度组合在当前时间段内的对整体成功率的负面影响比前一个时间段更加严重,那么也就更适合作为一条有效线索。
优选的,所述基于Diversity Factor(DF)计算线索的可能性大小包括:
定义DF为:
Figure BDA0003032578170000041
上式中的p表示维度组合E在当前时间段T2内的调用成功率,即SR(E,T1),q表示维度组合E在前一个时间段T1内的调用成功率,即SR(E,T2),DF值越大,表明该维度组合E成为一个有效线索的概率越大,DF值为0时,表示该维度组合在前后两个时间段内的成功率不存在绝对变化,而当DF值越大时,说明该维度组合在前后的成功率指标变化越大,则越有可能成为一个有效的线索。
优选的,所述S5线索集合的计算包括:
对S3得到的线索节点进行遍历,对现有节点的CP值进行升序排序,记录下每一个节点对应的下标rank-A,再对现有节点的DF值进行降序排序,记录下节点的对应下标rank-B,将每个节点对应的下标rank-A和下标rank-B求和,根据该求和值对节点升序排序,将Top-N个节点对应的维度组合E作为有效的线索集合,本算法在高维线索的定位下,进一步实现了对持续服务产生负面影响的线索的识别算法,在一个时间序列中不断优化线索排序,为异常排查人员提供更好的支持,使得对于许多拥有大量用户的在线系统而言,可更快速的查找出根因,更快速的实现故障排查。
与现有技术相比,本发明所达到的有益效果是:本发明基于差值阈值的方式,实现了高维线索(高维指维度组合中存在多个维度)的定位,即在服务异常告警后能够快速定位到多组线索用于辅助根因排查工作;同时在此基础上进一步实现了对持续服务产生负面影响的线索的识别算法,在一个时间序列中不断优化线索排序,可为异常排查人员提供更好的支持,有利于异常排查人员更加快速、准确的找出根因,并减少甚至避免因线索指引方向有误导致的时间人力的浪费。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明在服务调用成功率指标异常时处理的流程图;
图2是本发明树状结构的示意图;
图3是实施例中对本发明进行性能测试的流程图;
图4是实施例中对本发明算法准确率的测试结果图;
图5是实施例中对R-Adtributor算法准确率的测试结果图;
图6是实施例中对Squeeze算法准确率的测试结果图;
图7是实施例中三种算法在耗时上的对比结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文使用的术语“准确率”是指排查到真实线索的准确率,当真实线索存在于算法所提供的线索集合中,表示本次算法的结果集定位正确;准确率则表示多次异常中的线索定位成功的比例。
本文中使用的术语“效果”是指算法在准确率的上的表现。
本文中使用的术语“效率”是指算法在特定配置的机器中运行的耗时情况。
本文中使用的术语“根因”是指导致服务成功率指标异常的根本原因,即服务中真实出现的问题。
本文中使用的术语“性能”涵盖了“效果”、“效率”两个方面。
本发明提供算法,包括步骤:
S1.在服务被判断为异常时,自动加载当前时间段T2和前一个时间段T1内的服务调用数据。
S2.遍历当前时间段T2和前一个时间段T1内的每一种维度组合E,该维度组合E作为节点建立树状结构,维度组合E的建立方式包括:
以5个维度为例进行说明,5个维度分别为Network(N)、Platform(P)、ISP(I)、City(C)、APP(A),假设所述5个维度下分别具有5、3、8、310、100个纬度值,使用向量的形式表示一种维度组合E,则向量(N_2,*,*,*,A_5)表示由network属性下的第2个纬度值与APP属性下的第5个纬度值所组成的维度组合,对应到现实中,该维度组合E代表了“由APP-5使用N-2类型网络的所有请求”;
在树结构中,使用向量(*,*,*,*,*)表示树的根节点,树的第n层表示该层节点所表示的维度组合中仅存在n个有效的纬度值,而其他都使用通配符“*”表示,例如树的第二层中可能存在的维度组合有(N_1,*,I_3,*,*)、(*,P_1,*,C_10,*)、(*,*,I_4,*,A_20)等情况,如图2所示;
总的来看,如果树的每一个可能的节点(即每一种维度组合)都需要去创建,这个树的结构会非常的庞大,即树中的节点会非常巨大,对后续使用算法筛选线索的候选集合造成很严重的性能影响。以上述5个维度为例,第一层到第五层分别存在426、37639、528510、2498200、3720000,总计6784775种维度组合,所以需要使用合适的剪枝策略缩小搜索空间,提高筛选线索集合的算法性能。
S3.根据剪枝算法筛选出线索节点,剪枝算法筛选线索包括了基于ImpactFactor(IF)指标值进行的剪枝操作和基于调用基数阈值(Requests Threshold)进行的剪枝操作,没有被剪枝的节点作为线索;
基于ImpactFactor(IF)指标值进行的剪枝操作包括:
定义满足维度组合E的请求调用数量为Request Number(Rn),调用成功的数量为Successful Number(Sn),成功率为Successful Rate(SR),当前时间为T,则满足:
Figure BDA0003032578170000071
设置需要衡量的维度组合E0、与E0互补的维度组合E1以及维度组合E2(*,*,*,*,*),三者存在关系:
Rn(E0,T)+Rn(E1,T)=Rn(E2,T)
ImpactFactor(IF)指标的定义为:
IF(E0)=SR(E1,T)-SR(E0,T)
则基于IF指标值的剪枝策略为:当一个维度组合E的IF值为正时,对该结点以及该结点的子树进行剪枝操作。如果IF指标值为负数,则表示所有满足维度组合E0的请求对该时间段T的整体成功率呈现负影响(使整体成功率降低),则该时间段T的维度组合E0作为异常线索,降低的程度由IF的绝对值决定;同理,当IF指标值为正数时,表示所有满足E0的请求调用对整体成功率呈正影响(使整体成功率变高),则该时间段T的维度组合E0不是异常线索,需要进行剪枝处理,提高的程度由IF的绝对值决定;
基于调用基数阈值(Requests Threshold)进行的剪枝操作包括:
假设异常检测的阈值为t,则当一个维度组合E满足下式:
Rn(E,T)<t*Rn(T)
表示该维度组合E的节点以及该节点的子树均需要进行剪枝操作,即调用基数阈值的剪枝策略是与异常检测的阈值t相关的,即如果设定指标异常检测中的差值阈值t为0.05时,则当前时间段内的成功率相较于上一个时间段成功率下降超过了该阈值,则视为异常情况。
S4.基于S3得到的线索节点,使用层次遍历的方式搜索每一个节点并计算该节点所表示的维度组合E成为一个线索的可能性大小,包括了基于Contribution Power(CP)计算线索的可能性大小和基于Diversity Factor(DF)计算线索的可能性大小;
基于Contribution Power(CP)计算线索的可能性大小包括:
定义CP为:
CP(E,T)=IF(E,T2)-IF(E,T1)
当CP指标值为非负数时,视为对应的维度组合E为无效线索,当CP指标值为负数时,视为对应的维度组合E为有效线索,当CP指标值为非负数时,说明该维度组合在前后两个时间段内对整体成功率呈现负的影响相对减弱,因此不适合视作一条有效的线索;如果CP指标值为负数,则说明该维度组合在当前时间段内的对整体成功率的负面影响比前一个时间段更加严重,那么也就更适合作为一条有效线索;
优选的,所述基于Diversity Factor(DF)计算线索的可能性大小包括:
定义DF为:
Figure BDA0003032578170000081
上式中的p表示维度组合E在当前时间段T2内的调用成功率,即SR(E,T1),q表示维度组合E在前一个时间段T1内的调用成功率,即SR(E,T2),DF值越大,表明该维度组合E成为一个有效线索的概率越大,DF值为0时,表示该维度组合在前后两个时间段内的成功率不存在绝对变化,而当DF值越大时,说明该维度组合在前后的成功率指标变化越大,则越有可能成为一个有效的线索。
S5.线索集合的计算包括:
对S3得到的线索节点进行遍历,对现有节点的CP值进行升序排序,记录下每一个节点对应的下标rank-A,再对现有节点的DF值进行降序排序,记录下节点的对应下标rank-B,将每个节点对应的下标rank-A和下标rank-B求和,根据该求和值对节点升序排序,将Top-N个节点对应的维度组合E作为有效的线索集合。
实施例:如图3所示,在现有的真实数据集上将本发明的算法与已有的研究工作进行对比;
首先采集基础数据集,基本数据集来自美团公司某一个服务,采集了该服务与2020年1月1日至31日的所有服务调用数据,同样采集了每一条服务调用所附带的维度属性信息,基础数据集以5分钟为一个时间间隔,即在考虑整体成功率指标时,考虑5分钟时间窗口内的成功率指标;
接着构建试验测试数据集,随机选择某一天的某一个时间段,再随机选择一个维度组合,对满足该维度组合的服务调用进行异常插入,即直接将调用成功修改为调用失败,造成该时间段内的整体成功率呈现一定程度的下降,即满足了将该时间段服务视作异常的条件,则成功构建了一个测试数据集s1;在每一天内多次(同一个时间段多次试验或者不同的时间段)进行异常插入构建多个不同的数据集sn
得到表1-展示了每一天内所有时间段的平均服务调用量(Avg.Calls)和每一天内的测试数量(Frequency):
表1试验数据集
Date 1日 2日 3日 4日 5日 6日 7日 8日 9日 10日
Avg.Calls 319395 249461 282216 321834 268042 232335 241360 247066 255196 286412
Frequency 203 156 193 174 170 194 169 164 144 187
Date 11日 12日 13日 14日 15日 16日 17日 18日 19日 20日
Avg.Calls 325889 288799 255659 265029 267536 270884 291163 317485 295861 276718
Frequency 207 174 196 128 155 132 152 199 177 183
Date 21日 22日 23日 24日 25日 26日 27日 28日 29日 30日 31日
Avg.Calls 238675 204100 139881 78043 89849 81262 80706 75915 70505 66873 63041
Frequency 176 209 178 164 188 231 210 171 194 170 162
然后在每天的多个测试集上运行本发明的算法,以及运行已有的相关算法Squeeze、R-Adtributor,计算每天内的算法准确率,对比三种算法在每一天的所有测试数据集中的性能表现,得到图4-本发明算法准确率的测试结果图、图5-R-Adtributor算法准确率的测试结果图、图6-Squeeze算法准确率的测试结果图,展示了三种算法在Top-3、Top-5、Top-10的结果集中的准确率,得到表2,展示了三种算法的最低、平均、最高的准确率,可以明确的知道本发明的算法在准确率的表现优于Squeeze算法和R-Adtributor算法,对异常因素的排查具有重要意义;
表2准确率对比
Figure BDA0003032578170000101
最后统计本发明的算法和Squeeze、R-Adtributor的运行耗时(效率),得到图7-三种算法在耗时上的对比结果图,结果显示本发明算法与R-Adtributor算法都能在100ms内完成线索集合的定位,而Squeeze算法则需要3到15秒左右,综合效率与准确率的表现,能够看出本发明算法具有更好的性能。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于定位服务调用成功率指标异常线索的算法,其特征在于,包括步骤:
S1.在服务被判断为异常时,自动加载当前时间段T2和前一个时间段T1内的服务调用数据;
S2.遍历当前时间段T2和前一个时间段T1内的每一种维度组合E,该维度组合E作为节点建立树状结构;
S3.根据剪枝算法筛选出线索节点;
S4.基于S3得到的线索节点,使用层次遍历的方式搜索每一个节点并计算该节点所表示的维度组合E成为一个线索的可能性大小;
S5.线索集合的计算。
2.根据权利要求1所述的一种用于定位服务调用成功率指标异常线索的算法,其特征在于,所述S3中的剪枝算法筛选线索包括了基于ImpactFactor指标值进行的剪枝操作和基于调用基数阈值Requests Threshold进行的剪枝操作,没有被剪枝的节点作为线索,所述ImpactFactor由IF表示。
3.根据权利要求2所述的一种用于定位服务调用成功率指标异常线索的算法,其特征在于,所述基于IF指标值进行的剪枝操作包括:
定义满足维度组合E的请求调用数量为Request Number,所述Request Number由Rn表示,调用成功的数量为Successful Number,所述Successful Number由Sn表示,成功率为Successful Rate,所述Successful Rate由SR表示,当前时间为T,则满足:
Figure FDA0003032578160000011
设置需要衡量的维度组合E0、与E0互补的维度组合E1以及维度组合E2(*,*,*,*,*),三者存在关系:
Rn(E0,T)+Rn(E1,T)=Rn(E2,T)
IF指标的定义为:
IF(E0)=SR(E1,T)-SR(E0,T)
则基于IF指标值的剪枝策略为:当一个维度组合E的IF值为正时,对该结点以及该结点的子树进行剪枝操作。
4.根据权利要求3所述的一种用于定位服务调用成功率指标异常线索的算法,其特征在于,所述基于调用基数阈值Requests Threshold进行的剪枝操作包括:
假设异常检测的阈值为t,则当一个维度组合E满足下式:
Rn(E,T)<t*Rn(T)
表示该维度组合E的节点以及该节点的子树均需要进行剪枝操作。
5.根据权利要求3所述的一种用于定位服务调用成功率指标异常线索的算法,其特征在于,所述S4包括了基于Contribution Power计算线索的可能性大小和基于DiversityFactor计算线索的可能性大小,所述Contribution Power由CP表示,所述DiversityFactor由DF表示。
6.根据权利要求5所述的一种用于定位服务调用成功率指标异常线索的算法,其特征在于,所述基于CP计算线索的可能性大小包括:
定义CP为:
CP(E,T)=IF(E,T2)-IF(E,T1)
当CP指标值为非负数时,视为对应的维度组合E为无效线索,当CP指标值为负数时,视为对应的维度组合E为有效线索。
7.根据权利要求6所述的一种用于定位服务调用成功率指标异常线索的算法,其特征在于,所述基于Diversity Factor计算线索的可能性大小包括,所述Diversity Factor由DF表示:
定义DF为:
Figure FDA0003032578160000021
上式中的p表示维度组合E在当前时间段T2内的调用成功率,即SR(E,T1),q表示维度组合E在前一个时间段T1内的调用成功率,即SR(E,T2),DF值越大,表明该维度组合E成为一个有效线索的概率越大。
8.根据权利要求6所述的一种用于定位服务调用成功率指标异常线索的算法,其特征在于,所述S5线索集合的计算包括:
对S3得到的线索节点进行遍历,对现有节点的CP值进行升序排序,记录下每一个节点对应的下标rank-A,再对现有节点的DF值进行降序排序,记录下节点的对应下标rank-B,将每个节点对应的下标rank-A和下标rank-B求和,根据该求和值对节点升序排序,将Top-N个节点对应的维度组合E作为有效的线索集合。
CN202110435018.4A 2021-04-22 2021-04-22 一种用于定位服务调用成功率指标异常线索的方法 Active CN113179179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110435018.4A CN113179179B (zh) 2021-04-22 2021-04-22 一种用于定位服务调用成功率指标异常线索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110435018.4A CN113179179B (zh) 2021-04-22 2021-04-22 一种用于定位服务调用成功率指标异常线索的方法

Publications (2)

Publication Number Publication Date
CN113179179A true CN113179179A (zh) 2021-07-27
CN113179179B CN113179179B (zh) 2023-01-06

Family

ID=76924361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110435018.4A Active CN113179179B (zh) 2021-04-22 2021-04-22 一种用于定位服务调用成功率指标异常线索的方法

Country Status (1)

Country Link
CN (1) CN113179179B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242613A (zh) * 2022-08-03 2022-10-25 浙江网商银行股份有限公司 目标节点确定方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825769A (zh) * 2019-10-11 2020-02-21 苏宁金融科技(南京)有限公司 一种数据指标异常的查询方法和系统
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN111444247A (zh) * 2020-06-17 2020-07-24 北京必示科技有限公司 一种基于kpi指标的根因定位方法、装置及存储介质
CN111506637A (zh) * 2020-06-17 2020-08-07 北京必示科技有限公司 一种基于kpi指标的多维异常检测方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825769A (zh) * 2019-10-11 2020-02-21 苏宁金融科技(南京)有限公司 一种数据指标异常的查询方法和系统
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN111444247A (zh) * 2020-06-17 2020-07-24 北京必示科技有限公司 一种基于kpi指标的根因定位方法、装置及存储介质
CN111506637A (zh) * 2020-06-17 2020-08-07 北京必示科技有限公司 一种基于kpi指标的多维异常检测方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242613A (zh) * 2022-08-03 2022-10-25 浙江网商银行股份有限公司 目标节点确定方法以及装置
CN115242613B (zh) * 2022-08-03 2024-03-15 浙江网商银行股份有限公司 目标节点确定方法以及装置

Also Published As

Publication number Publication date
CN113179179B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN107194623B (zh) 一种团伙欺诈的发现方法及装置
CN111614690B (zh) 一种异常行为检测方法及装置
CN105721187A (zh) 一种业务故障诊断方法及装置
EP3418910A1 (en) Big data-based method and device for calculating relationship between development objects
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
CA3144126A1 (en) Method of and system for constructing page access path
CN113179179B (zh) 一种用于定位服务调用成功率指标异常线索的方法
CN106951360B (zh) 数据统计完整度计算方法和系统
CN115719283A (zh) 一种智能化会计管理系统
CN114445134A (zh) 一种大数据营销方法、装置及介质
CN109918547A (zh) 一种数据库会话管理方法及装置
CN113378231A (zh) 一种大数据应用开放平台的隐私计算方法及应用
CN117332161A (zh) 一种社交网络话题讨论影响力检测方法、系统
CN117827593A (zh) 一种基于异常识别结果确定异常原因的方法和系统
CN108335236A (zh) 一种房源泄漏经纪人检测方法及装置
CN116225752A (zh) 基于故障模式库的微服务系统故障根因分析方法及系统
CN114913015A (zh) 一种热点账户识别方法、装置及电子设备
CN113360309A (zh) 一种用于识别服务零碎异常线索的方法
CN115001954A (zh) 一种网络安全态势感知方法、装置及系统
CN110399261B (zh) 一种基于共现图的系统告警聚类分析方法
CN113806753A (zh) 一种基于标签计算的内网主机威胁预测方法及系统
CN112241443B (zh) 数据质量监测方法、装置、计算设备及计算机存储介质
CN113065001A (zh) 一种故障止损方法及装置
CN112907009B (zh) 标准化模型的构建方法、装置、存储介质及设备
CN111597097B (zh) 一种大数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant