CN117493068B - 一种微服务系统根因定位方法、设备及存储介质 - Google Patents

一种微服务系统根因定位方法、设备及存储介质 Download PDF

Info

Publication number
CN117493068B
CN117493068B CN202410006734.4A CN202410006734A CN117493068B CN 117493068 B CN117493068 B CN 117493068B CN 202410006734 A CN202410006734 A CN 202410006734A CN 117493068 B CN117493068 B CN 117493068B
Authority
CN
China
Prior art keywords
event
micro
service system
sequence
audit log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410006734.4A
Other languages
English (en)
Other versions
CN117493068A (zh
Inventor
张竞超
张泽锟
余螯
王健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Sigao Intelligent Technology Co ltd
Original Assignee
Anhui Sigao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Sigao Intelligent Technology Co ltd filed Critical Anhui Sigao Intelligent Technology Co ltd
Priority to CN202410006734.4A priority Critical patent/CN117493068B/zh
Publication of CN117493068A publication Critical patent/CN117493068A/zh
Application granted granted Critical
Publication of CN117493068B publication Critical patent/CN117493068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种微服务系统根因定位方法、设备及存储介质,方法包括步骤:生成微服务系统指标异常点事件;生成微服务系统审计日志异常点事件;对齐所述指标异常点事件与所述审计日志异常点事件;构建基于多维霍克斯过程的异常点事件因果图;推断因果图边权重;排序异常事件根因;本发明有益效果是:以离散事件的形式刻画了异常事件,实现了审计日志数据和指标数据的对齐,同时采用基于多维霍克斯过程的因果图构建方法进行根因定位工作,具有很好的可解释性和实用性。

Description

一种微服务系统根因定位方法、设备及存储介质
技术领域
本发明涉及智能运维领域,尤其涉及一种微服务系统根因定位方法、设备及存储介质。
背景技术
随着互联网和云计算的飞速发展,基于微服务的软件架构已成为软件高可用 性、可扩展性、弹性伸缩的代名词,大型软件系统借助微服务架构可以更好地进行软件开发设计、职责划分和业务支撑。在微服务系统中,智能运维是确保系统稳定性和性能优越性的关键。
基于以上微服务根因定位的传统过程,在监控系统进行数据收集和汇总之后, 需要人为进行介入和判断,在大型系统中,异常的发生通常呈现出复杂的表现状态,人为介入通常难以及时有效地捕获异常信息,更难以将异常信息进行有效利用,在整个过程中还参杂了大量的主观因素,最终导致错误判断的可能性激增,更难以及时有效地定位异常根因。
发明内容
为了更高效、更准确的对微服务系统异常根因进行定位,解决现有技术存在的上述定位缓慢、不精确的技术问题,本发明提出了一种微服务系统根因定位方法,该方法基于基于霍克斯过程,包括以下步骤:
S1、生成微服务系统指标异常点事件;
S2、生成微服务系统审计日志异常点事件;
S3、对齐所述指标异常点事件与所述审计日志异常点事件;
S4、构建基于多维霍克斯过程的异常点事件因果图;
S5、推断因果图边权重;
S6、排序异常事件根因。
一种存储介质,所述存储介质存储指令及数据用于实现一种微服务系统根因定位方法。
一种微服务系统根因定位设备,包括:处理器及所述存储介质;所述处理器加载并执行所述存储介质中的指令及数据用于实现一种微服务系统根因定位方法。
本发明提供的有益效果是:以离散事件的形式刻画了异常事件,实现了审计日志数据和指标数据的对齐,同时采用基于多维霍克斯过程的因果图构建方法进行根因定位工作,具有很好的可解释性和实用性。
附图说明
图1是本发明方法流程示意图;
图2是STL分解时间序列数据后的结果示意图;
图3是本发明中删除冗余因果边的示意图;
图4是本发明在基准微服务系统Bookinfo上测试的实施例;
图5是本发明硬件设备工作示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,图1是本发明方法流程的示意图;本发明提供的一种基于霍克斯过程的微服务系统根因定位方法,具体包括以下步骤:
S1、生成微服务系统指标异常点事件;
需要说明的是,步骤S1具体如下:
S11、收集系统性能指标的时间序列数据,并按时间顺序排列;
作为一种实施例而言,系统性能指标可以包括:各微服务实例的CPU利用率、内存使用率、网络流量等。当然,在一些其它实施例中,也可以包括其它指标。同时需要说明的是,确保指标数据是按时间顺序进行排列的。
S12、使用STL分解系统所述时间序列数据,分解成趋势、季节性和残差三个部分;
请参考图2,图2是STL分解时间序列数据后的结果示意图。
需要说明的是,STL(Seasonal and Trend decomposition using Loess)是一个非常通用和稳健强硬的分解时间序列的方法,其中Loess是一种估算非线性关系的方法。
STL也是将时间序列分解成三个主要分量: 趋势、季节项和残差。STL使用LOESS(locally estimated scatterplot smoothing) 来提取三个分量的平滑估计,该方法的实现可以在python中进行。
作为一种实施例而言,可以通过调用statsmodels类库的STL方法来实现。
S13、对于步骤S12中分解出的残差,通过3-Sigma方法界定残差范围,位于所述残差范围外的数据点为指标异常点,并触发报警,生成指标异常点事件。
作为一种实施例而言,3-Sigma方法具体如下:
计算残差数据序列的平均值(μ)和标准偏差(σ),然后确定上下限(上限为μ+3σ,下限为μ−3σ),具体如下式:
式中,X i表示第i个时间序列数据点,N表示数据总量。
作为一种实施例,记录所述指标异常点事件发生的时间点,并记为指标异常事件序列,其中at分别表示报警类型和发生时间,A m表示不同类型的指标异常。
S2、生成微服务系统审计日志异常点事件;
需要说明的是,步骤S2具体为:
将每个审计日志报警转化为一个审计日志报警事务序列,表示为,其中at分别表示报警类型和发生时间,/>表示审计日志异常类型集合;按照时间顺序将审计日志异常类型集合中的报警事件进行排列,得到微服务系统审计日志异常点事件。
作为一种实施例,在审计日志报警事务序列中,记录其中报警类型a为“runc、error、init”等的审计记录上述异常事件发生的时间段,将该时间段的异常值设为1。当然,在一些其它实施例中,报警类型a还可以为其它类型。
S3、对齐所述指标异常点事件与所述审计日志异常点事件;
作为一种实施例而言,步骤S3具体如下:
S31、创建一个长度和指标异常事件序列长度相同的空序列用于存储对齐后的日志数据,其中S tmp的时间戳和S m一致,事件类型值记为0;
S32、遍历审计日志报警事务序列S l条目,检查每个条目的时间戳t是否在指标异常事件序列S tmp包含的时间戳 (t i,t i+1)范围内;如果在,将时刻的值设为1,表示该审计日志报警事务序列在指标异常事件序列范围内,将审计日志报警事务序列与指标异常事件序列对齐;
S33、用对齐后的S tmp替换S l,组合S mS tmp得到最终事件集合S
S4、构建基于多维霍克斯过程的异常点事件因果图;
作为一种实施例,步骤S4具体如下:
需要说明的是,步骤S41中使用了无惩罚的多维Hawkes过程来捕捉报警类型之间的影响强度。
S41、对于最终事件集合S中的K个事件类型的多维霍克斯过程,每个事件类型i的强度函数λ i(t)表示为:
其中,μ i(t) 是事件类型i的基础强度,表示在没有其他事件影响的情况下,事件i在时刻t的发生率;α ij是事件类型j对事件类型i的影响强度,β ij是衰减系数,用于表示事件类型j的影响随时间的衰减速度;t j是事件类型j的历史事件发生时刻;
需要说明的是,在霍克斯过程中,事件类型ij之间的影响强度由参数α ij决定。如果α ij为正,表示事件类j的发生会增加事件类型i的发生概率。因此,α ij可以作为构建加权图边的权重。
本申请中,以α ij作为构建加权图边的权重,根据最终事件序列S,获得初始的加权图G
需要说明的是,在该图中,每个事件类型ij之间的边(u,v)上的正权重α ij表示事件v发生后,事件u发生的期望,反映了事件v对事件u的影响程度。保留仅具有正向影响的边,即α ij>0的边,以关注具有实质性影响的事件关系。
S42、利用条件独立性测试从图G中去除(a i,a j)之间冗余的边和间接因果边。
请参考图3,图3是本发明中删除冗余因果边的示意图。
作为一种实施例而言,所述条件独立性测试,具体为:
对于每一对警报事件 (a i,a j),使用CI测试来确定它们是否在给定条件下独立;假设CI测试的结果为CI(N i,N jC)=1,其中C表示一组条件,则表示N iN j在给定条件下独立,从图G中去除 (a i,a j)之间的边。
S5、推断因果图边权重;
需要说明的是,步骤S5具体为:
S51、设定N(u) 作为节点u的因果上下文集合,其中N(u) 由与节点u有因果关系的所有节点组成;
S52、应用Skip-gram模型生成嵌入向量;
作为一种实施例而言,对于每个节点u,使用Skip-gram模型,将N(u)作为输入,得到节点u的嵌入向量
其中, Skip-gram(N(u)) 表示将因果上下文集合N(u) 应用于Skip-gram模型得到的向量表示。
S53、对于任意两个节点uv,计算它们的嵌入向量Z uZ v之间的余弦相似度cosine(Z u,Z v);
作为一种实施例而言,其中, EdgeWeight(u,v) 表示节点uv之间的边权重,基于它们的嵌入向量余弦相似度计算得出。
S54、构建加权图G';将计算得到的边权重加入图G,得到加权图G'。其中,
S6、排序异常事件根因。
需要说明的是,步骤S6具体如下:
S61、对于图G'中的每个节点u,构建一个线性方程,表示节点 u 的影响力计算,方程如下:
其中,Neighbors(u) 表示节点u的邻居节点集合;
S62、将所有节点的线性方程组合并为一个包含n个变量的线性方程组,其中n是图G'中的节点数,通过求解这个线性方程组,得到每个节点u的影响力值r(u);
S63:根据求解得到的节点影响力值r(u),对节点进行排名,排名值越高的节点表示在网络中具有更大的影响力,即视为导致系统异常的根因事件。
作为一种实施例,请参考图4,图4是本发明在基准微服务系统Bookinfo上测试的实施例。
从图4中将本发明方法与经典因果方法进行了对比,从图4中可以看出本发明所提出的根因定位方法优于其他基线方法,其中PR@k表示最终排序前k个事件命中真实根因的精确率。
请参考图5,图5是本发明硬件设备工作示意图。
所述硬件设备具体包括:一种微服务系统根因定位设备401、处理器402及存储介质403。
一种微服务系统根因定位设备401:所述一种微服务系统根因定位设备401实现所述一种微服务系统根因定位方法。
处理器402:所述处理器402加载并执行所述存储介质403中的指令及数据用于实现所述一种微服务系统根因定位方法。
存储介质403:所述存储介质403存储指令及数据;所述存储介质403用于实现所述一种微服务系统根因定位方法。
综合来看,本发明的有益效果是:
构建点事件能够个离散的指标数据可能表示了一个设备的状态(比如正常、警告、错误),这样的数据更容易理解和解释,无需深入了解连续数值的变化。同时实现了实现了审计日志数据和指标数据的对齐,消除了不同模态数据的差异。融合多模态数据构建基于霍克斯过程的因果图,能够刻画事件之间的因果关系,具有一定的可解释性。3.解决了现有技术存在的上述定位缓慢、不精确的技术问题。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种微服务系统根因定位方法,其特征在于:包括以下步骤:
S1、生成微服务系统指标异常点事件;
步骤S1具体如下:
S11、收集系统性能指标的时间序列数据,并按时间顺序排列;
S12、使用STL分解系统所述时间序列数据,分解成趋势、季节性和残差三个部分;
S13、对于步骤S12中分解出的残差,通过3-Sigma方法界定残差范围,位于所述残差范围外的数据点为指标异常点,并触发报警,生成指标异常点事件;记录所述指标异常点事件发生的时间点,并记为指标异常事件序列,其中at分别表示报警类型和发生时间,A m表示不同类型的指标异常;
S2、生成微服务系统审计日志异常点事件;
步骤S2具体为:
将每个审计日志报警转化为一个审计日志报警事务序列,表示为,其中at分别表示报警类型和发生时间,/>表示审计日志异常类型集合;按照时间顺序将审计日志异常类型集合中的报警事件进行排列,得到微服务系统审计日志异常点事件;
S3、对齐所述指标异常点事件与所述审计日志异常点事件;
S4、构建基于多维霍克斯过程的异常点事件因果图;
步骤S4具体如下:
S41、对于最终事件集合S中的K个事件类型的多维霍克斯过程,每个事件类型i的强度函数λ i(t)表示为:
其中,μ i(t) 是事件类型i的基础强度,表示在没有其他事件影响的情况下,事件类型i在时刻t的发生率;α ij是事件类型j对事件类型i的影响强度,β ij是衰减系数,用于表示事件类型j的影响随时间的衰减速度;t j 是事件类型j的历史事件发生时刻;
α ij作为构建加权图边的权重,根据最终事件序列S,获得初始的加权图G
S42、利用条件独立性测试从图G中去除(a i,a j)之间冗余的边和间接因果边;
所述条件独立性测试,具体为:
对于每一对警报事件 (a i,a j),使用CI测试来确定它们是否在给定条件下独立;假设CI测试的结果为CI(N i,N jC)=1,其中C表示一组条件,则表示N iN j在给定条件下独立,从图G中去除 (a i,a j)之间的边;
S5、推断因果图边权重;
步骤S5具体为:
S51、设定N(u) 作为节点u的因果上下文集合,其中N(u) 由与节点u有因果关系的所有节点组成;
S52、应用Skip-gram模型生成嵌入向量;
S53、对于任意两个节点uv,计算它们的嵌入向量Z uZ v之间的余弦相似度cosine(Z u, Z v);
S54、构建加权图G';将计算得到的边权重加入图G,得到加权图G'
S6、排序异常事件根因;
步骤S6具体如下:
S61、对于图G'中的每个节点u,构建一个线性方程,表示节点 u 的影响力计算,方程如下:
其中,Neighbors(u) 表示节点u的邻居节点集合;
S62、将所有节点的线性方程组合并为一个包含n个变量的线性方程组,其中n是图G'中的节点数,通过求解这个线性方程组,得到每个节点u的影响力值r(u);
S63:根据求解得到的节点影响力值r(u),对节点进行排名,排名值越高的节点表示在网络中具有更大的影响力,即视为导致系统异常的根因事件。
2.如权利要求1所述的一种微服务系统根因定位方法,其特征在于:步骤S3具体如下:
S31、创建一个长度和指标异常事件序列长度相同的空序列用于存储对齐后的日志数据,其中S tmp的时间戳和S m一致,事件类型值记为0;
S32、遍历审计日志报警事务序列S l条目,检查每个条目的时间戳t是否在指标异常事件序列S tmp包含的时间戳 (t i,t i+1)范围内;如果在,将时刻的值设为1,表示该审计日志报警事务序列在指标异常事件序列范围内,将审计日志报警事务序列与指标异常事件序列对齐;
S33、用对齐后的S tmp替换S l,组合S mS tmp得到最终事件集合S
3.一种存储介质,其特征在于:所述存储介质存储指令及数据用于实现权利要求1~2任一项所述的一种微服务系统根因定位方法。
4.一种微服务系统根因定位设备,其特征在于:包括:处理器及存储介质;所述处理器加载并执行存储介质中的指令及数据用于实现权利要求1~2任一项所述的一种微服务系统根因定位方法。
CN202410006734.4A 2024-01-03 2024-01-03 一种微服务系统根因定位方法、设备及存储介质 Active CN117493068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410006734.4A CN117493068B (zh) 2024-01-03 2024-01-03 一种微服务系统根因定位方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410006734.4A CN117493068B (zh) 2024-01-03 2024-01-03 一种微服务系统根因定位方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117493068A CN117493068A (zh) 2024-02-02
CN117493068B true CN117493068B (zh) 2024-03-26

Family

ID=89673083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410006734.4A Active CN117493068B (zh) 2024-01-03 2024-01-03 一种微服务系统根因定位方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117493068B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666204A (zh) * 2022-04-22 2022-06-24 广东工业大学 一种基于因果强化学习的故障根因定位方法及系统
CN116248472A (zh) * 2022-12-26 2023-06-09 北京理工大学 基于神经霍克斯过程的云边端系统故障预测方法
CN116596150A (zh) * 2023-05-29 2023-08-15 中国石油大学(华东) 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法
CN116628200A (zh) * 2023-05-11 2023-08-22 中兴通讯股份有限公司 事件因果关系识别方法、装置、计算机设备及存储介质
CN116701031A (zh) * 2023-05-19 2023-09-05 浙江大学滨江研究院 一种微服务系统中的根因模型训练方法、分析方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9996409B2 (en) * 2016-03-28 2018-06-12 Ca, Inc. Identification of distinguishable anomalies extracted from real time data streams
US11271820B2 (en) * 2018-11-23 2022-03-08 International Business Machines Corporation Proximal graphical event model of statistical learning and causal discovery with event datasets
US20230058585A1 (en) * 2020-01-22 2023-02-23 Osaka University Event forecasting system, event forecasting method, and storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666204A (zh) * 2022-04-22 2022-06-24 广东工业大学 一种基于因果强化学习的故障根因定位方法及系统
CN116248472A (zh) * 2022-12-26 2023-06-09 北京理工大学 基于神经霍克斯过程的云边端系统故障预测方法
CN116628200A (zh) * 2023-05-11 2023-08-22 中兴通讯股份有限公司 事件因果关系识别方法、装置、计算机设备及存储介质
CN116701031A (zh) * 2023-05-19 2023-09-05 浙江大学滨江研究院 一种微服务系统中的根因模型训练方法、分析方法及装置
CN116596150A (zh) * 2023-05-29 2023-08-15 中国石油大学(华东) 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
时间序列相关性分析研究;陈刚;;现代信息科技;20200710(13);13-16 *

Also Published As

Publication number Publication date
CN117493068A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US11748227B2 (en) Proactive information technology infrastructure management
US11048729B2 (en) Cluster evaluation in unsupervised learning of continuous data
US20150089309A1 (en) Troubleshooting based on log similarity
Nair et al. Learning a hierarchical monitoring system for detecting and diagnosing service issues
US8392227B2 (en) Consistency checks for business process data using master data vectors
US20140053025A1 (en) Methods and systems for abnormality analysis of streamed log data
KR101948634B1 (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
US9304991B2 (en) Method and apparatus for using monitoring intent to match business processes or monitoring templates
Yu et al. Quantifying community resilience using hierarchical Bayesian kernel methods: A case study on recovery from power outages
Chang et al. Integrating in-process software defect prediction with association mining to discover defect pattern
Chen et al. Correlated anomaly detection from large streaming data
Buda et al. ADE: An ensemble approach for early Anomaly Detection
Carrasquilla Benchmarking algorithms for detecting anomalies in large datasets
CN117493068B (zh) 一种微服务系统根因定位方法、设备及存储介质
RU2632124C1 (ru) Способ прогнозной оценки эффективности многоэтапных процессов
US20210089425A1 (en) Techniques for alerting metric baseline behavior change
CN113971119A (zh) 基于无监督模型的用户行为异常分析评估方法及系统
US11151483B2 (en) System and a method for assessing data for analytics
Siregar et al. Classification data for direct marketing using deep learning
Malhotra et al. Investigation of various data analysis techniques to identify change prone parts of an open source software
Wessman Advanced Algorithms for Classification and Anomaly Detection on Log File Data: Comparative study of different Machine Learning Approaches
US20220222167A1 (en) Automated feature monitoring for data streams
Yalçın A Performance Monitoring System with the Capability of Detecting Anomalies for Corporate Business intelligence Reporting Systems
Kapur et al. On discrete software reliability growth model & categorization of faults
Kothari et al. On evaluating the efficiency of software feature development using algebraic manifolds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant