CN114610613A - 一种面向在线实时的微服务调用链异常检测方法 - Google Patents

一种面向在线实时的微服务调用链异常检测方法 Download PDF

Info

Publication number
CN114610613A
CN114610613A CN202210228347.6A CN202210228347A CN114610613A CN 114610613 A CN114610613 A CN 114610613A CN 202210228347 A CN202210228347 A CN 202210228347A CN 114610613 A CN114610613 A CN 114610613A
Authority
CN
China
Prior art keywords
event
call chain
micro
response time
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210228347.6A
Other languages
English (en)
Inventor
杜静
孔蕊
邵月
杨容嫣
来风刚
张攀
周逸
饶涵宇
毛冬
宫帅
曹弯弯
余东波
董小菱
程航
孙强
高丰
都繁杰
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Original Assignee
Nanjing University of Aeronautics and Astronautics
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics, State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210228347.6A priority Critical patent/CN114610613A/zh
Publication of CN114610613A publication Critical patent/CN114610613A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种面向在线实时的微服务调用链异常检测方法,首先将微服务调用链建模为自然语言序列,对调用链中记录的事件进行解析,将事件提取为语义序列及响应时间序列;然后利用词汇嵌入式表示算法提取出调用链中事件的向量化表示,将调用链表示为按时序排列的数值型向量序列,最后采用基于注意力机制的双层长短期记忆深度神经网络同时检测调用链中存在的微服务实例调用路径异常与性能异常。本发明不仅可以同时检测调用链中存在的两种类型的异常,而且提高了检测的速度和精度,减少了异常的误报和漏报。

Description

一种面向在线实时的微服务调用链异常检测方法
技术领域
本发明涉及计算机技术领域,具体而言涉及一种面向在线实时的微服务调用链异常检测方法。
背景技术
云计算以及面向服务的软件开发方法等技术的发展加速了大规模业务应用迁移上云的进程,极大的提高了大规模应用的开发、扩展及运维效率。微服务架构已逐渐成为大规模云应用的主流设计架构,也是面向服务软件开发方法的发展方向,其在传统的面向服务的开发模式上进一步去中心化,将功能复杂的单体应用拆分成一系列功能单一、可独立部署上线以及具有高内聚低耦合等特点的微服务的集合。然而微服务实例之间复杂的依赖关系不仅增加了故障发生的频率,也增大了故障诊断的难度。尤其是当微服务调用拓扑中某一个微服务发生故障时,故障会随着调用链扩散并且会影响到与自身部署在同一个容器或物理机上的其他微服务(即使二者之间没有调用关系,但共享CPU、内存等资源)从而引发“故障传播”,即在较短的时间间隔内产生大量的异常告警。因此为了避免故障在系统内大范围传播,需要在少量故障发生时尽快的检测和定位故障发生的根因。
发明内容
本发明针对现有技术中的不足,提供一种面向在线实时的微服务调用链异常检测方法,调用链数据以类似图的结构记录微服务级别的调用关系、执行路径以及性能参数,可以在系统发生故障时及早地检测出受故障影响的微服务实例及其所在网元(容器或物理机),并随后启动故障根因定位,提高故障应对的响应速度。
为实现上述目的,本发明采用以下技术方案:
一种面向在线实时的微服务调用链异常检测方法,所述异常检测方法包括以下步骤:
S1,获取调用链数据,该调用链数据由按时序排序的事件组成;将微服务调用链建模为自然语言序列,对调用链中记录的事件进行解析,将事件提取为语义序列及响应时间序列;
S2,利用词汇嵌入式表示算法提取出调用链中事件的向量化表示,将调用链表示为按时序排列的数值型向量序列;
S3,从数值型向量序列中按时间窗口大小提取长度为N的子序列,前N-1条作为参考值,第N条作为观测值,采用基于注意力机制的双层长短期记忆深度神经网络,预测得到观测值的事件模板和对应的响应时间,将预测结果和实际观测到的结果相对比,以同时检测调用链中存在的微服务实例调用路径异常与性能异常。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1中,所述事件中包含调用类型、时间戳、响应时间、调用链唯一标识、事件唯一标识、父事件唯一标识、调用网元唯一标识和微服务名称八个字段;
将事件提取为语义序列及响应时间序列的过程包括以下子步骤:
从事件包含的八个字段中选取调用类型、调用网元唯一标识和微服务名称组成事件模板,从事件包含的八个字段中选取响应时间作为微服务响应时间;
其中,对所述微服务响应时间进行标准化处理,得到所述微服务响应时间的标准化微服务响应时间;
完成调用链数据解析后,长度为N的调用链T=[e0,e1,...,eN-1]被表示为按时间戳排序的两条序列,分别是事件模板序列Tρ=[ρ0,ρ1,...,ρN-1]以及响应时间序列Tη=[η0,η1,...,ηN-1],其中ei代表调用链中记录的事件,ρi代表数据解析完成后获得的事件模板,ηi代表每个事件中记录的微服务的响应时间。
进一步地,步骤S2中,利用词汇嵌入式表示算法提取出调用链中事件的向量化表示,将调用链表示为按时序排列的数值型向量序列的过程包括以下步骤:
S21,将调用链看作语句,事件看作语句中的词语,事件之间的调用关系看作语法,得到事件模板集合S={ρ0,ρi,...,ρV-1},V代表独一无二的事件模板的个数;
S22,对事件模板进行预处理,利用独热编码方式将集合S中的每个事件模板ρ映射到一个维度为V的向量o,将事件模板编码为独热向量,得到集合S对应的独热编码向量集合O={o0,o1,...,oV-1},其中
Figure BDA0003536496830000021
oi代表事件ei对应的独热编码向量;
S23,对于给定调用链的事件模板序列Tρ=[ρ0,ρ1,...,ρN-1],通过查询集合O将Tρ映射为To=[o0,o1,...,oN-1],其中
Figure BDA0003536496830000022
ok代表事件ek对应的独热编码向量;将事件模板ρi对应的独热向量输入词汇嵌入式表示模型中,词汇嵌入式表示模型输出为事件模板ρi的上下文对应的独热向量ρb∈{...,ρi-1,ρi+1,ρi+2,...};其中,所述词汇嵌入式表示模型为解码器和编码器都为全连接神经网络的自编码器;自编码器训练完成后,将事件模板的独热向量输入到编码器中,得到事件模板的语义向量;所述语义向量包含其对应所述事件模板在调用链中的上下文信息。
进一步地,步骤S23中,将事件模板ρi对应的独热向量输入词汇嵌入式表示模型中,词汇嵌入式表示模型输出为事件模板ρi的上下文对应的独热向量ρb∈{...,ρi-1,ρi+1,ρi+2,...}的过程包括以下子步骤:
S231,将ρi对应的oi映射到低维空间中,计算低维表示h,计算公式如下:
Figure BDA0003536496830000023
其中,
Figure BDA0003536496830000031
代表oi的低维表示,且D<V,
Figure BDA0003536496830000032
为词汇嵌入式表示模型中隐藏层的参数;
S232,由h预测ρb,计算公式如下:
y=softmax(W′V×Dh)
P(ρb=ρki)=yk,k∈[0,V-1]
其中y为词汇嵌入式表示模型的输出,W′V×D为词汇嵌入式表示模型中输出层的参数,softmax()为归一化指数函数,P(ρb=ρki)为词汇嵌入式表示模型在给定ρi的条件下,预测上下文ρb=ρk的概率;
S233,设模型的优化目标是最大化给定事件模板ρi生成上下文事件模板的概率,等同于最小化损失函数,损失函数的计算公式如下:
Figure BDA0003536496830000033
其中C为ρi对应的上下文事件模板的个数,ρi′代表ρi在调用链中对应的上下文;
S231,待模型收敛后,计算事件模板ρi对应的语义向量vi,计算公式如下:
Figure BDA0003536496830000034
进一步地,步骤S3中,采用基于注意力机制的双层长短期记忆深度神经网络,预测得到观测值的事件模板和对应的响应时间的过程包括以下步骤:
S31,将长度为N的调用链数据表示为语义向量序列Tv=[v0,v1,...,vN-1]和响应时间序列Tη=[η0,η1,...,ηN-1];将上述序列按元素拼接为双模态向量序列Tv=[V0,V1,...,VN-1]作为基于注意力机制的双向LSTM的输入,其中Vi=[vi,ηi];
S32,将长度为l的子序列Tl=[Vt-l+1,Vt-l+2,...,Vt-1,Vt]作为双层长短期记忆深度神经网络的输入,从前向和后向两个方向挖掘子序列中包含的信息,并且每个LSTM块都会输出一个隐向量H,得到相应的双向LSTM的输出;
S33,由每个LSTM块的输出H得到每个时刻事件的权重,计算公式如下:
Figure BDA0003536496830000035
其中
Figure BDA0003536496830000041
为注意力层中第一个全连接层的参数,t代表LSTM块对应的时间点,l代表每一层LSTM块的数量,即时间窗口大小,Hi代表每个LSTM块的输出;
S34,由每个时刻对应的LSTM块的输出H以及对应的权重λ得到注意力层的输出,计算公式如下:
Figure BDA0003536496830000042
其中,pred=[u,ηpred],w′为注意力层中第二个全连接层的参数;
S35,将u作为模型预测的多分类结果,ηpred作为模型预测的t+1时刻对应的事件的响应时间,计算公式如下:
P(ρt+1=ρi,|ρt-l+1,...,ρt)=ui′,i′∈[0,V-1]。
进一步地,步骤S3中,将预测结果和实际观测到的结果相对比,以同时检测调用链中存在的微服务实例调用路径异常与性能异常是指:
若事件模板预测值与观测值中实际的事件模板不同,则判定观测值所在的调用链中存在调用路径异常;若响应时间预测值与观测值中实际的响应时间不同,则判定观测值所在的调用链中存在微服务性能异常。
进一步地,若事件模板预测值与观测值中实际的事件模板不同,则判定观测值所在的调用链中存在调用路径异常的过程包括:
将所述事件模板预测值中包含的多个事件模板的出现概率按从大到小的顺序排序;根据概率排序结果,选取最有可能在下一个时刻出现的事件模板集合;若所述观测值不在所述下一个时刻可能出现的事件模板集合中,则判定所述观测值所在的调用链中存在调用路径异常。
进一步地,若响应时间预测值与观测值中实际的响应时间不同,则判定观测值所在的调用链中存在微服务性能异常的过程包括:
将所述预测值中包含的下一个事件模板对应的响应时间与所述观测值中包含的响应时间作对比,计算二者的均方根误差;若所述均方根误差大于动态阈值,则判定所述预测值所在的调用链中存在微服务性能异常;其中,动态阈值由验证集输入收敛后的所述调用链异常检测模型中得到。
进一步地,所述动态阈值由验证集输入收敛后的所述调用链异常检测模型中得到,动态阈值的获取过程包括以下步骤:
A31,获取在系统正常运行一段时间内产生的调用链数据并将其按照一定比例分为训练集和验证集;在模型训练阶段,基于训练集同时采用多分类交叉熵损失以及均方误差损失之和作为模型的总体损失函数,在此损失函数的引导下采用随机梯度下降算法更新模型参数,并对模型参数采用L2正则化;待模型收敛后,将验证集输入模型中,利用模型的响应时间预测值ηpred与t+1时刻的观测值ηt+1计算均方误差r,计算公式如下:
r=(ηpredt+1)2
A32,计算出r的均值μ以及标准差σ,根据坎特立不等式,对
Figure BDA0003536496830000051
Figure BDA0003536496830000052
将ε=βσ替代ε,其中β为置信度水平,计算公式如下:
Figure BDA0003536496830000053
A33,在微服务性能异常检测过程中采用rthreshold=μ+βσ作为判断r是否异常的动态阈值;如果模型的预测值ηpred与实际观测值ηt+1的均方误差r>rthreshold,则判断此事件中响应的微服务存在性能异常。
本发明的有益效果是:
本发明的面向在线实时的微服务调用链异常检测方法,利用深度学习模型学习正常的调用链的行为模式,同时考虑事件之间的依赖关系以及响应时间,采用基于注意力机制的双向LSTM模型同时检测调用路径异常和性能异常,提高调用链异常检测的精度,避免异常的误报和漏报。
附图说明
图1是本发明实施例的面向在线实时的微服务调用链异常检测方法流程图。
图2为本发明实施例的微服务调用链异常检测模型的架构示意图。
图3是本发明实施例提供的微服务调用链语义向量化模型结构示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
图1是本发明实施例的面向在线实时的微服务调用链异常检测方法流程图。参见图1,该异常检测方法包括以下步骤:
S1,获取调用链数据,该调用链数据由按时序排序的事件组成;将微服务调用链建模为自然语言序列,对调用链中记录的事件进行解析,将事件提取为语义序列及响应时间序列。
S2,利用词汇嵌入式表示算法提取出调用链中事件的向量化表示,将调用链表示为按时序排列的数值型向量序列。
S3,从数值型向量序列中按时间窗口大小提取长度为N的子序列,前N-1条作为参考值,第N条作为观测值,采用基于注意力机制的双层长短期记忆深度神经网络,预测得到观测值的事件模板和对应的响应时间,将预测结果和实际观测到的结果相对比,以同时检测调用链中存在的微服务实例调用路径异常与性能异常。
一、将事件提取为语义序列及响应时间序列
获取调用链数据。如图2所示,调用链由一系列带有时间戳的event(下文统称为事件)构成,每个事件包含调用类型、时间戳、响应时间、调用链唯一标识、事件唯一标识、父事件唯一标识、调用网元唯一标识和微服务名称八个字段。在这八个字段中,CallType代表事件的调用类型。StartTime代表事件的调用发起时间,即事件的时间戳。ElapsedTime代表事件的响应时间。TraceId为此条调用链的唯一标识。SpanId为事件在调用链中的唯一标识。Pid代表此事件在调用链中的父事件的SpanId。Cmdb_id代表发起此次调用的网元唯一标识。ServiceName代表响应此次调用的服务网元。每条调用链都有TraceId字段作为其唯一标识,将调用链T表示为按时间戳StartTime排序的事件序列[e0,e1,...,eN-1],即T=[e0,e1,...,eN-1],其中N代表调用链T的长度。
为保证在语义向量化步骤中能以数值向量的形式准确地描述事件的行为,从事件包含的八个字段中选取调用类型、调用网元唯一标识和微服务名称组成事件模板,从事件包含的八个字段中选取响应时间作为微服务响应时间;其中,对微服务响应时间进行标准化处理,得到微服务响应时间的标准化微服务响应时间。具体的,本实施例采用CallType、Cmdb_id以及ServiceName三个字段对事件进行分类,并将上述三个字段组成正则表达式CallType_Cmdb_id_ServiceName作为事件类别的标记,称之为事件模板。在完成调用链数据解析后,一个长度为N的调用链T=[e0,e1,...,eN-1]就可以被表示为按时间戳排序的两条序列,分别是事件模板序列Tρ=[ρ0,ρ1,...,ρN-1]以及响应时间序列Tη=[η0,η1,...,ηN_1]。
二、将调用链表示为按时序排列的数值型向量序列
如图3所示,采用自然语言处理思想,利用词汇嵌入式表示方法word2vec提取事件序列中的上下文语义信息并将事件模板转换为固定维度的数值型向量(本文称之为语义向量化),并且由于独一无二的事件模板的数目较少,省略了原算法中的负采样过程。词汇嵌入式算法word2vec主要包含两种模型,分别是跳字模型(skip-gram)和连续词模型(CBOW),本文采用跳字模型来实现事件模板的语义向量化,主要包含两个步骤:
步骤一、事件模板预处理。在完成调用链数据解析后,会得到一个事件模板集合S={ρ0,ρ1,...,ρV-1},V代表独一无二的事件模板的个数。本实施例利用独热编码(one-hotencode)将集合S中的每一个事件模板ρ映射到一个维度为V的向量o,由此得到集合S对应的独热编码向量集合O={o0,o1,...,oV-1},其中
Figure BDA0003536496830000071
步骤二、语义信息提取。描述事件模板的语义向量需要满足两个需求:可区分性和可对比性。可区分性指语义向量可以高度区分不同的事件模板,而可对比性指语相似事件应该有相似的语义向量。因此,为了满足以上两点需求,本实施例在给定一条调用链的事件模板序列Tρ=[ρ0,ρ1,...,ρN-1],通过查询集合O将Tρ映射为To=[o0,o1,...,oN-1],其中
Figure BDA0003536496830000072
接着在跳字模型中,采用一个事件模板ρi去预测它的上下文ρb∈{...,ρi-1,ρi+1,ρi+2,...},来完成事件模板的语义向量化。具体过程如下:
首先将ρi对应的oi映射到低维空间中,计算低维表示h,计算公式如下:
Figure BDA0003536496830000073
其中,
Figure BDA0003536496830000074
代表oi的低维表示,且D<V。接着由h预测ρb,计算公式如下:
y=softmax(W′V×Dh)
P(ρb=ρki)=yk,k∈[0,V-1]
其中y为词汇嵌入式表示模型的输出,P(ρb=ρki)为词汇嵌入式表示模型在给定ρi的条件下,预测上下文ρb=ρk的概率。
模型的优化目标是最大化给定事件模板ρi生成上下文事件模板的概率,等同于最小化下式所示损失函数,损失函数的计算公式如下:
Figure BDA0003536496830000075
其中C为ρi对应的上下文事件模板的个数。
待模型收敛后,计算事件模板ρi对应的语义向量vi,计算公式如下:
Figure BDA0003536496830000076
预测下一个可能出现的事件模板和对应的响应时间。
如图2所示,采用基于注意力机制的双向LSTM作为调用链异常检测模型。除了微服务之间复杂的调用关系会对调用链异常检测带来困难,如何同时检测调用路径异常和微服务性能异常也是调用链异常检测要面临的挑战之一,原因主要有以下两点:(i)即使在没有发生异常的情况下,微服务的响应时间也会在一个较大的范围内波动,这是由于微服务的响应时间不仅包含其自身的响应时间,还包括其所有子调用的响应时间。由于微服务调用路径的多样化,仅利用微服务的响应时间进行异常检测的方法会产生较多误报,因此在考虑响应时间以检测微服务性能异常的同时也要考虑微服务相应的调用路径。(ii)一些故障可能调用链中的某些微服务下线(例如物理机宕机导致部署在其上的微服务下线或者数据库因访问者过多而拒绝访问请求),异常的调用路径和正常的调用路径可能会有相同的结构,这时只能通过二者的响应时间来区分彼此。因此本实施例提出的微服务调用链异常检测模型可以学习微服务调用路径和响应时间之间的关联关系,从而同时检测调用链中存在的调用路径异常和响应时间异常。
三、微服务实例调用路径异常与性能异常检测
在完成数据解析和语义向量化之后,长度为N的调用链就被表示为语义向量序列Tv=[v0,v1,...,vN-1]和响应时间序列Tη=[η0,η1,...,ηN-1],为了同时检测调用路径异常和微服务性能异常,将上述序列按元素拼接为双模态向量序列Tv=[V0,V1,...,VN-1]作为基于注意力机制的双向LSTM的输入,其中Vi=[vi,ηi]。
双向LSTM接受长度为l的子序列Tl=[Vt-l+1,Vt-l+2,...,Vt-1,Vt]作为输入,从前向和后向两个方向挖掘子序列中包含的信息,并且每个LSTM块都会输出一个隐向量H。
得到双向LSTM的输出后,采用注意力机制去自动地为子序列中不同的事件施加不同的权重。本实施例首先由每个LSTM块的输出H得到每个时刻事件的权重,计算公式如下:
Figure BDA0003536496830000081
其中
Figure BDA0003536496830000082
为注意力层中第一个全连接层的参数,接着由每个时刻对应的LSTM块的输出H以及对应的权重λ得到注意力层的输出,计算公式如下:
Figure BDA0003536496830000083
其中,pred=[u,ηpred],w′为注意力层中第二个全连接层的参数,将u作为模型预测的多分类结果,ηpred作为模型预测的t+1时刻对应的事件的响应时间,计算公式如下:
P(ρt+1=ρi′t-l+1,...,ρi)=ui′,i′∈[0,V-1]
将预测结果与实际观测到的结果相对比判定异常。
根据参考值中实际的事件模板和响应时间对观测值中的事件模板和响应时间进行预测,分别得到事件模板预测值和响应时间预测值,若事件模板预测值与观测值中实际的事件模板不同,则判定观测值所在的调用链中存在调用路径异常;若响应时间预测值与观测值中实际的响应时间不同,则判定观测值所在的调用链中存在微服务性能异常。
例如,将数值型向量中提取出的观测值输入到调用链异常检测模型中,得到模型的预测值;其中预测值中包含下一个事件模板出现的概率分布和下一个事件模板对应的响应时间。其中,调用链异常检测模型由基于注意力机制的双向LSTM神经网络模型训练得到。概率分布包含多个事件模板的在下一个时刻出现的概率;响应时间对应下一个可能出现的事件模板对应的响应时间。将事件模板预测值中包含的多个事件模板的出现概率按从大到小的顺序排序;根据概率排序结果,选取最有可能在下一个时刻出现的事件模板集合;若观测值不在下一个时刻可能出现的事件模板集合中,则判定观测值所在的调用链中存在调用路径异常。将预测值中包含的下一个事件模板对应的响应时间与观测值中包含的响应时间作对比,计算二者的均方根误差;若均方根误差大于动态阈值,则判定预测值所在的调用链中存在微服务性能异常;其中,动态阈值由验证集输入收敛后的调用链异常检测模型中得到。动态阈值由验证集输入收敛后的调用链异常检测模型中得到的过程包括:从调用链异常检测模型训练集中提取部分数据作为验证集;从验证集中提取参考值和观测值;将验证集中参考值输入所述调用链异常检测模型中,得到响应时间预测值;计算验证集中所有样本对应的响应时间预测值的平均值和标准差;根据平均值和标准差利用坎泰利不等式计算动态阈值。
以前述模型为例,获取在系统正常运行一段时间内产生的调用链数据并将其按照一定比例分为训练集和验证集。在模型训练阶段,基于训练集同时采用多分类交叉熵损失以及均方误差损失之和作为模型的总体损失函数,在此损失函数的引导下采用随机梯度下降算法更新模型参数,并对模型参数采用L2正则化。待模型收敛后,将验证集输入模型中,利用模型的响应时间预测值ηpred与t+1时刻的观测值ηt+1计算均方误差r,计算公式如下:
r=(ηpredt+1)2
接着计算出r的均值μ以及标准差σ,根据坎特立不等式(Cantelli inequality),对
Figure BDA0003536496830000091
Figure BDA0003536496830000092
将ε=βσ替代ε,计算公式如下:
Figure BDA0003536496830000101
由于验证集中包含的都为正常的调用链数据,因此大多数均方误差r的值会很接近均值μ,在微服务性能异常检测过程中采用rthreshold=μ+βσ作为判断r是否异常的阈值,如果模型的预测值ηpred与实际观测值ηt+1的均方误差r>rthreshold,则可判断此事件中响应的微服务存在性能异常。
根据模型预测的各事件出现概率大小,选出最有可能出现的m个候选事件,如果实际观测值不在这m个候选事件中,则判断为存在调用路径异常。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (9)

1.一种面向在线实时的微服务调用链异常检测方法,其特征在于,所述异常检测方法包括以下步骤:
S1,获取调用链数据,该调用链数据由按时序排序的事件组成;将微服务调用链建模为自然语言序列,对调用链中记录的事件进行解析,将事件提取为语义序列及响应时间序列;
S2,利用词汇嵌入式表示算法提取出调用链中事件的向量化表示,将调用链表示为按时序排列的数值型向量序列;
S3,从数值型向量序列中按时间窗口大小提取长度为N的子序列,前N-1条作为参考值,第N条作为观测值,采用基于注意力机制的双层长短期记忆深度神经网络,预测得到观测值的事件模板和对应的响应时间,将预测结果和实际观测到的结果相对比,以同时检测调用链中存在的微服务实例调用路径异常与性能异常。
2.根据权利要求1所述的面向在线实时的微服务调用链异常检测方法,其特征在于,步骤S1中,所述事件中包含调用类型、时间戳、响应时间、调用链唯一标识、事件唯一标识、父事件唯一标识、调用网元唯一标识和微服务名称八个字段;
将事件提取为语义序列及响应时间序列的过程包括以下子步骤:
从事件包含的八个字段中选取调用类型、调用网元唯一标识和微服务名称组成事件模板,从事件包含的八个字段中选取响应时间作为微服务响应时间;
其中,对所述微服务响应时间进行标准化处理,得到所述微服务响应时间的标准化微服务响应时间;
完成调用链数据解析后,长度为N的调用链T=[e0,e1,...,eN-1]被表示为按时间戳排序的两条序列,分别是事件模板序列Tρ=[ρ0,ρ1,...,ρN-1]以及响应时间序列Tη=[η0,η1,...,ηN-1],其中ei代表调用链中记录的事件,ρi代表数据解析完成后获得的事件模板,ηi代表每个事件中记录的微服务的响应时间。
3.根据权利要求1所述的面向在线实时的微服务调用链异常检测方法,其特征在于,步骤S2中,利用词汇嵌入式表示算法提取出调用链中事件的向量化表示,将调用链表示为按时序排列的数值型向量序列的过程包括以下步骤:
S21,将调用链看作语句,事件看作语句中的词语,事件之间的调用关系看作语法,得到事件模板集合S={ρ0,ρ1,...,ρV-1},V代表独一无二的事件模板的个数;
S22,对事件模板进行预处理,利用独热编码方式将集合S中的每个事件模板ρ映射到一个维度为V的向量o,将事件模板编码为独热向量,得到集合S对应的独热编码向量集合O={o0,o1,...,oV-1},其中
Figure FDA0003536496820000011
oi代表事件ei对应的独热编码向量;
S23,对于给定调用链的事件模板序列Tρ=[ρ0,ρ1,...,ρN-1],通过查询集合O将Tρ映射为To=[o0,o1,...,oN-1],其中
Figure FDA0003536496820000021
ok代表事件ek对应的独热编码向量;将事件模板ρi对应的独热向量输入词汇嵌入式表示模型中,词汇嵌入式表示模型输出为事件模板ρi的上下文对应的独热向量ρb∈{...,ρi-1,ρi+1,ρi+2,...};其中,所述词汇嵌入式表示模型为解码器和编码器都为全连接神经网络的自编码器;自编码器训练完成后,将事件模板的独热向量输入到编码器中,得到事件模板的语义向量;所述语义向量包含其对应所述事件模板在调用链中的上下文信息。
4.根据权利要求3所述的面向在线实时的微服务调用链异常检测方法,其特征在于,步骤S23中,将事件模板ρi对应的独热向量输入词汇嵌入式表示模型中,词汇嵌入式表示模型输出为事件模板ρi的上下文对应的独热向量ρb∈{...,ρi-1,ρi+1,ρi+2,...}的过程包括以下子步骤:
S231,将ρi对应的oi映射到低维空间中,计算低维表示h,计算公式如下:
Figure FDA0003536496820000022
其中,
Figure FDA0003536496820000023
代表oi的低维表示,且D<V,
Figure FDA0003536496820000024
为词汇嵌入式表示模型中隐藏层的参数;
S232,由h预测ρb,计算公式如下:
y=softmax(W′V×Dh)
P(ρb=ρki)=yk,k∈[0,V-1]
其中y为词汇嵌入式表示模型的输出,W′V×D为词汇嵌入式表示模型中输出层的参数,softmax()为归一化指数函数,P(ρb=ρki)为词汇嵌入式表示模型在给定ρi的条件下,预测上下文ρb=ρk的概率;
S233,设模型的优化目标是最大化给定事件模板ρi生成上下文事件模板的概率,等同于最小化损失函数,损失函数的计算公式如下:
Figure FDA0003536496820000025
其中C为ρi对应的上下文事件模板的个数,ρi′代表ρi在调用链中对应的上下文;
S231,待模型收敛后,计算事件模板ρi对应的语义向量vi,计算公式如下:
Figure FDA0003536496820000031
5.根据权利要求4所述的面向在线实时的微服务调用链异常检测方法,其特征在于,步骤S3中,采用基于注意力机制的双层长短期记忆深度神经网络,预测得到观测值的事件模板和对应的响应时间的过程包括以下步骤:
S31,将长度为N的调用链数据表示为语义向量序列Tv=[v0,v1,...,vN-1]和响应时间序列Tη=[η0,η1,...,ηN-1];将上述序列按元素拼接为双模态向量序列TV=[V0,V1,...,VN-1]作为基于注意力机制的双向LSTM的输入,其中Vi=[vi,ηi];
S32,将长度为l的子序列Tl=[Vt-l+1,Vt-l+2,...,Vt-1,Vt]作为双层长短期记忆深度神经网络的输入,从前向和后向两个方向挖掘子序列中包含的信息,并且每个LSTM块都会输出一个隐向量H,得到相应的双向LSTM的输出;
S33,由每个LSTM块的输出H得到每个时刻事件的权重,计算公式如下:
Figure FDA0003536496820000032
其中
Figure FDA0003536496820000033
为注意力层中第一个全连接层的参数,t代表LSTM块对应的时间点,l代表每一层LSTM块的数量,即时间窗口大小,Hi代表每个LSTM块的输出;
S34,由每个时刻对应的LSTM块的输出H以及对应的权重λ得到注意力层的输出,计算公式如下:
Figure FDA0003536496820000034
其中,pred=[u,ηpred|,w′为注意力层中第二个全连接层的参数;
S35,将u作为模型预测的多分类结果,ηpred作为模型预测的t+1时刻对应的事件的响应时间,计算公式如下:
P(ρt+1=ρi′t-l+1,...,ρt)=ui′,i′∈[0,V-1]。
6.根据权利要求1所述的面向在线实时的微服务调用链异常检测方法,其特征在于,步骤S3中,将预测结果和实际观测到的结果相对比,以同时检测调用链中存在的微服务实例调用路径异常与性能异常是指:
若事件模板预测值与观测值中实际的事件模板不同,则判定观测值所在的调用链中存在调用路径异常;若响应时间预测值与观测值中实际的响应时间不同,则判定观测值所在的调用链中存在微服务性能异常。
7.根据权利要求6所述的面向在线实时的微服务调用链异常检测方法,其特征在于,若事件模板预测值与观测值中实际的事件模板不同,则判定观测值所在的调用链中存在调用路径异常的过程包括:
将所述事件模板预测值中包含的多个事件模板的出现概率按从大到小的顺序排序;根据概率排序结果,选取最有可能在下一个时刻出现的事件模板集合;若所述观测值不在所述下一个时刻可能出现的事件模板集合中,则判定所述观测值所在的调用链中存在调用路径异常。
8.根据权利要求6所述的面向在线实时的微服务调用链异常检测方法,其特征在于,若响应时间预测值与观测值中实际的响应时间不同,则判定观测值所在的调用链中存在微服务性能异常的过程包括:
将所述预测值中包含的下一个事件模板对应的响应时间与所述观测值中包含的响应时间作对比,计算二者的均方根误差;若所述均方根误差大于动态阈值,则判定所述预测值所在的调用链中存在微服务性能异常;其中,动态阈值由验证集输入收敛后的所述调用链异常检测模型中得到。
9.根据权利要求8所述的面向在线实时的微服务调用链异常检测方法,其特征在于,所述动态阈值由验证集输入收敛后的所述调用链异常检测模型中得到,动态阈值的获取过程包括以下步骤:
A31,获取在系统正常运行一段时间内产生的调用链数据并将其按照一定比例分为训练集和验证集;在模型训练阶段,基于训练集同时采用多分类交叉熵损失以及均方误差损失之和作为模型的总体损失函数,在此损失函数的引导下采用随机梯度下降算法更新模型参数,并对模型参数采用L2正则化;待模型收敛后,将验证集输入模型中,利用模型的响应时间预测值ηpred与t+1时刻的观测值ηt+1计算均方误差r,计算公式如下:
r=(ηpredt+1)2
A32,计算出r的均值μ以及标准差σ,根据坎特立不等式,对
Figure FDA0003536496820000043
Figure FDA0003536496820000041
将ε=βσ替代ε,其中β为置信度水平,计算公式如下:
Figure FDA0003536496820000042
A33,在微服务性能异常检测过程中采用rthreshold=μ+βσ作为判断r是否异常的动态阈值;如果模型的预测值ηpred与实际观测值ηt+1的均方误差r>rthreshold,则判断此事件中响应的微服务存在性能异常。
CN202210228347.6A 2022-03-08 2022-03-08 一种面向在线实时的微服务调用链异常检测方法 Pending CN114610613A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210228347.6A CN114610613A (zh) 2022-03-08 2022-03-08 一种面向在线实时的微服务调用链异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210228347.6A CN114610613A (zh) 2022-03-08 2022-03-08 一种面向在线实时的微服务调用链异常检测方法

Publications (1)

Publication Number Publication Date
CN114610613A true CN114610613A (zh) 2022-06-10

Family

ID=81860356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210228347.6A Pending CN114610613A (zh) 2022-03-08 2022-03-08 一种面向在线实时的微服务调用链异常检测方法

Country Status (1)

Country Link
CN (1) CN114610613A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269357A (zh) * 2022-09-23 2022-11-01 华南理工大学 一种基于调用链的微服务异常检测方法
CN117972319A (zh) * 2024-04-02 2024-05-03 浙江大学 一种基于动态图自监督学习的调用链异常检测方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269357A (zh) * 2022-09-23 2022-11-01 华南理工大学 一种基于调用链的微服务异常检测方法
CN117972319A (zh) * 2024-04-02 2024-05-03 浙江大学 一种基于动态图自监督学习的调用链异常检测方法和装置

Similar Documents

Publication Publication Date Title
CN113094200B (zh) 一种应用程序的故障预测方法和装置
US20220405592A1 (en) Multi-feature log anomaly detection method and system based on log full semantics
CN113434357B (zh) 基于序列预测的日志异常检测方法及装置
JP6643211B2 (ja) 異常検知システム及び異常検知方法
CN112163008B (zh) 基于大数据分析的用户行为数据处理方法及云计算平台
CN114610613A (zh) 一种面向在线实时的微服务调用链异常检测方法
US20220100963A1 (en) Event extraction from documents with co-reference
CN113312447A (zh) 基于概率标签估计的半监督日志异常检测方法
CN112202726B (zh) 一种基于上下文感知的系统异常检测方法
CN111611218A (zh) 一种基于深度学习的分布式异常日志自动识别方法
CN112508265A (zh) 面向业务流程管理的时间与活动多任务预测方法及系统
CN117041017B (zh) 数据中心的智能运维管理方法及系统
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
KR102359090B1 (ko) 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템
CN112069787A (zh) 一种基于词嵌入的日志参数异常检测方法
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN116361147A (zh) 测试用例根因定位方法及其装置、设备、介质、产品
CN116561748A (zh) 一种组件子序列相关性感知的日志异常检测装置
CN110011990A (zh) 内网安全威胁智能分析方法
Xie et al. Logm: Log analysis for multiple components of hadoop platform
Pal et al. DLME: distributed log mining using ensemble learning for fault prediction
CN114416479A (zh) 一种基于流外正则化的日志序列异常检测方法
CN116010187A (zh) 一种日志检测方法以及相关装置
CN112579777B (zh) 一种未标注文本的半监督分类方法
CN115017015B (zh) 一种边缘计算环境下程序异常行为检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination