CN116627693A - 一种微服务系统中的故障检测方法及装置 - Google Patents

一种微服务系统中的故障检测方法及装置 Download PDF

Info

Publication number
CN116627693A
CN116627693A CN202310574100.4A CN202310574100A CN116627693A CN 116627693 A CN116627693 A CN 116627693A CN 202310574100 A CN202310574100 A CN 202310574100A CN 116627693 A CN116627693 A CN 116627693A
Authority
CN
China
Prior art keywords
data
call chain
service call
service
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310574100.4A
Other languages
English (en)
Inventor
黄逸东
尹建伟
潘晓华
李莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Binjiang Research Institute Of Zhejiang University
Hangzhou Ronghe Intelligent Manufacturing Technology Co ltd
Zhejiang University ZJU
Original Assignee
Binjiang Research Institute Of Zhejiang University
Hangzhou Ronghe Intelligent Manufacturing Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Binjiang Research Institute Of Zhejiang University, Hangzhou Ronghe Intelligent Manufacturing Technology Co ltd, Zhejiang University ZJU filed Critical Binjiang Research Institute Of Zhejiang University
Publication of CN116627693A publication Critical patent/CN116627693A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供了一种微服务系统中的故障检测方法,属于计算机异常检测技术领域。它解决了异常检查方法大多数为开发人员进行规则过滤并设置阈值等问题。本微服务系统中的故障检测方法包括以下步骤:S3.1:获取目标系统的分布式跟踪数据,并通过所述分布式跟踪数据进行构建,构建出服务调用链;S3.2:获取目标系统的监控数据,使用PCA方法进行降维获得监控数据向量;S3.3:将所述的监控数据向量作为所述服务调用链的权重嵌入服务调用链中;S3.4:将聚合后的服务调用链作为异常检测模型的输入,得到所述异常检测模型输出的对所述目标系统的异常检测结果。本发明具有能降低了对分析人员的专业性要求,能够在提升系统的异常检测效率,降低实现难度和成本等优点。

Description

一种微服务系统中的故障检测方法及装置
技术领域
本发明属于计算机异常检测技术领域,特别涉及一种微服务系统中的故障检测方法及装置。
背景技术
随着微服务技术的发展,越来越多的应用程序开始使用微服务架构来提供服务;在这样过程中,需要对应用程序的各种指标进行采集,以确定服务是否正常;在保证服务的稳定性方面,管理人员可以通过采集的数据进行检测并及时的发出报警,从而避免出现更大的故障。
目前,现有的异常检查方法大多数为开发人员进行规则过滤并设置阈值,从而设置相应的报警,故需要合理的设置阈值,如果阈值设置的不合理,就会出现漏报和误报,从而造成极大的损失。
发明内容
本发明的目的是针对现有技术中存在的上述问题,提供了一种微服务系统中的故障检测方法。
本发明的第一个目的可通过下列技术方案实现:一种异常检测模型的建立方法,其特征在于,包括以下步骤:
S1.1:获得历史分布式跟踪数据和历史监控数据,以及历史分布式跟踪数据和监控数据对应事件内的问题反馈数据;
S1.2:对历史分布式跟踪数据进行构建,构建出历史服务调用链;
S1.3:对历史监控数据使用PCA方法进行降维获得历史监控数据向量;
S1.4:将历史监控数据向量作为历史服务调用链的权重嵌入历史服务调用链中;并且根据时间对问题反馈数据进行聚合,得到聚合后的问题反馈数据;
S1.5:将相同时间段内的历史服务调用链和问题反馈数据作为一组训练数据,通过训练数据训练获得异常检测模型。
在上述的异常检测模型的建立方法中,还包括S2:对所述的异常检测模型进行优化;
S2.1:将训练数据放入GCN网络中,进行特征提取,获得特征提取矩阵;
S2.2:将特征提取矩阵放入VAE网络中,提取故障信息,获得系统出现故障的概率;
S2.3:将模型计算的概率与问题反馈数据得出的数据进行对比,调整与优化模型的参数。
本发明的第二个目的可通过下列技术方案实现:一种微服务系统中的故障检测方法,其特征在于,基于上述一种异常检测模型的建立方法,还包括以下步骤:
S3.1:获取目标系统的分布式跟踪数据,并通过所述分布式跟踪数据进行构建,构建出服务调用链;
S3.2:获取目标系统的监控数据,使用PCA方法进行降维获得监控数据向量;
S3.3:将所述的监控数据向量作为所述服务调用链的权重嵌入服务调用链中,得到聚合后的服务调用链;
S3.4:将聚合后的服务调用链作为异常检测模型的输入,得到所述异常检测模型输出的对所述目标系统的异常检测结果。
本发明的第三个目的可通过下列技术方案实现:一种异常检测装置,其特征在于,包括分布式跟踪数据处理模块,用于对目标系统的分布式跟踪数据进行处理得到服务调用链;监控数据处理模块,用于对目标系统的监控数据进行降维并嵌入进服务调用链中;数据聚合模块,用于对目标系统的服务调用链和监控数据向量进行组合,构建新的服务调用链;异常检测模块,用于将处理后的服务调用链作为异常检测模型的输入,得到所述异常检测模型输出的对所述目标系统的异常检测结果;所述异常检测模型为利用所述目标系统的历史数据和所述历史数据相应时间内的问题反馈数据训练获得的。
本发明的第四个目的可通过下列技术方案实现:一种微服务系统中的故障检测装置,包括通信组件、电源组件、音频组件、显示器、一个或多个处理器、存储器以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行上述的一种微服务系统中的故障检测方法。
在上述的微服务系统中的故障检测装置中,所述通信组件还包括近场通信模块。
在上述的微服务系统中的故障检测装置中,所述音频组件还包括近场麦克风和扬声器。
在上述的微服务系统中的故障检测装置中,所述显示器还包括近场液晶显示器和触摸面板。
与现有技术相比,本发明具有能降低了对分析人员的专业性要求,也不需要复杂的维护,因此能够在提升系统的异常检测效率的同时,降低实现难度和实现成本的优点。
附图说明
图1是本发明的一种异常检测模型的建立方法的流程示意图。
图2是本发明的一种异常检测模型的建立方法的优化流程示意图。
图3是本发明的一种微服务系统中的故障检测方法的流程示意图。
图4是本发明的一种异常检测装置的结构示意图。
图5是本发明的微服务系统中的故障检测装置的结构示意图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
如图1-图5所示,一种异常检测模型的建立方法,包括以下步骤:
S1.1:获得历史分布式跟踪数据和历史监控数据,以及历史分布式跟踪数据和监控数据对应事件内的问题反馈数据。
作为用于训练模型的数据基础,此处为了区别于方法实施例S3.1、S3.2描述的分布式跟踪数据和监控数据,将用于训练模型所使用的分布式跟踪数据和监控数据称为历史分布式跟踪数据和历史监控数据;历史分布式跟踪数据和历史监控数据的生成时间早于S3.1、S3.2描述的分布式跟踪数据和监控数据的生成时间;历史分布式跟踪数据和历史监控数据与分布式跟踪数据和监控数据的类型及形式基本相同。
此外,还需要获得问题反馈数据;在一种示例场景下,用户通过使用目标系统,在运行目标系统的设备上执行一些预设操作,从而产生了线上的问题反馈数据;对于不同的目标系统,相应的,问题反馈数据的类型及内容可能存在差别;故此处对于问题反馈数据的类型及内容不做限制;为了便于理解,下面提供几则示例。
示例一:用户A通过使用设备上运行的目标系统,通过预先设置目标系统设备导致目标系统的CPU占用率过高,导致使用过程中存在操作响应延迟的问题,并记录发现问题的时间和问题的原因。
示例二:用户B通过使用设备上运行的目标系统,通过预先设置目标系统设备导致目标系统的内存占用过高,导致使用过程中存在操作响应延迟的问题,并记录发现问题的时间和问题的原因。
S1.2:对历史分布式跟踪数据进行构建,构建出历史服务调用链。
在本实施例中,为了保证训练出的异常检测模型的使用效果,要求训练数据中输入数据和使用过程中的输入数据具有相同或者相似的形式;结合实施例S3.1的描述,将分布式跟踪数据通过图生成算法构建出一个有向图;故在训练阶段,S1.2也要首先对历史分布式跟踪数据进行处理,从而得到服务调用链的图表示。
S1.3:对历史监控数据使用PCA方法进行降维获得历史监控数据向量。
在本实施例中,为了保证训练出的异常检测模型的使用效果,要求训练数据中输入数据和使用过程中的输入数据具有相同或者相似的形式;结合上述S3.2的描述,需要将历史监控数据通过PCA方法进行处理,从而获得降维后的历史监控数据向量。
S1.4:将历史监控数据向量作为历史服务调用链的权重嵌入历史服务调用链中;并且根据时间对问题反馈数据进行聚合,得到聚合后的问题反馈数据。
在本实施例中,为了形成训练数据,分别对前述步骤获得的历史服务调用链和历史监控数据向量和问题反馈数据进行聚合;具体聚合方式也是依照时间进行;通过服务调用链确定当前时间,然后根据当前时间去历史监控数据向量和问题反馈数据中需要当前时间的数据;历史监控数据向量依照S3.3的描述,根据将历史监控数据作为图的权重进行嵌入,从而构建新的历史服务调用链;然后将问题反馈数据与新的历史服务调用链进行聚合;从而保证历史服务调用链与问题反馈数据的对应关系。
下面提供一种获得聚合后的问题反馈数据的可选实现方式。
首先,根据时间段分批获得问题反馈数据的数量和问题类型,其后将问题反馈数据的数量和问题类型与不同日期的同一时间段的参照值进行对比;如果该时间段的问题反馈数据超过参照值,则表示该时间窗口内问题反馈的数量过多,可能存在异常;反之,则认为系统在该时间窗口内无异常;将上述判定结果作为时间窗口对问题反馈数据的聚合结果。
S1.5:将相同时间段内的历史服务调用链和问题反馈数据作为一组训练数据,通过训练数据训练获得异常检测模型。
为了保证模型输入输出在时间上的匹配度,在时间维度上实现对系统异常的准确检测,本申请实施例中在形成训练数据时,将相同时间窗口的聚合后的历史日志向量与聚合后的问题反馈数据作为一组训练数据;如此,基于不同的时间窗口,可以获得多组训练数据。
进一步细说,还包括S2:对所述的异常检测模型进行优化;
S2.1:将训练数据放入GCN网络中,进行特征提取,获得特征提取矩阵。
为了保证能够从训练数据中提取出有用的信息,需要对训练数据进行计算,从而获得特征提取矩阵,以减少其他数据的干扰。
在本实施例中,可以通过图卷积神经网络(GraphConvolutionalNetwork,GCN)方法对训练数据进行处理,以寻找数据中的特征,以获得特征提取矩阵;实际应用中将训练数据进行特征提取的方式不局限于GCN方法,本方案中对S2.1的具体实现方式不进行限定。
S2.2:将特征提取矩阵放入VAE网络中,提取故障信息,获得系统出现故障的概率。
为了检测是否出现故障,需要将S2.1计算出的特征提取矩阵进行处理,以便判断目标系统是否出现故障。
在本实施例中,可以通过变分自动编码器(VariationalautoEncoder,VAE)方法对特征矩阵进行处理,学习潜在的属性并构造新的元素,使用softmax层计算得到一个n维向量,每个维度的值表示出现在当前位置的概率,所有概率之和为1,从而获得系统出现故障的概率。
S2.3:将模型计算的概率与问题反馈数据得出的数据进行对比,调整与优化模型的参数。
在本实施例中,在通过所述训练数据进行模型训练时,利用预设测评指标对于模型进行评估,当评估结果满足预设条件时,得到所述异常检测模型;在一种示例中,要训练的异常检测模型其本质是一种分类模型,可以使用分类模型的相关测评指标来对模型训练情况进行评估;例如,使用的测评指标可以为准确率、召回率和F1分数;准确率表示真实异常在检测到的异常中所占的比例,召回率表示在所有被模型标记为异常的真实异常中所占的比例,F1分数是一种结合精确率和召回率的性能指标;在模型训练过程中,根据指标持续优化,满足预设条件时保存最终生成的模型文件。
当模型训练完成时,即可部署到对目标系统的测试环境中,执行微服务系统中的故障检测方法的流程;若异常检测结果为无异常,则异常检测流程结束;而若异常检测结果为异常,则可以根据实际需要,继续进行故障排查工作。
本发明的第二个目的可通过下列技术方案实现:一种微服务系统中的故障检测方法,基于上述一种异常检测模型的建立方法,包括以下步骤:
S3.1:获取目标系统的分布式跟踪数据,并通过所述分布式跟踪数据进行构建,构建出服务调用链。
目标系统在本实施例中是指任意一种待检测的软件系统,对于目标系统的功能不做限定,目标系统的分布式跟踪数据包括但不限于:跟踪ID(TraceID)、跨度ID(SpanId)、父亲跨度ID、服务名称、响应时间等;跟踪Id为分布式跟踪在全部响应流程的唯一ID,跨度ID为分布式跟踪在某个服务进行的ID,父亲跨度ID为分布式跟踪在上一个服务进行的ID,服务名称为目标系统运行服务的名称,响应时间为本次请求中在此服务的响应时间。
在本实施例中,可以通过跨度ID和父亲跨度ID进行遍历进行处理来生成服务调用链图,将文本转换为向量的方式不局限于跨度ID和父亲跨度ID进行遍历方法,本实施例中对S3.1的具体实现方式不进行限定。
S3.2:获取目标系统的监控数据,使用PCA方法进行降维获得监控数据向量。
目标系统的监控数据包括但不限于:CPU占用率、内存使用率等;CPU占用率表示目标终端设备的CPU运行情况,内存使用率表示目标终端设备的内存运行情况;由于监控数据的内容复杂,每个数据对当前服务的性能影响不同,这里需要对数据进行处理,以提取重要的数据进行分析,减少其他数据造成的干扰。
在本实施例中,可以通过主成分分析(PrincipalComponentAnalysis,PCA)方法对监控数据进行处理,以寻找数据中的主要成分,以获得一个更低维度的数据;将监控数据降维的方式不局限于PCA方法,本实施例中对S3.2的具体实现方式不进行限定。
S3.3:将所述的监控数据向量作为所述服务调用链的权重嵌入服务调用链中,得到聚合后的服务调用链。
为了实现时间维度上相对准确的异常诊断,S3.3需要在时间维度上对S3.1获得的服务调用链和S3.2获得的数据矩阵进行聚合;实现时具体可以包括:按照S3.1的服务调用链每个节点服务响应的时间进行计算,寻找该服务响应时间内的S3.2的计算出来的数据,将其作为该节点的一个权重值。
通过执行S3.3,将S3.1获得的服务调用链和S3.2获得的数据矩阵进行聚合,从而便于后续服务调用链对目标系统进行时间维度上相对准确的异常检测。
S3.4:将聚合后的服务调用链作为异常检测模型的输入,得到所述异常检测模型输出的对所述目标系统的异常检测结果。
在S3.4执行之前,已预先训练好异常检测模型;该模型的作用是根据输入的服务调用链图进行异常检测,并输出基于聚合后的服务调用链的异常检测结果;异常检测模型的本质是一个分类模型,用于基于输入内容做出分类;在本申请实施例中,异常检测结果也可以视为一个分类结果。
在本实施例中,将本次服务请求得出的服务调用链输入至异常检测模型中,如果模型输出的值为0,则表示本次请求时间段内系统无异常;如果模型输出值为1,则表示本次请求时间段内系统存在异常。
本发明的第三个目的可通过下列技术方案实现:一种异常检测装置,包括分布式跟踪数据处理模块401、监控数据处理模块402、数据聚合模块403、异常检测模块404。
分布式跟踪数据处理模块401,用于对目标系统的分布式跟踪数据进行处理得到服务调用链。
监控数据处理模块402,用于对目标系统的监控数据进行降维并嵌入进服务调用链中。
数据聚合模块403,用于对目标系统的服务调用链和监控数据向量进行组合,构建新的服务调用链。
异常检测模块404,用于将处理后的服务调用链作为异常检测模型的输入,得到所述异常检测模型输出的对所述目标系统的异常检测结果;所述异常检测模型为利用所述目标系统的历史数据和所述历史数据相应时间内的问题反馈数据训练获得的。
通过对目标系统的分布式跟踪和监控数据进行处理得到服务调用链,将服务调用链作为输入放入异常检测模型中,从而获得异常检测结果;本申请以训练好的异常检测模型辅助分析人员完成对目标系统的异常检测,降低了对分析人员的专业性要求,也不需要复杂的维护,因此能够在提升系统的异常检测效率的同时,降低实现难度和实现成本。
本申请实施例提供的技术方案中,能够利用机器学习算法对软件系统可能存在的异常进行自动检测,使得开发人员不必耗费大量的时间在系统问题定位,极大地提高了开发人员修复、优化、迭代软件系统的效率,缩减了人工成本。
本发明的第四个目的可通过下列技术方案实现:一种微服务系统中的故障检测装置,包括包括通信组件503、电源组件504、音频组件505、显示器506、存储器502、一个或多个处理器501、存储器502以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器502中,并且被配置成由所述一个或多个处理器501执行,所述程序包括用于执行上述的一种微服务系统中的故障检测方法。
存储器501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器502,不仅仅局限于处理器(CPU),还可能为图形处理器(GPU)、现场可编辑门阵列(FPGA)、嵌入式神经网络处理器(NPU)或人工智能(AI)芯片等处理芯片;处理器502,与存储器501耦合,执行存储器501所存储的程序,该程序运行时执行上述实施例的异常检测方法。
通信组件503被配置为便于电子设备和其他设备之间有线或无线方式的通信;电子设备可以接入基于通信标准的无线网络,如WiFi、3G、4G或5G,或它们的组合;在一个示例性实施例中,通信组件503经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息;在一个示例性实施例中,所述通信组件503还包括近场通信(NFC)模块,以促进短程通信;例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件504,为电子设备的各种组件提供电力;电源组件504可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件505被配置为输出和/或输入音频信号;例如,音频组件505包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号;所接收的音频信号可以被进一步存储在存储器501或经由通信组件503发送;在一些实施例中,音频组件505还包括一个扬声器,用于输出音频信号。
显示器506包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP);如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号;触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势;所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了大量术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (8)

1.一种异常检测模型的建立方法,其特征在于,包括以下步骤:
S1.1:获得历史分布式跟踪数据和历史监控数据,以及历史分布式跟踪数据和监控数据对应事件内的问题反馈数据;
S1.2:对历史分布式跟踪数据进行构建,构建出历史服务调用链;
S1.3:对历史监控数据使用PCA方法进行降维获得历史监控数据向量;
S1.4:将历史监控数据向量作为历史服务调用链的权重嵌入历史服务调用链中;并且根据时间对问题反馈数据进行聚合,得到聚合后的问题反馈数据;
S1.5:将相同时间段内的历史服务调用链和问题反馈数据作为一组训练数据,通过训练数据训练获得异常检测模型。
2.根据权利要求1所述的一种异常检测模型的建立方法,其特征在于,还包括S2:对所述的异常检测模型进行优化;
S2.1:将训练数据放入GCN网络中,进行特征提取,获得特征提取矩阵;
S2.2:将特征提取矩阵放入VAE网络中,提取故障信息,获得系统出现故障的概率;
S2.3:将模型计算的概率与问题反馈数据得出的数据进行对比,调整与优化模型的参数。
3.一种微服务系统中的故障检测方法,其特征在于,基于权利要求1-2任意一项所述的一种异常检测模型的建立方法,还包括以下步骤:
S3.1:获取目标系统的分布式跟踪数据,并通过所述分布式跟踪数据进行构建,构建出服务调用链;
S3.2:获取目标系统的监控数据,使用PCA方法进行降维获得监控数据向量;
S3.3:将所述的监控数据向量作为所述服务调用链的权重嵌入服务调用链中,得到聚合后的服务调用链;
S3.4:将聚合后的服务调用链作为异常检测模型的输入,得到所述异常检测模型输出的对所述目标系统的异常检测结果。
4.一种异常检测装置,其特征在于,包括分布式跟踪数据处理模块,用于对目标系统的分布式跟踪数据进行处理得到服务调用链;监控数据处理模块,用于对目标系统的监控数据进行降维并嵌入进服务调用链中;数据聚合模块,用于对目标系统的服务调用链和监控数据向量进行组合,构建新的服务调用链;异常检测模块,用于将处理后的服务调用链作为异常检测模型的输入,得到所述异常检测模型输出的对所述目标系统的异常检测结果;所述异常检测模型为利用所述目标系统的历史数据和所述历史数据相应时间内的问题反馈数据训练获得的。
5.一种微服务系统中的故障检测装置,包括通信组件、电源组件、音频组件、显示器、一个或多个处理器、存储器以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行权利要求3的一种微服务系统中的故障检测方法。
6.根据权利要求5所述的一种微服务系统中的故障检测装置,其特征在于,所述通信组件还包括近场通信模块。
7.根据权利要求5所述的一种微服务系统中的故障检测装置,其特征在于,所述音频组件还包括近场麦克风和扬声器。
8.根据权利要求5所述的一种微服务系统中的故障检测装置,其特征在于,所述显示器还包括近场液晶显示器和触摸面板。
CN202310574100.4A 2023-03-13 2023-05-18 一种微服务系统中的故障检测方法及装置 Pending CN116627693A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2023102485561 2023-03-13
CN202310248556 2023-03-13

Publications (1)

Publication Number Publication Date
CN116627693A true CN116627693A (zh) 2023-08-22

Family

ID=87620726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310574100.4A Pending CN116627693A (zh) 2023-03-13 2023-05-18 一种微服务系统中的故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN116627693A (zh)

Similar Documents

Publication Publication Date Title
CN111931860B (zh) 异常数据检测方法、装置、设备及存储介质
CN111178456A (zh) 异常指标检测方法、装置、计算机设备和存储介质
US20180268291A1 (en) System and method for data mining to generate actionable insights
CN108182515B (zh) 智能规则引擎规则输出方法、设备及计算机可读存储介质
CN113518011B (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
CN111309539A (zh) 一种异常监测方法、装置和电子设备
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及系统
CN111339074A (zh) 阈值生成方法、装置、设备和存储介质
CN111291096B (zh) 数据集构建方法、装置和存储介质及异常指标检测方法
KR102543064B1 (ko) Rpa 기반 제조환경 모니터링 서비스 제공 시스템
CN111176953A (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN113722134A (zh) 一种集群故障处理方法、装置、设备及可读存储介质
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN114881167A (zh) 异常检测方法、装置、电子设备和介质
CN114595113A (zh) 应用系统中的异常检测方法和装置、异常检测功能设置方法
US20230034061A1 (en) Method for managing proper operation of base station and system applying the method
CN116627693A (zh) 一种微服务系统中的故障检测方法及装置
CN111104576A (zh) 网页识别的处理方法、装置、系统及电子设备
CN111798237B (zh) 基于应用日志的异常交易诊断方法及系统
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN114358581A (zh) 性能指标的异常阈值确定方法和装置、设备、存储介质
CN114168409A (zh) 一种业务系统运行状态监控预警方法与系统
CN113869373A (zh) 设备异常检测方法、装置、计算机设备和存储介质
CN113361811A (zh) 运行状态预测方法、系统、设备及计算机可读存储介质
CN112764957A (zh) 应用故障定界方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination