CN115470025A - 分布式云场景下智能根因分析方法及装置、介质、设备 - Google Patents

分布式云场景下智能根因分析方法及装置、介质、设备 Download PDF

Info

Publication number
CN115470025A
CN115470025A CN202211083408.0A CN202211083408A CN115470025A CN 115470025 A CN115470025 A CN 115470025A CN 202211083408 A CN202211083408 A CN 202211083408A CN 115470025 A CN115470025 A CN 115470025A
Authority
CN
China
Prior art keywords
root cause
alarm
alarm event
maintenance
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211083408.0A
Other languages
English (en)
Inventor
王太浩
颜亮
于沈课
李珂
蔡卫卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Inspur Cloud Computing Service Co Ltd
Original Assignee
Shanghai Inspur Cloud Computing Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Inspur Cloud Computing Service Co Ltd filed Critical Shanghai Inspur Cloud Computing Service Co Ltd
Priority to CN202211083408.0A priority Critical patent/CN115470025A/zh
Publication of CN115470025A publication Critical patent/CN115470025A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本说明书实施例提供了一种分布式云场景下智能根因分析方法及装置、介质、设备。方法包括:对分布式云场景中该云中心的运行状态进行监控,在监控到云中心出现异常时生成告警事件;判断告警事件是否为有运维经验的告警事件;若是,则将告警事件分配至处于空闲状态的模板匹配引擎,以使模板匹配引擎根据告警事件调用对应的根因分析模板实例,将根因分析模板实例中的数据特征中的变量替换为告警事件中对应的告警信息变量,执行相应的数据处理操作得到实际输出特征,形成待识别样本特征向量;计算待识别样本特征向量和模板特征向量之间的相似程度;若相似程度高于预设程度,确定本次告警事件的推荐根因。本发明实施例实现了对告警根因的智能分析。

Description

分布式云场景下智能根因分析方法及装置、介质、设备
技术领域
本说明书一个或多个实施例涉及通信技术领域,尤其是涉及一种分布式云场景下智能根因分析方法及装置、介质、设备。
背景技术
云环境中告警和故障的根因分析是运维的主要工作内容之一,随着云平台业务的扩展、集群规模的扩张、云平台版本的迭代和云网边端的融合,云环境的复杂度正变得越来越高,人工运维面临的压力也越来越难以承受。一方面,运维工作中存在着大量的重复性劳动,对人力造成了浪费;另一方面,新的故障不断涌现,对于业务的快速拓展和平台的持续升级形成阻碍。因此迫切需要实现一种智能化的根因分析方法来减轻人力负担,实现无人化的运维。
传统的告警自动化分析方法主要集中在对告警的资源实体进行拓扑聚合和对告警的指标维度进行相关性分析等方面,这类工作对于海量告警的收敛抑制和运维任务的自动分发有一定价值,但对于平台及服务发生故障的根因定位和云环境的自主修复则收效甚微,平台及服务故障的根因定位和环境修复依旧完全依赖于运维人员的手动操作。
发明内容
为了解决以上至少一个问题,本说明书实施例描述了一种分布式云场景下智能根因分析方法及装置、介质、设备。
根据第一方面,提供了一种种分布式云场景下智能根因分析方法,所述方法由分布式云场景中的每一个云中心执行,所述方法包括:
对分布式云场景中该云中心的运行状态进行监控,并在监控到所述云中心出现异常时生成告警事件;
判断所述告警事件是否为有运维经验的告警事件;
若是,则将所述告警事件分配至处于空闲状态的模板匹配引擎,以使所述模板匹配引擎根据所述告警事件从预先创建的定制资源库中调用对应的根因分析模板实例,将所述根因分析模板实例中的数据特征中的变量替换为所述告警事件中对应的告警信息变量,并执行相应的数据处理操作得到实际输出特征,各个实际输出特征形成所述告警事件的待识别样本特征向量;计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度;若相似程度高于预设程度,则根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因;其中,所述根因分析模板实例为根据告警运维经验而总结的实例,所述根因分析模板实例中的数据特征中包括数据处理操作对应的预期输出特征,各个预期输出特征形成所述模板特征向量。
根据第二方面,提供了一种分布式云场景下智能根因分析装置,所述装置部署于分布式云场景中的每一个云中心中,所述装置包括:
状态监控模块,用于对分布式云场景中该云中心的运行状态进行监控,并在监控到所述云中心出现异常时生成告警事件;
经验判断模块,判断所述告警事件是否为有运维经验的告警事件;
根因确定模块,用于若所述告警事件为有运维经验的告警事件,则将所述告警事件分配至处于空闲状态的模板匹配引擎,以使所述模板匹配引擎根据所述告警事件从预先创建的定制资源库中调用对应的根因分析模板实例,将所述根因分析模板实例中的数据特征中的变量替换为所述告警事件中对应的告警信息变量,并执行相应的数据处理操作得到实际输出特征,各个实际输出特征形成所述告警事件的待识别样本特征向量;计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度;若相似程度高于预设程度,则根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因;其中,所述根因分析模板实例为根据告警运维经验而总结的实例,所述根因分析模板实例中的数据特征中包括数据处理操作对应的预期输出特征,各个预期输出特征形成所述模板特征向量
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面提供的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面提供的所述的方法。
本说明书实施例提供的,组合或者各自具有以下技术效果:对分布式云场景中该云中心的运行状态进行监控,并在监控到所述云中心出现异常时生成告警事件;经过判断得知所述告警事件是有运维经验的告警事件时,将所述告警事件分配至处于空闲状态的模板匹配引擎,这样所述模板匹配引擎根据所述告警事件从预先创建的定制资源库中调用对应的根因分析模板实例,将所述根因分析模板实例中的数据特征中的变量替换为所述告警事件中对应的告警信息变量,并执行相应的数据处理操作得到实际输出特征,各个实际输出特征形成所述告警事件的待识别样本特征向量;计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度;若相似程度高于预设程度,则根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因。可见本发明实施例对于云环境中已有运维经验的告警,构建待识别样本特征向量,将该待识别样本特征向量与模板特征向量进行比对,并确定推荐根因,可以大大减轻运维过程中的人力负担,降低运维成本,人工参与程度很低,节约了人力成本。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例中分布式云场景下智能根因分析方法的流程示意图;
图2是本说明书一个实施例中分布式云场景下智能根因分析方法的流程示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
第一方面,本发明实施例提供一种分布式云场景下智能根因分析方法,方法由分布式云场景中的每一个云中心执行,参见图1,该方法包括如下步骤S110~S130:
S110、对分布式云场景中该云中心的运行状态进行监控,并在监控到所述云中心出现异常时生成告警事件;
具体的,采集和监控分布式云场景中该云中心的各项指标,从而得知该云中心的运行状态,如果运行状态出现异常,例如,云中心中的某服务出现故障或者性能低于预期,则生成一个告警事件。
其中,在告警事件中对云中心的异常情况进行描述,例如,告警名称、告警特征等。
S120、判断所述告警事件是否为有运维经验的告警事件;
本发明实施例针对有运维经验和没有运维经验的告警事件采取不同的处理方式,因此首先需要判断告警事件是否为有运维经验的告警事件。
如果告警事件为有运维经验的告警事件,则说明之前出现过相同的告警事件,如果之前没有出现过相同的告警事件,则说明该告警事件是没有运维经验的告警事件。
在一个实施例中,可以体现针对已经发生过的告警事件的运维经验进行总结,形成定制资源库。具体的,所述定制资源库中可以包括:多组资源,每一组资源中包括所述根因分析模板实例、模板类型、模板名称以及模板分组,所述模板名称与告警名称相同。
其中,每一组资源对应一个已经发生过的告警事件的运维经验,每一组资源中主要包括四个属性:type、name、group和template。其中,type即模板类型,体现的是根因分析模板实例的类型,支持"alert"和"fault"选项,即支持告警和错误两种类型。name为模板名称,规定其与对应的告警事件的告警名称保持一致。group即模板分组,代表根因分析模板实例的分组情况,方便管理。template即根因分析模板实例,是将各种特征数据按照一定的数据格式创建为数据模型,然后由该数据模型转化而来的实例。
其中,根因分析模板实例也可以称为数据模型实例,是在数据模型(也可以称为根因分析模板)中添加具体数据所形成的实例。首先对分布式云场景下的告警运维经验进行总结,将运维过程中操作的检查日志的查询过程和关键字特征、检查指标的查询过程和指标特征、执行的相关命令及预期的结果特征等内容记录下来,然后针对每种告警按照一定的格式定义数据模型,然后将数据模型转化为数据模型实例,进而将告警运维经验转化为待匹配的模板特征。
其中,所述根因分析模板实例中包括多个数据特征,多个数据特征具体的可以包括:desciption即告警原因描述特征、log_features即日志特征、monitor_features即监控特征和script_features即脚本特征;所述日志特征、监控特征和脚本特征均为一个对象数组。desciption是对告警原因的描述,其中也可能包含需要替换的变量。
其中,log_features是一个对象数组,对象数组中包括至少一个日志特征对象,每一个日志特征对象都有自己的日志特征名称、索引模式、日志查询语句、日志查询的特征关键字、日志查询区间长度以及日志查询的预期输出特征。日志特征名称即name,方便在变量引用时对特征的查询结果进行引用,日志特征名称用户可以自己定义。索引模式即index,特征关键字即filters,预期输出特征即expects。日志查询区间长度即time_span,可以设置时、分、天,注意时间区间不要设置的太长,否则有可能会将之前的故障日志包含进去。当然还可以包括告警发生时间即occurrence_time。
其中,monitor_features是一个对象数据,对象数组中包括至少一个监控特征对象,每一个监控特征对象都有自己的监控特征名称、监控查询语句、监控查询区间长度、监控查询的预期输出特征,监控特征名称即name、监控查询语句即promql、预期输出特征即expects。
其中,script_features是一个对象数组,对象数组中包括至少一个脚本特征对象,每一个脚本特征对象均包括脚本特征名称、分布式云集群的名称、分布式云集群的节点选择器、脚本文件名称、脚本执行参数以及脚本执行的预期输出特征。脚本特征名称即name、分布式云集群的名称即cluster_name、节点选择器即node_selector、脚本文件名称即file_name、、脚本执行参数即script_features、预期输出特征即expects。由于集群中包括多个云中心,每一云中心对应一个节点,节点选择器的作用是确定当前云中心是哪一个节点。
也就是说,所述日志特征的对象数组中包括至少一个日志特征对象的日志特征名称、索引模式、日志查询语句、日志查询的特征关键字、日志查询区间长度以及日志查询的预期输出特征;所述监控特征的对象数据中包括至少一个监控特征对象的监控特征名称、监控查询语句、监控查询区间长度、监控查询的预期输出特征;所述脚本特征的对象数据中包括至少一个脚本特征对象的脚本特征名称、分布式云集群的名称、分布式云集群的节点选择器、脚本文件名称、脚本执行参数以及脚本执行的预期输出特征。
可见,首先需要对分布式云场景下的告警运维经验进行总结,将运维过程中操作的日志查询的查询过程和关键字特征等信息、检控查询的查询过程和指标特征等信息、脚本执行的相关命令及预期的结果特征等信息都记录下来,然后按照一定的格式形成数据模型,然后将数据模型转化为数据模型实例。
在此基础上,S120具体包括:
判断所述定制资源库中是否存在与告警事件的告警名称相同的模板名称;
若是,则所述告警事件为有运维经验的告警事件;否则,所述告警事件为无运维经验的告警事件。
也就是说,如果能够在定制资源库中查询到与告警事件的名称一致的模板名称,则说明该告警事件是存在相应的运维经验的,否则该告警事件不存在相应的运维经验。
S130、若所述告警事件是有运维经验的告警事件,则将所述告警事件分配至处于空闲状态的模板匹配引擎,以使所述模板匹配引擎根据所述告警事件从预先创建的定制资源库中调用对应的根因分析模板实例,将所述根因分析模板实例中的数据特征中的变量替换为所述告警事件中对应的告警信息变量,并执行相应的数据处理操作得到实际输出特征,各个实际输出特征形成所述告警事件的待识别样本特征向量;计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度;若相似程度高于预设程度,则根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因;其中,所述根因分析模板实例为根据告警运维经验而总结的实例,所述根因分析模板实例中的数据特征中包括数据处理操作对应的预期输出特征,各个预期输出特征形成所述模板特征向量。
也就是说,如果告警事件是有运维经验的告警事件,则将该给告警事件分配给处于空闲状态的模板匹配引擎。也就是说,如果模板匹配引擎当前处于空闲状态,则由模板匹配引擎进行后续处理,如果模板匹配引擎当前未处于空闲状态,则排队等待。
具体的,所述模板匹配引擎从定制资源库中调用模板名称与告警事件名称相同的根因分析模板实例,从告警事件中提取出告警信息变量,然后将告警信息变量替换根因分析模板实例中数据特征中的变量,在变量替换后进行相应的数据处理操作,得到实际数据处理操作对应的实际输出特征,各个实际输出特征形成了告警事件的待识别样本特征向量。由于在根因分析模板实例的数据特征中包括预期输出特征,各个预期输出特征形成模板特征向量。计算待识别样本特征向量和模板特征向量之间的相似程度,相似程度越高,说明告警事件越与根因分析模板实例接近,如果相似程度高于一定程度,则告警事件为真,否则告警事件为假。在本次告警事件为真时,根据以往的历史告警事件中名称相同的告警事件的推荐根因,确定本次告警事件的推荐根因。
其中,模板匹配引擎会逐级地替换变量,由于在根因分析模板实例中包括日志特征、监控特征以及脚本特征,因此可以针对日志特征的变量、监控特征的变量、脚本特征中的变量替换为本次告警事件中相应的告警信息变量,进而执行日志查询、监控查询、脚本执行等数据处理操作,在日志查询的操作完毕后得到日志查询的实际输出特征,在监控查询的操作完毕后得到监控查询的实际输出特征,在脚本执行完毕后得到脚本执行的实际输出特征,将这些实际输出特征形成模板特征向量。
当然,有可能需要执行多次数据处理操作,而上一次数据处理操作的实际输出特征需要作为下一次数据处理操作的输入信息,即需要分步骤执行数据处理操作,为此需要记录下每一步骤中数据处理操作对应的实际输出特征,将所有步骤的数据处理操作的实际输出特征形成模板特征向量。上述数据处理操作实际是特征构建操作。
在一个实施例中,可以采用莱文斯坦距离表示两个向量之间的相似程度,莱文斯坦距离越小,两个向量之间的相似程度越高,莱文斯坦距离越大,两个向量之间的相似程度越低。
具体的,所述计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度,可以包括:计算所述待识别样本特征向量和所述模板特征向量之间的莱文斯坦距离;其中,所述莱文斯坦距离越小,所述待识别样本特征向量和所述模板特征向量之间的相似程度越高。
也就是说,当莱文斯坦距离小于预设值时,认为相似程度高于预设程度,此时则认为本次告警事件为真,否则认为本次告警事件为假。
例如,采用如下公式计算莱文斯坦距离:
Figure BDA0003834409350000091
其中,这里的X和Y分别表示待识别样本特征向量和模板特征向量,xi和yi为对应向量中的第i个元素,Levenshtein()为莱文斯坦距离计算公式。
在一个实施例中,在确定本次告警事件为真后,所述根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因,具体可以包括:统计历史告警事件中相同名称的告警事件的推荐根因;将统计的推荐根因按照推荐次数从大到小的顺序进行排序,将排序最靠前的推荐根因作为本次告警事件的推荐根因。
也就是说,将以往发生过的所有告警事件中与本次告警事件名称相同的告警事件的推荐根因进行统计,从而得知每一个推荐根因的推荐次数,将各个推荐根因按照推荐次数从大到小进行排序,排序最靠前的推荐根因为推荐次数最多的推荐根因,将该推荐根因作为本次告警事件的推荐根因,从而实现对本次告警事件的智能根因分析。
至此,完成了对有运维经验的告警事件的根因分析。下面对没有运维经验的告警事件进行根因分析。
在一个实施例中,本发明实施例提供的方法还可以包括如下步骤S140~S150:
S140、若所述告警事件是无运维经验的告警事件,判断该云中心的告警事件的数量是否超过了预设阈值;
S150、若该云中心的告警事件的数量超过了预设阈值,则将该云中心的业务切换至备份云中心中以使所述备份云中心处理业务,生成一个运维通知,并将所述运维通知上报给调度中心,以使所述调度中心将所述运维通知发送给推理中心,所述推理中心在接收到运维通知后将预先训练的智能推理模型下发至发送运维通知的云中心;
其中,被下发至该云中心的智能推理模型用于:进行至少一轮推理操作,每一轮推理操作包括:根据该云中心的软硬件设施在当前的状态指标向量执行对应的运维动作;在所述至少一轮推理操作完毕后,生成运维结果,并将运维结果发送至训练中心;
其中,所述训练中心用于:若所述运维结果为发送运维通知的云中心的告警事件的数量下降至预设阈值,则忽略所述运维结果;若所述运维结果为发送运维通知的云中心的告警事件的数量仍高于预设阈值,则将发送运维通知的云中心的状态恢复到所述推理中心进行处理之前的状态,并将该状态作为智能推理模型的初始环境状态,对所述智能推理模型进行迭代优化,在优化结束后,所述推理中心将迭代优化后的智能推理模型下发至发送运维通知的云中心,以对该云中心进行所述至少一轮推理操作,直到所述运维结果为发送运维通知的云中心的告警事件的数量下降至预设阈值。
也就是说,云中心X在发生告警事件后,判断当前的告警事件的数量是否超出了预设阈值,如果超出了预设阈值则有可能会损坏云中心X的软硬件设施,也可能会影响业务的正常处理,因此将该云中心X切换到备份云中心X*,这样备份云中心X*就处理后续的业务,用户和该云中心X之间解除依赖,进而用户与备份云中心X*建立依赖。然后,云中心X生成一个运维通知,云中心X将所述运维通知上报给调度中心,调度中心将运维通知下发给推理中心,在推理中心中存储有预先训练得到的智能推理模型,也可以称为智能推理体,推理中心将智能推理模型下发到云中心X中,以使智能推理模型在云中心X中进行相应的处理操作。
具体的,由于在分布式云场景中存在多个云中心,此时也可能存在其它的云中心出现了大量的告警事件,因此在推理中心中维护一个队列,在队列中存储未处理的运维通知。即,当推理中心接收到一个运维通知后,将该运维通知放置到队列中,然后按照队列中运维通知的顺序逐个进行智能推理模型的下发操作。
下发到云中心中的智能推理模型会在有限的步骤或者有限的时间内执行至少一轮的推理操作,每一轮的推理操作包括:获取云中心在当前的状态指标向量,然后基于该状态指标向量进行决策,得到最优运维动作,然后执行最优运维动作,在该最优运维动作执行完毕后,判断推理操作的轮数是否达到最大轮数,或者判断智能推理模型的处理时间是否达到最大时间。如果推理操作的轮数达到最大轮数,或智能推理模型的处理时间达到最大时间,则不再执行下一轮推理操作。如果推理操作的轮数没有达到最大轮数,且智能推理模型的处理时间没有达到最大时间,则根据云中心当前的状态判断是否需要进行下一轮推理操作,例如,当前云中心的告警数量已经下降到阈值之下,则不需要进行下一轮推理操作。如果云中心的告警数量仍然在阈值之上,则需要进行下一轮推理操作。
当智能推理模型处理结果后,会评估当前云中心的告警数量是否低于阈值,进而根据评估结果生成运维结果,并将运维结果发送给训练中心。
训练中心中也可以维护一个队列,在该队列中存储未处理的运维结果。训练中心每次从所述队列中取出一个运维结果,如果该运维结果显示云中心的告警事件的数量下降至预设阈值,此时云中心运行正常,则忽略所述运维结果,并从队列中取下一个运维结果。如果运维结果为发送运维通知的云中心的告警事件的数量仍高于预设阈值,说明当前的智能推理模型没有解决该云中心存在的问题,此时需要对智能推理模型进行迭代优化。
具体的,训练中心将发送运维通知的云中心的状态恢复到所述推理中心进行处理之前的状态,即将云中心恢复到智能推理模型进行处理之前的状态,然后将该状态作为初始环境状态,在初始环境状态的基础上进行迭代优化。在迭代优化完成后,训练中心可以通知推理中心,通过参数共享的方式使得推理中心的各个服务器中的智能推理模型副本均实现迭代优化。
推理中心将迭代优化完成的智能推理模型下发到发送运维通知的云中心中,再次使智能推理模型进行至少一轮推理操作。当智能推理模型处理结果后,会再次评估当前云中心的告警数量是否低于阈值,进而根据评估结果生成运维结果,并将运维结果发送给训练中心。因此如果迭代优化后的智能推理模型仍然没有解决问题,则还需要再一次进行迭代优化,以此类推,直到迭代优化后的智能推理模型解决云中心的问题,即发送运维通知的云中心的告警事件的数量下降至预设阈值。
可见,运维目标为使各个云中心的告警数量低于设定的阈值。
其中,所述智能推理模型以所述分布式云场景作为运维环境,实时获取环境状态,形成状态指标向量,在当前的状态指标向量下计算动作空间中所有运维动作的Q函数值,根据Q函数值的大小确定最优运维动作,进而执行最优运维动作。
在一个实施例中,所述训练中心可以具体用于:
在对所述智能推理模型进行迭代优化的过程中,所述智能推理模型执行一个运维动作后,获取云中心的软硬件设施在当前的状态指标向量,根据所述当前的状态指标向量和初始环境状态对应的状态指标向量之间的变化,确定该运维动作对应的奖惩值和Q函数值,并根据所述奖惩值和Q函数值对所述智能推理模型进行参数优化。
具体的,在迭代优化过程中,获取执行一个运维动作之后的状态指标向量,根据所述当前的状态指标向量和初始环境状态对应的状态指标向量之间的变化,确定对应的奖惩值,从而对智能推理模型进行奖励或者惩罚,在此基础上,根据学习算法更新Q函数的参数,进而计算新的Q函数值,进而根据新的Q函数值对智能推理模型进行参数优化。
针对没有运维经验的新告警场景,本发明实施例提出了一种基于强化学习的启发式根因分析框架。增加了训练中心和推理中心,推理中心的作用是向云中心下发智能推理模型,训练中心的作用是对智能推理模型进行模型训练、迭代优化等。
参见图2,当云中心X的告警数量超出阈值时,生成运维通知,将运维通知发送给调度中心,实现故障报告。调度中心启动备份云中心X*,这样使得用户与备份云中心X*建立依赖,并与云中心X解除依赖。调度中心向推理中心发送运维通知,推理中心将云中心X下发智能推理模型即图2中的推理智能体,下发到云中心X的智能推理模型进行至少一轮推理操作,每一轮推理操作包括:根据云中心X当前的软硬件设施的状态指标向量生成一个最优运维动作,执行该运维动作。在智能推理模型执行完毕后,向训练中心反馈运维结果。如果运维结果为云中心X恢复正常运行,则训练中心忽略该运维结果。如果运维结果为云中心X的告警数量仍高于阈值,则将云中心X恢复到智能推理模型处理之前的状态,并在此基础上进行迭代优化。在迭代优化后,推理中心向云中心X下发迭代优化后的智能推理模型,继续进行运维处理。
其中,基于强化学习的根因分析框架的动作空间的定义。将强化学习技术应用于云场景下的运维,一个比较核心的问题是动作空间的定义,对此本发明实施例做了如下假设:云场景下的任意运维动作都可以分解为一系列原子级操作的排列,原子级操作的数量是有限的。这里“原子级”的意思是该操作不可进一步被分解为更小的操作,例如,kill一个进程或ping一个地址。将云场景下的所有原子级操作的集合记为:
A={ai|i=1,...,N}
将A作为基于强化学习的启发式根因分析框架的动作空间,显然这是一个离散的动作空间。
其中,基于强化学习的根因分析框架的状态空间设计。状态信息需要涵盖智能推理模型感知到的环境,以及智能推理模型的动作给环境带来的影响。告警运维任务的目标是在最少步骤以内把环境中的告警数量降低到阈值以下,期间需要避免破坏环境监控组件,以及保证除告警之外的所有软硬件设施正常运行。这就要求知道环境中所有软硬件设施的状态指标,指标的取值为0或1,分别代表正常和异常。除此以外,告警表达式的取值(0或1)、容量类指标的取值也是我们关心的环境信息,我们希望在处理告警的时候能够尽可能降低容量类指标的数值大小。将所有这些指标的取值按照固定的顺序排列起来构成一个向量,即状态指标向量,这个向量就代表云环境的当前状态。其中,容量类指标是指体现服务器性能的数值型的指标,例如,资源的使用率、总量、剩余多少等。
其中,基于强化学习的根因分析框架的奖惩函数设计。首先要求保证除告警之外的软硬件设施正常运行,这意味着如果在智能体决策的过程中,某个状态指标值由0变成了1,就要对智能体进行一定的惩罚。基于这个要求本发明实施例提出了奖惩值,采用下式计算奖惩值:
rewarddown=-α×max(sum0([xxx]_status)-sumi([xxx]_status),0)
这里的α是一个缩放因子,其值大小视该要求的重要程度而定,sum0([xxx]_status)为初始环境状态对应的状态指标向量中的元素之和,sumi([xxx]_status为经过第i个运维动作之后的状态指标向量中的元素之和。当运维动作导致某项软硬件状态异常,智能推理模型就会受到惩罚,导致的异常越多惩罚越严重。
其中,基于强化学习的根因分析框架之智能推理模型的构建。智能推理模型是从状态空间到动作空间的映射:
π:S→A
强化学习的目标是对这个模型进行训练,使训练好的模型在给定状态的云环境中执行最优的运维动作。启发式根因分析框架可以使用DQN(即Deep Q Network)架构,即深度神经网络。本发明实施例中的状态指标向量是一阶张量形式的,因此本发明实施例使用全连接网络作为基本的网络结构。为了提高网络的表征能力并降低模型的训练难度,要求神经网络的深度不低于3层且不高于10层,另外在各层加入残差连接避免训练过程中误差反向传播时的梯度消失问题。基于DQN架构构建的智能推理模型具有如下形式:
Figure BDA0003834409350000141
公式中的Q即代表本发明上述DQN架构中提出的神经网络结构,网络的输入层神经元数量为云环境的状态空间S的维度,网络的输出层神经元数量为云环境的运维动作空间A的维度N。
训练中心在对智能推理模型训练时,通过初始化的神经网络对动作空间中所有运维动作的值函数进行估计,比较模型对各个运维动作估计的Q函数值与贝尔曼方程估计的Q函数值之间的差异实现网络参数的更新。由于训练中心实现了对所有分布式云中心的模型参数共享,这相当于集成了多个云中心的智能体运维经验,智能推理模型的训练速度相对于单一集群有了大幅度的提升,并且对于故障的种类变化有更强的鲁棒性。
对于没有运维经验的新的运维场景,处于空闲状态的强化学习根因分析引擎即智能推理模型拉取环境的监控数据并通过规则将其转化为格式化的状态指标向量,该向量作为原始输入特征被输入到智能推理模型中,进而产生当前状态下的最优运维动作,之后监控更新环境中的状态指标向量,智能推理模型重新对其进行拉取和分析,如此周而复始直至满足推理过程停止的条件。
可理解的是,模板匹配是统计决策方法的特殊情况,也一种最基本的模式识别方法,模板匹配通过计算待识别样本和模板特征之间的相似度实现对样本的识别与分类。定制资源即Custom Resource,是对Kubernetes API的扩展,可以通过对定制资源的操作实现自定义配置的动态更新。强化学习用于描述和解决智能推理模型在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
本发明实施例为了实现分布式云场景下的告警和故障的自动化根因分析,减少人工干预,实现云平台和服务产品的自主修复,提出了一种分布式云场景下的智能根因分析方法,该方法可以轻松地在分布式云环境中实现,对于提高云平台和服务的稳定性、缩短故障时间、压缩运维成本有重要价值。
基于本发明实施例提供的分布式云场景下的智能根因分析方法,对于云环境中已有运维经验的告警,构建待识别样本特征向量,将该待识别样本特征向量与模板特征向量进行比对,并确定推荐根因。对于环境中没有运维经验的告警,能够采用一种启发式的方法,通过智能推理模型进行推理操作,在一定程度上解决对无经验告警的根因分析问题。本发明实施例能够大大减轻运维过程中的人力负担,降低运维成本。
本发明实施例基于模式识别中的模板匹配技术对有运维经验的告警实现自动化的根因分析,基于强化学习框架对新的告警场景实现启发式的根因分析和无人化运维。具体的,对于有运维经验的告警,建立了定制资源库,在定制资源库中包括根因分析模板实例,通过模板匹配引擎,对告警事件进行样本特征构建,形成待识别样本特征向量,将该待识别样本特征向量和模板特征向量匹配,确定报警事件是否为真,在为真时照历史报警事件中相同名称的报警实现的推荐根因,确定本次报警事件的推荐根因。该方法对于没有运维经验的新告警场景,提出了基于强化学习的启发式根因分析框架,增加了训练中心和推理中心,训练中心对智能推理模型进行优化训练,推理中心基于充分训练的运维智能体实现启发式的根因分析和自主运维。
第二方面,本发明实施例提供一种分布式云场景下智能根因分析装置,所述装置部署于分布式云场景中的每一个云中心中,所述装置包括:
状态监控模块,用于对分布式云场景中该云中心的运行状态进行监控,并在监控到所述云中心出现异常时生成告警事件;
经验判断模块,判断所述告警事件是否为有运维经验的告警事件;
根因确定模块,用于若所述告警事件为有运维经验的告警事件,则将所述告警事件分配至处于空闲状态的模板匹配引擎,以使所述模板匹配引擎根据所述告警事件从预先创建的定制资源库中调用对应的根因分析模板实例,将所述根因分析模板实例中的数据特征中的变量替换为所述告警事件中对应的告警信息变量,并执行相应的数据处理操作得到实际输出特征,各个实际输出特征形成所述告警事件的待识别样本特征向量;计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度;若相似程度高于预设程度,则根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因;其中,所述根因分析模板实例为根据告警运维经验而总结的实例,所述根因分析模板实例中的数据特征中包括数据处理操作对应的预期输出特征,各个预期输出特征形成所述模板特征向量。
在一个实施例中,所述根因分析模板实例中的数据特征包括告警原因描述特征、日志特征、监控特征和脚本特征;所述日志特征、监控特征和脚本特征均为一个对象数组;其中:所述日志特征的对象数组中包括至少一个日志特征对象的日志特征名称、索引模式、日志查询语句、日志查询的特征关键字、日志查询区间长度以及日志查询的预期输出特征;所述监控特征的对象数据中包括至少一个监控特征对象的监控特征名称、监控查询语句、监控查询区间长度、监控查询的预期输出特征;所述脚本特征的对象数据中包括至少一个脚本特征对象的脚本特征名称、分布式云集群的名称、分布式云集群的节点选择器、脚本文件名称、脚本执行参数以及脚本执行的预期输出特征。
在一个实施例中,所述定制资源库中包括:多组资源,每一组资源中包括所述根因分析模板实例、模板类型、模板名称以及模板分组,所述模板名称与告警名称相同;对应的,所述经验判断模块具体用于:判断所述定制资源库中是否存在与告警事件的告警名称相同的模板名称;若是,则所述告警事件为有运维经验的告警事件;否则,所述告警事件为无运维经验的告警事件。
在一个实施例中,根因确定模块执行的步骤“计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度”,具体可以包括:计算所述待识别样本特征向量和所述模板特征向量之间的莱文斯坦距离;其中,所述莱文斯坦距离越小,所述待识别样本特征向量和所述模板特征向量之间的相似程度越高。
在一个实施例中,根因确定模块执行的步骤“根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因”,具体可以包括:统计历史告警事件中相同名称的告警事件的推荐根因;将统计的推荐根因按照推荐次数从大到小的顺序进行排序,将排序最靠前的推荐根因作为本次告警事件的推荐根因。
在一个实施例中,装置还可以包括:
阈值判断模块,用于若所述告警事件是无运维经验的告警事件,判断该云中心的告警事件的数量是否超过了预设阈值;
运维上报模块,用于若该云中心的告警事件的数量超过了预设阈值,则将该云中心的业务切换至备份云中心中以使所述备份云中心处理业务,生成一个运维通知,并将所述运维通知上报给调度中心,以使所述调度中心将所述运维通知发送给推理中心,所述推理中心在接收到运维通知后将预先训练的智能推理模型下发至发送运维通知的云中心;其中,被下发至该云中心的智能推理模型用于:进行至少一轮推理操作,每一轮推理操作包括:根据该云中心的软硬件设施在当前的状态指标向量执行对应的运维动作;在所述至少一轮推理操作完毕后,生成运维结果,并将运维结果发送至训练中心;其中,所述训练中心用于:若所述运维结果为发送运维通知的云中心的告警事件的数量下降至预设阈值,则忽略所述运维结果;若所述运维结果为发送运维通知的云中心的告警事件的数量仍高于预设阈值,则将发送运维通知的云中心的状态恢复到所述推理中心进行处理之前的状态,并将该状态作为智能推理模型的初始环境状态,对所述智能推理模型进行迭代优化,在优化结束后,所述推理中心将迭代优化后的智能推理模型下发至发送运维通知的云中心,以对该云中心进行所述至少一轮推理操作,直到所述运维结果为发送运维通知的云中心的告警事件的数量下降至预设阈值。
在一个实施例中,所述训练中心具体用于:在对所述智能推理模型进行迭代优化的过程中,所述智能推理模型执行一个运维动作后,获取云中心的软硬件设施在当前的状态指标向量,根据所述当前的状态指标向量和初始环境状态对应的状态指标向量之间的变化,确定该运维动作对应的奖惩值和Q函数值,并根据所述奖惩值和Q函数值对所述智能推理模型进行参数优化。
第三方面,本说明书一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
第四方面,本说明书一个实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现执行说明书中任一个实施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对本说明书实施例的装置的具体限定。在说明书的另一些实施例中,上述装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置、系统内的各模块之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种分布式云场景下智能根因分析方法,其特征在于,所述方法由分布式云场景中的每一个云中心执行,所述方法包括:
对分布式云场景中该云中心的运行状态进行监控,并在监控到所述云中心出现异常时生成告警事件;
判断所述告警事件是否为有运维经验的告警事件;
若是,则将所述告警事件分配至处于空闲状态的模板匹配引擎,以使所述模板匹配引擎根据所述告警事件从预先创建的定制资源库中调用对应的根因分析模板实例,将所述根因分析模板实例中的数据特征中的变量替换为所述告警事件中对应的告警信息变量,并执行相应的数据处理操作得到实际输出特征,各个实际输出特征形成所述告警事件的待识别样本特征向量;计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度;若相似程度高于预设程度,则根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因;其中,所述根因分析模板实例为根据告警运维经验而总结的实例,所述根因分析模板实例中的数据特征中包括数据处理操作对应的预期输出特征,各个预期输出特征形成所述模板特征向量。
2.根据权利要求1所述的方法,其特征在于,所述根因分析模板实例中的数据特征包括告警原因描述特征、日志特征、监控特征和脚本特征;所述日志特征、监控特征和脚本特征均为一个对象数组;其中:
所述日志特征的对象数组中包括至少一个日志特征对象的日志特征名称、索引模式、日志查询语句、日志查询的特征关键字、日志查询区间长度以及日志查询的预期输出特征;所述监控特征的对象数据中包括至少一个监控特征对象的监控特征名称、监控查询语句、监控查询区间长度、监控查询的预期输出特征;所述脚本特征的对象数据中包括至少一个脚本特征对象的脚本特征名称、分布式云集群的名称、分布式云集群的节点选择器、脚本文件名称、脚本执行参数以及脚本执行的预期输出特征。
3.根据权利要求1所述的方法,其特征在于,所述定制资源库中包括:多组资源,每一组资源中包括所述根因分析模板实例、模板类型、模板名称以及模板分组,所述模板名称与告警名称相同;
对应的,所述判断所述告警事件是否为有运维经验的告警事件,包括:
判断所述定制资源库中是否存在与告警事件的告警名称相同的模板名称;
若是,则所述告警事件为有运维经验的告警事件;否则,所述告警事件为无运维经验的告警事件。
4.根据权利要求1所述的方法,其特征在于,所述计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度,包括:计算所述待识别样本特征向量和所述模板特征向量之间的莱文斯坦距离;其中,所述莱文斯坦距离越小,所述待识别样本特征向量和所述模板特征向量之间的相似程度越高。
5.根据权利要求1所述的方法,其特征在于,所述根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因,包括:
统计历史告警事件中相同名称的告警事件的推荐根因;
将统计的推荐根因按照推荐次数从大到小的顺序进行排序,将排序最靠前的推荐根因作为本次告警事件的推荐根因。
6.根据权利要求1所述的方法,其特征在于,还包括:
若所述告警事件是无运维经验的告警事件,判断该云中心的告警事件的数量是否超过了预设阈值;
若是,则将该云中心的业务切换至备份云中心中以使所述备份云中心处理业务,生成一个运维通知,并将所述运维通知上报给调度中心,以使所述调度中心将所述运维通知发送给推理中心,所述推理中心在接收到运维通知后将预先训练的智能推理模型下发至发送运维通知的云中心;
其中,被下发至该云中心的智能推理模型用于:进行至少一轮推理操作,每一轮推理操作包括:根据该云中心的软硬件设施在当前的状态指标向量执行对应的运维动作;在所述至少一轮推理操作完毕后,生成运维结果,并将运维结果发送至训练中心;
其中,所述训练中心用于:若所述运维结果为发送运维通知的云中心的告警事件的数量下降至预设阈值,则忽略所述运维结果;若所述运维结果为发送运维通知的云中心的告警事件的数量仍高于预设阈值,则将发送运维通知的云中心的状态恢复到所述推理中心进行处理之前的状态,并将该状态作为智能推理模型的初始环境状态,对所述智能推理模型进行迭代优化,在优化结束后,所述推理中心将迭代优化后的智能推理模型下发至发送运维通知的云中心,以对该云中心进行所述至少一轮推理操作,直到所述运维结果为发送运维通知的云中心的告警事件的数量下降至预设阈值。
7.根据权利要求6所述的方法,其特征在于,所述训练中心具体用于:在对所述智能推理模型进行迭代优化的过程中,所述智能推理模型执行一个运维动作后,获取云中心的软硬件设施在当前的状态指标向量,根据所述当前的状态指标向量和初始环境状态对应的状态指标向量之间的变化,确定该运维动作对应的奖惩值和Q函数值,并根据所述奖惩值和Q函数值对所述智能推理模型进行参数优化。
8.一种分布式云场景下智能根因分析装置,其特征在于,所述装置部署于分布式云场景中的每一个云中心中,所述装置包括:
状态监控模块,用于对分布式云场景中该云中心的运行状态进行监控,并在监控到所述云中心出现异常时生成告警事件;
经验判断模块,判断所述告警事件是否为有运维经验的告警事件;
根因确定模块,用于若所述告警事件为有运维经验的告警事件,则将所述告警事件分配至处于空闲状态的模板匹配引擎,以使所述模板匹配引擎根据所述告警事件从预先创建的定制资源库中调用对应的根因分析模板实例,将所述根因分析模板实例中的数据特征中的变量替换为所述告警事件中对应的告警信息变量,并执行相应的数据处理操作得到实际输出特征,各个实际输出特征形成所述告警事件的待识别样本特征向量;计算所述待识别样本特征向量和所述根因分析模板实例对应的模板特征向量之间的相似程度;若相似程度高于预设程度,则根据历史告警事件中相同名称的告警事件的推荐根因,确定本次告警事件的推荐根因;其中,所述根因分析模板实例为根据告警运维经验而总结的实例,所述根因分析模板实例中的数据特征中包括数据处理操作对应的预期输出特征,各个预期输出特征形成所述模板特征向量。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行实现权利要求1~7中的任一项所述的方法。
10.一种计算设备,其特征在于,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1~7中的任一项所述的方法。
CN202211083408.0A 2022-09-06 2022-09-06 分布式云场景下智能根因分析方法及装置、介质、设备 Pending CN115470025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211083408.0A CN115470025A (zh) 2022-09-06 2022-09-06 分布式云场景下智能根因分析方法及装置、介质、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211083408.0A CN115470025A (zh) 2022-09-06 2022-09-06 分布式云场景下智能根因分析方法及装置、介质、设备

Publications (1)

Publication Number Publication Date
CN115470025A true CN115470025A (zh) 2022-12-13

Family

ID=84368451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211083408.0A Pending CN115470025A (zh) 2022-09-06 2022-09-06 分布式云场景下智能根因分析方法及装置、介质、设备

Country Status (1)

Country Link
CN (1) CN115470025A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115955388A (zh) * 2022-12-20 2023-04-11 浪潮云信息技术股份公司 一种分布式云综合告警系统
CN117149587A (zh) * 2023-08-28 2023-12-01 招商基金管理有限公司 监控台账管理方法、装置、存储介质及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115955388A (zh) * 2022-12-20 2023-04-11 浪潮云信息技术股份公司 一种分布式云综合告警系统
CN117149587A (zh) * 2023-08-28 2023-12-01 招商基金管理有限公司 监控台账管理方法、装置、存储介质及设备
CN117149587B (zh) * 2023-08-28 2024-05-31 招商基金管理有限公司 监控台账管理方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN111124840B (zh) 业务运维中告警的预测方法、装置与电子设备
US10740656B2 (en) Machine learning clustering models for determining the condition of a communication system
US10877863B2 (en) Automatic prediction system for server failure and method of automatically predicting server failure
CN115470025A (zh) 分布式云场景下智能根因分析方法及装置、介质、设备
CN108600009B (zh) 一种基于告警数据分析的网络告警根源定位方法
US11348023B2 (en) Identifying locations and causes of network faults
CN114465874B (zh) 故障预测方法、装置、电子设备与存储介质
CN114666204B (zh) 一种基于因果强化学习的故障根因定位方法及系统
CN112580784A (zh) 基于多输入多输出卷积神经网络的设备智能预警方法
TW202016805A (zh) 基於自動學習的基地台異常之預測的系統與方法
CN114266301A (zh) 基于图卷积神经网络的电力设备故障智能预测方法
CN112181659A (zh) 云仿真内存资源预测模型构建方法与内存资源预测方法
CN115421950A (zh) 一种基于机器学习的自动化系统运维管理方法及系统
CN114637649A (zh) 一种基于oltp数据库系统的告警根因分析方法及装置
Kalantari et al. Dynamic software rejuvenation in web services: a whale optimizationalgorithm-based approach
CN112580798A (zh) 基于多输入多输出ResNet的设备智能预警方法
CN116991615A (zh) 一种基于在线学习的云原生系统故障自愈方法及装置
KR20080087571A (ko) 상황 예측 시스템 및 그 방법
WO2023160922A1 (en) Automatically quantifying an uncertainty of a prediction provided by a trained regression model
Mijumbi et al. MAYOR: machine learning and analytics for automated operations and recovery
CN114157553A (zh) 一种数据处理方法、装置、设备及存储介质
CN115150255B (zh) 一种自适应的基于知识图谱的应用故障自动根因定位方法
CN112948154A (zh) 一种系统异常诊断方法、装置及存储介质
Li et al. A framework for supporting intelligent fault and performance management for communication networks
US20230306318A1 (en) System and method for outage forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination