CN113434193A - 根因变更的定位方法和装置 - Google Patents

根因变更的定位方法和装置 Download PDF

Info

Publication number
CN113434193A
CN113434193A CN202110986349.7A CN202110986349A CN113434193A CN 113434193 A CN113434193 A CN 113434193A CN 202110986349 A CN202110986349 A CN 202110986349A CN 113434193 A CN113434193 A CN 113434193A
Authority
CN
China
Prior art keywords
change
root cause
feature
fault event
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110986349.7A
Other languages
English (en)
Other versions
CN113434193B (zh
Inventor
曹立
王泓琳
张文池
隋楷心
刘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bishi Technology Co ltd
Original Assignee
Beijing Bishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bishi Technology Co ltd filed Critical Beijing Bishi Technology Co ltd
Priority to CN202110986349.7A priority Critical patent/CN113434193B/zh
Publication of CN113434193A publication Critical patent/CN113434193A/zh
Application granted granted Critical
Publication of CN113434193B publication Critical patent/CN113434193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/72Code refactoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请公开了一种根因变更的定位方法和装置,其中方法包括:基于故障事件的发生时间,确定相应的根因变更候选集合;对于所述根因变更候选集合中的每个变更,确定所述变更与所述故障事件之间的预设特征关联度,基于所述特征关联度,确定所述变更的根因分值,其中,所述特征关联度基于所述变更与所述故障事件之间的相应特征距离得到;基于所述根因分值的降序,对所述根因变更候选集合中的变更进行排序,将所述排序结果作为根因变更的推荐顺序并输出。采用本申请,对根因变更候选集合中的变更,按照预设的特征关联度,生成根因分值,并基于根因分值进行排序,可以有效提高根因变更的定位效率。

Description

根因变更的定位方法和装置
技术领域
本发明涉及计算机应用技术,特别是涉及一种根因变更的定位方法和装置。
背景技术
在大型软件服务中,工程师通常会频繁地进行软件变更,以修复已有的漏洞(bug)、提高软件系统的性能以及修改配置等等。由于软件变更会更改系统的配置或者代码等,因此,容易引起故障。根据《Google SRE》一书中的经验,70%的故障都是由变更导致的。在大型系统中,每天的故障事件数量非常多,如果不及时恢复故障事件,将会严重影响系统运行性能,进而造成经济损失、降低用户体验。为此,在故障事件发生后,需要快速地对这个故障事件对应的根因变更进行定位,即确定故障事件是由历史上的哪个变更导致的,以便工程师能够快速对所定位的变更进行回滚,以快速止损并使系统恢复正常运行。
目前,常用的一种根因变更的定位方法是:当某个应用系统的事件发生后,需要由工程师搜索该应用系统最近发生的变更,逐一对搜索到的变更进行检查,判断是否为当前事件的根因变更。
发明人在实现本申请的过程中,发现将上述根因变更定位方法应用于大型系统中会存在定位效率很低的问题。通过研究分析发现上述问题的存在原因具体如下:
在大型系统中,一个事件发生后,可疑的根因变更候选集通常是非常大,因为大型系统中每天都会发生较多数量的变更,且通常根因变更定位需要回溯到较长时间之前(比如需要考虑一周内的所有变更)。并且,上述根因变更定位方法在对根因变更候选集中的变更进行逐一筛查之前,并不会对集合中的变更按照与故障事件的关联度进行排序,这样,往往需要遍历整个根因变更候选集合才能筛查出故障事件的根因变更。
因此,上述现有方法由于根因变更候选集规模大以及人工筛查的无序性,使得对根因变更进行定位的时间开销会很大,从而导致根因变更定位的效率率很低。
发明内容
有鉴于此,本发明的主要目的在于提供一种根因变更的定位方法和装置,可以提高定位效率。
为了达到上述目的,本发明实施例提出的技术方案为:
一种根因变更的定位方法,包括:
基于故障事件的发生时间,确定相应的根因变更候选集合;
对于所述根因变更候选集合中的每个变更,确定所述变更与所述故障事件之间的预设特征关联度,基于所述特征关联度,确定所述变更的根因分值; 其中,所述特征关联度基于所述变更与所述故障事件之间的相应特征距离得到;
基于所述根因分值的降序,对所述根因变更候选集合中的变更进行排序,将所述排序结果作为根因变更的推荐顺序并输出。
较佳地,所述特征关联度包括语义特征关联度、空间特征关联度和/或时间特征关联度。
较佳地,确定所述变更与所述故障事件之间的语义特征关联度包括:
利用预设的词向量生成模型,分别对所述变更的变更描述信息和所述故障事件的事件描述信息进行处理,得到所述变更的语义特征向量和所述故障事件的语义特征向量;
基于所述语义特征向量之间的距离,确定所述变更与所述故障事件之间的语义特征关联度。
较佳地,确定所述变更与所述故障事件之间的空间特征关联度包括:
从当前的系统节点向量集合中,获取所述变更所对应系统的节点向量和所述故障事件所对应系统的节点向量;其中,所述系统节点向量集合基于当前的系统关联图利用预设的节点向量生成模型生成;
基于所述节点向量之间的距离,确定所述变更与所述故障事件之间的空间特征关联度。
较佳地,确定所述变更与所述故障事件之间的时间特征关联度包括:
基于所述变更的发生时间和所述故障事件的发生时间,计算所述变更和所述故障事件之间的时间间隔;
基于预设的时间间隔与时间特征关联度的映射关系,得到所述时间间隔对应的时间特征关联度;其中,所述映射关系满足时间间隔越小则时间特征关联度越大的原则。
较佳地,所述基于所述特征关联度,确定所述变更的根因分值包括:
基于所述特征关联度,进行加权计算,得到所述变更的根因分值。
较佳地,所述方法进一步包括:
利用预设的词向量生成模型,对所述变更的变更描述信息进行处理,得到所述变更的语义特征向量;
将所述语义特征向量,输入至预设的变更风险评估模型处理,得到所述变更导致故障的风险概率值;
所述基于所述特征关联度,确定所述变更的根因分值包括:
基于所述特征关联度,进行加权计算,得到所述变更的综合关联分数;
计算所述变更的综合关联分数与所述风险概率值的乘积,得到所述变更的根因分值。
本发明实施例还提供了一种根因变更的定位装置,包括:
候选集合确定单元,用于基于故障事件的发生时间,确定相应的根因变更候选集合;
根因分值确定单元,用于对于所述根因变更候选集合中的每个变更,确定所述变更与所述故障事件之间的预设特征关联度,基于所述特征关联度,确定所述变更的根因分值;其中,所述特征关联度基于所述变更与所述故障事件之间的相应特征距离得到;
排序单元,用于基于所述根因分值的降序,对所述根因变更候选集合中的变更进行排序,将所述排序结果作为根因变更的推荐顺序并输出。
本发明实施例还提供了一种定位根因变更的电子设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的根因变更的定位方法。
本发明实施例还提供了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的根因变更的定位方法。
综上所述,本发明实施例提出的根因变更的定位方法和装置中,需要确定根因变更候选集合中每个变更与故障事件之间的预设特征关联度,基于所述特征关联度,确定每个变更的根因分值,并基于根因分值的降序,对根因变更候选集合中的变更进行排序,将排序结果作为根因变更的推荐顺序。如此,由于变更的根因分值是基于变更与故障事件之间的特征关联度得到的,变更的根因分值越高,该变更为导致故障事件发生的根因变更的概率越大,相应的,推荐顺序中排在第一位的变更为故障事件的根因变更的概率最大。基于此,工程师基于上述推荐顺序,可以优先对候选集合中根因变更概率大的变更进行核查,从而可以快速地查找到故障事件的根因变更,有效提高了定位效率。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
图1为本发明实施例的根因变更的定位方法流程示意图,如图1所示,该实施例主要包括:
步骤101、基于故障事件的发生时间,确定相应的根因变更候选集合。
本步骤中,将先基于故障事件发生时间,选择一定范围内的变更,来构建根因变更候选集合,以便后续步骤中在该集合范围内筛查故障事件的根因变更。
具体地,在一种实施方式中,可以从整个软件系统中查找出满足“在故障事件之前发生,且距离故障事件发生时间的间隔小于预设间隔”的所有变更,基于这些变更,来构建所述根因变更候选集合。
所述预设间隔可由本领域技术人员根据实际系统的运行情况,设置合适取值,只要能确保根因变更候选集合能够覆盖所有可能的根因变更即可,在此不再赘述。
步骤102、对于所述根因变更候选集合中的每个变更,确定所述变更与所述故障事件之间的预设特征关联度,基于所述特征关联度,确定所述变更的根因分值,其中,所述特征关联度基于所述变更与所述故障事件之间的相应特征距离得到。
本步骤中用于基于变更与故障事件之间的特征关联度,确定集合中每个变更的根因分值,以使得根因分值可以体现出变更为当前故障事件的根因变更的概率。
这里需要说明的是,发明人通过研究历史事件与相应根因变更之间的关联关系发现:事件和根因变更之间存在多种维度的关联。比如:实体上的关联(如,对服务器X的变更导致服务器X的事件);应用系统上的空间关联(如,应用系统A的变更导致应用系统A发生事件;应用系统A变更导致应用系统B发生事件,其中应用系统A和应用系统B之间有某种关联关系);时间上的依赖关联(10:00时发生的变更导致10:10发生事件)。
基于上述研究结果,为了使得本步骤中所确定的特征关联度能够更准确地反映出变更与故障事件之间的相关性,本步骤中在确定变更与故障事件之间的特征关联度时,可以考虑语义特征关联度、空间特征关联度和/或时间特征关联度。
步骤102中,所述特征关联度基于所述变更与所述故障事件之间的相应特征距离得到。具体而言,所述语义特征关联度基于变更单与事件单的语义特征向量比较结果(即语义特征距离)得到。所述空间特征关联度基于变更所对应系统和事件所对应应用系统的节点向量比较结果(即空间特征距离)得到。所述时间特征关联度基于变更和事件之间的时间间隔(即时间特征距离)得到。
具体地,所述预设的特征关联度可以为语义特征关联度、空间特征关联度和/或时间特征关联度的任一组合。
在实际应用中,预设的特征关联度种类越多,基于特征关联度所获得的根因分值的准确性越高,进而根因变更定位的准确性也越高,但是,运算开销也会越大。在实际应用中,本领域技术人员可以考虑上述规律并结合实际系统运行环境,设置所述预设的特征关联度的具体内容。
在一种实施方式中,具体可以采用下述方法确定所述变更与所述故障事件之间的语义特征关联度:
步骤a1、利用预设的词向量生成模型,分别对所述变更的变更描述信息和所述故障事件的事件描述信息进行处理,得到所述变更的语义特征向量和所述故障事件的语义特征向量。
这里需要说明的是:变更单中记录的是一次软件变更的相关信息,通常包括变更的详细操作、变更对应的应用系统、变更时间等信息;事件单中记录的是应用系统中一个事件的相关信息,通常包括事件的描述、发生时间、根因、止损操作等信息。可以通过查询变更的变更单得到变更描述信息,查询事件的事件单得到事件描述信息。
发明人通过研究历史事件与相应根因变更之间的关联关系发现:如果变更单中的变更描述信息和事件单中的事件描述信息具有语义相似性,比如有相同的应用系统、相同的变更实体、相同的负责团队,那么,这个变更单对应的变更具有为根因变更的可能性。为此,可以利用语义特征向量,发现变更描述信息与事件描述信息中具有相关性的词,包括语义上具有潜在关联性的词,例如,“文件系统”和“file system”,进而可以利用语义特征向量之间的比较,准确地获得变更与事件之间的语义关联性。
较佳地,在一种实施方式中,所述词向量生成模型可以利用现有的来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)模型实现。
考虑到运维场景下语料库的特殊性,使用普通的开源语料库无法足够地捕获到运维领域下特定的知识(比如CPU与负载),为了使得词向量生成模型能够挖掘出运维领域下的隐藏语义特征,在一种实施方式中,可以进一步使用运维中的排障手册,来训练BERT模型。由于排障手册通常比较容易获得且内容丰富、涉及各个领域,比如oracle数据库排障手册,weblogic排障手册,因此,可以利用运维中的排障手册充分挖掘出运维领域下的隐藏语义特征。
另外,为了进一步提升词向量生成模型对运维领域下隐藏语义特征的挖掘能力,提高模型生成语义向量的准确性,还可以利用由工程师专门维护的运维知识库,对词向量生成模型进行训练。该运维知识库由工程师常用的知识和专有名词构成。
步骤a2、基于所述语义特征向量之间的距离,确定所述变更与所述故障事件之间的语义特征关联度。
这里需要说明的是,两个语义特征向量之间的距离越小,对应的语义特征关联度值越大,也就是说,变更与为故障事件的根因变更的概率越大。具体地,可以按照该规律,利用预设的关于所述距离与所述语义特征关联度的反比例函数,基于所述语义特征向量之间的距离,得到所述语义特征关联度。例如,简单起见,可以直接计算所述语义特征向量的倒数,得到所述语义特征关联度,但不限于此。
在一种实施方式中,具体可以采用下述方法确定所述变更与所述故障事件之间的空间特征关联度:
步骤b1、从当前的系统节点向量集合中,获取所述变更所对应系统的节点向量和所述故障事件所对应系统的节点向量。
其中,所述系统节点向量集合基于当前的系统关联图利用预设的节点向量生成模型生成。
本步骤,用于获取变更所对应系统和故障事件所对应系统各自的节点向量。
需要说明的是,发明人通过研究历史事件与相应根因变更之间的关联关系发现:大型软件系统中通常会包含多个应用系统,当一个事件发生时,相应的根因变更较大概率是发生在这个事件所在的应用系统或其关联的应用系统上的。为此,本步骤中,将利用节点向量生成模型,为当前系统关联图中的节点生成向量,以便基于变更所对应的应用系统和事件所对应的应用系统的节点向量,获取变更与事件之间的空间特征关联度。
上述系统关联图用于表征软件系统中各应用系统之间的关联关系。考虑到线上系统的环境是动态更新的,关联图也是在时刻变化的,因此,为了保障基于系统关联图获取节点向量的准确性,这里采用了当前的系统关联图进行建模。较佳地,为了兼顾对系统关联图挖掘的准确性与效率,可以采用PC算法进行图挖掘,但不限于此。
较佳地,在获取到系统关联图后,可以利用目前流行的node2vec模型,对系统关联图上的节点进行建模,生成图中的节点向量,从而可以得到变更单和事件单各自所涉及应用系统的空间向量。
步骤b2、基于所述节点向量之间的距离,确定所述变更与所述故障事件之间的空间特征关联度。
这里需要说明的是,两个节点向量之间的距离越小,对应的空间特征关联度值越大,也就是说,变更与为故障事件的根因变更的概率越大。具体地,可以按照该规律,利用预设的关于所述节点向量之间距离与所述空间特征关联度的反比例函数,基于所述节点向量之间的距离,得到所述空间特征关联度。例如,简单起见,可以直接计算所述节点向量的倒数,得到所述空间特征关联度,但不限于此。
在一种实施方式中,具体可以采用下述方法确定所述变更与所述故障事件之间的时间特征关联度:
步骤c1、基于所述变更的发生时间和所述故障事件的发生时间,计算所述变更和所述故障事件之间的时间间隔。
步骤c2、基于预设的时间间隔与时间特征关联度的映射关系,得到所述时间间隔对应的时间特征关联度;其中,所述映射关系满足时间间隔越小则时间特征关联度越大的原则。
需要说明的是,发明人通过研究历史事件与相应根因变更之间的关联关系发现:一个事件更容易是由时间距离它比较近的变更导致的(时间衰减特性)。这是因为,当一个变更完成后,如果它暂时没有引起故障,说明它更倾向于是安全的。当然,也有某些变更可能会在很久之后(比如几天)才引发事件,但是这种占比不是很高。因此,当进行根因变更定位时,可以更倾向于把近期的变更排在前面。为此,提出一个时间权重衰减策略,即预先设置所述时间间隔与时间特征关联度的映射关系,使得所述映射关系满足时间间隔越小则时间特征关联度越大的原则,在进行根因变更定位时,基于该映射关系,给近期的变更设置更大的时间特征关联度,以提高相应的根因分值。
在实际应用中,本领域技术人员可以根据实际应用需要,基于上述原则设置所述映射关系。
在一种实施方式中,当所确定的所述特征关联度仅为一种时,对于根因变更候选集合中的每个变更,可以直接将该变更的所述特征关联度作为该变更的根因分值。
在一种实施方式中,当所确定的所述特征关联度为多种时,对于根因变更候选集合中的每个变更,可以对该变更的所有所述特征关联度进行加权计算,将加权计算结果,作为该变更的根因分值。
其中,对于各种特征关联度的权重,可以设置它们的初始值相同。在系统运行的过程中,可以根据工程师每次对根因变更推荐结果核查的反馈情况,动态调整各种特征关联度的权重大小,使得所述权重与系统的实际运行情况相匹配,进而使得根因分值能够准确地反映出相应变更为根因变更的可能性。
进一步地,发明人通过研究历史事件与相应根因变更之间的关联关系发现:除了变更本身与事件具有关联性之外,不同的变更操作本身具有的风险也可能不同,比如,应用新版本上线通常比扩容更有风险,因为应用新版本上线是规模比较大的变更,会引入很多新的代码,而扩容相对来说比较安全。因此,为了使得根因分值能够更准确地反映出相应变更为根因变更的可能性,可以在计算根因分值时考虑变更本身的风险,这样,在同等条件下,高风险变更操作会排在更靠前的位置。
在一种实施方式中,在步骤102中对于所述根因变更候选集合中的每个变更,还可以进一步采用下述方法,获得每个变更导致故障的风险概率值:
步骤d1、利用预设的词向量生成模型,对所述变更的变更描述信息进行处理,得到所述变更的语义特征向量。
步骤d2、将所述语义特征向量,输入至预设的变更风险评估模型处理,得到所述变更导致故障的风险概率值。
在一种实施方式中,所述变更风险评估模型可以预先采用下述方法训练得到:
利用系统运行历史上正常变更的操作记录和导致事件的变更操作记录,作为正、负样本,然后利用上述词向量生成模型,分别提取出每个样本的语义特征,并输入至机器学习模型(如XGBoost)进行训练,得到一个二分类模型(有风险/无风险),作为所述变更风险评估模型。该二分类模型输出的概率代表了这个变更操作导致故障的风险系数。
相应的,利用上述风险概率值,步骤102中可以采用下述方法基于所述特征关联度,确定所述变更的根因分值:
步骤e1、基于所述特征关联度,进行加权计算,得到所述变更的综合关联分数。
步骤e2、计算所述变更的综合关联分数与所述风险概率值的乘积,得到所述变更的根因分值。
本步骤在计算根因分值时不仅考虑了变更与事件之间的关联性,还考虑了变更本身的风险,如此,可以使得根因分值能够更准确地反映出变更为事件的根因变更的可能性。
步骤103、 基于所述根因分值的降序,对所述根因变更候选集合中的变更进行排序,将所述排序结果作为根因变更的推荐顺序并输出。
本步骤中,通过对根因变更候选集合中的变更,按照步骤102中得到的根因分值的降序进行排序,并将排序结果作为根因变更的智能识别结果输出。这样,工程师可以基于输出的根因变更推荐顺序,优先对候选集合中根因变更概率大的变更进行核查,从而可以从大规模的根因变更候选集中快速、准确地确定出故障事件的根因变更。
通过上述方法实施例可以看出,上述技术方案通过对事件与变更之间的关联特征进行刻画,可以在事件发生后快速、准确地定位到根因变更,从而使得工程师能够快速地进行变更回滚、恢复事件,保证系统服务质量,减少经济损失。通过在大型软件服务系统中应用上述技术方案的实际数据表明,排名第一的变更为根因变更的准确度很高,且根因推荐消耗的时间在1s之内,有效证明了上述方法实施例在实际应用中的可用性。
与上述方法实施例相对应,本发明实施例还提供了一种根因变更的定位装置,如图2所示,该装置包括:
候选集合确定单元201,用于基于故障事件的发生时间,确定相应的根因变更候选集合;
根因分值确定单元202,用于对于所述根因变更候选集合中的每个变更,确定所述变更与所述故障事件之间的预设特征关联度,基于所述特征关联度,确定所述变更的根因分值;其中,所述特征关联度基于所述变更与所述故障事件之间的相应特征距离得到;
排序单元203,用于基于所述根因分值的降序,对所述根因变更候选集合中的变更进行排序,将所述排序结果作为根因变更的推荐顺序并输出。
基于上述根因变更的定位方法实施例,本申请实施例还实现了一种定位根因变更的电子设备,包括处理器和存储器;所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的根因变更定位方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述根因变更的定位方法实施方式中任一实施方式的功能。
其中,存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU。
本申请实施例实现了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上所述的根因变更定位方法的步骤。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”并不表示将本发明相关部分的数量限制为“仅此一个”,并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系,而非限定这些相关部分的绝对位置。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种根因变更的定位方法,其特征在于,包括:
基于故障事件的发生时间,确定相应的根因变更候选集合;
对于所述根因变更候选集合中的每个变更,确定所述变更与所述故障事件之间的预设特征关联度,基于所述特征关联度,确定所述变更的根因分值; 其中,所述特征关联度基于所述变更与所述故障事件之间的相应特征距离得到;
基于所述根因分值的降序,对所述根因变更候选集合中的变更进行排序,将所述排序结果作为根因变更的推荐顺序并输出。
2.根据权利要求1所述的方法,其特征在于,所述特征关联度包括语义特征关联度、空间特征关联度和/或时间特征关联度。
3.根据权利要求2所述的方法,其特征在于,确定所述变更与所述故障事件之间的语义特征关联度包括:
利用预设的词向量生成模型,分别对所述变更的变更描述信息和所述故障事件的事件描述信息进行处理,得到所述变更的语义特征向量和所述故障事件的语义特征向量;
基于所述语义特征向量之间的距离,确定所述变更与所述故障事件之间的语义特征关联度。
4.根据权利要求2所述的方法,其特征在于,确定所述变更与所述故障事件之间的空间特征关联度包括:
从当前的系统节点向量集合中,获取所述变更所对应系统的节点向量和所述故障事件所对应系统的节点向量;其中,所述系统节点向量集合基于当前的系统关联图利用预设的节点向量生成模型生成;
基于所述节点向量之间的距离,确定所述变更与所述故障事件之间的空间特征关联度。
5.根据权利要求2所述的方法,其特征在于,确定所述变更与所述故障事件之间的时间特征关联度包括:
基于所述变更的发生时间和所述故障事件的发生时间,计算所述变更和所述故障事件之间的时间间隔;
基于预设的时间间隔与时间特征关联度的映射关系,得到所述时间间隔对应的时间特征关联度;其中,所述映射关系满足时间间隔越小则时间特征关联度越大的原则。
6.根据权利要求1所述的方法,其特征在于,所述基于所述特征关联度,确定所述变更的根因分值包括:
基于所述特征关联度,进行加权计算,得到所述变更的根因分值。
7.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
利用预设的词向量生成模型,对所述变更的变更描述信息进行处理,得到所述变更的语义特征向量;
将所述语义特征向量,输入至预设的变更风险评估模型处理,得到所述变更导致故障的风险概率值;
所述基于所述特征关联度,确定所述变更的根因分值包括:
基于所述特征关联度,进行加权计算,得到所述变更的综合关联分数;
计算所述变更的综合关联分数与所述风险概率值的乘积,得到所述变更的根因分值。
8.一种根因变更的定位装置,其特征在于,包括:
候选集合确定单元,用于基于故障事件的发生时间,确定相应的根因变更候选集合;
根因分值确定单元,用于对于所述根因变更候选集合中的每个变更,确定所述变更与所述故障事件之间的预设特征关联度,基于所述特征关联度,确定所述变更的根因分值;其中,所述特征关联度基于所述变更与所述故障事件之间的相应特征距离得到;
排序单元,用于基于所述根因分值的降序,对所述根因变更候选集合中的变更进行排序,将所述排序结果作为根因变更的推荐顺序并输出。
9.一种定位根因变更的电子设备,其特征在于,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至7中任一项所述的根因变更的定位方法。
10.一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如权利要求1至7中任一项所述的根因变更的定位方法。
CN202110986349.7A 2021-08-26 2021-08-26 根因变更的定位方法和装置 Active CN113434193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110986349.7A CN113434193B (zh) 2021-08-26 2021-08-26 根因变更的定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110986349.7A CN113434193B (zh) 2021-08-26 2021-08-26 根因变更的定位方法和装置

Publications (2)

Publication Number Publication Date
CN113434193A true CN113434193A (zh) 2021-09-24
CN113434193B CN113434193B (zh) 2021-12-07

Family

ID=77798028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110986349.7A Active CN113434193B (zh) 2021-08-26 2021-08-26 根因变更的定位方法和装置

Country Status (1)

Country Link
CN (1) CN113434193B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
CN110995482A (zh) * 2019-11-27 2020-04-10 深圳市商汤科技有限公司 告警分析方法、装置、计算机设备及计算机可读存储介质
US20200204428A1 (en) * 2018-12-06 2020-06-25 Infosys Limited System and method of automated fault correction in a network environment
CN112100369A (zh) * 2020-07-29 2020-12-18 浙江大学 结合语义的网络故障关联规则生成方法和网络故障检测方法
CN112559376A (zh) * 2020-12-25 2021-03-26 中国建设银行股份有限公司 一种数据库故障的自动定位方法、装置及电子设备
CN112799868A (zh) * 2021-02-08 2021-05-14 腾讯科技(深圳)有限公司 一种根因确定方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
US20200204428A1 (en) * 2018-12-06 2020-06-25 Infosys Limited System and method of automated fault correction in a network environment
CN110995482A (zh) * 2019-11-27 2020-04-10 深圳市商汤科技有限公司 告警分析方法、装置、计算机设备及计算机可读存储介质
CN112100369A (zh) * 2020-07-29 2020-12-18 浙江大学 结合语义的网络故障关联规则生成方法和网络故障检测方法
CN112559376A (zh) * 2020-12-25 2021-03-26 中国建设银行股份有限公司 一种数据库故障的自动定位方法、装置及电子设备
CN112799868A (zh) * 2021-02-08 2021-05-14 腾讯科技(深圳)有限公司 一种根因确定方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113434193B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN110309009B (zh) 基于情境的运维故障根因定位方法、装置、设备及介质
CN107111625B (zh) 实现数据的高效分类和探索的方法和系统
WO2019143542A1 (en) Time-weighted risky code prediction
US20210209416A1 (en) Method and apparatus for generating event theme
CN103513983A (zh) 用于预测性警报阈值确定工具的方法和系统
CN108776696B (zh) 节点配置方法及装置、存储介质和电子设备
US20190026805A1 (en) Issue resolution utilizing feature mapping
US9990268B2 (en) System and method for detection of duplicate bug reports
US20210303380A1 (en) Method for providing log information, electronic device, and computer program product
CN104636130A (zh) 用于生成事件树的方法和系统
CN109144879B (zh) 测试分析方法及装置
Zhou et al. Confmapper: Automated variable finding for configuration items in source code
CN112433874A (zh) 一种故障定位方法、系统、电子设备及存储介质
WO2020140624A1 (zh) 从日志中提取数据的方法和相关设备
CN115335821A (zh) 卸载统计收集
Gu et al. Efficient customer incident triage via linking with system incidents
CN114691403A (zh) 一种服务器故障诊断方法、装置、电子设备及存储介质
US11468236B2 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN113434193B (zh) 根因变更的定位方法和装置
US10257055B2 (en) Search for a ticket relevant to a current ticket
US8478575B1 (en) Automatic anomaly detection for HW debug
CN112905370A (zh) 拓扑图生成方法、异常检测方法、装置、设备及存储介质
CN113596043B (zh) 攻击检测方法、攻击检测装置、存储介质与电子设备
Salman Test Case Generation from Specifications Using Natural Language Processing
US11822578B2 (en) Matching machine generated data entries to pattern clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant