CN113313134A - 集群故障修复方法及其模型训练方法、装置及服务器 - Google Patents

集群故障修复方法及其模型训练方法、装置及服务器 Download PDF

Info

Publication number
CN113313134A
CN113313134A CN202010120742.3A CN202010120742A CN113313134A CN 113313134 A CN113313134 A CN 113313134A CN 202010120742 A CN202010120742 A CN 202010120742A CN 113313134 A CN113313134 A CN 113313134A
Authority
CN
China
Prior art keywords
fault
text
cluster
model
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010120742.3A
Other languages
English (en)
Inventor
李睿
羌毅
王冕
何诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010120742.3A priority Critical patent/CN113313134A/zh
Publication of CN113313134A publication Critical patent/CN113313134A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例涉及一种集群故障修复方法、装置及服务器。该方法包括:获取故障日志数据;所述故障日志数据中包括历史故障数据和历史故障修复策略;根据所述历史故障数据形成故障文本;将该故障文本表示为结构化的文本表示向量;将该文本表示向量输入多层分类器,输出所述文本表示向量与所述历史故障修复策略之间的关联关系,得到所述集群故障修复模型。从而得到效率及准确率更高的集群故障修复模型,进而实现了高效率、高准确率的集群故障的自动修复。

Description

集群故障修复方法及其模型训练方法、装置及服务器
技术领域
本说明书实施例涉及集群故障自动处理技术领域,更具体地,涉及一 种集群故障修复模型的训练方法、一种集群故障修复方法、一种集群故障 修复模型的训练装置、一种集群故障修复装置、一种服务器以及一种计算 机可读存储介质。
背景技术
在大规模集群服务器的运维中,机器的智能化修复十分重要。由于集 群中的服务器数量庞大,相应的,同时间发生故障的服务器也比较多。现 有的运维系统中,部署了软硬件自动化修复系统(auto-healing),其修复 策略是基于规则匹配得到的。响应速度较快,且具有很高的可解释性。
该方案虽然实现了自动化的集群中服务器故障的修复,但是修复策略 是由专家配置,且是由单规则触发的。比如,在多个报警的监控模块 (monitor)中只关注其中的一个monitor,或者只关注服务器的某种状态, 如state=os_error等,这会导致故障修复的准确率低,且会存在规则覆盖不 全的问题。
因此,有必要提供一种高效率、高准确率的集群故障修复方法。
发明内容
本说明书实施例的一个目的是提供一种集群故障修复的新的技术方 案。
根据本说明书实施例的第一方面,提供了一种集群故障修复模型的训 练方法,包括:
获取故障日志数据;所述故障日志数据中包括历史故障数据和历史故 障修复策略;
根据所述历史故障数据形成故障文本;
将所述故障文本表示为结构化的文本表示向量;
将所述文本表示向量输入多层分类器,输出所述文本表示向量与所述 历史故障修复策略之间的关联关系,得到所述集群故障修复模型。
可选地,其中,所述根据所述历史故障数据形成故障文本,包括:
从所述历史故障数据中提取故障监控模块名称以及对应的故障级别;
使所述故障监控模块名称及对应的故障级别形成所述故障文本。
可选地,其中,所述将所述故障文本表示为结构化的文本表示向量, 包括:
根据预设故障级别权重值,将所述故障文本转化为相应的词频向量;
将所述词频向量输入语言模型,得到所述结构化的文本表示向量。
可选地,其中,所述语言模型为概率统计模型或深度学习语言模型; 其中,所述概率统计模型包括词频-逆向文件频率tf-idf模型、文档主题生 成模型LDA;所述深度学习语言模型为word2vec模型。
可选地,其中,所述历史故障修复策略包括成功修复策略和未成功修 复策略;
所述将所述文本表示向量输入多层分类器,输出所述文本表示向量与 所述历史故障修复策略之间的关联关系,包括:
将所述文本表示向量输入多分类器,输出所述文本表示向量与所述成 功修复策略之间的关联关系;
以及,将所述文本表示向量输入二分类器,输出所述文本表示向量与 所述成功修复策略以及所述未成功修复策略之间的关联关系。
根据本说明书实施例的第二方面,提供了一种集群故障修复方法,包 括:
获取待修复故障数据;
将所述待修复故障数据输入集群故障修复模型,输出对应的故障修复 策略;
其中,所述集群故障修复模型是根据历史故障数据形成故障文本,将 所述故障文本表示为结构化的文本表示向量,并将所述文本表示向量输入 多层分类器进行训练,输出与历史故障修复策略之间的关联关系后得到的。
可选地,其中,所述输出对应的故障修复策略之后,方法还包括:
将所述文待修复故障数据及对应的故障修复策略存储至预设故障知 识库中。
根据本说明书实施例的第三方面,提供了一种集群故障修复模型的训 练装置,包括:
获取模块,用于获取故障日志数据;所述故障日志数据中包括历史故 障数据和历史故障修复策略;
形成模块,用于根据所述历史故障数据形成故障文本;
表示模块,用于将所述故障文本表示为结构化的文本表示向量;
训练模块,用于将所述文本表示向量输入多层分类器,输出所述文本 表示向量与所述历史故障修复策略之间的关联关系,得到所述集群故障修 复模型。
根据本说明书实施例的第四方面,提供了一种集群故障修复装置,包 括:
获取模块,用于获取待修复故障数据;
输出模块,用于将所述待修复故障数据输入集群故障修复模型,输出 对应的故障修复策略;
其中,所述集群故障修复模型是根据历史故障数据形成故障文本,将 所述故障文本表示为结构化的文本表示向量,并将所述文本表示向量输入 多层分类器进行训练,输出与历史故障修复策略之间的关联关系后得到的。
根据本说明书实施例的第五方面,提供了一种服务器,包括如本说明 书实施例第三方面所述的集群故障修复模型的训练装置,或者,所述服务 器包括:
存储器,用于存储可执行命令;
处理器,用于在所述可执行命令的控制下,执行如本说明书实施例的 第一方面中任一项所述的集群故障修复模型的训练方法。
根据本说明书实施例的第六方面,提供了一种服务器,包括如本说明 书实施例的第四方面所述的集群故障修复装置,或者,所述服务器包括:
存储器,用于存储可执行命令;
处理器,用于在所述可执行命令的控制下,执行如本说明书实施例的 第二方面中任一项所述的集群故障修复方法。
根据本说明书实施例的第七方面,还提供一种计算机可读存储介质, 存储有可执行指令,所述可执行指令被处理器执行时,执行如本说明书实 施例第一方面所述的集群故障修复模型的训练方法。
根据本说明书实施例的第八方面,还提供一种计算机可读存储介质, 存储有可执行指令,所述可执行指令被处理器执行时,执行如本说明书实 施例第二方面所述的集群故障修复方法。
本说明书实施例的一个有益效果在于,本实施例的方法通过获取故障 日志数据;所述故障日志数据中包括历史故障数据和历史故障修复策略; 根据所述历史故障数据形成故障文本;将该故障文本表示为结构化的文本 表示向量;将该文本表示向量输入多层分类器,输出所述文本表示向量与 所述历史故障修复策略之间的关联关系,得到所述集群故障修复模型。从 而得到效率及准确率更高的集群故障修复模型,进而实现了高效率、高准确率的集群故障的自动修复。
通过以下参照附图对本说明书实施例的示例性实施例的详细描述,本 说明书实施例的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本说明书实 施例的实施例,并且连同其说明一起用于解释本说明书实施例的原理。
图1为本说明书实施例的集群故障修复方法的实现系统架构示意图;
图2是示出可以实现本发明的实施例的服务器1000的硬件配置的框 图;
图3是根据本说明书实施例的集群故障修复方法的流程图;
图4是根据本说明书实施例的集群故障修复装置的原理框图;
图5示出了根据本说明书实施例的服务器的原理框图;
图6是根据本说明书第二实施例的集群故障修复方法的流程图;
图7是根据本说明书第二实施例的集群故障修复装置的原理框图;
图8是示出了根据本说明书第二实施例的服务器的原理框图。
具体实施方式
现在将参照附图来详细描述本说明书实施例的各种示例性实施例。应 注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相 对布置、数字表达式和数值不限制本说明书实施例的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作 为对本说明书实施例及其应用或使用的任何限制。
对于相关领域普通技术人物已知的技术、方法和设备可能不作详细讨 论,但在适当情况下,该技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性 的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某 一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1为本说明书实施例的集群故障修复方法的实现系统架构示意图。
参照图1所示,在该集群故障修复方法的实现系统中,包括数据中心 和多个服务器,如服务器1,服务器2,……服务器n。其中,当集群中的 任一服务器出现故障时,将该故障上报至数据中心,由数据中心提供对应 的故障修复策略。
具体的,该数据中心可以包括预处理模块、语言模块、多层分类模块、 故障知识库。
在该集群故障修复模型的训练过程中,针对服务器故障的半结构化的 故障日志数据,首先收集专家经验生成的故障日志数据,该故障日志数据 中包括历史故障数据和历史故障修复策略;将该故障日志数据输入预处理 模块,然后通过预处理模块,提取服务器的故障监控模块名称(monitor name),及对应的故障级别(level),如致命级别(fatal)、错误级别(error) 等,形成包含历史故障数据的故障文本。
然后将故障文本输入到语言模块,在该模块中预先对故障级别设置合 理的权重值,如设置fatal=5,error=4。根据预设的故障级别权重值,将故 障文本转化为相应的词频向量,接着将词频向量输入语言模型,如概率统 计模型(tf-idf、lda)或深度语言模型(word2vec),得到结构化的文本表 示向量。
最后,将文本表示向量输入多层分类器,得到文本表示向量与历史故 障修复策略之间的关联关系。其中,多层分类器包括多分类器和二分类器, 多分类器用于对成功修复策略进行学习,而二分类器用于对成功及未成功 的修复策略均进行学习,从而完成集群故障修复模型的训练。
在服务器出现故障并将待修复故障数据上报至数据中心后,该数据中 心将待修复故障数据输入该集群故障修复模型即可输出对应的故障修复策 略,这样可以避免现有技术中需要专家介入进行向量解释,从而可以提升 故障修复的效率和准确率。
同时对成功修复的故障日志数据进行知识抽象及专家确认,形成新的 修复规则,存入故障知识库中,便于进行故障根本原因分析。
这样,整个数据中心由预处理模块、语言模块、多层分类器和故障知 识库组成,形成了对服务器故障数据的自动化处理,并可以充分利用大量 的成功及未成功修复的故障数据进行学习,进一步提升集群修复模型故障 修复的准确率和效率,并可以对成功修复的故障日志数据进行知识抽象及 专家确认,生成新的修复规则,进一步增加可解释性。
图2是示出可以实现本发明的实施例的服务器1000的硬件配置的框 图。
服务器1000例如可以是刀片服务器等。
在一个例子中,服务器1000可以是一台计算机。
在另一个例子中,服务器1000可以如图2所示,包括处理器1100、 存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置 1600。尽管服务器也可以包括扬声器、麦克风等等,但是,这些部件与本 发明无关,故在此省略。
其中,处理器1100例如可以是中央处理器CPU、微处理器MCU等。存 储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如 硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口等。 通信装置1400例如能够进行有线或无线通信。显示装置1500例如是液晶 显示屏。输入装置1600例如可以包括触摸屏、键盘等。
本实施例中,服务器1000获取故障日志数据;所述故障日志数据中 包括历史故障数据和历史故障修复策略;根据所述历史故障数据形成故障 文本;将该故障文本表示为结构化的文本表示向量;将该文本表示向量输 入多层分类器,输出所述文本表示向量与所述历史故障修复策略之间的关 联关系,得到所述集群故障修复模型。
图2所示的服务器仅仅是说明性的并且决不意味着对本发明、其应用 或使用的任何限制。应用于本发明的实施例中,服务器1000的的该存储器 1200用于存储指令,该指令用于控制该处理器1100进行操作以执行本发 明实施例提供的任意一项集群故障修复模型的训练方法。
本领域技术人员应当理解,尽管在图2中对服务器1000的示出了多 个装置,但是,本发明可以仅涉及其中的部分装置,例如,服务器1000的 只涉及处理器1100和存储装置1200。
技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器 进行操作,这是本领域公知,故在此不再详细描述。
<第一实施例>
<方法>
本实施例提供了一种集群故障修复模型的训练方法,该方法例如可以 由如图2所示的服务器1000执行。
如图3所示,该方法包括以下步骤3100~3400:
步骤3100,获取故障日志数据;该故障日志数据中包括历史故障数据 和历史故障修复策略。
具体的,该故障日志数据可以是由专家经验生成的。该历史故障修复 策略包括成功修复策略和未成功修复策略。该历史故障数据中可以包括故 障监控模块名称、故障级别、修复策略等信息。
步骤3200,根据该历史故障数据形成故障文本。
在本步骤中,该服务器1000可以从该历史故障数据中提取故障监控 模块名称以及对应的故障级别;使该故障监控模块名称及对应的故障级别 形成该故障文本。
步骤3300,将该故障文本表示为结构化的文本表示向量。
实际应用中,需要预先对不同的故障级别设置权重值,例如,故障级 别为fatal时,其预设故障级别权重值可以设置为5,故障级别为error时, 其预设故障级别权重值可以设置为4。
在本步骤中,该服务器1000可以根据预设故障级别权重值,将该故 障文本转化为相应的词频向量;然后将该词频向量输入语言模型,得到该 结构化的文本表示向量。
其中,该语言模型可以为概率统计模型或深度学习语言模型。其中, 该概率统计模型包括词频-逆向文件频率(term frequency–inverse document frequency,tf-idf)模型,或者是隐含狄利克雷分布模型(Latent Dirichlet Allocation,LDA);该深度学习语言模型例如可以为word2vec模型。在 此不作具体限定。
在一个例子中,语言模块采用LDA模型,在模型训练过程中,采用 吉布斯采样(Gibbs sampling)的方式进行迭代。其中,概率分布计算公式 可以是
Figure BDA0002392894580000081
由该概率分布计算公式我们可以得到故障文本(monitor组合的报警 信息)属于每个潜在故障模式的概率,每个潜在的故障模式对应着相应的 故障修复策略,这样这些概率就构成了故障文本的“修复特征”,由此我 们完成了每篇文档的特征提取。
步骤3400,将该文本表示向量输入多层分类器,输出文本表示向量与 该历史故障修复策略之间的关联关系,得到该集群故障修复模型。
其中,该多层分类器包括多分类器和二分类器。多分类器用于对成功 修复策略进行学习,而二分类器用于对成功及未成功的修复策略均进行学 习。具体的,该服务器1000将所述文本表示向量输入多分类器,输出所述 文本表示向量与所述成功修复策略之间的关联关系;以及,将所述文本表 示向量输入二分类器,输出所述文本表示向量与所述成功修复策略以及所 述未成功修复策略之间的关联关系。
这样,在该集群修复模型应用时,首先由多分类器输出与待修复故障 数据对应的故障修复策略,为了进一步确认故障修复策略的准确性,保证 系统的稳定性,然后将该故障修复策略输入二分类器,以判断该故障修复 策略是否成功。即,该多层分类器用于输出故障修复策略,二分类器用于 对故障修复策略是否成功进行判断。
此外,若二分类器判断故障修复策略对应的操作会失败,在实际应用 中,可以根据故障修复策略对应的操作的代价进行升级推荐,从而剔除无 效的故障修复策略,从而进一步保障集群故障修复的稳定性和效率。
本实施例的方法,通过获取故障日志数据;该故障日志数据中包括历 史故障数据和历史故障修复策略;根据该历史故障数据形成故障文本;将 该故障文本表示为结构化的文本表示向量;将该文本表示向量输入多层分 类器,输出该文本表示向量与该历史故障修复策略之间的关联关系,得到 该集群故障修复模型。从而得到效率及准确率更高的集群故障修复模型, 进而实现了高效率、高准确率的集群故障的自动修复。
<装置实施例>
本实施例提供一种集群故障修复模型的训练装置,该装置例如是图4 所示的集群故障修复模型的训练装置4000,该集群故障修复模型的训练装 置4000可以包括获取模块4100,形成模块4200,表示模块4300和训练模 块4400。
其中,获取模块4100用于获取故障日志数据;该故障日志数据中包 括历史故障数据和历史故障修复策略。
形成模块4200用于根据该历史故障数据形成故障文本。
表示模块4300用于将该故障文本表示为结构化的文本表示向量。
训练模块4400用于将该文本表示向量输入多层分类器,输出该文本 表示向量与该历史故障修复策略之间的关联关系,得到该集群故障修复模 型。
可选地,该形成模块4200具体可以用于从该历史故障数据中提取故 障监控模块名称以及对应的故障级别;使该故障监控模块名称及对应的故 障级别形成该故障文本。
可选地,该表示模块4300具体可以用于根据预设故障级别权重值, 将该故障文本转化为相应的词频向量;将该词频向量输入语言模型,得到 该结构化的文本表示向量。其中,该语言模型为概率统计模型或深度学习 语言模型;其中,该概率统计模型包括tf-idf模型、LDA模型;该深度学 习语言模型为word2vec语言模型。
在一个例子中,该历史故障修复策略包括成功修复策略和未成功修复 策略。该训练模块4400具体用于将该文本表示向量输入多分类器,输出该 文本表示向量与该成功修复策略之间的关联关系;以及,将该文本表示向 量输入二分类器,输出该文本表示向量与该成功修复策略以及该未成功修 复策略之间的关联关系。
在一个例子中,该训练模块4400还可以用于将未成功的该故障修复 策略输入该二分类器,以使该二分类器学习不同的故障修复策略的成功模 式和未成功模式。
本实施例的集群故障修复模型的训练装置,可用于执行上述方法实施 例的技术方案,其实现原理及技术效果类似,此处不再赘述。
<服务器实施例>
本实施例中,还提供一种服务器,该服务器包括本说明书装置实施例 中描述的集群故障修复模型的训练装置4000;或者,该服务器为图5所示 的服务器5000,包括:
存储器5100,用于存储可执行命令。
处理器5200,用于在存储器5100存储的可执行命令的控制下,执行 本说明书任意方法实施例中描述的方法。
<计算机可读存储介质实施例>
本实施例提供一种计算机可读存储介质,该存储介质中存储有可执行命 令,该可执行命令被处理器执行时,执行本说明书任意方法实施例中描述的方法。
<第二实施例>
<方法>
本实施例提供了一种集群故障修复方法,该方法例如可以由如图2所 示的服务器1000执行。
如图6所示,该方法包括以下步骤6100~6200:
步骤6100,获取待修复故障数据。
具体的,该待修复故障数据可以包括故障监控模块名称、故障级别、 修复策略等信息。
步骤6200,将该待修复故障数据输入集群故障修复模型,输出对应的 故障修复策略。
其中,该集群故障修复模型是根据历史故障数据形成故障文本,将该 故障文本表示为结构化的文本表示向量,并将该文本表示向量输入多层分 类器进行训练,输出与历史故障修复策略之间的关联关系后得到的。
进一步地,在一个例子中,该服务器1000还可以将该待修复故障数 据及对应的故障修复策略存储至预设故障知识库中。具体的,在本步骤中, 对成功修复的故障日志数据进行知识抽象及专家确认,形成新的修复规则, 增加可解释性,同时积累形成的故障知识库还可以用来进行故障根本原因 分析。
本实施例的方法,通过获取待修复故障数据;将该待修复故障数据输 入预先训练好的集群故障修复模型,输出对应的故障修复策略。其中,该 集群故障修复模型是根据历史故障数据形成故障文本,将该故障文本表示 为结构化的文本表示向量,并将该文本表示向量输入多层分类器进行训练, 输出与历史故障修复策略之间的关联关系后得到的。从而实现了高效率、 高准确率的集群故障的自动修复。
<装置实施例>
本实施例提供一种集群故障修复装置,该装置例如是图7所示的集群 故障修复装置7000,该集群故障修复装置7000可以包括获取模块7100和 输出模块7200。
其中,获取模块7100用于获取待修复故障数据。
输出模块7200,用于将该待修复故障数据输入集群故障修复模型,输 出对应的故障修复策略。
在一个例子中,该集群故障修复装置7000还可以包括存储模块,用 于将该待修复故障数据及对应的故障修复策略存储至预设故障知识库中。
本实施例的集群故障修复装置,可用于执行上述方法实施例的技术方 案,其实现原理及技术效果类似,此处不再赘述。
<服务器实施例>
本实施例中,还提供一种服务器,该服务器包括本说明书装置实施例 中描述的集群故障修复装置7000;或者,该服务器为图8所示的服务器 8000,包括:
存储器8100,用于存储可执行命令。
处理器8200,用于在存储器8100存储的可执行命令的控制下,执行 本说明书任意方法实施例中描述的方法。
<计算机可读存储介质实施例>
本实施例提供一种计算机可读存储介质,该存储介质中存储有可执行命 令,该可执行命令被处理器执行时,执行本说明书任意方法实施例中描述的方法。
本说明书实施例可以是系统、方法和/或计算机程序产品。计算机程序 产品可以包括计算机可读存储介质,其上载有用于使处理器实现本说明书 实施例的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的 指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存 储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者 上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的 列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存 储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机 存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多 功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的 打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计 算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤 电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载 到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/ 或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、 光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服 务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机 可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本说明书实施例操作的计算机程序指令可以是汇编指令、指 令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状 态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标 代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及 常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序 指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、 或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远 程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)— 连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务 提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序 指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编 程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算 机可读程序指令,从而实现本说明书实施例的各个方面。
这里参照根据本说明书实施例的方法、装置(系统)和计算机程序产 品的流程图和/或框图描述了本说明书实施例的各个方面。应当理解,流程 图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计 算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它 可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通 过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图 和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计 算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、 可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的 计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个 或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装 置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备 上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、 其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图 中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本说明书实施例的多个实施例的 系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这 点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一 部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑 功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可 以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能 而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程 图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系 统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域 技术人物来说公知的是,通过硬件方式实现、通过软件方式实现以及通过 软件和硬件结合的方式实现都是等价的。
以上已经描述了本说明书实施例的各实施例,上述说明是示例性的, 并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实 施例的范围和精神的情况下,对于本技术领域的普通技术人物来说许多修 改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实 施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它 普通技术人物能理解本文披露的各实施例。本说明书实施例的范围由所附 权利要求来限定。

Claims (13)

1.一种集群故障修复模型的训练方法,包括:
获取故障日志数据;所述故障日志数据中包括历史故障数据和历史故障修复策略;
根据所述历史故障数据形成故障文本;
将所述故障文本表示为结构化的文本表示向量;
将所述文本表示向量输入多层分类器,输出所述文本表示向量与所述历史故障修复策略之间的关联关系,得到所述集群故障修复模型。
2.根据权利要求1所述的方法,其中,所述根据所述历史故障数据形成故障文本,包括:
从所述历史故障数据中提取故障监控模块名称以及对应的故障级别;
使所述故障监控模块名称及对应的故障级别形成所述故障文本。
3.根据权利要求2所述的方法,其中,所述将所述故障文本表示为结构化的文本表示向量,包括:
根据预设故障级别权重值,将所述故障文本转化为相应的词频向量;
将所述词频向量输入语言模型,得到所述结构化的文本表示向量。
4.根据权利要求3所述的方法,其中,所述语言模型为概率统计模型或深度学习语言模型;其中,所述概率统计模型包括词频-逆向文件频率tf-idf模型、文档主题生成模型LDA;所述深度学习语言模型为word2vec模型。
5.根据权利要求1所述的方法,其中,所述历史故障修复策略包括成功修复策略和未成功修复策略;
所述将所述文本表示向量输入多层分类器,输出所述文本表示向量与所述历史故障修复策略之间的关联关系,包括:
将所述文本表示向量输入多分类器,输出所述文本表示向量与所述成功修复策略之间的关联关系;
以及,将所述文本表示向量输入二分类器,输出所述文本表示向量与所述成功修复策略以及所述未成功修复策略之间的关联关系。
6.一种集群故障修复方法,包括:
获取待修复故障数据;
将所述待修复故障数据输入集群故障修复模型,输出对应的故障修复策略;
其中,所述集群故障修复模型是根据历史故障数据形成故障文本,将所述故障文本表示为结构化的文本表示向量,并将所述文本表示向量输入多层分类器进行训练,输出与历史故障修复策略之间的关联关系后得到的。
7.根据权利要求6所述的方法,其中,所述输出对应的故障修复策略之后,方法还包括:
将所述待修复故障数据及对应的故障修复策略存储至预设故障知识库中。
8.一种集群故障修复模型的训练装置,包括:
获取模块,用于获取故障日志数据;所述故障日志数据中包括历史故障数据和历史故障修复策略;
形成模块,用于根据所述历史故障数据形成故障文本;
表示模块,用于将所述故障文本表示为结构化的文本表示向量;
训练模块,用于将所述文本表示向量输入多层分类器,输出所述文本表示向量与所述历史故障修复策略之间的关联关系,得到所述集群故障修复模型。
9.一种集群故障修复装置,包括:
获取模块,用于获取待修复故障数据;
输出模块,用于将所述待修复故障数据输入集群故障修复模型,输出对应的故障修复策略;
其中,所述集群故障修复模型是根据历史故障数据形成故障文本,将所述故障文本表示为结构化的文本表示向量,并将所述文本表示向量输入多层分类器进行训练,输出与历史故障修复策略之间的关联关系后得到的。
10.一种服务器,包括如权利要求8所述的集群故障修复模型的训练装置,或者,所述服务器包括:
存储器,用于存储可执行命令;
处理器,用于在所述可执行命令的控制下,执行如权利要求1-5中任一项所述的集群故障修复模型的训练方法。
11.一种服务器,包括如权利要求9所述的集群故障修复装置,或者,所述服务器包括:
存储器,用于存储可执行命令;
处理器,用于在所述可执行命令的控制下,执行如权利要求6或7所述的集群故障修复方法。
12.一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,执行如权利要求1-5中任一项所述的集群故障修复模型的训练方法。
13.一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,执行如权利要求6或7所述的集群故障修复方法。
CN202010120742.3A 2020-02-26 2020-02-26 集群故障修复方法及其模型训练方法、装置及服务器 Pending CN113313134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010120742.3A CN113313134A (zh) 2020-02-26 2020-02-26 集群故障修复方法及其模型训练方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010120742.3A CN113313134A (zh) 2020-02-26 2020-02-26 集群故障修复方法及其模型训练方法、装置及服务器

Publications (1)

Publication Number Publication Date
CN113313134A true CN113313134A (zh) 2021-08-27

Family

ID=77369881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010120742.3A Pending CN113313134A (zh) 2020-02-26 2020-02-26 集群故障修复方法及其模型训练方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN113313134A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116560891A (zh) * 2023-05-23 2023-08-08 北京优特捷信息技术有限公司 一种故障处理方法、装置、电子设备及存储介质
CN117539674A (zh) * 2024-01-09 2024-02-09 腾讯科技(深圳)有限公司 异常处理方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
US20170171580A1 (en) * 2015-04-21 2017-06-15 Edge2020 LLC Clustering and adjudication to determine a recommendation of multimedia content
CN107391727A (zh) * 2017-08-01 2017-11-24 北京航空航天大学 设备故障序列模式的挖掘方法及装置
CN108256654A (zh) * 2018-01-02 2018-07-06 中电长城(长沙)信息技术有限公司 一种设备报障和故障诊断方法及系统
CN109345658A (zh) * 2018-10-29 2019-02-15 百度在线网络技术(北京)有限公司 车辆系统故障的修复方法、装置、设备、介质和车辆
CN109902283A (zh) * 2018-05-03 2019-06-18 华为技术有限公司 一种信息输出方法及装置
CN110704231A (zh) * 2019-09-30 2020-01-17 深圳前海微众银行股份有限公司 一种故障处理方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170171580A1 (en) * 2015-04-21 2017-06-15 Edge2020 LLC Clustering and adjudication to determine a recommendation of multimedia content
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
CN107391727A (zh) * 2017-08-01 2017-11-24 北京航空航天大学 设备故障序列模式的挖掘方法及装置
CN108256654A (zh) * 2018-01-02 2018-07-06 中电长城(长沙)信息技术有限公司 一种设备报障和故障诊断方法及系统
CN109902283A (zh) * 2018-05-03 2019-06-18 华为技术有限公司 一种信息输出方法及装置
WO2019210820A1 (zh) * 2018-05-03 2019-11-07 华为技术有限公司 一种信息输出方法及装置
CN109345658A (zh) * 2018-10-29 2019-02-15 百度在线网络技术(北京)有限公司 车辆系统故障的修复方法、装置、设备、介质和车辆
CN110704231A (zh) * 2019-09-30 2020-01-17 深圳前海微众银行股份有限公司 一种故障处理方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BARBARA PERNICI ET AL: "Automatic Learning of Repair Strategies for Web Services", 《FIFTH EUROPEAN CONFERENCE ON WEB SERVICES》, 10 December 2007 (2007-12-10), pages 119 - 128 *
马骅 等: "基于历史的云平台故障注入测试", 《计算机学报》, 31 October 2019 (2019-10-31), pages 2281 - 2296 *
黄志军, 赵皑, 徐红贤: "面向修复的集群高可用技术分析", 计算机与数字工程, no. 02, 20 April 2004 (2004-04-20), pages 32 - 34 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116560891A (zh) * 2023-05-23 2023-08-08 北京优特捷信息技术有限公司 一种故障处理方法、装置、电子设备及存储介质
CN117539674A (zh) * 2024-01-09 2024-02-09 腾讯科技(深圳)有限公司 异常处理方法、装置、设备及存储介质
CN117539674B (zh) * 2024-01-09 2024-05-07 腾讯科技(深圳)有限公司 异常处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US10095610B2 (en) Testing applications with a defined input format
CN109743311B (zh) 一种WebShell检测方法、装置及存储介质
JP7179123B2 (ja) 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
EP3923159A1 (en) Method, apparatus, device and storage medium for matching semantics
US11520993B2 (en) Word-overlap-based clustering cross-modal retrieval
EP3926516A1 (en) Field-dependent machine translation model training method, apparatus, electronic device and storage medium
CN111667056A (zh) 用于搜索模型结构的方法和装置
US11423333B2 (en) Mechanisms for continuous improvement of automated machine learning
US20200204431A1 (en) Automated machine-learning-based ticket resolution for system recovery
EP4134877A1 (en) Training method and apparatus for fault recognition model, fault recognition method and apparatus, and electronic device
CN113313134A (zh) 集群故障修复方法及其模型训练方法、装置及服务器
US11645540B2 (en) Deep graph de-noise by differentiable ranking
CN111373406A (zh) 使用问题匹配的先验知识提取的加速仿真设置过程
CN114943228A (zh) 端到端敏感文本召回模型的训练方法、敏感文本召回方法
CN114970540A (zh) 训练文本审核模型的方法和装置
US11573888B2 (en) Machine learning test result analyzer for identifying and triggering remedial actions
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
US10878194B2 (en) System and method for the detection and reporting of occupational safety incidents
CN115909376A (zh) 文本识别方法、文本识别模型训练方法、装置及存储介质
Govindasamy et al. Data reduction for bug triage using effective prediction of reduction order techniques
CN114064845A (zh) 关系表示模型的训练方法、装置及电子设备
US12045126B1 (en) Method, device, and computer program product for processing faults
CN112329427B (zh) 短信样本的获取方法和装置
CN115879446B (zh) 文本处理方法、深度学习模型训练方法、装置以及设备
CN113361712B (zh) 特征确定模型的训练方法、语义分析方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40058036

Country of ref document: HK