CN116451792A

CN116451792A - 解决大规模故障预测问题的方法、系统、设备及储存介质

Info

Publication number: CN116451792A
Application number: CN202310699448.6A
Authority: CN
Inventors: 王琛; 金澎; 房东升; 张昱洲; 邢翠霞
Original assignee: Beijing Ideal Information Technology Co ltd
Current assignee: Beijing Ideal Information Technology Co ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-07-18
Anticipated expiration: 2043-06-14
Also published as: CN116451792B

Abstract

本发明公开了一种解决大规模故障预测问题的方法、系统、设备及储存介质，所述方法包括：搜索符合预设条件的时序事件作为时序根节点事件；搜索所有可拼接所述时序根节点事件的时序事件的排列组合集合；由所述时序根节点分别拼接所述时序事件，得到候选线性事件集；对所述候选线性事件集进行评估，将不满足预设条件的所述候选线性事件集进行剪枝，将剪枝后的候选线性事件集进行进一步拼接、评估；以及，对所述线性事件集在数据集上的表现进行评估，取表现分数最高的线性事件集作为本轮产生的新线性事件集；当产生新线性事件集后，将现有线性事件集匹配的服务器地址列为已覆盖服务器地址。通过本公开的处理方案，具有极强的可解释性和可修改性。

Description

解决大规模故障预测问题的方法、系统、设备及储存介质

技术领域

本发明涉及智能运维领域技术领域，特别是涉及一种解决大规模故障预测问题的方法、系统、设备及储存介质。

背景技术

目前，大规模故障预测中主流的算法技术分为两类，即基于神经网络和基于决策树的机器学习模型。基于神经网络的预测模型具有非线性建模能力强、可以通过网络结构设计进行模型训练等优点。但由于其可解释性较差，对网络结构的设计和超参数的选择较为敏感。基于决策树的机器学习模型利用一系列决策规则将数据集划分为不同的子集，直到每个子集只包含一个类别或满足某些特定准则。然而模型在可解释性上由于遵循树的嵌套结构，可解释性较差。并且模型在基于时间序列的采样上，因正负样本极度不平衡，模型容易被单一故障样本所占主导而导致模型性能较差。此外，由于模型特点，以上两类模型都无法准确捕捉告警之间的因果关系。

由此可见，上述现有的大规模故障预测方法在使用上，显然仍存在有不便与缺陷，而亟待加以进一步改进。如何能创设一种新的大规模故障预测方法，成为当前业界急需改进的目标。

发明内容

有鉴于此，本公开实施例提供一种解决大规模故障预测问题的方法，至少部分解决现有技术中存在的问题。

第一方面，本公开实施例提供了一种解决大规模故障预测问题的方法，所述方法包括以下步骤：

搜索符合预设条件的时序事件作为时序根节点事件；

搜索所有可拼接所述时序根节点事件的时序事件的排列组合集合；

由所述时序根节点分别拼接所述排列组合集合中的时序事件，得到候选线性事件集；对所述候选线性事件集进行评估，将不满足预设条件的所述候选线性事件集进行剪枝，将剪枝后的候选线性事件集进行进一步拼接、评估；

当达到终止条件时，对所述线性事件集在数据集上的表现进行评估，取表现分数最高的线性事件集作为本轮产生的新线性事件集；

当产生新线性事件集后，将现有线性事件集匹配的服务器地址列为已覆盖服务器地址。

根据本公开实施例的一种具体实现方式，所述搜索符合预设条件的时序事件作为时序根节点事件，包括：

根据未覆盖服务器地址所包含的异常种类，去掉已经出现在现有线性事件集时序根节点中相同数量超过2个的异常种类；

在所有未覆盖服务器地址上，根据服务器最终是否宕机的信息、时间点，通过如下公式计算每个异常种类作为唯一线性事件集的正报，早报，误报数量：；其中，/>为根节点候选分数；/>为线性事件集的正报个数；/>为线性事件集的早报个数；/>为线性事件集的误报个数；

选取高的异常种类作为本轮新线性事件集的时序根节点，并把当前的最优线性事件集定为时序根节点。

根据本公开实施例的一种具体实现方式，所述方法还包括：

在由所述时序根节点分别拼接所述排列组合集合中的时序事件过程中，任意两种线性事件集间满足：除时序事件的间隔时间和/或间隔条数不一致外，参数完全相同，并且在数据集上的表现完全相同。

根据本公开实施例的一种具体实现方式，所述方法还包括：

当两个线性事件集进行拼接时，如果条件判断为发生，则合并后的新线性事件集的条件数值取较小值；如果条件判断为不发生，则合并后的新线性事件集的条件数值取较大值。

根据本公开实施例的一种具体实现方式，所述对所述候选线性事件集进行评估，将不满足预设条件的所述候选线性事件集进行剪枝，将剪枝后的候选线性事件集进行进一步拼接、评估；当达到终止条件时，对所述线性事件集在数据集上的表现进行评估，取表现分数最高的线性事件集作为本轮产生的新线性事件集，通过以下公式对线性事件集在数据集上表现进行评估：

；其中，为线性时间集表现分数；/>为准确率；/>为召回率；/>为线性事件集的正报个数；/>为线性事件集的早报个数；/>为正整数参数；/>为正整数参数；/>为正整数集合。

根据本公开实施例的一种具体实现方式，所述将不满足预设条件的所述候选线性事件集进行剪枝，包括：

当所述候选线性事件不满足以下全部条件时，对所述候选线性事件进行剪枝：

所述候选线性事件正报数量不小于3个；

对于全局线性事件集表现出现零误报、3个以上正报的情况，新候选线性事件集正报数量不小于3个；

候选线性事件集中的时序事件数量不超过5个。

第二方面，本公开实施例提供了一种解决大规模故障预测问题的系统，所述系统包括：

搜索模块，被配置用于搜索符合预设条件的时序事件作为时序根节点事件；以及，搜索所有可拼接所述时序根节点事件的时序事件的排列组合集合；

拼接模块，被配置用于由所述时序根节点分别拼接所述排列组合集合中的时序事件，得到候选线性事件集；对所述候选线性事件集进行评估，将不满足预设条件的所述候选线性事件集进行剪枝，将剪枝后的候选线性事件集进行进一步拼接、评估；

当达到终止条件时，取表现分数最高的线性事件集作为本轮产生的新线性事件集；

序贯覆盖模块，被配置用于当产生新线性事件集后，将现有线性事件集匹配的服务器地址列为已覆盖服务器地址。

根据本公开实施例的一种具体实现方式，所述拼接模块还包括：

第三方面，本公开实施例还提供了一种电子设备，该电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有能够被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行时，使所述至少一个处理器前述第一方面或第一方面的任一实现方式中的任一项所述的解决大规模故障预测问题的方法。

第四方面，本公开实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令当由至少一个处理器执行时使所述至少一个处理器执行前述第一方面或第一方面的任一实现方式中的解决大规模故障预测问题的方法。

第五方面，本公开实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使该计算机执行前述第一方面或第一方面的任一实现方式中的解决大规模故障预测问题的方法。

本公开实施例中的解决大规模故障预测问题的方法，通过使用规则学习算法得出的结构为线性的判断条件，具有极强的可解释性和可修改性，可以直接快速对接业务人员和领域专家。对于主流技术无法很好的抓取不同告警种类间前后因果关系的现状，规则学习算法以时序事件之间的组合为搜索单元，具有对于因果关系的强搜索能力。对于故障数据本身正负样本极度的不平衡现状，规则学习算法从正样本直接切入，具有抓取与故障结果有强关联告警的能力，并把搜索空间以时序事件与时序根节点拼接的形式作为单元进行定义，大大减轻了大量负样本对模型的干扰。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1为本公开实施例提供的一种解决大规模故障预测问题的方法流程示意图；

图2为本公开实施例提供的一种单规则搜索模块流程示意图；

图3为本公开实施例提供的一种序贯覆盖示意图；

图4为本公开实施例提供的一种解决大规模故障预测问题的系统结构示意图；以及

图5为本公开实施例提供的电子设备示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其他方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其他结构及/或功能性实施此设备及/或实践此方法。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本发明实施例提供了一种解决大规模故障预测问题的方法，基于搜索的规则学习算法用于解决在大规模故障预测任务中的故障预测问题，可为企业的运维工作提供有效的辅助支持。该算法通过搜索直接或间接导致服务器宕机的时序事件并组成可解释的多条线性事件集，最后以提供多条线性事件集（或称规则）的形式作为告警规则为将来的服务器数据提供有效预警。

图1为本公开实施例提供的解决大规模故障预测问题的方法流程的示意图。

图2为与图1对应的单规则搜索模块流程示意图（即步骤S110-S140）；

概念定义：

时序根节点（事件）：把“在某时刻发生种类为A的异常”定义为时序根节点（事件），下文简称为时序根节点。

举例：

时序根节点：发生了种类为Exception32的异常.

时序事件：把“在时序根节点的｛条件数值：X， X为整数｝｛条件类型：秒/条告警｝之前｛条件判断：发生了/没有发生｝叫做B的异常”定义为时序事件。

举例：

时序事件1：在时序根节点发生前60秒内发生了种类为Exception4的异常；

时序事件2：在时序根节点发生前60秒内没有发生种类为Exception4的异常；

时序事件3：在时序根节点发生前100条告警内包括种类为Exception4的异常；

时序事件4：在时序根节点发生前100条告警内没有包括种类为Exception4的异常。

线性事件集/规则：把“｛时序事件1，时序事件2，…，时序事件N}+时序根节点”的组合定义为一条线性事件集或简称规则。

规则文本举例：发生了种类为Exception32的异常，并且在时序根节点发生前60秒内发生了种类为Exception4的异常，在时序根节点发生前100条告警内包括种类为Exceptio15的异常。

规则告警监测方法：如果某一个服务器的近期异常数据满足某规则，那么我们预测它将在时序根节点往后的X天内发生宕机，如果出现多个满足规则的时序根节点，取最新的根节点作触发节点。

未覆盖服务器地址（uncovered_ips）：训练数据中全部服务器ip地址 - 当前所有规则匹配的服务器ip地址。

全局TopK等价类：由算法搜索出的新规则，将从一个全局TopK等价类中产生，TopK等价类即为规则分数前K的规则组成的集合，相同分数的规则属于一类（即密集排名规则）。在算法实践中，通常k=5。

本申请采用序贯覆盖的方式进行规则搜索，即搜索新规则所使用时数据集，会隔离当前规则已匹配的相关数据集（Covered_ips）。

如图1所示，在步骤S110处，搜索符合预设条件的时序事件作为时序根节点事件。

在本发明实施例中，所述搜索符合预设条件的时序事件作为时序根节点事件，包括：根据未覆盖服务器地址所包含的异常种类，去掉已经出现在现有线性事件集时序根节点中相同数量超过2个的异常种类；在所有未覆盖服务器地址上，根据服务器最终是否宕机的信息、时间点，通过如下公式计算每个异常种类作为唯一线性事件集的正报，早报，误报数量：；其中，/>为根节点候选分数；/>为线性事件集的正报个数；/>为线性事件集的早报个数；/>为线性事件集的误报个数；

选取最高的异常种类作为本轮新线性事件集的时序根节点，并把当前的线性事件集定为时序根节点。

更具体地，根据未覆盖服务器地址所包含的异常种类e_uc，去除掉已经出现在现有规则时序根节点异常种类相同数量超过2个的异常种类；对每个异常种类e_uc在所有未覆盖服务器地址上，根据服务器最终是否宕机的信息、时间点，计算每个异常种类e_uc作为唯一规则的正报（），早报（/>），误报（/>）数量。最后根据如下公式计算：；选取/>最高的异常种类作为本轮新规则的时序根节点，并把当前的规则定为时序根节点。

更具体地，接下来转到步骤S120。

在步骤S120处，搜索所有可拼接所述时序根节点事件的时序事件的排列组合集合。

在本发明实施例中，所述方法还包括：在由所述时序根节点分别拼接所述排列组合集合中的时序事件过程中，任意两种线性事件集间满足：除时序事件的间隔时间和/或间隔条数不一致外，其他参数完全相同，并且在数据集上的表现完全相同。

更具体地，在确立了时序根节点后，接下来的任务即为“为时序根节点寻找到合适的多个时序事件再优化规则表现”。

首先，先确立，对于一个规则A，所有可以拼接的时序事件的排列组合集合为：

Events=｛在时序根节点之前（条件数值+条件类型），（条件判断）异常（Exception_name）｜条件数值+条件类型={“X秒”， “Y条异常”}；

条件判断={“发生了”， “没发生”}；

Exception_name ={e｜当前规则A匹配的服务器告警数据中的所有已出现异常种类e｝；

X={2秒、 10秒、60秒、300秒、…}, Y={2条、 10条、100条、200条、…} }

可以拼接的时序事件数量=2*所有已出现异常个数*（时间间隔个数 + 条数间隔个数）。

Events中元素举例：在时序根节点发生前100条告警内没有包括种类为Exception4的异常。

接下来转到步骤S130。

在步骤S130处，由所述时序根节点分别拼接所述排列组合集合中的时序事件，得到候选线性事件集；对所述候选线性事件集进行评估，将不满足预设条件的所述候选线性事件集进行剪枝。

在本发明实施例中，所述方法还包括：当两个线性事件集进行拼接时，对于线性事件集1，在时序根节点前X1秒或Y1条告警发生了异常e，对于线性事件集2，在时序根节点前X2秒或Y2条告警发生了异常e，则条件判断为发生，则合并后的新线性事件集的条件数值X1、X2或Y1、Y2取较小值；如果条件判断为不发生，则合并后的新线性事件集的条件数值取较大值。

在本发明实施例中，所述将不满足预设条件的所述候选线性事件集进行剪枝，包括：

所述候选线性事件正报数量不小于3个；

候选线性事件集中的时序事件数量不超过5个。

更具体地，在拼接时序事件的过程中，任意两种规则间满足：除一个时序事件的间隔时间/间隔条数不一致，其他参数完全相同，且在数据集上的表现完全相同（即正报、早报、误报数量分别相等），两个规则可以按以下条件进行合并：

如果条件判断为：“发生”，则合并后的新规则的条件数值取较小值；

如果条件判断为：“不发生”，则合并后的新规则的条件数值取较大值。

由时序根节点拼接时序事件，以每种规则在数据集上的分数表现，进行深度优先搜索（Depth-First Search, DFS)，对于新产生的候选规则，需满足以下几点条件，不满足下列任一条件之一的，将被采取剪枝策略：

正报数量不能小于3个；

对于全局规则表现出现零误报、n_fp（n_fp>3）个正报的情况，新候选规则正报数量不可小于n_fp；

候选规则的时序事件数量不能超过5个。

接下来转到步骤S140。

在步骤S140处，对所述线性事件集在数据集上的表现进行评估，取表现分数最高的线性事件集作为本轮产生的新线性事件集。

在本发明实施例中，所述对所述线性事件集在数据集上的表现进行评估，取表现分数最高的线性事件集作为本轮产生的新线性事件集，通过以下公式对线性事件集在数据集上表现进行评估：；其中，/>为线性时间集表现分数；/>为准确率；/>为召回率；/>为线性事件集的正报个数；/>为线性事件集的早报个数；/>为正整数参数；/>为正整数参数；/>为正整数集合。每次尝试在选定的规则上尝试拼接全部时序事件后（展开节点），将对全局TopK等价类进行更新，保留数据集上表现分数前K类的规则。算法在展开节点次数达N_itermax次后，满足本轮终止条件，取全局TopK等价类中表现分数最高的规则（如果有多个，则取时序事件数量最少的规则）作为本轮产生的新规则。

接下来转到步骤S150。

在步骤S150处，如图3所示，当产生新线性事件集后，将现有线性事件集匹配的服务器地址列为已覆盖服务器地址（Covered_ips）。

本发明提出的解决大规模故障预测问题的方法基于搜索的规则学习算法用于解决在大规模故障预测任务中的故障预测问题，可为企业的运维工作提供有效的辅助支持。该算法通过搜索直接或间接导致服务器宕机的时序事件并组成可解释的多条线性事件集，最后以提供多条规则的形式作为告警规则为将来的服务器数据提供有效预警。

使用规则学习算法得出的结构为线性的判断条件，具有极强的可解释性和可修改性，可以直接快速对接业务人员和领域专家。对于主流技术无法很好的抓取不同告警种类间前后因果关系的现状，该规则学习算法以时序事件之间的组合为搜索单元，具有对于因果关系的强搜索能力。对于故障数据本身正负样本极度的不平衡现状，该规则学习算法从正样本直接切入，具有抓取与故障结果有强关联告警的能力，并把搜索空间以时序事件与时序根节点拼接的形式作为单元进行定义，大大减轻了大量负样本对模型的干扰。

图4示出了本发明提供的解决大规模故障预测问题的系统400，包括搜索模块410、拼接模块420和序贯覆盖模块430。

搜索模块410用于搜索符合预设条件的时序事件作为时序根节点事件；以及，搜索所有可拼接所述时序根节点事件的时序事件的排列组合集合；

拼接模块420用于由所述时序根节点分别拼接所述排列组合集合中的时序事件，得到候选线性事件集；对所述候选线性事件集进行评估，将不满足预设条件的所述候选线性事件集进行剪枝，将剪枝后的候选线性事件集进行进一步拼接、评估；当达到终止条件时，对所述线性事件集在数据集上的表现进行评估，取表现分数最高的线性事件集作为本轮产生的新线性事件集；

序贯覆盖模块430用于当产生新线性事件集后，将现有线性事件集匹配的服务器地址列为已覆盖服务器地址。

在本发明实施例中，所述拼接模块还包括：当两个线性事件集进行拼接时，如果条件判断为发生，则合并后的新线性事件集的条件数值取较小值；如果条件判断为不发生，则合并后的新线性事件集的条件数值取较大值。

参见图5，本公开实施例还提供了一种电子设备50，该电子设备包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述方法实施例中的解决大规模故障预测问题的方法。

本公开实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述方法实施例中的解决大规模故障预测问题的方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述方法实施例中的解决大规模故障预测问题的方法。

下面参考图5，其示出了适于用来实现本公开实施例的电子设备50的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备50可以包括处理装置（例如中央处理器、图形处理器等）501，其可以根据存储在只读存储器（ROM）502中的程序或者从存储装置508加载到随机访问存储器（RAM）503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备50操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备50与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备50，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取至少两个网际协议地址；向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求，其中，所述节点评价设备从所述至少两个网际协议地址中，选取网际协议地址并返回；接收所述节点评价设备返回的网际协议地址；其中，所获取的网际协议地址指示内容分发网络中的边缘节点。

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：接收包括至少两个网际协议地址的节点评价请求；从所述至少两个网际协议地址中，选取网际协议地址；返回选取出的网际协议地址；其中，接收到的网际协议地址指示内容分发网络中的边缘节点。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种解决大规模故障预测问题的方法，其特征在于，所述方法包括以下步骤：

搜索符合预设条件的时序事件作为时序根节点事件；

2.根据权利要求1所述的解决大规模故障预测问题的方法，其特征在于，所述搜索符合预设条件的时序事件作为时序根节点事件，包括：

在所有未覆盖服务器地址上，根据服务器最终是否宕机的信息、时间点，通过如下公式计算每个异常种类作为唯一线性事件集的正报，早报，误报数量：

；其中，/>为根节点候选分数；/>为线性事件集的正报个数；/>为线性事件集的早报个数；/>为线性事件集的误报个数；

选取最高的异常种类作为本轮新线性事件集的时序根节点，并把当前的最优线性事件集定为时序根节点。

3.根据权利要求1所述的解决大规模故障预测问题的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的解决大规模故障预测问题的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的解决大规模故障预测问题的方法，其特征在于，所述对所述候选线性事件集进行评估，将不满足预设条件的所述候选线性事件集进行剪枝，将剪枝后的候选线性事件集进行进一步拼接、评估；当达到终止条件时，对所述线性事件集在数据集上的表现进行评估，取表现分数最高的线性事件集作为本轮产生的新线性事件集，通过以下公式对线性事件集在数据集上表现进行评估：

；其中，/>为线性时间集表现分数；/>为准确率；/>为召回率；/>为线性事件集的正报个数；/>为线性事件集的早报个数；/>为正整数参数；/>为正整数参数；/>为正整数集合。

6.根据权利要求5所述的解决大规模故障预测问题的方法，其特征在于，所述将不满足预设条件的所述候选线性事件集进行剪枝，包括：

所述候选线性事件正报数量不小于3个；

候选线性事件集中的时序事件数量不超过5个。

7.一种解决大规模故障预测问题的系统，其特征在于，所述系统包括：

8.根据权利要求7所述的解决大规模故障预测问题的系统，其特征在于，所述拼接模块还包括：

9.一种电子设备，其特征在于，该电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有能够被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行时，使所述至少一个处理器执行如权利要求1至6中的任一项所述的解决大规模故障预测问题的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令当由至少一个处理器执行时使所述至少一个处理器执行如权利要求1至6中的任一项所述的解决大规模故障预测问题的方法。