CN114726593A

CN114726593A - 数据分析、异常信息识别方法、设备及存储介质

Info

Publication number: CN114726593A
Application number: CN202210295572.1A
Authority: CN
Inventors: 王群
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-07-08

Abstract

本申请实施例提供数据分析、异常信息识别方法、设备及存储介质。其中，该方法包括：获取异常样本集合；确定异常样本集合中任意两个异常样本之间的相似度值；统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量，得到各异常样本对应统计信息；根据各异常样本对应统计信息，从异常样本集合中确定中心样本，以便基于中心样本进行数据分析。在不清楚异常原因的情况下，通过从多个异常样本中选择出中心样本作为对异常样本进行分析的依据，能够有效避免对历史数据依赖，提高分析效果和效率。在进行异常样本分析时是依据中心样本所包含的特征进行分析的，不会因为特征维度增加显著提升分析计算量，能够有效提高分析效率。

Description

数据分析、异常信息识别方法、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及数据分析、异常信息识别方法、设备及存储介质。

背景技术

随着网络技术的发展，网络结构越来越庞大复杂，安全问题以及故障分析等均是确保网络正常运行中需要时刻关注的问题。

在现有技术当中，对网络相关数据进行分析时(比如，网络安全问题排查、网络故障分析)，通常会预先设定一些排查规则或分析规则。这些规则数据的设定，通常是依据历史数据(比如，历史安全问题或者历史故障分析结果)所总结得到的规则。然而，随着技术发展，在设定规则数据的时候，所需要考虑的规则数据越来越多，当出现新的问题或者故障之后，都需要向原有规则中补充新的规则数据，以确保设定的规则数据能够时刻有效进行网络相关数据分析。随着规则数据的增多，利用规则数据进行排查分析时的规则数据维度呈现爆炸式增长，增加计算负担。此外，预设规则的方式需要依赖历史数据(比如，历史安全问题或者历史故障分析结果等)作为制定规则数据的原始数据，面对新的问题或者故障时将无法利用已有规则数据进行排查分析。因此，需要一种能够有效提升数据分析处理效果的方案。

发明内容

为解决或改善现有技术中存在的问题，本申请各实施例提供了数据分析、异常信息识别方法、设备及存储介质。

第一方面，在本申请的一个实施例中，提供了一种数据分析方法。该方法包括：

获取异常样本集合；

确定所述异常样本集合中任意两个异常样本之间的相似度值；

统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量，得到各异常样本对应统计信息；

根据所述各异常样本对应统计信息，从所述异常样本集合中确定中心样本，以便基于所述中心样本进行数据分析。

第二方面，在本申请的一个实施例中，提供了一种异常信息识别方法。

该方法包括：

基于获取到的报警信息生成异常样本集合；

根据所述各异常样本对应统计信息，从所述异常样本集合中确定中心样本，以及所述中心样本包含的异常特征；

基于所述异常特征对所述报警信息进行异常分析，确定所述报警信息中异常信息。

第三方面，在本申请的一个实施例中，提供了一种电子设备，包括存储器及处理器；其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于实现第一方面所述的一种数据分析方法或第二方面所述的一种异常信息识别方法。

第四方面，在本申请的一个实施例中，提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如第一方面所述的一种数据分析方法或第二方面所述的一种异常信息识别方法。

本申请实施例提供的技术方案，在接收到报警信息之后，可以基于大量报警信息生成用于寻找异常原因或者异常规律的异常样本集合。具体来说，分别计算异常样本集合中的每个异常样本与集合中其他异常样本之间的相似度，以及各个相似度对应的概率分布。进而，更加概率分布与预设的概率阈值的比较结果，从异常样本集合当中确定出至少一个中心样本，该中心样本为与异常样本集合中更多的异常样本具有更高相似度的样本。从中心样本所包含的特征集合中提取出异常特征。通过上述方案，在不清楚异常原因、没有预先设定异常分析规则的情况下，通过从多个异常样本中选择出中心样本作为对其他异常样本进行分析的依据，能够有效避免对历史数据依赖，提高分析效果和效率。此外，在进行异常样本分析的时候是依据中心样本所包含的特征进行分析的，不会因为特征维度增加显著提升分析计算量，能够有效提高分析效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的数据分析方法的流程示意图；

图2为本申请实施例提供的确定中心样本的流程示意图；

图3为本申请实施例提供的概率分布示意图；

图4为本申请实施例举例说明一种获取异常样本集合的流程示意图；

图5为本申请实施例举例说明另一种获取异常样本集合的流程示意图；

图6为本申请实施例提供的一种异常信息识别方法的流程示意图；

图7为本申请实施例提供的数据分析系统的结构意图；

图8为本申请实施例提供的一种数据分析装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图；

图10为本申请实施例提供的一种异常信息识别装置的结构示意图；

图11为本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。此外，下文描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着自动运维技术得到广泛应用，越来越多的场景中，比如，对工作系统的运维检测工作场景、不法行为检测场景等等。以微服务系统为例，在对微服务系统进行运维监测的过程中，涉及到对来自不同设备的各种各样信息进行安全检测，同时还接收到各个设备主动上报的各种各样的报警信息。这些报警信息鱼龙混杂，有真有假，若无法利用现有的故障自动识别算法，则需要人工介入完成鉴别。在故障信息比较少的情况下，可以由少量工作人员在有限时间内完成鉴别工作，若由于某个位置问题导致瞬时大量报警信息产生，而且现有故障自动识别算法并不具有对该故障进行诊断的能力，则需要大量工作人员付出很长时间查找故障根本原因。此外，在一些故障自动识别算法应用场景中，通常是利用预设的一下特征信息进行对报警信息进行有效鉴别，并分析确定最终的故障类型。容易理解的是，随着系统扩大，或者对复杂系统进行故障自动识别，需要参考的特征信息就有很多；需要参考的特征信息越多，意味着识别过程中的计算量也越大，计算效率会相对较低，难以满足快速进行异常分析的需求。在此基础上，若继续增加特征信息，则会导致特征之间的可能的组合数量大幅增加，甚至表现出指数形式增加，最终导致计算量明显增大的情况。因此，需要一种能够在不具有完善技术支持的情况下实现高效数据分析的技术方案。根据异常样本的特征在其他各个样本中出现的频率高低，判断异常样本是否为中心样本。这里所说的异常样本，可以是在检测过程中发现并上报的报警信息，但是，对于异常样本的异常原因却是未知的。因此，需要收集报警信息，并对报警信息进行分析，若要分析，则需要从大量异常样本中找到比较重要的中心样本，进而基于中心样本进行异常分析，能够有效缩短原因排查时间。此外，在确定中心样本之后，还可以进一步对中心样本进行特征提取，确定异常特征，并将提取到的异常特征作为后续对报警信息进行异常排查的依据。

在本申请技术方案中，具体工作过程，将在下述实施例中说明。

如图1为本申请实施例提供的数据分析方法的流程示意图。该分析方法的执行主体可以是服务端设备(云服务端、本地服务端等)如图1所示，该数据分析方法包括如下步骤：

步骤101：获取异常样本集合。

步骤102：确定所述异常样本集合中任意两个异常样本之间的相似度值。

步骤103：统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量，得到各异常样本对应统计信息。

步骤104：根据所述各异常样本对应统计信息，从所述异常样本集合中确定中心样本，以便基于所述中心样本进行数据分析。

为了便于理解，下面将以服务系统故障监测为例进行举例说明。在正常使用过程中，会预设有异常监测模块，用于对服务系统的报警信息进行异常识别，判断报警真伪，以及通过分析确定故障原因。然而，这就需要异常监测模块预设有合适的异常监测算法，需要以预设异常特征作为识别依据。若在正常使用过程中，突然发生大量报警，但是利用现有的异常监测模块有无法辨别报警真伪，则需要采用本申请方案进行数据分析。具体来说，

收集各个设备上报的报警信息，基于报警信息中携带的关键信息和/或日志信息生成样本，并由这些异常样本组合得到异常样本集合。通过上述方式，所得到的异常样本集合中的样本可能具有相同或相近特征，有的样本可能不具有任何相近特征的干扰样本。由于样本中所具有的特征信息比较多，无法通过人工寻找出这些异常样本所具有的共同特征。为了减轻工作人员工作量，则需要利用相关算法寻找众多异常样本共同具有的特征作为异常特征。

进一步地，由于异常样本集合中包含有很多个异常样本，而且每个样本中所包含的特征数量有很多，比如，地理位置(国家、城市等)、网络类型(WiFi、4G等)、时间信息等等。为了更加全面统计分析，需要对异常样本集合中的每一个异常样本与其他任意一个样本进行相似度值统计。比如，当前异常样本集合中有1000个异常样本，针对第一个异常样本1，需要统计其与另外999个异常样本之间的相似度值。由于任意两个异常样本之间的相似度值适用于这两个异常样本的，因此，经过一次统计就可以得到两个异常样本分布对应的相似度值，换言之，在针对第二个异常样本2进行相似度统计的时候，只需要统计其与另外998个异常样本之间的相似度值，因为第二个异常样本2与第一个异常样本1之间的相似度值在之前已经统计过了。循环重复上述步骤，可以完成对异常样本集合中所有异常样本的相似度值的统计。

在完成上述异常样本集合的相似度值的计算之后，接下来需要根据相似度值对统计结果进行分类汇总。比如，第一个异常样本1的相似度值分布为：(相似度值1:300个，相似度值2:200个，相似度值3:195个，……相似度值20:50个……)；第二个异常样本2的相似度值分布为：(相似度值1:390个，相似度值2:299个，相似度值3:100个，……相似度值20:10个……)。通过上述统计方式，统计得到各个异常样本分布对应的统计信息。

在得到上述统计信息之后，对异常样本集合中各个异常样本的统计信息进行分析，分析每个异常样本的统计信息中各个相似度值分布状态是否符合正常样本分布规律，找出不符合正常样本分布规律中的异常样本，进而从这些异常样本中找出具有更多特征、更高相似度值的聚集性样本作为中心样本。换言之，该中心样本中所具有的特征是大多数异常样本所具有的特征。具体确定中心样本的方案将在下述实施例中进行举例说明，这里就不再重复赘述。

在本申请的一个或者多个实施例中，所述统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量，得到各异常样本对应统计信息，包括：统计所述每个异常样本的各个相似度值分别对应的异常样本数量；确定等于相似度阈值的所述各个相似度分别对应的异常样本数量的数量总和，以将所述数量总和作为所述统计信息。

为了便于理解，假设第一个异常样本1所具有的特征包括：设备型号：A1，网络类型：B1，运营商类型：C1。第二个异常样本2所具有的特征包括：设备型号：A1，网络类型：B2，运营商类型：C1。第三个异常样本3所具有的特征包括：设备型号：A1，网络类型：B1，运营商类型：C2。经过统计，

第一个异常样本1相似度阈值为1对应的样本没有，数量总和为：0个；第一个异常样本1相似度阈值为2对应的样本有第二个异常样本2和第三个异常样本3，数量总和为：2个；第一个异常样本1相似度阈值为3对应的样本没有，数量总和为：0个。最终得到的第一异常样本1的各个相似度值对应的统计信息(相似度值1:0，相似度值2:2，相似度值3:0)。

第二个异常样本2相似度阈值为1对应的样本有第三个异常样本3，数量总和为：1个；第二个异常样本2相似度阈值为2对应的样本有第一个异常样本1，数量总和为：1个；第一个异常样本1相似度阈值为3对应的样本没有，数量总和为：0个。最终得到的第二异常样本2的各个相似度值对应的统计信息(相似度值1:1，相似度值2:1，相似度值3:0)。

第三个异常样本3相似度阈值为1对应的样本有第二个异常样本2，数量总和为：1个；第三个异常样本3相似度阈值为2对应的样本有第一个异常样本1，数量总和为：1个；第三个异常样本3相似度阈值为3对应的样本没有，数量总和为：0个。最终得到的第三异常样本3的各个相似度值对应的统计信息(相似度值1:1，相似度值2:1，相似度值3:0)。通过上述统计方式，可全面统计异常样本集合中各个样本分别对应各个样本相似度值的分布状态，获得的信息更加完整，方便后续确定中心样本。

如图2为本申请实施例提供的确定中心样本的流程示意图。从图2中可以看到，所述根据所述各异常样本对应统计信息，从所述异常样本集合中确定中心样本，具体包括如下步骤：

201：获取正常样本各个相似度的正常概率分布。

202：从所述正常概率分布中确定所述相似度阈值对应的概率值作为正常概率阈值。

203：根据所述异常样本集合的样本总数量、所述正常概率阈值，确定所述数量阈值。

204：根据所述统计信息与所述数量阈值的比较结果，将所述异常样本集合中所述统计信息大于所述数量阈值的异常样本为所述中心样本。

这里所说的正常样本，是在基于历史信息生成的样本，或者报警信息中确定为误报警信息所生成的样本。正常样本中也包含有很多特征信息，其中一些特征信息可能也是异常样本所具有的。正常样本进行相似度统计后，可以得到对应的统计信息。基于统计信息，确定相似度值的最大值和最小值，并根据最大值和最小值计算得到有效的相似度值的平均值，将该平均值作为相似度阈值。

如图3为本申请实施例提供的概率分布示意图。进而，根据统计信息，对各个相似度值概率分布状态进行统计。可以得到如图3所示的概率分布图，确定相似度阈值所对应的正常概率值，比如30％。

进而，基于该正常概率值和异常样本集合的样本总数量计算得到数量阈值，比如，异常样本集合中的样本总数量为1000，计算得到数量阈值

＝1000*30％＝300。根据异常样本集合中，计算各个异常样本的相似度阈值对应的数量。若统计信息中相似度阈值对应的数量大于数量阈值，则确定该异常样本为聚集性样本，可以作为中心样本。也就表示，该中心样本中具有更多的其他异常样本共有的异常特征。基于中心样本更加有利于对异常原因、故障原因的排查和解决。

在实际应用中，可以采用假设检验(比如，二项分布检验)中常见到P值(P-Value，Probability，Pr)法确定中心样本。P值即概率，反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P值，当P值大于0.05则认为属于异常情况。比如，假设，基于正常样本得到大于等于相似阈值的概率为31.7％，而异常样本中大于相似度阈值的概率为5％，因此，可以将异常样本集合中统计信息大于相似度阈值的样本作为中心样本。进而，可以利用中心样本确定在各个样本中出现频率比较高的异常特征。

在实际应用中，除了上述实施例之外，还有其他方法能够确定异常特征。例如可以利用梯度提升树模型(eXtreme Gradient Boosting，XGBT)等方法确定异常特征。在不需要利用相似度阈值查找中心样本的情况下，利用XGBT对收集到的异常样本中所具有的特征或特征组合进行分类处理，直接查找具有较高相似度的异常特征。例如，假设有三个异常样本，第一个异常样本1与第二个异常样本2之间的相似度为1，第一个异常样本1与第三个异常样本3之间的相似度为2，经过计算该第一个异常样本1的相似度均值为：

(1*1+2*1)/(1+1)＝1.5。进而，利用异常样本及其对应的相似度均值对XGBT模型进行训练，通过训练好的XGBT模型确定多个异常样本中相似度稿的异常特征。在本实施例适用于直接寻找产生异常样本共性的异常特征的应用场景，无需进行繁杂计算处理，可直接确定异常特征，能够有效提升查找异常特征的工作效率。

在本申请的一个或者多个实施例中，所述确定所述异常样本集合中任意两个异常样本之间的相似度值，包括：确定所述任意两个异常样本之间具有相同特征的特征数量；确定所述特征数量作为所述任意两个异常样本的所述相似度值。

在实际应用中，可以将具有相同特征的数量作为相似度值。若特征数量比较多，或者不方便计算，也可以进行加权计算，比如，其中比较重要的特征对应的相似度权重比较高，设定为3，一般特征对应权重比较低，设定为1，进而，经过加权求和，可以得到相似度值。

如前文所述，在正常的应用当中，通常会设计有用于对异常信息进行监测处理的异常监测模块。然而，有的情况下，已有的异常监测模块无法起到有效的监测处理效果，需要采用本申请技术方案来解决。下面将分情况分别进行举例说明。

如图4为本申请实施例举例说明一种获取异常样本集合的流程示意图。

如图4所示，获取异常样本集合的具体步骤包括：

401：获取异常报警信息。

402：基于所述异常报警信息中携带的关键信息生成至少一个样本。

403：若所述至少一个样本与预设异常特征不匹配，则基于所述至少一个样本生成所述异常样本集合。

例如，在服务系统中，服务器会为很多个客户端提供数据服务。当某个客户端发现异常之后，会生成报警信息，并将该异常报警信息发送给服务端。需要说明的是，这里所说的报警信息，通常包含有报警类型、以及产生报警时的相关日志信息。进而，基于异常报警信息进行关键信息提取，包括：地理位置、时间信息、网络类型等，基于提取到的关键信息生成样本。容易理解的是，有时报警比较频繁，客户端可能会将很多报警打包在一起作为一组报警信息发送给服务端，通过对报警信息中的关键信息进行提取，所生成的样本数量可能就是多个。

在生成的样本中，将关键信息作为该样本的特征信息。现有的异常监测模块会对生成的多个样本进行异常检测分析，但是，若异常监测模块中预设异常特征不能满足检测需求，也就样本中的特征信息与预设异常特征不匹配，则无法完成检测任务。因此，需要基于至少一个样本生成异常样本集合，寻找中心样本进而实现针对异常原因等问题的分析。

如图5为本申请实施例举例说明另一种获取异常样本集合的流程示意图。如图5所示，获取异常样本集合的具体步骤包括：

501：获取异常报警信息。

502：基于所述异常报警信息中携带的关键信息生成至少一个样本。

503：基于所述至少一个样本对预设异常特征进行特征扩增。

504：若扩增后的预设异常特征数量大于预设阈值，则基于所述至少一个样本生成所述异常样本集合。

例如，在服务系统中，服务器会为很多个客户端提供数据服务。当某个客户端发现异常之后，会生成报警信息，并将该异常报警信息发送给服务端。需要说明的是，这里所说的报警信息，通常包含有报警类型、以及产生报警时的相关日志信息。进而，基于异常报警信息进行关键信息提取，包括：地理位置、时间信息、网络类型等，基于提取到的关键信息生成样本。容易理解的是，有时报警比较频繁，客户端可能会将很多报警打包在一起作为一组报警信息发送给服务端，通过对报警信息中的关键信息进行提取，所生成的样本数量可能就是多个。为了实现更加全面的异常分析，当有新的异常样本加入后，会对现有的预设异常特征进行调整补充，比如，增加特征数量。

如前文所述，在利用特征对样本进行异常分析的时候，特征的数量越多，特征组合情况也越多。当特征数量的增加时，特征之间的可能组合量也会迅速大幅度增加，且往往是以指数形式增加，最终导致计算量极大的增加。因此，若再继续利用已有的异常监测模块进行异常检测分析，则会产生很大的计算负担，或者计算处理效率很低。因此，需要基于至少一个样本生成异常样本集合，寻找中心样本进而实现针对异常原因等问题的分析。

在实际应用中，基于所述中心样本确定异常特征的方式包括：若所述中心样本为多个，则确定多个中心样本包含的相同特征作为所述异常特征。

容易理解的是，通过上述方案，可能从异常样本集合中确定出一个样本作为中心样本，将该中心样本所具有的特征作为异常特征。由于中心样本中所包含的特征数量可能很多，所以，可以根据相似度值的大小，从中选择一个作为合适的或者最大的相似度值所对应的特征作为异常特征。当然，也可能确定出多个中心样本，若则可以对多个中心样本所具有的特征信息进行统计，找到这些中心样本所共同具有的特征作为异常特征。

在本申请的一个或者多个实施例中，从所述异常样本集合中确定中心样本之后，还包括：若所述中心样本的数量超过预设的中心阈值，则对所述相似度阈值进行调整；基于调整后的相似度阈值从所述异常样本集合中确定中心样本，以使所述中心样本的数量小于所述中心阈值。

如前文所述可知，由于接收到的报警信息很多，无法快速的基于大量异常样本进行异常分析，因此，需要从其中选择出少量的具有代表性的样本作为中心样本。若利用上述方案所确定的中心样本数量过多，则表示这些中心样本的特征聚集性不是很好，不能具有很好的代表性。具体来说，当确定的中心样本的数量超过中心阈值，则需要重新确定中心样本。可以进一步对相似度阈值进行调整，增大相似度阈值(比如，对此前确定的相似度阈值和相似度值的最大值进行求平均计算，得到新的相似度阈值)。进而，根据调整后的相似度阈值重新从异常样本集合中确定中心样本。这样得到的中心样本数量就会明显减少(在实际应用中，新确定的中心样本的数量会明显减少，若没有明显减少，则还需要对相似度阈值进行再次提高调整，直到中心样本的数量小于所述中心阈值)，所得到的中心样本也具有更好的聚集性、其所包含的特征也就更具有代表性。

在利用上述方案确定中心样本以及基于中心样本确定异常特征之后，可以进一步利用异常特征进行机器学习模型的训练，并利用训练好的机器学习模型实现对此类异常问题的识别。本方案的实现无需先验经验，可以充分利用从突发情况所收集到的样本信息快速锁定中心样本，进而利用中心样本所包含的异常特征进行异常分析。

基于同样的思路，本申请实施例还提供一种异常信息识别方法。如图6为本申请实施例提供的一种异常信息识别方法的流程示意图，该方法可以应用于服务端，所述方法具体包括如下步骤：

601：基于获取到的报警信息生成异常样本集合。

602：确定所述异常样本集合中任意两个异常样本之间的相似度值。

603：统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量，得到各异常样本对应统计信息。

604：根据所述各异常样本对应统计信息，从所述异常样本集合中确定中心样本，以及所述中心样本包含的异常特征。

605：基于所述异常特征对所述报警信息进行异常分析，确定所述报警信息中异常信息。

假设在服务系统正常使用过程中，突然集中大量爆发此前并未见过的报警信息，因此，需要快速锁定问题所在。该方法是用于从集中爆发的众多报警信息中，快速识别出哪些是真正的异常信息。具体来说，接收各个客户端发送的报警信息，并利用这些报警信息生成异常样本集合，进而，利用图1至图5对应的实施例确定出中心样本。

在此基础上，提取中心样本中所包含的异常特征，利用异常特征对接收到的大量报警信息进行分析，从报警信息中查找出真正的异常信息。

此外，还可以基于提取到的异常特征对机器学习模型进行训练，得到用于对此类异常信息继续识别的新的机器学习模型。

本申请中图1和图6所述方案可以用于偶发故障分析的场景，无需关于特征之间关系的先验知识。同时，本方案的计算量仅与样本中特征数量呈线性增长，换言之，即便用于对异常样本进行识别的异常特征数量增加，也不会计算量显著增加的问题。

如图7为本申请实施例提供的数据分析系统的结构意图。在该数据分析系统包括多个客户端、用于异常监测的服务端以及工作人员了解监测情况的检测端。

当有客户端或者服务端发生故障、非法入侵、截获非法信息等等的情况下，都会向服务端发出报警信息。服务端在接收到报警信息之后，会采用图1至图5所述各个实施例对应的方法进行故障分析。这里就不再重复赘述，具体可参考前文所述内容。

基于同样的思路，本申请实施例还提供一种数据分析装置。如图8为本申请实施例提供的一种数据分析装置的结构示意图。该数据分析装置包括：

获取模块81，用于获取异常样本集合。

第一确定模块82，用于确定所述异常样本集合中任意两个异常样本之间的相似度值。

统计模块83，用于统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量，得到各异常样本对应统计信息。

第二确定模块84，用于根据所述各异常样本对应统计信息，从所述异常样本集合中确定中心样本，以便基于所述中心样本进行数据分析。

可选地，统计模块83，用于统计所述每个异常样本的各个相似度值分别对应的异常样本数量；

确定等于相似度阈值的所述各个相似度分别对应的异常样本数量的数量总和，以将所述数量总和作为所述统计信息。

可选地，第二确定模块84，用于获取正常样本各个相似度的正常概率分布；

从所述正常概率分布中确定所述相似度阈值对应的概率值作为正常概率阈值；

根据所述异常样本集合的样本总数量、所述正常概率阈值，确定所述数量阈值；

根据所述统计信息与所述数量阈值的比较结果，将所述异常样本集合中所述统计信息大于所述数量阈值的异常样本为所述中心样本。

可选地，第一确定模块82，用于确定所述任意两个异常样本之间具有相同特征的特征数量；

确定所述特征数量作为所述任意两个异常样本的所述相似度值。

可选地，获取模块81，用于获取异常报警信息；

基于所述异常报警信息中携带的关键信息生成至少一个样本；

若所述至少一个样本与预设异常特征不匹配，则基于所述至少一个样本生成所述异常样本集合。

可选地，获取模块81，用于获取异常报警信息；

基于所述至少一个样本对预设异常特征进行特征扩增；

若扩增后的预设异常特征数量大于预设阈值，则基于所述至少一个样本生成所述异常样本集合。

可选地，第二确定模块84，用于若所述中心样本为多个，则确定多个中心样本包含的相同特征作为所述异常特征。

可选地，第二确定模块84，用于若所述中心样本的数量超过预设的中心阈值，则对所述相似度阈值进行调整；

基于调整后的相似度阈值从所述异常样本集合中确定中心样本，以使所述中心样本的数量小于所述中心阈值。

可选地，第一确定模块82，用于确定正常样本对应的多个相似度中的最大相似度和最小相似度；

根据所述最大相似度和所述最小相似度的平均值确定所述相似度阈值。

本申请一个实施例还提供一种电子设备。该电子设备为计算单元中主节点电子设备。如图9为本申请实施例提供的一种电子设备的结构示意图。该电子设备包括存储器901、处理器902及通信组件903；其中，

所述存储器901，用于存储程序；

所述处理器902，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

获取异常样本集合；

上述存储器901可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

进一步地，本实施例中的所述处理器902可以具体是：可编程交换处理芯片，该可编程交换处理芯片中配置有数据复制引擎，能对接收到的数据进行复制。

上述处理器902在执行存储器中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。进一步，如图9所示，电子设备还包括：电源组件904等其它组件。

本申请实施例还提供一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行图1对应实施例所述的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，致使所述处理器能够实现图1对应实施例所述的方法。

基于同样的思路，本申请实施例还提供一种异常信息识别装置。如图10为本申请实施例提供的一种异常信息识别装置的结构示意图。该数据分析装置包括：

生成模块101，用于基于获取到的报警信息生成异常样本集合。

第一确定模块102，用于确定所述异常样本集合中任意两个异常样本之间的相似度值。

统计模块103，用于统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量，得到各异常样本对应统计信息。

第二确定模块104，用于根据所述各异常样本对应统计信息，从所述异常样本集合中确定中心样本，以及所述中心样本包含的异常特征；

第三确定模块105，用于基于所述异常特征对所述报警信息进行异常分析，确定所述报警信息中异常信息。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，致使所述处理器能够实现图6对应实施例所述的方法。

本申请一个实施例还提供一种电子设备。该电子设备为计算单元中备节点电子设备。如图11为本申请实施例提供的另一种电子设备的结构示意图。该电子设备包括存储器1101、处理器1102及通信组件1103；其中，

所述存储器1101，用于存储程序；

所述处理器1102，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

基于获取到的报警信息生成异常样本集合；

上述存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

进一步地，本实施例中的所述处理器1102可以具体是：可编程交换处理芯片，该可编程交换处理芯片中配置有数据复制引擎，能对接收到的数据进行复制。

上述处理器1102在执行存储器中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。进一步，如图11所示，电子设备还包括：电源组件1104等其它组件。

本申请实施例还提供一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行图6对应实施例所述的方法。

基于上述实施例，在接收到报警信息之后，可以基于大量报警信息生成用于寻找异常原因或者异常规律的异常样本集合。具体来说，分别计算异常样本集合中的每个异常样本与集合中其他异常样本之间的相似度，以及各个相似度对应的概率分布。进而，更加概率分布与预设的概率阈值的比较结果，从异常样本集合当中确定出至少一个中心样本，该中心样本为与异常样本集合中更多的异常样本具有更高相似度的样本。从中心样本所包含的特征集合中提取出异常特征。通过上述方案，在不清楚异常原因、没有预先设定异常分析规则的情况下，通过从多个异常样本中选择出中心样本作为对其他异常样本进行分析的依据，能够有效避免对历史数据依赖，提高分析效果和效率。此外，在进行异常样本分析的时候是依据中心样本所包含的特征进行分析的，不会因为特征维度增加显著提升分析计算量，能够有效提高分析效率。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据分析方法，其特征在于，所述方法包括：

获取异常样本集合；

2.根据权利要求1所述的方法，其特征在于，所述统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量，得到各异常样本对应统计信息，包括：

统计每个所述异常样本的各个相似度值分别对应的异常样本数量；

3.根据权利要求2所述的方法，其特征在于，所述根据所述各异常样本对应统计信息，从所述异常样本集合中确定中心样本，包括：

获取正常样本各个相似度的正常概率分布；

4.根据权利要求1所述的方法，其特征在于，所述确定所述异常样本集合中任意两个异常样本之间的相似度值，包括：

确定所述任意两个异常样本之间具有相同特征的特征数量；

5.根据权利要求1所述的方法，其特征在于，所述获取异常样本集合，包括：

获取异常报警信息；

6.根据权利要求1所述的方法，其特征在于，所述获取异常样本集合，包括：

获取异常报警信息；

基于所述至少一个样本对预设异常特征进行特征扩增；

7.根据权利要求6所述的方法，其特征在于，基于所述中心样本确定异常特征的方式包括：

若所述中心样本为多个，则确定多个中心样本包含的相同特征作为所述异常特征。

8.根据权利要求7所述的方法，其特征在于，从所述异常样本集合中确定中心样本之后，还包括：

若所述中心样本的数量超过预设的中心阈值，则对所述相似度阈值进行调整；

9.根据权利要求1所述的方法，其特征在于，所述相似度阈值的确定方式包括：

确定正常样本对应的多个相似度中的最大相似度和最小相似度；

10.一种异常信息识别方法，其特征在于，所述方法包括：

基于获取到的报警信息生成异常样本集合；

11.一种电子设备，包括存储器及处理器；其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于实现上述权利要求1至9中任一项所述的方法；或实现上述权利要求10所述的方法。

12.一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的方法；或执行如权利要求10所述的方法。