CN113282433A

CN113282433A - 集群异常检测方法、装置和相关设备

Info

Publication number: CN113282433A
Application number: CN202110648870.XA
Authority: CN
Inventors: 薛强; 陈孝委; 吴学含; 李贵斌; 李家伟
Original assignee: China Telecom Corp Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-20
Anticipated expiration: 2041-06-10
Also published as: CN113282433B; WO2022257421A1

Abstract

本公开提供一种集群异常检测方法、装置和相关设备。该方法包括：从所述集群中的目标节点获取多条日志数据和多个性能指标；对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别；所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵；通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量；通过所述异常检测模型对所述多个性能指标进行特征提取，以获得性能指标向量；通过所述异常检测模型将所述日志类别向量和所述性能指标向量进行向量融合，以获得所述目标节点的节点特征向量；通过所述异常检测模型对所述节点特征向量进行分类处理，以确定所述集群中的目标节点的预测异常类型。

Description

集群异常检测方法、装置和相关设备

技术领域

本公开涉及计算机与互联网技术领域，尤其涉及一种集群异常检测方法及装置、电子设备和计算机可读存储介质。

背景技术

随着互联网高速发展、互联网用户的不断增加，互联网企业对计算和存储能力的要求也越来越高。对于有一定规模的企业来说，一台服务器的运算能力和存储能力是远远不够的，需要企业购建大规模集群。

在集群的日常运维过程中，基于单一指标的检测手段无法对集群进行全面的异常检测。随着集群规模快速的增长，传统的通过手动运维以发现集群异常的运维方法，导致运维人员的工作量也越来越大。

因此，一种简单、有效的集群异常检测方法对于集群运维来说，十分重要。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开的目的在于提供一种集群异常检测方法、装置、电子设备以及和计算机可读存储介质，能够快速有效地对集群中的节点进行异常检测。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提供了一种集群异常检测方法，包括：从所述集群中的目标节点获取多条日志数据和多个性能指标；对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别；所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵；通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量；通过所述异常检测模型对所述多个性能指标进行特征提取，以获得性能指标向量；通过所述异常检测模型将所述日志类别向量和所述性能指标向量进行向量融合，以获得所述目标节点的节点特征向量；通过所述异常检测模型对所述节点特征向量进行分类处理，以确定所述集群中的目标节点的预测异常类型。

在一些实施例中，所述目标节点包括第一节点和第二节点，所述多条日志数据包括来自第一节点的多条第一日志数据和来自第二节点的多条第二节点日志数，所述日志类别矩阵包括类别维度；其中，所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵，包括：确定各条第一日志数据对应的日志类别，并根据各条第一日志数据对应的日志类别生成第一日志类别序列；确定各条第二日志数据对应的日志类别，并根据各条第二日志数据对应的日志类别生成第二日志类别序列；按照所述类别维度对所述第一日志类别序列和所述第二日志类别进行拼接处理，以生成所述目标节点的日志类别矩阵。

在一些实施例中，对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别，包括：确定所述多条日志数据中出现次数大于目标次数阈值的高频词和出现次数小于或者等于所述目标次数阈值的非高频词；保持所述多条日志数据中的高频词不变并对所述非高频词进行占位处理，以获得多条日志主干；根据所述多条日志主干对所述多条日志数据进行聚类处理，以确定多个日志聚类；确定各个日志聚类中的日志数据的日志类别。

在一些实施例中，保持所述多条日志数据中的高频词不变并对所述非高频词进行占位处理，以获得多条日志主干，包括：将所述多条日志数据中与所述高频词同时出现的概率大于预设概率阈值的非高频词作为高频关联词；将所述高频关联词从所述非高频词中剔除；保持所述多条日志数据中的高频词和所述高频关联词不变，并对所述非高频词进行占位处理，以获得多条日志主干。

在一些实施例中，所述多条日志数据包括第一时间段采集的多条第三日志数据和第二时间段采集的多条第四日志数据，所述日志类别矩阵包括时间维度；其中，所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵，包括：确定各条第三日志数据对应的日志类别，并根据各条第三日志数据对应的日志类别生成第三日志类别序列；确定各条第四日志数据对应的日志类别，并根据各条第四日志数据对应的日志类别生成第四日志类别序列；按照所述时间维度对所述第三日志类别序列和所述第四日志类别序列进行拼接处理，以生成所述目标节点的日志类别矩阵。

在一些实施例中，通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量，包括：对所述日志类别矩阵进行卷积处理，以获得日志类别卷积特征矩阵；对所述日志类别卷积特征矩阵进行池化处理，以获得所述日志类别向量。

在一些实施例中，所述预测异常类型包括多个预测异常类型；其中，所述方法还包括：获取所述目标节点的多个异常类型标签；根据所述多个预测异常类型和所述多个异常类型标签确定各个预测异常类型对应的损失函数值；根据各个预测异常类型的值对所述损失函数值进行归一化处理，以获得归一化损失函数值；通过所述归一化损失函数值对所述异常检测模型进行训练。

本公开实施例提供了一种集群异常检测装置，包括：日志数据获取模块、日志类别确定模块、日志类别矩阵确定模块、日志类别向量生成模块、性能指标向量获取模块、节点特征向量确定模块以及预测模块。

其中，所述日志数据获取模块用于从所述集群中的目标节点获取多条日志数据和多个性能指标；所述日志类别确定模块用于对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别；所述日志类别矩阵确定模块用于所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵；所述日志类别向量生成模块用于通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量；所述性能指标向量获取模块用于通过所述异常检测模型对所述多个性能指标进行特征提取，以获得性能指标向量；所述节点特征向量确定模块用于通过所述异常检测模型将所述日志类别向量和所述性能指标向量进行向量融合，以获得所述目标节点的节点特征向量；所述预测模块用于通过所述异常检测模型对所述节点特征向量进行分类处理，以确定所述集群中的目标节点的预测异常类型。

本公开实施例提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项所述的集群异常检测方法。

本公开实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述任一项所述的集群异常检测方法。

本公开实施例提出一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述集群异常检测方法。

本公开实施例提供的异常检测方法、装置及电子设备和计算机可读存储介质，一方面通过目标节点的日志数据和性能数据，简单、便捷地完成了对集群中目标节点的异常检测；另一方面，通过异常检测模型对目标节点的各条日志数据、各条性能指标进行特征提取和分类，高效、准确地确定了集群中目标节点的异常类型；另外，在对目标节点进行特征提取之前，还通过聚类处理对各条日志类数据进行了类别分类，然后对再通过异常检测模型对各条日之类数据的类别进行特征提取，该方法通过减少了特征提取的数据量，便于对大量的日志数据进行处理，提高了数据的处理效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了应用于本公开实施例的集群异常检测方法或集群异常检测装置的示例性系统架构的示意图。

图2是本公开示例性实施例中集群异常检测方法的流程图。

图3是根据一示例性实施例示出的一种数据向量化方法的示意图。

图4是根据一示例性实施例示出的一种日志类别矩阵确定方法的流程图。

图5是根据一示例性实施例示出的一种日志类别确定方法的流程图。

图6是根据一示例性实施例示出的一种日志类别矩阵确定方法的流程图。

图7是根据一示例性实施例示出的一种异常检测模型的网络结构示意图。

图8根据一示例性实施例示出的一种集群异常检测装置的框图。

图9示出了适于用来实现本公开实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本说明书中，用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在一个或多个要素/组成部分/等；用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”、“第二”和“第三”等仅作为标记使用，不是对其对象的数量限制。

下面结合附图对本公开示例实施方式进行详细说明。

图1示出了可以应用于本公开实施例的集群异常检测方法或集群异常检测装置的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。其中，终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等，本公开对此不做限制。服务器105可例如从所述集群中的目标节点获取多条日志数据和多个性能指标；服务器105可例如对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别；服务器105可例如所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵；服务器105可例如通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量；服务器105可例如通过所述异常检测模型对所述多个性能指标进行特征提取，以获得性能指标向量；服务器105可例如通过所述异常检测模型将所述日志类别向量和所述性能指标向量进行向量融合，以获得所述目标节点的节点特征向量；服务器105可例如通过所述异常检测模型对所述节点特征向量进行分类处理，以确定所述集群中的目标节点的预测异常类型。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，服务器105可以是一个实体的服务器，还可以为多个服务器组成，根据实际需要，可以具有任意数目的终端设备、网络和服务器。

图2是根据一示例性实施例示出的一种集群异常检测方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备来执行，例如该方法可以由上述图1实施例中的服务器或终端设备来执行，也可以由服务器和终端设备共同执行，在下面的实施例中，以服务器为执行主体为例进行举例说明，但本公开并不限定于此。

其中，集群(cluster)就是一组计算机，它们作为一个整体向用户提供一组网络资源，这些单个的计算机就是集群的节点(node)。

本公开将以Ceph集群(一种统一的分布式存储系统)为例进行解释说明，但本公开对此不做限制。

可以理解的是，集群异常检测包括对集群中节点的异常检测。

参照图2，本公开实施例提供的集群异常检测方法可以包括以下步骤。

步骤S202，从所述集群中的目标节点获取多条日志数据和多个性能指标。

其中，目标节点可以是集群中的任意计算机等物理节点，也可以是OSD(ObjectStorage Device)节点或者MON(Monitor，监测)节点等功能节点，本公开对此不做限制。

本公开将以目标节点为OSD节点为例进行说明，但本公开对此不做限制。

其中，OSD节点可以是集群的对象存储和搜索进程，它可以负责在本地文件系统上存储对象，并通过网络提供对这些对象的访问。

MON节点可以是集群状态的管理者，维护整个集群的状态。

多个性能指标可以包括但不限于CPU(Central Processing Unit，中央处理器)利用率、内存利用率、交换内存利用率、磁盘IO((Input/Output)，输入/输出)读写速度、数据包收发量等与节点性能相关的指标。

在一些实施例中，集群中的目标节点可以是一个，也可以是多个，本公开对此不做限制。

可以理解的是，目标节点可以实时的产出日志数据。本公开获取的多条日志数据可以包括同一时刻从多个目标节点获得的日志数据，也可以包括从同一节点获得的不同时刻的日志数据，本公开对此不做限制。

可以理解的是，本公开获取的多个性能指标可以包括同一时刻从多个目标节点获得的多个性能指标，也可以包括从同一节点获得的不同时刻的多个性能指标，本公开对此不做限制。

步骤S204，对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别。

在一些实施例中，可以按照日志形式、日志内容等对日志进行聚类处理，以将日志分为多个聚类，然后对每个聚类中的日志对应赋予相同的日志类别。

步骤S206，所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵。

在一些实施例中，可以按照某一方向将同一目标节点的日志数据的日志类别序列进行排列，例如按行将该同一节点的日志数据的日志类别序列进行排列。

在一些实施例中，可以按照另一方向将各条日志的日志类别序列进行排列。例如，将不同目标节点的日志类别序列按列排列。

本公开对日志类别矩阵的生成方法不做限制，本领域技术人员可以根据需求自行调整。

步骤S208，通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量。

在一些实施例中，从目标节点提取的日志类序列是不连续的one-hot(一位有效编码)数据，我们还需要使用词嵌入(Embedding)的方法将其转变为连续的向量。例如可以使用Item2Vec(一种词袋模型)模型可以有效地提取出每个日志类的向量。如图3所示，可以首先给每种日志类一个随机的N(N为大于或者等于1的整数，例如为50)维向量，在序列上开一个长度为M(M为大于或者等于1的整数，例如为10)的窗口，窗口内的类之间取正例，拉近他们的向量的距离，随机取一些窗口外的类作为负例，让他们的向量的距离变远。从而将每一种日志类转变为向量。这些向量之间的距离反映出各个类之间的时序信息。设最长的序列段为Lmax，那么每个目标OSD上的时序段是一个(50,Lmax的矩阵,将n个OSD的数据沿着第一维(例如行维度)拼接形成(50×n,Lmax)的矩阵，n为大于或者等于1的整数。利用长为3和5的一维卷积核对日志矩阵沿第二维方向卷积，再用max Pooling将日志矩阵转化成两个长为50×n的一维向量，以获得日志类别向量。

在一些实施例中，异常检测模型可以是任意一种可以进行特征提取、分类的网络模型，例如是一种卷积神经网络CNN，还例如是一种循环神经网络RNN等，本公开对此不做限制。

通过异常检测模型对日志类别矩阵进行特征提取可以包括：对所述日志类别矩阵进行卷积处理，以获得日志类别卷积特征矩阵；对所述日志类别卷积特征矩阵进行池化处理，以获得所述日志类别向量。

步骤S210，通过所述异常检测模型对所述多个性能指标进行特征提取，以获得性能指标向量。

性能指标的特征提取过程与日志类别矩阵的特征提取过程类似，本公开对此不做限制。

步骤S212，通过所述异常检测模型将所述日志类别向量和所述性能指标向量进行向量融合，以获得所述目标节点的节点特征向量。

在一些实施例中，可以按照在日志类别所在维度完成日志类别向量与性能指标向量的融合，例如可以在行维度上完成日志类别向量与性能指标向量的融合，本公开对此上述融合方式不做限制。

可以理解的是，可以在特征提取后进行向量融合，也可以在特征提取前进行信息融合，以进行日志类别信息与性能指标信息的融合。

步骤S214，通过所述异常检测模型对所述节点特征向量进行分类处理，以确定所述集群中的目标节点的预测异常类型。

在一些实施例中，预测异常类别可以包括一个也可以包括多个，本公开对此不做限制。例如，预测异常类别可以包括断网异常、CPU满异常、内存满异常等，本公开对此不做限制。

在一些实施例中，通过异常检测模型对节点特征向量进行分类处理后可以获得各个预测异常类别出现的概率，例如90％的断网异常、9％的CPU满异常以及1％的内存满异常。

可以理解的是，只有当某个预测异常类别出现的概率大于某个阈值(例如60％)，才可以认为该目标节点出现异常，进而判断集群出现异常。

一般来说，当判断目标节点出现异常后，可以根据该异常出现时对应的日志数据对该目标节点的异常位置进行定位，以便进行维修处理等，本公开对此不做限制。

本公开实施例提高的技术方案，一方面通过目标节点的日志数据和性能数据，简单、便捷地完成了对集群中目标节点的异常检测；另一方面，通过异常检测模型对目标节点的各条日志数据、各条性能指标进行特征提取和分类，高效、准确地确定了集群中目标节点的异常类型；另外，在对目标节点进行特征提取之前，还通过聚类处理对各条日志类数据进行了类别分类，然后对再通过异常检测模型对各条日之类数据的类别进行特征提取，该方法通过减少了特征提取的数据量，便于对大量的日志数据进行处理，提高了数据的处理效率。

在一些实施例中，目标节点可以包括第一节点和第二节点，多条日志数据包括来自第一节点的多条第一日志数据和来自第二节点的多条第二节点日志数，所述日志类别矩阵包括类别维度。

其中类别维度可以指的是单个节点的各条日志数据的日志类别排列的维度，例如若各个节点的各条日志数据的日志类别按列排列，那么类别为维度就可以是列维度。

参考图4，上述日志类别矩阵确定方法可以包括以下步骤。

步骤S402，确定各条第一日志数据对应的日志类别，并根据各条第一日志数据对应的日志类别生成第一日志类别序列。

在一些实施例中，可以通过对目标节点的所有日志数据的聚类处理，以确定各条第一日志数据对应的第一日志类别，以生成第一日志类别序列。

步骤S404，确定各条第二日志数据对应的日志类别，并根据各条第二日志数据对应的日志类别生成第二日志类别序列。

在一些实施例中，可以通过对目标节点的所有日志数据的聚类处理，以确定各条第二日志数据对应的第二日志类别，以生成第二日志类别序列。

步骤S406，按照所述类别维度对所述第一日志类别序列和所述第二日志类别进行拼接处理，以生成所述目标节点的日志类别矩阵。

在一些实施例中，可以按照类别维度对第一日志类别序列和第二日志类别序列进行拼接处理，以生成该日志类别矩阵。

图5是根据一示例性实施例示出的一种日志类别矩阵确定方法的流程图。

在一些实施例中，多条日志数据可以包括第一时间段采集的多条第三日志数据和第二时间段采集的多条第四日志数据，日志类别矩阵可以包括时间维度。

参考图5，上述日志类别矩阵确定方法可以包括以下步骤。

步骤S502，确定各条第三日志数据对应的日志类别，并根据各条第三日志数据对应的日志类别生成第三日志类别序列。

步骤S504，确定各条第四日志数据对应的日志类别，并根据各条第四日志数据对应的日志类别生成第四日志类别序列。

步骤S506，按照所述时间维度对所述第三日志类别序列和所述第四日志类别序列进行拼接处理，以生成所述目标节点的日志类别矩阵。

其中时间维度可以指的是单个节的多条日志数据的日志类别按照时间排列的维度，例如若各个节点的不同时间的日志数据的日志类别按行排列，那么该时间维度就可以是行维度。

上述实施例提高的日志类别矩阵确定方法可以将不同节点的日志数据的日志类别融合，或者将不同时间的日志数据的日志类别融合。本实施例提供的技术方案，通过对日志数据的日志类别进行特征提取不仅能够准确的预测目标节点的异常类型，相比于对日志数据本身进行特征提取该极大的降低了特征提取数据量，节约了计算资源。

图6是根据一示例性实施例示出的一种日志类别确定方法的流程图。

参考图6，上述日志类别确定方法可以包括以下步骤。

步骤S602，确定所述多条日志数据中出现次数大于目标次数阈值的高频词和出现次数小于或者等于所述目标次数阈值的非高频词。

在一些实施例中，可以在目标节点所有日志数据中进行词频统计，以确定各个词在所有日志数据中的出现频率，当一个词在目标节点所有日志数据中出现的频率高于目标次数阈值(可以根据需要进行人为设定)，可以将该词作为高频词；当一个词在该目标节点的所有日志数据中出现的频率小于或者等于该目标次数阈值时，可以将该词作为非高频词。

步骤S604，保持所述多条日志数据中的高频词不变并对所述非高频词进行占位处理，以获得多条日志主干。

在一些实施例中，可以对各条日志数据中的高频词保持不变，然后对各条日志数据中的非高频词进行占位处理，以获得各条日志数据对应的日志主干，例如可以使用计数器对非高频词进行占位处理。例如，若在日志数据中的某一个位置处出现之时一个非高频词，则可以在该位置处放置一个计数器，并通过该计数器展示该为位置处非高频词出现的最低和最高次数。

例如，若目标节点的日志数据包括以下三条日志数据。

第一条日志数据：log_channel(cluster)log[DBG]:osdmap e7729:12total,12up,11in。

第二条日志数据：log_channel(cluster)log[INF]:mon.03calling monitorelection。

第三条日志数据：log_channel(cluster)log[WRN]:Health check update:1/5mons down。

那么上述三条日志数据的日志主干可以为：

第一条日志主干：log_channel(cluster)log(高频词或者日志键)*{1，6}(计数器)。

第二条日志主干：log_channel(cluster)log(高频词或者日志键)*{1，8}(计数器)。

第三条日志主干：log_channel(cluster)log(高频词或者日志键)*{4，8}(计数器)。

需要注意的是，上述实施例中的计数器的数值为随意设定，与实际可能并不相符。

在另外一些实施例中，还可以通过以下方法生成各条日志数据的主干。

将所述多条日志数据中与所述高频词同时出现的概率大于预设概率阈值的非高频词作为高频关联词；将所述高频关联词从所述非高频词中剔除；保持所述多条日志数据中的高频词和所述高频关联词不变，并对所述非高频词进行占位处理，以获得多条日志主干。

例如，假设在目标日志节点的多条日志数据中，[DBG]、[INF]以及[WRN]均多次与高频词log_channel(cluster)log同时出现，那么可以将[DBG]、[INF]以及[WRN]作为高频词log_channel(cluster)log的高频关联词，那么可以将[DBG]、[INF]以及[WRN]从非高频词中剔除，然后在生成日志主干时保持高频词和高频关联词不变，仅对非高频词进行占位处理。

通过上述方法，上述三条日志数据可以生成以下日志主干。

第一条日志主干：log_channel(cluster)log(高频词或者日志键)*[DBG]*{1，6}(计数器)。

第二条日志主干：log_channel(cluster)log(高频词或者日志键)*[INF]*{1，8}(计数器)。

第三条日志主干：log_channel(cluster)log(高频词或者日志键)*[WRN]*{4，8}(计数器)。

另外，经观察发现，上述三条日志主干的日志形式、高频词大致相同，因此可以对上述三条日志主干进行合并，形成：

log_channel(cluster)log(高频词或者日志键)*[DBG][INF][WRN]*{1，6}(计数器)。

步骤S606，根据所述多条日志主干对所述多条日志数据进行聚类处理，以确定多个日志聚类。

在一些实施例中，可以将日志主干相同(包括但不限于高频词(和高频关联词)的内容、位置等相同)的日志数据进行聚类，但本公开对此日志聚类方式不做限制。

步骤S608，确定各个日志聚类中的数据的日志类别。

在一些实施例中，可以使用各个聚类的类别表示作为该聚类结果中各条日志数据的日志类别，本公开对各个日志聚类中的日志类别确定方式不做限制。

在一些实施例中，图2、图4、图5以及图6提供的技术方案可以在异常检测模型训练过程中使用，也可以在集群异常检测过程中使用，本公开对此不做限制。

若在集群异常检测模型训练过程中使用本公开提供的技术方案，则可以使用以下方法进行损失函数的确定。

可以理解的是，集群异常出现的情况相对较少，如果使用实测数据对集群异常检测模型进行训练，会由于集群异常对应的负样本数量过少导致训练结果不准确，进而使得预测异常类型的确定的准确率低。

因此，本公开提出了以下方法确定异常检测模型的损失函数，具体可以结合公式(1)进行解释。

获取所述目标节点的多个异常类型标签

根据所述多个预测异常类型y^(ij)和所述多个异常类型标签

确定各个预测异常类型对应的损失函数值

根据公式(1)对所述损失函数值进行归一化处理，以获得归一化损失函数值；通过所述归一化损失函数值对所述异常检测模型进行训练。

综合以上实施例，本公开还提供了以下技术方案，以实现集群异常检测。

1.根据运维人员的经验，人工标注Ceph集群的异常类型。

2.选取Ceph集群中的多个OSD或者MON的日志数据，利用我们提出的日志特征提取算法对非结构化的日志数据进行聚类。再根据聚类结果将日志数据表示为类的序列。

3.利用Item2Vec模型，将日志类的序列从不连续的one-hot数据转化为连续的向量。并按照日志的序列将这些拼接成矩阵，再将从不同OSD或是MON上提取的矩阵沿第一个方向拼接在一起。

4.使用卷积神经网络(CNN)提取日志矩阵中的上下文信息，再用max Pooling(最大值池化)将矩阵转化为一维向量。

5.将日志数据提取的向量与性能指标组成的向量拼接。

6.再通过多层以ReLU(一种激活函数)为激活函数的全连接层和pooling层(池化层)，最后通过以Softmax(一种分类器)为激活函数的全连接层。

日志数据是一种文本数据，但是与自然语言文本数据不同，日志的格式较为随意，并不严格的遵循语法。日志数据总是以某种特定的格式书写(如时间戳，事件，变量)，其结构单一，且反复出现。因此便于使用统计的方法对其进行分析。

我们提出的日志特征提取算法是一种对日志进行非监督的聚类算法。首先统计日志中每一个词的词频，人为设置一个频率阈值，当一个词出现的频率高于阈值时，认为其是一个高频词；当词频低于阈值时，认为是一个低频词。将高频词作为日志的主干；再对高频词进行一定的合并，当有的词(例如key_n)与主干中其他词(例如key_n-1...key₂key₁)同时出现的概率大于一定的阈值时，即

p(key_n|key_n-1...key₂key₁)>shield (2)

需将其作为高频关联词；算法用计数器描述低频词，计数器记录低频词出现的最低和最高次数。根据每条日志的主干对日志进行聚类，相同主干的日志归为一类。

我们可以利用上述算法对多个OSD的日志进行聚类，将日志用其所属类的id编号表示，从而形成日志类序列。

在一些实施例钟，可以以5分钟为粒度将时间划分成时间段，在每个时间段内按照日志的时间戳将日志类序列截断成长短不一的序列段，同时提取每一个时间段内的性能指标(包括CPU利用率、内存利用率、交换内存利用率、磁盘IO读写、数据包收发等)。我们将每个时间段的日志类序列和性能指标作为输入数据。让有经验的运维人员标注出每个时间段集群是否出现异常，以及出现异常的类型，来作为输入数据的标签。

我们设计的深度学习模型的整体框架如图7所示，从OSD提取的日志类序列是不连续的one-hot数据，我们还需要使用词嵌入(Embedding)的方法将其转变为连续的向量。

此时，将从日志中提取的向量跟多个OSD上的归一化后的指标向量拼接作为最后全连接层的输入，此向量涵盖了日志数据和指标数据的信息。

通过两层以Leaky ReLU(一种激活函数)为激活函数的全连接层，最后通过以Softmax(一种分类器)为激活函数的全连接层，输出结果与人为标记的标签取交叉熵loss。因为Ceph数据中出现异常的概率较低，所以会出现数据倾斜的现象，这里我们使用归一化的交叉熵作为loss(如公式(1)所示)，统计每一个时间段内每种标签的个数，并对交叉熵做归一化。

图8根据一示例性实施例示出的一种集群异常检测装置的框图。参照图8，本公开实施例提供的集群异常检测装置800可以包括：日志数据获取模块801、日志类别确定模块802、日志类别矩阵确定模块803、日志类别向量生成模块804、性能指标向量获取模块805、节点特征向量确定模块806以及预测模块807。

其中，所述日志数据获取模块801可以用于从所述集群中的目标节点获取多条日志数据和多个性能指标；所述日志类别确定模块802可以用于对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别；所述日志类别矩阵确定模块803可以用于所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵；所述日志类别向量生成模块804可以用于通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量；所述性能指标向量获取模块805可以用于通过所述异常检测模型对所述多个性能指标进行特征提取，以获得性能指标向量；所述节点特征向量确定模块806可以用于通过所述异常检测模型将所述日志类别向量和所述性能指标向量进行向量融合，以获得所述目标节点的节点特征向量；所述预测模块807可以用于通过所述异常检测模型对所述节点特征向量进行分类处理，以确定所述集群中的目标节点的预测异常类型。

在一些实施例中，所述目标节点包括第一节点和第二节点，所述多条日志数据包括来自第一节点的多条第一日志数据和来自第二节点的多条第二节点日志数，所述日志类别矩阵包括类别维度；其中，所述日志类别矩阵确定模块803可以包括：第一日志类别序列生成单元、第二日志类别序列生成单元以及第一拼接单元。

其中，所述第一日志类别序列生成单元可以用于确定各条第一日志数据对应的日志类别，并根据各条第一日志数据对应的日志类别生成第一日志类别序列；所述第二日志类别序列生成单元可以用于确定各条第二日志数据对应的日志类别，并根据各条第二日志数据对应的日志类别生成第二日志类别序列；第一拼接单元可以用于按照所述类别维度对所述第一日志类别序列和所述第二日志类别进行拼接处理，以生成所述目标节点的日志类别矩阵。

在一些实施例中，所述日志类别确定模块802可以包括：高频词确定单元、日志主干确定单元、日志聚类单元以及日志类别确定单元。

其中，高频词确定单元可以用于确定所述多条日志数据中出现次数大于目标次数阈值的高频词出现次数小于或者等于所述目标次数阈值的非高频词；日志主干确定单元可以用于保持所述多条日志数据中的高频词不变并对所述非高频词进行占位处理，以获得多条日志主干；日志聚类单元可以用于根据所述多条日志主干对所述多条日志数据进行聚类处理，以确定多个日志聚类；日志类别确定单元可以用于确定各个日志聚类中的日志数据的日志类别。

在一些实施例中，日志主干确定单元可以包括：高频关联词确定子单元、剔除子单元以及占位子单元。

其中，高频关联词确定子单元可以用于将所述多条日志数据中与所述高频词同时出现的概率大于预设概率阈值的非高频词作为高频关联词；

剔除子单元可以用于将所述高频关联词从所述非高频词中剔除；占位子单元可以用于保持所述多条日志数据中的高频词和所述高频关联词不变，并对所述非高频词进行占位处理，以获得多条日志主干。

在一些实施例中，所述多条日志数据包括第一时间段采集的多条第三日志数据和第二时间段采集的多条第四日志数据，所述日志类别矩阵包括时间维度；其中，所述日志类别矩阵确定模块803可以包括：第三日志类别序列确定单元、第四日志类别序列确定单元以及。

其中，第三日志类别序列确定单元可以用于确定各条第三日志数据对应的日志类别，并根据各条第三日志数据对应的日志类别生成第三日志类别序列；第四日志类别序列确定单元可以用于确定各条第四日志数据对应的日志类别，并根据各条第四日志数据对应的日志类别生成第四日志类别序列；第二拼接单元可以用于按照所述时间维度对所述第三日志类别序列和所述第四日志类别序列进行拼接处理，以生成所述目标节点的日志类别矩阵。

在一些实施例中，所述日志类别向量生成模块804可以包括：卷积单元和池化单元。

其中，卷积单元可以用于对所述日志类别矩阵进行卷积处理，以获得日志类别卷积特征矩阵；池化单元可以用于对所述日志类别卷积特征矩阵进行池化处理，以获得所述日志类别向量。

在一些实施例中，所述预测异常类型包括多个预测异常类型；其中，集群异常检测装置800还包括：标签获取模块、损失函数值获取模块、归一化模块和训练模块。

其中，标签获取模块可以用于获取所述目标节点的多个异常类型标签；损失函数值获取模块可以用于根据所述多个预测异常类型和所述多个异常类型标签确定各个预测异常类型对应的损失函数值；归一化模块可以用于根据各个预测异常类型的值对所述损失函数值进行归一化处理，以获得归一化损失函数值；训练模块可以用于通过所述归一化损失函数值对所述异常检测模型进行训练。

由于装置800的各功能已在其对应的方法实施例中予以详细说明，本公开于此不再赘述。

描述于本申请实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中，这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

图9示出了适于用来实现本公开实施例的终端设备或服务器的电子设备的结构示意图。需要说明的是，图9示出的电子设备900仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从储存部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的储存部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入储存部分908。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备可实现功能包括：从所述集群中的目标节点获取多条日志数据和多个性能指标；对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别；所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵；通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量；通过所述异常检测模型对所述多个性能指标进行特征提取，以获得性能指标向量；通过所述异常检测模型将所述日志类别向量和所述性能指标向量进行向量融合，以获得所述目标节点的节点特征向量；通过所述异常检测模型对所述节点特征向量进行分类处理，以确定所述集群中的目标节点的预测异常类型。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法，例如图2的一个或多个所示的步骤。

本领域技术人员在考虑说明书及实践在这里公开的公开后，将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不限于这里已经示出的详细结构、附图方式或实现方法，相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种集群异常检测方法，其特征在于，其中所述方法包括：

从所述集群中的目标节点获取多条日志数据和多个性能指标；

对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别；

所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵；

通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量；

通过所述异常检测模型对所述多个性能指标进行特征提取，以获得性能指标向量；

通过所述异常检测模型将所述日志类别向量和所述性能指标向量进行向量融合，以获得所述目标节点的节点特征向量；

通过所述异常检测模型对所述节点特征向量进行分类处理，以确定所述集群中的目标节点的预测异常类型。

2.根据权利要求1所述方法，其特征在于，所述目标节点包括第一节点和第二节点，所述多条日志数据包括来自第一节点的多条第一日志数据和来自第二节点的多条第二节点日志数，所述日志类别矩阵包括类别维度；其中，所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵，包括：

确定各条第一日志数据对应的日志类别，并根据各条第一日志数据对应的日志类别生成第一日志类别序列；

确定各条第二日志数据对应的日志类别，并根据各条第二日志数据对应的日志类别生成第二日志类别序列；

按照所述类别维度对所述第一日志类别序列和所述第二日志类别进行拼接处理，以生成所述目标节点的日志类别矩阵。

3.根据权利要求1或2所述方法，其特征在于，对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别，包括：

确定所述多条日志数据中出现次数大于目标次数阈值的高频词和现次数小于或者等于所述目标次数阈值的非高频词；

保持所述多条日志数据中的高频词不变并对所述非高频词进行占位处理，以获得多条日志主干；

根据所述多条日志主干对所述多条日志数据进行聚类处理，以确定多个日志聚类；

确定各个日志聚类中的日志数据的日志类别。

4.根据权利要求3所述方法，其特征在于，保持所述多条日志数据中的高频词不变并对所述非高频词进行占位处理，以获得多条日志主干，包括：

将所述多条日志数据中与所述高频词同时出现的概率大于预设概率阈值的非高频词作为高频关联词；

将所述高频关联词从所述非高频词中剔除；

保持所述多条日志数据中的高频词和所述高频关联词不变，并对所述非高频词进行占位处理，以获得多条日志主干。

5.根据权利要求1所述方法，其特征在于，所述多条日志数据包括第一时间段采集的多条第三日志数据和第二时间段采集的多条第四日志数据，所述日志类别矩阵包括时间维度；其中，所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵，包括：

确定各条第三日志数据对应的日志类别，并根据各条第三日志数据对应的日志类别生成第三日志类别序列；

确定各条第四日志数据对应的日志类别，并根据各条第四日志数据对应的日志类别生成第四日志类别序列；

按照所述时间维度对所述第三日志类别序列和所述第四日志类别序列进行拼接处理，以生成所述目标节点的日志类别矩阵。

6.根据权利要求5所述方法，其特征在于，通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量，包括：

对所述日志类别矩阵进行卷积处理，以获得日志类别卷积特征矩阵；

对所述日志类别卷积特征矩阵进行池化处理，以获得所述日志类别向量。

7.根据权利要求1所述方法，其特征在于，所述预测异常类型包括多个预测异常类型；其中，所述方法还包括：

获取所述目标节点的多个异常类型标签；

根据所述多个预测异常类型和所述多个异常类型标签确定各个预测异常类型对应的损失函数值；

根据各个预测异常类型的值对所述损失函数值进行归一化处理，以获得归一化损失函数值；

通过所述归一化损失函数值对所述异常检测模型进行训练。

8.一种集群异常检测装置，其特征在于，包括：

日志数据获取模块，用于从所述集群中的目标节点获取多条日志数据和多个性能指标；

日志类别确定模块，用于对所述多条日志数据进行聚类处理，以确定各条日志数据的日志类别；

日志类别矩阵确定模块，用于所述异常检测模型根据各条日志数据的日志类别生成所述目标节点的日志类别矩阵；

日志类别向量生成模块，用于通过所述异常检测模型对所述日志类别矩阵进行特征提取，以获得日志类别向量；

性能指标向量获取模块，用于通过所述异常检测模型对所述多个性能指标进行特征提取，以获得性能指标向量；

节点特征向量确定模块，用于通过所述异常检测模型将所述日志类别向量和所述性能指标向量进行向量融合，以获得所述目标节点的节点特征向量；

预测模块，用于通过所述异常检测模型对所述节点特征向量进行分类处理，以确定所述集群中的目标节点的预测异常类型。

9.一种电子设备，其特征在于，包括：

存储器；以及

耦合到所述存储器的处理器，所述处理器被用于基于存储在所述存储器中的指令，执行如权利要求1-7任一项所述的集群异常检测方法。

10.一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如权利要求1-7任一项所述的集群异常检测方法。