CN116910592A

CN116910592A - 日志检测方法、装置、电子设备及存储介质

Info

Publication number: CN116910592A
Application number: CN202311177788.9A
Authority: CN
Inventors: 张威
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-10-20
Anticipated expiration: 2043-09-13
Also published as: CN116910592B

Abstract

本公开提出了一种日志检测方法、装置、电子设备及存储介质。所述的方法包括：利用NaN算法对第一目标日志数据集进行第一聚类，确定第一目标日志数据集的自然特征值，及第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；确定每个日志样本的自然邻居距离为每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定自然特征值作为HDBSCAN算法的最小簇的值，利用HDBSCAN算法对第一目标日志数据集进行第二聚类，获取第一目标日志数据集中的至少一个聚类；基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，确定与待检测日志距离最短的质心对应的日志样本的类别为待检测日志的类别。

Description

日志检测方法、装置、电子设备及存储介质

技术领域

本公开涉及机器学习技术领域，尤其涉及一种日志检测方法、装置、电子设备及存储介质。

背景技术

日志记录着计算机系统的运行状态信息和关键行为，因此当计算机系统出现问题时，对应的异常日志文件可以帮助技术人员快速定位故障位置和原因。日志检测旨在通过信息化的方法分析日志数据，快速找出异常的日志，从而实现对系统的异常检测。但随着互联网技术的快速发展，日志规模呈现指数级的增长，传统日志检测方法已不在适用。

发明内容

本公开提供一种日志检测方法、装置、电子设备及存储介质，以解决相关技术中的问题。

本公开的第一方面实施例提出了一种日志检测方法，该方法包括：

利用自然邻居NaN算法对第一目标日志数据集进行第一聚类，确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；

确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类；

基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别。

在本公开的一些实施例中，所述确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类，包括：

确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离；

基于所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述第一目标日志数据集中任意两个日志样本之间的相互可达距离；

基于所述任意两个日志样本之间的相互可达距离，将所述自然特征值作为HDBSCAN算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类。

在本公开的一些实施例中，所述基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别，包括：

基于所述第一目标日志数据集中的至少一个聚类中每个聚类包含的所有日志样本，确定所述至少一个聚类中每个聚类的质心；

基于所述至少一个聚类中每个聚类的质心与其包含的每个日志样本之间的距离，确定与所述质心距离最小的日志样本为所述至少一个聚类中每个聚类的中心；

所述基于待检测日志与所述至少一个聚类中每个聚类的中心之间的距离，确定与所述待检测日志距离最短的中心对应的日志样本的类别为所述待检测日志的类别。

在本公开的一些实施例中，所述的日志检测方法还包括：

获取第二目标日志数据集；

向量化处理所述第二目标日志数据集中的每个日志样本，获取所述第一目标日志数据集。

在本公开的一些实施例中，所述向量化处理所述第二目标日志数据集中的每个日志样本，获取所述第一目标日志数据集，包括：

向量化处理所述第二目标日志数据集中的每个日志样本，获取所述第二目标日志数据集中每个日志样本对应的向量化日志样本；

对所述第二目标日志数据集中每个所述向量化日志样本进行降维处理，获取所述第一目标日志数据集。

在本公开的一些实施例中，所述向量化处理所述第二目标日志数据集中的每个日志样本，包括：

基于目标单词所在的目标日志样本中所有单词的个数，及所述目标单词在所述目标日志样本中出现的次数，确定所述目标日志样本中目标单词的词频TF；

基于所述第二目标日志数据集中的日志样本的个数，及所述目标单词在所述第二目标日志数据集中所有日志样本中出现的次数，确定所述目标日志样本中目标单词的逆文本频率IDF；

基于所述目标日志样本中目标单词的TF，及所述目标日志样本中目标单词的IDF，及目标单词所在的目标日志样本中所有单词的个数，获取所述目标日志样本中目标单词的向量化处理结果；

遍历所述目标日志样本中的每个单词，将所述目标日志样本中的每个单词作为目标单词，获取所述目标日志样本的向量化处理结果；

遍历所述第二目标日志数据集中的每个日志样本，将所述第二目标日志数据集中的每个日志样本作为目标日志样本，获取所述第二目标日志数据集中的每个日志样本的向量化处理结果。

在本公开的一些实施例中，所述的日志检测方法还包括：

获取第三目标日志数据集；

将所述第三目标日志数据集中的每个日志样本转化为结构化日志样本，获取所述第二目标日志数据集。

本公开的第二方面实施例提出了一种日志检测装置，该装置包括：

第一确定单元，用于利用自然邻居NaN算法对第一目标日志数据集进行第一聚类，确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；

获取单元，用于确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类；

第二确定单元，用于基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别。

本公开的第三方面实施例提出了一种电子设备，包括：

至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开第一方面实施例中描述的方法。

本公开的第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开第一方面实施例中描述的方法。

综上，本公开提出了一种日志检测方法、装置、电子设备及存储介质。其中，所述的方法包括：利用自然邻居（Natural Neighbor，简称NaN）算法对第一目标日志数据集进行第一聚类，确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述自然特征值作为分层密度噪声应用空间聚类（Hierarchical Density-Based Spatial Clustering of Applications with Noise，简称HDBSCAN）算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类；基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别。

根据本公开提供的方案，通过NaN算法对所述第一目标日志数据集进行第一聚类，确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；然后利用所述自然特征值作为HDBSCAN算法中的最小簇的值，利用所述自然邻居距离作为HDBSCAN算法中的核心距离，使得所述第一目标日志数据集能够通过HDBSCAN算法自适应完成第二聚类，并基于HDBSCAN算法的聚类结果确定所述待检测日志的分类；日志检测过程中无需人为设置HDBSCAN算法的相关参数，降低了日志检测过程中对人工知识经验的依赖，提高了日志检测的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为本公开实施例提供的日志检测方法的流程示意图；

图2为本公开实施例提供的获取所述第一目标日志数据集中的至少一个聚类的方法的流程示意图；

图3为本公开实施例提供的确定所述待检测日志的类别的方法的流程示意图；

图4为本公开实施例提供的向量化处理所述第二目标日志数据集中的每个日志样本的方法的流程示意图；

图5为本公开应用示例提供的日志检测方法的流程示意图；

图6为本公开实施例提供的日志检测装置的结构示意图；

图7为本公开实施例提供的电子设备的硬件组成结构示意图。

具体实施方式

下面详细描述本公开的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面简单介绍相关技术中日志检测方法的几种方案：

方案A：方案A首先采用词频-逆文档频率（Term Frequency–Inverse DocumentFrequency，简称TF-IDF）算法对待检测的日志事件数据进行向量化处理，其次对给定的输入日志聚类和自动进行概率标签的标注，最后根据概率标签训练出一个GRU网络模型，采用该模型进行日志异常检测。

方案B：方案B首先对获取的实时集群日志进行聚类分析，生成对应的标签树。其次，将所述标签树与日志模板库进行匹配，确定与所述标签树匹配的日志模板以及对应的日志异常类别，并将所述实时集群日志按所述日志异常类别保存至对应的日志模板。最后基于不同日志异常类别的实时集群日志进行异常检测，确定检测结果。

方案C：通过神经网络等计算模型对日志进行异常检测。

上述三种方案，存在以下缺陷：

方案A：方案A中对待检测的日志事件数据进行向量化处理的TF-IDF算法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要性，对应日志数据集就是字词对于一条日志的重要性。字词在日志中的出现次数越多代表重要性越大，但在整个日志数据库中出现的越多，则表明该字词的重要性越小。因此，TF-IDF值可以用来作为日志聚类的依据。但在日志系统中，长度越长的日志所包含的信息越多，重要性也越高，传统的TF-IDF算法并不能体现这一特性。

方案B：方案B中对获取的实时集群日志进行聚类分析采用的聚类算法需要人为确定聚类参数，受人工经验影响较大，聚类结果不具备科学性，且聚类准确率不高。

方案C：通过神经网络等计算模型对日志进行异常检测时，计算花销大，不适合大规模的日志异常检测。

为了解决相关技术中存在的问题，本公开提出一种日志检测方法，通过NaN算法对所述第一目标日志数据集进行第一聚类，确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；然后利用所述自然特征值作为HDBSCAN算法中的最小簇的值，利用所述自然邻居距离作为HDBSCAN算法中的核心距离，使得所述第一目标日志数据集能够通过HDBSCAN算法自适应完成第二聚类，并基于HDBSCAN算法的聚类结果确定所述待检测日志的分类；日志检测过程中无需人为设置HDBSCAN算法的相关参数，降低了日志检测过程中对人工知识经验的依赖，提高了日志检测的效率。

下面结合附图及具体实施例对本公开作进一步详细的说明。

如图1所示，图1为本公开实施例提供的日志检测方法的流程示意图。本公开实施例提供的日志检测方法，包括以下步骤：

步骤101，利用自然邻居NaN算法对第一目标日志数据集进行第一聚类，确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；

在一实施例中，NaN算法中，如果数据集中的第一样本把数据集中的第二样本作为邻居，同时所述第二样本也把所述第一样本作为邻居，则第一样本和第二样本互为一对自然邻居，且第一样本和第二样本互为反向近邻。在对数据集中的样本进行自然邻居搜索时，增大样本的自然邻居的个数以增大搜索范围，当样本的自然邻居的个数增大至λ时，如果数据集中的所有样本都至少有一个反向近邻或者数据集中反向近邻个数为零的样本数目保持不变时，称此时的状态为自然稳定状态。当NaN算法达到自然稳定状态时，此时的λ值为数据集的自然特征值。数据集中每个样本与其第λ个邻近样本之间的欧氏距离为每个样本的自然邻居距离。需要注意的是，数据集的自然特征值由NaN算法自适应确定，并不需要人为确定。

基于此，利用NaN算法对第一目标日志数据集进行第一聚类，能够确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；

步骤102，确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类；

在一实施例中，HDBSCAN算法主要包括以下步骤：

根据数据集中的数据密度进行空间变换，利用相互可达距离表示数据集中任意两个样本之间的距离；

利用数据集中样本作为顶点，利用相互可达距离作为任意两点之间的边的权重，构建距离加权图；

基于所述距离加权图，利用普里姆Prim算法生成最小生成树；

基于所述最小生成树建立具有层次结构的聚类树；

根据预设最小簇的值压缩所述聚类树；具体的，对于所述聚类树的根节点，将所有的样本标注相同的标签；从所述聚类树的根节点开始，自上而下迭代遍历所述聚类树的所有节点，根据分裂规则删除噪声点，若节点中的样本个数小于预设最小簇的值，则将该节点判断为噪声点，并删除；

定义节点稳定性的计算公式，提取所述聚类树每条分支上稳定性最大的簇类作为聚类结果。

其中，所述第一目标日志数据集中，任意两个日志样本之间的相互可达距离为：

；

其中，为日志样本/>与其第λ个最邻近日志样本之间的核心距离，/>为日志样本/>与其第λ个最邻近日志样本之间的核心距离，/>为两个日志样本/>之间的欧氏距离。

基于此，如图2所示，所述步骤102包括：

步骤201，确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离；

步骤202，基于所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述第一目标日志数据集中任意两个日志样本之间的相互可达距离；

步骤203，基于所述任意两个日志样本之间的相互可达距离，将所述自然特征值作为HDBSCAN算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类。

步骤103，基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别。

在一实施例中，如图3所示，所述步骤103，包括：

步骤301，基于所述第一目标日志数据集中的至少一个聚类中每个聚类包含的所有日志样本，确定所述至少一个聚类中每个聚类的质心；

步骤302，基于所述至少一个聚类中每个聚类的质心与其包含的每个日志样本之间的距离，确定与所述质心距离最小的日志样本为所述至少一个聚类中每个聚类的中心；

步骤303，所述基于待检测日志与所述至少一个聚类中每个聚类的中心之间的距离，确定与所述待检测日志距离最短的中心对应的日志样本的类别为所述待检测日志的类别。

在一实施例中，所述每个聚类的中心对应的日志样本的类别为正常类或异常类，所述每个聚类的中心对应的日志样本的类别可提前获取。

在一实施例中，由于HDBSCAN算法中，所述第一目标日志数据集中的每个日志样本必须是向量化的，基于此，本公开所述的日志检测方法还包括：

获取第二目标日志数据集；所述第二目标日志数据集中的日志样本为非向量化日志样本；

在一实施例中，向量化处理采用的算法通常为TF-IDF算法，用但在日志系统中，长度越长的日志所包含的信息越多，重要性也越高，传统的TF-IDF算法并不能体现这一特性。

基于此，在一实施例中，如图4所示，所述向量化处理所述第二目标日志数据集中的每个日志样本，包括：

步骤401，基于目标单词所在的目标日志样本中所有单词的个数，及所述目标单词在所述目标日志样本中出现的次数，确定所述目标日志样本中目标单词的词频TF；

步骤402，基于所述第二目标日志数据集中的日志样本的个数，及所述目标单词在所述第二目标日志数据集中所有日志样本中出现的次数，确定所述目标日志样本中目标单词的逆文本频率IDF；

步骤403，基于所述目标日志样本中目标单词的TF，及所述目标日志样本中目标单词的IDF，及目标单词所在的目标日志样本中所有单词的个数，获取所述目标日志样本中目标单词的向量化处理结果；

步骤404，遍历所述目标日志样本中的每个单词，将所述目标日志样本中的每个单词作为目标单词，获取所述目标日志样本的向量化处理结果；

步骤405，遍历所述第二目标日志数据集中的每个日志样本，将所述第二目标日志数据集中的每个日志样本作为目标日志样本，获取所述第二目标日志数据集中的每个日志样本的向量化处理结果。

在一实施例中，定义所述第二目标日志数据集为，其中，/>为所述第二目标日志数据集中第i个日志样本的第j个单词，则/>的向量化过程为：

确定所述目标日志样本（第i个日志样本）中目标单词（）的词频TF（/>）；

;

其中，为所述目标单词/>在所述目标日志样本中出现的次数，/>为目标日志样本中所有单词的个数；

确定所述目标日志样本中目标单词的逆文本频率IDF；

IDF;

其中，N为所述第二目标日志数据集中日志样本的个数，为/>在所述第二目标日志数据集中所有日志样本中出现的次数；

确定所述目标日志样本中目标单词的向量化处理结果；

;

其中，t表示所述第二目标日志数据集中所有日志样本的平均长度；

然后，遍历所述目标日志样本中的每个单词，将所述目标日志样本中的每个单词作为目标单词，获取所述目标日志样本的向量化处理结果；

最后，遍历所述第二目标日志数据集中的每个日志样本，将所述第二目标日志数据集中的每个日志样本作为目标日志样本，获取所述第二目标日志数据集中的每个日志样本的向量化处理结果。

在一实施例中，由于所述第二目标日志数据集中的每个日志样本中单词的个数可能并不相同，因此，所述第二目标日志数据集中的每个日志样本的向量化处理后可能出现维度灾难问题，为了避免这种情况发生，还需对每个所述向量化日志样本进行降维处理，以保证每个日志样本的维度相同；同时降维后减少了数据量，还能提高日志检测效率。

基于此，在一实施例中，所述向量化处理所述第二目标日志数据集中的每个日志样本，获取所述第一目标日志数据集，包括：

在一实施例中，可以采用主成分分析（Principal Component Analysis，简称PCA）算法对所述第二目标日志数据集中每个所述向量化日志样本进行降维处理。

在一实施例中，由于直接从计算机或者日志数据库中获取的日志数据通常为非结构化日志数据，而非结构化日志数据的日志特征无法提取，因此，在进行日志检测前，还需将非结构化日志数据转化为结构化日志数据。

基于此，在一实施例中，所述的日志检测方法还包括：

获取第三目标日志数据集；

在一实施例中，可采用正则表达式将所述第三目标日志数据集中的每个日志样本转化为结构化日志样本。

综上，本公开提供的方案：

首先，通过NaN算法对所述第一目标日志数据集进行第一聚类，确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；然后利用所述自然特征值作为HDBSCAN算法中的最小簇的值，利用所述自然邻居距离作为HDBSCAN算法中的核心距离，使得所述第一目标日志数据集能够通过HDBSCAN算法自适应完成第二聚类，并基于HDBSCAN算法的聚类结果确定所述待检测日志的分类；日志检测过程中无需人为设置HDBSCAN算法的相关参数，降低了日志检测过程中对人工知识经验的依赖，提高了日志检测的效率。

其次，向量化处理所述第二目标日志数据集中的每个日志样本时，利用日志样本的特性，改进了TF-IDF的计算公式，引入log函数来体现日志样本的长度对日志重要性的影响。

再次，对向量化处理后的每个日志样本进行降维处理，不仅避免了维度灾难的产生，还有效的减少了数据量，提高了日志检测的效率。

下面以一应用示例对本公开提供的VPN接入方法做进一步说明：

如图5所示，图5为本公开应用示例提供的日志检测方法的流程示意图。本公开应用示例提供的日志检测方法，包括以下步骤：

步骤501，获取第三目标日志数据集，利用正则表达式将所述第三目标日志数据集中的每个日志样本转化为结构化日志样本，获取所述第二目标日志数据集；

步骤502，向量化处理所述第二目标日志数据集中的每个日志样本，获取所述第二目标日志数据集中每个日志样本对应的向量化日志样本；

步骤503，对所述第二目标日志数据集中每个所述向量化日志样本进行降维处理，获取所述第一目标日志数据集；

步骤504，利用自然邻居NaN算法对第一目标日志数据集进行第一聚类，确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；

步骤505，确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类；

步骤506，接收待检测日志；

步骤507，基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别；

步骤508，基于所述待检测日志的类别，判断所述待检测日志是否为异常日志；

若是，进入步骤509；

若否，返回步骤506；

步骤509，反馈所述异常日志信息。

为了实现本公开实施例提供的日志检测方法，本公开实施例还提供一种日志检测装置，如图6所示。图6为本公开实施例提供的日志检测装置600的结构示意图，所述日志检测装置600，包括：

第一确定单元601，用于利用自然邻居NaN算法对第一目标日志数据集进行第一聚类，确定所述第一目标日志数据集的自然特征值，及所述第一目标日志数据集中每个日志样本与其自然特征值对应的邻近日志样本之间的自然邻居距离；

获取单元602，用于确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类；

第二确定单元603，用于基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别。

在一实施例中，所述获取单元602，具体用于：

在一实施例中，所述第二确定单元603，具体用于：

在一实施例中，所述日志检测装置600还包括向量化单元，用于：

获取第二目标日志数据集；

在一实施例中，所述向量化单元，具体用于：

在一实施例中，所述日志检测装置600还包括结构化单元，用于：

获取第三目标日志数据集；

需要说明的是：上述实施例提供的日志检测装置600在进行日志检测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将日志检测装置600的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的日志检测装置600与本公开实施例提供的日志检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7为本公开实施例提供的电子设备的硬件组成结构示意图，如图7所示，所述电子设备700包括至少一个处理器702；以及与所述至少一个处理器702通信连接的存储器701；其中，所述存储器701存储有可被所述至少一个处理器702执行的指令，所述指令被所述至少一个处理器702执行，以实现本公开实施例所述的日志检测方法的步骤。

可选地，该电子设备具体可为本申请实施例的日志检测装置，并且该电子设备可以实现本申请实施例的各个方法中由日志检测装置实现的相应流程，为了简洁，在此不再赘述。

可理解，电子设备中还包括通信接口703。电子设备中的各个组件通过总线系统704耦合在一起。可理解，总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统704。

可以理解，存储器701可以是易失性存储器或非易失性存储器，也可包括易失性和

非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read OnlyMemory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器701旨在包括但不限于这些和任意其它适合类型的存储器。

上述本公开实施例揭示的方法可以应用于处理器702中，或者由处理器702实现。处理器702可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器702可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器702可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器701，处理器702读取存储器701中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

本公安实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行时实现本发明实施例所述的日志检测方法的步骤。

可选地，该计算机可读存储介质可应用于本申请实施例中的日志检测装置，并且该计算机指令使得计算机执行本申请实施例的各个方法中由日志检测装置实现的相应流程，为了简洁，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种日志检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述每个日志样本的自然邻居距离为所述每个日志样本与其自然特征值对应的最邻近日志样本之间的核心距离，确定所述自然特征值作为分层密度噪声应用空间聚类HDBSCAN算法的最小簇的值，利用HDBSCAN算法对所述第一目标日志数据集进行第二聚类，获取所述第一目标日志数据集中的至少一个聚类，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，基于待检测日志与所述至少一个聚类中每个聚类的质心之间的距离，确定与所述待检测日志距离最短的质心对应的日志样本的类别为所述待检测日志的类别，包括：

4.根据权利要求1所述的方法，其特征在于，所述的方法还包括：

获取第二目标日志数据集；

5.根据权利要求4所述的方法，其特征在于，所述向量化处理所述第二目标日志数据集中的每个日志样本，获取所述第一目标日志数据集，包括：

6.根据权利要求4所述的方法，其特征在于，所述向量化处理所述第二目标日志数据集中的每个日志样本，包括：

7.根据权利要求4所述的方法，其特征在于，所述的方法还包括：

获取第三目标日志数据集；

8.一种日志检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。