CN113821630A

CN113821630A - 一种数据聚类的方法和装置

Info

Publication number: CN113821630A
Application number: CN202010567970.5A
Authority: CN
Inventors: 侯晓坤; 林榆旺
Original assignee: Cainiao Smart Logistics Holding Ltd
Current assignee: Cainiao Smart Logistics Holding Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2021-12-21
Anticipated expiration: 2040-06-19
Also published as: CN113821630B

Abstract

本发明实施例提供了一种数据聚类的方法和装置，其中，所述方法包括：获取待聚类的目标日志数据；判断是否查找到与所述目标日志数据相似的第一日志数据；在查找到所述第一日志数据时，根据所述第一日志数据确定第一聚类信息；按照所述第一聚类信息，对所述目标日志数据进行聚类。通过本发明实施例，实现了对日志数据聚类的优化，由于设置了根据第一次查找到相似的日志数据进行聚类，保证了聚类结果的一致性，能够兼容于存在并发的分布式系统，且无需计算与得到的多个聚类簇之间的相似度，还能够减少数据聚类所需计算的次数，降低了算法的复杂度，节省了时间和资源，提升了数据聚类的实时性，提升了系统的吞吐量。

Description

一种数据聚类的方法和装置

技术领域

本发明涉及数据处理领域，特别是涉及一种数据聚类的方法和装置。

背景技术

随着科学技术的发展，计算机系统涉及到数据量越来越大，如日志数据，对大量数据进行数据聚类日趋重要。

在现有技术中，对于大量数据的处理，通常需要采用计算机集群，即分布式系统，而分布式系统存在并发的问题，由于分布式系统的处理顺序不同或并发处理，可能导致不属于同类别的数据归入至同一聚类簇中或相同类别的数据归入至不同的聚类簇中，难以保证聚类结果的一致性。

而且，对于大量数据的处理，通常采用离线计算或流式计算的方式，且在数据聚类的过程中，通常需要计算新的数据与已得到的多个聚类簇之间的相似度，进而从中确定将要归入的聚类簇，但这种方式需要进行大量的计算，耗费较多时间和资源，难以满足实时性的需求。

发明内容

鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种数据聚类的方法和装置，包括：

一种数据聚类的方法，所述方法包括：

获取待聚类的目标日志数据；

判断是否查找到与所述目标日志数据相似的第一日志数据；

在查找到所述第一日志数据时，根据所述第一日志数据确定第一聚类信息；

按照所述第一聚类信息，对所述目标日志数据进行聚类。

可选地，所述在查找到所述第一日志数据时，根据所述第一日志数据确定第一聚类信息，包括：

在查找到所述第一日志数据时，确定所述第一日志数据对应的第二日志数据；

判断所述目标日志数据是否与所述第二日志数据相似；

在所述目标日志数据与所述第二日志数据相似时，确定所述第二日志数据所属的聚类簇的聚类信息为第一聚类信息。

可选地，还包括：

在所述目标日志数据与所述第二日志数据相似时，建立所述目标日志数据和所述第二日志数据之间的相似关系。

可选地，还包括：

建立所述目标日志数据对应的节点；

按照所述目标日志数据和所述第二日志数据之间的相似关系，建立以所述目标日志数据对应的节点为起点的相似边。

可选地，所述在查找到所述第一日志数据时，确定所述第一日志数据对应的第二日志数据，包括：

在查找到所述第一日志数据时，按照预先建立的所述第一日志数据与其他日志数据之间的相似关系进行递归查找，得到第二日志数据；其中，所述第二日志数据为所述递归查找的路径中的根节点对应的数据。

可选地，还包括：

在所述递归查找的过程中，若检测到存在环结构，则从所述递归查找的路径中，确定目标节点；

将所述目标节点设置为所述递归查找的路径中的根节点。

可选地，在所述将所述目标节点设置为所述递归查找的路径中的根节点之后，还包括：

删除以所述目标节点作为起点的相似边。

可选地，所述目标节点为最小的字典序对应的节点。

可选地，在所述判断是否查找到与所述目标日志数据相似的第一日志数据之前，还包括：

生成所述目标日志数据对应的指纹信息；

按照所述指纹信息，对所述目标日志数据分段存储在多个分桶表中。

可选地，所述判断是否查找到与所述目标日志数据相似的第一日志数据，包括：

按照数据写入时间的顺序，对所述分桶表中的日志数据进行遍历；

判断所述遍历到的日志数据是否与所述目标日志数据相似；

在所述遍历到的日志数据与所述目标日志数据相似时，判定查找到与所述目标日志数据相似的第一日志数据。

可选地，还包括：

在未查找到所述第一日志数据时，生成针对所述目标日志数据的第二聚类信息；

按照所述第二聚类信息，对所述目标日志数据进行聚类。

可选地，所述目标日志数据包括以下任一项：

网络安全日志数据、财务结算日志数据。

一种数据聚类的装置，所述装置包括：

目标日志数据获取模块，用于获取待聚类的目标日志数据；

第一日志数据查找判断模块，用于判断是否查找到与所述目标日志数据相似的第一日志数据；

第一聚类信息确定模块，用于在查找到所述第一日志数据时，根据所述第一日志数据确定第一聚类信息；

第一聚类信息聚类模块，用于按照所述第一聚类信息，对所述目标日志数据进行聚类。

可选地，所述第一聚类信息确定模块，包括：

第二日志数据确定子模块，用于在查找到所述第一日志数据时，确定所述第一日志数据对应的第二日志数据；

第二日志数据相似判断子模块，用于判断所述目标日志数据是否与所述第二日志数据相似；

第二日志数据确定聚类信息子模块，用于在所述目标日志数据与所述第二日志数据相似时，确定所述第二日志数据所属的聚类簇的聚类信息为第一聚类信息。

可选地，还包括：

相似关系建立模块，用于在所述目标日志数据与所述第二日志数据相似时，建立所述目标日志数据和所述第二日志数据之间的相似关系。

可选地，还包括：

节点建立模块，用于建立所述目标日志数据对应的节点；

相似边建立模块，用于按照所述目标日志数据和所述第二日志数据之间的相似关系，建立以所述目标日志数据对应的节点为起点的相似边。

可选地，所述第二日志数据确定子模块，包括：

递归查找单元，用于在查找到所述第一日志数据时，按照预先建立的所述第一日志数据与其他日志数据之间的相似关系进行递归查找，得到第二日志数据；其中，所述第二日志数据为所述递归查找的路径中的根节点对应的数据。

可选地，还包括：

目标节点确定模块，用于在所述递归查找的过程中，若检测到存在环结构，则从所述递归查找的路径中，确定目标节点；

根节点设置模块，用于将所述目标节点设置为所述递归查找的路径中的根节点。

可选地，还包括：

相似边删除模块，用于删除以所述目标节点作为起点的相似边。

可选地，所述目标节点为最小的字典序对应的节点。

可选地，还包括：

指纹信息生成模块，用于生成所述目标日志数据对应的指纹信息；

分段分桶存储模块，用于按照所述指纹信息，对所述目标日志数据分段存储在多个分桶表中。

可选地，所述第一日志数据查找判断模块，包括：

分桶表遍历子模块，用于按照数据写入时间的顺序，对所述分桶表中的日志数据进行遍历；

遍历数据相似判断子模块，用于判断所述遍历到的日志数据是否与所述目标日志数据相似；

遍历数据判定查找子模块，用于在所述遍历到的日志数据与所述目标日志数据相似时，判定查找到与所述目标日志数据相似的第一日志数据。

可选地，还包括：

第二聚类信息生成模块，用于在未查找到所述第一日志数据时，生成针对所述目标日志数据的第二聚类信息；

第二聚类信息聚类模块，用于按照所述第二聚类信息，对所述目标日志数据进行聚类。

可选地，所述目标日志数据包括以下任一项：

网络安全日志数据、财务结算日志数据。

一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的数据聚类的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的数据聚类的方法的步骤。

本发明实施例具有以下优点：

在本发明实施例中，通过获取待聚类的目标日志数据，判断是否查找到与目标日志数据相似的第一日志数据，在查找到第一日志数据时，根据第一日志数据确定第一聚类信息，然后按照第一聚类信息，对目标日志数据进行聚类，实现了对日志数据聚类的优化，由于设置了根据第一次查找到相似的日志数据进行聚类，保证了聚类结果的一致性，能够兼容于存在并发的分布式系统，且无需计算与得到的多个聚类簇之间的相似度，还能够减少数据聚类所需计算的次数，降低了算法的复杂度，节省了时间和资源，提升了数据聚类的实时性，提升了系统的吞吐量。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种数据聚类的方法的步骤流程图；

图2是本发明一实施例提供的另一种数据聚类的方法的步骤流程图；

图3a是本发明一实施例提供的一种数据存储的示意图；

图3b是本发明一实施例提供的另一种数据存储的示意图；

图3c是本发明一实施例提供的一种数据处理的示意图；

图3d是本发明一实施例提供的另一种数据处理的示意图；

图3e是本发明一实施例提供的另一种数据处理的示意图；

图4是本发明一实施例提供的另一种数据聚类的方法的步骤流程图；

图5是本发明一实施例提供的另一种数据聚类的方法的步骤流程图；

图6a是本发明一实施例提供的另一种数据处理的示意图；

图6b是本发明一实施例提供的另一种数据处理的示意图；

图7是本发明一实施例提供的一种数据聚类的装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明一实施例提供的一种数据聚类的方法的步骤流程图，该方法可以应用于分布式系统，分布式系统是建立在网络之上的系统，具有分布性、自治性、并行性、全局性等特点。

在实际应用中，分布式系统中的服务器可以产生大量的日志数据，例如，在分布式系统中任一服务器遭受攻击时，服务器可以生成网络安全日志数据，又如，分布式系统可以为财务结算系统，财务结算系统可以在各地分布有用于财务结算的服务器，在进行财务结算时，服务器可以生成财务结算日志数据，以供后续查询。

具体的，可以包括如下步骤：

步骤101，获取待聚类的目标日志数据；

作为一示例，目标日志数据可以为服务器日志，服务器日志可以为以文本的形式记录的数据，服务器日志能够用于数据分析、问题定位等，目标日志数据可以包括以下任一项：

网络安全日志数据、财务结算日志数据。

在具体实现中，可以获取待聚类的目标日志数据，为了保证实时的数据聚类，该目标日志数据可以为实时的数据，如系统实时产生的日志数据。

步骤102，判断是否查找到与所述目标日志数据相似的第一日志数据；

在获得目标日志数据后，可以将目标日志数据与预先存储的日志数据进行相似度分析，如可以通过计算汉明距离、余弦相似度的方式，进而可以判断是否能够从预先存储的数据中查找到与目标日志数据相似的第一日志数据，第一日志数据可以为查找到的第一个与目标日志数据相似的日志数据。

步骤103，在查找到所述第一日志数据时，根据所述第一日志数据确定第一聚类信息；

其中，聚类信息可以包括聚类簇的簇特征，由于同属一个聚类簇中的数据具有较高的内聚性，聚类簇中任何一个数据的特征表示都能作为该聚类簇的特征表示，则对于每个聚类簇，可以采用该聚类簇中最早写入的数据的特征作为该聚类簇的特征，而不需要基于聚类簇中所有数据。

在查找到与目标日志数据相似的第一日志数据时，可以根据第一日志数据来确定第一聚类信息，如可以直接将第一日志数据所属的聚类簇的聚类信息作为第一聚类信息，也可以根据第一日志数据确定第二日志数据(后文将进行详细说明)，将第二日志数据所属的聚类簇的聚类信息作为第一聚类信息。

在本发明实施例中，通过设置采用查找到的第一个与目标日志数据相似的日志数据的聚类信息进行聚类，建立了统一的处理规则，能够兼容于存在并发的分布式系统，避免了不属于同类别的数据归入至同一聚类簇中或相同类别的数据归入至不同的聚类簇中，保证聚类结果的一致性。

而且，由于第一日志数据是查找到的第一个与目标日志数据相似的数据，无需先筛选出多个与目标日志数据相似的数据，然后分别计算目标日志数据与每个相似的日志数据所属的聚类簇之间的相似度，即计算目标日志数据与多个聚类簇之间相似度，减少了计算的次数，降低了算法的复杂度。

步骤104，按照所述第一聚类信息，对所述目标日志数据进行聚类。

在获得第一聚类信息后，可以将第一聚类信息设置为目标日志数据的聚类信息，进而对目标日志数据的聚类，如采用基于Singlepass的算法进行聚类。

在本发明一实施例中，该方法可以包括如下步骤：

在未查找到所述第一日志数据时，生成针对所述目标日志数据的第二聚类信息；按照所述第二聚类信息，对所述目标日志数据进行聚类。

在未查找到第一日志数据时，表征预先存储的数据中没有与目标日志数据相似的日志数据，则可以直接建立一个新的聚类簇，将该目标日志数据作为该聚类簇的第一个数据，进而可以可以生成针对新的聚类簇的第二聚类信息，如将目标日志数据的指纹信息作为第二聚类信息，对目标日志数据进行聚类。

参照图2，示出了本发明一实施例提供的另一种数据聚类的方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取待聚类的目标日志数据；

步骤202，生成所述目标日志数据对应的指纹信息；

在获得目标日志数据后，可以生成目标日志数据对应的指纹信息，如指纹信息可以为Simhash值，Simhash是用来去重的hash方法，通过设置指纹信息(Simhash值)可以实现对目标日志数据的去重，减少不必要的计算，且能够自动提取有效的信息，降低人工成本。

例如，在图3a中，目标日志数据为日志A，可以对日志A进行分词，得到多个短语，然后可以采用权重W进行加权求和，得到日志A的签名(即指纹信息，Simhash值)，进行倒排索引。

步骤203，按照所述指纹信息，对所述目标日志数据分段存储在多个分桶表中；

在获得指纹信息后，可以按照指纹信息，将目标日志数据分成多个片段，分段存储在多个分桶表中，实现分段分桶存储，如图3b，在基于simhash的分段分桶存储中，可以对海量日志中的每个文本分为四段存储，然后可以倒排索引所有文档，减少无效计算，提升性能。

在本发明实施例中，通过分桶存储，能够极大减少数据遍历需要读取和对比的数据个数，大幅度提升性能，通过进行分段，在每个分段上分别进行一次处理，会在不同分段上分别建立相似关系，

需要说明的是，由于在并发情况下，数据的处理顺序是不确定的，如果采用“先读后写”的方式，在高并发情况下，存在聚类数变多的问题，则在本发明实施例中，是采用“先写后读”的方式，即先对目标日志数据进行存储，即步骤203，然后在进行聚类，即步骤204，以下结合图3c和图3d对“先写后读”的方式和“先读后写”的方式进行说明：

采用“先读后写”的方式，同时处理数据A、B可能存在的情况如下：

1、A读取到B，B未读到任何数据；

2、A未读到任何数据，B读到数据A；

3、A和B同时未读到任何数据。

在“A和B同时未读到任何数据”的情况出现时，如图3c，则将出现聚类数变多的情况，后续C到达时，A、B已经写入，此时C可以和A或B聚类到一起。

采用“先写后读”的方式，同时处理数据A、B可能存在的情况如下：

1、A读取到A,B，而B只读到自身；

2、A读取到A自身，B读取到A和B；

3、A和B都读取到A和B。

对于“A读取到A,B，而B只读到自身”的情况，在并发时只会建立B到A的相似关系，随后C聚类时被聚到A上。

对于“A读取到A自身，B读取到A和B”的情况，在并发时只会建立A到B的相似关系，随后C聚类时会被聚类到B上。

对于“A和B都读取到A和B”的情况，在并发时则会出现A到B和B到A的两条相似关系，如图3d，则可以进行破环，但是不会发生如采用“先读后写”的方式导致的聚类数变多的问题。

步骤204，按照数据写入时间的顺序，对所述分桶表中的日志数据进行遍历；

由于在乱序遍历情况下，如图3e，数据A、B、C、D属于同一类数据，且同时进行处理，在乱序读取时，A先读到B、B先读到A，C先读到D，D先读到C，则形成的聚类结果不佳。

为了保证数据写入是有序的，且不会发生覆盖，对每次数据存储的过程，可以记录其数据写入时间，在需要查找与目标日志数据相似的数据时，则可以按照数据写入时间的顺序，从最早的数据写入时间开始，依次对分桶表中的日志数据进行遍历，直至找到与目标日志数据相似的日志数据。

步骤205，判断所述遍历到的日志数据是否与所述目标日志数据相似；

对于每个遍历到的日志数据，可以判断其是否与目标日志数据相似，若不相似，则可以继续进行遍历，若相似，则可以停止遍历。

步骤206，在所述遍历到的日志数据与所述目标日志数据相似时，判定查找到与所述目标日志数据相似的第一日志数据；

在遍历到的日志数据与目标日志数据相似时，即按照数据写入时间的顺序遍历到第一个相似的日志数据，则判定查找到与目标日志数据相似的第一日志数据。

步骤207，在查找到所述第一日志数据时，根据所述第一日志数据确定第一聚类信息；

步骤208，按照所述第一聚类信息，对所述目标日志数据进行聚类。

参照图4，示出了本发明一实施例提供的另一种数据聚类的方法的步骤流程图，具体可以包括如下步骤：

步骤401，获取待聚类的目标日志数据；

步骤402，判断是否查找到与所述目标日志数据相似的第一日志数据；

步骤403，在查找到所述第一日志数据时，确定所述第一日志数据对应的第二日志数据；

为了让聚类簇更加收敛，在查找到第一日志数据时，可以进一步确定第一日志数据对应的第二日志数据，如第二日志数据为递归查找的路径中的根节点对应的日志数据。

步骤404，判断所述目标日志数据是否与所述第二日志数据相似；

在获得第二日志数据后，可以判断目标日志数据是否与第二日志数据相似，具体可以通过计算汉明距离、余弦相似度的方式来进行相似度分析，若相似，则可以进行后续操作，若不相似，则可以不进行后续操作，返回重新确定第一日志数据。

步骤405，在所述目标日志数据与所述第二日志数据相似时，确定所述第二日志数据所属的聚类簇的聚类信息为第一聚类信息；

在判定目标日志数据与所述第二日志数据相似时，则可以将第二日志数据所属的聚类簇的聚类信息作为第一聚类信息。

步骤406，按照所述第一聚类信息，对所述目标日志数据进行聚类。

参照图5，示出了本发明一实施例提供的另一种数据聚类的方法的步骤流程图，具体可以包括如下步骤：

步骤501，获取待聚类的目标日志数据；

步骤502，判断是否查找到与所述目标日志数据相似的第一日志数据；

步骤503，在查找到所述第一日志数据时，按照预先建立的所述第一日志数据与其他日志数据之间的相似关系进行递归查找，得到第二日志数据；其中，所述第二日志数据为所述递归查找的路径中的根节点对应的数据；

对于每个日志数据，在进行聚类时，可以确定预先存储的日志数据中与其相似的日志数据，进而建立该日志数据与相似的日志数据之间的相似关系，并进行存储，如具体可以采用Redis的key-value方式存储相似关系，通过采用Redis的List(列表)数据结构进行存储，由于Redis单线程写入的特点，结合Redis中List数据结构有序的特点，能够满足按数据写入时间有序且不覆盖的特性。

在查找到第一日志数据时，可以获取预先存储的第一日志数据与其他日志数据之间的相似关系，按照该相似关系进行递归查找，直至在递归查找的路径中，找到根节点对应的数据，作为第二日志数据。

在本发明一实施例中，可以建立针对相似关系的有向图，有向图由点和边构成，边为有向边，有向边箭头指向的点称之为该边的终点，另一个点称之为起点，指向终点的边称为终点的入边，从起点出去的边称为起点的出边。

在有向图中，节点可以表征一数据，有向图中边可以表征相似关系，如数据A和数据B的相似，则建立数据A的节点和数据B的节点之间的边。

而且，有向图中任一节点至多只会有一条出边，若对于一数据A，在之前已有相似的数据写入，则能够找与数据A的相似文本，并可以在有向图中针对数据A的节点建立一条相似边。

若有向图是弱连通图，当相似边的数量等于节点的数量时，则必存在环结构，环结构是一种边的排列，沿着边的排列可以回到起点，即一条起始并终止在同一个顶点的路径，如图6a，当相似边的数量比节点的数量少1个时，所有的节点都能通过边到达到相同点，如图6b，形成树结构。

由于在实时聚类中，数据的处理具有时序特点，如图6a和图6b，时间轴对应不同数据进入到处理流程中的时间，越右边的点表示越迟处理，图中边上数字表示该边建立的顺序。

如图6a，在并发的情况下，数据A和数据B同时在同一时刻进行处理，遵循先写后读的原则，数据A、B都会建立一条相似边，则会形成环结构，而后续进入的数据，会找到最早写入的数据A，建立相似关系。在这种情况下需要采用破环方法将环解开。

如图6b，在非并发的情况下，最早进入的数据无法找到相似数据，也就无法生成相似边，则对于n个数据，只会生成n-1条边，即能得到的图是一棵树，聚类的结果是准确的且在数据进入顺序确定的情况下是唯一的。

其中，可以采用如下方式破坏环结构：

1、当生成环时，存在一个包含n个点的序列A1,A2,...,An，其中Ai会建立一条相似边到Ai+1,An会建立一条相似边到A1；

2、对任意点Ai,令sign(Ai)(1<＝i<＝n)表示第i个点的指纹；

3、在所有的sign(Ai)中找到字典序最小的j使得sign(Aj)<＝sign(Ai)；

4、删除Aj到Aj+1的相似边(如果j＝n则删除An到A1的相似边),此时破环结束得到一棵树。

应用在本发明实施例中，该方法还可以包括如下步骤：

在所述递归查找的过程中，若检测到存在环结构，则从所述递归查找的路径中，确定目标节点；将所述目标节点设置为所述递归查找的路径中的根节点。

其中，目标节点可以为最小的字典序对应的节点。

在递归查找的过程中，当检测到递归查找的路径中存在环结构，则可以从递归查找的路径中，确定目标节点，具体可以对于递归查找的路径中各个节点，计算字典序，然后可以从中确定最小的字典序对应的节点为目标节点。

在确定目标节点后，可以将目标节点设置为递归查找的路径中的根节点，进而可以找到根节点对应的数据，作为第二日志数据。

在本发明一实施例中，在所述将所述目标节点设置为所述递归查找的路径中的根节点之后，该方法还可以包括包括如下步骤：

删除以所述目标节点作为起点的相似边。

在具体实现中，由于根节点是不具有出边的，则可以删除以目标节点作为起点的相似边，即目标节点的出边。

步骤504，判断所述目标日志数据是否与所述第二日志数据相似；

步骤505，在所述目标日志数据与所述第二日志数据相似时，建立所述目标日志数据和所述第二日志数据之间的相似关系；

在本发明一实施例中，该方法还可以包括如下步骤：

建立所述目标日志数据对应的节点；按照所述目标日志数据和所述第二日志数据之间的相似关系，建立以所述目标日志数据对应的节点为起点的相似边。

在具体实现中，可以针对建立目标日志数据对应的节点，然后可以按照目标日志数据和第二日志数据之间的相似关系，建立以目标日志数据对应的节点为起点的相似边，即出边。

步骤506，确定所述第二日志数据所属的聚类簇的聚类信息为第一聚类信息；

步骤507，按照所述第一聚类信息，对所述目标日志数据进行聚类。

以下对本发明实施例进行示例性说明：

1、获取当前日志文本，并计算得到当前日志文本的simhash值；

2、对当前日志文本的simhash值字符串进行分段，并将文本信息同时添加到按分段索引的存储单元的末尾；

3、有序对simhash分段对应的存储单元中数据进行遍历，每个分段中按写入时间最早的日志文本开始的顺序遍历，找到第一个与当前日志文本相似度大于阈值的日志文本A；

4、如果找不到满足条件的日志文本则返回当前日志文本的指纹作为聚类id；

5、按相似关系递归找到根日志文本对应的指纹signRoot，建立一条当前日志文本到signRoot的边；

6、如果递归过程发现有环，则将递归路径中所有文本中的最小字典序指纹设置为signRoot，同时将signRoot指向其他日志文本指纹的边删除；

7、返回signRoot即当前日志文本归属的聚类id。

以下是上述流程的代码示例：

其中，genSimhash函数表示计算文本的simhash值，splitSimhash函数将当前日志文本对应的simhash进行分段，本发明中simhash长度为64bit，段数为4，即每个分段长度8bit，genSimhashKey函数表示通过日志文本信息、分段值、分段id计算出分段索引key，saveDataBySimhashKeyInEnd表示将当前日志文本信息添加到分段索引对应的存储单元的末尾，findSimilarity函数对应上文步骤4、5、6，buildSimilarityRelation函数用于建立两个文本指纹相似关系，pathCompressionAndBreakCircle函数实现路径压缩和破环。

以下是findSimilarity函数的伪代码：

其中，hammingDist函数用于计算两个simhash的汉明距离。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明一实施例提供的一种数据聚类的装置的结构示意图，具体可以包括如下模块：

目标日志数据获取模块701，用于获取待聚类的目标日志数据；

第一日志数据查找判断模块702，用于判断是否查找到与所述目标日志数据相似的第一日志数据；

第一聚类信息确定模块703，用于在查找到所述第一日志数据时，根据所述第一日志数据确定第一聚类信息；

第一聚类信息聚类模块704，用于按照所述第一聚类信息，对所述目标日志数据进行聚类。

在本发明一实施例中，所述第一聚类信息确定模块703，包括：

在本发明一实施例中，还包括：

节点建立模块，用于建立所述目标日志数据对应的节点；

在本发明一实施例中，所述第二日志数据确定子模块，包括：

在本发明一实施例中，还包括：

在本发明一实施例中，所述目标节点为最小的字典序对应的节点。

在本发明一实施例中，还包括：

在本发明一实施例中，所述第一日志数据查找判断模块702，包括：

在本发明一实施例中，还包括：

在本发明一实施例中，所述目标日志数据为日志数据。

本发明一实施例还提供了一种电子设备，可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上数据聚类的方法的步骤。

本发明一实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上数据聚类的方法的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对所提供的一种数据聚类的方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据聚类的方法，其特征在于，所述方法包括：

获取待聚类的目标日志数据；

判断是否查找到与所述目标日志数据相似的第一日志数据；

按照所述第一聚类信息，对所述目标日志数据进行聚类。

2.根据权利要求1所述的方法，其特征在于，所述在查找到所述第一日志数据时，根据所述第一日志数据确定第一聚类信息，包括：

判断所述目标日志数据是否与所述第二日志数据相似；

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

建立所述目标日志数据对应的节点；

5.根据权利要求2或3或4所述的方法，其特征在于，所述在查找到所述第一日志数据时，确定所述第一日志数据对应的第二日志数据，包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

将所述目标节点设置为所述递归查找的路径中的根节点。

7.根据权利要求6所述的方法，其特征在于，在所述将所述目标节点设置为所述递归查找的路径中的根节点之后，还包括：

删除以所述目标节点作为起点的相似边。

8.根据权利要求6或7所述的方法，其特征在于，所述目标节点为最小的字典序对应的节点。

9.根据权利要求1所述的方法，其特征在于，在所述判断是否查找到与所述目标日志数据相似的第一日志数据之前，还包括：

生成所述目标日志数据对应的指纹信息；

10.根据权利要求9所述的方法，其特征在于，所述判断是否查找到与所述目标日志数据相似的第一日志数据，包括：

判断所述遍历到的日志数据是否与所述目标日志数据相似；

11.根据权利要求1所述的方法，其特征在于，还包括：

按照所述第二聚类信息，对所述目标日志数据进行聚类。

12.根据权利要求1所述的方法，其特征在于，所述目标日志数据包括以下任一项：

网络安全日志数据、财务结算日志数据。

13.一种数据聚类的装置，其特征在于，所述装置包括：

目标日志数据获取模块，用于获取待聚类的目标日志数据；

14.根据权利要求12所述的装置，其特征在于，所述第一聚类信息确定模块，包括：

15.根据权利要求14所述的装置，其特征在于，还包括：

16.根据权利要求15所述的装置，其特征在于，还包括：

节点建立模块，用于建立所述目标日志数据对应的节点；

17.根据权利要求14或15或16所述的装置，其特征在于，所述第二日志数据确定子模块，包括：

18.根据权利要求17所述的装置，其特征在于，还包括：

19.根据权利要求18所述的装置，其特征在于，还包括：

20.根据权利要求18或19所述的装置，其特征在于，所述目标节点为最小的字典序对应的节点。

21.根据权利要求13所述的装置，其特征在于，还包括：

22.根据权利要求21所述的装置，其特征在于，所述第一日志数据查找判断模块，包括：

23.根据权利要求13所述的装置，其特征在于，还包括：

24.根据权利要求13所述的装置，其特征在于，所述目标日志数据包括以下任一项：

网络安全日志数据、财务结算日志数据。

25.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至12中任一项所述的数据聚类的方法的步骤。

26.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的数据聚类的方法的步骤。