CN112749750B

CN112749750B - 一种基于k均值聚类算法的搜索引擎聚合分析方法及系统

Info

Publication number: CN112749750B
Application number: CN202110053856.5A
Authority: CN
Inventors: 徐培培
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-06-21
Anticipated expiration: 2041-01-15
Also published as: CN112749750A

Abstract

本发明涉及计算机技术领域，提供一种基于k均值聚类算法的搜索引擎聚合分析方法及系统，所述方法包括：批量导入数据，并分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征；利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析，从而丰富用户对搜索引擎Elastisearch聚合分析的操作，方便对搜索数据进行整体的探索分析，通过引入KMeans算法，增强了实际应用性及广泛性。

Description

一种基于k均值聚类算法的搜索引擎聚合分析方法及系统

技术领域

本发明属于计算机技术领域，尤其涉及一种基于k均值聚类算法的搜索引擎聚合分析方法及系统。

背景技术

搜索引擎ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎，使用ElasticSearch进行搜索或是数据探索及分析时，常常会用到聚合分析操作。

ElasticSearch开源内置的聚合分析方法，包含统计聚合、过滤聚合、最大桶数聚合以及矩阵统计聚合等针对某一个字段或多个字段进行纵向的聚合分析方法，只能实现一些简单的统计数量的分析，方法简单，且在很大程度上具有一定的局限性。

发明内容

针对现有技术中的缺陷，本发明提供了一种基于k均值聚类算法的搜索引擎聚合分析方法，旨在解决现有技术中ElasticSearch开源内置的聚合分析方法，只能实现一些简单的统计数量的分析，方法简单，且在很大程度上具有一定的局限性的问题。

本发明所提供的技术方案是：一种基于k均值聚类算法的搜索引擎聚合分析方法，所述方法包括下述步骤：

批量导入数据，并分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征；

利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析。

作为一种改进的方案，所述分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征的步骤具体包括下述步骤：

对导入的批量数据进行变量识别，判断导入的批量数据的变量的数据类型，其中，所述变量的数据类型包括单变量、双变量和多变量；

对导入的批量数据的每一种类型的变量进行分析，获取各个类型变量的数据类型以及数据分布特征；

对获取到的各个类型的变量的数据类型以及数据分布特征进行解析判断，判断各个变量的数据类型和数据分布特征是否为正常业务关系数据，所述正常业务关系数据为符合实际业务数据且不存在明显异常和不合理的业务数据；

当存在非正常业务关系数据时，根据实际业务场景对非正常业务关系数据进行相应处理；

其中，所述非正常业务关系数据包括字段非数值型的变量数据和维数大于等于预设阈值的变量数据。

作为一种改进的方案，所述当存在非正常业务关系数据时，根据实际业务场景对非正常业务关系数据进行相应处理的步骤具体包括下述步骤：

当所述非正常业务关系数据为字段非数值型的变量数据时，将字段非数值型的变量数据转换为字段数值型的变量数据；

对转换后的变量数据进行分层处理，且分层处理后的变量数据作为k均值聚类算法的输入。

作为一种改进的方案，所述当存在非正常业务关系数据时，根据实际业务场景对非正常业务关系数据进行相应处理的步骤还包括下述步骤：

当所述非正常业务关系数据为维数大于等于预设阈值的变量数据时，对所述非正常业务关系数据进行违规约处理，且违规约处理后的变量数据作为k均值聚类算法的输入。

本发明的另一目的在于提供一种基于k均值聚类算法的搜索引擎聚合分析系统，所述系统包括：

数据分析模块，用于批量导入数据，并分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征数据类型以及数据分布特征；

横向聚合分析模块，用于利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析。

作为一种改进的方案，所述数据分析模块具体包括：

变量识别模块，用于对导入的批量数据进行变量识别，判断导入的批量数据的变量的数据类型，其中，所述变量的数据类型包括单变量、双变量和多变量；

变量分析模块，用于对导入的批量数据的每一种类型的变量进行分析，获取各个类型变量的数据类型以及数据分布特征；

解析判断模块，用于对获取到的各个类型的变量的数据类型以及数据分布特征进行解析判断，判断各个变量的数据类型和数据分布特征是否为正常业务关系数据，所述正常业务关系数据为符合实际业务数据且不存在明显异常和不合理的业务数据；

非正常业务关系数据处理模块，用于当存在非正常业务关系数据时，根据实际业务场景对非正常业务关系数据进行相应处理；

作为一种改进的方案，所述非正常业务关系数据处理模块具体包括：

字段数值型转换模块，用于当所述非正常业务关系数据为字段非数值型的变量数据时，将字段非数值型的变量数据转换为字段数值型的变量数据；

分层处理模块，用于对转换后的变量数据进行分层处理，且分层处理后的变量数据作为k均值聚类算法的输入。

作为一种改进的方案，所述非正常业务关系数据处理模块还包括：

违规约处理模块，用于当所述非正常业务关系数据为维数大于等于预设阈值的变量数据时，对所述非正常业务关系数据进行违规约处理，且分层处理后的变量数据作为k均值聚类算法的输入。

在本发明实施例中，批量导入数据，并分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征；利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析，从而丰富用户对搜索引擎Elastisearch聚合分析的操作，方便对搜索数据进行整体的探索分析，通过引入KMeans算法，增强了实际应用性及广泛性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1是本发明提供的基于k均值聚类算法的搜索引擎聚合分析方法的实现流程图；

图2是本发明提供的分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征的实现流程图；

图3是本发明提供的基于k均值聚类算法的搜索引擎聚合分析系统的结构框图；

图4是本发明提供的数据分析模块的结构框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的、技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

图1是本发明提供的基于k均值聚类算法的搜索引擎聚合分析方法的实现流程图，其具体包括下述步骤：

在步骤S101中，批量导入数据，并分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征；

其中，Elasticsearch是一个基于Lucene的搜索服务器，其提供了一个分布式多用户能力的全文搜索引擎，能很方便地使大量数据具有搜索、分析和探索的能力。其基于RESTful web接口，是用Java开发的，并作为Apache许可条款下的开放源码发布，是企业级搜索引擎；

在该步骤中，批量数据导入完成后，对导入的批量数据进行数据探索和处理，分析批量数据的各个变量的数据类型以及数据分布特征；

在步骤S102中，利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析；

在该步骤中，在数据探索及处理的基础上，为了很好的横向分离聚合数据，不再局限于自带的根据单一或若干字段进行统计过滤等聚合操作，能够充分利用所有导入的数据的变量关系来对数据进行全面把控的一个横向聚类操作；

其中，k均值聚类算法是一种迭代求解的聚类分析算法，其步骤是随机选取k个对象作为初始的聚类中心，然后计算每个对象与各个聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

在底层引入k均值聚类算法，对外以API形式展现，使用户在进行聚合操作时，能够自由选择聚类操作的方法以及执行相应的聚类中心的k值，从而在结果输出中，能使用户横向把控数据聚类的不同级别。

在本发明实施例中，在上述步骤S102之后，还需要执行下述步骤：

将横向聚合分析得到的数据以可视化界面的方式进行展示。

在该步骤中，为使方便查看最终结果，最后将其输出以可视化界面(Kibana)展示出来，针对最终结果，可以将用户数据聚合为3类，分别为高、中、低3类，然后，后续用户可根据其感兴趣的聚类数据进行分析。

在本发明实施例中，如图2所示，分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征的步骤具体包括下述步骤：

在步骤S201中，对导入的批量数据进行变量识别，判断导入的批量数据的变量的数据类型，其中，所述变量的数据类型包括单变量、双变量和多变量；

在步骤S202中，对导入的批量数据的每一种类型的变量进行分析，获取各个类型变量的数据类型以及数据分布特征；

在步骤S203中，对获取到的各个类型的变量的数据类型以及数据分布特征进行解析判断，判断各个变量的数据类型和数据分布特征是否为正常业务关系数据；

在该步骤中，在对导入的数据的数据类型进行判断的同时，获取导入数据的数据分布特征，以获取各个变量之间的数据关系，为后续算法的友好处理提供基础。

在该步骤中，所述正常业务关系数据为符合实际业务数据且不存在明显异常和不合理的业务数据，非正常业务数据则为反向的情形。

在步骤S204中，当存在非正常业务关系数据时，根据实际业务场景对非正常业务关系数据进行相应处理；

在该实施例中，当所述非正常业务关系数据为字段非数值型的变量数据时，将字段非数值型的变量数据转换为字段数值型的变量数据，对数据进行规范化；

同时，对转换后的变量数据进行分层处理，且分层处理后的变量数据作为k均值聚类算法的输入，方便后续计算距离。

作为本发明的另一个实施例，当所述非正常业务关系数据为维数大于等于预设阈值的变量数据时，对所述非正常业务关系数据进行违规约处理，且分层处理后的变量数据作为k均值聚类算法的输入，避免出现再难情形；

其中，该维数的预设阈值选取7。

在本发明实施例中，可以采用轮廓系数对k均值聚类算法进行有效程度的评估，其中，轮廓系数的取值范围为[-1，1],其值越大，说明聚类效果越好。针对不同的聚类中心的K值有不同的一个轮廓系数，从而选择轮廓系数最高的所对应的的最佳K值，最后根据算法评估的性能程度，来最终选择合适的聚合操作方法。

在本发明实施例中，基于k均值聚类算法实现对搜索引擎Elasticsearch聚合分析的方法，首先使用Elasticsearch中Bulk导入大量数据；其次，分析各个字段数据类型及数据分布特征；然后底层引入Kmeans算法，对外以API的形式展示及使用，可以直接在curl命令中，指定聚合分析的方法以及Kmeans要初始聚类中心的K值，对其返回结果可以通过Kibana可视化界面展示；接着进行结果展示分析，最后进行算法评估，从而选择最合适的聚合分析方法。整个过程逻辑清晰易懂，扩展了Elasticsearch其功能，增强了用户的使用感，提升了Elasticsearch的应用性和Elasticsearch使用的广泛性。

图3示出了本发明提供的基于k均值聚类算法的搜索引擎聚合分析系统的结构框图，为了便于说明，图中仅给出了与本发明实施例相关的部分。

基于k均值聚类算法的搜索引擎聚合分析系统包括：

数据分析模块11，用于批量导入数据，并分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征数据类型以及数据分布特征；

横向聚合分析模块12，用于利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析。

如图4，所述数据分析模块11具体包括：

变量识别模块13，用于对导入的批量数据进行变量识别，判断导入的批量数据的变量的数据类型，其中，所述变量的数据类型包括单变量、双变量和多变量；

变量分析模块14，用于对导入的批量数据的每一种类型的变量进行分析，获取各个类型变量的数据类型以及数据分布特征；

解析判断模块15，用于对获取到的各个类型的变量的数据类型以及数据分布特征进行解析判断，判断各个变量的数据类型和数据分布特征是否为正常业务关系数据，所述正常业务关系数据为符合实际业务数据且不存在明显异常和不合理的业务数据；

非正常业务关系数据处理模块16，用于当存在非正常业务关系数据时，根据实际业务场景对非正常业务关系数据进行相应处理；

结合图4所示，所述非正常业务关系数据处理模块16具体包括：

字段数值型转换模块17，用于当所述非正常业务关系数据为字段非数值型的变量数据时，将字段非数值型的变量数据转换为字段数值型的变量数据；

分层处理模块18，用于对转换后的变量数据进行分层处理，且分层处理后的变量数据作为k均值聚类算法的输入。

在该实施例中，所述非正常业务关系数据处理模块16还包括：

违规约处理模块19，用于当所述非正常业务关系数据为维数大于等于预设阈值的变量数据时，对所述非正常业务关系数据进行违规约处理，且分层处理后的变量数据作为k均值聚类算法的输入。

其中，上述各个模块的功能如上述方法实施例所记载，在此不再赘述。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于k均值聚类算法的搜索引擎聚合分析方法，其特征在于，所述方法包括下述步骤：

利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析；

所述分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征的步骤具体包括下述步骤：

其中，所述非正常业务关系数据包括字段非数值型的变量数据和维数大于等于预设阈值的变量数据；

所述当存在非正常业务关系数据时，根据实际业务场景对非正常业务关系数据进行相应处理的步骤具体包括下述步骤：

2.根据权利要求1所述的基于k均值聚类算法的搜索引擎聚合分析方法，其特征在于，所述当存在非正常业务关系数据时，根据实际业务场景对非正常业务关系数据进行相应处理的步骤还包括下述步骤：

3.一种基于k均值聚类算法的搜索引擎聚合分析系统，其特征在于，所述系统包括：

横向聚合分析模块，用于利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析；

所述数据分析模块具体包括：

所述非正常业务关系数据处理模块具体包括：

4.根据权利要求3所述的基于k均值聚类算法的搜索引擎聚合分析系统，其特征在于，所述非正常业务关系数据处理模块还包括：