CN112200206A

CN112200206A - 基于分布式平台的birch算法改进方法、装置及设备

Info

Publication number: CN112200206A
Application number: CN201910608916.8A
Authority: CN
Inventors: 江绪宇
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2021-01-08
Anticipated expiration: 2039-07-08
Also published as: CN112200206B

Abstract

本发明实施例公开了一种基于分布式平台的BIRCH算法改进方法、装置及设备。其中方法包括：将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中；根据所述分区中待处理数据，并行建立聚类特征树；重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树；根据所述目的聚类特征树中所述代表性数据的聚类结果，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。本发明实施例通过对数据进行多轮并列聚类分析，不仅能够显著提高数据分析效率，还能确保数据分析的准确度，提高了用户体验。

Description

基于分布式平台的BIRCH算法改进方法、装置及设备

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种基于分布式平台的BIRCH算法改进方法、装置及设备。

背景技术

随着互联网技术及计算机技术的发展，越来越多的数据被存储，以用于对数据进行挖掘再利用。实际应用中，存储的数据需要经过分析得到数据之间的联系，之后才能应用于实际业务场景中。例如，对拍摄的大量人脸图片数据进行人工标注之后，才能将标注后的人脸图片数据应用到业务分析场景中。然而，通过人工标注成本较高，耗费时间长。为此如何提高对存储数据分析的速度，成为目前要解决的问题之一。

相关技术中，由于聚类算法可替代人工操作将具有相似特征的数据进行自动分类，降低成本，因此通过借助聚类算法可实现对大数据量的数据进行分析处理。常见的聚类算法包括如下几种，具体参见表1所示：

表1：

其中，若通过借助利用层次方法的平衡迭代规约和聚类(Balanced IterativeReducing and Clustering Using Hierarchies，缩写：BIRCH)算法，对存储的数据进行聚类分析时，由于存储的数据量较大，那么在将所有存储的数据都插入到一棵聚类特征树时，则需要花费较长时间，导致数据聚类分析速度慢、效率低。

发明内容

本发明实施例提供一种基于分布式平台的BIRCH算法改进方法、装置及设备，实现了通过对数据进行多轮并列聚类分析，不仅能够显著提高数据分析效率，还能确保数据分析的准确度，提高了用户体验。

第一方面，本发明实施例提供了一种基于分布式平台的BIRCH算法改进方法，该方法包括：将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中；根据所述分区中待处理数据，并行建立聚类特征树；重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树；根据所述目的聚类特征树中所述代表性数据的聚类结果，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。

第二方面，本发明实施例还提供了一种基于分布式平台的BIRCH算法改进装置，该装置包括：数据存储模块，用于将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中；第一建立模块，用于根据所述分区中待处理数据，并行建立聚类特征树；第二建立模块，用于重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树；结果同步模块，用于根据所述目的聚类特征树中所述代表性数据的聚类结果，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。

第三方面，本发明实施例还提供了一种计算机设备，该计算机设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面实施例所述的基于分布式平台的BIRCH算法改进方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时以实现第一方面实施例所述的基于分布式平台的BIRCH算法改进方法。

本发明实施例公开的技术方案，具有如下有益效果：

通过将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中，以根据分区中待处理数据，并行建立聚类特征树，重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树，然后根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属的聚类特征中其他数据的聚类结果进行同步处理。本发明实施例中根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，而代表性数据包括所属聚类特征中全部数据的特征信息，因此可以确保数据分析的准确度，再者，根据代表数据生成聚类特征树，而其他数据不参与聚类特征树的生成，并且对数据进行并列聚类分析，显著提高了数据分析效率，由此，实现了通过对代表数据进行多轮并列聚类分析，不仅能够显著提高数据分析效率，还能确保数据分析的准确度，提高了用户体验。此外，本发明实施例根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属的聚类特征中其他数据的聚类结果进行同步处理，也能够确保其他数据分析的准确度。

附图说明

图1是本发明实施例一提供的一种基于分布式平台的BIRCH算法改进方法的流程示意图；

图2是本发明实施例一提供的根据上一层聚类特征树，生成当前层聚类特征树的示意图；

图3是本发明实施例二提供的一种基于分布式平台的BIRCH算法改进方法的流程示意图；

图4是本发明实施例三提供的一种基于分布式平台的BIRCH算法改进方法的流程示意图；

图5是本发明实施例四提供的一种基于分布式平台的BIRCH算法改进装置的结构示意图；

图6是本发明实施例五提供的一种基于分布式平台的BIRCH算法改进装置的结构示意图；

图7是本发明实施例六提供的一种基于分布式平台的BIRCH算法改进装置的结构示意图；

图8是本发明实施例七提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

本发明实施例针对相关技术中，利用传统的利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering Using Hierarchies，缩写：BIRCH)算法，对大数据量的数据进行聚类分析时存在的数据分析速度慢、效率低的问题，提出一种基于分布式平台的BIRCH算法改进方法。

本发明实施例，通过将待处理数据划分为多组，并将多组待处理数据分别存储至spark平台中弹性分布式数据集(Resilient Distributed Datasets，简称：RDD)的分区中，根据分区中待处理数据，并行建立聚类特征树，重复执行对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树，然后根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属的聚类特征中其他数据的聚类结果进行同步处理。由此，实现了通过对数据进行多轮并列聚类分析，不仅能够显著提高数据分析效率，还能确保数据分析的准确度，提高了用户体验。

下面参考附图描述本发明实施例的基于分布式平台的BIRCH算法改进方法、装置及设备进行详细说明。

实施例一

图1是本发明实施例一提供的一种基于分布式平台的BIRCH算法改进方法的流程示意图，本实施例可适用于对数据聚类分析的情况，该方法可以由基于分布式平台的BIRCH算法改进装置来执行，以实现对数据聚类分析过程进行控制，该基于分布式平台的BIRCH算法改进装置可由硬件和/或软件组成，并一般可集成于计算机设备中，该计算机设备可以是任意具有数据处理功能的硬件设备，比如个人电脑等。该基于分布式平台的BIRCH算法改进方法具体包括如下：

S101，将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中。

其中，待处理数据可以是但不限于：图片数据、文本数据、视频数据及音频数据等，此处对其不做具体限定。

本实施例中，在执行S101之前，可先对待处理数据进行分组处理，之后根据分组数量从spark平台中弹性分布式数据集(Resilient Distributed Datasets，简称：RDD)中确定对应数量的分区，以将每组待处理数据存入对应分区中。其中，本实施例对待处理数据进行分组处理时，可以是随机进行分组，也可以按照预先设置的分组规则，对待处理数据进行分组处理，此处对其不做具体限定。例如，预先设置的分组规则，可以是对待处理数据均等数量划分，或者不均等数量划分等。

进一步的，在对待处理数据进行分组处理之后，可将每组待处理数据分别存储至对应的分区中。

例如，若待处理数据分为3组，那么基于分布式平台的BIRCH算法改进装置可为上述3组待处理数据分配3个分区，分别为：分区a1、分区a2、分区a3，则可将第一组待处理数据存入分区a1，将第二组待处理数据存入分区a2，将第三组待处理数据存入分区a3。

S102，根据所述分区中待处理数据，并行建立聚类特征树。

由于spark平台中RDD的分区可实现并行计算，因此本实施例通过将分组后的待处理数据，分别存储至RDD的分区中，以实现对待处理数据进行并行聚类分析，即并行建立聚类特征树，以提高数据聚类分析速度。

其中，建立聚类特征树的数量与待处理数据的组数数量相同。换言之，聚类特征树数量与分区数量相同。

例如，若分区数量为3，分别为分区a1、分区a2、分区a3，则基于分布式平台的BIRCH算法改进装置可同时控制分区a1根据自身中的待处理数据建立聚类特征树A1，分区a2根据自身中的待处理数据建立聚类特征树A2，分区a3根据自身中的待处理数据建立聚类特征树A3。

也就是说，本实施例中可利用建立一棵聚类特征树的时间，来建立多棵聚类特征树，从能够达到多线程数据聚类效果，有效提升数据聚类速度。

S103，重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树。

在本实施例中，代表性数据包括所属聚类特征中所有数据的特征信息。其中，代表性数据可以是聚类特征中的任一数据。例如，第1个数据、第3个数据、最后一个数据等，此处对其不做具体限定。

需要注意的是，若代表性数据为聚类特征中除最后一个数据之外的任一数据，并根据该任一数据建立聚类特征树之前，需要根据该任一数据所属聚类特征中所有数据的特征信息，对该任一数据的特征信息进行更新，以使该任一数据包括所属聚类特征中所有数据的特征信息，然后再根据该任一数据建立聚类特征树。

若代表性数据为聚类特征中的最后一个数据时，由于最后一个数据在融入聚类特征时，该最后一个数据会将所属聚类特征中其他数据的特征信息与自身的特征信息进行融合，因此本实施例可直接获取最后一个数据建立聚类特征树。

进一步的，待处理数据的数据量可能会很大，对待处理数据分组的数量可能会有多个，例如2组、3组、4组、5组、6组等等，从而使得建立的聚类特征树也为多个。那么为了快速高效的得到目的聚类特征树，本实施例在建立上一层聚类特征树之后，基于分布式平台的BIRCH算法改进装置可对上一层聚类特征树进行分组，然后根据每组中包括的上一层聚类特征树的代表性数据，并行生成每组当前层聚类特征树，直至建立目的聚类特征。其中，目的聚类特征树的数量为1。

在本实施例中，对上一层聚类特征树分组后，每组中可包括至少两个上一层聚类特征树，使得根据每组中包括的至少两个上一层聚类特征树生成每组当前层聚类特征树。

作为一种可选的实现方式，本实施例对上一层聚类特征树进行分组，根据每组中上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，可采用如下方式：

方式一：

从上一层聚类特征树中任选预设数量的聚类特征树作为一组，根据每组中聚类特征树的代表性数据，生成每组的当前层聚类特征树，其中各组聚类特征树的数目相同或不同。

其中，预设数量可根据实际需求进行设置，例如2、3、4等，此处不做具体限定。

例如，若上一层聚类特征树的数量为6个，预设数量为2，则可任选两个上一层聚类特征树作为一组，得到三组聚类特征树，并根据上述三组中的上一层聚类特征树的代表性数据，生成每组当前层聚类特征树。

又如，若上一层聚类特征树数量为6个，预设数量为4，则可任选四个上一层聚类特征树作为一组，剩余两个上一层特征树作为一组，并根据上述两组中的上一层聚类特征树的代表性数据，生成每组当前层聚类特征树。

方式二：

步骤S11，确定上一层聚类特征树的数量是否为偶数，若为偶数则执行步骤S12，否则执行步骤S13。

步骤S12，若上一层聚类特征树的数量为偶数，则从上一层聚类特征树中任选两个聚类特征树作为一组，根据每组中两个聚类特征的代表性数据，生成每组的当前层聚类特征树。

举例说明，若上一层聚类特征树的数量为4个，分别为T1、T2、T3及T4，那么基于分布式平台的BIRCH算法改进装置，可选取T1和T3作为组Z1，T2和T4作为组Z2，并根据组Z1中T1和T3的代表性数据，生成组Z1的当前层聚类特征树，根据组Z2中T2和T4的代表性数据，生成组Z2的当前层聚类特征树。

又如，如图2所示，若上一层聚类特征树的数量为2，分别为F1和F2，其中F1和F2中均包括多个节点(如图2中标记21)，每个节点中包括多个聚类特征(如图2中标记22)，并且每个聚类特征中还包括多个数据(如图2中标记23)，其中数据包括代表性数据和其他数据(如图2中，x为代表性数据，·为其他数据)，那么可根据F1和F2的代表性数据，生成当前层聚类特征树F3。

步骤S13，若所述上一层聚类特征树的数量为奇数，则从所述上一层聚类特征树中任选两个聚类特征树作为一组，并将剩余的聚类特征树与任意组中的两个聚类特征树作为一组，根据每组中至少两个聚类特征树的代表性数据，生成每组的当前层聚类特征树。

例如，若上一层聚类特征树的数量为5，分别为D1、D2、D3、D4、D5，那么基于分布式平台的BIRCH算法改进装置，可选取D1和D3作为组1，D2和D5作为组2，此时还剩余一个上一层聚类特征树D4，则可将D4随机分配至组1或者组2中，假设将D4分配至组1，则根据组1中D1、D3和D4的代表性数据，生成组1的当前层聚类特征树，根据组2中D2和D5的代表性数据，生成组2的当前层聚类特征树。

需要说明的是，上述两种方式仅为是示例性说明，不作为对本发明的具体限定。也就是说，除了上述两种方式之外，本实施例还可通过其他方式，生成每组的当前层聚类特征树。例如，按照某一预设规则对上一层聚类特征树进行分组进行合并，其中每组中上一层聚类特征树的数量可以相同也可以不同，

S104，根据所述目的聚类特征树中所述代表性数据的聚类结果，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。

其中，目的聚类特征树中代表性数据，是指各层聚类特征树的代表性数据。

在本实施例中，目的聚类特征树是根据各层聚类特征树中的代表性数据进行聚类分析得到的，而与代表性数据属于同一类别的其他数据并没有参与进一步的聚类分析，从而有效降低了数据处理量，提高了数据聚类分析速度。

进一步的，由于各层聚类特征树中与代表性数据属于同一类别的其他数据未参与进一步的聚类分析，因此当目的聚类特征树中代表性数据的聚类结果，与在各层聚类特征树中的聚类结果不相同时，本实施例可根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中该代表性数据所属聚类特征中其他数据的聚类结果进行同步，以确保各层聚类特征树中与代表性数据属于同一类别的其他数据的聚类结果具有较高的准确性和可靠性。

例如，若目的聚类特征树中代表性数据为DATA1，该DATA1的聚类结果为G,那么当基于分布式平台的BIRCH算法改进装置确定DATA1所属的各层聚类特征树为聚类特征树x1、聚类特征树y3，则可根据DATA1的聚类结果G，对x1和y3中DATA1所属的聚类特征中除自身之外的其他数据的聚类结果进行同步处理,使得其他数据的聚类结果更新为G。

为了更容易理解本发明，下面通过一个具体示例对基于分布式平台的BIRCH算法改进方法进行解释说明。

假设本实施例中待处理数据分为9组，则首先建立9个聚类特征树分别为：T1、T2、T3、T4、T5、T6、T7、T8、T9，将该9个聚类特征树作为第一层，然后对该9个聚类特征树进行分组，将T1、T2、T3作为第一组，T4、T5、T6作为第二组，T7、T8、T9作为第三组，并根据第一组中T1、T2、T3的代表性数据，生成第一组的当前层聚类特征树T11，根据第二组T4、T5、T6的代表性，生成第二组的当前层聚类特征树T12，根据第三组T7、T8、T9的代表性，生成第三组的当前层聚类特征树T13，将T11、T12、T13作为第二层，然后将T11、T12、T13作为一组，根据T11、T12、T13的代表性，生成该组对应的聚类特征树T21，并将该T21作为第三层，由于T21数量为1，则该T21为目的聚类特征树。

进一步的，得到目的聚类特征树之后，根据目的聚类特征树中的代表性数据，确定第一层和第二层聚类特征树中该代表性数据所属的聚类特征。当确定出所属的聚类特征之后，若该代表性数据与第二层聚类特征树中所属的聚类特征的聚类结果一致，与第一层聚类特征树中所属的聚类特征的聚类结果不一致，则对第一层聚类特征树中所属的聚类特征的其他数据的聚类结果进行同步处理。

本发明实施例提供的基于分布式平台的BIRCH算法改进方法，通过将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中，以根据分区中待处理数据，并行建立聚类特征树，重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树，然后根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属的聚类特征中其他数据的聚类结果进行同步处理。本发明实施例中根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，而代表性数据包括所属聚类特征中全部数据的特征信息，因此可以确保数据分析的准确度，再者，本发明实施例根据代表数据生成聚类特征树，而其他数据不参与聚类特征树的生成，并且对数据进行并列聚类分析，显著提高了数据分析效率，由此，实现了通过对代表数据进行多轮并列聚类分析，不仅能够显著提高数据分析效率，还能确保数据分析的准确度，提高了用户体验。此外，本发明实施例根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属的聚类特征中其他数据的聚类结果进行同步处理，也能够确保其他数据分析的准确度。

实施例二

通过上述分析可知，本发明实施例通过借助RDD中的分区，并行建立聚类特征树，以实现对数据进行并列聚类分析，提高数据分析效率及准确度。

具体实现过程中，当分区中待处理数据数量较大时，会存在同一时间点需要处理较多数据，这就会占用较大内存空间，增大计算机设备的运算负担。为此，本实施例可对分区中同一时间将要聚类分析的待处理数据的数量进行限制，以减轻计算机设备的运算负担。下面结合图3，对本发明实施例基于分布式平台的BIRCH算法改进方法上述情况进行说明。

图3是本发明实施例二提供的一种基于分布式平台的BIRCH算法改进方法的流程示意图。

如图3所示，本发明实施例的基于分布式平台的BIRCH算法改进方法具体包括如下：

S301，将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中。

S302，从所述分区中的待处理数据中选取预设数值个待处理数据，若所述分区中存在剩余待处理数据，则重新分配新的分区，以将所述剩余待处理数据存储至新的分区中。

其中，预设数值可根据计算机设备的内存空间进行适应性设置，此处对其不做具体限定。

例如，若本实施例中待处理数据存储在三个分区中，分别为Q1、Q2、Q3，预设阈值为10，那么当分区Q1中待处理数据的数据量为15，分区Q2中待处理数据的数据量为10、分区Q3中待处理数据的数据量为20时，基于分布式平台的BIRCH算法改进装置可根据预设阈值10，从分区Q1、Q2、Q3中随机选取10个待处理数据，此时分区Q1中剩余5个待处理数据，分区Q3中剩余10个待处理数据，那么基于分布式平台的BIRCH算法改进装置可为分区Q1中剩余的5个待处理数据重新分配一个分区Q4，为分区Q3中剩余的10个待处理数据重新分配一个分区Q5，以将分区Q1中剩余的5个待处理数据存储至分区Q4中，将分区Q3中剩余的10个待处理数据存储至分区Q5中。

又如，若本实施例中待处理数据存储在三个分区中，分别为Q1、Q2、Q3，预设阈值为10，那么当分区Q1中待处理数据的数据量为15，分区Q2中待处理数据的数据量为13、分区Q3中待处理数据的数据量为10时，基于分布式平台的BIRCH算法改进装置可根据预设阈值10，分别从Q1、Q2及Q3中随机选取10个待处理数据，此时分区Q1中剩余5个待处理数据，分区Q2中剩余3个待处理数据，那么基于分布式平台的BIRCH算法改进装置可将分区Q1和Q2中剩余的待处理数据进行合并，并为合并后的剩余待处理数据分配一个分区Q6，以将剩余的8个待处理数据存储至分区Q6中。

S303，根据所述分区中预设数值个待处理数据，和新的分区中剩余待处理数据，并行建立聚类特征树。

继续以S302中第一个示例进行说明，在得到分区Q1、Q2、Q3、Q4、Q5之后，基于分布式平台的BIRCH算法改进装置可根据上述5个分区中的待处理数据，并行建立对应的5个聚类特征树。

S304，重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树。

S305，根据所述目的聚类特征树中所述代表性数据的聚类结果，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。

本发明实施例提供的基于分布式平台的BIRCH算法改进方法，在根据分区中待处理数据，并行建立聚类特征树时，通过从分区中的待处理数据中选取预设数值个待处理数据，并当分区中存在剩余待处理数据时，为剩余待处理数据重新分配新的分区，以将剩余待处理数据存储至新的分区中，然后根据分区中预设数值个待处理数据和新的分区中剩余待处理数据，并行建立聚类特征树，重复执行对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树，然后根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。由此，实现了通过对数据进行多轮并列聚类分析，不仅能够显著提高数据分析效率，还能确保数据分析的准确度，此外还能降低内存资源的占用量，极大的满足了用户需要。

实施例三

通过上述分析可知，本发明实施例通过从分区中选取预设数值个待处理数据，并为分区中剩余的待处理数据分配新的分区，然后并行建立聚类特征树。

在实际应用过程中，为了方便技术人员了解待处理数据之间的联系，本实施例还可对建立的聚类特征树中每个叶子节点的聚类特征设置标识信息，从而使得技术人员可根据标识信息确定数据之间关系。下面结合图4，对本发明实施例基于分布式平台的BIRCH算法改进方法上述情况说明。

图4是本发明实施例三提供的一种基于分布式平台的BIRCH算法改进方法的流程示意图。

如图4所示，该基于分布式平台的BIRCH算法改进方法具体包括如下：

S401，将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中。

S402,根据所述分区中待处理数据，并行建立聚类特征树，对聚类特征树中叶子节点的聚类特征设置标识信息。

其中，本实施例中标识信息是指通过为每个聚类特征确定一个唯一的编码、号码等信息，使得每个聚类特征都能与其他聚类特征相区分，此处对标识信息的类型不做具体限定。例如，中文名称、英文名称、几何形状等，此处对其不做具体限定。

由于待处理数据最终被存储在聚类特征树中叶子节点的聚类特征中，因此本实施例对聚类特征树中叶子节点的聚类特征设置标识信息。

在本实施例中，对聚类特征树中叶子节点的聚类特征设置标识信息，可通过如下方式实现：

方式一：

根据预先建立的映射关系，对聚类特征树中叶子节点的聚类特征设置标识信息。

其中，预先建立的映射关系可以是按照叶子节点中聚类特征的顺序，依次设置标识信息。

例如，若聚类特征树A1中包括2个叶子节点且每个叶子节点中均包括两个聚类特征，标识信息为编号，则按照预先建立的映射关系，依次为2个叶子节点中的聚类特征设置标识信息：1、2、3、4。

方式二：

根据每个聚类特征中数据属性，对聚类特征树中叶子节点的聚类特征设置标识信息。

例如，若聚类特征树T1中包括3个叶子节点、且每个叶子节点中均包括2个聚类特征，那么基于分布式平台的BIRCH算法改进装置可根据每个聚类特征的属性信息，为每个聚类特征设置不同的几何形状标识。

需要说明的是，上述两种方式仅为对本发明的示例性说明，不作为对本发明的具体限定。

S403,重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树。

需要说明的是，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树时，仅提取数据，不提取数据的标识信息，以实现通过对各层聚类特征树中代表性数据进行多轮聚类，得到更为准确的聚类结果，并对该聚类结果设置标识信息。

S404,根据所述目的聚类特征树中所述代表性数据的标识信息，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的标识信息进行同步处理。

由于各层聚类特征树中与代表性数据属于同一类别的其他数据未参与进一步的聚类分析，因此当目的聚类特征树中代表性数据设置的标识信息，与在各层聚类特征树中的标识信息不相同时，本实施例可根据目的聚类特征树中代表性数据的标识信息，对各层聚类特征树中该代表性数据所属的聚类特征中其他数据的标识信息进行同步，以确保各层聚类特征树中与代表性数据属于同一类别的其他数据的标识信息具有较高的准确性和可靠性。

例如，若最终的聚类特征树中代表性数据V的聚类结果为A,此时可根据预设的方式，对代表性数据V设置标识信息①，当确定各层聚类特征树中上述代表性数据V所属的聚类特征中的其他数据的标识信息与标识信息①不相同时，则根据代表性数据V的标识信息①，对各层聚类特征树中上述代表性数据V所属的聚类特征中的其他数据的标识信息进行同步，以使其他数据的标识信息与代表性数据V的标识信息相同。

本发明实施例提供的基于分布式平台的BIRCH算法改进，通过对聚类特征树中的叶子节点的聚类特征设置标识信息，使得技术人员可以更容易的获取到数据的内在联系，从而避免了人为手动进行数据分析，提高了数据处理效率。

实施例四

为了实现上述目的，本发明实施例四还提出了一种基于分布式平台的BIRCH算法改进装置。

图5是本发明实施例四提供的一种基于分布式平台的BIRCH算法改进装置的结构示意图。

如图5所示，本发明实施例基于分布式平台的BIRCH算法改进装置包括：数据存储模块11、第一建立模块12、第二建立模块13及结果同步模块14。

其中，数据存储模块11用于将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中；

第一建立模块12用于根据所述分区中待处理数据，并行建立聚类特征树；

第二建立模块13用于重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树；

结果同步模块14用于根据所述目的聚类特征树中所述代表性数据的聚类结果，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。

作为本发明实施例的一种可选的实现方式，所述代表性数据包括所属聚类特征中全部数据的特征信息。

作为本发明实施例的一种可选的实现方式，所述代表性数据是聚类特征中的任一数据。

作为本发明实施例的一种可选的实现方式，第二建立模块13具体用于：除所述目的聚类特征树所在组以外的每组中包括至少两个上一层聚类特征树，所述目的聚类特征树的数量为1。

作为本发明实施例的一种可选的实现方式，第二建立模块13还用于：

从所述上一层聚类特征树中任选预设数量的聚类特征树作为一组，根据每组中聚类特征树的代表性数据，生成每组的当前层聚类特征树，其中各组聚类特征树的数目相同或不同。

需要说明的是，前述对基于分布式平台的BIRCH算法改进方法实施例的解释说明也适用于该实施例的基于分布式平台的BIRCH算法改进装置，其实现原理类似，此处不再赘述。

本发明实施例提供的基于分布式平台的BIRCH算法改进装置，通过将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中，以根据分区中待处理数据，并行建立聚类特征树，重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树，然后根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属的聚类特征中其他数据的聚类结果进行同步处理。本发明实施例中根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，而代表性数据包括所属聚类特征中全部数据的特征信息，因此可以确保数据分析的准确度，再者，根据代表数据生成聚类特征树，而其他数据不参与聚类特征树的生成，并且对数据进行并列聚类分析，显著提高了数据分析效率，由此，实现了通过对代表数据进行多轮并列聚类分析，不仅能够显著提高数据分析效率，还能确保数据分析的准确度，提高了用户体验。此外，本发明实施例根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属的聚类特征中其他数据的聚类结果进行同步处理，也能够确保其他数据分析的准确度。

实施例五

图6是本发明实施例五提供的一种基于分布式平台的BIRCH算法改进装置的结构示意图。

如图6所示，本发明实施例基于分布式平台的BIRCH算法改进包括：数据存储模块11、第一建立模块12、第二建立模块13及结果同步模块14。

作为本发明实施例的一种可选的实现方式，第一建立模块12包括：存储子单元121和并行建立子单元122。

其中，存储子单元121用于从所述分区中的待处理数据中选取预设数值个待处理数据，若所述分区中存在剩余待处理数据，则重新分配新的分区，以将所述剩余待处理数据存储至所述新的分区中；

并行建立子单元122用于根据所述分区中预设数值个待处理数据，和新的分区中剩余待处理数据，并行建立聚类特征树。

本发明实施例提供的基于分布式平台的BIRCH算法改进装置，在根据分区中待处理数据，并行建立聚类特征树时，通过从分区中的待处理数据中选取预设数值个待处理数据，并当分区中存在剩余待处理数据时，为剩余待处理数据重新分配新的分区，以将剩余待处理数据存储至新的分区中，然后根据分区中预设数值个待处理数据和新的分区中剩余待处理数据，并行建立聚类特征树，重复执行对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树，然后根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。由此，实现了通过对数据进行多轮并列聚类分析，不仅能够显著提高数据分析效率，还能确保数据分析的准确度，此外还能降低内存资源的占用量，极大的满足了用户需要。

实施例六

图7是本发明实施例六提供的一种基于分布式平台的BIRCH算法改进装置的结构示意图。

如图7所示，本发明实施例基于分布式平台的BIRCH算法改进装置包括：数据存储模块11、第一建立模块12、第二建立模块13及结果同步模块14。

作为本发明实施例的一种可选的实现方式，第一建立模块12还包括：标识设置单元123。

其中，标识设置单元123用于对所述聚类特征树中叶子节点的聚类特征设置标识信息；

所述结果同步模块14具体用于：

根据所述最终的聚类特征树中所述代表性数据的标识信息，对各层聚类特征树中所述代表性数据所属聚类特征中的其他数据的标识信息进行同步处理。

本发明实施例提供的基于分布式平台的BIRCH算法改进装置，通过对聚类特征树中的叶子节点的聚类特征设置标识信息，使得技术人员可以更容易的获取到数据的内在联系，从而避免了人为手动进行数据分析，提高了数据处理效率。

实施例七

为了实现上述目的，本发明实施例七还提出了一种计算机设备。

图8是本发明实施例七提供的一种计算机设备的结构示意图，如图8所示，该计算机设备包括处理器1000、存储器1001、输入装置1002和输出装置1003；计算机设备中处理器1000的数量可以是一个或多个，图8中以一个处理器1000为例；计算机设备中的处理器1000、存储器1001、输入装置1002和输出装置1003可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器1001作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于分布式平台的BIRCH算法改进方法对应的程序指令/模块(例如，基于分布式平台的BIRCH算法改进装置中的数据存储模块11、第一建立模块12、第二建立模块13及结果同步模块14)。处理器1000通过运行存储在存储器1002中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的基于分布式平台的BIRCH算法改进方法。

存储器1001可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器1001可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器1001可进一步包括相对于处理器1000远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1002可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置1003可包括显示屏等显示设备。

需要说明的是，前述对基于分布式平台的BIRCH算法改进方法实施例的解释说明也适用于该实施例的计算机设备，其实现原理类似，此处不再赘述。

本发明实施例提供的计算机设备，通过将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中，以根据分区中待处理数据，并行建立聚类特征树，重复执行对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树，然后根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属的聚类特征中其他数据的聚类结果进行同步处理。本发明实施例中根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，而代表性数据包括所属聚类特征中全部数据的特征信息，因此可以确保数据分析的准确度，再者，根据代表数据生成聚类特征树，而其他数据不参与聚类特征树的生成，并且对数据进行并列聚类分析，显著提高了数据分析效率，由此，实现了通过对代表数据进行多轮并列聚类分析，不仅能够显著提高数据分析效率，还能确保数据分析的准确度，提高了用户体验。此外，本发明实施例根据目的聚类特征树中代表性数据的聚类结果，对各层聚类特征树中代表性数据所属的聚类特征中其他数据的聚类结果进行同步处理，也能够确保其他数据分析的准确度。

实施例八

为了实现上述目的，本发明实施例八还提出了一种计算机可读存储介质。

本发明实施例提供的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的基于分布式平台的BIRCH算法改进方法，该方法包括：将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中；根据所述分区中待处理数据，并行建立聚类特征树；重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树；根据所述目的聚类特征树中所述代表性数据的聚类结果，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。

当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明实施例任意实施例所提供的基于分布式平台的BIRCH算法改进方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明实施例可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

注意，上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明实施例不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明实施例构思的情况下，还可以包括更多其他等效实施例，而本发明实施例的范围由所附的权利要求范围决定。

Claims

1.一种基于分布式平台的BIRCH算法改进方法，其特征在于，所述方法包括：

将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中；

根据所述分区中待处理数据，并行建立聚类特征树；

重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树；

根据所述目的聚类特征树中所述代表性数据的聚类结果，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。

2.根据权利要求1所述的方法，其特征在于，所述代表性数据包括所属聚类特征中全部数据的特征信息。

3.根据权利要求1或2所述的方法，其特征在于，所述代表性数据是聚类特征中的任一数据。

4.根据权利要求1所述的方法，其特征在于，除所述目的聚类特征树所在组以外的每组中包括至少两个上一层聚类特征树，所述目的聚类特征树的数量为1。

5.根据权利要求4所述的方法，其特征在于，所述对上一层聚类特征树进行分组，根据每组中上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述分区中待处理数据，并行建立聚类特征树，包括：

从所述分区中的待处理数据中选取预设数值个待处理数据，若所述分区中存在剩余待处理数据，则重新分配新的分区，以将所述剩余待处理数据存储至所述新的分区中；

根据所述分区中预设数值个待处理数据，和新的分区中剩余待处理数据，并行建立聚类特征树。

7.根据权利要求1-2、4-6任一项所述的方法，其特征在于，所述根据所述分区中待处理数据，并行建立聚类特征树，还包括：

对所述聚类特征树中叶子节点的聚类特征设置标识信息；

所述对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理，包括：

8.一种基于分布式平台的BIRCH算法改进装置，其特征在于，包括：

数据存储模块，用于将至少两组待处理数据分别存储至spark平台中弹性分布式数据集的分区中；

第一建立模块，用于根据所述分区中待处理数据，并行建立聚类特征树；

第二建立模块，用于重复执行如下操作：对上一层聚类特征树进行分组，根据每组中至少两个上一层聚类特征树的代表性数据，生成每组的当前层聚类特征树，直至建立目的聚类特征树；

结果同步模块，用于根据所述目的聚类特征树中所述代表性数据的聚类结果，对各层聚类特征树中所述代表性数据所属聚类特征中其他数据的聚类结果进行同步处理。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于分布式平台的BIRCH算法改进方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于分布式平台的BIRCH算法改进方法。