CN110874615A

CN110874615A - 特征聚类处理方法、集群服务器及可读存储介质

Info

Publication number: CN110874615A
Application number: CN201911124455.3A
Authority: CN
Inventors: 陈瑞钦; 黄启军; 林冰垠; 李诗琦; 唐兴兴
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-03-10
Anticipated expiration: 2039-11-14
Also published as: CN110874615B; WO2021093857A1

Abstract

本发明公开了一种特征聚类处理方法、集群服务器及可读存储介质，方法包括：按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块，并基于多个数据块，确定特征集的协方差矩阵；根据特征集的协方差矩阵判断特征集是否满足预设拆分条件；若满足，则对特征集进行拆分处理以获得子聚类；根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵，确定子聚类的协方差矩阵；若根据子聚类的协方差矩阵确定子聚类满足预设拆分条件，则对子聚类进行拆分处理。这样，无需针对每个聚类再重新计算一次协方差矩阵，避免了大量数据计算和各个节点与控制节点之间的通信开销，大幅度地提升了计算效率。

Description

特征聚类处理方法、集群服务器及可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种特征聚类处理方法、集群服务器及可读存储介质。

背景技术

随着机器学习技术和互联网技术的快速发展，越来越多的领域开始应用到机器学习技术，通过特征工程技术对输入特征进行处理能有效地提升训练模型可解释性和鲁棒性。分析特征之间的相似性，将相似度较高的特征聚类在一起，选取每个聚类中的代表特征作为聚类输出特征，能够在降低特征之间相关性同时还能减少输入训练模型特征数量，有效地提升了训练模型的鲁棒性和可解释性。

目前，建模输入特征的数量会有成千上万，由于特征数据量大，对于特征聚类的算法提出越来越高的要求。例如，当面对大量的特征数据时，会导致计算复杂，从而会造成计算效率低。

发明内容

本发明的主要目的在于提供一种特征聚类处理方法、集群服务器及可读存储介质，旨在解决现有技术中的面对大量特征数据时，会导致计算复杂，从而会造成计算效率低的技术问题。

为实现上述目的，本发明提供一种特征聚类处理方法，所述方法包括：

按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块，并基于所述多个数据块，确定所述特征集的协方差矩阵；

根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件；

若满足，则对所述特征集进行拆分处理以获得子聚类；

根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵，确定所述子聚类的协方差矩阵；

若根据所述子聚类的协方差矩阵确定所述子聚类满足预设拆分条件，则对所述子聚类进行拆分处理。

进一步地，所述按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块，并基于所述多个数据块，确定所述特征集的协方差矩阵的步骤，包括：

获取所述特征集，并将所述特征集按矩阵的形式进行存储；

将所述特征集按预设矩阵规则拆分为所述多个数据块，并将所述多个数据块分别一一分配至多个计算节点；

根据分别位于所述多个计算节点的所述多个数据块计算所述特征集的协方差矩阵。

进一步地，所述根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵，确定所述子聚类的协方差矩阵的步骤，包括：

根据所述子聚类所包含的特征在所述特征集的矩阵形式中的行列位置，提取出与所述行列位置相对应的所述特征集的协方差矩阵的行向量或列向量，确定所述子聚类的协方差矩阵。

进一步地，所述根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件的步骤，包括：

根据所述特征集的协方差矩阵，选取数值最大的第一特征值和第二特征值，其中所述第一特征值大于或等于所述第二特征值；

判断所述第二特征值是否大于或等于预设特征值；

若所述第二特征值大于或等于所述预设特征值时，则所述特征集满足所述预设拆分条件；

若所述第二特征值小于所述预设特征值时，则所述特征集不满足所述预设拆分条件。

进一步地，所述若满足，则对所述特征集进行拆分处理以获得子聚类的步骤，包括：

若所述特征集满足所述预设拆分条件时，则根据所述特征集的协方差矩阵选取出数值最大的所述第一特征值和所述第二特征值，并根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类；

获取与所述第一子聚类的协方差矩阵相对应的数值最大的第三特征值，获取与所述第二子聚类的协方差矩阵相对应的数值最大的第四特征值；根据所述第三特征值和所述第四特征值，将所述第一子聚类和所述第二子聚类进行调整，得到调整后的第三子聚类和第四子聚类；

判断所述第三子聚类与所述第一子聚类是否相同，以及所述第四子聚类与所述第二子聚类是否相同；

若不相同，则将所述第一子聚类更新为所述第三子聚类，所述第二子聚类更新为所述第四子聚类，并重新执行调整的步骤；

若相同，则将所述特征集拆分为所述第一子聚类和所述第二子聚类。

进一步地，所述根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类的步骤，包括：

根据所述特征集的协方差矩阵，计算与所述第一特征值相对应的第一特征向量，且计算与所述第二特征值相对应的第二特征向量；

根据所述特征集分别计算与所述第一特征向量相对应的第一投影特征，以及与所述第二特征向量相对应的第二投影特征；

计算所述特征集的每一特征分别与所述第一投影特征和所述第二投影特征的相关系数；

根据所述相关系数的大小，并将所述特征集预拆分为所述第一子聚类和所述第二子聚类。

进一步地，获取与所述第一子聚类的协方差矩阵相对应的数值最大的第三特征值，获取与所述第二子聚类的协方差矩阵相对应的数值最大的第四特征值；根据所述第三特征值和所述第四特征值，将所述第一子聚类和所述第二子聚类进行调整，得到调整后的第三子聚类和第四子聚类的步骤，包括：

根据所述第一子聚类的协方差矩阵，计算与所述第三特征值相对应的第三特征向量；根据所述第二子聚类的协方差矩阵，计算与所述第四特征值相对应的第四特征向量；

根据所述第一子聚类计算与所述第三特征向量相对应的第三投影特征；

根据所述第二子聚类计算与所述第四特征向量相对应的第四投影特征；

计算所述特征集的每一特征分别与所述第三投影特征和所述第四投影特征的相关系数；

根据所述相关系数的大小，将所述第一子聚类和所述第二子聚类进行调整，得到调整后的所述第三子聚类和所述第四子聚类。

进一步地，所述方法还包括：

若根据所述子聚类的协方差矩阵确定所述子聚类不满足预设拆分条件，则将所述子聚类作为聚类结果输出。

本发明还提供一种集群服务器，其特征在于，所述集群服务器包括一个或多个服务器，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述特征聚类处理程序被所述处理器执行时实现如上述的特征聚类处理方法的步骤。

本发明还提供一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的特征聚类处理方法的步骤。

本发明提出的特征聚类处理方法，通过按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块，并基于多个数据块，确定特征集的协方差矩阵；根据特征集的协方差矩阵判断特征集是否满足预设拆分条件；若满足，则对特征集进行拆分处理，并根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵，确定子聚类的协方差矩阵；若根据子聚类的协方差矩阵确定子聚类满足预设拆分条件，则对子聚类进行拆分处理。这样，在本实施例中，在将特征集进行拆分的过程中，根据已得到的子聚类所包含的特征和特征集的协方差矩阵，确定子聚类的协方差矩阵。因此，在将特征集进行拆分的过程中，不需要重新遍历存储在各个计算节点的数据块计算协方差矩阵，避免了大量数据计算和各个节点与控制节点之间的通信开销，大幅度地提升了计算效率。

附图说明

图1是本发明实施例方案涉及的硬件运行的单个服务器的结构示意图；

图2是本发明一种特征聚类处理方法第一实施例的流程示意图；

图3是本发明一种特征聚类处理方法一实施例的整体示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的单个服务器结构示意图。

本发明实施例单个服务器可以是电脑，也可以是智能手机。

如图1所示，该单个服务器可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的单个服务器结构并不构成对单个服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及特征聚类处理程序。

在图1所示的单个服务器中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的特征聚类处理程序，并执行以下操作：

若满足，则对所述特征集进行拆分处理以获得子聚类；

进一步地，获取所述特征集，并将所述特征集按矩阵的形式进行存储；

进一步地，根据所述子聚类所包含的特征在所述特征集的矩阵形式中的行列位置，提取出与所述行列位置相对应的所述特征集的协方差矩阵的行向量或列向量，确定所述子聚类的协方差矩阵。

进一步地，根据所述特征集的协方差矩阵，选取数值最大的第一特征值和第二特征值，其中所述第一特征值大于或等于所述第二特征值；

判断所述第二特征值是否大于或等于预设特征值；

进一步地，若所述特征集满足所述预设拆分条件时，则根据所述特征集的协方差矩阵选取出数值最大的所述第一特征值和所述第二特征值，并根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类；

进一步地，根据所述特征集的协方差矩阵，计算与所述第一特征值相对应的第一特征向量，且计算与所述第二特征值相对应的第二特征向量；

进一步地，根据所述第一子聚类的协方差矩阵，计算与所述第三特征值相对应的第三特征向量；根据所述第二子聚类的协方差矩阵，计算与所述第四特征值相对应的第四特征向量；

进一步地，若根据所述子聚类的协方差矩阵确定所述子聚类不满足预设拆分条件，则将所述子聚类作为聚类结果输出。

基于上述硬件结构，提出本发明特征聚类处理方法的各实施例。

请参照图2，在本发明特征聚类处理方法第一实施例中，该特征聚类处理方法包括：

步骤S10，按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块，并基于所述多个数据块，确定所述特征集的协方差矩阵；

控制节点按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块，并基于所述多个数据块，确定特征集的协方差矩阵。在本实施例中，预设矩阵规则是预先将待聚类处理的特征集按照矩阵的行或列进行拆分，数据块指的是特征集中的部分特征数据。本发明实施例中可应用于分布式的集群服务器，集群服务器包括一个或多个服务器，当集群服务器内的其中一个服务器获取特征以构建特征集、控制聚类过程和返回聚类结果时，则该服务器可作为控制节点，其余服务器可作为计算节点。控制节点还可以是独立于集群服务器的控制服务器，并且该控制服务器可对集群服务器内的各个服务器进行数据访问和运算控制。

在本实施例中，集群服务器包括有多个服务器，集群服务器中的一个服务器是控制节点，其余的服务器是计算节点。控制节点将特征集拆分为多个数据块并存储至多个计算节点，且控制节点对各个计算节点进行运算控制，各个计算节点对其内存储的数据块进行运算，从而确定出特征集的协方差。

可以理解地是，当集群服务器只有一个服务器时，则该服务器即是控制节点，同时也是计算节点，控制节点和计算节点共同完成本发明实施例中的各个步骤。

步骤S20，根据特征集的协方差矩阵判断特征集是否满足预设拆分条件；

这里的预设拆分条件是指当特征集中的多个特征的差异性大于预设值时，则可将特征集进行拆分。在本实施例中，控制节点将特征集拆分为多个数据块并存储至多个计算节点，且控制节点对各个计算节点进行运算控制，各个计算节点对其内存储的数据块进行运算，从而确定出特征集的协方差，根据特征集的协方差矩阵判断特征集是否满足预设拆分条件。

步骤S30，若满足，则对所述特征集进行拆分处理以获得子聚类；

在本实施例中，需要说明的是，特征集是由n个特征组成，特征集是可以拆分为多个聚类或不可拆分的，若特征集满足拆分条件时，则拆分为多个子聚类。在本实施例中，若特征集满足预设拆分条件时，则特征集进行拆分，并将相似度高的特征进行聚类以形成子聚类，从而将特征集拆分成多个子聚类，从而使得各个子聚类内的特征的不相似性逐步减少，从而表现为各个子聚类内的特征的相似度较高。

步骤S40，根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵，确定子聚类的协方差矩阵；

在本实施例中，由特征集拆分而得到的子聚类的协方差矩阵是与特征集的协方差矩阵具有关联关系的，也就是说，子聚类的协方差矩阵可从特征集的协方差矩阵中而获得，并可根据子聚类的协方差矩阵对子聚类进行下一轮的拆分。其中，由于子聚类是特征集的一部分，因此，子聚类的协方差矩阵是与特征集的协方差矩阵相对应，即子聚类的协方差矩阵是特征集的协方差矩阵中的部分行列。

步骤S50，若根据子聚类的协方差矩阵确定子聚类满足预设拆分条件，则对子聚类进行拆分处理。

在本实施例中，控制节点根据特征集的协方差矩阵判断特征集是否满足预设拆分条件，若特征集满足预设拆分条件时，则对特征集进行拆分处理，并得到子聚类，根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵，确定子聚类的协方差矩阵，判断子聚类的协方差矩阵是否满足预设拆分条件，若根据子聚类的协方差矩阵满足子聚类预设拆分条件时，则对子聚类进行拆分处理。

在另一些实施例中，若根据子聚类的协方差矩阵确定子聚类不满足预设拆分条件，则将子聚类作为聚类结果。其中，控制节点根据特征集拆分成多个子聚类，从而使得各个子聚类内的特征的相似度最高，且各个子聚类之间的不相似度最高，从而将各个子聚类作为聚类结果输出。

本实施例通过控制节点将特征集拆分为多个数据块并存储至多个计算节点，且控制节点对各个计算节点进行运算控制，各个计算节点对其内存储的数据块进行运算，从而确定出特征集的协方差，控制节点根据特征集的协方差矩阵判断特征集是否满足预设拆分条件，若特征集满足预设拆分条件时，则对特征集进行拆分处理，并得到子聚类，根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵，确定子聚类的协方差矩阵，判断子聚类的协方差矩阵是否满足预设拆分条件，若子聚类的协方差矩阵满足子聚类预设拆分条件时，则对子聚类进行拆分处理。这样，在本实施例中，在将特征集进行拆分的过程中，根据已得到的子聚类所包含的特征和特征集的协方差矩阵，确定子聚类的协方差矩阵。因此，在将特征集进行拆分的过程中，不需要重新遍历存储在各个计算节点的数据块计算协方差矩阵，避免了大量数据计算和各个节点与控制节点之间的通信开销，大幅度地提升了计算效率。

进一步地，上述第一实施例步骤S10中，按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块，并基于所述多个数据块，确定所述特征集的协方差矩阵的步骤，包括：

步骤S11，获取所述特征集，并将所述特征集按矩阵的形式进行存储；

在本实施例中，控制节点获取特征集，根据特征集构建矩阵，并将特征集按矩阵的形式进行存储。其中，根据特征集构建矩阵值的是：控制节点获取多个特征，并将多个特征构建为特征集，其中的特征集是将特征的内容以矩阵的形式建立关联关系，并进行存储。例如，特征集包含n个特征，记为特征集＝{x₁，x₂，x₃，……，x_n}，n≥2；每一个特征包含m条记录值，对于第i个特征，包含的m条记录值记为：{x_i1，x_i2，x_i3，……，x_im}，m≥2。将特征集的内容用矩阵的形式进行存储，即每一列对应着一个特征，每一行表示n个特征当前的值，即矩阵的列数对应着特征的个数，矩阵的行数对应着记录值的个数。

步骤S12，将特征集按预设矩阵规则拆分为多个数据块，并将多个数据块分别一一分配至多个计算节点；

控制节点将特征集按照矩阵的行或列的形式进行拆分为多个数据块，并将多个数据块分别一一分配至多个计算节点。在本实施例中，根据矩阵将特征集按行分块，得到多个数据块，并将各个数据块分别一一分配至存入到各个计算节点。其中，各个计算节点可对位于其内的数据块进行运算处理。

步骤13，根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵；

在本实施例中，控制节点根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵。特征集的协方差矩阵是根据特征集的矩阵进行运算而得来的。特征集的协方差矩阵指的是通过特征集所对应的矩阵进行运算而得来。在本实施例中，特征集被划分为多个数据块，多个数据块分别被分配至多个计算节点。计算节点可对位于其内的数据块进行运算，并将运算结果反馈至控制节点，从而使得控制节点根据各个计算节点的运算结果计算出特征集所对应的矩阵表的协方差矩阵。也就是说，控制节点可根据分别位于多个计算节点的多个数据块计算出特征集的协方差矩阵。

本实施例通过控制节点根据特征集构建矩阵，根据矩阵将特征集拆分为多个数据块，并将多个数据块分别一一分配至多个计算节点，将特征集作为特征集，根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵，根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵。这样，基于特征集的矩阵对数据进行分块处理，并将多个数据块分别一一分配至多个计算节点。通过特征集的矩阵对数据进行访问、处理，减少了各个节点之间的数据搬运，从而提高了对数据的访问及处理能力，提高了计算效率。

进一步地，上述第一实施例的步骤S20中，根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件的步骤，包括：

步骤S21，根据特征集的协方差矩阵，选取数值最大的第一特征值和第二特征值，其中第一特征值大于或等于第二特征值；

步骤S22，判断第二特征值是否大于或等于预设特征值；

步骤S23，若第二特征值大于或等于预设特征值时，则特征集满足预设拆分条件；

步骤S24，若第二特征值小于所述预设特征值时，则所述特征集不满足所述预设拆分条件。

在本实施例中，通过构建特征集的矩阵，并基于矩阵的运算，从而计算出特征集的协方差矩阵。

进一步地，基于特征集的协方差矩阵计算出特征集的PCA(principal componentsanalysis)信息，根据PCA信息中的两个最大数值作为特征集的协方差矩阵的第一特征值和第二特征值，其中第一特征值大于或等于第二特征值。在本实施例中，根据特征集的协方差矩阵，选取数值最大的第一特征值和第二特征值，其中第一特征值大于或等于第二特征值，判断第二特征值是否大于或等于预设特征值，若第二特征值大于或等于预设特征值时，则特征集满足预设拆分条件，若第二特征值小于预设特征值时，则特征集满足预设拆分条件，则可将特征集作为聚类结果输出。

可以理解地是，预设特征值是一个经验值，可通过历史数据进行训练而预测得到，可选地，预设特征值的数值是1。

在本实施例中，控制节点根据特征集的协方差矩阵，能够快速地计算出特征集的PCA信息，且基于特征集的协方差矩阵可以方便查询、调用子聚类中的各个特征，从而使得计算过程更加便捷，避免对数据的搬运，从而提高对数据的处理效率。

进一步地，上述第一实施例的步骤S30中，所述若满足，则对所述特征集进行拆分处理以获得子聚类的步骤，包括：

步骤S31，若特征集满足预设拆分条件时，则根据特征集的协方差矩阵选取出数值最大的第一特征值和第二特征值，并根据第一特征值和第二特征值将特征集预拆分为第一子聚类和第二子聚类；

步骤S32，获取与第一子聚类的协方差矩阵相对应的数值最大的第三特征值，获取与第二子聚类的协方差矩阵相对应的数值最大的第四特征值；根据第三特征值和所述第四特征值，将第一子聚类和第二子聚类进行调整，得到调整后的第三子聚类和第四子聚类；

步骤S33，判断所述第三子聚类与所述第一子聚类是否相同，以及所述第四子聚类与所述第二子聚类是否相同；

步骤S34，若不相同，则将所述第一子聚类更新为所述第三子聚类，所述第二子聚类更新为所述第四子聚类，并重新执行调整的步骤；

步骤S35，若相同，则将所述特征集拆分为所述第一子聚类和所述第二子聚类。

在本实施例中，根据与特征集的协方差矩阵，计算出特征集的PCA信息，并选取PCA信息中的两个最大数值作为第一特征值和第二特征值，并基于第一特征值和第二特征值将特征集对应预拆分为第一子聚类和第二子聚类。

获取与第一子聚类的协方差矩阵相对应的数值最大的第三特征值，获取与第二子聚类的协方差矩阵相对应的数值最大的第四特征值；根据第三特征值和第四特征值，将第一子聚类和第二子聚类进行调整，得到调整后的第三子聚类和第四子聚类。由于特征集预拆分为第一子聚类和第二子聚类，所以特征集的协方差矩阵是与第一子聚类的协方差矩阵有着关联关系的，即特征集的协方差矩阵中的部分行列是第一子聚类的协方差矩阵。同理地，特征集的协方差矩阵中的部分行列是第一子聚类的协方差矩阵。例如，特征集的矩阵表中的第一列被独立拆分为第一子聚类，则特征集的协方差矩阵的第一列对应着第一子聚类的协方差矩阵。因此，通过特征集的协方差矩阵可以容易获得子聚类(第一子聚类、第二子聚类)的协方差矩阵。

在本实施例中，由特征集预拆分为第一子聚类和第二子聚类，其中第一子聚类的协方差矩阵和第二子聚类的协方差矩阵可通过特征集的协方差矩阵容易获得，从而减少了数据的运算，不仅节省了运算的硬件资源，同时也大大提高特征聚类处理的速度。

根据第一子聚类的协方差矩阵计算出第一子聚类的PCA信息，并选择最大数值作为第三特征值。同理地，根据第二子聚类的协方差矩阵计算出第二子聚类的PCA信息，并选择最大数值作为第四特征值。根据第三特征值和第四特征值将特征集拆分为第三子聚类和第四子聚类。若第一子聚类和第三子聚类相同，第二子聚类和第四子聚类相同，则将特征集拆分为第一子聚类和第二子聚类，否则，将第一子聚类更新为第三子聚类，第二子聚类更新为第四子聚类，并重新执行步骤B。如此，直至调整后的聚类与调整前的聚类相等。

例如，对特征集包括有a、b、c、d、e、f特征，对特征集进行第一次拆分，得到拆分后的第一子聚类和第二子聚类，其中第一子聚类包括有a、b、c特征，第二子聚类包括有d、e、f特征，则对第一子聚类和第二子聚类进行第一次调整，得到调整后的第三子聚类和第四子聚类，其中第三子聚类包括有a、b、c、d特征，第四子聚类包括有e、f特征，得到第一次调整后的第一子聚类和第三子聚类不相同，且第二子聚类和第四子聚类亦不相同，需要再重新对第三子聚类和第四子聚类进行调整，再重新执行调整的步骤，直至调整后的聚类与调整前的聚类相等，并继续判断调整后的聚类是否满足预设拆分条件，若满足预设拆分条件时，则将调整后的聚类继续进行拆分，再进行调整，直至调整后的聚类与调整前的聚类相等。

例如，特征集包括有a、b、c、d、e、f特征，对特征集进行第一次拆分，得到拆分后的第一子聚类和第二子聚类，其中第一子聚类包括有a、b、c特征，第二子聚类包括有d、e、f特征，则对第一子聚类和第二子聚类进行第一次调整，得到调整后的第三子聚类和第四子聚类，其中第三子聚类包括有a、b、c特征，第四子聚类包括有d、e、f特征，得到第一次调整后的第一子聚类和第三子聚类相同，且第二子聚类和第四子聚类亦相同，则将特征集拆分为第一子聚类和第二子聚类。

可选地，在步骤S31中，所述根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类的步骤，包括：

步骤S311，根据特征集的协方差矩阵，计算与第一特征值相对应的第一特征向量，且计算与第二特征值相对应的第二特征向量；

步骤S312，根据特征集分别计算与第一特征向量相对应的第一投影特征，以及与第二特征向量相对应的第二投影特征；

步骤S313，计算特征集的每一特征分别与第一投影特征和第二投影特征的相关系数；

步骤S314，根据相关系数的大小，将特征集预拆分为第一子聚类和第二子聚类。

在本实施例中，通过矩阵的运算规则，根据特征集的协方差矩阵计算出与第一特征向量相对应的第一投影特征，以及与第二特征向量相对应的第二投影特征。

计算特征集的每一特征分别与第一投影特征和第二投影特征的相关系数，并根据相关系数的大小，将特征集预拆分为第一子聚类和第二子聚类。可选地，将相关系数大的特征划分至第一子聚类，将相关系数小的特征划分至第二子聚类。

例如，特征集的a特征与第一投影特征的相关系数是0.8，特征集的a特征与第二投影特征的相关系数是0.5，则将特征集的a特征划分至第一子聚类。而特征集的b特征与第一投影特征的相关系数是0.3，特征集的b特征与第二投影特征的相关系数是0.6，则将特征集的b特征划分至第二子聚类。

进一步地，步骤S32，获取与所述第一子聚类的协方差矩阵相对应的最大的第三特征值，获取与所述第二子聚类的协方差矩阵相对应的最大的第四特征值；根据所述第三特征值和所述第四特征值，将所述第一子聚类和第二子聚类进行调整，得到调整后的第三子聚类和第四子聚类的步骤，包括：

步骤S321，根据第一子聚类的协方差矩阵，计算与第三特征值相对应的第三特征向量；根据第二子聚类的协方差矩阵，计算与第四特征值相对应的第四特征向量；

步骤S322，根据第一子聚类计算与第三特征向量相对应的第三投影特征；

步骤S323，根据第二子聚类计算与第四特征向量相对应的第四投影特征；

步骤S324，计算特征集的每一特征分别与第三投影特征和第四投影特征的相关系数；

步骤S325，根据相关系数的大小，将第一子聚类和第二子聚类进行调整，得到调整后的第三子聚类和第四子聚类。

在本实施例中，通过矩阵的运算规则，根据第一子聚类的协方差矩阵计算出与第三特征向量相对应的第三投影特征。根据第二子聚类的协方差矩阵计算出与第四特征向量相对应的第四投影特征。

计算特征集的每一特征分别与第三投影特征和第四投影特征的相关系数，并根据相关系数的大小，将特征集拆分为第三子聚类和第四子聚类。判断第三子聚类和第一子聚类是否相同，第四子聚类和第二子聚类是否相同，若第三子聚类和第一子聚类相同，第四子聚类和第二子聚类相同，则将特征集拆分为第一子聚类和第二子聚类；否则，将第一子聚类更新为第三子聚类，第二子聚类更新为第四子聚类。

进一步地，在上述第一实施例步骤S40中，所述根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵，确定所述子聚类的协方差矩阵的步骤，包括:

步骤41，根据子聚类所包含的特征在特征集的矩阵形式中的行列位置，提取出与行列位置相对应的特征集的协方差矩阵的行向量或列向量，确定子聚类的协方差矩阵。

在确定特征集满足拆分条件之后，则对特征集进行拆分处理以获得子聚类，根据子聚类所包含的特征在特征集的矩阵形式中的行列位置，提取出与行列位置相对应的特征集的协方差矩阵的行向量或列向量，确定子聚类的协方差矩阵。例如，子聚类的特征是位于特征集的第一列和第三列，则子聚类的协方差矩阵也对应着特征集的协方差矩阵的第一列和第三列，确定出子聚类的协方差矩阵。

为辅助理解本发明实施例的技术方案，可参照图3，图3是本发明一种特征聚类处理方法的整体算法示意图。

在本实施例中，通过获取特征集，并根据所述特征集构建矩阵表；根据所述矩阵表将所述特征集拆分为多个数据块，并将所述多个数据块分别一一分配至多个计算节点；将所述特征集作为特征集，根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵,根据特征集的协方差矩阵判断特征集是否满足预设拆分条件；若特征集满足所述预设拆分条件时，则将所述特征集进行拆分，根据特征集的协方差矩阵，选取数值最大的第一特征值和第二特征值，其中第一特征值和第二特征值，其中第一特征值大于或等于第二特征值，判断第二特征值是否大于或等于第二特征值，若第二特征值大于或等于预设特征值时，则特征集满足预设拆分条件，根据特征集的协方差矩阵，计算与第一特征值相对应的第一特征向量，且计算与第二特征值相对应的第二特征向量，根据特征集分别计算与第一特征向量相对应的第一投影特征，以及与第二特征向量相对应的第二投影特征，计算特征集的每一特征分别与第一投影特征和第二投影特征相关系数，根据相关系数的大小，将特征集预拆分为第一子聚类和第二子聚类，根据第一子聚类计算与第三特征向量相对应的第三投影特征，根据第二子聚类计算与第四特征向量相对应的第四投影特征，计算特征集的每一特征分别与第三投影特征和第四投影特征的相关系数，根据相关系数的大小，将第一子聚类和第二子聚类进行调整，得到调整后的第三子聚类和第四子聚类，判断第三子聚类与第一子聚类是否相同，以及第四子聚类与第二子聚类是否相同，若第三子聚类与第一子聚类不相同，且第四子聚类与第一子聚类不相同，则再进行上述调整步骤，若第三子聚类与第一子聚类相同，且第四子聚类与第二子聚类相同，则将特征集拆分为第一子聚类和第二子聚类，将拆分得到的第一子聚类和第二子聚类判断是否满足预设拆分条件，若第一子聚类和第二子聚类满足预设拆分条件，则根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵，确定子聚类的协方差矩阵，若根据所述子聚类的协方差矩阵确定所述子聚类满足预设拆分条件，则对所述子聚类进行拆分处理，若根据所述子聚类的协方差矩阵确定所述子聚类不满足预设拆分条件，则将所述子聚类作为聚类结果输出。因此，在将特征集进行拆分的过程中，不需要重新遍历存储在各个计算节点的数据块计算协方差矩阵，避免了大量数据计算和各个节点与控制节点之间的通信开销，大幅度地提升了计算效率。

此外，本发明实施例还提出一种可读存储介质(即计算机可读存储器)，所述可读存储介质上存储有特征聚类处理程序，所述特征聚类处理程序被处理器执行时实现如下操作：

若满足，则对所述特征集进行拆分处理以获得子聚类；

判断所述第二特征值是否大于或等于预设特征值；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台单个服务器设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种特征聚类处理方法，其特征在于，所述方法包括：

若满足，则对所述特征集进行拆分处理以获得子聚类；

2.如权利要求1所述的特征聚类处理方法，其特征在于，所述按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块，并基于所述多个数据块，确定所述特征集的协方差矩阵的步骤，包括：

获取所述特征集，并将所述特征集按矩阵的形式进行存储；

3.如权利要求1所述的特征聚类处理方法，其特征在于，所述根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵，确定所述子聚类的协方差矩阵的步骤，包括：

4.如权利要求1所述的特征聚类处理方法，其特征在于，所述根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件的步骤，包括：

判断所述第二特征值是否大于或等于预设特征值；

5.如权利要求1所述的特征聚类处理方法，其特征在于，所述若满足，则对所述特征集进行拆分处理以获得子聚类的步骤，包括：

6.如权利要求5所述的特征聚类处理方法，其特征在于，所述根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类的步骤，包括：

7.如权利要求5所述的特征聚类处理方法，其特征在于，所述获取与所述第一子聚类的协方差矩阵相对应的数值最大的第三特征值，获取与所述第二子聚类的协方差矩阵相对应的数值最大的第四特征值；根据所述第三特征值和所述第四特征值，将所述第一子聚类和所述第二子聚类进行调整，得到调整后的第三子聚类和第四子聚类的步骤，包括：

8.如权利要求1所述的特征聚类处理方法，其特征在于，所述方法还包括：

9.一种集群服务器，其特征在于，所述集群服务器包括一个或多个服务器，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述特征聚类处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的特征聚类处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的特征聚类处理方法的步骤。