CN114841285A

CN114841285A - 数据聚类方法及装置、电子设备、存储介质

Info

Publication number: CN114841285A
Application number: CN202210559705.1A
Authority: CN
Inventors: 刘珮; 项超; 赵龙刚; 王峰
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-02

Abstract

本申请的实施例揭示了一种数据聚类方法及装置、电子设备、存储介质，该方法包括：获取初始聚类中含有的多个聚类对象的特征数据，特征数据中包括多个维度的特征；在依次遍历初始聚类中含有的多个聚类对象的过程中，将遍历到的聚类对象作为簇中心，并根据多个聚类对象对应的多个维度的特征以及多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离；根据多个第一目标距离之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象。本申请实施例的技术方案能够提现出不同特征的贡献程度。

Description

数据聚类方法及装置、电子设备、存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种数据聚类方法及装置、电子设备、计算机可读存储介质。

背景技术

聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程，即将对象分类到不同的类(或者簇)的过程，同一个类中的对象有很大的相似性，属于不同类的对象有很大的相异性。在聚类时，需要确定一个簇中心，再根据欧式距离去衡量对象与簇中心之间的相似性，进而进行聚类，现有技术中，确定簇中心，大都采用随机抽取的方式，导致簇中心的确定的准确性较低。

发明内容

为解决上述技术问题，本申请的实施例提供了一种数据聚类方法及装置、电子设备、计算机可读存储介质，旨在解决现有技术中，簇中心的确定的准确性较低的技术问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种数据聚类方法，包括：

获取初始聚类中含有的多个聚类对象的特征数据，特征数据中包括多个维度的特征；

在依次遍历初始聚类中含有的多个聚类对象的过程中，将遍历到的聚类对象作为簇中心，并根据多个聚类对象对应的多个维度的特征以及多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离；

根据多个第一目标距离之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象。

进一步地，根据多个聚类对象对应的多个维度的特征以及多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离，包括：

将作为簇中心的聚类对象与其他聚类对象对应的相同维度的特征进行计算，得到各个维度的特征之间的第一距离值；

将各个第一距离值分别与对应维度的特征匹配的权重进行乘积运算，得到各个第二距离值；

将各个第二距离值进行求和运算，得到作为簇中心的聚类对象和其他聚类对象的第一目标距离。

进一步地，根据多个第一目标距离之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象，包括：

计算作为簇中心的聚类对象和历史遍历过的聚类对象中的指定聚类对象之间针对第一目标距离的差值；

根据各个差值之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象。

进一步地，在计算作为簇中心的聚类对象和历史遍历过的聚类对象中的指定聚类对象之间针对第一目标距离的差值之前，数据聚类方法还包括：

将当前遍历到的作为簇中心的聚类对象对应的差值与历史遍历过的作为簇中心的聚类对象对应的差值中的最小差值进行比较；

若当前遍历到的作为簇中心的聚类对象对应的差值小于历史遍历过的作为簇中心的聚类对象对应的差值中的最小差值，则将当前遍历到的聚类对象作为下一个待遍历的聚类对象所匹配的指定聚类对象。

进一步地，初始聚类为多个，一个初始聚类含有一个目标聚类对象；在根据多个第一目标距离之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象之后，数据聚类方法还包括：

计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离；

比较各个第二目标距离，并将除目标聚类对象之外的聚类对象聚类到最小第二目标距离的目标聚类对象对应的聚类中。

进一步地，计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离，包括：

将除目标聚类对象之外的聚类对象与目标聚类对象对应的相同维度的特征进行计算，得到各个维度的特征之间的第三距离值；

将各个第三距离值分别与对应维度的特征匹配的权重进行乘积运算，得到各个第四距离值；

根据各个第四距离值计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离。

进一步地，获取初始聚类中含有的多个聚类对象的特征数据，包括：

对各个聚类对象的原始数据进行主成分分析，得到各个聚类对象对应的特征数据；

对特征数据的每一维特征进行归一化处理，得到各个聚类对象的特征数据中的多个维度的特征匹配的权重。

根据本申请实施例的一个方面，提供了一种数据聚类装置，包括：

获取模块，配置为获取初始聚类中含有的多个聚类对象的特征数据，特征数据中包括多个维度的特征；

计算模块，配置为在依次遍历初始聚类中含有的多个聚类对象的过程中，将遍历到的聚类对象作为簇中心，并根据多个聚类对象对应的多个维度的特征以及多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离；

确定模块，配置为根据多个第一目标距离之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如前所述的数据聚类方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的数据聚类方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施例中提供的数据聚类方法。

在本申请的实施例所提供的技术方案中，在每一个初始聚类中，为聚类对象的特征数据的每一维特征都赋予了一个匹配的权重，使得根据特征数据和每一维特征匹配的权重得到的第一目标距离，能够提现出不同特征的贡献程度，再基于第一目标距离去确定目标聚类对象能够更加准确，便于后续的根据目标聚类对象去进行聚类时，聚类效果更好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是本申请涉及的一个实施例中的数据聚类方法的流程图；

图3是本申请涉及的一个实施例中的步骤S210的流程图；

图4是本申请涉及的一个实施例中的步骤S220的流程图；

图5是本申请涉及的一个实施例中的步骤S230的流程图；

图6是本申请涉及的一个实施例中的数据聚类方法的流程图；

图7是本申请涉及的一个实施例中的数据聚类方法的流程图；

图8是本申请涉及的一个实施例中的步骤S710的流程图；

图9是本申请涉及的一个实施例中的数据聚类方法的流程图；

图10是本申请涉及的一个实施例中的数据聚类装置的框图；

图11是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端110和服务器120，终端110和服务器120之间通过有线或者无线网络进行通信。

终端110中运行有对原始数据进行主成分分析、归一化处理的应用程序，服务器120中存储有多个聚类对象的原始数据、特征数据等，当需要对聚类对象进行处理时，终端110从服务器120中获取相应的原始数据、特征数据等，便于后续进行处理。

其中，终端110可以是智能手机、平板、笔记本电脑、计算机等任意能够运行视频播放客户端的电子设备，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器，本处不对此进行限制。

申请实施例所提供的数据聚类方法可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

图2是根据一示例性实施例示出的一种数据聚类方法的流程图。该方法可以应用于图1所示的实施环境，并由图1所示实施例环境中的终端110具体执行。

如图2所示，在一示例性实施例中，该数据聚类方法可以包括步骤S210至步骤S230，详细介绍如下：

步骤S210，获取初始聚类中含有的多个聚类对象的特征数据，特征数据中包括多个维度的特征。

本申请实施例中，上述初始聚类中包括有多个聚类对象，每个聚类对象具有其对应的特征数据，如将上述数据聚类方法应用到对车辆进行聚类时，车辆作为聚类对象，具有车辆通过摄像头点位的时间间隔、车辆通过摄像头点位的平均通过时长、车辆在摄像头点位的停留时间、车辆在摄像头点位的通过频次、车辆在高峰期通过占比、车辆通过摄像头点位的数量等中的一个或多个数据作为车辆的原始数据，进而根据原始数据得到特征数据，特征数据具有多个维度。

在本申请的一个实施例中，请参阅图3，在步骤S210中获取初始聚类中含有的多个聚类对象的特征数据，包括步骤S310和步骤S320，详细介绍如下：

步骤S310，对各个聚类对象的原始数据进行主成分分析，得到各个聚类对象对应的特征数据。

本申请实施例中，对每个聚类对象的原始数据进行主成分分析(PrincipalComponents Analysis，PCA)，主成分分析是一种降维方法，将n维特征映射到k维上，其中，k<n，得到的k维的特征数据是全新构造出的，经过主成分分析后，每个聚类对象的特征数据的维度相同。

步骤S320，对特征数据的每一维特征进行归一化处理，得到各个聚类对象的特征数据中的多个维度的特征匹配的权重。

本申请实施例中，特征数据的每一维特征均进行归一化处理，各个维度的特征处于同一数量级，具体的归一化处理所对应的公式如下所示：

上述公式中，norC_i(p)表示第i个聚类对象的特征数据的第p维特征数据经过归一化处理；C表示特征数据；C_i(p)表示第i个聚类对象的特征数据的第p维特征数据值；max(C(p))表示特征数据中，第p维特征数据值中的最大值；min(C(p))表示特征数据中，第p维特征数据值中的最小值。

经过上述公式归一化处理后，得到特征数据的各个维度的归一化处理结果，将各个维度的特征的归一化处理结果作为特征数据中的多个维度的特征匹配的权重。本申请实施例中，通过主成分分析对原始数据进行降维处理，使得构造的特征数据能够尽可能多的保留原始数据的信息，且彼此间互不相关，再在降维处理的基础上进行归一化处理，得到特征数据中的多个维度的特征匹配的权重，便于后续根据特征数据的各个维度计算第一目标距离。

步骤S220，在依次遍历初始聚类中含有的多个聚类对象的过程中，将遍历到的聚类对象作为簇中心，并根据多个聚类对象对应的多个维度的特征以及多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离。

本申请实施例中，初始聚类中包括有多个聚类对象，这多个聚类对象中存在一个聚类对象作为初始簇中心，初始聚类是基于初始簇中心进行聚类得到的。依次遍历初始聚类中的各个聚类对象，将遍历到的聚类对象作为簇中心，遍历时，以初始簇中心所对应的聚类对象作为第一个遍历的聚类对象，然后依次从其余聚类对象中选择一个聚类对象作为簇中心。

特征数据的每一维度的特征都对应有一个匹配的权重，匹配的权重根据对应的特征数据的对应维度的特征进行归一化处理得到，如k维的特征数据，能相应的计算得到k个匹配的权重，这k个匹配的权重的大小依次减小，且这k个匹配的权重的和等于1，如k为4，4个匹配的权重的大小可依次计算得到为0.4、0.3、0.2、0.1，即一个4维的特征数据中，第一维特征计算到的匹配的权重为0.4，第二维特征计算到的匹配的权重为0.3，第三维特征计算到的匹配的权重为0.2，第四维特征计算到的匹配的权重为0.1。

在遍历过程中，每得到一个簇中心，便根据特征数据和对应的匹配的权重计算作为簇中心的聚类对象与其他聚类对象的第一目标距离。

在本申请的一个实施例中，请参阅图4，在步骤S220中根据多个聚类对象对应的多个维度的特征以及多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离，包括步骤S410至步骤S430，详细介绍如下：

步骤S410，将作为簇中心的聚类对象与其他聚类对象对应的相同维度的特征进行计算，得到各个维度的特征之间的第一距离值。

本申请实施例中，计算作为簇中心的聚类对象与其他聚类对象的第一距离值，即在每次遍历时，得到一个作为簇中心的聚类对象后，则计算该作为簇中心的聚类对象与其他聚类对象在各个维度之间的第一距离值，即第一距离值仅在相同维度间进行计算，如作为簇中心的聚类对象的第一维度特征与其他聚类对象的第一维度特征计算对应的第一距离值，作为簇中心的聚类对象的第二维度特征与其他聚类对象的第二维度特征计算对应的第一距离值，其余各个维度同理。

步骤S420，将各个第一距离值分别与对应维度的特征匹配的权重进行乘积运算，得到各个第二距离值。

本申请实施例中，每一个第一距离值均代表对应维度的特征之间的距离值，将第一距离值与对应的匹配的权重进行乘积运算，即第一维特征对应的第一距离值与第一维特征对应的匹配的权重进行乘积运算，即可通过下列公式计算第二距离值：

其中，dist(c_J，x_i)表示其他聚类对象c_J和作为簇中心的聚类对象x_i之间的第二距离值，w_p表示第p维特征匹配的权重，(c_J(p)-x_i(p))²表示其他聚类对象c_J和作为簇中心的聚类对象x_i之间的第一距离值。

步骤S430，将各个第二距离值进行求和运算，得到作为簇中心的聚类对象和其他聚类对象的第一目标距离。

本申请实施例中，根据第二距离值进行求和运算，每一个聚类对象作为簇中心时，均根据对应的第二距离值计算得到第一目标距离，具体的，可通过下列公式计算得到第一目标距离：

其中，上述E作为簇中心的聚类对象x_i和其他聚类对象c_J的第一目标距离，上述公式中其余的各个符号代表的含义与前述一致，在此不进行赘述。

步骤S230，根据多个第一目标距离之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象。

本申请实施例中，根据第一目标距离之间的关系，从多个聚类对象中确定出一个目标聚类对象作为最终的簇中心，使得根据目标聚类对象进行聚类能够更加准确。

本申请实施例中，为特征数据的每一维特征都赋予了一个匹配的权重，使得根据特征数据和每一维特征匹配的权重得到的第一目标距离中，能够体现出不同特征的贡献程度，进而提高最终的聚类效果。

在本申请的一个实施例中，请参阅图5，在步骤S230中根据多个第一目标距离之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象，包括步骤S510和步骤S520，详细介绍如下：

步骤S510，计算作为簇中心的聚类对象和历史遍历过的聚类对象中的指定聚类对象之间针对第一目标距离的差值。

本申请实施例中，以当前遍历的聚类对象为基础，从历史遍历过的聚类对象中确定出一个聚类对象作为对应的指定聚类对象，计算当前遍历的聚类对象与对应的指定聚类对象之间针对第一目标距离的差值，具体的，可通过S＝E1-E2计算作为簇中心的聚类对象和历史遍历过的聚类对象中的指定聚类对象之间针对第一目标距离的差值，S表示针对第一目标距离的差值，E1表示当前遍历的聚类对象的第一目标距离，E2表示对应的指定聚类对象的第一目标距离。

步骤S520，根据各个差值之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象。

本申请实施例中，在遍历的过程中，每遍历到一个聚类对象作为簇中心，则计算出对应的第一目标距离，由于第一个遍历的聚类对象作为簇中心时，没有对应的历史遍历过的聚类对象，因此，第一个遍历的聚类对象无需计算对应的针对第一目标距离的差值，即初始簇中心所对应的聚类对象作为第一个被遍历的聚类对象，第一个计算第一目标距离，再从剩下的聚类对象中选择一个聚类对象作为第二个被遍历的聚类对象，计算第二个第一目标距离，此时，第一个被遍历的聚类对象即作为第二个被遍历的聚类对象的指定聚类对象，即可以计算第一个针对第一目标距离的差值S1。再选取一个聚类对象作为簇中心，将第一个被遍历的聚类对象作为第三个被遍历的聚类对象的指定聚类对象，计算第二个针对第一目标距离的差值S2，后续依据同样的规则，得到多个针对第一目标距离的差值，根据这些差值之间的关系，确定出目标聚类对象。

在本申请的一个实施例中，请参阅图6，在步骤S510计算作为簇中心的聚类对象和历史遍历过的聚类对象中的指定聚类对象之间针对第一目标距离的差值之前，数据聚类方法还包括步骤S610和步骤S620，详细介绍如下：

步骤S610，将当前遍历到的作为簇中心的聚类对象对应的差值与历史遍历过的作为簇中心的聚类对象对应的差值中的最小差值进行比较。

本申请实施例中，如前述所言，在计算得到第二个针对第一目标距离的差值S2时，即可将S2与S1进行比较。除去第一个被遍历的聚类对象外，其余的每一个聚类对象作为簇中心时，均能计算到对应的针对第一目标距离的差值，每次在得到对应的差值后，将差值与历史遍历过的差值中的最小差值进行比较，进而得到差值之间的关系。

步骤S620，若当前遍历到的作为簇中心的聚类对象对应的差值小于历史遍历过的作为簇中心的聚类对象对应的差值中的最小差值，则将当前遍历到的聚类对象作为下一个待遍历的聚类对象所匹配的指定聚类对象。

本申请实施例中，若当前遍历到的作为簇中心的聚类对象对应的差值小于历史遍历过的作为簇中心的聚类对象对应的差值中的最小差值，即如前述所言的S2小于S1时，将第三个被遍历的聚类对象作为第四个被遍历的聚类对象的指定聚类对象。反之，当S2大于等于S1时，则将第一个被遍历的聚类对象作为第四个被遍历的聚类对象的指定聚类对象。

本申请实施例中，通过每次的比较，确定出下一个被遍历的聚类对象的指定聚类对象，知道最后一个聚类对象被遍历到，当最后一个聚类对象被遍历到是，将对应的指定聚类对象作为目标聚类对象，避免目标聚类对象的偶然性，提高后续聚类的鲁棒性，进而达到良好的聚类效果。

在本申请的一个实施例中，请参阅图7，初始聚类为多个，一个初始聚类含有一个目标聚类对象；在步骤S230根据多个第一目标距离之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象之后，数据聚类方法还包括步骤S710和步骤S720，详细介绍如下：

步骤S710，计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离。

本申请实施例中，初始聚类包括多个，每个初始聚类依据前面描述的步骤确定出对应的目标聚类对象，在所有的初始聚类中，计算所有除目标聚类对象之外的聚类对象与各个目标聚类对象之间的第二目标距离，即每一个不是目标聚类对象的聚类对象，分别与各个目标聚类对象计算一个第二目标距离。

步骤S720，比较各个第二目标距离，并将除目标聚类对象之外的聚类对象聚类到最小第二目标距离的目标聚类对象对应的聚类中。

本申请实施例中，对每一个不是目标聚类对象的聚类对象而言，目标聚类对象有N个，第二目标距离便有N个，从N个第二目标距离中确定出最小的第二目标距离，将最小的第二目标距离所对应的目标聚类对象作为最终的聚类的簇中心，将该聚类对象聚类到该目标聚类对象所对应的聚类中。本申请实施例中，第二目标距离最小表示聚类对象与该目标聚类对象最为相似，因此，选择第二目标距离最小所对应的目标聚类对象的聚类，能够更加准确的对聚类对象进行聚类。

在本申请的一个实施例中，请参阅图8，在步骤S710中计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离，包括步骤S810至步骤S830：

步骤S810，将除目标聚类对象之外的聚类对象与目标聚类对象对应的相同维度的特征进行计算，得到各个维度的特征之间的第三距离值。

本申请实施例中，每个初始聚类得到目标聚类对象后，计算各个除目标聚类对象之外的聚类对象与各个目标聚类对象得到第三距离值，如除目标聚类对象的聚类对象包括X1、X2、X3、X4、···、Xn，目标聚类对象有Y1、Y2、···、Ym，依次计算X1分别与Y1、Y2、···、Ym在各个维度的特征之间的第三距离值，然后再计算X2分别与Y1、Y2、···、Ym在各个维度的特征之间的第三距离值，按照相同的规则计算完所有除目标聚类对象以外的聚类对象与目标聚类对象之间的第三距离值。具体的，可通过(X_J(p)-Y_i(p))²计算第三距离值，其中X_j(p)表示聚类对象X_j与目标聚类对象Y_i在第p维特征的第三距离值。

步骤S820，将各个第三距离值分别与对应维度的特征匹配的权重进行乘积运算，得到各个第四距离值。

本申请实施例中，将各个第三距离值分别与匹配的权重进行乘积运算，匹配的权重与前述步骤S220中的描述一致，在此不进行赘述。具体的，可通过w_p(X_J(p)-Y_I(p))²计算第四距离值，上述公式中，w_p表示第p维特征匹配的权重，其余字母所代表的含义与前面的描述一致，在此不进行赘述。

步骤S830，根据各个第四距离值计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离。

本申请实施例中，得到第四距离值后，根据第四距离值计算第二目标距离，如聚类对象X_j与目标聚类对象Y_i之间，得到各个维度的第四距离值后，将各个维度的第四距离值进行求和运算，并开平方根，得到第二目标距离。具体的，可通过下列公式计算第二目标距离：

其中，公式中的各个字母所代表的含义在前述已进行说明，在此不进行赘述。

在本申请的一个实施例中，请参阅图9，图9为本申请一示例性实施例示出的一种数据聚类方法的流程图，包括步骤S910至步骤S980，详细介绍如下：

步骤S910，获取多个聚类对象，从多个聚类对象中随机选取K个聚类对象作为初始簇中心。

本申请实施例中，从多个聚类对象中随机选择K个聚类对象作为初始簇中心，K为大于1，且小于聚类对象个数的整数。

步骤S920，获取各个聚类对象的原始数据，并对各个聚类对象的原始数据进行主成分分析，得到各个聚类对象对应的特征数据；其中，特征数据中包括多个维度的特征。

本申请实施例中，上述步骤S920与前述步骤S310的描述一致，在此不进行赘述。

步骤S930，对特征数据的每一维特征进行归一化处理，得到各个聚类对象的特征数据中的多个维度的特征匹配的权重。

本申请实施例中，上述步骤S930与前述步骤S320的描述一致，在此不进行赘述。

步骤S940，基于特征数据和作为初始簇中心的聚类对象，将除初始簇中心外的聚类对象聚类到对应的作为初始簇中心的聚类对象的聚类中，得到K个初始聚类。

本申请实施例中，根据特征数据，将聚类对象聚类到对应的聚类中，具体的，将不是初始簇中心的聚类对象分别通过前述步骤S420中描述的公式计算其与各个初始簇中心的距离值，再将该不是初始簇中心的聚类对象归纳到距离值最小的初始簇中心所对应的聚类中，将所有不是初始簇中心的聚类对象都确定出对应的聚类后，得到K个初始聚类，每个初始聚类中包括多个聚类对象。

步骤S950，在各个初始聚类中，在依次遍历初始聚类中含有的多个聚类对象的过程中，将遍历到的聚类对象作为簇中心，并将作为簇中心的聚类对象与其他聚类对象对应的相同维度的特征进行计算，得到各个维度的特征之间的第一距离值；将各个第一距离值分别与对应维度的特征匹配的权重进行乘积运算，得到各个第二距离值；将各个第二距离值进行求和运算，得到作为簇中心的聚类对象和其他聚类对象的第一目标距离。

本申请实施例中，在每一个初始聚类中，将每一个聚类对象作为一次簇中心，计算对应的第一目标距离，其中，计算第一目标距离的步骤与前述步骤S410至步骤S430中的描述一致，在此不进行赘述，经过上述步骤S950的处理，每一个聚类对象作为簇中心是，均有一个对应的第一目标距离。

步骤S960，在各个初始聚类中，计算作为簇中心的聚类对象和历史遍历过的聚类对象中的指定聚类对象之间针对第一目标距离的差值；根据各个差值之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象。

本申请实施例中，上述步骤S960与前述步骤S510和步骤S520中的描述一致，在此不进行赘述，经过上述步骤S960的处理，每个初始聚类中均确定出一个目标聚类对象。

进一步地，在计算作为簇中心的聚类对象和历史遍历过的聚类对象中的指定聚类对象之间针对第一目标距离的差值之前，将当前遍历到的作为簇中心的聚类对象对应的差值与历史遍历过的作为簇中心的聚类对象对应的差值中的最小差值进行比较；若当前遍历到的作为簇中心的聚类对象对应的差值小于历史遍历过的作为簇中心的聚类对象对应的差值中的最小差值，则将当前遍历到的聚类对象作为下一个待遍历的聚类对象所匹配的指定聚类对象。

步骤S970，计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离。

本申请实施例中，上述步骤S970与前述步骤S710的描述一致，在此不进行赘述.

步骤S980，比较各个第二目标距离，并将除目标聚类对象之外的聚类对象聚类到最小第二目标距离的目标聚类对象对应的聚类中。

本申请实施例中，上述步骤S980与前述步骤S720的描述一致，在此不进行赘述。将所有聚类对象聚类完成后，得到K个聚类，K的确定可基于拐点法、轮廓系数法等去进行确定。

本申请实施例中，通过主成分分析得到特征数据，并对特征数据进行归一化处理，得到每个聚类对象的特征数据中的多个维度的特征匹配的权重，为特征数据的每一维特征都计算到一个匹配的权重，进而根据匹配的权重和每一维特征计算第一目标距离，能够在第一目标距离中体现不同特征的贡献程度，有效利用已有特征，提升识别效果。同时，本申请实例利用第一目标距离之间的关系选取最终的目标聚类对象，代替簇中心的随机指定，避免偶然性，提升鲁棒性，达到良好的聚类效果。

在本申请的一个示例性实施例中，请参阅图10，图10是根据一示例性实施例示出的一种数据聚类装置的框图，包括：

获取模块1010，配置为获取初始聚类中含有的多个聚类对象的特征数据，特征数据中包括多个维度的特征；

计算模块1020，配置为在依次遍历初始聚类中含有的多个聚类对象的过程中，将遍历到的聚类对象作为簇中心，并根据多个聚类对象对应的多个维度的特征以及多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离；

确定模块1030，配置为根据多个第一目标距离之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象。

在一示例性实施例中，计算模块1020，包括：

第一计算子模块，配置为将作为簇中心的聚类对象与其他聚类对象对应的相同维度的特征进行计算，得到各个维度的特征之间的第一距离值；

乘积运算子模块，配置为将各个第一距离值分别与对应维度的特征匹配的权重进行乘积运算，得到各个第二距离值；

求和运算子模块，配置为将各个第二距离值进行求和运算，得到作为簇中心的聚类对象和其他聚类对象的第一目标距离。

在一示例性实施例中，确定模块1030，包括：

第二计算子模块，配置为计算作为簇中心的聚类对象和历史遍历过的聚类对象中的指定聚类对象之间针对第一目标距离的差值；

确定子模块，配置为根据各个差值之间的关系，从初始聚类中含有的多个聚类对象中确定目标聚类对象。

在一示例性实施例中，数据聚类装置还包括：

比较模块，配置为将当前遍历到的作为簇中心的聚类对象对应的差值与历史遍历过的作为簇中心的聚类对象对应的差值中的最小差值进行比较；

指定聚类对象模块，配置为若当前遍历到的作为簇中心的聚类对象对应的差值小于历史遍历过的作为簇中心的聚类对象对应的差值中的最小差值，则将当前遍历到的聚类对象作为下一个待遍历的聚类对象所匹配的指定聚类对象。

在一示例性实施例中，初始聚类为多个，一个初始聚类含有一个目标聚类对象；数据聚类装置还包括：

计算单元，配置为计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离；

比较单元，配置为比较各个第二目标距离，并将除目标聚类对象之外的聚类对象聚类到最小第二目标距离的目标聚类对象对应的聚类中。

在一示例性实施例中，计算单元，包括：

第一计算子单元，配置为将除目标聚类对象之外的聚类对象与目标聚类对象对应的相同维度的特征进行计算，得到各个维度的特征之间的第三距离值；

乘积运算子单元，配置为将各个第三距离值分别与对应维度的特征匹配的权重进行乘积运算，得到各个第四距离值；

第二计算子单元，配置为根据各个第四距离值计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离。

在一示例性实施例中，获取模块1010，包括：

主成分分析子模块，配置为对各个聚类对象的原始数据进行主成分分析，得到各个聚类对象对应的特征数据；

归一化处理子模块，配置为对特征数据的每一维特征进行归一化处理，得到各个聚类对象的特征数据中的多个维度的特征匹配的权重。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块、子模块、单元和子单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述各个实施例中提供的数据聚类方法。

图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(Central Processing Unit，CPU)1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的程序或者从储存部分1108加载到随机访问存储器(Random Access Memory，RAM)1103中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的储存部分1108；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入储存部分1108。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种数据聚类方法，其特征在于，所述方法包括：

获取初始聚类中含有的多个聚类对象的特征数据，所述特征数据中包括多个维度的特征；

在依次遍历所述初始聚类中含有的多个聚类对象的过程中，将遍历到的聚类对象作为簇中心，并根据所述多个聚类对象对应的多个维度的特征以及所述多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离；

根据多个第一目标距离之间的关系，从所述初始聚类中含有的多个聚类对象中确定目标聚类对象。

2.如权利要求1所述的方法，其特征在于，所述根据所述多个聚类对象对应的多个维度的特征以及所述多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离，包括：

3.如权利要求1所述的方法，其特征在于，所述根据多个第一目标距离之间的关系，从所述初始聚类中含有的多个聚类对象中确定目标聚类对象，包括：

根据各个差值之间的关系，从所述初始聚类中含有的多个聚类对象中确定目标聚类对象。

4.如权利要求3所述的方法，其特征在于，在所述计算作为簇中心的聚类对象和历史遍历过的聚类对象中的指定聚类对象之间针对第一目标距离的差值之前，所述方法还包括：

5.如权利要求1至4中任一项所述的方法，其特征在于，所述初始聚类为多个，一个初始聚类含有一个目标聚类对象；在所述根据多个第一目标距离之间的关系，从所述初始聚类中含有的多个聚类对象中确定目标聚类对象之后，所述方法还包括：

比较各个第二目标距离，并将所述除目标聚类对象之外的聚类对象聚类到最小第二目标距离的目标聚类对象对应的聚类中。

6.如权利要求5所述的方法，其特征在于，所述计算除目标聚类对象之外的聚类对象与各个目标聚类对象的第二目标距离，包括：

7.如权利要求1至4中任一项所述的方法，其特征在于，所述获取初始聚类中含有的多个聚类对象的特征数据，包括：

对所述特征数据的每一维特征进行归一化处理，得到各个聚类对象的特征数据中的多个维度的特征匹配的权重。

8.一种数据聚类装置，其特征在于，包括：

获取模块，配置为获取初始聚类中含有的多个聚类对象的特征数据，所述特征数据中包括多个维度的特征；

计算模块，配置为在依次遍历所述初始聚类中含有的多个聚类对象的过程中，将遍历到的聚类对象作为簇中心，并根据所述多个聚类对象对应的多个维度的特征以及所述多个维度的特征匹配的权重，计算作为簇中心的聚类对象与其他聚类对象的第一目标距离；

确定模块，配置为根据多个第一目标距离之间的关系，从所述初始聚类中含有的多个聚类对象中确定目标聚类对象。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至7中任一项所述的数据聚类方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1至7中任一项所述的数据聚类方法。