CN111340084B

CN111340084B - 数据处理方法及装置、处理器、电子设备、存储介质

Info

Publication number: CN111340084B
Application number: CN202010106959.9A
Authority: CN
Inventors: 王飞; 黄厚钧; 李�诚; 钱晨; 楼赞
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2024-05-17
Anticipated expiration: 2040-02-20
Also published as: CN111340084A

Abstract

本申请公开了一种数据处理方法及装置、处理器、电子设备、存储介质。该方法包括：获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述所述簇对的纯度用于表征簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；基于所述第一合并分数，得到所述待聚类簇对的聚类结果。

Description

数据处理方法及装置、处理器、电子设备、存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法及装置、处理器、电子设备、存储介质。

背景技术

随着深度学习的快速发展，机器学习可应用的领域越来越多。而在将深度学习的模型应用到不同的领域之前，需要对该模型进行训练，而训练需要大量已标注的数据作为训练数据。若通过人工标注的方式获得训练数据带来的人力成本高，且标注效率低。因此，如何通过机器完成对数据的标注就变得非常有意义。

通过对无标注数据进行聚类，可确定无标注数据的标注信息，从而实现对无标注数据的标注，得到训练数据。但传统聚类方法得到的聚类结果的准确率低，进而导致标注信息的准确率低。

发明内容

本申请提供一种数据处理方法及装置、处理器、电子设备、存储介质。

第一方面，提供了一种数据处理方法，所述方法包括：

获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；

使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；

基于所述第一合并分数，得到所述待聚类簇对的聚类结果。

在该方面中，使用以纯度为监督信息训练获得的聚类网络对待聚类簇对进行处理，可获得待处理数据集中的簇对的纯度的信息，得到第一合并分数。基于第一合并分数得到聚类结果，可利用待聚类簇对的纯度的信息，从而提高聚类结果的准确率。

结合本申请任一实施方式，所述待聚类簇对包括第一簇和第二簇，所述第一簇中的数据的类别相同，所述第二簇中的数据的类别相同；

在所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果之前，所述方法还包括：

将所述第一簇中的数据和所述第二簇中的数据组成待确认数据对，在所述待确认数据对中的两个数据之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认数据对为支持合并数据对；

依据所述支持合并数据对的数量和所述待确认数据对的数量得到参考值；

所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果，包括：

基于所述第一合并分数和所述参考值，得到所述聚类结果。

在该实施方式中，通过将第一簇中的一个数据和第二簇的一个数据作为一个待确认数据对，并依据待确认数据对中的两个数据之间的相似度，确定待确认数据对是否为支持合并数据对。若待确认数据对中支持合并数据对的占比达到第二期望值，表征第一簇中的数据与第二簇中的数据之间的相似度高，进而执行合并第一簇和第二簇的操作，可提高合并第一簇和第二簇的准确率。因此，基于第一合并分数和参考值，得到聚类结果，可提高聚类结果的准确率。

结合本申请任一实施方式，所述基于所述第一合并分数和所述参考值，得到所述聚类结果，包括：

在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果。

结合本申请任一实施方式，所述在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果，包括：

在所述第一合并分数大于或等于所述第二阈值，且所述参考值大于或等于第三阈值的情况下，合并所述第一簇和所述第二簇。

结合本申请任一实施方式，所述使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，包括：

对所述待聚类簇对进行特征提取处理，得到第一特征数据；

对所述第一特征数据进行第一池化处理得到第二特征数据，对所述第一特征数据进行第二池化处理得到第三特征数据；

将所述第二特征数据和所述第三特征数据融合，得到第四特征数据；

依据所述第四特征数据，得到所述第一合并分数。

在该实施方式中，通过对第一特征数据进行均值池化处理，在缩小第一特征数据的尺寸的同时，提取第一特征数据中每个池化区域的融合后的信息，得到第二特征数据。对第一特征数据进行最大池化处理，在缩小第一特征数据的尺寸的同时，提取第一特征数据中每个池化处理区域中像素值最大的像素包含的信息，得到第三特征数据。将第二特征数据和第三特征数据融合，以融合第二特征数据的信息和第三特征数据的信息，得到第四特征数据。进而达到在实现对第一特征数据的池化处理的同时，减少信息的丢失，从而提高依据第四特征数据得到的第一合并分数的准确率。

结合本申请任一实施方式，以簇对的纯度为监督信息训练得到所述聚类网络，包括：

获取待训练网络、第一待训练簇对和第二待训练簇对；

经所述待训练网络对所述第一待训练簇对进行处理得到第二合并分数，经所述待训练网络对所述第二待训练簇对进行处理得到第三合并分数；

确定所述第二合并分数与所述第三合并分数之间的差异，得到第二差异；

基于所述第二差异，得到待训练网络的损失；

基于所述损失调整所述待训练网络的参数，得到所述聚类网络。

在该实施方式中，在对待训练网络的训练过程中，将待训练簇对的纯度作为待训练网络的监督信息，可使训练得到的聚类网络具备依据簇对的纯度得到合并分数的能力。

结合本申请任一实施方式，在所述基于所述第二差异，得到待训练网络的损失之前，所述方法还包括：

依据所述第一待训练簇对的标注信息，得到所述第一待训练簇对的第一纯度；

依据所述第二待训练簇对的标注信息，得到所述第二待训练簇对的第二纯度。

结合本申请任一实施方式，在所述第一纯度小于所述第二纯度的情况下，所述第二差异与所述损失呈正相关；

在所述第一纯度大于所述第二纯度的情况下，所述第二差异与所述损失呈负相关。

第二方面，提供了一种数据处理装置，所述装置包括：

获取单元，用于获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；

第一处理单元，用于使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；

第二处理单元，用于基于所述第一合并分数，得到所述待聚类簇对的聚类结果。

所述装置还包括：确定单元，用于在所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果之前，将所述第一簇中的数据和所述第二簇中的数据组成待确认数据对，在所述待确认数据对中的两个数据之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认数据对为支持合并数据对；

第三处理单元，用于依据所述支持合并数据对的数量和所述待确认数据对的数量得到参考值；

所述第二处理单元，用于：

基于所述第一合并分数和所述参考值，得到所述聚类结果。

结合本申请任一实施方式，所述第二处理单元，用于：

结合本申请任一实施方式，所述第一处理单元，用于：

对所述待聚类簇对进行特征提取处理，得到第一特征数据；

依据所述第四特征数据，得到所述第一合并分数。

获取待训练网络、第一待训练簇对和第二待训练簇对；

基于所述第二差异，得到待训练网络的损失；

结合本申请任一实施方式，所述装置还用于：

在所述基于所述第二差异，得到待训练网络的损失之前，依据所述第一待训练簇对的标注信息，得到所述第一待训练簇对的第一纯度；

第三方面，提供了一种处理器，所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种数据处理方法的流程示意图；

图2为本申请实施例提供的另一种数据处理方法的流程示意图；

图3为本申请实施例提供的一种邻接子图的示意图；

图4a为本申请实施例提供的一种第一特征数据的示意图；

图4b为本申请实施例提供的一种池化处理后的第一特征数据的示意图；

图5a为本申请实施例提供的另一种第一特征数据的示意图；

图5b为本申请实施例提供的另一种池化处理后的第一特征数据的示意图；

图6为本申请实施例提供的一种宽度维度上的拼接的示意图；

图7为本申请实施例提供的一种长度维度上的拼接的示意图；

图8为本申请实施例提供的一种相同位置的元素的示意图；

图9为本申请实施例提供的一种聚类网络的训练方法的流程示意图；

图10为本申请实施例提供的一种数据处理装置的结构示意图；

图11为本申请实施例提供的一种数据处理装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在进行接下来的阐述之前，首先对待聚类簇对的合并准确率进行定义。假设待聚类簇对中的数据的数量为n_t，合并待聚类簇对得到的簇中类别正确的数据的数量为n_c。在本申请实施例中，待聚类簇对的合并准确率τ满足下式：

举例来说，待聚类簇对包括簇a和簇b。簇a包含30个数据，簇a中数据的类别为A。簇b包含50个数据，簇b中数据的类别为B。将簇a和簇b合并，得到簇c。簇c包含80个数据，即n_t＝80。簇c中数据的类别为B，则在簇c中类别正确的数据为簇b中的50个数据，即n_c＝50。合并准确率τ＝50/80＝62.5％。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1是本申请实施例提供的一种数据处理方法的流程示意图。

101、获取待聚类簇对和聚类网络。

本实施例的执行主体为数据处理装置。数据处理装置可以是服务器、手机、电脑、平板电脑等。

本申请实施例中，待聚类簇对包括两个簇。簇为数据集合，集合内的数据可以为：图像、语句、语音、向量等。簇内的数据的类别相同，下文将簇中的数据的类别称为簇的类别。每个待聚类簇对中的两个簇的类别可以相同，也可以不同。

举例来说，待聚类簇对1包括簇A和簇B。簇A包括图像a、图像b、图像c。图像a的类别、图像b的类别、图像c的类别均为苹果，即簇A的类别为苹果。簇B包括图像d、图像e、图像f。图像d的类别、图像e的类别、图像f的类别均为梨，即簇B的类别为梨。

需要理解的是，每个待聚类簇对包括两个簇指：每个待聚类簇对包括两个类别的数据。例如，待聚类簇对1包括数据集合A、数据集合B、数据集合C。数据集合A包括图像a、图像b，数据集合B包括图像c、图像d，数据集合C包括图像e、图像f。图像a的类别和图像b的类别均为苹果，图像c的类别和图像d类别均为西瓜，图像e和图像f均为苹果。数据集合A、数据集合B、数据集合C中的数据类别为2。因此，数据集合A、数据集合B、数据集合C中包含两个簇，即类别为苹果的簇和类别为西瓜的簇。

上述聚类网络为具备对待聚类簇对中的数据进行聚类的功能的网络。例如，聚类网络可以由卷积层、池化层、归一化层、全连接层、下采样层、上采样层、分类器等网络层按照一定方式堆叠或组成。本申请对聚类网络的结构不做限定。

在一种可能实现的方式中，聚类网络包括多层卷积层、池化层和全连接层，依次通过聚类网络中的多层卷积层、池化层和全连接层对待聚类簇对进行卷积处理和归一化处理，可完成对待聚类簇对的聚类，获得待聚类簇对的聚类结果。

本申请实施例中，聚类网络以簇对中数据的类别的纯度为监督信息训练得到。簇对中包含的数据类别的数量至少为1。显然，簇对中的数据类别越少，表征将簇对中的至少两个簇越合并的准确率越高。例如，簇对1包括簇A和簇B，其中，簇A中的数据的类别为a，簇B中的数据的类别为b，若将簇A和簇B合并得到的簇C中将包含类别为a的数据和类别为b的数据。此时无论是将簇C的类别确定为a或者确定为b均是不合理的，即将簇A和簇B合并的准确率低。

此外，若将簇对中包含数据的数量最多的类别称为参考类别，若参考类别中的数据的数量与簇对中的数据的数量的比值越高，表征将簇对中的至少两个簇合并的准确率越高。例如(例1)，簇对1包括簇A和簇B，其中，簇A中的数据的类别为a，簇B中的数据的类别为b，且簇A中的数据的数量为10000，簇B中的数据的数量为1。若将簇A和簇B合并得到的簇C中包含10001个数据。虽然簇C包含类别为a的数据和类别为b的数据，但类别为a的数据的数量远大于类别为b的数据的数量，此时将簇C的类别确定为a只会导致1个数据的类别是错的，但有10000个数据的类别正确的。显然该合并获得的簇中的数据的类别的准确率仍然很高(10000/10001＝99.99％)，即将簇A和簇B合并的准确率高。

在进行接下来的阐述之前，首先对簇对的纯度进行定义。本申请实施例中，簇对的纯度即为簇对中参考类别的纯度。假设参考类别包含的数据的数量为n，簇对中的数据的数量为m，则参考类别的纯度为n/m。在例1中，簇对1中包含数据的数量最多的类别为a，类别a的纯度为：10000/10001＝99.99％。

由例1可以看出，簇对的纯度与将簇对合并的准确率呈正相关。也就是说，簇对的纯度可作为是否合并簇对中的簇的依据。基于此，本申请实施例以簇对的纯度为监督信息对网络进行训练，获得聚类网络，可使聚类网络在对待聚类簇对进行处理时，得到待聚类簇对的纯度的信息。

数据处理装置获取待聚类簇对或聚类网络的方式可以是接收用户通过输入组件输入的待聚类簇对，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。数据处理装置获取待聚类簇对或聚类网络的方式也可以是接收第一终端发送的待聚类簇对或聚类网络，其中，第一终端包括手机、计算机、平板电脑、服务器等。

102、使用上述聚类网络对上述待聚类簇对进行处理，得到第一合并分数。

如步骤101所述，经聚类网络对待聚类簇对进行处理，可得到待聚类簇对的纯度。依据待聚类簇对的纯度，得到第一合并分数。

在一种可能实现的方式中，假设待聚类簇对的纯度为c，第一合并分数为s。c和s满足下式：

s＝k×c…公式(2)

其中，k为正数。

在另一种可能实现的方式中，假设待聚类簇对的纯度为c，第一合并分数为s。c和s满足下式：

s²＝k×c²…公式(3)

其中，k为正数。

在又一种可能实现的方式中，假设待聚类簇对的纯度为c，第一合并分数为s。c和s满足下式：

s＝k×c+t…公式(4)

其中，k为正数，t为正数。

其中，k为正数。

103、基于上述第一合并分数，得到上述待聚类簇对的聚类结果。

本申请实施例中，聚类结果包括合并待聚类簇对中的簇以及不合并待聚类簇对中的簇。

如上所述，簇对的纯度越高，合并簇对得到的合并准确率就越高。因此，基于第一合并分数完成对待聚类簇对的聚类，得到待聚类簇对的聚类结果。

在一种可能实现方式中，第一合并分数与待聚类簇对的纯度呈正相关。在第一合并分数大于或等于第一分数阈值的情况下，表征待聚类簇对的纯度高，此时合并待聚类簇对得到的合并准确率高，因此可合并待聚类簇对。例如，待聚类簇对包括：簇A和簇B。假设：待聚类簇对的第一合并分数为9，第一分数阈值为8。由于第一合并分数大于第一分数阈值，将簇A和簇B合并，得到簇C。簇C即为待聚类簇对的聚类结果。又例如，待聚类簇对包括：簇A和簇B。假设：待聚类簇对的第一合并分数为7，第一分数阈值为8。由于第一合并分数小于第一分数阈值，不合并簇A和簇B。簇A和簇B即为待聚类簇对的聚类结果。

在另一种可能实现方式中，第一合并分数与待聚类簇对的纯度呈负相关。在第一合并分数小于第二分数阈值的情况下，表征待聚类簇对的纯度高，此时合并待聚类簇对得到的合并准确率高，因此可合并待聚类簇对。例如，待聚类簇对包括：簇A和簇B。假设：待聚类簇对的第一合并分数为3，第二分数阈值为4。由于第一合并分数小于第二分数阈值，将簇A和簇B合并，得到簇C。簇C即为待聚类簇对的聚类结果。又例如，待聚类簇对包括：簇A和簇B。假设：待聚类簇对的第一合并分数为3，第二分数阈值为2。由于第一合并分数大于分数阈值，不合并簇A和簇B。簇A和簇B即为待聚类簇对的聚类结果。

此外，两个簇的质心之间的相似度越高，表征两个簇属于同一个类别的概率越高，因此，在对待聚类簇对进行聚类的过程中，还可考虑两个簇的质心之间的相似度，以提高合并准确率。

在另一种可能实现的方式中，第一合并分数与待聚类簇对的纯度呈正相关。待聚类簇对包括第一簇和第二簇。确定第一簇的质心与第二簇的质心之间的相似度，作为第二相似度。在第一合并分数大于或等于第一分数阈值，且第二相似度大于或等于相似度阈值的情况下，合并第一簇和第二簇。其中，相似度阈值为小于1的正数。

例如，待聚类簇对包括：簇A和簇B。假设：待聚类簇对的第一合并分数为9，第一分数阈值为8，相似度阈值为70％，簇A的质心与簇B的质心之间的相似度为80％。由于第一合并分数大于第一分数阈值，且第二相似度大于相似度阈值，将簇A和簇B合并，得到簇C。簇C即为待聚类簇对的聚类结果。又例如，待聚类簇对包括：簇A和簇B。假设：待聚类簇对的第一合并分数为9，第一分数阈值为8，相似度阈值为70％，簇A的质心与簇B的质心之间的相似度为60％。由于第二相似度小于相似度阈值，不合并簇A和簇B。簇A和簇B即为待聚类簇对的聚类结果。再例如，待聚类簇对包括：簇A和簇B。假设：待聚类簇对的第一合并分数为7，第一分数阈值为8，相似度阈值为70％，簇A的质心与簇B的质心之间的相似度为80％。由于第一合并分数小于第一分数阈值，不合并簇A和簇B。簇A和簇B即为待聚类簇对的聚类结果。

本实施例使用以纯度为监督信息训练获得的聚类网络对待聚类簇对进行处理，可获得待处理数据集中的簇对的纯度的信息，得到第一合并分数。基于第一合并分数得到聚类结果，可利用待聚类簇对的纯度的信息，从而提高聚类结果的准确率。

作为一种可选的实施方式，在执行步骤104之前，还可执行以下步骤：

11、将第一簇中的数据和第二簇中的数据组成待确认数据对，在上述待确认数据对中的两个数据之间的第一相似度大于或等于第一阈值的情况下，确定上述待确认数据对为支持合并数据对。

本申请实施例中，待聚类簇对包括第一簇和第二簇。待确认数据对包括第一簇中的数据和第二簇中的数据。例如，第一簇包括数据A和数据B，第二簇包括数据C。数据A和数据C可组成一个待确认数据对。数据B和数据C可组成一个数据对。

可选的，将第一簇中的一个数据与第二簇中的一个数据组成一个待确认数据对，遍历第一簇中的每一个数据和第二簇中的每一个数据，得到至少一个待确认数据对。举例来说(例2)，第一簇包含两个数据，分别为：数据a和数据b，第二簇包含两个数据，分别为数据c和数据d。那么第一簇和第二簇之间的待确认数据对包括：待确认数据对1、待确认数据对2、待确认数据对3、待确认数据对4。待确认数据对1包括：数据a和数据c，待确认数据对2包括：数据a和数据d，待确认数据对3包括：数据b和数据c，待确认数据对4包括：数据b和数据d。

若待确认数据对中的两个数据之间的相似度(即第一相似度)大于或等于第一阈值，表征待确认数据对中的两个数据的类别相同，其中，第一阈值为小于或等于1的正数。由于待确认数据对中的两个数据分属两个不同的簇，若待确认数据对中的两个数据的类别相同，表征待聚类簇对中的两个簇的类别相同，因此可将两个簇合并。基于此，本申请实施例将两个数据之间的第一相似度大于或等于第一阈值的待确认数据对作为支持合并数据对。

以例2为例，假设第一阈值为80％，数据a和数据c之间的相似度为85％，则由数据a和数据c组成的待确认数据对为支持合并数据对。

本申请实施例中，两个数据之间的相似度(包括上述第一相似度)可以是：两个数据之间的欧式距离(euclidean distance)、两个数据之间的余弦相似度、两个数据之间的马氏距离(mahalanobis distance)、两个数据之间的皮尔逊相关系数(pearsoncorrelation coefficient)、或两个数据之间的汉明距离(hamming distance)中的一种。

12、依据上述支持合并数据对的数量和上述待确认数据对的数量得到参考值。

本申请实施例中，待确认数据对的数量＝第一簇中的数据的数量与第二簇中数据的数量的乘积。举例来说，第一簇包含的数据的数量为a，第二簇包含的数据的数量为b，则第一簇和第二簇中的待确认数据对的数量＝a×b。

由于通过一个待确认数据对中的两个数据之间的第一相似度，判断两个簇是否应该合并获得的合并准确率低，即一个待确认数据对中的两个数据之间的相似度不能准确的表征两个簇之间的相似度。但若两个簇中的所有待确认数据对中第一相似度大于或等于第一阈值的待确认数据对的占比高，表征两个簇之间的相似度高，可视两个簇的类别相同。为此，本申请实施例通过将待确认数据对中支持合并数据对的占比是否达到合并阈值，作为判断是否将第一簇和第二簇合并的依据。

本实施例中，上述参考值可用于表征待确认数据对中支持合并数据对的占比。

令支持合并数据对的数量为n，待确认数据对的数量为m，参考值为v₁。

在一种得到参考值的可能实现的方式中，v₁满足下式：

在另一种得到参考值的可能实现的方式中，v₁满足下式：

在又一种得到参考值的可能实现的方式中，v₁满足下式：

其中，j为绝对值小于1的实数。

在又一种得到参考值的可能实现的方式中，v₁满足下式：

其中，c为绝对值小于1的实数。

在又一种得到参考值的可能实现的方式中，v₁满足下式：

作为一种可选的实施方式，步骤104具体包括以下步骤：

13、基于上述第一合并分数和上述参考值，得到上述聚类结果。

为使合并待聚类簇对的合并准确率高，可在使待聚类簇对的纯度大于或等于第一期望值的同时，使待聚类簇对中支持合并数据对在待确认数据对中的占比(下文将称为参考占比)大于或等于第二期望值，其中，第一期望值和第二期望值均可依据用户的实际需求进行调整。

在一种可能实现的方式中，在第一合并分数与待聚类簇对的纯度呈正相关情况下，使第一合并分数大于或等于第二阈值，可使待聚类簇对的纯度大于或等于第一期望值。由于参考占比可基于参考值确定，在第一合并分数大于或等于第二阈值的情况下，基于参考值，可使参考占比大于或等于第二期望值。

在另一种可能实现的方式中，在第一合并分数与待聚类簇对的纯度呈负相关情况下，使第一合并分数小于或等于第四阈值，可使待聚类簇对的纯度大于或等于第一期望值。由于参考占比可基于参考值确定，在第一合并分数小于或等于第四阈值的情况下，基于参考值，可使参考占比大于或等于第二期望值。

由步骤12可以看出，参考值与参考占比可呈相关(如公式(6)求得的参考值、公式(8)求得的参考值、公式(10)求得的参考值)，参考值也可与参考占比呈负相关(如公式(7)求得的参考值、公式(9)求得的参考值、公式(11)求得的参考值)。

基于此，在参考值与参考占比呈正相关的情况下，使参考值大于或等于第三阈值，可使参考占比大于或等于第二期望值。在参考值与参考占比呈负相关的情况下，使参考值小于或等于第五阈值，可使参考占比大于或等于第二期望值。

在待聚类簇对的纯度大于或等于第一期望值，且待聚类簇对的参考占比大于或等于第二期望值的情况下，合并第一簇和第二簇。在待聚类簇对的纯度大于或等于第一期望值，且待聚类簇对的参考占比小于第二期望值的情况下，不合并第一簇和第二簇。在待聚类簇对的纯度小于第一期望值，且待聚类簇对的参考占比大于或等于第二期望值的情况下，不合并第一簇和第二簇。在待聚类簇对的纯度小于第一期望值，且待聚类簇对的参考占比小于第二期望值的情况下，不合并第一簇和第二簇。

例如，假设：第一合并分数与待聚类簇对的纯度呈正相关，且参考值与参考占比可呈相关，第二阈值为8，第三阈值为80％。在第一合并分数大于或等于8，且参考值大于或等于80％的情况下，合并第一簇和第二簇。在第一合并分数小于8，且参考值大于或等于80％的情况下，不合并第一簇和第二簇。在第一合并分数大于或等于8，且参考值小于80％的情况下，不合并第一簇和第二簇。在第一合并分数小于8，且参考值小于80％的情况下，不合并第一簇和第二簇。

又例如，假设：第一合并分数与待聚类簇对的纯度呈正相关，且参考值与参考占比可呈负相关，第二阈值为8，第五阈值为1.25。在第一合并分数大于或等于8，且参考值小于或等于1.25的情况下，合并第一簇和第二簇。在第一合并分数小于8，且参考值小于或等于1.25的情况下，不合并第一簇和第二簇。在第一合并分数大于或等于8，且参考值大于1.25的情况下，不合并第一簇和第二簇。在第一合并分数小于8，且参考值大于1.25的情况下，不合并第一簇和第二簇。

又例如，假设：第一合并分数与待聚类簇对的纯度呈负相关，且参考值与参考占比可呈负相关，第四阈值为0.125，第五阈值为1.25。在第一合并分数小于或等于0.125，且参考值小于或等于1.25的情况下，合并第一簇和第二簇。在第一合并分数大于0.125，且参考值小于或等于1.25的情况下，不合并第一簇和第二簇。在第一合并分数小于或等于0.125，且参考值大于1.25的情况下，不合并第一簇和第二簇。在第一合并分数大于0.125，且参考值大于1.25的情况下，不合并第一簇和第二簇。

又例如，假设：第一合并分数与待聚类簇对的纯度呈负相关，且参考值与参考占比可呈正相关，第四阈值为0.125，第五阈值为80％。在第一合并分数小于或等于0.125，且参考值大于或等于80％的情况下，合并第一簇和第二簇。在第一合并分数大于0.125，且参考值大于或等于80％的情况下，不合并第一簇和第二簇。在第一合并分数小于或等于0.125，且参考值小于80％的情况下，不合并第一簇和第二簇。在第一合并分数大于0.125，且参考值小于80％的情况下，不合并第一簇和第二簇。

本实施例通过将第一簇中的一个数据和第二簇的一个数据作为一个待确认数据对，并依据待确认数据对中的两个数据之间的相似度，确定待确认数据对是否为支持合并数据对。若待确认数据对中支持合并数据对的占比达到第二期望值，表征第一簇中的数据与第二簇中的数据之间的相似度高，进而执行合并第一簇和第二簇的操作，可提高合并第一簇和第二簇的准确率。因此，基于第一合并分数和参考值，得到聚类结果，可提高聚类结果的准确率。

请参阅图2，图2是本申请实施例提供的步骤102的一种可能实现的方式的流程示意图。

201、对上述待聚类簇对进行特征提取处理，得到第一特征数据。

图卷积网络(graph convolutional networks，GCN)。聚类网络包括至少一层卷积层。通过至少一层卷积层对待聚类簇对进行卷积处理，可实现对待聚类簇对的特征提取处理，得到第一特征数据。卷积处理的实现过程可参见下例：

以聚类网络对图像进行卷积处理为例(例3)，卷积层中的卷积核对待聚类簇对中的图像进行卷积处理的实现过程如下：通过使卷积核在图像上滑动，并将图像上与卷积核的中心像素点对应的像素称为目标像素。将图像上的像素值与卷积核上对应的数值相乘，然后将所有相乘后的值相加得到卷积处理后的像素值。将卷积处理后的像素值作为目标像素的像素值。最终滑动处理完图像，更新图像中所有像素的像素值，完成对图像的卷积处理，得到第一特征数据。

可选的，聚类网络不仅包括至少一层卷积层，还可包括上采样层。通过对待聚类簇对依次进行卷积处理和上采样处理，可实现对待聚类簇对的特征提取处理，得到第一特征数据。

在一种可能实现的方式中，在聚类网络对待聚类簇对进行处理之前，可依据待聚类簇对中不同数据之间的相似度信息，确定不同数据之间的邻接关系，并将待聚类簇对中的数据相连，得到待聚类簇对的邻接子图。邻接子图包含至少一个节点，每一个节点与待聚类簇对中的一个数据对应。举例来说，待聚类簇对中的第一簇包括图像a和图像b，待聚类簇对中的第二簇包括图像c、图像d、图像e和图像f。图3所示为待聚类簇对的邻接子图，其中，1号节点对应图像a，2号节点对应图像b，3号节点对应图像c，4号节点对应图像d，5号节点对应图像e，6号节点对应图像f。从图3中可以看出，2号节点与1号节点之间的距离比4号节点与1号节点之间的距离近，相应的，图像b和图像a之间的相似度比图像d和图像a之间的相似度大。同理，图像c和图像2之间的相似度比图像c和图像a之间的相似度大。可选的，聚类网络为图卷积网络(graph convolutional networks，GCN)。经聚类网络对待聚类簇对的邻接子图进行处理，可实现对待聚类簇对的特征提取处理，得到第一特征数据。

可选的，可基于k最近邻(k-nearstneighbor，knn)算法构建待聚类簇对的邻接子图。该过程包括：假设待聚类簇对包含n个数据，n个数据与n个节点一一对应。确定待聚类簇对中每两个数据之间的相似度，并将两个数据之间的相似度作为与两个数据对应的两个节点之间的相似度，例如，数据A与节点a对应，数据B与节点b对应，数据A与数据B之间的相似度为x，则节点a与节点b之间的相似度为x。将n个节点中的每个节点分别与相似度最大的k个节点相连，得到邻接子图。

202、对上述第一特征数据进行第一池化处理得到第二特征数据，对上述第一特征数据进行第二池化处理得到第三特征数据。

从例3可以看出，第一特征数据中的像素的数量与待聚类簇对中的图像的像素的数量相同。当待聚类簇对中的图像包含的像素的数量较大时，第一特征数据中的像素的数量也较大。这样，在后续对第一特征数据的处理(如通过全连接层对第一特征数据进行处理，以确定待聚类簇对中的图像的类别)中将带来非常大的数据处理量。为减小后续处理中带来的数据处理量，可对第一特征数据进行下采样处理，其中，池化处理即为下采样处理中的一种。

池化处理可以是最大池化处理或均值池化处理中的一种。

最大池化处理可参见下例(例4)：假设第一特征数据的尺寸为h*w，池化处理后的第一特征数据的尺寸为H*W，其中，h表示第一特征数据的长，w表示第一特征数据的宽，H表示池化处理后的第一特征数据的长，W表示池化处理后的第一特征数据的宽。在对第一特征数据进行最大池化处理时，可将第一特征数据划分成H*W个池化处理区域，这样，每一个池化处理区域的尺寸为(h/H)*(w/W)。将每一个池化处理区域中像素的像素值的最大值作为池化处理区域的像素值，即可完成对第一特征数据的最大池化处理，得到池化处理后的第一特征数据。

均值池化处理可参见下例(例5)：假设第一特征数据的尺寸为h*w，池化处理后的第一特征数据的尺寸为H*W，其中，h表示第一特征数据的长，w表示第一特征数据的宽，H表示池化处理后的第一特征数据的长，W表示池化处理后的第一特征数据的宽。在对第一特征数据进行均值池化处理时，可将第一特征数据划分成H*W个池化处理区域，这样，每一个池化处理区域的尺寸为(h/H)*(w/W)。将每一个池化处理区域中像素的像素值的最大值作为池化处理区域的像素值，即可完成对第一特征数据的均值池化处理，得到池化处理后的第一特征数据。

从上述两个示例可以看出，传统池化处理无论是以最大池化处理实现还是以均值池化处理实现，均会导致部分像素值的丢失，即部分像素点包含的信息的丢失。

举例来说，图4a为尺寸为3*3的第一特征数据，其中，像素A11的像素值为30，像素A12的像素值为40，像素A13的像素值为60，像素A21的像素值为240，像素A22的像素值为100，像素A23的像素值为190，像素A31的像素值为230，像素A32的像素值为70，像素A33的像素值为20。对图4a所示的第一特征数据进行最大池化处理，得到尺寸为1*1的池化处理后的第一特征数据(即图4b所示的数据)。显然，在对第一特征数据进行最大池化处理的过程中，丢失了像素A11包含的信息、像素A12包含的信息、像素A13包含的信息、像素A22包含的信息、像素A23包含的信息、像素A31包含的信息、像素A32包含的信息、像素A33包含的信息。

再举例来说，图5a为尺寸为3*3的第一特征数据，其中，像素A11的像素值为40，像素A12的像素值为40，像素A13的像素值为60，像素A21的像素值为240，像素A22的像素值为100，像素A23的像素值为190，像素A31的像素值为230，像素A32的像素值为70，像素A33的像素值为20。对图5a所示的第一特征数据进行均值池化处理，得到尺寸为1*1的池化处理后的第一特征数据(即图5b所示的数据)，其中，像素B的像素值为110。像素B中的信息相当于将第一特征数据中的像素的信息融合后得到的信息，但在对第一特征数据进行均值池化处理的过程中，丢失了像素A11包含的信息、像素A12包含的信息、像素A13包含的信息、像素A21包含的信息、像素A22包含的信息、像素A23包含的信息、像素A31包含的信息、像素A32包含的信息、像素A33包含的信息。

本申请实施例中，第一池化处理与第二池化处理不同，具体表现为，对数据进行第一池化处理或第二池化处理，均可达到缩小数据的尺寸的效果，但通过第一池化处理得到的数据包含的信息与通过第二池化处理得到的数据包含的信息不同。

可选的，第一池化处理可以是均值池化处理和最大池化处理中的一种，例如，第一池化处理为均值池化处理，第二池化处理为最大池化处理。又例如，第一池化处理为最大池化处理，第二池化处理为均值池化处理。本申请实施例提供的技术方案中，最大池化处理的实现过程可参见例4，均值池化处理的实现过程可参见例5。

由于通过第一池化处理得到的数据包含的信息与通过第二池化处理得到的数据包含的信息不同，第二特征数据包含的信息与第三特征数据包含的信息不同。

例如，从例4和例5可以看出，最大池化处理得到的数据(下文将称为最大数据)与均值池化处理得到的数据(下文将称为均值数据)不同，即最大数据包含的信息与均值数据包含的信息不同。最大数据包含每个池化处理区域中像素值最大的像素包含的信息。通过计算池化处理区域中的像素值的均值，可实现将池化处理区域中的像素包含的信息融合，得到融合后的信息。因此，均值数据包含将每个池化处理区域的融合后的信息。

在一种可能实现的方式中，在第一池化处理为均值池化处理，第二池化处理为最大池化处理的情况下，通过对第一待处理数据进行均值池化处理，可得到每个池化处理区域的融合后的信息，得到第二特征数据。通过对第一待处理数据进行最大池化处理，可得到每个池化处理区域中像素值最大的像素包含的信息，得到第三特征数据。

203、将上述第二特征数据和上述第三特征数据融合，得到第四特征数据。

由于最大数据包含的信息与均值数据包含的信息不同，本申请实施例采用将最大数据与均值数据进行融合，以减少池化处理丢失的信息。

在一种可能实现的方式中，第二特征数据的尺寸与第三数据的尺寸相同。将第二特征数据和第三特征数据在通道维度上进行拼接(concatenate)，得到第三特征数据。举例来说，第二特征数据的通道数为3，第三特征数据的通道数为2。将第二特征数据与第三特征数据拼接，得到的第四特征数据的通道数为5。

在另一种可能实现的方式中，第二特征数据的通道数和第三特征数据的通道数相同，且第二特征数据的长与第三特征数据的长相同，或第二特征数据的宽与第三特征数据的宽相同。举例来说，第二特征数据的通道数与第三特征数据的通道数均为n，第二特征数据的尺寸为h*w，第三特征数据的尺寸为k*j，其中，h为第二特征数据的长，w为第二特征数据的宽，k为第三特征数据的长，j为第三特征数据的宽。则h＝k，或w＝j。将第二特征数据和第三特征数据中相同通道数的数据拼接，得到第四特征数据。举例来说，第二特征数据和第三特征数据均包含3个通道的数据，将第二特征数据中第一个通道的数据与第三特征数据中第一个通道的数据拼接，得到第四特征数据的第一个通道的数据。将第二特征数据中第二个通道的数据与第三特征数据中第二个通道的数据拼接，得到第四特征数据的第二个通道的数据。将第二特征数据中第三个通道的数据与第三特征数据中第三个通道的数据拼接，得到第四特征数据的第三个通道的数据。

若第二特征数据的长与第三特征数据的长相同，上述拼接为宽度维度上的拼接。例如，图6所示第二特征数据的长与第三特征数据的长相同，通过将第二特征数据与第三特征数据在宽度维度拼接，得到第四特征数据，其中，第四特征数据的长与第二特征数据的长相同，第四特征数据的宽等于第二特征数据的宽与第三特征数据的宽的和。若第二特征数据的宽与第三特征数据的宽相同，上述拼接为长度维度上的拼接。例如，图7所示第二特征数据的宽与第三特征数据的宽相同，通过将第二特征数据与第三特征数据在长度维度拼接，得到第四特征数据，其中，第四特征数据的长与第二特征数据的宽相同，第四特征数据的长等于第二特征数据的长与第三特征数据的长的和。

在又一种可能实现的方式中，第二特征数据的尺寸与第三特征数据的尺寸相同，通过将第二特征数据与第三特征数据中相同位置的元素(包括：图像中的像素值、向量中的元素值)相加，得到第四特征数据。本申请实施例中，两个数据中相同位置的元素可参见图8，如图8所示，元素A11在图像A中的位置与元素B11在图像B中的位置相同，元素A12在图像A中的位置与元素k在图像B12中的位置相同，元素A13在图像A中的位置与元素B13在图像B中的位置相同，元素A21在图像A中的位置与元素B21在图像B中的位置相同，元素A22在图像A中的位置与元素B22在图像B中的位置相同，元素A23在图像A中的位置与元素B23在图像B中的位置相同，元素A31在图像A中的位置与元素B31在图像B中的位置相同，元素A32在图像A中的位置与元素B32在图像B中的位置相同，元素A33在图像A中的位置与元素B33在图像B中的位置相同。

通过将第二特征数据和第三特征数据融合，可在减小后续对第一待处理数据进行处理时带来的数据处理量的同时，丰富的第四特征数据中的信息，以达到减少池化处理丢失的信息的效果。例如，通过将第二特征数据和第三特征数据在通道维度上进行拼接，可使第四特征数据既包含第二特征数据中的信息，又包含第三特征数据中的信息，但未增大第四特征数据的尺寸。

204、依据上述第四特征数据，得到上述第一合并分数。

通过步骤201～步骤203的处理，得到的第四特征数据中携带以下至少一种信息：待聚类簇对中数据的类别信息、待聚类簇对中不同数据之间的相似度信息。因此，可依据第四特征数据，得到第一合并分数。

在一种可能实现的方式中，聚类网络包括全连接层。通过全连接层对第四特征数据进行处理，可得到第一合并分数。

在另一种可能实现的方式中，依据第四特征数据中携带的信息，确定待聚类簇对中每个数据的类别。依据待聚类簇对中所有数据的类别，确定待聚类簇对的纯度，进而确定第一合并分数。

本实施通过对第一待处理数据进行第一池化处理得到第一特征数据，在缩小第一待处理数据的尺寸的同时，提取第一待处理数据中的信息，得到第一特征数据。对第一待处理数据进行第二池化处理得到第二特征数据，在缩小第一待处理数据的尺寸的同时，提取第一待处理数据中的信息，得到第二特征数据。将第一特征数据和第二特征数据融合，以融合第一特征数据的信息和第二特征数据的信息，得到第三特征数据。进而达到在实现对第一待处理数据的池化处理的同时，减少信息的丢失，从而提高依据第四特征数据得到的第一合并分数的准确率。

在前文中，通过使用聚类网络对待聚类簇对进行处理，可得到待聚类簇对的聚类结果，接下来将详细阐述训练得到聚类网络的过程。

请参阅图9，图9是本申请实施例提供的一种聚类网络训练方法的流程示意图。

901、获取待训练网络、第一待训练簇对和第二待训练簇对。

本实施例的执行主体可以是数据处理装置，也可以不是数据装置。即聚类网络的训练方法的执行主体，与使用聚类网络对待聚类簇对进行处理的执行主体可以相同，也可以不同，本申请对本实施例的执行主体不做限定。为表述方便，下文将本实施例的执行主体称为训练终端。

本实施例中，待训练网络与步骤101中的聚类网络的结构相同。待训练簇对(包括第一待训练簇对和第二待训练簇对)均包括至少两个簇，同一个簇中的数据的类别相同，不同簇中的数据的类别不同。待训练簇对中的数据均包含标签数据，该标签数据携带数据的类别信息。

训练终端获取待训练网络或第一待训练簇对或第二待训练簇对的方式可以是接收用户通过输入组件输入的待训练网络或第一待训练簇对或第二待训练簇对，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。训练终端获取待训练网络或第一待训练簇对或第二待训练簇对的方式也可以是接收第二终端发送的待训练网络或第一待训练簇对或第二待训练簇对，其中，第二终端包括手机、计算机、平板电脑、服务器等。

902、经上述待训练网络对上述第一待训练簇对进行处理得到第二合并分数，经上述待训练网络对上述第二待训练簇对进行处理得到第三合并分数。

待训练网络对第一待训练簇对进行特征提取处理，得到第一待训练簇对的特征数据，作为第五特征数据。依据第五特征数据，确定第一待训练簇对的纯度，进而依据第一待训练簇对的纯度，得到第二合并分数。

待训练网络对第二待训练簇对进行特征提取处理，得到第二待训练簇对的特征数据，作为第六特征数据。依据第六特征数据，确定第二待训练簇对的纯度，进而依据第二待训练簇对的纯度，得到第三合并分数。

待训练网络对第一待训练簇对进行特征提取处理得到第五特征数据的实现过程，可参见步骤201至步骤203中，聚类网络对待聚类簇对进行处理得到第四特征数据的实现过程，其中，待训练网络与聚类网络对应，第五特征数据与第四特征数据对应。同理，待训练网络对第二待训练簇对进行特征提取处理得到第六特征数据的实现过程，可参见步骤201至步骤203中，聚类网络对待聚类簇对进行处理得到第四特征数据的实现过程，其中，待训练网络与聚类网络对应，第六特征数据与第四特征数据对应。依据第五特征数据得到第二合并分数的实现过程，可参见步骤204中，依据第四特征数据得到第一合并分数的实现过程，其中，第四特征数据与第五特征数据对应，第一合并分数与第二合并分数。同理，依据第六特征数据得到第三合并分数的实现过程，可参见步骤204中，依据第四特征数据得到第一合并分数的实现过程，其中，第四特征数据与第六特征数据对应，第一合并分数与第三合并分数。

903、确定上述第二合并分数与上述第三合并分数之间的差异，得到第二差异。

使真实纯度大的簇对比真实纯度小的簇对先合并，可提高合并准确率，其中，真实纯度指依据簇对中的数据的类别得到的纯度。因此，需要使待训练网络准确判断不同簇对的纯度的大小。由于基于待训练网络得到的合并分数(包括第二合并分数和第三合并分数)，可用于表征簇对(包括第一待训练簇对和第二待训练簇对)的纯度，本实施以第一合并分数与第二合并分数之间的差异为依据，以确定待训练网络对第一待训练簇对的纯度与第二待训练簇对的纯度之间的大小关系的判断是否正确。

举例来说，在簇对的纯度与合并分数呈正相关的情况下，第一待训练簇对的真实纯度比第二待训练簇对的真实纯度大，则第二合并分数应该比第三合并分数大。在簇对的纯度与合并分数呈负相关的情况下，第一待训练簇对的真实纯度比第二待训练簇对的真实纯度大，则第二合并分数应该比第三合并分数小。

在一种得到第二差异的实现方式中，假设第二合并分数为s₂，第三合并分数为s₃，第二差异为d₂，则s₂、s₃、d₂满足下式：

d₂＝k×(s₂-s₃)…公式(12)

其中，k为正数。可选的，k＝1。

在另一种确定第二合并分数与第三合并分数之间的差异的实现方式中，假设第二合并分数为s₂，第三合并分数为s₃，第二差异为d₂，则s₂、s₃、d₂满足下式：

d₂＝s₂-s₃+k…公式(13)

其中，k为实数。可选的，k＝0。

在又一种确定第二合并分数与第三合并分数之间的差异的实现方式中，假设第二合并分数为s₂，第三合并分数为s₃，第二差异为d₂，则s₂、s₃、d₂满足下式：

其中，k为正数。可选的，k＝1。

904、基于上述第二差异，得到待训练网络的损失。

由于第二差异用于表征待训练网络得到的第一待训练簇对的纯度与第二待训练簇对的纯度之间的大小关系，依据第一待训练簇对的真实纯度与第二待训练簇对的真实纯度之间的大小关系与第二差异之间的差异，可得到待训练网络的损失。

在一种可能实现的方式中，在执行步骤904之前，可执行以下步骤：

91、依据上述第一待训练簇对的标注信息，得到上述第一待训练簇对的第一纯度。

依据第一待训练簇对中每个数据的标注信息，可确定第一待训练簇对中每个数据的类别。进而可依据第一待训练簇对中每个数据的类别，得到第一待训练簇对的真实纯度，即第一纯度。

92、依据上述第二待训练簇对的标注信息，得到上述第二待训练簇对的第二纯度。

依据第二待训练簇对中每个数据的标注信息，可确定第二待训练簇对中每个数据的类别。进而可依据第二待训练簇对中每个数据的类别，得到第一待训练簇对的真实纯度，即第二纯度。

在簇对的纯度与合并分数呈正相关，且第一纯度大于第二纯度的情况下，表征第二合并分数应该比第三合并分数大。为使合并分数能起到区分不同簇对的纯度的效果，可使第二差异尽可能的大，因此可使第二差异与待训练网络的损失呈负相关，并基于第二差异得到待训练网络的损失。

在一种基于第二差异得到待训练网络的损失的实现方式中，假设待训练网络的损失为L。

L和d₂满足下式：

其中，k为正数。可选的，k＝1。

在另一种基于第二差异得到待训练网络的损失的实现方式中，假设待训练网络的损失为L。

L和d₂满足下式：

其中，k为正数。可选的，k＝1。

在簇对的纯度与合并分数呈正相关，且第一纯度小于第二纯度的情况下，表征第二合并分数应该比第三合并分数小。为使合并分数能起到区分不同簇对的纯度的效果，可使第二差异尽可能的大，因此可使第二差异与待训练网络的损失呈正相关，并基于第二差异得到待训练网络的损失。

L和d₂满足下式：

其中，k为正数。可选的，k＝1。

L和d₂满足下式：

L＝k×d₂…公式(18)

其中，k为正数。可选的，k＝1。

905、基于上述损失调整上述待训练网络的参数，得到上述聚类网络。

基于待训练网络的损失，以反向梯度传播的方式对待训练训练网络进行训练，直至收敛，完成对待训练网络的训练，得到聚类网络。

本实施例中，在对待训练网络的训练过程中，将待训练簇对的纯度作为待训练网络的监督信息，可使训练得到的聚类网络具备依据簇对的纯度得到合并分数的能力。

基于本申请实施例提供的技术方案，本申请实施例还提供了一种可能的应用场景。

在数据量急剧扩增的时代，数据管理的难度也在急剧增加。通过对数据进行聚类，可有效提高数据管理效率。因此，如何高效、准确的完成数据的聚类具有非常重要的意义。

数据处理装置获取待聚类数据集，该待聚类数据集包括至少两个待聚类数据。例如，待聚类数据集包括100000张图像。又例如，待聚类数据集包括100000条语句。再例如，待聚类数据集包括100000个语音数据。

数据处理装置将待聚类数据集中的数据划分为至少两个数据集合，作为至少两个簇。可选的，可通过k均值聚类算法(k-means clustering algorithm)对数据进行处理，得到至少两个簇。

数据处理装置基于至少两个簇得到至少一个待处理簇对。例如，至少两个簇包括：簇A和簇B。基于至少两个簇得到的待处理簇对包括簇A和簇B。又例如，至少两个簇包括：簇A、簇B、簇C。基于至少两个簇可得到待处理簇对1、待处理簇对2、待处理簇对3，其中，待处理簇对1包括簇A和簇B，待处理簇对2包括簇A和簇C，待处理簇对3包括簇B和簇C。

基于本申请实施例提供的技术方案对待处理簇对进行处理，得到待处理簇对的合并分数。基于待处理簇对的合并分数，确定是否合并待处理簇对中的簇。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图10，图10为本申请实施例提供的一种数据处理装置的结构示意图，该装置1包括：获取单元11、第一处理单元12、第二处理单元13、确定单元14以及第三处理单元15，其中：

获取单元11，用于获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别；

第一处理单元12，用于使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，其中，所述第一合并分数用于表征所述待聚类簇对的纯度；

第二处理单元13，用于基于所述第一合并分数，得到所述待聚类簇对的聚类结果。

所述装置还包括：确定单元14，用于在所述基于所述第一合并分数，得到所述待聚类簇对的聚类结果之前，将所述第一簇中的数据和所述第二簇中的数据组成待确认数据对，在所述待确认数据对中的两个数据之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认数据对为支持合并数据对；

第三处理单元15，用于依据所述支持合并数据对的数量和所述待确认数据对的数量得到参考值；

所述第二处理单元13，用于：

基于所述第一合并分数和所述参考值，得到所述聚类结果。

结合本申请任一实施方式，所述第二处理单元13，用于：

结合本申请任一实施方式，所述第一处理单元12，用于：

对所述待聚类簇对进行特征提取处理，得到第一特征数据；

依据所述第四特征数据，得到所述第一合并分数。

获取待训练网络、第一待训练簇对和第二待训练簇对；

基于所述第二差异，得到待训练网络的损失；

结合本申请任一实施方式，所述装置1还用于：

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图11为本申请实施例提供的一种数据处理装置的硬件结构示意图。该数据处理装置2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关数据，如该存储器22可用于存储通过输入装置23获取的待聚类簇对，又或者该存储器22还可用于存储通过处理器21得到的聚类结果等等，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图11仅仅示出了一种数据处理装置的简化设计。在实际应用中，数据处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的数据处理装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别，所述簇对中的数据为图像，所述参考类别为所述簇对中包含图像的数量最多的类别；

以簇对的纯度为监督信息训练得到所述聚类网络，包括：获取待训练网络、第一待训练簇对和第二待训练簇对；经所述待训练网络对所述第一待训练簇对进行处理得到第二合并分数，经所述待训练网络对所述第二待训练簇对进行处理得到第三合并分数；确定所述第二合并分数与所述第三合并分数之间的差异，得到第二差异；基于所述第二差异，得到待训练网络的损失；基于所述损失调整所述待训练网络的参数，得到所述聚类网络，其中，所述第二合并分数和所述第三合并分数分别表征第一待训练簇对和第二待训练簇对的纯度；

所述使用所述聚类网络对所述待聚类簇对进行处理，得到第一合并分数，包括：对所述待聚类簇对进行特征提取处理，得到第一特征数据；对所述第一特征数据进行第一池化处理得到第二特征数据，对所述第一特征数据进行第二池化处理得到第三特征数据，通过所述第一池化处理得到的数据包含的信息与通过所述第二池化处理得到的数据包含的信息不同；将所述第二特征数据和所述第三特征数据融合，得到第四特征数据；依据所述第四特征数据，得到所述第一合并分数；

基于所述第一合并分数，得到所述待聚类簇对的聚类结果，所述聚类结果为所述待聚类簇对中的图像的聚类结果。

2.根据权利要求1所述的方法，其特征在于，所述待聚类簇对包括第一簇和第二簇，所述第一簇中的数据的类别相同，所述第二簇中的数据的类别相同；

基于所述第一合并分数和所述参考值，得到所述聚类结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一合并分数和所述参考值，得到所述聚类结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述在所述第一合并分数大于或等于第二阈值的情况下，基于所述参考值，得到所述聚类结果，包括：

5.根据权利要求1所述的方法，其特征在于，在所述基于所述第二差异，得到待训练网络的损失之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，在所述第一纯度小于所述第二纯度的情况下，所述第二差异与所述损失呈正相关；

7.一种数据处理装置，其特征在于，所述装置包括：

获取单元，用于获取待聚类簇对和聚类网络，其中，所述聚类网络以簇对的纯度为监督信息训练得到，所述簇对的纯度用于表征所述簇对中的参考类别的纯度，所述参考类别为所述簇对中包含数据的数量最多的类别，所述簇对中的数据为图像，所述参考类别为所述簇对中包含图像的数量最多的类别；

第二处理单元，用于基于所述第一合并分数，得到所述待聚类簇对的聚类结果，所述聚类结果为所述待聚类簇对中的图像的聚类结果。

8.一种处理器，其特征在于，所述处理器用于执行如权利要求1至6中任意一项所述的方法。

9.一种电子设备，其特征在于，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行如权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行权利要求1至6中任意一项所述的方法。