CN114398350A

CN114398350A - 训练数据集的清洗方法、装置及服务器

Info

Publication number: CN114398350A
Application number: CN202111645883.8A
Authority: CN
Inventors: 李文昊; 李凡平; 石柱国; 盛校粼
Original assignee: ISSA Technology Co Ltd
Current assignee: ISSA Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-26

Abstract

本发明提供了一种训练数据集的清洗方法、装置及服务器，包括：获取待清洗的训练数据集；其中，训练数据集包括多个训练样本和每个训练样本标注的第一标签；通过预先训练得到的聚类模型对训练数据集进行聚类处理，确定多个样本聚类簇和每个样本聚类簇对应的第二标签；根据第一标签和第二标签清洗训练数据集，得到目标训练数据集。本发明可以有效、快速地对训练数据集进行清洗。

Description

训练数据集的清洗方法、装置及服务器

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种训练数据集的清洗方法、装置及服务器。

背景技术

深度学习是学习样本数据的内在规律和表示层次，现已较好地应用于诸如人脸识别、图像识别及分类、机器分类、目标识别、情感识别等诸多领域。然而，深度学习的模型训练过程中，噪音数据(即错误数据)将对模型精度产生较大负面影响，目前通常采用人工对训练数据进行清洗的方式，但是人工清洗存在工作量较大、清洗效率较低等问题。

发明内容

有鉴于此，本发明的目的在于提供一种训练数据集的清洗方法、装置及服务器，可以有效、快速地对训练数据集进行清洗。

第一方面，本发明实施例提供了一种训练数据集的清洗方法，包括：获取待清洗的训练数据集；其中，所述训练数据集包括多个训练样本和每个所述训练样本标注的第一标签；通过预先训练得到的聚类模型对所述训练数据集进行聚类处理，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签；根据所述第一标签和所述第二标签清洗所述训练数据集，得到目标训练数据集。

在一种实施方式中，所述聚类模型包括特征提取模块和多层感知器，所述特征提取模块包括多个特征提取子模块，每个所述特征提取子模块的网络结构不同；所述通过预先训练得到的聚类模型对所述训练数据集进行聚类处理，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签的步骤，包括：通过每个所述特征提取子模块分别提取所述训练样本的特征信息；基于每个所述特征提取子模块输出的所述特征信息，计算样本对的关系数据；其中，所述关系数据包括边关系、特征相似度和局部结构均值和局部结构方差值中的一种或多种；通过所述多层感知器基于所述样本对的关系数据，从所述样本对中确定所述边关系成立的目标样本对；基于所述目标样本对，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签。

在一种实施方式中，所述基于每个所述特征提取子模块输出的所述特征信息，计算样本对的关系数据的步骤，包括：对于每个所述特征提取子模块，基于该特征提取子模块输出的所述特征信息，构建该特征提取子模块对应的K-NN图；其中，所述K-NN图用于表征所述训练样本之间的特征相似度；对于每个所述K-NN图，基于该K-NN图计算样本对的关系数据；其中，所述样本对为所述K-NN图中连接的两个所述训练样本。

在一种实施方式中，所述基于该特征提取子模块输出的所述特征信息，构建该特征提取子模块对应的K-NN图的步骤，包括：所述基于该特征提取子模块输出的所述特征信息，计算任意两个所述训练样本之间的特征相似度；根据所述特征相似度，确定每个所述训练样本之间的连接关系；按照所述连接关系连接每个所述训练样本，得到该特征提取子模块对应的K-NN图。

在一种实施方式中，所述对于每个所述K-NN图，基于该K-NN图计算样本对的关系数据的步骤，包括：如果所述关系数据包括所述边关系，判断该K-NN图中所述样本对是否连接；如果是，确定所述边关系为第一数值；如果否，确定所述边关系为第二数值；或，如果所述关系数据包括所述特征相似度，根据该K-NN图中表征的所述样本对中每个所述训练样本的特征信息，计算所述样本对的特征相似度；或，如果所述关系数据包括所述局部结构均值或所述局部结构方差值，对于所述样本对中的每个所述训练样本，按照该训练样本与除所述样本对之外的其他训练样本之间的特征相似度由高到低的顺序构建相似度集合；将每个所述训练样本对应的相似度集合作为所述局部结构，并对所述局部结构进行统计处理得到局部结构均值或局部结构方差值。

在一种实施方式中，所述基于所述目标样本对，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签的步骤，包括：按照每个所述目标样本对的边关系，连接所述训练数据集中的每个所述训练样本，得到多个连通子图；对于每个所述连通子图，判断该连通子图中包含训练样本的数量是否大于预设阈值；如果是，从所述连通子图中确定特征相似度最低的目标样本对，并取消所述目标样本对中两个所述训练样本的连接，直至所述连通子图中包含训练样本的数量小于或等于所述预设阈值，得到多个样本聚类簇；对于每个所述样本聚类簇，根据该样本聚类簇中每个所述训练样本标注的第一标签，确定该样本聚类簇对应的第二标签。

在一种实施方式中，所述根据所述第一标签和所述第二标签清洗所述训练数据集，得到目标训练数据集的步骤，包括：对于每个所述训练样本，判断该训练样本标注的所述第一标签和该训练样本所属样本聚类簇对应的第二标签是否一致；如果否，确定该训练样本为噪声样本，并从所述训练数据集中删除所述噪声样本；将删除所述噪声样本的训练数据集，确定为目标训练数据集。

第二方面，本发明实施例还提供一种训练数据集的清洗装置，包括：数据集获取模块，用于获取待清洗的训练数据集；其中，所述训练数据集包括多个训练样本和每个所述训练样本标注的第一标签；聚类模块，用于通过预先训练得到的聚类模型对所述训练数据集进行聚类处理，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签；清洗模块，用于根据所述第一标签和所述第二标签清洗所述训练数据集，得到目标训练数据集。

第三方面，本发明实施例还提供一种服务器，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现第一方面提供的任一项所述的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现第一方面提供的任一项所述的方法。

本发明实施例提供的一种训练数据集的清洗方法、装置及服务器，首先获取待清洗的训练数据集(包括多个训练样本和每个训练样本标注的第一标签)，然后通过预先训练得到的聚类模型对训练数据集进行聚类处理，确定多个样本聚类簇和每个样本聚类簇对应的第二标签，最后根据第一标签和第二标签清洗训练数据集，得到目标训练数据集。上述方法利用聚类的方式，有效、快速地从训练数据集中确定噪音样本，极大地提升了清洗训练数据集的效率，从而显著节约了清洗训练数据集所需的时间成本和人力成本。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种训练数据集的清洗方法的流程示意图；

图2为本发明实施例提供的另一种训练数据集的清洗方法的流程示意图；

图3为本发明实施例提供的一种训练数据集的清洗装置的结构示意图；

图4为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以人脸识别为例，人脸识别是人工智能技术应用到实际生活中最常见的场景之一。按比对方式分类，人脸识别可以分为“1：1”、“1：n”和“n：n”三种方式。其中，“1：1”可以包括出入机场/火车站等场所的身份确认、银行柜台办理业务、入住酒店时的实名认证、手机解锁和人脸支付等；“1：n”和“n：n”主要是应用于安防领域，相关部门利用嫌疑人的一张人脸图像或人脸库，在摄像头捕捉得到的人脸库中自动匹配出嫌疑人的出没轨迹。上述人脸识别的应用场景均是基于人脸特征的相似度计算，人脸特征的提取方式通常是训练诸如CNN(Convolutional Neural Networks，卷积神经网络)等神经网络，将人脸图像转换为特征向量，再利用softmax等损失函数对人脸图像进行分类，因此，人脸特征提取的准确与否在人脸识别中至关重要。在实际应用中，需要利用大量人脸图片组作为训练集对神经网络进行训练，每一组人脸图片组都是同一个人的人脸图像，然而当训练集中存在噪音数据时，将导致训练得到的神经网络的输出准确率较低。

现有技术通常采用人工清洗方式，然而人工清洗训练数据集存在工作量较大、清洗效率较低等问题。基于此，本发明实施提供了一种训练数据集的清洗方法、装置及服务器，可以有效、快速地对训练数据集进行清洗。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种训练数据集的清洗方法进行详细介绍，参见图1所示的一种训练数据集的清洗方法的流程示意图，该方法主要包括以下步骤S102至步骤S106：

步骤S102，获取待清洗的训练数据集。其中，训练数据集包括多个训练样本和每个训练样本标注的第一标签(也可称之为，原始标签)，训练样本作为待训练神经网络的输入，第一标签作为待训练神经网络针对该训练样本的期待输出值。以人脸识别领域的训练数据集为例，训练样本可以包括人脸图像，第一标签可以为该人脸图像对应的人员姓名等。

步骤S104，通过预先训练得到的聚类模型对训练数据集进行聚类处理，确定多个样本聚类簇和每个样本聚类簇对应的第二标签。在一种实施方式中，聚类模型可以采用CDP(Consensus-Driven Propagation)有监督聚类算法，利用聚类模型对训练数据集进行聚类处理，可以将训练数据集划分为多个样本聚类簇，每个样本聚类簇包括特征相似度较高的多个训练样本，对于每个样本聚类簇，统计该样本聚类簇中第一标签的出现频次，然后将出现频次最高的第一标签，作为该样本聚类簇对应的第二标签。

步骤S106，根据第一标签和第二标签清洗训练数据集，得到目标训练数据集。其中，目标训练数据集也即不包含噪音样本的数据集。在一种实施方式中，对于每个训练样本，可以比对该训练样本标注的第一标签，和该训练样本所属样本聚类簇对应的第二标签，如果第一标签与第二标签不一致，则可以确定该训练样本为噪音样本，可选的，可以直接将噪音样本从训练数据集中删除，也可以人工调整或修改噪音样本的标签，从而达到清洗训练数据集的目的。

本发明实施例提供的训练数据集的清洗方法，利用聚类的方式，有效、快速地从训练数据集中确定噪音样本，极大地提升了清洗训练数据集的效率，从而显著节约了清洗训练数据集所需的时间成本和人力成本。

在一种实施方式中，聚类模型包括特征提取模块和多层感知器，特征提取模块包括多个特征提取子模块，每个特征提取子模块的网络结构不同。具体的，每个特征提取子模块的输入均为训练样本，输出均为训练样本对应的特征信息，该特征信息为高维特征向量，多层感知器为样本对的关系数据，输出为样本对的边评估结果，关系数据包括边关系、特征相似度、局部结构均值和局部结构方差值中的一种或多种，边评估结果包括边成立或边不成立。

基于上述聚类模型，本发明实施例提供了一种通过预先训练得到的聚类模型对训练数据集进行聚类处理，确定多个样本聚类簇和每个样本聚类簇对应的第二标签的实施方式，参见如下步骤1至步骤4：

步骤1，通过每个特征提取子模块分别提取训练样本的特征信息。假设上述聚类模型采用CDP有监督聚类算法，则聚类模型包括一个基础特征提取子模型Tiny NASNet-A和四个辅助特征提取子模型Inception-Resnet V2、DenseNet121、ResNet50、ResNet101，在具体实现时，对于每个训练样本，将分别利用上述五个特征提取子模型提取训练样本的高维特征向量。

步骤2，基于每个特征提取子模块输出的特征信息，计算样本对的关系数据。其中，样本对为K-NN图中连接的两个训练样本，关系数据包括边关系、特征相似度和局部结构均值和局部结构方差值中的一种或多种，边关系用于表征样本对中两个训练样本之间的连接关系，特征相似度(也可称之为亲密度)也即样本对中两个训练样本之间的特征相似度，局部结构用于表征与样本对中两个训练样本的距离最近的k个训练样本的相似度组成的集合。

为便于理解，本发明实施例提供了一种基于每个特征提取子模块输出的特征信息，计算样本对的关系数据的实施方式，参见如下步骤2.1至步骤2.2：

步骤2.1，对于每个特征提取子模块，基于该特征提取子模块输出的特征信息，构建该特征提取子模块对应的K-NN图。其中，K-NN图用于表征训练样本之间的特征相似度，具体的，以训练样本为节点、以训练样本间的特征相似度作为边构建K-NN图。在实际应用中，可以按照如下步骤2.1.1至步骤2.1.3构建该特征提取子模块对应的K-NN图：

步骤2.1.1，基于该特征提取子模块输出的特征信息，计算任意两个训练样本之间的特征相似度。在一种实施方式中，可以利用cosine距离公式计算任意两个训练样本之间的特征相似度。以特征提取子模型Tiny NASNet-A输出的特征信息为例，假设特征提取子模型Tiny NASNet-A针对训练样本p输出特征A，针对训练样本q输出特征B，则特征相似度similarity的计算公式如下所示：

其中，i为高维特征向量的维度，n高维特征向量的总维度。

步骤2.1.2，根据特征相似度，确定每个训练样本之间的连接关系。其中，连接关系可以包括“连接”和“不连接”。在一种实施方式中，对于每个训练样本，可以按照该训练样本与其他训练样本之间的特征相似度由高到低的顺序，选择k个目标训练样本，该训练样本与k个目标训练样本之间的连接关系为“连接”，该训练样本与除k个目标训练样本之外的其他训练样本之间的连接关系为“不连接”。

步骤2.1.3，按照连接关系连接每个训练样本，得到该特征提取子模块对应的K-NN图。在具体实现时，可以将每个训练样本作为节点，并将连接关系为“连接”的各个训练样本(节点)之间进行连接，得到的边用于表征连接的两个训练样本(节点)之间的特征相似度，即可得到K-NN图。

在实际应用中，可以按照上述步骤2.1.1至步骤2.1.3针对每个特征提取子模块构建得到五个K-NN图，包括Tiny NASNet-A模型对应的K-NN图、Inception-Resnet V2模型对应的K-NN图、DenseNet121模型对应的K-NN图、ResNet50模型对应的K-NN图和ResNet101模型对应的K-NN图。

步骤2.2，对于每个K-NN图，基于该K-NN图计算样本对的关系数据。本发明实施例分别提供了一种计算样本对的边关系、计算样本对特征相似度、计算样本对的局部结构的实施方式，参见如下方式一至方式三：

方式一，计算样本对的边关系：可以判断该K-NN图中样本对是否连接，在判断结果为是时确定边关系为第一数值，在判断结果为否时确定边关系为第二数值。其中，样本对(点对)也即任意两个训练样本，第一数值可以为“1”，第二数值可以为“0”。以Tiny NASNet-A模型对应的K-NN图为例，假设样本对包括训练样本n₀和训练样本n₁，当K-NN图中训练样本n₀与训练样本n₁连接时，可以确定边关系为“1”，反之则可以确定边关系为“0”，具体的，边关系计算公式如下所示：

其中，

表示第i副K-NN图中训练样本n₀和训练样本n₁的边关系，ε(G_i)表示第i副K-NN图的边集合。

方式二，计算样本对特征相似度：根据该K-NN图中表征的样本对中每个训练样本的特征信息，计算样本对的特征相似度。可以利用cosine距离公式计算样本对中两个训练样本之间的特征相似度。示例性的，假设样本对中训练样本n₀的特征信息为F_i(n₀)，训练样本n₁的特征信息为F_i(n₁)，则特征相似度计算公式如下：

其中，

表示第i幅k-NN图中训练样本n₀和训练样本n₁的亲密度。

方式三，如计算样本对的局部结构：对于样本对中的每个训练样本，按照该训练样本与除样本对之外的其他训练样本之间的特征相似度由高到低的顺序构建相似度集合，将每个训练样本对应的相似度集合作为局部结构。其中，局部结构表示为样本对中两个训练样本与它们最近的K个训练样本的相似度组成的集合，定义如下：

D_i ^x＝{cos(F_i(x),F_i(x_k)),k＝1,2,...,k}，其中，D_i ^x表示第i幅k-NN图中训练样本x的局部结构，x_k表示距离训练样本x最近的第K个训练样本。

示例性的，对于一个样本对，基于上述五个K-NN图，可以计算得到五个边关系、五个亲密度和五个局部结构，以计算局部结构均值为例，可以对局部结构进行统计处理，计算得到局部结构均值。

步骤3，通过多层感知器基于样本对的关系数据，从样本对中确定边关系成立的目标样本对。在一种实施方式中，多层感知器可以用于判断K-NN图中的每一条边是否成立，其中，每一条边均为一个点对。多层感知器的输入为点对的边关系、亲密度、局部结构均值和局部结构方差值，输出为点对成立与否，可以将边关系成立的点对确定为目标样本对。

步骤4，基于目标样本对，确定多个样本聚类簇和每个样本聚类簇对应的第二标签。示例性的，参见如下步骤4.1至步骤4.4所示的一种基于目标样本对确定多个样本聚类簇和每个样本聚类簇对应的第二标签的实施方式：

步骤4.1，按照每个目标样本对的边关系，连接训练数据集中的每个训练样本，得到多个连通子图。在一种实施方式中，如果样本对的边关系成立，则连接该样本对中的两个训练样本；如果样本对的边关系不成立，则取消该样本对中两个训练样本的连接，从而得到多个连通子图。

步骤4.2，对于每个连通子图，判断该连通子图中包含训练样本的数量是否大于预设阈值。如果是，执行步骤4.3；如果否，则得到多个样本聚类簇。考虑到样本聚类簇中所包含的训练样本数量较大时，可能导致聚类效果较差，因此本发明实施例通过预设阈值对样本聚类簇中所包含的训练样本数量进行限制。如果连通子图中训练样本数量小于或等于预设阈值，则将该连通子图直接作为一个样本聚类簇，如果连通子图中训练样本数大于预设阈值，则选择特征相似度最低的两个训练样本，并取消该两个训练样本之间的连接。

步骤4.3，从连通子图中确定特征相似度最低的目标样本对，并取消目标样本对中两个训练样本的连接，直至连通子图中包含训练样本的数量小于或等于预设阈值，得到多个样本聚类簇。示例性的，假设连通子图中训练样本数大于预设阈值，则取消特征相似度最低的两个训练样本之间的连接，此时可以将该连通子图划分为两个连通子图，或一个连通子图和一个单独训练样本。对于划分得到的每个连通子图，继续取消特征相似度最低的两个训练样本之间的连接，直至每个连通子图中训练样本数均小于或等于预设阈值。对于划分得到的单独训练样本，可以将该训练样本作为一个样本聚类簇，且该样本聚类簇的第二标签即为该训练样本标注的第一标签。

步骤4.4，对于每个样本聚类簇，根据该样本聚类簇中每个训练样本标注的第一标签，确定该样本聚类簇对应的第二标签。在一种可选的实施方式中，可以统计每个第一标签的出现频次，并将出现频次最高的第一标签作为该样本聚类簇对应的第二标签。

在一种实施方式中，在利用聚类模型对训练数据集进行聚类处理之前，可以先对聚类模型进行训练，可选的，可以从上述训练数据集中筛选出数据子集，并采用人工清洗方式对数据子集进行清洗，然后利用清洗后的数据子集对聚类算法进行训练。聚类算法的训练过程包括两个部分：其一为特征提取模块的训练，其二为多层感知器的训练。对于特征提取模块，可以将数据子集中的训练样本作为特征提取模块的输入，以及将训练样本的期待特征信息作为标签，特征提取模块输出训练样本的真实特征信息，基于期待特征信息和真实特征信息计算损失值，并基于该损失值对特征提取模块的参数进行调整，直至损失值收敛，即可完成特征提取模块的训练。对于多层感知器，可以将边关系、亲密度、局部结构均值和局部结构方差值作为多层感知器的输入，并将期待判定结果作为标签，判定结果也即边关系是否成立，多层感知器输出真实判定结果，基于期待判定结果和真实判定结果计算损失值，并基于该损失值对多层感知器的参数进行调整，直至损失值收敛，即可完成多层感知器的训练。

对于前述步骤S106，本发明实施例还提供了一种根据第一标签和第二标签清洗训练数据集，得到目标训练数据集的实施方式，参见如下步骤a至步骤b：

步骤a，对于每个训练样本，判断该训练样本标注的第一标签和该训练样本所属样本聚类簇对应的第二标签是否一致。例如，训练样本p标注的第一标签为张三，而该训练样本p所属样本聚类簇对应的第二标签为李四，也即第一标签与第二标签不一致，则可以将训练样本p确定为噪声样本；如果训练样本p标注的第一标签为张三，而该训练样本p所属样本聚类簇对应的第二标签也为张三，也即第一标签与第二标签一致，则可以将训练样本p确定不属于噪声样本。

步骤b，如果否，确定该训练样本为噪声样本，并从训练数据集中删除噪声样本，将删除噪声样本的训练数据集，确定为目标训练数据集。可选的，可以直接将噪声样本从训练数据集中删除，也可以由人工辅助调整噪声样本的标签。

为便于理解，本发明实施例以人脸识别为例，提供了一种人脸识别的训练数据集的清洗方法，参见图2所示的另一种训练数据集的清洗方法的流程示意图，该方法主要包括以下步骤S202至步骤S210：

步骤S202，样本采集。在一种实施方式中，可以从待清洗的训练数据集中挑选一部分训练样本作为数据子集，并人工对数据子集进行清洗，保证清洗后的数据子集没有噪声样本。其中，训练样本可以包括人脸图像和人脸图像标注的姓名。

步骤S204，聚类模型训练。在一种实施方式中，可以利用上述清洗后的数据子集对CDP有监督聚类算法进行训练。考虑到k-means、HAC(Hierarchical AgglomerativeClustering，层次凝聚聚类算法)等聚类算法时间复杂度高且评估样本相似度的度量太过单一，因此本发明实施例中的聚类模型采用CDP有监督聚类算法。

步骤S206，训练数据集聚类。在一种实施方式中，可以利用上述训练得到的聚类模型对训练数据集进行聚类处理，得到多个样本聚类簇和每个样本聚类簇对应的第二标签。

步骤S208，结果分析。在一种实施方式中，检查每一组原始图片中的聚类离群样本是否为噪声样本，具体的，可以比对训练样本标注的第一标签和训练样本所属样本聚类簇对应的第二标签，如果第一标签与第二标签不一致，则可以将训练样本确定为噪声样本或不清晰样本。

步骤S210，数据清洗。在一种实施方式中，可以将噪声样本和不清晰样本从训练数据集中删除。

本发明实施例提供的上述训练数据集的清洗方法，对训练数据集里的人脸图像进行聚类，聚类后特征相似度高的人脸图像会被分到同一组中。如果一个人的某张人脸图像没有被分到相应组里，则检查该张人脸图像是否为噪音样本。本发明实施例可以利用聚类算法可以快速的找出训练数据集中存在的噪音样本或疑似噪音样本的一些不清晰样本，从而对训练数据集进行有效、快速地清洗。

对于前述实施例提供的训练数据集的清洗方法，本发明实施例提供了一种训练数据集的清洗装置，参见图3所示的一种训练数据集的清洗装置的结构示意图，该装置主要包括以下部分：

数据集获取模块302，用于获取待清洗的训练数据集；其中，训练数据集包括多个训练样本和每个训练样本标注的第一标签；

聚类模块304，用于通过预先训练得到的聚类模型对训练数据集进行聚类处理，确定多个样本聚类簇和每个样本聚类簇对应的第二标签；

清洗模块306，用于根据第一标签和第二标签清洗训练数据集，得到目标训练数据集。

本发明实施例提供的上述训练数据集的清洗装置，利用聚类的方式，有效、快速地从训练数据集中确定噪音样本，极大地提升了清洗训练数据集的效率，从而显著节约了清洗训练数据集所需的时间成本和人力成本。

在一种实施方式中，聚类模型包括特征提取模块和多层感知器，特征提取模块包括多个特征提取子模块，每个特征提取子模块的网络结构不同；聚类模块304还用于：通过每个特征提取子模块分别提取训练样本的特征信息；基于每个特征提取子模块输出的特征信息，计算样本对的关系数据；关系数据包括边关系、特征相似度和局部结构均值和局部结构方差值中的一种或多种；通过多层感知器基于样本对的关系数据，从样本对中确定边关系成立的目标样本对；基于目标样本对，确定多个样本聚类簇和每个样本聚类簇对应的第二标签。

在一种实施方式中，聚类模块304还用于：对于每个特征提取子模块，基于该特征提取子模块输出的特征信息，构建该特征提取子模块对应的K-NN图；其中，K-NN图用于表征训练样本之间的特征相似度；对于每个K-NN图，基于该K-NN图计算样本对的关系数据；其中，样本对为K-NN图中连接的两个训练样本。

在一种实施方式中，聚类模块304还用于：基于该特征提取子模块输出的特征信息，计算任意两个训练样本之间的特征相似度；根据特征相似度，确定每个训练样本之间的连接关系；按照连接关系连接每个训练样本，得到该特征提取子模块对应的K-NN图。

在一种实施方式中，聚类模块304还用于：如果关系数据包括边关系，判断该K-NN图中样本对是否连接；如果是，确定边关系为第一数值；如果否，确定边关系为第二数值；或，如果关系数据包括特征相似度，根据该K-NN图中表征的样本对中每个训练样本的特征信息，计算样本对的特征相似度；或，如果关系数据包括局部结构均值或局部结构方差值，对于样本对中的每个训练样本，按照该训练样本与除样本对之外的其他训练样本之间的特征相似度由高到低的顺序构建相似度集合；将每个训练样本对应的相似度集合作为局部结构，并对局部结构进行统计处理得到局部结构均值或局部结构方差值。

在一种实施方式中，聚类模块304还用于：按照每个目标样本对的边关系，连接训练数据集中的每个训练样本，得到多个连通子图；对于每个连通子图，判断该连通子图中包含训练样本的数量是否大于预设阈值；如果是，从连通子图中确定特征相似度最低的目标样本对，并取消目标样本对中两个训练样本的连接，直至连通子图中包含训练样本的数量小于或等于预设阈值，得到多个样本聚类簇；对于每个样本聚类簇，根据该样本聚类簇中每个训练样本标注的第一标签，确定该样本聚类簇对应的第二标签。

在一种实施方式中，清洗模块306还用于：对于每个训练样本，判断该训练样本标注的第一标签和该训练样本所属样本聚类簇对应的第二标签是否一致；如果否，确定该训练样本为噪声样本，并从训练数据集中删除噪声样本；将删除噪声样本的训练数据集，确定为目标训练数据集。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供了一种服务器，具体的，该服务器包括处理器和存储器；存储器上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图4为本发明实施例提供的一种服务器的结构示意图，该服务器100包括：处理器40，存储器41，总线42和通信接口43，所述处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器40在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种训练数据集的清洗方法，其特征在于，包括：

获取待清洗的训练数据集；其中，所述训练数据集包括多个训练样本和每个所述训练样本标注的第一标签；

通过预先训练得到的聚类模型对所述训练数据集进行聚类处理，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签；

根据所述第一标签和所述第二标签清洗所述训练数据集，得到目标训练数据集。

2.根据权利要求1所述的方法，其特征在于，所述聚类模型包括特征提取模块和多层感知器，所述特征提取模块包括多个特征提取子模块，每个所述特征提取子模块的网络结构不同；

所述通过预先训练得到的聚类模型对所述训练数据集进行聚类处理，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签的步骤，包括：

通过每个所述特征提取子模块分别提取所述训练样本的特征信息；

基于每个所述特征提取子模块输出的所述特征信息，计算样本对的关系数据；其中，所述关系数据包括边关系、特征相似度、局部结构均值和局部结构方差值中的一种或多种；

通过所述多层感知器基于所述样本对的关系数据，从所述样本对中确定所述边关系成立的目标样本对；

基于所述目标样本对，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签。

3.根据权利要求2所述的方法，其特征在于，所述基于每个所述特征提取子模块输出的所述特征信息，计算样本对的关系数据的步骤，包括：

对于每个所述特征提取子模块，基于该特征提取子模块输出的所述特征信息，构建该特征提取子模块对应的K-NN图；其中，所述K-NN图用于表征所述训练样本之间的特征相似度；

对于每个所述K-NN图，基于该K-NN图计算样本对的关系数据；其中，所述样本对为所述K-NN图中连接的两个所述训练样本。

4.根据权利要求3所述的方法，其特征在于，所述基于该特征提取子模块输出的所述特征信息，构建该特征提取子模块对应的K-NN图的步骤，包括：

所述基于该特征提取子模块输出的所述特征信息，计算任意两个所述训练样本之间的特征相似度；

根据所述特征相似度，确定每个所述训练样本之间的连接关系；

按照所述连接关系连接每个所述训练样本，得到该特征提取子模块对应的K-NN图。

5.根据权利要求3所述的方法，其特征在于，所述对于每个所述K-NN图，基于该K-NN图计算样本对的关系数据的步骤，包括：

如果所述关系数据包括所述边关系，判断该K-NN图中所述样本对是否连接；如果是，确定所述边关系为第一数值；如果否，确定所述边关系为第二数值；

或，如果所述关系数据包括所述特征相似度，根据该K-NN图中表征的所述样本对中每个所述训练样本的特征信息，计算所述样本对的特征相似度；

或，如果所述关系数据包括所述局部结构均值或所述局部结构方差值，对于所述样本对中的每个所述训练样本，按照该训练样本与除所述样本对之外的其他训练样本之间的特征相似度由高到低的顺序构建相似度集合；将每个所述训练样本对应的相似度集合作为所述局部结构，并对所述局部结构进行统计处理得到局部结构均值或局部结构方差值。

6.根据权利要求2所述的方法，其特征在于，所述基于所述目标样本对，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签的步骤，包括：

按照每个所述目标样本对的边关系，连接所述训练数据集中的每个所述训练样本，得到多个连通子图；

对于每个所述连通子图，判断该连通子图中包含训练样本的数量是否大于预设阈值；

如果是，从所述连通子图中确定特征相似度最低的目标样本对，并取消所述目标样本对中两个所述训练样本的连接，直至所述连通子图中包含训练样本的数量小于或等于所述预设阈值，得到多个样本聚类簇；

对于每个所述样本聚类簇，根据该样本聚类簇中每个所述训练样本标注的第一标签，确定该样本聚类簇对应的第二标签。

7.根据权利要求2所述的方法，其特征在于，所述根据所述第一标签和所述第二标签清洗所述训练数据集，得到目标训练数据集的步骤，包括：

对于每个所述训练样本，判断该训练样本标注的所述第一标签和该训练样本所属样本聚类簇对应的第二标签是否一致；

如果否，确定该训练样本为噪声样本，并从所述训练数据集中删除所述噪声样本；

将删除所述噪声样本的训练数据集，确定为目标训练数据集。

8.一种训练数据集的清洗装置，其特征在于，包括：

数据集获取模块，用于获取待清洗的训练数据集；其中，所述训练数据集包括多个训练样本和每个所述训练样本标注的第一标签；

聚类模块，用于通过预先训练得到的聚类模型对所述训练数据集进行聚类处理，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签；

清洗模块，用于根据所述第一标签和所述第二标签清洗所述训练数据集，得到目标训练数据集。

9.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至7任一项所述的方法。