CN111079648A

CN111079648A - 数据集清洗方法、装置和电子系统

Info

Publication number: CN111079648A
Application number: CN201911300060.4A
Authority: CN
Inventors: 陈坤鹏; 姚聪; 王鹏; 周争光
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-28

Abstract

本发明提供了一种数据集清洗方法、装置和电子系统；包括：获取包含目标对象的图像数据集；将每个目录中的图像划分为至少一个类别；检查每个目录中包含图像数量最多的目标类别，剔除目录中除目标类别之外的其余类别；对于每个目录，分别计算该目录的各个图像的特征对应的均值向量，作为该目录的特征；基于目录的特征间的相似度进行目录合并；根据合并目录后的图像获得目标对象的目标数据集。该方式中首先将图像数据集的每个目录中的图像划分为至少一个类别，仅保留每个目录中包含图像数量最多的类别，剔除其余类别，可以有效去除同一目录下的噪声和冗余数据；之后将特征近似的目录合并，可以减少图像数据集中的噪声，增加图像数据集的数据质量。

Description

数据集清洗方法、装置和电子系统

技术领域

本发明涉及数据清洗技术领域，尤其是涉及一种数据集清洗方法、装置和电子系统。

背景技术

随着人脸识别领域深度学习的方法被广泛利用，训练人脸识别系统需要海量的人脸图像。为了得到更多的人脸图像，一种通用的做法是从互联网上抓取人脸图像生成数据集。

从互联网上抓取人脸图像的过程中，一般会对每一张被抓取的图像标注一个身份标识，并将相同身份标识的图像放入一个目录。但是由于抓取图像时标注的身份标识可能不够准确，导致一个目录下可能存有不同身份标识的人脸图像；或者被抓取的图像可能存在多人合影的情况，导致同样身份标识的人脸图像可能存在于多个不同目录下，数据集会存在大量噪声，数据集的数据质量较差。

发明内容

有鉴于此，本发明的目的在于提供一种数据集清洗方法、装置和电子系统，以减少数据集中的噪声，增加数据集的数据质量。

第一方面，本发明实施例提供了一种数据集清洗方法，包括：获取包含目标对象的图像数据集；图像数据集划分为至少一个目录，每个目录中的图像对应同一目标对象的身份标识；将每个目录中的图像划分为至少一个类别；其中，每一个类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值；检查每个目录中包含图像数量最多的目标类别，剔除目录中除目标类别之外的其余类别，将每个目标类别的图像作为该目标类别对应目录的图像；对于每个目录，分别计算该目录的各个图像的特征对应的均值向量，将该均值向量作为该目录的特征；基于目录的特征间的相似度进行目录合并；根据合并目录后的图像获得目标对象的目标数据集。

在本发明较佳的实施例中，上述取包含目标对象的图像数据集的步骤，包括：获取初始图像集；每个初始图像集中的初始图像具有对应的身份标识；将具有相同身份标识的初始图像存入同一目录中；根据初始图像中目标对象的置信度和/或人脸框大小对每个目录中的初始图像进行清洗，得到包含目标对象图像数据集。

在本发明较佳的实施例中，上述根据初始图像中目标对象的置信度对每个目录中的初始图像进行清洗的步骤，包括：判断初始图像对于目标对象的置信度是否大于预设的第二阈值；如果否，从目录中剔除初始图像；如果是，从初始图像中提取目标对象对应的图像；以提取得到图像替换初始图像。

在本发明较佳的实施例中，上述将每个目录中的图像划分为至少一个类别的步骤，包括：提取每个目录中的每个图像的特征，对于每个目录均执行以下操作：如果目录中有多个图像的特征之间的相似度均高于预设的第三阈值，则融合多个图像的特征，得到融合后的目标特征和目标特征对应的融合图像；分别将融合图像或未融合的图像作为一个类别，并将目标特征作为类别的特征；逐一选择每个类别，对于选择的类别进行类别合并处理，类别合并处理包括：计算被选择的类别与未被选择的类别中的特征的第二相似度；如果第二相似度的最大值大于第一阈值，则将被选择的类别合并到第二相似度的最大值对应的类别中；重复执行逐一选择每个类别，对于选择的类别进行类别合并处理的步骤，直至重复的次数达到预设的次数阈值，或者目录中的类别的数量变化趋于0。

在本发明较佳的实施例中，上述基于目录的特征间的相似度进行目录合并的步骤，包括：基于目录的特征对目录进行K均值聚类，得到至少一个簇；每个簇包括至少一个目录；计算每个簇中的目录与其他目录的特征之间的相似度，按照由大到小的顺序对于每个目录确定对应的相似度排序表；如果第一目录和第二目录分别处于对方的相似度排序表的预设范围内，并且第一目录的特征和第二目录的特征的相似度大于预设的第四阈值，将第一目录和第二目录合并。

在本发明较佳的实施例中，在上述将每个目录中的图像划分为至少一个类别的步骤之前，上述方法还包括：计算图像数据集中的图像的模糊度；从图像数据集中剔除模糊度小于预设的第五阈值的图像。

在本发明较佳的实施例中，上述根据合并目录后的图像获得目标对象的目标数据集的步骤，包括：基于图像数据集中每个目录包括的图像的数量，对图像数据集中每个目录设定权重；根据权重进行数据增强处理，获得目标数据集。

在本发明较佳的实施例中，上述基于图像数据集中每个目录包括的图像的数量，对图像数据集中每个目录设定权重的步骤，包括：统计图像数据集中每个目录包括的图像的数量；通过以下函数确定每个目录的权重；

其中，ω_i为待计算目录的权重；v_i为待计算目录包括的图像的数量；v_max为图像数据集中的目录包括的图像的数量的最大值；v_min为图像数据集中的目录包括的图像的数量的最小值。

第二方面，本发明实施例还提供一种数据集清洗装置，包括：图像数据集获取模块，用于获取包含目标对象的图像数据集；图像数据集划分为至少一个目录，每个目录中的图像对应同一目标对象的身份标识；图像划分模块，用于将每个目录中的图像划分为至少一个类别；其中，每一个类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值；其余类别剔除模块，用于检查每个目录中包含图像数量最多的目标类别，剔除目录中除目标类别之外的其余类别，将每个目标类别的图像作为该目标类别对应目录的图像；均值向量计算模块，用于对于每个目录，分别计算该目录的各个图像的特征对应的均值向量，将该均值向量作为该目录的特征；目录合并模块，用于基于目录的特征间的相似度进行目录合并；目标数据集确定模块，用于根据合并目录后的图像获得目标对象的目标数据集。

第三方面，本发明实施例还提供一种电子系统，电子系统包括：图像采集设备、处理设备和存储装置；视频采集设备，用于获取图像；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述数据集清洗方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述数据集清洗方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种数据集清洗方法、装置和电子系统，图像数据集的每个目录中的图像对应同一目标对象的身份标识；首先将图像数据集的每个目录中的图像划分为至少一个类别，仅保留每个目录中包含图像数量最多的类别，剔除其余类别，可以有效去除同一目录下的噪声和冗余数据；之后将特征近似的目录合并，可以减少图像数据集中的噪声，增加图像数据集的数据质量。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种数据集清洗方法的流程图；

图3为本发明实施例提供的另一种数据集清洗方法的流程图；

图4为本发明实施例提供的另一种数据集清洗方法的流程图；

图5为本发明实施例提供的一种人脸数据集清洗方法的示意图；

图6为本发明实施例提供的一种数据集清洗装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的图像数据集生成过程中存在大量噪声，数据集的数据质量较差的问题，本发明实施例提供的一种数据集清洗方法、装置和电子系统，该技术可以应用于服务器、计算机、相机、手机、平板电脑等多种设备中，该技术可采用相应的软件和硬件实现，以下对本发明实施例进行详细介绍。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种数据集清洗方法进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的数据集清洗方法和装置的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统也可以具有其他组件和结构。

处理设备102可以是网关，也可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行期望的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以采集图像，并且将采集到的图像数据存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的数据集清洗方法和装置中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图像的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

实施例二：

本实施例提供了一种数据集清洗方法，该方法由上述电子系统中的处理设备执行；该处理设备可以是具有数据处理能力的任何设备或芯片。如图2所示的一种数据集清洗方法的流程图，该数据集清洗方法包括如下步骤：

步骤S202，获取包含目标对象的图像数据集；该图像数据集划分为至少一个目录，每个目录中的图像对应同一目标对象的身份标识。

目标对象是指被收集的目标，图像数据集中的所有图像都需要包括目标对象，可以是指人、动物、物体等。以人为例，那么图像数据集中的所有图像都需要含有人；并且每一个图像包括的目标对象的数目为1。例如，假设目标对象是人脸，则每一个图像均有1个人脸。

图像数据集是指包括多个图像的数据的集合，目标数据集按照身份标识分为了至少一个目录，其中，身份标识用于标识不同个体的目标对象，同样以人为例，不同的人应当对应一个不同的身份标识，同样的人的身份标识应当相同。每个目录中的图像应当对应同一目标对象的身份标识，也就是一个目录中的目标对象的个体被看做是相同的，同样以人为例，就是每一个目录的图像被看做是相同的人的图像。然而，实际上目录中可能存在噪声，即相同的人的图像存在于不同的目录中；或者不同的人的图像存在同一个目录中。

举例来说，获取的图像数据集是以人为目标对象，那么目标数据集可以包括至少一个目录，每一个目录都保存的图像被看做是同一个人的图像，用身份标识来区分不同的人。

步骤S204，将每个目录中的图像划分为至少一个类别；其中，每一个类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值。

同样目录中的图像具有相同的身份标识，但是实际情况下可能存在不同个体的目标对象作为噪声，因此，需要把这些不同个体的目标对象从图像数据集中剔除。

以目标对象是人为例，说明这种的噪声的可能产生原因：图像数据集一般是通过网上抓取图像构建，一般来说，都是通过一定的关键字进行提抓取，该关键字抓取的图像都作为同一个身份标识的图像，但是提取的图像很可能不是同一个人的，其他人的图像也会放入目录中，也就是噪声。例如：以人名A作为关键字进行抓取，对抓取的图像设定身份标识a，那么很可能抓取A的朋友的图像，A的朋友的图像同样对应身份标识a并放入A对应的目录中，A的朋友的图像就是噪声。

因此，可以对每一个目录划分为至少一个类别，每一个类别要求图像之间的相似度的最大值要大于预设的第一阈值。也就是说，对于图像X，需要保证至少有一个图像X所在的类别中的其他的图像，与图像X的相似度大于第一阈值(第一阈值可以设定为0.7-0.9之间)。就可以说明图像X中的目标对象与该类别其他的图像中的目标对象是同一个个体。

每一个类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值，可以通过以下实例说明：例如，图像X、图像A、图像B和图像C在一个类别中，图像X与图像A、图像B和图像C的相似度分别是0.6、0.75和0.66，第一阈值设置为0.72，由于0.75＞0.72，说明图像X与图像B相似，图像X中的目标对象与图像B中的目标对象为同一个个体；如果已知图像A、图像B和图像C中的目标对象为同一个个体，那么可以推断图像X、图像A、图像B和图像C中的目标对象均为同一个个体。

另外，图像与图像之间的相似度计算方法可以基于余弦距离或欧氏距离计算，基于余弦距离计算的相似度的第一阈值的取值范围可以在0.7-0.9之间。

步骤S206，检查每个目录中包含图像数量最多的目标类别，剔除目录中除目标类别之外的其余类别，将每个目标类别的图像作为该目标类别对应目录的图像。

一般来说，每一个目录中噪声的数量较少，目标类别包含图像数量最多，那么目标类别不是噪声，需要保留；而除目标类别以外的其余类别就可以认定为噪声，将上述其余类别中的图像剔除；即将每个目标类别的图像作为该目标类别对应目录的图像，相当于从目录中剔除了噪声。

步骤S208，对于每个目录，分别计算该目录的各个图像的特征对应的均值向量，将该均值向量作为该目录的特征。

剔除了每个目录中噪声后，需要剔除目录与目录间的噪声，也就是因为不同目录对应的身份标识不同，但是对应的目标对象是为同一个体产生导致的噪声。这种的噪声的可能产生原因：一个个体的图像可能存在于多个目录中，以人为例，可能存在合影，即A与B喜欢合照，那么合照照片无论以A的名字还是以B的名字作为关键字，这个合照都会被抓取，该合照会提取两个图像，两个图像都会存入了两个不同的目录中，很可能导致这两个目录中最后只剩下A或B的图像。

对于这种噪声，可以在剔除目录中的噪声后，计算每个目录的各个图像的特征，然后求取上述特征的均值，作为目录的特征。然后比较每个目录的特征的差异是否很大，如果差异很小，可以将对应的目录合并。具体地说，首先可以通过映射的方法计算目录中每个图像的特征，然后求取这些图像的特征的均值，作为该目录的特征。

步骤S210，基于目录的特征间的相似度进行目录合并。

计算每一个目录的特征后，需要判断是否对目录进行合并，具体方法可以是通过计算目录的特征之间的相似度，如果相似度较小，则可以合并目录。

步骤S212，根据合并目录后的图像获得目标对象的目标数据集。

合并目录后的图像不存在目录与目录间的噪声，也不存在目录中的噪声，具有较好的数据质量，可以作为目标对象的目标数据集，用于之后的神经网络训练。

本发明实施例提供的一种数据集清洗方法，图像数据集的每个目录中的图像对应同一目标对象的身份标识；首先将图像数据集的每个目录中的图像划分为至少一个类别，仅保留每个目录中包含图像数量最多的类别，剔除其余类别，可以有效去除同一目录下的噪声和冗余数据；之后将特征近似的目录合并，可以减少图像数据集中的噪声，增加图像数据集的数据质量。

实施例三：

本实施例提供了另一种数据集清洗方法，该方法在上述实施例的基础上实现；本实施例重点描述获取包含目标对象的图像数据集的具体过程。如图3所示的另一种数据集清洗方法的流程图，本实施例中的数据集清洗方法包括如下步骤：

步骤S302，获取初始图像集；每个初始图像集中的初始图像具有对应的身份标识。

初始图像是指包括至少一个目标对象的图片，以目标对象为人脸为例，初始图像中至少要包括一个人脸。初始图像可以通过网络爬虫技术从互联网上获取，也可以由用户上传，具体的方法可以是：采用关键字搜索人脸图片，将每一个关键字对应一个身份标识，例如，采用不同的人名搜索图片，每一个人明搜索的图片都设定一个对应的身份标识，不同人名的身份标识不同；或者，在门户网站上基于用户名搜索，例如，将用户A发布的图片全部抓取，并设定一个身份标识，不同用户的身份标识不同。抓取的图片需要包括至少一个目标对象，在抓取的时候同时设定身份标识，并将抓取后的图片作为一个初始图像集。

步骤S304，将具有相同身份标识的初始图像存入同一目录中。

同样身份标识的初始图像放入同一个目录中，那么可以保证初始图像集具有多个目录，每一个目录的初始图像都具有相同的身份标识。然而，这时的初始图像集往往包含大量噪声，数据质量较差，不足以达到较标准的数据集的要求。

步骤S306，根据初始图像中目标对象的置信度和/或人脸框大小对每个目录中的初始图像进行清洗，得到包含目标对象图像数据集。

对于初始图像，可能存在卡通动漫或者其他目标对象的图片，通过初步清洗去除这些图片。初步清洗后的初始图像集中，初始图像包括至少一个目标对象，因此，需要从初始图像中提取图像，初始特征包含多少个目标对象，就需要提取多少个包含一个目标对象的图像，并且保证提取的图像包含一个目标对象。

初步清洗的方式有两种，分别是根据初始图像中目标对象的置信度进行初步清洗，以及根据人脸框大小进行初步清洗。根据初始图像中目标对象的置信度进行初步清洗是指为目标对象设定一个置信度阈值，只有大于该置信度阈值的初始图像才会被保留，小于该置信度阈值的初始图像会被剔除。根据人脸框大小进行初步清洗，是指设定一个人脸框大小范围，只有人脸大于该大小范围的初始图像才会被保留，人脸小于该大小范围的初始图像会被剔除。基于人脸框和基于置信度进行初步清洗的方法，可以同时采用，也可以只采用一种方法进行初步清洗。

具体来说，可以通过步骤A1-步骤A3根据初始图像中目标对象的置信度进行初步清洗：

步骤A1，判断初始图像对于目标对象的置信度是否大于预设的第二阈值。

置信度是指该初始图像包括目标对象的可能程度，初始图像对于某一个目标对象的置信度越高，则说明该初始图像越可能包括该目标对象。通过目标对象对应的检测算法计算置信度，如果置信度大于第二阈值(第二阈值可以为0.9-0.99之间)，则说明该初始图像包括目标对象；如果置信度不大于第二阈值，则说明该初始图像不包括目标对象。

步骤A2，如果否，从目录中剔除初始图像。

如果否，则说明该初始图像不包括目标对象，该目标图像可以判定为噪声，需要从目录中剔除该目标图像。

步骤A3，如果是，从初始图像中提取目标对象对应的图像；以提取得到图像替换初始图像。

如果是，则说明该初始图像包括目标对象，该目标图像不是噪声，需要从初始图像中提取目标对象对应数目的图像，并用提取的图像替换初始图像。目标对象对应的检测算法会输出目标对象所在区域的位置，根据该位置就可以从初始图像中提取图像。

例如，以目标对象为人脸为例，从网络上爬取的初始图像可能包括动物图片，卡通动漫图片等，需要采用人脸的检测算法检测每一个初始图像是否包括合格的人脸，其中，对于人脸检测的置信度可以设定一个较高的第二阈值(例如0.9-0.99)，只有大于这个置信度的初始图像，才认为是该初始图像包括合格的人脸，人脸的检测算法会输出目标对象的位置和置信度。

根据人脸框大小进行初步清洗的步骤，具体可以为：对初始图像进行提取，得到包含一个目标对象的图像，可以基于人脸检测输出的目标对象的位置，通过人脸框进行提取，提取的图像不能过小，因此人脸框的最短边需要大于一个阈值(例如30像素)，将提取的图像保存在原来初始图像对应的目录中，并且替换初始图像，得到包含目标对象图像数据集。

该方式中，对于通过网络爬虫技术得到的初始图像集中的每一个初始图像，进行初步清洗并且提取包含一个目标对象的图像，用提取的图像替换初始图像，得到目标对象图像数据集；经过初步清洗后可以去除数据集包括的不属于目标对象的图像，进行初步的数据集清洗，以减少数据集中的误差，增加数据集中数据的质量。

步骤S308，将每个目录中的图像划分为至少一个类别；其中，每一个类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值。

对每个目录的图像进行数据清洗需要对图像进行分类，具体的分类方法可以通过步骤B1-步骤B5执行：

步骤B1，提取每个目录中的每个图像的特征，对于每个目录均执行以下操作：

这里的对每个目录的图像进行数据清洗，主要针对同一个目录下存在多个不同个体的目标对象的情况，可以通过人脸特征提取器提取每个目录中的每个图像的特征，即将每个图像映射成一个对应的n维浮点特征；维度是指这个特征的长度，n维表示n个浮点数组成一个向量，n可以调节，一般选取范围在50～1024之间。

步骤B2，如果目录中有多个图像的特征之间的相似度均高于预设的第三阈值，则融合多个图像的特征，得到融合后的目标特征和目标特征对应的融合图像。

同一个目录下可能存在多个完全相同或者相近的图像，对于这类图像，为了降低数据的容易，需要进行融合已达到去重的目的。具体来说，第三阈值可以设定的比较大(例如0.98-0.999)，两两图像的特征之间的相似度大于第三阈值，则说明这两个图像非常的相近，可以将这两个图像的特征和这两个图像均进行融合。如果有多个特征之间相似度都高于阈值，则对上述多个图像的特征和上述多个图像均进行融合。融合的权重依照上述步骤得到的置信度设定权重，置信度越高，融合的权重越大，理想情况下，如果多个图像完全一致，融合后的图像没有任何变化，也即去除了重复的人脸图片。

步骤B3，分别将每个最终图像作为一个类别，并将最终图像对应的特征作为类别的特征；其中，最终图像包括融合图像和/或未融合的图像。

全部特征进行融合后，剩下的特征就是彼此不完全相似的图像对应的特征，因此，将融合后剩下的图像称为最终图像，最后图像可能只包括融合图像(即目录中全部图像均可以融合)，也可能只包括未融合的图像(即目录中全部图像均不可以融合)，还可能包括融合图像和未融合的图像(即目录中部分图像可以融合，部分图像不可以融合)。

将最终图像对应的特征作为所述类别的特征，然后对类别进行合并。也就是说，在对全部特征进行融合后，将每一个最终图像均作为一个类别，然后将剩下的特征作为该类别的特征。例如，融合前共有10个图像，融合后得到了4个融合图像，剩下了2个未融合的图像，那么需要分别将上述4个融合图像和2个未融合的图像，作为6个类别。

步骤B4，逐一选择每个类别，对于选择的类别进行类别合并处理，类别合并处理包括：计算被选择的类别与未被选择的类别中的特征的第二相似度；如果第二相似度的最大值大于第一阈值，则将被选择的类别合并到第二相似度的最大值对应的类别中。

首先选择一个类别，对选择的类别进行类别合并处理，即对选择的类别的特征计算与其他类别的特征的第二相似度；如果该第二相似度的最大值大于第一阈值(第一阈值可以设定为0.7-0.9之间)，说明这两个类别中至少存在一对图像对应的目标对象是同一个体，这两个类别为相似类别，这两个类别的特征对应的图像是同一个体的目标对象，因此可以将两个类别合并。重复选择类别的步骤，可以将目录中所有的相似类别合并，得到若干个不相似的类别。具体来说，可以通过构建无向图的方法进行合并：

(1)初始化，对同一个目录下融合后的特征，将每个特征假设为一个节点，初始时，每个节点作为一个单独的类。先计算节点两两之间的第二相似度(第二相似度的计算方法可以基于余弦距离或欧氏距离)。当第二相似度高于第一阈值时，将两个节点相连，形成关联边，相似度的值作为边的权重。构成一个(多个)无向图。

(2)随机选取图中一个节点p，先找到p的所有相关联节点(相邻节点)及其对应的权重，将p归入权重最大的节点的类中(如果p的相邻节点中存在多个节点数据同一类别，则将所有同类节点的权重累加作为该类权重参与后续比较)。依上操作遍历图中所有的节点。

步骤B5，重复执行逐一选择每个类别，对于选择的类别进行类别合并处理的步骤，直至重复的次数达到预设的次数阈值，或者目录中的类别的数量变化趋于0。

通过步骤(1)和步骤(2)，可以实现类别合并处理，类别合并处理的停止条件是重复的次数达到预设的次数阈值，或者目录中的类别的数量变化趋于0。例如，可以设定次数阈值为50次，那么步骤(1)和步骤(2)重复50次后，就停止类别合并处理；或者，当目录中的类别的数量变化趋于0，说明无论如何遍历，图中的每一个节点与其他节点均不相似，无法继续进行类别合并，可以停止类别合并处理。

该方式中，首先将目录中第一相似度大于第三阈值的特征融合，可以融合目录中完全相同或特别近似的图像；之后将每一个融合后的目标特征作为一个类，计算类与类的第二相似度，将第二相似度的最大值大于第一阈值的类别合并，可以去除每个目录之中的噪声，增加图像数据集的质量。

步骤S310，检查每个目录中包含图像数量最多的目标类别，剔除目录中除目标类别之外的其余类别，将每个目标类别的图像作为该目标类别对应目录的图像。

对于上述构建无向图的方法，可以通过以下步骤剔除目录中除目标类别之外的其余类别，将每个目标类别的图像作为该目标类别对应目录的图像：迭代完成后，每一个目录下都存在一个最大类(相应人脸节点数量最多)，将其保留，然后剔除目录中的其他类别。

步骤S312，对于每个目录，分别计算该目录的各个图像的特征对应的均值向量，将该均值向量作为该目录的特征。

步骤S314，基于目录的特征间的相似度进行目录合并。

在选择完每个目录下的最大类后，数据集的噪声已经显著减少，但是存在少量不同目录下的目标对象是同一个体的情况。为了保证每个目录下的目标对象是不同个体，需要去重或合并这些目录。可以通过步骤C1-步骤C3去重或合并目录：

步骤C1，基于目录的特征对目录进行K均值聚类，得到至少一个簇；每个簇包括至少一个目录。

首先，需要计算目录中每一个图像的特征，然后对这些特征求取均值，该均值就是目录的特征。将目录的特征作为一个节点N_i。

对所有节点(目录)N_i进行K均值聚类(kmeans聚类)，可以得到k类不同的簇，每个簇相当于一个子集，包含若干节点，表示当前子集的节点之间有比较高的关联性。

步骤C2，计算每个簇中的目录与其他目录的特征之间的相似度，按照由大到小的顺序对于每个目录确定对应的相似度排序表。

在每一个簇中以每个节点(目录)为查询参数，确定其他节点(目录)的特征对该节点(目录)特征的相似度，并且由高到低进行排序，可以针对每一个节点(目录)获得一个相似度排序表。

步骤C3，如果第一目录和第二目录分别处于对方的相似度排序表的预设范围内，并且第一目录的特征和第二目录的特征的相似度大于预设的第四阈值，将第一目录和第二目录合并。

对于两个不同的节点(目录)，如果这两个节点(目录)分别处于对方的相似度排序表的预设范围内(预设范围一般是指对方的相似度排序表的靠前位置，可以取值前1位-前3位之间)，并且这两个节点(目录)的相似度大于预设的第四阈值(可以取值0.7-0.9)，则认为这两个节点(目录)中的图像是相似的，合并这两个目录。

例如，以节点(目录)A和B为例，如果A的相似度排序表L_A中前k位(k可以取值1至3之间)包含B，且B的检索相似度排序表L_B的前k位包含A，则认为A、B是检索可逆的，同时若A，B之间的相似度高于第四阈值，则我们认为A、B对应的目标对象是同一个体，将目录A和目录B合并。

该方式中，通过K均值聚类进行局部检索和匹配，判断目录之间对应的目标对象是否是同一个体，并且将对应同一个体的目录合并，采用的方法计算量较小，效率较高，并且可以准确地去除目录之间的噪声，增加图像数据集的质量。

步骤S316，根据合并目录后的图像获得目标对象的目标数据集。

本发明实施例提供的上述方法，对于通过网络爬虫技术得到的初始图像集中的每一个初始图像，进行初步清洗并且提取包含一个目标对象的图像，用提取的图像替换初始图像，得到目标对象图像数据集；在去除每个目录之中的噪声之后，通过K均值聚类进行局部检索和匹配，去除目录之间的噪声，可以准确地图像数据集的噪声，增加图像数据集的数据质量。

实施例四：

本实施例提供了另一种数据集清洗方法，该方法在上述实施例的基础上实现；本实施例重点描述在获取包含目标对象的图像数据集的步骤之后和在基于目录的特征间的相似度进行目录合并的步骤之后的具体过程。如图4所示的另一种数据集清洗方法的流程图，本实施例中的数据集清洗方法包括如下步骤：

步骤S402，获取包含目标对象的图像数据集；该图像数据集划分为至少一个目录，每个目录中的图像对应同一目标对象的身份标识。

步骤S404，计算图像数据集中的图像的模糊度。

图像数据集中的图像很可能来自于视频的截取或动态抓拍，导致目标对象的部位较为模糊，图像的成像不佳，因此需要对每个图像做进行模糊度检测，过滤掉模糊程度较高的图像，从而保证数据的质量。

首先，需要对每一个图像计算模糊度，采用拉普拉斯方差算法，首先选取拉普拉斯算子τ与图像做卷积，卷积之后计算方差值，将得到的方差值作为图像的模糊度。其中，拉普拉斯算子τ可以为

步骤S406，从图像数据集中剔除模糊度小于预设的第五阈值的图像。

如果模糊度小于预设的第五阈值，则说明该模糊度对应的图像是模糊的，质量较差，需要从图像数据集中剔除该图像。其中，对于160*160像素大小的图像，阈值一般取90-110之间。

该方式中，对图像数据集中的图像进行模糊度检测，将模糊度较低的图像从图像数据集中剔除，可以提高图像数据集中数据的质量。

步骤S408，将每个目录中的图像划分为至少一个类别；其中，每一个类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值。

步骤S410，检查每个目录中包含图像数量最多的目标类别，剔除目录中除目标类别之外的其余类别，将每个目标类别的图像作为该目标类别对应目录的图像。

步骤S412，对于每个目录，分别计算该目录的各个图像的特征对应的均值向量，将该均值向量作为该目录的特征。

步骤S414，基于目录的特征间的相似度进行目录合并。

步骤S416，基于图像数据集中每个目录包括的图像的数量，对图像数据集中每个目录设定权重。

步骤S418，根据权重进行数据增强处理，获得目标数据集。

目录合并后的图像数据集的噪声较少，之后需要对图像数据集进行数据增强，数据增强的目的是：一方面增加数据的多样性，另一方面缓解不同个体的图像的数据量不均衡的问题。

因为图像数据中不同个体的数量(即每个目录包括的图像的数量)不同，因此，对于较少数量的个体需要设定较高的权重，以增强该个体的比重。权重可以通过步骤D1-步骤D2设置：

步骤D1，统计图像数据集中每个目录包括的图像的数量。

图像数据集中的每个目录都代表了一个个体，统计第i个目录包括的图像的数量v_i，就是统计第i个类别的个体的数量。

步骤D2，通过以下函数确定每个目录的权重；

首先，根据每个类别的图片数量v_i，进行归一化处理得到

对第i个类别，如果第i个类别的个体的数量越少，我们越应该对其做数据增强，来达到类别数据间的平衡，所以取权重ω_i＝1-v_i′。

这里需要说明的是，在对每一类数据做数据增强时，遍历每一类里的图像，我们以权重ω_i为概率进行数据增强，例如ω_i＝1，表示必然会对对应类别的对应图像做数据增强，ω_i＝0.5表示有一半的可能性对类里的图像做数据增强。其中数据增强包括对图片叠加不同程度的光照和遮挡等。增强策略可以视具体应用场景而定。

该方式中，对图像数据集中每个目录设定权重，以对目录合并后的图像数据集进行数据增强，一方面可以增加数据的多样性，另一方面可以缓解不同个体的图像的数据量不均衡的问题。

本发明实施例提供的数据集清洗方法的整体流程，以人脸为例，可以参照图5所示的一种人脸数据集清洗方法的示意图，如图5所示，首先，获取若干从互联网上爬取的人脸数据，检测这些人脸数据是否为真实的人脸；之后对检测和的人脸数据通过人脸框计算置信度，并提取人脸图像，要求人脸框尺寸不能过小，且置信度需要大于一定的阈值；之后计算模糊度，仅保留模糊度高于阈值的人脸图像；通过聚类的方法，选择每一个目录中的最大类，将其余类剔除目录；基于局部搜索，如果不同目录对应的人脸过于相似，则将这些目录合并，实现数据去重；最后基于每个目录中的人连图像的数量设定权重，进行加权，实现数据增强，得到清洗完成的数据。

本发明实施例提供的上述方法可以有效地去除目录之中和目录之间的噪声，去除低质量的图像，并且对图像数据集进行数据增强，可以减少图像数据集中的噪声，增加图像数据集的数据质量。

实施例五：

对应于上述方法实施例，参见图6所示的一种数据集清洗装置的结构示意图，该装置包括：

图像数据集获取模块61，用于获取包含目标对象的图像数据集；图像数据集划分为至少一个目录，每个目录中的图像对应同一目标对象的身份标识；

图像划分模块62，用于将每个目录中的图像划分为至少一个类别；其中，每一个类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值；

其余类别剔除模块63，用于检查每个目录中包含图像数量最多的目标类别，剔除目录中除目标类别之外的其余类别，将每个目标类别的图像作为该目标类别对应目录的图像；

均值向量计算模块64，用于对于每个目录，分别计算该目录的各个图像的特征对应的均值向量，将该均值向量作为该目录的特征；

目录合并模块65，用于基于目录的特征间的相似度进行目录合并；

目标数据集确定模块66，用于根据合并目录后的图像获得目标对象的目标数据集。

进一步地，上述图像数据集获取模块，用于：获取初始图像集；每个初始图像集中的初始图像具有对应的身份标识；将具有相同身份标识的初始图像存入同一目录中；根据初始图像中目标对象的置信度和/或人脸框大小对每个目录中的初始图像进行清洗，得到包含目标对象图像数据集。

进一步地，上述图像数据集获取模块，用于：判断初始图像对于目标对象的置信度是否大于预设的第二阈值；如果否，从目录中剔除初始图像；如果是，从初始图像中提取目标对象对应的图像；以提取得到图像替换初始图像。

进一步地，上述图像划分模块，用于：提取每个目录中的每个图像的特征，对于每个目录均执行以下操作：如果目录中有多个图像的特征之间的相似度均高于预设的第三阈值，则融合多个图像的特征，得到融合后的目标特征和目标特征对应的融合图像；分别将每个最终图像作为一个类别，并将最终图像对应的特征作为类别的特征；其中，最终图像包括融合图像和/或未融合的图像；逐一选择每个类别，对于选择的类别进行类别合并处理，类别合并处理包括：计算被选择的类别与未被选择的类别中的特征的第二相似度；如果第二相似度的最大值大于第一阈值，则将被选择的类别合并到第二相似度的最大值对应的类别中；重复执行逐一选择每个类别，对于选择的类别进行类别合并处理的步骤，直至重复的次数达到预设的次数阈值，或者目录中的类别的数量变化趋于0。

进一步地，上述目录合并模块，用于：基于目录的特征对目录进行K均值聚类，得到至少一个簇；每个簇包括至少一个目录；计算每个簇中的目录与其他目录的特征之间的相似度，按照由大到小的顺序对于每个目录确定对应的相似度排序表；如果第一目录和第二目录分别处于对方的相似度排序表的预设范围内，并且第一目录的特征和第二目录的特征的相似度大于预设的第四阈值，将第一目录和第二目录合并。

进一步地，上述装置还包括模糊度检测模块，用于：计算图像数据集中的图像的模糊度；从图像数据集中剔除模糊度小于预设的第五阈值的图像。

进一步地，上述目标数据集确定模块，用于：基于图像数据集中每个目录包括的图像的数量，对图像数据集中每个目录设定权重；根据权重进行数据增强处理，获得目标数据集。

进一步地，上述目标数据集确定模块，用于：统计图像数据集中每个目录包括的图像的数量；通过以下函数确定每个目录的权重；

本发明实施例提供的一种数据集清洗装置，图像数据集的每个目录中的图像对应同一目标对象的身份标识；首先将图像数据集的每个目录中的图像划分为至少一个类别，仅保留每个目录中包含图像数量最多的类别，剔除其余类别，可以有效去除同一目录下的噪声和冗余数据；之后将特征近似的目录合并，可以减少图像数据集中的噪声，增加图像数据集的数据质量。

实施例六：

本发明实施例提供了一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取图像；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述数据集清洗方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如数据集清洗方法的步骤。

本发明实施例所提供的数据集清洗方法、装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和/或装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据集清洗方法，其特征在于，包括：

获取包含目标对象的图像数据集；所述图像数据集划分为至少一个目录，每个所述目录中的图像对应同一目标对象的身份标识；

将每个所述目录中的图像划分为至少一个类别；其中，每一个所述类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值；

检查每个所述目录中包含图像数量最多的目标类别，剔除所述目录中除所述目标类别之外的其余类别，将每个所述目标类别的图像作为该目标类别对应目录的图像；

对于每个所述目录，分别计算该目录的各个图像的特征对应的均值向量，将该均值向量作为该目录的特征；

基于所述目录的特征间的相似度进行目录合并；

根据合并目录后的图像获得所述目标对象的目标数据集。

2.根据权利要求1所述的方法，其特征在于，获取包含目标对象的图像数据集的步骤，包括：

获取初始图像集；每个所述初始图像集中的初始图像具有对应的身份标识；

将具有相同身份标识的所述初始图像存入同一目录中；

根据所述初始图像中目标对象的置信度和/或人脸框大小对每个目录中的初始图像进行清洗，得到包含目标对象图像数据集。

3.根据权利要求2所述的方法，其特征在于，根据所述初始图像中目标对象的置信度对每个目录中的初始图像进行清洗的步骤，包括：

判断所述初始图像对于所述目标对象的置信度是否大于预设的第二阈值；

如果否，从所述目录中剔除所述初始图像；

如果是，从所述初始图像中提取所述目标对象对应的图像；以提取得到所述图像替换所述初始图像。

4.根据权利要求1所述的方法，其特征在于，将每个所述目录中的图像划分为至少一个类别的步骤，包括：

提取每个所述目录中的每个图像的特征，对于每个所述目录均执行以下操作：

如果所述目录中有多个图像的特征之间的相似度均高于预设的第三阈值，则融合所述多个图像的特征，得到融合后的目标特征和所述目标特征对应的融合图像；

分别将每个最终图像作为一个所述类别，并将所述最终图像对应的特征作为所述类别的特征；其中，所述最终图像包括所述融合图像和/或未融合的图像；

逐一选择每个所述类别，对于选择的所述类别：计算被选择的所述类别与未被选择的所述类别中的特征的第二相似度；如果所述第二相似度的最大值大于所述第一阈值，则将所述被选择的类别合并到所述第二相似度的最大值对应的类别中；

重复执行所述逐一选择每个所述类别，对于选择的所述类别进行类别合并处理的步骤，直至重复的次数达到预设的次数阈值，或者所述目录中的类别的数量变化趋于0。

5.根据权利要求1所述的方法，其特征在于，基于所述目录的特征间的相似度进行目录合并的步骤，包括：

基于所述目录的特征对所述目录进行K均值聚类，得到至少一个簇；每个所述簇包括至少一个所述目录；

计算每个所述簇中的目录与其他目录的特征之间的相似度，按照由大到小的顺序对于每个目录确定对应的相似度排序表；

如果第一目录和第二目录分别处于对方的相似度排序表的预设范围内，并且所述第一目录的特征和所述第二目录的特征的相似度大于预设的第四阈值，将所述第一目录和所述第二目录合并。

6.根据权利要求1所述的方法，其特征在于，在将每个所述目录中的图像划分为至少一个类别的步骤之前，所述方法还包括：

计算所述图像数据集中的图像的模糊度；

从所述图像数据集中剔除所述模糊度小于预设的第五阈值的图像。

7.根据权利要求1所述的方法，其特征在于，根据合并目录后的图像获得所述目标对象的目标数据集的步骤，包括：

基于所述图像数据集中每个目录包括的图像的数量，对所述图像数据集中每个目录设定权重；

根据所述权重进行数据增强处理，获得目标数据集。

8.根据权利要求7所述的方法，其特征在于，基于所述图像数据集中每个目录包括的图像的数量，对所述图像数据集中每个目录设定权重的步骤，包括：

统计所述图像数据集中每个目录包括的图像的数量；

通过以下函数确定每个目录的权重；

其中，ω_i为待计算目录的权重；v_i为所述待计算目录包括的图像的数量；v_max为所述图像数据集中的目录包括的图像的数量的最大值；v_min为所述图像数据集中的目录包括的图像的数量的最小值。

9.一种数据集清洗装置，其特征在于，包括：

图像数据集获取模块，用于获取包含目标对象的图像数据集；所述图像数据集划分为至少一个目录，每个所述目录中的图像对应同一目标对象的身份标识；

图像划分模块，用于将每个所述目录中的图像划分为至少一个类别；其中，每一个所述类别中的图像与该类别中的其余图像之间的相似度的最大值大于预设的第一阈值；

其余类别剔除模块，用于检查每个所述目录中包含图像数量最多的目标类别，剔除所述目录中除所述目标类别之外的其余类别，将每个所述目标类别的图像作为该目标类别对应目录的图像；

均值向量计算模块，用于对于每个所述目录，分别计算该目录的各个图像的特征对应的均值向量，将该均值向量作为该目录的特征；

目录合并模块，用于基于所述目录的特征间的相似度进行目录合并；

目标数据集确定模块，用于根据合并目录后的图像获得所述目标对象的目标数据集。

10.一种电子系统，其特征在于，所述电子系统包括：图像采集设备、处理设备和存储装置；

所述图像采集设备，用于获取图像；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至8任一项所述的数据集清洗方法。

11.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至8任一项所述的数据集清洗方法的步骤。