CN112597862A

CN112597862A - 一种用于人脸数据清洗的方法与设备

Info

Publication number: CN112597862A
Application number: CN202011488826.9A
Authority: CN
Inventors: 杨天; 叶云; 朱政; 黄冠; 都大龙
Original assignee: Beijing Xinyi Intelligent Information Technology Co ltd
Current assignee: Shanghai Xinyi Intelligent Technology Co.,Ltd.
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-02

Abstract

本申请通过一种用于人脸数据清洗的方法及设备，首先获取原始数据集，其中，所述原始数据集的每个原始图片包含一个或多个人脸；接着将所述原始数据集的每个原始图片输入人脸检测网络模型，以获取每个原始图片中的全部人脸图片及与所述人脸图片中人脸对应的信息；然后基于与人脸图片中人脸对应的人脸得分信息，对所述每个原始图片中的全部人脸图片进行排序并标号；最后遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集。经过对原始数据集的清洗，清除原始数据集中质量不高及重复的人脸数据，标注后用于训练人脸识别模型，可获得较好的训练效果。

Description

一种用于人脸数据清洗的方法与设备

技术领域

本申请涉及计算机数据处理技术领域，尤其涉及一种用于人脸数据清洗的技术。

背景技术

通常在训练以深度学习为基础的人脸识别模型时，首先需收集一定量的标注过的人脸图片作为训练数据集及验证数据集。这些人脸图片需要按照其内容，根据人脸对应的人进行分类，同一类中的人脸图片应来自同一个人，不同类中的人脸图片来自不同的人。

在收集人脸图片时，一种常用的收集方法是，采用互联网图片搜索引擎，自动搜索包括某一个人的人脸的图片，将这些图片下载到与该人对应的分类中。

这种收集人脸数据的方法较人工收集人脸数据方法效率高很多，但存在收集的人脸数据可能不“干净”的弊端，例如：搜索引擎返回的结果不一定是准确的，可能是另外人的，或者搜索到的图片可能包含多张人脸。导致同一分类中的所有图片不一定属于同一个人，或者不同分类中的图片存在重叠。

因此，将采用互联网图片搜索引擎获取的人脸数据直接标注后作为训练数据补充到用于训练人脸识别模型的训练数据集，可能会导致训练效果不佳，通常需要通过人工方式对人脸图片进行筛选、清洗，耗时费力，效率低下。而且人工易疲劳，准确率得不到保证。

发明内容

本申请的目的是提供一种用于人脸数据清洗的方法及设备，用以解决直接从互联网上收集的人脸数据不干净，直接用于训练人脸识别模型可能导致训练效果不佳的技术问题。

根据本申请的一个方面，提供了一种用于人脸数据清洗的方法，其中，所述方法包括：

获取原始数据集，其中，所述原始数据集的每个原始图片包含一个或多个人脸；

将所述原始数据集的每个原始图片输入人脸检测网络模型，以获取每个原始图片中的全部人脸图片及与所述人脸图片中人脸对应的信息，其中，所述人脸图片只包含一个人脸，所述人脸对应的信息包括人脸得分信息；

基于与人脸图片中人脸对应的人脸得分信息，对所述每个原始图片中的全部人脸图片进行排序并标号；

遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集。

可选地，其中，所述人脸对应的信息还包括人脸框信息及人脸关键点位置信息。

可选地，其中，所述遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集包括：

遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片；

基于与人脸图片中人脸对应的人脸框信息及人脸关键点位置信息，对获取到的人脸图片逐个进行人脸对齐，并将所述人脸图片逐个缩放至同一尺寸，集合为第一人脸数据集。

可选地，所述一种用于人脸数据清洗的方法还包括：

将所述第一人脸数据集的每个人脸图片输入人脸识别网络模型，获取每个人脸图片对应的人脸特征；

基于所述每个人脸图片对应的人脸特征，对所述第一人脸数据集进行聚类操作，并根据聚类操作结果，将包含人脸图片最多的数据子集确定为第二人脸数据集。

可选地，所述一种用于人脸数据清洗的方法还包括：

基于所述第二人脸数据集的每个人脸图片对应的人脸特征，确定所述第二人脸数据集的中心特征；

计算所述第二人脸数据集的每个人脸图片对应的人脸特征与所述中心特征的内积，若所述内积符合第二预设阈值，则获取所述人脸特征对应的人脸图片；

遍历所述第二人脸数据集，将获取的全部人脸图片组成集合，并确定为第三人脸数据集。

可选地，所述方法还包括：

计算所述第三人脸数据集的任意两个人脸图片对应的人脸特征的内积，若所述内积符合第三预设阈值，清除其中任意一个人脸图片；

遍历所述第三人人脸数据集，以获取第四人脸数据集。

可选地，所述方法还包括：

获取两个人脸数据集，分别确定每个人脸数据集的中心特征；

计算所述两个人脸数据集的中心特征的内积，若所述内积符合第四预设阈值，则合并所述两个人脸数据集，若所述内积符合第五预设阈值，则删除所述两个人脸数据集中包含人脸图片数量较少的一个。

可选地，所述方法还包括：

对所述人脸数据集的每个人脸图片进行标注；

将所述人脸数据集的每个人脸图片及其标注组成人脸识别网络的一个训练样本，补充到所述人脸识别网络的训练数据集；

基于所述训练数据集迭代训练所述人脸识别网络，以获得人脸识别网络模型。

根据本申请的另一方面，还提供了一种用于人脸数据清洗的设备，其中，所述设备包括：

第一装置，用于获取原始数据集，其中，所述原始数据集的每个原始图片包含一个或多个人脸；

第二装置，用于将所述原始数据集的每个原始图片输入人脸检测网络模型，以获取每个原始图片中的全部人脸图片及与所述人脸图片中人脸对应的信息，其中，所述人脸图片只包含一个人脸，所述人脸对应的信息包括人脸得分信息；

第三装置，用于基于与人脸图片中人脸对应的人脸得分信息，对所述每个原始图片中的全部人脸图片进行排序并标号；

第四装置，用于遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集。

可选地，其中，所述第四装置包括：

第四一模块，用于遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片；

第四二模块，用于基于与人脸图片中人脸对应的人脸框信息及人脸关键点位置信息，对获取到的人脸图片逐个进行人脸对齐，并将所述人脸图片逐个缩放至同一尺寸，集合为第一人脸数据集。

可选地，所述设备还包括：

第五装置，用于将所述第一人脸数据集的每个人脸图片输入人脸识别网络模型，获取每个人脸图片对应的人脸特征；

第六装置，用于基于所述每个人脸图片对应的人脸特征，对所述第一人脸数据集进行聚类操作，并根据聚类操作结果，将包含人脸图片最多的数据子集确定为第二人脸数据集。

可选地，所述设备还包括：

第七装置，用于基于所述第二人脸数据集的每个人脸图片对应的人脸特征，确定所述第二人脸数据集的中心特征；

第八装置，用于计算所述第二人脸数据集的每个人脸图片对应的人脸特征与所述中心特征的内积，若所述内积符合第二预设阈值，则获取所述人脸特征对应的人脸图片；

第九装置，用于遍历所述第二人脸数据集，将获取的全部人脸图片组成集合，并确定为第三人脸数据集。

可选地，所述设备还包括：

第十装置，用于计算所述第三人脸数据集的任意两个人脸图片对应的人脸特征的内积，若所述内积符合第三预设阈值，清除其中任意一个人脸图片；

第十一装置，用于遍历所述第三人人脸数据集，以获取第四人脸数据集。

可选地，所述设备还包括：

第十二装置，用于获取两个人脸数据集，分别确定每个人脸数据集的中心特征；

第十三装置，用于计算所述两个人脸数据集的中心特征的内积，若所述内积符合第四预设阈值，则合并所述两个人脸数据集，若所述内积符合第五预设阈值，则删除所述两个人脸数据集中包含人脸图片数量较少的一个。

可选地，所述设备还包括：

第十四装置，用于对所述人脸数据集的每个人脸图片进行标注；

第十五装置，用于将所述人脸数据集的每个人脸图片及对应的标注组成人脸识别网络的一个训练样本，补充到所述人脸识别网络的训练数据集；

第十六装置，用于基于所述训练数据集迭代训练所述人脸识别网络，以获得人脸识别网络模型。

与现有技术相比，本申请通过一种用于人脸数据清洗的方法及设备，首先获取原始数据集，其中，所述原始数据集的每个原始图片包含一个或多个人脸；接着将所述原始数据集的每个原始图片输入人脸检测网络模型，以获取每个原始图片中的全部人脸图片及与所述人脸图片中人脸对应的信息，其中，所述人脸图片只包含一个人脸，所述人脸对应的信息包括人脸得分信息；然后基于与人脸图片中人脸对应的人脸得分信息，对所述每个原始图片中的全部人脸图片进行排序并标号；最后遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集。经过对原始数据集的清洗，清除原始数据集中质量不高及重复的人脸数据，标注后用于训练人脸识别模型，可获得较好的训练效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于人脸数据清洗的方法流程图；

图2示出根据本申请另一个方面一种用于人脸数据清洗的设备示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，系统各模块和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及优选实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出本申请一个方面的一种用于人脸数据清洗的方法流程图，其中，所述方法包括：

S11获取原始数据集，其中，所述原始数据集的每个原始图片包含一个或多个人脸；

S12将所述原始数据集的每个原始图片输入人脸检测网络模型，以获取每个原始图片中的全部人脸图片及与所述人脸图片中人脸对应的信息，其中，所述人脸图片只包含一个人脸，所述人脸对应的信息包括人脸得分信息；

S13基于与人脸图片中人脸对应的人脸得分信息，对所述每个原始图片中的全部人脸图片进行排序并标号；

S14遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集。

在本申请的实施例一中，所述方法通过设备1执行，所述设备1为计算机设备和/或云，所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集；所述云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。

在此，所述计算机设备和/或云仅为举例，其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本申请也应包含在本申请的保护范围内，在此，以引用的方式包含于此。

在该实施例一中，在所述步骤S11中，所述设备1获取原始数据集，其中，所述原始数据集是采用互联网搜索引擎基于搜索条件(例如，包含某个人的人脸)将自动采集到的若干数量的原始图片组成的图片数据集，存放在同一个文件夹下，例如，存放在自动创建的以该人名字命名的文件夹下。其中，每张图片包含该人的人脸或包含包括该人的人脸在内的多个人的人脸。

其中，原始图片集可以是采用安装在设备1上的互联网搜索引擎采集，也可以是其它计算机设备采用安装的互联网搜索引擎或其它工具采集后通过网络或拷贝等方式发送给设备1。在此，对设备1获取原始图片集的方式不做限定，设备1获取原始图片集的任何方式如适用于本申请也应包含在本申请的保护范围内。

继续在该实施例一中，在所述步骤S12中，所述设备1将与该人对应的文件夹内的原始数据集的每个原始图片输入一个现有的人脸检测网络模型，例如开源的RetinaFace，可以获取到每个原始图片中的全部人脸图片及与每个人脸图片中的人脸对应的信息。由于一张原始图片中可能存在多个人脸，输入人脸检测网络模型后可以得到多个人脸图片及与其对应的信息，其中，所述人脸图片只包含一个人脸，所述人脸对应的信息包括人脸检测网络模型对人脸进行检测后得到的人脸得分信息。

继续在该实施例一中，在所述步骤S13中，所述设备1根据人脸检测网络模型对每个原始图片中的人脸进行检测后得到的人脸得分信息，对得到的每个人脸图片进行排序并标号。由于一张原始图片中可能存在多个人脸，输入人脸检测网络模型后可以得到多个人脸图片及与其对应的人脸得分信息，为了排除大部分不清晰、质量不好的人脸，所以需要对包含多个人脸的同一张原始图片中的不同人脸进行标号，标记为不同的face_index值，依据人脸的质量，从好到差依次排序，例如，若一张原始图片中包含N(N为大于3的正整数)个不同的人脸，经人脸检测网络模型检测后，人脸得分最高的人脸图片标记其face_index值为0，人脸得分第二高的人脸图片标记其face_index值为1，人脸得分第三高的人脸图片标记其face_index值为2，依次标号。

继续在该实施例一中，在所述步骤S14中，所述设备1遍历基于所述原始数据集获取的全部人脸图片，对每个人脸图片的标号进行判断，获取标号符合预设阈值的质量较好的人脸图片，例如，获取face_index值小于等于2的人脸图片，并集合为第一人脸数据集，完成对人脸数据的一次清洗。

可选地，其中，所述人脸对应的信息还包括人脸检测网络模型对人脸进行检测后得到的人脸框信息及人脸关键点位置信息。

其中，人脸检测网络模型对人脸进行检测后得到的人脸得分信息还可以包括人脸框信息及人脸关键点位置信息。基于人脸框信息及人脸关键点位置信息，可以对人脸图片做进一步的处理。

可选地，其中，所述步骤S14包括：

在实施例二中，实施例一的步骤S14中，所述设备1遍历基于所述原始数据集获取的全部人脸图片，对每个人脸图片的标号进行判断后筛选人脸图片，获取标号符合预设阈值的人脸图片，例如，获取face_index值小于等于2的人脸图片，接着基于人脸框信息及人脸关键点位置信息，对筛选后的人脸图片进行人脸对齐及尺寸缩放处理，其中，获取每个人脸框信息以便将所有人脸图片缩放成同一尺寸，例如，获取每个人脸框信息，得到每个人脸图片，将所有人脸图片缩放成获取每个人脸的5个关键点(左右眼角/眼中心、左右嘴角、鼻尖)位置信息可将同一尺寸的所有人脸图片对齐，然后将完成人脸对齐以及尺寸缩放的人脸图片集合为新的人脸数据集，清洗后可以获得质量较好且尺寸统一、人脸对齐的人脸数据集。

上述实施例二中，获得的新的人脸数据集的人脸图片虽然质量满足要求，但可能还包含有不是同一个人的人脸图片，还可以对该人脸数据集进行进一步的数据清洗。

可选地，所述一种用于人脸数据清洗的方法还包括：

S15(未示出)将所述第一人脸数据集的每个人脸图片输入人脸识别网络模型，获取每个人脸图片对应的人脸特征；

S16(未示出)基于所述每个人脸图片对应的人脸特征，对所述第一人脸数据集进行聚类操作，并根据聚类操作结果，将包含人脸图片最多的数据子集确定为第二人脸数据集。

在实施例三中，在实施例二的基础上，所述设备1首先将人脸数据集的人脸图片输入训练好的人脸识别网络模型，例如ResNet，获取每个人脸图片对应的人脸特征，然后基于每个人脸图片对应的人脸特征，使用聚类算法，例如无监督聚类算法dbscan，对该人脸数据集所有人脸图片进行聚类操作，在得到的聚类结果中，只保留最大的簇，即包含人脸图片最多的数据子集，确定为新的人脸数据集。

通过这次数据清洗，可将绝大部分非该人的人脸图片剔除，只把属于该人的人脸图片保留下来作为新的人脸数据集。

上述实施例三中，获得的新的人脸数据集的人脸图片虽然绝大部分都属于该人，但可能存在人脸姿态、遮挡、光照等原因不适合用于训练样本，还可以对该人脸数据集进行进一步的数据清洗。

可选地，所述一种用于人脸数据清洗的方法还包括：

S17(未示出)基于所述第二人脸数据集的每个人脸图片对应的人脸特征，确定所述第二人脸数据集的中心特征；

S18(未示出)计算所述第二人脸数据集的每个人脸图片对应的人脸特征与所述中心特征的内积，若所述内积符合第二预设阈值，则获取所述人脸特征对应的人脸图片；

S19(未示出)遍历所述第二人脸数据集，将获取的全部人脸图片组成集合，并确定为第三人脸数据集。

在实施例四中，在实施例三的基础上，所述设备1首先基于人脸数据集的每个人脸图片对应的人脸特征，将全部人脸图片对应的人脸特征进行均值并标准化，确定为该人脸数据集的中心特征，然后分别计算每个人脸图片对应的人脸特征与该中心特征的内积，假如人脸数据集包括K个人脸图片，每个人脸图片的人脸特征是n维的，为f_i(i₁,i₂,…,i_n)，i从1到K，则先计算K个人脸图片的特征均值f_m(m₁,m₂,…,m_n)，其中，各维的值为K个特征对应维的算术平均值，然后对f_m(m₁,m₂,…,m_n)进行标准化/归一化，得到中心特征f_C(C₁,C₂,…,C_n)，例如，得到的中心特征f_C(C₁,C₂,…,C_n)各维的取值的平方和为1，即

人脸图片对应的人脸特征f_i与该中心特征f_C的内积为f_i和f_C对应维的取值的算术积的累加和，比如，一个人脸图片的人脸特征为f_a(a₁,a₂,…,a_n)，则该人脸图片对应的人脸特征与该中心特征的内积为

若该人脸图片的内积符合预设阈值，比如，预设阈值为大于0.2，说明该人脸大概率属于该人，则保留该人脸图片，遍历该人脸数据集每个人脸图片，将其内积符合该预设阈值的所有人脸图片筛选出来，组成更干净的一个新的人脸数据集。

通过这次数据清洗，可将人脸数据集中绝大部分不能确定为该人的人脸图片剔除，只把确定属于该人的人脸图片筛选出来，作为新的人脸数据集。

上述实施例四中，获得的新的人脸数据集的人脸图片虽然基本都属于该人，但还有可能存在相同的人脸图片，还可以对该人脸数据集进行进一步的数据清洗。

可选地，所述一种用于人脸数据清洗的方法还包括：

S110(未示出)计算所述第三人脸数据集的任意两个人脸图片对应的人脸特征的内积，若所述内积符合第三预设阈值，清除其中任意一个人脸图片；

S111(未示出)遍历所述第三人人脸数据集，以获取第四人脸数据集。

在实施例五中，在实施例四的基础上，所述设备1首先基于人脸数据集的每个人脸图片对应的人脸特征，计算任意两个人脸图片对应的人脸特征的内积，若两个人脸图片的内积符合预设阈值，比如，预设阈值为大于0.98，说明这两张人脸大概率相同，则清除其中任意一个人脸图片，保留另一个人脸图片，遍历该人脸数据集每个人脸图片，将保留下来的人脸图片组成集合，确定为新的人脸数据集。

通过这次数据清洗，可将该人脸数据集中重叠的人脸图片清除，得到更干净的新的人脸数据集。

如果两个不同的人脸数据集之间包含同一人的人脸，将这两个人脸数据集用于人脸识别模型的训练，也会影响训练结果。因此，还有必要对两个不同的人脸数据集做数据清洗，以得到更更干净的人脸数据集。

可选地，所述一种用于人脸数据清洗的方法还包括：

S112(未示出)获取两个人脸数据集，分别确定每个人脸数据集的中心特征；

S113(未示出)计算所述两个人脸数据集的中心特征的内积，若所述内积符合第四预设阈值，则合并所述两个人脸数据集，若所述内积符合第五预设阈值，则删除所述两个人脸数据集中包含人脸图片数量较少的一个。

在实施例六中，在实施例四或者实施例五的基础上，所述设备1首先获取到两个不同的人脸数据集，接着分别计算每个人脸数据集的中心特征，然后计算这两个人脸数据集的中心特征的内积，若这两个人脸数据集的中心特征的内积符合某个预设阈值，比如，预设阈值为大于等于0.7，说明这两个人脸数据集都是同一个人的人脸图片，则将这两个人脸数据集合并成一个人脸数据集；若这两个人脸数据集的中心特征的内积符合另一个预设阈值，比如，预设阈值为大于等于0.55但小于0.7，说明这两个人脸数据集很大概率是同一个人的人脸图片，但将两者合并会存在一定风险，可保留这两个人脸数据集中包含人脸图片较多的一个；这两个人脸数据集的中心特征的内积既不符合某个预设阈值(大于等于0.7)，又不符合另一个预设阈值(大于等于0.55但小于0.7)，说明这两个人脸数据集不是同一个人，都可以用于训练人脸识别网络模型。

进一步地，可将经过多重数据清洗获得的更干净的人脸数据集进行标注后补充到人脸识别网络模型的训练数据集，迭代训练该人脸识别网络模型，以获得识别准确率更高的人脸识别网络模型。

可选地，所述一种用于人脸数据清洗的方法还包括：

对所述人脸数据集的每个人脸图片进行标注；

其中，设备1首先对经过数据清洗的人脸数据集的每个人脸图片进行标注，然后将该人脸图片及其标注作为人脸识别网络的一个训练样本，补充到其训练数据集中，获得新的训练数据集，再基于新训练数据集训练该人脸识别网络，获得新的人脸识别网络模型。

通常使用开源的MS1M-retina人脸数据训练集来训练人脸识别网络模型，例如ResNet，MS1M-retina是一个公开且干净的人脸数据集，包含大约10万不同人的500万个人脸图片。本申请的申请人还从互联网搜集了超过400万个不同于MS1M-retina中的人对应的近2亿个人脸图片，经过本申请的人脸数据清洗，获得了近200万个不同人的约4200万个人脸图片，补充进MS1M-retina，作为新的人脸数据训练集，并进行人脸数据的迭代清洗及对人脸识别网络模型的迭代训练，获得很好的效果。

进一步地，更好的人脸识别网络模型可用来更新设备1的第五装置25采用的人脸识别网络模型，采用该更好的人脸识别网络模型，可更准确地提取人脸图片的人脸特征，从而可实现对人脸数据的更好清洗，以及人脸识别网络模型的迭代训练。

图2示出根据本申请另一个方面的一种用于人脸数据清洗的设备示意图，其中，所述设备包括：

第一装置21，用于获取原始数据集，其中，所述原始数据集的每个原始图片包含一个或多个人脸；

第二装置22，用于将所述原始数据集的每个原始图片输入人脸检测网络模型，以获取每个原始图片中的全部人脸图片及与所述人脸图片中人脸对应的信息，其中，所述人脸图片只包含一个人脸，所述人脸对应的信息包括人脸得分信息；

第三装置23，用于基于与人脸图片中人脸对应的人脸得分信息，对所述每个原始图片中的全部人脸图片进行排序并标号；

第四装置24，用于遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集。

在该实施例中，所述设备与设备1相同。

其中，设备1的第一装置21获取原始数据集，其中，所述原始数据集的每个原始图片包含一个或多个人脸，接着设备的1第二装置22将所述原始数据集的每个原始图片输入人脸检测网络模型，以获取每个原始图片中的全部人脸图片及与所述人脸图片中人脸对应的信息，其中，所述人脸图片只包含一个人脸，所述人脸对应的信息包括人脸得分信息，然后设备1的第三装置23基于与人脸图片中人脸对应的人脸得分信息，对所述每个原始图片中的全部人脸图片进行排序并标号，最后设备1的第四装置24遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集。

可选地，所述设备1的第四装置24还包括：

第四一模块241，用于遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片；

第四二模块242，用于基于与人脸图片中人脸对应的人脸框信息及人脸关键点位置信息，对获取到的人脸图片逐个进行人脸对齐，并将所述人脸图片逐个缩放至同一尺寸，集合为第一人脸数据集。

其中，设备1第四装置24的第四一模块241遍历基于所述原始数据集获取的全部人脸图片，获取标号符合预设阈值(比如预设阈值为小于等于2)的人脸图片，第四二模块242基于与人脸图片中人脸对应的人脸框信息及人脸关键点位置信息，对获取到的人脸图片逐个进行人脸对齐，并将每个人脸图片逐个缩放至同一尺寸，集合为人脸数据集。

可选地，所述一种用于人脸数据清洗的设备还包括：

第五装置25(未示出)，用于将所述第一人脸数据集的每个人脸图片输入人脸识别网络模型，获取每个人脸图片对应的人脸特征；

第六装置26(未示出)，用于基于所述每个人脸图片对应的人脸特征，对所述第一人脸数据集进行聚类操作，并根据聚类操作结果，将包含人脸图片最多的数据子集确定为第二人脸数据集。

在另一个实施例中，在上述实施例的基础上，进一步地，设备1的第五装置25将人脸数据集的每个人脸图片输入训练好的人脸识别网络模型，例如ResNet，获取每个人脸图片对应的人脸特征，然后第六装置26基于每个人脸图片对应的人脸特征，使用聚类算法，例如无监督聚类算法dbscan，对该人脸数据集所有人脸图片进行聚类操作，在得到的聚类结果中，只保留最大的簇，即包含人脸图片最多的数据子集，确定为新的人脸数据集。

可选地，所述设备还包括：

第七装置27(未示出)，用于基于所述第二人脸数据集的每个人脸图片对应的人脸特征，确定所述第二人脸数据集的中心特征；

第八装置28(未示出)，用于计算所述第二人脸数据集的每个人脸图片对应的人脸特征与所述中心特征的内积，若所述内积符合第二预设阈值，则获取所述人脸特征对应的人脸图片；

第九装置29(未示出)，用于遍历所述第二人脸数据集，将获取的全部人脸图片组成集合，并确定为第三人脸数据集。

在又一个实施例中，在上述另一个实施例的基础上，进一步地，设备1的第七装置27基于人脸数据集的每个人脸图片对应的人脸特征，将全部人脸图片对应的人脸特征进行均值并标准化，确定为该人脸数据集的中心特征，第八装置28分别计算每个人脸图片对应的人脸特征与该中心特征的内积，若该人脸图片的内积符合预设阈值，比如，预设阈值为大于0.2，说明该人脸大概率属于该人，则保留该人脸图片，第九装置29遍历该人脸数据集每个人脸图片，将其内积符合该预设阈值的所有人脸图片筛选出来，组成更干净的一个新的人脸数据集。

可选地，所述设备还包括：

第十装置210(未示出)，用于计算所述第三人脸数据集的任意两个人脸图片对应的人脸特征的内积，若所述内积符合第三预设阈值，清除其中任意一个人脸图片；

第十一装置211(未示出)，用于遍历所述第三人人脸数据集，以获取第四人脸数据集。

在再一个实施例中，在上述又一个实施例的基础上，进一步地，设备1的第十装置210基于人脸数据集的每个人脸图片对应的人脸特征，计算任意两个人脸图片对应的人脸特征的内积，若两个人脸图片的内积符合预设阈值，比如，预设阈值为大于0.98，说明这两张人脸大概率相同，则清除其中任意一个人脸图片，保留另一个人脸图片，第十一装置211遍历该人脸数据集每个人脸图片，将保留下来的人脸图片组成集合，确定为新的人脸数据集。

可选地，所述设备还包括：

第十二装置212(未示出)，用于获取两个人脸数据集，分别确定每个人脸数据集的中心特征；

第十三装置213(未示出)，用于计算所述两个人脸数据集的中心特征的内积，若所述内积符合第四预设阈值，则合并所述两个人脸数据集，若所述内积符合第五预设阈值，则删除所述两个人脸数据集中包含人脸图片数量较少的一个。

在还一个实施例中，在上述再一个实施例的基础上，进一步地，设备1的第十二装置212获取到两个不同的人脸数据集，分别计算每个人脸数据集的中心特征，然后第十三装置213计算这两个人脸数据集的中心特征的内积，若这两个人脸数据集的中心特征的内积符合某个预设阈值，比如，预设阈值为大于等于0.7，说明这两个人脸数据集都是同一个人的人脸图片，则将这两个人脸数据集合并成一个人脸数据集；若这两个人脸数据集的中心特征的内积符合另一个预设阈值，比如，预设阈值为大于等于0.55但小于0.7，说明这两个人脸数据集很大概率是同一个人的人脸图片，但将两者合并会存在一定风险，可保留这两个人脸数据集中包含人脸图片较多的一个；这两个人脸数据集的中心特征的内积既不符合某个预设阈值(大于等于0.7)，又不符合另一个预设阈值(大于等于0.55但小于0.7)，说明这两个人脸数据集不是同一个人，都可以用于训练人脸识别网络模型。

可选地，所述一个用于人脸数据清洗的设备还包括：

第十四装置214(未示出)，用于对所述人脸数据集的每个人脸图片进行标注；

第十五装置215(未示出)，用于将所述人脸数据集的每个人脸图片及对应的标注组成人脸识别网络的一个训练样本，补充到所述人脸识别网络的训练数据集；

第十六装置216(未示出)，用于基于所述训练数据集迭代训练所述人脸识别网络，以获得人脸识别网络模型。

在一个新的实施例中，设备1的第十四装置214对经过数据清洗的人脸数据集的每个人脸图片进行标注，然后第十五装置215将该人脸数据集的每个人脸图片及其标注作为人脸识别网络的一个训练样本，补充到其训练数据集中，获得新的训练数据集，第十六装置216再基于新训练数据集训练该人脸识别网络，获得更好的人脸识别网络模型。

根据本申请的又一方面，还提供了一种计算机可读介质，所述计算机可读介质存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

根据本申请的又一方面，还提供了一种的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：获取原始数据集；将所述原始数据集的每个原始图片输入人脸检测网络模型，以获取每个原始图片中的全部人脸图片及与所述人脸图片中人脸对应的信息；基于与人脸图片中人脸对应的人脸得分信息，对所述每个原始图片中的全部人脸图片进行排序并标号；遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件和/或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于人脸数据清洗的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在步骤B中，所述人脸对应的信息还包括人脸框信息及人脸关键点位置信息。

3.根据权利要求2所述的方法，其特征在于，所述遍历基于所述原始数据集获取的全部人脸图片，获取标号符合第一预设阈值的人脸图片，并集合为第一人脸数据集包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

遍历所述第三人人脸数据集，以获取第四人脸数据集。

7.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对所述人脸数据集的每个人脸图片进行标注；

9.一种用于人脸数据清洗的设备，其特征在于，所述设备包括：

10.根据权利要求9所述的设备，其特征在于，所述第四装置包括：

11.根据权利要求9或10所述的设备，其特征在于，所述设备还包括：

12.根据权利要求11所述的设备，其特征在于，所述设备还包括：

13.根据权利要求12所述的设备，其特征在于，所述设备还包括：

14.根据权利要求12或13所述的设备，其特征在于，所述设备还包括：

15.根据权利要求14所述的设备，其特征在于，所述设备还包括：

16.一种计算机可读介质，其特征在于，

其上存储有计算机可读指令，所述计算机可读指令被处理器执行以实现如权利要求1至8中任一项所述的方法。

17.一种设备，其特征在于，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至8中任一项所述方法的操作。