CN108932343A

CN108932343A - 人脸图像数据库的数据集清洗方法与系统

Info

Publication number: CN108932343A
Application number: CN201810818306.6A
Authority: CN
Inventors: 杨帆; 王旭东
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology Jiangsu Co ltd
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2018-12-04
Anticipated expiration: 2038-07-24
Also published as: CN108932343B

Abstract

本发明提供一种人脸图像数据库的数据集清洗方法与系统，用于对数据集中的异常数据、重复数据进行清理和合并处理，使得用来训练数据模型的人脸识别的数据集相对干净，提高模型训练的效率和精度。本发明通过对人脸图像/照片的处理，对数据集中存在非人脸的照片、同个目录下不同人的、不同目录相同人的的情况进行清洗，得到相对纯净的数据库。

Description

人脸图像数据库的数据集清洗方法与系统

技术领域

本发明涉及人脸识别技术领域，尤其是人脸数据库的数据处理，具体而言涉及一种人脸图像数据库的数据集清洗方法与系统。

背景技术

目前，用于人脸识别训练的数据集的原始采集数据，基本上是通过不同渠道汇集过来的，通过工具进行粗略筛选之后，再人工筛选一遍，基本可以保证其可用性。但是人工筛选过程中，不可避免的在筛选过程中产生错误，当数据量很大时，存在的这些问题就无法再通过人工进行核查。

我们用这种不干净的数据集进行训练的话，会对识别精度有很大的影响。如果我们让数据集尽可能干净的话，会有效提升训练模型的精度。

发明内容

本发明目的在于提供一种人脸图像数据库的数据集清洗方法与系统，能够将不干净的数据集清洗干净，用于算法模型的训练。

为达成上述目的，本发明提出一种人脸图像数据库的数据集清洗方法，包括：

步骤1、提供用于人脸识别模型训练的数据集，数据集内存储有按人排列的N个目录文件夹，每个目录文件夹内具有M张照片，N和M均为大于1的正整数；

步骤2、首先遍历数据集目录文件夹，对所有照片进行人脸检测，对没有检测到人脸的照片进行删除操作，然后将存在人脸的照片进行提取特征值操作并保存；

步骤3、遍历每个目录文件夹进行去除异常处理，具体包括：对于某一个目录文件夹，将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对，得到全部的比对分数并且对分数取均值，如果得到的均值小于配置的第一分数阈值，则判断其可能为疑似问题照片；

步骤4、对目录文件夹内照片完成去异常操作之后，对目录文件夹间的照片做合并操作，具体包括：对于某一目录文件夹，如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值，则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹，需进行合并操作，将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中，格式按照当前路径__目标路径，其中P≤M；

步骤5、根据Result目录文件夹中的Sam.txt文本文件，对需要合并的文件夹信息进行照片审核，查看挑选出的需要合并的每对文件夹是不是对应的同一个人，并且对误检的目录文件夹将相应的记录删除，保留正确的将路径信息；

步骤6、将原始的数据集重新整理：读取Result目录文件夹下的Sam.txt文件，保留下来的路径信息对每一行进行解析，将目标目录文件夹下的照片文件拷贝到当前目录文件夹下，如果有重名的情况，则对照片文件重新命名，最后删除目标目录文件夹下的照片文件以及目标目录文件夹。

根据本发明的公开，还提出一种人脸图像数据库的数据集清洗系统，所述数据集清洗系统包括：

用于输入用于人脸识别模型训练的数据集的模块，所述数据集内存储有按人排列的N个目录文件夹，每个目录文件夹内具有M张照片，N和M均为大于1的正整数；

用于遍历数据集目录文件夹、对所有照片进行预处理的模块，所述预处理包括对所有照片进行人脸检测，对没有检测到人脸的照片进行删除操作，然后将存在人脸的照片进行提取特征值操作并保存；

用于遍历每个目录文件夹进行去除异常处理的模块，所述去除异常处理包括：对于某一个目录文件夹，将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对，得到全部的比对分数并且对分数取均值，如果得到的均值小于配置的第一分数阈值，则判断其可能为疑似问题照片；

用于对去除异常后的目录文件夹进行合并操作的模块，所述合并操作包括：对于某一目录文件夹，如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值，则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹，需进行合并操作，将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中，格式按照当前路径__目标路径，其中P≤M；

用于根据Result目录文件夹中的Sam.txt文本文件，对需要合并的文件夹信息进行照片审核的模块，用以查看挑选出的需要合并的每对文件夹是不是对应的同一个人，并且对误检的目录文件夹将相应的记录删除，保留正确的将路径信息；

用于将原始的数据集重新整理的模块，用以读取Result目录文件夹下的Sam.txt文件，保留下来的路径信息对每一行进行解析，将目标目录文件夹下的照片文件拷贝到当前目录文件夹下，如果有重名的情况，则对照片文件重新命名，最后删除目标目录文件夹下的照片文件以及目标目录文件夹。

进一步地，所述用于遍历数据集目录文件夹、对所有照片进行预处理的模块还被设置成用以将得到的特征值和路径保存到文本文件中，文件内容按照每行路径名+特征值数组保存。

进一步地，所述用于遍历每个目录文件夹进行去除异常处理的模块还被设置成用以将疑似问题照片移到当前目录文件夹的AvgScore文件夹下，并对疑似问题照片进行再次确认审核处理，对于确定的问题照片进行删除处理，否则还原到当前目录文件夹内。

进一步的实施例中，预先配置参数的模块，所述参数包括所述第一分数阈值以及第二分数阈值，所述第一分数阈值为疑似图片平均分数阈值，第二分数阈值为采用人脸识别模型进行识别比对的分数阈值。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明一实施例的人脸图像数据库的数据集清洗方法的流程示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

根据本发明的公开，图1所示示例的人脸图像数据库的数据集清洗过程，旨在对数据集中的异常数据、重复数据进行清理和合并处理，使得用来训练数据模型的人脸识别的数据集相对干净，提高模型训练的效率和精度。本发明的实施例中，具体通过对人脸图像/照片的处理，对数据集中存在非人脸的照片、同个目录下不同人的、不同目录相同人的的情况进行清洗，得到相对纯净的数据库。

结合图1所示，本发明的上述数据集清洗过程整体上包括下述步骤：

在步骤1中，通过例如计算机系统(或者其他数据处理系统、终端)提供的数据接口或者外设接口，接收来自外部输入或者内部传输的数据集，这样的数据集中存储有多个人的多张照片，一般在数据集内按人排列N个目录文件夹(也即对应N个人)，每个目录文件夹内具有M张照片(同一个目录下的即认为同一个人)，N和M均为大于1的正整数。由于照片/图片可能来源于不同的渠道，例如不同分辨率的摄像设备，不同环境下的采集，或者通过不同的压缩比进行文件压缩，或者存在误存错存的现象，对于后续的数据训练带来较大的影响，因此需要进行数据清洗。

在可选择的例子中，数据集内按照人来排列，例如每个人对应一个目录文件夹，一共N个目录文件夹。每个目录文件夹中存放M个当前人的一张或者多张照片(可能存在相同人在不同目录以及不同人在同一个目录的情况)。文件名没有影响，可以不同目录下有相同的文件名。

在训练的数据集准备好以后，可以开始提前进行预先的参数配置。参数配置的竖直将影响西清洗的效率和结果。在可选的例子中，配置的参数包括：

<ImagePath>"./face_detection"</ImagePath><！--数据集所在的文件夹-->

<FeaturePath>"./Result/result_feature.txt"</FeaturePath><！--保存的特征文件列表路径-->

比对Score分数的配置可以参照当前人脸识别模型的ROC曲线提供的参考阈值分数来设置。

AvgScore的配置是比对结果的平均分数阈值，配合图片最大数和最小数配置，根据图片的增多AvgScore适当增加。

SameN的配置是目录中有多少个比对成功的人，可以进行合并操作。在一些实施例中，可以按照3-5人的范围来取值。

ThreadMaxNum的配置与当前运行的计算机系统(数据处理系统、设备终端)的配置有关系，如果机器配置很高，线程数可以配置多些，否则可以配置少些。一般配置是线程数为逻辑核数。

步骤2、首先遍历数据集目录文件夹，对所有照片进行人脸检测，对没有检测到人脸的照片进行删除操作，然后将存在人脸的照片进行提取特征值操作并保存。

优选是，将得到的特征值和路径保存到文本文件中，文件内容按照每行路径名+特征值数组保存。

例如，配置好参数后，我们在具体实现过程中，首先对非人脸的照片进行剔除。然后再进行特征值操作，将特征文件进行保存，保存到配置的FeaturePath路径下。文件特征值保存在result_feature.txt文件中，考虑到图片文件会有很多，所以保存的文件会有多个一次为result_feature.txt、result_feature_1.txt、result_feature_2.txt.......result_feature_n.txt。为了保证一个文件不要太大，以及保证读取时的速度。特征文件按照一行一个文件路径+一个人脸特征的方式存储，例如：./2018_select/0000001/1.jpg 0.108315,-0.0217341,-0.0288338....等等。如此，方便在调整配置参数之后进行重新清洗时可以不用重新提取特征，减少不必要的时间浪费，提高清洗效率。

步骤3、遍历每个目录文件夹进行去除异常处理，具体包括：对于某一个目录文件夹，将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对，得到全部的比对分数并且对分数取均值，如果得到的均值小于配置的第一分数阈值，则判断其可能为疑似问题照片。

进一步地，我们将疑似问题照片移到当前目录文件夹的AvgScore文件夹下，并对疑似问题照片进行再次确认审核处理，对于确定的问题照片进行删除处理，否则，还原到当前目录文件夹内。

在一些可选的例子中，确认审核处理可以由人工来进行筛选确认，因为这样的疑似数据已经比较少了，通过人工审核能够再短时间、高效率和准确的实现问题照片确认。

在另一些例子中，还可以通过1：1比对的方式，采用更加准确的识别算法进行再一次的判断，如果依然判断为疑似，则确认并删除，否则还原到当前目录文件夹内。

步骤4、对目录文件夹内照片完成去异常操作之后，对目录文件夹间的照片做合并操作，具体包括：对于某一目录文件夹，如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值，则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹，需进行合并操作，将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中，格式按照当前路径__目标路径，其中P≤M。

如前述的，预先配置参数，包括前述的第一分数阈值以及这里的第二分数阈值，第一分数阈值为疑似图片平均分数阈值，第二分数阈值为采用人脸识别模型进行识别比对的分数阈值。

这里的第二分数阈值，优选可以根据人脸识别模型的ROC曲线提供的参考阈值分数来设置。

参数P表示合并操作阈值，是指目录文件夹中有多少个比对成功的人即进行合并操作。在可选的例子中，参数P取值为3-5。

步骤5、根据Result目录文件夹中的Sam.txt文本文件，对需要合并的文件夹信息进行照片审核，查看挑选出的需要合并的每对文件夹是不是对应的同一个人，并且对误检的目录文件夹将相应的记录删除，保留正确的将路径信息。

在步骤5中，与前述审核类似的，可以通过人工或者进一步识别的方式来实现综合判断检验，实现快速的确认，而且时间、数据量可控。

在可选的方式中，可通过脚本将原先的数据集进行合并操作，将目标目录的文件拷贝到当前目录，遇到重名的文件进行重命名操作，最后删除目标目录下的文件和目录。如此，最终完成一次数据清洗，得到相对较为干净的数据，去除其中的非人脸的照片、同个目录下不同人的、不同目录相同人的的情况。

根据本发明的改进，还提出一种人脸图像数据库的数据集清洗系统，结合图1以及上述实施例的清洗过程，数据集清洗系统包括：

更加优选的，所述用于遍历数据集目录文件夹、对所有照片进行预处理的模块还被设置成用以将得到的特征值和路径保存到文本文件中，文件内容按照每行路径名+特征值数组保存。

更加优选的，所述用于遍历每个目录文件夹进行去除异常处理的模块还被设置成用以将疑似问题照片移到当前目录文件夹的AvgScore文件夹下，并对疑似问题照片进行再次确认审核处理，对于确定的问题照片进行删除处理，否则还原到当前目录文件夹内。

更加优选的，所述系统更加包括：

预先配置参数的模块，所述参数包括所述第一分数阈值以及第二分数阈值，所述第一分数阈值为疑似图片平均分数阈值，第二分数阈值为采用人脸识别模型进行识别比对的分数阈值。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种人脸图像数据库的数据集清洗方法，其特征在于，所述数据集清晰方法包括：

2.根据权利要求1所述的人脸图像数据库的数据集清洗方法，其特征在于，所述步骤2中，还包括：

将得到的特征值和路径保存到文本文件中，文件内容按照每行路径名+特征值数组保存。

3.根据权利要求1所述的人脸图像数据库的数据集清洗方法，其特征在于，所述步骤3中，还包括：

将疑似问题照片移到当前目录文件夹的AvgScore文件夹下，并对疑似问题照片进行再次确认审核处理，对于确定的问题照片进行删除处理，否则还原到当前目录文件夹内。

4.根据权利要求1-3中任意一项所述的人脸图像数据库的数据集清洗方法，其特征在于，所述方法更加包括：

预先配置参数，包括所述第一分数阈值以及第二分数阈值，所述第一分数阈值为疑似图片平均分数阈值，第二分数阈值为采用人脸识别模型进行识别比对的分数阈值。

5.根据权利要求4所述的人脸图像数据库的数据集清洗方法，其特征在于，所述第二分数阈值根据人脸识别模型的ROC曲线提供的参考阈值分数来设置。

6.根据权利要求1所述的人脸图像数据库的数据集清洗方法，其特征在于，所述步骤4中，所述参数P表示合并操作阈值，是指目录文件夹中有多少个比对成功的人即进行合并操作。

7.根据权利要求1所述的人脸图像数据库的数据集清洗方法，其特征在于，所述参数P，取值为3-5。

8.一种人脸图像数据库的数据集清洗系统，其特征在于，所述数据集清洗系统包括：

9.根据权利要求8所述的人脸图像数据库的数据集清洗系统，其特征在于，所述用于遍历数据集目录文件夹、对所有照片进行预处理的模块还被设置成用以将得到的特征值和路径保存到文本文件中，文件内容按照每行路径名+特征值数组保存。

10.根据权利要求8所述的人脸图像数据库的数据集清洗系统，其特征在于，所述用于遍历每个目录文件夹进行去除异常处理的模块还被设置成用以将疑似问题照片移到当前目录文件夹的AvgScore文件夹下，并对疑似问题照片进行再次确认审核处理，对于确定的问题照片进行删除处理，否则还原到当前目录文件夹内。

11.根据权利要求8所述的人脸图像数据库的数据集清洗系统，其特征在于，所述系统更加包括：