CN108932343A - 人脸图像数据库的数据集清洗方法与系统 - Google Patents

人脸图像数据库的数据集清洗方法与系统 Download PDF

Info

Publication number
CN108932343A
CN108932343A CN201810818306.6A CN201810818306A CN108932343A CN 108932343 A CN108932343 A CN 108932343A CN 201810818306 A CN201810818306 A CN 201810818306A CN 108932343 A CN108932343 A CN 108932343A
Authority
CN
China
Prior art keywords
file
photo
catalogue
data set
folder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810818306.6A
Other languages
English (en)
Other versions
CN108932343B (zh
Inventor
杨帆
王旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoshi Technology Jiangsu Co ltd
Original Assignee
Nanjing Zhenshi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhenshi Intelligent Technology Co Ltd filed Critical Nanjing Zhenshi Intelligent Technology Co Ltd
Priority to CN201810818306.6A priority Critical patent/CN108932343B/zh
Publication of CN108932343A publication Critical patent/CN108932343A/zh
Application granted granted Critical
Publication of CN108932343B publication Critical patent/CN108932343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提供一种人脸图像数据库的数据集清洗方法与系统,用于对数据集中的异常数据、重复数据进行清理和合并处理,使得用来训练数据模型的人脸识别的数据集相对干净,提高模型训练的效率和精度。本发明通过对人脸图像/照片的处理,对数据集中存在非人脸的照片、同个目录下不同人的、不同目录相同人的的情况进行清洗,得到相对纯净的数据库。

Description

人脸图像数据库的数据集清洗方法与系统
技术领域
本发明涉及人脸识别技术领域,尤其是人脸数据库的数据处理,具体而言涉及一种人脸图像数据库的数据集清洗方法与系统。
背景技术
目前,用于人脸识别训练的数据集的原始采集数据,基本上是通过不同渠道汇集过来的,通过工具进行粗略筛选之后,再人工筛选一遍,基本可以保证其可用性。但是人工筛选过程中,不可避免的在筛选过程中产生错误,当数据量很大时,存在的这些问题就无法再通过人工进行核查。
我们用这种不干净的数据集进行训练的话,会对识别精度有很大的影响。如果我们让数据集尽可能干净的话,会有效提升训练模型的精度。
发明内容
本发明目的在于提供一种人脸图像数据库的数据集清洗方法与系统,能够将不干净的数据集清洗干净,用于算法模型的训练。
为达成上述目的,本发明提出一种人脸图像数据库的数据集清洗方法,包括:
步骤1、提供用于人脸识别模型训练的数据集,数据集内存储有按人排列的N个目录文件夹,每个目录文件夹内具有M张照片,N和M均为大于1的正整数;
步骤2、首先遍历数据集目录文件夹,对所有照片进行人脸检测,对没有检测到人脸的照片进行删除操作,然后将存在人脸的照片进行提取特征值操作并保存;
步骤3、遍历每个目录文件夹进行去除异常处理,具体包括:对于某一个目录文件夹,将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对,得到全部的比对分数并且对分数取均值,如果得到的均值小于配置的第一分数阈值,则判断其可能为疑似问题照片;
步骤4、对目录文件夹内照片完成去异常操作之后,对目录文件夹间的照片做合并操作,具体包括:对于某一目录文件夹,如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值,则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹,需进行合并操作,将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中,格式按照当前路径__目标路径,其中P≤M;
步骤5、根据Result目录文件夹中的Sam.txt文本文件,对需要合并的文件夹信息进行照片审核,查看挑选出的需要合并的每对文件夹是不是对应的同一个人,并且对误检的目录文件夹将相应的记录删除,保留正确的将路径信息;
步骤6、将原始的数据集重新整理:读取Result目录文件夹下的Sam.txt文件,保留下来的路径信息对每一行进行解析,将目标目录文件夹下的照片文件拷贝到当前目录文件夹下,如果有重名的情况,则对照片文件重新命名,最后删除目标目录文件夹下的照片文件以及目标目录文件夹。
根据本发明的公开,还提出一种人脸图像数据库的数据集清洗系统,所述数据集清洗系统包括:
用于输入用于人脸识别模型训练的数据集的模块,所述数据集内存储有按人排列的N个目录文件夹,每个目录文件夹内具有M张照片,N和M均为大于1的正整数;
用于遍历数据集目录文件夹、对所有照片进行预处理的模块,所述预处理包括对所有照片进行人脸检测,对没有检测到人脸的照片进行删除操作,然后将存在人脸的照片进行提取特征值操作并保存;
用于遍历每个目录文件夹进行去除异常处理的模块,所述去除异常处理包括:对于某一个目录文件夹,将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对,得到全部的比对分数并且对分数取均值,如果得到的均值小于配置的第一分数阈值,则判断其可能为疑似问题照片;
用于对去除异常后的目录文件夹进行合并操作的模块,所述合并操作包括:对于某一目录文件夹,如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值,则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹,需进行合并操作,将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中,格式按照当前路径__目标路径,其中P≤M;
用于根据Result目录文件夹中的Sam.txt文本文件,对需要合并的文件夹信息进行照片审核的模块,用以查看挑选出的需要合并的每对文件夹是不是对应的同一个人,并且对误检的目录文件夹将相应的记录删除,保留正确的将路径信息;
用于将原始的数据集重新整理的模块,用以读取Result目录文件夹下的Sam.txt文件,保留下来的路径信息对每一行进行解析,将目标目录文件夹下的照片文件拷贝到当前目录文件夹下,如果有重名的情况,则对照片文件重新命名,最后删除目标目录文件夹下的照片文件以及目标目录文件夹。
进一步地,所述用于遍历数据集目录文件夹、对所有照片进行预处理的模块还被设置成用以将得到的特征值和路径保存到文本文件中,文件内容按照每行路径名+特征值数组保存。
进一步地,所述用于遍历每个目录文件夹进行去除异常处理的模块还被设置成用以将疑似问题照片移到当前目录文件夹的AvgScore文件夹下,并对疑似问题照片进行再次确认审核处理,对于确定的问题照片进行删除处理,否则还原到当前目录文件夹内。
进一步的实施例中,预先配置参数的模块,所述参数包括所述第一分数阈值以及第二分数阈值,所述第一分数阈值为疑似图片平均分数阈值,第二分数阈值为采用人脸识别模型进行识别比对的分数阈值。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明一实施例的人脸图像数据库的数据集清洗方法的流程示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
根据本发明的公开,图1所示示例的人脸图像数据库的数据集清洗过程,旨在对数据集中的异常数据、重复数据进行清理和合并处理,使得用来训练数据模型的人脸识别的数据集相对干净,提高模型训练的效率和精度。本发明的实施例中,具体通过对人脸图像/照片的处理,对数据集中存在非人脸的照片、同个目录下不同人的、不同目录相同人的的情况进行清洗,得到相对纯净的数据库。
结合图1所示,本发明的上述数据集清洗过程整体上包括下述步骤:
步骤1、提供用于人脸识别模型训练的数据集,数据集内存储有按人排列的N个目录文件夹,每个目录文件夹内具有M张照片,N和M均为大于1的正整数;
步骤2、首先遍历数据集目录文件夹,对所有照片进行人脸检测,对没有检测到人脸的照片进行删除操作,然后将存在人脸的照片进行提取特征值操作并保存;
步骤3、遍历每个目录文件夹进行去除异常处理,具体包括:对于某一个目录文件夹,将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对,得到全部的比对分数并且对分数取均值,如果得到的均值小于配置的第一分数阈值,则判断其可能为疑似问题照片;
步骤4、对目录文件夹内照片完成去异常操作之后,对目录文件夹间的照片做合并操作,具体包括:对于某一目录文件夹,如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值,则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹,需进行合并操作,将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中,格式按照当前路径__目标路径,其中P≤M;
步骤5、根据Result目录文件夹中的Sam.txt文本文件,对需要合并的文件夹信息进行照片审核,查看挑选出的需要合并的每对文件夹是不是对应的同一个人,并且对误检的目录文件夹将相应的记录删除,保留正确的将路径信息;
步骤6、将原始的数据集重新整理:读取Result目录文件夹下的Sam.txt文件,保留下来的路径信息对每一行进行解析,将目标目录文件夹下的照片文件拷贝到当前目录文件夹下,如果有重名的情况,则对照片文件重新命名,最后删除目标目录文件夹下的照片文件以及目标目录文件夹。
在步骤1中,通过例如计算机系统(或者其他数据处理系统、终端)提供的数据接口或者外设接口,接收来自外部输入或者内部传输的数据集,这样的数据集中存储有多个人的多张照片,一般在数据集内按人排列N个目录文件夹(也即对应N个人),每个目录文件夹内具有M张照片(同一个目录下的即认为同一个人),N和M均为大于1的正整数。由于照片/图片可能来源于不同的渠道,例如不同分辨率的摄像设备,不同环境下的采集,或者通过不同的压缩比进行文件压缩,或者存在误存错存的现象,对于后续的数据训练带来较大的影响,因此需要进行数据清洗。
在可选择的例子中,数据集内按照人来排列,例如每个人对应一个目录文件夹,一共N个目录文件夹。每个目录文件夹中存放M个当前人的一张或者多张照片(可能存在相同人在不同目录以及不同人在同一个目录的情况)。文件名没有影响,可以不同目录下有相同的文件名。
在训练的数据集准备好以后,可以开始提前进行预先的参数配置。参数配置的竖直将影响西清洗的效率和结果。在可选的例子中,配置的参数包括:
<ImagePath>"./face_detection"</ImagePath><!--数据集所在的文件夹-->
<FeaturePath>"./Result/result_feature.txt"</FeaturePath><!--保存的特征文件列表路径-->
<AvgScore>80</AvgScore><!--疑似图片平均分数阈值-->
<FileMinNum>10</FileMinNum><!--文件夹中图片个数最小值-->
<FileMaxNum>20</FileMaxNum><!--文件夹中图片个数最大值-->
<SameN>5</SameN><!--有多少个人来自同一个文件夹,进行合并-->
<Score>85</Score><!--比对的分数阈值-->
<ThreadMaxNum>1</ThreadMaxNum><!--最大同时检测线程数,可选最大16个-->
比对Score分数的配置可以参照当前人脸识别模型的ROC曲线提供的参考阈值分数来设置。
AvgScore的配置是比对结果的平均分数阈值,配合图片最大数和最小数配置,根据图片的增多AvgScore适当增加。
SameN的配置是目录中有多少个比对成功的人,可以进行合并操作。在一些实施例中,可以按照3-5人的范围来取值。
ThreadMaxNum的配置与当前运行的计算机系统(数据处理系统、设备终端)的配置有关系,如果机器配置很高,线程数可以配置多些,否则可以配置少些。一般配置是线程数为逻辑核数。
步骤2、首先遍历数据集目录文件夹,对所有照片进行人脸检测,对没有检测到人脸的照片进行删除操作,然后将存在人脸的照片进行提取特征值操作并保存。
优选是,将得到的特征值和路径保存到文本文件中,文件内容按照每行路径名+特征值数组保存。
例如,配置好参数后,我们在具体实现过程中,首先对非人脸的照片进行剔除。然后再进行特征值操作,将特征文件进行保存,保存到配置的FeaturePath路径下。文件特征值保存在result_feature.txt文件中,考虑到图片文件会有很多,所以保存的文件会有多个一次为result_feature.txt、result_feature_1.txt、result_feature_2.txt.......result_feature_n.txt。为了保证一个文件不要太大,以及保证读取时的速度。特征文件按照一行一个文件路径+一个人脸特征的方式存储,例如:./2018_select/0000001/1.jpg 0.108315,-0.0217341,-0.0288338....等等。如此,方便在调整配置参数之后进行重新清洗时可以不用重新提取特征,减少不必要的时间浪费,提高清洗效率。
步骤3、遍历每个目录文件夹进行去除异常处理,具体包括:对于某一个目录文件夹,将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对,得到全部的比对分数并且对分数取均值,如果得到的均值小于配置的第一分数阈值,则判断其可能为疑似问题照片。
进一步地,我们将疑似问题照片移到当前目录文件夹的AvgScore文件夹下,并对疑似问题照片进行再次确认审核处理,对于确定的问题照片进行删除处理,否则,还原到当前目录文件夹内。
在一些可选的例子中,确认审核处理可以由人工来进行筛选确认,因为这样的疑似数据已经比较少了,通过人工审核能够再短时间、高效率和准确的实现问题照片确认。
在另一些例子中,还可以通过1:1比对的方式,采用更加准确的识别算法进行再一次的判断,如果依然判断为疑似,则确认并删除,否则还原到当前目录文件夹内。
步骤4、对目录文件夹内照片完成去异常操作之后,对目录文件夹间的照片做合并操作,具体包括:对于某一目录文件夹,如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值,则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹,需进行合并操作,将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中,格式按照当前路径__目标路径,其中P≤M。
如前述的,预先配置参数,包括前述的第一分数阈值以及这里的第二分数阈值,第一分数阈值为疑似图片平均分数阈值,第二分数阈值为采用人脸识别模型进行识别比对的分数阈值。
这里的第二分数阈值,优选可以根据人脸识别模型的ROC曲线提供的参考阈值分数来设置。
参数P表示合并操作阈值,是指目录文件夹中有多少个比对成功的人即进行合并操作。在可选的例子中,参数P取值为3-5。
步骤5、根据Result目录文件夹中的Sam.txt文本文件,对需要合并的文件夹信息进行照片审核,查看挑选出的需要合并的每对文件夹是不是对应的同一个人,并且对误检的目录文件夹将相应的记录删除,保留正确的将路径信息。
在步骤5中,与前述审核类似的,可以通过人工或者进一步识别的方式来实现综合判断检验,实现快速的确认,而且时间、数据量可控。
步骤6、将原始的数据集重新整理:读取Result目录文件夹下的Sam.txt文件,保留下来的路径信息对每一行进行解析,将目标目录文件夹下的照片文件拷贝到当前目录文件夹下,如果有重名的情况,则对照片文件重新命名,最后删除目标目录文件夹下的照片文件以及目标目录文件夹。
在可选的方式中,可通过脚本将原先的数据集进行合并操作,将目标目录的文件拷贝到当前目录,遇到重名的文件进行重命名操作,最后删除目标目录下的文件和目录。如此,最终完成一次数据清洗,得到相对较为干净的数据,去除其中的非人脸的照片、同个目录下不同人的、不同目录相同人的的情况。
根据本发明的改进,还提出一种人脸图像数据库的数据集清洗系统,结合图1以及上述实施例的清洗过程,数据集清洗系统包括:
用于输入用于人脸识别模型训练的数据集的模块,所述数据集内存储有按人排列的N个目录文件夹,每个目录文件夹内具有M张照片,N和M均为大于1的正整数;
用于遍历数据集目录文件夹、对所有照片进行预处理的模块,所述预处理包括对所有照片进行人脸检测,对没有检测到人脸的照片进行删除操作,然后将存在人脸的照片进行提取特征值操作并保存;
用于遍历每个目录文件夹进行去除异常处理的模块,所述去除异常处理包括:对于某一个目录文件夹,将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对,得到全部的比对分数并且对分数取均值,如果得到的均值小于配置的第一分数阈值,则判断其可能为疑似问题照片;
用于对去除异常后的目录文件夹进行合并操作的模块,所述合并操作包括:对于某一目录文件夹,如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值,则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹,需进行合并操作,将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中,格式按照当前路径__目标路径,其中P≤M;
用于根据Result目录文件夹中的Sam.txt文本文件,对需要合并的文件夹信息进行照片审核的模块,用以查看挑选出的需要合并的每对文件夹是不是对应的同一个人,并且对误检的目录文件夹将相应的记录删除,保留正确的将路径信息;
用于将原始的数据集重新整理的模块,用以读取Result目录文件夹下的Sam.txt文件,保留下来的路径信息对每一行进行解析,将目标目录文件夹下的照片文件拷贝到当前目录文件夹下,如果有重名的情况,则对照片文件重新命名,最后删除目标目录文件夹下的照片文件以及目标目录文件夹。
更加优选的,所述用于遍历数据集目录文件夹、对所有照片进行预处理的模块还被设置成用以将得到的特征值和路径保存到文本文件中,文件内容按照每行路径名+特征值数组保存。
更加优选的,所述用于遍历每个目录文件夹进行去除异常处理的模块还被设置成用以将疑似问题照片移到当前目录文件夹的AvgScore文件夹下,并对疑似问题照片进行再次确认审核处理,对于确定的问题照片进行删除处理,否则还原到当前目录文件夹内。
更加优选的,所述系统更加包括:
预先配置参数的模块,所述参数包括所述第一分数阈值以及第二分数阈值,所述第一分数阈值为疑似图片平均分数阈值,第二分数阈值为采用人脸识别模型进行识别比对的分数阈值。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (11)

1.一种人脸图像数据库的数据集清洗方法,其特征在于,所述数据集清晰方法包括:
步骤1、提供用于人脸识别模型训练的数据集,数据集内存储有按人排列的N个目录文件夹,每个目录文件夹内具有M张照片,N和M均为大于1的正整数;
步骤2、首先遍历数据集目录文件夹,对所有照片进行人脸检测,对没有检测到人脸的照片进行删除操作,然后将存在人脸的照片进行提取特征值操作并保存;
步骤3、遍历每个目录文件夹进行去除异常处理,具体包括:对于某一个目录文件夹,将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对,得到全部的比对分数并且对分数取均值,如果得到的均值小于配置的第一分数阈值,则判断其可能为疑似问题照片;
步骤4、对目录文件夹内照片完成去异常操作之后,对目录文件夹间的照片做合并操作,具体包括:对于某一目录文件夹,如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值,则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹,需进行合并操作,将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中,格式按照当前路径__目标路径,其中P≤M;
步骤5、根据Result目录文件夹中的Sam.txt文本文件,对需要合并的文件夹信息进行照片审核,查看挑选出的需要合并的每对文件夹是不是对应的同一个人,并且对误检的目录文件夹将相应的记录删除,保留正确的将路径信息;
步骤6、将原始的数据集重新整理:读取Result目录文件夹下的Sam.txt文件,保留下来的路径信息对每一行进行解析,将目标目录文件夹下的照片文件拷贝到当前目录文件夹下,如果有重名的情况,则对照片文件重新命名,最后删除目标目录文件夹下的照片文件以及目标目录文件夹。
2.根据权利要求1所述的人脸图像数据库的数据集清洗方法,其特征在于,所述步骤2中,还包括:
将得到的特征值和路径保存到文本文件中,文件内容按照每行路径名+特征值数组保存。
3.根据权利要求1所述的人脸图像数据库的数据集清洗方法,其特征在于,所述步骤3中,还包括:
将疑似问题照片移到当前目录文件夹的AvgScore文件夹下,并对疑似问题照片进行再次确认审核处理,对于确定的问题照片进行删除处理,否则还原到当前目录文件夹内。
4.根据权利要求1-3中任意一项所述的人脸图像数据库的数据集清洗方法,其特征在于,所述方法更加包括:
预先配置参数,包括所述第一分数阈值以及第二分数阈值,所述第一分数阈值为疑似图片平均分数阈值,第二分数阈值为采用人脸识别模型进行识别比对的分数阈值。
5.根据权利要求4所述的人脸图像数据库的数据集清洗方法,其特征在于,所述第二分数阈值根据人脸识别模型的ROC曲线提供的参考阈值分数来设置。
6.根据权利要求1所述的人脸图像数据库的数据集清洗方法,其特征在于,所述步骤4中,所述参数P表示合并操作阈值,是指目录文件夹中有多少个比对成功的人即进行合并操作。
7.根据权利要求1所述的人脸图像数据库的数据集清洗方法,其特征在于,所述参数P,取值为3-5。
8.一种人脸图像数据库的数据集清洗系统,其特征在于,所述数据集清洗系统包括:
用于输入用于人脸识别模型训练的数据集的模块,所述数据集内存储有按人排列的N个目录文件夹,每个目录文件夹内具有M张照片,N和M均为大于1的正整数;
用于遍历数据集目录文件夹、对所有照片进行预处理的模块,所述预处理包括对所有照片进行人脸检测,对没有检测到人脸的照片进行删除操作,然后将存在人脸的照片进行提取特征值操作并保存;
用于遍历每个目录文件夹进行去除异常处理的模块,所述去除异常处理包括:对于某一个目录文件夹,将每个选中的目录文件夹下的照片与目录文件夹内的其他照片进行人别识别特征比对,得到全部的比对分数并且对分数取均值,如果得到的均值小于配置的第一分数阈值,则判断其可能为疑似问题照片;
用于对去除异常后的目录文件夹进行合并操作的模块,所述合并操作包括:对于某一目录文件夹,如果当前目录文件夹中存在P个照片对应的人与目标目录文件夹中的人相似度超过配置的第二分数阈值,则认为当前目录文件夹和目标目录文件夹为同一个目录文件夹,需进行合并操作,将需要合并的目录文件夹信息记录在Result目录文件夹下的Sam.txt文本文件中,格式按照当前路径__目标路径,其中P≤M;
用于根据Result目录文件夹中的Sam.txt文本文件,对需要合并的文件夹信息进行照片审核的模块,用以查看挑选出的需要合并的每对文件夹是不是对应的同一个人,并且对误检的目录文件夹将相应的记录删除,保留正确的将路径信息;
用于将原始的数据集重新整理的模块,用以读取Result目录文件夹下的Sam.txt文件,保留下来的路径信息对每一行进行解析,将目标目录文件夹下的照片文件拷贝到当前目录文件夹下,如果有重名的情况,则对照片文件重新命名,最后删除目标目录文件夹下的照片文件以及目标目录文件夹。
9.根据权利要求8所述的人脸图像数据库的数据集清洗系统,其特征在于,所述用于遍历数据集目录文件夹、对所有照片进行预处理的模块还被设置成用以将得到的特征值和路径保存到文本文件中,文件内容按照每行路径名+特征值数组保存。
10.根据权利要求8所述的人脸图像数据库的数据集清洗系统,其特征在于,所述用于遍历每个目录文件夹进行去除异常处理的模块还被设置成用以将疑似问题照片移到当前目录文件夹的AvgScore文件夹下,并对疑似问题照片进行再次确认审核处理,对于确定的问题照片进行删除处理,否则还原到当前目录文件夹内。
11.根据权利要求8所述的人脸图像数据库的数据集清洗系统,其特征在于,所述系统更加包括:
预先配置参数的模块,所述参数包括所述第一分数阈值以及第二分数阈值,所述第一分数阈值为疑似图片平均分数阈值,第二分数阈值为采用人脸识别模型进行识别比对的分数阈值。
CN201810818306.6A 2018-07-24 2018-07-24 人脸图像数据库的数据集清洗方法与系统 Active CN108932343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810818306.6A CN108932343B (zh) 2018-07-24 2018-07-24 人脸图像数据库的数据集清洗方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810818306.6A CN108932343B (zh) 2018-07-24 2018-07-24 人脸图像数据库的数据集清洗方法与系统

Publications (2)

Publication Number Publication Date
CN108932343A true CN108932343A (zh) 2018-12-04
CN108932343B CN108932343B (zh) 2020-03-27

Family

ID=64444209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810818306.6A Active CN108932343B (zh) 2018-07-24 2018-07-24 人脸图像数据库的数据集清洗方法与系统

Country Status (1)

Country Link
CN (1) CN108932343B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635148A (zh) * 2018-12-14 2019-04-16 深圳英飞拓科技股份有限公司 人脸图片存储方法及装置
CN110321971A (zh) * 2019-07-12 2019-10-11 北京迈格威科技有限公司 图像数据清洗方法、图像处理方法及装置
CN111079648A (zh) * 2019-12-16 2020-04-28 北京旷视科技有限公司 数据集清洗方法、装置和电子系统
CN111680638A (zh) * 2020-06-11 2020-09-18 深圳北斗应用技术研究院有限公司 一种乘客路径识别方法和基于该方法的客流清分方法
CN112000621A (zh) * 2019-05-27 2020-11-27 北京君正集成电路股份有限公司 一种不同人脸识别的样本库的合并方法
CN112001207A (zh) * 2019-05-27 2020-11-27 北京君正集成电路股份有限公司 一种人脸识别样本库的优化方法
CN112115285A (zh) * 2019-06-21 2020-12-22 杭州海康威视数字技术股份有限公司 图片清洗方法及装置
WO2021098801A1 (en) * 2019-11-20 2021-05-27 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Data cleaning device, data cleaning method and face verification method
CN112990130A (zh) * 2021-04-27 2021-06-18 南京甄视智能科技有限公司 训练样本的数据清洗方法、装置及一种分类器
CN113449713A (zh) * 2021-09-01 2021-09-28 北京美摄网络科技有限公司 一种清洗人脸检测模型的训练数据的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372182A (zh) * 2016-08-30 2017-02-01 浪潮(北京)电子信息产业有限公司 一种文件管理方法、系统及云平台
CN106815223A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 一种海量图片管理方法和装置
CN106844412A (zh) * 2016-11-02 2017-06-13 厦门中控生物识别信息技术有限公司 一种人脸数据收集方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815223A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 一种海量图片管理方法和装置
CN106372182A (zh) * 2016-08-30 2017-02-01 浪潮(北京)电子信息产业有限公司 一种文件管理方法、系统及云平台
CN106844412A (zh) * 2016-11-02 2017-06-13 厦门中控生物识别信息技术有限公司 一种人脸数据收集方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635148B (zh) * 2018-12-14 2021-06-15 深圳英飞拓科技股份有限公司 人脸图片存储方法及装置
CN109635148A (zh) * 2018-12-14 2019-04-16 深圳英飞拓科技股份有限公司 人脸图片存储方法及装置
CN112001207A (zh) * 2019-05-27 2020-11-27 北京君正集成电路股份有限公司 一种人脸识别样本库的优化方法
CN112001207B (zh) * 2019-05-27 2024-05-28 北京君正集成电路股份有限公司 一种人脸识别样本库的优化方法
CN112000621A (zh) * 2019-05-27 2020-11-27 北京君正集成电路股份有限公司 一种不同人脸识别的样本库的合并方法
CN112115285A (zh) * 2019-06-21 2020-12-22 杭州海康威视数字技术股份有限公司 图片清洗方法及装置
CN110321971A (zh) * 2019-07-12 2019-10-11 北京迈格威科技有限公司 图像数据清洗方法、图像处理方法及装置
WO2021098801A1 (en) * 2019-11-20 2021-05-27 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Data cleaning device, data cleaning method and face verification method
EP4055519A4 (en) * 2019-11-20 2023-01-04 Guangdong Oppo Mobile Telecommunications Corp., Ltd. DATA CLEANING DEVICE, DATA CLEANING METHOD AND FACE VERIFICATION METHOD
CN111079648A (zh) * 2019-12-16 2020-04-28 北京旷视科技有限公司 数据集清洗方法、装置和电子系统
CN111680638A (zh) * 2020-06-11 2020-09-18 深圳北斗应用技术研究院有限公司 一种乘客路径识别方法和基于该方法的客流清分方法
CN111680638B (zh) * 2020-06-11 2020-12-29 深圳北斗应用技术研究院有限公司 一种乘客路径识别方法和基于该方法的客流清分方法
CN112990130A (zh) * 2021-04-27 2021-06-18 南京甄视智能科技有限公司 训练样本的数据清洗方法、装置及一种分类器
CN112990130B (zh) * 2021-04-27 2021-07-23 南京甄视智能科技有限公司 训练样本的数据清洗方法、装置及一种分类器
CN113449713A (zh) * 2021-09-01 2021-09-28 北京美摄网络科技有限公司 一种清洗人脸检测模型的训练数据的方法和装置

Also Published As

Publication number Publication date
CN108932343B (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN108932343A (zh) 人脸图像数据库的数据集清洗方法与系统
CN108319938B (zh) 用于高性能人脸识别系统的高质量训练数据准备系统
Afzal et al. Cutting the error by half: Investigation of very deep cnn and advanced training strategies for document image classification
US20210240975A1 (en) Document spatial layout feature extraction to simplify template classification
CN110472082B (zh) 数据处理方法、装置、存储介质及电子设备
CN104035839B (zh) Android系统隐私数据恢复实现方法
WO2012141655A1 (en) In-video product annotation with web information mining
EP2502185A1 (en) Automatically mining person models of celebrities for visual search applications
CN109241310B (zh) 人脸图像数据库的数据去重方法与系统
CN109635148B (zh) 人脸图片存储方法及装置
CN110110325B (zh) 一种重复案件查找方法和装置、计算机可读存储介质
CN104598881B (zh) 基于特征压缩与特征选择的歪斜场景文字识别方法
CN109359090A (zh) 基于卷积神经网络的文件碎片分类方法及系统
EP2013776A1 (fr) Procede de de-doublonnage rapide d&#39;un ensemble de documents ou d&#39;un ensemble de donnees contenues dans un fichier
Lee et al. Block based smart carving system for forgery analysis and fragmented file identification
Azeem The Data Carving-The Art of Retrieving Deleted Data as Evidence
CN112597862B (zh) 一种用于人脸数据清洗的方法与设备
Ruriawan et al. Development of digital evidence collector and file classification system with K-Means algorithm
Bipin Nair et al. Deteriorated image classification model for malayalam palm leaf manuscripts
CN101425141B (zh) 图像识别装置和图像识别方法
Yu et al. Convolutional neural networks for figure extraction in historical technical documents
CN108882033B (zh) 一种基于视频语音的人物识别方法、装置、设备和介质
Moll et al. Segmentation-based retrieval of document images from diverse collections
CN107169065A (zh) 一种特定内容的去除方法和装置
Chen et al. A novel data recovery algorithm for fat32 file system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province

Patentee after: Xiaoshi Technology (Jiangsu) Co.,Ltd.

Address before: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province

Patentee before: NANJING ZHENSHI INTELLIGENT TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder