CN108614894A - 一种基于最大生成树的人脸识别数据库构成方法 - Google Patents
一种基于最大生成树的人脸识别数据库构成方法 Download PDFInfo
- Publication number
- CN108614894A CN108614894A CN201810441046.5A CN201810441046A CN108614894A CN 108614894 A CN108614894 A CN 108614894A CN 201810441046 A CN201810441046 A CN 201810441046A CN 108614894 A CN108614894 A CN 108614894A
- Authority
- CN
- China
- Prior art keywords
- picture
- face
- spanning tree
- group
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Abstract
本发明属于人脸识别数据库技术领域,具体的说是涉及一种基于最大生成树的人脸识别数据库构成方法。本发明总的技术方案为先根据图片的标签进行分组,再根据每组图片的偏转角度以及平均相似度选取基准图片,采用最大生成树的方式对每组图片进行组内清理,剔除标签错误的图片。根据基准图片进行组间合并,最后选取阈值进行组内去重。本发明的有益效果为,明整体操作简单,采用自动化的方式实现图片清理,能提升清理效果,消除数据冗余,且能保证多个海量人脸数据库的有效融合,减少工作量。
Description
技术领域
本发明属于人脸识别数据库技术领域,具体的说是涉及一种基于最大生成树的人脸识别数据库构成方法。
背景技术
生物识别技术针对的是某个个体,并且不同个体的生物特征在固定时期内也是相对稳定的,关键是这种技术不需要随身携带,更不用设置复杂的密码。因此采用生物识别技术进行身份鉴定既安全同时也十分方便,所以它被广泛的应用于各种需要身份鉴定的领域,比如人脸识别、身份证、驾驶执照、护照等可以证明个人身份的证件。很多场合使用生物识别技术完成安全检查,如海关、公安、银行、保密机关等
人脸识别技术的应用。我们的日常生活中最常见的识别手段就是根据不同人的面部特征差异来区分不同的个体。由于人脸包含了大量丰富的生物特征,因此人脸识别已经在当今社会的个体身份识别当中占有举足轻重的位置
伴随着大数据和深度学习的发展,神经网络深受瞩目,并且在图像分类、语音识别等应用中获得了远超经典方法的结果。因此研究者们致力于不断改进网络结构,同时扩大训练样本规模。人脸识别的一个基本的趋势是:训练数据规模越来越大,识别精度越来越高。
现有的数据集构建融合系统,通常需要大量的人工干预。不仅效率低,而且范围小,人工不能挑选出太多的样本,也有肉眼无法分辨的噪音图片。
发明内容
本发明所要解决的,就是针对上述问题,提出一种基于最大生成树的面向身份识别的海量人脸数据库的自动构成方法。
本发明采用的技术方案是:
基于最大生成树的人脸识别数据库构成方法,其特征在于,包括以下步骤:
S1、搭建分布式服务器,即采用多个服务器同时处理多个人脸数据库;
S2、每个服务器分别对获取的每组人脸图片进行预处理、提取特征、计算相似度和选取基准人脸;图片的预处理包括:人脸检测,人脸对齐,图片归一化,偏转角度α计算,用现有的人脸识别模型提取图片特征Feature,计算相似度S;
S3、根据步骤S2的预处理结果,对人脸检测进行修正,获得目标人脸图片,具体为:
对相似度低于阈值的图片,进行重检测;
对检测到单张人脸的图片,直接删除;
对检测到多个人脸的图片,分别提取每个人脸的特征,并与基准人脸进行对比获得相似度,将相似度最大的人脸作为检测结果;
S4、根据步骤S3的结果,采用采用kruskal算法或Prim算法生成最大生成树,并剔除不属于最大生成树的噪点图片;
S5、将多个服务器上的数据库进行融合,构建海量人脸数据库;每组基准图片和其他组基准图片StdImg计算相似度S,如果相似度S>T,则进行合并。阈值的设定为机器和手工预先挑选。
S6、消除步骤S5中海量人脸数据库中的冗余图片,获得目标人脸识别数据库;
重新计算图片融合后的组内相似度,设定阈值,此阈值代表重复图片,将高于阈值的图片删除,只保留一张,最终消除数据冗余。
本发明总的技术方案先根据图片的标签进行分组,再根据每组图片的偏转角度以及平均相似度选取基准图片,采用最大生成树的方式对每组图片进行组内清理,剔除标签错误的图片。根据基准图片进行组间合并,最后选取阈值进行组内去重。
进一步的,选择基准人脸的具体方法为:
根据同一组人脸图片的偏转角度以及平均相似度的加权值选取。
进一步的,剔除不属于最大生成树的噪点图片的具体方法为:
去除相似度小于预设的阈值的边,剔除不属于最大生成树的结点:
标记相同的图片放在同一组下,组内每张照片都为一个结点,结点之间的相似度则为权重W,并预先设定阈值T,如果W>T则添加进去,生成组内最大生成树。并将不在最大生成树上的图片结点直接剔除掉。
本发明的有益效果是:
本发明整体操作简单,采用自动化的方式实现图片清理,能提升清理效果,消除数据冗余,且能保证多个海量人脸数据库的有效融合,减少工作量。
附图说明
图1是分布式系统框架图;
图2是总体流程图;
图3是基于特征的标准人脸选取流程图;
图4是错误人脸框的自适应选取流程图。
具体实施方式
下面结合附图和实施例,详细描述本发明的技术方案:
实施例1:
如图1所示,基于最大生成树的面向身份识别的海量人脸数据库的自动构成系统,包括依次进行的以下步骤:步骤一、搭建分布式服务器。搭建分布式存储服务器,存储多个人脸数据库;搭建分布式计算服务器,部署人脸检测、人脸识别等相关程序。步骤二、图片预处理,提取特征Feature,计算相似度S,选取基准人脸StdImg。其中,图片预处理是对每一个人脸图片进行人脸检测、人脸对齐、计算偏转角度。将每个人脸图片的偏转角度和平均相似度进行加权求和,以此选取每组图片的基准人脸。步骤三、解决人脸检测错误的问题。根据相似度矩阵求得每个人脸图片的平均相似度,平均相似度低于阈值的图片再次进行人脸检测,若检测到多个人脸,则一一保存,并提取特征,与基准人脸对比求得相似度,选取正确人脸即相似度最大的人脸图片。步骤四、生成最大生成树,剔除不属于最大生成树的噪点图片。生成最大生成树采用kruskal算法或Prim算法,去除相似度小于阈值的边,剔除不属于最大生成树的结点。步骤五、数据库融合,自动构建海量人脸数据库。每组基准图片和其他组基准图片计算相似度,如果相似度高于阈值,则进行合并。阈值的设定为机器和手工预先挑选。步骤六、消除数据冗余。重新计算图片融合后的组内相似度,设定阈值,此阈值代表重复图片,将高于阈值的图片删除,只保留一张,最终消除数据冗余。
本实施例在服务器端部署,将人脸数据传输以及人脸识别等算法的一整套流程都部署在服务器端。将收集的图片进行标记整合,每个人有自己独特的编号,设置整理的数据集编号是连续的。
本发明的提取特征,是利用现在基于深度学习的人脸识别算法实现的。首先,进行图片的预处理,即实现大批量的人脸检测、人脸对齐、偏转角度计算、归一化处理。利用现有效果最好的网络,人脸图片作为输入,生成相应的特征向量。并两两计算特征向量的相似度,常见的有余弦距离,欧式距离等。
本实施例在选取基准图片时,首先考虑到每张图片与组内其它图片都要十分相似,但是选取的有可能是侧脸图片,进行后续步骤时,由于选取的基准图片特征不具有充分的代表性,最终影响图片组的合并。因此考虑到姿态变化的影响,进行偏转角度和相似度的加权处理。
本发明中提到的步骤四中相似度低于阈值,肯定是噪音图片,但是,噪音图片的生成可能是因为人脸检测算法错误引起的,可能将不是人脸的地方检测成人脸,也可能是检测到多张人脸,在保存人脸时选取错误。这是不可避免的,为了保证样本的多样性,将每张图片检测到的多张人脸一一保存下来,做归一化处理,并提取图片特征。
本项目中提到的步骤四,具体实施如下:首先,组内每张图片都为一个结点,图片两两之间的相似度则为权重,根据相似度的大小,依次添加相应的结点。并预先设定阈值,低于阈值的结点则不添加进去。
本发明提出的步骤五,数据库融合,自动构建海量人脸数据库。数据库融合,是采用基准图片之间两两比对,预先设定相应的阈值,阈值的作用是判断是否为同一个人,每个数据集进行融合时阈值都不相同。因此,本发明在进行数据融合时,应针对不同的数据集灵活的变换阈值。
本发明提出的步骤六,消除数据冗余,多个海量数据进行融合后,可能会造成数据的冗余。很多数据集都是直接从网上爬虫得到的图片,多个数据集不可避免出现相同的人,组内也可能存在同一场景同一姿态的多张图片,因此,去重是不可缺少的关键步骤。
Claims (3)
1.基于最大生成树的人脸识别数据库构成方法,其特征在于,包括以下步骤:
S1、搭建分布式服务器,即采用多个服务器同时处理多个人脸数据库;
S2、每个服务器分别对获取的每组人脸图片进行预处理、提取特征、计算相似度和选取基准人脸图片;
S3、根据步骤S2的预处理结果,对人脸检测进行修正,获得目标人脸图片,具体为:
对相似度低于阈值的图片,进行重检测;
对检测到单个人脸的图片,直接删除;
对检测到多个人脸的图片,分别提取每个人脸的特征,并与基准人脸进行对比获得相似度,将相似度最大的人脸作为检测结果;
S4、根据步骤S3的结果,生成最大生成树,并剔除不属于最大生成树的噪点图片;
S5、将多个服务器上的数据库进行融合,构建海量人脸数据库;
S6、消除步骤S5中海量人脸数据库中的冗余图片,获得目标人脸识别数据库:
重新计算图片融合后的组内相似度,设定阈值,此阈值代表重复图片,将高于阈值的图片删除,只保留一张,消除数据冗余。
2.根据权利要求1所述的基于最大生成树的人脸识别数据库构成方法,其特征在于,所述步骤S2中,选择基准人脸的具体方法为:
根据同一组人脸图片的偏转角度以及平均相似度的加权值选取。
3.根据权利要求2所述的基于最大生成树的人脸识别数据库构成方法,其特征在于,所述步骤S4中,剔除不属于最大生成树的噪点图片的具体方法为:
去除相似度小于预设的阈值的边,剔除不属于最大生成树的结点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810441046.5A CN108614894B (zh) | 2018-05-10 | 2018-05-10 | 一种基于最大生成树的人脸识别数据库构成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810441046.5A CN108614894B (zh) | 2018-05-10 | 2018-05-10 | 一种基于最大生成树的人脸识别数据库构成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108614894A true CN108614894A (zh) | 2018-10-02 |
CN108614894B CN108614894B (zh) | 2021-07-02 |
Family
ID=63662585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810441046.5A Active CN108614894B (zh) | 2018-05-10 | 2018-05-10 | 一种基于最大生成树的人脸识别数据库构成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108614894B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079648A (zh) * | 2019-12-16 | 2020-04-28 | 北京旷视科技有限公司 | 数据集清洗方法、装置和电子系统 |
CN111325276A (zh) * | 2020-02-24 | 2020-06-23 | Oppo广东移动通信有限公司 | 图像分类方法及装置、电子设备、计算机可读存储介质 |
CN112257527A (zh) * | 2020-10-10 | 2021-01-22 | 西南交通大学 | 基于多目标融合与时空视频序列的手机检测方法 |
CN112287918A (zh) * | 2020-12-31 | 2021-01-29 | 湖北亿咖通科技有限公司 | 一种人脸识别方法、装置及电子设备 |
CN112507155A (zh) * | 2020-12-22 | 2021-03-16 | 哈尔滨师范大学 | 一种信息处理方法 |
JP2021516400A (ja) * | 2018-11-01 | 2021-07-01 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | データベース更新方法および装置、電子機器、コンピュータ記憶媒体 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140620A (zh) * | 2007-10-16 | 2008-03-12 | 上海博航信息科技有限公司 | 一种人脸识别系统 |
US8306257B2 (en) * | 2011-01-31 | 2012-11-06 | Seiko Epson Corporation | Hierarchical tree AAM |
US8379917B2 (en) * | 2009-10-02 | 2013-02-19 | DigitalOptics Corporation Europe Limited | Face recognition performance using additional image features |
CN105678697A (zh) * | 2015-12-30 | 2016-06-15 | 北京工业大学 | 一种基于dct域本征变换的人脸图像超分辨率重建方法 |
CN106874850A (zh) * | 2017-01-10 | 2017-06-20 | 广东工业大学 | 一种基于三维人脸点云特征点定位方法 |
-
2018
- 2018-05-10 CN CN201810441046.5A patent/CN108614894B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140620A (zh) * | 2007-10-16 | 2008-03-12 | 上海博航信息科技有限公司 | 一种人脸识别系统 |
US8379917B2 (en) * | 2009-10-02 | 2013-02-19 | DigitalOptics Corporation Europe Limited | Face recognition performance using additional image features |
US8306257B2 (en) * | 2011-01-31 | 2012-11-06 | Seiko Epson Corporation | Hierarchical tree AAM |
CN105678697A (zh) * | 2015-12-30 | 2016-06-15 | 北京工业大学 | 一种基于dct域本征变换的人脸图像超分辨率重建方法 |
CN106874850A (zh) * | 2017-01-10 | 2017-06-20 | 广东工业大学 | 一种基于三维人脸点云特征点定位方法 |
Non-Patent Citations (1)
Title |
---|
蒋强荣等: "基于生成树的人脸识别", 《北京工业大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021516400A (ja) * | 2018-11-01 | 2021-07-01 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | データベース更新方法および装置、電子機器、コンピュータ記憶媒体 |
CN111079648A (zh) * | 2019-12-16 | 2020-04-28 | 北京旷视科技有限公司 | 数据集清洗方法、装置和电子系统 |
CN111325276A (zh) * | 2020-02-24 | 2020-06-23 | Oppo广东移动通信有限公司 | 图像分类方法及装置、电子设备、计算机可读存储介质 |
CN112257527A (zh) * | 2020-10-10 | 2021-01-22 | 西南交通大学 | 基于多目标融合与时空视频序列的手机检测方法 |
CN112257527B (zh) * | 2020-10-10 | 2022-09-02 | 西南交通大学 | 基于多目标融合与时空视频序列的手机检测方法 |
CN112507155A (zh) * | 2020-12-22 | 2021-03-16 | 哈尔滨师范大学 | 一种信息处理方法 |
CN112507155B (zh) * | 2020-12-22 | 2022-02-11 | 哈尔滨师范大学 | 一种信息处理方法 |
CN112287918A (zh) * | 2020-12-31 | 2021-01-29 | 湖北亿咖通科技有限公司 | 一种人脸识别方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108614894B (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108614894A (zh) | 一种基于最大生成树的人脸识别数据库构成方法 | |
CN105894047B (zh) | 一种基于三维数据的人脸分类系统 | |
Sun et al. | Improving iris recognition accuracy via cascaded classifiers | |
US6944318B1 (en) | Fast matching systems and methods for personal identification | |
CN111126360A (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
US8914313B2 (en) | Confidence based vein image recognition and authentication | |
CN102156887A (zh) | 一种基于局部特征学习的人脸识别方法 | |
CN109635676A (zh) | 一种从视频中定位音源的方法 | |
CN102938065A (zh) | 基于大规模图像数据的人脸特征提取方法及人脸识别方法 | |
Kekre et al. | Performance Comparison for Face Recognition using PCA, DCT &WalshTransform of Row Mean and Column Mean | |
CN105488486B (zh) | 防止照片攻击的人脸识别方法及装置 | |
Agarwal et al. | An efficient back propagation neural network based face recognition system using haar wavelet transform and PCA | |
Wang et al. | A performance evaluation of shape and texture based methods for vein recognition | |
Prasad et al. | An efficient approach for fingerprint recognition | |
Wibowo et al. | Feature extraction using histogram of oriented gradient and hu invariant moment for face recognition | |
Yuliastuti et al. | Compact computer vision system for tropical wood species recognition based on pores and concentric curve | |
Sasikala | Bee Swarm based Feature Selection for Fake and Real Fingerprint Classification using Neural Network Classifiers. | |
CN112116012A (zh) | 一种基于深度学习的手指静脉即时注册、识别方法及系统 | |
Arora et al. | GMM for offline signature forgery detection | |
Kumar et al. | Face Recognition with decision tree using SVM and SURF | |
Ibad et al. | Application of Grayscale Co-occurrence Matrix (GLCM) Method for Classification of Quality Type of Guava Leaves as Traditional Medicine Using Neural Network Algorithm | |
Al-Hashimy | Face Recognition Using Elman Neural Network | |
Abdullah et al. | Iris recognition using wavelet transform and artificial neural networks | |
Anitha et al. | A novel bimodal biometric identification system based on finger geometry and palm print | |
Aeri et al. | Vein Patterns as Bio-Metric Identifier using Euclidean Distance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |