CN111931749B - 一种基于神经网络的人脸聚类方法以及装置 - Google Patents
一种基于神经网络的人脸聚类方法以及装置 Download PDFInfo
- Publication number
- CN111931749B CN111931749B CN202011081455.2A CN202011081455A CN111931749B CN 111931749 B CN111931749 B CN 111931749B CN 202011081455 A CN202011081455 A CN 202011081455A CN 111931749 B CN111931749 B CN 111931749B
- Authority
- CN
- China
- Prior art keywords
- face
- model
- picture
- clustering
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 35
- 238000001914 filtration Methods 0.000 claims abstract description 72
- 238000001514 detection method Methods 0.000 claims abstract description 70
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims description 40
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 abstract description 23
- 230000006870 function Effects 0.000 description 41
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 210000000697 sensory organ Anatomy 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例一种基于神经网络的人脸聚类方法以及装置,所述基于神经网络的人脸聚类方法包括:根据人脸检测模型确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片;根据人脸识别模型确定所述至少一张人脸图片中各张人脸图片的人脸特征向量;根据人脸过滤模型和所述人脸特征向量再次确认存在人脸的目标人脸图片;根据所述目标人脸图片对应的所述特征向量和人脸聚类模型完成人脸聚类。本申请的一些实施例通过在人脸检测和人脸特征提取之后,再次进行非人脸图片的过滤操作提升了人脸检测的准确度,进而提升了人脸聚类的准确度。
Description
技术领域
本申请涉及人脸聚类领域,具体而言,涉及一种基于神经网络的人脸聚类方法以及装置。
背景技术
卷积神经网络CNN能够利用大量的样本通过其自身深层的非线性网络结构来学习数据特征表示,具有较强的泛化能力。其独特的结构(局部感受野、权值共享、池化)大大减少了神经网络参数的数量,降低了复杂度,并对位移、缩放和旋转等扭曲具有一定的不变性。卷积神经网络CNN和采用全连接结构的传统人工神经网络相比,参数选择不过分依赖经验,且学习深度更深,与传统算法相比,对光照、表情、姿势等具有较好的鲁棒性,另外二维图像可直接作为网络的输入,避免了特征提取和分类过程中数据重建的复杂过程并在此基础上使用非监督式学习聚类算法实现大规模人脸聚类。
在人脸聚类问题中,很难使用一个网络解决所有人脸聚类问题,因此需要多个网络以及非监督式学习算法共同配合才能完成人脸聚类。由于其技术依赖路径长,要求每一个模块的准确度都非常高。而相关技术中,常见的问题是人脸检测模块计算量较大,同时经常产生假阳性样本(即将非人脸错误识别为人脸并当做人脸图片进行了截取),同时相关技术在聚类时所采用的计算多维向量距离的方法并不适用于人脸特征向量。由于聚类算法严重依赖于人脸检测模块以及聚类算法涉及的多维向量距离测量,因此当这两个模块的存在问题时,会严重影响人脸聚类的最终效果。
发明内容
本申请实施例的目的在于提供一种基于神经网络的人脸聚类方法以及装置,通过本申请一些实施例的人脸聚类方法可以提升人脸聚类的准确性。
第一方面,本申请的一些实施例提供一种基于神经网络的人脸聚类方法,所述基于神经网络的人脸聚类方法包括:根据人脸检测模型确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片;根据人脸识别模型确定所述至少一张人脸图片中各张人脸图片的人脸特征向量;根据人脸过滤模型和所述人脸特征向量再次确认存在人脸的目标人脸图片,其中,所述目标人脸图片属于所述至少一张人脸图片中的至少部分图片;根据所述目标人脸图片对应的所述特征向量和人脸聚类模型完成人脸聚类。
本申请的一些实施例通过在人脸检测和人脸特征提取之后,再次进行非人脸图片的过滤操作提升了人脸检测的准确度,进而提升了人脸聚类的准确度。
在本申请的一些实施例中,所述根据人脸检测模型确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片,包括:从所述输入图像中提取至少一张人脸的关键点信息以及区域坐标信息;根据所述关键点信息矫正人脸姿态,得到矫正后输入图像;根据所述区域坐标信息截取所述矫正后输入图像上的所述至少一张人脸中各张人脸,得到所述至少一张人脸图片。
本申请的一些实施例通过关键点提取和坐标识别来矫正并截取输入图像中存在的各张人脸图片。
在本申请的一些实施例中,所述根据人脸检测模型确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片,包括:对所述输入图像进行预处理得到第一尺寸预处理图像;将所述第一尺寸预处理图像输入所述人脸检测模型;根据设定阈值检测确认所述第一尺寸预处理图像上存在的所述至少一个人脸区域,得到所述至少一张人脸图片。
本申请的一些实施例通过对输入人脸检测模型的图像进行尺寸预处理可以在不降低人脸检测精度的情况下节省人脸检测网络的运行时间,提升了人脸检测的速度。
在本申请的一些实施例中,所述根据设定阈值检测确认所述第一尺寸预处理图像上存在的所述至少一个人脸区域,得到所述至少一张人脸图片之后,所述基于神经网络的人脸聚类方法包括:确认所述至少一张人脸图片的特征满足预设条件;将所述至少一张人脸图片进行局部处理后再输入所述人脸识别模型。
本申请的一些实施例通过对小尺寸图像和拍摄角度不满足要求的图像再次输入人脸检测模型进行人脸检测可以进一步提升人脸检测的准确度。
在本申请的一些实施例中,所述人脸识别模型是通过中心损失函数和交叉熵损失函数共同确定终止对ResNet网络模型的训练得到的。
本申请的一些实施例通过中心损失函数和交叉熵损失函数来训练人脸识别网络,训练出来的神经网络可以具备良好的人脸识别能力。
在本申请的一些实施例中,通过总损失值表征各次训练所述ResNet网络模型的训练结果,所述总损失值是由所述中心损失函数得到第一损失值和由所述交叉熵损失函数得到的第二损失值的加权求和得到的。
本申请的一些实施例通过加权求和融合两个损失函数的值,来确定是否继续训练人脸识别模型对应的网络模型,进而使得训练得到的人脸识别网络具有更好的人脸特征向量提取和识别的能力。
在一些实施例中,所述人脸过滤模型是通过将训练图片依次输入所述人脸识别模型和待训练人脸过滤模型对所述待训练人脸过滤模型进行训练得到的。
本申请的一些实施例通过迁移学习的方法,即将训练好的人脸识别模型作为人脸过滤模型的基础,单独训练人脸过滤模型,可以进一步提升人脸检测精度,删除被人脸检测模型识别为人脸的而并不包含人脸的图片,并最终提升人脸聚类的准确度。
在一些实施例中,所述人脸过滤模型属于基于卷积神经网络的二值分类器,被配置为确认所述特征向量表征的所述人脸图片上存在人脸。
本申请的一些实施例通过人脸过滤模型即二值分类器来再次确认人脸检测网络检测到的人脸图片中是否存在人脸,提升了人脸检测的准确性,并最终提升人脸聚类的准确度。
在一些实施例中,所述人脸聚类模型采用分级聚类算法对输入信息进行聚类处理,其中,所述分级聚类算法采用欧式距离的平方评估所述特征向量之间的相似性。
本申请的一些实施例在欧式距离的结果之后进行平方处理来确定两个特征向量的相似度进而确定两个特征向量表征的图片是否属于一类,通过本申请一些实施例的对欧氏距离进行平方处理之后得到的人脸聚类模型的聚类效果得到很大提升。
第二方面,本申请的一些实施例提供一种基于神经网络的人脸聚类装置,所述装置包括:人脸检测模块,被配置为确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片;人脸识别模块,被配置为确定所述至少一张人脸图片中各张人脸图片的人脸特征向量;人脸过滤模块,被配置为根据所述人脸特征向量再次确认存在人脸的目标人脸图片,其中,所述目标人脸图片属于所述至少一张人脸图片中的至少部分图片;人脸聚类模块,被配置为根据所述目标人脸图片对应的所述特征向量完成人脸聚类。
在一些实施例中,所述人脸聚类装置还包括:预处理模块,被配置为根据设定标准调整原始图像尺寸,得到所述输入图像。
在一些实施例中,所述人脸检测模块还被配置为确认检测得到的所述至少一张人脸图片的满足预设条件,并将所述至少一张人脸图片再次输入所述人脸检测模块进行检测。
第三方面,本申请的一些实施例提供一种人脸图像聚类网络,所述网络包括:用于对输入图像进行人脸检测的人脸检测网络;采用训练数据集、中心损失函数和交叉熵损失函数共同训练Resnet 网络得到的人脸识别网络;以及基于训练完成的所述人脸识别网络的输出数据训练基于卷积神经网络的二值分类器得到的人脸过滤网络。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于神经网络的人脸聚类系统组成框图;
图2为本申请实施例提供的训练人脸过滤模型的过程示意图;
图3为本申请实施例提供的一种基于神经网络的人脸聚类方法流程图;
图4本申请实施例提供的一种人脸过滤模型的网络结构图;
图5为本申请实施例提供的基于神经网络的人脸聚类方法流程示意图;
图6为本申请实施例提供的基于神经网络的人脸聚类装置组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
与相关技术的人脸聚类方法相比,本申请一些实施例对人脸检测后的人脸图片进行人脸识别所提取的人脸特征向量再进行一次人脸过滤,之后对过滤后剩余的人脸图片对应的人脸特征向量进行聚类处理,提升了聚类处理的准确性。也就是说,在本申请的实施例的人脸聚类方法中引入了人脸过滤模块,通过本申请实施例提供的训练待训练人脸过滤模型得到的人脸过滤模块有很强的人脸过滤功能(能够过滤掉非人脸图片),此外本申请的一些实施例还可以通过人脸过滤模型来大幅降低人脸检测模块的假阳性样本问题。在本申请的有一些实施例中,还提供了人脸聚类时计算多维人脸特征向量距离的算法,大大提高了人脸聚类的准确度。
下面结合附图说明本申请实施例提供的基于神经网络的人脸聚类方法、装置以及网络结构。
请参看图1,该图为本申请实施例提供的基于神经网络的人脸聚类系统组成框图,从图1可以看出,人脸聚类系统依次包括人脸检测模型100、人脸特征提取模型200、人脸过滤模型300以及人脸聚类模型400。
图1的人脸检测模型100接收输入图像并对输入图像进行人脸检测和截取,将截取的人脸图片集合A输入人脸特征提取模型200。之后,人脸特征提取模型200对截取的人脸图片集合A进行人脸特征向量提取并输出提取的人脸特征向量,其中,人脸特征提取模型200输出的人脸特征向量的个数与人脸图片集合A中包括的图片数量相同。人脸特征提取模型200将提取的人脸特征向量输入人脸过滤模型300,进行再次人脸识别,滤除非人脸的图片。图1的人脸图片集合筛选模块用于获取目标人脸图片对应的特征向量,该目标人脸图片是由人脸过滤模型300滤除非人脸的图片后的人脸图片集合A中的剩余图片。将筛选后剩余人脸图片的人脸特征向量输入人脸聚类模型400进行人脸聚类处理,输出聚类结果,即将同一个对象的图片划分为一组。需要说明的是,本申请实施例的人脸检测模型100、人脸特征提取模型200和人脸过滤模型300属于神经网络模型,但是本申请实施例并不限定具体的神经网络结构的层数。可以理解是,图1的人脸检测模型100、人脸特征提取模型200以及人脸过滤模型300均是根据损失函数和训练数据集进行多次训练后得到的。
下面阐述本申请实施例的人脸特征提取模型200以及人脸过滤模型300的训练过程。
作为一个示例,人脸特征提取模型200选择ResNet网络模型。为了提升ResNet网络模型的人脸特征提取(或称为人脸识别)准确度,在本申请的一些实施例中,通过中心损失函数和交叉熵损失函数共同确定是否终止对ResNet网络模型的训练。例如,通过总损失值表征各次训练所述ResNet网络模型后的训练结果,所述总损失值是由所述中心损失函数得到第一损失值和由所述交叉熵损失函数得到的第二损失值的加权求和得到的。
本申请的一些实施例之所以选择中心损失函数和交叉熵损失函数共同确定是否终止对ResNet网络模型的训练过程的原理阐述如下。交叉熵损失函数Cross Entropy Loss是图像识别和图像分类中准行业标准的损失函数,交叉熵损失函数Cross Entropy Loss用于图像分类。虽然交叉熵损失函数cross entropy loss 在图像分类识别领域已经达到了最佳水平, 但是还不足以应用在人脸识别,因为它产生的图像特征向量类间距离(欧式距离)、类内距离都不够小,这种类间距离虽然可以用于识别不同物种如猫、狗,但对处理人脸这种图像内容区别很细微的情况,准确度就会大幅下降。因此,本申请实施例的发明人又选择了能够对人脸特征进行处理的中心损失函数Center Loss,可以用来弥补上述交叉熵损失函数Cross Entropy Loss的缺陷。中心损失函数Center Loss的核心思想是:要求网络对相同人生成的征值差别尽可能的小,对于不同的人生成的特征值应该尽可能的大。这样就可以很好的弥补交叉熵损失函数Cross Entropy Loss的缺陷。本申请的一些实施例通过这两个损失函数来训练神经网络,得到人脸识别网络(或称为人脸特征提取网络)就可以具备良好的人脸识别能力。
作为一个示例,为了提升人脸过滤模型300对人脸的检测概率,本申请的实施例需要基于已经训练完成的人脸识别模型200来训练人脸过滤模型300。例如,人脸过滤模型300是通过将训练集的图片输入人脸特征提取模型200(或称为人脸识别模块)进行人脸特征识别后的数据作为待训练人脸过滤模型的训练数据对该待训练人脸过滤模型进行训练得到的。也就是说,所述人脸过滤模型是通过将训练图片依次输入所述人脸识别模型(已经训练完成,网络参数固定不变)和待训练人脸过滤模型对所述待训练人脸过滤模型进行训练得到的。本申请的一些实施例通过迁移学习的方法,即将训练好的人脸识别模型作为人脸过滤模型的基础,单独训练人脸过滤模型,可以进一步提升人脸检测精度,删除被人脸检测模型识别为人脸图片而并不包括人脸的图片,并最终提升人脸聚类的准确度。
如图2所示,本申请的一些实施例根据人脸识别网络(对应于图1的人脸特征提取模型200,该网络经过训练参数已经固定)和损失函数来对待训练人脸过滤模型(即参数可调整)进行多次训练,直至待训练的人脸过滤模型输出的分类结果满足设定条件则训练完成,得到图2的人脸过滤网络(具体的说是人脸过滤网络的参数得以确定),该人脸过滤网络对应于图1的人脸过滤模型300。
本申请的实施例并不限定图2的损失函数的具体类型。作为一个示例,图2的损失函数可以采用softmax损失函数。
下面结合图3示例性阐述基于图1的人脸聚类系统执行的人脸聚类方法。
如图3所示,该图提供了本申请的一些实施例的基于神经网络的人脸图像聚类方法,包括:S101,根据人脸检测模型确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片;S102,根据人脸识别模型确定所述至少一张人脸图片中各张人脸图片的人脸特征向量;S103,根据人脸过滤模型和所述人脸特征向量再次确认存在人脸的目标人脸图片,其中,所述目标人脸图片属于所述至少一张人脸图片中的至少部分图片;S104,根据所述目标人脸图片对应的所述特征向量和人脸聚类模型完成人脸聚类。
下面示例性阐述人脸检测模型相关实现方式。
在本申请的一些实施例中,S101包括(即有人脸检测模型100执行的操作):从所述输入图像中提取至少一张人脸的关键点信息以及区域坐标信息;根据所述关键点信息矫正人脸姿态,得到矫正后输入图像;根据所述区域坐标信息截取所述矫正后输入图像上的所述至少一张人脸中各张人脸,得到所述至少一张人脸图片。
为了提升人脸检测模型的处理速度,在本申请的一些实施例中,需要先对所述输入图像进行预处理得到第一尺寸(例如1024*1024像素)预处理图像,S101可以包括:将所述第一尺寸预处理图像输入所述人脸检测模型;根据设定阈值(例如,设阈值为90%)检测确认所述第一尺寸预处理图像上存在的所述至少一个人脸区域,得到所述至少一张人脸图片。
在本申请的一些实施例中,S101还包括:确认所述至少一张人脸图片的特征满足预设条件(例如,经人脸检测模型初步判断为人脸的图片上的人脸的角度大于设定度数);将所述至少一张人脸图片进行局部处理(例如,局部放大或者局部翻转并截取)后再输入所述人脸识别模型。
本申请的一些实施例并不限定人脸检测模型100所采用的神经网络模型的具体类型。作为一个示例,人脸检测模型100是基于MTCNN(Multi-task Cascaded ConvolutionalNetworks)模型实现的,MTCNN 网络模型内部有三个依次连接的子卷积神经网络CNN,分别是P-net网络、R-net网络和O-net。P-net子网络的输入为12x12x3 的小图片(即,长宽各12个像素,3是指三个颜色通道),输出结果包括:输入图片是否是人脸,输入图片上人脸的具体坐标,输入图片上的五官位置;R-net网络的输入大小为 24x24x3 (即,长宽各24 个像素,3是指三个颜色通道)的中图片,输出结果包括:判断输入中图片是否是人脸,输入图片的人脸具体坐标,输入中图片上的五官位置;O-net子网络的输入 48x48x3(即,长宽各48个像素,3是指三个颜色通道)的大图片,输出结果包括:判断输入大图片是否是人脸,大图片上人脸具体坐标,大图片上五官位置。
采用上述三个子网络实现人脸检测的方法包括:1),将一张照片(即输入图片)切分成很多小块,因为一张图中可能存在很多人脸,这些小块作为后面网络的输入;2)将切分得到的小图片进入P-net子网络,执行第一轮的粗滤,p-net 子网络过滤掉很多不是人脸的小图片,由于输入图片小,粗滤的执行速度最快;3)将 P-net 子网络认为是人脸的小块(即经P-net子网络初步判断为人脸的图片的人脸尺寸小于设定像素阈值,例如检测到的人脸尺寸小于40*40px),放大成中型图片(经过局部放大处理),输入 R-net子网络,过滤掉不是人脸的中型图片;由于中型图片比小型图片尺寸稍大,因此执行速度稍慢,但是由于向R-net子网络输入了更大的图片因此与p-net 子网络相比对人脸的检测精度更大。4)经过 R-net子网络之后仍旧保留下来的小图片,会被输入 O-net子网络, O-net 子网络的功能和R-net子网络的功能一样,只是精度最高,本申请的一些实施例将O-net 子网络的输出作为MTCNN 网络的输出,即作为步骤S101得到的至少一张人脸图片。
下面示例性阐述人脸识别模型(对应于图1的人脸特征提取模型200)。
人脸识别模型即采用上文记载的两类损失函数(即中心损失函数和交叉熵损失函数)训练好的ResNet网络模型,因此得到的人脸识别模型的人脸特征向量的提取和识别能力得到提高。
人脸识别模型的输入是由人脸检测模型100输出的人脸图片(即经过人脸检测抓取的图片),人脸识别模型的输出是人脸图片上各人脸的人脸特征向量。例如,人脸识别模型200是一个端到端的卷积神经网络,该卷积神经网络包括卷积层、池化层和全连接层。在人脸识别模型200对应的网络接收到人脸检测模型100 输出的人脸图片后,经过卷积、池化等操作,输出提取的与各张人脸图片对应的人脸特征向量。例如,人脸特征提取模型200输出一个长度为 128 的人脸特征向量。
下面示例性阐述人脸过滤模型300。
通过上文的描述可知人脸过滤模型是基于训练好的人脸识别模型来训练待训练人脸过滤模型的,因此训练得到的人脸过滤模型可以显著提升人脸检测的效果。
作为本申请的一个示例,人脸过滤模型包括基于卷积神经网络的二值分类器,该二值分类器被配置为确认由人脸识别模型获取的特征向量表征的所述人脸图片上存在人脸。
如图4所示,该图的人脸过滤模型基于卷积神经网络,该卷积神经网络包括依次包括卷积层、池化层和全连接层。图4的卷积神经网络通过对输入的由人脸识别模块获取的人脸特征向量进行处理,再次确认与人脸特征向量表征的人脸图片上是否存在人脸,并输出是否存在人脸的判断结果。也就是说,图4的人脸过滤模型的输入是人脸特征向量,输出是判断结果。例如,输出数字0表征输入的图像不包括人脸,用输出的数字1表征输入的图像包括人脸。
也就是说,与相关技术相比本申请的一些实施例在人脸识别网络的基础上,增加一个基于卷积神经网络的二值分类器, 经过训练该分类器用于确认图片中是否人脸。这是由于人脸检测模型100具有一定的错误率,它会将不是人脸的数据错误的识别成人脸,而本申请一些实施例可以在人脸识别模型之后再次进行人脸过滤,通过人脸过滤模块可以删除被人脸检测模型100误判为人脸的非人脸图片,并最终提升人脸聚类的准确度。
下面示例性阐述人脸聚类模块。
本申请的一些实施例的人脸聚类模块可以采用非监督式学习聚类算法,由于通常人脸类别数量(即人物的数量)不确定,本申请的一些实施例采用分级聚类算法Hierarchical Clustering。分级聚类算法核心思路是,每一个对象最开始都是一个簇cluster,每次按一定的准则将最相近的两个簇cluster合并生成一个新的簇cluster,如此往复,直至最终同一个人物的所有的对象(即输入人脸特征向量)都属于一个簇cluster。
分级聚类算法Hierarchical Clustering 需要指定两个重要的工作单元连接器Linkage 和度量器 Metrics。Metric 定义了如何度量两个特征向量的区别程度,而Linkage 定义了两个集合之间的区别程度。
需要说明的是,本申请的发明人发现直接使用欧式距离进行人脸具备的表现并不好。因此本申请的一些实施例在欧式距离的结果之后再进行平方处理,平方处理之后的Metric 聚类效果提升非常大。也就是说,在本申请的一些实施例中,所述人脸聚类模型采用分级聚类算法对输入信息进行聚类处理,其中,所述分级聚类算法采用欧式距离的平方评估所述特征向量之间的相似性。本申请的一些实施例在欧式距离的结果之后进行平方处理来确定两个特征向量的相似度进而确定两个特征向量表征的图片是否属于一类,通过本申请一些实施例的对欧氏距离进行平方处理之后得到的人脸聚类模型的聚类效果得到很大提升。
下面结合图5以一张具体的图片示例性阐述本申请实施例的人脸聚类方法的流程。
如图5所示,本申请一些事实实施例的人脸具备方法包括:获取输入图像(例如,由相机等摄像装置拍摄得到);将输入图像输入人脸检测模型100依次进行人脸关键点检测、人脸关键点矫正以及人脸区域裁剪,最终截取得到至少一张人脸图片;把截取得到的至少一张人脸图片输入人脸识别模型200,经人脸识别模型200识别后输出至少一张人脸图片对应的各张人脸特征向量;将至少一张人脸特征向量输入人脸过滤模型300进行人脸过滤,进而输出属于人脸的图片和不属于人脸的图像,获取属于人脸的图片对应的人脸特征向量,并将这些特征向量输入人脸聚类模型400进行聚类,输出人脸聚类结果。
请参考图6,图6示出了本申请实施例提供的基于神经网络的人脸聚类装置,应理解,该装置与上述图3方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块,该基于神经网络的人脸聚类装置,包括:人脸检测模块601,被配置为确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片;人脸识别模块602,被配置为确定所述至少一张人脸图片中各张人脸图片的人脸特征向量;人脸过滤模块603,被配置为根据所述人脸特征向量再次确认存在人脸的目标人脸图片,其中,所述目标人脸图片属于所述至少一张人脸图片中的至少部分图片;人脸聚类模块604,被配置为根据所述目标人脸图片对应的所述特征向量完成人脸聚类。
在一些实施例中,所述人脸聚类装置还包括:预处理模块,被配置为根据设定标准调整原始图像尺寸,得到所述输入图像。
在一些实施例中,所述人脸检测模块还被配置为确认检测得到的所述至少一张人脸图片的满足预设条件,并将所述至少一张人脸图片再次输入所述人脸检测模块进行检测。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述图3方法中的对应过程,在此不再过多赘述。
本申请的一些实施例提供一种人脸图像聚类网络,所述网络包括:用于对输入图像进行人脸检测的人脸检测网络;采用训练数据集、中心损失函数和交叉熵损失函数共同训练Resnet 网络得到的人脸识别网络;以及基于训练完成的所述人脸识别网络的输出数据训练基于卷积神经网络的二值分类器得到的人脸过滤网络。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (8)
1.一种基于神经网络的人脸聚类方法,其特征在于,所述基于神经网络的人脸聚类方法包括:
根据人脸检测模型确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片;
根据人脸识别模型确定所述至少一张人脸图片中各张人脸图片的人脸特征向量;
根据人脸过滤模型和所述人脸特征向量再次确认存在人脸的目标人脸图片;
根据所述目标人脸图片对应的所述特征向量和人脸聚类模型完成人脸聚类;
其中,所述人脸过滤模型是通过将训练图片依次输入已经训练完成的所述人脸识别模型和待训练人脸过滤模型对所述待训练人脸过滤模型进行训练得到的;
所述人脸过滤模型属于基于卷积神经网络的二值分类器,被配置为确认所述特征向量表征的所述人脸图片上存在人脸。
2.如权利要求1所述的基于神经网络的人脸聚类方法,其特征在于,所述根据人脸检测模型确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片,包括:
对所述输入图像进行预处理得到第一尺寸预处理图像;
将所述第一尺寸预处理图像输入所述人脸检测模型;
根据设定阈值检测确认所述第一尺寸预处理图像上存在的所述至少一个人脸区域,得到所述至少一张人脸图片。
3.如权利要求2所述的基于神经网络的人脸聚类方法,其特征在于,所述根据设定阈值检测确认所述第一尺寸预处理图像上存在的所述至少一个人脸区域,得到所述至少一张人脸图片之后,所述基于神经网络的人脸聚类方法包括:
确认所述至少一张人脸图片的特征满足预设条件;
将所述至少一张人脸图片进行局部处理后再输入所述人脸识别模型。
4.如权利要求1所述的基于神经网络的人脸聚类方法,其特征在于,所述人脸识别模型是通过中心损失函数和交叉熵损失函数共同确定终止对ResNet网络模型的训练得到的。
5.如权利要求4所述的神经网络的人脸聚类方法,其特征在于,通过总损失值表征各次训练所述ResNet网络模型的训练结果,所述总损失值是由所述中心损失函数得到第一损失值和由所述交叉熵损失函数得到的第二损失值的加权求和得到的。
6.如权利要求1所述的基于神经网络的人脸聚类方法,其特征在于,所述人脸聚类模型采用分级聚类算法对输入信息进行聚类处理,其中,所述分级聚类算法采用欧式距离的平方评估所述特征向量之间的相似性。
7.如权利要求1所述的基于神经网络的人脸聚类方法,其特征在于,
所述人脸检测模型是用于对输入图像进行人脸检测的人脸检测网络;
所述人脸识别模型是采用训练数据集、中心损失函数和交叉熵损失函数共同训练Resnet 网络得到的人脸识别网络;以及
所述人脸过滤模型是基于训练完成的所述人脸识别网络的输出数据训练基于卷积神经网络的二值分类器得到的人脸过滤网络。
8.一种基于神经网络的人脸聚类装置,其特征在于,所述装置包括:
人脸检测模型,被配置为确定并截取输入图像中的至少一个人脸区域,得到至少一张人脸图片;
人脸识别模型,被配置为确定所述至少一张人脸图片中各张人脸图片的人脸特征向量;
人脸过滤模型,被配置为根据所述人脸特征向量再次确认存在人脸的目标人脸图片,其中,所述目标人脸图片属于所述至少一张人脸图片中的至少部分图片;
人脸聚类模型,被配置为根据所述目标人脸图片对应的所述特征向量完成人脸聚类;
其中,所述人脸过滤模型是通过将训练图片依次输入已经训练完成的所述人脸识别模型和待训练人脸过滤模型对所述待训练人脸过滤模型进行训练得到的;
所述人脸过滤模型属于基于卷积神经网络的二值分类器,被配置为确认所述特征向量表征的所述人脸图片上存在人脸。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011081455.2A CN111931749B (zh) | 2020-10-12 | 2020-10-12 | 一种基于神经网络的人脸聚类方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011081455.2A CN111931749B (zh) | 2020-10-12 | 2020-10-12 | 一种基于神经网络的人脸聚类方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931749A CN111931749A (zh) | 2020-11-13 |
CN111931749B true CN111931749B (zh) | 2021-09-14 |
Family
ID=73333738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011081455.2A Expired - Fee Related CN111931749B (zh) | 2020-10-12 | 2020-10-12 | 一种基于神经网络的人脸聚类方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931749B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673345B (zh) * | 2021-07-20 | 2024-04-02 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 人脸识别方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809192B2 (en) * | 2005-05-09 | 2010-10-05 | Like.Com | System and method for recognizing objects from images and identifying relevancy amongst images and information |
CN108171135A (zh) * | 2017-12-21 | 2018-06-15 | 深圳云天励飞技术有限公司 | 人脸检测方法、装置及计算机可读存储介质 |
CN108171191B (zh) * | 2018-01-05 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 用于检测人脸的方法和装置 |
CN111091080A (zh) * | 2019-12-06 | 2020-05-01 | 贵州电网有限责任公司 | 人脸识别方法及系统 |
-
2020
- 2020-10-12 CN CN202011081455.2A patent/CN111931749B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN111931749A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580590B (zh) | 一种基于多语义特征融合网络的指静脉识别方法 | |
Chen et al. | Iris recognition based on human-interpretable features | |
Raja | Fingerprint recognition using minutia score matching | |
CN107423690B (zh) | 一种人脸识别方法及装置 | |
CN108009520B (zh) | 基于卷积变分自编码器网络的手指静脉识别方法及系统 | |
Li et al. | SAR image change detection using PCANet guided by saliency detection | |
CN109165593B (zh) | 用于生物认证的特征提取及匹配以及模板更新 | |
CN111368683B (zh) | 基于模约束CenterFace的人脸图像特征提取方法及人脸识别方法 | |
Funke et al. | Efficient automatic 3D-reconstruction of branching neurons from EM data | |
CN109934195A (zh) | 一种基于信息融合的反欺骗三维人脸识别方法 | |
Zois et al. | A comprehensive study of sparse representation techniques for offline signature verification | |
CN110991321B (zh) | 一种基于标签更正与加权特征融合的视频行人再识别方法 | |
CN105095880B (zh) | 一种基于lgbp编码的手指多模态特征融合方法 | |
CN101114335A (zh) | 全角度快速指纹识别方法 | |
Sagayam et al. | Authentication of biometric system using fingerprint recognition with euclidean distance and neural network classifier | |
CN105138974B (zh) | 一种基于Gabor编码的手指多模态特征融合方法 | |
CN108460390A (zh) | 一种基于特征学习的敏感图像识别方法 | |
Velliangira et al. | A novel forgery detection in image frames of the videos using enhanced convolutional neural network in face images | |
CN110852292B (zh) | 一种基于跨模态多任务深度度量学习的草图人脸识别方法 | |
CN109145704A (zh) | 一种基于人脸属性的人脸画像识别方法 | |
CN111931749B (zh) | 一种基于神经网络的人脸聚类方法以及装置 | |
CN112926557B (zh) | 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法 | |
CN113807237A (zh) | 活体检测模型的训练、活体检测方法、计算机设备及介质 | |
Dai et al. | Scene text detection based on enhanced multi-channels MSER and a fast text grouping process | |
CN117351514A (zh) | 一种基于前景分割的跨模态行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210914 |