发明内容
本发明提供了一种基于多图像输入的人脸识别方法及装置,以解决现有的无法单次获取清晰高质量人脸图像的非限制性环境中的人脸识别效率及质量有待改善的技术问题。
本发明采用的技术方案如下:
根据本发明的一个方面,提供一种基于多图像输入的人脸识别方法,本发明人脸识别方法包括:
接收待识别对象对应的多个人脸图像;
经多图像共享网络参数对接收的多个人脸图像进行特征提取得到中间特征;
对中间特征进行特征合并及融合,得到多图像融合特征;
计算多图像融合特征与预设模板照特征的距离阈值,根据该距离阈值得到人脸识别结果。
进一步地,多图像共享网络参数为多个人脸图像共用的多层堆叠卷积神经网络对应的底层参数。
进一步地,对中间特征进行特征合并及融合,得到多图像融合特征的步骤包括:
将经多层堆叠卷积神经网络获得的与多张人脸图像对应的中间特征联合在一起得到第二级特征,即第一级输出的单人脸特征假定特征长度为L,M张人脸图像作为输入,则联合后对应的第二级特征长度为M*L,并不改变第一级特征的值;
将联合后的第二级特征作为第三级特征的输入,在更高层进行卷积运算,此时网络参数训练融合了第一级的M张人脸的特征信息,并通过训练提取更显著的目标特征,在卷积层之后连接full-connect层作为网络最终输出特征,从而得到多图像融合特征,完成了多张人脸图像的端到端自适应学习。
进一步地,接收待识别对象对应的多个人脸图像包括:
接收待识别对象对应的多个原始人脸图像,其中,原始人脸图像包括对应不同时间、不同姿态、不同光照环境、不同遮挡条件中一种或者多种对应的图像;
对原始人脸图像进行规整化处理,得到预处理后的人脸图像。
进一步地,对原始人脸图像进行规整化处理包括:
检测人脸,并定位人脸关键特征点;
利用双眼特征点的横向斜率定位人脸倾斜角度,并将整体人脸图像旋转;
裁剪旋转之后的人脸区域;
对人脸图像进行光照均衡化调整;
将人脸图像归一化到预定的图像大小。
进一步地,预设模板照特征为多张证件照经多图像共享网络参数进行特征提取及后续的特征合并及融合后得到的特征向量。
根据本发明的另一方面,还提供一种基于多图像输入的人脸识别装置,本发明人脸识别装置包括:
图像接收单元,用于接收待识别对象对应的多个人脸图像;
特征提取单元,用于经多图像共享网络参数对接收的多个人脸图像进行特征提取得到中间特征;
特征融合单元,用于对中间特征进行特征合并及融合,得到多图像融合特征;
认证单元,用于计算多图像融合特征与预设模板照特征的距离阈值,根据该距离阈值得到人脸识别结果。
进一步地,本发明特征融合单元包括:
特征合并子单元,用于将经多层堆叠卷积神经网络获得的与多张人脸图像对应的中间特征联合在一起得到第二级特征,即第一级输出的单人脸特征假定特征长度为L,M张人脸图像作为输入,则联合后对应的第二级特征长度为M*L,并不改变第一级特征的值;
多图像融合特征生成子单元,用于将联合后的第二级特征作为第三级特征的输入,在更高层进行卷积运算,此时网络参数训练融合了第一级的M张人脸的特征信息,并通过训练提取更显著的目标特征,在卷积层之后连接full-connect层作为网络最终输出特征,从而得到多图像融合特征,完成了多张人脸图像的端到端自适应学习。
进一步地,本发明图像接收单元包括:
接收子单元,用于接收待识别对象对应的多个原始人脸图像,其中,原始人脸图像包括对应不同时间、不同姿态、不同光照环境、不同遮挡条件中一种或者多种的图像;
规整化处理子单元,用于对原始人脸图像进行规整化处理,得到预处理后的人脸图像。
进一步地,本发明人脸识别装置还包括:
特征生成单元,用于以多张证件照经多图像共享网络参数进行特征提取及后续的特征合并及融合后得到作为预设模板照特征的特征向量。
本发明具有以下有益效果:
本发明基于多图像输入的人脸识别方法及装置,通过接收待识别对象对应的多个人脸图像,并经多图像共享网络参数对多个人脸图像进行特征提取得到中间特征,再对中间特征进行特征合并及融合得到多图像融合特征,并经多图像融合特征进行人脸识别,本发明人脸识别方法提高了在监控等非限制性环境下利用多人脸图像作为输入进行人脸识别的准确性,且基于多图像共享网络参数可以一次性生成多张人脸图像融合后的特征向量,较传统单独提取各人脸图像的特征向量相比,运行效率及特征稳定性均得到有效改善,具有广泛的推广应用价值。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明优选实施例提供一种基于多图像输入的人脸识别方法,以解决无法单次获取清晰高质量人脸图像的非限制性环境中的人脸识别需求的难题,参照图1,本实施例方法包括:
步骤S100,接收待识别对象对应的多个人脸图像;其中,接收的多个人脸图像为同一人对应的多种不同源的人脸图像,包括但不限于:不同时期的人脸图像、不同姿态的人脸图像、不同光照环境下的人脸图像、不同遮挡条件下的人脸图像中至少一类。
步骤S200,经多图像共享网络参数对接收的多个人脸图像进行特征提取得到中间特征;其中,多个人脸图像经共享网络参数进行第一级处理后得到的中间特征与多个人脸图像一一对应。
步骤S300,对中间特征进行特征融合得到多图像融合特征;
本实施例中,直接将多个人脸图像对应的中间特征串联,并采用卷积神经网络对合并后的中间特征进行融合得到多图像融合特征,网络参数学习过程是end-to-end(端到端)的自适应学习过程。
步骤S400,计算多图像融合特征与预设模板照特征的距离阈值,根据该距离阈值得到人脸识别结果。
本实施例通过同时输入同一人的不同时期或不同姿态或不同光照的多张人脸图像作为认证输入,与留底模板照进行比对,判断此人是否与模板照一致,整个过程仅需一次认证,而现有技术只能是单张人脸图像作为网络认证输入,并且如果有多张认证照需要做认证,则需要多次将不同图像输入同一网络进行特征提取,然后分别进行多次认证,或者将多个特征进行融合或将特征比对分数进行融合,这样特征提取所消耗的时间复杂度为单张图像提取特征的N倍,特征融合结果或分数融合结果也与经验有关,具有一定的局限性,而单张图像分别进行多次认证的结果更易受到环境的影响而做出可能不一致的判断。
本发明实施例提供了一种新的基于多图像输入的人脸识别方法,通过接收待识别对象对应的多个人脸图像,并经多图像共享网络参数对多个人脸图像进行特征提取得到中间特征,再对中间特征进行特征合并及融合得到多图像融合特征,并经多图像融合特征进行人脸识别,本实施例人脸识别方法提高了在监控等非限制性环境下利用多人脸图像作为输入进行人脸识别的准确性,且基于多图像共享网络参数可以一次性生成多张人脸图像融合后的特征向量,较传统单独提取各人脸图像的特征向量相比,运行效率及特征稳定性均得到有效改善,具有广泛的推广应用价值。
本实施例中,优选地,步骤S100包括:
接收待识别对象对应的多个原始人脸图像,其中,原始人脸图像包括对应不同时间、不同姿态、不同光照环境、不同遮挡条件中一种或者多种对应的图像;
对原始人脸图像进行规整化处理,得到预处理后的人脸图像。
具体地,本实施例中,多个原始人脸图像包括但不限于以下五种情况:
1)不同时期人脸图像,如不同年龄阶段的人脸图像、同一天或同一年不同时间段采集的人脸图像等;
2)不同姿态人脸图像,如左右不同姿态、俯仰不同姿态的人脸图像;
3)不同光照环境下的人脸图像,如单侧光源、不同颜色光源等条件下拍摄的人脸图像;
4)不同遮挡条件下的人脸图像,如头发、眼镜、口罩、帽檐等部分遮挡条件下的人脸图像;
5)多种环境下的人脸图像的混合输入。
即原始人脸图像可以为照相、视频中截取等任意渠道获取得到人脸图像,图像质量可能为清晰、普通或低分辨率图像,由于人脸姿态不同,或左转或右转,或抬头或仰头,或光照分布不均匀,或眼镜、帽子遮挡等。本实施例中,对原始人脸图像进行规整化处理包括:
检测人脸,并定位人脸关键特征点;
利用双眼特征点的横向斜率定位人脸倾斜角度,并将整体人脸图像旋转;
裁剪旋转之后的人脸区域;
对人脸图像进行光照均衡化调整;
将人脸图像归一化到预定的图像大小。
本实施例通过对接收的多个原始人脸图像经规整化处理后,转换为统一的预定图像大小的人脸图像供后续的特征提取及特征融合。
本实施例中,多图像共享网络参数为多个人脸图像共用的多层堆叠卷积神经网络对应的底层参数。
图2示出了本发明优选实施例多输入单模型的结构示意图,采用该网络模型对多人脸图像进行人脸识别的步骤如下:
设置网络单次输入图像为m张(图示3张,仅为举例),卷积网络包含n层,其中第0~k层为多图像共享卷积网络参数阶段(对应第一级),第k+1层进行特征合并阶段(对应第二级),第k+1~n层为多特征融合卷积神经网络阶段(对应第三级);设第k层卷积网络输出为Fk,与第k-1层的特征的关系为Fk=Delta(Conv(Fk-1));其中Conv表示进行卷积运算,Delta表示卷积神经元的激活函数。
第0~k层分别对应的第m张人脸的特征为Fk m,则在网络共享参数层,将分别利用共享的Conv参数提取单张人脸的特征作为Fk m,此时的特征与输入的人脸图像是一一对应的;
在第m+1层为特征联合层,即将第m层分别得到的多张人脸图像的特征联合在一起,并非做数学运算,而是直接将多张人脸图像的Fk m串联在一起组成一个更长维度的特征,即如果原始Fk m的特征维度为d维,则串联后的第m+1层输出特征维度D=m*d维。
第k+2层至第n层为特征融合阶段,即第k+1层的输出作为特征融合阶段的输入,此时输入特征同时具有了m张人脸的中间层特征信息,再通过第k+2~n层的卷积网络进行参数训练学习,此时相当于由网络依据训练数据进行自适应的监督学习,不断训练,调整网络参数,最后从第k+1层的输出特征中学习抽象出更能表征输入的多张人脸图像所对应的目标的特征向量Fn,此时人脸图像与特征向量之间的关系为多对一的关系,即同时输入某个人的多张人脸图像,经过神经网络之后,得到了能表征该人的更显著的特征向量,此时的特征向量不再是如专利CN105956518A所述的基于特征组向量之间的简单数学运算,而是经过了一系列自适应卷积运算的更高级的抽象表征,同时该特征具有了更低的维度和更好的表征能力;且整个网络参数学习过程是end-to-end的自适应学习过程,完全由数据驱动,无需人工参与进行参数调整。
本实施例中,步骤S200中,多个人脸图像通过共享相同的卷积层参数得到中间特征输出,其不同于各人脸图像分别经独立的网络提取特征向量,若每张人脸图像送入不同网络,则得到的输出都是不同的,即使同样送入3张图像,通过不同排列组合送入3个不同网络中,最终得到的特征都不相同,势必造成下一阶段的特征融合的不确定性,对最终性能产生较大影响。而通过本实施例提出的共用网络架构,即使3张不同图像从不同通道输入,但是由于共享网络参数,不会对中间特征输出产生特别大的影响,特征比较稳定。
本实施例中多张人脸图像通过底层共享网络参数得到中间特征,直接将多张人脸图像得到的中间特征串联在一起,再送入下一级卷积神经网络,通过多人脸图像“端到端”的训练网络参数得到最终的多图像融合特征;与传统的特征融合方案不同的是,传统的特征融合是直接将多张人脸特征分别抽取出来,通过经验性的实验来选取不同人脸特征向量在每一维度上特征的最大、最小、均值或加权均值、或PCA变换等方式来得到最终的特征向量,这样通过经验性实验得到的特征向量会损失掉一些原有特征向量中的有用信息,减弱了特征向量的有效性;而本发明中的特征融合方法通过训练网络参数来选取学习有效的特征向量,尽可能的学习并保留了有效的人脸特征信息,且最终的特征向量维度可通过实验调整,使得学习到的有效特征向量具有最大化的识别性能。
优选地,预设模板照特征为多张证件照经多图像共享网络参数进行特征提取及后续特征合并及融合后得到的特征向量。由于模板照通常为证件照或一两张质量较高的正面照图像,对于不满足网络输入的图像张数的条件下,可将网络输入的多个通道输入同一张人脸图像或部分通道输入模板照中另一张人脸图像,然后将网络输出的特征向量作为模板照特征向量。
本实施例步骤S400具体为:将经步骤S300得到的多图像融合特征作为认证照的特征向量,通过计算认证照与模板照的对应特征向量的得分(如Cosine距离、Euclidean距离等),与阈值比较判定认证照与模板照是否是同一个对象。
根据本发明的另一方面,还提供一种基于多图像输入的人脸识别装置,与上述方法实施例对应,参照图3,本实施例装置包括:
图像接收单元100,用于接收待识别对象对应的多个人脸图像;
特征提取单元200,用于经多图像共享网络参数对接收的多个人脸图像进行特征提取得到中间特征;
特征融合单元300,用于对中间特征进行特征融合得到多图像融合特征;
认证单元400,用于计算多图像融合特征与预设模板照特征的距离阈值,根据该距离阈值得到人脸识别结果。
本实施例中,经处理器设备运行上述图像接收单元100、特征提取单元200、特征融合单元300及认证单元400。其中,特征提取单元200、特征融合单元300及认证单元400的具体实施过程参照上述方法实施例。本领域技术人员可以理解,此处的处理器设备可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
参照图4,本实施例中,特征融合单元300包括:
特征合并子单元301,用于将经多层堆叠卷积神经网络获得的与多张人脸图像对应的中间特征联合在一起得到第二级特征,即第一级输出的单人脸特征假定特征长度为L,M张人脸图像作为输入,则联合后对应的第二级特征长度为M*L,并不改变第一级特征的值;
多图像融合特征生成子单元302,用于将联合后的第二级特征作为第三级特征的输入,在更高层进行卷积运算,此时网络参数训练融合了第一级的M张人脸的特征信息,并通过训练提取更显著的目标特征,在卷积层之后连接full-connect层作为网络最终输出特征,从而得到多图像融合特征,完成了多张人脸图像的端到端自适应学习。
本领域技术人员可以理解,此处的特征合并子单元301及多图像融合特征生成子单元302的实现参照上述方法实施例对应步骤,在此不再赘述。
参照图5,本实施例中,图像接收单元100包括:
接收子单元101,用于接收待识别对象对应的多个原始人脸图像,其中,原始人脸图像包括对应不同时间、不同姿态、不同光照环境、不同遮挡条件中一种或者多种的图像;
规整化处理子单元102,用于对原始人脸图像进行规整化处理,得到预处理后的人脸图像。
本实施例中,规整化处理子单元102的处理过程具体参照上述方法实施例。
在本发明另一实施例中,参照图6,本实施例基于多图像输入的人脸识别装置还包括:
特征生成单元500,用于以多张证件照经多图像共享网络参数进行特征提取及后续的特征合并及融合后得到作为预设模板照特征的特征向量。
为验证本实施例方法及装置的有效性,实验采用同一对象在不同监控环境下的多张照片(姿态、光照不同)作为输入与其证件留底照做比对,首先将数据集分为训练集、验证集及测试集,训练集采用9825段视频中截取的各时段人脸图像,测试集为现场采集的共147个对象的不同姿态、光照图像;训练时随机抽取一人的3张照片作为输入进行分类,测试时从测试集中随机抽取3张认证照作为输入抽取认证照特征,输入相同的3张模板照作为输入抽取模板照特征,实验结果如表1所示。
表1.多输入不同模型认证结果比较
实验结果分析:由于实验集为监控照片,单张图像质量较差,单张认证照与模板照比对效果较差;而多输入多模型网络相当于多个单输入模型的融合,部分综合了多张人脸特征信息,实验效果较单模型有较大提升,但由于有多个模型,执行效率较低;多输入单模型(对应本实施例方法)充分考虑了识别率与时间效率,通过多图像信息共享网络参数,然后在较高层特征融合,最后输出融合后的特征作为最终特征向量,较单输入网络特征有较高的稳定性,且特征抽取时间大大小于多输入多模型网络;
以上实验结果证实了在监控等非限制性环境下同时利用多人脸图像作为输入显著提高了人脸识别准确性。结合识别率与时间效率上的综合性能考虑,本发明所提出的方法大大改善了目前在监控等复杂环境中的人脸识别困难的窘境。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个或者多个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory),磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。