CN112101267B

CN112101267B - 一种基于深度学习和哈希编码的快速人脸检索方法

Info

Publication number: CN112101267B
Application number: CN202011008141.XA
Authority: CN
Inventors: 刘远超; 吴宗林; 周豪杰; 黄俊俊; 吴志坐
Original assignee: Zhejiang Haoteng Electron Technology Co ltd
Current assignee: Zhejiang Haoteng Electron Technology Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-04-29
Anticipated expiration: 2040-09-23
Also published as: CN112101267A

Abstract

本发明公开了一种基于深度学习和哈希编码的快速人脸检索方法，包括人脸特征提取和人脸检索两个阶段。人脸特征提取阶段，通过特征融合和量化损失函数，使得特征提取网络提取到的人脸哈希特征更加具有判别力；人脸检索阶段，利用提取到的人脸哈希特征和聚类算法，实现对人脸的快速检索。

Description

一种基于深度学习和哈希编码的快速人脸检索方法

技术领域

本发明涉及图像检索技术领域，具体为一种基于深度学习和哈希编码的快速人脸检索方法。

背景技术

随着大规模图像检索需求的日益增加，为了降低图像检索的空间复杂度与时间复杂度，研究者们在过去十几年提出了很多高效的检索技术，最成功的方法包括基于树结构的图像检索方法、基于哈希的图像检索方法，其中，经典的哈希方法是局部敏感哈希方法和基于向量量化的图像检索方法。相比基于树结构的图像检索方法和基于向量量化的图像检索方法，哈希技术将图像的高维特征保持相似性的映射为紧致的二进制哈希码。由于二进制哈希码在汉明距离计算上的高效性和存储空间上的优势，哈希码在大规模相似图像检索中非常高效。

大规模人脸库的快速检索在人员管理、视频监控等系统中有重要的实用价值，如人员身份验证、嫌疑人轨迹搜索等。人脸库中的人脸图像可能来源于静态的人脸采集，也可能来源于视频监控系统中的动态人脸检测与提取，尤其是后者将导致采集的人脸数量指数增长，形成海量人脸库。对于一张待查询的人脸，如何在海量人脸数据库中迅速的进行检索，并准确的提供与带查询人脸相似度最高的若干人脸结果，是人员管理、视频监控等系统中一个亟待解决的问题。

目前，针对快速人脸检索问题广大学者提出了很多不同的方法，例如：发明专利(申请号：201710703271.7，名称：一种基于深度学习细粒度人脸图像快速检索方法。)提供了一种基于深度学习细粒度人脸图像快速检索方法，通过卷积神经网络提取输入人脸图像的哈希码，通过计算不同哈希码的汉明距离实现快速人脸检索。发明专利(申请号：201810987143.4，名称：一种基于深度学习的快速人脸检索方法。)公开了一种基于深度学习的快速人脸检索方法，利用深度神经网络提取人脸二值特征并结合局部敏感哈希最近邻检索算法，实现了快速高效的人脸检索算法。发明专利(申请号：201811057447.7，名称：一种基于深度特征的大规模人脸检索方法。)公开了一种基于深度特征的大规模人脸检索方法，通过深度特征提取，缓冲消息队列构建，二进制特征压缩，建立多维度信息索引，并进行磁盘数据备份以及高速缓存，通过多维度特征索引以及基于内存的高速缓存进行精准过滤，使得大规模人脸图像数据集检索耗时大幅度降低。发明专利(申请号：201910119779.1，名称：基于k均值聚类算法的人脸识别检索方法。)公开了基于一种k均值聚类算法的人脸识别检索方法使用卷积神经网络从图像库中提取人脸图像的特征向量，建立人物库，每个人物都通过k均值聚类方法计算出该人物对应的中心向量，使用卷积神经网络从待查询图像中提取特征向量，并与人物库中的各中心向量作浮点数精确比对，通过比较结果，确定返回的检索结果。发明专利(申请号：201910270855.9，名称：一种基于深度学习和哈希编码的人脸图像检索方法和装置。)提供一种基于深度学习和哈希编码的人脸图像检索方法和装置，考虑人脸图像的特殊性，减少图像的背景信息对人脸特征的干扰，增强对有区分力的人脸特征的表达，为每一张人脸图像生成具有强区分力的二值哈希码，提高检索速度，降低存储开销，提高检索准确度。

上述提到的基于深度学习和哈希编码的人脸检索方法存在两个问题：1)特征提取阶段的到的特征尺度比较单一，不能很好的表示人脸；2)哈希编码阶段基本上都用了放松策略，不要求在训练阶段就严格生成二值码{-1,+1}，放松为可以取-1到+1之间的连续值(相应生成函数处处可导)，从而使得网络可以完成训练，然后在最后测试阶段再量化上述连续值特征，得到真正的二值码，这样会引入量化误差，从而导致所生成的图像二值编码及编码网络是次优的。

发明内容

针对上述方法存在的问题，本发明提出了一种基于深度学习和哈希编码的快速人脸检索方法。

一种基于深度学习和哈希编码的快速人脸检索方法，其特征在于，包括如下步骤：

步骤1：人脸特征提取，利用卷积神经网络对人脸样本图像进行训练，得到训练好的人脸特征提取模型W，利用人脸特征提取模型W提取人脸特征，具体为：

步骤1.1：卷积神经网络的构建，在InceptionResnetV2模型的基础上进行修改，包括不同尺度特征融合、哈希层的添加以及损失函数的设计，具体为：

步骤1.1.1：特征融合及降维，对InceptionResnetV2模型的repeat、repeat1以及block8三个层的特征进行融合，通过增加卷积层Conv_a1、Conv_a2、Conv_a3以及池化层MaxPool_a1来对三种特征进行尺寸上的对齐，卷积层Conv_a1与池化层MaxPool_a1将repeat层的特征由35×35×320缩小到8×8×320，卷积Conv_a1的卷积核大小为3，stride为2，padding为1，池化层MaxPool_a1的卷积核大小为3，stride为2，padding为0，卷积层Conv_a2将repeat1层的特征由17×17×1088缩小到8×8×1088，其中，卷积层Conv_a2的卷积核大小为3，stride为2，padding为0，将MaxPool_a1、Conv_a2以及block8三部分的特征进行级联，得到尺寸为8×8×3488的融合特征，利用卷积层Conv_a3对其降维，使用2080个大小为1的卷积核对8×8×3488的融合特征进行卷积操作，stride为1，padding为0，得到尺寸8×8×2080的融合特征；

步骤1.1.2：哈希层的添加，在InceptionResnetV2模型的Logits层后添加哈希层，包括FC层以及Tanh层，其中，FC层的结点数为k，即提取到的人脸哈希特征的维数，Tanh层将输入量化到(-1，1)之间，之后通过sign函数将大于0的值转化为1，小于等于0的值转化为-1，从而实现哈希编码；

步骤1.1.3：损失函数的设计，使用量化损失函数L_q来进行优化，量化损失函数L_q如式(1)所示，此外，Logits层输出的n个值输入分类损失函数L_l中，L_l为交叉熵损失函数，如式(2)所示，在计算交叉熵损失函数之前，首先利用softmax函数将分类网络的输出标准化为概率分布，如式(3)所示，对标签进行one-hot编码，只有真实类别对应的标签值为1，其它类别对应的标签值均为0，损失函数表示为式(4)的形式；

L_q＝||H-B||₂ (1)

L_l＝-log(P_j) (4)

其中，H表示Tanh层输出的k个浮点数组成的向量，B表示经sign函数处理后得到的二进制向量，P_j表示第j个类别的概率，Y_j表示第j个类别对应的标签值，Z_j表示分类网络输出的对应第j个类别的值，Z_m表示分类网络输出的对应第m个类别的值，n为类别数，||H-B||₂表示求向量H与向量B的欧几里德距离，e为自然数；

步骤1.2：卷积神经网络的训练，在预训练模型的基础上，使用CASIA-WebFace人脸数据集来进行迁移学习，得到人脸特征提取模型W，其中，训练工具为tensorflow，优化器为SGD；

步骤1.3：人脸特征提取，对于输入卷积神经网络的任意图像I，获取Tanh层输出的k维向量作为人脸特征向量H，经sign函数处理后得到的二进制向量为B＝{b_i|i＝1,2,...,k}，其中，b_i表示二进制人脸特征向量B中的第i个特征值，b_i∈{-1,1}；

步骤2：人脸检索，利用上述步骤提取到的人脸二进制特征进行人脸快速检索，具体为：

步骤2.1：令海量人脸数据对应的二进制人脸特征向量集合G_b＝{(p_i,F_i)|i＝1,2,...,N}，其中，p_i表示第i个人员的编号，F_i表示编号为i的人员的二进制人脸特征向量，N表示人员数量，利用二进制人脸特征向量对海量人脸数据进行聚类，其步骤如下：

步骤2.2：利用聚类算法将海量人脸数据划分为K个聚类，使得每一个聚类中的二进制人脸特征向量与其所属聚类的聚类中心距离最近，令聚类中心集合C_cluster＝{C_j|j＝1,2,...,K}，其中，

为第j个聚类的聚类中心，

则海量人脸数据对应的二进制人脸特征向量集合

其中，

表示二进制人脸特征向量集合的第j个聚类，(p_i,F_i)^(j)表示聚类j中编号为i的人员及其二进制人脸特征向量；

步骤2.3：人脸检索阶段，令任意待检索人脸为I_a，其对应的二进制人脸特征向量F_a＝{c_i|i＝1,2,...,k}，其中，c_i∈{-1,1}，遍历聚类中心集合C_cluster，计算二进制人脸特征向量F_a与每一个聚类中心C_j的距离D(F_a,C_j)，其中，距离计算如公式(5)所示，令j′＝argmin(D(F_a,C_j))，即二进制人脸特征向量F_a与聚类中心集合C_cluster中第j′个聚类中心距离最近；

其中，符号

表示异或运算；

步骤2.4：遍历第j′个聚类，利用公式(5)计算二进制人脸特征向量F_a与第j′个聚类

中的每一个二进制人脸特征向量的距离，得到的二进制人脸特征向量集合G_bf＝{(p_i,F_i)^(j′)|i∈[1,N]；D(F_a,F_i)＜t}，其中

t表示距离阈值；

步骤2.5：通过步骤2.4即可得到与待检索人脸I_a最为相似的人脸特征向量集合G_bf，并可通过步骤2.4中计算出的距离由小到大的顺序，得到人脸相似度由高到低的顺序。

本发明的有益效果是：

1)利用特征融合的方法，使提取到的人脸特征更加具有判别力；

2)通过增加量化损失函数，可以减少哈希映射时产生的量化误差；

3)通过提取人脸的二进制特征并结合聚类的方法，可以大大加快人脸检索时的速度。

附图说明

图1为本发明一种基于深度学习和哈希编码的网络结构图。

具体实施方式

下面结合附图和实施例，对本发明进行进一步的说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

步骤1.1.2：哈希层的添加，在InceptionResnetV2模型的Logits层后添加哈希层，包括FC层以及Tanh层，其中，FC层的结点数为k，本实施例中k取值512，即提取到的人脸哈希特征的维数，Tanh层将输入量化到(-1，1)之间，之后通过sign函数将大于0的值转化为1，小于等于0的值转化为-1，从而实现哈希编码；