CN108388574A

CN108388574A - 基于triplet深度二值网络的快速人脸检索方法

Info

Publication number: CN108388574A
Application number: CN201810026049.2A
Authority: CN
Inventors: 尤鸣宇; 沈春华; 张欣彧
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-08-10
Anticipated expiration: 2038-01-11
Also published as: CN108388574B

Abstract

本发明提出了一种基于triplet深度二值网络进行快速的人脸检索的方法，属于图像处理技术领域。首先将图片进行三元组预处理和编码分组，再利用分块图切方法进行triplet哈希编码训练，利用深度网络进行特征提取，使用循环交错两阶段的方法有效地将深度网络判别信息反馈给哈希编码网络，使得两个阶段进行循环学习，相互修正，最后提取深度网络的判别特征作为图片的哈希编码，进行特征对比和人脸检索。通过这种方式可以进行分块编码训练，加快训练速度，同时能有效利用深度网络信息，提取高判别性的哈希编码，提高检索精度。

Description

基于triplet深度二值网络的快速人脸检索方法

技术领域

本发明涉及图像处理领域，特别涉及一种基于triplet深度二值网络的快速人脸检索方法。

背景技术

人脸检索是指，从庞大的人脸数据库中找到与待识别人脸是同一个人的样本，即逐一确认数据库中人脸和待识别人脸是否为同一个人。这一问题在门禁刷脸、视频监控、刷脸支付等领域有重要的现实价值。

随着大数据的快速发展，人脸检索在速度上受到了极大的限制。为了保证快速性，通常将特征进行二值编码。二值哈希编码将原始特征映射到压缩的二值编码上，从而加快特征的匹配速度。两阶段的哈希编码方法将编码训练和矩阵学习分开进行，有效地提高网络的训练效率。第一阶段运用成对的相似度信息，训练哈希二值编码网络。第二阶段训练判别器，如支持向量机或者决策树等，通过将特征表征和上述二值编码进行比较，得到最终的二值编码，进一步提高网络的性能。但由于传统判别器得到的判别效果较差，且判别器学到的特征表征不能及时反馈给二值编码网络，因此人脸检索的精度得不到保证。

为了提高人脸检索的精度，深度网络特征取代了手工特征，并将特征表征和二值哈希编码进行端到端训练，很好地利用了二值编码的反馈信息。针对离散型的二值编码，引入矩阵学习方法作为其损失函数。triplet是一种矩阵学习方法，它将同类样本的距离缩小，不同样本的距离拉大，从而增强特征的判别性能。目前的哈希编码方法将triplet应用在模型的训练过程中，利用triplet保持原始数据的相对语义关系，提高网络精度。但是，triplet相当于把数据量提高了3倍，训练复杂度高，网络的训练速度十分缓慢。

发明内容

本发明针对现有技术存在的不足，提出一种基于triplet深度二值网络的快速人脸检索方法。该方法同时解决了triplet训练慢和两阶段法精度差的问题，实现精度、速度的双重提高。

本发明通过以下技术方案实现：

一种基于triplet深度二值网络的快速人脸检索方法，其特征在于：使用分块图切方法进行triplet哈希编码训练，使用深度网络进行特征提取，使用循环交错两阶段的方法有效地将深度网络判别信息反馈给哈希编码网络，使得两个阶段进行循环学习，相互修正，提高网络精度，加快训练速度。具体包括如下步骤：

步骤A，预处理，即生成三元组人脸对(为本领域常规技术)。

步骤B，编码切分，即将待生成的二值编码分组，分成M个组，每个组有N个bits。

步骤C，基于triplet的哈希编码：

求解线性等式构建相关性矩阵，对第m个组(m＝1:M)第n个bit(n＝1:N)，应用分块图切算法得到该bit的哈希编码。使用triplet损失函数(本领域公知)，保证每一块中的每一对样本的相关性小于0。triplet损失函数使用按位循环的Hinge Loss：

其中，d_H表示哈希函数，r表示处理哈希编码的第r个bit，其他bit作为常数处理，值不变。共循环n次，即得到第m组的哈希编码。

步骤D，训练深度网络判别器：对步骤C中得到的第m组的哈希编码，训练深度网络，损失函数为训练得到的判别信息与步骤C中哈希编码的汉明距离。

本发明实施例深度网络使用的是改进的VGG-16网络结构模型。VGG-16网络结构包含13个卷积层和3个全连接层。卷积层用CONV表示，全连接层用FC表示。CONV的卷积核按顺序设置为：64(3×3)×2，128(3×3)×2，256(3×3)×2，256(1×1)×1，512(3×3)×2，512(1×1)×1，512(3×3)×2，512(1×1)×1。FC的参数个数按顺序设置为：4096，4096，M×N(哈希编码的bit数目)。本实施例局部创新在于，在VGG-16基础上，将第10层的CONV后的pooling层和第13层的CONV进行通道间连接，使得FC能学到低层特征和高级语义特征。在第2个FC之后，加入批标准化层，将特征进行归一化，防止内部协方差偏移。修改后的深度网络能够提取更具判别性的特征表征，更好优化哈希编码。

步骤E，循环编码：同时更新第m组编码，并将其反馈给步骤C，训练第m+1组编码。每个阶段循环步骤C和步骤D共M次，共训练K个周期，直到步骤D网络收敛。

步骤F，提取哈希编码：训练完成后，提取步骤D中最后深度网络的判别信息层作为哈希编码。将测试集提取的哈希编码记为probe＝{hp₁,hp₂,...hp_Cp}，数据库提取的哈希编码记为gallery＝{hg₁,hg₂,...,hg_Cg}，其中，H_i表示第i个人脸图片的哈希编码。Cp表示测试集图片数量，Cg表示数据库图片数量。

步骤G，哈希编码比对：利用步骤E中得到的哈希编码，一一对比测试集和数据库中的人脸图片哈希编码的汉明距离，按照汉明距离从小到大的顺序排列。

步骤H，人脸检索：针对一张测试图片，取步骤F中最小的汉明距离对应数据库图片的身份信息，如果与测试图片身份信息相同，则记为人脸检索正确；否则记为人脸检索失败。

本发明采用的技术与现有的技术相比，有如下技术成果：

1)利用两阶段法，并将哈希编码分块训练，加快训练速度。

2)利用深度网络(改进的VGG-16网络)进行判别器训练，提升特征的表征能力。

3)将两阶段法的哈希编码训练和深度网络判别器训练循环交替进行，使得深度网络训练得到的二值编码表征信息能有效反馈到二值编码网络中，有效解决两阶段法精度低的问题。

4)提取的二值编码具有很强的表征能力，能够有效地区分不同人的人脸数据的特征，有效提高人脸检索准确度。

附图说明

图1是本发明实施例人脸检索方法的整体流程图

图2是本发明的深度网络结构图

图3是本发明的循环编码训练算法流程图

图4是LFW数据库中，本发明方法的三元组图片汉明距离的对比值。

具体实施方式

本发明的方法方案整体如下：给出一系列将训练图片重新处理为三元组的人脸图片组，首先利用编码向量分组后的triplet哈希编码网络，利用分块图切方法(已为现有技术活，公开于论文《Fast Supervised Hashing with Decision Trees for High-Dimensional Data》(Lin G,Shen C,Shi Q,et al.Fast Supervised Hashing withDecision Trees for High-Dimensional Data[C]//Computer Vision and PatternRecognition.IEEE,2014:1971-1978.)训练得到某一组bits的编码向量。再将训练图片输入深度网络中，提取其最后一层的二值编码特征与上述得到的编码向量进行比对，将结果反馈给哈希编码网络，并循环进行上述过程。经过反复编码和特征训练，得到表征能力较好的二值编码。最后用深度网络提取出的二值编码作为人脸图片特征进行人脸检索。

为更好地表达本发明中提出的基于triplet深度二值网络的快速人脸检索方法，下面以本发明在LFW数据集上为例，取二值哈希编码向量长度为128维，结合附图和具体实施方式对本发明进行进一步的说明。

图1为本发明的整体流程图，包括数据预处理、编码分组、基于triplet的哈希编码、训练深度网络、循环编码、提取哈希编码、哈希编码比对、人脸检索八个部分。

步骤A.数据预处理：对LFW数据进行三元组划分处理。从数据集中选择一张图片，并随机选择一张与其身份相同的另一张图片，以及与其身份不同的另一张图片，组成三元组的形式。

步骤B.编码分组：对待获得的128维二值哈希编码向量进行划分，分为8个组，每组包含16个bit。

步骤C.基于triplet的哈希编码：分为构建相关性矩阵和训练哈希编码。

C1，构建相关性矩阵：求解线性等式构建相关性矩阵W，

其中，ω_ij表示的是第i个样本和第j个样本的关联权值。α_ij表示的是(x_i,x_j)对的系数，即每个三元组中，只要出现(x_i,x_j)，就有一个α_ij。

C2，训练哈希编码：对第m个组(m＝1:8)，循环取第n个bit(n＝1:16)，应用分块图切算法(已属于现有技术)得到该bit的哈希编码(r＝(m-1)×16+n)。由于使用triplet损失函数，因此每一块都要保证每一对x_i和x_j的相关性为ω_ij＜0。triplet损失函数为：

其中，d_H表示汉明距离，表示x_i哈希编码的第r个bit。当前循环值更新第r位bit，其他bits不做改变。

步骤D.训练深度网络：将每个训练图片输入改进的VGG-16网络中，最后一层分类层为128维，损失函数为该全连接层经过softmax后得到的判别信息与步骤C中得到的哈希编码的多标签分类问题，即汉明距离。图2为该深度网络的结构图。

步骤E.循环编码：通过步骤D的深度网络训练得到图片新的二值编码，并将其传给步骤C，进行下一个bit的训练。循环5个周期，每个周期深度网络的学习率下降10倍，每个周期循环128次。

以上CDE三步骤的循环，如图3所示的循环编码训练算法流程图。

步骤F.提取哈希编码：输入图片x_i，提取训练好的深度网络的判别信息h_i作为该图片的哈希编码。待测试图片的哈希编码为hp＝(hp¹,hp²,...,hp¹²⁸)，数据库中任一张人脸图片的哈希编码为hg＝(hg¹,hg²,...,hg¹²⁸)。

步骤G.哈希编码比对：对步骤F中提取出的哈希编码，按位对比hp和hg是否相同，即hpⁱ＝＝hgⁱ是否成立，若成立则记为1，否则记为0。计算1的个数，即128-length(hpⁱ＝＝hgⁱ)，作为汉明距离的结果。汉明距离越大，说明两个哈希编码越不像，说明两张图片越不像，反之，两张图片越像。

步骤H.人脸检索：一张测试图片与数据库中所有人脸图片进行比对，按照汉明距离从小到大的顺序进行排列，并记录下其对应的身份信息。

Rank_i＝{(d₁,I₁),(d₂,I₂),...,(d_F,I_F)}

其中(d_f,I_f)为第i张测试图片与数据库中所有图片的哈希编码比对中，汉明距离从小到大排序后第f位的汉明距离值和身份信息。若I_i＝I₁则算检索成功，否则为失败。图4为实例中的部分结果图。

Claims

1.一种基于triplet深度二值网络的快速人脸检索方法，其特征在于：使用分块图切方法进行triplet哈希编码训练，使用深度网络进行特征提取，使用循环交错两阶段的方法有效地将深度网络判别信息反馈给哈希编码网络，使得两个阶段进行循环学习，相互修正，提高网络精度；

具体包括如下步骤：

步骤A，生成三元组人脸对；

步骤B，将待生成的二值编码分组，分成M个组，每个组有N个bits；

步骤C，基于triplet的哈希编码：求解线性等式构建相关性矩阵，依次应用分块图切算法得到该bit的哈希编码；循环N次，得到该组的bits；

步骤D，训练深度网络判别器：对步骤C中得到的第m组的哈希编码，训练改进的VGG-16深度网络，损失函数为训练得到的判别信息与步骤C中哈希编码的汉明距离；

步骤E，循环编码：同时更新第m组编码，并将其反馈给步骤C，训练第m+1组编码；每个阶段循环步骤C和步骤D共M次，共训练K个周期，直到步骤D网络收敛；

步骤F，提取哈希编码：训练完成后，提取步骤D中最后深度网络的判别信息层作为哈希编码，该编码长度为M×N；

步骤G，哈希编码比对：一一对比测试集和数据库中的人脸图片哈希编码的汉明距离；

步骤H，人脸检索：取最小的汉明距离对应数据库图片的身份信息，判断是否检索正确。

2.根据权利要求1所述的一种基于triplet深度二值网络的快速人脸检索方法，其特征在于：所述步骤D中判别器是深度网络结构，不是传统的支持向量机等结构。步骤D的深度网络结构是在VGG-16的基础上改进的，将第10个卷积层后的pooling层和第13层卷积层进行通道间连接，在第2个全连接层之后，加入批标准化层。

3.根据权利要求1所述的一种基于triplet深度二值网络的快速人脸检索方法，其特征在于：所述步骤C和步骤D是分块进行训练，每个周期网络只更新第m组的哈希编码，因此能够加快训练的速度，加速收敛。

4.根据权利要求1所述的一种基于triplet深度二值网络的快速人脸检索方法，其特征在于：所述步骤E是将步骤C和步骤D进行循环训练，步骤D的更新编码结果反馈给步骤C，使得步骤C在此基础上重新更新，能够有效利用步骤D的深度网络判别信息。