CN113033345B

CN113033345B - 基于公共特征子空间的v2v视频人脸识别方法

Info

Publication number: CN113033345B
Application number: CN202110260926.4A
Authority: CN
Inventors: 袁家斌; 陆要要; 何珊
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2024-02-20
Anticipated expiration: 2041-03-10
Also published as: CN113033345A

Abstract

本发明公开了一种基于公共特征子空间的V2V视频人脸识别方法，包括以下步骤，首先，根据人脸在视频中的位置特征，将代表人脸方向的关键点位置采用聚类算法进行分类选取关键帧；然后，设计样本库特征提取网络SCNN和待验证视频特征提取网络TCNN的网络结果和训练算法，分别使用SCNN和TCNN进行特征提取，将提取到的特征映射到同一特征子空间中并计算特征中心；最后，计算待验证视频特征中心与样本库视频特征中心的欧氏距离，取距离最小为最终的视频识别结果。本发明实施于V2V视频人脸识别，有效地提高V2V视频人脸识别准确率。

Description

基于公共特征子空间的V2V视频人脸识别方法

技术领域

本发明属于人脸识别技术领域，尤其涉及一种基于公共特征子空间的V2V视频人脸识别方法。

背景技术

近年来，计算机视觉的不断发展促使越来越多的技术落地成为了日常生活中实际的产品。随着深度神经网络的兴起，人脸识别技术得到了飞速发展。其中图像人脸识别己经取得了极佳的成就，而视频人脸识别的研究却相对来说达不到人们的预期。这是因为视频人脸识别不止面临着和图像人脸识别同样的光照、遮挡、姿态等问题，而且实际应用中(如监控场景下)视频的图像帧质量通常不如图像。目前，视频人脸识别方法分为两类：经典方法和深度学习方法。常用的是深度学习的方法来进行人脸识别，将一段视频分割为若干个图像帧，使用这些图像帧进行人脸识别，对最终的识别结果进行投票得到最后的视频识别结果。V2V(Video to Video)人脸识别指样本库和验证对象都是含人脸的视频，通过判别两段视频中人脸的相似性获得人脸身份，但是通常情况下样本库中的视频与待验证的视频质量存在差异，无法直接进行匹配识别。改善低质量视频常用的方法是基于公共特征子空间的方法，该方法将不同质量视频的人脸特征映射到同一公共特征子空间，从而解决识别中样本库视频和待验证视频质量不一的问题。

然而，一般的基于公共特征子空间算法也存在一些问题：以前的基于公共特征子空间方法使用相同的网络提取样本库视频和待验证视频的深度特征，导致两种特征映射到同一特征子空间中的距离较远，对不利于识别判定。

发明内容

本发明的目的是为了克服上述现有基于公共特征子空间算法中的缺点，提供一种有利于V2V人脸识别的算法。本发明基于公共特征子空间的V2V视频人脸识别方法，能够有效地改善V2V视频人脸识别效率低的问题，达到好的识别效果。

为实现上述目的，本发明采用的技术方案为：

一种基于公共特征子空间的V2V视频人脸识别方法，包括以下步骤：

步骤1，数据预处理，将数据集中的低质量视频数据拆分成图像帧，人脸检测裁剪成32*40px大小的人脸图像，将图像集使用算法划分为训练集和测试集，数据集大小比例为7:3；

步骤2，选取关键帧，将数据集中低质量视频人脸图像帧的关键点位置作为人脸特征，使用K-means聚类算法和随机算法选取关键帧；

步骤3，初始化样本库特征提取网络SCNN，输入样本库视频序列的训练集关键帧进行特征提取和Softmax分类，并计算特征中心；

步骤4，计算Softmax交叉熵损失，同时使用步骤3中得到的特征中心计算CenterLoss损失，使用Softmax交叉熵损失和CenterLoss损失共同训练和更新SCNN，直到收敛；

步骤5，将步骤4中收敛后的SCNN网络进行复制作为待验证视频关键帧特征提取网络TCNN的初始网络，固定SCNN网络不变，将相同身份的样本库视频关键帧和待验证视频关键帧的训练集组成视频对，分别输入SCNN和TCNN提取深度特征；

步骤6，将步骤5中提取的样本库视频关键帧特征和待验证视频关键帧特征映射到同一个特征子空间中，计算得到样本库视频关键帧特征的特征中心，使用距离损失函数，训练TCNN网络，直到收敛；

步骤7，在测试阶段，使用训练好的SCNN提取所有样本库视频关键帧的人脸特征，使用训练好的TCNN提取待验证视频测试集关键帧的人脸特征，都映射到公共特征子空间进行匹配判别。

进一步的，所述步骤1中使用的数据集为COX数据集，训练样本和测试样本使用COX数据集已经划分好的十种划分，结果取十次实验的平均值；同时从COX数据集中每个人的三段视频序列中确定样本库视频和待验证视频的序列。

进一步的，所述步骤2中K-means算法的K值为5，分别代表5种不同的人脸姿态：左侧脸、左偏脸、正脸、右偏脸、右侧脸，每组分别使用随机算法选取10个关键帧。

进一步的，所述步骤3中的SCNN网络包括输入层、卷积层1、DenseBlock、卷积层2、Inception_Resnet1、Reducation、Inception_Resnet2、平均池化层和全连接层顺次连接，输入层的输入大小为32×40，全连接层的输出大小为1024；所述步骤3中的特征中心为输入视频所有关键帧特征的均值中心。

进一步的，所述步骤4中在Softmax交叉熵损失的基础上，使用CenterLoss损失将关键帧特征与中心特征的距离作为约束条件训练网络，使同一类别特征更加靠近，不同类别特征分离，CenterLoss的中心特征为步骤3中计算得到的特征中心。

进一步的，所述步骤5中将相同身份的样本库视频和待验证视频的训练集视频组成视频对，第i个视频对为其中：/>表示为第i个视频对中的样本库视频，/>表示为待验证视频的训练集视频，然后选取样本库视频的关键帧和待验证视频训练集视频的关键帧，分别输入SCNN网络和TCNN网络提取深度特征，将提取到的深度特征记为/>表示为/>关键帧的深度特征，/>表示为/>关键帧的深度特征。

进一步的，所述步骤6中计算得到样本库视频关键帧深度特征的特征中心记为/>距离损失函数为待验证视频所有关键帧的特征与样本库视频特征中心欧氏距离的均值。

进一步的，所述步骤7中使用测试集特征与样本库特征中心的欧氏距离进行匹配判别，得到最小欧氏距离结果为识别结果。

本发明相比于现有技术，具有以下有益效果：

本发明是一种基于公共特征子空间的V2V视频人脸识别方法，针对V2V视频人脸识别中样本库视频与待验证视频质量不一的特点，对视频帧进行关键帧选取、双分支网络提取特征、公共特征子空间映射匹配提高视频识别的准确率；

本发明通过关键帧选取算法，选取视频关键帧，在不影响识别效率的基础上降低了重建和识别的计算复杂度，减少了训练和测试时间；

本发明通过分别训练双分支特征提取网络(SCNN和TCNN)，使得TCNN提取的待验证视频特征更接近于SCNN提取的对应身份的样本库视频特征，有利于人脸识别准确率的提升；

本发明通过将样本库视频与待验证视频的深度特征映射到同一公共特征子空间中进行匹配识别，解决了V2V识别中视频质量不一的难点。

附图说明

图1是V2V人脸识别模型测试阶段示意图；

图2是V2V人脸识别模型训练阶段示意图；

图3是V2V模型的特征提取网络SCNN和TCNN结构图。

具体实施方式

下面结合实施例对本发明作更进一步的说明。

实施例1

步骤1，数据预处理，将数据集中的低质量视频数据拆分成图像帧，人脸检测裁剪成32*40px大小的人脸图像，将图像集使用算法划分为训练集和测试集，数据集大小比例为7:3；例如，可以使用的数据集为COX数据集，训练样本和测试样本使用COX数据集已经划分好的十种划分，结果取十次实验的平均值。同时从COX数据集中每个人的三段视频序列中确定样本库视频和待验证视频的序列。

COX人脸数据集旨在解决视频到静止(V2S)，静止到视频(S2V)和视频到视频(V2V)人脸识别的问题。数据集包含1000个主题，每个主题模拟了视频监控场景，捕获了1个高质量的静止图像和3个视频序列(cam1、cam2、cam3)。在经过人脸检测和数据预处理之后，大部分视频序列中含有人脸的图像帧数量大于100，有的甚至超过300。

步骤2，选取关键帧，将数据集中低质量视频人脸图像帧的关键点位置作为人脸特征，使用K-means聚类算法和随机算法选取关键帧。K-means算法的K值为5，分别代表5种不同的人脸姿态：左侧脸、左偏脸、正脸、右偏脸、右侧脸，每组分别使用随机算法选取10个关键帧。

由于本发明根据人脸关键点位置对图像进行K-Means聚类，设置第a个样本的关键点位置为x^(a)。一般的，经人脸检测的图像将标记人脸双眼位置，本发明以此作为关键点，故即/>为第a个样本的左眼位置坐标，/>为第a个样本的右眼位置坐标。因此本发明定义K-Means聚类第a个样本的距离函数如下：

其中：l_aj为第a个样本与第j类的质心μ_j的距离，μ_j为第j类的质心，(x_jL,y_jL,)为的μ_j左眼位置坐标，(x_jR,y_jR,)为的μ_j右眼位置坐标。

假定输入的样本位置集合为S＝{x⁽¹⁾,x⁽²⁾,…,x^(a),…,x^(m)}，x^(a)∈Rⁿ，m为样本数量，Rⁿ为实数集，则算法步骤如下：

(1)、机选取h个聚类质心，为μ₁，μ₂，…μ_j…，μ_h∈Rⁿ，其中：μ_j为第j类的质心，μ_h为第h类的质心；

(2)、重复下列过程直到收敛{

对于第a个样本的关键点位置x^(a)，计算x^(a)应该属于的类(b^(a)为第a个样本的类别，j为类别编号)：

对于每一个类j，重新计算该类的质心

}

步骤3，初始化样本库特征提取网络SCNN，输入样本库视频序列的训练集关键帧进行特征提取和Softmax分类，并计算特征中心。SCNN网络包括输入层、卷积层1、DenseBlock、卷积层2、Inception_Resnet1、Reducation、Inception_Resnet2、平均池化层和全连接层顺次连接，输入层的输入大小为32×40，全连接层的输出大小为1024；所述步骤3中的特征中心为输入视频所有关键帧特征的均值中心。

3.1SCNN网络结构

SCNN网络结构如图3所示，共包括8层，包含2个卷积层，一个Dense Block模块和两个Inception Resnet模块，还有一个Reduction模块和一个平均池化层，最后为一个全连接层FC作为输出。对于样本库或者待验证的每一段视频，假设提取的关键帧数量为65，输入大小为32×40，则经过特征提取网络输出65个大小为1×1024维的人脸特征表示，下表中列出了特征提取网络SCNN每一层的相关参数和输出大小。

网络层	输出大小	网络结构
			输入层	32×40	--
卷积层1	64×32×40	卷积核：3×3，通道：64，填充：1，步长：1
			Dense Block	256×32×40	6×DenseLayer，成长：32
卷积层2	384×30×38	卷积核：3×3，通道：384，填充：0，步长：1
			Inception_Resnet1	384×30×38	--
Reduction	1024×15×19	--
			Inception_Resnet1	1024×15×19	--
平均池化层	1024×7×9	卷积核：3×3，通道：1024，填充：0，步长：2
			全连接层	1024	卷积核：7×9，通道：1024，填充：0

3.2 DB(Dense Block)

SCNN网络使用DB提取语义特征，DB块为了解决梯度消失的问题，借助Resnet的思路，在保证网络中层与层之间最大程度的信息传输的前提下，直接将所有层连接起来。简单讲，就是每一层的输入来自前面所有层的输出。

DB中每个卷积层的输出特征图数量都很小(小于100)，而不是像其他网络一样动不动就几百上千的宽度。同时这种连接方式使得特征和梯度的传递更加有效，网络也就更加容易训练。梯度消失问题在网络深度越深的时候越容易出现，原因就是输入信息和梯度信息在很多层之间传递导致的，而现在这种dense connection相当于每一层都直接连接input和loss，因此就可以减轻梯度消失现象，这样更深网络不是问题。

本发明中的每个DB块包括6个子结构，每个子结构包含一个1*1和一个3*3的卷积层，1*1的卷积层为瓶颈层，目的是为了减少输入的特征图数量即降维。每个卷积层的组成为Batch Normalization+ReLU+3*3Conv层，DB块的growth_rate等于32，bn_size等于4。

步骤4，计算Softmax交叉熵损失，同时使用步骤3中得到的特征中心计算CenterLoss损失，使用Softmax交叉熵损失和CenterLoss损失共同训练和更新SCNN，直到收敛。在Softmax交叉熵损失的基础上，使用CenterLoss损失将关键帧特征与中心特征的距离作为约束条件训练网络，使同一类别特征更加靠近，不同类别特征分离，CenterLoss的中心特征为步骤3中计算得到的特征中心。

假设输入视频的关键帧数量为65，Softmax分类层1×1000的一维特征向量，则输出的65个特征序列为[1¹，1²，…，1¹⁰²⁴]，[2¹，2²，…，2¹⁰²⁴]，…，[65¹，65²，…，65¹⁰²⁴]，将这些特征序列按照先后顺序和通道顺序进行排列，排列之后的特征序列为[1¹，2¹，…，65¹]，[1²，2²，…，65²]，…，[1¹⁰²⁴，2¹⁰²⁴，…，65¹⁰²⁴]，将这些特征序列求均值就得到了特征中心的特征序列为[c¹，c²，…，c¹⁰²⁴]，将该序列作为CenterLoss损失函数的中心。以下表示训练过程中损失函数中心的特征表示公式，其中：。

其中：C表示输入视频关键帧深度特征的特征中心，e为特征的序号，n为关键帧数量，k为关键帧序号，c^e表示特征中心的第e个特征值，k^e表示第k个关键帧的第e个特征值。

步骤5，将步骤4中收敛后的SCNN网络进行复制作为待验证视频关键帧特征提取网络TCNN的初始网络，固定SCNN网络不变，将相同身份的样本库视频关键帧和待验证视频关键帧的训练集组成视频对，分别输入SCNN和TCNN提取深度特征。例如将相同身份的样本库视频和待验证视频的训练集视频组成视频对，第i个视频对为其中：/>表示为第i个视频对中的样本库视频，/>表示为待验证视频的训练集视频，然后选取样本库视频的关键帧和待验证视频训练集视频的关键帧，分别输入SCNN网络和TCNN网络提取深度特征，将提取到的深度特征记为/> 表示为/>关键帧的深度特征，/>表示为/>关键帧的深度特征。

步骤6，将步骤5中提取的样本库视频关键帧特征和待验证视频关键帧特征映射到同一个特征子空间中，计算得到样本库视频关键帧特征的特征中心，使用距离损失函数，训练TCNN网络，直到收敛。例如：将计算得到样本库视频关键帧特征的特征中心记为/>距离损失函数为待验证视频所有关键帧的特征与样本库视频特征中心欧氏距离的均值，公式如下：

其中：L_TCNN表示TCNN的损失函数，n表示关键帧数量，k表示关键帧序号，i表示第i个视频对，表示第i个视频对中待验证视频训练集视频的第k个关键帧，/>表示/>的深度特征。该公式的空间表示为图2中的d_i，表示为第i个视频对中待验证视频训练集视频所有关键帧的提取特征与样本库视频特征中心欧氏距离的均值，本发明最小化该均值进行训练TCNN网络。在训练过程中，为每一层独立设置学习率，且在最后一层全连接层的学习率大于第一层的学习率，这样有助于加速训练。

步骤7，在测试阶段，使用训练好的SCNN提取所有样本库视频关键帧的人脸特征，使用训练好的TCNN提取待验证视频测试集关键帧的人脸特征，都映射到公共特征子空间进行匹配判别。例如，使用测试集特征与样本库特征中心的欧氏距离进行匹配判别，得到最小欧氏距离结果为识别结果。最小欧氏距离的判别公式如下：

其中：表示为第y个待验证视频，/>表示为第l个样本库视频，该式表示第y个待验证视频的身份为第l个样本库视频的身份，其中：l的值为：

其中：d_y，z表示第y个待验证视频与第z个样本库视频特征中心的欧氏距离(图1中d_i，1，d_i，2等定义亦同)，表示第y个视频对中待验证视频训练集视频的第k个关键帧，表示/>的深度特征，/>表示第z个样本库视频特征中心，N表示样本库视频身份种类数，n为关键帧数量，k为关键帧序号。

本发明首先，根据人脸在视频中的位置特征，将代表人脸方向的关键点位置采用聚类算法进行分类选取关键帧；然后，设计样本库特征提取网络SCNN和待验证视频特征提取网络TCNN的网络结果和训练算法，分别使用SCNN和TCNN进行特征提取，将提取到的特征映射到同一特征子空间中并计算特征中心；最后，计算待验证视频特征中心与样本库视频特征中心的欧氏距离，取距离最小为最终的视频识别结果。本发明实施于V2V视频人脸识别，相比于用经典的集对集视频识别方法和其他公共特征子空间的方法，采用本发明的技术方案将有效提高V2V视频人脸识别准确率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于公共特征子空间的V2V视频人脸识别方法，其特征在于，包括以下步骤：

所述步骤3中的SCNN网络包括输入层、卷积层1、DenseBlock、卷积层2、Inception_Resnet1、Reducation、Inception_Resnet2、平均池化层和全连接层顺次连接，输入层的输入大小为32×40，全连接层的输出大小为1024；所述步骤3中的特征中心为输入视频所有关键帧人脸特征的均值中心；

2.根据权利要求1所述的基于公共特征子空间的V2V视频人脸识别方法，其特征在于：所述步骤1中使用的数据集为COX数据集，训练样本和测试样本使用COX数据集已经划分好的十种划分，结果取十次实验的平均值；同时从COX数据集中每个人的三段视频序列中确定样本库视频和待验证视频的序列。

3.根据权利要求1所述的基于公共特征子空间的V2V视频人脸识别方法，其特征在于：所述步骤2中K-means算法的K值为5，分别代表5种不同的人脸姿态：左侧脸、左偏脸、正脸、右偏脸、右侧脸，每组分别使用随机算法选取10个关键帧。

4.根据权利要求3所述的基于公共特征子空间的V2V视频人脸识别方法，其特征在于：所述步骤4中在Softmax交叉熵损失的基础上，使用CenterLoss损失将关键帧特征与中心特征的距离作为约束条件训练网络，使同一类别特征更加靠近，不同类别特征分离，CenterLoss的中心特征为步骤3中计算得到的特征中心。

5.根据权利要求1所述的基于公共特征子空间的V2V视频人脸识别方法，其特征在于：所述步骤5中将相同身份的样本库视频和待验证视频的训练集视频组成视频对，第i个视频对为其中：/>表示为第i个视频对中的样本库视频，/>表示为待验证视频的训练集视频，然后选取样本库视频的关键帧和待验证视频训练集视频的关键帧，分别输入SCNN网络和TCNN网络提取深度特征，将提取到的深度特征记为/> 表示为/>关键帧的深度特征，/>表示为/>关键帧的深度特征。

6.根据权利要求5所述的基于公共特征子空间的V2V视频人脸识别方法，其特征在于：所述步骤6中计算得到样本库视频关键帧深度特征的特征中心记为/>距离损失函数为待验证视频所有关键帧的特征与样本库视频特征中心欧氏距离的均值。

7.根据权利要求6所述的基于公共特征子空间的V2V视频人脸识别方法，其特征在于：所述步骤7中使用测试集特征与样本库特征中心的欧氏距离进行匹配判别，得到最小欧氏距离结果为识别结果。