CN114387553B

CN114387553B - 一种基于帧结构感知聚合的视频人脸识别方法

Info

Publication number: CN114387553B
Application number: CN202210052157.3A
Authority: CN
Inventors: 林乐平; 张和为; 欧阳宁; 莫建文
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2024-03-22
Anticipated expiration: 2042-01-18
Also published as: CN114387553A

Abstract

本发明公开了一种基于帧结构感知聚合的视频人脸识别方法，包括：采用人脸检测模型检测视频数据中每一帧中所含的面部区域并裁剪为固定尺寸的图像，作为输入视频帧；采用跨尺度特征提取网络提取输入的每一个视频帧的特征表示；采用帧结构感知聚合模块为每个特征表示赋予权重；将每个特征图降维、并根据权重进行聚合，得到视频人脸特征向量；集训练模型、并微调网络参数；采用人脸识别网络框架完成最后的识别任务。这种特征提取网络能适应面部特征比例变化的同时，保持对不同尺度特征的高效学习，同时结合帧间关系的挖掘对上下文信息进行有效建模，能够利用各个视频帧的特征及其空间结构信息，最终获得更具鲁棒性的视频人脸特征表示用于识别。

Description

一种基于帧结构感知聚合的视频人脸识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种结合跨尺度特征提取及帧结构感知聚合的视频人脸识别技术，具体是一种基于帧结构感知聚合的视频人脸识别方法。

背景技术

针对视频人脸识别这一技术有所突破，将会提高视频监控、人物身份识别等任务的效率。视频比图像多了一个时间维度，可以理解为一个有序图像集，其中人脸图像大都低质。如何从视频序列中提取利于识别的特征表示尤为重要。目前，在较为先进的视频人脸识别模型中，其输入都是经过预处理的视频帧，且主要的方案大致分为两种：对视频帧进行质量评估及筛选后再进行特征提取及识别和完整地利用视频序列的每一帧进行识别。第一类方法主要为了从视频片段中挑选关键帧，从而得到最佳质量的人脸特征表示。然而低质量帧的存在依旧会对视频帧的完整性以及结构信息的保留起着重要影响。第二类通常是基于图像集或是字典的方法，但此类方法往往存在效率低下及对视频中面部的复杂变化不敏感的问题。

视频人脸的特征学习可以分成两个阶段，分别是学习精确的特征表示和构建有效的视频帧聚合模型。第一阶段通常利用基于卷积神经网络的深度学习方法来实现，然而普通的深度网络并不能很好的完成对视频片段中面部的局部细节特征的学习。目前比较常见的特征聚合策略有最大池化及平均池化，且都是基于特征值的简单融合，易于实现但在应用于实际监控视频或是无约束条件下拍摄的视频，因遮挡、光照及模型等因素影响时，性能则通常较差。这类方法大多没有重视视频帧的位置、结构信息以及帧与帧之间的相互关系，从而在单个视频人脸图像帧数较多的YTF数据集和IJB-A数据集上综合性能表现不佳。

所以，需要一个新的技术方案来解决上述问题。

发明内容

本发明的目的是针对现有技术不足，而提供一种基于帧结构感知聚合的视频人脸识别方法。这种方法采用跨尺度特征提取网络及帧结构感知聚合模块，学习更具鲁棒性的特征表示后进一步进行特征聚合，以达到提升视频人脸识别准确率的目的。

实现本发明目的的技术方案是：

一种基于帧结构感知聚合的视频人脸识别方法，包括如下步骤：

1)采用多任务卷积神经网络模型MTCNN(Multi-task convolutional neuralnetwork，简称MTCNN)检测IJB-A和YTF数据集中的每一帧视频人脸数据，并将面部区域裁剪为固定尺寸的图像，得到输入视频帧大小为224×224；

2)采用跨尺度特征提取网络提取输入的每一个视频帧的特征表示：跨尺度特征提取网络包括全局特征提取、局部特征提取以和特征融合操作，用于全局特征提取的主干卷积网络由两层conv-64、两层conv-128、两层conv-256、两层conv-512依次叠加而成，且每个输出特征图尺寸逐步缩小，每类卷积层之后加入maxpool，主干卷积网络最后连接三层全连接层及单层softmax；用来进行局部特征提取的局部聚合网络N₁，N₂，N₃各包含两个尺寸为1×1卷积层、且N₁，N₂，N₃分别接入主干网络的conv-64、conv-128及conv-256之后，最终由局部聚合网络N₁，N₂，N₃得到各个尺度的特征图记为则得到每一帧的特征表示f_i为：

式中，Concat表示特征融合，Up(·)为上采样操作；

3)采用帧结构感知聚合模块为步骤2)中获得的每个特征图f_i，i＝1,...,n赋予权重：一次性将步骤2)中得到的多帧特征图f_i，i＝1,...,n输入至帧结构感知聚合模块，接着采用帧结构感知聚合，首先采用两种嵌入函数ψ_s(f_i)＝ReLU(W_ψf_i)及ψ_s(f_j)＝ReLU(W_ψf_j)得到某帧与其它帧之间的相互关系f_i:f_j，然后用S_(i,:)＝[s_i1,s_i2,s_i3,...,s_in]表示第i帧与各个视频帧的关系向量，用S_(:,i)＝[s_1i,s_2i,s_3i,...,s_ni]表示各个视频帧与第i帧的关系向量，进一步利用这两种关系向量得到结构因子σ_i，这一参数有助于确定某一帧在视频序列中的重要程度，将结构因子结合初始化内核q与该帧特征图得到对应权重e_n，并利用softmax进行归一化得到最终权重w_n；

4)将步骤2)中获得的每个特征图f_i，i＝1,...,n进行降维、并根依据步骤3)中获得的权重进行聚合，得到视频人脸特征向量：令第i帧视频帧特征为v_i，采用全连接层对v_i进行降维，视频人脸特征向量通过下式聚合而成：

式中，r表示视频人脸特征，w_i为第i帧视频帧对应的权重；

5)训练跨尺度特征提取网络及帧结构感知聚合：将步骤2)中的跨尺度特征提取网络与步骤3)、步骤4)所述的帧结构感知聚合过程结合在一起，形成端到端的训练方式：首先，不引入σ_n并初始化全零q，在IJB-A和YTF数据集上进行训练，接着固定参数q，再引入σ_n并进一步训练模型，让网络自动调整参数，采用构建两个共享权重的帧结构感知聚合过程来最小化平均对比损失：

式中，r_i、r_j分别为第i个对象的人脸特征与第j个对象的人脸特征，且当y_i,j＝1时，对象i与对象j有相同的标签，当y_i,j＝0时，对象i与对象j标签不同，常数m设置值为2；

6)采用步骤5)得到的视频人脸识别模型完成识别任务：将不同质量的视频片段输入到步骤5)得到的模型中，输出最终的人脸特征表示r，再采用人脸识别网络框架DeepFace进行人脸识别。

步骤3)中所述的帧间相互关系f_i:f_j的公式为：

s_i,j＝f_i:f_j＝φ(f_i)^Tψ_s(f_j)，

式中，f_i和f_j分别为第i帧与第j帧的特征表示，嵌入函数φ_s(f_i)＝ReLU(W_φf_i)与嵌入函数ψ_s(f_j)＝ReLU(W_ψf_j)在训练网络挖掘帧间结构关系的过程中采用1×1卷积实现、并引入ReLU激活函数，s_i,j表示第i帧与第j帧的相互关系。

步骤3)中所述的结构因子σ_i为：

式中，S_(i,:)＝[s_i1,s_i2,s_i3,...,s_in]表示第i帧与各个视频帧的关系向量，与此相对，用S_(:,i)＝[s_1i,s_2i,s_3i,...,s_ni]表示各个视频帧与第i帧的关系向量，其中i＝1,...,n。

步骤3)中所述的最终权重为：

e_n＝σ_nq^Tf_n，

其中，e_n表示帧特征图对应的权重，σ_i为结构因子，q为初始化内核，f_n为第n帧特征表示，w_n表示归一化之后的最终权重。

本技术方案采用跨尺度特征提取网络学习视频帧特征表示，随着视频帧人脸姿态及镜头远近的变化，人脸局部特征可能会以不同的比例呈现，且当整体面部外观发生巨大变化时，精确地提取局部特征对识别起着重要作用，本技术方案在适应局部特征比例变化的同时，保持对不同尺度特征的高效学习；帧结构感知聚合过程聚合视频帧的特征，在聚合过程中各帧间特征的相互竞争与协作关系，关注视频全局范围的结构信息的同时，也对各个视频帧的位置信息进行了挖掘，最终根据这些信息确定每个帧的重要程度，这样得到的视频人脸特征表示将会大大提高识别准确率。

这种方法采用跨尺度特征提取网络及帧结构感知聚合模块，学习更具鲁棒性的特征表示后进一步进行特征聚合，以达到提升视频人脸识别准确率的目的。

附图说明

图1为实施例的流程示意图；

图2为实施例中跨尺度特征提取网络示意图；

图3为实施例中帧结构感知聚合过程示意图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步地说明，但不是对本发明的限定。

实施例：

参照图1，一种基于帧结构感知聚合的视频人脸识别方法，包括如下步骤：

1)采用多任务卷积神经网络模型MTCNN检测IJB-A和YTF数据集中的每一帧视频人脸数据，并将面部区域裁剪为固定尺寸的图像，得到输入视频帧大小为224×224；在本例中，得到的人脸图像大多从监控视频及无约束条件下拍摄而来，对视频人脸数据集的预处理阶段，首先采用多任务卷积神经网络模型来检测数据集中的人脸图像，得到含有人脸的且固定尺寸的输入视频帧，大小为224×224，该视频帧数量可变，本例调整为单个对象的视频帧数为24帧；

2)采用跨尺度特征提取网络提取输入的每一个视频帧的特征表示：如图2所示，跨尺度特征提取网络包括全局特征提取、局部特征提取以和特征融合操作，在本例中，输入尺寸为224×224的视频帧，输出为H×W×C的特征，图用于全局特征提取的主干卷积网络由两层conv-64、两层conv-128、两层conv-256、两层conv-512依次叠加而成，且每个输出特征图尺寸逐步缩小，每类卷积层之后加入maxpool，主干卷积网络最后连接三层全连接层及单层softmax；用来进行局部特征提取的局部聚合网络N₁，N₂，N₃各包含两个尺寸为1×1卷积层、且N₁，N₂，N₃分别接入主干网络的conv-64、conv-128及conv-256之后，最终由局部聚合网络N₁，N₂，N₃得到各个尺度的特征图记为则得到每一帧的特征表示f_i为：

式中，Concat表示特征融合，Up(·)为上采样操作，

3)采用帧结构感知聚合模块为步骤2)中获得的每个特征图f_i，i＝1,...,n赋予权重：如图3所示，一次性将步骤2)中得到的多帧特征图f_i，i＝1,...,n输入至帧结构感知聚合模块，接着采用帧结构感知聚合，首先采用两种嵌入函数φ_s(f_i)＝ReLU(W_φf_i)及ψ_s(f_j)＝ReLU(W_ψf_j)得到某帧与其它帧之间的相互关系f_i:f_j，然后用S_(i,:)＝[s_i1,s_i2,s_i3,...,s_in]表示第i帧与各个视频帧的关系向量，用S_(:,i)＝[s_1i,s_2i,s_3i,...,s_ni]表示各个视频帧与第i帧的关系向量，进一步利用这两种关系向量得到结构因子σ_i，这一参数有助于确定某一帧在视频序列中的重要程度，将结构因子结合初始化内核q与该帧特征图得到对应权重e_n，并利用softmax进行归一化得到最终权重w_n，本例中，考虑一个视频片段F＝{f₁,f₂,f₃,...,f_n}，其中f_i为视频帧的特征向量，n表示该视频帧的帧数；

式中，r表示视频人脸特征，w_i为第i帧视频帧对应的权重，本例中，采用全连接层对每一帧的特征图进行降维，结合上下文以及视频帧结构的信息，在融合过程中重要程度低的帧将进一步降低影响力，同时也使得到的特征向量更具判别性。

步骤3)中所述的帧间相互关系f_i:f_j的公式为：

s_i,j＝f_i:f_j＝φ(f_i)^Tψ_s(f_j)，

步骤3)中所述的结构因子σ_i为：

式中，S_(i,:)＝[s_i1,s_i2,s_i3,...,s_in]表示第i帧与各个视频帧的关系向量，与此相对，用S_(:,i)＝[s_1i,s_2i,s_3i,...,s_ni]表示各个视频帧与第i帧的关系向量，其中i＝1,...,n，这两个向量融合了该帧对应于视频片段F的位置和结构信息。

步骤3)中所述的最终权重为：

e_n＝σ_nq^Tf_n，

其中，e_n表示帧特征图对应的权重，σ_i为结构因子，q为初始化内核，f_n为第n帧特征表示，w_n表示归一化之后的最终权重，关系向量和帧特征融合过后得到的描述符记为v_i，其中i＝1,2,...,n，该描述符既包含了各帧的全部特征也囊括了其与整体视频帧的结构关系及位置信息，结构因子在初始化内核q与帧特征相乘的同时为每帧赋予基于结构信息的权重。

Claims

1.一种基于帧结构感知聚合的视频人脸识别方法，其特征在于，包括如下步骤：

1)采用多任务卷积神经网络模型MTCNN检测IJB-A和YTF数据集中的每一帧视频人脸数据，并将面部区域裁剪为固定尺寸的图像，得到输入视频帧大小为224×224；

式中，Concat表示特征融合，Up(·)为上采样操作；

3)采用帧结构感知聚合模块为步骤2)中获得的每个特征图f_i，i＝1,...,n，赋予权重：一次性将步骤2)中得到的多帧特征图f_i，i＝1,...,n，输入至帧结构感知聚合模块，接着采用帧结构感知聚合，首先采用两种嵌入函数φ_s(f_i)＝ReLU(W_φf_i)及ψ_s(f_j)＝ReLU(W_ψf_j)得到某帧与其它帧之间的相互关系f_i:f_j，然后用S_(i,:)＝[s_i1,s_i2,s_i3,...,s_in]表示第i帧与各个视频帧的关系向量，用S_(:,i)＝[s_1i,s_2i,s_3i,...,s_ni]表示各个视频帧与第i帧的关系向量，进一步利用这两种关系向量得到结构因子σ_i，将结构因子结合初始化内核q与该帧特征图得到对应权重e_n，并利用softmax进行归一化得到最终权重w_n；

4)将步骤2)中获得的每个特征图f_i，i＝1,...,n，进行降维、并根依据步骤3)中获得的权重进行聚合，得到视频人脸特征向量：令第i帧视频帧特征为v_i，并采用全连接层对v_i进行降维，视频人脸特征向量通过下式聚合而成：

式中，r表示视频人脸特征，w_i为第i帧视频帧对应的权重；

2.根据权利要求1所述的基于帧结构感知聚合的视频人脸识别方法，其特征在于，步骤3)中所述的帧间相互关系f_i:f_j的公式为：

s_i,j＝f_i:f_j＝φ(f_i)^Tψ_s(f_j)，

3.根据权利要求1所述的基于帧结构感知聚合的视频人脸识别方法，其特征在于，步骤3)中所述的结构因子σ_i为：

式中，S_(i,:)＝[s_i1,s_i2,s_i3,...,s_in]表示第i帧与各个视频帧的关系向量，S_(:,i)＝[s_1i,s_2i,s_3i,...,s_ni]表示各个视频帧与第i帧的关系向量，其中i＝1,...,n。

4.根据权利要求1所述的基于帧结构感知聚合的视频人脸识别方法，其特征在于，步骤3)中所述的最终权重为：

e_n＝σ_nq^Tf_n，