CN114332733B

CN114332733B - 基于残差循环神经网络的视频监控人脸识别方法

Info

Publication number: CN114332733B
Application number: CN202210004166.5A
Authority: CN
Inventors: 林乐平; 卢增通; 欧阳宁; 莫建文
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2024-03-15
Anticipated expiration: 2042-01-04
Also published as: CN114332733A

Abstract

本发明公开了一种基于残差循环神经网络的视频监控人脸识别方法，其特征在于，包括如下步骤：1）获取视频监控人脸数据；2）进行人脸检测；3）视频人脸特征联合；4）联合特征融合与编码；5）解码隐藏状态及融合特征；6）利用融合特征进行网络训练；7）应用网络进行人脸识别。这种方法将人脸特征与隐藏状态使用残差连接，从而解决特征融合过程中存在梯度消失的问题，为隐藏状态提供了更多的特征，进而有效地提升人脸识别性能，对于长序列的人脸视频具有更好的鲁棒性，并且具有更强的识别能力。

Description

基于残差循环神经网络的视频监控人脸识别方法

技术领域

本发明涉及智能图像处理技术领域，具体涉及一种基于残差循环神经网络的视频监控人脸识别方法。

背景技术

视频监控下的人脸识别是传统人脸识别是在配合场景下，对目标采集单张清晰正面的人脸图像进行识别。而与传统人脸识别不同的是视频监控人脸识别则是对一段视频片段进行人脸识别，由于这些人脸会存在姿态偏差、低分辨、遮挡等问题，导致现有的人脸识别算法失效，识别准确率严重下滑，无法直接应用。如何从冗余，复杂的人脸视频中提取关键特征，成为视频监控人脸识别的关键研究方向。

现有视频监控下的人脸识别算法分为两类，第一种思路是基于视频帧建模的视频人脸识别，KIM采用线性子空间的建模方法，将视频帧提取特征后拉伸变为一维向量，通过度量两个向量的距离进行人脸识别；第二种思路是基于视频帧融合的视频人脸识别，通过对视频帧的所有特征进行融合，提取视频片段中所有能使用的人脸信息进行识别。Zhong通过对所有视频帧的特征进行聚类，然后根据聚类中心进行特征融合，Rao利用视频帧训练了一个生成对抗网络，融合所有视频帧的特征，尽可能地生成出一张带有所有特征的人脸图像。

无论是基于视频帧建模的视频人脸识别还是基于视频帧融合的视频人脸识别均有显著成效，但仍有不足之处。现有的方案中基于视频帧融合的视频人脸识别中主要的特征融合算法有2D卷积融合、3D卷积融合以及循环神经网络特征融合，有2D卷积与3D卷积的融合方式，对于数量较少的序列具有较好的性能，但随着序列长度的增加，维数也会随之增加，带来计算复杂的问题。循环神经网络的特征融合只以前后两帧作为输入，通过前后两帧的隐藏状态进行特征融合，以递归的方式进行特征融合，但在特征融合过程中存在梯度消失的问题。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于残差循环神经网络的视频监控人脸识别方法。这种方法将人脸特征与隐藏状态使用残差连接，从而解决特征融合过程中存在梯度消失的问题，为隐藏状态提供了更多的特征，进而有效地提升人脸识别性能，对于长序列的人脸视频具有更好的鲁棒性，并且具有更强的识别能力。

实现本发明目的的技术方案是：

一种基于残差循环神经网络的视频监控人脸识别方法，部署时的前向推理，包括如下步骤：

1)获取视频监控人脸数据：将视频监控采集的人脸进行分割，对在监控摄像头采样范围内第一次检测到的人脸进行SORT跟踪，以跟踪目标为中心，根据第一次人脸检测到的矩形框进行图像分割，得到视频序列人脸图像数据，对数据集进行数据清洗，选取1000段带有正面人脸作为标签的视频序列人脸片段，选出视频序列中质量最高的一帧人脸作为标签，并且选取视频序列时跳过该帧，最后生成序列人脸图像训练集{I_i},i＝1,2,3,…,N；

2)视频人脸检测：将步骤1)中获得的序列人脸图像训练集，进行人脸检测后，裁剪出 112×96的人脸区域，对连续可检测到的人脸片段进行筛选，删除连续帧数低于7帧的人脸片段，保留连续帧数高于7帧的人脸片段；

3)视频人脸特征联合：对步骤2)中得到的视频人脸进行特征连接，对单帧人脸图像I_t、 I_t前一帧人脸图像I_t-1、前一帧图像的融合特征输出R_t-1、以及前一帧图像的特征融合输出的隐藏状态h_t-1进行通道连接，得到联合特征Z_t＝Z_concat[I_t-1,I_t,o_t-1,h_t-1]，其中，对第一帧人脸图像计算Z₀＝Z_concat[I₀,I₁,o₀,h₀]时，I₀，R₀，h₀均为零矩阵；

4)联合特征融合与编码：对步骤3)中得到的联合特征Z_t进行特征融合，得到初始的上下文关联特征其中，W_con2D为2D卷积操作，σ为激活函数操作，将/>输入K个级联的标准残差块进行处理，每个残差块由两层卷积层组成，卷积核大小均为4×4、通道数均为64、取值为10，残差块的输入输出关系为：/>其中， k∈{1,2,…,K}，/>为残差块的特征提取操作，第K标个标准残差块的输出为/>

5)解码隐藏状态及融合特征：对步骤4)中得到的上下文关联特征进行分别解码，得到隐藏状态/>以及融合特征/>式中，W_con2D为2D卷积操作，σ为激活函数操作；

6)利用融合特征进行网络训练：将步骤5)得到的单帧融合特征R_t输入人脸识别网络，得到训练数据集的单帧人脸的预测矩阵IP_t，即IP_t＝F_class(R_t)，采用各帧人脸的预测矩阵IP_t，t＝1,2,…，作为网络输入样本进行网络训练，训练时采用交叉熵构造损失函数，计算公式为其中，/>为网络输出的标签，/>为真值标签，n为样本数，损失函数用于计算网络误差值，并通过反向传播机制用于优化网络；

7)应用网络进行人脸识别：对监控视频各人脸帧I_t′，t＝1,2,…,N′，进行识别，其中N′为视频帧数，得到帧的预测矩阵IP_t′，进而计算出视频的人脸识别结果IP_v′，即

步骤1)中所涉及的目标跟踪与图像分割均为现有技术，目的是从视频监控数据中提取序列人脸图像进行特征融合与人脸识别。

步骤3)中于第一帧人脸图像进行特征联合时，前一帧的人脸I_t-1、前一帧的输出R_t-1、前一帧输出的隐藏状态h_t-1均为零矩阵，对于第一帧往后的所有帧人脸图像进行特征联合时，均以步骤5)输出的前一帧隐藏状态h_t-1与融合特征R_t-1以及前一帧的人脸I_t-1进行特征联合。

步骤6)中人脸识别网络采用VGG-Face人脸识别网络框架。

步骤7)中视频监控人脸识别的识别结果为每一帧的人脸图像经过特征融合后的识别结果的联合。

本技术方案能从冗余、质量差的人脸视频中提取有效的特征，进而有效地提升人脸识别性能，于长序列的视频监控人脸识别具有更好的鲁棒性，并且具有更强的识别能力。

这种方法将人脸特征与隐藏状态使用残差连接，从而解决特征融合过程中存在梯度消失的问题，为隐藏状态提供了更多的特征，进而有效地提升人脸识别性能，对于长序列的人脸视频具有更好的鲁棒性，并且具有更强的识别能力。

附图说明

图1为实施例中方法流程示意图；

图2为实施例中视频监控人脸识别原理示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步的说明，但不是对本发明的限定。

实施例：

参照图1，一种基于残差循环神经网络的视频监控人脸识别方法，部署时的前向推理，包括如下步骤：

4)联合特征融合与编码：如图2所示，对步骤3)中得到的联合特征Z_t进行特征融合，得到初始的上下文关联特征其中，W_con2D为2D卷积操作，σ为激活函数操作，将/>输入K个级联的标准残差块进行处理，每个残差块由两层卷积层组成，卷积核大小均为4×4、通道数均为64、取值为10，残差块的输入输出关系为：/>其中，k∈{1,2,…,K}，/>为残差块的特征提取操作，第K标个标准残差块的输出为/>编码网络使用K个标准的残差块提取特征，/>表示最后一个残差块的输出，将编码后的信息与编码前的上下文关联相加，得到序列中某一帧的人脸图像与前面帧人脸图像的上下文关联/>

5)解码隐藏状态及融合特征：对步骤4)中得到的上下文关联特征进行分别解码，得到隐藏状态/>以及融合特征/>式中，W_con2D为2D卷积操作，σ为激活函数操作，其中，/>为卷积层后添加一个激活函数，/>则不经过激活函数；

6)利用融合特征进行网络训练：将步骤5)得到的单帧融合特征R_t输入人脸识别网络，得到训练数据集的单帧人脸的预测矩阵IP_t，即IP_t＝F_class(R_t)，采用各帧人脸的预测矩阵IP_t， t＝1,2,…，作为网络输入样本进行网络训练，训练时采用交叉熵构造损失函数，计算公式为其中，/>为网络输出的标签，/>为真值标签，n为样本数，损失函数用于计算网络误差值，并通过反向传播机制用于优化网络；

步骤6)中人脸识别网络采用VGG-Face人脸识别网络框架。

Claims

1.一种基于残差循环神经网络的视频监控人脸识别方法，其特征在于，包括如下步骤：

1)获取视频监控人脸数据：对数据集进行数据清洗，选取1000段带有正面人脸作为标签的视频序列人脸片段，选出视频序列中质量最高的一帧人脸作为标签，并且选取视频序列时跳过该帧，最后生成序列人脸图像训练集{I_i}，i＝1，2，3，…，N；

2)视频人脸检测：将步骤1)中获得的序列人脸图像训练集，进行人脸检测后，裁剪出112×96的人脸区域，对连续可检测到的人脸片段进行筛选，删除连续帧数低于7帧的人脸片段，保留连续帧数高于7帧的人脸片段；

3)视频人脸特征联合：对步骤2)中得到的视频人脸进行特征连接，对单帧人脸图像I_t、I_t前一帧人脸图像I_t-1、前一帧图像的融合特征输出R_t-1、以及前一帧图像的特征融合输出的隐藏状态h_t-1进行通道连接，得到联合特征Z_t＝Z_concat[I_t-1，I_t，o_t-1，h_t-1]，其中，对第一帧人脸图像计算Z₀＝Z_concat[I₀，I₁，o₀，h₀]时，I₀，R₀，h₀均为零矩阵；

4)联合特征融合与编码：对步骤3)中得到的联合特征Z_t进行特征融合，得到初始的上下文关联特征其中，W_con2D为2D卷积操作，σ为激活函数操作，将/>输入K个级联的标准残差块进行处理，每个残差块由两层卷积层组成，卷积核大小均为4×4、通道数均为64、取值为10，残差块的输入输出关系为：/>其中，k∈{1，2，…，K}，/>为残差块的特征提取操作，第K标个标准残差块的输出为/>

5)解码隐藏状态及融合特征：对步骤4)中得到的上下文关联特征进行分别解码，得到隐藏状态/>以及融合特征/>式中，W_{con 2D}为2D卷积操作，σ为激活函数操作；

6)利用融合特征进行网络训练：将步骤5)得到的单帧融合特征R_t输入人脸识别网络，得到训练数据集的单帧人脸的预测矩阵IP_t，即IP_t＝F_class(R_t)，采用各帧人脸的预测矩阵IP_t，t＝1，2，…，作为网络输入样本进行网络训练，训练时采用交叉熵构造损失函数，计算公式为其中，/>为网络输出的标签，/>为真值标签，n为样本数，损失函数用于计算网络误差值，并通过反向传播机制用于优化网络；

7)应用网络进行人脸识别：对监控视频各人脸帧I_t，t＝1，2，…，N′，进行识别，其中N′为视频帧数，得到帧的预测矩阵IP_t′，进而计算出视频的人脸识别结果IP_v′，即