CN108090402A

CN108090402A - 一种基于循环神经网络的视频人脸识别方法及系统

Info

Publication number: CN108090402A
Application number: CN201611039809.0A
Authority: CN
Inventors: 巫立峰; 赵文忠
Original assignee: Shanghai Isvision Intelligent Recognition Technology Co ltd
Current assignee: Shanghai Isvision Intelligent Recognition Technology Co ltd
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2018-05-29

Abstract

本发明提供一种基于循环神经网络的视频人脸识别方法及系统，包括从视频流中提取图像帧，跟踪人脸目标，获取人脸目标对应的人脸序列；对人脸序列进行预处理；将预处理后的人脸序列输入循环神经网络进行训练，更新循环神经网络各层的权值，以得到训练好的循环神经网络；将预处理后的人脸序列输入训练好的循环神经网络，提取人脸序列的深度特征；利用人脸序列的深度特征训练人脸分类器；利用预处理后的人脸序列根据训练好的人脸分类器提取人脸特征；将人脸特征与目标库的特征模板进行比对，返回目标库中与当前人脸特征相匹配的人脸识别信息。本发明的基于循环神经网络的视频人脸识别方法及系统提高了视频人脸识别的精度。

Description

一种基于循环神经网络的视频人脸识别方法及系统

技术领域

本发明涉及一种视频人脸识别方法及系统，特别是涉及一种基于循环神经网络的视频人脸识别方法及系统。

背景技术

随着网络的不断升级和视频拍摄设备的普及，在日常生活中视频的拍摄与传播变得非常方便，视频格式的内容也越来越广泛的受到人们的喜爱。在安防领域，视频监控已经成为了必备的安防手段，监控设备广泛分布在世界的各个角落。在金融行业，银行与证券公司也渐渐地通过采集开户人的视频来进行身份确认。因此，通过视频进行身份识别的需求也变得越为越多。

在日常生活中，通常通过手持设备进行视频拍摄，由于相机的位置处于不稳定的状态，拍摄的视频大多由于有抖动而产生模糊。在监控视频中，由于监控设备离目标场景有较大的距离，视频中的人和物体通常不是非常清晰。因此，通过视频来识别人脸会受到姿态、角度、光线、遮挡、模糊度等多种因素的影响，导致人脸识别精度不稳定，通常存在很高的误报率。由于视频是图像在时间上的序列，视频中的人脸往往存在时间与空间的变化。在这种情况下，人脸在连续的多帧图像中出现，而连续的多帧图像是存在较大的相关性的。因此，充分利用视频中的相关信息能够有效地提高人脸识别的精度。

现有的人脸识别技术主要采用以下两种方法：

1)用传统的人工定义的特征，如SIFT、LBP、HOG、Gabor特征等。

然而，该方法存在明显的缺点。首先，人工特征的设计往往是针对具体的分类任务，在一些任务中有效的人工特征在其它任务中不一定有效；其次，即使针对具体的任务，也难以设计出合适的特征来描述复杂场景下的事物。

2)采用深度学习的方法，从大量的训练数据中学习特征，如采用卷积神经网络。

采用卷积神经网络学习特征的方式虽然能够解决特征难以设计的问题，但通常采用的是二维卷积核，导致难以利用到人脸在时间序列上的相关信息。

现有技术中，基于视频的人脸识别方法主要包括两种，即基于集的方法和基于序列的方法。其中基于集的方法根据融合的步骤在匹配前还是匹配后又分为多种；基于序列的方法分为时间序列的方法和时空序列的方法。在实际应用中，主要还是采用基于集的方法。基于集的方法的基本原理为：在帧序列中挑选优质人脸图像，将筛选出来的人脸照片进行矫正与对齐，然后跟目标库的照片进行逐张比对，最后把每次比对的结果进行综合。这种识别方式是静态人脸识别技术向视频人脸识别的延伸，没有针对视频的特点，人脸逐张比对丢失了人脸序列内部各人脸图像之间的相关信息。另外，选择什么样的人脸进行比对更有效，本身就难以判断；采用人脸关键点的位置信息和照片质量评价本身就会引入误差。在将多个比对结果进行融合时，也难以对差别较大的结果进行权衡。因此在识别精度上也非常不理想，难以达到实际应用的需求。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于循环神经网络的视频人脸识别方法及系统，从视频中提取人脸序列输入循环神经网络，来学习视频中的人脸特征，从而提高了视频人脸识别的精度。

为实现上述目的及其他相关目的，本发明提供一种基于循环神经网络的视频人脸识别方法，包括以下步骤：从视频流中提取图像帧，跟踪人脸目标，获取人脸目标对应的人脸序列；对人脸序列进行预处理，以获取满足预定标准的人脸序列；将预处理后的人脸序列输入循环神经网络进行训练，更新循环神经网络各层的权值，以得到训练好的循环神经网络；将预处理后的人脸序列输入训练好的循环神经网络，提取人脸序列的深度特征；利用人脸序列的深度特征训练人脸分类器；利用预处理后的人脸序列根据训练好的人脸分类器提取人脸特征；将人脸特征与目标库的特征模板进行比对，返回目标库中与当前人脸特征相匹配的人脸识别信息。

于本发明一实施例中，从视频流中提取的图像帧为视频流的关键帧。

于本发明一实施例中，所述预处理包括人脸序列的筛选、图像的均衡化、图像的归一化、人脸矫正、图像缩放中的一种或组合；所述预定标准包括尺寸、人脸角度、图片亮度、清晰度中的一种或组合。

于本发明一实施例中，将预处理后的人脸序列输入循环神经网络进行训练，生成循环神经网络各层的权值包括以下步骤：

按照帧序获取若干张预处理后的人脸序列图像；

计算所获取的所有人脸序列图像的各个通道的均值；

随机选取一个人脸序列，将每个人脸序列图像的各个通道数据分别减去各个通道的均值；

将减去对应通道均值后的各个人脸序列图像输入一个包含多个卷积层的神经网络；

将每个人脸序列图像的各个通道的特征图合并成一个多通道的特征图；

按照帧序依次将属于各个人脸序列图像的特征图输入包含一个或多个LSTM层的神经网络；

将LSTM层的输出结果输入到全连接层；

将全连接层的输出结果采用softmax损失函数计算预处理后的人脸序列图像的损失，并将损失进行梯度的反向传播；

更新卷积层、LSTM层和全连接层的权值；

重复迭代上述步骤，直至循环神经网络收敛，以得到训练好的循环神经网络。

于本发明一实施例中，采用联合贝叶斯算法、SVM算法或LDA算法训练人脸分类器。

同时，本发明还提供一种基于循环神经网络的视频人脸识别系统，包括人脸跟踪模块、人脸序列预处理模块、深度模型训练模块、深度特征提取模块、人脸分类模块、人脸特征提取模块和人脸比对模块；

所述人脸跟踪模块用于从视频流中提取图像帧，跟踪人脸目标，获取人脸目标对应的人脸序列；

所述人脸序列预处理模块用于对人脸序列进行预处理，以获取满足预定标准的人脸序列；

所述深度模型训练模块用于将预处理后的人脸序列输入循环神经网络进行训练，更新循环神经网络各层的权值，以得到训练好的循环神经网络；

所述深度特征提取模块用于将预处理后的人脸序列输入训练好的循环神经网络，提取人脸序列的深度特征；

所述人脸分类模块用于利用人脸序列的深度特征训练人脸分类器；

所述人脸特征提取模块用于利用预处理后的人脸序列根据训练好的人脸分类器提取人脸特征；

所述人脸比对模块用于将人脸特征与目标库的特征模板进行比对，返回目标库中与当前人脸特征相匹配的人脸识别信息。

于本发明一实施例中，所述人脸跟踪模块从视频流中提取的图像帧为视频流的关键帧。

于本发明一实施例中，所述深度模型训练模块执行以下操作训练循环神经网络：

按照帧序获取若干张预处理后的人脸序列图像；

计算所获取的所有人脸序列图像的各个通道的均值；

将LSTM层的输出结果输入到全连接层；

更新卷积层、LSTM层和全连接层的权值；

于本发明一实施例中，所述人脸分类模块采用联合贝叶斯算法、SVM算法或LDA算法训练人脸分类器。

如上所述，本发明的基于循环神经网络的视频人脸识别方法及系统，具有以下有益效果：

(1)基于对人脸时空序列的学习，提高了视频人脸的识别精度；

(2)能够适应运动、姿态、光线、角度变化，提高了动态人脸识别的鲁棒性；

(3)在深度模型中进行多帧的融合，提取一个深度模型的特征，简化了识别的流程。

附图说明

图1显示为一个典型的循环神经网络模型的结构示意图；

图2显示为循环神经网络模型在时间上展开的示意图；

图3显示为一个典型的长短时期记忆模型的时间展开结构示意图；

图4显示为本发明的基于循环神经网络的视频人脸识别方法的流程图；

图5显示为一个典型的循环神经网络的框架示意图；

图6显示为本发明的基于循环神经网络的视频人脸识别系统的结构示意图。

元件标号说明

1 人脸跟踪模块

2 人脸序列预处理模块

3 深度模型训练模块

4 深度特征提取模块

5 人脸分类模块

6 人脸特征提取模块

7 人脸比对模块

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

循环神经网络(Recurrent Neural Networks，RNNs)是一种人工神经网络，它的人工神经元之间的连接形成一个有向环图，可以利用内部网络状态来处理动态时间行为。由于RNNs的特殊结构，非常适合用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的，这种普通的神经网络对于序列数据常常无能为力。RNNs之所以称为循环神经网络，是因为一个序列当前的输出与前面的输出也有关，网络的内部状态会对前面的信息进行记忆，并在当前环节的计算中使用这些记忆的信息，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNNs能够对任何长度的序列数据进行处理。

图1所示即为一个典型的RNNs模型的结构示意图。RNNs包含输入单元(Inputunits)、输出单元(Output units)和隐藏单元(Hidden units)。输入单元的输入集标记为{x₀,x₁,...,x_t,x_t+1,...}，输出单元的输出集标记为{o₀,o₁,...,o_t,o_t+1.,..}，隐藏单元的输出集标记为{s₀,s₁,...,s_t,s_t+1,...}。由图可知，有一条单向流动的信息流是从输入单元到达隐藏单元的。与此同时另一条单向流动的信息流从隐藏单元到达输出单元。在某些情况下，RNNs会打破后者的限制，引导信息从输出单元返回隐藏单元，这些被称为“BackProjections(反向投影)”，并且隐藏层的输入还包括上一隐藏层的状态，即隐藏层内的节点可以自连也可以互连。图2所示为RNNs模型在时间上展开的示意图。其中，U、V和W为参数。

长短时期记忆(Long-Short Term Memory，LSTM)是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟非常长的重要事件。由于采用梯度下降的方法来优化模型，传统的RNNs在时间域展开达到一定次数后会出现梯度消失或梯度爆炸的，使模型学习失败。LSTM有效地解决了这个问题，其包含有LSTM区块(blocks)，区块中的门(gate)决定输入是否重要到能被记住及能不能被输出。图3所示即为一个典型的LTSM模型的结构示意图。其中，每条线表示一个完整向量，从一个节点的输出到其他节点的输入。圆圈中的运算符号表示逐点操作，比如向量加法。线条合并表示串联，线条分叉表示内容复制并输入到不同地方。C_t-1

具体地，LSTM的前向算法如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，x_t-1和h_t-1分别表示前一个时间下的输入与输出，x和h分别表示当前时间下的输入与输出，C表示单元状态，f、i、o、分别代表遗忘门、输入门、输出门、候选值四个层，以相应的符号作为下标的W和b分别表示该层的权值和偏置，σ,tanh分别表示sigmoid与tanh函数，*表示矩阵对应元素相乘。

由于RNNs非常适合处理序列数据，而视频本来就是物体在时间与空间上的序列。因此，本发明的基于循环神经网络的视频人脸识别方法及系统从视频中提取人脸序列输入RNNs，来学习视频中的人脸特征，从而提高视频人脸识别的精度。

具体地，在RNNs的模型中，人脸序列中的各帧图像依次输入，由于RNNs在时间域上采用共享的权值进行展开，每一帧图像都与序列中的其他帧图像存在相关性，因此能够学习到人脸序列的相关信息。在测试阶段，人脸序列的各帧图像依次输入已经训练好的模型，这实际上是一种匹配前的融合，从模型提取特征后，只需与已经创建好的特征模板库进行一次比对，即可实现人脸识别。

参照图4，本发明的基于循环神经网络的视频人脸识别方法包括以下步骤：

步骤S1、从视频流中提取图像帧，跟踪人脸目标，获取人脸目标对应的人脸序列。

优选地，图像帧选取视频流的关键帧。该关键帧可以选取MPEG格式的视频中的I帧。由于I帧不使用运动补偿，故保存了完整的场景图像信息。对于GOP(Group ofPictures，画面组)比较大的视频，可以使用I帧和P帧。

其中，所跟踪的人脸目标可以是一个或多个人脸。所获取的人脸序列在时间上是连续的，由图像帧中的各个人脸图像组成。

步骤S2、对人脸序列进行预处理，以获取满足预定标准的人脸序列。

具体地，预处理包括人脸序列图像的筛选、图像的均衡化、图像的归一化、人脸矫正、图像缩放等中的一种或组合。其中，进行人脸序列图像的筛选时，根据人脸图像的质量如光线、角度等，筛除图像质量较差、不能满足要求的人脸图像。

预定标准包括尺寸、人脸角度、图片亮度、清晰度中的一种或组合。

步骤S3、将预处理后的人脸序列输入循环神经网络进行训练，更新循环神经网络各层的权值，以得到训练好的循环神经网络。

循环神经网络的典型结构如图5所示，其包括依次连接的卷积层、一层或多层结构的LSTM和全连接层。

具体地，步骤S3包括以下步骤：

301)按照帧序获取若干张预处理后的人脸序列图像。

具体地，将预处理后的n张人脸序列中的图像按帧序排列，分别标记为F_i，i＝0,1,2,...,n-1；并为同一个人的人脸序列图像分配一个相同的标签。

302)计算所获取的所有人脸序列图像的各个通道的均值。

其中，人脸序列图像由R、G、B三个颜色通道组成。具体地，通道均值等于所有人脸序列图像中相同像素点上通道的总值与人脸序列图像的张数的比值。

303)随机选取一个人脸序列，将每个人脸序列图像的各个通道数据分别减去各个通道的均值。

304)将减去对应通道均值后的各个人脸序列图像输入一个包含多个卷积层的神经网络。

305)将每个人脸序列图像的各个通道的特征图合并成一个多通道的特征图。

306)按照帧序依次将属于各个人脸序列图像的特征图输入包含一个或多个LSTM层的神经网络。

307)将LSTM层的输出结果输入到全连接层。

308)将全连接层的输出结果采用softmax损失函数计算预处理后的人脸序列图像的损失，并将损失进行梯度的反向传播。

309)更新卷积层、LSTM层和全连接层的权值；

310)重复迭代上述步骤301)-309)，直至循环神经网络收敛，以得到训练好的循环神经网络。需要说明的是，训练循环神经网络需要多次进行权值更新，直至模型收敛。

其中，采用基于时间反向传播算法(Back Propgation Through Time，BPTT)，用最小批量随机梯度下降的优化方法来更新各层的权值。

步骤S4、将预处理后的人脸序列输入训练好的循环神经网络，提取人脸序列的深度特征。

具体地，根据循环神经网络的各个层的权值与输入数据，计算得到的输出数据就即为深度特征。

步骤S5、利用人脸序列的深度特征训练人脸分类器。

具体地，采用联合贝叶斯算法、SVM算法或LDA算法训练人脸分类器，用于人脸分类。

步骤S6、利用预处理后的人脸序列根据训练好的人脸分类器提取人脸特征。

其中，人脸特征是指在深度特征基础上进行更精细的处理以后得到的最终特征。

步骤S7、将人脸特征与目标库的特征模板进行比对，返回目标库中与当前人脸特征相匹配的人脸识别信息。

具体地，在目标库中查找与人脸特征相匹配的特征模板，进而返回与该特征模板相对应的人脸信息，即人脸识别结果。

参照图6，本发明的基于循环神经网络的视频人脸识别系统包括依次连接的人脸跟踪模块1、人脸序列预处理模块2、深度模型训练模块3、深度特征提取模块4、人脸分类模块5、人脸特征提取模块6和人脸比对模块7。

人脸跟踪模块1用于从视频流中提取图像帧，跟踪人脸目标，获取人脸目标对应的人脸序列。

人脸序列预处理模块2用于对人脸序列进行预处理，以获取满足预定标准的人脸序列。

深度模型训练模块3用于将预处理后的人脸序列输入循环神经网络进行训练，更新循环神经网络各层的权值，以得到训练好的循环神经网络。

循环神经网络包括依次连接的卷积层、一层或多层结构的LSTM和全连接层。

具体地，深度模型训练模块3依次执行以下操作：

301)按照帧序获取若干张预处理后的人脸序列图像。

302)计算所获取的所有人脸序列图像的各个通道的均值。

307)将LSTM层的输出结果输入到全连接层。

309)更新卷积层、LSTM层和全连接层的权值；

310)重复迭代上述步骤301)-309)，直至循环神经网络收敛，以得到训练好的循环神经网络。

需要说明的是，训练循环神经网络需要多次进行权值更新，直至模型收敛。

其中，采用基于时间反向传播算法(Back Propgation Through Time，BPTT)，用随机梯度下降的优化方法来更新各层的权值。

深度特征提取模块4用于将预处理后的人脸序列输入训练好的循环神经网络，提取人脸序列的深度特征。

人脸分类模块5用于利用人脸序列的深度特征训练人脸分类器。

人脸特征提取模块6用于利用预处理后的人脸序列根据训练好的人脸分类器提取人脸特征。

人脸比对模块7用于将人脸特征与目标库的特征模板进行比对，返回目标库中与当前人脸特征相匹配的人脸识别信息。

综上所述，本发明的基于循环神经网络的视频人脸识别方法及系统基于对人脸时空序列的学习，提高了视频人脸的识别精度；能够适应运动、姿态、光线、角度变化，提高了动态人脸识别的鲁棒性；在深度模型中进行多帧的融合，提取一个深度模型的特征，简化了识别的流程。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于循环神经网络的视频人脸识别方法，其特征在于：包括以下步骤：

从视频流中提取图像帧，跟踪人脸目标，获取人脸目标对应的人脸序列；

对人脸序列进行预处理，以获取满足预定标准的人脸序列；

将预处理后的人脸序列输入循环神经网络进行训练，更新循环神经网络各层的权值，以得到训练好的循环神经网络；

将预处理后的人脸序列输入训练好的循环神经网络，提取人脸序列的深度特征；

利用人脸序列的深度特征训练人脸分类器；

利用预处理后的人脸序列根据训练好的人脸分类器提取人脸特征；

将人脸特征与目标库的特征模板进行比对，返回目标库中与当前人脸特征相匹配的人脸识别信息。

2.根据权利要求1所述的基于循环神经网络的视频人脸识别方法，其特征在于：从视频流中提取的图像帧为视频流的关键帧。

3.根据权利要求1所述的基于循环神经网络的视频人脸识别方法，其特征在于：所述预处理包括人脸序列的筛选、图像的均衡化、图像的归一化、人脸矫正、图像缩放中的一种或组合；所述预定标准包括尺寸、人脸角度、图片亮度、清晰度中的一种或组合。

4.根据权利要求1所述的基于循环神经网络的视频人脸识别方法，其特征在于：将预处理后的人脸序列输入循环神经网络进行训练，生成循环神经网络各层的权值包括以下步骤：

按照帧序获取若干张预处理后的人脸序列图像；

计算所获取的所有人脸序列图像的各个通道的均值；

将LSTM层的输出结果输入到全连接层；

更新卷积层、LSTM层和全连接层的权值；

5.根据权利要求1所述的基于循环神经网络的视频人脸识别方法，其特征在于：采用联合贝叶斯算法、SVM算法或LDA算法训练人脸分类器。

6.一种基于循环神经网络的视频人脸识别系统，其特征在于：包括人脸跟踪模块、人脸序列预处理模块、深度模型训练模块、深度特征提取模块、人脸分类模块、人脸特征提取模块和人脸比对模块；

7.根据权利要求6所述的基于循环神经网络的视频人脸识别系统，其特征在于：所述人脸跟踪模块从视频流中提取的图像帧为视频流的关键帧。

8.根据权利要求6所述的基于循环神经网络的视频人脸识别系统，其特征在于：所述预处理包括人脸序列的筛选、图像的均衡化、图像的归一化、人脸矫正、图像缩放中的一种或组合；所述预定标准包括尺寸、人脸角度、图片亮度、清晰度中的一种或组合。

9.根据权利要求6所述的基于循环神经网络的视频人脸识别系统，其特征在于：所述深度模型训练模块执行以下操作训练循环神经网络：

按照帧序获取若干张预处理后的人脸序列图像；

计算所获取的所有人脸序列图像的各个通道的均值；

将LSTM层的输出结果输入到全连接层；

更新卷积层、LSTM层和全连接层的权值；

10.根据权利要求6所述的基于循环神经网络的视频人脸识别系统，其特征在于：所述人脸分类模块采用联合贝叶斯算法、SVM算法或LDA算法训练人脸分类器。