CN113887509A

CN113887509A - 一种基于图像集合的快速多模态视频人脸识别方法

Info

Publication number: CN113887509A
Application number: CN202111242020.6A
Authority: CN
Inventors: 高希占; 牛四杰; 董吉文
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-04
Anticipated expiration: 2041-10-25
Also published as: CN113887509B

Abstract

本发明公开了一种基于图像集合的快速多模态视频人脸识别方法，所述方法的实现包括：输入多模态人脸视频序列视频数据，对所述多模态人脸视频序列视频数据进行预处理操作，以获得图像集数据；对获得的所述图像集数据进行建模表示，生成每个图像集的矩阵协方差；将所述矩阵协方差做为特征图像，输入到双向二维分数阶协方差相关分析中，优化求解后得到最优的投影方向，得到每个视频序列的特征图像，将所述特征图像投影到低维共享子空间，并进行信息融合；信息融合后，使用最近邻分类器进行分类。通过采用本发明的技术方案，能够有效减少视频识别时间，提高视频识别精度。

Description

一种基于图像集合的快速多模态视频人脸识别方法

技术领域

本发明涉及视频人脸识别技术领域，具体提供一种基于图像集合的快速多模态视频人脸识别方法。

背景技术

视觉是人类接收信息的主要方式，在人类感知外界的过程中起着十分重要的作用。随着社会的发展，“电子眼”逐渐代替人眼来观察记录世间万物，导致每天产生海量的图像、视频数据。网络直播、短视频等平台的普及则进一步加速了数据规模的增长。随着人工智能技术的发展，目前基于单幅图像的人脸识别方法已经较为成熟，但基于视频的人脸识别方法仍有待进一步研究，近年来受到了研究人员的广泛关注。与单幅图像相比，关于某人的视频人脸序列可以提供更加丰富的描述信息，例如不同的表情信息、不同的姿势信息、不同的光照信息等。然而如何充分利用、挖掘这些视频中含有的有用信息，则给研究者带来了很大的挑战，主要包括：如何针对视频内容进行紧致、有效的建模，以及如何针对该模型设计合理的度量准则。

作为一种新兴的模式识别方法，基于集合的视频人脸识别，即图像集分类近年来引起了研究者越来越多的关注，并取得了一些的研究成果。图像集分类的关键在于两点：集合的建模表示以及集合间距离的度量，而距离度量通常依赖于建模表示方法，因此从集合建模角度出发，图像集分类方法可以分为两类：即参数表示法和非参数表示法，其中：

参数表示法使用参数分布函数表示每个图像集，然后使用K-L散度来度量两个分布函数之间的相似性。但参数表示法具有明显的局限性，即如果训练图像集与测试图像集之间的统计相关性较弱，其性能会受到较大的影响。

非参数表示法则是使用一些更灵活的方式表示图像集，例如使用凸包(ConvexHull)、仿射包(Affine Hull)、子空间(Subspace)、图模型(Graph)、矩阵协方差(Covariance Matrix)、聚合特征向量等等。在这其中，矩阵协方差建模因其简洁有效性，被应用到了多种方法中。但目前存在的基于矩阵协方差建模的方法都是基于单模态特征构建的，最终的分类结果有待进一步提升，而且其无法有效处理多模态图像集分类问题。其次，基于矩阵协方差的方法在建模之后，通常会使用传统特征提取算法如LDA，PLS等进行度量学习，而这些算法计算复杂度通常较高，尤其是当样本维度比较大时。再者，建模方法中使用的矩阵协方差都是基于训练数据估算得到的，而这种估计有可能会偏离数据的真实分布。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种基于图像集合的快速多模态视频人脸识别方法，其能够提高图像集分类的效率和准确率。

为实现上述目的，本发明一方面提供了如下技术方案：

一种基于图像集合的快速多模态视频人脸识别方法，其特征在于，所述方法的实现包括步骤如下：

步骤1，输入多模态人脸视频序列数据，所述人脸视频序列是指经过镜头分割之后的视频片段，所述视频片段内部只包括特定人员；

步骤2，对步骤1中的所述多模态人脸视频序列数据进行预处理操作，以获得图像集数据；

步骤3，对步骤2获得的所述图像集数据进行建模表示，生成每个图像集的矩阵协方差；

步骤4，将步骤3获得的所述矩阵协方差作为特征图像，输入到双向二维分数阶协方差相关分析中，优化求解后得到最优的投影方向，进而得到每个视频序列的特征图像；

步骤5，将步骤4获得所述特征图像投影到低维共享子空间，并进行信息融合；

步骤6，信息融合后，使用最近邻分类器进行分类。

所述步骤1包括以下步骤：

步骤11，输入多模态人脸视频序列：

和

其中M是视频序列的数量。

所述步骤2包括以下步骤：

步骤21，使用Viola-Jones人脸检测器或MTCNN人脸检测器对视频中的每帧图像进行人脸检测，得到只包含人脸区域的图像，并对人脸图像进行对齐，改变大小等操作使得所有人脸图像具有相同的大小；

步骤22，首先将步骤21获得的人脸图像转为灰度图像，然后对其进行直方图均衡化处理，以减轻光照变化产生的影响，最后每幅图像都作为一个矩阵，从而将一个人脸视频序列变为一个图像集合，即

和

分别表示第i个图像集的两种不同的模态特征，其中

表示第i个图像集X_i中的第j幅图像，m_i表示第i个图像集X_i中一共含有m_i幅人脸图像。

所述步骤3包括以下步骤：

步骤31，使用矩阵协方差对每个图像集进行建模表示，其中：图像集X_i的矩阵协方差估算为：

这是一种无偏估计，其中

表示图像集合X_i中所有图像的均值；

图像集Y_i的矩阵协方差估算为：

步骤32，对每个矩阵协方差添加扰动

确保矩阵是非奇异的；使用相同的矩阵协方差估算方式，将上面的两组图像集数据表示为：

和

即每个目标都有两个不同的模态特征进行描述

所述步骤4包括以下步骤：

步骤41，将步骤32获得的矩阵协方差作为视频序列的特征图像，但该特征图像位于黎曼流形(具体来说是对称正定流形)上，而不是欧氏空间中，这意味着我们无法直接对其进行处理。为解决上述问题，本发明首先使用log映射函数将矩阵协方差从黎曼流形映射到其对应的切空间(属于欧氏空间)：

其中

是对

进行的特征值分解；

最终，所有输入变为：

和

步骤42，以步骤41获得的图像矩阵为处理对象进行双向二维典型相关分析，通过寻找两对最优的投影方向l_x,l_y和r_x，r_y来最大化投影后变量

和

之间的相关性；

步骤43，以双向二维典型相关分析为基础构建双向二维分数阶嵌入典型相关分析；

通过步骤42可以看到，双向二维典型相关分析在构造时需要根据训练数据计算模内协方差矩阵和模间协方差矩阵。研究指出，基于训练数据对矩阵协方差进行估算容易受到噪声的影响，并有可能会偏离数据的真实分布，进而影响分类效果。为解决该问题，本发明通过引入分数阶重建的方法，即使用分数阶特征值或奇异值对矩阵协方差进行重建，得到分数阶协方差矩阵；

步骤44，双向二维分数阶嵌入典型相关分析的目标函数描述为：

同样基于迭代优化的思想，通过特征值分解并取前d个最大特征值对应的特征向量，最终得到最优的投影方向：L_x，L_y，R_x，R_y；

步骤45，将步骤41获得的数据输入到双向二维分数阶嵌入典型相关分析算法中，得到双向二维分数阶嵌入协方差相关分析算法，通过训练后，得到视频序列数据对应的投影方向：

所述步骤42中输入为两组矩阵变量

和

其目标函数为：

其中

为模内协方差矩阵，

为模间协方差矩阵。

所述协方差矩阵模型是非凸优化问题，通过迭代法进行求解，依次固定l_x，l_y和r_x，r_y，并使用拉格朗日乘子法对子优化问题进行求解。

所述步骤43中，模内协方差矩阵为

先对

进行特征值分解：

其中

为特征向量构成的矩阵，

表示特征值，r₁是矩陌

的秩；

其分数阶协方差矩阵可以重建为：

其中

表示分数阶特征值矩阵，α_r是大于等于0小于等于1的分数；

其次，对于模间协方差矩阵

首先对其进行奇异值分解：

其中P^r，Q^r表示奇异值矩阵，

表示奇异值，r₃是矩阵

的秩。其分数阶协方差矩阵可以重建为：

其中

表示分数阶奇异值矩阵，β_r是一个分数。

所述步骤5包括步骤如下：

步骤51，建立输入视频样本对

使用步骤45学习到的投影方向，将所述输入视频样本对投影到低维共享子空间：

步骤52，使用下列公式对投影后的低维特征进行特征融合：

步骤53，将融合特征拉成列向量。

所述步骤6包括以下步骤：

步骤61，对于待分类的多模态视频序列，首先依次人脸检测、矩阵协方差计算、log映射、特征投影、特征融合操作后，得到对应的融合特征向量；

步骤62，对融合特征使用1-最近邻(1-NN)分类器进行分类，输出待分类样本的类别标签。

与现有技术相比，本发明一种基于图像集合的快速多模态视频人脸识别方法具有以下突出的有益效果：

本发明通过输入多模态人脸视频序列；对视频数据进行预处理操作，以获得图像集数据；对获得的图像集数据使用矩阵协方差进行建模表示；把每个图像集的矩阵协方差看作是特征图像，并输入到双向二维分数阶协方差相关分析中，优化求解后得到最优的投影方向；利用最优投影方向将每个视频序列的特征图像投影到低维共享子空间，并进行信息融合；对于新的测试数据，经过与上述相同的操作后，使用最近邻分类器进行分类。通过采用本发明的技术方案，能够有效减少视频识别时间，提高视频识别精度。

附图说明

图1是本发明所述方法实现的流程图；

图2是本发明人脸检测效果图；

图3是本发明经过预处理后某个图像集中的部分图像；

图4是本发明基于双向二维分数阶嵌入协方差相关分析进行信息融合的流程图。

图5是根据各算法在公开数据库Honda/UCSD中进行实验的分类准确率的柱状图；

图6是本发明图像集分类结果图。

具体实施方式

下面将结合附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明实施例提供的一种基于图像集合的快速多模态视频人脸识别方法，包括以下步骤：

步骤1，输入多模态人脸视频序列，所述人脸视频序列是指经过镜头分割之后的视频片段，内部只包括特定人员；

步骤11，输入多模态人脸视频序列：

和

其中M是视频序列的数量。

步骤2，对步骤1中的视频数据进行预处理操作，以获得图像集数据；

步骤21，使用Viola-Jones人脸检测器或MTCNN人脸检测器对视频中的每帧图像进行人脸检测，得到只包含人脸区域的图像，并对人脸图像进行对齐，改变大小等操作使得所有人脸图像具有相同的大小。

步骤22，首先将步骤21获得的人脸图像转为灰度图像，然后对其进行直方图均衡化处理，以减轻光照变化产生的影响，最后每幅图像都是一个矩阵。从而一个人脸视频序列变为一个图像集合，即

和

分别表示第i个图像集的两种不同的模态特征，其中

步骤3，对步骤2获得的图像集数据进行建模表示，即生成每个图像集的矩阵协方差；

步骤31，使用矩阵协方差对每个图像集进行建模表示。以图像集X_i为例，其矩阵协方差可以估算为：

这是一种无偏估计，其中

表示图像集合X_i中所有图像的均值。同理，图像集Y_i可以表示为：

步骤32，对每个矩阵协方差添加扰动

确保矩阵是非奇异的。使用相同的方式，上面的两组图像集数据可以表示为：

和

即每个目标都有两个不同的模态特征进行描述

步骤4，将步骤3获得的矩阵协方差看作是特征图像，并输入到双向二维分数阶协方差相关分析中，优化求解后得到最优的投影方向；

步骤41，将步骤32获得的矩阵协方差看作是视频序列的特征图像，但该特征图像位于黎曼流形(具体来说是对称正定流形)上，而不是欧氏空间中，这意味着我们无法直接对其进行处理。为解决上述问题，本发明首先使用log映射函数将矩阵协方差从黎曼流形映射到其对应的切空间(属于欧氏空间)：

其中

是对

进行的特征值分解。最终，所有输入变为：

和

步骤42，双向二维典型相关分析以图像矩阵为处理对象，通过寻找两对最优的投影方向l_x,l_y和r_x，r_y来最大化投影后变量

和

之间的相关性。这里假设输入为两组矩阵变量

和

其目标函数为：

其中

为模内协方差矩阵，

为模间协方差矩阵。通过分析可知上述模型是非凸优化问题，可以通过迭代法进行求解。即依次固定l_x,l_y和r_x，r_y，并使用拉格朗日乘子法对子优化问题进行求解。

步骤43，以双向二维典型相关分析为基础构建双向二维分数阶嵌入典型相关分析。通过步骤42可以看到，双向二维典型相关分析在构造时需要根据训练数据计算模内协方差矩阵和模间协方差矩阵。有研究人员指出，基于训练数据对矩阵协方差进行估算容易受到噪声的影响，并有可能会偏离数据的真实分布，进而影响分类效果。为解决该问题，本发明将引入分数阶重建的思想，即使用分数阶特征值或奇异值对矩阵协方差进行重建，得到分数阶协方差矩阵。以模内协方差矩阵

为例，先对

进行特征值分解：

其中

为特征向量构成的矩阵，

表示特征值，r₁是矩阵

的秩。其分数阶协方差矩阵可以重建为：

其中

表示分数阶特征值矩阵，α_r是大于等于0小于等于1的分数。

其次，对于模间协方差矩阵

首先对其进行奇异值分解：

其中P^r，Q^r表示奇异值矩阵，

表示奇异值，r₃是矩阵

的秩。其分数阶协方差矩阵可以重建为：

其中

表示分数阶奇异值矩阵，β_r是一个分数。

步骤44，双向二维分数阶嵌入典型相关分析的目标函数可以描述为：

同样基于迭代优化的思想，通过特征值分解并取前d个最大特征值对应的特征向量，最终得到最优的投影方向：L_x，L_y，R_x，R_y。

步骤45，将步骤41获得的数据输入到双向二维分数阶嵌入典型相关分析算法中，得到双向二维分数阶嵌入协方差相关分析算法。通过训练后，得到视频序列数据对应的投影方向：

步骤5，将步骤3获得的每个视频序列的特征图像投影到低维共享子空间，并进行信息融合；

步骤51，对于输入视频样本对

使用步骤45学习到的投影方向，将它们投影到低维共享子空间：

步骤52，使用下列公式对投影后的低维特征进行特征融合：

步骤53，将融合特征拉成列向量。

步骤6，对于新的测试数据，经过预处理、建模、映射后，同样投影到低维共享子空间，在该空间进行信息融合后，使用最近邻分类器进行分类。

步骤61，对于待分类的多模态视频序列，首先按照上面的步骤，依次人脸检测、矩阵协方差计算、log映射、特征投影、特征融合操作后，得到对应的融合特征向量。

图2展示了一种人脸检测效果图，其输入为视频序列，输出为每一帧图像的检测结果，从图中可以看到，检测到的人脸会使用矩形框选出来。这里以Viola-Jones人脸检测器为例，其包括如下步骤：

(1)使用类Haar输入特征：对矩形图像区域的和或差进行阈值化；

(2)积分图像技术加速了矩形图像区域的45度旋转的值的计算，这个图像结构被用来加速类Haar输入特征的计算。

(3)使用Adaboost来创建二分类问题(人脸与非人脸)的分类器节点(高通过率，低拒绝率)。

(4)把分类器节点组成筛选式级联(在筛选式级联里，一个节点是Adaboost类型的一组分类器)。换句话说：第一组分类器是最优，能通过包含物体的图像区域，同时允许一些不包含物体的图像通过；第二组分类器次优分类器，也有较低的拒绝率；以此类推。只要图像通过了整个级联，则认为里面有物体。这保证了级联的运行速度可以很快，因为它一般可以在前几步就可以拒绝不包含物体的图像区域，而不必走完整个级联。

如图3所示，图像集构造过程如下：

(1)裁剪出检测到的人脸区域；

(2)对裁剪后的人脸图像进行对齐，改变大小等操作使得所有人脸图像具有相同的大小；

(3)获得的人脸图像转为灰度图像，然后对其进行直方图均衡化处理，以减轻光照变化产生的影响。

算例：本发明以多模态视频序列(即图像集)数据作为输入，采用本发明公开的一种基于图像集合的快速多模态视频人脸识别方法进行多模态视频序列的融合、识别。

本算例的流程图如图4所示，具体步骤包括：

第一步，输入多模态图像集数据：即

和

分别表示第i个图像集的两种不同的模态特征，其中

第二步，使用矩阵协方差对每个图像集进行建模表示。以图像集X_i为例，其矩阵协方差可以估算为：

这是一种无偏估计，其中

第三步，将上述步骤获得的矩阵协方差看作是视频序列的特征图像，但该特征图像位于黎曼流形(具体来说位于对称正定流形)，而不是欧氏空间中，这意味着我们无法直接对其进行处理。为解决上述问题，本发明首先使用log映射函数将矩阵协方差从黎曼流形映射到其对应的切空间(属于欧氏空间)：

其中

是对

进行的特征值分解。同理，

第四步，将第三步获得的特征图像带入到双向二维分数阶嵌入协方差相关分析，进而学习最优的投影方向：

第五步，对于输入视频样本对

使用学习到的投影方向，将它们投影到低维共享子空间：

最后，使用下列公式对投影后的低维特征进行特征融合：

训练完成后，使用测试集进行测试，得到最终的识别结果，结果如图5、6所示。图5展示了双向二维分数阶嵌入协方差相关分析方法在真实数据库Honda上面的分类准确率。图6展示了以“训练时间”和“测试时间”为度量标准，和现有方法在Honda数据库上的对比结果。从实验结果可以看出，在识别准确率接近的情况下，本发明用时更短。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。