CN113887509A - 一种基于图像集合的快速多模态视频人脸识别方法 - Google Patents

一种基于图像集合的快速多模态视频人脸识别方法 Download PDF

Info

Publication number
CN113887509A
CN113887509A CN202111242020.6A CN202111242020A CN113887509A CN 113887509 A CN113887509 A CN 113887509A CN 202111242020 A CN202111242020 A CN 202111242020A CN 113887509 A CN113887509 A CN 113887509A
Authority
CN
China
Prior art keywords
matrix
image
covariance
video
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111242020.6A
Other languages
English (en)
Other versions
CN113887509B (zh
Inventor
高希占
牛四杰
董吉文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202111242020.6A priority Critical patent/CN113887509B/zh
Publication of CN113887509A publication Critical patent/CN113887509A/zh
Application granted granted Critical
Publication of CN113887509B publication Critical patent/CN113887509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/38Registration of image sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像集合的快速多模态视频人脸识别方法,所述方法的实现包括:输入多模态人脸视频序列视频数据,对所述多模态人脸视频序列视频数据进行预处理操作,以获得图像集数据;对获得的所述图像集数据进行建模表示,生成每个图像集的矩阵协方差;将所述矩阵协方差做为特征图像,输入到双向二维分数阶协方差相关分析中,优化求解后得到最优的投影方向,得到每个视频序列的特征图像,将所述特征图像投影到低维共享子空间,并进行信息融合;信息融合后,使用最近邻分类器进行分类。通过采用本发明的技术方案,能够有效减少视频识别时间,提高视频识别精度。

Description

一种基于图像集合的快速多模态视频人脸识别方法
技术领域
本发明涉及视频人脸识别技术领域,具体提供一种基于图像集合的快速多模态视频人脸识别方法。
背景技术
视觉是人类接收信息的主要方式,在人类感知外界的过程中起着十分重要的作用。随着社会的发展,“电子眼”逐渐代替人眼来观察记录世间万物,导致每天产生海量的图像、视频数据。网络直播、短视频等平台的普及则进一步加速了数据规模的增长。随着人工智能技术的发展,目前基于单幅图像的人脸识别方法已经较为成熟,但基于视频的人脸识别方法仍有待进一步研究,近年来受到了研究人员的广泛关注。与单幅图像相比,关于某人的视频人脸序列可以提供更加丰富的描述信息,例如不同的表情信息、不同的姿势信息、不同的光照信息等。然而如何充分利用、挖掘这些视频中含有的有用信息,则给研究者带来了很大的挑战,主要包括:如何针对视频内容进行紧致、有效的建模,以及如何针对该模型设计合理的度量准则。
作为一种新兴的模式识别方法,基于集合的视频人脸识别,即图像集分类近年来引起了研究者越来越多的关注,并取得了一些的研究成果。图像集分类的关键在于两点:集合的建模表示以及集合间距离的度量,而距离度量通常依赖于建模表示方法,因此从集合建模角度出发,图像集分类方法可以分为两类:即参数表示法和非参数表示法,其中:
参数表示法使用参数分布函数表示每个图像集,然后使用K-L散度来度量两个分布函数之间的相似性。但参数表示法具有明显的局限性,即如果训练图像集与测试图像集之间的统计相关性较弱,其性能会受到较大的影响。
非参数表示法则是使用一些更灵活的方式表示图像集,例如使用凸包(ConvexHull)、仿射包(Affine Hull)、子空间(Subspace)、图模型(Graph)、矩阵协方差(Covariance Matrix)、聚合特征向量等等。在这其中,矩阵协方差建模因其简洁有效性,被应用到了多种方法中。但目前存在的基于矩阵协方差建模的方法都是基于单模态特征构建的,最终的分类结果有待进一步提升,而且其无法有效处理多模态图像集分类问题。其次,基于矩阵协方差的方法在建模之后,通常会使用传统特征提取算法如LDA,PLS等进行度量学习,而这些算法计算复杂度通常较高,尤其是当样本维度比较大时。再者,建模方法中使用的矩阵协方差都是基于训练数据估算得到的,而这种估计有可能会偏离数据的真实分布。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种基于图像集合的快速多模态视频人脸识别方法,其能够提高图像集分类的效率和准确率。
为实现上述目的,本发明一方面提供了如下技术方案:
一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述方法的实现包括步骤如下:
步骤1,输入多模态人脸视频序列数据,所述人脸视频序列是指经过镜头分割之后的视频片段,所述视频片段内部只包括特定人员;
步骤2,对步骤1中的所述多模态人脸视频序列数据进行预处理操作,以获得图像集数据;
步骤3,对步骤2获得的所述图像集数据进行建模表示,生成每个图像集的矩阵协方差;
步骤4,将步骤3获得的所述矩阵协方差作为特征图像,输入到双向二维分数阶协方差相关分析中,优化求解后得到最优的投影方向,进而得到每个视频序列的特征图像;
步骤5,将步骤4获得所述特征图像投影到低维共享子空间,并进行信息融合;
步骤6,信息融合后,使用最近邻分类器进行分类。
所述步骤1包括以下步骤:
步骤11,输入多模态人脸视频序列:
Figure BDA0003319532910000024
Figure BDA0003319532910000025
其中M是视频序列的数量。
所述步骤2包括以下步骤:
步骤21,使用Viola-Jones人脸检测器或MTCNN人脸检测器对视频中的每帧图像进行人脸检测,得到只包含人脸区域的图像,并对人脸图像进行对齐,改变大小等操作使得所有人脸图像具有相同的大小;
步骤22,首先将步骤21获得的人脸图像转为灰度图像,然后对其进行直方图均衡化处理,以减轻光照变化产生的影响,最后每幅图像都作为一个矩阵,从而将一个人脸视频序列变为一个图像集合,即
Figure BDA0003319532910000021
Figure BDA0003319532910000022
分别表示第i个图像集的两种不同的模态特征,其中
Figure BDA0003319532910000023
表示第i个图像集Xi中的第j幅图像,mi表示第i个图像集Xi中一共含有mi幅人脸图像。
所述步骤3包括以下步骤:
步骤31,使用矩阵协方差对每个图像集进行建模表示,其中:图像集Xi的矩阵协方差估算为:
Figure BDA0003319532910000031
这是一种无偏估计,其中
Figure BDA0003319532910000032
表示图像集合Xi中所有图像的均值;
图像集Yi的矩阵协方差估算为:
Figure BDA0003319532910000033
步骤32,对每个矩阵协方差添加扰动
Figure BDA0003319532910000034
确保矩阵是非奇异的;使用相同的矩阵协方差估算方式,将上面的两组图像集数据表示为:
Figure BDA0003319532910000035
Figure BDA0003319532910000036
即每个目标都有两个不同的模态特征进行描述
Figure BDA0003319532910000037
所述步骤4包括以下步骤:
步骤41,将步骤32获得的矩阵协方差作为视频序列的特征图像,但该特征图像位于黎曼流形(具体来说是对称正定流形)上,而不是欧氏空间中,这意味着我们无法直接对其进行处理。为解决上述问题,本发明首先使用log映射函数将矩阵协方差从黎曼流形映射到其对应的切空间(属于欧氏空间):
Figure BDA0003319532910000038
其中
Figure BDA0003319532910000039
是对
Figure BDA00033195329100000310
进行的特征值分解;
最终,所有输入变为:
Figure BDA00033195329100000311
Figure BDA00033195329100000312
步骤42,以步骤41获得的图像矩阵为处理对象进行双向二维典型相关分析,通过寻找两对最优的投影方向lx,ly和rx,ry来最大化投影后变量
Figure BDA00033195329100000313
Figure BDA00033195329100000314
之间的相关性;
步骤43,以双向二维典型相关分析为基础构建双向二维分数阶嵌入典型相关分析;
通过步骤42可以看到,双向二维典型相关分析在构造时需要根据训练数据计算模内协方差矩阵和模间协方差矩阵。研究指出,基于训练数据对矩阵协方差进行估算容易受到噪声的影响,并有可能会偏离数据的真实分布,进而影响分类效果。为解决该问题,本发明通过引入分数阶重建的方法,即使用分数阶特征值或奇异值对矩阵协方差进行重建,得到分数阶协方差矩阵;
步骤44,双向二维分数阶嵌入典型相关分析的目标函数描述为:
Figure BDA0003319532910000041
同样基于迭代优化的思想,通过特征值分解并取前d个最大特征值对应的特征向量,最终得到最优的投影方向:Lx,Ly,Rx,Ry
步骤45,将步骤41获得的数据输入到双向二维分数阶嵌入典型相关分析算法中,得到双向二维分数阶嵌入协方差相关分析算法,通过训练后,得到视频序列数据对应的投影方向:
Figure BDA0003319532910000042
所述步骤42中输入为两组矩阵变量
Figure BDA0003319532910000043
Figure BDA0003319532910000044
其目标函数为:
Figure BDA0003319532910000045
其中
Figure BDA0003319532910000046
为模内协方差矩阵,
Figure BDA0003319532910000047
为模间协方差矩阵。
所述协方差矩阵模型是非凸优化问题,通过迭代法进行求解,依次固定lx,ly和rx,ry,并使用拉格朗日乘子法对子优化问题进行求解。
所述步骤43中,模内协方差矩阵为
Figure BDA0003319532910000048
先对
Figure BDA0003319532910000049
进行特征值分解:
Figure BDA00033195329100000410
其中
Figure BDA00033195329100000411
为特征向量构成的矩阵,
Figure BDA00033195329100000412
表示特征值,r1是矩陌
Figure BDA00033195329100000413
的秩;
其分数阶协方差矩阵可以重建为:
Figure BDA00033195329100000414
其中
Figure BDA00033195329100000415
表示分数阶特征值矩阵,αr是大于等于0小于等于1的分数;
其次,对于模间协方差矩阵
Figure BDA00033195329100000416
首先对其进行奇异值分解:
Figure BDA00033195329100000417
其中Pr,Qr表示奇异值矩阵,
Figure BDA0003319532910000051
表示奇异值,r3是矩阵
Figure BDA0003319532910000052
的秩。其分数阶协方差矩阵可以重建为:
Figure BDA0003319532910000053
其中
Figure BDA0003319532910000054
表示分数阶奇异值矩阵,βr是一个分数。
所述步骤5包括步骤如下:
步骤51,建立输入视频样本对
Figure BDA0003319532910000055
使用步骤45学习到的投影方向,将所述输入视频样本对投影到低维共享子空间:
Figure BDA0003319532910000056
步骤52,使用下列公式对投影后的低维特征进行特征融合:
Figure BDA0003319532910000057
步骤53,将融合特征拉成列向量。
所述步骤6包括以下步骤:
步骤61,对于待分类的多模态视频序列,首先依次人脸检测、矩阵协方差计算、log映射、特征投影、特征融合操作后,得到对应的融合特征向量;
步骤62,对融合特征使用1-最近邻(1-NN)分类器进行分类,输出待分类样本的类别标签。
与现有技术相比,本发明一种基于图像集合的快速多模态视频人脸识别方法具有以下突出的有益效果:
本发明通过输入多模态人脸视频序列;对视频数据进行预处理操作,以获得图像集数据;对获得的图像集数据使用矩阵协方差进行建模表示;把每个图像集的矩阵协方差看作是特征图像,并输入到双向二维分数阶协方差相关分析中,优化求解后得到最优的投影方向;利用最优投影方向将每个视频序列的特征图像投影到低维共享子空间,并进行信息融合;对于新的测试数据,经过与上述相同的操作后,使用最近邻分类器进行分类。通过采用本发明的技术方案,能够有效减少视频识别时间,提高视频识别精度。
附图说明
图1是本发明所述方法实现的流程图;
图2是本发明人脸检测效果图;
图3是本发明经过预处理后某个图像集中的部分图像;
图4是本发明基于双向二维分数阶嵌入协方差相关分析进行信息融合的流程图。
图5是根据各算法在公开数据库Honda/UCSD中进行实验的分类准确率的柱状图;
图6是本发明图像集分类结果图。
具体实施方式
下面将结合附图和实施例,对本发明作进一步详细说明。
如图1所示,本发明实施例提供的一种基于图像集合的快速多模态视频人脸识别方法,包括以下步骤:
步骤1,输入多模态人脸视频序列,所述人脸视频序列是指经过镜头分割之后的视频片段,内部只包括特定人员;
步骤11,输入多模态人脸视频序列:
Figure BDA0003319532910000067
Figure BDA0003319532910000068
其中M是视频序列的数量。
步骤2,对步骤1中的视频数据进行预处理操作,以获得图像集数据;
步骤21,使用Viola-Jones人脸检测器或MTCNN人脸检测器对视频中的每帧图像进行人脸检测,得到只包含人脸区域的图像,并对人脸图像进行对齐,改变大小等操作使得所有人脸图像具有相同的大小。
步骤22,首先将步骤21获得的人脸图像转为灰度图像,然后对其进行直方图均衡化处理,以减轻光照变化产生的影响,最后每幅图像都是一个矩阵。从而一个人脸视频序列变为一个图像集合,即
Figure BDA0003319532910000061
Figure BDA0003319532910000062
分别表示第i个图像集的两种不同的模态特征,其中
Figure BDA0003319532910000063
表示第i个图像集Xi中的第j幅图像,mi表示第i个图像集Xi中一共含有mi幅人脸图像。
步骤3,对步骤2获得的图像集数据进行建模表示,即生成每个图像集的矩阵协方差;
步骤31,使用矩阵协方差对每个图像集进行建模表示。以图像集Xi为例,其矩阵协方差可以估算为:
Figure BDA0003319532910000064
这是一种无偏估计,其中
Figure BDA0003319532910000065
表示图像集合Xi中所有图像的均值。同理,图像集Yi可以表示为:
Figure BDA0003319532910000066
步骤32,对每个矩阵协方差添加扰动
Figure BDA0003319532910000071
确保矩阵是非奇异的。使用相同的方式,上面的两组图像集数据可以表示为:
Figure BDA0003319532910000072
Figure BDA0003319532910000073
即每个目标都有两个不同的模态特征进行描述
Figure BDA0003319532910000074
步骤4,将步骤3获得的矩阵协方差看作是特征图像,并输入到双向二维分数阶协方差相关分析中,优化求解后得到最优的投影方向;
步骤41,将步骤32获得的矩阵协方差看作是视频序列的特征图像,但该特征图像位于黎曼流形(具体来说是对称正定流形)上,而不是欧氏空间中,这意味着我们无法直接对其进行处理。为解决上述问题,本发明首先使用log映射函数将矩阵协方差从黎曼流形映射到其对应的切空间(属于欧氏空间):
Figure BDA0003319532910000075
其中
Figure BDA0003319532910000076
是对
Figure BDA0003319532910000077
进行的特征值分解。最终,所有输入变为:
Figure BDA0003319532910000078
Figure BDA0003319532910000079
步骤42,双向二维典型相关分析以图像矩阵为处理对象,通过寻找两对最优的投影方向lx,ly和rx,ry来最大化投影后变量
Figure BDA00033195329100000710
Figure BDA00033195329100000711
之间的相关性。这里假设输入为两组矩阵变量
Figure BDA00033195329100000712
Figure BDA00033195329100000713
其目标函数为:
Figure BDA00033195329100000714
其中
Figure BDA00033195329100000715
为模内协方差矩阵,
Figure BDA00033195329100000716
为模间协方差矩阵。通过分析可知上述模型是非凸优化问题,可以通过迭代法进行求解。即依次固定lx,ly和rx,ry,并使用拉格朗日乘子法对子优化问题进行求解。
步骤43,以双向二维典型相关分析为基础构建双向二维分数阶嵌入典型相关分析。通过步骤42可以看到,双向二维典型相关分析在构造时需要根据训练数据计算模内协方差矩阵和模间协方差矩阵。有研究人员指出,基于训练数据对矩阵协方差进行估算容易受到噪声的影响,并有可能会偏离数据的真实分布,进而影响分类效果。为解决该问题,本发明将引入分数阶重建的思想,即使用分数阶特征值或奇异值对矩阵协方差进行重建,得到分数阶协方差矩阵。以模内协方差矩阵
Figure BDA00033195329100000717
为例,先对
Figure BDA00033195329100000718
进行特征值分解:
Figure BDA0003319532910000081
其中
Figure BDA0003319532910000082
为特征向量构成的矩阵,
Figure BDA0003319532910000083
表示特征值,r1是矩阵
Figure BDA0003319532910000084
的秩。其分数阶协方差矩阵可以重建为:
Figure BDA0003319532910000085
其中
Figure BDA0003319532910000086
表示分数阶特征值矩阵,αr是大于等于0小于等于1的分数。
其次,对于模间协方差矩阵
Figure BDA0003319532910000087
首先对其进行奇异值分解:
Figure BDA0003319532910000088
其中Pr,Qr表示奇异值矩阵,
Figure BDA0003319532910000089
表示奇异值,r3是矩阵
Figure BDA00033195329100000810
的秩。其分数阶协方差矩阵可以重建为:
Figure BDA00033195329100000811
其中
Figure BDA00033195329100000812
表示分数阶奇异值矩阵,βr是一个分数。
步骤44,双向二维分数阶嵌入典型相关分析的目标函数可以描述为:
Figure BDA00033195329100000813
同样基于迭代优化的思想,通过特征值分解并取前d个最大特征值对应的特征向量,最终得到最优的投影方向:Lx,Ly,Rx,Ry
步骤45,将步骤41获得的数据输入到双向二维分数阶嵌入典型相关分析算法中,得到双向二维分数阶嵌入协方差相关分析算法。通过训练后,得到视频序列数据对应的投影方向:
Figure BDA00033195329100000814
步骤5,将步骤3获得的每个视频序列的特征图像投影到低维共享子空间,并进行信息融合;
步骤51,对于输入视频样本对
Figure BDA0003319532910000091
使用步骤45学习到的投影方向,将它们投影到低维共享子空间:
Figure BDA0003319532910000092
步骤52,使用下列公式对投影后的低维特征进行特征融合:
Figure BDA0003319532910000093
步骤53,将融合特征拉成列向量。
步骤6,对于新的测试数据,经过预处理、建模、映射后,同样投影到低维共享子空间,在该空间进行信息融合后,使用最近邻分类器进行分类。
步骤61,对于待分类的多模态视频序列,首先按照上面的步骤,依次人脸检测、矩阵协方差计算、log映射、特征投影、特征融合操作后,得到对应的融合特征向量。
步骤62,对融合特征使用1-最近邻(1-NN)分类器进行分类,输出待分类样本的类别标签。
图2展示了一种人脸检测效果图,其输入为视频序列,输出为每一帧图像的检测结果,从图中可以看到,检测到的人脸会使用矩形框选出来。这里以Viola-Jones人脸检测器为例,其包括如下步骤:
(1)使用类Haar输入特征:对矩形图像区域的和或差进行阈值化;
(2)积分图像技术加速了矩形图像区域的45度旋转的值的计算,这个图像结构被用来加速类Haar输入特征的计算。
(3)使用Adaboost来创建二分类问题(人脸与非人脸)的分类器节点(高通过率,低拒绝率)。
(4)把分类器节点组成筛选式级联(在筛选式级联里,一个节点是Adaboost类型的一组分类器)。换句话说:第一组分类器是最优,能通过包含物体的图像区域,同时允许一些不包含物体的图像通过;第二组分类器次优分类器,也有较低的拒绝率;以此类推。只要图像通过了整个级联,则认为里面有物体。这保证了级联的运行速度可以很快,因为它一般可以在前几步就可以拒绝不包含物体的图像区域,而不必走完整个级联。
如图3所示,图像集构造过程如下:
(1)裁剪出检测到的人脸区域;
(2)对裁剪后的人脸图像进行对齐,改变大小等操作使得所有人脸图像具有相同的大小;
(3)获得的人脸图像转为灰度图像,然后对其进行直方图均衡化处理,以减轻光照变化产生的影响。
算例:本发明以多模态视频序列(即图像集)数据作为输入,采用本发明公开的一种基于图像集合的快速多模态视频人脸识别方法进行多模态视频序列的融合、识别。
本算例的流程图如图4所示,具体步骤包括:
第一步,输入多模态图像集数据:即
Figure BDA0003319532910000101
Figure BDA0003319532910000102
分别表示第i个图像集的两种不同的模态特征,其中
Figure BDA0003319532910000103
表示第i个图像集Xi中的第j幅图像,mi表示第i个图像集Xi中一共含有mi幅人脸图像。
第二步,使用矩阵协方差对每个图像集进行建模表示。以图像集Xi为例,其矩阵协方差可以估算为:
Figure BDA0003319532910000104
这是一种无偏估计,其中
Figure BDA0003319532910000105
表示图像集合Xi中所有图像的均值。同理,图像集Yi可以表示为:
Figure BDA0003319532910000106
第三步,将上述步骤获得的矩阵协方差看作是视频序列的特征图像,但该特征图像位于黎曼流形(具体来说位于对称正定流形),而不是欧氏空间中,这意味着我们无法直接对其进行处理。为解决上述问题,本发明首先使用log映射函数将矩阵协方差从黎曼流形映射到其对应的切空间(属于欧氏空间):
Figure BDA0003319532910000107
其中
Figure BDA0003319532910000108
是对
Figure BDA0003319532910000109
进行的特征值分解。同理,
Figure BDA00033195329100001010
第四步,将第三步获得的特征图像带入到双向二维分数阶嵌入协方差相关分析,进而学习最优的投影方向:
Figure BDA00033195329100001011
第五步,对于输入视频样本对
Figure BDA00033195329100001012
使用学习到的投影方向,将它们投影到低维共享子空间:
Figure BDA0003319532910000111
最后,使用下列公式对投影后的低维特征进行特征融合:
Figure BDA0003319532910000112
训练完成后,使用测试集进行测试,得到最终的识别结果,结果如图5、6所示。图5展示了双向二维分数阶嵌入协方差相关分析方法在真实数据库Honda上面的分类准确率。图6展示了以“训练时间”和“测试时间”为度量标准,和现有方法在Honda数据库上的对比结果。从实验结果可以看出,在识别准确率接近的情况下,本发明用时更短。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (10)

1.一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述方法的实现包括步骤如下:
步骤1,输入多模态人脸视频序列视频数据,所述人脸视频序列是指经过镜头分割之后的视频片段,所述视频片段内部只包括特定人员;
步骤2,对步骤1中的所述多模态人脸视频序列视频数据进行预处理操作,以获得图像集数据;
步骤3,对步骤2获得的所述图像集数据进行建模表示,生成每个图像集的矩阵协方差;
步骤4,将步骤3获得的所述矩阵协方差做为特征图像,输入到双向二维分数阶协方差相关分析中,优化求解后得到最优的投影方向,得到每个视频序列的特征图像;
步骤5,将步骤4获得所述特征图像投影到低维共享子空间,并进行信息融合;
步骤6,信息融合后,使用最近邻分类器进行分类。
2.根据权利要求1所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤1包括以下步骤:
步骤11,输入多模态人脸视频序列:
Figure FDA0003319532900000014
Figure FDA0003319532900000015
其中M是视频序列的数量。
3.根据权利要求2所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤2包括以下步骤:
步骤21,使用Viola-Jones人脸检测器或MTCNN人脸检测器对视频中的每帧图像进行人脸检测,得到只包含人脸区域的图像,并对人脸图像进行操作使得所有人脸图像具有相同的大小;
步骤22,首先将步骤21获得的人脸图像转为灰度图像,然后对其进行直方图均衡化处理,以减轻光照变化产生的影响,最后每幅图像都做为一个矩阵,从而将一个人脸视频序列变为一个图像集合,即
Figure FDA0003319532900000011
Figure FDA0003319532900000012
分别表示第i个图像集的两种不同的模态特征,其中
Figure FDA0003319532900000013
表示第i个图像集Xi中的第j幅图像,mi表示第i个图像集Xi中一共含有mi幅人脸图像。
4.根据权利要求3所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤3包括以下步骤:
步骤31,使用矩阵协方差对每个图像集进行建模表示,其中:图像集Xi的矩阵协方差估算为:
Figure FDA0003319532900000021
其中
Figure FDA0003319532900000022
表示图像集合Xi中所有图像的均值;
图像集Yi的矩阵协方差估算为:
Figure FDA0003319532900000023
步骤32,对每个矩阵协方差添加扰动
Figure FDA0003319532900000024
确保矩阵是非奇异的;使用相同的矩阵协方差估算方式,将上面的两组图像集数据表示为:
Figure FDA0003319532900000025
Figure FDA0003319532900000026
即每个目标都有两个不同的模态特征进行描述
Figure FDA0003319532900000027
5.根据权利要求4所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤4包括以下步骤:
步骤41,将步骤32获得的矩阵协方差做为视频序列的特征图像,使用log映射函数将矩阵协方差从黎曼流形映射到其对应的切空间:
Figure FDA0003319532900000028
其中
Figure FDA0003319532900000029
是对
Figure FDA00033195329000000210
进行的特征值分解;
最终,所有输入变为:
Figure FDA00033195329000000211
Figure FDA00033195329000000212
步骤42,以步骤41获得的图像矩阵为处理对象进行双向二维典型相关分析,通过寻找两对最优的投影方向lx,ly和rx,ry来最大化投影后变量
Figure FDA00033195329000000213
Figure FDA00033195329000000214
之间的相关性;
步骤43,以双向二维典型相关分析为基础构建双向二维分数阶嵌入典型相关分析;
引入分数阶重建的方法,使用分数阶特征值或奇异值对矩阵协方差进行重建,得到分数阶协方差矩阵;
步骤44,双向二维分数阶嵌入典型相关分析的目标函数描述为:
Figure FDA00033195329000000215
同样基于迭代优化的思想,通过特征值分解并取前d个最大特征值对应的特征向量,最终得到最优的投影方向:Lx,Ly,Rx,Ry
步骤45,将步骤41获得的数据输入到双向二维分数阶嵌入典型相关分析算法中,得到双向二维分数阶嵌入协方差相关分析算法,通过训练后,得到视频序列数据对应的投影方向:
Figure FDA0003319532900000031
6.根据权利要求5所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤42中输入为两组矩阵变量
Figure FDA0003319532900000032
Figure FDA0003319532900000033
其目标函数为:
Figure FDA0003319532900000034
其中
Figure FDA0003319532900000035
为模内协方差矩阵,
Figure FDA0003319532900000036
为模间协方差矩阵。
7.根据权利要求6所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述协方差矩阵模型通过迭代法进行求解,依次固定lx,ly和rx,ry,并使用拉格朗日乘子法对子优化问题进行求解。
8.根据权利要求5所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤43中,模内协方差矩阵为
Figure FDA0003319532900000037
先对
Figure FDA0003319532900000038
进行特征值分解:
Figure FDA0003319532900000039
其中
Figure FDA00033195329000000310
为特征向量构成的矩阵,
Figure FDA00033195329000000311
表示特征值,r1是矩阵
Figure FDA00033195329000000312
的秩;
其分数阶协方差矩阵可以重建为:
Figure FDA00033195329000000313
其中
Figure FDA00033195329000000314
表示分数阶特征值矩阵,αr是大于等于0小于等于1的分数;
其次,对于模间协方差矩阵
Figure FDA00033195329000000315
首先对其进行奇异值分解:
Figure FDA00033195329000000316
其中Pr,Qr表示奇异值矩阵,
Figure FDA0003319532900000041
表示奇异值,r3是矩阵
Figure FDA0003319532900000042
的秩;其分数阶协方差矩阵可以重建为:
Figure FDA0003319532900000043
其中
Figure FDA0003319532900000044
表示分数阶奇异值矩阵,βr是一个分数。
9.根据权利要求5-8任一所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤5包括步骤如下:
步骤51,建立输入视频样本对
Figure FDA0003319532900000045
使用步骤45学习到的投影方向,将所述输入视频样本对投影到低维共享子空间:
Figure FDA0003319532900000046
步骤52,使用下列公式对投影后的低维特征进行特征融合:
Figure FDA0003319532900000047
步骤53,将融合特征拉成列向量。
10.根据权利要求9所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤6包括以下步骤:
步骤61,对于待分类的多模态视频序列,首先依次人脸检测、矩阵协方差计算、log映射、特征投影、特征融合操作后,得到对应的融合特征向量;
步骤62,对融合特征使用1-最近邻分类器进行分类,输出待分类样本的类别标签。
CN202111242020.6A 2021-10-25 2021-10-25 一种基于图像集合的快速多模态视频人脸识别方法 Active CN113887509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111242020.6A CN113887509B (zh) 2021-10-25 2021-10-25 一种基于图像集合的快速多模态视频人脸识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111242020.6A CN113887509B (zh) 2021-10-25 2021-10-25 一种基于图像集合的快速多模态视频人脸识别方法

Publications (2)

Publication Number Publication Date
CN113887509A true CN113887509A (zh) 2022-01-04
CN113887509B CN113887509B (zh) 2022-06-03

Family

ID=79013925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111242020.6A Active CN113887509B (zh) 2021-10-25 2021-10-25 一种基于图像集合的快速多模态视频人脸识别方法

Country Status (1)

Country Link
CN (1) CN113887509B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578011A (zh) * 2022-03-07 2022-06-03 上海蓝长科技集团有限公司 一种基于多传感器多源数据融合的水质监测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110050500A1 (en) * 2009-09-01 2011-03-03 Fujitsu Limited Method of estimating direction of arrival and apparatus thereof
CN103514605A (zh) * 2013-10-11 2014-01-15 南京理工大学 基于hd-oct视网膜图像的脉络膜层自动分割方法
CN107194366A (zh) * 2017-06-06 2017-09-22 西安电子科技大学 基于稠密轨迹协方差描述子的行为识别方法
CN108304833A (zh) * 2018-04-17 2018-07-20 哈尔滨师范大学 基于mblbp和dct-bm2dpca的人脸识别方法
CN108564051A (zh) * 2018-04-23 2018-09-21 广州大学 一种正则化仿射包模型人脸图像集识别的核快速算法
CN108681721A (zh) * 2018-05-22 2018-10-19 山东师范大学 基于图像分割二维双向数据线性相关组合的人脸识别方法
CN109376787A (zh) * 2018-10-31 2019-02-22 聚时科技(上海)有限公司 流形学习网络及基于其的计算机视觉图像集分类方法
CN110399885A (zh) * 2019-07-12 2019-11-01 武汉科技大学 一种基于局部几何感知的图像目标分类方法
CN111611962A (zh) * 2020-05-29 2020-09-01 扬州大学 基于分数阶多集偏最小二乘的人脸图像超分辨率识别方法
CN112966735A (zh) * 2020-11-20 2021-06-15 扬州大学 一种基于谱重建的监督多集相关特征融合方法
CN113537252A (zh) * 2021-08-23 2021-10-22 海南大学 基于空间谱群协方差特征的高光谱图像识别方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110050500A1 (en) * 2009-09-01 2011-03-03 Fujitsu Limited Method of estimating direction of arrival and apparatus thereof
CN103514605A (zh) * 2013-10-11 2014-01-15 南京理工大学 基于hd-oct视网膜图像的脉络膜层自动分割方法
CN107194366A (zh) * 2017-06-06 2017-09-22 西安电子科技大学 基于稠密轨迹协方差描述子的行为识别方法
CN108304833A (zh) * 2018-04-17 2018-07-20 哈尔滨师范大学 基于mblbp和dct-bm2dpca的人脸识别方法
CN108564051A (zh) * 2018-04-23 2018-09-21 广州大学 一种正则化仿射包模型人脸图像集识别的核快速算法
CN108681721A (zh) * 2018-05-22 2018-10-19 山东师范大学 基于图像分割二维双向数据线性相关组合的人脸识别方法
CN109376787A (zh) * 2018-10-31 2019-02-22 聚时科技(上海)有限公司 流形学习网络及基于其的计算机视觉图像集分类方法
CN110399885A (zh) * 2019-07-12 2019-11-01 武汉科技大学 一种基于局部几何感知的图像目标分类方法
CN111611962A (zh) * 2020-05-29 2020-09-01 扬州大学 基于分数阶多集偏最小二乘的人脸图像超分辨率识别方法
CN112966735A (zh) * 2020-11-20 2021-06-15 扬州大学 一种基于谱重建的监督多集相关特征融合方法
CN113537252A (zh) * 2021-08-23 2021-10-22 海南大学 基于空间谱群协方差特征的高光谱图像识别方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
XIZHAN GAO: "Multi-model fusion metric learning for image set classification", 《KNOWLEDGE-BASED SYSTEMS》 *
XIZHAN GAO: "Multi-model fusion metric learning for image set classification", 《KNOWLEDGE-BASED SYSTEMS》, 9 November 2018 (2018-11-09), pages 253 - 264 *
ZHAO ZHANG: "Robust neighborhood preserving projection by nuclear/L2,1-Norm regularization for image feature extraction", 《IEEE》 *
ZHAO ZHANG: "Robust neighborhood preserving projection by nuclear/L2,1-Norm regularization for image feature extraction", 《IEEE》, 16 January 2017 (2017-01-16) *
孔繁: "基于协方差矩阵重构的特征子空间投影稳健波束形成算法", 《中国电子科学研究院学报》 *
孔繁: "基于协方差矩阵重构的特征子空间投影稳健波束形成算法", 《中国电子科学研究院学报》, 11 October 2016 (2016-10-11) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578011A (zh) * 2022-03-07 2022-06-03 上海蓝长科技集团有限公司 一种基于多传感器多源数据融合的水质监测方法

Also Published As

Publication number Publication date
CN113887509B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
Dino et al. Facial expression classification based on SVM, KNN and MLP classifiers
Wang et al. Depth pooling based large-scale 3-d action recognition with convolutional neural networks
Kishore et al. Indian classical dance action identification and classification with convolutional neural networks
Mao et al. Hierarchical Bayesian theme models for multipose facial expression recognition
Zhan et al. Face detection using representation learning
Tu Probabilistic boosting-tree: Learning discriminative models for classification, recognition, and clustering
Zhang et al. BoMW: Bag of manifold words for one-shot learning gesture recognition from kinect
Sawalha et al. Face recognition using harmony search-based selected features
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
Prabhu et al. Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism.
Dhimar et al. Feature extraction for facial age estimation: A survey
Khan et al. Video Analytics Framework for Human Action Recognition.
Garg et al. Facial expression recognition & classification using hybridization of ICA, GA, and neural network for human-computer interaction
Gürel et al. Design of a face recognition system
Saabni Facial expression recognition using multi Radial Bases Function Networks and 2-D Gabor filters
CN113887509B (zh) 一种基于图像集合的快速多模态视频人脸识别方法
CN110287973B (zh) 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法
Zhao et al. Learning saliency features for face detection and recognition using multi-task network
Elsayed et al. Hand gesture recognition based on dimensionality reduction of histogram of oriented gradients
Kale et al. Age, gender and ethnicity classification from face images with CNN-based features
Novakovic et al. Classification accuracy of neural networks with pca in emotion recognition
Yang Face Detection.
Navabifar et al. A short review paper on Face detection using Machine learning
Bissacco et al. Gait recognition using dynamic affine invariants
Devi et al. Face Emotion Classification using AMSER with Artificial Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant