CN112990077A - 基于联合学习与光流估计的面部动作单元识别方法及装置 - Google Patents
基于联合学习与光流估计的面部动作单元识别方法及装置 Download PDFInfo
- Publication number
- CN112990077A CN112990077A CN202110360938.4A CN202110360938A CN112990077A CN 112990077 A CN112990077 A CN 112990077A CN 202110360938 A CN202110360938 A CN 202110360938A CN 112990077 A CN112990077 A CN 112990077A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- neural network
- layer
- convolutional neural
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Optimization (AREA)
- Molecular Biology (AREA)
- Social Psychology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于联合学习与光流估计的面部动作单元识别方法及装置,先从视频数据中抽取模型训练所需要的原始图像对组成训练数据集,再对原始图像对进行预处理得到扩增图像对,再构建卷积神经网络模块I提取扩增图像对的多尺度区域特征,再构建卷积神经网络模块II提取扩增图像对的静态全局特征,再构建卷积神经网络模块III提取扩增图像对的光流特征,最后构建卷积神经网络模块IV融合静态全局特征和光流特征进行面部动作单元识别。本发明采用端到端的深度学习框架联合学习动作单元识别和光流估计,利用任务间的关联性促进动作单元识别,能够有效识别面部肌肉在二维图像中的运动情况,实现统一的面部动作单元识别系统构建。
Description
技术领域
本发明涉及一种基于联合学习与光流估计的面部动作单元识别方法和装置,属于计算机视觉技术。
背景技术
光流估计是计算机视觉中一个基础性的研究任务,它是连接图像与视频的桥梁与纽带。其核心思想是给定前后两帧图像,估计出逐像素的对应关系。这也可以近似理解为3D物体在2D图像平面上的投影运动场。光流法在行为理解、视频处理、运动预测、多视角3D重建、自动驾驶、即时定位与地图构建(SLAM)中均发挥着重要作用。
为了更精细地研究人类面部表情,美国著名情绪心理学家Ekman等于1978年首次提出了面部动作编码系统(Facial Action Coding System,FACS),又于2002年作了重要改进。面部动作编码系统根据人脸的解剖学特点划分成若干既相互独立又相互联系的面部动作单元(Action Units,AU),通过这些面部动作单元的动作特征及其所控制的主要区域可以反映出面部表情。
现有的AU识别方法可简单分为传统方法和深度学习方法两大类。传统AU识别方法一般可分为预处理、特征提取和分类器学习3个步骤,其中:预处理主要包括人脸检测、关键点定位、面部配准、尺寸归一化等操作;特征提取即从人脸图像中提取具有较强AU判别性的特征;分类器训练即通过已获得的特征训练分类器识别AU是否出现。
随着计算机技术和信息技术的发展,深度学习技术得到了广泛的应用。在AU识别领域,基于深度学习模型研究AU识别已成为主流。目前,AU识别主要分成了两条研究路线:区域学习与AU关联学习。若不考虑AU之间的关联,一般来说仅有其对应面部肌肉所在的几块稀疏区域对它的识别是有贡献的,其他区域则不需要过多关注,因此找到那些需要关注的区域并加以重点学习才能更好地进行AU识别,专注于这一问题的解决方案一般被称为区域学习(Region Learning,RL)。此外,AU是在面部肌肉解剖学的基础上定义的,描述了一块或几块肌肉的运动,某些肌肉在运动过程中会牵动几个AU同时出现,因此AU之间存在一定程度的相关性,显然,AU之间的关联性信息会有助于模型识别性能的提升,因此如何挖掘AU之间的关联并基于相关性提升AU模型识别性能的解决方案一般被称为AU关联学习。
尽管面部动作单元的自动识别取得了令人印象深刻进展,但目前基于CNN的AU识别方法只能提取图像中的静态特征,不关心时间域上的信息。此外,目前的AU识别研究局限于强度显著的AU,按照FACS的定义,AU的强度由弱到强分为A、B、C、D、E五个级别,目前的AU识别实验中往往使用强度大于B或C的样本作为正样本,其他强度视为负样本,对于弱强度AU的识别研究还不多。由于弱强度AU与微表情紧密关联,面部动作微小且持续时间短,使得其识别准确率还不高,有进一步提升的空间。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于联合学习与光流估计的面部动作单元识别方法和装置,通过卷积层自动提取图像中的静态特征,即使在传统模型通用性不好、识别率不高的情况下,本发明也能够展现出更强的稳健性,显著提高了模型的表达能力。此外,本发明能够通过光流法提取动态时序信息,直观地展现面部肌肉在二维图像中的运动过程,有效识别出微小的肌肉运动,能够提高AU识别准确率,利用任务间的关联性促进动作单元识别,构建统一的面部动作单元识别系统。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于联合学习与光流估计的面部动作单元识别方法,包括如下步骤:
S01:从任意视频数据中抽取模型训练所需要的大量原始图像对组成训练数据集,原始图像对包括基准图像和目标图像,目标图像为基准图像之后的第设定帧数图像;针对视频序列,为了避免采集帧速过低使得提取的光流效果较差,或采集帧速过高使得相邻帧的画面难以捕获的情况,我们通常选择的图像以三帧为间隔,即将基准图像后的第三帧图像作为目标图像;
S02:对原始图像对进行预处理,获得扩增图像对;对原始图像进行预处理的方式包括随机平移、随机旋转、随机缩放、随机水平翻转或者随机裁剪等,对图像进行预处理能在一定程度上提高模型的泛化能力;
S03:构建卷积神经网络模块I提取扩增图像对的多尺度区域特征;
S04:利用步骤S03提取的多尺度区域特征,构建卷积神经网络模块II提取扩增图像对的静态全局特征;
S05:采用光流法获取扩增图像对的帧间光流并计算面部图像的光流矢量,将光流矢量作为扩增图像对的光流标签;
S06:利用步骤S03提取的多尺度区域特征和步骤S05获取的光流标签,构建卷积神经网络模块III提取扩增图像对的光流特征,并进行光流估计,光流特征为动态时序特征;
S07:构建卷积神经网络模块IV对步骤S04提取的静态全局特征和步骤S06提取的光流特征进行融合,实现面部动作单元的识别;
S08:使用训练数据集对整个卷积神经网络模型进行训练,以基于梯度的优化方法对各个卷积神经网络模块的参数进行更新;
S09:将给定的图像对输入到训练完成的卷积神经网络模型中,得到面部动作单元的预测结果;在进行预测时直接输出面部动作单元的预测结果,无需再利用步骤S05生成光流标签了。
具体的,所述步骤S03中,由于不同局部块的面部动作单元有不同的面部结构和纹理信息,因而需要对每个局部块进行独立的滤波处理,且不同局部块使用不同的滤波权值;为了获得多尺度区域特征,采用卷积神经网络模块I来学习不同尺度下每个局部块的特征,卷积神经网络模块I包括两层分层多尺度区域层,卷积神经网络模块I的输入作为第一层分层多尺度区域层的输入,第一层分层多尺度区域层的输出经过最大池化运算后作为第二层分层多尺度区域层的输入,第二层分层多尺度区域层的输出经过最大池化运算后作为卷积神经网络模块I的输出;将扩增图像对的两张图像进行通道级串联,作为卷积神经网络模块I的输入,卷积神经网络模块I的输出即为扩增图像对的多尺度区域特征;
每层分层多尺度区域层包括卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III,在卷积层I-I内,对输入整体进行一次卷积,将卷积结果作为卷积层I-I的输出;将卷积层I-I的输出作为卷积层I-II-I的输入,在卷积层I-II-I内,先将输入均匀划分为8×8尺度的局部块分别进行卷积,再对所有卷积结果进行拼接形成卷积层I-II-I的输出;将卷积层I-II-I的输出作为卷积层I-II-II的输入,在卷积层I-II-II内,先将输入均匀划分为4×4尺度的局部块分别进行卷积,再对所有卷积结果进行拼接形成卷积层I-II-II的输出;将卷积层I-II-II的输出作为卷积层I-II-III的输入,在卷积层I-II-III内,先将输入均匀划分为2×2尺度的局部块分别进行卷积,再对所有卷积结果进行拼接形成卷积层I-II-III的输出;对卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的输出进行通道级串联后(通道级串联后输出的通道数与卷积层I-I输出的通道数相同)与卷积层I-I的输出进行加和,结果作为分层多尺度区域层的输出。
具体的,所述步骤S05中,光流法为Gunnar Farneback光流算法,GunnarFarneback光流算法是一种基于空间梯度的两帧估量算法,采用两帧图像来估计物体的光流矢量;包括如下步骤:
(51)通过图像建模、求解空间转换、权重分配和对偶转换得到单张图像中每个像素点的系数向量r;
(511)图像建模:将图像视为二维信号空间的函数,因变量是像素点在二维信号空间的坐标位置X=(xy)T,利用二次多项式对图像进行近似建模:
f(x)~XTAX+bTX+c
(512)求解空间转换:将图像从二维信号空间转换到以(1,x,y,x2,y2,xy)作为基函数的空间,带入各像素点的坐标位置求解各像素点的灰度值;
Farneback算法对每帧图像中的每个像素点周围设定邻域(2n+1)×(2n+1),在邻域内灰度值的(2n+1)×(2n+1)矩阵中,将矩阵按列优先次序拆分组成(2n+1)2×1的向量f,同时已知以(1,x,y,x2,y2,xy)作为基函数的转换矩阵B的维度为(2n+1)2×6,邻域内共有的系数向量r的维度为6×1,则有:
f=B×r=(b1 b2 b3 b4 b5 b6)×r
(513)权重分配:利用二维高斯分布将邻域内各像素点样本误差对中心点的影响力赋予权重,在任一邻域内二维高斯分布的(2n+1)×(2n+1)矩阵中,将矩阵按列优先次序拆分组合成(2n+1)2×1的向量a,则转换矩阵B变化为:
B=(a·b1 a·b2 a·b3 a·b4 a·b5 a·b6)
(514)对偶转换:使用的对偶转换矩阵为:
对偶转换后,得到系数向量r为:
其中:·1☆·2表示·1和·2互相关;
由此得到用于计算的中间变量A(X)和Δb(X):
如果涉及到尺度变换,还会涉及尺度缩放矩阵S(X),以提高算法的鲁棒性;由此得到中间变量G(X)和h(X):
G(X)=S(X)TA(X)TA(X)S(X)
h(X)=S(X)TA(X)TΔb(X)
(53)对模糊后的中间变量,直接求解光流场:
dout(X)=Gavg(X)-1havg(X)
其中:Gavg(X)和havg(X)为中间变量G(X)和h(X)进行局部模糊化处理后的变量,模糊化处理可选择均值模糊或者高斯模糊,使之满足光流的基本假设(光流的变化(向量场)几乎是光滑的),dout(X)为最终求解的光流场。
具体的,所述步骤S06中,在光流估计的有监督学习过程中提取包含动态时序信息的光流特征,并按照如下损失函数进行光流估计:
其中:Emse表示光流估计的均方差损失函数;y表示基准图像与目标图像之间的真值光流矢量,即通过步骤S05计算获取到的光流矢量;表示基准图像与目标图像之间的预测光流矢量,即通过卷积神经网络模块III提取到的光流特征。
具体的,所述步骤S07中,先对静态全局特征和光流特征进行通道级串联,再使用卷积神经网络模块IV对扩增图像对中每张图像的面部动作单元进行识别,采用的损失函数为:
Eall_au=Ecross+Edice
其中:Ecross表示面部动作单元识别的交叉熵损失函数,Edice表示面部动作单元识别的Dice系数损失函数,Eall_au表示面部动作单元识别的总体损失函数;nau为面部动作单元的数量;ωi为第i个面部动作单元的权重,ωi是多标签学习任务下权值,用于改善数据的不平衡问题;ri为训练数据集中第i个面部动作单元的出现率,取值范围为{0,1};pi为当前图像第i个面部动作单元出现的真值概率,取值范围为{0,1};为当前图像第i个面部动作单元出现的预测概率,通过卷积神经网络模块IV预测输出;ε为平滑系数。
具体的,所述步骤S08中,通过端到端的方法训练整个卷积神经网络模型,每次训练均包含面部动作单元识别和光流估计两个任务,提取静态全局特征和光流特征,在联合学习的框架中利用两个任务之间的关联性促进面部动作单元的识别。
一种用于实现上述任一基于联合学习与光流估计的面部动作单元识别方法的装置,包括图像获取单元、分层多尺度区域学习单元、全局特征学习单元、光流估计单元、AU识别单元和参数优化单元;
所述图像获取单元,用于从任意视频数据中抽取模型训练所需要的大量原始图像对组成训练数据集,并对原始图像对进行预处理,获得扩增图像对;
所述分层多尺度区域学习单元,包括卷积神经网络模块I,采用分层多尺度区域层来学习每张输入图像不同尺度下每个局部块的特征,并对每个局部块进行独立滤波;
所述全局特征学习单元,包括卷积神经网络模块II,用于获取输入图像的静态全局特征,静态全局特征包括输入图像的全局面部结构和纹理信息,将静态全局特征作为静态空间特征;
所述光流估计单元,包括卷积神经网络模块III,对输入图像对进行光流估计,提取输入图像对的光流特征,将光流特征作为动态时序特征;
所述AU识别单元,包括卷积神经网络模块IV,对静态空间特征和动态时序特征进行融合,共同指导图像对面部动作单元的识别;
所述参数优化单元,计算集对整个卷积神经网络模型中各个卷积神经网络模块的参数和总体损失函数值,并以基于梯度的优化方法对参数进行更新。
有益效果:本发明提供的基于联合学习与光流估计的面部动作单元识别方法和装置,通过卷积层自动提取图像中的静态特征,相对于传统模型通用性不好、识别率不高的问题,本发明展现出了更强的稳健性,显著提高了模型的表达能力;此外,本发明能够通过光流法提取动态时序信息,直观地展现面部肌肉在二维图像中的运动过程,有效识别出微小的肌肉运动,能够提高AU识别准确率,利用任务间的关联性促进动作单元识别,构建统一的面部动作单元识别系统。
附图说明
图1为本发明方法的实施流程示意图;
图2为Gunnar Farneback光流算法计算光流场的流程示意图;
图3为分层多尺度区域层的结构示意图;
图4为卷积神经网络模块II的结构示意图;
图5为卷积神经网络模块III的结构示意图;
图6为卷积神经网络模块IV的结构示意图;
图7为整个卷积神经网络模型的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
如图1所示为一种基于联合学习与光流估计的面部动作单元识别方法的流程示意图,该方法包括如下步骤:
S01:从任意视频数据中抽取模型训练所需要的大量原始图像对组成训练数据集,原始图像对包括基准图像和目标图像,目标图像为基准图像之后的第三帧数图像。
针对视频序列,为了避免采集帧速过低使得提取的光流效果较差,或采集帧速过高使得相邻帧的画面难以捕获的情况,我们通常选择的图像以三帧为间隔,即将基准图像后的第三帧图像作为目标图像。
S02:对原始图像对进行预处理,获得扩增图像对。
对原始图像进行预处理的方式包括随机平移、随机旋转、随机缩放、随机水平翻转或者随机裁剪等,对图像进行预处理能在一定程度上提高模型的泛化能力;
S03:构建卷积神经网络模块I提取扩增图像对的多尺度区域特征。
由于不同局部块的面部动作单元有不同的面部结构和纹理信息,因而需要对每个局部块进行独立的滤波处理,且不同局部块使用不同的滤波权值。
具体的,所述步骤S03中,由于不同局部块的面部动作单元有不同的面部结构和纹理信息,因而需要对每个局部块进行独立的滤波处理,且不同局部块使用不同的滤波权值;为了获得多尺度区域特征,采用卷积神经网络模块I来学习不同尺度下每个局部块的特征,卷积神经网络模块I包括两层分层多尺度区域层,卷积神经网络模块I的输入作为第一层分层多尺度区域层的输入,第一层分层多尺度区域层的输出经过最大池化运算后作为第二层分层多尺度区域层的输入,第二层分层多尺度区域层的输出经过最大池化运算后作为卷积神经网络模块I的输出;将扩增图像对的两张图像进行通道级串联,作为卷积神经网络模块I的输入,卷积神经网络模块I的输出即为扩增图像对的多尺度区域特征;
如图3所示,每层分层多尺度区域层包括卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III,在卷积层I-I内,对输入整体进行一次卷积,将卷积结果作为卷积层I-I的输出;将卷积层I-I的输出作为卷积层I-II-I的输入,在卷积层I-II-I内,先将输入均匀划分为8×8尺度的局部块分别进行卷积,再对所有卷积结果进行拼接形成卷积层I-II-I的输出;将卷积层I-II-I的输出作为卷积层I-II-II的输入,在卷积层I-II-II内,先将输入均匀划分为4×4尺度的局部块分别进行卷积,再对所有卷积结果进行拼接形成卷积层I-II-II的输出;将卷积层I-II-II的输出作为卷积层I-II-III的输入,在卷积层I-II-III内,先将输入均匀划分为2×2尺度的局部块分别进行卷积,再对所有卷积结果进行拼接形成卷积层I-II-III的输出;对卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的输出进行通道级串联后(通道级串联后输出的通道数与卷积层I-I输出的通道数相同)与卷积层I-I的输出进行加和,结果作为分层多尺度区域层的输出。
卷积神经网络模块I中每层分层多尺度区域层后均有一层最大池化层,每层最大池化层的池化核大小为2×2,步长为2;第一层分层多尺度区域层中卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的通道数分别为32、16、8、8,第一层分层多尺度区域层中卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的滤波器个数分别为32×1、16×8×8、8×4×4、8×2×2;第二层分层多尺度区域层中卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的通道数分别为64、32、16、16,第二层分层多尺度区域层中卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的滤波器个数分别为64×1、32×8×8、16×4×4、16×2×2;卷积层中的滤波器大小均为3×3,步长均为1。
S04:利用步骤S03提取的多尺度区域特征,构建卷积神经网络模块II提取扩增图像对的静态全局特征。
如图4所示,卷积神经网络模块II是一个包含六层卷积层的卷积神经网络,每连续的两层卷积后均有一层最大池化层,每层最大池化层的池化核大小为2×2,步长为2;六层卷积层中每两层卷积层所对应的滤波器个数相同,第一层和第二层卷积层所对应的滤波器个数为96,第三层和第四层卷积层所对应的滤波器个数为128,第五层和第六层卷积层所对应的滤波器个数为160,且滤波器大小均为3×3,步长均为1。第三个最大池化层的输出为静态全局特征。
S05:采用光流法获取扩增图像对的帧间光流并计算面部图像的光流矢量,将光流矢量作为扩增图像对的光流标签。
所述光流法为Gunnar Farneback光流算法,Gunnar Farneback光流算法是一种基于空间梯度的两帧估量算法,采用两帧图像来估计物体的光流矢量;如图2所示,GunnarFarneback光流算法包括如下步骤:
(51)通过图像建模、求解空间转换、权重分配和对偶转换得到单张图像中每个像素点的系数向量r;
(511)图像建模:将图像视为二维信号空间的函数,因变量是像素点在二维信号空间的坐标位置X=(xy)T,利用二次多项式对图像进行近似建模:
f(x)~XTAX+bTX+c
(512)求解空间转换:将图像从二维信号空间转换到以(1,x,y,x2,y2,xy)作为基函数的空间,带入各像素点的坐标位置求解各像素点的灰度值;
Farneback算法对每帧图像中的每个像素点周围设定邻域(2n+1)×(2n+1),在邻域内灰度值的(2n+1)×(2n+1)矩阵中,将矩阵按列优先次序拆分组成(2n+1)2×1的向量f,同时已知以(1,x,y,x2,y2,xy)作为基函数的转换矩阵B的维度为(2n+1)2×6,邻域内共有的系数向量r的维度为6×1,则有:
f=B×r=(b1 b2 b3 b4 b5 b6)×r
(513)权重分配:利用二维高斯分布将邻域内各像素点样本误差对中心点的影响力赋予权重,在任一邻域内二维高斯分布的(2n+1)×(2n+1)矩阵中,将矩阵按列优先次序拆分组合成(2n+1)2×1的向量a,则转换矩阵B变化为:
B=(a·b1 a·b2 a·b3 a·b4 a·b5 a·b6)
(514)对偶转换:使用的对偶转换矩阵为:
对偶转换后,得到系数向量r为:
其中:·1☆·2表示·1和·2互相关;
由此得到用于计算的中间变量A(X)和Δb(X):
如果涉及到尺度变换,还会涉及尺度缩放矩阵S(X),以提高算法的鲁棒性;由此得到中间变量G(X)和h(X):
G(X)=S(X)TA(X)TA(X)S(X)
h(X)=S(X)TA(X)TΔb(X)
(53)对模糊后的中间变量,直接求解光流场:
dout(X)=Gavg(X)-1havg(X)
其中:Gavg(X)和havg(X)为中间变量G(X)和h(X)进行局部模糊化处理后的变量,模糊化处理可选择均值模糊或者高斯模糊,使之满足光流的基本假设(光流的变化(向量场)几乎是光滑的),dout(X)为最终求解的光流场。
S06:利用步骤S03提取的多尺度区域特征和步骤S05获取的光流标签,构建卷积神经网络模块III提取扩增图像对的光流特征,并进行光流估计,光流特征为动态时序特征。
如图5所示,卷积神经网络模块III是一个包含六层卷积层以及两个全连接层的卷积神经网络,每连续的两层卷积后均有一层最大池化层,每层最大池化层的池化核大小为2×2,步长为2;六层卷积层中每两层卷积层所对应的滤波器个数相同,第一层和第二层卷积层所对应的滤波器个数为96,第三层和第四层卷积层所对应的滤波器个数为128,第五层和第六层卷积层所对应的滤波器个数为160,且滤波器大小均为3×3,步长为1。第三个最大池化层的输出为光流特征,其后跟着两个全连接层,其中最后一个全连接层输出光流矢量。
在光流估计的有监督学习过程中提取包含动态时序信息的光流特征,并按照如下损失函数进行光流估计:
其中:Emse表示光流估计的均方差损失函数;y表示基准图像与目标图像之间的真值光流矢量,即通过步骤S05计算获取到的光流矢量;表示基准图像与目标图像之间的预测光流矢量,即通过卷积神经网络模块III提取到的光流特征。
S07:构建卷积神经网络模块IV对步骤S04提取的静态全局特征和步骤S06提取的光流特征进行融合,实现面部动作单元的识别。
先对静态全局特征和光流特征进行通道级串联,再使用卷积神经网络模块IV对扩增图像对中每张图像的面部动作单元进行识别。如图6所示,卷积神经网络模块IV是一个包含四层卷积层以及两个全连接层的卷积神经网络,每连续的两层卷积后均有一层最大池化层,每层最大池化层的池化核大小为2×2,步长为2;四层卷积层中每两层卷积层所对应的滤波器个数相同,第一层和第二层卷积层所对应的滤波器个数为192,第三层和第四层卷积层所对应的滤波器个数为224,且滤波器的大小均为3×3,步长均为1。在第二个最大池化层后跟着两个全连接层,其中最后一个全连接层输出nau个面部动作单元出现的预测概率。
动作单元识别采用的损失函数为:
Eall_au=Ecross+Edice
其中:Ecross表示面部动作单元识别的交叉熵损失函数,Edice表示面部动作单元识别的Dice系数损失函数,Eall_au表示面部动作单元识别的总体损失函数;ωi为第i个面部动作单元的权重,ωi是多标签学习任务下权值,用于改善数据的不平衡问题;ri为训练数据集中第i个面部动作单元的出现率,取值范围为{0,1};pi为当前图像第i个面部动作单元出现的真值概率,取值范围为{0,1};为当前图像第i个面部动作单元出现的预测概率,通过卷积神经网络模块IV预测输出;ε为平滑系数。
S08:使用训练数据集对整个卷积神经网络模型进行训练,以基于梯度的优化方法对各个卷积神经网络模块的参数进行更新。
通过端到端的方法训练整个卷积神经网络模型(如图7所示),每次训练均包含面部动作单元识别和光流估计两个任务,提取静态全局特征和光流特征,在联合学习的框架中利用两个任务之间的关联性促进面部动作单元的识别。
S09:将给定的图像对输入到训练完成的卷积神经网络模型中,得到面部动作单元的预测结果。
在进行预测时直接输出面部动作单元的预测结果,无需再利用步骤S05生成光流标签了。
本发明方法可以完全通过计算机实现,无需人工辅助处理;这表明,本案可以实现批量化自动处理,能够大大提高处理效率、降低人工成本。
一种用于实现上述方法的装置,包括图像获取单元、分层多尺度区域学习单元、全局特征学习单元、光流估计单元、AU识别单元和参数优化单元;所述图像获取单元,用于从任意视频数据中抽取模型训练所需要的大量原始图像对组成训练数据集,并对原始图像对进行预处理,获得扩增图像对;所述分层多尺度区域学习单元,包括卷积神经网络模块I,采用分层多尺度区域层来学习每张输入图像不同尺度下每个局部块的特征,并对每个局部块进行独立滤波;所述全局特征学习单元,包括卷积神经网络模块II,用于获取输入图像的静态全局特征,静态全局特征包括输入图像的全局面部结构和纹理信息,将静态全局特征作为静态空间特征;所述光流估计单元,包括卷积神经网络模块III,对输入图像对进行光流估计,提取输入图像对的光流特征,将光流特征作为动态时序特征;所述AU识别单元,包括卷积神经网络模块IV,对静态空间特征和动态时序特征进行融合,共同指导图像对面部动作单元的识别;所述参数优化单元,计算集对整个卷积神经网络模型中各个卷积神经网络模块的参数和总体损失函数值,并以基于梯度的优化方法对参数进行更新。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (7)
1.一种基于联合学习与光流估计的面部动作单元识别方法,其特征在于:包括如下步骤:
S01:从视频数据中抽取模型训练所需要的原始图像对组成训练数据集,原始图像对包括基准图像和目标图像,目标图像为基准图像之后的第设定帧数图像;
S02:对原始图像对进行预处理,获得扩增图像对;
S03:构建卷积神经网络模块I提取扩增图像对的多尺度区域特征;
S04:利用步骤S03提取的多尺度区域特征,构建卷积神经网络模块II提取扩增图像对的静态全局特征;
S05:采用光流法获取扩增图像对的帧间光流并计算面部图像的光流矢量,将光流矢量作为扩增图像对的光流标签;
S06:利用步骤S03提取的多尺度区域特征和步骤S05获取的光流标签,构建卷积神经网络模块III提取扩增图像对的光流特征,并进行光流估计,光流特征为动态时序特征;
S07:构建卷积神经网络模块IV对步骤S04提取的静态全局特征和步骤S06提取的光流特征进行融合,实现面部动作单元的识别;
S08:使用训练数据集对整个卷积神经网络模型进行训练,以基于梯度的优化方法对各个卷积神经网络模块的参数进行更新;
S09:将给定的图像对输入到训练完成的卷积神经网络模型中,得到面部动作单元的预测结果。
2.根据权利要求1所述的基于联合学习与光流估计的面部动作单元识别方法,其特征在于:所述步骤S03中,采用卷积神经网络模块I来学习不同尺度下每个局部块的特征,卷积神经网络模块I包括两层分层多尺度区域层,卷积神经网络模块I的输入作为第一层分层多尺度区域层的输入,第一层分层多尺度区域层的输出经过最大池化运算后作为第二层分层多尺度区域层的输入,第二层分层多尺度区域层的输出经过最大池化运算后作为卷积神经网络模块I的输出;将扩增图像对的两张图像进行通道级串联,作为卷积神经网络模块I的输入,卷积神经网络模块I的输出即为扩增图像对的多尺度区域特征;
每层分层多尺度区域层包括卷积层I-I、卷积层I-II-I、卷积层I-II-II和卷积层I-II-III,在卷积层I-I内,对输入整体进行一次卷积,将卷积结果作为卷积层I-I的输出;将卷积层I-I的输出作为卷积层I-II-I的输入,在卷积层I-II-I内,先将输入均匀划分为8×8尺度的局部块分别进行卷积,再对所有卷积结果进行拼接形成卷积层I-II-I的输出;将卷积层I-II-I的输出作为卷积层I-II-II的输入,在卷积层I-II-II内,先将输入均匀划分为4×4尺度的局部块分别进行卷积,再对所有卷积结果进行拼接形成卷积层I-II-II的输出;将卷积层I-II-II的输出作为卷积层I-II-III的输入,在卷积层I-II-III内,先将输入均匀划分为2×2尺度的局部块分别进行卷积,再对所有卷积结果进行拼接形成卷积层I-II-III的输出;对卷积层I-II-I、卷积层I-II-II和卷积层I-II-III的输出进行通道级串联后与卷积层I-I的输出进行加和,结果作为分层多尺度区域层的输出。
3.根据权利要求1所述的基于联合学习与光流估计的面部动作单元识别方法,其特征在于:所述步骤S05中,光流法为Gunnar Farneback光流算法,Gunnar Farneback光流算法是一种基于空间梯度的两帧估量算法,采用两帧图像来估计物体的光流矢量。
5.根据权利要求1所述的基于联合学习与光流估计的面部动作单元识别方法,其特征在于:所述步骤S07中,先对静态全局特征和光流特征进行通道级串联,再使用卷积神经网络模块IV对扩增图像对中每张图像的面部动作单元进行识别,采用的损失函数为:
Eall_au=Ecross+Edice
6.根据权利要求1所述的基于联合学习与光流估计的面部动作单元识别方法,其特征在于:所述步骤S08中,通过端到端的方法训练整个卷积神经网络模型,每次训练均包含面部动作单元识别和光流估计两个任务,提取静态全局特征和光流特征,在联合学习的框架中利用两个任务之间的关联性促进面部动作单元的识别。
7.一种用于实现权1~6所述的任一基于联合学习与光流估计的面部动作单元识别方法的装置,其特征在于:包括图像获取单元、分层多尺度区域学习单元、全局特征学习单元、光流估计单元、AU识别单元和参数优化单元;
所述图像获取单元,用于从视频数据中抽取模型训练所需要的原始图像对组成训练数据集,并对原始图像对进行预处理,获得扩增图像对;
所述分层多尺度区域学习单元,包括卷积神经网络模块I,采用分层多尺度区域层来学习每张输入图像不同尺度下每个局部块的特征,并对每个局部块进行独立滤波;
所述全局特征学习单元,包括卷积神经网络模块II,用于获取输入图像的静态全局特征,静态全局特征包括输入图像的全局面部结构和纹理信息,将静态全局特征作为静态空间特征;
所述光流估计单元,包括卷积神经网络模块III,对输入图像对进行光流估计,提取输入图像对的光流特征,将光流特征作为动态时序特征;
所述AU识别单元,包括卷积神经网络模块IV,对静态空间特征和动态时序特征进行融合,共同指导图像对面部动作单元的识别;
所述参数优化单元,计算集对整个卷积神经网络模型中各个卷积神经网络模块的参数和总体损失函数值,并以基于梯度的优化方法对参数进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110360938.4A CN112990077B (zh) | 2021-04-02 | 2021-04-02 | 基于联合学习与光流估计的面部动作单元识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110360938.4A CN112990077B (zh) | 2021-04-02 | 2021-04-02 | 基于联合学习与光流估计的面部动作单元识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990077A true CN112990077A (zh) | 2021-06-18 |
CN112990077B CN112990077B (zh) | 2021-10-01 |
Family
ID=76339046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110360938.4A Active CN112990077B (zh) | 2021-04-02 | 2021-04-02 | 基于联合学习与光流估计的面部动作单元识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990077B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673303A (zh) * | 2021-06-28 | 2021-11-19 | 中国科学院大学 | 一种人脸面部动作单元强度回归方法、装置和介质 |
CN114485417A (zh) * | 2022-01-07 | 2022-05-13 | 哈尔滨工业大学 | 一种基于深度循环神经网络光流估计模型的结构振动位移识别方法及系统 |
CN114842542A (zh) * | 2022-05-31 | 2022-08-02 | 中国矿业大学 | 基于自适应注意力与时空关联的面部动作单元识别方法及装置 |
CN115359534A (zh) * | 2022-08-25 | 2022-11-18 | 成都信息工程大学 | 基于多特征融合和双流网络的微表情识别方法 |
WO2023040146A1 (zh) * | 2021-09-17 | 2023-03-23 | 平安科技(深圳)有限公司 | 基于图像融合的行为识别方法、装置、电子设备及介质 |
CN116416667A (zh) * | 2023-04-25 | 2023-07-11 | 天津大学 | 基于动态关联信息嵌入的面部动作单元检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117750A (zh) * | 2018-07-24 | 2019-01-01 | 深圳先进技术研究院 | 一种基于深度学习的情绪识别方法、系统及电子设备 |
US20190228211A1 (en) * | 2017-08-17 | 2019-07-25 | Ping An Technology (Shenzhen) Co., Ltd. | Au feature recognition method and device, and storage medium |
CN110991294A (zh) * | 2019-11-26 | 2020-04-10 | 吉林大学 | 一种快速构建的人脸动作单元识别方法及系统 |
CN111274978A (zh) * | 2020-01-22 | 2020-06-12 | 广东工业大学 | 一种微表情识别方法及装置 |
WO2020222785A1 (en) * | 2019-04-30 | 2020-11-05 | Hewlett-Packard Development Company, L.P. | Facial action unit detection |
WO2020232224A1 (en) * | 2019-05-14 | 2020-11-19 | Aic Innovations Group, Inc. | Biomarker determination using optical flows |
-
2021
- 2021-04-02 CN CN202110360938.4A patent/CN112990077B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228211A1 (en) * | 2017-08-17 | 2019-07-25 | Ping An Technology (Shenzhen) Co., Ltd. | Au feature recognition method and device, and storage medium |
CN109117750A (zh) * | 2018-07-24 | 2019-01-01 | 深圳先进技术研究院 | 一种基于深度学习的情绪识别方法、系统及电子设备 |
WO2020222785A1 (en) * | 2019-04-30 | 2020-11-05 | Hewlett-Packard Development Company, L.P. | Facial action unit detection |
WO2020232224A1 (en) * | 2019-05-14 | 2020-11-19 | Aic Innovations Group, Inc. | Biomarker determination using optical flows |
CN110991294A (zh) * | 2019-11-26 | 2020-04-10 | 吉林大学 | 一种快速构建的人脸动作单元识别方法及系统 |
CN111274978A (zh) * | 2020-01-22 | 2020-06-12 | 广东工业大学 | 一种微表情识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
HUIYUAN YANG ET AL.: "Learning Temporal Information From A Single Image For AU Detection", 《2019 14TH IEEE INTERNATIONAL CONFERENCE ON AUTOMATIC FACE & GESTURE RECOGNITION (FG 2019)》 * |
ZHIWEN SHAO ET AL.: "JÂA-Net: Joint Facial Action Unit Detection and Face Alignment Via", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 * |
李勇 等: "面部动作单元检测方法进展与挑战", 《中国图象图形学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673303A (zh) * | 2021-06-28 | 2021-11-19 | 中国科学院大学 | 一种人脸面部动作单元强度回归方法、装置和介质 |
CN113673303B (zh) * | 2021-06-28 | 2024-02-02 | 中国科学院大学 | 一种人脸面部动作单元强度回归方法、装置和介质 |
WO2023040146A1 (zh) * | 2021-09-17 | 2023-03-23 | 平安科技(深圳)有限公司 | 基于图像融合的行为识别方法、装置、电子设备及介质 |
CN114485417A (zh) * | 2022-01-07 | 2022-05-13 | 哈尔滨工业大学 | 一种基于深度循环神经网络光流估计模型的结构振动位移识别方法及系统 |
CN114842542A (zh) * | 2022-05-31 | 2022-08-02 | 中国矿业大学 | 基于自适应注意力与时空关联的面部动作单元识别方法及装置 |
CN115359534A (zh) * | 2022-08-25 | 2022-11-18 | 成都信息工程大学 | 基于多特征融合和双流网络的微表情识别方法 |
CN115359534B (zh) * | 2022-08-25 | 2023-04-07 | 成都信息工程大学 | 基于多特征融合和双流网络的微表情识别方法 |
CN116416667A (zh) * | 2023-04-25 | 2023-07-11 | 天津大学 | 基于动态关联信息嵌入的面部动作单元检测方法 |
CN116416667B (zh) * | 2023-04-25 | 2023-10-24 | 天津大学 | 基于动态关联信息嵌入的面部动作单元检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112990077B (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990077B (zh) | 基于联合学习与光流估计的面部动作单元识别方法及装置 | |
CN110287849B (zh) | 一种适用于树莓派的轻量化深度网络图像目标检测方法 | |
WO2021018163A1 (zh) | 神经网络的搜索方法及装置 | |
CN110097115B (zh) | 一种基于注意力转移机制的视频显著性物体检测方法 | |
CN108090403A (zh) | 一种基于3d卷积神经网络的人脸动态识别方法及系统 | |
CN106611427A (zh) | 基于候选区域融合的视频显著性检测方法 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
Chen et al. | Dr-tanet: Dynamic receptive temporal attention network for street scene change detection | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN114842542B (zh) | 基于自适应注意力与时空关联的面部动作单元识别方法及装置 | |
CN114187520B (zh) | 一种建筑物提取模型的构建及应用方法 | |
CN108038486A (zh) | 一种文字检测方法 | |
CN111507275A (zh) | 一种基于深度学习的视频数据时序信息提取方法及装置 | |
Zhu et al. | Towards automatic wild animal detection in low quality camera-trap images using two-channeled perceiving residual pyramid networks | |
CN114898407A (zh) | 一种基于深度学习牙齿目标实例分割及其智能预览的方法 | |
CN113297959A (zh) | 一种基于角点注意力孪生网络的目标跟踪方法及系统 | |
CN115661459A (zh) | 一种使用差异信息的2D mean teacher模型 | |
CN114119635B (zh) | 一种基于空洞卷积的脂肪肝ct图像分割方法 | |
CN113706562A (zh) | 图像分割方法、装置、系统及细胞分割方法 | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
Zhang et al. | Ascnet: Adaptive-scale convolutional neural networks for multi-scale feature learning | |
CN112184555B (zh) | 一种基于深度交互学习的立体图像超分辨率重建方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN114037684A (zh) | 一种基于yolov5和注意力机制模型的疵点检测方法 | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |