CN113420703A - 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法 - Google Patents

基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法 Download PDF

Info

Publication number
CN113420703A
CN113420703A CN202110752977.9A CN202110752977A CN113420703A CN 113420703 A CN113420703 A CN 113420703A CN 202110752977 A CN202110752977 A CN 202110752977A CN 113420703 A CN113420703 A CN 113420703A
Authority
CN
China
Prior art keywords
time
face
frame
region
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110752977.9A
Other languages
English (en)
Other versions
CN113420703B (zh
Inventor
夏小涵
蒋冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110752977.9A priority Critical patent/CN113420703B/zh
Publication of CN113420703A publication Critical patent/CN113420703A/zh
Application granted granted Critical
Publication of CN113420703B publication Critical patent/CN113420703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明主要设计了一种基于多尺度特征提取和多注意力机制建模的面部表情识别方法。该方法能够从局部和全局上同时考虑情感相关的面部特征,以最大程度地挖掘表情显著的面部视觉信息;与此同时,考虑了多注意力机制的策略,以在时序上突显关键帧的重要作用,并在空间维度上给予包含丰富表情信息的区域块更高的权重,从而增加关键帧和关键块对表情识别的贡献,实现更好的表情识别效果。经过对本发明的实验验证,在Aff‑Wild2数据库上的七类情感识别的准确率可以达到50.3%,F1分值可以达到49.5%,在RML数据库上的六类情感识别的准确率可以达到78.32%,在AFEW数据库上的七类表情识别的准确率可以达到59.79%,均已达到或领先世界先进水平。

Description

基于多尺度特征提取和多注意力机制建模的动态面部表情识 别方法
技术领域
本发明采用二维卷积神经网络(2D CNN)、三维卷积神经网络(3D CNN),以及时间和空间维度上的注意力机制,设计了一种基于多尺度特征提取和多注意力机制建模对面部视频进行帧级别表情识别的方法。
背景技术
近年来,自动表情识别受到越来越多研究者的关注,以使计算机能够自动识别并理解被观测者的面部表情并作出下一步反应,从而促进更为和谐的人机交互。目前最为流行的是基于基本情感类别假设的离散表情识别,即把表情分为诸如高兴、悲伤、生气等等某一特定类别的情感状态。传统的动态表情数据库是为每一个视频标注一个唯一的情感类别,从而在每个视频中只存在一种情感状态。然而,同一种情感状态下可能存在从中性演进成丰富的感情状态再回落到中性状态的过程,因此把同一视频中的所有帧都视为相同的表情是不够合理的。在2020年举办的自然场景下的情感行为分析竞赛(ABAW2020)中,组织者发布了一个全新的数据库Aff-Wild2。该数据库包含五百多个从互联网上收集的视频,其中每个视频中的每一帧都被标注为七类表情中的一种,因此一个视频中可能包含了多种不同类型的表情,比如从中性到惊讶再到恐惧。这个竞赛的举办带来了新的研究课题,即动态视频中帧级别的离散表情识别。
对于面部视频中的动态表情识别研究来说,主要存在两个难点:一是如何提取有效的面部特征,并对情感表现显著的面部区域给予更多关注;二是如何建模视频中的动态时序性,同时最大化关键帧起到的全局作用。
传统的空间特征大多是手工特征,比如方向梯度直方图、局部二值模式、面部特征点等等。但是这种手工设计的特征往往依赖于较强的领域知识。随着深度学习技术的不断发展,CNN表现出极强的深度特征学习能力,并在计算机视觉领域取得了很好的效果。借助于ResNet和VGGFace2之类大规模的预训练模型,很多研究者基于迁移学习的方法,在这些预训练模型的基础上用情感数据进行模型的微调,进而实现情感相关的深度特征提取。随后一些研究还将注意力机制应用到CNN模型中,进一步提高了CNN的深度特征学习能力。另一方面,还有一些工作借鉴面部特征点或者面部动作单元的知识,把人脸分成若干面部区域,然后在每个局部块上进行特征提取,实现了更好的表情识别效果。
对于面部视频中的动态特征建模,早期的方法通常利用统计函数把帧级别的特征汇总成视频级别的全局特征表示,然后用支持向量机等机器学习模型进行表情识别。但是,这种方法没有考虑视频中的时序依赖性。为了解决这个问题,循环神经网络被用于时序建模并取得了很好的效果。然而,时序演进过程中的不同帧被模型赋予了相同的重要性,没有考虑到关键帧的问题。为此,一些研究者引入了注意力机制来突显关键帧对模型的贡献和影响。比如,在循环神经网络模型的上层加入一个注意力层,或者通过额外的帧注意力模型来适应性地聚合帧级别的特征,很多研究表明时间维度上的注意力机制对动态表情识别的效果有很大提升。近来,三维卷积神经网络(3DCNN)也被用于短时的时空特征提取或者直接用于表情分类。由于3D CNN能够把空间和时间维度上的信息同时紧密的考虑并进行建模,因此提高了针对面部视频的动态表情识别效果。
面部表情和面部动作单元(AU)密切相关。根据面部运动编码系统的领域知识,AU对应于面部肌肉的运动,而这些AU本身或者一些特定的组合几乎可以形成任何的面部表情。比如,AU6(脸颊上扬)和AU12(嘴角上扬)的同时出现表示一种高兴的表情。受人类AU专家标注过程的启发,文献“L.Yang,et al.,FACS3D-Net:3d convolution based spatio-temporal representation for action unit detection,in:2019 ACII,IEEE,pp.538–544.”通过集成2D CNN和3D CNN来同时考虑空间和时间维度上的深度特征编码,并通过实验证明该方法与人类标注过程中的动态注意力一致。随后,该研究团队又提出了区域注意力的动态深度模型,通过在面部局部区域上进行特征提取并引入空间注意力机制,取得了更好的AU识别结果。
发明内容
当我们判断一个视频中的某一帧的表情时,不仅会关注当前帧,还会受到相邻帧的影响来做出判断,尤其是那些情感状态比较显著的帧。与此同时,当我们观察整个面部区域时,还会更关注那些局部区域中的细节,比如眼眶和嘴巴。受到这种现象的启发,本发明设计了一种基于多尺度特征提取和多注意力机制的动态面部表情识别方法。该方法在全脸和面部区域块两个尺度上同时进行深度时空特征的提取,并同时考虑了时间和空间维度上的注意力机制。本发明的创新点如下:
1)提出了一种多尺度特征编码方法,以同时学习基于整张人脸的全局特征和基于面部区域块的局部特征,然后进行串接作为学到的多尺度深度特征。其中,每种特征都采用了2D和3D CNN结合的方法来联合学习深度时空特征。对于全局特征提取,我们采用了ResNet50和R(2+1)D两个预训练模型来提高卷积神经网络的特征提取能力。
2)设计了一种时空多注意力机制,通过对时序上的不同帧进行重要性判断,来突显时间序列上情感状态较为显著的关键帧,并自动对这些帧赋予更高的权重。同时,对于局部特征提取,考虑了空间注意力机制,通过对情感表现明显的区域块给予更高的权重来强化相关面部区域的作用。
3)在三个公开情感数据集上验证了所提出建模方法的效果,均达到了该研究领域内的最高发展水平。可视化分析也证明了所提时空多注意力机制的有效性。
本发明解决其技术问题所采用的技术方案:基于二维卷积神经网络(2D CNN),三维卷积神经网络(3D CNN)、时间注意力机制和空间注意机制的多尺度多注意力机制的动态面部表情识别模型,其特点如图1所示。下面从输入、模型和输出等三个方面来顺序描述:
输入:本发明首先从人脸视频中进行人脸图片的提取和矫正。虽然本发明的目标是进行视频中的帧级别表情识别,但为了利用视频中的动态信息,我们将目标帧与其前序若干帧一起作为图片序列输入模型,即动态的面部表情识别。
模型:对于输入模型的图片序列,首先应用时间维度上的注意力机制,以自适应的对每一帧赋予不同的权重,使得情感相关的关键帧对应更好的权重,从而对后面的结果产生更大的影响。然后,将这些加权后的帧输入模型进行全局的时空深度特征提取。与此同时,我们基于AU相关知识将人脸划分成九个相互重叠的局部块。这些局部块作为九个互相独立的流分别输入模型进行局部时空特征的提取。另外,这些基于人脸分块的局部特征又被加以空间注意力,从而对每个分块赋予不同的权重,即对不同的局部特征赋予不同的权重。最后,加权后的局部特征与全局特征进行串接,一同输入全连接层进行表情分类。
输出:模型将输出目标帧所对应的情感类别,即高兴、悲伤、生气、惊讶、厌恶、恐惧和中性等七种表情类别之一。
本发明的技术方案是:基于多尺度特征提取和多注意力机制的动态面部表情识别方法,包括如下步骤:
1、对输入原始视频进行预处理
首先,从二维视频中进行人脸图片的提取。针对动态面部表情进行实时的人脸追踪与对齐,在二维视频中实现三维人脸配准,从而实现精准的人脸提取与对齐。然后将提取到的人脸图像进行旋转、缩放和标准化。值得一提的是,虽然本发明的目标是进行视频中的帧级别表情识别,但我们充分考虑了视频中的动态信息,将目标帧与其前序若干帧一起作为图片序列输入模型,以实现动态的面部表情识别。
为了最大程度地挖掘面部与情感相关的信息,本发明依据面部动作单元编码系统的相关知识,将人脸划分为九个互相重叠的区域。分别是右眉毛区域(P1)、左眉毛区域(P2)、右眼区域(P3);两眼之间和鼻根的区域(P4);左眼区域(P5);右脸颊和右嘴角区域(P6);鼻子和嘴巴上部区域(P7);左脸颊和左嘴角区域(P8);嘴巴和下巴区域(P9)。然后这些切分的区域块被归一化为统一尺寸。随后,将这九个区域块与全脸一起,作为十个互相独立的流,输入模型进行多尺度时空特征的提取。
2、对预处理后的人脸图片序列进行多尺度时空特征提取
a)局部时空特征提取
该子模型基于两流的CNN架构,能够从一个区域块序列中提取局部时空信息。其中一个分支是一个2D CNN,包含3个卷积层和1个全连接层,以对目标帧(即该序列的最后一帧)进行该区域块上的空间特征提取。基于此分支,可以从一个特定的区域块得到一个维度为Np_2d的特征向量,表示该区域块中包含的空间信息。另一个分支是一个3D CNN,用来对输入的序列进行局部的动态时序信息提取。该3D CNN的结构和2D CNN分支的结构相同,唯一的区别是用三维卷积替代二维卷积,从而实现时序上的信息编码。基于该分支,我们将得到一个维度为Np_3d的特征向量,表示该区域块中包含的时序信息。然后,将上述两个分支得到的特征进行串接,表示该区域块对应的局部时空特征,记为Vp
需要注意的是,本发明设计的模型共包含九个互相独立的上述子模型,分别对应于切分出来的九个区域块。
b)全局时空特征提取
类似地,我们也采用两流的CNN架构来对全脸的图像序列进行时空特征的提取。在2D CNN分支中,我们借鉴在人脸数据库上预训练好的ResNet50模型。在此预训练模型的基础上,我们使用公开的AffectNet表情数据库进行微调,使模型学习到的深度特征更符合带有情感的表情信息。从微调后的ResNet50所提取的特征维度为Nf_2d,表示在整张人脸上所提取的全局空间特征。在3D CNN分支中,我们同样借鉴预训练好的R(2+1)D模型。该模型是三维卷积神经网络的变种,通过将三维卷积分解为二维卷积加一维卷积,增加了额外的非线性变化,因此提高了特征的表征能力。我们采用的是在动作识别数据库Kinetics-400上预训练好的R(2+1)D模型,对应的特征维度为Nf_3d,表示在整张人脸上学习到的全局时间特征。最后,将这两个分支的输出进行串接,即提取的全局时空特征,记为Vf
3、利用时空多注意力机制方法进行建模
a)通过空间注意力实现的局部特征加权建模
对于某一类特定的表情来说,人脸上的某些区域对该表情的判断要比其他区域更为重要;另一方面,在一段图片序列中,不同帧所包含的信息量也不尽相同。为了对九个区域块所提取的局部时空特征进行加权,并且考虑时序上不同帧之间的重要性差异,本发明同时从空间和时间维度上考虑注意力机制。
对于空间注意力的实现,我们首先将CNN学到的局部时空特征表示Vp输入一个单层感知机,以得到其对应的隐层表示Hs
Hs=tanh(WsVp+bs)
其中,Ws和bs分别表示感知机的权重和偏置参数,tanh是激活函数。为了衡量九个区域块的重要性程度,我们定义一个上下文向量Cs。该向量可以理解为在模型训练过程中,每个区域块所能提供的有效信息量,也就是对表情识别结果的影响力。然后,计算Hs和Cs的内积来衡量两者之间的相似度。如果内积值越大,则说明该区域块与上下文向量Cs非常相似,即其所包含的空间信息对情感的识别很重要;相反,如果内积值越小,则说明该区域块对表情识别的作用很小。为了得到[0,1]范围内的重要性系数,我们使用Sigmoid函数来激活Hs和Cs的相似度,从而获得空间注意力权重αs p
Figure BDA0003146709010000051
在计算每个区域块对应的空间注意力权重之后,就可以得到加权后的局部特征SPAatted
Figure BDA0003146709010000052
b)通过时间注意力实现的时序帧加权建模
另一方面,为了判断输入的帧序列上不同帧的重要程度,本发明考虑时间上的注意力机制,以实现对时序帧进行加权。与空间上注意力的实现方法类似,我们首先定义每一帧图像为If,以及时序上的上下文向量Ct。此处,Ct的含义可以解释对每一帧的重要性进行衡量,即每一帧图片所包含的重要信息量。然后,计算每一帧图片在RGB三个通道上的均值Mf,得到其对应的隐层表示Ht
Ht=tanh(WtMf+bt)
其中,Wt和bt分别表示该感知机的权重和偏置参数,tanh是激活函数。然后,每帧图片对应的时间注意力权重αt f可以通过Sigmoid激活函数得到:
Figure BDA0003146709010000061
因此,每个图像帧可以编码为TEMatted
Figure BDA0003146709010000062
加权后的RGB图像序列被输入模型中的2D/3D CNN进行多尺度的时空特征提取。
4、识别视频中每一帧图片中的面部表情
经过上述多尺度特征提取和多注意力机制作用后,模型将输出基于整张人脸的全局特征Vf以及基于人脸分块的加权局部特征SPAatted,两者进行串接后用来表示目标帧。然后,用一个单层感知机和softmax对该帧的表情类别进行预测。最终,模型将输入该视频的每一帧图片中的面部表情类别。
本发明的有益效果是:通过考虑动态视频中连续帧之间的动态信息,本发明提出了一种面向动态视频的帧级别表情识别方法。此方法通过使用多尺度特征学习,即基于全脸的全局特征提取和基于人脸分块的局部特征提取,能够在最大程度上挖掘面部相关的表情信息,提高动态视频中的表情识别效果。同时,该发明提出了一种新的时间注意力方法,在动态时间序列上挖掘每一时刻下不同帧的关键信息,并对情感信息更为显著的帧赋予更好的权重,从而加强其对最终识别结果的影响力。另一方面,本发明在人脸分块化学习中集成了空间注意力机制,通过对面部不同区域的重要性进行判断,对表情贡献较大的区域块赋予较高的权重,从而在最后决策中起到更为关键的作用。
附图说明
图1是本发明提出模型结构框图。
具体实施方式
以下通过具体的实例对本发明的技术实施流程做进一步说明。
1、对输入视频进行预处理
首先,从视频中进行人脸图片的提取。我们进行实时的人脸追踪与对齐,能够在二维视频中实现三维人脸配准,从而实现更精准的人脸提取与对齐。然后将提取到的人脸图像进行旋转、缩放和标准化。最终输入模型的人脸图片大小为512x512像素。值得一提的是,虽然本发明的目标是进行视频中的帧级别表情识别,但我们充分考虑了视频中的动态信息,将目标帧与其前序若干帧一起作为图片序列输入模型,以实现动态的面部表情识别。
为了最大程度地挖掘面部与情感相关的信息,本发明依据面部动作单元编码系统的相关知识,将人脸划分为九个互相重叠的区域。分别是右眉毛区域(P1)、左眉毛区域(P2)、右眼区域(P3);两眼之间和鼻根的区域(P4);左眼区域(P5);右脸颊和右嘴角区域(P6);鼻子和嘴巴上部区域(P7);左脸颊和左嘴角区域(P8);嘴巴和下巴区域(P9)。然后这些切分的区域块被归一化为100×100像素大小的统一尺寸。随后,将这九个区域块与全脸一起,作为十个互相独立的流,输入模型进行多尺度时空特征的提取。
2、对预处理后的人脸图片序列进行多尺度时空特征提取
a)局部时空特征提取
该子模型基于两流的CNN架构,能够从一个区域块序列中提取局部时空信息。其中一个分支是一个2D CNN,包含3个卷积层和1个全连接层,以对目标帧(即该序列的最后一帧)进行该区域块上的空间特征提取。基于此分支,可以从一个特定的区域块得到一个维度为Np_2d的特征向量,表示该区域块中包含的空间信息。另一个分支是一个3D CNN,用来对输入的序列进行局部的动态时序信息提取。该3D CNN的结构和2D CNN分支的结构相同,唯一的区别是用三维卷积替代二维卷积,从而实现时序上的信息编码。基于该分支,我们将得到一个维度为Np_3d的特征向量,表示该区域块中包含的时序信息。然后,将上述两个分支得到的特征进行串接,表示该区域块对应的局部时空特征,记为Vp
需要注意的是,本发明设计的模型共包含九个互相独立的上述子模型,分别对应于切分出来的九个区域块。
b)全局时空特征提取
类似地,我们也采用两流的CNN架构来对全脸的图像序列进行时空特征的提取。在2D CNN分支中,我们借鉴在人脸数据库上预训练好的ResNet50模型。在此预训练模型的基础上,我们使用公开的AffectNet表情数据库进行微调,使模型学习到的深度特征更符合带有情感的表情信息。从微调后的ResNet50所提取的特征维度为Nf_2d,表示在整张人脸上所提取的全局空间特征。在3D CNN分支中,我们同样借鉴预训练好的R(2+1)D模型。该模型是三维卷积神经网络的变种,通过将三维卷积分解为二维卷积加一维卷积,增加了额外的非线性变化,因此提高了特征的表征能力。我们采用的是在动作识别数据库Kinetics-400上预训练好的R(2+1)D模型,对应的特征维度为Nf_3d,表示在整张人脸上学习到的全局时间特征。最后,将这两个分支的输出进行串接,即提取的全局时空特征,记为Vf
3、利用注意力机制分别进行空间和时间上的加权
a)通过空间注意力实现的局部特征加权
对于某一类特定的表情来说,人脸上的某些区域对该表情的判断要比其他区域更为重要;另一方面,在一段图片序列中,不同帧所包含的信息量也不尽相同。为了对九个区域块所提取的局部时空特征进行加权,并且考虑时序上不同帧之间的重要性差异,本发明同时从空间和时间维度上考虑注意力机制。
对于空间注意力的实现,我们首先将CNN学到的局部时空特征表示Vp输入一个单层感知机,以得到其对应的隐层表示Hs
Hs=tanh(WsVp+bs)
其中,Ws和bs分别表示感知机的权重和偏置参数,tanh是激活函数。为了衡量九个区域块的重要性程度,我们定义一个上下文向量Cs。该向量可以理解为在模型训练过程中,每个区域块所能提供的有效信息量,也就是对表情识别结果的影响力。然后,计算Hs和Cs的内积来衡量两者之间的相似度。如果内积值越大,则说明该区域块与上下文向量Cs非常相似,即其所包含的空间信息对情感的识别很重要;相反,如果内积值越小,则说明该区域块对表情识别的作用很小。为了得到[0,1]范围内的重要性系数,我们使用Sigmoid函数来激活Hs和Cs的相似度,从而获得空间注意力权重αp
Figure BDA0003146709010000081
在计算每个区域块对应的空间注意力权重之后,就可以得到加权后的局部特征SPAatted
Figure BDA0003146709010000091
b)通过时间注意力实现的时序帧加权
另一方面,为了判断输入的帧序列上不同帧的重要程度,本发明考虑时间上的注意力机制,以实现对时序帧进行加权。与空间上注意力的实现方法类似,我们首先定义每一帧图像为If,以及时序上的上下文向量Ct。此处,Ct的含义可以解释对每一帧的重要性进行衡量,即每一帧图片所包含的重要信息量。然后,计算每一帧图片在RGB三个通道上的均值Mf,得到其对应的隐层表示Ht
Ht=tanh(WtMf+bt)
其中,Wt和bt分别表示该感知机的权重和偏置参数,tanh是激活函数。然后,每帧图片对应的时间注意力权重αt f可以通过Sigmoid激活函数得到:
Figure BDA0003146709010000092
因此,每个图像帧可以编码为TEMatted
Figure BDA0003146709010000093
加权后的RGB图像序列被输入模型中的2D/3D CNN进行多尺度的时空特征提取。
4、识别输入视频中每一帧图片中的面部表情
经过上述多尺度特征提取和多注意力机制作用后,模型将输出基于整张人脸的全局特征Vf以及基于人脸分块的加权局部特征SPAatted,两者进行串接后用来表示目标帧。然后,用一个单层的感知机和softmax输出对该帧的表情预测。
最后,针对所输入的面部视频,识别其中每一帧图片中的面部表情,即七类表情(开心、悲伤、生气、惊讶、厌恶、恐惧和中性)中的某一种。
图1实例了所提模型的具体使用方法。首先,给定一个带表情的人脸视频,我们先对视频进行预处理,以得到经过校正和对齐的人脸图片序列。然后将目标帧和其前序19帧图片一起,作为图片序列输入到模型中。模型经过特征提取和分类,输出目标帧中的表情类别。经过实验验证,我们所建立的模型在Aff-Wild2数据库上的七类情感识别任务的准确率可以达到50.3%,F1评价指标可以达到49.5%,在RML数据库上的六类情感识别的准确率可以达到78.32%,在AFEW数据库上的七类表情识别的准确率可以达到59.79%,均已达到或领先世界先进水平。

Claims (1)

1.基于多尺度特征提取和多注意力机制的动态面部表情识别方法,其特征在于,包括如下步骤:
1、对输入原始视频进行预处理
首先,从二维视频中进行人脸图片的提取。针对动态面部表情进行实时的人脸追踪与对齐,在二维视频中实现三维人脸配准,从而实现精准的人脸提取与对齐。然后将提取到的人脸图像进行旋转、缩放和标准化;将人脸划分为九个互相重叠的区域。分别是右眉毛区域(P1)、左眉毛区域(P2)、右眼区域(P3);两眼之间和鼻根的区域(P4);左眼区域(P5);右脸颊和右嘴角区域(P6);鼻子和嘴巴上部区域(P7);左脸颊和左嘴角区域(P8);嘴巴和下巴区域(P9)。然后这些切分的区域块被归一化为统一尺寸。随后,将这九个区域块与全脸一起,作为十个互相独立的流,输入模型进行多尺度时空特征的提取。
2、对预处理后的人脸图片序列进行多尺度时空特征提取
a)局部时空特征提取
该子模型基于两流的CNN架构,能够从一个区域块序列中提取局部时空信息。其中一个分支是一个2D CNN,包含3个卷积层和1个全连接层,以对目标帧(即该序列的最后一帧)进行该区域块上的空间特征提取。基于此分支,可以从一个特定的区域块得到一个维度为Np_2d的特征向量,表示该区域块中包含的空间信息。另一个分支是一个3D CNN,用来对输入的序列进行局部的动态时序信息提取。该3D CNN的结构和2D CNN分支的结构相同,唯一的区别是用三维卷积替代二维卷积,从而实现时序上的信息编码。基于该分支,将得到一个维度为Np_3d的特征向量,表示该区域块中包含的时序信息。然后,将上述两个分支得到的特征进行串接,表示该区域块对应的局部时空特征,记为Vp
b)全局时空特征提取
采用两流的CNN架构来对全脸的图像序列进行时空特征的提取,在2D CNN分支中,在ResNet50预训练模型的基础上,使用公开的AffectNet表情数据库进行微调,使模型学习到的深度特征更符合带有情感的表情信息。从微调后的ResNet50所提取的特征维度为Nf_2d,表示在整张人脸上所提取的全局空间特征。在3D CNN分支中,借鉴预训练好的R(2+1)D模型,在动作识别数据库Kinetics-400上预训练好的R(2+1)D模型,对应的特征维度为Nf_3d,表示在整张人脸上学习到的全局时间特征。最后,将这两个分支的输出进行串接,即提取的全局时空特征,记为Vf
3、利用时空多注意力机制方法进行建模
a)通过空间注意力实现的局部特征加权建模
对于空间注意力的实现,首先将CNN学到的局部时空特征表示Vp输入一个单层感知机,以得到其对应的隐层表示Hs:
Hs=tanh(WsVp+bs)
其中,Ws和bs分别表示该感知机的权重和偏置参数,tanh是激活函数。为了衡量九个区域块的重要性程度,我们定义一个上下文向量Cs;计算Hs和Cs的内积来衡量两者之间的相似度。使用Sigmoid函数来激活Hs和Cs的相似度,从而获得空间注意力权重αp:
Figure FDA0003146707000000021
在计算每个区域块对应的空间注意力权重之后,就可以得到加权后的局部特征:
b)通过时间注意力实现的时序帧加权建模
首先定义每一帧图像为If,以及时序上的上下文向量Ct。然后,计算每一帧图片在RGB三个通道上的均值Mf,得到其对应的隐层表示Ht
Ht=tanh(WtMf+bt)
其中,Wt和bt分别表示该感知机的权重和偏置参数,tanh是激活函数。然后,每帧图片对应的时间注意力权重αt f可以通过Sigmoid激活函数得到:
Figure FDA0003146707000000022
因此,每个图像帧可以编码为TEMatted
Figure FDA0003146707000000023
加权后的RGB图像序列被输入模型中的2D/3D CNN进行多尺度的时空特征提取。
4、识别视频中每一帧图片中的面部表情
经过上述多尺度特征提取和多注意力机制作用后,模型将输出基于整张人脸的全局特征Vf以及基于人脸分块的加权局部特征SPAatted,两者进行串接后用来表示目标帧。然后,用一个单层感知机和softmax对该帧的表情类别进行预测。最终,模型将输入该视频的每一帧图片中的面部表情类别。
CN202110752977.9A 2021-07-03 2021-07-03 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法 Active CN113420703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752977.9A CN113420703B (zh) 2021-07-03 2021-07-03 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752977.9A CN113420703B (zh) 2021-07-03 2021-07-03 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法

Publications (2)

Publication Number Publication Date
CN113420703A true CN113420703A (zh) 2021-09-21
CN113420703B CN113420703B (zh) 2023-04-18

Family

ID=77720228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752977.9A Active CN113420703B (zh) 2021-07-03 2021-07-03 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法

Country Status (1)

Country Link
CN (1) CN113420703B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842539A (zh) * 2022-05-30 2022-08-02 山东大学 基于注意力机制和一维卷积滑窗的微表情发现方法及系统
CN115546878A (zh) * 2022-11-23 2022-12-30 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871777A (zh) * 2019-01-23 2019-06-11 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
CN109977773A (zh) * 2019-02-18 2019-07-05 华南理工大学 基于多目标检测3d cnn的人体行为识别方法及系统
CN110096987A (zh) * 2019-04-24 2019-08-06 东北大学 一种基于双路3dcnn模型的哑语动作识别方法
US20200202119A1 (en) * 2018-12-24 2020-06-25 Samsung Electronics Co., Ltd. Method and apparatus that controls augmented reality (ar) apparatus based on action prediction
CN111368666A (zh) * 2020-02-25 2020-07-03 上海蠡图信息科技有限公司 一种基于新型池化及注意力机制双流网络的活体检测方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法
CN111797683A (zh) * 2020-05-21 2020-10-20 台州学院 一种基于深度残差注意力网络的视频表情识别方法
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
CN112364757A (zh) * 2020-11-09 2021-02-12 大连理工大学 一种基于时空注意力机制的人体动作识别方法
CN112418095A (zh) * 2020-11-24 2021-02-26 华中师范大学 一种结合注意力机制的面部表情识别方法及系统
CN112464865A (zh) * 2020-12-08 2021-03-09 北京理工大学 一种基于像素和几何混合特征的人脸表情识别方法
CN112560810A (zh) * 2021-02-19 2021-03-26 中国科学院自动化研究所 基于多尺度时空特征神经网络的微表情识别方法
CN112766172A (zh) * 2021-01-21 2021-05-07 北京师范大学 一种基于时序注意力机制的人脸连续表情识别方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200202119A1 (en) * 2018-12-24 2020-06-25 Samsung Electronics Co., Ltd. Method and apparatus that controls augmented reality (ar) apparatus based on action prediction
CN109871777A (zh) * 2019-01-23 2019-06-11 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
CN109977773A (zh) * 2019-02-18 2019-07-05 华南理工大学 基于多目标检测3d cnn的人体行为识别方法及系统
CN110096987A (zh) * 2019-04-24 2019-08-06 东北大学 一种基于双路3dcnn模型的哑语动作识别方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN111368666A (zh) * 2020-02-25 2020-07-03 上海蠡图信息科技有限公司 一种基于新型池化及注意力机制双流网络的活体检测方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法
CN111797683A (zh) * 2020-05-21 2020-10-20 台州学院 一种基于深度残差注意力网络的视频表情识别方法
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
CN112364757A (zh) * 2020-11-09 2021-02-12 大连理工大学 一种基于时空注意力机制的人体动作识别方法
CN112418095A (zh) * 2020-11-24 2021-02-26 华中师范大学 一种结合注意力机制的面部表情识别方法及系统
CN112464865A (zh) * 2020-12-08 2021-03-09 北京理工大学 一种基于像素和几何混合特征的人脸表情识别方法
CN112766172A (zh) * 2021-01-21 2021-05-07 北京师范大学 一种基于时序注意力机制的人脸连续表情识别方法
CN112560810A (zh) * 2021-02-19 2021-03-26 中国科学院自动化研究所 基于多尺度时空特征神经网络的微表情识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DINGWEN ZHANG等: "SPFTN: A Joint Learning Framework for Localizing and Segmenting Objects in Weakly Labeled Videos", 《 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 》 *
LE YANG等: "FACS3D-Net: 3D Convolution based Spatiotemporal Representation for Action Unit Detection", 《2019 8TH INTERNATIONAL CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION (ACII)》 *
ZHAOFAN QIU等: "Learning Spatio-Temporal Representation With Local and Global Diffusion", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
张群: "基于 3D CNN 和注意力机制的手语识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王辉涛: "基于全局时空感受野的高效视频分类方法", 《小型微型计算机系统》 *
赵清玄: "现实场景下的视频行为识别关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842539A (zh) * 2022-05-30 2022-08-02 山东大学 基于注意力机制和一维卷积滑窗的微表情发现方法及系统
CN115546878A (zh) * 2022-11-23 2022-12-30 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用
CN115546878B (zh) * 2022-11-23 2023-02-03 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用

Also Published As

Publication number Publication date
CN113420703B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
EP3547211B1 (en) Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Jain et al. Extended deep neural network for facial emotion recognition
CN110222668B (zh) 基于生成对抗网络的多姿态面部表情识别方法
WO2022111236A1 (zh) 一种结合注意力机制的面部表情识别方法及系统
CN109472198B (zh) 一种姿态鲁棒的视频笑脸识别方法
CN109740419A (zh) 一种基于Attention-LSTM网络的视频行为识别方法
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN113420703B (zh) 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
Liu et al. Facial expression recognition and generation using sparse autoencoder
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
Gan et al. Facial beauty prediction based on lighted deep convolution neural network with feature extraction strengthened
CN110378234A (zh) 基于TensorFlow构建的卷积神经网络热像人脸识别方法及系统
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN106778576B (zh) 一种基于sehm特征图序列的动作识别方法
CN113033283B (zh) 一种改进的视频分类系统
CN114360073A (zh) 一种图像识别方法及相关装置
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法
Vernikos et al. Fusing handcrafted and contextual features for human activity recognition
Belmonte et al. Video-based face alignment with local motion modeling
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法
CN111597864A (zh) 基于累积光流加权特征的微表情识别方法
CN110188706B (zh) 基于生成对抗网络的视频中人物表情的神经网络训练方法及检测方法
Yang et al. Combining attention mechanism and dual-stream 3d convolutional neural network for micro-expression recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant