CN112766172B - 一种基于时序注意力机制的人脸连续表情识别方法 - Google Patents
一种基于时序注意力机制的人脸连续表情识别方法 Download PDFInfo
- Publication number
- CN112766172B CN112766172B CN202110083484.0A CN202110083484A CN112766172B CN 112766172 B CN112766172 B CN 112766172B CN 202110083484 A CN202110083484 A CN 202110083484A CN 112766172 B CN112766172 B CN 112766172B
- Authority
- CN
- China
- Prior art keywords
- layer
- time
- attention
- frame
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000014509 gene expression Effects 0.000 title claims abstract description 19
- 230000007246 mechanism Effects 0.000 title claims abstract description 17
- 230000001815 facial effect Effects 0.000 title claims description 10
- 230000008451 emotion Effects 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 230000008909 emotion recognition Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 2
- 230000008921 facial expression Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 7
- 238000011840 criminal investigation Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000000750 progressive effect Effects 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 210000001097 facial muscle Anatomy 0.000 abstract 1
- 230000004927 fusion Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及一种基于时序注意力机制的人脸连续表情识别方法,在通过深度卷积神经网络进行视频帧的特征提取同时,结合时空注意力机制,增强特征在空间域的描述能力,以及增加特征在时间域的描述,在连续维度情感空间中,进行时空上下文相关的情感预测。情感的变化是一个渐进的过程,仅通过单帧空间域的表情特征,难以取得很好的连续情感识别精度。而临近时间域的图像帧通常具有规律性,时间域特征计算能够为基于学习的多帧融合特征提供可靠的数据支撑。本发明基于愉悦度‑激活度情感空间,基于时空注意力机制提取视频中连续多帧表情的上下文依赖关系,学习表情发生过程中面部肌肉运动规律;建立了连续表情识别模型。发明可应用于刑侦、民航安全检测等领域。
Description
技术领域
本发明涉及人工智能及计算机人机交互领域,具体是一种基于视频的连续维度情感识别方法。
背景技术
随着人工智能及情绪心理学研究的深入,利用计算机自动识别监测视频中人脸微表情,分析情感状态的行为成为可能,而且针对视频中人脸的情感分析在刑侦、民航安全检测、教育培训、特殊医学治疗以及电子商务方面都具有很高的应用价值。对于嫌疑人或被监视人的情感分析,有利于辅助刑侦人员正确甄别行为和心理情绪之间的关联,为判断提供依据。在民航危险品运输的问询中或疑似恐怖分子侦察中,利用自动情感分析,亦可协助人力解决漏判误判问题。自动人脸情感分析也可以用于课堂教学质量评估,辅助抑郁症和自闭症及特殊患者治疗等领域,推进计算机智能化应用发展。而传统方法通常只提取单帧图像特征用于预测,准确率不高。人脸的情感变化是一个渐进的过程,仅通过一瞬间的表情难以准确估计真实情感,尤其是在维度情感预测问题下,预测的目标不是离散的类别,而是一个值域为-1到1的连续值,这就更需要考虑时间上下文信息。近年来,随着计算机算力的不断增长,基于时序特征的算法被提出,用于学习相邻时间段内的表情线索,帮助更好地预测某一瞬间的情感。但是,已有方法仍存在问题,对于帧与帧之间的依赖关系无法准确表达、训练不稳定且输出值抖动大,
发明内容
针对此问题,本发明提出基于时序注意力机制的人脸连续表情识别方法,提取人脸时空显著特征,提高识别准确率,解决了帧与帧之间的依赖关系无法准确表达、训练不稳定且输出值抖动大的问题,本发明还提供一种改进的3D卷积神经网络模型,该模型加入了时间和空间注意力层,目的是更好地表示时空位置之间的依赖关系;该模型用期望回归层替代了传统的单神经元回归层,目的是解决训练过程中梯度不稳定和输出结果抖动大的问题。
本发明解决其技术问题所采用的技术方案是:一种基于时序注意力机制的人脸连续表情识别方法,包括以下步骤:
步骤1,输入视频中的帧序列,从视频帧序列中提取一段子序列,长度为T,帧步长为D,假设第i帧为要进行情感识别的目标帧,那么第到第i-1帧,以及第i+1帧到第帧,用于提供上下文信息;
步骤2,对子序列中每一帧图像进行人脸对齐,并且进行图像归一化;
步骤3,将该子序列输入到三维卷积神经网络(3DCNN)中,并引入时间注意力层和空间注意力层,学习时空上下文之间的依赖关系,提取人脸图像的时空显著特征,并与第i帧特征共同合成该帧的时空特征图;
步骤4,将提取到的时空特征图,输入到由Softmax分类层和情感分段间隔预测层组成的“期望回归层”,Softmax分类层用于将取值范围为[-1,1]的连续值,离散化为21个类别的分数段,从而将愉悦度和激活度的回归问题,转化为分数段的分类问题,输出分数段的概率分布;期望回归层中引入情感分段间隔预测层的作用是,使用带有可学习参数的多层感知机(MLP),来预测分数段的分段间隔,生成更符合原始数据分布的非均匀分段;
步骤5,将Softmax分类层输出的概率分布,与分段间隔预测层输出的分段值向量,进行内积运算,输出愉悦度和激活度的期望值。
进一步的,所述步骤1中,选取时间长度为T的帧序列来提取特征,提取单帧图像中所含的空间视觉特征,同时提取到时间维度上的关联信息。
进一步的,所述步骤2中,采用多任务卷积神经网络(MTCNN)算法进行快速人脸对齐,并且将人脸缩放到预定尺寸。
进一步的,所述步骤3中,使用基于三维残差网络(Resnet3D)的骨干网络,并且加入时间注意力层和空间注意力层,时间注意力层用于捕捉帧与帧之间的依赖关系,对于关键帧给予更高的权重;空间注意力层用于捕捉空间位置之间的依赖关系,对于对表情贡献更大的区域给予更高的权重,两者结合后,帮助三维卷积操作更好地提取时空特征。
进一步的,所述步骤4中,Softmax分类层是一个含有21个单元的全连接层,输出是愉悦度或激活度落在各个分数段内的概率,使用Softmax函数进行归一化,分数段划分为-1.0,-0.9,-0.8,…,0.8,0.9,1.0,共21段。
进一步的,所述步骤4中,情感分段间隔预测层是一个含21个单元的全连接层,输出的是21个分段关于其中心的偏移量,使用Tanh函数缩放到[-0.1,0.1]的范围内;偏移后的分数段中心为-1.0±0.1,-0.9±0.1,-0.8±0.1,…,0.8±0.1,0.9±0.1,1.0±0.1。
进一步的,所述步骤5中,将Softmax分类层输出的概率向量与偏移后的分段值向量进行内积,得到愉悦度或激活度期望值。
进一步的,所述步骤3中,使用Resnet3D网络作为骨干网络,输入张量首先经过一次3D卷积操作,得到特征图F1;将特征图F1输入到时间注意力层,计算帧与帧之间的依赖关系,得到注意力强化后的特征图F′1;将特征图F′1进行池化操作,然后输入到连续三层3D卷积层,得到特征图F2;将特征图F2输入到空间注意力层,计算每个空间位置之间的依赖关系,得到注意力强化后的特征图F′2;将特征图F′2再进行一次3D卷积操作,并进行时间维度的全局平均池化,得到维度为特征图F3,至此,特征提取步骤完成。
进一步的,所述时间注意力层的具体操作为:将输入的特征图F1做三次1×1×1卷积,得到Q、K、V三个新的张量;将Q变形为(T,64×112×112)尺寸,其每一个行向量表示一个“时间位置特征”;将K变形为(64×112×112,T)尺寸,其每一个列向量Kj也表示一个“时间位置特征”,将V变形为(T,64×112×112)尺寸,其每一个行向量Vi T表示一个“时间位置特征”;计算:
D为向量维数=64×112×112,则Attnij表示时间位置i与时间位置j之间的相似度,为i与j之间依赖关系强弱,将矩阵Attn左乘到矩阵V,得到特征表示V′=Attn·V,再将V′变形为原始尺寸(batch,T,64,112,112),得到注意力强化后的特征图F′1。
进一步的,所述空间注意力层的具体操作为:将输入的特征图F2做三次1×1×1卷积,得到Q、K、V三个新的张量;将Q变形为(7×7,512×T/16)尺寸,其每一个行向量表示一个“空间位置特征”;将K变形为(512×T/16,7×1127尺寸,其每一个列向量Kj也表示一个“空间位置特征”,将V变形为(7×7,512×T/16)尺寸,其每一个行向量Vi T表示一个“空间位置特征”;计算:
D为向量维数=64×T,则Attnij表示空间位置i与空间位置j之间的相似度,为i与j之间依赖关系强弱,将矩阵Attn左乘到矩阵V,得到特征表示V′=Attn·V,再将V′变形为原始尺寸(batch,T/16,512,7,7),得到注意力强化后的特征图F′2。
有益效果:
本发明的有益效果是,提出时间注意力层和空间注意力层,分别对时空依赖关系进行建模,可以更有效地提取时空特征;提出用期望回归层替代传统的单神经元回归层,避免了训练过程中梯度不稳定,从而使得训练更容易收敛。另外,输出情感期望值时,将概率分布与分数段向量进行内积,本质上是一种加权平均方式,一定程度上可以弱化误差,从而减轻输出结果的抖动现象。
附图说明
图1是本发明时空特征提取器结构图;
图2是本发明时间注意力层结构图;
图3是本发明空间注意力层结构图;
图4是本发明期望回归层结构图;
图5是本发明的一种基于时序注意力机制的人脸连续表情识别方法总体框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本发明的实施例,如图5所示,提出一种基于时序注意力机制的人脸连续表情识别方法,包括如下步骤:
1)图像序列的时空特征提取:
步骤1-1),需要确定输入的序列长度T和帧步长D。然后,假设第i帧为情感识别的目标帧,那么,取第到第i-1帧,以及第i+1帧到第/>帧,作为目标帧的上下文信息,组合成一个连续的帧序列。
步骤1-2),对视频子序列中每一帧图像进行人脸对齐,并缩放为112×112尺寸,再进行图像归一化。
步骤1-3),将该视频子序列输入到本发明提出的3D卷积神经网络中,提取时空特征。具体操作为:
使用Resnet3D网络作为骨干网络,输入张量维度为(batch,T,3,112,112),其中batch表示网络一次训练的帧图像数量,T表示选取的帧序列长度首先经过一次3D卷积操作,得到维度为(batch,T,64,56,56)的特征图F1;将特征图F1输入到时间注意力层,计算帧与帧之间的依赖关系,得到注意力强化后的特征图F′1;将特征图F′1进行池化操作,然后输入到连续三层3D卷积层,得到维度为(batch,T/16,512,7,7)的特征图F2;将特征图F2输入到空间注意力层,计算每个空间位置之间的依赖关系,得到注意力强化后的特征图F′2;将特征图F′2再进行一次3D卷积操作,并进行时间维度的全局平均池化,得到维度为(batch,1,512,4,4)的特征图F3。至此,特征提取步骤完成。
根据本发明的实施例,如图1中,输入为T帧112×112的人脸RGB图像,经过人脸对齐后,输入到3D卷积特征提取器中,输出前对时间维度进行全局平均池化,最终输出尺寸为(batch,1,512,4,4)的特征图F3。
2)学习时空位置之间的依赖关系:
上述步骤1-3)中,时间注意力层的具体操作为:将输入的特征图F1做三次1×1×1卷积,得到Q、K、V三个新的张量;将Q变形为(T,64×112×112)尺寸,其每一个行向量表示一个“时间位置特征”;将K变形为(64×112×112,T)尺寸,其每一个列向量Kj也表示一个“时间位置特征”。将V变形为(T,64×112×112)尺寸,其每一个行向量Vi T表示一个“时间位置特征”;计算/>(D为向量维数=64×112×112),则Attnij表示时间位置i与时间位置j之间的相似度,可以理解为i与j之间依赖关系强弱。将矩阵Attn左乘到矩阵V,得到特征表示V′=Attn·V,再将V′变形为原始尺寸(batch,T,64,112,112),得到注意力强化后的特征图F1′。
根据本发明的实施例,如图2所示,在时间注意力层中,输入为前一层3D卷积输出的的特征图F1,输出特征图F′1,其尺寸未发生变化。
上述步骤1-3)中,空间注意力层的具体操作为:将输入的特征图F2做三次1×1×1卷积,得到Q、K、V三个新的张量;将Q变形为(7×7,512×T/16)尺寸,其每一个行向量表示一个“空间位置特征”;将K变形为(512×T/16,7×1127尺寸,其每一个列向量Kj也表示一个“空间位置特征”。将V变形为(7×7,512×T/16)尺寸,其每一个行向量Vi T表示一个“空间位置特征”;计算/>(D为向量维数=64×T),则Attnij表示空间位置i与空间位置j之间的相似度,可以理解为i与j之间依赖关系强弱。将矩阵Attn左乘到矩阵V,得到特征表示V′=Attn·V,再将V′变形为原始尺寸(batch,T/16,512,7,7),得到注意力强化后的特征图F2′。
如图3所示,在空间注意力层中,输入为前一层3D卷积输出的特征图F2,输出特征图F′2,其尺寸未发生变化。
3)使用期望回归层计算并输出愉悦度和激活度的预测值:
在图4所示的期望回归层中,将图3输出的特征图F′2分别输入到Softmax分类器和分段间隔预测层中,将Softmax分类层输出的概率分布,与分数段向量进行内积操作,得到情感期望值。
将特征图F′2再进行一次3D卷积操作,并进行时间维度的全局平均池化,得到维度为(batch,1,512,4,4)的特征图F3,首先,将特征图F3变形为(batch,512×4×4)尺寸的特征向量F4;将F4同时输入Softmax分类层和分段间隔预测层;
Softmax分类层使用含21个单元的全连接层实现,将愉悦度(或激活度)的值域[-1,1]划分为21个片段,并预测属于每一段的概率分布P;使用Softmax函数进行概率归一化。
分段间隔预测层使用含21个单元的全连接层实现,用于预测可变长的分段间隔,我们希望分段间隔不总是均匀的,应当能够对实际数据分布进行自适应学习。该层的输出是每一段的偏移量Oi,使用Tanh函数将偏移量的值域缩放为[-0.1,0.1]。假设原始分段值向量为S=[-1.0,-0.9,-0.8,...,0.8,0.9,1.0],则自适应的分段值向量为S′=S+O;
最后,将概率分布P与分段值向量S′进行内积运算,得到愉悦度(或激活度)的期望值。
训练过程中,采用交叉熵作为损失函数,由于标签是值域为[-1,1]的实数,需要对其进行离散化操作,转换为onehot编码。具体操作为:建立连续实数区间与下标的映射,[-1,-0.95)对应下标0,[-0.95,-0.85)对应下标1,以此类推,[0.95,1.0)对应下标20。
期望回归层的好处在于,传统回归方法使用单个神经元和线性激活函数,在整个实数域上预测回归结果,这会导致某些离群点产生非常大的梯度,进而导致训练过程不稳定,难以收敛。然而,在期望回归层中,Softmax函数限制了反向传播时的梯度,使其绝对值恒小于等于1,这也就避免了训练过程中梯度不稳定,从而使得训练更容易收敛。另外,输出情感期望值时,将概率分布与分数段向量进行内积,本质上是一种加权平均方式,一定程度上可以弱化误差,从而减轻输出结果的抖动现象。
4)对整个视频重复执行上述步骤,得到连续多个情感识别结果
上述步骤仅针对某一个目标帧i进行情感识别,如果需要获得整段视频的预测结果,需要对多个目标帧重复执行上述步骤。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (8)
1.一种基于时序注意力机制的人脸连续表情识别方法,其特征在于,包括以下步骤:
步骤1,输入视频中的帧序列,从视频帧序列中提取一段子序列,长度为T,帧步长为D,假设第i帧为要进行情感识别的目标帧,那么第到第i-1帧,以及第i+1帧到第/>帧,用于提供上下文信息;
步骤2,对子序列中每一帧图像进行人脸对齐,并且进行图像归一化;
步骤3,将该子序列输入到三维卷积神经网络(3DCNN)中,并引入时间注意力层和空间注意力层,学习时空上下文之间的依赖关系,提取人脸图像的时空显著特征,并与第i帧特征共同合成该帧的时空特征图;
步骤4,将提取到的时空特征图,输入到由Softmax分类层和情感分段间隔预测层组成的“期望回归层”,Softmax分类层用于将取值范围为[-1,1]的连续值,离散化为21个类别的分数段,从而将愉悦度和激活度的回归问题,转化为分数段的分类问题,输出分数段的概率分布;期望回归层中引入情感分段间隔预测层的作用是,使用带有可学习参数的多层感知机(MLP),来预测分数段的分段间隔,生成更符合原始数据分布的非均匀分段;
分段间隔预测层使用全连接层实现,用于预测可变长的分段间隔,该分段间隔预测层的输出是每一段的偏移量,使用Tanh函数将偏移量的值域缩放为[-0.1,0.1],最终的分段值向量S′是由原始分段值向量S加上各段的偏移量得到;
步骤5,将Softmax分类层输出的概率分布,与偏移后的分段值向量,进行内积运算,输出愉悦度和激活度的期望值。
2.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:
所述步骤2中,采用多任务卷积神经网络(MTCNN)算法进行快速人脸对齐,并且将人脸缩放到预定尺寸。
3.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:
所述步骤3中,使用基于三维残差网络(Resnet3D)的骨干网络,并且加入时间注意力层和空间注意力层,时间注意力层用于捕捉帧与帧之间的依赖关系,对于关键帧给予更高的权重;空间注意力层用于捕捉空间位置之间的依赖关系,对于对表情贡献更大的区域给予更高的权重,两者结合后,帮助三维卷积操作更好地提取时空特征。
4.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:所述步骤4中,Softmax分类层是一个含有21个单元的全连接层,输出是愉悦度或激活度落在各个分数段内的概率,使用Softmax函数进行归一化,分数段划分为-1.0,-0.9,-0.8,…,0.8,0.9,1.0,共21段。
5.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:所述步骤4中,情感分段间隔预测层是一个含21个单元的全连接层,输出的是21个分段关于其中心的偏移量,使用Tanh函数缩放到[-0.1,0.1]的范围内;偏移后的分数段中心为-1.0±0.1,-0.9±0.1,-0.8±0.1,…,0.8±0.1,0.9±0.1,1.0±0.1。
6.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于,所述步骤3中,使用Resnet3D网络作为骨干网络,输入张量首先经过一次3D卷积操作,得到特征图F1;将特征图F1输入到时间注意力层,计算帧与帧之间的依赖关系,得到注意力强化后的特征图F'1;将特征图F'1进行池化操作,然后输入到连续三层3D卷积层,得到特征图F2;将特征图F2输入到空间注意力层,计算每个空间位置之间的依赖关系,得到注意力强化后的特征图F'2;将特征图F'2再进行一次3D卷积操作,并进行时间维度的全局平均池化,得到特征图F3,至此,特征提取步骤完成。
7.根据权利要求6所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:
所述时间注意力层的具体操作为:将输入的特征图F1做三次1×1×1卷积,得到Q、K、V三个新的张量;将Q变形为(T,64×112×112)尺寸,其每一个行向量表示一个“时间位置特征”;将K变形为(64×112×112,T)尺寸,其每一个列向量Kj也表示一个“时间位置特征”,将V变形为(T,64×112×112)尺寸,其每一个行向量/>表示一个“时间位置特征”;计算:
D为向量维数=64×112×112,则Attnij表示时间位置i与时间位置j之间的相似度,为i与j之间依赖关系强弱,将矩阵Attn左乘到矩阵V,得到特征表示V'=Attn·V,再将V'变形为原始尺寸(batch,T,64,112,112),得到注意力强化后的特征图F'1,其中batch表示网络一次训练的帧图像数量,T表示选取的帧序列长度。
8.根据权利要求6所述的一种基于时序注意力机制的人脸连续表情识别方法,其特征在于:所述空间注意力层的具体操作为:将输入的特征图F2做三次1×1×1卷积,得到Q、K、V三个新的张量;将Q变形为(7×7,512×T/16)尺寸,其每一个行向量表示一个“空间位置特征”;将K变形为(512×T/16,7×7)尺寸,其每一个列向量Kj也表示一个“空间位置特征”,将V变形为(7×7,512×T/16)尺寸,其每一个行向量/>表示一个“空间位置特征”;计算:
D为向量维数=64×T,则Attnij表示空间位置i与空间位置j之间的相似度,为i与j之间依赖关系强弱,将矩阵Attn左乘到矩阵V,得到特征表示V'=Attn·V,再将V'变形为原始尺寸(batch,T/16,512,7,7),得到注意力强化后的特征图F'2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110083484.0A CN112766172B (zh) | 2021-01-21 | 2021-01-21 | 一种基于时序注意力机制的人脸连续表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110083484.0A CN112766172B (zh) | 2021-01-21 | 2021-01-21 | 一种基于时序注意力机制的人脸连续表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766172A CN112766172A (zh) | 2021-05-07 |
CN112766172B true CN112766172B (zh) | 2024-02-02 |
Family
ID=75703588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110083484.0A Active CN112766172B (zh) | 2021-01-21 | 2021-01-21 | 一种基于时序注意力机制的人脸连续表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766172B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254713B (zh) * | 2021-05-17 | 2022-05-24 | 北京航空航天大学 | 基于视频内容生成情感曲线的多源情感计算系统及方法 |
CN113627950B (zh) * | 2021-06-25 | 2023-12-29 | 淮安集略科技有限公司 | 基于动态图的用户交易特征提取的方法和系统 |
CN113420703B (zh) * | 2021-07-03 | 2023-04-18 | 西北工业大学 | 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法 |
CN113505536A (zh) * | 2021-07-09 | 2021-10-15 | 兰州理工大学 | 一种优化的基于时空图卷积网络的交通流预测模型 |
CN113239916B (zh) * | 2021-07-13 | 2021-11-30 | 北京邮电大学 | 一种表情识别及课堂状态评估方法、设备及介质 |
CN113837047B (zh) * | 2021-09-16 | 2022-10-28 | 广州大学 | 一种视频质量评估方法、系统、计算机设备及存储介质 |
CN113782190B (zh) * | 2021-09-22 | 2023-12-15 | 河北工业大学 | 基于多级时空特征和混合注意力网络的图像处理方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090055426A (ko) * | 2007-11-28 | 2009-06-02 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
WO2017210462A1 (en) * | 2016-06-01 | 2017-12-07 | Ohio State Innovation Foundation | System and method for recognition and annotation of facial expressions |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN110363156A (zh) * | 2019-07-17 | 2019-10-22 | 北京师范大学 | 一种姿态无关的面部动作单元识别方法 |
KR20190128933A (ko) * | 2018-05-09 | 2019-11-19 | 연세대학교 산학협력단 | 시공간 주의 기반 감정 인식 장치 및 방법 |
CN110610168A (zh) * | 2019-09-20 | 2019-12-24 | 合肥工业大学 | 一种基于注意力机制的脑电情绪识别方法 |
CN111797683A (zh) * | 2020-05-21 | 2020-10-20 | 台州学院 | 一种基于深度残差注意力网络的视频表情识别方法 |
CN111881299A (zh) * | 2020-08-07 | 2020-11-03 | 哈尔滨商业大学 | 基于复制神经网络的离群事件检测与识别方法 |
CN112149504A (zh) * | 2020-08-21 | 2020-12-29 | 浙江理工大学 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
CN112185423A (zh) * | 2020-09-28 | 2021-01-05 | 南京工程学院 | 基于多头注意力机制的语音情感识别方法 |
CN112232191A (zh) * | 2020-10-15 | 2021-01-15 | 南京邮电大学 | 基于微表情分析的抑郁症识别系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11361557B2 (en) * | 2019-01-18 | 2022-06-14 | Toyota Research Institute, Inc. | Attention-based recurrent convolutional network for vehicle taillight recognition |
-
2021
- 2021-01-21 CN CN202110083484.0A patent/CN112766172B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090055426A (ko) * | 2007-11-28 | 2009-06-02 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
WO2017210462A1 (en) * | 2016-06-01 | 2017-12-07 | Ohio State Innovation Foundation | System and method for recognition and annotation of facial expressions |
KR20190128933A (ko) * | 2018-05-09 | 2019-11-19 | 연세대학교 산학협력단 | 시공간 주의 기반 감정 인식 장치 및 방법 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN110363156A (zh) * | 2019-07-17 | 2019-10-22 | 北京师范大学 | 一种姿态无关的面部动作单元识别方法 |
CN110610168A (zh) * | 2019-09-20 | 2019-12-24 | 合肥工业大学 | 一种基于注意力机制的脑电情绪识别方法 |
CN111797683A (zh) * | 2020-05-21 | 2020-10-20 | 台州学院 | 一种基于深度残差注意力网络的视频表情识别方法 |
CN111881299A (zh) * | 2020-08-07 | 2020-11-03 | 哈尔滨商业大学 | 基于复制神经网络的离群事件检测与识别方法 |
CN112149504A (zh) * | 2020-08-21 | 2020-12-29 | 浙江理工大学 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
CN112185423A (zh) * | 2020-09-28 | 2021-01-05 | 南京工程学院 | 基于多头注意力机制的语音情感识别方法 |
CN112232191A (zh) * | 2020-10-15 | 2021-01-15 | 南京邮电大学 | 基于微表情分析的抑郁症识别系统 |
Non-Patent Citations (4)
Title |
---|
An Emotion-Embedded Visual Attention Model for Dimensional Emotion Context Learning;Yuhao Tang et al;《IEEE Access》;第7卷;第72457 - 72468页 * |
Facial Expression Recognition Method Based on Convolution Neural Network Combining Attention Mechanism;Peizhi Wen et al;《Artificial Intelligence and Security. ICAIS 2020》;第1253卷;第136–147页 * |
基于多层感知机的情绪分类系统;方月彤 等;《产业与科技论坛》;第20卷(第2期);第35-37页 * |
采用时空注意力机制的人脸微表情识别;李国豪 等;《中国图象图形学报》;第25卷(第11期);第2380-2390页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112766172A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766172B (zh) | 一种基于时序注意力机制的人脸连续表情识别方法 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN107766894B (zh) | 基于注意力机制和深度学习的遥感图像自然语言生成方法 | |
CN109543667B (zh) | 一种基于注意力机制的文本识别方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN113255557B (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN112818764A (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN110705490A (zh) | 视觉情感识别方法 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
Cho et al. | A temporal sequence learning for action recognition and prediction | |
Luh et al. | Facial expression based emotion recognition employing YOLOv3 deep neural networks | |
CN113159053A (zh) | 图像识别方法、装置及计算设备 | |
CN115662565A (zh) | 一种融合标签信息的医学影像报告生成方法及设备 | |
CN114639140A (zh) | 基于面部神态识别的老年人身心状态实时评估方法与系统 | |
Abidin et al. | Wavelet based approach for facial expression recognition | |
Liu | Improved convolutional neural networks for course teaching quality assessment | |
Wang et al. | TASTA: Text‐Assisted Spatial and Temporal Attention Network for Video Question Answering | |
Altaf et al. | Evaluation of Dilated CNN for Hand Gesture Classification | |
Ma et al. | Dynamic Sign Language Recognition Based on Improved Residual-LSTM Network | |
CN117576279B (zh) | 基于多模态数据的数字人驱动方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |