CN114550272A - 基于视频时域动态注意力模型的微表情识别方法及装置 - Google Patents

基于视频时域动态注意力模型的微表情识别方法及装置 Download PDF

Info

Publication number
CN114550272A
CN114550272A CN202210247495.2A CN202210247495A CN114550272A CN 114550272 A CN114550272 A CN 114550272A CN 202210247495 A CN202210247495 A CN 202210247495A CN 114550272 A CN114550272 A CN 114550272A
Authority
CN
China
Prior art keywords
micro
video
expression
segment
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210247495.2A
Other languages
English (en)
Other versions
CN114550272B (zh
Inventor
宗源
朱洁
郑文明
唐传高
路成
常洪丽
赵力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210247495.2A priority Critical patent/CN114550272B/zh
Publication of CN114550272A publication Critical patent/CN114550272A/zh
Application granted granted Critical
Publication of CN114550272B publication Critical patent/CN114550272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频时域动态注意力模型的微表情识别方法及装置,方法包括:(1)获取微表情数据库,所述微表情数据中包括若干微表情视频和对应的微表情类别标签;(2)构建微表情识别模型,所述微表情识别模型包括:光流特征提取模块、深度特征提取模块、加权深度特征提取模块、全连接层以及softmax层,用于根据加权视频级别深度特征识别出对应微表情视频所属类别;(3)将微表情数据库的每一微表情视频和对应标签作为一个样本,输入所述微表情识别模型,进行训练;(4)将待识别的微表情视频输入训练好的微表情识别模型,输出即为识别的微表情类别。本发明识别准确率更高。

Description

基于视频时域动态注意力模型的微表情识别方法及装置
技术领域
本发明涉及情感识别技术,尤其涉及一种基于视频时域动态注意力模型的微表情识别方法及装置。
背景技术
微表情作为一种面部表情类型,与宏表情相比具有细微的、迅速的、自发的、抑制的和局部的特性。由于无法控制的微表情可以揭示一个人的真实感受,因此它可以广泛应用于临床医学、安全系统和审讯。对于微表情识别的研究,主要的问题是克服低密度和短持续时间的困难。然而,对于人的肉眼来说,基于静态图像的微表情识别是很困难的,因为微表情是瞬间发生的,很难被单一图像捕捉到。因此,微表情识别可以被视为一个需要超精度的视频分类问题。在视频分类任务中,微表情识别大致可以分为三个重要部分:时空特征提取、动态时间关系建模和时间信息有效融合。
与一般的表情、动作相比,微表情还具有显著的信息冗余问题,这使得更难去实施。除此之外,由于在实际生活中,某些表情并不容易被激励,长尾数据存在的类别不平衡的问题也普遍存在于微表情识别问题之中。之前的技术主要从提取时空特征入手,但随着深度学习网络结构的发展,越来越多的技术开始着力于使用深度学习的方法解决上述问题。但是,在建模中的过程中不仅需要考虑到“开始-峰值-结束”的微表情的时域动态规律,也需要提高识别微表情的准确率,只有这样,才能将微表情识别应用在日常生活中。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种准确率更高的基于视频时域动态注意力模型的微表情识别方法及装置。
技术方案:本发明所述的基于视频时域动态注意力模型的微表情识别方法包括:
(1)获取微表情数据库,所述微表情数据中包括若干微表情视频和对应的微表情类别标签;
(2)构建微表情识别模型,所述微表情识别模型包括:
光流特征提取模块,用于将微表情视频等分为若干片段,在每个片段中随机挑选一帧图像与该片段的起始帧和尾帧一起计算光流图,并与随机翻转后的光流图融合,得到每一片段的光流融合特征;
深度特征提取模块,用于采用ResNet18网络从每一片段的光流融合特征中提取深度特征,并将属于一个微表情视频的所有深度特征采用自注意力权重融合成一个视频级别深度特征;
加权深度特征提取模块,用于将视频级别深度特征与每个片段的深度特征再次拼接作为对应片段的新的深度特征,并将属于一个微表情视频的所有新的深度特征采用相关注意力权重融合成一个考虑到片段与视频之间关系的加权视频级别深度特征;
全连接层以及softmax层,用于根据加权视频级别深度特征识别出对应微表情视频所属类别;
(3)将微表情数据库的每一微表情视频和对应标签作为一个样本,输入所述微表情识别模型,进行训练;
(4)将待识别的微表情视频输入训练好的微表情识别模型,输出即为识别的微表情类别。
进一步的,所述光流特征提取模块具体用于执行如下步骤:
A、将微表情视频等分成K个片段,得到{S1,S2,...SK}片段,针对每一个片段随机挑选一帧分别与起始帧、尾帧计算光流图,并将其转化成Middlebury color编码的图片;
B、将提取到的光流图以0.5的随机概率随机水平翻转,之后将翻转后的光流图进行随机大小剪裁;
C、将步骤A和步骤B得到的图片做平均融合,作为对应片段的光流融合特征,其中第k个片段的光流融合特征表示为
Figure BDA0003545427280000021
其中N表示视频样本个数,C代表通道个数,H和W分别表示长和宽。
进一步的,所述深度特征提取模块具体用于执行如下步骤:
A、将每一片段的光流融合特征送入ResNet18网络,得到对应的深度特征,其中,第k个片段的深度特征表示为Mk,k=1,...,K,K表示微表情视频划分的片段数量;
B、采用下式计算每一个片段的自注意力权重:
Lk=σ(MkAT),k=1,...,K
式中,
Figure BDA0003545427280000022
表示第k个片段的自注意力权重,σ表示激活函数sigmoid,A表示与矩阵Lk和Mk关联的待训练参数;
C、根据自注意力权重采用下式将属于一个微表情视频的所有深度特征融合成一个视频级别深度特征V:
Figure BDA0003545427280000023
式中,
Figure BDA0003545427280000031
⊙是一种具有广播机制的元素乘,N表示视频样本个数,D为深度特征Mk的维度。
进一步的,所述加权深度特征提取模块具体用于执行如下步骤:
A、将视频级别深度特征与每个片段的深度特征加权后再次拼接,作为对应片段的新的深度特征:
M′k=C(Lk⊙Mk,V),k=1,...,K
式中,M′k表示第k个片段的新的深度特征,C(·,·)表示连接函数,Mk表示第k个片段拼接前的深度特征,Lk表示第k个片段的自注意力权重,V表示视频级别深度特征,⊙是一种具有广播机制的元素乘,K表示微表情视频划分的片段数量;
B、采用下式计算每一个新的深度特征对应的片段和对应的视频之间的相关注意力权重:
Rk=σ(C(Lk⊙Mk,V)A1 T),k=1,...,K
式中,Rk表示M′k的相关注意力权重,σ表示激活函数sigmoid,A1表示与矩阵Rk和C(Lk⊙Mk,V)关联的待训练参数;
C、根据相关注意力权重采用下式将属于一个微表情视频的所有新的深度特征融合成一个加权视频级别深度特征O:
Figure BDA0003545427280000032
式中,
Figure BDA0003545427280000033
○表示的达玛乘积运算符,N表示视频样本个数,D为深度特征Mk的维度。
进一步的,所述微表情识别模型训练时所采用的损失函数为:
Figure BDA0003545427280000034
其中,μ1和μ2是两个固定常量的超参数;
Figure BDA0003545427280000035
式中,m1是一个超参数表示两组的差异距离,
Figure BDA0003545427280000036
是重要片段组的平均注意力权重,
Figure BDA0003545427280000037
是冗余片段组的平均注意力权重,ih和ir分别为第h个重要片段、第r个冗余片段的时域注意力权重,通过以下方式得到:首先采用公式
Figure BDA0003545427280000041
计算得到每个时域注意力权重ik,其中,lk(n)和rk(n)是分别是第n个样本的自注意力权重和相关注意力权重,·表示点乘运算,N表示样本数,之后将计算得到的时域注意力权重组合I=[i1,...,iK]划分为得分高的重要片段组IH=[i1,...,iH]和得分低的冗余片段组IR=[i1,...,iR],H+R=K,K表示片段数;
Figure BDA0003545427280000042
式中,m2是一个固定的参数表示类别之间的边界距离,L表示标签类别的总数,β′=[β′1,...,β′L]T表示归一化类别注意力权重向量,β′*表示其中的第*个元素,其通过以下方式得到:首先根据公式
Figure BDA0003545427280000043
计算每个样本的注意力权重α,O为加权视频级别深度特征,A2是与矩阵O和α关联的待训练参数,之后根据下式计算每个类别的注意力权重β:β=WLα,
Figure BDA0003545427280000044
是一种独热编码的标签矩阵,将所有类别的注意力权重β进行归一化后,按照降序排列后按序组成归一化类别注意力权重向量β′=[β′1,...,β′L]T
Figure BDA0003545427280000045
式中,
Figure BDA0003545427280000046
分别表示权重的预测输出
Figure BDA0003545427280000047
中第l、y个元素,Z′=α⊙Z,
Figure BDA0003545427280000048
表示微表情识别模型的预测类别,⊙是一种具有广播机制的元素乘。
本发明所述的基于视频时域动态注意力模型的微表情识别装置包括处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
有益效果:本发明与现有技术相比,其显著优点是:本发明识别准确率更高。
附图说明
图1是本发明提供的基于视频时域动态注意力模型的微表情识别方法的一个实施例的流程示意图;
图2是本发明的微表情识别模型的结构图。
具体实施方式
本实施例提供了一种基于视频时域动态注意力模型的微表情识别方法,如图1所示,包括:
(1)获取微表情数据库,所述微表情数据中包括若干微表情视频和对应的微表情类别标签;
(2)构建微表情识别模型,如图2所示,所述微表情识别模型包括:
光流特征提取模块,用于将微表情视频等分为若干片段,在每个片段中随机挑选一帧图像与该片段的起始帧和尾帧一起计算光流图,并与随机翻转后的光流图融合,得到每一片段的光流融合特征;
该模块具体用于执行如下步骤:A、将微表情视频等分成K个片段,得到{S1,S2,...SK}片段,针对每一个片段随机挑选一帧分别与起始帧、尾帧计算光流图,并将其转化成Middlebury color编码的图片,用JPG格式的图片来保存;B、将提取到的光流图以0.5的随机概率随机水平翻转,之后将翻转后的光流图进行随机大小剪裁,产生112*112*3尺寸大小的图片;C、将步骤A和步骤B得到的图片做平均融合,作为对应片段的光流融合特征,其中第k个片段的光流融合特征表示为
Figure BDA0003545427280000051
其中N表示视频样本个数,C代表通道个数,H和W分别表示长和宽。
深度特征提取模块,用于采用ResNet18网络从每一片段的光流融合特征中提取深度特征,并将属于一个微表情视频的所有深度特征采用自注意力权重融合成一个视频级别深度特征;
该模块具体用于执行如下步骤:
A、将每一片段的光流融合特征送入ResNet18网络,得到对应的深度特征,其中,第k个片段的深度特征表示为Mk,k=1,...,K,K表示微表情视频划分的片段数量;
B、采用下式计算每一个片段的自注意力权重:
Lk=σ(MkAT),k=1,...,K
式中,
Figure BDA0003545427280000052
表示第k个片段的自注意力权重,σ表示激活函数sigmoid,A表示与矩阵Lk和Mk关联的待训练参数,输入维度是256输出维度是1;
C、根据自注意力权重采用下式将属于一个微表情视频的所有深度特征融合成一个视频级别深度特征V:
Figure BDA0003545427280000061
式中,
Figure BDA0003545427280000062
⊙是一种具有广播机制的元素乘,N表示视频样本个数,D为深度特征Mk的维度。
加权深度特征提取模块,用于将视频级别深度特征与每个片段的深度特征再次拼接作为对应片段的新的深度特征,并将属于一个微表情视频的所有新的深度特征采用相关注意力权重融合成一个考虑到片段与视频之间关系的加权视频级别深度特征;
该模块具体用于执行如下步骤:
A、将视频级别深度特征与每个片段的深度特征加权后再次拼接,作为对应片段的新的深度特征:
M′k=C(Lk⊙Mk,V),k=1,...,K
式中,M′k表示第k个片段的新的深度特征,C(·,·)表示连接函数,Mk表示第k个片段拼接前的深度特征,Lk表示第k个片段的自注意力权重,V表示视频级别深度特征,⊙是一种具有广播机制的元素乘,K表示微表情视频划分的片段数量;
B、采用下式计算每一个新的深度特征对应的片段和对应的视频之间的相关注意力权重:
Rk=σ(C(Lk⊙Mk,V)A1 T),k=1,...,K
式中,Rk表示M′k的相关注意力权重,σ表示激活函数sigmoid,A1表示与矩阵Rk和C(Lk⊙Mk,V)关联的待训练参数,输入维度是512输出维度是1;
C、根据相关注意力权重采用下式将属于一个微表情视频的所有新的深度特征融合成一个加权视频级别深度特征O:
Figure BDA0003545427280000063
式中,
Figure BDA0003545427280000064
○表示的达玛乘积运算符,N表示视频样本个数,D为深度特征Mk的维度。
全连接层以及softmax层,用于根据加权视频级别深度特征识别出对应微表情视频所属类别;全连接层(fully connected layers,FC)输出维度为微表情类别个数,输入为加权视频级别深度特征,全连接层及结果输出到softmax层,将概率最大的类别作为该微表情视频的识别类别结果。
(3)将微表情数据库的每一微表情视频和对应标签作为一个样本,输入所述微表情识别模型,进行训练;训练时所采用的损失函数为:
Figure BDA0003545427280000071
其中,μ1和μ2是两个固定常量的超参数,分别控制两个子损失函数对联合损失函数的影响;
排列片段注意力权重的损失函数:
Figure BDA0003545427280000072
式中,m1是一个超参数表示两组的差异距离,
Figure BDA0003545427280000073
是重要片段组的平均注意力权重,
Figure BDA0003545427280000074
是冗余片段组的平均注意力权重,ih和ir分别为第h个重要片段、第r个冗余片段的时域注意力权重,通过以下方式得到:首先采用公式
Figure BDA0003545427280000075
计算得到每个时域注意力权重ik,其中,lk(n)和rk(n)是分别是第n个样本的自注意力权重和相关注意力权重,·表示点乘运算,N表示样本数,之后将计算得到的时域注意力权重组合I=[i1,...,iK]划分为得分高的重要片段组IH=[i1,...,iH]和得分低的冗余片段组IR=[i1,...,iR],H+R=K,K表示片段数;
类别平衡的重分配权重的损失函数:
Figure BDA0003545427280000076
式中,m2是一个固定的参数表示类别之间的边界距离,L表示标签类别的总数,β′=[β′1,...,β′L]T表示归一化类别注意力权重向量,β′*表示其中的第*个元素,其通过以下方式得到:首先根据公式
Figure BDA0003545427280000077
计算每个样本的注意力权重α,O为加权视频级别深度特征,A2是与矩阵O和α关联的待训练参数,输入维度是512输出维度是1,之后根据下式计算每个类别的注意力权重β:β=WLα,
Figure BDA0003545427280000081
是一种独热编码的标签矩阵,只有当该样本属于第1个类别时,该列向量在第1个元素为1其余都为0;将所有类别的注意力权重β进行归一化,归一化采用函数
Figure BDA0003545427280000082
保证该范围为0~1及所有和为1,最后按照降序排列后按序组成归一化类别注意力权重向量β′=[β′1,...,β′L]T
类别引领的交叉熵损失函数:
Figure BDA0003545427280000083
式中,
Figure BDA0003545427280000084
分别表示权重的预测输出
Figure BDA0003545427280000085
中第1、y个元素,Z′=α⊙Z,
Figure BDA0003545427280000086
表示微表情识别模型的预测类别,⊙是一种具有广播机制的元素乘。
(4)将待识别的微表情视频输入训练好的微表情识别模型,输出即为识别的微表情类别。
本实施例还提供了一种基于视频时域动态注意力模型的微表情识别装置,包括处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
为验证本发明的有效性,分别在SMIC-HS、SAMM和CASME II微表情数据库做了微表情识别的实验,验证结果如表1、表2和表3所示:
表1 SMIC-HS结果
方法 类别数 准确率 F1-score
Sparse MDMO 3 70.51% 0.7041
KGSL 3 66.46% 0.6577
SSSN 3 63.41% 0.6329
DSNN 3 63.41% 0.6462
OFF-ApexNet 3 67.68% 0.6709
STRCN-G 3 73.20% 0.6950
Dynamic 3 76.10% 0.7100
MicroNet 3 76.80% 0.7440
GEME 3 64.3l% 0.6158
本发明所提方法 3 81.71% 0.8166
表2 SAMM结果
方法 类别数 准确率 F1-score
HIGO-top 5 41.18% 0.3920
SSSN 5 56.62% 0.4513
DSNN 5 57.35% 0.4644
LGCcon 5 40.90% 0.3400
Graph-TCN 5 75.00% 0.6985
GEME 5 55.88% 0.4538
AU-TCN 5 74.26% 0.7045
本发明所提方法 5 76.47% 0.7524
表3 CASME II结果
方法 类别数 准确率 F1-score
Sparse MDMO 5 66.95% 0.6911
KGSL 5 65.81% 0.6254
SSSN 5 71.19% 0.7151
DSNN 5 70.78% 0.7297
LGCcon 5 65.02% 0.6400
Dynamic 5 72.61% 0.6700
Graph-TCN 5 73.98% 0.7246
EM-C3D+GAM 5 69.76% N/A
GEME 5 75.20% 0.7354
AU-TCN 5 74.27% 0.7047
本发明所提方法 5 77.24% 0.7689
从表1、2、3可以看出,本发明方法识别准确率更高。
以上所揭露的仅为本发明一种较佳实施例而已,不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (6)

1.一种基于视频时域动态注意力模型的微表情识别方法,其特征在于该方法包括:
(1)获取微表情数据库,所述微表情数据中包括若干微表情视频和对应的微表情类别标签;
(2)构建微表情识别模型,所述微表情识别模型包括:
光流特征提取模块,用于将微表情视频等分为若干片段,在每个片段中随机挑选一帧图像与该片段的起始帧和尾帧一起计算光流图,并与随机翻转后的光流图融合,得到每一片段的光流融合特征;
深度特征提取模块,用于采用ResNet18网络从每一片段的光流融合特征中提取深度特征,并将属于一个微表情视频的所有深度特征采用自注意力权重融合成一个视频级别深度特征;
加权深度特征提取模块,用于将视频级别深度特征与每个片段的深度特征再次拼接作为对应片段的新的深度特征,并将属于一个微表情视频的所有新的深度特征采用相关注意力权重融合成一个考虑到片段与视频之间关系的加权视频级别深度特征;
全连接层以及softmax层,用于根据加权视频级别深度特征识别出对应微表情视频所属类别;
(3)将微表情数据库的每一微表情视频和对应标签作为一个样本,输入所述微表情识别模型,进行训练;
(4)将待识别的微表情视频输入训练好的微表情识别模型,输出即为识别的微表情类别。
2.根据权利要求1所述的基于视频时域动态注意力模型的微表情识别方法,其特征在于:所述光流特征提取模块具体用于执行如下步骤:
A、将微表情视频等分成K个片段,得到{S1,S2,...SK}片段,针对每一个片段随机挑选一帧分别与起始帧、尾帧计算光流图,并将其转化成Middlebury color编码的图片;
B、将提取到的光流图以0.5的随机概率随机水平翻转,之后将翻转后的光流图进行随机大小剪裁;
C、将步骤A和步骤B得到的图片做平均融合,作为对应片段的光流融合特征,其中第k个片段的光流融合特征表示为
Figure FDA0003545427270000011
k=1,…,K,其中N表示视频样本个数,C代表通道个数,H和W分别表示长和宽。
3.根据权利要求1所述的基于视频时域动态注意力模型的微表情识别方法,其特征在于:所述深度特征提取模块具体用于执行如下步骤:
A、将每一片段的光流融合特征送入ResNet18网络,得到对应的深度特征,其中,第k个片段的深度特征表示为Mk,k=1,...,K,K表示微表情视频划分的片段数量;
B、采用下式计算每一个片段的自注意力权重:
Lk=σ(MkAT),k=1,...,K
式中,
Figure FDA0003545427270000021
表示第k个片段的自注意力权重,σ表示激活函数sigmoid,A表示与矩阵Lk和Mk关联的待训练参数;
C、根据自注意力权重采用下式将属于一个微表情视频的所有深度特征融合成一个视频级别深度特征V:
Figure FDA0003545427270000022
式中,
Figure FDA0003545427270000023
⊙是一种具有广播机制的元素乘,N表示视频样本个数,D为深度特征Mk的维度。
4.根据权利要求1所述的基于视频时域动态注意力模型的微表情识别方法,其特征在于:所述加权深度特征提取模块具体用于执行如下步骤:
A、将视频级别深度特征与每个片段的深度特征加权后再次拼接,作为对应片段的新的深度特征:
M′k=C(Lk⊙Mk,V),k=1,...,K
式中,M′k表示第k个片段的新的深度特征,C(·,·)表示连接函数,Mk表示第k个片段拼接前的深度特征,Lk表示第k个片段的自注意力权重,V表示视频级别深度特征,⊙是一种具有广播机制的元素乘,K表示微表情视频划分的片段数量;
B、采用下式计算每一个新的深度特征对应的片段和对应的视频之间的相关注意力权重:
Rk=σ(C(Lk⊙Mk,V)A1 T),k=1,...,K
式中,Rk表示M′k的相关注意力权重,σ表示激活函数sigmoid,A1表示与矩阵Rk和C(Lk⊙Mk,V)关联的待训练参数;
C、根据相关注意力权重采用下式将属于一个微表情视频的所有新的深度特征融合成一个加权视频级别深度特征O:
Figure FDA0003545427270000024
式中,
Figure FDA0003545427270000034
○表示的达玛乘积运算符,N表示视频样本个数,D为深度特征Mk的维度。
5.根据权利要求1所述的基于视频时域动态注意力模型的微表情识别方法,其特征在于:所述微表情识别模型训练时所采用的损失函数为:
Figure FDA0003545427270000031
其中,μ1和μ2是两个固定常量的超参数;
Figure FDA0003545427270000032
式中,m1是一个超参数表示两组的差异距离,
Figure FDA0003545427270000035
是重要片段组的平均注意力权重,
Figure FDA0003545427270000036
是冗余片段组的平均注意力权重,ih和ir分别为第h个重要片段、第r个冗余片段的时域注意力权重,通过以下方式得到:首先采用公式
Figure FDA0003545427270000037
计算得到每个时域注意力权重ik,其中,lk(n)和rk(n)是分别是第n个样本的自注意力权重和相关注意力权重,表示点乘运算,N表示样本数,之后将计算得到的时域注意力权重组合I=[i1,...,iK]划分为得分高的重要片段组IH=[i1,...,iH]和得分低的冗余片段组IR=[i1,...,iR],H+R=K,K表示片段数;
Figure FDA0003545427270000033
式中,m2是一个固定的参数表示类别之间的边界距离,L表示标签类别的总数,β′=[β′1,...,β′L]T表示归一化类别注意力权重向量,β'*表示其中的第*个元素,其通过以下方式得到:首先根据公式
Figure FDA0003545427270000038
计算每个样本的注意力权重α,O为加权视频级别深度特征,A2是和矩阵O和α关联的待训练参数,之后根据下式计算每个类别的注意力权重β:β=WLα,
Figure FDA0003545427270000039
是一种独热编码的标签矩阵,将所有类别的注意力权重β进行归一化后,按照降序排列后按序组成归一化类别注意力权重向量β′=[β′1,...,β′L]T
Figure FDA0003545427270000041
式中,
Figure FDA0003545427270000042
分别表示权重的预测输出
Figure FDA0003545427270000043
中第l、y个元素,Z′=α⊙Z,
Figure FDA0003545427270000044
表示微表情识别模型的预测类别,⊙是一种具有广播机制的元素乘。
6.一种基于视频时域动态注意力模型的微表情识别装置,包括处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5中任意一项所述的方法。
CN202210247495.2A 2022-03-14 2022-03-14 基于视频时域动态注意力模型的微表情识别方法及装置 Active CN114550272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210247495.2A CN114550272B (zh) 2022-03-14 2022-03-14 基于视频时域动态注意力模型的微表情识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210247495.2A CN114550272B (zh) 2022-03-14 2022-03-14 基于视频时域动态注意力模型的微表情识别方法及装置

Publications (2)

Publication Number Publication Date
CN114550272A true CN114550272A (zh) 2022-05-27
CN114550272B CN114550272B (zh) 2024-04-09

Family

ID=81664550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210247495.2A Active CN114550272B (zh) 2022-03-14 2022-03-14 基于视频时域动态注意力模型的微表情识别方法及装置

Country Status (1)

Country Link
CN (1) CN114550272B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035577A (zh) * 2022-06-07 2022-09-09 江苏科技大学 一种基于随机长方体采样的微表情特征提取算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516571A (zh) * 2019-08-16 2019-11-29 东南大学 基于光流注意力神经网络的跨库微表情识别方法及装置
WO2020022956A1 (en) * 2018-07-27 2020-01-30 Aioz Pte Ltd Method and apparatus for video content validation
CN112800891A (zh) * 2021-01-18 2021-05-14 南京邮电大学 一种用于微表情识别的鉴别性特征学习方法与系统
CN113496217A (zh) * 2021-07-08 2021-10-12 河北工业大学 视频图像序列中人脸微表情识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020022956A1 (en) * 2018-07-27 2020-01-30 Aioz Pte Ltd Method and apparatus for video content validation
CN110516571A (zh) * 2019-08-16 2019-11-29 东南大学 基于光流注意力神经网络的跨库微表情识别方法及装置
CN112800891A (zh) * 2021-01-18 2021-05-14 南京邮电大学 一种用于微表情识别的鉴别性特征学习方法与系统
CN113496217A (zh) * 2021-07-08 2021-10-12 河北工业大学 视频图像序列中人脸微表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUAN ZONG 等: "Domain Regeneration for Cross-Database Micro-Expression Recognition", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 27, no. 5, 31 May 2018 (2018-05-31), pages 2484 - 2498 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035577A (zh) * 2022-06-07 2022-09-09 江苏科技大学 一种基于随机长方体采样的微表情特征提取算法

Also Published As

Publication number Publication date
CN114550272B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN111291183B (zh) 利用文本分类模型进行分类预测的方法及装置
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
CN111680217B (zh) 内容推荐方法、装置、设备及存储介质
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN110866140A (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111382361A (zh) 信息推送方法、装置、存储介质和计算机设备
US11966829B2 (en) Convolutional artificial neural network based recognition system in which registration, search, and reproduction of image and video are divided between and performed by mobile device and server
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN115496638B (zh) 基于智慧校园的学生课程成绩分析管理方法及系统
CN112364937A (zh) 用户类别确定方法及装置、推荐内容确定方法、电子设备
DE112020005663T5 (de) Objekterkennung mit training aus mehreren datensätzen
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN112786160A (zh) 基于图神经网络的多图片输入的多标签胃镜图片分类方法
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN114550272A (zh) 基于视频时域动态注意力模型的微表情识别方法及装置
CN116229323A (zh) 一种基于改进的深度残差网络的人体行为识别方法
Tang et al. Bringing giant neural networks down to earth with unlabeled data
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN113345564A (zh) 一种基于图神经网络的患者住院时长早期预测方法及装置
CN117372775A (zh) 一种基于视觉的动态选择的零样本学习分类方法
Li et al. Dynamic information enhancement for video classification
US20230343073A1 (en) Novel category discovery using machine learning
CN113672804B (zh) 推荐信息生成方法、系统、计算机设备及存储介质
CN115757855A (zh) 一种基于图结构匹配的图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant