CN118015687A - 改进的多尺度注意残差关系感知的表情识别方法及装置 - Google Patents
改进的多尺度注意残差关系感知的表情识别方法及装置 Download PDFInfo
- Publication number
- CN118015687A CN118015687A CN202410424320.3A CN202410424320A CN118015687A CN 118015687 A CN118015687 A CN 118015687A CN 202410424320 A CN202410424320 A CN 202410424320A CN 118015687 A CN118015687 A CN 118015687A
- Authority
- CN
- China
- Prior art keywords
- layer
- features
- convolution
- input
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000014509 gene expression Effects 0.000 title claims abstract description 58
- 230000008447 perception Effects 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 69
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 7
- 230000004913 activation Effects 0.000 claims description 102
- 230000006870 function Effects 0.000 claims description 102
- 238000011176 pooling Methods 0.000 claims description 87
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008921 facial expression Effects 0.000 abstract description 5
- 230000008909 emotion recognition Effects 0.000 abstract 2
- 238000000605 extraction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及表情识别技术领域,尤其涉及一种改进的多尺度注意残差关系感知的表情识别方法及装置。步骤如下:将人脸图像划分为训练集和验证集,并进行数据预处理,得到输出的特征T;构建卷积神经网络;将卷积神经网络得到的特征通过卷积层和Reshape操作,将特征图转换成为一个的特征向量序列;将得到的特征向量序列加上class token和位置编码输入到多个堆叠的Transformer Encoder模块中,得到融合了其他向量特征的class token,将class token输入到MLP head分类器,得出最后的表情识别结果。本发明可以使模型从通道、空间两个维度上关注对表情识别重要的面部特征,抑制无关的特征,更有效的提取面部表情的判别性信息特征,能够完成更加准确的表情识别效果。
Description
技术领域
本发明涉及表情识别技术领域,尤其涉及一种改进的多尺度注意残差关系感知的表情识别方法及装置。
背景技术
表情识别是计算机视觉领域的一个重要研究方向,旨在通过计算机对人脸表情进行识别和分析,实现对个体情感状态的理解。表情识别中主要包括人脸检测、特征提取以及表情分类,其中特征提取是最重要的一环,关乎表情识别的性能。最早期的表情识别都是通过人工设计的方法提取表情特征,这种方法不仅费时费力,精度还不高。随着深度学习的不断发展,深度卷积神经网络被用来自动地学习并提取面部表情特征,使得表情识别的性能得到了提高。注意力机制的出现加强了模型对有关特征提取的能力,进一步改善了表情识别的准确性。尽管表情识别已经取得了显著的成绩,但是仍然面临一些挑战。现实场景中,面部图像往往会受到多种因素的影响而导致信息不完整,这些因素包括遮挡、姿势变化、光照条件等。面部不完整信息可能会造成识别系统性能下降,因为某些关键信息可能无法被准确提取,从而影响了对表情的准确识别和情感状态的推断。此外,不同表情类别之间的区别往往不明显,比如生气和厌恶的表情可能在外观上非常相似,这会使得模型难以准确地区分不同的表情类别。即使是同一类别的表情,在不同的个体或不同的环境下也会存在较大的变化。例如,同一种表情可能会因为个体的年龄、性别、肤色等因素而产生差异,这会增加模型学习的难度。
发明内容
本发明针对现有技术的不足,研制一种改进的多尺度注意残差关系感知的表情识别方法及装置。
本发明解决技术问题的技术方案为:
一方面,本申请提供了一种改进的多尺度注意残差关系感知的表情识别方法,包括如下步骤:
a:将人脸图像划分为训练集和验证集,并进行数据预处理,将处理好的图像输入到3×3 的卷积层,得到输出的特征;
b:构建卷积神经网络, 卷积神经网络结构包括InARes Block0模块、InAResBlock1模块、InARes Block2模块:
b1:将特征T输入到InARes Block0模块,得到特征;
b2:将特征输入到InARes Block1模块,得到特征/>;
b3:将特征输入到InARes Block2模块,得到特征/>;
c:将得到的特征通过一个1×1的卷积层和Reshape操作,将特征转换成为一个的特征向量序列/>;
d:将得到的特征向量序列加上class token和位置编码再输入到多个堆叠的Transformer Encoder模块中,得到融合了其他向量特征的class token,再将class token输入到MLP head 分类器,得出最后的表情识别结果。
具体实施方式中,InARes Block0模块包括两个改进的残差块,每个残差块都包含一个Inception block0模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层。
具体实施方式中,每个Inception block0模块包括五个分支,即、/>、/>、/>;
第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0,初始特征图T经过/>的最大池化层得到特征/>,特征/>输入到/>的卷积层,得到特征;
第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0,初始特征图T输入到/>的卷积层,得到特征/>;
第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1,初始特征图T经过/>的第一个卷积层得到特征/>,特征输入到/>的第二个卷积层得到特征/>;
第四个分支包括三个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层和第三个卷积层的卷积核大小为3×3,步长为1,填充为1,初始特征图T经过/>的第一个卷积层得到特征/>,特征/>输入到/>的第二个卷积层得到特征/>,特征/>输入得到/>的第三个卷积层得到特征/>;
第五个分支包括四个卷积层,每个卷积层之后都有一个正则化层及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层、第三个卷积层和第四个卷积层的卷积核大小都为3×3,步长为1,填充为1;初始特征图T输入到/>的第一个卷积层得到特征/>,特征/>输入到/>的第二个卷积层得到特征/>,特征/>输入到的第三个卷积层得到特征/>,特征/>输入到/>的第四个卷积层得到特征/>;
将特征、/>、/>、/>、/>在通道维度上拼接得到特征/>,特征/>输入到ReLU激活函数层,得到特征/>;
具体来说,Inception block0模块可以表示为:
其中,代表relu激活函数,/>代表卷积核为1×1的卷积操作,/>代表卷积核为3×3的卷积操作。
具体实施方式中,ICAM模块包括并联的最大池化层和平均池化层、两个并联的一维卷积层、ReLU激活函数层、Sigmoid激活函数层;
最大池化层的卷积核大小为输入特征图的长×宽,步长为1,填充为0,平均池化层的卷积核大小为输入特征图/>的长×宽,步长为1,填充为0,一维卷积层的卷积核大小自适应,即/>,其中C为输入特征图的通道数,/>为可调系数,设置为2,b为常数,设置为1,步长为1,填充为(k - 1) /2;
ISAM模块包括最大池化层、平均池化层 、二维卷积层、正则化层、ReLU激活函数层以及Sigmoid激活函数层,其中最大池化层和平均池化层的卷积核大小都为1,步长为1,填充为1,二维卷积层的卷积核大小自适应,即卷积核大小,其中C为输入特征图的通道数,/>为可调系数,设置为2,b为常数,设置为1,填充为(k - 1) /2;
特征输入到最大池化层,得到特征/>,特征/>输入到一维卷积层得到特征;特征/>输入到平均池化层得到特征/>,特征/>输入到一维卷积层得到特征/>,将特征/>和特征/>做一个逐元素相加的操作得到特征/>,特征/>输入到Sigmoid激活函数层得到具有通道注意力的特征图/>,将特征/>与特征/>进行一个逐元素相乘的操作,得到特征/>;特征/>分别输入的ISAM的最大池化层和平均池化层,分别得到特征/>和特征,将特征/>和特征/>在通道维度上进行拼接得到特征/>,特征/>输入到二维卷积层得到特征/>,特征/>输入到激活函数层得到具有空间注意力的特征图/>,将特征/>和特征/>做一个逐元素相乘操作得到ICBAM模块最后的输出特征图/>
具体来说,整个ICBAM模块可以表示为:=/>,其中/>代表ICAM模块,/>代表ISAM模块;
将特征输入到第一个残差模块的最后一个卷积层,得到特征/>,将初始特征图T与特征/>进行一个逐元素相加的操作,然后再输入到ReLU激活函数层,得到第一个残差模块最终的输出特征/>。
具体实施方式中,将特征输入到InARes Block0模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征/>
整个InARes Block0模块的计算过程可以表示为:
,
;
其中,T表示初始特征图,表示卷积核为3×3的卷积操作,/>表示ICBAM模块,/>表示Inception block0模块。
b2包括如下步骤:
b21:InARes block1 包括两个残差块,每个残差块都包含一个Inception block1模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层;
b22:每个Inception block1模块包括四个分支、/>、/>;
第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0;
第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0;
第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1;
第四个分支包括三个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层和第三个卷积层的卷积核大小为3×3,步长为1,填充为1;
初始特征图经过/>得到特征/>,初始特征图/>经过/>得到特征/>,初始特征图/>经过/>得到特征/>,初始特征图/>经过/>得到特征/>,将特征/>、/>、/>、/>在通道维度上拼接得到特征/>,特征/>输入到ReLU激活函数层,得到特征/>;
具体来说,Inception block1模块可以表示为:
,
其中,代表relu激活函数,/>代表卷积核为1×1的卷积操作,/>代表卷积核为3×3的卷积操作,/>代表最大池化操作;
b23:InARes block1模块中ICBAM模块和InARes block0中的ICBAM模块结构相同;
特征输入到ICAM模块,得到的输出再输入到ISAM模块;
具体的过程为:特征输入到最大池化层,得到特征/>,特征/>输入到一维卷积层得到特征/>;
特征输入到平均池化层得到特征/>,特征/>输入到一维卷积层得到特征/>,将特征/>和特征/>做一个逐元素相加的操作得到特征/>,特征/>输入到Sigmoid激活函数层得到具有通道注意力的特征图/>,将特征/>与特征/>进行一个逐元素相乘的操作,得到特征/>;
特征分别输入的ISAM的最大池化层和平均池化层,分别得到特征/>和特征/>,将特征/>和特征/>在通道维度上进行拼接得到特征/>,特征/>输入到二维卷积层得到特征/>,特征/>输入到激活函数层得到具有空间注意力的特征图/>,将特征/>和特征/>做一个逐元素相乘操作得到ICBAM模块最后的输出特征图/>;
具体来说,整个ICBAM模块可以表示为:
=/>,其中/>代表ICAM模块,/>代表ISAM模块;
b24:将特征输入到第一个残差模块的最后一个卷积层,得到特征/>,将初始特征图/>与特征/>进行一个逐元素相加的操作,输入到ReLU激活函数层,得到第一个残差模块最终的输出特征/>;
b25:将特征输入到InARes Block1模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征/>;
整个InARes Block1模块的计算过程可以表示为:
,
,
其中,代表卷积核为3×3的卷积操作,/>表示ICBAM模块,/>表示Inception block1模块;
步骤b3包括如下步骤:
b31:InARes block2 包括两个残差块,每个残差块都包含一个Inception block2模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层;
b32:每个Inception block2模块包括三个分支、/>;
第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0;
第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0;
第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1;
初始特征图经过/>得到特征/>;初始特征图/>经过/>得到特征/>;初始特征图/>经过/>得到特征/>,将特征/>、/>、/>在通道维度上拼接得到特征/>,特征/>输入到ReLU激活函数层,得到特征/>。
具体来说,Inception block2模块可以表示为:
,
其中,代表relu激活函数,/>代表卷积核为1×1的卷积操作,/>代表卷积核为3×3的卷积操作,/>代表最大池化操作;
b33:特征输入到最大池化层,得到特征/>,特征/>输入到一维卷积层得到特征/>;
特征输入到平均池化层得到特征/>,特征/>输入到一维卷积层得到特征/>,将特征/>和特征/>做一个逐元素相加的操作得到特征/>,特征/>输入到Sigmoid激活函数层得到具有通道注意力的特征图/>,将特征/>与特征/>进行一个逐元素相乘的操作,得到特征/>;
特征分别输入的ISAM的最大池化层和平均池化层,分别得到特征/>和特征,将特征/>和特征/>在通道维度上进行拼接得到特征/>,特征/>输入到二维卷积层得到特征/>,特征/>输入到激活函数层,得到具有空间注意力的特征图/>,将特征和特征/>做一个逐元素相乘操作,得到ICBAM模块最后的输出特征图/>;
具体来说,整个ICBAM模块可以表示为:,其中/>代表ICAM模块,/>代表ISAM模块;
b34:将特征输入到第一个残差模块的最后一个卷积层,得到特征/>,将初始特征图/>与特征/>进行一个逐元素相加的操作,然后再输入到ReLU激活函数层,得到第一个残差模块最终的输出特征/>;
b35:将特征输入到InARes Block2模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征/>;
整个InARes Block2模块的计算过程可以表示为:
,
,
其中,代表卷积核为3×3的卷积操作,/>表示ICBAM模块,/>表示Inception block2模块。
步骤c包括如下步骤:
c1:特征输入到一个卷积层,该卷积层的卷积核大小为1×1,步长为1,填充为0,得到特征/>;
c2:特征经过一个reshape操作,reshape操作就是沿着通道维度切分特征图,reshape操作之后的结果就是得到一个特征向量序列/>,/>,/>表示第i个特征向量,共有n个特征向量。
步骤d包括如下步骤:
d1:class token 向量维度和特征向量序列、/>……/>相同,即向量/>,其中,class token是指在Transformer模型中用于表示整个序列的特殊token,然后将向量/>和特征向量序列/>、/>……/>在序列长度维度上进行拼接得到一个新的向量序列/>、/>……/>;位置编码向量/>、/>……/>的向量维度和特征向量/>、/>……/>相同,将位置编码向量/>、/>……/>和特征向量序列/>、/>……/>进行逐元素相加的操作,得到新的向量序列/>、/>……/>;
d2:融合位置信息的向量序列、/>……/>输入到多个堆叠的Transformer编码器结构,输出融合了其他向量特征的class token,即/>;
d3:将特征输入到MLP分类器,MLP分类器就是一个多层感知机的结构,得到最后表情识别结果/>。
另一方面,本申请还提供了一种改进的多尺度注意残差关系感知的表情识别装置,包括:
数据预处理模块,将人脸图像划分为训练集和验证集,并进行数据预处理;
卷积神经网络结构包括InARes Block0模块、InARes Block1模块、InARes Block2模块;
转换模块,将经过卷积神经网络结构得到的特征图转换成为一个的特征向量序列;
表情识别模块,用于将特征向量序列、位置编码经过归一化模块和分类器进行分类,得表情识别结果。
本发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案具有如下优点或有益效果:
本发明提出了InARes Block模块,一方面使用本发明提出Inception block模块来代替残差模块中第一个卷积层,可以进行多尺度特征的提取,也可以捕获全局与局部面部特征,以解决模型在面部信息不完整的场景下识别精度低的问题;另一方面,通过对原始的残差结构添加本发明提出的ICBAM模块,可以使模型从通道、空间两个维度上关注对表情识别重要的面部特征,抑制无关的特征,更有效的提取面部表情的判别性信息特征;将提取的特征输入到Transformer Encoder架构中,学习特征之间的相互关系,关注不同表情之间的不同,进而完成更加准确的表情识别效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明所述的网络流程图。
图2为本发明所述的InARes block0、InARes block1、InARes block2模块。
图3为本发明所述的Inception block0模块。
图4为本发明所述的Inceptionblock1模块。
图5为本发明所述的Inception block2模块。
图6为本发明所述的ICBAM模块,(a)为ICAM模块,(b)为ISAM模块。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。
实施例1
一种改进的多尺度注意残差关系感知的表情识别方法, 包括如下步骤:
一种改进的多尺度注意残差关系感知的表情识别方法,其特征是,包括如下步骤:
a:将人脸图像划分为训练集和验证集,并进行数据预处理,将处理好的图像输入到3×3 的卷积层,得到输出的特征;
b:构建卷积神经网络, 卷积神经网络结构包括InARes Block0模块、InAResBlock1模块、InARes Block2模块:
b1:将特征T输入到InARes Block0模块,得到特征;
b2:将特征输入到InARes Block1模块,得到特征/>;
b3:将特征输入到InARes Block2模块,得到特征/>;
c:将得到的特征通过一个1×1的卷积层和Reshape操作,将特征转换成为一个的特征向量序列/>;
d:将得到的特征向量序列加上class token和位置编码再输入到多个堆叠的Transformer Encoder模块中,得到融合了其他向量特征的class token,再将class token输入到MLP head 分类器,得出最后的表情识别结果。
具体实施方式中,InARes Block0模块包括两个改进的残差块,每个残差块都包含一个Inception block0模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层。
具体实施方式中,每个Inception block0模块包括五个分支,即、/>、/>、/>;
第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0,初始特征图T经过/>的最大池化层得到特征/>,特征/>输入到/>的卷积层,得到特征;
第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0,初始特征图T输入到/>的卷积层,得到特征/>;
第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1,初始特征图T经过/>的第一个卷积层得到特征/>,特征输入到/>的第二个卷积层得到特征/>;
第四个分支包括三个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层和第三个卷积层的卷积核大小为3×3,步长为1,填充为1,初始特征图T经过/>的第一个卷积层得到特征/>,特征/>输入到/>的第二个卷积层得到特征/>,特征/>输入得到/>的第三个卷积层得到特征/>;
第五个分支包括四个卷积层,每个卷积层之后都有一个正则化层及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层、第三个卷积层和第四个卷积层的卷积核大小都为3×3,步长为1,填充为1;初始特征图T输入到/>的第一个卷积层得到特征/>,特征/>输入到/>的第二个卷积层得到特征/>,特征/>输入到的第三个卷积层得到特征/>,特征/>输入到/>的第四个卷积层得到特征/>;
将特征、/>、/>、/>、/>在通道维度上拼接得到特征/>,特征/>输入到ReLU激活函数层,得到特征/>;
具体来说,Inception block0模块可以表示为:
其中,代表relu激活函数,/>代表卷积核为1×1的卷积操作,/>代表卷积核为3×3的卷积操作。
具体实施方式中,ICAM模块包括并联的最大池化层和平均池化层、两个并联的一维卷积层、ReLU激活函数层、Sigmoid激活函数层;
最大池化层的卷积核大小为输入特征图的长×宽,步长为1,填充为0,平均池化层的卷积核大小为输入特征图/>的长×宽,步长为1,填充为0,一维卷积层的卷积核大小自适应,即/>,其中C为输入特征图的通道数,/>为可调系数,设置为2,b为常数,设置为1,步长为1,填充为(k - 1) /2;
ISAM模块包括最大池化层、平均池化层 、二维卷积层、正则化层、ReLU激活函数层以及Sigmoid激活函数层,其中最大池化层和平均池化层的卷积核大小都为1,步长为1,填充为1,二维卷积层的卷积核大小自适应,即卷积核大小,其中C为输入特征图的通道数,/>为可调系数,设置为2,b为常数,设置为1,步长为1,填充为(k - 1) /2;
特征输入到最大池化层,得到特征/>,特征/>输入到一维卷积层得到特征;特征/>输入到平均池化层得到特征/>,特征/>输入到一维卷积层得到特征/>,将特征/>和特征/>做一个逐元素相加的操作得到特征/>,特征/>输入到Sigmoid激活函数层得到具有通道注意力的特征图/>,将特征/>与特征/>进行一个逐元素相乘的操作,得到特征/>;特征/>分别输入的ISAM的最大池化层和平均池化层,分别得到特征/>和特征,将特征/>和特征/>在通道维度上进行拼接得到特征/>,特征/>输入到二维卷积层得到特征/>,特征/>输入到激活函数层得到具有空间注意力的特征图/>,将特征/>和特征/>做一个逐元素相乘操作得到ICBAM模块最后的输出特征图/>
具体来说,整个ICBAM模块可以表示为:=/>,其中/>代表ICAM模块,/>代表ISAM模块;
将特征输入到第一个残差模块的最后一个卷积层,得到特征/>,将初始特征图T与特征/>进行一个逐元素相加的操作,然后再输入到ReLU激活函数层,得到第一个残差模块最终的输出特征/>。
具体实施方式中,将特征输入到InARes Block0模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征/>
整个InARes Block0模块的计算过程可以表示为:
,
;
其中,T表示初始特征图,表示卷积核为3×3的卷积操作,/>表示ICBAM模块,/>表示Inception block0模块。
b2包括如下步骤:
b21:InARes block1 包括两个残差块,每个残差块都包含一个Inception block1模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层;
b22:每个Inception block1模块包括四个分支、/>、/>;
第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0;
第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0;
第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1;
第四个分支包括三个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层和第三个卷积层的卷积核大小为3×3,步长为1,填充为1;
初始特征图经过/>得到特征/>,初始特征图/>经过/>得到特征/>,初始特征图/>经过/>得到特征/>,初始特征图/>经过/>得到特征/>,将特征/>、/>、/>、/>在通道维度上拼接得到特征/>,特征/>输入到ReLU激活函数层,得到特征/>;
具体来说,Inception block1模块可以表示为:
,
其中,代表relu激活函数,/>代表卷积核为1×1的卷积操作,/>代表卷积核为3×3的卷积操作,/>代表最大池化操作;
b23:InARes block1模块中ICBAM模块和InARes block0中的ICBAM模块结构相同;
特征输入到ICAM模块,得到的输出再输入到ISAM模块;
具体的过程为:特征输入到最大池化层,得到特征/>,特征/>输入到一维卷积层得到特征/>;
特征输入到平均池化层得到特征/>,特征/>输入到一维卷积层得到特征/>,将特征/>和特征/>做一个逐元素相加的操作得到特征/>,特征/>输入到Sigmoid激活函数层得到具有通道注意力的特征图/>,将特征/>与特征/>进行一个逐元素相乘的操作,得到特征/>;
特征分别输入的ISAM的最大池化层和平均池化层,分别得到特征/>和特征/>,将特征/>和特征/>在通道维度上进行拼接得到特征/>,特征/>输入到二维卷积层得到特征/>,特征/>输入到激活函数层得到具有空间注意力的特征图/>,将特征/>和特征做一个逐元素相乘操作得到ICBAM模块最后的输出特征图/>;
具体来说,整个ICBAM模块可以表示为:
=/>,其中/>代表ICAM模块,/>代表ISAM模块;
b24:将特征输入到第一个残差模块的最后一个卷积层,得到特征/>,将初始特征图/>与特征/>进行一个逐元素相加的操作,输入到ReLU激活函数层,得到第一个残差模块最终的输出特征/>;
b25:将特征输入到InARes Block1模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征/>;
整个InARes Block1模块的计算过程可以表示为:
,
,
其中,代表卷积核为3×3的卷积操作,/>表示ICBAM模块,/>表示Inception block1模块。
步骤b3包括如下步骤:
b31:InARes block2 包括两个残差块,每个残差块都包含一个Inception block2模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层;
b32:每个Inception block2模块包括三个分支、/>;
第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0;
第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0;
第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1;
初始特征图经过/>得到特征/>;初始特征图/>经过/>得到特征/>;初始特征图/>经过/>得到特征/>,将特征/>、/>、/>在通道维度上拼接得到特征/>,特征/>输入到ReLU激活函数层,得到特征/>。/>
具体来说,Inception block2模块可以表示为:
,
其中,代表relu激活函数,/>代表卷积核为1×1的卷积操作,/>代表卷积核为3×3的卷积操作,/>代表最大池化操作;
b33:特征输入到最大池化层,得到特征/>,特征/>输入到一维卷积层得到特征/>;
特征输入到平均池化层得到特征/>,特征/>输入到一维卷积层得到特征/>,将特征/>和特征/>做一个逐元素相加的操作得到特征/>,特征/>输入到Sigmoid激活函数层得到具有通道注意力的特征图/>,将特征/>与特征/>进行一个逐元素相乘的操作,得到特征/>;
特征分别输入的ISAM的最大池化层和平均池化层,分别得到特征/>和特征,将特征/>和特征/>在通道维度上进行拼接得到特征/>,特征/>输入到二维卷积层得到特征/>,特征/>输入到激活函数层,得到具有空间注意力的特征图/>,将特征和特征/>做一个逐元素相乘操作,得到ICBAM模块最后的输出特征图/>;
具体来说,整个ICBAM模块可以表示为:,其中/>代表ICAM模块,/>代表ISAM模块;
b34:将特征输入到第一个残差模块的最后一个卷积层,得到特征/>,将初始特征图/>与特征/>进行一个逐元素相加的操作,然后再输入到ReLU激活函数层,得到第一个残差模块最终的输出特征/>;
b35:将特征输入到InARes Block2模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征/>;
整个InARes Block2模块的计算过程可以表示为:
,
,
其中,代表卷积核为3×3的卷积操作,/>表示ICBAM模块,/>表示Inception block2模块。
步骤c包括如下步骤:
c1:特征输入到一个卷积层,该卷积层的卷积核大小为1×1,步长为1,填充为0,得到特征/>;
c2:特征经过一个reshape操作,reshape操作就是沿着通道维度切分特征图,reshape操作之后的结果就是得到一个特征向量序列/>,/>,/>表示第i个特征向量,共有n个特征向量。/>
步骤d包括如下步骤:
d1:class token 向量维度和特征向量序列、/>……/>相同,即向量/>,其中,class token是指在Transformer模型中用于表示整个序列的特殊token,然后将向量/>和特征向量序列/>、/>……/>在序列长度维度上进行拼接得到一个新的向量序列/>、/>……/>;位置编码向量/>、/>……/>的向量维度和特征向量/>、/>……/>相同,将位置编码向量/>、/>……/>和特征向量序列/>、/>……/>进行逐元素相加的操作,得到新的向量序列/>、/>……/>;
d2:融合位置信息的向量序列、/>……/>输入到多个堆叠的Transformer编码器结构,输出融合了其他向量特征的class token,即/>;
d3:将特征输入到MLP分类器,MLP分类器就是一个多层感知机的结构,得到最后表情识别结果/>。
由表1可知,分别采用本发明和其他现有方法在数据集RAF-DB上进行比较,评价指标分别为准确率、精确率、召回率以及F1分数,根据试验结果可知本发明的各项指标的取得了一定的提升。例如,KTN的准确率是83.58%,是现有方法中性能最好的表情识别方法,而本发明的准确率达到了84.52%,相比KTN,提高了将近一个点。因此,本发明进一步改善了表情识别的性能,也能够比较好地处理复杂情境下的表情识别问题。
表1 本发明中的方法与现有方法是试验结果比较
。
实施例2
一种改进的多尺度注意残差关系感知的表情识别装置,包括:
数据预处理模块,将人脸图像划分为训练集和验证集,并进行数据预处理;
卷积神经网络结构包括InARes Block0模块、InARes Block1模块、InARes Block2模块;
转换模块,将经过卷积神经网络结构得到的特征图转换成为一个的特征向量序列;
表情识别模块,用于将特征向量序列、位置编码经过归一化模块和分类器进行分类,得表情识别结果。
上述虽然结合附图对发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种改进的多尺度注意残差关系感知的表情识别方法,其特征是,包括如下步骤:
a:将人脸图像划分为训练集和验证集,并进行数据预处理,将处理好的图像输入到3×3 的卷积层,得到输出的特征;
b:构建卷积神经网络, 卷积神经网络结构包括InARes Block0模块、InARes Block1模块、InARes Block2模块:
b1:将特征T输入到InARes Block0模块,得到特征;
b2:将特征输入到InARes Block1模块,得到特征/>;
b3:将特征输入到InARes Block2模块,得到特征/>;
c:将得到的特征通过一个1×1的卷积层和Reshape操作,将特征转换成为一个的特征向量序列/>;
d:将得到的特征向量序列加上class token和位置编码再输入到多个堆叠的Transformer Encoder模块中,得到融合了其他向量特征的class token,再将class token输入到MLP head 分类器,得出最后的表情识别结果。
2.根据权利要求1所述的一种改进的多尺度注意残差关系感知的表情识别方法,其特征是:InARes Block0模块包括两个改进的残差块,每个残差块都包含一个Inceptionblock0模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层。
3.根据权利要求2所述的一种改进的多尺度注意残差关系感知的表情识别方法,其特征是:每个Inception block0模块包括五个分支,即、/>、/>、/>;
第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0,初始特征图T经过/>的最大池化层得到特征/>,特征/>输入到/>的卷积层,得到特征/>;
第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0,初始特征图T输入到/>的卷积层,得到特征/>;
第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1,初始特征图T经过/>的第一个卷积层得到特征/>,特征/>输入到/>的第二个卷积层得到特征/>;
第四个分支包括三个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层和第三个卷积层的卷积核大小为3×3,步长为1,填充为1,初始特征图T经过/>的第一个卷积层得到特征/>,特征/>输入到/>的第二个卷积层得到特征/>,特征/>输入得到/>的第三个卷积层得到特征/>;
第五个分支包括四个卷积层,每个卷积层之后都有一个正则化层及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层、第三个卷积层和第四个卷积层的卷积核大小都为3×3,步长为1,填充为1;初始特征图T输入到/>的第一个卷积层得到特征/>,特征/>输入到/>的第二个卷积层得到特征/>,特征/>输入到/>的第三个卷积层得到特征/>,特征/>输入到/>的第四个卷积层得到特征/>;
将特征、/>、/>、/>、/>在通道维度上拼接得到特征/>,特征/>输入到ReLU激活函数层,得到特征/>;
具体来说,Inception block0模块可以表示为:
,
其中,代表relu激活函数,/>代表卷积核为1×1的卷积操作,/>代表卷积核为3×3的卷积操作。
4.根据权利要求3所述的一种改进的多尺度注意残差关系感知的表情识别方法,其特征是:ICAM模块包括并联的最大池化层和平均池化层、两个并联的一维卷积层、ReLU激活函数层、Sigmoid激活函数层;
最大池化层的卷积核大小为输入特征图的长×宽,步长为1,填充为0,平均池化层的卷积核大小为输入特征图/>的长×宽,步长为1,填充为0,一维卷积层的卷积核大小自适应,即/>,其中C为输入特征图的通道数,/>为可调系数,设置为2,b为常数,设置为1,填充为(k - 1) /2;
ISAM模块包括最大池化层、平均池化层 、二维卷积层、正则化层、ReLU激活函数层以及Sigmoid激活函数层,其中最大池化层和平均池化层的卷积核大小都为1,步长为1,填充为1,二维卷积层的卷积核大小自适应,即卷积核大小,其中C为输入特征图的通道数,/>为可调系数,设置为2,b为常数,设置为1,步长为1,填充为(k - 1) /2;
特征输入到最大池化层,得到特征/>,特征/>输入到一维卷积层得到特征/>;特征/>输入到平均池化层得到特征/>,特征/>输入到一维卷积层得到特征/>,将特征/>和特征/>做一个逐元素相加的操作得到特征/>,特征/>输入到Sigmoid激活函数层得到具有通道注意力的特征图/>,将特征/>与特征/>进行一个逐元素相乘的操作,得到特征/>;特征/>分别输入的ISAM的最大池化层和平均池化层,分别得到特征/>和特征/>,将特征/>和特征/>在通道维度上进行拼接得到特征/>,特征/>输入到二维卷积层得到特征/>,特征/>输入到激活函数层得到具有空间注意力的特征图/>,将特征/>和特征/>做一个逐元素相乘操作得到ICBAM模块最后的输出特征图/>;具体来说,整个ICBAM模块可以表示为:/>=/>,其中/>代表ICAM模块,/>代表ISAM模块;
将特征输入到第一个残差模块的最后一个卷积层,得到特征/>,将初始特征图T与特征/>进行一个逐元素相加的操作,然后再输入到ReLU激活函数层,得到第一个残差模块最终的输出特征/>。
5.根据权利要求4所述的一种改进的多尺度注意残差关系感知的表情识别方法,其特征是:将特征输入到InARes Block0模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征/>,整个InARes Block0模块的计算过程可以表示为:
,
;
其中,T表示初始特征图,表示卷积核为3×3的卷积操作,/>表示ICBAM模块,表示Inception block0模块。
6.根据权利要求5所述的一种改进的多尺度注意残差关系感知的表情识别方法,其特征是,b2包括如下步骤:
b21:InARes block1 包括两个残差块,每个残差块都包含一个Inception block1模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层;
b22:每个Inception block1模块包括四个分支、/>、/>;
第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0;
第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0;
第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1;
第四个分支包括三个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层和第三个卷积层的卷积核大小为3×3,步长为1,填充为1;
初始特征图经过/>得到特征/>,初始特征图/>经过/>得到特征/>,初始特征图/>经过/>得到特征/>,初始特征图/>经过/>得到特征/>,将特征/>、/>、/>、/>在通道维度上拼接得到特征/>,特征/>输入到ReLU激活函数层,得到特征/>;
具体来说,Inception block1模块可以表示为:
,
其中,代表relu激活函数,/>代表卷积核为1×1的卷积操作,/>代表卷积核为3×3的卷积操作,/>代表最大池化操作;
b23:InARes block1模块中ICBAM模块和InARes block0中的ICBAM模块结构相同;
特征输入到ICAM模块,得到的输出再输入到ISAM模块;
具体的过程为:特征输入到最大池化层,得到特征/>,特征/>输入到一维卷积层得到特征/>;
特征输入到平均池化层得到特征/>,特征/>输入到一维卷积层得到特征/>,将特征/>和特征/>做一个逐元素相加的操作得到特征/>,特征/>输入到Sigmoid激活函数层得到具有通道注意力的特征图/>,将特征/>与特征/>进行一个逐元素相乘的操作,得到特征/>;
特征分别输入的ISAM的最大池化层和平均池化层,分别得到特征/>和特征/>,将特征/>和特征/>在通道维度上进行拼接得到特征/>,特征/>输入到二维卷积层得到特征,特征/>输入到激活函数层得到具有空间注意力的特征图/>,将特征/>和特征/>做一个逐元素相乘操作得到ICBAM模块最后的输出特征图/>;
具体来说,整个ICBAM模块可以表示为:
=/>,其中/>代表ICAM模块,/>代表ISAM模块;
b24:将特征输入到第一个残差模块的最后一个卷积层,得到特征/>,将初始特征图/>与特征/>进行一个逐元素相加的操作,输入到ReLU激活函数层,得到第一个残差模块最终的输出特征/>;
b25:将特征输入到InARes Block1模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征/>;
整个InARes Block1模块的计算过程可以表示为:
,
,
其中,代表卷积核为3×3的卷积操作,/>表示ICBAM模块,/>表示Inception block1模块。
7.根据权利要求6所述的一种改进的多尺度注意残差关系感知的表情识别方法,其特征是:b3包括如下步骤:
b31:InARes block2 包括两个残差块,每个残差块都包含一个Inception block2模块、ICBAM模块以及卷积层,其中卷积核大小为3×3,步长为2,填充为1,卷积层之后是正则化层和ReLU激活函数层;
b32:每个Inception block2模块包括三个分支、/>;
第一个分支由最大池化层、卷积层、正则化层和ReLU激活函数组成,其中最大池化层的卷积核大小为3×3,步长为1,填充为1,卷积层的卷积核大小为1×1,步长为1,填充为0;
第二个分支由卷积层、正则化层和ReLU激活函数层组成,其中卷积层的卷积核大小为1×1,步长为1,填充为0;
第三个分支包括两个卷积层,每个卷积层之后都有一个正则化层以及ReLU激活函数层,其中第一个卷积层的卷积核大小为1×1,步长为1,填充为0,第二个卷积层的卷积核大小为3×3,步长为1,填充为1;
初始特征图经过/>得到特征/>;初始特征图/>经过/>得到特征/>;初始特征图经过/>得到特征/>,将特征/>、/>、/>在通道维度上拼接得到特征/>,特征/>输入到ReLU激活函数层,得到特征/>;
具体来说,Inception block2模块可以表示为:
,
其中,代表relu激活函数,/>代表卷积核为1×1的卷积操作,/>代表卷积核为3×3的卷积操作,/>代表最大池化操作;
b33:特征输入到最大池化层,得到特征/>,特征/>输入到一维卷积层得到特征;
特征输入到平均池化层得到特征/>,特征/>输入到一维卷积层得到特征/>,将特征/>和特征/>做一个逐元素相加的操作得到特征/>,特征/>输入到Sigmoid激活函数层得到具有通道注意力的特征图/>,将特征/>与特征/>进行一个逐元素相乘的操作,得到特征/>;
特征分别输入的ISAM的最大池化层和平均池化层,分别得到特征/>和特征/>,将特征/>和特征/>在通道维度上进行拼接得到特征/>,特征/>输入到二维卷积层得到特征/>,特征/>输入到激活函数层,得到具有空间注意力的特征图/>,将特征/>和特征/>做一个逐元素相乘操作,得到ICBAM模块最后的输出特征图/>;
具体来说,整个ICBAM模块可以表示为:,其中/>代表ICAM模块,/>代表ISAM模块;
b34:将特征输入到第一个残差模块的最后一个卷积层,得到特征/>,将初始特征图/>与特征/>进行一个逐元素相加的操作,然后再输入到ReLU激活函数层,得到第一个残差模块最终的输出特征/>;
b35:将特征输入到InARes Block2模块的第二个残差块,第二个残差块的结构和第一个残差块的结构相同,得到最终的输出特征/>;
整个InARes Block2模块的计算过程可以表示为:
,
,
其中,代表卷积核为3×3的卷积操作,/>表示ICBAM模块,/>表示Inception block2模块。
8.根据权利要求7所述的一种改进的多尺度注意残差关系感知的表情识别方法,其特征是:步骤c包括如下步骤:
c1:特征输入到一个卷积层,该卷积层的卷积核大小为1×1,步长为1,填充为0,得到特征/>;
c2:特征经过一个reshape操作,reshape操作就是沿着通道维度切分特征图,reshape操作之后的结果就是得到一个特征向量序列/>,/>,/>表示第i个特征向量,共有n个特征向量。
9.根据权利要求8所述的一种改进的多尺度注意残差关系感知的表情识别方法,其特征是:步骤d包括如下步骤:
d1:class token向量维度和特征向量序列、/>……/>相同,即向量/>,其中,classtoken是指在Transformer模型中用于表示整个序列的特殊token,然后将向量/>和特征向量序列/>、/>……/>在序列长度维度上进行拼接得到一个新的向量序列/>、/>……/>;位置编码向量/>、/>……/>的向量维度和特征向量/>、/>……/>相同,将位置编码向量/>、/>……/>和特征向量序列/>、/>……/>进行逐元素相加的操作,得到新的向量序列/>、/>……/>;
d2:融合位置信息的向量序列、/>……/>输入到多个堆叠的Transformer编码器结构,输出融合了其他向量特征的class token,即/>;
d3:将特征输入到MLP分类器,MLP分类器就是一个多层感知机的结构,得到最后表情识别结果/>。
10.一种改进的多尺度注意残差关系感知的表情识别装置,其特征在于,包括:
数据预处理模块,将人脸图像划分为训练集和验证集,并进行数据预处理;
卷积神经网络结构包括InARes Block0模块、InARes Block1模块、InARes Block2模块;
转换模块,将经过卷积神经网络结构得到的特征图转换成为一个的特征向量序列;
表情识别模块,用于将特征向量序列、位置编码经过归一化模块和分类器进行分类,得表情识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410424320.3A CN118015687A (zh) | 2024-04-10 | 2024-04-10 | 改进的多尺度注意残差关系感知的表情识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410424320.3A CN118015687A (zh) | 2024-04-10 | 2024-04-10 | 改进的多尺度注意残差关系感知的表情识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118015687A true CN118015687A (zh) | 2024-05-10 |
Family
ID=90958372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410424320.3A Pending CN118015687A (zh) | 2024-04-10 | 2024-04-10 | 改进的多尺度注意残差关系感知的表情识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118015687A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639544A (zh) * | 2020-05-07 | 2020-09-08 | 齐齐哈尔大学 | 基于多分支跨连接卷积神经网络的表情识别方法 |
CN112541409A (zh) * | 2020-11-30 | 2021-03-23 | 北京建筑大学 | 一种融入注意力的残差网络表情识别方法 |
US20220343683A1 (en) * | 2020-04-01 | 2022-10-27 | Boe Technology Group Co., Ltd. | Expression Recognition Method and Apparatus, Computer Device, and Readable Storage Medium |
CN115966010A (zh) * | 2023-02-07 | 2023-04-14 | 南京邮电大学 | 一种基于注意力和多尺度特征融合的表情识别方法 |
CN116645716A (zh) * | 2023-05-31 | 2023-08-25 | 南京林业大学 | 基于局部特征和全局特征的表情识别方法 |
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN117292414A (zh) * | 2022-06-16 | 2023-12-26 | 南京理工大学 | 基于改进非对称卷积神经网络的人脸表情识别方法 |
CN117315732A (zh) * | 2022-06-21 | 2023-12-29 | 天津大学 | 一种基于多尺度特征融合的人脸表情识别方法 |
CN117373096A (zh) * | 2023-11-08 | 2024-01-09 | 四川警察学院 | 一种基于长短期时序感知的视频人脸表情识别方法及系统 |
CN117636426A (zh) * | 2023-11-20 | 2024-03-01 | 北京理工大学珠海学院 | 一种基于注意力机制的面部和情景情感识别方法 |
-
2024
- 2024-04-10 CN CN202410424320.3A patent/CN118015687A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220343683A1 (en) * | 2020-04-01 | 2022-10-27 | Boe Technology Group Co., Ltd. | Expression Recognition Method and Apparatus, Computer Device, and Readable Storage Medium |
CN111639544A (zh) * | 2020-05-07 | 2020-09-08 | 齐齐哈尔大学 | 基于多分支跨连接卷积神经网络的表情识别方法 |
CN112541409A (zh) * | 2020-11-30 | 2021-03-23 | 北京建筑大学 | 一种融入注意力的残差网络表情识别方法 |
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN117292414A (zh) * | 2022-06-16 | 2023-12-26 | 南京理工大学 | 基于改进非对称卷积神经网络的人脸表情识别方法 |
CN117315732A (zh) * | 2022-06-21 | 2023-12-29 | 天津大学 | 一种基于多尺度特征融合的人脸表情识别方法 |
CN115966010A (zh) * | 2023-02-07 | 2023-04-14 | 南京邮电大学 | 一种基于注意力和多尺度特征融合的表情识别方法 |
CN116645716A (zh) * | 2023-05-31 | 2023-08-25 | 南京林业大学 | 基于局部特征和全局特征的表情识别方法 |
CN117373096A (zh) * | 2023-11-08 | 2024-01-09 | 四川警察学院 | 一种基于长短期时序感知的视频人脸表情识别方法及系统 |
CN117636426A (zh) * | 2023-11-20 | 2024-03-01 | 北京理工大学珠海学院 | 一种基于注意力机制的面部和情景情感识别方法 |
Non-Patent Citations (5)
Title |
---|
QIAN DONG: "Multi-Scale Attention Learning Network for Facial Expression Recognition", 《 IEEE SIGNAL PROCESSING LETTERS 》, 23 November 2023 (2023-11-23) * |
于洋等: "基于多尺度时空注意力网络的微表情检测方法", 《计算机工程》, 24 October 2023 (2023-10-24) * |
邹建成;邓豪;: "一种基于卷积神经网络的人脸表情自动识别方法", 北方工业大学学报, no. 05, 15 October 2019 (2019-10-15) * |
郭胜: "基于注意力多尺度融合的人脸表情识别算法研究", 《长春工程学院学报》, 15 March 2024 (2024-03-15) * |
高健;林志贤;郭太良;: "基于混合注意力机制的表情识别研究", 信息技术与网络安全, no. 01, 10 January 2020 (2020-01-10) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | A visual attention based ROI detection method for facial expression recognition | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN112446476A (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
Do et al. | Deep neural network-based fusion model for emotion recognition using visual data | |
CN112801146A (zh) | 一种目标检测方法及系统 | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
Aamir et al. | ML-DCNNet: multi-level deep convolutional neural network for facial expression recognition and intensity estimation | |
CN115830637B (zh) | 一种基于姿态估计和背景抑制的遮挡行人重识别方法 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
Li et al. | Robustness comparison between the capsule network and the convolutional network for facial expression recognition | |
Baddar et al. | On-the-fly facial expression prediction using lstm encoded appearance-suppressed dynamics | |
CN114863407A (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN114492634B (zh) | 一种细粒度装备图片分类识别方法及系统 | |
Gao | A two-channel attention mechanism-based MobileNetV2 and bidirectional long short memory network for multi-modal dimension dance emotion recognition | |
CN115439884A (zh) | 一种基于双分支自注意力网络的行人属性识别方法 | |
CN113850182A (zh) | 基于DAMR_3DNet的动作识别方法 | |
CN113076916B (zh) | 基于几何特征加权融合的动态人脸表情识别方法及系统 | |
Xu | Mt-resnet: a multi-task deep network for facial attractiveness prediction | |
CN114170659A (zh) | 一种基于注意力机制的面部情感识别方法 | |
CN116912924B (zh) | 一种目标图像识别方法和装置 | |
CN117475216A (zh) | 一种基于aglt网络的高光谱与激光雷达数据融合分类方法 | |
Dong et al. | A supervised dictionary learning and discriminative weighting model for action recognition | |
CN116758415A (zh) | 一种基于二维离散小波变换的轻量化害虫识别方法 | |
CN118015687A (zh) | 改进的多尺度注意残差关系感知的表情识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |