CN112257647A - 基于注意力机制的人脸表情识别方法 - Google Patents

基于注意力机制的人脸表情识别方法 Download PDF

Info

Publication number
CN112257647A
CN112257647A CN202011207089.0A CN202011207089A CN112257647A CN 112257647 A CN112257647 A CN 112257647A CN 202011207089 A CN202011207089 A CN 202011207089A CN 112257647 A CN112257647 A CN 112257647A
Authority
CN
China
Prior art keywords
attention
self
channel
feature map
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011207089.0A
Other languages
English (en)
Inventor
姜代红
胡远征
戴磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou University of Technology
Original Assignee
Xuzhou University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou University of Technology filed Critical Xuzhou University of Technology
Priority to CN202011207089.0A priority Critical patent/CN112257647A/zh
Publication of CN112257647A publication Critical patent/CN112257647A/zh
Priority to LU102496A priority patent/LU102496B1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明的一种基于注意力机制的人脸表情识别方法,适用于图像识别领域。首先构建人脸表情识别模型,通过端到端的方式获得收敛后的人脸表情预测结果;在残差网络的基础上添加自注意力机制和通道注意力机制,从而提高对输入图像中有用信息的敏感度,抑制无用信息;然后利用自注意力计算输入的人脸表情特征图中所有位置像素的加权平均值来计算人脸表情特征图中关键位置的相对重要性,将自注意力机制和通道注意力机制相融合以鼓励人脸表情识别模型提取人脸表情特征图中关键位置作为全局重要特征的能力,最后输出最优识别结果。其步骤简单,使用方便鲁棒性好。

Description

基于注意力机制的人脸表情识别方法
技术领域
本发明涉及一种基于注意力机制的人脸表情识别方法,尤其适用于人脸表情快速识别中使用的 基于注意力机制的人脸表情识别方法。
背景技术
在人类的日常交流中,表情代表着人们当前的情感状态,往往比语言更能表达准确的信息,在 人类情感交流中有着不可或缺的作用。20世纪70年代,心里学家Ekman和Friesen定义了6中基 本情感,分别是高兴、生气、吃惊、恐惧、厌恶和悲伤六种基本情感,随后蔑视被加进来,这7种 情感成为人们研究表情识别的基础。
人脸表情识别作为计算机视觉领域的一个研究方向,与人脸检测、识别有着密不可分的关系, 逐渐被应用到日常的生活中,如司机疲劳驾驶检测、刑侦以及娱乐等领域。目前,人脸表情识别的 研究主要分为基于传统方法的人工特征提取和基于深度学的两个方向。Andrew等[1]将PCA和LDA结 合起来对表情进行分类。Feng等[2]提出了一种基于LBP特征和SVM分类起相结合的表情识别方法, 并且就实际应用中可能出现的低分辨率情况对模型做了相应的改进;Metaxas等[4]基于LBP特征提出 了一种多任务稀疏学习的方法,该方法将表情识别问题转换成多任务稀疏学习的问题,在多个数据 集上均取得较好结果。
自2013年以来,深度学习逐渐应用于表情识别。Matsugu等[5]采用卷积神经网络(Convolutional Neural Networks,CNN)解决表情图片的平移、旋转和尺度不变性问题。孙波等人通过区域的CNN 学习人脸表情特征。Yao等[6]提出了专门用于表情识别的网络模型HoloNet,在模型中使用CReLU代 替ReLU,并且将残差模块和CReLU结合构建中间层,取得很好的效果。Zhao等[7]通过在AlexNet内 添加特征选择机制设计特征提取网络。Cai等[9]提出了一个新的损失函数,在优化表情类间距离的同 时使类间距离达到最大,从而使网络能够学习到更具判别性的特征。何俊等[10]采用改进的深度残差 网络加深网络的深度,同时引入迁移学习解决目前表情识别数据集过小的问题,在CK+数据集上达 到了91.33%的准确率。文献[11]为了解决人脸表情识别中人脸姿态变化的问题,采用成对随机森林的 方法进行人脸姿态变化处理。以上基于深度学习的表情识别方法表明,采用卷积神经网络能取得较 好的识别结果,但是所依赖的卷积运算是在空间上的局部操作,想要捕获长范围特征之间的依赖关 系只能通过反复堆叠卷积层实现,但是这样做效率太低,且由于网络层数较多,需要设计合理的模 型结构防止梯度消失。
发明内容
发明目的:针对上述技术的不足之处,提供一种结构简单,识别效率高,识别精度高的基于注 意力机制的人脸表情识别方法。
为实现上述技术目的,本发明的基于注意力机制的人脸表情识别方法,首先构建人脸表情识别 模型,其结构按照图像输入顺序为:卷积模块、最大池化模块、注意力残差模块、最大池化模块、 注意力残差模块、最大池化模块和两个全连接层以及softmax函数,通过端到端的方式获得收敛后 的人脸表情预测结果;注意力残差模块为在残差网络的基础上引入自注意力模块,通过计算输入的 人脸表情特征图中所有位置像素的加权平均值来计算人脸表情特征图中关键位置的相对重要性,关 键位置为识别表情重要的位置,具体为特征图中对与识别表情重要的位置,包括嘴巴和眼睛;然后 引入通道注意力学习通道域上的不同特征从而产生通道注意力,以学习不同通道中相互作用特征, 使特征图的通道能够对目标进行检测,从而使通道定位到特征图的关键位置,提升鲁棒性;最后, 将自注意力机制和通道注意力机制相融合以鼓励人脸表情识别模型提取人脸表情特征图中关键位置 作为全局重要特征的能力,通过端到端的学习方式,利用重复的最大池化模块、注意力残差模块减 少误差,输出最优识别结果。
人脸表情识别模型的构建过程中利用的残差网络y=F(x,{Wi})+x的基础上引入自注意力机 制,其中x和y分别表示残差网络的输入和输出信息,F(x,{Wi})表示残差映射。
自注意力模块利用非局部操作在计算特征图每个位置的输出时关注图像中所有和当前表示相关 的信号,将获得相关性权重表征其他位置和当前待计算位置的相关性,定义如下:
Figure BDA0002757389940000021
其中i表示输出特征图中的任意位置,j是特征图中所有可能位置的索引,x为输入特征图,y是输出 特征图,输出的特征图与输入的特征图像素值发生改变,尺寸与输入特征图相同,f是计算任意两点 间相关性的函数,g是一元函数,用于进行信息变换,C(x)为归一化函数;由于f和g都是通式,结 合神经网络需要考虑具体形式,首先,g是一元输出,采用1×1卷积代替,形式如下:g(xj)=Wgxj, 将f表示的任意两点代入嵌入空间中的两个位置,计算公式为:
Figure BDA0002757389940000022
其中, θ(xi)=Wθxi,φ(xj)=Wφxj,归一化参数
Figure BDA0002757389940000023
对于给定的位置i,
Figure BDA0002757389940000024
就 变成了计算所有位置j的softmax,得到自注意力层的输出为:
Figure BDA0002757389940000031
设自注意力网络的输入特征图为FH×W×C,经过两个卷积权重Wθ和Wφ将其变换到两个嵌入空间, 得到FH×W×C′和FH×W×C′,通常C′<C,这里的目的是降低通道数,减少计算量;其次,分别对这 个输出特征图进行reshape操作,变成FHW×C′,接着对经Wθ变换得到的矩阵执行转置运算后进行 矩阵相乘,计算相似性,得到相似性矩阵FHW×HW,然后在最后一个维度上进行softmax操作,相 当于得到了当前特征图中每个像素与其他位置像素的归一化相关性;最后对g先降维再进行reshape 操作,然后和矩阵FHW×HW进行相乘,将注意力机制应用到特征图的所有通道上,最后经过一个1×1 的卷积恢复通道,保证输入和输出尺寸完全相同;
从数学角度上说明,假设自注意力网络的前一层的特征图为x∈RC×N,它首先被映射到两 个特征空间f和g中,其中f=Wfx,g=Wgx
Figure BDA0002757389940000032
式中,βj,i表示在合成特征图的第j个区域时,第i个位置对其贡献的大小,这里的C表示前一层特 征图的通道数,N表示前一层特征图像素的个数。这样自注意力层的输出o=(o1,o2,...,oj,...,oN), 其中:
Figure BDA0002757389940000033
式中,Wθ∈RC′×C
Figure BDA0002757389940000034
Wg∈RC′×C,Wv∈RC×C′为卷积核的权重,C′为一个超 参数,且C′<C;
然后引入残差连接,最终的自注意力模块输出为:yi=γoi+xi,其中,γ是一个可学习的超参 数,初始化为0,在训练过程中逐渐增大权重。
利用通道注意力模块作用特征检测器,引入通道注意力来学习通道间的权重分布,强化对表情 识别任务有用的通道,同时弱化对任务不相关的通道;对于经过变化的中间特征图的每个通道,分 别经过基于高度和宽度的全局平均池化和全局最大池化操作,将特征图压缩到两个不同空间中得到 两个特征图,然后将得到的两个特征图输入到两个网络用同一套参数,即具有共享参数的全连接神 经网络中,将全连接层的输出向量按对应元素进行求和,融合两个空间的特征,最后经过sigmoid 激活函数得到最终的通道权重;具体如下:
假设输入的特征图为FH×W×C,其中H、W、C分别是特征图的高度、宽度和通道数,经过池化 后分别得到最大池化特征图Fmax∈R1×1×C和全局平均池化特征图Favg∈R1×1×C,然后将这两个特征 图送入到只包含一个隐藏层的的全连接神经网络中,计算过程如下:
Mc=sigmoid(MLP(AvgPool(F))+MLP(MaxPool(F)))
进一步地:
Mc=sigmoid(W1(W0(Favg))+W1(W0(Fmax)))
其中,W0、W1为全连接层的共享权重,W0∈RC/r×C、W1∈RC×C/r
在残差模块的基础上添加自注意力机制和通道注意力使之构成注意力残差模块,用以增强症人 脸表情识别模型网络的提取特征能力,捕获长范围特征间依赖关系,提高模型对有用信息的敏感度, 抑制无用信息;添加方式分为串行和并行两种方式,其中串行又分为先进行自注意力后进行通道注 意力和先进行通道注意力后进行自注意力。
串行方式中的先自注意力后通道注意力的添加方式具体为:
串行方式的先进行自注意力后进行通道注意力模式:将前一层经过卷积得到特征图Fin作为输 入,首先经过通道注意力Mc的作用得到通道注意力图Fmid,然后和输入特征图进行融合作为自注意 力Ma的输入,最后将经过Ma作用得到的特征图和Fmid融合得到最终注意力模块的输出,数学描述如 下:
Figure BDA0002757389940000041
Figure BDA0002757389940000042
串行方式中的先通道注意力后自注意力的添加方式具体为:
串行方式的先通道注意力后自注意力模式:将前一层经过卷积得到特征图Fin作为输入,首先经 过自注意力Ma和通道注意力Mc的作用得到各自的特征图,然后再和输入特征图Fin做融合,分别得 到自注意力图
Figure BDA0002757389940000043
和通道注意力图
Figure BDA0002757389940000044
最后对得到的两个注意力图做对应元素的加和操作得到最 终的注意力图输出Fout,数学描述如下:
Figure BDA0002757389940000045
Figure BDA0002757389940000046
其中,
Figure BDA0002757389940000047
表示对应元素相乘。
并行添加方式步骤为:将前一层经过卷积得到特征图Fin作为输入,首先经过自注意力Ma和通道 注意力Mc的作用得到各自的特征图,然后将得到的特征图与输入特征图做对应元素的乘法操作,分 别得到自注意力图
Figure BDA0002757389940000048
和通道注意力图
Figure BDA0002757389940000049
最后将得到的两个注意力图对应元素相加得到最终的 输出Fout,数学描述如下:
Figure BDA00027573899400000410
Figure RE-GDA0002817367860000054
Figure BDA0002757389940000052
式中,
Figure BDA0002757389940000053
表示对应元素相加,
Figure BDA0002757389940000054
表示对应元素相乘。
在残差模块中设有通道自注意力形成注意力残差模块,具体分为三种结构:分别为单独使用自 注意力机制、单独使用通道注意力机制和同时使用自注意力和通道注意力机制,注意力残差模块为 在原有残差模块的基础上添加了注意力机制。
有益效果:
本发明提出注意力机制的人脸表情识别模型,在残差网络的基础上引入自注意力机制,克服卷 积运算局部操作的限制,提升了模型捕获长范围关联特征的能力;考虑到特征图通道间的相关性, 引入通道注意力,学习通道间的权重分布;本发明使用的基于注意力的人脸表情识别模型识别速度 快,识别精度高;本发明使用的网络训练的方式是端到端的训练方式,只需要输入一张人脸表情图 像,即可直接输出表情类别,无需预先进行大量的重复训练。
附图说明:
图1为本发明的基于注意力机制的人脸表情识别方法框图;
图2为本发明的残差模块框图;
图3为本发明的自注意力模块框图;
图4为本发明的通道注意力模块框图;
图5为本发明的先自注意式后通道模式框图;
图6为本发明的先通道后自注意力道模式框图;
图7为本发明通道意力和自注意力并行模式框图;
图8(a)为单独使用自注意力机制框图;
图8(b)为单独使用通道注意力机制框图;
图8(c)为同时使用自注意力和通道注意力机制框图;
图9为使用FER2013训练的曲线图;
图10为使用CK+训练的曲线图;
图11为使用FER2013数据集的混淆矩阵;
图12为使用CK+数据集的混淆矩阵。
具体实施方式:
下面结合附图对本发明的具体实施例做进一步说明:
本发明的一种基于注意力机制的人脸表情识别方法,首先构建人脸表情识别模型,其结构按照 图像输入顺序为:卷积模块、最大池化模块、注意力残差模块、最大池化模块、注意力残差模块、 最大池化模块和两个全连接层FC1和FC2以及softmax函数,通过端到端的方式获得收敛后的人脸 表情预测结果;注意力残差模块为在残差网络的基础上添加自注意力机制和通道注意力机制,用以 提高对输入图像中有用信息的敏感度,抑制无用信息;其添加方式为串行和并行两种方式,其中串 行方式又分为先进行自注意力后进行通道注意力、先进行通道注意力后进行自注意力,并行方式即 为自注意力和通道注意力并行;利用自注意力计算输入的人脸表情特征图中所有位置像素的加权平 均值来计算人脸表情特征图中关键位置的相对重要性,关键位置为识别表情重要的位置,具体为特 征图中对与识别表情重要的位置,包括嘴巴和眼睛;然后利用通道注意力学习通道域上的不同特征 从而产生通道注意力,以学习不同通道中相互作用特征,使特征图的通道能够对目标进行检测,从 而使通道定位到特征图的关键位置,提升鲁棒性;最后,将自注意力机制和通道注意力机制相融合 以鼓励人脸表情识别模型提取人脸表情特征图中关键位置作为全局重要特征的能力,通过端到端的 学习方式,利用重复的最大池化模块、注意力残差模块减少误差,输出最优识别结果。
图1为注意力机制模型的整体框架。前一部分使用下采样进行特征提取得到表情特征图;然后 将特征图输入到注意力残差模块中进行特征转换,来提升模型性能;最后通过全连接层实现表情分 类。其中注意力残差模块包含自注意力模块何通道注意力模块。
残差网络:由于在深度学习中,往往是通过增加模型规模来提升模型性能,但是随着网络层数 的加深,会出现梯度消失问题,给模型训练带来困难。为解决这个问题,残差网络采用一种短路连 接的方式,允许网络之前的信息直接传递到模块输出层,
如图2所示,残差模块通过恒等映射的方式在输入和输出之间建立了一条连接,从而使得卷积 层能够学习输入、输出之间的残差,用F(x,{Wi})表示残差映射,那么残差模块的输出为: y=F(x,{Wi})+x其中,x和y分别表示模块的输入和输出信息。
如图3所示,自注意力模块:在卷积神经网络中,由于计算资源的限制,卷积核的大小一般小 于7,因此每次卷积运算只能覆盖像素点周围很小的一块邻域,对于距离较远的特征,例如人的两 只眼睛之间的关联特征就不容易捕获。为了捕获长范围像素之间的依赖关系,需要反复堆叠卷积操 作并通过反向传播得到,但是这样容易造成梯度消失和收敛慢的问题;由于网络很深,需要设计合 理的网络结构而不影响梯度传播等。与卷积局部计算不同,非局部操作的核心思想是在计算特征图 每个位置的输出时不再只和局部邻域的像素进行计算,而是关注图像中所有和当前表示相关的信号, 将获得相关性权重表征其他位置和当前待计算位置的相关性,定义如下:
Figure BDA0002757389940000071
其中i表示输出特征图中的某个位置,j是特征图中所有可能位置的索引,x为输入特征图,y是输出 特征图,尺寸与输入特征图相同,f是计算任意两点间相关性的函数,g是一元函数,目的是进行信 息变换,C(x)为归一化函数。由于f和g都是通式,结合神经网络,需要考虑具体形式。首先,g是 一元输出,采用1×1卷积代替,形式如下:g(xj)=Wgxj
对于计算两个位置相关性的函数f,本文在嵌入空间中计算相似度,数学表达式如下:
Figure BDA0002757389940000072
其中,θ(xi)=Wθxi,φ(xj)=Wφxj,归一化参数
Figure BDA0002757389940000073
对于给定 的位置i,
Figure BDA0002757389940000074
就变成了计算所有位置j的softmax,得到自注意力层的输出为:
Figure BDA0002757389940000075
设网络的输入FH×W×C经过两个卷积权重Wθ和Wφ将其变换到两个嵌入空间,得到FH×W×C′和FH×W×C′,通常C′<C,这里的目的是降低通道数,减少计算量;其 次,分别对这个输出特征图进行reshape操作,变成FHW×C′,接着对其中一个矩阵执行转置运算后 进行矩阵相乘,计算相似性,得到相似性矩阵FHW×HW,然后在最后一个维度上进行softmax操作, 相当于得到了当前特征图中每个像素与其他位置像素的归一化相关性;最后对g也采取同样的操 作,先降维再进行reshape操作,然后和矩阵FHW×HW进行相乘,将注意力机制应用到特征图的所 有通道上,最后经过一个1X1的卷积恢复通道,保证输入和输出尺寸完全相同。
从数学角度上分析,假设前一层的特征图为x∈RC×N,它首先被映射到两个特征空间f和g 中,其中f=Wfx,g=Wgx
Figure BDA0002757389940000076
其中,βj,i表示在合成特征图的第j个区域时,第i个位置对其贡献的大小,这里的C表示前一层特征图 的通道数,N表示前一层特征图像素的个数。这样自注意力层的输出o=(o1,o2,…,oj,…,oN),其中
Figure BDA0002757389940000081
其中,Wθ∈RC′×C
Figure BDA0002757389940000084
Wg∈RC′×C,Wv∈RC×C′为卷积核的权重,其中C是一 个超参数,且C′<C。
此外,为了更好地进行梯度反向传播,引入残差连接,所以注意力模块最终的输出为:
yi=γoi+xi
其中,γ是一个可学习的超参数,初始化为0,在训练过程中逐渐增大权重。
如图4所示,通道注意力模块:特征图的每个通道都扮演着特征检测器的作用[22],因此特征图的通 道关注的是什么样的特征才是对任务有用的特征。然而在通常的卷积神经网络并没有区分通道间的 重要程度,即平等地对待每一个通道,这样就忽视了每个通道对于任务的贡献是不同的。鉴于此, 本文引入通道注意力来学习通道间的权重分布,强化对表情识别任务有用的通道,同时弱化对任务 不相关的通道。
为了更加高效地计算通道注意力,对于中间特征图的每个通道,分别经过基于高度和宽度的全 局平均池化和全局最大池化操作,将特征图压缩到两个不同空间中,然后将得到的两个特征图输入 到具有共享参数的全连接网络中,将全连接层的输出向量按对应元素进行求和,融合两个空间的特 征,最后经过sigmoid激活函数得到最终的通道权重,详细结构如下图所示。
假设输入的特征图为FH×W×C,其中H、W、C分别是特征图的高度、宽度和通道数,经过池化 后分别得到最大池化特征图Fmax∈R1×1×C和全局平均池化特征图Favg∈R1×1×C,然后将这两个特 征图送入到只包含一个隐藏层的的全连接网络中,计算过程如下:
Mc=sigmoid(MLP(AvgPool(F))+MLP(MaxPool(F)))
进一步地:
Mc=sigmoid(W1(W0(Favg))+W1(W0(Fmax)))
其中,W0、W1为全连接层的共享权重,W0∈RC/r×C、W1∈RC×C/r
注意力融合:为了增强网络模型的提取特征能力,捕获长范围特征间依赖关系,本文在残差模 块的基础上添加自注意力机制和通道注意力使之构成注意力残差模块,以提高模型对有用信息的敏 感度,抑制无用信息。添加方式分为串行和并行两种方式,其中串行又分为先进行自注意力后进行 通道注意力和先进行通道注意力后进行自注意力。
先自注意力后通道注意力:串行方式下的先进行自注意力后进行通道注意力如图4所示,将前 一层经过卷积得到特征图Fin作为输入,首先经过通道注意力Mc的作用得到通道注意力图Fmid,然 后和输入特征图进行融合作为自注意力Ma的输入,最后将经过Ma作用得到的特征图和Fmid融合得 到最终注意力模块的输出。整个过程形式化描述如图5所示:
Figure BDA0002757389940000082
Figure BDA0002757389940000083
先通道注意力后自注意力:串行方式的先通道后自注意力模式如图5所示,将前一层经过卷积 得到特征图Fin作为输入,首先经过自注意力Ma和通道注意力Mc的作用得到各自的特征图,然后 再和输入特征图Fin做融合,分别得到自注意力图
Figure BDA0002757389940000091
和通道注意力图
Figure BDA0002757389940000092
最后对得到的两个注 意力图做对应元素的加和操作得到最终的注意力图输出Fout。整个过程形式化描述如图6所示:
Figure BDA0002757389940000093
Figure BDA0002757389940000094
其中,
Figure BDA0002757389940000095
表示对应元素相乘。
并行方式:并行连接方式如图7所示,将前一层经过卷积得到特征图Fin作为输入,首先经过 自注意力Ma和通道注意力Mc的作用得到各自的特征图,然后将得到的特征图与输入特征图做对应 元素的乘法操作,分别得到自注意力图
Figure BDA0002757389940000096
和通道注意力图
Figure BDA0002757389940000097
最后将得到的两个注意力图对应 元素相加得到最终的输出Fout。整个过程形式化描述如下:
Figure BDA0002757389940000098
Figure BDA0002757389940000099
Figure BDA00027573899400000910
其中,
Figure BDA00027573899400000911
表示对应元素相加,
Figure BDA00027573899400000912
表示对应元素相乘。
注意力残差
为了更好地利用前文设计的通道自注意力,本文将其插入到残差模块中。具体分为三种结构设 计,分别为单独使用自注意力机制、单独使用通道注意力机制和同时使用自注意力和通道注意力机 制。注意力残差模块为在原有残差模块的基础上添加了注意力机制,具体的结构如图8(a)、8(b)、 8(c)所示。
为验证本文模型的有效性,在FER2013和CK+两个数据集上进行实验。实验基于TensorFlow框 架[23],实验平台为:英特尔Corei7-6850六核,内存64GB,显卡为GTX1080Ti,系统为Ubuntu16.04。 所有实验均为单卡训练。
实施例:
FER2013数据集[共有35888张面部表情图像,包含了不同光照、姿态的人脸,其中训练集28709 张图像,公开测试集和私有测试集均3589张图像。图像大小为48X48的灰度图像,共有7个类别, 分别为:愤怒、厌恶、恐惧、高兴、惊讶、悲伤和中性,样例图片如图9所示。
CK+数据集[25]也是人脸表情识别常用的数据集,改数据集共包含123个人的593个图像序列,展 示了测试对象表情从自然状态到表情峰值的变化过程。其中标注表情标签的有327个序列,包含自 然、厌恶、蔑视、恐惧、高兴、悲伤、惊讶和愤怒8中表情。本文实验选取其中7种表情图像981 张图像进行实验,图像预处理为48X48大小,
由于两个数据集数量较小,本文采用数据增强的方式扩增数据集,主要方式包括随机旋转、随 机调整亮度、随机灰度化等。CK+数据集扩增到29000张左右,FER2013扩增到63000张左右。通过 数据增强操作,有效地提升模型准确率,同时防止出现过拟合现象。
1消融实验
通过实验验证自注意力机制和通道注意力机制的有效性。对于消融实验,使用FER2013和CK+ 数据集,并采用残差模块作为基本模块构建基准模型。在FER2013数据集实验中,采用官方提供的 数据集划分方式,即28709张图像用于训练,3589张图像用于验证模型,3589张图像用于测试最终 模型的准确率。对于CK+数据集,我们对扩增后的数据集按照7:2:1的比例划分训练集、验证集和 测试集。
在训练过程中,选择Adam作为优化器,学习率设置为0.0001,总的训练步骤为50个epoch, batch_size设置为64。实验结果如表1所示。
表1消融实验结果
Figure BDA0002757389940000101
从表1中得出如下结论:(1)在FER2013和CK+两个数据集上,基准模型的性能明显不如添加 注意力机制的模型,无论添加何种注意力以及何种添加方式,这表明注意力机制能够改善神经网络 的特征提取能力,有助于表情识别模型性能的提升;(2)对于添加注意力机制的模型,使用混合注 意力明显好于单一注意力方式,这表明增加模型的非线性映射对于表情识别任务是有效的;(3)对 于混合注意力模型,在FER2013数据集上,先进行通道注意力后进行自注意力效果最好,相比并行 方式和先进行自注意力后进行通道注意力准确率分别提升了3.98%和2.89%,在CK+数据集上,先进 行自注意力机制效果最好,相比并行方式和先通道后自注意力准确率分别提升了0.66%和1.48%。
2方案选择
从前一节消融实验分析可得,先进行通道注意力后进行自注意力的组合方式综合表现最好,在 FER2013和CK+两个数据集上均取得较高的准确率,因此本文选取该模型作为最终模型。为了验证本 文模型的有效性,下面将该模型与当前其他方法进行对比实验,实验结果如表2和表3所示。
Figure BDA0002757389940000102
Figure BDA0002757389940000111
从表2和表3中的实验数据可以得出如下结论:(1)与前面三种传统表情识别方法相比,使用 深度学习的方法能明显提升表情识别准确率。使用卷积神经网络提取到的特征比人工特征算子能更 好的进行表情描述;(2)与目前主流的基于深度学习方法相比,所提自注意力机制模型在两个数据 集上均获得了更高的准确率;(3)FER2013数据集的准确率明显低于CK+数据集的准确率,说明数 据集的质量对实验结果有一定的影响。FER2013数据集与CK+数据集的规模都比较小,FER2013数据 集还存在着错误的标签与非人脸表情标签,这些都会给模型的训练带来干扰,从而影响模型的性能。
图9和图10展示了本文模型在FER2013和CK+数据集上的训练损失和准确率曲线图,从图中可 以看出,本文模型在FER2013数据集上的训练过程没有在CK+数据集上的稳定,这与两者数据集有 一定的关系。通过检查两个数据集,可以发现FER2013数据集表情图片差异较大,图像分辨率低, 且图像质量不一,给训练过程带来一定的干扰,准确率最终稳定在75%左右。而CK+数据集图像质量 较好,且分布均匀,所以模型在该数据集上训练较为稳定,且最终准确率较高,训练集与验证集的 准确率均在98%左右。
图11是在FER2013数据集上实验得到的混淆矩阵,显示出人脸图像在7种表情上的分类准确率。 其中横坐标代表预测标签,纵坐标代表真实标签。从矩阵中可以看出,本文添加自注意力单元的的 模型在各个表情上准确率均有提升,其中在“悲伤”表情提升效果最大,有13%的提升,说明自注 意力单元的加入使表情分类更加准确。但是,7种表情的准确率之间有一定的差距,如最高的“高 兴”表情准确率达到92%,而“悲伤”、“恐惧”、“生气”分别为49%、53%和64%。一方是由于 这三类表情数据量较少,样本不均衡给网络训练带来一定的消极影响,另一方面,这三类表情具有 一定的相似性,特征差异不明显,不容易区分。
图12展示了在CK+测试上得到的混淆矩阵,可以看到,大多数的表情识别准确率都有所提升, 与FER2013结果相同,由于生气、悲伤、蔑视数据量相对较少,且表情之间特征差异不是很明显, 所以识别率稍低于恶心、恐惧、高兴和惊讶这些表情。

Claims (9)

1.一种基于注意力机制的人脸表情识别方法,其特征在于:首先构建人脸表情识别模型,其结构按照图像输入顺序为:卷积模块、最大池化模块、注意力残差模块、最大池化模块、注意力残差模块、最大池化模块和两个全连接层以及softmax函数,通过端到端的方式获得收敛后的人脸表情预测结果;注意力残差模块为在残差网络的基础上添加自注意力机制和通道注意力机制,用以提高对输入图像中有用信息的敏感度,抑制无用信息;其添加方式为串行和并行两种方式,其中串行方式又分为先进行自注意力后进行通道注意力、先进行通道注意力后进行自注意力,并行方式即为自注意力和通道注意力并行;利用自注意力计算输入的人脸表情特征图中所有位置像素的加权平均值来计算人脸表情特征图中关键位置的相对重要性,关键位置为识别表情重要的位置,具体为特征图中对与识别表情重要的位置,包括嘴巴和眼睛;然后利用通道注意力学习通道域上的不同特征从而产生通道注意力,以学习不同通道中相互作用特征,使特征图的通道能够对目标进行检测,从而使通道定位到特征图的关键位置,提升鲁棒性;最后,将自注意力机制和通道注意力机制相融合以鼓励人脸表情识别模型提取人脸表情特征图中关键位置作为全局重要特征的能力,通过端到端的学习方式,利用重复的最大池化模块、注意力残差模块减少误差,输出最优识别结果。
2.根据权利要求1所述的基于注意力机制的人脸表情识别方法,其特征在于人脸表情识别模型的构建过程中利用的残差网络y=F(x,{Wi})+x的基础上引入自注意力机制,其中x和y分别表示残差网络的输入和输出信息,F(x,{Wi})表示残差映射。
3.根据权利要求1所述的基于注意力机制的人脸表情识别方法,其特征在于:自注意力模块利用非局部操作在计算特征图每个位置的输出时关注图像中所有和当前表示相关的信号,将获得相关性权重表征其他位置和当前待计算位置的相关性,定义如下:
Figure FDA0002757389930000011
其中i表示输出特征图中的任意位置,j是特征图中所有可能位置的索引,x为输入特征图,y是输出特征图,输出的特征图与输入的特征图像素值发生改变,尺寸与输入特征图相同,f是计算任意两点间相关性的函数,g是一元函数,用于进行信息变换,C(x)为归一化函数;由于f和g都是通式,结合神经网络需要考虑具体形式,首先,g是一元输出,采用1×1卷积代替,形式如下:g(xj)=Wgxj,将f表示的任意两点代入嵌入空间中的两个位置,计算公式为:
Figure FDA0002757389930000012
其中,θ(xi)=Wθxi,φ(xj)=Wφxj,归一化参数
Figure FDA0002757389930000013
对于给定的位置i,
Figure FDA0002757389930000014
就变成了计算所有位置j的softmax,得到自注意力层的输出为:
Figure FDA0002757389930000021
设自注意力网络的输入特征图为FH×W×C,经过两个卷积权重Wθ和Wφ将其变换到两个嵌入空间,得到FH×W×C′和FH×W×C′,通常C′<C,这里的目的是降低通道数,减少计算量;其次,分别对这个输出特征图进行reshape操作,变成FHW×C′,接着对经Wθ变换得到的矩阵执行转置运算后进行矩阵相乘,计算相似性,得到相似性矩阵FHW×HW,然后在最后一个维度上进行softmax操作,相当于得到了当前特征图中每个像素与其他位置像素的归一化相关性;最后对g先降维再进行reshape操作,然后和矩阵FHW×HW进行相乘,将注意力机制应用到特征图的所有通道上,最后经过一个1×1的卷积恢复通道,保证输入和输出尺寸完全相同;
从数学角度上说明,假设自注意力网络的前一层的特征图为x∈RC×N,它首先被映射到两个特征空间f和g中,其中f=Wfx,g=Wgx
Figure FDA0002757389930000022
式中,βj,i表示在合成特征图的第j个区域时,第i个位置对其贡献的大小,这里的C表示前一层特征图的通道数,N表示前一层特征图像素的个数。这样自注意力层的输出o=(o1,o2,...,oj,...,oN),其中:
Figure FDA0002757389930000023
式中,Wθ∈RC′×C
Figure FDA0002757389930000024
Wg∈RC′×C,Wv∈RC×C′为卷积核的权重,C′为一个超参数,且C′<C;
然后引入残差连接,最终的自注意力模块输出为:yi=γoi+xi,其中,γ是一个可学习的超参数,初始化为0,在训练过程中逐渐增大权重。
4.根据权利要求1所述的基于注意力机制的人脸表情识别方法,其特征在于:利用通道注意力模块作用特征检测器,引入通道注意力来学习通道间的权重分布,强化对表情识别任务有用的通道,同时弱化对任务不相关的通道;对于经过变化的中间特征图的每个通道,分别经过基于高度和宽度的全局平均池化和全局最大池化操作,将特征图压缩到两个不同空间中得到两个特征图,然后将得到的两个特征图输入到两个网络用同一套参数,即具有共享参数的全连接神经网络中,将全连接层的输出向量按对应元素进行求和,融合两个空间的特征,最后经过sigmoid激活函数得到最终的通道权重;具体如下:
假设输入的特征图为FH×W×C,其中H、W、C分别是特征图的高度、宽度和通道数,经过池化后分别得到最大池化特征图Fmax∈R1×1×C和全局平均池化特征图Favg∈R1×1×C,然后将这两个特征图送入到只包含一个隐藏层的的全连接神经网络中,计算过程如下:
Mc=sigmoid(MLP(AvgPool(F))+MLP(MaxPool(F)))
进一步地:
Mc=sigmoid(W1(W0(Favg))+W1(W0(Fmax)))
其中,W0、W1为全连接层的共享权重,W0∈RC/r×C、W1∈RC×C/r
5.根据权利要求4所述的基于注意力机制的人脸表情识别方法,其特征在于:在残差模块的基础上添加自注意力机制和通道注意力使之构成注意力残差模块,用以增强症人脸表情识别模型网络的提取特征能力,捕获长范围特征间依赖关系,提高模型对有用信息的敏感度,抑制无用信息;添加方式分为串行和并行两种方式,其中串行又分为先进行自注意力后进行通道注意力和先进行通道注意力后进行自注意力。
6.根据权利要求5所述的基于注意力机制的人脸表情识别方法,其特征在于:串行方式中的先自注意力后通道注意力的添加方式具体为:
串行方式的先进行自注意力后进行通道注意力模式:将前一层经过卷积得到特征图Fin作为输入,首先经过通道注意力Mc的作用得到通道注意力图Fmid,然后和输入特征图进行融合作为自注意力Ma的输入,最后将经过Ma作用得到的特征图和Fmid融合得到最终注意力模块的输出,数学描述如下:
Figure FDA0002757389930000031
Figure FDA0002757389930000032
7.根据权利要求5所述的基于注意力机制的人脸表情识别方法,其特征在于:串行方式中的先通道注意力后自注意力的添加方式具体为:
串行方式的先通道注意力后自注意力模式:将前一层经过卷积得到特征图Fin作为输入,首先经过自注意力Ma和通道注意力Mc的作用得到各自的特征图,然后再和输入特征图Fin做融合,分别得到自注意力图
Figure FDA0002757389930000033
和通道注意力图
Figure FDA0002757389930000034
最后对得到的两个注意力图做对应元素的加和操作得到最终的注意力图输出Fout,数学描述如下:
Figure FDA0002757389930000035
Figure FDA0002757389930000036
其中,
Figure FDA0002757389930000041
表示对应元素相乘。
8.根据权利要求5所述的基于注意力机制的人脸表情识别方法,其特征在于并行添加方式的步骤为:将前一层经过卷积得到特征图Fin作为输入,首先经过自注意力Ma和通道注意力Mc的作用得到各自的特征图,然后将得到的特征图与输入特征图做对应元素的乘法操作,分别得到自注意力图
Figure FDA0002757389930000042
和通道注意力图
Figure FDA0002757389930000043
最后将得到的两个注意力图对应元素相加得到最终的输出Fout,数学描述如下:
Figure FDA0002757389930000044
Figure FDA0002757389930000045
Figure FDA0002757389930000046
式中,
Figure FDA0002757389930000047
表示对应元素相加,
Figure FDA0002757389930000048
表示对应元素相乘。
9.根据权利要求所述的基于注意力机制的人脸表情识别方法,其特征在于:在残差模块中设有通道自注意力形成注意力残差模块,具体分为三种结构:分别为单独使用自注意力机制、单独使用通道注意力机制和同时使用自注意力和通道注意力机制,注意力残差模块为在原有残差模块的基础上添加了注意力机制。
CN202011207089.0A 2020-11-03 2020-11-03 基于注意力机制的人脸表情识别方法 Withdrawn CN112257647A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011207089.0A CN112257647A (zh) 2020-11-03 2020-11-03 基于注意力机制的人脸表情识别方法
LU102496A LU102496B1 (en) 2020-11-03 2021-02-08 Facial expression recognition method based on attention mechanism

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011207089.0A CN112257647A (zh) 2020-11-03 2020-11-03 基于注意力机制的人脸表情识别方法

Publications (1)

Publication Number Publication Date
CN112257647A true CN112257647A (zh) 2021-01-22

Family

ID=74268108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011207089.0A Withdrawn CN112257647A (zh) 2020-11-03 2020-11-03 基于注意力机制的人脸表情识别方法

Country Status (2)

Country Link
CN (1) CN112257647A (zh)
LU (1) LU102496B1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784764A (zh) * 2021-01-27 2021-05-11 南京邮电大学 一种基于局部与全局注意力机制的表情识别方法及系统
CN113033310A (zh) * 2021-02-25 2021-06-25 北京工业大学 一种基于视觉自注意力网络的表情识别方法
CN113076890A (zh) * 2021-04-09 2021-07-06 南京邮电大学 基于改进的通道注意力机制的人脸表情识别方法及系统
CN113111779A (zh) * 2021-04-13 2021-07-13 东南大学 基于注意力机制的表情识别方法
CN113223181A (zh) * 2021-06-02 2021-08-06 广东工业大学 一种弱纹理物体位姿估计方法
CN113255530A (zh) * 2021-05-31 2021-08-13 合肥工业大学 基于注意力的多通道数据融合网络架构及数据处理方法
CN113486744A (zh) * 2021-06-24 2021-10-08 中国科学院西安光学精密机械研究所 基于眼动和人脸表情范式的学生学习状态评估系统及方法
CN113570035A (zh) * 2021-07-07 2021-10-29 浙江工业大学 一种利用多层卷积层信息的注意力机制方法
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN115294483A (zh) * 2022-09-28 2022-11-04 山东大学 输电线路复杂场景的小目标识别方法及系统
CN116152890A (zh) * 2022-12-28 2023-05-23 北京融威众邦电子技术有限公司 一种医疗费用自助支付系统
CN116311192A (zh) * 2023-05-15 2023-06-23 中国科学院长春光学精密机械与物理研究所 空间目标定位、区域超分辨重建及类型识别的系统及方法
CN116645716A (zh) * 2023-05-31 2023-08-25 南京林业大学 基于局部特征和全局特征的表情识别方法
CN116740795A (zh) * 2023-08-16 2023-09-12 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法
WO2024060909A1 (zh) * 2022-09-20 2024-03-28 支付宝(杭州)信息技术有限公司 识别表情的方法、装置、设备及介质
CN117912086A (zh) * 2024-03-19 2024-04-19 中国科学技术大学 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质
CN114821704B (zh) * 2022-03-16 2024-05-24 桂林理工大学 一种基于关键点注意力机制的口罩人脸识别方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784764B (zh) * 2021-01-27 2022-07-12 南京邮电大学 一种基于局部与全局注意力机制的表情识别方法及系统
CN112784764A (zh) * 2021-01-27 2021-05-11 南京邮电大学 一种基于局部与全局注意力机制的表情识别方法及系统
CN113033310A (zh) * 2021-02-25 2021-06-25 北京工业大学 一种基于视觉自注意力网络的表情识别方法
CN113076890A (zh) * 2021-04-09 2021-07-06 南京邮电大学 基于改进的通道注意力机制的人脸表情识别方法及系统
CN113076890B (zh) * 2021-04-09 2022-07-29 南京邮电大学 基于改进的通道注意力机制的人脸表情识别方法及系统
CN113111779A (zh) * 2021-04-13 2021-07-13 东南大学 基于注意力机制的表情识别方法
CN113255530A (zh) * 2021-05-31 2021-08-13 合肥工业大学 基于注意力的多通道数据融合网络架构及数据处理方法
CN113255530B (zh) * 2021-05-31 2024-03-29 合肥工业大学 基于注意力的多通道数据融合网络架构及数据处理方法
CN113223181A (zh) * 2021-06-02 2021-08-06 广东工业大学 一种弱纹理物体位姿估计方法
CN113486744B (zh) * 2021-06-24 2023-02-14 中国科学院西安光学精密机械研究所 基于眼动和人脸表情范式的学生学习状态评估系统及方法
CN113486744A (zh) * 2021-06-24 2021-10-08 中国科学院西安光学精密机械研究所 基于眼动和人脸表情范式的学生学习状态评估系统及方法
CN113570035A (zh) * 2021-07-07 2021-10-29 浙江工业大学 一种利用多层卷积层信息的注意力机制方法
CN113570035B (zh) * 2021-07-07 2024-04-16 浙江工业大学 一种利用多层卷积层信息的注意力机制方法
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN113688204B (zh) * 2021-08-16 2023-04-25 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN114821704B (zh) * 2022-03-16 2024-05-24 桂林理工大学 一种基于关键点注意力机制的口罩人脸识别方法
WO2024060909A1 (zh) * 2022-09-20 2024-03-28 支付宝(杭州)信息技术有限公司 识别表情的方法、装置、设备及介质
CN115294483A (zh) * 2022-09-28 2022-11-04 山东大学 输电线路复杂场景的小目标识别方法及系统
CN116152890A (zh) * 2022-12-28 2023-05-23 北京融威众邦电子技术有限公司 一种医疗费用自助支付系统
CN116152890B (zh) * 2022-12-28 2024-01-26 北京融威众邦电子技术有限公司 一种医疗费用自助支付系统
CN116311192B (zh) * 2023-05-15 2023-08-22 中国科学院长春光学精密机械与物理研究所 空间目标定位、区域超分辨重建及类型识别的系统及方法
CN116311192A (zh) * 2023-05-15 2023-06-23 中国科学院长春光学精密机械与物理研究所 空间目标定位、区域超分辨重建及类型识别的系统及方法
CN116645716B (zh) * 2023-05-31 2024-01-19 南京林业大学 基于局部特征和全局特征的表情识别方法
CN116645716A (zh) * 2023-05-31 2023-08-25 南京林业大学 基于局部特征和全局特征的表情识别方法
CN116740795B (zh) * 2023-08-16 2023-11-24 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法
CN116740795A (zh) * 2023-08-16 2023-09-12 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法
CN117912086A (zh) * 2024-03-19 2024-04-19 中国科学技术大学 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质
CN117912086B (zh) * 2024-03-19 2024-05-31 中国科学技术大学 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质

Also Published As

Publication number Publication date
LU102496B1 (en) 2021-08-09

Similar Documents

Publication Publication Date Title
CN112257647A (zh) 基于注意力机制的人脸表情识别方法
Li et al. SCL-MLNet: Boosting few-shot remote sensing scene classification via self-supervised contrastive learning
Liu et al. Offline signature verification using a region based deep metric learning network
Zhu et al. Attention-aware perceptual enhancement nets for low-resolution image classification
Gao et al. The labeled multiple canonical correlation analysis for information fusion
CN108154133B (zh) 基于非对称联合学习的人脸画像-照片识别方法
Zhao et al. Disentangled representation learning and residual GAN for age-invariant face verification
CN112149720A (zh) 一种细粒度车辆类型识别方法
Zou et al. From grayscale to color: Quaternion linear regression for color face recognition
CN112070768A (zh) 基于Anchor-Free的实时实例分割方法
Mshir et al. Signature recognition using machine learning
Pratama et al. Face recognition for presence system by using residual networks-50 architecture
Zhi et al. Micro-expression recognition with supervised contrastive learning
Ren et al. 2C2S: A two-channel and two-stream transformer based framework for offline signature verification
Jiang et al. Forgery-free signature verification with stroke-aware cycle-consistent generative adversarial network
CN114973226A (zh) 自监督对比学习自然场景中文本识别系统训练方法
Wang et al. Advanced Multimodal Deep Learning Architecture for Image-Text Matching
Huang et al. Expression-targeted feature learning for effective facial expression recognition
Zheng et al. Visual chirality meets freehand sketches
CN115640401A (zh) 文本内容提取方法及装置
CN102289679A (zh) 一种基于相关特征和非线性映射的固定视角人脸超分辨率识别方法
Del Coco et al. Assessment of deep learning for gender classification on traditional datasets
CN115588220A (zh) 两阶段多尺度自适应的低分辨率人脸识别方法及应用
Ebrahimpour et al. Low resolution face recognition using combination of diverse classifiers
Sasipriyaa et al. Recognition of Tamil handwritten characters using Scrabble GAN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210122

WW01 Invention patent application withdrawn after publication