CN112784764B - 一种基于局部与全局注意力机制的表情识别方法及系统 - Google Patents

一种基于局部与全局注意力机制的表情识别方法及系统 Download PDF

Info

Publication number
CN112784764B
CN112784764B CN202110107862.4A CN202110107862A CN112784764B CN 112784764 B CN112784764 B CN 112784764B CN 202110107862 A CN202110107862 A CN 202110107862A CN 112784764 B CN112784764 B CN 112784764B
Authority
CN
China
Prior art keywords
tensor
local
global
map
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110107862.4A
Other languages
English (en)
Other versions
CN112784764A (zh
Inventor
卢官明
徐志鹏
卢峻禾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110107862.4A priority Critical patent/CN112784764B/zh
Publication of CN112784764A publication Critical patent/CN112784764A/zh
Application granted granted Critical
Publication of CN112784764B publication Critical patent/CN112784764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于局部与全局注意力机制的表情识别方法及系统。该方法首先构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;然后使用人脸表情图像库中的样本图像对神经网络模型进行训练;最后将待测试的人脸图像输入到训练好的神经网络模型进行表情识别。本发明使用多尺度特征提取模块来提取人脸图像中不同尺度的纹理特征,以免丢失有鉴别力的表情特征;使用空间域和通道域局部与全局注意力模块强化对表情识别起关键作用的更具鉴别力的特征,可以有效提高表情识别的准确率和鲁棒性。

Description

一种基于局部与全局注意力机制的表情识别方法及系统
技术领域
本发明属于图像处理与表情识别领域,具体涉及一种基于局部与全局注意力机制的表情识别方法及系统。
背景技术
人脸表情是人类表达内心情感的最重要的方式,在人际交往中发挥着非常重要的作用,人类通常是通过识别表情来理解对方的感受。虽然人类几乎可以不费任何力气就能识别面部表情,但计算机对表情的可靠识别仍然是一个巨大挑战。人脸表情识别技术目前主要的应用场景包括人机交互、安全、机器人制造、医疗、通信领域等。研究人脸表情识别可以使计算机像人类那样具有理解和表达情感的能力,可以推动人机交互技术的发展,让计算机可以更友好更人性化地为人类提供各种服务,对推动人工智能的发展也有重大的意义,是人工智能走向强人工智能的必经之路。
人类视觉注意力机制是指人类通过视觉快速扫描图像,寻找图像中需要重点关注的区域,即注意力焦点,并对这一重点关注区域投入更多的注意力资源,以获取更多所需要的细节信息,抑制其他无用信息的干扰。深度学习领域借鉴人类视觉注意力机制提出注意力机制,试图从图像中选择出对当前任务起更关键作用的信息,将有限的资源用于处理更重要的信息。
现有的人脸表情识别方法主要分为传统方法和深度学习方法。传统方法采用人工设计的特征来表征人脸表情图像,而人工设计的特征鲁棒性较低,通常可以在特定的人脸表情数据集上取得较高的表情分类准确率,但是在应用于真实场景时,由于受到姿态、光照、背景、遮挡等因素的干扰,这些传统方法往往不能有效地从人脸图像中提取具有鉴别力的表情特征,导致人脸表情识别准确率不高。已有的基于卷积神经网络的人脸表情识别方法大多是采用单一尺度的卷积核提取人脸表情特征,通过不断地增加卷积层加深网络结构来提高识别准确率,但是当神经网络模型达到一定的层数时,再通过增加卷积层不能达到提升识别准确率的目的;已有的基于注意力机制的人脸表情识别方法大多在计算权重时只使用最大池化提取特征图张量中的局部特征信息而没有充分地考虑特征图张量中的全局特征,使得计算得到的权重存在一定偏差。
发明内容
发明目的:针对现有人脸表情识别方法存在准确率低、鲁棒性差的问题,本发明的目的是提供一种基于局部与全局注意力机制的表情识别方法,通过使用多尺度特征提取模块来提取人脸图像中不同尺度的纹理特征,以免丢失有鉴别力的表情特征;使用空间域和通道域局部与全局注意力模块强化对表情识别起关键作用的更具鉴别力的特征,可以有效提高表情识别的准确率和鲁棒性。
技术方案:本发明为实现上述发明目的采用以下技术方案:
一种基于局部与全局注意力机制的表情识别方法,该方法包括以下步骤:
(1)构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;
所述的浅层特征提取模块包含两个卷积层,用于提取人脸图像的浅层特征,输出特征图张量
Figure BDA0002918174590000021
其中w1、h1和f1分别代表特征图张量T1的宽度、高度和通道数;
所述的空间域局部与全局注意力模块包含两个独立并行的支路,分别在通道方向上使用最大池化和平均池化提取特征图张量T1的局部特征和全局特征,并使用基于局部特征和全局特征的空间域注意力权重矩阵对特征图张量T1进行加权运算,输出特征图张量
Figure BDA0002918174590000022
所述的残差网络模块由残差块和池化层构成,输出特征图张量
Figure BDA0002918174590000023
其中w2、h2和f2分别代表特征图张量T3的宽度、高度和通道数;
所述的多尺度特征提取模块包含n个独立并行的支路,分别采用不同大小的卷积核对特征图张量T3进行卷积运算,输出n个特征图张量
Figure BDA0002918174590000024
并将所述的n个特征图张量拼接成特征图张量
Figure BDA0002918174590000025
其中1≤i≤n,2≤n≤5,w3、h3和f3分别代表特征图张量Ki的宽度、高度和通道数;
所述的通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块,其中第一支路和第二支路分别包含两个并行的分支,分别用于在宽度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征,以及在高度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征;权重向量组合模块用于基于提取的局部特征和全局特征计算特征图张量T4的通道域注意力权重,使用通道域注意力权重对特征图张量T4进行加权运算,输出特征图张量
Figure BDA0002918174590000031
所述的全连接层对特征图张量T5进行特征融合,输出特征向量Q;
所述的分类层对特征向量Q进行分类,输出人脸表情类别;
(2)使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练,保存训练好的神经网络模型;
(3)将待测试的人脸图像输入到训练好的神经网络模型进行表情识别,输出表情类别。
作为优选,所述的空间域局部与全局注意力模块包含两个独立并行的支路,其中一个支路先对特征图张量T1在通道方向上进行最大池化操作,得到大小为w1×h1的特征图P1,再将特征图P1进行零填充操作和卷积运算,得到大小为w1×h1的局部特征图P1';另一个支路先对特征图张量T1在通道方向上进行平均池化操作,得到大小为w1×h1的特征图P2,再将特征图P2进行零填充操作和卷积运算,得到大小为w1×h1的全局特征图P2';然后将上述两个并行支路输出的局部特征图P1'和全局特征图P2'进行叠加,得到大小为w1×h1的特征图P3;接着将特征图P3通过Sigmoid激活函数得到特征图张量T1的空间域注意力权重矩阵WS,WS的大小为w1×h1;最后将特征图张量T1与空间域注意力权重矩阵WS进行点乘运算,输出特征图张量
Figure BDA0002918174590000032
作为优选,所述的多尺度特征提取模块每个支路由两个进行一维卷积运算的卷积层构成。
作为优选,所述的通道域局部与全局注意力模块具体结构如下:
第一支路包含两个并行的分支,其中一个分支对特征图张量T4在宽度方向上进行最大池化操作,输出局部特征图张量
Figure BDA0002918174590000041
另一个分支对特征图张量T4在宽度方向上进行平均池化操作,输出全局特征图张量
Figure BDA0002918174590000042
然后将上述两个并行分支输出的局部特征图张量MW和全局特征图张量AW输入到全连接层进行融合,输出特征图张量T4在宽度方向上的权重向量LW,权重向量LW的维数为nf3
第二支路包含两个并行分支,其中一个分支对特征图张量T4在高度方向进行最大池化操作,输出局部特征图张量
Figure BDA0002918174590000043
另一个分支对特征图张量T4在高度方向上进行平均池化操作,输出全局特征图张量
Figure BDA0002918174590000044
然后将上述两个并行分支输出的局部特征图张量MH和全局特征图张量AH输入到全连接层进行融合,输出特征图张量T4在高度方向上的权重向量LH,权重向量LH的维数为nf3
权重向量组合模块将权重向量LW和LH进行组合,得到维数为nf3的权重向量L,接着将权重向量L通过Sigmoid激活函数得到通道域注意力权重向量WC,再将特征图张量T4与通道域注意力权重向量WC进行点乘运算,输出特征图张量
Figure BDA0002918174590000045
基于相同的发明构思,本发明公开的一种基于局部与全局注意力机制的表情识别系统,包括:
网络模型构建模块,用于构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;
所述的浅层特征提取模块包含两个卷积层,用于提取人脸图像的浅层特征,输出特征图张量
Figure BDA0002918174590000046
其中w1、h1和f1分别代表特征图张量T1的宽度、高度和通道数;
所述的空间域局部与全局注意力模块包含两个独立并行的支路,分别在通道方向上使用最大池化和平均池化提取特征图张量T1的局部特征和全局特征,并使用基于局部特征和全局特征的空间域注意力权重矩阵对特征图张量T1进行加权运算,输出特征图张量
Figure BDA0002918174590000051
所述的残差网络模块由残差块和池化层构成,输出特征图张量
Figure BDA0002918174590000052
其中w2、h2和f2分别代表特征图张量T3的宽度、高度和通道数;
所述的多尺度特征提取模块包含n个独立并行的支路,分别采用不同大小的卷积核对特征图张量T3进行卷积运算,输出n个特征图张量
Figure BDA0002918174590000053
并将所述的n个特征图张量拼接成特征图张量
Figure BDA0002918174590000054
其中1≤i≤n,2≤n≤5,w3、h3和f3分别代表特征图张量Ki的宽度、高度和通道数;
所述的通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块,其中第一支路和第二支路分别包含两个并行的分支,分别用于在宽度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征,以及在高度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征;权重向量组合模块用于基于提取的局部特征和全局特征计算特征图张量T4的通道域注意力权重,使用通道域注意力权重对特征图张量T4进行加权运算,输出特征图张量
Figure BDA0002918174590000055
所述的全连接层对特征图张量T5进行特征融合,输出特征向量Q;
所述的分类层对特征向量Q进行分类,输出人脸表情类别;
模型训练模块,用于使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练,保存训练好的神经网络模型;
以及表情识别模块,用于将待测试的人脸图像输入到训练好的神经网络模型进行表情识别,输出表情类别。
基于相同的发明构思,本发明公开的一种基于局部与全局注意力机制的表情识别系统,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的一种基于局部与全局注意力机制的表情识别方法。
有益效果:本发明提出一种基于局部与全局注意力机制的表情识别方法及系统,主要具有以下优势:
(1)本发明将人类视觉系统中的选择性注意机制引入到基于卷积神经网络的人脸表情识别系统中,利用深度卷积神经网络自适应地选择特征图中对人脸表情识别较为重要的显著性区域,为这些显著性区域赋予相对较高的权重。不同于常规的空间域注意力机制模块只采用最大池化或平均池化操作,本发明使用的空间域局部与全局注意力模块在特征图张量的通道方向上同时采用了最大池化和平均池化操作,最大池化操作能够自适应地为显著性的边缘轮廓等局部特征赋予相对较高的权重,平均池化操作能够自适应地为显著性区域全局特征赋予相对较高的权重,将最大池化和平均池化进行结合可以自适应地从完整的人脸表情图像和人脸部件(例如:眼睛、嘴巴等)区域中学习有鉴别力的全局特征和局部特征。
(2)本发明使用的多尺度特征提取模块采用了多个不同大小的卷积核来提取不同尺度感受野内的视觉特征,融合了通过多尺度卷积操作学习到的更多有用的表情特征,从而挖掘这些表情特征内在的相关性,通过深度学习层次化连接的特性学习高度抽象化的语义特征,利用可鉴别性和鲁棒性较高的语义特征提升人脸表情识别的准确率和鲁棒性。
(3)本发明使用的多尺度特征提取模块在每个支路上均使用两个级联的一维卷积操作来替代二维卷积操作,可以有效减少深度卷积神经网络模型的参数规模,提升算法效率。
(4)与空间域局部与全局注意力模块类似,本发明使用的通道域局部与全局注意力模块在特征图张量的高度、宽度方向上也分别同时采用了最大池化和平均池化操作,利用特征图张量中通道域与空间域特征的关联性来计算通道域注意力权重,强化特征图张量中重要通道的全局特征和局部特征在表情识别任务中所起的作用。
(5)本发明先使用空间域局部与全局注意力模块学习特征图中不同位置特征的注意力权重,从浅层的特征图张量中选择重要的显著性区域全局特征和边缘轮廓等局部特征,弱化或抑制那些非显著性区域特征对后续操作的干扰;再使用多尺度特征提取模块从重要的空间域特征中提取多个通道的不同尺度特征,挖掘更多有用的表情特征,以免丢失有鉴别力的表情特征;然后使用通道域局部与全局注意力模块学习每个特征图对表情识别任务的相关性权重,从多尺度特征提取模块输出的特征图张量中选择重要通道的全局特征和局部特征,弱化或抑制那些无关通道冗余信息对表情识别产生的不利影响;最后利用有效的特征融合方法将两种加权之后的特征进行融合,得到更具鉴别力的特征,可以有效提高表情识别的准确率和鲁棒性。
附图说明
图1是本发明实施例的方法流程图。
图2是本发明实施例中的空间域局部与全局注意力模块的结构图。
图3是本发明实施例中的多尺度特征提取模块的结构图。
图4是本发明实施例中的通道域局部与全局注意力模块的结构图。
具体实施方式
下面结合附图和具体实施例对本发明的方案做进一步说明。
本发明针对基于神经网络和注意力机制的人脸表情识别领域现存的技术难题,设计一种局部与全局注意力模块,同时使用最大池化和平均池化提取特征图张量的局部特征和全局特征,通过利用局部特征和全局特征计算出更合理的权重,并对特征图张量进行加权,从而强化神经网络模型重点学习特征图张量中具有鉴别力的特征;使用多支路结构加深神经网络模型的宽度,各支路使用不同大小的卷积核提取人脸图像所包含的多种不同尺度的纹理特征以免丢失有鉴别力的表情特征。
本发明实施例公开的一种基于局部与全局注意力机制的表情识别方法,主要包括如下步骤:
步骤1,构建基于局部与全局注意力机制的神经网络模型,如图1所示,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;
浅层特征提取模块包含两个卷积层,用于提取人脸图像的浅层特征,其中第一个卷积层采用32个大小为7×7的卷积核进行卷积运算,第二个卷积层采用f1个大小为m1×m1的卷积核进行卷积运算,输出特征图张量
Figure BDA0002918174590000081
其中w1、h1和f1分别代表特征图张量的宽度、高度和通道数,f1在32、64、128、256数值中选取,m1在3、5、7、9数值中选取;
如图2所示,空间域局部与全局注意力模块包含两个独立并行的支路,其中一个支路先对特征图张量T1在通道方向上进行最大池化操作,得到大小为w1×h1的特征图P1,再将特征图P1进行零填充操作,并采用一个大小为m2×m2的卷积核对特征图P1进行步长为1的卷积运算,得到大小为w1×h1的特征图P1',将特征图P1'以矩阵形式表示:
Figure BDA0002918174590000082
其中,m2在3、5、7、9数值中选取,ai,j表示特征图P1'中第i行、第j列的元素,i=1,2,3,...,w1,j=1,2,3,...,h1
另一个支路先对特征图张量T1在通道方向上进行平均池化操作,得到大小为w1×h1的特征图P2,再将特征图P2进行零填充操作,并采用一个大小为m2×m2的卷积核对特征图P2进行步长为1的卷积运算,得到大小为w1×h1的特征图P2',将特征图P2'以矩阵形式表示:
Figure BDA0002918174590000083
其中,m2在3、5、7、9数值中选取,bi,j表示特征图P2'中第i行、第j列的元素,i=1,2,3,...,w1,j=1,2,3,...,h1
然后将上述两个并行支路输出的特征图P1'和特征图P2'进行叠加,得到大小为w1×h1的特征图P3,将特征图P3以矩阵形式表示:
Figure BDA0002918174590000091
其中,ci,j表示特征图P3中第i行、第j列的元素,ci,j=(ai,j+bi,j),i=1,2,3,...,w1,j=1,2,3,...,h1
接着将特征图P3通过Sigmoid激活函数得到特征图张量T1的空间域注意力权重矩阵WS,WS的大小为w1×h1;最后将特征图张量T1与空间域注意力权重矩阵WS进行点乘运算,输出特征图张量
Figure BDA0002918174590000092
残差网络模块由r个残差块和(r-1)个池化层构成,其中第1个残差块对特征图张量T2进行特征提取输出特征图张量R1,第1个池化层对特征图张量R1进行池化操作输出特征图张量R′1,…,第(r-1)个残差块对第(r-2)个池化层输出的特征图张量R′r-2进行特征提取输出特征图张量Rr-1,第(r-1)个池化层对特征图张量Rr-1进行池化操作输出特征图张量R′r-1,第r个残差块采用f2个大小为m3×m3的卷积核对特征图张量R′r-1进行卷积运算,输出特征图张量
Figure BDA0002918174590000093
其中r在3、4、5、6、7、8数值中选取,f2在64、128、256、512数值中选取,m3在3、5、7、9数值中选取;
如图3所示,多尺度特征提取模块包含n个独立并行的支路,第i个支路由两个卷积层构成,第一个卷积层采用f3个大小为1×ki的卷积核进行一维卷积运算,第二个卷积层采用f3个大小为ki×1的卷积核进行一维卷积运算,n个支路分别采用不同大小的卷积核对特征图张量T3进行卷积运算,输出n个特征图张量
Figure BDA0002918174590000101
并将n个特征图张量拼接成特征图张量
Figure BDA0002918174590000102
其中1≤i≤n,2≤n≤5,ki在1、3、5、7、9数值中选取,f3在128、256、512、1024数值中选取;
如图4所示,通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块,具体结构如下:
第一支路包含两个并行的分支,其中一个分支对特征图张量T4在宽度方向上进行最大池化操作,输出局部特征图张量
Figure BDA0002918174590000103
另一个分支对特征图张量T4在宽度方向上进行平均池化操作,输出全局特征图张量
Figure BDA0002918174590000104
然后将上述两个并行分支输出的局部特征图张量MW和全局特征图张量AW输入到全连接层进行融合,输出特征图张量T4在宽度方向上的权重向量LW
Figure BDA00029181745900001010
权重向量LW的维数为nf3
第二支路包含两个并行分支,其中一个分支对特征图张量T4在高度方向进行最大池化操作,输出局部特征图张量
Figure BDA0002918174590000105
另一个分支对特征图张量T4在高度方向上进行平均池化操作,输出全局特征图张量
Figure BDA0002918174590000106
然后将上述两个并行分支输出的局部特征图张量MH和全局特征图张量AH输入到全连接层进行融合,输出特征图张量T4在高度方向上的权重向量LH
Figure BDA0002918174590000107
权重向量LH的维数为nf3
权重向量组合模块将权重向量LW和LH进行组合,得到维数为nf3的权重向量L,
Figure BDA0002918174590000108
接着将权重向量L通过Sigmoid激活函数得到通道域注意力权重向量WC,再将特征图张量T4与通道域注意力权重向量WC进行点乘运算,输出特征图张量
Figure BDA0002918174590000109
全连接层对特征图张量T5进行特征融合,输出f4维的特征向量Q,其中f4在256、512、1024、2048数值中选取;
分类层使用Softmax分类器对特征向量Q分类,输出人脸表情类别;
步骤2,使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练,保存训练好的神经网络模型;
步骤3,将待测试的人脸图像输入到训练好的神经网络模型进行表情识别,输出表情类别。
下面结合本发明实施例在RAF-DB表情图像库上的应用,对基于局部与全局注意力机制的神经网络模型的构建做详细说明。本示例中采用RAF-DB表情图像库,将数据集中的人脸图像大小归一为64×64像素。
构建的基于局部与全局注意力机制的神经网络模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和Softmax分类层依次连接构成,将该模型输入图像的大小固定为64×64;
浅层特征提取模块包含两个卷积层,用于提取人脸图像的浅层特征,其中第一个卷积层采用32个大小为7×7的卷积核进行步长为1的卷积运算,第二个卷积层采用64个大小为3×3的卷积核进行步长为2的卷积运算,输出特征图张量
Figure BDA0002918174590000111
其中32、32和64分别代表特征图张量的宽度、高度和通道数;
空间域局部与全局注意力模块包含两个独立并行的支路,其中一个支路先对特征图张量T1在通道方向上进行最大池化操作,得到大小为32×32的特征图P1,再将特征图P1进行零填充操作,并采用一个大小为3×3的卷积核对特征图P1进行步长为1的卷积运算,得到大小为32×32的特征图P1',将特征图P1'以矩阵形式表示:
Figure BDA0002918174590000112
其中,ai,j表示特征图P1'中第i行、第j列的元素,i=1,2,3,...,32,j=1,2,3,...,32;
另一个支路先对特征图张量T1在通道方向上进行平均池化操作,得到大小为32×32的特征图P2,再将特征图P2进行零填充操作,并采用一个大小为3×3的卷积核对特征图P2进行步长为1的卷积运算,得到大小为32×32的特征图P2',将特征图P2'以矩阵形式表示:
Figure BDA0002918174590000121
其中,bi,j表示特征图P2'中第i行、第j列的元素,i=1,2,3,...,32,j=1,2,3,...,32;
然后将上述两个并行支路输出的特征图P1'和特征图P2'进行叠加,得到大小为32×32的特征图P3,将特征图P3以矩阵形式表示:
Figure BDA0002918174590000122
其中,ci,j表示特征图P3中第i行、第j列的元素,ci,j=(ai,j+bi,j),i=1,2,3,...,32,j=1,2,3,...,32;
接着将特征图P3通过Sigmoid激活函数得到特征图张量T1的空间域注意力权重矩阵WS,WS的大小为32×32;最后将特征图张量T1与空间域注意力权重矩阵WS进行点乘运算,输出特征图张量
Figure BDA0002918174590000123
残差网络模块由3个残差块和2个池化层构成,具体结构如下:
第1个残差块包含两个卷积层,对特征图张量T2进行卷积计算,其中第一个卷积层采用64个大小为3×3的卷积核进行步长为1的卷积运算,第二个卷积层采用64个大小为3×3的卷积核进行步长为1的卷积运算,再经过恒等映射输出特征图张量
Figure BDA0002918174590000124
第1个池化层使用128个大小为3×3的池化核对特征图张量R1进行步长为2的最大池化操作,输出特征图张量
Figure BDA0002918174590000125
第2个残差块包含两个卷积层,对特征图张量R′1进行卷积计算,其中第一个卷积层采用128个大小为3×3的卷积核进行步长为1的卷积运算,第二个卷积层采用128个大小为3×3的卷积核进行步长为1的卷积运算,再经过恒等映射输出特征图张量
Figure BDA0002918174590000131
第2个池化层使用256个大小为3×3的池化核对特征图张量R2进行步长为2的最大池化操作,输出特征图张量
Figure BDA0002918174590000132
第3个残差块包含两个卷积层,对特征图张量R′2进行卷积计算,其中第一个卷积层采用256个大小为3×3的卷积核进行步长为1的卷积运算,第二个卷积层采用256个大小为3×3的卷积核进行步长为1的卷积运算,再经过恒等映射输出特征图张量
Figure BDA0002918174590000133
多尺度特征提取模块包含3个独立并行的支路,各支路分别对特征图张量T3进行卷积运算,具体结构如下:
第1个支路包含两个卷积层对特征图张量T3进行卷积运算,其中第一个卷积层采用512个大小为1×3的卷积核进行步长为2的一维卷积运算,第二个卷积层采用512个大小为3×1的卷积核进行步长为2的一维卷积运算,输出特征图张量
Figure BDA0002918174590000134
第2个支路包含两个卷积层对特征图张量T3进行卷积运算,其中第一个卷积层采用512个大小为1×5的卷积核进行步长为2的一维卷积运算,第二个卷积层采用512个大小为5×1的卷积核进行步长为2的一维卷积运算,输出特征图张量
Figure BDA0002918174590000135
第3个支路包含两个卷积层对特征图张量T3进行卷积运算,其中第一个卷积层采用512个大小为1×7的卷积核进行步长为2的一维卷积运算,第二个卷积层采用512个大小为7×1的卷积核进行步长为2的一维卷积运算,输出特征图张量
Figure BDA0002918174590000136
将上述3个独立并行的支路输出的特征图张量K1、K2、K3拼接成特征图张量
Figure BDA0002918174590000141
通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块,具体结构如下:
第一支路包含两个并行的分支,其中一个分支对特征图张量T4在宽度方向上进行最大池化操作,输出局部特征图张量
Figure BDA0002918174590000142
另一个分支对特征图张量T4在宽度方向上进行平均池化操作,输出全局特征图张量
Figure BDA0002918174590000143
然后将上述两个并行分支输出的局部特征图张量MW和全局特征图张量AW输入到全连接层进行融合,输出特征图张量T4在宽度方向上的权重向量LW,LW=[ρ12,...,ρ1536];
第二支路包含两个并行分支,其中一个分支对特征图张量T4在高度方向进行最大池化操作,输出局部特征图张量
Figure BDA0002918174590000144
另一个分支对特征图张量T4在高度方向上进行平均池化操作,输出全局特征图张量
Figure BDA0002918174590000145
然后将上述两个并行分支输出的局部特征图张量MH和全局特征图张量AH输入到全连接层进行融合,输出特征图张量T4在高度方向上的权重向量LH,LH=[σ12,...,σ1536];
权重向量组合模块将权重向量LW和LH进行组合,得到权重向量L,L=[ω12,...,ω1536]=[ρ1122,...,ρ15361536],接着将权重向量L通过Sigmoid激活函数得到通道域注意力权重向量WC,再将特征图张量T4与通道域注意力权重向量WC进行点乘运算,输出特征图张量
Figure BDA0002918174590000146
全连接层对特征图张量T5进行特征融合,输出1024维的特征向量Q;
分类层使用Softmax分类器对特征向量Q分类,输出人脸表情类别。
基于相同的发明构思,本发明实施例公开的一种基于局部与全局注意力机制的表情识别系统,包括:
网络模型构建模块,用于构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;具体结构详见上述方法实施例;
模型训练模块,用于使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练,保存训练好的神经网络模型;
以及表情识别模块,用于将待测试的人脸图像输入到训练好的神经网络模型进行表情识别,输出表情类别。
基于相同的发明构思,本发明实施例公开的一种基于局部与全局注意力机制的表情识别系统,包括至少一台计算设备,该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的一种基于局部与全局注意力机制的表情识别方法。

Claims (6)

1.一种基于局部与全局注意力机制的表情识别方法,其特征在于,该方法包括以下步骤:
(1)构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;
所述的浅层特征提取模块包含两个卷积层,用于提取人脸图像的浅层特征,输出特征图张量
Figure FDA0002918174580000011
其中w1、h1和f1分别代表特征图张量T1的宽度、高度和通道数;
所述的空间域局部与全局注意力模块包含两个独立并行的支路,分别在通道方向上使用最大池化和平均池化提取特征图张量T1的局部特征和全局特征,并使用基于局部特征和全局特征的空间域注意力权重矩阵对特征图张量T1进行加权运算,输出特征图张量
Figure FDA0002918174580000012
所述的残差网络模块由残差块和池化层构成,输出特征图张量
Figure FDA0002918174580000013
其中w2、h2和f2分别代表特征图张量T3的宽度、高度和通道数;
所述的多尺度特征提取模块包含n个独立并行的支路,分别采用不同大小的卷积核对特征图张量T3进行卷积运算,输出n个特征图张量
Figure FDA0002918174580000014
并将所述的n个特征图张量拼接成特征图张量
Figure FDA0002918174580000015
其中1≤i≤n,2≤n≤5,w3、h3和f3分别代表特征图张量Ki的宽度、高度和通道数;
所述的通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块,其中第一支路和第二支路分别包含两个并行的分支,分别用于在宽度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征,以及在高度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征;权重向量组合模块用于基于提取的局部特征和全局特征计算特征图张量T4的通道域注意力权重,使用通道域注意力权重对特征图张量T4进行加权运算,输出特征图张量
Figure FDA0002918174580000016
所述的全连接层对特征图张量T5进行特征融合,输出特征向量Q;
所述的分类层对特征向量Q进行分类,输出人脸表情类别;
(2)使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练,保存训练好的神经网络模型;
(3)将待测试的人脸图像输入到训练好的神经网络模型进行表情识别,输出表情类别。
2.根据权利要求1所述的一种基于局部与全局注意力机制的表情识别方法,其特征在于,所述的空间域局部与全局注意力模块包含两个独立并行的支路,其中一个支路先对特征图张量T1在通道方向上进行最大池化操作,得到大小为w1×h1的特征图P1,再将特征图P1进行零填充操作和卷积运算,得到大小为w1×h1的局部特征图P1';另一个支路先对特征图张量T1在通道方向上进行平均池化操作,得到大小为w1×h1的特征图P2,再将特征图P2进行零填充操作和卷积运算,得到大小为w1×h1的全局特征图P2';然后将上述两个并行支路输出的局部特征图P1'和全局特征图P2'进行叠加,得到大小为w1×h1的特征图P3;接着将特征图P3通过Sigmoid激活函数得到特征图张量T1的空间域注意力权重矩阵WS,WS的大小为w1×h1;最后将特征图张量T1与空间域注意力权重矩阵WS进行点乘运算,输出特征图张量
Figure FDA0002918174580000021
3.根据权利要求1所述的一种基于局部与全局注意力机制的表情识别方法,其特征在于,所述的多尺度特征提取模块每个支路由两个进行一维卷积运算的卷积层构成。
4.根据权利要求1所述的一种基于局部与全局注意力机制的表情识别方法,其特征在于,所述的通道域局部与全局注意力模块具体结构如下:
第一支路包含两个并行的分支,其中一个分支对特征图张量T4在宽度方向上进行最大池化操作,输出局部特征图张量
Figure FDA0002918174580000022
另一个分支对特征图张量T4在宽度方向上进行平均池化操作,输出全局特征图张量
Figure FDA0002918174580000023
然后将上述两个并行分支输出的局部特征图张量MW和全局特征图张量AW输入到全连接层进行融合,输出特征图张量T4在宽度方向上的权重向量LW,权重向量LW的维数为nf3
第二支路包含两个并行分支,其中一个分支对特征图张量T4在高度方向进行最大池化操作,输出局部特征图张量
Figure FDA0002918174580000031
另一个分支对特征图张量T4在高度方向上进行平均池化操作,输出全局特征图张量
Figure FDA0002918174580000032
然后将上述两个并行分支输出的局部特征图张量MH和全局特征图张量AH输入到全连接层进行融合,输出特征图张量T4在高度方向上的权重向量LH,权重向量LH的维数为nf3
权重向量组合模块将权重向量LW和LH进行组合,得到维数为nf3的权重向量L,接着将权重向量L通过Sigmoid激活函数得到通道域注意力权重向量WC,再将特征图张量T4与通道域注意力权重向量WC进行点乘运算,输出特征图张量
Figure FDA0002918174580000033
5.一种基于局部与全局注意力机制的表情识别系统,其特征在于,包括:
网络模型构建模块,用于构建基于局部与全局注意力机制的神经网络模型,该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成;
所述的浅层特征提取模块包含两个卷积层,用于提取人脸图像的浅层特征,输出特征图张量
Figure FDA0002918174580000034
其中w1、h1和f1分别代表特征图张量T1的宽度、高度和通道数;
所述的空间域局部与全局注意力模块包含两个独立并行的支路,分别在通道方向上使用最大池化和平均池化提取特征图张量T1的局部特征和全局特征,并使用基于局部特征和全局特征的空间域注意力权重矩阵对特征图张量T1进行加权运算,输出特征图张量
Figure FDA0002918174580000035
所述的残差网络模块由残差块和池化层构成,输出特征图张量
Figure FDA0002918174580000041
其中w2、h2和f2分别代表特征图张量T3的宽度、高度和通道数;
所述的多尺度特征提取模块包含n个独立并行的支路,分别采用不同大小的卷积核对特征图张量T3进行卷积运算,输出n个特征图张量
Figure FDA0002918174580000042
并将所述的n个特征图张量拼接成特征图张量
Figure FDA0002918174580000043
其中1≤i≤n,2≤n≤5,w3、h3和f3分别代表特征图张量Ki的宽度、高度和通道数;
所述的通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块,其中第一支路和第二支路分别包含两个并行的分支,分别用于在宽度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征,以及在高度方向上使用最大池化和平均池化提取特征图张量T4的局部特征和全局特征;权重向量组合模块用于基于提取的局部特征和全局特征计算特征图张量T4的通道域注意力权重,使用通道域注意力权重对特征图张量T4进行加权运算,输出特征图张量
Figure FDA0002918174580000044
所述的全连接层对特征图张量T5进行特征融合,输出特征向量Q;
所述的分类层对特征向量Q进行分类,输出人脸表情类别;
模型训练模块,用于使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练,保存训练好的神经网络模型;
以及表情识别模块,用于将待测试的人脸图像输入到训练好的神经网络模型进行表情识别,输出表情类别。
6.一种基于局部与全局注意力机制的表情识别系统,其特征在于,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据权利要求1-4任一项所述的一种基于局部与全局注意力机制的表情识别方法。
CN202110107862.4A 2021-01-27 2021-01-27 一种基于局部与全局注意力机制的表情识别方法及系统 Active CN112784764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110107862.4A CN112784764B (zh) 2021-01-27 2021-01-27 一种基于局部与全局注意力机制的表情识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110107862.4A CN112784764B (zh) 2021-01-27 2021-01-27 一种基于局部与全局注意力机制的表情识别方法及系统

Publications (2)

Publication Number Publication Date
CN112784764A CN112784764A (zh) 2021-05-11
CN112784764B true CN112784764B (zh) 2022-07-12

Family

ID=75757465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110107862.4A Active CN112784764B (zh) 2021-01-27 2021-01-27 一种基于局部与全局注意力机制的表情识别方法及系统

Country Status (1)

Country Link
CN (1) CN112784764B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949841B (zh) * 2021-05-13 2022-08-16 德鲁动力科技(成都)有限公司 一种基于Attention的CNN神经网络的行人重识别方法
CN113239820B (zh) * 2021-05-18 2023-06-27 中国科学院自动化研究所 基于属性定位与关联的行人属性识别方法及系统
CN112966673B (zh) * 2021-05-19 2021-07-23 南京视察者智能科技有限公司 一种行人重识别模型的构建方法及行人重识别方法
CN113298091A (zh) * 2021-05-25 2021-08-24 商汤集团有限公司 图像处理方法及装置、电子设备和存储介质
CN113177533B (zh) * 2021-05-28 2022-09-06 济南博观智能科技有限公司 一种人脸识别方法、装置及电子设备
CN113486744B (zh) * 2021-06-24 2023-02-14 中国科学院西安光学精密机械研究所 基于眼动和人脸表情范式的学生学习状态评估系统及方法
CN113239914B (zh) * 2021-07-13 2022-02-25 北京邮电大学 课堂学生表情识别及课堂状态评估方法、装置
CN113673567B (zh) * 2021-07-20 2023-07-21 华南理工大学 基于多角度子区域自适应的全景图情感识别方法及系统
CN113569960B (zh) * 2021-07-29 2023-12-26 北京邮电大学 基于域适应的小样本图像分类方法及系统
CN113486981B (zh) * 2021-07-30 2023-02-07 西安电子科技大学 基于多尺度特征注意力融合网络的rgb图像分类方法
CN113610164B (zh) * 2021-08-10 2023-12-22 北京邮电大学 一种基于注意力平衡的细粒度图像识别方法及其系统
CN114049524A (zh) * 2021-11-29 2022-02-15 中国银行股份有限公司 目标识别分类方法及装置
CN114331904B (zh) * 2021-12-31 2023-08-08 电子科技大学 一种人脸遮挡识别方法
CN114469009B (zh) * 2022-03-18 2023-04-18 电子科技大学 一种面部疼痛表情分级评估方法
CN114783034B (zh) * 2022-05-12 2024-07-02 东南大学 基于局部敏感特征与全局特征融合的人脸表情识别方法
CN115205614B (zh) * 2022-05-20 2023-12-22 深圳市沃锐图像技术有限公司 一种用于智能制造的矿石x光图像识别方法
CN114972327B (zh) * 2022-07-12 2023-01-06 爱尔达电气有限公司 半导体封装测试系统及其测试方法
CN115631530B (zh) * 2022-12-22 2023-03-28 暨南大学 一种基于人脸动作单元的公平人脸表情识别方法
CN116129207B (zh) * 2023-04-18 2023-08-04 江西师范大学 一种多尺度通道注意力的图像数据处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN112257647A (zh) * 2020-11-03 2021-01-22 徐州工程学院 基于注意力机制的人脸表情识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN112257647A (zh) * 2020-11-03 2021-01-22 徐州工程学院 基于注意力机制的人脸表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力机制的卷积神经网络人脸表情识别;亢洁等;《陕西科技大学学报》;20200728(第04期);全文 *

Also Published As

Publication number Publication date
CN112784764A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112784764B (zh) 一种基于局部与全局注意力机制的表情识别方法及系统
US11908244B2 (en) Human posture detection utilizing posture reference maps
Liu et al. Hard negative generation for identity-disentangled facial expression recognition
Cheng et al. Facial expression recognition method based on improved VGG convolutional neural network
US12051273B2 (en) Method for recognizing actions, device and storage medium
CN109685819B (zh) 一种基于特征增强的三维医学图像分割方法
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN112232164B (zh) 一种视频分类方法和装置
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN111553419B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN114299559A (zh) 基于轻量级融合全局与局部特征网络的指静脉识别方法
CN106909938A (zh) 基于深度学习网络的视角无关性行为识别方法
CN111401192A (zh) 基于人工智能的模型训练方法和相关装置
Xu et al. Face expression recognition based on convolutional neural network
CN114333049A (zh) 猪只攻击行为识别方法、系统、计算机设备和存储介质
CN113076905A (zh) 一种基于上下文交互关系的情绪识别方法
CN112966644A (zh) 用于手势检测和手势识别的多模态多任务模型及其训练方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
Hou et al. A face detection algorithm based on two information flow block and retinal receptive field block
CN114821736A (zh) 基于对比学习的多模态人脸识别方法、装置、设备及介质
CN116884067B (zh) 一种基于改进的隐式语义数据增强的微表情识别方法
CN113569809A (zh) 一种图像处理方法、设备及计算机可读存储介质
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
CN113313133A (zh) 一种生成对抗网络的训练方法、动画图像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant