CN112329683B - 一种多通道卷积神经网络人脸表情识别方法 - Google Patents
一种多通道卷积神经网络人脸表情识别方法 Download PDFInfo
- Publication number
- CN112329683B CN112329683B CN202011276595.5A CN202011276595A CN112329683B CN 112329683 B CN112329683 B CN 112329683B CN 202011276595 A CN202011276595 A CN 202011276595A CN 112329683 B CN112329683 B CN 112329683B
- Authority
- CN
- China
- Prior art keywords
- face
- facial expression
- gray
- expression recognition
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 19
- 230000014509 gene expression Effects 0.000 claims abstract description 37
- 230000001815 facial effect Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 230000002452 interceptive effect Effects 0.000 claims abstract description 15
- 238000012937 correction Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 21
- 230000003044 adaptive effect Effects 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008034 disappearance Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种多通道卷积神经网络人脸表情识别方法,首先通过Viola‑Jones人脸检测器和旋转校正从输入的灰度图像中检测出人脸区域,尽可能减少无关区域对人脸表情识别准确性的影响;其次将检测得到的人脸区域应用到深度图像和局部二值模式图像,得到三种具有互补性的人脸区域数据;然后采用单通道‑特征提取网络分别从三种类型的人脸区域数据中自动提取与表情相关的特征,并将提取得到的特征送入交互注意力融合模块中进行融合,该模块基于交互注意力机制提取任意两种人脸区域特征的空间相关性,从而实现了不同类型人脸区域的有效特征融合;最后将交互注意力融合模块输出的特征再次拼接融合后,通过全连接层进行特征变换,并通过softmax操作最后得到表情识别结果。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其是一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法。
背景技术
人脸识别是计算机视觉技术应用的重要阵地,随着人脸识别技术的日益完善,面部表情识别技术得到了越来越多的关注。面部表情识别指利用计算机视觉技术从包含人脸的图片中预测出其中人的表情,一般指高兴、愤怒、悲伤、恐惧、沮丧、惊讶等六种基本表情。该技术在揭示人的情感、意图及其他内在状态方面发挥着极大的作用,是机器感知人类情绪变化并与人类进行沟通的重要手段,在人机交互、健康监控、辅助驾驶等方面获得了广泛应用。
面部表情识别的一般流程包括面部区域检测、表情相关的特征提取以及分类器设计。面部区域检测的发展已较为成熟,包括传统的Viola-Jones人脸检测器、Adaboost人脸检测器以及基于深度神经网络的人脸检测器,如DeepID。检测得到面部区域后,可以根据表情识别的需要进行特征加工,譬如检测嘴、眼睛、眉毛、鼻子等典型区域的位置与形状、提取面部区域的纹理特征以及使用深度网络自动进行特征提取;最后,设计分类器进行表情的分类识别,常用的分类器包括支持向量机、随机森林分类器以及Softmax进行分类。
近年来,面部表情识别取得了一定的进展,但是表情作为一种主观因素较强的事物,在检测时仍然存在以下难点:(1)不同被试的相同表情在外观上可能存在较大差异;(2)相同被试的不同表情之间的外观差异可能不明显;(3)相同被试的同一表情受其情绪强弱程度的影响可能在外表上存在较大差异。因此,准确的面部表情识别不仅需要排除非人脸区域,更需要能够准确描述不同表情差异的特征,并据此设计强鲁棒的分类器。
发明内容
本发明要解决的技术问题是:为了克服现有技术中之不足,本发明提供一种多通道卷积神经网络人脸表情识别方法,以其能够结合多种人脸图像的互补性,较为准确地识别高兴、悲伤、沮丧、恐惧、愤怒和惊讶六种基本表情。
本发明解决其技术问题所采用的技术方案是:一种多通道卷积神经网络人脸表情识别方法,具有以下步骤:
S1、基于灰度图进行人脸检测,并根据多种人脸图像之间的关联对其进行预处理;
S2、利用单通道-特征提取网络从不同种类的人脸区域中自动提取与表情相关的特征;
S3、利用注意力融合网络对不同种类的人脸表情相关特征进行融合,对融合后的特征进一步处理得到人脸表情识别结果。
所述步骤S1具体包括:
(1)、人脸区域检测
首先对输入图像进行处理,提取其中的人脸区域,以减少非人脸区域噪声对人脸表情识别的影响。使用Viola-Jones人脸检测器(使用Haar特征)在灰度图像上进行人脸检测,得到准确的人脸区域用于后续分析。
(2)、人脸区域的旋转校正
由于进行灰度图人脸检测得到的人脸区域存在角度差异,影响后续人脸表情识别算法的效果,因此采用旋转变换矩阵对检测到的人脸进行对齐,旋转变换矩阵定义如下:
其中(x,y)表示原始坐标,(x’,y’)表示旋转校正后的坐标,θ表示旋转角度,θ通过两眼连线与水平线的角度确定。对于旋转校正后的灰度人脸图像上的人脸区域,将其映射到与灰度人脸图像相关联的深度人脸图像,从而得到关于人脸区域的灰度数据和深度数据。
(3)、人脸区域的局部二值模式计算
得到人脸区域的灰度数据和深度数据后,需要进一步计算该区域的局部二值模式以提供细节信息。通过在灰度人脸区域计算局部二值模式数据,图像的局部二值模式可表示为一串0/1序列,其中每一位的取值通过比较当前像素点及其邻域像素点的大小关系得到,图像的局部二值模式计算公式如下:
其中S()表示符号函数,N表示当前像素点的邻域像素数目,一般采用8邻域,即令N为8,gc和gn分别表示当前像素点的值和对应的邻域像素点的值。如此,在预处理之后就得到了关于人脸区域的灰度数据G、局部二值模式数据L和深度数据D,分别可以描述人脸的全局信息、细节信息以及距离信息。
所述步骤S2具体包括:
(1)、基于单通道的人脸表情相关特征提取网络
采用基于卷积神经网络的单通道人脸表情相关特征提取网络,用于从人脸区域的灰度数据G、局部二值模式数据L和深度数据D中提取与表情识别相关的特征。该神经网络由4个3×3的卷积层构成,每个卷积层后接2×2的最大池化层、批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit,ReLU)层。四层卷积的滤波器数目分别为16、32、64以及128,滤波器数目设计的准则是保证特征分辨率减小的同时增加特征通道的数目,以提高网络的特征表达能力。对于人脸区域的灰度数据G、局部二值模式数据L和深度数据D采用相同结构的卷积神经网络,得到三种人脸图像的特征分别表示为fG、fL以及fD。
(2):增加残差连接提取多尺度特征,缓减梯度消失现象
在所提出的单通道人脸表情相关特征提取网络的基础上增加残差连接,赋予卷积神经网络提取多尺度特征的能力,并在一定程度上缓和梯度消失现象。残差连接跨接了每一层卷积层的输入和输出,假设某一层卷积层的输入信号为X,序列的卷积、池化、批量标准化以及线性整流操作用函数f()表示,那么对于该卷积层的残差连接表示如下:
X’=f(X)+X
其中,X’表示卷积层的输出信号。通过残差连接,输出信号X’中包含了其本身信号X以及对X进行卷积、池化、批量标准化以及线性整流操作的结果。由于对X进行卷积操作可以得到更高尺度的特征,因此在每一个卷积层上跨接残差连接可以提取到目标的多尺度特征。在误差反传过程中,误差梯度不仅可以通过卷积层反传,也可以通过残差连接反传,避免了在卷积层反传中可能出现的梯度消失现象,提高了深度神经网络训练的稳定性与收敛性。
所述步骤S3具体包括:
(1)、基于交互注意力机制的单通道融合特征提取
对于不同种类的人脸数据,对于某个表情,其脸部激活区域不尽相同,弱激活区域可能会被强激活区域所掩盖。为了确保在人脸表情识别的过程中完整地考虑这些区域,采用一种基于交互注意力机制的融合方法,该融合方法每次可处理任意两种类型的人脸数据,并将其中一种设定为主要数据,另一种设定为辅助数据,通过交互注意力机制得到主要数据和辅助数据在空间上的关联,从而使主要数据的特征描述更多的信息。假设任意两种类型的人脸数据在某个与表情识别相关的区域上有较强关联,从而利用交互注意力机制计算两种类型的人脸数据的空间关联。
假设人脸灰度数据G和深度数据D经过两个单通道的人脸表情相关特征提取网络后的输出特征为fG与fD,其维度为C×H×W,其中C表示特征通道数目,H表示特征图的高度,W表示特征图的宽度。首先利用1×1的卷积子分别对fG与fD进行卷积操作,得到维度为C×H×W的特征G1与D1,将G1的转置与D1进行矩阵相乘,然后利用softmax运算计算fD与fG的交互注意力AttGD,AttGD的维度为N×N,其中N=H×W。此时fG为主,fD为辅,因此再次利用1×1的卷积子对fG进行卷积得到C×H×W的特征G2,然后与交互注意力AttGD的转置进行矩阵乘法,加上自身特征fG后得到在fD辅助下fG的表情相关特征fGD,该计算过程如下所示:
fGD=G2×AttGD T+fGD
AttGD=σ(G1 T×D1)
其中σ()表示softmax函数,利用相同的方法,可以得到在fL辅助下fG的表情相关特征fGL,那么对于灰度人脸图像,其融合后特征fAG就是fGD与fGL的拼接结果;按照同样的方法可以得到深度人脸图像的融合后特征fAD与局部二值模式人脸图像的融合后特征fAL。
(2)、基于三通道融合特征进行表情识别
对于三种人脸图像的特征分别为fG、fL以及fD进行基于双通道特征进行基于注意力机制的融合后,分别得到灰度人脸图像的融合后特征fAG、深度人脸图像的融合后特征fAD与局部二值模式人脸图像的融合后特征fAL。对于灰度人脸图像的融合后特征fAG,利用自适应平均池化操作得到向量fG1,利用自适应最大池化操作得到向量fG2;对于深度人脸图像的融合后特征fAD,利用自适应平均池化操作得到向量fD1,利用自适应最大池化操作得到向量fD2;对于局部二值模式人脸图像的融合后特征fAL,利用自适应平均池化操作得到向量fL1,利用自适应最大池化操作得到向量fL2;将六个向量拼接起来得到fv(fv=concatenate(fG1,fG2,fD1,fD2,fL1,fL2)),然后连接两层全连接层(第一层全连接层后接ReLU层)进行特征处理操作,最后利用softmax操作得到人脸表情的识别结果,其过程如下式所示:
F=σ(Fc1(Relu(Fc2(fv))))
其中,F表示人脸六种基本表情的识别结果,σ()表示softmax函数,Fc1表示第一层全连接层的可学习参数,其中输入参数为768,输出参数为64;Fc2表示第二层全连接层的可学习参数,其中输入参数为64,输出参数为6。
本发明的有益效果是:
(1)、利用Viola-Jones人脸检测器及旋转校正限制人脸表情分析区域,并分别使用人脸区域的灰度数据、局部二值模式数据和深度数据来挖掘全局、细节以及距离信息。
(2)、基于卷积神经网络搭建单通道人脸表情相关特征提取网络,来自动从不同类型的人脸数据中提取与表情相关的特征,并通过增加残差连接提取多尺度特征、缓减梯度消失现象。
(3)、利用交互注意力机制提取单通道融合特征,该特征包含了本通道本身的信息以及其它两个通道与它的空间关联信息,有效利用了不同种类人脸图像的互补特性。
(4)、对三个通道的融合特征进行进一步融合,通过全连接层和softmax操作的匹配得到最终的人脸表情识别结果。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是的系统流程图。
图2是本发明中提出的单通道-特征提取网络的示意图。
图3是本发明中提出的交互注意力融合机制示意图。
图4是本发明中提出的注意力融合网络示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示的一种多通道卷积神经网络人脸表情识别方法,考虑到人脸区域对人脸表情分析有较大的贡献,因此首先在面部灰度图像上进行人脸检测,并通过旋转矩阵对人脸检测区域进行校正;考虑到不同种类的人脸区域可以提供互补的信息,本实施例同时对面部灰度区域、面部深度区域以及面部局部二值模式区域进行了处理,以期从全局、细节、深度等不同角度对人脸区域进行描述,从而得到准确的人脸表情识别结果。对于任意种类的面部区域,使用单通道-特征提取网络自动从该区域内提取与面部表情相关的特征,考虑到不同种类面部区域的互补性,利用注意力融合网络挖掘不同种类人脸区域的空间关联,并将特征进行融合,最后通过处理后得到人脸表情的识别结果。
本发明的具体操作步骤如下:
图2给出了单通道-特征提取网络的示意图。
1)、基于单通道的人脸表情相关特征提取网络。
采用基于卷积神经网络的单通道人脸表情相关特征提取网络,用于从人脸区域的灰度数据G、局部二值模式数据L和深度数据D中提取与表情识别相关的特征,该神经网络由4个3×3的卷积层构成,每个卷积层后接2×2的最大池化层、批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit,ReLU)层。四层卷积的滤波器数目分别为16、32、64以及128,滤波器数目设计的准则是保证特征分辨率减小的同时增加特征通道的数目,以提高网络的特征表达能力。对于人脸区域灰度数据G、局部二值模式数据L和深度数据D采用相同结构的卷积神经网络,得到三种人脸图像的特征分别表示为fG、fL以及fD。
2)、增加残差连接提取多尺度特征,缓减梯度消失现象。
在上述单通道人脸表情相关特征提取网络的基础上增加了残差连接,赋予了卷积神经网络提取多尺度特征的能力,并在一定程度上缓和了梯度消失现象。残差连接跨接了每一层卷积层的输入和输出,假设某一层卷积层的输入信号为X,序列的卷积、池化、批量标准化以及线性整流操作用函数f()表示,那么对于该卷积层的残差连接表示如下:
X’=f(X)+X
其中,X’表示卷积层的输出信号。通过残差连接,输出信号X’中包含了其本身信号X以及对X进行卷积、池化、批量标准化以及线性整流操作的结果。由于对X进行卷积操作可以得到更高尺度的特征,因此在每一个卷积层上跨接残差连接可以提取到目标的多尺度特征。在误差反传过程中,误差梯度不仅可以通过卷积层反传,也可以通过残差连接反传,避免了在卷积层反传中可能出现的梯度消失现象,提高了深度神经网络训练的稳定性与收敛性。
图3给出了交互注意力融合机制示意图。
3)、基于交互注意力机制的单通道融合特征提取。
对于不同种类的人脸数据,对于某个表情,其脸部激活区域不尽相同,弱激活区域可能会被强激活区域所掩盖。为了确保在人脸表情识别的过程中完整地考虑这些区域,采用一种基于注意力机制的融合方法,该融合方法每次可处理任意两种类型的人脸数据,并将其中一种设定为主要数据,另一种设定为辅助数据,通过交互注意力机制得到主要数据和辅助数据在空间上的关联,从而使主要数据的特征描述更多的信息。假设任意两种类型的人脸数据在某个与表情识别相关的区域上有较强关联,从而利用交互注意力机制计算两种类型的人脸数据的空间关联。
假设人脸灰度数据G和深度数据D经过两个单通道的人脸表情相关特征提取网络后的输出特征为fG与fD,其维度为C×H×W,其中C表示特征通道数目,H表示特征图的高度,W表示特征图的宽度。首先利用1×1的卷积子分别对fG与fD进行卷积操作,得到维度为C×H×W的特征G1与D1,将G1的转置与D1进行矩阵相乘,然后利用softmax运算计算fD与fG的交互注意力AttGD,AttGD的维度为N×N,其中N=H×W。此时fG为主,fD为辅,因此再次利用1×1的卷积子对fG进行卷积得到C×H×W的特征G2,然后与交互注意力AttGD的转置进行矩阵乘法,加上自身特征fG后得到在fD辅助下fG的表情相关特征fGD,该计算过程如下所示:
fGD=G2×AttGD T+fGD
AttGD=σ(G1 T×D1)
其中σ()表示softmax函数。利用相同的方法,可以得到在fL辅助下fG的表情相关特征fGL,那么对于灰度人脸图像,其融合后特征fAG就是fGD与fGL的拼接结果。按照同样的方法可以得到深度人脸图像的融合后特征fAD与局部二值模式人脸图像的融合后特征fAL。
图4给出了注意力融合网络示意图。
4)、基于三通道融合特征进行表情识别。
对于三种人脸图像的特征分别为fG、fL以及fD进行基于双通道特征进行基于注意力机制的融合后,分别得到灰度人脸图像的融合后特征fAG、深度人脸图像的融合后特征fAD与局部二值模式人脸图像的融合后特征fAL。对于灰度人脸图像的融合后特征fAG,利用自适应平均池化操作得到向量fG1,利用自适应最大池化操作得到向量fG2;对于深度人脸图像的融合后特征fAD,利用自适应平均池化操作得到向量fD1,利用自适应最大池化操作得到向量fD2;对于局部二值模式人脸图像的融合后特征fAL,利用自适应平均池化操作得到向量fL1,利用自适应最大池化操作得到向量fL2;将六个向量拼接起来得到fv(fv=concatenate(fG1,fG2,fD1,fD2,fL1,fL2)),然后连接两层全连接层(第一层全连接层后接ReLU层)进行特征处理操作,最后利用softmax操作得到人脸表情的识别结果,其过程如下式所示:
F=σ(Fc1(Relu(Fc2(fv))))
其中,F表示人脸六种基本表情的识别结果,σ()表示softmax函数,Fc1表示第一层全连接层的可学习参数,其中输入参数为768,输出参数为64;Fc2表示第二层全连接层的可学习参数,其中输入参数为64,输出参数为6。
本发明主要考虑面部表情特征的提取与表情识别问题,提出从三种互补的面部图像(灰度、深度以及局部二值模式)中提取特征,并利用不同面部图像在空间上的关联设计基于交互注意力的融合算法,准确识别人脸面部六种基本面部表情(高兴、愤怒、悲伤、恐惧、沮丧、惊讶)。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (3)
1.一种多通道卷积神经网络人脸表情识别方法,其特征是:具有以下步骤:
S1、基于灰度图人脸检测的预处理研究;
S2、基于单通道-特征提取网络的人脸表情相关特征提取;
S3、基于注意力融合网络的多通道人脸表情识别,具体包括以下步骤:
(1)、基于交互注意力机制的单通道融合特征提取:
人脸灰度数据G和深度数据D经过两个单通道的人脸表情相关特征提取网络后的输出特征为fG与fD,其维度为C×H×W,其中C表示特征通道数目,H表示特征图的高度,W表示特征图的宽度;首先利用1×1的卷积子分别对fG与fD进行卷积操作,得到维度为C×H×W的特征G1与D1,将G1的转置与D1进行矩阵相乘,然后利用softmax运算计算fD与fG的交互注意力AttGD,AttGD的维度为N×N,其中N=H×W,此时fG为主,fD为辅,再次利用1×1的卷积子对fG进行卷积得到C×H×W的特征G2,然后与交互注意力AttGD的转置进行矩阵乘法,加上自身特征fG后得到在fD辅助下fG的表情相关特征fGD,该计算过程如下所示:
fGD=G2×AttGD T+fGD
AttGD=σ(G1 T×D1)
其中σ()表示softmax函数;利用相同的方法,得到在fL辅助下fG的表情相关特征fGL,对于灰度人脸图像,其融合后特征fAG就是fGD与fGL的拼接结果;按照同样的方法得到深度人脸图像的融合后特征fAD与局部二值模式人脸图像的融合后特征fAL;
(2)、基于三通道融合特征进行表情识别:对于三种人脸图像的特征分别为fG、fL以及fD进行基于双通道特征进行基于注意力机制的融合后,分别得到灰度人脸图像的融合后特征fAG、深度人脸图像的融合后特征fAD与局部二值模式人脸图像的融合后特征fAL;
对于灰度人脸图像的融合后特征fAG,利用自适应平均池化操作得到向量fG1,利用自适应最大池化操作得到向量fG2;对于深度人脸图像的融合后特征fAD,利用自适应平均池化操作得到向量fD1,利用自适应最大池化操作得到向量fD2;对于局部二值模式人脸图像的融合后特征fAL,利用自适应平均池化操作得到向量fL1,利用自适应最大池化操作得到向量fL2;将六个向量拼接起来得到fv(fv=concatenate(fG1,fG2,fD1,fD2,fL1,fL2)),然后连接两层全连接层,第一层全连接层后接ReLU层,进行特征处理操作,最后利用softmax操作得到人脸表情的识别结果,其过程如下式所示:
F=σ(Fc1(Relu(Fc2(fv))))
其中,F表示人脸六种基本表情的识别结果,σ()表示softmax函数,Fc1表示第一层全连接层的可学习参数,Fc2表示第二层全连接层的可学习参数。
2.根据权利要求1所述的多通道卷积神经网络人脸表情识别方法,其特征是,所述步骤S1中,具体包括以下步骤:
(1)、人脸区域检测:首先对输入图像进行处理,提取其中的人脸区域,以减少非人脸区域噪声对人脸表情识别的影响;
(2)、人脸区域的旋转校正:通过旋转变换矩阵对检测到的人脸进行对齐,对于旋转校正后的灰度人脸图像上的人脸区域,将其映射到与灰度人脸图像相关联的深度人脸图像,从而得到关于人脸区域的灰度数据和深度数据;
(3)、人脸区域的局部二值模式计算:得到人脸区域的灰度数据和深度数据后,进一步计算该区域的局部二值模式以提供细节信息。
3.根据权利要求1所述的多通道卷积神经网络人脸表情识别方法,其特征是,所述步骤S2中,具体包括以下步骤:
(1)、基于单通道的人脸表情相关特征提取网络:
采用基于卷积神经网络的单通道人脸表情相关特征提取网络,用于从人脸区域的灰度数据G、局部二值模式数据L和深度数据D中提取与表情识别相关的特征;
(2)、增加残差连接提取多尺度特征,缓减梯度消失现象:在单通道人脸表情相关特征提取网络的基础上增加残差连接,赋予卷积神经网络提取多尺度特征的能力,缓和梯度消失现象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276595.5A CN112329683B (zh) | 2020-11-16 | 2020-11-16 | 一种多通道卷积神经网络人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276595.5A CN112329683B (zh) | 2020-11-16 | 2020-11-16 | 一种多通道卷积神经网络人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329683A CN112329683A (zh) | 2021-02-05 |
CN112329683B true CN112329683B (zh) | 2024-01-26 |
Family
ID=74318264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011276595.5A Active CN112329683B (zh) | 2020-11-16 | 2020-11-16 | 一种多通道卷积神经网络人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329683B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990007B (zh) * | 2021-03-13 | 2022-08-09 | 山东大学 | 基于区域分组与内部关联融合的人脸表情识别方法及系统 |
CN113255530B (zh) * | 2021-05-31 | 2024-03-29 | 合肥工业大学 | 基于注意力的多通道数据融合网络架构及数据处理方法 |
CN113762251B (zh) * | 2021-08-17 | 2024-05-10 | 慧影医疗科技(北京)股份有限公司 | 一种基于注意力机制的目标分类方法及系统 |
CN113658176B (zh) * | 2021-09-07 | 2023-11-07 | 重庆科技学院 | 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法 |
CN114581971A (zh) * | 2022-01-28 | 2022-06-03 | 北京深睿博联科技有限责任公司 | 一种基于面部动作组合检测的情绪识别方法及装置 |
CN114639149B (zh) * | 2022-03-18 | 2023-04-07 | 杭州慧田科技有限公司 | 具有情绪识别功能的病床终端 |
CN115439912A (zh) * | 2022-09-20 | 2022-12-06 | 支付宝(杭州)信息技术有限公司 | 一种识别表情的方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016110005A1 (zh) * | 2015-01-07 | 2016-07-14 | 深圳市唯特视科技有限公司 | 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法 |
CN106778506A (zh) * | 2016-11-24 | 2017-05-31 | 重庆邮电大学 | 一种融合深度图像和多通道特征的表情识别方法 |
CN107316015A (zh) * | 2017-06-19 | 2017-11-03 | 南京邮电大学 | 一种基于深度时空特征的高精度面部表情识别方法 |
CN107491726A (zh) * | 2017-07-04 | 2017-12-19 | 重庆邮电大学 | 一种基于多通道并行卷积神经网络的实时表情识别方法 |
CN107729835A (zh) * | 2017-10-10 | 2018-02-23 | 浙江大学 | 一种基于人脸关键点区域传统特征和人脸全局深度特征融合的表情识别方法 |
CN108491835A (zh) * | 2018-06-12 | 2018-09-04 | 常州大学 | 面向面部表情识别的双通道卷积神经网络 |
CN110263673A (zh) * | 2019-05-31 | 2019-09-20 | 合肥工业大学 | 面部表情识别方法、装置、计算机设备及存储介质 |
CN111144348A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN111797683A (zh) * | 2020-05-21 | 2020-10-20 | 台州学院 | 一种基于深度残差注意力网络的视频表情识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815785A (zh) * | 2018-12-05 | 2019-05-28 | 四川大学 | 一种基于双流卷积神经网络的人脸情绪识别方法 |
CN111488475A (zh) * | 2019-01-29 | 2020-08-04 | 北京三星通信技术研究有限公司 | 图像检索方法、装置、电子设备及计算机可读存储介质 |
-
2020
- 2020-11-16 CN CN202011276595.5A patent/CN112329683B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016110005A1 (zh) * | 2015-01-07 | 2016-07-14 | 深圳市唯特视科技有限公司 | 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法 |
CN106778506A (zh) * | 2016-11-24 | 2017-05-31 | 重庆邮电大学 | 一种融合深度图像和多通道特征的表情识别方法 |
CN107316015A (zh) * | 2017-06-19 | 2017-11-03 | 南京邮电大学 | 一种基于深度时空特征的高精度面部表情识别方法 |
CN107491726A (zh) * | 2017-07-04 | 2017-12-19 | 重庆邮电大学 | 一种基于多通道并行卷积神经网络的实时表情识别方法 |
CN107729835A (zh) * | 2017-10-10 | 2018-02-23 | 浙江大学 | 一种基于人脸关键点区域传统特征和人脸全局深度特征融合的表情识别方法 |
CN108491835A (zh) * | 2018-06-12 | 2018-09-04 | 常州大学 | 面向面部表情识别的双通道卷积神经网络 |
CN110263673A (zh) * | 2019-05-31 | 2019-09-20 | 合肥工业大学 | 面部表情识别方法、装置、计算机设备及存储介质 |
CN111144348A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN111797683A (zh) * | 2020-05-21 | 2020-10-20 | 台州学院 | 一种基于深度残差注意力网络的视频表情识别方法 |
Non-Patent Citations (3)
Title |
---|
Facial expression recognition based on dual-feature fusion and improved random forest classifier;Biao Yang等;Multimedia Tools and Applications;第77卷;20477–20499 * |
Facial Expression Recognition Using Weighted Mixture Deep Neural Network Based on Double-Channel Facial Images;BIAO YANG等;Translations and content mining are permitted for academic research only;第6卷;4630-4640 * |
基于深度注意力网络的人脸表情识别;李政浩;中国优秀硕士学位论文全文数据库(电子期刊);I138-1881 * |
Also Published As
Publication number | Publication date |
---|---|
CN112329683A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329683B (zh) | 一种多通道卷积神经网络人脸表情识别方法 | |
CN108491835B (zh) | 面向面部表情识别的双通道卷积神经网络 | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
Shahriar et al. | Real-time american sign language recognition using skin segmentation and image category classification with convolutional neural network and deep learning | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN100423020C (zh) | 一种基于结构主元分析的人脸识别方法 | |
CN108268859A (zh) | 一种基于深度学习的人脸表情识别方法 | |
CN110796100B (zh) | 步态识别方法、装置、终端及存储装置 | |
CN106600640B (zh) | 一种基于rgb-d相机的人脸识别辅助眼镜 | |
CN113343826A (zh) | 人脸活体检测模型的训练方法、人脸活体检测方法及装置 | |
CN106529504B (zh) | 一种复合时空特征的双模态视频情感识别方法 | |
CN111126240A (zh) | 一种三通道特征融合人脸识别方法 | |
CN113112416B (zh) | 一种语义引导的人脸图像修复方法 | |
CN112131970A (zh) | 一种基于多通道时空网络和联合优化损失的身份识别方法 | |
CN111160216A (zh) | 一种多特征多模型的活体人脸识别方法 | |
Zhao et al. | Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection | |
CN116311549A (zh) | 活体对象识别方法、设备和计算机可读存储介质 | |
CN111209873A (zh) | 一种基于深度学习的高精度人脸关键点定位方法及系统 | |
CN105893941B (zh) | 一种基于区域图像的人脸表情识别方法 | |
CN112906550A (zh) | 一种基于分水岭变换的静态手势识别方法 | |
CN112132117A (zh) | 一种辅助胁迫检测的融合身份认证系统 | |
CN117173744A (zh) | 一种跨模态行人重识别方法 | |
US20140334694A1 (en) | Method for determining eye location on a frontal face digital image to validate the frontal face and determine points of reference | |
Phuong et al. | Extraction of human facial features based on Haar feature with Adaboost and image recognition techniques | |
Paul et al. | Rotation invariant multiview face detection using skin color regressive model and support vector regression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |