CN113361493B - 一种对不同图像分辨率鲁棒的人脸表情识别方法 - Google Patents
一种对不同图像分辨率鲁棒的人脸表情识别方法 Download PDFInfo
- Publication number
- CN113361493B CN113361493B CN202110823660.XA CN202110823660A CN113361493B CN 113361493 B CN113361493 B CN 113361493B CN 202110823660 A CN202110823660 A CN 202110823660A CN 113361493 B CN113361493 B CN 113361493B
- Authority
- CN
- China
- Prior art keywords
- inputting
- feature
- shallow
- face
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种对不同图像分辨率鲁棒的人脸表情识别方法,其特征在于,包括下列步骤:对待识别的含有人脸的图片进行人脸检测,提取出人脸区域保存为人脸图像将人脸图像缩放到h×w个像素大小,在GhostNet主干网络中加入多尺度特征提取以及深浅层特征融合结构,以充分提取原始图像中不同尺度的浅层特征,并将其与深层特征级联,进行特征提取;将提取出的特征向量输入到softmax层中进行分类。
Description
技术领域
本发明属于图像识别领域,设计一种人脸表情识别方法。
背景技术
人脸表情识别是人脸识别技术的重要组成部分,近年来,在人机交互、自动驾驶、精准营销、课堂教学等领域得到了广泛应用,成为学术界和工业界的研究热点。根据特征提取方法的不同,人脸表情识别技术大致可以分为两种方法:手工特征提取方法和基于深度学习的特征提取方法。
常用的手工特征提取方法有Gabor小波、局部二值模式(Local Binary Pattern,LBP)[1]、局部定向模式(local directional pattern,LDP)[2]等。传统的人脸特征提取方法虽然取得了一定的效果,但其缺点是容易受到环境因素的干扰,而基于深度学习的表情识别方法可以自动提取面部特征,提高了表情识别的准确率。
然而目前的方法输入图片大小大多为224×224或某一个固定大小。然而,在现实世界中,根据人脸与摄像头的距离不同,拍摄到的人脸图像的分辨率是不同的,因此,在实际应用中要求系统能够处理不同分辨率的输入图像。
发明内容
本发明的目的是提供一种对不同图像分辨率鲁棒的人脸表情识别方法。本发明采用的技术方案是:
一种对不同图像分辨率鲁棒的人脸表情识别方法,其特征在于,包括下列步骤:
S1、对待识别的含有人脸的图片进行人脸检测,提取出人脸区域保存为人脸图像;
S2、将人脸图像缩放到h×w个像素大小,然后输入到基于多尺度的深浅层特征融合网络中,进行特征提取,得到特征向量,方法如下:
S24、将Fs1和Fd1在通道维度上级联,生成深浅层特征融合后的特征图
S26、按照S22~S25的步骤,将Fw1输入到后续GhostNet主干网络中进行卷积操作,得到深层特征图然后将人脸图像F缩放为并输入到浅层网络中,得到浅层特征图再将Fs2和Fd2级联,得到深浅层特征融合后的特征图Fsd2;最后通过通道注意力模块对Fsd2进行加权得到特征图
S3、将提取出的特征向量输入到softmax层中进行分类。
所述步骤S25具体为:
S254、采用sigmoid函数对Fmerge进行激活,得到通道注意力图Mc;具体计算过程如下所示:
S255、将特征图Fsd1与Mc逐元素相乘,得到加权特征图Fw1。
本发明的优势在于:
1.设计了一个多尺度特征提取模块,充分提取图像中不同尺度的特征,提高了不同分辨率下图像的识别精度。
2.提出了一种深浅层特征融合模块,充分提取图像的浅层特征,减少信息丢失,提高了特征提取能力。
3.设计了一种基于两步法的通道注意力模块,与现有的基于一步法的通道注意力模块相比,该模块具有更强的通道权重学习能力。
附图说明
图1为基于多尺度的深浅层特征融合网络整体结构图。
图2为多尺度特征提取模块结构示意图。
图3为基于两步法的通道注意力模块结构示意图。
图4为预处理后的人脸表情图片。
具体实施方式
为使本发明的技术方案以及优点更加详细清楚,下面将结合附图对本发明中的技术作进一步阐述。具体实施方式有以下步骤:
(1)人脸检测与预处理
首先通过dlib库进行人脸检测,裁剪出通过摄像头采集到的图像中的脸部区域并缩放到h×w个像素大小,然后将图像的三个通道合并,保存为灰度图,再将图像广播到三通道。其中,采用双线性插值法对脸部区域进行缩放,得到人脸图像缩放后的图片中像素点(x,y)处的像素值计算公式如下:
其中pij(i,j∈{1,2})表示像素点(xi,yj)处的像素值。
(2)网络整体结构
本发明提出了一种基于多尺度的深浅层特征融合网络。该网络致力于充分提取原始图像中不同尺度的浅层特征,并将其与深层特征融合,然后通过通道注意力模块给级联后的特征图的不同通道添加不同的权重,进一步增强特征提取能力。
网络的上半部分是基于最新的轻量化网络GhostNet的主干网络。首先将人脸图像输入到主干网络中,经过一系列卷积操作得到深层特征图(式中的除法采用进一法,即若无法整除,则结果取整数部分加1,下同)。网络的下半部分有三个分支,分别将原图缩放到三个不同的尺寸,然后输入到三个分支网络中,得到三个不同尺寸的浅层特征图将Fs1和Fd1在通道维度上级联,生成深浅层特征融合后的特征图然后采用基于两步法的通道注意力模块,对级联后的特征图Fsd1中的通道信息进行编码,得到通道注意力图Mc,并将其与级联特征图Fsd1逐元素相乘,得到加权特征图再将Fw1输入到后续GhostNet主干网络中进行卷积操作,得到深层特征图然后将Fs2和Fd2级联,得到深浅层特征融合后的特征图Fsd2。最后通过通道注意力模块对Fsd2进行加权得到特征图通过类似的方式,得到再将Fw3输入到后续GhostNet主干网络中进行特征提取和分类。
这种结构的优点在于可以缓解卷积层数增加时梯度消失的问题。这主要借鉴了ResNet中残差模块的思想,即特征图X被输入到几个卷积层中,生成特征图F(X),然后将X与F(X)相加作为新的特征图H(X)。这里的X即对应于所提出网络中的浅层特征图Fs1,Fs2和Fs3,F(X)对应于深层特征图Fd1,Fd2和Fd3,H(X)对应于深浅层特征融合后的特征图Fsd1,Fsd2和Fsd3,不同之处是所提出的方法将深浅层特征图在通道维度上堆叠而不是简单地相加,保留了更多信息。
(3)多尺度特征提取
多尺度特征提取被广泛应用于目标检测领域,以获取不同大小的感受野,从而检测图像中不同大小的物体。也有研究人员将其用于分类领域。现有的方法大都采用不同大小的卷积核提取不同尺度的特征,然后将提取出的特征相加或堆叠。但对于计算而言,使用较大的空间滤波器(如5×5或7×7)进行卷积意味着较高的计算成本。例如,使用5×5的卷积核的计算量是3×3卷积核计算量的25/9=2.78倍。
为了解决这一问题,本发明提出了一种新的多尺度特征提取方法。现有的方法采用3×3的卷积核提取出较小的感受野中的特征,5×5的卷积核提取出较大的感受野中的特征,然后再将两个不同尺度的特征堆叠,实现多尺度特征融合。本发明所提出的多尺度特征提取方法,包含两个分支,其中左分支同样采用3×3的卷积核提取较小感受野中的特征,右分支先将输入缩放到较小的尺度,这样使用3×3的卷积核也能获得较大的感受野。因而可以大大减少参数量,加快训练速度。
(4)通道注意力模块
为了计算通道注意力,需要将每个通道内部的全局空间信息压缩到一个通道描述符中。迄今为止,为了汇总空间信息,通常采用平均池化或最大池化一次性地将每个通道上的所有空间特征编码为一个全局特征,即将特征图的尺寸从c×h×w直接压缩到c×1×1(c表示特征图的通道数,h表示高,w表示宽)。经典的挤压激励模块(Squeeze-and-Excitationblock,SE block)和卷积块注意力模块(convolutional block attention module,CBAM)都是采用这种方式。然而,这种暴力的编码方式会损失较多的信息,从而使学习到的注意力不准确。为了解决这个问题,本发明提出一种分两步汇总空间信息的方法,可以更加精细地编码空间特征,从而使学习到的通道注意力更加具有代表性。具体方法为:
首先通过平均池化和最大池化来聚合特征图Fsd1的空间信息,得到两个输出特征图和即先将输入特征图缩放到c×3×3而不是c×1×1,因此保留的空间信息是原来的9倍,以便于进一步学习空间特征。然后将Favg1和Fmax1输入到无填充的3×3卷积层中,得到两个特征图和以进一步聚合空间信息。再将Favg2和Fmax2输入到一个1×1卷积层后,将两个输出特征图逐元素相加得到合并后的特征图为减少参数量,3×3卷积层和1×1卷积层对每个特征图是共享的。最后采用sigmoid函数对合并后的特征图进行激活,就得到了通道注意力。总之,通道注意力的计算过程为:
Mc=σ(k1×1*(k3×3*AvgPool(Fsd1))+k1×1*(k3×3*MaxPool(Fsd1)))
其中,kn×n表示n×n大小的卷积核;σ表示激活函数。
最后,需要将输入特征图Fsd1与得到的通道注意力Mc逐元素相乘,就得到了加了权重的特征图Fw1。
(5)分类
将神经网络提取到的二维特征展平为一维特征向量,再将特征向量的长度映射为n(n一般为6,表示分类为愤怒,厌恶,恐惧,幸福,悲伤和惊讶6种表情,若增加一种中性表情则n为7),最后将提取出的特征向量输入到softmax层中进行分类。计算过程为:
其中,zj是长度为n输入特征向量,f(zj)为预测为某一类的概率值。
本发明其他未详述之处均为本领域技术人员的常识性技术。
综上所述,本发明针对输入图像分辨率变化的问题,提出了一种更加鲁棒的人脸表情识别方法。本领域的相关技术人员可依照本思路对其中的参数或结构做出些许的改动,进而进一步提高人脸表情识别的准确率,但任何依据本发明的技术实质对以上实施案例进行的简单修改与等效变换等,均仍属于本发明的技术范围。
Claims (2)
1.一种对不同图像分辨率鲁棒的人脸表情识别方法,其特征在于,包括下列步骤:
S1、对待识别的含有人脸的图片进行人脸检测,提取出人脸区域保存为人脸图像;
S2、将人脸图像缩放到h×w个像素大小,然后输入到基于多尺度的深浅层特征融合网络中,进行特征提取,得到特征向量,方法如下:
S26、按照S22~S25的步骤,将Fw1输入到后续GhostNet主干网络中进行卷积操作,得到深层特征图然后将人脸图像F缩放为并输入到浅层网络中,得到浅层特征图再将Fs2和Fd2级联,得到深浅层特征融合后的特征图Fsd2;最后通过通道注意力模块对Fsd2进行加权得到特征图
S3、将提取出的特征向量输入到softmax层中进行分类。
2.根据权利要求1所述的对不同图像分辨率鲁棒的人脸表情识别方法,其特征在于,所述步骤S25具体为:
S254、采用sigmoid函数对Fmerge进行激活,得到通道注意力图Mc:
Mc=σ(k1×1*(k3×3*AvgPool(Fsd1))+k1×1*(k3×3*MaxPool(Fsd1)))
其中,kn×n表示n×n大小的卷积核;σ表示激活函数;
S255、将特征图Fsd1与Mc逐元素相乘,得到加权特征图Fw1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110823660.XA CN113361493B (zh) | 2021-07-21 | 2021-07-21 | 一种对不同图像分辨率鲁棒的人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110823660.XA CN113361493B (zh) | 2021-07-21 | 2021-07-21 | 一种对不同图像分辨率鲁棒的人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361493A CN113361493A (zh) | 2021-09-07 |
CN113361493B true CN113361493B (zh) | 2022-05-20 |
Family
ID=77540032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110823660.XA Active CN113361493B (zh) | 2021-07-21 | 2021-07-21 | 一种对不同图像分辨率鲁棒的人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361493B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963421B (zh) * | 2021-11-16 | 2023-04-07 | 南京工程学院 | 基于混合特征增强网络的动态序列非约束表情识别方法 |
CN114898171B (zh) * | 2022-04-07 | 2023-09-22 | 中国科学院光电技术研究所 | 一种适用于嵌入式平台的实时目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580461A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种结合多级卷积特征金字塔的人脸表情识别算法 |
CN111833246A (zh) * | 2020-06-02 | 2020-10-27 | 天津大学 | 基于注意力级联网络的单帧图像超分辨方法 |
CN111898614A (zh) * | 2019-05-05 | 2020-11-06 | 阿里巴巴集团控股有限公司 | 神经网络系统以及图像信号、数据处理的方法 |
CN112750082A (zh) * | 2021-01-21 | 2021-05-04 | 武汉工程大学 | 基于融合注意力机制的人脸超分辨率方法及系统 |
-
2021
- 2021-07-21 CN CN202110823660.XA patent/CN113361493B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898614A (zh) * | 2019-05-05 | 2020-11-06 | 阿里巴巴集团控股有限公司 | 神经网络系统以及图像信号、数据处理的方法 |
CN110580461A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种结合多级卷积特征金字塔的人脸表情识别算法 |
CN111833246A (zh) * | 2020-06-02 | 2020-10-27 | 天津大学 | 基于注意力级联网络的单帧图像超分辨方法 |
CN112750082A (zh) * | 2021-01-21 | 2021-05-04 | 武汉工程大学 | 基于融合注意力机制的人脸超分辨率方法及系统 |
Non-Patent Citations (3)
Title |
---|
"E-ComSupResNet: Enhanced Face Super-Resolution Through Compact Network";Vishal Chudasama,等;《 IEEE Transactions on Biometrics, Behavior, and Identity Science》;20210212;第3卷(第2期);全文 * |
"Learning Deep Global Multi-Scale and Local Attention Features for Facial Expression Recognition in the Wild";Zengqun Zhao,等;《IEEE Transactions on Image Processing》;20210705;第30卷;全文 * |
"基于多尺度特征融合的人脸图像修复方法";白宗文,等;《计算机工程》;20201224;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113361493A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN109063565B (zh) | 一种低分辨率人脸识别方法及装置 | |
CN112733822B (zh) | 一种端到端文本检测和识别方法 | |
CN112686331B (zh) | 伪造图像识别模型训练方法及伪造图像识别方法 | |
CN113361493B (zh) | 一种对不同图像分辨率鲁棒的人脸表情识别方法 | |
CN113642634A (zh) | 一种基于混合注意力的阴影检测方法 | |
Li et al. | Depth-wise asymmetric bottleneck with point-wise aggregation decoder for real-time semantic segmentation in urban scenes | |
CN114202740A (zh) | 一种基于多尺度特征融合的行人重识别方法 | |
CN110543890A (zh) | 一种基于特征金字塔的深度神经网络图像匹配方法 | |
CN112560865B (zh) | 一种室外大场景下点云的语义分割方法 | |
CN114529982A (zh) | 基于流式注意力的轻量级人体姿态估计方法及系统 | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
Shu et al. | A SVM multi-class image classification method based on DE and KNN in smart city management | |
CN117576402B (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN114519383A (zh) | 一种图像目标检测方法及系统 | |
CN114463340A (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
CN117315752A (zh) | 人脸情绪识别网络模型的训练方法、装置、设备和介质 | |
CN112418229A (zh) | 一种基于深度学习的无人船海上场景图像实时分割方法 | |
CN117218351A (zh) | 基于局部和全局上下文感知的三维点云语义分割方法 | |
Özyurt et al. | A new method for classification of images using convolutional neural network based on Dwt-Svd perceptual hash function | |
CN116884074A (zh) | 一种基于混合注意力机制的轻量级人脸识别方法 | |
CN114612456B (zh) | 一种基于深度学习的钢坯自动语义分割识别方法 | |
CN115631412A (zh) | 基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法 | |
CN116311349A (zh) | 一种基于轻量神经网络的人体关键点检测方法 | |
CN115273046A (zh) | 一种用于智能视频分析的驾驶员行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 300452 Binhai Industrial Research Institute Campus of Tianjin University, No. 48 Jialingjiang Road, Binhai New Area, Tianjin Patentee after: Tianjin University Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92 Patentee before: Tianjin University |
|
CP02 | Change in the address of a patent holder |