CN115471899A - ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法 - Google Patents

ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法 Download PDF

Info

Publication number
CN115471899A
CN115471899A CN202211294780.6A CN202211294780A CN115471899A CN 115471899 A CN115471899 A CN 115471899A CN 202211294780 A CN202211294780 A CN 202211294780A CN 115471899 A CN115471899 A CN 115471899A
Authority
CN
China
Prior art keywords
network model
capsule
resnet18
layer
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211294780.6A
Other languages
English (en)
Inventor
冯宇平
刘宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Science and Technology
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202211294780.6A priority Critical patent/CN115471899A/zh
Publication of CN115471899A publication Critical patent/CN115471899A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,属于人脸识别技术领域。其步骤包括:构建胶囊网络、调整ResNet18网络模型、在调整后的ResNet18网络模型的四个残差块中加入注意力机制、利用调整后的ResNet18网络模型替换胶囊网络的单卷积层、利用调整后的ResNet18网络模型从输入特征中提取训练特征图、将训练特征图输入至胶囊网络中进行训练得到网络模型、针对网络模型,采用L2范数进行剪枝处理、利用数据集进行人脸表情识别。本发明利用结合后的网络模型进行人脸表情识别,可以避免出现池化层丢失特征数据的问题,以及避免出现胶囊网络自身卷积层特征提取不足的问题。

Description

ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法
技术领域
本发明涉及人脸识别技术领域,特别涉及ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法。
背景技术
人脸表情识别技术的应用领域也越来越广泛,如医学、安全驾驶、零售等领域。
现有的人脸表情识别方法,通常依赖于卷积神经网络实现,在基于卷积神经网络对人脸进行特征提取时,卷积神经网络中的池化层存在丢失特征数据的问题。针对这一问题,虽然通过胶囊网络对人脸进行特征提取,可以保留卷积模块提取到的特征数据,但是胶囊网络存在自身卷积层特征提取不足的问题。
故而,在人脸识别技术领域有必要提供一种稳定的人脸表情识别方法。
发明内容
为了解决现有技术中的问题,本发明实施例提供了一种ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法。所述技术方案如下:
第一方面,本发明提供了一种ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,包括如下步骤:
步骤一、构建胶囊网络:所述胶囊网络包括:卷积层、初级胶囊层、数字胶囊层,所述卷积层是通道数为256,卷积核大小为9×9,步长为1的单卷积层,所述初级胶囊层包括:通道数为256、卷积核大小为9×9、步长为2的单卷积层,所述数字胶囊层包含7个胶囊,且所述数字胶囊层由所述初级胶囊层经过路由机制得到;
步骤二、调整ResNet18网络模型:去除ResNet18网络模型的全连接层,剔除ResNet18网络模型的全局平均池化层,将ResNet18网络模型的第一个卷积层的卷积核大小由3×3修改为5×5,ResNet18网络模型的第一个残差块保持不变,将ResNet18网络模型的第二个残差块和第三个残差块的步长调整为1,将所述ResNet的第四个残差块的通道数修改为256;
步骤三、在调整后的ResNet18网络模型的四个残差块中加入注意力机制;
步骤四、利用调整后的ResNet18网络模型替换所述胶囊网络的单卷积层;
步骤五、利用调整后的ResNet18网络模型从输入特征中提取训练特征图;包括:在所述输入特征上进行全局最大池化和全局平均池化得到两个一维向量,所述两个一维向量经过共享MLP层处理后相加,再经过Sigmoid激活函数,得到通道注意力权重,在所述通道注意力权重和输入特征的乘积上进行最大池化和平均池化,得到两个特征图,所述两个特征图经过卷积核大小为7×7的卷积层处理,得到一个新的特征图,再经过BN层和Sigmoid激活函数,得到空间注意力权重,将所述空间注意力权重与所述通道注意力权重和输入特征的乘积相乘得到所述训练特征图;
步骤六、将所述训练特征图输入至所述胶囊网络中进行训练,得到网络模型;
步骤七、针对所述网络模型,采用L2范数进行剪枝处理:具体包括如下步骤:
S1、通过L2范数评估所述网络模型每一层卷积的通道;其中,所述L2范数的计算公式如下:
Figure BDA0003902072560000021
式中:x为输入向量,n为输入向量总的维度,i为当前输入向量的维数;
S2、判断所述通道是否满足L2范数,所述网络模型的卷积层中不满足L2范数的通道进行删减,并将所述训练特征图重新输入到所述网络模型中进行训练;
S3、重复执行上述步骤S1、S2,直至所述网络模型每一层卷积的通道满足L2范数;
S4、对所述网络模型的参数进行微调;
步骤八、利用数据集进行人脸表情识别:所述数据集至少包括:CK+数据集、RAF-db数据集、FER+数据集。
进一步的,所述步骤一中,路由机制为所述胶囊网络的核心,低层特征和高层特征之间通过所述路由机制更新权重系数,且所述胶囊网络中采用的是动态路由机制,所述胶囊网络中的动态路由机制迭代3次。
进一步的,所述步骤一中,胶囊网络的初级胶囊层将提取到的特征封装为32个胶囊,每个胶囊含有8个卷积单元。
进一步的,所述步骤二中,ResNet18网络模型的四个残差块中加入的注意力机制为混合域的注意力机制,所述混合域的注意力机制包含通道域注意力机制和空间域注意力机制。
进一步的,所述步骤六中,胶囊网络采用ReLU激活函数;将所述胶囊网络采用的ReLU激活函数修改为ReLU6激活函数。
进一步的,所方法还包括:
网络模型构建模块,用于构建胶囊网络;所述胶囊网络包括:卷积层、初级胶囊层、数字胶囊层,所述卷积层是通道数为256,卷积核大小为9×9,步长为1的单卷积层,所述初级胶囊层包括:通道数为256、卷积核大小为9×9、步长为2的单卷积层,所述数字胶囊层包含7个胶囊,且所述数字胶囊层由所述初级胶囊层经过路由机制得到;
网络模型调整模块,用于调整ResNet18网络模型,包括:去除ResNet18网络模型的全连接层,剔除ResNet18网络模型的全局平均池化层,将ResNet18网络模型的第一个卷积层的卷积核大小由3×3修改为5×5,ResNet18网络模型的第一个残差块保持不变,将ResNet18网络模型的第二个残差块和第三个残差块的步长调整为1,将所述ResNet的第四个残差块的通道数修改为256;
注意力融入模块,用于在调整后的ResNet18网络模型的四个残差块中加入注意力机制;
卷积层替换模块,利用调整后的ResNet18网络模型替换所述胶囊网络的单卷积层;
特征图提取模块,利用调整后的ResNet18网络模型从输入特征中提取训练特征图;包括:在所述输入特征上进行全局最大池化和全局平均池化得到两个一维向量,所述两个一维向量经过共享MLP层处理后相加,再经过Sigmoid激活函数,得到通道注意力权重,在所述通道注意力权重和输入特征的乘积上进行最大池化和平均池化,得到两个特征图,所述两个特征图经过卷积核大小为7×7的卷积层处理,得到一个新的特征图,再经过BN层和Sigmoid激活函数,得到空间注意力权重,将所述空间注意力权重与所述通道注意力权重和输入特征的乘积相乘得到所述训练特征图;
网络模型训练模块,用于将所述训练特征图输入至所述胶囊网络中进行训练,得到网络模型;
剪枝处理模块,用于针对所述网络模型,采用L2范数进行剪枝处理;
人脸表情识别模块,利用数据集进行人脸表情识别:所述数据集至少包括:CK+数据集、RAF-db数据集、FER+数据集。
本发明实施例提供的技术方案至少具有以下技术效果:
本发明实施例中,将调整后的残差网络与胶囊网络进行结合,并训练得到结合后的网络模型,利用结合后的网络模型进行人脸表情识别,可以避免出现卷积神经网络中的池化层丢失特征数据的问题,以及避免出现胶囊网络自身卷积层特征提取不足的问题。另外,针对结合后的网络模型,还进行通道剪枝处理,使得基于结合后的网络模型进行人脸表情识别时,可以减少网络模型参数量,提高网络模型的计算效率,同时还可以提高网络模型的人脸表情识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1中人脸表情识别方法的流程图;
图2是本发明实施例1中胶囊网络架构的示意图;
图3(a)是本发明实施例1中空间域注意力机制的示意图;
图3(b)是本发明实施例1中通道域注意力机制的示意图;
图4是本发明实施例1中ResNet18网络模型中原始残差块结构图;
图5是本发明实施例1中ResNet18网络模型的残差块加入注意力机制的示意图;
图6是本发明实施例1中ResNet18网络模型采用的混合域注意力机制的示意图;
图7a是本发明实施例1中ResNet18网络模型中的通道域注意力机制流程图;
图7b是本发明实施例1中ResNet18网络模型中空间域注意力机制流程图;
图8是本发明实施例1中ResNet18与胶囊网络结合后的网络模型的架构图;
图9是本发明实施例1中网络模型的剪枝处理流程图;
图10是本发明实施例2中人脸表情识别装置的示意图;
图11是本发明实施例3中利用方式一加入注意力机制的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供了一种ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,下面将结合具体实施方式,对图1所示的ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法流程进行详细的说明,具体实施方式的内容可以如下:
S101、构建胶囊网络,该胶囊网络的具体网络架构如图2所示。胶囊网络包括:卷积层、初级胶囊层、数字胶囊层。胶囊网络中的卷积层是通道数为256,卷积核大小为9×9,步长为1的单卷积层。胶囊网络中的初级胶囊层包括:通道数为256、卷积核大小为9×9、步长为2的单卷积层。胶囊网络中的数字胶囊层包含7个胶囊,且数字胶囊层是由初级胶囊层经过路由机制得到。
可选的,胶囊网络的初级胶囊层还将提取到的特征封装为32个胶囊,每个胶囊含有8个卷积单元。
在实施中,胶囊网络的卷积层的作用主要是用来提取输入数据的特征。数字胶囊层的7个胶囊分别对应的是7个类型(开心、惊讶、悲伤、生气、恐惧、憎恶、中性表情)的人脸面部表情。
可选的,路由机制为胶囊网络的核心,通过胶囊网络所提取的低层特征和高层特征之间通过路由机制来更新权重系数,且路由机制采用的是动态路由机制,胶囊网络中的动态路由机制可以迭代3次。
S102、调整ResNet18网络模型,包括:去除ResNet18网络模型的全连接层,剔除ResNet18网络模型的全局平均池化层,将ResNet18网络模型的第一个卷积层的卷积核大小由3×3修改为5×5,ResNet18网络模型的第一个残差块保持不变,将ResNet18网络模型的第二个残差块和第三个残差块的步长调整为1,将ResNet的第四个残差块的通道数修改为256。
实施中,ResNet(Residual Network)18网络中,18表示残差网络中包括17个卷积层和1个全连接层,为了保证ResNet18网络模型与胶囊网络的结合,对ResNet18网络模型执行上述步骤S102的调整。
S103、在调整后的ResNet18网络模型的四个残差块中加入注意力机制。
可选的,为了提取图像中关键的特征数据,针对ResNet18网络模型中的原始残差块,原始残差块结构如图4所示,加入了注意力机制。ResNet18网络模型的四个残差块中加入的注意力机制为混合域的注意力机制,混合域的注意力机制包含通道域注意力机制和空间域注意力机制。ResNet18网络模型的残差块中加入注意力机制后的结构如图5所示。
实施中,注意力机制从关注域方面可以分为三种类型,包括:空间域注意力机制、通道域注意力机制和混合域注意力机制。空间域注意力机制的示意图3a所示,通道域注意力机制的示意图如图3b所示。空间域注意力机制是将输入的样本图像经过一个空间转换器模型,对样本图像中的空间域信息进行空间转换,以提取图像中关键的特征数据,并赋予不同的权重。通道域注意力机制是将空间维度进行特征压缩,即每个二维的特征图转换为一个实数,用于表征通道的权重,相当于具有全局感受野的池化操作,特征通道数保持不变。如图6所示的混合注意力机制,是通道域注意力机制和空间域注意力机制的结合,使得其同时具备两种注意力机制的特性,在本实施方式中,便是将混合注意力机制融入到ResNet18网络模型中,使得在利用ResNet18网络模型在提取特征的过程中,可以关注到关键的特征信息。
S104、利用调整后的ResNet18网络模型替换胶囊网络的单卷积层。
在实施中,在胶囊网络构建完成,以及ResNet18网络模型调整完成之后,将调整后的ResNet18网络模型来替换胶囊网络的单卷积层,以实现后续的特征提取。
S105、利用调整后的ResNet18网络模型从输入特征中提取训练特征图,训练特征图的提取过程如图7所示,具体步骤可以如下:如图7a所示,在输入特征上进行全局最大池化和全局平均池化得到两个一维向量,两个一维向量经过共享MLP层处理后相加,再经过Sigmoid激活函数,得到通道注意力权重。如图7b所示,在通道注意力权重和输入特征的乘积上进行最大池化和平均池化,得到两个特征图,两个特征图经过卷积核大小为7×7的卷积层处理,得到一个新的特征图,再经过BN层和Sigmoid激活函数,得到空间注意力权重,将空间注意力权重与通道注意力权重和输入特征的乘积相乘得到训练特征图。
S106、将训练特征图输入至胶囊网络中进行训练,得到网络模型。
在实施中,如图8所示,保留ResNet18网络模型的卷积层,对其中的三个残差块进行调整,并融入注意力机制,替换胶囊网络的单卷积层来提取特征数据,再将提取的特征数据输入胶囊网络进行训练得到最终的网络模型,从而避免出现胶囊网络自身卷积层特征提取不足的问题。
S107、针对网络模型,采用L2范数进行剪枝处理;具体处理流程如图9所示,包括如下步骤:
S1、通过L2范数评估网络模型每一层卷积的通道;
L2范数的计算公式如下:
Figure BDA0003902072560000061
式中:x为输入向量,n为输入向量总的维度,i为当前输入向量的维数;
S2、判断通道是否满足L2范数,网络模型的卷积层中不满足L2范数的通道进行删减,并将训练特征图重新输入到网络模型中进行训练;
可选的,剪枝训练过程中将胶囊网络中的ReLU激活函数修改为更适合模型压缩的ReLU6激活函数。
S3、重复执行上述步骤S1、S2,直至网络模型每一层卷积的通道满足L2范数;
S4、对网络模型的参数进行微调;
在实施中,考虑到网络模型运行时需要大量的计算、内存和功耗,导致应用的场景十分受限,则根据权重的大小对网络模型进行剪枝处理。
在数学领域,范数包括向量范数和矩阵范数,向量范数是表征向量空间中向量的大小,矩阵范数是表征矩阵引起变化的大小。在卷积神经网络中,滤波器是一个矩阵,因此可以通过滤波器范数的大小来判断该滤波器的重要程度,从而判断是否需要对该滤波器减小剪枝。
L0范数是指向量中非0元素的个数,目标是希望大部分的元素都是零,也就是让参数稀疏化,从而达到模型压缩的效果,但是L0范数存在NP难的问题,计算机很难进行优化求解,因此不适合用来进行模型剪枝。
L1范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”,L0范数的最优凸近似,在一定条件下,以概率1意义下是等价的,公式下所示:
Figure BDA0003902072560000071
在正则化过程中,L1范数主要用来惩罚非零参数,导致更多参数接近零,这些接近零的参数就是一些作用不大的信息特征,剪掉这些参数,从而减少计算量。
L2范数是指向量中各个元素平方之和再开算术平方根。与L0、L1范数不同,在正则化过程中,L2范数是让所有的参数都趋近于零而不是等于零。参数越小,对多项式某些分量的限制效果就越好,这样既有效地减少模型过拟合问题,又大大减少了模型参数量从而达到模型压缩的效果。此外,从优化计算角度考虑,L2范数使所有参数趋于零的特性有助于解决病态问题。鉴于此,选择L2范数作为剪枝的标准,对网络模型进行剪枝优化。
S108、利用网络模型,基于数据集进行人脸表情识别;数据集至少包括:CK+数据集、RAF-db数据集、FER+数据集。
在实施中,CK+数据集在实验室条件下建立的数据集,发布于2010年,共有981张48×48大小的图片,该数据集共分为7类表情。RAF-db数据集制作是目前最严苛的人脸表情数据集,该数据集中的每张图片都是通过40个标注者投票,然后取最高票数的那一类表情作为该图片的标签,图片大小是100×100。FER+数据集是英特尔公司在2017年时对FER2013数据集重新标注而得出,图片大小是48×48。它将数据分为10类,实验仅使用其中的7类表情。
实施例2
基于相同的发明构思,如图10所示,本发明实施例还提供了一种ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,还包括:
网络模型构建模块,用于构建胶囊网络;所述胶囊网络包括:卷积层、初级胶囊层、数字胶囊层,所述卷积层是通道数为256,卷积核大小为9×9,步长为1的单卷积层,所述初级胶囊层包括:通道数为256、卷积核大小为9×9、步长为2的单卷积层,所述数字胶囊层包含7个胶囊,且所述数字胶囊层由所述初级胶囊层经过路由机制得到;
网络模型调整模块,用于调整ResNet18网络模型,包括:去除ResNet18网络模型的全连接层,剔除ResNet18网络模型的全局平均池化层,将ResNet18网络模型的第一个卷积层的卷积核大小由3×3修改为5×5,ResNet18网络模型的第一个残差块保持不变,将ResNet18网络模型的第二个残差块和第三个残差块的步长调整为1,将所述ResNet的第四个残差块的通道数修改为256;
注意力融入模块,用于在调整后的ResNet18网络模型的四个残差块中加入注意力机制;
卷积层替换模块,利用调整后的ResNet18网络模型替换所述胶囊网络的单卷积层;
特征图提取模块,利用调整后的ResNet18网络模型从输入特征中提取训练特征图;包括:在所述输入特征上进行全局最大池化和全局平均池化得到两个一维向量,所述两个一维向量经过共享MLP层处理后相加,再经过Sigmoid激活函数,得到通道注意力权重,在所述通道注意力权重和输入特征的乘积上进行最大池化和平均池化,得到两个特征图,所述两个特征图经过卷积核大小为7×7的卷积层处理,得到一个新的特征图,再经过BN层和Sigmoid激活函数,得到空间注意力权重,将所述空间注意力权重与所述通道注意力权重和输入特征的乘积相乘得到所述训练特征图;
网络模型训练模块,用于将所述训练特征图输入至所述胶囊网络中进行训练,得到网络模型;
剪枝处理模块,用于针对所述网络模型,采用L2范数进行剪枝处理;
人脸表情识别模块,利用数据集进行人脸表情识别:所述数据集至少包括:CK+数据集、RAF-db数据集、FER+数据集。
实施例3
为验证上述实施例一、二中所提出的方案的可行性和有效性,在CK+数据集、RAF-db数据集、FER+数据集上进行验证实验。在使用FER+数据集时,采用两种方法:一种是单标签,即选用最大概率的表情作为该图片的标签;二是考虑到数据集存在两种等概率表情的图片,如一张图片中性和悲伤表情的概率均为40,因此采用双标签来对数据进行标注。测试时,选择分类概率最高的作为识别结果,然后与标签进行对比,所有识别正确的图片数与总数之比即为识别率。单标签识别正确的标准是二者相同,而双标签识别正确的标准是识别结果为标签的任意一种。
首先,针对ResNet18与胶囊网络结合进行实验分析。
如下表1是三个数据集在不同网络下的识别率,从中可以看出在CK+数据集上,单独的CapsNet对于人脸表情识别的准确率是非常低的。这是因为CapsNet只有单卷积层,对复杂的人脸表情特征提取不足,再加上该网络的鲁棒性要比卷积神经网络差一些,导致其在人脸表情识别方面比ResNet18网络模型差很多,但是CapsNet在训练时收敛比较快,训练50代左右就可以达到最高准确率,而ResNet18网络模型需要训练200代才能达到最高准确率。本实施方式中将二者进行结合使其优势互补,ResCapsNet网络仅需训练50代就可以达到最高准确率,而且在CK+、RAF-db和FER+三个数据集上识别率分别提升了3.03%、6.30%、3.35%。
表1三个数据集在不同网络下的识别率表
Figure BDA0003902072560000091
其次,针对注意力机制对网络性能影响分析。
为进一步提高网络性能,本实施方式中,在ResCapsNet中采用两种方式添加不同的注意力机制,方式一如图11所示,方式二如图5所示,并在RAF_db、FER+数据集上进行对比实验,具体实验结果如表2、3所示:
表2 RAF-db数据集上的实验结果表
Figure BDA0003902072560000092
表3 FER+数据集上的实验结果表
Figure BDA0003902072560000093
ResCapsNet中共有四个残差块,从表2、3中的实验结果不难看出方式二的准确率普遍比方式一高,且在三种注意力机制中,添加CBAM效果最好。从表4中可以看出ResCapsNet在采用方式二增加CBAM注意力机制后,比未添加时,CK+数据集识别准确率提升1.01%,RAF-db数据集提升1.24%,FER+数据集识别提升1.28%,由此可以说明在残差块中增加CBAM注意力机制是非常有效的。
表4有无CBAM注意力机制实验结果对比表
Figure BDA0003902072560000094
再者,针对不同方法实验结果对比分析。
表5、6是加入CBAM注意力机制的ResCapsNet网络在RAF-db和FER+数据集上与现有技术中方法的实验结果对比。从两个表中可以看出与目前人脸表情识别方法相比,本实施方式中所提出的方法是具有一定优势的。并且从表6中可以明显看出,FER+数据集采用双标签识别准确率达到94.14%,远高于单标签准确率,由此在一定程度上说明生活中人脸面部表情并不是单一表情,而是多种表情复合而成。
表5 RAF-db数据集在不同方法下的实验结果表
Figure BDA0003902072560000101
表6 FER+数据集在不同方法下的实验结果表
Figure BDA0003902072560000102
最后,针对网络模型剪枝优化后的实验结果对比分析。
表7是用剪枝算法优化之前和之后的实验结果对比,其中剪枝算法的剪枝策略采用了两种不同的范数进行了对比实验。从表中可以看出剪枝后识别准确率有所下降但是不大,而剪枝后的模型大小降低很明显,约为原来模型的1/5,由此可以说明本实施方式中提出剪枝方法的有效性和可行性。
表7在RAF-db数据集实验结果对比表
Figure BDA0003902072560000103
由上可见,本发明实施例中,将调整后的残差网络与胶囊网络进行结合,并训练得到结合后的网络模型,利用结合后的网络模型进行人脸表情识别,可以避免出现卷积神经网络中的池化层丢失特征数据的问题,以及避免出现胶囊网络自身卷积层特征提取不足的问题。另外,针对结合后的网络模型,还进行通道剪枝处理,使得基于结合后的网络模型进行人脸表情识别时,可以减少网络模型参数量,提高网络模型的计算效率,同时还可以提高网络模型的人脸表情识别准确率。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,其特征在于,包括如下步骤:
步骤一、构建胶囊网络:所述胶囊网络包括:卷积层、初级胶囊层、数字胶囊层,所述卷积层是通道数为256,卷积核大小为9×9,步长为1的单卷积层,所述初级胶囊层包括:通道数为256、卷积核大小为9×9、步长为2的单卷积层,所述数字胶囊层包含7个胶囊,且所述数字胶囊层由所述初级胶囊层经过路由机制得到;
步骤二、调整ResNet18网络模型:去除ResNet18网络模型的全连接层,剔除ResNet18网络模型的全局平均池化层,将ResNet18网络模型的第一个卷积层的卷积核大小由3×3修改为5×5,ResNet18网络模型的第一个残差块保持不变,将ResNet18网络模型的第二个残差块和第三个残差块的步长调整为1,将所述ResNet的第四个残差块的通道数修改为256;
步骤三、在调整后的ResNet18网络模型的四个残差块中加入注意力机制;
步骤四、利用调整后的ResNet18网络模型替换所述胶囊网络的单卷积层;
步骤五、利用调整后的ResNet18网络模型从输入特征中提取训练特征图;包括:在所述输入特征上进行全局最大池化和全局平均池化得到两个一维向量,所述两个一维向量经过共享MLP层处理后相加,再经过Sigmoid激活函数,得到通道注意力权重,在所述通道注意力权重和输入特征的乘积上进行最大池化和平均池化,得到两个特征图,所述两个特征图经过卷积核大小为7×7的卷积层处理,得到一个新的特征图,再经过BN层和Sigmoid激活函数,得到空间注意力权重,将所述空间注意力权重与所述通道注意力权重和输入特征的乘积相乘得到所述训练特征图;
步骤六、将所述训练特征图输入至所述胶囊网络中进行训练,得到网络模型;
步骤七、针对所述网络模型,采用L2范数进行剪枝处理:具体包括如下步骤:
S1、通过L2范数评估所述网络模型每一层卷积的通道;其中,所述L2范数的计算公式如下:
Figure FDA0003902072550000011
式中:x为输入向量,n为输入向量总的维度,i为当前输入向量的维数;
S2、判断所述通道是否满足L2范数,所述网络模型的卷积层中不满足L2范数的通道进行删减,并将所述训练特征图重新输入到所述网络模型中进行训练;
S3、重复执行上述步骤S1、S2,直至所述网络模型每一层卷积的通道满足L2范数;
S4、对所述网络模型的参数进行微调;
步骤八、利用数据集进行人脸表情识别:所述数据集至少包括:CK+数据集、RAF-db数据集、FER+数据集。
2.根据权利要求1所述的ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,其特征在于,所述步骤一中,路由机制为所述胶囊网络的核心,低层特征和高层特征之间通过所述路由机制更新权重系数,且所述胶囊网络中采用的是动态路由机制,所述胶囊网络中的动态路由机制迭代3次。
3.根据权利要求1或2所述的ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,其特征在于,所述步骤一中,胶囊网络的初级胶囊层将提取到的特征封装为32个胶囊,每个胶囊含有8个卷积单元。
4.根据权利要求1所述的ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,其特征在于,所述步骤二中,ResNet18网络模型的四个残差块中加入的注意力机制为混合域的注意力机制,所述混合域的注意力机制包含通道域注意力机制和空间域注意力机制。
5.根据权利要求1所述的ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,其特征在于,所述步骤六中,胶囊网络采用ReLU激活函数;将所述胶囊网络采用的ReLU激活函数修改为ReLU6激活函数。
6.根据权利要求1所述的ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法,其特征在于,所述方法还包括如下模块:
网络模型构建模块,用于构建胶囊网络;所述胶囊网络包括:卷积层、初级胶囊层、数字胶囊层,所述卷积层是通道数为256,卷积核大小为9×9,步长为1的单卷积层,所述初级胶囊层包括:通道数为256、卷积核大小为9×9、步长为2的单卷积层,所述数字胶囊层包含7个胶囊,且所述数字胶囊层由所述初级胶囊层经过路由机制得到;
网络模型调整模块,用于调整ResNet18网络模型,包括:去除ResNet18网络模型的全连接层,剔除ResNet18网络模型的全局平均池化层,将ResNet18网络模型的第一个卷积层的卷积核大小由3×3修改为5×5,ResNet18网络模型的第一个残差块保持不变,将ResNet18网络模型的第二个残差块和第三个残差块的步长调整为1,将所述ResNet的第四个残差块的通道数修改为256;
注意力融入模块,用于在调整后的ResNet18网络模型的四个残差块中加入注意力机制;
卷积层替换模块,利用调整后的ResNet18网络模型替换所述胶囊网络的单卷积层;
特征图提取模块,利用调整后的ResNet18网络模型从输入特征中提取训练特征图;包括:在所述输入特征上进行全局最大池化和全局平均池化得到两个一维向量,所述两个一维向量经过共享MLP层处理后相加,再经过Sigmoid激活函数,得到通道注意力权重,在所述通道注意力权重和输入特征的乘积上进行最大池化和平均池化,得到两个特征图,所述两个特征图经过卷积核大小为7×7的卷积层处理,得到一个新的特征图,再经过BN层和Sigmoid激活函数,得到空间注意力权重,将所述空间注意力权重与所述通道注意力权重和输入特征的乘积相乘得到所述训练特征图;
网络模型训练模块,用于将所述训练特征图输入至所述胶囊网络中进行训练,得到网络模型;
剪枝处理模块,用于针对所述网络模型,采用L2范数进行剪枝处理;
人脸表情识别模块,利用数据集进行人脸表情识别:所述数据集至少包括:CK+数据集、RAF-db数据集、FER+数据集。
CN202211294780.6A 2022-10-21 2022-10-21 ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法 Withdrawn CN115471899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211294780.6A CN115471899A (zh) 2022-10-21 2022-10-21 ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211294780.6A CN115471899A (zh) 2022-10-21 2022-10-21 ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法

Publications (1)

Publication Number Publication Date
CN115471899A true CN115471899A (zh) 2022-12-13

Family

ID=84336434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211294780.6A Withdrawn CN115471899A (zh) 2022-10-21 2022-10-21 ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN115471899A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452007A (zh) * 2023-06-15 2023-07-18 深圳市迪博企业风险管理技术有限公司 一种基于胶囊网络的企业税收合规风险评估方法
CN118015687A (zh) * 2024-04-10 2024-05-10 齐鲁工业大学(山东省科学院) 改进的多尺度注意残差关系感知的表情识别方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452007A (zh) * 2023-06-15 2023-07-18 深圳市迪博企业风险管理技术有限公司 一种基于胶囊网络的企业税收合规风险评估方法
CN116452007B (zh) * 2023-06-15 2023-09-19 深圳市迪博企业风险管理技术有限公司 一种基于胶囊网络的企业税收合规风险评估方法
CN118015687A (zh) * 2024-04-10 2024-05-10 齐鲁工业大学(山东省科学院) 改进的多尺度注意残差关系感知的表情识别方法及装置

Similar Documents

Publication Publication Date Title
Chen et al. Shallowing deep networks: Layer-wise pruning based on feature representations
CN111626300B (zh) 基于上下文感知的图像语义分割模型的图像分割方法及建模方法
Zeng et al. Large-scale JPEG image steganalysis using hybrid deep-learning framework
CN115471899A (zh) ResNet18与胶囊网络结合并进行剪枝的人脸表情识别方法
CN112199536A (zh) 一种基于跨模态的快速多标签图像分类方法和系统
Chen et al. Automated design of neural network architectures with reinforcement learning for detection of global manipulations
CN116563410A (zh) 基于两级生成对抗网络的电气设备电火花图像生成方法
CN113850311A (zh) 一种基于分组和多样性增强的长尾分布图像识别方法
CN112183602A (zh) 一种带有并行卷积块的多层特征融合细粒度图像分类方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
Kumar et al. Pair wise training for stacked convolutional autoencoders using small scale images
Dan et al. PF‐ViT: Parallel and Fast Vision Transformer for Offline Handwritten Chinese Character Recognition
CN114492581A (zh) 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法
CN114359638A (zh) 图像的残差胶囊网络分类模型、分类方法、设备及存储介质
Shah et al. Deriving compact feature representations via annealed contraction
KR20210038027A (ko) 신경망 압축 훈련 방법 및 압축된 신경망을 이용하는 방법
CN116468902A (zh) 图像的处理方法、装置和非易失性计算机可读存储介质
CN116363361A (zh) 基于实时语义分割网络的自动驾驶方法
CN115908697A (zh) 基于点云概率分布学习的生成模型及其方法
CN114863132A (zh) 图像空域信息的建模与捕捉方法、系统、设备及存储介质
CN113688715A (zh) 面部表情识别方法及系统
CN113762241A (zh) 场景文字识别模型的训练方法与识别方法及装置
CN112258425A (zh) 一种二维码图像清晰化去模糊处理方法
CN112001431A (zh) 一种基于梳状卷积的高效图像分类方法
CN110543569A (zh) 用于短文本意图识别的网络层结构及短文本意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20221213