CN116798093A - 一种基于课程学习和标签平滑的两阶段面部表情识别方法 - Google Patents
一种基于课程学习和标签平滑的两阶段面部表情识别方法 Download PDFInfo
- Publication number
- CN116798093A CN116798093A CN202310683984.7A CN202310683984A CN116798093A CN 116798093 A CN116798093 A CN 116798093A CN 202310683984 A CN202310683984 A CN 202310683984A CN 116798093 A CN116798093 A CN 116798093A
- Authority
- CN
- China
- Prior art keywords
- network
- label
- labels
- classification network
- smoothing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 67
- 238000009499 grossing Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 55
- 230000014509 gene expression Effects 0.000 claims abstract description 48
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 18
- 230000008447 perception Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000002474 experimental method Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims description 7
- 238000012958 reprocessing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 206010063659 Aversion Diseases 0.000 claims description 3
- 208000013875 Heart injury Diseases 0.000 claims description 3
- 238000000137 annealing Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000001097 facial muscle Anatomy 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于课程学习和标签平滑的两阶段面部表情识别方法,包括如下步骤:首先将原数据集标签处理为二级结构的标签,即每个训练样本包含一个粗分类标签和细分类标签;随后设计包含粗分类网络和细分类网络的两阶段分层级联卷积神经网络;而后将课程学习的思想引入面部表情识别中,设计样本置信度感知的步调学习模块和动态标签平滑模块,根据训练进度动态调整平滑因子的大小,并逐步引入由易到难的训练样本;利用训练好的模型权重参数和构建的识别网络进行表情识别效果评估;本发明对包含易混淆标签和噪声标签的面部表情具有良好的鲁棒性和泛化性,主客观测试评价结果和对比实验都证明了本发明方法的有效性和先进性。
Description
技术领域
本发明涉及基于深度学习的人脸面部表情识别领域,特别涉及基于课程学习和标签平滑的两阶段面部表情识别方法。
背景技术
近年来,随着现代科学技术和互联网技术的飞速发展,人类进入了信息化时代。科技的进步也极大的促进了社会发展,方便了人们的日常生活。尤其在人工智能领域,以计算机视觉方向为主的很多研究成果已经广泛应用于人们的日常生活中,比如,以人脸识别、目标检测和自动驾驶等先进技术,构建起了数字世界和现实世界的桥梁,为现实世界提供了更多信息化和智能化的服务。因此在人工智能领域中,如何更好的模拟人类认知水平,赋予机器人类的思考能力和情绪感知能力,提升人机交互体验,是研究者们不断探索的难题。面部表情识别技术是计算机视觉领域中的一项重要任务,旨在从人脸图像或视频中准确地识别出人脸表情,如快乐、愤怒、悲伤、惊讶等。在人机交互中,情绪识别是重要的研究方向之一。机器识别面部表情变化,从而感知人的内心想法和情绪,通过对人脸图像进行分析,能够有效地帮助人们更好地理解人类情绪。面部表情识别在智能驾驶、医学诊断和心理咨询等领域具有广泛的应用前景。因此,开发一种高效的面部表情识别方法,使得计算机能够高效准确的识别人脸中的面部表情,提高人机交互的能力具有重要的现实意义。
为解决面部表情识别任务容易受到噪声标签和不确定标签影响的问题,许多方法试图挖掘样本潜在标签分布来纠正面部表情数据集中的不确定性。文献1(Wang K,Peng X,Yang J,et al.Suppressing uncertainties for large-scale facial expressionrecognition[C]//Proceedings of the IEEE/CVF conference on computer vision andpattern recognition.2020:6897-6906.)是一种从抑制不确定性噪声标签角度来提升面部表情识别性能的方法,该方法从两个方面抑制不确定性,首先在每个batch上的自注意力机制对每个训练样本加权,进行权重等级正则化,然后通过重新标注机制修正最低权重组的样本标签,从而更好地学习面部表情特征。该方法对包含噪声标签的面部表情数据具有较强的鲁棒性和泛化性能。文献2(Jiahui She,Yibo Hu,Hailin Shi,Jun Wang,Qiu Shen,and Tao Mei.Dive into ambiguity:Latent distribution mining and pairwiseuncertainty estimation for facial expression recognition.In Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition,pages6248–6257,2021.)设计了一个不确定性估计模块从挖掘的标签分布和真实样本标签中动态学习。上述方法在不确定标签处理方面均取得了不错的效果,但是在存在类间样本数量不平衡和类内难度级别不平衡的情况下,这些方法没有观察到噪声标签的影响。
自然环境下的面部表情识别具有特定的复杂性,其原因如下:在自然环境中,通常会受到标注者的主观性、不同表情的模糊性以及类间相似性等影响,包含大量不确定标签样本。以及部分表情类别因面部肌肉变化高度相似,极易混淆,此外,常见的基于普通卷积神经网络的表情识别方法输出为所有类别概率,当表情类别过多以及某几类表情数据特征相近时,就会出现某几类表情易混淆的情况。因此极大的影响了模型的稳定性和整体识别性能。
发明内容
为克服部分表情类别面部变化高度相似容易引起混淆和不确定标签引起的标签歧义问题,本发明提出一种基于课程学习和标签平滑的两阶段面部表情识别方法,该方法首先构建了两阶段的分层级联卷积神经网络,分别设计了粗分类网络和细分类网络,并在训练过程中设计了交替式训练方法。随后将课程学习的思想引入面部表情识别中,设计了样本置信度感知的步调学习模块和动态标签平滑模块,根据训练进度动态调整平滑因子的大小,并逐步引入由易到难的训练样本。实现动态调整不确定标签样本的比例和难度。通过上述方法,能够有效减少不确定标签的影响,提升模型泛化能力。
一种基于课程学习和标签平滑的两阶段面部表情识别方法,具体包括以下步骤:
S1、首先,根据粗细分类网络的功能将原数据集标签处理为两级标签,即每个样本都有一个粗分类标签和一个细分类标签;粗分类标签应用于粗分类网络,根据粗分类网络的分类结果,再将细分类标签应用于相应的细分类网络中。标签再处理具体过程如下:
B1、粗分类网络表情数据集标签再处理:所述粗分类网络为二分类网络,将原数据集标签修改为易混淆和不易混淆两大类,即将数据集标签需要处理为二级结构,包含一级标签和二级标签。将生气、伤心、厌恶和害怕划分为易混淆表情类别,将高兴、惊讶和中性划分为不易混淆的表情类别;粗分类网络的数据集标签被处理为第一级标签,在粗分类网络阶段将全部数据集标签统一修改为0或1,其中0表示不易混淆类的标签,1表示易混淆类的标签。
B2、细分类网络表情数据集标签再处理:细分类网络分为两个部分,分别是细分类网络A(不易混淆)和细分类网络B(易混淆),两个网络分别承担着分类不易混淆类和易混淆类表情的任务。在粗标签基础上,进一步将表情数据集标签处理为两级结构;细分类网络的数据集标签将处理为第二级标签,与粗分类网络数据标签相似,细分类网络数据标签采用数字表示表情类别。将4个易混淆类别标签的细标签处理为0到3,其他3类处理为0到2。经细分类网络处理后的表情标签为两级标签,即粗标签+细标签的结构。
S2、对步骤S1中的面部表情训练集图像进行人脸裁剪和对齐,并使用图像增强算法进行数据增强和数据平衡,得到预处理后的面部表情图像训练集;
S3、构建两阶段分层级联卷积神经网络,在分层级联卷积神经网络结构设计方面,网络结构中粗分类网络和细分类网络将共用卷积神经网络的前三层。总网络分为3个部分,分别是粗分类网络,设置为2分类网络;细分类网络A(易混淆),设置为3分类网络;细分类网络B(不易混淆),设置为4分类网络。两阶段粗细分层级联卷积神经网络构建过程如下:
C1、粗分类网络结构设计:所述粗分类网络为二分类网络结构,基础网络选择ResNet-18,网络残差块里包含2个有相同输出通道数的卷积层,每个卷积层后接一个批归一化层和ReLU激活函数,将ResNet-18的输出调整为二分类输出,并将输入通道数修改为512,输出修改为64,同时增加一个通道数为64,输出为2的全连接层。
C2、细分类网络结构设计:细分类网络为两个网络,两个细分类网络结构采用迁移学习的思想,与粗分类网络共用网络的前三层,细分类网络残差块里均包含2个有相同输出通道数的卷积层,每个卷积层后接一个批归一化层和ReLU激活函数;整个网络从结构上看呈现并联结构;细分类网络A将对不容易产生混淆的表情进行分类,设计为3分类网络;细分类网络B将对容易产生混淆的表情进行分类,设计为4分类网络。
S4、构建样本置信度感知的步调学习模块,本发明基于预先定义的样本库实施置信度感知的步调学习,首先使用交叉熵损失训练的基线模型来计算每个样本的置信度分数,并按置信度分数进行排序;随后设计了置信度感知的步调学习策略,调整超参数初始样本比率λ和epoch比率Eall,实现在训练过程中逐步引入从易到难的训练样本。
首先使用课程学习中的自步学习思想,自步学习将课程设计为目标函数中的一个正则化项,其形式化的优化目标可以表示为:
其中L(yi,f(xi,w))表示真实标签yi和预测标签f(xi,w)之间的标准损失函数。w是模型参数。v是长度为n权重向量,γ是步调参数。当步调参数γ较小时,只引入损失较小的“容易”样本进行训练,随着γ的增加,具有较大损失的“困难”样本逐步加入训练;
而后设计置信度感知的步调学习策略。首先调整超参数初始样本比率λ和epoch比率η,逐步引入所有训练样本。若初始样本比率为λ(开始训练时的初始样本数量与样本总数的比值),总epochs数为E,epoch比率为η(引入所有训练样本时的epoch与总epochs数E的比值),则步调参数p(每个epoch加入的更难样本的比率)可以表示为:
在实验中,通过调整初始样本比率λ和epoch比率η来控制步调参数p。
S5、构建动态标签平滑模块;本发明在均匀标签平滑(ULS)中动态降低平滑因子∈。具体来说,在训练的每个epoch以α(α<1)的衰减率退火平滑因子∈,衰减过程通过指数函数和线性函数实现。
动态标签平滑可以表示为:
其中,∈c为动态平滑因子,且∈c=α·∈c,α为平滑衰减率。
如果P是预测概率,则动态标签平滑目标的损失可以表示为:
S6、使用步骤S3、S4和S5构建的基于课程学习和标签平滑的两阶段面部表情识别网络对步骤S2中预处理后的面部表情图像训练集进行训练;训练时通过分类回归层输出的结果对人脸图像进行识别和预定位,同时用矩形框标注人脸位置,且对不同人脸图像进行标识,得到带标注框与表情类别的人脸图像;
S7、设置训练分层级联卷积神经网络时需要的相关超参数和常规优化算法,保存损失函数收敛时网络训练的权重参数文件;
S8、构建基于课程学习和标签平滑的两阶段面部表情识别网络模型,即将步骤S7获得的权重参数文件引入至步骤S3、S4和S5构建的分层级联网络中,并使用该识别模型对待识别人脸图像进行表情类别图像。
有益效果:
1、本发明提出一种基于课程学习和标签平滑的两阶段面部表情识别方法。首先使用人脸检测算法对人脸面部区域进行裁剪对齐,并采用随机旋转和随机水平翻转等手段进行数据增强,此外在数据增强过程中还进行了数据平衡,为原始数据较少的表情类别生成更多增强图像,能够有效减少数据不平衡对模型训练的影响。
2、本发明随后将面部表情图像输入样本置信度感知模块,先对训练样本进行从易到难的排序,再通过步调学习学习策略将训练样本从易到难的引入训练中,在两阶段分层级联网络进行粗细两级分类提取了不同尺度的面部特征后,再通过动态标签平滑模块对输出结果进行平滑处理,最后输入到分类回归层得到预测结果。分层级联网络的结构能够更好的表征面部表情特征,使得模型收敛更好,使用步调学习策略和动态标签平滑策略引导模型训练能够有效减少噪声标签的影响。
附图说明
图1为本发明实施例使用的人脸面部表情识别方法结构整体图;
图2为本发明实施例使用的人脸面部表情识别方法中涉及的组成模块说明图;其中,图a1为粗分类网络结构图,图a2为两阶段分层级联卷积神经网络结构图,图a3为样本置信度感知的步调学习过程图;
图3本发明实施例使用的数据集样本图;
图4为本发明实施例的人脸面部表情识别方法总体操作流程图;
图5为本发明实施例的部分人脸面部表情识别效果图;
图6为本发明实施例的部分人脸面部表情识别结果的混淆矩阵图。
具体实施方式
为了进一步描述本发明所提出的一种基于课程学习和标签平滑的两阶段面部表情识别方法,结合附图对本发明的一个实施例面部表情识别图像进行说明,以加强对本发明的目的、方法结构和应用效果的理解。实施例仅为对本发明的进一步解释,本领域的研究人员可在本发明的基础上进一步非根本技术的改进,其也在本发明保护的范围内。
一种基于课程学习和标签平滑的两阶段面部表情识别方法,具体包括以下步骤:
S1、首先,根据粗细分类网络的功能将原数据集标签处理为两级标签,即每个样本都有一个粗分类标签和一个细分类标签;粗分类标签应用于粗分类网络,根据粗分类网络的分类结果,再将细分类标签应用于相应的细分类网络中。
S2、对步骤S1中的面部表情训练集图像进行人脸裁剪和对齐,并使用图像增强算法进行数据增强和数据平衡,得到预处理后的面部表情图像训练集。
S3、构建两阶段分层级联卷积神经网络,在分层级联卷积神经网络结构设计方面,网络结构中粗分类网络和细分类网络将共用卷积神经网络的前三层。总网络分为3个部分,分别是粗分类网络,细分类网络A和细分类网络B。三个网络残差块里均包含2个有相同输出通道数的卷积层,每个卷积层后接一个批归一化层和ReLU激活函数;不同之处在于,粗网络设置为2分类网络,细分类网络设置为3分类网络,细分类网络B为4分类网络。
S4、构建样本置信度感知的步调学习模块,基于预先定义的样本库实施置信度感知的步调学习,首先使用交叉熵损失训练的基线模型来计算每个样本的置信度分数,并按置信度分数进行排序;随后设计置信度感知的步调学习策略,调整超参数初始样本比率λ和epoch比率Eall,实现在训练过程中逐步引入从易到难的训练样本。
S5、构建动态标签平滑模块,本发明在均匀标签平滑(ULS)中动态降低平滑因子∈。具体来说,在训练的每个epoch以α(α<1)的衰减率退火平滑因子∈,衰减过程通过指数函数和线性函数实现。
S6、使用步骤S3、S4和S5构建的基于课程学习和标签平滑的两阶段面部表情识别网络对步骤S2中预处理后面部表情图像的训练集进行训练;训练时通过分类回归层输出的结果对人脸图像进行识别和预定位,同时用矩形框标注人脸位置,且对不同人脸图像进行标识,得到带标注框与表情类别的人脸图像。
S7、设置训练分层级联卷积神经网络时需要的相关超参数和常规优化算法,保存损失函数收敛时网络训练的权重参数文件。
S8、构建基于课程学习和标签平滑的两阶段面部表情识别网络模型,即将步骤S7获得的权重参数文件引入至步骤S3、S4和S5构建的分层级联网络,并使用该识别模型对待检测人脸图像进行表情类别图像。
作为本发明的一种具体实施方式,所述步骤1将原数据集标签处理为二级标签,即每个样本都有一个粗分类标签和细分类标签,具体为:
B1、粗分类网络表情数据集标签再处理:所述粗分类网络为二分类网络,将原数据集标签修改为易混淆和不易混淆两大类,将生气、伤心、厌恶和害怕划分为易混淆表情类别,将高兴、惊讶和中性划分为不易混淆的表情类别;粗分类网络的数据集标签被处理为第一级标签,在粗分类网络阶段将全部数据集标签统一修改为0或1,其中0表示不易混淆类的标签,1表示易混淆类的标签。
B2、细分类网络表情数据集标签再处理:细分类网络分为两个部分,分别是细分类网络A和细分类网络B,两个网络分别承担着分类不易混淆类和易混淆类表情的任务。在粗标签基础上,进一步将表情数据集标签处理为两级结构;细分类网络的数据集标签将处理为第二级标签,与粗分类网络数据标签相似,细分类网络数据标签采用数字表示表情类别。将4个易混淆类别的二级标签的细标签处理为0到3,其他3类不易混淆类别二级标签处理为0到2。经细分类网络处理后的表情标签为两级标签,即粗标签+细标签的结构。
作为本发明的一种具体实施方式,步骤S3中所述构建两阶段分层级联卷积神经网络,具体过程如下:
C1、粗分类网络结构设计:所述粗分类网络为二分类网络结构,基础网络选择ResNet-18,网络残差块里均包含2个有相同输出通道数的卷积层,每个卷积层后接一个批归一化层和ReLU激活函数;将ResNet-18的输出调整为二分类输出,并将输入通道数修改为512,输出通道数修改为64,同时在最后增加一个通道数为64,输出为2的全连接层。
C2、细分类网络结构设计:细分类网络为两个网络,两个细分类网络结构采用迁移学习的思想,与粗分类网络共用网络的前几层,细分类网络残差块里均包含2个有相同输出通道数的卷积层,每个卷积层后接一个批归一化层和ReLU激活函数,整个网络从结构上看呈现并联结构;细分类网络A将对不容易产生混淆的表情进行分类,设计为3分类网络;细分类网络B将对容易产生混淆的表情进行分类,设计为4分类网络。
作为本发明的一种具体实施方式,步骤S4中所述样本置信度感知的步调学习模块,其构建过程及原理如下:
首先使用课程学习中的自步学习思想,自步学习将课程设计为目标函数中的一个正则化项,其形式化的优化目标可以表示为:
其中L(yi,f(xi,w))表示真实标签yi和预测标签f(xi,w)之间的标准损失函数。w是模型参数。v是长度为n权重向量,γ是步调参数。当步调参数γ较小时,只引入损失较小的“容易”样本进行训练,随着γ的增加,具有较大损失的“困难”样本逐步加入训练;
而后设计置信度感知的步调学习策略。调整超参数初始样本比率λ和epoch比率η,逐步引入所有训练样本。若初始样本比率为λ(开始训练时的初始样本数量与样本总数的比值),总epochs数为E,epoch比率为η(引入所有训练样本时的epoch与总epochs数E的比值),则步调参数p(每个epoch加入的更难样本的比率)可以表示为:
在实验中,通过调整初始样本比率λ和epoch比率η来控制步调参数p。
作为本发明的一种具体实施方式,步骤S5中所述的动态标签平滑模块,其构建过程及原理如下:
在均匀标签平滑(ULS)中动态降低平滑因子∈。具体来说,在训练的每个epoch以α(α<1)的衰减率退火平滑因子∈,动态标签平滑可以表示为:
其中,∈c为动态平滑因子,且∈c=α·∈c,α为平滑衰减率。
如果P是预测概率,则动态标签平滑目标的损失可以表示为:
仿真实验:
为了验证本发明提出方法的有效性和泛化性。在公开自然面部表情数据集进行实验和评估。数据集如图2(b1)所示。简要介绍一些实验采用的2个面部表情数据集。
1.FER2013:FER2013数据集是Kaggle提供的人脸表情数据集,图像均采集自谷歌图像搜索引擎,包含来自不同年龄、种族和姿势的人脸表情图像。该数据集由7种基本表情组成,其中训练集28709张图像,公共测试集和私有测试集各3589张图像,实验中,将公开测试集部分作为验证集,将私有测试集作为测试集。
2.RAF-DB:RAF-DB数据集是从互联网采集的真实世界人脸表情数据集,该数据集包含单标签子集和双标签子集,单标签子集包含7种基本表情,双标签子集包含12种复合表情。该数据集同样包含来自不同年龄、种族、姿势和遮挡的图像。仅使用7类基本表情,共15339张图像作为实验数据集,其中包括12271张训练集图像和3068张测试集图像。
3.为了研究所提出方法的有效性,与先进方法进行实验对比。图5中给出了本发明方法的人脸面部表情识别效果图,图6给出了在数据集FER2013和RAF-DB上的混淆矩阵。人脸面部表情识别准确率结果比较见表1。
表1仿真实验人脸面部表情识别准确率对比表
从图5和表1可以看出:本发明方法能够有效识别人脸面部表情,且在存在混淆标签和噪声标签的面部表情识别中表现良好。
以上仿真实验结果表明,本发明在保证人脸面部表情识别稳定性的同时,能高效的检测到图像中的人脸图像并进行面部表情识别,显示本发明方法的有效性与先进行。
以上对本发明所提方法进行说明,本领域研究人员可通过这些说明对本发明进行复现。基于本发明的内容,研究人员在没有做出创造性劳动前提下获得的其他实施例与成果,都应当属于本发明保护的范围。
Claims (5)
1.一种基于课程学习和标签平滑的两阶段面部表情识别方法,其特征在于,包括以下步骤:
S1、首先,根据粗细分类网络的功能,将原数据集标签处理为两级标签,即每个样本都有一个粗分类标签和一个细分类标签;粗分类标签应用于粗分类网络,根据粗分类网络的分类结果,再将细分类标签应用于相应的细分类网络中;
S2、对步骤S1中的面部表情训练集图像进行人脸裁剪和对齐,并使用图像增强算法进行数据增强和数据平衡,得到预处理后的面部表情图像训练集;
S3、构建两阶段分层级联卷积神经网络,在分层级联卷积神经网络结构设计方面,网络结构中粗分类网络和细分类网络将共用卷积神经网络的前三层;总网络分为3个部分,分别是粗分类网络,细分类网络A和细分类网络B。三个网络残差块里均包含2个有相同输出通道数的卷积层,每个卷积层后接一个批归一化层和ReLU激活函数;不同之处在于,粗网络设置为2分类网络,细分类网络设置为3分类网络,细分类网络B为4分类网络;
S4、构建样本置信度感知的步调学习模块,基于预先定义的样本库实施置信度感知的步调学习,首先使用交叉熵损失训练的基线模型来计算每个样本的置信度分数,并按置信度分数进行排序;随后设计置信度感知的步调学习策略,调整超参数初始样本比率λ和epich比率Eall,实现在训练过程中逐步引入从易到难的训练样本;
S5、构建动态标签平滑模块,本发明在均匀标签平滑(ULS)中动态降低平滑因子∈。具体来说,在训练的每个epoch以α(α<1)的衰减率退火平滑因子∈,衰减过程通过指数函数和线性函数实现;
S6、使用步骤S3、S4和S5构建的基于课程学习和标签平滑的两阶段面部表情识别网络对步骤S2中预处理后的面部表情图像训练集进行训练;训练时通过分类回归层输出的结果对人脸图像进行识别和预定位,同时用矩形框标注人脸位置,且对不同人脸图像进行标识,得到带标注框与表情类别的人脸图像;
S7、设置训练分层级联卷积神经网络时需要的相关超参数和常规优化算法,保存损失函数收敛时网络训练的权重参数文件;
S8、构建基于课程学习和标签平滑的两阶段面部表情识别网络模型,即将步骤S7获得的权重参数文件引入至步骤S3、S4和S5构建的分层级联网络,并使用该识别模型对待检测人脸图像进行表情类别图像。
2.根据权利要求1所述的一种基于课程学习和标签平滑的两阶段面部表情识别方法,其特征在于,所述步骤S1将原数据集标签处理为二级标签,即每个样本都有一个粗分类标签和一个细分类标签,具体为:
B1、粗分类网络表情数据集标签再处理:所述粗分类网络为二分类网络,将原数据集标签修改为易混淆和不易混淆两大类。将生气、伤心、厌恶和害怕划分为易混淆表情类别,将高兴、惊讶和中性划分为不易混淆的表情类别;粗分类网络的数据集标签被处理为第一级标签,在粗分类网络阶段将全部数据集标签统一修改为0或1,其中0表示不易混淆类的标签,1表示易混淆类的标签;
B2、细分类网络表情数据集标签再处理:在粗标签基础上,进一步将表情数据集标签处理为两级结构;细分类网络的数据集标签将处理为第二级标签,与粗分类网络数据标签相似,细分类网络数据标签采用数字表示表情类别。将4个易混淆类别二级标签的细标签处理为0到3,其他3类二级标签处理为0到2。经细分类网络处理后的表情标签为两级标签,即粗标签+细标签的结构。
3.根据权利要求1所述的一种基于课程学习和标签平滑的两阶段面部表情识别方法,其特征在于,步骤S3粗细分层级联卷积神经网络构建过程如下:
C1、粗分类网络结构设计:所述粗分类网络为二分类网络结构,基础网络选择ResNet-18,网络残差块里均包含2个有相同输出通道数的卷积层,每个卷积层后接一个批归一化层和ReLU激活函数;将ResNet-18的输出调整为二分类输出,并将输入通道数修改为512,输出通道数修改为64,同时在最后增加一个通道数为64,输出为2的全连接层;
C2、细分类网络结构设计:细分类网络包含两个网络,两个细分类网络结构采用迁移学习的思想,与粗分类网络共用网络的前三层,细分类网络残差块里均包含2个有相同输出通道数的卷积层,每个卷积层后接一个批归一化层和ReLU激活函数,整个网络从结构上看呈现并联结构;细分类网络A将对不容易产生混淆的表情进行分类,设计为3分类网络;细分类网B将对容易产生混淆的表情进行分类,设计为4分类网络。
4.根据权利要求1所述的一种基于课程学习和标签平滑的两阶段面部表情识别方法,其特征在于,步骤S4中样本置信度感知的动态标签平滑模块构建过程如下:
首先使用课程学习中的自步学习思想,自步学习将课程设计为目标函数中的一个正则化项,其形式化的优化目标可以表示为:
其中L(yi,f(xi,w))表示真实标签yi和预测标签f(xi,w)之间的标准损失函数。w是模型参数。υ是长度为n权重向量,γ是步调参数。当步调参数γ较小时,只引入损失较小的“容易”样本进行训练,随着γ的增加,具有较大损失的“困难”样本逐步加入训练;
而后设计置信度感知的步调学习策略。调整超参数初始样本比率λ和epich比率η,逐步引入所有训练样本。若初始样本比率为λ(开始训练时的初始样本数量与样本总数的比值),总epochs数为E,epoch比率为η(引入所有训练样本时的epoch与总epochs数E的比值),则步调参数p(每个epich加入的更难样本的比率)可以表示为:
在实验中,通过调整初始样本比率λ和epoch比率η来控制步调参数p。
5.根据权利要求1所述的一种基于课程学习和标签平滑的两阶段面部表情识别方法,其特征在于,步骤S5中动态标签平滑模块(DLS)构建过程如下:
在均匀标签平滑(ULS)中动态降低平滑因子∈。具体来说,在训练的每个epoch以α(α<1)的衰减率退火平滑因子∈,动态标签平滑可以表示为:
其中,∈c为动态平滑因子,且∈c=α·∈c,α为平滑衰减率。
如果P是预测概率,则动态标签平滑目标的损失可以表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310683984.7A CN116798093A (zh) | 2023-06-10 | 2023-06-10 | 一种基于课程学习和标签平滑的两阶段面部表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310683984.7A CN116798093A (zh) | 2023-06-10 | 2023-06-10 | 一种基于课程学习和标签平滑的两阶段面部表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116798093A true CN116798093A (zh) | 2023-09-22 |
Family
ID=88041370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310683984.7A Pending CN116798093A (zh) | 2023-06-10 | 2023-06-10 | 一种基于课程学习和标签平滑的两阶段面部表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116798093A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994343A (zh) * | 2023-09-27 | 2023-11-03 | 睿云联(厦门)网络通讯技术有限公司 | 基于标签平滑的扩散标签深度学习模型训练方法及介质 |
CN117972438A (zh) * | 2024-03-31 | 2024-05-03 | 浪潮电子信息产业股份有限公司 | 一种数据处理方法、系统、设备及存储介质 |
-
2023
- 2023-06-10 CN CN202310683984.7A patent/CN116798093A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994343A (zh) * | 2023-09-27 | 2023-11-03 | 睿云联(厦门)网络通讯技术有限公司 | 基于标签平滑的扩散标签深度学习模型训练方法及介质 |
CN116994343B (zh) * | 2023-09-27 | 2023-12-15 | 睿云联(厦门)网络通讯技术有限公司 | 基于标签平滑的扩散标签深度学习模型训练方法及介质 |
CN117972438A (zh) * | 2024-03-31 | 2024-05-03 | 浪潮电子信息产业股份有限公司 | 一种数据处理方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nabil et al. | Prediction of students’ academic performance based on courses’ grades using deep neural networks | |
Xiang et al. | Joint face detection and facial expression recognition with MTCNN | |
CN116798093A (zh) | 一种基于课程学习和标签平滑的两阶段面部表情识别方法 | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN116226629B (zh) | 一种基于特征贡献的多模型特征选择方法及系统 | |
Kusrini et al. | The effect of Gaussian filter and data preprocessing on the classification of Punakawan puppet images with the convolutional neural network algorithm | |
CN109816030A (zh) | 一种基于受限玻尔兹曼机的图像分类方法及装置 | |
CN113361653A (zh) | 基于数据样本增强的深度学习模型去偏方法和装置 | |
Meena et al. | Sentiment analysis on images using different transfer learning models | |
Montalbo et al. | Classification of stenography using convolutional neural networks and canny edge detection algorithm | |
Mohana et al. | Emotion recognition from facial expression using hybrid CNN–LSTM network | |
Özdem et al. | A ga-based cnn model for brain tumor classification | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
Rahman et al. | A CNN Model-based ensemble approach for Fruit identification using seed | |
Gong et al. | Graph convolutional networks-based label distribution learning for image classification | |
Kanjanawattana et al. | Classification of human emotion from speech data using deep learning | |
Abidin et al. | Wavelet based approach for facial expression recognition | |
Niu et al. | On the Use of Conventional Neural Networks for COVID-19 Detection in CT-Scan Images: A Comparative Study and Performance Analysis | |
Xu et al. | Meta-learning-based sample discrimination framework for improving dynamic selection of classifiers under label noise | |
Rekha et al. | Enhancing Apple Leaf Diagnosis Through Deep Learning Techniques | |
Tatusch | Approaches for the Improvement of the Multilabel Multiclass Classification with a Huge Number of Classes. | |
Haritha et al. | Parkinson Disease Identification Using Hand Written Images | |
Paterega et al. | Imbalanced data: a comparative analysis of classification enhancements using augmented data | |
Prameswari et al. | Classification of Handwritten Sundanese Script via Transfer Learning on CNN-Based Architectures | |
Zhang | Multi-layer attention aggregation in deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |