CN115331284A - 一种基于自愈机制的真实场景下的人脸表情识别方法及系统 - Google Patents

一种基于自愈机制的真实场景下的人脸表情识别方法及系统 Download PDF

Info

Publication number
CN115331284A
CN115331284A CN202210897253.8A CN202210897253A CN115331284A CN 115331284 A CN115331284 A CN 115331284A CN 202210897253 A CN202210897253 A CN 202210897253A CN 115331284 A CN115331284 A CN 115331284A
Authority
CN
China
Prior art keywords
self
sample
training
expression recognition
facial expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210897253.8A
Other languages
English (en)
Inventor
卢官明
宋培星
卢峻禾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210897253.8A priority Critical patent/CN115331284A/zh
Publication of CN115331284A publication Critical patent/CN115331284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自愈机制的真实场景下的人脸表情识别方法及系统。该方法包括以下步骤:建立含有不确定表情类别标签的人脸样本集;构建一个包含特征提取模块、全连接层和分类层的人脸表情识别模型;在对人脸表情识别模型进行训练的过程中,通过引入对具有不确定类别标签的样本进行重新标注的自愈机制,实现对不确定类别标签的自我修正;将待测的人脸图像输入到训练好的人脸表情识别模型进行表情识别。该方法可以有效消除具有错误标签的训练样本导致模型过拟合的不利影响,可以在掺杂不准确或错误类别标签的人脸表情数据集中学习到鲁棒的表情特征,从而提升真实场景下人脸表情识别的准确率和鲁棒性。

Description

一种基于自愈机制的真实场景下的人脸表情识别方法及系统
技术领域
本发明属于机器学习与表情识别领域,具体涉及一种基于自愈机制的真实场景下的人脸表情识别方法及系统。
背景技术
人脸面部表情是人类心理状态的直观反映,蕴含着丰富的情感信息,在人际交往中发挥着非常重要的作用。人脸表情识别作为人机交互技术的一个分支,在服务机器人、驾驶员疲劳检测等领域具有潜在的应用价值,近年来受到越来越多的关注。基于深度卷积神经网络的表情识别算法在受控环境(实验室环境)下采集的表情数据集上取得了较好的性能,但在非受控环境(真实场景)下采集的表情数据集上的识别性能并不尽如人意。
相比于受控环境,由于非受控环境更接近真实场景,所采集的表情数据集更能反映实际数据的特性,使用真实场景下采集的样本训练得到的表情识别模型具有实际应用价值。然而,对于真实场景非受控环境下采集的人脸图像,由于姿态多变或被遮挡,人们很难准确地标注其表情类别,创建的大规模表情数据集含有一定比例的类别标签不准确或错误的样本。使用掺杂这些不准确或错误类别标签的人脸样本来训练基于数据驱动的深度学习表情识别模型,会导致如下问题:第一,模型可能会对被错误标注的不确定样本过拟合;第二,被错误标注的不确定样本可能会误导模型去学习不利于表情分类的特征;第三,高比例的标签错误的样本会让模型在训练初期不收敛。上述问题会影响表情识别模型的准确率和鲁棒性。然而目前的研究较少关注这些挑战问题。解决好真实场景非受控环境下的人脸表情识别问题,将有助于推动人机交互技术的发展,对促进人工智能的发展具有积极的作用。
发明内容
发明目的:针对真实场景非受控环境下人脸表情识别存在准确率低、鲁棒性差的问题,本发明的目的是提供一种基于自愈机制的真实场景下的人脸表情识别方法及系统,通过在对基于主流深度神经网络的人脸表情识别模型进行不断迭代训练过程中引入自愈机制,对具有不确定类别标签的样本进行重新标注,实现对不确定类别标签的自我修正,以有效消除具有错误标签的训练样本导致模型过拟合的不利影响,可以在掺杂不准确或错误类别标签的人脸表情数据集中学习到鲁棒的表情特征,从而提升真实场景下人脸表情识别的准确率和鲁棒性。
技术方案:本发明为实现上述发明目的采用以下技术方案:一种基于自愈机制的真实场景下的人脸表情识别方法,该方法包括以下步骤:
S1.建立含有不确定表情类别标签的人脸样本集;
S2.构建一个包含特征提取模块、全连接层和分类层的人脸表情识别模型;所述的特征提取模块由深度卷积神经网络的主干网络构成,用于提取人脸表情特征;所述的全连接层将特征提取模块输出的人脸表情特征全连接到V个神经元,经过非线性激励函数ReLU,映射得到一个V维的特征向量;所述的分类层采用softmax回归分类器,将全连接层输出的V维特征向量全连接到C个输出节点,每个节点对应一种表情类别,经过softmax回归后得到一个C维向量,向量中每一个维度的数值代表输入的人脸样本属于对应表情类别的预测概率,其中,C为表情类别数;
S3.在对人脸表情识别模型进行训练的过程中,通过引入对具有不确定类别标签的样本进行重新标注的自愈机制,实现对不确定类别标签的自我修正,并通过误差反向传播算法调整表情识别模型的参数至最优;
S4.将待测的人脸图像输入到训练好的人脸表情识别模型进行表情识别。
优选的,所述的不确定表情类别标签是指对真实场景非受控环境下采集的姿态多变或被遮挡的人脸图像进行表情类别标注得到的不准确的类别标签。
优选的,所述步骤S3的训练过程包括以下子步骤:
S3.1利用注意力机制学习一个批量的N个训练样本中每个训练样本的重要性权重,其中,第n个训练样本的重要性权重为αn=σ(WTvn),n=1,2,…,N,N为整数,N的值在8、16、32、64、128、256中选取,W为可学习的全连接层参数,WT为W的转置,σ(·)代表Sigmoid激活函数,
Figure BDA0003769544940000021
为第n个训练样本的特征向量;
S3.2利用样本排序正则化对一个批量的N个训练样本按照重要性权重从大到小进行排序,并通过样本排序正则损失函数
Figure BDA0003769544940000022
选择前M个权重较大的样本构成高重要性样本组,后N-M个权重较小的样本构成低重要性样本组,满足高重要性样本组的权重均值
Figure BDA0003769544940000023
与低重要性样本组的权重均值
Figure BDA0003769544940000024
之差大于一个预设的阈值δ1,确保注意力机制学习到有利于模型训练的样本重要性权重分布,其中,M为整数,M的取值受样本排序正则损失函数约束,
Figure BDA0003769544940000031
αi为按照重要性权重从大到小进行排序后第i个训练样本的重要性权重,i=1,2,…,N,δ1为实数;
S3.3利用样本标签自我修正机制对低重要性样本组中样本的不确定表情类别标签进行重新标注,具体方法是:对于低重要性样本组中的每个训练样本,设分类层输出的对应于C种表情类别的预测概率分别为p1、p2、……、pC,对应于样本当前类别标签lt的预测概率为pt,pt∈{p1,p2,...,pC},最大类别预测概率为pmax=max{p1,p2,...,pC},如果pmax与pt之差大于一个预设的阈值δ2,则将该训练样本的当前类别标签修正为最大类别预测概率pmax所对应的类别标签lmax,否则当前类别标签保持不变,即:
Figure BDA0003769544940000032
优选的,δ1取值范围为0.1~0.3。
优选的,δ2取值范围为0.2~0.5。
优选的,所述步骤S3中对人脸表情识别模型进行训练所用的损失函数定义为:
L1=βLRR+(1-β)LCE
其中,β是权重参数,用于调节LRR和LCE之间的平衡;LRR为样本排序正则损失函数,定义为
Figure BDA0003769544940000033
LCE为分类损失函数,采用logit加权的交叉熵损失,定义为:
Figure BDA0003769544940000034
其中,C是表情类别数,
Figure BDA0003769544940000035
为第n个训练样本的特征向量,Wc
Figure BDA0003769544940000036
为可学习的全连接层参数,
Figure BDA0003769544940000037
Figure BDA0003769544940000038
的转置,ln为第n个训练样本的当前类别标签所对应的索引,exp(·)为自然常数e为底的指数函数。
优选的,β取值范围为0.3~0.7。
本发明还提出一种基于自愈机制的真实场景下的人脸表情识别系统,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述一种基于自愈机制的真实场景下的人脸表情识别方法。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种基于自愈机制的真实场景下的人脸表情识别方法。
有益效果:与现有技术相比,本发明的技术方案具有以下技术效果:
(1)本发明使用注意力机制学习一个批量的N个训练样本中每个训练样本的重要性权重αn,将那些被错误标注的不确定样本赋予较低的权重,将那些可靠标注的确定样本赋予较高的权重,并将这些重要性权重用于分类损失函数的加权,以强化可靠标注的确定样本对模型训练的正面影响,消除那些被错误标注的不确定样本对模型训练的负面影响,让表情识别模型学习到更加鲁棒的表情特征。
(2)本发明精心设计了一个样本排序正则化机制,对一个批量的N个训练样本按照重要性权重从大到小进行排序,并通过样本排序正则损失函数选择前M个权重较大的样本构成高重要性样本组,后N-M个权重较小的样本构成低重要性样本组,强制要求高重要性样本组的权重均值
Figure BDA0003769544940000041
与低重要性样本组的权重均值
Figure BDA0003769544940000042
之差大于一个预设的阈值δ1,去监督注意力机制学习到有利于模型训练的样本重要性权重分布,也为后面的样本标签自我修正机制选定需要重新标注的不确定样本。
(3)本发明精心设计了样本标签自我修正机制,对于低重要性样本组中的每个训练样本,通过比较分类层输出的对应于该样本当前类别标签lt的预测概率pt与最大类别预测概率pmax之差,谨慎地尝试对不确定表情类别标签进行重新标注,只有当pmax与pt之差大于一个预设的阈值δ2时,才会将该训练样本的当前类别标签修正为最大类别预测概率pmax所对应的类别标签lmax,否则当前类别标签lt保持不变。
(3)本发明提供了一种包括注意力机制、样本排序正则化、样本标签自我修正机制的自愈机制,通过在对基于主流深度神经网络的人脸表情识别模型进行不断迭代训练过程中引入自愈机制,对具有不确定类别标签的样本进行重新标注,实现对不确定类别标签的自我修正,以有效消除具有错误标签的训练样本导致模型过拟合的不利影响,可以在掺杂不准确或错误类别标签的人脸表情数据集中学习到鲁棒的表情特征,从而提升真实场景下人脸表情识别的准确率和鲁棒性。
附图说明
图1是本发明实施例方法的基本流程示意图;
图2是本发明实施例选用RAF-DB人脸表情数据集里的一些人脸图像样例。
具体实施方式
下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。
如图1所示,本发明实施例提供的一种基于自愈机制的真实场景下的人脸表情识别方法,主要包括如下步骤:
步骤1:建立含有不确定表情类别标签的人脸样本集,所述的不确定表情类别标签是指对真实场景非受控环境下采集的姿态多变或被遮挡的人脸图像进行表情类别标注得到的不准确的类别标签。
本实施例选用RAF-DB人脸表情数据集,该数据集包含29672幅真实场景下的人脸图像,不同的头部姿态、不同的年龄段、现实中的遮挡、分辨率和光照变化都在该数据集上得到充分的体现,每幅人脸图像都标注了7种表情类别中的一种:愤怒、厌恶、恐惧、悲伤、高兴、惊讶、中性。图2给出了RAF-DB人脸表情数据集里的一些人脸图像样例。由于受遮挡、头部姿态的影响,人们很难准确地标注其表情类别,在图2中,表情类别标签的不确定性从左到右是增加的,RAF-DB人脸表情数据集里不可避免地含有一定比例的类别标签不准确或错误的样本。使用掺杂这些不准确或错误类别标签的人脸样本来训练基于数据驱动的深度学习表情识别模型,会导致模型对被错误标注的不确定样本过拟合,影响表情识别模型的准确率和鲁棒性。
步骤2:构建一个包含特征提取模块、全连接层和分类层的人脸表情识别模型。
在本实施例中,我们先采用MTCNN(Multi-task Cascaded ConvolutionalNetworks)算法对输入的图像进行人脸检测和对齐处理,并最终缩放到224*224像素的分辨率,然后选用在MS-Celeb-1M人脸识别数据集上预训练好的ResNet-18主干网络作为特征提取模块,ResNet-18的最后一个池化层输出人脸表情特征。全连接层将人脸表情特征全连接到V个神经元,经过非线性激励函数ReLU,映射得到一个V维的特征向量;分类层采用softmax回归分类器,将全连接层输出的V维特征向量全到C个输出节点,每个节点对应一种表情类别,经过softmax回归后得到一个C维向量,向量中每一个维度的数值代表输入的人脸样本属于对应表情类别的预测概率,其中C为表情类别数。在本实施例中,V=128,C=7。
步骤3:在对人脸表情识别模型进行训练的过程中,通过引入对具有不确定类别标签的样本进行重新标注的自愈机制,实现对不确定类别标签的自我修正,具体过程如下:
(3.1)使用注意力机制学习一个批量的N个训练样本中每个训练样本的重要性权重,其中,第n个训练样本的重要性权重为αn=σ(WTvn),n=1,2,…,N,N为整数,N的值在8、16、32、64、128、256中选取,W为可学习的全连接层参数,全连接层将人脸表情特征全连接到V个神经元,利用深度学习的torch框架可以学习到这些参数,WT为W的转置,σ(·)代表Sigmoid激活函数,
Figure BDA0003769544940000061
为第n个训练样本的特征向量。在本实施例中,N=64,V=128。
(3.2)使用样本排序正则化对一个批量的N个训练样本按照重要性权重从大到小进行排序,并通过样本排序正则损失函数
Figure BDA0003769544940000062
选择前M个权重较大的样本构成高重要性样本组,后N-M个权重较小的样本构成低重要性样本组,强制要求高重要性样本组的权重均值
Figure BDA0003769544940000063
与低重要性样本组的权重均值
Figure BDA0003769544940000064
之差大于一个预设的阈值δ1,确保注意力机制学习到有利于模型训练的样本重要性权重分布,其中,M为整数,M的取值受样本排序正则损失函数约束,
Figure BDA0003769544940000065
αi为按照重要性权重从大到小进行排序后第i个训练样本的重要性权重,i=1,2,…,N,δ1为实数,可以被设定为可学习的参数,也可以被设定为一个固定的阈值,取值范围为0.1~0.3。在本实施例中,δ1=0.15。
(3.3)使用样本标签自我修正机制对低重要性样本组中样本的不确定表情类别标签进行重新标注。具体方法是:对于低重要性样本组中的每个训练样本,设分类层输出的对应于C种表情类别的预测概率分别为p1、p2、……、pC,对应于样本当前类别标签lt的预测概率为pt,pt∈{p1,p2,...,pC},最大类别预测概率为pmax=max{p1,p2,...,pC},如果pmax与pt之差大于一个预设的阈值δ2,则将该训练样本的当前类别标签修正为最大类别预测概率pmax所对应的类别标签lmax,否则当前类别标签保持不变,即
Figure BDA0003769544940000071
其中,δ2为实数,取值范围为0.2~0.5。在本实施例中,C=7,δ2=0.3。
在对人脸表情识别模型进行训练过程中,本实施例中所使用的损失函数表达式为:L1=βLRR+(1-β)LCE
其中,β是权重参数,用于调节LRR和LCE之间的平衡,在本实施例中,β=0.5;LRR为样本排序正则损失函数,其表达式为
Figure BDA0003769544940000074
,在本实施例中,δ1=0.15;LCE为分类损失函数,采用logit加权的交叉熵损失,其表达式为:
Figure BDA0003769544940000072
其中,C是表情类别数,
Figure BDA0003769544940000073
为第n个训练样本的特征向量,W为可学习的全连接层参数,WT为W的转置,ln为第n个训练样本的当前类别标签所对应的索引,exp(·)为自然常数e为底的指数函数,在本实施例中,V=128,C=7。
步骤4:将待测的人脸图像输入到训练好的人脸表情识别模型进行表情识别。
为了验证本实施例方法的有效性,我们使用公开的人脸表情数据集RAF-DB来评估所提出的方法的性能,并与其他现有方法进行对比。RAF-DB数据集包含29672幅真实场景下的人脸图像,在本实施例中,选取了其中的20736个样本用作训练集、5888个样本用作验证集、3048个样本用作测试集。
在采用基于ResNet-18主干网络的人脸表情识别模型时,若在模型训练过程中不引入自愈机制,直接用RAF-DB数据集里的样本来训练模型,则训练好的模型在测试集上的识别准确率为75.30%;若在模型训练过程中通过引入自愈机制,在对RAF-DB数据集里具有错误标签的样本进行标签自我修正后再训练模型,则训练好的模型在测试集上的识别准确率为80.23%,比不引入自愈机制提升了4.93%。另外,我们同时对比了处理含噪声标签样本的两种神经网络训练方法:CleanNet和MentorNet。使用文献1(Kuang-Huei Lee,Xiaodong He,Lei Zhang,Linjun Yang.CleanNet:Transfer Learning for ScalableImage Classifier Training with Label Noise[C]//Proceedings of the IEEEComputer Society Conference on Computer Vision and Pattern Recognition,p.5447-5456,December 14,2018)公开的CleanNet的训练方法的识别准确率为76.33%,使用文献2(Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,Li Fei-Fei.MentorNet:Learning data-driven curriculum for very deep neural networks on corruptedlabels[J/OL].https://arxiv.org/pdf/1712.05055v2.pdf)公开的Mentornet的训练方法的识别准确率为77.08%。
综上所述,本实施例在对基于ResNet-18主干网络的人脸表情识别模型进行不断迭代训练过程中,通过引入包括注意力机制、样本排序正则化、样本标签自我修正机制的自愈机制,对具有不确定类别标签的样本进行重新标注,实现对不确定类别标签的自我修正,可以有效消除具有错误标签的训练样本导致模型过拟合的不利影响,能够在掺杂不准确或错误类别标签的RAF-DB人脸表情数据集中学习到鲁棒的表情特征,从而提升真实场景下人脸表情识别的准确率和鲁棒性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种基于自愈机制的真实场景下的人脸表情识别方法,其特征在于,该方法包括以下步骤:
S1.建立含有不确定表情类别标签的人脸样本集;
S2.构建一个包含特征提取模块、全连接层和分类层的人脸表情识别模型;所述的特征提取模块由深度卷积神经网络的主干网络构成,用于提取人脸表情特征;所述的全连接层将特征提取模块输出的人脸表情特征全连接到V个神经元,经过非线性激励函数ReLU,映射得到一个V维的特征向量;所述的分类层采用softmax回归分类器,将全连接层输出的V维特征向量全连接到C个输出节点,每个节点对应一种表情类别,经过softmax回归后得到一个C维向量,向量中每一个维度的数值代表输入的人脸样本属于对应表情类别的预测概率,其中,C为表情类别数;
S3.在对人脸表情识别模型进行训练的过程中,通过引入对具有不确定类别标签的样本进行重新标注的自愈机制,实现对不确定类别标签的自我修正,并通过误差反向传播算法调整表情识别模型的参数至最优;
S4.将待测的人脸图像输入到训练好的人脸表情识别模型进行表情识别。
2.根据权利要求1所述的一种基于自愈机制的真实场景下的人脸表情识别方法,其特征在于,所述的不确定表情类别标签是指对真实场景非受控环境下采集的姿态多变或被遮挡的人脸图像进行表情类别标注得到的不准确的类别标签。
3.根据权利要求1所述的一种基于自愈机制的真实场景下的人脸表情识别方法,其特征在于,所述步骤S3的训练过程包括以下子步骤:
S3.1利用注意力机制学习一个批量的N个训练样本中每个训练样本的重要性权重,其中,第n个训练样本的重要性权重为αn=σ(WTvn),n=1,2,…,N,N为整数,N的值在8、16、32、64、128、256中选取,W为可学习的全连接层参数,WT为W的转置,σ(·)代表Sigmoid激活函数,
Figure FDA0003769544930000011
为第n个训练样本的特征向量;
S3.2利用样本排序正则化对一个批量的N个训练样本按照重要性权重从大到小进行排序,并通过样本排序正则损失函数
Figure FDA0003769544930000012
选择前M个权重较大的样本构成高重要性样本组,后N-M个权重较小的样本构成低重要性样本组,并且满足高重要性样本组的权重均值
Figure FDA0003769544930000013
与低重要性样本组的权重均值
Figure FDA0003769544930000014
之差大于一个预设的阈值δ1,确保注意力机制学习到有利于模型训练的样本重要性权重分布,其中,M为整数,M的取值受样本排序正则损失函数约束,
Figure FDA0003769544930000021
αi为按照重要性权重从大到小进行排序后第i个训练样本的重要性权重,i=1,2,…,N,δ1为实数;
S3.3利用样本标签自我修正机制对低重要性样本组中样本的不确定表情类别标签进行重新标注,具体方法是:对于低重要性样本组中的每个训练样本,设分类层输出的对应于C种表情类别的预测概率分别为p1、p2、……、pC,对应于样本当前类别标签lt的预测概率为pt,pt∈{p1,p2,...,pC},最大类别预测概率为pmax=max{p1,p2,...,pC},如果pmax与pt之差大于一个预设的阈值δ2,则将该训练样本的当前类别标签修正为最大类别预测概率pmax所对应的类别标签lmax,否则当前类别标签保持不变,即:
Figure FDA0003769544930000022
4.根据权利要求3所述的一种基于自愈机制的真实场景下的人脸表情识别方法,其特征在于,δ1取值范围为0.1~0.3。
5.根据权利要求3所述的一种基于自愈机制的真实场景下的人脸表情识别方法,其特征在于,δ2取值范围为0.2~0.5。
6.根据权利要求4或5所述的一种基于自愈机制的真实场景下的人脸表情识别方法,其特征在于,所述步骤S3中对人脸表情识别模型进行训练所用的损失函数定义为:
L1=βLRR+(1-β)LCE
其中,β是权重参数,用于调节LRR和LCE之间的平衡;LRR为样本排序正则损失函数,定义为
Figure FDA0003769544930000023
LCE为分类损失函数,采用logit加权的交叉熵损失,定义为:
Figure FDA0003769544930000024
其中,C是表情类别数,
Figure FDA0003769544930000025
为第n个训练样本的特征向量,Wc
Figure FDA0003769544930000026
为可学习的全连接层参数,
Figure FDA0003769544930000027
Figure FDA0003769544930000028
的转置,ln为第n个训练样本的当前类别标签所对应的索引,exp(·)为自然常数e为底的指数函数。
7.根据权利要求6所述的一种基于自愈机制的真实场景下的人脸表情识别方法,其特征在于,β取值范围为0.3~0.7。
8.一种基于自愈机制的真实场景下的人脸表情识别系统,其特征在于,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的一种基于自愈机制的真实场景下的人脸表情识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-7任一项所述的一种基于自愈机制的真实场景下的人脸表情识别方法。
CN202210897253.8A 2022-07-28 2022-07-28 一种基于自愈机制的真实场景下的人脸表情识别方法及系统 Pending CN115331284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210897253.8A CN115331284A (zh) 2022-07-28 2022-07-28 一种基于自愈机制的真实场景下的人脸表情识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210897253.8A CN115331284A (zh) 2022-07-28 2022-07-28 一种基于自愈机制的真实场景下的人脸表情识别方法及系统

Publications (1)

Publication Number Publication Date
CN115331284A true CN115331284A (zh) 2022-11-11

Family

ID=83919429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210897253.8A Pending CN115331284A (zh) 2022-07-28 2022-07-28 一种基于自愈机制的真实场景下的人脸表情识别方法及系统

Country Status (1)

Country Link
CN (1) CN115331284A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117542105A (zh) * 2024-01-09 2024-02-09 江西师范大学 一种课堂教学下低分辨率图像的人脸超分与表情识别方法
CN117689998A (zh) * 2024-01-31 2024-03-12 数据空间研究院 非参数自适应的情绪识别模型、方法、系统和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117542105A (zh) * 2024-01-09 2024-02-09 江西师范大学 一种课堂教学下低分辨率图像的人脸超分与表情识别方法
CN117689998A (zh) * 2024-01-31 2024-03-12 数据空间研究院 非参数自适应的情绪识别模型、方法、系统和存储介质
CN117689998B (zh) * 2024-01-31 2024-05-03 数据空间研究院 非参数自适应的情绪识别模型、方法、系统和存储介质

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN108171209B (zh) 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
Quattoni et al. An efficient projection for l 1,∞ regularization
CN115331284A (zh) 一种基于自愈机制的真实场景下的人脸表情识别方法及系统
CN113033603B (zh) 一种基于元学习的弱监督图像多标签分类方法
CN109753897B (zh) 基于记忆单元强化-时序动态学习的行为识别方法
CN109829414B (zh) 一种基于标签不确定性和人体组件模型的行人再识别方法
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN113591978A (zh) 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质
CN113378706A (zh) 一种辅助儿童观察植物和学习生物多样性的绘画系统
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
CN113435335B (zh) 微观表情识别方法、装置、电子设备及存储介质
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN113592045B (zh) 从印刷体到手写体的模型自适应文本识别方法和系统
CN113344069B (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
CN114998973A (zh) 一种基于域自适应的微表情识别方法
CN114943990A (zh) 基于ResNet34网络-注意力机制的连续手语识别方法及装置
Hao et al. A Model-Agnostic approach for learning with noisy labels of arbitrary distributions
CN113553917A (zh) 一种基于脉冲迁移学习的办公设备识别方法
Ren et al. Video-based emotion recognition using multi-dichotomy RNN-DNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination