CN116129507A - 一种面部表情识别方法及装置、电子设备、存储介质 - Google Patents

一种面部表情识别方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN116129507A
CN116129507A CN202310138881.2A CN202310138881A CN116129507A CN 116129507 A CN116129507 A CN 116129507A CN 202310138881 A CN202310138881 A CN 202310138881A CN 116129507 A CN116129507 A CN 116129507A
Authority
CN
China
Prior art keywords
module
feature
local
global
facial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310138881.2A
Other languages
English (en)
Inventor
张登辉
黄伟铠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shuren University
Original Assignee
Zhejiang Shuren University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Shuren University filed Critical Zhejiang Shuren University
Priority to CN202310138881.2A priority Critical patent/CN116129507A/zh
Publication of CN116129507A publication Critical patent/CN116129507A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种面部表情识别方法及装置、电子设备、存储介质,该方法包括:获取用于训练和测试的人脸面部表情图像样本;构建并训练深度神经网络模型,所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络,所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块,所述双分支注意力通道模块包括局部注意力通道和全局注意力通道,所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器;优化保存的多组深度神经网络模型权重,所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块;采用优化好的深度神经网络模型对人脸面部图像进行表情识别。

Description

一种面部表情识别方法及装置、电子设备、存储介质
技术领域
本申请涉及图像识别技术领域,尤其涉及一种面部表情识别方法及装置、电子设备、存储介质。
背景技术
人脸面部表情是人类表达情感状态和意图最有力、最自然和最普遍的信号之一。面部表情识别技术在社交机器人、医疗诊断、疲劳监测等人机交互领域中有着非常广泛的应用图像。目前独居人口日益增多,如何给予其情感藉慰成为社会重点关注的问题。许多研究者将重心倾注于情感交互机器人,其原因为情感机器人能够从文字、语音、人脸面部特征等多方面理解人类情感状态并与之交互,从而能在人们独居生活中给予他们贴心的互动交流。然而在真实的人机交互过程中,人们通常会进行一系列动态行为(转头、行走、拿取物品等),这可能会导致机器人通过摄像头捕捉到的面部图像受到遮挡、姿态变化等因素影响,进而降低表情识别的准确率。
随着面部表情识别方法的深入研究,许多研究人员引入注意力机制来感知遮挡和姿态变化,设计了抑制标签注释歧义的方法。此外,视觉转化器(ViT)也被应用于面部表情识别,以加强细节特征之间的关联性,并实现了最先进的面部表情识别性能。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
1、对具有鉴别性面部特征的筛选能力不足以及对面部特征之间关联性的学习能力不足。2、仅采用表现最优越的单个模型的识别性能已接近瓶颈,且剩余的花费大量时间和资源得到的次优模型无法发挥其价值。
发明内容
本申请实施例的目的是提供一种面部表情识别方法及装置、电子设备、存储介质,以克服在面部表情识别时,面部遮挡和姿态变化导致的准确率降低的问题,同时充分挖掘次优模型的价值,以克服在训练深度神经网络模型时,浪费的大量时间成本和资源成本的问题。
根据本申请实施例的第一方面,提供一种面部表情识别方法,其特征在于,包括:
获取用于训练和测试的人脸面部表情图像样本;
构建并训练深度神经网络模型,所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络,所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块,所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块,所述双分支注意力通道模块包括局部注意力通道和全局注意力通道,所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络,所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器,所述面部特征重构模块用于将显著特征图重构为一维特征序列后输入到多层Transformer编码器,所述多层Transformer编码器的输出输入到分类器中进行分类,输出图像的分类结果,保存每轮训练的模型权重;
优化保存的多组深度神经网络模型权重,所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块,所述局部贪心策略模块用于优化模型权重后连接到全局贪心策略模块,所述全局贪心策略模块优化模型权重后输出图像的分类结果,保存优化模型权重;
采用优化好的深度神经网络模型对人脸面部图像进行表情识别。
2.根据权利要求1所述的方法,其特征在于,所述双分支注意力通道模块用于执行如下操作:
将原始特征图经过双通道注意力计算得到局部注意力权重和全局注意力权重;
将所述局部注意力权重与全局注意力权重经过广播相加得到局部-全局注意力权重;
将原始特征图经过所述局部-全局注意力权重筛选后得到显著特征图。
3.根据权利要求1所述的方法,其特征在于,所述面部特征重构模块用于执行如下操作:
采用切片操作将显著特征图分成多个二维面部特征块;
将所述多个二维面部特征块经过线性投影映射为一维特征向量;
在所述一维特征向量头部嵌入可学习的情感分类编码,再在特征向量的每个特征单词中添加可学习的位置编码,生成输出的面部特征序列。
4.根据权利要求1所述的方法,其特征在于,所述多层Transformer编码器用于执行如下操作:
将面部特征序列依次输入到多头自注意模块和多层感知器模块,得到新的面部特征序列;
重复上述步骤多次,以得到具有强关联性的面部特征序列。
5.根据权利要求1所述的方法,其特征在于,所述局部贪心策略模块用于执行如下操作:
在保存的每个深度神经网络模型中挑选性能最佳的轮次区间权重组;
将所述轮次区间权重组经过贪心策略计算后输出局部权重最优解;
验证并保存所述局部权重最优解。
6.根据权利要求1所述的方法,其特征在于,所述全局贪心策略模块用于执行如下操作:
输入经过局部贪心策略模块计算得到的多组局部权重最优解;
将所述多组局部权重组经过贪心策略计算后输出全局权重最优解;
验证并保存所述全局权重最优解。
7.根据权利要求5或6所述的方法,其特征在于,所述贪心策略包括:
将模型权重组按照在测试集上的性能降序排序;
按顺序添加到贪心权重组;
只保留对识别性能有正向提升的模型权重。
根据本申请实施例的第二方面,提供一种面部表情识别装置,包括:
获取模块,用于获取用于训练和测试的人脸面部表情图像样本;
模型构建及训练模块,用于构建并训练深度神经网络模型,所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络,所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块,所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块,所述双分支注意力通道模块包括局部注意力通道和全局注意力通道,所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络,所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器,所述面部特征重构模块用于将显著特征图重构为一维特征序列后输入到多层Transformer编码器,所述多层Transformer编码器的输出输入到分类器中进行分类,输出图像的分类结果,保存每轮训练的模型权重;
优化模块,用于优化保存的多组深度神经网络模型权重,所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块,所述局部贪心策略模块用于优化模型权重后连接到全局贪心策略模块,所述全局贪心策略模块优化模型权重后输出图像的分类结果,保存优化模型权重;
识别模块,用于采用优化好的深度神经网络模型对人脸面部图像进行表情识别。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本申请实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请因为采用显著特征筛选网络,具体包括双分支注意力通道模块(局部注意力通道和全局注意力通道),克服了遮挡、姿态变化等因素引起的面部特征缺失问题,进而达到了聚焦并筛选具有鉴别性特征的效果。本申请因为采用视觉转化器网络,具体包括面部特征重构模块和多层Transformer编码器,克服了特征间关联性学习能力不足问题,进而达到了提升面部表情识别性能的效果。本申请因为采用多组深度神经网络模型权重的优化方法,具体包括局部贪心策略模块和全局贪心策略模块,克服了单个模型的识别性能瓶颈和次优模型资源浪费问题,进一步优化了面部表情识别的性能以及对模型权重资源的充分利用。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种面部表情识别方法的流程图。
图2是根据一示例性实施例示出的深度神经网络模型结构示意图;
图3是根据一示例性实施例示出的双分支注意力通道模块结构示意图;
图4是根据一示例性实施例示出的面部特征重构模块结构示意图;
图5是根据一示例性实施例示出的多层Transformer编码器结构示意图;
图6是根据一示例性实施例示出的多权重寻优方法结构示意图。
图7是根据一示例性实施例示出的一种面部表情识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
图1是根据一示例性实施例示出的一种面部表情识别方法的流程图,如图1所示,该方法应用于终端中,可以包括以下步骤:
步骤S1、获取用于训练和测试的人脸面部表情图像样本,以更好地训练深度神经网络模型以及评估其性能。
本申请构建了用于人脸面部图像情感分类的深度神经网络模型,然后对构建的深度神经网络模型进行训练、评估及优化,采用优化好的深度神经网络模型来对人脸面部图像进行情感分类。
为了训练构建的深度神经网络模型,首先需要采集人脸面部图像,并对采集到的人脸面部图像进行预处理,生成用于训练和测试的人脸面部表情图像样本。
本实施例使用MTCNN网络定位面部图像中的人脸位置并裁剪。对裁剪得到的人脸面部图像进行预处理,包括对图像进行平移、翻转、旋转变换、光照归一化等数据增强预处理,以增强网络的泛化能力。
在实际的应用中,将生成的人脸面部表情图像样本分为训练集和测试集,训练集用于对构建的深度神经网络模型进行训练,而测试集用于评估训练好的深度神经网络模型的性能。
步骤S2、构建并训练深度神经网络模型。
本申请构建的深度神经网络模型如图2所示,所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络,所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块,所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块,所述双分支注意力通道模块包括局部注意力通道和全局注意力通道,所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络,所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器,所述面部特征重构模块将显著特征图重构为一维特征序列后输入到多层Transformer编码器,所述多层Transformer编码器的输出输入到分类器中进行分类,输出图像的分类结果,保存每轮训练的模型权重。
训练的过程如下:
将大小为3×H×W的人脸面部表情图像Imgori输入到经过MS-Celeb-1M人脸数据集预训练的ResNet18特征提取主干网络,以此提取大小为
Figure BDA0004086910280000071
的特征图XILL,其中Cout为输出的通道数,DS为下采样的倍率,为了简化描述,定义
Figure BDA0004086910280000072
将输出的特征图送入到双分支注意力通道模块,以聚焦具有鉴别性的面部特征,并过滤无关特征信息。
本实施例双分支注意力通道模块的结构示意图如图3所示,双分支注意力通道模块进行如下操作:
A1:将原始特征图经过双分支通道注意力计算得到局部注意力权重和全局注意力权重;
A2:将所述局部注意力权重与全局注意力权重经过广播相加得到局部-全局注意力权重;
A3:将原始特征图经过所述局部-全局注意力权重筛选后得到显著特征图。
具体的,双分支注意力通道模块通过局部注意力通道和全局注意力通道,计算原始特征图的局部注意力权重
Figure BDA0004086910280000081
和全局注意力权重
Figure BDA0004086910280000082
具体计算公式如下:
Figure BDA0004086910280000083
Figure BDA0004086910280000084
其中,AP表示全局自适应平均池化,用于过滤无效面部信息,Conv1和Conv2表示逐点卷积(卷积核大小为1*1),以提取细节特征。BN表示批归一化处理,D表示Dropout层,用于抑制过拟合。
Figure BDA00040869102800000811
表示LeakyRelu激活函数,σ表示Sigmoid函数。将双分支注意力权重通过广播加法进行融合,得到局部-全局注意力权重
Figure BDA0004086910280000085
使用残差连接,筛选出显著特征
Figure BDA0004086910280000086
具体可表示为:
XF=XILL×LG(X)
将输出的显著特征XF送入到面部特征重构模块,重构成一维的面部特征序列,使其符合多层Transformer编码器的输入要求。
本实施例面部特征重构模块的结构示意图如图4所示,面部特征重构模块进行如下操作:
B1:采用切片操作将显著特征图分成多个二维面部特征块;
B2:将所述多个二维面部特征块经过线性投影映射为一维特征向量;
B3:在所述一维特征向量头部嵌入可学习的情感分类编码,再在特征向量的每个特征单词中添加可学习的位置编码,生成输出的面部特征序列。
具体的,将二维的面部显著特征
Figure BDA0004086910280000087
按补丁大小(P,P)分割成M个二维面部特征块
Figure BDA0004086910280000088
其中
Figure BDA0004086910280000089
设置P=1。接着将M个二维面部特征块线性映射并展平为特征序列
Figure BDA00040869102800000810
其中Cf为特征序列的通道数,具体可表示为:
Z0=Flatten(Conv(XP))
其中,Conv表示输入通道为Cout,输出通道为Cf,卷积核与步长为(P,P)的卷积层,用于分割显著特征并进行可学习的线性映射,Flatten表示展平操作。在特征序列头部嵌入可学习的情感分类编码[class],同时为该序列中的每个特征单词添加可学习的位置编码
Figure BDA0004086910280000091
以保留其位置信息,该面部特征序列可表示为:
Z0=[class;Z0]+Pos
将面部特征序列馈送到多层Transformer编码器,以加强面部特征之间的联系。
本实施例多层Transformer编码器的结构示意图如图5所示,多层Transformer编码器进行如下操作:
C1:将面部特征序列依次输入到多头自注意模块和多层感知器模块,得到新的面部特征序列;
C2:重复上述步骤多次,以得到具有强关联性的面部特征序列。
具体的,每层Transformer编码器由多头自注意模块(Multi-Head Attention,MHA)和多层感知器模块(Multi-layer Perceptron,MLP)组成,在每个模块之前应用归一化,在每个模块之后加入残差连接,具体可表示为:
Zk′=MHA(LN(Zk-1))+Zk-1
Zk=MLP(LN(Z′k))+Z′k
y=LN(ZN)
其中,k=1,…,N,Z′k表示在第k层经过MHA模块和残差连接后得到的面部特征序列,Zk表示在第k层经过MLP模块和残差连接后得到的面部特征序列,LN表示归一化,ZN表示经过N层Transformer编码器后得到的面部特征序列,设置多头数L=12,层数N=12。
最终,得到经过多层Transformer编码器处理后的面部特征序列y,使用其头部的情感分类编码[class]以预测面部表情结果,保存每轮训练的模型权重。
步骤S3、优化保存的多组深度神经网络模型权重,以进一步提升深度神经网络模型的识别性能。
本申请所采用的多组深度神经网络模型权重的优化方法如图6所示,所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块,所述局部贪心策略模块优化模型权重后连接到全局贪心策略模块,所述全局贪心策略模块优化模型权重后输出图像的分类结果,保存优化模型权重。
优化的过程如下:
输入多个已训练完成的深度神经网络模型{W1,…,Wn},其中单个深度神经网络模型包含训练过程中所有轮次的权重{Wi1,,…,Wiep},其中ep为总训练轮次。采用局部贪心策略模块,以获取每个深度神经网络模型的局部模型权重最优解。
本实施例局部贪心策略模块进行如下操作:
D1:在保存的每个深度神经网络模型中挑选性能最佳的轮次区间权重组;
D2:所述轮次区间权重组经过贪心策略计算后输出局部权重最优解;
D3:验证并保存局部权重最优解。
具体的,选取单个深度神经网络模型中的一组模型权重WmBEI={Wm(best-k),…,Wmbest,…,Wm(best+k)},其中Wmbest表示训练过程中的性能最佳轮次的模型权重,[best-k,best+k]表示区间上下限,设置k=4。通过贪心算法计算得到局部贪心权重组Wmg
Wmg=Greedy Strategy(WmBEI)
其中,Greedy Strategy表示贪心策略,以挖掘模型权重组的最优解。
本实施例贪心策略进行如下操作:
E1:将模型权重组按照在测试集上的性能降序排序;
E2:按顺序添加到贪心权重组;
E3:只保留对识别性能有正向提升的模型权重。
具体的,输入单个模型的权重组{Wm(best-k),…,Wmbest,…,Wm(best+k)}和面部表情测试样本。评估每个权重在测试样本上的识别性能,并按性能进行降序排序。设置一个贪心权重组Greedy Wights={},用于保存能够正向提升识别性能的模型权重,设置一个最优性能值Best ValAcc=0,用于评估贪心权重组的识别性能。按性能排序的顺序依次进行以下操作:将模型权重临时添加到贪心权重组中,如果新贪心权重组的平均权值的识别性能高于最优性能值,即ValAcc(avg(Greedy Wights∪{Wm}))>Best ValAcc,则将该模型权重添加到贪心权重组Greedy Weights=Greedy Wights∪{Wm},否则将其过滤。重复数次,直到执行到排序序列的最后一名。输出结果得到局部贪心权重组Wmg
取局部贪心权重组Wmg的平均值以确定局部权重最优解Wm,具体计算公式如下:
Figure BDA0004086910280000111
保存局部权重最优解Wm,并将其送入全局贪心策略模块,以获取全局模型权重最优解。
本实施例全局贪心策略模块进行如下操作:
F1:输入经过局部贪心策略模块计算得到的多组局部权重最优解;
F2:所述多组局部权重组经过贪心策略计算后输出全局权重最优解;
F3:验证并保存全局权重最优解。
具体的,将n组深度神经网络模型经过局部贪心策略模块,得到n组局部权重最优解W={W1,…,Wn},设置n=15。接着,继续利用贪心策略寻找对识别性能有积极效果的全局贪心权重组Wg
Wg=Greedy Strategy(W)
最后,与局部贪心策略做法相同,对全局贪心权重组Wg取平均以获取局部-全局最优解Wbest
Figure BDA0004086910280000121
评估局部-全局最优解Wbest的识别性能,保存优化模型权重。
步骤S4、采用优化好的深度神经网络模型对人脸面部图像进行表情识别。
在优化好深度神经网络模型之后,对于待分类的面部表情图像,将待分类的面部表情图像输入到优化好的深度神经网络模型,得到图像分类结果。
本申请在获取训练样本时,同时生成测试样本,使用优化好的深度神经网络模型对测试样本进行识别并得到评估数据,来验证深度神经网络模型的效果。
本申请针对面部遮挡和姿态变化引起的识别准确率下降的问题,引入了显著特征筛选网络和视觉转化器网络来聚焦具有鉴别性的面部特征,并加强特征之间的关联性,更大程度增强了模型的特征学习能力;针对在训练深度神经网络模型时,造成的大量时间和资源成本浪费问题,引入了多权重寻优方法,根据局部-全局贪心策略,可以充分挖掘次优模型的价值。
与前述的面部表情识别方法的实施例相对应,本申请还提供了面部表情识别装置的实施例。
图7是根据一示例性实施例示出的一种面部表情识别装置框图。参照图7,该装置包括:
获取模块1,用于获取用于训练和测试的人脸面部表情图像样本;
模型构建及训练模块2,用于构建并训练深度神经网络模型,所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络,所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块,所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块,所述双分支注意力通道模块包括局部注意力通道和全局注意力通道,所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络,所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器,所述面部特征重构模块用于将显著特征图重构为一维特征序列后输入到多层Transformer编码器,所述多层Transformer编码器的输出输入到分类器中进行分类,输出图像的分类结果,保存每轮训练的模型权重;
优化模块3,用于优化保存的多组深度神经网络模型权重,所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块,所述局部贪心策略模块用于优化模型权重后连接到全局贪心策略模块,所述全局贪心策略模块优化模型权重后输出图像的分类结果,保存优化模型权重;
识别模块4,用于采用优化好的深度神经网络模型对人脸面部图像进行表情识别。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的面部表情识别方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的面部表情识别方法。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的网络拓扑布局方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有数据的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种面部表情识别方法,其特征在于,包括:
获取用于训练和测试的人脸面部表情图像样本;
构建并训练深度神经网络模型,所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络,所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块,所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块,所述双分支注意力通道模块包括局部注意力通道和全局注意力通道,所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络,所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器,所述面部特征重构模块用于将显著特征图重构为一维特征序列后输入到多层Transformer编码器,所述多层Transformer编码器的输出输入到分类器中进行分类,输出图像的分类结果,保存每轮训练的模型权重;
优化保存的多组深度神经网络模型权重,所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块,所述局部贪心策略模块用于优化模型权重后连接到全局贪心策略模块,所述全局贪心策略模块优化模型权重后输出图像的分类结果,保存优化模型权重;
采用优化好的深度神经网络模型对人脸面部图像进行表情识别。
2.根据权利要求1所述的方法,其特征在于,所述双分支注意力通道模块用于执行如下操作:
将原始特征图经过双通道注意力计算得到局部注意力权重和全局注意力权重;
将所述局部注意力权重与全局注意力权重经过广播相加得到局部-全局注意力权重;
将原始特征图经过所述局部-全局注意力权重筛选后得到显著特征图。
3.根据权利要求1所述的方法,其特征在于,所述面部特征重构模块用于执行如下操作:
采用切片操作将显著特征图分成多个二维面部特征块;
将所述多个二维面部特征块经过线性投影映射为一维特征向量;
在所述一维特征向量头部嵌入可学习的情感分类编码,再在特征向量的每个特征单词中添加可学习的位置编码,生成输出的面部特征序列。
4.根据权利要求1所述的方法,其特征在于,所述多层Transformer编码器用于执行如下操作:
将面部特征序列依次输入到多头自注意模块和多层感知器模块,得到新的面部特征序列;
重复上述步骤多次,以得到具有强关联性的面部特征序列。
5.根据权利要求1所述的方法,其特征在于,所述局部贪心策略模块用于执行如下操作:
在保存的每个深度神经网络模型中挑选性能最佳的轮次区间权重组;
将所述轮次区间权重组经过贪心策略计算后输出局部权重最优解;
验证并保存所述局部权重最优解。
6.根据权利要求1所述的方法,其特征在于,所述全局贪心策略模块用于执行如下操作:
输入经过局部贪心策略模块计算得到的多组局部权重最优解;
将所述多组局部权重组经过贪心策略计算后输出全局权重最优解;
验证并保存所述全局权重最优解。
7.根据权利要求5或6所述的方法,其特征在于,所述贪心策略包括:
将模型权重组按照在测试集上的性能降序排序;
按顺序添加到贪心权重组;
只保留对识别性能有正向提升的模型权重。
8.一种面部表情识别装置,其特征在于,包括:
获取模块,用于获取用于训练和测试的人脸面部表情图像样本;
模型构建及训练模块,用于构建并训练深度神经网络模型,所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络,所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块,所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块,所述双分支注意力通道模块包括局部注意力通道和全局注意力通道,所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络,所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器,所述面部特征重构模块用于将显著特征图重构为一维特征序列后输入到多层Transformer编码器,所述多层Transformer编码器的输出输入到分类器中进行分类,输出图像的分类结果,保存每轮训练的模型权重;
优化模块,用于优化保存的多组深度神经网络模型权重,所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块,所述局部贪心策略模块用于优化模型权重后连接到全局贪心策略模块,所述全局贪心策略模块优化模型权重后输出图像的分类结果,保存优化模型权重;
识别模块,用于采用优化好的深度神经网络模型对人脸面部图像进行表情识别。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
CN202310138881.2A 2023-02-08 2023-02-08 一种面部表情识别方法及装置、电子设备、存储介质 Pending CN116129507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310138881.2A CN116129507A (zh) 2023-02-08 2023-02-08 一种面部表情识别方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310138881.2A CN116129507A (zh) 2023-02-08 2023-02-08 一种面部表情识别方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN116129507A true CN116129507A (zh) 2023-05-16

Family

ID=86308035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310138881.2A Pending CN116129507A (zh) 2023-02-08 2023-02-08 一种面部表情识别方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN116129507A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385839A (zh) * 2023-06-05 2023-07-04 深圳须弥云图空间科技有限公司 图像预训练模型的训练方法、装置、电子设备及存储介质
CN116645716A (zh) * 2023-05-31 2023-08-25 南京林业大学 基于局部特征和全局特征的表情识别方法
CN117095447A (zh) * 2023-10-18 2023-11-21 杭州宇泛智能科技有限公司 一种跨域人脸识别方法、装置、计算机设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645716A (zh) * 2023-05-31 2023-08-25 南京林业大学 基于局部特征和全局特征的表情识别方法
CN116645716B (zh) * 2023-05-31 2024-01-19 南京林业大学 基于局部特征和全局特征的表情识别方法
CN116385839A (zh) * 2023-06-05 2023-07-04 深圳须弥云图空间科技有限公司 图像预训练模型的训练方法、装置、电子设备及存储介质
CN116385839B (zh) * 2023-06-05 2023-08-11 深圳须弥云图空间科技有限公司 图像预训练模型的训练方法、装置、电子设备及存储介质
CN117095447A (zh) * 2023-10-18 2023-11-21 杭州宇泛智能科技有限公司 一种跨域人脸识别方法、装置、计算机设备及存储介质
CN117095447B (zh) * 2023-10-18 2024-01-12 杭州宇泛智能科技有限公司 一种跨域人脸识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109886273B (zh) 一种cmr图像分割分类系统
CN116129507A (zh) 一种面部表情识别方法及装置、电子设备、存储介质
US10282589B2 (en) Method and system for detection and classification of cells using convolutional neural networks
CN110866908B (zh) 图像处理方法、装置、服务器及存储介质
CN111008640B (zh) 图像识别模型训练及图像识别方法、装置、终端及介质
CN110222718B (zh) 图像处理的方法及装置
CN109472209B (zh) 一种图像识别方法、装置和存储介质
Weng et al. Cattle face recognition based on a Two-Branch convolutional neural network
CN110033023A (zh) 一种基于绘本识别的图像数据处理方法及系统
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN114511502A (zh) 一种基于人工智能的胃肠道内窥镜图像息肉检测系统、终端及存储介质
CN113627391A (zh) 一种考虑个体差异的跨模式脑电信号识别方法
CN110363240B (zh) 一种医学影像分类方法与系统
Reale et al. Facial action unit analysis through 3d point cloud neural networks
CN112380955A (zh) 动作的识别方法及装置
WO2023108418A1 (zh) 脑图谱构建及神经环路检测的方法和相关产品
Hermes et al. Application of graph convolutions in a lightweight model for skeletal human motion forecasting
CN115565168A (zh) 一种基于注意力机制残差胶囊网络的甘蔗病害识别方法
CN115346084A (zh) 样本处理方法、装置、电子设备、存储介质及程序产品
CN113256556A (zh) 一种图像选择方法及装置
CN110555342B (zh) 一种图像识别方法、装置和图像设备
CN112634239A (zh) 一种基于深度学习的脑出血检测系统
CN112805723A (zh) 一种图像处理系统、方法以及包括该系统的自动驾驶车辆
Kosana et al. ADEEC-Multistage Novel Framework for Cattle Identification using Muzzle Prints

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination