CN114764941A - 一种表情识别方法、装置以及电子设备 - Google Patents

一种表情识别方法、装置以及电子设备 Download PDF

Info

Publication number
CN114764941A
CN114764941A CN202210444179.4A CN202210444179A CN114764941A CN 114764941 A CN114764941 A CN 114764941A CN 202210444179 A CN202210444179 A CN 202210444179A CN 114764941 A CN114764941 A CN 114764941A
Authority
CN
China
Prior art keywords
data set
expression
target
expression recognition
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210444179.4A
Other languages
English (en)
Inventor
彭小江
毛抒艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Technology University
Original Assignee
Shenzhen Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Technology University filed Critical Shenzhen Technology University
Priority to CN202210444179.4A priority Critical patent/CN114764941A/zh
Publication of CN114764941A publication Critical patent/CN114764941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了表情识别方法、装置及电子设备,属于数据处理技术领域,所述方法包括:获取目标数据集;获取AU辅助数据集,所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU;基于AU感知的表情识别构建神经网络模型;通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型;将待检测表情图像输入所述目标模型中,得到表情识别结果。通过本申请公开的表情识别方案,在不增加标注成本的前提下,可提升所训练的目标模型的识别准确度。

Description

一种表情识别方法、装置以及电子设备
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种表情识别方法、装置以及电子设备。
背景技术
表情识别方法大致可分为两类,一种是非深度学习方法,另一种是基于深度学习方法。非深度学习方法,首先是通过人为的观察对表情的物理特征以及数学特征建立模型,经由模型提取出的特征信息再经过一定规则或者分类器对特征信息进行分类识别,从而识别表情的功能。非深度学习的表情识别方法受头部姿势、遮挡、背景的影响较大,不具备鲁棒性,在复杂的环境中对于表情识别的准确度低。
基于深度学习的表情识别方法大致可分为两类,一类为直接基于表情标签训练的方法,另一类为借助AU(Action Unit,脸部运动单元)标签训练的方法。基于表情标签训练的方法,通过建立神经网络模型,对带有表情标签的人脸数据集进行训练,从而令模型具备表情识别的能力。但人的表情十分复杂,普通的神经网络模型对面部的微小变化不敏感,识别结果准确度低。借助AU标签训练的方法,对表情数据集进行AU标注,然后再进行训练,但这种方法标注量非常大,标注成本高。
发明内容
本申请实施例的目的是提供一种表情识别方法、装置和电子设备,能够解决现有技术中存在的表情识别准确度低、表情数据集AU标注成本高的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种表情识别方法,包括:
获取目标数据集,其中,所述目标数据集为带有表情标签的人脸数据集;
获取AU辅助数据集,所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU;
基于AU感知的表情识别构建神经网络模型;
通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型;
将待检测表情图像输入所述目标模型中,得到表情识别结果。
可选地,所述获取目标数据集的步骤,包括:
从RAF-DB和/FERPlus公开的人脸表情数据集中筛选至少部分数据,作为目标数据集,其中,筛选出的目标数据集中包括多种基础表情图像。
可选地,所述获取AU辅助数据集的步骤,包括:
获取RAFAU或EmotioNet的AU数据集,并对所述AU数据集中的各条数据进行人工AU标注,其中,AU标注的标签仅包括:指示开心、伤心、惊喜、害怕、生气、恶心、自然平静这七种基础表情的标签。
可选地,所述目标模型的总损失函数如下:
Figure BDA0003615146780000021
其中,,ZFER为目标模型最终输出的分数对,ZAU为AU-CRL模块的分数对,所述ZFER输入Softmax函数ψ,所述ZAU输入Sigmoid函数,α和β为常数系数用于平衡FER的交叉熵损失
Figure BDA0003615146780000022
和AU检测的二元交叉熵损失
Figure BDA0003615146780000023
所述YEFR、YAU分别为来自FER数据集和AU检测数据集的标签。
可选地,所述将待检测表情图像输入所述目标模型中,得到表情识别结果的步骤,包括:
将所述待检测表情图像输入所述目标模型中,基于所述目标模型中的卷积神经网络特征提取模块和表情分支结构的输出结果,确定表情识结果。
第二方面,本申请实施例提供了一种表情识别装置,所述装置包括:
第一获取模块,用于获取目标数据集,其中,所述目标数据集为带有表情标签的人脸数据集;
第二获取模块,用于获取AU辅助数据集,所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU;
构建模块,用于基于AU感知的表情识别构建神经网络模型;
训练模块,用于通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型;
识别模块,用于将待检测表情图像输入所述目标模型中,得到表情识别结果。
可选地,所述第一获取模块具体用于:
从RAF-DB和/FERPlus公开的人脸表情数据集中筛选至少部分数据,作为目标数据集,其中,筛选出的目标数据集中包括多种基础表情图像。
可选地,所述目标模型的总损失函数如下:
Figure BDA0003615146780000031
其中,zFER为目标模型最终输出的分数对,zAU为AU-CRL模块的分数对,所述zFER输入Softmax函数ψ,所述zAU输入Sigmoid函数,α和β为常数系数用于平衡FER的交叉熵损失
Figure BDA0003615146780000032
和AU检测的二元交叉熵损失
Figure BDA0003615146780000033
所述YFER、YAU分别为来自FER数据集和AU检测数据集的标签。
可选地,所述第二获取模块具体用于:
获取RAFAU或EmotioNet的AU数据集,并对所述AU数据集中的各条数据进行人工AU标注,其中,AU标注的标签仅包括:指示开心、伤心、惊喜、害怕、生气、恶心、自然平静这七种基础表情的标签。
可选地,所述识别模块具体用于:
将所述待检测表情图像输入所述目标模型中,基于所述目标模型中的卷积神经网络特征提取模块和表情分支结构的输出结果,确定表情识结果。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
本申请实施例提供的表情识别方法,获取目标数据集,获取AU辅助数据集;基于AU感知的表情识别构建神经网络模型;通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型;将待检测表情图像输入所述目标模型中,得到表情识别结果。该方案在不需要额外地对目标数据集进行AU人工标注的情况下,直接利用与目标数据集不重合的辅助数据集进行联合训练,在不增加标注成本的前提下,可提升所训练的目标模型的识别准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是表示本申请实施例的一种表情识别方法的步骤流程图;
图2是表示本申请实施例的神经网络模型的结构示意图;
图3是表示本申请实施例的多级Transformer模块结构示意图;
图4是表示本申请实施例的一种表情识别装置的结构框图;
图5是表示本申请实施例的一种电子设备的结构框图;
图6是表示本申请实施例的又一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的设备检测方法进行详细地说明。
参照图1,示出了本申请实施例的一种表情识别方法的步骤流程图。
本申请实施例的表情识别方法包括以下步骤:
步骤101:获取目标数据集。
其中,目标数据集为带有表情标签的人脸数据集。
本申请实施例提供的表情识别方法,可以应用于电子设备,电子设备中设置有处理器,处理器中设置有执行表情识别方法流程的计算机程序。
一种可选地获取目标数据集的方式可以为:从RAF-DB和/FERPlus公开的人脸表情数据集中筛选至少部分数据,作为目标数据集,其中,筛选出的目标数据集中包括多种基础表情图像。其中,RAF-DB和/FERPlus是两个业内公知的人脸表情数据集。
本申请实施的表情识别方法,其可用于对不同场景中的人脸表情进行识别,所以需要选取真实应用场景的人脸表情数据,而非实验室环境下采集的人脸表情数据。因此选择RAF-DB或FERPlus公开人脸表情数据集作为目标表情数据集,此数据集包含7种。
步骤102:获取AU辅助数据集。
其中,AU(Action Unit,脸部运动单元)辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU。其中,表情与AU的关系对应表如图1所示:
表情 Actionunits
Happiness 6+12
Sadness 1+4+15
Surprise 1+2+5+26
Fear 1+2+4+5+7+20+26
Anger 4+5+7+23
Disgust 9+15+17
一种可选地获取AU辅助数据集的方式可以为:获取RAFAU或EmotioNet的AU数据集,并对AU数据集中的各条数据进行人工AU标注,其中,AU标注的标签仅包括:指示开心、伤心、惊喜、害怕、生气、恶心、自然平静这七种基础表情的标签。RAFAU、EmotioNet为两个业内公知的AU数据集。RAFAU为Real-worldAffective Faces Action Unit的缩写。
本申请实施例中,为了更好地利用带有AU标注的人脸数据集辅助模型训练,让模型更好地感知与表情相关的AU。因此选择RAFAU或EmotioNet的AU数据集,两者都是真实场景下收集人脸数据集,并对数据进行人工AU标注。为了识别开心、伤心、惊喜、害怕、生气、恶心、自然平静这7种基础表情,辅助数据集中的AU标签只保留AU1、AU2、AU4、AU5、AU6、AU7、AU8、AU9、AU12、AU14、AU15、AU17、AU20、AU23、AU26这16种AU标签。
步骤103:基于AU感知的表情识别构建神经网络模型。
图2是表示本申请实施例的神经网络模型的结构示意图。如图2所示,该神经网络模型包括CNN特征提取器、AU分支以及表情分支,AU分支中又包含特征块分组、全局平均池化、全连接层以及concat层。表情分支中又包括:特诊分块、为止信息嵌入层、多级Transformer模块、全局平均池化以及全连接层。
在实际实现过程中,神经网络模型可以通过如下流程创建完成,具体包括如下子步骤:
子步骤1041:人脸特征提取。
首先,本申请中使用ResNet50的前三个阶段作为主干网络来提取原始面部图像的特征图。因为在这个阶段只需要为后面的Transformer块提取浅层特征。对于给定大小为H*W*3的RGB人脸图像,特征提取器生成大小为
Figure BDA0003615146780000071
的多层特征图,其中R是ResNet50的下采样率,C为第3阶段输出的通道数,其中,H=W=112,R=8。通过MS-Celeb-1M[15]人脸身份识别数据集上的预训练权重初始化骨干网络权重。该人脸身份识别数据集中包含一千万张人脸图片。
子步骤1042:构建多级Transformer模块。
Transformer模块首先通过分割模块将特征图分割为非重叠的块。每个块被视为一个“token”,其特征被设置为图像中某个区域的所有通道的串联。在实际应用中,可将特征图分割的块的大小设置为1*1像素,因此,第一级的Transformer模块中每个块的特征维度为256。为生成层级表征的特征,我们使用块融合层,随网络的加深,减少token的数量。在输入下一个Transformer模块前,每2*2个相邻的块会融合为一个token,与此同时新token的通道数右C增加到2C。即特征图的大小在第二级Transformer模块中为
Figure BDA0003615146780000072
Hf与Wf是由ResNet50输出的特征图的高和宽。
为了将位置信息合并到多层Transformer编码器中,和将1D可学习位置嵌入添加到特征token中:
Figure BDA0003615146780000081
Figure BDA0003615146780000082
会学习所块的位置索引,Z0是合并位置信息后的特征token组。
为了拟合块中的所有元素之间的复杂交互,本申请中将Z0输入到Transformer编码器中。Transformer编码器通过多头自注意力计算模块即MHSA模块,计算的Z0权重。如图2所示,Transformer编码器是通过可学习查询向量Q、键向量K和值向量V来完成的。计算第一层中SHSA的单头全局自注意力信息即SHSA信息,公式如下:
Figure BDA0003615146780000083
当中,
Figure BDA0003615146780000084
是线性投影的权重值。需要指出,多头的自注意力机制是为了把Z0投影到N个不同的特征空间。多头自注意力机制的公式表达如下:
MHSA(Z0)=concat(head1,...,headN)O
其中,N为不同自注意力头的数量,concat表示串联操作;WO为线性投影的权重参数,每个自注意力头d的尺寸等于Cp=N2,h1是第一层的隐藏尺寸。每个Transformer编码器由N层MHSA块组成。
经MHSA模块输出之后,本申请将token序列重新排列为2D网格,并将其转换为2D特征图。然后,本申请中在Transformer的前馈网络中引入了深度卷积。首先增加这些特征映射的通道数量,然后对它们执行深度卷积,内核大小为3*3,目的是增强与它相邻8个token的表征相关性。最后,恢复特征图的通道,并将它们按顺序展平到初始维度。这些程序可记为:
Figure BDA0003615146780000091
Figure BDA0003615146780000092
Figure BDA0003615146780000093
Figure BDA0003615146780000094
Figure BDA0003615146780000095
所构建的多级Transformer模块的结构示意图如图3所示。
子步骤1043:构建AU分支辅助结构。
约束表示学习的目的是迫使模型在分类器层之前学习AU的特征。由表1中所示的AU分布情况可得出,AU在人脸上的出现呈上下分布。因此,我们从Transformer块的中间层获取块token,然后对这些token应用Seq2Img操作来生成2D特征图,实现中的尺寸为512*7*7。然后根据不同AU所属的区域,将二维特征地图分为上半部分和下半部分。上半部分的特征大小为512*3*7,它包含的7个AU,分别为AU1,AU2,AU4,AU5,AU6,AU7,AU9;而下半部分的特征大小为512*4*7,包含14个,分别为AU10,AU12,AU14,AU15,AU16,AU17,AU18,AU20,AU22,AU23,AU24,AU25,AU26,AU27。接着对两部分特征图执行全局平均池化,得到两个向量512*1。最后,本申请分别在两个向量上执行两个完全连接层,然后连接输出以获最终结果:
Zu,Zl=split(Z)
Cu=GAP(BN(Zu))
Cl=GAP(BN(Zl))
Zs=Concat(Cu,Cl)
在构建完神经网络模型后,为该神经网络模型设置合适的损失函数和模型参数,在设置完成后,即可执行步骤104。
步骤104:通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型。
由于RVT[12]已经证明分类token(classification token,CLS)对ViT不重要,因此本申请尝试在块token上使用全局平均池化,以此替换CLS(如CPVT[13]和LeViT[14])。但与AU检测不同,发明人发现使用全局池化操作会降低测试集的准确度。因此本申请舍弃全局池化,采用展平2维特征的操作,并在模型末尾使用完全连接层。这是由于缝隙会破坏人脸的空间信息,对表情识别至关重要。其中,RVT[12]为阿里巴巴提出的鲁棒性高的Transformer;CPVT[13]为美团提出的一种Transformer;LeViT[14]为Facebook提出的一种Transformer。
训练得到的目标模型的总损失函数如下:
Figure BDA0003615146780000101
其中,ZFER为目标模型最终输出的logit即分数对,ZAU为AU-CRL模块的分数对,所述ZFER输入Softmax函数ψ,ZAU输入Sigmoid函数,α和β为常数系数用于平衡FER的交叉熵损失
Figure BDA0003615146780000102
和AU检测的二元交叉熵损失
Figure BDA0003615146780000103
YFER、YAU分别为来自FER数据集和AU检测数据集的标签。
在基于目标数据集和AU辅助数据集,对神经网络模型进行训练时,可将数据集中的各条数据输入神经网络模型中,基于神经网络模型的输出结果与预先标记进行比对,基于比对结果调整神经网络模型的参数,以缩小损失值。经过多次训练,使得神经网络模型的损失值降低至预设阈值后,确定神经网络模型训练完成。
步骤105:将待检测表情图像输入目标模型中,得到表情识别结果。
训练完成后,进行推理预测时不需要AU分支结构,只需要CNN特征提取模块和表情分支结构即可对人类表情的分类结果。
关于AU-CRL模块的消融实验,使用RAF-DB或FERPlus数据集辅助和不用额外AU数据集的效果对比如表2所示:
Model AUData. RAFDB% FERPlus%
ViT[5] / 87.3 85.62
ViT+AU-CRL RAFAU 88.8(+1.5) 88.4(+2.78)
ViT+AU-CRL EmotioNet 87.9(+0.5) 87.5(+1.88)
本申请实施例提供的表情识别方法,获取目标数据集,获取AU辅助数据集;基于AU感知的表情识别构建神经网络模型;通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型;将待检测表情图像输入所述目标模型中,得到表情识别结果。该方案在不需要额外地对目标数据集进行AU人工标注的情况下,直接利用与目标数据集不重合的辅助数据集进行联合训练,在不增加标注成本的前提下,可提升所训练的目标模型的识别准确度。
图4为实现本申请实施例的一种表情识别装置的结构框图。
本申请实施例的表情识别装置包括如下模块:
第一获取模块401,用于获取目标数据集,其中,所述目标数据集为带有表情标签的人脸数据集;
第二获取模块402,用于获取AU辅助数据集,所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU;
构建模块403,用于基于AU感知的表情识别构建神经网络模型;
训练模块404,用于通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型;
识别模块405,用于将待检测表情图像输入所述目标模型中,得到表情识别结果。
可选地,所述第一获取模块具体用于:
从RAFDB和/FERPlus公开的人脸表情数据集中筛选至少部分数据,作为目标数据集,其中,筛选出的目标数据集中包括多种基础表情图像。
可选地,所述第二获取模块具体用于:
获取RAFAU或EmotioNet的AU数据集,并对所述AU数据集中的各条数据进行人工AU标注,其中,AU标注的标签仅包括:指示开心、伤心、惊喜、害怕、生气、恶心、自然平静这七种基础表情的标签。
可选地,所述目标模型的总损失函数如下:
Figure BDA0003615146780000121
其中,,ZFER为目标模型最终输出的分数对,zAU为AU-CRL模块的分数对,所述zFER输入Softmax函数ψ,所述zAU输入Sigmoid函数,α和β为常数系数用于平衡FER的交叉熵损失
Figure BDA0003615146780000122
和AU检测的二元交叉熵损失
Figure BDA0003615146780000123
所述YFER、YAU分别为来自FER数据集和AU检测数据集的标签。
可选地,所述识别模块具体用于:
将所述待检测表情图像输入所述目标模型中,基于所述目标模型中的卷积神经网络特征提取模块和表情分支结构的输出结果,确定表情识结果。
本申请实施例提供的表情识别装置,获取目标数据集,获取AU辅助数据集;基于AU感知的表情识别构建神经网络模型;通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型;将待检测表情图像输入所述目标模型中,得到表情识别结果。该装置在不需要额外地对目标数据集进行AU人工标注的情况下,直接利用与目标数据集不重合的辅助数据集进行联合训练,在不增加标注成本的前提下,可提升所训练的目标模型的识别准确度。
本申请实施例中图4所示的表情识别装置可以是装置,也可以是服务器中的部件、集成电路、或芯片。本申请实施例中的图4所示的表情识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的图4所示的表情识别装置能够实现图1至图3的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图5所示,本申请实施例还提供一种电子设备500,包括处理器501,存储器502,存储在存储器502上并可在所述处理器501上运行的程序或指令,该程序或指令被处理器501执行时实现上述表情识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述所述的服务器。
图6为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、以及处理器610等部件。本领域技术人员可以理解,电子设备600还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器610用于执行上述表情识别方法的流程。
应理解的是,本申请实施例中,输入单元604可以包括图形处理器(GraphicsProcessing Unit,GPU)6041和麦克风6042,图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071,也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器609可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器610可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述表情识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述表情识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种表情识别方法,其特征在于,所述方法包括:
获取目标数据集,其中,所述目标数据集为带有表情标签的人脸数据集;
获取AU辅助数据集,所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU;
基于AU感知的表情识别构建神经网络模型;
通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型;
将待检测表情图像输入所述目标模型中,得到表情识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取目标数据集的步骤,包括:
从RAF-DB和/FERPlus公开的人脸表情数据集中筛选至少部分数据,作为目标数据集,其中,筛选出的目标数据集中包括多种基础表情图像。
3.根据权利要求1所述的方法,其特征在于,所述获取AU辅助数据集的步骤,包括:
获取RAFAU或EmotioNet的AU数据集,并对所述AU数据集中的各条数据进行人工AU标注,其中,AU标注的标签仅包括:指示开心、伤心、惊喜、害怕、生气、恶心、自然平静这七种基础表情的标签。
4.根据权利要求1所述的方法,其特征在于,所述目标模型的总损失函数如下:
Figure FDA0003615146770000011
其中,,ZFER为目标模型最终输出的分数对,ZAU为AU-CRL模块的分数对,所述ZFER输入Softmax函数ψ,所述ZAU输入Sigmoid函数,α和β为常数系数用于平衡FER的交叉熵损失
Figure FDA0003615146770000012
和AU检测的二元交叉熵损失
Figure FDA0003615146770000013
所述YFEB、YAU分别为来自FER数据集和AU检测数据集的标签。
5.根据权利要求1所述的方法,其特征在于,所述将待检测表情图像输入所述目标模型中,得到表情识别结果的步骤,包括:
将所述待检测表情图像输入所述目标模型中,基于所述目标模型中的卷积神经网络特征提取模块和表情分支结构的输出结果,确定表情识结果。
6.一种表情识别装置,其特征在于,包括:
第一获取模块,用于获取目标数据集,其中,所述目标数据集为带有表情标签的人脸数据集;
第二获取模块,用于获取AU辅助数据集,所述AU辅助数据集根据AU与表情关系选出的与各基本表情相关性最强的AU;
构建模块,用于基于AU感知的表情识别构建神经网络模型;
训练模块,用于通过目标数据集和AU辅助数据集,对神经网络模型进行训练,得到目标模型;
识别模块,用于将待检测表情图像输入所述目标模型中,得到表情识别结果。
7.根据权利要求6所述的装置,其特征在于,所述第一获取模块具体用于:
从RAF-DB和/FERPlus公开的人脸表情数据集中筛选至少部分数据,作为目标数据集,其中,筛选出的目标数据集中包括多种基础表情图像。
8.根据权利要求6所述的装置,其特征在于,所述第二获取模块具体用于:
获取RAFAU或EmotioNet的AU数据集,并对所述AU数据集中的各条数据进行人工AU标注,其中,AU标注的标签仅包括:指示开心、伤心、惊喜、害怕、生气、恶心、自然平静这七种基础表情的标签。
9.根据权利要求6所述的装置,其特征在于,所述识别模块具体用于:
将所述待检测表情图像输入所述目标模型中,基于所述目标模型中的卷积神经网络特征提取模块和表情分支结构的输出结果,确定表情识结果。
10.一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的表情识别方法的步骤。
CN202210444179.4A 2022-04-25 2022-04-25 一种表情识别方法、装置以及电子设备 Pending CN114764941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210444179.4A CN114764941A (zh) 2022-04-25 2022-04-25 一种表情识别方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210444179.4A CN114764941A (zh) 2022-04-25 2022-04-25 一种表情识别方法、装置以及电子设备

Publications (1)

Publication Number Publication Date
CN114764941A true CN114764941A (zh) 2022-07-19

Family

ID=82364679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210444179.4A Pending CN114764941A (zh) 2022-04-25 2022-04-25 一种表情识别方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN114764941A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189272A (zh) * 2023-05-05 2023-05-30 南京邮电大学 基于特征融合和注意力机制的人脸表情识别方法及系统
CN117746503A (zh) * 2023-12-20 2024-03-22 大湾区大学(筹) 一种面部动作单元检测方法、电子设备及存储介质
CN117746503B (zh) * 2023-12-20 2024-07-09 大湾区大学(筹) 一种面部动作单元检测方法、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189272A (zh) * 2023-05-05 2023-05-30 南京邮电大学 基于特征融合和注意力机制的人脸表情识别方法及系统
CN117746503A (zh) * 2023-12-20 2024-03-22 大湾区大学(筹) 一种面部动作单元检测方法、电子设备及存储介质
CN117746503B (zh) * 2023-12-20 2024-07-09 大湾区大学(筹) 一种面部动作单元检测方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Zhao et al. Pyramid feature attention network for saliency detection
Sun et al. Deep spatial-temporal feature fusion for facial expression recognition in static images
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
Ma et al. AU R-CNN: Encoding expert prior knowledge into R-CNN for action unit detection
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
US11328172B2 (en) Method for fine-grained sketch-based scene image retrieval
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN111428664B (zh) 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
Dandıl et al. Real-time facial emotion classification using deep learning
CN108596240B (zh) 一种基于判别特征网络的图像语义分割方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN106874913A (zh) 一种菜品检测方法
CN113936309A (zh) 一种基于面部分块的表情识别方法
Li et al. Multi-attention guided feature fusion network for salient object detection
CN109920018A (zh) 基于神经网络的黑白照片色彩恢复方法、装置及存储介质
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Ren et al. Multi-scale deep encoder-decoder network for salient object detection
Li et al. Findnet: Can you find me? boundary-and-texture enhancement network for camouflaged object detection
Chen et al. Edge-aware salient object detection network via context guidance
CN114764941A (zh) 一种表情识别方法、装置以及电子设备
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination