CN114743241A - 一种人脸表情识别方法、装置、电子设备及存储介质 - Google Patents
一种人脸表情识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114743241A CN114743241A CN202210342417.0A CN202210342417A CN114743241A CN 114743241 A CN114743241 A CN 114743241A CN 202210342417 A CN202210342417 A CN 202210342417A CN 114743241 A CN114743241 A CN 114743241A
- Authority
- CN
- China
- Prior art keywords
- face
- feature vector
- facial
- image
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及面部识别技术领域,尤其涉及一种人脸表情识别方法、装置、电子设备及存储介质。本申请通过基于待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从待识别人脸图像中划分出各个面部动作单元分别对应的感兴趣区域图像;基于从各个感兴趣区域图像分别提取得到的人脸局部特征向量、从待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量;基于人脸融合特征向量,确定待识别人脸图像中人物的目标表情,这样,通过将提取的与面部动作单元紧密相关的人脸局部特征向量以及人脸全局特征向量进行融合后进行人脸表情识别,可以提升对人脸表情识别的准确率。
Description
技术领域
本申请涉及面部识别技术领域,尤其涉及一种人脸表情识别方法、装置、电子设备及存储介质。
背景技术
人脸表情识别是指从给定的人脸图像中识别出人脸图像所对应的表情,例如高兴、悲伤、兴奋等,在人机交互、自动驾驶、影视或动画制作、医疗服务等领域有着非常宽阔的应用前景。
人脸表情按照面部肌肉群的运动来划分可以被分成几十种动作单元(ActionUnit,AU),形成一套完整的面部动作单元编码系统(Facial Action Coding System,FACS)。由于面部动作单元具有客观、细粒度、可量化等优点,因此能够更细致地表征人类的表情和情绪,因此,人类的任意表情都可以表示为一组动作单元及其不同强度的组合。
目前,在人脸表情识别过程中,面部特征提取上大多是直接从人脸图片的整个面部获取信息,例如使用手工设计或者深度卷积网络直接从整个面部图片提取特征,采用这种特征提取方式,往往缺少对人脸局部区域特征的感知能力,进而导致人脸表情的识别准确率不高。
发明内容
有鉴于此,本申请实施例至少提供一种人脸表情识别方法、装置、电子设备及存储介质,可以提升对人脸表情识别的准确率。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供一种人脸表情识别方法,所述人脸表情识别方法包括:
获取待识别人脸图像;
基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像;
基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量;
基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情。
在一种可能的实施方式中,所述基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像,包括:
根据标准人脸模型和所述待识别人脸图像,确定所述待识别人脸图像对应的所述三维人脸模型;
根据各个所述面部动作单元的定义信息,将所述三维人脸模型划分出各个面部局部区域;
基于各个所述面部局部区域的区域掩码信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像。
在一种可能的实施方式中,目标人脸表情识别模型包括局部特征提取模块、全局特征提取模块、特征关联模块以及面部动作强度检测模块;所述基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量,包括:
针对每一所述感兴趣区域图像,将所述感兴趣区域图像输入所述局部特征提取模块,确定所述感兴趣区域图像对应的人脸局部特征向量;
将所述待识别人脸图像输入所述全局特征提取模块,确定所述人脸表情特征向量和所述人脸细节特征向量;
将各个所述人脸局部特征向量、所述人脸表情特征向量以及所述人脸细节特征向量输入所述特征关联模块,确定所述人脸融合特征向量;
所述基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情,包括:
将所述人脸融合特征向量输入所述面部动作强度检测模块,确定所述待识别人脸图像中人物的目标表情。
在一种可能的实施方式中,在所述获取待识别人脸图像之前,根据以下步骤训练出所述目标人脸表情识别模型:
利用多个样本人脸图像对初始人脸表情识别模型进行训练得到中间人脸表情识别模型;其中,所述初始人脸表情识别模型中的全局特征提取模块包括人脸表情特征提取网络、人脸细节特征提取网络以及人脸身份特征提取网络;
去除所述中间人脸表情识别模型中的人脸身份特征提取网络,并对去除所述人脸身份特征提取网络的所述中间人脸表情识别模型中的特征关联模块和面部动作强度检测模块进行下一轮训练,得到训练好的所述目标人脸表情识别模型。
在一种可能的实施方式中,在所述获取待识别人脸图像之前,根据以下步骤确定用于人脸表情识别模型训练的样本人脸图像:
从训练数据集中,筛选出各个样本人物对应的m个训练人脸图像;
针对每一所述样本人物,从所述样本人物对应的m个训练人脸图像中,筛选出处于激活状态的各个面部动作单元分别对应的n个候选人脸图像;
针对每一所述样本人物,从处于激活状态的每一面部动作单元对应的n 个候选人脸图像中,筛选出所述面部动作单元对应的各个强度级别的目标人脸图像;
将所述目标人脸图像,确定为所述样本人脸图像;
其中,m和n均为正整数,且m>n。
在一种可能的实施方式中,所述局部特征提取模块包括至少两个卷积网络和全连接网络;所述针对每一所述感兴趣区域图像,将所述感兴趣区域图像输入所述局部特征提取模块,确定所述感兴趣区域图像对应的人脸局部特征向量,包括:
将所述感兴趣区域图像输入第一卷积网络,确定第一局部特征向量;
将所述第一局部特征向量输入第二卷积网络,确定第二局部特征向量;
将所述第二局部特征向量输入所述全连接网络,确定所述人脸局部特征向量;
其中,所述第一卷积网络和所述第二卷积网络分别使用的卷积核不同。
在一种可能的实施方式中,所述特征关联模块包括目标图注意力网络;根据以下步骤生成所述目标图注意力网络:
将各个样本人脸局部特征向量、样本人脸表情特征向量以及样本人脸细节特征向量分别作为初始图注意力网络的节点;
统计用于训练的多个样本人脸图像中各个所述面部动作单元共同出现的次数;
根据统计的各个所述面部动作单元共同出现的次数,构造所述初始图注意力网络中的各个节点之间的连接关系,生成所述目标图注意力网络。
在一种可能的实施方式中,所述将各个所述人脸局部特征向量、所述人脸表情特征向量以及所述人脸细节特征向量输入所述特征关联模块,确定所述人脸融合特征向量,包括:
针对第一人脸特征向量,确定所述第一人脸特征向量分别与第二人脸特征向量、所述人脸表情特征向量以及所述人脸细节特征向量之间的注意力系数;所述第一人脸特征向量和所述第二人脸特征向量为不同的所述人脸局部特征向量;
将所述第一人脸特征向量对应的多个注意力系数作为权重,对所述第二人脸特征向量、所述人脸表情特征向量以及所述人脸细节特征向量进行特征加权计算,确定所述第一人脸特征向量对应的中间融合特征向量;
将所述第一人脸特征向量对应的中间融合特征向量进行非线性激活处理,确定所述第一人脸特征向量对应的人脸融合特征向量。
在一种可能的实施方式中,所述基于所述人脸融合特征向量,从所述待识别人脸图像中识别出目标表情,包括:
基于所述人脸融合特征向量,确定所述待识别人脸图像中处于激活状态的各个面部动作单元,以及处于激活状态的每个面部动作单元对应的强度级别;
根据激活状态的各个面部动作单元,以及处于激活状态的每个面部动作单元对应的强度级别,确定所述待识别人脸图像中人物的目标表情。
第二方面,本申请实施例还提供一种人脸表情识别装置,所述人脸表情识别装置包括:
获取单元,用于获取待识别人脸图像;
划分单元,用于基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像;
第一确定单元,用于基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量;
第二确定单元,用于基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的人脸表情识别方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的人脸表情识别的步骤。
本申请实施例提供的一种人脸表情识别方法、装置、电子设备及存储介质,通过利用待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从待识别人脸图像中划分出各个面部动作单元分别对应的感兴趣区域图像,进而,基于从各个感兴趣区域图像分别提取得到的人脸局部特征向量、从待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,来共同确定人脸融合特征向量,进一步地,基于人脸融合特征向量,确定待识别人脸图像中人物的目标表情,与现有技术中使用手工设计或者深度卷积网络直接从整个面部图片提取特征进而完成表情识别的方案相比,本申请的技术方案通过将提取的与面部动作单元紧密相关的人脸局部特征向量以及人脸全局特征向量进行融合后进行人脸表情识别,可以提升人脸表情识别过程中对人脸局部区域特征以及人脸全局特征的整体感知能力,可以提升对人脸表情识别的准确率。
进一步,本申请实施例提供的人脸表情识别方法,还通过采用基于人脸身份、面部动作单元类别、面部动作单元的强度级别的三个层次均衡的数据采样方法,可以提升进行模型训练的样本人脸图像的均衡性,因而可以保证训练过程中模型不受某个人脸身份特征、某个面部动作单元类别或者面部动作单元的某种强度级别的样本所影响,可以进一步提升人脸表情识别的准确率。
另外,本申请实施例提供的人脸表情识别方法,还采用两个阶段训练出人脸表情识别模型,在第一阶段从样本人脸图像中提取人脸身份特征信息、人脸表情特征信息、人脸细节特征信息进行训练,在第二阶段不提取人脸身份特征信息进行训练,可以避免发生训练得到的人脸表情识别模型过拟合到特定的人物身份上的情况,这样,可以对人脸身份进行解耦,可以进一步提升人脸表情识别的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种人脸表情识别方法的流程图;
图2示出了本申请实施例所提供的另一种人脸表情识别方法的流程图;
图3示出了本申请实施例所提供的一种人脸表情识别装置的功能模块图之一;
图4示出了本申请实施例所提供的一种人脸表情识别装置的功能模块图之二;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“针对人脸图像的人脸表情识别”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行针对人脸图像的人脸表情识别的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的人脸表情识别方法及装置的方案均在本申请保护范围内。
值得注意的是,在本申请提出之前,相关方案中大多是直接从人脸图片的整个面部获取信息,例如使用手工设计或者深度卷积网络直接从整个面部图片提取特征;也有部分方案是将人脸图像粗粒度地划分成几个较大的区域,并在次基础上做特征提取,进而根据面部特征进行表情识别,但是这些方案往往会导致提取的面部特征缺少对人脸局部区域特征的感知能力,且容易受到人脸姿态、图像形变等因素的影响,人脸局部区域特征,进而导致人脸表情的识别准确率不高。
针对上述问题,本申请实施例提供的一种人脸表情识别方法、装置、电子设备及存储介质,通过利用待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从待识别人脸图像中划分出与各个面部动作单元紧密相关的感兴趣区域图像,进而,将从各个感兴趣区域图像分别提取得到的人脸局部特征向量、从待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量进行融合得到人脸融合特征向量来确定待识别人脸图像中人物的目标表情,可以大大提升人脸表情识别过程中对人脸局部区域特征以及人脸全局特征的整体感知能力,可以提升对人脸表情识别的准确率。
为便于对本申请进行理解,下面结合具体实施例对本申请提供的技术方案进行详细说明。
图1为本申请实施例所提供的一种人脸表情识别方法的流程图。如图1 所示,本申请实施例提供的人脸表情识别方法,包括以下步骤:
S101、获取待识别人脸图像。
该步骤中,获取需要进行人脸表情识别的待识别人脸图像。
这里,待识别人脸图像可以是通过任意拍摄角度得到的二维人脸图像,优选地,使用正脸人脸图像相比其他人脸图像进行人脸表情识别的准确率会更高一些。
S102、基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像。
该步骤中,先构建待识别人脸图像对应的三维人脸模型,然后基于该三维人脸模型以及各个面部动作单元的定义信息,在待识别人脸图像中划分出各个面部动作单元分别对应的感兴趣区域图像,即,在识别人脸图像中划分出多个感兴趣区域图像,其中,每个感兴趣区域图像与一个面部动作单元相对应。
这里,面部动作单元的定义信息可以根据面部动作编码系统中针对面部动作单元的定义来确定,具体地,面部动作单元是一种由人脸的一块或多块肌肉的运动所构成的单元,可用于表示人脸上微小的动作变化,不同的动作变化可以构成不同的人脸表情,因此特定的面部动作单元与面部特定的局部区域具有一定的对应关系,尤其是额头、眉毛、鼻子、脸颊、嘴巴以及下巴等与表情关联程度高的区域。另外,举例说明一些与表情关联度较高的AU,比如,AU0表示抬起上嘴唇和人中区域的肌肉,AU1表示颔部下降,AU2表示嘴角拉伸,AU3表示眉毛压低并聚拢,AU4表示嘴角拉动向下倾斜,AU5表示抬起眉毛外角。
需要说明的是,本申请在对待识别人脸图像进行局部区域的划分时,严格遵循面部动作编码系统中关于面部动作单元的定义,从解剖学角度根据在三维人脸模型中与面部动作单元的定义对应的肌肉运动区域,从待识别人脸图像中划分出二维的感兴趣区域图像,这样,采用这种划分方法能够更加灵活和细致地从待识别人脸图像中划分出与面部动作单元更紧密相关的局部区域,可以保留重要特征区域的基础上尽量避免引入噪声,且从感兴趣区域图像获得的人脸局部特征具有明确的语义信息和很好的可解释性,因此,在此基础上可以便于提高人脸表情识别的准确率。
S103、基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量。
该步骤中,针对待识别人脸图像中分割出的每个感兴趣区域图像,可以从每个感兴趣区域图像提取出对应的人脸局部特征向量,同时,从待识别人脸图像中提取出人脸全局特征向量,这里人脸全局特征向量包括人脸表情特征向量和人脸细节特征向量,进而,将人脸局部特征向量、人脸表情特征向量以及人脸细节特征向量进行特征关联处理,融合得到人脸融合特征向量。
这里,针对每个感兴趣区域图像,可以分别采用独立的特征提取网络从中提取每个感兴趣区域图像对应的人脸局部特征向量,并采用另一个单独的特征提取分支提取待识别人脸图像对应的人脸表情特征向量以及人脸细节特征向量。
其中,人脸表情特征向量用于反映待识别人脸图像中人脸所表现出的表情特征,比如与开心、难过、愤怒相关的表情特征,具体地,可以从提取的与表情相关的人脸部位的肌肉运动信息来表征出来;人脸细节特征向量用于反映待识别人脸图像中人脸本身的细节特征,比如人脸的纹理特征、形状特征等;人脸局部特征向量用于反映待识别人脸图像中分割出的每个感兴趣区域图像对应的面部特征信息,比如:脸颊提升特征、嘴角上扬特征、双唇分开特征等。
这样,通过对反映待识别人脸图像中人脸局部特征的人脸局部特征向量以及反映待识别人脸图像的人脸全局特征的人脸表情特征向量以及人脸细节特征向量,从局部感知与全局感知的角度全面提取待识别人脸图像中人脸所存在的特征信息,可以使人脸特征的提取更加全面且准确,这样,人脸融合特征向量就融合了人脸局部特征和人脸全局特征,通过提升人脸表情识别过程中对人脸局部区域特征以及人脸全局特征的整体感知能力,来提高人脸表情识别的准确率。
S104、基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情。
该步骤中,基于融合了人脸局部特征向量、人脸表情特征向量以及人脸细节特征向量的人脸融合特征向量,对待识别人脸图像中的人物表情进行识别,确定待识别人脸图像中人物的目标表情。
这里,待识别人脸图像中人物的目标表情可以是中性表情、开心表情、难过表情、愤怒表情、厌恶表情、惊讶表情以及恐惧表情等中的一种表情。
下面,将结合具体的实施方式对上述方案进行说明。
在本申请实施例中,进一步地,可以采用三维可变形人脸重建算法(3D MorphableModel,3DMM)结合面部动作单元的定义信息在待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像,具体地,步骤S102包括如下步骤1021-步骤1023:
步骤1021、根据标准人脸模型和所述待识别人脸图像,确定所述待识别人脸图像对应的所述三维人脸模型。
在步骤1021中,可以利用面部动作单元数据集计算得到的平均人脸,也就是标准人脸模型,并基于3DMM算法针对待识别人脸图像对标准人脸模型进行三维重建,得到待识别人脸图像对应的三维人脸模型。
这里,在3DMM算法使用一些固定的点来表示三维的人脸,两幅人脸图像在三维空间中进行一一匹配,并且可以由其他许多幅人脸正交基加权相加而来,因此每个三维空间的人脸都可以由数据库中的所有人脸的构成的基向量以及相应的系数加权求和来表示。其中,任意的人脸都可以使用一组形状向量和一组纹理向量显性叠加来表示,形状向量S和纹理向量T可以如下式所示:
S=(X1,Y1,Z1,X2,Y2,Z2,…,Xn,Yn,Zn);
T=(R1,G1,B1,R2,G2,B2,…,Rn,Gn,Bn);
其中,(X,Y,Z)代表三维坐标;(R,G,B)代表对应坐标处的颜色, R代表红色、G代表绿色、B代表蓝色。
进一步的,任意的三维人脸的形状向量和纹理向量均可以由数据集中另外m个人脸模型的形状Si和纹理Ti进行线性加权求和得到,如下式所示:
其中,ai和bi分别代表加权系数,Smod代表三维人脸的形状向量,Tmod代表三维人脸的纹理向量。
在实际应用过程中,还需要首先对m个人脸的形状向量和纹理向量做降维和分解处理,以达到各个向量之间正交的目的,处理后的人脸可以如下式表示:
这样,就可以通过估计出的几组系数和对应的基向量来重建三维空间中的任意三维人脸模型。
步骤1022、根据各个所述面部动作单元的定义信息,将所述三维人脸模型划分出各个面部局部区域。
在步骤1022中,基于各个面部动作单元的定义信息,进而获取到人脸的局部感兴趣区域范围,将待识别人脸图像对应的三维人脸模型划分出各个面部局部区域。这里,面部动作单元,比如:AU1-眉毛动作单元、AU5- 眼睛动作单元、AU6-脸颊动作单元、AU9-鼻子动作单元以及AU26-嘴唇动作单元等,相应地,面部局部区域可以包括:待识别人脸图像中人脸的眉毛动作区域、眼睛动作区域、脸颊动作区域、鼻子动作区域以及嘴唇动作区域等。
步骤1023、基于各个所述面部局部区域的区域掩码信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像。
在步骤1023中,计算每个面部局部区域对应的区域掩码信息,结合每个面部局部区域对应的区域掩码信息,从待识别人脸图像中划分出各个面部动作单元分别对应的感兴趣区域图像。
需要说明的是,由于本申请在划分面部动作单元相关的面部局部区域时,严格参考FACS系统中每个面部动作单元的定义,相比相关技术中诸多基于平均区域划分的方案,本申请严格对照面部动作单元的定义来划分,保证了划分的区域与面部动作单元具有高度的语义一致性,且分割得到的不规则区域可以避免规则方块区域划分所带来的冗余信息干扰,具有较好的区分度,可以提升对人脸表情识别的准确率。
作为一种可能的实施方式,在步骤1023之后,还包括:针对每个所述感兴趣区域图像进行降噪处理,其中,所述降噪处理包括:边缘平滑处理和去噪处理。
这样,通过对分割后生成的不规则的感兴趣区域图像进行降噪处理,可以避免通过规则方块区域分块方法所带来的冗余信息干扰,减少了边缘锯齿像素等噪声对后续网络特征提取的影响,具有较好的区分度,在保留主要特征区域的基础上尽量避免引入过多噪声。
在本申请的另一实施例中,可以采用目标人脸表情识别模型来识别待识别人脸图像中人物的目标表情,其中,目标人脸表情识别模型包括:局部特征提取模块、全局特征提取模块、特征关联模块以及面部动作强度检测模块。
这里,局部特征提取模块用于从输入的感兴趣区域图像中提取出对应的人脸局部特征向量;全局特征提取模块用于从输入的待识别人脸图像中提取出人脸表情特征向量和人脸细节特征向量;特征关联模块用于对输入的各个人脸局部特征向量、人脸表情特征向量以及人脸细节特征向量进行特征关联,确定人脸融合特征向量;面部动作强度检测模块用于根据输入的人脸融合特征向量,确定待识别人脸图像中人物的目标表情。
具体的,所述步骤S103中基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量的步骤可以包括如下步骤1031-步骤1033。
步骤1031、针对每一所述感兴趣区域图像,将所述感兴趣区域图像输入所述局部特征提取模块,确定所述感兴趣区域图像对应的人脸局部特征向量。
这里,由于局部特征提取模块的输入为各个面部动作单元分别对应的感兴趣区域图像,因此局部特征提取模块输出的人脸局部特征向量可以反映出输入的感兴趣区域图像对应的面部动作单元的特征。
这样,可以在最大程度上避免在人脸局部特征向量的提取过程中,由于与输入的感兴趣区域图像对应的面部动作单元无关的其他面部动作单元所带来的冗余信息干扰,例如,AU1聚焦的是眉毛上抬这个动作对应的眉毛区域,只需要关注这块区域的像素变化即可,对于嘴部的或者颈部甚至是图像的背景像素是不需要关心,也就是无关区域。
作为一种可能的实施方式,步骤1031具体可以包括:将所述感兴趣区域图像输入第一卷积网络,确定第一局部特征向量;将所述第一局部特征向量输入第二卷积网络,确定第二局部特征向量;将所述第二局部特征向量输入所述全连接网络,确定所述人脸局部特征向量;其中,所述第一卷积网络和所述第二卷积网络分别使用的卷积核不同。
这里,局部特征提取模块由第一卷积网络、第二卷积网络以及全连接网络构成,针对输入的任一面部动作单元对应的感兴趣区域图像,首先由第一卷积网络采用第一卷积核进行第一次卷积处理,得到第一局部特征向量;之后针对经过第一次卷积处理后的感兴趣区域图像,由第二卷积网络采用第二卷积核再进行多次卷积处理,得到感兴趣区域图像对应的特征图,并采用全局均值池化层(Global Average Pool Layer,GAP)获取第一卷积网络、第二卷积网络中每个卷积通道的特征均值组成第二局部特征向量;最后采用全连接网络将第二局部特征向量进行线性变换,生成人脸局部特征向量。
示例性的,可以设置第一卷积网络的第一卷积核大小为7、步长为3、图像填充为1,通道数为32;第二卷积网络中包括3个卷积层,每个卷积层均使用3×3大小的卷积核,每个卷积层对应的通道数分别为64、128、 128。输入的感兴趣区域图像经第一卷积网络、第二卷积网络中3个卷积层的4次卷积处理后,得到的特征图大小为10×10×128,将特征图经全局均值池化层的缩放处理后得到一个1×1×128的第二局部特征向量,针对第二局部特征向量采用不带非线性激活函数的全连接网络进行线性变换,将第二局部特征向量的特征尺度缩放至51维,即可得到人脸局部特征向量。
这样,在人脸局部特征向量的提取过程中,各个特征提取分支之间采取单独的特征提取网络,每个特征提取网络之间相互独立互不干扰,可以减少其他面部单元区域带来的冗余信息的干扰,保证了每个特征提取网络提取特征的区分度,同时使用全局均值池化层不会引入额外的参数,并在池化后降低全连接网络的参数量,防止模型过拟合。
步骤1032、将所述待识别人脸图像输入所述全局特征提取模块,确定所述人脸表情特征向量和所述人脸细节特征向量。
这里,人脸表情特征向量和人脸细节特征向量可以描述出待识别人脸图像中人脸全局特征。由于对在人脸展示表情的过程中往往会牵动人脸面部不同肌肉群的动作,在同一个表情中,人脸面部单元通常以组合的形式出现,例如人脸出现微笑这个表情时AU6(脸颊提升)和AU12(嘴角上扬) 这两个面部动作单元往往同时出现。因此,在表情识别过程中,不仅需要观察单个面部动作单元对应的感兴趣区域图像,还需要考虑整张人脸图像中宏观的全局特征。
在具体实施过程中,全局特征提取模块可以包括人脸表情特征提取网络以及人脸细节特征提取网络,人脸表情特征提取网络可以为VGG19,人脸细节特征提取网络可以为ResNet34网络。
其中,人脸表情特征提取网络可以为:根据预设的表情训练数据集以及对应的表情分类标签训练得到的卷积神经网络。可选的,预设的表情训练数据集可以包括:中性、开心、难过、愤怒、厌恶、惊讶、恐惧等多种表情的人脸图像数据。人脸细节特征提取网络可以为:用于识别人脸的纹理特征、形状特征等的卷积神经网络。
步骤1033、将各个所述人脸局部特征向量、所述人脸表情特征向量以及所述人脸细节特征向量输入所述特征关联模块,确定所述人脸融合特征向量。
需要说明的是,本申请实施例构建了基于多通道的局部特征提取模块获取人脸局部特征向量,结合全局特征提取模块通道所提取的人脸全局特征向量,使目标人脸表情识别模型同时具有局部感知与全局感知能力,提取的特征经过特征关联模块进行特征关联建模与融合用于面部动作单元检测或强度估计,以此对待识别人脸图像进行人脸表情的识别,可以提高人脸表情识别的准确率。
步骤S104:基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情的步骤可以包括如下步骤1041:步骤1041、将所述人脸融合特征向量输入所述面部动作强度检测模块,确定所述待识别人脸图像中人物的目标表情。
这里,特征关联模块可以采用一个目标图注意力实现,图注意力网络的每个节点代表一种面部动作单元类别,并通过节点与节点之间的连接关系反映不同类别面部动作单元之间的关联特性。
作为一种可能的实施方式,基于以下方法生成所述目标图注意力网络:将各个样本人脸局部特征向量、样本人脸表情特征向量以及样本人脸细节特征向量分别作为初始图注意力网络的节点;统计用于训练的多个样本人脸图像中各个所述面部动作单元共同出现的次数;根据统计的各个所述面部动作单元共同出现的次数,构造所述初始图注意力网络中的各个节点之间的连接关系,生成所述目标图注意力网络。
这里,目标图注意力网络不仅将不同类别面部动作单元的人脸局部特征作为节点,还将人脸表情特征、人脸细节特征等人脸全局特征纳入至目标图注意力网络的节点中,与其他人脸局部特征节点之间进行关联。
需要说明的是,针对每一个样本人脸图像,若该样本人脸图像中有至少2个面部动作单元共同出现,则计数一次,即,统计出该至少2个面部动作单元共同出现1次,也就是说,该至少2个面部动作单元之间有所关联。
其中,在目标图注意力网络中,存在两两共同出现情况的两个节点能够相连,若不存在两两共同出现情况的两个节点则不会相连,每个节点均关联由不同数量的其他节点。
需要说明的是,本申请在生成图注意力网络时,很好地利用了各个面部动作单元之间相互依赖的先验知识构造图网络,并利用训练数据集驱动以调整图网络的节点连接关系和权重,相比于相关技术中直接对特征进行拼接的融合方式,可以有效权衡各种特征的重要性以保留更多有用信息,充分建模各个面部动作单元间的关联,降低网络收敛难度并有助于提升网络预测准确度。
在此基础上,作为一种可能的实施方式,步骤1041具体可以包括:针对第一人脸特征向量,确定所述第一人脸特征向量分别与第二人脸特征向量、所述人脸表情特征向量以及所述人脸细节特征向量之间的注意力系数;所述第一人脸特征向量和所述第二人脸特征向量为不同的所述人脸局部特征向量;将所述第一人脸特征向量对应的多个注意力系数作为权重,对所述第二人脸特征向量、所述人脸表情特征向量以及所述人脸细节特征向量进行特征加权计算,确定所述第一人脸特征向量对应的中间融合特征向量;将所述第一人脸特征向量对应的中间融合特征向量进行非线性激活处理,确定所述第一人脸特征向量对应的人脸融合特征向量。
其中,第一人脸特征向量、第二人脸特征向量、人脸表情特征向量以及人脸细节特征向量之间的注意力系数可以为目标图注意力网络在训练过程中,通过注意力机制进行配置得到的。
可选的,特征关联模块的输出可以为K个F维的人脸融合特征向量, K代表面部动作单元的类别数量,F可选的为51,即,每个类别的面部动作单元对应一个人脸融合特征向量。
在步骤1041中,面部动作强度检测模块包括多个面部动作强度估计网络,每个面部动作强度估计网络负责估计一个面部动作单元的强度级别,并将每个面部动作单元的强度估计结果映射成为0到1之间的数值,以该数值作为面部动作单元的强度级别,根据各个面部动作单元,以及每个面部动作单元的强度级别,确定待识别人脸图像中人物的目标表情。
这里,面部动作单元强度估计任务是基于输入的人脸图像,评估其中出现的面部动作单元的种类及其各自对应的强度级别。面部动作强度检测模块在估计一个面部动作单元的强度级别时,需要将在全连接网络的最后一层采用Sigmoid函数激活,并将每个面部动作单元的强度估计结果映射成为0到1之间的数值,用于代表面部动作单元的强度级别。
在本申请的另一实施例中,在人脸表情识别的过程中,由于训练目标人脸表情识别模型的数据集中人物身份有限,为了避免目标人脸表情识别模型过拟合到人物身份特征上,在所述获取待识别人脸图像之前,可以根据以下步骤训练出所述目标人脸表情识别模型:
利用多个样本人脸图像对初始人脸表情识别模型进行训练得到中间人脸表情识别模型;其中,所述初始人脸表情识别模型中的全局特征提取模块包括人脸表情特征提取网络、人脸细节特征提取网络以及人脸身份特征提取网络。
这里,人脸身份特征用于反映待识别人脸图像中人物的身份信息。
在该阶段的训练过程中,初始人脸表情识别模型中的全局特征提取模块包括三个提取网络,分别为人脸表情特征提取网络、人脸细节特征提取网络以及人脸身份特征提取网络,并利用多个样本人脸图像对初始人脸表情识别模型进行训练得到中间人脸表情识别模型,这里,人脸身份特征提取网络用于从样本人脸图像中提取出表征人物身份的特征信息,即人脸身份特征向量。
其中,人脸身份特征提取网络是根据样本人脸图像的数据集以及对应的人脸身份标签预先训练得到的,输出为样本人脸图像中人物身份信息的分类结果。
去除所述中间人脸表情识别模型中的人脸身份特征提取网络,并对去除所述人脸身份特征提取网络的所述中间人脸表情识别模型中的特征关联模块和面部动作强度检测模块进行下一轮训练,得到训练好的所述目标人脸表情识别模型。
在该阶段的训练过程中,针对第一阶段通过初始人脸表情识别模型训练得到的中间人脸表情识别模型,将中间人脸表情识别模型中全局特征提取模块的人脸身份特征提取网络去除,仅保留中间人脸表情识别模型的全局特征提取模块中人脸表情特征提取网络和人脸细节特征提取网络,并继续对中间人脸表情识别模型中的特征关联模块和面部动作强度检测模块进行下一轮训练,得到训练好的所述目标人脸表情识别模型。
相关技术中,通常面部动作单元相关的数据集都比较小,数据集中一般只有几十个人物身份,在这样一个人物身份较少的数据集上使用深度网络进行训练,很容易导致模型过拟合到特定的人物身份上,例如模型很可能会记住某个人的面部图片所特有的特征和出现的面部动作单元。
针对上述人脸身份过拟合的问题,本申请在对人脸表情识别模型进行训练时,本申请采用了两阶段训练过程:第一阶段将人脸身份特征网络加入初始人脸表情识别模型中进行训练,为模型提供人脸身份特征信息,让后续用到人脸身份特征作为输入的特征关联模块和面部动作强度检测模块过拟合到人物上;第二阶段本申请加载第一阶段得到的网络参数并将人脸身份特征提取网络去除,然后固定全局特征提取模块的网络参数,此时的所有的局部特征提取模块和全局特征提取模块的参数均是固定的,只训练后面的特征关联模块和面部动作强度检测模块,由于此时没有了人脸身份特征向量的输入,特征关联模块以及面部动作强度检测模块将只会依赖输入的人脸局部特征、人脸表情特征和人脸细节特征进行动作单元是否被激活的识别,不再会利用人脸身份特征,因此可以缓解整个人脸表情识别模型过拟合到人脸身份上的风险。这样,在利用最终训练出的目标人脸表情识别模型对人脸图像进行表情识别时,由于在面部动作单元强度估计任务中不提取人脸身份有关的特征,而是去提取和细节、表情有关的信息,可以实现对人脸身份的解耦合,因此,不会受人脸身份的影响,可以提高人脸表情识别的准确率。
在本申请的另一实施例中,在步骤S101所述获取待识别人脸图像之前,可以根据以下步骤1011-步骤1014确定用于人脸表情识别模型训练的样本人脸图像:
步骤1011、从训练数据集中,筛选出各个样本人物对应的m个训练人脸图像。
步骤1012、针对每一所述样本人物,从所述样本人物对应的m个训练人脸图像中,筛选出处于激活状态的各个面部动作单元分别对应的n个候选人脸图像,其中,m和n均为正整数,且m>n。
步骤1013、针对每一所述样本人物,从处于激活状态的每一面部动作单元对应的n个候选人脸图像中,筛选出所述面部动作单元对应的各个强度级别的目标人脸图像。
步骤1014、将所述目标人脸图像,确定为所述样本人脸图像。
具体实施中,先从训练数据集的多个人物中进行均匀采样,得到K个人物ID,再逐个人物ID进行面部动作单元的类别采样,最后在采样后的人物ID和面部动作单元的类别下继续采样多种强度的样本图像。
相关技术中,面部动作单元数据集常常存在非常严重的数据不均衡问题,尤其是在面部动作单元强度估计任务中,数据不均衡问题尤为严重,因为数据集中的面部动作单元类别众多,且每种面部动作单元都有多种强度值。所以说不论是人脸身份、面部动作单元类别之间还是强度之间都不是均衡的分布。当前面部动作单元相关的任务,解决数据不均衡常用的方法有数据增强、数据重采样、损失函数加权或者迁移学习等,但这些方法都无法充分解决数据不均衡对面部动作单元相关任务带来的影响。其中,面部动作单元数据集包含的是所有样本人物的视频数据、图片数据以及对应帧的面部动作单元的强度值标注。
针对样本数据不均衡的问题,本申请采用基于人脸身份、面部动作单元类别、面部动作单元的强度级别的三个层次均衡的数据重采样方法,可以提升进行模型训练的样本人脸图像的均衡性,因而可以保证训练过程中模型不受某个人脸身份特征、某个面部动作单元类别或者面部动作单元的某种强度值强度级别的样本所支配影响,可以进一步提升尾部类面部动作识别单元的人脸表情识别的准确率。
图2为本申请实施例所提供的另一种人脸表情识别方法的流程图。如图2所示,本申请实施例提供的另一种人脸表情识别方法,包括以下步骤:
S201、获取待识别人脸图像。
S202、基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像。
S203、基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量。
这里,步骤S201-步骤S203与步骤S101-步骤S103实质相同,具有相同的实施方式并且可以达到相同的技术效果,在此不再进行赘述。
S204、基于所述人脸融合特征向量,确定所述待识别人脸图像中处于激活状态的各个面部动作单元,以及处于激活状态的每个面部动作单元对应的强度级别。
S205、根据激活状态的各个面部动作单元,以及处于激活状态的每个面部动作单元对应的强度级别,确定所述待识别人脸图像中人物的目标表情。
需要说明的是,每个面部动作单元对应的人脸局部特征向量在经过特征关联建模模块后,会与其他面部动作单元对应的人脸局部特征向量以及人脸表情特征向量以及人脸细节特征向量进行融合,因此最后一层特征图网络输出每个节点的人脸融合特征向量,包含了聚合所有有助于该面部动作单强度估计的所有信息,以各个人脸融合特征向量作为输入分别对每个面部动作单元进行强度估计。这里,面部动作强度检测模块的输入为特征关联模块输出的K个F维的人脸融合特征向量(K为AU类别数量,F可以为51),例如12个AU则对应了12个人脸局部特征向量,经过特征关联模块后同样输出12个AU特征,此时的AU特是聚合了与该AU相关联的其他人脸局部特征向量以及全局特征之后的特征,在以这个特征为输入预测这个AU的强度值,因此也就有12个AU强度估计网络,每个负责估计一个AU)。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供的人脸表情识别方法对应的人脸表情识别装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例的人脸表情识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图3、4所示,图3为本申请实施例提供的一种人脸表情识别装置300 的功能模块图之一;图4为本申请实施例提供的一种人脸表情识别装置300 的功能模块图之二。如图3所示,人脸表情识别装置300包括:获取单元 310;划分单元320;第一确定单元330以及第二确定单元340,其中:
获取单元310,用于获取待识别人脸图像;
划分单元320,用于基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像;
第一确定单元330,用于基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量;
第二确定单元340,用于基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情。
在一种可能的实施方式中,如图3所示,所述划分单元320具体用于:
根据标准人脸模型和所述待识别人脸图像,确定所述待识别人脸图像对应的所述三维人脸模型;
根据各个所述面部动作单元的定义信息,将所述三维人脸模型划分出各个面部局部区域;
基于各个所述面部局部区域的区域掩码信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像。
在一种可能的实施方式中,目标人脸表情识别模型包括局部特征提取模块、全局特征提取模块、特征关联模块以及面部动作强度检测模块;如图3所示,所述第一确定单元330具体用于:
针对每一所述感兴趣区域图像,将所述感兴趣区域图像输入所述局部特征提取模块,确定所述感兴趣区域图像对应的人脸局部特征向量;
将所述待识别人脸图像输入所述全局特征提取模块,确定所述人脸表情特征向量和所述人脸细节特征向量;
将各个所述人脸局部特征向量、所述人脸表情特征向量以及所述人脸细节特征向量输入所述特征关联模块,确定所述人脸融合特征向量;
如图3所示,所述第二确定单元340具体用于:
将所述人脸融合特征向量输入所述面部动作强度检测模块,确定所述待识别人脸图像中人物的目标表情。
在一种可能的实施方式中,如图4所示,人脸表情识别装置300还包括模型训练单元350;模型训练单元350,用于根据以下步骤训练出所述目标人脸表情识别模型:
利用多个样本人脸图像对初始人脸表情识别模型进行训练得到中间人脸表情识别模型;其中,所述初始人脸表情识别模型中的全局特征提取模块包括人脸表情特征提取网络、人脸细节特征提取网络以及人脸身份特征提取网络;
去除所述中间人脸表情识别模型中的人脸身份特征提取网络,并对去除所述人脸身份特征提取网络的所述中间人脸表情识别模型中的特征关联模块和面部动作强度检测模块进行下一轮训练,得到训练好的所述目标人脸表情识别模型。
在一种可能的实施方式中,如图4所示,人脸表情识别装置300还包括样本筛选单元360;样本筛选单元360,用于根据以下步骤确定用于人脸表情识别模型训练的样本人脸图像:
从训练数据集中,筛选出各个样本人物对应的m个训练人脸图像;
针对每一所述样本人物,从所述样本人物对应的m个训练人脸图像中,筛选出处于激活状态的各个面部动作单元分别对应的n个候选人脸图像;
针对每一所述样本人物,从处于激活状态的每一面部动作单元对应的n 个候选人脸图像中,筛选出所述面部动作单元对应的各个强度级别的目标人脸图像;
将所述目标人脸图像,确定为所述样本人脸图像;
其中,m和n均为正整数,且m>n。
在一种可能的实施方式中,所述局部特征提取模块包括至少两个卷积网络和全连接网络;如图3所示,所述第一确定单元330具体用于:
将所述感兴趣区域图像输入第一卷积网络,确定第一局部特征向量;
将所述第一局部特征向量输入第二卷积网络,确定第二局部特征向量;
将所述第二局部特征向量输入所述全连接网络,确定所述人脸局部特征向量;
其中,所述第一卷积网络和所述第二卷积网络分别使用的卷积核不同。
在一种可能的实施方式中,所述特征关联模块包括目标图注意力网络;如图4所示,模型训练单元350,还用于根据以下步骤生成所述目标图注意力网络:
将各个样本人脸局部特征向量、样本人脸表情特征向量以及样本人脸细节特征向量分别作为初始图注意力网络的节点;
统计用于训练的多个样本人脸图像中各个所述面部动作单元共同出现的次数;
根据统计的各个所述面部动作单元共同出现的次数,构造所述初始图注意力网络中的各个节点之间的连接关系,生成所述目标图注意力网络。
在一种可能的实施方式中,如图3所示,第一确定单元330还用于:
针对第一人脸特征向量,确定所述第一人脸特征向量分别与第二人脸特征向量、所述人脸表情特征向量以及所述人脸细节特征向量之间的注意力系数;所述第一人脸特征向量和所述第二人脸特征向量为不同的所述人脸局部特征向量;
将所述第一人脸特征向量对应的多个注意力系数作为权重,对所述第二人脸特征向量、所述人脸表情特征向量以及所述人脸细节特征向量进行特征加权计算,确定所述第一人脸特征向量对应的中间融合特征向量;
将所述第一人脸特征向量对应的中间融合特征向量进行非线性激活处理,确定所述第一人脸特征向量对应的人脸融合特征向量。
在一种可能的实施方式中,如图3所示,所述第二确定单元340具体用于:
基于所述人脸融合特征向量,确定所述待识别人脸图像中处于激活状态的各个面部动作单元,以及处于激活状态的每个面部动作单元对应的强度级别;
根据激活状态的各个面部动作单元,以及处于激活状态的每个面部动作单元对应的强度级别,确定所述待识别人脸图像中人物的目标表情。
基于同一申请构思,参见图5所示,为本申请实施例提供的一种电子设备500的结构示意图,包括:处理器510、存储器520和总线530,所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500 运行时,所述处理器510与所述存储器520之间通过所述总线530进行通信,所述机器可读指令被所述处理器510运行时执行如上述实施例中任一所述的人脸表情识别方法的步骤。
具体地,所述机器可读指令被所述处理器510执行时可以执行如下处理:
获取待识别人脸图像;
基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像;
基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量;
基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情。
基于同一申请构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例提供的人脸表情识别方法的步骤。
具体地,所述存储介质能够为通用的存储介质,如移动磁盘、硬盘等,所述存储介质上的计算机程序被运行时,能够执行上述人脸表情识别方法,通过将提取的与面部动作单元紧密相关的人脸局部特征向量以及人脸全局特征向量进行融合后进行人脸表情识别,可以提升对人脸表情识别的准确率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (12)
1.一种人脸表情识别方法,其特征在于,所述人脸表情识别方法包括:
获取待识别人脸图像;
基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像;
基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量;
基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情。
2.根据权利要求1所述的人脸表情识别方法,其特征在于,所述基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像,包括:
根据标准人脸模型和所述待识别人脸图像,确定所述待识别人脸图像对应的所述三维人脸模型;
根据各个所述面部动作单元的定义信息,将所述三维人脸模型划分出各个面部局部区域;
基于各个所述面部局部区域的区域掩码信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像。
3.根据权利要求1所述的人脸表情识别方法,其特征在于,目标人脸表情识别模型包括局部特征提取模块、全局特征提取模块、特征关联模块以及面部动作强度检测模块;所述基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量,包括:
针对每一所述感兴趣区域图像,将所述感兴趣区域图像输入所述局部特征提取模块,确定所述感兴趣区域图像对应的人脸局部特征向量;
将所述待识别人脸图像输入所述全局特征提取模块,确定所述人脸表情特征向量和所述人脸细节特征向量;
将各个所述人脸局部特征向量、所述人脸表情特征向量以及所述人脸细节特征向量输入所述特征关联模块,确定所述人脸融合特征向量;
所述基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情,包括:
将所述人脸融合特征向量输入所述面部动作强度检测模块,确定所述待识别人脸图像中人物的目标表情。
4.根据权利要求3所述的人脸表情识别方法,其特征在于,在所述获取待识别人脸图像之前,根据以下步骤训练出所述目标人脸表情识别模型:
利用多个样本人脸图像对初始人脸表情识别模型进行训练得到中间人脸表情识别模型;其中,所述初始人脸表情识别模型中的全局特征提取模块包括人脸表情特征提取网络、人脸细节特征提取网络以及人脸身份特征提取网络;
去除所述中间人脸表情识别模型中的人脸身份特征提取网络,并对去除所述人脸身份特征提取网络的所述中间人脸表情识别模型中的特征关联模块和面部动作强度检测模块进行下一轮次训练,得到训练好的所述目标人脸表情识别模型。
5.根据权利要求3所述的人脸表情识别方法,其特征在于,在所述获取待识别人脸图像之前,根据以下步骤确定用于人脸表情识别模型训练的样本人脸图像:
从训练数据集中,筛选出各个样本人物对应的m个训练人脸图像;
针对每一所述样本人物,从所述样本人物对应的m个训练人脸图像中,筛选出处于激活状态的各个面部动作单元分别对应的n个候选人脸图像;
针对每一所述样本人物,从处于激活状态的每一面部动作单元对应的n个候选人脸图像中,筛选出所述面部动作单元对应的各个强度级别的目标人脸图像;
将所述目标人脸图像,确定为所述样本人脸图像;
其中,m和n均为正整数,且m>n。
6.根据权利要求3所述的人脸表情识别方法,其特征在于,所述局部特征提取模块包括至少两个卷积网络和全连接网络;所述针对每一所述感兴趣区域图像,将所述感兴趣区域图像输入所述局部特征提取模块,确定所述感兴趣区域图像对应的人脸局部特征向量,包括:
将所述感兴趣区域图像输入第一卷积网络,确定第一局部特征向量;
将所述第一局部特征向量输入第二卷积网络,确定第二局部特征向量;
将所述第二局部特征向量输入所述全连接网络,确定所述人脸局部特征向量;
其中,所述第一卷积网络和所述第二卷积网络分别使用的卷积核不同。
7.根据权利要求3所述的人脸表情识别方法,其特征在于,所述特征关联模块包括目标图注意力网络;根据以下步骤生成所述目标图注意力网络:
将各个样本人脸局部特征向量、样本人脸表情特征向量以及样本人脸细节特征向量分别作为初始图注意力网络的节点;
统计用于训练的多个样本人脸图像中各个所述面部动作单元共同出现的次数;
根据统计的各个所述面部动作单元共同出现的次数,构造所述初始图注意力网络中的各个节点之间的连接关系,生成所述目标图注意力网络。
8.根据权利要求3所述的人脸表情识别方法,其特征在于,所述将各个所述人脸局部特征向量、所述人脸表情特征向量以及所述人脸细节特征向量输入所述特征关联模块,确定所述人脸融合特征向量,包括:
针对第一人脸特征向量,确定所述第一人脸特征向量分别与第二人脸特征向量、所述人脸表情特征向量以及所述人脸细节特征向量之间的注意力系数;所述第一人脸特征向量和所述第二人脸特征向量为不同的所述人脸局部特征向量;
将所述第一人脸特征向量对应的多个注意力系数作为权重,对所述第二人脸特征向量、所述人脸表情特征向量以及所述人脸细节特征向量进行特征加权计算,确定所述第一人脸特征向量对应的中间融合特征向量;
将所述第一人脸特征向量对应的中间融合特征向量进行非线性激活处理,确定所述第一人脸特征向量对应的人脸融合特征向量。
9.根据权利要求1所述的人脸表情识别方法,其特征在于,所述基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情,包括:
基于所述人脸融合特征向量,确定所述待识别人脸图像中处于激活状态的各个面部动作单元,以及处于激活状态的每个面部动作单元对应的强度级别;
根据激活状态的各个面部动作单元,以及处于激活状态的每个面部动作单元对应的强度级别,确定所述待识别人脸图像中人物的目标表情。
10.一种人脸表情识别装置,其特征在于,所述人脸表情识别装置包括:
获取单元,用于获取待识别人脸图像;
划分单元,用于基于所述待识别人脸图像对应的三维人脸模型和各个面部动作单元的定义信息,从所述待识别人脸图像中划分出各个所述面部动作单元分别对应的感兴趣区域图像;
第一确定单元,用于基于从各个所述感兴趣区域图像分别提取得到的人脸局部特征向量、从所述待识别人脸图像提取得到的人脸表情特征向量以及人脸细节特征向量,确定人脸融合特征向量;
第二确定单元,用于基于所述人脸融合特征向量,确定所述待识别人脸图像中人物的目标表情。
11.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至9任一所述的人脸表情识别方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至9任一所述的人脸表情识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210342417.0A CN114743241A (zh) | 2022-03-31 | 2022-03-31 | 一种人脸表情识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210342417.0A CN114743241A (zh) | 2022-03-31 | 2022-03-31 | 一种人脸表情识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114743241A true CN114743241A (zh) | 2022-07-12 |
Family
ID=82279808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210342417.0A Pending CN114743241A (zh) | 2022-03-31 | 2022-03-31 | 一种人脸表情识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743241A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546878A (zh) * | 2022-11-23 | 2022-12-30 | 华中科技大学 | 基于注意力机制的面部au检测模型建立方法及其应用 |
CN118135642A (zh) * | 2024-05-07 | 2024-06-04 | 珠海谷田科技有限公司 | 一种面部表情分析方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-03-31 CN CN202210342417.0A patent/CN114743241A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546878A (zh) * | 2022-11-23 | 2022-12-30 | 华中科技大学 | 基于注意力机制的面部au检测模型建立方法及其应用 |
CN115546878B (zh) * | 2022-11-23 | 2023-02-03 | 华中科技大学 | 基于注意力机制的面部au检测模型建立方法及其应用 |
CN118135642A (zh) * | 2024-05-07 | 2024-06-04 | 珠海谷田科技有限公司 | 一种面部表情分析方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pitaloka et al. | Enhancing CNN with preprocessing stage in automatic emotion recognition | |
CN107463949B (zh) | 一种视频动作分类的处理方法及装置 | |
Han et al. | Two-stage learning to predict human eye fixations via SDAEs | |
CN106960202B (zh) | 一种基于可见光与红外图像融合的笑脸识别方法 | |
CN111797683A (zh) | 一种基于深度残差注意力网络的视频表情识别方法 | |
CN107273876A (zh) | 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法 | |
CN114743241A (zh) | 一种人脸表情识别方法、装置、电子设备及存储介质 | |
CN112800903A (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
Hassanat et al. | Colour-based lips segmentation method using artificial neural networks | |
CN113807265B (zh) | 一种多样化的人脸图像合成方法及系统 | |
CN110909680A (zh) | 人脸图像的表情识别方法、装置、电子设备及存储介质 | |
CN113850168A (zh) | 人脸图片的融合方法、装置、设备及存储介质 | |
CN111539290A (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN111080670A (zh) | 图像提取方法、装置、设备及存储介质 | |
CN112633153A (zh) | 基于时空图卷积网络的面部表情运动单元识别方法 | |
CN115862120A (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
CN115205933A (zh) | 面部表情识别方法、装置、设备及可读存储介质 | |
CN116311472B (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
Uddin et al. | A convolutional neural network for real-time face detection and emotion & gender classification | |
CN107122780A (zh) | 基于时空特征点的互信息与时空分布熵的行为识别方法 | |
Ruan et al. | Facial expression recognition in facial occlusion scenarios: A path selection multi-network | |
CN112801238B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN113743275A (zh) | 一种微表情类型的确定方法、装置、电子设备及存储介质 | |
CN114638743A (zh) | 图像艺术风格迁移方法、系统、电子设备、存储介质 | |
Guthier et al. | Topological sparse learning of dynamic form patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |