CN113807217A - 人脸表情识别模型训练、识别方法、系统、装置及介质 - Google Patents

人脸表情识别模型训练、识别方法、系统、装置及介质 Download PDF

Info

Publication number
CN113807217A
CN113807217A CN202111024230.8A CN202111024230A CN113807217A CN 113807217 A CN113807217 A CN 113807217A CN 202111024230 A CN202111024230 A CN 202111024230A CN 113807217 A CN113807217 A CN 113807217A
Authority
CN
China
Prior art keywords
face
layer
graph
channel
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111024230.8A
Other languages
English (en)
Other versions
CN113807217B (zh
Inventor
黄琼浩
黄昌勤
李明
蒋凡
俞建慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202111024230.8A priority Critical patent/CN113807217B/zh
Publication of CN113807217A publication Critical patent/CN113807217A/zh
Application granted granted Critical
Publication of CN113807217B publication Critical patent/CN113807217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Abstract

本发明公开了一种人脸表情识别模型训练方法、识别方法、系统、装置及介质,训练方法包括:获取预设的三维人脸点云数据;确定人脸动态图结构和人脸静态图结构;将人脸动态图结构和人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练,得到训练好的人脸表情识别模型;其中,双通道图卷积神经网络包括第一通道图卷积层、第二通道图卷积层、特征融合层以及全连接层,第一通道图卷积层用于提取人脸动态图结构的深度语义特征,第二通道图卷积层用于提取人脸静态图结构的深度几何特征。本发明通过双通道图卷积神经网络可以同时学习人脸表情的内在语义特征和外在几何特征,从而有效提高了三维点云人脸表情识别的准确度,可广泛应用于人脸识别技术领域。

Description

人脸表情识别模型训练、识别方法、系统、装置及介质
技术领域
本发明涉及人脸识别技术领域,尤其是一种人脸表情识别模型训练、识别方法、系统、装置及介质。
背景技术
人脸表情识别一直是计算视觉领域重要的研究热点,目前大多数研究是基于二维人脸图像进行的,在采集过程中容易受光照、姿态、遮挡物等环境因素的影响,给人脸表情识别模型的构建带了极大挑战。目前,利用图神经网络基于三维点云数据的人脸表情识别在解决二维人脸图像受人脸姿态、光照变化影响等问题取得了不错的研究进展。这类模型都是基于点集合方式处理,具有置换不变性等优点,但由于忽略了点云之间的众多结构信息,使得图卷积方法对于人脸面部表情等非刚性物体识别还存在较大缺陷,极大地限制了三维点云人脸数据的面部表情识别的准确率。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本发明实施例的一个目的在于提供一种人脸表情识别模型训练方法,该方法可以提高得到的人脸表情识别模型的识别准确度。
本发明实施例的另一个目的在于提供一种高准确度的人脸表情识别方法。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
第一方面,本发明实施例提供了一种人脸表情识别模型训练方法,包括以下步骤:
获取预设的三维人脸点云数据;
根据所述三维人脸点云数据确定人脸动态图结构和人脸静态图结构;
将所述人脸动态图结构和所述人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练,得到训练好的人脸表情识别模型;
其中,所述双通道图卷积神经网络包括第一通道图卷积层、第二通道图卷积层、特征融合层以及全连接层,所述第一通道图卷积层用于提取所述人脸动态图结构的深度语义特征,所述第二通道图卷积层用于提取所述人脸静态图结构的深度几何特征,所述特征融合层用于对所述深度语义特征和所述深度几何特征进行特征融合得到人脸表情特征,所述全连接层用于对所述人脸表情特征进行识别分类。
进一步地,在本发明的一个实施例中,所述根据所述三维人脸点云数据确定人脸动态图结构和人脸静态图结构这一步骤,其具体包括:
对所述三维人脸点云数据进行降采样处理,得到第一点云数据;
对所述第一点云数据中的数据点进行两两比对,得到所述数据点的边集合;
根据所述第一点云数据和所述边集合确定人脸动态图结构和人脸静态图结构。
进一步地,在本发明的一个实施例中,所述第一通道图卷积层包括多个第一图卷积层,所述第二通道图卷积层包括多个第二图卷积层,所述将所述人脸动态图结构和所述人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练这一步骤,其具体包括:
通过所述第一通道图卷积层对所述人脸动态图结构进行逐层卷积操作,当第一图卷积层完成卷积操作,根据提取的语义特征重新构建人脸动态图结构并通过下一第一图卷积层进行卷积操作,直至提取出所述人脸动态图结构的深度语义特征;
通过所述第二通道图卷积层对所述人脸静态图结构进行逐层卷积操作,逐层卷积过程中所述人脸静态图结构保持不变,直至提取出所述人脸静态图结构的深度几何特征;
通过所述特征融合层对所述深度语义特征和所述深度几何特征进行特征融合得到人脸表情特征;
通过所述全连接层对所述人脸表情特征进行分类,得到表情类型识别结果;
根据所述表情类型识别结果和所述三维人脸点云数据对应的表情类型确定训练的损失值;
根据所述损失值对所述双通道图卷积神经网络的参数进行更新。
进一步地,在本发明的一个实施例中,所述通过所述第一通道图卷积层对所述人脸动态图结构进行逐层卷积操作这一步骤,其具体包括:
确定所述人脸动态图结构中各个第一节点特征的第一相邻节点特征集合;
根据所述第一点云数据构造第一全局状态对比特征向量;
以所述第一节点特征为中心节点,通过所述第一全局状态对比特征向量对所述第一相邻节点特征集合中的相邻节点进行全局信息嵌入的局部注意图卷积操作,得到当前第一图卷积层提取的语义特征。
进一步地,在本发明的一个实施例中,所述特征融合层有多个,所述特征融合层、所述第一图卷积层以及所述第二图卷积层一一对应,所述特征融合层用于输入对应的第一图卷积层提取的语义特征、所述第二图卷积层提取的几何特征以及上一特征融合层输出的融合特征,并输出当前融合特征和用于下一第二图卷积层卷积操作的第二全局状态对比特征向量。
进一步地,在本发明的一个实施例中,所述通过所述第二通道图卷积层对所述人脸静态图结构进行逐层卷积操作这一步骤,其具体包括:
确定所述人脸静态图结构中各个第二节点特征的第二相邻节点特征集合;
获取上一特征融合层输出的第二全局状态对比特征向量;
以所述第二节点特征为中心节点,通过所述第二全局状态对比特征向量对所述第二相邻节点特征集合进行基于全局语义的几何局部注意图卷积操作,得到当前第二图卷积层提取的几何特征。
第二方面,本发明实施例提供了一种人脸表情识别方法,包括以下步骤:
获取待识别三维人脸点云数据;
将所述待识别三维人脸点云数据输入到如第一方面所述的人脸表情识别模型训练方法所得到的人脸表情识别模型中,输出得到人脸表情识别结果。
第三方面,本发明实施例提供了一种人脸表情识别模型训练系统,包括:
第一获取模块,用于获取预设的三维人脸点云数据;
图结构确定模块,用于根据所述三维人脸点云数据确定人脸动态图结构和人脸静态图结构;
模型训练模块,用于将所述人脸动态图结构和所述人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练,得到训练好的人脸表情识别模型;
其中,所述双通道图卷积神经网络包括第一通道图卷积层、第二通道图卷积层、特征融合层以及全连接层,所述第一通道图卷积层用于提取所述人脸动态图结构的深度语义特征,所述第二通道图卷积层用于提取所述人脸静态图结构的深度几何特征,所述特征融合层用于对所述深度语义特征和所述深度几何特征进行特征融合得到人脸表情特征,所述全连接层用于对所述人脸表情特征进行识别分类。
第四方面,本发明实施例提供了一种人脸表情识别模型训练装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现第一方面所述的人脸表情识别模型训练方法。
第五方面,本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行第一方面所述的人脸表情识别模型训练方法或者第二方面所述的人脸表情识别方法。
本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:
本发明实施例先获取预设的三维人脸点云数据,然后根据该三维人脸点云数据确定用于人脸语义特征提取的人脸动态图结构和用于人脸几何特征提取的人脸静态图结构,进而将人脸动态图结构和人脸静态图结构输入到预先构建的双通道图卷积神经网络中,得到训练好的人脸表情识别模型。本发明实施例通过双通道图卷积神经网络可以同时学习人脸表情的内在语义特征和外在几何特征,从而有效提高了三维点云人脸表情识别的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面对本发明实施例中所需要使用的附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明实施例提供的一种人脸表情识别模型训练方法的步骤流程图;
图2为本发明实施例提供的双通道图卷积神经网络的训练流程图;
图3为本发明实施例提供的一种人脸表情识别方法的步骤流程图;
图4为本发明实施例提供的一种人脸表情识别模型训练系统的结构框图;
图5为本发明实施例提供的一种人脸表情识别模型训练装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,多个的含义是两个或两个以上,如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。
参照图1,本发明实施例提供了一种人脸表情识别模型训练方法,具体包括以下步骤:
S101、获取预设的三维人脸点云数据。
具体地,本发明实施例的三维人脸点云数据采集主要利用结构光采集面部数据,采用的3D传感器与被采集者的距离一般设置为1.5米。采集传感器分辨率的长、宽、深分别记作l、w、d,其中
Figure BDA0003242792870000041
同时采集的人脸面部可以有纹理贴图或者没有纹理贴图。
通过传感器采集的三维人脸点云数据记作:
Pj={pji|pji=(xji,yji,zji)},i=1,2,3,…,np (1)
其中,Pj表示第j个三维人脸点云数据集合,pji表示第j个人脸面部模型的第i个坐标点,(xji,yji,zji)分别表示X轴坐标上数值,Y轴坐标上数值和Z轴坐标上深度信息数值,np表示采集人脸面部数据点的总个数,同时Pj的真实表情标签记作Yi r,r=1,2,..,R,即本发明实施例预先设定的表情类型标签有R个。
S102、根据三维人脸点云数据确定人脸动态图结构和人脸静态图结构。
具体地,本发明实施例通过双通道图卷积神经网络进行三维人脸点云数据处理,对于每一通道需要构建对应的人脸面部图结构,本发明实施例根据两个通道的特征学习目的的不同分别构建用于学习人脸内在语义特征的人脸动态图结构和用于学习人脸外在几何特征的人脸静态图结构。步骤S102具体包括以下步骤:
S1021、对三维人脸点云数据进行降采样处理,得到第一点云数据;
具体地,由于本发明实施例用图卷积神经网络模型进行点云数据处理,而目前人脸数据采集点数基本都在10万点的量级,远远超过目前计算设备的处理能力,因此,在输入到双通道图卷积神经网络之前,需要对采集三维人脸点云数据进行降采样处理,所采用的方法为领域常用的FPS采样法(farthest point sampling),该方法在降低点云数据量的同时减少信息量丢失,过程记作:
Figure BDA0003242792870000051
其中,
Figure BDA0003242792870000052
表示Pj人脸数据经过FPS降采样后的点云数据,
Figure BDA0003242792870000053
表示采样后数据点总个数且
Figure BDA0003242792870000054
S1022、对第一点云数据中的数据点进行两两比对,得到数据点的边集合;
S1023、根据第一点云数据和边集合确定人脸动态图结构和人脸静态图结构。
具体地,人脸静态图结构用于学习人脸表情外在几何特征(如形状),所以人脸静态图结构采用静态构图的方式,即在第一次构图完成后,后续卷积过程中图的结构不再变化。本发明实施例中人脸静态图结构的构建步骤具体如下:
1)处理的人脸点云数据为经过FPS降采样后数据点集合
Figure BDA0003242792870000055
s为上标表示为静态构图的含义;
2)对点集合
Figure BDA0003242792870000061
里数据点进行两两比对判定,以决定两点之间是否存在边,判定函数为公式(3)所示:
Figure BDA0003242792870000062
其中,
Figure BDA0003242792870000063
为第c个判定函数,判定函数选择为不同距离度量函数,如最简单的欧式距离,
Figure BDA0003242792870000064
为第c个判定函数值比较域值,其大小按实际应用场景设置合适大小,如Cs个判定函数值比较都为真,就判定比较两点之间存在边,则点
Figure BDA0003242792870000065
的邻近点集合(即存在直接相连的边)可以记作
Figure BDA0003242792870000066
3)把
Figure BDA0003242792870000067
的点云数据记作Vs,步骤2)输出的边集合记作
Figure BDA0003242792870000068
则得到的人脸静态图结构可以记作Gs=(Vs,Es)。
人脸动态图结构用于学习人脸表情内在语义特征,所以人脸动态图结构采用动态构图的方式,即在每次图卷积完成后根据节点语义特征重新构图,作为下次图卷积层的输入。本发明实施例中人脸动态图结构的构建步骤具体如下:
1)初始的人脸动态图结构采用与人脸静态图结构构建方式,得到的初始人脸动态图结构记作
Figure BDA0003242792870000069
上标d表示动态构图的含义;
2)记经过第l层图卷积处理的输入图
Figure BDA00032427928700000610
记作
Figure BDA00032427928700000611
上标df表示动态图被图卷积处理后结果含义,接下来步骤将为第l+1层图卷积层构造输入图
Figure BDA00032427928700000612
3)记
Figure BDA00032427928700000613
Figure BDA00032427928700000614
中第i个节点特征,对点集合
Figure BDA00032427928700000615
里节点特征进行两两比对判定,以决定两点之间是否存在边,判定函数为公式(4)所示:
Figure BDA00032427928700000616
其中,
Figure BDA00032427928700000617
为第c个语义特征距离判定函数,语义特征判定函数选择为不同相似性度量函数,如最简单的余弦相似的函数,
Figure BDA00032427928700000618
为第c个相似性度量函数值比较域值,其大小也可以按实际应用场景设置合适大小,如Cd个判定函数值比较都为真,就判定比较两节点之间存在边。
4)把Vl df的节点集合标记为
Figure BDA00032427928700000619
步骤3)输出的边集合记作
Figure BDA00032427928700000620
则得到的人脸动态图结构可以记作
Figure BDA00032427928700000621
S103、将人脸动态图结构和人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练,得到训练好的人脸表情识别模型;
其中,双通道图卷积神经网络包括第一通道图卷积层、第二通道图卷积层、特征融合层以及全连接层,第一通道图卷积层用于提取人脸动态图结构的深度语义特征,第二通道图卷积层用于提取人脸静态图结构的深度几何特征,特征融合层用于对深度语义特征和深度几何特征进行特征融合得到人脸表情特征,全连接层用于对人脸表情特征进行识别分类。
具体地,如图2所示为本发明实施例提供的双通道图卷积神经网络的训练流程图,可以理解的是,本发明实施例的人脸表情识别模型采用双通道机制,第一通道用于学习三维人脸面部表情的内在语义特征,如性别、年龄等潜在因素,第二通道用于学习三维人脸面部表情的外在几何特征,如人脸轮廓形状等,同时人脸识别模型采用分层级联架构,每一通道均设置有多个图卷积层,同时设置有多个特征融合层对每一次卷积操作得到语义特征和几何特征进行融合处理。
进一步作为可选的实施方式,第一通道图卷积层包括多个第一图卷积层,第二通道图卷积层包括多个第二图卷积层,将人脸动态图结构和人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练这一步骤,其具体包括:
A1、通过第一通道图卷积层对人脸动态图结构进行逐层卷积操作,当第一图卷积层完成卷积操作,根据提取的语义特征重新构建人脸动态图结构并通过下一第一图卷积层进行卷积操作,直至提取出人脸动态图结构的深度语义特征;
A2、通过第二通道图卷积层对人脸静态图结构进行逐层卷积操作,逐层卷积过程中人脸静态图结构保持不变,直至提取出人脸静态图结构的深度几何特征;
A3、通过特征融合层对深度语义特征和深度几何特征进行特征融合得到人脸表情特征;
A4、通过全连接层对人脸表情特征进行分类,得到表情类型识别结果;
A5、根据表情类型识别结果和三维人脸点云数据对应的表情类型确定训练的损失值;
A6、根据损失值对双通道图卷积神经网络的参数进行更新。
具体地,本发明实施例通过双通道的图卷积方式同时学习三维点云人脸的内在语义特征与外在几何特征,同时通过全局与局部注意力机制扩大图卷积感受野,一起解决三维点云识别模型在处理三维点云人脸非刚性方面存在的问题,提高三维点云人脸识别效率和准确度。
进一步作为可选的实施方式,通过第一通道图卷积层对人脸动态图结构进行逐层卷积操作这一步骤,其具体包括:
B1、确定人脸动态图结构中各个第一节点特征的第一相邻节点特征集合;
B2、根据第一点云数据构造第一全局状态对比特征向量;
B3、以第一节点特征为中心节点,通过第一全局状态对比特征向量对第一相邻节点特征集合中的相邻节点进行全局信息嵌入的局部注意图卷积操作,得到当前第一图卷积层提取的语义特征。
具体地,第一通道图卷积层用于三维人脸面部内在语义特征的学习,第一图卷积层输入的人脸动态图结构为
Figure BDA0003242792870000081
图卷积后输出可记作
Figure BDA0003242792870000082
为解决图卷积感受野受限的问题,本发明实施例在第一通道图卷积层中提出基于全局注意机制的语义图卷积机制,可有效增大图卷积的感受野,更好学习三维点云人脸的内在语义特征。
Figure BDA0003242792870000083
Figure BDA0003242792870000084
的第i个节点特征,则节点特征
Figure BDA0003242792870000085
第l层作为中心节点特征的全局注意力图卷积过程由以下步骤组成:
1)利用公式(4)求
Figure BDA0003242792870000086
相邻节点特征集合,即为
Figure BDA0003242792870000087
2)构造第一全局状态对比特征向量
Figure BDA0003242792870000088
的构造如公式(5)所示:
Figure BDA0003242792870000089
其中,
Figure BDA00032427928700000810
为第一点云数据Vl d矩阵形式,具有置换不变性,函数Maxelwise为按列求最大值,
Figure BDA00032427928700000811
为可学习线性变换参数,⊙为哈达玛积(Hadamard product),这样构造的
Figure BDA00032427928700000812
具有一定人脸面部全局信息;
3)以
Figure BDA00032427928700000813
为中心节点,与相邻人脸面部点
Figure BDA00032427928700000814
进行全局信息嵌入的局部注意图卷积操作,其过程形式表达如下列公式:
Figure BDA00032427928700000815
Figure BDA00032427928700000816
Figure BDA00032427928700000817
其中,
Figure BDA00032427928700000818
Figure BDA00032427928700000819
为图卷积中的聚合和更新神经网络函数,由全连接网络层与正则化函数实现即可,函数FFN是表示由全连接网络与层正则化构成的神经网络函数,函数Norm表示参数归一化;
将上述步骤封装成一个函数
Figure BDA00032427928700000820
则上述过程可以描述为:
Figure BDA0003242792870000091
公式(9)是针对单个中心节点特征的图卷积,可以把第一图卷积层的整个过程描述为:
Figure BDA0003242792870000092
即第一通道第l层图卷积输入人脸动态图结构
Figure BDA0003242792870000093
经过图卷积后输出语义特征
Figure BDA0003242792870000094
进一步作为可选的实施方式,通过第二通道图卷积层对人脸静态图结构进行逐层卷积操作这一步骤,其具体包括:
C1、确定人脸静态图结构中各个第二节点特征的第二相邻节点特征集合;
C2、获取上一特征融合层输出的第二全局状态对比特征向量;
C3、以第二节点特征为中心节点,通过第二全局状态对比特征向量对第二相邻节点特征集合进行基于全局语义的几何局部注意图卷积操作,得到当前第二图卷积层提取的几何特征。
具体地,第二通道图卷积层用于三维人脸面部外在几何特征的学习,第二通道图卷积层输入的人脸静态图结构为
Figure BDA0003242792870000095
输出记作
Figure BDA0003242792870000096
为更好学习三维人脸外在几何特征,本发明实施例在第二通道采用静态构图的方式,即一次构图,后续沿用相同图结构。
Figure BDA0003242792870000097
为人脸静态图结构
Figure BDA0003242792870000098
的第i个节点特征,则以节点特征
Figure BDA0003242792870000099
为第l层的中心节点特征进行几何图卷积过程描述如以下步骤:
1)利用公式(3)求
Figure BDA00032427928700000910
相邻节点特征集合,即为
Figure BDA00032427928700000911
2)第二全局状态对比特征向量
Figure BDA00032427928700000912
由对应的特征融合层输出得到(在后续部分说明);
3)以
Figure BDA00032427928700000913
为中心节点,与相邻节点特征集合
Figure BDA00032427928700000914
进行基于全局语义的几何局部注意图卷积操作,其过程形式表达如下列公式:
Figure BDA00032427928700000915
Figure BDA00032427928700000916
Figure BDA00032427928700000917
其中,
Figure BDA00032427928700000918
Figure BDA00032427928700000919
为几何图卷积中的聚合和更新神经网络函数,Os为几何先验信息向量集合,如节点之前的位置和角度信息等,用于加强该通道面向人脸外在特征的学习能力,其它符号含义与第一通道图卷积层的相同;
将上述步骤封装成一个函数
Figure BDA0003242792870000101
则上述过程可以描述为:
Figure BDA0003242792870000102
公式(14)是针对单个中心节点特征的几何图卷积,可以把第二图卷积层的整个过程描述为:
Figure BDA0003242792870000103
即第二通道第l层图卷积输入人脸静态图结构
Figure BDA0003242792870000104
经过图卷积后输出几何特征
Figure BDA0003242792870000105
进一步作为可选的实施方式,特征融合层有多个,特征融合层、第一图卷积层以及第二图卷积层一一对应,特征融合层用于输入对应的第一图卷积层提取的语义特征、第二图卷积层提取的几何特征以及上一特征融合层输出的融合特征,并输出当前融合特征和用于下一第二图卷积层卷积操作的第二全局状态对比特征向量。
具体地,本发明实施例的三维人脸表情特征表示主要基于第二通道节点特征表示,为更好地学习外在几何特征,本发明实施例在双通道之间设计了多个特征融合层,用于融合人脸内在与外在特征。如图2所示,特征融合层有三个输入(分别是上一特征融合层输出Fl-1,几何特征
Figure BDA0003242792870000106
以及语义特征
Figure BDA0003242792870000107
),两个输出(分别是融合特征Fl,第二全局状态对比特征向量
Figure BDA0003242792870000108
)。
特征融合层工作流程描述如下列公式:
Figure BDA0003242792870000109
Figure BDA00032427928700001010
Figure BDA00032427928700001011
其中,Vl df
Figure BDA00032427928700001012
节点特征的矩阵形式,Vl sf
Figure BDA00032427928700001013
节点特征矩阵形式,Vl df和Vl sf按行做节点对齐,Wl f和Wl是可学习线性变换参数,运算符
Figure BDA00032427928700001014
表示对于元素相加,不改变矩阵形状。
可选地,本发明实施例三维人脸表情的特征表示是基于第二通道节点特征与特征融合层输出特征进行全局表示学习。因此,本发明实施例的人脸表情特征需要考虑两个方面的因素,分别是特征融合层输出的融合特征FL,第二通道图卷积层输出的深度几何特征VL sf,其中VL sf
Figure BDA00032427928700001015
特征的矩阵形式,L表示是最后一层图卷积或最后一层特征融合。
本发明实施例的人脸表情特征的确定可描述如下:
Figure BDA0003242792870000111
Yg=σ(FFN(FL))⊙tanh(FFN(FL))+σ(FFN(Kg))⊙tanh(FFN(Kg)) (20)
Kg=Wg⊙Maxelwise((VL sf) (21)
其中,
Figure BDA0003242792870000112
为三维人脸点云Pi的表情特征全局表示,σ和relu分别是Sigmoid激活函数和relu激活函数。
可选地,得到人脸表情特征的表征向量Yi G后,本发明实施例采用全连接网络作为分类器,激活函数采用Softmax,过程表示如下:
Yi p=argmax(Softmax(FFN(Yi G))) (22)
其中,Yi p表示识别得到的表情类型,FFN为层正则化的全连接网络。
本发明实施例中,将人脸表情特征输入到全连接层的分类器后,可以得到模型输出的识别结果,即表情类型识别结果,可以根据表情类型识别结果和前述的表情类型标签来评估识别模型识别的准确性,从而对模型的参数进行更新。对于人脸表情识别模型来说,模型识别结果的准确性可以通过损失函数(Loss Function)来衡量,损失函数是定义在单个训练数据上的,用于衡量一个训练数据的预测误差,具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时,一个训练数据集有很多训练数据,因此一般采用代价函数(Cost Function)来衡量训练数据集的整体误差,代价函数是定义在整个训练数据集上的,用于计算所有训练数据的预测误差的平均值,能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说,基于前述的代价函数,再加上衡量模型复杂度的正则项即可作为训练的目标函数,基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多,例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数,在此不再一一阐述。本发明实施例中,可以从中任选一种损失函数来确定训练的损失值。基于训练的损失值,采用反向传播算法对模型的参数进行更新,迭代几轮即可得到训练好的人脸表情识别模型。具体地迭代轮数可以预先设定,或者在测试集达到精度要求时认为训练完成。
以上对本发明实施例的人脸表情识别模型的训练方法进行了说明,可以理解的是,本发明实施例一方面利用全局与局部注意机制,在不同通道中对人脸三维点集合添加更多结构信息,解决了图卷积感受野受限的问题;另一方面通过双通道图卷积神经网络可以同时学习人脸表情的内在语义特征和外在几何特征,从而有效提高了三维点云人脸表情识别的准确度。
参照图3,本发明实施例提供了一种人脸表情识别方法,具体包括以下步骤:
S201、获取待识别三维人脸点云数据;
S202、将待识别三维人脸点云数据输入到如前述的人脸表情识别模型训练方法所得到的人脸表情识别模型中,输出得到人脸表情识别结果。
可以理解的是,上述人脸表情识别模型训练方法实施例中的内容均适用于本人脸表情识别方法实施例中,本人脸表情识别方法实施例所具体实现的功能与上述人脸表情识别模型训练方法实施例相同,并且达到的有益效果与上述人脸表情识别模型训练方法实施例所达到的有益效果也相同。
参照图4,本发明实施例提供了一种人脸表情识别模型训练系统,包括:
第一获取模块,用于获取预设的三维人脸点云数据;
图结构确定模块,用于根据三维人脸点云数据确定人脸动态图结构和人脸静态图结构;
模型训练模块,用于将人脸动态图结构和人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练,得到训练好的人脸表情识别模型;
其中,双通道图卷积神经网络包括第一通道图卷积层、第二通道图卷积层、特征融合层以及全连接层,第一通道图卷积层用于提取人脸动态图结构的深度语义特征,第二通道图卷积层用于提取人脸静态图结构的深度几何特征,特征融合层用于对深度语义特征和深度几何特征进行特征融合得到人脸表情特征,全连接层用于对人脸表情特征进行识别分类。
可以理解的是,上述人脸表情识别模型训练方法实施例中的内容均适用于本人脸表情识别模型训练系统实施例中,本人脸表情识别模型训练系统实施例所具体实现的功能与上述人脸表情识别模型训练方法实施例相同,并且达到的有益效果与上述人脸表情识别模型训练方法实施例所达到的有益效果也相同。
参照图5,本发明实施例提供了一种人脸表情识别模型训练装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当上述至少一个程序被上述至少一个处理器执行时,使得上述至少一个处理器实现如前述的一种人脸表情识别模型训练方法。
可以理解的是,上述人脸表情识别模型训练方法实施例中的内容均适用于本人脸表情识别模型训练装置实施例中,本人脸表情识别模型训练装置实施例所具体实现的功能与上述人脸表情识别模型训练方法实施例相同,并且达到的有益效果与上述人脸表情识别模型训练方法实施例所达到的有益效果也相同。
本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,该处理器可执行的程序在由处理器执行时用于执行上述的人脸表情识别模型训练方法或者上述的人脸表情识别方法。
本发明实施例的一种计算机可读存储介质,可执行本发明方法实施例所提供的人脸表情识别模型训练方法或者人脸表情识别方法,可执行本发明方法实施例的任意组合实施步骤,具备本发明方法实施例相应的功能和有益效果。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1或图3所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种人脸表情识别模型训练方法,其特征在于,包括以下步骤:
获取预设的三维人脸点云数据;
根据所述三维人脸点云数据确定人脸动态图结构和人脸静态图结构;
将所述人脸动态图结构和所述人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练,得到训练好的人脸表情识别模型;
其中,所述双通道图卷积神经网络包括第一通道图卷积层、第二通道图卷积层、特征融合层以及全连接层,所述第一通道图卷积层用于提取所述人脸动态图结构的深度语义特征,所述第二通道图卷积层用于提取所述人脸静态图结构的深度几何特征,所述特征融合层用于对所述深度语义特征和所述深度几何特征进行特征融合得到人脸表情特征,所述全连接层用于对所述人脸表情特征进行识别分类。
2.根据权利要求1所述的一种人脸表情识别模型训练方法,其特征在于,所述根据所述三维人脸点云数据确定人脸动态图结构和人脸静态图结构这一步骤,其具体包括:
对所述三维人脸点云数据进行降采样处理,得到第一点云数据;
对所述第一点云数据中的数据点进行两两比对,得到所述数据点的边集合;
根据所述第一点云数据和所述边集合确定人脸动态图结构和人脸静态图结构。
3.根据权利要求2所述的一种人脸表情识别模型训练方法,其特征在于,所述第一通道图卷积层包括多个第一图卷积层,所述第二通道图卷积层包括多个第二图卷积层,所述将所述人脸动态图结构和所述人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练这一步骤,其具体包括:
通过所述第一通道图卷积层对所述人脸动态图结构进行逐层卷积操作,当第一图卷积层完成卷积操作,根据提取的语义特征重新构建人脸动态图结构并通过下一第一图卷积层进行卷积操作,直至提取出所述人脸动态图结构的深度语义特征;
通过所述第二通道图卷积层对所述人脸静态图结构进行逐层卷积操作,逐层卷积过程中所述人脸静态图结构保持不变,直至提取出所述人脸静态图结构的深度几何特征;
通过所述特征融合层对所述深度语义特征和所述深度几何特征进行特征融合得到人脸表情特征;
通过所述全连接层对所述人脸表情特征进行分类,得到表情类型识别结果;
根据所述表情类型识别结果和所述三维人脸点云数据对应的表情类型确定训练的损失值;
根据所述损失值对所述双通道图卷积神经网络的参数进行更新。
4.根据权利要求3所述的一种人脸表情识别模型训练方法,其特征在于,所述通过所述第一通道图卷积层对所述人脸动态图结构进行逐层卷积操作这一步骤,其具体包括:
确定所述人脸动态图结构中各个第一节点特征的第一相邻节点特征集合;
根据所述第一点云数据构造第一全局状态对比特征向量;
以所述第一节点特征为中心节点,通过所述第一全局状态对比特征向量对所述第一相邻节点特征集合中的相邻节点进行全局信息嵌入的局部注意图卷积操作,得到当前第一图卷积层提取的语义特征。
5.根据权利要求3所述的一种人脸表情识别模型训练方法,其特征在于:所述特征融合层有多个,所述特征融合层、所述第一图卷积层以及所述第二图卷积层一一对应,所述特征融合层用于输入对应的第一图卷积层提取的语义特征、所述第二图卷积层提取的几何特征以及上一特征融合层输出的融合特征,并输出当前融合特征和用于下一第二图卷积层卷积操作的第二全局状态对比特征向量。
6.根据权利要求5所述的一种人脸表情识别模型训练方法,其特征在于,所述通过所述第二通道图卷积层对所述人脸静态图结构进行逐层卷积操作这一步骤,其具体包括:
确定所述人脸静态图结构中各个第二节点特征的第二相邻节点特征集合;
获取上一特征融合层输出的第二全局状态对比特征向量;
以所述第二节点特征为中心节点,通过所述第二全局状态对比特征向量对所述第二相邻节点特征集合进行基于全局语义的几何局部注意图卷积操作,得到当前第二图卷积层提取的几何特征。
7.一种人脸表情识别方法,其特征在于,包括以下步骤:
获取待识别三维人脸点云数据;
将所述待识别三维人脸点云数据输入到如权利要求1至6中任一项所述的人脸表情识别模型训练方法所得到的人脸表情识别模型中,输出得到人脸表情识别结果。
8.一种人脸表情识别模型训练系统,其特征在于,包括:
第一获取模块,用于获取预设的三维人脸点云数据;
图结构确定模块,用于根据所述三维人脸点云数据确定人脸动态图结构和人脸静态图结构;
模型训练模块,用于将所述人脸动态图结构和所述人脸静态图结构输入到预先构建的双通道图卷积神经网络进行训练,得到训练好的人脸表情识别模型;
其中,所述双通道图卷积神经网络包括第一通道图卷积层、第二通道图卷积层、特征融合层以及全连接层,所述第一通道图卷积层用于提取所述人脸动态图结构的深度语义特征,所述第二通道图卷积层用于提取所述人脸静态图结构的深度几何特征,所述特征融合层用于对所述深度语义特征和所述深度几何特征进行特征融合得到人脸表情特征,所述全连接层用于对所述人脸表情特征进行识别分类。
9.一种人脸表情识别模型训练装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1至6中任一项所述的一种人脸表情识别模型训练方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至7中任一项所述的方法。
CN202111024230.8A 2021-09-02 2021-09-02 人脸表情识别模型训练、识别方法、系统、装置及介质 Active CN113807217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111024230.8A CN113807217B (zh) 2021-09-02 2021-09-02 人脸表情识别模型训练、识别方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111024230.8A CN113807217B (zh) 2021-09-02 2021-09-02 人脸表情识别模型训练、识别方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN113807217A true CN113807217A (zh) 2021-12-17
CN113807217B CN113807217B (zh) 2023-11-21

Family

ID=78894590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111024230.8A Active CN113807217B (zh) 2021-09-02 2021-09-02 人脸表情识别模型训练、识别方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN113807217B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
GB201215678D0 (en) * 2012-09-03 2012-10-17 Vision Semantics Ltd Crowd density estimation
CN106682616A (zh) * 2016-12-28 2017-05-17 南京邮电大学 基于双通道特征深度学习的新生儿疼痛表情识别方法
CN108363979A (zh) * 2018-02-12 2018-08-03 南京邮电大学 基于双通道三维卷积神经网络的新生儿疼痛表情识别方法
CN109815785A (zh) * 2018-12-05 2019-05-28 四川大学 一种基于双流卷积神经网络的人脸情绪识别方法
CN110147721A (zh) * 2019-04-11 2019-08-20 阿里巴巴集团控股有限公司 一种三维人脸识别方法、模型训练方法和装置
WO2019196308A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 人脸识别模型的生成装置、方法及计算机可读存储介质
EP3739356A1 (en) * 2019-05-12 2020-11-18 Origin Wireless, Inc. Method, apparatus, and system for wireless tracking, scanning and monitoring
WO2021012494A1 (zh) * 2019-07-19 2021-01-28 平安科技(深圳)有限公司 基于深度学习的人脸识别方法、装置及计算机可读存储介质
CN112766220A (zh) * 2021-02-01 2021-05-07 西南大学 双通道微表情识别方法、系统、存储介质、计算机设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
GB201215678D0 (en) * 2012-09-03 2012-10-17 Vision Semantics Ltd Crowd density estimation
CN106682616A (zh) * 2016-12-28 2017-05-17 南京邮电大学 基于双通道特征深度学习的新生儿疼痛表情识别方法
CN108363979A (zh) * 2018-02-12 2018-08-03 南京邮电大学 基于双通道三维卷积神经网络的新生儿疼痛表情识别方法
WO2019196308A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 人脸识别模型的生成装置、方法及计算机可读存储介质
CN109815785A (zh) * 2018-12-05 2019-05-28 四川大学 一种基于双流卷积神经网络的人脸情绪识别方法
US20190311188A1 (en) * 2018-12-05 2019-10-10 Sichuan University Face emotion recognition method based on dual-stream convolutional neural network
CN110147721A (zh) * 2019-04-11 2019-08-20 阿里巴巴集团控股有限公司 一种三维人脸识别方法、模型训练方法和装置
EP3739356A1 (en) * 2019-05-12 2020-11-18 Origin Wireless, Inc. Method, apparatus, and system for wireless tracking, scanning and monitoring
WO2021012494A1 (zh) * 2019-07-19 2021-01-28 平安科技(深圳)有限公司 基于深度学习的人脸识别方法、装置及计算机可读存储介质
CN112766220A (zh) * 2021-02-01 2021-05-07 西南大学 双通道微表情识别方法、系统、存储介质、计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIONGHAO HUANG等: "Facial expression recognition with grid-wise attention and visual transformer", 《INFORMATION SCIENCES》, vol. 580, pages 35 - 54 *
周章辉等: "基于深度学习的实时人脸表情识别研究", 《四川轻化工大学学报(自然科学版)》, vol. 33, no. 5, pages 28 - 34 *

Also Published As

Publication number Publication date
CN113807217B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
McNeely-White et al. Inception and ResNet features are (almost) equivalent
Li et al. Towards faster training of global covariance pooling networks by iterative matrix square root normalization
CN106408037B (zh) 图像识别方法及装置
Zeng et al. An automatic 3D expression recognition framework based on sparse representation of conformal images
US20150325046A1 (en) Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations
CN111694917B (zh) 一种车辆异常轨迹检测、模型训练方法及装置
US20230177340A1 (en) Apparatus and method with neural network implementation of domain adaptation
CN113887661B (zh) 一种基于表示学习重构残差分析的图像集分类方法及系统
CN112562001B (zh) 一种物体6d位姿估计方法、装置、设备及介质
Priyasad et al. Memory based fusion for multi-modal deep learning
CN114239560A (zh) 三维图像分类方法、装置、设备和计算机可读存储介质
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
US11816565B2 (en) Semantic coherence analysis of deep neural networks
CN111860823A (zh) 神经网络训练、图像处理方法及装置、设备及存储介质
CN115545093A (zh) 一种多模态数据的融合方法、系统及存储介质
Luciano et al. Deep similarity network fusion for 3D shape classification
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN114428860A (zh) 院前急救病例文本的识别方法、装置、终端及存储介质
CN112699907B (zh) 数据融合的方法、装置和设备
CN113807217A (zh) 人脸表情识别模型训练、识别方法、系统、装置及介质
JP7225731B2 (ja) 多変数データシーケンスの画像化
Bi et al. Critical direction projection networks for few-shot learning
Pascanu On recurrent and deep neural networks
Jonsson Channel-coded feature maps for computer vision and machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant