CN109886216B

CN109886216B - 基于vr情景人脸图像复原的表情识别方法、设备及介质

Info

Publication number: CN109886216B
Application number: CN201910141881.1A
Authority: CN
Inventors: 吴涛; 徐向民; 邢晓芬
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2023-07-18
Anticipated expiration: 2039-02-26
Also published as: CN109886216A

Abstract

本发明公开了一种基于VR情景人脸图像复原的表情识别方法，包括步骤：合成VR情景叠加人脸图像：将所拍摄的VR人脸图像和VR人眼图像合成为VR情景叠加人脸图像；复原完整人脸图像：采用公开人脸数据集进行VR设备的模拟穿戴及人眼叠加，有监督地训练生成对抗网络，输入合成的所述VR情景叠加人脸图像，复原出完整人脸图像；表情识别分类器的实现：使用并训练小型卷积神经网络得到表情识别分类器；完整人脸图像的表情识别：使用训练好的表情识别分类器对复原的完整人脸图像进行表情识别。本发明解决了头戴设备对于部分人脸的遮挡造成的人脸图像残缺问题，复原出的完整人脸图像细节逼真且很好的保留了使用者的ID特征，表情识别准确率高。

Description

基于VR情景人脸图像复原的表情识别方法、设备及介质

技术领域

本发明涉及表情识别领域，具体涉及一种基于VR情景的人脸图像复原的表情识别方法、设备及介质。

背景技术

近些年来，人工智能发展的脚步越来越快，其中虚拟现实(VR)技术的发展功不可没。虚拟现实，是一种综合利用计算机图形系统和现实中各种接口设备，在计算机上生成可交互的沉浸式环境的技术，VR设备自然就是将虚拟世界和现实世界连接的入口。VR技术以其能够给用户完全沉浸体验的优势快速成为了人工智能领域的潮流。VR技术在娱乐、游戏、教育、医疗、工程、军事、航空等领域开始应用。近两年来，VR在智能医疗（比如抑郁症）领域的应用前景被广泛关注并被寄予厚望。VR智能医疗无论是在抑郁症的诊断还是治疗上都是前所未有的创新，将给这个领域带来迅猛的发展。所谓相由心生，表情是人类对事物喜恶的最直观的表现，抑郁症人群的表情对其心理的反映尤为重要。VR设备在给抑郁症病人带来沉浸式场景的同时，需要实时捕捉到病人的面部表情，以获得场景与心理的对应关系。目前大多数VR产品有着明显的局限性，它们对使用者手、头、肢体的追踪已经较为成熟，然而由于VR眼镜对于部分人脸的遮挡造成人脸图像残缺，使得目前的VR设备对于使用者情绪最直观的表达——人脸表情信息的捕捉十分困难。还有部分VR设备通过传感器捕获的肌电信号间接分析使用者的表情，然而这种方法不够直接并且准确率较低。因此，针对目前VR设备的这种局限性，我们迫切需要一种基于VR情景的表情识别方法。

发明内容

为了克服现有VR表情识别方法存在的缺点与不足，本发明提供一种基于VR情景人脸图像复原技术的表情识别方法，从而准确识别面部表情，表情识别准确率高。

本发明的上述目的采用如下技术方案实现：

一种基于VR情景人脸图像复原的表情识别方法，包括步骤：

合成VR情景叠加人脸图像：将所拍摄的VR人脸图像和VR人眼图像合成为VR情景叠加人脸图像；

复原完整人脸图像：采用公开人脸数据集进行VR设备的模拟穿戴及人眼叠加，有监督地训练生成对抗网络，输入合成的所述VR情景叠加人脸图像，复原出完整人脸图像；

表情识别分类器的实现：使用并训练小型卷积神经网络得到表情识别分类器；

完整人脸图像的表情识别：使用训练好的表情识别分类器对复原出的完整人脸图像进行表情识别。

进一步地，所述合成VR情景叠加人脸图像时，采用仿射变换将VR人眼图像合成到VR人脸图像上，得到叠加人脸图像。

进一步地，所述VR人眼图像通过VR头戴设备中内嵌的红外摄像头拍摄的被VR设备遮挡的人脸眉毛、眼睛区域的图像得到；所述VR人脸图像通过使用者正前方摄像头拍摄未被VR设备遮挡的鼻子、嘴唇及下巴人脸图像得到。

进一步地，所述复原完整人脸图像时，采用公开人脸数据集进行VR设备的模拟穿戴及人眼叠加，使用每个人的三张图像有监督地训练生成对抗网络，通过生成的对抗网络输出复原后的完整人脸图像。

进一步地，所述的每个人的三张图像包括：VR情景人眼图像合成至VR情景人脸图像上得到的所述VR情景叠加人脸图像、非VR情景下的真实人脸图像和此人的另一张参考人脸图像。

进一步地，所述的对抗网络包括生成器G和判别器D，生成器G使用Unet网络，用于生成复原后的人脸图像；所述判别器D使用简单分类网络，用于判断输入的图像是真实人脸图像还是生成器G生成的人脸图像；整个训练学习过程中，所述判别器D分辨真假人脸图像的能力不断提升，所述生成器G生成的复原后的人脸图像与真实的人脸图像相似度不断提升，同时使判别器D将其生成的复原后的人脸图像当做是真实的人脸图像，从而实现生成器G和判别器D的对抗博弈过程；所述生成器G从一个随机噪声开始学习，即初始的复原人脸图像为一个随机噪声；每一轮训练过程均计算当前训练样本实例生成器G输出的复原人脸图像和真实人脸图像的L1损失，使用Resnet50(50层深度残差网络)提取复原人脸图像和参考人脸图像的特征向量并计算MSE(均方误差)作为ID损失，对总体的损失函数进行反向传播以更新生成器G的网络参数。

进一步地，所述表情识别分类器的实现过程中，采用公开表情数据集进行数据预处理及数据增强后对小型卷积神经网络进行训练，得到表情识别分类器。

进一步地，所述数据预处理包括对人脸表情数据集分别进行直方图均衡处理，得到直方图均衡数据集；对人脸表情数据集进行线性映射处理，得到线性映射数据集；对人脸表情数据集进行直方图均衡与线性映射的混合加权处理，得到混合加权数据集，所述混合加权的权重取(0.3,0.7)~(0.7,0.3) 二者权重和为1；所述数据增强具体是对预处理得到的三个不同的数据集进行合并增加数据量。

一种电子设备，包括存储器、处理器、存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述程序时，实现如所述的表情识别方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如所述的表情识别方法。

相比现有技术，本发明的有益效果包括：

本发明通过将VR情景下两部分人脸图像复原为完整人脸图像，再进行表情识别，解决了头戴设备对于部分人脸的遮挡造成的人脸图像残缺问题。有监督的生成对抗网络复原出的完整人脸图像细节逼真且很好的保留了使用者的ID特征，表情识别准确率高。

附图说明

图1是本发明实施例的基于VR情景人脸图像复原的表情识别方法总体流程示意图；

图2是本发明实施例的VR情景人脸图像复原技术实现流程示意图；

图3是本发明实施例的表情识别技术实现流程示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，一种基于VR情景人脸图像复原的表情识别方法，包括步骤：

复原完整人脸图像：采用公开人脸数据集进行VR设备的模拟穿戴及人眼叠加，有监督地训练生成对抗网络，输入合成的所述VR情景叠加人脸图像，复原出完整人脸图像，本实施例的公开人脸数据集包括CK+，Oulu-CASIA，MMI, BU-3DFE;

表情识别分类器的实现：使用并训练小型卷积神经网络得到表情识别分类器，本实施例的小型卷积神经网络采用使用几个卷积层加池化层的块、几个全连接层以及最后的分类softmax层组成的神经网络，如3个卷积层加池化层的块，加上2个全连接层以及1个分类softmax层，其中每个块包括2个连续的卷积层和1个maxpooling池化层；

具体而言，所述通过VR头戴设备中内嵌的红外摄像头拍摄的被VR设备遮挡的人脸眉毛、眼睛区域的图像得到的VR人眼图像合成到通过使用者正前方摄像头拍摄未被VR设备遮挡的鼻子、嘴唇及下巴人脸图像得到的所述VR人脸图像上，得到叠加人脸图像。

如图2所示，在本发明的一个具体实施例中，所述复原完整人脸图像时，采用公开人脸数据集进行VR设备的模拟穿戴及人眼叠加，使用每个人的三张图像有监督地训练生成对抗网络，通过生成的对抗网络输出复原后的完整人脸图像。所述的每个人的三张图像包括：VR情景人眼图像合成至VR情景人脸图像上得到的所述VR情景叠加人脸图像、非VR情景下的真实人脸图像和此人的另一张参考人脸图像。

所述的对抗网络包括生成器G和判别器D，生成器G使用Unet网络，用于生成复原后的人脸图像；所述判别器D使用简单分类网络，用于判断输入的图像是真实人脸图像还是生成器G生成的人脸图像；整个训练学习过程中，所述判别器D分辨真假人脸图像的能力不断提升，所述生成器G生成的复原后的人脸图像与真实的人脸图像相似度不断提升，同时使判别器D将其生成的复原后的人脸图像当做是真实的人脸图像，从而实现生成器G和判别器D的对抗博弈过程；所述生成器G从一个随机噪声开始学习，即初始的复原人脸图像为一个随机噪声；每一轮训练过程均计算当前训练样本实例生成器G输出的复原人脸图像和真实人脸图像的L1损失，使用Resnet50(50层深度残差网络)提取复原人脸图像和参考人脸图像的特征向量并计算MSE(均方误差)作为ID损失，对总体的损失函数进行反向传播以更新生成器G的网络参数。

如图3所示，在本发明的一个具体实施例中，所述表情识别分类器的实现过程中，采用公开人脸表情数据集进行数据预处理及数据增强后对小型卷积神经网络进行训练，得到表情识别分类器。所述数据预处理包括对人脸表情数据集分别进行直方图均衡处理，得到直方图均衡数据集；对人脸表情数据集进行线性映射处理，得到线性映射数据集；对人脸表情数据集进行直方图均衡与线性映射的混合加权处理，得到混合加权数据集，所述混合加权的权重取0.5；所述数据增强具体是对预处理得到的三个不同的数据集进行合并增加数据量。

最后在进行完整人脸图像的表情识别时，当表情识别分类器训练完后，小型卷积神经网络各参数的值不再变化时，输入复原出的完整人脸图像，网络前向传播时最终输出的表情类别。

为了实现上述实施例，本发明实施例还提供了一种电子设备，包括存储器、处理器、存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述程序时，实现如所述的基于VR情景人脸图像复原的表情识别方法。

为了实现上述实施例，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如所述的基于VR情景人脸图像复原的表情识别方法。

综上，本发明使用VR头戴设备中内嵌的红外摄像头用于拍摄人脸眉毛、眼睛区域的图像，另外一颗摄像头则置于使用者正前方，用于拍摄鼻子、嘴唇及下巴等未被VR设备遮挡的人脸图像，再对两部分图像使用有监督的生成对抗网络复原成完整人脸图像，对复原后的完整人脸图像使用小型卷积神经网络进行表情识别，解决了头戴设备对于部分人脸的遮挡造成的人脸图像残缺问题，有监督的生成对抗网络复原出的完整人脸图像细节逼真且很好的保留了使用者的ID特征，表情识别准确率高。

需要说明的是，虽然已经参照实例对本发明实施进行了详细的阐述，但本领域的技术人员容易理解，在不偏离所附权利要求中所阐述的本发明的精神和原则之内所作的任何修改、替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于VR情景人脸图像复原的表情识别方法，其特征在于，包括步骤：

完整人脸图像的表情识别：使用训练好的表情识别分类器对复原出的完整人脸图像进行表情识别；

所述的对抗网络包括生成器G和判别器D，生成器G用于生成复原后的人脸图像；所述判别器D用于判断输入的图像是真实人脸图像还是生成器G生成的人脸图像；整个训练学习过程中，所述判别器D分辨真假人脸图像的能力不断提升，所述生成器G生成的复原后的人脸图像与真实的人脸图像相似度不断提升，同时使判别器D将其生成的复原后的人脸图像当做是真实的人脸图像，从而实现生成器G和判别器D的对抗博弈过程；所述生成器G从一个随机噪声开始学习，即初始的复原人脸图像为一个随机噪声；每一轮训练过程均计算当前训练样本实例生成器G输出的复原人脸图像和真实人脸图像的L1损失，使用Resnet50提取复原人脸图像和参考人脸图像的特征向量并计算MSE作为ID损失，对总体的损失函数进行反向传播以更新生成器G的网络参数。

2.根据权利要求1所述的表情识别方法，其特征在于，所述合成VR情景叠加人脸图像时，采用仿射变换将VR人眼图像合成到VR人脸图像上，得到叠加人脸图像。

3.根据权利要求1所述的表情识别方法，其特征在于，所述VR人眼图像通过VR头戴设备中内嵌的红外摄像头拍摄的被VR设备遮挡的人脸眉毛、眼睛区域的图像得到；所述VR人脸图像通过使用者正前方摄像头拍摄未被VR设备遮挡的鼻子、嘴唇及下巴人脸图像得到。

4.根据权利要求1所述的表情识别方法，其特征在于，所述复原完整人脸图像时，采用公开人脸数据集进行VR设备的模拟穿戴及人眼叠加，使用每个人的三张图像有监督地训练生成对抗网络，通过生成的对抗网络输出复原后的完整人脸图像。

5.根据权利要求4所述的表情识别方法，其特征在于，所述的每个人的三张图像包括：VR情景人眼图像合成至VR情景人脸图像上得到的所述VR情景叠加人脸图像、非VR情景下的真实人脸图像和此人的另一张参考人脸图像。

6.根据权利要求5所述的表情识别方法，其特征在于，生成器G使用Unet网络，所述判别器D使用简单分类网络。

7.根据权利要求1所述的表情识别方法，其特征在于，所述表情识别分类器的实现过程中，采用公开表情数据集进行数据预处理及数据增强后对小型卷积神经网络进行训练，得到表情识别分类器。

8.根据权利要求7所述的表情识别方法，其特征在于，所述数据预处理包括对人脸表情数据集分别进行直方图均衡处理，得到直方图均衡数据集；对人脸表情数据集进行线性映射处理，得到线性映射数据集；对人脸表情数据集进行直方图均衡与线性映射的混合加权处理，得到混合加权数据集，所述混合加权的权重取(0.3,0.7)～(0.7,0.3)二者权重和为1；所述数据增强具体是对预处理得到的三个不同的数据集进行合并增加数据量。

9.一种电子设备，其特征在于：包括存储器、处理器、存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述程序时，实现如权利要求1至8中任一项所述的表情识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的表情识别方法。