CN111028343B

CN111028343B - 三维人脸模型的生成方法、装置、设备及介质

Info

Publication number: CN111028343B
Application number: CN201911296472.5A
Authority: CN
Inventors: 林祥凯; 暴林超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-12-11
Anticipated expiration: 2039-12-16
Also published as: CN111028343A; WO2021120810A1; US11900557B2; EP3992919B1; EP3992919A4; US20220044491A1; EP3992919A1

Abstract

本申请公开了一种三维人脸模型的生成方法、装置、设备及介质，属于人工智能的计算机视觉技术领域。所述方法包括：获取输入的目标对象的三维人脸网格；根据人脸关键点对所述三维人脸网格和标准对象的第一三维人脸模型进行对齐；将所述第一三维人脸模型的部分区域与所述三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型；将所述第二三维人脸模型的全部区域与所述三维人脸网格进行拟合，得到全局拟合后的所述目标对象的三维人脸模型。通过将关键点数量较少的第一三维人脸模型与三维人脸网格进行分区域的拟合，形成关键点数量较多的第二三维人脸模型，在第二三维人脸模型的基础上拟合，使得生成的目标对象的三维人脸模型更贴近目标对象。

Description

三维人脸模型的生成方法、装置、设备及介质

技术领域

本申请涉及人工智能的计算机视觉技术领域，特别涉及一种三维人脸模型的生成方法、装置、设备及介质。

背景技术

三维(3Dimensions，3D)人脸重建是指从一张或多张二维(2Dimensions，2D)图像中重建出的人脸的3D模型。

相关技术中，三维人脸重建是基于从图像中获取的目标对象的三维人脸模型与3DMM库(3DMorphable Model，三维形变模型)中的标准人脸模型进行拟合后得到的。通过形变传递(DeformationTransfer，DT)技术，利用两个模型中的点与点的对应关系(correspondence)将低模点云(标准人脸模型)上的点拉到高模点云(目标对象的三维人脸模型)对应的位置，其他点由平滑项拟合得到。

基于上述情况，在3DMM库的基础上拟合的三维人脸模型的表面不平滑，质量较低。

发明内容

本申请实施例提供了一种三维人脸模型的生成方法、装置、设备及介质，可以解决相关技术中在3DMM库的基础上拟合的三维人脸模型的质量较低的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种三维人脸模型的生成方法，所述方法包括：

获取输入的目标对象的三维人脸网格；

根据人脸关键点对所述三维人脸网格和标准对象的第一三维人脸模型进行对齐；

将所述第一三维人脸模型的部分区域与所述三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型；

将所述第二三维人脸模型的全部区域与所述三维人脸网格进行拟合，得到全局拟合后的所述目标对象的三维人脸模型。

根据本申请的另一方面，提供了一种三维人脸模型的生成装置，所述装置包括：

获取模块，用于获取输入的目标对象的三维人脸网格；

处理模块，用于根据人脸关键点对所述三维人脸网格和标准对象的第一三维人脸模型进行对齐；

拟合模块，用于将所述第一三维人脸模型的部分区域与所述三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型；

拟合模块，用于将所述第二三维人脸模型的全部区域与所述三维人脸网格进行拟合，得到全局拟合后的所述目标对象的三维人脸模型。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的三维人脸模型的生成方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的三维人脸模型的生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过根据人脸关键点先三维人脸网格和标准对象对应的第一三维人脸模型对齐，再将第一三维人脸模型的部分区域与三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型，再将第二三维人脸模型的全部区域与三维人脸网格进行拟合，得到全局拟合后的目标对象的三维人脸模型。通过将含有关键点数量较少的第一三维人脸模型与三维人脸网格进行分区域的拟合，形成关键点数量较多的第二三维人脸模型，在第二三维人脸模型的基础上进一步拟合，使得生成的目标对象的三维人脸模型更贴近目标对象。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的双线性的3DMM库的示意图；

图2是本申请一个示例性实施例提供的一组表情基的示意图；

图3是本申请技术方案涉及的一个流程框架图；

图4是本申请一个示例性实施例提供的三维人脸模型和生成的三维表情基的示意图；

图5是本申请一个示例性实施例提供的三维人脸模型的生成方法的流程图；

图6是本申请一个示例性实施例提供的将三维人脸网格与第一三维人脸模型对齐的示意图；

图7是本申请另一个示例性实施例提供的三维人脸模型的生成方法的流程图；

图8是本申请一个示例性实施例提供的三维人脸网格上的关键点和第一三维人脸模型上的关键点的示意图；

图9是本申请一个示例性实施例提供的部分拟合的第二三维人脸模型的全部区域进行非刚性配准时的区域的示意图；

图10是本申请一个示例性实施例提供的部分拟合后的第二三维人脸模型的示意图；

图11是本申请一个示例性实施例提供的部分拟合后的第二三维人脸模型上的瑕疵点的示意图；

图12是本申请一个示例性实施例提供的确定部分拟合后的第二三维人脸模型上的瑕疵点的示意图；

图13是本申请一个示例性实施例提供的三维人脸模型的生成方法的流程图；

图14是本申请一个示例性实施例提供的语音互动方法的流程图；

图15是本申请一个示例性实施例提供的三维人脸模型的生成装置的框图；

图16是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍：

AI(Artificial Intelligence，人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、人脸识别、三维人脸模型重建等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及3D人脸重建技术领域，将标准对象对应的标准人脸模型与三维人脸网格进行拟合生成目标对象的三维人脸模型，基于该三维人脸模型，生成目标对象的一组表情基。

计算机视觉技术(Computer Vision，CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

3DMM(3d Morphable Model，三维形变模型)库包括表情基和形状基两个部分，3DMM库包括线性或者双线性的形式。如图1所示，其示出了一个典型双线性的3DMM库10的示意图。每一行是同一个人，一共有m个人故有m行(m个不同的形状，也即shape)，一行中每一列对应不同的表情，一共有n个表情故有n列。

一旦给出了如图1所示的3DMM库，一个任意形状带有任意表情的人脸可以用这个3DMM库进行参数化表示。如下公式：

M＝exp×Cr×id

其中，Cr是3DMM库，维度为n×k×m，k是单个人脸点云的个数，n是表情的数目，m是形状基(或称为“捏脸基”)的数目，exp是表情系数，维度是1×n，id是形状系数，维度是m×1，n、m、k均为正整数。

从公式1可以看出，任意一个人脸可以参数化表示成id+exp，其中这个人的id是固定的，所以可以导出专属这个人的一组表情基(又称为blendershape)，如图2所示。显然，当有了这个人的这样一组表情基20，就可以用表情系数来驱动这个人了，通过变换表情系数，即可以生成这个人在任意表情下的三维人脸模型。

图3示出了本申请一个示例性实施例提供的流程框架图。本申请实施例提供的方法应用于生成目标对象的三维人脸模型及生成目标对象的一组表情基的过程。该过程包括将三维人脸网格上的三维数据和标准对象对应的标准人脸模型上的三维数据进行对齐，也即将三维人脸网格和标准人脸模型转换至同一个坐标系中，将对齐后的标准人脸模型的部分区域和三维人脸网格对应的部分区域进行非刚性配准，并在非刚性配准后将标准人脸模型的部分区域与三维人脸网格对应的部分区域进行拟合，将第一次拟合后的三维人脸模型的全部区域与三维人脸网格的全部区域进行非刚性配准，并在非刚性配准后将标准人脸模型的全部区域与三维人脸网格的全部区域进行拟合，生成目标对象的三维人脸模型，基于该三维人脸模型可生成目标对象的一组三维表情基。

在生成目标对象的这一组表情基之后，就可以驱动这组表情基，生成目标对象在任意表情下的三维人脸模型，从而实现不同的产品功能。例如，在游戏中、社交应用程序中使用的增强现实表情(也即AR表情，Augmented Reality)等场景中都可应用到本申请提供的技术方案。在一个示例中，用户使用智能手机中支持三维人脸重建的应用程序，该应用程序调用智能手机的相机对用户的面部进行扫描，基于扫描到的图像生成该用户的三维人脸模型，并生成该用户的一组可驱动的三维表情基，通过驱动该组表情基可切换不同表情下的三维人脸模型实现对应的功能，如图4的(b)所示，该组表情基41中包括一个三维人脸模型的多个表情。

对于将3DMM库中的标准人脸模型与三维人脸网格进行拟合，相关技术中是通过形变传递技术实现的，预先在3DMM库上生成一组标准的表情基，将输入的任意拓扑的人脸模型(也即三维人脸网格或高模，关键点数量较多的模型)对齐到每一个标准表情基(标准人脸模型或低模，关键点数量较少的模型)上，从而生成一组这个人的表情基，变形传递技术通过对应关系将标准人脸模型拉到三维人脸网格对应的位置，三维人脸网格上的其他点通过平滑操作对应。在实际操作中，三维人脸网格的噪声较大，如图4的(a)所示，三维人脸网格40的表面并不光滑或有一些瑕疵点，使得生成的目标对象的三维人脸模型也存在缺陷，尤其是目标对象嘴巴和鼻子等复杂部位易于出现缺陷，使得生成的三维人脸模型与目标对象的人脸不像或失真。为了提高生成的三维人脸模型的质量，在上述过程中使用高质量的对应关系，而高质量的对应关系需要人工标定。

本申请实施例提供了一种方法，基于由粗到细(Coarsetofine)的思想，将非刚性变形(non-rigiddeformation)和顶点拟合(vertexfit)进行结合，通过将标准人脸模型和三维人脸网格对齐后，将标准人脸模型的部分区域和三维人脸网格进行一次拟合，再将标准人脸模型的全部区域和三维人脸网格进行一次拟合，使得生成的三维人脸模型即使在极端的情况下也能导出基符合目标对象的表情对应的表情基。

本申请实施例提供的方法流程，各步骤的执行主体可以是诸如手机、平板电脑、台式电脑、笔记本电脑、多媒体播放设备、可穿戴设备等终端，也可以是服务器。为了便于说明，在下述方法实施例中，仅以各步骤的执行主体为计算机设备为例，进行介绍说明，可选地，计算机设备可以是任何具备计算和存储能力的电子设备，如终端或服务器。

图5示出了本申请一个示例性实施例提供的三维人脸模型的生成方法的流程图，该方法可应用于上述计算机设备中，该方法包括如下步骤：

步骤501，获取输入的目标对象的三维人脸网格。

三维人脸网格(Mesh)是指采用多面体的顶点与多边形所形成的集合来描述目标对象的人脸的三维数据，该多边形是三角形、四边形或者其它简单的凸多边形中的至少一种，以便简化渲染过程。可选地，三维人脸网格也可以包括带有空洞的普通多边形组成的三维数据。本申请对此不加以限定。三维人脸网格适用于旋转、平移、缩放和仿射等变换。在本申请实施例中，三维人脸网格相当于点数较多的模型(高模)。

可选地，可通过图像采集设备围绕目标对象的脸部(或整个头部)进行连续拍摄，该图像采集设备是指能够拍摄彩色图像和深度图像的设备，连续拍摄是按照预设频率进行照片拍摄，或是进行视频拍摄。示意性的，将采集到的目标对象的图像信息输入至模型中得到目标对象的三维人脸网格，该模型是具有划分三维人脸网格能力的机器学习模型。可选地，采集到的图像包括目标对象的正脸姿态图像、侧脸姿态图像、仰视姿态图像、俯视姿态图像等多个视角的图像。

步骤502，根据人脸关键点对三维人脸网格和标准对象的第一三维人脸模型进行对齐。

人脸关键点是目标对象的面部上的关键点，可选地，人脸关键点包括眼睛对应的关键点、鼻子对应的关键点、嘴巴对应的关键点、眉毛对应的关键点、下巴对应的关键点中的至少一种。可选地，三维人脸网格上的人脸关键点是通过关键点检测技术得到的。在一个示例中，关键点检测技术可以是将三维人脸网格输入至模型中得到的，该模型是支持检测关键点坐标的机器学习模型，示意性的，该模型输出关键点在三维人脸网格上的坐标。

第一三维人脸模型是3DMM库中的任意的标准三维人脸模型，在本申请实施例中，第一三维人脸模型上的关键点的数量小于第二三维人脸模型上的关键点的数量，第一三维人脸模型是未与三维人脸网格进行拟合前的模型。

对齐是指将三维人脸网格和标准对象的第一三维人脸模型转换至同一直角坐标系中，如图6所示，将目标对象对应的三维人脸网格61和标准对象对应的标准人脸模型62(也即第一三维人脸模型)进行对齐后的效果图，由于三维人脸网格61和标准人脸模型62不完全相同，所以两者不可能完全对齐，步骤502是将两者进行初步对齐。

可选地，可根据人脸关键点对三维人脸网格和第一三维人脸模型进行对齐，或者根据一个模型的坐标系进行对齐，如以第一三维人脸模型所在的坐标系为基准，将目标对象的三维人脸网格按照该坐标系中的某一点或某一条线进行对齐。

步骤503，将第一三维人脸模型的部分区域与三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型。

部分区域是指拟合出错率低于预设条件的区域，如在拟合时，第一三维人脸模型的鼻子区域和嘴巴区域的结构是多层结构且结构复杂，在拟合时的出错率高于预设条件，则鼻子区域和嘴巴区域不属于第一三维人脸模型的部分区域。

在一个示例中，部分拟合后的第二三维人脸模型中不包括鼻子区域和嘴巴区域，也即部分拟合后的第二三维人脸模型中的鼻子区域和嘴巴区域未进行拟合。

步骤504，将第二三维人脸模型的全部区域与三维人脸网格进行拟合，得到全局拟合后的目标对象的三维人脸模型。

第二三维人脸模型的关键点数量要高于第一三维人脸模型的关键点的数量，第二三维人脸模型要比第一三维人脸模型更接近三维人脸网格。在本申请实施例中，第二三维人脸模型是经过第一三维人脸模型的部分区域与三维人脸网格拟合后产生的模型。

在一个示例中，第二三维人脸模型的全部区域包括鼻子区域和嘴巴区域等复杂区域，也即在第二三维人脸模型拟合后得到目标对象完整的三维人脸模型。

综上所述，本实施例提供的方法，通过根据人脸关键点先三维人脸网格和标准对象对应的第一三维人脸模型对齐，再将第一三维人脸模型的部分区域与三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型，再将第二三维人脸模型的全部区域与三维人脸网格进行拟合，得到全局拟合后的目标对象的三维人脸模型。通过将含有关键点数量较少的第一三维人脸模型与三维人脸网格进行分区域的拟合，形成关键点数量较多的第二三维人脸模型，在第二三维人脸模型的基础上进一步拟合，使得生成的目标对象的三维人脸模型更贴近目标对象。

图7示出了本申请一个示例性实施例提供的三维人脸模型的生成方法的流程图。该方法可应用于上述计算机设备中，该方法包括如下步骤：

步骤701，获取输入的目标对象的三维人脸网格。

步骤701与图5所示的步骤501一致，此处不再赘述。

步骤702，根据人脸关键点对三维人脸网格和标准对象的第一三维人脸模型进行对齐。

示意性的，通过关键点检测技术对三维人脸网格上的关键点进行检测，如图8的(a)，在目标对象的三维人脸网格80上检测到关键点。示意性的，在三维人脸网格80上的关键点包括目标对象的眉毛、眼睛、鼻子(包括鼻孔)、嘴巴、面部轮廓等部位对应的关键点。如图8的(b)所示，第一三维人脸模型81上的关键点是预先标记的点。

由于三维人脸网格和第一三维人脸模型上的关键点(keypoint)语义相同，可通过如下公式进行对齐：

M_low＝S×(R×M_high+T)

其中，M_high是三维人脸网格上的关键点对应的三维点，M_low是第一三维人脸模型上的关键点对应的三维点，S是缩放参数，R是旋转矩阵，T是平移参数，假设三维人脸网格和第一三维人脸模型之间只存在旋转(R)、平移(T)、缩放(S)三种变换，由该公式可求解旋转、平移、缩放三个变量。

步骤703，将第一三维人脸模型的部分区域与三维人脸网格进行非刚性配准，得到部分区域与三维人脸网格之间的第一对应关系。

在初始对齐的情况下，可对第一三维人脸模型的部分区域与三维人脸网格进行非刚性配准。非刚性配准(non-rigidregistration，又被命名为non-rigidicp或nricp)是指对于一个高模作为目标模型(target)，一个低模作为源模型(source)的情况下，将源模型转变为目标模型。第一对应关系是指第一三维人脸模型的部分区域上的点与三维人脸网格上的点的对应关系。可选地，模型上的点是关键点或非关键点。

如图9所示，图9的(a)是未进行非刚性配准的第一三维人脸模型91，区域901是不属于部分区域的区域，也即不进行非刚性配准的区域，在区域901中的点是失效点(outliner)。示意性的，区域91包括眼眶区域、鼻孔区域和嘴巴区域；图9的(b)是用于进行刚性配准后的第一三维人脸模型92，区域902是部分区域，也即进行非刚性配准的区域，在区域902中的点是有效点(inliner)，图9的(c)是进行非刚性配准后的第一三维人脸模型93，通过第一三维人脸模型93可以确定有效点与三维人脸网格的第一对应关系。

步骤704，根据第一对应关系将第一三维人脸模型中的部分区域与三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型。

该步骤还包括以下步骤：

步骤7041，根据第一对应关系将第一三维人脸模型中的部分区域与三维人脸网格进行拟合，计算得到第二三维人脸模型的第一姿态参数。

第一姿态参数包括旋转参数、平移参数和伸缩参数中的至少一种。第一姿态参数是根据上述将三维人脸网格和第一三维人脸模型对齐所对应的公式求解得到。在初步对齐时，三维人脸网格和第一三维人脸模型上对应的关键点的数量较少，根据第一对应关系可获得更多对应的关键点，因此计算出的第一姿态参数更接近三维人脸网格的姿态参数。示意性的，初步对齐时，三维人脸网格和第一三维人脸模型上对应的关键点的数量是106个，根据第一对应关系获得对应的关键点的数量是几千个，甚至更多。

步骤7042，根据第一姿态参数对第一三维人脸模型的形状基系数进行优化，得到第二三维人脸模型的形状基系数。

形状基系数的优化公式如下：

f(id)＝min(s(R[exp×Cr)×id]+T)-M_high)

其中，优化的变量是形状基系数id，sRT是第一姿态参数，s是缩放参数，R是旋转矩阵，T是平移参数，Cr是3DMM库，exp是当前3DMM库中标准人脸模型的均值，M_high是三维人脸网格上的关键点对应的三维点。优化的变量是第一对应关系对应的部分，通过高斯牛顿迭代即可求解第二三维人脸模型的形状基系数。

步骤7043，根据第一姿态参数对第一三维人脸模型的表情基系数进行优化，得到第二三维人脸模型的表情基系数。

表情基系数的优化公式如下：

f(exp)＝min(s(R[(id×Cr)×ex_p]+T)-M_high)

其中，优化的变量是表情基系数exp，sRT是第一姿态参数，s是缩放参数，R是旋转矩阵，T是平移参数，Cr是3DMM库，exp是当前3DMM库中标准人脸模型的均值，M_high是三维人脸网格上的关键点对应的三维点。优化的变量是第一对应关系对应的部分，通过高斯牛顿迭代即可求解第二三维人脸模型的表情基系数。

步骤7044，根据第一姿态参数、形状基系数和表情基系数，得到部分拟合后的第二三维人脸模型。

可以理解的是，通过上述公式迭代，能够不断优化第一姿态参数、形状基系数和表情基系数，第一姿态参数比在初步对齐时求解的旋转参数更接近目标对象对应的姿态参数。

通过计算得到的第二三维人脸模型的可用于拟合的关键点数量高于第一三维人脸模型，也即第二三维人脸模型比第一三维人脸模型要更贴近目标对象，如图10所示，图10的(a)是目标对象的三维人脸网格101，图10的(b)是部分拟合后的第二三维人脸模型102。

步骤705，将第二三维人脸模型的全部区域与三维人脸网格进行非刚性配准，得到全部区域与三维人脸网格之间的第二对应关系。

基于第二三维人脸模型以及优化后的第一姿态参数、形状基系数、表情基系数，可以更大程度的对第二三维人脸模型与三维人脸网格进行非刚性配准。将之前第一三维人脸模型未进行非刚性配准的区域，如鼻子区域、嘴巴区域、眼眶区域等进行非刚性配准。

如图11所示，第二三维人脸模型110相比于第一三维人脸模型更贴近目标对象，第二三维人脸模型110上产生了瑕疵点111，需要将瑕疵点过滤或筛选出来，以免影响下一步的拟合。

过滤筛选瑕疵点包括以下步骤：

S1、获取第二三维人脸模型中的瑕疵点，瑕疵点与第一三维人脸模型中的失效点对应，失效点是不属于第一三维人脸模型的部分区域中的点。

第一三维人脸模型的部分区域中的点是有效点(inliner)，第一三维人脸模型中的失效点(outliner)是不属于第一三维人脸模型的部分区域中的点。

其中获取第二三维人脸模型的瑕疵点包括以下子步骤：

S11、将第二三维人脸模型的全部区域对应的范数与部分拟合后的第二三维人脸模型对应的范数进行比较，得到范数差值。

S12、根据范数差值确定第二三维人脸模型中的瑕疵点。

瑕疵点是由于部分拟合后的第二三维人脸模型的拓扑结构与三维人脸网格的拓扑结构不一致产生的，因此瑕疵点的范数(norm)是不正确的，通过范数来检测出瑕疵点，也即失效点(outliner)。如图12所示，第二三维人脸模型120通过norm检测到瑕疵点121。

S2、从第二三维人脸模型中过滤出瑕疵点，得到无瑕疵点的第二三维人脸模型。

步骤706，根据第二对应关系将第二三维人脸模型的全部区域与三维人脸网格进行拟合，得到全局拟合后的目标对象的三维人脸模型。

该步骤还包括以下步骤：

步骤7061，根据第二对应关系将第二三维人脸模型中的全部区域与三维人脸网格模型进行拟合，计算得到全局拟合后的目标对象的三维人脸模型的第二姿态参数。

步骤7061与步骤7041使用的方法及公式相同，第二对应关系包括更多的对应关系，也即有更多的点可用于拟合过程，如鼻孔区域、嘴巴区域、眼眶区域等区域中的点。

步骤7062，根据第二姿态参数对第二三维人脸模型的形状基系数进行优化，得到全局拟合后的目标对象的三维人脸模型的形状基系数。

步骤7062与步骤7042使用的方法及公式相同，此处不再赘述。

步骤7063，根据第二姿态参数对第二三维人脸模型的表情基系数进行优化，得到全局拟合后的目标对象的三维人脸模型的表情基系数。

步骤7063与步骤7043使用的方法及公式相同，此处不再赘述。

步骤7064，根据第二姿态参数、形状基系数和表情基系数，得到全局拟合后的目标对象的三维人脸模型。

通过全局拟合后的目标对象的三维人脸模型可得到与目标对象对应的表情基系数和形状基系数。

可选地，获取全局拟合后的目标对象的三维人脸模型的形状基系数和表情基系数；根据形状基系数和表情基系数，生成目标对象的三维表情基。

生成目标度对象的表情基公式如下：

M＝(Cr×id)×exp

当3DMM库和形状基系数一定时，给定任意的表情基系数即可得到一个表情的三维人脸网格，对表情基系数每一维单独取1，即可分离出一组三维表情基，该组表情基与目标对象相像。

可以理解的是，3DMM库是任意模式的，如线性模式，计算姿态参数、表情基系数和形状基系数的方法是任意的，提取三维人脸网格和3DMM库中的标准人脸模型之间的对应关系的方法也是任意的。

综上所述，本实施例提供的方法，将三维人脸网格和标准对象的第一三维人脸模型进行对齐，将第一三维人脸模型的部分区域与三维人脸网格进行非刚性配准确定第一对应关系，根据第一关系将第一三维人脸模型的部分区域与三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型，在第二三维人脸模型的基础上同样与三维人脸网格进行非刚性配准和拟合过程，得到全局拟合后的目标对象的三维人脸模型。通过分步拟合使得三维人脸模型更贴合三维人脸网格，从而使得全局拟合后的目标对象的三维人脸模型更接近目标对象，生成的三维表情基与目标对象的表情也更加相像。

图13示出了本申请一个示例性实施例提供的三维人脸模型的生成方法的流程图。该方法可应用于上述计算机设备中，该方法包括如下步骤：

步骤1301，将三维人脸网格和第一三维人脸模型对齐。

三维人脸网格和第一三维人脸模型(即3DMM库中的标准人脸模型)不在同一个坐标系，中心点位置、尺度完全不一样，两者无法进行非刚性配准，需要将两者进行初步对齐。可选地，三维人脸网格上的关键点是通过其他模型检测到的，或预先标记的点，第一三维人脸模型中的关键点是预先标记的点。可选地，通过最小二乘法求解出第一三维人脸模型的第一姿态参数，第一姿态参数包括旋转参数、平移参数和缩放参数中的至少一种。通过第一姿态参数将三维人脸网格和第一三维人脸模型转换至同一坐标系中。基于由粗到细(Coursetofine)的拟合思路，对第一三维人脸模型进行分部分拟合。

步骤1302，将第一三维人脸模型的部分区域与三维人脸网格进行非刚性配准。

非刚性配准的流程如下：

1、将源模型(source)与目标模型(target)粗匹配；

2、确定与源模型上的有效点(inliner)距离最近的目标模型上的对应位置的点作为匹配；

3、利用2中的匹配建立约束，非有效点通过平滑(smooth)进行约束；

4、迭代第2步和第3步，同时不停的减少平滑项对应的权重，直到收敛。

非刚性配准受初始值(第2步中确定的距离最近的点)的影响，如果初始值不准确(比如三维人脸网格的鼻子与第一三维人脸模型的眼睛对齐)，会对形状基系数、表情基系数的计算产生影响。同时，由于第一三维人脸模型的鼻子区域、嘴巴区域等复杂区域是多层结构，第一次进行非刚性配准时只拟合部分区域中的有效点，该部分区域是出错率低于预设条件的区域，如该区域不包括鼻子区域、嘴巴区域等复杂区域。

步骤1303，将第一三维人脸模型的部分区域与三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型。

拟合的流程如下：

1、初始的形状基系数和表情基系数设置位3DMM库的平均值；

2、固定使用当前的形状基系数、表情基系数计算出第二三维人脸模型，用第一对应关系计算第一姿态参数；

3、固定表情基系数，利用当前的第一姿态参数优化形状基系数；

4、固定形状基系数，利用当前的第一姿态参数优化表情基系数；

5、迭代第2步、第3步和第4步，直到收敛。

该步骤得到的第二三维人脸模型相比于第一三维人脸模型更接近目标对象的面相。

步骤1304，将部分拟合后的第二三维人脸模型全部区域与三维人脸网格进行非刚性配准。

由非刚性配准得到的对应关系更加准确，通过对应关系对3DMM库中的标准人脸模型进行拟合，而标准人脸模型对应有形状基系数和表情基系数，也相当于通过对应关系对形状基系数和表情基系数进行拟合，因此在极端的情况下也可保证输出的三维人脸模型是人的面部模型。

部分拟合后的第二三维人脸模型全部区域与三维人脸网格进行非刚性配准后，将部分拟合后的第二三维人脸模型的范数(norm)与三维人脸网格的范数进行比较，由于部分拟合的第二三维人脸模型是不含有破损区域的模型，也即范数是准确的，因此通过比较范数可以定位出部分拟合后的第二三维人脸模型的大部分失效点。

步骤1305，将第二三维人脸模型的全部区域与三维人脸网格进行拟合，得到全局拟合后的目标对象的三维人脸模型。

与步骤1303一致，只是该步骤使用的第二对应关系中包含更多的对应关系，如部分拟合后缺少的鼻孔区域、嘴巴区域和眼眶区域。

步骤1306，基于全局拟合后的目标对象的三维人脸模型生成一组三维表情基。

综上所述，本实施例提供的方法，基于Coursetofine的思路，将第一三维人脸模型与三维人脸网格先对齐，再将第一三维人脸模型的部分区域与三维人脸网格进行非刚性配准、拟合，得到更接近目标对象的面部的第二三维人脸模型，在该第二三维人脸模型的基础上与三维人脸网格再进行全部区域的非刚性配准、拟合，得到全局拟合后的目标对象的三维人脸模型，基于全局拟合后的第二三维人脸模型生成一组三维表情基。基于该方法生成的三维人脸模型和三维表情基的鲁棒性强，更接近目标对象的面部和表情。

下面，以应用于语音互动场景为例，对本申请技术方案进行介绍说明。

请参考图14，其示出了本申请一个实施例提供的语音互动方法的流程图。该方法的执行主体可以是诸如手机、平板电脑、可穿戴设备等终端。该方法可以包括如下几个步骤：

步骤1401，确定待播放的语音信息，以及与该语音信息对应的表情序列，该表情序列包括至少一个表情。

语音信息与表情序列之间的映射关系可以预先存储，在确定出待播放的语音信息之后，可以根据上述映射关系，找到与该语音信息对应的表情序列。例如，可以存储每个发音与表情之间的映射关系，在确定出待播放的语音信息之后，可以确定出该语音信息对应的发音序列，该发音序列中包括至少一个按序排列的发音，获取每个发音对应的表情，即可得到与该语音信息对应的表情序列。

步骤1402，对于表情序列中的每个表情，根据每个表情对应的表情系数和目标对象的表情基，生成目标对象在每个表情下的三维人脸模型。

以生成目标对象的目标表情为例，确定目标表情对应的目标表情系数，然后根据该目标表情系数和目标对象的这组表情基，生成目标对象在目标表情下的三维人脸模型。

可选地，采用目标对象的纹理图对每个表情下的三维人脸模型进行渲染，得到每个表情下带纹理的三维人脸模型。

可选地，采用如下方式生成目标对象的一组表情基：拍摄获取目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，n为正整数；根据n个图像对，生成目标对象的一组表情基。有关表情基的生成过程可以参见上文实施例中的介绍说明，本实施例对此不再赘述。

步骤1403，播放语音信息。

步骤1404，在播放语音信息的过程中，按照表情序列中包含的各个表情的顺序，依次显示各个表情下的三维人脸模型。

可选地，在播放语音信息的过程中，按照表情序列中包含的各个表情的顺序，依次显示各个表情下带纹理的三维人脸模型。

综上所述，本申请实施例提供的技术方案中，通过确定与待播放的语音信息对应的表情序列，根据每个表情对应的表情系数和目标对象的表情基，生成目标对象在每个表情下的三维人脸模型，在播放语音信息的过程中，按照表情序列中包含的各个表情的顺序，依次显示各个表情下的三维人脸模型，从而实现了一种基于三维人脸重建得到的模型进行语音交互的方案，且能够根据实时播放的语音，显示相匹配的表情，更加逼真。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图15示出了本申请的一个示例性实施例提供的三维人脸模型的生成装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分，该装置包括：

获取模块1510，用于获取输入的目标对象的三维人脸网格；

处理模块1520，用于根据人脸关键点对三维人脸网格和标准对象的第一三维人脸模型进行对齐；

拟合模块1530，用于将第一三维人脸模型的部分区域与三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型；

所述拟合模块1530，用于将第二三维人脸模型的全部区域与三维人脸网格进行拟合，得到全局拟合后的目标对象的三维人脸模型。

在一个可选的实施例中，所述处理模块1520，用于将第一三维人脸模型的部分区域与三维人脸网格进行非刚性配准，得到部分区域与三维人脸网格之间的第一对应关系；

所述拟合模块1530，用于根据第一对应关系将第一三维人脸模型中的部分区域与三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型。

在一个可选的实施例中，该装置包括计算模块1540；

所述计算模块1540，用于根据第一对应关系将第一三维人脸模型中的部分区域与三维人脸网格进行拟合，计算得到第二三维人脸模型的第一姿态参数；

所述计算模块1540，用于根据第一姿态参数对第一三维人脸模型的形状基系数进行优化，得到第二三维人脸模型的形状基系数；

所述计算模块1540，用于根据第一姿态参数对第一三维人脸模型的表情基系数进行优化，得到第二三维人脸模型的表情基系数；

所述拟合模块1530，用于根据第一姿态参数、形状基系数和表情基系数，得到部分拟合后的第二三维人脸模型。

在一个可选的实施例中，所述处理模块1520，用于将第二三维人脸模型的全部区域与三维人脸网格进行非刚性配准，得到全部区域与三维人脸网格之间的第二对应关系；

所述拟合模块1530，用于根据第二对应关系将第二三维人脸模型的全部区域与三维人脸网格进行拟合，得到全局拟合后的目标对象的三维人脸模型。

在一个可选的实施例中，所述计算模块1540，用于根据第二对应关系将第二三维人脸模型中的全部区域与三维人脸网格模型进行拟合，计算得到全局拟合后的目标对象的三维人脸模型的第二姿态参数；

所述计算模块1540，用于根据第二姿态参数对第二三维人脸模型的形状基系数进行优化，得到全局拟合后的目标对象的三维人脸模型的形状基系数；

所述计算模块1540，用于根据第二姿态参数对第二三维人脸模型的表情基系数进行优化，得到全局拟合后的目标对象的三维人脸模型的表情基系数；

所述拟合模块1530，用于根据第二姿态参数、形状基系数和表情基系数，得到全局拟合后的目标对象的三维人脸模型。

在一个可选的实施例中，所述获取模块1510，用于获取第二三维人脸模型中的瑕疵点，瑕疵点与第一三维人脸模型中的失效点对应，失效点是不属于第一三维人脸模型的部分区域中的点；

所述处理模块1520，用于从第二三维人脸模型中过滤出瑕疵点，得到无瑕疵点的第二三维人脸模型。

在一个可选的实施例中，所述处理模块1520，用于将第二三维人脸模型的全部区域对应的范数与部分拟合后的第二三维人脸模型对应的范数进行比较，得到范数差值；根据范数差值确定第二三维人脸模型中的瑕疵点。

在一个可选的实施例中，所述获取模块1510，用于获取全局拟合后的目标对象的三维人脸模型的形状基系数和表情基系数；

所述处理模块1520，用于根据形状基系数和表情基系数，生成目标对象的三维表情基。

图16示出了本申请一个实施例提供的终端1600的结构框图。该终端1600可以是手机、平板电脑、可穿戴设备、多媒体播放设备、相机等电子设备。

通常，终端1600包括有：处理器1601和存储器1602。

处理器1601可以包括一个或多个处理核心，比如4核心处理器、16核心处理器等。处理器1601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1602中的非暂态的计算机可读存储介质用于存储至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集用于被处理器1601所执行以实现本申请中方法实施例提供的三维人脸模型的生成方法或者语音互动方法。

在一些实施例中，终端1600还可选包括有：外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地，外围设备可以包括：射频电路1604、触摸显示屏1605、摄像头1606、音频电路1607、定位组件1608和电源1609中的至少一种。

其中，摄像头1606可以是彩色摄像头+深度摄像头形成的三维摄像头。

本领域技术人员可以理解，图16中示出的结构并不构成对终端1600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时以实现上述三维人脸模型的生成方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random AccessMemory，电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品被计算机设备的处理器执行时，用于实现上述三维人脸模型的生成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种三维人脸模型的生成方法，其特征在于，所述方法包括：

获取输入的目标对象的三维人脸网格；

检测所述三维人脸网格的多个人脸关键点；

对所述三维人脸网格的所述多个人脸关键点和标准对象的第一三维人脸模型的人脸关键点进行对齐，所述第一三维人脸模型的人脸关键点是预先标记的点，所述预先标记的点是所述第一三维人脸模型上的五官对应的点；

将所述第二三维人脸模型的全部区域与所述三维人脸网格进行拟合，得到全局拟合后的所述目标对象的三维人脸模型；

其中，所述第一三维人脸模型的关键点数量少于所述第二三维人脸模型的关键点数量。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一三维人脸模型的部分区域与所述三维人脸网格进行拟合，得到部分拟合后的第二三维人脸模型，包括：

将所述第一三维人脸模型的部分区域与所述三维人脸网格进行非刚性配准，得到所述部分区域与所述三维人脸网格之间的第一对应关系；

根据所述第一对应关系将所述第一三维人脸模型中的部分区域与所述三维人脸网格进行拟合，得到所述部分拟合后的第二三维人脸模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一对应关系将所述第一三维人脸模型中的部分区域与所述三维人脸网格进行拟合，得到所述部分拟合后的第二三维人脸模型，包括：

根据所述第一对应关系将所述第一三维人脸模型中的部分区域与所述三维人脸网格进行拟合，计算得到所述第二三维人脸模型的第一姿态参数；

根据所述第一姿态参数对所述第一三维人脸模型的形状基系数进行优化，得到所述第二三维人脸模型的形状基系数；

根据所述第一姿态参数对所述第一三维人脸模型的表情基系数进行优化，得到所述第二三维人脸模型的表情基系数；

根据所述第一姿态参数、所述形状基系数和所述表情基系数，得到所述部分拟合后的第二三维人脸模型。

4.根据权利要求1所述的方法，其特征在于，所述将所述第二三维人脸模型的全部区域与所述三维人脸网格进行拟合，得到全局拟合后的所述目标对象的三维人脸模型，包括：

将所述第二三维人脸模型的全部区域与所述三维人脸网格进行非刚性配准，得到所述全部区域与所述三维人脸网格之间的第二对应关系；

根据所述第二对应关系将所述第二三维人脸模型的全部区域与所述三维人脸网格进行拟合，得到所述全局拟合后的所述目标对象的三维人脸模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第二对应关系将所述第二三维人脸模型的全部区域与所述三维人脸网格进行拟合，得到全局拟合后的所述目标对象的三维人脸模型，包括：

根据所述第二对应关系将所述第二三维人脸模型中的全部区域与所述三维人脸网格模型进行拟合，计算得到所述全局拟合后的所述目标对象的三维人脸模型的第二姿态参数；

根据所述第二姿态参数对所述第二三维人脸模型的形状基系数进行优化，得到所述全局拟合后的所述目标对象的三维人脸模型的形状基系数；

根据所述第二姿态参数对所述第二三维人脸模型的表情基系数进行优化，得到所述全局拟合后的所述目标对象的三维人脸模型的表情基系数；

根据所述第二姿态参数、所述形状基系数和所述表情基系数，得到所述全局拟合后的所述目标对象的三维人脸模型。

6.根据权利要求4所述的方法，其特征在于，所述根据所述第二对应关系将所述第二三维人脸模型的全部区域与所述三维人脸网格进行拟合，得到全局拟合后的所述目标对象的三维人脸模型之前，还包括：

获取所述第二三维人脸模型中的瑕疵点，所述瑕疵点与第一三维人脸模型中的失效点对应，所述失效点是不属于所述第一三维人脸模型的部分区域中的点；

从所述第二三维人脸模型中过滤出所述瑕疵点，得到无瑕疵点的所述第二三维人脸模型。

7.根据权利要求6所述的方法，其特征在于，所述获取所述第二三维人脸模型中的瑕疵点，包括：

将所述第二三维人脸模型的全部区域对应的范数与部分拟合后的第二三维人脸模型对应的范数进行比较，得到范数差值；

根据所述范数差值确定所述第二三维人脸模型中的所述瑕疵点。

8.根据权利要求1至7任一所述的方法，其特征在于，所述方法还包括：

获取所述全局拟合后的所述目标对象的三维人脸模型的形状基系数和表情基系数；

根据所述形状基系数和表情基系数，生成所述目标对象的三维表情基。

9.一种三维人脸模型的生成装置，其特征在于，所述装置包括：

获取模块，用于获取输入的目标对象的三维人脸网格；

处理模块，用于检测所述三维人脸网格的多个人脸关键点；对所述三维人脸网格的所述多个人脸关键点和标准对象的第一三维人脸模型的人脸关键点进行对齐，所述第一三维人脸模型的人脸关键点是预先标记的点，所述预先标记的点是所述第一三维人脸模型上的五官对应的点；

所述拟合模块，用于将所述第二三维人脸模型的全部区域与所述三维人脸网格进行拟合，得到全局拟合后的所述目标对象的三维人脸模型；

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的三维人脸模型的生成方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的三维人脸模型的生成方法。