CN111028330B

CN111028330B - 三维表情基的生成方法、装置、设备及存储介质

Info

Publication number: CN111028330B
Application number: CN201911120979.5A
Authority: CN
Inventors: 林祥凯; 暴林超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-04-07
Anticipated expiration: 2039-11-15
Also published as: EP3992918A4; WO2021093453A1; US20220036636A1; US11748934B2; CN111028330A; EP3992918A1

Abstract

本申请提供了一种三维表情基的生成方法、装置、设备及存储介质，涉及人工智能的计算机视觉技术领域。所述方法包括：获取目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像；根据n个图像对，构建目标对象的三维人脸模型；基于目标对象的三维人脸模型，生成目标对象的一组表情基。本申请通过在重建出三维人脸模型的基础上，进一步生成目标对象的一组表情基，从而可以基于该表情基扩展更为丰富的产品功能。另外，采用本申请技术方案生成的这组表情基，是一组高精度的、可驱动的表情基，能够生成出目标对象在任意表情下的三维人脸模型。

Description

三维表情基的生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能的计算机视觉技术领域，特别涉及一种三维表情基的生成方法、装置、设备及存储介质。

背景技术

3D(3 Dimensions，三维)人脸重建是指从一张或多张2D(2 Dimensions，二维)图像中重建出人脸的3D模型。

在一些相关技术中，通过拍摄获取目标对象的一张或多张人脸图像，对这些人脸图像进行分析处理，提取一些关键信息，然后基于这些关键信息重建出目标对象的三维人脸模型。

但是，相关技术重建出的三维人脸模型是一个静态模型，可实现的功能有限。

发明内容

本申请实施例提供了一种三维表情基的生成方法、装置、设备及存储介质，可用于解决相关技术提供的人脸重建方案，可实现的功能有限的技术问题，通过在重建出三维人脸模型的基础上，进一步生成目标对象的一组表情基，从而可以基于该表情基扩展更为丰富的产品功能。所述技术方案如下：

一方面，本申请实施例提供了一种三维表情基的生成方法，所述方法包括：

获取目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，所述n为正整数；

根据所述n个图像对，构建所述目标对象的三维人脸模型；

基于所述目标对象的三维人脸模型，生成所述目标对象的一组表情基。

另一方面，本申请实施例提供了一种语音互动方法，所述方法包括：

确定待播放的语音信息，以及与所述语音信息对应的表情序列，所述表情序列包括至少一个表情；

对于所述表情序列中的每个表情，根据每个表情对应的表情系数和目标对象的表情基，生成所述目标对象在每个表情下的三维人脸模型；

播放所述语音信息；

在播放所述语音信息的过程中，按照所述表情序列中包含的各个所述表情的顺序，依次显示各个所述表情下的三维人脸模型。

另一方面，本申请实施例提供了一种三维表情基的生成装置，所述装置包括：

图像获取模块，用于获取目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，所述n为正整数；

模型构建模块，用于根据所述n个图像对，构建所述目标对象的三维人脸模型；

表情基生成模块，用于基于所述目标对象的三维人脸模型，生成所述目标对象的一组表情基。

另一方面，本申请实施例提供了一种语音互动装置，所述装置包括：

信息确定模块，用于确定待播放的语音信息，以及与所述语音信息对应的表情序列，所述表情序列包括至少一个表情；

模型生成模块，用于对于所述表情序列中的每个表情，根据每个表情对应的表情系数和目标对象的表情基，生成所述目标对象在每个表情下的三维人脸模型；

语音播放模块，用于播放所述语音信息；

模型显示模块，用于在播放所述语音信息的过程中，按照所述表情序列中包含的各个所述表情的顺序，依次显示各个所述表情下的三维人脸模型。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述三维表情基的生成方法，或者实现上述语音互动方法。

可选地，所述计算机设备为终端或服务器。

再一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述三维表情基的生成方法。

再一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述语音互动方法。

还一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品被处理器执行时，用于实现上述三维表情基的生成方法。

还一方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品被处理器执行时，用于实现上述语音互动方法。

本申请实施例提供的技术方案可以包括如下有益效果：

通过获取目标对象在至少一种头部姿态下的图像对，基于该图像对构建出目标对象的三维人脸模型，并基于该三维人脸模型，生成目标对象的一组表情基，从而可以基于该表情基扩展更为丰富的产品功能。另外，采用本申请技术方案生成的这组表情基，是一组高精度的(也即与目标对象长相相似的)、可驱动的表情基，能够生成出目标对象在任意表情下的三维人脸模型。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的双线性的3DMM库的示意图；

图2是本申请一个实施例提供的一组表情基的流程图；

图3是本申请技术方案涉及的一个流程框架图；

图4是本申请一个实施例提供的三维表情基的生成方法的流程图；

图5是本申请一个实施例提供的目标对象的多种头部姿态下的图像对的示意图；

图6是本申请一个实施例提供的目标对象的三维人脸模型的多个视图；

图7是本申请一个实施例提供的目标对象和标准对象的三维人脸模型进行点云初步对齐后的效果图；

图8是本申请一个实施例提供的目标对象的高模点云和低模点云对应的三维人脸模型的示意图；

图9是本申请一个实施例提供的目标对象的一组表情基的示意图；

图10是本申请一个实施例提供的基于目标对象的高模点云构建的三维人脸模型所对应的纹理图的示意图；

图11是本申请一个实施例提供的基于目标对象的低模点云构建的三维人脸模型所对应的纹理图的示意图；

图12是本申请一个实施例提供的基于图10所示纹理图渲染出的带纹理的三维人脸模型的示意图；

图13是本申请一个实施例提供的基于图11所示纹理图渲染出的带纹理的三维人脸模型的示意图；

图14是本申请一个实施例提供的语音互动方法的流程图；

图15是本申请一个实施例提供的三维表情基的生成装置的框图；

图16是本申请另一个实施例提供的三维表情基的生成装置的框图；

图17是本申请一个实施例提供的语音互动装置的框图；

图18是本申请另一个实施例提供的语音互动装置的框图；

图19是本申请一个实施例提供的终端的结构示意图；

图20是本申请一个实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

AI(Artificial Intelligence，人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及3D人脸重建技术领域，利用计算机视觉技术对目标对象的人脸图像进行分析处理，构建出目标对象的三维人脸模型，并基于该三维人脸模型，生成目标对象的一组表情基。

3DMM(3d Morphable Model，三维形变模型)库包括表情基和形状基两个部分，可以是线性或者双线性的形式。如图1所示，其示出了一个典型双线性的3DMM库10的示意图。每一行是同一个人，一共有m个人故有m行(m个不同的形状shape)，一行中每一列对应不同的表情，一共有n个表情故有n列。

一旦给出了如图1所示的3DMM库，一个任意形状带有任意表情的人脸可以用这个3DMM库进行参数化表示。如下公式1：

M＝exp×Cr×id (公式1)

其中，Cr是3DMM库，维度为n×k×m，k是单个人脸点云的个数，n是表情的数目，m是形状基(或称为“捏脸基”)的数目，exp是表情系数，维度是1×n，id是形状系数，维度是m×1，n、m、k均为正整数。

从公式1可以看出，任意一个人脸可以参数化表示成id+exp，其中这个人的id是固定的，所以可以导出专属这个人的一组表情基，如图2所示。显然，当有了这个人的这样一组表情基20，就可以用表情系数来驱动这个人了，通过变换表情系数，即可以生成这个人在任意表情下的三维人脸模型。

请参考图3，其示出了本申请技术方案涉及的一个流程框架图。从该流程框架图中可以看出，输入是目标对象的图像对序列，该图像对序列中包括多个图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，输出是该目标对象的一组表情基。整个流程包括前端处理和后端处理两部分。前端处理包括筛选图像、计算姿态、融合处理、后处理等几个步骤，最终生成目标对象的三维人脸模型。后端处理包括点云对齐、非刚性配准、基于3DMM库重建、后处理等几个步骤，最终生成目标对象的一组表情基。后续，可以基于该组表情基生成目标对象在任意表情下的三维人脸模型，同时还可以对该三维人脸模型进行纹理渲染，生成目标对象在任意表情下带纹理的三维人脸模型。

在生成目标对象的这一组表情基之后，就可以驱动这组表情基，生成目标对象在任意表情下的三维人脸模型，从而实现不同的产品功能。例如，在游戏、宣发等场景中都可应用到本申请提供的技术方案。在一种示例性的应用场景中，用户拿着深度相机扫描一圈自己的头，然后就可以重建出该用户的一组可驱动的表情基，通过驱动这组表情基，生成该用户在任意表情下的三维人脸模型，切换显示不同表情下的三维人脸模型，可以实现用户与其三维人脸模型进行对话。

本申请实施例提供的方法流程，各步骤的执行主体可以是诸如手机、平板电脑、多媒体播放设备、可穿戴设备等终端，也可以是服务器。为了便于说明，在下述方法实施例中，仅以各步骤的执行主体为计算机设备为例，进行介绍说明，所述计算机设备可以是任何具备计算和存储能力的电子设备，如上文介绍的终端或服务器。

下面，将结合几个实施例对本申请技术方案进行详细的介绍说明。

请参考图4，其示出了本申请一个实施例提供的三维表情基的生成方法的流程图。该方法可以包括如下几个步骤：

步骤401，获取目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，n为正整数。

目标对象的RGB图像是指通过摄像头对目标对象进行拍摄得到的彩色图像。RGB图像的每个像素值采用R(红)、G(绿)、B(蓝)三个通道的颜色分量来表示。

目标对象的深度图像是指将从摄像头到目标对象所处场景中各点的距离值作为像素值的图像。深度图像也称为距离影像。深度图像直接反映了物体可见表面的几何形状。深度图像类似于灰度图像，只是深度图像的每个像素值是摄像头距离物体的实际距离。目标对象的RGB图像和深度图像可以是配准的，两者的像素点之间具有一对一的对应关系。

目标对象的RGB图像和深度图像可以是采用3D摄像头拍摄得到的两张图像，相较于普通2D摄像头仅能够拍摄RGB图像，3D摄像头除了能够拍摄RGB图像之外，还能够拍摄深度图像。其中，3D摄像头可以包括彩色摄像头和深度传感器，彩色摄像头用于拍摄RGB图像，深度传感器用于采集深度信息以生成深度图像。

在一个示例中，n的取值为1，例如获取目标对象在正脸姿态下的图像对。

在另一示例中，为了提升3D人脸重建的准确性，n的取值大于1，例如上述n种头部姿态包括正脸姿态、右边侧脸姿态、左边侧脸姿态和抬头姿态。

计算机设备获取目标对象在哪些头部姿态下的图像对，可以预先进行设定。示例性地，如图5所示，获取目标对象在6种头部姿态下的图像对：正脸姿态、右边侧脸姿态1、右边侧脸姿态2、左边侧脸姿态1、左边侧脸姿态2和抬头姿态。其中，右边侧脸姿态1和右边侧脸姿态2可以是两个不同角度的右边侧脸姿态，左边侧脸姿态1和左边侧脸姿态2可以是两个不同角度的左边侧脸姿态。

可选地，通过固定用于采集目标对象的图像对的相机位置，目标对象转动头部，由相机采集目标对象的多个图像对。例如，目标对象转动头部的全过程的图像，都会被相机采集并保存下来。出于效率的考虑，不需要采集的全部图像进行计算，因为很多数据是重复的，目标对象转动头部的全过程中会采集几百个图像对，如果这几百个图像对全部用于计算会很浪费计算资源。因此，通过筛选图像从这几百个图像对中筛选出几个具有代表性的图像对用于后续的计算即可。

在一种可能的实现方式中，获取目标对象的多个候选的图像对；从该多个候选的图像对中筛选出质量合格的目标图像对；从目标图像对中选取n种头部姿态下的图像对。其中，质量不合格(例如眨眼、运动模糊等)的图像对会被剔除，保留质量合格的目标图像对，然后在这些质量合格的目标图像对中按照头部姿态选出n个图像对。

步骤402，根据n个图像对，构建目标对象的三维人脸模型。

目标对象的三维人脸模型是指基于该目标对象在上述n种头部姿态下的图像对，重构出的该目标对象的人脸的三维模型。该三维人脸模型包括点云和三角形拓扑。

在示例性实施例中，步骤402可以包括如下几个子步骤：

1、获取n个图像对各自对应的头部姿态信息和关键点信息；

头部姿态信息用于指示图像对中目标对象头部的姿态角，关键点信息用于指示图像对中目标对象的各个人脸关键点的位置，人脸关键点可以包括眉毛、眼睛、嘴唇等人脸关键部位上的关键点。

以获取n个图像对中的第i个图像对对应的头部姿态信息和关键点信息为例，首先获取该第i个图像对的RGB图像中的关键点，然后根据第i个图像对的深度图像，获取该第i个图像对对应的关键点信息，该第i个图像对对应的关键点信息包括关键点的三维位置信息，然后根据该第i个图像对对应的关键点信息，确定该第i个图像对对应的头部姿态信息，i为小于或等于n的正整数。

首先可以采用相关的人脸关键点定位算法，从RGB图像中定位出人脸的关键点(也称为landmark点)，然后通过该关键点和对应的深度图像，可以得到关键点的三维位置信息，包括在RGB图像中的横纵坐标位置以及深度值。同一关键点的位置在各个图像对中是一一对应的，例如鼻尖这一关键点的位置在各个图像对中是一一对应的。在得到各个关键点的三维位置信息之后，可以通过最小二乘等方式计算出粗略的头部姿态信息，该粗略的头部姿态信息可以通过ICP(Iterative Closest Point，迭代最近点)等方式进一步进行优化，得到最终的头部姿态信息。另外，由于图像对是在目标对象转头的情况下拍摄的，因此图像中会存在肩部等不动的地方，在获取头部姿态信息和关键点信息时，可以先把图像中脸部区域以外的区域扣除，以提升信息获取的精度。

2、根据n个图像对各自对应的头部姿态信息和关键点信息，融合得到目标对象的点云；

在得到n个图像对各自对应的头部姿态信息和关键点信息之后，可以采用surfel(面元)模型对上述信息进行融合处理，得到目标对象的点云。

3、根据目标对象的点云，生成目标对象的三维人脸模型。

之后，对目标对象的点云进行后处理，如泊松重建，拉普拉斯平滑，去噪，降采样等一系列操作，生成目标对象的三维人脸模型。如图6所示，其示出了对图5所示的目的对象的图像进行重建后，生成的该目标对象的三维人脸模型的几个不同角度的视图。左侧图示61是正脸角度的视图，中间图示62是朝右角度的视图，右侧图示63是朝左角度的视图。

步骤403，基于目标对象的三维人脸模型，生成目标对象的一组表情基。

目标对象的这一组表情基中可以包括该目标对象的多个不同表情对应的表情基，并且该表情基是可驱动的，也即能够该组表情基生成目标对象在任意表情下的三维人脸模型。

在示例性实施例中，步骤403可以包括如下几个子步骤：

1、将目标对象的三维人脸模型和标准对象的三维人脸模型进行点云初步对齐；

标准对象是从3DMM库中选择的一个人脸对象。在前述步骤中，由于能够获取到目标对象在多个不同头部姿态下的关键点的三维位置信息，通过拼合上述关键点的三维位置信息，即可得到该目标对象完整的关键点的三维位置信息。通过找最近邻的方式可以将各个关键点对应在目标对象的点云上，从而找到各个关键点在目标对象的三维人脸模型上对应的关键点(可称为keypoint)位置。通过目标对象的三维人脸模型上对应的关键点位置，可以将目标对象的三维人脸模型和标准对象的三维人脸模型做一个初步的对齐。点云初步对齐的目的是将目标对象的点云和标准对象的点云转换到同一个坐标系下，因为两者原先不在同一个坐标系中，转换到同一坐标系后以便于后续的计算。

目标对象的点云和标准对象的点云之间的空间位置转换关系可以如下公式2所示：

P_3dmm＝s×(R|T)P_frontend (公式2)

其中，P_3dmm是标准对象的三维人脸模型上的关键点的三维位置信息，P_frontend是目标对象的三维人脸模型上的关键点的三维位置信息，s、R和T分别是待计算的缩放、旋转和平移参数。

需要说明的是，由于目标对象的点云和标准对象的点云并不相同，因此两个点云并不能够完全对齐。示例性地，如图7所示，其示出了目标对象的三维人脸模型71和标准对象的三维人脸模型72进行点云初步对齐后的效果图。可以看出，虽然目标对象的三维人脸模型和标准对象的三维人脸模型并不相同，但是两者已经转换到了大概对齐的位置。

2、在点云初步对齐后，将标准对象的点云贴合到目标对象的点云上，得到目标对象的低模点云；

目标对象的低模点云是一个长得像目标对象的点云，但相比于目标对象的点云的三维点数量更少的点云。上述步骤402中通过融合处理得到的目标对象的点云可以看作是一个高模点云，其三维点数量较多，此处得到的目标对象的低模点云的三维点数量，与3DMM库中的标准对象的点云的三维点数量相同，但相比于该目标对象的高模点云的三维点数量更少。

通过这一步骤得到的目标对象的低模点云，是一个长得像目标对象，但点云中包含的三维点数量是与3DMM库中的标准对象的点云的三维点数量相同的点云，这样生成出的目标对象的低模点云就满足3DMM库的拓扑结构，从而可以生成该目标对象的一组可驱动的表情基。

另外，可以采用非刚性配准(Non-rigid Registration，NRICP)的方式，将标准对象的点云贴合到目标对象的点云上。在执行一次非刚性配准之后，可以用新生成的点云替代标准对象的点云，重新执行上述步骤1和步骤2进行点云对齐和非刚性配准，迭代数次后，得到一个满足3DMM库的拓扑结构的目标对象的低模点云。需要说明的一点是，在迭代过程中，可以用更多的面部点进行计算，而不仅仅是关键点，这样可以使得最终生成的目标对象的低模点云与目标对象的高模点云具有更高的相似度。

3、根据目标对象的低模点云，生成目标对象的一组表情基。

在得到满足3DMM库的拓扑结构的目标对象的低模点云之后，利用上述公式1，可以在3DMM库中匹配出该目标对象的形状系数和表情系数。其中，目标对象的形状系数用于控制目标对象的长相，目标对象的表情系数用于控制目标对象的表情。通过调整目标对象的表情系数，可以生成出该目标对象的一组表情基。另外，还需要对目标对象的人脸进行后处理，修复五官细节部分。

示例性地，如图8所示，图8中左侧图示是目标对象的高模点云对应的三维人脸模型81，右侧图示是目标对象的低模点云对应的三维人脸模型82。根据该目标对象的低模点云，调整表情系数，可以生成目标对象的一组表情基90，如图9所示。

综上所述，本申请实施例提供的技术方案，通过获取目标对象在至少一种头部姿态下的图像对，基于该图像对构建出目标对象的三维人脸模型，并基于该三维人脸模型，生成目标对象的一组表情基，从而可以基于该表情基扩展更为丰富的产品功能。

另外，通过将目标对象的三维人脸模型和标准对象的三维人脸模型进行点云初步对齐，在点云初步对齐后，将标准对象的点云贴合到目标对象的点云上，得到目标对象的低模点云，该目标对象的低模点云是一个满足3DMM库的拓扑结构，且长得像目标对象的点云，从而可以为目标对象生成一组高精度的、可驱动的表情基。

在示例性实施例中，上述步骤403之后还包括如下步骤：

1、从n个图像对的RGB图像中，提取目标对象的纹理图；

可选地，从每个RGB图像中分别提取目标对象在一种头部姿态下的纹理图，融合各种头部姿态下的纹理图，可以得到该目标对象的一张完整的纹理图。

如图10所示，其示出了基于目标对象的高模点云构建的三维人脸模型(也即图8中左侧图示的三维人脸模型)所对应的纹理图100。如图11所示，其示出了基于目标对象的低模点云构建的三维人脸模型(也即图8中右侧图示的三维人脸模型)所对应的纹理图110。

2、根据目标对象的表情基和纹理图，生成目标对象在目标表情下带纹理的三维人脸模型。

通过将目标对象的高模点云对应的三维人脸模型和图10所示的纹理图送入渲染引擎，可以渲染出如图12所示的带纹理的三维人脸模型120。但是，该图12所示的三维人脸模型120是不可驱动的，因为其不满足3DMM库的拓扑结构。

通过将目标对象的低模点云对应的三维人脸模型和图11所示的纹理图送入渲染引擎，可以渲染出如图13所示的带纹理的三维人脸模型130。该图13所示的三维人脸模型130是可以驱动的，因为其满足3DMM库的拓扑结构。例如，通过不同的表情系数，可以生成该目标对象在不同表情下的三维人脸模型，然后通过渲染引擎进行纹理渲染，便可得到该目标对象在不同表情下带纹理的三维人脸模型。在图13中，示例性示出了张嘴、闭嘴、眨眼等典型的动作效果，图中眼珠、牙齿、头发等是可以额外添加的挂件。

以生成目标对象在目标表情下带纹理的三维人脸模型为例，首先确定目标表情对应的目标表情系数，然后根据该目标表情系数和目标对象的这组表情基，生成目标对象在目标表情下的三维人脸模型，采用目标对象的纹理图对目标表情下的三维人脸模型进行渲染，得到该目标表情下带纹理的三维人脸模型。

通过上述方式，在生成目标对象的一组表情基的基础上，进一步根据目标对象的表情基和纹理图，生成目标对象在任意表情下带纹理的三维人脸模型，从而提供更加丰富的产品功能。

下面，以应用于语音互动场景为例，对本申请技术方案进行介绍说明。

请参考图14，其示出了本申请一个实施例提供的语音互动方法的流程图。该方法的执行主体可以是诸如手机、平板电脑、可穿戴设备等终端。该方法可以包括如下几个步骤：

步骤141，确定待播放的语音信息，以及与该语音信息对应的表情序列，该表情序列包括至少一个表情。

语音信息与表情序列之间的映射关系可以预先存储，在确定出待播放的语音信息之后，可以根据上述映射关系，找到与该语音信息对应的表情序列。例如，可以存储每个发音与表情之间的映射关系，在确定出待播放的语音信息之后，可以确定出该语音信息对应的发音序列，该发音序列中包括至少一个按序排列的发音，获取每个发音对应的表情，即可得到与该语音信息对应的表情序列。

步骤142，对于表情序列中的每个表情，根据每个表情对应的表情系数和目标对象的表情基，生成目标对象在每个表情下的三维人脸模型。

以生成目标对象的目标表情为例，确定目标表情对应的目标表情系数，然后根据该目标表情系数和目标对象的这组表情基，生成目标对象在目标表情下的三维人脸模型。

可选地，采用目标对象的纹理图对每个表情下的三维人脸模型进行渲染，得到每个表情下带纹理的三维人脸模型。

可选地，采用如下方式生成目标对象的一组表情基：拍摄获取目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，n为正整数；根据n个图像对，生成目标对象的一组表情基。有关表情基的生成过程可以参见上文实施例中的介绍说明，本实施例对此不再赘述。

步骤143，播放语音信息。

步骤144，在播放语音信息的过程中，按照表情序列中包含的各个表情的顺序，依次显示各个表情下的三维人脸模型。

可选地，在播放语音信息的过程中，按照表情序列中包含的各个表情的顺序，依次显示各个表情下带纹理的三维人脸模型。

综上所述，本申请实施例提供的技术方案中，通过确定与待播放的语音信息对应的表情序列，根据每个表情对应的表情系数和目标对象的表情基，生成目标对象在每个表情下的三维人脸模型，在播放语音信息的过程中，按照表情序列中包含的各个表情的顺序，依次显示各个表情下的三维人脸模型，从而实现了一种基于三维人脸重建得到的模型进行语音交互的方案，且能够根据实时播放的语音，显示相匹配的表情，更加逼真。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图15，其示出了本申请一个实施例提供的三维表情基的生成装置的框图。该装置具有实现上述三维表情基的生成方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备，也可以设置在计算机设备中。该装置1500可以包括：图像获取模块1510、模型构建模块1520和表情基生成模块1530。

图像获取模块1510，用于获取目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，所述n为正整数。

模型构建模块1520，用于根据所述n个图像对，构建所述目标对象的三维人脸模型。

表情基生成模块1530，用于基于所述目标对象的三维人脸模型，生成所述目标对象的一组表情基。

综上所述，本申请实施例提供的技术方案中，通过获取目标对象在至少一种头部姿态下的图像对，基于该图像对构建出目标对象的三维人脸模型，并基于该三维人脸模型，生成目标对象的一组表情基，从而可以基于该表情基扩展更为丰富的产品功能。

在示例性实施例中，如图16所示，所述模型构建模块1520，包括：信息获取单元1521、信息融合单元1522和模型生成单元1523。

信息获取单元1521，用于获取所述n个图像对各自对应的头部姿态信息和关键点信息。

信息融合单元1522，用于根据所述n个图像对各自对应的头部姿态信息和关键点信息，融合得到所述目标对象的点云。

模型生成单元1523，用于根据所述目标对象的点云，生成所述目标对象的三维人脸模型。

在示例性实施例中，所述信息获取单元1521，用于：

对于所述n个图像对中的第i个图像对，获取所述第i个图像对的RGB图像中的关键点，所述i为小于或等于所述n的正整数；

根据所述第i个图像对的深度图像，获取所述第i个图像对对应的关键点信息；其中，所述第i个图像对对应的关键点信息包括所述关键点的三维位置信息；

根据所述第i个图像对对应的关键点信息，确定所述第i个图像对对应的头部姿态信息。

在示例性实施例中，如图16所示，所述表情基生成模块1530，包括：点云对齐单元1531、点云配准单元1532和表情基生成单元1533。

点云对齐单元1531，用于将所述目标对象的三维人脸模型和标准对象的三维人脸模型进行点云初步对齐。

点云配准单元1532，用于在点云初步对齐后，将所述标准对象的点云贴合到所述目标对象的点云上，得到所述目标对象的低模点云。

表情基生成单元1533，用于根据所述目标对象的低模点云，生成所述目标对象的一组表情基。

在示例性实施例中，所述表情基生成单元1533，用于：

根据所述目标对象的低模点云，计算所述目标对象的形状系数和表情系数，其中，所述目标对象的形状系数用于控制所述目标对象的长相，所述目标对象的表情系数用于控制所述目标对象的表情；

调整所述目标对象的表情系数，生成所述目标对象的一组表情基。

在示例性实施例中，如图16所示，所述装置1500还包括：纹理提取模块1540和纹理渲染模块1550。

纹理提取模块1540，用于从所述n个图像对的RGB图像中，提取所述目标对象的纹理图。

纹理渲染模块1550，用于根据所述表情基和所述纹理图，生成所述目标对象在目标表情下带纹理的三维人脸模型。

在示例性实施例中，所述纹理渲染模块1550，用于：

确定目标表情系数；

根据所述目标表情系数和所述表情基，生成所述目标对象在所述目标表情下的三维人脸模型；

采用所述纹理图对所述目标表情下的三维人脸模型进行渲染，得到所述目标表情下带纹理的三维人脸模型。

在示例性实施例中，所述图像获取模块1510，用于：

获取所述目标对象的多个候选的图像对；

从所述多个候选的图像对中筛选出质量合格的目标图像对；

从所述目标图像对中选取所述n种头部姿态下的图像对。

请参考图17，其示出了本申请一个实施例提供的语音互动装置的框图。该装置具有实现上述语音互动方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的终端，也可以设置在终端中。该装置1700可以包括：信息确定模块1710、模型生成模块1720、语音播放模块1730和模型显示模块1740。

信息确定模块1710，用于确定待播放的语音信息，以及与所述语音信息对应的表情序列，所述表情序列包括至少一个表情。

模型生成模块1720，用于对于所述表情序列中的每个表情，根据每个表情对应的表情系数和目标对象的表情基，生成所述目标对象在每个表情下的三维人脸模型。

语音播放模块1730，用于播放所述语音信息。

模型显示模块1740，用于在播放所述语音信息的过程中，按照所述表情序列中包含的各个所述表情的顺序，依次显示各个所述表情下的三维人脸模型。

在示例性实施例中，如图18所示，所述装置1700还包括：纹理渲染模块1750。

纹理渲染模块1750，用于采用所述目标对象的纹理图对每个表情下的三维人脸模型进行渲染，得到每个表情下带纹理的三维人脸模型。

所述模型显示模块1740，还用于在播放所述语音信息的过程中，按照所述表情序列中包含的各个所述表情的顺序，依次显示各个所述表情下带纹理的三维人脸模型。

在示例性实施例中，如图18所示，所述装置1700还包括：图像拍摄模块1760和表情基生成模块1770。

图像拍摄模块1760，用于拍摄获取所述目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，所述n为正整数。

表情基生成模块1770，用于根据所述n个图像对，生成所述目标对象的一组表情基。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图19，其示出了本申请一个实施例提供的终端1900的结构框图。该终端1900可以是手机、平板电脑、可穿戴设备、多媒体播放设备、相机等电子设备。

通常，终端1900包括有：处理器1901和存储器1902。

处理器1901可以包括一个或多个处理核心，比如4核心处理器、19核心处理器等。处理器1901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1902中的非暂态的计算机可读存储介质用于存储至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集用于被处理器1901所执行以实现本申请中方法实施例提供的三维表情基的生成方法或者语音互动方法。

在一些实施例中，终端1900还可选包括有：外围设备接口1903和至少一个外围设备。处理器1901、存储器1902和外围设备接口1903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1903相连。具体地，外围设备可以包括：射频电路1904、触摸显示屏1905、摄像头1906、音频电路1907、定位组件1908和电源1909中的至少一种。

本领域技术人员可以理解，图19中示出的结构并不构成对终端1900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

请参考图20，其示出了本申请一个实施例提供的计算机设备的结构示意图。

具体来讲：

所述计算机设备2000包括CPU(Central Processing Unit，中央处理单元)2001、包括RAM(Random Access Memory，随机存取存储器)2002和ROM(Read Only Memory，只读存储器)2003的系统存储器2004，以及连接系统存储器2004和中央处理单元2001的系统总线2005。所述计算机设备2000还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output输入/输出)系统2006，和用于存储操作系统2013、应用程序2014和其他程序模块2015的大容量存储设备2007。

所述基本输入/输出系统2006包括有用于显示信息的显示器2008和用于用户输入信息的诸如鼠标、键盘之类的输入设备2009。其中所述显示器2008和输入设备2009都通过连接到系统总线2005的输入输出控制器2010连接到中央处理单元2001。所述基本输入/输出系统2006还可以包括输入输出控制器2010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器2010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备2007通过连接到系统总线2005的大容量存储控制器(未示出)连接到中央处理单元2001。所述大容量存储设备2007及其相关联的计算机可读介质为计算机设备2000提供非易失性存储。也就是说，所述大容量存储设备2007可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器2004和大容量存储设备2007可以统称为存储器。

根据本申请的各种实施例，所述计算机设备2000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备2000可以通过连接在所述系统总线2005上的网络接口单元2011连接到网络2012，或者说，也可以使用网络接口单元2011来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述三维表情基的生成方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时以实现上述三维表情基的生成方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被终端的处理器执行时以实现上述三维表情基的生成方法或者语音互动方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random AccessMemory，电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品被计算机设备的处理器执行时，用于实现上述三维表情基的生成方法。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品被终端的处理器执行时，用于实现上述三维表情基的生成方法或者语音互动方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种三维表情基的生成方法，其特征在于，所述方法包括：

根据所述n个图像对，构建所述目标对象的三维人脸模型；

将所述目标对象的三维人脸模型和标准对象的三维人脸模型进行点云初步对齐；

在点云初步对齐后，将所述标准对象的点云贴合到所述目标对象的点云上，得到所述目标对象的低模点云，所述目标对象的低模点云中包含的三维点数量与所述标准对象的点云中包含的三维点数量相同，所述目标对象的低模点云中包含的三维点数量小于所述目标对象的高模点云中包含的三维点数量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述n个图像对，构建所述目标对象的三维人脸模型，包括：

获取所述n个图像对各自对应的头部姿态信息和关键点信息；

根据所述n个图像对各自对应的头部姿态信息和关键点信息，融合得到所述目标对象的点云；

根据所述目标对象的点云，生成所述目标对象的三维人脸模型。

3.根据权利要求2所述的方法，其特征在于，所述获取所述n个图像对各自对应的头部姿态信息和关键点信息，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述调整所述目标对象的表情系数，生成所述目标对象的一组表情基之后，还包括：

从所述n个图像对的RGB图像中，提取所述目标对象的纹理图；

根据所述表情基和所述纹理图，生成所述目标对象在目标表情下带纹理的三维人脸模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述表情基和所述纹理图，生成所述目标对象在目标表情下带纹理的三维人脸模型，包括：

确定目标表情系数；

6.根据权利要求1至3任一项所述的方法，其特征在于，所述获取目标对象在n种头部姿态下的图像对，包括：

获取所述目标对象的多个候选的图像对；

从所述多个候选的图像对中筛选出质量合格的目标图像对；

从所述目标图像对中选取所述n种头部姿态下的图像对。

7.一种语音互动方法，其特征在于，所述方法包括：

拍摄获取目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，所述n为正整数；

根据所述n个图像对，构建所述目标对象的三维人脸模型；

调整所述目标对象的表情系数，生成所述目标对象的一组表情基；

对于所述表情序列中的每个表情，根据每个表情对应的表情系数和所述目标对象的表情基，生成所述目标对象在每个表情下的三维人脸模型；

播放所述语音信息；

8.根据权利要求7所述的方法，其特征在于，所述根据每个表情对应的表情系数和目标对象的表情基，生成所述目标对象在每个表情下的三维人脸模型之后，还包括：

采用所述目标对象的纹理图对每个表情下的三维人脸模型进行渲染，得到每个表情下带纹理的三维人脸模型；

所述在播放所述语音信息的过程中，按照所述表情序列中包含的各个所述表情的顺序，依次显示各个所述表情下的三维人脸模型，包括：

在播放所述语音信息的过程中，按照所述表情序列中包含的各个所述表情的顺序，依次显示各个所述表情下带纹理的三维人脸模型。

9.一种三维表情基的生成装置，其特征在于，所述装置包括：

表情基生成模块，用于将所述目标对象的三维人脸模型和标准对象的三维人脸模型进行点云初步对齐；在点云初步对齐后，将所述标准对象的点云贴合到所述目标对象的点云上，得到所述目标对象的低模点云，所述目标对象的低模点云中包含的三维点数量与所述标准对象的点云中包含的三维点数量相同，所述目标对象的低模点云中包含的三维点数量小于所述目标对象的高模点云中包含的三维点数量；根据所述目标对象的低模点云，计算所述目标对象的形状系数和表情系数，其中，所述目标对象的形状系数用于控制所述目标对象的长相，所述目标对象的表情系数用于控制所述目标对象的表情；调整所述目标对象的表情系数，生成所述目标对象的一组表情基。

10.一种语音互动装置，其特征在于，所述装置包括：

图像拍摄模块，用于拍摄获取目标对象在n种头部姿态下的图像对，每个图像对包括一种头部姿态下的RGB图像和深度图像，所述n为正整数；

表情基生成模块，用于根据所述n个图像对，构建所述目标对象的三维人脸模型；将所述目标对象的三维人脸模型和标准对象的三维人脸模型进行点云初步对齐；在点云初步对齐后，将所述标准对象的点云贴合到所述目标对象的点云上，得到所述目标对象的低模点云，所述目标对象的低模点云中包含的三维点数量与所述标准对象的点云中包含的三维点数量相同，所述目标对象的低模点云中包含的三维点数量小于所述目标对象的高模点云中包含的三维点数量；根据所述目标对象的低模点云，计算所述目标对象的形状系数和表情系数，其中，所述目标对象的形状系数用于控制所述目标对象的长相，所述目标对象的表情系数用于控制所述目标对象的表情；调整所述目标对象的表情系数，生成所述目标对象的一组表情基；

模型生成模块，用于对于所述表情序列中的每个表情，根据每个表情对应的表情系数和所述目标对象的表情基，生成所述目标对象在每个表情下的三维人脸模型；

语音播放模块，用于播放所述语音信息；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至6任一项所述的方法，或者实现如权利要求7至8任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至6任一项所述的方法，或者实现如权利要求7至8任一项所述的方法。