CN112150638A

CN112150638A - 虚拟对象形象合成方法、装置、电子设备和存储介质

Info

Publication number: CN112150638A
Application number: CN202010963014.9A
Authority: CN
Inventors: 郭汉奇; 胡天舒; 马明明; 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-29
Anticipated expiration: 2040-09-14
Also published as: JP2021193599A; US20210312685A1; CN112150638B; EP3882861A3; US11645801B2; JP7262540B2; EP3882861A2; KR20210103435A

Abstract

本申请公开了虚拟对象形象合成方法、装置、电子设备和存储介质，涉及人工智能领域，具体为计算机视觉和深度学习技术。实现方案为：提取虚拟对象脸部的第一面部关键点，以及每帧原始嘴型面部图像的第二面部关键点；对虚第一面部关键点进行处理，生成与虚拟对象脸部对应的第一3D面部位置和姿态信息；对每帧原始嘴型面部图像的每个第二面部关键点进行处理，生成与每帧原始嘴型面部图像对应的第二3D面部形状顶点信息；生成与每帧原始嘴型面部图像对应的目标嘴型面部图像；根据虚拟对象形象图像和每帧目标嘴型面部图像，合成与语音片段对应的虚拟对象说话形象片段。由此，将原始嘴型面部图像调整到虚拟对象形象图像的姿态和位置下合并，提高合并后的图像自然度。

Description

虚拟对象形象合成方法、装置、电子设备和存储介质

技术领域

本申请涉及人工智能领域，具体为计算机视觉和深度学习领域，尤其涉及一种虚拟对象形象合成方法、装置、电子设备和存储介质。

背景技术

虚拟对象是结合数字图像及人工智能等多种技术生成人形视频图像，其应用较为广泛的一个领域是虚拟对象语音播报，即使虚拟对象以正常人说话的形式体现说话的嘴型。

相关技术中，提取嘴型图像中的嘴型关键点的坐标关系，根据该坐标关系调整虚拟对象对应的虚拟对象像中，嘴部区域的关键点的坐标，因此，来实现嘴型模拟说话的体现。

然而，上述嘴型模拟说话的融合方式，仅仅在虚拟对象像上仿射嘴部图像的关键点的坐标关系，一方面，同样的坐标关系，虚拟对象像的嘴部和原始的嘴型图像中体现的口型可能并不对应同样的表达语音，另一方面，仅仅在虚拟对象像仿射嘴部图像的关键点的坐标关系，完全丢掉了原始嘴部图像的信息，没有实现图像的融合体现。

发明内容

本申请的第一个目的在于提出一种虚拟对象形象合成方法。

本申请的第二个目的在于提出一种虚拟对象形象合成装置。

本申请的第三个目的在于提出一种电子设备。

本申请的第四个目的在于提出一种存储有计算机指令的非瞬时计算机可读存储介质。

根据第一方面，提供了一种虚拟对象形象合成方法，包括：获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像；提取所述虚拟对象脸部的第一面部关键点，以及每帧所述原始嘴型面部图像的第二面部关键点；根据预设算法对所述第一面部关键点进行处理，生成与所述虚拟对象脸部对应的第一3D面部位置和姿态信息；根据预设算法对每个所述第二面部关键点进行处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部形状顶点信息；根据所述第一3D面部位置和姿态信息和每个所述第二3D面部形状顶点信息，生成与每帧所述原始嘴型面部图像对应的目标嘴型面部图像；根据所述虚拟对象形象图像和每帧所述目标嘴型面部图像，合成与所述语音片段对应的虚拟对象说话形象片段。

根据第二方面，提供了一种虚拟对象形象合成装置，包括：获取模块，用于获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像；提取模块，用于提取所述虚拟对象脸部的第一面部关键点，以及每帧所述原始嘴型面部图像的第二面部关键点；第一生成模块，用于根据预设算法对所述第一面部关键点进行处理，生成与所述虚拟对象脸部对应的第一3D面部位置和姿态信息；第二生成模块，用于根据预设算法对每个所述第二面部关键点进行处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部形状顶点信息；第三生成模块，用于根据所述第一3D面部位置和姿态信息和每个所述第二3D面部形状顶点信息，生成与每帧所述原始嘴型面部图像对应的目标嘴型面部图像；合成模块，用于根据所述虚拟对象形象图像和每帧所述目标嘴型面部图像，合成与所述语音片段对应的虚拟对象说话形象片段。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例描述的虚拟对象形象合成方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述实施例描述的虚拟对象形象合成方法。

上述申请中的实施例具有如下优点或有益效果：

获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像，进而，提取虚拟对象脸部的第一面部关键点，以及每帧原始嘴型面部图像的第二面部关键点，根据预设算法对第一面部关键点进行处理，生成与虚拟对象脸部对应的第一3D面部位置和姿态信息，根据预设算法对每个第二面部关键点进行处理，生成与每帧原始嘴型面部图像对应的第二3D面部形状顶点信息，根据第一3D面部位置和姿态信息和每个第二3D面部形状顶点信息，生成与每帧原始嘴型面部图像对应的目标嘴型面部图像，最后，根据虚拟对象形象图像和每帧目标嘴型面部图像，合成与语音片段对应的虚拟对象说话形象片段。由此，将原始嘴型面部图像调整到虚拟对象形象图像的姿态和位置下合并，提高了合并后的图像自然度，使得合并后的图像可以真实的还原原始嘴型面部图像的说话形象。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的虚拟对象形象合成场景示意图；

图2是根据本申请第二实施例的虚拟对象形象合成方法的流程示意图；

图3是根据本申请第三实施例的虚拟对象形象合成方法的流程示意图；

图4是根据本申请第四实施例的第一3D面部网格模型构建场景示意图；

图5是根据本申请第五实施例的姿态信息示意图；

图6是根据本申请第六实施例的第二3D面部形状顶点信息示意图；

图7是根据本申请第七实施例的虚拟对象形象合成方法的流程示意图；

图8是根据本申请第八实施例的虚拟对象形象合成的场景示意图；

图9是根据本申请第九实施例的虚拟对象形象合成方法的流程示意图；

图10是根据本申请第十实施例的虚拟对象形象合成方法的流程示意图；

图11是根据本申请第十一实施例的虚拟对象形象合成方法的流程示意图；

图12是根据本申请第十二实施例的虚拟对象形象合成装置的结构示意图；

图13是根据本申请第十三实施例的虚拟对象形象合成装置的结构示意图；

图14是根据本申请第十四实施例的虚拟对象形象合成装置的结构示意图；

图15是根据本申请第十五实施例的虚拟对象形象合成装置的结构示意图；

图16是用来实现本申请实施例的虚拟对象形象合成的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了解决背景技术中，虚拟对象的虚拟对象形象图像与原始嘴型图像没有融合体现，以及融合时无法体现原始嘴型图像真正口型的技术问题，本申请中提出了一种实现虚拟对象形象图像与原始嘴型图像的多姿态融合的方式，在本申请中，首先将原始嘴型图像调整到虚拟对象形象图像对应的姿态下，基于统一的姿态进行图像融合，既实现了融合的效果，在人工智能的一种可能的场景中，如图1所示，实现了虚拟对象形象的脸部形象A变化为原始嘴型图像对应的脸部形象B，其中，B的姿态由于根据A的姿态进行了调整，因此，结合计算机视觉相关的处理技术，使得融合效果自然，从而，保证融合后的虚拟对象形象可以真实的反应B在说话时的嘴型。

下面参照附图描述本申请实施例的虚拟对象形象合成方法、装置、电子设备和存储介质。其中，本申请实施例的虚拟对象形象合成方法、装置、电子设备和存储介质，可以应用在人工智能场景下的真人模拟，比如，控制A的虚拟对象形象，以反映B的嘴部形态的形式进行语音显示，由此，实现了融合后的虚拟对象形象不但保留了A的身体姿态，而且反映了B说话时的嘴部形态等。

具体而言，图2是根据本申请一个实施例的虚拟对象形象合成方法的流程图，如图2所示，该方法包括：

步骤101，获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像。

可以理解，本申请实施例中的包括虚拟对象脸部的虚拟对象形象图像，可以是融合场景下的底板图像，虚拟对象形象图像中除了可以包括虚拟对象脸部之外，还可以包括虚拟对象的身体部分等，其中，虚拟对象形象图像可以为人物、动物、甚至风景等图像，在此不作限制。

另外，语音片段对应的多帧原始嘴型面部图像，可以是实时采集人物语音表达该御品片段的视频流，通过提取视频流中的图像帧得到的，也可以是预先根据实验数据多个标准嘴型的对应的多个深度学习模型，该深度学习模型的输入为标准嘴部图像和语音片段，输出为该语音片段对应的多个嘴部图像，因此，在本实施例中，获取一帧当前原始嘴型面部图像，将该当前原始嘴型面部图像的嘴部图像特征与预设的多个标准嘴部图像的嘴部图像特征比对，根据比对结果在预设的多个标准嘴部图像中确定最相似的目标标准嘴部图像，将当前原始嘴型面部图像和对应的语音片段输入目标标准嘴部图像对应的深度学习模型，从而，根据该深度学习模型的输出获取原始嘴型面部图像。由此，这种方式无需实时采集图像，为满足更多场景下的需要提供了技术支持，比如，仅仅获取了用户A的一帧当前原始嘴型面部图像，也可以实现在对应的虚拟对象形象中，体现用户A语音表达对应的语音片段的动画效果。

步骤102，提取虚拟对象脸部的第一面部关键点，以及每帧原始嘴型面部图像的第二面部关键点。

其中，第一面部关键点和第二面部关键点可以理解为对应脸部区域的关键点，该关键点包括眼角、鼻尖、嘴角、下巴等可以限定脸部形状轮廓的多个关键点。

步骤103，根据预设算法对第一面部关键点进行处理，生成与虚拟对象脸部对应的第一3D面部位置和姿态信息。

在本实施例中，为了保证融合效果的自然，采集第一面部关键点的位置和姿态信息，以便于将原始嘴型面部图像统一到该位置和姿态下。

其中，第一3D面部位置包括脸部的关键点在图像中的坐标位置等，姿态信息包括俯仰角，偏航角和翻滚角等。

需要说明的是，在不同的应用场景下，根据预设算法对第一面部关键点进行处理，生成与虚拟对象脸部对应的第一3D面部位置和姿态信息的预设算法不同，示例如下：

示例一：

在本示例中，如图3所示，该根据预设算法对第一面部关键点进行处理，生成与虚拟对象脸部对应的第一3D面部位置和姿态信息的步骤，包括：

步骤301，根据预设的变换参数对第一面部关键点进行坐标转换处理生成第一3D面部网格模型。

在实际执行过程中，将世界坐标系下的面部信息变换到虚拟对象形象图像的转换，与相机的内参和外参有关，因此，本实施例中的变换参数可以理解为相机的内参和外参，或者是反应相机内参和外参的算法参数，其中，对相机的内参和外参的获取可以由张正友的棋盘格标定方法等得到。

在本实施例中，根据预设的变换参数对第一面部关键点进行坐标转换处理生成第一3D面部网格模型，即如图4所示，将二维的第一面部关键点还原得到三维的第一3D面部网格模型。

步骤302，从第一3D面部网格模型提取与虚拟对象脸部对应的第一3D面部位置和姿态信息，其中，姿态信息包括：俯仰角，偏航角和翻滚角。

在本实施例中，在三维的第一3D面部网格模型中，提取与虚拟对象脸部对应的第一3D面部位置和姿态信息，以实现对第一3D面部网格模型的多姿态的把握，其中，如图5所示，姿态信息包括pitch，yaw和roll三个欧拉角，分别为俯仰角、偏航角和翻滚角，其中，可以根据旋转矩阵求解俯仰角、偏航角和翻滚角，具体而言，假设物体相对于相机的空间位置关系矩阵，用T表示，物体相对于相机的空间姿态关系矩阵，用R表示，根据R和T计算出像素坐标系到世界坐标系下的旋转矩阵，根据该旋转矩阵、第一面部关键点的二维坐标和三维坐标的转换计算，即可得到上述姿态信息。

示例二：

在本示例中，向虚拟对象脸部投射结构光，获取经过虚拟对象脸部调制后的结构光图像，进而，对结构光图像解调得到与虚拟对象脸部的第一面部关键点对应的深度信息，基于该深度信息和第一面部关键点的坐标信息可以构建得到第一面部关键点对应的第一3D面部网格模型，从而，通过对第一3D面部网格模型的模型分析可以得到对应的姿态信息，比如，预先构建3D坐标系(包括x,y,z三个方向)，将该第一3D面部网格模型放置到该坐标系下进行姿态信息的采集(读取在x,y,z三个方向下的三个位移作为姿态信息)。

步骤104，根据预设算法对每个第二面部关键点进行处理，生成与每帧原始嘴型面部图像对应的第二3D面部形状顶点信息。

其中，第二3D面部形状顶点信息可以理解为如图6所示的，可以限定原始嘴型面部图像对应的轮廓信息，该轮廓信息除了包括脸型轮廓还包括无关的形状轮廓和相对位置等，也可以理解，基于第二3D面部形状顶点信息可以得到原始嘴型面部图像中面部的线条图。

在本实施例中，为了在虚拟对象形象图像中能够呈现原始嘴型面部图像的信息，获取每帧原始嘴型面部图像对应的第二3D面部形状顶点信息，以便于实现虚拟对象形象图像的脸部呈现原始嘴型面部图像的面部形象。

需要说明的是，在不同的场景下，根据预设算法对每个第二面部关键点进行处理，生成与每帧原始嘴型面部图像对应的第二3D面部形状顶点信息的方式不同，示例如下：

示例一：

在本示例中，为了更精确的提取到第二3D面部形状顶点信息，在3D模型下确定对应的第二3D面部形状顶点信息。

如图7所示，该根据预设算法对每个第二面部关键点进行处理，生成与每帧原始嘴型面部图像对应的第二3D面部形状顶点信息，包括：

步骤701，根据预设的变换参数对每个第二面部关键点进行坐标转换处理，生成与每帧原始嘴型面部图像对应的第二3D面部网格模型。

在实际执行过程中，将世界坐标系下的面部信息变换到原始嘴型面部图像的转换，与相机的内参和外参有关，因此，本实施例中的变换参数可以理解为相机的内参和外参，或者是反应相机内参和外参的算法参数，其中，对相机的内参和外参的获取可以由张正友的棋盘格标定方法等得到。

在本实施例中，根据预设的变换参数对每个第二面部关键点进行坐标转换处理生成第二3D面部网格模型，将二维的第二面部关键点还原得到三维的第二3D面部网格模型。

步骤702，从每个第二3D面部网格模型提取第二3D面部形状顶点信息。

在本实施例中，从每个第二3D面部网格模型提取第二3D面部形状顶点信息，比如，根据第二3D面部网格模型的深度信息，确定具有明显阶跃的点为第二3D面部形状顶点，将该点的坐标信息等作为第二3D面部形状顶点信息。

示例二：

在本示例中，将每帧原始嘴型面部图像转换成二值图像，在二值图像中标注对应的第二面部关键点，进而，根据第二面部关键点去除二值图像中的噪音干扰轮廓线，即将不包含第二面部关键点的轮廓线去除，之后，在剩余的轮廓线中采样关键点得到第二3D面部形状顶点，可以计算剩余的轮廓线中每个采样关键点与左右相邻关键点之间的斜率差，将斜率差均大于一定值的采样关键点确定为第二3D面部形状顶点。

步骤105，根据第一3D面部位置和姿态信息和每个第二3D面部形状顶点信息，生成与每帧原始嘴型面部图像对应的目标嘴型面部图像。

在本实施例中，控制每个第二3D面部形状顶点信息根据第一3D面部位置和姿态信息进行位置的调整，进而，生成与每帧原始嘴型面部图像对应的目标嘴型面部图像，目标嘴型面部图像的姿态和位置和对应的虚拟对象形象图像已经对齐。

举例而言，如图8所示，假如虚拟对象形象图像A的第一3D面部位置和姿态信息为图中所示(图中所示的是二维形式的展现)，则对原始嘴型面部B的每个第二3D面部形状顶点信息调整后，得到与第一3D面部位置和姿态信息一致的目标嘴型面部B。

步骤106，根据虚拟对象形象图像和每帧目标嘴型面部图像，合成与语音片段对应的虚拟对象说话形象片段。

在获取了每帧目标嘴型面部图像后，根据虚拟对象形象图像和每帧目标嘴型面部图像进行合并，由于已经在三维角度将虚拟对象形象图像和每帧目标嘴型面部图像对齐，因而，可以在虚拟对象形象图像中渲染出与目标嘴型面部图像的嘴型完全相同的面部图像，显然，虚拟对象形象图像和每帧目标嘴型面部图像后，可以得到与语音片段对应的虚拟对象说话形象片段。

当然，在合并虚拟对象形象图像和每帧目标嘴型面部图像之前，还可以将每帧目标嘴型面部图像进行尺寸调整，以实现与虚拟对象形象图像的面部区域的尺寸一致。

在一些可能的示例中，将每帧目标嘴型面部图像经过射影变换，实现在虚拟对象形象图像的位置和姿态下，对每帧目标嘴型面部图像对应的第二3D面部形状顶点信息的二维投影，在实际融合过程中，可以改变虚拟对象形象图像中与第二3D面部形状顶点信息的重合点的透明度，从而，实现了二者的融合。比如，对于目标嘴型面部图像的五官轮廓线对应的重合点，将其的像素透明度设置为100％，从而，可以使得合成后的虚拟对象形象图像体现了目标嘴型面部图像的五官，比如，对于目标嘴型面部图像的五官轮廓线之外的重合点，可以将其像素透明度设置为0，从而，可以使得合成后的虚拟对象形象图像体现了虚拟对象形象图像的肤色信息，其中，对合成后的虚拟对象形象图像的五官轮廓区域的像素透明度，也设置为100％，从而保证了合成后的虚拟对象形象图像的纯净度。

在另一些可能的实施例中，直接将虚拟对象形象图像中的面部区域替换为目标嘴型面部图像中的面部区域来实现合并。

综上，本申请实施例的虚拟对象形象合成方法，获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像，进而，提取虚拟对象脸部的第一面部关键点，以及每帧原始嘴型面部图像的第二面部关键点，根据预设算法对第一面部关键点进行处理，生成与虚拟对象脸部对应的第一3D面部位置和姿态信息，根据预设算法对每个第二面部关键点进行处理，生成与每帧原始嘴型面部图像对应的第二3D面部形状顶点信息，根据第一3D面部位置和姿态信息和每个第二3D面部形状顶点信息，生成与每帧原始嘴型面部图像对应的目标嘴型面部图像，最后，根据虚拟对象形象图像和每帧目标嘴型面部图像，合成与语音片段对应的虚拟对象说话形象片段。由此，将原始嘴型面部图像调整到虚拟对象形象图像的姿态和位置下合并，提高了合并后的图像自然度，使得合并后的图像可以真实的还原原始嘴型面部图像的说话形象。

应当理解的是，目标嘴型面部图像还原了虚拟对象脸部的姿态和位置，比如，虚拟对象脸部是侧头，则无论原始嘴型面部图像中的面部区域的姿态是什么，均为转换为相同的侧头动作对应的目标嘴型面部图像。

在不同的应用场景中，根据第一3D面部位置和姿态信息和每个第二3D面部形状顶点信息，生成与每帧原始嘴型面部图像对应的目标嘴型面部图像的方式不同:

在一些可能的实施例中，根据预设的转换算法对第一3D面部位置和姿态信息和每个第二3D面部形状顶点信息分别进行射影变换，生成与每帧原始嘴型面部图像对应的第一目标嘴型面部图像。

可以理解，在本实施例中，预先构建可以实现面部位置和姿态信息与坐标点信息的转换的转换算法，基于该预设的转换算法对第一3D面部位置和姿态信息和每个第二3D面部形状顶点信息分别进行射影变换，即将3D空间的第二3D面部形状顶点信息通过虚拟对象脸部的姿态投影至2D图片空间，得到新的嘴型面部图片作为第一目标嘴型面部图像。

当然，得到的第一目标嘴型面部图像的纹理是空白的，需要对齐渲染纹理得到完整的目标嘴型面部图像，比如，直接采样得到虚拟对象脸部的纹理信息，根据该纹理信息渲染第一目标嘴型面部图像，渲染后的目标嘴型面部图像与虚拟对象脸部更为贴近。

又比如，如图9所示，对第一目标嘴型面部图像纹理渲染包括的步骤为：

步骤901，根据预设算法对每个第二面部关键点进行处理，生成与每帧原始嘴型面部图像对应的第二3D面部位置和姿态信息。

本实施例中，对第二3D面部位置和姿态信息的获取方式，可以参照上述对第一3D面部位置和姿态信息的获取方式，在此不再赘述。

步骤902，根据预设的投影变换算法从每帧原始嘴型面部图像中，获取与相关第二3D面部位置和姿态信息对应位置的纹理信息。

本实施例中，在获取第二3D面部位置和姿态信息后，可以在每帧原始嘴型面部图像中寻找到与第二3D面部位置和姿态信息对应的位置的纹理信息，比如，第二3D面部位置和姿态信息对应位置为“鼻头”，则在原始嘴型面部图像中寻找到与“鼻头”对应的纹理信息。

其中，可以根据预设的投影变换方法，获取第一3D面部位置和姿态信息投影到二维图像后，在每帧原始嘴型面部图像中对应的像素点，将对应的像素点组成的区域作为第二3D面部位置和姿态信息对应位置的纹理信息。

步骤903，根据对应位置的纹理信息对每帧第一目标嘴型面部图像进行纹理渲染，生成与每帧原始嘴型面部图像对应的第二目标嘴型面部图像。

在三维角度获取到纹理信息后，可以将纹理信息对应的第二3D面部位置和姿态信息，与每帧第一目标嘴型面部图像对应的第二3D面部网格模型的位置和姿态信息匹配，确定第二3D面部网格模型每个区域的纹理信息，进而，确定每个区域在每帧第一目标嘴型面部图像中的对应区域，将对应的纹理信息作为对应区域的纹理信息，对每帧第一目标嘴型面部图像进行纹理渲染，生成与每帧原始嘴型面部图像对应的第二目标嘴型面部图像。

在另一些可能的实施例中，根据预设的变换参数对每个第二面部关键点进行坐标转换处理，生成与每帧原始嘴型面部图像对应的第二3D面部网格模型后，根据第一3D面部位置和姿态信息调整第二3D面部网格模型的位置和姿态信息，进而，将调整后的第二3D面部网格模型中的第二3D面部形状顶点信息投影，得到对应的第一目标嘴型面部图像，其中，对第一目标嘴型面部图像的纹理渲染以生成第二目标嘴型面部图像的过程可以参照上述实施例。

还可以根据第二3D面部形状顶点信息的投影坐标进行采样，得到在原始嘴型面部图像中的顶点对应的纹理值，也即该顶点经过新的姿态投影变换对应的2D平面位置纹理值。顶点之间的区域渲染，采用双线性插值计算相应点的坐标并采样纹理渲染。重复上述过程即可完成整张新最新面部的图片的渲染，得到第二目标嘴型面部图像。

综上，本申请实施例的虚拟对象形象合成方法，一方面，根据虚拟对象脸部的虚拟对象形象图像对原始嘴型面部图像的姿态调整，避免了合成后的图像的自然度，另一方面，根据虚拟对象脸部的三维姿态来调整原始嘴型面部图像，避免了合成的图像的畸形感。

在对虚拟对象形象图像和每帧目标嘴型面部图像合成时，如仅仅如上述实施例所描述的直接进行合成，则可能目标嘴型面部图像的纹理与虚拟对象形象中的原始纹理有明显的分界感，因此，还需要对二者的纹理进行融合。

在本申请的一个实施例中，如图10所示，根据虚拟对象形象图像和每帧目标嘴型面部图像，合成与语音片段对应的虚拟对象说话形象片段，包括：

步骤1001，生成与每帧目标嘴型面部图像对应的下半脸掩码。

在本实施例中，生成与每帧目标嘴型面部图像对应的下半脸掩码，以保证每帧目标嘴型面部图像的嘴部图像的保留。

在本申请的一个实施例中，对每帧目标嘴型面部图像进行边缘检测获取面部边缘点，连接面部边缘点构成一个封闭区域并填充固定值获取全脸掩码，该固定值可以为任意像素值，比如，可以为“1”等，进而，以鼻梁中心关键点为参考截取从全脸掩码截取下半脸掩码。其中，鼻梁中心关键点可以理解为鼻尖区域的中心点。

步骤1002，根据下半脸掩码按照预设的第一融合算法对虚拟对象形象图像和每帧目标嘴型面部图像进行融合处理，生成多帧第一融合图像。

在本实施例中，根据下半脸掩码按照预设的第一融合算法对虚拟对象形象图像和每帧目标嘴型面部图像进行融合处理，生成多帧第一融合图像，其中，第一融合算法可以为泊松融合算法，可以为Alpha算法等，在此不作限制。

步骤1003，根据多帧第一融合图像合成与语音片段对应的虚拟对象说话形象片段。

由于第一融合图像中下半脸区域根据下半脸掩码融合，因此保留了目标嘴型面部图像下半脸的轮廓信息，第一融合算法可以实现目标嘴型面部图像与虚拟对象形象图像的纹理融合，根据多帧第一融合图像合成与语音片段对应的虚拟对象说话形象片段中，不但保留了目标嘴型面部图像的嘴型信息，而且合成后的纹理分界不明显，融合效果比较自然。

为了进一步提高融合的自然，在本申请的一个实施例中，还可以在生成与每帧目标嘴型面部图像对应的第一融合图像之后，生成与每帧目标嘴型面部图像对应的嘴部区域掩码，其中，可以提取每帧目标嘴型面部图像的嘴部外沿关键点，连接每个嘴部外沿关键点构成封闭区域并填充固定值生成初始掩码，其中该固定值可以为1等，对初始掩码进行高斯滤波获取每帧目标嘴型面部图像对应的嘴部区域掩码。

进一步的，根据嘴部区域掩码按照预设的第二融合算法对虚拟对象形象图像和每帧第一融合图像进行融合处理，生成多帧第二融合图像，其中，第二融合算法可以为泊松融合算法，可以为Alpha算法等，在此不作限制。

根据多帧第二融合图像合成与语音片段对应的虚拟对象说话形象片段。由于第二融合图像中嘴部区域根据嘴部掩码融合，因此保留了目标嘴型面部图像嘴部轮廓信息，第一融合算法可以实现目标嘴型面部图像与虚拟对象形象图像的纹理融合，根据多帧第二融合图像合成与语音片段对应的虚拟对象说话形象片段中，不但保留了目标嘴型面部图像的嘴型信息，进一步融合了二者的纹理，提高了融合后的显示效果。

为了使得本领域的技术人员更清楚的理解本申请的虚拟对象形象合成方法，下面结合具体的场景进行描述，其中，在该场景中，第一融合算法为泊松融合算法，第二融合算法为Alpha算法。

参照图11(图中以一帧原始嘴型面部图像为例)，获取虚拟对象脸部的虚拟对象形象图像的第一3D面部位置和姿态信息，以及原始嘴型面部图像的第二3D面部形状顶点信息、第二3D面部位置和姿态信息。

进而，根据第一3D面部位置和姿态信息和第二3D面部形状顶点信息，对第二3D面部形状顶点信息进行射影变换等，生成与每帧原始嘴型面部图像对应的第一目标嘴型面部图像，此时生成的第一目标嘴型面部图像是2D的图像。

在得到2D的图像后，根据第二3D面部位置和姿态信息对第一目标嘴型面部图像进行纹理渲染，得到第二目标嘴型面部图像，首先，根据半脸掩码对第二目标嘴型面部图像和虚拟对象形象图像进行泊松融合得到第一融合图像，其次，根据嘴部掩码对第一融合图像和虚拟对象形象图像进行Alpha融合得到第二融合图像，该第二融合图像可以看作为最终的融合图像，基于多帧第二融合图像可以得到与语音片段对应的虚拟对象说话形象片段。

综上，本申请实施例的虚拟对象形象合成方法，在合并虚拟对象形象图像和每帧目标嘴型面部图像时，兼顾了对每帧目标嘴型面部图像的口型的保留以及融合的纹理自然度，保证了融合后的图像的自然度。

为了实现上述实施例，本申请还提出了一种虚拟对象形象合成装置。图12是根据本申请一个实施例的虚拟对象形象合成装置的结构示意图，如图12所示，该虚拟对象形象合成装置包括：获取模块1210、提取模块1220、第一生成模块1230、第二生成模块1240、第三生成模块1250和合成模块1260，其中，

获取模块1210，用于获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像；

提取模块1220，用于提取所述虚拟对象脸部的第一面部关键点，以及每帧所述原始嘴型面部图像的第二面部关键点；

第一生成模块1230，用于根据预设算法对所述第一面部关键点进行处理，生成与所述虚拟对象脸部对应的第一3D面部位置和姿态信息；

第二生成模块1240，用于根据预设算法对每个所述第二面部关键点进行处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部形状顶点信息；

第三生成模块1250，用于根据所述第一3D面部位置和姿态信息和每个所述第二3D面部形状顶点信息，生成与每帧所述原始嘴型面部图像对应的目标嘴型面部图像；

合成模块1260，用于根据所述虚拟对象形象图像和每帧所述目标嘴型面部图像，合成与所述语音片段对应的虚拟对象说话形象片段。

在本申请的一个实施例中，第一生成模块1230，具体用于：

根据预设的变换参数对所述第一面部关键点进行坐标转换处理生成第一3D面部网格模型；

从所述第一3D面部网格模型提取与所述虚拟对象脸部对应的第一3D面部位置和姿态信息，其中，所述姿态信息包括：俯仰角，偏航角和翻滚角。

在本申请的一个实施例中，所述第二生成模块1240，具体用于：

根据预设的变换参数对每个所述第二面部关键点进行坐标转换处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部网格模型；

从每个所述第二3D面部网格模型提取第二3D面部形状顶点信息。

需要说明的是，前述对虚拟对象形象合成方法的解释说明，也适用于本发明实施例的虚拟对象形象合成装置，其实现原理类似，在此不再赘述。

综上，本申请实施例的虚拟对象形象合成装置，获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像，进而，提取虚拟对象脸部的第一面部关键点，以及每帧原始嘴型面部图像的第二面部关键点，根据预设算法对第一面部关键点进行处理，生成与虚拟对象脸部对应的第一3D面部位置和姿态信息，根据预设算法对每个第二面部关键点进行处理，生成与每帧原始嘴型面部图像对应的第二3D面部形状顶点信息，根据第一3D面部位置和姿态信息和每个第二3D面部形状顶点信息，生成与每帧原始嘴型面部图像对应的目标嘴型面部图像，最后，根据虚拟对象形象图像和每帧目标嘴型面部图像，合成与语音片段对应的虚拟对象说话形象片段。由此，将原始嘴型面部图像调整到虚拟对象形象图像的姿态和位置下合并，提高了合并后的图像自然度，使得合并后的图像可以真实的还原原始嘴型面部图像的说话形象。

在一些可能的实施例中，第三生成模块1250，具体用于：

根据预设的转换算法对所述第一3D面部位置和姿态信息和每个所述第二3D面部形状顶点信息分别进行射影变换，生成与每帧所述原始嘴型面部图像对应的第一目标嘴型面部图像。

在本申请的一个实施例中，如图13所示，在如图12所示的基础上，第三生成模块1250包括：第一生成单元1251、获取单元1252、第二生成单元1253，其中，

第一生成单元1251，用于根据预设算法对每个所述第二面部关键点进行处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部位置和姿态信息；

获取单元1252，用于根据预设的投影变换算法从每帧所述原始嘴型面部图像中，获取与相关所述第二3D面部位置和姿态信息对应位置的纹理信息；

第二生成单元1253，用于根据所述对应位置的纹理信息对每帧所述第一目标嘴型面部图像进行纹理渲染，生成与每帧所述原始嘴型面部图像对应的第二目标嘴型面部图像。

综上，本申请实施例的虚拟对象形象合成装置，一方面，根据虚拟对象脸部的虚拟对象形象图像对原始嘴型面部图像的姿态调整，避免了合成后的图像的自然度，另一方面，根据虚拟对象脸部的三维姿态来调整原始嘴型面部图像，避免了合成的图像的畸形感。

在本申请的一个实施例中，如图14所示，在如图12所示的基础上，合成模块1260包括：第三生成单元1261、第四生成单元1262和第一合成单元1263，其中，

第三生成单元1261，用于生成与每帧所述目标嘴型面部图像对应的下半脸掩码；

第四生成单元1262，用于根据所述下半脸掩码按照预设的第一融合算法对所述虚拟对象形象图像和每帧所述目标嘴型面部图像进行融合处理，生成多帧第一融合图像；

第一合成单元1263，用于根据多帧所述第一融合图像合成与所述语音片段对应的虚拟对象说话形象片段。

在本申请的一个实施例中，第三生成单元，具体用于：

对每帧所述目标嘴型面部图像进行边缘检测获取面部边缘点；

连接所述面部边缘点构成一个封闭区域并填充固定值获取全脸掩码；

以鼻梁中心关键点为参考截取从所述全脸掩码截取下半脸掩码。

在本申请的一个实施例中，如图15所示，在如图12所示的基础上，合成模块1260包括：第五生成单元1264、第六生成单元1265和第二合成单元1266，其中，

第五生成单元1264，用于生成与每帧所述目标嘴型面部图像对应的嘴部区域掩码；

第六生成单元1265，用于根据所述嘴部区域掩码按照预设的第二融合算法对所述虚拟对象形象图像和每帧所述第一融合图像进行融合处理，生成多帧第二融合图像；

所述第二合成单元1266，还用于根据多帧所述第二融合图像合成与所述语音片段对应的虚拟对象说话形象片段。

在本申请的一个实施例中，第五生成单元1264，具体用于：

提取每帧所述目标嘴型面部图像的嘴部外沿关键点；

连接每个所述嘴部外沿关键点构成封闭区域并填充固定值生成初始掩码；

对所述初始掩码进行高斯滤波获取每帧所述目标嘴型面部图像对应的嘴部区域掩码。

综上，本申请实施例的虚拟对象形象合成装置，在合并虚拟对象形象图像和每帧目标嘴型面部图像时，兼顾了对每帧目标嘴型面部图像的口型的保留以及融合的纹理自然度，保证了融合后的图像的自然度。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图16所示，是根据本申请实施例的虚拟对象形象合成的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图16所示，该电子设备包括：一个或多个处理器1601、存储器1602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图16中以一个处理器1601为例。

存储器1602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的虚拟对象形象合成的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的虚拟对象形象合成的方法。

存储器1602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的虚拟对象形象合成的方法对应的程序指令/模块(。处理器1601通过运行存储在存储器1602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的虚拟对象形象合成的方法。

存储器1602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据虚拟对象形象合成的电子设备的使用所创建的数据等。此外，存储器1602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1602可选包括相对于处理器1601远程设置的存储器，这些远程存储器可以通过网络连接至虚拟对象形象合成的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

虚拟对象形象合成的方法的电子设备还可以包括：输入装置1603和输出装置1604。处理器1601、存储器1602、输入装置1603和输出装置1604可以通过总线或者其他方式连接，图16中以通过总线连接为例。

输入装置1603可接收输入的数字或字符信息，以及产生与虚拟对象形象合成的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像，进而，提取虚拟对象脸部的第一面部关键点，以及每帧原始嘴型面部图像的第二面部关键点，根据预设算法对第一面部关键点进行处理，生成与虚拟对象脸部对应的第一3D面部位置和姿态信息，根据预设算法对每个第二面部关键点进行处理，生成与每帧原始嘴型面部图像对应的第二3D面部形状顶点信息，根据第一3D面部位置和姿态信息和每个第二3D面部形状顶点信息，生成与每帧原始嘴型面部图像对应的目标嘴型面部图像，最后，根据虚拟对象形象图像和每帧目标嘴型面部图像，合成与语音片段对应的虚拟对象说话形象片段。由此，将原始嘴型面部图像调整到虚拟对象形象图像的姿态和位置下合并，提高了合并后的图像自然度，使得合并后的图像可以真实的还原原始嘴型面部图像的说话形象。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种虚拟对象形象合成方法，包括：

获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像；

提取所述虚拟对象脸部的第一面部关键点，以及每帧所述原始嘴型面部图像的第二面部关键点；

根据预设算法对所述第一面部关键点进行处理，生成与所述虚拟对象脸部对应的第一3D面部位置和姿态信息；

根据预设算法对每个所述第二面部关键点进行处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部形状顶点信息；

根据所述第一3D面部位置和姿态信息和每个所述第二3D面部形状顶点信息，生成与每帧所述原始嘴型面部图像对应的目标嘴型面部图像；

根据所述虚拟对象形象图像和每帧所述目标嘴型面部图像，合成与所述语音片段对应的虚拟对象说话形象片段。

2.如权利要求1所述的方法，其中，所述根据预设算法对所述第一面部关键点进行处理，生成与所述虚拟对象脸部对应的第一3D面部位置和姿态信息，包括：

3.如权利要求1所述的方法，其中，所述根据预设算法对每个所述第二面部关键点进行处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部形状顶点信息，包括：

4.如权利要求1所述的方法，其中，所述根据所述第一3D面部位置和姿态信息和每个所述第二3D面部形状顶点信息，生成与每帧所述原始嘴型面部图像对应的目标嘴型面部图像，包括：

5.如权利要求4所述的方法，在所述生成与每帧所述原始嘴型面部图像对应的第一目标嘴型面部图像之后，还包括：

根据预设算法对每个所述第二面部关键点进行处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部位置和姿态信息；

根据预设的投影变换算法从每帧所述原始嘴型面部图像中，获取与相关所述第二3D面部位置和姿态信息对应位置的纹理信息；

根据所述对应位置的纹理信息对每帧所述第一目标嘴型面部图像进行纹理渲染，生成与每帧所述原始嘴型面部图像对应的第二目标嘴型面部图像。

6.如权利要求1所述的方法，其中，所述根据所述虚拟对象形象图像和每帧所述目标嘴型面部图像，合成与所述语音片段对应的虚拟对象说话形象片段，包括：

生成与每帧所述目标嘴型面部图像对应的下半脸掩码；

根据所述下半脸掩码按照预设的第一融合算法对所述虚拟对象形象图像和每帧所述目标嘴型面部图像进行融合处理，生成多帧第一融合图像；

根据多帧所述第一融合图像合成与所述语音片段对应的虚拟对象说话形象片段。

7.如权利要求6所述的方法，其中，所述生成与每帧所述目标嘴型面部图像对应的下半脸掩码，包括：

8.如权利要求6所述的方法，在所述生成与每帧所述目标嘴型面部图像对应的第一融合图像之后，还包括：

生成与每帧所述目标嘴型面部图像对应的嘴部区域掩码；

根据所述嘴部区域掩码按照预设的第二融合算法对所述虚拟对象形象图像和每帧所述第一融合图像进行融合处理，生成多帧第二融合图像；

根据多帧所述第二融合图像合成与所述语音片段对应的虚拟对象说话形象片段。

9.如权利要求8所述的方法，其中，所述生成与每帧所述目标嘴型面部图像对应的嘴部区域掩码，包括：

提取每帧所述目标嘴型面部图像的嘴部外沿关键点；

10.一种虚拟对象形象合成装置，包括：

获取模块，用于获取包括虚拟对象脸部的虚拟对象形象图像，以及与语音片段对应的多帧原始嘴型面部图像；

提取模块，用于提取所述虚拟对象脸部的第一面部关键点，以及每帧所述原始嘴型面部图像的第二面部关键点；

第一生成模块，用于根据预设算法对所述第一面部关键点进行处理，生成与所述虚拟对象脸部对应的第一3D面部位置和姿态信息；

第二生成模块，用于根据预设算法对每个所述第二面部关键点进行处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部形状顶点信息；

第三生成模块，用于根据所述第一3D面部位置和姿态信息和每个所述第二3D面部形状顶点信息，生成与每帧所述原始嘴型面部图像对应的目标嘴型面部图像；

合成模块，用于根据所述虚拟对象形象图像和每帧所述目标嘴型面部图像，合成与所述语音片段对应的虚拟对象说话形象片段。

11.如权利要求10所述的装置，其中，所述第一生成模块，具体用于：

12.如权利要求11所述的装置，其中，所述第二生成模块，具体用于：

13.如权利要求10所述的装置，其中，所述第三生成模块，具体用于：

14.如权利要求13所述的装置，其中，所述第三生成模块，包括：

第一生成单元，用于根据预设算法对每个所述第二面部关键点进行处理，生成与每帧所述原始嘴型面部图像对应的第二3D面部位置和姿态信息；

获取单元，用于根据预设的投影变换算法从每帧所述原始嘴型面部图像中，获取与相关所述第二3D面部位置和姿态信息对应位置的纹理信息；

第二生成单元，用于根据所述对应位置的纹理信息对每帧所述第一目标嘴型面部图像进行纹理渲染，生成与每帧所述原始嘴型面部图像对应的第二目标嘴型面部图像。

15.如权利要求10所述的装置，其中，所述合成模块，包括：

第三生成单元，用于生成与每帧所述目标嘴型面部图像对应的下半脸掩码；

第四生成单元，用于根据所述下半脸掩码按照预设的第一融合算法对所述虚拟对象形象图像和每帧所述目标嘴型面部图像进行融合处理，生成多帧第一融合图像；

第一合成单元，用于根据多帧所述第一融合图像合成与所述语音片段对应的虚拟对象说话形象片段。

16.如权利要求15所述的装置，其中，所述第三生成单元，具体用于：

17.如权利要求10所述的装置，其中，所述合成模块，还包括：

第五生成单元，用于生成与每帧所述目标嘴型面部图像对应的嘴部区域掩码；

第六生成单元，用于根据所述嘴部区域掩码按照预设的第二融合算法对所述虚拟对象形象图像和每帧所述第一融合图像进行融合处理，生成多帧第二融合图像；

所述第二合成单元，还用于根据多帧所述第二融合图像合成与所述语音片段对应的虚拟对象说话形象片段。

18.如权利要求17所述的装置，其中，所述第五生成单元，具体用于：

提取每帧所述目标嘴型面部图像的嘴部外沿关键点；

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的虚拟对象形象合成方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的虚拟对象形象合成方法。