CN112465935A

CN112465935A - 虚拟形象合成方法、装置、电子设备和存储介质

Info

Publication number: CN112465935A
Application number: CN202011301793.2A
Authority: CN
Inventors: 李林; 何山; 胡金水; 殷兵; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-03-09

Abstract

本发明提供一种虚拟形象合成方法、装置、电子设备和存储介质，其中方法包括：确定待合成的语音数据的语音特征，以及与所述语音特征相对应的面部表情特征；对所述语音特征和所述面部表情特征进行融合，基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频。本发明提供的方法、装置、电子设备和存储介质，对语音特征和面部表情特征进行融合，基于融合所得的特征合成虚拟形象视频，面部表情特征的应用使得合成虚拟形象的表情能够趋向于一致稳定，语音特征的应用降低面部表情特征的准确性对于虚拟形象合成准确性的影响，为虚拟形象合成提供更多口唇细节信息。从而保证虚拟形象视频中虚拟形象的表情能够自然匹配语音数据。

Description

虚拟形象合成方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种虚拟形象合成方法、装置、电子设备和存储介质。

背景技术

虚拟形象是随着语音合成技术、视频生成技术发展而来的新的交互展示媒介，能够极大提升人机交互自然度和体验感。

目前虚拟形象的合成方法多是直接根据语音特征生成虚拟形象的口型区域图像，从而实现语音和口型的同步对应。但是由于语音和口型之间的映射关系不唯一，生成结果并不稳定，由此合成的虚拟形象在输出语音时，其对应的表情往往不够逼真自然，用户体验较差。

发明内容

本发明提供一种虚拟形象合成方法、装置、电子设备和存储介质，用以解决现有的虚拟形象在输出语音时对应的表情不够逼真、自然的问题。

本发明提供一种虚拟形象合成方法，包括：

确定待合成的语音数据的语音特征，以及与所述语音特征相对应的面部表情特征；

对所述语音特征和所述面部表情特征进行融合，基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频。

根据本发明提供一种的虚拟形象合成方法，所述对所述语音特征和所述面部表情特征进行融合，包括：

基于融合权重对所述语音特征和所述面部表情特征进行加权融合，所述融合权重是基于所述语音特征确定的。

根据本发明提供一种的虚拟形象合成方法，所述基于融合权重对所述语音特征和所述面部表情特征进行加权融合，包括：

对所述语音特征进行特征提取，得到所述融合权重以及语音特征图；

对所述面部表情特征进行特征提取，得到与所述语音特征图相同维度的表情特征图；

基于所述融合权重，对所述语音特征图和所述表情特征图进行加权求和。

根据本发明提供一种的虚拟形象合成方法，所述基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频，包括：

对虚拟形象掩膜图像进行特征编码，得到掩膜图像特征；

基于所述掩膜图像特征与融合所得的特征，确定整体形象特征；

对所述整体形象特征进行特征解码，得到所述虚拟形象视频。

根据本发明提供一种的虚拟形象合成方法，所述对所述语音特征和所述面部表情特征进行融合，基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频，包括：

将所述语音特征和所述面部表情特征输入至形象合成模型，得到所述形象合成模型输出的所述虚拟形象视频；

其中，所述形象合成模型是基于样本语音特征及其相对应的样本面部表情特征，以及形象判别模型训练得到的，所述形象判别模型用于区分虚拟形象和真实形象。

根据本发明提供一种的虚拟形象合成方法，所述与所述语音特征相对应的面部表情特征是基于如下步骤确定的：

将所述语音特征输入至表情映射模型，得到所述表情映射模型输出的与所述语音特征相对应的面部表情特征；

其中，所述表情映射模型是基于样本语音特征及其相对应的样本面部表情特征训练得到的，所述样本面部表情特征是基于样本三维人脸模型确定的，所述样本三维人脸模型是基于真实人脸视频构建的。

根据本发明提供一种的虚拟形象合成方法，所述面部表情特征包括人脸表情参数和/或口唇关键点坐标；

所述表情映射模型的损失函数是基于预测人脸表情参数与样本人脸表情参数之差，和/或预测口唇关键点坐标与样本口唇关键点坐标之差确定的；

所述预测人脸表情参数和所述预测口唇关键点坐标是所述表情映射模型基于所述样本语音特征确定的。

本发明还提供一种虚拟形象合成装置，包括：

特征获取单元，用于确定待合成的语音数据的语音特征，以及与所述语音特征相对应的面部表情特征；

融合生成单元，用于对所述语音特征和所述面部表情特征进行融合，基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述虚拟形象合成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述虚拟形象合成方法的步骤。

本发明提供的虚拟形象合成方法、装置、电子设备和存储介质，对语音特征和面部表情特征进行融合，基于融合所得的特征合成虚拟形象视频，面部表情特征的应用使得合成虚拟形象的表情能够趋向于一致稳定，语音特征的应用降低面部表情特征的准确性对于虚拟形象合成准确性的影响，为虚拟形象合成提供更多口唇细节信息。从而保证虚拟形象视频中虚拟形象的表情能够自然匹配语音数据。此外，由于面部表情特征本身可编辑的特征，使得基于面部表情特征得到的虚拟形象视频中虚拟形象的表情可控可编辑，有助于优化虚拟形象合成的体验感。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的虚拟形象合成方法的流程示意图之一；

图2是本发明提供的特征融合方法的流程示意图；

图3是本发明提供的虚拟形象合成方法的流程示意图之二；

图4是本发明提供的形象合成模型的流程示意图；

图5是本发明提供的样本面部表情特征的获取方法流程示意图；

图6是本发明提供的虚拟形象合成装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前虚拟形象的合成可以直接根据语音特征生成虚拟形象的口型区域图像，然而由于语音和口型之间的映射关系不唯一，生成结果并不稳定，特别是在静默时段会存在虚拟形象的唇形不能闭合甚至随机张闭的问题，此外由此合成的虚拟形象的唇形并不可控。虚拟形象的合成还可以通过语音特征预测面部表情特征，并基于预测得到面部表情特征驱动虚拟形象的面部表情变化，然而上述方法极其依赖面部表情特征的精度，如果面部表情特征预测不准，会直接影响虚拟形象的合成效果，另外由于面部表情特征本身的稀疏性，面部表情特征本身很难反映唇形的细节信息，也会影响最终合成的虚拟形象的唇形对齐度。

对此，本发明实施例提供一种虚拟形象合成方法。图1是本发明提供的虚拟形象合成方法的流程示意图之一，如图1所示，该方法包括：

步骤110，确定待合成的语音数据的语音特征，以及与语音特征相对应的面部表情特征。

具体地，待合成的语音数据即用于进行虚拟形象合成的语音数据，此处的虚拟形象可以是虚拟的人物形象，也可以是虚拟的卡通形象或者动物形象等，本发明实施例对此不作限定。语音数据可以是通过收音设备采集到的说话人的语音数据，也可以是从网络等途径得到的语音数据中截取的，本发明实施例对此不作具体限定。

语音特征是对语音数据进行语音特征提取所得的，语音特征具体可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、音素等常见的特征。语音特征反映了待合成的语音数据在语音层面上的特征，由此可以直接对应到说话人的发音动作。

面部表情特征即说话人在说话过程中在面部，尤其是在口唇处呈现的表情特征，面部表情特征具体可以是说话人的面部表情参数，例如张嘴闭嘴、睁眼闭眼等，面部表情特征还可以是说话人的口唇区域关键点坐标。面部表情特征反映了说话人在发音过程的表情，可以用于直接驱动虚拟形象视频的合成。

语音特征以及与之相对应的面部表情特征可以理解为说话人在说话过程中，同一时刻采集得到的语音数据的语音特征和面部表情特征。此处，语音特征对应的面部表情特征，可以是从包含说话人面部的视频数据中提取得到的，也可以是根据语音特征预测得到的，本发明实施例对此不作具体限定。

步骤120，对语音特征和面部表情特征进行融合，基于融合所得的特征合成表情与语音数据相匹配的虚拟形象视频。

具体地，考虑到语音和口型之间的映射关系不唯一，单独应用语音特征合成虚拟形象视频无法保持稳定，而单独应用面部表情特征合成的虚拟形象视频的准确性极大程度上依赖于面部表情特征本身的准确性，本发明实施例中将语音特征和面部表情特征两者进行融合，并基于融合所得的特征进行虚拟形象合成。

在此过程中，语音特征和面部表情特征的融合，使得面部表情特征可以对语音特征与口型之间多对多的映射关系形成约束，从而使得合成虚拟形象的表情能够趋向于一致稳定，同时语音特征的应用能够削弱虚拟形象合成对于面部表情特征的依赖性，降低面部表情特征的准确性对于虚拟形象合成准确性的影响，为虚拟形象合成提供更多口唇细节信息。从而保证虚拟形象视频中虚拟形象的表情能够自然匹配语音数据。

进一步地，步骤120中语音特征和面部表情特征的融合，以及基于融合后的特征生成虚拟形象视频的过程，可以通过预先训练好的形象合成模型实现。在执行步骤120之前，还可以预先训练得到形象合成模型，具体可以通过如下方式训练得到：首先，收集大量样本说话人视频，从中提取样本语音特征以及与之相对应的样本面部表情特征。随即，基于大量样本说话人视频、样本语音特征以及与之相对应的样本面部表情特征，对初始模型进行训练，从而得到形象合成模型。

本发明实施例提供的方法，对语音特征和面部表情特征进行融合，基于融合所得的特征合成虚拟形象视频，面部表情特征的应用使得合成虚拟形象的表情能够趋向于一致稳定，语音特征的应用降低面部表情特征的准确性对于虚拟形象合成准确性的影响，为虚拟形象合成提供更多口唇细节信息。从而保证虚拟形象视频中虚拟形象的表情能够自然匹配语音数据。此外，由于面部表情特征本身可编辑的特征，使得基于面部表情特征得到的虚拟形象视频中虚拟形象的表情可控可编辑，有助于优化虚拟形象合成的体验感。

基于上述实施例，步骤120中，所述对语音特征和面部表情特征进行融合，包括：

基于融合权重对语音特征和面部表情特征进行加权融合，融合权重是基于语音特征确定的。

具体地，虚拟形象合成的过程中，需要考虑语音特征和面部表情特征对于虚拟形象表情控制影响的大小。相较于面部表情特征，语音特征本身具有更高的准确性，对于虚拟形象表情控制所带来的影响也更加可靠，但是由于语音特征与口型之前的映射关系并不唯一，尤其是在语音数据发生静默的情况下，语音特征仍可能对应张嘴的口型。针对这一情况，可以根据语音特征本身所体现出来的信息，确定融合权重，进而确定语音特征和面部表情特征在虚拟形象合成中的影响力比重。例如，可以通过语音特征反映出来此时是否发生静默，如果发生静默则降低语音特征在虚拟形象合成中的影响力，提高面部表情特征在虚拟形象合成中的影响力，如果未发生静默则提高语音特征在虚拟形象合成中的影响力，降低面部表情特征在虚拟形象合成中的影响力。

需要说明的是，此处融合权重的确定可以不仅依赖于语音特征反映出来此时是否发生静默，还可以依赖语音特征反映出来的其他信息，融合权重的确定方式可以在形象合成模型的训练过程中由形象合成模型自动学习得到，本发明实施例不对此作具体限定。

基于上述任一实施例，图2是本发明提供的特征融合方法的流程示意图，如图2所示，步骤120中，所述对语音特征和面部表情特征进行融合，包括：

步骤121，对语音特征进行特征提取，得到融合权重以及语音特征图。

步骤122，对面部表情特征进行特征提取，得到与语音特征图相同维度的表情特征图。

步骤123，基于融合权重，对语音特征图和表情特征图进行加权求和。

具体地，对语音特征进行特征提取，可以分为两个分支实现，其中一个分支用于提取融合权重，另一个分支用于提取语音特征图。考虑到对语音特征进行特征提取所得的语音特征图，以及对面部表情特征进行特征提取所得的表情特征图，在步骤123中需要进行加权求和，语音特征图和表情特征图的维度应当相同，对应实现语音特征图提取和表情特征图提取的特征提取分支可以具备相同的分支结构。

例如，针对融合权重的提取，可以将N维语音特征经过包含三层全连接层后接sigmoid()函数的门参数网络分支得到门参数，将门参数作为融合权重σ。

针对语音特征图的提取，可以先将N维语音特征扩展到图像特征图大小后接三层卷积得到M×H×W维的语音特征图W₁(f_语音)，此处的图像特征图即待合成的虚拟形象图的图像特征图。

针对表情特征图的提取，可以将面部表情特征输入到与语音特征图提取分支结构相同但是参数不共享的卷积层中，从而得到M×H×W维的表情特征图W₂(f_表情)。

在得到融合权重σ、语音特征图W₁(f_语音)以及表情特征图W₂(f_表情)后，可以通过如下公式实现特征融合：

f_融合＝σW₁(f_语音)+(1-σ)W₂(f_表情)

式中，f_融合即融合后的特征。

基于上述任一实施例，图3是本发明提供的虚拟形象合成方法的流程示意图之二，如图3所示，步骤120中，所述基于融合所得的特征合成表情与语音数据相匹配的虚拟形象视频，包括：

步骤124，对虚拟形象掩膜图像进行特征编码，得到掩膜图像特征。

步骤125，基于掩膜图像特征与融合所得的特征，确定整体形象特征。

步骤126，对整体形象特征进行特征解码，得到虚拟形象视频。

具体地，虚拟形象掩膜图像即遮盖掉虚拟形象中执行表情的各区域之后的虚拟形象图像，此处执行表情的区域与面部表情特征所反映的区域是一致的，例如可以是口唇区域。可以对虚拟形象掩膜图像进行特征编码，从而提取虚拟形象掩膜图像中的图像特征，得到掩膜图像特征。

整体形象特征的确定可以是将掩模图像特征与融合所得的特征进行相加或者拼接等操作得到的。考虑到融合所得的特征反映的是一段时间内的语音数据对应的语音特征和面部表情特征，可以将融合后的特征对应在每个时刻的特征分别与掩模图像特征相加或者拼接，从而得到每个时刻的整体形象特征。

在得到每个时刻的整体形象特征之后，即可分别对每个时刻整体形象特征进行解码，得到每个时刻的虚拟形象图像，从而构成虚拟形象视频。

基于上述任一实施例，步骤120包括：

将语音特征和面部表情特征输入至形象合成模型，得到形象合成模型输出的虚拟形象视频。

具体地，形象合成模型能够实现语音特征和面部表情特征的加权融合，并在此基础上结合虚拟形象掩模图像实现虚拟形象视频的合成。

图4是本发明提供的形象合成模型的流程示意图，如图4所示，形象合成模型可以包括特征融合层和图像修复层，其中特征融合层用于基于输入的语音特征提取融合权重σ和语音特征图W₁(f_语音)，基于输入的面部表情特征提取表情特征图W₂(f_表情)，并基于融合权重σ对语音特征图W₁(f_语音)和表情特征图W₂(f_表情)进行加权求和；图像修复层用于对输入的虚拟形象掩膜图像进行特征编码，并将编码所得的掩膜图像特征与融合所得的特征相加得到各个时刻的整体形象特征，对每个时刻的整体形象特征进行解码，得到对应时刻的虚拟形象图像，构成虚拟形象视频。进一步地，图像修复层可以通过U-net网络结构构建。

基于上述任一实施例，形象合成模型是基于样本语音特征及其相对应的样本面部表情特征，以及形象判别模型训练得到的，形象判别模型用于区分虚拟形象和真实形象。

具体地，形象合成模型与形象判别模型可以构成生成对抗网络(GAN，GenerativeAdversarial Networks)，其中，形象合成模型即生成对抗网络框架下的生成模型(Generative Model)，形象判别模型即生成对抗网络框架下的判别模型(DiscriminativeModel)。形象合成模型用于生成包含多帧虚拟形象图像的虚拟形象视频，形象判别模型用于区分输入的图像或者视频中包含的形象是合成的虚拟形象还是直接采集得到的真实形象。

在形象合成模型的训练过程中，形象合成模型与形象判别模型之间相互博弈学习，从而在提高形象合成模型输出的虚拟形象视频中每帧虚拟形象图像的逼真度和自然度的同时，提高形象判别模型对于虚拟形象和真实形象的区分能力。具体可以在模型训练过程中，将样本语音特征及其相对应的面部表情特征输入到形象合成模型中，得到形象合成模型输出的预测虚拟形象视频，将真实形象图像和预测虚拟形象视频中的各帧预测虚拟形象图像混合后输入形象判别模型，得到形象判别模型输出的各图像的判别结果，基于预测虚拟形象视频中各帧预测虚拟形象图像与真实形象图像之间的差异构建生成损失函数，基于各图像的判别结果与各图像的实际真伪情况之间的差异构建判别损失函数，结合生成损失函数和判别损失函数对形象合成模型和形象判别模型进行联合训练。

本发明实施例提供的方法，结合形象判别模型对形象合成模型进行联合训练，有助于提高形象合成模型输出虚拟形象视频的逼真度和自然度。

基于上述任一实施例，与语音特征相对应的面部表情特征是基于如下步骤确定的：

将语音特征输入至表情映射模型，得到表情映射模型输出的与语音特征相对应的面部表情特征；其中，表情映射模型是基于样本语音特征及其相对应的样本面部表情特征训练得到的，样本面部表情特征是基于样本三维人脸模型确定的，样本三维人脸模型是基于真实人脸视频构建的。

具体地，考虑到在虚拟形象合成的应用阶段，可能仅仅采集了说话人的语音数据，并未采集到说话人的发言视频，因此也无法直接提取与语音数据相对应的面部表情特征。

而语音特征可以体现出说话人的发音动作，因此可以基于语音特征预测对应的面部表情特征。本发明实施例中的表情映射模型在训练过程中充分学习了语音特征与面部表情特征之间的映射关系，将语音特征输入到表情映射模型，即可由表情映射模型分析与输入的语音特征之间存在映射关系的面部表情特征，进而输出语音特征对应的面部表情特征。

在此之前，可以预先训练得到表情映射模型，具体可以通过如下步骤训练表情映射模型：

采集真人说话过程中的样本语音数据和真实人脸视频，对样本语音数据进行特征抽取，得到样本语音特征；图5是本发明提供的样本面部表情特征的获取方法流程示意图，如图5所示，对真实人脸视频中各帧真实人脸图像进行关键点检测，从而得到各帧真实人脸图像的人脸关键点坐标，基于各帧真实人脸图像的人脸关键点坐标和开源的三维人脸模型进行基于视频的三维人脸重建，从而得到样本三维人脸模型，并基于样本三维人脸模型确定样本语音特征对应的样本面部表情特征。需要说明的是，样本三维人脸模型不仅可以用于确定样本面部表情特征，还可以用于确定人脸ID参数和位姿参数等，其中人脸ID参数可以是人脸长短、胖瘦等形状信息，位姿参数可以是低头、抬头、侧脸等人脸朝向信息，本发明实施例对此不作具体限定。

在得到样本语音特征及其对应的样本面部表情特征之后，可以基于此两者对初始模型进行训练，从而得到表情映射模型。此处的初始模型可以是单层的LSTM(Long ShortTerm Memory networks，长短期记忆网络)。

基于上述任一实施例，面部表情特征包括人脸表情参数和/或口唇关键点坐标。其中，人脸表情参数可以是张嘴闭嘴、睁眼闭眼等，口唇关键点坐标可以是唇部和下巴区域的关键点的坐标。人脸表情参数和口唇关键点坐标均能够表征面部表情，可以理解为表征相同信息的两种不同表现形式。

基于上述任一实施例，表情映射模型的损失函数是基于预测人脸表情参数与样本人脸表情参数之差，和/或预测口唇关键点坐标与样本口唇关键点坐标之差确定的；预测人脸表情参数和预测口唇关键点坐标是表情映射模型基于样本语音特征确定的。

具体地，预测人脸表情参数和预测口唇关键点坐标是在表情映射模型训练过程中，将样本语音特征输入到表情映射模型中得到的输出。

当面部表情特征包括人脸表情参数时，表情映射模型的损失函数可以是基于预测人脸表情参数与样本人脸表情参数之差确定的，也可以是基于预测人脸表情参数与样本人脸表情参数之差，以及预测口唇关键点坐标与样本口唇关键点坐标之差确定的。

相类似地，当面部表情特征包括口唇关键点坐标时，表情映射模型的损失函数可以是基于预测口唇关键点坐标与样本口唇关键点坐标之差确定的，也可以是基于预测人脸表情参数与样本人脸表情参数之差，以及预测口唇关键点坐标与样本口唇关键点坐标之差确定的。

例如，损失函数可以基于MSE(Mean Square Error，均方误差)损失函数构建，当面部表情特征包括人脸表情参数时，损失函数可以体现为如下形式：

其中，L_表情参数为损失函数值，

为预测人脸表情参数，ep为样本人脸表情参数，

为预测人脸表情参数

和样本人脸表情参数ep两者之差的平方，

为预测人脸表情参数各维度与其对应的样本人脸表情参数各维度之差的平方和，M为预测人脸表情参数的维度；

为预测口唇关键点坐标，lm为样本口唇关键点坐标，

为预测口唇关键点坐标

和样本口唇关键点坐标lm两者之差的平方，

为所有预测口唇关键点坐标和样本口唇关键点坐标两者之差的平方和，N为预测口唇关键点的数量。

ω用于调节预测人脸表情参数与样本人脸表情参数之差，以及预测口唇关键点坐标与样本口唇关键点坐标之差这两部分损失的权重，ω的取值可以人工设定。B为表情映射模型训练时批量处理的样本数量。

又例如，当面部表情特征包括口唇关键点坐标时，损失函数可以体现为如下形式：

其中，L_{关键点坐标}为损失函数值，

为样本口唇关键点坐标的PCA(Principalcomponents analysis，主成分分析)系数，lm_pca为样本口唇关键点坐标的PCA系数，

为所有预测口唇关键点坐标和样本口唇关键点坐标的PCA系数之差的平方和，L为口唇关键点的PCA系数维度，B为表情映射模型训练时批量处理的样本数量。

基于上述任一实施例，一种虚拟形象合成方法，包括如下步骤：

首先，确定待合成的语音数据，从中提取语音数据的语音特征。

将语音特征输入至预先训练好的表情映射模型，由表情映射模型分析与输入的语音特征之间存在映射关系的面部表情特征，进而输出语音特征对应的面部表情特征。

在得到待合成的语音数据的语音特征及其对应的面部表情特征后，可以将语音特征及其对应的面部表情特征输入到形象合成模型中，由形象合成模型的特征融合层基于输入的语音特征提取融合权重σ和语音特征图W₁(f_语音)，基于输入的面部表情特征提取表情特征图W₂(f_表情)，并基于融合权重σ对语音特征图W₁(f_语音)和表情特征图W₂(f_表情)进行加权求和，得到融合后的特征。再由形象合成模型的图像修复层对虚拟形象掩膜图像进行特征编码，并将编码所得的掩膜图像特征与融合所得的特征相加得到各个时刻的整体形象特征，对每个时刻的整体形象特征进行解码，得到对应时刻的虚拟形象图像，构成虚拟形象视频并输出。

下面对本发明提供的虚拟形象合成装置进行描述，下文描述的虚拟形象合成装置与上文描述的虚拟形象合成方法可相互对应参照。

基于上述任一实施例，图6是本发明提供的虚拟形象合成装置的结构示意图，如图6所示，该装置包括特征获取单元610和融合生成单元620；

其中，特征获取单元610用于确定待合成的语音数据的语音特征，以及与所述语音特征相对应的面部表情特征；

融合生成单元620用于对所述语音特征和所述面部表情特征进行融合，基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频。

本发明实施例提供的装置，对语音特征和面部表情特征进行融合，基于融合所得的特征合成虚拟形象视频，面部表情特征的应用使得合成虚拟形象的表情能够趋向于一致稳定，语音特征的应用降低面部表情特征的准确性对于虚拟形象合成准确性的影响，为虚拟形象合成提供更多口唇细节信息。从而保证虚拟形象视频中虚拟形象的表情能够自然匹配语音数据。此外，由于面部表情特征本身可编辑的特征，使得基于面部表情特征得到的虚拟形象视频中虚拟形象的表情可控可编辑，有助于优化虚拟形象合成的体验感。

基于上述任一实施例，融合生成单元620具体用于：

对虚拟形象掩膜图像进行特征编码，得到掩膜图像特征；

基于上述任一实施例，融合生成单元620具体用于：

基于上述任一实施例，该装置还包括面部表情确定单元，面部表情确定单元用于：

基于上述任一实施例，所述面部表情特征包括人脸表情参数和/或口唇关键点坐标；

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行虚拟形象合成方法，该方法包括：

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的虚拟形象合成方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的虚拟形象合成方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟形象合成方法，其特征在于，包括：

2.根据权利要求1所述的虚拟形象合成方法，其特征在于，所述对所述语音特征和所述面部表情特征进行融合，包括：

3.根据权利要求2所述的虚拟形象合成方法，其特征在于，所述基于融合权重对所述语音特征和所述面部表情特征进行加权融合，包括：

4.根据权利要求1所述的虚拟形象合成方法，其特征在于，所述基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频，包括：

对虚拟形象掩膜图像进行特征编码，得到掩膜图像特征；

5.根据权利要求1至4中任一项所述的虚拟形象合成方法，其特征在于，所述对所述语音特征和所述面部表情特征进行融合，基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频，包括：

6.根据权利要求1至4中任一项所述的虚拟形象合成方法，其特征在于，所述与所述语音特征相对应的面部表情特征是基于如下步骤确定的：

7.根据权利要求6所述的虚拟形象合成方法，其特征在于，所述面部表情特征包括人脸表情参数和/或口唇关键点坐标；

8.一种虚拟形象合成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述虚拟形象合成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述虚拟形象合成方法的步骤。