CN113223125B

CN113223125B - 一种虚拟形象的面部驱动方法、装置、设备和介质

Info

Publication number: CN113223125B
Application number: CN202110534983.7A
Authority: CN
Inventors: 陈超; 赵亚飞; 张世昌; 郭紫垣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2023-09-26
Anticipated expiration: 2041-05-17
Also published as: CN113223125A

Abstract

本公开提供了一种虚拟形象的面部驱动方法、装置、设备和介质，涉及计算机技术领域，尤其涉及人工智能和深度学习技术领域，所述方法包括：获取目标驱动多媒体信息；形成与目标驱动多媒体信息对应的多个驱动源组；生成与每个驱动源组分别对应的声像融合特征集，并确定与每个声像融合特征集分别对应的面部控制参数；分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动。本公开实施例的技术方案可以提高虚拟形象面部驱动结果的准确性。

Description

一种虚拟形象的面部驱动方法、装置、设备和介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能和深度学习技术领域，具体涉及一种虚拟形象的面部驱动方法、装置、设备和介质。

背景技术

在人工智能领域，模拟真人原型的虚拟人物已得到了越来越多的应用，利用真人信息产生的虚拟人物的面部驱动技术，在虚拟客服、虚拟主播等领域可以发挥巨大的价值。

相关技术中通常是基于面捕技术去捕捉真人面部特征，然后重定向到虚拟人物面部以达到驱动效果。

相关技术的主要缺陷在于：通常需要使用面部捕捉专用的头戴式设备，并且需要在真人面部标记关键点，有较强的条件限制；此外，相关技术对唇部运动的捕捉效果不佳，尤其是当真人唇部快速闭合时，相关技术无法驱动虚拟人物达到同样的闭合效果。

发明内容

本公开提供了一种虚拟形象的面部驱动方法、装置、设备和介质。

根据本公开的一方面，提供了一种虚拟形象的面部驱动方法，包括：

获取目标驱动多媒体信息，其中，目标驱动多媒体信息中记录有用于对虚拟形象进行面部驱动的真实人物的声音信息和面部表情信息；

形成与目标驱动多媒体信息对应的多个驱动源组，驱动源组包括：图像帧和与图像帧关联的音频片段；

生成与每个驱动源组分别对应的声像融合特征集，并确定与每个声像融合特征集分别对应的面部控制参数；

分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动。

根据本公开的另一方面，提供了一种虚拟形象的面部驱动装置，包括：

多媒体信息获取模块，用于获取目标驱动多媒体信息，其中，目标驱动多媒体信息中记录有用于对虚拟形象进行面部驱动的真实人物的声音信息和面部表情信息；

驱动源组形成模块，用于形成与目标驱动多媒体信息对应的多个驱动源组，驱动源组包括：图像帧和与图像帧关联的音频片段；

特征集生成模块，用于生成与每个驱动源组分别对应的声像融合特征集，并确定与每个声像融合特征集分别对应的面部控制参数；

面部驱动模块，用于分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开中任一实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开中任一实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开中任一实施例所述的方法。

本公开实施例的技术方案可以降低对虚拟形象进行面部驱动时的开发成本，提高虚拟形象面部驱动结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

图1a是根据本公开实施例的一种虚拟形象的面部驱动方法的流程示意图；

图1b是根据本公开实施例的一种虚拟形象的示意图；

图2是根据本公开实施例的又一种虚拟形象的面部驱动方法的流程示意图；

图3a是根据本公开实施例的又一种虚拟形象的面部驱动方法的流程示意图；

图3b是根据本公开实施例的一种虚拟形象的面部驱动方法的实施方式的示意图；

图4是根据本公开实施例的一种虚拟形象的面部驱动装置的结构示意图；

图5是根据本公开实施例的虚拟形象的面部驱动方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1a是根据本公开实施例的一种虚拟形象的面部驱动方法的流程示意图，本实施例适用于对虚拟形象的面部进行驱动的情况，该方法可以通过虚拟形象的面部驱动装置来执行，该装置可以通过软件和/或硬件的方式实现，并一般可以集成在具有数据处理功能的终端或者服务器中。具体的，参考图1a，该方法具体包括如下步骤：

步骤110、获取目标驱动多媒体信息，其中，目标驱动多媒体信息中记录有用于对虚拟形象进行面部驱动的真实人物的声音信息和面部表情信息。

在本实施例中，虚拟形象可以包括虚拟客服或者虚拟主播等，所述虚拟形象具体可以为虚拟动物、或者虚拟人物等形象。目标驱动多媒体信息中记录有真实人物产生的声音信息，以及在对应的声音信息下真实人物产生的面部表情信息。目标驱动多媒体信息可以为真实人物的多张面部表情图片与对应的声音信息共同组成的媒体信息，或者，目标驱动多媒体信息可以为真实人物的面部表情图片与声音信息集成在一起的多媒体视频。

其中，获取目标驱动多媒体信息的目的在于，可以根据真实人物的声音信息和面部表情信息，驱动虚拟形象在具体的声音信息下，产生与真实人物相同的面部表情信息。

在本实施例中，可以获取多媒体信息采集设备采集的目标驱动多媒体信息。所述多媒体信息采集设备可以为普通相机，例如RGB相机等。

步骤120、形成与目标驱动多媒体信息对应的多个驱动源组，驱动源组包括：图像帧和与图像帧关联的音频片段。

其中，目标驱动多媒体信息由连续的多个图像帧组合形成，每个图像帧都是一幅静止的画面。在本实施例中，可以根据预设的图像帧提取参数在目标驱动多媒体信息中提取得到多个图像帧，所述图像帧提取参数可以为提取每个图像帧时所采用的时间间隔参数。例如，当图像帧提取参数为1s时，则可以每隔1s在目标驱动多媒体信息中提取图像帧。

在此步骤中，可选的，在获取到与目标驱动多媒体信息对应的多个图像帧后，可以根据图像帧的个数，对目标驱动多媒体信息对应的完整音频进行平分，得到与各图像帧关联的音频片段。每个图像帧与关联的音频片段共同组成一个驱动源组，由此可以形成与目标驱动多媒体信息对应的多个驱动源组。

步骤130、生成与每个驱动源组分别对应的声像融合特征集，并确定与每个声像融合特征集分别对应的面部控制参数。

在此步骤中，可选的，可以将每个驱动源组中的图像帧，以及关联的音频片段分别输入至对应的特征提取网络中，得到与每个驱动源组对应的视觉特征(也即真实人物的面部图像特征)以及语音特征，然后将每个驱动源组对应的视觉特征以及语音特征进行融合，得到对应的声像融合特征集。所述声像融合特征集用于表征真实人物产生特定表情时对应的面部图像特征以及语音特征。

在得到与每个驱动源组分别对应的声像融合特征集之后，可选的，可以将每个声像融合特征集输入至预先训练的参数计算模型中，得到与每个声像融合特征集分别对应的面部控制参数(Blend Shape)。

其中，所述参数计算模型可以由多个声像融合特征集进行训练得到。在一个具体的实施方式中，可以将多个声像融合特征集划分为训练数据集和测试数据集，然后使用所述训练数据集和测试数据集对神经网络模型进行迭代训练，得到参数计算模型。

步骤140、分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动。

在本实施例中，面部控制参数用于对三维(3-Dimension，3D)虚拟形象进行面部(包括口型)驱动。其中，面部控制参数可以包括多维向量，每一个维度上的向量取值范围为[0,1]，代表一个特定的面部运动。以维度jaw_open为例，这个维度上的向量控制着虚拟形象下巴的张合程度，数值越大表示张合程度越大。图1b是一种虚拟形象的示意图，图1b中左图展示了jaw_open＝0时虚拟形象对应的表情，图1b中右图展示了jaw_open＝1时虚拟形象对应的表情。如图1b所示，当jaw_open＝0时，虚拟形象的下巴张合程度较小，当jaw_open＝1时，虚拟形象的下巴张合程度较大。

在一个具体的实施方式中，可以将与各驱动源组对应的面部控制参数输入至预设的渲染引擎中，通过渲染引擎产生虚拟形象的面部表情。面部控制参数可以包括370个维度上的向量，这些向量共同控制虚拟形象进行面部驱动，以使虚拟形象拥有表达各种表情的能力。

相关技术在获取真实人物的面部图像特征时，通常需要专用面捕头戴式设备进行获取，而在本实施例中，通过普通相机获取到目标驱动多媒体信息后，通过特征提取网络即可得到真实人物的面部图像特征，而无需采用面捕头戴式设备，相比于相关技术而言硬件条件要求更低，成本显著降低；

其次，相关虚拟形象的面部驱动方法中，通常仅仅利用真实人物的面部图像特征，重定向到虚拟形象面部以达到驱动效果，而在本实施例中，在面部图像特征的基础上，还引入了真实人物的语音特征，由于唇部运动与发音是强相关的(例如发音为“啊”时，虚拟形象的唇部应该是张开的)，利用语音特征和面部特征计算面部控制参数时，可以发挥多模态信息互补优势，能够使虚拟形象面部驱动(尤其是唇动)的结果更为准确，进而可以提高虚拟形象的交互表现力，并且更低的成本与较低的硬件要求有利于虚拟形象产品在更多的场景下实现规模化应用。

本公开实施例的技术方案，通过获取目标驱动多媒体信息，形成与目标驱动多媒体信息对应的多个驱动源组，然后生成与每个驱动源组分别对应的声像融合特征集，并确定与每个声像融合特征集分别对应的面部控制参数，最后分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动的技术手段，可以降低对虚拟形象进行面部驱动时的开发成本，提高虚拟形象面部驱动结果的准确性。

图2是根据本公开实施例的又一种虚拟形象的面部驱动方法的流程示意图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施方式结合。具体的，参考图2，该方法具体包括如下步骤：

步骤210、获取目标驱动多媒体信息，其中，目标驱动多媒体信息中记录有用于对虚拟形象进行面部驱动的真实人物的声音信息和面部表情信息。

步骤220、获取所述目标驱动多媒体信息中包括的多个图像帧，并获取每个图像帧在目标驱动多媒体信息中的出现时刻点。

步骤230、形成与各出现时刻点分别对应的关联时间区间。

在本公开实施例的一个实施方式中，可以以各出现时刻点为起点，向后延伸设定时长，形成与各出现时刻点分别对应的关联时间区间。在一个具体的实施例中，假设出现时刻点为1:05:00，预设时长为30s，则与该出现时刻点对应的关联时间区间可以为1:05:00至1:05:30之间的时间区间。

在本公开实施例的另一个实施方式中，形成与各出现时刻点分别对应的关联时间区间，可以包括：以各出现时刻点为中心，分别向两个时间延伸方向上延伸设定时长，形成与各出现时刻点分别对应的关联时间区间。

其中，可以以各出现时刻点为中心，分别向前和向后延伸设定时长，形成与各出现时刻点分别对应的关联时间区间。在一个具体的实施例中，假设出现时刻点为1:05:00，预设时长为15s，则与该出现时刻点对应的关联时间区间可以为1:04:45至1:05:15之间的时间区间。

这样设置的好处在于，通过获取位于出现时刻点之前和之后的时间，可以保证计算得到的时间区间与出现时刻点关联性较强。

步骤240、在目标驱动多媒体信息中，分别截取与各所述关联时间区间对应的音频片段。

在此步骤中，可以根据各所述关联时间区间，对目标驱动多媒体信息对应的完成音频进行截取，得到与各关联时间区间对应的音频片段。

步骤250、将各所述音频片段与匹配的图像帧进行组合，形成多个驱动源组。

这样设置的好处在于：通过计算每个图像帧对应的关联时间区间，并将关联时间区间对应的音频片段作为与图像帧对应的音频片段，可以提高图像帧与截取到的音频片段的匹配度，进而可以提高后续面部控制参数计算结果的准确性。

步骤260、生成与每个驱动源组分别对应的声像融合特征集，并确定与每个声像融合特征集分别对应的面部控制参数。

步骤270、分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动。

本公开实施例的技术方案，通过获取目标驱动多媒体信息、目标驱动多媒体信息中包括的多个图像帧，以及每个图像帧的出现时刻点，然后形成与各出现时刻点分别对应的关联时间区间，在目标驱动多媒体信息中，分别截取与各关联时间区间对应的音频片段，并将各音频片段与匹配的图像帧进行组合，形成多个驱动源组，最后生成与每个驱动源组分别对应的声像融合特征集，并确定与每个声像融合特征集分别对应的面部控制参数，分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动的技术手段，可以降低对虚拟形象进行面部驱动时的开发成本，提高虚拟形象面部驱动结果的准确性。

本公开实施例是对上述实施例的进一步细化，与上述实施例相同或相应的术语解释，本公开实施例不再赘述。图3a为本公开实施例提供的一种虚拟形象的面部驱动方法的流程图，本实施例的方法具体包括如下步骤：

步骤310、获取目标驱动多媒体信息，其中，目标驱动多媒体信息中记录有用于对虚拟形象进行面部驱动的真实人物的声音信息和面部表情信息。

步骤320、形成与目标驱动多媒体信息对应的多个驱动源组，驱动源组包括：图像帧和与图像帧关联的音频片段。

步骤330、在当前处理的目标驱动源组中获取目标图像帧以及目标音频片段。

在本实施例中，为了进一步提高虚拟形象面部驱动结果的准确性，目标音频片段的时长可以设置为520ms，具体数值以实际情况进行预设，本实施例对此并不进行限制。

步骤340、形成与所述目标图像帧对应的目标高维视觉特征集，并形成与所述目标音频片段对应的目标高维语音特征集。

其中，目标高维视觉特征集由目标图像帧对应的维数较多的视觉特征构成，用于表征目标图像帧的全局视觉特征；目标高维语音特征集由目标音频片段对应的维数较多的语音特征构成，用于表征目标音频片段的全局语音特征。

在本公开实施例的一个实施方式中，形成与目标图像帧对应的目标高维视觉特征集，并形成与所述目标音频片段对应的目标高维语音特征集，包括：提取目标图像帧中包括的人脸关键点；将人脸关键点识别结果输入至预先训练的视觉网络中，得到目标高维视觉特征集；提取目标音频片段中的目标低维语音特征集，并将目标低维语音特征集输入至预先训练的语音网络中，得到目标高维语音特征集。

在本实施例中，人脸关键点可以为真实人物产生面部表情变化时，面部中运动频率较高的位置点，例如眼睛、唇部或者鼻翼周边的位置点。其中，可以通过深度学习方法提取目标图像帧中人脸关键点的坐标，然后根据人脸关键点的坐标，获取到目标图像帧中的人脸关键点(包括人脸关键点对应的视觉信息)。

在提取到目标图像帧中包括的人脸关键点之后，可以将人脸关键点识别结果输入至预先训练的视觉网络中，得到目标高维视觉特征集。其中，所述视觉网络用于对人脸关键点的高维视觉特征进行提取，所述视觉网络可以由多个人脸关键点进行训练得到。在一个具体的实施方式中，可以将多个人脸关键点划分为训练数据集和测试数据集，然后使用所述训练数据集和测试数据集对神经网络进行迭代训练，得到视觉网络。

这样设置的好处在于，由于虚拟形象的面部驱动与真实人物的人脸关键点强相关，通过提取真实人物的人脸关键点，可以得到用于对虚拟形象进行面部驱动的有效视觉特征，进而可以提高虚拟形象面部驱动结果的准确性。

在一个具体的实施方式中，根据上述方法可以提取目标图像帧中包括的150个2维人脸关键点，将这些人脸关键点经过视觉网络中输入层的归一化处理后，可以得到300(150×2＝300)维的关键点特征，然后将这些关键点特征经过视觉网络中的全连接层，可以得到目标高维视觉特征集，具体的视觉网络结构如表1所示。

如表1所示，视觉网络中输入层的输出结果一共包括300维的关键点特征，将全部关键点特征经过三层全连接层处理后，可以得到64维的高维视觉特征。其中，视觉网络中激活函数可以设置为线性整流函数(Rectified linear unit，Relu)。

表1

Layer type	Input	Output	Activation
				输入层	-	300	-
全联接层	300	256	Relu
				全联接层	256	128	Relu
全联接层	128	64	Relu
				输出层(全联接)	64	32	-

在本实施例中，目标低维语音特征集由目标音频片段对应的维数较少的语音特征构成，用于表征目标音频片段的局部语音特征。其中，可以利用预设的语音特征提取算法对目标音频片段中的低维语音特征进行提取，得到目标低维语音特征集。所述语音特征提取算法具体可以为梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)，或者线性预测系数(Linear Prediction Coefficient，LPC)等。

在提取到目标音频片段中的目标低维语音特征集之后，可以将目标低维语音特征集输入至预先训练的语音网络中，得到目标高维语音特征集。其中，所述语音网络用于对目标音频片段的高维语音特征进行提取，所述语音网络可以由多个低维语音特征集进行训练得到。在一个具体的实施方式中，可以将多个低维语音特征集划分为训练数据集和测试数据集，然后使用所述训练数据集和测试数据集对卷积神经网络(Convolutional NeuralNetworks，CNN)进行迭代训练，得到语音网络。

这样设置的好处在于，通过将目标低维语音特征集输入至预先训练的语音网络中，可以更加全面地获取真实人物的语音特征，以使面部控制参数的确定结果更加准确。

在一个具体的实施例中，通过语音特征提取算法对目标音频片段进行处理后，可以提取64*32维的低维语音特征，将多个低维语音特征进行拼接后，形成二维的矩阵R^64×32，也即目标低维语音特征集，然后将目标低维语音特征集输入至预先训练的语音网络中，得到目标高维语音特征集，具体的语音网络结构如表2所示。

表2

如表2所示，语音网络中在第五个卷积层后，可以得到256*64*1维度的特征，再经过若干卷积层后，通过全联接层可以输出150维高维语音特征。

步骤350、将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，并确定与目标声像融合特征集对应的面部控制参数。

这样设置的好处在于，通过获取目标驱动源组对应的目标高维视觉特征集与目标高维语音特征集，并根据目标高维视觉特征集与目标高维语音特征集确定面部控制参数，可以使面部控制参数的确定结果更加准确，提高虚拟形象面部驱动结果的准确性。

在本公开实施例的一个实施方式中，将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，并确定与目标声像融合特征集对应的面部控制参数，包括：将所述目标高维视觉特征集与目标高维语音特征集输入至预先训练的融合输出网络中；通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集；通过融合输出网络中的至少一个全连接层，根据所述目标声像融合特征集，确定出与所述目标声像融合特征集对应的面部控制参数；通过融合输出网络中的输出层，输出与目标声像融合特征集对应的面部控制参数。

其中，融合输出网络用于将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，并根据目标声像融合特征集，确定出对应的面部控制参数。所述融合输出网络可以由多个高维视觉特征集与高维语音特征集组合的训练样本进行训练得到。

这样设置的好处在于，通过使用融合输出网络将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，并确定与目标声像融合特征集对应的面部控制参数，可以实现面部控制参数确定过程的自动化，提高面部控制参数确定结果的准确性。

在本实施例中，具体的融合输出网络的结构可以如表3所示，当目标高维视觉特征集包括32维的视觉特征，目标高维语音特征集包括150维的语音特征时，融合层将目标高维视觉特征集与目标高维语音特征集进行特征融合后，得到目标声像融合特征集，然后再经过两层全联接层输出最终确定的370维的面部控制参数。

表3

在一个具体的实施方式中，通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，包括：通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行数据拼接，形成目标声像融合特征集。

其中，可以将目标高维视觉特征集对应的特征矩阵，与目标高维语音特征集对应的特征矩阵进行横向或者纵向拼接，形成目标声像融合特征集。

这样设置的好处在于，可以快速得到目标声像融合特征集，提高对虚拟形象进行面部驱动的效率。

在另一个具体的实施方式中，通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，包括：通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行设定的数据运算处理，形成目标声像融合特征集。

在本实施例中，如果目标高维视觉特征集与目标高维语音特征集的维数相同，则还可以采用卷积或者点积的运算处理方式，将上述两个特征集进行融合。

这样设置的好处在于，可以保证目标声像融合特征集中包括丰富的视觉特征与语音特征，以使面部控制参数的确定结果更加准确。

步骤360、判断是否完成对全部驱动源组的处理，若是，执行步骤370，若否，返回执行步骤330，直至完成对全部驱动源组的处理。

步骤370、分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动。

本公开实施例通过获取目标驱动多媒体信息，形成与目标驱动多媒体信息对应的多个驱动源组，并在当前处理的目标驱动源组中获取目标图像帧以及目标音频片段，形成目标高维视觉特征集和目标高维语音特征集，然后将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，并确定与目标声像融合特征集对应的面部控制参数，最后分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动的技术手段，可以降低对虚拟形象进行面部驱动时的开发成本，提高虚拟形象面部驱动结果的准确性。

为了更好地对本公开实施例提供的技术方案进行介绍，本公开实施例提供了一种虚拟形象的面部驱动的实施方式，如图3b所示：

获取到目标驱动多媒体信息后，首先获取目标驱动多媒体信息中包括的多个图像帧(即图3b中真实人物的人脸图片)以及对应的语音片段，并提取图像帧中包括的人脸关键点，提取语音片段中的低维语音特征；然后分别将人脸关键点的识别结果以及低维语音特征，输入至对应的视觉网络和语音网络中，得到高维视觉特征与高维语音特征；将高维视觉特征与高维语音特征输入至融合输出网络后，可以确定出对应的面部控制参数(BlendShape)；最后将各面部控制参数输入至渲染引擎中，通过渲染引擎可以产生虚拟形象的面部表情。

本公开实施例提供的方法可以降低对虚拟形象进行面部驱动时的开发成本，提高虚拟形象面部驱动结果的准确性。

本公开实施例还提供了一种虚拟形象的面部驱动装置，用于执行上述的虚拟形象的面部驱动方法。

图4为本公开实施例提供的一种虚拟形象的面部驱动装置400的结构图，该装置包括：多媒体信息获取模块410、驱动源组形成模块420、特征集生成模块430和面部驱动模块440。

其中，多媒体信息获取模块410，用于获取目标驱动多媒体信息，其中，目标驱动多媒体信息中记录有用于对虚拟形象进行面部驱动的真实人物的声音信息和面部表情信息；

驱动源组形成模块420，用于形成与目标驱动多媒体信息对应的多个驱动源组，驱动源组包括：图像帧和与图像帧关联的音频片段；

特征集生成模块430，用于生成与每个驱动源组分别对应的声像融合特征集，并确定与每个声像融合特征集分别对应的面部控制参数；

面部驱动模块440，用于分别使用与各驱动源组对应的面部控制参数，对虚拟形象进行面部驱动。

在上述各实施例的基础上，所述驱动源组形成模块420，包括：

图像帧获取单元，用于获取所述目标驱动多媒体信息中包括的多个图像帧，并获取每个图像帧在目标驱动多媒体信息中的出现时刻点；

时间区间形成单元，用于形成与各出现时刻点分别对应的关联时间区间；

音频片段截取单元，用于在目标驱动多媒体信息中，分别截取与各所述关联时间区间对应的音频片段；

组合单元，用于将各所述音频片段与匹配的图像帧进行组合，形成多个驱动源组；

所述时间区间形成单元，包括：

时长延伸子单元，用于以各出现时刻点为中心，分别向两个时间延伸方向上延伸设定时长，形成与各出现时刻点分别对应的关联时间区间。

所述特征集生成模块430，包括：

目标图像帧获取单元，用于在当前处理的目标驱动源组中获取目标图像帧以及目标音频片段；

高维特征集形成单元，用于形成与所述目标图像帧对应的目标高维视觉特征集，并形成与所述目标音频片段对应的目标高维语音特征集；

特征融合单元，用于将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，并确定与目标声像融合特征集对应的面部控制参数；

高维特征集形成单元，包括：

关键点提取子单元，用于提取所述目标图像帧中包括的人脸关键点；

视觉网络输入子单元，用于将人脸关键点识别结果输入至预先训练的视觉网络中，得到目标高维视觉特征集；

语音网络输入子单元，用于提取目标音频片段中的目标低维语音特征集，并将目标低维语音特征集输入至预先训练的语音网络中，得到目标高维语音特征集；

特征融合单元，包括：

融合网络输入子单元，用于将所述目标高维视觉特征集与目标高维语音特征集输入至预先训练的融合输出网络中；

融合特征集形成子单元，用于通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集；

参数确定子单元，用于通过融合输出网络中的至少一个全连接层，根据所述目标声像融合特征集，确定出与所述目标声像融合特征集对应的面部控制参数；

参数输出子单元，用于通过融合输出网络中的输出层，输出与目标声像融合特征集对应的面部控制参数；

所述融合特征集形成子单元，包括：

数据拼接子单元，用于通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行数据拼接，形成目标声像融合特征集；

所述融合特征集形成子单元，还包括：

数据处理单元，用于通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行设定的数据运算处理，形成目标声像融合特征集。

本公开实施例所提供的虚拟形象的面部驱动装置可执行本公开任意实施例所提供的虚拟形象的面部驱动方法，具备执行方法相应的功能模块和有益效果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如虚拟形象的面部驱动方法。例如，在一些实施例中，虚拟形象的面部驱动方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的虚拟形象的面部驱动方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行虚拟形象的面部驱动方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种虚拟形象的面部驱动方法，包括：

在当前处理的目标驱动源组中获取目标图像帧以及目标音频片段；形成与所述目标图像帧对应的目标高维视觉特征集，并形成与所述目标音频片段对应的目标高维语音特征集；将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，并确定与目标声像融合特征集对应的面部控制参数；

2.根据权利要求1所述的方法，其中，形成与目标驱动多媒体信息对应的多个驱动源组，包括：

获取所述目标驱动多媒体信息中包括的多个图像帧，并获取每个图像帧在目标驱动多媒体信息中的出现时刻点；

形成与各出现时刻点分别对应的关联时间区间；

在目标驱动多媒体信息中，分别截取与各所述关联时间区间对应的音频片段；

将各所述音频片段与匹配的图像帧进行组合，形成多个驱动源组。

3.根据权利要求2所述的方法，其中，形成与各出现时刻点分别对应的关联时间区间，包括：

以各出现时刻点为中心，分别向两个时间延伸方向上延伸设定时长，形成与各出现时刻点分别对应的关联时间区间。

4.根据权利要求1所述的方法，其中，形成与所述目标图像帧对应的目标高维视觉特征集，并形成与所述目标音频片段对应的目标高维语音特征集，包括：

提取所述目标图像帧中包括的人脸关键点；

将人脸关键点识别结果输入至预先训练的视觉网络中，得到目标高维视觉特征集；

提取目标音频片段中的目标低维语音特征集，并将目标低维语音特征集输入至预先训练的语音网络中，得到目标高维语音特征集。

5.根据权利要求1所述的方法，其中，将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，并确定与目标声像融合特征集对应的面部控制参数，包括：

将所述目标高维视觉特征集与目标高维语音特征集输入至预先训练的融合输出网络中；

通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集；

通过融合输出网络中的至少一个全连接层，根据所述目标声像融合特征集，确定出与所述目标声像融合特征集对应的面部控制参数；

通过融合输出网络中的输出层，输出与目标声像融合特征集对应的面部控制参数。

6.根据权利要求5所述的方法，其中，通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，包括：

通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行数据拼接，形成目标声像融合特征集。

7.根据权利要求5所述的方法，其中，通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，包括：

通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行设定的数据运算处理，形成目标声像融合特征集。

8.一种虚拟形象的面部驱动装置，包括：

特征集生成模块，用于在当前处理的目标驱动源组中获取目标图像帧以及目标音频片段；形成与所述目标图像帧对应的目标高维视觉特征集，并形成与所述目标音频片段对应的目标高维语音特征集；将目标高维视觉特征集与目标高维语音特征集进行特征融合，形成目标声像融合特征集，并确定与目标声像融合特征集对应的面部控制参数；

9.根据权利要求8所述的装置，所述驱动源组形成模块，包括：

组合单元，用于将各所述音频片段与匹配的图像帧进行组合，形成多个驱动源组。

10.根据权利要求9所述的装置，所述时间区间形成单元，包括：

11.根据权利要求8所述的装置，其中，特征集生成模块，包括：

语音网络输入子单元，用于提取目标音频片段中的目标低维语音特征集，并将目标低维语音特征集输入至预先训练的语音网络中，得到目标高维语音特征集。

12.根据权利要求8所述的装置，其中，特征集生成模块，包括：

参数输出子单元，用于通过融合输出网络中的输出层，输出与目标声像融合特征集对应的面部控制参数。

13.根据权利要求12所述的装置，所述融合特征集形成子单元，包括：

数据拼接子单元，用于通过融合输出网络中的融合层，将目标高维视觉特征集与目标高维语音特征集进行数据拼接，形成目标声像融合特征集。

14.根据权利要求12所述的装置，所述融合特征集形成子单元，还包括：

15.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。