CN114202605B

CN114202605B - 3d视频生成方法、模型训练方法、装置、设备和介质

Info

Publication number: CN114202605B
Application number: CN202111494562.2A
Authority: CN
Inventors: 彭哲; 刘玉强; 耿凡禺
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-11-08
Anticipated expiration: 2041-12-07
Also published as: EP4152269A1; EP4152269B1; CN114202605A; US20230177756A1

Abstract

本公开提供了一种3D视频生成方法和装置、一种神经网络模型的训练方法和装置、电子设备、存储介质及计算机程序产品，涉及图像处理技术领域，尤其涉及计算机视觉、增强/虚拟现实、深度学习技术领域。具体实现方案为：基于输入语音特征，使用第一网络来确定用于生成3D视频的主成分分析PCA系数；使用第二网络对所述PCA系数进行校正；基于校正后的PCA系数以及针对包括第一网络和第二网络的神经网络模型的PCA参数来生成唇动信息；以及将所述唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频。

Description

3D视频生成方法、模型训练方法、装置、设备和介质

技术领域

本公开涉及图像处理技术领域，尤其涉及计算机视觉、增强/虚拟现实、深度学习技术领域，具体涉及一种3D视频生成方法和装置、一种神经网络模型的训练方法和装置、电子设备、存储介质及计算机程序产品。

背景技术

在视频制作、电子游戏和自助客服等领域，需要进行3D视频的生成。其中，唇动是3D视频生成过程中较为重要的一环。

3D视频的生成通常受到混合动画(Blendshape)的限制，Blendshape大多手工制作，因而生成的唇动在表现力和细节方面有所欠缺。

发明内容

本公开提供了一种3D视频生成方法和装置、一种神经网络模型的训练方法和装置、电子设备、存储介质及计算机程序产品。

根据本公开的一方面，提供了一种3D视频生成方法，包括：

基于输入语音特征，使用第一网络来确定用于生成3D视频的主成分分析PCA系数；

使用所述第二网络对所述PCA系数进行校正；

基于校正后的PCA系数以及针对包括所述第一网络和所述第二网络的神经网络模型的PCA参数来生成唇动信息；以及

将所述唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频。

根据本公开的另一方面，提供了一种神经网络模型的训练方法，所述神经网络模型包括第一网络和第二网络，所述方法包括：

使用所述第一网络基于第一语音特征来确定第一主成分分析PCA系数；

使用所述第一网络基于第二语音特征来确定第二PCA系数，并使用所述第二网络对所述第二PCA系数进行校正；

基于校正后的第二PCA系数以及针对所述神经网络模型的PCA参数生成唇动信息，并将所述唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频；

计算第一PCA系数与基准PCA系数之间的第一损失函数，以及所生成的唇动信息与目标唇动信息之间的第二损失函数；

基于第一损失函数和第二损失函数来调整所述第一网络的参数和所述第二网络的参数。

根据本公开的另一方面，提供了一种3D视频生成装置，所述神经网络模型包括第一网络和第二网络，所述装置包括：

系数确定模块，用于使用所述第一网络基于输入语音特征来确定用于生成3D视频的主成分分析PCA系数；

系数校正模块，用于使用所述第二网络对所述PCA系数进行校正；

唇动分析模块，用于基于校正后的PCA系数以及针对所述神经网络模型的PCA参数来生成唇动信息；以及

视频合成模块，用于将所述唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频。

据本公开的另一方面，提供了一种神经网络模型的训练装置，所述神经网络模型包括第一网络和第二网络，所述装置包括：

第一确定模块，用于使用所述第一网络基于第一语音特征来确定第一主成分分析PCA系数；

第二确定模块，用于使用所述第一网络基于第二语音特征来确定第二PCA系数，并使用所述第二网络对所述第二PCA系数进行校正；

合成模块，用于基于校正后的第二PCA系数以及针对所述神经网络模型的PCA参数生成唇动信息，并将所述唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频；

损失计算模块，用于计算第一PCA系数与基准PCA系数之间的第一损失函数，以及所生成的唇动信息与目标唇动信息之间的第二损失函数；

调整模块，用于基于第一损失函数和第二损失函数来调整所述第一网络的参数和所述第二网络的参数。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行实现如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行实现如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的3D视频生成方法的流程图；

图2是根据本公开实施例的3D视频生成方法的示意图；

图3是根据本公开另一实施例的3D视频生成方法的流程图；

图4是根据本公开实施例的神经网络模型的训练方法的流程图；

图5是根据本公开实施例的神经网络模型的训练方法的示意图；

图6是根据本公开另一实施例的神经网络模型的训练方法的流程图；

图7是根据本公开实施例的生成训练数据的方法的示意图；

图8是根据本公开实施例的3D视频生成装置的框图；

图9是根据本公开实施例的神经网络模型的训练装置的框图；

图10是用来实现本公开实施例的3D视频生成方法以及神经网络模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例的3D视频生成方法100的流程图。

如图1所示，3D视频生成方法包括操作S 110～S140。该方法可以使用包括第一网络和第二网络的神经网络模型。

在操作S110，基于输入语音特征，使用第一网络来确定用于生成3D视频的主成分分析(Principal Component Analysis，PCA)系数。PCA技术旨在利用降维思想，将高维数据转换为低维数据，从而提取数据的主要特征分类。在PCA处理过程中，通过将高维特征投影到PCA参数得到低维来实现降维，降维得到的特征向量也称作PCA系数。PCA参数是在PCA计算过程中计算得到的，其可以是向量。假设多个3D模型可以表示为大小为N*(V*3)的矩阵，其中V表示3D模型的顶点数，则PCA参数可以是大小为M*(V*3)的向量，PCA系数可以是大小为T*M的向量。

这里所谓的3D视频通常是指含有多个虚拟形象的时间序列，因此可以体现为动画形式，一般应用于电子游戏、视频制作、自助客服等领域，例如，以3D虚拟形象呈现在游戏、动漫或者智能自助服务等场景中，以与用户进行互动。

这里的输入语音特征例如可以是从音频数据中提取的语音特征，或者是通过对文本进行从文本至语音转换(Text To Speech，TTS)而得到的语音特征，或者是采用其他方式获取的语音特征。关于语音特征的获取方式，具体可以根据实际情况选择，在此不做限定。

这里所谓的第一网络例如可以包括长短记忆网络(Long-Short Term Memory，LSTM)。第一网络也可以由其他合适类型的神经网络来实现，具体可以根据实际选择。

在本公开实施例中，第一网络例如可以采用LSTM网络，在基于以上描述的方式获取输入语音特征之后，使用第一网络例如LSTM网络对输入语音特征进行处理，以确定用于生成3D视频的PCA系数。

在操作S120，使用第二网络对PCA系数进行校正。

这里所谓的第二网络例如可以包括卷积神经网络(Convolutional NeuralNetworks，CNN)或者其他合适的模型。

在本公开实施例中，第二网络例如可以选择CNN网络。

例如，通过第一网络例如LSTM网络基于输入语音特征确定用于生成3D视频的PCA系数之后，可以采用第二网络例如CNN网络对PCA系数进行校正，得到校正后的PCA系数，该校正后的PCA系数将在后续用于生成唇动信息。通过使用第二网络对3D-PCA系数进行校正，可以使生成的3D视频在效果上更接近2D数据中的人物形象。

相比于相关技术中的3D视频生成模型，本实施例中采用的神经网络模型，包括第一网络(例如LSTM网络)和第二网络(例如CNN网络)具有更简单的结构。

在操作S130，基于校正后的PCA系数以及针对包括第一网络和第二网络的神经网络模型的PCA参数来生成唇动信息。

这里所谓PCA参数的生成方式将在后续进行详细介绍。

4D数据例如可以包括3D虚拟形象模型的序列及对应的第一音频数据。例如4D数据可以包括多个帧，每一帧是一个3D虚拟形象模型。3D虚拟形象模型包括多个顶点，每个顶点可以由三个维度的坐标(例如x、y、z)来表示。也就是说，4D数据可以包括3D虚拟形象模型的时间序列。4D数据还可以包括与3D虚拟形象模型的时间序列对应的音频数据。例如可以通过录制的方式采集诸如人之类的对象(也称作角色)在脸部活动(例如说话、做表情等等)过程中脸部的多个点的位置变化信息以及由于说话而产生的音频数据。基于脸部的多个点的位置变化信息可以生成3D虚拟形象模型的时间序列，生成的3D虚拟形象模型的时间序列与录制的音频数据相结合，得到4D数据。2D数据例如可以包括指定角色的2D图像数据以及对应的第二音频数据，指定角色可以与获取4D数据时的角色相同，或者不同，数量可以是一个或者多个。具体根据实际情况选择，在此不做限定。

另外，上述4D数据和2D数据可以通过录制的方式获取，或者可以从数据源(例如网络资源)中提取，具体不做限制。

这里所谓的唇动信息是指捕捉数据中说话者在说话时唇部的变化信息，其体现了说话者唇部的固有生理特点，也反映了唇部运动变化的个性行为特点。唇动信息可以是包含唇动特征的特征向量。例如，可以提取对应说话人在某一时间序列时的唇部信息，该唇部信息体现了在该时间序列时说话者的唇部动作。基于所有时间序列对应的唇部信息可以获取数据中说话者在对应时间内的全部唇部动作，这些唇部动作可以在后续用于获取具有唇部效果的3D视频。

在本操作中，基于上述校正后的PCA系数以及采用以上描述的方式获取的针对神经网络模型的PCA参数来生成唇动信息，该唇动信息将在后续应用于闭嘴情况下的3D基础虚拟形象模型，以得到具有唇动效果的3D视频。

在操作S140，将唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频。

这里所谓的具有唇动效果的3D视频是指3D人物具有较高的自由度，例如可以实现任意角度的旋转、移动等等，而且具有更好的表现力，在唇动细节方面也表现的更为丰富。

在本实施例中，预先构建的3D基础虚拟形象模型具体是指闭嘴情况下的3D基础虚拟形象模型，构建3D基础虚拟形象模型的方式可以根据需要采用任何合适的方式，在此不再赘述。

由于生成3D视频的过程不受Blendshape的限制，也即，不需要一一手工制作与3D虚拟形象角色相匹配的Blendshape，从而能够根据不同的3D应用场景灵活构建3D基础虚拟形象模型。相比于采用Blendshape的方法，本实施例中的方法可以适用于不同的3D角色。

在本操作中，将依据以上方式生成的唇动信息应用于预先构建的3D基础虚拟形象模型，可以得到具有唇动效果的3D视频。

本公开实施例的技术方案通过使用新的神经网络模型来生成具有唇动效果的3D视频，该神经网络模型包括第一网络(例如LSTM网络)和第二网络(例如CNN网络)，以更简单的方式实现了具有唇动效果的3D视频的生成。

另外，由于生成3D视频的过程不受Blendshape的限制，相比于采用Blendshape方法生成的3D视频，生成的唇动效果在表现力和细节方面表现更佳。此外，不需要一一手工制作与3D虚拟形象角色相匹配的Blendshape，不仅可以提高具有唇动效果的3D视频的生成效率，降低人工成本，而且可以避免因采用Blendshape而导致的3D虚拟形象角色适用范围受限的问题。

图2是根据本公开实施例的3D视频生成方法的示意图。下面将参考图2来说明上述操作S110～S140的示例实现方式。

例如，采用如图2所示的神经网络模型来生成具有唇动效果的3D视频，该神经网络模型包括第一网络(例如LSTM)210和第二网络(例如CNN)220。

如图2所示，通过以上描述的方式提取语音特征Va之后，使用第一网络210基于输入语音特征Va来确定用于生成3D视频的PCA系数Vb，并将用于生成3D视频的PCA系数Vb输出至第二网络220中。第二网络220对该PCA系数Vb进行校正，得到校正后的PCA系数Vb’，并输出该校正后的PCA系数Vb’。

基于校正后的PCA系数Vb’以及针对神经网络模型的PCA参数Vc计算230唇动信息Vd，将唇动信息Vd应用240于闭嘴情况下的3D基础虚拟形象模型Tmp，得到具有唇动效果的3D视频Anm。唇动信息与以上描述的定义相同或类似，在此不再赘述。神经网络模型的PCA参数Vc例如可以基于4D数据和2D数据生成，具体的生成方式将在后续进行详细介绍。

本公开中的技术方案通过使用新的神经网络模型来生成具有唇动效果的3D视频，该神经网络模型包括第一网络(例如LSTM网络)和第二网络(例如CNN网络)，相比于相关技术采用的神经网络模型具有更简单的结构，以更简单的方式实现了具有唇动效果的3D视频的生成。

图3是根据本公开另一实施例的3D视频生成方法300的流程图。

如图3所示，3D视频生成方法包括操作S310～S350。其中，操作S310～S340可以分别与操作S110～S140以相同的方式实现，重复的部分将不再详细赘述。

在操作S310，基于输入语音特征，使用第一网络来确定用于生成3D视频的主成分分析PCA系数。

在操作S320，使用第二网络对PCA系数进行校正。

在操作S330，基于校正后的PCA系数以及针对神经网络模型的PCA参数来生成唇动信息。

在操作S340，将唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频。

在操作S350，对具有唇动效果的3D视频进行渲染。

例如，可以结合3D场景(例如某一游戏或动漫中的对话场景)以及制作好的3D虚拟形象纹理动作等，对依据以上描述得到的具有唇动效果的3D视频进行渲染，以使渲染后的3D虚拟形象音视频符合相应的3D场景，使3D人物形象更加生动逼真。

在本实施例中，对具有唇动效果的3D视频进行渲染可以根据应用场景选择合适的渲染方式，在此不做限定。

图4是根据本公开实施例的神经网络模型的训练方法400的流程图。该方法适用于训练上述生成3D视频的方法中使用的神经网络模型。

如图4所示，神经网络模型的训练方法包括操作S410～S450。其中，神经网络模型包括第一网络和第二网络。在本公开实施例中，上述第一网络与第二网络与以上描述的定义相同或类似，在此不再赘述。

在操作S410，使用第一网络基于第一语音特征来确定第一PCA系数。

这里所谓的第一语音特征例如可以是基于4D数据生成的，具体生成过程将在后续进行详细介绍。

例如可以使用LSTM网络基于第一语音特征来确定第一PCA系数。

在操作S420，使用第一网络基于第二语音特征来确定第二PCA系数，并使用第二网络对第二PCA系数进行校正。

这里所谓的第二语音特征例如可以是基于2D数据或者4D数据生成的，具体生成过程将在后续进行详细介绍。

例如可以使用LSTM网络基于第二语音特征来确定第二PCA系数，并使用CNN网络对第二PCA系数进行校正。

在操作S430，基于校正后的第二PCA系数以及针对神经网络模型的PCA参数生成唇动信息，并将唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频。

操作S420和S430可以与上述视频生成方法中执行的操作相同或类似，以生成具有唇动效果的3D视频，在此不再赘述。

在操作S440，计算第一PCA系数与基准PCA系数之间的第一损失函数，以及所生成的唇动信息与目标唇动信息之间的第二损失函数。

目标唇动信息可以包括与3D基础虚拟形象模型对齐的2D唇动关键点。例如可以基于2D数据或者4D数据生成目标唇动信息，具体生成过程将在后续进行详细介绍。

这里所谓的基准PCA系数例如可以是基于4D数据生成的，具体生成过程将在后续进行详细介绍。

这里所谓的对齐包括标定在闭嘴情况下的3D基础虚拟形象模型的唇动关键点(称为3D唇动关键点)，将2D唇动关键点与3D基础虚拟形象模型的部分顶点对齐，然后对2D唇动关键点的尺度进行缩放。

在本操作中，依据以上方法获得第一PCA系数、基准PCA系数、唇动信息以及目标唇动信息之后，分别计算第一PCA系数与基准PCA系数之间的第一损失函数，以及所生成的唇动信息与目标唇动信息之间的第二损失函数。该第一损失函数和第二损失函数将在后续用于调整第一网络(例如LSTM网络)和第二网络(例如CNN网络)的参数，从而使得第一网络和第二网络输出的结果更加准确。

在操作S450，基于第一损失函数和第二损失函数来调整第一网络的参数和第二网络的参数。

例如，可以依据采用以上方法计算得到的第一损失函数来调整第一网络(例如LSTM网络)的参数，依据采用以上方法计算得到的第二算数函数来调整第一网络(例如LSTM网络)和第二网络(例如CNN网络)的参数，从而提高了第一网络和第二网络预测的可靠性，使得第一网络和第二网络输出的结果更加准确。

本公开实施例的技术方案基于第二语音特征来训练神经网络模型，在训练过程中利用第一语音特征来辅助训练，相比于仅基于一种语音特征来进行模型训练，提高了模型准确性。在一些实施例中，第一语音数据和第二语音数据可以分别来自于4D数据和2D数据，相比于仅利用4D数据中的语音特征来训练，数据的获取和处理过程都更简单、更高效。

为了使第一网络能够分别处理第一语音特征和第二语音特征以得到对应的PCA系数，在一些实施例中，可以设定上述第一语音特征具有第一权重，上述第二语音特征具有第二权重。其中第一权重和第二权重不同，两个权重值的设定具体根据实际进行，在此不做限定。

根据第一权重和第二权重来控制网络模型对语义特征的处理，具体地，第一网络响应于第一权重为第一值并且第二权重为第二值来执行基于第一语音特征确定第一PCA系数的操作，并且响应于第一权重为第二值并且第二权重为第一值来执行基于第二语音特征确定第二PCA系数的操作。

例如，设定第一权重为零，第二权重为非零值。当第一语音特征的第一权重为零且第二语音特征的第二权重为非零值时，第一网络例如LSTM执行基于第一语音特征确定第一PCA系数的操作，反之，则执行基于第二语音特征确定第二PCA系数的操作。通过上述方式，第一网络可以依序实现对输入第一网络中的第一语音特征和第二语音特征的处理，从而避免第一语音特征的处理与第二语音特征的处理互相冲突，提高了处理效率和准确性。

图5是根据本公开实施例的神经网络模型的训练方法的示意图。下面将参考图5来说明上述操作410～S450的示例实现方式。

例如，如图5所示的神经网络模型包括第一网络(例如LSTM)510和第二网络(例如CNN)520。该神经网络模型被训练完成后可以作为上述生成3D视频的方法中使用的神经网络模型。

如图5所示，获得第一语音特征Va₁和第二语音特征Va₂之后，使用第一网络510基于第一语音特征Va₁来确定第一PCA系数Vb₁，以及使用第一网络510基于第二语音特征Va₂来确定第二PCA系数Vb₂，并使用第二网络520对第二PCA系数Vb₂进行校正，得到校正后的第二PCA系数Vb₂’，并输出该校正后的第二PCA系数Vb₂’。

基于校正后的第二PCA系数Vb₂’以及针对神经网络模型的PCA参数Vc计算530唇动信息Vd，将唇动信息Vd应用540于闭嘴情况下的3D基础虚拟形象模型Tmp，得到具有唇动效果的3D视频Anm。神经网络模型的PCA参数Vc例如可以基于4D数据和2D数据生成，具体的生成方式将在后续进行详细介绍。

基于上述第一PCA系数Vb₁与基准PCA系数Ve计算550第一损失函数，并基于该第一损失函数来调整第一网络510的参数。以及基于上述唇动信息Vd与目标唇动信息Vk计算560第二损失函数，并基于该第二损失函数来调整第一网络510和第二网络520的参数，以更新第一网络510和第二网络520，从而提高了第一网络和第二网络预测的可靠性，使得第一网络和第二网络输出的结果更加准确。

为了使第一网络能够分别处理第一语音特征和第二语音特征，在一些实施例中，可以设定上述第一语音特征Va₁具有第一权重，上述第二语音特征Va₂具有第二权重。其中第一权重和第二权重不同，两个权重值的设定具体根据实际进行，在此不做限定。

例如，设定第一权重为零，第二权重为非零值。当第一语音特征Va₁的第一权重为零且第二语音特征Va₂的第二权重为非零值时，第一网络例如LSTM 510执行基于第一语音特征Va₁确定第一PCA系数Vb₁的操作，反之，则执行基于第二语音特征Va₂确定第二PCA系数Vb₂的操作。通过上述方式，第一网络510可以依序实现对输入第一网络510中的语音特征的处理，从而提高了处理效率和准确性。

图6是根据本公开另一实施例的神经网络模型的训练方法600的流程图。

如图6所示，在本实施例中，神经网络模型的训练方法包括操作S610～S660。其中，操作S620～S660可以分别与操作S410～S450以相同的方式实现，重复的部分不再详细赘述。

在操作S610，基于4D数据和2D数据来生成训练数据。

这里所谓的训练数据例如可以包括第一语音特征、第二语音特征、基准PCA系数、神经网络模型的PCA参数以及目标唇动信息。关于上述这些参数的获取方式将在后续进行详细介绍。

在本操作中，例如可以基于4D数据和2D数据来生成上述训练数据，这些训练数据在后续将用于模型的训练过程，具体训练方式与以上描述的过程相同，在此不再赘述。

在本公开实施例中，在训练过程中利用4D数据来辅助训练，相比于完全基于4D数据来进行模型训练，数据的获取和处理过程都更简单、更高效。

在操作S620，使用第一网络基于第一语音特征来确定第一PCA系数。

在操作S630，使用第一网络基于第二语音特征来确定第二PCA系数，并使用第二网络对第二PCA系数进行校正。

在操作S640，基于校正后的第二PCA系数以及针对神经网络模型的PCA参数生成唇动信息，并将唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频。

在操作S650，计算第一PCA系数与基准PCA系数之间的第一损失函数，以及所生成的唇动信息与目标唇动信息之间的第二损失函数。

在操作S660，基于第一损失函数和第二损失函数来调整第一网络的参数和第二网络的参数。

图7是根据本公开实施例的生成训练数据的方法的示意图，下面将参考图7来说明上述操作S610中生成训练数据的示例实现方式。

在本实施例中，所述的训练数据例如可以包括从4D数据中提取的基准PCA系数、针对神经网络模型的PCA参数和第一语音特征，以及从2D数据中提取的第二语音特征以及目标唇动信息。

其中，4D数据例如可以包括3D虚拟形象模型的序列及对应的第一音频数据。2D数据例如可以包括2D图像数据以及对应的第二音频数据。生成2D数据时录制的对象可以与生成4D数据时录制的对象相同，或者不同。2D数据可以是通过录制一个或者多个对象的视频来生成的，具体数量根据实际情况选择，在此不做限定。关于4D数据和2D数据的获取方式与以上描述的方式相同或类似，在此不再赘述。

下面将参考图7对以上数据的获取方式进行详细说明。

如图7所示，获取4D数据710之后，从4D数据710中提取3D虚拟形象模型序列711和第一音频数据712，其中3D虚拟形象模型序列711包括按时间排序的多个3D虚拟形象模型。对3D虚拟形象模型序列711进行主成分分析(Principal Component Analysis，PCA)处理，得到基准PCA系数7111，该基准PCA系数7111用于与第一PCA系数计算第一损失函数。另外，计算3D虚拟形象模型序列711在基准PCA系数7111上的投影，得到PCA参数7112，该PCA参数7112用于生成唇动信息。从获取的第一音频数据712中提取关于音素的音频特征，得到第一语音特征7121，该第一语音特征7121作为输入语音特征输入第一网络中以确定第一PCA系数。

获取2D数据720之后，从2D数据720中提取2D虚拟形象图像的序列722以及第二音频数据721。从该第二音频数据721中提取关于音素的音频特征，得到第二语音特征7211，该第二语音特征7211作为输入语音特征输入第一网络中以确定第二PCA系数。从2D虚拟形象图像的序列722中提取2D唇动关键点，并将2D唇动关键点与3D基础虚拟形象模型进行对齐，得到与3D基础虚拟形象模型对齐的2D唇动关键点作为目标唇动信息7221，该目标唇动信息7221用于与生成具有唇动效果的3D视频的过程中产生的唇动信息之间计算第二损失函数。其中，将2D唇动关键点与3D基础虚拟形象模型进行对齐的方式与以上描述的过程相同，在此不再赘述。

图8是根据本公开实施例的3D视频生成装置的框图。

如8图所示，3D视频生成装置800包括：系数确定模块810、系数校正模块820、唇动分析模块830和视频合成模块840。神经网络模型包括第一网络和第二网络，在本公开实施例中，上述第一网络与第二网络与以上描述的定义相同或类似，在此不再赘述。

系数确定模块810用于使用第一网络基于输入语音特征来确定用于生成3D视频的PCA系数。

系数校正模块820用于使用第二网络对PCA系数进行校正。

唇动分析模块830用于基于校正后的PCA系数以及针对神经网络模型的PCA参数来生成唇动信息。

视频合成模块840用于将唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频。

在本公开的一些实施例中，上述装置还包括特征提取模块，特征提取模块用于从音频数据中提取输入语音特征，或者通过对文本进行文本至语音转换TTS来得到输入语音特征。

在本公开的一些实施例中，上述装置还包括渲染模块，渲染模块用于对具有唇动效果的3D视频进行渲染。

图9是根据本公开实施例的神经网络模型的训练装置的框图。

如9图所示，神经网络模型的训练装置900包括第一确定模块910、第二确定模块920、合成模块930、损失计算模块940和调整模块950。神经网络模型包括第一网络和第二网络，在本公开实施例中，上述第一网络与第二网络与以上描述的定义相同或类似，在此不再赘述。

第一确定模块910用于使用第一网络基于第一语音特征来确定第一主成分分析PCA系数。

第二确定模块920用于使用第一网络基于第二语音特征来确定第二PCA系数，并使用第二网络对第二PCA系数进行校正。

合成模块930用于基于校正后的第二PCA系数以及针对神经网络模型的PCA参数生成唇动信息，并将唇动信息应用于预先构建的3D基础虚拟形象模型，得到具有唇动效果的3D视频。

损失计算模块940用于计算第一PCA系数与基准PCA系数之间的第一损失函数，以及所生成的唇动信息与目标唇动信息之间的第二损失函数。

调整模块950用于基于第一损失函数和第二损失函数来调整第一网络的参数和第二网络的参数。

在本公开的一些实施例中，上述装置还包括数据处理模块，数据处理模块用于基于4D数据和2D数据来生成训练数据，训练数据包括第一语音特征、第二语音特征、基准PCA系数、PCA参数和目标唇动信息。

在本公开的一些实施例中，上述数据处理模块包括：第一子模块、第二子模块、第三子模块、第四子模块、第五子模块、第六子模块和第七子模块。

第一子模块用于从4D数据中提取3D虚拟形象模型序列和第一音频数据，3D虚拟形象模型序列包括按时间排序的多个3D虚拟形象模型。

第二子模块用于对3D虚拟形象模型序列进行PCA处理，得到PCA参数。

第三子模块用于计算3D虚拟形象模型序列在PCA参数上的投影，得到基准PCA系数。

第四子模块用于从第一音频数据提取第一语音特征。

第五子模块用于从2D数据中提取2D虚拟形象图像的序列以及第二语音特征。

第六子模块用于从2D虚拟形象图像的序列中提取2D唇动关键点。

第七子模块用于将2D唇动关键点与3D基础虚拟形象模型进行对齐，得到与3D基础虚拟形象模型对齐的2D唇动关键点作为目标唇动信息。

在本公开的一些实施例中，上述第一语音特征具有第一权重，上述第二语音特征具有第二权重。上述第一网络被配置为响应于第一权重为第一值并且第二权重为第二值来执行基于第一语音特征确定第一主成分分析PCA系数的操作，并且响应于第一权重为第二值并且第二权重为第一值来执行基于第二语音特征确定第二PCA系数的操作。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如3D视频生成方法以及神经网络模型的训练方法。例如，在一些实施例中，3D视频生成方法以及神经网络模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的3D视频生成方法以及神经网络模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行3D视频生成方法以及神经网络模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种3D视频生成方法，包括：

使用第二网络对所述PCA系数进行校正；

2.根据权利要求1所述的方法，还包括：从音频数据中提取所述输入语音特征，或者通过对文本进行文本至语音转换TTS来得到所述输入语音特征。

3.根据权利要求1或2所述的方法，其中，所述第一网络包括长短记忆网络LSTM，所述第二网络包括卷积神经网络CNN。

4.根据权利要求1或2所述的方法，还包括对所述具有唇动效果的3D视频进行渲染。

5.一种神经网络模型的训练方法，所述神经网络模型包括第一网络和第二网络，所述方法包括：

6.根据权利要求5所述的方法，还包括基于4D数据和2D数据来生成训练数据，所述训练数据包括所述第一语音特征、所述第二语音特征、所述基准PCA系数、所述PCA参数和所述目标唇动信息。

7.根据权利要求6所述的方法，其中，所述生成训练数据包括：

从4D数据中提取3D虚拟形象模型序列和第一音频数据，所述3D虚拟形象模型序列包括按时间排序的多个3D虚拟形象模型；

对3D虚拟形象模型序列进行PCA处理，得到所述PCA参数；

计算所述3D虚拟形象模型序列在所述PCA参数上的投影，得到所述基准PCA系数；

从所述第一音频数据提取所述第一语音特征；

从2D数据中提取2D虚拟形象图像的序列以及第二语音特征；

从2D虚拟形象图像的序列中提取2D唇动关键点；

将所述2D唇动关键点与所述3D基础虚拟形象模型进行对齐，得到与所述3D基础虚拟形象模型对齐的2D唇动关键点作为所述目标唇动信息。

8.根据权利要求5-7中任一项所述的方法，其中，所述第一语音特征具有第一权重，所述第二语音特征具有第二权重，

所述第一网络响应于所述第一权重为第一值并且所述第二权重为第二值来执行基于第一语音特征确定第一主成分分析PCA系数的操作，并且响应于所述第一权重为第二值并且所述第二权重为第一值来执行基于第二语音特征确定第二PCA系数的操作。

9.根据权利要求5-7中任一项所述的方法，其中，所述第一网络包括长短记忆网络LSTM，所述第二网络包括卷积神经网络CNN。

10.一种3D视频生成装置，包括：

系数确定模块，用于基于输入语音特征使用第一网络来确定用于生成3D视频的主成分分析PCA系数；

系数校正模块，用于使用第二网络对所述PCA系数进行校正；

唇动分析模块，用于基于校正后的PCA系数以及针对包括所述第一网络和所述第二网络的神经网络模型的PCA参数来生成唇动信息；以及

11.根据权利要求10所述的装置，还包括：特征提取模块，用于从音频数据中提取所述输入语音特征，或者通过对文本进行文本至语音转换TTS来得到所述输入语音特征。

12.根据权利要求10或11所述的装置，其中，所述第一网络包括长短记忆网络LSTM，所述第二网络包括卷积神经网络CNN。

13.根据权利要求10或11所述的装置，还包括：渲染模块，用于对所述具有唇动效果的3D视频进行渲染。

14.一种神经网络模型的训练装置，所述神经网络模型包括第一网络和第二网络，所述装置包括：

15.根据权利要求14所述的装置，还包括：数据处理模块，用于基于4D数据和2D数据来生成训练数据，所述训练数据包括所述第一语音特征、所述第二语音特征、所述基准PCA系数、所述PCA参数和所述目标唇动信息。

16.根据权利要求15所述的装置，其中，所述数据处理模块包括：

第一子模块，用于从4D数据中提取3D虚拟形象模型序列和第一音频数据，所述3D虚拟形象模型序列包括按时间排序的多个3D虚拟形象模型；

第二子模块，用于对3D虚拟形象模型序列进行PCA处理，得到所述PCA参数；

第三子模块，用于计算所述3D虚拟形象模型序列在所述PCA参数上的投影，得到所述基准PCA系数；

第四子模块，用于从所述第一音频数据提取所述第一语音特征；

第五子模块，用于从2D数据中提取2D虚拟形象图像的序列以及第二语音特征；

第六子模块，用于从2D虚拟形象图像的序列中提取2D唇动关键点；

第七子模块，用于将所述2D唇动关键点与所述3D基础虚拟形象模型进行对齐，得到与所述3D基础虚拟形象模型对齐的2D唇动关键点作为所述目标唇动信息。

17.根据权利要求14-16中任一项所述的装置，其中，所述第一语音特征具有第一权重，所述第二语音特征具有第二权重，

所述第一网络被配置为响应于所述第一权重为第一值并且所述第二权重为第二值来执行基于第一语音特征确定第一主成分分析PCA系数的操作，并且响应于所述第一权重为第二值并且所述第二权重为第一值来执行基于第二语音特征确定第二PCA系数的操作。

18.根据权利要求14-16中任一项所述的装置，其中，所述第一网络包括长短记忆网络LSTM，所述第二网络包括卷积神经网络CNN。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。