CN116385604B

CN116385604B - 视频生成及模型训练方法、装置、设备、存储介质

Info

Publication number: CN116385604B
Application number: CN202310646787.8A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Moore Threads Technology Co Ltd
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-12-19
Anticipated expiration: 2043-06-02
Also published as: CN116385604A

Abstract

本公开实施例提供了一种视频生成及模型训练方法、装置、设备、存储介质，其中，所述方法包括：获取第一语音特征和第一人物的第一头部特征；其中，第一头部特征通过对第一视频中第一人物的嘴部区域进行掩码处理得到，第一语音特征基于第一音频得到；基于第一头部特征和第一语音特征，生成包含第一人物的第二视频；第二视频中第一人物的说话动作与第一音频匹配。根据本公开实施例，能够提高生成的视频中人物整体说话动作的合理性和逼真度，从而提升生成的视频质量。

Description

视频生成及模型训练方法、装置、设备、存储介质

技术领域

本公开涉及但不限于人工智能技术领域，尤其涉及一种视频生成及模型训练方法、装置、设备、存储介质。

背景技术

语音驱动说话人合成指的是通过语音信息驱动目标人物的面部动作，以获得逼真的目标人物说话视频。随着人工智能技术的发展，语音驱动说话人合成的应用越来越广泛。但是，相关技术中，语音驱动生成的说话人视频中，人物的说话动作不够合理逼真，导致视频质量不够高。

发明内容

有鉴于此，本公开实施例至少提供一种视频生成及模型训练方法、装置、设备、存储介质，能够提高生成的视频中人物整体说话动作的合理性和逼真度，从而提升生成的视频质量。

本公开实施例的技术方案是这样实现的：

本公开实施例提供一种视频生成方法，所述方法包括：

获取第一语音特征和第一人物的第一头部特征；其中，所述第一头部特征通过对第一视频中第一人物的嘴部区域进行掩码处理得到，所述第一语音特征基于第一音频得到；

基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第二视频；所述第二视频中所述第一人物的说话动作与所述第一音频匹配。

本公开实施例提供一种模型训练方法，所述方法包括：

获取第一语音训练数据和第二人物的第一头部训练数据；其中，所述第一头部训练数据通过对训练视频中所述第二人物的嘴部区域进行掩码处理得到，所述第一语音训练数据基于训练音频得到；

将所述第一语音训练数据和所述第一头部训练数据输入待训练模型，得到包含所述第二人物的第五视频；

利用所述第五视频确定目标损失，并基于所述目标损失对所述待训练模型进行参数调节；

在所述第五视频中所述第二人物的说话动作与所述训练音频匹配的情况下，确定所述待训练模型训练完成。

本公开实施例提供一种视频生成装置，所述装置包括：

第一获取模块，用于获取第一语音特征和第一人物的第一头部特征；其中，所述第一头部特征通过对第一视频中第一人物的嘴部区域进行掩码处理得到，所述第一语音特征基于第一音频得到；

第一生成模块，用于基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第三视频；所述第三视频中所述第一人物的说话动作与所述第一音频匹配。

本公开实施例提供一种模型训练装置，所述装置包括：

第二获取模块，用于获取第一语音训练数据和第二人物的第一头部训练数据；其中，所述第一头部训练数据通过对训练视频中所述第二人物的嘴部区域进行掩码处理得到；所述第一语音训练数据基于训练音频得到；

第二生成模块，用于将所述第一语音训练数据和所述第一头部训练数据输入待训练模型，得到包含所述第二人物的第五视频；

调节模块，用于利用所述第五视频确定目标损失，并基于所述目标损失对所述待训练模型进行参数调节；

第一确定模块，用于在所述第五视频中所述第二人物的说话动作与所述训练音频匹配的情况下，确定所述待训练模型训练完成。

本公开实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述视频生成方法或模型训练方法中的部分或全部步骤。

本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述视频生成方法或模型训练方法中的部分或全部步骤。

本公开实施例中，通过获取第一语音特征和第一人物的第一头部特征，并基于第一头部特征和第一语音特征，生成包含第一人物的第二视频，且第二视频中第一人物的说话动作与第一音频匹配。这样，由于第一头部特征是通过对第一视频中第一人物的嘴部区域进行掩码处理得到的，因此第一头部特征不受嘴部区域的影响，更加合理和准确，并且第一语音特征是基于第一音频得到的，从而基于该第一头部特征和第一语音特征生成的第二视频中，第一人物的头部外观姿态会更准确，且该头部外观姿态与第一音频会更加匹配，进而使得人物整体说话动作更加合理和逼真。如此，能够提高生成的第二视频中第一人物整体说话动作的合理性和逼真度，从而提升生成的第二视频的质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例提供的一种视频生成方法的实现流程示意图一；

图2为本公开实施例提供的一种视频生成方法的实现流程示意图二；

图3为本公开实施例提供的一种视频生成方法的实现流程示意图三；

图4为本公开实施例提供的一种模型训练方法的实现流程示意图一；

图5为本公开实施例提供的一种模型训练方法的实现流程示意图二；

图6A为本公开实施例提供的一种视频生成方法的实现流程示意图四；

图6B为本公开实施例提供的一种利用交叉重建解耦网络对内容编码器和情绪编码器进行训练的实现示意图；

图7A为本公开实施例提供的一种视频生成装置的组成结构示意图

图7B为本公开实施例提供的一种模型训练装置的组成结构示意图；

图8为本公开实施例提供的一种计算机设备的硬件实体示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面结合附图和实施例对本公开的技术方案进一步详细阐述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开的目的，不是旨在限制本公开。

相关技术中，通常采用特征编码器分别对参考视频及驱动音频进行特征提取，得到视频模态的特征和音频模态的特征，然后结合这两种模态的特征在特征解码端解码生成与该驱动音频匹配的视频。然而，相关技术中的视频生成方法中忽视了头部外形姿态的建模，使得生成的视频中人物的头部外形姿态与驱动音频不够贴合，从而人物的说话动作不够合理逼真，导致视频质量不够高。

有鉴于此，本公开实施例提供一种视频生成方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备（例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备）等具备数据处理能力的设备。

为了更好地理解本公开实施例，下面先对本公开实施例中涉及的部分名词进行解释：

第一视频：预先设定的包含第一人物的视频；

第二视频：待生成的包含第一人物的视频；

第三视频：对第一视频中第一人物的嘴部区域进行掩码处理得到的视频；

第四视频：待生成的包含第一人物的视频，对第四视频中至少一个视频帧中的人脸区域与背景区域进行图像融合可以得到第二视频；

第一音频：预先设定的用于驱动待生成的第二视频中第一人物说话的音频；

训练视频：用于进行模型训练的视频，训练视频中包含第二人物；

第五视频：在模型训练过程中生成的包含第二人物的视频；

第六视频：对训练视频中第二人物的嘴部区域进行掩码处理得到的视频；

训练音频：预先设定的用于驱动待生成的第五视频中第二人物说话的音频；

参考视频：预先设定的与训练音频对应的视频标签，参考视频中包括第二人物，且参考视频中第二人物的说话动作与训练音频匹配。

图1为本公开实施例提供的一种视频生成方法的实现流程示意图，如图1所示，该方法可以包括如下步骤S101至步骤S102：

步骤S101，获取第一语音特征和第一人物的第一头部特征；其中，所述第一头部特征通过对第一视频中第一人物的嘴部区域进行掩码处理得到，所述第一语音特征基于第一音频得到。

这里，第一音频可以是预先设定的用于驱动待生成的第二视频中人物说话的音频。第一音频中可以包含任意合适的语音内容。在实施时，本领域技术人员可以根据实际情况采用任意合适的方式获取第一音频，本公开实施例对此并不限定。例如，第一音频可以是预先采集的音频，第一音频也可以是根据设定的文本合成的音频。

第一语音特征可以是对第一音频进行特征提取得到的。在实施时，可以采用任意合适的特征提取网络，对第一音频进行特征提取，得到第一语音特征，本公开实施例对此并不限定。对第一音频进行特征提取采用的特征提取网络可以包括但不限于CNN、RNN、Transformer编码器等中的至少之一。

在一些实施方式中，第一语音特征可以包括但不限于表征语音内容的第一内容特征、以及表征语音中所包含的情绪的第一情绪特征等中的至少之一。

第一视频中可以包括至少一个包含第一人物的视频帧。可以理解的是，第一视频中可以包括预先采集或合成的连续的多个视频帧，第一视频中也可以包括从连续的多个视频帧中采样得到的至少一个视频帧。

通过对第一视频中第一人物的嘴部区域进行掩码处理，可以得到第一头部特征。第一头部特征可以包括但不限于对第一人物的头部运动进行表征的第一头部动作特征、对头部中除嘴部区域之外的区域进行整体表征的第一非嘴部区域特征、对第一人物的面部表情进行表征的第一表情特征等中的至少之一。

在一些实施方式中，可以对第一视频中第一人物的嘴部区域进行掩码处理，得到第三视频，并从第三视频中提取第一人物的第一头部特征。

这里，可以对第一视频的各视频帧中包含的第一人物的嘴部区域进行掩码处理，得到第三视频。

在一些实施方式中，可以检测出第一视频的各视频帧中第一人物的嘴部区域，并对各视频帧中分别对应的嘴部区域进行掩码处理。在实施时，可以利用目标检测算法对视频帧中的嘴部关键点进行识别，得到该视频帧中第一人物的嘴部区域。

在一些实施方式中，可以检测出第一视频的至少一个视频帧中第一人物的嘴部区域，根据该至少一个视频帧中第一人物的嘴部区域，确定第一视频中各视频帧分别对应的嘴部区域，并对各视频帧中的嘴部区域进行掩码处理。在实施时，本领域技术人员可以根据实际情况，采用任意合适的方式基于至少一个视频帧中第一人物的嘴部区域，确定第一视频中各视频帧分别对应的嘴部区域。例如，可以将检测到的至少一个视频帧中第一人物的嘴部区域之间的并集或交集，确定为第一视频中各视频帧分别对应的嘴部区域。又如，可以将检测到的一个视频帧中第一人物的嘴部区域，确定为第一视频中各视频帧分别对应的嘴部区域。

通过采用任意合适的特征提取网络，对第三视频进行特征提取，可以得到第一人物的第一头部特征。由于第三视频的各视频帧中包含的第一人物的嘴部区域被掩码处理，从而对第三视频进行特征提取可以得到第三视频中第一人物的除嘴部区域之外的头部特征，即第一头部特征。

在实施时，对第三视频进行特征提取采用的特征提取网络可以包括但不限于卷积神经网络（Convolutional Neural Networks，CNN）、循环神经网络（Recurrent NeuralNetwork，RNN）、基于转换器（Transformer）的编码器网络等中的至少之一。例如，可以采用VGG网络（如VGG16、VGG19等）对第三视频进行特征提取，得到第一头部特征。

可以理解的是，上述对第一音频进行特征提取得到第一语音特征的过程、对第一视频中第一人物的嘴部区域进行掩码处理得到第三视频的过程、以及从第三视频中提取第一人物的第一头部特征的过程，可以是在执行该视频生成方法的处理器中执行的，也可以是由其他处理器执行的，这里并不限定。

步骤S102，基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第二视频，其中，所述第二视频中所述第一人物的说话动作与所述第一音频匹配。

这里，可以基于第一头部特征和第一语音特征渲染生成包含第一人物的视频帧序列，从而得到第二视频，并且第二视频中该第一人物的说话动作与第一音频是匹配的。其中，第一人物的说话动作可以包括但不限于口型、面部表情、头部动作等中的至少之一。

在实施时，生成的第二视频可以是不带声音的，也可以是带有声音的，本公开实施例对此并不限定。例如，在生成的第二视频不带声音的情况下，本领域技术人员可以根据实际应用场景，将第一音频添加至该第二视频中，得到带有声音的第二视频。

在一些实施方式中，在渲染生成包含第一人物的视频帧序列后，可以将该视频帧序列与第一音频进行合成，得到合成后的带有声音的第二视频。

在一些实施方式中，可以采用预先训练的渲染生成网络，基于第一头部特征和第一语音特征，渲染生成第二视频。其中，渲染生成网络可以是本领域技术人员根据实际情况采用的任意合适的神经网络，本公开实施例对此并不限定。

在一些实施方式中，可以先对第一头部特征和第一语音特征进行融合，得到第一融合特征，然后利用预先训练的渲染生成网络，基于第一融合特征渲染生成第二视频。

可以理解的是，第一头部特征可以用于渲染第二视频的各视频帧中非嘴部区域对应的图像部分，第一语音特征可以用于生成第二视频的各视频帧中的嘴部区域对应的图像部分，从而基于第一头部特征和第二头部特征可以生成包含第一人物的第二视频。在实施时，第二视频的各视频帧中非嘴部区域对应的图像部分与嘴部区域对应的图像部分可以是分别渲染后融合至一起的，也可以是一起渲染得到的。

在一些实施例中，所述第一头部特征包括第一非嘴部区域特征和第一头部动作特征，所述第一非嘴部区域特征通过对第三视频进行编码处理得到，所述第三视频通过对所述第一视频中所述第一人物的嘴部区域进行掩码处理得到；所述第一头部动作特征通过将所述第一非嘴部区域特征映射至预设的动作特征空间得到。

在一些实施方式中，上述从第三视频中提取第一人物的第一头部特征的过程，可以包括如下步骤S111至步骤S112：

步骤S111，对第三视频进行编码处理，得到第一非嘴部区域特征。

这里，可以采用任意合适的编码器对第三视频进行编码处理，以提取第三视频中第一人物除嘴部区域之外的视觉特征，得到第一非嘴部区域特征。

在实施时，对第三视频进行编码处理所采用的编码器可以是预先训练好的，也可以是初始化后未经训练的，本公开实施例对此并不限定。

在一些实施方式中，可以利用已训练的第一编码器对第三视频中的各视频帧进行编码处理，得到第一非嘴部区域特征，该第一非嘴部区域特征中可以包括每一视频帧分别对应的非嘴部区域子特征。第一编码器可以包括但不限于基于CNN的编码器、基于RNN的编码器、基于Transformer的编码器等中的至少之一。例如，第一编码器可以包括基于VGG网络（如VGG16、VGG19等）的编码器。

步骤S112，将第一非嘴部区域特征映射至预设的动作特征空间，得到第一头部动作特征。

这里，动作特征空间可以用于定义人物头部的运动姿态表征。利用设定的映射子网络，可以将第一非嘴部区域特征映射至该动作特征空间中，得到表征第一人物头部运动的第一头部动作特征。其中，映射子网络可以包括但不限于映射（Mapping）层、嵌入（Embedding）层、全连接层等中的至少之一，本公开实施例对此并不限定。

在实施时，动作特征空间可以是本领域技术人员根据实际情况预先设定的。例如，动作特征空间的维度可以为12维，动作特征空间中的每一头部动作特征可以为一个12维的向量，其中，每一头部动作特征可以包括9维的旋转矩阵、2维的平移表征和1维的尺度表征。

上述实施例中，对第三视频进行编码处理，得到第一非嘴部区域特征，将第一非嘴部区域特征映射至预设的动作特征空间，得到第一头部动作特征。这样，可以分别对第一人物非嘴部区域的视觉特征、以及第一人物的头部运动进行建模，从而使得提取的第一非嘴部区域特征可以更好地表征第一人物非嘴部区域的视觉特征，并且提取的第一头部动作特征可以更好地表征第一人物的头部运动，从而能够进一步提高生成的第二视频中第一人物整体说话动作的合理性和逼真度，提升生成的第二视频的质量。

在一些实施例中，上述步骤S102可以包括如下步骤S121至步骤S122：

步骤S121，基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第四视频。

步骤S122，对所述第四视频中至少一个第四视频帧中的人脸区域与背景区域进行图像融合，得到所述第二视频。

这里，可以在基于第一头部特征和第一语音特征渲染生成包含第一人物的第四视频之后，采用图像融合算法对第四视频中至少一个第四视频帧的人脸区域与背景区域进行图像融合，得到第二视频。

在实施时，可以采用任意合适的图像融合方式对第四视频中至少一个第四视频帧中的人脸区域与背景区域进行图像融合，本公开实施例对此并不限定。例如，采用的图像融合方式可以包括但不限于泊松融合、拉普拉斯金字塔融合、多频带融合等中的至少之一。

上述实施例中，基于第一头部特征和第一语音特征，生成包含第一人物的第四视频；对第四视频中至少一个第四视频帧中的人脸区域与背景区域进行图像融合，得到第二视频。这样，可以使得生成的第二视频中各视频帧的人脸区域与背景区域之间的过渡更加自然，从而减少第二视频中的细微伪影，并能减少第二视频的各视频帧中第一人物外观的细微变化，从而可以提高第二视频的各视频帧中第一人物外观的一致性。

本公开实施例提供一种视频生成方法，该方法可以由计算机设备的处理器执行。图2为本公开实施例提供的一种视频生成方法的实现流程示意图，如图2所示，该方法可以包括如下步骤S201至步骤S203：

步骤S201，获取第一语音特征和第一人物的第一头部特征；其中，所述第一头部特征通过对第一视频中第一人物的嘴部区域进行掩码处理得到，所述第一语音特征基于第一音频得到。

这里，步骤S201对应于前述实施例中的步骤S101，在实施时可以参照前述步骤S101的实施方式。

步骤S202，对所述第一头部特征和所述第一语音特征进行融合，得到第一融合特征。

这里，对第一头部特征和第一语音特征进行融合的处理可以包括但不限于对第一头部特征和第一语音特征进行拼接、卷积融合等处理中的至少之一。

在一些实施方式中，可以将第一头部特征与第一语音特征进行整体融合，得到第一融合特征。

在一些实施方式中，第一头部特征可以包括分别对应于第一视频中每一视频帧的第一头部子特征，第一语音特征可以包括分别对应于第一视频中每一视频帧的第一语音子特征，第一融合特征可以包括分别对应于第一视频中每一视频帧的第一融合子特征。在实施时，可以将第一头部特征中的各第一头部子特征与第一语音特征中的各第一语音子特征进行帧级融合，得到融合后的第一融合特征。例如，可以针对第一视频中的每一视频帧，将该视频帧对应的第一头部子特征与第一语音子特征进行拼接，得到该视频帧对应的第一融合子特征，从而得到第一融合特征。

步骤S203，基于所述第一融合特征，生成第二视频，其中，所述第二视频中所述第一人物的说话动作与所述第一音频匹配。

在一些实施方式中，可以采用预先训练的渲染生成网络，基于第一融合特征，渲染生成第二视频。其中，渲染生成网络可以是本领域技术人员根据实际情况采用的任意合适的神经网络，本公开实施例对此并不限定。例如，渲染生成网络可以包括但不限于编码器-解码器网络、解码器网络、或生成对抗网络等。

本公开实施例中，先对第一头部特征和第一语音特征进行融合，得到第一融合特征，然后基于第一融合特征，可以更加准确地生成第二视频，使得第二视频中第一人物的说话动作能够与第一音频更好地匹配。

在一些实施例中，所述第一语音特征包括第一内容特征和第一情绪特征。上述步骤S202可以包括如下步骤S211：

步骤S211，对所述第一头部特征和所述第一内容特征进行融合，得到第一融合特征。

这里，第一语音特征可以包括表征语音内容的第一内容特征、以及表征语音中所包含的情绪的第一情绪特征。在实施时，可以从第一音频中分别提取第一内容特征和第一情绪特征。

在一些实施方式中，可以采用两个编码器分别对第一音频进行特征提取，得到第一内容特征和第一情绪特征。

对第一头部特征和第一内容特征进行融合的处理可以包括但不限于对第一头部特征和第一内容特征进行拼接、卷积融合等处理中的至少之一。

在一些实施方式中，可以将第一头部特征与第一内容特征进行整体融合，得到第一融合特征。

在一些实施方式中，可以将第一头部特征中分别对应于不同视频帧的多个第一头部子特征、与第一内容特征中分别对应于不同视频帧的第一内容子特征进行帧级融合，得到融合后的第一融合特征。

上述步骤S203可以包括如下步骤S212：

步骤S212，基于所述第一融合特征和所述第一情绪特征，生成所述第二视频。

这里，可以采用预先训练的渲染生成网络，基于第一融合特征和第一情绪特征，渲染生成第二视频。例如渲染生成网络可以包括但不限于编码器-解码器网络、生成对抗网络中的生成器等中的至少之一。

在一些实施方式中，可以对第一融合特征和第一情绪特征进行编码处理，得到特征编码，然后对该特征编码进行解码处理，生成第二视频。例如，渲染生成网络可以包括第四编码器和第一解码器，可以利用第四编码器对第一融合特征和第一情绪特征进行编码处理，得到特征编码，然后利用第一解码器对该特征编码进行解码处理，生成第二视频。

在一些实施方式中，可以对第一融合特征进行编码处理，得到特征编码，然后对该特征编码和第一情绪特征进行解码处理，生成第二视频。

上述实施例中，可以从第一音频中分别提取第一内容特征和第一情绪特征；对第一头部特征和第一内容特征进行融合，得到第一融合特征，并基于第一融合特征和第一情绪特征，生成第二视频。这样，可以将第一音频中的内容特征和情绪特征解耦，从而在第一内容特征驱动嘴部动作生成的同时，结合第一情绪特征对第一人物的面部表情进行自适应调整，进而可以使得生成的第二视频中第一人物的头部外观姿态能够更好地与第一音频中的语音内容和情绪匹配。

在一些实施例中，上述步骤S212可以包括如下步骤S221至步骤S222：

步骤S221，对所述第一融合特征进行编码处理，得到编码后的所述第一融合特征。

步骤S222，对所述第一情绪特征和编码后的所述第一融合特征进行解码处理，得到所述第二视频。

在一些实施方式中，可以利用第四编码器对第一融合特征进行编码处理，得到编码后的第一融合特征，然后利用第一解码器对第一情绪特征和编码后的第一融合特征进行解码处理，得到第视频。

本公开实施例提供一种视频生成方法，该方法可以由计算机设备的处理器执行。图3为本公开实施例提供的一种视频生成方法的实现流程示意图，如图3所示，该方法可以包括如下步骤S301至步骤S305：

步骤S301，对第一视频中的第一人物人脸进行检测，得到所述第一视频中至少一个第一视频帧分别对应的人脸关键点。

步骤S302，针对每一所述第一视频帧，基于所述第一视频帧对应的人脸关键点，确定所述第一视频帧对应的嘴部区域。

步骤S303，对每一所述第一视频帧分别对应的嘴部区域进行掩码处理，得到第三视频。

这里，可以采用预先训练的人脸检测网络，对第一视频的至少一个第一视频帧中的第一人物的人脸进行检测，得到每一第一视频帧中分别包含的人脸关键点。

人脸关键点可以包括但不限于嘴部关键点、眼部关键点、鼻部关键点、眉毛关键点等中的至少之一。可以理解的是，针对每一第一视频帧，根据该第一视频帧中包含的人脸关键点，可以确定第一视频帧中第一人物的人脸的各个区域。例如，根据第一视频帧中包含的嘴部关键点，可以确定第一视频帧中第一人物的嘴部区域；根据第一视频帧中包含的眼部关键点，可以确定第一视频帧中第一人物的眼部区域。

在一些实施方式中，针对第一视频中的每一第一视频帧，可以根据该第一视频帧中对应的嘴部关键点，对该第一视频帧中第一人物的嘴部区域进行分割，得到该第一视频帧对应的嘴部区域以及非嘴部区域。

确定每一第一视频帧分别对应的嘴部区域后，可以对每一第一视频帧分别对应的嘴部区域进行掩码处理，得到掩码后的各第一视频帧，从而得到包含掩码后的各第一视频帧的第三视频。

步骤S304，获取第一语音特征和第一人物的第一头部特征；其中，所述第一头部特征基于所述第三视频得到，所述第一语音特征基于第一音频得到。

这里，步骤S304对应于前述实施例中的步骤S101，在实施时可以参照前述步骤S101的实施方式。

步骤S305，基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第二视频，其中，所述第二视频中所述第一人物的说话动作与所述第一音频匹配。

这里，步骤S304至步骤S305分别对应于前述实施例中的步骤S101至步骤S102，在实施时可以参照前述步骤S101至步骤S102的实施方式。

本公开实施例中，对第一视频中的第一人物人脸进行检测，得到所述第一视频中至少一个第一视频帧分别对应的人脸关键点；针对每一第一视频帧，基于第一视频帧对应的人脸关键点，确定第一视频帧对应的嘴部区域；对每一第一视频帧分别对应的嘴部区域进行掩码处理，得到第三视频。这样，可以快速准确地对第一视频中第一人物的嘴部区域进行掩码处理，得到第三视频。

在一些实施例中，所述方法还包括如下步骤S311：

步骤S311，从所述第一视频中确定第一参考视频帧。

这里，可以采用任意合适的方式从第一视频中确定第一参考视频帧，本公开实施例对此并不限定。例如，可以将第一视频中图像质量最高的第一视频帧确定为第一参考视频帧。又如，可以将第一视频中的第一个第一视频帧确定为第一参考视频帧。再如，可以从第一视频中随机选取一个视频帧作为第一参考视频帧。

上述步骤S305可以包括如下步骤S312：

步骤S312，基于所述第一头部特征、所述第一人物的第一身份特征和所述第一语音特征，生成包含所述第一人物的第二视频；其中，所述第一身份特征是从所述第一参考视频帧中提取的。

这里，可以对第一参考视频帧中第一人物的身份信息进行识别，得到第一人物的第一身份特征。基于第一头部特征、第一身份特征和第一语音特征可以渲染生成包含第一人物的视频帧序列，从而得到第三视频。

在实施时，可以采用预先训练的渲染生成网络，基于第一头部特征、第一身份特征和第一语音特征，渲染生成第二视频。

上述实施例中，从第一视频中确定第一参考视频帧，并从第一参考视频帧中提取第一人物的第一身份特征；基于第一头部特征、第一身份特征和第一语音特征，生成包含第一人物的第二视频。这样，在生成第二视频的过程中综合考虑了第一人物的第一身份特征，从而可以更好地维持第二视频中第一人物的整体视觉特征以及第一人物在各视频帧中的身份一致性，进而使得该视频生成方法可以更好地适用于不同人物对应的第二视频的生成场景。

在一些实施例中，所述人脸关键点包括表征上嘴唇的第一关键点、以及表征下嘴唇的第二关键点。上述步骤S311可以包括如下步骤S321至步骤S322：

步骤S321，针对每一所述第一视频帧，基于所述第一视频帧对应的第一关键点和第二关键点，确定所述第一视频帧中嘴部的闭合程度。

这里，可以根据第一视频帧对应的第一关键点与第二关键点之间的距离，确定第一视频帧中第一人物的上嘴唇与下嘴唇之间的距离，从而可以确定第一视频帧中嘴部的闭合程度。可以理解的是，上嘴唇与下嘴唇之间的距离越小，表示嘴部的闭合程度越大，上嘴唇与下嘴唇之间的距离越大，表示嘴部的闭合程度越低。

在一些实施方式中，第一关键点的数量为一个，第二关键点的数量也为一个，可以根据第一视频帧对应的一个第一关键点与一个第二关键点之间的距离，确定该第一视频帧中嘴部的闭合程度。其中，第一视频帧中嘴部的闭合程度与该第一视频帧对应的一个第一关键点和一个第二关键点之间的距离成反比。例如，可以将第一视频帧对应的一个第一关键点与一个第二关键点之间的距离的倒数，确定为该第一视频帧中嘴部的闭合程度。

在一些实施方式中，第一关键点的数量为多个，第二关键点的数量也为多个，且多个第一关键点与多个第二关键点之间一一对应，可以根据第一视频帧中的多个第一关键点分别与对应的第二关键点之间的距离，确定该第一视频帧中嘴部的闭合程度。例如，可以根据第一视频帧中的多个第一关键点分别与对应的第二关键点之间的距离的平均值，确定该第一视频帧中嘴部的闭合程度。又如，可以根据第一视频帧中的多个第一关键点分别与对应的第二关键点之间的距离的最小值，确定该第一视频帧中嘴部的闭合程度。

步骤S322，从所述第一视频中确定嘴部的闭合程度最大的第一参考视频帧。

在一些实施方式中，可以将第一视频中嘴部的闭合程度最大的一个第一视频帧确定为第一参考视频帧。

在一些实施方式中，可以从第一视频中嘴部的闭合程度最大的多个第一视频帧中，选择一个第一视频帧作为第一参考视频帧。

上述实施例中，针对每一第一视频帧，基于该第一视频帧对应的第一关键点和第二关键点，确定该第一视频帧中嘴部的闭合程度，从而基于每一第一视频帧中嘴部的闭合程度，可以从第一视频中确定嘴部的闭合程度最大（即第一人物的嘴部动作幅度较小）的第一参考视频帧，进而可以减少第一参考视频帧中嘴部动作对身份信息识别的干扰。这样，在从第一参考视频帧中提取第一人物的第一身份特征的过程中可以更好地聚焦于人物身份信息的识别，从而可以提升提取的第一人物的第一身份特征的准确性。

本公开实施例提供一种模型训练方法，该方法可以由计算机设备的处理器执行。图4为本公开实施例提供的一种模型训练方法的实现流程示意图，如图4所示，该方法可以包括如下步骤S401至步骤S404：

步骤S401，获取第一语音训练数据和第二人物的第一头部训练数据；其中，所述第一头部训练数据通过对训练视频中所述第二人物的嘴部区域进行掩码处理得到，所述第一语音训练数据基于训练音频得到。

这里，训练音频和训练视频分别为预先确定的用于进行模型训练的音频样本和视频样本。训练视频中可以包括至少一个包含第二人物的视频帧。训练音频中可以包含任意合适的语音内容。在实施时，本领域技术人员可以根据实际情况采用任意合适的训练音频和训练视频，本公开实施例并不限定。例如，训练音频和训练视频可以是在真实场景中预先采集的，也可以是根据设定的文本、语境等合成的。

第一语音训练数据可以是基于训练音频得到的。在一些实施方式中，第一语音训练数据可以包括训练音频。在一些实施方式中，第一语音训练数据可以包括从训练音频中提取得到的第二语音特征。

第一头部训练数据可以是通过对训练视频中所述第二人物的嘴部区域进行掩码处理得到的。在一些实施方式中，第一头部训练数据可以包括对训练视频中第二人物的嘴部区域进行掩码处理得到的第六视频。在一些实施方式中，第一头部训练数据可以包括从第六视频中提取得到的第二头部特征。在实施时，可以参照前述实施例中对第一视频中第一人物的嘴部区域进行掩码处理的方式，对训练视频中第二人物的嘴部区域进行掩码处理，得到第六视频。

步骤S402，将所述第一语音训练数据和所述第一头部训练数据输入待训练模型，得到包含所述第二人物的第五视频。

步骤S403，利用所述第五视频确定目标损失，并基于所述目标损失对所述待训练模型进行参数调节。

步骤S404，在所述第五视频中所述第二人物的说话动作与所述训练音频匹配的情况下，确定所述待训练模型训练完成。

这里，目标损失可以表征第五视频中第二任务的说话动作与训练音频的匹配情况。在实施时，本领域技术人员可以根据实际情况采用合适的方式基于第五视频确定目标损失，本公开实施例对此并不限定。例如，可以基于第五视频、以及训练音频对应的参考视频，确定第一损失。其中，参考视频可以为预先设定的与训练音频对应的视频标签。参考视频中第二人物的说话动作与该训练音频是匹配的。

在目标损失表征第五视频中第二任务的说话动作与训练音频匹配的情况下，可以不对待训练模型继续进行参数调节，也即确定待训练模型训练完成。在目标损失表征第五视频中第二任务的说话动作与训练音频不匹配的情况下，可以继续对待训练模型进行参数调节，也即确定待训练模型未训练完成。

在一些实施方式中，可以在目标损失不满足第一预设条件的情况下，确定第五视频中第二任务的说话动作与训练音频不匹配，在目标损失满足第一预设条件或对待训练模型进行参数调节的次数达到设定阈值的情况下，确定第五视频中第二任务的说话动作与训练音频的匹配。第一预设条件可以包括但不限于目标损失小于设定的损失阈值、目标损失的变化收敛等至少之一。在实施时，第一预设条件可以根据实际情况设定，本公开实施例对此并不限定。

基于目标损失对待训练模型进行参数调节的方式可以是根据实际情况确定的，可以包括但不限于梯度下降法、牛顿动量法等中的至少一种，这里并不限定。

本公开实施例中，在对待训练模型进行训练的过程中，一方面，由于第一头部训练数据是通过对训练视频中第二人物的嘴部区域进行掩码处理得到的，因此第一头部训练数据不受嘴部区域的影响，更加合理和准确，并且第一语音训练数据是基于训练音频得到的，可以更好地体现训练音频中的语音特征；另一方面，由于目标损失是基于第五视频确定的，且在第五视频中第二人物的说话动作与训练音频匹配的情况下，确定待训练模型训练完成，因此，基于目标损失对待训练模型进行参数调节，可以提高待训练模型基于第一头部训练数据和第一语音训练数据生成第五视频的能力。这样，可以使得训练后的待训练模型生成的视频中，人物的头部外观姿态更加准确，且该头部外观姿态与驱动音频更加匹配，从而使得人物整体说话动作更加合理和逼真，进而提升生成的视频的质量。

在一些实施例中，待训练模型包括渲染生成网络，第一语音训练数据包括第二语音特征，第一头部训练数据包括第二头部特征。上述步骤S402可以包括如下步骤S411：

步骤S411，利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频。

这里，可以利用渲染生成网络，参照前述实施例中基于第一头部特征和第一语音特征生成第二视频的方式，基于第二头部特征和第二语音特征，生成第五视频。其中，渲染生成网络可以包括但不限于编码器-解码器网络、解码器网络、或生成对抗网络等。

在一些实施例中，所述待训练模型包括渲染生成网络、以及第一特征提取网络和第二特征提取网络二者中的至少之一。

在待训练模型包括第一特征提取网络且不包括第二特征提取网络的情况下，第一头部训练数据包括第六视频，第六视频通过对训练视频中所述第二人物的嘴部区域进行掩码处理得到，第一语音训练数据包括第二语音特征。上述步骤S402可以包括如下步骤S421a至步骤S421b：

步骤S421a，利用所述第一特征提取网络，从所述第六视频中提取所述第二人物的第二头部特征。

步骤S421b，利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频。

这里，可以利用第一特征提取网络，参照前述实施例中从第三视频中提取第一人物的第一头部特征的方式，从第六视频中提取第二人物的第二头部特征。其中，第一特征提取网络可以包括但不限于CNN、RNN、Transformer编码器等中的至少之一。例如，第一特征提取网络可以采用VGG网络（如VGG16、VGG19等）作为基础网络。

在所述待训练模型包括第二特征提取网络且不包括第一特征提取网络的情况下，第一头部训练数据包括第二头部特征，第一语音训练数据包括训练音频。上述步骤S402可以包括如下步骤S422a至步骤S422b：

步骤S422a，利用所述第二特征提取网络，对所述训练音频进行特征提取，得到第二语音特征。

步骤S422b，利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频。

这里，可以利用第二特征提取网络，参照前述实施例中对第一音频进行特征提取的方式，对训练音频进行特征提取，得到第二语音特征。其中，第二特征提取网络可以包括但不限于CNN、RNN、Transformer编码器等中的至少之一。

在待训练模型包括第一特征提取网络和第二特征提取网络的情况下，第一头部训练数据包括第六视频，第一语音训练数据包括训练音频。上述步骤S402可以包括如下步骤S423a至步骤S423c：

步骤S423a，利用所述第一特征提取网络，从所述第六视频中提取所述第二人物的第二头部特征。

步骤S423b，利用所述第二特征提取网络，对所述训练音频进行特征提取，得到第二语音特征。

步骤S423c，利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频。

需要说明的是，第一特征提取网络、以及第二特征提取网络均可以是预先训练好的，也可以是未经训练的，这里并不限定。在对待训练模型进行参数调节的过程中，可以对待训练模型中的全部网络的网络参数进行调节，也可以仅对渲染生成网络的网络参数进行调节，还可以对渲染生成网络的网络参数、以及第一特征提取网络和第二特征提取网络二者之一的网络参数进行调节。

在一些实施例中，待训练模型包括渲染生成网络和第一特征提取网络。上述步骤S403中所述的基于所述目标损失对所述待训练模型进行参数调节，包括如下步骤S431：

步骤S431，基于所述目标损失对所述渲染生成网络和所述第一特征提取网络进行参数调节。

这样，由于对第一特征提取网络进行训练所需的训练数据通常不用太多，可以将第一特征提取网络与渲染生成网络一起进行参数调节，以提高模型训练的效率以及训练后模型生成视频的能力。

在一些实施例中，在待训练模型中包括第二特征提取网络的情况下，可以预先对第二特征提取网络进行训练，得到训练好的第二特征提取网络。这样，由于对第二特征提取网络进行训练所需的训练数据通常较多，通过预先对第二特征提取网络进行单独训练，可以使得第二特征提取网络更好地学习表征语音特征的能力，并能提高第二特征提取网络的训练效率，从而能够提高模型训练的整体效率和效果。

在一些实施例中，第一特征提取网络包括第一编码器和映射子网络，第二头部特征包括第二非嘴部区域特征和第二头部动作特征。上述利用所述第一特征提取网络，从所述第六视频中提取所述第二人物的第二头部特征的过程，可以包括如下步骤S441至步骤S442：

步骤S441，利用所述第一编码器，对所述第六视频进行编码处理，得到所述第二非嘴部区域特征。

步骤S442，利用所述映射子网络，将所述第二非嘴部区域特征映射至预设的动作特征空间，得到所述第二头部动作特征。

这里，步骤S411至步骤S412分别对应于前述实施例中的步骤S111至步骤S112，在实施时可以参照前述步骤S111至步骤S112的实施方式。

上述实施例中，利用第一编码器和映射子网络分别对第二人物非嘴部区域的视觉特征、以及第二人物的头部运动进行建模，可以简化第一编码器和映射子网络的网络结构，并能使得训练后的第一编码器提取的第二非嘴部区域特征可以更好地表征第二人物非嘴部区域的视觉特征，使得训练后的映射子网络提取的第二头部动作特征可以更好地表征第二人物的头部运动，从而能够进一步提高训练后的模型生成的第五视频中第二人物整体说话动作的合理性和逼真度，提升生成的第五视频的质量。

在一些实施例中，上述利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频的过程，可以包括如下步骤S451至步骤S452：

步骤S451，对所述第二头部特征和所述第二语音特征进行融合，得到第二融合特征。

这里，可以参照前述实施例中对第一头部特征和第一语音特征进行融合的方式，对第二头部特征和第二语音特征进行融合，得到第二融合特征。

步骤S452，利用所述渲染生成网络，基于所述第二融合特征，生成所述第五视频。

这里，可以利用渲染生成网络，参照前述实施例中基于第一融合特征生成第二视频的方式，基于第二融合特征生成第五视频。

本公开实施例中，先对第二头部特征和第二语音特征进行融合，得到第二融合特征；然后利用渲染生成网络，可以基于第二融合特征生成更加准确地第五视频，使得第五视频中第二人物的说话动作能够与第二音频更好地匹配。

在一些实施例中，待训练模型包括渲染生成网络和第二特征提取网络，第二特征提取网络包括第二编码器和第三编码器，第二语音特征包括第二内容特征和第二情绪特征。

上述利用所述第二特征提取网络，对所述训练音频进行特征提取，得到第二语音特征的过程，可以包括如下步骤S461至步骤S462：

步骤S461，利用所述第二编码器，对所述训练音频进行编码处理，得到所述第二内容特征。

步骤S462，利用所述第三编码器，对所述训练音频进行编码处理，得到所述第二情绪特征。

这里，可以利用第二特征提取网络中的第二编码器和第三编码器分别对训练音频进行编码处理，得到表征语音内容的第二内容特征、以及表征语音中所包含的情绪的第二情绪特征。

在实施时，第二编码器和第三编码器可以是采用任意合适的方式预先训练好的。

在一些实施方式中，可以采用交叉重建解耦网络对第二编码器和第三编码器进行训练，得到训练后的第二编码器和第三编码器。

上述步骤S451可以包括如下步骤S463：

步骤S463，对所述第二头部特征和所述第二内容特征进行融合，得到第二融合特征。

这里，可以参照前述实施例中对第一头部特征和第一内容特征进行融合的方式，对第二头部特征和第二内容特征进行融合，得到第二融合特征。

上述步骤S452可以包括如下步骤S464：

步骤S464，利用所述渲染生成网络，基于所述第二融合特征和所述第二情绪特征，生成所述第五视频。

这里，可以利用渲染生成网络，参照前述实施例中生成第二视频的方式，基于第二融合特征和第二情绪特征，生成第五视频。

上述实施例中，利用第二编码器和第三编码器分别从训练音频中提取第二内容特征和第二情绪特征；对第二头部特征和第二内容特征进行融合，得到第二融合特征，并基于第二融合特征和第二情绪特征，生成第五视频。这样，可以将训练音频中的内容特征和情绪特征解耦，从而在第二内容特征驱动嘴部动作生成的同时，结合第二情绪特征对第二人物的面部表情进行自适应调整，进而可以使得生成的第五视频中第二人物的头部外观姿态能够更好地与训练音频中的语音内容和情绪匹配。如此，能够进一步提高训练后的模型生成的第五视频中第二人物整体说话动作的合理性和逼真度，提升生成的第五视频的质量。

在一些实施例中，所述渲染生成网络包括第四编码器和第一解码器；上述步骤S464可以包括如下步骤S471至步骤S472：

步骤S471，利用所述第四编码器，对所述第二融合特征进行编码处理，得到编码后的所述第二融合特征。

步骤S472，利用所述第一解码器，对所述第二情绪特征和编码后的所述第二融合特征进行解码处理，得到所述第五视频。

在实施时，步骤S471至步骤S472分别对应于前述实施例中的步骤S221至步骤S222，在实施时可以参照前述步骤S221至步骤S222的实施方式。

在一些实施方式中，渲染生成网络可以采用U型网络（Unet），第四编码器可以是Unet网络中的编码器，第一解码器可以是Unet网络中的解码器。Unet网络中每一解码器的输入可以包括第二情绪特征、编码后的第二融合特征以及该Unet网络中与该解码器对应的编码器输出的特征。

在一些实施例中，所述模型还包括人脸检测网络。所述方法还包括如下步骤S481至步骤S482：

步骤S481，利用所述人脸检测网络，对所述训练视频中的第二人物人脸进行检测，得到所述训练视频中至少一个第二视频帧分别对应的人脸关键点，并针对每一所述第二视频帧，基于所述第二视频帧对应的人脸关键点，确定所述第二视频帧对应的嘴部区域。

这里，人脸检测网络可以是根据实际情况采用合适的方式预先训练的。

在实施时，可以利用人脸检测网络，参照前述实施例中的对第一视频中的第一人物人脸进行检测，确定第一视频中至少一个第一视频帧分别对应的嘴部区域的方式，对训练视频中的人脸进行检测，以确定训练视频中至少一个第二视频帧分别对应的嘴部区域。

步骤S482，对每一所述第二视频帧分别对应的嘴部区域进行掩码处理，得到所述第六视频。

这里，可以参照前述实施例中对每一第一视频帧分别对应的嘴部区域进行掩码处理的方式，对每一第二视频帧分别对应的嘴部区域进行掩码处理。

上述实施例中，利用人脸检测网络对训练视频中的第二人物人脸进行检测，得到训练视频中至少一个第二视频帧分别对应的人脸关键点；针对每一第二视频帧，基于第二视频帧对应的人脸关键点，确定第二视频帧对应的嘴部区域；对每一第二视频帧分别对应的嘴部区域进行掩码处理，得到第六视频。这样，可以快速准确地对训练视频中第二人物的嘴部区域进行掩码处理，得到第六视频。

在一些实施例中，所述模型还包括第三特征提取网络；所述方法还包括如下步骤S491至步骤S492：

步骤S491，从所述训练视频中确定第二参考视频帧。

步骤S492，利用所述第三特征提取网络，从所述第二参考视频帧中提取所述第二人物的第二身份特征。

这里，第三特征提取网络可以是本领域技术人员根据实际情况确定的，本公开实施例对此并不限定。在实施时，第三特征提取网络可以包括但不限于CNN、RNN、Transformer编码器等中的至少之一。例如，第三特征提取网络可以采用VGG网络（如VGG16、VGG19等）作为基础网络。

上述利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频的过程，可以包括如下步骤S493：

步骤S493，利用所述渲染生成网络，基于所述第二头部特征、所述第二身份特征和所述第二语音特征，生成包含所述第二人物的第五视频。

这里，步骤S491和步骤S493分别对应于前述实施例中的步骤S311和步骤S312，在实施时可以参照前述步骤S311和步骤S312的实施方式。

在一些实施例中，上述步骤S403中所述的基于所述目标损失对所述待训练模型进行参数调节，可以包括：基于所述目标损失，对所述第一特征提取网络的网络参数、所述第三特征提取网络的网络参数和所述渲染生成网络的网络参数进行调节。

这里，对第三特征提取网络的网络参数进行调节的方式可以是根据实际情况确定的，可以包括但不限于梯度下降法、牛顿动量法等中的至少一种，本公开实施例并不限定。

上述实施例中，从训练视频中确定第二参考视频帧，并从第二参考视频帧中提取第二人物的第二身份特征；基于第二头部特征、第二身份特征和第二语音特征，生成包含第二人物的第五视频。这样，在生成第五视频的过程中综合考虑了第二人物的第二身份特征，从而可以更好地维持第五视频中第二人物的整体视觉特征以及第二人物在各视频帧中的身份一致性，进而使得训练后的模型可以更好地适用于不同人物说话视频的生成场景。

本公开实施例提供一种模型训练方法，该方法可以由计算机设备的处理器执行。图5为本公开实施例提供的一种模型训练方法的实现流程示意图，如图5所示，该方法可以包括如下步骤S501至步骤S508：

步骤S501，获取第一语音训练数据和第二人物的第一头部训练数据；其中，所述第一头部训练数据通过对训练视频中所述第二人物的嘴部区域进行掩码处理得到，所述第一语音训练数据基于训练音频得到。

步骤S502，将所述第一语音训练数据和所述第一头部训练数据输入待训练模型，得到包含所述第二人物的第五视频。

这里，上述步骤S501至步骤S502分别对应于前述实施例中的步骤S401至步骤S402，在实施时可以参照前述步骤S401至步骤S402的实施方式。

步骤S503，基于所述第五视频和所述训练音频对应的参考视频，确定第一损失。

这里，参考视频可以为预先设定的与训练音频对应的视频标签。参考视频中第二人物的说话动作与该训练音频是匹配的。

第一损失表征的是第五视频与参考视频之间的损失。在实施时，可以采用任意合适的损失函数确定第一损失，本公开实施例对此并不限定。

可以理解的是，步骤S503以及下文其他步骤中所采用的损失函数均可以包括但不限于绝对值损失函数、最小平方误差损失函数、余弦损失函数、交叉熵损失函数等中的至少之一。

在一些实施方式中，可以采用如下公式1-1所示的方式，采用的L1重建损失函数，确定第一损失：

（1-1）；

其中，为生成的第五视频中的第/>个第三视频帧，/>为参考视频中的第/>个第四视频帧，/>为第五视频或参考视频中的视频帧总数。

步骤S504，确定所述训练视频中至少一个第二视频帧分别对应的嘴部区域，并确定所述第五视频中至少一个第三视频帧分别对应的嘴部区域。

这里，可以参照前述实施例中的步骤S301至步骤S302中对第一视频中的人脸进行检测，确定第一视频中至少一个第一视频帧分别对应的嘴部区域的方式，确定训练视频中至少一个第二视频帧分别对应的嘴部区域、以及第五视频中至少一个第三视频帧分别对应的嘴部区域。

步骤S505，基于每一所述第二视频帧分别对应的嘴部区域、以及每一所述第三视频帧分别对应的嘴部区域，确定第二损失。

这里，第二损失表征的是各第三视频帧分别对应的嘴部区域与各第二视频帧分别对应的嘴部区域之间的损失。在实施时，可以采用任意合适的损失函数确定第二损失，本公开实施例对此并不限定。

在一些实施方式中，可以采用如下公式1-2所示的方式，采用的L1重建损失函数，确定第二损失：

（1-2）；

其中，为生成的第五视频中的第/>个第三视频帧中的嘴部区域，/>为训练视频中的第/>个第二视频帧中的嘴部区域。

步骤S506，基于所述第一损失和所述第二损失，确定目标损失。

可以理解的是，目标损失与第一损失以及第二损失之间均可以为正比例关系，这样，可以使得训练后的模型生成的第五视频与参考视频之间的第一损失、以及第五视频中各第三视频帧分别对应的嘴部区域与训练视频中各第二视频帧分别对应的嘴部区域之间的第二损失最小化，从而可以提高模型生成的第五视频与参考视频之间整体的一致性、以及第五视频与训练视频中嘴部区域的一致性。

在一些实施方式中，可以将第一损失与第二损失之和，确定为目标损失。

在一些实施方式中，可以为第一损失和第二损失分别设置不同的权重，将第一损失和第二损失进行加权求和，得到目标损失。

步骤S507，基于所述目标损失对所述待训练模型进行参数调节。

步骤S508，在所述第五视频中所述第二人物的说话动作与所述训练音频匹配的情况下，确定所述待训练模型训练完成。

这里，上述步骤S507至步骤S508分别对应于前述实施例中的步骤S403至步骤S404，在实施时可以参照前述步骤S403至步骤S404的实施方式。

本公开实施例中，在确定目标损失的过程中综合考虑了第五视频与训练音频对应的参考视频之间的损失、以及第五视频中各第三视频帧分别对应的嘴部区域与训练视频中各第二视频帧分别对应的嘴部区域之间的损失，从而在训练过程中对模型生成的第五视频与参考视频之间整体的一致性、以及第五视频与训练视频中嘴部区域的一致性进行约束，进而提升训练后的模型生成的第五视频中第二人物的嘴部动作与训练音频之间的同步性，也即可以提升训练后的模型生成的视频中人物说话的音唇同步性。

在一些实施例中，上述方法还可以包括如下步骤S511至步骤S513：

步骤S511，从所述第五视频和所述训练音频中分别提取互相匹配的视频片段和音频片段。

步骤S512，对所述视频片段和所述音频片段分别进行编码处理，得到第一编码特征和第二编码特征。

这里，互相匹配的视频片段和音频片段指的是对应于同一时间区间的视频片段和音频片段。例如，可以先从第五视频中确定一个视频片段，然后根据该视频片段对应的时间区间，从训练音频中确定与该时间区间对应的音频片段，从而得到一对互相匹配的视频片段和音频片段。

在一些实施方式中，可以采用预先训练的特征对齐网络（如SyncNet网络），从第五视频和训练音频中分别提取互相匹配的视频片段和音频片段，并对提取的视频片段和音频片段分别进行编码处理，得到第一编码特征和第二编码特征。在实施时，特征对齐网络可以包括基于VGG网络构建的视频编码器和音频编码器。利用该视频编码器可以对视频片段进行编码处理，得到第一编码特征。利用该音频编码器可以对与该视频片段所在时间区间对应的音频片段进行编码处理，得到第二编码特征。

步骤S513，基于所述第一编码特征和所述第二编码特征，得到第三损失。

这里，第三损失表征的是第一编码特征与第二编码特征之间的损失。在实施时，可以采用任意合适的损失函数确定第三损失，本公开实施例并不限定。

在一些实施方式中，确定第一编码特征与第二编码特征之间的相似度，根据该相似度，确定第一编码特征与第二编码特征之间的第三损失。

例如，可以采用如下公式1-3所示的方式，确定第一编码特征与第二编码特征之间的相似度：

（1-3）；

其中，和/>分别为第一编码特征与第二编码特征，相似度/>为0~1的值，/>为一个极小的数值，用于防止公式中的分母为0，例如，/>可以为/>。

基于第一编码特征与第二编码特征之间的相似度，可以采用如下公式1-4所示的方式，确定第一编码特征与第二编码特征之间的第三损失/>：

（1-4）；

其中，为第一编码特征中对应于第/>个视频帧的第一编码子特征与第二编码特征中对应于第/>个音频帧的第二编码子特征之间的相似度。

上述步骤S506可以包括如下步骤S514：

步骤S514，基于所述第一损失、所述第二损失和所述第三损失，确定所述目标损失。

可以理解的是，目标损失与第三损失之间可以成正比例关系，这样，可以使得训练后的模型生成的第五视频与训练音频之间的第三损失最小化，从而可以提高训练后的模型生成的视频中人物说话的音唇同步性。

在一些实施方式中，可以将第一损失、第二损失与第三损失之和，确定为目标损失。

在一些实施方式中，可以为第一损失、第二损失和第三损失分别设置不同的权重，将第一损失、第二损失和第三损失进行加权求和，得到目标损失。

上述实施例中，在确定目标损失的过程中综合考虑了第五视频与训练音频对应的参考视频之间的第一损失、以及第五视频中各第三视频帧分别对应的嘴部区域与训练视频中各第二视频帧分别对应的嘴部区域之间的第二损失、以及表征训练音频中的音频片段与第五视频中的视频片段之间同步性的第三损失，从而在训练过程中对模型生成的第五视频与参考视频之间整体的一致性、第五视频与训练视频之间嘴部区域的一致性、以及第五视频与训练音频之间的音唇同步性进行约束，进而可以进一步提升训练后的模型生成的视频中人物说话的音唇同步性。

在一些实施例中，上述方法还可以包括如下步骤S521至步骤S522：

步骤S521，利用第一判别器，确定所述参考视频中至少一个第四视频帧的真实度、以及所述第五视频中至少一个第三视频帧的真实度。

这里，第一判别器可以是预先训练的，也可以是在第一特征提取网络和渲染生成网络的训练过程中更新训练的，本公开实施例对此并不限定。

利用第一判别器可以对第四视频帧和第三视频帧的整体质量进行判别，以确定相应视频帧的真实度。

步骤S522，基于每一所述第四视频帧的真实度和每一所述第三视频帧的真实度，确定第四损失。

这里，第四损失表征的是参考视频中各第四视频帧的真实度以及第五视频中各第三视频帧的真实度。在实施时，可以采用任意合适的损失函数确定第四损失，本公开实施例并不限定。

在一些实施方式中，可以采用如下公式1-5所示的方式，确定第四损失：

（1-5）；

其中，为包含生成的第五视频中的各第三视频帧的视频帧集合，/>为包含参考视频中的各第四视频帧的视频帧集合，/>为参考视频中的一个第四视频帧，/>为第五视频中的一个第三视频帧，/>为第一判别器，/>为第四视频帧/>的真实度，/>为第三视频帧/>的真实度，/>为均值函数。

上述步骤S514可以包括如下步骤S523：

步骤S523，基于所述第一损失、所述第二损失、所述第三损失和所述第四损失，确定所述目标损失。

可以理解的是，目标损失与第四损失之间可以成反比例关系，这样，可以使得训练后的模型生成的第五视频对应的第四损失最大化，也即使得参考视频中各第四视频帧的真实度以及第五视频中各第三视频帧的真实度最大化，从而可以提高训练后的模型生成的视频中各视频帧的整体质量。

在一些实施方式中，可以将第一损失、第二损失与第三损失之和，减去第四损失，得到目标损失。

在一些实施方式中，可以为第一损失、第二损失、第三损失和第四损失分别设置不同的权重，将第一损失、第二损失、第三损失和第四损失进行加权求和，得到目标损失。在实施时，第一损失、第二损失和第三损失分别对应的权重可以为正数，第四损失的权重可以为负数。

上述实施例中，在确定目标损失的过程中考虑了表征参考视频中各第四视频帧的真实度以及第五视频中各第三视频帧的真实度的第四损失，从而可以在训练过程中对模型生成的视频中各视频帧的整体质量进行约束，进而可以进一步提升训练后的模型生成的视频的整体质量。

在一些实施例中，上述方法还可以包括如下步骤S531至步骤S533：

步骤S531，针对所述参考视频中的每一对相邻的第四视频帧，利用第二判别器，确定所述一对相邻的第四视频帧之间的真实相邻度。

步骤S532，针对所述第五视频中的每一对相邻的第三视频帧，利用第二判别器，确定所述一对相邻的第三视频帧之间的真实相邻度。

这里，第二判别器可以是预先训练的，也可以是在第一特征提取网络和渲染生成网络的训练过程中更新训练的，本公开实施例对此并不限定。

一对相邻的视频帧之间的真实相邻度可以表征该对视频帧真实相邻的程度。利用第二判别器可以对相邻的两个视频帧真实相邻的程度进行判别，得到这两个视频帧之间的真实相邻度。

步骤S533，基于每一对相邻的第四视频帧之间的真实相邻度、以及每一对相邻的第三视频帧之间的真实相邻度，确定第五损失。

这里，第五损失表征的是参考视频中每一对相邻的第四视频帧真实相邻的程度以及第五视频中每一对相邻的第三视频帧真实相邻的程度。在实施时，可以采用任意合适的损失函数确定第五损失，本公开实施例并不限定。

在一些实施方式中，可以采用如下公式1-6所示的方式，确定第五损失：

（1-6）；

其中，为包含生成的第五视频中的各对相邻的第三视频帧的视频帧对集合，为包含参考视频中的各对第四视频帧的视频帧对集合，/>为参考视频中的一对第四视频帧，/>为第五视频中的一对第三视频帧，/>为第二判别器，/>为一对第四视频帧/>的真实相邻度，/>为一对第三视频帧/>的真实相邻度，/>为均值函数。

上述步骤S523可以包括如下步骤S534：

步骤S534，基于所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失，确定所述目标损失。

可以理解的是，目标损失与第五损失之间可以成反比例关系，这样，可以使得训练后的模型生成的第五视频对应的第五损失最大化，也即使得参考视频中各相邻第四视频帧之间的真实相邻度以及第五视频中各相邻第三视频帧之间的真实相邻度最大化，从而可以提高训练后的模型生成的视频中各视频帧之间的帧间一致性。

在一些实施方式中，可以将第一损失、第二损失与第三损失之和，减去第四损失和第五损失，得到目标损失。

在一些实施方式中，可以为第一损失、第二损失、第三损失、第四损失和第五损失分别设置不同的权重，将第一损失、第二损失、第三损失、第四损失和第五损失进行加权求和，得到目标损失。在实施时，第一损失、第二损失和第三损失分别对应的权重可以为正数，第四损失和第五损失的权重可以为负数。

例如，可以采用如下公式1-7所示的方式，将第一损失、第二损失/>、第三损失/>、第四损失/>和第五损失/>进行加权求和，得到目标损失/>：

（1-7）；

其中，、/>、/>、/>、/>分别为第一损失/>、第二损失/>、第三损失/>、第四损失/>和第五损失/>的权重，/>、/>、/>均大于0，/>、/>均小于0。

上述实施例中，在确定目标损失的过程中考虑了表征参考视频中各对相邻的第四视频帧之间的真实相邻度、以及第五视频中各对相邻的第三视频帧之间的真实相邻度的第五损失，从而可以在训练过程中对模型生成的视频中各视频帧之间的帧间一致性进行约束，促使训练后的模型生成的视频在时序上具有更好地稳定性，减少帧间波动，进而可以进一步提升训练后的模型生成的视频的整体质量。

需要说明的是，在一些实施例中，本领域技术人员可以根据实际应用场景，基于第一损失、第二损失、第三损失、第四损失和第五损失中的至少之一，确定目标损失，本公开实施例对此并不限定。

下面说明本公开实施例提供的视频生成方法及模型训练方法在实际场景中的应用，以语音驱动说话人合成任务为例进行说明。

给定一张或几张目标人脸图像或者目标人物视频以及用于作为驱动语音的语音数据源（如预先设定的第一音频），语音驱动说话人合成任务通过语音数据源驱动目标人物的面部动作（包含唇部、表情等），以获得逼真的目标人物说话视频。该语音驱动说话人合成任务具有广泛的应用场景，比如不同语言的视频配音、视频会议的远程呈现、视频游戏的角色生成、带宽有限的视频传输、在保护隐私的同时增强语音理解或听力受损人士的辅助设备等等。同时语音驱动说话人合成任务也能通过提供大量训练仿真数据来促进安全领域对抗攻击的发展。另一个极具潜力的应用场景则是数字人领域，离线-在线-在场是数字人发展的重要路径。从关注动画、渲染的身份型数字人，到融合语言理解能力、表达能力、学习能力、交互能力的服务型数字人，从在线服务到在场体验，数字人将进入大规模应用期，加速转化为现实生产力，为消费市场和企业服务创造更大价值。而基于语音驱动的二维数字人，可以在表达与交互环节发挥重要的作用。

发明人在实施本公开的过程中发现，相关技术中语音驱动说话人视频生成的方案以及模型训练的方案中，至少存在如下问题：

1）没有考虑人物非嘴部区域的外形姿态建模，忽视了贴合语音内容的头部运动和面部表情，也即忽略了除嘴部区域之外的人物头部外观姿态的建模，导致生成的视频中目标人物的头部运动及表情不够合理逼真。目标人物（对应前述第一人物或第二人物）头部的外形姿态非常复杂，包括且不限于其内在的主体特征、外在的相机位置、头部运动和面部表情等。而这种复杂性不仅源于对面部区域的建模，还源于对头部运动和背景的建模。

2）对于视觉信息的利用不够充分。处理参考视频（对应前述第一视频或第五视频）中视觉信息的流程局限于多尺度视觉表征，而高层抽象表征没有充分解耦使用，比如没有充分考虑人物的姿态动作信息与人物身份信息等。

3）采用的视频生成模型的输出通常为视频帧序列，在模型训练的过程中没有显式地帧间一致性约束，从而容易造成生成的视频中出现细微伪影、以及生成的视频中目标人物出现细微变换，无法较好地保持目标人物身份的一致性。

有鉴于此，本公开实施例提供一种视频生成方法以及模型训练方法，能够提高生成的视频中人物整体说话动作的合理性和逼真度，从而提升生成的视频质量。

图6A为本公开实施例提供的一种视频生成方法的实现流程示意图，如图6A所示，该视频生成方法可以通过预先训练的模型中的人脸检测网络10、第一特征提取网络20、第二特征提取网络30、第三特征提取网络40和渲染生成网络50实现，其中，渲染生成网络50包括第四编码器和第一解码器。下面结合图6A说明本公开实施例提供的视频生成方法。

本公开实施例提供的视频生成方法包括如下步骤S601至步骤S609：

步骤S601，获取第一音频A以及包含第一人物的第一视频V1；

步骤S602，利用预先训练的人脸检测网络10，对第一视频V1中的人脸进行检测，得到第一视频V1中至少一个第一视频帧分别对应的人脸关键点，并基于每一第一视频帧分别对应的人脸关键点，确定每一第一视频帧对应的嘴部区域M_i，以及嘴部区域被掩码处理的各第一视频帧组成的第三视频V3；

步骤S603，从第一视频V1中确定第一参考视频帧I_ref；

其中，可以针对第一视频V1中的每一第一视频帧，基于该第一视频帧对应的表征上嘴唇的第一关键点与表征下嘴唇的第二关键点之间的距离，从第一视频V1中确定第一参考视频帧I_ref。例如，可以将第一关键点与第二关键点之间的距离最小的第一视频帧确定为第一参考视频帧I_ref。

步骤S604，利用第一特征提取网络20中的第一编码器对所述第三视频V3进行编码处理，得到第一非嘴部区域特征F_v，并利用第一特征提取网络20中的映射子网络将第一非嘴部区域特征F_v映射至预设的动作特征空间，得到第一头部动作特征H；

步骤S605，利用第二特征提取网络30，对第一音频A进行特征提取，得到第一内容特征F_c和第一情绪特征F_e；

步骤S606，利用第三特征提取网络40，从第一参考视频帧I_ref中提取第一人物的第一身份特征F_I；

步骤S607，对第一非嘴部区域特征F_v、第一头部动作特征H、第一身份特征F_I和第一内容特征F_c进行帧级融合；

步骤S608，利用渲染生成网络50，基于帧级融合后的特征、和第一情绪特征F_e，渲染生成第四视频V4；

其中，帧级融合后的特征可以作为第四编码器的输入，第四编码器的输出、第一情绪特征F_e和第一视觉特征F₀可以作为第一解码器的输入，第一解码器的输出即为第四视频V4。

步骤S609，对第四视频V4中至少一个第四视频帧中的人脸区域与背景区域进行泊松融合，得到第二视频V2，其中，第二视频V2中第一人物的说话动作与第一音频A匹配。

需要说明的是，上述模型中的第一特征提取网络20和渲染生成网络50可以是采用前述实施例中的任一模型训练方法训练得到的。其中，模型训练所采用的目标损失是基于前述的第一损失、第二损失、第三损失、第四损失和第五损失，采用前述公式1-7所示的方式确定的。

上述模型中的人脸检测网络10、第二特征提取网络30可以是在对第一特征提取网络20、第三特征提取网络40和渲染生成网络50进行训练之前已经训练好的。

下面说明对第二特征提取网络进行训练的过程。

第二特征提取网络包括用于对音频中的语音内容进行编码的内容编码器（对应前述第三编码器）和用于对音频中的情绪成分进行编码的情绪编码器（对应前述第四编码器）。利用训练后的内容编码器和情绪编码器，能够分别对第一音频中的语音内容和情绪信息进行解耦编码，得到解耦后的内容编码（对应前述第一内容特征）和情绪编码（对应前述第一情绪特征）。

为了实现基于音频的人脸合成情感控制，可以通过提取两个独立的潜在音频空间，以从音频中独立解耦出情绪和内容成分。其中，两个独立的潜在音频空间包括：一个与持续时间无关的空间，基于该空间可以对音频中的情绪成分进行编码，得到一种内容未知的情绪编码；一个时间依赖的空间，基于该空间可以对音频的语音内容进行编码，得到一种情绪未知的内容编码。在实施时，可以首先构建对齐的音频样本，然后采用交叉重建解耦网络，基于对齐的音频样本数据，训练得到分别用于对第一音频中的语音内容和情绪信息进行解耦编码的内容编码器和情绪编码器。

在实施时，可以利用具有各种角色在不同情绪状态下说相同语料库的音频数据集来训练这种交叉重建解耦网络，以得到训练后的内容编码器和情绪编码器。音频数据集中可以包含不同角色在不同情绪状态下说同一语音内容的音频样本。由于内容相同但情绪不同的演讲会有语速不同的情况，可以采用时间对齐算法来对齐各音频样本中长度不均匀的演讲。在实施时，可以使用梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient，MFCC）作为音频表示，并使用动态定时扭曲（Dynamic Time Warping，DTW）算法通过沿时间维度拉伸或收缩来扭曲MFCC特征向量，从而实现音频样本的时间长度对齐。例如，给定两个内容相同但长度不同的MFCC序列和/>，DTW算法可以通过动态规划计算一组索引坐标对{(i，j)，…}，强制/>和/>相似，给定序列/>和/>之间的最佳匹配可以以如下公式2-1为目标，即最小化对齐的MFCC特征之间的距离成本之和：

（2-1）；

其中，是距离损失，/>是对齐路径，即动态规划计算一组索引坐标对。

图6B为本公开实施例提供的一种利用交叉重建解耦网络对内容编码器和情绪编码器进行训练的实现示意图。如图6B所示，交叉重建解耦网络可以包括用于建模内容信息的内容编码器、用于建模情绪信息的情绪编码器/>、用于将内容编码和情绪编码解码重建为音频的解码器/>以及用于对情绪编码进行分类的分类器/>。给定4个对齐的音频样本、/>、/>、/>，其中，/>中的内容信息为i、情绪信息为m，/>中的内容信息为j、情绪信息为n，/>中的内容信息为j、情绪信息为m，/>中的内容信息为i、情绪信息为n。首先，可以采用对齐后的音频样本/>和/>作为交叉重建解耦网络的输入，利用内容编码器/>和情绪编码器/>分别解耦出音频样本/>中的内容编码/>和情绪编码/>、以及音频样本/>中的内容编码/>和情绪编码/>；然后，可以利用解码器/>，通过音频样本/>的内容编码/>和音频样本/>的情绪编码/>来重建音频片段/>，通过音频样本/>的内容编码/>和音频样本/>的情绪编码/>来重建音频片段/>；最后，可以基于音频样本/>和来监督训练交叉重建解耦网络。对该交叉重建解耦网络进行监督训练所采用的损失可以包括：交叉重建损失/>，自重建损失/>，分类损失/>和内容损失/>。

例如，可以采用如下公式2-2所示的方式确定交叉重建损失：

（2-2）。

此外，可以采用如下公式2-3所示的方式确定自重建损失：

（2-3）；

为了驱使情绪编码器能准确分类得到每个音频样本的情绪类别，可以采用分类器/>来构建分类损失。可以采用如下公式2-4所示的方式，确定分类损失/>：

（2-4）；

其中，表示情绪类别的数量，/>指属于情绪类别/>的音频样本，/>指分类器/>预测的该音频样本的类别概率分布。

对于音频内容，相同音频语料的样本应该具有相近的音频内容编码，因此加入内容损失来训练内容编码器。可以采用如下公式2-5所示的方式确定内容损失/>：

（2-5）；

结合以上4种损失，交叉重建解耦网络的训练总损失可以采用如下公式2-6确定：

（2-6）；

其中，和/>分别为分类损失和内容损失的权重。

本公开实施例中，一方面，通过分别对第一视频或训练视频中人物的嘴部区域、头部运动及非嘴部区域进行建模，显式使用不同感知角度的视觉信息，可有效提高音唇同步度，并能生成合理的头部运动和表情；另一方面，通过解耦第一视频或训练视频中人物的姿态动作信息和身份信息，能充分保持特定人物的身份表征及姿态动作，并结合帧间一致性约束对模型进行训练，既能减少生成的视频中人物出现不合理抖动，又能维持特定人物的身份表征；再一方面，通过将音频信息通过交叉重建解耦网络训练后的内容编码器和情绪编码器可以解耦编码出音频中的内容编码和情绪编码，从而既能通过音频内容驱动嘴部动作，又能结合情绪编码自适应调整人物的面部表情；又一方面，通过泊松融合对生成的第四视频进行后处理，能过渡衔接脸部区域与躯体、以及背景，从而可以减少视频帧中出现明显伪影间隔。可见，根据本公开实施例，可以获得一个高音唇同步率及目标人物高保真的2D数字人说话合成模型。

基于前述的实施例，本公开实施例提供一种视频生成装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器（Central ProcessingUnit，CPU）、微处理器（Microprocessor Unit，MPU）、数字信号处理器（Digital SignalProcessor，DSP）或现场可编程门阵列（FieldProgrammable Gate Array，FPGA）等。

图7A为本公开实施例提供的一种视频生成装置的组成结构示意图，如图7A所示，视频生成装置710包括：第一获取模块711和第一生成模块712，其中：

第一获取模块711，用于获取第一语音特征和第一人物的第一头部特征；其中，所述第一头部特征通过对第一视频中第一人物的嘴部区域进行掩码处理得到，所述第一语音特征基于第一音频得到；

第一生成模块712，用于基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第二视频；所述第二视频中所述第一人物的说话动作与所述第一音频匹配。

在一些实施例中，所述第一头部特征包括第一非嘴部区域特征和第一头部动作特征；所述第一非嘴部区域特征通过对第三视频进行编码处理得到，所述第三视频通过对所述第一视频中所述第一人物的嘴部区域进行掩码处理得到；所述第一头部动作特征通过将所述第一非嘴部区域特征映射至预设的动作特征空间得到。

在一些实施例中，所述第一获取模块还用于：对所述第一头部特征和所述第一语音特征进行融合，得到第一融合特征；基于所述第一融合特征，生成所述第二视频。

在一些实施例中，所述第一语音特征包括第一内容特征和第一情绪特征；所述第一获取模块还用于：对所述第一头部特征和所述第一内容特征进行融合，得到第一融合特征；基于所述第一融合特征和所述第一情绪特征，生成所述第二视频。

在一些实施例中，所述第一获取模块还用于：对所述第一融合特征进行编码处理，得到编码后的所述第一融合特征；对所述第一情绪特征和编码后的所述第一融合特征进行解码处理，得到所述第二视频。

在一些实施例中，所述第一头部特征基于第三视频得到，所述装置还包括：第一检测模块，用于对所述第一视频中的第一人物人脸进行检测，得到所述第一视频中至少一个第一视频帧分别对应的人脸关键点；第二确定模块，用于针对每一所述第一视频帧，基于所述第一视频帧对应的人脸关键点，确定所述第一视频帧对应的嘴部区域；第一掩码模块，用于对每一所述第一视频帧分别对应的嘴部区域进行掩码处理，得到所述第三视频。

在一些实施例中，所述装置还包括：第三确定模块，用于从所述第一视频中确定第一参考视频帧；所述第一生成模块还用于：基于所述第一头部特征、所述第一人物的第一身份特征和所述第一语音特征，生成包含所述第一人物的第二视频；其中，所述第一身份特征是从所述第一参考视频帧中提取的。

在一些实施例中，所述人脸关键点包括表征上嘴唇的第一关键点、以及表征下嘴唇的第二关键点；第三确定模块还用于：针对每一所述第一视频帧，基于所述第一视频帧对应的第一关键点和第二关键点，确定所述第一视频帧中嘴部的闭合程度；从所述第一视频中确定嘴部的闭合程度最大的第一参考视频帧。

在一些实施例中，所述第一生成模块还用于：基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第四视频；对所述第四视频中至少一个第四视频帧中的人脸区域与背景区域进行图像融合，得到所述第二视频。

本公开实施例提供一种模型训练装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为CPU、MPU、DSP或FPGA等。

图7B为本公开实施例提供的一种模型训练装置的组成结构示意图。如图7B所示，模型训练装置720包括：第二获取模块721、第二生成模块722、调节模块723和第四确定模块724，其中：

第二获取模块721，用于获取第一语音训练数据和第二人物的第一头部训练数据；其中，所述第一头部训练数据通过对训练视频中所述第二人物的嘴部区域进行掩码处理得到，所述第一语音训练数据基于训练音频得到；

第二生成模块722，用于将所述第一语音训练数据和所述第一头部训练数据输入待训练模型，得到包含所述第二人物的第五视频；

调节模块723，用于利用所述第五视频确定目标损失，并基于所述目标损失对所述待训练模型进行参数调节；

第四确定模块724，用于在所述第五视频中所述第二人物的说话动作与所述训练音频匹配的情况下，确定所述待训练模型训练完成。

在一些实施例中，所述待训练模型包括渲染生成网络，所述第一语音训练数据包括第二语音特征，所述第一头部训练数据包括第二头部特征；所述第二生成模块还用于：利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频。

在一些实施例中，所述待训练模型包括渲染生成网络、以及第一特征提取网络和第二特征提取网络二者中的至少之一；

在所述待训练模型包括所述第一特征提取网络且不包括所述第二特征提取网络的情况下，所述第一头部训练数据包括第六视频，所述第六视频通过对所述训练视频中所述第二人物的嘴部区域进行掩码处理得到，所述第一语音训练数据包括第二语音特征，所述第二生成模块还用于：利用所述第一特征提取网络，从所述第六视频中提取所述第二人物的第二头部特征；利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频；

在所述待训练模型包括所述第二特征提取网络且不包括所述第一特征提取网络的情况下，所述第一头部训练数据包括第二头部特征，所述第一语音训练数据包括所述训练音频，所述第二生成模块还用于：利用所述第二特征提取网络，对所述训练音频进行特征提取，得到第二语音特征；利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频；

在所述待训练模型包括所述第一特征提取网络和所述第二特征提取网络的情况下，所述第一头部训练数据包括所述第六视频，所述第一语音训练数据包括所述训练音频，所述第二生成模块还用于：利用所述第一特征提取网络，从所述第六视频中提取所述第二人物的第二头部特征；利用所述第二特征提取网络，对所述训练音频进行特征提取，得到第二语音特征；利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频。

在一些实施例中，所述待训练模型包括所述渲染生成网络和所述第一特征提取网络；所述调节模块还用于：基于所述目标损失对所述渲染生成网络和所述第一特征提取网络进行参数调节。

在一些实施例中，所述第一特征提取网络包括第一编码器和映射子网络，所述第二头部特征包括第二非嘴部区域特征和第二头部动作特征；所述第二生成模块还用于：利用所述第一编码器，对所述第六视频进行编码处理，得到所述第二非嘴部区域特征；利用所述映射子网络，将所述第二非嘴部区域特征映射至预设的动作特征空间，得到所述第二头部动作特征。

在一些实施例中，所述第二生成模块还用于：对所述第二头部特征和所述第二语音特征进行融合，得到第二融合特征；利用所述渲染生成网络，基于所述第二融合特征，生成所述第五视频。

在一些实施例中，所述待训练模型包括所述渲染生成网络和所述第二特征提取网络，所述第二特征提取网络包括第二编码器和第三编码器，所述第二语音特征包括第二内容特征和第二情绪特征；所述第二生成模块还用于：利用所述第二编码器，对所述训练音频进行编码处理，得到所述第二内容特征；利用所述第三编码器，对所述训练音频进行编码处理，得到所述第二情绪特征；对所述第二头部特征和所述第二内容特征进行融合，得到第二融合特征；利用所述渲染生成网络，基于所述第二融合特征和所述第二情绪特征，生成所述第五视频。

在一些实施例中，所述渲染生成网络包括第四编码器和第一解码器；所述第二生成模块还用于：利用所述第四编码器，对所述第二融合特征进行编码处理，得到编码后的所述第二融合特征；利用所述第一解码器，对所述第二情绪特征和编码后的所述第二融合特征进行解码处理，得到所述第五视频。

在一些实施例中，所述模型还包括人脸检测网络；所述装置还包括：第二检测模块，用于利用所述人脸检测网络，对所述训练视频中的第二人物人脸进行检测，得到所述训练视频中至少一个第二视频帧分别对应的人脸关键点，并针对每一所述第二视频帧，基于所述第二视频帧对应的人脸关键点，确定所述第二视频帧对应的嘴部区域；第二掩码模块，用于对每一所述第二视频帧分别对应的嘴部区域进行掩码处理，得到所述第六视频。

在一些实施例中，所述模型还包括第三特征提取网络；所述装置还包括：第五确定模块，用于从所述训练视频中确定第二参考视频帧；第一提取模块，用于利用所述第三特征提取网络，从所述第二参考视频帧中提取所述第二人物的第二身份特征；所述第二生成模块还用于：利用所述渲染生成网络，基于所述第二头部特征、所述第二身份特征和所述第二语音特征，生成包含所述第二人物的第五视频。

在一些实施例中，所述调节模块还用于：基于所述第五视频和所述训练音频对应的参考视频，确定第一损失；确定所述训练视频中至少一个第二视频帧分别对应的嘴部区域，并确定所述第五视频中至少一个第三视频帧分别对应的嘴部区域；基于每一所述第二视频帧分别对应的嘴部区域、以及每一所述第三视频帧分别对应的嘴部区域，确定第二损失；基于所述第一损失和所述第二损失，确定目标损失。

在一些实施例中，所述调节模块还用于：从所述第五视频和所述训练音频中分别提取互相匹配的视频片段和音频片段；对所述视频片段和所述音频片段分别进行编码处理，得到第一编码特征和第二编码特征；基于所述第一编码特征和所述第二编码特征，得到第三损失；基于所述第一损失、所述第二损失和所述第三损失，确定所述目标损失。

在一些实施例中，所述调节模块还用于：利用第一判别器，确定所述参考视频中至少一个第四视频帧的真实度、以及所述第五视频中至少一个第三视频帧的真实度；基于每一所述第四视频帧的真实度和每一所述第三视频帧的真实度，确定第四损失；基于所述第一损失、所述第二损失、所述第三损失和所述第四损失，确定所述目标损失。

在一些实施例中，所述调节模块还用于：针对所述参考视频中的每一对相邻的第四视频帧，利用第二判别器，确定所述一对相邻的第四视频帧之间的真实相邻度；针对所述第五视频中的每一对相邻的第三视频帧，利用第二判别器，确定所述一对相邻的第三视频帧之间的真实相邻度；基于每一对相邻的第四视频帧之间的真实相邻度、以及每一对相邻的第三视频帧之间的真实相邻度，确定第五损失；基于所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失，确定所述目标损失。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法，对于本公开装置实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。

需要说明的是，本公开实施例中，如果以软件功能模块的形式实现上述的方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。这样，本公开实施例不限制于任何特定的硬件、软件或固件，或者硬件、软件、固件三者之间的任意结合。

本公开实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本公开实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包（Software Development Kit，SDK）等等。

这里需要指出的是：上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本公开设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。

需要说明的是，图8为本公开实施例中计算机设备的一种硬件实体示意图，如图8所示，该计算机设备800的硬件实体包括：处理器801、通信接口802和存储器803，其中：

处理器801通常控制计算机设备800的总体操作。

通信接口802可以使计算机设备通过网络与其他终端或服务器通信。

存储器803配置为存储由处理器801可执行的指令和应用，还可以缓存待处理器801以及计算机设备800中各模块待处理或已经处理的数据（例如，图像数据、音频数据、语音通信数据和视频通信数据），可以通过闪存（FLASH）或随机访问存储器（Random AccessMemory，RAM）实现。处理器801、通信接口802和存储器803之间可以通过总线804进行数据传输。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本公开的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外，在本公开各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（Read Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本公开的实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取第一语音特征和第一人物的第一头部特征；其中，所述第一头部特征通过对第一视频中第一人物的嘴部区域进行掩码处理得到，所述第一语音特征基于第一音频得到；所述第一头部特征包括第一头部动作特征和第一非嘴部区域特征；所述第一头部动作特征表征所述第一人物的头部运动；所述第一非嘴部区域特征表征所述第一人物非嘴部区域的视觉特征；所述第一头部动作特征通过将所述第一非嘴部区域特征映射至预设的动作特征空间得到；所述动作特征空间用于定义人物头部的运动姿态表征；

2.根据权利要求1所述的方法，其特征在于，所述第一非嘴部区域特征通过对第三视频进行编码处理得到，所述第三视频通过对所述第一视频中所述第一人物的嘴部区域进行掩码处理得到。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第二视频，包括：

对所述第一头部特征和所述第一语音特征进行融合，得到第一融合特征；

基于所述第一融合特征，生成所述第二视频。

4.根据权利要求3所述的方法，其特征在于，所述第一语音特征包括第一内容特征和第一情绪特征；

所述对所述第一头部特征和所述第一语音特征进行融合，得到第一融合特征，包括：

对所述第一头部特征和所述第一内容特征进行融合，得到第一融合特征；

所述基于所述第一融合特征，生成所述第二视频，包括：

基于所述第一融合特征和所述第一情绪特征，生成所述第二视频。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一融合特征和所述第一情绪特征，生成所述第二视频，包括：

对所述第一融合特征进行编码处理，得到编码后的所述第一融合特征；

对所述第一情绪特征和编码后的所述第一融合特征进行解码处理，得到所述第二视频。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述第一头部特征基于第三视频得到，所述方法还包括：

对所述第一视频中的第一人物人脸进行检测，得到所述第一视频中至少一个第一视频帧分别对应的人脸关键点；

针对每一所述第一视频帧，基于所述第一视频帧对应的人脸关键点，确定所述第一视频帧对应的嘴部区域；

对每一所述第一视频帧分别对应的嘴部区域进行掩码处理，得到所述第三视频。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

从所述第一视频中确定第一参考视频帧；

所述基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第二视频，包括：

基于所述第一头部特征、所述第一人物的第一身份特征和所述第一语音特征，生成包含所述第一人物的第二视频；其中，所述第一身份特征是从所述第一参考视频帧中提取的。

8.根据权利要求7所述的方法，其特征在于，所述人脸关键点包括表征上嘴唇的第一关键点、以及表征下嘴唇的第二关键点；

所述从所述第一视频中确定第一参考视频帧，包括：

针对每一所述第一视频帧，基于所述第一视频帧对应的第一关键点和第二关键点，确定所述第一视频帧中嘴部的闭合程度；

从所述第一视频中确定嘴部的闭合程度最大的第一参考视频帧。

9.根据权利要求1至5中任一项所述的方法，其特征在于，所述基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第二视频，包括：

基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第四视频；

对所述第四视频中至少一个第四视频帧中的人脸区域与背景区域进行图像融合，得到所述第二视频。

10.一种模型训练方法，其特征在于，包括：

获取第一语音训练数据和第二人物的第一头部训练数据；其中，所述第一头部训练数据通过对训练视频中所述第二人物的嘴部区域进行掩码处理得到，所述第一语音训练数据基于训练音频得到；所述第一头部训练数据包括第二头部特征或第六视频，所述第六视频用于提取所述第二人物的第二头部特征，所述第二头部特征包括第二头部动作特征和第二非嘴部区域特征；所述第二头部动作特征表征所述第二人物的头部运动；所述第二非嘴部区域特征表征所述第二人物非嘴部区域的视觉特征；所述第二头部动作特征通过将所述第二非嘴部区域特征映射至预设的动作特征空间得到；所述动作特征空间用于定义人物头部的运动姿态表征；

11.根据权利要求10所述的方法，其特征在于，所述待训练模型包括渲染生成网络，所述第一语音训练数据包括第二语音特征，所述第一头部训练数据包括第二头部特征；

所述将所述第一语音训练数据和所述第一头部训练数据输入待训练模型，得到包含所述第二人物的第五视频，包括：

利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频。

12.根据权利要求10所述的方法，其特征在于，所述待训练模型包括渲染生成网络、以及第一特征提取网络和第二特征提取网络二者中的至少之一；

在所述待训练模型包括所述第一特征提取网络且不包括所述第二特征提取网络的情况下，所述第一头部训练数据包括第六视频，所述第六视频通过对所述训练视频中所述第二人物的嘴部区域进行掩码处理得到，所述第一语音训练数据包括第二语音特征，所述将所述第一语音训练数据和所述第一头部训练数据输入待训练模型，得到包含所述第二人物的第五视频，包括：利用所述第一特征提取网络，从所述第六视频中提取所述第二人物的第二头部特征；利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频；

在所述待训练模型包括所述第二特征提取网络且不包括所述第一特征提取网络的情况下，所述第一头部训练数据包括第二头部特征，所述第一语音训练数据包括所述训练音频，所述将所述第一语音训练数据和所述第一头部训练数据输入待训练模型，得到包含所述第二人物的第五视频，包括：利用所述第二特征提取网络，对所述训练音频进行特征提取，得到第二语音特征；利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频；

在所述待训练模型包括所述第一特征提取网络和所述第二特征提取网络的情况下，所述第一头部训练数据包括所述第六视频，所述第一语音训练数据包括所述训练音频，所述将所述第一语音训练数据和所述第一头部训练数据输入待训练模型，得到包含所述第二人物的第五视频，包括：利用所述第一特征提取网络，从所述第六视频中提取所述第二人物的第二头部特征；利用所述第二特征提取网络，对所述训练音频进行特征提取，得到第二语音特征；利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频。

13.根据权利要求12所述的方法，其特征在于，所述待训练模型包括所述渲染生成网络和所述第一特征提取网络；

所述基于所述目标损失对所述待训练模型进行参数调节，包括：

基于所述目标损失对所述渲染生成网络和所述第一特征提取网络进行参数调节。

14.根据权利要求12所述的方法，其特征在于，所述第一特征提取网络包括第一编码器和映射子网络；

所述利用所述第一特征提取网络，从所述第六视频中提取所述第二人物的第二头部特征，包括：

利用所述第一编码器，对所述第六视频进行编码处理，得到所述第二非嘴部区域特征；

利用所述映射子网络，将所述第二非嘴部区域特征映射至预设的动作特征空间，得到所述第二头部动作特征。

15.根据权利要求12所述的方法，其特征在于，所述利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频，包括：

对所述第二头部特征和所述第二语音特征进行融合，得到第二融合特征；

利用所述渲染生成网络，基于所述第二融合特征，生成所述第五视频。

16.根据权利要求15所述的方法，其特征在于，所述待训练模型包括所述渲染生成网络和所述第二特征提取网络，所述第二特征提取网络包括第二编码器和第三编码器，所述第二语音特征包括第二内容特征和第二情绪特征；

所述利用所述第二特征提取网络，对所述训练音频进行特征提取，得到第二语音特征，包括：利用所述第二编码器，对所述训练音频进行编码处理，得到所述第二内容特征；利用所述第三编码器，对所述训练音频进行编码处理，得到所述第二情绪特征；

所述对所述第二头部特征和所述第二语音特征进行融合，得到第二融合特征，包括：对所述第二头部特征和所述第二内容特征进行融合，得到第二融合特征；

所述利用所述渲染生成网络，基于所述第二融合特征，生成所述第五视频，包括：利用所述渲染生成网络，基于所述第二融合特征和所述第二情绪特征，生成所述第五视频。

17.根据权利要求16所述的方法，其特征在于，所述渲染生成网络包括第四编码器和第一解码器；

所述利用所述渲染生成网络，基于所述第二融合特征和所述第二情绪特征，生成所述第五视频，包括：

利用所述第四编码器，对所述第二融合特征进行编码处理，得到编码后的所述第二融合特征；

利用所述第一解码器，对所述第二情绪特征和编码后的所述第二融合特征进行解码处理，得到所述第五视频。

18.根据权利要求12至17中任一项所述的方法，其特征在于，所述模型还包括人脸检测网络；所述方法还包括：

利用所述人脸检测网络，对所述训练视频中的第二人物人脸进行检测，得到所述训练视频中至少一个第二视频帧分别对应的人脸关键点，并针对每一所述第二视频帧，基于所述第二视频帧对应的人脸关键点，确定所述第二视频帧对应的嘴部区域；

对每一所述第二视频帧分别对应的嘴部区域进行掩码处理，得到所述第六视频。

19.根据权利要求18所述的方法，其特征在于，所述模型还包括第三特征提取网络；所述方法还包括：

从所述训练视频中确定第二参考视频帧；

利用所述第三特征提取网络，从所述第二参考视频帧中提取所述第二人物的第二身份特征；

所述利用所述渲染生成网络，基于所述第二头部特征和所述第二语音特征，生成包含所述第二人物的第五视频，包括：利用所述渲染生成网络，基于所述第二头部特征、所述第二身份特征和所述第二语音特征，生成包含所述第二人物的第五视频。

20.根据权利要求10至17中任一项所述的方法，其特征在于，所述利用所述第五视频确定目标损失，包括：

基于所述第五视频和所述训练音频对应的参考视频，确定第一损失；

确定所述训练视频中至少一个第二视频帧分别对应的嘴部区域，并确定所述第五视频中至少一个第三视频帧分别对应的嘴部区域；

基于每一所述第二视频帧分别对应的嘴部区域、以及每一所述第三视频帧分别对应的嘴部区域，确定第二损失；

基于所述第一损失和所述第二损失，确定目标损失。

21.根据权利要求20所述的方法，其特征在于，所述利用所述第五视频确定目标损失，还包括：

从所述第五视频和所述训练音频中分别提取互相匹配的视频片段和音频片段；

对所述视频片段和所述音频片段分别进行编码处理，得到第一编码特征和第二编码特征；

基于所述第一编码特征和所述第二编码特征，得到第三损失；

所述基于所述第一损失和所述第二损失，确定目标损失，包括：

基于所述第一损失、所述第二损失和所述第三损失，确定所述目标损失。

22.根据权利要求21所述的方法，其特征在于，所述利用所述第五视频确定目标损失，还包括：

利用第一判别器，确定所述参考视频中至少一个第四视频帧的真实度、以及所述第五视频中至少一个第三视频帧的真实度；

基于每一所述第四视频帧的真实度和每一所述第三视频帧的真实度，确定第四损失；

所述基于所述第一损失、所述第二损失和所述第三损失，确定所述目标损失，包括：

基于所述第一损失、所述第二损失、所述第三损失和所述第四损失，确定所述目标损失。

23.根据权利要求22所述的方法，其特征在于，所述利用所述第五视频确定目标损失，还包括：

针对所述参考视频中的每一对相邻的第四视频帧，利用第二判别器，确定所述一对相邻的第四视频帧之间的真实相邻度；

针对所述第五视频中的每一对相邻的第三视频帧，利用第二判别器，确定所述一对相邻的第三视频帧之间的真实相邻度；

基于每一对相邻的第四视频帧之间的真实相邻度、以及每一对相邻的第三视频帧之间的真实相邻度，确定第五损失；

所述基于所述第一损失、所述第二损失、所述第三损失和所述第四损失，确定所述目标损失，包括：

基于所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失，确定所述目标损失。

24.一种视频生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一语音特征和第一人物的第一头部特征；其中，所述第一头部特征通过对第一视频中第一人物的嘴部区域进行掩码处理得到，所述第一语音特征基于第一音频得到；所述第一头部特征包括第一头部动作特征和第一非嘴部区域特征；所述第一头部动作特征表征所述第一人物的头部运动；所述第一非嘴部区域特征表征所述第一人物非嘴部区域的视觉特征；所述第一头部动作特征通过将所述第一非嘴部区域特征映射至预设的动作特征空间得到；所述动作特征空间用于定义人物头部的运动姿态表征；

第一生成模块，用于基于所述第一头部特征和所述第一语音特征，生成包含所述第一人物的第二视频；所述第二视频中所述第一人物的说话动作与所述第一音频匹配。

25.一种模型训练装置，其特征在于，所述装置包括：

第二获取模块，用于获取第一语音训练数据和第二人物的第一头部训练数据；其中，所述第一头部训练数据通过对训练视频中所述第二人物的嘴部区域进行掩码处理得到，所述第一语音训练数据基于训练音频得到；所述第一头部训练数据包括第二头部特征或第六视频，所述第六视频用于提取所述第二人物的第二头部特征，所述第二头部特征包括第二头部动作特征和第二非嘴部区域特征；所述第二头部动作特征表征所述第二人物的头部运动；所述第二非嘴部区域特征表征所述第二人物非嘴部区域的视觉特征；所述第二头部动作特征通过将所述第二非嘴部区域特征映射至预设的动作特征空间得到；所述动作特征空间用于定义人物头部的运动姿态表征；

第四确定模块，用于在所述第五视频中所述第二人物的说话动作与所述训练音频匹配的情况下，确定所述待训练模型训练完成。

26.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至9中任一项或者10至23中任一项所述方法中的步骤。

27.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9中任一项或者10至23中任一项所述方法中的步骤。