CN112989935A

CN112989935A - 一种视频生成方法、装置、设备以及存储介质

Info

Publication number: CN112989935A
Application number: CN202110163607.1A
Authority: CN
Inventors: 胡天舒; 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-18
Also published as: US11836837B2; EP3944199A2; EP3944199A3; US20220028143A1

Abstract

本申请公开了一种视频生成方法、装置、设备以及存储介质，涉及人工智能领域，尤其涉计算机视觉和深度学习领域。具体实现方案为：根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像；采用人物驱动网络，基于语音片段驱动所述目标人物图像，得到所述待生成视频。能够在语音驱动人物图像，生成人物视频的过程中，编辑人物情绪，提高生成人物视频的灵活性，为图像驱动技术的发展提供了一种新思路。

Description

一种视频生成方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能领域，具体涉及计算机视觉和深度学习领域。

背景技术

随着人工智能技术和视频技术的发展，将静态图像驱动成动态视频的图像驱动技术逐渐兴起，具体过程为通过一段语音将一张静态的人物图像驱动成一段表达该段语音的动态人物视频，然而现有的图像驱动技术完全依靠用户提供的静态的原始人物图像，使得生成的人物视频过于死板，亟需改进。

发明内容

本申请提供了一种视频生成方法、装置、设备以及存储介质。

根据本申请的第一方面，提供了一种视频生成方法，包括：

根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像；

采用人物驱动网络，基于语音片段驱动所述目标人物图像，得到所述待生成视频。

根据本申请的第二方面，提供了一种视频生成装置，包括：

情绪更换模块，用于根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像；

视频生成模块，用于采用人物驱动网络，基于语音片段驱动所述目标人物图像，得到所述待生成视频。

根据本申请的第三方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例所述的视频生成方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本申请任一实施例所述的视频生成方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本申请任一实施例所述的视频生成方法。

本申请实施例的技术方案，能够在语音驱动人物图像，生成人物视频的过程中，编辑人物情绪，提高生成人物视频的灵活性，为图像驱动技术的发展提供了一种新思路。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1A是根据本申请实施例提供的一种视频生成方法的流程图；

图1B是根据本申请实施例提供的执行视频生成方法的一种网络架构示意图；

图2是根据本申请实施例提供的另一种视频生成方法的流程图；

图3是根据本申请实施例提供的另一种视频生成方法的流程图；

图4A是根据本申请实施例提供的另一种视频生成方法的流程图；

图4B是根据本申请实施例提供的执行视频生成方法的另一种网络架构示意图；

图5是根据本申请实施例提供的另一种视频生成方法的流程图；

图6是根据本申请实施例提供的一种视频生成装置的结构示意图；

图7是用来实现本申请实施例的视频生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1A是根据本申请实施例提供的一种视频生成方法的流程图；图1B是根据本申请实施例提供的执行视频生成方法的一种网络架构示意图。本实施例适用于通过语音驱动人物图像生成人物视频的情况。该实施例可以由电子设备中配置的视频生成装置来执行，该装置可以采用软件和/或硬件来实现。如图1A-1B所示，该方法包括：

S101，根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像。

其中，在本申请实施例中，待生成视频可以通过图像驱动技术，基于语音片段驱动静态的人物图像，得到的静态人物图像中的人物表达该语音片段的人物视频。所谓待生成视频的人物情绪特征可以是待生成视频中的人物表达语音片段时的人物情绪对应的特征，该人物情绪特征可以通过向量或矩阵等形式表示。例如，若该人物情绪特征为向量表示时，该向量可以是独热编码(one hot)向量。可选的，本申请实施例的人物情绪的类型可以包括但不限于开心、伤心、生气、惊吓和愤怒等。原始人物图像可以是用户想要通过语音片段驱动的静态人物图像。目标人物图像可以是对原始人物图像中的人物情绪进行更换和/或编辑之后的人物图像。例如，假设原始人物图像的人物情绪为无情绪，待生成视频的人物情绪为开心情绪，则该目标人物图像即为将原始人物图像的人物情绪从无情绪编辑为开心情绪后得到的人物图像。

需要说明的是，在本申请实施例中，原始人物图像与目标人物图像对应的人物是相同的，只是人物的情绪特征不同，目标人物图像的人物情绪特征取决于待生成视频的人物情绪特征。在本申请实施例中，待生成视频的人物情绪特征可以是用户根据需求个性化设置的，例如，用户想要目标人物以哪种情绪来表述该语音片段，则将该种情绪对应的特征设置为待生成视频的人物情绪特征。也可以是系统分析待驱动人物图像的语音片段所表达的人物感情，并基于该人物感情确定待生成视频的人物情绪特征，例如，语音片段所表达的人物感情为难过，则此时确定的待生成视频的人物情绪特征为伤心情绪对应的特征。

可选的，在本申请实施例中，根据待生成的人物情绪特征，更换原始人物图像的人物情绪的方式有很多，对此本实施例不进行限定。

方式一、采用图像处理算法，如仿真变换处理算法，根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪。具体的，可以是根据待生成视频的人物情绪特征和原始人物图像中的人物情绪特征，确定从原始人物图像中的人物情绪特征变换到待生成视频的人物情绪特征时对应的位置变换矩阵，进而基于该位置变换矩阵，对原始人物图像中待驱动变化的区域(如唇部、肢体等区域)的关键点的位置进行仿射变换处理，得到目标人物图像。

方式二、可以是采用情绪编辑网络，基于待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像。其中，情绪编辑网络是专门用于对人物图像中的人物情绪进行编辑，改变人物图像的人物情绪的神经网络，该情绪编辑网络的具体训练过程将在后续实施例进行详细介绍。具体的，如图1B所示，该方式可以将原始人物图像和待生成视频的人物情绪特征输入到预先训练好的情绪编辑网络11中，此时该情绪编辑网络11会基于训练时的算法，对输入的原始人物图像和人物情绪特征进行分析，并基于输入的人物情绪特征对原始人物图像的原有人物情绪进行编辑更改，以将原始人物图像的人物情绪更换为输入的人物情绪，输出更改后的人物图像即为目标人物图像。可选的，本申请实施例可以优选通过方式二采用情绪编辑网络来更换原始人物图像的人物情绪，相比于方式一，该方式二的好处是使得更换后的目标人物图像的人物情绪更为自然、效果更为逼真。

S102，采用人物驱动网络，基于语音片段驱动目标人物图像，得到待生成视频。

其中，本申请实施例的人物驱动网络可以是用于基于语音片段驱动静态的人物图像，生成人物图像中的人物表达该语音片段内容的人物视频的神经网络。该人物驱动网络可以是预先通过大量的样本语音片段和样本人物图像和样本人物视频训练得到的。语音片段可以是驱动静态的人物图像时使用的音频数据。

可选的，如图1B所示，本申请实施例可以是将语音片段和S101变更人物情绪后得到的目标人物图像输入到人物驱动网络12中，由人物驱动网络12基于模型训练时的算法，对输入的语音片段和目标人物图像进行分析编解码处理，得到并输出语音片段驱动目标人物图像后生成的原始人物图像中的人物表达该语音片段时对应的人物视频，该人物视频即为待生成视频。

可选的，在本申请实施例中，若S101根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪的操作是采用情绪编辑网络实现的，则执行S101操作所采用的情绪编辑网络和执行S102操作所采用的人脸驱动网络可以独立部署在两个网络模型中，也可以部署在同一个网络模型中，对此本实施例不进行限定。若将情绪编辑网络和人脸驱动网络部署在不同的网络模型中，则两网络相互独立，训练好的情绪编辑网络可以直接嵌入到已有的人脸驱动网络中，同样，训练好的人脸驱动网络也可以直接嵌入到已有的情绪编辑网络中，当其中一个网络需要更新时，无需对另一个网络进行重新训练，降低了模型训练成本，且拥有很好的可移植性。若将情绪编辑网络和人脸驱动网络部署同一网络模型中，则两网络可以耦合在一起进行训练，以提高最终输出的人物视频的效果。本申请实施例可以根据实际需求选择情绪编辑网络和人脸驱动网络的具体部署方式。

本申请实施例的技术方案，根据待生成视频的人物情绪特征对原始人物图像的人物情绪进行修改编辑，并采用人物驱动网络，基于语音片段驱动情绪修改后的原始人物图像(即目标人物图像)，得到目标人物图像表述语音片段的人物视频(即待生成视频)。本申请实施例的方案在采用语音片段驱动用户提供的静态的原始人物图像时，可以对生成的人物视频的情绪进行编辑，即生成的人物视频的人物情绪可以与用户提供的原始人物图像的人物情绪不同，提高了图像驱动技术生成人物视频的灵活性和趣味性，为图像驱动技术的发展提供了一种新思路。

图2是根据本申请实施例提供的另一种视频生成方法的流程图。本实施例在上述实施例的基础上，增加了对更换原始人物图像的人物情绪的情绪编辑网络的训练过程的具体情况介绍。如图2所示，该方法包括：

S201，将样本人物图像和第一样本情绪特征输入到情绪编辑网络中，得到第一预测情绪图像。

其中，样本人物图像可以是训练情绪编辑网络时所需的训练样本，本申请实施例采用的样本人物图像最好是包含多种不同人物情绪类型的样本人物图像。针对每一张样本人物图像，本实施例将其对应的人物情绪特征作为第二样本情绪特征，本实施例中的第一样本情绪特征为对样本人物图像的人物情绪进行更改时所依据的人物情绪特征，例如，若样本人物图像对应的第二样本情绪特征为开心情绪特征，则第一样本情绪特征可以是除开心情绪特征之外的其他想要更改的情绪特征，如伤心情绪特征。第一预测情绪图像可以是情绪编辑网络对样本人物图像中的人物情绪从第二情绪类型编辑为第一情绪类型后得到的图像，该第一预测情绪图像中的人物情绪类型为第一样本情绪特征对应的人物情绪类型。需要说明的是，本申请实施例的第一样本情绪特征和第二样本情绪特征对应的样本情绪即为人物情绪，该样本情绪的情绪类型可以包括但不限于：开心、伤心、生气、惊吓和愤怒等，网络训练时使用的样本情绪类型包括哪些，训练后的情绪编辑网络就可以对哪些情绪类型进行编辑。

可选的，本申请实施在训练情绪编辑网络时，可是先将样本人物图像和第一样本情绪特征输入到已构建好的情绪编辑网络中，该情绪编辑网络会基于第一样本情绪特征，将样本人物图像的人物情绪从第二样本情绪类型编辑为第一样本情绪类型，此时编辑后的样本人物图像即为第一预测情绪图像。

S202，将第一预测情绪图像和第二样本情绪特征输入到情绪编辑网络中，得到第二预测情绪图像。

可选的，在得到第一预测情绪图像后，本实施例可以将该第一预测情绪图像和第二样本情绪特征作为该情绪编辑网络的输入，此时该情绪编辑网络会基于输入的第二样本情绪特征，将输入的第一预测情绪图像的人物情绪从第一样本情绪类型编辑为第二样本情绪类型，此时编辑后的第一预测情绪图像即为第二预测情绪图像。

需要说明的是，所述第一预测情绪图像和所述第一样本情绪特征对应第一情绪类型；所述样本人物图像、所述第二预测情绪图像和所述第二样本情绪特征对应第二情绪类型。也就是说，样本人物图像、第一预测情绪图像和第二预测情绪图像对应的人物是同一人物，即都为样本人物图像中的人物，但是，第一预测情绪图像对应的人物情绪类型是第一情绪类型，该第一情绪类型对应的情绪特征为第一样本情绪特征。样本人物图像和第二预测情绪图像对应的人物情绪类型相同，都是第二情绪类型，该第二情绪类型对应的情绪特征为第二样本情绪特征；且第一情绪类型和第二情绪类型是两种不同的情绪类型。

S203，根据第二预测情绪图像和样本人物图像，确定损失函数值，并基于损失函数值对情绪编辑网络进行训练。

可选的，由于情绪编辑网络还在训练过程中，所以虽然样本人物图像和第二预测情绪图像对应同一人物和同一人物情绪类型，但是第二预测情绪图像可能还无法完全复原为样本人物图像，此时本申请实施例可以通过第二预测情绪图像和样本人物图像之间的相似度，来计算情绪编辑网络本次预测对应的损失函数值，并基于该损失函数值，对情绪编辑网络中的网络参数进行调整，以完成对该情绪编辑网络的一次训练。

本申请实施例可以是采用大量的不同情绪类型对应的样本人物图像，按照上述S201-S203的方式对情绪编辑网络进行多次训练，直到损失函数值小于预设数值，则该情绪编辑网络训练完成。还可以在对情绪编辑网络训练达到预设时长，或者预设次数后，采用测试数据对训练后的情绪编辑网络进行精确度测试，若训练后的情绪编辑网络的精确度达到预设要求，则该情绪编辑网络训练完成。

S204，采用情绪编辑网络，基于待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像。

可选的，本申请实施例采用S201-S203训练得到的情绪编辑网络，基于待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像。

S205，采用人物驱动网络，基于语音片段驱动目标人物图像，得到待生成视频。

本申请实施例的方案，将样本人物图像和第一样本情绪特征输入到情绪编辑网络中，得到第一预测情绪图像，将第一预测情绪图像和第二样本情绪特征再次输入到情绪编辑网络中，得到第二预测情绪图像，基于第二预测情绪图像和样本人物图像计算的损失函数值对情绪编辑网络进行训练，得到训练后的情绪编辑网络。进而基于人物驱动网络和训练后的情绪编辑网络，执行语音片段驱动原始人物图像生成更换了人物情绪人物表达该语音片段的人物视频。本申请实施例的方案，训练情绪编辑网络时，采用无监督训练的方式，仅基于样本人物图像就可以完成情绪编辑网络的训练，无需对样本人物图像进行预处理，在保证网络训练精确度的前提下，极大的简化了网络训练的复杂性，为情绪编辑网络的训练提供了一种新思路。

图3是根据本申请实施例提供的另一种视频生成方法的流程图。本实施例在上述各实施例的基础上，给出了如何确定待生成视频的人物情绪特征的具体介绍。如图3所示，该方法包括：

S301，响应于用户的情绪选择指令，确定待生成视频的人物情绪特征。

其中，情绪选择指令可以是用户根据需求选择本次想要编辑的情绪类型(即让待生成视频中的人物所具有的情绪类型)时触发的指令，该情绪选择指令中至少包括为待生成视频选择的人物情绪类型。可选的，本申请实施例配置有视频生成装置的电子设备上可以向用户提供一个可视化界面，该可视化界面向用户展示所有可编辑的人物情绪类型，例如，可以包括但不限于开心、伤心、生气、惊吓和愤怒等多种人物情绪类型。用户在需要通过一段语音片段驱动原始人物图像时，若想编辑生成的人物视频的人物情绪类型，则在向电子设备上传语音片段和原始人物图像的同时，在可视化界面上选择其想要编辑的人物情绪类型，即可触发生成包括该人物情绪类型的情绪选择指令，可选的，还可以通过语音控制的方式来触发生成情绪选择指令。

可选的，在本申请实施例中，用户在基于可视化界面展示的所有可编辑的人物情绪类型，触发生成情绪选择指令后，电子设备响应该情绪选择指令，确定用户为待生成视频选择的人物情绪类型，然后生成该人物情绪类型的特征作为待生成视频的人物情绪特征。具体的，可以是预先配置好可视化界面展示的各个可以编辑的人物情绪类型对应的特征，此时可以基于该配置信息，直接获取用户为待生成视频选择的人物情绪类型对应的特征。还可以是按照预设的编码方式，为用户对待生成视频选择的人物情绪类型生成对应的人物情绪特征。对此本实施例不进行限定。具体的编码方式可以包括但不限于下述两种。

方式一、响应于用户的情绪选择指令，确定待生成视频的人物情绪类型和候选情绪类型；对待生成视频的人物情绪类型和候选情绪类型进行独热编码，得到待生成视频的人物情绪特征。具体的，本方式可以是响应用户触发的情绪选择指令，确定用户为待生成视频选择的人物情绪类型，并将其作为待生成视频的人物情绪类型，然后将电子设备提供的其他可编辑的人物情绪类型作为候选情绪类型，采用独热(one hot)编码算法，基于确定的待生成视频的人物情绪类型和候选情绪类型，执行特征编码处理，即将待生成视频的人物情绪类型对应的特征值设置第一预设数值(如1)，将候选情绪类型对应的特征值设置为第二预设数值(如2)，即可得到待生成视频的人物情绪特征。例如，假设电子设备提供的可编辑的人物情绪类型包括：开心、伤心、生气、惊吓和愤怒五种，且待生成视频的人物情绪类型为开心，则候选情绪类型为伤心、生气、惊吓和愤怒，进而基于one hot编码处理，将开心对应的向量值设为1，其他情绪对应的向量值设为0，即生成的one hot向量为(10000)，同理，若待生成的人物情绪类型为生气，则生成的one hot向量为(00100)。此时该one hot向量即为生成视频的人物情绪特征。该方式一采用独热编码的方式确定待生成视频的人物情绪特征，这样设置的好处是在可供编辑的人物情绪类型较多时，也能快速准确的确定出待生成视频的人物情绪特征，且无需预先对大量的可编辑人物情绪类型进行特征配置，简化了情绪特征确定过程，且在可编辑人物情绪类型较多时，也起到了扩展特征维度的效果，例如，可编辑人物情绪类型有多少，为各人物情绪类型生成的人物情绪特征的维度就有多少。

方式二、响应于用户的情绪选择指令，确定待生成视频的人物情绪类型和人物情绪类型的情绪程度；根据人物情绪类型和情绪程度，生成待生成视频的人物情绪特征。具体的，该方式中用户的情绪选择指令中不但包含用户为待生成视频选择的人物情绪类型，还包含用户为该人物情绪类型选择的情绪程度。例如，该程度可以包括至少两个程度级别，该情绪程度对应的级别越高，则人物表达该情绪类型时的表情波动越大，例如，若该人物情绪类型为开心，则开心程度越高，用户嘴巴张开的程度越大。本方式可以响应用户触发的情绪选择指令，确定用户为待生成视频选择的人物情绪类型，以及为该人物情绪类型确定的情绪程度，然后生成该人物情绪类型对应的第一子特征，以及情绪程度对应的第二子特征，进而将第一子特征和第二子特征进行组合，得到待生成视频的人物情绪特征。该方式确定的待生成视频的人物情绪特征中不但包括情绪类型对应的特征，还包括情绪程度对应的特征，从多维度表征人物情绪特征，提高了人物情绪特征的精准性。使得基于该人物情绪特征编辑的人物情绪更为生动准确。

S302，根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像。

可选的，本申请实施例采用情绪编辑网络来执行本步骤的操作时，可以是将S301确定的待生成视频的人物情绪特征看作一个隐码与原始人物图像一起输入到情绪编辑网络中，由情绪编辑网络基于输入的人物情绪特征对原始人物图像的人物情绪进行修改编辑，得到目标人物图像。

S303采用人物驱动网络，基于语音片段驱动目标人物图像，得到待生成视频。

本申请实施例的技术方案，基于用户触发的情绪选择指令，确定待生成视频的人物情绪特征，基于该人物情绪特征更换原始人物图像的任务情绪，得到目标人物图像，进而采用人物驱动网络，根据语音片段驱动目标人物图像生成更换了情绪的人物表达该语音片段的人物视频。本申请的方案与从语音片段中提取人物情绪特征相比，由于从语音片段中提取的人物情绪特征通常是一对多的关系，例如，一段声音很大的语音片段，其提取的人物情绪特征可以包括惊讶、开心或者愤怒等多种情绪的特征，所以准确性较差，而本申请实施例基于用户选择，确定待生成视频的人物情绪特征，就能很好的解决该问题，提高了人物情绪特征确定的准确性，此外，本申请实施例的方案还可满足用户个性化设置人物情绪的类型的需求，针对同一原始人物图像和语音片段，可以驱动出多种不同人物情绪对应的人物视频，灵活性更强，更好的满足用户个性化的需求。

图4A是根据本申请实施例提供的另一种视频生成方法的流程图；图4B是根据本申请实施例提供的执行视频生成方法的另一种网络架构示意图；本实施例在上述各实施例的基础上，给出了如何采用人物驱动网络，基于语音片段驱动目标人物图像，得到待生成视频的具体介绍。

可选的，如图4B所示，执行本申请实施例的视频生成方法的网络架构中包括情绪编辑网络11和人物驱动网络12，该人物驱动网络12中又进一步包括了图像编码子网络121、语音编码子网络122和解码子网123，具体的，原始人物图像和待生成视频的人物情绪特征为情绪编辑网络11的输入，情绪编辑网络11的输出连接人物驱动网络12中的图像编码子网络121的输入，语音片段为人物驱动网络12中的语音编码子网络122的输入，图像编码子网络121和语音编码子网络122的输出连接人物驱动网络12中的解码子网123的输入，解码子网123的输出即为人物驱动网络12的输出。

如图4A-4B所示，该方法包括：

S401，根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像。

可选的，本申请实施例可以采用情绪编辑网络，基于待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像。具体的，如图4B所示，可以将静态的原始人物图像和待生成视频的人物情绪特征输入到情绪编辑网络11中，情绪编辑网络11会基于输入的待生成视频的人物情绪特征，将原始人物图像原有的人物特征修改为待生成视频的人物情绪特征，对原始人物图像进行情绪特征修改后，得到目标人物图像，并将该目标人物图像传输到人物驱动网络12中的图像编码子网络121。

S402，采用人物驱动网络中的图像编码子网络对目标人物图像进行特征提取，得到目标人物图像的特征图。

其中，目标人物图像的特征图为从目标人物图像中提取的人物特征对应的图像，该人物特征包括但不限于：人物的五官和肢体的关键点特征、肤色特征、姿态特征等。

可选的，如图4B所示，人物驱动网络12中的图像编码子网络121获取到情绪编辑网络11传输的目标人物图像后，解析编码该目标人物图像，得到该目标人物图像的人物特征对应的特征图，然后将得到的该特征图传输至人物驱动网络12中的解码子网123。

S403，采用人物驱动网络中的语音编码子网络对语音片段进行特征提取，得到语音动作关联特征。

其中，语音动作关联特征可以是从语音片段中提取出来的语音与人物动作形态之间的关联关系。例如，人在表达语音片段的过程中，变化最大的是唇部形态，因此，可以将语音与人脸唇部形态之间的关联关系作为语音动作关联特征，若在表达语音片段的过程中还加入了肢体形态的变化，则还可以将语音与肢体形态之间的关联关系作为语音动作关联特征。

可选的，如图4B所示，将目标语音片段输入到人物驱动网络12中的语音编码子网络122中，该语音编码子网络122会对该语音片段进行解析编码，得到该语音片段对应的语音动作关联特征，然后将得到的该特征图传输至人物驱动网络12中的解码子网123。

S404，采用人物驱动网络中的解码子网对目标人物图像的特征图和语音动作关联特征进行解码处理，得到待生成视频。

可选的，如图4B所示，人物驱动网络12中的解码子网络123会对语音编码子网络122传输的语音动作关联特征，以及图像编码子网络121传输的目标人物图像的特征图进行拼接，然后对拼接后的语音动作关联特征和目标人物图像的特征图进行解码分析，生成包含该特征图中的人物特征，且被语音动作关联特征驱动后的人物图像序列。其中，该人物图像序列可以是由至少一帧驱动后的人物图像帧构成，语音片段时长越长，生成的该人物图像序列中包含的人物图像帧的数量越多。示例性的，如图4B所示，若图像特征为人脸的五官关键点特征、肤色特征和姿态特征，语音动作关联特征为语音与人脸唇部形态之间的关联关系，则此时驱动后的人物图像序列中的各帧图像中的人脸都具同样的五官关键点特征、肤色特征和姿态特征，只是受语音动作关联特征的驱动，不同图像帧中唇部关键点的位置发生了变化。在得到人物图像序列之后，可以按照人物图像序列中各帧人物图像的生成顺序，对各帧人物图像进行视频化处理得到待生成视频。

可选的，本申请实施例的人物驱动网络12中还可以包括判别器子网络，该判别器子网络的输入可以连接解码子网络123的输出，在解码子网络123得到待生成视频后，可以将该待生成视频输入到判断器子网络中，由判别器子网络来判断视频的真实性，若判别器子网络的输出结果为“真”，则人物驱动网络12输出该待生成视频，否则输出视频生成有误的错误提示信息，以保证基于语音片段驱动人物图像输出的人物视频的准确性。

本申请实施例的方案，根据待生成视频的人物情绪特征对原始人物图像的人物情绪进行修改编辑，并采用人物驱动网络中的图像编码子网络对修改后的原始人物图像(即目标人物图像)提取目标人物图像的特征图，采用人物驱动网络中的语音编码子网络对语音片段提取语音动作关联特征，进而采用人物驱动网络中的解码子网解码目标人物图像的特征图和语音动作关联特征，得到待生成视频。本申请实施例的方案结合人物驱动网络中的图像编码子网络、语音编码子网络和解码子网络间的相互配合，得到待生成视频，给出了待生成视频确定的一种优选方式，该方式通过确定目标人物图像的特征图和语音动作关联特征来解码得到待生成视频，使得确定的待生成视频在保留原始人物图像的人物特征的基础上，改变了人物情绪，且通过人物动作变化，生动准确的表达了语音片段的内容，提高了待生成视频的真实性。

图5是根据本申请实施例提供的另一种视频生成方法的流程图。本实施例在上述各实施例的基础上，进行了进一步的优化，给出了一种语音片段驱动人物图像，生成人物视频的优选实例介绍。如图5所示，该方法包括：

S501，将语音片段的频率转换为预设频率。

可选的，为了避免人物驱动网络训练时使用的样本语音片段的频率与本次驱动原始人物图像的语音片段的频率不同，影响后续生成视频的效果，本申请实施例可以按照训练人物驱动网络时使用的样本语音片段的频率，对本次使用的语音片段的频率进行转换，即将本次使用的语音片段的频率转换为训练人物驱动网络时使用的样本语音片段的频率。可选的，也可以是预先设置一个统一的预设频率(如160kHz)，无论是在人物驱动网络的使用还是训练阶段，都先将需要输入到该人物驱动网络的语音片段转换为该预设频率。例如，将语音片段的频率转换为预设频率，以降低不同频率的语音片段对人物驱动网络工作效果的影响。

S502，将转换后的语音片段划分为至少两个子语音片段。

可选的，通常情况下，音频片段的时长较长，为了后续更精准的提取出该语音片段的语音动作关联特征，实现精准确定人物图像，生成人物视频。本实施例可以将转换为统一频率的语音片段分割为多个子语音片段。具体的，本申请实施例可以是按照常规的视频帧采样频率，对语音片段进行分割。例如，若常规的视频帧采样频率为0.2s采样一次，则本申请实施例可以将语音片段以0.2秒为一个切分点，将语音片段划分为多个子语音片段。还可以是对语音片段进行词划分或语句划分处理，将每个词或每个语句在语音片段中对应的音频内容划分一个子语音片段。本实施例还可以采用其他方式对语音片段进行划分，对此本进行限定。

S503，根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像。

S504，采用人物驱动网络，基于至少两个子语音片段驱动目标人物图像，得到至少两组人物图像序列，并根据至少两组人物图像序列，确定待生成视频。

可选的，由于S502将待驱动人物图像的语音片段划分成了多个子语音片段，此时在执行本步骤时，可以按照各子语音片段在原语音片段中的先后顺序，依次将各子语音片段与目标人物图像输入到训练好的人物驱动网络中，人物驱动网络会针对每个子语音片段，都对目标人物图像进行一次图像驱动处理，得到每个子语音片段驱动目标人物图像得到的一组人物图像序列，进而将得到各组人物图像序列中的各帧图像按照其生成顺序进行视频化处理，得到待生成视频。

本申请实施例的方案，对于待驱动人物图像的语音片段进行频率转换和分割处理，得到频率统一的至少一个子语音片段，根据待生成视频的人物情绪特征，将原始人物图像的人物情绪进行修改，并采用人物驱动网络，基于每个子语音片段依次对修改后的原始人物图像，即目标人物图像进行图像驱动处理，得到每个子语音片段驱动的一组人物图像序列，基于各组人物图像序列，确定待生成视频。本申请实施例的方案，在采用人物驱动网络对语音片段和目标人物图像进行处理之前，对语音片段进行频率的转换，降低了不同频率的语音片段对图像驱动效果的影响，对样本语音数据进行分割，便于后续更精准的提取整个语音片段的语音动作关联特征，为采用人物驱动网络生成生动逼真的人物视频提供了保证。

图6是根据本申请实施例提供的一种视频生成装置的结构示意图，本实施例适用于通过语音驱动人物图像生成人物视频的情况。该装置可实现本申请任意实施例所述的视频生成方法。该装置600具体包括如下：

情绪更换模块601，用于根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像；

视频生成模块602，用于采用人物驱动网络，基于语音片段驱动所述目标人物图像，得到所述待生成视频。

本申请实施例的方案，根据待生成视频的人物情绪特征对原始人物图像的人物情绪进行修改编辑，并采用人物驱动网络，基于语音片段驱动情绪修改后的原始人物图像(即目标人物图像)，得到目标人物图像表述语音片段的人物视频(即待生成视频)。本申请实施例的方案在采用语音片段驱动用户提供的静态的原始人物图像时，可以对生成的人物视频的情绪进行编辑，即生成的人物视频的人物情绪可以与用户提供的原始人物图像的人物情绪不同，提高了图像驱动技术生成人物视频的灵活性和趣味性，为图像驱动技术的发展提供了一种新思路。

进一步的，所述情绪更换模块601具体用于：

采用情绪编辑网络，基于待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像。

进一步的，所述装置还包括：模型训练模块，用于：

将样本人物图像和第一样本情绪特征输入到情绪编辑网络中，得到第一预测情绪图像；

将所述第一预测情绪图像和第二样本情绪特征输入到所述情绪编辑网络中，得到第二预测情绪图像；

根据所述第二预测情绪图像和所述样本人物图像，确定损失函数，并基于所述损失函数对所述情绪编辑网络进行训练；

其中，所述第一预测情绪图像和所述第一样本情绪特征对应第一情绪类型；所述样本人物图像、所述第二预测情绪图像和所述第二样本情绪特征对应第二情绪类型。

进一步的，所述装置还包括：

情绪特征确定模块，用于响应于用户的情绪选择指令，确定待生成视频的人物情绪特征。

进一步的，所述情绪特征确定模块具体用于：

响应于用户的情绪选择指令，确定待生成视频的人物情绪类型和候选情绪类型；

对所述待生成视频的人物情绪类型和所述候选情绪类型进行独热编码，得到待生成视频的人物情绪特征。

进一步的，所述情绪特征确定模块还具体用于：

响应于用户的情绪选择指令，确定待生成视频的人物情绪类型和所述人物情绪类型的情绪程度；

根据所述人物情绪类型和所述情绪程度，生成待生成视频的人物情绪特征。

进一步的，视频生成模块602具体用于：

采用所述人物驱动网络中的图像编码子网络对所述目标人物图像进行特征提取，得到所述目标人物图像的特征图；

采用所述人物驱动网络中的语音编码子网络对语音片段进行特征提取，得到语音动作关联特征；

采用所述人物驱动网络中的解码子网对所述目标人物图像的特征图和所述语音动作关联特征进行解码处理，得到所述待生成视频。

进一步的，所述装置还包括：

频率转模块，用于将语音片段的频率转换为预设频率；

音频划分模块，用于将转换后的语音片段划分为至少两个子语音片段；

相应的，所述视频生成模块602具体用于：

采用人物驱动网络，基于所述至少两个子语音片段驱动所述目标人物图像，得到至少两组人物图像序列，并根据所述至少两组人物图像序列，确定所述待生成视频。

上述产品可执行本申请任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本申请的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如视频生成方法。例如，在一些实施例中，视频生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的视频生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频生成方法，包括：

2.根据权利要求1所述的方法，其中，根据待生成视频的人物情绪特征，更换原始人物图像的人物情绪，得到目标人物图像，包括：

3.根据权利要求2所述的方法，其中，所述情绪编辑网络的训练过程包括：

根据所述第二预测情绪图像和所述样本人物图像，确定损失函数值，并基于所述损失函数值对所述情绪编辑网络进行训练；

4.根据权利要求1所述的方法，还包括：

响应于用户的情绪选择指令，确定待生成视频的人物情绪特征。

5.根据权利要求4所述的方法，其中，响应于用户的情绪选择指令，确定待生成视频的人物情绪特征，包括：

6.根据权利要求4所述的方法，其中，响应于用户的情绪选择指令，确定待生成视频的人物情绪特征，包括：

7.根据权利要求1所述的方法，其中，采用人物驱动网络，基于语音片段驱动所述目标人物图像，得到所述待生成视频，包括：

8.根据权利要求1所述的方法，还包括：

将语音片段的频率转换为预设频率；

将转换后的语音片段划分为至少两个子语音片段；

相应的，采用人物驱动网络，基于语音片段驱动所述目标人物图像，得到所述待生成视频，包括；

9.一种视频生成装置，包括：

10.根据权利要求9所述的装置，其中，所述情绪更换模块具体用于：

11.根据权利要求10所述的装置，还包括：模型训练模块，用于：

12.根据权利要求9所述的装置，还包括：

13.根据权利要求12所述的装置，其中，所述情绪特征确定模块具体用于：

14.根据权利要求12所述的装置，其中，所述情绪特征确定模块还具体用于：

15.根据权利要求9所述的装置，其中，视频生成模块具体用于：

16.根据权利要求9所述的装置，还包括：

频率转模块，用于将语音片段的频率转换为预设频率；

相应的，所述视频生成模块用于：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的视频生成方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的视频生成方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的视频生成方法。