CN114429664A

CN114429664A - 视频生成方法以及视频生成模型的训练方法

Info

Publication number: CN114429664A
Application number: CN202210109748.XA
Authority: CN
Inventors: 朱亦哲; 刘炳辰; 杨骁�
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-03
Also published as: US20250131613A1; WO2023146466A2; WO2023146466A8; WO2023146466A3

Abstract

本申请实施例提供一种视频生成方法以及视频生成模型的训练方法，该视频生成方法包括：获取第一视频；第一视频中包括第一对象图像；将第一视频输入预先训练好的视频生成模型，得到第二视频；视频生成模型基于目标图像和多张第一样本图像得到的多个样本图像对进行训练得到，第二视频中的对象图像基于目标图像中的预设动物图像和第一对象图像生成，第二视频的背景图像基于第一视频的第一背景图像生成。本申请提供的视频生成方法以及视频生成模型的训练方法能够用于提高第二视频的质量。

Description

视频生成方法以及视频生成模型的训练方法

技术领域

本申请涉及图像处理的技术领域，尤其涉及一种视频生成方法以及视频生成模型的训练方法。

背景技术

目前，针对包括家庭宠物的脸部图像的视频，能够对视频中家庭宠物的脸部图像进行特效变换，以将视频中的家庭宠物的面部图像变化为其他特定动物的脸部图像。

在相关技术中，设计师设计出3D动物脸部图像道具作为其他特定动物的脸部图像，并采用3D动物图像道具替换视频中包括的家庭宠物的面部图像，以得到新视频。

在上述过程中，采用3D动物脸部图像道具替换视频中包括的家庭宠物的面部图像，得到新视频，导致在新视频中，3D动物脸部图像道具和家庭宠物的面部图像的结合性差，进而导致新视频的质量较差。

发明内容

本申请实施例提供一种视频生成方法以及视频生成模型的训练方法，用以解决新视频的质量较差的问题。

第一方面，本申请实施例提供一种视频生成方法，包括：

获取第一视频；第一视频中包括第一对象图像；

将第一视频输入预先训练好的视频生成模型，得到第二视频；视频生成模型基于目标图像和多张第一样本图像得到的多个样本图像对进行训练得到，第二视频中的对象图像基于目标图像中的预设动物图像和第一对象图像生成，第二视频的背景图像基于第一视频的第一背景图像生成。

在一种可能的设计中，样本图像对包括第一样本图像和第一样本图像对应的第二样本图像；

第二样本图像基于第一样本图像、目标图像和第一样本图像对应的第一样本背景图像得到。

在一种可能的设计中，第一样本图像中包括第一样本对象图像和初始背景图像；第一样本对象图像和初始背景图像不重叠；

第一样本背景图像为对初始背景图像进行背景补充处理之后的图像。

在一种可能的设计中，第二样本图像基于第一样本背景图像和第三样本图像中的对象图像的对象前景图得到；

第三样本图像基于第一样本图像和目标图像得到，第三样本图像中的对象图像基于预设动物图像和第一样本对象图像生成。

在一种可能的设计中，第二样本图像为对第一样本背景图像和对象前景图进行融合处理得到。

在一种可能的设计中，第二样本图像基于色彩差异信息和第四样本图像得到；色彩差异信息基于第四样本图像和第一样本图像得到；第四样本图像基于对象前景图和第一样本背景图像得到。

在一种可能的设计中，色彩差异信息包括R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值；

R通道对应的第一色彩值基于R通道对应的第二色彩值与R通道对应的第三色彩值得到，G通道对应的第一色彩值基于G通道对应的第二色彩值与G通道对应的第三色彩值得到，B通道对应的第一色彩值基于B通道对应的第二色彩值与B通道对应的第三色彩值得到；

R通道对应的第二色彩值、G通道对应的第二色彩值、B通道对应的第二色彩值分别基于第四样本图像包括的像素的色彩值得到；

R通道对应的第三色彩值、G通道对应的第三色彩值、B通道对应的第三色彩值分别基于第一样本图像包括的像素的色彩值得到。

第二方面，本申请实施例提供一种视频生成模型的训练方法，包括：

获取多张第一样本图像、以及目标图像；

确定每个第一样本图像对应的第一样本背景图像；

针对每个第一样本图像，根据第一样本图像、目标图像和对应的第一样本背景图像，生成第二样本图像；将第一样本图像和第二样本图像，确定为样本图像对；第二样本图像中的对象图像基于目标图像中的预设动物图像和第一样本图像中的第一样本对象图像生成，第二样本图像的背景图像基于对应的第一样本背景图像生成；

根据多个样本图像对，对初始视频生成模型进行训练，以得到视频生成模型。

在一种可能的设计中，确定每个第一样本图像对应的第一样本背景图像，包括：

针对每个第一样本图像，获取第一样本图像中除第一样本对象图像之外的初始背景图像；

对初始背景图像进行背景补充处理，得到第一样本图像对应的第一样本背景图像。

在一种可能的设计中，根据第一样本图像、目标图像和对应的第一样本背景图像，生成第二样本图像，包括：

通过预设图像生成模型，对第一样本图像和目标图像进行处理，得到第三样本图像；第三样本图像中的对象图像基于预设动物图像和第一样本对象图像生成；

获取第三样本图像中的对象图像的对象前景图；

根据对象前景图和第一样本背景图像，确定第二样本图像。

在一种可能的设计中，根据对象前景图和第一样本背景图像，确定第二样本图像，包括：

对对象前景图和第一样本背景图像进行融合处理，得到第二样本图像。

对对象前景图和第一样本背景图像进行融合处理，得到第四样本图像；

获取第四样本图像和第一样本图像的色彩差异信息；

根据色彩差异信息，对第四样本图像进行色彩调整，得到第二样本图像。

在一种可能的设计中，色彩差异信息包括R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值；获取第四样本图像和第一样本图像的色彩差异信息，包括：

对第四样本图像包括的像素的色彩值进行统计处理，得到R通道对应的第二色彩值、G通道对应的第二色彩值和B通道对应的第二色彩值；

对第一样本图像包括的像素的色彩值进行统计处理，得到R通道对应的第三色彩值、G通道对应的第三色彩值和B通道对应的第三色彩值；

将R通道对应的第二色彩值和R通道对应的第三色彩值的差值，确定为R通道对应的第一色彩值；

将G通道对应的第二色彩值与G通道对应的第三色彩值的差值，确定为G通道对应的第一色彩值；

将B通道对应的第二色彩值与B通道对应的第三色彩值的差值，确定为B通道对应的第一色彩值。

在一种可能的设计中，根据色彩差异信息，对第四样本图像进行色彩调整，得到第二样本图像，包括：

针对第四样本图像中包括的每个像素，根据色彩差异信息包括的R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值，对像素的色彩值进行调整，以得到第二样本图像。

第三方面，本申请实施例提供一种视频生成装置，包括：处理模块；处理模块用于：

获取第一视频；第一视频中包括第一对象图像；

在一种可能的设计中，样本图像对包括第一样本图像和第一样本图像对应的第二样本图像；第二样本图像基于第一样本图像、目标图像和第一样本图像对应的第一样本背景图像得到。

在一种可能的设计中，第一样本图像中包括第一样本对象图像和初始背景图像；第一样本对象图像和初始背景图像不重叠；第一样本背景图像为对初始背景图像进行背景补充处理之后的图像。

在一种可能的设计中，第二样本图像基于第一样本背景图像和第三样本图像中的对象图像的对象前景图得到；第三样本图像基于第一样本图像和目标图像得到，第三样本图像中的对象图像基于预设动物图像和第一样本对象图像生成。

在一种可能的设计中，色彩差异信息包括R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值；R通道对应的第一色彩值基于R通道对应的第二色彩值与R通道对应的第三色彩值得到，G通道对应的第一色彩值基于G通道对应的第二色彩值与G通道对应的第三色彩值得到，B通道对应的第一色彩值基于B通道对应的第二色彩值与B通道对应的第三色彩值得到；

第四方面，本申请实施例提供一种视频生成模型的训练装置，包括：处理模块；处理模块用于：

获取多张第一样本图像、以及目标图像；

确定每个第一样本图像对应的第一样本背景图像；

在一种可能的设计中，处理模块具体用于：

获取第三样本图像中的对象图像的对象前景图；

根据对象前景图和第一样本背景图像，确定第二样本图像。

在一种可能的设计中，处理模块具体用于：

获取第四样本图像和第一样本图像的色彩差异信息；

在一种可能的设计中，色彩差异信息包括R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值；处理模块具体用于：

在一种可能的设计中，处理模块具体用于：

第五方面，本申请实施例提供图像的生成装置，包括：预设图像分割模块、预设背景补全模块、预设图像生成模块和前背景融合模块；其中，

预设图像分割模块，用于通过预设图像分割模型对第一样本图像进行图像分割处理，得到第一样本图像中除第一样本对象图像之外的初始背景图像；

预设背景补全模块，用于通过预设背景补全模型对初始背景图像进行背景补充处理，得到第一样本背景图像；

预设图像生成模块，用于对第一样本图像和目标图像进行处理，得到第三样本图像；

预设图像分割模块，还用于通过预设图像分割模型，对第三样本图像进行图像分割处理，得到对象前景图；

前背景融合模块，用于对对象前景图和第一样本背景图像进行融合处理，得到第二样本图像。

第六方面，本申请实施例提供一种图像的生成装置，包括：预设图像分割模块、预设背景补全模块、预设图像生成模块、前背景融合模块和色彩处理模块；其中，

预设图像分割模块，还用于通过预设图像分割模型对第三样本图像进行图像分割处理，得到对象前景图；

前背景融合模块，用于对对象前景图和第一样本背景图像进行融合处理，得到第四样本图像；

色彩处理模块，用于获取第四样本图像和第一样本图像的色彩差异信息，并根据所述色彩差异信息，对第四样本图像进行色彩调整，得到第二样本图像。

第七方面，本申请实施例提供一种电子设备，包括：处理器和与处理器通信连接的存储器；存储器存储计算机执行指令；处理器执行存储器存储的计算机执行指令，以实现如第一方面任一项中的方法。

第八方面，本申请实施例提供一种模型训练设备，包括：处理器和与处理器通信连接的存储器；存储器存储计算机执行指令；处理器执行存储器存储的计算机执行指令，以实现如第二方面任一项中的方法。

第九方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如第一方面和第二方面任一项中的方法。

第十方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面和第二方面任一项中的方法。

本申请实施例提供视频生成方法以及视频生成模型的训练方法，该视频生成方法包括：获取第一视频；第一视频中包括第一对象图像；将第一视频输入预先训练好的视频生成模型，得到第二视频；视频生成模型基于目标图像和多张第一样本图像得到的多个样本图像对进行训练得到，第二视频中的对象图像基于目标图像中的预设动物图像和第一对象图像生成，第二视频的背景图像基于第一视频的第一背景图像生成。在上述方法中，第二视频中的对象图像为在预设动物图像和第一对象图像较好结合的基础上得到的，而且第二视频的背景图像基于第一视频的第一背景图像生成，而不是简单地将第一对象图像替换为预设动物图像得到第二视频中的对象图像，因此可以提高第二视频的质量。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的视频生成方法的应用场景示意图；

图2为本申请提供的视频生成方法的流程图；

图3为本申请提供的视频生成模型的训练方法的流程图；

图4为本申请实施例提供的第一样本背景图像的示意图；

图5为本申请实施例提供的得到第三样本图像的示意图；

图6为本申请实施例提供的得到第二样本图像的示意图；

图7为本申请实施例提供的确定第二样本图像的方法流程图；

图8为本申请实施例提供的两个第二样本图像的示意图；

图9为本申请实施例提供的一种图像的生成装置的结构示意图；

图10为本申请实施例提供的另一种图像的生成装置的结构示意图；

图11为本申请提供的视频生成装置的结构示意图；

图12为本申请提供的视频生成模型的训练装置的结构示意图；

图13为本申请实施例提供的电子设备的硬件示意图；

图14为本申请实施例提供的模型训练设备的硬件示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在相关技术中，在相关技术中，设计师设计出3D动物脸部图像道具(或者3D动物头套)作为其他特定动物的脸部图像，并采用3D动物图像道具(或者3D动物头套)替换视频中包括的家庭宠物的面部图像，以得到新视频。在上述过程中，采用3D动物脸部图像道具(或者3D动物头套)替换视频中包括的家庭宠物的面部图像，得到新视频，导致在新视频中，3D动物脸部图像道具(或者3D动物头套)和家庭宠物的面部图像的结合性差，进而导致新视频的质量较差。

在本申请中，为了提高新视频的质量，发明人想到，采用一种数据计算量小的视频生成模型，对第一视频进行处理，得到第二视频(为新的视频)。在第二视频中，第二视频中的对象图像基于目标图像中预设动物图像和第一对象图像的生成，使得预设动物图像和第一对象图像的结合性较好，进而提高第二视频的质量。

下面以预设动物图像为老虎图像、第一对象图像为宠物狗图像为例结合图1对本申请提供的视频生成方法的应用场景进行说明。

图1为本申请实施例提供的视频生成方法的应用场景示意图。如图1所示，包括：目标图像、多张第一样本图像、初始视频生成模型、视频生成模型、原始图像和生成图像。

视频生成模型为采用多个样本图像对训练初始视频生成模型之后得到的。其中，多个样本图像对基于目标图像和多张第一样本图像得到。

视频生成模型用于对原始图像进行处理，得到生成图像。生成图像具有目标图像和原始图像的特征。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请提供的视频生成方法的流程图。如图2所示，该方法包括：

S201，获取第一视频，第一视频中包括第一对象图像。

可选地，本申请的执行主体可以为电子设备，也可以为设置在电子设备中的视频生成装置，该视频生成装置可以通过软件和/或硬件的结合来实现。硬件包括但不限于GPU(graphics processing unit，图形处理器)。GPU的计算速度可以较快，也可以较慢。在本申请中，由于GPU的计算速度可以较快，也可以较慢，因此使得能够部署本申请提供的视频生成方法能够部署的电子设备的范围较广。

例如，当GPU的计算速度较慢时，电子设备可以为PDA(Personal DigitalAssistant，个人数字助理)、UE(User Equipment，用户设备)。用户例如设备可以为智能手机等。

可选地，第一视频可以为电子设备实时采集到的视频，也可以为预先存储在电子设备中的视频。第一视频中包括N帧原始图像。N为大于或等于2的整数。

可选地，第一对象图像可以为原始图像中的动物图像、人物图像。

S202，将第一视频输入预先训练好的视频生成模型，得到第二视频。

视频生成模型基于目标图像和多张第一样本图像得到的多个样本图像对进行训练得到。

第二视频中的对象图像基于目标图像中的预设动物图像和第一对象图像生成，第二视频的背景图像基于第一视频的第一背景图像生成。

第二视频中包括N帧生成图像(包括N帧原始图像各自对应的生成图像)。具体的，针对第一视频中的每帧原始图像，视频生成模型对原始图像进行处理，得到第二视频中与原始图像对应的生成图像。

可选地，预设动物图像可以为十二生肖中的任意一种动物的图像，也可以为其他动物的图像。

当第一对象图像为动物图像时，第一对象图像指示的动物和预设动物图像指示的动物可以不同。

例如，当预设动物图像指示的动物为老虎时，第一对象图像指示的动物可以猫、狗、鹿等。

与现有技术不同，在现有技术中，采用3D动物脸部图像道具替换视频中包括的家庭宠物的面部图像，使得3D动物脸部图像道具和家庭宠物的面部图像的结合性差、真实度低，降低了新视频的质量。

而在本申请的图2实施例提供的视频生成方法中，第二视频中的对象图像为在预设动物图像和第一对象图像较好结合的基础上得到的，而且第二视频的背景图像基于第一视频的第一背景图像生成，并不是直接将第一对象图像替换为预设动物图像，因此预设动物图像和第一对象图像的结合性好、真实度高，因此提高了第二视频的质量。

在上述实施例的基础上，下面结合图3对视频生成模型的训练方法进行说明。具体的，请参见图3实施例。

图3为本申请提供的视频生成模型的训练方法的流程图。如图3所示，该方法包括：

S301，获取多张第一样本图像、以及目标图像。

可选地，视频生成模型的训练方法的执行主体可以为电子设备，也可以为设置在电子设备中的视频生成模型的训练装置，还可以为服务器、或者设置在服务器中的视频生成模型的训练装置。其中，视频生成模型的训练装置可以通过软件和/或硬件的结合来实现。

第一样本图像中包括第一样本对象图像。

第一样本对象图像可以为人物图像、或者动物图像。

目标图像中包括预设动物图像。

当第一样本对象图像为动物图像时，第一样本对象图像指示的动物和预设动物图像指示的动物可以不同。

S302，确定每个第一样本图像对应的第一样本背景图像。

针对每个第一样本图像，可以通过如下方法得到第一样本背景图像：获取第一样本图像中除第一样本对象图像之外的初始背景图像；对初始背景图像进行背景补充处理，得到第一样本图像对应的第一样本背景图像。在第一样本图像中，初始背景图像和第一样本对象图像不重叠。

可选地，通过预设图像分割模型，对第一样本图像进行图像分割处理，得到初始背景图像。

可选地，通过预设背景补全模型，对初始背景图像进行背景补充处理，得到第一样本图像对应的第一样本背景图像。

下面结合图4，对得到第一样本背景图像的示意图进行说明。图4为本申请实施例提供的第一样本背景图像的示意图。如图4所示，包括：第一样本图像、以及第一样本图像对应的第一样本背景图像。需要说明的是，图4是以第一样本对象图像指示的动物为猫进行示例性说明的。

S303，针对每个第一样本图像，根据第一样本图像、目标图像和对应的第一样本背景图像，生成第二样本图像；将第一样本图像和第二样本图像，确定为样本图像对。

其中，第二样本图像中的对象图像基于目标图像中的预设动物图像和第一样本图像中的第一样本对象图像生成，第二样本图像的背景图像基于对应的第一样本背景图像生成。

在一种可能的设计中，可采用如下方法生成第二样本图像：通过预设图像生成模型，对第一样本图像和目标图像进行处理，得到第三样本图像；获取第三样本图像中的对象图像的对象前景图；根据对象前景图和第一样本背景图像，确定第二样本图像。

需要说明的是，第三样本图像中对象图像的面部图像的表情特征和第一样本对象图像的面部图像的表情特征的相似度大于或等于第一阈值，对象图像的面部图像的姿色特征和第一样本对象图像的面部图像的表情特征的相似度大于或等于第二阈值，对象图像的面部图像的五官位置与第一样本对象图像的面部图像的五官位置的相似度大于或等于第三阈值。

可选地，预设图像生成模型可以为预先得到的StarGANv2(Diverse ImageSynthesis for Multiple Domains，多域的多样化图像合成)模型或者或者PIVQGAN(Posture and Identity isentangled Image-to-Image Translation via VectorQuantization)，通过矢量量化进行姿势和身份解耦的图像到图像转换)模型。

下面结合图5对通过预设图像生成模型得到第三样本图像进行说明。图5为本申请实施例提供的得到第三样本图像的示意图。如图5所示，包括：第一样本图像、目标图像、第三样本图像、预设图像生成模型。预设图像生成模型对输入的第一样本图像和目标图像进行处理，得到第三样本图像。第三样本图像的背景图像和目标图像中的背景图像相同。

在本申请中，通过预设图像生成模型对目标图像和第一样本图像进行处理，使得目标图像和第一样本图像的结合性较好，从而提高第三样本图像的质量，进而提高第二样本图像的质量。

可选地，通过预设图像分割模型，对第三样本图像进行分割处理，得到对象前景图。

可选地，可以通过如下方式11和方式12确定第二样本图像。

方式11，对对象前景图和第一样本背景图像进行融合处理，得到第二样本图像。可选地，可以基于透明度混合(alpha blending)方法，对对象前景图和第一样本背景图像进行融合处理，得到第二样本图像。

在本申请中，对第三样本图像中的对象图像的对象前景图和第一样本背景图像进行融合处理，可以使得对象前景图和第一样本背景图像较好的结合在一起，进而提高第二样本图像的质量。

方式12，根据对象前景图的尺寸和对象前景图在第三样本图像中的位置，对第一样本背景图像进行剪切处理，得到第二样本背景图像；将对象前景图填充至第二样本背景图像中，得到第二样本图像。其中，第三样本图像和第一样本图像的尺寸相同。下面结合图6对基于方式12，得到第二样本图像进行示例性说明。图6为本申请实施例提供的得到第二样本图像的示意图。如图6所示，包括：对象前景图、第一样本背景图像、第二样本背景图像和第二样本图像。第二样本背景图像为对第一样本背景图像进行剪切处理之后得到的，第二样本图像在第二样本背景图像中填充对象前景图之后得到的。

S304，根据多个样本图像对，对初始视频生成模型进行训练，以得到视频生成模型。

每个样本图像对中包括一个第一样本图像和该第一样本图像对应的第二样本图像。

可选地，初始视频生成模型可以为Pix2pix模型。

在现有技术中，对于第一样本图像，需要人工绘制与第一样本图像对应的样本图像，从而得到样本图像对。由于现有技术中需要人工绘制与第一样本图像对应的样本图像，因此导致得到样本图像对的人工成本和时间成本较高。

而在图3实施例提供的视频生成模型的训练方法中，根据第一样本图像、目标图像和对应的第一样本背景图像，生成第一样本图像对应的第二样本图像，无需人工绘制第二样本图像，因此能够降低得到样本图像对的人工成本和时间成本。

需要说明的是，本申请还提供一种根据对象前景图和第一样本背景图像确定第二样本图像的方法，下面结合图7对确定第二样本图像的另一种方法进行说明。

图7为本申请实施例提供的确定第二样本图像的方法流程图。如图7所示，该方法包括：

S701，对对象前景图和第一样本背景图像进行融合处理，得到第四样本图像。

可选地，可以通过上述方式11或者方式12的方法，对对对象前景图和第一样本背景图像进行融合处理得到第四样本图像。

S702，获取第四样本图像和第一样本图像的色彩差异信息。

其中，色彩差异信息包括R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值。可选地，可以采用如下方法，得到色彩差异信息：

可选地，在S702还可以包括：判断第四样本图像和第一样本图像的色彩格式是否均为RGB格式，若是，则获取第四样本图像和第一样本图像的色彩差异信息；

否则，确定对非RGB格式的样本图像(第四样本图像和/或第一样本图像)的目标色彩格式，根据目标色彩格式与RGB格式之间的映射关系，将非RGB格式的样本图像，转化为RGB格式的样本图像，进而获取第四样本图像和第一样本图像的色彩差异信息。

例如，当第四样本图像和第一样本图像的色彩格式为均为YUV格式时，将根据YUV格式和RGB格式之间的映射关系，将第四样本图像和第一样本图像的色彩格式转化为RGB格式，进而获取第四样本图像和第一样本图像的色彩差异信息。

S703，根据色彩差异信息，对第四样本图像进行色彩调整，得到第二样本图像。

可选地，可以通过如下方式对第四样本图像进行色彩调整得到第二样本图像：针对第四样本图像中包括的每个像素，根据色彩差异信息包括的R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值，对像素的色彩值进行调整，以得到第二样本图像。

可选地，可以通过如下方式21和方式22对像素的色彩值进行调整。

方式21，针对第四样本图像中包括的每个像素：

将像素的色彩值中R通道对应的初始色彩值和R通道对应的第一色彩值之和，确定为像素的色彩值在R通道的目标色彩值；

将像素的色彩值中G通道对应的初始色彩值和G通道对应的第一色彩值之和，确定为像素的色彩值在G通道的目标色彩值；

将像素的色彩值中B通道对应的初始色彩值和B通道对应的第一色彩值之和，确定为像素的色彩值在B通道的目标色彩值；

在第二样本图像中，像素的色彩值包括在R通道的目标色彩值、在G通道的目标色彩值和在B通道的目标色彩值。

方式22，针对第四样本图像中包括的每个像素：

确定像素的色彩值中R通道对应的初始色彩值和R通道对应的第一色彩值的第一和值；将第一和值和第一预设权重的乘积，确定为像素的色彩值在R通道的目标色彩值；

确定像素的色彩值中G通道对应的初始色彩值和G通道对应的第一色彩值的第二和值；将第二和值和第二预设权重的乘积，确定为像素的色彩值在G通道的目标色彩值；

确定像素的色彩值中B通道对应的初始色彩值和B通道对应的第一色彩值的第三和值；将第三和值和第三预设权重的乘积，确定为像素的色彩值在B通道的目标色彩值；

可选地，第一预设权重、第二预设权重、第三预设权重的可以相同、也可以为不相同。

在图7实施例提供的确定第二样本图像的方法中，获取第四样本图像和第一样本图像的色彩差异信息，根据色彩差异信息，对第四样本图像进行色彩调整，得到第二样本图像，可以保障第二样本图像中的对象图像和第一样本对象图像具有相匹配的特征，进而提高了第二样本图像的质量。例如第一样本对象图像指示的动物为深色毛发动物时，第二样本图像中的对象图像指示的动物也为深色毛发动物。例如第一样本对象图像指示的动物为浅色毛发动物时，第二样本图像中的对象图像指示的动物也为浅色毛发动物。

进一步地，在本申请中，由于提高了第二样本图像的质量，因此在基于第二样本图像确定的样本图像对，得到视频生成模型时，可以提高视频生成模型的准确性，进而提高得到第二视频的质量。

图8为本申请实施例提供的两个第二样本图像的示意图。如图8所示，包括：第一样本图像81、第二样本图像82、第一样本图像83和第二样本图像84。其中，第一样本图像81与第二样本图像82对应，第一样本图像83与第二样本图像84对应。需要说明的是，图8中所使用的目标图像为图1中所示的目标图像。

第一样本图像81中的第一样本对象图像指示的动物为深色毛发动物，第二样本图像82中的对象图像指示的动物也为深色毛发动物。

第一样本图像83中的第一样本对象图像指示的动物为浅色毛发动物，第二样本图像84中的对象图像指示的动物也为浅色毛发动物。

与现有技术不同，在现有技术中，采用3D动物脸部图像道具替换视频中包括的家庭宠物的面部图像，存在3D动物脸部图像道具无法自适应家庭宠物的面部图像的问题(例如：根据家庭宠物的面部图像中鼻子的长短，调整3D动物脸部图像道具中动物鼻子的长短)，因此导致生成的新视频的质量差。

而在本申请中，根据图8中所示的第一样本图像81和第二样本图像82、以及图1中的目标图像可知，目标图像中的预设对象图像的面部图像可以基于第一样本图像81中第一样本对象图像的面部图像进行自适调整，从而使得第二样本图像和第一样本图像具有较高的匹配度，提高了第二样本图像的质量。

图9为本申请实施例提供的一种图像的生成装置的结构示意图。图9所示的生成装置可以用于得到第二样本图像。如图9所示，该装置包括：预设图像分割模块91、预设背景补全模块92、预设图像生成模块93和前背景融合模块94。

预设图像分割模块91用于通过预设图像分割模型，对第一样本图像进行图像分割处理，得到第一样本图像中除第一样本对象图像之外的初始背景图像。

预设背景补全模块92用于通过预设背景补全模型对初始背景图像进行背景补充处理，得到第一样本背景图像。

预设图像生成模块93用于对第一样本图像和目标图像进行处理，得到第三样本图像。

预设图像分割模块91还用于通过预设图像分割模型，对第三样本图像进行图像分割处理，得到对象前景图。

前背景融合模块94用于对对象前景图和第一样本背景图像进行融合处理，得到第二样本图像。

图10为本申请实施例提供的另一种图像的生成装置的结构示意图。图10所示的生成装置可以用于得到第二样本图像。如图10所示，该装置包括：预设图像分割模块101、预设背景补全模块102、预设图像生成模块103、前背景融合模块104和色彩处理模块105。

预设图像分割模块101用于通过预设图像分割模型，对第一样本图像进行图像分割处理，得到第一样本图像中除第一样本对象图像之外的初始背景图像。

预设背景补全模块102用于通过预设背景补全模型对初始背景图像进行背景补充处理，得到第一样本背景图像。

预设图像生成模块103用于对第一样本图像和目标图像进行处理，得到第三样本图像。

预设图像分割模块101还用于通过预设图像分割模型，对第三样本图像进行图像分割处理，得到对象前景图。

前背景融合模块104用于对对象前景图和第一样本背景图像进行融合处理，得到第四样本图像。

色彩处理模块105用于获取第四样本图像和第一样本图像的色彩差异信息，并根据色彩差异信息，对第四样本图像进行色彩调整，得到第二样本图像。

图11为本申请提供的视频生成装置的结构示意图。如图11所示，视频生成装置20包括：处理模块201；处理模块201用于：

获取第一视频；第一视频中包括第一对象图像；

本申请实施例提供的视频生成装置20可以执行上述视频生成方法，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的设计中，色彩差异信息包括R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值；R通道对应的第一色彩值基于R通道对应的第二色彩值与R通道对应的第三色彩值得到，G通道对应的第一色彩值基于G通道对应的第二色彩值与G通道对应的第三色彩值得到，B通道对应的第一色彩值基于B通道对应的第二色彩值与B通道对应的第三色彩值得到；R通道对应的第二色彩值、G通道对应的第二色彩值、B通道对应的第二色彩值分别基于第四样本图像包括的像素的色彩值得到；R通道对应的第三色彩值、G通道对应的第三色彩值、B通道对应的第三色彩值分别基于第一样本图像包括的像素的色彩值得到。

图12为本申请提供的视频生成模型的训练装置的结构示意图。如图12所示，视频生成模型的训练装置30包括：处理模块301；处理模块301用于：

获取多张第一样本图像、以及目标图像；

确定每个第一样本图像对应的第一样本背景图像；

本申请实施例提供的视频生成模型的训练装置30可以执行上述视频生成模型的训练方法，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的设计中，处理模块301具体用于：针对每个第一样本图像，获取第一样本图像中除第一样本对象图像之外的初始背景图像；对初始背景图像进行背景补充处理，得到第一样本图像对应的第一样本背景图像。

在一种可能的设计中，处理模块301具体用于：通过预设图像生成模型，对第一样本图像和目标图像进行处理，得到第三样本图像；第三样本图像中的对象图像基于预设动物图像和第一样本对象图像生成；获取第三样本图像中的对象图像的对象前景图；根据对象前景图和第一样本背景图像，确定第二样本图像。

在一种可能的设计中，处理模块具体用于：对对象前景图和第一样本背景图像进行融合处理，得到第二样本图像。

在一种可能的设计中，处理模块301具体用于：对对象前景图和第一样本背景图像进行融合处理，得到第四样本图像；获取第四样本图像和第一样本图像的色彩差异信息；根据色彩差异信息，对第四样本图像进行色彩调整，得到第二样本图像。

在一种可能的设计中，色彩差异信息包括R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值；处理模块301具体用于：对第四样本图像包括的像素的色彩值进行统计处理，得到R通道对应的第二色彩值、G通道对应的第二色彩值和B通道对应的第二色彩值；对第一样本图像包括的像素的色彩值进行统计处理，得到R通道对应的第三色彩值、G通道对应的第三色彩值和B通道对应的第三色彩值；将R通道对应的第二色彩值和R通道对应的第三色彩值的差值，确定为R通道对应的第一色彩值；将G通道对应的第二色彩值与G通道对应的第三色彩值的差值，确定为G通道对应的第一色彩值；将B通道对应的第二色彩值与B通道对应的第三色彩值的差值，确定为B通道对应的第一色彩值。

在一种可能的设计中，处理模块301具体用于：针对第四样本图像中包括的每个像素，根据色彩差异信息包括的R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值，对像素的色彩值进行调整，以得到第二样本图像。

图13为本申请实施例提供的电子设备的硬件示意图。如图13所示，电子设备40可以包括：收发器401、存储器402和处理器403。

其中，收发器401可以包括：发射器和/或接收器。发射器还可称为发送器、发射机、发送端口或发送接口等类似描述。接收器还可称为接收器、接收机、接收端口或接收接口等类似描述。

示例性地，收发器401、存储器402、处理器403各部分之间通过总线404相互连接。

存储器402用于存储计算机执行指令。

处理器403用于执行存储器402存储的计算机执行指令，使得处理器403执行上述视频生成方法。

图14为本申请实施例提供的模型训练设备的硬件示意图。可选地，模型训练设备可以为上述电子设备，可以为上述服务器。如图14所示，模型训练设备50可以包括：收发器501、存储器502和处理器503。

其中，收发器501可以包括：发射器和/或接收器。发射器还可称为发送器、发射机、发送端口或发送接口等类似描述。接收器还可称为接收器、接收机、接收端口或接收接口等类似描述。

示例性地，收发器501、存储器502、处理器503各部分之间通过总线504相互连接。

存储器502用于存储计算机执行指令。

处理器503用于执行存储器502存储的计算机执行指令，使得处理器503执行上述视频生成模型的训练方法。

本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当计算机执行指令被处理器执行时实现上述视频生成方法、以及视频生成模型的训练方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，可实现上述视频生成方法、以及视频生成模型的训练方法。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：ROM(read-only memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、快闪存储器、硬盘、固态硬盘、磁带(magnetictape)、软盘(floppy disk)、光盘(optical disc)及其任意组合。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

在本申请中，术语“包括”及其变形可以指非限制性的包括；术语“或”及其变形可以指“和/或”。本本申请中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本申请中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种视频生成方法，其特征在于，包括：

获取第一视频；所述第一视频中包括第一对象图像；

将所述第一视频输入预先训练好的视频生成模型，得到第二视频；所述视频生成模型基于目标图像和多张第一样本图像得到的多个样本图像对进行训练得到，所述第二视频中的对象图像基于所述目标图像中的预设动物图像和所述第一对象图像生成，所述第二视频的背景图像基于所述第一视频的第一背景图像生成。

2.根据权利要求1所述的方法，其特征在于，

所述样本图像对包括第一样本图像和第一样本图像对应的第二样本图像；

所述第二样本图像基于所述第一样本图像、所述目标图像和所述第一样本图像对应的第一样本背景图像得到。

3.根据权利要求2所述的方法，其特征在于，所述第一样本图像中包括第一样本对象图像和初始背景图像；所述第一样本对象图像和所述初始背景图像不重叠；

所述第一样本背景图像为对所述初始背景图像进行背景补充处理之后的图像。

4.根据权利要求2或3所述的方法，其特征在于，

所述第二样本图像基于所述第一样本背景图像和所述第三样本图像中的对象图像的对象前景图得到；

所述第三样本图像基于所述第一样本图像和所述目标图像得到，所述第三样本图像中的对象图像基于所述预设动物图像和所述第一样本对象图像生成。

5.根据权利要求4所述的方法，其特征在于，

所述第二样本图像为对所述第一样本背景图像和所述对象前景图进行融合处理得到。

6.根据权利要求4所述的方法，其特征在于，

所述第二样本图像基于色彩差异信息和第四样本图像得到；

所述色彩差异信息基于所述第四样本图像和所述第一样本图像得到；

所述第四样本图像基于所述对象前景图和所述第一样本背景图像得到。

7.根据权利要求6所述的方法，其特征在于，所述色彩差异信息包括R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值；

所述R通道对应的第一色彩值基于R通道对应的第二色彩值与R通道对应的第三色彩值得到，所述G通道对应的第一色彩值基于G通道对应的第二色彩值与G通道对应的第三色彩值得到，所述B通道对应的第一色彩值基于B通道对应的第二色彩值与B通道对应的第三色彩值得到；

所述R通道对应的第二色彩值、所述G通道对应的第二色彩值、所述B通道对应的第二色彩值分别基于所述第四样本图像包括的像素的色彩值得到；

所述R通道对应的第三色彩值、所述G通道对应的第三色彩值、所述B通道对应的第三色彩值分别基于所述第一样本图像包括的像素的色彩值得到。

8.一种视频生成模型的训练方法，其特征在于，包括：

获取多张第一样本图像、以及目标图像；

确定每个第一样本图像对应的第一样本背景图像；

针对每个第一样本图像，根据所述第一样本图像、所述目标图像和对应的第一样本背景图像，生成第二样本图像；将所述第一样本图像和所述第二样本图像，确定为样本图像对；所述第二样本图像中的对象图像基于所述目标图像中的预设动物图像和所述第一样本图像中的第一样本对象图像生成，所述第二样本图像的背景图像基于所述对应的第一样本背景图像生成；

9.根据权利要求8所述的方法，其特征在于，所述确定每个第一样本图像对应的第一样本背景图像，包括：

针对每个第一样本图像，获取所述第一样本图像中除所述第一样本对象图像之外的初始背景图像；

对所述初始背景图像进行背景补充处理，得到所述第一样本图像对应的第一样本背景图像。

10.根据权利要求8或9所述的方法，其特征在于，所述根据所述第一样本图像、所述目标图像和对应的第一样本背景图像，生成第二样本图像，包括：

通过预设图像生成模型，对所述第一样本图像和所述目标图像进行处理，得到第三样本图像；所述第三样本图像中的对象图像基于所述预设动物图像和所述第一样本对象图像生成；

获取所述第三样本图像中的对象图像的对象前景图；

根据所述对象前景图和所述第一样本背景图像，确定所述第二样本图像。

11.根据权利要求10所述的方法，其特征在于，所述根据所述对象前景图和所述第一样本背景图像，确定所述第二样本图像，包括：

对所述对象前景图和所述第一样本背景图像进行融合处理，得到所述第二样本图像。

12.根据权利要求10所述的方法，其特征在于，所述根据所述对象前景图和所述第一样本背景图像，确定所述第二样本图像，包括：

对所述对象前景图和所述第一样本背景图像进行融合处理，得到第四样本图像；

获取所述第四样本图像和所述第一样本图像的色彩差异信息；

根据所述色彩差异信息，对所述第四样本图像进行色彩调整，得到所述第二样本图像。

13.根据权利要求12所述的方法，其特征在于，所述色彩差异信息包括R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值；所述获取所述第四样本图像和所述第一样本图像的色彩差异信息，包括：

对所述第四样本图像包括的像素的色彩值进行统计处理，得到R通道对应的第二色彩值、G通道对应的第二色彩值和B通道对应的第二色彩值；

对所述第一样本图像包括的像素的色彩值进行统计处理，得到R通道对应的第三色彩值、G通道对应的第三色彩值和B通道对应的第三色彩值；

将所述R通道对应的第二色彩值和所述R通道对应的第三色彩值的差值，确定为所述R通道对应的第一色彩值；

将所述G通道对应的第二色彩值与所述G通道对应的第三色彩值的差值，确定为所述G通道对应的第一色彩值；

将所述B通道对应的第二色彩值与所述B通道对应的第三色彩值的差值，确定为所述B通道对应的第一色彩值。

14.根据权利要求13所述的方法，其特征在于，所述根据所述色彩差异信息，对所述第四样本图像进行色彩调整，得到所述第二样本图像，包括：

针对所述第四样本图像中包括的每个像素，根据色彩差异信息包括的R通道对应的第一色彩值、G通道对应的第一色彩值和B通道对应的第一色彩值，对所述像素的色彩值进行调整，以得到所述第二样本图像。

15.一种图像的生成装置，其特征在于，包括：预设图像分割模块、预设背景补全模块、预设图像生成模块和前背景融合模块；其中，

所述预设图像分割模块，用于通过预设图像分割模型对第一样本图像进行图像分割处理，得到所述第一样本图像中除第一样本对象图像之外的初始背景图像；

所述预设背景补全模块，用于通过预设背景补全模型对所述初始背景图像进行背景补充处理，得到第一样本背景图像；

所述预设图像生成模块，用于对所述第一样本图像和目标图像进行处理，得到第三样本图像；

所述预设图像分割模块，还用于通过所述预设图像分割模型，对所述第三样本图像进行图像分割处理，得到对象前景图；

所述前背景融合模块，用于对所述对象前景图和所述第一样本背景图像进行融合处理，得到第二样本图像。

16.一种图像的生成装置，其特征在于，包括：预设图像分割模块、预设背景补全模块、预设图像生成模块、前背景融合模块和色彩处理模块；其中，

所述预设图像分割模块，还用于通过预设图像分割模型对所述第三样本图像进行图像分割处理，得到对象前景图；

所述前背景融合模块，用于对所述对象前景图和所述第一样本背景图像进行融合处理，得到第四样本图像；

所述色彩处理模块，用于获取所述第四样本图像和所述第一样本图像的色彩差异信息，并根据所述色彩差异信息，对所述第四样本图像进行色彩调整，得到第二样本图像。

17.一种电子设备，其特征在于，包括：处理器和与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-7任一项所述的方法。

18.一种模型训练设备，其特征在于，包括：处理器和与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求8-14任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-7或者8-14任一项所述的方法。

20.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现如权利要求1-7或者8-14任一项所述的方法。