CN110753264B

CN110753264B - 视频生成方法、装置及设备

Info

Publication number: CN110753264B
Application number: CN201911012257.8A
Authority: CN
Inventors: 曾晓东; 杨冬蕴
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2022-06-07
Anticipated expiration: 2039-10-23
Also published as: CN110753264A

Abstract

本说明书提供一种视频生成方法、装置及设备，该方法包括：获取源视频、获取所述源视频中指定的视频元素以及获取指定的视频属性信息；从所述源视频中抽取出包含所述视频元素的视频元素文件；将抽取出所述视频元素文件以及指定的视频属性信息作为对抗神经网络GAN模型的输入，利用所述GAN模型生成匹配所述视频场景属性信息、以及包含所述视频元素的合成视频。本说明书实施例利用GAN模型能够快速自动生成符合需求的视频，基于GAN模型生成的视频也具有更好的真实感，能够满足多种业务需求。

Description

视频生成方法、装置及设备

技术领域

本说明书涉及技术领域，尤其涉及视频生成方法、装置及设备。

背景技术

目前，线上与线下的广告业务等领域都需要制作视频文件，制作视频物料属于关键环节，常常需要投入较大的人力物力，时间成本也较大。基于此，提供一种能够自动快速生成视频文件的方案，无疑具有重要意义。

发明内容

为克服相关技术中存在的问题，本说明书提供了视频生成方法、装置及设备。

根据本说明书实施例的第一方面，提供一种视频生成方法，包括：

获取源视频、获取所述源视频中指定的视频元素以及获取指定的视频属性信息；

从所述源视频中抽取出包含所述视频元素的视频元素文件；

将抽取出所述视频元素文件以及指定的视频属性信息作为对抗神经网络GAN模型的输入，利用所述GAN模型生成匹配所述视频场景属性信息、以及包含所述视频元素的合成视频。

可选的，用于训练所述GAN模型的样本数据包括：

多份包含有视频元素的样本视频元素文件，以及标记有目标视频属性信息的测试视频。

可选的，所述GAN模型中包括生成器和判别器，所述GAN模型通过如下方式训练得到：

由所述生成器根据所述判别器的反馈结果、利用所述样本视频元素文件生成匹配所述目标视频属性信息的模仿视频；

由所述判别器对比所述测试视频和所述模仿视频，获得反馈结果传输给所述生成器。

可选的，所述样本视频元素文件是从真实拍摄的视频中抽取出的。

可选的，所述从所述源视频中抽取出包含所述视频元素的视频元素文件，包括：

从所述源视频的每帧视频图像中，识别出包含有所述视频元素的视频图像；

对所述包含有所述视频元素的视频图像进行截取，根据截取结果生成包含所述视频元素的视频元素文件。

根据本说明书实施例的第二方面，提供一种视频生成装置，包括：

获取模块，用于：获取源视频、获取所述源视频中指定的视频元素以及获取指定的视频属性信息；

抽取模块，用于：从所述源视频中抽取出包含所述视频元素的视频元素文件；

生成模块，用于：将抽取出所述视频元素文件以及指定的视频属性信息作为对抗神经网络GAN模型的输入，利用所述GAN模型生成匹配所述视频场景属性信息、以及包含所述视频元素的合成视频。

可选的，用于训练所述GAN模型的样本数据包括：

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现前述视频生成方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例中，能够根据指定的视频元素从源视频中抽取出视频元素文件，进而利用对抗神经网络GAN模型生成匹配所述视频场景属性信息、以及包含所述视频元素的合成视频；本说明书实施例利用GAN模型能够快速自动生成符合需求的视频，基于GAN模型生成的视频也具有更好的真实感，能够满足多种业务需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1A是本说明书根据一示例性实施例示出的一种视频生成方法的流程图。

图1B是本说明书根据一示例性实施例示出的一种原始GAN模型的示意图。

图2是本说明书根据一示例性实施例示出的另一GAN模型的示意图。

图3是本说明书根据一示例性实施例示出的一种视频生成装置所在计算机设备的一种硬件结构图。

图4是本说明书根据一示例性实施例示出的一种视频生成装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

针对背景技术中提及的问题，如图1A所示，图1A是本说明书根据一示例性实施例示出的一种视频生成方法的流程图，包括以下步骤：

在步骤102、获取源视频、获取所述源视频中指定的视频元素以及获取指定的视频属性信息；

在步骤104、从所述源视频中抽取出包含所述视频元素的视频元素文件；

在步骤106、将抽取出所述视频元素文件以及指定的视频属性信息作为对抗神经网络GAN(Generative Adversarial Nets)模型的输入，利用所述GAN模型生成匹配所述视频场景属性信息、以及包含所述视频元素的合成视频。

本说明书实施例提供的视频生成方案，能够根据指定的视频元素从源视频中抽取出视频元素文件，进而利用对抗神经网络GAN模型生成匹配所述视频场景属性信息、以及包含所述视频元素的合成视频；本说明书实施例利用GAN模型能够快速自动生成符合需求的视频，基于GAN模型生成的视频也具有更好的真实感，能够满足多种业务需求。

本说明书实施例中可以预先训练有GAN模型，接下来对GAN模型进行说明，如图1B所示，是本说明书根据一示例性实施例示出的一种原始GAN模型的示意图，其主要目的是要由判别器D辅助生成器G产生出与真实数据分布一致的伪数据。模型的输入为随机噪声信号z；该噪声信号经由生成器G映射到某个新的数据空间，得到生成的数据G(z)；接下来，由判别器D根据真实数据x与生成数据G(z)的输入来分别输出一个概率值或者说一个标量值，表示D对于输入是真实数据还是生成数据的置信度，以此判断G的产生数据的性能好坏；当最终D不能区分真实数据x和生成数据G(z)时，就认为生成器G达到了最优。

D为了能够区分开两者，其目标是使D(x)与D(G(z))尽量往相反的方向跑，增加两者的差异，比如使D(x)尽量大而同时使D(G(z))尽量小；而G的目标是使自己产生的数据在D上的表现D(G(z))尽量与真实数据的表现D(x)一致，让D不能区分生成数据与真实数据。因此，这两个模块的优化过程是一个相互竞争相互对抗的过程，两者的性能在迭代过程中不断提高，直到最终D(G(z))与真实数据的表现D(x)一致，此时G和D都不能再进一步优化。

根据本说明书实施例中的业务需求，GAN模型的任务能够根据输入自动生成视频，基于此，在训练阶段准备的用于训练的样本数据可以是视频文件，本实施例中，样本数据可以包括多份包含有视频元素的样本视频元素文件，以及标记有目标视频属性信息的测试视频。其中，包含有视频元素的样本视频元素文件可以作为素材，用于供GAN模型生成合成视频。

针对本实施例的视频生成业务需求，如图2所示，是本说明书根据一示例性实施例示出的另一GAN模型的示意图，为了产生出具有时域变化的视频帧，GAN模型在生成器部分将动态前景部分和静态背景部分分开建模和生成，构建two-stream的样本生成器，然后将产生的前景和背景进行组合得到产生出的视频；对于判别器，主要完成两个任务：区分出产生数据与真实数据，同时要识别出视频帧间进行的行为，从而指导生成器去产生数据。可选的，生成器可以利用最大似然估计思想，通过一个带有参数的模型来估计概率分布，并在训练数据上选择使似然函数(一般的使用log函数)最大化的参数。判别器需要能够解决两个问题：首先，它必须能够从合成生成的场景中分类真实场景，其次，它必须能够识别帧之间的逼真运动。选择设计鉴别器以便能够用相同的模型解决这两个任务。作为例子，可以采用内核为4×4×4的五层时空卷积网络，以便隐藏层可以学习视觉模型和运动模型。还可以该体系结构设计为发生器中前景流的逆向结构，用逐步卷积(down-sample，而不是up-sample)代替分步的卷积，并替换最后一层以输出二进制分类(识别真实与否)。

本实施例中的视频元素是指视频中展示的任一实体，例如视频中的某个人体、某只动物或某种植物等等。可选的，可以预先准备包含有视频元素的样本视频元素文件，也可以预先准备一定数量的已有视频，从这些视频中抽取出一个或多个包含有视频元素的样本视频元素文件。可选的，抽取的方式可以根据需要灵活配置，可以是由技术人员从已有视频中通过视频处理软件抽取而获得，也可以利用视频处理相关技术自动抽取。作为例子，可以在视频中指定需要抽取的视频元素，指定的过程可以是由技术人员操作，也可以是利用图像识别技术从视频中识别出一个或多个视频元素，将识别出的视频元素作为该需要抽取的视频元素。进一步的，视频是由多帧连续的图像构成，可以利用图像跟踪技术从视频中识别出包含所述视频元素的多帧视频图像，每帧视频图像中视频元素所占比例可能不同，视频元素可能占据整个视频图像，此种情况下无需对视频图像进行截取，视频元素也可能占据视频图像的一部分，则可以根据需要从每帧视频图像截取出只涉及视频元素的部分，最后利用截取出的视频图像重新生成视频，生成的视频即包含所述视频元素的视频元素文件。

利用上述包含所述视频元素的视频元素文件，GAN模型可以生成模仿视频，而标记有目标视频属性信息的测试视频可用于评判模仿视频是否足够真实。其中，目标视频属性信息可以根据业务需要灵活配置，这些目标视频属性信息用于表征期望GAN模型生成的视频具有怎样的特点，实际应用中，视频属性信息可以由技术人员预先对测试视频进行标记。例如，视频属性信息可以包括指示视频风格的属性信息、指示视频主题的属性信息或指示视频场景的属性信息等，作为例子，视频风格可以包括黄昏、海滩、烟花或山村等等，上述的视频风格、视频主题或视频场景等都可以根据实际需要进行具体的配置。在一些例子中，视频属性信息还可以包括表征视频中携带有某些特定的视频元素信息，例如，在一些业务场景下需要生成的视频中包含有蓝天、白云或汽车等视频元素，可以准备有包含此类视频元素的测试视频，并将测试视频标记出对应的视频属性信息，以训练GAN模型能够生成包含此类视频元素的视频；在另一些例子中，视频属性信息还可以包括视频时长、视频分辨率等其他属性信息。

通常，样本数据需要达到一定的数量以保证训练出的模型的精确度，而样本越多，则模型的精确度可能越高。另一方面，当GAN模型训练好后开始应用，用户可能上传一些视频文件或包含所述视频元素的视频元素文件等以利用GAN模型进行视频生成，模型开始投入应用后，所接收的输入数据也可以作为样本，从而实现对GAN模型的持续训练及优化。

由前述描述可知GAN模型中包括生成器和判别器，本实施例的GAN模型的训练方式可以包括：由所述生成器根据判别器的反馈结果、利用所述样本视频元素文件生成匹配所述目标视频属性信息的模仿视频；由所述判别器对比所述测试视频和所述模仿视频，获得反馈结果传输给所述生成器。

通过上述方式，业务方准备好样本数据，配置好初始的GAN模型，即可预先训练出能够符合需求的GAN模型，在GAN模型训练完成后，该GAN模型可以设置于用户侧的客户端或者业务方的服务端中，在需要时可以自动快速地生成视频。

在模型应用阶段，视频生成的过程，在一些业务场景中，可以是由用户指定多种条件，例如指定源视频、指定源视频中的视频元素、指定视频属性信息中的一种或多种，本实施例方法可以根据用户的指定生成符合用户需求的视频；其中，用户指定的方式也可以有多种方式，例如可以由业务方提供有多份源视频供用户选择，也可以是用户自行上传的源视频。

在另一些业务场景中，也可以是业务方准备多份源视频，由本实施例方法自动根据上述源视频生成多份视频。作为例子，业务方可以预先准备多份源视频，这些源视频可作为后续视频生成的基础，业务方可以根据业务需要准备多种不同类型的源视频。

其中，本实施例中的视频元素是指视频中展示的任一实体，例如视频中的某个人体、某只动物或某种植物等等。步骤102中的指定的视频元素，可以是由技术人员指定、可以是用户指定，还可以是对源视频自动识别而确定。其中，视频是由多帧连续的图像构成，可以利用图像跟踪技术从源识别的每帧视频图像中识别出包含所述视频元素的多帧视频图像，每帧视频图像中视频元素所占比例可能不同，视频元素可能占据整个视频图像，此种情况下无需对视频图像进行截取，视频元素也可能占据视频图像的一部分，则可以根据需要从每帧视频图像截取出只涉及视频元素的部分，最后利用截取出的视频图像重新生成视频，生成的视频即包含所述视频元素的视频元素文件。

另外，本实施例还可以指定视频属性信息，上述的视频元素文件以及指定的视频属性信息作为对抗神经网络GAN模型的输入，利用所述GAN模型生成匹配所述视频场景属性信息、以及包含所述视频元素的合成视频。

由上述实施例可见，本说明书实施例提供的视频生成方案能够根据指定的视频元素从源视频中抽取出视频元素文件，进而利用对抗神经网络GAN模型生成匹配所述视频场景属性信息、以及包含所述视频元素的合成视频；本说明书实施例利用GAN模型能够快速自动生成符合需求的视频，基于GAN模型生成的视频也具有更好的真实感，能够满足多种业务需求。

与前述视频生成方法的实施例相对应，本说明书还提供了视频生成装置及其所应用的终端的实施例。

本说明书视频生成装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本说明书视频生成装置所在计算机设备的一种硬件结构图，除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外，实施例中装置331所在的服务器或电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

如图4所示，图4是本说明书根据一示例性实施例示出的一种视频生成装置的框图，所述装置包括：

获取模块41，用于：获取源视频、获取所述源视频中指定的视频元素以及获取指定的视频属性信息；

抽取模块42，用于：从所述源视频中抽取出包含所述视频元素的视频元素文件；

生成模块43，用于：将抽取出所述视频元素文件以及指定的视频属性信息作为对抗神经网络GAN模型的输入，利用所述GAN模型生成匹配所述视频场景属性信息、以及包含所述视频元素的合成视频。

可选的，用于训练所述GAN模型的样本数据包括：

相应的，本说明书还提供一种视频生成装置，所述装置包括有处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

从所述源视频中抽取出包含所述视频元素的视频元素文件；

上述视频生成装置中各个模块的功能和作用的实现过程具体详见上述视频生成方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种视频生成方法，包括：

获取源视频、获取所述源视频中指定的视频元素以及获取指定的视频属性信息；所述视频元素指所述源视频中展示的任一实体；所述视频属性信息包括指示视频风格的属性信息、指示视频主题的属性信息或指示视频场景的属性信息；

从所述源视频中抽取出包含所述视频元素的视频元素文件；

将抽取出所述视频元素文件以及指定的视频属性信息作为对抗神经网络GAN模型的输入，利用所述GAN模型生成匹配所述视频场景的属性信息、以及包含所述视频元素的合成视频。

2.根据权利要求1所述的方法，用于训练所述GAN模型的样本数据包括：

3.根据权利要求2所述的方法，所述GAN模型中包括生成器和判别器，所述GAN模型通过如下方式训练得到：

4.根据权利要求2所述的方法，所述样本视频元素文件是从真实拍摄的视频中抽取出的。

5.根据权利要求1所述的方法，所述从所述源视频中抽取出包含所述视频元素的视频元素文件，包括：

6.一种视频生成装置，包括：

获取模块，用于：获取源视频、获取所述源视频中指定的视频元素以及获取指定的视频属性信息；所述视频元素指所述源视频中展示的任一实体；所述视频属性信息包括指示视频风格的属性信息、指示视频主题的属性信息或指示视频场景的属性信息；

生成模块，用于：将抽取出所述视频元素文件以及指定的视频属性信息作为对抗神经网络GAN模型的输入，利用所述GAN模型生成匹配所述视频场景的属性信息、以及包含所述视频元素的合成视频。

7.根据权利要求6所述的装置，用于训练所述GAN模型的样本数据包括：

8.根据权利要求7所述的装置，所述GAN模型中包括生成器和判别器，所述GAN模型通过如下方式训练得到：

9.根据权利要求8所述的装置，所述样本视频元素文件是从真实拍摄的视频中抽取出的。

10.根据权利要求6所述的装置，所述从所述源视频中抽取出包含所述视频元素的视频元素文件，包括：

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现前述权利要求1至5任一所述的方法。