CN110287848A

CN110287848A - 视频的生成方法及装置

Info

Publication number: CN110287848A
Application number: CN201910532909.4A
Authority: CN
Inventors: 乔伟
Original assignee: Beijing Calorie Information Technology Co Ltd
Current assignee: Beijing Calorie Information Technology Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-27

Abstract

本申请公开了一种视频的生成方法及装置。其中，该方法包括：获取原视频的帧图像，其中，帧图像为包括第一人体所做的多种动作的图像；将帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，目标图像为将多种动作由第一人体迁移至第二人体后的图像；将目标图像逐帧合成目标视频。本申请解决了由于现有的健身课程通常采用常规的摄像机录制的方式生成造成的制课程的过程繁琐，且录制时间过长，录制成本较高的技术问题。

Description

视频的生成方法及装置

技术领域

本申请涉及视觉深度学习领域，具体而言，涉及一种视频的生成方法及装置。

背景技术

现有的健身课程通常采用常规的摄像机录制的方式生成，录制课程的过程繁琐，且录制时间过长，耗费了大量人力物力。

针对现有的健身课程的录制成本较高的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视频的生成方法及装置，以至少解决由于现有的健身课程通常采用常规的摄像机录制的方式生成造成的制课程的过程繁琐，且录制时间过长，录制成本较高的技术问题。

根据本申请实施例的一个方面，提供了一种视频的生成方法，包括：获取原视频的帧图像，其中，帧图像为包括第一人体所做的多种动作的图像；将帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，目标图像为将多种动作由第一人体迁移至第二人体后的图像；将目标图像逐帧合成目标视频。

可选地，上述深度学习模型包括：生成式对抗网络GAN模型。

可选地，在将帧图像按预设顺序输入至深度学习模型进行预测之前，方法还包括：通过以下方法对深度学习模型进行训练：获取样本图像，样本图像为包括第二人体所做的多种动作的图像；检测样本图像，得到与样本图像对应的第一姿态图像；将第一姿态图像和样本图像输入生成式对抗网络GAN模型的生成模型，得到初始目标图像；将初始目标图像和样本图像输入至生成式对抗网络GAN模型的判别模型，得到初始目标图像和样本图像的第一相似度，在第一相似度为预设值时确定深度学习模型训练完成。

可选地，在得到初始目标图像之后，上述方法还包括：确定初始目标图像和样本图像的第二相似度；在第二相似度大于预设阈值时，确定初始目标图像为目标图像。

可选地，检测样本图像，得到与样本图像对应的第一姿态图像，包括以下至少之一：检测样本图像中人体的关节点，得到第一姿态图像；采集样本图像中人体的轮廓，得到第一姿态图像。

可选地，将帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，包括：检测帧图像，得到与帧图像对应的第二姿态图像；将第二姿态图像输入至深度学习模型进行预测，得到目标图像。

可选地，多种动作包括多个具有关联关系的动作。

根据本申请实施例的另一方面，提供了一种视频的生成装置，包括：获取模块，用于获取原视频的帧图像，其中，帧图像为包括第一人体所做的多种动作的图像；预测模块，用于将帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，目标图像为将多种动作由第一人体迁移至第二人体后的图像；合成模块，用于将目标图像逐帧合成目标视频。

可选地，上述装置还包括：训练模块，用于通过以下方法对深度学习模型进行训练，深度学习模型包括：生成式对抗网络GAN模型：获取样本图像，样本图像为包括第二人体所做的多种动作的图像；检测样本图像，得到与样本图像对应的第一姿态图像；将第一姿态图像和样本图像输入生成式对抗网络GAN模型的生成模型，得到初始目标图像；将初始目标图像和样本图像输入至生成式对抗网络GAN模型的判别模型，得到初始目标图像和样本图像的第一相似度，在第一相似度为预设值时确定深度学习模型训练完成。

可选地，训练模块，还用于在得到初始目标图像之后，确定初始目标图像和样本图像的第二相似度；在第二相似度大于预设阈值时，确定初始目标图像为目标图像。

根据本申请实施例的再一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，程序运行时控制存储介质所在的设备执行以上的视频的生成方法。

根据本申请实施例的再一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行以上的视频的生成方法。

在本申请实施例中，采用获取原视频的帧图像，其中，帧图像为包括第一人体所做的多种动作的图像；将帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，目标图像为将多种动作由第一人体迁移至第二人体后的图像；将目标图像逐帧合成目标视频的方式，通过深度学习方法构造一个端到端的迁移管道，将源图像中人体的动作迁移至目标人体并生成对应的目标图像，达到了快速灵活地实现人体动作迁移，避免邀请不同课程示范员分别录制视频的繁琐操作的目的，从而实现了降低视频课程录制的时间成本及人力成本的技术效果，进而解决了由于现有的健身课程通常采用常规的摄像机录制的方式生成造成的制课程的过程繁琐，且录制时间过长，录制成本较高的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种视频的生成方法的流程图；

图2是根据本申请实施例的一种深度学习模型训练方法的流程图；

图3时根据本申请实施例的一种视频的生成装置的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种视频的生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种视频的生成方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取原视频的帧图像，其中，帧图像为包括第一人体所做的多种动作的图像。

可选地，上述多种动作包括多个具有关联关系的动作。

根据本申请的一个可选的实施例，步骤S102中的原视频可以是动作示范员(源人体)根据健身课程内容在摄像机前做动作录制的。帧图像是原视频中的多幅静止图像，帧图像中包含动作示范员根据健身课程所做的不同的健身动作。

步骤S104，将帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，目标图像为将多种动作由第一人体迁移至第二人体后的图像。

上文中提到，帧图像中包含动作示范员根据健身课程所做的不同健身动作，因此不同的健身动作之间是有关联关系的，为了便于后续合成目标视频(即生成健身课程视频)，需要将原视频的多幅帧图像按照健身动作的先后顺序输入至预设深度学习模型进行预测，也就是将原视频逐帧输入至预设深度学习模型进行预测，得到将多种动作由第一人体迁移至第二人体后的目标图像。

步骤S106，将目标图像逐帧合成目标视频。

将步骤S104中得到的目标图像逐帧合成目标视频，即可得到由目标人体示范的健身视频课程。

通过上述步骤，通过深度学习方法构造一个端到端的迁移管道，将源图像中人体的动作迁移至目标人体并生成对应的目标图像，达到了快速灵活地实现人体动作迁移，避免邀请不同课程示范员分别录制视频的繁琐操作的目的，从而实现了降低视频课程录制的时间成本及人力成本的技术效果。

根据本申请的一个可选的实施例，上述深度学习模型包括生成式对抗网络GAN模型。

生成式对抗网络(Generative Adversarial Networks，GAN)是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中两个模块：生成模型G(Generative Model)和判别模型D(Discriminative Model)的互相博弈学习产生相当好的输出。原始GAN理论生成模型中，并不要求生成模型G和判别模型D都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为生成模型G和判别模型D。

在训练过程中，生成模型G的目标就是尽量生成真实的图片去欺骗判别模型D。而判别模型D的目标就是尽量把生成模型G生成的图片和真实的图片分别开来。这样，生成模型G判别模型和D构成了一个动态的“博弈过程”。

最后博弈的结果就是在最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。对于D来说，它难以判定G生成的图片究竟是不是真实的，也就是说，理想状态下，D判定G生成的图片为真实图片的概率D(G(z))＝0.5。

根据本申请的一个可选地实施例，在执行步骤S104之前，还需要对深度学习模型进行训练。图2是根据本申请实施例的一种深度学习模型训练方法的流程图，如图2所示，该训练方法包括如下步骤：

步骤S202，获取样本图像，样本图像为包括第二人体所做的多种动作的图像。

根据本申请的一个可选的实施例，用于对上述深度学习模型进行训练的样本图像包括目标人体(源人体的动作迁移对象)做出各种动作的图片，具体实施时，可以利用利用摄像机拍摄目标人体做出各种动作的图片，目标动作尽可能丰富，身体各角度尽可能全面。

步骤S204，检测样本图像，得到与样本图像对应的第一姿态图像。

在本申请的一些可选的实施例中，在执行步骤S204时，可以通过预训练的姿态检测模型(openpose、cpn等)检测样本图像，生成样本图像的姿态图，将该姿态图作为GAN迁移网络的一个输入特征。

步骤S206，将第一姿态图像和样本图像输入生成式对抗网络GAN模型的生成模型，得到初始目标图像。

可选地，从目标样本图像中给定一个帧y，利用上文中提到的姿态检测模型P获得对应的姿态图像x＝P(y)，在训练阶段使用对应的(x，y)图像去学习从姿态图像到目标合成图像(即G(x))的映射G。

需要说明的是，步骤S206即利用生成式对抗网络GAN模型的生成模型生成目标图像的过程，在该过程中，生成模型的作用是使生成的目标图像(即“伪造”图像)与样本图像(即“真实”图像)的相似度越高越好。

步骤S208，将初始目标图像和样本图像输入至生成式对抗网络GAN模型的判别模型，得到初始目标图像和样本图像的第一相似度，在第一相似度为预设值时确定深度学习模型训练完成。

其中，对抗性损失函数(鉴别器特征匹配损失函数)为：

L_GAN(G,D)＝logD(x,y)+log(1-D(x,G(x)))

根据本申请的一个可选的实施例，在执行步骤S208时，将上述生成模型生成的目标图像和样本图像输入至生成式对抗网络GAN模型的判别模型，判别模型试图区分“真实”图像对(例如(x，y))和“伪造”图相对(例如(x，G(x))),以此进行对抗训练，直到判别模型无法区分“真实”图像和“伪造”图像为止。

在上文中提到，生成式对抗网络模型的理想状态是，判别模型难以判断生成模型生成的图片究竟是不是真实的图片，即判别模型判断生成模型生成的图片为真实图片的概率为50％。在具体实施时，可以通过判断目标图像和样本图像的相似度来区分目标图像和样本图像，在相似度为预设值时确定深度学习模型训练完成，需要说明的是，在实际训练深度学习模型时，可以规定一个相似度阈值作为深度学习模型训练完成的标准，也可以达到上述理想状态时才确定深度学习模型训练完成。

根据本申请的一个可选的实施例，在执行步骤S206之后，还需要确定初始目标图像和样本图像的第二相似度；在第二相似度大于预设阈值时，确定初始目标图像为目标图像。

根据本申请的一个可选的实施例，在通过生成式对抗网络GAN模型的生成模型生成初始目标图像之后，还需要利用校验函数模型对目标图像和样本图像进行校验，使目标图像和样本图像的相似度越高越好。在本申请提供的一个实施例中，通过预训练的视觉几何组网络模型(Visual Geometry Group Networks，VGGNet)对生成模型进行优化，使其输出的目标图像G(x)接近真实图像y。

具体地，在对目标图像和样本图像进行校验时，可以通过校验函数模型计算目标图像和样本图像的相似度，在计算出的相似度大于预设阈值时，将生成模型生成初始目标图像作为目标图像。也就是利用校验函数模型使目标图像和样本图像的相似度越高越好。

其中，重建感知损失函数如下：

L_VGG(y，G(x))＝VGGNet(y，G(x))

在本申请的一些实施例中，步骤S204通过以下至少之一方法实现：检测样本图像中人体的关节点，得到第一姿态图像；采集样本图像中人体的轮廓，得到第一姿态图像。

根据本申请的一个可选的实施例，利用预设姿态检测模型检测样本图像生成姿态图像有多种方法，可以检测样本图像中人体的关节点生成姿态图，还可以检测样本图像中人体的轮廓生成姿态图。

根据本申请的一个可选的实施例，步骤S104可以通过以下方法实现：检测帧图像，得到与帧图像对应的第二姿态图像；将第二姿态图像输入至深度学习模型进行预测，得到目标图像。

和训练过程相似，姿态检测模型P从源图像给定的帧中抽取姿态图像，将姿态图像输入训练好的深度学习模型，生成目标人体图像，生成的图像与源图像给定的帧中人体动作相对应。

本申请实施例使用深度学习的方法，使用包含目标人体的二维图像作为样本，训练了一个能够生成“将源图像中人体A的动作迁移至目标人体B后”的目标图像的深度学习模型。在实际应用中只需要检测并生成源图像的人体姿态图，将生成的人体姿态图通过该深度学习模型进行预测，即可生成与源图像动作一致的目标图像。通过深度学习方法构造了一个端到端的迁移管道，避免了邀请不同课程示范员分别录制视频的繁琐操作。利用该深度学习模型用于课程视频录制时，只需要一次训练好模特的动作迁移网络，后续即可将教练的动作迁移至模特，生成“伪造”的模特视频。

图3时根据本申请实施例的一种视频的生成装置的结构图，如图3所示，该装置包括：

获取模块30，用于获取原视频的帧图像，其中，帧图像为包括第一人体所做的多种动作的图像。

根据本申请的一个可选的实施例，原视频可以是动作示范员(源人体)根据健身课程内容在摄像机前做动作录制的。帧图像是原视频中的多幅静止图像，帧图像中包含动作示范员根据健身课程所做的不同的健身动作。

预测模块32，用于将帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，目标图像为将多种动作由第一人体迁移至第二人体后的图像。

合成模块34，用于将目标图像逐帧合成目标视频。将通过深度学习模型预测得到的目标图像逐帧合成目标视频，即可得到由目标人体示范的健身视频课程。

根据本申请的一个可选的实施例，上述装置还包括：训练模块，用于通过以下方法对深度学习模型进行训练，深度学习模型包括：生成式对抗网络GAN模型：获取样本图像，样本图像为包括第二人体所做的多种动作的图像；检测样本图像，得到与样本图像对应的第一姿态图像；将第一姿态图像和样本图像输入生成式对抗网络GAN模型的生成模型，得到初始目标图像；将初始目标图像和样本图像输入至生成式对抗网络GAN模型的判别模型，得到初始目标图像和样本图像的第一相似度，在第一相似度为预设值时确定深度学习模型训练完成。

在本申请的一个可选的实施例中，训练模块，还用于在得到初始目标图像之后，确定目标图像和样本图像的第二相似度；在第二相似度大于预设阈值时，确定初始目标图像为目标图像。

需要说明的是，图3所示实施例的优选实施方式可以参见图1所示实施例的相关描述，此处不再赘述。

本申请实施例还提供了一种存储介质，存储介质包括存储的程序，其中，程序运行时控制存储介质所在的设备执行以上的视频的生成方法。

存储介质用于存储执行以下功能的程序：获取原视频的帧图像，其中，帧图像为包括第一人体所做的多种动作的图像；将帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，目标图像为将多种动作由第一人体迁移至第二人体后的图像；将目标图像逐帧合成目标视频。

本申请实施例还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行以上的视频的生成方法。

处理器用于运行执行以下功能的程序：获取原视频的帧图像，其中，帧图像为包括第一人体所做的多种动作的图像；将帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，目标图像为将多种动作由第一人体迁移至第二人体后的图像；将目标图像逐帧合成目标视频。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频的生成方法，其特征在于，包括：

获取原视频的帧图像，其中，所述帧图像为包括第一人体所做的多种动作的图像；

将所述帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，所述目标图像为将所述多种动作由所述第一人体迁移至第二人体后的图像；

将所述目标图像逐帧合成目标视频。

2.根据权利要求1所述的方法，其特征在于，所述深度学习模型包括：生成式对抗网络GAN模型。

3.根据权利要求2所述的方法，其特征在于，在将所述帧图像按预设顺序输入至深度学习模型进行预测之前，所述方法还包括：

通过以下方法对所述深度学习模型进行训练：

获取样本图像，所述样本图像为包括所述第二人体所做的多种动作的图像；

检测所述样本图像，得到与所述样本图像对应的第一姿态图像；

将所述第一姿态图像和所述样本图像输入所述生成式对抗网络GAN模型的生成模型，得到初始目标图像；

将所述初始目标图像和所述样本图像输入至所述生成式对抗网络GAN模型的判别模型，得到所述初始目标图像和所述样本图像的第一相似度，在所述第一相似度为预设值时确定所述深度学习模型训练完成。

4.根据权利要求3所述的方法，其特征在于，在得到所述初始目标图像之后，所述方法还包括：

确定所述初始目标图像和所述样本图像的第二相似度；

在所述第二相似度大于预设阈值时，确定所述初始目标图像为所述目标图像。

5.根据权利要求3所述的方法，其特征在于，检测所述样本图像，得到与所述样本图像对应的第一姿态图像，包括以下至少之一：

检测所述样本图像中人体的关节点，得到所述第一姿态图像；

采集所述样本图像中人体的轮廓，得到所述第一姿态图像。

6.根据权利要求1所述的方法，其特征在于，将所述帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，包括：

检测所述帧图像，得到与所述帧图像对应的第二姿态图像；

将所述第二姿态图像输入至所述深度学习模型进行预测，得到所述目标图像。

7.根据权利要求1或2所述的方法，其特征在于，所述多种动作包括多个具有关联关系的动作。

8.一种视频的生成装置，其特征在于，包括：

获取模块，用于获取原视频的帧图像，其中，所述帧图像为包括第一人体所做的多种动作的图像；

预测模块，用于将所述帧图像按预设顺序输入至深度学习模型进行预测，得到目标图像，所述目标图像为将所述多种动作由所述第一人体迁移至第二人体后的图像；

合成模块，用于将所述目标图像逐帧合成目标视频。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

训练模块，用于通过以下方法对所述深度学习模型进行训练，所述深度学习模型包括：生成式对抗网络GAN模型：

10.根据权利要求9所述的装置，其特征在于，所述训练模块，还用于在得到所述初始目标图像之后，确定所述初始目标图像和所述样本图像的第二相似度；在所述第二相似度大于预设阈值时，确定所述初始目标图像为所述目标图像。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时控制存储介质所在的备执行权利要求1至7中任意一项所述的视频的生成方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的视频的生成方法。