CN108648253A

CN108648253A - 动态图片的生成方法及装置

Info

Publication number: CN108648253A
Application number: CN201810433574.6A
Authority: CN
Inventors: 俞力; 金昕
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-12
Anticipated expiration: 2038-05-08
Also published as: US20210150795A1; EP3772039A4; CN108648253B; WO2019214240A1; EP3772039A1; US11257270B2

Abstract

本公开的实施例提供了一种动态图片的生成方法及装置，所述方法包括：生成目标向量，并采用预测网络对目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片；将前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片；将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，预测生成动态图片的第一帧画面；将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n‑1帧的画面输入到长短期记忆网络的第n个胞体中，预测生成动态图片的第n帧画面。解决了动态图片生成准确率较低的问题，能够提高动态图片生成的准确率。

Description

动态图片的生成方法及装置

技术领域

本公开的实施例涉及网络技术领域，尤其涉及一种动态图片的生成方法及装置。

背景技术

在购物平台上，可以通过静态图片和动态图片展示商品信息。其中，动态图片比静态图片的展示效果更好。然而，动态图片的制作成本较高。

现有技术中，发明专利CN104318596B提出一种动态图片的生成方法，包括：首先，通过解析动态图片，以提取动态图片中的实体元素图像；然后，对实体元素图像进行属性分析，从已知知识库中确定该实体的运动模式；最后，基于该实体元素图像及其第一运动模式生成对应的动态图片。

可以看出，上述方法得到的运动模式比较单一，导致生成动态图片的准确性较低。

发明内容

本公开的实施例提供一种动态图片的生成方法及装置，用以提高生成动态图的准确性。

根据本公开的实施例的第一方面，提供了一种动态图片的生成方法，所述方法包括：

生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片；

将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片；

将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面；

将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。

根据本公开的实施例的第二方面，提供了一种动态图片的生成装置，所述装置包括：

前后景预测模块，用于生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片；

拆分模块，用于将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片；

第一动态预测模块，用于将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面；

第二动态预测模块，用于将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。

根据本公开的实施例的第三方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现前述动态图片的生成方法。

根据本公开的实施例的第四方面，提供了一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述动态图片的生成方法。

本公开的实施例提供了一种动态图片的生成方法及装置，所述方法包括：生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片；将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片；将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面；将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。本公开的实施例提供的动态图片的生成方法，将当前帧画面的处理结果作为下一阵画面的参考，有助于降低各个网络模型的训练难度，有助于提高图片生成的准确率。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开的实施例提供的系统架构下的一种动态图片的生成方法具体步骤流程图；

图2是本公开的实施例提供的系统架构下的另一种动态图片的生成方法具体步骤流程图；

图2A是本公开的实施例判别网络的结构示意图；

图3是本公开的实施例提供的一种动态图片的生成装置的结构图；

图4是本公开的实施例提供的另一种动态图片的生成装置的结构图。

具体实施方式

下面将结合本公开的实施例中的附图，对本公开的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的实施例一部分实施例，而不是全部的实施例。基于本公开的实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开的实施例保护的范围。

实施例一

参照图1，其示出了一种动态图片的生成方法的步骤流程图，包括：

步骤101，生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片。

其中，目标向量为生成动态图片的参考对象。在实际应用中，目标向量可以为随机生成的一个噪声向量，也可以为根据一个静态图片得到的向量，还可以为静态图片得到的向量和噪声向量的和向量。

可以理解，当目标向量为噪声向量时，生成的动态图片没有参考性，动态图片的准确度较低；当目标向量为静态图片得到的向量或与噪声向量的和向量时，生成的动态图片与原静态图片具有相关性，动态图片的准确度较高。

预测包括前景预测和后景预测，前景预测得到前景动态图片、前景遮罩动态图片，后景预测得到后景静态图片。

其中，前景动态图片和前景遮罩动态图片包含相同帧数的静态图片，且前景动态图片的每帧图片均对应前景遮罩动态图片中同一位置的图片。

在本公开的实施例中，生成动态图片的模型包括编码网络、包括前景网络和后景网络的预测网络以及时间网络。其中，编码网络用于将静态图片进行视频编码生成一维向量，前景网络用于对拼接了噪声向量的一维向量进行前景预测，得到前景图片及前景遮罩图片，后景网络用于对拼接了噪声向量的一维向量进行后景预测，得到后景图片，时间网络用于将前景图片、前景遮罩图片、后景图片合成为最终的动态图片。

步骤102，将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片。

从步骤101的详细说明中可知，前景动态图片和前景遮罩动态图片对应相同帧数的静态图片，且相同位置的图片互相对应。从而可以将前景动态图片和前景遮罩动态图片拆分为相同数目的第一前景静态图片以及第一前景遮罩静态图片。

具体地，可以根据每帧图片的头信息区别不同帧的数据。

步骤103，将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面。

其中，LSTM(Long Short-Term Memory，长短期记忆网络)为时间网络模型，其输入按照时间顺序排列的序列。LSTM网络为时间递归神经网络，适用于处理和预测时间序列中间隔和延迟相对较长的重要事件。其中，时间网络模型中包括遗忘门和更新门。前景遮罩动态图片为遗忘门和更新门的系数。

可以理解，若前景动态图片包括N帧前景图片，前景遮罩动态图片包括N帧前景遮罩图片，则第一帧前景图片和第一帧前景遮罩图片、第二帧前景图片和第二帧前景遮罩图片、…、第N帧前景图片和第N帧前景遮罩图片组成一个时间序列，该时间序列的每个对象在进行动态预测时，输入包括：前景图片、前景遮罩图片、上一帧输出的静态画面。

在实际应用中，由于第一帧前景图片不存在上一帧输出的静态画面，从而将后景静态图片替换掉上一帧输出的静态画面作为输入。

步骤104，将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。

可以理解，当根据最后一帧前景图片预测得到动态图片的最后一帧画面时，各帧前景图片对应的静态画面组成动态图片。例如，对于按照时间顺序排列的各帧前景图片：PJ1、PJ2、…、PJN，其对应的静态画面为PS1、PS2、…、PSN，则得到的动态图片为PS1、PS2、…、PSN按照当前顺序组成的动态图片。

综上所述，本公开的实施例提供了一种动态图片的生成方法，所述方法包括：生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片；将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片；将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面；将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。本公开的实施例提供的动态图片的生成方法，将当前帧画面的处理结果作为下一阵画面的参考，有助于降低各个网络模型的训练难度，有助于提高图片生成的准确率。

实施例二

本申请实施例从系统架构的层级对可选地动态图片的生成方法进行了描述。

参照图2，其示出了另一种动态图片的生成方法的具体步骤流程图。

步骤201，基于预设动态图片样本集预先对所述动态图生成步骤中涉及的各个网络进行训练。

其中，动态图片样本集包括大量的动态图片，动态图片样本集数目越多，训练时间越长，训练结果越准确；动态图片样本集数目越少，训练时间越短，训练结果越不准确。

可以理解，动态图片样本集可以从网络上获取，也可以从其他方式获取。本公开的实施例对动态图片样本集的获取方式不加以限制。

具体地，首先，生成模拟动态图片集；然后，将动态图片样本集和模拟动态图片集混合在一起进行识别，若识别不了真假，则表明生成的模拟动态图片集足以以假乱真，此时，结束训练，生成模拟动态图片集的步骤和用到的网络为最优网络；若很容易识别出真假图片，则表明生成的模拟动态图片集不足以以假乱真，此时，调整生成模拟动态图片集用到的网络参数，继续进行训练。

可选地，在本公开的另一种实施例中，上述步骤201包括子步骤2011至2014：

子步骤2011，利用预设动态图片样本集和模拟动态图片集对判别网络进行训练；所述模拟动态图片集为利用所述动态图生成步骤生成的动态图片的集合。

可以理解，在利用所述动态图生成步骤生成模拟动态图片集时，首先需要生成目标向量。为了提高训练效率，可以基于动态图片样本集生成目标向量。

首先，对于动态图片样本集中的各样本动态图片，取样本动态图片中的一帧静态图片作为参考图片；然后，对该参考图片进行编码，得到编码向量；最后，将该编码向量与随机生成的噪声向量拼接生成目标向量。

当然，还可以直接将噪声向量作为目标向量，此时，相较于利用动态图片样本集生成目标向量，训练过程较长。

可以理解，在本公开的训练过程中，交替单独对判别网络和生成动态图片的各网络进行训练，即：可以通过调整判别网络的参数以对判别网络进行训练，然后通过调整生成动态图片的各网络的参数以对生成动态图片的各网络进行训练。

子步骤2012，采用判别网络对预设动态图片样本集和模拟动态图片集进行真实性识别。

具体地，可以将动态图片样本集和模拟动态图片集合成一个集合，且模拟动态图片集的各图片被标记为非真实图片，动态图片样本集中的各图片被标记为真实图片，然后，通过判别网络判断各图片是否真实。

可选地，在本公开的另一种实施例中，上述步骤2012包括子步骤20121至20123：

子步骤20121，对于动态图片集中的各动态图片，将所述动态图片的各帧画面通过卷积神经网络进行图像编码，得到一维的第二编码向量，所述动态图片集由预设动态图片样本集和模拟动态图片集组成。

如图2A所示，真实性识别时采用两层网络结构，循环神经网络(RNN，RecurrentNeural Networks)以及卷积神经网络(CNN，Convolutional Neural Network)。判别网络的输出结果为动态图片是否真实的数值。

子步骤20122，通过循环神经网络对各帧画面对应的第二编码向量进行非线性运算，得到目标数值。

具体地，循环神经网络通过矩阵运算对第二编码向量进行一系列非线性运算。首先，将第一帧画面对应的第二编码向量输入至循环神经网络中进行非线性运算，输出目标数值；然后，将后续各帧画面对应的第二编码向量以及上一帧画面的目标数值，输入至循环神经网络中进行非线性运算，输出目标数值；最后，将最后一帧画面的目标数值作为动态图片的目标数值。

子步骤20123，对所述目标数值进行判断，得到所述动态图片的真实性识别结果。

如图2A所示，判别网络输出的结果为目标数值。当目标数值接近于1时，该动态图片的真实性越高；当目标数值越接近于0，则该动态图片的真实性越低。

子步骤2013，若所述真实性识别的准确度满足预设条件，结束训练。

具体地，首先，将真实性识别结果与图片的真实性标记进行对比，若真实性识别结果与真实性标记一致，则表明识别正确；若真实性识别结果与真实性标记不一致，则表明识别错误；然后，统计识别正确的图片个数，并计算识别正确的图片个数与图片总数的比值，得到真实性识别的准确度；最后，当准确度为0.5左右时，表明生成的动态图片足以以假乱真，此时，准确度满足预设条件，结束训练，从而对静态图片进行视频编码的编码网络，前景预测对应的前景网络，后景预测对应的后景网络组成动态图片生成网络；若准确度不满足预设条件，则调整前景预测的反卷积参数、后景网络对应的反卷积参数，继续训练，直至真实性识别的准确度满足预设条件。

可以理解，满足预设条件为准确度在0.5上下，本公开的实施例对准确度的具体范围不加以限制。

子步骤2014，若所述真实性识别的准确度不满足预设条件，分别调整对所述动态图生成步骤中涉及的各个网络的参数。

可以理解，本公开的实施例可以通过不断调整预测网络、编码网络以及长短期记忆网络的参数以反复进行训练，直至真实性识别的准确度满足预设条件。

步骤202，获取静态图片，并采用编码网络对所述静态图片进行编码得到第一编码向量。

其中，静态图片为生成动态图片的参考图片，可以为网络上下载的图片，也可以为用户拍摄图片等。

具体地，可以逐渐变更维数将静态图片编码为第一编码向量。例如，静态图片为64*64*3像素的图片，则第一次先将静态图片编码为32*32*32像素的图片，第二次再将32*32*32像素的图片编码为16*16*64像素的图片，第三次将16*16*64像素的图片编码为8*8*128像素的图片，以此类推，后续的图片大小依次为4*4*256、2*2*512、1*1*1024，则1*1*1024为第一编码向量。可以理解，第一编码向量可以认为是一维向量。

步骤203，将所述第一编码向量与预设噪声向量拼接成目标向量。

其中，噪声向量为一维向量，可以随机生成，长度也可以根据实际应用场景设定，本公开的实施例对其不加以限制。

本公开的实施例将一维的第一编码向量和噪声向量拼接成长度较大的一维的目标向量，其中，目标向量的长度为第一编码向量和噪声向量的长度之和。例如，对于1*L的第一编码向量[A(1),A(2),…,A(L)]，以及1*M的噪声向量[B(1),B(2),…,B(M)]，则拼接得到的目标向量为[A(1),A(2),…,A(L)，B(1),B(2),…,B(M)]。

可以理解，在实际应用中，噪声向量和第一编码向量在拼接时的顺序可以调换。例如，对于上述的第一编码向量和噪声向量，将第一编码向量拼接在噪声向量的后面，得到目标向量为[B(1),B(2),…,B(M)，A(1),A(2),…,A(L)]。

步骤204，采用前景网络对所述目标向量进行前景预测，生成前景动态图片以及前景遮罩动态图片。

其中，前景预测可以预测到图片中变化较大的信息，从而前景图片包括不断变化的主体信息。

前景遮罩动态图片用于控制时间网络中遗忘门和更新门的系数。可以理解，前景遮罩动态图片与前景动态图片的大小相同。

具体地，前景预测通过四维反卷积，得到前景动态图片，前景动态图片为动态图片。从而，前景预测参数即为四维反卷积参数。

在本公开的实施例中，前景遮罩动态图片可以通过激活函数对前景动态图片进行变换得到。例如，通过sigmoid函数进行变换。其中，sigmoid函数如下:

其中，x为变换前的值，y为变换后的值。对于本公开的实施例，x为前景动态图片中的各像素值，y为前景遮罩动态图片中对应位置上的像素值。

步骤205，采用后景网络对所述目标向量进行后景预测，生成后景静态图片。

其中，后景预测可以预测到图片中变化较小的信息，从而后景图片包括不变的主体信息。

具体地，后景预测通过三维反卷积得到后景静态图片，后景静态图片为一帧的静态图片。从而，后景预测参数即为三维反卷积参数。

步骤206，将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片。

该步骤可以参照步骤102的详细说明，在此不再赘述。

步骤207，将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面。

该步骤可以参照步骤103的详细说明，在此不再赘述。

步骤208，将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。

该步骤可以参照步骤104的详细说明，在此不再赘述。

综上所述，本公开的实施例提供了一种动态图片的生成方法，所述方法包括：生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片；将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片；将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面；将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。本公开的实施例提供的动态图片的生成方法，将当前帧画面的处理结果作为下一阵画面的参考，有助于降低各个网络模型的训练难度，有助于提高图片生成的准确率。此外，还可以通过训练得到生成动态图片的最优参数，从而灵活实现动态图片的生成，且根据真实动态图片生成模拟动态图片以进行训练，提高训练效率。

实施例三

参照图3，其示出了一种动态图片的生成装置的结构图，具体如下。

前后景预测模块301，用于生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片。

拆分模块302，用于将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片。

第一动态预测模块303，用于将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面。

第二动态预测模块304，用于将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。

综上所述，本公开的实施例提供了一种动态图片的生成装置，所述装置包括：前后景预测模块，用于生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片；拆分模块，用于将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片；第一动态预测模块，用于将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面；第二动态预测模块，用于将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。本公开的实施例提供的动态图片的生成方法，将当前帧画面的处理结果作为下一阵画面的参考，有助于降低各个网络模型的训练难度，有助于提高图片生成的准确率。

实施例四

参照图4，其示出了另一种动态图片的生成装置的结构图，具体如下。

训练模块401，用于基于预设动态图片样本集预先对所述动态图生成步骤中涉及的各个网络进行训练。

前后景预测模块402，用于生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片；可选地，在本公开实施例中，上述前后景预测模块402包括：

编码子模块4021，用于获取静态图片，并采用编码网络对所述静态图片进行编码得到第一编码向量。

目标向量拼接子模块4022，用于将所述第一编码向量与预设噪声向量拼接成目标向量。

前景预测子模块4023，用于采用前景网络对所述目标向量进行前景预测，生成前景动态图片以及前景遮罩动态图片。

后景预测子模块4024，用于采用后景网络对所述目标向量进行后景预测，生成后景静态图片。

拆分模块403，用于将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片。

第一动态预测模块404，用于将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面。

第二动态预测模块405，用于将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。

可选地，在本公开的另一种实施例中，上述训练模块401包括：

判别训练子模块，用于利用预设动态图片样本集和模拟动态图片集对判别网络进行训练；所述模拟动态图片集为利用所述动态图生成步骤生成的动态图片的集合。

真实性识别子模块，用于采用判别网络对预设动态图片样本集和模拟动态图片集进行真实性识别。

可选地，在本公开的另一种实施例中，上述真实性识别子模块包括：

卷积编码单元，用于对于动态图片集中的各动态图片，将所述动态图片的各帧画面通过卷积神经网络进行图像编码，得到一维的第二编码向量，所述动态图片集由预设动态图片样本集和模拟动态图片集组成。

非线性运算单元，用于通过循环神经网络对各帧画面对应的第二编码向量进行非线性运算，得到目标数值。

真实性识别结果单元，用于对所述目标数值进行判断，得到所述动态图片的真实性识别结果。

结束训练子模块，用于若所述真实性识别的准确度满足预设条件，结束训练。

继续训练子模块，用于若所述真实性识别的准确度不满足预设条件，分别调整对所述动态图生成步骤中涉及的各个网络的参数。

综上所述，本公开的实施例提供了一种动态图片的生成装置，所述装置包括：前后景预测模块，用于生成目标向量，并采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片；拆分模块，用于将所述前景动态图片和前景遮罩动态图片按帧拆分为至少一帧前景静态图片以及对应的前景遮罩静态图片；第一动态预测模块，用于将第一帧前景静态图片、第一帧前景遮罩静态图片及后景静态图片输入到长短期记忆网络的第一个胞体中，进行预测生成动态图片的第一帧画面；第二动态预测模块，用于将第n帧的前景静态图片、对应的前景遮罩静态图片及动态图片的n-1帧的画面输入到长短期记忆网络的第n个胞体中，进行预测生成动态图片的第n帧画面。本公开的实施例提供的动态图片的生成方法，将当前帧画面的处理结果作为下一阵画面的参考，有助于降低各个网络模型的训练难度，有助于提高图片生成的准确率。此外，还可以通过训练得到生成动态图片的最优参数，从而灵活实现动态图片的生成，且根据真实动态图片生成模拟动态图片以进行训练，提高训练效率。

本公开的实施例还提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施例的动态图片的生成方法。

本公开的实施例还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的动态图片的生成方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开的实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的实施例的内容，并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的实施例的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

本公开的实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本公开的实施例的较佳实施例而已，并不用以限制本公开的实施例，凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本公开的实施例的保护范围之内。

以上所述，仅为本公开的实施例的具体实施方式，但本公开的实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的实施例的保护范围之内。因此，本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种动态图片的生成方法，其特征在于，所述方法包括如下动态图生成步骤：

2.根据权利要求1所述的方法，其特征在于，所述生成目标向量的步骤，包括：

获取静态图片，并采用编码网络对所述静态图片进行编码得到第一编码向量；

将所述第一编码向量与预设噪声向量拼接成目标向量。

3.根据权利要求1所述的方法，其特征在于，所述预测网络包括前景网络及后景网络，所述采用预测网络对所述目标向量进行预测，得到前景动态图片、前景遮罩动态图片及后景静态图片的步骤，包括：

采用前景网络对所述目标向量进行前景预测，生成前景动态图片以及前景遮罩动态图片；

采用后景网络对所述目标向量进行后景预测，生成后景静态图片。

4.根据权利要求1或2或3所述的方法，其特征在于，所述方法还包括：

基于预设动态图片样本集预先对所述动态图生成步骤中涉及的各个网络进行训练。

5.根据权利要求4所述的方法，其特征在于，所述基于预设动态图片样本集预先对所述动态图生成步骤中涉及的各个网络进行训练的步骤，包括：

利用预设动态图片样本集和模拟动态图片集对判别网络进行训练；所述模拟动态图片集为利用所述动态图生成步骤生成的动态图片的集合；

采用判别网络对预设动态图片样本集和模拟动态图片集进行真实性识别；

若所述真实性识别的准确度满足预设条件，结束训练；

若所述真实性识别的准确度不满足预设条件，分别调整对所述动态图生成步骤中涉及的各个网络的参数。

6.根据权利要求5所述的方法，其特征在于，所述采用判别网络对预设动态图片样本集和模拟动态图片集进行真实性识别的步骤，包括：

对于动态图片集中的各动态图片，将所述动态图片的各帧画面通过卷积神经网络进行图像编码，得到一维的第二编码向量，所述动态图片集由预设动态图片样本集和模拟动态图片集组成；

通过循环神经网络对各帧画面对应的第二编码向量进行非线性运算，得到目标数值；

对所述目标数值进行判断，得到所述动态图片的真实性识别结果。

7.一种动态图片的生成装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述前后景预测模块包括：

编码子模块，用于获取静态图片，并采用编码网络对所述静态图片进行编码得到第一编码向量；

目标向量拼接子模块，用于将所述第一编码向量与预设噪声向量拼接成目标向量。

9.根据权利要求7所述的装置，其特征在于，所述预测网络包括前景网络及后景网络，所述前后景预测模块包括：

前景预测子模块，用于采用前景网络对所述目标向量进行前景预测，生成前景动态图片以及前景遮罩动态图片；

后景预测子模块，用于采用后景网络对所述目标向量进行后景预测，生成后景静态图片。

10.根据权利要求7或8或9所述的装置，其特征在于，所述装置还包括：

训练模块，用于基于预设动态图片样本集预先对所述动态图片的生成装置中涉及的各个网络进行训练。

11.根据权利要求10所述的装置，其特征在于，所述训练模块包括：

判别训练子模块，用于利用预设动态图片样本集和模拟动态图片集对判别网络进行训练；所述模拟动态图片集为利用所述动态图生成步骤生成的动态图片的集合；

真实性识别子模块，用于采用判别网络对预设动态图片样本集和模拟动态图片集进行真实性识别；

结束训练子模块，用于若所述真实性识别的准确度满足预设条件，结束训练；

继续训练子模块，用于若所述真实性识别的准确度不满足预设条件，分别调整对所述动态图片的生成装置中涉及的各个网络的参数。

12.根据权利要求11所述的装置，其特征在于，所述真实性识别子模块包括：

卷积编码单元，用于对于动态图片集中的各动态图片，将所述动态图片的各帧画面通过卷积神经网络进行图像编码，得到一维的第二编码向量，所述动态图片集由预设动态图片样本集和模拟动态图片集组成；

非线性运算单元，用于通过循环神经网络对各帧画面对应的第二编码向量进行非线性运算，得到目标数值；

13.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中一个或多个所述的动态图片的生成方法。

14.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-6中一个或多个所述的动态图片的生成方法。