CN114900714A

CN114900714A - 一种基于神经网络的视频生成方法及相关装置

Info

Publication number: CN114900714A
Application number: CN202210382403.1A
Authority: CN
Inventors: 胡诗卉; 何山; 胡金水; 殷兵; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-08-12
Anticipated expiration: 2042-04-12
Also published as: CN114900714B

Abstract

本申请公开一种基于神经网络的视频生成方法及相关装置。视频生成方法包括：获取素材文件，其中所述素材文件包括语音文件、文本文件以及图像文件中的至少一种；将所述素材文件输入视频生成神经网络，通过所述视频生成神经网络对所述素材文件生成压缩视频数据；其中，所述压缩视频数据中至少部分视频帧的表征依赖于其他视频帧。通过上述方案可以节省编码计算量，提高视频生成网络本身的运行效率和生成视频流的质量。

Description

一种基于神经网络的视频生成方法及相关装置

技术领域

本申请属于视频图像处理技术领域，尤其涉及一种基于神经网络的视频生成方法及相关装置。

背景技术

随着基于深度神经网络的视频生成技术越来越成熟，越来越多的场景使用到视频内容生成技术。视频内容生成技术通常可以把语音、文本或者图像信息等素材文件生成对应的视频。

目前的视频内容生成过程通常可以采用视频生成系统进行实现，视频生成系统通常包括GPU(graphics processing unit、图形处理器)服务器、编码器以及解码器。在进行视频内容生成时通常是在GPU服务器上经视频生成网络生成视频流，接着将该视频流传输至编码器，以通过编码器对该视频流进行视频流编码，然后将编码后的视频流传输到播放终端，播放终端中的解码器则可以对该编码后的视频流进行视频解码，从而得到可以进行播放的视频流数据。

然而现有的视频生成系统这个流程的问题在于，基于深度神经网络的视频生成方法通常计算量很大，需要占用大量的GPU资源，同时视频流编码也需要占用GPU资源，导致整个系统的计算量过大，影响系统运行效率。另外，先由视频生成网络生成视频流再对其进行编码，无疑是在增加计算量的同时又降低了视频质量，这对于整个视频内容生成系统的效果和效率是不利的。

发明内容

本申请提供一种基于神经网络的视频生成方法及相关装置，以解决现有视频生成网络生成视频流需要先将素材文件生成对应的视频再对该视频进行编码传输而导致视频生成系统的计算量过大且影响系统运行效率技术问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种基于神经网络的视频生成方法，其中，所述方法包括：获取素材文件，其中所述素材文件包括语音文件、文本文件以及图像文件中的至少一种；将所述素材文件输入视频生成神经网络，通过所述视频生成神经网络对所述素材文件生成压缩视频数据；其中，所述压缩视频数据中至少部分视频帧的表征依赖于其他视频帧。

其中，所述视频生成方法还包括：获取到多个样本文件以及每一所述样本文件对应的样本完整视频帧，每一所述样本文件包括语音文件、文本文件以及图像文件的至少一种；将所述样本文件输入到视频生成神经网络的初始网络中，利用所述初始网络对所述样本文件生成预测压缩视频帧数据；其中，所述预测压缩视频帧数据中至少部分视频帧的表征依赖于其他视频帧；利用可微分解码模块对所述预测压缩视频帧数据进行解码，得到解码后的完整视频帧；利用解码后的完整视频帧与所述样本文件对应的样本完整视频帧对所述初始网络的网络参数进行训练，得到所述视频生成神经网络。

其中，所述利用解码后的完整视频帧与所述样本文件对应的样本完整视频帧对所述初始网络的网络参数进行训练，得到所述视频生成神经网络的步骤包括：计算所述解码后的完整视频帧与样本文件对应的样本完整视频帧的损失函数；基于所述损失函数调节所述初始网络的参数，得到所述视频生成神经网络。

其中，所述视频生成神经网络包括编码器和解码器，所述编码器包括编码卷积模块和所述编码卷积模块之后的第一残差模块，所述解码器包括第二残差模块和所述第二残差模块之后的全连接层；将所述素材文件输入所述视频生成神经网络，依次经过所述编码器和所述解码器，由所述解码器输出所述压缩视频数据。

其中，所述预测压缩视频帧数据是按照预设传输协议生成的；所述利用可微分解码模块对所述预测压缩视频帧数据进行解码，得到解码后的完整视频帧，包括：利用所述可微分解码模块按照与所述预设传输协议对应的解码规则对所述预测压缩视频帧数据进行解码，得到解码后的完整视频帧。

其中，所述压缩视频数据是按照预设传输协议生成的；所述方法进一步包括：将所述预设传输协议添加到所述压缩视频数据的头文件中。

其中，所述预设传输协议对应的编码压缩规则为H.26系列编码规则；所述预测压缩视频帧数据和所述压缩视频数据均包括I帧、P帧以及B帧；其中，所述I帧为独立编码帧，所述I帧进行独立编码压缩且其解码过程不依赖其他参考帧；所述P帧依赖于其前方的I帧或者P帧进行编码压缩，且所述P帧的解码过程也依赖于其前方的I帧或者P帧进行解码；所述B帧依赖于其前方的I帧或者P帧进行编码压缩，且依赖于其后方的P帧进行编码压缩，同时，所述B帧的解码过程也依赖于其前方的I帧或者P帧及其后方的P帧进行解码。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种基于神经网络的视频生成装置，其中，所述视频生成装置包括：

获取模块，获取素材文件，其中所述素材文件包括语音文件、文本文件以及图像文件中的至少一者；

视频生成神经网络模块，用于将所述素材文件输入视频生成神经网络，通过所述视频生成神经网络对所述素材文件生成压缩视频数据；其中，所述压缩视频数据中至少部分视频帧的表征依赖于其他视频帧。

为解决上述技术问题，本申请采用的另一个技术方案是：一种电子设备，其中，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如前文所述的视频生成方法。

为解决上述技术问题，本申请采用的另一个技术方案是：一种计算机可读存储介质，其上存储有程序指令，其中，所述程序指令被处理器执行时实现如前文所述的视频生成方法。

本申请的有益效果是：本申请的基于神经网络的视频生成方法通过视频生成神经网络可以对素材文件进行处理从而形成压缩视频数据，所得到的压缩视频数据可以直接进行传输，从而可以节省编码计算量，提高视频生成网络本身的运行效率和生成视频流的质量。进一步，通过采用可微分解码模块对利用视频生成神经网络的初始网络生成的预测压缩视频帧数据进行解码，得到解码后的完整视频帧，则可以利用解码后的完整视频帧与对应的样本完整视频帧进行损失函数计算，并根据损失函数对视频生成神经网络的初始网络的网络参数进行训练，从而可以提高视频生成神经网络将素材文件生成成视频的精确度和稳定性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请视频生成方法一实施例的流程示意图；

图2是一应用场景中对初始视频图像信息中部分图像帧进行编码的示意图；

图3是本申请中的视频生成神经网络一实施例的框架示意图；

图4是本申请中的视频生成神经网络的训练方法一实施例的流程示意图；

图5是本申请基于神经网络的视频生成装置一实施例的框架示意图；

图6是图5的视频生成装置另一实施方式的框架示意图；

图7是本申请电子设备一实施例的框架示意图；

图8为本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，可以存在三种关系，例如，A和/或B，可以：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般前后关联对象是一种“或”的关系。此外，本文中的“多”两个或者多于两个。

请参阅图1，图1是本申请视频生成方法一实施例的流程示意图。

具体而言，视频生成方法可以包括如下步骤：

S110：获取素材文件，其中所述素材文件包括语音文件、文本文件以及图像文件中的至少一种。

其中，素材文件可以包括仅语音信息、文本信息或者图像信息；或者也可以包括语音信息和图像信息，或者文本信息和图像信息。

其中，图像信息可以是一帧图像，该帧图像则可以构成后文形成的视频流的初始图像帧。

S120：将素材文件输入视频生成神经网络，通过视频生成神经网络对素材文件生成压缩视频数据；其中，压缩视频数据中至少部分视频帧的表征依赖于其他视频帧。

当获取素材文件后，可以将素材文件输入视频生成神经网络中进行处理，以获得素材文件对应的压缩视频数据。

本步骤中，在将素材文件输入到视频生成神经网络中后，视频生成神经网络中可以将该素材文件转化为对应的初始视频图像信息，且该初始视频图像信息已经完成了编码压缩，从而形成了对应的压缩视频数据。

其中，可选地，本步骤中，视频生成神经网络在对素材文件进行处理形成初始视频图像信息的同时就可以对该初始视频图像信息中的每一图像帧进行编码，或者，也可以在形成初始视频图像信息之后，再对该初始视频图像信息中的每一图像帧进行编码。

上述方案，通过视频生成神经网络可以对素材文件进行处理从而形成压缩视频数据，所得到的压缩视频数据可以直接进行传输，从而可以节省编码计算量，提高视频生成网络本身的运行效率和生成视频流的质量。

进一步地，在实际应用时，压缩视频数据需要按照预设传输协议进行传输，因此所生成的压缩视频数据与该预设传输协议相对应。即，当获取素材文件后，可以将素材文件输入视频生成神经网络中进行处理，以获得预设传输协议对应的压缩视频数据。具体地，在将素材文件输入到视频生成神经网络中后，视频生成神经网络中可以将该素材文件转化为对应的初始视频图像信息，且该初始视频图像信息已经按照对应于该预设传输协议的规则完成了编码压缩，从而形成与预设传输协议对应的压缩视频数据。

在一实施例中，预设传输协议对应的编码压缩规则为H.26系列编码规则。于是，上述的初始视频图像信息可以是采用H.26系列编码规则进行编码压缩后的视频流。

在一个具体的应用场景中，可以采用H.264编码规则对该视频图像信息进行编码。初始视频图像信息中的视频流可以按照H.264编解压缩进行编码。

其中，初始视频图像信息可以包括连接的多帧图像帧参数，在采用H.264编码规则进行编码包括：将初始视频图像信息中的多个图像帧参数分别编码为I帧、P帧以及B帧。其中，I帧为独立编码帧，I帧可以进行独立编码压缩且其解码过程不依赖其他参考帧；P帧则依赖于其前方的I帧或者P帧进行编码压缩，且P帧的解码过程也依赖于其前方的I帧或者P帧进行解码；B帧则依赖于其前方的I帧或者P帧编码压缩，且依赖于其后方的P帧编码压缩，同时，B帧的解码过程也依赖于其前方的I帧或者P帧及其后方的P帧进行解码。

请参阅图2，其中，图2是一应用场景中对初始视频图像信息中部分图像帧进行编码的示意图。

其中，在该初始视频图像信息的视频流数据中，每间隔12个连续的图像帧中则有一个图像帧为I帧。其中，沿图2所示从左到右的顺序则可以设置为初始视频图像信息中的图像帧的播放顺序。

如图2所示，截取了初始视频图像信息中连续的12个图像帧，将其第一个图像帧设置为I帧；在该I帧图像之后则每间隔3个图像帧设置一个P帧；在I帧与I帧相邻的P帧之间、以及两个相邻的P帧之间的两个图像帧则均设置为B帧。

对于该段初始视频图像信息，在进行编码压缩时，I帧则按照预设的编码压缩规则进行独立编码压缩。

每一P帧则可以依赖于其左侧最接近的I帧或者P帧进行编码压缩，例如，如图2所示从左到右方向上的三个P帧分别为第一P帧、第二P帧以及第三P帧。第一P帧则可以依赖于其左侧的I帧进行编码压缩；第二P帧则依赖于其左侧的第一P帧进行编码压缩，第三P帧则依赖于其左侧的第二P帧进行编码压缩。

B帧则依赖于其前方的I帧或者P帧，且依赖于其后方的I帧或者P帧进行编码压缩。例如，如图2所示从左到右方向上的4个B帧分别为第一B帧、第二B帧、第三B帧以及第四B帧，其中，第一B帧则依赖于其左边的I帧及其右边的第一P帧进行编码压缩，第一B帧同样依赖于其左边的I帧及其右边的第一P帧进行编码压缩；第三B帧以及第四B帧则均依赖于其左边的第一P帧及其右边的第二P帧进行编码压缩。其他的B帧编码压缩方式依次类推，在此不做赘述。

请参阅图3，图3是本申请中的视频生成神经网络一实施例的框架示意图。在一实施例中，视频生成神经网络30包括编码器和解码器，编码器包括编码卷积模块和编码卷积模块之后的第一残差模块，解码器包括第二残差模块和第二残差模块之后的全连接层；将素材文件输入视频生成神经网络30，依次经过编码器和解码器，由解码器输出压缩视频数据。

具体地，视频生成神经网络30有编码器Encoder和解码器Decoder两部分，编码器Encoder由一系列的编码卷积模块(Covn)和第一残差模块(ResBlock)提取特征并下采样，解码器Decoder由一系列第二残差模块(ResBlock)并上采样，最终生成视频帧序列，本申请中的解码器Decoder并不生成最终视频帧，而是生成压缩视频数据，例如H.264编码裸流数据，因此，解码器Decoder部分的网络结构中，可以将最后一部分卷积改为全连接层(FC)回归得到H.264编码裸流数据。由于解码器Decoder输出数据维度下降，解码器Decoder的计算量也会有一定程度的下降，可以提高视频生成网络本身的运行效率。

在一实施例中，在步骤S120之后，本申请的视频生成方法可以包括：将预设传输协议标记到所压缩视频数据中，并对压缩视频数据进行传输。

在前文步骤中，生成与预设传输协议对应的压缩视频数据后，还可以通过将预设传输协议标记到压缩视频数据中，并对压缩视频数据进行传输，从而可以使得后续接收端可以直接通过识别该压缩视频数据中的标记，从而可以识别出该预设传输协议，进而识别出该预设传输协议对应的解码规则。

其中，在一些实施方式中，可以在预设传输协议对应的压缩视频数据之前添加于对应的预设传输协议相对应一个的文件头，该文件头可以包含该压缩视频数据的视频流的编码信息。其中，该压缩视频数据的视频流采用H.264编码规则信息的编码压缩时，则可以在压缩视频数据中的视频流数据之前添加与H.264编码规则对应的头文件，形成该预设传输协议对应的压缩视频数据。

因此，本实施中，通过视频生成神经网络可以对素材文件进行处理从而形成预设传输协议对应的压缩视频数据，从而可以节省编码计算量，提高视频生成网络本身的运行效率和生成视频流的质量。

本实施例中，视频生成神经网络可以与外部视频播放终端建立通信连接，以构成一套视频生成网络。其中，通过外部视频播放终端与视频生成神经网络通信连接，则可以将压缩视频数据发送至外部视频播放终端，通过外部视频播放终端内的解码器进行解码处理后形成对应的最终可播放视频进行播放。

进一步的，本实施例中的视频生成神经网络，可以通过多个样本文件以及每一样本文件对应的样本完整视频帧数据，进行训练获得。

请参阅图4，图4是本申请中的视频生成神经网络的训练方法一实施例的流程示意图。

本实施例中的视频生成神经网络的训练方法，具体包括如下步骤：

S210：获取到多个样本文件以及每一所述样本文件对应的样本完整视频帧，每一所述样本文件包括语音文件、文本文件以及图像文件的至少一种。

其中，每一样本文件均包括一与其对应的样本完整视频帧。

S220：将所述样本文件输入到视频生成神经网络的初始网络中，利用所述初始网络对所述样本文件生成预测压缩视频帧数据；其中，所述预测压缩视频帧数据中至少部分视频帧的表征依赖于其他视频帧。

本步骤中，将每一样本文件输入到视频生成神经网络的初始网络中后，均可以通过该视频生成神经网络的初始网络进行处理，从而得到该样本文件对应的预测压缩视频帧数据。

在一实施例中，通过该视频生成神经网络的初始网络进行处理，可以得到该样本文件按照预设传输协议生成对应的预测压缩视频帧数据。其中，该预设传输协议可以与前文所述的预设传输协议相同，从而使得预测压缩视频帧数据中的编码压缩规则也与前文所述压缩视频数据的编码压缩规则也相同，在此不作赘述。

S230：利用可微分解码模块对所述预测压缩视频帧数据进行解码，得到解码后的完整视频帧。

本步骤中，通过可微分解码模块对预测压缩视频帧数据进行解码，得到解码后的完整视频帧。其中，可微分解码模块可以对每一预测压缩视频帧数据进行解码，得到每一预测压缩视频帧数据对应的完整视频帧。

在一实施例中，当预测压缩视频帧数据按照预设传输协议生成时，可微分解码模块可以对预测压缩视频帧数据按照预设传输协议进行解码。

S240：利用解码后的完整视频帧与所述样本文件对应的样本完整视频帧对所述初始网络的网络参数进行训练，得到所述视频生成神经网络。

进而，通过利用解码后的完整视频帧与样本文件对应的样本完整视频帧对初始网络的网络参数进行训练，可以得到训练后的视频生成神经网络。

在一实施例中，上述步骤S240具体可以包括：计算所述解码后的完整视频帧与样本文件对应的样本完整视频帧的损失函数；基于所述损失函数调节所述初始网络的参数，得到所述视频生成神经网络。

具体的，可以根据样本文件对应的解码后的完整视频帧和与其对应的样本完整视频帧计算二者的损失函数，进而可以根据该损失函数调节视频生成神经网络的初始初始网络的参数，从而实现对该视频生成神经网络的初始网络的进行优化训练。

本实施例前文步骤中的完整视频帧和样本完整视频帧均可以对应于素材文件最终的可播放的视频流。

在一实施例中，上述步骤S240具体可以包括：利用所述可微分解码模块按照与所述预设传输协议对应的解码规则对所述预测压缩视频帧数据进行解码，得到解码后的完整视频帧。例如，当预设传输协议对应的编码压缩规则为H.26系列编码规则时，计算具有相同解码方式的样本完整视频帧(样本完整视频帧数据中的I、B、P帧)和完整视频帧(完整视频帧数据中的I、B、P帧)之间的损失函数，即，样本完整视频帧中的I帧与完整视频帧中的I帧对应计算损失函数，样本完整视频帧中的B帧与完整视频帧中的B帧对应计算损失函数，样本完整视频帧中的P帧与完整视频帧中的P帧对应计算损失函数。

具体地，本步骤中，解码后的完整视频帧可以通过将预测压缩视频帧数据输入到可微分解码模块进行解码获得。其中，可微分解码模块是采用与前文所述编码压缩规则对应的解码规则分别对预测压缩视频帧数据进行解码后，输出解码后的完整视频帧。

与前文对应，可微分解码模块可以采用H.264编码规则对应的解码方式对预测压缩视频帧数据进行解码。

具体的，在一实施例中，可微分解码模块可以连接于视频生成神经网络的解码器之后，则可微分解码模块可以接收解码器输出的预测压缩视频帧数据并对该预测压缩视频帧数据进行微分解码形成具有预测图像帧的可播放视频流(即，解码后的完整视频帧)。

本步骤中，可以计算解码后的完整视频帧和样本完整视频帧的损失函数，或者也可以根据常规的损失函数确定解码后的完整视频帧和样本完整视频帧之间损失函数。

其中，常规的损失函数包括GAN损失函数(GAN Loss)、Perceptual损失函数(Perceptual Loss)以及L1损失函数(L1 Loss)。其中，GAN损失函数、Perceptual损失函数以及L1损失函数的运输方程如下所示。

GAN Loss：V_GAN(G，D)＝max_D min_GE_datalogD(x)+E_z log(1-D(G(z)))

Perceptual Loss：V_Per(f_g，f_r)＝L₁(VGG₁₉(f_g)-VGG₁₉(f_r))

L1 Loss：V_L1(f_g，f_r)＝L₁(f_g-f_r)

在一实施方式中，一般可以采用GAN Loss进行损失函数值计算。其中，G和D分别为常规视频生成网络的生成器和判别器，f_g和f_r分别为生成的视频帧(完整视频帧)和真实的视频帧(样本完整视频帧)，VGG₁₉(·)表示使用VGG19网络提取图像特征(也可使用ResNet50等网络提取图像特征)，L₁(·)表示L1损失函数。

具体地，可以通过将解码后的完整视频帧和样本完整视频帧输入前文所述的常规的损失函数中进行计算损失函数值，通过判断该损失函数值是否超出预设值，从而判断是否需要对前文所述的视频生成神经网络进行调整。

上述方案，可以将特定的样本文件输入视频生成神经网络中，且经过该视频生成神经网络可以得到预测压缩视频帧数据，预测压缩视频帧数据进一步通过可微分解码模块进行解码处理后，则可以得到该预测压缩视频帧数据对应的解码后的完整视频帧，进而根据该解码后的完整视频帧和对应的样本完整视频帧代入预设的损失函数计算损失函数值，并根据该损失函数值判断是否需要对视频生成神经网络进行调整优化。

其中，若将解码后的完整视频帧和对应的样本完整视频帧代入预设的损失函数计算获取到的损失函数值未达到预设值，则说明此时视频生成神经网络的鲁棒性较高，则不需进行优化调整。若将解码后的完整视频帧和对应的样本完整视频帧代入预设的损失函数计算获取到的损失函数值达到或者超出预设值，则说明此时视频生成神经网络的鲁棒性较低，则需进行进一步优化调整。

因此，本申请实施中，通过视频生成神经网络可以对素材文件进行处理从而形成预设传输协议对应的压缩视频数据，从而可以节省编码计算量，提高视频生成网络本身的运行效率和生成视频流的质量。进一步，通过采用可微分解码模块对预测压缩视频帧数据进行解码得到解码后的完整视频帧，则可以采用现有的损失函数对解码后的完整视频帧对应的样本完整视频帧进行代入运算，并根据运算结果对视频生成神经网络进行训练，从而可以提高视频生成神经网络将素材文件生成成视频的精确度和稳定性。

请参阅图5，图5是本申请基于神经网络的视频生成装置一实施例的框架示意图。

视频生成装置50包括：获取模块510和视频生成神经网络模块520。其中，获取模块510，用于获取素材文件，其中素材文件包括语音文件、文本文件以及图像文件中的至少一种；视频生成神经网络模块520用于将所述素材文件输入视频生成神经网络，通过所述视频生成神经网络对所述素材文件生成压缩视频数据；其中，所述压缩视频数据中至少部分视频帧的表征依赖于其他视频帧。

进一步的，在一实施例中，视频生成装置50中还可以设置模型训练模块。通过模型训练模块可以对视频生成神经网络模块520进行优化训练，从而提高视频生成神经网络将素材文件生成视频的精确度和稳定性。

具体的，请参阅图6，图6是图5的视频生成装置另一实施方式的框架示意图。

模型训练模块可以包括可微分解码模块530，其中可微分解码模块530用于接收视频生成神经网络模块520对样本文件处理后形成的预测压缩视频帧数据，并对预测压缩视频帧数据进行解码处理，以形成解码后的完整视频帧，其中解码后的完整视频帧包括多个视频帧，并且至少部分视频帧的自身解码过程依赖于解码后的完整视频帧中其他的视频帧。

其中，可选地，当预测压缩视频帧数据的编码规则与前文一致，例如符合H264编码规则时，则可微分解码模块530可以对预测压缩视频帧数据中的I、P、B帧进行分别解码，从而得到解码后的完整视频帧中的I、P、B帧的数据。

进一步的，通过采用可微分解码模块530对预测压缩视频帧数据中的I、P、B帧进行分别解码，则可以计算具有相同预设传输协议的样本完整视频帧(样本完整视频帧中的I、B、P帧)和完整视频帧(完整视频帧中的I、B、P帧)之间的损失函数，并根据运算结果对视频生成神经网络进行训练，从而可以提高视频生成神经网络将素材文件生成成视频的精确度和稳定性。

本实施例中的视频生成装置50则可以分别对应实现前文实施例的所述的视频生成方法。

请参阅图7，图7是本申请电子设备一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72，处理器72用于执行存储器71中存储的程序指令，以实现上述任一视频生成方法实施例的步骤。在一个具体的实施场景中，电子设备70可以包括但不限于：微型计算机、服务器，此外，电子设备70还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器72用于控制其自身以及存储器71以实现上述任一视频生成方法实施例的步骤。处理器72还可以称为CPU(Central Processing Unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由集成电路芯片共同实现。

上述方案，通过视频生成神经网络可以对素材文件进行处理从而形成压缩视频数据，所得到的压缩视频数据可以直接进行传输，从而可以节省编码计算量，提高视频生成网络本身的运行效率和生成视频流的质量。进一步地，通过采用可微分解码模块对利用视频生成神经网络的初始网络生成的预测压缩视频帧数据进行解码，得到解码后的完整视频帧，则可以利用解码后的完整视频帧与对应的样本完整视频帧进行损失函数计算，并根据损失函数对视频生成神经网络的初始网络的网络参数进行训练，从而可以提高视频生成神经网络将素材文件生成成视频的精确度和稳定性。

请参阅图8，图8为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令801，程序指令801用于实现上述任一视频生成方法实施例的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于神经网络的视频生成方法，其特征在于，所述方法包括：

获取素材文件，其中所述素材文件包括语音文件、文本文件以及图像文件中的至少一种；

将所述素材文件输入视频生成神经网络，通过所述视频生成神经网络对所述素材文件生成压缩视频数据；其中，所述压缩视频数据中至少部分视频帧的表征依赖于其他视频帧。

2.根据权利要求1所述的基于神经网络的视频生成方法，其特征在于，所述视频生成方法还包括：

获取到多个样本文件以及每一所述样本文件对应的样本完整视频帧，每一所述样本文件包括语音文件、文本文件以及图像文件的至少一种；

将所述样本文件输入到视频生成神经网络的初始网络中，利用所述初始网络对所述样本文件生成预测压缩视频帧数据；其中，所述预测压缩视频帧数据中至少部分视频帧的表征依赖于其他视频帧；

利用可微分解码模块对所述预测压缩视频帧数据进行解码，得到解码后的完整视频帧；

利用解码后的完整视频帧与所述样本文件对应的样本完整视频帧对所述初始网络的网络参数进行训练，得到所述视频生成神经网络。

3.根据根据权利要求2所述的基于神经网络的视频生成方法，其特征在于，所述利用解码后的完整视频帧与所述样本文件对应的样本完整视频帧对所述初始网络的网络参数进行训练，得到所述视频生成神经网络的步骤包括：

计算所述解码后的完整视频帧与样本文件对应的样本完整视频帧的损失函数；

基于所述损失函数调节所述初始网络的参数，得到所述视频生成神经网络。

4.根据权利要求1至3任一项所述的基于神经网络的视频生成方法，其特征在于，所述视频生成神经网络包括编码器和解码器，所述编码器包括编码卷积模块和所述编码卷积模块之后的第一残差模块，所述解码器包括第二残差模块和所述第二残差模块之后的全连接层；

将所述素材文件输入所述视频生成神经网络，依次经过所述编码器和所述解码器，由所述解码器输出所述压缩视频数据。

5.根据权利要求2所述的基于神经网络的视频生成方法，其特征在于，所述预测压缩视频帧数据是按照预设传输协议生成的；

所述利用可微分解码模块对所述预测压缩视频帧数据进行解码，得到解码后的完整视频帧，包括：

利用所述可微分解码模块按照与所述预设传输协议对应的解码规则对所述预测压缩视频帧数据进行解码，得到解码后的完整视频帧。

6.根据权利要求1所述的基于神经网络的视频生成方法，其特征在于，所述压缩视频数据是按照预设传输协议生成的；

所述方法进一步包括：

将所述预设传输协议添加到所述压缩视频数据的头文件中。

7.根据权利要求5或6所述的基于神经网络的视频生成方法，其特征在于，所述预设传输协议对应的编码压缩规则为H.26系列编码规则；

所述预测压缩视频帧数据和所述压缩视频数据均包括I帧、P帧以及B帧；其中，所述I帧为独立编码帧，所述I帧进行独立编码压缩且其解码过程不依赖其他参考帧；所述P帧依赖于其前方的I帧或者P帧进行编码压缩，且所述P帧的解码过程也依赖于其前方的I帧或者P帧进行解码；所述B帧依赖于其前方的I帧或者P帧进行编码压缩，且依赖于其后方的P帧进行编码压缩，同时，所述B帧的解码过程也依赖于其前方的I帧或者P帧及其后方的P帧进行解码。

8.一种基于神经网络的视频生成装置，其特征在于，所述视频生成装置包括：

获取模块，获取素材文件，其中所述素材文件包括语音文件、文本文件以及图像文件中的至少一种；

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如权利要求1至7任一项所述的视频生成方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1至7任一项所述的视频生成方法。