CN113902000A

CN113902000A - 模型训练、合成帧生成、视频识别方法和装置以及介质

Info

Publication number: CN113902000A
Application number: CN202111156859.8A
Authority: CN
Inventors: 邱钊凡; 姚霆; 梅涛
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07

Abstract

本公开提供了一种模型训练、合成帧生成、视频识别方法和装置以及存储介质，其中的训练方法包括：使用合成帧生成模型对视频帧训练序列进行压缩处理，获得二维合成帧；使用联合训练模型对二维合成帧进行相应的处理，并基于处理结果构建第一损失函数；根据视频帧训练序列和二维合成帧的颜色信息，构建第二损失函数；基于第一损失函数和第二损失函数，对合成帧生成模型和联合训练模型进行联合训练。本公开的方法和装置以及存储介质，生成的二维合成帧具有对于视频视觉细节、视频类别与视频动作信息还原的能力，并且在视觉细节上与颜色空间上和正常图片接近，能够在合成帧中保留更多的视频信息；可以降低对视频进行识别的运算量和模型训练的工作量。

Description

模型训练、合成帧生成、视频识别方法和装置以及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型训练、合成帧生成、视频识别方法和装置以及存储介质。

背景技术

视频识别的目标是识别出视频中的主要内容，包括物体、动作、事件等。现有的视频识技术主要分为两类：基于手工特征的视频识别技术和基于深度学习的视频识别技术。基于手工特征的视频识别技术的识别性能不高。使用深度学习的视频识别技术，通常把使用在图像识别的二维卷积神经网络应用在视频识别之中，并通过使用循环神经网络或三维卷积等方式来提升神经网络在视频识别上的性能。但是，使用深度学习的视频识别技术通常计算量较大，运算时间较长，很难应用到一些对时间需求较高的场景中。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种模型训练、合成帧生成、视频识别方法和装置以及存储介质。

根据本公开的第一方面，提供一种模型训练方法，包括：使用合成帧生成模型对视频帧训练序列进行压缩处理，获得二维合成帧；使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数；根据所述视频帧训练序列和所述二维合成帧的颜色信息，构建第二损失函数；基于所述第一损失函数和所述第二损失函数，对所述合成帧生成模型和所述联合训练模型进行联合训练。

可选地，所述使用合成帧生成模型对视频帧训练序列进行压缩处理，获得二维合成帧包括：在所述视频帧训练序列中确定关键帧；确定所述视频帧训练序列中的其他帧与所述关键帧相对应的运动向量和残差；基于所述关键帧和所述运动向量以及所述残差，生成视频压缩序列，使用所述合成帧生成模型并基于所述视频压缩序列生成所述二维合成帧。

可选地，所述联合训练模型包括：视觉信息重建模型；所述第一损失函数包括：视觉信息重建损失函数；所述使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数包括：使用所述视觉信息重建模型生成与所述二维合成帧相对应的还原关键帧；基于所述还原关键帧和所述关键帧之间的差异信息，构建所述视觉信息重建损失函数。

可选地，所述联合训练模型包括：视频分类模型；所述第一损失函数包括：视频分类损失函数；所述使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数包括：使用所述视频分类模型生成与所述二维合成帧相对应的类别预测概率；基于所述类别预测概率和所述合成帧的类别标注信息，构建所述视频分类损失函数。

可选地，所述联合训练模型包括：动态信息预测模型；所述第一损失函数包括：动态信息预测损失函数；所述使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数包括：使用所述动态信息预测模型并基于所述二维合成帧，生成与所述关键帧相对应的预测运动向量和预测残差；确定所述预测运动向量和与所述关键帧相对应的运动向量之间的第一差值；确定所述预测残差和与所述关键帧相对应的残差之间的第二差值；基于所述第一差值和所述第二差值，构建所述动态信息预测损失函数。

可选地，所述联合训练模型包括：判别器模型；所述第一损失函数包括：合成帧生成损失函数；所述使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数包括：使用所述判别器模型对所述合成帧生成模型生成的二维合成帧和所述关键帧进行判决处理；根据所述判别结果生成所述合成帧生成损失函数。

可选地，所述第二损失函数包括：颜色一致性损失函数；所述根据所述视频帧训练序列和所述二维合成帧的颜色信息，构建第二损失函数包括：确定所述视频帧训练序列中的各个视频帧的第一颜色通道平均值；基于所述二维合成帧的第二颜色通道平均值和所述第一颜色通道平均值的差值，构建所述颜色一致性损失函数。

可选地，所述合成帧生成模型和所述联合训练模型包括：神经网络模型。

根据本公开的第二方面，提供一种合成帧生成方法，包括：使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧；其中，所述合成帧生成模型是通过如上所述的训练方法训练得到。

根据本公开的第三方面，提供一种视频识别方法，包括：使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧；其中，所述合成帧生成模型是通过如上所述的训练方法训练得到；使用训练好的视频识别模型并基于所述二维合成帧，获得与视频帧序列相对应的内容识别结果。

可选地，所述视频识别模型包括：二维卷积神经网络、三维卷积神经网络。

根据本公开的第四方面，提供一种模型训练装置，包括：第一合成帧生成模块，用于使用合成帧生成模型对视频帧训练序列进行压缩处理，获得二维合成帧；第一损失函数构建模块，用于使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数；第二损失函数构建模块，用于根据所述视频帧训练序列和所述二维合成帧的颜色信息，构建第二损失函数；模型联合训练模型，用于基于所述第一损失函数和所述第二损失函数，对所述合成帧生成模型和所述联合训练模型进行联合训练。

可选地，所述第一合成帧生成模块，用于在所述视频帧训练序列中确定关键帧；确定所述视频帧训练序列中的其他帧与所述关键帧相对应的运动向量和残差；基于所述关键帧和所述运动向量以及所述残差，生成视频压缩序列，使用所述合成帧生成模型并基于所述视频压缩序列生成所述二维合成帧。

可选地，所述联合训练模型包括：视觉信息重建模型；所述第一损失函数包括：视觉信息重建损失函数；所述第一损失函数构建模块，还用于使用所述视觉信息重建模型生成与所述二维合成帧相对应的还原关键帧；基于所述还原关键帧和所述关键帧之间的差异信息，构建所述视觉信息重建损失函数。

可选地，所述联合训练模型包括：视频分类模型；所述第一损失函数包括：视频分类损失函数；所述第一损失函数构建模块，还用于使用所述视频分类模型生成与所述二维合成帧相对应的类别预测概率；基于所述类别预测概率和所述合成帧的类别标注信息，构建所述视频分类损失函数。

可选地，所述联合训练模型包括：动态信息预测模型；所述第一损失函数包括：动态信息预测损失函数；所述第一损失函数构建模块，还用于使用所述动态信息预测模型并基于所述二维合成帧，生成与所述关键帧相对应的预测运动向量和预测残差；确定所述预测运动向量和与所述关键帧相对应的运动向量之间的第一差值；确定所述预测残差和与所述关键帧相对应的残差之间的第二差值；基于所述第一差值和所述第二差值，构建所述动态信息预测损失函数。

可选地，所述联合训练模型包括：判别器模型；所述第一损失函数包括：合成帧生成损失函数；所述第一损失函数构建模块，还用于使用所述判别器模型对所述合成帧生成模型生成的二维合成帧和所述关键帧进行判决处理；根据所述判别结果生成所述合成帧生成损失函数。

可选地，所述第二损失函数包括：颜色一致性损失函数；所述第二损失函数构建模块，具体用于确定所述视频帧训练序列中的各个视频帧的第一颜色通道平均值；基于所述二维合成帧的第二颜色通道平均值和所述第一颜色通道平均值的差值，构建所述颜色一致性损失函数。

根据本公开的第五方面，提供一种合成帧生成装置，包括：第二合成帧生成模块，用于使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧；其中，所述合成帧生成模型是通过如上所述的训练方法训练得到。

根据本公开的第六方面，提供一种视频识别装置，包括：第三合成帧生成模块，用于使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧；其中，所述合成帧生成模型是通过如上所述的训练方法训练得到；识别处理模块，用于使用训练好的视频识别模型并基于所述二维合成帧，获得与视频帧序列相对应的内容识别结果。

根据本公开的第七方面，提供一种模型训练装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第八方面，提供一种合成帧生成装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第九方面，提供一种视频识别装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第十方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上所述的方法。

本公开的模型训练、合成帧生成、视频识别方法和装置以及存储介质，对视频帧训练序列进行压缩处理，获得二维合成帧，并构建损失函数对合成帧生成模型和联合训练模型进行联合训练；生成的二维合成帧具有对于视频视觉细节、视频类别与视频动作信息还原的能力，并且在视觉细节上与颜色空间上和正常图片接近，能够在合成帧中保留更多的视频信息；可以降低对视频进行识别的运算量和模型训练的工作量，提高了模型训练以及对视频进行识别的效率和准确性，适用性和鲁棒性较好，提高了用户使用感受。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开的模型训练方法的一个实施例的流程示意图；

图2为根据本公开的模型训练方法的一个实施例的训练框架示意图；

图3为根据本公开的视频识别方法的一个实施例的流程示意图；

图4A和4B为根据本公开的视频识别方法的一个实施例的使用合成帧进行视频识别的示意图；

图5为根据本公开的模型训练装置的一个实施例的模块示意图；

图6为根据本公开的合成帧生成装置的一个实施例的模块示意图；

图7为根据本公开的视频识别装置的一个实施例的模块示意图；

图8为根据本公开的模型训练装置的另一个实施例的模块示意图；

图9为根据本公开的合成帧生成装置的另一个实施例的模块示意图；

图10为根据本公开的视频识别装置的另一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

下文中的“第一”、“第二”等仅用于描述上相区别，并没有其他特殊的含义。

现有的基于手工特征的视频识别技术，通常是先在视频中检测时空兴趣点，然后通过局部特征来描述这些兴趣点，并进一步进行内容识别。描述使用的局部特征包括灰度直方图、灰度梯度直方图、光流直方图、稠密轨迹特征等，这些特征都通过手工设计得到，并没有根据视频识别任务进行优化，从而在很多应用中的性能并不高。

在使用深度学习的视频识别技术中，通常把使用在图像识别的二维卷积神经网络应用在视频识别之中，并通过使用循环神经网络或三维卷积等方式来提升神经网络在视频识别上的性能。在利用不同的神经网络结构提升视频识别系统的性能时，通常性能越好的神经网络结构需要更大的计算量。

例如，基于二维卷积神经网络的视频识别系统，计算量直接和帧的采样率线性相关，在采样大量帧的情况下，需要比图像识别更高的计算量。类似的，基于三维卷积神经网络的视频识别系统，计算量和模型参数规模都比二维卷积神经网络更大，极大地限制了视频识别在现实场景中的应用。

图1为根据本公开的模型训练方法的一个实施例的流程示意图，如图1所示：

步骤101，使用合成帧生成模型对视频帧训练序列进行压缩处理，获得二维合成帧。

在一个实施例中，合成帧生成模型可以为多种模型，例如为神经网络模型等。视频帧训练序列可以为用户选取的多个视频帧序列。使用合成帧生成模型将视频帧序列中的信息压缩到一个二维合成帧中，二维合成帧为一个二维图像，同时包含视频中的动态信息和视觉细节信息。通过训练中的损失函数设计，使生成的合成帧包含视频中的动态信息和视觉细节信息等原始信息。当合成帧作为一个神经网络的输入时，神经网络可以预测出原始视频中的视觉结构和动态信息。

步骤102，使用联合训练模型对二维合成帧进行相应的处理，并基于处理结果构建第一损失函数。

在一个实施例中，联合训练模型的数量可以为一个或多个，用于对二维合成帧进行相应的处理。联合训练模型可以为多种模型，例如为神经网络模型等。

步骤103，根据视频帧训练序列和二维合成帧的颜色信息，构建第二损失函数。

步骤104，基于第一损失函数和第二损失函数，对合成帧生成模型和联合训练模型进行联合训练。可以基于第一损失函数和第二损失函数，对合成帧生成模型和联合训练模型的参数进行调整，进行联合训练，以达到训练目标。

在合成帧生成模型和联合训练模型训练完成之后，通过训练好的合成帧生成模型生成二维合成帧，二维合成帧同时包含视频中的动态信息和视觉细节。在使用二维合成帧进行识别处理时，可以在二维合成帧中同时获取视频的空间视觉信息以及时域动态变化。

在一个实施例中，获得二维合成帧可以采用多种方法。例如，在视频帧训练序列中确定关键帧，确定视频帧训练序列

中的其他帧与关键帧相对应的运动向量和残差。基于关键帧和运动向量以及残差，生成视频压缩序列，使用合成帧生成模型并基于视频压缩序列生成二维合成帧。

如图2所示，合成帧生成模型可以为卷积神经网络等，例如为卷积编码解码网络。通过卷积编码解码网络将视频帧训练序列转化成为单独一张(二维)合成帧。对于包含T帧的视频序列(视频帧训练序列)X＝{x_t|t＝1，...，T}，其中的每一帧都是分辨率为H×W并包含C个通道的图像。

通过使用一个卷积编码解码神经网络F(合成帧生成模型)进行帧序列的信息压缩，即

其中

是系统输出的合成帧。通常来说，视频帧序列中的相邻帧通常很相似，可以将视频中的帧表达成为一帧和一个附近的关键帧之间的差异。

例如，将输入的视频帧序列的第一帧x₁作为关键帧，视频帧序列中的其他帧x_t则可以采用x₁通过运动向量m_t和残差r_t转换得到：

x_t＝x₁*m_t+r_t (1-1)；

其中，*表示逐像素通过运动向量的值进行位移。在视频压缩领域中，x₁通常被称为I-frame(内编码帧)，而{m_t，r_t}则代表一个P-frame(预测帧)和I-frame之间的差异。完整的视频序列X可以表达成为重建的视频序列{x₁，m₂，r₂，...，m_T，r_T}，此种视频压缩序列可以直接从MPEG-4、H.264、HEVC等视频格式编码的视频中提取。

在一个实施例中，联合训练模型包括视觉信息重建模型，第一损失函数包括视觉信息重建损失函数。使用视觉信息重建模型生成与二维合成帧相对应的还原关键帧，基于还原关键帧和关键帧之间的差异信息，构建视觉信息重建损失函数。

如图2所示，和输入的视频数据相比，合成帧

只包含1/T的数据量，因此，直接的在合成帧中保留有价值信息的方式，是尽可能地让帧压缩过程F可逆，即输入的原始视频X可以从合成帧

中还原。由于压缩域格式的视频序列中的视觉信息主要都保存在关键帧x₁中，{m_t，r_t}中仅仅保存了构建x_t所需的运动信息，因此，在视觉信息重建任务中，构建了另一个卷积编码解码神经网络

(视觉信息重建模型)来从合成帧

中还原关键帧x₁。

视觉信息重建(appearance reconstruction)损失函数表示成为输入的关键帧x₁与还原的关键帧之间的均方差：

其中，

代表整个图片的均方差。视觉信息重建损失函数能够使合成帧尽可能地保留输入视频的空间细节信息。

在一个实施例中，联合训练模型包括视频分类模型，第一损失函数包括视频分类损失函数。使用视频分类模型生成与二维合成帧相对应的类别预测概率，基于类别预测概率和合成帧的类别标注信息，构建视频分类损失函数。

如图2所示，视频分类(video categorization)任务将视频中的时空内容进行分类，视频分类任务是需要进行类别标注的任务。使用一个卷积神经网络C(视频分类模型)来从合成帧中判断输入视频的类别。给定一组视频序列与其相应的类别标注，使用交叉熵损失函数来衡量预测概率与标注类别之间的差异性：

L_cat(F，C)＝CrossEntropy{y，C(F(X))} (1-3)；

其中，X为输入视频序列，y为视频类别标注，C为视频分类模型，F为合成帧生成模型，CrossEntroPY交叉熵损失函数。C(F(X))是卷积神经网络预测各个类别的概率，类别包括人物、动作等，这些概率通过softmax操作归一化到(0，1)。

在一个实施例中，联合训练模型包括动态信息预测模型，第一损失函数包括动态信息预测损失函数。使用动态信息预测模型并基于二维合成帧，生成与关键帧相对应的预测运动向量和预测残差。确定预测运动向量和与关键帧相对应的运动向量之间的第一差值。确定预测残差和与关键帧相对应的残差之间的第二差值。基于第一差值和第二差值，构建动态信息预测损失函数。

如图2所示，光流通常被用来衡量两个连续帧之间的像素级位移，整张光流图可以表示为从一帧转化成为另一帧的转化函数。动态信息预测(motion estimation)任务使用与光流图类似的思路，使合成帧中的信息可以将输入关键帧x₁转换成为之后的第t帧x_t。由于将视频表达成为了压缩域的帧序列，这一转换能力等价于重建运动向量m_t以及残差r_t。运动向量和残差仅包含了x_t与关键帧x₁之间的差异。

构建一个卷积编码解码神经网络

(动态信息预测模型)，通过一次前向计算预测所有P-frame的运动向量和残差。因此，动态信息预测任务的动态信息预测损失函数可以表示为输入视频的运动向量/残差与预测的运动向量/残差之间的均方差：

其中，X为输入的视频帧训练序列，F为合成帧生成模型，

为还原出的运动向量

与残差

序列。

m_t、r_t为输入的运动向量、残差序列，T为视频帧训练序列的长度。

由上可知，一共需要还原T-1个运动向量图与T一1个残差图，这些数据量远大于合成帧中包含的数据量，这种信息量的“瓶颈”结构可以尽可能地将有价值的动态信息总结在合成帧中，并去除掉帧之间的冗余信息。

在一个实施例中，联合训练模型包括判别器模型，第一损失函数包括合成帧生成损失函数。使用判别器模型对合成帧生成模型生成的二维合成帧和关键帧进行判决处理，根据判别结果生成合成帧生成损失函数。

如图2所示，对抗学习(adversarial learning)正则化的目标是让生成的合成帧尽可能地与真实帧的视觉上相似。构建一个卷积神经网络D(判别器模型)作为辨别器来区分真实帧与合成帧，而帧压缩网络F(合成帧生成模型)则通过生成高质量的合成帧来尽可能地“欺骗”辨别器。

通过构建了一对生成模型与辨别模型，并让这两个模型互相竞争。这种对于合成帧视觉质量的正则化，能够让合成帧从纹理、模式、结构等方面都与真实的图片类似。对于生成的合成帧F(X)和输入的关键帧x₁，对抗学习的损失函数(合成帧生成损失函数)定义为：

其中，x₁为关键帧。

其中，D，(·)表示判别器衡量一个图片是否真实的评分。与对抗生成网络类似，对抗学习的训练过程是模型F与判别模型D的对抗过程，并最终达到一个良好的均衡态，让F能够生成视觉上与正常图片接近的合成帧。

在一个实施例，第二损失函数包括颜色一致性损失函数。确定视频帧训练序列中的各个视频帧的第一颜色通道平均值，基于二维合成帧的第二颜色通道平均值和第一颜色通道平均值的差值，构建颜色一致性损失函数。

如图2所示，颜色一致性(color consistency)的正则化是为了规范合成帧中不同通道的物理含义。通视频帧训练序列中的视频帧包含红、绿、蓝三个颜色通道，合成帧的颜色通道数量也是三个。如果在训练过程中完全不约束合成帧的三个颜色通道，则合成帧的三个颜色通道的物理含义将是随机且不可预测的，这将会影响合成帧的稳定性，同时物体的具体颜色信息将会丢失。

通过约束合成帧与视频帧训练序列中的视频帧的每个颜色通道的平均值来对齐每个颜色通道的物理含义，该正则化的损失函数(颜色一致性损失函数)是最小化合成帧与输入帧每个通道平均值的均方差：

其中，Ave(·)∈R^C代表每个颜色通道在全图的平均值。X为视频帧训练序列中的视频帧，T为视频帧训练序列的长度，x_t为视频帧训练序列中的第t个视频帧。

在一个实施例中，将第一损失函数和第二损失函数作为目标函数，通过目标函数以及进行正则化的联合训练，保证合成帧在后续的应用中的性能。使用第一损失函数和第二损失函数进行联合端到端训练：

L＝L_app+L_cat+L_mot+R_adv+R_color (1-9)；

其中，L_app为视觉信息重建损失函数，L_cat为视频分类损失函数，L_mot为动态信息预测损失函数，R_adv为对抗学习损失函数，R_color为颜色一致性损失函数。五个损失函数可以使用相同的权重。上述五个损失函数同时作用在整个系统(系统包含如图2中的五个神经网络模型)上进行联合训练，对于各个神经网络模型的参数调整等可以使用现有方法；其中，前四个损失函数会有四个神经网络模型辅助对应的损失函数的计算，但它们最终的梯度都是共同作用在生成合成帧的神经网络模型上，共同提升了合成帧的质量。

在一个实施例中，使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧，合成帧生成模型是通过如上任一实施例中的模型训练方法训练得到的。

图3为根据本公开的视频识别方法的一个实施例的流程示意图，如图3所示：

步骤301，使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧。合成帧生成模型是通过如上任一实施例中的训练方法训练得到的。

步骤302，使用训练好的视频识别模型并基于二维合成帧，获得与视频帧序列相对应的内容识别结果。

视频识别模型包括二维卷积神经网络、三维卷积神经网络等。视频识别模型可以采用现有的多种训练方法进行训练，内容识别结果为视频中的物体、动作、事件等。

在一个实施例中，可以分别使用二维卷积神经网络和三维卷积网络进行视频识别。如图4A所示，将视频帧序列转换成为单张图片(二维合成帧)，并使用二维卷积神经网络对合成帧的内容进行识别。可以选择将12帧合成维一张图片，并使用二维残差网络作为分类器。

如图4B所示，将更长的视频帧序列转换成为短的合成帧序列，并使用三维卷积神经网络对合成帧序列的内容进行识别。例如，将96帧的长视频序列通过滑窗的方式转换成为8帧的合成帧序列，再通过伪三维残差网络来进行内容识别。

在一个实施例中，如图5所示，本公开提供一种模型训练装置50，包括第一合成帧生成模块51、第一损失函数构建模块52、第二损失函数构建模块53和模型联合训练模型54等。第一合成帧生成模块51使用合成帧生成模型对视频帧训练序列进行压缩处理，获得二维合成帧。

第一损失函数构建模块52使用联合训练模型对二维合成帧进行相应的处理，并基于处理结果构建第一损失函数。第二损失函数构建模块53根据视频帧训练序列和二维合成帧的颜色信息，构建第二损失函数。模型联合训练模型54基于第一损失函数和第二损失函数，对合成帧生成模型和联合训练模型进行联合训练。

在一个实施例中，第一合成帧生成模块51在视频帧训练序列中确定关键帧，确定视频帧训练序列中的其他帧与关键帧相对应的运动向量和残差。第一合成帧生成模块51基于关键帧和运动向量以及残差，生成视频压缩序列，使用合成帧生成模型并基于视频压缩序列生成二维合成帧。

联合训练模型包括视觉信息重建模型，第一损失函数包括视觉信息重建损失函数。第一损失函数构建模块52使用视觉信息重建模型生成与二维合成帧相对应的还原关键帧。第一损失函数构建模块52基于还原关键帧和关键帧之间的差异信息，构建视觉信息重建损失函数。

联合训练模型包括视频分类模型，第一损失函数包括视频分类损失函数。第一损失函数构建模块52使用视频分类模型生成与二维合成帧相对应的类别预测概率，基于类别预测概率和合成帧的类别标注信息，构建视频分类损失函数。

联合训练模型包括动态信息预测模型，第一损失函数包括动态信息预测损失函数。第一损失函数构建模块52使用动态信息预测模型并基于二维合成帧，生成与关键帧相对应的预测运动向量和预测残差。第一损失函数构建模块52确定预测运动向量和与关键帧相对应的运动向量之间的第一差值，确定预测残差和与关键帧相对应的残差之间的第二差值。第一损失函数构建模块52基于第一差值和第二差值，构建动态信息预测损失函数。

联合训练模型包括判别器模型，第一损失函数包括合成帧生成损失函数。第一损失函数构建模块52使用判别器模型对合成帧生成模型生成的二维合成帧和关键帧进行判决处理，根据判别结果生成合成帧生成损失函数。

第二损失函数包括颜色一致性损失函数。第二损失函数构建模块53确定视频帧训练序列中的各个视频帧的第一颜色通道平均值。第二损失函数构建模块53基于二维合成帧的第二颜色通道平均值和第一颜色通道平均值的差值，构建颜色一致性损失函数。

在一个实施例中，如图6所示，本公开提供一种合成帧生成装置60，包括第二合成帧生成模块61。第二合成帧生成模块61使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧。

在一个实施例中，如图7所示，本公开提供一种视频识别装置70，包括第三合成帧生成模块71和识别处理模块72。第三合成帧生成模块71使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧。识别处理模块72使用训练好的视频识别模型并基于二维合成帧，获得与视频帧序列相对应的内容识别结果。

图8为根据本公开的模型训练装置的另一个实施例的模块示意图。如图8所示，该装置可包括存储器81、处理器82、通信接口83以及总线84。存储器81用于存储指令，处理器82耦合到存储器81，处理器82被配置为基于存储器81存储的指令执行实现上述的模型训练方法。

存储器81可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器81也可以是存储器阵列。存储器81还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器82可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的模型训练方法的一个或多个集成电路。

图9为根据本公开的合成帧生成装置的另一个实施例的模块示意图。如图9所示，该装置可包括存储器91、处理器92、通信接口93以及总线94。存储器91用于存储指令，处理器92耦合到存储器91，处理器92被配置为基于存储器91存储的指令执行实现上述的合成帧生成方法。

存储器91可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器91也可以是存储器阵列。存储器91还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器92可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的合成帧生成方法的一个或多个集成电路。

图10为根据本公开的视频识别装置的另一个实施例的模块示意图。如图10所示，该装置可包括存储器1001、处理器1002、通信接口1003以及总线1004。存储器1001用于存储指令，处理器1002耦合到存储器1001，处理器1002被配置为基于存储器1001存储的指令执行实现上述的视频识别方法。

存储器1001可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器1001也可以是存储器阵列。存储器1001还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器1002可以为中央处理器CPU，或专用集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本公开的视频识别方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的模型训练方法、合成帧生成方法或视频识别方法。

上述实施例中的模型训练、合成帧生成、视频识别方法和装置以及存储介质，对视频帧训练序列进行压缩处理，获得二维合成帧，并构建损失函数对合成帧生成模型和联合训练模型进行联合训练；生成的二维合成帧具有对于视频视觉细节、视频类别与视频动作信息还原的能力，并且在视觉细节上与颜色空间上和正常图片接近，能够在合成帧中保留更多的视频信息；可以降低对视频进行识别的运算量和模型训练的工作量，提高了模型训练以及对视频进行识别的效率和准确性，适用性和鲁棒性较好，提高了用户使用感受。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种模型训练方法，包括：

使用合成帧生成模型对视频帧训练序列进行压缩处理，获得二维合成帧；

使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数；

根据所述视频帧训练序列和所述二维合成帧的颜色信息，构建第二损失函数；

基于所述第一损失函数和所述第二损失函数，对所述合成帧生成模型和所述联合训练模型进行联合训练。

2.如权利要求1所述的方法，其中，所述使用合成帧生成模型对视频帧训练序列进行压缩处理，获得二维合成帧包括：

在所述视频帧训练序列中确定关键帧；

确定所述视频帧训练序列中的其他帧与所述关键帧相对应的运动向量和残差；

基于所述关键帧和所述运动向量以及所述残差，生成视频压缩序列，使用所述合成帧生成模型并基于所述视频压缩序列生成所述二维合成帧。

3.如权利要求1所述的方法，其中，所述联合训练模型包括：视觉信息重建模型；所述第一损失函数包括：视觉信息重建损失函数；所述使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数包括：

使用所述视觉信息重建模型生成与所述二维合成帧相对应的还原关键帧；

基于所述还原关键帧和所述关键帧之间的差异信息，构建所述视觉信息重建损失函数。

4.如权利要求1所述的方法，所述联合训练模型包括：视频分类模型；所述第一损失函数包括：视频分类损失函数；所述使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数包括：

使用所述视频分类模型生成与所述二维合成帧相对应的类别预测概率；

基于所述类别预测概率和所述合成帧的类别标注信息，构建所述视频分类损失函数。

5.如权利要求1所述的方法，所述联合训练模型包括：动态信息预测模型；所述第一损失函数包括：动态信息预测损失函数；所述使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数包括：

使用所述动态信息预测模型并基于所述二维合成帧，生成与所述关键帧相对应的预测运动向量和预测残差；

确定所述预测运动向量和与所述关键帧相对应的运动向量之间的第一差值；

确定所述预测残差和与所述关键帧相对应的残差之间的第二差值；

基于所述第一差值和所述第二差值，构建所述动态信息预测损失函数。

6.如权利要求1所述的方法，所述联合训练模型包括：判别器模型；所述第一损失函数包括：合成帧生成损失函数；所述使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数包括：

使用所述判别器模型对所述合成帧生成模型生成的二维合成帧和所述关键帧进行判决处理；

根据所述判别结果生成所述合成帧生成损失函数。

7.如权利要求1所述的方法，所述第二损失函数包括：颜色一致性损失函数；所述根据所述视频帧训练序列和所述二维合成帧的颜色信息，构建第二损失函数包括：

确定所述视频帧训练序列中的各个视频帧的第一颜色通道平均值；

基于所述二维合成帧的第二颜色通道平均值和所述第一颜色通道平均值的差值，构建所述颜色一致性损失函数。

8.如权利要求1所述的方法，其中，

所述合成帧生成模型和所述联合训练模型包括：神经网络模型。

9.一种合成帧生成方法，包括：

使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧；

其中，所述合成帧生成模型是通过权利要求1至8中任一项所述的训练方法训练得到。

10.一种视频识别方法，包括：

使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧；其中，所述合成帧生成模型是通过权利要求1至8中任一项所述的训练方法训练得到；

使用训练好的视频识别模型并基于所述二维合成帧，获得与视频帧序列相对应的内容识别结果。

11.如权利要求10所述的方法，其中，

所述视频识别模型包括：二维卷积神经网络、三维卷积神经网络。

12.一种模型训练装置，包括：

第一合成帧生成模块，用于使用合成帧生成模型对视频帧训练序列进行压缩处理，获得二维合成帧；

第一损失函数构建模块，用于使用联合训练模型对所述二维合成帧进行相应的处理，并基于处理结果构建第一损失函数；

第二损失函数构建模块，用于根据所述视频帧训练序列和所述二维合成帧的颜色信息，构建第二损失函数；

模型联合训练模型，用于基于所述第一损失函数和所述第二损失函数，对所述合成帧生成模型和所述联合训练模型进行联合训练。

13.一种合成帧生成装置，包括：

第二合成帧生成模块，用于使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧；其中，所述合成帧生成模型是通过权利要求1至8中任一项所述的训练方法训练得到。

14.一种视频识别装置，包括：

第三合成帧生成模块，用于使用合成帧生成模型对视频帧序列进行压缩处理，获得二维合成帧；其中，所述合成帧生成模型是通过权利要求1至8中任一项所述的训练方法训练得到；

识别处理模块，用于使用训练好的视频识别模型并基于所述二维合成帧，获得与视频帧序列相对应的内容识别结果。

15.一种模型训练装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至8中任一项所述的方法。

16.一种合成帧生成装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求9所述的方法。

17.一种视频识别装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求10或11所述的方法。

18.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如权利要求1至11中任一项所述的方法。