CN116304184A

CN116304184A - 视频分类模型、训练方法、分类方法、设备及存储介质

Info

Publication number: CN116304184A
Application number: CN202310281816.5A
Authority: CN
Inventors: 徐家琪; 程孟力; 刘波; 陈云阔
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-23

Abstract

本申请实施例提供一种视频分类模型、训练方法、分类方法、设备及存储介质。其中，视频分类模型包括视觉编码模块、文本编码模块、分别与所述视觉编码模块和所述文本编码模块连接的压缩模块以及与所述压缩模块连接的特征融合模块；其中，所述压缩模块中包含多个网络参数；所述网络参数在训练过程中具备可学习的特性，所述训练后的视频分类模型中压缩模块所包含的网络参数的参数值是在模型训练过程中学习得到的。本申请实施例提供的技术方案不仅可减少特征融合时的显存消耗，还能够通过可学习的压缩方式来降低因压缩所带来的重要信息损失程度。

Description

视频分类模型、训练方法、分类方法、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频分类模型、训练方法、分类方法、设备及存储介质。

背景技术

近年来，视频成为了一种主要的信息传播方式。在现有的视频搜索、视频推荐、平台运营中，通常都是通过视频打标签技术，给视频打上对应的标签，然后基于标签对视频进行推荐、基于标签建立索引以实现对视频的搜索、或者基于标签进行用户兴趣分析与运营。

视频打标签方法本质上是对视频进行多标签分类，属于视频-文本分类方法。现有的视频-文本分类方法运行时面临着大量的显存消耗，普通的计算机无法负担的问题。

发明内容

鉴于上述问题，提出了本申请以提供一种解决上述问题的视频分类模型、训练方法、分类方法、设备及存储介质。

于是，在本申请的一个实施例中，提供了一种视频分类模型。该模型包括：视觉编码模块、文本编码模块、分别与所述视觉编码模块和所述文本编码模块连接的压缩模块以及与所述压缩模块连接的特征融合模块；

其中，所述压缩模块中包含多个网络参数；所述网络参数在训练过程中具备可学习的特性，所述训练后的视频分类模型中压缩模块所包含的网络参数的参数值是在模型训练过程中学习得到的。

在本申请的另一个实施例中，提供了一种视频分类模型的训练方法。该方法包括：

获取训练样本，所述训练样本中包括：样本视频对应的视频帧序列、文本词序列以及所述样本视频所属的真实类别；

以最小化损失函数为目标，根据所述训练样本，对待训练的视频分类模型进行训练；其中，所述损失函数是根据所述视频分类模型输出的分类结果与所述样本视频所属的真实类别之间的差异确定的；所述视频分类模型包括：视觉编码模块、文本编码模块、分别与所述视觉编码模块和所述文本编码模块连接的压缩模块以及与所述压缩模块连接的特征融合模块；其中，所述压缩模块中包含多个网络参数；所述网络参数在训练过程中具备可学习的特性。

在本申请的又一个实施例中，提供了一种视频分类方法。该方法包括：

获取待分类视频对应的视频帧序列和文本词序列以及训练后的视频分类模型；所述视频分类模型包括：视觉编码模块、文本编码模块、分别与所述视觉编码模块和所述文本编码模块连接的压缩模块以及与所述压缩模块连接的特征融合模块；其中，所述压缩模块中包含多个网络参数；所述网络参数在训练过程中具备可学习的特性，所述训练后的视频分类模型中压缩模块所包含的网络参数的参数值是在模型训练过程中学习得到的；

利用所述训练后的视频分类模型中视觉编码模块和文本编码模块，分别对所述视频帧序列和所述文本词序列进行特征编码，以得到视觉特征序列和文本特征序列；

利用所述训练后的视频分类模型中压缩模块分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列；

利用所述训练后的视频分类模型中特征融合模块，对所述压缩后视觉特征序列和压缩后文本特征序列进行特征融合，以对所述待分类视频进行分类。

在本申请的又一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以实现上述任一项所述的方法。

在本申请的又一实施例中，提供了一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述任一项所述的方法。

本申请实施例提供的技术方案中，压缩模块中包含多个网络参数，该网络参数在训练过程中具备可学习的特性，这样，训练后的视频分类模型中压缩模块所包含的网络参数的参数值是模型训练过程中学习得到的。也就是说，通过可学习的方式分别对视频帧序列对应的视觉特征序列以及文本词序列对应的文本特征序列进行长度压缩处理，也即通过可学习的方式压缩视觉特征数据量和文本特征数据量，不仅可减少视觉特征和文本特征在特征融合时的显存消耗，还能够通过可学习的方式来降低因压缩所带来的重要信息损失程度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的视频分类模型的内部结构示意图；

图2为本申请一实施例提供的视频分类方法的流程示意图；

图3为本申请一实施例提供的特征压缩流程示意图；

图4为本申请一实施例提供的模型训练方法的流程示例图；

图5为本申请一实施例提供的电子设备的结构框图。

具体实施方式

现有的视频-文本分类方法面临了两个挑战：

(1)视频内容越来越丰富，所需的视频帧数越来越多和文本长度越来越长，在处理长视频与长文本时面临着巨大的显存消耗，普通的机器无法负担；

(2)常常需要进行大量视频样本的预训练才可以实现较好的效果，这消耗了大量的时间和计算资源。

在数字化驱动的今天，先基于视频样本进行大规模预训练再针对下游任务进行微调的模式显得笨重不堪。

如何应对上述两个挑战是学术界与工业界共同面对的难题。如何进行视频打标任务的快速开发是视频打标领域的痛点。

为了真正解决上述痛点，本申请提出了一个新的视频分类方法：通过可学习的方式分别对视频帧序列对应的视觉特征序列以及文本词序列对应的文本特征序列进行长度压缩处理。也即，通过可学习的方式压缩视觉特征数据量和文本特征数据量，不仅可减少视觉特征和文本特征在特征融合时的显存消耗，还能够通过可学习的方式来减少因压缩所带来的重要信息损失程度。并且，通过对特征压缩处理，可允许模型接收更多稀疏帧和更长的文本输入，以进一步提高性能。

此外，利用对比语言-图像的预训练方法对模型进行预训练再迁移到视频文本领域，进而避免在大规模视频数据集上进行昂贵的预训练；预训练后，微调过程中可冻结部分神经网络层，以减少计算负担和显存消耗。

通过以上几点的改进，可实现对视频打标任务的快速开发。

为了使本技术领域的人员更好地理解本申请方案，下面将根据本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图1示出了本申请一实施例提供的视频分类模型的内部结构示意图。如图1所示，视觉编码模块11、文本编码模块12、分别与所述视觉编码模块11和所述文本编码模块12连接的压缩模块13以及与所述压缩模块13连接的特征融合模块14；

其中，所述压缩模块13中包含多个网络参数；所述网络参数在训练过程中具备可学习的特性，所述训练后的视频分类模型中压缩模块13所包含的网络参数的参数值是在模型训练过程中学习得到的。

在一实例中，上述压缩模块13具备自注意力机制。注意力机制的具体实现过程将在下述各实施例中详细介绍。

关于上述视觉分类模型的训练方法也将在下述各实施例中详细介绍。

图2示出了本申请一实施例提供的视频分类方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、电脑等任意终端设备。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。如图2所示，该方法包括：

201、获取待分类视频对应的视频帧序列和文本词序列以及训练后的视频分类模型。

其中，所述视频分类模型包括：视觉编码模块、文本编码模块、分别与所述视觉编码模块和所述文本编码模块连接的压缩模块以及与所述压缩模块连接的特征融合模块；其中，所述压缩模块中包含多个网络参数；所述网络参数在训练过程中具备可学习的特性，所述训练后的视频分类模型中压缩模块所包含的网络参数的参数值是在模型训练过程中学习得到的。

202、利用所述训练后的视频分类模型中视觉编码模块和文本编码模块，分别对所述视频帧序列和所述文本词序列进行特征编码，以得到视觉特征序列和文本特征序列。

203、利用所述训练后的视频分类模型中压缩模块分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列。

其中，所述压缩模块所涉及的网络参数是在模型训练过程中学习得到的。

204、利用所述训练后的视频分类模型中特征融合模块，对所述压缩后视觉特征序列和压缩后文本特征序列进行特征融合，以对所述待分类视频进行分类。

上述201中，根据待分类视频，确定视频帧序列。在一实例中，待分类视频由按序排列的多个视频帧构成；可将所述按序排列的多个视频帧确定为视频帧序列。

在实际应用中，由于视频的帧率较高，视频中的视频帧数量较大，为了降低后续的处理压力，在另一实例中，可对待分类视频进行抽帧处理，得到视频帧序列。具体地抽帧策略可根据实际需要来设定，本申请实施例对此不作具体限定。

需要补充的是：在得到上述视频帧序列后，还可对视频帧序列中各视频帧进行裁剪和/或缩放操作，以适应模型的输入尺寸要求。

待分类视频对应的文本词序列由多个按序排列的文本词构成。待分类视频对应的文本词序列可采用如下方式中的一种来确定：

方式一：根据所述待分类视频的描述文本信息，生成所述文本词序列。

实际应用中，某些视频存在用户对其添加的描述文本信息。因此，可获取待分类视频的描述文本信息；根据待分类视频的描述文本信息，生成文本词序列。

方式二：对所述待分类视频进行光学字符识别，得到所述文本词序列。

注：生成文本词序列的过程中，通常会涉及分词过程，分词策略也可根据实际需要来设置，本申请实施例对此不作具体限定。例如：当文本为中文时，可将每一个汉字作为一个文本词；当文本为英文时，可将每一个英文单词作为一个文本词。

具体地，可对待分类视频中的视频帧进行光学字符识别(Optical CharacterRecognition，OCR)，进而得到文本词序列。

当视频帧序列是通过抽帧得到的时，可对抽帧得到的视频帧序列中各视频帧进行OCR识别，进而得到文本词序列。

方式三：对所述待分类视频中的音频进行音频识别，得到所述文本词序列。

可从待分类视频中提取音频；对所述音频进行音频识别，以得到文本词序列。

当视频帧序列是通过抽帧得到的时，可对抽帧得到的视频帧序列中各视频帧对应的音频帧进行音频识别，以得到文本词序列。

上述202中，视频分类模型可以是任意的机器学习模型，本申请实施例对此不作具体限定。视频分类模型是以最小化损失函数为目标，根据所述训练样本训练得到的。其中，所述训练样本中包括：样本视频对应的视频帧序列、文本词序列以及所述样本视频所属的真实类别。所述损失函数是根据所述视频分类模型输出的分类结果与所述样本视频所属的真实类别之间的差异确定的。

在一实例中，上述视觉分类模型可以是基于神经网络的深度学习模型，神经网络具有以下优点：具有很强的鲁棒性和容错性，因为信息是分布贮于网络内的神经元中；并行处理方法，使得计算快速；自学习、自组织、自适应性，使得网络可以处理不确定或不知道的系统；可以充分逼近任意复杂的非线性关系；具有很强的信息综合能力，能同时处理定量和定性的信息，能很好地协调多种输入信息关系，适用于多信息融合和多媒体技术。

如图1所示，上述视频分类模型中包括：视觉编码模块、文本编码模块、压缩模块、特征融合模块以及分类模块。

其中，视觉编码模块用于获取视觉特征序列；文本编码模块用于获取文本特征序列；压缩模块用于分别对视觉编码模块输出的视觉特征序列和文本编码模块输出的文本视觉特征序列进行长度压缩处理；特征融合模块用于对压缩模块输出的压缩后视觉特征序列和压缩后文本视觉特征序列进行融合处理；分类模块用于根据特征融合模块输出的融合特征进行分类。

视觉特征序列的长度由其中的元素个数决定，其中的元素个数越多，其长度就越长。文本特征序列的长度也由其中的元素个数决定，其中的元素个数越多，其长度就越长。视觉特征序列中的元素个数与视频帧序列中视频帧数量正相关，也就是说，视频帧序列中视频帧数量越多，视觉特征序列中的元素个数就越多；文本特征序列中的元素个数与文本词序列中文本词数量正相关，也就是说，文本词序列中文本词数量越多，文本特征序列中元素个数就越多。视觉特征序列用来描述视频帧序列；文本特征序列用来描述文本词序列。

上述203中，利用所述视频分类模型中压缩模块分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列。

在一实例中，上述压缩模块可包括：至少一层全连接层；利用所述至少一层全连接层分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列。其中，至少一层全连接层中涉及的网络参数是在模型训练过程中学习得到的。

为了方便后续融合，压缩后视觉特征序列和压缩后文本特征序列的元素个数可以是相等的。

上述204中，利用所述视频分类模型中特征融合模块，对所述压缩后视觉特征序列和压缩后文本特征序列进行特征融合，以对所述待分类视频进行分类。

特征融合的方式可以是向量拼接的融合方式或者向量求平均的融合方式。

在一实例中，可将压缩后视觉特征序列与压缩后文本特征序列进行拼接，得到拼接后特征序列；根据拼接后特征序列，确定融合后特征序列。

举例来说，压缩后视觉特征序列的元素个数均为M，则拼接后特征序列的元素个数为：2M。

可选地，将拼接后特征向量直接作为融合后特征向量。

在另一实例中，可对压缩后视觉特征序列与压缩后文本特征序列执行加权平均操作，得到融合后特征序列。

压缩后视觉特征序列和压缩后文本特性序列各自对应的权重可根据实际需要来设置，本申请对此不作具体限定。在一具体实例中，可将两者的权重均设为0.5，也即两者对于融合后特征序列而言，重要程度一样。

利用视频分类模型中分类模块，根据融合后特征，对待分类视频进行分类。本申请实施例中的分类具体可以是单标签分类或者多标签分类。

本申请实施例提供的技术方案中，通过可学习的方式分别对视频帧序列对应的视觉特征序列以及文本词序列对应的文本特征序列进行长度压缩处理，也即通过可学习的方式压缩视觉特征数据量和文本特征数据量，不仅可减少视觉特征和文本特征在特征融合时的显存消耗，还能够通过可学习的方式来减少因压缩所带来的重要信息损失程度。

可选地，上述202中“利用训练过的视频分类模型中视觉编码模块，对所述视频帧序列进行特征编码，以得到视觉特征序列”，可采用如下步骤来实现：

2021、利用训练过的视频分类模型中视觉编码模块，对所述视频帧序列中各视频帧进行特征编码，得到各视频帧对应的帧特征序列。

2022、拼接视频帧序列中多个视频帧各自对应的帧特征序列，得到视觉特征序列。

上述2021中，帧特征序列中包括多个元素，每个元素就是一个特征，该特征可以是多维特征。当该特征为多维特征时，帧特征序列的数据形式可以表现为：矩阵[n1,d1]，其中，n1表示帧特征序列中的特征个数或元素个数；d1表示特征的维度。

上述2022中，视觉特征序列的元素个数为视频帧序列中多个视频帧各自对应的帧特征序列的元素个数的总和。

具体地，可按照视频帧序列中多个视频帧的排序信息，拼接视频帧序列中多个视频帧各自对应的帧特征序列，得到视觉特征序列。

可选地，上述202中“利用训练过的视频分类模型中文本编码模块，对所述文本词序列进行特征编码，以得到文本特征序列”，可采用如下步骤来实现：

2023、利用训练过的视频分类模型中文本编码模块，对所述文本词序列中各文本词进行特征编码，以得到各文本词的文本词特征。

2024、拼接文本词序列中多个文本词各自的文本词特性，以得到文本特性序列。

文本特征序列中每一个元素就一个文本词特征。每一个文本词特征可以是多维特征。

其中，文本特征序列的元素个数等于文本词序列中的文本词数量。

具体地，可按照文本词序列中多个文本词的排序信息，拼接文本词序列中多个文本词的文本词特征，得到文本特征序列。

为了进一步降低在降维过程中重要信息的损失程度，可利用可学习的自注意力机制进行降维。可通过设计，使得所述压缩模块具备自注意力机制。具体地，上述103中“利用所述视频分类模型中压缩模块分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列”，可包括：

2031、利用所述压缩模块所具备的自注意力机制，分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列。

自注意力机制的基本原理是：使用一组可学习网络参数，来衡量输入信息的重要性，并将其映射到输出信息，以便它可以自动学习和聚焦在最重要的信息上。

在一种可实现的方案中，上述2031中“利用压缩模块所具备的自注意力机制，分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列”，包括：

S11、根据所述压缩模块所涉及的网络参数，确定查询序列。

其中，所述查询序列的长度小于所述视觉特征序列的长度。

S12、针对所述压缩后视觉特征序列中第一序位的元素，根据所述查询序列中所述第一序位的元素与所述视觉特性序列中每一个元素的相似程度，确定所述视觉特性序列中每一个元素相对于所述压缩后视觉特征序列中所述第一序位的元素的重要程度。

其中，所述第一序列为所述压缩后视觉特征序列中的任意序位。

S13、根据所述视觉特征序列以及所述视觉特性序列中每一个元素相对于所述压缩后视觉特征序列中所述第一序位的元素的重要程度，确定所述压缩后视觉特性序列。

需要说明的是，最终得到的压缩后视觉特征序列的元素个数等于查询序列的元素个数。因此，为了实现压缩，所述查询序列的元素个数必须小于所述视觉特征序列的元素个数。

上述S11中，查询序列可由所述压缩模块所包含的多个网络参数构成。查询序列中的每个元素也可以是多维元素。当该元素为多维特征时，查询序列的数据形式可以表现为：矩阵[n2,d2]，其中，n2表示查询序列中的元素个数；d2表示元素的维度。压缩模块所涉及的多个网络参数在查询序列中所处的位置可在模型训练之前进行配置。

上述步骤S12和S13主要是：根据所述查询序列，对所述视觉特征序列进行自注意力查询，得到压缩后视觉特征序列。

上述S12中，实际应用中，查询序列和视觉特征序列中的每一个元素都是一个多维元素，查询序列和视觉特征序列中的每一个元素的维度相同。那么，每个元素其实可以看成是一个一维向量；任意两个元素之间的相似程度可根据两个元素各自的一维向量的点乘结果来确定。

在自注意力机制中，可确定查询序列对应的查询矩阵；根据视觉特征序列确定第一键矩阵和第一值矩阵；根据查询矩阵和第一键矩阵，确定第一注意力得分矩阵；第一注意力得分矩阵中包含：所述视觉特性序列中每一个元素相对于所述压缩后视觉特征序列中第一序位的元素的重要程度(或称贡献程度)；所述第一序位为所述压缩后视觉特征序列中的任意序位。

对第一注意力得分矩阵进行归一化，得到归一化后的第一注意力得分矩阵；对归一化后的第一注意力得分矩阵与第一值矩阵进行矩阵相乘，得到压缩后视觉特征序列对应的第一目标矩阵。

举例来说：

查询序列的数学表现形式为：[n，d]，其中，n为查询序列的元素个数，d为每个元素的维度；将[n，d]作为自注意力机制中的查询矩阵。

视觉特征序列的数学表现形式为：[N，d]，其中，N为视觉特征序列的元素个数，d为每个元素的维度；将视觉特征序列对应的[N，d]作为自注意力机制中的第一键矩阵和第一值矩阵。n小于N。

将查询矩阵[n，d]与第一键矩阵[N，d]的转置矩阵进行矩阵相乘，得到第一注意力得分矩阵[n，N]，第一注意力得分矩阵[n，N]中记录有：所述视觉特性序列中每一个元素相对于所述压缩后视觉特征序列中第一序位的元素的重要程度(或称贡献程度)；所述第一序位为所述压缩后视觉特征序列中的任意序位。

对第一注意力得分矩阵[n，N]进行归一化处理，得到归一化后的第一注意力得分矩阵[n，N]。

将归一化后的第一注意力得分矩阵[n，N]与第一值矩阵[N，d]进行矩阵相乘，得到压缩后视觉特征序列对应的第一目标矩阵[n，d]。第一矩阵[n，d]中的n代表的是压缩后视觉特征序列的元素个数，d代表的是压缩后视觉特征序列中各元素的维度。

由上述举例可知，压缩后视觉特征序列的元素个数n是小于压缩前视觉特征序列的元素个数N的。

可选地，所述查询序列的长度还小于所述文本特征序列的长度。上述1031中“利用压缩模块所具备的自注意力机制，分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列”，还可包括如下步骤：

S14、针对所述压缩后文本特征序列中第二序位的元素，根据所述查询序列中所述第二序位的元素与所述文本特性序列中每一个元素的相似程度，确定所述文本特性序列中每一个元素相对于所述压缩后文本特征序列中所述第二序位的元素的重要程度。

其中，所述第二序位为所述压缩后文本特征序列中的任意序位。S15、根据所述文本特征序列以及所述文本特性序列中每一个元素相对于所述压缩后文本特征序列中所述第二序位的元素的重要程度，确定所述压缩后文本特性序列。

上述步骤S14和S15主要是：根据所述查询序列，对所述文本特征序列进行自注意力查询，得到压缩后文本特征序列。

实际应用中，查询序列和文本特征序列中的每一个元素都是一个多维元素，查询序列和文本特征序列中的每一个元素的维度相同。那么，每个元素其实可以看成是一个一维向量；任意两个元素之间的相似程度可根据两个元素各自的一维向量的点乘结果来确定。

在自注意力机制中，可确定查询序列对应的查询矩阵；根据文本特征序列确定第二键矩阵和第二值矩阵；根据查询矩阵和第二键矩阵，确定第二注意力得分矩阵；第二注意力得分矩阵中包含：所述文本特性序列中每一个元素相对于所述压缩后文本特征序列中第二序位的元素的重要程度(或称贡献程度)；所述第二序位为所述压缩后文本特征序列中的任意序位。

对第二注意力得分矩阵进行归一化，得到归一化后的第二注意力得分矩阵；对归一化后的第二注意力得分矩阵与第二值矩阵进行矩阵相乘，得到压缩后视觉特征序列对应的第二目标矩阵。

举例来说：

文本特征序列的数学表现形式为：[M，d]，其中，M为文本特征序列的元素个数，d为每个元素的维度；将文本特征序列对应的[M，d]作为自注意力机制中的第二键矩阵和第二值矩阵。n小于M。

将查询矩阵[n，d]与第二键矩阵[M，d]的转置矩阵进行矩阵相乘，得到第二注意力得分矩阵[n，N]，第二注意力得分矩阵[n，M]中记录有：所述文本特性序列中每一个元素相对于所述压缩后文本特征序列中第二序位的元素的重要程度(或称贡献程度)；所述第二序位为所述压缩后文本特征序列中的任意序位。

对第二注意力得分矩阵[n，M]进行归一化处理，得到归一化后的第二注意力得分矩阵[n，M]。

将归一化后的第二注意力得分矩阵[n，M]与第二值矩阵[M，d]进行矩阵相乘，得到压缩后文本特征序列对应的第二目标矩阵[n，d]。第二目标矩阵[n，d]中的n代表的是压缩后文本特征序列的元素个数，d代表的是压缩后文本特征序列中各元素的维度。

由上述举例可知，压缩后文本特征序列的元素个数n是小于压缩前文本特征序列的元素个数M的。

如图3所示，根据可学习的网络参数确定短特征序列(也即上文中的查询序列)，将视觉特征序列或文本特征序列作为长特征序列，根据短特征序列，对长特征序列进行自注意力查询，得到压缩后特征序列。压缩后特征序列的长度与短特征序列的长度一致。

为了提高模型对不同输入的适应程度，使用压缩模块对视频特征序列与文本特征序列进行压缩，压缩后特征序列的长度大大降低，模型在特征融合的消耗也大幅度降低。基于压缩模块的压缩方法相比其它的压缩方法，如最大池化、平均池化，使用了可学习的神经网络进行压缩。可以在最大幅度保留特征的情况下，降低序列特征长度，降低模型的运算成本。

实际应用中，由于压缩模块会对长视频与长文本产生的特征序列通过可学习的自注意力机制进行压缩，此时模型可以接收更多稀疏帧和更长的文本输入，进一步提高性能。

下面将介绍上述视频分类模型的一种模型训练方法。该方法包括：

205、获取训练样本。

其中，所述训练样本中包括：样本视频对应的样本视频帧序列、样本文本词序列以及所述样本视频所属的真实类别。

206、以最小化损失函数为目标，根据所述训练样本，对所述视频分类模型进行训练。

其中，所述损失函数是根据所述视频分类模型输出的分类结果与所述样本视频所属的真实类别之间的差异确定的。

上述205中，样本视频对应的样本视频帧序列以及样本文本词序列的确定过程可参考上述实施例中视频帧序列和文本词序列的确定过程，在此不再详述。

样本视频所属的真实类别，也即真实标签，可有多个。

上述206中，将样本视频帧序列和样本文本词序列输入到视频分类模型中，视频分类模型的内部处理流程可参照上述实施例中相应内容，在此不再详述。视频分类模型最终会输出针对样本视频的分类结果。

根据所述视频分类模型输出的分类结果与所述样本视频所属的真实类别之间的差异确定所述损失函数；以最小化损失函数为目标，对视频分类模型中的网络参数进行优化。

可选地，根据所述训练样本对所述视频分类模型进行训练之前，上述方法，还包括：

207、利用对比语言-图像的预训练方法，初始化所述视觉编码模块中所包含的网络参数。

对比语言-图像的预训练方法(Contrastive Language-Image Pre-Training，CLIP)是基于文本和图像进行的预训练，首先图文是天然的成对样本，在生活中随处可见，比如新闻中的图片和文字，可降低训练数据的获取成本；其次，是基于文本和图像进行的预训练，而不是基于文本和视频进行的预训练，可减少训练过程中的计算资源消耗，还可缩短预训练时长，有利于针对下游任务进行视频打标任务的快速开发。

基于CLIP进行预训练的方法，相比于基于图像进行预训练的方法，更加适合多模态的特征融合。基于CLIP预训练视觉编码模块，该视觉编码模块能够学习到文本的先验知识，这样，后续能够提取到更有效的用于和文本特征进行融合的视觉特征。

可选地，还可对文本编码模块进行预训练。具体地，可对来自变换器的双向编码器表征量(Bidirectional Encoder Representation from Transformers，Bert)模型进行预训练，然后，根据预训练过的Bert模型来初始化文本编码模块。Bert模型预训练不仅可以获取到较好的预训练结果，还具有较低的预训练成本。

预训练后，后续根据上述训练样本对视频分类模型进行微调即可。

为了降低针对下游任务的模型微调压力，可对视觉编码模块和/或文本编码模块进行部分神经网络层的冻结处理：冻结编码模块的底层，微调顶层。在这种冻结策略下模型大多数部分的网络参数不需要进行反向梯度的传播，减少了模型在训练时的显存占用，降低了模型的训练压力。由于编码模块的底层所提取的特征更为抽象与通用，无需调整也可以适应下游任务。只调整与下游任务强相关的顶层。

现有的多模态文本视频方法常常需要对整个模型进行微调，不仅占用大量的显存还破坏了模型原有的预训练权重。部分冻结编码器的策略不仅提高了性能，而且大大减少了计算负担和显存消耗。

可选地，所述视觉编码模块涉及多层神经网络层。上述206中“以最小化损失函数为目标，根据所述训练样本，对所述视频分类模型进行训练”，包括：

2061、冻结所述视觉编码模块涉及的多层神经网络层中的第一部分神经网络层。

2062、以最小化损失函数为目标，根据所述训练样本，对所述视觉编码模块涉及的多层神经网络层中的第二部分神经网络层的网络参数进行微调。

上述2061中，在根据上述训练样本对模型进行训练的过程中，被冻结的神经网络层的网络参数不会被调整。

上述2062中，所述第一部分神经网络层的层级高于所述第二部分神经网络层的层级。第一部分神经网络层的数量和第二部分神经网络层的数量可根据实际需要来设置，本申请实施例对此不作具体限定。

可选地，所述文本编码模块涉及多层神经网络层。上述106中“以最小化损失函数为目标，根据所述训练样本，对所述视频分类模型进行训练”，包括：

2063、冻结所述文本编码模块涉及的多层神经网络层中的第三部分神经网络层。

2064、以最小化损失函数为目标，根据所述训练样本，对所述文本编码模块涉及的多层神经网络层中的第四部分神经网络层的网络参数进行微调。

上述2063中，在根据上述训练样本对模型进行训练的过程中，被冻结的神经网络层的网络参数不会被调整。

上述2064中，所述第三部分神经网络层的层级高于所述第四部分神经网络层的层级。第三部分神经网络层的数量和第四部分神经网络层的数量可根据实际需要来设置，本申请实施例对此不作具体限定。

图4示出了本申请又一实施例提供的模型训练方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、电脑等任意终端设备。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。如图4所示，该方法包括：

401、获取训练样本。

其中，所述训练样本中包括：样本视频对应的视频帧序列、文本词序列以及所述样本视频所属的真实类别。

402、以最小化损失函数为目标，根据所述训练样本，对待训练的视频分类模型进行训练。

其中，所述损失函数是根据所述视频分类模型输出的分类结果与所述样本视频所属的真实类别之间的差异确定的；所述视频分类模型包括：视觉编码模块、文本编码模块、分别与所述视觉编码模块和所述文本编码模块连接的压缩模块以及与所述压缩模块连接的特征融合模块；其中，所述压缩模块中包含多个网络参数；所述网络参数在训练过程中具备可学习的特性。

所述视觉编码模块用于对输入的视频帧序列进行特征编码，以得到视觉特征序列；所述文本编码模块用于对输入的文本词序列进行特征编码，以得到文本特征序列；所述压缩模块用于分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列；所述压缩模块涉及可学习网络参数；所述特征融合模块用于对所述压缩后视觉特征序列和压缩后文本特征序列进行特征融合，以进行分类。

上述步骤401和402的具体实现过程可参见上述各实施例中相应内容，在此不再赘述。

这里需要说明的是：本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述实施例中的相应内容，此处不再赘述。此外，本申请实施例提供的所述方法中除了上述各步骤以外，还可包括上述各实施例中其他部分或全部步骤，具体可参见上述各实施例相应内容，在此不再赘述。

图5示出了本申请一实施例提供的电子设备的结构示意图。如图5所示，所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory，SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable read only memory)，EEPROM)，可擦除可编程只读存储器(Electrical Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable Read Only Memory，PROM)，只读存储器(Read Only Memory，ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述存储器1101，用于存储程序；

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1101中存储的所述程序，以实现上述各方法实施例提供的方法。

进一步，如图5所示，电子设备还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图5中仅示意性给出部分组件，并不意味着电子设备只包括图5所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各方法实施例提供的方法的步骤或功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM(Read Only Memory，只读存储器)/RAM(RandomAccess Memory，随机存取存储器)、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频分类模型，其特征在于，包括：视觉编码模块、文本编码模块、分别与所述视觉编码模块和所述文本编码模块连接的压缩模块以及与所述压缩模块连接的特征融合模块；

其中，所述压缩模块中包含多个网络参数；所述网络参数在训练过程中具备可学习的特性，训练后的所述视频分类模型中压缩模块所包含的网络参数的参数值是在模型训练过程中学习得到的。

2.根据权利要求1所述的模型，其特征在于，所述压缩模块具备自注意力机制。

3.一种视频分类模型的训练方法，其特征在于，包括：

4.一种视频分类方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述压缩模块具备自注意力机制；

利用所述视频分类模型中压缩模块分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列，包括：

利用所述压缩模块所具备的自注意力机制，分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列。

6.根据权利要求5所述的方法，其特征在于，利用压缩模块所具备的自注意力机制，分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列，包括：

根据所述压缩模块所涉及的网络参数，确定查询序列；所述查询序列的长度小于所述视觉特征序列的长度；

针对所述压缩后视觉特征序列中第一序位的元素，根据所述查询序列中所述第一序位的元素与所述视觉特性序列中每一个元素的相似程度，确定所述视觉特性序列中每一个元素相对于所述压缩后视觉特征序列中所述第一序位的元素的重要程度；所述第一序位为所述压缩后视觉特征序列中的任意序位；

根据所述视觉特征序列以及所述视觉特性序列中每一个元素相对于所述压缩后视觉特征序列中所述第一序位的元素的重要程度，确定所述压缩后视觉特性序列。

7.根据权利要求6所述的方法，其特征在于，所述查询序列的长度还小于所述文本特征序列的长度；

利用压缩模块所具备的自注意力机制，分别对所述视觉特征序列和所述文本特征序列进行长度压缩处理，得到压缩后视觉特征序列和压缩后文本特征序列，包括：

针对所述压缩后文本特征序列中第二序位的元素，根据所述查询序列中所述第二序位的元素与所述文本特性序列中每一个元素的相似程度，确定所述文本特性序列中每一个元素相对于所述压缩后文本特征序列中所述第二序位的元素的重要程度；所述第二序位为所述压缩后文本特征序列中的任意序位；

根据所述文本特征序列以及所述文本特性序列中每一个元素相对于所述压缩后文本特征序列中所述第二序位的元素的重要程度，确定所述压缩后文本特性序列。

8.根据权利要求4至7中任一项所述的方法，其特征在于，上述文本词序列可采用如下方式中的一种来确定：

根据所述待分类视频的描述文本信息，生成所述文本词序列；

对所述待分类视频进行光学字符识别，得到所述文本词序列；

对所述待分类视频中的音频进行音频识别，得到所述文本词序列。

9.根据权利要求4至7中任一项所述的方法，其特征在于，还包括：

获取训练样本，所述训练样本中包括：样本视频对应的样本视频帧序列、样本文本词序列以及所述样本视频所属的真实类别；

以最小化损失函数为目标，根据所述训练样本，对所述视频分类模型进行训练；其中，所述损失函数是根据所述视频分类模型输出的分类结果与所述样本视频所属的真实类别之间的差异确定的。

10.根据权利要求9所述的方法，其特征在于，根据所述训练样本对所述视频分类模型进行训练之前，所述方法，还包括：

利用对比语言-图像的预训练方法，初始化所述视觉编码模块中所包含的网络参数。

11.根据权利要求10所述的方法，其特征在于，所述视觉编码模块涉及多层神经网络层；

以最小化损失函数为目标，根据所述训练样本，对所述视频分类模型进行训练，包括：

冻结所述视觉编码模块涉及的多层神经网络层中的第一部分神经网络层；

以最小化损失函数为目标，根据所述训练样本，对所述视觉编码模块涉及的多层神经网络层中的第二部分神经网络层的网络参数进行微调；

所述第一部分神经网络层的层级高于所述第二部分神经网络层的层级。

12.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以实现权利要求3至11中任一项所述的方法。

13.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被计算机执行时能够实现权利要求3至11中任一项所述的方法。