CN117011737A

CN117011737A - 一种视频分类方法、装置、电子设备和存储介质

Info

Publication number: CN117011737A
Application number: CN202210835374.XA
Authority: CN
Inventors: 孟雷; 王雨情; 李象贤; 李雪龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2023-11-07

Abstract

本申请涉及计算机技术领域，尤其涉及一种视频分类方法、装置、电子设备和存储介质，用以提高视频分类的准确性。其中，方法包括：获取待分类视频中各目标视频帧各自的视觉特征，及目标描述信息对应的语义特征；基于语义特征和各视觉特征，确定各目标视频帧的帧选择权重；基于各帧选择权重，在待分类视频中确定关键视频帧，并基于关键视频帧的视觉特征，确定待分类视频的视觉增强特征；采用基于视觉增强特征和语义特征进行特征交互，获得的多模态交互特征，确定待分类视频的类别信息。本申请通过帧选择权重筛选关键视频帧，基于帧选择权重和关键视频帧来生成视觉增强特征，并将视觉增强特征和语义特征进行多模态交互，可有效提高视频分类的准确性。

Description

一种视频分类方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频分类方法、装置、电子设备和存储介质。

背景技术

视频分类是通过分析、理解视频信息，将视频分到事先定义好的类别中去。视频分类是计算机视觉中最基本、最重要的任务之一。它在大量的现实应用中起着关键作用，包括基于视频的搜索，视频推荐，视频标签、标题的生成等等。

一般而言，多模态视频包含视频帧序列、文字描述、音频等多个模态的信息，为了结合各模态信息从而提升对视频的分类效果，相关技术中主要是采用“各模态独立建模+特征拼接”的方式，如分别使用多个单模态的视频分类模型，进行各单模态特征的分别抽取，再将单模态的特征进行拼接、使用线性神经网络学习融合表征。

在上述方式中，在抽取视频特征时，对于视觉模态的独立建模容易引入大量冗余信息和视觉噪声。因而，如何提高多模态视频分类的准确性是亟待解决的。

发明内容

本申请实施例提供一种视频分类方法、装置、电子设备和存储介质，用以提高多模态视频分类的准确性。

本申请实施例提供的一种视频分类方法，包括：

获取待分类视频中各目标视频帧各自的视觉特征，以及所述待分类视频的目标描述信息对应的语义特征；

基于所述语义特征和各视觉特征，确定所述各目标视频帧的帧选择权重；

基于各帧选择权重，在所述待分类视频中确定至少一个关键视频帧，并基于所述至少一个关键视频帧各自的视觉特征，确定所述待分类视频的视觉增强特征；

基于所述视觉增强特征和所述语义特征进行特征交互，获得相应的多模态交互特征，并基于所述多模态交互特征，确定所述待分类视频的类别信息。

本申请实施例提供的一种视频分类装置，包括：

特征抽取单元，用于获取待分类视频中各目标视频帧各自的视觉特征，以及所述待分类视频的目标描述信息对应的语义特征；

权重确定单元，用于基于所述语义特征和各视觉特征，确定所述各目标视频帧的帧选择权重；

视觉增强单元，用于基于各帧选择权重，在所述待分类视频中确定至少一个关键视频帧，并基于所述至少一个关键视频帧各自的视觉特征，确定所述待分类视频的视觉增强特征；

分类单元，用于基于所述视觉增强特征和所述语义特征进行特征交互，获得相应的多模态交互特征，并基于所述多模态交互特征，确定所述待分类视频的类别信息。

可选的，所述分类单元具体用于：

对所述多模态交互特征分别进行视觉迁移处理和语义迁移处理，从所述多模态交互特征中提取出，所述待分类视频的视觉表征特征及语义表征特征；

基于所述视觉表征特征及所述语义表征特征进行类别预测，获得所述待分类视频的类别信息。

可选的，所述分类单元具体用于：

基于所述视觉表征特征对所述待分类视频进行类别预测，获得所述待分类视频分别属于各预设类别的第一概率值；以及，基于所述语义表征特征对所述待分类视频进行类别预测，获得所述待分类视频分别属于所述各预设类别的第二概率值；

基于各第一概率值及各第二概率值，从所述各预设类别中确定所述待分类视频所属的类别信息。

可选的，所述分类单元具体用于：

对于每个预设类别，分别执行以下操作：将一个预设类别对应的第一概率值和第二概率值中的较小值，或者，所述第一概率值和第二概率值的均值，作为所述待分类视频属于所述一个预设类别的预测概率值；

将各预测概率值中，排序结果在指定次序的预测概率值对应的预设类别，作为所述待分类视频所属的类别信息。

可选的，所述权重确定单元具体用于：

基于所述语义特征以及所述各视觉特征进行特征融合，获得与所述语义特征相匹配的上下文特征；

基于注意力机制，从所述上下文特征中获取所述各目标视频帧的语义权重；

执行以下操作中的任意一种：

分别将所述各目标视频帧的语义权重，作为相应的帧选择权重；

基于所述待分类视频的类别相关特征和各视觉特征，确定所述各目标视频帧的视觉权重；分别将同一目标视频帧的语义权重和视觉权重之和，作为相应的帧选择权重。

可选的，所述权重确定单元具体用于：

将所述语义特征经过加权平均和转置后，获得所述待分类视频的辅助语义特征；

将所述各视觉特征与所述辅助语义特征进行特征融合，获得所述上下文特征。

可选的，所述类别相关特征包括：基于将所述各目标视频帧各自的视觉特征经过自学习网络确定的，所述各目标视频帧各自对应的类别相关特征；

所述权重确定单元具体用于：

将所述各目标视频帧各自对应的类别相关特征进行加权平均，获得参考特征；

将所述参考特征分别和所述各视觉特征进行拼接后，对拼接结果进行线性映射处理，获取所述各目标视频帧的视觉权重。

可选的，所述视觉增强单元具体用于：

基于所述各帧选择权重，将所述各目标视频帧中对应的权重值在指定次序范围的视频帧，作为关键视频帧；

基于各关键视频帧各自的视觉特征和对应的权重值进行特征融合，获得所述待分类视频的视觉增强特征。

可选的，所述语义特征和各视觉特征是通过将所述各目标视频帧和所述目标描述信息，分别输入已训练的目标视频分类模型后，基于所述目标视频分类模型中的特征抽取网络获得的；

所述视觉增强特征是通过所述目标视频分类模型中的关键视频帧选择网络，基于所述语义特征和所述各视觉特征确定所述各目标视频帧的帧选择权重后获得的；

所述多模态交互特征是基于所述目标视频分类模型中的多模态交互网络，对所述视觉增强特征和所述语义特征进行特征交互获得的。

可选的，所述装置还包括：

模型训练单元，用于通过下列方式获得所述目标视频分类模型：

基于训练样本集中的训练样本，对待训练的视频分类模型进行循环迭代训练，获得所述目标视频分类模型；每个训练样本包含：样本视频的各第一样本视频帧，所述样本视频的第一样本描述信息和真实类别标签；其中，每次循环迭代训练执行以下步骤：

将所述各第一样本视频帧和所述第一样本描述信息输入所述视频分类模型，分别获得所述各第一样本视频帧的第一样本视觉特征，及所述第一样本描述信息的第一样本语义特征；

采用根据所述第一样本语义特征和各第一样本视觉特征，获得的样本多模态交互特征，确定相应的样本类别信息；

采用基于所述样本类别信息、所述真实类别标签和所述样本多模态交互特征，构建的目标损失函数，对所述视频分类模型进行参数调整。

可选的，所述模型训练单元还用于采用以下方式获得所述样本多模态交互特征：

基于所述第一样本语义特征和各第一样本视觉特征，确定所述各第一样本视频帧的样本帧选择权重；

基于各样本帧选择权重，在所述样本视频中确定至少一个样本关键视频帧，并基于所述至少一个样本关键视频帧的第一样本视觉特征，确定所述样本视频的样本视觉增强特征；

基于所述第二样本视觉增强特征和所述第一样本语义特征进行特征交互，获得所述样本多模态交互特征。

可选的，所述模型训练单元具体用于：

基于所述第一样本语义特征以及所述各第一样本视觉特征进行特征融合，获得与所述第一样本语义特征相匹配的样本上下文特征；

基于注意力机制，从所述样本上下文特征中获取所述各第一样本视频帧的样本语义权重；

获取参考视频中各第二样本视频帧的第二样本视觉特征，并基于各第二样本视觉特征和所述各第一样本视觉特征，确定所述各第一样本视频帧的第一样本视觉权重；所述参考视频与所述样本视频的真实类别标签相同；

分别将同一第一样本视频帧的样本语义权重和第一样本视觉权重之和，作为相应的样本帧选择权重。

可选的，所述模型训练单元具体用于：

将所述各第二样本视觉特征进行加权平均，获得样本参考特征；

将所述样本参考特征分别和所述各第一样本视觉特征进行拼接后，对拼接结果进行线性映射处理，获取所述各第一样本视频帧的第一样本视觉权重。

可选的，所述模型训练单元还用于：

在将所述各第一样本视频帧和所述第一样本描述信息输入所述视频分类模型之前，获取与所述样本视频匹配的参考视频，所述参考视频与所述样本视频的真实类别标签相同；

将所述参考视频的各第二样本视频帧和对应的第二样本描述信息输入所述视频分类模型，获取所述各第二样本视频帧的第二样本视觉特征，及所述第二样本描述信息的第二样本语义特征。

可选的，所述模型训练单元具体用于通过下列方式构建所述目标损失函数：

基于所述样本类别信息与所述真实类别标签之间的差异，构建分类预测损失函数；

基于所述样本视觉表征特征中的目标维度与所述样本语义表征特征中的相应维度之间的差异，确定异构特征对齐损失函数；所述视觉表征特征和所述语义表征特征是通过特征迁移，从所述样本多模态交互特征中提取出的；

基于所述分类预测损失函数和所述异构特征对齐损失函数，构建所述目标损失函数。

可选的，所述模型训练单元具体用于：

基于所述样本视频及与所述样本视频匹配的参考视频之间的差异，确定约束损失函数；所述参考视频与所述样本视频的真实类别标签相同；

基于所述分类预测损失函数，所述异构特征对齐损失函数，以及所述约束损失函数进行加权处理，获得所述目标损失函数。

可选的，所述样本类别信息包括基于所述样本视觉表征特征获得的第一样本类别信息，及基于所述样本语义表征特征获得的第二样本类别信息；

所述模型训练单元具体用于：

基于所述第一样本类别信息与所述真实类别标签之间的差异，确定视觉分类损失函数；以及，基于所述第二样本类别信息与所述真实类别标签之间的差异，确定语义分类损失函数；

基于所述视觉分类损失函数和所述语义分类损失函数，构建所述分类预测损失函数。

可选的，所述约束损失函数包括语义约束损失函数和视觉约束损失函数中的至少一种；所述模型训练单元还用于通过下列方式确定所述约束损失函数：

基于所述第一样本语义特征与第二样本语义特征之间的差异，确定语义约束损失函数；所述第二样本语义特征是基于所述参考视频的第二样本描述信息确定的；

基于所述样本视频中的第一样本约束视频帧对应的第一样本视觉特征，与所述参考视频中的第二样本约束视频帧对应的第二样本视觉特征之间的差异，确定视觉约束损失函数。

可选的，所述模型训练单元还用于通过下列方式确定所述第一样本约束视频帧和所述第二样本约束视频帧：

基于各第一样本视觉权重，在所述样本视频中确定至少一个第一样本约束视频帧；

将所述各第一样本视觉特征进行加权平均，并基于加权平均的结果和所述各第二样本视觉特征，确定所述各第二样本视频帧的第二样本视觉权重；基于各第二样本视觉权重，在所述参考视频中确定至少一个第二样本约束视频帧。本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述任意一种视频分类方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述任意一种视频分类方法的步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行上述任意一种视频分类方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种视频分类方法、装置、电子设备和存储介质。由于本申请通过获取到的视觉特征和语义特征，分析待分类视频中各目标视频帧各自的帧选择权重，通过该权重来进行视频帧筛选，确定待分类视频中的关键视频帧，也即会对视频分类结果产生重要影响的视频帧，以便提升关键视频帧的选择以及重要特征的学习，有效减少冗余信息和视觉噪声；通过关键视频帧和相应帧选择权重，对视觉特征进行增强表示，获得待分类视频的视觉增强特征；进而，将增强表示的视觉增强特征和语义特征进行特征交互，实现不同模态的信息交互和模态间的信息互补，充分利用多模态视频信息，实现对多模态关键信息的抽取与统一表征，提升视频分类精度。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的一种应用场景的一个可选的示意图；

图2为本申请实施例中的一种视频商品定位方法的整体流程图；

图3为本申请实施例中的一种视频分类方法的流程示意图；

图4为本申请实施例中的一种视频帧和描述信息的示意图；

图5为本申请实施例中的一种通过目标视频分类模型确定类别信息的逻辑示意图；

图6为本申请实施例中的一种帧选择权重的确定方法的示意图；

图7为本申请实施例中的一种模型训练方法的流程示意图；

图8为本申请实施例中的一种视频分类模型的示意图；

图9为本申请实施例中的一种关键帧选择机制的示意图；

图10为本申请实施例中的另一种模型训练方法的流程示意图；

图11为本申请实施例中的又一种视频分类模型的示意图；

图12为本申请实施例中的一种对待分类视频进行分类的方法的流程图；

图13A为本申请实施例中的第一种视觉和文本信息表征的示意图；

图13B为本申请实施例中的第二种视觉和文本信息表征的示意图；

图13C为本申请实施例中的第三种视觉和文本信息表征的示意图；

图14为本申请实施例中的一种视频分类装置的组成结构示意图；

图15为本申请实施例中的一种电子设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

多模态视频和异构特征：包含图像序列、音频、描述文本等多类信息的视频数据。异构特征是指因提取自于不同模态而在取值分布等方面存在差异的特征。在本申请实施例中的视频可包含多模态的视频数据，各模态对应的特征在取值分布等方面则会存在一定的差异，如视觉特征和语义特征，这两个特征取自不同的模态，属于异构特征。

注意力机制：是一种使神经网络选择关注输入子集的相关方法，注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。

正样本：指与目标样本的特定属性具有一致性的样本。在本申请实施例中，一个原始样本与其对应的正样本在视频分类结果上具有一致性，即属于同一种视频类别，相应的真实类别标签也就相同。其中，视频分类指按照种类、等级或性质将样本分别归类，在本申请实施例中，真实类别标签则用于表征样本所属的视频类别的，如本申请对应的几种预设类别分别为：视频、游戏、教育，真实类别标签可用三位二进制数表示，如表示为010，即对应的预设类别为游戏，又如表示为001，即对应的预设类别为教育，等等。

帧选择权重：一种可用于表征视频帧对视频分类结果贡献的权重值，如一个视频帧对应的帧选择权重越大，即表明该视频帧对应视频分类结果的影响越大，反之，一个视频帧对应的帧选择权重越小，即表明该视频帧对应视频分类结果的影响越小。在本申请实施例中，帧选择权重可随机设置，可基于注意力机制确定，也可通过层次化的因果推理来确定，等等。

视觉增强特征：本申请中的视觉增强特征是指，在视频中各视频帧抽取得到的视觉特征的基础上，将其中的关键视频帧的视觉特征，进行视觉增强表示而获得的特征，该过程中涉及到冗余信息和视觉噪声的去除，因而，基于增强表示得到的视觉增强特征，可有效提升视频分类精度。

本申请实施例涉及人工智能(Artificial Intelligence，AI)、自然语言处理(Nature Language processing，NLP)和机器学习技术(Machine Learning，ML)，基于人工智能中的计算机视觉技术和机器学习而设计。

人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例中的视频分类方法可应用到视频搜索、视频推荐等领域，将人工智能与这些领域中的视频分类相结合，可以实现准确的多模态视频智能分类。

并且，在对视频分类过程中，需要获取待分类视频中的各目标视频帧，及该待分类视频对应的目标描述信息，并将这些数据输入已训练好的目标视频分类模型，基于目标视频分类模型来对待分类视频进行类别预测。

此外，本申请实施例中的目标视频分类模型就是采用机器学习或深度学习技术训练得到的。基于上述技术训练得到目标视频分类模型后，即可应用该目标视频分类模型实现多模态视频的智能分类，以有效提高视频分类的准确性。

下面对本申请实施例的设计思想进行简要介绍：

随着互联网技术的迅速发展，各式各样的视频也开始出现，视频已经在互联网上变得无处不在，越来越多的对象难以立即从大量的视频中，找到自身喜欢的视频。因而，如何缩小对象选择视频的范围，以便于对象快速查找喜欢的视频是十分重要的。

一种用于缩小对象选择的方法为：在特定的分类区域内寻找视频。传统的视频分类算法普遍采用简单场景下的行为识别。随着短视频时代的到来，每分钟都会有大量的视频被上传到视频网站，视频内容丰富且场景复杂。相关的视频分析的方法通常通过从连续帧中提取特征，然后随着时间汇总的特征表示视频。由于视频内容的多样化，复杂场景下的视频帧的冗余对预测结果有着较大的影响，因此，亟需鲁棒的关键视频帧选择方法对多模态视频进行分类。

视频分类可以简要描述为视频级别和帧级别上预先提取的视频和视觉功能，希望为它们分配正确的视频级标签。然而，这项任务比图片分类更困难。视频由一系列视频帧和音频数据组成，使得视频特征的数量较大，随着特征数量的增加，模型的训练难度增加。其次，数据冗余广泛在视频数据中，连续帧之间存在较小的差异，且同一视频之间的场景差异大，但是很少的标签附加到一个视频。

在相关技术中，常见的多模态视频分类方法有多模态融合和多图像帧处理的方法，然而，这些方法都缺乏对视频中的关键视频帧的选择的显示约束以及对不同模态语义信息的抽取与协同学习，引入冗余信息，会造成算法在模型拟合与特征融合上的偏差，导致场景泛化能力弱。此外，异构模态特征通常具有不同的值域和分布，因此直接使用神经网络进行特征融合会造成特征加权融合上的偏差。

因而，如何借助方法来选择关键视频帧以及解决异构模态特征融合所带来的偏差是一个亟待解决的问题。

有鉴于此，本申请实施例提出了一种视频分类方法、装置、电子设备和存储介质。由于本申请通过获取到的视觉特征和语义特征，分析待分类视频中各目标视频帧各自的帧选择权重，通过该权重来进行视频帧筛选，确定待分类视频中的关键视频帧，也即会对视频分类结果产生重要影响的视频帧，以便提升关键视频帧的选择以及重要特征的学习，有效减少冗余信息和视觉噪声；通过关键视频帧和相应帧选择权重，对视觉特征进行增强表示，获得待分类视频的视觉增强特征；进而，将增强表示的视觉增强特征和语义特征进行特征交互，实现不同模态的信息交互和模态间的信息互补，充分利用多模态视频信息，实现对多模态关键信息的抽取与统一表征，提升视频分类精度。

此外，本申请实施例中的视频分类方法可基于通过机器学习获得的目标视频分类模型来实施，该目标视频分类模型在模型训练过程中，通过结合部分异构特征对齐的损失函数，对模型参数进行调整，基于此获得的目标视频分类模型可有效解决异构模态特征融合所带来的偏差，进一步提高视频分类精度。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。

在本申请实施例中，终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备；终端设备上可以安装有视频分类相关的客户端，该客户端可以是软件(例如浏览器、视频软件等)，也可以是网页、小程序等，服务器120则是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行视频分类的服务器，本申请不做具体限定。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请各实施例中的视频分类方法可以由电子设备执行，该电子设备可以为终端设备110或者服务器120，即，该方法可以由终端设备110或者服务器120单独执行，也可以由终端设备110和服务器120共同执行。比如由终端设备110和服务器120共同执行时，例如终端设备110将待分类视频中的各目标视频帧，及对应的目标描述信息发送给服务器120，由服务器120获取相应的视觉特征、语义特征，并语义特征和各视觉特征，确定各目标视频帧的帧选择权重；进而，基于帧选择权重确定待分类视频中的关键视频帧，去除冗余信息，并基于关键视频帧的视觉特征和相应的帧选择权重，生成视觉增强特征；之后，服务器120基于对视觉增强特征和语义特征进行特征交互获得的多模态交互特征，对待分类视频进行分类预测，获得相应的类别信息。最后，服务器120可将获得的类别信息反馈给终端设备110，由终端设备110基于类别信息展示待分类视频，或者向对象进行视频推荐等。

在一种可选的实施方式中，终端设备110与服务器120之间可以通过通信网络进行通信。

在一种可选的实施方式中，通信网络是有线网络或无线网络。

需要说明的是，图1所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

本申请实施例中，当服务器的数量为多个时，多个服务器可组成为一区块链，而服务器为区块链上的节点；如本申请实施例所公开的视频分类方法，其中所涉及的视频数据及相关特征、类别信息等都可保存于区块链上，例如，待分类视频中的目标视频帧、目标描述信息，又如样本视频中的第一样本视频帧、第一样本描述信息等。

需要说明的是，本申请实施例中的视频分类方法可应用于各种下游任务，如视频搜索、视频推荐、目标检测、场景图生成、光流追踪、商品定位等等。

参阅图2，其为基于本申请实施例中的视频分类方法提出了一种视频商品定位方法的整体流程图。该方法主要是通过对多模态视频帧和商品的相似度计算，实现匹配商品的搜索，最终输出商品排序，并标注显示搜索到的商品的商品ID和商品目标框，如图2中所示。

具体地，通过结合搜索模型中的目标视频分类模型提取视频关键区域，接收视频帧及语音文本特征输入，经过目标视频分类模型自动学习关键视频帧的选择及重要特征的提取，在此基础上可以准确检测到视频中的目标商品；进而，结合商品数据包含的各商品的图像及对应的标题文本特征中，通过相似度计算的方式，匹配出与输入视频中目标商品对应的商品，以输出更准确的商品分类的预测。

本申请在应用于视频商品定位时，采用了已训练好的目标视频分类模型，基于该模型，通过层次化的因果推理(研究因果关系及其推理规则的一类方法)对视觉特征进行增强表示，有效提升识别准确性。进一步地，本申请在训练视频分类模型时使用异构模态对齐和对比学习机制，基于此训练得到的目标分类模型，可有效提升多模态推理时模态间的互补作用，强化了异构特征的融合效果(下文会对模型训练的过程进行详细说明)。基于此，可有效提高视频分类的准确性，以进一步提高视频商品定位的准确性。

此外，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的视频分类方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图3所示，为本申请实施例提供的一种视频分类方法的实施流程图，以服务器为执行主体为例，该方法的具体实施流程如下：

S31：服务器获取待分类视频中各目标视频帧各自的视觉特征，以及待分类视频的目标描述信息对应的语义特征。

其中，目标视频帧可以是待分类视频中的任意视频帧，也可以是一段时间内的视频帧，或者是包含目标对象的视频帧等。可选的，目标视频帧的数量为m。

目标描述信息则是指待分类视频的语义描述，可以是视频的文本描述(如视频标题)，或者是视频的音频描述等。其中，音频描述需要通过语音识别等方法转换为文本信息，再进行语义特征的提取。可选的，目标描述信息中分词的数量也为m。其中，对视频的语义描述进行分词后，若分词的数量超过m，则可以进行筛选，如去除一些无意义的语气词，对整体描述的语义影响很小的分词等；若分词数量不足m，也可以通过一些无意义字符等进行补齐等，本文不做具体限定。

如图4所示，其为本申请实施例中所列举的一种视频帧和描述信息的示意图。图4仅列举了一帧目标视频帧，实际上待分类视频是一个包含很多视频帧的帧序列，这个帧中的部分或全部视频帧，都可作为目标视频帧。该视频的标题即可作为目标描述信息，如“有一只狗和一只猫在分享食物”。

需要说明的是，该标题可以是任意语言，可以包含任意字符，如英文字母、数字、汉字等等，本文不做具体限定。

此外，本申请实施例中的视频分类方法可通过机器学习的方式实现，参阅图5所示，其为本申请实施例中的一种通过目标视频分类模型确定类别信息的逻辑示意图，具体地，可基于该目标视频分类模型执行本申请实施例中的任意一种视频分类方法的步骤，如基于目标视频分类模型来进行语义特征和各视觉特征的提取时，一种可选的实施方式为，将各目标视频帧和目标描述信息，分别输入已训练的目标视频分类模型后，基于目标视频分类模型中的特征抽取网络进行特征提取得到。如图5所示，其中，目标视频分类模型中的特征抽取网络分为两部分：视觉特征提取部分和语义特征提取部分。这两部分可各自对应一个预训练大模型(ViLT)，也称预训练网络，即在不同的预训练网络中提取各目标视频帧的视觉特征和目标描述信息的语义特征，其中目标描述信息的语义特征具体可以包括该目标描述信息中各分词个词的语义特征。

S32：服务器基于语义特征和各视觉特征，确定各目标视频帧的帧选择权重。

在本申请实施例中，为了更好的从视频中选择关键视频帧(简称关键帧)，需要建立关键帧选择机制，本申请实施例中所建立的关键帧选择机制，主要是基于语义特征和视觉特征来实现的，该过程中需要结合上述特征，分别计算各目标视频帧的帧选择权重，也称因果帧权重，若一个视频帧对应的该权重值越大，表征该视频帧对于视频分类结果的影响越大，因而，可基于该权重值从各目标视频帧中，筛选出关键视频帧。

可选的，在S32中确定帧选择权重的方式包括但不限于以下两种：

确定方式一、首先，基于语义特征以及各视觉特征进行特征融合，获得与语义特征相匹配的上下文特征；进而，基于注意力机制，从上下文特征中获取各目标视频帧的语义权重；分别将各目标视频帧的语义权重，作为相应的帧选择权重。

该方式是基于注意力机制的方式来计算帧选择权重的，具体地：将语义特征以及各视觉特征进行特征融合，获得融合后的结果，并作为上下文特征(也称上下文向量，context vector)。进而，基于注意力机制，从context vector输学习各目标视频帧对于视频分类的重要性，以获得各目标视频帧对应的权重，该权重具体是通过语义信息学习得到的，可称作语义权重。

如图6所示，其为本申请实施例中的一种帧选择权重的确定方法的示意图。在该方式中，可直接将各目标视频帧的语义权重，作为相应的帧选择权重，如将语义的上下文向量输入到注意力机制模块得到语义因果帧加权权重(简称语义权重)，并将各目标视频帧的语义权重作为相应帧的帧选择权重。

可选的，在确定上下文特征时，可首先将语义特征经过加权平均和转置后，获得待分类视频的辅助语义特征；进而，将各视觉特征与辅助语义特征进行特征融合，获得该上下文特征。

如：待分类视频的语义特征是由m个语义向量所组成的矩阵，通过将这m个语义向量加权平均后，将加权平均获得的结果进行转置，得到待分类视频的辅助语义特征。

进而，在将待分类视频的视觉特征，与上述获得的辅助语义特征进行特征融合时，具体方式为，将待分类视频的视觉特征与辅助语义特征经过BMM运算得到上下文特征(也称上下文向量)。其中，待分类视频的视觉特征同语义特征类似，是由各目标视频帧(共m个视频帧)的视觉特征(也称视觉向量)组成的矩阵。BMM运算是一种特殊的张量乘法运算，也即矩阵相乘运算，通过矩阵相乘实现特征融合。

例如m＝50，通过确定方式一计算得到待分类视频中的这50个目标视频帧各自的语义权重，分别记作w_1-1，w_1-2，w_1-3，w_1-4，w_1-5，w_1-6，w_1-7，w_1-8，w_1-9，w_1-10，…，w_1-50，则相应的帧选择权重也为：w_1-1，w_1-2，w_1-3，w_1-4，w_1-5，w_1-6，w_1-7，w_1-8，w_1-9，w_1-10，…，w_1-50。

确定方式二、基于语义特征以及各视觉特征进行特征融合，获得与语义特征相匹配的上下文特征；基于注意力机制，从上下文特征中获取各目标视频帧的语义权重；基于待分类视频的类别相关特征和各视觉特征，确定各目标视频帧的视觉权重；分别将同一目标视频帧的语义权重和视觉权重之和，作为相应的帧选择权重。

与确定方式一不同的是，该方式下并非是仅基于注意力机制来确定帧选择权重，该过程中进一步结合了基于视觉信息的因果帧选择。该方式下的关键帧选择机制，是基于两层的因果推理方法来对视频中的关键视频帧的显式约束，即从视频帧级别的帧选择权重的选择和视频内容级别的因果特征学习，实现视频因果特征的学习。其中，在本申请实施例中的视频分类任务下，因果帧则是指对视频分类结果产生影响的视频帧，因果特征相类似，指对视频分类结果产生影响的特征。

仍如图6所示，该方式下的帧选择权重分为两部分，一部分是视觉因果帧加权，即本文中的视觉权重，该权重是基于待分类视频的类别相关特征和各视觉特征确定的，其中，待分类视频的类别相关特征是一种可以表征待分类视频的视频类别的特征；一部分是语义因果帧加权，即本文中的语义权重，该权重的具体计算方式可参见确定方式一，重复之处不再赘述。

下面对视觉权重的计算过程进行详细介绍，具体操作如下：

一种可选的实施方式为，待分类视频的类别相关特征可通过自学习的方式得到，具体地：将各目标视频帧各自的视觉特征经过自学习网络中的自学习向量进行学习，即可获得待分类视频对应的类别相关特征，该视频的类别相关特征是一个由m个向量组成的矩阵，即由各目标视频帧各自对应的类别相关特征所组成的。

在此基础上，在计算各目标视频帧的视觉权重时，首先将各目标视频帧各自对应的类别相关特征进行加权平均，获得参考特征；进而，将参考特征分别和各视觉特征进行拼接后，对拼接结果进行线性映射处理，获取各目标视频帧的视觉权重。

具体地，利用各目标视频帧的类别相关特征，在帧级别的加权得到参考特征，并将该参考特征复制为m份，分别和各目标视频帧各自的视觉特征进行拼接后，可得到m个拼接向量，再将这m个拼接向量经过线性映射层进行线性映射处理后，经过激活函数(softmax)归一化，最终得到各目标视频帧各自的视觉权重。

在确定方式二中，因果帧选择的选择除了利用类别相关特征指导的视觉因果帧加权之外，为了进一步约束关键视频帧，还可采用语义因果帧加权指导帧选择权重的选择。其中，语义约束关键视频帧采用融合注意力机制的语义信息进行关键视频帧选择，具体操作可参见确定方式一，重复之处不再赘述。

例如m＝50，通过同样的方式计算得到待分类视频中的这50个目标视频帧各自的语义权重，分别记作w_1-1，w_1-2，w_1-3，w_1-4，w_1-5，w_1-6，w_1-7，w_1-8，w_1-9，w_1-10，…，w_1-50；通过上述确定方式二计算得到这50个目标视频帧各自的视觉权重，分别记作w_2-1，w_2-2，w_2-3，w_2-4，w_2-5，w_2-6，w_2-7，w_2-8，w_2-9，w_2-10，…，w_2-50，则相应的帧选择权重分别为：w_1-1+w_2-1，w_1-2+w_2-2，w_1-3+w_2-3，w_1-4+w_2-4，w_1-5+w_2-5，w_1-6+w_2-6，w_1-7+w_2-7，w_1-8+w_2-8，w_1-9+w_2-9，w_1-10+w_2-10，…，w_1-50+w_2-50。

需要说明的是，除了上述所列举的两种帧选择的确定方式之外，还可随机选择，即随机确定各目标视频帧各自对应的权重值，从而基于帧选择权重生成视觉增强特征等等，本文不做具体限定。

S33：服务器基于各帧选择权重，在待分类视频中确定至少一个关键视频帧，并基于至少一个关键视频帧各自的视觉特征，确定待分类视频的视觉增强特征。

在本申请实施例中，利用上述任意一种方法确定各目标视频帧各自的帧选择权重后，即可根据各权重值，从待分类视频中筛选出至少一个目标视频帧，作为关键视频帧，而去除其他视频帧，以减少信息冗余。

一种可选的关键视频帧筛选方式为：基于各帧选择权重，将各目标视频帧中对应的权重值在指定次序范围的视频帧，作为关键视频帧。

其中，指定次序范围是指将参数按照权重值大小排序时，指定的一种排序结果的次序范围，这里的参数是指各帧选择权重，即将各个帧选择权重按照权重值大小排序，如由大到小排序时次序在前k个(即top k)，又如由小到大排序时次序在后k个等，本文不做具体限定。

同理，下文中的指定次序也是类似的，指定的一种排序结果的次序，如排序第一。

仍以m＝50为例，将这50个目标视频帧按照各自对应的帧选择权重由大到小进行排序，选取top k个作为关键视频帧，例如k＝10，也即从这50个目标视频帧中，选取对应的帧选择权重最大的10个目标视频帧，作为关键视频帧。

在筛选得到关键视频帧的基础上，可基于各关键视频帧各自的视觉特征和对应的权重值进行特征融合，获得待分类视频的视觉增强特征。

具体地，将top k个帧选择权重组成的矩阵，和对应的top k个关键视频帧的视觉特征组成的矩阵，通过点乘的方式进行特征融合，将最终结果作为该待分类视频的视觉增强特征。

基于上述实施方式，可以实现同类别视频内容上的对齐，学习统一的视觉表征，得到视频的因果帧选择的因果特征，实现对视频中的关键视频帧选择的显式约束。

可选的，也可通过机器学习的方式来实施该步骤，如基于目标视频分类模型来获取视觉增强特征时，如图5所示，首先需要通过目标视频分类模型中的关键视频帧选择网络，确定各目标视频帧的帧选择权重，进而结合帧选择权重，将各关键视频帧各自的视觉特征和对应的权重值进行特征融合，获得待分类视频的视觉增强特征。其中，通过关键视频帧选择网络来确定帧选择权重的方式也可参考上述所列举的任意一种确定方法，在此不再重复赘述。

S34：服务器基于视觉增强特征和语义特征进行特征交互，获得相应的多模态交互特征，并基于多模态交互特征，确定待分类视频的类别信息。

在本申请实施例中，采用多模态信息交互的方式，将异构模态之间的特征进行交互，降低异构特征之间的差异，得到多模态交互特征。进而，基于多模态交互特征，进行类别预测，获得待分类视频的视频分类结果。

可选的，基于目标视频分类模型来获取类别信息时，可基于下游任务迁移，将多模态交互特征迁移得到视觉迁移表征和语义迁移表征，进而，对表征进行类别预测，并计算视频分类的结果。一种可选的实施方式为，通过下列方式确定待分类视频的类别信息：

首先，对多模态交互特征分别进行视觉迁移处理和语义迁移处理，从多模态交互特征中提取出，待分类视频的视觉表征特征及语义表征特征；进而，基于视觉表征特征及语义表征特征进行类别预测，获得待分类视频的类别信息。

例如，将多模态交互特征经过交互特征映射之后，再经过多头注意力机制的运算得到的E_vs，然后从中切分出交互后的视觉特征E_v和交互后的语义特征E_s，经过视觉感知映射聚合内容表示信息并生成视觉表征特征F_vt，经过语义信息映射/>聚合内容表示信息并生成语义表征特征F_st，从而实现对细粒度异构特征的抽取。

基于上述实施方式，可以将视觉感知映射和语义感知映射到不同的特征空间，实现了多模态交互特征面向下游任务增强的交互特征过滤。

可选的，基于视觉表征特征和语义表征特征，进行类别预测时的过程如下：

首先，基于视觉表征特征对待分类视频进行类别预测，获得待分类视频分别属于各预设类别的第一概率值；以及，基于语义表征特征对待分类视频进行类别预测，获得待分类视频分别属于各预设类别的第二概率值；

进而，基于各第一概率值及各第二概率值，从各预设类别中确定待分类视频所属的类别信息。

如一共有3个预设类别，分别为：游戏、体育、教育。其中，基于视觉表征特征确定的各第一概率值为：游戏0.3，体育0.5，教育0.2；基于语义表征特征确定的各第二概率值为：游戏0.25，体育0.55，教育0.2。

进而，基于上述各第一概率值和各第二概率值，即可从各预设类别中确定待分类视频所属的预设类别。

可选的，由于上述过程中分别基于视觉表征特征和语义表征特征，进行了类别预测，并分别获得了相应的预测结果，即各第一概率值及各第二概率值，在此基础上，预测待分类视频的类别信息时，包括但不限于以下方式：

预测方式一、对于每个预设类别，将该预设类别对应的第一概率值和第二概率值的均值，作为待分类视频属于该预设类别的预测概率值；进而，将各预测概率值中，排序结果在指定次序的预测概率值对应的预设类别，作为待分类视频所属的类别信息。

如上述所列举的三个预设类别，对于游戏，该类别对应的预测概率值即为0.3和0.25的均值，即0.275；以此类推，体育对应的预测概率值即为0.525，教育对应的预测概率值即为0.2。进而，将这些预测概率值按照由大到小的顺序排序，假设指定次序为Top1，则可将0.525对应的预设类别：体育，作为该待分类视频的所属的类别。

预测方式二、对于每个预设类别，将该预设类别对应的第一概率值和第二概率值中的较小值，作为待分类视频属于该预设类别的预测概率值；进而，将各预测概率值中，排序结果在指定次序的预测概率值对应的预设类别，作为待分类视频所属的类别信息。

如上述所列举的三个预设类别，对于游戏，该类别对应的预测概率值即为0.3和0.25中的较小值，即0.25；以此类推，体育对应的预测概率值即为0.5，教育对应的预测概率值即为0.2。进而，将这些预测概率值按照由大到小的顺序排序，假设指定次序为Top1，则可将0.5对应的预设类别：体育，作为该待分类视频的所属的类别。

需要说明的是，上述所列举的预设类别只是简单的举例说明，任何一种预设类别都适用于本申请实施例。其中，这些预设类别可以是粗粒度的，如上述所列举的游戏、体育、教育、直播等，也可以是细粒度的，如游戏直播、带货直播、在线教育直播等，本申请不做具体限定，具体根据实际需求而定。

可选的，也可通过机器学习的方式来实施该步骤，如基于目标视频分类模型来获取多模态交互特征时，如图5所示，基于目标视频分类模型中的多模态交互网络，对视觉增强特征和语义特征进行特征交互，获得多模态交互特征，进而，基于该多模态交互特征来进行类别预测，获得最终的类别信息。

下面对本申请实施例中的模型训练过程进行详细介绍：

一种可选的实施方式为，可基于训练样本集中的训练样本，对待训练的视频分类模型进行循环迭代训练，获得目标视频分类模型；其中，每个训练样本包含：样本视频的各第一样本视频帧，样本视频的第一样本描述信息和真实类别标签。

例如，对于给定数据集其中v_i表示的是第i个视频信息，即视频帧，s_i表示的是第i个语义描述，可以是文本描述、音频描述等。其中，其中的类别标签/>中设置有M个预设类别，c_i是这M个预设类别中的一种。

基于上述构建训练样本集，该训练样本集中的每个训练样本都包含一个样本视频，该样本视频对应有多个第一样本视频帧(简称视频信息/>)，和对应的第一描述信息/> (简称语义描述/>)，对应的真实类别标签c_i。其中，s_i可表示该样本视频对应的第一描述信息中的第i个分词。

参阅图7所示，其为本申请实施例中的一种模型训练方法的流程示意图，每次循环迭代训练执行以下步骤：

S70：获取与样本视频匹配的参考视频。

其中，该参考视频与样本视频的真实类别标签相同，也即参考视频和样本视频属于同一类别。

需要说明的是，本申请实施例中的参考视频也可称作是正样本视频。对于一个样本视频，真实类别标签为c_i，可采用正样本匹配操作分别为视频/>和语义描述/>匹配正样本/>和/>

其中，和/>即为正样本视频的视频信息(即各第二样本视频帧)和语义描述(即第二样本描述信息)。

S71：将各第一样本视频帧和第一样本描述信息输入视频分类模型，分别获得各第一样本视频帧的第一样本视觉特征，及第一样本描述信息的第一样本语义特征；将参考视频的各第二样本视频帧和对应的第二样本描述信息输入视频分类模型，获取各第二样本视频帧的第二样本视觉特征，及第二样本描述信息的第二样本语义特征。

也即，在步骤S71中，不仅需要将样本视频的各第一样本视频帧和对应的第一样本描述信息输入待训练的视频分类模型，同时，还可将与该样本视频的各第二样本视频帧和对应的第二样本描述信息也输入待训练的视频分类模型。

参阅图8所示，其为本申请实施例中的一种视频分类模型的示意图，该模型是一种基于层次化因果推理的多模态视频分类模型，包含四个技术模块，分别为：特征抽取模块，层次化因果推理模块，因果特征学习模块，多模态信息交互模块。其中，特征抽取模块即为图5所示的目标视频分类模型中的特征抽取网络，层次化因果推理模块和因果特征学习模块组合，即相当于该目标视频分类模型中的关键视频帧选择网络，多模态信息交互模块即为目标视频分类模型中的多模态交互网络。

具体地，通过正样本匹配输入视频的视觉和语义信息，在特征抽取模块，抽取视频的视觉特征和语义特征。

如图8所示，基于特征抽取模块，分别从视频和语义描述/>中提取视觉特征(即各第一样本视频帧的第一样本视觉特征)及语义特征/>(即各第一样本描述信息的第一样本语义特征)，其中/>和/>分别表示视觉特征提取部分和语义特征提取部分的一种预训练大模型(Vision-and-Language Transformer，ViLT)。此外，还可同时得到正样本视频对应的视觉特征/>(即各第二样本视频帧的第二样本视觉特征)及语义特征/>(即各第二样本描述信息的第二样本语义特征)。

在语义特征中，可采用语义对比学习约束样本视频的第一样本语义特征F_s(即)与正样本视频的第二样本语义特征即基于第一样本语义特征与第二样本语义特征之间的差异，确定语义约束损失函数，具体定义如下：

其中，是对比学习中的infoNEC损失函数。通过优化损失函数最大化正样本的互补信息，使样本在特征空间不断靠近，负样本则不断远离。/>即为本申请实施例中的语义约束损失函数。该语义约束损失函数可用于步骤S73中目标损失函数的构建。

S72：采用根据第一样本语义特征和各第一样本视觉特征，获得的样本多模态交互特征，确定相应的样本类别信息。

需要说明的是，步骤S72的具体实现方式，同上述图3中的步骤S32-S33的过程类似，上述图3是指模型应用阶段，使用目标视频分类模型预测待分类视频所属的视频类别的过程。而S72则是对模型训练阶段，使用待训练的视频分类模型预测样本视频所属的视频类别的概括。

具体地，S72基于层次化因果推理模块、因果特征学习模块和多模态信息交互模块来实现：

在层次化因果推理模块，分为因果帧权重选择(即帧选择权重选择)和因果特征学习两部分。在因果帧权重选择部分，通过对视频帧的共同出现概率的再加权机制，同时采用语义融合视觉信息的注意力机制对视频帧选择权重加权指导，用得到视频的因果帧来衡量视频中的每一帧的重要性，初步过滤低质量的视频帧；在因果特征学习模块，通过利用同类别视频的特征内容上的对齐，学习样本统一的视觉表征，得到视频的因果帧选择的因果特征，实现对视频中的关键帧选择的显式约束。

进而，在多模态信息交互模块中，将异构模态之间的特征进行交互，降低异构特征之间的差异，得到多模态交互特征。在下游任务迁移中将多模态交互特征迁移得到视觉迁移表征和语义迁移表征，对表征进行类别预测，并计算视频分类的结果。

下面对层次化因果推理模块和因果特征学习模块(这两个模块即关键视频帧选择网络)的具体内容进行详细介绍：

一种可选的实施方式为，S72包括以下子步骤S721-S724：

S721：基于第一样本语义特征和各第一样本视觉特征，确定各第一样本视频帧的样本帧选择权重。

在该步骤中，帧选择权重选择分为两部分，一部分是视觉因果帧加权，即样本视觉权重，一部分是语义因果帧加权，即样本语义权重。一种可选的实施方式为，步骤S721的计算方式同上述所列举的待分类视频中各目标视频帧的帧选择权重的确定方式二的计算过程相似，具体也可分为如下子步骤Sa-Sd(图7中未示出)，即在因果帧权重选择部分可通过如下方式确定样本视频中各第一视频帧的帧选择权重(也即因果帧权重)：

Sa.基于第一样本语义特征以及各第一样本视觉特征进行特征融合，获得与第一样本语义特征相匹配的样本上下文特征。

具体地，样本上下文特征的计算方式同待分类视频的上下文特征的计算方式相类似，下文会进行详细说明。

Sb.基于注意力机制，从样本上下文特征中获取各第一样本视频帧的样本语义权重。

其中，步骤Sa-Sb同上述所列举的目标视频帧对应的权重计算过程类似，重复之处不再赘述。不同之处在于步骤Sc，在模型训练过程中，每一个样本视频都有一个与其匹配的，同类别的正样本视频，也即参考视频，因而样本视频对应的参考特征是基于参考视频确定的，无需经过自学习，具体过程如下：

Sc.获取参考视频中各第二样本视频帧的第二样本视觉特征，并基于各第二样本视觉特征和各第一样本视觉特征，确定各第一样本视频帧的第一样本视觉权重。

也即，基于参考视频中各第二样本视频帧的第二样本视觉特征来确定样本参考特征，进而，基于样本参考特征和各第一样本视觉特征，来获取各第一样本视频帧的第一样本视觉权重。

对于步骤Sc，一种可选的实施方式为，步骤Sc又可划分以下子步骤：

Sc1：将各第二样本视觉特征进行加权平均，获得样本参考特征。

Sc2：将样本参考特征分别和各第一样本视觉特征进行拼接后，对拼接结果进行线性映射处理，获取各第一样本视频帧的第一样本视觉权重。

Sd.分别将同一第一样本视频帧的样本语义权重和第一样本视觉权重之和，作为相应的样本帧选择权重。

下面以一个原始样本和其对应的正样本为例，对步骤Sa-Sd的计算过程进行具体说明：

如图8所示，从特征抽取模块得到原始样本的第一样本视觉特征F_v＝{v_i|i＝1,…,m}和对应正样本的第二样本视觉特征其中，一个v_i即一个第一样本视觉特征，一个/>即一个第二样本视觉特征，进而，在步骤Sc1，利用正样本的第二样本视觉特征/>在帧级别的加权得到正样本中每个视频帧的权值，并扩展到与帧对应的维度，得到正样本加权之后的视觉特征/>记作样本参考特征/>

然后，在步骤Sc2，将分别和第一样本视觉特征F_v的最后一个维度拼接在一起，使得每一帧都包含原始样本和正样本加权之后的视觉特征，也即将样本参考特征分别和各第一样本视觉特征进行拼接所得到的拼接结果；再经过线性映射层对该拼接结果进行线性映射处理，从而得到第一样本视觉特征F_v根据正样本得到的第一样本视觉权重w_v，具体定义如下：

其中，G(.,.)表示将两个输入的特征的最后一个维度进行拼接，然后经过线性映射层，并经过softmax归一化，最终得到该原始样本的第一样本视觉权重w_v。

同理，可得正样本的第二样本视觉权重具体定义如下：

也即，将各第一样本视觉特征进行加权平均，获得原始样本加权之后的视觉特征M_v，并基于加权平均的结果M_v和各第二样本视觉特征确定各第二样本视频帧的第二样本视觉权重/>具体过程可参见上述w_v的计算过程，重复之处不再赘述。

在本申请实施例中，因果帧选择的选择除了利用正样本指导的视觉因果帧加权之外，为了进一步约束关键视频帧，采用语义因果帧加权指导帧选择权重的选择。语义约束关键视频帧采用融合注意力机制的语义信息进行关键视频帧选择，对应上述步骤Sa-Sb，具体操作如下：

在Sa中，获取从特征抽取模块抽取得到的原始样本的第一样本语义特征F_s＝{s_i|i＝1,…,m}，对F_s先进行加权平均并转置得到F′_s，融合第一样本视觉特征F_v，从而辅助语义特征F′_s，并经过BMM运算得到样本上下文特征C＝{c_i|i＝1,…,m}，具体定义如下：

C＝BMM(F_v,F′_s)。

在步骤Sb中，将语义的样本上下文特征C输入到注意力机制模块，得到样本语义权重w_s，即得到了语义因果帧加权。将视觉信息的第一样本视觉权重w_v和语义信息的样本语义权重w_s进行相加，得到第一样本视觉特征F_v的样本帧选择权重w_c，具体定义如下：

w_c＝w_v+w_s。

进而，即可利用视觉和语义两部分因果帧加权的权重w_c输入到因果特征学习模块，从因果帧加权w_c中选择前k个大的权值w_k，从而指导因果帧(即样本关键视频帧)的选择。

S722：基于各样本帧选择权重，在样本视频中确定至少一个样本关键视频帧，并基于至少一个样本关键视频帧的第一样本视觉特征，确定样本视频的样本视觉增强特征。

其中，在样本视频中确定样本关键视频帧的方式，同上述所列举的在待分类视频中确定关键视频帧的方式相似，即基于各第一样本视频帧对应的样本帧选择权重，选取对应的权重值在指定次序范围内的第一样本视频帧，作为样本关键视频帧，重复之处不再赘述。

具体地，在获取样本帧选择权重之后，需要用因果特征学习模块进一步实现同类别视频内容上的对齐，通过对比正样本从而学习到每个视频对应的因果特征F_c，具体过程如下：

如图8所示，原始样本的第一样本视觉特征F_v输入到因果特征学习网络中，学习因果特征F_c，具体定义如下：

其中，包含两层线性映射层和一层Rule激活函数。

在本申请实施例中，该因果特征学习网络需要用因果特征学习约束/>(也即视觉约束损失函数)。一种可选的实施方式为，基于样本视频中的第一样本约束视频帧对应的第一样本视觉特征，与参考视频中的第二样本约束视频帧对应的第二样本视觉特征之间的差异，确定视觉约束损失函数。

其中，第一样本约束视频帧是基于各第一样本视觉权重，在样本视频中选取的对应权重值在指定次序范围内的第一样本视频帧；同理，第二样本约束视频帧则是基于各第二样本视觉权重，在参考视频中选取的对应权重值在指定次序范围内的第二样本约束视频帧。

基于上述内容，视觉约束损失函数的计算过程如下：

从视觉因果帧加权中得到的原始样本的第一样本视觉权重w_v和正样本的第二样本视觉权重中，选择前k个权重大的因果帧对应的视觉特征(即k个视觉特征组成的矩阵)，即得到F_k和/>其中，F_k包含w_v中前k个值对应的第一样本视觉特征，/>包含/>中前k个值对应的第二样本视觉特征。进而，再通过/>计算两者之间的损失函数/>去约束因果特征网络/>的学习，得到利用正样本学习到的因果特征。具体定义如下：

其中，具体操作为将输入的原始样本的帧的特征F_k和正样本的帧的特征先分别经过线性映射层得到相应的特征并取加权平均，最后计算加权平均后的特征之间的MSE损失。

最后，基于样本帧选择权重w_c,从中选择前k个大的帧选择权重，及对应的第一样本视觉特征进行点乘运算，最终得到样本视觉增强特征F′_v。如图9所示，其为本申请实施例中的一种关键帧选择机制的示意图，图9是指在图8基础上，对因果帧选择和因果特征学习部分的进一步示例，由于连续视频帧具有冗余性以及同一视频的不同视频帧的时长的差异会造成噪声，因此本申请提出了如图9所示的关键帧选择机制，同时在因果帧推理和因果特征推理的两层因果建模，解决了视频帧中的无效帧的信息冗余，突出了视频帧中的关键信息，过滤低质量的视频帧。

通过引入前沿的多模态预训练大模型的框架增强了异构模态特征融合和信息之间的交互，降低了异构特征在特征空间的分布差异，增强了不同模态之间的表征学习能力。基于层次化因果推理的多模态视频分类算法结合细粒度模态信息的互补性与多模态信息语义的一致性的两类数据特征，有效的缓解了视频帧信息的冗余，实现了对视频帧中的关键信息的抽取与同一类别的视频内容。

下面对多模态信息交互模块(多模态交互网络)的具体内容进行详细介绍：

S723：基于第二样本视觉增强特征和第一样本语义特征进行特征交互，获得样本多模态交互特征。

S724：基于获得的样本多模态交互特征，确定相应的样本类别信息。

如图8所示，将样本视觉增强特征F′_v与第一样本语义特征F_s融合送到多模态交互网络中，在交互特征映射部分中，基于预训练知识学习模态间注意力编码信息，将两层因果推理得到的样本视觉增强特征F′_v与第一样本语义特征F_s作为输入，促进多模态交互特征融合和信息之间的交互，从而降低异构特征在特征空间的分布差异性，并生成样本多模态交互特征E_vs，通过该模块是方便不同模态特征之间的协同学习，并迁移到下游任务。具体公式如下：

E_vs＝ViLT(F′_v,F_s)；

其中，ViLT(.,.)网络的具体操作可以为12层的交互网络，每层交互网络首先将样本视觉增强特征F′_v和第一样本语义特征F_s通过多模态信息融合进行正则化方法(LayerNorm，简称LN)，然后经多头注意力机制(MSA(.))运算，在经过LayerNorm归一化方法，再经过两层全连接网络，包含多层MLP感知机，这个部分当中包含两层Norm函数以及GELU非线性激活函数。

在下游任务迁移部分，该部分可以将视觉感知映射和语义感知映射到不同的特征空间，实现了样本多模态交互特征面向下游任务增强的交互特征过滤。样本多模态交互特征经过交互特征映射之后，再经过多头注意力机制的运算得到的E_vs，然后从中切分出交互后的视觉特征E_v和交互后的语义特征E_s，经过视觉感知映射聚合内容表示信息并生成样本视觉表征特征F_vt，经过语义信息映射/>聚合内容表示信息并生成样本语义表征特征F_st，从而实现对细粒度异构特征的抽取。具体定义如下：

其中，语义特征相较于视觉特征较为简单，因而相对应的映射过程也相较简单一些，参见上述两个公式，不过上述语义信息映射的过程也可参考视觉感知映射过程，也可增加MSA和LN相应的处理，重复之处不再赘述。

在下游任务迁移时，可以使用部分异构映射f(.)操作，对样本视觉表征特征F_vt和样本语义表征特征F_st进行部分异构映射，并用KL(.,.)计算表征异构特征对齐损失函数计算公式定义如下：

也即，异构特征对齐损失函数是基于样本视觉表征特征中的目标维度与样本语义表征特征中的相应维度之间的差异确定的。如F_vt为100维，则目标维度可以指前60维，f(F_vt)即60维，f(F_st)也为60维。

在此基础上，在对待分类视频进行类别预测时，各第一概率值即可基于待分类视频的视觉表征特征中的前60维确定，同理，各二概率值即可基于待分类视频的语义表征特征中的前60维确定。

在上述实施方式中，通过对从多模态交互特征交互中获取的视觉特征和语义特征，增强模型的特征提取和选择的能力，并将其用于对模型提取的视觉表征和语义表征进行预测，表征经过非线性层映射输出类别预测信息，使用交叉熵(CrossEntropy，CE)损失和部分异构映射损失，来计算单标签分类任务中的分类损失。基于多模态交互网络及部分异构对齐方法充分利用多模态视频信息，可有效克服已有算法在模型拟合与特征融合的偏差，实现对多模态关键信息的抽取与统一表征，提升视频分类精度。

下面对本申请实施例中目标损失函数的计算过程进行详细介绍：

S73：采用基于样本类别信息、真实类别标签和样本多模态交互特征，构建的目标损失函数，对视频分类模型进行参数调整。

具体地，在结合正样本来进行模型训练的基础上，S73可以为：采用基于样本类别信息、真实类别标签和样本多模态交互特征，以及第二样本视觉特征和第二样本语义特征，构建的目标损失函数，对视频分类模型进行参数调整。

可选的，通过下列方式构建目标损失函数，包括如下步骤S731-S733(图7中未示出)：

S731：基于样本类别信息与真实类别标签之间的差异，构建分类预测损失函数。

也即，通过最终预测结果与真实结果之间的差异，构建分类预测损失函数。具体地，考虑到样本类别信息可包括基于样本视觉表征特征进行预测获得的第一样本类别信息，及基于样本语义表征特征进行预测获得的第二样本类别信息，在此基础上，分类预测损失函数可以为：基于第一样本类别信息与真实类别标签之间的差异，确定的视觉分类损失函数，与基于第二样本类别信息与真实类别标签之间的差异，确定的语义分类损失函数之和。

S732：基于样本视觉表征特征中的目标维度与样本语义表征特征中的相应维度之间的差异，确定异构特征对齐损失函数。

该步骤即对应上述所列举的重复之处不再赘述。

S733：基于分类预测损失函数和异构特征对齐损失函数，构建目标损失函数。

可选的，在S733中，还可进一步基于样本视频及与样本视频匹配的参考视频之间的差异，确定约束损失函数；进而，基于分类预测损失函数，异构特征对齐损失函数，以及约束损失函数进行加权处理，获得目标损失函数。

可选的，本申请实施例中的约束损失函数包括语义约束损失函数和视觉约束损失函数/>中的至少一种。这两种约束损失函数的具体计算方式可参见实施例，重复之处不再赘述。

在本申请实施例中，一种可选的训练策略为：由于视频包含语义信息和视觉信息等多种模态间的信息，而视频中的视觉信息与时间结构密切相关，语义信息能够有助于更好地了解视频，这表明本申请需要尝试一种充分利用这些信息的方法，即找到一种融合不同模态的最佳方式。针对多模态视频分类任务困难这一问题，本申请实施例中的(目标)视频分类模型CasCausal-Net，通过预测分类中的交叉熵(Cross Entropy，CE)损失(本文中包含语义分类预测损失和视觉分类预测损失)和用来约束因果特征学习的损失，以及视觉和语义特征对齐损失，语义信息的对比损失五部分之和来对模型进行迭代训练。基于此，任务分类两个阶段，分为单模态训练和多模态交互特征融合。

在基于层次化因果推理的多模态视频阶段采用视觉分类预测损失函数和语义分类预测损失函数/>约束因果特征的视觉约束损失函数/>语义信息对比学习的语义约束损失函数/>以及异构特征对齐损失函数/>之和/>来进行对模型训练，具体定义如下：

其中，α为的权重系数，β为/>的权重系数，γ为/>的权重系数。

需要说明的是，上述所列举的模型训练过程主要对应基于确定方式一所列举的帧选择权重的计算方式，即需要正样本作为参考。

相应地，基于确定方式二所列举的帧选择权重的方法，不需要正样本作为参考，对应的模型训练过程如下：

参阅图10所示，其为本申请实施例中的又一种模型训练方法的流程示意图，每次循环迭代训练执行以下步骤：

S101：将各第一样本视频帧和第一样本描述信息输入视频分类模型，分别获得各第一样本视频帧的第一样本视觉特征，及第一样本描述信息的第一样本语义特征。

S102：采用根据第一样本语义特征和各第一样本视觉特征，获得的样本多模态交互特征，确定相应的样本类别信息。

其中，S102同S72，可划分为以下几个子步骤S1021-S1024：

S1021：基于第一样本语义特征和各第一样本视觉特征，确定各第一样本视频帧的样本帧选择权重。

可选的，步骤S1021的计算方式同上述所列举的待分类视频中各目标视频帧的帧选择权重的确定方式一的计算过程相似，具体也可分为如下子步骤Sa-Sc(图10中未示出)：

Sa.基于第一样本语义特征以及各第一样本视觉特征进行特征融合，获得与第一样本语义特征相匹配的样本上下文特征；

Sb.基于注意力机制，从样本上下文特征中获取各第一样本视频帧的样本语义权重；

Sc.分别将同一第一样本视频帧的样本语义权重，作为相应的样本帧选择权重。

S1022：基于各样本帧选择权重，在样本视频中确定至少一个样本关键视频帧，并基于至少一个样本关键视频帧的第一样本视觉特征，确定样本视频的样本视觉增强特征；

S1023：基于第二样本视觉增强特征和第一样本语义特征进行特征交互，获得样本多模态交互特征。

S1024：基于获得的样本多模态交互特征，确定相应的样本类别信息。

S103：采用基于样本类别信息、真实类别标签和样本多模态交互特征，构建的目标损失函数，对视频分类模型进行参数调整。

需要说明的是，在步骤S103中，仅需构建两类损失函数，即分类预测损失函数(含视觉分类预测损失函数和语义分类预测损失函数)和异构特征对齐损失函数，即可确定目标损失函数，如具体定义如下：

需要说明的是，图10所列举的计算过程可具体参见上述实施例，重复之处不再赘述。

如图11所示，其为本申请实施例中的又一种视频分类模型的示意图，对应的是基于注意力机制的方式计算样本帧选择权重，从而生成样本视觉增强特征的方法。

具体地，基于特征抽取网络，分别从视频和语义描述/>中提取第一样本视觉特征及第一样本语义特征/>在关键视频帧选择网络中，采用注意力机制进行从F_v选择样本关键视频帧F′_v；在多模态交互网络中，将样本关键视频帧选择对应的第一样本视觉特征F′_v和第一样本语义特征F_s经过特征交互映射部分将异构特征之间的模块进行交互，并得到深层次的样本多模态交互特征E_vs；在下游任务迁移中将样本多模态交互特征E_vs经过视觉特征迁移层得到样本视觉表征特征e_v，经过语义特征迁移层得到样本语义表征特征e_s，然后对样本视觉表征特征e_v和样本语义表征特征e_s预测，并进行异构对齐，预测视频分类标签/>具体实施方式可参见上述实施例，重复之处不再赘述。

此外需要说明的是，本申请实施例中所列举的多模态交互网络可以通过基于长短期记忆网络(Long Short-Term Memory，LSTM)、门循环单元(Gate Recurrent Unit，GRU)等时序网络的方式完成替换，本文不做具体限定。

参阅图12所示，其为本申请实施例中的一种对待分类视频进行分类的方法的流程图，以服务器为执行主体为例，该方法的具体实施流程如下：

步骤S1200：服务器获取待分类视频的各目标视频帧和目标描述信息；

步骤S1201：服务器将各目标视频帧和目标描述信息输入目标视频分类模型，基于该模型中的特征抽取网络，获得各目标视频帧各自的视觉特征，及目标描述信息对应的语义特征；

步骤S1202：服务器将各视觉特征和语义特征输入该模型中的关键视频帧选择网络，基于关键视频帧选择网络，将语义特征以及各视觉特征进行特征融合，获得与语义特征相匹配的上下文特征；

步骤S1203：服务器基于注意力机制，从上下文特征中获取各目标视频帧的语义权重；

步骤S1204：服务器基于该视频的类别相关特征和各视觉特征，确定各目标视频帧的视觉权重；

步骤S1205：服务器分别将同一目标视频帧的语义权重和视觉权重之和，作为相应的帧选择权重；

步骤S1206：服务器基于各帧选择权重，选取各目标视频帧中，对应的权重值最大的前k个视频帧，作为关键视频帧；

步骤S1207：服务器基于各关键视频帧各自的视觉特征和对应的权重值进行特征融合，获得该视频的视觉增强特征；

步骤S1208：服务器将视觉增强特征和语义特征输入该模型中的多模态交互网络，基于多模态交互网络对视觉增强特征和语义特征进行特征交互，获得相应的多模态交互特征；

步骤S1209：服务器对多模态交互特征分别进行视觉迁移处理和语义迁移处理，从多模态交互特征中提取出，该视频的视觉表征特征及语义表征特征；

步骤S1210：服务器基于视觉表征特征对该视频进行类别预测，获得该视频分别属于各预设类别的第一概率值；并基于语义表征特征对该视频进行类别预测，获得该视频分别属于各预设类别的第二概率值；

步骤S1211：服务器对于每个预设类别，将该预设类别对应的第一概率值和第二概率值中的较小值，作为该视频属于一个预设类别的预测概率值；

步骤S1212：服务器将各预测概率值中，最大预测概率值对应的预设类别，作为该视频所属的类别信息。

需要说明的是，本申请还对上述所列举的模型训练进行了相关实现，具体地，本申请在两个真实世界的数据集MSR-VTT和ActivityNet Captions上进行了实验，数据集统计信息如表1所示：

表1

其中，MSR-VTT数据集：含有10,000个独特的视频剪辑。它们中的每一个都以20个不同的文本标题注释，所以总共有200,000个视频字幕对。本申请将MSR-VTT数据集拆分为9000和1000个视频分别用于训练和测试。

ActivityNet Captions数据集：含有20,000个字幕视频，总计849个视频小时，共10万段，每段视频都有独特的开始和结束时间。平均每个20,000的视频包含3.65个时间局部化的句子，总共有100,000个句子。每段时间的句子遵循相对正态分布。此外，随着视频持续时间的增加，句子数量也会增加。每个句子的平均长度为13.48个单词，也是呈现正态分布。由于有些视频官方未给出标签，因此将有标签的样本数据拆分为10009和4515个视频分别用于训练和测试。

进一步地，在MSR-VTT和ActivityNet Captions数据集上的实验上本申请采用准确率(Accuracy)评估单标签分类中的模型预测性能，公式如下：

准确率公式：

其中，TP是正阳样本数，FP是负阳样本数，TN是正阴样本数，FN是负阴样本数。对上述指标，本申请均计算TOP-1和TOP-5的平均值。

在数据预处理方面，对于输入的原始视频数据集需要经过不同的特征提取网络提取相应的特征。对于MSR-VTT数据集，进行提取视觉的运动特征和描述视频的文本所对应的文本特征。运动特征通过预训练的S3D(Sensaura 3D，一种音频技术)网络进行提取，特征维度为1024；文本特征通过一种云语音文本API(Cloud Speech to Text API)进行提取，特征维度为768。对于Activitynet Captions数据集，进行提取视觉的运动特征和视频中的音频所对应的音频特征。运动特征也是通过预训练的S3D网络进行提取，特征维度同为1024；音频特征通过YouTube-8M数据集上面预训练的VGGish网络来进行特征提取，特征维度为128。由于任务是做视频分类，所以根据测试集和训练集来的划分，得到相应的标签文本，以便测试分类结果的准确性。因此，对于MSR-VTT数据集有视觉信息运动特征和语义信息文本特征，对于Activitynet Captions数据集有视觉信息运动特征和语义信息音频特征。通过数据集预处理，分别得到了两个数据集所对应的多模态信息。

在模型实施细节方面，在实验当中，本申请遵循预前沿的训练大模型VILT的特征维度设置，将特征维度设置为768，实验模型在训练过程中使用Adam优化器进行优化，其中学习率从1e-6至5e-3挑选，并每完成4个epoch的训练，优化器的学习率衰减为原来的0.1倍。将训练的样本大小设置为64。α为约束因果特征的的权重系数，β为部分异构特征对齐的损失/>的权重系数，γ为语义信息对比学习损失/>α，β，γ权重系数其值在0.1～0.5范围内设置。

在对比实验结果方面，本申请展示了基于层次化因果推理的多模态视频分类算法在两个数据集上的效果，比对了基础视觉模型GRU骨干网络的性能。在两个模型之上进行了基于视觉信息的视频分类、基于语义信息的视频分类、基于多模态信息的视频分类实验。并在此基础上，采用多种关键视频帧选择机制，一种是基于随机选择帧的机制，一种是融合注意力的帧选择机制，一种是基于层次化因果推理的多模态视频分类算法。同时在GRU模型上对比了不同模态特征在前期融合(EF)和后期融合(LF)的对下游分类任务性能的表现。如表2所示，本申请有如下观察：

表2：对比实验结果—基于关键特征帧选择的多模态信息融合的视频分类算法

/>

其中Stochastic表示随机选择，Attention对应本文确定方式一，CasCausal对应本文确定方式二，结合上述内容可知，多模态信息融合之后，视频分类的性能高于仅用单模态特征分类。建立的多种关键视频帧选择机制，采用层次化因果推理的多模态视频分类算法性能表现最好，说明建立在视频帧级别和视频内容级别上的两层因果推理能够有效的约束视频中的关键视频帧，并实现同类别视频在内容上的对齐。基于注意力机制的关键视频帧选择的视频分类算法性能表现次之，说明了利用视觉特征和语义特征之间的互补性能够有效的进行对视频中的关键视频帧进行约束，而随机选择帧机制的视频分类算法Stochastic，由于随机的原因，带来的噪声比使用全部视觉特征帧更大，因此分类效果较差。

在GRU模型中，对比三种模态融合下的前期融合和后期融合的视频分类效果发现，不同模态特征经过交互特征网络后融合之后直接迁移到下游分类任务的分类效果要高于直接融合送到交互网络中，说明了异构特征之间具有不同的值域和分布会造成融合上的偏差。CasCausal视频分类方法能够效果克服该偏差。

基于层次化因果推理的多模态视频分类算法应用于不同骨干网络后视频分类性能均出现明显提升，表现出其模型无关的特点。

预训练大模型ViLT在实验数据集上整体效果不如基础的骨干网络GRU，这表明了预训练大模型在迁移中数据分布偏差等问题泛化能力较差。CasCausal-Net通过因果帧选择减少了由于视觉噪声干扰带来的偏差问题，并通过异构特征的对齐提升了迁移效果，能够有效增强预训练大模型迁移下游任务的能力。

此外，为探究提出框架的有效性，本申请还进行了消融实验，其结果如表3所示。

表3：算法各个模块对预测性能的影响

/>

在本申请实施例中，实验选择了单模态视觉信息的视频分类算法S和单模态的语义信息的视频分类算法V作为基线。V和S分类效果不同说明不同模态之间存在值域与分布的差异，但是由于多模态信息之间的一致性与细粒度模态之间的互补的两类数据特性。因此在使用多模态信息融合的算法(V+S)在下游任务的性能要高于单模态的语义特征(S)和视觉特征(V)直接分类的性能。由于连续视频帧具有冗余性以及同一视频的不同视频帧的时长的差异会造成噪声，因此在上述算法的基础知上建立关键视频帧选择机制，同时在因果帧推理和因果特征推理的两层因果建模中，本申请对因果特征推理网络进行了探索，并根据二级因果推理中因果特征学习的不同，划分为自学习因果特征推理CasCausal(S)、直接因果特征推理CasCausal(F)、多层因果特征推理CasCausal(M)。实验表明V+S+CasCausal(M)表示在因果特征学习到的特征更加有利于下游任务分类，通过因果帧实现在视频帧级别上的加权，并通过多层映射进行因果特征的学习，得到内容上对齐的因果特征，结合一级推理的因果帧进行因果特征的加权，能够进一步鲁棒的提升视频分类的精度。

综上，本申请采取对基于注意力机制的帧选择机制的视频分类算法进行分析其在不同阶段的视觉和文本信息表征，来探究异构特征在不同阶段的表征融合情况。图13A-13C是关键帧选择的视频分类算法在不同阶段的视觉和文本信息表征，分别列举了20个随机选择的测试样本视觉和语义信息的可视化表示。其中，图13A中的(a)是在特征抽取网络中得到的浅层表征；图13B中的(b)是在经过基于注意力机制的关键视频帧选择机制模块抽取的注意力机制的特征；图13C中的(c)是在交互特征映射部分抽取到多模态交互特征。

从图13A-13C可以看出视觉和文本信息的不同模态的表征分布在t-SNE的嵌入空间存在比较明显的变化，随着基于注意力机制的帧选择机制的算法执行，来自同一多模态视频的视觉和语义的表征分布慢慢地趋于一致。

详细来说，在经过特征抽取网络直接得到的浅层特征，同一视频的视觉和语义的浅层表征的分布表现出明显的区分，即对于相同的数字节点代表同一视觉-语义信息对，分布在相距较远的位置；在经过基于注意力机制的帧选择机制后，视觉和语义信息在特征空间的分布出现了互相接近的趋势，说明基于注意力选择机制能够实现具有高语义的帧选择，实现关键视频帧的抽取；在经过多模态交互映射部分后两个模态的模态间的交互表征在特征空间的分布区域逐渐一致，说明ViLT模型能够缓解异构特征在特征空间当中分布不一致问题。通过这些观察证明，基于注意力机制的帧选择机制能够有效的选择关键视频帧，并促进模型的表征学习能力，使得来自同一视频的视觉-语义信息对的表征在t-SNE的嵌入空间中的分布接近，这可能是提升视频分类性能的一个原因。

综上，本申请提出了一种通用的基于层次化因果推理的多模态视频分类算法，利用细粒度模态间信息的互补性与多模态信息之间的语义一致性的两类数据特性，以及因果建模来建立视频帧级别上的因果帧选择和视频内容级别上的因果特征的选择，能够有效去除不利于分类的视频帧信息，实现自适应的关键帧选择，提升视频分类精度。此外，采用了前沿的多模态预训练大模型ViLT，利用预训练交互网络促进多模态特征融合和信息之间的交互，从而降低异构特征在特征空间分布的差异性，通过为每个视频选择正样本，实现了视频内容上的对齐，通过对多模态关键信息的抽取与统一表征，实现对模态间对分类有利的共性特征的抽取与协同学习。

基于相同的发明构思，本申请实施例还提供一种视频分类装置。如图14所示，其为视频分类装置1400的结构示意图，可以包括：

特征抽取单元1401，用于获取待分类视频中各目标视频帧各自的视觉特征，以及待分类视频的目标描述信息对应的语义特征；

权重确定单元1402，用于基于语义特征和各视觉特征，确定各目标视频帧的帧选择权重；

视觉增强单元1403，用于基于各帧选择权重，在待分类视频中确定至少一个关键视频帧，并基于至少一个关键视频帧各自的视觉特征，确定待分类视频的视觉增强特征；

分类单元1404，用于基于视觉增强特征和语义特征进行特征交互，获得相应的多模态交互特征，并基于多模态交互特征，确定待分类视频的类别信息。

可选的，分类单元1404具体用于：

对多模态交互特征分别进行视觉迁移处理和语义迁移处理，从多模态交互特征中提取出，待分类视频的视觉表征特征及语义表征特征；

基于视觉表征特征及语义表征特征进行类别预测，获得待分类视频的类别信息。

可选的，分类单元1404具体用于：

基于视觉表征特征对待分类视频进行类别预测，获得待分类视频分别属于各预设类别的第一概率值；以及，基于语义表征特征对待分类视频进行类别预测，获得待分类视频分别属于各预设类别的第二概率值；

基于各第一概率值及各第二概率值，从各预设类别中确定待分类视频所属的类别信息。

可选的，分类单元1404具体用于：

对于每个预设类别，分别执行以下操作：将一个预设类别对应的第一概率值和第二概率值中的较小值，或者，第一概率值和第二概率值的均值，作为待分类视频属于一个预设类别的预测概率值；

将各预测概率值中，排序结果在指定次序的预测概率值对应的预设类别，作为待分类视频所属的类别信息。

可选的，权重确定单元1402具体用于：

基于语义特征以及各视觉特征进行特征融合，获得与语义特征相匹配的上下文特征；

基于注意力机制，从上下文特征中获取各目标视频帧的语义权重；

执行以下操作中的任意一种：

分别将各目标视频帧的语义权重，作为相应的帧选择权重；

基于待分类视频的类别相关特征和各视觉特征，确定各目标视频帧的视觉权重；分别将同一目标视频帧的语义权重和视觉权重之和，作为相应的帧选择权重。

可选的，权重确定单元1402具体用于：

将语义特征经过加权平均和转置后，获得待分类视频的辅助语义特征；

将各视觉特征与辅助语义特征进行特征融合，获得上下文特征。

可选的，类别相关特征包括：基于将各目标视频帧各自的视觉特征经过自学习网络确定的，各目标视频帧各自对应的类别相关特征；

权重确定单元1402具体用于：

将各目标视频帧各自对应的类别相关特征进行加权平均，获得参考特征；

将参考特征分别和各视觉特征进行拼接后，对拼接结果进行线性映射处理，获取各目标视频帧的视觉权重。

可选的，视觉增强单元1403具体用于：

基于各帧选择权重，将各目标视频帧中对应的权重值在指定次序范围的视频帧，作为关键视频帧；

基于各关键视频帧各自的视觉特征和对应的权重值进行特征融合，获得待分类视频的视觉增强特征。

可选的，语义特征和各视觉特征是通过将各目标视频帧和目标描述信息，分别输入已训练的目标视频分类模型后，基于目标视频分类模型中的特征抽取网络获得的；

视觉增强特征是通过目标视频分类模型中的关键视频帧选择网络，基于语义特征和各视觉特征确定各目标视频帧的帧选择权重后获得的；

多模态交互特征是基于目标视频分类模型中的多模态交互网络，对视觉增强特征和语义特征进行特征交互获得的。

可选的，装置还包括：

模型训练单元1405，用于通过下列方式获得目标视频分类模型：

基于训练样本集中的训练样本，对待训练的视频分类模型进行循环迭代训练，获得目标视频分类模型；每个训练样本包含：样本视频的各第一样本视频帧，样本视频的第一样本描述信息和真实类别标签；其中，每次循环迭代训练执行以下步骤：

将各第一样本视频帧和第一样本描述信息输入视频分类模型，分别获得各第一样本视频帧的第一样本视觉特征，及第一样本描述信息的第一样本语义特征；

采用根据第一样本语义特征和各第一样本视觉特征，获得的样本多模态交互特征，确定相应的样本类别信息；

采用基于样本类别信息、真实类别标签和样本多模态交互特征，构建的目标损失函数，对视频分类模型进行参数调整。

可选的，模型训练单元1405还用于采用以下方式获得样本多模态交互特征：

基于第一样本语义特征和各第一样本视觉特征，确定各第一样本视频帧的样本帧选择权重；

基于各样本帧选择权重，在样本视频中确定至少一个样本关键视频帧，并基于至少一个样本关键视频帧的第一样本视觉特征，确定样本视频的样本视觉增强特征；

基于第二样本视觉增强特征和第一样本语义特征进行特征交互，获得样本多模态交互特征。

可选的，模型训练单元1405具体用于：

基于第一样本语义特征以及各第一样本视觉特征进行特征融合，获得与第一样本语义特征相匹配的样本上下文特征；

基于注意力机制，从样本上下文特征中获取各第一样本视频帧的样本语义权重；

获取参考视频中各第二样本视频帧的第二样本视觉特征，并基于各第二样本视觉特征和各第一样本视觉特征，确定各第一样本视频帧的第一样本视觉权重；参考视频与样本视频的真实类别标签相同；

可选的，模型训练单元1405具体用于：

将各第二样本视觉特征进行加权平均，获得样本参考特征；

将样本参考特征分别和各第一样本视觉特征进行拼接后，对拼接结果进行线性映射处理，获取各第一样本视频帧的第一样本视觉权重。

可选的，模型训练单元1405还用于：

在将各第一样本视频帧和第一样本描述信息输入视频分类模型之前，获取与样本视频匹配的参考视频，参考视频与样本视频的真实类别标签相同；

将参考视频的各第二样本视频帧和对应的第二样本描述信息输入视频分类模型，获取各第二样本视频帧的第二样本视觉特征，及第二样本描述信息的第二样本语义特征。

可选的，模型训练单元1405具体用于通过下列方式构建目标损失函数：

基于样本类别信息与真实类别标签之间的差异，构建分类预测损失函数；

基于样本视觉表征特征中的目标维度与样本语义表征特征中的相应维度之间的差异，确定异构特征对齐损失函数；视觉表征特征和语义表征特征是通过特征迁移，从样本多模态交互特征中提取出的；

基于分类预测损失函数和异构特征对齐损失函数，构建目标损失函数。

可选的，模型训练单元1405具体用于：

基于样本视频及与样本视频匹配的参考视频之间的差异，确定约束损失函数；参考视频与样本视频的真实类别标签相同；

基于分类预测损失函数，异构特征对齐损失函数，以及约束损失函数进行加权处理，获得目标损失函数。

可选的，样本类别信息包括基于样本视觉表征特征获得的第一样本类别信息，及基于样本语义表征特征获得的第二样本类别信息；

模型训练单元1405具体用于：

基于第一样本类别信息与真实类别标签之间的差异，确定视觉分类损失函数；以及，基于第二样本类别信息与真实类别标签之间的差异，确定语义分类损失函数；

基于视觉分类损失函数和语义分类损失函数，构建分类预测损失函数。

可选的，约束损失函数包括语义约束损失函数和视觉约束损失函数中的至少一种；模型训练单元1405还用于通过下列方式确定约束损失函数：

基于第一样本语义特征与第二样本语义特征之间的差异，确定语义约束损失函数；第二样本语义特征是基于参考视频的第二样本描述信息确定的；

基于样本视频中的第一样本约束视频帧对应的第一样本视觉特征，与参考视频中的第二样本约束视频帧对应的第二样本视觉特征之间的差异，确定视觉约束损失函数。

可选的，模型训练单元1405还用于通过下列方式确定第一样本约束视频帧和第二样本约束视频帧：

基于各第一样本视觉权重，在样本视频中确定至少一个第一样本约束视频帧；

将各第一样本视觉特征进行加权平均，并基于加权平均的结果和各第二样本视觉特征，确定各第二样本视频帧的第二样本视觉权重；基于各第二样本视觉权重，在参考视频中确定至少一个第二样本约束视频帧。

基于上述视频分类装置，本申请通过获取到的视觉特征和语义特征，分析待分类视频中各目标视频帧各自的帧选择权重，通过该权重来进行视频帧筛选，确定待分类视频中的关键视频帧，也即会对视频分类结果产生重要影响的视频帧，以便提升关键视频帧的选择以及重要特征的学习，有效减少冗余信息和视觉噪声；通过关键视频帧和相应帧选择权重，对视觉特征进行增强表示，获得待分类视频的视觉增强特征；进而，将增强表示的视觉增强特征和语义特征进行特征交互，实现不同模态的信息交互和模态间的信息互补，充分利用多模态视频信息，实现对多模态关键信息的抽取与统一表征，提升视频分类精度。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的视频分类方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在该实施例中，电子设备的结构可以如图15所示，包括存储器1501，通讯模块1503以及一个或多个处理器1502。

存储器1501，用于存储处理器1502执行的计算机程序。存储器1501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1501可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1501也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1501是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器1501可以是上述存储器的组合。

处理器1502，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1502，用于调用存储器1501中存储的计算机程序时实现上述视频分类方法。

通讯模块1503用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1501、通讯模块1503和处理器1502之间的具体连接介质。本申请实施例在图15中以存储器1501和处理器1502之间通过总线1504连接，总线1504在图15中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1504可以分为地址总线、数据总线、控制总线等。为便于描述，图15中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1501中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的视频分类方法。处理器1502用于执行上述的视频分类方法，如图3所示。

在一些可能的实施方式中，本申请提供的视频分类方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频分类方法中的步骤，例如，电子设备可以执行如图3中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本申请件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频分类方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述多模态交互特征，确定所述待分类视频的类别信息，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述视觉表征特征及所述语义表征特征进行类别预测，获得所述待分类视频的类别信息，包括：

4.如权利要求3所述的方法，其特征在于，所述基于各第一概率值及各第二概率值，从所述各预设类别中确定所述待分类视频所属的类别信息，包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述语义特征和各视觉特征，确定所述各目标视频帧的帧选择权重，包括：

执行以下操作中的任意一种：

6.如权利要求5所述的方法，其特征在于，所述基于所述语义特征以及所述各视觉特征进行特征融合，获得与所述语义特征相匹配的上下文特征，包括：

7.如权利要求5所述的方法，其特征在于，所述类别相关特征包括：基于将所述各目标视频帧各自的视觉特征经过自学习网络确定的，所述各目标视频帧各自对应的类别相关特征；

所述基于所述类别相关特征和各视觉特征，分别确定所述各目标视频帧的视觉权重，包括：

8.如权利要求1所述的方法，其特征在于，所述基于各帧选择权重，在所述待分类视频中确定至少一个关键视频帧，并基于所述至少一个关键视频帧各自的视觉特征，确定所述待分类视频的视觉增强特征，包括：

9.如权利要求1～8任一项所述的方法，其特征在于，所述语义特征和各视觉特征是通过将所述各目标视频帧和所述目标描述信息，分别输入已训练的目标视频分类模型后，基于所述目标视频分类模型中的特征抽取网络获得的；

10.如权利要求9所述的方法，其特征在于，所述目标视频分类模型是通过下列方式获得的：

11.如权利要求10所述的方法，其特征在于，所述样本多模态交互特征是采用以下方式获得的：

12.如权利要求11所述的方法，其特征在于，所述基于所述第一样本语义特征和各第一样本视觉特征，确定所述各第一样本视频帧的样本帧选择权重，包括：

13.如权利要求12所述的方法，其特征在于，所述基于各第二样本视觉特征和所述各第一样本视觉特征，确定所述各第一样本视频帧的第一样本视觉权重，包括：

14.如权利要求10所述的方法，其特征在于，在所述将所述各第一样本视频帧和所述第一样本描述信息输入所述视频分类模型之前，还包括：

获取与所述样本视频匹配的参考视频，所述参考视频与所述样本视频的真实类别标签相同；

所述将所述各第一样本视频帧和所述第一样本描述信息输入所述视频分类模型，分别获得所述各第一样本视频帧的第一样本视觉特征，及所述第一样本描述信息的第一样本语义特征，还包括：

15.如权利要求10所述的方法，其特征在于，通过下列方式构建所述目标损失函数：

基于样本视觉表征特征中的目标维度与样本语义表征特征中的相应维度之间的差异，确定异构特征对齐损失函数；所述样本视觉表征特征和所述样本语义表征特征是通过特征迁移，从所述样本多模态交互特征中提取出的；

16.如权利要求15所述的方法，其特征在于，所述样本类别信息包括基于所述样本视觉表征特征获得的第一样本类别信息，及基于所述样本语义表征特征获得的第二样本类别信息；

所述基于所述样本类别信息与所述真实类别标签之间的差异，构建分类预测损失函数，包括：

17.如权利要求15所述的方法，其特征在于，所述基于所述分类预测损失函数和所述异构特征对齐损失函数，构建所述目标损失函数，包括：

18.如权利要求17所述的方法，其特征在于，所述约束损失函数包括语义约束损失函数和视觉约束损失函数中的至少一种；通过下列方式确定所述约束损失函数：

19.如权利要求18所述的方法，其特征在于，通过下列方式确定所述第一样本约束视频帧和所述第二样本约束视频帧：

将所述各第一样本视觉特征进行加权平均，并基于加权平均的结果和所述各第二样本视觉特征，确定所述各第二样本视频帧的第二样本视觉权重；基于各第二样本视觉权重，在所述参考视频中确定至少一个第二样本约束视频帧。

20.一种视频分类装置，其特征在于，包括：

21.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～19中任一所述方法的步骤。

22.一种计算机可读存储介质，其特征在于，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行权利要求1～19中任一所述方法的步骤。

23.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行权利要求1～19中任一所述方法的步骤。