CN117197708A

CN117197708A - 一种基于语言-视觉对比学习的多模态视频行为识别方法

Info

Publication number: CN117197708A
Application number: CN202310526292.1A
Authority: CN
Inventors: 张建新; 张颖; 张冰冰; 董微; 安峰民; 张强
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-12-08

Abstract

本发明公开了一种基于语言视觉对比学习的多模态视频行为识别方法，包括：获取视频数据和其对应标签的语言描述，将语言视频数据集分为训练集和测试集，并对视频数据进行抽帧；使用对比语言图像预训练模型作为基础网络，对该基础网络进行拓展，从而构建基于语言视觉对比学习的视频多模态网络，该视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类；使用训练集中的语言和视频数据对视频多模态网络进行迭代训练从而更新该网络参数，该训练过程包括网络特征的前向传播和误差的反向传播；在每次迭代中更新网络参数，每次迭代中进行训练和验证，根据最优验证集精度保存视频多模态网络的最优权重，使用最优权重初始化视频多模态网络，在测试集上对该网络的性能进行评估。

Description

一种基于语言-视觉对比学习的多模态视频行为识别方法

技术领域

本发明涉及视频行为识别领域，具体涉及一种基于语言视觉对比学习的多模态视频行为识别方法。

背景技术

近年来，基于卷积神经网络或视觉Transformer的视频行为识别模型都取得了极大的发展，被广泛使用。然而，这类模型只关注视觉表示，将类别名称转换为矢量标签以简化训练过程，从而忽略了类别名称的语义信息，导致学习到的特征对训练数据类别的依赖性高、泛化性差。语言视觉对比学习模型的出现给学习泛化性能更强的通用视觉表示带来了希望。这类模型保留类别标签的语言描述作为监督信号，将视觉单模态模型拓展到语言视觉多模态架构，在亿级甚至十亿级别的语言图像对上进行自监督训练，以对比学习的方式同时优化语言和视觉编码器。然而，由于视频中存在时间信息，而且现有的视频数据集的语言描述缺乏，并不能很好地发挥在语言图像数据上预训练的多模态模型的能力。

发明内容

根据现有技术存在的问题，本发明公开了一种基于语言视觉对比学习的多模态视频行为识别方法，具体包括如下步骤：

获取视频数据和其对应标签的语言描述，将语言视频数据集分为训练集和测试集，并对视频数据进行抽帧处理；

使用对比语言图像预训练模型作为基础网络，对该基础网络进行拓展，构建基于语言视觉对比学习的视频多模态网络；所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类；

在所述基础网络的语言分支中插入视觉强化提示模块，用来强化语言特征，在该基础网络的视觉分支中设计两种不同的时序建模方式，其一是在帧级编码器的中间层插入虚拟帧交互模块，其二是在帧级编码器末端插入全局帧融合模块，从而构建出视频多模态网络；

使用训练集中的语言和视频数据对视频多模态网络进行迭代训练从而更新该网络参数，该训练过程包括网络特征的前向传播和误差的反向传播；

在每次迭代中更新网络参数，每次迭代中进行训练和验证，根据最优验证集精度保存视频多模态网络的最优权重，使用最优权重初始化视频多模态网络，在测试集上对该网络的性能进行评估。

进一步的，所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类时：使用余弦相似度的计算过程表示为：

其中：v表示视频特征，表示经过视觉强化提示模块得到的强化语言特征。进一步的，在语言编码器末端插入视觉强化提示模块，使用视觉分支输出的视频类别分词矩阵和视觉分词矩阵/>作为提示信号，通过注意力机制融合其中包含的视觉信息生成两类语言提示/>和/>再对初级语言特征l加权获得强化语言特征/>其计算过程如下：

在视觉分支的帧级编码器中间层插入虚拟帧交互模块时：

每个视频片段包含T个视频帧，虚拟帧交互模块先对每个视频帧的类别分词进行线性变换生成虚拟帧分词，构成虚拟帧分词矩阵再对虚拟帧分词进行时序卷积和虚拟帧分词移位操作，从而对视频的远距离及相邻帧之间的时间依赖进行建模，最后使用残差连接将原始的虚拟帧分词F加入到建模后的虚拟帧分词特征中，其计算过程如下：

在视觉分支中的帧级编码器末端插入全局帧融合模块，将获得的帧级特征集成为视频特征。

由于采用了上述技术方案，本发明提供的一种基于语言视觉对比学习的多模态视频行为识别方法，该方法在帧级编码器中构造了虚拟帧交互模块来显式完成网络中间层的跨帧信息交互，更好地捕获了视频远距离及相邻帧之间的时间依赖信息；在语言分支上构建了视觉强化提示模块，通过注意力机制融合视觉分支输出分词中包含的视觉信息，自动生成适应视频行为识别的语言提示，来强化视频的语言特征；本发明相对于其他方法，在性能上达到了有竞争力的结果，准确率有所提升。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图

图2为本发明中视频多模态网络总体结构图

图3为本发明中视频多模态网络视觉分支结构图

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于语言视觉对比学习的多模态视频行为识别方法，具体包括如下步骤：

S1：获取视频及其语言描述，构建语言视频数据集对视频进行抽帧，划分为训练集和测试集，训练集用于模型训练，测试集用于模型测试；

S11：获取视频数据集Kinetics400(K400)及其标签的语言描述，视频数据构成对应的语言描述构成/>将视频数据集分为训练集和测试集；

S12：将语言视频数据集划分为训练集和测试集，训练集用于模型训练，测试集用于模型测试；

S13：对上述视频数据进行片段采样；

S14：使用FFmpeg对采样后的视频片段进行抽帧(帧数为8)；

如图2所示：S2：使用对比语言图像预训练模型作为基础网络，对该基础网络进行拓展，构建基于语言视觉对比学习的视频多模态网络，所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类；

S21：视频多模态网络由3个部分构成：视频编码器、语言编码器和视觉强化提示模块。

S22：对于来自语言视频数据集的一个视频片段V及其对应的语言描述L，分别输入视频编码器/>和语言编码器/>中，获得视频特征v和初级语言特征l：

其中，和/>分别是视觉分支输出的类别分词矩阵和视觉分词矩阵，v_vis由各帧视觉分词在时间维度上求平均获得。

S23：视觉强化提示模块使用视觉分支输出的视频类别分词矩阵和视觉分词矩阵/>作为提示信号，通过注意力机制融合其中包含的视觉信息生成语言提示，再对初级语言特征l加权获得强化语言特征/>其计算过程如下：

S24：模型使用余弦相似度计算视频特征v和强化语言特征之间的相似性：

如图3所示：S3：在视觉分支中设计了两种不同的时序建模方式，其一是在帧级编码器的中间层插入虚拟帧交互模块，其二是在帧级编码器末端插入全局帧融合模块：

S31：采样帧被划分为互不重叠的块，并映射为块嵌入，对每帧的块嵌入拼接一个可学习的类别分词。

S32：每个视频片段包含T个视频帧，虚拟帧交互模块先对每个视频帧的类别分词进行线性变换生成虚拟帧分词，构成虚拟帧分词矩阵再对虚拟帧分词进行时序卷积(T-Conv)和虚拟帧分词移位(VT-Shift)操作，从而对视频的远距离及相邻帧之间的时间依赖进行建模，最后使用残差连接将原始的虚拟帧分词F加入到建模后的虚拟帧分词特征中，其计算过程如下：

S33：携带跨帧时间交互信息的虚拟帧分词与对应帧的视觉分词/>拼接，共同输入标准的多头自注意力(MHSA)和前馈神经网络(FFN)，进行帧内空间建模，时间信息得以进一步的扩散和加强，实现了在网络中间层充分建模视频时序信息的目的，可表示为：

S34：全局帧融合模块使用全局注意力机制将获得的帧级特征集成为视频特征。

S4：使用训练集中的语言和视频数据对视频多模态网络进行迭代训练从而更新该网络参数，该训练过程包括网络特征的前向传播和误差的反向传播；

实施过程中，使用12层的Transformer作为多模态网络的语言编码器，使用ViT-B作为多模态网络的帧级编码器，视觉强化提示模块和全局帧融合模块的层数分别为2和1。每个采样帧都被裁剪为224×224的形状。在K400数据集上训练30个迭代，并将初始学习率设置为8×e^-6。

S5：在每次迭代中更新网络参数，每次迭代中进行训练和验证，根据最优验证集精度保存视频多模态网络的最优权重，使用最优权重初始化视频多模态网络，在测试集上对该网络的性能进行评估。

实施过程中，分别采用1clip×1crop和4clips×3crops的策略进行测试。使用Top1识别准确率(％)和模型计算量GFLOPs作为评价标准。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于语言视觉对比学习的多模态视频行为识别方法，其特征在于包括：

在所述基础网络的语言分支中插入视觉强化提示模块，在该基础网络的视觉分支中设计两种不同的时序建模方式，其一是在帧级编码器的中间层插入虚拟帧交互模块，其二是在帧级编码器末端插入全局帧融合模块，从而构建出视频多模态网络；

2.根据权利要求1所述的方法，其特征在于：所述视频多模态网络根据视频特征和语言特征的相似度信息对视频进行分类时：使用余弦相似度的计算过程表示为：

其中：v表示视频特征，表示经过视觉强化提示模块得到的强化语言特征。

3.根据权利要求1所述的方法，其特征在于：在语言编码器末端插入视觉强化提示模块，使用视觉分支输出的视频类别分词矩阵和视觉分词矩阵/>作为提示信号，通过注意力机制融合其中包含的视觉信息生成两类语言提示/>和/>再对初级语言特征l加权获得强化语言特征/>其计算过程如下：

4.根据权利要求3所述的方法，其特征在于：在视觉分支的帧级编码器中间层插入虚拟帧交互模块时：