CN115129934A

CN115129934A - 一种多模态视频理解方法

Info

Publication number: CN115129934A
Application number: CN202210765668.XA
Authority: CN
Inventors: 王利民; 金力为
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-09-30

Abstract

本发明公开了一种多模态视频理解方法，包括建立多模态融合网络，将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数，将视频标题文本通过编码器和多层感知机得到二号特征向量，将一号特征向量与二号特征向量进行余弦相似度计算，得出视频对比学习框架。本发明通过话题识别任务促进工业界开发更完备的深度模型，实现对于短视频整体的高层语义理解；视频文本互检索放弃了预定义类别体系和传统的强监督学习范式，转而使用自然语言作为监督信号，视频文本互检索并非唯一利用语言信息帮助视频理解的途径，视频标题生成与基于文本的视频生成同样可以实现。

Description

一种多模态视频理解方法

技术领域

本发明属于计算机软件技术领域，涉及自监督特征学习和场景分类，具体涉及一种多模态视频理解方法。

背景技术

为了在数据集上对用户生成短视频理解设立基准，现提出了两个具体的任务，分别是话题识别以及视频文本互检索。尽管话题识别和动作识别都可以被归类为多类别单标签的分类问题，他们之间仍存在两个重要不同点。

话题识别使用相比于动作类别包含更多高层语义的话题作为标签。相比于传统的动作识别任务，本发明提出的话题识别任务鼓励使用视频内部的多种模态信息，包括原始帧、音频、字幕都可以在训练和测试阶段使用。多模态处理工具如自动音频识别和光学字符识别同样可以使用。因此，本发明定义的话题识别任务不是纯粹的实例级别视觉任务，而是多模态高语义层级的视频分类任务。

大部分用户生成短视频都附带用户上传的标题，该标题通常与对应视频具有强关联性。本发明将随着视频爬取的标签视为自然存在的视频描述。这些“视频描述”并非由专业的标注者标注，通过爬虫可以规模化获取，便于数据集的扩展。更重要的是，传统数据集中存在的标注者的个人偏差问题因为由巨量不同的用户作为“标注人员”而得到缓解。

发明内容

发明目的：本发明的目的基于标题的视频文本互检索任务包括两个子任务，分别为通过标题文本检索视频和通过视频检索标题文本。

技术方案：为了达到上述发明目的，本发明具体是这样来实现的：一种多模态视频理解方法，包括建立多模态融合网络，将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数，将视频标题文本通过编码器和多层感知机得到二号特征向量，将一号特征向量与二号特征向量进行余弦相似度计算，得出视频对比学习框架。

其中，多模态融合网络包括信号输入端，信号输入端将信号传导给编码器，编码器将信号提取出对应模态的特征向量；一方面将特征向量用对应模态的类别分类分数，将类别分类分数进行加权求和整个视频的分类分数；另一方面将特征向量拼接后通过多层感知机生成一号特征向量。

其中，输入端包括视频帧输入、音频输入及字幕输入。

其中，视频帧输入、音频输入及字幕输入对应的编辑器分别为视频编码器、音频编码器及字幕编码器。

其中，一号特征向量、二号特征向量共用同一套编码器。

其中，视频对比学习框架公示如下：

；

Fv(V)为第一特征向量，Ft(T)为第二特征向量。

有益效果：与传统技术相比，本发明主要存在以下优点：

（1）本发明考虑一个包含n对视频和标题的测试集，基于文本的视频检索目标是对于测试集内每个标题找出其对应的视频，基于视频检索标题文本则是对于测试集内每个视频找出其对应的文本。和话题识别类似的，视频文本互检索任务同样鼓励使用多模态信息。本发明提出的视频文本互检索任务相比于话题识别和有人工标注的检索任务更加困难，这是由于用户生成标题通常具有更复杂的语义，并且往往在较高语义层级上与视频本身内容产生关联。

（2）本发明建立短视频数据集的出发点是探索用户生成短视频高层语义，选择话题识别而不是现有的任务（如视频目标检测、动作识别等）主要是因为现有任务仅关注低层级的实例级别视频表征，而忽略了视频多个模态结合的整体表征。本发明希望通过话题识别任务促进工业界开发更完备的深度模型，实现对于短视频整体的高层语义理解。

（3）本发明视频文本互检索放弃了预定义类别体系和传统的强监督学习范式，转而使用自然语言作为监督信号，视频文本互检索并非唯一利用语言信息帮助视频理解的途径，视频标题生成与基于文本的视频生成同样可以实现。然而目前阶段互检索任务更加实际，可操作性更高。类比于人类婴儿的学习过程，初始阶段往往是先看图认字，在后期才进行更困难的看图作文和命题绘画。

附图说明

图1为本发明多模态融合网络的结构示意图。

图2为本发明多模态融合网络与视频对比学习框架示意图。

图3为本发明选用TSN,TSM,I3D,R（2+1）D，Slowfast作为基线模型的指标图。

图4为本发明多模态融合网络的具体效果图。

图5为本发明消融实验数据对比图。

具体实施方式

实施例1：

如图1所示，本发明公开的多模态融合网络，将视频中的采样片段（V）分别通过视频帧输入、音频输入及字幕输入, 视频帧输入接收信号后传输给视频编码器（Ev），音频输入接受信号后传输给音频编码器（Ea），字幕输入接收信号后传输给字幕编码器（Esub），视频编码器（Ev）提取视频特征向量（Zv）, 音频编码器（Ea）提取音频特征向量（Za）, 字幕编码器（Esub）提取字幕特征向量（Zsub）；一方面，视频特征向量（Zv）、音频特征向量（Za）、字幕特征向量（Zsub）分别得到对应模态的212类别分类分数Score_vScore_a、Score_sub，将上述3个分类分数加权求和后获得 Score_V为整个视频的分类分数；另一方面，视频特征向量（Zv）、音频特征向量（Za）、字幕特征向量（Zsub）拼接后经过多层感知机（mlp）生成一号特征向量[Fv(V)]。

实施例2：

如图2所示，在实施例1的基础上，将视频标题文本(T)通过编码器（Etitle）和多层感知机（mlp）得到二号特征向量[Ft(T)]，将实施例1所得的一号特征向量[Fv(V)]与之进行余弦相似度计算，得出视频对比学习框架公示

；

追求相似度[s（V,T）]的最大化，为视频训练过程中的目标。

实施例3：

本发明选了5个常用的视频识别模型 TSN,TSM,I3D,R（2+1）D，Slowfast作为基线模型。它们均采用ResNet-50作为基础骨干网络，并在其基础上进行改进。3D卷积模型如I3D使用密集采样的连续帧，2D模型如TSN则使用稀疏采样帧，为了公平比较，除SlowFast模型（计算量较大）外其余模型均采用相同的输入帧数。通常来说3D模型会具有较好的指标，但是如图3所示，3D模型的表现远不如2D模型。本发明分析这主要是由于用户生成短视频与传统动作识别视频具有较大的语义层级差别，3D模型旨在用时空卷积拟合连续的动作类别，而在短视频中往往存在大量的镜头切换与剪辑，视频整体语义也并非完全依赖于时序动作。

实施例4：

本发明还测试了不同输入帧（3-8）的性能，实验表明输入帧数与理解效果成正比，还尝试在不同的大规模公开数据集上进行预训练，实验表明预训练的参数无法对短视频理解产生促进作用，其原因本发明归结为用户生成短视频与传统图像/视频数据集在标签语义和数据内容上存在很大的领域差别，抑制了迁移学习的效果。在图4中，本发明通过实验结果展示了MMF-Net的具体效果。为了增强实验可信度，采用两种不同的视觉分支架构 TSN和 Slowfast。由消融实验可知，多模态分支对整体理解产生了较大的正向影响。具体而言，单独的音频与文本分支的分类准确率均不超过50%，但将其与视觉分支融合后，并非由于均值效应拉低整体识别率，而是通过不同模态间的信息互补促进整体识别率。

实施例5：

本发明通过逐步向视觉分支中融合音频和字幕分支来实现多模态设定。为了公平比较，多模态的消融实验均参照相同的输入帧量和网络结构。参照图5可知，分别融合音频和字幕信息后，互检索效果均优于单独的视频分支。而三模态融合模型（即本发明的视频对比学习框架）达到了最高的召回率。

Claims

1.一种多模态视频理解方法，其特征在于，包括建立多模态融合网络，将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数，将视频标题文本通过编码器和多层感知机得到二号特征向量，将一号特征向量与二号特征向量进行余弦相似度计算，得出视频对比学习框架。

2.根据权利要求1所述的多模态视频理解方法，其特征在于，所述多模态融合网络包括信号输入端，信号输入端将信号传导给编码器，编码器将信号提取出对应模态的特征向量；一方面将特征向量用对应模态的类别分类分数，将类别分类分数进行加权求和整个视频的分类分数；另一方面将特征向量拼接后通过多层感知机生成一号特征向量。

3.根据权利要求2所述的多模态视频理解方法，其特征在于，所述输入端包括视频帧输入、音频输入及字幕输入。

4.根据权利要求3所述的多模态视频理解方法，其特征在于，所述视频帧输入、音频输入及字幕输入对应的编辑器分别为视频编码器、音频编码器及字幕编码器。

5.根据权利要求1所述的多模态视频理解方法，其特征在于，所述一号特征向量、二号特征向量共用同一套编码器。

6.根据权利要求1所述的多模态视频理解方法，其特征在于，所述视频对比学习框架公示如下：

；

其中，Fv(V)为第一特征向量，Ft(T)为第二特征向量。