CN115129934A - 一种多模态视频理解方法 - Google Patents

一种多模态视频理解方法 Download PDF

Info

Publication number
CN115129934A
CN115129934A CN202210765668.XA CN202210765668A CN115129934A CN 115129934 A CN115129934 A CN 115129934A CN 202210765668 A CN202210765668 A CN 202210765668A CN 115129934 A CN115129934 A CN 115129934A
Authority
CN
China
Prior art keywords
video
feature vector
encoder
input
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210765668.XA
Other languages
English (en)
Inventor
王利民
金力为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202210765668.XA priority Critical patent/CN115129934A/zh
Publication of CN115129934A publication Critical patent/CN115129934A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

本发明公开了一种多模态视频理解方法,包括建立多模态融合网络,将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数,将视频标题文本通过编码器和多层感知机得到二号特征向量,将一号特征向量与二号特征向量进行余弦相似度计算,得出视频对比学习框架。本发明通过话题识别任务促进工业界开发更完备的深度模型,实现对于短视频整体的高层语义理解;视频文本互检索放弃了预定义类别体系和传统的强监督学习范式,转而使用自然语言作为监督信号,视频文本互检索并非唯一利用语言信息帮助视频理解的途径,视频标题生成与基于文本的视频生成同样可以实现。

Description

一种多模态视频理解方法
技术领域
本发明属于计算机软件技术领域,涉及自监督特征学习和场景分类,具体涉及一种多模态视频理解方法。
背景技术
为了在数据集上对用户生成短视频理解设立基准,现提出了两个具体的任务,分别是话题识别以及视频文本互检索。尽管话题识别和动作识别都可以被归类为多类别单标签的分类问题,他们之间仍存在两个重要不同点。
话题识别使用相比于动作类别包含更多高层语义的话题作为标签。相比于传统的动作识别任务,本发明提出的话题识别任务鼓励使用视频内部的多种模态信息,包括原始帧、音频、字幕都可以在训练和测试阶段使用。多模态处理工具如自动音频识别和光学字符识别同样可以使用。因此,本发明定义的话题识别任务不是纯粹的实例级别视觉任务,而是多模态高语义层级的视频分类任务。
大部分用户生成短视频都附带用户上传的标题,该标题通常与对应视频具有强关联性。本发明将随着视频爬取的标签视为自然存在的视频描述。这些“视频描述”并非由专业的标注者标注,通过爬虫可以规模化获取,便于数据集的扩展。更重要的是,传统数据集中存在的标注者的个人偏差问题因为由巨量不同的用户作为“标注人员”而得到缓解。
发明内容
发明目的:本发明的目的基于标题的视频文本互检索任务包括两个子任务,分别为通过标题文本检索视频和通过视频检索标题文本。
技术方案:为了达到上述发明目的,本发明具体是这样来实现的:一种多模态视频理解方法,包括建立多模态融合网络,将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数,将视频标题文本通过编码器和多层感知机得到二号特征向量,将一号特征向量与二号特征向量进行余弦相似度计算,得出视频对比学习框架。
其中,多模态融合网络包括信号输入端,信号输入端将信号传导给编码器,编码器将信号提取出对应模态的特征向量;一方面将特征向量用对应模态的类别分类分数,将类别分类分数进行加权求和整个视频的分类分数;另一方面将特征向量拼接后通过多层感知机生成一号特征向量。
其中,输入端包括视频帧输入、音频输入及字幕输入。
其中,视频帧输入、音频输入及字幕输入对应的编辑器分别为视频编码器、音频编码器及字幕编码器。
其中,一号特征向量、二号特征向量共用同一套编码器。
其中,视频对比学习框架公示如下:
Figure 100002_DEST_PATH_IMAGE002
Fv(V)为第一特征向量,Ft(T)为第二特征向量。
有益效果:与传统技术相比,本发明主要存在以下优点:
(1)本发明考虑一个包含n对视频和标题的测试集,基于文本的视频检索目标是对于测试集内每个标题找出其对应的视频,基于视频检索标题文本则是对于测试集内每个视频找出其对应的文本。和话题识别类似的,视频文本互检索任务同样鼓励使用多模态信息。本发明提出的视频文本互检索任务相比于话题识别和有人工标注的检索任务更加困难,这是由于用户生成标题通常具有更复杂的语义,并且往往在较高语义层级上与视频本身内容产生关联。
(2)本发明建立短视频数据集的出发点是探索用户生成短视频高层语义,选择话题识别而不是现有的任务(如视频目标检测、动作识别等)主要是因为现有任务仅关注低层级的实例级别视频表征,而忽略了视频多个模态结合的整体表征。本发明希望通过话题识别任务促进工业界开发更完备的深度模型,实现对于短视频整体的高层语义理解。
(3)本发明视频文本互检索放弃了预定义类别体系和传统的强监督学习范式,转而使用自然语言作为监督信号,视频文本互检索并非唯一利用语言信息帮助视频理解的途径,视频标题生成与基于文本的视频生成同样可以实现。然而目前阶段互检索任务更加实际,可操作性更高。类比于人类婴儿的学习过程,初始阶段往往是先看图认字,在后期才进行更困难的看图作文和命题绘画。
附图说明
图1为本发明多模态融合网络的结构示意图。
图2为本发明多模态融合网络与视频对比学习框架示意图。
图3为本发明选用TSN,TSM,I3D,R(2+1)D,Slowfast作为基线模型的指标图。
图4为本发明多模态融合网络的具体效果图。
图5为本发明消融实验数据对比图。
具体实施方式
实施例1:
如图1所示,本发明公开的多模态融合网络,将视频中的采样片段(V)分别通过视频帧输入、音频输入及字幕输入, 视频帧输入接收信号后传输给视频编码器(Ev),音频输入接受信号后传输给音频编码器(Ea),字幕输入接收信号后传输给字幕编码器(Esub),视频编码器(Ev)提取视频特征向量(Zv), 音频编码器(Ea)提取音频特征向量(Za), 字幕编码器(Esub)提取字幕特征向量(Zsub);一方面,视频特征向量(Zv)、音频特征向量(Za)、字幕特征向量(Zsub)分别得到对应模态的212类别分类分数ScorevScorea、Scoresub,将上述3个分类分数加权求和后获得 ScoreV为整个视频的分类分数;另一方面,视频特征向量(Zv)、音频特征向量(Za)、字幕特征向量(Zsub)拼接后经过多层感知机(mlp) 生成一号特征向量[Fv(V)]。
实施例2:
如图2所示,在实施例1的基础上,将视频标题文本(T)通过编码器(Etitle)和多层感知机(mlp)得到二号特征向量[Ft(T)],将实施例1所得的一号特征向量[Fv(V)]与之进行余弦相似度计算,得出视频对比学习框架公示
Figure DEST_PATH_IMAGE003
追求相似度[s(V,T)]的最大化,为视频训练过程中的目标。
实施例3:
本发明选了5个常用的视频识别模型 TSN,TSM,I3D,R(2+1)D,Slowfast作为基线模型。它们均采用ResNet-50作为基础骨干网络,并在其基础上进行改进。3D卷积模型如I3D使用密集采样的连续帧,2D模型如TSN则使用稀疏采样帧,为了公平比较,除SlowFast模型(计算量较大)外其余模型均采用相同的输入帧数。通常来说3D模型会具有较好的指标,但是如图3所示,3D模型的表现远不如2D模型。本发明分析这主要是由于用户生成短视频与传统动作识别视频具有较大的语义层级差别,3D模型旨在用时空卷积拟合连续的动作类别,而在短视频中往往存在大量的镜头切换与剪辑,视频整体语义也并非完全依赖于时序动作。
实施例4:
本发明还测试了不同输入帧(3-8)的性能,实验表明输入帧数与理解效果成正比,还尝试在不同的大规模公开数据集上进行预训练,实验表明预训练的参数无法对短视频理解产生促进作用,其原因本发明归结为用户生成短视频与传统图像/视频数据集在标签语义和数据内容上存在很大的领域差别,抑制了迁移学习的效果。在图4中,本发明通过实验结果展示了MMF-Net的具体效果。为了增强实验可信度,采用两种不同的视觉分支架构 TSN和 Slowfast。由消融实验可知,多模态分支对整体理解产生了较大的正向影响。具体而言,单独的音频与文本分支的分类准确率均不超过50%,但将其与视觉分支融合后,并非由于均值效应拉低整体识别率,而是通过不同模态间的信息互补促进整体识别率。
实施例5:
本发明通过逐步向视觉分支中融合音频和字幕分支来实现多模态设定。为了公平比较,多模态的消融实验均参照相同的输入帧量和网络结构。参照图5可知,分别融合音频和字幕信息后,互检索效果均优于单独的视频分支。而三模态融合模型(即本发明的视频对比学习框架)达到了最高的召回率。

Claims (6)

1.一种多模态视频理解方法,其特征在于,包括建立多模态融合网络,将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数,将视频标题文本通过编码器和多层感知机得到二号特征向量,将一号特征向量与二号特征向量进行余弦相似度计算,得出视频对比学习框架。
2.根据权利要求1所述的多模态视频理解方法,其特征在于,所述多模态融合网络包括信号输入端,信号输入端将信号传导给编码器,编码器将信号提取出对应模态的特征向量;一方面将特征向量用对应模态的类别分类分数,将类别分类分数进行加权求和整个视频的分类分数;另一方面将特征向量拼接后通过多层感知机生成一号特征向量。
3.根据权利要求2所述的多模态视频理解方法,其特征在于,所述输入端包括视频帧输入、音频输入及字幕输入。
4.根据权利要求3所述的多模态视频理解方法,其特征在于,所述视频帧输入、音频输入及字幕输入对应的编辑器分别为视频编码器、音频编码器及字幕编码器。
5.根据权利要求1所述的多模态视频理解方法,其特征在于,所述一号特征向量、二号特征向量共用同一套编码器。
6.根据权利要求1所述的多模态视频理解方法,其特征在于,所述视频对比学习框架公示如下:
Figure DEST_PATH_IMAGE002
其中,Fv(V)为第一特征向量,Ft(T)为第二特征向量。
CN202210765668.XA 2022-07-01 2022-07-01 一种多模态视频理解方法 Pending CN115129934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210765668.XA CN115129934A (zh) 2022-07-01 2022-07-01 一种多模态视频理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210765668.XA CN115129934A (zh) 2022-07-01 2022-07-01 一种多模态视频理解方法

Publications (1)

Publication Number Publication Date
CN115129934A true CN115129934A (zh) 2022-09-30

Family

ID=83381792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210765668.XA Pending CN115129934A (zh) 2022-07-01 2022-07-01 一种多模态视频理解方法

Country Status (1)

Country Link
CN (1) CN115129934A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620213A (zh) * 2022-12-15 2023-01-17 城云科技(中国)有限公司 一种多模态自监督渐进视频摘要模型、方法及装置
CN115952255A (zh) * 2022-11-21 2023-04-11 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952255A (zh) * 2022-11-21 2023-04-11 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
CN115952255B (zh) * 2022-11-21 2023-12-05 北京邮电大学 多模态信号内容分析方法、装置、电子设备及存储介质
CN115620213A (zh) * 2022-12-15 2023-01-17 城云科技(中国)有限公司 一种多模态自监督渐进视频摘要模型、方法及装置

Similar Documents

Publication Publication Date Title
CN109117777B (zh) 生成信息的方法和装置
Dilawari et al. ASoVS: abstractive summarization of video sequences
CN115129934A (zh) 一种多模态视频理解方法
CN111488489A (zh) 视频文件的分类方法、装置、介质及电子设备
Stappen et al. Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
Bilkhu et al. Attention is all you need for videos: Self-attention based video summarization using universal transformers
CN116166827B (zh) 语义标签抽取模型的训练和语义标签的抽取方法及其装置
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
Zhang et al. Temporal sentence grounding in videos: A survey and future directions
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116955699A (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
KR20210047467A (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN117219067B (zh) 一种基于语音理解的短视频自动生成字幕的方法及系统
CN117036833B (zh) 一种视频分类方法、装置、设备和计算机可读存储介质
CN113807307A (zh) 一种用于视频多行为识别的多模态联合学习方法
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN116956920A (zh) 一种多任务协同表征的多模态命名实体识别方法
Stappen et al. MuSe 2020--The First International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
Liu et al. End-to-End Chinese Lip-Reading Recognition Based on Multi-modal Fusion
CN110648666A (zh) 一种基于会议概要提升会议转写性能的方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination