CN115379242A - 一种三线性编码系统及视频-语言表征学习方法 - Google Patents

一种三线性编码系统及视频-语言表征学习方法 Download PDF

Info

Publication number
CN115379242A
CN115379242A CN202211020801.5A CN202211020801A CN115379242A CN 115379242 A CN115379242 A CN 115379242A CN 202211020801 A CN202211020801 A CN 202211020801A CN 115379242 A CN115379242 A CN 115379242A
Authority
CN
China
Prior art keywords
video
module
output end
dense
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211020801.5A
Other languages
English (en)
Inventor
满鑫
张明星
邵杰
陈飞宇
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Artificial Intelligence Research Institute Yibin
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202211020801.5A priority Critical patent/CN115379242A/zh
Publication of CN115379242A publication Critical patent/CN115379242A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种三线性编码系统及视频‑语言表征学习方法,方法包括以下步骤:S1、使用教学类视频和电视数据集作为数据样本,并将其分为视频片段;S2、使用密集字幕生成模型提取视频片段的密集字幕;提取原始ASR转录文本;每个片段的密集字幕作为原始ASR转录文本的补充文本;S3、将视频片段、原始ASR转录文本和密集字幕作为三线性编码系统的输入,获得视频‑语言表征;S4、使用视频‑语言表征进行视频‑文本的多模态信息交互。本发明关注模态间互信息;将密集字幕作为补充文本,自动提取密集字幕,实现了视频文本匹配。

Description

一种三线性编码系统及视频-语言表征学习方法
技术领域
本发明涉及多模态表征学习领域,具体包括一种三线性编码系统及视频-语言表征学习方法。
背景技术
在大数据环境和新基建背景下,日益丰富的数据对象使得数据本身呈现多模态的特点。其中,“多模态”可以直观地理解为数据不同的多媒体形式,也可以作为一个更加细粒度的概念。是否为多模态数据的关键在于数据是否具有异构性。例如,使用互联网搜索某歌手的信息时,会涉及到与之相关的多种不同数据,如图片、视频、文本、音频等。则这四种数据可以被理解为该对象的多模态数据。而表征学习作为多模态数据研究的基础方法之一,能从数据中学习出有用的表征,这大大减少了数据处理过程中对于特征工程的依赖,也在许多具体的多模态任务中有广泛的应用。
利用不同模态数据之间具有高度的相关性和互补性,多模态表征学习尝试挖掘不同模态之间的共性和特性,剔除模态冗余性,将多模态数据的语义表征为实值向量,该实值向量蕴含了不同模态数据的共同语义和各自特有特征,可以应用于多模态数据的处理和理解中。从处理模态的形式上来看,多模态表征学习的研究主要集中在图像-文本,视频-文本上,也就是视觉-语言表征学习。
目前较主流且性能尚好的视觉-语言表征学习的研究框架主要分为两种:一种是基于对比学习或者相似性学习的,其主要是在相似性的约束条件下优化每一种模态的表征。另外一种是基于自回归或者自编码的预训练架构的,其借助于Transformer等高效神经网络对各种数据模态的样本编码成特征然后再进行重构。
基于相似性的视觉语言表征学习是在一个协同的空间内最小化不同模态之间的距离,其输入数据主要为具有排序或者正负关系的视觉文本信息对,通过不同的建模方法实现视觉语言表征的学习。Weston等人在WSABIE中使用排序损失来度量标注数据与图像之间的相似性,DeViSE基于深度零样本学习的理念在不同模态的预训练向量之间建立了线性映射,然而这类基于相似性的视觉语言表征学习模型,在使用上其不能作为一个统一表征输出,需得采用一定拼接方式将两种向量连接起来。
基于自回归预训练架构的视觉语言表征学习会对每个模态元素之间的细节进行重构,将视觉模态和语言模态处理成语言序列任务,通过自监督的方式从海量数据中学习出两种模态的统一的联合编码,避免了基于相似性方法中需进行的不同模态编码再拼接的操作。此类基于自回归预训练架构的方法,一般分为两个阶段:1)第一阶段模型通过自编码或者自回归的方式让视觉语言信息进行充分的模态融合产生高质量的视觉语言表征,也就是通过设置一系列自监督学习的前置任务,在大量预训练数据集上进行模型预训练,使得学到的视觉语言联合编码具有任务无关的通用知识;2)第二阶段模型通过对下游任务进行参数微调,使其适用于具体多模态任务。
目前主流的视觉语言表征学习模型对于输入的文本特征向量和视觉特征向量,主要有三种编码方式,第一种是基于共享的单流结构的编码方式,将文本特征和视觉特征拼接起来,然后接一个BERT类似的自动编码器进行模态融合,Unicoder-VL,VL-BERT,VideoAsMT,VideoBERT,ActBERT和UNITER这六个工作都是采用的此种编码方式;第二种是基于交叉的双流结构的编码方式,先采用两个单独的编码器分别对文本特征和视觉特征进行分别编码,再分别通过两个跨模态编码器,将视觉和语言模态编码进行交叉融合,典型的例子有ViLBERT和LXMERT;第三种是基于联合的双流结构的编码方式,同样先采用两个单独的编码器分别对文本特征和视觉特征进行分别编码,再通过一个共享的跨模态编码器将不同模态特征进行融合,CBT和HERO便是采用的此种编码方式。与基于共享的单流结构的编码方式相比,双流结构的编码方式可以适应每种模式的不同处理需求,并在不同的表示深度上进行交互。而与交叉型结构相比,联合型结构具有一个共享的跨模态编码器,可以实现不同模态之间的更加充分信息交互。
对于视觉对象而言,相比于静态图像,动态的视频包含更多的模态特征,例如,视觉、运动、音频和文本,能为多模态的表征学习提供更为丰富模态信息的并建模更强的时空依赖关系。这使得视频-语言表征学习成为了近几年多模态表征学习领域重点研究对象。VideoBERT首次将BERT模型扩展到学习视频和文本的联合表征上,利用BERT网络自编码器的特性,使用掩码语言模型MLM和下一句预测NSP作为预训练的前置任务,将视频和文本特征进行充分融合。但是VideoBERT只使用离散标记来表示视频帧,而没有充分利用视频帧的其他丰富的特征。此外,模型以视频字幕和视觉帧的简单串联为输入,失去了视频和文本在时序上的对齐,这会削弱模型建模时序依赖关系的能力。为解决这种问题,HERO模型采用了一个分层式的结构去学习视频和文本之间更细粒的对齐关系,同时还增加了一个时序Transformer去保留视频和文本在时序上的对应关系,基于分层的结构模型实现了视频-文本之间多粒度的融合。这一定程度地提高了模型在时序上的建模能力,但是无论是直接采用BERT结构进行拼接式的模态融合,还是使用分层式的结构进行多粒度的模态融合,都没能同时实现模态内和模态间信息的充分交互和融合。
此外,现有的视频-语言表征学习工作,通常在大规模教学视频数据集上进行训练,如HowTo100M,该数据集包含120万个视频,其中包含1.36亿个自动从YouTube上获取视频片段。每个片段都与通过自动语音识别ASR系统从视频叙述中转录的文本配对。而该数据集存在两方面的不足,一方面是数据集种类丰富性上,该数据集采集的视频种类单一都为教学内容,所涉及的场景较为局限,情节较为单调,与日常活动中丰富的场景和人物互动的性有差距,这会约束模型学习能力的上限;另一方面是数据集所使用的文本,是通过自动语音识别ASR系统得到的转录文本,该文本在与视觉信息相对应时会存在语义错位和时序错位的问题。语义错位具体而言就是叙述词有时与视觉内容无关或者一些重要的视觉对象和动作没有被文字描述。时序错位指由于人们可能会在视觉内容出现之前或之后谈论某件事,所以通过语音产生的转录文本和视频内容的呈现在时间上会出现不对齐。HowTo100M数据集中大约50%的视频片段和ASR转录文本对之间都存在这两种错位,这两种情况都会给视频文本匹配任务造成困难。另外ASR转录文本本身也是有噪声、不完整和没有标点符号进行断句的,也限制了基于此类文本训练的系统的语言建模能力。
发明内容
针对现有技术中的上述不足,本发明提供的一种三线性编码系统及视频-语言表征学习方法解决了现有技术在实现视频-文本的多模态信息交互的过程中转录文本与视觉信息相对应是存在语义错误和转录文本和视觉内容的呈现在时间上不对齐的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种三线性编码系统,包括单模编码器、三线型的多模态融合编码器和时序变换器;
单模编码器,用于对视频帧序列、ASR转录文本序列和密集字幕序列进行编码;
三线型的多模态融合编码器,用于根据单模编码器的输出获取视频片段级编码;
时序变换器,用于通过预训练的前置任务去学习视频片段级的上下文信息,获得视频-语言表征;
信息交互模块,用于使用视频-语言表征进行视频-文本的多模态信息交互。
进一步地,三线型的多模态融合编码器包含至少一层多模态融合编码单元,每一层多模态融合编码单元包括5个多头注意力模块、3个自注意力模块、3个加权和模块、6个求和模块和3个前馈网络;
每一层多模态融合编码单元的第一多头注意力模块的输出端连接第一加权和模块的输入端和第二加权和模块的输入端;第二多头注意力模块的输出端连接第一加权和模块的输入端和第三加权和模块的输入端;
第一加权和模块的输出端连接第四多头注意力模块的输入端;第二加权和模块的输出端连接第三多头注意力模块的输入端;第三加权和模块的输出端连接第五多头注意力模块的输入端;
第三多头注意力模块的输出端连接第一求和模块的输入端;第四多头注意力模块的输出端连接第二求和模块的输入端;第五多头注意力模块的输出端连接第三求和模块的输入端;
第一求和模块的输出端连接第一自注意力模块的输入端;第一自注意力模块的输出端连接第一前馈网络的输入端和第四求和模块的输入端;第一前馈网络模块的输出端连接第四求和模块的输入端;第二求和模块的输出端连接第二自注意力模块的输入端;第二自注意力模块的输出端连接第五求和模块的输入端和第二前馈网络的输入端;第三求和模块的输出端连接第三自注意力模块的输入端;第三自注意力模块的输出端连接第三前馈网络的输入端和第六求和模块的输入端;第四求和模块的输出端作为三线型的多模态融合编码器的第一输出端;第五求和模块的输出端作为三线型的多模态融合编码器的第二输出端;第六求和模块的输出端作为三线型的多模态融合编码器的第三输出端。
一种应用三线性编码系统视频-语言表征学习方法,包括以下步骤:
S1、使用教学类视频和电视数据集作为数据样本,并将其分为视频片段;
S2、使用密集字幕生成模型提取视频片段的密集字幕;提取原始ASR转录文本;每个片段的密集字幕作为原始ASR转录文本的补充文本
S3、将视频片段、原始ASR转录文本和密集字幕作为三线性编码系统的输入,进行表征学习,获得视频-语言表征;
S4、使用视频-语言表征进行视频-文本的多模态信息交互。
进一步地,步骤S3的具体实现方式如下:
S3-1、根据公式:
TAl=BERTTA(tal)
TCl=BERTTC(tcl)
得到ASR转录文本编码TAl和密集字幕编码TCl;其中,tal、tcl分别表示第l个视频片段原始ASR转录文本和密集字幕;BERTTA表示对视频片段的ASR转录文本进行编码;BERTTC表示对密集字幕进行编码;
S3-2、根据公式:
Figure BDA0003814127820000061
得到视频帧编码
Figure BDA0003814127820000062
其中,Transformer表示对视频帧的上下文信息进行编码,vcl表示第l个视频片段的视频帧序列;
S3-3、使用三线型的多模态融合编码器获取视频片段级编码;
S3-4、将视频片段级编码输入到时序变换器中,通过预训练的前置任务去学习视频片段级的上下文信息,获得视频-语言表征。
进一步地,步骤S3-3的具体实现方式如下:
S3-3-1、根据公式:
Figure BDA0003814127820000071
得到ASR转录文本-视频帧信息交互结果
Figure BDA0003814127820000072
其中,hu表示第u层中间表示或者称为隐层表示;u表示三线型的多模态融合编码器的第u层;第u层的ASR转录文本隐层表示和第u层的密集字幕隐层表示分别为
Figure BDA0003814127820000073
Figure BDA0003814127820000074
表示查询参数;
Figure BDA0003814127820000075
表示
Figure BDA0003814127820000076
的可学习的权重;
Figure BDA0003814127820000077
表示
Figure BDA0003814127820000078
的可学习的权重;
Figure BDA0003814127820000079
表示
Figure BDA00038141278200000710
的可学习的权重;MultiH表示将数据经过多头注意力模块处理;
S3-3-2、根据公式:
Figure BDA00038141278200000711
得到密集字幕-视频帧之间的信息交互结果
Figure BDA00038141278200000712
其中,
Figure BDA00038141278200000713
表示
Figure BDA00038141278200000714
的可学习的权重;
Figure BDA00038141278200000715
表示
Figure BDA00038141278200000716
的可学习的权重;
Figure BDA00038141278200000717
表示
Figure BDA00038141278200000718
的可学习的权重;
S3-3-3、根据公式:
Figure BDA00038141278200000719
得到具有多模态信息的ASR转录文本编码
Figure BDA00038141278200000720
其中,
Figure BDA00038141278200000721
Figure BDA00038141278200000722
Figure BDA00038141278200000723
的加权和;
Figure BDA00038141278200000724
表示
Figure BDA00038141278200000725
的可学习权重;
Figure BDA00038141278200000726
表示
Figure BDA00038141278200000727
的可学习权重;
Figure BDA00038141278200000728
表示
Figure BDA00038141278200000729
的可学习权重;
S3-3-4、根据公式:
Figure BDA00038141278200000730
得到密集字幕编码
Figure BDA00038141278200000731
其中,
Figure BDA00038141278200000732
Figure BDA00038141278200000733
Figure BDA00038141278200000734
的加权和;
Figure BDA00038141278200000735
表示
Figure BDA00038141278200000736
的可学习的权重;
Figure BDA00038141278200000737
表示
Figure BDA00038141278200000738
的可学习的权重;
Figure BDA00038141278200000739
表示
Figure BDA00038141278200000740
的可学习的权重;
S3-3-5、根据公式:
Figure BDA0003814127820000081
得到视频帧编码
Figure BDA0003814127820000082
其中,
Figure BDA0003814127820000083
的加权和为
Figure BDA0003814127820000084
Figure BDA0003814127820000085
表示
Figure BDA0003814127820000086
的可学习权重;
Figure BDA0003814127820000087
表示
Figure BDA0003814127820000088
的可学习权重;
Figure BDA0003814127820000089
表示
Figure BDA00038141278200000810
的可学习权重;
S3-3-6、根据公式:
Figure BDA00038141278200000811
Figure BDA00038141278200000812
Figure BDA00038141278200000813
得到自注意力模块处理后的转录文本编码
Figure BDA00038141278200000814
自注意力模块处理后的密集字幕编码
Figure BDA00038141278200000815
自注意力模块处理后的视频帧序列编码
Figure BDA00038141278200000816
其中,Self表示将数据经过自注意力模块处理;
S3-3-7、将三个自注意力模块的输出经过前馈网络处理,得到包含了模态间互信息和模态内自相关信息的多模态特征编码;
S3-3-8、将得到的三种多态特征编码记为原始ASR转录文本序列、密集字幕序列和视频帧序列;
S3-3-9、判断当前迭代次数是否达到设置的模态融合编码器的的多模态融合编码单元层数;若是则进入步骤S3-3-10;否则将当前得到的原始ASR转录文本序列、密集字幕序列和视频帧序列作为三线性编码系统的输入,返回步骤S3-3-1;
S3-3-10、将最新的包含了模态间互信息和模态内自相关信息的多模态特征编码拼接得到一个视频片段级编码。
本发明的有益效果为:本发明既关注模态内的自相关关系,还考虑模态间互信息的方法;基于视频的密集字幕作补充文本,通过自动提取密集视频字幕,描述视频帧中显著区域的重要对象、属性和动作细节,为视频文本匹配提供了有用的信号。
附图说明
图1为视频-语言表征学习方法流程图;
图2为三线型编码系统结构图;
图3为三线型的多模态融合编码器单层结构图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种应用三线型编码器的视频-语言表征学习方法,包括以下步骤:
S1、使用教学类视频和电视数据集作为数据样本,并将其分为视频片段;
S2、使用密集字幕生成模型提取视频片段的密集字幕;提取原始ASR转录文本;每个片段的密集字幕作为原始ASR转录文本的补充文本
S3、将视频片段、原始ASR转录文本和密集字幕作为三线性编码系统的输入,进行表征学习,获得的视频-语言表征;
S4、使用视频-语言表征进行视频-文本的多模态信息交互。
步骤S3的具体实现方式如下:
S3-1、根据公式:
TAl=BERTTA(tal)
TCl=BERTTC(tcl)
得到ASR转录文本编码TAl和密集字幕编码TCl;其中,tal、tcl分别表示第l个视频片段原始ASR转录文本和密集字幕;BERTTA表示对视频片段的ASR转录文本进行编码;BERTTC表示对密集字幕进行编码;
S3-2、根据公式:
Figure BDA0003814127820000101
得到视频帧编码
Figure BDA0003814127820000102
其中,Transformer表示对视频帧的上下文信息进行编码,vcl表示第l个视频片段的视频帧序列;
S3-3、使用三线型的多模态融合编码器获取视频片段级编码;
S3-4、将视频片段级编码输入到时序变换器中,通过预训练的前置任务去学习视频片段级的上下文信息,获得视频-语言表征。
步骤S3-3的具体实现方式如下:
S3-3-1、根据公式:
Figure BDA0003814127820000103
得到ASR转录文本-视频帧信息交互结果
Figure BDA0003814127820000104
其中,hu表示第u层中间表示或者称为隐层表示;u表示三线型的多模态融合编码器的第u层;第u层的ASR转录文本隐层表示和第u层的密集字幕隐层表示分别为
Figure BDA0003814127820000105
Figure BDA0003814127820000106
表示查询参数;
Figure BDA0003814127820000107
表示
Figure BDA0003814127820000108
的可学习的权重;
Figure BDA0003814127820000109
表示
Figure BDA00038141278200001010
的可学习的权重;
Figure BDA00038141278200001011
表示
Figure BDA00038141278200001012
的可学习的权重;MultiH表示将数据经过多头注意力模块处理;
S3-3-2、根据公式:
Figure BDA00038141278200001013
得到密集字幕-视频帧之间的信息交互结果
Figure BDA00038141278200001014
其中,
Figure BDA00038141278200001015
表示
Figure BDA00038141278200001016
的可学习的权重;
Figure BDA00038141278200001017
表示
Figure BDA00038141278200001018
的可学习的权重;
Figure BDA00038141278200001019
表示
Figure BDA00038141278200001020
的可学习的权重;
S3-3-3、根据公式:
Figure BDA0003814127820000111
得到具有多模态信息的ASR转录文本编码
Figure BDA0003814127820000112
其中,
Figure BDA0003814127820000113
Figure BDA0003814127820000114
Figure BDA0003814127820000115
的加权和;
Figure BDA0003814127820000116
表示
Figure BDA0003814127820000117
的可学习权重;
Figure BDA0003814127820000118
表示
Figure BDA0003814127820000119
的可学习权重;
Figure BDA00038141278200001110
表示
Figure BDA00038141278200001111
的可学习权重;
S3-3-4、根据公式:
Figure BDA00038141278200001112
得到密集字幕编码
Figure BDA00038141278200001113
其中,
Figure BDA00038141278200001114
Figure BDA00038141278200001115
Figure BDA00038141278200001116
的加权和;
Figure BDA00038141278200001117
表示
Figure BDA00038141278200001118
的可学习的权重;
Figure BDA00038141278200001119
表示
Figure BDA00038141278200001120
的可学习的权重;
Figure BDA00038141278200001121
表示
Figure BDA00038141278200001122
的可学习的权重;
S3-3-5、根据公式:
Figure BDA00038141278200001123
得到视频帧编码
Figure BDA00038141278200001124
其中,
Figure BDA00038141278200001125
的加权和为
Figure BDA00038141278200001126
Figure BDA00038141278200001127
表示
Figure BDA00038141278200001128
的可学习权重;
Figure BDA00038141278200001129
表示
Figure BDA00038141278200001130
的可学习权重;
Figure BDA00038141278200001131
表示
Figure BDA00038141278200001132
的可学习权重;
S3-3-6、根据公式:
Figure BDA00038141278200001133
Figure BDA00038141278200001134
Figure BDA00038141278200001135
得到自注意力模块处理后的转录文本编码
Figure BDA00038141278200001136
自注意力模块处理后的密集字幕编码
Figure BDA00038141278200001137
自注意力模块处理后的视频帧序列编码
Figure BDA00038141278200001138
其中,Self表示将数据经过自注意力模块处理;
S3-3-7、将三个自注意力模块的输出经过前馈网络处理,得到包含了模态间互信息和模态内自相关信息的多模态特征编码;
S3-3-8、将得到的三种多态特征编码记为原始ASR转录文本序列、密集字幕序列和视频帧序列;
S3-3-9、判断当前迭代次数是否达到设置的模态融合编码器的的多模态融合编码单元层数;若是则进入步骤S3-3-10;否则将当前得到的原始ASR转录文本序列、密集字幕序列和视频帧序列作为三线性编码系统的输入,返回步骤S3-3-1;
S3-3-10、将最新的包含了模态间互信息和模态内自相关信息的多模态特征编码拼接得到一个视频片段级编码。
如图2所示,一种三线性编码系统,包括单模编码器、三线型的多模态融合编码器和时序变换器;
单模编码器,用于对视频帧序列、ASR转录文本序列和密集字幕序列进行编码;
三线型的多模态融合编码器,用于根据单模编码器的输出获取视频片段级编码;
时序变换器,用于通过预训练的前置任务去学习视频片段级的上下文信息,获得视频-语言表征;
信息交互模块,用于使用视频-语言表征进行视频-文本的多模态信息交互。
如图3所示,三线型的多模态融合编码器包含至少一层多模态融合编码单元,每一层多模态融合编码单元包括5个多头注意力模块、3个自注意力模块、3个加权和模块、6个求和模块和3个前馈网络;
每一层多模态融合编码单元的第一多头注意力模块的输出端连接第一加权和模块的输入端和第二加权和模块的输入端;第二多头注意力模块的输出端连接第一加权和模块的输入端和第三加权和模块的输入端;
第一加权和模块的输出端连接第四多头注意力模块的输入端;第二加权和模块的输出端连接第三多头注意力模块的输入端;第三加权和模块的输出端连接第五多头注意力模块的输入端;
第三多头注意力模块的输出端连接第一求和模块的输入端;第四多头注意力模块的输出端连接第二求和模块的输入端;第五多头注意力模块的输出端连接第三求和模块的输入端;
第一求和模块的输出端连接第一自注意力模块的输入端;第一自注意力模块的输出端连接第一前馈网络的输入端和第四求和模块的输入端;第一前馈网络模块的输出端连接第四求和模块的输入端;第二求和模块的输出端连接第二自注意力模块的输入端;第二自注意力模块的输出端连接第五求和模块的输入端和第二前馈网络的输入端;第三求和模块的输出端连接第三自注意力模块的输入端;第三自注意力模块的输出端连接第三前馈网络的输入端和第六求和模块的输入端;第四求和模块的输出端作为三线型的多模态融合编码器的第一输出端;第五求和模块的输出端作为三线型的多模态融合编码器的第二输出端;第六求和模块的输出端作为三线型的多模态融合编码器的第三输出端;
图3中,TA、Venc和TC分别表示ASR转录文本编码、视频帧序列和密集字幕编码;方块1、方块2和方块3表示第一加权和模块、第二加权和模块和第三加权和模块;圆1、圆2、圆3、圆4、圆5和圆6表示第一求和模块、第二求和模块、第三求和模块、第四求和模块、第五求和模块和第六求和模块。
在本发明的一个实施例中,本发明通过四个预训练的前置任务,在HowTo100M和TV数据集上进行预训练,之后迁移到多个下游任务上进行实验。实验结果表明,三线性编码系统可以学习到鲁棒地视频-语言表征,实现视频-文本的多模态信息交互,并在三个下游任务地四个数据集上达到最佳性能;其中,对ASR转录文本的自监督前置任务MLM将句子中的一些词随机盖住,让模型预测这些词;对视频帧的自监督前置任务MFM把视频帧序列中一部分帧随机的盖住,模型根据输入视频帧序列,学习其时序关系,并预测接下来几帧的视觉特征;基于语义对其关系的自监督前置任VSM实现视频-文本的对齐和匹配;基于视频帧的时序性的前置任务FOM随机选择15%的帧进行打乱,记重排序索引为
Figure BDA0003814127820000141
重建它们的原始时间顺序。
三个下游任务和对应数据集的介绍如下:
多模态视频字幕描述任务,通过自动生成多个对应的自然语言句子来传递视频信息。系统在该任务中的表现可以有效验证系统是否充分挖掘视觉和语言的多模态信息来帮助内容理解。在TVC数据集上验证了三线性编码系统的学习性能。TVC是一个扩展自TVR的多模式视频字幕数据集,包含262K视频描述和108K视频片段。标准指标包括BLEU@4,METEOR,ROUGE-L和CIDEr-D。BLEU@4用来衡量句子中单词级别的准确性的指标,METEOR融合了准确率、召回率,利用二者的调和平均值来作为评判标准,ROUGE-L是基于召回率的相似性度量方法,主要度量参考译文的充分性和忠实性。CIDEr-D通过计算参考译文和候选译文之间的TF-IDF向量余弦距离度量二者的相似性。将经过微调后的模型与MMT、VALUE和HERO这三种基准方法进行了比较,其中,MMT方法是Lei等人在“TVR:A Large-Scale Dataset forVideo-Subtitle Moment Retrieval.In ECCV,2020,pp447-46”文献中提出的,该方法首先对三个模态的处理分别采用了专门预训练的网络提取特征,可以通过不同的网络结构提取更多模态的特征。Li等人在“VALUE:A Multi-Task Benchmark for Video-and-LanguageUnderstanding Evaluation.In NeurIPS,2021”中提出的VALUE方法对比了一系列特征融合方法,采用SlowFast网络结构实现了视频特征和字幕特征的有效结合。而Li等人在“HERO:Hierarchical Encoder for Video+Language Omni-representation Pre-training,In EMNLP,2020,pp 2046-2065”提出的HERO方法与之前的方法不同,它通过一个跨模态Transformer融合局部的相应帧和文本特征,再用一个时序Transformer融合这些局部的视频特征,该方法能更好的建模不同模态之间的对应关系,同时保留视频本身的时序信息。本方法与上述方法的比较结果如表1所示:
表1
Figure BDA0003814127820000151
实验结果表明,三线性编码系统的性能优于另外三种方法。这种优越的性能表明,三线性编码系统学到的视觉-语言表征已充分挖掘了视觉和语言之间多模态信息来帮助内容理解。
多模态视频问答任务,旨在根据给定的视频回答自然语言问题。选择所有选项中相似度得分最高的答案作为预测答案。微调的模型在两个视频问答数据集上进行了测试,分别是TVQA和How2QA。TVQA是在电视视频多项选择设置下收集的数据集,这个数据集由21793个视频片段和152545组问答对组成。How2QA数据集的视频片段是从HowTo100M的教学视频中采样而来。Accuracy准确率被用于测量模型在TVQA和How2QA上的性能。对于TVQA数据集,将我们的三线性编码系统与之前的PAMN模型,AMN和Yang et al.进行比较其中,PAMN方法是Kim等人在“Progressive attention memory network for movie story questionanswering.In CVPR,2019,pp 8337-8346”文献中提出的,该方法针对视频问答任务采用一种渐进式注意力机制会找出与回答问题相关的时间间隔,通过考虑每种模态的贡献来自适应地融合不同模态的信息。Yuan等人在“Adversarial Multimodal Network for MovieStory QuestionAnswering.In IEEE Trans.Multim.,vol.23,pp1744-1756,2021”中提出了AMN方法采用一种逆向的多模态网络结构解决视频问答任务。Yang等人在“BERTRepresentations for Video Question Answering.In WACV,2020,pp1545-1554”中提出了的方法,即比较方法中的Yang et al.,它基于BERT结构去构建Question-Answering模型,从视频剪切片段中对齐视觉和语言语义信息来改进视频问答。我们的方法与上述方法进行比较的结果如表2所示,结果显示三线性编码系统的表现优于所有对比模型,这进一步证明了本系统的有效性。
表2
Figure BDA0003814127820000161
视频和语言推理任务,要求模型推断一个书面声明是否包含或违背给定的视频片段内容。这是一项具有挑战性的新任务,因为从视频中获得的视觉和文本线索需要对视频内容进行深入理解和推断。在VIOLIN数据集上对三线性编码系统的性能进行了验证。VIOLIN数据集有15.9K个视频片段,其中包含95.3K个视频假设对组成,与视频问答任务类似,Accuracy准确率是衡量模型在VIOLIN数据集上的性能指标。VIOLIN数据集则是Liu等人在“Violin:ALarge-Scale Dataset for Video-and-Language Inference.InCVPR,2020,pp10897-10907”文献中提出的,同时该文献还提出了用于解决视频语言推理任务的Multi-stream方法。我们的方法在视频语言推理任务上的性能优于最近的HERO和Multi-stream方法,结果如表2所示,综合以上三个任务的表现可以看出,本发明提出的三线性编码系统能够对模态间的互信息和模态内的自相关关系进行建模,充分挖掘了视觉和语言之间的对应关系,从而学习到的视觉-语言表征。
由此可见,实现视频-文本的多模态信息交互可以用于判断图像内容与文本内容是否匹配,以及用于根据图像内容自动匹配相应的文本内容。本发明既关注模态内的自相关关系,还考虑模态间互信息的方法;基于视频的密集字幕作补充文本,通过自动提取密集视频字幕,描述视频帧中显著区域的重要对象、属性和动作细节,为视频文本匹配提供了有用的信号。

Claims (5)

1.一种三线性编码系统,其特征在于,
单模编码器,用于对视频帧序列、ASR转录文本序列和密集字幕序列进行编码;
三线型的多模态融合编码器,用于根据单模编码器的输出获取视频片段级编码;
时序变换器,用于通过预训练的前置任务去学习视频片段级编码的上下文信息,获得视频-语言表征;
信息交互模块,用于使用视频-语言表征进行视频-文本的多模态信息交互。
2.根据权利要求1所述的一种三线性编码系统,其特征在于,三线型的多模态融合编码器包含至少一层多模态融合编码单元,每一层多模态融合编码单元包括5个多头注意力模块、3个自注意力模块、3个加权和模块、6个求和模块和3个前馈网络;
每一层多模态融合编码单元的第一多头注意力模块的输出端连接第一加权和模块的输入端和第二加权和模块的输入端;第二多头注意力模块的输出端连接第一加权和模块的输入端和第三加权和模块的输入端;
第一加权和模块的输出端连接第四多头注意力模块的输入端;第二加权和模块的输出端连接第三多头注意力模块的输入端;第三加权和模块的输出端连接第五多头注意力模块的输入端;
第三多头注意力模块的输出端连接第一求和模块的输入端;第四多头注意力模块的输出端连接第二求和模块的输入端;第五多头注意力模块的输出端连接第三求和模块的输入端;
第一求和模块的输出端连接第一自注意力模块的输入端;第一自注意力模块的输出端连接第一前馈网络的输入端和第四求和模块的输入端;第一前馈网络模块的输出端连接第四求和模块的输入端;第二求和模块的输出端连接第二自注意力模块的输入端;第二自注意力模块的输出端连接第五求和模块的输入端和第二前馈网络的输入端;第三求和模块的输出端连接第三自注意力模块的输入端;第三自注意力模块的输出端连接第三前馈网络的输入端和第六求和模块的输入端;第四求和模块的输出端作为三线型的多模态融合编码器的第一输出端;第五求和模块的输出端作为三线型的多模态融合编码器的第二输出端;第六求和模块的输出端作为三线型的多模态融合编码器的第三输出端。
3.一种应用一种三线性编码系统的视频-语言表征学习方法,其特征在于,包括以下步骤:
S1、使用教学类视频和电视数据集作为数据样本,并将其分为视频片段;
S2、使用密集字幕生成模型提取视频片段的密集字幕;提取原始ASR转录文本;每个片段的密集字幕作为原始ASR转录文本的补充文本;
S3、将视频片段、原始ASR转录文本和密集字幕作为三线性编码系统的输入,进行表征学习,获得视频-语言表征;
S4、使用视频-语言表征进行视频-文本的多模态信息交互。
4.根据权利要求3所述的一种视频-语言表征学习方法,其特征在于,步骤S3的具体实现方式如下:
S3-1、根据公式:
TAl=BERTTA(tal)
TCl=BERTTC(tcl)
得到ASR转录文本编码TAl和密集字幕编码TCl;其中,tal、tcl分别表示第l个视频片段原始ASR转录文本和密集字幕;BERTTA表示对视频片段的ASR转录文本进行编码;BERTTC表示对密集字幕进行编码;
S3-2、根据公式:
Figure FDA0003814127810000031
得到视频帧编码
Figure FDA0003814127810000032
其中,Transformer表示对视频帧的上下文信息进行编码,vcl表示第l个视频片段的视频帧序列;
S3-3、使用三线型的多模态融合编码器获取视频片段级编码;
S3-4、将视频片段级编码输入到时序变换器中,通过预训练的前置任务去学习视频片段级的上下文信息,进行语言表征学习,获得视频-语言表征。
5.根据权利要求4所述的一种视频-语言表征学习方法,其特征在于,步骤S3-3的具体实现方式如下:
S3-3-1、根据公式:
Figure FDA0003814127810000033
得到ASR转录文本-视频帧信息交互结果
Figure FDA0003814127810000034
其中,hu表示第u层中间表示或者称为隐层表示;u表示三线型的多模态融合编码器的第u层;第u层的ASR转录文本隐层表示和第u层的密集字幕隐层表示分别为
Figure FDA0003814127810000035
Figure FDA0003814127810000036
Figure FDA0003814127810000037
表示查询参数;
Figure FDA0003814127810000038
表示
Figure FDA0003814127810000039
的可学习的权重;
Figure FDA00038141278100000310
表示
Figure FDA00038141278100000311
的可学习的权重;
Figure FDA00038141278100000312
表示
Figure FDA00038141278100000313
的可学习的权重;MultiH表示将数据经过多头注意力模块处理;
S3-3-2、根据公式:
Figure FDA00038141278100000314
得到密集字幕-视频帧之间的信息交互结果
Figure FDA00038141278100000315
其中,
Figure FDA00038141278100000316
表示
Figure FDA00038141278100000317
的可学习的权重;
Figure FDA00038141278100000318
表示
Figure FDA00038141278100000319
的可学习的权重;
Figure FDA00038141278100000320
表示
Figure FDA00038141278100000321
的可学习的权重;
S3-3-3、根据公式:
Figure FDA00038141278100000322
得到具有多模态信息的ASR转录文本编码
Figure FDA00038141278100000323
其中,
Figure FDA00038141278100000324
Figure FDA00038141278100000325
Figure FDA0003814127810000041
的加权和;
Figure FDA0003814127810000042
表示
Figure FDA0003814127810000043
的可学习权重;
Figure FDA0003814127810000044
表示
Figure FDA0003814127810000045
的可学习权重;
Figure FDA0003814127810000046
表示
Figure FDA0003814127810000047
的可学习权重;
S3-3-4、根据公式:
Figure FDA0003814127810000048
得到密集字幕编码
Figure FDA0003814127810000049
其中,
Figure FDA00038141278100000410
Figure FDA00038141278100000411
Figure FDA00038141278100000412
的加权和;
Figure FDA00038141278100000413
表示
Figure FDA00038141278100000414
的可学习的权重;
Figure FDA00038141278100000415
表示
Figure FDA00038141278100000416
的可学习的权重;
Figure FDA00038141278100000417
表示
Figure FDA00038141278100000418
的可学习的权重;
S3-3-5、根据公式:
Figure FDA00038141278100000419
得到视频帧编码
Figure FDA00038141278100000420
其中,
Figure FDA00038141278100000421
的加权和为
Figure FDA00038141278100000422
Figure FDA00038141278100000423
表示
Figure FDA00038141278100000424
的可学习权重;
Figure FDA00038141278100000425
表示
Figure FDA00038141278100000426
的可学习权重;
Figure FDA00038141278100000427
表示
Figure FDA00038141278100000428
的可学习权重;
S3-3-6、根据公式:
Figure FDA00038141278100000429
Figure FDA00038141278100000430
Figure FDA00038141278100000431
得到自注意力模块处理后的转录文本编码
Figure FDA00038141278100000432
自注意力模块处理后的密集字幕编码
Figure FDA00038141278100000433
自注意力模块处理后的视频帧序列编码
Figure FDA00038141278100000434
其中,Self表示将数据经过自注意力模块处理;
S3-3-7、将三个自注意力模块的输出经过前馈网络处理,得到包含了模态间互信息和模态内自相关信息的多模态特征编码;
S3-3-8、将得到的三种多态特征编码记为原始ASR转录文本序列、密集字幕序列和视频帧序列;
S3-3-9、判断当前迭代次数是否达到设置的模态融合编码器的的多模态融合编码单元层数;若是则进入步骤S3-3-10;否则将当前得到的原始ASR转录文本序列、密集字幕序列和视频帧序列作为三线性编码系统的输入,返回步骤S3-3-1;
S3-3-10、将最新的包含了模态间互信息和模态内自相关信息的多模态特征编码拼接得到一个视频片段级编码。
CN202211020801.5A 2022-08-24 2022-08-24 一种三线性编码系统及视频-语言表征学习方法 Pending CN115379242A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211020801.5A CN115379242A (zh) 2022-08-24 2022-08-24 一种三线性编码系统及视频-语言表征学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211020801.5A CN115379242A (zh) 2022-08-24 2022-08-24 一种三线性编码系统及视频-语言表征学习方法

Publications (1)

Publication Number Publication Date
CN115379242A true CN115379242A (zh) 2022-11-22

Family

ID=84067844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211020801.5A Pending CN115379242A (zh) 2022-08-24 2022-08-24 一种三线性编码系统及视频-语言表征学习方法

Country Status (1)

Country Link
CN (1) CN115379242A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786134A (zh) * 2024-02-27 2024-03-29 自然语义(青岛)科技有限公司 中文语言教学视听平台多模态语料库及智能多维检索系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786134A (zh) * 2024-02-27 2024-03-29 自然语义(青岛)科技有限公司 中文语言教学视听平台多模态语料库及智能多维检索系统
CN117786134B (zh) * 2024-02-27 2024-05-10 自然语义(青岛)科技有限公司 中文语言教学视听平台多模态语料库及智能多维检索系统

Similar Documents

Publication Publication Date Title
Torabi et al. Learning language-visual embedding for movie understanding with natural-language
KR101855597B1 (ko) 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법
Lev et al. Talksumm: A dataset and scalable annotation method for scientific paper summarization based on conference talks
JP7106802B2 (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
Tang et al. Video understanding with large language models: A survey
CN110263340B (zh) 评论生成方法、装置、服务器及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
Papalampidi et al. Movie summarization via sparse graph construction
CN103984772A (zh) 文本检索字幕库生成方法和装置、视频检索方法和装置
US20080281579A1 (en) Method and System for Facilitating The Learning of A Language
CN117219067B (zh) 一种基于语音理解的短视频自动生成字幕的方法及系统
Wang et al. Holistic multi-modal memory network for movie question answering
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
CN113111663A (zh) 一种融合关键信息的摘要生成方法
CN115712709A (zh) 基于多关系图模型的多模态对话问答生成方法
CN115379242A (zh) 一种三线性编码系统及视频-语言表征学习方法
CN116662482A (zh) 多模态情感分析方法、装置及电子设备
CN117493608B (zh) 一种文本视频检索方法、系统及计算机存储介质
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
Xia et al. Video-guided curriculum learning for spoken video grounding
Wang et al. SlideSpeech: A Large Scale Slide-Enriched Audio-Visual Corpus
Man et al. Tevl: Trilinear encoder for video-language representation learning
Varma et al. Deep learning-based video captioning technique using transformer
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
Liu et al. Storytelling of photo stream with bidirectional multi-thread recurrent neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination