CN115379242A

CN115379242A - 一种三线性编码系统及视频-语言表征学习方法

Info

Publication number: CN115379242A
Application number: CN202211020801.5A
Authority: CN
Inventors: 满鑫; 张明星; 邵杰; 陈飞宇; 申恒涛
Original assignee: Sichuan Artificial Intelligence Research Institute Yibin
Current assignee: Sichuan Artificial Intelligence Research Institute Yibin
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-22

Abstract

本发明公开了一种三线性编码系统及视频‑语言表征学习方法，方法包括以下步骤：S1、使用教学类视频和电视数据集作为数据样本，并将其分为视频片段；S2、使用密集字幕生成模型提取视频片段的密集字幕；提取原始ASR转录文本；每个片段的密集字幕作为原始ASR转录文本的补充文本；S3、将视频片段、原始ASR转录文本和密集字幕作为三线性编码系统的输入，获得视频‑语言表征；S4、使用视频‑语言表征进行视频‑文本的多模态信息交互。本发明关注模态间互信息；将密集字幕作为补充文本，自动提取密集字幕，实现了视频文本匹配。

Description

一种三线性编码系统及视频-语言表征学习方法

技术领域

本发明涉及多模态表征学习领域，具体包括一种三线性编码系统及视频-语言表征学习方法。

背景技术

在大数据环境和新基建背景下，日益丰富的数据对象使得数据本身呈现多模态的特点。其中，“多模态”可以直观地理解为数据不同的多媒体形式，也可以作为一个更加细粒度的概念。是否为多模态数据的关键在于数据是否具有异构性。例如，使用互联网搜索某歌手的信息时，会涉及到与之相关的多种不同数据，如图片、视频、文本、音频等。则这四种数据可以被理解为该对象的多模态数据。而表征学习作为多模态数据研究的基础方法之一，能从数据中学习出有用的表征，这大大减少了数据处理过程中对于特征工程的依赖，也在许多具体的多模态任务中有广泛的应用。

利用不同模态数据之间具有高度的相关性和互补性，多模态表征学习尝试挖掘不同模态之间的共性和特性，剔除模态冗余性，将多模态数据的语义表征为实值向量，该实值向量蕴含了不同模态数据的共同语义和各自特有特征，可以应用于多模态数据的处理和理解中。从处理模态的形式上来看，多模态表征学习的研究主要集中在图像-文本，视频-文本上，也就是视觉-语言表征学习。

目前较主流且性能尚好的视觉-语言表征学习的研究框架主要分为两种:一种是基于对比学习或者相似性学习的，其主要是在相似性的约束条件下优化每一种模态的表征。另外一种是基于自回归或者自编码的预训练架构的，其借助于Transformer等高效神经网络对各种数据模态的样本编码成特征然后再进行重构。

基于相似性的视觉语言表征学习是在一个协同的空间内最小化不同模态之间的距离,其输入数据主要为具有排序或者正负关系的视觉文本信息对,通过不同的建模方法实现视觉语言表征的学习。Weston等人在WSABIE中使用排序损失来度量标注数据与图像之间的相似性，DeViSE基于深度零样本学习的理念在不同模态的预训练向量之间建立了线性映射，然而这类基于相似性的视觉语言表征学习模型，在使用上其不能作为一个统一表征输出，需得采用一定拼接方式将两种向量连接起来。

基于自回归预训练架构的视觉语言表征学习会对每个模态元素之间的细节进行重构，将视觉模态和语言模态处理成语言序列任务，通过自监督的方式从海量数据中学习出两种模态的统一的联合编码，避免了基于相似性方法中需进行的不同模态编码再拼接的操作。此类基于自回归预训练架构的方法，一般分为两个阶段：1)第一阶段模型通过自编码或者自回归的方式让视觉语言信息进行充分的模态融合产生高质量的视觉语言表征，也就是通过设置一系列自监督学习的前置任务，在大量预训练数据集上进行模型预训练，使得学到的视觉语言联合编码具有任务无关的通用知识；2)第二阶段模型通过对下游任务进行参数微调，使其适用于具体多模态任务。

目前主流的视觉语言表征学习模型对于输入的文本特征向量和视觉特征向量，主要有三种编码方式，第一种是基于共享的单流结构的编码方式，将文本特征和视觉特征拼接起来，然后接一个BERT类似的自动编码器进行模态融合，Unicoder-VL，VL-BERT，VideoAsMT，VideoBERT，ActBERT和UNITER这六个工作都是采用的此种编码方式；第二种是基于交叉的双流结构的编码方式，先采用两个单独的编码器分别对文本特征和视觉特征进行分别编码，再分别通过两个跨模态编码器，将视觉和语言模态编码进行交叉融合，典型的例子有ViLBERT和LXMERT；第三种是基于联合的双流结构的编码方式，同样先采用两个单独的编码器分别对文本特征和视觉特征进行分别编码，再通过一个共享的跨模态编码器将不同模态特征进行融合，CBT和HERO便是采用的此种编码方式。与基于共享的单流结构的编码方式相比，双流结构的编码方式可以适应每种模式的不同处理需求，并在不同的表示深度上进行交互。而与交叉型结构相比，联合型结构具有一个共享的跨模态编码器，可以实现不同模态之间的更加充分信息交互。

对于视觉对象而言，相比于静态图像，动态的视频包含更多的模态特征，例如，视觉、运动、音频和文本，能为多模态的表征学习提供更为丰富模态信息的并建模更强的时空依赖关系。这使得视频-语言表征学习成为了近几年多模态表征学习领域重点研究对象。VideoBERT首次将BERT模型扩展到学习视频和文本的联合表征上，利用BERT网络自编码器的特性，使用掩码语言模型MLM和下一句预测NSP作为预训练的前置任务，将视频和文本特征进行充分融合。但是VideoBERT只使用离散标记来表示视频帧，而没有充分利用视频帧的其他丰富的特征。此外，模型以视频字幕和视觉帧的简单串联为输入，失去了视频和文本在时序上的对齐，这会削弱模型建模时序依赖关系的能力。为解决这种问题，HERO模型采用了一个分层式的结构去学习视频和文本之间更细粒的对齐关系，同时还增加了一个时序Transformer去保留视频和文本在时序上的对应关系，基于分层的结构模型实现了视频-文本之间多粒度的融合。这一定程度地提高了模型在时序上的建模能力，但是无论是直接采用BERT结构进行拼接式的模态融合，还是使用分层式的结构进行多粒度的模态融合，都没能同时实现模态内和模态间信息的充分交互和融合。

此外，现有的视频-语言表征学习工作，通常在大规模教学视频数据集上进行训练，如HowTo100M，该数据集包含120万个视频，其中包含1.36亿个自动从YouTube上获取视频片段。每个片段都与通过自动语音识别ASR系统从视频叙述中转录的文本配对。而该数据集存在两方面的不足，一方面是数据集种类丰富性上，该数据集采集的视频种类单一都为教学内容，所涉及的场景较为局限，情节较为单调，与日常活动中丰富的场景和人物互动的性有差距，这会约束模型学习能力的上限；另一方面是数据集所使用的文本，是通过自动语音识别ASR系统得到的转录文本，该文本在与视觉信息相对应时会存在语义错位和时序错位的问题。语义错位具体而言就是叙述词有时与视觉内容无关或者一些重要的视觉对象和动作没有被文字描述。时序错位指由于人们可能会在视觉内容出现之前或之后谈论某件事，所以通过语音产生的转录文本和视频内容的呈现在时间上会出现不对齐。HowTo100M数据集中大约50％的视频片段和ASR转录文本对之间都存在这两种错位，这两种情况都会给视频文本匹配任务造成困难。另外ASR转录文本本身也是有噪声、不完整和没有标点符号进行断句的，也限制了基于此类文本训练的系统的语言建模能力。

发明内容

针对现有技术中的上述不足，本发明提供的一种三线性编码系统及视频-语言表征学习方法解决了现有技术在实现视频-文本的多模态信息交互的过程中转录文本与视觉信息相对应是存在语义错误和转录文本和视觉内容的呈现在时间上不对齐的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种三线性编码系统，包括单模编码器、三线型的多模态融合编码器和时序变换器；

单模编码器，用于对视频帧序列、ASR转录文本序列和密集字幕序列进行编码；

三线型的多模态融合编码器，用于根据单模编码器的输出获取视频片段级编码；

时序变换器，用于通过预训练的前置任务去学习视频片段级的上下文信息，获得视频-语言表征；

信息交互模块，用于使用视频-语言表征进行视频-文本的多模态信息交互。

进一步地，三线型的多模态融合编码器包含至少一层多模态融合编码单元，每一层多模态融合编码单元包括5个多头注意力模块、3个自注意力模块、3个加权和模块、6个求和模块和3个前馈网络；

每一层多模态融合编码单元的第一多头注意力模块的输出端连接第一加权和模块的输入端和第二加权和模块的输入端；第二多头注意力模块的输出端连接第一加权和模块的输入端和第三加权和模块的输入端；

第一加权和模块的输出端连接第四多头注意力模块的输入端；第二加权和模块的输出端连接第三多头注意力模块的输入端；第三加权和模块的输出端连接第五多头注意力模块的输入端；

第三多头注意力模块的输出端连接第一求和模块的输入端；第四多头注意力模块的输出端连接第二求和模块的输入端；第五多头注意力模块的输出端连接第三求和模块的输入端；

第一求和模块的输出端连接第一自注意力模块的输入端；第一自注意力模块的输出端连接第一前馈网络的输入端和第四求和模块的输入端；第一前馈网络模块的输出端连接第四求和模块的输入端；第二求和模块的输出端连接第二自注意力模块的输入端；第二自注意力模块的输出端连接第五求和模块的输入端和第二前馈网络的输入端；第三求和模块的输出端连接第三自注意力模块的输入端；第三自注意力模块的输出端连接第三前馈网络的输入端和第六求和模块的输入端；第四求和模块的输出端作为三线型的多模态融合编码器的第一输出端；第五求和模块的输出端作为三线型的多模态融合编码器的第二输出端；第六求和模块的输出端作为三线型的多模态融合编码器的第三输出端。

一种应用三线性编码系统视频-语言表征学习方法，包括以下步骤：

S1、使用教学类视频和电视数据集作为数据样本，并将其分为视频片段；

S2、使用密集字幕生成模型提取视频片段的密集字幕；提取原始ASR转录文本；每个片段的密集字幕作为原始ASR转录文本的补充文本

S3、将视频片段、原始ASR转录文本和密集字幕作为三线性编码系统的输入，进行表征学习，获得视频-语言表征；

S4、使用视频-语言表征进行视频-文本的多模态信息交互。

进一步地，步骤S3的具体实现方式如下：

S3-1、根据公式：

TA_l＝BERT_TA(ta_l)

TC_l＝BERT_TC(tc_l)

得到ASR转录文本编码TA_l和密集字幕编码TC_l；其中，ta_l、tc_l分别表示第l个视频片段原始ASR转录文本和密集字幕；BERT_TA表示对视频片段的ASR转录文本进行编码；BERT_TC表示对密集字幕进行编码；

S3-2、根据公式：

得到视频帧编码

其中，Transformer表示对视频帧的上下文信息进行编码，vc_l表示第l个视频片段的视频帧序列；

S3-3、使用三线型的多模态融合编码器获取视频片段级编码；

S3-4、将视频片段级编码输入到时序变换器中，通过预训练的前置任务去学习视频片段级的上下文信息，获得视频-语言表征。

进一步地，步骤S3-3的具体实现方式如下：

S3-3-1、根据公式：

得到ASR转录文本-视频帧信息交互结果

其中，h^u表示第u层中间表示或者称为隐层表示；u表示三线型的多模态融合编码器的第u层；第u层的ASR转录文本隐层表示和第u层的密集字幕隐层表示分别为

和

表示查询参数；

表示

的可学习的权重；

表示

的可学习的权重；

表示

的可学习的权重；MultiH表示将数据经过多头注意力模块处理；

S3-3-2、根据公式：

得到密集字幕-视频帧之间的信息交互结果

其中，

表示

的可学习的权重；

表示

的可学习的权重；

表示

的可学习的权重；

S3-3-3、根据公式：

得到具有多模态信息的ASR转录文本编码

其中，

为

和

的加权和；

表示

的可学习权重；

表示

的可学习权重；

表示

的可学习权重；

S3-3-4、根据公式：

得到密集字幕编码

其中，

为

和

的加权和；

表示

的可学习的权重；

表示

的可学习的权重；

表示

的可学习的权重；

S3-3-5、根据公式：

得到视频帧编码

其中，

的加权和为

表示

的可学习权重；

表示

的可学习权重；

表示

的可学习权重；

S3-3-6、根据公式：

得到自注意力模块处理后的转录文本编码

自注意力模块处理后的密集字幕编码

自注意力模块处理后的视频帧序列编码

其中，Self表示将数据经过自注意力模块处理；

S3-3-7、将三个自注意力模块的输出经过前馈网络处理，得到包含了模态间互信息和模态内自相关信息的多模态特征编码；

S3-3-8、将得到的三种多态特征编码记为原始ASR转录文本序列、密集字幕序列和视频帧序列；

S3-3-9、判断当前迭代次数是否达到设置的模态融合编码器的的多模态融合编码单元层数；若是则进入步骤S3-3-10；否则将当前得到的原始ASR转录文本序列、密集字幕序列和视频帧序列作为三线性编码系统的输入，返回步骤S3-3-1；

S3-3-10、将最新的包含了模态间互信息和模态内自相关信息的多模态特征编码拼接得到一个视频片段级编码。

本发明的有益效果为：本发明既关注模态内的自相关关系，还考虑模态间互信息的方法；基于视频的密集字幕作补充文本，通过自动提取密集视频字幕，描述视频帧中显著区域的重要对象、属性和动作细节，为视频文本匹配提供了有用的信号。

附图说明

图1为视频-语言表征学习方法流程图；

图2为三线型编码系统结构图；

图3为三线型的多模态融合编码器单层结构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种应用三线型编码器的视频-语言表征学习方法，包括以下步骤：

S3、将视频片段、原始ASR转录文本和密集字幕作为三线性编码系统的输入，进行表征学习，获得的视频-语言表征；

S4、使用视频-语言表征进行视频-文本的多模态信息交互。

步骤S3的具体实现方式如下：

S3-1、根据公式：

TA_l＝BERT_TA(ta_l)

TC_l＝BERT_TC(tc_l)

S3-2、根据公式：

得到视频帧编码

S3-3、使用三线型的多模态融合编码器获取视频片段级编码；

步骤S3-3的具体实现方式如下：

S3-3-1、根据公式：

得到ASR转录文本-视频帧信息交互结果

和

表示查询参数；

表示

的可学习的权重；

表示

的可学习的权重；

表示

S3-3-2、根据公式：

得到密集字幕-视频帧之间的信息交互结果

其中，

表示

的可学习的权重；

表示

的可学习的权重；

表示

的可学习的权重；

S3-3-3、根据公式：

得到具有多模态信息的ASR转录文本编码

其中，

为

和

的加权和；

表示

的可学习权重；

表示

的可学习权重；

表示

的可学习权重；

S3-3-4、根据公式：

得到密集字幕编码

其中，

为

和

的加权和；

表示

的可学习的权重；

表示

的可学习的权重；

表示

的可学习的权重；

S3-3-5、根据公式：

得到视频帧编码

其中，

的加权和为

表示

的可学习权重；

表示

的可学习权重；

表示

的可学习权重；

S3-3-6、根据公式：

得到自注意力模块处理后的转录文本编码

自注意力模块处理后的密集字幕编码

自注意力模块处理后的视频帧序列编码

其中，Self表示将数据经过自注意力模块处理；

如图2所示，一种三线性编码系统，包括单模编码器、三线型的多模态融合编码器和时序变换器；

如图3所示，三线型的多模态融合编码器包含至少一层多模态融合编码单元，每一层多模态融合编码单元包括5个多头注意力模块、3个自注意力模块、3个加权和模块、6个求和模块和3个前馈网络；

第一求和模块的输出端连接第一自注意力模块的输入端；第一自注意力模块的输出端连接第一前馈网络的输入端和第四求和模块的输入端；第一前馈网络模块的输出端连接第四求和模块的输入端；第二求和模块的输出端连接第二自注意力模块的输入端；第二自注意力模块的输出端连接第五求和模块的输入端和第二前馈网络的输入端；第三求和模块的输出端连接第三自注意力模块的输入端；第三自注意力模块的输出端连接第三前馈网络的输入端和第六求和模块的输入端；第四求和模块的输出端作为三线型的多模态融合编码器的第一输出端；第五求和模块的输出端作为三线型的多模态融合编码器的第二输出端；第六求和模块的输出端作为三线型的多模态融合编码器的第三输出端；

图3中，TA、Venc和TC分别表示ASR转录文本编码、视频帧序列和密集字幕编码；方块1、方块2和方块3表示第一加权和模块、第二加权和模块和第三加权和模块；圆1、圆2、圆3、圆4、圆5和圆6表示第一求和模块、第二求和模块、第三求和模块、第四求和模块、第五求和模块和第六求和模块。

在本发明的一个实施例中，本发明通过四个预训练的前置任务，在HowTo100M和TV数据集上进行预训练，之后迁移到多个下游任务上进行实验。实验结果表明，三线性编码系统可以学习到鲁棒地视频-语言表征，实现视频-文本的多模态信息交互，并在三个下游任务地四个数据集上达到最佳性能；其中，对ASR转录文本的自监督前置任务MLM将句子中的一些词随机盖住，让模型预测这些词；对视频帧的自监督前置任务MFM把视频帧序列中一部分帧随机的盖住，模型根据输入视频帧序列，学习其时序关系，并预测接下来几帧的视觉特征；基于语义对其关系的自监督前置任VSM实现视频-文本的对齐和匹配；基于视频帧的时序性的前置任务FOM随机选择15％的帧进行打乱，记重排序索引为

重建它们的原始时间顺序。

三个下游任务和对应数据集的介绍如下：

多模态视频字幕描述任务，通过自动生成多个对应的自然语言句子来传递视频信息。系统在该任务中的表现可以有效验证系统是否充分挖掘视觉和语言的多模态信息来帮助内容理解。在TVC数据集上验证了三线性编码系统的学习性能。TVC是一个扩展自TVR的多模式视频字幕数据集，包含262K视频描述和108K视频片段。标准指标包括BLEU@4，METEOR，ROUGE-L和CIDEr-D。BLEU@4用来衡量句子中单词级别的准确性的指标，METEOR融合了准确率、召回率，利用二者的调和平均值来作为评判标准，ROUGE-L是基于召回率的相似性度量方法，主要度量参考译文的充分性和忠实性。CIDEr-D通过计算参考译文和候选译文之间的TF-IDF向量余弦距离度量二者的相似性。将经过微调后的模型与MMT、VALUE和HERO这三种基准方法进行了比较，其中，MMT方法是Lei等人在“TVR:A Large-Scale Dataset forVideo-Subtitle Moment Retrieval.In ECCV,2020,pp447-46”文献中提出的，该方法首先对三个模态的处理分别采用了专门预训练的网络提取特征，可以通过不同的网络结构提取更多模态的特征。Li等人在“VALUE:A Multi-Task Benchmark for Video-and-LanguageUnderstanding Evaluation.In NeurIPS,2021”中提出的VALUE方法对比了一系列特征融合方法，采用SlowFast网络结构实现了视频特征和字幕特征的有效结合。而Li等人在“HERO:Hierarchical Encoder for Video+Language Omni-representation Pre-training,In EMNLP,2020,pp 2046-2065”提出的HERO方法与之前的方法不同，它通过一个跨模态Transformer融合局部的相应帧和文本特征，再用一个时序Transformer融合这些局部的视频特征，该方法能更好的建模不同模态之间的对应关系，同时保留视频本身的时序信息。本方法与上述方法的比较结果如表1所示：

表1

实验结果表明，三线性编码系统的性能优于另外三种方法。这种优越的性能表明，三线性编码系统学到的视觉-语言表征已充分挖掘了视觉和语言之间多模态信息来帮助内容理解。

多模态视频问答任务，旨在根据给定的视频回答自然语言问题。选择所有选项中相似度得分最高的答案作为预测答案。微调的模型在两个视频问答数据集上进行了测试，分别是TVQA和How2QA。TVQA是在电视视频多项选择设置下收集的数据集，这个数据集由21793个视频片段和152545组问答对组成。How2QA数据集的视频片段是从HowTo100M的教学视频中采样而来。Accuracy准确率被用于测量模型在TVQA和How2QA上的性能。对于TVQA数据集，将我们的三线性编码系统与之前的PAMN模型，AMN和Yang et al.进行比较其中，PAMN方法是Kim等人在“Progressive attention memory network for movie story questionanswering.In CVPR,2019,pp 8337-8346”文献中提出的，该方法针对视频问答任务采用一种渐进式注意力机制会找出与回答问题相关的时间间隔，通过考虑每种模态的贡献来自适应地融合不同模态的信息。Yuan等人在“Adversarial Multimodal Network for MovieStory QuestionAnswering.In IEEE Trans.Multim.,vol.23,pp1744-1756,2021”中提出了AMN方法采用一种逆向的多模态网络结构解决视频问答任务。Yang等人在“BERTRepresentations for Video Question Answering.In WACV,2020,pp1545-1554”中提出了的方法，即比较方法中的Yang et al.，它基于BERT结构去构建Question-Answering模型，从视频剪切片段中对齐视觉和语言语义信息来改进视频问答。我们的方法与上述方法进行比较的结果如表2所示，结果显示三线性编码系统的表现优于所有对比模型，这进一步证明了本系统的有效性。

表2

视频和语言推理任务，要求模型推断一个书面声明是否包含或违背给定的视频片段内容。这是一项具有挑战性的新任务，因为从视频中获得的视觉和文本线索需要对视频内容进行深入理解和推断。在VIOLIN数据集上对三线性编码系统的性能进行了验证。VIOLIN数据集有15.9K个视频片段，其中包含95.3K个视频假设对组成，与视频问答任务类似，Accuracy准确率是衡量模型在VIOLIN数据集上的性能指标。VIOLIN数据集则是Liu等人在“Violin:ALarge-Scale Dataset for Video-and-Language Inference.InCVPR,2020,pp10897-10907”文献中提出的，同时该文献还提出了用于解决视频语言推理任务的Multi-stream方法。我们的方法在视频语言推理任务上的性能优于最近的HERO和Multi-stream方法，结果如表2所示，综合以上三个任务的表现可以看出，本发明提出的三线性编码系统能够对模态间的互信息和模态内的自相关关系进行建模，充分挖掘了视觉和语言之间的对应关系，从而学习到的视觉-语言表征。

由此可见，实现视频-文本的多模态信息交互可以用于判断图像内容与文本内容是否匹配，以及用于根据图像内容自动匹配相应的文本内容。本发明既关注模态内的自相关关系，还考虑模态间互信息的方法；基于视频的密集字幕作补充文本，通过自动提取密集视频字幕，描述视频帧中显著区域的重要对象、属性和动作细节，为视频文本匹配提供了有用的信号。