CN110175266A

CN110175266A - 一种用于多段视频跨模态检索的方法

Info

Publication number: CN110175266A
Application number: CN201910453196.2A
Authority: CN
Inventors: 姜育刚; 王铮
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-27
Anticipated expiration: 2039-05-28
Also published as: CN110175266B

Abstract

本发明属于计算机视频分析技术领域，具体为一种用于多段视频跨模态检索的方法。本发明针对长文本跨模态检索多段视频任务，基于预检索与排序的思路提出了相关视频片段预选取方法和多段无序视频语义排序网络架构，并设计了双边自注意力方法提取视频中与检索文本相关的特征。本方法首先使用带有自注意力机制的跨模态检模型初选出一小部分相关的视频片段，再根据同模态和跨模态相似度进一步精选视频片段，最后用语义排序网络将视频片段序列与文本句子序列对齐。本发明方法具有鲁棒性高，速度快等优点，设计的多文本多视频片段语义对齐方法，不仅适用于等长序列的对齐问题，也适用于非等长序列的对齐问题。

Description

一种用于多段视频跨模态检索的方法

技术领域

本发明属于计算机视频分析技术领域，具体涉及一种用于多段视频跨模态检索的方法。

背景技术

随着深度学习技术的快速发展，多模态数据的建模与交互，例如将视觉内容与自然语言处理相结合的任务，得到了广泛的关注和开发。现有工作大多数关注的是为单个图像或视频自动生成自然语句，本发明提出的是一个相反的任务，在这个任务中我们尝试查找多个视频片段并将其组合成一个符合句子描述的连续视频序列。在实际应用中，用户经常会拍摄视频片段以记录难忘的时刻，并在一段时间后通过写一段话就可以自动地获得这段文字对应的视频序列。因此，从一堆视频片段中检索那些句子相关片段并将它们排列成与用户描述最佳匹配的特定顺序是有意义的。

本发明对多段视频的跨模态检索方法，是指预选取与若干个句子语义相关的所有可能视频片段，并使用这些检索到的片段来组成整个视频，即与句子匹配的视频片段序列，理想的顺序应该与段落中的句子顺序相同。

本发明主要针对的是根据若干个句子的描述对同样数量且语义上前后相关的视频进行自动检索的任务。这个任务主要存在以下挑战：首先，由于单个句子包含的语义信息是有限的，检索到的视频很可能并不准确，因此需要更多地关注句子中描述的内容来相应地提取视频中相关的语义特征；也因此保留多个视频作为可能的结果是有必要的；有了多个视频片段后，由于召回的视频已经与各个句子高度相关，要再在其中选择最有可能的若干个视频需要更多地考虑上下文信息，保留下与其他视频能很好衔接在一起的视频片段；当被选择的视频数量与句子数量不一致且未对齐时，需要寻找一个最优的排列，这需要同时考虑到排序算法的时间复杂度和空间复杂度。

近年来，也有相关研究工作尝试解决此类问题。

文[1]针对一对一的检索问题提出了两阶段的排序策列，给定一个查询语句，首先通过比较图像特征召回若干个语义上相似的候选项，随后通过对比更细粒度的物体特征计算候选项与查询语句之间的语义相似度给出相似度排序。这个方法能大幅降低对比全部视频的细粒度特征的时间开销，但受限于一对一的对应关系，无法利用上下文信息来综合考虑单个片段在整体段落中的合适度。

文[2]提出了将排序问题视作一个序列生成问题，利用分支与边界算法，通过丢弃当前搜索空间中与已生成序列最不匹配的子空间，从而降低搜索复杂度。但该方法并没有作为语义参考的文本段落，仅根据视频间的连续性和相关性对多段视频进行排序，另外这种方法对初始节点的选择比较敏感，在序列包含无关视频时的鲁棒性较差。

发明内容

本发明的目的在于克服现有技术中的上述不足，提出一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法。

由于单个视频片段检索的局部最优性难以获得最优的检索结果，本发明设计了预选择并排序的算法，将先保留更多相关的视频片段，再通过片段间的上下文信息，设计了排序网络将多个无序的视频片段排列成全局最优的视频片段序列；并且考虑到视频本身丰富语义信息的特点，设计了双边自注意力特征融合网络提取视频中与检索文本相关的特征，在增加少量计算量的条件下提取视频中对检索文本敏感的特征。

本发明提出的基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法，具体的步骤如下：

(1)用预训练的图像特征提取网络Inception-ResNet(Szegedy,Christian,etal."Inception-v4,inception-resnet and the impact of residual connections onlearning."Thirty-First AAAI Conference on Artificial Intelligence.2017.

)和物体特征提取网络Faster-RCNN(Girshick,Ross."Fast r-cnn."Proceedingsof the IEEE international conference on computer vision.2015.)分别对视频数据集中的样本逐帧提取视频帧的图像特征和物体特征；

(2)用双向循环神经网络Bi-LSTM(Pascanu,Razvan,Tomas Mikolov,and YoshuaBengio."On the difficulty of training recurrent neural networks."International conference on machine learning.2013.)提取句子中词汇向量融合了句子上下文信息的词汇特征，同时拼接句首和句尾的特征向量作为句子特征；

(3)对每一帧中的物体特征，采用双边自注意力特征融合网络中的视觉自注意力模块，获得每一帧的物体特征；

(4)对每一句中的词汇特征，采用双边自注意力特征融合网络中的文本自注意力模块，获得每一句的词语特征；

(5)计算物体特征和词汇特征的特征距离，作为辅助的代价函数，学习双边自注意力特征融合网络，使得配对的物体和词汇的特征距离接近；

(6)将物体特征与视频帧的图像特征拼接在一起，作为帧特征，用视频特征提取网络NetVLAD(Arandjelovic,Relja,et al."NetVLAD:CNN architecture for weaklysupervised place recognition."Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2016.)，聚合所有帧特征形成视频特征；

(7)计算视频特征和句子特征之间的特征距离，作为主要的代价函数，学习视频特征提取网络NetVLAD和双向循环神经网络Bi-LSTM，使得配对的视频和句子的特征距离接近；

(8)计算所有候选视频中任意两个视频之间的特征距离，学习另一个视频特征提取网络NetVLAD使得来自同一个视频序列集合的视频之间的特征距离接近；

(9)利用submodular function(子模态函数,Leskovec,Jure,et al."Cost-effective outbreak detection in networks."Proceedings of the 13th ACM SIGKDDinternational conference on Knowledge discovery and data mining.ACM,2007.)，根据段落中句子与所有候选视频的相似度以及候选视频之间的相似度，择出与段落中句子同等数量的最相似的视频；

(10)将所有候选视频的特征与查询段落的特征输入排序网络，实现多个视频片段与多个句子之间的语义对齐，获得视频的排序。

本发明中，所述的双边自注意力特征融合网络中包括物体自注意力模块、词汇自注意力模块，参见图3所示。双边自注意力特征融合网络输入多个词语特征和多个物体特征,得到多个词语特征融合后的词语特征以及多个物体特征融合后的物体特征。物体特征的自注意力特征融合网络,输入是N个物体特征o和帧特征f，其计算如下：

其中，W_o,W_f,W_h,P均为模型参数；词汇特征的自注意力特征融合网络，输入是N个词汇特征w和帧特征f，其计算如下：

其中，W_w,W_f,W_h,P均为模型参数。自注意力特征融合网络输出的特征将融合后的词语特征和物体特征映射到同一个语义空间。通过最小化o和w之间的平均均方误差,使得融合的物体特征尽可能贴近与句子一致的语义。

本发明中，所述的排序网络，参见图4所示，排序网络的输入是所有无序的视频片段特征向量和所有有序的句子特征向量，每一个视频片段特征向量分别与所有句子特征向量拼接，得到的特征平铺在一起，用1*1的卷积核融合两种模态的特征，再将所有视频片段融合后的特征堆叠在一起组成一个列表，用多个1*3的卷积核融合上下文信息并将特征图通道减小到1，形成一个方阵，方阵的每行代表每一个视频片段与所有句子之间的契合度，方阵的每列是同一个句子与所有视频片段之间的契合度。利用Sinkhorn算法(Mena,Gonzalo,et al."Learning latent permutations with gumbel-sinkhorn networks."arXiv preprint arXiv:1802.08665(2018).)分别对方阵的行和列做多次的归一化，将方阵视作置换矩阵与无序的特征向量列表相乘，得到的结果是交换过位置后的特征向量列表，将其与语义上准确对齐的特征向量列表之间计算平均均方误差。

与现有的自动跨模态检索方法不同，本发明解决了多对多序列对齐的问题，考虑到单个视频片段检索的局部最优性以及多个视频片段全局排序所需的高效性，提出了预选择并排序的方法，将多段序列的检索问题分成两个阶段进行，从而解决了单次匹配精度不高，没有利用全局信息的问题。基于以上改进，本发明方法具有更强的上下文语义关联性，且可以提高多段序列检索问题的精度。

本发明方法具有鲁棒性高，速度快等优点，设计的多文本多视频片段语义对齐方法，不仅适用于等长序列的对齐问题，也适用于非等长序列的对齐问题。

本发明的创新之处在于：

1、使用基于双边自注意力特征融合网络的特征信息融合方法，在训练过程中用句子的语义信息作为监督信号，从而使得融合的视觉特征能够包含与检索文本相关的特征信息，而且双边自注意力特征融合网络的视觉模块在测试阶段不需要句子特征作为输入就可以得到融合的视觉特征，保证了模型测试的快速性；

2、针对多对多序列对齐问题，提出了预选择并排序的方法，预选择包括初选和精选两部，初选保留了更多的检索结果，为单次检索结果预留了提升空间，排序方法可以处理任意非等长序列的对齐，从而保证了预选择方法所需的检索准确率，并且利用了语义上下文信息，进一步提高了序列检索的准确性。

附图说明

图1是本发明解决的检索一个与文本段落语义对齐的视频序列的任务。

图2是本发明提出的针对多段视频的跨模态检索的算法流程图。

图3是本发明设计的双边自注意力特征融合网络的算法示意图。

图4是本发明设计的排序网络结构示意图。

图5为本发明实施例的查询结果。

图6为本发明的简单流程示意图。

具体实施方式

下面通过实施例结合附图进一步描述本发明。

图1展示出检索与一个与文本段落语义对齐的视频序列的示意图。本发明解决的是根据若干个句子组成的文本段落，从视频片段集合中选择同样数量的视频，这些视频片段组成的序列在语义上与段落语义对齐。

图2展示出本发明针对多段视频的跨模态检索的算法流程图。该图详细的描绘了基于双边自注意力机制的视频片段初选方法，基于submodular function的视频片段精选方法和基于排序网络的视频片段排序方法。

图3展示出本发明基于双边自注意力特征融合网络的视频物体特征提取算法的实现过程。将来自视频片段的多个物体特征输入视觉自注意力模块，句子中的词语也输入同样结构的文本自注意力模块，将两个输出特征投影到同一个语义空间学习视频物体特征的提取方法。

图4展示出排序网络结构示意图。将无序的视频片段的特征和有序的句子的特征输入排序网络，通过融合两者特征进行上下文交互验证，并通过Sinkhorn算法，输出有序的视频片段序列。

本发明提出的用于多段视频跨模态检索的方法，具体步骤如下：

步骤1.提取视频的图像特征和句子的特征。使用预训练的视觉特征提取网络Inception-ResNet提取视频帧的图像特征；使用双向循环神经网络Bi-LSTM提取句子特征，同时保留每个循环节点上的词语特征；使用预训练的物体特征提取网络提Faster-RCNN取视频帧的多个物体特征。

步骤2.提取物体特征和词语特征。对词语特征和物体特征采用双边自注意力特征融合网络得到多个词语特征融合后的词语特征以及多个物体特征融合后的物体特征，物体特征的自注意力特征融合网络,输入是N个物体特征o和帧特征f，其计算如下：

其中，W_o,W_f,W_h,P均为模型参数。

词汇特征的自注意力特征融合网络，输入是N个词汇特征w和帧特征f，其计算如下：

步骤3.基于跨模态检索方法筛选文本段落对应的视频片段。获得的视频帧物体特征和视频帧图像特征拼接在一起得到视频帧特征。用视频特征提取网络NetVLAD聚合视频帧特征得到视频特征，视频特征与句子特征投影到同一个语义空间学习视频片段和段落中句子之间的跨模态检索方法，使用最大间距损失计算相似度，用欧氏距离衡量相似度：

是与句子语义一致的视频片段，是无关的视频片段，m是最大间隔。最大间距损失使得相关的视频片段和句子对之间的距离尽可能小，无关的视频片段与句子之间的距离尽可能大。将段落中多个句子的检索结果合并再去除重复项，选取50个分数最高的视频片段作为预选取的初选结果。

步骤4.精选多个视频片段。除了在上一步骤中已经学习的跨模态相似度检索模型，再学习另一个视频特征提取网络NetVLAD来计算视频片段相似度，使得来自于同一个视频序列的视频片段之间的相似度尽可能大，同样使用最大间距损失计算相似度，用欧氏距离衡量任意两个视频之间的相似度：

是与视频片段v_i来自同一个视频序列的视频片段，是不相关的视频片段。利用两个相似度模型，结合submodular function，对合并结果进行一次精选。submodularfunction每次循环时选择一个视频片段，这个片段在与所有未被对齐的句子间的最大相似度以及已选择的所有视频片段之间的相似度的和最大，多次循环后保留下与段落中句子同等数量的视频片段。

步骤5.预选取相关的视频片段按照段落中句子的语义顺序排序。排序网络输入所有有序的句子特征，分别与每个视频片段特征拼接，得到的多个特征平铺在一起，用卷积核融合上下文信息，再将所有的视频片段的特征组成一个列表，转成一个方阵，方阵的每行代表每一个视频片段与所有句子之间的契合度，方阵的每列是同一个句子与所有视频片段之间的契合度。利用Sinkhorn算法分别对方阵的行和列做多次的归一化，将方阵视作置换矩阵与无序的特征向量列表相乘，其结果与语义上对齐的特征向量列表之间计算平均均方误差。

步骤6.训练神经网络。采用Faster-RCNN提取视频帧的物体特征，采用Inception-ResNet提取视频帧特征，上述两个网络不再训练而是直接作为特征提取网络。在将物体特征和图像特征拼接后，训练NetVLAD聚合所有视频帧的特征得到视频特征。句子的特征由双向循环神经网络Bi-LSTM训练得到。用于计算视频与句子相似度的最大间距损失函数的最大间隔设为0.5。用于视频片段精选的submodular function采用CELF算法。训练排序网络，最大容量设置为10。

步骤7.测试跨模态自动检索方法。只采用单边的自注意力机制，即视觉自注意力机制，并将物体特征和视频帧图像特征拼接在一起。排序网络在用Sinkhorn算法归一化方阵后用匈牙利算法得到每行每列均只有一个1的转置矩阵，明确地将视频片段对应到不同的句子。得到的方阵作用于无序的视频片段列表，得到语义上有序的视频序列。

结果如图5所示，其中,左边是查询的文本片段，右边是查询得到的多段视频。红色标记(图中第二行)的视频片段是一个错误的查询结果。其余绿色标记的视频片段是正确的查询结果。

参考文献

[1]Shuhui Wang,Yangyu Chen,Junbao Zhuo,Qingming Huang,and QiTian.2018.Joint Global and Co-Attentive Representation Learning for Image-Sentence Retrieval.In 2018ACM Multimedia Conference on MultimediaConference.ACM,1398–1406.

[2]Jinsoo Choi,Tae-Hyun Oh,and In So Kweon.2016.Videostorycomposition via plot analysis.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.3122–3130.。

Claims

1.一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法，其特征在于，具体的步骤如下：

（1）用预训练的图像特征提取网络Inception-ResNet和物体特征提取网络Faster-RCNN分别对视频数据集中的样本逐帧提取视频帧的图像特征和物体特征；

（2）用双向循环神经网络Bi-LSTM提取句子中词汇向量融合了句子上下文信息的词汇特征，同时拼接句首和句尾的特征向量作为句子特征；

（3）对每一帧中的物体特征，采用双边自注意力特征融合网络中的视觉自注意力模块，获得每一帧的物体特征；

（4）对每一句中的词汇特征，采用双边自注意力特征融合网络中的文本自注意力模块，获得每一句的词语特征；

（5）计算物体特征和词汇特征的特征距离，作为辅助的代价函数，学习双边自注意力特征融合网络，使得配对的物体和词汇的特征距离接近；

（6）将物体特征与视频帧的图像特征拼接在一起，作为帧特征，用视频特征提取网络NetVLAD聚合所有帧特征形成视频特征；

（7）计算视频特征和句子特征之间的特征距离，作为主要的代价函数，学习视频特征提取网络NetVLAD和双向循环神经网络Bi-LSTM，使得配对的视频和句子的特征距离接近；

（8）计算所有候选视频中任意两个视频之间的特征距离，学习另一个视频特征提取网络NetVLAD，使得来自同一个视频序列集合的视频之间的特征距离接近；

（9）利用子模态函数，根据段落中句子与所有候选视频的相似度以及候选视频之间的相似度，择出与段落中句子同等数量的最相似的视频；

（10）将所有候选视频的特征与查询段落的特征输入排序网络，实现多个视频片段与多个句子之间的语义对齐，获得视频的排序。

2.根据权利要求1所述的对多段视频进行跨模态检索的方法，其特征在于，所述的双边自注意力特征融合网络中包括物体自注意力模块、词语自注意力模块；双边自注意力特征融合网络输入多个词语特征和多个物体特征，得到多个词语特征融合后的词语特征以及多个物体特征融合后的物体特征；物体特征的自注意力特征融合网络,输入是N个物体特征o和帧特征f，其计算式如下：

其中，W _o ,W _f ,W _h ,P均为模型参数；词汇特征的自注意力特征融合网络，输入是N个词汇特征w和帧特征f，其计算式如下：

其中，W _w ,W _f ,W _h ,P均为模型参数；自注意力特征融合网络输出的特征将融合后的词语特征和物体特征映射到同一个语义空间，通过最小化o和w之间的平均均方误差,使得融合的物体特征尽可能贴近与句子一致的语义。

3.根据权利要求1所述的对多段视频进行跨模态检索的方法，其特征在于，所述排序网络，其输入是所有无序的视频片段特征向量和所有有序的句子特征向量，每一个视频片段特征向量分别与所有句子特征向量拼接，得到的特征平铺在一起，由1*1的卷积核融合两种模态的特征，再将所有视频片段融合后的特征堆叠在一起组成一个列表，由多个1*3的卷积核融合上下文信息并将特征图通道减小到1，形成一个方阵，方阵的每行代表每一个视频片段与所有句子之间的契合度，方阵的每列是同一个句子与所有视频片段之间的契合度；再利用Sinkhorn算法分别对方阵的行和列做多次的归一化，将方阵视作置换矩阵与无序的特征向量列表相乘，得到的结果是交换过位置后的特征向量列表，将其与语义上准确对齐的特征向量列表之间计算平均均方误差。