CN110175266A - 一种用于多段视频跨模态检索的方法 - Google Patents
一种用于多段视频跨模态检索的方法 Download PDFInfo
- Publication number
- CN110175266A CN110175266A CN201910453196.2A CN201910453196A CN110175266A CN 110175266 A CN110175266 A CN 110175266A CN 201910453196 A CN201910453196 A CN 201910453196A CN 110175266 A CN110175266 A CN 110175266A
- Authority
- CN
- China
- Prior art keywords
- video
- features
- sentence
- network
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002146 bilateral effect Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 21
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000010187 selection method Methods 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 2
- 238000002864 sequence alignment Methods 0.000 abstract description 2
- 238000007689 inspection Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 102100034799 CCAAT/enhancer-binding protein delta Human genes 0.000 description 1
- 101000945965 Homo sapiens CCAAT/enhancer-binding protein delta Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机视频分析技术领域,具体为一种用于多段视频跨模态检索的方法。本发明针对长文本跨模态检索多段视频任务,基于预检索与排序的思路提出了相关视频片段预选取方法和多段无序视频语义排序网络架构,并设计了双边自注意力方法提取视频中与检索文本相关的特征。本方法首先使用带有自注意力机制的跨模态检模型初选出一小部分相关的视频片段,再根据同模态和跨模态相似度进一步精选视频片段,最后用语义排序网络将视频片段序列与文本句子序列对齐。本发明方法具有鲁棒性高,速度快等优点,设计的多文本多视频片段语义对齐方法,不仅适用于等长序列的对齐问题,也适用于非等长序列的对齐问题。
Description
技术领域
本发明属于计算机视频分析技术领域,具体涉及一种用于多段视频跨模态检索的方法。
背景技术
随着深度学习技术的快速发展,多模态数据的建模与交互,例如将视觉内容与自然语言处理相结合的任务,得到了广泛的关注和开发。现有工作大多数关注的是为单个图像或视频自动生成自然语句,本发明提出的是一个相反的任务,在这个任务中我们尝试查找多个视频片段并将其组合成一个符合句子描述的连续视频序列。在实际应用中,用户经常会拍摄视频片段以记录难忘的时刻,并在一段时间后通过写一段话就可以自动地获得这段文字对应的视频序列。因此,从一堆视频片段中检索那些句子相关片段并将它们排列成与用户描述最佳匹配的特定顺序是有意义的。
本发明对多段视频的跨模态检索方法,是指预选取与若干个句子语义相关的所有可能视频片段,并使用这些检索到的片段来组成整个视频,即与句子匹配的视频片段序列,理想的顺序应该与段落中的句子顺序相同。
本发明主要针对的是根据若干个句子的描述对同样数量且语义上前后相关的视频进行自动检索的任务。这个任务主要存在以下挑战:首先,由于单个句子包含的语义信息是有限的,检索到的视频很可能并不准确,因此需要更多地关注句子中描述的内容来相应地提取视频中相关的语义特征;也因此保留多个视频作为可能的结果是有必要的;有了多个视频片段后,由于召回的视频已经与各个句子高度相关,要再在其中选择最有可能的若干个视频需要更多地考虑上下文信息,保留下与其他视频能很好衔接在一起的视频片段;当被选择的视频数量与句子数量不一致且未对齐时,需要寻找一个最优的排列,这需要同时考虑到排序算法的时间复杂度和空间复杂度。
近年来,也有相关研究工作尝试解决此类问题。
文[1]针对一对一的检索问题提出了两阶段的排序策列,给定一个查询语句,首先通过比较图像特征召回若干个语义上相似的候选项,随后通过对比更细粒度的物体特征计算候选项与查询语句之间的语义相似度给出相似度排序。这个方法能大幅降低对比全部视频的细粒度特征的时间开销,但受限于一对一的对应关系,无法利用上下文信息来综合考虑单个片段在整体段落中的合适度。
文[2]提出了将排序问题视作一个序列生成问题,利用分支与边界算法,通过丢弃当前搜索空间中与已生成序列最不匹配的子空间,从而降低搜索复杂度。但该方法并没有作为语义参考的文本段落,仅根据视频间的连续性和相关性对多段视频进行排序,另外这种方法对初始节点的选择比较敏感,在序列包含无关视频时的鲁棒性较差。
发明内容
本发明的目的在于克服现有技术中的上述不足,提出一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法。
由于单个视频片段检索的局部最优性难以获得最优的检索结果,本发明设计了预选择并排序的算法,将先保留更多相关的视频片段,再通过片段间的上下文信息,设计了排序网络将多个无序的视频片段排列成全局最优的视频片段序列;并且考虑到视频本身丰富语义信息的特点,设计了双边自注意力特征融合网络提取视频中与检索文本相关的特征,在增加少量计算量的条件下提取视频中对检索文本敏感的特征。
本发明提出的基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法,具体的步骤如下:
(1)用预训练的图像特征提取网络Inception-ResNet(Szegedy,Christian,etal."Inception-v4,inception-resnet and the impact of residual connections onlearning."Thirty-First AAAI Conference on Artificial Intelligence.2017.
)和物体特征提取网络Faster-RCNN(Girshick,Ross."Fast r-cnn."Proceedingsof the IEEE international conference on computer vision.2015.)分别对视频数据集中的样本逐帧提取视频帧的图像特征和物体特征;
(2)用双向循环神经网络Bi-LSTM(Pascanu,Razvan,Tomas Mikolov,and YoshuaBengio."On the difficulty of training recurrent neural networks."International conference on machine learning.2013.)提取句子中词汇向量融合了句子上下文信息的词汇特征,同时拼接句首和句尾的特征向量作为句子特征;
(3)对每一帧中的物体特征,采用双边自注意力特征融合网络中的视觉自注意力模块,获得每一帧的物体特征;
(4)对每一句中的词汇特征,采用双边自注意力特征融合网络中的文本自注意力模块,获得每一句的词语特征;
(5)计算物体特征和词汇特征的特征距离,作为辅助的代价函数,学习双边自注意力特征融合网络,使得配对的物体和词汇的特征距离接近;
(6)将物体特征与视频帧的图像特征拼接在一起,作为帧特征,用视频特征提取网络NetVLAD(Arandjelovic,Relja,et al."NetVLAD:CNN architecture for weaklysupervised place recognition."Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2016.),聚合所有帧特征形成视频特征;
(7)计算视频特征和句子特征之间的特征距离,作为主要的代价函数,学习视频特征提取网络NetVLAD和双向循环神经网络Bi-LSTM,使得配对的视频和句子的特征距离接近;
(8)计算所有候选视频中任意两个视频之间的特征距离,学习另一个视频特征提取网络NetVLAD使得来自同一个视频序列集合的视频之间的特征距离接近;
(9)利用submodular function(子模态函数,Leskovec,Jure,et al."Cost-effective outbreak detection in networks."Proceedings of the 13th ACM SIGKDDinternational conference on Knowledge discovery and data mining.ACM,2007.),根据段落中句子与所有候选视频的相似度以及候选视频之间的相似度,择出与段落中句子同等数量的最相似的视频;
(10)将所有候选视频的特征与查询段落的特征输入排序网络,实现多个视频片段与多个句子之间的语义对齐,获得视频的排序。
本发明中,所述的双边自注意力特征融合网络中包括物体自注意力模块、词汇自注意力模块,参见图3所示。双边自注意力特征融合网络输入多个词语特征和多个物体特征,得到多个词语特征融合后的词语特征以及多个物体特征融合后的物体特征。物体特征的自注意力特征融合网络,输入是N个物体特征o和帧特征f,其计算如下:
其中,Wo,Wf,Wh,P均为模型参数;词汇特征的自注意力特征融合网络,输入是N个词汇特征w和帧特征f,其计算如下:
其中,Ww,Wf,Wh,P均为模型参数。自注意力特征融合网络输出的特征将融合后的词语特征和物体特征映射到同一个语义空间。通过最小化o和w之间的平均均方误差,使得融合的物体特征尽可能贴近与句子一致的语义。
本发明中,所述的排序网络,参见图4所示,排序网络的输入是所有无序的视频片段特征向量和所有有序的句子特征向量,每一个视频片段特征向量分别与所有句子特征向量拼接,得到的特征平铺在一起,用1*1的卷积核融合两种模态的特征,再将所有视频片段融合后的特征堆叠在一起组成一个列表,用多个1*3的卷积核融合上下文信息并将特征图通道减小到1,形成一个方阵,方阵的每行代表每一个视频片段与所有句子之间的契合度,方阵的每列是同一个句子与所有视频片段之间的契合度。利用Sinkhorn算法(Mena,Gonzalo,et al."Learning latent permutations with gumbel-sinkhorn networks."arXiv preprint arXiv:1802.08665(2018).)分别对方阵的行和列做多次的归一化,将方阵视作置换矩阵与无序的特征向量列表相乘,得到的结果是交换过位置后的特征向量列表,将其与语义上准确对齐的特征向量列表之间计算平均均方误差。
与现有的自动跨模态检索方法不同,本发明解决了多对多序列对齐的问题,考虑到单个视频片段检索的局部最优性以及多个视频片段全局排序所需的高效性,提出了预选择并排序的方法,将多段序列的检索问题分成两个阶段进行,从而解决了单次匹配精度不高,没有利用全局信息的问题。基于以上改进,本发明方法具有更强的上下文语义关联性,且可以提高多段序列检索问题的精度。
本发明方法具有鲁棒性高,速度快等优点,设计的多文本多视频片段语义对齐方法,不仅适用于等长序列的对齐问题,也适用于非等长序列的对齐问题。
本发明的创新之处在于:
1、使用基于双边自注意力特征融合网络的特征信息融合方法,在训练过程中用句子的语义信息作为监督信号,从而使得融合的视觉特征能够包含与检索文本相关的特征信息,而且双边自注意力特征融合网络的视觉模块在测试阶段不需要句子特征作为输入就可以得到融合的视觉特征,保证了模型测试的快速性;
2、针对多对多序列对齐问题,提出了预选择并排序的方法,预选择包括初选和精选两部,初选保留了更多的检索结果,为单次检索结果预留了提升空间,排序方法可以处理任意非等长序列的对齐,从而保证了预选择方法所需的检索准确率,并且利用了语义上下文信息,进一步提高了序列检索的准确性。
附图说明
图1是本发明解决的检索一个与文本段落语义对齐的视频序列的任务。
图2是本发明提出的针对多段视频的跨模态检索的算法流程图。
图3是本发明设计的双边自注意力特征融合网络的算法示意图。
图4是本发明设计的排序网络结构示意图。
图5为本发明实施例的查询结果。
图6为本发明的简单流程示意图。
具体实施方式
下面通过实施例结合附图进一步描述本发明。
图1展示出检索与一个与文本段落语义对齐的视频序列的示意图。本发明解决的是根据若干个句子组成的文本段落,从视频片段集合中选择同样数量的视频,这些视频片段组成的序列在语义上与段落语义对齐。
图2展示出本发明针对多段视频的跨模态检索的算法流程图。该图详细的描绘了基于双边自注意力机制的视频片段初选方法,基于submodular function的视频片段精选方法和基于排序网络的视频片段排序方法。
图3展示出本发明基于双边自注意力特征融合网络的视频物体特征提取算法的实现过程。将来自视频片段的多个物体特征输入视觉自注意力模块,句子中的词语也输入同样结构的文本自注意力模块,将两个输出特征投影到同一个语义空间学习视频物体特征的提取方法。
图4展示出排序网络结构示意图。将无序的视频片段的特征和有序的句子的特征输入排序网络,通过融合两者特征进行上下文交互验证,并通过Sinkhorn算法,输出有序的视频片段序列。
本发明提出的用于多段视频跨模态检索的方法,具体步骤如下:
步骤1.提取视频的图像特征和句子的特征。使用预训练的视觉特征提取网络Inception-ResNet提取视频帧的图像特征;使用双向循环神经网络Bi-LSTM提取句子特征,同时保留每个循环节点上的词语特征;使用预训练的物体特征提取网络提Faster-RCNN取视频帧的多个物体特征。
步骤2.提取物体特征和词语特征。对词语特征和物体特征采用双边自注意力特征融合网络得到多个词语特征融合后的词语特征以及多个物体特征融合后的物体特征,物体特征的自注意力特征融合网络,输入是N个物体特征o和帧特征f,其计算如下:
其中,Wo,Wf,Wh,P均为模型参数。
词汇特征的自注意力特征融合网络,输入是N个词汇特征w和帧特征f,其计算如下:
其中,Ww,Wf,Wh,P均为模型参数。自注意力特征融合网络输出的特征将融合后的词语特征和物体特征映射到同一个语义空间。通过最小化o和w之间的平均均方误差,使得融合的物体特征尽可能贴近与句子一致的语义。
步骤3.基于跨模态检索方法筛选文本段落对应的视频片段。获得的视频帧物体特征和视频帧图像特征拼接在一起得到视频帧特征。用视频特征提取网络NetVLAD聚合视频帧特征得到视频特征,视频特征与句子特征投影到同一个语义空间学习视频片段和段落中句子之间的跨模态检索方法,使用最大间距损失计算相似度,用欧氏距离衡量相似度:
是与句子语义一致的视频片段,是无关的视频片段,m是最大间隔。最大间距损失使得相关的视频片段和句子对之间的距离尽可能小,无关的视频片段与句子之间的距离尽可能大。将段落中多个句子的检索结果合并再去除重复项,选取50个分数最高的视频片段作为预选取的初选结果。
步骤4.精选多个视频片段。除了在上一步骤中已经学习的跨模态相似度检索模型,再学习另一个视频特征提取网络NetVLAD来计算视频片段相似度,使得来自于同一个视频序列的视频片段之间的相似度尽可能大,同样使用最大间距损失计算相似度,用欧氏距离衡量任意两个视频之间的相似度:
是与视频片段vi来自同一个视频序列的视频片段,是不相关的视频片段。利用两个相似度模型,结合submodular function,对合并结果进行一次精选。submodularfunction每次循环时选择一个视频片段,这个片段在与所有未被对齐的句子间的最大相似度以及已选择的所有视频片段之间的相似度的和最大,多次循环后保留下与段落中句子同等数量的视频片段。
步骤5.预选取相关的视频片段按照段落中句子的语义顺序排序。排序网络输入所有有序的句子特征,分别与每个视频片段特征拼接,得到的多个特征平铺在一起,用卷积核融合上下文信息,再将所有的视频片段的特征组成一个列表,转成一个方阵,方阵的每行代表每一个视频片段与所有句子之间的契合度,方阵的每列是同一个句子与所有视频片段之间的契合度。利用Sinkhorn算法分别对方阵的行和列做多次的归一化,将方阵视作置换矩阵与无序的特征向量列表相乘,其结果与语义上对齐的特征向量列表之间计算平均均方误差。
步骤6.训练神经网络。采用Faster-RCNN提取视频帧的物体特征,采用Inception-ResNet提取视频帧特征,上述两个网络不再训练而是直接作为特征提取网络。在将物体特征和图像特征拼接后,训练NetVLAD聚合所有视频帧的特征得到视频特征。句子的特征由双向循环神经网络Bi-LSTM训练得到。用于计算视频与句子相似度的最大间距损失函数的最大间隔设为0.5。用于视频片段精选的submodular function采用CELF算法。训练排序网络,最大容量设置为10。
步骤7.测试跨模态自动检索方法。只采用单边的自注意力机制,即视觉自注意力机制,并将物体特征和视频帧图像特征拼接在一起。排序网络在用Sinkhorn算法归一化方阵后用匈牙利算法得到每行每列均只有一个1的转置矩阵,明确地将视频片段对应到不同的句子。得到的方阵作用于无序的视频片段列表,得到语义上有序的视频序列。
结果如图5所示,其中,左边是查询的文本片段,右边是查询得到的多段视频。红色标记(图中第二行)的视频片段是一个错误的查询结果。其余绿色标记的视频片段是正确的查询结果。
参考文献
[1]Shuhui Wang,Yangyu Chen,Junbao Zhuo,Qingming Huang,and QiTian.2018.Joint Global and Co-Attentive Representation Learning for Image-Sentence Retrieval.In 2018ACM Multimedia Conference on MultimediaConference.ACM,1398–1406.
[2]Jinsoo Choi,Tae-Hyun Oh,and In So Kweon.2016.Videostorycomposition via plot analysis.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.3122–3130.。
Claims (3)
1.一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法,其特征在于,具体的步骤如下:
(1)用预训练的图像特征提取网络Inception-ResNet和物体特征提取网络Faster-RCNN分别对视频数据集中的样本逐帧提取视频帧的图像特征和物体特征;
(2)用双向循环神经网络Bi-LSTM提取句子中词汇向量融合了句子上下文信息的词汇特征,同时拼接句首和句尾的特征向量作为句子特征;
(3)对每一帧中的物体特征,采用双边自注意力特征融合网络中的视觉自注意力模块,获得每一帧的物体特征;
(4)对每一句中的词汇特征,采用双边自注意力特征融合网络中的文本自注意力模块,获得每一句的词语特征;
(5)计算物体特征和词汇特征的特征距离,作为辅助的代价函数,学习双边自注意力特征融合网络,使得配对的物体和词汇的特征距离接近;
(6)将物体特征与视频帧的图像特征拼接在一起,作为帧特征,用视频特征提取网络NetVLAD聚合所有帧特征形成视频特征;
(7)计算视频特征和句子特征之间的特征距离,作为主要的代价函数,学习视频特征提取网络NetVLAD和双向循环神经网络Bi-LSTM,使得配对的视频和句子的特征距离接近;
(8)计算所有候选视频中任意两个视频之间的特征距离,学习另一个视频特征提取网络NetVLAD,使得来自同一个视频序列集合的视频之间的特征距离接近;
(9)利用子模态函数,根据段落中句子与所有候选视频的相似度以及候选视频之间的相似度,择出与段落中句子同等数量的最相似的视频;
(10)将所有候选视频的特征与查询段落的特征输入排序网络,实现多个视频片段与多个句子之间的语义对齐,获得视频的排序。
2.根据权利要求1所述的对多段视频进行跨模态检索的方法,其特征在于,所述的双边自注意力特征融合网络中包括物体自注意力模块、词语自注意力模块;双边自注意力特征融合网络输入多个词语特征和多个物体特征,得到多个词语特征融合后的词语特征以及多个物体特征融合后的物体特征;物体特征的自注意力特征融合网络,输入是N个物体特征o和帧特征f,其计算式如下:
其中,W o ,W f ,W h ,P均为模型参数;词汇特征的自注意力特征融合网络,输入是N个词汇特征w和帧特征f,其计算式如下:
其中,W w ,W f ,W h ,P均为模型参数;自注意力特征融合网络输出的特征将融合后的词语特征和物体特征映射到同一个语义空间,通过最小化o和w之间的平均均方误差,使得融合的物体特征尽可能贴近与句子一致的语义。
3.根据权利要求1所述的对多段视频进行跨模态检索的方法,其特征在于,所述排序网络,其输入是所有无序的视频片段特征向量和所有有序的句子特征向量,每一个视频片段特征向量分别与所有句子特征向量拼接,得到的特征平铺在一起,由1*1的卷积核融合两种模态的特征,再将所有视频片段融合后的特征堆叠在一起组成一个列表,由多个1*3的卷积核融合上下文信息并将特征图通道减小到1,形成一个方阵,方阵的每行代表每一个视频片段与所有句子之间的契合度,方阵的每列是同一个句子与所有视频片段之间的契合度;再利用Sinkhorn算法分别对方阵的行和列做多次的归一化,将方阵视作置换矩阵与无序的特征向量列表相乘,得到的结果是交换过位置后的特征向量列表,将其与语义上准确对齐的特征向量列表之间计算平均均方误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910453196.2A CN110175266B (zh) | 2019-05-28 | 2019-05-28 | 一种用于多段视频跨模态检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910453196.2A CN110175266B (zh) | 2019-05-28 | 2019-05-28 | 一种用于多段视频跨模态检索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175266A true CN110175266A (zh) | 2019-08-27 |
CN110175266B CN110175266B (zh) | 2020-10-30 |
Family
ID=67696489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910453196.2A Active CN110175266B (zh) | 2019-05-28 | 2019-05-28 | 一种用于多段视频跨模态检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175266B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046227A (zh) * | 2019-11-29 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
CN111083469A (zh) * | 2019-12-24 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种视频质量确定方法、装置、电子设备及可读存储介质 |
CN111198966A (zh) * | 2019-12-22 | 2020-05-26 | 同济大学 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111930992A (zh) * | 2020-08-14 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN111930999A (zh) * | 2020-07-21 | 2020-11-13 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
CN112001536A (zh) * | 2020-08-12 | 2020-11-27 | 武汉青忆辰科技有限公司 | 基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法 |
CN112215908A (zh) * | 2020-10-12 | 2021-01-12 | 国家计算机网络与信息安全管理中心 | 面向压缩域的视频内容比对系统、优化方法、比对方法 |
CN112650886A (zh) * | 2020-12-28 | 2021-04-13 | 电子科技大学 | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 |
CN112801762A (zh) * | 2021-04-13 | 2021-05-14 | 浙江大学 | 基于商品感知的多模态视频高光检测方法及其系统 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113204674A (zh) * | 2021-07-05 | 2021-08-03 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
CN113254716A (zh) * | 2021-05-26 | 2021-08-13 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、电子设备和可读存储介质 |
CN115187917A (zh) * | 2022-09-13 | 2022-10-14 | 山东建筑大学 | 基于视频片段检索的无人车历史场景检测方法 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
CN117252936A (zh) * | 2023-10-04 | 2023-12-19 | 长春理工大学 | 一种适配多种训练策略的红外图像彩色化方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682108A (zh) * | 2016-12-06 | 2017-05-17 | 浙江大学 | 一种基于多模态卷积神经网络的视频检索方法 |
US20180032846A1 (en) * | 2016-08-01 | 2018-02-01 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
CN108154120A (zh) * | 2017-12-25 | 2018-06-12 | 上海七牛信息技术有限公司 | 视频分类模型训练方法、装置、存储介质及电子设备 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109409221A (zh) * | 2018-09-20 | 2019-03-01 | 中国科学院计算技术研究所 | 基于帧选择的视频内容描述方法和系统 |
CN109460707A (zh) * | 2018-10-08 | 2019-03-12 | 华南理工大学 | 一种基于深度神经网络的多模态动作识别方法 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
-
2019
- 2019-05-28 CN CN201910453196.2A patent/CN110175266B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032846A1 (en) * | 2016-08-01 | 2018-02-01 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
CN106682108A (zh) * | 2016-12-06 | 2017-05-17 | 浙江大学 | 一种基于多模态卷积神经网络的视频检索方法 |
CN108154120A (zh) * | 2017-12-25 | 2018-06-12 | 上海七牛信息技术有限公司 | 视频分类模型训练方法、装置、存储介质及电子设备 |
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109409221A (zh) * | 2018-09-20 | 2019-03-01 | 中国科学院计算技术研究所 | 基于帧选择的视频内容描述方法和系统 |
CN109460707A (zh) * | 2018-10-08 | 2019-03-12 | 华南理工大学 | 一种基于深度神经网络的多模态动作识别方法 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
Non-Patent Citations (1)
Title |
---|
董震等: ""基于异构哈希网络的跨模态人脸检索方法"", 《计算机学报》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046227B (zh) * | 2019-11-29 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
CN111046227A (zh) * | 2019-11-29 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
CN111198966A (zh) * | 2019-12-22 | 2020-05-26 | 同济大学 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
CN111198966B (zh) * | 2019-12-22 | 2023-09-26 | 同济大学 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
CN111083469A (zh) * | 2019-12-24 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种视频质量确定方法、装置、电子设备及可读存储介质 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111340006B (zh) * | 2020-04-16 | 2024-06-11 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111897913B (zh) * | 2020-07-16 | 2022-06-03 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111930999A (zh) * | 2020-07-21 | 2020-11-13 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
CN111930999B (zh) * | 2020-07-21 | 2022-09-30 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
CN112001536B (zh) * | 2020-08-12 | 2023-08-11 | 武汉青忆辰科技有限公司 | 基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法 |
CN112001536A (zh) * | 2020-08-12 | 2020-11-27 | 武汉青忆辰科技有限公司 | 基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法 |
CN111930992B (zh) * | 2020-08-14 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN111930992A (zh) * | 2020-08-14 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN112215908A (zh) * | 2020-10-12 | 2021-01-12 | 国家计算机网络与信息安全管理中心 | 面向压缩域的视频内容比对系统、优化方法、比对方法 |
CN112650886A (zh) * | 2020-12-28 | 2021-04-13 | 电子科技大学 | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN112966127B (zh) * | 2021-04-07 | 2022-05-20 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN112801762B (zh) * | 2021-04-13 | 2021-08-03 | 浙江大学 | 基于商品感知的多模态视频高光检测方法及其系统 |
CN112801762A (zh) * | 2021-04-13 | 2021-05-14 | 浙江大学 | 基于商品感知的多模态视频高光检测方法及其系统 |
CN113254716B (zh) * | 2021-05-26 | 2022-05-24 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、电子设备和可读存储介质 |
CN113254716A (zh) * | 2021-05-26 | 2021-08-13 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、电子设备和可读存储介质 |
CN113204674A (zh) * | 2021-07-05 | 2021-08-03 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
CN113204674B (zh) * | 2021-07-05 | 2021-09-17 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
CN115187917A (zh) * | 2022-09-13 | 2022-10-14 | 山东建筑大学 | 基于视频片段检索的无人车历史场景检测方法 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
CN115858847B (zh) * | 2023-02-22 | 2023-06-23 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
CN117252936A (zh) * | 2023-10-04 | 2023-12-19 | 长春理工大学 | 一种适配多种训练策略的红外图像彩色化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110175266B (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175266B (zh) | 一种用于多段视频跨模态检索的方法 | |
Dong et al. | Dual encoding for video retrieval by text | |
Fan et al. | Heterogeneous memory enhanced multimodal attention model for video question answering | |
Dong et al. | Dual encoding for zero-example video retrieval | |
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
Wang et al. | Adversarial cross-modal retrieval | |
Shi et al. | American sign language fingerspelling recognition in the wild | |
CN102663015B (zh) | 基于特征袋模型和监督学习的视频语义标注方法 | |
CN108197109A (zh) | 一种基于自然语言处理的多语言分析方法和装置 | |
CN110147457A (zh) | 图文匹配方法、装置、存储介质及设备 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
US20220277038A1 (en) | Image search based on combined local and global information | |
Huang et al. | Image and sentence matching via semantic concepts and order learning | |
Jha et al. | Word spotting in silent lip videos | |
Wu et al. | Switchable novel object captioner | |
Papalampidi et al. | Movie summarization via sparse graph construction | |
CN108595546B (zh) | 基于半监督的跨媒体特征学习检索方法 | |
CN115017279A (zh) | 基于文本语义匹配的Stack Overflow相关问答检索方法 | |
Sun et al. | Video understanding: from video classification to captioning | |
Huang et al. | Query-Based Video Summarization with Pseudo Label Supervision | |
Huang et al. | Few-shot image and sentence matching via aligned cross-modal memory | |
CN116069905A (zh) | 图像文本模型处理方法及图像文本检索系统 | |
Izutov | ASL recognition with metric-learning based lightweight network | |
Liang et al. | Unsupervised video summarization with a convolutional attentive adversarial network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |