CN114429119B - 一种基于多交叉注意力的视频与字幕片段检索方法 - Google Patents
一种基于多交叉注意力的视频与字幕片段检索方法 Download PDFInfo
- Publication number
- CN114429119B CN114429119B CN202210054069.7A CN202210054069A CN114429119B CN 114429119 B CN114429119 B CN 114429119B CN 202210054069 A CN202210054069 A CN 202210054069A CN 114429119 B CN114429119 B CN 114429119B
- Authority
- CN
- China
- Prior art keywords
- video
- attention
- segment
- query
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多交叉注意力的视频与字幕片段检索方法,包括得到给定视频V的特征矩阵Ev;提取查询语句对应的特征矩阵Eq和V所对应字幕的特征矩阵Es;计算Eq与Ev,Eq与Es之间的关联关系,得到和将和转化为q(v)和q(s);计算最终每个片段与查询语句之间的匹配度;训练前述模型,将新视频数据输入训练后的模型得到概率Pst和Ped,根据Pst和Ped中概率值的大小排序,找出Pst和Ped的值均大的N个片段作为查找的片段。该方法既能处理多个模态数据之间的关系,又可以实现双向注意力引导,从而保证先进的视频‑片段检索性能。
Description
技术领域
本发明涉及视频-语言理解技术领域,具体涉及一种基于多交叉注意力的视频与字幕片段检索方法。
背景技术
随着视频拍摄设备的普及,互联网上视频的数量呈现爆炸式的增长。对于只对原始视频的特定部分感兴趣的用户而言,浏览整个视频是耗时费力的,视频片段检索成为迫切需求。现有方法大多关注语句查询与视频视觉信息的匹配,较少利用视频附带的字幕等文字信息。基于视频与字幕的片段检索要求同时理解查询、视频、字幕三种模态之间的关系,是一个非常具有挑战性的任务。
为了完成视频与字幕片段检索任务,一个直接的方法是新增一个额外的模块来对查询语句和字幕之间的关系进行建模。由于缺少对视频与字幕关系的建模,该种方法的能力有限。为此,跨模态编码学习成为当前研究的主要关注点,但目前的方法主要着眼于语句层面浅层次的查询关系建模,不能有效实现更细粒度的单词级跨模态深层关系学习,限制了视频与字幕片段检索的性能。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于多交叉注意力的视频与字幕片段检索方法,具备能够很好的对查询语句-视频和查询语句-字幕在单词-片段级别进行细粒度建模,提高了视频与字幕片段检索的性能。
(二)技术方案
为了解决上述问题,本发明设计了一个新的多交叉注意力来完成视频与字幕片段检索任务。为实现上述所说的有效对查询语句-视频和查询语句-字幕在单词-片段级别进行细粒度建模,本发明采用的具体技术方案如下:
一种基于多交叉注意力的视频与字幕片段检索方法,包括如下步骤:
S1:对视频片段和其对应字幕检索进行如下定义;
定义q={w1,w2,...,wm}为一个查询语句,m表示查询语句q中的单词总数;
给定视频V,将视频拆分为n个不相交的片段{c1,c2,...,cn},每个片段有与该片段对应的字幕信息;
最终检索到的片段即可以被表示为{cst,cst+1,...,ced},其中cst,ced分别表示检索的开始片段和结束片段;
S2:提取V中n个片段的外观特征和动作特征,并将每个片段的外观特征和动作特征整合得到V的特征矩阵Ev;
S3:提取查询语句对应的特征矩阵Eq和V所对应字幕的特征矩阵Es;
S4:计算Eq与Ev,Eq与Es之间的关联关系,得到第一种查询语句特征序列给定视频特征序列/>给定视频所对应的字幕特征序列/>和第二种查询语句特征序列/>
S5:对S4所得的单词级别的和/>分别对应的转化为句子级别特征向量q(v)和q(s);
S6:计算最终每个片段与查询语句之间的匹配度,得到每个视频片段是最终检索结果的首个片段和末尾片段的概率;
S7:以深度学习的方式来训练S2-S6中的模型,使所述S2-S6中的模型均为最优模型;
S8:对于新视频数据,依次执行步骤S2-S6,得到概率Pst和Ped,根据Pst和Ped中概率值的大小排序,找出Pst和Ped的值均大的N个片段作为查找的片段。
作为优选,所述S2中得到V的特征矩阵ev的过程如下:
使用预训练的ResNet-152模型来提取V每帧的外观特征,使用预训练的I3D模型来提取V的动作特征,然后将n个片段的外观特征和动作特征进行整合,整合后得到V的特征矩阵Ev,
作为优选,所述S3提取查询语句对应的特征矩阵Eq和V所对应字幕的特征矩阵Es的步骤如下:
S31:在现有数据集上对RoBERTa模型进行训练,得到预训练的RoBERTa模型;
S32:使用S31获得的预训练的RoBERTa模型提取查询语句每个单词的特征向量,将所有单词的特征向量整合,即得到整个查询语句的特征矩阵Eq,其中m为查询语句中的单词总数,d为特征矩阵的维度;
使用S31获得的预训练的RoBERTa模型提取每个片段对应的字幕的特征向量,对一个片段内的所有字幕的特征向量取平均值得到该片段所对应字幕的特征矩阵,将所有片段所对应字幕的特征矩阵整合,即得到V所以对应字幕的特征矩阵Es,其中n为给定视频中片段的总数,d为特征矩阵的维度。
作为优选,所述计算Eq与Ev,Eq与Es之间的关联关系的过程如下:
S41:构建交叉注意力模块,所述交叉注意力模块包括两个自注意力单元SA-1和SA-2,还包括三个引导注意力单元GA-1,GA-2和GA-3;
交叉注意力模块表示为:
[X*,Y*]=CA(X,Y) (1)
其中,X*和Y*分别为X和Y对应的输出,CA(*,*)表示交叉注意力模块;
定义X和Y分别是查询语句、视频片段和视频片段所对应的字幕中的任意两种,首先分别将X和Y输入到两个自注意力单元SA-1,SA-2得到增强后的特征X1和Y1;
再将<X1,Y1>输入到GA-1中,得到X2=GA-1(X1,X2);
再将<Y1,X2>输入到GA-2中,得到Y2=GA-2(Y1,X2);
再将<X2,Y2>输入到GA-3中,得到X3=GA-3(X2,Y2);
最终所述交叉注意力模块的输出为<X3,Y2>;
S42:使用S41构建的Cross-Attention模块分别计算Eq与Ev,Eq与Es之间的关联关系;
其中,分别表示经过Cross-Attention模块输出的第一种查询语句特征序列和给定视频的特征序列;/>分别表示经过Cross-Attention模块输出的给定视频所对应的字幕特征序列和第二种查询语句特征序列。
作为优选,所述S5中将和/>分别对应的转化为q(v)和q(s)的过程如下:
S51:构建两个Query Attention Aggregation模块,每个所述Query AttentionAggregation模块均为两层的多层感知机;
S52:将使用S51构建的一个Query Attention Aggregation模块将转换为句子级别的特征向量/>其公式如下:
其中是查询语句中每个单词对应的权重;
使用S51构建的另一个Query Attention Aggregation模块将转换为对应的特征向量
作为优选,所述S6计算每个片段与查询语句之间的匹配度的过程如下:
S61:使用公式(6)计算查询语句与每个片段之间的匹配度
S62:将S输入到2个1D卷积层和一个softmax层来生成对应的Pst和Ped,和Pst和Ped分别表示每个视频片段是最终检索结果的首个片段和末尾片段的概率。
作为优选,所述S7中训练S2-S6中的模型的过程如下:
获取多个训练样本,每个训练样本由一个三元组<查询语句,视频,视频对应的字幕>和对应的标注构成,该标注是二元组<tst,ted>,tst和ted分别表示与查询语句最匹配的片段的开始和结束,损失函数可以定义为:
其中,Pst(i)和Ped(i)分别表示Pst和Ped向量中的第i维的值;
将带标注的训练样本作为输入,通过最小化所述损失函数对S2-S6中的模型进行训练,直到收敛或达到最大迭代轮数,保存训练完成为最优模型。
相对于现有技术,本发明至少具有如下优点:
本发明提出的多交叉注意力的视频与字幕片段检索方法过将多个自注意力网络和引导注意力网络有机的结合在一起,从而实现了既能处理多个模态数据之间的关系,又可以实现双向注意力引导。上述多交叉注意力网络探索更加细粒度的单词-片段之间的匹配关系以便于解决这类三种模态之间的复杂关系。
附图说明
为了更清楚地说明本发明实施例和现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1是本发明方法流程简图。
图2是关于视频与字幕片段检索示意图。
图3中(a)是自注意力单元的示意图、(b)是引导注意力单元的示意图,(c)是本发明交叉注意力模块示意图;其中,Self-Attention表示自注意力单元,Guided-Attention表示引导注意力单元,Proposed Cross-Attention是本发明给出的交叉注意力模块。
图4是多交叉注意力模型的结构图;其中Feature Extraction表示特征提取阶段,Multiple Cross-Attention表示多交叉注意力阶段;Multi-Modal Matching andRetrieval多模态特征匹配与片段检索阶段。
图5是采用本发明方法检索的结果示例图。
图6是本发明所提注意力交叉模块的主要变体示意图;包含有对称自注意力Sym-SA,对称引导注意力交叉Sym-GA,对称自注意力与引导注意力交叉Sym-SGA,三种不同深度的非对称自注意力与引导注意力交叉分别记为:Asym-SGA-SA,Asym-SGA-SGA和Asym-SGA2-SGA。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
现结合附图和具体实施方式对本发明进一步说明,如图1-4所示,基于多交叉注意力的视频与字幕片段检索方法其特征在于,包括如下步骤:
一种基于多交叉注意力的视频与字幕片段检索方法,包括如下步骤:
S1:对视频片段和其对应字幕检索进行如下定义;将视频片段和其对应字幕检索任务转化为查询语句与视频片段的匹配度问题。
定义q={w1,w2,...,wm}为一个查询语句,m表示查询语句q中的单词总数;视频与字幕片段检索的目标在于根据该查询语句从给定的视频V中(或给定的视频V中字幕中)检索出与查询语句匹配的视频片段。
给定视频V,将视频拆分为n个不相交的片段{c1,c2,...,cn},每个片段有与该片段对应的字幕信息。
最终检索到的片段即可以被表示为{cst,cst+1,...,ced},其中cst,ced分别表示检索的开始片段和结束片段。
S2:提取V中n个片段的外观特征和动作特征,并将每个片段的外观特征和动作特征整合得到V的特征矩阵Ev,得到Ev的过程如下:
使用预训练的ResNet-152模型来提取V每帧的外观特征,使用预训练的I3D模型来提取V的动作特征,然后将n个片段的外观特征和动作特征进行整合,整合后得到V的特征矩阵Ev,所述ResNet-152模型和I3D模型均为现有的神经网络模型,ResNet-152模型和I3D模型均可以采用现有数据集进行预训练,例如可以采用ImageNet数据集对ResNet-152模型进行预训练,采用Kinetics-600数据集对I3D模型进行预训练,预训练过程均为现有方法。
S3:提取查询语句对应的特征矩阵Eq和V所对应字幕的特征矩阵Es,具体步骤如下:
采用RoBERTa模型来提取字幕文本特征和查询文本特征,RoBERTa模型为现有的模型,RoBERTa模型的训练过程也为现有方法。
S31:在现有数据集上对RoBERTa模型进行训练,得到预训练的RoBERTa模型;
S32:使用S31获得的预训练的RoBERTa模型提取查询语句每个单词的特征向量,将所有单词的特征向量整合,即得到整个查询语句的特征矩阵Eq,其中m为查询语句中的单词总数,d为特征矩阵的维度;
使用S31获得的预训练的RoBERTa模型提取每个片段对应的字幕的特征向量,对一个片段内的所有字幕的特征向量取平均值得到该片段所对应字幕的特征矩阵,将所有片段所对应字幕的特征矩阵整合,即得到V所以对应字幕的特征矩阵Es,其中n为给定视频中片段的总数,d为特征矩阵的维度。
S4:计算Eq与Ev,Eq与Es之间的关联关系,得到第一种查询语句特征序列给定视频特征序列/>给定视频所对应的字幕特征序列/>和第二种查询语句特征序列/>通过分别计算查询文本-视频关联特征和查询文本-字幕关联特征,从而增强关联程度高的重要信息,并减少弱关联的次要信息。
所述计算Eq与Ev,Eq与Es之间的关联关系的过程如下:
S41:构建交叉注意力模块,所述交叉注意力模块包括两个自注意力单元SA-1和SA-2,还包括三个引导注意力单元GA-1,GA-2和GA-3;
交叉注意力模块表示为:
[X*,Y*]=CA(X,Y) (1)
其中,X*和Y*分别为X和Y对应的输出,CA(*,*)表示交叉注意力模块。
定义X和Y分别是查询语句、视频片段和视频片段所对应的字幕中的任意两种,首先分别将X和Y输入到两个自注意力单元SA-1,SA-2得到增强后的特征X1和Y1;
再将<X1,Y1>输入到GA-1中,得到X2=GA-1(X1,X2);
再将<Y1,X2>输入到GA-2中,得到Y2=GA-2(Y1,X2);
再将<X2,Y2>输入到GA-3中,得到X3=GA-3(X2,Y2);
最终所述交叉注意力模块的输出为<X3,Y2>。
所述自注意力单元和引导注意力单元的结构为现有结构,针对视频与字幕片段检测任务的特性进行Cross-Attention模型设计,以便能够充分的查询语句,视频片段和视频片段对应的字幕三者之间的关联关系。
Cross-Attention模块是一个互引导Cross-Attention模块。该模块是通过交互式地链接两类注意力单元。第一类注意力单元称为自注意力单元,对于给定的输入,它通过与输入自身进行匹配来进行重建输入的特征,使得在输出的特征中增强重要信息,削弱次要信息。第二类注意力单元称为引导注意力单元,它的特点为能够接受两个不同模态作为输入,从而能够在另外模态的引导下进行特定的特征增强和削弱。在本发明中设计了Cross-Attention模块,它使用自注意力单元来探索模态内关联;使用引导注意力单元来探索跨模态关联。
自注意力单元只适用于单一模态的情况,而虽然引导注意力单元能够跨模态使用,但是它的注意力引导是单向的。因此,本发明为视频与字幕片段检索专门设计Cross-Attention模块。该发明通过交互式的将上述两类模块进行有机结合,从而达到具有获取双向注意力引导的作用。
S42:使用S41构建的Cross-Attention模块分别计算Eq与Ev,Eq与Es之间的关联关系;
其中,分别表示经过Cross-Attention模块输出的第一种查询语句特征序列和给定视频特征序列,这一过程记为Query-Video Cross-Attention;
分别表示经过Cross-Attention模块输出的给定视频所对应的字幕特征序列和第二种查询语句特征序列,这一过程记为Query-SubtitleCross-Attention。
通过该步骤获得的特征序列包含了查询语句每个单词与视频片段之间的细粒度关联关系,含有相当丰富的语义信息。因此,它将会有利于查询语句-视频和查询语句-字幕之间的匹配和检索。
S5:对S4所得的单词级别的和/>分别对应的转化为句子级别特征向量q(v)和q(s),的具体过程如下:通过聚合单词级别的特征向量为统一的一个句子级别的向量,来解决句子长短不一问题,且能便于后续计算匹配度。
S51:构建两个Query Attention Aggregation模块,每个所述Query AttentionAggregation模块均为两层的多层感知机;对于输入的查询语句而言,上述步骤S4已经将单词-片段关系嵌入到特征矩阵和/>中。然而,单词级别特征的作用在于进行细粒度的关系匹配,最终我们仍然需要把其转换为语句级别的特征向量用于最终的匹配。因此,本发明将每个查询语句内的所有单词的特征向量聚合为一个语句级别的特征向量。最直接的方法可以使用平均池化或者LSTM等序列化建模模型。但是这些方法很强调查询语句中的关键单词。因此,本发明选择搭建两个两层的多层感知机来实现。
S52:将使用S51构建的一个Query Attention Aggregation模块将转换为句子级别的特征向量/>其公式如下:
其中是查询语句中每个单词对应的权重;
使用S51构建的另一个Query Attention Aggregation模块将转换为对应的特征向量/> 转化为q(s)的过程使用的公式与公式(4)和公式(5)相同,只是输入和输出不同。
S6:计算最终每个片段与查询语句之间的匹配度,得到每个视频片段是最终检索结果的首个片段和末尾片段的概率;通过整合查询语句-视频输出的特征向量和查询语句-字幕对应的特征向量可得出最终的匹配度。由于检索结果可以包含多个片段,因此本发明分别采用两个神经网络来预测检索结果对应片段索引的开始和结束。
计算每个片段与查询语句之间的匹配度的过程如下:
S61:使用公式(6)计算查询语句与每个片段之间的匹配度
S62:将S输入到2个1D卷积层和一个softmax层来生成对应的Pst和Ped,和Pst和Ped分别表示每个视频片段是最终检索结果的首个片段和末尾片段的概率。
S7:以深度学习的方式来训练S2-S6中的模型,使所述S2-S6中的模型均为最优模型;通过约束目标函数,本发明所提的神经网络模型会收敛。对于新输入的视频和查询语句,按照所述步骤S1-S6计算对应的开始和结束索引。
训练S2-S6中的模型的过程如下:
获取多个训练样本,每个训练样本由一个三元组<查询语句,视频,视频对应的字幕>和对应的标注构成,该标注是二元组<tst,ted>(标注可以人工进行标注),tst和ted分别表示与查询语句最匹配的片段的开始和结束,损失函数可以定义为:
其中,Pst(i)和Ped(i)分别表示Pst和Ped向量中的第i维的值;
将带标注的训练样本作为输入,通过最小化所述损失函数对S2-S6中的模型进行训练,直到收敛或达到最大迭代轮数,保存训练完成为最优模型。
S8:对于新视频数据,依次执行步骤S2-S6,得到概率Pst和Ped,根据Pst和Ped中概率值的大小排序,找出Pst和Ped的值均大的N个片段作为查找的片段。
本发明的核心思想是去深入的探索查询语句-视频和查询语句-字幕关系。为了实现这一目的,本发明通过使用自注意力单元和引导注意力单元的有机结合,设计了一个新的Cross-Attention模块,该模块能够对两种不同模态数据进行双向建模。基于此,本发明引入了一个新的多交叉注意力神经网络,用于发掘查询语句-视频和查询语句-字幕内的单词-片段之间的关系。通过在一个非常具有挑战性的TVR数据集上大量的实验验证了本发明说提出方法具有良好的性能和优势。
图2对于输入的查询语句“House tells the person on the phone who topage.”视频与字幕片段检索的目的是去定位于查询语句最匹配的视频片段。最匹配的片段已经被高亮标记出来。
本发明将大规模TVR数据集作为实验数据,该数据包含了21793条视频,并人工对这些视频标注了大约10.9万查询语句和对应的片段。实验基于公开的90%的训练数据进行模型训练,基于公开的10%的验证集进行测试。表1对比了随机方法Random和三种现有视频片段检索方法MCN,ExCL,XML的“R@K,IoU@σ”与“mIoU”性能,其中,“R@K,IoU@σ”表示前K个检索片段包含有IoU匹配值大于σ的检索情况占比;“mIoU”表示所有测试查询返回的第一检索结果的IoU平均值。在大部分情形下,本发明所提方法取得了最好的性能。
表1本发明方法与现有方法的性能对比(%)
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种基于多交叉注意力的视频与字幕片段检索方法,其特征在于,包括如下步骤:
S1:对视频片段和其对应字幕检索进行如下定义;
定义q={w1,w2,...,wm}为一个查询语句,m表示查询语句q中的单词总数;
给定视频V,将视频拆分为n个不相交的片段{c1,c2,...,cn},每个片段有与该片段对应的字幕信息;
最终检索到的片段即可以被表示为{cst,cst+1,...,ced},其中cst,ced分别表示检索的开始片段和结束片段;
S2:提取V中n个片段的外观特征和动作特征,并将每个片段的外观特征和动作特征整合得到V的特征矩阵Ev;
S3:提取查询语句对应的特征矩阵Eq和V所对应字幕的特征矩阵Es;
S4:计算Eq与Ev,Eq与Es之间的关联关系,得到第一种查询语句特征序列给定视频特征序列/>给定视频所对应的字幕特征序列/>和第二种查询语句特征序列/>
计算Eq与Ev,Eq与Es之间的关联关系的过程如下:
S41:构建交叉注意力模块,所述交叉注意力模块包括两个自注意力单元SA-1和SA-2,还包括三个引导注意力单元GA-1,GA-2和GA-3;
交叉注意力模块表示为:
[X*,Y*]=CA(X,Y) (1)
其中,X*和Y*分别为X和Y对应的输出,CA(*,*)表示交叉注意力模块;
定义X和Y分别是查询语句、视频片段和视频片段所对应的字幕中的任意两种,首先分别将X和Y输入到两个自注意力单元SA-1,SA-2得到增强后的特征X1和Y1;
再将<X1,Y1>输入到GA-1中,得到X2=GA-1(X1,X2);
再将<Y1,X2>输入到GA-2中,得到Y2=GA-2(Y1,X2);
再将<X2,Y2>输入到GA-3中,得到X3=GA-3(X2,Y2);
最终所述交叉注意力模块的输出为<X3,Y2>;
S42:使用S41构建的Cross-Attention模块分别计算Eq与Ev,Eq与Es之间的关联关系;
其中,分别表示经过Cross-Attention模块输出的第一种查询语句特征序列和给定视频的特征序列;/>分别表示经过Cross-Attention模块输出的给定视频所对应的字幕特征序列和第二种查询语句特征序列;
S5:对S4所得的单词级别的和/>分别对应的转化为句子级别特征向量q(v)和q(s),转化过程为:
S51:构建两个Query Attention Aggregation模块,每个所述Query AttentionAggregation模块均为两层的多层感知机;
S52:将使用S51构建的一个Query Attention Aggregation模块将转换为句子级别的特征向量/>其公式如下:
其中是查询语句中每个单词对应的权重;
使用S51构建的另一个Query Attention Aggregation模块将转换为对应的特征向量/>
S6:计算最终每个片段与查询语句之间的匹配度,得到每个视频片段是最终检索结果的首个片段和末尾片段的概率;
计算每个片段与查询语句之间的匹配度的过程如下:
S61:使用公式(6)计算查询语句与每个片段之间的匹配度
S62:将S输入到2个1D卷积层和一个softmax层来生成对应的Pst和Ped,和Pst和Ped分别表示每个视频片段是最终检索结果的首个片段和末尾片段的概率;
S7:以深度学习的方式来训练S2-S6中的模型,使所述S2-S6中的模型均为最优模型,训练S2-S6中的模型的过程如下:
获取多个训练样本,每个训练样本由一个三元组<查询语句,视频,视频对应的字幕>和对应的标注构成,该标注是二元组<tst,ted>,tst和ted分别表示与查询语句最匹配的片段的开始和结束,损失函数可以定义为:
其中,Pst(i)和Ped(i)分别表示Pst和Ped向量中的第i维的值;
将带标注的训练样本作为输入,通过最小化所述损失函数对S2-S6中的模型进行训练,直到收敛或达到最大迭代轮数,保存训练完成为最优模型;
S8:对于新视频数据,依次执行步骤S2-S6,得到概率Pst和Ped,根据Pst和Ped中概率值的大小排序,找出Pst和Ped的值均大的N个片段作为查找的片段。
2.如权利要求1所述的基于多交叉注意力的视频与字幕片段检索方法,其特征在于:所述S2中得到V的特征矩阵Ev的过程如下:
使用预训练的ResNet-152模型来提取V每帧的外观特征,使用预训练的I3D模型来提取V的动作特征,然后将n个片段的外观特征和动作特征进行整合,整合后得到V的特征矩阵Ev,
3.如权利要求1或2所述的基于多交叉注意力的视频与字幕片段检索方法,其特征在于:所述S3提取查询语句对应的特征矩阵Eq和V所对应字幕的特征矩阵Es的步骤如下:
S31:在现有数据集上对RoBERTa模型进行训练,得到预训练的RoBERTa模型;
S32:使用S31获得的预训练的RoBERTa模型提取查询语句每个单词的特征向量,将所有单词的特征向量整合,即得到整个查询语句的特征矩阵Eq,其中m为查询语句中的单词总数,d为特征矩阵的维度;
使用S31获得的预训练的RoBERTa模型提取每个片段对应的字幕的特征向量,对一个片段内的所有字幕的特征向量取平均值得到该片段所对应字幕的特征矩阵,将所有片段所对应字幕的特征矩阵整合,即得到V所以对应字幕的特征矩阵Es,其中n为给定视频中片段的总数,d为特征矩阵的维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210054069.7A CN114429119B (zh) | 2022-01-18 | 2022-01-18 | 一种基于多交叉注意力的视频与字幕片段检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210054069.7A CN114429119B (zh) | 2022-01-18 | 2022-01-18 | 一种基于多交叉注意力的视频与字幕片段检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114429119A CN114429119A (zh) | 2022-05-03 |
CN114429119B true CN114429119B (zh) | 2024-05-28 |
Family
ID=81313973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210054069.7A Active CN114429119B (zh) | 2022-01-18 | 2022-01-18 | 一种基于多交叉注意力的视频与字幕片段检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114429119B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311595B (zh) * | 2022-06-30 | 2023-11-03 | 中国科学院自动化研究所 | 视频特征提取方法、装置及电子设备 |
CN115171838B (zh) * | 2022-08-24 | 2023-04-07 | 中南大学 | 基于跨模态融合的医学报告生成模型的训练方法 |
CN116385946B (zh) * | 2023-06-06 | 2023-08-29 | 山东大学 | 面向视频的目标片段定位方法、系统、存储介质及设备 |
CN118379505B (zh) * | 2024-06-25 | 2024-08-23 | 杭州声贝软件技术有限公司 | 一种城市道路积水分割模型的构建方法及构建装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202514A (zh) * | 2016-07-21 | 2016-12-07 | 北京邮电大学 | 基于Agent的突发事件跨媒体信息的检索方法及系统 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
WO2021092632A2 (en) * | 2021-02-26 | 2021-05-14 | Innopeak Technology, Inc. | Weakly-supervised text-based video moment retrieval via cross attention modeling |
CN113128431A (zh) * | 2021-04-25 | 2021-07-16 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、介质与电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516085B (zh) * | 2019-07-11 | 2022-05-17 | 西安电子科技大学 | 基于双向注意力的图像文本互检索方法 |
-
2022
- 2022-01-18 CN CN202210054069.7A patent/CN114429119B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202514A (zh) * | 2016-07-21 | 2016-12-07 | 北京邮电大学 | 基于Agent的突发事件跨媒体信息的检索方法及系统 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
WO2021092632A2 (en) * | 2021-02-26 | 2021-05-14 | Innopeak Technology, Inc. | Weakly-supervised text-based video moment retrieval via cross attention modeling |
CN113128431A (zh) * | 2021-04-25 | 2021-07-16 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、介质与电子设备 |
Non-Patent Citations (3)
Title |
---|
Multiple cross-attention for video-subtitle moment retrieval;Hao Fu等;《Pattern recognition Letters》;20220301;第156卷;7-14 * |
Video- based cross-modal recipe retrieval;Da Cao等;《Proceeding of the 27th ACM International conference on multimedia 》》;20191031;1685-1693 * |
基于全局与局部协同注意力的图文检索算法研究;罗永盛;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215;I138-2061 * |
Also Published As
Publication number | Publication date |
---|---|
CN114429119A (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114429119B (zh) | 一种基于多交叉注意力的视频与字幕片段检索方法 | |
CN114020862B (zh) | 一种面向煤矿安全规程的检索式智能问答系统及方法 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN111353030A (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN106446162A (zh) | 一种面向领域的本体知识库文本检索方法 | |
CN109977220B (zh) | 一种基于关键句和关键字的反向生成摘要的方法 | |
CN113806554B (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN114237621B (zh) | 一种基于细粒度共注意机制的语义代码搜索方法 | |
CN112307364A (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN118093829A (zh) | 一种基于知识图谱增强的法律咨询方法 | |
CN115017279B (zh) | 基于文本语义匹配的Stack Overflow相关问答检索方法 | |
CN112417170A (zh) | 面向不完备知识图谱的关系链接方法 | |
CN113343692B (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
Zhong et al. | Reasoning over hybrid chain for table-and-text open domain qa | |
CN113312498B (zh) | 用无向图嵌入知识图谱的文本信息抽取方法 | |
CN118227790A (zh) | 基于多标签关联的文本分类方法、系统、设备及介质 | |
CN114138989A (zh) | 相关性预测模型训练方法、装置及相关性预测方法 | |
CN113342953A (zh) | 一种基于多模型集成的政务问答方法 | |
CN116628261A (zh) | 基于多语义空间的视频文本检索方法、系统、设备及介质 | |
CN114579605B (zh) | 表格问答数据处理方法、电子设备及计算机存储介质 | |
CN112101559A (zh) | 一种基于机器学习的案件罪名推断方法 | |
CN118467768B (zh) | 基于大模型高级语义图嵌入的快速图像检索方法及系统 | |
CN118410200B (zh) | 遥感图像检索方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |