CN112650886A - 基于跨模态动态卷积网络的跨模态视频时刻检索方法 - Google Patents

基于跨模态动态卷积网络的跨模态视频时刻检索方法 Download PDF

Info

Publication number
CN112650886A
CN112650886A CN202011575231.7A CN202011575231A CN112650886A CN 112650886 A CN112650886 A CN 112650886A CN 202011575231 A CN202011575231 A CN 202011575231A CN 112650886 A CN112650886 A CN 112650886A
Authority
CN
China
Prior art keywords
video
cross
modal
network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011575231.7A
Other languages
English (en)
Other versions
CN112650886B (zh
Inventor
徐行
王公勉
沈复民
邵杰
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011575231.7A priority Critical patent/CN112650886B/zh
Publication of CN112650886A publication Critical patent/CN112650886A/zh
Application granted granted Critical
Publication of CN112650886B publication Critical patent/CN112650886B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,属于计算机视觉中的跨模态检索领域。本发明使用基于注意力机制的层级视频特征提取模块提取细粒度视频特征,一定程度上减少了视频特征中的噪声,提高了动作特征的精细程度。同时,本发明使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索,更加充分的利用了文本中隐含的信息来得到检索结果,以达到提高检索结果的准确性的目的。

Description

基于跨模态动态卷积网络的跨模态视频时刻检索方法
技术领域
本发明属于计算机视觉中的跨模态检索领域,具体涉及一种基于跨模态动态卷积网络的跨模态视频时刻检索方法。
背景技术
跨模态视频时刻检索是跨模态视频检索的子任务。其目标是根据查询文本,在一段视频中找出与文本相对应的视频片段。和跨模态视频检索不同,跨模态视频时刻检索需要在指定视频中获得与文本对应的视频片段的开始时间和结束时间,而不是文本与整段视频的对应关系。跨模态视频时刻检索在视频问答,视频定位,视频描述等领域都有广泛的应用。
研究技术尝试利用前沿的深度学习技术改善模型表现力,基于深度学习的跨模态视频时刻检索技术不断涌现。相较于手工设计数据的特征,深度学习方法可以自动学习数据的特征并由此对数据进行分类与回归,因此具有更高的鲁棒性。其中,基于深度学习的跨模态视频时刻检索方法主要有以下三种技术路线:
1)基于候选片段的跨模态视频时刻检索方法:受到基于锚点的目标检测方法的启发,基于候选片段的跨模态视频时刻检索方法首先通过滑动窗口生成多尺度的候选片段,然后融合视频特征和文本特征,利用融合后的特征预测匹配分数,来度量候选片段和查询文本之间的相似性。
2)无候选片段的跨模态视频时刻检索方法:无候选片段的跨模态视频时刻检索方法使用帧级的视频表示而不是生成候选片段的特征来预测与查询文本对应的视频片段。该类方法利用循环神经网络或者注意力机制来获得与文本相关上下文信息以得到准确的开始时间和结束时间。
3)基于强化学习的跨模态视频时刻检索方法:为了解决跨模态视频时刻检索的效率问题,基于强化学习的跨模态视频时刻检索方法主动地去选择一部分帧或几个视频片段进行观察,然后观察得到的信息进行预测,而不需要观察整段视频的视频特征。这类方法在效率上有较大的优势。
目前跨模态视频时刻检索采用的方法主要为基于候选片段的跨模态视频时刻检索方法。相较于其他方法,该类方法在检索的准确率上有较大的优势。
但现有的时刻检索方法仍有很大的不足,如:视频特征的表示不够精细、视频特征中包含较多的噪声没有去除、文本信息没有被充分融合利用等。以上问题均一定程度上导致了视频时刻检索准确率的下降。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于跨模态动态卷积网络的跨模态视频时刻检索方法;以基于注意力机制的层级视频特征提取模块提取细粒度视频特征,一定程度上减少了视频特征中的噪声,提高了动作特征表示的精细程度。同时,使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索,更加充分的利用了文本中隐含的信息来得到检索结果,以达到提高检索结果的准确性的目的。
本发明通过下述技术方案实现:一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,首先使用层级视频特征提取模块和文本特征提取模块分别提取视频和文本这两种模态的特征,然后采用跨模态融合机制对这两种模态的特征进行融合,最后使用基于跨模态卷积神经网络的时刻定位模块完成跨模态视频时刻检索。
一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,该方法采用基于跨模态动态卷积网络的跨模态视频时刻检索模型实现,所述基于跨模态动态卷积网络的跨模态视频时刻检索模型包括层级视频特征提取模块,文本特征提取模块,跨模态融合模块和基于跨模态卷积神经网络的时刻定位模块,该方法具体包括以下步骤:
步骤S1:选择训练数据集;
步骤S2:对于训练数据集中的每一段视频中的每一帧,使用预训练网络(如VGG或C3D)提取帧级视频特征;
步骤S3:构建基于注意力机制的层级视频特征提取模块和文本特征提取模块的网络结构,利用步骤S2中的帧级视频特征通过层级视频特征提取模块生成候选片段的段级视频特征,并利用步骤S1中训练数据集中的文本通过文本特征提取模块生成文本特征;
步骤S4:构建跨模态融合模块,融合步骤S3中的段级视频特征和文本特征;
步骤S5:构建基于跨模态卷积神经网络的时刻定位模块,并定义损失函数对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行约束;
步骤S6:采用Adam优化器,对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行训练;
步骤S7:使用训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索,以验证训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络效果。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:通过预训练网络提取训练数据集中的每一段视频中每一帧的特征;
步骤S22:预设F个帧级视频特征,对帧级视频特征个数不符合的视频采用平均采样的方式使视频的特征个数保持在F个,F一般设定为256。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:构建由3层长短期记忆网络组成的文本特征提取模块,提取文本的特征;
步骤S32:将视频平均分为T个视频片段;
步骤S33:对于每一个视频片段,使用层级视频特征提取模块提取每一个视频片段的视频特征;
步骤S34:以视频片段的时间位置为候选时间,预设P个由两个不同候选时间内所包含的视频片段为候选片段。对于T个视频片段的视频特征,使用卷积网络或平均池化的方法融合候选片段内的视频特征,构建2D时序特征图,即候选片段的段级视频特征。
进一步地,所述步骤S33的层级视频特征提取模块每一个层级的操作具体包括以下步骤:
步骤S331:对每一个视频片段内的所有视频特征进行平均池化;
步骤S332:将步骤S331平均池化后的特征与上一级的动作特征级联,生成该层级的引导特征;
步骤S333:将步骤S332生成的引导特征与该视频片段内的所有视频特征进行融合,生成注意力权重;
步骤S334:使用步骤S333中的注意力权重对片段内的原视频特征进行加权求和,得到该层级的动作特征;
进一步地,所述步骤S4的跨模态融合模块使用2D时序特征图和文本特征的哈达玛积作为2D时序融合特征图。
进一步地,所述步骤S5的跨模态卷积神经网络层执行的操作具体包括以下步骤:
步骤S51:使用级联的方式融合2D时序融合特征图和文本特征,得到融合特征;
步骤S52:根据步骤S51的融合特征生成注意力权值;
步骤S53:根据步骤S52生成的注意力权值来融合基卷积核,生成融合卷积核;
步骤S54:使用步骤S53生成的融合卷积核对2D时序融合特征图进行卷积。
进一步地,所述步骤S5中的基于跨模态卷积神经网络的时刻定位模块由K个跨模态卷积神经网络层组成,并采用了残差连接。在基于跨模态卷积神经网络的时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度。
进一步地,所述步骤S5中的损失函数为:L=Ls_IoU+βLdis_att;其中,β表示损失函数中帧注意力差异损失的权重系数,用于平衡缩放交并比损失和帧注意力差异损失的比例,一般设定为0.1。Ls_IoU表示缩放交并比损失,具体如下所示:
Figure BDA0002863496730000041
Figure BDA0002863496730000042
其中oi表示视频候选片段与视频真实片段的交并比IoU,pi表示网络预测的该视频候选片段的置信度,tmax与tmin表示缩放的范围,C表示训练数据集中视频和文本对的个数。Ldis_att表示帧注意力差异损失,具体如下所示:
Figure BDA0002863496730000043
其中A为步骤S333获得的注意力权重的连接;λ表示帧自注意力抵消系数,用于抵消每一帧对自己计算注意力的影响;‖·‖F表示F-范数。
进一步地,所述步骤S7中进行时刻检索时,将步骤S5中得到的置信度最大的视频候选片段的开始时间和结束时间作为输出结果。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明使用层级视频特征提取模块来提取细粒度的视频特征用于跨模态视频时刻检索,可以更充分地挖掘视觉信息,获得更准确的视频表示。
(2)本发明使用了基于跨模态卷积神经网络的时刻定位模块来进行时刻检索,该模块可充分利用查询文本中的信息,并减少视频特征中的噪声,同时没有增加网络推理过程中的计算消耗。
附图说明
图1为具体实施方式中,设置基于跨模态动态卷积网络的跨模态视频时刻检索模型的实现流程图;
图2为具体实施方式中,本发明的基于跨模态动态卷积网络的跨模态视频时刻检索模型的框架示意图;
图3为具体实施方式中,本发明的层级视频特征提取模块操作的示意图;
图4为具体实施方式中,跨模态视频时刻检索模型在Charades-STA数据集上的时刻检索效果展示图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,所描述的实施例是本发明一部分实施例,而不是全部的实施例,也并非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,先使用层级视频特征提取模块和文本特征提取模块分别提取视频和文本的特征,然后采用跨模态融合机制对两种模态的特征进行融合,最后使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索。
本实施例的一个核心内容在于在使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索时,使用融合特征和文本特征来动态地生成卷积核,并将其用于卷积网络中的计算,使网络可以更加充分利用文本特征中的信息,且在推断过程中不会增加计算量。同时,在提取视频特征时,在每一个视频片段中,使用注意力机制分层级地提取出多个语义不同的动作特征来表示该视频片段中的不同动作信息。相较于目前已有的方法,该视频特征提取方式极大的提高了视频信息的丰富程度,使时刻检索结果的准确性有了很大的提高。
一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,该方法采用基于跨模态动态卷积网络的跨模态视频时刻检索模型实现,所述基于跨模态动态卷积网络的跨模态视频时刻检索模型包括层级视频特征提取模块,文本特征提取模块,跨模态融合模块和基于跨模态卷积神经网络的时刻定位模块,该方法具体包括以下步骤:
步骤S1:选择训练数据集;
步骤S2:对于训练数据集中的每一段视频中的每一帧,使用预训练网络(如VGG或C3D)提取帧级视频特征;
步骤S3:构建基于注意力机制的层级视频特征提取模块和文本特征提取模块的网络结构,利用步骤S2中的帧级视频特征通过层级视频特征提取模块生成候选片段的段级视频特征,并利用步骤S1中训练数据集中的文本通过文本特征提取模块生成文本特征;
步骤S4:构建跨模态融合模块,融合段级视频特征和文本特征;
步骤S5:构建基于跨模态卷积神经网络的时刻定位模块,并定义损失函数对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行约束;
步骤S6:采用Adam优化器,对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行训练;
步骤S7:使用训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索,以验证训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络效果。
一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,先使用层级视频特征提取模块和文本特征提取模块分别提取视频和文本的特征,然后采用跨模态融合机制对两种模态的特征进行融合,最后使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索,主要包括步骤S1-步骤S7。
步骤S1:选择训练数据集;
本实施例选取Charades-STA数据集和TACoS数据集进行实验。
Charades-STA数据集基于Charades数据集构建,包含约10000个日常室内活动的视频以及157个活动类别。与Charades相比,Charades-STA数据集将原始的长文本描述剪切成短句子,并为每个句子增加了开始时间和结束时间的时间标注。在本实施例训练阶段使用了12,408个视频-文本对;在验证网络效果的测试阶段,使用了3,720个视频-文本对。
TACoS数据集包含从厨房场景中收集的未修剪的细粒度人类活动视频,并对视频片段做了详细的语言描述。该数据集中有10,146个视频-文本对作为训练集,4,589个视频-文本对作为验证集和4,083个视频-文本对作为测试集。
由于厨房场景中的复杂动作以及视频中更密集的时间注释所引起的噪声,在使用自然语言任务进行检索时,这是一个非常具有挑战性的数据集。
步骤S2:使用预训练网络提取帧级视频特征;
本实例选取VGG网络作为预训练网络,用以提取视频特征。VGG网络用于图片分类,能够很好的提取每一帧中的视频特征。且每个视频的视频特征数目F取为256。该步骤具体内容如下:
步骤S21:通过VGG预训练网络提取视频中每一帧的帧级视频特征;
步骤S22:预设256个视频特征,对视频特征个数不符合的视频采用平均采样的方式使视频的特征个数保持在256个。
步骤S3:构建基于注意力机制的层级视频特征提取模块和文本特征提取模块的网络结构,利用步骤S2中的帧级视频特征通过层级视频特征提取模块生成候选片段的段级视频特征,并利用步骤S1中训练数据集中的文本通过文本特征提取模块生成文本特征;
具体内容如下:
步骤S31:构建由3层长短期记忆网络组成的文本特征提取模块,提取文本的特征;
文本特征提取模块首先使用GloVe-300模型将文本转换为嵌入向量,然后输入到3层单向长短期记忆网络中。随后取长短期记忆网络的最后一层的最后一位的输出作为整个文本的特征。
步骤S32:将视频平均分为16个片段;
步骤S33:对于每一个视频片段,使用层级视频特征提取模块提取每一个视频片段多个不同层级的视频特征;如图3所示,层级视频特征提取模块每一个层级的操作具体包括以下步骤:
步骤S331:对每一个视频片段内的所有视频特征进行平均池化;
步骤S332:将步骤S331平均池化后的特征与上一级的动作特征级联,生成该层级的引导特征;
步骤S333:将步骤S332生成的引导特征与该视频片段内的视频特征进行融合,生成注意力权重;
步骤S334:使用步骤S333中的注意力权重对该视频片段内的原视频特征进行加权求和,得到该层级的动作特征。
通过多次重复上述步骤,层级视频特征提取模块可以有效地提取出多个不同的描述视频动作特征,从而更好地区分同一段视频中的不同动作,以在时刻检索过程中获得更加精确的结果。最后将每一个视频片段的多个动作特征级联,作为该视频片段的视频特征。
步骤S34:以视频片段的时间位置为候选时间,预设136个由两个不同候选时间内所包含的视频片段为候选片段。对于16个视频片段的视频特征,首先使用一层全连接层对其降维,然后使用卷积网络或平均池化的方法融合不同起始和结束视频候选片段的特征,构建2D时序特征图,所述2D时序特征图即候选片段的段级视频特征。
步骤S4:构建跨模态融合模块,融合段级视频特征和文本特征。跨模态融合模块使用2D时序特征图和文本特征的哈达玛积作为2D时序融合特征图。
步骤S5:构建基于跨模态卷积神经网络的时刻定位模块,定义基于跨模态动态卷积网络的跨模态视频时刻检索模型损失函数进行约束;
跨模态卷积神经网络层具体卷积步骤如下:
步骤S51:使用级联的方式融合2D时序融合特征图和文本特征;
步骤S52:根据步骤S51的融合特征生成注意力权值;
步骤S53:根据步骤S52生成的注意力权值来融合基卷积核,生成融合卷积核;
步骤S54:使用融合卷积核对2D时序融合特征图进行卷积。
基于跨模态卷积神经网络的时刻定位模块由8个跨模态卷积神经网络层组成,并采用了残差连接。在基于跨模态卷积神经网络的时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度。
基于跨模态动态卷积网络的跨模态视频时刻检索模型的损失函数为:L=Ls_IoU+βLdis_att;其中,β表示损失函数中帧注意力差异损失的权重系数,用于平衡缩放交并比损失和帧注意力差异损失的比例,一般设定为0.1。Ls_IoU表示缩放交并比损失,具体如下所示:
Figure BDA0002863496730000081
Figure BDA0002863496730000082
其中oi表示候选片段与真实片段的交并比IoU,pi表示网络预测的该候选片段的置信度,tmax与tmin表示缩放的范围,C表示训练数据集中视频和文本对的个数。Ldis_att表示帧注意力差异损失,具体如下所示:
Figure BDA0002863496730000083
其中A为步骤S333获得的注意力权重的连接;λ表示帧自注意力抵消系数,用于抵消每一帧对自己计算注意力的影响;‖·‖F表示F-范数。帧注意力差异损失可以引导步骤S33中的层级视频提取模块中的每一个层级去倾向于提取不同的动作特征,使层级视频提取模块可以捕捉更加丰富的信息。
步骤S6:采用Adam优化器对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行训练;
Adam优化器的学习率设置为0.0001,并且不使用权重衰减。整个基于跨模态动态卷积网络的跨模态视频时刻检索模型在训练数据集上训练50个周期。
步骤S7:使用训练好的基于跨模态动态卷积网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索,以验证网络效果。
该步骤具体将步骤S5中得到的视频候选片段的置信度从大到小排序,置信度最高的视频候选片段即为时刻检索的结果。
进一步优化,采用Rank M@N指标来评估我们的模型。当网络输出的检索结果与真实片段之间的交并比IoU分数大于M时,我们将网络输出的视频片段视为正确的视频时刻检索结果。Rank M@N被定义为在前N个置信度最高的时刻检索片段中正确的视频时刻检索结果的百分比。在Charades-STA数据集上,我们使用Rank 1@0.5、Rank 1@0.7、Rank 5@0.5、Rank 5@0.7这四个指标来评估我们的结果。在TACoS数据集上,我们使用Rank 1@0.1、Rank1@0.3、Rank 1@0.5、Rank 5@0.1、Rank 5@0.3、Rank 5@0.5这六个指标来评估我们的结果。
在验证网络效果的测试阶段,我们分别测试了在步骤S34使用卷积网络和平均池化的方法生成候选片段的段级视频特征的方法的效果,分别展示在Ours(Conv)和Ours(Pool)中。在Charades-STA数据集上的测试结果如表1所示:
表1在Charades-STA数据集上的模型性能对比
Figure BDA0002863496730000091
Figure BDA0002863496730000101
在TACoS数据集上的测试结果如表2所示:
表2在TACoS数据集上的模型性能对比
Figure BDA0002863496730000102
Figure BDA0002863496730000111
本发明在Charades-STA数据集中,有3项高精度指标上优于目前的所有方法,有一项指标达到了目前的先进水平。在TACoS数据集上,本发明在所有指标上都明显优于目前的方法。这证明的本发明提出的模型通过使用跨模态动态卷积网络的方法,充分利用了文本中的信息,提高了跨模态视频时刻检索的准确率。
如图4所示,本发明提出的方法相较于目前的最好方法,有着更加准确的视频时刻检索结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (8)

1.一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,其特征在于,该方法采用基于跨模态动态卷积网络的跨模态视频时刻检索模型实现,所述基于跨模态动态卷积网络的跨模态视频时刻检索模型包括层级视频特征提取模块,文本特征提取模块,跨模态融合模块和基于跨模态卷积神经网络的时刻定位模块,该方法包括以下步骤:
步骤S1:选择训练数据集;
步骤S2:对于训练数据集中的每一段视频中的每一帧,使用预训练网络提取帧级视频特征,所述预训练网络为VGG或C3D;
步骤S3:构建基于注意力机制的层级视频特征提取模块和文本特征提取模块的网络结构,利用步骤S2中的帧级视频特征通过层级视频特征提取模块生成候选片段的段级视频特征,并利用步骤S1中训练数据集中的文本通过文本特征提取模块生成文本特征;
步骤S4:构建跨模态融合模块,融合步骤S3中候选片段的段级视频特征和文本特征;
步骤S5:构建基于跨模态卷积神经网络的时刻定位模块,并定义损失函数对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行约束;
步骤S6:采用Adam优化器,对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行训练;
步骤S7:使用训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索,以验证训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络效果。
2.根据权利要求1所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法,其特征在于,所述步骤S2具体包括:
步骤S21:通过预训练网络提取训练数据集中的每一段视频中每一帧的特征;
步骤S22:预设F个帧级视频特征,对帧级视频特征个数不符合的视频采用平均采样的方式使视频的特征个数保持在F个,F设定为256。
3.根据权利要求2所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法,其特征在于,所述步骤S3具体包括:
步骤S31:构建由3层长短期记忆网络组成的文本特征提取模块,提取文本特征;
步骤S32:将视频平均分为T个视频片段;
步骤S33:对于每一个视频片段,使用层级视频特征提取模块提取每一个视频片段多个不同层级的动作特征,将该视频片段的多个动作特征级联,作为该视频片段的视频特征;
步骤S34:以视频片段的时间位置为候选时间,预设P个由两个不同候选时间内所包含的视频片段为候选片段,对于T个视频片段的视频特征,首先使用一层全连接层对其降维,然后使用卷积网络或平均池化的方法融合不同起始和结束候选片段的视频特征,构建2D时序特征图,即候选片段的段级视频特征;
其中,所述步骤S33的层级视频特征提取模块每一个层级的操作具体包括:
步骤S331:对每一个视频片段内的所有视频特征进行平均池化;
步骤S332:将步骤S331平均池化后的特征与上一级的动作特征级联,生成该层级的引导特征;
步骤S333:将步骤S332生成的引导特征与该视频片段内的所有视频特征进行融合,生成注意力权重;
步骤S334:使用步骤S333中的注意力权重对该视频片段内的原视频特征进行加权求和,得到该层级的动作特征。
4.根据权利要求3所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法,其特征在于,所述步骤S4具体为:所述跨模态融合模块使用候选片段的段级视频特征和文本特征的哈达玛积作为2D时序融合特征图,所述候选片段的段级视频特征即2D时序特征图。
5.根据权利要求4所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法,其特征在于,所述步骤S5具体包括:所述基于跨模态卷积神经网络的时刻定位模块由K个跨模态卷积神经网络层组成,并采用了残差连接,在基于跨模态卷积神经网络的时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度;
其中,所述跨模态卷积神经网络层执行的操作具体包括:
步骤S51:使用级联的方式融合2D时序融合特征图和文本特征,得到融合特征;
步骤S52:根据步骤S51的融合特征生成注意力权值;
步骤S53:根据步骤S52生成的注意力权值来融合基卷积核,生成融合卷积核;
步骤S54:使用步骤S53生成的融合卷积核对2D时序融合特征图进行卷积;
所述步骤S5中的损失函数为:L=LS_IoU+βLdis_att;其中,β表示损失函数中帧注意力差异损失的权重系数,用于平衡缩放交并比损失和帧注意力差异损失的比例,β设定为0.1;Ls_IoU表示缩放交并比损失,具体如下所示:
Figure FDA0002863496720000031
Figure FDA0002863496720000032
其中oi表示视频候选片段与视频真实片段的交并比IoU,pi表示基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络预测的该视频候选片段的置信度,tmax与tmin表示缩放的范围,C表示训练数据集中视频和文本对的个数,Ldis_att表示帧注意力差异损失,具体如下所示:
Figure FDA0002863496720000033
其中A为步骤S333获得的注意力权重的连接;λ表示帧自注意力抵消系数,用于抵消每一帧对自己计算注意力的影响;‖·‖F表示F-范数。
6.根据权利要求5所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法,其特征在于,所述步骤S7具体为:使用训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索时,将步骤S5中得到的置信度最大的视频候选片段的开始时间和结束时间作为输出结果。
7.根据权利要求6所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法,其特征在于,所述T=16,所述P=136,所述K=8。
8.根据权利要求7所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法,其特征在于,所述步骤S6中Adam优化器的学习率设置为0.0001,并且不使用权重衰减,整个基于跨模态动态卷积网络的跨模态视频时刻检索模型在训练数据集上训练50个周期。
CN202011575231.7A 2020-12-28 2020-12-28 基于跨模态动态卷积网络的跨模态视频时刻检索方法 Expired - Fee Related CN112650886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011575231.7A CN112650886B (zh) 2020-12-28 2020-12-28 基于跨模态动态卷积网络的跨模态视频时刻检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011575231.7A CN112650886B (zh) 2020-12-28 2020-12-28 基于跨模态动态卷积网络的跨模态视频时刻检索方法

Publications (2)

Publication Number Publication Date
CN112650886A true CN112650886A (zh) 2021-04-13
CN112650886B CN112650886B (zh) 2022-08-02

Family

ID=75363255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011575231.7A Expired - Fee Related CN112650886B (zh) 2020-12-28 2020-12-28 基于跨模态动态卷积网络的跨模态视频时刻检索方法

Country Status (1)

Country Link
CN (1) CN112650886B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111837A (zh) * 2021-04-25 2021-07-13 山东省人工智能研究院 基于多媒体语义解析的监控视频智能预警方法
CN113204675A (zh) * 2021-07-07 2021-08-03 成都考拉悠然科技有限公司 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN113255570A (zh) * 2021-06-15 2021-08-13 成都考拉悠然科技有限公司 一种感知视频片段关系的时序动作检测方法
CN113590874A (zh) * 2021-09-28 2021-11-02 山东力聚机器人科技股份有限公司 一种视频定位方法及装置、模型训练方法及设备
CN113869154A (zh) * 2021-09-15 2021-12-31 中国科学院大学 根据语言描述的视频动作者分割方法
CN114612748A (zh) * 2022-03-24 2022-06-10 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN115223086A (zh) * 2022-09-20 2022-10-21 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN117058601A (zh) * 2023-10-13 2023-11-14 华中科技大学 一种基于高斯核的跨模态网络的视频时空定位网络、方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
US20200142948A1 (en) * 2018-11-07 2020-05-07 Samsung Electronics Co., Ltd. System and method for cached convolution calculation
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN111598214A (zh) * 2020-04-02 2020-08-28 浙江工业大学 一种基于图卷积神经网络的跨模态检索方法
CN111862174A (zh) * 2020-07-08 2020-10-30 清华大学深圳国际研究生院 一种跨模态医学图像配准方法及装置
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
US20200142948A1 (en) * 2018-11-07 2020-05-07 Samsung Electronics Co., Ltd. System and method for cached convolution calculation
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN111598214A (zh) * 2020-04-02 2020-08-28 浙江工业大学 一种基于图卷积神经网络的跨模态检索方法
CN111862174A (zh) * 2020-07-08 2020-10-30 清华大学深圳国际研究生院 一种跨模态医学图像配准方法及装置
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONGHUO ZENG等: "Learning Joint Embedding for Cross-Modal Retrieval", 《网页在线公开:HTTPS://IEEEXPLORE.IEEE.ORG/STAMP/STAMP.JSP?TP=&ARNUMBER=8955515》 *
李志义等: "基于表示学习的跨模态检索模型与特征抽取研究综述", 《情报学报》 *
董震等: "基于异构哈希网络的跨模态人脸检索方法", 《计算机学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111837A (zh) * 2021-04-25 2021-07-13 山东省人工智能研究院 基于多媒体语义解析的监控视频智能预警方法
CN113255570A (zh) * 2021-06-15 2021-08-13 成都考拉悠然科技有限公司 一种感知视频片段关系的时序动作检测方法
CN113255570B (zh) * 2021-06-15 2021-09-24 成都考拉悠然科技有限公司 一种感知视频片段关系的时序动作检测方法
CN113204675A (zh) * 2021-07-07 2021-08-03 成都考拉悠然科技有限公司 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN113204675B (zh) * 2021-07-07 2021-09-21 成都考拉悠然科技有限公司 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN113869154A (zh) * 2021-09-15 2021-12-31 中国科学院大学 根据语言描述的视频动作者分割方法
CN113869154B (zh) * 2021-09-15 2022-09-02 中国科学院大学 根据语言描述的视频动作者分割方法
CN113590874A (zh) * 2021-09-28 2021-11-02 山东力聚机器人科技股份有限公司 一种视频定位方法及装置、模型训练方法及设备
CN114612748A (zh) * 2022-03-24 2022-06-10 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN114612748B (zh) * 2022-03-24 2024-06-07 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN115223086A (zh) * 2022-09-20 2022-10-21 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN115223086B (zh) * 2022-09-20 2022-12-06 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN117058601A (zh) * 2023-10-13 2023-11-14 华中科技大学 一种基于高斯核的跨模态网络的视频时空定位网络、方法

Also Published As

Publication number Publication date
CN112650886B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN110288665A (zh) 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN113963304B (zh) 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN114428850A (zh) 一种文本检索匹配方法和系统
CN111563378A (zh) 一种联合学习的多文档阅读理解实现方法
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN114743029A (zh) 一种图像文本匹配的方法
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN113836269A (zh) 一种基于问答式系统的篇章级核心事件抽取方法
CN116644759B (zh) 语句中方面类别及其语义极性的提取方法和系统
CN112989803A (zh) 一种基于主题向量学习的实体链接模型
CN114970563B (zh) 融合内容和形式多样性的中文问题生成方法和系统
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Yadav et al. Real time video to text summarization using neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220802