CN113204675A - 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 - Google Patents

一种基于跨模态物体推理网络的跨模态视频时刻检索方法 Download PDF

Info

Publication number
CN113204675A
CN113204675A CN202110766199.9A CN202110766199A CN113204675A CN 113204675 A CN113204675 A CN 113204675A CN 202110766199 A CN202110766199 A CN 202110766199A CN 113204675 A CN113204675 A CN 113204675A
Authority
CN
China
Prior art keywords
cross
modal
video
network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110766199.9A
Other languages
English (en)
Other versions
CN113204675B (zh
Inventor
徐行
王公勉
蒋寻
沈复民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Koala Youran Technology Co ltd
Original Assignee
Chengdu Koala Youran Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Koala Youran Technology Co ltd filed Critical Chengdu Koala Youran Technology Co ltd
Priority to CN202110766199.9A priority Critical patent/CN113204675B/zh
Publication of CN113204675A publication Critical patent/CN113204675A/zh
Application granted granted Critical
Publication of CN113204675B publication Critical patent/CN113204675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于跨模态物体推理网络的跨模态视频时刻检索方法,属于计算机视觉中的跨模态检索领域。本发明使用细粒度的物体级视频特征来进行跨模态视频时刻检索。同时,使用基于跨模态物体推理网络的跨模态视频时刻检索方法完成时刻检索,更加充分的利用了物体之间隐含的信息以及时序上的信息来得到检索结果,以达到提高检索结果的准确性的目的。

Description

一种基于跨模态物体推理网络的跨模态视频时刻检索方法
技术领域
本发明属于计算机视觉中的跨模态检索领域,具体地说,涉及一种基于跨模态物体推理网络的跨模态视频时刻检索方法。
背景技术
跨模态视频时刻检索是跨模态视频检索的子任务。其目标是根据查询文本,在一段视频中找出与文本相对应的视频片段。和跨模态视频检索不同,跨模态视频时刻检索需要在指定视频中获得与文本对应的视频片段的开始时间和结束时间,而不是文本与整段视频的对应关系。跨模态视频时刻检索在视频问答,视频定位,视频描述等领域都有广泛的应用。
研究技术尝试利用前沿的深度学习技术改善模型表现力,基于深度学习的跨模态视频时刻检索技术不断涌现。相较于手工设计数据的特征,深度学习方法可以自动学习数据的特征并由此对数据进行分类与回归,因此具有更高的鲁棒性。其中,基于深度学习的跨模态视频时刻检索方法主要有以下三种技术路线:
1)基于候选片段的跨模态视频时刻检索方法:受到基于锚点的目标检测方法的启发,基于候选片段的跨模态视频时刻检索方法首先通过滑动窗口生成多尺度的候选片段,然后融合视频特征和文本特征,利用融合后的特征预测匹配分数,来度量候选片段和查询文本之间的相似性。
2)无候选片段的跨模态视频时刻检索方法:无候选片段的跨模态视频时刻检索方法使用帧级的视频表示而不是生成候选片段的特征来预测与查询文本对应的视频片段。该类方法利用循环神经网络或者注意力机制来获得与文本相关上下文信息以得到准确的开始时间和结束时间。
3)基于强化学习的跨模态视频时刻检索方法:为了解决跨模态视频时刻检索的效率问题,基于强化学习的跨模态视频时刻检索方法主动地去选择一部分帧或几个视频片段进行观察,然后观察得到的信息进行预测,而不需要观察整段视频的视频特征。这类方法在效率上有较大的优势。
目前跨模态视频时刻检索采用的方法主要为基于候选片段的跨模态视频时刻检索方法。相较于其他方法,该类方法在检索的准确率上有较大的优势。
但现有的时刻检索方法仍有很大的不足,如:视频特征的表示不够精细、视频特征中包含较多的噪声没有去除、时间建模不够充分等。以上问题均一定程度上导致了时刻检索准确率的下降。
发明内容
本发明的目的在于克服上述现有技术的不足导致时刻检索准确率下降的缺陷,提供了一种基于跨模态物体推理网络的跨模态视频时刻检索方法;本发明使用了细粒度的物体级视频特征来进行跨模态视频时刻检索。同时,使用基于跨模态物体推理网络的跨模态视频时刻检索方法完成时刻检索,更加充分的利用了物体之间隐含的信息以及时序上的信息来得到检索结果,以达到提高检索结果的准确性的目的。
本发明具体实现内容如下:
本发明提出了一种基于跨模态物体推理网络的跨模态视频时刻检索方法,先使用预训练目标检测网络提取物体级视频特征,和基于注意力的文本特征提取模块提取全局文本特征和关系文本特征,然后通过跨模态物体推理网络对物体之间的隐含关系进行推理,最后使用跨模态时刻定位模块完成时刻检索,具体步骤如下:
步骤S1:选择训练数据集;所述训练数据集包括视频和文本;
步骤S2:构建预训练目标检测网络,对于步骤S1中训练数据集中的每一段视频中的每一帧,使用预训练目标检测网络提取物体级视频特征,所述预训练目标检测网络为Faster R-CNN;
步骤S3:构建基于注意力的文本特征提取模块的网络结构,对于步骤S1中训练数据集中的文本,使用文本特征提取模块生成全局文本特征和关系文本特征;
步骤S4:构建跨模态物体推理网络结构,利用步骤S2中的物体级视频特征和步骤S3中的关系文本特征,通过跨模态物体推理网络生成经过充分推理的物体级视频特征;
步骤S5:构建基于注意力的物体特征融合模块,利用步骤S3中的关系文本特征来融合经过充分推理的物体级视频特征,生成相应文本的帧级视频特征;
步骤S6:构建跨模态时刻定位模块,利用步骤S3中的全局文本特征和步骤S5中的相应文本的帧级视频特征来定位目标时刻;
步骤S7:采用Adam优化器,对基于跨模态物体推理网络的跨模态视频时刻检索模型进行训练;并定义损失函数L对于跨模态物体推理网络的跨模态视频时刻检索模型进行约束;
步骤S8:使用训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索,以验证训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型的网络效果。
为了更好地实现本发明,进一步地,所述步骤S2具体包括以下步骤:
步骤S21:构建预训练目标检测网络,并加载预训练目标检测网络在视觉基因数据集上训练得到的参数;
步骤S22:将步骤S1中训练数据集中的每一段视频中的每一帧输入预训练目标检测网络,得到K个物体及K个物体对应的物体候选框以及物体候选框的坐标及其置信度;
步骤S23:对于步骤S22中检测出的K个物体,提取其在原特征图上经过RoIPooling层处理后的特征,作为每个物体的物体特征;
步骤S24:构建多层感知机对步骤S22中每一个物体坐标进行编码得到嵌入向量;然后与步骤S23中的物体特征级联后通过一层全连接网络,得到物体级视频特征;
步骤S25:对每一帧的多个物体级视频特征,在首个物体位置插入一个上下文物体特征得到最终的物体级视频特征。该上下文物体特征为可训练的向量。
为了更好地实现本发明,进一步地,所述步骤S3具体包括以下步骤:
步骤S31:使用双向门控循环网络提取步骤S1中训练数据集中文本的语义信息;
步骤S32:对步骤S31中双向门控循环网络的每一个单词的输出做平均池化,得到全局文本特征;
步骤S33:将步骤S32中的全局文本特征与步骤S31中双向门控循环网络的每一个单词的输出做级联,并同过一层全连接网络生成每一个单词的权重;
步骤S34:使用步骤S33中生成的权重对步骤S31中双向门控循环网络的每一个单词的输出做加权平均,得到关系文本特征。
为了更好地实现本发明,进一步地,所述步骤S4中跨模态物体推理网络中的跨模态物体推理模块具体包括以下步骤:
步骤S41:构建跨模态增强子模块,利用步骤S34中的关系文本特征对步骤S2中的物体级视频特征进行增强,得到增强物体特征;
步骤S42:构建物体关系建模子模块,使用多头自注意力机制对步骤S41得到的增强物体特征进行物体关系推理,得到关系可知的物体特征;
步骤S43:构建时序上下文平移模块,对每一帧的在步骤S25中增加的上下文物体特征进行时序平移,得到上下文可知的物体特征。
为了更好地实现本发明,进一步地,所述步骤S41的跨模态增强模块的操作具体包括以下步骤:
步骤S411:将步骤S34中的关系文本特征与步骤S2中每一个的物体级视频特征级联,得到融合特征;
步骤S412:使用一层全连接网络,利用步骤S411的融合特征生成与物体级视频特征维度相同的通道注意力权重;
步骤S413:将步骤S412生成的通道注意力权重与步骤S2中的物体级视频特征做逐元素相乘,然后批归一化,得到增强物体特征。
为了更好地实现本发明,进一步地,所述步骤S5具体包括以下步骤:
步骤S51:计算步骤S34中的关系文本特征与步骤S4中每一个充分推理的物体级视频特征(即最后一层的跨模态物体推理模块的上下文可知的物体特征)的余弦相似度;
步骤S52:对于每一帧视频,将步骤S51中生成的余弦相似度做softmax操作,得到注意力权重;
步骤S53:使用步骤S52中生成的注意力权重对步骤S4中每一个充分推理的物体级视频特征做加权平均,得到相应文本的帧级视频特征。
为了更好地实现本发明,进一步地,所述步骤S6的跨模态时刻定位模块由G个卷积神经网络层组成,并采用了残差连接,在跨模态时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度;G为自定义的数值。
为了更好地实现本发明,进一步地,所述步骤S7中的损失函数L具体如下所示:
Figure 541326DEST_PATH_IMAGE001
Figure 808360DEST_PATH_IMAGE002
其中
Figure 7260DEST_PATH_IMAGE003
表示视频候选片段与视频真实片段的交并比IoU,
Figure 738455DEST_PATH_IMAGE004
表示基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络预测的该视频候选片段的置信度,
Figure 731819DEST_PATH_IMAGE005
表示缩放的最大范围,
Figure 548466DEST_PATH_IMAGE006
表示缩放的最小范围,
Figure 285477DEST_PATH_IMAGE007
Figure 808863DEST_PATH_IMAGE008
C表示训练数据集中视频文本对的个数,
Figure 238707DEST_PATH_IMAGE009
表示缩放后的交并比IoU。
为了更好地实现本发明,进一步地,所述步骤S8中进行时刻定位时,将步骤S6中得到的置信度最大的视频候选片段的开始时间和结束时间作为输出结果。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明使用物体级视频特征用于跨模态视频时刻检索,可以更充分地挖掘视觉内容信息,获得更准确的视频表示。
(2)本发明设计了跨模态物体推理网络的跨模态视频时刻检索方法来进行时刻定位,该跨模态物体推理网络可充分物体级视频特征中的信息,从而更加充分地理解视频内容。
附图说明
图1为具体实施方式中,设置基于跨模态物体推理网络的跨模态视频时刻检索模型的实现流程图;
图2为具体实施方式中,本发明的基于跨模态物体推理网络的跨模态视频时刻检索模型的框架示意图;
图3为具体实施方式中,本发明的跨模态物体推理网络中的跨模态物体推理模块的框架示意图;
图4为具体实施方式中,跨模态视频时刻检索模型在Charades-STA数据集上采用本申请和现有的C3D视频特征进行的时刻检索对比效果展示图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,所描述的实施例是本发明一部分实施例,而不是全部的实施例,也并非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本实施例提出了一种基于跨模态物体推理网络的跨模态视频时刻检索方法,如图1、图2、图3、图4所示,先使用预训练目标检测网络提取物体级视频特征,和基于注意力的文本特征提取模块提取全局文本特征和关系文本特征,然后通过跨模态物体推理网络对物体之间的隐含关系进行推理,最后使用跨模态时刻定位模块完成时刻检索。
本实施例的一个核心内容在于在使用物体级视频特征用于跨模态视频时刻检索,可以更充分地挖掘视觉内容信息,获得更准确的视频表示。同时,本方法设计了一个跨模态物体推理网络来进行物体间的推理,该跨模态物体推理网络可充分物体级视频特征中的信息,从而更加充分地理解视频内容。相较于目前已有的方法,该方法极大的提高了视频信息的丰富和精细程度,使时刻检索结果的准确性有了很大的提高。
实施例2:
本实施例在上述实施例1的基础上,为了更好地实现本发明,一种基于跨模态物体推理网络的跨模态视频时刻检索方法:具体包括以下步骤:
步骤S1:选择训练数据集;
步骤S2:构建视频物体特征提取模块的网络结构,对于步骤S1中训练数据集中的每一段视频中的每一帧,使用预训练目标检测网络提取物体级视频特征;
步骤S3:构建基于注意力的文本特征提取模块的网络结构,对于步骤S1中训练数据集中的文本,使用文本特征提取模块生成全局文本特征和关系文本特征;
步骤S4:构建跨模态物体推理网络结构,利用步骤S2中的物体级视频特征和步骤S3中的关系文本特征,通过跨模态物体推理网络生成经过充分推理的物体级视频特征;
步骤S5:构建基于注意力的物体特征融合模块,利用步骤S3中的关系文本特征来融合经过充分推理的物体级视频特征,生成相应文本的帧级视频特征;
步骤S6:构建跨模态时刻定位模块,利用步骤S3中的全局文本特征和步骤S5中的相应文本的帧级视频特征来定位目标时刻,并定义损失函数对于跨模态物体推理网络的跨模态视频时刻检索模型进行约束;
步骤S7:采用Adam优化器对整个网络进行训练;
步骤S8:使用跨模态视频时刻检索网络对视频和文本对进行时刻定位。
本实施例其他部分与上述实施例1相同,故不再赘述。
实施例3:
本实施例在上述实施例1-2任一项的基础上,提出了一种基于跨模态物体推理网络的跨模态视频时刻检索方法的实际举例:先使用预训练目标检测网络提取物体级视频特征,和基于注意力的文本特征提取模块提取全局文本特征和关系文本特征,然后通过跨模态物体推理网络对物体之间的隐含关系进行推理,最后使用跨模态时刻定位模块完成时刻检索,主要包括步骤S1-步骤S8:
步骤S1:选择训练数据集;
本实施例选取Charades-STA数据集和TACoS数据集进行实验。
Charades-STA数据集基于Charades数据集构建,包含约10000个日常室内活动的视频以及157个活动类别。与Charades相比,Charades-STA数据集将原始的长文本描述剪切成短句子,并为每个句子增加了开始时间和结束时间的时间标注。在本实施例训练阶段使用了12408个视频-文本对,测试阶段使用了3720和视频-文本对。
TACoS数据集包含从厨房场景中收集的未修剪的细粒度人类活动视频,并对视频片段做了详细的语言描述。该数据集中有10146个视频-文本对作为训练集,4589个视频-文本对作为验证集和4083个视频-文本对作为测试集。
由于厨房场景中的复杂动作以及视频中更密集的时间注释所引起的噪声,在使用自然语言任务进行检索时,这是一个非常具有挑战性的数据集。
步骤S2:构建视频物体特征提取模块的网络结构,对于步骤S1中训练数据集中的每一段视频中的每一帧,使用预训练目标检测网络提取物体级视频特征。
本实例选取Faster R-CNN网络作为预训练网络,用以提取物体级视频特征。Faster R-CNN网络用于目标检测,能够很好的检测出输入图像中的显著物体。该步骤具体内容如下:
步骤S21:构建预训练目标检测网络,并加载预训练目标检测网络在VisualGenome数据集上训练得到的参数;
步骤S22:将步骤S1中训练数据集中的每一段视频中的每一帧输入预训练目标检测网络,得到K个物体候选框的坐标及其置信度;
步骤S23:对于步骤S22中检测出的K个物体,提取其在原特征图上RoI Pooling后的特征,作为每个物体的物体特征;
步骤S24:构建多层感知机对步骤S22中每一个物体坐标进行编码得到嵌入向量;然后与步骤S23中的物体特征级联后通过一层全连接网络,得到物体级视频特征;
步骤S25:对每一帧的多个物体级视频特征,在首个物体位置插入一个上下文物体特征得到最终的物体级视频特征。该上下文物体特征为可训练的向量。
步骤S3:构建基于注意力的文本特征提取模块的网络结构,对于步骤S1中训练数据集中的文本,使用文本特征提取模块生成全局文本特征和关系文本特征。
具体内容如下:
步骤S31:构建3层双向门控循环网络,提取步骤S1中训练数据集中文本的语义信息;
文本特征提取模块首先使用GloVe-300模型将文本转换为嵌入向量,然后输入到3层双向门控循环网络中。随后取双向门控循环网络的最后一层的输出作为文本特征。
步骤S32:对步骤S31中双向门控循环网络的每一个单词的输出做平均池化,得到全局文本特征;
步骤S33:将步骤S32中的全局文本特征与步骤S31中双向门控循环网络的每一个单词的输出做级联,并同过一层全连接网络生成每一个单词的权重;
步骤S34:使用步骤S33中生成的权重对步骤S31中双向门控循环网络的每一个单词的输出做加权平均,得到关系文本特征。
步骤S4:构建跨模态物体推理网络结构,利用步骤S2中的物体级视频特征和步骤S3中的关系文本特征,通过跨模态物体推理网络生成经过充分推理的物体级视频特征,具体内容如下:
步骤S41:构建跨模态增强子模块,利用步骤S34中的关系文本特征对步骤S2中的物体级视频特征进行增强,得到增强物体特征;
步骤S42:构建物体关系建模子模块,使用多头自注意力机制对步骤S41得到的增强物体特征进行物体关系推理,得到关系可知的物体特征;
步骤S43:构建时序上下文平移模块,对每一帧的在步骤S25中增加的上下文物体特征进行时序平移,得到上下文可知的物体特征。
其中,所述步骤S41的跨模态增强模块的操作具体包括以下步骤:
步骤S411:将步骤S34中的关系文本特征与步骤S2中每一个的物体级视频特征级联,得到融合特征;
步骤S412:使用一层全连接网络,利用步骤S411的融合特征生成与物体级视频特征维度相同的通道注意力权重;
步骤S413:将步骤S412生成的通道注意力权重与步骤S2中的物体级视频特征做逐元素相乘,然后批归一化,得到增强物体特征。
步骤S5:构建基于注意力的物体特征融合模块,利用步骤S3中的关系文本特征来融合经过充分推理的物体级视频特征,生成相应文本的帧级视频特征,具体内容如下:
步骤S51:计算步骤S34中的关系文本特征与步骤S4中每一个充分推理的物体级视频特征(即最后一层的跨模态物体推理模块的上下文可知的物体特征)的余弦相似度;
步骤S52:对于每一帧视频,将步骤S51中生成的余弦相似度做softmax操作,得到注意力权重;
步骤S53:使用步骤S52中生成的注意力权重对步骤S4中每一个充分推理的物体级视频特征做加权平均,得到相应文本的帧级视频特征。
步骤S6:构建跨模态时刻定位模块,利用步骤S3中的全局文本特征和步骤S5中的相应文本的帧级视频特征来定位目标时刻,并定义损失函数对于跨模态物体推理网络的跨模态视频时刻检索模型进行约束。
其中,跨模态时刻定位模块由8个卷积神经网络层组成,并采用了残差连接,在跨模态时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度。
步骤S7:采用Adam优化器对整个网络进行训练;
Adam优化器的学习率设置为0.0001,并且不使用权重衰减。整个网络在训练集上训练50个周期。
所述损失函数L的具体计算公式如下具体如下所示:
Figure 545579DEST_PATH_IMAGE010
Figure 820703DEST_PATH_IMAGE011
其中
Figure 464173DEST_PATH_IMAGE003
表示视频候选片段与视频真实片段的交并比IoU,
Figure DEST_PATH_IMAGE012
表示基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络预测的该视频候选片段的置信度,
Figure 110924DEST_PATH_IMAGE005
表示缩放的最大范围,
Figure 839846DEST_PATH_IMAGE006
表示缩放的最小范围,
Figure 980977DEST_PATH_IMAGE013
Figure 478955DEST_PATH_IMAGE014
C表示训练数据集中视频文本对的个数,
Figure 250602DEST_PATH_IMAGE009
表示缩放后的IoU。
步骤S8:使用跨模态视频时刻检索网络对视频和文本对进行时刻定位。
该步骤具体将步骤S6中得到的视频候选片段的置信度从大到小排序,置信度最高的视频候选片段即为时刻检索的结果。
本实施例其他部分与上述实施例1-2任一项相同,故不再赘述。
实施例4:
本实施例在上述实施例实施例1-3任一项的基础上,作出进一步优化,采用RankM@N指标来评估我们的模型:当网络输出的检索结果与真实片段之间的IoU分数大于M时,我们将网络输出的视频片段视为正确的视频时刻检索结果。Rank M@N被定义为在前N个置信度最高的时刻检索片段中正确的视频时刻检索结果的百分比。在Charades-STA数据集上,我们使用Rank 1@0.5、Rank 1@0.7、Rank 5@0.5、Rank 5@0.7这四个指标来评估我们的结果。在TACoS数据集上,我们使用Rank 1@0.1、Rank 1@0.3、Rank 1@0.5、Rank 5@0.1、Rank5@0.3、Rank 5@0.5这六个指标来评估我们的结果。
在测试过程中,我们分别测试了仅使用物体级视频特征的方法,展示在LEORN中。对于Charades-STA数据集,我们还测试了在步骤S6中级联相应文本的帧级视频特征和I3D特征的集成方法作为视频特征的方法,展示在LEORNEnsemble中。在Charades-STA数据集上的测试结果如下表1所示:
Figure 263557DEST_PATH_IMAGE015
表1 在Charades-STA数据集上的模型性能对比
在TACoS数据集上的测试结果如下表2所示:
Figure 146062DEST_PATH_IMAGE016
表2 在TACoS数据集上的模型性能对比
我们的发明在Charades-STA数据集中,使用物体级视频特征的LEORN的结果优于使用VGG、C3D特征的其他方法。结合I3D特征后,LEORNEnsemble的结果有3项高精度指标上明显优于目前的所有方法,有一项指标达到了目前的先进水平。在TACoS数据集上,我们的发明在5个高精度指标上都明显优于目前使用C3D视频特征的方法。这证明的本发明提出的基于跨模态物体推理网络的跨模态视频时刻检索方法,充分提取了物体级视频特征中的隐含信息,并物体级的视频特征很好地补充了现有视频特征的不足,提高了跨模态视频时刻检索的准确率。
如图4所示,采用目前的方法即C3D视频特征的方法、我们的方法即本申请的方法及真实结果,图4为以检索文本“a person takes a towel(一个拿了毛巾的人)”进行检索,受检测的样本视频中,符合拿了毛巾的人的行为在视频中的开始时刻为0.9s,结束时刻为8.2s;本发明检测的开始时刻为0.0s,结束时刻为8.5s,与真实情况相差无几;而目前采用C3D视频特征的方法中检索到的开始时刻为13.8s,结束时刻为22.5s,其将视频中人物从衣柜中拿取他物的视频错误分析为拿毛巾。同时图4下为对另一个样本视频进行检测,以检索文本:“person sits down on a couch(人坐在沙发椅上)”进行检测,实际的真实结果为14.5s-22.8s,本申请检测结果为13.5s-23.9s,而采用现有的C3D视频特征进行检测的结构为5.1s-16.5s。故本申请相比于现有技术,大大提高了检测的精确度。
需要说明的是,图4为基于视频截图的效果展示图,因色彩转换为黑白灰度,对其展示效果有所削弱,但其并不对技术方案的实质内容造成任何影响。同时,因实际检索用的检索文本即为英文文本形式,故在附图的图2和图4中保留英文检索文本的展示,而并未将其展示为中文。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (10)

1.一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于:具体包括以下步骤:
步骤S1:选择训练数据集;所述训练数据集为视觉基因数据集,包括视频和文本对及其真实检索片段;
步骤S2:构建预训练目标检测网络,使用预训练目标检测网络对于步骤S1中训练数据集中的每一段视频中的每一帧都进行物体级视频特征的提取,所述预训练目标检测网络采用Faster R-CNN网络;
步骤S3:构建基于注意力机制的文本特征提取模块,对于步骤S1中训练数据集中的文本,使用文本特征提取模块生成全局文本特征和关系文本特征;
步骤S4:构建跨模态物体推理网络,利用步骤S2中提取的物体级视频特征和步骤S3中的生成的关系文本特征,通过跨模态物体推理网络生成经过推理的物体级视频特征;
步骤S5:构建基于注意力机制的物体特征融合模块,利用步骤S3中的关系文本特征来对经过推理的物体级视频特征进行融合,从而生成相应文本的帧级视频特征;
步骤S6:构建跨模态时刻定位模块,利用步骤S3中的提取的全局文本特征和步骤S5中的相应文本的帧级视频特征来定位目标时刻,
步骤S7:采用Adam优化器进行训练,得到基于跨模态物体推理网络的跨模态视频时刻检索模型;并定义用于对跨模态物体推理网络的跨模态视频时刻检索模型进行约束的损失函数L;
步骤S8:使用训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型对实际需要进行检索的视频和文本对进行时刻检索,并验证训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型的网络效果。
2.如权利要求1所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于,所述步骤S2具体包括:
步骤S21:构建预训练目标检测网络,并加载预训练目标检测网络在视觉基因数据集上训练得到的参数;
步骤S22:将步骤S1中训练数据集中的每一段视频中的每一帧输入预训练目标检测网络,检测得到K个物体,并对应得到K个候选框及K个候选框的坐标和置信度;
步骤S23:对于步骤S22中检测出的K个物体,提取其在原特征图上经过RoI Pooling层处理后的特征,并作为每个物体对应的物体特征;
步骤S24:构建多层感知机对步骤S22中每一个物体的候选框的坐标进行编码得到对应的嵌入向量;然后将嵌入向量与步骤S23中的物体特征进行级联后再通过一层全连接网络处理,得到物体级视频特征;
步骤S25:对每一帧视频得到的多个物体级视频特征,在首个物体对应的位置插入一个上下文物体特征得到最终的物体级视频特征;所述上下文物体特征为可训练的向量。
3.如权利要求2所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于,所述步骤S3具体包括:
步骤S31:使用双向门控循环网络提取步骤S1中训练数据集中文本的语义信息;
步骤S32:对步骤S31中双向门控循环网络提取的语义信息中的每一个单词的输出做平均池化,得到全局文本特征;
步骤S33:将步骤S32中的全局文本特征与步骤S31中双向门控循环网络提取的语义信息中的每一个单词的输出做级联,并同过一层全连接网络生成每一个单词的权重;
步骤S34:使用步骤S33中生成的权重对步骤S31中双向门控循环网络提取的语义信息中的每一个单词的输出做加权平均,得到关系文本特征。
4.如权利要求3所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于,所述步骤S4具体包括:所述跨模态物体推理网络包括M个跨模态物体推理模块,M为自定义的值;每个跨模态物体推理模块包括跨模态增强子模块、物体关系建模子模块和时序上下文平移子模块共三个子模块;所述跨模态物体推理模块执行的操作具体包括:
步骤S41:构建跨模态增强子模块,利用步骤S34中得到的关系文本特征对步骤S2中的物体级视频特征进行增强,得到增强物体特征;
步骤S42:构建物体关系建模子模块,使用多头自注意力机制对步骤S41得到的增强物体特征进行物体关系推理,得到关系可知的物体特征;
步骤S43:构建时序上下文平移子模块,对每一帧视频在步骤S25中增加的上下文物体特征进行时序平移操作,得到上下文可知的物体特征。
5.如权利要求4所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于,其中,所述步骤S41的跨模态增强模块的操作具体包括:
步骤S411:将步骤S34中的关系文本特征与步骤S2中每一个的物体级视频特征级联,得到融合特征;
步骤S412:使用一层全连接网络,利用步骤S411得到的融合特征生成与物体级视频特征维度相同的通道注意力权重;
步骤S413:将步骤S412生成的通道注意力权重与步骤S2中的得到的物体级视频特征做逐元素相乘,然后批归一化,得到增强物体特征。
6.如权利要求4或5所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于,所述步骤S5具体包括:
步骤S51:计算步骤S34中的关系文本特征与步骤S4中每一个经过推理的物体级视频特征的余弦相似度;所述物体级视频特征为最后一层的跨模态物体推理模块的上下文可知的物体特征;
步骤S52:对于每一帧视频,将步骤S51中生成的余弦相似度做softmax操作,得到注意力权重;
步骤S53:使用步骤S52中生成的注意力权重对步骤S4中每一个经过推理的物体级视频特征做加权平均,得到相应文本的帧级视频特征。
7.如权利要求1所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于,所述步骤S6中:所述步骤S6的跨模态时刻定位模块由G个卷积神经网络层组成,并采用了残差连接,在跨模态时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度;G为自定义的数值。
8.如权利要求7所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于,所述步骤S7中的损失函数L具体如下所示:
Figure 565945DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
其中
Figure 483085DEST_PATH_IMAGE003
表示视频候选片段与视频真实片段的交并比IoU,
Figure DEST_PATH_IMAGE004
表示基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络预测的该视频候选片段的置信度,
Figure 328069DEST_PATH_IMAGE005
表示缩放的最大范围,
Figure DEST_PATH_IMAGE006
表示缩放的最小范围,
Figure 723278DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
C表示训练数据集中视频文本对的个数,
Figure 599967DEST_PATH_IMAGE009
表示缩放后的交并比IoU。
9.如权利要求1所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于,所述步骤S7中Adam优化器的学习率设置为0.0001,并且不使用权重衰减,在整个跨模态物体推理网络的跨模态视频时刻检索模型在训练集上训练50个周期。
10.如权利要求7所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法,其特征在于,所述步骤S8具体为:使用训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索时,将步骤S6中得到的视频候选片段中置信度最大的视频候选片段对应的视频的开始时间和结束时间作为输出结果。
CN202110766199.9A 2021-07-07 2021-07-07 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 Active CN113204675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110766199.9A CN113204675B (zh) 2021-07-07 2021-07-07 一种基于跨模态物体推理网络的跨模态视频时刻检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110766199.9A CN113204675B (zh) 2021-07-07 2021-07-07 一种基于跨模态物体推理网络的跨模态视频时刻检索方法

Publications (2)

Publication Number Publication Date
CN113204675A true CN113204675A (zh) 2021-08-03
CN113204675B CN113204675B (zh) 2021-09-21

Family

ID=77022736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110766199.9A Active CN113204675B (zh) 2021-07-07 2021-07-07 一种基于跨模态物体推理网络的跨模态视频时刻检索方法

Country Status (1)

Country Link
CN (1) CN113204675B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064967A (zh) * 2022-01-18 2022-02-18 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114357124A (zh) * 2022-03-18 2022-04-15 成都考拉悠然科技有限公司 一种基于语言重建和图机制的视频段落定位方法
CN114612748A (zh) * 2022-03-24 2022-06-10 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN114896450A (zh) * 2022-04-15 2022-08-12 中山大学 一种基于深度学习的视频时刻检索方法与系统

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统
US20150186423A1 (en) * 2008-08-08 2015-07-02 The Research Foundation For The State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US20180157403A1 (en) * 2014-12-19 2018-06-07 At&T Intellectual Property I, L.P. System and method for creating and sharing plans through multimodal dialog
CN108830212A (zh) * 2018-06-12 2018-11-16 北京大学深圳研究生院 一种视频行为时间轴检测方法
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
WO2019049089A1 (en) * 2017-09-11 2019-03-14 Indian Institute Of Technology, Delhi METHOD, SYSTEM AND APPARATUS FOR SEARCHING MULTILINGUAL AND MULTIMODAL KEYWORDS IN A MULTILINGUAL ORAL CORPUS
CN109783657A (zh) * 2019-01-07 2019-05-21 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN110210358A (zh) * 2019-05-24 2019-09-06 北京大学 一种基于双向时序图的视频描述生成方法和装置
CN110765921A (zh) * 2019-10-18 2020-02-07 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN111198966A (zh) * 2019-12-22 2020-05-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN111414845A (zh) * 2020-03-18 2020-07-14 浙江大学 利用空间-时间图推理网络解决多形态语句视频定位任务的方法
CN111782871A (zh) * 2020-06-18 2020-10-16 湖南大学 基于时空强化学习的跨模态视频时刻定位方法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112380385A (zh) * 2020-11-18 2021-02-19 湖南大学 一种基于多模态关系图的视频时刻定位方法及设备
CN112650886A (zh) * 2020-12-28 2021-04-13 电子科技大学 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN112733789A (zh) * 2021-01-20 2021-04-30 清华大学 一种基于动态时空图的视频推理方法、装置、设备及介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150186423A1 (en) * 2008-08-08 2015-07-02 The Research Foundation For The State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统
US20180157403A1 (en) * 2014-12-19 2018-06-07 At&T Intellectual Property I, L.P. System and method for creating and sharing plans through multimodal dialog
WO2019049089A1 (en) * 2017-09-11 2019-03-14 Indian Institute Of Technology, Delhi METHOD, SYSTEM AND APPARATUS FOR SEARCHING MULTILINGUAL AND MULTIMODAL KEYWORDS IN A MULTILINGUAL ORAL CORPUS
CN108830212A (zh) * 2018-06-12 2018-11-16 北京大学深圳研究生院 一种视频行为时间轴检测方法
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN109783657A (zh) * 2019-01-07 2019-05-21 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN110210358A (zh) * 2019-05-24 2019-09-06 北京大学 一种基于双向时序图的视频描述生成方法和装置
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN110765921A (zh) * 2019-10-18 2020-02-07 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN111198966A (zh) * 2019-12-22 2020-05-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN111414845A (zh) * 2020-03-18 2020-07-14 浙江大学 利用空间-时间图推理网络解决多形态语句视频定位任务的方法
CN111782871A (zh) * 2020-06-18 2020-10-16 湖南大学 基于时空强化学习的跨模态视频时刻定位方法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112380385A (zh) * 2020-11-18 2021-02-19 湖南大学 一种基于多模态关系图的视频时刻定位方法及设备
CN112650886A (zh) * 2020-12-28 2021-04-13 电子科技大学 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN112733789A (zh) * 2021-01-20 2021-04-30 清华大学 一种基于动态时空图的视频推理方法、装置、设备及介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
LU JIN 等: "Deep Semantic-Preserving Ordinal Hashing for Cross-Modal Similarity Search", 《 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
SHAH NAWAZ 等: "Deep Latent Space Learning for Cross-Modal Mapping of Audio and Visual Signals", 《2019 DIGITAL IMAGE COMPUTING: TECHNIQUES AND APPLICATIONS (DICTA)》 *
YI BIN 等: "Describing Video With Attention-Based Bidirectional LSTM", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
徐华鹏: "基于多模态表征的细粒度图像分类方法的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
欧卫华 等: "跨模态检索研究综述", 《贵州师范大学学报(自然科学版)》 *
章荪 等: "基于多任务学习的时序多模态情感分析模型", 《计算机应用》 *
袁韶祖 等: "基于多粒度视频信息和注意力机制的视频场景识别", 《计算机系统应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064967A (zh) * 2022-01-18 2022-02-18 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114357124A (zh) * 2022-03-18 2022-04-15 成都考拉悠然科技有限公司 一种基于语言重建和图机制的视频段落定位方法
CN114612748A (zh) * 2022-03-24 2022-06-10 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN114612748B (zh) * 2022-03-24 2024-06-07 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN114896450A (zh) * 2022-04-15 2022-08-12 中山大学 一种基于深度学习的视频时刻检索方法与系统
CN114896450B (zh) * 2022-04-15 2024-05-10 中山大学 一种基于深度学习的视频时刻检索方法与系统

Also Published As

Publication number Publication date
CN113204675B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN108960338B (zh) 基于注意力反馈机制的图像自动语句标注方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及系统
CN115861995A (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN114882488A (zh) 基于深度学习与注意力机制的多源遥感图像信息处理方法
CN115311465A (zh) 一种基于双注意力模型的图像描述方法
CN116246279A (zh) 一种基于clip背景知识的图文特征融合方法
CN116452688A (zh) 一种基于共同注意力机制的图像描述生成方法
CN116662591A (zh) 一种基于对比学习的鲁棒视觉问答模型训练方法
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN118227791A (zh) 一种基于多层次增强对比学习的慕课学习者学习成效预测方法
CN114022687A (zh) 一种基于增强学习的图像描述对抗生成方法
CN115599954B (zh) 一种基于场景图推理的视频问答方法
CN116681078A (zh) 一种基于强化学习的关键词生成方法
CN114782791B (zh) 基于transformer模型和类别关联的场景图生成方法
CN114692615B (zh) 一种针对小语种的小样本意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant