CN113204675A

CN113204675A - 一种基于跨模态物体推理网络的跨模态视频时刻检索方法

Info

Publication number: CN113204675A
Application number: CN202110766199.9A
Authority: CN
Inventors: 徐行; 王公勉; 蒋寻; 沈复民
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-08-03
Anticipated expiration: 2041-07-07
Also published as: CN113204675B

Abstract

本发明公开了一种基于跨模态物体推理网络的跨模态视频时刻检索方法，属于计算机视觉中的跨模态检索领域。本发明使用细粒度的物体级视频特征来进行跨模态视频时刻检索。同时，使用基于跨模态物体推理网络的跨模态视频时刻检索方法完成时刻检索，更加充分的利用了物体之间隐含的信息以及时序上的信息来得到检索结果，以达到提高检索结果的准确性的目的。

Description

一种基于跨模态物体推理网络的跨模态视频时刻检索方法

技术领域

本发明属于计算机视觉中的跨模态检索领域，具体地说，涉及一种基于跨模态物体推理网络的跨模态视频时刻检索方法。

背景技术

跨模态视频时刻检索是跨模态视频检索的子任务。其目标是根据查询文本，在一段视频中找出与文本相对应的视频片段。和跨模态视频检索不同，跨模态视频时刻检索需要在指定视频中获得与文本对应的视频片段的开始时间和结束时间，而不是文本与整段视频的对应关系。跨模态视频时刻检索在视频问答，视频定位，视频描述等领域都有广泛的应用。

研究技术尝试利用前沿的深度学习技术改善模型表现力，基于深度学习的跨模态视频时刻检索技术不断涌现。相较于手工设计数据的特征，深度学习方法可以自动学习数据的特征并由此对数据进行分类与回归，因此具有更高的鲁棒性。其中，基于深度学习的跨模态视频时刻检索方法主要有以下三种技术路线：

1)基于候选片段的跨模态视频时刻检索方法：受到基于锚点的目标检测方法的启发，基于候选片段的跨模态视频时刻检索方法首先通过滑动窗口生成多尺度的候选片段，然后融合视频特征和文本特征，利用融合后的特征预测匹配分数，来度量候选片段和查询文本之间的相似性。

2)无候选片段的跨模态视频时刻检索方法：无候选片段的跨模态视频时刻检索方法使用帧级的视频表示而不是生成候选片段的特征来预测与查询文本对应的视频片段。该类方法利用循环神经网络或者注意力机制来获得与文本相关上下文信息以得到准确的开始时间和结束时间。

3)基于强化学习的跨模态视频时刻检索方法：为了解决跨模态视频时刻检索的效率问题，基于强化学习的跨模态视频时刻检索方法主动地去选择一部分帧或几个视频片段进行观察，然后观察得到的信息进行预测，而不需要观察整段视频的视频特征。这类方法在效率上有较大的优势。

目前跨模态视频时刻检索采用的方法主要为基于候选片段的跨模态视频时刻检索方法。相较于其他方法，该类方法在检索的准确率上有较大的优势。

但现有的时刻检索方法仍有很大的不足，如：视频特征的表示不够精细、视频特征中包含较多的噪声没有去除、时间建模不够充分等。以上问题均一定程度上导致了时刻检索准确率的下降。

发明内容

本发明的目的在于克服上述现有技术的不足导致时刻检索准确率下降的缺陷，提供了一种基于跨模态物体推理网络的跨模态视频时刻检索方法；本发明使用了细粒度的物体级视频特征来进行跨模态视频时刻检索。同时，使用基于跨模态物体推理网络的跨模态视频时刻检索方法完成时刻检索，更加充分的利用了物体之间隐含的信息以及时序上的信息来得到检索结果，以达到提高检索结果的准确性的目的。

本发明具体实现内容如下：

本发明提出了一种基于跨模态物体推理网络的跨模态视频时刻检索方法，先使用预训练目标检测网络提取物体级视频特征，和基于注意力的文本特征提取模块提取全局文本特征和关系文本特征，然后通过跨模态物体推理网络对物体之间的隐含关系进行推理，最后使用跨模态时刻定位模块完成时刻检索，具体步骤如下：

步骤S1：选择训练数据集；所述训练数据集包括视频和文本；

步骤S2：构建预训练目标检测网络，对于步骤S1中训练数据集中的每一段视频中的每一帧，使用预训练目标检测网络提取物体级视频特征，所述预训练目标检测网络为Faster R-CNN；

步骤S3：构建基于注意力的文本特征提取模块的网络结构，对于步骤S1中训练数据集中的文本，使用文本特征提取模块生成全局文本特征和关系文本特征；

步骤S4：构建跨模态物体推理网络结构，利用步骤S2中的物体级视频特征和步骤S3中的关系文本特征，通过跨模态物体推理网络生成经过充分推理的物体级视频特征；

步骤S5：构建基于注意力的物体特征融合模块，利用步骤S3中的关系文本特征来融合经过充分推理的物体级视频特征，生成相应文本的帧级视频特征；

步骤S6：构建跨模态时刻定位模块，利用步骤S3中的全局文本特征和步骤S5中的相应文本的帧级视频特征来定位目标时刻；

步骤S7：采用Adam优化器，对基于跨模态物体推理网络的跨模态视频时刻检索模型进行训练；并定义损失函数L对于跨模态物体推理网络的跨模态视频时刻检索模型进行约束；

步骤S8：使用训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索，以验证训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型的网络效果。

为了更好地实现本发明，进一步地，所述步骤S2具体包括以下步骤：

步骤S21：构建预训练目标检测网络，并加载预训练目标检测网络在视觉基因数据集上训练得到的参数；

步骤S22：将步骤S1中训练数据集中的每一段视频中的每一帧输入预训练目标检测网络，得到K个物体及K个物体对应的物体候选框以及物体候选框的坐标及其置信度；

步骤S23：对于步骤S22中检测出的K个物体，提取其在原特征图上经过RoIPooling层处理后的特征，作为每个物体的物体特征；

步骤S24：构建多层感知机对步骤S22中每一个物体坐标进行编码得到嵌入向量；然后与步骤S23中的物体特征级联后通过一层全连接网络，得到物体级视频特征；

步骤S25：对每一帧的多个物体级视频特征，在首个物体位置插入一个上下文物体特征得到最终的物体级视频特征。该上下文物体特征为可训练的向量。

为了更好地实现本发明，进一步地，所述步骤S3具体包括以下步骤：

步骤S31：使用双向门控循环网络提取步骤S1中训练数据集中文本的语义信息；

步骤S32：对步骤S31中双向门控循环网络的每一个单词的输出做平均池化，得到全局文本特征；

步骤S33：将步骤S32中的全局文本特征与步骤S31中双向门控循环网络的每一个单词的输出做级联，并同过一层全连接网络生成每一个单词的权重；

步骤S34：使用步骤S33中生成的权重对步骤S31中双向门控循环网络的每一个单词的输出做加权平均，得到关系文本特征。

为了更好地实现本发明，进一步地，所述步骤S4中跨模态物体推理网络中的跨模态物体推理模块具体包括以下步骤：

步骤S41：构建跨模态增强子模块，利用步骤S34中的关系文本特征对步骤S2中的物体级视频特征进行增强，得到增强物体特征；

步骤S42：构建物体关系建模子模块，使用多头自注意力机制对步骤S41得到的增强物体特征进行物体关系推理，得到关系可知的物体特征；

步骤S43：构建时序上下文平移模块，对每一帧的在步骤S25中增加的上下文物体特征进行时序平移，得到上下文可知的物体特征。

为了更好地实现本发明，进一步地，所述步骤S41的跨模态增强模块的操作具体包括以下步骤：

步骤S411：将步骤S34中的关系文本特征与步骤S2中每一个的物体级视频特征级联，得到融合特征；

步骤S412：使用一层全连接网络，利用步骤S411的融合特征生成与物体级视频特征维度相同的通道注意力权重；

步骤S413：将步骤S412生成的通道注意力权重与步骤S2中的物体级视频特征做逐元素相乘，然后批归一化，得到增强物体特征。

为了更好地实现本发明，进一步地，所述步骤S5具体包括以下步骤：

步骤S51：计算步骤S34中的关系文本特征与步骤S4中每一个充分推理的物体级视频特征（即最后一层的跨模态物体推理模块的上下文可知的物体特征）的余弦相似度；

步骤S52：对于每一帧视频，将步骤S51中生成的余弦相似度做softmax操作，得到注意力权重；

步骤S53：使用步骤S52中生成的注意力权重对步骤S4中每一个充分推理的物体级视频特征做加权平均，得到相应文本的帧级视频特征。

为了更好地实现本发明，进一步地，所述步骤S6的跨模态时刻定位模块由G个卷积神经网络层组成，并采用了残差连接，在跨模态时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度；G为自定义的数值。

为了更好地实现本发明，进一步地，所述步骤S7中的损失函数L具体如下所示:

其中

表示视频候选片段与视频真实片段的交并比IoU，

表示基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络预测的该视频候选片段的置信度，

表示缩放的最大范围，

表示缩放的最小范围，

＜

，C表示训练数据集中视频文本对的个数，

表示缩放后的交并比IoU。

为了更好地实现本发明，进一步地，所述步骤S8中进行时刻定位时，将步骤S6中得到的置信度最大的视频候选片段的开始时间和结束时间作为输出结果。

本发明与现有技术相比，具有以下优点及有益效果：

（1）本发明使用物体级视频特征用于跨模态视频时刻检索，可以更充分地挖掘视觉内容信息，获得更准确的视频表示。

（2）本发明设计了跨模态物体推理网络的跨模态视频时刻检索方法来进行时刻定位，该跨模态物体推理网络可充分物体级视频特征中的信息，从而更加充分地理解视频内容。

附图说明

图1为具体实施方式中，设置基于跨模态物体推理网络的跨模态视频时刻检索模型的实现流程图；

图2为具体实施方式中，本发明的基于跨模态物体推理网络的跨模态视频时刻检索模型的框架示意图；

图3为具体实施方式中，本发明的跨模态物体推理网络中的跨模态物体推理模块的框架示意图；

图4为具体实施方式中，跨模态视频时刻检索模型在Charades-STA数据集上采用本申请和现有的C3D视频特征进行的时刻检索对比效果展示图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，所描述的实施例是本发明一部分实施例，而不是全部的实施例，也并非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本实施例提出了一种基于跨模态物体推理网络的跨模态视频时刻检索方法，如图1、图2、图3、图4所示，先使用预训练目标检测网络提取物体级视频特征，和基于注意力的文本特征提取模块提取全局文本特征和关系文本特征，然后通过跨模态物体推理网络对物体之间的隐含关系进行推理，最后使用跨模态时刻定位模块完成时刻检索。

本实施例的一个核心内容在于在使用物体级视频特征用于跨模态视频时刻检索，可以更充分地挖掘视觉内容信息，获得更准确的视频表示。同时，本方法设计了一个跨模态物体推理网络来进行物体间的推理，该跨模态物体推理网络可充分物体级视频特征中的信息，从而更加充分地理解视频内容。相较于目前已有的方法，该方法极大的提高了视频信息的丰富和精细程度，使时刻检索结果的准确性有了很大的提高。

实施例2：

本实施例在上述实施例1的基础上，为了更好地实现本发明，一种基于跨模态物体推理网络的跨模态视频时刻检索方法：具体包括以下步骤：

步骤S1：选择训练数据集；

步骤S2：构建视频物体特征提取模块的网络结构，对于步骤S1中训练数据集中的每一段视频中的每一帧，使用预训练目标检测网络提取物体级视频特征；

步骤S6：构建跨模态时刻定位模块，利用步骤S3中的全局文本特征和步骤S5中的相应文本的帧级视频特征来定位目标时刻，并定义损失函数对于跨模态物体推理网络的跨模态视频时刻检索模型进行约束；

步骤S7：采用Adam优化器对整个网络进行训练；

步骤S8：使用跨模态视频时刻检索网络对视频和文本对进行时刻定位。

本实施例其他部分与上述实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1-2任一项的基础上，提出了一种基于跨模态物体推理网络的跨模态视频时刻检索方法的实际举例：先使用预训练目标检测网络提取物体级视频特征，和基于注意力的文本特征提取模块提取全局文本特征和关系文本特征，然后通过跨模态物体推理网络对物体之间的隐含关系进行推理，最后使用跨模态时刻定位模块完成时刻检索，主要包括步骤S1-步骤S8：

步骤S1：选择训练数据集；

本实施例选取Charades-STA数据集和TACoS数据集进行实验。

Charades-STA数据集基于Charades数据集构建，包含约10000个日常室内活动的视频以及157个活动类别。与Charades相比，Charades-STA数据集将原始的长文本描述剪切成短句子，并为每个句子增加了开始时间和结束时间的时间标注。在本实施例训练阶段使用了12408个视频-文本对，测试阶段使用了3720和视频-文本对。

TACoS数据集包含从厨房场景中收集的未修剪的细粒度人类活动视频，并对视频片段做了详细的语言描述。该数据集中有10146个视频-文本对作为训练集，4589个视频-文本对作为验证集和4083个视频-文本对作为测试集。

由于厨房场景中的复杂动作以及视频中更密集的时间注释所引起的噪声，在使用自然语言任务进行检索时，这是一个非常具有挑战性的数据集。

步骤S2：构建视频物体特征提取模块的网络结构，对于步骤S1中训练数据集中的每一段视频中的每一帧，使用预训练目标检测网络提取物体级视频特征。

本实例选取Faster R-CNN网络作为预训练网络，用以提取物体级视频特征。Faster R-CNN网络用于目标检测，能够很好的检测出输入图像中的显著物体。该步骤具体内容如下：

步骤S21：构建预训练目标检测网络，并加载预训练目标检测网络在VisualGenome数据集上训练得到的参数；

步骤S22：将步骤S1中训练数据集中的每一段视频中的每一帧输入预训练目标检测网络，得到K个物体候选框的坐标及其置信度；

步骤S23：对于步骤S22中检测出的K个物体，提取其在原特征图上RoI Pooling后的特征，作为每个物体的物体特征；

步骤S3：构建基于注意力的文本特征提取模块的网络结构，对于步骤S1中训练数据集中的文本，使用文本特征提取模块生成全局文本特征和关系文本特征。

具体内容如下：

步骤S31：构建3层双向门控循环网络，提取步骤S1中训练数据集中文本的语义信息；

文本特征提取模块首先使用GloVe-300模型将文本转换为嵌入向量，然后输入到3层双向门控循环网络中。随后取双向门控循环网络的最后一层的输出作为文本特征。

步骤S4：构建跨模态物体推理网络结构，利用步骤S2中的物体级视频特征和步骤S3中的关系文本特征，通过跨模态物体推理网络生成经过充分推理的物体级视频特征，具体内容如下：

其中，所述步骤S41的跨模态增强模块的操作具体包括以下步骤：

步骤S5：构建基于注意力的物体特征融合模块，利用步骤S3中的关系文本特征来融合经过充分推理的物体级视频特征，生成相应文本的帧级视频特征，具体内容如下：

步骤S6：构建跨模态时刻定位模块，利用步骤S3中的全局文本特征和步骤S5中的相应文本的帧级视频特征来定位目标时刻，并定义损失函数对于跨模态物体推理网络的跨模态视频时刻检索模型进行约束。

其中，跨模态时刻定位模块由8个卷积神经网络层组成，并采用了残差连接，在跨模态时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度。

步骤S7：采用Adam优化器对整个网络进行训练；

Adam优化器的学习率设置为0.0001，并且不使用权重衰减。整个网络在训练集上训练50个周期。

所述损失函数L的具体计算公式如下具体如下所示:

其中

表示视频候选片段与视频真实片段的交并比IoU，

表示缩放的最大范围，

表示缩放的最小范围，

＜

，C表示训练数据集中视频文本对的个数，

表示缩放后的IoU。

该步骤具体将步骤S6中得到的视频候选片段的置信度从大到小排序，置信度最高的视频候选片段即为时刻检索的结果。

本实施例其他部分与上述实施例1-2任一项相同，故不再赘述。

实施例4：

本实施例在上述实施例实施例1-3任一项的基础上，作出进一步优化，采用RankM@N指标来评估我们的模型：当网络输出的检索结果与真实片段之间的IoU分数大于M时，我们将网络输出的视频片段视为正确的视频时刻检索结果。Rank M@N被定义为在前N个置信度最高的时刻检索片段中正确的视频时刻检索结果的百分比。在Charades-STA数据集上，我们使用Rank 1@0.5、Rank 1@0.7、Rank 5@0.5、Rank 5@0.7这四个指标来评估我们的结果。在TACoS数据集上，我们使用Rank 1@0.1、Rank 1@0.3、Rank 1@0.5、Rank 5@0.1、Rank5@0.3、Rank 5@0.5这六个指标来评估我们的结果。

在测试过程中，我们分别测试了仅使用物体级视频特征的方法，展示在LEORN中。对于Charades-STA数据集，我们还测试了在步骤S6中级联相应文本的帧级视频特征和I3D特征的集成方法作为视频特征的方法，展示在LEORN_Ensemble中。在Charades-STA数据集上的测试结果如下表1所示：

表1 在Charades-STA数据集上的模型性能对比

在TACoS数据集上的测试结果如下表2所示：

表2 在TACoS数据集上的模型性能对比

我们的发明在Charades-STA数据集中，使用物体级视频特征的LEORN的结果优于使用VGG、C3D特征的其他方法。结合I3D特征后，LEORN_Ensemble的结果有3项高精度指标上明显优于目前的所有方法，有一项指标达到了目前的先进水平。在TACoS数据集上，我们的发明在5个高精度指标上都明显优于目前使用C3D视频特征的方法。这证明的本发明提出的基于跨模态物体推理网络的跨模态视频时刻检索方法，充分提取了物体级视频特征中的隐含信息，并物体级的视频特征很好地补充了现有视频特征的不足，提高了跨模态视频时刻检索的准确率。

如图4所示，采用目前的方法即C3D视频特征的方法、我们的方法即本申请的方法及真实结果，图4为以检索文本“a person takes a towel（一个拿了毛巾的人）”进行检索，受检测的样本视频中，符合拿了毛巾的人的行为在视频中的开始时刻为0.9s，结束时刻为8.2s；本发明检测的开始时刻为0.0s，结束时刻为8.5s，与真实情况相差无几；而目前采用C3D视频特征的方法中检索到的开始时刻为13.8s，结束时刻为22.5s，其将视频中人物从衣柜中拿取他物的视频错误分析为拿毛巾。同时图4下为对另一个样本视频进行检测，以检索文本：“person sits down on a couch（人坐在沙发椅上）”进行检测，实际的真实结果为14.5s-22.8s，本申请检测结果为13.5s-23.9s，而采用现有的C3D视频特征进行检测的结构为5.1s-16.5s。故本申请相比于现有技术，大大提高了检测的精确度。

需要说明的是，图4为基于视频截图的效果展示图，因色彩转换为黑白灰度，对其展示效果有所削弱，但其并不对技术方案的实质内容造成任何影响。同时，因实际检索用的检索文本即为英文文本形式，故在附图的图2和图4中保留英文检索文本的展示，而并未将其展示为中文。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于跨模态物体推理网络的跨模态视频时刻检索方法，其特征在于：具体包括以下步骤：

步骤S1：选择训练数据集；所述训练数据集为视觉基因数据集，包括视频和文本对及其真实检索片段；

步骤S2：构建预训练目标检测网络，使用预训练目标检测网络对于步骤S1中训练数据集中的每一段视频中的每一帧都进行物体级视频特征的提取，所述预训练目标检测网络采用Faster R-CNN网络；

步骤S3：构建基于注意力机制的文本特征提取模块，对于步骤S1中训练数据集中的文本，使用文本特征提取模块生成全局文本特征和关系文本特征；

步骤S4：构建跨模态物体推理网络，利用步骤S2中提取的物体级视频特征和步骤S3中的生成的关系文本特征，通过跨模态物体推理网络生成经过推理的物体级视频特征；

步骤S5：构建基于注意力机制的物体特征融合模块，利用步骤S3中的关系文本特征来对经过推理的物体级视频特征进行融合，从而生成相应文本的帧级视频特征；

步骤S6：构建跨模态时刻定位模块，利用步骤S3中的提取的全局文本特征和步骤S5中的相应文本的帧级视频特征来定位目标时刻，

步骤S7：采用Adam优化器进行训练，得到基于跨模态物体推理网络的跨模态视频时刻检索模型；并定义用于对跨模态物体推理网络的跨模态视频时刻检索模型进行约束的损失函数L；

步骤S8：使用训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型对实际需要进行检索的视频和文本对进行时刻检索，并验证训练完成的基于跨模态物体推理网络的跨模态视频时刻检索模型的网络效果。

2.如权利要求1所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法，其特征在于，所述步骤S2具体包括：

步骤S22：将步骤S1中训练数据集中的每一段视频中的每一帧输入预训练目标检测网络，检测得到K个物体，并对应得到K个候选框及K个候选框的坐标和置信度；

步骤S23：对于步骤S22中检测出的K个物体，提取其在原特征图上经过RoI Pooling层处理后的特征，并作为每个物体对应的物体特征；

步骤S24：构建多层感知机对步骤S22中每一个物体的候选框的坐标进行编码得到对应的嵌入向量；然后将嵌入向量与步骤S23中的物体特征进行级联后再通过一层全连接网络处理，得到物体级视频特征；

步骤S25：对每一帧视频得到的多个物体级视频特征，在首个物体对应的位置插入一个上下文物体特征得到最终的物体级视频特征；所述上下文物体特征为可训练的向量。

3.如权利要求2所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法，其特征在于，所述步骤S3具体包括：

步骤S32：对步骤S31中双向门控循环网络提取的语义信息中的每一个单词的输出做平均池化，得到全局文本特征；

步骤S33：将步骤S32中的全局文本特征与步骤S31中双向门控循环网络提取的语义信息中的每一个单词的输出做级联，并同过一层全连接网络生成每一个单词的权重；

步骤S34：使用步骤S33中生成的权重对步骤S31中双向门控循环网络提取的语义信息中的每一个单词的输出做加权平均，得到关系文本特征。

4.如权利要求3所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法，其特征在于，所述步骤S4具体包括：所述跨模态物体推理网络包括M个跨模态物体推理模块，M为自定义的值；每个跨模态物体推理模块包括跨模态增强子模块、物体关系建模子模块和时序上下文平移子模块共三个子模块；所述跨模态物体推理模块执行的操作具体包括：

步骤S41：构建跨模态增强子模块，利用步骤S34中得到的关系文本特征对步骤S2中的物体级视频特征进行增强，得到增强物体特征；

步骤S43：构建时序上下文平移子模块，对每一帧视频在步骤S25中增加的上下文物体特征进行时序平移操作，得到上下文可知的物体特征。

5.如权利要求4所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法，其特征在于，其中，所述步骤S41的跨模态增强模块的操作具体包括：

步骤S412：使用一层全连接网络，利用步骤S411得到的融合特征生成与物体级视频特征维度相同的通道注意力权重；

步骤S413：将步骤S412生成的通道注意力权重与步骤S2中的得到的物体级视频特征做逐元素相乘，然后批归一化，得到增强物体特征。

6.如权利要求4或5所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法，其特征在于，所述步骤S5具体包括：

步骤S51：计算步骤S34中的关系文本特征与步骤S4中每一个经过推理的物体级视频特征的余弦相似度；所述物体级视频特征为最后一层的跨模态物体推理模块的上下文可知的物体特征；

步骤S53：使用步骤S52中生成的注意力权重对步骤S4中每一个经过推理的物体级视频特征做加权平均，得到相应文本的帧级视频特征。

7.如权利要求1所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法，其特征在于，所述步骤S6中：所述步骤S6的跨模态时刻定位模块由G个卷积神经网络层组成，并采用了残差连接，在跨模态时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度；G为自定义的数值。

8.如权利要求7所述的一种基于跨模态物体推理网络的跨模态视频时刻检索方法，其特征在于，所述步骤S7中的损失函数L具体如下所示: