CN112380385A

CN112380385A - 一种基于多模态关系图的视频时刻定位方法及设备

Info

Publication number: CN112380385A
Application number: CN202011292346.5A
Authority: CN
Inventors: 曾雅文; 曹达; 魏骁驰; 刘萌; 赵洲; 秦拯
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-19
Anticipated expiration: 2040-11-18
Also published as: CN112380385B

Abstract

本发明涉及视频检索领域，特别涉及一种基于多模态关系图的视频时刻定位方法及设备，首先输入长视频V及查询语句q，然后构建文本关系图和视觉关系图的双通道关系图，通过文本关系图过滤视觉关系图中的无关对象，通过预训练任务增强对视觉关系图的语义推力和特征提取能力，然后根据查询语句q，利用跨模态检索在长视频V中预测得到备选视频，并补充预测备选视频的边界的时间偏置，直至得到对应查询语句q的视频时刻片段，通过上述方法，可以实现从未修剪的长视频V和输入的查询文本q中捕获对象之间的交互，并进一步通过跨模态检索返回更精确的视频定位边界，有效的提高了用户查询检索的准确度和速度，进一步提高了用户的查询体验。

Description

一种基于多模态关系图的视频时刻定位方法及设备

技术领域

本发明涉及视频检索领域，特别涉及一种基于多模态关系图的视频时刻定位方法及设备。

背景技术

随着时代的发展，越来越多的人在浏览视频时希望浏览视频中与他们喜好相匹配的部分视频而非整个视频，现有技术通过跨模态视频时刻检索在给定未修剪的视频和查询语句的条件下，从未修剪的长视频中提取与查询语句最匹配的视频时刻，然而，现有的跨模态视频时刻检索方法忽略了查询语句中的局部对象与视频之间的关系，这就导致了对局部对象的表示能力不足，进而影响查询检索的准确度和速度，大大降低了用户的查询体验感。

发明内容

为解决跨模态视频时刻检索查询检索的准确度较低和速度较慢进而造成用户的查询体验感较差的问题，本发明提供了一种基于多模态关系图的视频时刻定位方法及设备。

为了解决上述技术问题，本发明提供一种基于多模态关系图的视频时刻定位方法，其包括以下步骤：

步骤S1，输入长视频V及查询语句q；

步骤S2，构建文本关系图和视觉关系图的双通道关系图，通过所述文本关系图过滤所述视觉关系图中的无关对象；

步骤S3，通过预训练任务增强对所述视觉关系图的语义推导能力和特征提取能力；

步骤S4，根据所述查询语句q，利用跨模态检索在所述长视频V中预测得到备选视频，并补充预测所述备选视频的边界的时间偏置，直至得到对应所述查询语句q的视频时刻片段。

优选地，上述步骤S2具体包括：

步骤Sa，通过提取所述查询语句q中的短语关系来构造所述文本关系图，同时构造所述视觉关系图来捕获所述长视频V中视觉对象之间的关系；

步骤Sb，通过所述文本关系图对所述视觉对象进行过滤，从所述视觉对象中过滤出与文本中的短语相似度最高的候选对象，并将所述候选对象作为所述视觉关系图的节点。

优选地，上述步骤Sa中所述文本关系图的构造进一步包括：将关系短语作为一个结点，同时通过名词相似度和关系粗分类的方法在Flickr30K实体数据集上进行处理以确保所述文本关系图中不存在孤立的节点。

优选地，上述步骤Sa之后还包括以下步骤：

步骤Sc，通过对所述文本关系图的节点特征和所述视觉关系图的节点特征进行优化，捕捉视觉对象之间的动态交互。

优选地，上述步骤Sb中，当所述视觉对象的特征与文本对象之间的相似度小于0.5时，设定当前没有相应的视觉对象。

优选地，上述步骤S3中的预训练任务具体包括属性遮掩及上下文预测；

通过所述属性遮掩对显式表达式下的关系节点的特征学习以及对象节点的特征学习进行优化；

通过所述上下文预测进行训练以使特征的表示形式捕获所述长视频中的图的整体结构信息，并在文本语义的约束下基于所述视觉关系图的结构进一步从节点的相邻子图重建视图。

优选地，所述上下文预测采用负采样策略进行训练。

优选地，上述步骤S4具体包括：

Sd，通过图匹配确定所述视觉关系图和所述文本关系图的语义是否相关；

Se，通过边界回归结合全局特征进一步补充所述备选视频的边界的时间偏置，并调整所述备选视频的边界直到收敛，得到对应所述查询语句q的视频时刻片段。

本发明解决上述技术问题的又一技术方案是提供一种设备，所述设备包括：

输入模块，所述输入模块用于输入未修剪的长视频V和查询语句q；

提取特征模块，所述提取特征模块用于提取所述查询语句q的特征、所述长视频V的特征，并对上述特征进行优化处理；

预训练模块，所述预训练模块用于定制两个面向跨模态检索的预训练任务，通过预训练任务增强对所述视觉关系图的语义推导能力和特征提取能力；

跨模态检索模块，所述跨模态检索模块用于预测预备视频和所述查询语句q的匹配度，同时补充所述预备视频的边界的时间偏置，调整所述预备视频的边界直到收敛，并得到对应所述查询语句q的视频时刻片段。

所述设备进一步包括处理器以及与所述处理器通信连接的存储器，所述存储器存储有指令，所述处理器通过执行所述指令以使所述处理器能够执行所述基于多模态关系图的视频时刻定位方法。

优选地，所述输入模块、所述提取特征模块、所述预训练模块、所述跨模态检索模块全部以硬件形式内嵌于或独立于所述设备的所述处理器中；

或，所述输入模块、所述提取特征模块、所述预训练模块、所述跨模态检索模块全部以软件形式存储于所述设备的所述存储器中，所述处理器调用执行以上各个模块对应的操作。

与现有技术相比，本发明提供的一种基于多模态关系图的视频时刻定位方法及设备具有以下优点：

一、本发明提供的一种基于多模态关系图的视频时刻定位方法中：首先输入长视频V及查询语句q，然后构建文本关系图和视觉关系图的双通道关系图，通过文本关系图过滤视觉关系图中的无关对象，通过预训练任务增强对视觉关系图的语义推力和特征提取能力，然后根据查询语句q，利用跨模态检索在长视频V中预测得到备选视频，并补充预测备选视频的边界的时间偏置，直至得到对应查询语句q的视频时刻片段，通过上述方法，可以实现在未修剪的长视频V中捕获与输入的查询文本q交互的对象，并进一步通过跨模态检索返回更精确的视频定位边界，有效的提高了用户查询检索的准确度和速度，进一步提高了用户的查询体验；

二、本发明提供的一种基于多模态关系图的视频时刻定位方法中文本关系图的构造进一步包括：将关系短语作为一个结点，同时通过名词相似度和关系粗分类的方法在Flickr30K实体数据集上进行处理以确保所述文本关系图中不存在孤立的节点，通过此设计解决了提取某些名词(如复数名词和关系)时效率低下的问题，进一步提高了提取名词时的效率；

三、本发明提供的一种基于多模态关系图的视频时刻定位方法中，在构造文本关系图后，通过对文本关系图的节点特征和视觉关系图的节点特征进行优化，捕捉视觉对象之间的动态交互，进一步优化了查询语句和视频中局部对象之间的交互模式；

四、本发明提供的一种基于多模态关系图的视频时刻定位方法中，通过文本关系图对视觉对象进行过滤时，当视觉对象的特征与文本对象之间的相似度小于0.5时，设定当前没有相应的视觉对象，本设计通过判断视觉对象的特征与文本对象之间的相似度，进一步提高了提取视觉对象时的准确度，同时提高了视觉对象的提取效率；

五、本发明提供的一种基于多模态关系图的视频时刻定位方法中，预训练任务具体包括属性遮掩及上下文预测，通过属性遮掩对显式表达式下的关系节点的特征学习以及对象节点的特征学习进行优化；通过上下文预测进行训练以使特征的表示形式捕获长视频中的图的整体结构信息，并在文本语义的约束下基于视觉关系图的结构进一步从节点的相邻子图重建视图，通过两种预训练任务进一步提高了对视觉关系图的语义进行推理的能力以及特征的提取能力；

六、本发明提供的上下文预测采用负采样策略进行训练，负采样的子图结构用于随机采样与当前对象不相邻的节点的上下文，最后通过成对损失来优化重建，避免了由于对象节点中嵌入的语义太丰富而无法重构的现象；

七、本发明提供的基于多模态关系图的视频时刻定位方法中，通过图匹配确定视觉关系图和文本关系图的语义是否相关，并通过边界回归结合全局特征进一步补充备选视频的边界的时间偏置，并调整备选视频的边界直到收敛，得到对应查询语句q的视频时刻片段，本设计通过跨模态检索进一步检索与查询语句最相关的视频时刻，并执行视频位置偏移的补充，更加准确的定位视频边界，有效提高用户的查询检索的准确度和速度，进一步提高了用户的查询体验；

八、本发明提供的一种设备，包括用于输入未修剪的长视频V和查询语句q的输入模块；用于提取查询语句q的特征和长视频V的特征并对上述特征进行优化处理的提取特征模块；用于定制两个面向跨模态检索的预训练任务，通过预训练任务增强对视觉关系图的语义推导能力和特征提取能力的预训练模块；以及用于预测预备视频和查询语句q的匹配度，同时补充预备视频边界的时间偏置，并调整预备视频的边界直到收敛，并得到对应查询语句q的视频时刻片段的跨模态检索模块，设备还包括处理器以及与处理器通信连接的存储器，存储器存储有指令，处理器通过执行指令以使处理器能够执行基于多模态关系图的视频时刻定位方法，此设备能够有效的提高用户查询检索的准确度和速度，进一步提高了用户的查询体验；

九、设备中的输入模块、提取特征模块、预训练模块、跨模态检索模块全部以硬件形式内嵌于或独立于设备的处理器中，以上模块通过以硬件的形式设置在处理器中，安装简单，便于推广，具有较高的市场价值；或输入模块、提取特征模块、预训练模块、跨模态检索模块全部以软件形式存储于设备的存储器中，处理器调用执行以上各个模块对应的操作，以上模块通过以软件形式存储于设备的存储器中，便于对模块的更新及修改，具有较高的实用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1是本发明第一实施例提供的基于多模态关系图的视频时刻定位方法的步骤流程示意图；

图2是本发明第一实施例提供的基于多模态关系图的视频时刻定位方法之步骤S2的具体步骤流程示意图一；

图3是本发明第一实施例提供的基于多模态关系图的视频时刻定位方法之步骤S2的具体步骤流程示意图二；

图4是本发明第一实施例提供的基于多模态关系图的视频时刻定位方法之步骤S4的具体步骤流程示意图；

图5是本发明第二实施例提供的设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了方便理解，在本发明中定义未修剪的长视频为V，查询语句为q，查询语句q所附有的真实标定时间边界为loc_q，其中loc_q＝[l_s，l_e]，l_s和l_e分别为目标视频时刻的起点和终点。在给定未修剪的长视频V及其查询语句q后，跨模态视频矩检索的目标是检索到最接近目标loc_q的视频时刻loc_o，其中loc_o＝[o_s，o_e]，o_s和o_e分别为检索视频时刻的起点和终点。

请参阅图1，本发明实施例提供一种基于多模态关系图的视频时刻定位方法，其主要流程包括：

步骤S1，输入长视频V及查询语句q；

步骤S2，构建文本关系图和视觉关系图的双通道关系图，通过文本关系图过滤视觉关系图中的无关对象；

步骤S3，通过预训练任务增强对视觉关系图的语义推力和特征提取能力；

步骤S4，根据查询语句q，利用跨模态检索在长视频V中预测得到备选视频，并补充预测备选视频的边界的时间偏置，直至得到对应查询语句q的视频时刻片段。

通过上述一种基于多模态关系图的视频时刻定位方法，可以实现在未修剪的长视频V中捕获与输入的查询文本q交互的对象，并进一步通过跨模态检索返回更精确的视频定位边界，有效的提高了用户查询检索的准确度和速度，进一步提高了用户的查询体验。

进一步的，步骤S1的具体内容为：输入一个未修剪的长视频V，对未修剪的长视频V进行预先分段，其中V＝{V₁，V₂，V₃，......，V_n}，定义V_i(i＝1，2，3，.....n)为未修剪的长视频V中的第i个图像帧，输入查询语句q，其中查询语句q所附有的真实标定时间边界定义为loc_q，其中loc_q＝[l_s，l_e]，l_s和l_e分别为目标视频时刻的起点和终点。

请参阅图2，步骤S2具体包括：

步骤Sa，通过在查询语句q中提取短语关系，并通过提取的短语关系来构造文本关系图，同时构造视觉关系图来捕获长视频V中视觉对象之间的关系；

步骤Sb，通过文本关系图对视觉对象进行过滤，从视觉对象中过滤出与文本中的短语相似度最高的候选对象，并将候选对象作为视觉关系图的节点。

进一步的，在构造文本关系图时通过两个消息传播运算符来获得提取的短语关系的节点特征的表示，即通过word2vec模型得到文本关系图的节点特征，然后通过FasterR-CNN模型抽取对应的视觉图的节点特征，但由于抽取的名词对象之间不具备天生的关系结构，仅将查询语句q中的名词视为节点将会丢失名词对象的动作关系的语义信息，本发明实施例进一步通过定义关系节点避免语义信息的丢失，具体的，将查询语句q中的关系短语作为一个结点，举例来说，若查询语句q为“人把书放入了袋子”，那“把”和“放入”作为关系短语均被当做结点，同时通过名词相似度和关系粗分类的方法在Flickr30K实体数据集上进行处理，将孤立的节点词语用其他相似的词语替代，以确保文本关系图中不存在孤立的节点，本发明实施例通过此设计解决了提取某些名词(如复数名词和关系)时效率低下的问题，进一步提高了提取名词时的效率。

请参阅图3，进一步的，为了捕获视觉内容中的目标对象与文本内容中的目标对象之间的动态交互，即在输入查询语句q的同时，实时更新文本关系图和视觉关系图，并实时通过文本关系图过滤视觉关系图中的无关对象，具体的，本发明实施例在步骤Sa之后还包括以下步骤：

步骤Sc，通过对文本关系图的节点特征和视觉关系图的节点特征进行优化，捕捉视觉对象之间的动态交互。

具体的，文本关系图中的关系节点由两个名词及其自身的特征决定，本发明实施例通过聚合关系节点和名词节点特征进一步对文本关系图中的关系节点进行更新，具体如下：

其中

为文本关系图中的关系节点更新前的关系特征，

为文本关系图中的关系节点更新后的关系特征，

及

均为文本关系图中的名词节点特征，

为全连接神经网络投影合并到同一维度空间的特征。

进一步的，与文本关系图中的关系节点(两个名词的连接)不同，由于文本关系图中的名词节点具有不确定的邻居，所以本发明实施例进一步通过注意力机制聚集文本关系图中的名词节点的邻居对象节点，具体如下：

其中

为全连接神经网络在同一维度空间的投影特征，注意力机制中注意力的计算由对象i和对象j特征之间的内积决定。

进一步的，对视觉关系图中的节点特征进行优化。具体的，通过部分区域特征对视觉关系图中的显式关系进一步进行定义，公式如下：

其中

为两个对象的公共区域特征，

为两个对象的联合区域特征，

为对象i的目标对象框的位置信息，

为对象j的目标对象框的位置信息，并进一步通过两个消息传导机制对视觉关系图中的节点特征进行优化，首先优化视觉关系图中的关系节点：

其中

是视觉关系图中的节点更新前的关系特征，

是视觉关系图中的节点更新后的关系特征，

和

均为视觉关系图中的名词节点特征，

为全连接神经网络在同一维度空间的投影特征。

然后通过注意力机制优化名词节点特征：

此时视觉关系图中的各节点均融入了丰富的邻居信息。

进一步的，为了保证抽取的短语对象和视觉对象在框架中的一致性，本发明进一步通过文本关系图中的短语对象对从Faster R-CNN中抽取的视觉对象进行过滤，具体的，当视觉对象的特征与文本对象之间的相似度小于0.5时，则设定为当前没有相对应的视觉对象，如果过滤出的多个候选区域与文本关系图中的对象之间的相似度大于0.9，则合并这些候选区域，并将合并后的候选区域的联合区域作为可视对象，并进一步从抽取的视觉对象中过滤出与文本关系图中的短语相似度最高的一个或多个候选对象，并将一个或多个候选对象作为视觉关系图的节点，可理解的，候选对象为长视频V中与查询语句q较为相近的视频时刻片段。

本发明实施例通过上诉步骤S2对文本关系图中的节点特征以及视觉关系图中的节点特征进行优化，实现了视觉内容中的目标对象与文本内容中的目标对象之间的动态交互，通过多通道关系图增强语义表达，进一步优化了查询语句和视频中局部对象之间的交互模式。但视频中的视觉对象不具备天生的结构性联系，为了进一步完善交互时对文本关系图中的节点以及视觉关系图中的节点的理解，本发明实施例通过预训练任务增强节点级和图级的视觉关系推理。

具体的，在步骤S3中面向跨模态检索分别设计了两种预训练任务，即属性遮掩和上下文预测，两种预训练任务鼓励捕获有关对象的特定领域知识以及结构化表示关系的特定领域知识。

进一步的，本发明实施例通过属性遮掩对显式表达式下的关系节点的特征学习以及对象节点的特征学习进行优化，具体的，首先对视觉关系图中20％的视觉对象和20％的关系节点进行标记，然后将标记的视觉对象中的80％和标记的关系节点中的80％替换为[MASK]标签，其余部分保留原始属性，并迫使模型基于相邻节点来预测这些属性。进一步的，本发明实施例通过上下文预测进行训练以使特征的表示形式可以捕获长视频V中的图的整体结构信息，并在文本语义的约束下基于视觉关系图的结构进一步从节点的相邻子图重建视图。

本发明对上下文预测采用的训练方法不做具体限定，作为一种优选，本发明实施例采用负采样策略进行训练。负采样的子图结构用于随机采样与当前对象不相邻的节点的上下文，最后通过成对损失来优化重建，避免了由于对象节点中嵌入的语义太丰富而无法重构的现象。本发明通过两种预训练任务进一步提高了模型对视觉关系图的语义进行推理的能力以及特征的提取能力。

请参阅图4，步骤S4提取对应查询语句q的视频时刻片段的具体步骤为：

Sd，通过图匹配确定视觉关系图和文本关系图的语义是否相关；

Se，通过边界回归结合全局特征进一步补充预备视频的边界的时间偏置，并调整备选视频的边界直到收敛，得到对应查询语句q的视频时刻片段。

具体的，在图匹配中，本发明实施例通过已经优化好的文本关系图的节点特征及视觉关系图的节点特征进行相似度比较，并计算得出sz，本发明对文本关系图的节点特征及视觉关系图的节点特征的相似度比较方法不做具体限定，作为一种优选，本发明实施例中的相似度比较方法基于负采样技术，即将查询对分为两组，P被视为正例对，而N被视为负例对，其中定义正例对为(查询语句q长视频V)语义很相关，负例对为(查询语句q长视频V)语义不相关，由于模型需要尽可能的分清正例对和负例对的差别，故可定义损失函数为：

其中λ₁是平衡参数。

在边界回归中，直接预测起始点和结束点的位置偏移：

其中

是融合了全局特征后的视频，

是融合了全局特征后的文本特征，f^l是全连接函数层以预测起始点和结束点作为边界的补充。

为了更加准确的定位边界，本发明进一步通过IOU进行评估，IOU(IntersectionOver Union)是一种测量在特定数据集中检测相应物体准确度的一个标准，在本发明中，IOU为预测的边界和真实边界的交并比，其中IOU为：

故定义边界回归的损失函数L_reg为：

为了能够通过梯度的方式反向更新整个模型的网格参数，并最终使模型能够具有良好的性能，定义总损失L为两个任务损失函数的和，即：

L＝L_mah+λ₂L_reg

其中λ₂为平衡参数。

然后应用梯度下降训练网络直至备选视频的边界收敛，并得到对应查询语句q的视频时刻片段loc_q，其中loc_q＝[l_s，l_e]，l_s和l_e分别为目标视频时刻的起点和终点。本发明通过跨模态检索进一步检索与查询语句q最相关的视频时刻，并执行视频位置偏移的补充，更加准确的定位视频边界，有效提高用户的查询检索的准确度和速度，进一步提高了用户的查询体验。

综上所述，本发明提供的基于多模态关系图的视频时刻定位方法通过在查询语句q输入的同时，实时从已经输入完成的语句中提取短语关系来构造文本关系图，提取短语关系时将查询语句q中的名词及关系短语作为关系节点，同时构造视觉关系图来捕获长视频V中视觉对象之间的关系，然后通过文本关系图过滤视觉关系图中的无关对象，通过属性遮掩和上下文预测这两种预训练任务增强对视觉关系图的语义推力和特征提取能力，通过图匹配确定视觉关系图和文本关系图的语义是否相关，然后在长视频V中预测得到备选视频，并补充预测备选视频的边界的时间偏置，调整备选视频的边界直到收敛，最后得到对应查询语句q的视频时刻片段，举例来说，当我们需要在一段视频里精确检索“人把书放入袋子”的视频时刻时，首先输入查询语句“人把书放入袋子”，在输入查询语句的过程中，实时生成与查询语句中的“人”、“把”、“书”、“放入”及“袋子”相关的文本关系图，其中，将“人”、“书”及“袋子”作为对象节点，将“把”及“放入”作为关系节点，当先输入“人”时，生成与“人”相关的文本关系图，输入“人把书”时，生成与“人”、“把”及“书”相关的文本关系图，以此类推，最后完成“人把书放入袋子”的输入后得到最终的文本关系图，在生成文本关系图的同时，实时捕捉视频内与“人”、“书”及“袋子”相关的视频对象，过滤掉与“人”、“书”及“袋子”不相关的视频对象，同时对“人”、“书”及“袋子”这些词语进行理解学习，即对“人”、“书”及“袋子”这些词语进行领域的扩充学习，举例说明，对“袋子”进行理解学习时定义“袋子”为盛装物品的袋囊，包含帆布袋、编织袋、蛇皮袋、塑料袋、衣服口袋等种类的袋子，然后通过理解学习进一步对相关的视频片段进行提取筛选，并筛选出预备视频，此时的预备视频即为视频中人正在把书放入袋子的视频片段，同时为了进一步完善预备视频，对预备视频的边界进行补充，即补充人正在把书放入袋子的视频，以及人把书放入袋子后的视频，最终输出人把书放入袋子的视频时刻。

请参阅图5，本发明的第二实施例提供一种基于多模态关系图的视频时刻定位方法的设备1，其包括：

输入模块11，输入模块11用于输入未修剪的长视频V和查询语句q；

提取特征模块12，提取特征模块12用于查询语句q的特征、长视频V的特征，并对上述特征进行优化处理；

预训练模块13，预训练模块13定制两个面向跨模态检索的预训练任务，通过预训练任务增强对视觉关系图的语义推导能力和特征提取能力；

跨模态检索模块14，跨模态检索模块14通过图匹配确定视觉关系图和文本关系图的语义是否相关，同时补充预备视频边界的时间偏置，通过边界回归结合全局特征进一步调整预备视频的边界直到收敛，并得到对应查询语句q的视频时刻片段loc_q，其中loc_q＝[l_s，l_e]，l_s和l_e分别为目标视频时刻的起点和终点。

进一步的，设备1进一步包括处理器(图中未明示)以及与处理器通信连接的存储器(图中未明示)，存储器存储有指令，处理器通过执行指令以使处理器能够执行基于多模态关系图的视频时刻定位，关于基于多模态关系图的视频时刻定位方法的具体步骤可以参见本发明第一实施例，在此不再赘述。

本发明对设备1中的各个模块的组合不做具体限定，可选的，各模块可以全部以硬件形式内嵌于或独立于设备的处理器中，各模块也可以全部以软件形式存储于设备的存储器中，以便处理器调用执行以上各个模块对应的操作，当然各个模块还可通过软件与硬件的组合方式设置在设备1当中。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于多模态关系图的视频时刻定位方法，其特征在于包括：其包括以下步骤：

步骤S1，输入长视频V及查询语句q；

2.如权利要求1中所述基于多模态关系图的视频时刻定位方法，其特征在于：上述步骤S2具体包括：

3.如权利要求2中所述基于多模态关系图的视频时刻定位方法，其特征在于：上述步骤Sa中所述文本关系图的构造进一步包括：将关系短语作为一个结点，同时通过名词相似度和关系粗分类的方法在Flickr30K实体数据集上进行处理以确保所述文本关系图中不存在孤立的节点。

4.如权利要求2中所述基于多模态关系图的视频时刻定位方法，其特征在于：上述步骤Sa之后还包括以下步骤：

5.如权利要求2中所述基于多模态关系图的视频时刻定位方法，其特征在于：上述步骤Sb中，当所述视觉对象的特征与文本对象之间的相似度小于0.5时，设定当前没有相应的视觉对象。

6.如权利要求1中所述基于多模态关系图的视频时刻定位方法，其特征在于：上述步骤S3中所述预训练任务具体包括属性遮掩及上下文预测；

7.如权利要求6中所述基于多模态关系图的视频时刻定位方法，其特征在于：所述上下文预测采用负采样策略进行训练。

8.如权利要求1中所述基于多模态关系图的视频时刻定位方法，其特征在于：上述步骤S4具体包括：

9.一种设备，其特征在于：所述设备包括：

所述设备进一步包括处理器以及与所述处理器通信连接的存储器，所述存储器存储有指令，所述处理器通过执行所述指令以使所述处理器能够执行如权利要求1-8中任一项所述的方法。

10.如权利要求9中所述的设备，其特征在于：所述输入模块、所述提取特征模块、所述预训练模块、所述跨模态检索模块全部以硬件形式内嵌于或独立于所述设备的所述处理器中；