CN117194710A

CN117194710A - 多粒度视频检索方法及装置

Info

Publication number: CN117194710A
Application number: CN202311228436.1A
Authority: CN
Inventors: 陈智国; 蒋寻; 朱利卿; 徐行; 汪政; 杨阳
Original assignee: University of Electronic Science and Technology of China; Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: University of Electronic Science and Technology of China; Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-08

Abstract

本申请实施例提出一种多粒度视频检索方法及装置，属于跨模态内容检索领域，通过该检索算法，基于待查询文本的句子级文本特征、视频库中每个视频数据的粗粒度视频特征和细粒度视频特征，进行多中心和多尺度的双分支协同特征处理，得到待查询文本与每个视频数据间的相似度数据，以此得到视频级检索对应的整体级视频和片段级检索对应的片段级视频的检索结果。检索算法采用双分支协同策略，设计粗粒度浏览分支和细粒度凝视分支，采用基于焦点引导的协同检索策略浏览分支和凝视分支，并引入混合协同对比学习策略，显著提高了弱监督条件下对完整视频的检索召回率以及对视频中的目标片段的定位精度。

Description

多粒度视频检索方法及装置

技术领域

本申请涉及跨模态内容检索领域，具体而言，涉及一种多粒度视频检索方法及装置。

背景技术

随着互联网技术的发展，视频逐渐成为一种主流的信息媒介，视频数据的产生和消费呈现出爆炸式的增长，在这样的背景下，如何有效地从海量视频中检索出用户感兴趣的内容，成为了一个重要而具有挑战性的问题。

目前，常用的视频检索方式包括：(一)基于文本的视频检索；(二)关注于视频检索和视频片段检索。第一种检索方式是对于给定的自然语言文本，从视频库中检索出与之语义相关的视频。第二种检索方式是分阶段实现视频检索和片段检索。然而这些方法均存在检索召回的效果上限低的问题。

发明内容

有鉴于此，本申请的目的在于提供一种多粒度视频检索方法及装置，其在实现视频级检索和片段级检索的同时，能够提高检索召回率和对视频中目标片段的定位精度。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种多粒度视频检索方法，所述方法包括：

对待查询文本进行处理，得到所述待查询文本对应的句子级文本特征；

获取视频库中每个视频数据的特征信息；其中，所述特征信息包括粗粒度视频特征和细粒度视频特征，所述粗粒度视频特征为对所述细粒度视频特征进行下采样得到；

将所述句子级文本特征输入预先训练的检索算法；

通过所述检索算法，基于所述句子级文本特征和所述特征信息，进行多中心和多尺度的双分支协同特征处理，得到所述待查询文本与每个所述视频数据间的相似度数据；其中，所述相似度数据包括粗粒度相似度和细粒度相似度；

根据所述相似度数据，得到检索结果；其中，所述检索结果包括视频级检索对应的整体级视频和片段级检索对应的片段级视频。

在一种可能的实施方式中，所述检索算法包括浏览分支和凝视分支；

所述通过所述检索算法，基于所述句子级文本特征和所述特征信息，进行多中心和多尺度的双分支协同特征处理，得到所述待查询文本与每个所述视频数据间的相似度数据的步骤，包括：

通过所述浏览分支，基于选取的多个中心点和多个尺度，构建每个所述视频数据的多个粗粒度候选片段，并结合所述粗粒度视频特征和所述句子级文本特征，从所述多个粗粒度候选片段中得到粗粒度最优片段，并计算出所述待查询文本与每个所述视频数据间的粗粒度相似度；

通过所述凝视分支，按照所述粗粒度最优片段的中心点和多个尺度，构建每个所述视频数据的多个细粒度候选片段，并结合所述细粒度视频特征和所述句子级文本特征，从所述多个细粒度候选片段中得到细粒度最优片段，并计算出所述待查询文本与每个所述视频数据间的细粒度相似度。

在一种可能的实施方式中，所述方法还包括训练得到检索算法的步骤，包括：

对训练数据集中的每个样本对进行处理，得到每个所述样本对中的查询文本样本对应的句子级文本特征，以及每个所述样本对中的视频样本的帧级特征；其中，所述样本对中的查询文本样本为对所述样本对中的视频样本的片段的自然语言描述；

从所述训练数据集中选取预设数量个样本对作为训练样本，并将每个所述训练样本对输入初始检索算法；其中，所述初始检索算法包括初始Transformer模型、初始浏览分支和初始凝视分支，所述训练样本对包括训练视频和训练查询文本；

基于所述初始Transformer模型，对所述帧级特征进行处理，得到细粒度视频样本特征和粗粒度视频样本特征；

通过所述初始浏览分支，基于多个中心点和多个尺度，构建所述训练视频的多个粗粒度样本候选片段，并结合所述训练样本对的粗粒度视频样本特征和句子级文本特征，从所述多个粗粒度样本候选片段中得到粗粒度样本最优片段，并计算出所述训练视频与所述训练查询文本间的粗粒度相似度；

通过所述初始凝视分支，按照所述粗粒度样本最优片段的中心点和多个尺度，构建所述训练视频的多个细粒度样本候选片段，并结合所述训练样本对的细粒度视频样本特征和句子级文本特征，从所述多个细粒度样本候选片段中得到细粒度样本最优片段，并计算出所述训练视频与所述训练查询文本间的细粒度相似度；

基于所述粗粒度相似度和所述细粒度相似度，结合所有所述训练样本中的训练视频，计算关于粗粒度的第一对比学习损失和关于细粒度的第二对比学习损失；

结合所述第一对比学习损失和第二对比学习损失，得到混合协同对比学习损失，基于所述混合协同对比学习损失，采用优化算法对所述初始检索算法的参数进行更新，以得到成熟的检索算法。

在一种可能的实施方式中，所述结合所述训练样本对的粗粒度视频样本特征和句子级文本特征，从所述多个粗粒度样本候选片段中得到粗粒度样本最优片段，并计算出所述训练视频与所述训练查询文本间的粗粒度相似度的步骤，包括：

针对每个所述粗粒度样本候选片段，结合所述粗粒度视频样本特征以及所述粗粒度样本候选片段的中心点和宽度，进行高斯加权池化聚合，得到所述粗粒度样本候选片段的片段特征；

基于所述句子级文本特征和所述片段特征，计算出每个所述粗粒度样本候选片段与所述训练查询文本间的余弦相似度，将所述余弦相似度最大的粗粒度样本候选片段作为粗粒度样本最优片段，并将所述粗粒度样本最优片段的余弦相似度作为所述训练视频与所述训练查询文本间的粗粒度相似度。

在一种可能的实施方式中，所述结合所述训练样本对的细粒度视频样本特征和句子级文本特征，从所述多个细粒度样本候选片段中得到细粒度样本最优片段，并计算出所述训练视频与所述训练查询文本间的细粒度相似度的步骤，包括：

针对每个所述细粒度样本候选片段，结合所述细粒度视频样本特征以及所述细粒度样本候选片段的中心点和宽度，进行高斯加权池化聚合，得到所述细粒度样本候选片段的片段特征；

基于所述句子级文本特征和所述片段特征，计算出每个所述细粒度样本候选片段与所述训练查询文本间的余弦相似度，将所述余弦相似度最大的细粒度样本候选片段作为细粒度样本最优片段，并将所述细粒度样本最优片段的余弦相似度作为所述训练视频与所述训练查询文本间的细粒度相似度。

在一种可能的实施方式中，所述基于所述粗粒度相似度和所述细粒度相似度，结合所有所述训练样本中的训练视频，计算关于粗粒度的第一对比学习损失和关于细粒度的第二对比学习损失的步骤，包括：

根据所述粗粒度相似度，从所有所述训练样本中的训练视频中确定第一正样本和第一负样本，并联合三元损失函数和infoNCE损失函数，计算出关于粗粒度的第一对比学习损失；

基于所述细粒度相似度，从所有所述训练样本中的训练视频中确定第二正样本、第二负样本、一类负样本和二类难负样本，并联合三元损失函数和infoNCE损失函数，计算出关于细粒度的第二对比学习损失。

在一种可能的实施方式中，所述基于所述细粒度相似度，从所有所述训练样本中的训练视频中确定第二正样本、第二负样本、一类负样本和二类难负样本，并联合三元损失函数和infoNCE损失函数，计算出关于细粒度的第二对比学习损失的步骤，包括：

基于所述细粒度相似度，从所述多个细粒度样本候选片段确定第二正样本和第二负样本；

从所述多个细粒度样本候选片段中，选择所述细粒度相似度最大的细粒度样本候选片段作为细粒度样本最优片段；

将所述细粒度样本最优片段左右两端的细粒度样本候选片段作为一类负样本，将所述训练视频作为二类难负样本；

采用三元损失函数，根据所述第二正样本和所述第二负样本，计算第一损失，采用infoNCE损失函数，分别根据所述一类负样本和所述二类难负样本，计算第二损失和第三损失；

结合所述第一损失、所述第二损失和所述第三损失，得到第二对比学习损失。

在一种可能的实施方式中，所述基于所述初始Transformer模型，对所述帧级特征进行处理，得到细粒度视频样本特征和粗粒度视频样本特征的步骤，包括：

采用所述初始Transformer模型对所述训练样本中的视频样本进行语义建模，得到细粒度视频样本特征；

对所述细粒度视频样本特征进行下采样，得到粗粒度视频样本特征。

在一种可能的实施方式中，所述根据所述相似度数据，得到检索结果的步骤，包括：

针对所述视频库的每个视频数据，将所述视频数据对应的粗粒度相似度和细粒度相似度进行加权求和，得到所述视频数据与所述待查询文本间的视频级相似度；

按照所述视频级相似度，将所有所述视频数据进行排序，并根据排序结果选择预设数量的视频数据作为视频级检索结果；

按照所述细粒度相似度，从每个所述候选视频中，选择预设数量个余弦相似度最高的细粒度候选片段作为待选片段；其中，所述余弦相似度为所述细粒度候选片段与所述待查询文本间的余弦相似度；

按照所述余弦相似度，将所有所述待选片段进行排序，并根据排序结果选择预设数量的待选片段作为片段级检索结果。

在一种可能的实施方式中，所述获取视频库中每个视频数据的特征信息的步骤，包括：

使用预训练的视觉特征提取模型，提取视频库中每个视频数据的帧级特征；

对所述帧级特征进行语义建模，得到细粒度视频特征，对所述细粒度视频表征进行下采样，得到粗粒度视频特征。

在一种可能的实施方式中，所述对待查询文本进行处理，得到所述待查询文本对应的句子级文本特征的步骤，包括：

采用预训练的RoberTa模型，提取所述待查询文本的符号级特征，并将所述符号级特征进行上下文建模和特征聚合，得到句子级文本特征。

第二方面，本申请实施例提供一种多粒度视频检索装置，包括预处理模块、特征获取模块、输入模块、检索处理模块和结果获取模块；

所述预处理模块，用于对待查询文本进行处理，得到所述待查询文本对应的句子级文本特征；

所述特征获取模块，用于获取视频库中每个视频数据的特征信息；其中，所述特征信息包括粗粒度视频特征和细粒度视频特征，所述粗粒度视频特征为对所述细粒度视频特征进行下采样得到；

所述输入模块，用于将所述句子级文本特征输入预先训练的检索算法；

所述检索处理模块，用于通过所述检索算法，基于所述句子级文本特征和所述特征信息，进行多中心和多尺度的双分支协同特征处理，得到所述待查询文本与每个所述视频数据间的相似度数据；其中，所述相似度数据包括粗粒度相似度和细粒度相似度；

所述结果获取模块，用于根据所述相似度数据，得到检索结果；其中，所述检索结果包括视频级检索对应的整体级视频和片段级检索对应的片段级视频。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现如第一方面中任一种可能的实施方式所述的多粒度视频检索方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一种可能的实施方式所述的空调远程控制方法。

本申请实施例提供的多粒度视频检索方法及装置，对待查询文本进行处理得到对应的句子级文本特征，并获取视频库中每个视频数据的粗粒度视频特征和细粒度视频特征，将句子级文本特征输入预先训练的检索算法，从而通过该检索算法，基于句子级文本特征以及视频库中每个视频数据的粗粒度视频特征和细粒度视频特征，进行多中心和多尺度的双分支协同特征处理，得到待查询文本与每个视频数据间的相似度数据，并根据该相似度数据得到包括视频级检索对应的整体级视频和片段级检索对应的片段级视频的检索结果，通过多粒度和多方向上的双分支混合协同进行视频级检索和片段级检索，从而能够提高检索召回率和对视频中目标片段的定位精度，提升检索精度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的多粒度视频检索系统的结构示意图。

图2示出了本申请实施例提供的多粒度视频检索方法的流程示意图之一。

图3示出了图2中步骤S13的部分子步骤的流程示意图。

图4示出了图2中步骤S14的部分子步骤的流程示意图。

图5示出了本申请实施例提供的多粒度视频检索方法的流程示意图之二。

图6示出了本申请实施例提供的多粒度视频检索方法的处理逻辑图。

图7示出了图5中步骤S27的部分子步骤的流程示意图。

图8示出了图5中步骤S29的部分子步骤的流程示意图。

图9示出了本申请实施例提供的多粒度视频检索方法的应用结果图。

图10示出了本申请实施例提供的多粒度视频检索装置的结构示意图。

图11示出了本申请实施例提供的电子设备的结构示意图。

附图标记说明：1000-多粒度视频检索系统；10-检索设备；20-客户端；30-训练设备；40-多粒度视频检索装置；401-预处理模块；402-特征获取模块；403-输入模块；404-检索处理模块；405-结果获取模块；50-电子设备。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

传统的文本视频检索任务大多针对经过预先剪裁的短视频，特点是视频和文本具有高度对齐的语义信息。而在实际场景中，大多数视频是没有经过精细剪裁的长视频，在使用查询文本检索视频时，用户输入的查询文本只和目标视频的部分片段具有语义相关关系，即视频中的部分片段和查询文本语义对齐。从而，导致文本视频检索精度较低。

针对这类长视频检索的问题，目前提出了一些解决方法。其中一类方法是将文本检索任务定义为多样例学习问题，把视频划分为多个候选片段，将文本和视频片段特征映射到同一个特征子空间，通过对比学习进行语义对齐。但是，这种方法只关注于对整个视频的检索，没有进一步实现对目标视频中的具体片段的定位，是一种粗粒度的检索，因此在实际应用时存在局限性。

另一类方法同时关注视频检索和视频片段检索，但这些方法存在以下问题：(一)依赖于数据集中对视频目标片段的标注，这些标注成本高昂且具有很强的主观性，很难进行大规模应用；(二)这些方法往往是分阶段实现视频检索和片段检索，没有形成统一的排序框架，不同阶段之间存在样本取舍问题，降低了检索召回的效果上限。

目前，有一种跨模态视频检索方法，采用预览分支和精读分支分别对视频的初始特征序列进行编码，得到预览特征和精度特征，并将预览特征和精度特征分别与文本模态多级编码特征映射输入到对应混合空间，通过混合空间计算视频模态与文本模态之间的相似度进行模态匹配，即进行文本视频检索。但是，这种方法预览特征双向GRU来产生视频特征向量，且在模型训练时只考虑使模型具有分辨不同视频的能力，未考虑对不同视频以及相同视频的不同片段的分辨能力，导致检索精度低。

基于上述考虑，本申请实施例提供一种多粒度视频检索方法，其具备对不同视频以及相同视频的不同片段的分辨能力，在实现视频级检索和片段级检索的同时，能够提高检索召回率和对视频中目标片段的定位精度。

本申请实施例提供的多粒度视频检索方法，可以应用于图1中所示的多粒度视频检索系统1000中，该多粒度视频检索系统1000可以包括检索设备10、客户端20和训练设备30。检索设备10可以通过网络与客户端20通信连接，训练设备30和检索设备10可以是同一个设备，也可以是不同的可以通过网络或有线的方式通信连接的两个设备。

训练设备30，用于训练得到检索算法，并将训练成熟的检索算法部署至检索设备10上。

客户端20，用于获取用户输入的待查询文本，并将待查询文本发送至检索设备10。

检索设备10，用于基于部署的检索算法和待查询文本，实现本申请实施例提供的多粒度视频检索方法。

训练设备30和检索设备10包括但不限于是：服务器集群、独立服务器、云服务器和个人计算机等。

客户端20包括但不限于是：个人计算机、笔记本电脑、平板电脑、移动终端、手机、可穿戴式便携设备、虚拟现实设备和智能终端等。

在一种可能的实施方式中，提供了一种多粒度视频检索方法，参照图2，该多粒度诗篇检索方法可以通过以下步骤来训练得到检索算法。在本实施方式中，以该训练得到检索算法的方式应用于图1中训练设备30来举例说明。

S10，对训练数据集中的每个样本对进行处理，得到每个样本对中的查询文本样本对应的句子级文本特征，以及每个样本对中的视频样本的帧级特征。

需要说明的是，训练数据集中的每个样本对包括查询文本样本和视频样本，且样本对中的查询文本样本是对该样本对中的视频样本的各片段的自然语言描述。

S11，从训练数据集中选取预设数量个样本对作为训练样本，并将每个训练样本对输入初始检索算法。

在本实施方式中，初始检索算法至少包括初始Transformer模型、初始浏览分支和初始凝视分支，每个训练样本对包括训练视频和训练查询文本。预设数量可以是100、200、50等，可以灵活设置。

S12，基于初始采用Transformer模型，对帧级特征进行处理，得到细粒度视频样本特征和粗粒度视频样本特征。

S13，通过初始浏览分支，基于多个中心点和多个尺度，构建训练视频的多个粗粒度样本候选片段，并结合训练样本对的粗粒度视频样本特征和句子级文本特征，从多个粗粒度样本候选片段中得到粗粒度样本最优片段，并计算出训练视频与训练查询文本间的粗粒度相似度。

S14，通过初始凝视分支，按照粗粒度样本最优片段的中心点和多个尺度，构建训练视频的多个细粒度样本候选片段，并结合训练样本对的细粒度视频样本特征和句子级文本特征，从多个细粒度样本候选片段中得到细粒度样本最优片段，并计算出训练视频与训练查询文本间的细粒度相似度。

需要说明的是，对于每个训练样本执行一次步骤S14和步骤S13，以得到该训练样本的训练视频与训练查询文本间的粗粒度相似度和细粒度相似度。

S15，基于粗粒度相似度和细粒度相似度，结合所有训练样本中的训练视频，计算关于粗粒度的第一对比学习损失和关于细粒度的第二对比学习损失。

S16，结合第一对比学习损失和第二对比学习损失，得到混合协同对比学习损失，基于混合协同对比学习损失，采用优化算法对初始检索算法的参数进行更新。

S17，判断是否满足迭代结束条件。若是，则结束训练，得到成熟的检索算法。若否，则返回执行步骤S11。

迭代结束条件可以灵活设置，例如，可以是迭代次数达到预设次数，也可以是混合协同对比学习损失小于预设的损失阈值，在本实施方式中，不作具体限定。

对于步骤S10得到每个样本对中的查询文本样本对应的句子级文本特征的方式也可以灵活设置，例如，可以采用机器学习模型进行处理，也可以按照预设规则进行处理，在本实施方式中，不作具体限定。

在一种可能的实施方式中，可以采用预训练的RoberTa模型，提取出查询文本样本的符号级特征，并将符号级特征进行上下文建模和特征聚合，得到句子级文本特征。

对于将符号级特征进行上下文建模和特征聚合，可以采用单层transformer编码器，通过多头自注意力机制，配合可学习位置编码，构建符号级特征的上下文信息，得到多个符号级特征向量。进而，采用加性注意力机制，将多个符号级特征向量聚合为一个向量，得到句子级文本特征。

特征聚合过程可以聚合公式表示，聚合公式包括：

其中，α＝Softmax(QW^T)，q表征聚合后的句子级文本特征，n_q表征查询文本(样本)的符号级特征向量个数，q_i表示第i个符号级特征向量，α表示自注意力权重矩阵，表示句子的所有符号级特征向量组成的矩阵，/>是一个可学习的向量，W^T表示W的转置。

另外，在步骤S10中，可以采用预训练的视觉特征提取模型，提取出样本对中的视频样本的帧级特征。其中，视觉特征提取模型可以是任一种模型，例如，可以是预训练的2D深度卷积神经网络模型，也可以是3D深度卷积神经网络模型。

为了提升检索算法的检索精度，在一种可能的实施方式中，可以分别使用多个不同的预训练的视觉特征提取模型进行提取，并将提取的各视觉特征进行拼接作为最终的帧级特征。以此，使帧级特征能够包括所有维度的特征信息，进而提升检索精度。

对于步骤S12，初始Transformer模型可以是单层Transformer模型，且Transformer模型包括多头自注意力机制。采用单层Transformer模型，即多头自注意力机制，以整个训练视频作为感受野，对该训练视频的帧级特征(该帧级特征含有位置编码)进行语义建模，得到细粒度视频样本特征。进而，采用时序最大池化对细粒度视频样本特征进行下采样，并对下采样结果使用时序一维卷积进行局部语义建模，得到粗粒度视频样本特征。

细粒度视频样本特征集合可以表示为：粗粒度视频样本特征集合可以表示为：/>其中，n_v表征细粒度视频样本特征的数量，/>和/>分别表征第i个细粒度视频样本特征和第i个粗粒度视频样本特征，n_c表征粗粒度视频样本特征的数量。

在一种可能的实施方式中，参照图3，步骤S13可以进一步实施为以下步骤。

S131，选定多个中心点和多个尺度，以每个中心点为片段中心点，以每个尺度作为片段的宽度，将训练视频划分为多个粗粒度样本候选片段。

可以在0到1之间以等间距的方式选取多个(可以为n_pc个)中心点，在预先设定的尺度下限值和尺度上限值之间以等间距的方式选取多个(可以为n_pw)尺度，并按照以每个中心点为片段中心点，以每个尺度作为片段的宽度，将训练视频划分为多个粗粒度样本候选片段，其中粗粒度样本候选片段的总数为n_p＝n_pc×n_pw。

例如，假设有5个中心点：A、B、C、D、E，有5个尺度：a、b、c、d、e，则粗粒度样本候选片段为25个，分别为：以A为中心点且宽度分别为a、b、c、d、e的五个粗粒度样本候选片段，以B为中心点且宽度分别为a、b、c、d、e的五个粗粒度样本候选片段，以C为中心点且宽度分别为a、b、c、d、e的五个粗粒度样本候选片段，以D为中心点且宽度分别为a、b、c、d、e的五个粗粒度样本候选片段，以及以E为中心点且宽度分别为a、b、c、d、e的五个粗粒度样本候选片段。

S132，针对每个粗粒度样本候选片段，结合粗粒度视频样本特征以及该粗粒度样本候选片段的中心点和宽度，进行高斯加权池化聚合，得到该粗粒度样本候选片段的片段特征。

粗粒度样本候选片段的片段特征可以表示为：

其中，c_j表征第j个粗粒度样本候选片段的片段特征，n_c表征粗粒度视频样本特征的数量，表征第i个粗粒度视频样本特征，/>表征第j个粗粒度样本候选片段的中心点，表征第j个粗粒度样本候选片段的宽度，σ为放缩因子。

S133，基于句子级文本特征和片段特征，计算出每个粗粒度样本候选片段与训练查询文本间的余弦相似度，将余弦相似度最大的粗粒度样本候选片段作为粗粒度样本最优片段，并将该粗粒度样本最优片段的余弦相似度作为训练视频与训练查询文本间的粗粒度相似度。

在本实施方式中，粗粒度相似度可以表示为：

其中S^c(q,v)表征粗粒度相似度，c_np表征第np个粗粒度样本候选片段的片段特征，q^T表征训练查询文本的句子级文本特征向量的转置。

通过上述步骤S131至S133，浏览分支采用多个中心点，且每个中心点设置多个不同尺度的方式，构造多尺度多中心点的多个候选片段，并在计算候选片段的片段特征时，考虑了片段内部不同帧之间的语义代表性不同，采用高斯加权池化方法来聚合片段特征，以能够更加侧重靠近片段中心的视频帧，从而有助于提升视频检索精度。

在一种可能的实施方式中，参照图4，步骤S14可以进一步实施为以下步骤。

S141，选定多个尺度，以粗粒度样本最优片段的中心点为片段中心点，以每个尺度作为片段的宽度，将训练视频划分为多个细粒度样本候选片段。

可以在预先设定的尺度下限值和尺度上限值之间(即w_lb到w_ub之间)以等间距的方式选取多个(可以为)尺度，并按照以粗粒度样本最优片段的中心点为片段中心点，以每个尺度作为片段的宽度，将训练视频划分为多个细粒度样本候选片段，其中粗粒度样本候选片段的总数为/>

例如，假设有粗粒度样本最优片段的中心点为C，有5个尺度：a、b、c、d、e，则细粒度样本候选片段为5个：以C为中心点且宽度分别为a、b、c、d、e的五个细粒度样本候选片段。

S142，针对每个细粒度样本候选片段，结合细粒度视频样本特征以及该细粒度样本候选片段的中心点和宽度，进行高斯加权池化聚合，得到该细粒度样本候选片段的片段特征。

细粒度样本候选片段的片段特征计算方式可以参见上文S132中粗粒度样本候选片段的片段特征的计算方法，在本实施方式中，不再赘述。

S143，基于句子级文本特征和片段特征，计算出每个细粒度样本候选片段与训练查询文本间的余弦相似度，将余弦相似度最大的细粒度样本候选片段作为细粒度样本最优片段，并将该细粒度样本最优片段的余弦相似度作为训练视频与训练查询文本间的细粒度相似度。

细粒度相似度的计算公式可以参见步骤S133中粗粒度相似度的计算公式，在此不再赘述。

对于步骤S15，可以采用任一种损失函数计算第一对比学习损失和第二对比学习损失，本实施方式中，不作具体限定。

在一种可能的实施方式中，为了提高检索算法的检索精度，引入联合三元损失函数和infoNCE损失函数。

对于关于粗粒度的第一对比学习损失的计算，可以根据粗粒度相似度，从所有训练样本中的训练视频中确定第一正样本和第一负样本，并联合三元损失函数和infoNCE损失函数，计算出关于粗粒度的第一对比学习损失。

对于每个训练样本的每个训练查询文本，可以将该训练查询文本对应的训练视频作为第一正样本，将所有训练样本中的其余训练视频作为第一负样本，针对每个训练样本的每个训练视频，可以将该训练视频对应的训练查询文本作为第一正样本，将所有训练样本中的其余训练查询文本作为第一负样本。进而根据该第一正样本和第一负样本，结合粗粒度相似度，分别计算联合三元损失值和infoNCE损失值，并将联合三元损失值和infoNCE损失值的加权求和作为第一对比学习损失。

此时，联合三元损失值可以表示为：

其中，n表示当前轮训练中选取的训练样本的数量，表征训练样本，v^-表示这批训练样本中随机选取的相对当前文本q不匹配的训练视频(即第一负样本)，q^-表示这批训练样本中相对当前视频v不匹配的训练查询文本(即第一负样本)，Δ₁表示边界超参数，S^c(q,v)表征粗粒度相似度，S^c(q^-,v)表征当前视频v和与其不匹配的训练查询文本间的余弦相似度，S^c(q,v^-)表征当前文本q和与其不匹配的训练视频间的余弦相似度。

infoNCE损失值可以表示为：

第一对比学习损失可以表示为：其中，β₁表征权重超参数，权重超参数的值可以根据实际情况做调整，例如，可以是0.1，0.01，0.04，0.4等值。

关于细粒度的第二对比学习损失的计算，可以基于细粒度相似度，从所有训练样本中的训练视频中确定第二正样本、第二负样本、一类负样本和二类难负样本，并联合三元损失函数和infoNCE损失函数，计算出关于细粒度的第二对比学习损失。

对于每个训练样本的每个训练查询文本，可以将该训练查询文本对应的训练视频作为第二正样本，将所有训练样本中的其余训练视频作为第二负样本，针对每个训练样本的每个训练视频，可以将该训练视频对应的训练查询文本作为第二正样本，将所有训练样本中的其余训练查询文本作为第二负样本。进而利用联合三元损失函数和infoNCE损失函数，根据该第二正样本、第二负样本和细粒度相似度，分别计算联合三元损失值和infoNCE损失值，并将联合三元损失值和infoNCE损失值的加权求和作为细粒度视频间对比学习损失。

细粒度视频间对比学习损失的表示方式与上述计算第一对比学习损失的表示方式大致相同，不同点在于粗粒度相似度换为细粒度相似度。

另外，对于每个细粒度样本最优片段，将该细粒度样本最优片段左右两端的视频片段作为该细粒度样本最优片段的一类负样本，将该细粒度样本最优片段所属的整个训练视频作为二类难负样本，分别结合三元损失损失函数，计算三元损失。并将该细粒度样本最优片段的所有三元损失相加，得到视频内对比学习损失。

视频内对比学习损失可以表示为：

L_intra＝L_trip[S^c(q,c),S_n1(q,v),Δ₂)]+L_trip[S^c(q,v),S_n2(q,v),Δ₂)]

+L_trip[S^c(q,v),S_n3(q,v),Δ₃)]

其中，S_n1(q,v)和S_n2(q,v)分别表征一类负样本的片段特征与句子级文本特征的余弦相似度，S_n3(q,v)表征二类难负样本与句子级文本特征的相似度，Δ₂和Δ₃均表征边界超参数。

将细粒度视频间对比学习损失和视频内对比学习损失作为关于细粒度的第二对比学习损失。

在步骤S16中将第一对比学习损失和第二对比学习损失，即第一对比学习损失、细粒度视频间对比学习损失和视频内对比学习损失，进行加权求和，得到混合协同对比学习损失。

通过上述方式，在检索算法训练过程中，浏览分支和凝视分支间采用基于焦点(即中心点和尺度)引导的协同方式，能够增强检索算法模型对查询文本与视频具体片段的语义对齐能力。另外，在浏览分支和凝视分支中均采用基于多尺度候选片段的视频特征向量产生机制，考虑多粒度多方向(即多中心点和多尺度)上的对比学习，并结合第一对比学习损失和第二对比学习损失设计混合协同对比学习损失，使得检索算法(模型)能够同时考虑对不同视频以及相同视频的不同片段的分辨能力。以此，在检索算法(模型)实现视频级检索和片段级检索的同时，能够提高检索召回率和对视频中目标片段的定位精度。

在一种可能的实施方式中，参照图5，本申请实施方式提供的多粒度视频检索方法还可以包括以下步骤。上述实施方式中训练得到的检索算法部署于图1中检索设备后，可以通过以下步骤实现对多粒度视频检索，即视频级检索和片段级检索，以下步骤为部署检索算法的视频检索过程。

S21，对待查询文本进行处理，得到待查询文本对应的句子级文本特征。

步骤S21的实施方式可以参见上述S10中获取句子级文本特征的方式，本实施方式中不再赘述。

S23，获取视频库中每个视频数据的特征信息。

在本实施方式中，特征信息包括粗粒度视频特征和细粒度视频特征，粗粒度视频特征为对细粒度视频特征进行下采样得到。获取视频库中的每个视频数据的特征信息的方式，与上述步骤S12中得到细粒度视频样本特征和粗粒度视频样本特征的方式相同，本实施方式中不再赘述。

需要说明的是，对于视频库中每个视频数据的特征信息，可以在执行视频检索之前已经处理得到，并存储在数据库中，步骤S22中只需加载调用即可。

S25，将句子级文本特征输入预先训练的检索算法。

预先训练的检索算法即采用上述步骤S10至步骤S17的方式训练得到的检索算法。

S27，通过检索算法，基于句子级文本特征和特征信息，进行多中心和多尺度的双分支协同特征处理，得到待查询文本与每个视频数据间的相似度数据。

其中，相似度数据包括粗粒度相似度和细粒度相似度。

S29，根据相似度数据，得到检索结果。

在本实施方式中，检索结果包括视频级检索对应的整体级视频和片段级检索对应的片段级视频。

上述多粒度视频检索方法中，对待查询文本进行处理得到对应的句子级文本特征，并获取视频库中每个视频数据的粗粒度视频特征和细粒度视频特征，将句子级文本特征输入预先训练的检索算法，从而通过该检索算法，基于句子级文本特征以及视频库中每个视频数据的粗粒度视频特征和细粒度视频特征，进行多中心和多尺度的双分支协同特征处理，得到待查询文本与每个视频数据间的相似度数据，并根据该相似度数据得到包括视频级检索对应的整体级视频和片段级检索对应的片段级视频的检索结果，通过多粒度和多方向上的双分支混合协同进行视频级检索和片段级检索，从而能够提高检索召回率和对视频中目标片段的定位精度，提升检索精度。

检索算法包括浏览分支和凝视分支，参照图6，图6为本申请提供的多粒度视频检索方法在部署环境下的视频检索逻辑图。在一种可能的实施方式中，参照图7，步骤S27可以进一步实施为以下步骤。

S271，通过浏览分支，基于选取的多个中心点和多个尺度，构建每个视频数据的多个粗粒度候选片段，并结合粗粒度视频特征和句子级文本特征，从多个粗粒度候选片段中得到粗粒度最优片段，并计算出待查询文本与每个视频数据间的粗粒度相似度。

S272，通过凝视分支，按照粗粒度最优片段的中心点和多个尺度，构建每个视频数据的多个细粒度候选片段，并结合细粒度视频特征和句子级文本特征，从多个细粒度候选片段中得到细粒度最优片段，并计算出待查询文本与每个视频数据间的细粒度相似度。

应当理解的是，针对每个视频数据，通过上述S271和步骤S272，计算出待查询文本与每个视频数据间的细粒度相似度，并得到对应的细粒度最优片段。

对于步骤S271，可以选定多个中心点和多个尺度，以每个中心点为片段中心点，以每个尺度作为片段的宽度，将视频数据划分为多个粗粒度候选片段。针对每个粗粒度候选片段，结合视频数据的粗粒度视频特征以及该粗粒度候选片段的中心点和宽度，进行高斯加权池化聚合，得到该粗粒度候选片段的片段特征。进而，基于待查询文本的句子级文本特征和片段特征，计算出每个粗粒度候选片段与待查询文本间的余弦相似度，将余弦相似度最大的粗粒度候选片段作为粗粒度最优片段，并将该粗粒度最优片段的余弦相似度作为该视频数据与待查询文本间的粗粒度相似度。

可以在0到1之间以等间距的方式选取多个(可以为n_pc个)中心点，在预先设定的尺度下限值和尺度上限值之间以等间距的方式选取多个(可以为n_pe)尺度，并按照以每个中心点为片段中心点，以每个尺度作为片段的宽度，将训练视频划分为多个粗粒度样本候选片段，其中粗粒度样本候选片段的总数为n_p＝n_pc×n_pw。

粗粒度候选片段的片段特征可以表示为：

其中，c_j表征第j个粗粒度候选片段的片段特征，b_c表征粗粒度视频样本特征的数量，表征第i个粗粒度视频特征，/>表征第j个粗粒度候选片段的中心点，/>表征第j个粗粒度候选片段的宽度，σ为放缩因子。

在本实施方式中，粗粒度相似度可以表示为：

其中S^c(q,v)表征粗粒度相似度，c_np表征第np个粗粒度样本候选片段的片段特征，q^T表征句子级文本特征向量的转置。

通过上述方式，浏览分支采用多个中心点，且每个中心点设置多个不同尺度的方式，构造多尺度多中心点的多个候选片段，并在计算候选片段的片段特征时，考虑了片段内部不同帧之间的语义代表性不同，采用高斯加权池化方法来聚合片段特征，以能够更加侧重靠近片段中心的视频帧，从而极大地提升了视频检索精度。

对于步骤S272，可以选定多个尺度，以粗粒度最优片段的中心点为片段中心点，以每个尺度作为片段的宽度，将视频划数据分为多个细粒度候选片段。并针对每个细粒度候选片段，结合细粒度视频特征以及该细粒度候选片段的中心点和宽度，进行高斯加权池化聚合，得到该细粒度候选片段的片段特征。进而，基于待查询文本的句子级文本特征和片段特征，计算出每个细粒度候选片段与待查询文本间的余弦相似度，将余弦相似度最大的细粒度候选片段作为细粒度最优片段，并将该细粒度最优片段的余弦相似度作为该视频数据与训练查询文本间的细粒度相似度。

可以在预先设定的尺度下限值和尺度上限值之间(即w_lb到w_ub之间)以等间距的方式选取多个(可以为)尺度，并按照以粗粒度最优片段的中心点为片段中心点，以每个尺度作为片段的宽度，将视频数据划分为多个细粒度候选片段，其中粗粒度候选片段的总数可以为/>

例如，假设有粗粒度最优片段的中心点为C，有5个尺度：a、b、c、d、e，则细粒度候选片段为5个：以C为中心点且宽度分别为a、b、c、d、e的五个细粒度样本候选片段。

细粒度候选片段的片段特征计算方式可以参见上文S132中粗粒度候选片段的片段特征的计算方法，在本实施方式中，不再赘述。同理，细粒度相似度的计算公式可以参见步骤S133中粗粒度相似度的计算公式，在此不再赘述。

通过上述步骤S271和步骤S272，依据检索算法的浏览分支和凝视分支间对查询文本与视频具体片段的语义对齐能力，基于多尺度候选片段的视频特征向量产生机制，以及对不同视频以及相同视频的不同片段的分辨能力，通过混合协同进行多中心和多尺度的双分支协同特征处理，得到待查询文本与各视频数据间的粗粒度相似度和细粒度相似度。

对于步骤S29，参照图8，可以进一步实施为以下步骤。

S291，针对视频库的每个视频数据，将视频数据对应的细粒度候选片段的粗粒度相似度和粗粒度候选片段的粗粒度相似度进行加权求和，得到视频数据与待查询文本间的视频级相似度。

S292，按照视频级相似度，将所有视频数据进行排序，并根据排序结果选择预设数量的视频数据作为视频级检索结果。

S293，按照细粒度相似度，从每个候选视频中，选择预设数量个余弦相似度最高的细粒度候选片段作为待选片段。

需要说明的是，预设数量k可以是10、5、12等，在本实施方式中不作具体限定。步骤S293中余弦相似度为细粒度候选片段与待查询文本间的余弦相似度，其计算方式可以参见上文步骤S27中的计算方式，本实施方式中，不再赘述。

S294，按照余弦相似度，将所有待选片段进行排序，并根据排序结果选择预设数量的待选片段作为片段级检索结果。

通过上述步骤S291至S292，得到视频级检索结果，通过上述步骤S293至步骤S294得到片段级检索结果。并且，针对不同的检索需求(视频级检索和片段级检索)，提出了多种检索排序策略，具有使用灵活性，能够适用多种使用场景。

为了测试本申请提供的检索算法(模型)的检索结果，以验证本申请提供的多粒度视频检测方法的性能。本申请中还提供了测试案例。

在测试时，针对视频级检索和视频片段级检索，分别采用了两种评估指标。对于视频级检索，可以采用R@K指标，包括R@1，R@5，R@10，R@100等，表示在所有待查询文本中对候选视频的检索排序结果前K项包含真实目标项的比例。对于片段级检索，可以采用带IoU(交并比)阈值的R@K指标，其中的IoU阈值包括0.3，0.5和0.7三种，表示在所有查询文本中，对视频候选片段的排序结果前K项中至少存在一项与真实目标项的IoU大于阈值的比例。

测试场景一

在Charades-STA数据集上进行模型训练和测试，并与以往方法做效果对比。Charades-STA数据集共包含6670条视频，这些视频涉及各种室内活动，视频平均长度为30.0秒，每个视频平均对应2.4个自然语言文本描述，每个文本描述都对应某个视频中的一个具体片段，这些片段的平均长度为8.1秒。视频级检索的效果对比见表1，视频片段级检索的效果对比见表2。

表1

方法	R@1	R@5	R@10	R@100	指标和
						XML模型	1.6	6.0	10.1	46.9	64.6
DE+++模型	1.7	5.6	9.6	37.1	54.1
						ReLoCLNet模型	1.2	5.4	10.0	45.6	62.3
RIVRL模型	1.6	5.6	9.4	37.7	54.3
						MS-SL模型	1.8	7.1	11.8	47.7	68.4
检索算法(模型)	2.4	7.7	12.8	49.8	72.7

表2

由上述表1和表2可知，本申请提供的检索算法在Charades-STA数据集，视频级检索和片段级检索的性能均优于现有的模型(包括XML模型、DE+++模型、ReLoCLNet模型、RIVRL模型和MS-SL模型等)。

测试场景二

在Activitynet-Captions数据集上进行模型训练和测试，并与以往方法做效果对比。Activitynet-Captions数据集共包含2万余条视频，这些视频涉及200种不同类型的室内和室外活动，视频平均长度为117.6秒，与视频对应的有10万余条自然语言文本描述，这些文本描述均对应某个视频中的某个具体片段，这些片段平均长度为36.2秒。视频级检索的效果对比见表3，视频片段级检索的效果对比见表4。

表1

方法	R@1	R@5	R@10	R@100	指标和
						XML模型	5.3	19.4	30.6	73.1	128.4
DE+++模型	5.3	18.4	29.2	68.0	121.0
						ReLoCLNet模型	5.7	18.9	30.0	72.0	126.6
RIVRL模型	5.2	18.0	28.2	66.4	117.8
						MS-SL模型	7.1	22.5	34.7	75.8	140.1
检索算法(模型)	6.8	22.7	34.8	76.1	140.5

表2

/>

由上述表3和表4可知，本申请提供的检索算法Activitynet-Captions数据集上，视频级检索和片段级检索的性能也均优于现有的模型(包括XML模型、DE+++模型、ReLoCLNet模型、RIVRL模型和MS-SL模型等)。

测试场景三

在Charades-STA数据集上，使用本申请提出的多粒度视频检索方法，对于给定查询文本进行多粒度视频内容检索的实际结果。如图9所示，对于给定的两个查询文本，本申请提出的多粒度视频检索方法均成功地将正确的目标视频排序在了第一位，并且对于每个候选视频，均给出了与查询文本相关性较高的片段。

优选的，由于本申请提出的多粒度视频检索方法采用基于相似度排名的检索方法，因此排在靠前位置的候选视频均表现出与查询文本的语义相关性。

基于与上述多粒度视频检索方法相同的构思，在一种可能的实施方式中，提供了一种多粒度视频检索装置40，参照图10，可以包括预处理模块401、特征获取模块402、输入模块403、检索处理模块404和结果获取模块405。

预处理模块401，用于对待查询文本进行处理，得到待查询文本对应的句子级文本特征。

特征获取模块402，用于获取视频库中每个视频数据的特征信息。其中，所述特征信息包括粗粒度视频特征和细粒度视频特征，粗粒度视频特征为对所述细粒度视频特征进行下采样得到。

输入模块403，用于将句子级文本特征输入预先训练的检索算法。

检索处理模块404，用于通过检索算法，基于句子级文本特征和特征信息，进行多中心和多尺度的双分支协同特征处理，得到待查询文本与每个所述视频数据间的相似度数据。其中，相似度数据包括粗粒度相似度和细粒度相似度。

结果获取模块405，用于根据相似度数据，得到检索结果。其中，检索结果包括视频级检索对应的整体级视频和片段级检索对应的片段级视频。

在一种可能的实施方式中，还包括训练模块，训练模块用于执行上述步骤S10至S17的训练步骤，来得到成熟的检索算法。

上述多粒度视频检索装置40中，通过预处理模块401、特征获取模块402、输入模块403、检索处理模块404和结果获取模块405的协同作用，对待查询文本进行处理得到对应的句子级文本特征，并获取视频库中每个视频数据的粗粒度视频特征和细粒度视频特征，将句子级文本特征输入预先训练的检索算法，从而通过该检索算法，基于句子级文本特征以及视频库中每个视频数据的粗粒度视频特征和细粒度视频特征，进行多中心和多尺度的双分支协同特征处理，得到待查询文本与每个视频数据间的相似度数据，并根据该相似度数据得到包括视频级检索对应的整体级视频和片段级检索对应的片段级视频的检索结果，通过多粒度和多方向上的双分支混合协同进行视频级检索和片段级检索，从而能够提高检索召回率和对视频中目标片段的定位精度，提升检索精度。

关于多粒度视频检索装置40的具体限定可以参见上文中对于多粒度视频检索方法的限定，在此不再赘述。上述多粒度视频检索装置40中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备50中的处理器中，也可以以软件形式存储于电子设备50的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一种实施方式中，提供了一种电子设备50，其内部结构图可以如图11所示。该电子设备50包括通过系统总线连接的处理器、存储器、通信接口和输入装置。其中，该电子设备50的处理器用于提供计算和控制能力。该电子设备50的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备50的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该计算机程序被处理器执行时实现如上述实施方式提供的多粒度视频检索方法。

图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的电子设备50的限定，具体的电子设备50可以包括比图11中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一种实施方式中，本发明提供的应用于被部署设备的多粒度视频检索装置40可以实现为一种计算机程序的形式，计算机程序可在如图11所示的电子设备50上运行。电子设备50的存储器中可存储组成该多粒度视频检索装置40的各个程序模块，比如，图10所示的预处理模块401、特征获取模块402、输入模块403、检索处理模块404和结果获取模块405。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的多粒度视频检索方法中的步骤。

例如，图11所示的电子设备50可以通过如图10所示的多粒度视频检索装置40中的预处理模块401执行步骤S21。电子设备50可以通过特征获取模块402执行步骤S23。电子设备50可以通过输入模块403执行步骤S25。电子设备50可以通过检索处理模块404执行步骤S27。电子设备50可以通过结果获取模块405执行步骤S29。

在一种实施方式中，提供了一种电子设备50，包括：处理器和存储器，该存储器用于存储一个或多个程序；当一个或多个程序被处理器执行时，实现以下步骤：对待查询文本进行处理，得到待查询文本对应的句子级文本特征；获取视频库中每个视频数据的特征信息；将句子级文本特征输入预先训练的检索算法；通过检索算法，基于句子级文本特征和特征信息，进行多中心和多尺度的双分支协同特征处理，得到待查询文本与每个视频数据间的相似度数据；根据相似度数据，得到检索结果。

在一种实施方式中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如下步骤：对待查询文本进行处理，得到待查询文本对应的句子级文本特征；获取视频库中每个视频数据的特征信息；将句子级文本特征输入预先训练的检索算法；通过检索算法，基于句子级文本特征和特征信息，进行多中心和多尺度的双分支协同特征处理，得到待查询文本与每个视频数据间的相似度数据；根据相似度数据，得到检索结果。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多粒度视频检索方法，其特征在于，所述方法包括：

将所述句子级文本特征输入预先训练的检索算法；

2.根据权利要求1所述的多粒度视频检索方法，其特征在于，所述检索算法包括浏览分支和凝视分支；

3.根据权利要求1或2所述的多粒度视频检索方法，其特征在于，所述方法还包括训练得到检索算法的步骤，包括：

4.根据权利要求3所述的多粒度视频检索方法，其特征在于，所述结合所述训练样本对的粗粒度视频样本特征和句子级文本特征，从所述多个粗粒度样本候选片段中得到粗粒度样本最优片段，并计算出所述训练视频与所述训练查询文本间的粗粒度相似度的步骤，包括：

5.根据权利要求3所述的多粒度视频检索方法，其特征在于，所述结合所述训练样本对的细粒度视频样本特征和句子级文本特征，从所述多个细粒度样本候选片段中得到细粒度样本最优片段，并计算出所述训练视频与所述训练查询文本间的细粒度相似度的步骤，包括：

6.根据权利要求3所述的多粒度视频检索方法，其特征在于，所述基于所述粗粒度相似度和所述细粒度相似度，结合所有所述训练样本中的训练视频，计算关于粗粒度的第一对比学习损失和关于细粒度的第二对比学习损失的步骤，包括：

7.根据权利要求3所述的多粒度视频检索方法，其特征在于，所述基于所述初始Transformer模型，对所述帧级特征进行处理，得到细粒度视频样本特征和粗粒度视频样本特征的步骤，包括：

8.根据权利要求2所述的多粒度视频检索方法，其特征在于，所述根据所述相似度数据，得到检索结果的步骤，包括：

9.根据权利要求1或2所述的多粒度视频检索方法，其特征在于，所述对待查询文本进行处理，得到所述待查询文本对应的句子级文本特征的步骤，包括：

10.一种多粒度视频检索装置，其特征在于，包括预处理模块、特征获取模块、输入模块、检索处理模块和结果获取模块；