CN115408558A

CN115408558A - 基于多尺度多示例相似度学习的长视频检索方法及装置

Info

Publication number: CN115408558A
Application number: CN202211015314.XA
Authority: CN
Inventors: 王勋; 董建锋; 陈先客; 卓越; 周迪; 姚康; 余浙东
Original assignee: Wasu Media & Network Co ltd; Zhejiang Uniview Technologies Co Ltd; Zhejiang Gongshang University
Current assignee: Wasu Media & Network Co ltd; Zhejiang Uniview Technologies Co Ltd; Zhejiang Gongshang University
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-29

Abstract

本发明公开了基于多尺度多示例相似度学习的长视频检索方法及装置，该方法获取视频和文本初步特征；使用从粗到细的编码方式，从视频的片段尺度和帧尺度提取不同时间粒度的信息；基于两种尺度的视频表示，使用片段尺度相似度学习分支筛选出和文本最相关的视频片段并得到片段尺度相似度；使用帧尺度相似度学习分支以筛选出的最相关视频片段作为向导来聚合视频特征来得到更加精细的视频信息，并与文本进行相似度计算后得到帧尺度相似度；利用公共空间学习算法来学习长视频和文本间的多尺度相似度，以端到端的方式训练模型，实现文本到长视频的检索。本发明利用了多尺度多示例学习的思想，能有效解决所提出的文本到长视频的检索任务。

Description

基于多尺度多示例相似度学习的长视频检索方法及装置

技术领域

本发明涉及视频跨模态检索技术领域，尤其涉及一种基于多尺度多示例相似度学习的长视频检索方法及装置。

背景技术

随着大数据时代的到来，每天都有数以百万计的视频被上传至互联网。用户从大数据中检索视频的需求日益增加，由于用户普遍以自然语言查询来表达他们的信息需求，因此对文本到视频检索的研究非常重要。给定一个自然语言句子形式的查询，传统的文本到视频检索的任务要求从视频库中检索与给定查询语义相关的视频。

传统的文本到视频检索的方法基本是在面向视频描述生成的数据集上进行训练的。在这些数据集中的视频经过预剪辑，并且提供的文本很好地描述了视频内容的要点。因此，预剪辑后的短视频内容和对应文本完全相关。然而在现实中，由于用户的文本查询不是先验的，被查询的目标视频并未经过剪辑且内容可能较长，该类长视频中只有部分内容与用户的文本查询相关。这导致传统的文本到视频检索的方法在现实应用时会表现不佳。基于以上结论，本发明提出相较于传统文本到视频检索任务更加面向实际应用情况的长视频检索任务。该任务旨在从大量未经剪辑的持续时间较长的视频中检索出与查询文本呈部分相关的目标视频。由于传统的文本到视频检索任务无需考虑文本与视频间的部分相关关系，其模型一般的构建方法为将视频和文本进行预先编码并映射到公共空间进行跨模态的相似度计算。因此传统的视频检索模型侧重于视频与文本编码器的设计以及跨模态相似度学习算法的设计，而长视频检索任务需要模型更加侧重查询文本与对应长视频间存在的部分相关关系的挖掘与衡量。

发明内容

本发明目的在于针对传统的文本到视频检索的任务在现实中的局限性，提出一种基于多尺度多示例相似度学习的长视频检索方法及装置，待检索的长视频中既包含与对应文本相关的特定时刻，同时也包含大量与对应文本无关的内容。

本发明的目的是通过以下技术方案来实现的：一种基于多尺度多示例相似度学习的长视频检索方法，包括以下步骤：

(1)对查询文本和待检索视频进行特征预提取，得到初始文本特征和初始视频特征；

(2)将步骤(1)得到的初始文本特征进行编码得到文本特征表示；

(3)将步骤(1)得到的初始视频特征分别进行片段尺度特征编码和帧尺度特征编码，得到视频片段尺度特征表示和视频帧尺度特征表示；

(4)构建多尺度相似度学习网络模型，该模型包括基于片段尺度视频表示的相似度学习分支和基于帧尺度视频表示的相似度学习分支；

(5)将步骤(3)得到的视频片段尺度特征表示与步骤(2)得到的文本特征表示输入至基于片段尺度视频表示的相似度学习分支，进行相似度计算，得到视频和文本的片段尺度相似度，并检测出包含文本内容的关键视频片段；

(6)将步骤(3)得到的视频帧尺度特征表示与步骤(5)中得到的关键视频片段以及步骤(2)得到的文本特征表示输入至基于帧尺度视频表示的相似度学习分支，将视频帧尺度特征表示与关键视频片段进行聚合编码，得到聚合后的帧尺度特征表示，与文本特征表示进行相似度计算，得到视频和文本的帧尺度相似度；

(7)将步骤(5)和(6)中得到的视频和文本的片段与帧尺度相似度进行加权求和，得到最终的文本与视频相似度，并训练多尺度相似度学习网络模型；

(8)通过步骤(7)得到了一个训练好的多尺度相似度学习网络模型，将视频和文本输入到训练好的模型中来实现文本到其部分相关视频的跨模态检索。

进一步地，步骤(1)中使用不同的预训练模型来提取文本和视频的初始特征，包括如下步骤：

(1-1)利用预训练的2D和3D深度卷积网络来提取初始视频特征；

(1-2)利用预训练的大型文本特征提取器RoBERTa模型提取初始文本特征。

进一步地，步骤(2)中对在步骤(1)中得到的初始文本特征进行编码的方法包括如下步骤：

(2-1)利用全连接层对输入的初始文本特征进行降维，并对其进行位置嵌入编码后输入到transformer中进行编码；

(2-2)对步骤(2-1)编码后的文本特征，使用注意力模块进行聚合，得到最终的编码后的文本特征。

进一步地，步骤(3)中得到视频片段尺度特征表示的方法包括如下步骤：

(3-1)对步骤(1)中得到的初始视频特征进行降采样至固定大小后，利用全连接层进行降维，并对其进行位置嵌入编码后输入到transformer中进行编码；

(3-2)对步骤(3-1)中编码后的视频特征，以滑动窗口的方式进行不同视频片段大小的特征选取，得到视频片段尺度特征表示。

进一步地，步骤(3)得到视频帧尺度特征表示的方法具体为：对步骤(1)中得到的初始视频特征利用全连接层进行降维，并对其进行位置嵌入编码后输入到transformer中进行编码，得到视频帧尺度的特征表示。

进一步地，步骤(5)中得到视频与文本的片段尺度相似度的方法具体为：

将步骤(3)得到的视频片段尺度特征表示与步骤(2)得到的文本特征表示进行相似度计算，得到视频各个片段和文本的相似度，取最大值作为视频和文本的片段尺度相似度，并选取相似度最大的对应片段作为关键视频片段。

进一步地，步骤(6)中得到视频与文本的帧尺度相似度的方法具体为：

(6-1)将步骤(3)中得到的视频帧尺度特征表示使用两个不同的全连接层分别进行映射，得到两组映射后的帧尺度特征表示；

(6-2)将其中一组帧尺度特征表示与步骤(5)得到的关键视频片段进行相似度计算，得到视频各帧与关键视频片段的相似度；

(6-3)对另一组帧尺度特征表示，以步骤(6-2)中得到的视频各帧与关键视频片段的相似度为权重，对其进行加权和，得到聚合后的视频帧尺度特征表示；

(6-4)将步骤(6-3)得到的聚合后的视频帧尺度特征表示与步骤(2)得到的文本特征表示进行相似度计算，得到视频和文本的帧尺度相似度。

进一步地，所述步骤(7)中，以多示例学习的方式训练多尺度相似度学习网络模型，通过三元排序损失以及对比学习损失来学习视频和文本两个模态之间的相关性并端到端的训练多尺度相似度学习网络模型，使模型自动学习视频和文本两个模态之间的相关性。

进一步地，所述步骤(8)具体为：

(8-1)将查询文本进行特征表示，所有候选视频进行片段和帧尺度特征表示；

(8-2)将文本和视频的特征表示输入到训练好的多尺度相似度学习网络模型，计算查询文本和所有候选视频的片段以及帧尺度相似度，并根据两相似度加权和对候选视频进行排序，返回检索结果。

另一方面，本发明提供了一种基于多尺度多示例相似度学习的长视频检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现所述的基于多尺度多示例相似度学习的长视频检索方法。

本发明的有益效果：本发明提供了一种基于多尺度多示例相似度学习的长视频检索方法及装置。方法中长视频被表示为多个片段尺度和帧尺度的特征，在对长视频进行多尺度表示后，将其输入到多尺度相似度学习网络中。多尺度相似度学习网络包括基于片段尺度视频表示的相似度学习分支和基于帧尺度视频表示的相似度学习分支。基于片段尺度视频表示的相似度学习分支中将检测出长视频关键片段。然后根据长视频关键片段与查询文本之间的相似度计算片段尺度相似度。此外，关键片段用作基于帧尺度视频表示分支的编码向导，用于测量细时间尺度中每个帧的重要性，并将所有帧的特征表示加权和为单一特征表示。计算得到的单一特征表示与查询文本间的相似度作为帧尺度相似度。最后，使用片段尺度相似度和帧尺度相似度来联合度量长视频与查询文本的相似度。本发明的方法利用了多尺度多示例学习的思想，多尺度的特征表示有助于处理长视频与对应文本不同长度的相关片段。同时本发明模型网络中的帧尺度相似性学习分支与片段尺度相似性学习分支对长视频表示有着相互辅助的效果，在片段尺度相似性学习分支对视频理解可能存在不足的情况下，帧尺度相似性学习分支可以帮助片段尺度相似性学习分支补充缺失信息。本发明提出的网络模型利用以上的分支模块，能深度建模文本和对应长视频间的部分相关关系，从而有效解决文本到长视频的检索任务。

附图说明

图1为本发明提供的一种基于多尺度多示例相似度学习的长视频检索方法示意图。

图2为本发明的多尺度相似度学习模块结构示意图。

图3为本发明实施例检索示例示意图。

图4为本发明提供的一种基于多尺度多示例相似度学习的长视频检索装置结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

针对面向实际应用情况的长视频检索的任务，本发明提出了一种基于多尺度多示例相似度学习的长视频检索方法，该方法能有效挖掘长视频与其对应文本的部分相关性。方法中长视频被表示为多个片段尺度和帧尺度的特征，多尺度的特征表示有助于处理长视频与对应文本不同长度的相关片段。在对长视频进行多尺度表示后，将其输入到多尺度相似度学习网络中。该网络中，由于片段尺度通常代表视频中较长持续时间的时刻，被视为粗时间粒度的视频表示。对应地，帧尺度反映了更详细的视频内容，被视为细时间粒度的视频表示。多尺度相似度学习网络包括基于片段尺度视频表示的相似度学习分支和基于帧尺度视频表示的相似度学习分支。它们以从粗到细的方式共同学习视频表示并且两个相似性学习分支存在信息交互。基于片段尺度视频表示的相似度学习分支中将检测出长视频关键片段。然后根据长视频关键片段与查询文本之间的相似度计算片段尺度相似度。此外，关键片段用作基于帧尺度视频表示分支的编码向导，用于测量细时间尺度中每个帧的重要性，并将所有帧的特征表示加权和为单一特征表示。计算得到的单一特征表示与查询文本间的相似度作为帧尺度相似度。最后，使用片段尺度相似度和帧尺度相似度来联合度量长视频与查询文本的相似度。如图1和图2所示，本发明具体步骤如下：

(1)利用不同的特征提取方法分别提取视频和文本这两种模态的特征。

(1-1)给定一句由n_q个单词所组成的句子，使用预训练的RoBERTa模型来提取单词的特征向量集合

作为文本的初始特征，

表示第n_q个单词的特征向量。

(1-2)给定一个视频，首先预先指定间隔为1.5秒的视频帧序列，得到n_v个视频帧。使用在ImageNet上预训练的2D深度卷积网络ResNet152，以及在Kinetics上预训练的3D深度卷积网络I3D进行视频帧序列的特征提取，

作为视频的初始特征向量集合，

表示第n_v个视频帧的初始特征向量。

通过上述步骤的特征提取，分别得到了视频和文本的初始特征，接下来需要对其进行更深层次的特征表示。

(2)首先将步骤(1)中得到的文本初始特征输入到句子特征表示模块进行编码，具体步骤如下：

(2-1)通过全连接层(FC)以及ReLu激活函数将768维的文本初始特征降维至384维，并对降维后的文本特征进行位置嵌入编码。

(2-2)将步骤(2-1)中得到的文本特征输入到transformer中来捕捉其上下文信息，在transformer中，文本特征依次通过多头自注意力层以及前馈层，并且上述两编码层都附带了残差连接和层归一化操作，即：

Q′＝Transformer(ReLu(FC(Q))+PE)

以上公式中Transformer代表标准transformer模块，PE代表位置嵌入编码模块。

(2-3)通过注意力机制将步骤(2-2)得到的文本特征

聚合维单一文本特征向量。使用权重向量w与Q′进行点乘并通过Softmax层，得到n_q个权重αq。使用计算出的权重对文本特征Q′进行加权和，得到最终的文本特征q，即：

α^q＝Softmax(w^TQ′)

(3)将步骤(1)中得到的视频初始特征输入到片段尺度视频表示模块进行编码，具体步骤如下：

(3-1)在构建视频片段之前，首先在时域中对输入进行降采样，以减少视频初始特征序列的长度，并有助于降低编码模块的计算复杂度。对于视频初始特征

将其降采样为长度为n_u的特征向量

表示第n_u个视频特征向量。

(3-2)将步骤(3-1)中经下采样得到的视频特征向量U使用全连接层和ReLu激活函数进行降维，同时进行位置嵌入编码。进一步地，将其输入到与步骤(2-2)中结构相同的transformer中来捕捉其上下文信息，得到编码后的视频特征向量U′，即：

U′＝Transformer(ReLu(FC(U))+PE)

(3-3)使用不同尺寸的滑动窗口以步长为1的幅度沿时间维度遍历

在遍历过程中通过对落在滑动窗口内的特征进行平均池化来获得对应大小的视频段特征序列φ_k。其形象化过程如图1中片段构造模块所示。通过同时使用大小从1至n_u的滑动窗口，得到视频段特征序列集合

表示使用大小为n_u的滑动窗口遍历视频片段特征后得到的视频段特征序列集合，将视频段特征序列集合展开后得到最终的视频段特征序列

n_c＝n_u(n_u+1)/2。

(4)将步骤(1)中得到的视频初始特征输入到帧尺度视频表示模块进行编码，具体步骤如下：

(4-1)通过全连接层(FC)以及ReLu激活函数将3072维的视频初始特征降维至384维，并对降维后的视频特征进行位置嵌入编码(PE)。

(4-2)将其输入到与步骤(2-2)中结构相同的transformer中来捕捉其上下文信息，得到视频的帧尺度特征序列F，即：

F＝Transformer(ReLu(FC(V))+PE)

以上步骤中句子特征表示编码模块、视频片段尺度特征表示编码模块以及视频帧尺度特征表示编码模块所使用的全连接层(FC)、位置嵌入编码(PE)以及transformer编码模块的结构均相同，但不共享参数。

通过以上步骤，得到了文本的特征表示

视频的片段尺度特征序列

以及视频的帧尺度特征序列

由于在训练中并没有提供文本在其对应长视频中的具体位置，因此在细粒度范围内直接进行相似度计算难度较大。所以接下来，构建包括基于片段尺度视频表示的相似度学习分支和基于帧尺度视频表示的相似度学习分支的多尺度相似度学习网络模型；通过多尺度相似度学习的方法，以从粗到细的计算方式来衡量文本对应长视频之间的相似度。该计算方式基于一个假设：如果模型知道长视频与对应文本粗略相关的内容，则其能帮助模型在更细粒度的范围内准确地找到更多相关内容。首先检测长视频中与文本最相关的关键视频片段，以关键视频片段为进一步指导，在细粒度的时间尺度上衡量长视频每帧的重要性。并联合考虑查询文本与长视频的片段尺度与帧尺度相似度作为最终相似度。

(5)将步骤(3-3)中得到的视频段特征序列C与步骤(2-3)得到的文本特征表示q输入至基于片段尺度视频表示的相似度学习分支，进行相似度计算，对于C中的每个视频段特征c_i,与q计算余弦相似度，取最大值作为视频片段尺度相似度S_c(v，q)，并取其对应的视频段特征

作为关键视频片段特征。即：

(6)将步骤视频帧尺度特征表示与关键视频片段特征以及文本特征表示输入至基于帧尺度视频表示的相似度学习分支，计算视频帧尺度相似度，具体步骤如下：

(6-1)将步骤(4-2)中得到的视频帧尺度的特征序列F通过可学习的映射矩阵

和

分别映射为键(key)特征序列K和值(value)特征序列Z，即：

K＝W_kF，Z＝W_vF

(6-2)将步骤(5)中得到的关键视频段特征

作为查询(query)特征与步骤(6-1)中得到的键特征序列进行点乘，并输入Softmax层，得到视频帧尺度特征的聚合权重。点乘衡量视频帧和关键视频片段之间的相似性，因此，与关键视频片段更相似的视频帧将具有更大的聚合权重。最后使用聚合权重将步骤(6-1)中得到的值特征序列进行聚合，得到视频帧尺度特征表示向量

计算r与文本特征表示q的余弦相似度作为视频帧尺度相似度S_f(v，q)，即：

S_f(v，q)＝cos(r，q)

通过以上步骤，得到了文本与视频的片段尺度相似度S_c(v，q)以及帧尺度相似度S_f(v，q)，接着利用公共空间学习算法来学习两个文本与视频模态之间的相关性并训练多尺度相似度学习网络模型，具体步骤如下：

(7-1)在多示例学习中，一个样本被视为由大量示例所组成的包，若包中的某一个或多个示例为正样本时，则该包为正样本；反之则该包为负样本。长视频整体可被视为一个包，视频中的各帧或由不同大小帧组成的片段可被视为不同示例。若文本与长视频的某帧或者某个片段相关，则视为文本与该长视频相关，所以长视频检索任务与多示例学习体现出高度相关性。根据多示例学习的定义，若一个视频包含部分与查询文本所对应的片段，则将这样的视频-文本对视为正样本对，反之则视为负样本对。基于上述定义，使用在检索任务中被广泛使用的三元组排序损失和对比学习损失来联合约束模型，三元组排序损失

的公式为：

其中m为边界常数，其值为0.1，S(·)为相似度函数，可以使用片段尺度相似度S_c(·)或者帧尺度相似度S_f(·)。q^-和v^-依次为视频v的负文本样本和文本q的负视频样本。负样本在训练开始时从小批量数据

中随机抽取n个数据，而在20个训练周期后取小批量数据

中的最难负样本。

其次，对比学习损失

的公式为：

其中

代表在小批量的数据

中视频v所对应的所有文本负样本集合，

表示其中第i个文本负样本，

代表在小批量的数据

中视频q所对应的所有视频负样本集合，

表示其中第i个视频负样本。

训练模型时使用的最终的损失

为：

其中

和

分别代表使用片段尺度相似度和帧尺度相似度的三元组排序损失，

和

分别代表使用片段尺度相似度和帧尺度相似度的对比学习损失。设置λ₁＝0.02，λ₂＝0.04来平衡各损失在训练开始时的初始权重。

(8)通过以上步骤得到了一个训练好的多尺度相似度学习网络模型，其实现文本到其部分相关视频的跨模态检索的具体步骤如下：

(8-1)输入文本与一组候选视频，对于文本与某一候选视频，计算文本与其片段尺度相似度S_c(v，q)以及帧尺度相似度S_f(v，q)并进行加权和，作为最终的文本与其相似度S(v，q)，即：

S(v，q)＝α*S_c(v，q)+(1-α)*S_f(v，q)

经过实验对α的大小进行从0-1的调整后，结果表明α为0.7时网络模型的性能达到最佳。

(8-2)将文本与所有候选视频的相似度进行排序，取相似度最好的结果作为最终返回的检索结果，以此来实现文本到其部分相关视频的跨模态检索任务。

实施实例

本发明选取当前在研究中使用较为广泛的电视节目视频检索数据集(TV showRetrieval Dataset)来训练本发明所提出的网络模型，以此证明本发明在实际应用中的有效性。电视节目视频检索数据集从6个大型电视节目中截取了约2.2万个长视频，每个长视频对应5个特定的描述语句。其描述语句仅包含了对应长视频中部分片段的内容，符合现实应用中的长视频检索场景。图3为本发明所提出的网络模型经过训练后在电视节目视频检索数据集上的检索示例。

给出查询文本1：莫妮卡穿上了一件灰色格子衬衫。本发明提出的网络模型首先查询文本编码为单独的特征表示，接着对视频库中所有候选视频进行片段尺度的特征表示，即每个视频将会得出多个候选片段。将文本的特征表示与每个视频的多个候选片段进行相似度计算后，对于每个视频，取相似度最大的候选片段作为该视频的关键片段。同时保留对应相似度作为文本与该视频的片段尺度相似度。再而取每个视频的关键片段对每个视频进行帧尺度的特征表示并与文本特征计算相似度，得到文本与每个视频的帧尺度相似度。最终查询文本和每个视频的片段尺度相似度与帧尺度相似度进行加权和后，得到查询文本和视频库中所有候选视频的相似度。进行排序后得到最终的查询结果。可以看到在图3中，对于查询文本1，本发明的网络模型返回的关键片段与查询文本在视频中所对应的正确片段完全重合。并且查询文本1所对应的视频在所有候选视频中最终的相似度得分排名为第2名。查询文本2同理。

特别地是，对于查询文本3：钱德勒和莫妮卡在怀里哄着他们的孩子。网络模型所给出的关键片段仅只有两帧，但是查询文本在视频中所对应的正确片段为前10帧，两者只有很小的重叠，此时正确片段中的大多数帧显示出相对较高的相似度。所以查询文本3所对应的视频在所有候选视频中最终的相似度得分排名为第1名。这表明本发明模型网络中的帧尺度相似性学习分支可以帮助片段尺度相似性学习分支补充缺失信息。查询文本4和查询文本3同理。

与前述基于多尺度多示例相似度学习的长视频检索方法的实施例相对应，本发明还提供了基于多尺度多示例相似度学习的长视频检索装置的实施例。

参见图4，本发明实施例提供的一种基于多尺度多示例相似度学习的长视频检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的基于多尺度多示例相似度学习的长视频检索方法。

本发明基于多尺度多示例相似度学习的长视频检索装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明基于多尺度多示例相似度学习的长视频检索装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于多尺度多示例相似度学习的长视频检索方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(1)中使用不同的预训练模型来提取文本和视频的初始特征，包括如下步骤：

(1-1)利用预训练的2D和3D深度卷积网络来提取初始视频特征；

3.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(2)中对在步骤(1)中得到的初始文本特征进行编码的方法包括如下步骤：

4.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(3)中得到视频片段尺度特征表示的方法包括如下步骤：

5.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(3)得到视频帧尺度特征表示的方法具体为：对步骤(1)中得到的初始视频特征利用全连接层进行降维，并对其进行位置嵌入编码后输入到transformer中进行编码，得到视频帧尺度的特征表示。

6.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(5)中得到视频与文本的片段尺度相似度的方法具体为：

7.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，步骤(6)中得到视频与文本的帧尺度相似度的方法具体为：

(6-3)对另一组帧尺度特征表示，以步骤(6-2)中得到的视频各帧与关键视频片段的相似度为权重，对视频各帧的特征表示进行加权和，得到聚合后的视频帧尺度特征表示；

8.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，所述步骤(7)中，以多示例学习的方式训练多尺度相似度学习网络模型，通过三元排序损失以及对比学习损失来学习视频和文本两个模态之间的相关性并以端到端的训练多尺度相似度学习网络模型，使模型自动学习视频和文本两个模态之间的相关性。

9.根据权利要求1所述的一种基于多尺度多示例相似度学习的长视频检索方法，其特征在于，所述步骤(8)具体为：

10.一种基于多尺度多示例相似度学习的长视频检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1-9中任一项所述的基于多尺度多示例相似度学习的长视频检索方法。