CN117609553B

CN117609553B - 基于局部特征增强和模态交互的视频检索方法及系统

Info

Publication number: CN117609553B
Application number: CN202410093675.9A
Authority: CN
Inventors: 张东霖; 王治文; 吴小俊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-03-22
Anticipated expiration: 2044-01-23
Also published as: CN117609553A

Abstract

本发明提供一种基于局部特征增强和模态交互的视频检索方法及系统，涉及跨模态视频检索技术领域，该方法包括根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征；获取时序化帧图像特征并进行平均池化得到视频特征，将视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强；将文本分词特征和文本关键词特征进行特征融合，实现文本局部特征增强；将时序化帧图像特征和文本全局特征进行跨模态的交互，生成文本条件的视频特征；采用多粒度匹配的策略进行层次化的视频文本匹配。本发明通过局部特征增强和模态交互，可以提高视频检索性能。

Description

基于局部特征增强和模态交互的视频检索方法及系统

技术领域

本发明涉及跨模态视频检索技术领域，尤其涉及一种基于局部特征增强和模态交互的视频检索方法及系统。

背景技术

随着移动设备和互联网的快速发展，文本视频检索这一典型的多模态任务越来越受到人们的关注。该任务旨在根据与特定文本（或视频）的相关性对集合中的视频(或文本)进行排序，这使得用户能够准确快速地找到所需的视频。在过去的几十年里，随着深度学习技术的不断进步，视频检索领域取得了显著的进步。

近年来，基于对比文本-图像对的预训练模型（Contrastive Language-ImagePre-training，CLIP）的视频检索技术取得了显著成功。现有的主流方法首先对视频帧进行均匀取样，然后通过CLIP编码器获得帧图像表征以及文本表征，视频表征通过对帧图像表征聚合得到，最终计算视频表征与文本表征的相似度完成视频检索。在该类工作中，通常将帧图像特征输入到时序编码器后进行平均池化，获得视频表征用于视频检索。然而该类工作仍然存在一定的缺陷，首先由于CLIP是在图像文本数据集上训练的，而图像与视频之间存在模态差异，直接使用编码器输出的原始表征进行视频检索会影响性能；另外，视频与文本的对应关系是一对多的，视频与文本两个模态之间交互不足，也会限制模型的检索性能。

发明内容

为此，本发明实施例提供了一种基于局部特征增强和模态交互的视频检索方法及系统，用于解决现有技术中视频检索方法中存在的原始特征匹配效率低、缺少模态交互等问题。

为了解决上述问题，本发明实施例提供一种基于局部特征增强和模态交互的视频检索方法，该方法包括：

S1：根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征；

S2：根据帧图像特征和时序编码器，对帧图像特征进行时序建模，得到时序化帧图像特征，并进行平均池化得到视频特征，将视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强，获得增强后的视频局部特征；

S3：根据文本分词特征和文本关键词特征，进行特征融合，实现文本局部特征增强，获得增强后的文本局部特征；

S4：根据时序化帧图像特征和文本全局特征，进行跨模态的交互，生成文本条件的视频特征；

S5：根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配。

优选地，所述根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征，具体包括：

根据输入的视频数据，按固定速率对视频帧进行均匀取样，将取样的帧图像输入视频编码器中，获得编码后的帧图像特征；

根据输入的文本数据，使用KeyBert提取文本数据中的关键词，将提取的关键词数据输入到关键词编码器中，获得文本关键词特征；

根据输入的文本数据，使用文本编码器，获得文本分词特征和文本全局特征。

优选地，所述文本编码器与所述关键词编码器具有相同的网络结构并且在训练过程中共享参数。

优选地，所述根据视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强，获得增强后的视频局部特征，具体包括：

将视频特征与时序化帧图像特征进行特征级联后，输入到长短期记忆网络中进行充分的融合交互，从而达到局部特征语义增强的目的，使之更好地适应视频检索任务；另一方面，采用自适应权重层来减少不相关内容对最终对齐的影响，所述自适应权重层由两个全连接层、自注意力层以及Sigmoid激活层构成；最终，使用预测的权重进行分配，获得增强后的视频局部特征。

优选地，所述根据文本分词特征和文本关键词特征，进行特征融合，实现文本局部特征增强，获得增强后的文本局部特征，具体包括：

使用交叉注意力机制通过文本关键词特征的引导对文本分词特征进行局部特征增强：

w^e= CrossAtten(w·W_K, w·W_V, w^k·W_Q)；

其中，w和w^k分别为文本分词特征和文本关键词特征；W_K、W_V 以及W_Q为对应的投影矩阵；CrossAtten()为交叉注意力机制；w^e为增强后的文本局部特征。

优选地，所述根据时序化帧图像特征和文本全局特征，进行跨模态的交互，生成文本条件的视频特征，具体包括：

使用交叉注意力机制通过文本全局特征的引导对时序化帧图像特征进行条件池化：

v = CrossAtten(f·W^′ _K, f· W^′ _V, t · W^′ _Q)；

其中，f和t分别为时序化帧图像特征和文本全局特征；W^′ _K、W^′ _V 以及W^′ _Q分别为对应的投影矩阵；CrossAtten()为交叉注意力机制；v为文本条件池化后的视频特征。

优选地，所述根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配，具体包括：

将增强后的视频局部特征和增强后的文本局部特征进行细粒度相似度计算；

将文本条件的视频特征与文本全局特征进行粗粒度的相似度计算；

将两个粒度的相似度相加得出最终的视频文本相似度。

本发明实施例还提供了一种基于局部特征增强和模态交互的视频检索系统，该系统用于实现上述所述的基于局部特征增强和模态交互的视频检索方法，具体包括：

特征提取模块，用于根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征；

视频局部特征增强模块，用于根据帧图像特征和时序编码器，对帧图像特征进行时序建模，得到时序化帧图像特征，并进行平均池化得到视频特征，将视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强，获得增强后的视频局部特征；

文本局部特征增强模块，用于根据文本分词特征和文本关键词特征，进行特征融合，实现文本局部特征增强，获得增强后的文本局部特征；

文本条件的视频特征生成模块，用于根据时序化帧图像特征和文本全局特征，进行跨模态的交互，生成文本条件的视频特征；

视频文本匹配模块，用于根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配。

本发明实施例还提供了一种电子设备，所述电子设备包括处理器、存储器和总线系统，所述处理器和存储器通过该总线系统相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现上述所述的基于局部特征增强和模态交互的视频检索方法。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机软件产品，所述计算机软件产品包括的若干指令，用以使得一台计算机设备执行上述所述的基于局部特征增强和模态交互的视频检索方法。

从以上技术方案可以看出，本发明申请具有以下优点：

本发明提供了一种基于局部特征增强和模态交互的视频检索方法及系统，本发明针对视频以及文本两种模态，提出了两种不同的细粒度特征增强策略，分别利用视频特征以及文本关键词特征作为锚点进行特征增强，有效地缓解了CLIP编码器原始特征匹配效率低的缺陷。另外，针对文本与视频表达内容不一致的问题，提出了跨模态交互，使文本模态和视频模态得到充分交互，提高了模型的检索性能。

附图说明

为了更清楚地说明本发明实施案例或现有技术中的技术方案，下边将对实施例中所需要使用的附图做简单说明，通过参考附图会更清楚的理解本发明的特征和优点，附图是示意性的而不应该理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1为实施例中提供的一种基于局部特征增强和模态交互的视频检索方法的流程图；

图2为本发明方法的示意图；

图3为实施例中视频局部增强网络的示意图；

图4为实施例中提供的一种基于局部特征增强和模态交互的视频检索系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案与优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

为了克服现有视频检索方法中存在的原始特征匹配效率低、缺少模态交互等问题，如图1、图2所示，本发明实施例提出一种基于局部特征增强和模态交互的视频检索方法，该方法包括：

从上述技术方案可知，本发明提供了一种基于局部特征增强和模态交互的视频检索方法，首先根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征。其次对帧图像特征进行时序建模并进行平均池化得到视频特征，并通过融合策略增强视频局部特征；对于文本模态，首先将文本分词特征与文本关键词特征进行融合，实现文本局部特征增强。最后进行跨模态的交互，生成文本条件的视频特征，并计算粗粒度相似度和细粒度相似度信息。本发明针对视频以及文本两种模态，提出了两种不同的细粒度特征增强策略，分别利用视频特征以及文本关键词特征作为锚点进行特征增强，有效地缓解了CLIP编码器原始特征匹配效率低的缺陷。另外，针对文本与视频表达内容不一致的问题，提出了跨模态交互，使文本模态和视频模态得到充分交互，提高了模型的检索性能。

具体地，在视频处理分支中，首先按照1FPS的速率对视频帧进行均匀取样，将取样的帧图像输入到CLIP参数初始化的视频编码器中，进而获得编码后的帧图像特征。当前特征仅仅获取了帧图像的空间信息，因此将获得的帧图像特征输入到时序编码器中进行时序建模，建立视频帧之间的时序信息，即获得时序化帧图像特征。

进一步地，将带有时序信息的帧图像特征进行平均池化，获得视频特征，用来引导局部特征进行语义增强。图3展示了视频局部增强网络的示意图。

具体地，将视频级特征与局部特征（时序化帧图像特征）进行级联后，输入到长短期记忆网络（Long Short-Term Memory，LSTM）中进行充分的融合交互，从而达到局部特征语义增强的目的，使之更好地适应视频检索任务。另一方面，视频与文本通常是部分匹配的，盲目的进行视频文本的对齐是不可取的，为此本发明提出了自适应权重层来减少不相关内容对最终对齐的影响，具体结构如图3所示，自适应权重层由两个全连接层、自注意力层以及Sigmoid激活层构成。最终，使用预测的权重进行分配，获得增强后的视频局部特征。

在文本处理分支中，与视频分支不同，首先使用KeyBert 提取文本数据的关键词，将分词后的文本和关键词输入到CLIP参数初始化的文本编码器和关键词编码器中，其中文本编码器与关键词编码器有着相同的网络结构并且在训练过程中共享参数，然后会获得三类文本特征，包括由CLS Token编码得到的文本全局特征、文本分词特征以及文本关键词特征。

其中使用KeyBert 提取文本数据的关键词，具体包括：

使用paraphrase-multilingual-MiniLM-L12-v2预训练检查点初始化模型；

设置提取关键词数量为K，长度为L；

对提取出的关键词进行词形还原。

进一步地，由于文本与视频两个模态之间的异质性，本发明使用交叉注意力机制通过文本关键词特征的引导对文本分词特征进行局部特征增强：

w^e= CrossAtten(w·W_K, w·W_V, w^k·W_Q)；

进一步的，除了局部特征增强技术，本发明还提出了模态交互，根据上述获得的时序化帧图像特征以及文本全局特征并进行跨模态的交互，生成文本条件的视频特征。跨模态注意力层由Cross Attention层、两个LayerNorm层和Dropout层构成。模态交互与文本局部特征增强结构相似，使用交叉注意力机制通过文本全局特征的引导对时序化帧图像特征进行条件池化：

v = CrossAtten(f·W^′ _K, f· W^′ _V, t · W^′ _Q)；

进一步地，根据上述获得的增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配。

具体地，将增强后的视频局部特征和增强后的文本局部特征进行细粒度相似度计算；将文本条件的视频特征与文本全局特征进行粗粒度的相似度计算；将两个粒度的相似度相加得出最终的视频文本相似度，从而完成视频排序提升检索性能的目的。

实施例二

如图4所示，本发明提供一种基于局部特征增强和模态交互的视频检索系统，该系统用于实现上述实施例一的基于局部特征增强和模态交互的视频检索方法，具体包括：

特征提取模块10，用于根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征；

视频局部特征增强模块20，用于根据帧图像特征和时序编码器，对帧图像特征进行时序建模，得到时序化帧图像特征，并进行平均池化得到视频特征，将视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强，获得增强后的视频局部特征；

文本局部特征增强模块30，用于根据文本分词特征和文本关键词特征，进行特征融合，实现文本局部特征增强，获得增强后的文本局部特征；

文本条件的视频特征生成模块40，用于根据时序化帧图像特征和文本全局特征，进行跨模态的交互，生成文本条件的视频特征；

视频文本匹配模块50，用于根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配。

本实施例的一种基于局部特征增强和模态交互的视频检索系统，用于实现前述的基于局部特征增强和模态交互的视频检索方法，因此基于局部特征增强和模态交互的视频检索系统中的具体实施方式可见前文基于局部特征增强和模态交互的视频检索方法的实施例部分，例如，特征提取模块10，视频局部特征增强模块20，文本局部特征增强模块30，文本条件的视频特征生成模块40，视频文本匹配模块50，分别用于实现上述基于局部特征增强和模态交互的视频检索方法中步骤S1，S2，S3，S4，S5，所以，其具体实施方式可以参照相应的各个部分实施例的描述，为了避免冗余，在此不再赘述。

实施例三

实施例四

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于局部特征增强和模态交互的视频检索方法，其特征在于，包括：

S5：根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配；

其中所述根据时序化帧图像特征和文本全局特征，进行跨模态的交互，生成文本条件的视频特征，具体包括：

v = CrossAtten(f·W ^′ _K, f· W^′ _V , t · W^′ _Q)；

其中，f和t分别为时序化帧图像特征和文本全局特征；W ^′ _K、W^′ _V 以及W^′ _Q分别为对应的投影矩阵；CrossAtten()为交叉注意力机制；v为文本条件池化后的视频特征；

所述根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配，具体包括：

将两个粒度的相似度相加得出最终的视频文本相似度。

2.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法，其特征在于，所述根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征，具体包括：

3.根据权利要求2所述的基于局部特征增强和模态交互的视频检索方法，其特征在于，所述文本编码器与所述关键词编码器具有相同的网络结构并且在训练过程中共享参数。

4.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法，其特征在于，所述将视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强，获得增强后的视频局部特征，具体包括：

5.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法，其特征在于，所述根据文本分词特征和文本关键词特征，进行特征融合，实现文本局部特征增强，获得增强后的文本局部特征，具体包括：

w^e = CrossAtten(w·W_K, w·W_V , w^k·W_Q)；

6.一种基于局部特征增强和模态交互的视频检索系统，其特征在于，所述系统用于实现权利要求1至5任意一项所述的基于局部特征增强和模态交互的视频检索方法，具体包括：

7.一种电子设备，其特征在于，所述电子设备包括处理器、存储器和总线系统，所述处理器和存储器通过该总线系统相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现权利要求1至5任意一项所述的基于局部特征增强和模态交互的视频检索方法。

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机软件产品，所述计算机软件产品包括的若干指令，用以使得一台计算机设备执行权利要求1至5任意一项所述的基于局部特征增强和模态交互的视频检索方法。