CN117493608B

CN117493608B - 一种文本视频检索方法、系统及计算机存储介质

Info

Publication number: CN117493608B
Application number: CN202311798646.4A
Authority: CN
Inventors: 丁松涛; 王红玉; 耿淳; 杨雨晨
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-04-12
Anticipated expiration: 2043-12-26
Also published as: CN117493608A

Abstract

本申请公开了一种文本视频检索方法、系统及计算机存储介质，涉及图像处理技术领域。其中方法包括：获取文本，对文本进行编码，获得文本特征向量；生成与文本相应的图像；对图像进行编码，获得图像特征向量；将文本特征向量和图像特征向量组合，获得文本图像组合特征向量；获取视频，对视频进行编码，获得视频深度预览特征向量；确定文本图像组合特征向量和每个视频的视频深度预览特征向量的相似度，根据相似度确定与文本匹配的视频。本申请通过生成图像来增强文本表示的丰富度和维度，使文本能更全面地与视频特征进行匹配，从而提高检索的准确性。

Description

一种文本视频检索方法、系统及计算机存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种文本视频检索方法、系统及计算机存储介质。

背景技术

视频内容在互联网上的快速增长，特别是在视频平台普及的背景下，已经促使了对自动化视频内容识别、描述和检索方法的需求急剧增加。目前，大量用户每天都在观看在线视频，特别是在年轻人群中，这一趋势尤为明显。与此同时，视频流媒体市场正在迅速扩张，预计未来几年将继续保持强劲的增长势头。在这种情况下，文本到视频的检索成为了信息检索领域的一个重要且迅速发展的研究方向。这项任务旨在根据自然语言查询，在众多视频中找到内容最相关的视频。近期的研究重点包括使用自然语言注释的视频数据来学习文本-视频嵌入，以及开发新的多模态学习模型和算法。这些进展不仅展示了该领域技术的提升，还标志着面向未来的信息检索技术的重要步骤。

文本到视频检索（Video-Text Retrieval, VTR）是一个挑战性的跨模态任务，旨在搜索与给定句子语义相关的视频，并且反之亦然。尽管深度学习技术在近年来取得了显著的进步，VTR任务仍然面临如何有效学习空间-时间视频特征和缩小跨模态差距等问题。在大数据时代背景下，人们迫切需要找到高效的方式快速搜索满足用户需求的视频。尤其是视频数量的迅速增长，使得找到目标视频变得更加耗时和困难。VTR需要分析大量视频-文本对，充分挖掘多模态信息，判断两种模态是否可以对齐。现有文本到视频检索方法主要关注于学习不同模态间的联合特征表示空间，从而实现跨模态匹配。这些方法包括全局对齐和局部对齐两种主要策略。全局对齐方法利用高层次语义进行文本-视频检索，而局部对齐方法研究文本和视频间的细粒度语义对齐。

然而，现有方法在以下三个方面存在不足：(i) 全局对齐可能无法捕捉文本和视频中的局部细节；(ii) 局部对齐由于逐字逐帧的匹配操作而计算成本高；(iii) 两种对齐策略都倾向于将文本（视频）粗略地表示为一组概念，可能无法利用数据中的异质概念，容易聚焦于不变特征。因此，目前的文本到视频检索方法仍存在检索结果的准确性不高的问题。

发明内容

本申请实施例提供了一种文本视频检索方法、系统及计算机存储介质，用以解决现有技术中检索方法得到的检索结果准确性不高的问题。

一方面，本申请实施例提供了一种文本视频检索方法，包括：

获取文本，对文本进行编码，获得文本特征向量；

生成与文本相应的图像；

对图像进行编码，获得图像特征向量；

将文本特征向量和图像特征向量组合，获得文本图像组合特征向量；

获取视频，对视频进行编码，获得视频深度预览特征向量；

确定文本图像组合特征向量和每个视频的视频深度预览特征向量的相似度，根据相似度确定与文本匹配的视频。

另一方面，本申请实施例还提供了一种文本视频检索系统，包括：

文本编码模块，用于获取文本，对文本进行编码，获得文本特征向量；

图像生成模块，用于生成与文本相应的图像；

图像编码模块，用于对图像进行编码，获得图像特征向量；

向量组合模块，用于将文本特征向量和图像特征向量组合，获得文本图像组合特征向量；

视频编码模块，用于获取视频，对视频进行编码，获得视频深度预览特征向量；

视频检索模块，用于确定文本图像组合特征向量和每个视频的视频深度预览特征向量的相似度，根据相似度确定与文本匹配的视频。

另一方面，本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有多条计算机指令，该多条计算机指令用于使计算机执行上述的方法。

本申请中的一种文本视频检索方法、系统及计算机存储介质，具有以下优点：

通过生成图像来增强文本表示的丰富度和维度，使文本能更全面地与视频特征进行匹配，从而提高检索的准确性。此外，本申请的方法还注重降低计算成本，适应大数据环境下的视频内容分析。总体而言，本申请的方法展现了创新性，不仅解决了现有方法的局限，也为未来信息检索领域的发展提供了新的方向。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本视频检索方法的流程图；

图2为本申请实施例提供的一种文本视频检索系统的整体结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种文本视频检索方法的流程图。本申请实施例提供了一种文本视频检索方法，包括：

S100，获取文本，对文本进行编码，获得文本特征向量。

示例性地，对文本进行编码的方法包括：利用one-hot向量表示文本中的每个单词，获得全局编码；利用BiGRU模型对文本进行编码，获得第一局部编码；利用BiGRU-CNN模型对文本进行编码，获得第二局部编码；将全局编码、第一局部编码和第二局部编码进行组合，获得文本特征向量。

具体地，对于给定的长度为m的文本s，首先采用one-hot向量表示它的每个单词，将每个单词的one-hot向量表示组合起来就可以得到一列one-hot向量{w₁, w₂, ... ,w_t,... , w_m}，其中w_t表示第t个单词的one-hot向量。在得到one-hot向量后，可以计算整个向量的平均序列，该平均序列即可作为全局编码f_1s，这相当于经典的词袋表示。

在得到one-hot向量后，还可以利用BiGRU模型将每个单词的one-hot向量乘以单词嵌入矩阵，以将one-hot向量转换为稠密向量，该稠密向量即可作为第一局部编码，表示为f_2s。本申请使用word2vec模型初始化单词嵌入矩阵，该word2vec模型在3000万张Flickr图像的英语标签上训练得到。

最后，利用BiGRU-CNN模型对文本进行编码，可以得到第二局部编码，表示为f_3s。

得到全局编码、第一局部编码和第二局部编码后，本申请利用三个1D卷积块连接三个编码，即φ(s) = [f_1s, f_2s, f_3s]，其中每个卷积块的卷积核大小分别为k = 2,3,4。

S110，生成与文本相应的图像。

示例性地，生成图像的方法包括：确定多个文本中的关键词；选择多个文本中的一个；将关键词与被选择的文本结合，获得相应的文本描述；将文本描述输入稳态扩散模型，生成图像。

进一步地，确定关键词的方法包括：利用TF-IDF算法确定多个文本中每个词语的频率以及在语料库中的逆频率；根据频率和逆频率确定关键词。

具体地，在生成图像的过程中需要对原始数据集中的文本进行综合性筛选和提炼。在模型训练过程中，使用视频与描述文本的公开数据，每个视频均附有20个描述文本，这些描述文本详细描述了视频内容，在模型测试过程中，仅使用文本进行视频检索。对于这些描述文本，可以利用自然语言处理技术，尤其是各种文本相似性计算方法，包括基于字符串的比较、统计方法、知识库的使用、以及深度学习方法，评估这些描述文本之间的语义一致性。在文本筛选和提炼过程中，采用TF-IDF（词频-逆文档频率）算法。TF-IDF算法通过计算每个词语在文本中的频率和在整个语料库中的逆频率，来评估词语的重要性。这种方法特别适用于从多个文本中提取关键信息。通过TF-IDF能够识别出每个视频描述中最具代表性和区别性的关键词，这些关键词不仅反映了视频内容的核心元素，还提供了一种有效的方式来筛选和优化描述文本。在确定了关键词后，可以选择最长的描述文本作为每个视频的主描述语句。这种选择基于一个假设：较长的句子通常包含更多信息，能更全面地描述视频内容。然后，将提取的关键词与主描述语句结合，形成一个完整且内容全面的文本描述。这样的文本描述不仅提供了视频内容的全面概览，还通过关键词的加入增加了描述的准确性和相关性。

最后，将经过优化的文本描述输入到稳态扩散（Stable Diffusion）文本图像生成模型中，这个模型可以根据文本描述的内容生成与之匹配的图像。本申请可以为每个文本描述生成多个，例如四个图像，将生成的多个图像依次输入Resnet50网络，提取图像特征向量，然后，将文本特征向量与提取的图像特征向量拼接，得到文本图像组合特征向量。这些图像在视觉上再现了文本描述的各个方面，不仅可以作为检索系统的参考资料，还能用于进一步的分析和优化。本申请的方法通过细致的文本分析和创新的图像生成技术，有效地建立了文本与视频内容之间的桥梁。

S120，对图像进行编码，获得图像特征向量。

S130，将文本特征向量和图像特征向量组合，获得文本图像组合特征向量。

S140，获取视频，对视频进行编码，获得视频深度预览特征向量。

示例性地，本申请采用了多级视频编码的方式来进行视频表示，具体地，对视频进行编码的方法包括：分别利用Image CNN（卷积神经网络）、BiGRU（双向门控循环单元）和BiGRU-CNN模型提取视频的特征，分别获得第一特征向量、第二特征向量和第三特征向量；对第一特征向量和第二特征向量组合后进行平均池化处理，获得全局预览特征向量；将第一特征向量、第二特征向量和第三特征向量组合后，再与全局预览特征向量组合，获得视频深度预览特征向量。

在本申请的实施例中，本申请在对视频进行编码的过程中采用了两个分支，即全局预览分支（Preview Branch）和深度阅读分支（Intensive Branch），全局预览分支用于对第一特征向量和第二特征向量组合后进行平均池化处理，获得全局预览特征向量，而深度阅读分支则用于先将第一特征向量、第二特征向量和第三特征向量组合，然后再与全局预览特征向量组合，获得视频深度预览特征向量。

进一步地，深度阅读分支在将第一特征向量、第二特征向量和第三特征向量组合后，利用预览感知注意力（PaA）模块将组合后的特征向量与全局预览特征向量进行组合，得到视频深度预览特征向量。

S150，确定文本图像组合特征向量和每个视频的视频深度预览特征向量的相似度，根据相似度确定与文本匹配的视频。

示例性地，在确定文本图像组合特征向量和每个视频的视频深度预览特征向量的相似度时，将全局预览特征向量和文本图像组合特征向量通过全连接层投影至第一混合空间，将视频深度预览特征向量和文本图像组合特征向量通过全连接层投影至第二混合空间，分别在第一混合空间和第二混合空间中与文本图像组合特征向量确定相应的空间相似度，将两个空间相似度之和作为文本图像组合特征向量和每个视频的视频特征向量的相似度。

第一混合空间和第二混合空间在训练时，将训练数据分别输入第一混合空间和第二混合空间，确定相应的第一空间损失和第二空间损失，以第一空间损失和第二空间损失之和最小为目标对第一混合空间和第二混合空间进行训练。

具体地，每个混合空间均包含潜在空间（Latent space）和概念空间（conceptspace），混合空间在进行实际的视频检索和训练时都将通过一个全连接层将文本图像组合特征向量和每个视频深度预览特征向量分别投影到潜在空间和概念空间，进而进一步计算相似度或损失。

对潜在空间进行训练时，期望在潜在空间中使相关的视频-文本对靠近，无关的对远离。因此，本申请采用了三元组排序损失来计算文本图像组合特征向量和每个视频深度预览特征向量之间的损失。对概念空间进行训练时，可以将训练任务转换为多标签分类问题，由于期望概念空间用于可解释性和视频文本匹配，因此同时使用了二元交叉熵损失和三元组排序损失来计算文本图像组合特征向量和每个视频深度预览特征向量之间的损失。在视频编码阶段中，本申请采用了全局预览分支和深度阅读分支，可以将这两个分支分别连接两个混合空间，其中与全局预览分支连接的混合空间可以称为预览混合空间，即第一混合空间，与深度阅读分支连接的混合空间可以称为深度混合空间，即第二混合空间。假设全局预览分支输出了全局预览特征向量p，而深度阅读分支输出了深度阅读特征向量g，文本图像组合特征向量可以表示为s，可以计算p和s之间的损失以及g和s之间的损失，分别记为第一空间损失L_p,s和第二空间损失L_g,s，在训练时可以将总损失：L = L_p,s + L_g,s最小作为目标，对混合空间进行训练。

当混合空间训练完毕且经过测试达到了性能要求后，可以将根据待检索文本确定的文本图像组合特征向量以及视频库中各个视频的视频深度预览特征向量输入混合空间，计算每个混合空间中特征向量的相似度，将两个相似度之和最高的视频作为与文本匹配的视频，将该视频输出。

本申请实施例还提供了一种文本视频检索系统，该系统的整体架构如图2所示，该系统包括：

图像生成模块，用于生成与文本相应的图像；

图像编码模块，用于对图像进行编码，获得图像特征向量；

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有多条计算机指令，该多条计算机指令用于使计算机执行上述的方法。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文本视频检索方法，其特征在于，包括：

获取文本，对所述文本进行编码，获得文本特征向量；

生成与所述文本相应的图像；

对所述图像进行编码，获得图像特征向量；

将所述文本特征向量和图像特征向量组合，获得文本图像组合特征向量；

获取视频，对所述视频进行编码，获得视频深度预览特征向量；

确定所述文本图像组合特征向量和每个所述视频的所述视频深度预览特征向量的相似度，根据所述相似度确定与所述文本匹配的所述视频；

其中，对所述视频进行编码的方法包括：

分别利用Image CNN、BiGRU和BiGRU-CNN模型提取所述视频的特征，分别获得第一特征向量、第二特征向量和第三特征向量；

对所述第一特征向量和第二特征向量组合后进行平均池化处理，获得全局预览特征向量；

将所述第一特征向量、第二特征向量和第三特征向量组合后，再与所述全局预览特征向量组合，获得所述视频深度预览特征向量；

生成所述文本图像组合特征向量的方法包括：

确定多个所述文本中的关键词；

选择多个所述文本中的一个；

将所述关键词与被选择的所述文本结合，获得相应的文本描述；

将所述文本描述输入稳态扩散模型，生成所述图像；

将所述图像输入Resnet50网络，提取所述图像特征向量；

将所述文本特征向量与图像特征向量拼接，得到所述文本图像组合特征向量；

在确定所述文本图像组合特征向量和每个所述视频的所述视频深度预览特征向量的相似度时，将所述全局预览特征向量和文本图像组合特征向量通过全连接层投影至第一混合空间，将所述视频深度预览特征向量和文本图像组合特征向量通过所述全连接层投影至第二混合空间，分别在所述第一混合空间和第二混合空间中确定相应的空间相似度，将两个所述空间相似度之和作为所述文本图像组合特征向量和每个所述视频的所述视频深度预览特征向量的相似度。

2.根据权利要求1所述的一种文本视频检索方法，其特征在于，对所述文本进行编码的方法包括：

利用one-hot向量表示所述文本中的每个单词，获得全局编码；

利用BiGRU模型对所述文本进行编码，获得第一局部编码；

利用BiGRU-CNN模型对所述文本进行编码，获得第二局部编码；

将所述全局编码、第一局部编码和第二局部编码进行组合，获得所述文本特征向量。

3.根据权利要求1所述的一种文本视频检索方法，其特征在于，确定所述关键词的方法包括：

利用TF-IDF算法确定多个所述文本中每个词语的频率以及在语料库中的逆频率；

根据所述频率和逆频率确定所述关键词。

4.根据权利要求1所述的一种文本视频检索方法，其特征在于，在将所述第一特征向量、第二特征向量和第三特征向量组合后，利用预览感知注意力模块将组合后的特征向量与所述全局预览特征向量进行组合，得到所述视频深度预览特征向量。

5.根据权利要求1所述的一种文本视频检索方法，其特征在于，所述第一混合空间和第二混合空间在训练时，将训练数据分别输入所述第一混合空间和第二混合空间，确定相应的第一空间损失和第二空间损失，以所述第一空间损失和第二空间损失之和最小为目标对所述第一混合空间和第二混合空间进行训练。

6.一种文本视频检索系统，其特征在于，包括：

文本编码模块，用于获取文本，对所述文本进行编码，获得文本特征向量；

图像生成模块，用于生成与所述文本相应的图像；

图像编码模块，用于对所述图像进行编码，获得图像特征向量；

向量组合模块，用于将所述文本特征向量和图像特征向量组合，获得文本图像组合特征向量；

视频编码模块，用于获取视频，对所述视频进行编码，获得视频深度预览特征向量；

视频检索模块，用于确定所述文本图像组合特征向量和每个所述视频的所述视频深度预览特征向量的相似度，根据所述相似度确定与所述文本匹配的所述视频；

其中，所述图像编码模块对所述视频进行编码的方法包括：

分别利用Image CNN、BiGRU和BiGRU-CNN模型提取所述视频的特征，分别获得第一特征向量、第二特征向量和第三特征向量；对所述第一特征向量和第二特征向量组合后进行平均池化处理，获得全局预览特征向量；将所述第一特征向量、第二特征向量和第三特征向量组合后，再与所述全局预览特征向量组合，获得所述视频深度预览特征向量；

所述向量组合模块生成所述文本图像组合特征向量的方法包括：所述图像生成模块确定多个所述文本中的关键词；选择多个所述文本中的一个；将所述关键词与被选择的所述文本结合，获得相应的文本描述；将所述文本描述输入稳态扩散模型，生成所述图像；将所述图像输入Resnet50网络，提取所述图像特征向量；所述向量组合模块将所述文本特征向量与图像特征向量拼接，得到所述文本图像组合特征向量；

所述视频检索模块在确定所述文本图像组合特征向量和每个所述视频的所述视频深度预览特征向量的相似度时，将所述全局预览特征向量和文本图像组合特征向量通过全连接层投影至第一混合空间，将所述视频深度预览特征向量和文本图像组合特征向量通过所述全连接层投影至第二混合空间，分别在所述第一混合空间和第二混合空间中确定相应的空间相似度，将两个所述空间相似度之和作为所述文本图像组合特征向量和每个所述视频的所述视频深度预览特征向量的相似度。

7.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行权利要求1-5任一项所述的方法。