CN114880493A

CN114880493A - 一种基于文本概念扩展的跨模态检索算法

Info

Publication number: CN114880493A
Application number: CN202210429614.6A
Authority: CN
Inventors: 王树徽; 方晟
Original assignee: Zhenjiang Zhili High Tech Co ltd
Current assignee: Zhenjiang Zhili High Tech Co ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-08-09

Abstract

本发明涉及跨模态检索技术领域，具体涉及一种基于文本概念扩展的跨模态检索算法，包括对视频进行预处理，得到视频嵌入特征表示；对文本进行预处理得到文本嵌入特征表示；计算视频嵌入特征表示和文本嵌入特征表示的相似度得到隐空间相似度；通过编码器对视频进行加深得到视频概念；利用语法解析对文本进行解析得到初始概念；通过文本概念扩展机制对初始概念进行拓展得到文本概念；计算视频概念与文本概念之间的相似度得到概念空间相似度；对隐空间相似度和概念空间相似度进行加权计算得到融合相似度模型；基于检索指令并利用融合相似度模型进行检索排序，解决了视频信息量与文本信息量不平衡，降低了检索性能的问题。

Description

一种基于文本概念扩展的跨模态检索算法

技术领域

本发明涉及跨模态检索技术领域，尤其涉及一种基于文本概念扩展的跨模态检索算法。

背景技术

跨模态检索需要利用给定模态数据从海量信息中找到在语义层面相关联的数据，因此，跨模态技术主要解决的问题是如何对齐不同模态数据的语义。

现有的视频文本检索算法为不同模态的样本找到一个公共的嵌入空间，在这个共享空间内实现异构模态间的关系度量。这一类方法的优势在于视频和文本编码器的多样性，能够得到不同模态表征能力较强的特征，从而实现更精准的检索。

以上方法分别以概念和深度特征作为桥梁，但是缺乏对视频文本检索问题的深入探讨。由于视频包含音频、图像等多个模态，视频含有非常丰富的信息量。相比于视频，文本中的信息要少很多，这种信息量存在不平衡，降低了检索性能的问题。

发明内容

本发明的目的在于提供一种基于文本概念扩展的跨模态检索算法，旨在解决视频信息量与文本信息量不平衡，降低了检索性能的问题。

为实现上述目的，本发明提供了一种基于文本概念扩展的跨模态检索算法，包括以下步骤：

对视频进行预处理，得到视频嵌入特征表示；

对文本进行预处理，得到文本嵌入特征表示；

计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度，得到隐空间相似度；

通过编码器对所述视频进行加深，得到视频概念；

利用语法解析对所述文本进行解析，得到初始概念；

通过文本概念扩展机制对所述初始概念进行拓展，得到文本概念；

计算所述视频概念与所述文本概念之间的相似度，得到概念空间相似度；

对所述隐空间相似度和所述概念空间相似度进行加权计算，得到融合相似度模型；

基于检索指令并利用所述融合相似度模型进行检索排序。

其中，所述对视频进行预处理，得到视频嵌入特征表示的具体方式为：

按照预设帧率对视频进行关键帧抽取，得到视频帧；

利用残差网络提取所述视频帧的特征，得到图像层级特征；

采用注意力机制来聚合所述图像层级特征，并学习整个视频的特征表示，得到视频层级表征；

将所述视频层级表征映射到隐空间中，得到视频嵌入特征表示。

其中，所述对文本进行预处理，得到文本嵌入特征表示的具体方式为：

利用预训练模型对文本进行训练，得到句子层级表征；

将所述句子层级表征映射到所述隐空间中，得到文本嵌入特征表示。

其中，所述编码器采用多种概念检测器叠加得到。

其中，所述通过文本概念扩展机制对所述初始概念进行拓展，得到文本概念的具体方式为：

利用外部知识库找到概念间的联系，得到常识知识图谱；

利用所述文本中包含概念的共现频率构建关联知识图谱；

利用图注意力网络分别在所述常识知识图谱和关联知识图谱传播概念的响应值，分别得到补全常识知识图谱和补全关联知识图谱；

将所述补全常识知识图谱和所述补全关联知识图谱加和，得到文本概念。

本发明的一种基于文本概念扩展的跨模态检索算法，通过对视频进行预处理，得到视频嵌入特征表示；对文本进行预处理，得到文本嵌入特征表示；计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度，得到隐空间相似度；通过编码器对所述视频进行加深，得到视频概念；利用语法解析对所述文本进行解析，得到初始概念；通过文本概念扩展机制对所述初始概念进行拓展，得到文本概念；计算所述视频概念与所述文本概念之间的相似度，得到概念空间相似度；对所述隐空间相似度和所述概念空间相似度进行加权计算，得到融合相似度模型；基于检索指令并利用所述融合相似度模型进行检索排序，本发明通过对文本概念进行扩展，从而增加了文本的信息量，解决了视频信息量与文本信息量不平衡，降低了检索性能的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于文本概念扩展的跨模态检索算法的流程图。

图2是对视频进行预处理，得到视频嵌入特征表示的流程图。

图3是对文本进行预处理，得到文本嵌入特征表示的流程图。

图4是通过文本概念扩展机制对所述初始概念进行拓展，得到文本概念的流程图。

图5是本发明提供的一种基于文本概念扩展的跨模态检索算法的原理图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1至图5，本发明提供一种基于文本概念扩展的跨模态检索算法，包括以下步骤：

S1对视频进行预处理，得到视频嵌入特征表示；

具体方式为：

S11按照预设帧率对视频进行关键帧抽取，得到视频帧；

S12利用残差(ResNet)网络提取所述视频帧的特征，得到图像层级特征；

S13采用注意力机制(Transformer)来聚合所述图像层级特征，并学习整个视频的特征表示，得到视频层级表征；

S14将所述视频层级表征映射到隐空间中，得到视频嵌入特征表示f^v(V)。

S2对文本进行预处理，得到文本嵌入特征表示；

具体方式为：

S21利用预训练模型对文本进行训练，得到句子层级表征；

具体的，所述预训练模型为Bert预训练模型。

S22将所述句子层级表征映射到所述隐空间中，得到文本嵌入特征表示f^t(T)。

具体的，利用全连接层将所述句子层级表征映射到所述隐空间中，得到文本嵌入特征表示。

S3计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度，得到隐空间相似度；

具体的通过计算所述视频嵌入特征表示和所述文本嵌入特征表示的余弦相似度，记为：

本算法采用三元组损失(Triplet Loss)作为训练该分支的损失函数，并加入在训练批次内选取难样本的操作。给定一个成对的样本(V,T)，损失函数表示为：

L_lat(V,T)＝max(0,m+sim_lat(V-,T)-sim_lat(V,T))+max(0,m+sim_lat(V,T^-)-sim_lat(V,T)),

其中，V^-表示的是与文本T不成对但是相似度最高的视频，而T^-表示的是与视频V不成对但是相似度最高的文本。

S4通过编码器对所述视频进行加深，得到视频概念g^v(V)；

具体的，所述编码器采用多种概念检测器叠加得到。

S5利用语法解析对所述文本进行解析，得到初始概念；

具体的，在文本的初始概念表征中，文本所包含的概念对应维度的值为1，文本中没有的概念对应维度的值则为0。

S6通过文本概念扩展机制对所述初始概念进行拓展，得到文本概念；

具体的，由于文本的长度受限，文本中包含的概念也非常有限，与视频概念的不平衡使得对齐困难。由此，本发明提出了文本概念扩展机制，其目的在于根据文本中现有的概念，结合外部知识以及数据内的关联关系，扩展得到与文本语义相关但是文本中不包含的概念，从而减少模态间的信息差，达到更好的对齐效果。

具体方式为：

S61利用外部知识库找到不同概念间的联系，得到常识知识图谱；

具体的，利用外部知识库ConceptNet，找到不同概念间的联系，构建出以概念为节点，连边表示概念间的联系的常识知识图谱。

S62利用所述文本中包含概念的共现频率构建关联知识图谱；

具体的，利用一条文本中包含的概念的共现的频率，构建出以概念为节点，连边表示概念的共现概率的关联知识图谱。在两个图中，文本中包含的初始概念的节点值初始化为1，其他的节点则初始化为0。

S63利用图注意力网络分别在所述常识知识图谱和关联知识图谱传播概念的响应值，分别得到补全常识知识图谱和补全关联知识图谱；

具体的，所述图注意力网络为图注意力卷积网络，利用图注意力卷积网络分别在两张图中分别传播概念的响应值。根据图中的连接关系，经过若干次传播后，部分原先初始化为0的节点，即句子中不包含但是与句子有相关性的概念会被激活，从而实现文本语义补全的目的，分别得到补全常识知识图谱和补全关联知识图谱。

S64将所述补全常识知识图谱和所述补全关联知识图谱加和，得到文本概念。

将所述补全常识知识图谱和所述补全关联知识图谱加和，即得到了综合外部知识和内部关联的概念扩展结果。最终得到的扩展后的文本概念表征记为g^t(T)。

S7计算所述视频概念与所述文本概念之间的相似度，得到概念空间相似度；

具体的，得到了两个模态在概念空间的表示后，即可计算不同模态样本的相似度。与特征空间不同的是，概念表示并没有经过归一化，而是每个维度的值都在0到1之间的一个向量。将这个向量看做直方图，即可采用Jaccard相似度来衡量两个样本之间的距离，记为：

其中K表示概念空间的维度，即整个概念集合中元素的数量。

训练概念分支的损失函数与隐空间分支相同，即给定一个成对的样本(V,T)，损失函数表示为：

L_con(V,T)＝max(0,m+sim_con(V^-,T)-sim_con(V,T))+max(0,m+sim_con(V,T^-)-sim_con(V,T))。

S8对所述隐空间相似度和所述概念空间相似度进行加权计算，得到融合相似度模型；

具体的，为了实现两个分支的融合，本发明还对隐空间相似度和概念空间相似度加权计算，得到融合的样本相似度，并对融合的样本相似度也加入一个三元组损失，记为：

sim_fusion(V,T)＝γ·sim_lat(V,T)+(1-γ)·sim_con(V,T),

L_fus(V,T)＝max(0,m+sim_fus(V^-,T)-sim_fus(V,T))+max(0,m+sim_fus(V,T^-)-sim_fus(V,T)),

其中，γ为平衡特征隐空间和概念空间重要性的超参数。本发明实现了端到端的训练，整个算法最终的损失函数为：

L＝L_con(V,T)+α·L_con(V,T)+β·L_fus(V,T),

其中，α，β为平衡不同损失函数的超参数。

S9基于检索指令并利用所述融合相似度模型进行检索排序。

具体的，训练得到最终的模型后，本发明在测试阶段也采用两个分支结合的方式，即利用特征隐空间和概念空间的融合相似度模型L_fus(V,T)，进行检索排序。

传统的视频文本检索算法只关注如何对齐异构模态，而忽略了不同模态间存在信息不平衡的问题。该发明针对视频语义要比文本语义丰富的问题，提出了基于文本概念扩展的跨模态检索。一方面，通过结合概念建模信息和深度特征，实现了更多粒度的语义表征，在提高了跨模态检索的性能的同时，还加入了概念信息层面的可解释性。另一方面，利用外部知识以及数据内部的关联关系，在文本原有的概念的基础上实现了概念的扩展，得到了语义相关的新概念，通过对文本语义的补全，有效缓解了视频和文本异构模态数据间信息不平衡的问题，提升了跨模态检索的准确性。主要利用了双流结构，实现了概念信息和深度特征的结合，在提升了检索准确率的基础上，还加入了概念信息层面的可解释性，还利用外部知识以及挖掘数据内部的关联关系，设计了针对文本信息的概念扩展机制，实现了对文本内容的补全。

以上所揭露的仅为本发明一种基于文本概念扩展的跨模态检索算法较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于文本概念扩展的跨模态检索算法，其特征在于，包括以下步骤：

对视频进行预处理，得到视频嵌入特征表示；

对文本进行预处理，得到文本嵌入特征表示；

通过编码器对所述视频进行加深，得到视频概念；

利用语法解析对所述文本进行解析，得到初始概念；

基于检索指令并利用所述融合相似度模型进行检索排序。

2.如权利要求1所述的基于文本概念扩展的跨模态检索算法，其特征在于，

所述对视频进行预处理，得到视频嵌入特征表示的具体方式为：

按照预设帧率对视频进行关键帧抽取，得到视频帧；

利用残差网络提取所述视频帧的特征，得到图像层级特征；

3.如权利要求2所述的基于文本概念扩展的跨模态检索算法，其特征在于，

所述对文本进行预处理，得到文本嵌入特征表示的具体方式为：

利用预训练模型对文本进行训练，得到句子层级表征；

4.如权利要求1所述的基于文本概念扩展的跨模态检索算法，其特征在于，所述编码器采用多种概念检测器叠加得到。

5.如权利要求1所述的基于文本概念扩展的跨模态检索算法，其特征在于，

所述通过文本概念扩展机制对所述初始概念进行拓展，得到文本概念的具体方式为：

利用外部知识库找到概念间的联系，得到常识知识图谱；

利用所述文本中包含概念的共现频率构建关联知识图谱；