CN114048282A

CN114048282A - 一种基于文本树局部匹配的图文跨模态检索方法及系统

Info

Publication number: CN114048282A
Application number: CN202111355042.3A
Authority: CN
Inventors: 纪庆革; 刘素; 赖韩江; 印鉴
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-15

Abstract

本发明公开了一种基于文本树局部匹配的图文跨模态检索方法及系统，该方法包括：获获取数据集并对数据集进行预处理和划分，得到训练集；将训练集中的图片和文本分别输入对应网络进行特征提取，得到图片特征和文本特征；根据文本特征生成文本树；根据文本树和图片特征进行图文对相似度计算并反向传播训练网络，得到跨模态检索模型；获取待测数据并输入至跨模态检索模型，得到检索结果。该系统包括：预处理模块、特征提取模块、树生成模块、模型训练模块和检索模块。通过使用本发明，实现跨模态检索，具有高可解释性和高检索精度的优点。本发明可广泛应用于图文匹配领域。

Description

一种基于文本树局部匹配的图文跨模态检索方法及系统

技术领域

本发明涉及图文匹配领域，尤其涉及一种基于文本树局部匹配的图文跨模态检索方法及系统。

背景技术

现有跨模态检索对于数据集分为局部和整体两种研究思路。全局对应关系首先将图像和文本表示为特征向量，然后将它们投影到一个经过排序损失优化的公共空间中；局部对应关系集中在学习显著对象的对应关系上。对于数据集中的图片，特征提取一般直接应用ResNet，fast-RCNN等卷积神经网络，对于对应的文本，应用GRU等卷积神经网络生成嵌入向量，之后两者共同放入Transformer进行相似度的计算，得到训练后的模型。使用时输入要检索的图片或文本，可得到最匹配的文本或图片。在局部对齐方面，现在应用较多的注意力机制，将图片与文本矩阵做加权和，来衡量两着的注意力分数，以此来判定二者是否对齐。

图片和文本在特征提取之后，直接投射到公共空间，由于模态信息的差异，二者的相似度计算效果较差，缺乏对图像和文本之间的细粒度相互作用的理解，局部的匹配没有实现对应，准确性还有待提升。同时注意力机制的使用具有很强的约束性，对于文本和图片，直接计算衡量相似度的效果有限。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于文本树局部匹配的图文跨模态检索方法及系统，实现跨模态检索，可解释性高且检索精度高。

本发明所采用的第一技术方案是：一种基于文本树局部匹配的图文跨模态检索方法，包括以下步骤：

获取数据集并对数据集进行预处理和划分，得到训练集；

将训练集中的图片和文本分别输入对应网络进行特征提取，得到图片特征和文本特征；

根据文本特征生成文本树；

根据文本树和图片特征进行图文对相似度计算并反向传播训练网络，得到跨模态检索模型；

获取待测数据并输入至跨模态检索模型，得到检索结果。

进一步，所述获取数据集并对数据集进行预处理和划分，得到训练集这一步骤，其具体包括：

获取数据集并将数据集中的图片和文本建立对应关系，得到图文对应关系；

根据图文对应关系生成字典数据；

将字典数据按照预设比例划分，得到训练集和测试集。

进一步，所述将训练集中的图片和文本分别输入对应网络进行特征提取，得到文本特征和图片特征这一步骤，其具体包括：

将训练集中的图片切片并输入至线性网络，得到图片特征；

将训练集中的文本进行编码并输入至卷积神经网络生成嵌入向量，得到文本特征。

进一步，所述根据文本特征生成文本树这一步骤，其具体包括：

将文本特征输入至前馈神经网络生成初步输出分数；

将初步输出分数进行归一化采样并计算相邻两个分量的L2范数和；

根据相邻两个分量的L2范数和对每个文本特征进行合并，迭代生成文本树。

进一步，所述根据相邻两个分量的L2范数和对每个文本特征进行合并，迭代生成文本树这一步骤，其具体包括：

将L2范数和最高的两项进行合并，得到合并后分数；

将合并后分数和其他分量的分数进行归一化处理；

取相邻两个分量做L2范数和的计算并合并最高的两项，迭代直至没有两项可以合并，生成文本树。

进一步，所述根据文本树和图片特征进行图文对相似度计算并反向传播训练网络，得到跨模态检索模型这一步骤，其具体包括：

将文本树和图片特征输入至预设的图文匹配网络；

将文本树中的节点与图片特征依次进行余弦相似度计算，并根据余弦相似度进行图文匹配；

计算文本树和图片的匹配整体损失并训练图文匹配网络，得到跨模态检索模型。

进一步，所述匹配整体损失的计算公式如下：

上式中，m表示图片和文本的距离，T表示文本，V表示图像，V′表示与文本T不匹配的图片，γ表示边际参数，T′表示与图片V不匹配的文本。

本发明所采用的第二技术方案是：一种基于文本树局部匹配的图文跨模态检索系统，包括：

预处理模块，用于获取数据集并对数据集进行预处理和划分，得到训练集；

特征提取模块，用于将训练集中的图片和文本分别输入对应网络进行特征提取，得到图片特征和文本特征；

树生成模块，用于根据文本特征生成文本树；

模型训练模块，用于根据文本树和图片特征进行图文对相似度计算并反向传播训练网络，得到跨模态检索模型；

检索模块，用于获取待测数据并输入至跨模态检索模型，得到检索结果。

本发明方法及系统的有益效果是：本发明通过将目标放到细粒度的图像和文本的对应关系上，利用文本树分析文本结构，和图片的局部内容形成互相对应的关系，转化成图片显著区域的树状形态，从而得到一个更精准的损失，训练的模型能够提升检索的准确度和提高检索效率。

附图说明

图1是本发明一种基于文本树局部匹配的图文跨模态检索方法的步骤流程图；

图2是本发明一种基于文本树局部匹配的图文跨模态检索系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明提供了一种基于文本树局部匹配的图文跨模态检索方法，该方法包括以下步骤：

S1、获取数据集并对数据集进行预处理和划分，得到训练集；

S2、将训练集中的图片和文本分别输入对应网络进行特征提取，得到图片特征和文本特征；

S3、根据文本特征生成文本树；

S4、根据文本树和图片特征进行图文对相似度计算并反向传播训练网络，得到跨模态检索模型；

S5、获取待测数据并输入至跨模态检索模型，得到检索结果。

具体地，输入待测试的图片或文本，经过网络特征提取后与信息库中跨模态数据匹配，得到最相似的检索结果，利用之前训练好的模型，进行跨模态结果的检索，检索可双向实现，文本检索图片或图片检索文本。

进一步作为本方法的优选实施例，所述获取数据集并对数据集进行预处理和划分，得到训练集这一步骤，其具体包括：

S11、获取数据集并将数据集中的图片和文本建立对应关系，得到图文对应关系；

S12、根据图文对应关系生成字典数据；

S13、将字典数据按照预设比例划分，得到训练集和测试集。

具体地，由于输入网络要求图像大小为244*244*3，要将图片的像素值进行相应的归一化和插值操作，从而得到统一的输入。

进一步作为本方法的优选实施例，所述将训练集中的图片和文本分别输入对应网络进行特征提取，得到文本特征和图片特征这一步骤，其具体包括：

将训练集中的图片切片并输入至线性网络，得到图片特征；

具体地，将统一大小的图片切片成k块，输入一个线性网络生成其特征。V＝[v1,v2,…vk]。

具体地，对每个单词进行one-hot编码后，使用卷积神经网络生成嵌入向量。T＝[t1,t2,…tn],n为句子的单词个数。

嵌入向量是文本经过卷积神经网络输出的向量，成为嵌入向量，该网络也为嵌入网络，因为文本不像图片一样自带RGB这样的数值信息，需要将文本编码经过网络产生和图片维度相同的向量，是一种投影到相同维度的方法。

进一步作为本方法的优选实施例，所述根据文本特征生成文本树这一步骤，其具体包括：

将文本特征输入至前馈神经网络生成初步输出分数；

具体地，前馈神经网络的作用是生成初步的单词评分，将嵌入向量作为输入，使用128维的隐藏层和ReLU激活函数，得到初步的输出分数。S＝[s₁,s₂,…s_n]。

具体地，将输出进行归一化采样，再使用L2范数和去计算出相邻两个分量的对应值。在此过程中，文本的每个单词都被看成一个分量：

其中，s是分数，p是归一化后的分数，com为两个分量的L2范数和。

进一步作为本方法优选实施例，所述根据相邻两个分量的L2范数和对每个文本特征进行合并，迭代生成文本树这一步骤，其具体包括：

将L2范数和最高的两项进行合并，得到合并后分数；

将合并后分数和其他分量的分数进行归一化处理；

具体地，在合并的过程中，需要记录每一步合并的项的内容，最初的每个分量都是生成树的叶子节点，合并后的是中间节点，最后生成一个总的生成树。分量是树的某一层，在进行下一次合并的时候，这一层的每个节点都称为分量。

进一步作为本方法优选实施例，所述根据文本树和图片特征进行图文对相似度计算并反向传播训练网络，得到跨模态检索模型这一步骤，其具体包括：

将文本树和图片特征输入至预设的图文匹配网络；

节点的含义：文本生成树中的每个节点，以上面句子为例，叶子节点就是每个单词，中间节点就是词组，比如thecat或者onthechair这样，根节点就是原句。

具体地，余弦相似度计算表示如下：

显著区域进行余弦相似度的计算：

m(x,v＝cos(θ,x,v)

其中，x是文本生成树中的节点，v是图像显著区域。

此处的匹配是文本树的节点和图片区域进行余弦相似度计算，是点对点的匹配，原来的公式里是有带英文的上下标，表示需要遍历文本的节点和图片的区域，找到节点和某一区域距离最近的一对；另外一个就是文本和图片整体的距离计算，就是第7点中的公式，它是前者最近距离的集合。整个过程中有两次匹配。

然后进行一个中间步骤的损失计算，这个损失是为了训练之前文本生成树的网络参数，使其分数更加准确，计算公式如下：

上式中，t表示除该成分外文本内其他内容，δ是一个恒定的余量。

成分的含义：一个文本中，例如英文句子Thecatisonthechair.中每个单词都是一个成分，这个句子有6个成分。在这里，单词可以等同于成分，对不同语言，不一定有“单词”这一概念，就用成分统一表示。

当分数生成网络趋于稳定，此时可以得到文本生成树成分和图像显著区域的对齐，即每个x都有其对应的显著区域v。

用惯例的三元组损失函数，计算整张图片和文本的交叉熵损失，将文本生成树内的成分x和其对应的显著区域计算损失，以此来调整图文匹配网络。

进一步作为本方法优选实施例，所述匹配整体损失的计算公式如下：

上式中，m表示图片和文本的距离，T表示文本，V表示图像，V′表示与文本T不匹配的图片，γ表示边际参数，T′表示与图片V不匹配的文本，[x]₊＝max(x,0)。没有上标，表示两者是匹配的，有上标，表示两者不匹配，目的要让互为匹配的图文对距离损失比任何不匹配的图文对距离都小。

如图2所示，一种基于文本树局部匹配的图文跨模态检索系统，包括：

树生成模块，用于根据文本特征生成文本树；

具体地，此处包括两个网络迭代训练，一个网络是生成文本成分分数的网络，一个是计算图文对距离的网络。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于文本树局部匹配的图文跨模态检索方法，其特征在于，包括以下步骤：

获取数据集并对数据集进行预处理和划分，得到训练集；

根据文本特征生成文本树；

获取待测数据并输入至跨模态检索模型，得到检索结果。

2.根据权利要求1所述一种基于文本树局部匹配的图文跨模态检索方法，其特征在于，所述获取数据集并对数据集进行预处理和划分，得到训练集这一步骤，其具体包括：

根据图文对应关系生成字典数据；

将字典数据按照预设比例划分，得到训练集和测试集。

3.根据权利要求2所述一种基于文本树局部匹配的图文跨模态检索方法，其特征在于，所述将训练集中的图片和文本分别输入对应网络进行特征提取，得到图片特征和文本特征这一步骤，其具体包括：

将训练集中的图片切片并输入至线性网络，得到图片特征；

4.根据权利要求3所述一种基于文本树局部匹配的图文跨模态检索方法，其特征在于，所述根据文本特征生成文本树这一步骤，其具体包括：

将文本特征输入至前馈神经网络生成初步输出分数；

5.根据权利要求4所述一种基于文本树局部匹配的图文跨模态检索方法，其特征在于，所述根据相邻两个分量的L2范数和对每个文本特征进行合并，迭代生成文本树这一步骤，其具体包括：

将L2范数和最高的两项进行合并，得到合并后分数；

将合并后分数和其他分量的分数进行归一化处理；

6.根据权利要求5所述一种基于文本树局部匹配的图文跨模态检索方法，其特征在于，所述根据文本树和图片特征进行图文对相似度计算并反向传播训练网络，得到跨模态检索模型这一步骤，其具体包括：

将文本树和图片特征输入至预设的图文匹配网络；

7.根据权利要求6所述一种基于文本树局部匹配的图文跨模态检索方法，其特征在于，所述匹配整体损失的计算公式如下：

8.一种基于文本树局部匹配的图文跨模态检索系统，其特征在于，包括：

树生成模块，用于根据文本特征生成文本树；