CN113902764A

CN113902764A - 基于语义的图像-文本的跨模态检索方法

Info

Publication number: CN113902764A
Application number: CN202111374052.1A
Authority: CN
Inventors: 杨晓春; 李晓静; 郑晗; 王斌; 张晓红
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-01-07

Abstract

本发明提供一种基于语义的图像‑文本的跨模态检索方法，涉及数据库技术领域。本发明解决了现存在的方法缺乏对语义的理解，尤其是图像，在图像‑文本跨模态匹配中，通过增强图像表示，加强对语义的理解。在图像文本匹配的过程，增强相关信息，抑制不相关的信息。这样更有利于图像‑文本的跨模态匹配。对比于全局匹配，本文将能细粒度的找到所有匹配的信息，不完全依赖实体共现。并且巧妙的应用了注意力机制和门控机制，实现图像文本跨模态匹配。

Description

基于语义的图像-文本的跨模态检索方法

技术领域

本发明涉及数据库技术领域，尤其涉及一种基于语义的图像-文本的跨模态检索方法。

背景技术

由于来自社交媒体和网络应用的多媒体数据的爆炸性增长，图像-文本双向检索在学术和工业界变得越来越流行。这个任务定义为给定一个图像去检索与图像语义相似的文本；给定一个文本去检索于文本语义相似的图像。图像-文本的跨模态检索本质是处理图像-文本匹配的任务。在一定程度上，图像-文本跨模态检索促进了视觉与语言的相互理解；同时可以应用到搜索引擎。但是，这一任务也面临很大的挑战，由于图像和文本属于不同的结构，学习两种异构的数据变得很困难。如何准确的度量两种不同结构的数据的对应关系是一个难题。

在近年，为了解决图像和文本的异构性，很多关于图像-文本的跨模态检索方法被提出来。但是很多是关于粗粒度的方法，通过神经网络的方法，把图像和文本直接映射到同一潜在的子空间；然后通过计算图像和文本特征之间的距离，度量两者的相似性；距离越小相似性越大，距离越大相似性越小。但是，这些方法粗略地捕捉了模态之间的对应关系，没有考虑图像和文本的语义对应，从而不能提高匹配的准确性。为了进一步提高匹配的准确性，一些方法探索了图像和文本之间的细粒度交互。同时为了更深入地理解这种细粒度的对应关系，最近的研究提出了跨模态图像-文本检索的细粒度对应的方法。每个图像和文本分别生成图像区域特征表示和文本单词特征表示，并将图像的区域与问文本的单词对齐。目前最好的对齐方法应用了注意力机制，将每个片段与来自另一个模态的所有片段对齐，是一种一对多的关系。它可以灵活地发现细粒度的对应关系，但是也存在不足。图像区域特征的提取只是像素级别的，图像区域之间的关系没有考虑，从而没有解决图像模态内的语义关系；在处理模态间的关系时，采用图像-文本的注意力机制，考虑了很多不相关的语义信息；从而不能准确的挖掘出图像-文本的细粒度语义对应。

发明内容

针对现有技术的不足，本发明提供一种基于语义的图像-文本的跨模态检索方法。

一种基于语义的图像-文本的跨模态检索方法，包括以下步骤：

步骤1、分别对待测图片的图像特征以及文本特征进行提取；

所述图像特征采用深度学习算法Faster R-CNN提取出每张图像的m个区域，再采用预训练残差网络提出每个区域的特征f_i，如下式所示：

v_i＝W_vf_i+b_v

其中W_v和b_v是学习参数；通过全连接学习f_i特征，生成图像的特征表示v_i，最终图像的特征表示如下式所示：

V＝{v_i|i＝1，…，m，v_i∈R^d}

V表示该图像的全部区域特征，m表示图像的区域个数，v_i表示该图像的区域特征，v_i表示该图像的区域特征，R^d表示特征维度；

所述文本特征采用双向门控循环单元生成文本表示，如下式所示

T＝{t_j|j＝1，…，n，t_j∈R^d}

T表示文本的全部单词特征，t_j表示文本中的第j个单词的特征表示，n表示文本中单词的个数，R^d表示特征维度

步骤2、增强图像表示：

采用双向门控循环单元RNN生成结合图像上下文的图像区域表示，把一张图片的每个区域看成一个节点，计算结合图像上下文的图像区域特征表示；如下式所示：

U＝{u_i|i＝1，…，m，u_i∈R^d}

其中W_g是学习参数；U表示结合上下文的图像特征表示，u_i表示第i个有上下文语义的区域特征；

步骤3、采用注意力机制进行跨模态检索，分别学习基于文本的区域特征，以及基于图像的单词特征；

其中跨模态检索分为图像-文本匹配和文本-图像匹配；

所述图像-文本匹配采用注意力机制将该图像的某一个区域与匹配句子中的所有单词对齐，将学习到每个区域对应的文本信息，得到一个新的表示，这个表示代表从文本传到视觉的语义信息；即先计算图像区域与句子单词的相似性，如下所示：

其中Z_ij度量图像区域和文本单词之间相似度，||·||表示l₂范数，对Z_ij进行归一化得到对横轴归一化后的相似性

再将

进行softmax归一化处理得到对

归一化后的相似性

如下式所示：

将它与对应的单词特征相乘再求和得到基于文本的区域表示

如下式所示：

所述文本-图像匹配如下所示：

对Z_ij进行归一化得到对纵轴归一化后的相似性

再将

进行softmax归一化处理得到对

归一化后的相似性

是基于图像的单词表示；

步骤4、采用了改进的门控机制加强图像-文本的语义匹配，过滤掉匹配中与设定不相关的信息，生成新的图像，同时进行文本-图像匹配，生成新的文本；如下式所示：

其中W_g，b_g，W_o，b_o是学习参数；g_i表示图像-文本的更新门，sigmoid()是一个激活函数，O_i表示图像-文本的融合特征；

同样使文本-图像匹配，生成新的文本表示

具体实现如下式所示：

其中W_h，b_h，W_m，b_m，是学习参数；g_j*表示文本-图像的更新门，O_j*表示文本-图像的融合特征；

步骤5、分别计算图像和文本的相似度；采用计算局部的相似性，求和平均得到图像和文本的相似性；如下式所示：

其中I_b表示给定图像，S表示匹配的文本；S_b表示给定图像，I表示匹配的文本；

G(I_b，S)，G(I，S_b)，分别表示匹配文本的得分和匹配图像的得分。

步骤6、采用最大硬度的排序损失函数L对设定批量的图像文本匹配进行训练，训练结束后，给定一张目标图像或者句子，即可找到最匹配的句子或者图像。

所述损失函数L如下式所示：

其中F(I_b，S_b)是G(I_b，S)和G(I，S_b)之和，表示是匹配文本得到分数；F(I_b，S_b*)是不匹配文本得到的分数；F(I_b*，S_b)表示不是匹配图像得到的分数，B表示最小批量；Δ表示边界值；[·]₊表示max()；

采用上述技术方案所产生的有益效果在于：

本发明提出了一种基于语义顺序的图像-文本的跨模态检索方法，主要解决现存在的方法缺乏对语义的理解，尤其是图像，它不像句子具有上下文关系。在图像-文本跨模态匹配中，通过增强图像表示，加强对语义的理解。在图像文本匹配的过程，增强相关信息，抑制不相关的信息。这样更有利于图像-文本的跨模态匹配。对比于全局匹配，本文将能细粒度的找到所有匹配的信息，不完全依赖实体共现。并且巧妙的应用了注意力机制和门控机制，实现图像文本匹配。

附图说明

图1为本发明总体流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种基于语义的图像-文本的跨模态检索方法，如图1所示，包括以下步骤：

步骤1、提取待测图片的图像和文本的特征；

所述图像特征采用深度学习算法Faster R-CNN提取出每张图像的m个区域，根据实验证明选取36个区域最佳。再采用预训练残差网络提出每个区域的特征f_i，本实施例中f_i为2048维；如下式所示：

v_i＝W_vf_i+b_v

其中W_v和b_v是学习参数；通过全连接学习f_i特征，生成v_i是1024维；最终图像的特征表示如下式所示：

V＝{v_i|i＝1，…，m，v_i∈R^d}

V表示该图像的全部区域特征，m表示图像的区域个数，v_i表示该图像的区域特征，v_i表示该图像的区域特征，R^d表示v_i的特征维度；

本实施例中m＝36；

T＝{t_j|j＝1，…，n，t_j∈R^d}

T表示文本的全部单词特征，t_j表示文本中的第j个单词的特征表示，n表示文本中单词的个数，R^d表示t_j的特征维度

步骤2、增强图像表示；

图像的区域表示，不像文本一样具有语义顺序。在一张图像中，每个区域之间存在语义关系，但是步骤1所提取出来的区域特征缺乏这种上下文的语义关系。采用双向门控循环单元生成结合上下文的图像区域表示，把一张每个区域看成一个节点，计算结合上下文的图像区域特征表示。如下式所示：

U＝{u_i|i＝1，…，m，u_i∈R^d}

步骤3、采用注意力机制，分别学习基于文本的区域特征，基于图像的单词特征；

跨模态检索分为图像-文本匹配和文本-图像匹配两个部分，两个部分的网络结构是对称的，先详细介绍图像-文本匹配。

所述图像-文本匹配采用注意力机制将该图像的某一个区域与匹配句子中的所有单词对齐，将学习到每个区域对应的文本信息，得到一个新的表示，这个表示代表从文本传到视觉的语义信息；具体实现，先计算图像区域与句子单词的相似性，如下所示：

再将

进行softmax归一化处理得到对

归一化后的相似性

如下式所示：

将它与对应的单词特征相乘再求和得到基于文本的区域表示

如下式所示：

同样，文本-图像匹配，具体实现如下：

对Z_ij进行归一化得到对纵轴归一化后的相似性

再将

进行softmax归一化处理得到对

归一化后的相似性

步骤4、采用了改进的门控机制加强图像-文本的语义匹配，过滤掉匹配中不相关的信息，具体说，增强相关信息，抑制不相关信息，生成新的图像表示

如下式所示：

同样使文本-图像匹配，生成新的文本表示

具体实现如下式所示：

步骤5、计算图像和文本的相似度；

在度量图像和文本的相似度采用计算局部的相似性，求和平均得到图像和文本的相似性，如下式所示：

步骤6、采用最大硬度的排序损失函数对图像文本匹配进行训练，一次对所有的数据进行训练，会降低计算效率，选择小批量一次次进行计算。训练结束后，给定一张图像或者句子，即可找到最匹配的句子或者图像。

损失函数L如下式所示：

其中F(I_b，S_b)是G(I_b，S)和G(I，S_b)之和，表示是匹配文本得到分数；F(I_b，S_b*)是不匹配文本得到的分数；F(I_b*，S_b)表示不是匹配图像得到的分数，B表示最小批量；Δ表示边界值；[·]₊表示max()。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。