CN113392254A

CN113392254A - 一种基于上下文感知注意的图像文本检索方法

Info

Publication number: CN113392254A
Application number: CN202110332595.0A
Authority: CN
Inventors: 廖开阳; 黄港; 郑元林; 章明珠
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-09-14

Abstract

本发明公开了一种基于上下文感知注意的图像文本检索方法，给定一个图像文本对，分别提取图像文本的区域特征，并将图像及文本特征映射成相同大小的维度；将提取的图像文本特征进行特征融合；在融合成的特征矩阵中提取图像片段特征与文本中的单词特征，并分别进行融合求得相似权重，对跨模态提取的特征进行归一化处理；利用图像文本匹配损失对模型进行训练；本发明的方法能够通过对图像数据库中的图像进行识别和检索，实现图片和文本的匹配。

Description

一种基于上下文感知注意的图像文本检索方法

技术领域

本发明属于图像检索方法技术领域，涉及一种基于上下文感知注意的图像文本检索方法。

背景技术

现代社会对图像检索技术的需求遍布人们生活各处，特别是在电子商务、版权保护、医疗诊断、公共安全、街景地图等领域，图像检索应用都具有广阔的商业前景。例如在电子商务方面，谷歌推出Goggles允许用户将拍摄的商品图像上传至服务器端，并在服务器端运行图像检索应用，从而为用户找到提供相同或相似商品的店铺的链接；而在版权保护方面，版权保护服务商可以应用图像检索技术对商标进行管理，例如查询待处理商标是否已经注册；在医疗诊断方面，图像检索技术可以协助医生做病情的诊断，例如医生通过归类和检索医学图像库，可以更好的找到患者的病灶；而在街景地图等应用中，图像检索技术可以帮助使用者发现街景中的物体，从而发现和规避危险。图像检索技术目前已经被深入应用到许多领域，为用户们的生产和生活提供了极大的便利。

常用的图像检索技术主要为基于文本的图像检索(TBIR,Text-Based Image Re-trieval)，基于内容的图像检索(CBIR，Context-Based Image Retrival)，以及基于语义的图像检索(SBIR，Semantic-Based Image Retrieval)。 TBIR的优点是实现过程简单，容易理解，符合人类检索习惯，并且检索结果较为精确。但是TBIR需要耗费大量的人力对图像做人工标注，这无法满足大型的多媒体数据库的需求，特别是当新数据出现时TBIR需要对图像重新标注，因此很难快速适应，且TBIR无法解决标注人员在内容感知和描述上的主观性。为了克服TBIR的问题，专家提出了CBIR。CBIR的优点是可以通过设计算法直接从图像内容中提取特征，然后通过比对特征的相似度来定义图像的相似度，这样可以减少人工的消耗，并且CBIR使用的近似匹配方式相比于TBIR具有更快的检索和排序速度，然而CBIR技术也具有自身缺陷。互联网上的图像往往来自于不同的环境和领域，基于低级视觉特征的 CBIR技术受限于特征表达能力，在现实应用中会存在严重的语义鸿沟问题，因此在CBIR的基础上，人们提出了SBIR技术。与基于低级视觉特征的CBIR 技术不同，SBIR技术结合了自然语言处理和计算机视觉技术，使用图像的高级语义特征查询。目前来看，SBIR技术代表了大数据时代的图像检索发展方向，在未来SBIR技术会在更多的领域大放异彩。

在2012年，Krizhevsky等(Krizhevsky A,Sutskever I,Hinton G E.Image netclassification with deep convolutional neural networks[c]//Advances in neural information processing systems,2012:1097-1105.)在ImageNet LSVRC 大赛上利用AlexNet获得了最高的准确率，从那之后兴起了一些基于深度学习的图像检索算法，广泛应用在图像语义分割、目标识别、图像分类以及图像检索等领域。在深度学习算法中特别是卷积神经网络的检索效果最好，它利用多个池化层和卷积层的组合得到图像的视觉特征，并与反馈及分类技术相结合从而实现了较好的检索结果。

发明内容

本发明的目的是提供一种基于上下文感知注意的图像文本检索方法，能够通过对图像数据库中的图像进行识别和检索，实现图片和文本的匹配。

本发明所采用的技术方案是，一种基于上下文感知注意的图像文本检索方法，具体按以下步骤实施：

步骤1，给定一个图像文本对，分别提取图像文本的区域特征，并将图像及文本特征映射成相同大小的维度；

步骤2，将提取的图像文本特征进行特征融合；

步骤3，在融合成的特征矩阵中提取图像片段特征与文本中的单词特征，并分别进行融合求得相似权重，对跨模态提取的特征进行归一化处理；

步骤4，利用图像文本匹配损失对模型进行训练。

本发明的特点还在于：

其中步骤1具体包括以下内容：

首先使用R-CNN检测图像中的对象和其他显著区域：在这部分中，模型使用贪心的非最大抑制和IOU阈值来选择排名最高的特征；对于每个区域 i，将通过x_i的线性映射最终得到特征为v_i的D维向量；其中x_i为通过R-CNN 提取的原始均值池化卷积特征；

因此，目标图像v可以表示为具有最高类别检测置信分数的选定ROI的一组特征；

为了与图像对应，将文本句子中的词映射到与图像区域相同的D维空间；给定一个句子中m个输入字的一个热编码w＝{W₁,L,W_M}，首先将其嵌入到向量中，作为词的嵌入层作为x_i＝W_ew_i，W_e是端到端参数学习矩阵；然后，将向量输入到一个双向GRU，被写为下式：

式中，GRU是提取特征的网络，x为转换成与图像特征维度相同的向量，将向量x输入双向GRU中，最后的输出的特征是一个前向和一个后向，所以应该连接起来求平均，为u，

和

分别表示向前和向后的隐藏状态；u_i的最后一个词是双向隐藏状态的平均值，它收集以w_i为中心的上下文：

其中步骤2具体包括以下内容：

对图像和文本进行特征融合，公式为H＝tanh(V^TKU)，其中图像V和文本 U的特征图分别表示为V＝[v₁,L,v_n]和U＝[u₁,L,u_m]，K为进行融合时的权重矩阵，H为融合后的特征矩阵；

其中步骤3中在融合成的特征矩阵H中分别提取图像特征与文本特征，并分别进行融合求得相似权重的具体过程为：

区域的归一化注意函数f(V,U)可以表示为：

式中W^v是映射向量，H^v是捕获区域内模态相关性的注意力矩阵，H^uv是单词到区域重新加权的注意矩阵。同样，针对单词的标准化注意力函数 g(V,U)编写如下：

设计的注意功能f(V,U)和g(V,U)根据全局上下文有选择地关注那些信息片段，同时应用了模态间注意和模态内注意；

其中步骤3中对跨模态提取的特征进行归一化的具体过程为：

词对图像注意矩阵H^uv中的每个元素，从相似矩阵H的行中选取，并进行二范数归一化处理，计算表达式为：

相似地，图像对单词的注意力H^vu计算为：

考虑到检索过程中跨两种模式的交互和消息传递，我们提出了基于语义的注意，以探索基于区域-单词关系的模式内相关性，工作中，使用模态间比对度可解释性一阶注意：

式中，norm(·)表示对输入向量L1的归一化运算，作为模态间注意矩阵 H^uv的第i行，H_i ^uv被视为相对于给定v_i的所有单词的单词到区域亲和力分布或响应向量，它测量v_i与整个单词特征集[u₁,L,u_m]之间的距离，因此，每个元素

是两个区域词响应向量

和

的相似度，模态内注意过程是由全局语义信息驱动的，因此它是根据给定的上下文而不是原始的无上下文特征来区分语义；

其中步骤4中利用图像文本匹配损失对模型进行训练的具体过程为：

将图像V和文本U的特征图分别表示为V＝[v₁,L,v_n]和U＝[u₁,L,u_m]，将图像文本检索的关注过程定义为：

其中f(·)和g(·)是注意力函数，分别计算每个局部片段v_i和u_i的得分；通过损失函数来进行权重比较，使用基于HingeLoss的双向排名损失函数：

m为约束条件，

和

为负对，v_i定义为内积；最终的图像和文本特征

和

作为局部计算的权重值。

本发明的有益效果是：

本发明的一种基于上下文感知注意的图像文本检索方法，是面对图像文本搜索基于一种统一的上下文感知注意力网络，分别使用RNN和R-CNN对文本和图像特征进行提取，然后对提取出来的对象片段进行处理，对图像和文本特征进行加权求和，得到相似性矩阵，保留关键的特征卷积描述符对图像数据库中的图像特征进行相似性度量，根据度量后的不同相似度对比，得到相似度排名。在使用统一的上下文感知注意力网络时，通过全局的上下文选择关注局部单词和图像，进而发现潜在的语义关系。基于语义的注意力被表述为区域词对齐的一阶注意，它明确考虑了模态之间的相互作用，并有效地利用区域词关系来推断单个模态中的语义相关性。它知道当前的输入对，并且图像-文本对的综合上下文可以直接影响检索过程中彼此响应的计算。

附图说明

图1是本发明的一种基于上下文感知注意的图像文本检索方法的结果示意图；

图2是本发明的一种基于上下文感知注意的图像文本检索方法中对提取的图像与文本特征进行融合示意图；

图3是本发明的一种基于上下文感知注意的图像文本检索方法中实现图像文本检索的步骤示意图

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

结合图像文本检索方法的框架图，如图2所示，分别将图像和文本传入不同的模型中，模型为R-CNN和RNN；将图像和文本提取的特征转换为相同的维度，特征图分别表示为V＝[v₁,L,v_n]和U＝[u₁,L,u_m]并进行特征融合生成相似矩阵H；考虑到上下文的语义信息，我们分别提取相似矩阵H的行和列经过归一化及特征融合后，得到图像和文本相同模态内的相似矩阵H^v和H^u；如图1所示；

为了实现图像文本跨模态检索，实现不同模态的特征融合，提出注意力机制；注意机制旨在专注于相应任务的最相关信息，而不是平等地使用所有可用信息；是针对交叉模式检索问题而设计的注意力机制；利用注意力机制分别计算每个局部片段v_i和u_i的得分，最终的图像和文本特征

和

作为局部计算的权重值，通过匹配函数S(·)，实现图像与文本目标最相近的匹配结果，通过结果的比较，来判断检索的精确程度。

本发明提供了一种基于上下文感知注意的图像文本检索方法，具体按照以下步骤实施：

步骤1，如图3所示，给定一个图像文本对，分别提取图像文本的区域特征，并将图像及文本特征映射成相同大小的维度：

在给定图像的情况下，我们观察图像时更加关注其显著对象，并描述其动作和属性。我们不着眼于从像素级图像中提取全图特征，而是着眼于局部区域并利用底层优势，我们使用R-CNN检测图像中的对象和其他显著区域。在这部分中，模型使用贪婪的非最大抑制和IOU阈值来选择排名最高的特征。对于每个区域i，将通过x_i的线性映射最终得到特征为v_i的D维向量。其中x_i为通过R-CNN提取的原始均值池化卷积特征；

因此，目标图像v可以表示为具有最高类别检测置信分数的选定ROI的一组特征。

为了发现区域词对应，将句子中的词映射到与图像区域相同的D维空间。我们考虑一次对单词及其上下文进行编码，而不是单独处理每个单词。给定一个句子中m个输入字的一个热编码w＝{W₁,L,W_M}，我们首先将其嵌入到向量中，作为词的嵌入层作为x_i＝W_ew_i，在这里W_e是端到端参数学习矩阵。然后，我们将向量输入到一个双向GRU，它被写为：

和

步骤2，将提取的图像文本特征进行特征融合：

注意机制旨在专注于相应任务的最相关信息，而不是平等地使用所有可用信息；我们首先提供针对交叉模式检索问题而设计的注意力机制的一般表述，将图像V和文本U的特征图分别表示为V＝[v₁,L,v_n]和U＝[u₁,L,u_m]；设置相似矩阵H＝tanh(V^TKU)，其中K为权重矩阵，表示图像和文本进行特征融合；

步骤3，在融合成的特征矩阵中提取图像片段特征与文本中的单词特征，并分别进行融合求得相似权重，对跨模态提取的特征进行归一化处理：

注意池网络基于每个片段的重要性表示为其与另一模态片段的最大相似性的假设，执行按列和按行的最大池，当f(V,U)在H上应用行最大池运算后成为softmax计算时，它是所提出的注意过程的一个替代版本；此外，我们不仅计算相似矩阵，而且将其用作预测注意力图的特征，更具体地说，一个片段的重要性得分是由所有相关片段决定的，考虑到单个模态中的模态内相关性和所有区域词对之间的模态间对齐。基于此考虑，区域的归一化注意函数f(V,U)可以表示为：

式中，W^v是映射向量，H^v是捕获区域内模态相关性的注意力矩阵，H^uv是单词到区域重新加权的注意矩阵，同样，针对单词的标准化注意力函数g(V,U)编写如下：

相似地，图像对单词的注意力H^vu计算为：

考虑到检索过程中跨两种模式的交互和消息传递，我们提出了基于语义的注意，以探索基于区域-单词关系的模式内相关性，在我们的工作中，我们使用模态间比对的可解释性一阶注意：

式中，norm(·)表示对输入向量L1的归一化运算。作为模态间注意矩阵H^uv的第i行，H_i ^uv被视为相对于给定v_i的所有单词的单词到区域亲和力分布或响应向量。它测量v_i与整个单词特征集[u₁,L,u_m]之间的距离。因此，每个元素

是两个区域词响应向量

和

的相似度。模态内注意过程是由全局语义信息驱动的。因此它是根据给定的上下文而不是原始的无上下文特征来区分语义；

步骤4，利用图像文本匹配损失对模型进行训练：

将图像V和文本U的特征图分别表示为V＝[v₁,L,v_n]和U＝[u₁,L,u_m]；将图像文本检索的关注过程定义为：

式中，f(·)和g(·)是注意力函数，分别计算每个局部片段v_i和u_i的得分；通过损失函数来进行权重比较，使用基于HingeLoss的双向排名损失函数：

m为约束条件，

和

为负对，v_i定义为内积；最终的图像和文本特征

和

作为局部计算的权重值。