CN117009570A

CN117009570A - 一种基于位置信息与置信度感知的图文检索方法及装置

Info

Publication number: CN117009570A
Application number: CN202310971193.4A
Authority: CN
Inventors: 房小兆; 骆衍良; 胡曦; 曾峙翔; 周郭许; 谢胜利
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-11-07

Abstract

本发明公开了一种基于位置信息与置信度感知的图文检索方法及装置，包括：获取待检索对象；待检索对象为待检索图像或待检索文本；当待检索对象为待检索图像时，提取待检索图像的图像区域特征；在预设语料库的各文本信息中提取文本单词特征；采用文本单词特征生成句子级文本特征；计算图像区域特征与句子级文本特征的第一置信度；根据第一置信度确定待检索图像对应的文本信息；当待检索对象为待检索文本时，提取待检索文本的单词特征；在预设图像库中的各图像中提取单词特征对应的局部图像特征；采用局部图像特征生成全局图像特征；计算待检索文本与全局图像特征的第二置信度；根据第二置信度确定待检索文本对应的图像。提高了跨模态检索的性能。

Description

一种基于位置信息与置信度感知的图文检索方法及装置

技术领域

本发明涉及数据检索技术领域，尤其涉及一种基于位置信息与置信度感知的图文检索方法及装置。

背景技术

随着智能设备和社会网络的不断发展，互联网上的多媒体资料在数字图书馆、知识产权、医疗保健、时尚设计、电子商务、环境监测、地球信息系统、通信系统和军事系统等领域中呈现出爆炸式增长的趋势。这些多媒体资料包括文字、图像、视频和音频等多种模态，虽然它们的格式不同，但他们在语义上是相互关联的。

传统的信息检索方法是单模态检索，即检索集合查询集是相同的模态，例如文本检索文本、图像检索图像、视频检索视频等。在图像检索中，单模态检索技术主要包括基于文字关键字的检索、基于图像底层特征的检索和基于语义模型的检索等方法，这些方法在单模态检索过程中可以获得较好的检索效果，但所获取的信息仅限于单一模态的数据。然而，随着多媒体资料的增长和复杂性的提高，单模态检索已无法满足人们对高效、全面和准确信息检索的需求。

当面对大量互联的多媒体资料时，人们迫切需要从这些模态数据中找到相关联的其他模态的辅助资料，例如从图片中提取相关的文字信息或从文字中提取出相关的图片。由于文字和图片属于不同的模态，因此，对这些多模态数据进行搜索的过程被称为跨模态检索。

然而，图像和文本有着不同的底层特征，图像的底层特征是颜色、纹理、形状等，而文字的底层特征是单词、短语和句子等。不难看出，图像和文本具有不同的表示和分布，图文两个模态的数据特征存在较大的异构鸿沟，无法直接比较两种模态间的相似性。

目前针对这些挑战开展的工作主要有基于全局的粗粒度检索方法和基于局部的细粒度检索方法。基于全局的粗粒度检索，主要是从整体图像和完整句子中抽取整体表达，再将这些表达端到端投影到构建的共享子空间中，其中视觉嵌入和文本嵌入的相似度可以直接在子空间中通过相似函数计算。早期，一般的公共空间学习基准是典型的相关性分析CCA，该方法通过线性投影，将跨模态数据编码到高度相关的公共子空间中。DCCA则通过多个非线性变换层的叠加，来学习图像和文本表示的最大化相关性；在这之后，很多学者在对映射处理中引入DNN，将DNN和CCA的深度典型相关分析结合，或是建议将图像和文本分别用CNN和LSTM编码；由于CNN和LSTM都有很好的表达功能，因此能够对图像和文本进行更强的特征表达，从而改善相关模型的性能；随后，VSE++引入了hard-negatives的概念，它将作为许多后续研究的基础。

基于全局的粗粒度检索方法虽然能通过映射方式进行相似度计算，但是不能从图像和文本中提取大量的信息，为更好地解决视觉语义差别，后续研究引入了局部匹配算法。与传统的CNN相比，区域图像文本匹配算法更适合于利用目标检测来检测图像中的对象，同时，文本编码器输出的是单词特征矩阵，而非全局语句矢量，可根据局部对其算法得到更精确的图像和句子中的细节匹配；此时提出了一种方法来检测图像中的对象并将它们编码到子空间中，其中，成对的图像-文本相似度是通过总结所有区域-单词对的相似度来计算的。还有SCAN引入了自下而上的注意力方案，并使用预训练的Faster R-CNN将图像编码为区域级特征，同时将文本编码为单词级特征。

然而，现有的基于注意力的方法只关注区域关系，较少关注区域对象与全局概念之间的关系，当图像的显著区域被分开查看时，它们的视觉语义是片段化的，以至于局部对其的区域-单词可能与全局的图像-文本语义不一致；并且大多数现有的方法中忽略了显著区域在图像中的相对位置信息，比如在图像中央的目标往往比在图像边缘的目标更加重要，因此也很难对不同模态的数据之间的复杂对应关系进行很好的建模，在一定程度上限制了跨模态检索模型的性能。

发明内容

本发明提供了一种基于位置信息与置信度感知的图文检索方法及装置，用于解决现有的跨模态检索方式性能较差的技术问题。

本发明提供了一种基于位置信息与置信度感知的图文检索方法，包括：

获取待检索对象；所述待检索对象为待检索图像或待检索文本；

当所述待检索对象为待检索图像时，提取所述待检索图像的图像区域特征；

在预设语料库的各文本信息中提取文本单词特征；

采用所述文本单词特征生成句子级文本特征；

计算所述图像区域特征与所述句子级文本特征的第一置信度；

根据所述第一置信度确定所述待检索图像对应的文本信息；

当所述待检索对象为待检索文本时，提取所述待检索文本的单词特征；

在预设图像库中的各图像中提取所述单词特征对应的局部图像特征；

采用所述局部图像特征生成全局图像特征；

计算所述待检索文本与所述全局图像特征的第二置信度；

根据所述第二置信度确定所述待检索文本对应的图像。

可选地，所述提取所述待检索图像的图像区域特征的步骤，包括：

将所述待检索图像划分为多个区域，并提取各所述区域的视觉特征；

获取各区域的位置索引，并采用所述位置索引生成各区域的位置信息；

拼接各区域对应的视觉特征和位置信息，得到各区域的图像区域特征。

可选地，所述在预设语料库的各文本信息中提取文本单词特征的步骤，包括：

将预设语料库的各文本信息拆分为若干个单词；

获取每个单词的前向词向量和后向词向量；

获取所述前向词向量的第一隐藏状态，以及所述后向词向量的第二隐藏状态；

计算所述第一隐藏状态和所述第二隐藏状态的平均值，得到所述单词的文本单词特征。

可选地，所述采用所述文本单词特征生成句子级文本特征的步骤，包括：

获取所述文本单词特征的注意力分数；

采用所述注意力分数作为加权系数对所述文本单词特征进行加权平均，得到句子级文本特征。

可选地，所述计算所述图像区域特征与所述句子级文本特征的第一置信度的步骤，包括：

计算各所述图像区域特征和各所述文本单词特征之间的相似度矩阵；

对所述相似度矩阵进行归一化，得到归一化相似度矩阵；

根据所述归一化相似度矩阵生成各所述图像区域特征和各所述文本单词特征之间的相似性分数；

以所述相似性分数为权重，对所述文本单词特征进行加权平均，得到与所述图像区域特征匹配的语义相关文本；

计算所述图像区域特征与所述语义相关文本之间的局部语义相似向量；

计算所述待检索图像的全局图像特征向量和所述文本信息的全局文本特征向量；

计算所述全局图像特征向量和所述全局文本特征向量之间的全局语义相似向量；

采用所述局部语义相似向量和所述全局语义相似向量计算所述图像区域特征与所述句子级文本特征的第一置信度。

本发明还提供了一种基于位置信息与置信度感知的图文检索装置，包括：

待检索对象获取模块，用于获取待检索对象；所述待检索对象为待检索图像或待检索文本；

图像区域特征提取模块，用于当所述待检索对象为待检索图像时，提取所述待检索图像的图像区域特征；

文本单词特征提取模块，用于在预设语料库的各文本信息中提取文本单词特征；

句子级文本特征生成模块，用于采用所述文本单词特征生成句子级文本特征；

第一置信度计算模块，用于计算所述图像区域特征与所述句子级文本特征的第一置信度；

文本信息确定模块，用于根据所述第一置信度确定所述待检索图像对应的文本信息；

单词特征提取模块，用于当所述待检索对象为待检索文本时，提取所述待检索文本的单词特征；

局部图像特征提取模块，用于在预设图像库中的各图像中提取所述单词特征对应的局部图像特征；

全局图像特征生成模块，用于采用所述局部图像特征生成全局图像特征；

第二置信度计算模块，用于计算所述待检索文本与所述全局图像特征的第二置信度；

图像检索模块，用于根据所述第二置信度确定所述待检索文本对应的图像。

可选地，所述图像区域特征提取模块，包括：

视觉特征提取子模块，用于将所述待检索图像划分为多个区域，并提取各所述区域的视觉特征；

位置信息生成子模块，用于获取各区域的位置索引，并采用所述位置索引生成各区域的位置信息；

拼接子模块，用于拼接各区域对应的视觉特征和位置信息，得到各区域的图像区域特征。

可选地，所述文本单词特征提取模块，包括：

拆分子模块，用于将预设语料库的各文本信息拆分为若干个单词；

词向量获取子模块，用于获取每个单词的前向词向量和后向词向量；

隐藏状态获取子模块，用于获取所述前向词向量的第一隐藏状态，以及所述后向词向量的第二隐藏状态；

文本单词特征计算子模块，用于计算所述第一隐藏状态和所述第二隐藏状态的平均值，得到所述单词的文本单词特征。

本发明还提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的基于位置信息与置信度感知的图文检索方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上所述的基于位置信息与置信度感知的图文检索方法。

从以上技术方案可以看出，本发明具有以下优点：本发明通过获取待检索对象；待检索对象为待检索图像或待检索文本；当待检索对象为待检索图像时，提取待检索图像的图像区域特征；在预设语料库的各文本信息中提取文本单词特征；采用文本单词特征生成句子级文本特征；计算图像区域特征与句子级文本特征的第一置信度；根据第一置信度确定待检索图像对应的文本信息；当待检索对象为待检索文本时，提取待检索文本的单词特征；在预设图像库中的各图像中提取单词特征对应的局部图像特征；采用局部图像特征生成全局图像特征；计算待检索文本与全局图像特征的第二置信度；根据第二置信度确定待检索文本对应的图像。提高了跨模态检索的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的跨模态检索模型的结构示意图；

图2为本发明实施例提供的一种基于位置信息与置信度感知的图文检索方法的步骤流程图；

图3为本发明实施例提供的一种基于位置信息与置信度感知的图文检索装置的结构框图。

具体实施方式

本发明实施例提供了一种基于位置信息与置信度感知的图文检索方法及装置，用于解决现有的跨模态检索方式性能较差的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的跨模态检索模型的结构示意图；跨模态检索模型可以包括特征提取部分和语义对齐部分，其中，特征提取部分包括图像视觉特征提取模块、图像位置信息聚合模块和文本语义特征提取模块；图像视觉特征提取模块，用于获取图像的区域特征；图像位置信息聚合模块，用于将图像区域位置信息聚合到图像区域特征中；文本语义特征提取模块，用于获取文本所包含单词的特征；图像区域特征和文本单词特征构成不同模态的高层语义特征。

语义对齐部分包括注意力模块和置信度匹配模块；注意力模块，用于将不同模态数据的高层语义特征映射到同一个公共潜在空间中，并通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数，以注意力分数作为加权系数，将对应特征进行加权平均，得到与图像区域匹配的语义相关文本向量或与文本单词匹配的语义相关图像区域向量。

跨模态检索模型可以以图像库和对应的语料库作为训练集进行训练，训练过程中可以采用三元组损失作为目标函数，该目标函数用于跨模态检索领域来拉近同类样本间的距离，推远异类样本间的距离，从而已被证明能够最大化相关图像-文本对的相关性得分，最小化不相关图像-文本对的相关性得分。具体的，根据真实匹配的正样本在返回结果中的排名，给每个三元组分配不同的惩罚权重，用来训练跨模态检索模型，最后得到模型的最优解。损失函数定义为：

其中，[x]₊＝max(x,0)，β为边界值(margin)，并且为了确保训练过程的效率，将训练集分为多个小批量(mini-batch)进行训练，S(I,T^*)和S(I^*,T)分别表示每个小批量中的最难负样本对(the hardestnegative pair)，即最接近正样本对的负样本对。

在训练好后，可以在跨模态检索模型中输入待检索对象，以获得相应的检索结果。

基于图1的跨模态检索模型，本发明提供了一种基于位置信息与置信度感知的图文检索方法。

请参阅图2，图2为本发明实施例提供的一种基于位置信息与置信度感知的图文检索方法的步骤流程图。

本发明提供的一种基于位置信息与置信度感知的图文检索方法的步骤流程图，具体可以包括以下步骤：

步骤201，获取待检索对象；待检索对象为待检索图像或待检索文本；

在本发明实施例中，跨模态检索的待检索对象可以为待检索图像或者待检索文本。当待检索对象为待检索图像时，检索目标是文本。当待检索对象为待检索文本时，检索目标是图像。

步骤202，当待检索对象为待检索图像时，提取待检索图像的图像区域特征；

在本发明实施例中，当待检索对象为待检索图像时，跨模态检索模型首先可以提取待检索图像的图像区域特征，通过图像区域特征来检索相应的文本。

在一个示例中，提取待检索图像的图像区域特征的步骤，可以包括以下子步骤：

S2021，将待检索图像划分为多个区域，并提取各区域的视觉特征；

S2022，获取各区域的位置索引，并采用位置索引生成各区域的位置信息；

S2023，拼接各区域对应的视觉特征和位置信息，得到各区域的图像区域特征。

在具体实现中，可以使用FasterR-CNN模型来检测待检索图像中的物体。为了获得更好的特征表示，可以将检测到的物体输入到预训练好的ResNet-152中提取视觉特征，得到D维的全局特征向量v_g。局部特征提取中对于每个输入图像I采用自顶向上注意力的方法提取M个区域的特征表达，然后添加全连接层将输出维数转变为D维向量作为局部的特征表达V＝{v₁,v₂,···,v_m}，v_i∈R^D，其中v_i代表局部区域的视觉特征。其中D＝2048维。

在采集到待检索图像的视觉特征后，可以获取待检索图像的位置信息，并将位置信息与视觉特征进行拼接，得到待检索图像各区域的图像区域特征。

在一个示例中，给定图像I＝{v₁,v₂,···,v_m}，v_i∈R^D，为了显示区域v_i在整个图像I中的相对位置，可以首先将图像I等分为K×K的块B，并将每个块作为基本位置单元。每个块的位置最初用索引k∈[1,K²]来表示。首先为区域vi定义一个向量a_i∈R^z用来区分不同位置的重要性，然后根据区域v_i与固定块的重叠来定位区域v_i在整张图像I中的位置：设p_i∈R^z表示区域v_i的位置索引向量，其定义为与区域v_i重叠的Z个块的索引。

其中p_ij∈[1,K²]表示与区域vi重叠的第j个块的块索引，overlap(v_i,b_q)表示区域vi与第q个块的相交像素。

然后将区域p_i的最终位置表示与视觉特征v_i拼接起来，以允许该区域特征携带位置信息：

再将最终的区域表示投影到D维特征/>中，作为该区域的图像区域特征。

步骤203，在预设语料库的各文本信息中提取文本单词特征；

在本发明实施例中，要实现跨模态检索，需要建立不同模态之间的关联关系，本发明以特征为基础，实现图像和文本两个模态之间的联系。

在一个示例中，步骤203可以包括以下子步骤：

S2031，将预设语料库的各文本信息拆分为若干个单词；

S2032，获取每个单词的前向词向量和后向词向量；

S2033，获取前向词向量的第一隐藏状态，以及后向词向量的第二隐藏状态；

S2034，计算第一隐藏状态和第二隐藏状态的平均值，得到单词的文本单词特征。

在具体实现中，可以通过循环神经网络来获取文本特征，其中，循环神经网络可以是LSTM网络、GRU网络中的任意一种。

以双向GRU网络(Bi-GRU)为例，Bi-GRU架构是在GRU的基础上进行改进得到的，由一个前向GRU和一个反向GRU构成。对于一个文本语句T，假定其包含的单词数量为N，用一个基于GRU的文本编码器将每个单词分别映射为D维的词向量：e_j＝W_ew_j，j∈{1,···,N}。

通过汇总句子中两个方向的信息，使用双向GRU将词向量和上下文语义共同映射得到最终的文本单词特征。双向GRU包含一个前向GRU(Forward GRU)和一个反向GRU(Backward GRU)。前向GRU按照从w₁到w_N的顺序读取句子：反向GRU则与之顺序相反：/>其中，/>和/>分别表示从前向GRU和反向GRU中生成的隐藏状态(hidden state)。每个单词的文本特征则表示为前向GRU和反向GRU的隐藏状态的平均值：/>而全文T的全局特征向量t_g表示为：/>其中权重w_j是t_j与t_ave之间的归一化相似度，其中/>

步骤204，采用文本单词特征生成句子级文本特征；

在得到语料库中各文本信息的文本单词特征后，可以生成各图像区域特征对应的句子级文本特征。

在一个示例中，步骤204可以包括以下子步骤：

S2041，获取文本单词特征的注意力分数；

S2042，采用注意力分数作为加权系数对文本单词特征进行加权平均，得到句子级文本特征。

在具体实现中，可以将不同模态数据的高层语义特征映射到同一个公共潜在空间中，并通过注意力机制对文本单词特征分配注意力分数，以注意力分数作为加权系数，将对应特征进行加权平均，得到与图像区域匹配的句子级文本特征。

步骤205，计算图像区域特征与句子级文本特征的第一置信度；

在本发明实施例中，步骤205可以包括以下子步骤：

S2051，计算各图像区域特征和各文本单词特征之间的相似度矩阵；

S2052，对相似度矩阵进行归一化，得到归一化相似度矩阵；

S2053，根据归一化相似度矩阵生成各图像区域特征和各文本单词特征之间的相似性分数；

S2054，以相似性分数为权重，对文本单词特征进行加权平均，得到与图像区域特征匹配的语义相关文本；

S2055，计算图像区域特征与语义相关文本之间的局部语义相似向量；

S2056，计算待检索图像的全局图像特征向量和文本信息的全局文本特征向量；

S2057，计算全局图像特征向量和全局文本特征向量之间的全局语义相似向量；

S2058，采用局部语义相似向量和全局语义相似向量计算图像区域特征与句子级文本特征的第一置信度。

置信度是指各区域的视觉语义和图像-文本全局视野的一致性程度，可以过滤掉和全局语义不一致的区域-单词匹配对。首先以图像区域和其匹配的语义相关文本之间的局部相似度被包含在图像-文本的全局语义相似度中的程度，即该区域被文本所真正描述的相对程度，来推断其匹配置信度。

在具体实现中，对于一个图像-文本对，将图像中的所有区域与文本中的所有单词分别组成区域-单词对，用余弦相似度函数计算其相似度矩阵，即：

其中，表示携带了位置信息的图像区域特征，e_j表示文本单词特征。

进一步的，对相似度矩阵进行归一化，即：

其中，[sim(i,j)]₊＝max{[sim(i,j)]，0}

进一步的，将归一化之后的相似性分数作为文本单词特征的注意力分数，包含语义信息越丰富的单词，则会得到越高的注意力分数。

进一步的，将获取的注意力分数作为每个局部特征的新的加权系数，即相关性分数。以该相关性分数为权重，将所有局部特征进行加权平均，得到与图像区域特征匹配的语义相关文本/>

其中，i∈[1,m]，超参数α为softmax函数中的逆温度系数(inverse temperatureparameter)，用来控制注意力的分布状况。为了使softmax输出的概率分布更平滑，避免在训练过程中陷入局部最优解，将逆温度系数α设置为9.0。

接着，采用图像区域特征和语义相关文本计算局部语义相似向量。为了为了刻画视觉和语言之间的详细对齐关系，跨模态对齐视觉-语义，采用规范化距离向量来表示异质模态间的语义相似度。具体地，图像区域和其匹配到的语义相关文本/>之间的局部语义相似向量/>计算为：

其中是可学习参数矩阵。

然后度量整张图像I的全局图像特征向量v_g和全文T的全局文本特征向量t_g的全局语义相似向量：

其中是可学习参数矩阵。

然后用全局语义相似向量s_g和来度量相应区域的第一置信度：

其中W_n∈R^1×p是可学习参数向量，⊙是指对应元素相乘操作。第一置信度是由图像区域和其匹配到的语义相关文本之间的局部相似度被包含在图像-文本的全局语义相似度中的程度推断出来的，它表明了该区域是否真的从全局的图像-文本的角度被描述的相对程度。

步骤206，根据第一置信度确定待检索图像对应的文本信息；

在具体实现中，可以根据第一置信度在整体相关性聚合中过滤掉与全局语义不一致的不可信的局部对齐信息，图像I和文本T之间的语义相关性为：

根据语义相关性，可以获得待检索图像对应的文本信息。

步骤207，当待检索对象为待检索文本时，提取待检索文本的单词特征；

步骤208，在预设图像库中的各图像中提取单词特征对应的局部图像特征；

步骤209，采用局部图像特征生成全局图像特征；

步骤210，计算待检索文本与全局图像特征的第二置信度；

步骤211，根据第二置信度确定待检索文本对应的图像。

当待检索对象为待检索文本时，所采用的方式与待检索图像类似，具体可以参照步骤202-206，此处不再赘述。

本发明通过获取待检索对象；待检索对象为待检索图像或待检索文本；当待检索对象为待检索图像时，提取待检索图像的图像区域特征；在预设语料库的各文本信息中提取文本单词特征；采用文本单词特征生成句子级文本特征；计算图像区域特征与句子级文本特征的第一置信度；根据第一置信度确定待检索图像对应的文本信息；当待检索对象为待检索文本时，提取待检索文本的单词特征；在预设图像库中的各图像中提取单词特征对应的局部图像特征；采用局部图像特征生成全局图像特征；计算待检索文本与全局图像特征的第二置信度；根据第二置信度确定待检索文本对应的图像。提高了跨模态检索的性能。

请参阅图3，图3为本发明实施例提供的一种基于位置信息与置信度感知的图文检索装置的结构框图。

本发明实施例提供了一种基于位置信息与置信度感知的图文检索装置，包括：

待检索对象获取模块301，用于获取待检索对象；待检索对象为待检索图像或待检索文本；

图像区域特征提取模块302，用于当待检索对象为待检索图像时，提取待检索图像的图像区域特征；

文本单词特征提取模块303，用于在预设语料库的各文本信息中提取文本单词特征；

句子级文本特征生成模块304，用于采用文本单词特征生成句子级文本特征；

第一置信度计算模块305，用于计算图像区域特征与句子级文本特征的第一置信度；

文本信息确定模块306，用于根据第一置信度确定待检索图像对应的文本信息；

单词特征提取模块307，用于当待检索对象为待检索文本时，提取待检索文本的单词特征；

局部图像特征提取模块308，用于在预设图像库中的各图像中提取单词特征对应的局部图像特征；

全局图像特征生成模块309，用于采用局部图像特征生成全局图像特征；

第二置信度计算模块310，用于计算待检索文本与全局图像特征的第二置信度；

图像检索模块311，用于根据第二置信度确定待检索文本对应的图像。

在本发明实施例中，图像区域特征提取模块302，包括：

视觉特征提取子模块，用于将待检索图像划分为多个区域，并提取各区域的视觉特征；

位置信息生成子模块，用于获取各区域的位置索引，并采用位置索引生成各区域的位置信息；

在本发明实施例中，文本单词特征提取模块303，包括：

隐藏状态获取子模块，用于获取前向词向量的第一隐藏状态，以及后向词向量的第二隐藏状态；

文本单词特征计算子模块，用于计算第一隐藏状态和第二隐藏状态的平均值，得到单词的文本单词特征。

在本发明实施例中，句子级文本特征生成模块304，包括：

注意力分数获取子模块，用于获取文本单词特征的注意力分数；

句子级文本特征生成子模块，用于采用注意力分数作为加权系数对文本单词特征进行加权平均，得到句子级文本特征。

在本发明实施例中，第一置信度计算模块305，包括：

相似度矩阵计算子模块，用于计算各图像区域特征和各文本单词特征之间的相似度矩阵；

归一化子模块，用于对相似度矩阵进行归一化，得到归一化相似度矩阵；

相似性分数生成子模块，用于根据归一化相似度矩阵生成各图像区域特征和各文本单词特征之间的相似性分数；

语义相关文本获取子模块，用于以相似性分数为权重，对文本单词特征进行加权平均，得到与图像区域特征匹配的语义相关文本；

局部语义相似向量计算子模块，用于计算图像区域特征与语义相关文本之间的局部语义相似向量；

全局文本特征向量计算子模块，用于计算待检索图像的全局图像特征向量和文本信息的全局文本特征向量；

全局语义相似向量计算子模块，用于计算全局图像特征向量和全局文本特征向量之间的全局语义相似向量；

第一置信度计算子模块，用于采用局部语义相似向量和全局语义相似向量计算图像区域特征与句子级文本特征的第一置信度。

本发明实施例还提供了一种基于文本的实体识别设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行本发明实施例的基于位置信息与置信度感知的图文检索方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明实施例的基于位置信息与置信度感知的图文检索方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于位置信息与置信度感知的图文检索方法，其特征在于，包括：

在预设语料库的各文本信息中提取文本单词特征；

采用所述文本单词特征生成句子级文本特征；

根据所述第一置信度确定所述待检索图像对应的文本信息；

采用所述局部图像特征生成全局图像特征；

计算所述待检索文本与所述全局图像特征的第二置信度；

根据所述第二置信度确定所述待检索文本对应的图像。

2.根据权利要求1所述的方法，其特征在于，所述提取所述待检索图像的图像区域特征的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述在预设语料库的各文本信息中提取文本单词特征的步骤，包括：

将预设语料库的各文本信息拆分为若干个单词；

获取每个单词的前向词向量和后向词向量；

4.根据权利要求1所述的方法，其特征在于，所述采用所述文本单词特征生成句子级文本特征的步骤，包括：

获取所述文本单词特征的注意力分数；

5.根据权利要求1所述的方法，其特征在于，所述计算所述图像区域特征与所述句子级文本特征的第一置信度的步骤，包括：

对所述相似度矩阵进行归一化，得到归一化相似度矩阵；

6.一种基于位置信息与置信度感知的图文检索装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述图像区域特征提取模块，包括：

8.根据权利要求6所述的装置，其特征在于，所述文本单词特征提取模块，包括：

9.一种基于文本的实体识别设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-x5任一项所述的基于位置信息与置信度感知的图文检索方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-5任一项所述的基于位置信息与置信度感知的图文检索方法。