CN111914113A

CN111914113A - 一种图像检索的方法以及相关装置

Info

Publication number: CN111914113A
Application number: CN202010789106.XA
Authority: CN
Inventors: 卢湖川; 刁海文; 张莹; 马林
Original assignee: Dalian University of Technology; Tencent Technology Shenzhen Co Ltd
Current assignee: Dalian University of Technology; Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-11-10

Abstract

本申请公开了一种图像检索的方法以及相关装置，可以应用于人工智能的计算机视觉技术中。通过获取图像特征和文本特征；然后构建相似度节点，以在相似度节点之间传递相似度信息；进一步根据权重信息对相似度节点进行过滤；进而基于更新后的相似度节点和过滤后的相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果。从而实现跨模态的信息检索过程，由于检索过程在全局相似度特征与局部相似度特征之间的相似度信息传递，以及语义权重的筛选，提高了相似度特征的准确性，从而提升图像检索准确率。

Description

一种图像检索的方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像检索的方法以及相关装置。

背景技术

随着互联网的兴起和数据爆炸式呈现，海量信息涌入人们的生活。如何借助多媒体数据来寻找个人所需的数据信息，而不仅限于借助文本形式，是一个亟待解决的问题。图像文件、视频文件、音频文件等将成为用户越来越频繁的查询对象。其中随着办公无纸化和搜索引擎对象多媒体化，图像文本处理和检索将成为信息检索的一个重要的技术。

一般，可用采用全局特征的相似度进行图像文本的检索，即选用全局特征相似度高的对象作为检索结果。

然而，由于图像文本检索的过程中可能存在相似度较高的文本信息，采用全局特征相似度检索的过程中无法将这些信息进行识别，影响图像识别的准确性。

发明内容

有鉴于此，本申请提供一种图像检索的方法，可以有效避免模糊特征产生的影响，提高图像检索的准确性。

本申请第一方面提供一种图像检索的方法，可以应用于终端设备中包含图像检索功能的系统或程序中，具体包括：获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，所述图像特征包括图像整体特征和图像区域特征，所述文本特征包括文本整体特征和文本单词特征；

基于所述图像整体特征和所述文本整体特征确定全局相似度特征；

基于所述图像区域特征和所述文本单词特征确定局部相似度特征；

根据所述全局相似度特征和所述局部相似度特征构建相似度节点，以在所述相似度节点之间传递相似度信息，所述相似度信息用于对所述相似度节点进行更新，所述相似度节点之间相互关联；

根据注意力机制确定所述全局相似度特征和所述局部相似度特征对应的权重信息，所述权重信息用于对所述相似度节点进行过滤，所述权重信息基于语义信息设定，所述语义信息与所述训练文本相对应；

基于更新后的所述相似度节点和过滤后的所述相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果。

可选的，在本申请一些可能的实现方式中，所述获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，包括：

针对所述图像库中的每个所述训练图像获取多个目标检测框，所述目标检测框用于指示所述训练图像中的图像区域特征；

基于所述图像区域特征进行归一化，以确定所述图像整体特征；

将所述文本库中的每个所述训练文本进行分词处理，以得到多个训练单词；

根据所述训练单词进行编码，以得到文本单词特征；

基于所述文本单词特征进行归一化，以得到所述文本整体特征。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

获取预设特征维度；

基于所述预设特征维度对所述图像区域特征和所述文本单词特征进行调整，以使得所述图像区域特征的特征维度和所述文本单词特征的特征维度相同。

可选的，在本申请一些可能的实现方式中，所述基于所述图像整体特征和所述文本整体特征确定全局相似度特征，包括：

基于所述图像整体特征和所述文本整体特征进行矢量平方差运算，以得到全局相似度信息；

将所述全局相似度信息映射到预设全局维度，并归一化得到所述全局相似度特征。

可选的，在本申请一些可能的实现方式中，所述基于所述图像区域特征和所述文本单词特征确定局部相似度特征，包括：

基于交叉注意力机制确定与所述文本单词特征相关联的所述图像区域特征，所述交叉注意力机制基于余弦距离的相似度设定；

基于所述余弦距离对关联的所述图像区域特征进行加权，以得到所述文本单词特征对应的文本整体特征；

基于所述文本单词特征对应的文本整体特征进行矢量平方差运算和归一化计算，以得到所述局部相似度特征。

可选的，在本申请一些可能的实现方式中，所述根据所述全局相似度特征和所述局部相似度特征构建相似度节点，以在所述相似度节点之间传递相似度信息，包括：

根据所述全局相似度特征和所述局部相似度特征构建所述相似度节点；

分别计算所述相似度节点之间的所述相似度信息，所述相似度信息包括检索特征和键值特征；

基于所述检索特征和所述键值特征确定所述相似度节点之间的距离信息；

基于所述距离信息对所述相似度节点进行更新。

确定迭代信息，所述迭代信息包括迭代更新次数；

基于所述迭代更新次数对所述相似度节点进行迭代更新。

确定当前迭代更新的目标节点；

基于所述目标节点的模态信息确定所述相似度节点的更新次序，所述模态信息用于指示所述目标节点的数据类型；

根据所述更新次序对所述相似度节点进行迭代更新。

可选的，在本申请一些可能的实现方式中，所述根据注意力机制确定所述全局相似度特征和所述局部相似度特征对应的权重信息，包括：

根据注意力机制确定所述全局相似度特征和所述局部相似度特征对应的所述语义信息；

基于所述语义信息对应的语义特征确定满足预设条件的权重信息。

可选的，在本申请一些可能的实现方式中，基于更新后的所述相似度节点和过滤后的所述相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果，包括：

确定更新后的所述相似度节点对应的第一相似度值，所述第一相似度值通过图像推理模块所得；

确定过滤后的所述相似度节点对应的第二相似度值，所述第二相似度值通过注意力过滤模块所得；

将所述第一相似度值和所述第二相似度值相加，以得到所述目标相似度值；

响应于目标图像的输入确定所述文本库中对应的排序结果，以作为所述文本检索结果，所述排序结果基于所述目标相似度值排序所得。

获取相似度间隔；

基于所述相似度间隔从所述图像库或所述文本库中提取正负样本对；

基于所述正负样本对对所述图像推理模块和所述注意力过滤模块进行训练。

响应于目标文本的输入，以确定对应的图像检索结果。

本申请第二方面提供一种图像检索的装置，包括：获取单元，用于获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，所述图像特征包括图像整体特征和图像区域特征，所述文本特征包括文本整体特征和文本单词特征；

确定单元，用于基于所述图像整体特征和所述文本整体特征确定全局相似度特征；

所述确定单元，还用于基于所述图像区域特征和所述文本单词特征确定局部相似度特征；

构建单元，用于根据所述全局相似度特征和所述局部相似度特征构建相似度节点，以在所述相似度节点之间传递相似度信息，所述相似度信息用于对所述相似度节点进行更新，所述相似度节点之间相互关联；

所述确定单元，还用于根据注意力机制确定所述全局相似度特征和所述局部相似度特征对应的权重信息，所述权重信息用于对所述相似度节点进行过滤，所述权重信息基于语义信息设定，所述语义信息与所述训练文本相对应；

检索单元，用于基于更新后的所述相似度节点和过滤后的所述相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果。

可选的，在本申请一些可能的实现方式中，所述获取单元，具体用于针对所述图像库中的每个所述训练图像获取多个目标检测框，所述目标检测框用于指示所述训练图像中的图像区域特征；

所述获取单元，具体用于基于所述图像区域特征进行归一化，以确定所述图像整体特征；

所述获取单元，具体用于将所述文本库中的每个所述训练文本进行分词处理，以得到多个训练单词；

所述获取单元，具体用于根据所述训练单词进行编码，以得到文本单词特征；

所述获取单元，具体用于基于所述文本单词特征进行归一化，以得到所述文本整体特征。

可选的，在本申请一些可能的实现方式中，所述获取单元，具体用于获取预设特征维度；

所述获取单元，具体用于基于所述预设特征维度对所述图像区域特征和所述文本单词特征进行调整，以使得所述图像区域特征的特征维度和所述文本单词特征的特征维度相同。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于基于所述图像整体特征和所述文本整体特征进行矢量平方差运算，以得到全局相似度信息；

所述确定单元，具体用于将所述全局相似度信息映射到预设全局维度，并归一化得到所述全局相似度特征。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于基于交叉注意力机制确定与所述文本单词特征相关联的所述图像区域特征，所述交叉注意力机制基于余弦距离的相似度设定；

所述确定单元，具体用于基于所述余弦距离对关联的所述图像区域特征进行加权，以得到所述文本单词特征对应的文本整体特征；

所述确定单元，具体用于基于所述文本单词特征对应的文本整体特征进行矢量平方差运算和归一化计算，以得到所述局部相似度特征。

可选的，在本申请一些可能的实现方式中，所述构建单元，具体用于根据所述全局相似度特征和所述局部相似度特征构建所述相似度节点；

所述构建单元，具体用于分别计算所述相似度节点之间的所述相似度信息，所述相似度信息包括检索特征和键值特征；

所述构建单元，具体用于基于所述检索特征和所述键值特征确定所述相似度节点之间的距离信息；

所述构建单元，具体用于基于所述距离信息对所述相似度节点进行更新。

可选的，在本申请一些可能的实现方式中，所述构建单元，具体用于确定迭代信息，所述迭代信息包括迭代更新次数；

所述构建单元，具体用于基于所述迭代更新次数对所述相似度节点进行迭代更新。

可选的，在本申请一些可能的实现方式中，所述构建单元，具体用于确定当前迭代更新的目标节点；

所述构建单元，具体用于基于所述目标节点的模态信息确定所述相似度节点的更新次序，所述模态信息用于指示所述目标节点的数据类型；

所述构建单元，具体用于根据所述更新次序对所述相似度节点进行迭代更新。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于根据注意力机制确定所述全局相似度特征和所述局部相似度特征对应的所述语义信息；

所述确定单元，具体用于基于所述语义信息对应的语义特征确定满足预设条件的权重信息。

可选的，在本申请一些可能的实现方式中，所述检索单元，具体用于确定更新后的所述相似度节点对应的第一相似度值，所述第一相似度值通过图像推理模块所得；

所述检索单元，具体用于确定过滤后的所述相似度节点对应的第二相似度值，所述第二相似度值通过注意力过滤模块所得；

所述检索单元，具体用于将所述第一相似度值和所述第二相似度值相加，以得到所述目标相似度值；

所述检索单元，具体用于响应于目标图像的输入确定所述文本库中对应的排序结果，以作为所述文本检索结果，所述排序结果基于所述目标相似度值排序所得。

可选的，在本申请一些可能的实现方式中，所述检索单元，具体用于获取相似度间隔；

所述检索单元，具体用于基于所述相似度间隔从所述图像库或所述文本库中提取正负样本对；

所述检索单元，具体用于基于所述正负样本对对所述图像推理模块和所述注意力过滤模块进行训练。

可选的，在本申请一些可能的实现方式中，所述检索单元，具体用于响应于目标文本的输入，以确定对应的图像检索结果。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的图像检索的方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的图像检索的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的图像检索的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，其中图像特征包括图像整体特征和图像区域特征，文本特征包括文本整体特征和文本单词特征；然后基于图像整体特征和文本整体特征确定全局相似度特征；并基于图像区域特征和文本单词特征确定局部相似度特征；然后根据全局相似度特征和局部相似度特征构建相似度节点，以在相似度节点之间传递相似度信息，其中相似度信息用于对相似度节点进行更新，相似度节点之间相互关联；进一步根据注意力机制确定全局相似度特征和局部相似度特征对应的权重信息，权重信息用于对相似度节点进行过滤，权重信息基于语义信息设定，语义信息与训练文本相对应；进而基于更新后的相似度节点和过滤后的相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果。从而实现跨模态的信息检索过程，由于检索过程在全局相似度特征与局部相似度特征之间的相似度信息传递，保证了相似度特征的代表性；且由于语义权重的筛选，过滤掉了无意义的特征，提高了相似度特征的准确性，从而提升图像检索准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为图像检索系统运行的网络架构图；

图2为本申请实施例提供的一种图像检索的流程架构图；

图3为本申请实施例提供的一种图像检索的方法的流程图；

图4为本申请实施例提供的一种图像检索的模型架构图；

图5为本申请实施例提供的另一种图像检索的方法的流程图；

图6为本申请实施例提供的一种文本检索的场景示意图；

图7为本申请实施例提供的一种图像检索的场景示意图；

图8为本申请实施例提供的另一种图像检索装置的结构示意图；

图9为本申请实施例提供的一种终端设备的结构示意图；

图10为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请实施例提供了一种图像检索的方法以及相关装置，可以应用于终端设备中包含图像检索功能的系统或程序中，通过获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，其中图像特征包括图像整体特征和图像区域特征，文本特征包括文本整体特征和文本单词特征；然后基于图像整体特征和文本整体特征确定全局相似度特征；并基于图像区域特征和文本单词特征确定局部相似度特征；然后根据全局相似度特征和局部相似度特征构建相似度节点，以在相似度节点之间传递相似度信息，其中相似度信息用于对相似度节点进行更新，相似度节点之间相互关联；进一步根据注意力机制确定全局相似度特征和局部相似度特征对应的权重信息，权重信息用于对相似度节点进行过滤，权重信息基于语义信息设定，语义信息与训练文本相对应；进而基于更新后的相似度节点和过滤后的相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果。从而实现跨模态的信息检索过程，由于检索过程在全局相似度特征与局部相似度特征之间的相似度信息传递，保证了相似度特征的代表性；且由于语义权重的筛选，过滤掉了无意义的特征，提高了相似度特征的准确性，从而提升图像检索准确率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

交叉注意力模型：利用余弦相似度作为权重，计算图像各个目标特征和文本逐个单词特征的权重矩阵并归一化，通过加权求和得到图像的局部特征对应的文本特征，或通过加权求和得到文本的局部特征对应的图像特征。

图结构推理：输入为图像和文本局部特征，通过交叉注意力模型和差平方运算构建相似度节点，利用两两节点的检索特征和键值特征计算节点之间的矢量边，然后进行多次迭代的节点整合得到增强的全局相似度特征来预测。

注意力过滤：输入为图像和文本局部特征，计算得到全局和局部相似度特征，利用全连接层和激活函数层，并经由L1归一化得到权重，进而加权得到更细粒度的全局相似度特征。

应理解，本申请提供的图像检索的方法可以应用于终端设备中包含图像检索功能的系统或程序中，例如联邦学习平台，具体的，图像检索系统可以运行于如图1所示的网络架构中，如图1所示，是图像检索系统运行的网络架构图，如图可知，图像检索系统可以提供与多个信息源的图像/文本的检索应用，通过终端向服务器发送检索请求对应的图像/文本，服务器会得到对应的文本/图像，并反馈至终端显示；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到图像检索的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可以理解的是，上述图像检索系统可以运行于个人移动终端，例如：作为图像推荐平台这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供图像检索，以得到信息源的图像检索处理结果；具体的图像检索系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

随着互联网的兴起和数据爆炸式呈现，海量信息涌入人们的生活。如何借助多媒体数据来寻找个人所需的数据信息，而不仅限于借助文本形式，是一个亟待解决的问题。图像文件、视频文件、音频文件等将成为用户越来越频繁的查询对象。其中随着办公无纸化和搜索引擎对象多媒体化，图像文本处理和检索将成为信息检索的一个重要的技术，即涉及了计算机视觉技术的技术范畴。

为了解决上述问题，本申请提出了一种图像检索的方法，该方法应用于图2所示的图像检索的流程框架中，如图2所示，为本申请实施例提供的一种图像检索的流程架构图，首先通过构建图像特征与文本特征基于全局和局部的相似度特征，并对相似度特征进行基于相似度信息的传递，提高特征之间的关联性，并对相似度特征进行基于注意力机制的筛选，以过滤无意义的相似度特征，从而对图像特征与文本特征之间的相似值进行更新。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种图像检索装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该图像检索装置通过获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，其中图像特征包括图像整体特征和图像区域特征，文本特征包括文本整体特征和文本单词特征；然后基于图像整体特征和文本整体特征确定全局相似度特征；并基于图像区域特征和文本单词特征确定局部相似度特征；然后根据全局相似度特征和局部相似度特征构建相似度节点，以在相似度节点之间传递相似度信息，其中相似度信息用于对相似度节点进行更新，相似度节点之间相互关联；进一步根据注意力机制确定全局相似度特征和局部相似度特征对应的权重信息，权重信息用于对相似度节点进行过滤，权重信息基于语义信息设定，语义信息与训练文本相对应；进而基于更新后的相似度节点和过滤后的相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果。从而实现跨模态的信息检索过程，由于检索过程在全局相似度特征与局部相似度特征之间的相似度信息传递，保证了相似度特征的代表性；且由于语义权重的筛选，过滤掉了无意义的特征，提高了相似度特征的准确性，从而提升图像检索准确率。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明:

结合上述流程架构，下面将对本申请中图像检索的方法进行介绍，请参阅图3，图3为本申请实施例提供的一种图像检索的方法的流程图，本申请实施例至少包括以下步骤：

301、获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征。

本实施例中，图像特征包括图像整体特征和图像区域特征，文本特征包括文本整体特征和文本单词特征；具体的，图像整体特征即以图像为单位的特征表述，而图像区域特征即以图像中某个区域为单位的特征表述；对应的，文本整体特征为整段文字的特征表述，而文本单词特征即以词粒度为单位的特征表述，例如文本整体特征为“那个人举着太阳伞在骑车”，则文本单词特征则包括“太阳伞”“骑车”等词汇的特征。

具体的，对于图像整体特征的生成过程可以首先针对图像库中的每个训练图像获取多个目标检测框，其中目标检测框用于指示训练图像中的图像区域特征；然后基于图像区域特征进行归一化，以确定图像整体特征。例如针对图像库中的每一张图像，采用自上而下的注意力机制(Bottom-up and top-down attention，BU_TDA)来提取K＝36个目标检测框，然后利用全连接层将图像区域特征映射到共同空间，并利用增强的局部区域表示图像区域关系推理(Region Relationship Reasoning，RRR)来加强图像区域之间的联系,得到图像区域特征{v₁,…,v_K},

对所有图像区域特征取平均并且L2归一化得到图像整体特征{v_glo}。

另外，对于文本整体特征的提取，可以将文本库中的每个训练文本进行分词处理，以得到多个训练单词；然后根据训练单词进行编码，以得到文本单词特征；进而基于文本单词特征进行归一化，以得到文本整体特征。例如针对文本库中的每一个文本，首先利用分词技术分成数量不定的单个单词，然后利用单词编码技术编码为维度300的单词特征，然后有序的输入到Bi-GRU中进行编码，将正向和反向的编码特征取平均，得到文本单词特征{t₁,…,t_L},

对所有文本单词特征取平均并且L2归一化得到文本整体特征{t_glo}。

可以理解的是，在实际场景中，对于文本的分词粒度可以是基于二字词汇设定的，也可以是基于不同字数的词汇设定的，此处不做限定。

可选的，为了保证跨模态特征的对应性，即图像与文本的特征对应性，可以将两者的映射到相同的特征维度。具体的，首先获取预设特征维度；然后基于预设特征维度对图像区域特征和文本单词特征进行调整，以使得图像区域特征的特征维度和文本单词特征的特征维度相同。

302、基于图像整体特征和文本整体特征确定全局相似度特征。

本实施例中，全局相似度特征即图像整体与文本整体的对应关系，具体的，可以基于图像整体特征和文本整体特征进行矢量平方差运算，以得到全局相似度信息；然后将全局相似度信息映射到预设全局维度，并归一化得到全局相似度特征。

具体的，对于利用图像整体特征和文本整体特征{v_glo,t_glo}进行矢量差平方运算，最后用全连接层映射到256维并用L2归一化，得到全局相似度特征s^glo＝s(v_glo,t_glo；W_g)的过程，可以参照如下公式：

其中，x为图像整体特征，即v_glo；y为文本整体特征，即t_glo；W为全连接层映射的维度，即W_g。

可选的，在构建全局相似度时，还可以采用交叉注意力机制，即检测图像整体特征对应的文本局部特征，或检测文本整体特征对应的图像局部特征，然后再计算全局相似度特征。从而提高全局相似度特征表达的准确性。

303、基于图像区域特征和文本单词特征确定局部相似度特征。

本实施例中，局部相似度特征可以采用文本单词(文本单词特征)与图像区域(图像区域特征)交互的交叉注意力机制确定，即基于交叉注意力机制确定与文本单词特征相关联的图像区域特征，交叉注意力机制基于余弦距离的相似度设定；然后基于余弦距离对关联的图像区域特征进行加权，以得到文本单词特征对应的文本整体特征；进而基于文本单词特征对应的文本整体特征进行矢量平方差运算和归一化计算，以得到局部相似度特征。

在一种可能的场景中，对于交叉注意力机制，即以文本单词t_j作为目标，根据余弦相似度，找到与每个文本单词数量相关的图像区域并归一化它们的权重，然后加权得到每个文本单词特征相对的图像特征

然后同样采用矢量差平方运算，用新的全连接层W_l进行映射并归一化，得到局部的相似度特征

可选的，除了基于词粒度下的特征交互外，还可以利用更加细粒度的交互机制来建立图像-文本之间的局部关系(局部相似度特征)，例如在特征空间(spatial)和频道(channel)的维度上进行相似度交互；或采用门(gate)和残差(resident)的方式，筛选和保留两个模态下对应的局部特征信息。针对全局相似度节点构建，可在整张图像采用显著性学习(saliency)获得含有显著目标的更连贯细致的图像特征，替代局部特征平均后得到的冗余粗略的图像全局特征；从而通过细粒度的交互表达，提高局部相似度特征的准确性。

可选的，在上述实施例的基础上，还可以采用注意力或门机制来计算文本局部特征的权重，整合得到细粒度的整体特征替代平均后包含噪音信息的文本整体特征，例如虚词的干扰；从而提高文本特征的针对性，避免噪音信息的干扰。

上述过程可以通过图4所示的架构展示，图4为本申请实施例提供的一种图像检索的模型架构图，上述提取特征的过程即图中文本信息与通过检测框提取图像区域特征的过程，本模型通过高效整合和过滤在跨模态交互中产生的冗余复杂的局部相似度，实现了高效准确的文本图像检索过程。下面结合具体实施例进行进一步的说明。

304、根据全局相似度特征和局部相似度特征构建相似度节点，以在相似度节点之间传递相似度信息。

本实施例中，相似度信息用于对相似度节点进行更新，相似度节点之间相互关联；通过相似度信息构建跨模态局部相似度节点，实现基于相似度图结构推理来传递和整合信息，以建立特征之间的关联性。

具体的，构建相似度节点的过程可以首先根据全局相似度特征和局部相似度特征构建相似度节点；然后分别计算相似度节点之间的相似度信息，其中相似度信息包括检索特征和键值特征；进而基于检索特征和键值特征确定相似度节点之间的距离信息；并基于距离信息对相似度节点进行更新。

可选的，相似度信息的确定还可以通过将两个节点特征融合，并利用全连接或者卷积形式计算边的大小，从而得到两节点之间的相似度信息。

在一种可能的场景中，全局相似度特征和局部相似度特征

组成图结构的节点集合

(相似度节点)，所有节点都是互相连接的。其中，相似度信息是在矢量边进行传递。通过两个独立的全连接层W_inW_out，通过计算节点

和节点

之间检索特征和键值特征的元素乘积和来计算节点间边的相对大小，具体可参照如下公式进行：

其中，s_p和s_q为相似度节点，W_inW_out为两个独立的全连接层，e(s_p,s_q；W_in,W_out)即为s_p和s_q之间的相对大小。

然后归一化与其中某一节点连接所有矢量边的值，得到所有节点向该节点传递信息的权重，且由于节点之间可以进行多次迭代计算，故该可以确定迭代更新次数，然后基于迭代更新次数对相似度节点进行迭代更新。具体可参照如下公式进行：

其中，s_p和s_q为相似度节点，W_inW_out为两个独立的全连接层，n代表迭代步数。

进一步，利用全连接层

和ReLU层来更新该节点，具体可参照如下公式进行：

其中，

为用于激活的全连接层，

为更新后的节点，

为更新前的节点。

在一种可能的场景中，可以在所有节点更新之后作为下一次图结构推理新的相似度节点。相似度图推的迭代和更新三次后，将更新后的全局相似度特征输入到全连接层和激活函数进行相似度预测。具体的迭代次数因实际场景而定，此处不做限定。

可选的，上述实施例采用文本主导的相似度特征构建，在另一种可能的场景中也可以增加图像主导的相似度特征。因此，在图结构推理时候，可以基于目标节点的模态信息确定相似度节点的更新次序，模态信息用于指示目标节点的数据类型；然后根据更新次序对相似度节点进行迭代更新。具体的，更新次序可以是同步更新两个模态主导相似度节点，也可以是异步更新两个模态下的节点。

上述实施例，通过构建一个全连接的相似度图，即对应于图4中图结构推理模块的过程，利用图结构推理使得相似度信息在全局和局部节点中进行信息传递、推理和整合，有效地发掘具有关键甄别力的相似度特征。

305、根据注意力机制确定全局相似度特征和局部相似度特征对应的权重信息。

本实施例中，权重信息用于对相似度节点进行过滤，权重信息基于语义信息设定，语义信息与训练文本相对应；即利用注意力机制，计算各个相似度节点的权重，从而过滤和筛选出有语义信息的相似度节点。

具体的，即根据注意力机制确定全局相似度特征和局部相似度特征对应的语义信息；然后基于语义信息对应的语义特征确定满足预设条件的权重信息，其中，预设条件基于语义信息对应的语义特征的粒度或含义，即预设条件用于根据粒度描述特征为语义信息设定权重信息，例如语义信息A的描述维度为5，语义信息B的描述维度为2，则语义信息A与语义信息B的权重信息相对的比例为5:2；或根据语义信息对应的实际含义设定权重信息，例如语义信息B的每个描述维度都为实词则设定高权重。进一步的利用全局相似度特征和局部相似度特征作为输入，即相似度节点的组成；从而发掘更加细粒度和有意义的图像区域与文本单词之间耦合的相似度特征，并过滤会稀释或掩盖关键相似度特征的干扰项。

在一种可能的场景中，确定权重信息的过程即利用注意力全连接层W_f来计算所有相似度特征重要性的相对大小，然后利用批归一化和激活函数来处理得到所有特征对应的非负权重，最后利用L1归一化所有的权重，具体可参照如下公式所示：

其中，β_p为满足预设条件的权重信息，即非负权重；BN()为L1归一化；

为相似度节点的集合，W_f为全连接层对应的维度，s_p和s_q为相似度节点。

进一步的，加权所有相似度特征得到最后过滤后相似度表示

经过全连接层和激活函数来计算相似度值s_AF，从而根据该相似度值s_AF进行值的过滤，即筛选相似度达到一定阈值的相似度特征。

可选的，上述实施例采用的是在相似度时序(temporal)的维度上L1归一化所有节点的权重，隐式地反映所有相似度节点的重要性。另外，还可以采用在相似度特征的每一个频道(channel)的维度上去利用细粒度的注意力或门机制进行过滤，然后在进行整合预测。

上述实施例通过利用注意力机制，对应于图4中注意力过滤模块的过程，学习各个相似度节点的归一化权重，隐式地反映相似度特征的语义性和甄别性，从而过滤掉无意义的相似度节点，更为准确地进行图像和文本检索。

306、基于更新后的相似度节点和过滤后的相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果。

本实施例中，在确定目标相似度值过程中，即基于更新后的相似度节点和过滤后的相似度节点进行相似度计算的过程，具体的，可以首先确定更新后的相似度节点对应的第一相似度值，即图4中图像推理模块执行的过程；然后确定过滤后的相似度节点对应的第二相似度值，即图4中注意力过滤模块执行的过程；并将第一相似度值和第二相似度值相加，以得到目标相似度值；例如通过图像推理模块得到图像A与文本B的第一相似度值为0.4，而通过注意力过滤模块得到的图像A与文本B的第二相似度值为0.5，则图像A与文本B的目标相似度值为0.9。若在检索过程中该数值最大，则将其作为检索结果。即响应于目标图像的输入确定文本库中对应的排序结果，以作为文本检索结果，排序结果基于目标相似度值排序所得，一般取目标相似度值最大的作为检索结果。

另外，本申请还提供了对于图像推理模块和注意力过滤模块的训练过程，即采用难样本排序损失函数(Batch Hardest Ranking Loss，BHRL)分别训练图结构推理和注意力过滤两个模块，并采用BHRL同时训练图结构推理和注意力过滤两个模块；其中，BHRL用于预测输入的训练样本之间的相对距离，且在每次网络迭代训练的过程中，一次采样可以包含多对匹配的图像文本对，以作为训练样本。

具体的，对于图像文本对，可以设定相似度间隔，并基于相似度间隔从图像库或文本库中提取正负样本对；从而基于正负样本对对图像推理模块和注意力过滤模块进行训练。在一种可能的场景中，针对每一张训练图像，采样中与该训练图像相似度最高的负样本文本之间相似度要小于与该训练图像正样本文本的相似度，并且该训练图像同正样本文本之间相似度减去该训练图像同正样本文本之间相似度的差值可以设定预设间隔值的约束，即该差值最小为预设间隔值(相似度间隔)。同样的，针对每一个训练文本，与该训练文本相似度最高的负样本图像的距离要大于与该训练文本正样本图像的距离，并且该训练文本同正样本图像之间相似度减去该训练文本同负样本图像之间相似度，得到的差值应大于或等于预设间隔值，从而提高训练效果，其中，预设间隔值的取值可以是0.2，具体数值因实际场景而定。

在一种可能的场景中，可以采用分开训练图像推理模块和注意力过滤模块，且采用同时训练图像推理模块和注意力过滤模块；从而同时将两个模块预测结果相加来得到最后的结果。可选的，在实现两个模块的整合的时候，可以采用并行和串行的方式，来尝试两个模块之间的关系和影响。另外，对于加和的时机可以是在每一次迭代或最终迭代时候进行的，以避免个别错误特征造成的计算错误。

结合上述实施例可知，通过获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，其中图像特征包括图像整体特征和图像区域特征，文本特征包括文本整体特征和文本单词特征；然后基于图像整体特征和文本整体特征确定全局相似度特征；并基于图像区域特征和文本单词特征确定局部相似度特征；然后根据全局相似度特征和局部相似度特征构建相似度节点，以在相似度节点之间传递相似度信息，其中相似度信息用于对相似度节点进行更新，相似度节点之间相互关联；进一步根据注意力机制确定全局相似度特征和局部相似度特征对应的权重信息，权重信息用于对相似度节点进行过滤，权重信息基于语义信息设定，语义信息与训练文本相对应；进而基于更新后的相似度节点和过滤后的相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果。从而实现跨模态的信息检索过程，由于检索过程在全局相似度特征与局部相似度特征之间的相似度信息传递，保证了相似度特征的代表性；且由于语义权重的筛选，过滤掉了无意义的特征，提高了相似度特征的准确性，从而提升图像检索准确率。

上述实施例介绍了图像检索的过程，而本申请还可以应用于文本检索中，下面，对该场景进行介绍。请参阅图5，图5为本申请实施例提供的另一种图像检索的方法的流程图，本申请实施例至少包括以下步骤：

501、获取图像/文本检索请求。

本实施例中，图像/文本检索请求即用户输入的图像或文本信息，具体的，图像可以是多张图像，对应的检索结果即为包含多张图像的文本内容；或不同粒度的文本信息，例如词语、句子或段落，对应的检索结果即为包含这些文本信息的图像。

502、基于图像/文本检索请求在文本库/图像库中获取相似度排序。

本实施例中，获取相似度排序的过程参见图3所示实施例的步骤301-306，相关特征可以进行参考，此处不做赘述。

503、根据相似度排序确定检索结果。

本实施例中，相似度排序即按照检索请求对应的信息(图像/文本)与匹配信息(文本/图像)的相似度由高到低的排序；也可以是大于一定阈值的相似度排序，例如相似度大于0.8的文本/图像进行排序，具体的形式因实际场景而定，此处不做限定。

在一种可能的场景中，文本检索的过程如图6所示，为本申请实施例提供的一种文本检索的场景示意图。图中示出了用户通过输入检索请求对应的文本，例如“带着耳环的长发女生”，并点击图像检索按钮A1，从而得到对应的检索图像，并在图像中对相似的元素进行的标注，即局部特征的识别过程。

在另一种可能的场景中，文本检索的过程如图7所示，为本申请实施例提供的一种图像检索的场景示意图。图中示出了用户通过选择检索请求对应的图像，并点击文本检索按钮B1，从而得到对应的文本信息，并在文本信息基于词粒度的标识在图像中显示，从而提高了检索结果的可视性。

另外，本申请还基于不同数据集进行了检索性能的判定，即在Flickr30k和MSCOCO中进行测试。测试结果如表1、表2和表3所示。在表中指示的文本检索表示提供一张图像，对所有文本进行检索。而图像检索表示提供一个文本，对所有图像进行检索。另外，R@K表示针对某一检索对象，其正样本排在相似度最高的前K中样本占全部样本的百分比。

对于比对的模型对象，提供了一系列现有的检索模型性能。另外，SAF表示利用注意力过滤模块进行相似度计算；SGR表示通过图结构推理模块来计算相似度。On/Off表示同时/分别训练两个模块，将相似度结果加和来进行预测。

下面，结合具体数据进行说明，如表1所示，为本申请在MSCOCO1k数据集中的性能。

表1本申请在MSCOCO1k数据集中的性能

通过表1可见，本申请在数据集MSCOCO1k中，本申请的文本检索R@1中取得了2.8％的提升，图像检索R@1中提升了4.7％。

如表2所示，为本申请在MSCOCO5k数据集中的性能。

表2本申请在MSCOCO5k数据集中性能

通过表2可见，在数据集MSCOCO5k中，本申请的文本检索R@1中取得了2.8％的提升，图像检索R@1中提升了2.0％。

如表3所示，为本申请在Flickr30k数据集中的性能。

表3本申请在Flickr30k数据集中的性能

通过表3可见，在数据集Flickr30k中，本申请的文本检索R@1中取得了4.9％的提升，图像检索R@1中提升了3.9％。

综上可见，本申请中无论是注意力过滤还是图结构推理模块都取得了很有竞争力的结果，并且在采用分开训练，加和预测的策略时取得了最先进的结果。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图8，图8为本申请实施例提供的一种图像检索装置的结构示意图，图像检索装置800包括：

获取单元801，用于获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，所述图像特征包括图像整体特征和图像区域特征，所述文本特征包括文本整体特征和文本单词特征；

确定单元802，用于基于所述图像整体特征和所述文本整体特征确定全局相似度特征；

所述确定单元802，还用于基于所述图像区域特征和所述文本单词特征确定局部相似度特征；

构建单元803，用于根据所述全局相似度特征和所述局部相似度特征构建相似度节点，以在所述相似度节点之间传递相似度信息，所述相似度信息用于对所述相似度节点进行更新，所述相似度节点之间相互关联；

所述确定单元802，还用于根据注意力机制确定所述全局相似度特征和所述局部相似度特征对应的权重信息，所述权重信息用于对所述相似度节点进行过滤，所述权重信息基于语义信息设定，所述语义信息与所述训练文本相对应；

检索单元804，用于基于更新后的所述相似度节点和过滤后的所述相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果。

可选的，在本申请一些可能的实现方式中，所述获取单元801，具体用于针对所述图像库中的每个所述训练图像获取多个目标检测框，所述目标检测框用于指示所述训练图像中的图像区域特征；

所述获取单元801，具体用于基于所述图像区域特征进行归一化，以确定所述图像整体特征；

所述获取单元801，具体用于将所述文本库中的每个所述训练文本进行分词处理，以得到多个训练单词；

所述获取单元801，具体用于根据所述训练单词进行编码，以得到文本单词特征；

所述获取单元801，具体用于基于所述文本单词特征进行归一化，以得到所述文本整体特征。

可选的，在本申请一些可能的实现方式中，所述获取单元801，具体用于获取预设特征维度；

所述获取单元801，具体用于基于所述预设特征维度对所述图像区域特征和所述文本单词特征进行调整，以使得所述图像区域特征的特征维度和所述文本单词特征的特征维度相同。

可选的，在本申请一些可能的实现方式中，所述确定单元802，具体用于基于所述图像整体特征和所述文本整体特征进行矢量平方差运算，以得到全局相似度信息；

所述确定单元802，具体用于将所述全局相似度信息映射到预设全局维度，并归一化得到所述全局相似度特征。

可选的，在本申请一些可能的实现方式中，所述确定单元802，具体用于基于交叉注意力机制确定与所述文本单词特征相关联的所述图像区域特征，所述交叉注意力机制基于余弦距离的相似度设定；

所述确定单元802，具体用于基于所述余弦距离对关联的所述图像区域特征进行加权，以得到所述文本单词特征对应的文本整体特征；

所述确定单元802，具体用于基于所述文本单词特征对应的文本整体特征进行矢量平方差运算和归一化计算，以得到所述局部相似度特征。

可选的，在本申请一些可能的实现方式中，所述构建单元803，具体用于根据所述全局相似度特征和所述局部相似度特征构建所述相似度节点；

所述构建单元803，具体用于分别计算所述相似度节点之间的所述相似度信息，所述相似度信息包括检索特征和键值特征；

所述构建单元803，具体用于基于所述检索特征和所述键值特征确定所述相似度节点之间的距离信息；

所述构建单元803，具体用于基于所述距离信息对所述相似度节点进行更新。

可选的，在本申请一些可能的实现方式中，所述构建单元803，具体用于确定迭代信息，所述迭代信息包括迭代更新次数；

所述构建单元803，具体用于基于所述迭代更新次数对所述相似度节点进行迭代更新。

可选的，在本申请一些可能的实现方式中，所述构建单元803，具体用于确定当前迭代更新的目标节点；

所述构建单元803，具体用于基于所述目标节点的模态信息确定所述相似度节点的更新次序，所述模态信息用于指示所述目标节点的数据类型；

所述构建单元803，具体用于根据所述更新次序对所述相似度节点进行迭代更新。

可选的，在本申请一些可能的实现方式中，所述确定单元802，具体用于根据注意力机制确定所述全局相似度特征和所述局部相似度特征对应的所述语义信息；

所述确定单元802，具体用于基于所述语义信息对应的语义特征确定满足预设条件的权重信息。

可选的，在本申请一些可能的实现方式中，所述检索单元804，具体用于确定更新后的所述相似度节点对应的第一相似度值，所述第一相似度值通过图像推理模块所得；

所述检索单元804，具体用于确定过滤后的所述相似度节点对应的第二相似度值，所述第二相似度值通过注意力过滤模块所得；

所述检索单元804，具体用于将所述第一相似度值和所述第二相似度值相加，以得到所述目标相似度值；

所述检索单元804，具体用于响应于目标图像的输入确定所述文本库中对应的排序结果，以作为所述文本检索结果，所述排序结果基于所述目标相似度值排序所得。

可选的，在本申请一些可能的实现方式中，所述检索单元804，具体用于获取相似度间隔；

所述检索单元804，具体用于基于所述相似度间隔从所述图像库或所述文本库中提取正负样本对；

所述检索单元804，具体用于基于所述正负样本对对所述图像推理模块和所述注意力过滤模块进行训练。

可选的，在本申请一些可能的实现方式中，所述检索单元804，具体用于响应于目标文本的输入，以确定对应的图像检索结果。

本申请实施例还提供了一种终端设备，如图9所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图9示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图9，手机包括：射频(radio frequency，RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作，以及在触控面板931上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；可选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，可选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器980还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图10，图10是本申请实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由管理装置所执行的步骤可以基于该图10所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有图像检索指令，当其在计算机上运行时，使得计算机执行如前述图3至图7所示实施例描述的方法中图像检索装置所执行的步骤。

本申请实施例中还提供一种包括图像检索指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图7所示实施例描述的方法中图像检索装置所执行的步骤。

本申请实施例还提供了一种图像检索系统，所述图像检索系统可以包含图8所描述实施例中的图像检索装置，或图9所描述实施例中的终端设备，或者图10所描述的服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，图像检索装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像检索的方法，其特征在于，包括：

获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，所述图像特征包括图像整体特征和图像区域特征，所述文本特征包括文本整体特征和文本单词特征；

2.根据权利要求1所述的方法，其特征在于，所述获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，包括：

根据所述训练单词进行编码，以得到文本单词特征；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取预设特征维度；

4.根据权利要求1所述的方法，其特征在于，所述基于所述图像整体特征和所述文本整体特征确定全局相似度特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述图像区域特征和所述文本单词特征确定局部相似度特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述全局相似度特征和所述局部相似度特征构建相似度节点，以在所述相似度节点之间传递相似度信息，包括：

基于所述距离信息对所述相似度节点进行更新。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

确定迭代信息，所述迭代信息包括迭代更新次数；

基于所述迭代更新次数对所述相似度节点进行迭代更新。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

确定当前迭代更新的目标节点；

根据所述更新次序对所述相似度节点进行迭代更新。

9.根据权利要求1所述的方法，其特征在于，所述根据注意力机制确定所述全局相似度特征和所述局部相似度特征对应的权重信息，包括：

10.根据权利要求1所述的方法，其特征在于，所述基于更新后的所述相似度节点和过滤后的所述相似度节点确定目标相似度值，以响应于目标图像的输入确定对应的文本检索结果，包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

获取相似度间隔；

12.根据权利要求1-11任一项所述的方法，其特征在于，所述方法还包括：

响应于目标文本的输入，以确定对应的图像检索结果。

13.一种图像检索的装置，其特征在于，包括：

获取单元，用于获取图像库中的训练图像对应的图像特征和文本库中的训练文本对应的文本特征，所述图像特征包括图像整体特征和图像区域特征，所述文本特征包括文本整体特征和文本单词特征；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至12任一项所述的图像检索的方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至12任一项所述的图像检索的方法。