CN109033107A

CN109033107A - 图像检索方法和装置、计算机设备和存储介质

Info

Publication number: CN109033107A
Application number: CN201710433984.6A
Authority: CN
Inventors: 赖韩江
Original assignee: Tencent Technology Shenzhen Co Ltd; National Sun Yat Sen University
Current assignee: Tencent Technology Shenzhen Co Ltd; Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2018-12-18
Anticipated expiration: 2037-06-09
Also published as: CN109033107B

Abstract

本发明提供一种图像检索方法和装置、计算机设备和存储介质，包括：获取检索图像；将检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络，通过输入层和前置卷积层得到第一输出结果；第一输出结果输入到的分支网络，得到每个像素点为物体的概率对应的物体的位置概率图；第一输出结果输入到卷积神经网络的中间卷积层，得到检索图像的特征图；对特征图与位置概率图进行点乘处理得到融合位置信息的特征图，并将融合位置信息的特征图输入至卷积神经网络的后置卷积层，通过后置卷积层和全连接层，输出检索图像的特征向量；将检索图像的特征向量与数据库的各图像的特征向量进行比较，得到检索图像的检索结果。该方法精确度高。

Description

图像检索方法和装置、计算机设备和存储介质

技术领域

本发明涉及计算机设备技术领域，特别是涉及一种图像检索方法和装置、计算机设备和存储介质。

背景技术

图像检索，是通过输入图片来检索相似的图片的一种技术，为用户提供相关图形图像资料检索的搜索技术。

用户在进行图像检索时，输入的图像的主体通常为检索目标，但往往输入的图像除主体外，还包括背景信息。为了得到精确的检索结果，在进行图像检索时往往需要去除背景信息，以消除背景信息对图像检索的影响。在利用神经网络自适应学习的图像检索模型中，为解决这个问题，需要在训练时标注主体的位置信息，并基于此训练神经网络。

这种方式需要人工预先对训练图像样本进行大量的标注，单纯依赖人工标注不仅需要消耗大量的人力资源，还可能产生个体性的标注错误，从而影响图像检索的精确度。

发明内容

基于此，有必要针对因人工标注导致的图像检索的精确度受到影响的问题，提供一种图像检索方法和装置、计算机设备和存储介质。

为达到上述目的，一个实施例采用以下技术方案：

一种图像检索方法，包括：

获取检索图像；

将所述检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络，通过所述卷积神经网络的输入层和前置卷积层得到第一输出结果；

所述第一输出结果输入到所述卷积神经网络的分支网络，得到每个像素点为物体的概率对应的物体的位置概率图；

所述第一输出结果输入到所述卷积神经网络的中间卷积层，得到所述检索图像的特征图；

对所述特征图与所述位置概率图进行点乘处理得到融合位置信息的特征图，并将所述融合位置信息的特征图输入至所述卷积神经网络的后置卷积层，通过后置卷积层和全连接层，输出所述检索图像的特征向量；

将所述检索图像的特征向量与数据库的各图像的特征向量进行比较，得到所述检索图像的检索结果。

一种图像检索方装置，包括：图像获取模块、卷积神经网络模块、检索模块；

所述图像获取模块，用于获取检索图像；

所述卷积神经网络模块，用于将所述检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络，通过所述卷积神经网络的输入层和前置卷积层得到第一输出结果；所述第一输出结果输入到所述卷积神经网络的分支网络，得到每个像素点为物体的概率对应的物体的位置概率图；所述第一输出结果输入到所述卷积神经网络的中间卷积层，得到所述检索图像的特征图；对所述特征图与所述位置概率图进行点乘处理得到融合位置信息的特征图，并将所述融合位置信息的特征图输入至所述卷积神经网络的后置卷积层，通过后置卷积层和全连接层，输出所述检索图像的特征向量；

所述检索模块，用于将所述检索图像的特征向量与数据库的各图像的特征向量进行比较，得到所述检索图像的检索结果。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的图像检索方法的步骤。

一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现上述的图像检索方法的步骤。

上述的图像检索方法，卷积神经网络预先对具有相似关系的训练图像样本训练得到，卷积神经网络可以自动学习到图像的特征。在图像检索时，将检索图像输入卷积神经网络，通过卷积神经网络的输入层和前置卷积层得到检索图像的中间阶段特征表示的第一输出结果，将第一输出结果分别输入分支网络和中间卷积层，分支网络得到每个像素点为物体的概率对应的物体的位置概率图，中间卷积层得到检索图像的进一步特征图，通过对特征图与位置概率图进行点乘处理得到融合位置信息的特征图，由于背景对应的像素点为物体的概率值小，通过点乘处理后，位置概率图中背景对应的特征值趋向于零，从而消除了背景信息。进一步地，将消除了背景信息地特征图通过卷积神经网络的后置卷积层和全连接层得到的特征向量的精确度高。并且，每个像素点为物体的概率对应的物体的位置概率图通过分支网络学习得到，无需人工预先标注位置，能够避免因个体性的标注错误而影响图像检索的精确度。

附图说明

图1为一个实施例的检索图像服务器的应用环境示意图；

图2为一个实施例的图像检索方法的流程图；

图3为一个实施例的卷积神经网络的结构图；

图4为一个实施例的相似矩阵的示意图；

图5为一个实施例的卷积神经网络的训练过程的示意图；

图6为第一输出结果输入到卷积神经网络的分支网络，得到每个像素点为物体的概率对应的物体的位置概率图的步骤的流程图；

图7为一个实施例的分支网络的结构示意图；

图8为一个实施例的图像检索装置的结构框图；

图9为另一个实施例的图像检索装置的结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

一个实施例的图像检索方法，通过输入检索图像能够检索到数据库中与其相似的图像。该方法可运行在图像检索服务的服务器。

图1为一个实施例中的服务器的内部结构示意图。如图1所示，服务器包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个用户终端的运行。服务器的存储介质存储有操作系统以及一种图像检索装置的计算机程序，该图像检索装置的计算机程序被处理器执行时，用于实现一种图像检索方法。服务器中的内存为存储介质中的图像检索装置的运行提供环境，网络接口用于与用户终端进行网络通信，例如，将检索到的相似图像发送至用户终端。接收用户终端的在线情况。

在一个实施例中，提供一种图像检索方法，该方法提供图像检索服务的服务器中，如图2所示，该方法包括以下步骤：

S202：获取检索图像。

其中，检索图像是指需要进行检测的图像以从数据库中检索得到其对应的相似图像。检索图像可以为从指定路径获取的图片，也可以为调用终端的摄像头采集的照片。

S204：将检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络，通过卷积神经网络的输入层和前置卷积层得到第一输出结果。

卷积神经网络(Convolutional Neural Network，简称CNN)是一种人工神经网络。卷积神经网络包括卷积层(Convolutional Layer)。本实施例所采用卷积神经网络可直接构建，也可将已有的卷积神经网络进行改造得到。

在卷积神经网络的卷积层中，存在多个特征图(Feature Map)，每个特征图包括多个神经元，同一个特征图的所有神经元共用一个卷积核。卷积核就是相应神经元的权值，卷积核代表一个特征。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中将学习得到合理的卷积核。卷积层可以减少神经网络中各层之间的连接，同时又降低了过拟合的风险。

在一个实施例中，在训练卷积神经网络时，对具有相似关系的训练图像样本进行训练，计算输入到卷积神经网络的输入图像与标定的具有相似关系的图像的距离，根据计算的距离调整卷积神经网络的参数；继续训练，直至达到终止条件。终止条件可以是差距小于预设差距，或者迭代次数达到预设次数。

一个实施例中典型的卷积神经网络的结构包括：输入层-N个卷积层-全连接层-输出层。卷积层可以看作一系统可训练的过滤器，各卷积层的输入为输入图像的一定区域大小的数量，通过卷积层的过滤点乘得到新的二维数据，然后滑过一个个过滤器，组成新的3维数据输出。

其中，输入层输入的包含检索图像原始图片中的全部像素，例如，长宽都是32，有RGB3个颜色通道。

本实施例中，将N个卷积层分为前置卷积层、后置卷积层以及连接前置卷积层和后置卷积层的中间卷积层。前置卷积层、后置卷积层和中间层的卷积层数量在训练前确定。

前置卷积层是指卷积神经网络中靠近输入层的预设数量的卷积层。通过前置卷积层处理后，获得该图像的中间特征，是相对原始图像的一种抽象特征表达，随着卷积网络的层数越来越深，特征的表示越来越接近图像的语义特征。后置卷积层是指卷积神经网络中靠近输出层的预设数量的卷积层。通过卷积神经网络的输入层和前置卷积层得到第一输出结果。第一输出结果为经过前置卷积层处理后，得到的中间阶段的特征表示。

S206：第一输出结果输入到卷积神经网络的分支网络，得到每个像素点为物体的概率对应的物体的位置概率图。

一个实施例的卷积神经网络的结构图如图3所示，在卷积神经网络中引入分支网络，分支网络的输入为前置卷积层的第一输出结果，第一输出结果输入分支网络后，对每个像素点为物体的概率进行计算，得到对应的物体的位置概率图。分支网络采用循环神经网络(RNN)，循环神经网络中，一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

分支网络的作用在于感知多物体概率值，即每个像素点为一个物体的概率，从而感知每个像素点为多个不同物体的概率值。可以理解的是，检索图像中，背景对应的像素点为物体的概率值小，主体部分为物体的概率值大。

S208：第一输出结果输入到卷积神经网络的中间卷积层，得到检索图像的特征图。

卷积神经网络的中间卷积层为前置卷积层和后置卷积层之间的卷积层，中间卷积层的卷积层数据根据卷积神经网络预先设定。中间卷积层对第一输出结果进行卷积处理，随着卷积网络的层数越来越深，特征的表示越来越接近图像的语义特征。

S210：对特征图与位置概率图进行点乘处理得到融合位置信息的特征图，并将融合位置信息的特征图输入至卷积神经网络的后置卷积层，通过后置卷积层和全连接层，输出检索图像的特征向量。

后置卷积层对融合位置信息的特征图做进一步的特征提取。全连接层，将卷积神经网络的中间输出带有结构化信息的特征，展开处理。

位置概率图中，背景对应的像素点为物体的概率值小，主体部分为物体的概率值大，将特征图与位置概率图进行点乘处理，也就是对特征图做加权，背景区域概率值小，即权重小，加权处理之后背景区域的特征趋向于零，从而消除了背景信息。故而，得到的融合位置信息的特征图为消除了背景信息的特征图。从而基于物体的概率图可以学习到更好的特征表达，去除背景的干扰。

S212：将检索图像的特征向量与数据库的各图像的特征向量进行比较，得到检索图像的检索结果。

具体地，将检索图像的特征向量与数据库的各图像的特征向量距离进行比较，找出距离在预设范围内的图像返回检索结果，或者返回与该图像特征距离最近的若干个图像。

上述的图像检索方法，卷积神经网络预先对具有相似关系的训练图像样本训练得到，卷积神经网络可以自动学习到图像的特征。在图像检索时，将检索图像输入卷积神经网络，通过卷积神经网络的输入层和前置卷积层得到检索图像的中间阶段特征表示的第一输出结果，将第一输出结果分别输入分支网络和中间卷积层，分支网络得到每个像素点为物体的概率对应的物体的位置概率图，中间卷积层得到检索图像的进一步特征图，通过对特征图与位置概率图进行点乘处理得到融合位置信息的特征图，由于背景对应的像素点为物体的概率值小，通过点乘处理后，位置概率图中背景对应的特征值趋向于零，从而消除了背景信息。进一步地，将消除了背景信息的特征图通过卷积神经网络的后置卷积层和全连接层得到的特征向量的精确度高。并且，每个像素点为物体的概率对应的物体的位置概率图通过分支网络学习得到，无需人工预先标注位置，能够避免因个体性的标注错误而影响图像检索的精确度。

在另一个实施例中，在获取检索图像的步骤之前，还包括：利用具有相似关系的训练图像样本训练得到卷积神经网络。具体地，对包括前置卷积层、分支网络、中间卷积层和后置卷积层的卷积神经网络进行训练。

具体地，在训练卷积神经网络时，对具有相似关系的训练图像样本进行训练，计算输入到卷积神经网络的输入图像与标定的具有相似关系的图像的距离，根据计算的距离调整卷积神经网络的参数；继续训练，直至达到终止条件。终止条件可以是差距小于预设差距，或者迭代次数达到预设次数。

在具体的实施例中，可以采用标记了全部相似关系的训练图像样本进行训练。这种方式需要在训练前对大量图像样本进行标记。单纯依赖人工标注不仅需要消耗大量的人力资源，还可能产生大量的主观性和个体性标注错误，不具备较好的扩展性。

在大部分的有监督的图像检索方法中，监督信息是用两元的关系来表示的，例如给定两张图像，这两张图像是相似或者不相似两种情况。在现实应用中，可以用相似性矩阵S来表示这种关系，如：

由于S只有少量的标注是已知的，本实施例中提出一种半监管的、基于深层神经网络的哈希检索方法。它可以用来处理S里面大量的未知的标记信息，如S里面95％以上的数据都是丢失。由于缺少了大量的数据，我们利用于S里面的更多的结构信息来完成对缺失值的重构。能够避免人工标注产生的主观性与个体性的标注错误的问题。

首先，假如有9张图像(I₁,I₂,...,I₉)，其中I₁,I₂是同一类的，I₃,I₄,I₅三个是同一类，I₆,I₇是同一类，I₈,I₉是相似的。那么这9张图像构成的真实相似性矩阵如图4所示，可以看出S不仅仅是低秩的，也是分块对角的。有了这个约束，可以更好地从只有少量标记中恢复出原来的结果。

基于上述特性，本实施例的图像检索方法，具体地，在训练得到卷积神经网络之前，还包括以下步骤S1至S3：

S1：获取标记相似关系的第一训练图像样本。

S2：获取未标记相似关系的第二训练图像样本。

第一训练图像样本为标记了标记关系的图像样本，第二训练图像样本为未标记相似关系的图像样本。第二训练图像样本的图像数量远大于第一训练图像样本的数量。

S3：根据第一训练图像样本和第二训练图像样本，基于相似性矩阵的特性对应的目标约束，补全第二训练图像样本的各图像间的相似关系，得到包括第一训练图像样本和第二图像样本的训练图像样本。

由于目标的相似性矩阵S是分块对角矩阵，也是低秩矩阵，如图4所示，本实施例中提出了使用图结构的拉普拉斯约束来达到这一目标。具体来说，可以写成下面的形式：

S＝S^T，S≥0，rank(L_S)＝n-c，

为了解决相应的优化问题，可运用了基于ADMM的交替迭代的算法，补全训练图像样本的相似矩阵。利用补全后的相似矩阵，利用卷积神经网络，即图片之间的相似关系，训练得到卷积网络神经模型。

一个实施例的卷积神经网络的训练过程如图5所示，它有两个部分。第一部分是用来处理有标记数据(利用已经学到的S)，第二部分是对未标记的数据进行操作。这个主要是用来加强学习的泛化能力。两个部分相应层的权重是共享的，它们可以用来进行共同训练。

基于训练的卷积神经网络学习特征，会比已有的人工构造的特征要更具有表现能力。它的好处在于可以构造更深度的网络，从而使得特征更具有表达能力。最重要的是特征表达和哈希编码是同时学习的，而且利用于大量的无监督的信息，这样两方面可以互相促进，从而得到更好的结果。

在再一个实施例中，卷积神经网络的分支网络采用循环神经网络(RNN)。循环神经网络中，一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

分支网络的作用在于感知多物体概率值。以每次学习到一个物体的方式，将多物体感知看成一个复杂的序列问题。这个序列拟采用时间递归神经网络的长短时记忆网络(Long Short Term Memory,LSTM)来学习到的。LSTM是一个常用的，用来学习序列长时间的关联信息的网络结构。它采用的是特定的不同的门，这些门用来决定哪些信息应该忘记，哪些信息应该被记住。这种特性让LSTM非常擅长对时序信息进行建模。也因此，使用LSTM来学习循环的结构特征。

具体地，第一输出结果输入到卷积神经网络的分支网络，得到每个像素点为物体的概率对应的物体的位置概率图的步骤的流程图如图6所示，包括以下步骤：

S602：第一输出结果输入到卷积神经网络的分支网络，得到每个像素点为一个物体的概率值。

S604：在得到的概率值大于预设值时，将概率值迭代输入分支，得到每个像素点为另一物体的概率值。

S606：当得到的概率值小于或等于预设值时，停止迭代得到检索图像中各物体的位置概率图。

一个实施例的分支网络的结构示意图如图7所示，图7显示了如何使用LSTM的来学习多物体的感知以及它们的概率。为了方便理解，在这里将它改写成没有循环的版本。将只有一个LSTM的网络写成多个它的复制，所有的复制都跟原来的网络具有相同的参数。这样就可以用向前传导的连接来替代所有循环结构。以图7为例，输入分支网络LSTM的原始图像具有两个物体：人和摩托车。那么在第一轮中，先用分支网络LSTM来找到最显著的物体，例如摩托车。有了这个信息，同样再学习一个热点图(Hot-map)，它用来表示这些摩托车可能的位置。同样，循环这个过程，在下个迭代中学习人以及人的热点图。当当得到的概率值小于或等于预设值时，可以认为整个流程没有了物体，则算法停止。

在再一个实施例中，对特征图与概率图进行处理得到融合位置信息的特征图的步骤包括：分别将各物体的位置概率图与特征图进行点乘处理后相加，得到融合位置信息的特征图。

通过LSTM分支网络输出的位置概念图可能有多个，分别将各物体的位置概率图与特征图进行点乘处理后相加，得到融合位置信息的特征图。由于位置概率图中，背景对应的像素点为物体的概率值小，主体部分为物体的概率值大，将特征图与位置概率图进行点乘处理，从而背景对应的特征值趋向于零，消除了背景信息。故而，得到的融合位置信息的特征图为消除了背景信息的特征图。

首先对将利用上面步骤生成的热点图来得到物体的特征表示。具体来说，当图像经过了深层的多个卷积层，它得到了一个更高阶的表示conv5。在这个后面，再接一个新的递归神经网络层，它会输出多个概率。设第一个物体的概率是D.Conv5它有l个通道，我们用Aⁱ∈R^H×W来表示conv5里面第i个通道上特征映射，其中H是图像的高和W是图像的宽度。同样，预测的物体概率D∈R^H×W，它也是跟conv5具有同样的大小，并且由于D通过Softmax层，这样它就变成了一个概率矩阵，所有元素的值都大于0，并且和为1。可以认为这里的每一个概率表示它有物体的大小，值越大，代表越有可能是物体。这样，这个物体的特征表示可以写成：

h＝1,2,...,H,w＝1,2,...W,i＝1,2,...,I

其中，fⁱ是第i个特征值，A为特征图，H为特征的高度，W为特征的宽度，D位置概率图。有了上面的特征，就可由它来构造物体的编码，从而更好地进行多物体的准确搜索。

下面用一个具体应用场景来说明上述图像检索方法。

事先对训练图像样本进行补全。训练图像样本利用少量的标记相似关系的第一训练图像样本和大量未标记相似关系的第二训练图像样本，基于相似性矩阵的特性对应的目标约束，补全第二训练图像样本的各图像间的相似关系。对训练图像样本的各图像，输入预先设计好的卷积神经网络结构中进行训练，以确定卷积神经网络的各参数。卷积神经网络包括输入层、前置卷积层、中间卷积层、分支网络、后置卷积层和全连接层。卷积神经网络的结构如图3所示。

在实际应用中，以在购物平台输入图像进行检索为例。获取用户输入的检索图像后，将检索图像输入预先训练好的卷积神经网络中，通过输入层和前置卷积层，得到输入图像的中间阶段的特征表示的第一输出结果；将第一输出结果输入分支网络，对每个像素点为物体的概率进行计算，得到对应的物体的位置概率图，将第一输出结果输入中间卷积层，得到更好特征表达的特征图，将特征图和位置概率图进行点乘处理后，融合位置信息的特征图。由于位置概率图中，背景对应的像素点为物体的概率值小，主体部分为物体的概率值大，将特征图与位置概率图进行点乘处理，从而背景对应的特征值趋向于零，消除了背景信息。故而，得到的融合位置信息的特征图为消除了背景信息的特征图。将融合位置信息的特征图输入至卷积神经网络的后置卷积层和全连接层，最后全连接层的输出为检索图像的特征向量。将检索图像的特征向量与数据库的各图像的特征向量距离进行比较，找出距离在预设范围内的图像返回检索结果。从而服务器返回对应图片的商品。

一种图像检索方装置，如图8所示，包括：图像获取模块802、卷积神经网络模块804和检索模块806。

图像获取模块802，用于获取检索图像。

卷积神经网络模块804，用于将检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络，通过卷积神经网络的输入层和前置卷积层得到第一输出结果；第一输出结果输入到卷积神经网络的分支网络，得到每个像素点为物体的概率对应的物体的位置概率图；第一输出结果输入到卷积神经网络的中间卷积层，得到检索图像的特征图；对特征图与位置概率图进行点乘处理得到融合位置信息的特征图，并将融合位置信息的特征图输入至卷积神经网络的后置卷积层，通过后置卷积层和全连接层，输出检索图像的特征向量。

检索模块806，用于将检索图像的特征向量与数据库的各图像的特征向量进行比较，得到检索图像的检索结果。

上述的图像检索装置，卷积神经网络预先对具有相似关系的训练图像样本训练得到，卷积神经网络可以自动学习到图像的特征。在图像检索时，将检索图像输入卷积神经网络，通过卷积神经网络的输入层和前置卷积层得到检索图像的中间阶段特征表示的第一输出结果，将第一输出结果分别输入分支网络和中间卷积层，分支网络得到每个像素点为物体的概率对应的物体的位置概率图，中间卷积层得到检索图像的进一步特征图，通过对特征图与位置概率图进行点乘处理得到融合位置信息的特征图，由于背景对应的像素点为物体的概率值小，通过点乘处理后，位置概率图中背景对应的特征值趋向于零，从而消除了背景信息。进一步地将消除了背景信息干的特征图通过卷积神经网络的后置卷积层和全连接层得到的特征向量的精确度高。并且，每个像素点为物体的概率对应的物体的位置概率图通过分支网络学习得到，无需人工预先标注位置，能够避免因个体性的标注错误而影响图像检索的精确度。

在另一个实施例中，如图9所示，图像检索装置还包括训练模块808，用于利用具有相似关系的训练图像样本训练得到卷积神经网络。

在再一个实施例中，图像检索装置还包括补全模块810，用于获取标记相似关系的第一训练图像样本；获取未标记相似关系的第二训练图像样本，并根据第一训练图像样本和第二训练图像样本，根据相似性矩阵的特性对应的目标约束，补全第二训练图像样本的各图像间的相似关系，得到包括第一训练图像样本和第二图像样本的训练图像样本。

在又一个实施例中，卷积神经网络的分支网络采用循环神经网络；卷积神经网络模块，用于将第一输出结果输入到卷积神经网络的分支网络，得到每个像素点为一个物体的概率值；在得到的概率值大于预设值时，将概率值迭代输入分支网络，得到每个像素点为另一物体的概率值；当得到的概率值小于或等于预设值时，停止迭代得到每个像素点为物体的概率对应的物体的位置概率图。

在再一个实施例中，卷积神经网络模块804，用于分别将各位置概率图与特征图进行点乘处理后相加，得到融合位置信息的特征图。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述的图像检索方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种图像检索方法，其特征在于，包括：

获取检索图像；

2.根据权利要求1所述的图像检索方法，其特征在于，在获取检索图像的步骤之前，还包括：

利用具有相似关系的训练图像样本训练得到所述卷积神经网络。

3.根据权利要求2所述的图像检索方法，其特征在于，利用具有相似关系的训练图像样本训练得到所述卷积神经网络的步骤之前，还包括：

获取标记相似关系的第一训练图像样本；

获取未标记相似关系的第二训练图像样本；

根据所述第一训练图像样本和所述第二训练图像样本，基于相似性矩阵的特性对应的目标约束，补全所述第二训练图像样本的各图像间的相似关系，得到包括所述第一训练图像样本和所述第二图像样本的所述训练图像样本。

4.根据权利要求1所述的图像检索方法，其特征在于，所述卷积神经网络的分支网络采用循环神经网络；

所述第一输出结果输入到所述卷积神经网络的分支网络，得到每个像素点为物体的概率对应的物体的位置概率图的步骤包括：

所述第一输出结果输入到所述卷积神经网络的分支网络，得到每个像素点为一个物体的概率值；

在得到的所述概率值大于预设值时，将所述概率值迭代输入所述分支网络，得到每个像素点为另一物体的概率值；

当得到的所述概率值小于或等于所述预设值时，停止迭代得到每个像素点为物体的概率对应的物体的位置概率图。

5.根据权利要求4所述的图像检索方法，其特征在于，对所述特征图与所述位置概率图进行点乘处理得到融合位置信息的特征图的步骤包括：

分别将各位置概率图与所述特征图进行点乘处理后相加，得到融合位置信息的特征图。

6.一种图像检索方装置，其特征在于，包括：图像获取模块、卷积神经网络模块、检索模块；

所述图像获取模块，用于获取检索图像；

7.根据权利要求6所述的图像检索装置，其特征在于，还包括训练模块，用于利用具有相似关系的训练图像样本训练得到所述卷积神经网络。

8.根据权利要求7所述的图像检索装置，其特征在于，还包括补全模块，用于获取标记相似关系的第一训练图像样本；获取未标记相似关系的第二训练图像样本，并根据所述第一训练图像样本和所述第二训练图像样本，基于相似性矩阵的特性对应的目标约束，补全所述第二训练图像样本的各图像间的相似关系，得到包括所述第一训练图像样本和所述第二图像样本的所述训练图像样本。

9.根据权利要求7所述的图像检索装置，其特征在于，所述卷积神经网络的分支网络采用循环神经网络；所述卷积神经网络模块，用于将所述第一输出结果输入到所述卷积神经网络的分支网络，得到每个像素点为一个物体的概率值；在得到的所述概率值大于预设值时，将所述概率值迭代输入所述分支网络，得到每个像素点为另一物体的概率值；当得到的所述概率值小于或等于所述预设值时，停止迭代得到每个像素点为物体的概率对应的物体的位置概率图。

10.根据权利要求9所述的图像检索装置，其特征在于，所述卷积神经网络模块，用于分别将各位置概率图与所述特征图进行点乘处理后相加，得到融合位置信息的特征图。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5任一项所述的图像检索方法的步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1至5任一项所述的图像检索方法的步骤。