CN109033107A - 图像检索方法和装置、计算机设备和存储介质 - Google Patents

图像检索方法和装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109033107A
CN109033107A CN201710433984.6A CN201710433984A CN109033107A CN 109033107 A CN109033107 A CN 109033107A CN 201710433984 A CN201710433984 A CN 201710433984A CN 109033107 A CN109033107 A CN 109033107A
Authority
CN
China
Prior art keywords
image
convolutional neural
neural networks
training
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710433984.6A
Other languages
English (en)
Other versions
CN109033107B (zh
Inventor
赖韩江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
Tencent Technology Shenzhen Co Ltd
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, National Sun Yat Sen University filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710433984.6A priority Critical patent/CN109033107B/zh
Publication of CN109033107A publication Critical patent/CN109033107A/zh
Application granted granted Critical
Publication of CN109033107B publication Critical patent/CN109033107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种图像检索方法和装置、计算机设备和存储介质,包括:获取检索图像;将检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络,通过输入层和前置卷积层得到第一输出结果;第一输出结果输入到的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图;第一输出结果输入到卷积神经网络的中间卷积层,得到检索图像的特征图;对特征图与位置概率图进行点乘处理得到融合位置信息的特征图,并将融合位置信息的特征图输入至卷积神经网络的后置卷积层,通过后置卷积层和全连接层,输出检索图像的特征向量;将检索图像的特征向量与数据库的各图像的特征向量进行比较,得到检索图像的检索结果。该方法精确度高。

Description

图像检索方法和装置、计算机设备和存储介质
技术领域
本发明涉及计算机设备技术领域,特别是涉及一种图像检索方法和装置、计算机设备和存储介质。
背景技术
图像检索,是通过输入图片来检索相似的图片的一种技术,为用户提供相关图形图像资料检索的搜索技术。
用户在进行图像检索时,输入的图像的主体通常为检索目标,但往往输入的图像除主体外,还包括背景信息。为了得到精确的检索结果,在进行图像检索时往往需要去除背景信息,以消除背景信息对图像检索的影响。在利用神经网络自适应学习的图像检索模型中,为解决这个问题,需要在训练时标注主体的位置信息,并基于此训练神经网络。
这种方式需要人工预先对训练图像样本进行大量的标注,单纯依赖人工标注不仅需要消耗大量的人力资源,还可能产生个体性的标注错误,从而影响图像检索的精确度。
发明内容
基于此,有必要针对因人工标注导致的图像检索的精确度受到影响的问题,提供一种图像检索方法和装置、计算机设备和存储介质。
为达到上述目的,一个实施例采用以下技术方案:
一种图像检索方法,包括:
获取检索图像;
将所述检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络,通过所述卷积神经网络的输入层和前置卷积层得到第一输出结果;
所述第一输出结果输入到所述卷积神经网络的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图;
所述第一输出结果输入到所述卷积神经网络的中间卷积层,得到所述检索图像的特征图;
对所述特征图与所述位置概率图进行点乘处理得到融合位置信息的特征图,并将所述融合位置信息的特征图输入至所述卷积神经网络的后置卷积层,通过后置卷积层和全连接层,输出所述检索图像的特征向量;
将所述检索图像的特征向量与数据库的各图像的特征向量进行比较,得到所述检索图像的检索结果。
一种图像检索方装置,包括:图像获取模块、卷积神经网络模块、检索模块;
所述图像获取模块,用于获取检索图像;
所述卷积神经网络模块,用于将所述检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络,通过所述卷积神经网络的输入层和前置卷积层得到第一输出结果;所述第一输出结果输入到所述卷积神经网络的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图;所述第一输出结果输入到所述卷积神经网络的中间卷积层,得到所述检索图像的特征图;对所述特征图与所述位置概率图进行点乘处理得到融合位置信息的特征图,并将所述融合位置信息的特征图输入至所述卷积神经网络的后置卷积层,通过后置卷积层和全连接层,输出所述检索图像的特征向量;
所述检索模块,用于将所述检索图像的特征向量与数据库的各图像的特征向量进行比较,得到所述检索图像的检索结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的图像检索方法的步骤。
一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述的图像检索方法的步骤。
上述的图像检索方法,卷积神经网络预先对具有相似关系的训练图像样本训练得到,卷积神经网络可以自动学习到图像的特征。在图像检索时,将检索图像输入卷积神经网络,通过卷积神经网络的输入层和前置卷积层得到检索图像的中间阶段特征表示的第一输出结果,将第一输出结果分别输入分支网络和中间卷积层,分支网络得到每个像素点为物体的概率对应的物体的位置概率图,中间卷积层得到检索图像的进一步特征图,通过对特征图与位置概率图进行点乘处理得到融合位置信息的特征图,由于背景对应的像素点为物体的概率值小,通过点乘处理后,位置概率图中背景对应的特征值趋向于零,从而消除了背景信息。进一步地,将消除了背景信息地特征图通过卷积神经网络的后置卷积层和全连接层得到的特征向量的精确度高。并且,每个像素点为物体的概率对应的物体的位置概率图通过分支网络学习得到,无需人工预先标注位置,能够避免因个体性的标注错误而影响图像检索的精确度。
附图说明
图1为一个实施例的检索图像服务器的应用环境示意图;
图2为一个实施例的图像检索方法的流程图;
图3为一个实施例的卷积神经网络的结构图;
图4为一个实施例的相似矩阵的示意图;
图5为一个实施例的卷积神经网络的训练过程的示意图;
图6为第一输出结果输入到卷积神经网络的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图的步骤的流程图;
图7为一个实施例的分支网络的结构示意图;
图8为一个实施例的图像检索装置的结构框图;
图9为另一个实施例的图像检索装置的结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
一个实施例的图像检索方法,通过输入检索图像能够检索到数据库中与其相似的图像。该方法可运行在图像检索服务的服务器。
图1为一个实施例中的服务器的内部结构示意图。如图1所示,服务器包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中,该处理器用于提供计算和控制能力,支撑整个用户终端的运行。服务器的存储介质存储有操作系统以及一种图像检索装置的计算机程序,该图像检索装置的计算机程序被处理器执行时,用于实现一种图像检索方法。服务器中的内存为存储介质中的图像检索装置的运行提供环境,网络接口用于与用户终端进行网络通信,例如,将检索到的相似图像发送至用户终端。接收用户终端的在线情况。
在一个实施例中,提供一种图像检索方法,该方法提供图像检索服务的服务器中,如图2所示,该方法包括以下步骤:
S202:获取检索图像。
其中,检索图像是指需要进行检测的图像以从数据库中检索得到其对应的相似图像。检索图像可以为从指定路径获取的图片,也可以为调用终端的摄像头采集的照片。
S204:将检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络,通过卷积神经网络的输入层和前置卷积层得到第一输出结果。
卷积神经网络(Convolutional Neural Network,简称CNN)是一种人工神经网络。卷积神经网络包括卷积层(Convolutional Layer)。本实施例所采用卷积神经网络可直接构建,也可将已有的卷积神经网络进行改造得到。
在卷积神经网络的卷积层中,存在多个特征图(Feature Map),每个特征图包括多个神经元,同一个特征图的所有神经元共用一个卷积核。卷积核就是相应神经元的权值,卷积核代表一个特征。卷积核一般以随机小数矩阵的形式初始化,在网络的训练过程中将学习得到合理的卷积核。卷积层可以减少神经网络中各层之间的连接,同时又降低了过拟合的风险。
在一个实施例中,在训练卷积神经网络时,对具有相似关系的训练图像样本进行训练,计算输入到卷积神经网络的输入图像与标定的具有相似关系的图像的距离,根据计算的距离调整卷积神经网络的参数;继续训练,直至达到终止条件。终止条件可以是差距小于预设差距,或者迭代次数达到预设次数。
一个实施例中典型的卷积神经网络的结构包括:输入层-N个卷积层-全连接层-输出层。卷积层可以看作一系统可训练的过滤器,各卷积层的输入为输入图像的一定区域大小的数量,通过卷积层的过滤点乘得到新的二维数据,然后滑过一个个过滤器,组成新的3维数据输出。
其中,输入层输入的包含检索图像原始图片中的全部像素,例如,长宽都是32,有RGB3个颜色通道。
本实施例中,将N个卷积层分为前置卷积层、后置卷积层以及连接前置卷积层和后置卷积层的中间卷积层。前置卷积层、后置卷积层和中间层的卷积层数量在训练前确定。
前置卷积层是指卷积神经网络中靠近输入层的预设数量的卷积层。通过前置卷积层处理后,获得该图像的中间特征,是相对原始图像的一种抽象特征表达,随着卷积网络的层数越来越深,特征的表示越来越接近图像的语义特征。后置卷积层是指卷积神经网络中靠近输出层的预设数量的卷积层。通过卷积神经网络的输入层和前置卷积层得到第一输出结果。第一输出结果为经过前置卷积层处理后,得到的中间阶段的特征表示。
S206:第一输出结果输入到卷积神经网络的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图。
一个实施例的卷积神经网络的结构图如图3所示,在卷积神经网络中引入分支网络,分支网络的输入为前置卷积层的第一输出结果,第一输出结果输入分支网络后,对每个像素点为物体的概率进行计算,得到对应的物体的位置概率图。分支网络采用循环神经网络(RNN),循环神经网络中,一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
分支网络的作用在于感知多物体概率值,即每个像素点为一个物体的概率,从而感知每个像素点为多个不同物体的概率值。可以理解的是,检索图像中,背景对应的像素点为物体的概率值小,主体部分为物体的概率值大。
S208:第一输出结果输入到卷积神经网络的中间卷积层,得到检索图像的特征图。
卷积神经网络的中间卷积层为前置卷积层和后置卷积层之间的卷积层,中间卷积层的卷积层数据根据卷积神经网络预先设定。中间卷积层对第一输出结果进行卷积处理,随着卷积网络的层数越来越深,特征的表示越来越接近图像的语义特征。
S210:对特征图与位置概率图进行点乘处理得到融合位置信息的特征图,并将融合位置信息的特征图输入至卷积神经网络的后置卷积层,通过后置卷积层和全连接层,输出检索图像的特征向量。
后置卷积层对融合位置信息的特征图做进一步的特征提取。全连接层,将卷积神经网络的中间输出带有结构化信息的特征,展开处理。
位置概率图中,背景对应的像素点为物体的概率值小,主体部分为物体的概率值大,将特征图与位置概率图进行点乘处理,也就是对特征图做加权,背景区域概率值小,即权重小,加权处理之后背景区域的特征趋向于零,从而消除了背景信息。故而,得到的融合位置信息的特征图为消除了背景信息的特征图。从而基于物体的概率图可以学习到更好的特征表达,去除背景的干扰。
S212:将检索图像的特征向量与数据库的各图像的特征向量进行比较,得到检索图像的检索结果。
具体地,将检索图像的特征向量与数据库的各图像的特征向量距离进行比较,找出距离在预设范围内的图像返回检索结果,或者返回与该图像特征距离最近的若干个图像。
上述的图像检索方法,卷积神经网络预先对具有相似关系的训练图像样本训练得到,卷积神经网络可以自动学习到图像的特征。在图像检索时,将检索图像输入卷积神经网络,通过卷积神经网络的输入层和前置卷积层得到检索图像的中间阶段特征表示的第一输出结果,将第一输出结果分别输入分支网络和中间卷积层,分支网络得到每个像素点为物体的概率对应的物体的位置概率图,中间卷积层得到检索图像的进一步特征图,通过对特征图与位置概率图进行点乘处理得到融合位置信息的特征图,由于背景对应的像素点为物体的概率值小,通过点乘处理后,位置概率图中背景对应的特征值趋向于零,从而消除了背景信息。进一步地,将消除了背景信息的特征图通过卷积神经网络的后置卷积层和全连接层得到的特征向量的精确度高。并且,每个像素点为物体的概率对应的物体的位置概率图通过分支网络学习得到,无需人工预先标注位置,能够避免因个体性的标注错误而影响图像检索的精确度。
在另一个实施例中,在获取检索图像的步骤之前,还包括:利用具有相似关系的训练图像样本训练得到卷积神经网络。具体地,对包括前置卷积层、分支网络、中间卷积层和后置卷积层的卷积神经网络进行训练。
具体地,在训练卷积神经网络时,对具有相似关系的训练图像样本进行训练,计算输入到卷积神经网络的输入图像与标定的具有相似关系的图像的距离,根据计算的距离调整卷积神经网络的参数;继续训练,直至达到终止条件。终止条件可以是差距小于预设差距,或者迭代次数达到预设次数。
在具体的实施例中,可以采用标记了全部相似关系的训练图像样本进行训练。这种方式需要在训练前对大量图像样本进行标记。单纯依赖人工标注不仅需要消耗大量的人力资源,还可能产生大量的主观性和个体性标注错误,不具备较好的扩展性。
在大部分的有监督的图像检索方法中,监督信息是用两元的关系来表示的,例如给定两张图像,这两张图像是相似或者不相似两种情况。在现实应用中,可以用相似性矩阵S来表示这种关系,如:
由于S只有少量的标注是已知的,本实施例中提出一种半监管的、基于深层神经网络的哈希检索方法。它可以用来处理S里面大量的未知的标记信息,如S里面95%以上的数据都是丢失。由于缺少了大量的数据,我们利用于S里面的更多的结构信息来完成对缺失值的重构。能够避免人工标注产生的主观性与个体性的标注错误的问题。
首先,假如有9张图像(I1,I2,...,I9),其中I1,I2是同一类的,I3,I4,I5三个是同一类,I6,I7是同一类,I8,I9是相似的。那么这9张图像构成的真实相似性矩阵如图4所示,可以看出S不仅仅是低秩的,也是分块对角的。有了这个约束,可以更好地从只有少量标记中恢复出原来的结果。
基于上述特性,本实施例的图像检索方法,具体地,在训练得到卷积神经网络之前,还包括以下步骤S1至S3:
S1:获取标记相似关系的第一训练图像样本。
S2:获取未标记相似关系的第二训练图像样本。
第一训练图像样本为标记了标记关系的图像样本,第二训练图像样本为未标记相似关系的图像样本。第二训练图像样本的图像数量远大于第一训练图像样本的数量。
S3:根据第一训练图像样本和第二训练图像样本,基于相似性矩阵的特性对应的目标约束,补全第二训练图像样本的各图像间的相似关系,得到包括第一训练图像样本和第二图像样本的训练图像样本。
由于目标的相似性矩阵S是分块对角矩阵,也是低秩矩阵,如图4所示,本实施例中提出了使用图结构的拉普拉斯约束来达到这一目标。具体来说,可以写成下面的形式:
S=ST,S≥0,rank(LS)=n-c,
为了解决相应的优化问题,可运用了基于ADMM的交替迭代的算法,补全训练图像样本的相似矩阵。利用补全后的相似矩阵,利用卷积神经网络,即图片之间的相似关系,训练得到卷积网络神经模型。
一个实施例的卷积神经网络的训练过程如图5所示,它有两个部分。第一部分是用来处理有标记数据(利用已经学到的S),第二部分是对未标记的数据进行操作。这个主要是用来加强学习的泛化能力。两个部分相应层的权重是共享的,它们可以用来进行共同训练。
基于训练的卷积神经网络学习特征,会比已有的人工构造的特征要更具有表现能力。它的好处在于可以构造更深度的网络,从而使得特征更具有表达能力。最重要的是特征表达和哈希编码是同时学习的,而且利用于大量的无监督的信息,这样两方面可以互相促进,从而得到更好的结果。
在再一个实施例中,卷积神经网络的分支网络采用循环神经网络(RNN)。循环神经网络中,一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
分支网络的作用在于感知多物体概率值。以每次学习到一个物体的方式,将多物体感知看成一个复杂的序列问题。这个序列拟采用时间递归神经网络的长短时记忆网络(Long Short Term Memory,LSTM)来学习到的。LSTM是一个常用的,用来学习序列长时间的关联信息的网络结构。它采用的是特定的不同的门,这些门用来决定哪些信息应该忘记,哪些信息应该被记住。这种特性让LSTM非常擅长对时序信息进行建模。也因此,使用LSTM来学习循环的结构特征。
具体地,第一输出结果输入到卷积神经网络的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图的步骤的流程图如图6所示,包括以下步骤:
S602:第一输出结果输入到卷积神经网络的分支网络,得到每个像素点为一个物体的概率值。
S604:在得到的概率值大于预设值时,将概率值迭代输入分支,得到每个像素点为另一物体的概率值。
S606:当得到的概率值小于或等于预设值时,停止迭代得到检索图像中各物体的位置概率图。
一个实施例的分支网络的结构示意图如图7所示,图7显示了如何使用LSTM的来学习多物体的感知以及它们的概率。为了方便理解,在这里将它改写成没有循环的版本。将只有一个LSTM的网络写成多个它的复制,所有的复制都跟原来的网络具有相同的参数。这样就可以用向前传导的连接来替代所有循环结构。以图7为例,输入分支网络LSTM的原始图像具有两个物体:人和摩托车。那么在第一轮中,先用分支网络LSTM来找到最显著的物体,例如摩托车。有了这个信息,同样再学习一个热点图(Hot-map),它用来表示这些摩托车可能的位置。同样,循环这个过程,在下个迭代中学习人以及人的热点图。当当得到的概率值小于或等于预设值时,可以认为整个流程没有了物体,则算法停止。
在再一个实施例中,对特征图与概率图进行处理得到融合位置信息的特征图的步骤包括:分别将各物体的位置概率图与特征图进行点乘处理后相加,得到融合位置信息的特征图。
通过LSTM分支网络输出的位置概念图可能有多个,分别将各物体的位置概率图与特征图进行点乘处理后相加,得到融合位置信息的特征图。由于位置概率图中,背景对应的像素点为物体的概率值小,主体部分为物体的概率值大,将特征图与位置概率图进行点乘处理,从而背景对应的特征值趋向于零,消除了背景信息。故而,得到的融合位置信息的特征图为消除了背景信息的特征图。
首先对将利用上面步骤生成的热点图来得到物体的特征表示。具体来说,当图像经过了深层的多个卷积层,它得到了一个更高阶的表示conv5。在这个后面,再接一个新的递归神经网络层,它会输出多个概率。设第一个物体的概率是D.Conv5它有l个通道,我们用Ai∈RH×W来表示conv5里面第i个通道上特征映射,其中H是图像的高和W是图像的宽度。同样,预测的物体概率D∈RH×W,它也是跟conv5具有同样的大小,并且由于D通过Softmax层,这样它就变成了一个概率矩阵,所有元素的值都大于0,并且和为1。可以认为这里的每一个概率表示它有物体的大小,值越大,代表越有可能是物体。这样,这个物体的特征表示可以写成:
h=1,2,...,H,w=1,2,...W,i=1,2,...,I
其中,fi是第i个特征值,A为特征图,H为特征的高度,W为特征的宽度,D位置概率图。有了上面的特征,就可由它来构造物体的编码,从而更好地进行多物体的准确搜索。
下面用一个具体应用场景来说明上述图像检索方法。
事先对训练图像样本进行补全。训练图像样本利用少量的标记相似关系的第一训练图像样本和大量未标记相似关系的第二训练图像样本,基于相似性矩阵的特性对应的目标约束,补全第二训练图像样本的各图像间的相似关系。对训练图像样本的各图像,输入预先设计好的卷积神经网络结构中进行训练,以确定卷积神经网络的各参数。卷积神经网络包括输入层、前置卷积层、中间卷积层、分支网络、后置卷积层和全连接层。卷积神经网络的结构如图3所示。
在实际应用中,以在购物平台输入图像进行检索为例。获取用户输入的检索图像后,将检索图像输入预先训练好的卷积神经网络中,通过输入层和前置卷积层,得到输入图像的中间阶段的特征表示的第一输出结果;将第一输出结果输入分支网络,对每个像素点为物体的概率进行计算,得到对应的物体的位置概率图,将第一输出结果输入中间卷积层,得到更好特征表达的特征图,将特征图和位置概率图进行点乘处理后,融合位置信息的特征图。由于位置概率图中,背景对应的像素点为物体的概率值小,主体部分为物体的概率值大,将特征图与位置概率图进行点乘处理,从而背景对应的特征值趋向于零,消除了背景信息。故而,得到的融合位置信息的特征图为消除了背景信息的特征图。将融合位置信息的特征图输入至卷积神经网络的后置卷积层和全连接层,最后全连接层的输出为检索图像的特征向量。将检索图像的特征向量与数据库的各图像的特征向量距离进行比较,找出距离在预设范围内的图像返回检索结果。从而服务器返回对应图片的商品。
一种图像检索方装置,如图8所示,包括:图像获取模块802、卷积神经网络模块804和检索模块806。
图像获取模块802,用于获取检索图像。
卷积神经网络模块804,用于将检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络,通过卷积神经网络的输入层和前置卷积层得到第一输出结果;第一输出结果输入到卷积神经网络的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图;第一输出结果输入到卷积神经网络的中间卷积层,得到检索图像的特征图;对特征图与位置概率图进行点乘处理得到融合位置信息的特征图,并将融合位置信息的特征图输入至卷积神经网络的后置卷积层,通过后置卷积层和全连接层,输出检索图像的特征向量。
检索模块806,用于将检索图像的特征向量与数据库的各图像的特征向量进行比较,得到检索图像的检索结果。
上述的图像检索装置,卷积神经网络预先对具有相似关系的训练图像样本训练得到,卷积神经网络可以自动学习到图像的特征。在图像检索时,将检索图像输入卷积神经网络,通过卷积神经网络的输入层和前置卷积层得到检索图像的中间阶段特征表示的第一输出结果,将第一输出结果分别输入分支网络和中间卷积层,分支网络得到每个像素点为物体的概率对应的物体的位置概率图,中间卷积层得到检索图像的进一步特征图,通过对特征图与位置概率图进行点乘处理得到融合位置信息的特征图,由于背景对应的像素点为物体的概率值小,通过点乘处理后,位置概率图中背景对应的特征值趋向于零,从而消除了背景信息。进一步地将消除了背景信息干的特征图通过卷积神经网络的后置卷积层和全连接层得到的特征向量的精确度高。并且,每个像素点为物体的概率对应的物体的位置概率图通过分支网络学习得到,无需人工预先标注位置,能够避免因个体性的标注错误而影响图像检索的精确度。
在另一个实施例中,如图9所示,图像检索装置还包括训练模块808,用于利用具有相似关系的训练图像样本训练得到卷积神经网络。
在再一个实施例中,图像检索装置还包括补全模块810,用于获取标记相似关系的第一训练图像样本;获取未标记相似关系的第二训练图像样本,并根据第一训练图像样本和第二训练图像样本,根据相似性矩阵的特性对应的目标约束,补全第二训练图像样本的各图像间的相似关系,得到包括第一训练图像样本和第二图像样本的训练图像样本。
在又一个实施例中,卷积神经网络的分支网络采用循环神经网络;卷积神经网络模块,用于将第一输出结果输入到卷积神经网络的分支网络,得到每个像素点为一个物体的概率值;在得到的概率值大于预设值时,将概率值迭代输入分支网络,得到每个像素点为另一物体的概率值;当得到的概率值小于或等于预设值时,停止迭代得到每个像素点为物体的概率对应的物体的位置概率图。
在再一个实施例中,卷积神经网络模块804,用于分别将各位置概率图与特征图进行点乘处理后相加,得到融合位置信息的特征图。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述的图像检索方法的步骤。
一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述的图像检索方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种图像检索方法,其特征在于,包括:
获取检索图像;
将所述检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络,通过所述卷积神经网络的输入层和前置卷积层得到第一输出结果;
所述第一输出结果输入到所述卷积神经网络的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图;
所述第一输出结果输入到所述卷积神经网络的中间卷积层,得到所述检索图像的特征图;
对所述特征图与所述位置概率图进行点乘处理得到融合位置信息的特征图,并将所述融合位置信息的特征图输入至所述卷积神经网络的后置卷积层,通过后置卷积层和全连接层,输出所述检索图像的特征向量;
将所述检索图像的特征向量与数据库的各图像的特征向量进行比较,得到所述检索图像的检索结果。
2.根据权利要求1所述的图像检索方法,其特征在于,在获取检索图像的步骤之前,还包括:
利用具有相似关系的训练图像样本训练得到所述卷积神经网络。
3.根据权利要求2所述的图像检索方法,其特征在于,利用具有相似关系的训练图像样本训练得到所述卷积神经网络的步骤之前,还包括:
获取标记相似关系的第一训练图像样本;
获取未标记相似关系的第二训练图像样本;
根据所述第一训练图像样本和所述第二训练图像样本,基于相似性矩阵的特性对应的目标约束,补全所述第二训练图像样本的各图像间的相似关系,得到包括所述第一训练图像样本和所述第二图像样本的所述训练图像样本。
4.根据权利要求1所述的图像检索方法,其特征在于,所述卷积神经网络的分支网络采用循环神经网络;
所述第一输出结果输入到所述卷积神经网络的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图的步骤包括:
所述第一输出结果输入到所述卷积神经网络的分支网络,得到每个像素点为一个物体的概率值;
在得到的所述概率值大于预设值时,将所述概率值迭代输入所述分支网络,得到每个像素点为另一物体的概率值;
当得到的所述概率值小于或等于所述预设值时,停止迭代得到每个像素点为物体的概率对应的物体的位置概率图。
5.根据权利要求4所述的图像检索方法,其特征在于,对所述特征图与所述位置概率图进行点乘处理得到融合位置信息的特征图的步骤包括:
分别将各位置概率图与所述特征图进行点乘处理后相加,得到融合位置信息的特征图。
6.一种图像检索方装置,其特征在于,包括:图像获取模块、卷积神经网络模块、检索模块;
所述图像获取模块,用于获取检索图像;
所述卷积神经网络模块,用于将所述检索图像输入预先对具有相似关系的训练图像样本训练得到的卷积神经网络,通过所述卷积神经网络的输入层和前置卷积层得到第一输出结果;所述第一输出结果输入到所述卷积神经网络的分支网络,得到每个像素点为物体的概率对应的物体的位置概率图;所述第一输出结果输入到所述卷积神经网络的中间卷积层,得到所述检索图像的特征图;对所述特征图与所述位置概率图进行点乘处理得到融合位置信息的特征图,并将所述融合位置信息的特征图输入至所述卷积神经网络的后置卷积层,通过后置卷积层和全连接层,输出所述检索图像的特征向量;
所述检索模块,用于将所述检索图像的特征向量与数据库的各图像的特征向量进行比较,得到所述检索图像的检索结果。
7.根据权利要求6所述的图像检索装置,其特征在于,还包括训练模块,用于利用具有相似关系的训练图像样本训练得到所述卷积神经网络。
8.根据权利要求7所述的图像检索装置,其特征在于,还包括补全模块,用于获取标记相似关系的第一训练图像样本;获取未标记相似关系的第二训练图像样本,并根据所述第一训练图像样本和所述第二训练图像样本,基于相似性矩阵的特性对应的目标约束,补全所述第二训练图像样本的各图像间的相似关系,得到包括所述第一训练图像样本和所述第二图像样本的所述训练图像样本。
9.根据权利要求7所述的图像检索装置,其特征在于,所述卷积神经网络的分支网络采用循环神经网络;所述卷积神经网络模块,用于将所述第一输出结果输入到所述卷积神经网络的分支网络,得到每个像素点为一个物体的概率值;在得到的所述概率值大于预设值时,将所述概率值迭代输入所述分支网络,得到每个像素点为另一物体的概率值;当得到的所述概率值小于或等于所述预设值时,停止迭代得到每个像素点为物体的概率对应的物体的位置概率图。
10.根据权利要求9所述的图像检索装置,其特征在于,所述卷积神经网络模块,用于分别将各位置概率图与所述特征图进行点乘处理后相加,得到融合位置信息的特征图。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述的图像检索方法的步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1至5任一项所述的图像检索方法的步骤。
CN201710433984.6A 2017-06-09 2017-06-09 图像检索方法和装置、计算机设备和存储介质 Active CN109033107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710433984.6A CN109033107B (zh) 2017-06-09 2017-06-09 图像检索方法和装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710433984.6A CN109033107B (zh) 2017-06-09 2017-06-09 图像检索方法和装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109033107A true CN109033107A (zh) 2018-12-18
CN109033107B CN109033107B (zh) 2021-09-17

Family

ID=64629875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710433984.6A Active CN109033107B (zh) 2017-06-09 2017-06-09 图像检索方法和装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109033107B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857893A (zh) * 2019-01-16 2019-06-07 平安科技(深圳)有限公司 图片检索方法、装置、计算机设备及存储介质
CN109993201A (zh) * 2019-02-14 2019-07-09 平安科技(深圳)有限公司 一种图像处理方法、装置和可读存储介质
CN110188227A (zh) * 2019-05-05 2019-08-30 华南理工大学 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN110276269A (zh) * 2019-05-29 2019-09-24 西安交通大学 一种基于注意力机制的遥感图像目标检测方法
CN110517186A (zh) * 2019-07-30 2019-11-29 金蝶软件(中国)有限公司 消除发票印章的方法、装置、存储介质和计算机设备
CN110866140A (zh) * 2019-11-26 2020-03-06 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN111340126A (zh) * 2020-03-03 2020-06-26 腾讯云计算(北京)有限责任公司 物品识别方法、装置、计算机设备和存储介质
WO2020239026A1 (zh) * 2019-05-30 2020-12-03 京东方科技集团股份有限公司 图像处理方法及装置、神经网络的训练方法、存储介质
CN112329439A (zh) * 2020-11-18 2021-02-05 北京工商大学 基于图卷积神经网络模型的食品安全事件检测方法及系统
CN112446403A (zh) * 2019-09-03 2021-03-05 顺丰科技有限公司 装载率识别方法、装置、计算机设备和存储介质
CN112509052A (zh) * 2020-12-22 2021-03-16 苏州超云生命智能产业研究院有限公司 黄斑中心凹的检测方法、装置、计算机设备和存储介质
CN113048899A (zh) * 2021-06-02 2021-06-29 中国科学院自动化研究所 基于线结构光的厚度测量方法和系统
CN114356852A (zh) * 2022-03-21 2022-04-15 展讯通信(天津)有限公司 一种文件检索方法、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029471A1 (en) * 2009-07-30 2011-02-03 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN105354273A (zh) * 2015-10-29 2016-02-24 浙江高速信息工程技术有限公司 一种快速检索高速公路逃费车辆高相似度图像的方法
CN105956626A (zh) * 2016-05-12 2016-09-21 成都新舟锐视科技有限公司 基于深度学习的对车牌位置不敏感的车牌识别方法
CN106203298A (zh) * 2016-06-30 2016-12-07 北京集创北方科技股份有限公司 生物特征识别方法及装置
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法
CN106682616A (zh) * 2016-12-28 2017-05-17 南京邮电大学 基于双通道特征深度学习的新生儿疼痛表情识别方法
CN106778583A (zh) * 2016-12-07 2017-05-31 北京理工大学 基于卷积神经网络的车辆属性识别方法与装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029471A1 (en) * 2009-07-30 2011-02-03 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN105354273A (zh) * 2015-10-29 2016-02-24 浙江高速信息工程技术有限公司 一种快速检索高速公路逃费车辆高相似度图像的方法
CN105956626A (zh) * 2016-05-12 2016-09-21 成都新舟锐视科技有限公司 基于深度学习的对车牌位置不敏感的车牌识别方法
CN106203298A (zh) * 2016-06-30 2016-12-07 北京集创北方科技股份有限公司 生物特征识别方法及装置
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法
CN106778583A (zh) * 2016-12-07 2017-05-31 北京理工大学 基于卷积神经网络的车辆属性识别方法与装置
CN106682616A (zh) * 2016-12-28 2017-05-17 南京邮电大学 基于双通道特征深度学习的新生儿疼痛表情识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SERGEY ZAGORUYKO 等: "Learning to compare image patches via convolutional neural networks", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
YUANYUAN ZHANG 等: "Adaptive Convolutional Neural Network and Its Application in Face Recognition", 《 NEURAL PROCESS LETT》 *
蔡强 等: "图像目标类别检测综述", 《计算机科学与探索》 *
蔡晓东 等: "基于多分支卷积神经网络的车辆图像比对方法", 《电视技术》 *
谢宝剑: "基于卷积神经网络的图像分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
谭贞刚: "基于多分辨率卷积网络的交通标志检测与识别", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857893A (zh) * 2019-01-16 2019-06-07 平安科技(深圳)有限公司 图片检索方法、装置、计算机设备及存储介质
CN109993201A (zh) * 2019-02-14 2019-07-09 平安科技(深圳)有限公司 一种图像处理方法、装置和可读存储介质
CN110188227A (zh) * 2019-05-05 2019-08-30 华南理工大学 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN110188227B (zh) * 2019-05-05 2022-11-18 华南理工大学 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN110276269A (zh) * 2019-05-29 2019-09-24 西安交通大学 一种基于注意力机制的遥感图像目标检测方法
CN110276269B (zh) * 2019-05-29 2021-06-29 西安交通大学 一种基于注意力机制的遥感图像目标检测方法
US11908102B2 (en) 2019-05-30 2024-02-20 Boe Technology Group Co., Ltd. Image processing method and device, training method of neural network, and storage medium
WO2020239026A1 (zh) * 2019-05-30 2020-12-03 京东方科技集团股份有限公司 图像处理方法及装置、神经网络的训练方法、存储介质
CN110517186A (zh) * 2019-07-30 2019-11-29 金蝶软件(中国)有限公司 消除发票印章的方法、装置、存储介质和计算机设备
CN110517186B (zh) * 2019-07-30 2023-07-07 金蝶软件(中国)有限公司 消除发票印章的方法、装置、存储介质和计算机设备
CN112446403A (zh) * 2019-09-03 2021-03-05 顺丰科技有限公司 装载率识别方法、装置、计算机设备和存储介质
CN110866140B (zh) * 2019-11-26 2024-02-02 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110866140A (zh) * 2019-11-26 2020-03-06 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN111340126A (zh) * 2020-03-03 2020-06-26 腾讯云计算(北京)有限责任公司 物品识别方法、装置、计算机设备和存储介质
CN112329439A (zh) * 2020-11-18 2021-02-05 北京工商大学 基于图卷积神经网络模型的食品安全事件检测方法及系统
CN112509052A (zh) * 2020-12-22 2021-03-16 苏州超云生命智能产业研究院有限公司 黄斑中心凹的检测方法、装置、计算机设备和存储介质
CN112509052B (zh) * 2020-12-22 2024-04-23 苏州超云生命智能产业研究院有限公司 黄斑中心凹的检测方法、装置、计算机设备和存储介质
CN113048899A (zh) * 2021-06-02 2021-06-29 中国科学院自动化研究所 基于线结构光的厚度测量方法和系统
CN114356852A (zh) * 2022-03-21 2022-04-15 展讯通信(天津)有限公司 一种文件检索方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN109033107B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
CN112036322B (zh) 多任务网络跨域行人重识别模型构建方法、系统及装置
CN108197326B (zh) 一种车辆检索方法及装置、电子设备、存储介质
CN105678284B (zh) 一种固定位人体行为分析方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN109816009A (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN111428771B (zh) 视频场景分类方法、装置和计算机可读存储介质
US11966829B2 (en) Convolutional artificial neural network based recognition system in which registration, search, and reproduction of image and video are divided between and performed by mobile device and server
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
US20230215166A1 (en) Few-shot urban remote sensing image information extraction method based on meta learning and attention
CN116051388A (zh) 经由语言请求的自动照片编辑
CN111046213B (zh) 一种基于图像识别的知识库构建方法
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN114358250A (zh) 数据处理方法、装置、计算机设备、介质及程序产品
CN113297936A (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN116758379A (zh) 一种图像处理方法、装置、设备及存储介质
CN115630361A (zh) 一种基于注意力蒸馏的联邦学习后门防御方法
Li et al. Semantic prior-driven fused contextual transformation network for image inpainting
CN112801138A (zh) 基于人体拓扑结构对齐的多人姿态估计方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
Senapati et al. Image-to-image translation using Pix2Pix GAN and cycle GAN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant