CN109597906B

CN109597906B - 图像检索方法及装置

Info

Publication number: CN109597906B
Application number: CN201811486518.5A
Authority: CN
Inventors: 李磊; 董远; 白洪亮; 熊风烨
Original assignee: Suzhou Feisou Technology Co ltd
Current assignee: SUZHOU FEISOU TECHNOLOGY Co.,Ltd.
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-11-13
Anticipated expiration: 2038-12-06
Also published as: CN109597906A

Abstract

本发明实施例提供一种图像检索方法及装置，所述方法包括：使用卷积神经网络提取目标图像的特征，根据卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的特征图中像素的总得分作为目标图像的类激活映射表；将各特征图与类激活映射表进行相乘后求和池化，将求和池化结果与目标图像各特征图的权重进行相乘，获取目标图像各特征图的中间特征；根据卷积神经网络的判别层输出的目标图像类别概率和目标图像各特征图的中间特征，获取目标图像各特征图的空间语义特征；根据目标图像各特征图的空间语义特征和预先获取的各待检索图像各特征图的空间语义特征，获取检索结果。本发明实施例使用空间语义信息进行检索，提高了检索精度。

Description

图像检索方法及装置

技术领域

本发明实施例属于信息检索技术领域，更具体地，涉及一种图像检索方法及装置。

背景技术

图像检索是指从图像数据库中检索出与指定图像相似的图像。包括基于文本的图像检索和基于内容的图像检索。基于文本的图像检索是利用文本描述的方式描述图像的特征，基于内容的图像检索是使用图像的内容语义，如颜色、纹理和布局等进行分析和检索。

传统的基于内容的图像检索主要以手工制作的特征，即通过均值方差等数学上的信息对图像进行编码来获取特征，再进行余弦距离或者欧式距离的匹配来进行检索。随着卷积神经网络在图像识别上取得的成就，衍生出了提取卷积神经网络的全连接层的特征来进行检索。针对不同的检索任务，首先对该任务训练一个分类网络，在特定数据集上进行微调，然后提取全连接层的特征进行匹配检索。又有研究表明，卷积神经网络的卷积层输出相比全连接层的输出具有更多的空间信息，对于检索的效果更好。于是又尝试将卷积层的特征与内部感兴趣区域获取结合起来，加入监督学习的方式，如目标检测来获取图像中的关键区域，提取卷积层的特征进行检索。

由于图像检索中所使用的特征对检索结果有重大影响，即从图像中提取的特征越精确，越精细，检索结果越精确。因此，直接使用卷积神经网络中提取的空间特征进行图像检索的结果不精确。

发明内容

为克服上述现有的图像检索方法的检索结果不精确的问题或者至少部分地解决上述问题，本发明实施例提供一种图像检索方法及装置。

根据本发明实施例的第一方面，提供一种图像检索方法，包括：

使用卷积神经网络提取目标图像的特征，根据所述卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的所述目标图像特征图中像素的总得分作为所述目标图像的类激活映射表；

将所述目标图像的各特征图与所述目标图像的类激活映射表进行相乘后求和池化，将求和池化结果与所述目标图像各特征图的权重进行相乘，获取所述目标图像各特征图的中间特征；

根据所述卷积神经网络的判别层输出的目标图像类别概率和所述目标图像各特征图的中间特征，获取所述目标图像各特征图的空间语义特征；

根据所述目标图像各特征图的空间语义特征和预先获取的各待检索图像各特征图的空间语义特征，获取检索结果。

根据本发明实施例第二方面提供一种图像检索装置，包括：

映射模块，用于使用卷积神经网络提取目标图像的特征，根据所述卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的所述目标图像特征图中像素的总得分作为所述目标图像的类激活映射表；

第一获取模块，用于将所述目标图像的各特征图与所述目标图像的类激活映射表进行相乘后求和池化，将求和池化结果与所述目标图像各特征图的权重进行相乘，获取所述目标图像的各特征图的中间特征；

第二获取模块，用于根据所述卷积神经网络的判别层输出的目标图像类别概率和所述目标图像各特征图的中间特征，获取所述目标图像各特征图的空间语义特征；

检索模块，用于根据所述目标图像各特征图的空间语义特征和预先获取的各待检索图像各特征图的空间语义特征，获取检索结果。

根据本发明实施例的第三个方面，还提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的图像检索方法。

根据本发明实施例的第四个方面，还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的图像检索方法。

本发明实施例提供一种图像检索方法及装置，该方法通过训练用于大数据集上进行图像分类的卷积神经网络，使之用于图像检索，对卷积神经网络最后一个卷积层的输出进行编码，更好表现出图像特征，卷积层的输出具有空间信息，对于图像检索具有重大作用，利用类激活映射根据卷积神经网络的卷积层提取的特征生成语义感知权重，从而获取相应的语义信息，空间信息和语义信息的结合更具有表征性，提高了检索的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图像检索方法整体流程示意图；

图2为本发明实施例提供的图像检索装置整体结构示意图；

图3为本发明实施例提供的电子设备整体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的一个实施例中提供一种图像检索方法，图1为本发明实施例提供的图像检索方法整体流程示意图，该方法包括：S101，使用卷积神经网络提取目标图像的特征，根据所述卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的所述目标图像特征图中像素的总得分作为所述目标图像的类激活映射表；

其中，卷积神经网络是一种特殊的深层神经网络模型，该网络中神经元间的连接是非全连接的，同一层中某些神经元之间的连接的权重是共享的，即相同的。非全连接和权值共享的网络结构使卷积神经网络更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。本实施例不限于卷积神经网络的具体结构。目标图像为用户输入的搜索图像，从数据库中检索与目标图像相似的图像，将数据库中的图像作为待检索图像。使用卷积神经网络提取目标图像的特征，获取卷积神经网络中最后一个卷积层输出的目标图像的特征图。其中，卷积神经网络中的卷积层是由多个卷积核构成的一种结果，主要用于卷积运算。计算当卷积神经网络的预测结果为预设类别c类时，目标图像的各特征图中每个像素的得分，将所有特征图中同一位置像素的得分进行相加，获取同一位置像素的总得分。将该总得分作为目标图像的类激活映射表。

S102，将所述目标图像的各特征图与所述目标图像的类激活映射表进行相乘后求和池化，将求和池化结果与所述目标图像各特征图的权重进行相乘，获取所述目标图像各特征图的中间特征；

其中，各特征图的权重用于表示个特征图的重要程度，本实施例不限于特征图权重的计算方法。对于从卷积神经网络最后一个卷积层输出的K个分辨率为W*H的特征图，当预测结果为类别为c时，将目标图像的各特征图与目标图像的类激活映射表进行相乘后，将W*H的区域进行求和池化，生成一个K维向量表征目标图像特征图的特征，从而使目标图像的空间信息得到充分利用。最后将各特征图的信息融合进该K维特征，从而将空间特征和语义特征联合。首先，将求和池化结果与目标图像各特征图的权重进行相乘，获取目标图像各特征图的中间特征

中间特征的获取公式如下：

从而得到一个对应于c类的K维特征，即

S103，根据所述卷积神经网络的判别层输出的目标图像类别概率和所述目标图像各特征图的中间特征，获取所述目标图像各特征图的空间语义特征；

将卷积神经网络的全连接层的输出作为经过卷积神经网络中判别层的处理后获取目标图像的类别概率，如预测结果为c类的概率。将各特征图的中间特征与类别概率进行相乘，获取各特征图的空间语义特征，即加权的全图特征。该判别层可以为softmax层。

S104，根据所述目标图像各特征图的空间语义特征和预先获取的各待检索图像各特征图的空间语义特征，获取检索结果。

其中，各待检索图像各特征图的获取方法与目标图像特征图的获取方法相同。各待检索图像各特征图的空间语义特征的获取方法与目标图像特征图的空间语义特征的获取方法相同。各待检索图像各特征图的空间语义特征预先获取，并进行存储，便于重复利用。在进行检索时可以直接从数据库中获取各待检索图像各特征图的空间语义特征。可以根据目标图像各特征图的空间语义特征和各待检索图像各特征图的预先获取的空间语义特征之间的余弦距离，获取检索结果。但本实施例不限于余弦距离这种相似度计算方法。

本实施例通过训练用于大数据集上进行图像分类的卷积神经网络，使之用于图像检索，对卷积神经网络最后一个卷积层的输出进行编码，更好表现出图像特征，卷积层的输出具有空间信息，对于图像检索具有重大作用，利用类激活映射根据卷积神经网络的卷积层提取的特征生成语义感知权重，从而获取相应的语义信息，空间信息和语义信息的结合更具有表征性，提高了检索的精度。

在上述实施例的基础上，本实施例中通过以下公式根据所述卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的所述目标图像特征图中像素的总得分作为所述目标图像的类激活映射表：

其中，CAM_c(x,y)为所述目标图像所有特征图中坐标为(x,y)的像素的总得分，f_k(x,y)表示最后一个卷积层输出的目标图像第k个特征图中坐标为(x,y)的像素特征，

为目标图像第k个特征图的预测结果为c类时所述卷积神经网络的全连接层的权重参数。

具体地，卷积神经网络中最后一个卷积层之后设有全局平均池化层GAP，设GAP前一级输出的第k个特征图为f_k(x,y)，各特征图通过GAP进行处理后得到输出的各特征图F_k为：

F_k＝∑_x,yf_k(x,y)。

卷积神经网络的预测结果为c类时的得分S_c如下：

其中，

为目标图像第k个特征图的预测结果为c类时所述卷积神经网络的全连接层的权重参数。考虑到累加性，将S_c计算公式的后一部分取出，定义为(x,y)位置像素的类激活映射值，得到类激活映射表，即：

在上述实施例的基础上，本实施例中在将求和池化结果与所述目标图像各特征图的权重进行相乘，获取所述目标图像各特征图的中间特征的步骤之前，还包括通过以下公式计算所述目标图像各特征图的权重：

其中，CW_k表示所述目标图像第k个特征图的权重，K为所述目标图像特征图的总个数，Q_n为目标图像第n个特征图中非零像素的比例，Q_k为目标图像第k个特征图中非零像素的比例。

在本发明的另一个实施例中提供一种图像检索装置，该装置用于实现前述各实施例中的方法。因此，在前述图像检索方法的各实施例中的描述和定义，可以用于本发明实施例中各个执行模块的理解。图2为本发明实施例提供的图像检索装置整体结构示意图，该装置包括映射模块201、第一获取模块202、第二获取模块203和检索模块204；其中：

映射模块201用于使用卷积神经网络提取目标图像的特征，根据所述卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的所述目标图像特征图中像素的总得分作为所述目标图像的类激活映射表；

其中，目标图像为用户输入的搜索图像，从数据库中检索与目标图像相似的图像，将数据库中的图像作为待检索图像。映射模块201使用卷积神经网络提取目标图像的特征，获取卷积神经网络中最后一个卷积层输出的目标图像的特征图。计算当卷积神经网络的预测结果为预设类别c类时，目标图像的各特征图中每个像素的得分，将所有特征图中同一位置像素的得分进行相加，获取同一位置像素的总得分。将该总得分作为目标图像的类激活映射表。

第一获取模块202用于将所述目标图像的各特征图与所述目标图像的类激活映射表进行相乘后求和池化，将求和池化结果与所述目标图像各特征图的权重进行相乘，获取所述目标图像的各特征图的中间特征；

其中，各特征图的权重用于表示个特征图的重要程度，本实施例不限于特征图权重的计算方法。第一获取模块202将目标图像的各特征图与目标图像的类激活映射表进行相乘后，进行求和池化，从而使目标图像的空间信息得到充分利用。将求和池化结果与目标图像各特征图的权重进行相乘，获取目标图像各特征图的中间特征

中间特征的获取公式如下：

从而得到一个对应于c类的K维特征，即

第二获取模块203用于根据所述卷积神经网络的判别层输出的目标图像类别概率和所述目标图像各特征图的中间特征，获取所述目标图像各特征图的空间语义特征；

第二获取模块203将卷积神经网络的全连接层的输出作为经过卷积神经网络中判别层的处理后获取目标图像的类别概率，如预测结果为c类的概率。将各特征图的中间特征与类别概率进行相乘，获取各特征图的空间语义特征，即加权的全图特征。该判别层可以为softmax层。

检索模块204用于根据所述目标图像各特征图的空间语义特征和预先获取的各待检索图像各特征图的空间语义特征，获取检索结果。

其中，各待检索图像各特征图的获取方法与目标图像特征图的获取方法相同。各待检索图像各特征图的空间语义特征的获取方法与目标图像特征图的空间语义特征的获取方法相同。各待检索图像各特征图的空间语义特征预先获取，并进行存储，便于重复利用。在进行检索时可以直接从数据库中获取各待检索图像各特征图的空间语义特征。检索模块204根据目标图像各特征图的空间语义特征和各待检索图像各特征图的预先获取的空间语义特征之间的余弦距离，获取检索结果。但本实施例不限于余弦距离这种相似度计算方法。

在上述实施例的基础上，本实施例中映射模块具体通过以下公式根据所述卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的所述目标图像特征图中像素的总得分作为所述目标图像的类激活映射表：

在上述实施例的基础上，本实施例中第一获取模块还用于通过以下公式计算所述目标图像各特征图的权重：

在上述实施例的基础上，本实施例中第二获取模块具体用于：根据所述卷积神经网络的全连接层的输出，使用softmax判别层获取所述目标图像的类别概率；将所述类别概率与所述目标图像各特征图的中间特征进行相乘，获取所述目标图像各特征图的空间语义特征。

在上述各实施例的基础上，本实施例中各所述待检索图像各特征图的获取方法与所述目标图像特征图的获取方法相同；各所述待检索图像各特征图的空间语义特征的获取方法与所述目标图像特征图的空间语义特征的获取方法相同。

在上述各实施例的基础上，本实施例中检索模块具体用于：计算所述目标图像各特征图的空间语义特征和各待检索图像各特征图的预先获取的空间语义特征之间的余弦距离，根据所述余弦距离获取检索结果。

本实施例提供一种电子设备，图3为本发明实施例提供的电子设备整体结构示意图，该设备包括：至少一个处理器301、至少一个存储器302和总线303；其中，

处理器301和存储器302通过总线303完成相互间的通信；

存储器302存储有可被处理器301执行的程序指令，处理器调用程序指令能够执行上述各方法实施例所提供的方法，例如包括：使用卷积神经网络提取目标图像的特征，根据卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的特征图中像素的总得分作为目标图像的类激活映射表；将各特征图与类激活映射表进行相乘后求和池化，将求和池化结果与目标图像各特征图的权重进行相乘，获取目标图像各特征图的中间特征；根据卷积神经网络的判别层输出的目标图像类别概率和目标图像各特征图的中间特征，获取目标图像各特征图的空间语义特征；根据目标图像各特征图的空间语义特征和预先获取的各待检索图像各特征图的空间语义特征，获取检索结果。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：使用卷积神经网络提取目标图像的特征，根据卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的特征图中像素的总得分作为目标图像的类激活映射表；将各特征图与类激活映射表进行相乘后求和池化，将求和池化结果与目标图像各特征图的权重进行相乘，获取目标图像各特征图的中间特征；根据卷积神经网络的判别层输出的目标图像类别概率和目标图像各特征图的中间特征，获取目标图像各特征图的空间语义特征；根据目标图像各特征图的空间语义特征和预先获取的各待检索图像各特征图的空间语义特征，获取检索结果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过以下公式根据所述卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的所述目标图像特征图中像素的总得分作为所述目标图像的类激活映射表：

3.根据权利要求1所述的方法，其特征在于，在将求和池化结果与所述目标图像各特征图的权重进行相乘，获取所述目标图像各特征图的中间特征的步骤之前，还包括通过以下公式计算所述目标图像各特征图的权重：

4.根据权利要求1所述的方法，其特征在于，根据所述卷积神经网络的判别层输出的目标图像类别概率和所述目标图像各特征图的中间特征，获取所述目标图像各特征图的空间语义特征的步骤具体包括：

根据所述卷积神经网络的全连接层的输出，使用softmax判别层获取所述目标图像的类别概率；

将所述类别概率与所述目标图像各特征图的中间特征进行相乘，获取所述目标图像各特征图的空间语义特征。

5.根据权利要求1-4任一所述的方法，其特征在于，各所述待检索图像各特征图的获取方法与所述目标图像特征图的获取方法相同；

各所述待检索图像各特征图的空间语义特征的获取方法与所述目标图像特征图的空间语义特征的获取方法相同。

6.根据权利要求1-4任一所述的方法，其特征在于，根据所述目标图像各特征图的空间语义特征和预先获取的各待检索图像各特征图的空间语义特征，获取检索结果的步骤具体包括：

计算所述目标图像各特征图的空间语义特征和各待检索图像各特征图的预先获取的空间语义特征之间的余弦距离，根据所述余弦距离获取检索结果。

7.一种图像检索装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述映射模块具体通过以下公式根据所述卷积神经网络中最后一个卷积层输出的目标图像特征图，将同一位置的所述目标图像特征图中像素的总得分作为所述目标图像的类激活映射表：

9.一种电子设备，其特征在于，包括：

至少一个处理器、至少一个存储器和总线；其中，

所述处理器和存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。