CN106951911B

CN106951911B - 一种快速的多标签图片检索系统及实现方法

Info

Publication number: CN106951911B
Application number: CN201710076634.9A
Authority: CN
Inventors: 胡焜; 白洪亮; 董远
Original assignee: Suzhou Feisou Technology Co ltd
Current assignee: SUZHOU FEISOU TECHNOLOGY Co.,Ltd.
Priority date: 2017-02-13
Filing date: 2017-02-13
Publication date: 2021-06-29
Anticipated expiration: 2037-02-13
Also published as: CN106951911A

Abstract

本发明公开了一种快速的多标签图片检索系统及实现方法，方法包括：在一卷积神经网络中，部署用于提取候选区域的RPN网络，并提取出图片的候选区域信息，对得到的候选区域信息进行ROI池化计算；池化结束后通过一全连接层，再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络，同时建立一加权三维损失函数来训练上述的卷积神经网络；通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库，与数据库中的哈希码对比后，完成图片检索。本发明通过分类与哈希的多任务学习来训练整个网络，从而有效地保证检索的准确性。同时在检索过程中使用汉明距离来度量相似度，大大提升了检索的效率。

Description

一种快速的多标签图片检索系统及实现方法

技术领域

本发明涉及神经卷积网络和图像处理领域，特别涉及一种快速的多标签图片检索系统及实现方法。

背景技术

现如今对于多标签图片检索系统而言，为了提升检索的速度，很多方法都利用哈希方法来对特征二值化，并用汉明距离来度量相似度。在哈希方法方面，主要分为两种：非监督式的和监督式的。

非监督式的方法，例如LSH，通过随机的映射或者随机排列来构成哈希函数，并且不依赖空间中的数据点，这种方法往往需要较长的哈希码才能获得比较好的性能。

监督式的方法，即是通过学习的方法从训练集中学习得到哈希函数，利用了训练集中的标注信息，但是目前的方法大多数单任务的学习，即只利用成对的标注信息。例如DPSH方法是通过一个卷积神经网络结构来学习特征并同时学习哈希函数，在最后一层后面接入一个sigmoid激活层来将特征归一化到0-1，再加入pairwise损失函数来监督学习整个网络的参数。很多类似于DPSH的方法都是只利用到了成对的标签信息，即训练时输入一堆图片及其是否相似的标注信息并且输入的是整张图片。而实际上，对于多标签数据集而言，图片通常包含多个目标以及丰富的多标签信息。

所以，如何在提高检索效率的同时减少存储空间，是现在有待解决的技术问题。

发明内容

本发明要解决的技术问题是，提供减小检索系统中特征存储空间、同时提升检索效率的快速的多标签图片检索方法。

解决上述技术问题，本发明提供了一种快速的多标签图片检索的方法，包括如下步骤：

在一卷积神经网络中，部署用于提取候选区域的RPN网络，并提取出图片的候选区域信息，对得到的候选区域信息进行ROI池化计算；

池化结束后通过一全连接层，再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络，同时建立一加权三维损失函数来训练上述的卷积神经网络；

通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库，

若输入需要查询的图片，则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码，并与数据库中的哈希码对比后，完成图片检索。

本发明结合候选区域的信息提取图片中特定区域的特征，并利用到图片的多标签信息，在训练时进行多任务学习来促进哈希函数的学习，提升特征的表达能力。

更进一步，建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下：

2-1)根据多标签信息得到标签的总个数为C，

2-2)连接一个通道数为C的全连接层后得到一个N*C矩阵，

2-3)在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量，维度为C，Y¹，Y²，…，Y^N分别表示每个候选区域对应的特征向量，再进行如下计算

其中y_j表示第j类标签对应的特征值，

2-4)经过下面的公式得到一个概率分布p＝(p₁，p₂，…，p_C)：

2-5)通过下述的多标签分类损失函数来训练卷积神经网络：

其中c⁺表示图片包含的所有标签，|c⁺|表示图片中的真实标签数量。

更进一步，同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括：

3-1)设一全连接层的通道数为B，得到一个N*B矩阵，

3-2)在所述N*B矩阵中，每一行表示一个候选区域对应的特征向量，再用H表示所述N*B矩阵，用P表示所述N*C矩阵；

3-3)在H中，用H_i表示第i个proposals对应的特征，

3-4)在P中，用

表示第i个proposals属于第j个标签的概率，

3-5)通过融合P和H得到一个c*b维的向量，这个向量分为c组，每一组表示对应特定标签的b维特征向量，具体计算如下公式所示：

其中，

表示Kronecker积，对于一个c维的向量P_i和一个b维的向量H_i，Kronecker积

可以得到一个c*b维的向量：

3-6)经过上面计算得到一个c*b维的向量F，作为c组，每一组表示对应特征标签的特征向量，之后再接入一个通道数为q的全连接层，

3-7)用下面的损失函数来训练网络：

其中，f_i，f_i ⁺，f_i ^-表示训练集中的一个三元组对应的特征，分别表示锚样本，相似样本，以及非相似样本的特征；s(*，*)表示两个样本之间公共标签的数目。

更进一步，方法还包括：根据提取得到的需要查询的图片的哈希码，和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。

更进一步，上述每张图片由一个48bit的短向量表示。

基于上述本发明还提供了一种快速的多标签图片检索系统，包括：神经网络训练单元和检索单元，

所述神经网络训练单元，用以在一卷积神经网络中，部署用于提取候选区域的RPN网络，并提取出图片的候选区域信息，对得到的候选区域信息进行ROI池化计算；

所述检索单元，用以通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库，

更进一步，所述数据库包括一检索候选集，用以存放每一张图片的哈希码。

更进一步，系统还包括相似度比较单元，用以根据提取得到的需要查询的图片的哈希码，和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。

更进一步，所述神经网络训练单元在建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下：

根据多标签信息得到标签的总个数为C，

连接一个通道数为C的全连接层后得到一个N*C矩阵，

在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量，维度为C，Y¹，Y²，…，Y^N分别表示每个候选区域对应的特征向量，再进行如下计算

其中y_j表示第j类标签对应的特征值，经过下面的公式得到一个概率分布p＝(p₁，p₂，…，p_C)：

通过下述的多标签分类损失函数来训练卷积神经网络：

更进一步，所述神经网络训练单元同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括：

设一全连接层的通道数为B，得到一个N*B矩阵，

在所述N*B矩阵中，每一行表示一个候选区域对应的特征向量，再用H表示所述N*B矩阵，用P表示所述N*C矩阵；

在H中，用H_i表示第i个proposals对应的特征，

在P中，用

表示第i个proposals属于第j个标签的概率，

通过融合P和H得到一个c*b维的向量，这个向量分为c组，每一组表示对应特定标签的b维特征向量，具体计算如下公式所示：

其中，

可以得到一个c*b维的向量：

经过上面计算得到一个c*b维的向量F，作为c组，每一组表示对应特征标签的特征向量，之后再接入一个通道数为q的全连接层，

用下面的损失函数来训练网络：

在测试过程中，通过对特征的量化，每张图片由一个48bit的短向量表示，用汉明距离来度量图片之间的相似性，提升检索效率以及减少特征存储空间。

本发明的有益效果：

本发明主要是基于多标签数据集的，结合数据的多标签信息，引入候选区域信息，通过分类与哈希的多任务学习，来训练整个网络，从而有效地保证检索的准确性，同时通过对特征的二值化使得最后特征占用的存储空间很小，并且在检索过程中使用汉明距离来度量相似度，大大提升了检索的效率。

此外本发明还具备如下的优点：由于卷积神经网络中结合了多标签信息以及候选区域信息，使得检索准确率高。由于特征提取只需要在卷积神经网络中进行单次的前馈计算，使得检索速度快。由于哈希函数二值特征并且长度短，使得检索系统所占用存储空间小。此外，最后哈希码的长度很短，相似度计算很快，所以检索效率得到了有效提高。

附图说明

图1是本发明一实施例中的方法流程示意图；

图2是本发明一实施例中的系统结构示意图；

图3是本发明中的多任务学习训练框架示意图；

图4是本发明中一实施例中的系统原理图。

具体实施方式

现在将参考一些示例实施例描述本公开的原理。可以理解，这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述，而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。

如本文中所述，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。

在本实施例中的名词的含义如下：

RPN网络，RPN网络的核心思想是使用卷积神经网络直接产生region proposal，使用的方法本质上就是滑动窗口。RPN网络即表示候选区域生成网络。

ROI Pooling为ROI池化，ROI，region of ineterst，特定目标的区域。

卷积特征图包括但不限于，卷积神经网络中卷积层输出的一系列特征。

候选区域包括但不限于，图片中可能包含特定目标的区域。

多标签包括但不限于，图片中同时包含多个标注信息。

图1是本发明一实施例中的方法流程示意图，本实施例中的一种快速的多标签图片检索的方法，包括如下步骤：

步骤S100在一卷积神经网络中，部署用于提取候选区域的RPN网络，并提取出图片的候选区域信息，对得到的候选区域信息进行ROI池化计算；

步骤S101池化结束后通过一全连接层，再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络，同时建立一加权三维损失函数来训练上述的卷积神经网络；

步骤S102通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库，

步骤S103若输入需要查询的图片，则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码，并与数据库中的哈希码对比后，完成图片检索。

作为本实施例中的优选，在所述步骤S101中建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下：

2-1)根据多标签信息得到标签的总个数为C，

2-2)连接一个通道数为C的全连接层后得到一个N*C矩阵，

其中y_j表示第j类标签对应的特征值，

2-5)通过下述的多标签分类损失函数来训练卷积神经网络：

本实施例中的基础是一个卷积神经网络，并且假设已经训练好了RPN网络用于提取候选区域。假设经过RPN之后得到N个候选区域(proposals)之后，对于每个proposal，首先进行一个ROI pooling的计算，得到N*D矩阵，其中D表示中间层每个候选区域对应的特征维度，再经过一个全连接层用于特征的变换。

作为本实施例中的优选，在所述步骤S101中同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括：

3-1)设一全连接层的通道数为B，得到一个N*B矩阵，

3-3)在H中，用H_i表示第i个proposals对应的特征，

3-4)在P中，用

表示第i个proposals属于第j个标签的概率，

其中，

可以得到一个c*b维的向量：

3-6)经过上面计算得到一个c*b维的向量F，作为c组，每一组表示对应特征标签的特征向量，之后再接入一个通道数为_q的全连接层，

3-7)用下面的损失函数来训练网络：

在一些实施例中，还需要在经过ROI Pooling以及一个全连接层之后，再接一个不同的全连接层到另外一个分支，用于哈希函数的学习。

在一些实施例中，方法还包括：根据提取得到的需要查询的图片的哈希码，和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。

在一些实施例中，上述每张图片由一个48bit的短向量表示。

在本实施例中，是基于多标签数据集的、结合数据的多标签信息，再引入候选区域信息，然后通过分类与哈希的多任务学习，来训练整个卷积神经网络，从而有效地保证检索的准确性。同时，通过对特征的二值化(哈希值)使得最后特征占用的存储空间很小，并且在检索过程中使用汉明距离来度量相似度，大大提升了检索的效率。

请参考图3是本发明中的多任务学习训练框架示意图，具体来说，在训练过程中，首先利用数据集中的标注框的信息来训练RPN，用于提取候选区域框，而后固定前面层的参数不更新，随机初始化后面层的参数，通过

和

的损失函数来训练整个网络，经过一定的迭代次数后终止训练。

请参考图4是本发明中一实施例中的系统原理图，用得到的网络来提取候选集中每一张图片的哈希码并存入数据库，对于每一张查询图片，首先经过网络的前馈计算提取其哈希码，再和数据库中的哈希码两两计算汉明距离，最后排序返回汉明距离更近的样本，即达到了检索的目的。

请参考图2是本发明一实施例中的系统结构示意图，一种快速的多标签图片检索系统，包括：神经网络训练单元1和检索单元2，

所述神经网络训练单元1，用以在一卷积神经网络中，部署用于提取候选区域的RPN网络，并提取出图片的候选区域信息，对得到的候选区域信息进行ROI池化计算；

所述检索单元2，用以通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库，

作为本实施例中的优选，所述数据库包括一检索候选集，用以存放每一张图片的哈希码。

作为本实施例中的优选，系统中还包括相似度比较单元，用以根据提取得到的需要查询的图片的哈希码，和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。

作为本实施例中的优选，所述神经网络训练单元1在建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下：

根据多标签信息得到标签的总个数为C，

连接一个通道数为C的全连接层后得到一个N*C矩阵，

通过下述的多标签分类损失函数来训练卷积神经网络：

作为本实施例中的优选，所述神经网络训练单元1同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括：

设一全连接层的通道数为B，得到一个N*B矩阵，

在H中，用H_i表示第i个proposals对应的特征，

在P中，用

表示第i个proposals属于第j个标签的概率，

其中，

可以得到一个c*b维的向量：

用下面的损失函数来训练网络：

本实施例中的系统，是结合图片候选区域信息，加入多任务的损失函数来同时学习图片的特征以及特征的哈希函数，从而保证准确率的前提下大大提升检索效率以及特征存储空间。本实施例中的系统，能够结合候选区域的信息提取图片中特定区域的特征，并利用到图片的多标签信息，在训练时进行多任务学习来促进哈希函数的学习，提升特征的表达能力，最后在测试过程中，通过对特征的量化，每张图片由一个48bit的短向量表示，用汉明距离来度量图片之间的相似性，提升检索效率以及减少特征存储空间。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

总体而言，本公开的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合实施。一些方面可以以硬件实施，而其它一些方面可以以固件或软件实施，该固件或软件可以由控制器、微处理器或其它计算设备执行。虽然本公开的各种方面被示出和描述为框图、流程图或使用其它一些绘图表示，但是可以理解本文描述的框、设备、系统、技术或方法可以以非限制性的方式以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其一些组合实施。

此外，虽然操作以特定顺序描述，但是这不应被理解为要求这类操作以所示的顺序执行或是以顺序序列执行，或是要求所有所示的操作被执行以实现期望结果。在一些情形下，多任务或并行处理可以是有利的。类似地，虽然若干具体实现方式的细节在上面的讨论中被包含，但是这些不应被解释为对本公开的范围的任何限制，而是特征的描述仅是针对具体实施例。在分离的一些实施例中描述的某些特征也可以在单个实施例中组合地执行。相反对，在单个实施例中描述的各种特征也可以在多个实施例中分离地实施或是以任何合适的子组合的方式实施。