CN110196918B

CN110196918B - 一种基于目标检测的无监督深度哈希方法

Info

Publication number: CN110196918B
Application number: CN201910449029.0A
Authority: CN
Inventors: 毛先领; 涂荣成; 黄河燕; 程序; 邹佳
Original assignee: Beijing Institute of Technology BIT; CETC Big Data Research Institute Co Ltd
Current assignee: Beijing Institute of Technology BIT; CETC Big Data Research Institute Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2021-05-04
Anticipated expiration: 2039-05-28
Also published as: CN110196918A

Abstract

本发明涉及一种基于目标检测的无监督深度哈希方法，属于计算机信息检索技术以及图片检索技术领域。利用目标检测获得图片中存在的物体标签，并将这些标签作为图片的伪标签，基于伪标签训练设计好的端到端深度哈希模型，得到每张图片在汉明空间中的哈希码表示；再通过对应哈希码在图片检索任务中的平均准确率均值来评价深度哈希模型的好坏；其中，平均准确率均值即MAP；所依托的无监督深度哈希模型包括目标检测算法单元以及哈希网络单元。所述方法能获得更有指导性的信息；能充分利用深度模型的能力来学习高质量的保持相似度的哈希码；在真实图片数据集中进行图片检索取得了最好的效果，即MAP值最高。

Description

一种基于目标检测的无监督深度哈希方法

技术领域

本发明涉及一种基于目标检测的无监督深度哈希方法，属于计算机信息检索技术以及图片检索技术领域。

背景技术

随着图像数据的快速增长，近似近邻(ANN)搜索在大规模图像搜索领域受到越来越多研究者的关注。在现有的人工神经网络搜索技术中，保留相似性的哈希方法具有检索效率高、存储成本低等优点。哈希方法的主要思想是将高维数据点转换成一组紧凑的二进制代码，同时保持原始数据点的相似性。由于原始数据点是用二进制代码表示的，而不是用实值特征表示的，因此可以大大减少搜索的时间和内存开销。

目前取得较好效果的哈希方法大多数都是有监督哈希方法，相比于无监督的哈希方法，有监督哈希方法需要利用到图片的类别标签信息作为监督信息来训练网络。然而，在许多实际应用中，没有可以用作监督信息的图像语义标签。因此，在这种情况下，我们可以使用无监督哈希方法来处理大规模的图像检索任务。但是，现有的很多无监督哈希方法都没有挖掘图片中潜在的标签信息并以此作为指导信息来训练模型，因而使得模型的图片检索效果较差。

发明内容

本发明的目的是为了解决深度无监督哈希方法中无法利用图片中潜在标签信息的问题，提出了一种基于目标检测的无监督深度哈希方法，能够利用图片中潜在的语义标签来提升图片检索的MAP值。

所述无监督深度哈希方法的核心思想为：利用目标检测获得图片中存在的物体标签，并将这些标签作为图片的伪标签，基于伪标签训练设计好的端到端深度哈希模型，得到每张图片在汉明空间中的哈希码表示；再通过对应哈希码在图片检索任务中的平均准确率均值来评价深度哈希模型的好坏。

其中，平均准确率均值，即Mean Average Precision，简称MAP；

基于目标检测的无监督深度哈希方法依托的无监督深度哈希模型包括目标检测算法单元以及哈希网络单元；

其中，哈希网络单元包括顺序连接的五个卷积层和三个全连接层；

其中，五个卷积层和三个全连接层中的前两个全连接层的激活函数均为ReLU，最后一个全连接层的激活函数为双曲正切函数tanh；

目标检测算法单元与哈希网络单元相连；

目标检测算法单元用于挖掘图片中的隐语义标签；哈希网络单元用于生成图片的哈希码。

为实现上述目的，本发明所采用的技术方案如下：

所述基于目标检测的无监督深度哈希方法，包括如下步骤：

步骤1：选取一个目标检测方法，将该方法在大规模的图片数据集上按照选取的目标检测方法的训练步骤进行训练，输出训练好的目标检测单元；

其中，选取的目标检测方法是YOLO、SSD、Faster R-CNN或R-CNN中的一个；

步骤2：选取公共图片数据集中百分之八十的图片作为图片数据集P，剩下的百分之二十作为测试集T；

其中，图片数据集P中包含n张图片，测试集T中包含r张图片；

P中的第k张图片表示为P_k∈P；k的取值范围为1到n；

T中的第k张图片表示为T_k∈T；k的取值范围为1到r；

步骤3：将图片数据集P中的图片输入到预训练好的目标检测单元中检测标签；若一张图片能被检测出标签，则将检测出的标签作为该图片伪标签；若检测不出标签则舍去该图片，将所有被检测出标签的图片构成新的图片数据集P′；

其中，预训练好的目标检测单元即步骤1输出的训练好的目标检测单元；

其中，图片数据集P′中包含m张图片，m表示被检测出标签的图片总数，且m小于等于n；

P′中的第j张图片表示为P′_j∈P′；j的取值范围为1到m；

步骤4：根据图片数据集P′中图片的伪标签构造图片数据集P′中的图片对相似性矩阵S；

其中，图片对由图片数据集P′中任意两张图片构成；

其中，图片对相似性矩阵S中的第i行第j列表示为s_ij，S中的元素s_ij取值范围为[0,1]，且s_ij越接近1表示图片P′_i和图片P′_j越相似，反之s_ij越接近0表示图片P′_i和图片P′_j越不相似；

步骤4构造图片对相似性矩阵S的步骤具体如下：

步骤4.1：统计图片数据集P′中所有图片所得的伪标签类别的总数c；

步骤4.2：为每张图片生成一个长为c的标签向量；

其中，第i张图片P′_i的标签向量为l_i＝{0,1}^c,若图片P′_i的伪标签中包含第k类伪标签，则

反之

步骤4.3：遍历图片数据集P′中的所有图片，计算图片对相似性矩阵S；

其中，图片i与图片j之间的相似性s_ij通过如下公式(1)计算：

其中，|l_i|₁表示向量l_i的1-范数，|l_j|₁表示向量l_j的1-范数，<l_i,l_j>表示向量l_i、l_j之间的点积；

步骤5：初始化无监督深度哈希模型中哈希网络单元参数；

其中，哈希网络单元参数，记为

包括哈希网络单元中所有网络层的权重参数和偏置参数。

步骤6：设置收敛判断值flag的判断初始值；

其中，判断初始值的取值范围为3到10；

步骤7：选取mini-batch大小为B并对每个mini-batch集合进行训练；

其中，mini-batch集合是指将图片数据集P′随机分成

份，每一份有B张图片，每一份就是一个mini-batch，简记为MB。

其中，

表示

的值向下取整。

步骤7，包括如下子步骤：

对图片数据集P′，按大小为B划分

个mini-batch集合，对每一个MB做如下训练：

步骤7.1：将MB_i输入哈希网络单元，获得输出u_i；

其中，MB_i代表MB中的第i张图片；u_i表示MB_i经过哈希网络单元处理后的输出；

步骤7.2：对输出u_i进行量化，得到b_i，按照损失函数公式(2)计算损失：

其中，θ表示哈希网络单元中的所有权重参数及偏置参数；

且

表示u_i和u_j的点积，近似为哈希码之间的汉明距离；b_i表示量化u_i后的哈希码，量化方式为当u_i的某一位大于0时，b_i的对应位置值为1，反之b_i的对应位置值为-1；I_ij是一个指示函数，其定义为当s_ij＝0 or 1时，I_ij＝1，反之I_ij＝0；t_ij＝2s_ij-1；α及η表示哈希网络单元的超参数α和超参数η；sigmoid(Θ_ij)的定义如公式(4)所示：

步骤7.3：基于随机梯度下降反向更新哈希网络单元参数θ；

步骤8：当哈希网络单元损失随训练次数epoch下降较为缓慢时，降低学习率到原来的十分之一；

其中，较为缓慢指当前训练时刻与前一时刻损失差值的绝对值小于阈值1；

其中，阈值1的取值范围0.005到0.1；

步骤9：判断当前步骤7.2所计算的损失和上一个训练时刻步骤7.2所计算的损失的差值的绝对值是否小于阈值2，若是则将收敛判断值flag减1，否则令收敛判断值flag的值为判断初始值；

其中，阈值2的取值范围0.0005到0.01；

步骤10：判断当前损失是否收敛，即判断收敛判断值flag的值是否等于0，若等于0，即收敛，则获得训练好的哈希网络单元，并跳至步骤11，若不等于0，即不收敛，则跳至步骤7；

至此，步骤1到步骤10使用图片数据集P完成了对哈希网络单元的训练；

步骤11：将图片数据集P中的所有图片依次输入哈希网络单元，并获得所有图片量化后对应的哈希码；

其中，数据集P中的第i张图片，记为P_i，其量化后的哈希码，记为b_i；

步骤12：将测试集T中的图片输入上述训练好的哈希网络单元，得到其对应的哈希码；

步骤13：计算“测试集T中图片的哈希码”与“图片数据集P中图片的哈希码”的汉明距离，并按汉明距离从小到大排序，返回检索图片；

其中，返回的检索图片是经汉明距离从小到大排序的前Y张图片；

其中，Y的取值范围为20到200；

步骤14：依据步骤13返回的检索图片计算MAP、WMAP、NDCG、ACG值，即为评判无监督深度哈希模型优劣的评价指标；

至此，步骤9到步骤12使用测试集T完成了对哈希网络单元的测试。

有益效果

本发明提出了一种基于目标检测的深度无监督哈希方法，具有如下有益效果：

1.提出了一种新的无监督哈希结构，通过引入一个预先训练的目标检测模型，从图像中挖掘语义“标签信息”，并对挖掘出得语义“标签信息”进行处理使其更有利于指导监督哈希网络单元的学习，相比于其他的无监督哈希方法能获得更有指导性的信息因此能获得更好的效果；

2.在无监督哈希方法中，我们在步骤4中定义了一个新颖的图片对相似性矩阵S；在图片对相似性矩阵S的指导下，我们可以充分利用深度模型的能力来学习高质量的保持相似度的哈希码；

3.与传统无监督哈希方法相比，我们的方法在真实图片数据集中进行图片检索取得了最好的效果，具体见实施例1。

附图说明

图1为本发明一种基于目标检测的深度无监督哈希方法依托的模型示意图；

图2为本发明一种基于目标检测的深度无监督哈希方法的流程图。

具体实施方式

线面结合附图和实施例，对本发明方法作进一步详细说明。

实施例1

本实施例叙述了本发明在处理公共图片数据集VOC 2007数据集的过程，本实施例所涉及的无监督深度哈希模型的框架图如图1所示。

其中，公共图片数据集VOC 2007数据集是一个真实的图片集，它里面收集了9963幅图片，一共包含了20个类别，分别为：飞机、自行车、鸟、船、瓶、公共汽车、车、猫、椅子、牛、餐桌、狗、马、摩托车、人、盆栽植物、羊、沙发、火车、电视监视器。

本实施例的具体流程如图2所示，具体步骤如下：

步骤A：选取YOLO目标检测方法，将该方法在大规模的ImageNet图片数据集上按照所选取的目标检测方法的训练步骤进行训练。输出训练好的目标检测单元；

其中ImageNet图片数据集是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象；在至少一百万个图像中，还提供了边界框。ImageNet包含2万多个类别；一个典型的类别，如“气球”或“草莓”，包含数百个图像。

步骤B：选取公共图片数据集VOC 2007数据集中的所有图片中百分之八十的图片记为图片数据集P，剩余的百分之二十记为图片测试集T；

其中，图片数据集P一共有n张图片，图片测试集T一共有r张图片；

P中的第k张图片表示为P_k∈P；k的取值范围为1到n；

T中的第k张图片表示为T_k∈T；k的取值范围为1到r；

步骤C：将图片数据集P中的图片输入到预训练好的目标检测单元中检测标签；若一张图片能被检测出标签，则将检测出的标签作为该图片伪标签；若检测不出标签则舍去该图片，将所有被检测出标签的图片构成新的图片数据集P′；

P′中的第j张图片表示为P′_j∈P′；j的取值范围为1到m；

步骤D：根据图片数据集P′中图片的伪标签构造图片数据集P′中的图片对相似性矩阵S；

其中，图片对由图片数据集P′中任意两张图片构成；

步骤D构造图片对相似性矩阵S的步骤具体如下：

步骤D.1：统计图片数据集P′中所有图片所得的伪标签类别的总数c；

步骤D.2：为每张图片生成一个长为c的标签向量；

反之

步骤D.3：遍历图片数据集P′中的所有图片，计算图片对相似性矩阵S；

其中，图片i与图片j之间的相似性s_ij通过如下公式(1)计算：

步骤E：初始化无监督深度哈希模型中哈希网络单元参数；

其中，哈希网络单元参数，记为θ；包括哈希网络单元中所有网络层的权重参数和偏置参数。

步骤F设置收敛判断值flag为判断初始值5；

步骤G：选取mini-batch大小为B并对每个mini-batch集合进行训练；

其中，mini-batch集合是指将图片数据集P′随机分成

份，每一份有B张图片，每一份就是一个mini-batch，简记为MB。

其中，

表示

的值向下取整。

步骤G包括如下子步骤：

对图片数据集P′，按大小为B划分

个mini-batch集合，对每一个MB做如下训练：

步骤G.1：将MB_i输入哈希网络单元，获得输出u_i；

步骤G.2：对输出u_i进行量化，得到b_i，按照损失函数公式(2)计算损失：

其中，u_i表示图片P_i经过哈希网络单元处理后的输出；θ表示哈希网络单元中的所有权重参数及偏置参数；

且

步骤G.3：基于随机梯度下降反向更新哈希网络单元参数θ；

步骤H：当哈希网络单元损失随训练次数epoch下降较为缓慢时，降低学习率到原来的十分之一；

其中，较为缓慢指当前训练时刻与前一时刻损失差值的绝对值小于0.01；

步骤I：判断当前步骤G.2所计算的损失和上一个训练时刻步骤G.2所计算的损失的差值的绝对值是否小于0.01，若是则将收敛判断值flag减1，否则令收敛判断值flag的值为判断初始值，即5。

步骤J：判断当前损失是否收敛，即判断收敛判断值flag的值是否等于0，若等于0，即收敛，则获得训练好的哈希网络单元，并跳至步骤K，不等于0，即不收敛，则跳至步骤G；

至此，步骤A到步骤J使用图片数据集P完成了对哈希网络单元的训练；

步骤K：将图片数据集P中的所有图片依次输入哈希网络单元，并获得所有图片量化后对应的哈希码；

步骤L：将图片数据集P所有图片P_i依次输入哈希网络单元，并获得其量化后对应的哈希码b_i，将哈希码保存为字典image2code；

其中，imag2code＝{"image":code}用于存储图片及其对应哈希码；

表1生成结果样例

接着使用测试集T对哈希网络单元进行测试，我们采用图片检索来评估图片哈希码表示的优劣，具体方法如下：

步骤M：将测试集T中的图片输入上述训练好的哈希网络单元，得到其对应的哈希码；

步骤N：计算测试T中图片的哈希码与图片数据集P中图片的哈希码的汉明距离，并按汉明距离从小到大排序，返回检索图片；

步骤O：依据返回图片计算MAP、WMAP、NDCG、ACG值，并作为哈希模型优劣的评价指标。将本发明一种基于目标检测的无监督深度哈希方法与传统的哈希方法进行比较，具体结果如表2所示：

表2使用本发明提出的方法与其他基准方法的效果对比

表2的实验结果表明，本发明所采用的的方法在MAP、WMAP、NDCG、ACG四个评价指标上的结果均比所有基准方法的好。主要原因是本发明方法通过采用基于目标检测来挖掘图片中的瘾语义信息，并利用所挖掘到的瘾语义信息来指导哈希网络的学习，因而极大地提升了实验效果；

至此，步骤M至步骤O完成了测试阶段。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于目标检测的无监督深度哈希方法，其特征在于：利用目标检测获得图片中存在的物体标签，并将这些标签作为图片的伪标签，基于伪标签训练设计好的端到端深度哈希模型，得到每张图片在汉明空间中的哈希码表示；再通过对应哈希码在图片检索任务中的平均准确率均值来评价深度哈希模型的好坏；其中，平均准确率均值，即Mean AveragePrecision，简称MAP；

目标检测算法单元与哈希网络单元相连；

目标检测算法单元用于挖掘图片中的隐语义标签；哈希网络单元用于生成图片的哈希码；

所述基于目标检测的无监督深度哈希方法，包括如下步骤：

其中，图片数据集P中包含n张图片，测试集T中包含r张图片；

P中的第k张图片表示为P_k∈P；k的取值范围为1到n；

T中的第k张图片表示为T_k∈T；k的取值范围为1到r；

P′中的第j张图片表示为P_j′∈P′；j的取值范围为1到m；

其中，图片对相似性矩阵S中的第i行第j列表示为s_ij，S中的元素s_ij取值范围为[0,1]，且s_ij越接近1表示图片P_i′和图片P_j′越相似，反之s_ij越接近0表示图片P_i′和图片P_j′越不相似；

步骤5：初始化无监督深度哈希模型中哈希网络单元参数；

其中，哈希网络单元参数，记为θ，包括哈希网络单元中所有网络层的权重参数和偏置参数；

步骤6：设置收敛判断值flag的判断初始值；

其中，判断初始值的取值范围为3到10；