CN113377981B

CN113377981B - 基于多任务深度哈希学习的大规模物流商品图像检索方法

Info

Publication number: CN113377981B
Application number: CN202110732492.3A
Authority: CN
Inventors: 聂秀山; 王乐天; 刘兴波; 王少华
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-05-27
Anticipated expiration: 2041-06-29
Also published as: US20220414144A1; CN113377981A

Abstract

一种基于多任务深度哈希学习的大规模物流商品图像检索方法，通过基于多任务的思想，可以同时学到多种长度的哈希码作为图像的高级表征。与传统的单任务相比，解决了单任务下模型重新训练导致的硬件资源浪费和时间成本开销大等弊端。与传统仅仅考虑学习单个哈希码作为图像的表征并来用检索相比。挖掘了多种长度哈希码之间的信息关联，设计了互信息损失来增强其哈希码的表征能力，解决了单个哈希码表征能力不强的弊端，进而提高哈希码的检索性能。同时模型是基于端到端的学习，即图像的特征提取和哈希码的学习是同时进行的，与传统的线性哈希方法相比，模型结构直观，容易迁移与部署实现。

Description

基于多任务深度哈希学习的大规模物流商品图像检索方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于多任务深度哈希学习的大规模物流商品图像检索方法。

背景技术

随着互联网和电子技术的高速发展，网上的信息量的增长异常迅速，几乎每秒钟都会上传大量的文本，图像，音频等多媒体的数据。这给很多需要进行高效最近邻搜索的领域带了极大的挑战，尤其是大规模的图像检索。当数据库中的图像数据量较少的时候，我们可以使用最简单直接的穷尽搜索方式：即将数据库中的点与查询点一一比较欧式距离，最终根据距离的大小排序。时间复杂度为线性复杂度O(dn)，d和n分别是数据的维度和样本数。但是，当图像的数据量的规模比较庞大，如有上百万到上亿张图像的时候,线性搜索的方式已经不适用。另外，如在计算机视觉领域，已经越来越倾向使用高维度数据或者结构化的数据在更加精确地表达物品图像信息，并且使用复杂的相似度公式计算物品图像间的距离。在这些情况下，穷尽搜索的方式存在很大的局限性，无法高效的地完成最近邻搜索。

因此，人们开始使用近似最近邻搜索(Approximate Nearest Neighbor Search)方法快速地搜索有效解。而哈希方法是一类广泛研究的近似最近邻搜索算法，其能将文档、图像、视频等多媒体信息转换成一个紧凑的二进制编码，并保留原始数据间的相似性关系。该二进制编码(也称哈希码)间的距离度量使用的是汉明距离，其可以通过硬件的异或运算进行快速求解。因此，哈希方法能够在存储和效率上具备极大的优势，这也造成了其成为最流行的近似最近邻搜索算法之一。本发明面向的是物流行业的大规模图像检索领域，那么如何快速有效的从数据库中检索出我们需要的图片成为问题。而基于最近邻算法的哈希学习凭借其优势成为近些年来在大规模数据上做检索的利器。

大多数的哈希方法首先为用来检索的哈希码预定一个固定的长度(例如:16,32,48等)。然后训练模型学习这个长度的哈希码作为图像的高级表征并用来快速有效的检索大规模的多媒体数据。如果预定义好哈希码的长度，当需求发生改变，我们需要另一长度的哈希码用做表征和检索，我们就需要重新训练模型学习新的长度的哈希码，这就造成了硬件资源浪费和时间成本的增加。其次，我们知道哈希码是原始样本的紧凑表示，一个样本可以用不同长度的哈希码表示。直观的来说，代表相同样本的不同长度的哈希码反映与原始样本不同类型的特定信息。如果我们将它们视为原始样本的不同试图，不同视图之间应该存在一定的区别和联系。如果我们仅仅考虑一种长度的哈希码，则会忽略它们之间潜在的关联，进而造成交互信息的损失，导致表征能力的不足和检索精度处于较低的水平。而且大多数线性非深度的哈希方法，特征提取和哈希函数学习具有异步性。哈希函数的设计较为复杂，且模型的优化方法更是一个难点。

发明内容

本发明为了克服以上技术的不足，提供了一种提高哈希检索性能的基于多任务深度哈希学习的大规模物流商品图像检索方法。

本发明克服其技术问题所采用的技术方案是：

一种基于多任务深度哈希学习的大规模物流商品图像检索方法，包括如下步骤：

a)对输入的物流商品图像x_i进行图像预处理，根据图像x_i的标签构建物流商品图像之间的相似度矩阵S；

b)将预处理后的物流商品图像经过卷积、池化处理后得到图像的一维特征向量h_img，将一维特征向量h_img作为图像低级特征；

c)将图像低级特征h_img输入多分支的网络中得到多个长度哈希码表示的图像的高级表征B_k，多分支网络由N个相同结构的分支组成；

d)通过公式

计算相似度损失函数SI_Loss，s_ij为第i张图像与第j张图像之间的相似度，s_ij∈{1,0}，s_ij取值为1时表示第i张图像与第j张图像相似，s_ij取值为0时表示第i张图像与第j张图像不相似，b_i为第i张图像数据的二值哈希码，b_j为第j张图像数据的二值哈希码，T为转置；

e)通过公式

计算互信息损失函数MI_Loss，式中B_k为第k个分支输出的哈希码，k∈<0,...,N-1>，B_k+1为第k+1个分支输出的哈希码，W_k为将第k个分支输出的哈希码映射到第k+1个分支输出的哈希码的映射矩阵，γ_k为正则化参数，||·||₁为L1范数，a_k为优化参数；

f)利用随机梯度下降算法对相似度损失函数SI_Loss和互信息损失函数MI_Loss进行优化，优化后重复执行步骤a)至步骤e)大于等于M次，得到训练后的模型；g)将数据库中的图像数据输入到步骤f)中训练后的模型中，得到每张图像的不同长度的二值哈希码表示组合B_database；

h)将需要检索的图片img_query输入到步骤f)中训练后的模型中，得到需要检索图片img_query的二值哈希码表示组合B_query；

i)通过公式

计算汉明距离Dist_Hamming，将计算得到的汉明距离Dist_Hamming基于Average Precision的度量方式返回所有检索图片查询集的平均检索精度Mean Average Precision，完成相似性检索。

优选的，步骤b)中有5个卷积层，每个卷积层后接入一个池化层，所述卷积层采用3*3大小的卷积核，所述池化层采用2*2大小的池化核，所述卷积层和池化层均采用Relu激活函数。

优选的，步骤c)中多分支网络由N个相同结构的分支组成，每个分支内部由3层全连接层相互串联构成。

优选的，步骤c)中N取值为大于0的正整数。

优选的，步骤f)中M取值为5000。

本发明的有益效果是：通过基于多任务的思想，可以同时学到多种长度的哈希码作为图像的高级表征。与传统的单任务相比，解决了单任务下模型重新训练导致的硬件资源浪费和时间成本开销大等弊端。与传统仅仅考虑学习单个哈希码作为图像的表征并来用检索相比。本专利挖掘了多种长度哈希码之间的信息关联，设计了互信息损失来增强其哈希码的表征能力，解决了单个哈希码表征能力不强的弊端，进而提高哈希码的检索性能。同时模型是基于端到端的学习，即图像的特征提取和哈希码的学习是同时进行的，与传统的线性哈希方法相比，模型结构直观，容易迁移与部署实现。可以很好的扩展到大规模的图像检索上，所以在物流行业大规模的物品图像检索中前景较好。

附图说明

图1为本发明的多任务特征提取的方法流程图；

图2为本发明的哈希码学习的方法流程图。

具体实施方式

下面结合附图1、附图2对本发明做进一步说明。

a)对输入的物流商品图像x_i进行图像预处理，根据图像x_i的标签构建物流商品图像之间的相似度矩阵S。

b)将预处理后的物流商品图像经过卷积、池化处理后得到图像的一维特征向量h_img，通过一定数量的卷积核和池化核的堆叠并对图像数据的处理得到图像的一维特征向量h_img作为图像低级特征。

c)采用硬参数共享网络：低级特征网络结构相同，参数共享。高级特征网络结构相同，但是分支网络的参数根据所生成的高级特征不同进而产生差异化，将图像低级特征h_img输入多分支的网络中得到多个长度哈希码表示的图像的高级表征B_k，多分支网络由N个相同结构的分支组成。

d)通过公式

计算相似度损失函数SI_Loss，s_ij为第i张图像与第j张图像之间的相似度，s_ij∈{1,0}，s_ij取值为1时表示第i张图像与第j张图像相似，s_ij取值为0时表示第i张图像与第j张图像不相似，b_i为第i张图像数据的二值哈希码，b_j为第j张图像数据的二值哈希码，T为转置。此公式主要是建立哈希码与原始样本相似度之间的关系。如果原始样本相似，则对应的哈希码之间应该尽可能的相似；如果原始样本不相似，则对应的哈希码应该不相似。

e)通过公式

计算互信息损失函数MI_Loss，式中B_k为第k个分支输出的哈希码，k∈<0,...,N-1>，B_k+1为第k+1个分支输出的哈希码，W_k为将第k个分支输出的哈希码映射到第k+1个分支输出的哈希码的映射矩阵，γ_k为正则化参数，||·||₁为L1范数，a_k为优化参数。一般来说，哈希码长度和哈希码的表征能力是成正相关的。因此最小化互信息损失MI_Loss的目的是为了促使较短长度的哈希码的表征能力趋向于较长长度的哈希码，进一步增强多个哈希码之间的关联性，使得学习到一组哈希码具有很好的表征能力，提高哈希码检索的性能。

f)利用随机梯度下降算法对相似度损失函数SI_Loss和互信息损失函数MI_Loss进行优化，优化后重复执行步骤a)至步骤e)大于等于M次，得到训练后的模型。g)将数据库中的图像数据输入到步骤f)中训练后的模型中，得到每张图像的不同长度的二值哈希码表示组合B_database。例如[16bits,32bits,48bits,64bits]或[128bits,256bits,512bits]等多种组合。

i)通过公式

计算汉明距离Dist_Hamming，将计算得到的汉明距离Dist_Hamming基于Average Precision(AP)的度量方式返回所有检索图片查询集的平均检索精度Mean Average Precision(MAP)，完成相似性检索。

基于多任务深度哈希学习的大规模物流商品图像检索功能，采用多视图理论挖掘不同长度哈希码之间的潜在关联。多长度哈希码本质上是原始数据在海明空间的多种特征表示，而多长度哈希的联系学习就是对特征的互补和关联关系的利用，同样这一过程也可以看作是统一样本的多级特征融合，而多特征融合和多视角的理论学习相相关理论为该研究方法的可行性提供了理论和技术保证，进而提高了哈希检索的性能。

通过基于多任务的思想，可以同时学到多种长度的哈希码作为图像的高级表征。与传统的单任务相比，解决了单任务下模型重新训练导致的硬件资源浪费和时间成本开销大等弊端。与传统仅仅考虑学习单个哈希码作为图像的表征并来用检索相比。本专利挖掘了多种长度哈希码之间的信息关联，设计了互信息损失来增强其哈希码的表征能力，解决了单个哈希码表征能力不强的弊端，进而提高哈希码的检索性能。同时模型是基于端到端的学习，即图像的特征提取和哈希码的学习是同时进行的，与传统的线性哈希方法相比，模型结构直观，容易迁移与部署实现。可以很好的扩展到大规模的图像检索上，所以在物流行业大规模的物品图像检索中前景较好。

表1是本发明方法的第一个仿真实验结果，该实验采用MAP(平均准确率)进行度量。我们在NUS-WIDE数据集上测试结果表明多任务的思想所提升的性能是优于学习单个哈希码的性能。验证了多任务思想的合理性。

Method	24bits	48bits	64bits	128bits	256bits
						DJMH-Single	0.73	0.78	0.79	0.827	0.833
DJMH-Multiple	0.801	0.827	0.831	0.846	0.855

表1

表2是是本发明方法的第二个仿真实验结果，该实验采用MAP(平均准确率)进行度量。我们在NUS-WIDE数据集上进一步研究了多长度哈希码的数量对任一长度哈希码的影响，验证了同时学习更多数量的哈希码对其中任一长度哈希码(以24位举例)的检索性能也会有提升。

表2

优选的，步骤c)中N取值为大于0的正整数。

优选的，步骤f)中M取值为5000。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务深度哈希学习的大规模物流商品图像检索方法，其特征在于，包括如下步骤：

d)通过公式

e)通过公式

f)利用随机梯度下降算法对相似度损失函数SI_Loss和互信息损失函数MI_Loss进行优化，优化后重复执行步骤a)至步骤e)大于等于M次，得到训练后的模型；

g)将数据库中的图像数据输入到步骤f)中训练后的模型中，得到每张图像的不同长度的二值哈希码表示组合B_database；

i)通过公式

2.根据权利要求1所述的基于多任务深度哈希学习的大规模物流商品图像检索方法，其特征在于：步骤b)中有5个卷积层，每个卷积层后接入一个池化层，所述卷积层采用3*3大小的卷积核，所述池化层采用2*2大小的池化核，所述卷积层和池化层均采用Relu激活函数。

3.根据权利要求1所述的基于多任务深度哈希学习的大规模物流商品图像检索方法，其特征在于：步骤c)中多分支网络由N个相同结构的分支组成，每个分支内部由3层全连接层相互串联构成。

4.根据权利要求1所述的基于多任务深度哈希学习的大规模物流商品图像检索方法，其特征在于：步骤c)中N取值为大于0的正整数。

5.根据权利要求1所述的基于多任务深度哈希学习的大规模物流商品图像检索方法，其特征在于：步骤f)中M取值为5000。