CN111460200A

CN111460200A - 基于多任务深度学习的图像检索方法、模型及其构建方法

Info

Publication number: CN111460200A
Application number: CN202010142292.8A
Authority: CN
Inventors: 赵万青; 元莉伟; 舒永康; 范建平; 彭进业
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-07-28
Anticipated expiration: 2040-03-04
Also published as: CN111460200B

Abstract

本发明提供一种基于多任务深度学习的图像检索方法、模型及其构建方法，依据标签与标签的关系，以及标签与图像视觉内容的关系，设计损失函数指导标签的优化，在去除噪声标签，补全缺失标签，减少语义模糊标签的同时，并进一步精确地匹配每个图像区域的对应标签，从而用这些标签为哈希学习提供更精确地语义指导。为了高效地进行标签优化学习和哈希学习，提出一个端到端的联合学习框架，在标签学习的同时也进行哈希学习，两种学习相互受益；设计最终损失函数来共同指导标签学习和哈希学习，并使用动量的随机梯度下降法优化模型参数从而得到图像检索模型以及图像中的每个目标精细化的哈希表达。

Description

基于多任务深度学习的图像检索方法、模型及其构建方法

技术领域

本发明属于图像检索技术领域，具体涉及一种基于多任务深度学习的图像检索方法、模型及其构建方法。

背景技术

近年来，随着深度学习在计算机视觉领域取得的突破性成就，DeepConvolutional Neural Networks(CNNs)逐渐被用于哈希图像检索，加速了图像检索领域的发展。其中，基于有监督深度学习的哈希方法在图像检索领域取得了显著的成果，但是这些有监督的深度学习方法需要大量的由特定的专家标注而产生的数据，我们称这些由特定专家标注而产生的数据为人工标签。这些人工标签存在几点问题：(1)海量标签的标注工作耗时耗力，无论是财力还是人力上，都需要巨大的耗费；(2)由于标注者的不同研究背景，以及对于同一对象和事件的不同主观感受，导致标签数据具有不确定性；(3)专家在标注图像过程中遵从严格的分类标准，使用清晰的类别概念进行标注，因而不能从细粒度层面对图像进行描述。综上，我们可以看到充足且高质量标签数据的不足成为有监督的深度学习面临的一大难题。

随着互联网的蓬勃发展，特别是Web2.0技术的兴起，互联网用户可以在Flickr等各种图像网站上分享自己的图像，并可以自由地抒发自己对图像的看法，根据自己的理解对图像的内容进行标注，这种由互联网用户标注而产生的标签我们称之为社会标签，如图2。这些社会标签由互联网用户依据图像内容而灵活进行标注，因此很大程度上与图像内容相关，可代替人工标签用于图像检索。通过集合群体的智慧，使用由用户提供的社会标签，不仅轻松解决了有监督深度学习中标签匮乏的难题,而且大大降低了获取标签数据的成本；此外社会标签由互联网用户从多方面内容进行标注，与仅使用类别概念的人工标签相比，更能从细粒度层面描述图像的语义内容，因此针对社会标签的深度学习图像检索方法具有很大的前景和研究价值。

但是由于互联网用户根据自己对图像的看法随意进行标注，所以会产生噪声标签(Noise Tag)，缺失标签(Incomplete Tag)以及语义模糊标(Vagueness Tag)问题。如图2社会标签中黑框标签“c9”和“cute”等与对应图像并无视觉联系，属于噪声标签。缺失标签指的是存在图像目标没有被标注的情况，如图2第三张图中，并没有描述“蝴蝶” 的标签。语义模糊标签指的是同义词，一词多义等问题，例如第二张图中的“rabbit” 和“bunny”属于同义词标签。综上社会标签的问题，因此不可直接使用这些社会标签进行哈希学习和图像检索，需要首先进行标签的优化，即过滤噪声标签、补充缺失标签、减轻语义模糊标签的影响。

事实上，标签优化问题已经成为针对社会标签的哈希图像检索领域一个有趣但又具有挑战性的问题。一些标签优化算法已经被提出，“Li Z,Tang J.Weakly superviseddeep matrix factorization for social image understanding[J].IEEE Transactionson Image Processing,2016,26(1):276-288”提出一种弱监督深度矩阵分解算法，通过找出一个能够共同表示视觉结构和语义结构的潜在空间，在这个潜在空间中联合学习视觉结构和语义结构，从而去除噪声标签，补全缺失标签，进而实现基于标签的图像检索，都取得很好的结果。“Wang Q,Shen B,Wang S,et al.Binary codes embedding for fastimage tagging with incomplete labels[C]//European Conference on ComputerVision.Springer,Cham,2014: 425-439”新颖地提出将图像和标签同时进行二进制的思维，通过迭代的方式来优化二进制码，然后计算图像的二进制码与标签的二进制码之间的距离，从而得到每个标签的预测得分。

虽然这些方法在标签处理方面取得了不错的成果，但这些方法中的所有标签对应的是整张图像，仍存在图像目标与标签的不对应关系的问题。如图2中的第一张图存在多个目标及多个社会标签，各个目标与各个标签的对应关系不明确。然而，由于图像的某一标签往往对应图像的某一区域，而不是整张图像，某个标签对于整张图像而言也许不是噪声标签，但是对于图像中的其他目标而言，也是某种程度的噪声。如图2中的 “mouse”对于“cat”而言也是一种噪声标签，“mouset”的存在使得我们很难使用标签来准确提取图像中“cat”对应目标的语义信息。而精细化哈希学习的目标就是提取图像目标的语义信息，然后使得具有相同语义的目标生成较相似的哈希码，而具有不同语义的目标生成差别较大的哈希码，因此这种标签与图像目标的不确定关系不利于用户进行精细化图像检索。然而现有的标签优化方法中，有的只考虑过滤噪声标签,有的只能推荐缺失标签，虽然也有同时进行过滤噪声标签，补全缺失标签的，很大程度上进行了标签的优化，但是这些方法都没有考虑图像中每个目标与标签的对应关系，图像与标签的对应关系仍是模糊的。

发明内容

针对现有技术中的缺陷和不足，本发明提供了一种基于多任务深度学习的图像检索方法、模型及其构建方法，解决现有技术中存在的如下问题：(1)人工标签数量不足且人工标签不能从细粒度层面描述图像的语义内容。(2)现有的社会标签处理方法，只是单纯地过滤噪声标签，或者补全缺失标签，减轻语义模糊标签的影响，但是没有考虑标签与图像目标的对应关系，多个标签对应的是整张图像，很难使用这多个标签准确提取图像目标的语义信息，基于此标签最终学习的哈希码不能进行精细化图像检索。(3)现有的针对社会标签和多标签标注图像的哈希图像检索方法往往是独立执行标签优化学习和哈希学习两个任务，每次只考虑单个任务，网络模型只是学习适合于单个任务的表征，最终学习的模型泛化能力较差。

为达到上述目的，本发明采取如下的技术方案：

一种基于多任务深度学习的图像检索模型构建方法，该方法包括：

S1，对图像的社会标签进行预处理，获得语义类别标签；

S2，将图像和步骤S1得到的语义类别标签输入深度神经网络，输出每张图像所含region及region特征向量；

S3，将S2得到的region特征向量输入网络的softmax层，得到n*L维的矩阵

其中，矩阵P的第j行

为图像x_i的第j个region 属于各个语义类别的概率；L为稀疏编码中得到的语义类别的数量，

为图像x_i的第j个region属于第b个语义类别的概率；对于每一个语义类别b，取所有region属于该语义类别的最大值，作为图像x_i属于该语义类别的概率

见公式(1)：

以此类推得出图像x_i属于L个语义类别的概率

对于softmax层中得到的每个region属于各个语义类别的概率，取其中最大的值所对应的语义类别，作为该region所属语义类别

见公式(2)，其中

为图像x_i第j个region所属语义类别；

上述公式(1)和(2)得到了每张图像属于不同语义类别的概率以及图像每个region 所属语义类别；

S4，根据S3得到的每张图像属于不同语义类别的概率以及每个region所属语义类别，分别进行标签优化学习和哈希学习；

S4.1，图像x_i属于不同语义类别的概率p_i应与图像x_i最初的语义类别标签y_i相似；从标签语义一致性引入平方损失函数：

min||p_i-y_i||² (3)；

从标签共现性解决标签缺失问题，矩阵

为语义类别标签之间的相关关系，R_g,h为第g个语义类别与第h个语义类别的关系，见公式(4)，

其中，f_g为语义类别g在所有语义类别标签Y＝{y₁,y₂,...,y_N}中出现的次数；f_g,h为语义类别g与语义类别h共同出现的次数；对于语义类别的相关性，设计损失函数：

其中

为图像x_i属于第h个语义类别的概率；B＝E^R-R，为半正定的拉普拉斯矩阵，E为对角阵，大小为

针对标签语义与图像视觉的关系，设计损失函数：

其中为v_j图像x_j的SIFT视觉特征向量；

整合上述公式(3)(5)(6)得到损失函数J_t指导标签优化学习：

其中参数α和β用来平衡各个约束条件的影响；

S4.2，通过每个region所属语义类别指导网络hash的层进行哈希学习，使语义类别相同的region的哈希码距离较小，而属于不同语义类别的region的哈希码距离较大；设计如下损失函数进行哈希学习：

其中，

表示图像x_i第u个region

所属语义类别，

表示图像x_i第u个region所对应的哈希码；

S5，采用随机梯度下降法使S4得到的损失函数收敛以优化网络参数，得到图像检索模型；

把公式(7)(8)整合到一起，得到最终的损失函数J，从而指导网络同时进行标签优化学习和哈希学习，并采用动量的随机梯度下降法进行参数优化：

采用公式(11)将上述标签优化学习和哈希学习的多任务学习公式化，γ用于调节两个损失函数所占的比重。

本发明还包括如下技术特征：

具体的，所述公式(11)对所有变量p与W不能同时保持凸性，采取迭代优化算法，即固定p，更新W；然后固定W，更新p；

采取迭代优化算法，具体更新方法如下：

固定W，更新p以最小批次S来训练图像，在最小批次S中，p_i更新方式如下：

固定p，更新W同上，这里以同样的方式，更新W；在最小批次S中，W更新方式如下：

其中

的表达式如下：

经过上述参数优化能学习得到图像x_i所含目标的准确的哈希码。

一种基于多任务深度学习的图像检索模型，包括：

标签预处理模块，用于对图像的社会标签进行预处理，获得语义类别标签；

图像所含region及region特征向量提取模块，用于将图像及其语义类别标签输入深度神经网络，输出每张图像所含region及region特征向量；

每张图像属于不同语义类别的概率以及每个region所属语义类别获取模块，用于将 region特征向量输入网络结构的softmax层，得到n*L维的矩阵，得到图像x_i的第j个region属于第b个语义类别的概率；进而得到每个region属于各个语义类别的概率；

多任务学习模块，对region特征向量进行标签优化学习包括并从标签语义的一致性、标签的共现关系以及标签与视觉的一致性三个角度引入损失函数进行标签优化学习；对region特征向量进行哈希学习包括通过各个region所属语义类别指导哈希学习；

参数优化模块，用于将约束标签优化学习和哈希学习的损失函数进行整合得到最终损失函数，从而优化网络参数得到图像检索模型。

一种基于多任务深度学习的图像检索方法，该方法包括如下步骤：

基于图像检索模型，获取I个图像中所有候选目标的准确的哈希码，得到I个图像的哈希码集；将所有目标哈希码进行二进制K-means聚类，得到K个目标哈希码集合，将每个目标哈希码集合的聚类中心作为关键码Key，得到K个关键码Key，每个关键码 Key对应设有一个链表，即得到和K个关键码Key一一对应的K个链表；将每个图像的图像ID和每个图像中所有目标哈希码组成的哈希码集作为节点放入每个图像中每个候选目标所对应的关键码Key后的链表中；得到索引数据库；

提取待检索图像中的兴趣目标为多个兴趣目标时，将每个兴趣目标分别映射为目标哈希码，得到待检索图像的哈希码集；将每个目标哈希码输入索引数据库中找到每个目标哈希码所对应的关键码Key；提取关键码Key所对应的链表并计算交集；然后计算交集与待检索图像哈希码集的联合汉明距离，将汉明距离最小的前N张图像返回给用户，N为大于等于1的自然数。

本发明与现有技术相比，有益的技术效果是：

1.本发明使用的是语义更丰富的社会标签，并针对社会标签存在的问题提出一个新颖的标签优化学习方法。与一般的方法不同，本发明的方法不只是处理标签存在的某个问题，而是利用一个端到端的框架，在提取用户感兴趣目标的基础上，充分考虑标签与标签的关系，以及标签与视觉内容的关系，提出多方面约束的损失函数来指导标签优化学习，全面地处理标签存在的噪声，语义模糊，标签缺失以及图像目标与标签的不对应关系等多个问题。

2.本发明提出一个多任务深度学习框架，同时进行标签优化学习和哈希学习，两个学习相互促进，一方面利用学习的标签为哈希学习提供语义指导，另一方面哈希作为正则化项也会约束标签的优化。另外，本发明设计了一个联合损失函数来共同指导标签学习和哈希学习，并使用动量的随机梯度下降法进行网络参数的优化，从而最终得到图像中的每个目标精细化的哈希表达。

附图说明

图1本发明流程图；

图2社会标签示意图；

图3本发明网络架构图(本发明基于VGG16网络，fc8，fc9，softmax层与hash层为新加层，L为标签的语义类别数量，n为从图像中提取的region数量，h为哈希码位数)。

图4为不同模块有效性验证实验中汉明距离为2内的，对应不同哈希码长度的精度曲线图；

图5为不同模块有效性验证实验中对应不同哈希码长度的precision@500曲线图；

图6为不同方法有效性验证实验中汉明距离为2内的，对应不同哈希码长度的精度曲线图；

图7为不同方法有效性验证实验中对应不同哈希码长度的precision@500曲线图。

具体实施方式

由于互联网用户标注的标签(社会标签)可以描述图像的语义信息，因此可以用这些标签指导哈希学习。不幸的是，互联网用户标注的标签数据不仅存在噪声，标签缺失，语义模糊等问题，而且图像目标与标签之间没有明确的对应关系，很难使用这些标签准确提取图像中每个目标的语义信息，从而使得最终基于此标签学习的哈希码不能进行精细化图像检索。针对社会标签存在的问题，本发明依据标签与标签的关系，以及标签与图像视觉内容的关系，设计一个损失函数来指导标签的优化，在去除噪声标签，补全缺失标签，减少语义模糊标签的同时，并进一步精确地匹配每个图像区域的对应标签，从而用这些标签为哈希学习提供更精确地语义指导。其次，为了高效地进行标签优化学习和哈希学习，我们提出一个端到端的联合学习框架，在标签学习的同时也进行哈希学习，两种学习相互受益。最后，我们设计一个损失函数来共同指导标签学习和哈希学习，并使用动量的随机梯度下降法进行网络参数的优化，从而最终得到图像中的每个目标精细化的哈希表达。

本发明公开了一种基于多任务深度学习的图像检索模型构建方法，如图1和3所示，包括以下步骤：

S1，对图像的社会标签进行预处理，获得语义类别标签：

采用word2vec方法将互联网用户提供的社会标签向量化，将每个标签表示为一个200维的向量；

采用稀疏编码的方法将上述得到的标签向量稀疏化，然后对每张图像的所有标签进行平均池化操作，主要目的是减轻噪声标签，以及语义模糊标签的影响。最终得到图像的语义类别标签y_i，y_i中各个元素的大小表示的是该语义类别在图像x_i中的强度，数值越大，说明此语义类别与图像语义内容越相关；

S2，将图像和步骤S1得到的语义类别标签输入深度神经网络，输出每张图像所含region及region特征向量：

经过VGG16的conv1-conv5得到整张图像的conv feature map，接着采用Selective Search Windows(SSW)提取图像的region proposal，得到n个region，

将上述得到的整张图像的conv feature map和图像的n个region输入SPP层，通过整张图像的conv feature map映射得到统一输出21*512＝10752维的region features，作为后续fc6 全连接层的输入；

S3，将S2得到的region特征向量输入网络的softmax层，图像x_i的n个region经过fc8 之后得到1024维的特征向量，接着将这1024维的region特征向量输入网络结构的softmax 层，便得到一个n*L维的矩阵，P＝(r_i ¹,r_i ²,...,r_i ⁿ)^T。其中矩阵P的第j行

为图像x_i的第j个region属于各个语义类别的概率。r_i ^j中，L为稀疏编码中得到的语义类别的数量，

为图像x_i的的第 j个region属于第b个语义类别的概率。为了快递找到包含图像目标的region，这里设置阈值为0.5，如果r_i ^j所包含的元素均小于0.5，则认为第j个region不包含图像目标，应该删除，最终得到s个region；

确定图像x_i属于不同语义类别的概率，及图像s个region所属语义类别；

具体地，对于每一个语义类别b，我们取所有region属于该语义类别的最大值，作为图像x_i属于该语义类别的概率

见公式(1)。依次类推，从而求出图像x_i属于L个语义类别的概率

另外，对于softmax中得到的每个region属于各个语义类别的概率，我们取其中最大的值所对应的类别，作为该region所属类别

见公式(2)，其中

为图像x_i第j个region所属语义类别；

S4.1，通过softmax学习结果得到的图像x_i属于各个语义类别的概率p_i，应与图像x_i最初的的语义类别标签y_i相似。也就是说，如果某个语义类别在y_i中的数值越大，说明该语义类别与图像的相关度越大，那么最终学习的图像x_i属于该语义类别的概率也应该更大。对于这个条件，通过平方损失来进行约束。

min||p_i-y_i||² (3)

接着，考虑标签共现性解决标签缺失问题。矩阵

表示语义类别标签之间的相关关系，R_g,h表示第g个语义类别与第h个语义类别的关系，见公式(4)；

其中，f_g表示语义类别g在所有语义类别标签Y＝{y₁,y₂,...,y_N}中出现的次数(如果此语义类别在图像中对应的强度数值大小不为0，就认为该语义类别出现)。f_g,h表示语义类别g与语义类别h共同出现的次数。对于语义类别的相关性，增加如下约束：

其中

为图像x_i属于第h个语义类别的概率。B＝E^R-R，为半正定的拉普拉斯矩阵，E为对角阵，大小为

公式(5)的主要作用是，在初始语义类别标签y_i中，如果语义类别g和h的相关度较高(R_gh的取值较大)，那么最终学习的图像x_i属于这两个语义类别的概率

与

也应该更接近，从而补充缺失的语义标签。

最后，有相同视觉内容的图像，它们的语义标签往往更接近，因此图像的视觉内容在一定程度上也可以反映图像的语义信息。基于此，对于视觉内容相似的图像x_i和图像x_j，最终学习的这两张图像的语义分布也应该更接近，即这两张图像属于各个语义类别的概率分布也应该更接近。针对标签语义与图像视觉的关系，提出如下约束条件：

其中为v_j图像x_j的SIFT视觉特征向量。

整合上述公式(3)(5)(6)得到J_t来指导标签优化学习：

其中参数α和β用来平衡各个约束条件的影响。公式(7)从语义标签与语义标签的关系，以及语义标签与视觉内容的关系两方面来指导标签优化学习，以过滤噪声标签，补充缺失标签，同时根据最终学习到的语义类别概率，进而确定每个region的对应标签 (公式2)。

S4.2通过网络的hash层进行哈希学习，以得到每个region的哈希码；

因为标签反映了图像所包含的语义信息，因此我们可以用图像的标签来指导哈希学习。我们通过上述学习得到的各个region所属语义类别来指导哈希学习，使得语义类别相同的region的哈希码距离较小，而属于不同语义类别的region的哈希码距离较大。基于此，我们提出如下约束进行哈希学习：

其中，

表示图像x_i第u个region

所属语义类别，

表示图像x_i第u个region所对应的哈希码。公式(8)的目的是，若两个region(

与

)属于相同语义类别，则这两个region所对应的哈希码

与

应尽可能接近。否则，这两个region所对应哈希码的距离应该至少大于λ。

本发明学习图像中每个region的哈希码时，采用“Lin K,Yang H F,Hsiao J H,etal. Deep learning of binary hash codes for fast image retrieval[C]//2015IEEEConference on Computer Vision and Pattern Recognition Workshops(CVPRW).IEEE,2015.”所提方法，激活函数为sigmoid(·)，计算方法如下：

公式(9)中

是图像x_i第u个region的近似哈希码，f_i ^u是图像x_i第u个region的特征向量，

(h是哈希码长度)和

是σ(·)的参数。对于

的每一位输出

通过公式(10)得到每个region的哈希码。

把公式(7)(8)整合到一起，得到最终的损失函数J，从而指导网络同时进行标签优化学习和哈希学习，并采用动量的随机梯度下降法进行网络的优化；

γ用来调节两个损失函数所占的比重。公式(11)对所有变量p与W不能同时保持凸性，为了解决这个问题，本发明采取迭代优化算法，即固定p，更新W；然后固定W，更新p。具体更新方法如下：

固定W，更新p本发明以最小批次S来训练图像，在最小批次S中，p_i更新方式如下：

固定p，更新W同上，这里以同样的方式，来更新W。在最小批次S中，W更新方式如下：

其中

的表达式如下：

经过上述网络的优化学习，便可最终学习得到图像x_i所含目标的哈希码。

得到图像x_i所含s个目标的哈希码之后，就可得到整张图像对应的hashlist，

将所有图像的hashlist存于哈希库用于检索，本发明所提方法支持更加丰富的检索方式，可以采用“Zhao W,Guan Z,Luo H,et al.Deep Multiple InstanceHashing for Object-based Image Retrieval[C]//IJCAI.2017:3504-3510.”所提方法进行单目标图像检索与多目标图像检索。

本发明还提供一种基于多任务深度学习的图像检索模型，包括：

本发明还提供一种基于多任务深度学习的图像检索方法，该方法包括如下步骤：

实验验证：

一般的图像检索方法中判定两张图像是否相似的的评价指标是：查询图像与返回图像只要有一个共同的标签，那就认为两张图像相似。这种对比方法太过粗糙，为了更加公平公正地比较最终的图像检索结果，本文制定了更加严格的评定方法：只有当查询图像与返回图像所有的标签都相同时，那么这两张图像才相似。

(一)不同模块的评估：

为了验证本发明所提图像检索方法STJHL中哈希学习，标签学习以及联合优化学习的有效性，我们首先去掉图3网络结构中的哈希层，使用CNN网络的fc8输出的特征向量进行图像检索(我们称其为STJHL-h)，然后通过比较两个图像目标特征向量间的欧式距离来进行相似度判断，以验证哈希学习的有效性。接着，我们删除公式(7) 中标签优化学习的损失函数，只保留哈希学习的损失函数，从而直接使用户提供的原始标签指导哈希学习(我们称其为STJHL-t)，以验证本发明标签优化学习的有效性。最后我们分两步分别进行标签优化学习和哈希学习(我们称其为STJHL-u)，以验证本发明联合优化学习的有效性。

图4和图5为上述实验在NUS-WIDE数据集上的实验结果。其中图4为汉明距离为2内的，对应不同哈希码长度的精度曲线图，图5为对应不同哈希码长度的 precision@500曲线图。从图4和5的实验结果中我们可以看到，在所有的检索方法中 STJHL-t的实验结果最差，说明互联网用户提供的社会标签不可直接用于图像检索，需要进行标签优化处理。除STJHL-t之外，其次是STJHL-h的性能较差，说明神经网络提取的图像目标特征向量不适合用于图像检索，证明了本发明哈希学习的有效性。最终，和我们预想的一致，STJHL-u的性能表现不如STJHL，说明标签优化学习和哈希学习相互影响，相互补充，证明了本发明联合学习框架的有效性。

(二)不同方法的评估：

为了进一步验证本发明图像检索方法的性能，我们将本发明的图像检索方法与当前主流的图像检索方法进行对比，主要包括：LSH[1]，KSH[2]，WP_DSH[3]，WP_KSH[3]， WP_DRSCH[3]，DRSCH[4]，DeepBit[5]，DSH[6]。为了公平地评比，对于所有基于CNN 网络架构的检索方法,例如：DeepBit，DSH，DRSCH，WP_DSH，WP_KSH，WP_DRSCH 等方法，本发明都使用在ImageNet上预训练的VGG16模型作为这些检索方法的基本网络。对于使用底层视觉特征(LSH,KSH)的检索方法，本发明统一将预训练的VGG16 的最后一层全连接层的输出特征向量作为这些检索方法的输入特征。此外，在实验过程中，本发明都采用这些方法给出的最优参数值。

图6和图7分别为为这些图像检索方法在NUS-WIDE数据集上的实验结果，其中图6为汉明距离小于等于2时对应不同哈希码长度的精度曲线图，图7为对应不同哈希码长度的precision@500曲线图，为了进行定量评估，在实验过程中哈希码位数从8变到64。

从图6和图7中我们可以明显看出，本发明的STJHL方法的性能超过了其他所有方法，证明本发明所提方法对图像的强表征能力与编码能力。我们来详细分析一下这些图像检索方法的结果，首先，无监督的检索方法LSH，DeepBit由于学习过程中无标签数据的指导，所以效果最差，在意料之中。其次，STJHL方法超越了主流的有监督的检索方法KSH，DSH，DRSCH，这是因为互联网用户提供的社会标签包含更丰富的，更细粒度的语义信息，能够更好地表示图像之间的细粒度的差别，而这些有监督的检索方法使用的标签数据提供的是粗粒度的语义信息，不能充分描述图像的细节信息，导致神经网络学习中忽视了这部分信息的存在，从而网络最终学习的图像特征表征能力不强。最后，本发明的STJHL方法超越了主流的弱监督图像检索方法WP_DSH，WP_KSH以及WP_DRSCH的性能，这是因为本发明的STJHL方法同时考虑了标签优化学习和哈希学习，两个学习相互补充，得到的哈希码表征能力更强。而且，不同于这些图像检索方法的哈希学习方式，本发明的STJHL方法学习的是基于图像目标的哈希码，基于图像中每个目标所对应标签的语义信息，为图像中每个目标生成区别能力更强的哈希码，从而最终提高检索性能。

[1]Indyk P.Approximate nearest neighbor:Towards removing the curse ofdimensionality[C]//Proc.30th Symposium on Theory of Computing,1998.1998.

[2]Liu W,Wang J,Ji R,et al.Supervised hashing with kernels[C]//2012IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2012:2074-2081

[3]Guan Z,Xie F,Zhao W,et al.Tag-based Weakly-supervised Hashing forImage Retrieval[C]//IJCAI.2018:3776-3782

[4]Zhang R,Lin L,Zhang R,et al.Bit-scalable deep hashing withregularized similarity learning for image retrieval and person re-identification[J].IEEE Transactions on Image Processing,2015,24(12):4766-4779.

[5]Lin K,Lu J,Chen C S,et al.Learning Compact Binary Descriptors withUnsupervised Deep Neural Networks[C]//CVPR.IEEE,2016.

[6]Liu H,Wang R,Shan S,et al.Deep supervised hashing for fast imageretrieval[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2016:2064-2072.

Claims

1.一种基于多任务深度学习的图像检索模型构建方法，其特征在于，该方法包括：

S1，对图像的社会标签进行预处理，获得语义类别标签；

其中，矩阵P的第j行

为图像x_i的第j个region属于各个语义类别的概率；L为稀疏编码中得到的语义类别的数量，

见公式(1)：

以此类推得出图像x_i属于L个语义类别的概率

见公式(2)，其中

为图像x_i第j个region所属语义类别；

上述公式(1)和(2)得到了每张图像属于不同语义类别的概率以及图像每个region所属语义类别；

min||p_i-y_i||² (3)；

从标签共现性解决标签缺失问题，矩阵

其中

针对标签语义与图像视觉的关系，设计损失函数：

其中为v_j图像x_j的SIFT视觉特征向量；

整合上述公式(3)(5)(6)得到损失函数J_t指导标签优化学习：

其中参数α和β用来平衡各个约束条件的影响；

其中，

表示图像x_i第u个

所属语义类别，

表示图像x_i第u个region所对应的哈希码；

2.如权利要求1所述的基于多任务深度学习的图像检索模型构建方法，其特征在于，所述公式(11)对所有变量p与W不能同时保持凸性，采取迭代优化算法，即固定p，更新W；然后固定W，更新p；

采取迭代优化算法，具体更新方法如下：

其中

的表达式如下：

3.一种基于多任务深度学习的图像检索模型，其特征在于，包括：

每张图像属于不同语义类别的概率以及每个region所属语义类别获取模块，用于将region特征向量输入网络结构的softmax层，得到n*L维的矩阵，得到图像x_i的第j个region属于第b个语义类别的概率；进而得到每个region属于各个语义类别的概率；

4.一种基于多任务深度学习的图像检索方法，其特征在于，该方法包括如下步骤：

基于图像检索模型，获取I个图像中所有候选目标的准确的哈希码，得到I个图像的哈希码集；将所有目标哈希码进行二进制K-means聚类，得到K个目标哈希码集合，将每个目标哈希码集合的聚类中心作为关键码Key，得到K个关键码Key，每个关键码Key对应设有一个链表，即得到和K个关键码Key一一对应的K个链表；将每个图像的图像ID和每个图像中所有目标哈希码组成的哈希码集作为节点放入每个图像中每个候选目标所对应的关键码Key后的链表中；得到索引数据库；