CN108647295B

CN108647295B - 一种基于深度协同哈希的图片标注方法

Info

Publication number: CN108647295B
Application number: CN201810429034.0A
Authority: CN
Inventors: 李武军; 崔雪
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2022-09-23
Anticipated expiration: 2038-05-08
Also published as: CN108647295A

Abstract

本发明公开了一种基于深度协同哈希的图片标注方法，达到了图片和标签存储空间低且检索高效的效果。首先收集用户上传或者众包提供的有标注图片，利用图片和标注的对应关系构造相似性关系的二值矩阵。根据共享标注的个数定义图片的相似性。融合图片和标注间一致性信息与图片相似性信息作为监督目标，结合深度学习构造端到端的有互反馈的深度网络，离线训练图片和标注的离散二值编码。在线应用时，使用深度网络输出图片的二值编码，计算图片二值编码与标签二值编码的海明距离，根据海明距离从低到高对图片进行标注。

Description

一种基于深度协同哈希的图片标注方法

技术领域

本发明涉及一种基于深度协同哈希的图片标注方法，主要解决图片标注中的存储开销和检索效率问题。

背景技术

随着智能手机的普及，人们可以随时随地用相机记录生活，并且在社交媒体上编辑和分享图片。社交平台比如国内的微信和国外的Facebook，用户每天都会共享大量的多媒体数据，因此图片和视频的数据量与日俱增。对于海量的多媒体数据，网站端如何有效的存储、管理并且提供给用户端友好的检索和浏览是一项极具挑战的任务。为了使用户可以更加方便地检索图片，一些描述图片语义信息的标签可以带来极大的便利，因此图片标注任务受到了广泛的关注。图片标注任务是给图片分配和图片内容相匹配的语义标签，用来缩小基于关键词检索图片时，低等级的图片特征和高等级的语义信息之间的鸿沟。

手动标注通常由一些专家基于预定义好的标签集合进行标注，虽然标注更加准确但却需要耗费大量人力物力。对于像Flickr这种有数亿级别并且每天仍然会上传几百万张图片的共享网站，手动标注是不可能完成的。因此对于大规模数据集，如何自动准确地对其中的图片进行标注备受关注。

大多数的图片标注研究工作主要关注算法的效果却很少在意其检索效率。在现实应用中，图片的数量是呈爆炸式增长的，因此设计一种低存储图片和标签，以及高效率的图片标注算法至关重要。为了解决这个问题，本发明主要从哈希学习的角度出发，用离散哈希对学习图片和标注进行编码，并在海明空间内寻找图片对应的标注。

发明内容

发明目的：本发明提供一种基于深度协同哈希的图片标注方法，引入哈希意在解决图片标注时存储空间以及检索效率问题。同时，通过深度网络将图片和图片间的相似性考虑其中来提升算法性能。

技术方案：一种基于深度协同哈希的图片标注方法，包括特征学习和损失函数两部分。特征学习部分使用深度网络提取图片的特征表示；损失函数部分的监督信息由图片和标注间一致性以及图片间相似性两部分组成，希望学习到的哈希编码与监督信息尽可能一致。本发明使用协同哈希建模图片和标注间的一致性，使用平方损失建模图片间的相似性信息。在求解时，利用离散优化的策略学习图片和标注的编码，同时使用梯度反向传播优化深度网络的参数。在线应用时，对于一张没有标注的图片，使用哈希网络生成二值编码，之后在海明空间内寻找与其相近的标签作为图片的标注。

令

为n个图片集合，C为m个标签集合。每张图片都对应着标签集合C中的几个标签，构成了图片标注矩阵R＝{r_ij}。矩阵R中的每个元素反映了图片和标签的相关性。r_ij＝1表示第i个图片对应着第j个标签；r_ij＝0表示第j个标签不是第i张图片的标签或者第j个标签是第i张图片的缺失标签。我们模型的目标是学习图片的最优二值编码B,标签的最优二值编码V,使得r_ij＝1时二值编码 b_i和v_j间的距离尽可能近；r_ij＝0时二值编码b_i和v_j间的距离尽可能远。同时，学习生成图片二值编码的哈希函数h。

特征学习部分使用预训练的卷积神经网络CNN-F模型提取图片特征表示。 CNN-F包括五层卷积神经网络，两层全连接层；五层卷积神经网络分别是卷积层一至五，两层全连接层分别为全连接层六和哈希层。每个卷积层包括几个部分:"filter"指定卷积感受野的大小和卷积个数；“stride”指定两个卷积操作间的间隔；“pad”表示零填充的数目；“LRN”表示是否使用局部正则，“pool”指定下采样的区域大小。全连接层六用4096维作为特征表示，哈希层的维度为对应的哈希编码的个数。

目标函数部分包括建模图片相似性和图片与标注一致性两部分。根据实际应用定义图片的相似性矩阵S，例如利用图片内容构造或者社交链接信息构造。本发明中定义共享标注个数超过两个的图片为相似，否则为不相似。S_ij＝1表示两张图片相似，S_ij＝0表示两张图片不相似。用图片编码的内积逼近图片相似性矩阵，并且其中一个图片编码用深度网络表示：

其中，c为哈希编码的比特数，n为图片的个数。S为图片相似性矩阵，U为深度网络学习到的图片编码的实值表示，B为图片哈希编码的二值表示，λ控制图片实值表示和二值表示间的量化损失。

建模图片的相似性信息以及图片和标注一致性信息构建统一的模型。

其中，E为损失函数，R表示图片和标签间一致性矩阵，m为标签的个数，μ控制图片和标注间一致性与图片间相似性的权重。

固定B和U，优化V

固定其他比特位，更新变量V的第i个比特V_i*，目标公式可以重写为

其中矩阵Q的计算公式为

Q＝cBR^T

Q_i*是变量Q的第i行，B_i*是变量B的第i行，

是变量B除第i个比特剩余的矩阵，

是变量V除第i个比特剩余的矩阵。

变量V_i*是二值变量，因此我们可以离散求解

按照这个公式，我们可以逐比特地更新变量V的每一个比特。

固定U和V，更新变量B，同样地我们能够按照如下的公式逐比特的更新B。

其中矩阵D的计算公式为

D＝cVR^T+λU+μcUS^T (6)

D_i*为变量D的第i行，U_i*为变量U的第i行，

为变量U除去U_i*后剩余的矩阵。

固定变量B和变量V，更新变量U。U是网络输出的最后一层，这里我们只提供最后一层的梯度公式，神经网络的所有变量Θ使用链式法则更新。

其中，U_*i为变量U的第i列，B_*j为变量B的第j列，s_ij为图片i和图片j间的相似性。

假定神经网络参数为Θ，整个网络的过程定义为φ，则图片x_i的哈希函数可以表示为

h(x_i)＝sgn(φ(x_i，Θ)) (8)

使用如上的方式，我们最终可以求得变量B、变量V、变量U以及哈希函数h。在线上应用时对于一张没有标签的图片，首先使用哈希函数学得它的二值编码，之后计算与标签二值编码间的海明距离。

图片x_i的二值编码为b_i，这张图片与标签集合V中的标签v_j的海明距离为

根据实际要求从海明距离小的标签集合中选取几个作为最终的标注。

考虑到图片标注任务的要求，我们希望在应用时图片对应的正标注尽可能排在前面。因此我们使用平均精度(AP@K)作为评价指标。AP@K即衡量返回前K 个标注中正确标注的比率。AP@K越大代表着返回的前K个标注中正例越多，即模型的效果越好。

这里，t是测试样本的个数,K是返回的标签的个数，N_c(l)是第l个图片返回正确标注的个数。

附图说明

图1为本发明线下训练流程图；

图2为本发明线上图片标注预测流程图；

图3为本发明图片标注矩阵示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于深度协同哈希的图片标注方法，令

为n个图片集合，C为m个标签集合。每张图片都对应着标签集合C中的几个标签，构成了图片标注矩阵 R＝{r_ij}，如图3所示。矩阵R中的每个元素反映了图片和标签的相关性。r_ij＝1 表示第i个图片对应着第j个标签；r_ij＝0表示第j个标签不是第i张图片的标签或者第j个标签是第i张图片的缺失标签。我们模型的目标是学习图片的最优二值编码B,标签的最优二值编码V,使得r_ij＝1时二值编码b_i和v_j间的距离尽可能近； r_ij＝0时二值编码b_i和v_j间的距离尽可能远。同时，学习生成图片二值编码的哈希函数h。

图1展示了基于深度协同哈希图片标注模型的线下训练流程。从训练集合中获取图片和标签间的关系R以及图片和图片间的相似性关系S，同时使用深度网络学习图片的特征表示。将这三者放入如下的过程中，即可得到图片的二值编码 B和标签的二值编码V以及深度哈希函数h。

深度网络特征学习部分使用预训练的卷积神经网络CNN-F模型提取图片特征表示。具体配置如表1。CNN-F包括五层卷积神经网络，两层全连接层；五层卷积神经网络分别是卷积层一至五，两层全连接层分别为全连接层六和哈希层。每个卷积层包括几个部分:"filter"指定卷积感受野的大小和卷积个数；“stride”指定两个卷积操作间的间隔；“pad”表示零填充的数目；“LRN”表示是否使用局部正则，“pool”指定下采样的区域大小。全连接层六用4096维作为特征表示，哈希层的维度为对应的哈希编码的个数。

目标函数部分包括建模图片相似性和图片与标注一致性两部分。根据实际应用定义图片的相似性矩阵S。S_ij＝1表示两张图片相似，S_ij＝0表示两张图片不相似。用图片编码的内积逼近图片相似性矩阵，并且其中一个图片编码用深度网络表示：

其中，c为哈希编码的比特数，S为图片相似性矩阵，U为深度网络学习到的图片编码的实值表示，B为图片哈希编码的二值表示，λ控制图片实值表示和二值表示间的量化损失。

固定B和U，优化V

固定其他比特位，更新变量V的第i个比特v，目标公式可以重写为

其中矩阵Q的计算公式为

Q＝cBR^T

Q_i*是变量Q的第i行，B_i*是变量B的第i行，

是变量B除第i个比特剩余的矩阵，

是变量V除第i个比特剩余的矩阵。

变量V_i*是二值变量，因此我们可以离散求解

按照这个公式，我们可以逐比特地更新变量V的每一个比特。

其中矩阵D的计算公式为

D＝cVR^T+λU+μcUS^T (6)

固定变量B和变量V，更新变量U。U是网络输出的最后一层，这里我们只提供最后一层的梯度公式，神经网络的所有变量Θ使用链式法则更新。即可得到哈希函数h

使用如上的方式，我们最终可以求得变量B、变量V、变量U以及哈希函数h。

图2展示了当基于深度协同哈希图片标注模型训练好后，线上使用的流程图。首先线上的图片通过深度哈希网络输出图片对应的哈希编码。

h(x_i)＝sign(φ(x_i，Θ)) (8)

之后与线下训练好的标签哈希编码计算海明距离。

其中，c为哈希编码的比特数。根据实际要求从海明距离小的标签集合中选取几个作为最终的标注。

我们选用NUS-WIDE和MFLICKR1M标准图片标注数据集。MFLICKR1M 整理得到的31,122张图片以及1,326个标签。我们选取25,000张图片做训练集，其余图片做测试集。选取超参数时，随机选取训练集中的20,000张图片作为训练集，其余作为验证集。NUS-WIDE数据集整理得到的47,596张图片以及1,822 个标签，选取其中的40,000张图片做训练集，其余图片做测试集。选取超参数时，随机选取训练集中的35,000张图片做训练集，其余图片做测试集。

因为不同的数据集，标签的稀疏度不同，噪声程度也不同。因此需要为不同的数据集通过交叉验证选取不同的超参数。对于MFLICKR1M数据集，控制图片实值表示和二值表示间量化损失的超参数λ设为1，控制图片和标注间一致性与图片间相似性权重的超参数μ设为1e-5，迭代次数为20，学习率设为区间 [1e-5.5,1e-6]。对于NUS-WIDE数据集，超参数λ设为1e5，超参数μ设为1，迭代次数为20，学习率设为区间[1e-6,1e-6.5]。

使用CNN-F作为预训练网络，交替更新每个变量。迭代时使用公式(5)逐比特更新变量B，使用公式(4)逐比特更新变量V，使用公式(7)更新神经网络参数，同时学到哈希函数h。

对于一张新的图片x_i，我们可以使用哈希函数(8)得到这张图片的哈希编码b_i。

使用海明距离计算公式(9)，计算哈希编码b_i和所有标签V的海明距离。得到针对这张图片所有标签的排序。

使用公式(10)作为评价指标，分别与常用的离散协同过滤(Hanwang Zhang，FuminShen，Wei Liu，Xiangnan He，Huanbo Luan，Tat{-}Seng Chua，Discrete CollaborativeFiltering，Proceedings of the 39th Internationalconference on Research andDevelopment in Information Retrieval)，二值编码嵌入(Qifan Wang，Bin Shen，Shumiao Wang，Liang Li，Luo Si，Binary Codes Embedding for Fast Image Taggingwith Incomplete Labels，Computer Vision-{ECCV}2014-13th European Conference)和协同哈希(Xianglong Liu，Junfeng He，Cheng Deng，Bo Lang，Collaborative Hashing，2014{IEEE}Conference on Computer Vision and Pattern Recognition)三种哈希方法进行对比，我们的方法在两个数据集上AP@5 的结果如表2和表3，从表中可以看出我们的方法效果显著。

表1 深度网络配置

表2 NUS-WIDE数据集上AP@5的结果

表3 MFLICKR1M数据集上AP@5的结果

Claims

1.一种基于深度协同哈希的图片标注方法，其特征在于，包括图片标注收集、图片特征表示学习、图片标注哈希学习优化三个部分，使用协同哈希为图片和标注间的一致性建模，使用平方损失为图片间的相似性信息建模；在求解时，利用离散优化的策略学习图片和标注的编码，同时使用梯度反向传播优化深度网络的参数；在线应用时，对于一张没有标注的图片，使用哈希网络生成二值编码，之后在海明空间内寻找与其海明距离小的标签作为图片的标注；

图片标注收集具体是：

令

为n个图片集合，C为m个标签集合；每张图片都对应着标签集合C中的几个标签，构成了图片标注矩阵R＝{r_ij}，矩阵R中的每个元素反映了图片和标签的相关性；r_ij＝1表示第i个图片对应着第j个标签；r_ij＝0表示第j个标签不是第i张图片的标签或者第j个标签是第i张图片的缺失标签；模型的目标是学习图片的最优二值编码B,标签的最优二值编码V，同时，学习生成图片二值编码的哈希函数h；

图片特征表示学习具体是：

使用预训练的卷积神经网络CNN-F模型提取图片特征表示，CNN-F包括五层卷积神经网络，两层全连接层；五层卷积神经网络分别是卷积层一至五，两层全连接层分别为全连接层六和哈希层；每个卷积层包括五个部分：“filter”指定卷积感受野的大小和卷积个数；“stride”指定两个卷积操作间的间隔；“pad”表示零填充的数目；“LRN”表示是否使用局部正则；“pool”指定下采样的区域大小；全连接层六用4096维作为特征表示；哈希层的维度为对应的哈希编码的个数；

图片标注哈希学习优化具体是：

根据图片内容或者社交链接信息定义图片的相似性，利用深度网络建模图片的相似性信息以及图片和标注一致性信息构建统一的模型：

s.t.B∈{-1,+1}^c×n,V∈{-1,+1}^c×m,

其中，E为损失函数，c为哈希编码的比特数，n为图片的个数，m为标签的个数，R表示图片和标签间一致性矩阵，S为图片相似性矩阵，U为深度网络学习到的图片编码的实值表示，B为图片的二值编码表示，μ为控制图片和标注间一致性与图片间相似性的权重，λ为控制图片实值表示和二值表示间的量化损失；使用交替优化的策略，逐个比特地离散优化变量B，逐个比特地离散优化变量V；对于变量U，使用梯度下降进行更新；训练完成后，使用学习到的深度网络哈希函数表示图片的二值编码，将计算得到的图片二值编码与标签集合二值编码的海明距离进行排序，根据实际任务选取图片对应的标签。

2.如权利要求1所述的基于深度协同哈希的图片标注方法，其特征在于，令变量V_i*是V的第i行，V_i*是二值变量，因此离散求解