CN111460200B - 基于多任务深度学习的图像检索方法、模型及其构建方法 - Google Patents
基于多任务深度学习的图像检索方法、模型及其构建方法 Download PDFInfo
- Publication number
- CN111460200B CN111460200B CN202010142292.8A CN202010142292A CN111460200B CN 111460200 B CN111460200 B CN 111460200B CN 202010142292 A CN202010142292 A CN 202010142292A CN 111460200 B CN111460200 B CN 111460200B
- Authority
- CN
- China
- Prior art keywords
- image
- learning
- semantic
- hash
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 238000010276 construction Methods 0.000 title claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 37
- 230000000007 visual effect Effects 0.000 claims abstract description 15
- 238000011478 gradient descent method Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims 1
- 101150060512 SPATA6 gene Proteins 0.000 abstract description 110
- 238000002474 experimental method Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000006650 Overbite Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多任务深度学习的图像检索方法、模型及其构建方法,依据标签与标签的关系,以及标签与图像视觉内容的关系,设计损失函数指导标签的优化,在去除噪声标签,补全缺失标签,减少语义模糊标签的同时,并进一步精确地匹配每个图像区域的对应标签,从而用这些标签为哈希学习提供更精确地语义指导。为了高效地进行标签优化学习和哈希学习,提出一个端到端的联合学习框架,在标签学习的同时也进行哈希学习,两种学习相互受益;设计最终损失函数来共同指导标签学习和哈希学习,并使用动量的随机梯度下降法优化模型参数从而得到图像检索模型以及图像中的每个目标精细化的哈希表达。
Description
技术领域
本发明属于图像检索技术领域,具体涉及一种基于多任务深度学习的图像检索方法、模型及其构建方法。
背景技术
近年来,随着深度学习在计算机视觉领域取得的突破性成就,DeepConvolutional Neural Networks(CNNs)逐渐被用于哈希图像检索,加速了图像检索领域的发展。其中,基于有监督深度学习的哈希方法在图像检索领域取得了显著的成果,但是这些有监督的深度学习方法需要大量的由特定的专家标注而产生的数据,我们称这些由特定专家标注而产生的数据为人工标签。这些人工标签存在几点问题:(1)海量标签的标注工作耗时耗力,无论是财力还是人力上,都需要巨大的耗费;(2)由于标注者的不同研究背景,以及对于同一对象和事件的不同主观感受,导致标签数据具有不确定性;(3)专家在标注图像过程中遵从严格的分类标准,使用清晰的类别概念进行标注,因而不能从细粒度层面对图像进行描述。综上,我们可以看到充足且高质量标签数据的不足成为有监督的深度学习面临的一大难题。
随着互联网的蓬勃发展,特别是Web2.0技术的兴起,互联网用户可以在Flickr等各种图像网站上分享自己的图像,并可以自由地抒发自己对图像的看法,根据自己的理解对图像的内容进行标注,这种由互联网用户标注而产生的标签我们称之为社会标签,如图2。这些社会标签由互联网用户依据图像内容而灵活进行标注,因此很大程度上与图像内容相关,可代替人工标签用于图像检索。通过集合群体的智慧,使用由用户提供的社会标签,不仅轻松解决了有监督深度学习中标签匮乏的难题,而且大大降低了获取标签数据的成本;此外社会标签由互联网用户从多方面内容进行标注,与仅使用类别概念的人工标签相比,更能从细粒度层面描述图像的语义内容,因此针对社会标签的深度学习图像检索方法具有很大的前景和研究价值。
但是由于互联网用户根据自己对图像的看法随意进行标注,所以会产生噪声标签(Noise Tag),缺失标签(Incomplete Tag)以及语义模糊标(Vagueness Tag)问题。如图2社会标签中黑框标签“c9”和“cute”等与对应图像并无视觉联系,属于噪声标签。缺失标签指的是存在图像目标没有被标注的情况,如图2第三张图中,并没有描述“蝴蝶”的标签。语义模糊标签指的是同义词,一词多义等问题,例如第二张图中的“rabbit”和“bunny”属于同义词标签。综上社会标签的问题,因此不可直接使用这些社会标签进行哈希学习和图像检索,需要首先进行标签的优化,即过滤噪声标签、补充缺失标签、减轻语义模糊标签的影响。
事实上,标签优化问题已经成为针对社会标签的哈希图像检索领域一个有趣但又具有挑战性的问题。一些标签优化算法已经被提出,“Li Z,Tang J.Weakly superviseddeep matrix factorization for social image understanding[J].IEEE Transactionson Image Processing,2016,26(1):276-288”提出一种弱监督深度矩阵分解算法,通过找出一个能够共同表示视觉结构和语义结构的潜在空间,在这个潜在空间中联合学习视觉结构和语义结构,从而去除噪声标签,补全缺失标签,进而实现基于标签的图像检索,都取得很好的结果。“Wang Q,Shen B,Wang S,et al.Binary codes embedding for fast imagetagging with incomplete labels[C]//European Conference on ComputerVision.Springer,Cham,2014:425-439”新颖地提出将图像和标签同时进行二进制的思维,通过迭代的方式来优化二进制码,然后计算图像的二进制码与标签的二进制码之间的距离,从而得到每个标签的预测得分。
虽然这些方法在标签处理方面取得了不错的成果,但这些方法中的所有标签对应的是整张图像,仍存在图像目标与标签的不对应关系的问题。如图2中的第一张图存在多个目标及多个社会标签,各个目标与各个标签的对应关系不明确。然而,由于图像的某一标签往往对应图像的某一区域,而不是整张图像,某个标签对于整张图像而言也许不是噪声标签,但是对于图像中的其他目标而言,也是某种程度的噪声。如图2中的“mouse”对于“cat”而言也是一种噪声标签,“mouset”的存在使得我们很难使用标签来准确提取图像中“cat”对应目标的语义信息。而精细化哈希学习的目标就是提取图像目标的语义信息,然后使得具有相同语义的目标生成较相似的哈希码,而具有不同语义的目标生成差别较大的哈希码,因此这种标签与图像目标的不确定关系不利于用户进行精细化图像检索。然而现有的标签优化方法中,有的只考虑过滤噪声标签,有的只能推荐缺失标签,虽然也有同时进行过滤噪声标签,补全缺失标签的,很大程度上进行了标签的优化,但是这些方法都没有考虑图像中每个目标与标签的对应关系,图像与标签的对应关系仍是模糊的。
发明内容
针对现有技术中的缺陷和不足,本发明提供了一种基于多任务深度学习的图像检索方法、模型及其构建方法,解决现有技术中存在的如下问题:(1)人工标签数量不足且人工标签不能从细粒度层面描述图像的语义内容。(2)现有的社会标签处理方法,只是单纯地过滤噪声标签,或者补全缺失标签,减轻语义模糊标签的影响,但是没有考虑标签与图像目标的对应关系,多个标签对应的是整张图像,很难使用这多个标签准确提取图像目标的语义信息,基于此标签最终学习的哈希码不能进行精细化图像检索。(3)现有的针对社会标签和多标签标注图像的哈希图像检索方法往往是独立执行标签优化学习和哈希学习两个任务,每次只考虑单个任务,网络模型只是学习适合于单个任务的表征,最终学习的模型泛化能力较差。
为达到上述目的,本发明采取如下的技术方案:
一种基于多任务深度学习的图像检索模型构建方法,该方法包括:
S1,对图像的社会标签进行预处理,获得语义类别标签;
S2,将图像和步骤S1得到的语义类别标签输入深度神经网络,输出每张图像所含region及region特征向量;
其中,矩阵P的第j行为图像xi的第j个region属于各个语义类别的概率;L为稀疏编码中得到的语义类别的数量,/>为图像xi的第j个region属于第b个语义类别的概率;对于每一个语义类别b,取所有region属于该语义类别的最大值,作为图像xi属于该语义类别的概率/>见公式(1):
以此类推得出图像xi属于L个语义类别的概率对于softmax层中得到的每个region属于各个语义类别的概率,取其中最大的值所对应的语义类别,作为该region所属语义类别/>见公式(2),其中/>为图像xi第j个region所属语义类别;
上述公式(1)和(2)得到了每张图像属于不同语义类别的概率以及图像每个region所属语义类别;
S4,根据S3得到的每张图像属于不同语义类别的概率以及每个region所属语义类别,分别进行标签优化学习和哈希学习;
S4.1,图像xi属于不同语义类别的概率pi应与图像xi最初的语义类别标签yi相似;从标签语义一致性引入平方损失函数:
min||pi-yi||2 (3);
其中,fg为语义类别g在所有语义类别标签Y={y1,y2,...,yN}中出现的次数;fg,h为语义类别g与语义类别h共同出现的次数;对于语义类别的相关性,设计损失函数:
针对标签语义与图像视觉的关系,设计损失函数:
其中为vj图像xj的SIFT视觉特征向量;
整合上述公式(3)(5)(6)得到损失函数Jt指导标签优化学习:
其中参数α和β用来平衡各个约束条件的影响;
S4.2,通过每个region所属语义类别指导网络hash的层进行哈希学习,使语义类别相同的region的哈希码距离较小,而属于不同语义类别的region的哈希码距离较大;设计如下损失函数进行哈希学习:
S5,采用随机梯度下降法使S4得到的损失函数收敛以优化网络参数,得到图像检索模型;
把公式(7)(8)整合到一起,得到最终的损失函数J,从而指导网络同时进行标签优化学习和哈希学习,并采用动量的随机梯度下降法进行参数优化:
采用公式(11)将上述标签优化学习和哈希学习的多任务学习公式化,γ用于调节两个损失函数所占的比重。
本发明还包括如下技术特征:
具体的,所述公式(11)对所有变量p与W不能同时保持凸性,采取迭代优化算法,即固定p,更新W;然后固定W,更新p;
采取迭代优化算法,具体更新方法如下:
固定W,更新p以最小批次S来训练图像,在最小批次S中,pi更新方式如下:
经过上述参数优化能学习得到图像xi所含目标的准确的哈希码。
一种基于多任务深度学习的图像检索模型,包括:
标签预处理模块,用于对图像的社会标签进行预处理,获得语义类别标签;
图像所含region及region特征向量提取模块,用于将图像及其语义类别标签输入深度神经网络,输出每张图像所含region及region特征向量;
每张图像属于不同语义类别的概率以及每个region所属语义类别获取模块,用于将region特征向量输入网络结构的softmax层,得到n*L维的矩阵,得到图像xi的第j个region属于第b个语义类别的概率;进而得到每个region属于各个语义类别的概率;
多任务学习模块,对region特征向量进行标签优化学习包括并从标签语义的一致性、标签的共现关系以及标签与视觉的一致性三个角度引入损失函数进行标签优化学习;对region特征向量进行哈希学习包括通过各个region所属语义类别指导哈希学习;
参数优化模块,用于将约束标签优化学习和哈希学习的损失函数进行整合得到最终损失函数,从而优化网络参数得到图像检索模型。
一种基于多任务深度学习的图像检索方法,该方法包括如下步骤:
基于图像检索模型,获取I个图像中所有候选目标的准确的哈希码,得到I个图像的哈希码集;将所有目标哈希码进行二进制K-means聚类,得到K个目标哈希码集合,将每个目标哈希码集合的聚类中心作为关键码Key,得到K个关键码Key,每个关键码Key对应设有一个链表,即得到和K个关键码Key一一对应的K个链表;将每个图像的图像ID和每个图像中所有目标哈希码组成的哈希码集作为节点放入每个图像中每个候选目标所对应的关键码Key后的链表中;得到索引数据库;
提取待检索图像中的兴趣目标为多个兴趣目标时,将每个兴趣目标分别映射为目标哈希码,得到待检索图像的哈希码集;将每个目标哈希码输入索引数据库中找到每个目标哈希码所对应的关键码Key;提取关键码Key所对应的链表并计算交集;然后计算交集与待检索图像哈希码集的联合汉明距离,将汉明距离最小的前N张图像返回给用户,N为大于等于1的自然数。
本发明与现有技术相比,有益的技术效果是:
1.本发明使用的是语义更丰富的社会标签,并针对社会标签存在的问题提出一个新颖的标签优化学习方法。与一般的方法不同,本发明的方法不只是处理标签存在的某个问题,而是利用一个端到端的框架,在提取用户感兴趣目标的基础上,充分考虑标签与标签的关系,以及标签与视觉内容的关系,提出多方面约束的损失函数来指导标签优化学习,全面地处理标签存在的噪声,语义模糊,标签缺失以及图像目标与标签的不对应关系等多个问题。
2.本发明提出一个多任务深度学习框架,同时进行标签优化学习和哈希学习,两个学习相互促进,一方面利用学习的标签为哈希学习提供语义指导,另一方面哈希作为正则化项也会约束标签的优化。另外,本发明设计了一个联合损失函数来共同指导标签学习和哈希学习,并使用动量的随机梯度下降法进行网络参数的优化,从而最终得到图像中的每个目标精细化的哈希表达。
附图说明
图1本发明流程图;
图2社会标签示意图;
图3本发明网络架构图(本发明基于VGG16网络,fc8,fc9,softmax层与hash层为新加层,L为标签的语义类别数量,n为从图像中提取的region数量,h为哈希码位数)。
图4为不同模块有效性验证实验中汉明距离为2内的,对应不同哈希码长度的精度曲线图;
图5为不同模块有效性验证实验中对应不同哈希码长度的precision@500曲线图;
图6为不同方法有效性验证实验中汉明距离为2内的,对应不同哈希码长度的精度曲线图;
图7为不同方法有效性验证实验中对应不同哈希码长度的precision@500曲线图。
具体实施方式
由于互联网用户标注的标签(社会标签)可以描述图像的语义信息,因此可以用这些标签指导哈希学习。不幸的是,互联网用户标注的标签数据不仅存在噪声,标签缺失,语义模糊等问题,而且图像目标与标签之间没有明确的对应关系,很难使用这些标签准确提取图像中每个目标的语义信息,从而使得最终基于此标签学习的哈希码不能进行精细化图像检索。针对社会标签存在的问题,本发明依据标签与标签的关系,以及标签与图像视觉内容的关系,设计一个损失函数来指导标签的优化,在去除噪声标签,补全缺失标签,减少语义模糊标签的同时,并进一步精确地匹配每个图像区域的对应标签,从而用这些标签为哈希学习提供更精确地语义指导。其次,为了高效地进行标签优化学习和哈希学习,我们提出一个端到端的联合学习框架,在标签学习的同时也进行哈希学习,两种学习相互受益。最后,我们设计一个损失函数来共同指导标签学习和哈希学习,并使用动量的随机梯度下降法进行网络参数的优化,从而最终得到图像中的每个目标精细化的哈希表达。
本发明公开了一种基于多任务深度学习的图像检索模型构建方法,如图1和3所示,包括以下步骤:
S1,对图像的社会标签进行预处理,获得语义类别标签:
采用word2vec方法将互联网用户提供的社会标签向量化,将每个标签表示为一个200维的向量;
采用稀疏编码的方法将上述得到的标签向量稀疏化,然后对每张图像的所有标签进行平均池化操作,主要目的是减轻噪声标签,以及语义模糊标签的影响。最终得到图像的语义类别标签yi,yi中各个元素的大小表示的是该语义类别在图像xi中的强度,数值越大,说明此语义类别与图像语义内容越相关;
S2,将图像和步骤S1得到的语义类别标签输入深度神经网络,输出每张图像所含region及region特征向量:
经过VGG16的conv1-conv5得到整张图像的conv feature map,接着采用Selective Search Windows(SSW)提取图像的region proposal,得到n个region,
将上述得到的整张图像的conv feature map和图像的n个region输入SPP层,通过整张图像的conv feature map映射得到统一输出21*512=10752维的region features,作为后续fc6全连接层的输入;
S3,将S2得到的region特征向量输入网络的softmax层,图像xi的n个region经过fc8之后得到1024维的特征向量,接着将这1024维的region特征向量输入网络结构的softmax层,便得到一个n*L维的矩阵,其中矩阵P的第j行为图像xi的第j个region属于各个语义类别的概率。ri j中,L为稀疏编码中得到的语义类别的数量,/>为图像xi的第j个region属于第b个语义类别的概率。为了快递找到包含图像目标的region,这里设置阈值为0.5,如果ri j所包含的元素均小于0.5,则认为第j个region不包含图像目标,应该删除,最终得到s个region;
确定图像xi属于不同语义类别的概率,及图像s个region所属语义类别;
具体地,对于每一个语义类别b,我们取所有region属于该语义类别的最大值,作为图像xi属于该语义类别的概率见公式(1)。依次类推,从而求出图像xi属于L个语义类别的概率/>另外,对于softmax中得到的每个region属于各个语义类别的概率,我们取其中最大的值所对应的类别,作为该region所属类别/>见公式(2),其中/>为图像xi第j个region所属语义类别;
上述公式(1)和(2)得到了每张图像属于不同语义类别的概率以及图像每个region所属语义类别;
S4,根据S3得到的每张图像属于不同语义类别的概率以及每个region所属语义类别,分别进行标签优化学习和哈希学习;
S4.1,通过softmax学习结果得到的图像xi属于各个语义类别的概率pi,应与图像xi最初的语义类别标签yi相似。也就是说,如果某个语义类别在yi中的数值越大,说明该语义类别与图像的相关度越大,那么最终学习的图像xi属于该语义类别的概率也应该更大。对于这个条件,通过平方损失来进行约束。
min||Pi-yi||2 (3)
其中,fg表示语义类别g在所有语义类别标签Y={y1,y2,...,yN}中出现的次数(如果此语义类别在图像中对应的强度数值大小不为0,就认为该语义类别出现)。fg,h表示语义类别g与语义类别h共同出现的次数。对于语义类别的相关性,增加如下约束:
其中为图像xi属于第h个语义类别的概率。B=ER-R,为半正定的拉普拉斯矩阵,E为对角阵,大小为/>公式(5)的主要作用是,在初始语义类别标签yi中,如果语义类别g和h的相关度较高(Rgh的取值较大),那么最终学习的图像xi属于这两个语义类别的概率/>与/>也应该更接近,从而补充缺失的语义标签。
最后,有相同视觉内容的图像,它们的语义标签往往更接近,因此图像的视觉内容在一定程度上也可以反映图像的语义信息。基于此,对于视觉内容相似的图像xi和图像xj,最终学习的这两张图像的语义分布也应该更接近,即这两张图像属于各个语义类别的概率分布也应该更接近。针对标签语义与图像视觉的关系,提出如下约束条件:
其中为vj图像xj的SIFT视觉特征向量。
整合上述公式(3)(5)(6)得到Jt来指导标签优化学习:
其中参数α和β用来平衡各个约束条件的影响。公式(7)从语义标签与语义标签的关系,以及语义标签与视觉内容的关系两方面来指导标签优化学习,以过滤噪声标签,补充缺失标签,同时根据最终学习到的语义类别概率,进而确定每个region的对应标签(公式2)。
S4.2通过网络的hash层进行哈希学习,以得到每个region的哈希码;
因为标签反映了图像所包含的语义信息,因此我们可以用图像的标签来指导哈希学习。我们通过上述学习得到的各个region所属语义类别来指导哈希学习,使得语义类别相同的region的哈希码距离较小,而属于不同语义类别的region的哈希码距离较大。基于此,我们提出如下约束进行哈希学习:
其中,表示图像xi第u个/>所属语义类别,/>表示图像xi第u个region所对应的哈希码。公式(8)的目的是,若两个region(/>与/>)属于相同语义类别,则这两个region所对应的哈希码/>与/>应尽可能接近。否则,这两个region所对应哈希码的距离应该至少大于λ。
本发明学习图像中每个region的哈希码时,采用“Lin K,Yang H F,Hsiao J H,etal.Deep learning of binary hash codes for fast image retrieval[C]//2015IEEEConference on Computer Vision and Pattern Recognition Workshops(CVPRW).IEEE,2015.”所提方法,激活函数为sigmoid(·),计算方法如下:
公式(9)中是图像xi第u个region的近似哈希码,fi u是图像xi第u个region的特征向量,/>(h是哈希码长度)和/>是σ(·)的参数。对于/>的每一位输出/>通过公式(10)得到每个region的哈希码。
S5,采用随机梯度下降法使S4得到的损失函数收敛以优化网络参数,得到图像检索模型;
把公式(7)(8)整合到一起,得到最终的损失函数J,从而指导网络同时进行标签优化学习和哈希学习,并采用动量的随机梯度下降法进行网络的优化;
γ用来调节两个损失函数所占的比重。公式(11)对所有变量p与W不能同时保持凸性,为了解决这个问题,本发明采取迭代优化算法,即固定p,更新W;然后固定W,更新p。具体更新方法如下:
固定W,更新p本发明以最小批次S来训练图像,在最小批次S中,pi更新方式如下:
经过上述网络的优化学习,便可最终学习得到图像xi所含目标的哈希码。
得到图像xi所含s个目标的哈希码之后,就可得到整张图像对应的hashlist,将所有图像的hashlist存于哈希库用于检索,本发明所提方法支持更加丰富的检索方式,可以采用“Zhao W,Guan Z,Luo H,et al.Deep Multiple InstanceHashing for Object-based Image Retrieval[C]//IJCAI.2017:3504-3510.”所提方法进行单目标图像检索与多目标图像检索。
本发明还提供一种基于多任务深度学习的图像检索模型,包括:
标签预处理模块,用于对图像的社会标签进行预处理,获得语义类别标签;
图像所含region及region特征向量提取模块,用于将图像及其语义类别标签输入深度神经网络,输出每张图像所含region及region特征向量;
每张图像属于不同语义类别的概率以及每个region所属语义类别获取模块,用于将region特征向量输入网络结构的softmax层,得到n*L维的矩阵,得到图像xi的第j个region属于第b个语义类别的概率;进而得到每个region属于各个语义类别的概率;
多任务学习模块,对region特征向量进行标签优化学习包括并从标签语义的一致性、标签的共现关系以及标签与视觉的一致性三个角度引入损失函数进行标签优化学习;对region特征向量进行哈希学习包括通过各个region所属语义类别指导哈希学习;
参数优化模块,用于将约束标签优化学习和哈希学习的损失函数进行整合得到最终损失函数,从而优化网络参数得到图像检索模型。
本发明还提供一种基于多任务深度学习的图像检索方法,该方法包括如下步骤:
基于图像检索模型,获取I个图像中所有候选目标的准确的哈希码,得到I个图像的哈希码集;将所有目标哈希码进行二进制K-means聚类,得到K个目标哈希码集合,将每个目标哈希码集合的聚类中心作为关键码Key,得到K个关键码Key,每个关键码Key对应设有一个链表,即得到和K个关键码Key一一对应的K个链表;将每个图像的图像ID和每个图像中所有目标哈希码组成的哈希码集作为节点放入每个图像中每个候选目标所对应的关键码Key后的链表中;得到索引数据库;
提取待检索图像中的兴趣目标为多个兴趣目标时,将每个兴趣目标分别映射为目标哈希码,得到待检索图像的哈希码集;将每个目标哈希码输入索引数据库中找到每个目标哈希码所对应的关键码Key;提取关键码Key所对应的链表并计算交集;然后计算交集与待检索图像哈希码集的联合汉明距离,将汉明距离最小的前N张图像返回给用户,N为大于等于1的自然数。
实验验证:
一般的图像检索方法中判定两张图像是否相似的评价指标是:查询图像与返回图像只要有一个共同的标签,那就认为两张图像相似。这种对比方法太过粗糙,为了更加公平公正地比较最终的图像检索结果,本文制定了更加严格的评定方法:只有当查询图像与返回图像所有的标签都相同时,那么这两张图像才相似。
(一)不同模块的评估:
为了验证本发明所提图像检索方法STJHL中哈希学习,标签学习以及联合优化学习的有效性,我们首先去掉图3网络结构中的哈希层,使用CNN网络的fc8输出的特征向量进行图像检索(我们称其为STJHL-h),然后通过比较两个图像目标特征向量间的欧式距离来进行相似度判断,以验证哈希学习的有效性。接着,我们删除公式(7)中标签优化学习的损失函数,只保留哈希学习的损失函数,从而直接使用户提供的原始标签指导哈希学习(我们称其为STJHL-t),以验证本发明标签优化学习的有效性。最后我们分两步分别进行标签优化学习和哈希学习(我们称其为STJHL-u),以验证本发明联合优化学习的有效性。
图4和图5为上述实验在NUS-WIDE数据集上的实验结果。其中图4为汉明距离为2内的,对应不同哈希码长度的精度曲线图,图5为对应不同哈希码长度的precision@500曲线图。从图4和5的实验结果中我们可以看到,在所有的检索方法中STJHL-t的实验结果最差,说明互联网用户提供的社会标签不可直接用于图像检索,需要进行标签优化处理。除STJHL-t之外,其次是STJHL-h的性能较差,说明神经网络提取的图像目标特征向量不适合用于图像检索,证明了本发明哈希学习的有效性。最终,和我们预想的一致,STJHL-u的性能表现不如STJHL,说明标签优化学习和哈希学习相互影响,相互补充,证明了本发明联合学习框架的有效性。
(二)不同方法的评估:
为了进一步验证本发明图像检索方法的性能,我们将本发明的图像检索方法与当前主流的图像检索方法进行对比,主要包括:LSH[1],KSH[2],WP_DSH[3],WP_KSH[3],WP_DRSCH[3],DRSCH[4],DeepBit[5],DSH[6]。为了公平地评比,对于所有基于CNN网络架构的检索方法,例如:DeepBit,DSH,DRSCH,WP_DSH,WP_KSH,WP_DRSCH等方法,本发明都使用在ImageNet上预训练的VGG16模型作为这些检索方法的基本网络。对于使用底层视觉特征(LSH,KSH)的检索方法,本发明统一将预训练的VGG16的最后一层全连接层的输出特征向量作为这些检索方法的输入特征。此外,在实验过程中,本发明都采用这些方法给出的最优参数值。
图6和图7分别为为这些图像检索方法在NUS-WIDE数据集上的实验结果,其中图6为汉明距离小于等于2时对应不同哈希码长度的精度曲线图,图7为对应不同哈希码长度的precision@500曲线图,为了进行定量评估,在实验过程中哈希码位数从8变到64。
从图6和图7中我们可以明显看出,本发明的STJHL方法的性能超过了其他所有方法,证明本发明所提方法对图像的强表征能力与编码能力。我们来详细分析一下这些图像检索方法的结果,首先,无监督的检索方法LSH,DeepBit由于学习过程中无标签数据的指导,所以效果最差,在意料之中。其次,STJHL方法超越了主流的有监督的检索方法KSH,DSH,DRSCH,这是因为互联网用户提供的社会标签包含更丰富的,更细粒度的语义信息,能够更好地表示图像之间的细粒度的差别,而这些有监督的检索方法使用的标签数据提供的是粗粒度的语义信息,不能充分描述图像的细节信息,导致神经网络学习中忽视了这部分信息的存在,从而网络最终学习的图像特征表征能力不强。最后,本发明的STJHL方法超越了主流的弱监督图像检索方法WP_DSH,WP_KSH以及WP_DRSCH的性能,这是因为本发明的STJHL方法同时考虑了标签优化学习和哈希学习,两个学习相互补充,得到的哈希码表征能力更强。而且,不同于这些图像检索方法的哈希学习方式,本发明的STJHL方法学习的是基于图像目标的哈希码,基于图像中每个目标所对应标签的语义信息,为图像中每个目标生成区别能力更强的哈希码,从而最终提高检索性能。
[1]Indyk P.Approximate nearest neighbor:Towards removing the curseofdimensionality[C]//Proc.30th Symposium on Theory of Computing,1998.1998.
[2]Liu W,Wang J,Ji R,et al.Supervised hashing with kernels[C]//2012IEEE Conferenceon Computer Vision and Pattern Recognition.IEEE,2012:2074-2081
[3]Guan Z,Xie F,Zhao W,et al.Tag-based Weakly-supervised Hashing forImageRetrieval[C]//IJCAI.2018:3776-3782
[4]Zhang R,Lin L,Zhang R,et al.Bit-scalable deep hashing withregularized similaritylearning for image retrieval and person re-identification[J].IEEE Transactions on ImageProcessing,2015,24(12):4766-4779.
[5]Lin K,Lu J,Chen C S,et al.Learning Compact Binary Descriptors withUnsupervisedDeep Neural Networks[C]//CVPR.IEEE,2016.
[6]Liu H,Wang R,Shan S,et al.Deep supervised hashing for fastimageretrieval[C]//Proceedings of the IEEE conference on computer vision andpatternrecognition.2016:2064-2072。
Claims (4)
1.一种基于多任务深度学习的图像检索模型构建方法,其特征在于,该方法包括:
S1,对图像的社会标签进行预处理,获得语义类别标签;社会标签是互联网用户标注的标签以描述图像的语义信息;
S2,将图像和步骤S1得到的语义类别标签输入深度神经网络,输出每张图像所含region及region特征向量;
其中,矩阵P的第j行为图像xi的第j个region属于各个语义类别的概率;L为稀疏编码中得到的语义类别的数量,/>为图像xi的第j个region属于第b个语义类别的概率;对于每一个语义类别b,取所有region属于该语义类别的最大值,作为图像xi属于该语义类别的概率/>见公式(1):
以此类推得出图像xi属于L个语义类别的概率对于softmax层中得到的每个region属于各个语义类别的概率,取其中最大的值所对应的语义类别,作为该region所属语义类别/>见公式(2),其中/>为图像xi第j个region所属语义类别;
上述公式(1)和(2)得到了每张图像属于不同语义类别的概率以及图像每个region所属语义类别;
S4,根据S3得到的每张图像属于不同语义类别的概率以及每个region所属语义类别,分别进行标签优化学习和哈希学习;
S4.1,图像xi属于不同语义类别的概率pi应与图像xi最初的语义类别标签yi相似;从标签语义一致性引入平方损失函数:
min||pi-yi||2 (3);
其中,fg为语义类别g在所有语义类别标签Y={y1,y2,...,yN}中出现的次数;fh为语义类别h在所有语义类别标签Y={y1,y2,...,yN}中出现的次数;fg,h为语义类别g与语义类别h共同出现的次数;对于语义类别的相关性,设计损失函数:
针对标签语义与图像视觉的关系,设计损失函数:
其中Vi是图像xi的SIFT视觉特征向量,vj为图像xj的SIFT视觉特征向量;
整合上述公式(3)(5)(6)得到损失函数Jt指导标签优化学习:
其中参数α和β用来平衡各个约束条件的影响;
S4.2,通过每个region所属语义类别指导网络hash的层进行哈希学习,使语义类别相同的region的哈希码距离较小,而属于不同语义类别的region的哈希码距离较大;设计如下损失函数进行哈希学习:
S5,采用随机梯度下降法使S4得到的损失函数收敛以优化网络参数,得到图像检索模型;
把公式(7)(8)整合到一起,得到最终的损失函数J,从而指导网络同时进行标签优化学习和哈希学习,并采用动量的随机梯度下降法进行参数优化:
采用公式(11)将上述标签优化学习和哈希学习的多任务学习公式化,γ用于调节两个损失函数所占的比重。
2.如权利要求1所述的基于多任务深度学习的图像检索模型构建方法,其特征在于,计算图像中每个region的哈希码方法如下:
公式(9)中是图像xi第u个region的近似哈希码,/>是图像xi第u个region的特征向量,和/>是σ(·)的参数,h是哈希码长度,对于/>的每一位输出/>通过公式(10)得到每个region的哈希码;
所述公式(11)对所有变量p与W不能同时保持凸性,采取迭代优化算法,即固定p,更新W;然后固定W,更新p;
采取迭代优化算法,具体更新方法如下:
固定W,更新p以最小批次S来训练图像,在最小批次S中,pi更新方式如下:
经过上述参数优化能学习得到图像xi所含目标的准确的哈希码。
3.一种基于多任务深度学习的图像检索装置,其特征在于,该装置基于权利要求1所述的基于多任务深度学习的图像检索模型构建方法实现,包括:
标签预处理模块,用于对图像的社会标签进行预处理,获得语义类别标签;
图像所含region及region特征向量提取模块,用于将图像及其语义类别标签输入深度神经网络,输出每张图像所含region及region特征向量;
每张图像属于不同语义类别的概率以及每个region所属语义类别获取模块,用于将region特征向量输入网络结构的softmax层,得到n*L维的矩阵,得到图像xi的第j个region属于第b个语义类别的概率;进而得到每个region属于各个语义类别的概率;
多任务学习模块,对region特征向量进行标签优化学习包括并从标签语义的一致性、标签的共现关系以及标签与视觉的一致性三个角度引入损失函数进行标签优化学习;对region特征向量进行哈希学习包括通过各个region所属语义类别指导哈希学习;
参数优化模块,用于将约束标签优化学习和哈希学习的损失函数进行整合得到最终损失函数,从而优化网络参数得到图像检索模型。
4.一种基于多任务深度学习的图像检索方法,其特征在于,该方法基于权利要求3所述的基于多任务深度学习的图像检索装置实现,该方法包括如下步骤:
基于图像检索装置,获取I个图像中所有候选目标的准确的哈希码,得到I个图像的哈希码集;将所有目标哈希码进行二进制K-means聚类,得到K个目标哈希码集合,将每个目标哈希码集合的聚类中心作为关键码Key,得到K个关键码Key,每个关键码Key对应设有一个链表,即得到和K个关键码Key一一对应的K个链表;将每个图像的图像ID和每个图像中所有目标哈希码组成的哈希码集作为节点放入每个图像中每个候选目标所对应的关键码Key后的链表中;得到索引数据库;
提取待检索图像中的兴趣目标为多个兴趣目标时,将每个兴趣目标分别映射为目标哈希码,得到待检索图像的哈希码集;将每个目标哈希码输入索引数据库中找到每个目标哈希码所对应的关键码Key;提取关键码Key所对应的链表并计算交集;然后计算交集与待检索图像哈希码集的联合汉明距离,将汉明距离最小的前N张图像返回给用户,N为大于等于1的自然数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010142292.8A CN111460200B (zh) | 2020-03-04 | 2020-03-04 | 基于多任务深度学习的图像检索方法、模型及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010142292.8A CN111460200B (zh) | 2020-03-04 | 2020-03-04 | 基于多任务深度学习的图像检索方法、模型及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460200A CN111460200A (zh) | 2020-07-28 |
CN111460200B true CN111460200B (zh) | 2023-07-04 |
Family
ID=71680088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010142292.8A Active CN111460200B (zh) | 2020-03-04 | 2020-03-04 | 基于多任务深度学习的图像检索方法、模型及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460200B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000827A (zh) * | 2020-08-27 | 2020-11-27 | 广州搜料亿网络科技有限公司 | 一种基于深度学习的五金图像检索方法及系统 |
CN112559781B (zh) * | 2020-12-10 | 2023-04-07 | 西北大学 | 一种图像检索系统和方法 |
CN113032612B (zh) * | 2021-03-12 | 2023-04-11 | 西北大学 | 一种多目标图像检索模型的构建方法及检索方法和装置 |
CN113377981B (zh) * | 2021-06-29 | 2022-05-27 | 山东建筑大学 | 基于多任务深度哈希学习的大规模物流商品图像检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679250A (zh) * | 2017-11-01 | 2018-02-09 | 浙江工业大学 | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 |
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
CN110516095A (zh) * | 2019-08-12 | 2019-11-29 | 山东师范大学 | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039239B2 (en) * | 2002-02-07 | 2006-05-02 | Eastman Kodak Company | Method for image region classification using unsupervised and supervised learning |
US10120879B2 (en) * | 2013-11-29 | 2018-11-06 | Canon Kabushiki Kaisha | Scalable attribute-driven image retrieval and re-ranking |
US10019657B2 (en) * | 2015-05-28 | 2018-07-10 | Adobe Systems Incorporated | Joint depth estimation and semantic segmentation from a single image |
CN108694200B (zh) * | 2017-04-10 | 2019-12-20 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN108829826B (zh) * | 2018-06-14 | 2020-08-07 | 清华大学深圳研究生院 | 一种基于深度学习和语义分割的图像检索方法 |
CN110059206A (zh) * | 2019-03-29 | 2019-07-26 | 银江股份有限公司 | 一种基于深度表征学习的大规模哈希图像检索方法 |
CN110298228A (zh) * | 2019-04-25 | 2019-10-01 | 西北大学 | 一种多目标图像检索方法 |
CN110795590B (zh) * | 2019-09-30 | 2023-04-18 | 武汉大学 | 基于直推式零样本哈希的多标签图像检索方法及设备 |
-
2020
- 2020-03-04 CN CN202010142292.8A patent/CN111460200B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679250A (zh) * | 2017-11-01 | 2018-02-09 | 浙江工业大学 | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 |
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
CN110516095A (zh) * | 2019-08-12 | 2019-11-29 | 山东师范大学 | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 |
Non-Patent Citations (4)
Title |
---|
Zheng Zhang ; Qin Zou ; Yuewei Lin et al ; .Improved Deep Hashing With Soft Pairwise Similarity for Multi-Label Image Retrieval. IEEE Transactions on Multimedia.2019,第540-553页. * |
Ziyu Guan ; Fei Xie ; Wanqing Zhao et al..Tag-based Weakly-supervised Hashing for Image Retrieval.Proceedings of the Twenty-Seventh International Joint Conference on Artifical Intelligence(IJCAI-18)).2018,第3776-3782页. * |
一种基于混合特征核的图像检索方法;王琪;彭进业;郭珊珊;;计算机工程与应用;第168-171,206页 * |
目标提取与哈希机制的多标签图像检索;陈飞;吕绍和;李军;王晓东;窦勇;;中国图象图形学报(02);第232-240页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111460200A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ruby et al. | Binary cross entropy with deep learning technique for image classification | |
CN111460200B (zh) | 基于多任务深度学习的图像检索方法、模型及其构建方法 | |
Azadi et al. | Auxiliary image regularization for deep cnns with noisy labels | |
CN108038122B (zh) | 一种商标图像检索的方法 | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
AU2017101803A4 (en) | Deep learning based image classification of dangerous goods of gun type | |
CN113657425A (zh) | 基于多尺度与跨模态注意力机制的多标签图像分类方法 | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN110647907A (zh) | 利用多层分类和字典学习的多标签图像分类算法 | |
Liu et al. | Dicnet: Deep instance-level contrastive network for double incomplete multi-view multi-label classification | |
Xu et al. | ESA-VLAD: A lightweight network based on second-order attention and NetVLAD for loop closure detection | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
Tropea et al. | Classifiers comparison for convolutional neural networks (CNNs) in image classification | |
Chen et al. | Visual-based deep learning for clothing from large database | |
Almisreb et al. | Arabic Handwriting Classification using Deep Transfer Learning Techniques. | |
Saqib et al. | Intelligent dynamic gesture recognition using CNN empowered by edit distance | |
Gao et al. | An improved XGBoost based on weighted column subsampling for object classification | |
Zhao et al. | Domain adaptation with feature and label adversarial networks | |
Li et al. | Otcmr: Bridging heterogeneity gap with optimal transport for cross-modal retrieval | |
CN113590819B (zh) | 一种大规模类别层级文本分类方法 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114020920A (zh) | 一种基于图卷积网络的多标签文本分类方法 | |
Boudraa et al. | Combination of local features and deep learning to historical manuscripts dating | |
CN110163106A (zh) | 一体式纹身检测与识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |