CN110275972A - 一种引入对抗训练的基于内容的实例检索方法 - Google Patents

一种引入对抗训练的基于内容的实例检索方法 Download PDF

Info

Publication number
CN110275972A
CN110275972A CN201910520591.8A CN201910520591A CN110275972A CN 110275972 A CN110275972 A CN 110275972A CN 201910520591 A CN201910520591 A CN 201910520591A CN 110275972 A CN110275972 A CN 110275972A
Authority
CN
China
Prior art keywords
picture
model
data set
training
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910520591.8A
Other languages
English (en)
Inventor
白琮
李宏凯
黄玲
黄远
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910520591.8A priority Critical patent/CN110275972A/zh
Publication of CN110275972A publication Critical patent/CN110275972A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种引入对抗训练的基于内容的实例检索方法,包括以下步骤:步骤一、网络构建;步骤二、数据集预处理;步骤三、网络训练;步骤四、评价检索测试。在特征提取步骤结束后,在检索步骤中引入对抗训练。给定查询图像以及数据库图像的特征向量,生成器和判别器能够通过最大化最小化对抗训练来提高双方的性能:生成器模型能够找出和查询图像拥有相同实例目标且相似度最高的前k张图片,判别器模型能够最大程度的判断生成器输出的前k张图片和查询图片是否相似。本发明解决了深度学习中面临的训练过程中需要大量标注信息的问题,同时也是生成对抗网络在实例级图像检索任务中的一次成功实现。

Description

一种引入对抗训练的基于内容的实例检索方法
技术领域
本发明涉及计算机视觉领域的多媒体大数据处理与分析,特别涉及对抗训练和基于区域的实例检索方法,属于实例级的图像检索领域。
背景技术
随着网络共享技术的发展和海量图像的产生,越来越多的图片能够被实时分享。传统的图像检索技术已经不适用于实例级的图像检索,近年来随着深度学习的发展,深度特征对图像内容已经可以精确表达,而且基于内容提议的实例检索方法更是可以将实例目标精确的表达出来,让实例检索性能有很大程度的提升。但是这种提升优化都是在特征提取的过程中,而在检索过程中还在使用传统的计算距离进行排序。
发明内容
在实例级检索过程中,为了克服区域提议网络中特征提取优化的瓶颈问题,本发明提供了一种在检索过程中引入对抗训练进行优化检索效果的基于内容的实例检索方法。
本发明解决其技术问题所采用的技术方案是:
一种引入对抗训练的基于内容的实例检索方法,所述方法包括以下步骤:
步骤一、网络构建,过程如下:
步骤1.1:该对抗检索网络框架由一个生成模型和一个判别模型两部分组成。生成模型和判别模型都是由一层的1X1卷积网络构成;
步骤1.2:生成模型的一层的1X1卷积层后接Relu激活函数;
步骤1.3:生成模型的Relu激活函数后接距离度量函数;
步骤1.4:生成模型的输出结果作为判别模型的输入;
步骤1.5:判别模型的一层的1X1卷积层后接Relu激活函数;
步骤1.6:判别模型的Relu激活函数后接相似性得分函数;
步骤1.7:判别模型把计算出的相似性得分反馈到生成模型中;
步骤二、数据集预处理;
步骤三、网络训练,过程如下:
步骤3.1:用随机权值初始化生成模型和判别模型参数;
步骤3.2:训练生成模型,过程如下:
步骤3.2.1:生成模型通过1X1卷积层对输入的查询数据集Q和数据库数据集D的特征进行进一步权值优化;
步骤3.2.3:针对每一张查询图片,生成模型计算其与数据库数据集中的所有图片的余弦距离,最后利用softmax函数根据图像间的距离转化成图片相似性概率,根据概率高低从待检索数据集D中选择前K张图片特征作为生成器的输出;
步骤3.2.4:用Adam算法最小化损失函数;
步骤3.3:训练判别模型,过程如下:
步骤3.3.1:将生成器返回的前K张的图片特征以及查询图像的特征作为判别器的输入,并通过1X1卷积层重新对查询图片和生成器返回的前K张图片的特征进行进一步权值优化;
步骤3.3.2:重新计算每一个查询图片和返回的前K张图片之间的余弦距离,并根据距离给出相似性得分;
步骤3.3.3:判别器将计算出的相似性得分反馈到生成器中,直接作用于生成器的损失函数,从而影响接下来对待检索图片的选择;
步骤3.4:用随机梯度下降算法最小化损失函数;
步骤四、评价检索测试,过程如下:
步骤4.1:将预处理好的测试数据集Q’送入训练完成的最优生成器模型;
步骤4.2:生成器针对给定的查询图片,从数据库数据集D中检索出前K张拥有相同实例目标的图片。
进一步,所述步骤四还包括:
步骤4.3:核对查询图片的标签和生成器返回的前K张图片的标签是否一致,根据信息检索中的评价准则计算所有问询图片的平均准确率。
再进一步,所述步骤二中,数据集预处理的过程如下:
步骤2.1:将使用的图片数据分为查询数据集Q、测试数据集Q’和数据库数据集D三部分;
步骤2.2:将相应图片数据输入Bow/CNN/R-MAC神经网络中,得到相应数据集的特征向量;
步骤2.3:将图片的特征向量集合输入对抗检索网络中进行检索过程中的对抗训练。
本发明的有益效果主要表现在:本发明提出一种引入对抗训练的基于内容的实例检索方法。在特征提取步骤结束后,在检索步骤中引入对抗训练。给定查询图像以及数据库图像的特征向量,生成器和判别器能够通过最大化最小化对抗训练来提高双方的性能:生成器模型能够找出和查询图像拥有相同实例目标且相似度最高的前k张图片,判别器模型能够最大程度的判断生成器输出的前k张图片和查询图片是否相似。该方法解决了深度学习中面临的训练过程中需要大量标注消息的问题,同时也是生成对抗网络在实例级图像检索任务中的一次成功实现。
附图说明
图1是本发明用到的引入对抗训练的基于内容的实例检索方法框架示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种引入对抗训练的基于内容的实例检索方法,所述方法包括对抗训练网络的构建、数据集预处理、网络训练和评价检索测试四个过程。
本实施案例中的图片来自Oxford数据集,分为11个类。其中包含55张测试数据集图片Q’和5063数据库数据集图片D。在每类图片中我们选择标签为ok和good的总共挑选了512张照片作为查询数据集图片Q。基于内容的实例检索网络结构框架如图1所示,操作步骤包括网络的构建、数据集预处理、网络训练和图片检索测试四个过程。
所述引入对抗训练的基于内容的实例检索方法包括以下步骤:
步骤一、网络构建,过程如下:
步骤1.1:该对抗网络框架由一个生成模型和一个判别模型两部分组成。生成模型和判别模型都是由一层的1X1卷积网络构成;
步骤1.2:生成模型的1X1卷积层神经元个数设为2048,权值为W_1,定义为浮点型变量,偏置为b_1,定义为浮点型变量,后接Relu激活函数,再后接距离度量函数;
步骤1.3:判别模型的1X1卷积层神经元个数设为2048,权值为W_2,定义为浮点型变量,偏置为b_2,定义为浮点型变量,后接Relu激活函数,再后接相似性得分函数;
步骤1.4:判别模型把计算出的相似性得分以生成器损失函数权值的形式反馈到生成模型中;
步骤二、数据集预处理,过程如下:
步骤2.1:图片数据被分为查询数据集Q,测试数据集Q’和数据库数据集D三部分;
步骤2.2:用Bow/CNN/R-MAC神经网络提取查询数据集Q和数据库数据集D对应的特征向量,保存成TXT格式的文件;
步骤三、网络训练,过程如下:
步骤3.1:用随机权值初始化生成模型和判别模型中的参数;设定生成模型每迭代10次,判别模型迭代10次为一次完整的网络训练,总共进行10次完整的训练;
步骤3.2:训练生成模型;
步骤3.2.1:设定学习率为0.00001,K为500;
步骤3.2.1:将TXT格式的查询数据集Q和数据库数据集D特征向量作为生成模型的输入送入到网络中;
步骤3.2.2:生成模型利用一层的1X1卷积层网络对输入查询数据集Q和数据库数据集D的特征进行进一步权值优化;
步骤3.2.3:针对每一张查询图片,生成模型计算其与数据库数据集中的所有图片的余弦距离,最后利用softmax函数根据图像间的距离转化成图片相似性概率,根据概率高低从待检索数据集D中选择前500张图片特征作为生成器的输出;
步骤3.2.4:用Adam算法最小化损失函数,迭代10次。根据生成器输出的图片序列计算所有查询图片的平均准确精度,保存所有查询图片的平均准确精度最高时的生成网络模型;
步骤3.3:训练判别模型;
步骤3.3.1:设定学习率为0.00001;
步骤3.3.2:将生成器返回的500张的图片特征和查询图片特征作为判别器的输入,并通过1X1卷积层重新对查询图片和生成器返回的前500张图片的特征进行进一步权值优化;
步骤3.3.3:重新计算每一个哈讯图片和返回的500张图片之间的距离,并根据距离给出相似性得分;
步骤3.3.4:用随机梯度下降算法最小化损失函数,迭代10次,将最后一次判别器计算出的相似性得分反馈到生成器中,以损失函数权值形式直接作用于生成器的权值的参数优化;
步骤3.4:保存最优的生成器模型作为训练的输出;
步骤四、检索精度测试,过程如下:
步骤4.1:将预处理好的测试数据集Q’送入最优生成器模型中;
步骤4.2:生成器针对给定的查询图片,从数据库数据集D中选择前500张拥有相同实例目标的图片;
步骤4.3:比较查询图片的标签和生成器返回的前500张图片的标签是否一致,根据信息检索中的评价准则计算所有问询图片的平均准确率输出测试结果;
经过上述步骤的操作,即可实现针对图片的实例检索。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种引入对抗训练的基于内容的实例检索方法,其特征在于,所述方法包括以下步骤:
步骤一、网络构建,过程如下:
步骤1.1:该对抗检索网络框架由一个生成模型和一个判别模型两部分组成,生成模型和判别模型都是由一层的1X1卷积网络构成;
步骤1.2:生成模型的一层的1X1卷积层后接Relu激活函数;
步骤1.3:生成模型的Relu激活函数后接距离度量函数;
步骤1.4:生成模型的输出结果作为判别模型的输入;
步骤1.5:判别模型的一层的1X1卷积层后接Relu激活函数;
步骤1.6:判别模型的Relu激活函数后接相似性得分函数;
步骤1.7:判别模型把计算出的相似性得分反馈到生成模型中;
步骤二、数据集预处理;
步骤三、网络训练,过程如下:
步骤3.1:用随机权值初始化生成模型和判别模型参数;
步骤3.2:训练生成模型,过程如下:
步骤3.2.1:生成模型通过1X1卷积层对输入的查询数据集Q和数据库数据集D的特征进行进一步权值优化;
步骤3.2.3:针对每一张查询图片,生成模型计算其与数据库数据集中的所有图片的余弦距离,最后利用softmax函数根据图像间的距离转化成图片相似性概率,根据概率高低从待检索数据集D中选择前K张图片特征作为生成器的输出;
步骤3.2.4:用Adam算法最小化损失函数;
步骤3.3:训练判别模型,过程如下:
步骤3.3.1:将生成器返回的前K张的图片特征以及查询图像的特征作为判别器的输入,并通过1X1卷积层重新对查询图片和生成器返回的前K张图片的特征进行进一步权值优化;
步骤3.3.2:重新计算每一个查询图片和返回的前K张图片之间的余弦距离,并根据距离给出相似性得分;
步骤3.3.3:判别器将计算出的相似性得分反馈到生成器中,直接作用于生成器的损失函数,从而影响接下来对待检索图片的选择;
步骤3.4:用随机梯度下降算法最小化损失函数;
步骤四、评价检索测试,过程如下:
步骤4.1:将预处理好的测试数据集Q’送入训练完成的最优生成器模型;
步骤4.2:生成器针对给定的查询图片,从数据库数据集D中检索出前K张拥有相同实例目标的图片。
2.如权利要求1所述的一种引入对抗训练的基于内容的实例检索方法,其特征在于,所述步骤四还包括:
步骤4.3:核对查询图片的标签和生成器返回的前K张图片的标签是否一致,根据信息检索中的评价准则计算所有问询图片的平均准确率。
3.如权利要求1或2所述的一种引入对抗训练的基于内容的实例检索方法,其特征在于,所述步骤二中,数据集预处理的程如下:
步骤2.1:将使用的图片数据分为查询数据集Q、测试数据集Q’和数据库数据集D三部分;
步骤2.2:将相应图片数据输入Bow/CNN/R-MAC等神经网络中,得到相应数据集的特征向量;
步骤2.3:将图片的特征向量集合输入对抗检索网络中进行检索过程中的对抗训练。
CN201910520591.8A 2019-06-17 2019-06-17 一种引入对抗训练的基于内容的实例检索方法 Pending CN110275972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910520591.8A CN110275972A (zh) 2019-06-17 2019-06-17 一种引入对抗训练的基于内容的实例检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910520591.8A CN110275972A (zh) 2019-06-17 2019-06-17 一种引入对抗训练的基于内容的实例检索方法

Publications (1)

Publication Number Publication Date
CN110275972A true CN110275972A (zh) 2019-09-24

Family

ID=67960914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910520591.8A Pending CN110275972A (zh) 2019-06-17 2019-06-17 一种引入对抗训练的基于内容的实例检索方法

Country Status (1)

Country Link
CN (1) CN110275972A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016412A (zh) * 2020-08-13 2020-12-01 上海薇艾信息科技有限公司 人物头像元素及区域数字化存储和相似度分析方法和系统
CN112818157A (zh) * 2021-02-10 2021-05-18 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427729A (zh) * 2018-02-23 2018-08-21 浙江工业大学 一种基于深度残差网络与哈希编码的大规模图片检索方法
CN109255364A (zh) * 2018-07-12 2019-01-22 杭州电子科技大学 一种基于深度卷积生成对抗网络的场景识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427729A (zh) * 2018-02-23 2018-08-21 浙江工业大学 一种基于深度残差网络与哈希编码的大规模图片检索方法
CN109255364A (zh) * 2018-07-12 2019-01-22 杭州电子科技大学 一种基于深度卷积生成对抗网络的场景识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016412A (zh) * 2020-08-13 2020-12-01 上海薇艾信息科技有限公司 人物头像元素及区域数字化存储和相似度分析方法和系统
CN112818157A (zh) * 2021-02-10 2021-05-18 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法
CN112818157B (zh) * 2021-02-10 2022-09-16 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法

Similar Documents

Publication Publication Date Title
Kim et al. Dense relational captioning: Triple-stream networks for relationship-based captioning
CN110188227B (zh) 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN110162593A (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110766063B (zh) 基于压缩激励和紧密连接卷积神经网络的图像分类方法
CN109472024A (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN107657008B (zh) 基于深度判别排序学习的跨媒体训练及检索方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN106228185A (zh) 一种基于神经网络的通用图像分类识别系统及方法
CN111611847A (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN107463698A (zh) 基于人工智能推送信息的方法和装置
CN108446334B (zh) 一种无监督对抗训练的基于内容的图像检索方法
CN109697289A (zh) 一种改进的用于命名实体识别的主动学习方法
CN110334724B (zh) 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN109947940A (zh) 文本分类方法、装置、终端及存储介质
CN108304364A (zh) 关键词提取方法和装置
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN110287952A (zh) 一种维语图片字符的识别方法及系统
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN110851584A (zh) 一种法律条文精准推荐系统和方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN110275972A (zh) 一种引入对抗训练的基于内容的实例检索方法
CN111506760B (zh) 一种基于困难感知的深度集成度量图像检索方法
CN109829065A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190924

RJ01 Rejection of invention patent application after publication