CN111125396B - 一种单模型多分支结构的图像检索方法 - Google Patents
一种单模型多分支结构的图像检索方法 Download PDFInfo
- Publication number
- CN111125396B CN111125396B CN201911245796.6A CN201911245796A CN111125396B CN 111125396 B CN111125396 B CN 111125396B CN 201911245796 A CN201911245796 A CN 201911245796A CN 111125396 B CN111125396 B CN 111125396B
- Authority
- CN
- China
- Prior art keywords
- learning
- model
- branch
- category
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像检索技术领域,具体为一种单模型多分支结构的图像检索方法。本发明采用单模型集成多学习分支结构,特征提取器为多层卷积神经网络结构,学习分支为多卷积层与多隐藏层结构;单个特征提取器与多学习分支共享特征参数,其中,单个特征提取器保证统一的特征表达,结合学习分支的差异化训练方法,实现图像特征属性的映射;多分支结构拼接各个学习器的输出向量以获得最后描述图像的高维向量;最后这个特征向量相似度排序,根据相似度排序,即检索到同类别图像。本发明模型训练时间短,计算效率高。
Description
技术领域
本发明属于图像检索技术领域,具体涉及单模型多分支结构的图像检索方法。
背景技术
图像检索是根据待查询图像搜索数据库中与之相同类别的图像的任务,其主要目的是更为准确地在数据库中召回同类别的图像。
本发明涉及一种基于卷积神经网络的单模型多分支图像检索方法。图像检索是提取图像特征基于相似度度量标准查询数据库中与之相似的图像的过程。一般来说,训练一个网络作为映射函数,将RGB三通道的数字图像映射到高维空间中,训练的结果是让网络能将同类别的图像映射到高维空间中相近的位置,另一方面使得不同类的图像在高维空间的距离被拉开。所以每一个经过网络映射的图像,都会拥有一个高维向量来描述其在高维空间中的位置。图像检索任务就是输入一张查询图像,通过某种映射方法将图像映射成高维向量,与数据库里的其他同样经过此映射方法的图像的高维向量进行相似度比较,以此检索到同类图像。
与图像分类利用带类别标签的图像对网络进行训练使得网络能够分辨图像中的目标类别不同,图像检索虽同样使用带类别标签的图像对网络进行训练,但却可以得到一个映射网络来分辨图像中的某些属性,并以此基于相似度度量标准对语义或视觉相近的图像进行比对,所检索图片的类别不一定需要送入网络训练。
近年来,随着卷积神经网络的突破,图像特征提取更为丰富、高效,使用卷积神经网络的图像检索算法性能相对于传统算法大幅提升。目前在主流图像检索数据集上性能排名靠前的算法,主干网络都基于卷积神经网络。模型结构上分为单模型和多模型,单模型为单个网络结构独立输出高维向量,多模型为多网络叠加结构共同输出高维向量。其中,单模型方法又分为不共享参数和部分共享参数的结构。训练方法方面,根据损失函数的不同,数据准备的方式也不同,较为主流的损失函数有Triplet Loss[1]:
其中,A为训练图像,P为训练集中与A同类别图像,N为训练集中与A不同类别图像,margin是间隔,d描述两个样本的空间距离。基于其改进的还有N-pair Loss[2]、AngularLoss[3]。
发明内容
本发明旨在提供一种训练时间短、计算效率高的单模型多分支结构的图像检索方法。
本发明提供的单模型多分支结构的图像检索方法,采用单模型集成多学习分支结构,特征提取器为多层卷积神经网络结构,学习分支为多卷积层与多隐藏层结构。相比传统的单模型结构映射空间更为广阔,多属性映射能力更强。相比传统多模型方法在结构上更加紧凑,参数更少,也更为轻量化。单模型结构为单个特征提取器连接学习器的结构;多模型结构为多个特征提取器各自连接学习器的结构;本发明采用单模型集成多学习分支结构,是由单个特征提取器与多学习分支共享特征参数的结构,其中,单个特征提取器保证了统一的特征表达,结合学习分支的差异化训练方法,实现了图像特征属性的映射。多模型结构和本方法的多分支结构都会拼接各个学习器的输出向量以获得最后描述图像的高维向量。
此外,本发明采用随机标签分配的方法对每个学习分支进行差异化的训练。其中,将训练数据按照类别分组,同类别标签的图像存在于同一组。随机地将其中固定数量的类别划分为一个超级类别,这些类别中的图像标签变为这个超级类别,之后将剩下的数据重复这样的操作,直至将所有原始类别数据分入超级类别中。至此,产生的新数据集只有超级类别,所有的图像都被分配了一个超级类别标签,原始类别相同的图像一定会被分配到相同的超级类别标签。每个学习分支都有这样一个完整操作,并且相互独立,形成不同的新数据集标签。
本发明使用这些新的数据集搭配 Cross Entropy Loss[4]来将每个学习分支训练成一个分类器,用于对相应超级类进行分类:
其中,class为训练数据类别真实值。这样的设定使得当模型用于检索中时,各个学习分支会将那些在本分支上,属于一个超级类别的图像映射到高维空间中的一个区域并与其他超级类别的映射位置区别开来。也就是说,同属一个超级类的图像会获得相似度更高的高维向量表达。初始时为同类别的图像,不论在任何分支都会被分配到同一超级类别标签下,而初始时为不同类别的图像则不然。由于最后的特征向量被用于检索时,同类的图像的高维向量会比不同类的图像更加相似,所以根据相似度排序,可以顺利检索到同类别图像。
本发明提供的单模型多分支结构的图像检索方法,具体计算步骤如下:
(1)准备图像检索训练数据集,进行相应的数据增强操作,例如随机裁剪、数据归一化等;
(2)将训练数据集进行多次随机重标记,将标签数量缩减到一个相对小的值;
(3)在重标记后的多个训练数据集上进行多个Learner的学习,此多个Learner共享同一个BackboneNetwork;
(4)将每个Learner的输出向量与正确重标记进行对比,作为损失值训练整个模型;
(5)在训练完毕之后,对于用户输入的待检索图片,先进行对应的数据增强操作,如中心裁剪、数据归一化等;
(6)将数据增强过后的待检索图片输入训练好的模型,得到多个Learner输出的向量;
(7)将检索数据库中的所有图片同样输入训练的模型,得到其相应的向量表示;
(8)将待检索图片的向量表示与数据库中的所有图片的向量表示进行一一相似度比较;
(9)将相似度进行排序,得到最相似的所要检索的图片。
与现有技术相比,本发明的有益效果为:
1.现有技术采用单模型结构,而本方法采用单特征提取器多学习分支的结构。相比于单模型方法,映射能力更强;
2.现有技术采用多模型结构,而本方法采用单特征提取器多学习分支的结构。相比于多模型结构,在结构上更加紧凑,参数量更少,可以一次性训练整个网络,无需像多模型结构那样交替训练多个模型,减少了训练时间;
3.现有技术采用Triplet Loss作为损失函数,本方法采用Cross Entropy Loss作为损失函数。相比现有方法,本方法不需要特殊的数据准备,减少了数据加载,数据I/O操作更为高效,加速了数据准备时间;
4.本方法在多分支结构和交叉熵损失函数的基础上,搭配一种标签分配方法,从而创新了一种检索模型(映射网络)以及一种训练检索模型的方法。
附图说明
图1为本发明的单模型多分支结构的图像检索方法的总流程框图。
图2为图1中Training set的重标记流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
参照图1、2,本发明的单模型多分支结构的图像检索方法,将待检索图像(如图中Query Image)输入主干网络(如图中BackboneNetwork)后,再由各个学习分支(如图中Learner)提取相应属性并映射为向量(如图中vector),最后所有分支输出的向量共同组成一个特征向量(如图中FeatureVector),以表示待检索图像的高维空间位置。最后这个特征向量通过余弦相似度来度量其与数据库中其他图像的空间距离。
具体计算步骤如下:
(1)准备图像检索训练数据集,进行相应的数据增强操作:随机裁剪、数据归一化等;
(2)将训练数据集进行多次随机重标记,参照图2,将n个class随机分组到m个superclass,将标签数量缩减到一个相对小的值;
(3)在重标记后的多个训练数据集上进行多个Learner的学习,参照图1,此多个Learner共享同一个BackboneNetwork;
(4)每个Learner的输出向量与正确重标记进行对比,作为损失值训练整个模型;
(5)在训练完毕之后,对于用户输入的待检索图片,先进行对应的数据增强操作:中心裁剪、数据归一化等;
(6)将数据增强过后的待检索图片输入训练好的模型,得到多个Learner输出的向量;
(7)将检索数据库中的所有图片经过此训练完毕之后的模型,得到其相应的向量表示;
(8)将待检索图片的向量表示与数据库中的所有图片的向量表示进行一一相似度比较;
(9)将相似度进行排序,得到最相似的所要检索的图片。
参考文献
[1]Cheng D, Gong Y, Zhou S, et al. Person re-identification by multi-channel parts-based cnn with improved triplet loss function[C]//Proceedingsof the IEEE conference on computer vision and pattern recognition. 2016:1335-1344.
[2]Sohn K. Improved deep metric learning with multi-class n-pair lossobjective[C]//Advances in Neural Information Processing Systems. 2016: 1857-1865.
[3]Wang J, Zhou F, Wen S, et al. Deep metric learning with angularloss[C]//Proceedings of the IEEE International Conference on Computer Vision.2017: 2593-2601.
[4]Zhang Z, Sabuncu M. Generalized cross entropy loss for trainingdeep neural networks with noisy labels[C]//Advances in neural informationprocessing systems. 2018: 8778-8788.。
Claims (2)
1.一种单模型多分支结构的图像检索方法,其特征在于,采用单模型集成多学习分支结构,特征提取器为多层卷积神经网络结构,学习分支为多卷积层与多隐藏层结构;单个特征提取器与多学习分支共享特征参数,其中,单个特征提取器保证统一的特征表达,结合学习分支的差异化训练方法,实现图像特征属性的映射;多分支结构拼接各个学习器的输出向量以获得最后描述图像的高维向量;
此外,采用随机标签分配的方法对每个学习分支进行差异化的训练;其中,将训练数据按照类别分组,同类别标签的图像存在于同一组;随机地将其中固定数量的类别划分为一个超级类别,这些类别中的图像标签变为这个超级类别,之后将剩下的数据重复这样的操作,直至将所有原始类别数据分入超级类别中;这样,产生的新数据集只有超级类别,所有的图像都被分配了一个超级类别标签,原始类别相同的图像被分配到相同的超级类别标签;每个学习分支都进行这样一个完整操作,并且相互独立,形成不同的新数据集标签;
使用这些新的数据集搭配 Cross Entropy Loss将每个学习分支训练成一个分类器,用于对相应超级类进行分类:
其中,class为训练数据类别真实值;这样的设定使得当模型用于检索中时,各个学习分支将那些在本分支上、属于一个超级类别的图像映射到高维空间中的一个区域并与其他超级类别的映射位置区别开来,即同属一个超级类的图像会获得相似度更高的高维向量表达,于是根据相似度排序,可以顺利检索到同类别图像。
2.根据权利要求1所述的单模型多分支结构的图像检索方法,其特征在于,具体计算步骤如下:
(1)准备图像检索训练数据集,进行相应的数据增强操作;所述数据增强操作包括随机裁剪、数据归一化处理;
(2)将训练数据集进行多次随机重标记,将标签数量缩减到一个相对小的值;
(3)在重标记后的多个训练数据集上进行多个学习分支的学习,此多个学习分支共享同一个主干网络;
(4)将每个学习分支的输出向量与正确重标记进行对比,作为损失值训练整个模型;
(5)在训练完毕之后,对于用户输入的待检索图片,先进行对应的数据增强操作;所述数据增强操作包括随机裁剪、数据归一化处理;
(6)将数据增强过后的待检索图片输入训练好的模型,得到多个学习分支输出的向量;
(7)将检索数据库中的所有图片同样输入训练的模型,得到其相应的向量表示;
(8)将待检索图片的向量表示与数据库中的所有图片的向量表示进行一一相似度比较;
(9)将相似度进行排序,得到最相似的所要检索的图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911245796.6A CN111125396B (zh) | 2019-12-07 | 2019-12-07 | 一种单模型多分支结构的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911245796.6A CN111125396B (zh) | 2019-12-07 | 2019-12-07 | 一种单模型多分支结构的图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111125396A CN111125396A (zh) | 2020-05-08 |
CN111125396B true CN111125396B (zh) | 2023-06-30 |
Family
ID=70497784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911245796.6A Active CN111125396B (zh) | 2019-12-07 | 2019-12-07 | 一种单模型多分支结构的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125396B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582478B (zh) * | 2020-05-09 | 2023-09-22 | 北京百度网讯科技有限公司 | 用于确定模型结构的方法和装置 |
CN112016599B (zh) * | 2020-08-13 | 2023-09-15 | 驭势科技(浙江)有限公司 | 用于图像检索的神经网络训练方法、装置及电子设备 |
CN112364192A (zh) * | 2020-10-13 | 2021-02-12 | 中山大学 | 一种基于集成学习的零样本哈希检索方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102810161B (zh) * | 2012-06-07 | 2015-05-20 | 江苏物联网研究发展中心 | 一种用于拥挤场景下的多个行人检测方法 |
CN105488515B (zh) * | 2014-09-17 | 2019-06-25 | 富士通株式会社 | 一种对图像进行分类的图像处理方法和图像处理装置 |
CN105631479B (zh) * | 2015-12-30 | 2019-05-17 | 中国科学院自动化研究所 | 基于非平衡学习的深度卷积网络图像标注方法及装置 |
CN106682233B (zh) * | 2017-01-16 | 2020-03-10 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN106874478A (zh) * | 2017-02-17 | 2017-06-20 | 重庆邮电大学 | 基于Spark的并行化随机标签子集多标签文本分类方法 |
US20190236455A1 (en) * | 2018-01-31 | 2019-08-01 | Royal Bank Of Canada | Pre-training neural networks with human demonstrations for deep reinforcement learning |
CN109165674A (zh) * | 2018-07-19 | 2019-01-08 | 南京富士通南大软件技术有限公司 | 一种基于多标签深度卷积网络的证件照分类方法 |
-
2019
- 2019-12-07 CN CN201911245796.6A patent/CN111125396B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于迁移学习与多标签平滑策略的图像自动标注;汪鹏;张奥帆;王利琴;董永峰;;计算机应用(第11期);全文 * |
结合深度特征与多标记分类的图像语义标注;李志欣;郑永哲;张灿龙;史忠植;;计算机辅助设计与图形学学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111125396A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN205721777U (zh) | 视觉搜索设备和系统 | |
CN107577990B (zh) | 一种基于gpu加速检索的大规模人脸识别方法 | |
CN106126581B (zh) | 基于深度学习的手绘草图图像检索方法 | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
CN111125396B (zh) | 一种单模型多分支结构的图像检索方法 | |
JP4777059B2 (ja) | 画像検索装置および画像検索方法 | |
CN102129451B (zh) | 图像检索系统中数据聚类方法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
KR101443187B1 (ko) | 영상 군집화 기반의 의료 영상 검색 방법 | |
CN110969191B (zh) | 基于相似性保持度量学习方法的青光眼患病概率预测方法 | |
CN110175615B (zh) | 模型训练方法、域自适应的视觉位置识别方法及装置 | |
CN104281572B (zh) | 一种基于互信息的目标匹配方法及其系统 | |
CN110188225B (zh) | 一种基于排序学习和多元损失的图像检索方法 | |
Champ et al. | A comparative study of fine-grained classification methods in the context of the LifeCLEF plant identification challenge 2015 | |
Li et al. | SHREC 2019-monocular image based 3D model retrieval | |
CN104112005B (zh) | 分布式海量指纹识别方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN103617609B (zh) | 基于图论的k-means非线性流形聚类与代表点选取方法 | |
CN110737788B (zh) | 快速的三维模型索引建立及检索方法 | |
CN106919658B (zh) | 一种基于gpu加速的大规模图像词汇树检索方法及系统 | |
Gao et al. | SHREC’15 Track: 3D object retrieval with multimodal views | |
CN114579794A (zh) | 特征一致性建议的多尺度融合地标图像检索方法及系统 | |
CN113032613A (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN110738194A (zh) | 一种基于点云有序编码的三维物体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |