CN113377991B - 一种基于最难正负样本的图像检索方法 - Google Patents
一种基于最难正负样本的图像检索方法 Download PDFInfo
- Publication number
- CN113377991B CN113377991B CN202110650238.9A CN202110650238A CN113377991B CN 113377991 B CN113377991 B CN 113377991B CN 202110650238 A CN202110650238 A CN 202110650238A CN 113377991 B CN113377991 B CN 113377991B
- Authority
- CN
- China
- Prior art keywords
- difficult
- image
- sample
- inclusion
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于最难正负样本的图像检索方法,先获取样本集,通过多组样本训练卷积神经网络BN‑Inception,在训练过程中,通过BN‑Inception提取样本的编码特征,然后根据编码特征选取最难正样本和最难负样本,再通过不同的加权方式为最难正样本和最难负样本分配权重并计算损失值,直至BN‑Inception收敛,最后完成待测样本的实时检索。
Description
技术领域
本发明属于图像检索技术领域,更为具体地讲,涉及一种基于最难正负样本的图像检索方法。
背景技术
对于细粒度图像检索,卷积神经网络提取的图像特征被投影到一个嵌入空间,在这个嵌入空间中,语义相似的数据(例如,相同类别的图像)被紧密地分组在一起。图像检索需要学习一个嵌入空间,其质量主要取决于用于训练网络的损失函数。因此,深度度量学习的损失函数起着非常重要的作用。本专利主要研究的领域是图像检索。在嵌入空间中,投影特征之间的相似性是通过样本间的距离来度量,经过学习的嵌入空间应使得正样本彼此接近,负样本尽可能远离。
现有的图像检索方法采用手工设计的加权损失函数来训练网络,具体而言,首先采用特定的采样策略来从batch内选择信息对,之后通过手工设计的权重函数为正对和负对赋予合适的权重值。主要采用两种策略来学习好的嵌入空间,一种是设计新颖的采样策略。由于在一个batch内有很多冗余的样本对,这些样本对本身包含的信息量较少,在模型训练时不能提供有效的梯度,使得模型收敛速度较慢且精度较差。而采样策略则可以从冗余的样本对中筛选出富含信息的样本对,从而加速模型的训练。另一种是设计高级的样本加权方案。不同的样本对其包含的信息量不同,有学者则设计新型的加权策略来区分这些样本对。
三元组损失(Triplet Loss)选择距离正对阈值范围内的负对形成三元组,不考虑权重。N-pair损失选择几个不同类别的负对,并使用Log-Sum-Exp函数来分配权重。排名列表损失(Ranked List Loss)设置一个过滤负对的阈值,再从阈值处划一个选择区域,只选择区域内的正负对,且只对负样本进行加权。现有方法在采样策略上典型的方法是通过阈值等进行采样,在加权策略上典型的方法是只对负对加权或者对正负对采用相同的加权函数,实际上忽略了正样本和负样本本身的特征。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于最难正负样本的图像检索方法,通过最难样本差异损失对特征提取网络进行训练,这样充分考虑了正样本和负样本的不同性质,使同一类样本彼此靠近,而不同类样本彼此远离,从而使网络能够精准的提取特征,进而实现图像检索。
为实现上述发明目的,本发明一种基于最难正负样本的图像检索方法,其特征在于,包括以下步骤:
(1)、获取样本集
从图像数据库中下载N个类别的多张图像,其中每个类别下载M张,将N×M张图像组成样本集;
(2)、训练卷积神经网络BN-Inception;
(2.1)、利用卷积神经网络BN-Inception提取图像的特征;
从样本集随机选取n个类别,每个类别中再随机选取m张图像作为BN-Inception的输入,利用在ImageNet上预训练的BN-Inception提取每张图像的编码特征,其中,第i张图像的编码特征记为xi,对应的类别记为yk,i=1,2,…,n×m,k=1,2,…,n;
(2.2)、选取最难正样本和最难负样本;
(2.2.1)、选取最难正样本;
(2.2.2)、选取最难负样本;
(2.3)、通过不同的加权方式为最难正样本和最难负样本分配权重;
(2.4)、根据分配的权重计算BN-Inception的损失函数值;
(2.5)、通过比较相邻μ轮训练后得到的损失函数值,判断BN-Inception是否收敛,如果BN-Inception收敛,则保存本轮训练完成后的BN-Inception,再进入步骤(3);否则,返回步骤(2.1)进行下一轮训练;
(3)、图像实时检索
本发明的发明目的是这样实现的:
本发明基于最难正负样本的图像检索方法,先获取样本集,通过多组样本训练卷积神经网络BN-Inception,在训练过程中,通过BN-Inception提取样本的编码特征,然后根据编码特征选取最难正样本和最难负样本,再通过不同的加权方式为最难正样本和最难负样本分配权重并计算损失值,直至BN-Inception收敛,最后完成待测样本的实时检索。
同时,本发明基于最难正负样本的图像检索方法还具有以下有益效果:
(1)、现有的方法在采样策略方面,通过阈值等进行采样,训练时将一个样本拉得更近或推得更远可能会导致其他样本受到影响,这样选用的大量元组是无效的,有时甚至会降低学习到的嵌入空间的质量。为了解决这个问题,本发明选用最难样本采样,通过相似度最小的正样本和相似度最大的负样本包含更多的信息,这样可以更快地使模型学习到合适的嵌入空间。
(2)、现有的方法在加权策略方面,只对负对加权或者对正负对使用相同类型的加权函数,这些方法实际上忽略了正样本和负样本本身的特征。为了解决这个问题,本发明设计了一种新的深度度量学习损失函数——最难样本差异(Hardest Sampling Variance)损失,该损失函数考虑了正样本和负样本的不同性质。根据正样本和负样本的特点,分别设计不同类型的加权函数,以不同的方式分配权重,更新训练过程中的梯度,这样进一步确保了同一类样本彼此靠近,而不同类样本彼此远离。
附图说明
图1是本发明基于最难正负样本的图像检索方法流程图;
图2是不同加权方式的权重分配示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于最难正负样本的图像检索方法流程图。
在本实施例中,如图1所示,本发明一种基于最难正负样本的图像检索方法,包括以下步骤:
S1、获取样本集
从CUB200-2011数据集中下载5800张图像,共计100个类别,组成样本集;
S2、训练卷积神经网络BN-Inception;
S2.1、利用卷积神经网络BN-Inception提取图像的特征;
从样本集随机选取56个类别,每个类别中再随机选取5张图像作为BN-Inception的输入,利用在ImageNet上预训练的BN-Inception提取每张图像的编码特征,其中,第i张图像的编码特征记为xi,对应的类别记为yk,i=1,2,…,280,k=1,2,…,56;
S2.2、选取最难正样本和最难负样本;
S2.2.1、选取最难正样本;
S2.2.2、选取最难负样本;
S2.3、通过不同的加权方式为最难正样本和最难负样本分配权重;
S2.4、根据分配的权重计算BN-Inception的损失函数值;
S2.5、通过比较相邻μ轮训练后得到的损失函数值,判断BN-Inception是否收敛,如果BN-Inception收敛,则保存本轮训练完成后的BN-Inception,再进入步骤S3;否则,返回步骤S2.1进行下一轮训练;
在本实施例中,最难样本差异(Hardest Sampling Variance)损失的主要目标是选择最难的正样本和最难的负样本,分别使用不同类型的加权函数进行加权。
过去的方法通常使用阈值来过滤正负对,选择相对较难的大量正负样本进行训练,然后使用Log-Sum-Exp函数对正负样本进行加权。但采样时选取的大量元组不一定都是有效的,有时甚至会降低学习到的嵌入空间的质量,因为在训练时将一个样本拉得更近或推得更远可能会导致其他样本受到影响。加权方式的相同则忽略了正样本和负样本本身具有不同的特征。
针对这些问题,本实施例设计了一个新的深度度量学习损失函数——最难样本差异(Hardest Sampling Variance)损失,其中,采样和加权策略如下图2所示,其中,左图中○表示同类,×表示不同类,箭头引出的黑色点表示待处理的基准点,箭头指向的黑色点表示其他编码特征点。在本实施例中,根据采样策略选出了左图中的正负样本;然后按照右图所示分配权重,其中,s1为最难正样本的相似度,分配权重为w1;s2为最难负样本的相似度,分配权重w2。
在加权策略上,本实施例分别考虑了加权函数的设计。为负样本设计的加权函数是Softplus函数。本实施例选择的最难负样本可能在培训期间产生较大的波动,而Softplus是一种平滑函数,它的设计恰恰就是为了能够避免训练过程中的过度波动。为正样本设计的加权函数是最简单的反比例函数,因此不需要设置过多的超参数来控制权函数。不使用与负样本相同的加权函数是为了让它们分配权重的方式不同。函数不一样,训练时的梯度下降也会不同,从而适应正样本和负样本的不同特征,分别更新梯度。
S3、图像实时检索
在本实施例中,通过在BN-Inception网络结构下对数据集CUB200-2011/CARS-196进行实验,用通用的R@1、R@5和NMI作为评估指标。实验结果如表1所示:
表1
从表1中可以得出,本发明提出的方法BN-Inception网络结构下取得了最好的表现,在CUB200-2011数据集上,R@1、R@2和NMI取得了67.9%、78.6%和70.5%的准确率;在CARS-196数据集上,R@1、R@2和NMI取得了84.2%、90.6%和69.4%的准确率。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种基于最难正负样本的图像检索方法,其特征在于,包括以下步骤:
(1)、获取样本集
从图像数据库中下载N个类别的多张图像,其中每个类别下载M张,将N×M张图像组成样本集;
(2)、训练卷积神经网络BN-Inception;
(2.1)、利用卷积神经网络BN-Inception提取图像的特征;
从样本集随机选取n个类别,每个类别中再随机选取m张图像作为BN-Inception的输入,利用在ImageNet上预训练的BN-Inception提取每张图像的编码特征,其中,第i张图像的编码特征记为xi,对应的类别记为yk,i=1,2,…,n×m,k=1,2,…,n;
(2.2)、选取最难正样本和最难负样本;
(2.2.1)、选取最难正样本;
(2.2.2)、选取最难负样本;
(2.3)、通过不同的加权方式为最难正样本和最难负样本分配权重;
(2.4)、根据分配的权重计算BN-Inception的损失函数值;
(2.5)、通过比较相邻μ轮训练后得到的损失函数值,判断BN-Inception是否收敛,如果BN-Inception收敛,则保存本轮训练完成后的BN-Inception,再进入步骤(3);否则,返回步骤(2.1)进行下一轮训练;
(3)、图像实时检索
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110650238.9A CN113377991B (zh) | 2021-06-10 | 2021-06-10 | 一种基于最难正负样本的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110650238.9A CN113377991B (zh) | 2021-06-10 | 2021-06-10 | 一种基于最难正负样本的图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113377991A CN113377991A (zh) | 2021-09-10 |
CN113377991B true CN113377991B (zh) | 2022-04-15 |
Family
ID=77573815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110650238.9A Active CN113377991B (zh) | 2021-06-10 | 2021-06-10 | 一种基于最难正负样本的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377991B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705589A (zh) * | 2021-10-29 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及设备 |
CN114020974B (zh) * | 2022-01-04 | 2022-06-21 | 阿里巴巴达摩院(杭州)科技有限公司 | 样本数据确定及对话意图识别方法、存储介质及程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009031146A1 (en) * | 2007-09-06 | 2009-03-12 | Mempile Inc. | High refractive index, low viscosity room temperature two-part epoxy resins |
CN110163110A (zh) * | 2019-04-23 | 2019-08-23 | 中电科大数据研究院有限公司 | 一种基于迁移学习和深度特征融合的行人重识别方法 |
CN110659378A (zh) * | 2019-09-07 | 2020-01-07 | 吉林大学 | 基于对比相似性损失函数的细粒度图像检索方法 |
CN110674881A (zh) * | 2019-09-27 | 2020-01-10 | 长城计算机软件与系统有限公司 | 商标图像检索模型训练方法、系统、存储介质及计算机设备 |
CN110796048A (zh) * | 2019-10-18 | 2020-02-14 | 武汉大学 | 一种基于深度神经网络的船舰目标实时检测方法 |
CN112734031A (zh) * | 2020-12-31 | 2021-04-30 | 珠海格力电器股份有限公司 | 神经网络模型训练方法、识别方法、存储介质以及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11393160B2 (en) * | 2018-03-23 | 2022-07-19 | Intel Corporation | Deep geometric model fitting |
-
2021
- 2021-06-10 CN CN202110650238.9A patent/CN113377991B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009031146A1 (en) * | 2007-09-06 | 2009-03-12 | Mempile Inc. | High refractive index, low viscosity room temperature two-part epoxy resins |
CN110163110A (zh) * | 2019-04-23 | 2019-08-23 | 中电科大数据研究院有限公司 | 一种基于迁移学习和深度特征融合的行人重识别方法 |
CN110659378A (zh) * | 2019-09-07 | 2020-01-07 | 吉林大学 | 基于对比相似性损失函数的细粒度图像检索方法 |
CN110674881A (zh) * | 2019-09-27 | 2020-01-10 | 长城计算机软件与系统有限公司 | 商标图像检索模型训练方法、系统、存储介质及计算机设备 |
CN110796048A (zh) * | 2019-10-18 | 2020-02-14 | 武汉大学 | 一种基于深度神经网络的船舰目标实时检测方法 |
CN112734031A (zh) * | 2020-12-31 | 2021-04-30 | 珠海格力电器股份有限公司 | 神经网络模型训练方法、识别方法、存储介质以及设备 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的手绘草图图像检索方法研究;黄永业;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑 (月刊)》;20190915(第09期);I138-1141 * |
Also Published As
Publication number | Publication date |
---|---|
CN113377991A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107392919B (zh) | 基于自适应遗传算法的灰度阈值获取方法、图像分割方法 | |
CN113377991B (zh) | 一种基于最难正负样本的图像检索方法 | |
CN111753101B (zh) | 一种融合实体描述及类型的知识图谱表示学习方法 | |
CN110097096B (zh) | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 | |
WO2024060381A1 (zh) | 一种增量式设备故障诊断方法 | |
CN106778834A (zh) | 一种基于距离测度学习的ap聚类图像标注方法 | |
CN110830291B (zh) | 一种基于元路径的异质信息网络的节点分类方法 | |
CN116912568A (zh) | 基于自适应类别均衡的含噪声标签图像识别方法 | |
CN115761408A (zh) | 一种基于知识蒸馏的联邦域适应方法及系统 | |
CN113420291B (zh) | 基于权重集成的入侵检测特征选择方法 | |
CN114357221B (zh) | 一种基于图像分类的自监督主动学习方法 | |
CN114581470B (zh) | 一种基于植物群落行为的图像边缘检测方法 | |
CN116070713A (zh) | 一种基于可解释性联邦学习缓解Non-IID影响的方法 | |
CN115906959A (zh) | 基于de-bp算法的神经网络模型的参数训练方法 | |
CN115116616A (zh) | 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型 | |
CN114860952A (zh) | 一种基于数据统计和知识指导的图拓扑学习方法及系统 | |
CN114529096A (zh) | 基于三元闭包图嵌入的社交网络链路预测方法及系统 | |
CN114444654A (zh) | 一种面向nas的免训练神经网络性能评估方法、装置和设备 | |
CN112364904A (zh) | 一种基于随机抽样的模型剪枝方法 | |
CN115222945B (zh) | 基于多尺度自适应课程学习的深度语义分割网络训练方法 | |
CN114529746B (zh) | 基于低秩子空间一致性的图像聚类方法 | |
CN116416212B (zh) | 路面破损检测神经网络训练方法及路面破损检测神经网络 | |
CN116188834B (zh) | 基于自适应训练模型的全切片图像分类方法及装置 | |
CN113240007B (zh) | 一种基于三支决策的目标特征选择方法 | |
CN110288045B (zh) | 一种基于皮尔逊相关系数的语义视觉词典优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |