CN113239223A - 一种基于输入梯度正则化的图像检索方法 - Google Patents
一种基于输入梯度正则化的图像检索方法 Download PDFInfo
- Publication number
- CN113239223A CN113239223A CN202110399427.3A CN202110399427A CN113239223A CN 113239223 A CN113239223 A CN 113239223A CN 202110399427 A CN202110399427 A CN 202110399427A CN 113239223 A CN113239223 A CN 113239223A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- neural network
- deep neural
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于输入梯度正则化的图像检索方法。该方法通过计算深度神经网络中损失函数或者图像特征的L2范数相对于输入图片的梯度,然后将该梯度的L2范数的平方乘上惩罚系数作为正则项,将此正则项添加到损失函数上,最后用正则化的损失函数训练深度神经网络并将其应用在图像检索上。通过利用本发明所述方案,一方面正则化的损失函数可以使训练得到的深度神经网络具有更好的鲁棒性,另一方面可以使得深度神经网络学习到的图像特征更加具有区分性从而提高图像检索的准确率。
Description
技术领域
本发明属于计算机视觉、图像检索领域,特别地涉及一种基于输入梯度正则化的图像检索方法。
背景技术
在信息时代,从海量图片中检索出用户所需要的图片的图像检索技术正在成为研究的热点。随着深度学习的发展,结合了度量学习和深度神经网络的深度度量学习经常被应用在图像检索上,它的目标是通过深度神经网络学习将原始的图像特征映射到低维的嵌入空间,在此嵌入空间里,相同类别的图像尽可能靠近,不同类别的图像尽可能远离。
在深度度量学习中损失函数起到了非常重要的作用,常用的损失函数有很多,比如对比损失(Contrastive loss)、三元组损失(Triplet loss)、N-pair-mc loss等等。虽然使用这些损失函数训练的深度神经网络在图像检索上取得了不错的效果,但是仍然存在抗干扰能力差的问题。对于精心设计的对抗样本,深度神经网络的检测效果很容易变差,虽然这些对抗样本在人眼看来与原始图片几乎没有区别。因为损失函数中并不包含对于输入图片的梯度的约束,所以当输入图片加入微小的对抗扰动时,可能会导致深度神经网络提取到的图像特征有较大的变化,而这个变化会使得图像检索的准确率降低。
上述对于深度神经网络的扰动主要来源于输入图片的变化,如果能够降低输入图片的变化对深度神经网络的影响,那么深度神经网络的鲁棒性将会增强,图像检索的准确率也会提高。
发明内容
本发明的目的在于克服上述已有技术缺点,提供一种基于输入梯度正则化的图像检索方法,能够一定程度上降低输入图片的变化对于深度神经网络的影响,使训练得到的深度神经网络具有更好的鲁棒性,同时使得通过深度神经网络学习到的图像特征更加具有区分性,从而提高图像检索的准确率。
为实现上述目的,本发明的基于输入梯度正则化的图像检索方法通过计算深度神经网络中损失函数或者图像特征的L2范数相对于输入图片的梯度,然后将该梯度的L2范数的平方乘上惩罚系数作为正则项,将此正则项添加到损失函数上,再用正则化的损失函数训练深度神经网络,最后用训练好的深度神经网络对测试图像进行图像检索。具体步骤包括:
S10,输入用于训练网络的图像数据,用深度神经网络对其进行特征提取得到图像特征;
S20,用得到的图像特征计算训练损失以及图像特征的L2范数,再分别计算训练损失相对于输入图像的梯度一和图像特征的L2范数相对于输入图像的梯度二;
S30,计算梯度一或梯度二的L2范数的平方,将其乘以惩罚系数后添加到原来的训练损失上,用新的训练损失作为监督来更新所述深度神经网络的参数;
S40,重复以上步骤直至所述深度神经网络训练结束;
S50,用训练好的深度神经网络提取测试图像的图像特征,以此进行图像检索。
进一步地,步骤S10中输入的是一个训练批次(batch)的图像数据,步骤S10~S30均描述深度神经网络训练过程中每个训练批次(batch)的操作步骤。
进一步地,步骤S20中所计算的训练损失是一个训练批次(batch)的平均损失,图像特征的L2范数是一个训练批次(batch)中所有图像特征的L2范数之和。
进一步地,步骤S30中梯度的L2范数的平方是取一个训练批次(batch)的平均值,惩罚系数则是一个可设定参数。
本发明的有益技术效果如下:
通过使用本发明所述方案,一方面正则化的损失函数可以使训练得到的深度神经网络具有更好的鲁棒性,另一方面可以使得深度神经网络学习到的图像特征更加具有区分性从而提高图像检索的准确率。
附图说明
图1为本发明实施例的的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。
参考图1所示,本发明一实施例提供一种基于输入梯度正则化的图像检索方法,其中深度神经网络选用三元组损失函数,并选择训练损失相对于输入图像的梯度来构成正则项,具体地包括如下步骤:
S101,将用于训练图像检索模型的图像数据按照如下方法构成训练批次(batch):从图像数据中随机选取P个类别,再从每个类别中随机选取K张图片,构成一个批次大小(batch size)为P*K的训练批次(batch)。
S102,将上述一个训练批次(batch)的图像数据输入到深度神经网络中进行特征提取,得到图像数据的图像特征记为B={(x1,y1),(x2,y2)…,(xN,yN)},其中N是一个训练批次(batch)所包含的图片数量,xi∈Rm是一张图片所提取出的图像数据特征,m是特征的维度,yi是该图片所对应的类别标签;
S201,一个训练批次(batch)中的所有图片都轮流作为anchor,将其图像特征记为xa;从与anchor图片为同一类别的K-1张图片中选取一张图片作为正样本,其图像特征为xp=argmaxi=1,2,…,K-1||xi-xa||2,该图片为与anchor图片距离最远的正样本;从与anchor图片为不同类别的(P-1)*K张图片中选取一张图片作为负样本,其图像特征为xn=argmini=1,2,…,(P-1)*K||xi-xa||2,该图片为与anchor图片距离最近的负样本;最终一个训练批次(batch)可以得到P*K个三元组(xa,xp,xn)。
S202,计算一个训练批次(batch)的平均训练损失,损失函数为:
S40,重复以上步骤直至深度神经网络训练结束;
S50,用训练好的深度神经网络提取测试图像的图像特征,以此进行图像检索。
步骤S30中的λ是一个可以设定的参数,通过调整参数λ的大小可以改变输入图片的微小扰动对深度神经网络的影响程度,最终选择验证效果最好的惩罚参数λ和用其训练得到的深度神经网络应用于图像检索。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于输入梯度正则化的图像检索方法,其特征在于,包括如下步骤:
S10,输入用于训练网络的图像数据,用深度神经网络对其进行特征提取得到图像特征;
S20,用得到的图像特征计算训练损失以及图像特征的L2范数,再分别计算训练损失相对于输入图像的梯度一和图像特征的L2范数相对于输入图像的梯度二;
S30,计算梯度一或梯度二的L2范数的平方,将其乘以惩罚系数后添加到原来的训练损失上,用新的训练损失作为监督来更新所述深度神经网络的参数;
S40,重复以上步骤直至所述深度神经网络训练结束;
S50,用训练好的深度神经网络提取测试图像的图像特征,以此进行图像检索。
2.根据权利要求1所述的方法,其特征在于:步骤S10中输入的是一个训练批次的图像数据,步骤S10~S30均描述深度神经网络训练过程中每个训练批次的操作步骤。
3.根据权利要求2所述的方法,其特征在于:步骤S20中所计算的训练损失是一个训练批次的平均损失,图像特征的L2范数是一个训练批次中所有图像特征的L2范数之和。
4.根据权利要求3所述的方法,其特征在于:步骤S30中梯度的L2范数的平方是取一个训练批次的平均值,惩罚系数是一个可设定参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110399427.3A CN113239223A (zh) | 2021-04-14 | 2021-04-14 | 一种基于输入梯度正则化的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110399427.3A CN113239223A (zh) | 2021-04-14 | 2021-04-14 | 一种基于输入梯度正则化的图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239223A true CN113239223A (zh) | 2021-08-10 |
Family
ID=77128148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110399427.3A Pending CN113239223A (zh) | 2021-04-14 | 2021-04-14 | 一种基于输入梯度正则化的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239223A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097355A (zh) * | 2016-06-14 | 2016-11-09 | 山东大学 | 基于卷积神经网络的胃肠道肿瘤显微高光谱图像处理方法 |
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN108090565A (zh) * | 2018-01-16 | 2018-05-29 | 电子科技大学 | 一种卷积神经网络并行化训练加速方法 |
CN110647992A (zh) * | 2019-09-19 | 2020-01-03 | 腾讯云计算(北京)有限责任公司 | 卷积神经网络的训练方法、图像识别方法及其对应的装置 |
CN111598175A (zh) * | 2020-05-19 | 2020-08-28 | 南京甄视智能科技有限公司 | 一种基于在线难例挖掘方式的检测器训练优化方法 |
CN112241481A (zh) * | 2020-10-09 | 2021-01-19 | 中国人民解放军国防科技大学 | 基于图神经网络的跨模态新闻事件分类方法及系统 |
-
2021
- 2021-04-14 CN CN202110399427.3A patent/CN113239223A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097355A (zh) * | 2016-06-14 | 2016-11-09 | 山东大学 | 基于卷积神经网络的胃肠道肿瘤显微高光谱图像处理方法 |
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN108090565A (zh) * | 2018-01-16 | 2018-05-29 | 电子科技大学 | 一种卷积神经网络并行化训练加速方法 |
CN110647992A (zh) * | 2019-09-19 | 2020-01-03 | 腾讯云计算(北京)有限责任公司 | 卷积神经网络的训练方法、图像识别方法及其对应的装置 |
CN111598175A (zh) * | 2020-05-19 | 2020-08-28 | 南京甄视智能科技有限公司 | 一种基于在线难例挖掘方式的检测器训练优化方法 |
CN112241481A (zh) * | 2020-10-09 | 2021-01-19 | 中国人民解放军国防科技大学 | 基于图神经网络的跨模态新闻事件分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
ANDREW SLAVIN ROSS, FINALE DOSHI-VELEZ: "Improving the Adversarial Robustness and Interpretability of Deep Neural Networks by Regularizing their Input Gradients", 《ARXIV:1711.09404》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112819686B (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
CN108229296A (zh) | 人脸皮肤属性识别方法和装置、电子设备、存储介质 | |
CN111160533A (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
CN103177177B (zh) | 信息处理设备和估计器生成方法 | |
CN107609575A (zh) | 书法评价方法、书法评价装置和电子设备 | |
CN110415184A (zh) | 一种基于正交元空间的多模态图像增强方法 | |
CN114998602B (zh) | 基于低置信度样本对比损失的域适应学习方法及系统 | |
CN108121962B (zh) | 基于非负自适应特征提取的人脸识别方法、装置及设备 | |
CN112052759B (zh) | 一种活体检测方法和装置 | |
CN108492301A (zh) | 一种场景分割方法、终端及存储介质 | |
CN114842343A (zh) | 一种基于ViT的航空图像识别方法 | |
CN111401219A (zh) | 一种手掌关键点检测方法和装置 | |
CN117253071B (zh) | 基于多级伪标签增强的半监督目标检测方法及系统 | |
CN114202694A (zh) | 基于流形混合插值和对比学习的小样本遥感场景图像分类方法 | |
CN110866866B (zh) | 图像仿色处理方法、装置、电子设备及存储介质 | |
CN111062406B (zh) | 一种面向异构领域适应的半监督最优传输方法 | |
CN111428803A (zh) | 一种基于Wasserstein距离的深度域适应图像分类方法 | |
CN113239223A (zh) | 一种基于输入梯度正则化的图像检索方法 | |
CN116884071A (zh) | 人脸检测方法、装置、电子设备及存储介质 | |
Beaini et al. | Deep green function convolution for improving saliency in convolutional neural networks | |
CN115953330A (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
CN113744158B (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN104598866B (zh) | 一种基于人脸的社交情商促进方法及系统 | |
CN116362322A (zh) | 基于知识蒸馏的生成式模型迁移学习方法、设备及介质 | |
CN112131834B (zh) | 一种西波字体生成和识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210810 |