CN113239223A

CN113239223A - 一种基于输入梯度正则化的图像检索方法

Info

Publication number: CN113239223A
Application number: CN202110399427.3A
Authority: CN
Inventors: 朱璐怡; 张鼎懿; 李英明; 张仲非
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-08-10

Abstract

本发明公开了一种基于输入梯度正则化的图像检索方法。该方法通过计算深度神经网络中损失函数或者图像特征的L2范数相对于输入图片的梯度，然后将该梯度的L2范数的平方乘上惩罚系数作为正则项，将此正则项添加到损失函数上，最后用正则化的损失函数训练深度神经网络并将其应用在图像检索上。通过利用本发明所述方案，一方面正则化的损失函数可以使训练得到的深度神经网络具有更好的鲁棒性，另一方面可以使得深度神经网络学习到的图像特征更加具有区分性从而提高图像检索的准确率。

Description

一种基于输入梯度正则化的图像检索方法

技术领域

本发明属于计算机视觉、图像检索领域，特别地涉及一种基于输入梯度正则化的图像检索方法。

背景技术

在信息时代，从海量图片中检索出用户所需要的图片的图像检索技术正在成为研究的热点。随着深度学习的发展，结合了度量学习和深度神经网络的深度度量学习经常被应用在图像检索上，它的目标是通过深度神经网络学习将原始的图像特征映射到低维的嵌入空间，在此嵌入空间里，相同类别的图像尽可能靠近，不同类别的图像尽可能远离。

在深度度量学习中损失函数起到了非常重要的作用，常用的损失函数有很多，比如对比损失(Contrastive loss)、三元组损失(Triplet loss)、N-pair-mc loss等等。虽然使用这些损失函数训练的深度神经网络在图像检索上取得了不错的效果，但是仍然存在抗干扰能力差的问题。对于精心设计的对抗样本，深度神经网络的检测效果很容易变差，虽然这些对抗样本在人眼看来与原始图片几乎没有区别。因为损失函数中并不包含对于输入图片的梯度的约束，所以当输入图片加入微小的对抗扰动时，可能会导致深度神经网络提取到的图像特征有较大的变化，而这个变化会使得图像检索的准确率降低。

上述对于深度神经网络的扰动主要来源于输入图片的变化，如果能够降低输入图片的变化对深度神经网络的影响，那么深度神经网络的鲁棒性将会增强，图像检索的准确率也会提高。

发明内容

本发明的目的在于克服上述已有技术缺点，提供一种基于输入梯度正则化的图像检索方法，能够一定程度上降低输入图片的变化对于深度神经网络的影响，使训练得到的深度神经网络具有更好的鲁棒性，同时使得通过深度神经网络学习到的图像特征更加具有区分性，从而提高图像检索的准确率。

为实现上述目的，本发明的基于输入梯度正则化的图像检索方法通过计算深度神经网络中损失函数或者图像特征的L2范数相对于输入图片的梯度，然后将该梯度的L2范数的平方乘上惩罚系数作为正则项，将此正则项添加到损失函数上，再用正则化的损失函数训练深度神经网络，最后用训练好的深度神经网络对测试图像进行图像检索。具体步骤包括：

S10，输入用于训练网络的图像数据，用深度神经网络对其进行特征提取得到图像特征；

S20，用得到的图像特征计算训练损失以及图像特征的L2范数，再分别计算训练损失相对于输入图像的梯度一和图像特征的L2范数相对于输入图像的梯度二；

S30，计算梯度一或梯度二的L2范数的平方，将其乘以惩罚系数后添加到原来的训练损失上，用新的训练损失作为监督来更新所述深度神经网络的参数；

S40，重复以上步骤直至所述深度神经网络训练结束；

S50，用训练好的深度神经网络提取测试图像的图像特征，以此进行图像检索。

进一步地，步骤S10中输入的是一个训练批次(batch)的图像数据，步骤S10～S30均描述深度神经网络训练过程中每个训练批次(batch)的操作步骤。

进一步地，步骤S20中所计算的训练损失是一个训练批次(batch)的平均损失，图像特征的L2范数是一个训练批次(batch)中所有图像特征的L2范数之和。

进一步地，步骤S30中梯度的L2范数的平方是取一个训练批次(batch)的平均值，惩罚系数则是一个可设定参数。

本发明的有益技术效果如下：

通过使用本发明所述方案，一方面正则化的损失函数可以使训练得到的深度神经网络具有更好的鲁棒性，另一方面可以使得深度神经网络学习到的图像特征更加具有区分性从而提高图像检索的准确率。

附图说明

图1为本发明实施例的的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。

参考图1所示，本发明一实施例提供一种基于输入梯度正则化的图像检索方法，其中深度神经网络选用三元组损失函数，并选择训练损失相对于输入图像的梯度来构成正则项，具体地包括如下步骤：

S101，将用于训练图像检索模型的图像数据按照如下方法构成训练批次(batch)：从图像数据中随机选取P个类别，再从每个类别中随机选取K张图片，构成一个批次大小(batch size)为P*K的训练批次(batch)。

S102，将上述一个训练批次(batch)的图像数据输入到深度神经网络中进行特征提取，得到图像数据的图像特征记为B＝{(x₁，y₁)，(x₂，y₂)…，(x_N，y_N)}，其中N是一个训练批次(batch)所包含的图片数量，x_i∈R^m是一张图片所提取出的图像数据特征，m是特征的维度，y_i是该图片所对应的类别标签；

S201，一个训练批次(batch)中的所有图片都轮流作为anchor，将其图像特征记为x_a；从与anchor图片为同一类别的K-1张图片中选取一张图片作为正样本，其图像特征为x_p＝argmax_{i＝1，2，…，K-1}||x_i-x_a||₂，该图片为与anchor图片距离最远的正样本；从与anchor图片为不同类别的(P-1)*K张图片中选取一张图片作为负样本，其图像特征为x_n＝argmin_{i＝1，2，…，(P-1)*K}||x_i-x_a||₂，该图片为与anchor图片距离最近的负样本；最终一个训练批次(batch)可以得到P*K个三元组(x_a，x_p，x_n)。

S202，计算一个训练批次(batch)的平均训练损失，损失函数为：

再计算平均损失相对于训练批次(batch)中所有输入图片的梯度，将每张图片所对应的梯度记为

其中i＝1，2，…，P*K。

S30，计算梯度

的L2范数的平方，并取一个训练批次(batch)的平均值，将其乘以惩罚系数后添加到原来的训练损失上，用新的训练损失作为监督来更新深度神经网络的参数。新的训练损失为：

其中

为步骤S202中一个训练批次(batch)的平均训练损失，

步骤S202中平均损失相对于一张输入图片的梯度，λ是一个可以设定的参数。

S40，重复以上步骤直至深度神经网络训练结束；

步骤S30中的λ是一个可以设定的参数，通过调整参数λ的大小可以改变输入图片的微小扰动对深度神经网络的影响程度，最终选择验证效果最好的惩罚参数λ和用其训练得到的深度神经网络应用于图像检索。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。