CN113837228B

CN113837228B - 基于惩罚感知中心损失函数的用于细粒度物体检索方法

Info

Publication number: CN113837228B
Application number: CN202111005829.7A
Authority: CN
Inventors: 纪荣嵘; 李润
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2024-01-16
Anticipated expiration: 2041-08-30
Also published as: CN113837228A

Abstract

基于惩罚感知中心损失函数的用于细粒度物体检索方法，涉及深度度量学习和细粒度对象检索。包括以下步骤：1)使用resnet50网络对图片进行特征抽取，获得到对于输入信息的维度为2048的向量表征；2)将全连接层的权重当做细粒度物体的全局中心点来构建全新的tripletloss损失函数；3)在获得全局中心的基础上，计算每一个batch中的局部中心点，然后通过惩罚感知中心损失函数修正全局中心点，使最后参与计算的中心点尽可能接近实际意义上的中心点。充分利用全局数据分布和局部数据分布相结合的表达能力来学习高质量的距离度量。在广泛使用的数据集CUB‑200‑2011上验证该方法的有效性。

Description

基于惩罚感知中心损失函数的用于细粒度物体检索方法

技术领域

本发明涉及深度度量学习和细粒度对象检索，具体是涉及一种基于深度度量学习的惩罚感知中心损失函数的用于细粒度物体检索的深度神经网络。

背景技术

随着深度神经网络在各种计算机领域任务上取得卓越的效果，深度神经网络的影响力日益扩大。在各种通用领域的任务可以较为容易的获得极高的性能与效果，比如猫狗检索等等问题。可是如果对于特定领域的问题的检索上，例如鸟类检索、车辆ReID，往往会存在误识别和较低检索精度的问题。这是由于在特定领域中，相同类别物体的类内差异较大，不同物体对象的类间差异较小导致的。因此，细粒度物体检索逐渐成为当前研究的热门领域，它的主要目的是通过在特定领域的问题中减小相同类别物体的类内差异和扩大不同类别物体的类间差异，来解决在特定领域的检索问题。

由于细粒度检索是对于特定领域的问题的检索上，例如鸟类检索、车辆ReID。因此，在这样的设置中，物体实例彼此相似，并且在一个通用类中。因此，不同的实例只能通过细微的部分来区分，这是关键的挑战。传统的细粒度物体检索方法往往采用人工设计的特征，比如LBP,Bag-of-Visual-Words等(具体内容可以参考文献Lingxi Xie,JingdongWang,Bo Zhang,and Qi Tian.2015.Fine-grained image search.IEEE Transactions onMultimedia)，以及支持向量机来识别具有细粒度语义和视觉外观的实例。但这些人工设计的特征往往比较局限，它们对不同的环境和设备较为敏感，容易受到训练数据的干扰。随着深度学习的发展，深度神经网络被用于细粒度检索任务，并取得卓越的表现。近期，基于神经网络的方法(Xiu-Shen Wei,Jian-Hao Luo,Jianxin Wu,and Zhi-HuaZhou.2017.Selective Convolutional Descriptor Aggregation for Fine-GrainedImage Retrieval.IEEE Transactions on Image Processing.)提出利用粗粒度的显著性映射选择特征以提高检索性能的方法，说明目标定位的重要性。然而，利用粗粒度的显著性特征图和预训练的神经网络来提取的特征并不总是具有识别性，这需要精确的目标检测和实例分割。这往往需要设计复杂的网络结构和不能做到端到端训练，同时如此复杂的模型会导致泛化能力较差。

为解决上述问题，考虑使用深度度量学习来设计针对于细粒度检索问题的损失函数和网络结构来实现对于特定领域的问题的检索上，例如鸟类检索、车辆ReID。近来，目前基于代理点的损失函数设计成为深度度量学习的主要研究方向之一，例如基于代理点的损失函数(Xiawu Zheng,Rongrong Ji,Xiaoshuai Sun,Baochang Zhang,Yongjian Wu,andFeiyue Huang.2019.Towards Optimal Fine Grained Retrieval via DecorrelatedCentralized Loss with Normalize-Scale layer.In Proceedings of the Associationfor the Advance of Artificial Intelligence)通过改进经典的损失函数在细粒度检索问题上取得卓越的效果。尽管基于代理的triplet取得显著的进展，但这类工作通常在构建三元组时考虑局部数据的分布，往往忽略整个训练数据的全局分布，因为三元组是从训练数据的子集(通常是一批)中选取的。此外，该方法还存在一些数据点需要多次重复采样，而另一些数据点可能永远不会被采样的问题。因此，这种局部设置本质上不足以准确表征训练数据的整体几何结构，会导致模型对采样数据过拟合，而对未采样数据拟合不足。最后，在深度模型的训练中加入基于代理的学习使得上述问题更加严重，因为在每次迭代中只采样一小批来更新模型参数。此外，为解决深度神经网络容易过拟合的问题。考虑重新设计模型的损失函数，来解决上述问题。

发明内容

本发明的目的在于针对现有技术存在的在使用深度度量学习来设计针对于细粒度检索问题的损失函数时，没有将整个训练数据的全局分布和每一个batch中数据的局部分布特性综合起来考虑，以及一些数据点需要多次重复采样，而另一些数据点可能永远不会被采样等问题；提供一种基于深度度量学习的惩罚感知中心损失函数的用于细粒度物体检索的深度神经网络；本发明引入memory bank来存储全局中心，同时使用全局中心点来构造惩罚感知中心损失函数，使得模型更具鉴别性和泛化能力。

基于惩罚感知中心损失函数的细粒度检索方法，包括以下步骤：

1)使用resnet50网络对图片进行特征抽取，获得到对于输入信息的维度为2048的向量表征；

2)将全连接层的权重当做细粒度物体的全局中心点来构建全新的triplet loss损失函数；

3)在获得全局中心的基础上，计算每一个batch中的局部中心点，然后通过惩罚感知中心损失函数修正全局中心点，使最后参与计算的中心点尽可能接近实际意义上的中心点。

在步骤1)中，深度神经网络使用112*112大小的图片数据作为输入，单独使用一个resnet50网络对其特征抽取，在最后一个卷积层之后之后，使用一个全局池化层产生一个512维的判别特征，然后进入正则化层，将获得512维特征归一化到某一个超球面的表面层，然后进入Embedding Space，原始的欧氏距离||z_i-z_j||被转换为其中，(z_i，z_j，z_k)为数据集中的三个不同的样本经过resnet50网络对其特征抽取得到的特征，(z_i，z_j)是来自同一个类别的正样本对，(z_j，z_k)是来自不同类别的负样本对，/>(α是自定义缩放参数，||z||指的是对于变量z进行正则化操作。

在步骤2)中，所述构建全新的triplet loss损失函数的具体步骤可为：使用z_i对应类别的全局中心点来替换三元组(z_i，z_j，z_k)中的正样本z_j，使用与z_i不同类别的全局中心点W_j来替换三元组(z_i，z_j，z_k)中的负样本z_k，所以有三元组(z_i，W_li，W_j)，同时对于中心点也做正则化处理，加上原本用于全连接层之后的softmax损失函数得到全新的tripletloss损失函数：

λ₁和λ₂是两个等式的平衡参数，N是batch大小，C为batch中的类别数是与/>类别不相同的类别中心；/>是与类别相同的类别中心。

在步骤3)中，所述局部中心点C_m如下式：

其中，1{ }为指示函数，l_i为对应的类别的标签；batch中相同类别的特征直接平均获得该类别在当前batch中的局部中心点；通过惩罚感知策略β修正全局中心点：

其中，e_i为当前的epoch次数，E为总的训练epoch次数，通过训练时间来动态惩罚全局中心点；所述惩罚感知中心损失函数为：

本发明的优点如下：

本发明提出一种罚感知中心损失函数，它充分利用全局数据分布和局部数据分布相结合的表达能力来学习高质量的距离度量。本发明解决了以往在使用深度度量学习来设计针对于细粒度检索问题的损失函数时，没有将整个训练数据的全局分布和每一个batch中数据的局部分布特性综合起来考虑，以及一些数据点需要多次重复采样，而另一些数据点可能永远不会被采样等问题。本发明在广泛使用的数据集CUB-200-2011上验证该方法的有效性。

附图说明

图1为本发明的网络结构框架图。

图2为本发明的对应数据集的T-SNE效果展示图。

具体实施方式

以下实施例将结合附图对本发明作详细的说明。

本发明包括以下部分：

1.正则化层(Normalization)，如图1所示的Normalization层。网络使用112*112大小的图片数据作为输入，单独使用一个resnet50网络对其特征抽取，在最后一个卷积层之后之后，使用一个全局池化层产生一个512维的判别特征，然后进入正则化层，将获得512维特征归一化到某一个超球面的表面层，然后进入Embedding Space。所以，原始的欧氏距离||z_i-z_j||被转换为其中(z_i，z_j，z_k)为三元组对，(z_i，z_j)是来自同一个类别的正样本对，(z_i，z_j)是来自不同类别的负样本对，/>

2.存储体(memory bank)，为解决部分数据被多次重复采样，而另一些数据点可能永远不会被采样的问题，以及减少在传统的度量学习方法中构建三元组带来的大量计算。同时，将存储体定义为正则化层之后的全连接层的权重，与原始resnet50网络，这没有增加任何的存储空间，只是将全连接层的权重当做细粒度物体的全局中心点来构建全新的triplet loss损失函数。具体来说就是，使用z_i对应类别的全局中心点来替换三元组(z_i，z_j，z_k)中的正样本z_j，使用与z_i不同类别的全局中心点W_j来替换三元组(z_i，z_j，z_k)中的负样本z_k，所以有三元组/>同时对于中心点也做正则化处理，加上原本用于全连接层之后的softmax损失函数得到：

3.惩罚感知策略，如图1所示，在获得全局中心的基础上，计算每一个batch中的局部中心点，然后通过局部中心点来修正全局中心点，使得最后参与计算的中心点可能的接近实际意义上的中心点。局部中心点C_m的获得：

其中，1{ }为指示函数，l_i为对应的类别的标签。batch中相同类别的特征直接平均获得该类别在当前batch中的局部中心点。通过惩罚感知策略β来修正全局中心点：

其中，e_i为当前的epoch次数，E为总的训练epoch次数，通过训练时间来动态惩罚全局中心点。本发明的损失函数为：

以CUB-200-2011数据集为例进行说明。CUB-200-2011数据集包含1.2万张112*112大小的图片。图片总共可以分为200个类别的鸟类，每个鸟类都包含200张图片。

CUB-200-2011数据集中方法实验结果参见表1。

表1

从表1可以看出，在CUB-200-2011数据集上，在R@1，R@2，R@4和R@8指标上分别提高2.2，1.5，0.4，0.3个百分点。这种提高的难点于如何精准的区分只有细微差别的不同种类的的图片。

图2给出本发明的对应数据集的T-SNE效果展示图。可以看出，本发明解决一些数据点需要多次重复采样，而另一些数据点可能永远不会被采样等问题。本发明方法精确性更高。

Claims

1.基于惩罚感知中心损失函数的用于细粒度物体检索方法，其特征在于包括以下步骤：

1)使用resnet50网络对图片进行特征抽取，获得到对于输入信息的维度为2048的向量表征；在步骤1)中，深度神经网络使用112*112大小的图片数据作为输入，单独使用一个resnet50网络对其特征抽取，在最后一个卷积层之后，使用一个全局池化层产生一个512维的判别特征，然后进入正则化层，将获得512维特征归一化到某一个超球面的表面层，然后进入EmbeddingSpace，原始的欧氏距离||z_i-z_j||被转换为其中，(z_i，z_j，z_k)为数据集中的三个不同的样本经过resnet50网络对其特征抽取得到的特征，(z_i，z_j)是来自同一个类别的正样本对，(z_j，z_k)是来自不同类别的负样本对，/>α是自定义缩放参数，||z||指的是对于变量z进行正则化操作；

2)将全连接层的权重当做细粒度物体的全局中心点来构建全新的tripletloss损失函数，具体步骤为：使用z_i对应类别的全局中心点来替换三元组(z_i，z_j，z_k)中的正样本z_j，使用与z_i不同类别的全局中心点W_j来替换三元组(z_i，z_j，z_k)中的负样本z_k，所以有三元组同时对于中心点也做正则化处理，加上原本用于全连接层之后的softmax损失函数得到全新的tripletloss损失函数：

λ₁和λ₂是两个等式的平衡参数，N是batch大小，C为batch中的类别数，是与/>类别不相同的类别中心；/>是与/>相同的类别中心；

3)在获得全局中心的基础上，计算每一个batch中的局部中心点C_m，然后通过惩罚感知中心损失函数修正全局中心点，使最后参与计算的中心点尽可能接近实际意义上的中心点；

所述局部中心点C_m如下式：

其中，1{}为指示函数，l_i为对应的类别的标签；batch中相同类别的特征直接平均获得该类别在当前batch中的局部中心点；通过惩罚感知策略β修正全局中心点：

λ₁和λ₂是两个等式的平衡参数，N是batch大小，C为batch中的类别数，是与/>类别不相同的类别中心；/>是与/>相同的类别中心。