CN109829377A

CN109829377A - 一种基于深度余弦度量学习的行人重识别方法

Info

Publication number: CN109829377A
Application number: CN201811621891.7A
Authority: CN
Inventors: 王敏; 单纯; 蔡鑫鑫
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-31

Abstract

本发明公开一种基于深度余弦度量学习的行人重识别方法，通过在卷积softmax动态分类器上的一个简单重复参数化来使得余弦相似度达到最佳效果，在测试时，最终的分类层可以从网络中剥离，以方便对使用余弦相似度量的未见个体进行最邻近查询。本发明将分类方法与度量学习方法相结合，通过softmax分类器的再参量化，从而将度量学习目标直接编码到分类任务中。

Description

一种基于深度余弦度量学习的行人重识别方法

技术领域

本发明属于计算机视觉和深度学习技术领域，具体涉及一种基于深度余弦度量学习的行人重识别方法。

背景技术

行人重识别是视频监控中的常见任务。给定一个查询图像后在一个可能包含同一个人的大型图像库中进行搜索。由于图像集通常是从不同的相机和不同的地点采集，因此系统必须处理姿势的变化，不同的照明条件以及背景的变化。自从大型的数据集的出现，深度学习已经成为行人重识别领域的主要使用方法，但是仍然有许多的问题和挑战等待去解决。比如有关直接度量学习目标的方法与非直接在分类框架下训练方法的优劣比较的讨论一直持续进行。

直接度量学习的优势在于能够将相似度量直接编码为训练目标，但是在过去的使用中发现该方法同样存在一些问题。首先，度量学习目标存在如不平滑、缺少邻近结构文本信息等不利于优化的特性。其次，相似度的定义仅仅基于成员关系，在分类体系中，直接度量学习并不一定优于基于训练分类的方法。

在这样的情况下，直接度量学习往往会被简化为最小化同类样本间距，并且在不同样本间产生一个差值。而基于分类的方法则是在训练集的标识集上训练出一个分类器，然后使用网络的底层特征表示去执行最邻近查询，但是通常情况下，那些与softmax分类器一起训练好网络表示并不一定能够直接用于图像检索任务。

发明内容：

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于深度余弦度量学习的行人重识别方法，将直接度量学习与分类方法相结合，提供一种简单有效的再参数化softmax分类器，从而将度量学习目标能够直接编码到分类任务。

技术方案：本发明的一种基于深度余弦度量学习的行人重识别方法，先调整输入图像的尺寸，将图像呈现到RGB空间的网络中，然后通过一系列的卷积层调整feature map的尺寸，接着提取总体特征向量进行归一化以后，将特征投射到应用cosine softmax分类器的单位球面上，最后分类器通过最大可能性来选择类；

包括以下步骤：

步骤1：将输入图像调整为对应尺寸(即行人图像的最佳取值例如128*64) 并呈现到RGB网络中，且RGB网络包含若干遵循预激活排列的残差块；

步骤2：通过对应卷积层将feature map的尺寸减小到对应大小(例如16*8)；

步骤3：将上述所得结果放入dense层中提取总体特征向量；

步骤4：使用l₂normalization对特征向量进行归一化；

步骤5：将归一化后的特征投射到应用cosine softmax分类器的单位球面上；

步骤6：分类器通过最大可能性来选择类。

进一步的，所述步骤2的具体内容为：为避免梯度消失，在网络结构中引入了残差网络块，同时引入了WRN中提及的方法以提高残差网络的性能，具体如下：首先将调整后图像依次放入两个卷积核大小为3*3、步长为1的卷积层，得到输出结果的大小为32*128*64；然后将输出结果放入池化层，其中滑动窗口的大小为3*3，步长为2，采用最大值池化的方式得到输出结果，输出的大小为 32*64*32；把池化后的输出结果放入6个按照预激活排列的残差块中，每个残差块均包含2个卷积层，所有卷积的尺寸都为3*3，并且最大池化被步幅为2的卷积层替代，输出的结果的大小为128*16*8；这样当特征层空间分布率减少时，为了避免障碍，通道的数量会相应增加。

进一步的，所述步骤4中在整个网络的最终层进行归一化，并归一化应用在编码器网络的最终层，从而确保投射到cosine softmax分类器的特征表达是单位长度的。具体方法为：步骤3和步骤4中通过两个卷积层以及6个残差网络块提取特征向量后，将提取到的特征向量传入dense层中提取总体特征向量；要实现总体特征向量x(x₁,x₂,....,x_n)归一化到单位l₂范数，建立一个从x到x′的映射，使得x′的l₂范数为1，从而得到其中

进一步的，所述步骤5的具体内容为：

步骤501：将权值归一化为单位长度；

步骤502：cosine softmax分类器表示为

其中y_i表示类标号；r＝f(x),r∈R^d参数网络编码器的潜在特征表示；κ为自由比例缩放参数；表示第k个类的权值向量，通过权向量的长度与其方向耦合的方法来加速随机梯度下降的收敛性；且对数概率与训练样本和参数化类平均方向的余弦相似度成正比；通过减少交叉熵损失，样本从决策边界推到他们的参数平均值，因此参数向量成为了在条件下所有样本的代理，比例参数κ控制条件概率的形状，当这个参数作为自由参数被保留时，优化器会随着类之间的重叠的减少而逐渐增加其值，样本之间的差额可以通过调整比例权值的衰减来实现。

有益效果：本发明本发明提出了将两种方法的优点融合，在训练后，分类器可以从网络中剔除。当查询未被看到的ID时，分类器可以使用最邻近查询进行操作。因此本发明提供了一个不需要复杂的抽样策略、适用于度量学习的有效方案。

附图说明

图1为本发明的整体流程图；

图2为实施例中使用cosin softmax分类器对检测目标进行分类示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本实施例的的一种基于深度余弦度量学习的行人重识别方法，包括以下步骤：

(1)获取原始图像，将输入图像的大小调整为128*64，再把调整后的图像 RGB空间的网络中。

(2)将图像先后放入两个卷积核大小为3*3、步长为1的卷积层，得到输出结果的大小为32*128*64。接着将上一步的结果放入池化层，其中滑动窗口的大小为3*3，步长为2，采用最大值池化的方式，得到输出结果，输出的大小为 32*64*32。

(3)把上一步的结果放入6个按照预激活排列的残差块中，每个残差块包含 2个卷积层，所有卷积的尺寸都为3*3，并且最大池化被步幅为2的卷积层替代，输出的结果的大小为128*16*8。

(4)将上一步的结果放入dense层中提取总体特征向量，特征向量的大小为 128。

(5)在dense层之后，经过l₂层将特征进行归一化，再把归一化后的特征投射到应用cosine softmax分类器的单位球面上。分类器的参数方程如下：

其中r＝f(x),r∈R^d参数网络编码器的潜在特征表示，同分类器一起被训练；κ为自由比例缩放参数；对数概率的函数建模可以从生产方面展开，如果类条件可能性遵循vMF分布：

其中κ为共享集中参数，C_d为规度器；在同等的先验假设条件下，分类器的参数方程为后验概率。vMF 分布时R^d中d-1维球面上的各向同性分布，它的峰值在平均方向附近，并且随着余弦相似度的减少而衰减。

(6)最后分类器通过最大可能性来选择类，输出结果。

当标准的softmax分类器同特征编辑器一起通过最小化交叉熵损失训练时，编码器的参数将会被调整，使得样本尽可能的远离决策边界，但是对于已经被用去激活具体函数形式的类均值是不必要的。这种行为对于度量学习是有问题的，因为类成员相似度在决策边界的方向上被编码，而不是在其特征表示上。通过上述实施例可以看出，本发明通过参数化给表示空间施加了一个余弦相似性，使得分类器在表示空间上产生一个紧凑的集群。

实施例1：

本实施例以某个行人为例，采用本发明的基于余弦度量学习的行人重识别方法进行检测和识别，如图2所示，使用cosin softmax分类器对检测目标进行分类，从而使得度量学习目标能够编译到分类任务；这使得在使用度量学习方法时，能够避免使用复杂的抽样策略的同时，完成行人的重识别。

Claims

1.一种基于深度余弦度量学习的行人重识别方法，其特征在于：先调整输入图像的尺寸，将图像呈现到RGB空间的网络中，然后通过一系列的卷积层调整feature map的尺寸，接着提取总体特征向量进行归一化以后，将特征投射到应用cosine softmax分类器的单位球面上，最后分类器通过最大可能性来选择类；

包括以下步骤：

步骤1：将输入图像调整到对应尺寸并呈现到RGB网络中，且RGB网络包含若干遵循预激活排列的残差块；

步骤2：通过对应卷积层将feature map的尺寸减小到对应大小；

步骤3：将上述结果放入dense层中，并提取总体特征向量；

步骤4：使用l₂normalization对特征向量进行归一化；

步骤6：分类器通过最大可能性来选择类。

2.根据权利要求1所述的基于深度余弦度量学习的行人重识别方法，其特征在于：所述步骤2的具体内容为：首先将调整后图像依次放入两个卷积核和步长相同的卷积层，得到输出结果；然后将输出结果放入池化层，采用最大值池化的方式得到输出结果，把池化后的输出结果放入6个按照预激活排列的残差块中，每个残差块均包含2个卷积层，并且最大池化被步幅为2的卷积层替代，得到对应的输出结果。

3.根据权利要求1所述的基于深度余弦度量学习的行人重识别方法，其特征在于：所述步骤3和步骤4中通过两个卷积层以及6个残差网络块提取特征向量后，将提取到的特征向量传入dense层中提取总体特征向量；要实现总体特征向量x(x₁,x₂,....,x_n)归一化到单位l₂范数，建立一个从x到x′的映射，使得x′的l₂范数为1，从而得到其中

4.根据权利要求1所述的基于深度余弦度量学习的行人重识别方法，其特征在于：所述步骤5的具体内容为：

步骤501：将权值归一化为单位长度；

步骤502：cosine softmax分类器表示为

其中y_i表示类标号；r＝f(x),r∈R^d参数网络编码器的潜在特征表示；κ为自由比例缩放参数；表示第k个类的权值向量，通过权向量的长度与其方向耦合的方法来加速随机梯度下降的收敛性；且对数概率与训练样本和参数化类平均方向的余弦相似度成正比。