CN113158955A

CN113158955A - 基于聚类引导和成对度量三元组损失的行人重识别方法

Info

Publication number: CN113158955A
Application number: CN202110481365.0A
Authority: CN
Inventors: 曾威瑜; 曹九稳; 王天磊; 王建中
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-23
Anticipated expiration: 2041-04-30
Also published as: CN113158955B

Abstract

本发明公开了一种基于聚类引导和成对度量三元组损失的行人重识别方法。本发明步骤：1、基于深度学习网络输出的特征和其对应的标签，获取相似度矩阵；2、计算成对度量中的余弦相似度度量难样本采样损失；3、计算成对度量中的欧式相似度度量难样本采样损失。4、计算聚类引导修正项，并融合所有损失得到聚类引导和成对度量三元组损失。5、聚类引导和成对度量三元组损失与基于表征学习的交叉熵损失结合得到最终损失，加入网络参数训练更新。本发明结合成对度量方式使得深度学习模型能够互补性地从不同角度挖掘样本相似度，并通过聚类引导的修正项最大化样本之间的相似度，最终应用到行人重识别的深度学习训练中提高模型的表现。

Description

基于聚类引导和成对度量三元组损失的行人重识别方法

技术领域

本发明属于计算机视觉和模式识别领域，涉及一种基于相似度聚类引导和成对相似度度量三元组损失的行人重识别方法。

背景技术

近年来，由于在公共场所(校园，购物中心，机场，医院等)广泛使用大型多摄像机监视系统以及对智能监视和安全系统的需求，行人检测，行人重识别等技术得到了快速的发展。在计算机视觉领域，行人重识别(Person Re-identification)被认为是行人跟踪系统中的下一个高级任务，其旨在预测不同多摄像机监视下行人的身份对应关系。当前解决行人重识别问题主要采用深度学习的方法，并以提取特征后直接学习特征张量与标签对应关系的表征学习方法，和学习特征张量之间相似度度量关系的度量学习方法这两种方法为主。

现有的行人重识别度量学习研究主要在三元组损失函数的基础上提出各种改进，这些度量学习工作存在以下两个问题：

1.较早的工作通过发掘深度网络提取的特征之间自身的相关性来对三元组损失函数进行提升，但是这些工作由于时间过久，存在与现有神经网络无法兼容的问题；

2.较新的工作通过在三元组损失函数中引入附加的权重因子实现自主调节和自主学习，但是新引入的参数会增加模型的计算复杂度和网络训练设置的调参难度。

本发明通过在三元组损失中引入欧式度量和余弦度量两种相似度度量方法，提出成对度量三元组损失，并在成对度量三元组损失的基础上引入聚类引导的修正项，提出了基于聚类引导和成对度量三元组损失。本发明在特征空间中引入成对的度量方式，互补性地量化特征分别在欧式距离和余弦距离中的相似性，但是成对度量主要提高了同一标签的不同样本之间的精度，无法解决异常值过多的问题。因此，在此基础上采用了聚类指导的修正项，作用于具有相同标签的所有样品以进行挖掘样本的相似性，同时减弱离群值对损失的影响，有效提高了行人重识别的排名序列准确率和平均精度。

发明内容

针对现有行人重识别方法存在的不足，本发明提出基于聚类引导和成对相似度度量三元组损失的行人重识别方法。本发明提高以难样本采样三元组损失为基础的度量学习的性能，结合成对度量方式使得深度学习模型能够互补性地从不同角度挖掘样本相似度，并通过聚类引导的修正项最大化样本之间的相似度，最终应用到行人重识别的深度学习训练中提高模型的表现。

本发明的技术方案主要包括如下步骤：

步骤1、基于深度学习网络输出的特征和其对应的标签，获取相似度矩阵；

步骤2、计算成对度量中的余弦相似度度量难样本采样损失；

步骤3、计算成对度量中的欧式相似度度量难样本采样损失。

步骤4、计算聚类引导修正项，并融合所有损失得到聚类引导和成对度量三元组损失。

步骤5、聚类引导和成对度量三元组损失与基于表征学习的交叉熵损失结合得到最终损失，加入网络参数训练更新。

所述的步骤1具体包括以下几个步骤：

1-1、传入深度学习网络输出的特征

其中b为训练批次，c为张量维数，特征X对应的特征标签向量为

1-2、将P张成b×b的矩阵我们可以得到矩阵形式的标签l1：

l1＝P.view(b，1).expand([b，b])

其中.view(b，1)代表将向量张成2维矩阵，第二维目前并不保存元素，而.expand([b，b])表示将第一维的数据逐列复制到以b×b为大小的矩阵范围内，不同行数表示不同样本，则相同样本的不同维数之间保存的标签值是一样的；

1-3、将P张成b×b的矩阵，再经过矩阵转置我们可以得到矩阵形式的标签l2：

l2＝P.view(b，1).expand([b，b]).t

其中.t为矩阵转置操作；

1-4、对l1和l2取相等判断式，如果相应位置标签相等将被保留，最终得到标签对角矩阵sim：

sim＝(l1＝＝l2)

其中＝＝为判断值是否相等，不相等则值被去除，相等则原值保留；

所述的步骤2前面得到的相似度矩阵和神经网络提取的特征，求出成对度量中的余弦相似度度量难样本采样损失，包括以下几个步骤：

2-1、对特征张量X按列进行数据正则化；

2-2、计算余弦距离度量下的余弦相似度矩阵dist_c：

dist_c＝clamp(X·X^T，-1-ζ，1+ζ)

其中ζ为一个极小的常数，clamp为数据截断操作，将余弦距离矩阵中的值截断在[-1-ζ，1+ζ]的区间内，这一步可以剔除矩阵运算中分母出现异常值导致计算无法进行的情况；

2-3、通过对矩阵元素排序，将余弦相似度矩阵中正样本对中距离最大，相似度最低的难样本提取出来得到难正样本对距离h_p，负样本对中距离最小，相似度最高的难样本提取出来得到负样本对距离h_n，按照难正样本对距离h_p构建对应的正样本对标签矩阵y，所有对应的正样本对的位置标签值都和负样本对不同，以此区分正负样本对。

2-4、计算成对度量中的余弦相似度度量难样本采样损失L_c：

L_c＝max(0，-y·(h_n-h_p)+m)

其中max为最大值函数，返回两值之中的最大值，用于限制损失L_c出现小于0的情况，m为损失间隔，为一个预设的常数。三元组形式损失旨在最大化难负样本对距离，最小化难正样本对距离。

所述的步骤3，计算成对度量中的欧式相似度度量难样本采样损失，包括以下几个步骤：

3-1、计算欧式距离度量下的欧式相似度矩阵。

3-2、通过对矩阵元素排序，将欧式距离相似度矩阵中正样本对中距离最大，相似度最低的难样本提取出得到难正样本对距离h′_p，负样本对中距离最小，相似度最高的难样本提取出得到负样本对距离h′_n，按照难正样本对距离h′_p构建对应的正样本对标签矩阵y′，所有对应的正样本对的位置标签值都和负样本对不同。

3-3、计算成对度量中的欧式相似度度量难样本采样损失L_e：

L_e＝max(0，-y′·(h′_n-h′_p)+m)

其中最大值函数max限制损失L_e出现小于0的情况，损失间隔m预设为一个默认常数。

步骤4，计算聚类引导修正项，并融合所有损失得到最终损失，包括以下几个步骤：

4-1、基于欧氏距离度量矩阵，除样本自身与自身距离以外，其余所有正样本对距离和矩阵其他位置从数值上区分，得到正样本对模板。

4-2、将正样本对模板与原欧氏距离度量矩阵做逐元素的相乘，使得欧氏距离度量矩阵非正样本对距离被去除，将剩下得到的所有正样本对距离存入向量中，得到正样本对距离向量。

4-3、正样本对距离向量取平均值，输入给硬S型函数，其中硬S型函数有：

其中x为函数输入，y(x)为函数输出，c为限制S型函数曲率的值，设置为一个默认常数，θ为一个很小的常数，防止S型函数值取0。正样本对距离向量的平均值经过硬S型函数约束，得到聚类引导修正项L_cl。

4-4、融合欧式相似度度量难样本采样损失，余弦相似度度量难样本采样损失和聚类引导修正项为总的损失函数值：

L_cpm＝α·L_c+β·L_e+γ·L_cl

其中α，β和γ分别为三种分支损失的权重因子，根据我们的实验测试验证权重因子将被确定为合适的常数。

所属的步骤5，聚类引导和成对度量三元组损失与基于表征学习的交叉熵损失结合得到最终损失，加入网络参数训练更新，包括以下几个步骤：

5-1、随机选取一个批次的行人图片数据集。

5-2、通过深度卷积网络的前向传播提取该批次行人图片的深度特征f_i。

5-3、聚类引导和成对度量三元组损失结合交叉熵损失得到最终损失

L＝L_id+L_cpm

＝L_id+α·L_e+β·L_c+γ·L_cl

其中L_cpm表示聚类引导和成对度量三元组损失，L_id为表征学习的交叉熵损失。

5-4、反向传播计算网络参数更新值

5-5、依据损失计算得到的更新值更新网络模型参数：

其中上标k表示当前迭代数，上标k+1为下一次迭代数，μ为训练时的学习率。

本发明有益效果如下：

本发明将包含基于相似度聚类引导和成对相似度度量的三元组损失应用于行人图像的重识别任务中，使模型具有很强的对行人特征的辨别力。通过结合欧式度量和余弦度量，使得难样本采样三元组损失能够充分学习图像的全局特征来提高度量学习性能。在处理离群值问题上，本发明引入了聚类引导修正项，提高了对相同类型样本图像的识别率，提高模型收敛能力和表现，并且没有引入多余的模块和冗余的参数。

附图说明

图1为本发明部署在深度卷积神经网络处理过程中的示意图，以及损失的学习过程示意图；

图2为本发明构建的成对度量损失学习示意图；

图3为本发明构建的成对度量损失提取的不同正负样本对的示意图及其度量距离数值。

图4为本发明构建的成对度量损失对余弦度量部分超参数的验证。

图5为本发明和其原型对10类行人样本实验的t-SNE可视化对比及其离群值标识。

图6为本发明和其原型对同一类行人正样本识别准确率的可视化对比。

图7为本发明(成对相似度度量三元组损失为PM-Triplet，聚类引导的成对相似度度量三元组损失为CPM-Triplet)和其原型在统一数据集中的表现对比。其中(a)展示了不同聚类引导权重参数γ的表现对比，(b)展示了不同骨干网络下的表现对比。

具体实施方式

下面结合附图和具体实施方式对本发明作详细说明，以下描述仅作为示范和解释，并不对本发明作任何形式上的限制。

通用的损失识别步骤已在“发明内容”中详述，现结合实例对本发明的识别流程做具体描述，图1是整体的处理流程示意图。

本发明的技术方案主要包括如下步骤：

步骤1、本步骤基于深度卷积学习网络输出的特征和其训练批次中每个特征样本对应的标签，获取相似度标签矩阵；

1-1、传入深度学习网络输出的特征

1-2、将P张成b×b的矩阵我们可以得到矩阵形式的标签l1：

l1＝P.view(b，1).expand([b，b])

1-3、将P张成b×b的矩阵再经过矩阵转置我们可以得到矩阵形式的标签l2：

l2＝P.view(b，1).expand([b，b]).t

其中.t为矩阵转置，.view(b，1)代表将向量张成2维矩阵，.expand([b，b])表示将第一维的数据逐列复制到以b×b为大小的矩阵范围内；

sim＝(l1＝＝l2)

其中＝＝为判断值是否相等，不相等则值被去除，置为0，相等则原值保留；

如图2所示，本发明构建的成对度量损失学习示意图，具体：

步骤2、依据前面得到的相似度矩阵和神经网络提取的特征，通过余弦角和正则化方法，计算成对度量中的余弦相似度度量难样本采样损失，包括以下几个步骤：

2-1、对特征张量X按列进行数据正则化；

2-2、计算余弦距离度量下的余弦相似度矩阵dist_c：

dist_c＝clamp(X·X^T，-1-ζ，1+ζ)

2-3、通过对矩阵元素排序，将余弦相似度矩阵中正样本对中距离最大，相似度最低的难样本提取出来得到难正样本对距离h_p，负样本对中距离最小，相似度最高的难样本提取出来得到负样本对距离h_n，按照难正样本对距离h_p构建对应的正样本对标签矩阵y，所有对应的正样本对的位置标签值都为1，其余为0，以此将正负样本对区分开来。

2-4、计算成对度量中的余弦相似度度量难样本采样损失L_c：

L_c＝max(0，-y·(h_n-h_p)+m)

其中max为最大值函数，返回两值之中的最大值，用于限制损失L_c出现小于0的情况，m为损失间隔，根据习惯预设为0.3。三元组形式损失旨在最大化难负样本对距离，最小化难正样本对距离。

本发明所述的正样本，表示对于目标样本而言，与目标样本相同类别的样本。所述的负样本，表示对目标样本而言，与目标样本不同类别的样本。所述的正样本对，表示会被辨识为同一类样本的两个图像特征组；负样本对，则表示为会被辨识为非同类样本的两个图像特征组。

例如在行人重识别场景中：对于目标行人张三而言，A相机拍摄到张三的图像记为a，B相机拍摄到张三的图像记为b1，B相机拍摄到的行人李四的图像记为b2。a和b1则构成了正样本对，而a和b2(或者b1和b2)则构成了负样本对。

如图3-图6所示，所述的步骤3，计算成对度量中的欧式相似度度量难样本采样损失，包括以下几个步骤：

3-1、计算欧式距离度量下的欧式相似度矩阵。

3-2、通过对矩阵元素排序，将欧式距离相似度矩阵中正样本对中距离最大，相似度最低的难样本提取出得到难正样本对距离h′_p，负样本对中距离最小，相似度最高的难样本提取出得到负样本对距离h′_n，按照难正样本对距离h′_p构建对应的正样本对标签矩阵y′，所有对应的正样本对的位置标签值都为1，其余为0。

3-3、计算成对度量中的欧式相似度度量难样本采样损失L_e：

L_e＝max(0，-y′·(h′_n-h′_p)+m)

其中最大值函数max限制损失L_e出现小于0的情况，损失间隔m预设为0.3。

4-1、基于欧氏距离度量矩阵，将除了样本自身本身距离以外的所有正样本对距离置1，矩阵其他位置置0，得到正样本对模板。

其中x为函数输入，y(x)为函数输出，c为限制S型函数曲率的值，默认设置为12，θ为一个很小的常数，防止S型函数值取0。正样本对距离向量的平均值经过硬S型函数约束，得到聚类引导修正项L_cl。

L_cpm＝α·L_c+β·L_e+γ·L_cl

其中α，β和γ分别为三种分支损失的权重因子，根据我们的实验测试，α默认为1，根据实验分析我们将β设置为1，γ设置为3.5。

步骤5、聚类引导和成对度量三元组损失与基于表征学习的交叉熵损失结合得到最终损失，加入网络参数训练更新，包括以下几个步骤：

5-1、随机选取一个批次的行人图片数据集，默认为128，其中不同类样本有16类，同标签样本中包含8个同类图片。

5-2、通过深度卷积网络的前向传播提取该批次行人图片的深度特征f_i，值得一提的是图像经过随机裁剪，随机擦除的预处理。

L＝L_id+L_cpm

＝L_id+α·L_e+β·L_c+γ·L_cl

其中L_cpm表示聚类引导和成对度量三元组损失，L_id为表征学习的交叉熵损失，表示为：

其中N为批次包含样本数，p(k)表示第k类样本的预测值，y为真实样本标签。因此显示本发明可以与最常用的表征学习损失结合使用。

5-4、反向传播计算网络参数更新值

5-5、依据损失计算得到的更新值更新网络模型参数：

其中上标k表示当前迭代数，上标k+1为下一次迭代数，μ为训练时的学习率，配置时默认为0.0035，随着训练迭代次数的增加，会下降两次，每次下降为原来的1/10。

如图7所示，为本发明(成对相似度度量三元组损失为PM-Triplet，聚类引导的成对相似度度量三元组损失为CPM-Triplet)和其原型在统一数据集中的表现对比。其中(a)展示了不同聚类引导权重参数γ的表现对比，(b)展示了不同骨干网络下的表现对比。

本发明提高以难样本采样三元组损失为基础的度量学习的性能，结合成对度量方式使得深度学习模型能够互补性地从不同角度挖掘样本相似度，并通过聚类引导的修正项最大化样本之间的相似度，最终应用到行人重识别的深度学习训练中提高模型的表现。

Claims

1.基于聚类引导和成对度量三元组损失的行人重识别方法，其特征在于包括如下步骤：

步骤2、计算成对度量中的余弦相似度度量难样本采样损失；

步骤3、计算成对度量中的欧式相似度度量难样本采样损失；

步骤4、计算聚类引导修正项，并融合所有损失得到聚类引导和成对度量三元组损失；

2.根据权利要求1所述的基于聚类引导和成对度量三元组损失的行人重识别方法，其特征在于所述的步骤1具体包括以下几个步骤：

所述的步骤1具体包括以下几个步骤：

1-1、获取深度学习网络输出的特征张量

其中b为训练批次，c为张量维数，特征张量X对应的特征标签向量为

1-2、将特征标签向量P张成b×b的矩阵，从而得到矩阵形式的标签l1：

l1＝P.view(b，1).expand([b，b]) (1)

1-3、将特征标签向量P张成b×b的矩阵，再经过矩阵转置得到矩阵形式的标签l2：

l2＝P.view(b，1).expand([b，b]).t (2)

其中.t为矩阵转置操作；

sim＝(l1＝＝l2) (3)

其中＝＝为判断值是否相等，不相等则值被去除，相等则原值保留。

3.根据权利要求2所述的一种基于聚类引导和成对度量三元组损失的行人重识别方法，其特征在于得到的相似度量矩阵将应用于之后的难样本采样，所述的步骤2通过计算余弦度量矩阵找出最难样本，具体实现流程如下：

2-1、对特征张量X按列进行数据正则化；

2-2、计算余弦距离度量下的余弦相似度矩阵dist_c：

dist_c＝clamp(X·X^T，-1-ζ，1+ζ) (4)

其中ζ为一个极小的常数，clamp为数据截断操作，将余弦距离矩阵中的值截断在[-1-ζ，1+ζ]的区间内，从而剔除矩阵运算中分母出现异常值导致计算无法进行的情况；

2-3、对余弦相似度矩阵的元素排序，获取余弦相似度矩阵中所有样本对；将正样本对中距离最大、相似度最低的难样本提取出来，得到难正样本对距离h_p；将负样本对中距离最小、相似度最高的难样本提取出来，得到负样本对距离h_n；按照难正样本对距离h_p构建对应的正样本对标签矩阵y，所有对应的正样本对的位置标签值都和负样本对不同，以此区分正负样本对；

2-4、计算成对度量中的余弦相似度度量难样本采样损失L_c：

L_c＝max(0，-y·(h_n-h_p)+m) (5)

其中max为最大值函数，返回两值之中的最大值，用于限制损失L_c出现小于0的情况，m为损失间隔，为一个预设的常数；三元组形式损失旨在最大化难负样本对距离，最小化难正样本对距离。

4.根据权利要求3所述的一种基于聚类引导和成对度量三元组损失的行人重识别方法，其特征在于所述的步骤3通过计算欧式度量矩阵找出最难样本，构建三元组损失，具体实现流程如下：

3-1、计算欧式距离度量下的欧式相似度矩阵；

3-2、通过对矩阵元素排序，将欧式距离相似度矩阵中正样本对中距离最大，相似度最低的难样本提取出得到难正样本对距离h′_p，负样本对中距离最小，相似度最高的难样本提取出得到负样本对距离h′_n，按照难正样本对距离h_p′构建对应的正样本对标签矩阵y′，所有对应的正样本对的位置标签值都和负样本对不同；

3-3、计算成对度量中的欧式相似度度量难样本采样损失L_e：

L_e＝max(0，-y′·(h′_n-h′_p)+m) (6)

5.根据权利要求4所述的一种基于聚类引导和成对度量三元组损失的行人重识别方法，其特征在于所述的步骤4通过欧式度量矩阵构造所有正样本模板，将所有正样本滤出；通过硬S形函数输出聚类引导的纠正项，具体实现流程如下：

4-1、基于欧氏距离度量矩阵，除样本自身与自身距离以外，其余所有正样本对距离和矩阵其他位置从数值上区分，得到正样本对模板；

4-2、将正样本对模板与原欧氏距离度量矩阵做逐元素的相乘，使得欧氏距离度量矩阵中的非正样本对距离被去除，将剩下得到的所有正样本对距离存入正样本对距离向量；

其中x为函数输入，即正样本对距离向量的平均值；y(x)为函数输出，c为限制硬S型函数曲率的值，设置为一个默认常数，θ为一个很小的常数，防止硬S型函数值取0；正样本对距离向量的平均值经过硬S型函数约束，得到聚类引导修正项L_cl；

4-4、融合欧式相似度度量难样本采样损失、余弦相似度度量难样本采样损失和聚类引导修正项为总的损失函数值：

L_cpm＝α·L_c+β·L_e+γ·L_cl

其中α，β和γ分别为三种分支损失的权重因子。

6.根据权利要求5所述的一种基于聚类引导和成对度量三元组损失的行人重识别方法，其特征在于所述的步骤5使用聚类引导和成对度量三元组损失进行反向传播和网络参数的更新操作，具体实现流程如下：

5-1、随机选取一个批次的行人图片数据集；

5-2、通过深度卷积网络的前向传播提取该批次行人图片的深度特征f_i；

L＝L_id+L_cpm

＝L_id+α·L_e+β·L_c+γ·L_cl

其中L_cpm表示聚类引导和成对度量三元组损失，L_id为表征学习的交叉熵损失；

5-4、反向传播计算网络参数更新值

5-5、依据损失计算得到的更新值更新网络模型参数：