CN113095263B

CN113095263B - 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置

Info

Publication number: CN113095263B
Application number: CN202110429894.6A
Authority: CN
Inventors: 周玉; 孙彦景; 王亮博; 李锐
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2024-02-20
Anticipated expiration: 2041-04-21
Also published as: CN113095263A

Abstract

本发明提出遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置。在进行模型训练时，通过结构相同、参数共享的特征提取网络分别提取一对输入图像的特征图像。由于只有输入图像对之间存在遮挡区域的不同，其余参数保持一致，因此通过对两个特征图做差，即可得到遮挡区域所对应的差异特征。再通过注意力生成器为差异特征进行不等价的权重分配，对模型精度影响较大的特征分配更高的权重，之后再从原特征图中把分配好的特征给减去，保留较多的非遮挡区域。最后得到的两个特征图像送入池化层池化后再经全连接层进行基于损失函数的递归训练。本发明不依赖第三方监督信息，模型具备更高的准确度，能够实现更准确的遮挡下行人重识别。

Description

遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置

技术领域

本发明涉及行人重识别技术领域，具体涉及一种遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置。

背景技术

目前遮挡下的行人重识别方案主要利用额外的监督信息，主要是姿态估计和语义分割，通过联合训练来提升模型精度。例如Wang等人^[1]利用卷积神经网络和姿态估计模型来提取行人图像的局部特征作为图的节点，并提出自适应方向图卷积层来建模节点之间的关系信息和跨图嵌入对齐层共同学习嵌入局部特征的拓扑信息，最后通过图匹配直接预测两幅特征图之间的相似度得分。Miao等人^[2]利用额外训练的姿态估计模型来指示行人的哪些区域被遮挡，以便更好地利用未被遮挡区域的特征。Zhang等人^[3]利用了语义分割的方法，利用了语义分割和行人重识别之间的内在联系，提出了语义感知遮挡鲁邦网络，包含三个分支：全局分支、局部分支和语义分支。其中全局分支和局部分支对应全局特征和局部特征，语义分支用来指示行人未被遮挡的区域，最后三个分支在同一个框架中联合进行训练。

而在行人重识别方案中引入监督信息通常会造成一个问题：模型精度极大地依赖于姿态估计和语义分割的性能好坏。当生成的人体关键点或者语义信息由于遮挡而不准确时，这些方法就不能基于这些标志提取有效特征，从而导致模型性能下降。

[1]Wang,Guan'an,et al."High-order information matters:Learningrelation and topology for occluded person re-identification."Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020.

[2]Miao,Jiaxu,et al."Pose-guided feature alignment for occludedperson re-identification."Proceedings ofthe IEEE/CVF International Conferenceon ComputerVision.2019.

[3]Zhang,Xiaokang,et al."Semantic-Aware Occlusion-Robust Network forOccluded Person Re-Identification."IEEE Transactions on Circuits and Systemsfor Video Technology(2020).

发明内容

发明目的：为克服现有技术的缺陷，本发明提出一种不依赖监督信息的遮挡下行人重识别技术方案。本发明对图像中遮挡区域与图像深层特征之间的关系进行分析，通过训练模型来减小由于遮挡区域的存在而偏离真实值的特征所带来的影响，从而提升模型的精度，使之在遮挡情况下匹配到正确的行人。

技术方案：为实现上述目的，本发明提出以下技术方案：

一种遮挡下行人重识别模型训练方法，包括以下步骤：

(1)搭建遮挡下行人重识别模型，包括依次连接的特征提取网络、自注意力生成器、池化层、全连接层；

(2)将同一行人的无遮挡图像和有遮挡图像作为一对图像对，收集多个图像对构成训练样本集；

(3)对每一对图像对，通过所述特征提取网络分别提取两幅图像的特征图像，对两个特征图像求差，得到差异特征图像；

(4)通过所述自注意力生成器对所述差异特征图像进行以下处理：

其中，x为输入自注意力生成器的差异特征图像，y为自注意力生成器输出的差异特征图像，i和j表示图像中的位置索引，g(·)为一个实现卷积功能的转换函数，C(x)为归一化因子，f(·)为相似度函数；

(5)用所述两个特征图像分别与自注意力生成器输出的差异特征图像做差，得到两个新的特征图；

(6)将所述两个新的特征图依次送入池化层、全连接层，最后将所述两个新的特征图的相似度计算函数作为损失函数，通过损失函数进行模型的训练，直至损失函数的值满足预设的阈值要求。

针对所述遮挡下行人重识别模型训练方法，以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

可选的，所述特征提取网络包括第一特征提取网络和第二特征提取网络，第一、第二特征提取网络的结构相同且参数共享；其中，第一特征提取网络用于提取无遮挡图像的特征图像，第二特征提取网络用于提取有遮挡图像的特征图像。

可选的，所述第一、第二特征提取网络采用ResNet网络结构。

可选的，所述池化层和所述全连接层之间还设置有BN层。

可选的，所述损失函数的表达式为：

Loss＝αL_triplet+βL_cls+λL_diff

其中，α、β、λ为平衡参数，用于使L_triplet、L_cls和L_diff处于同一个数量级，L_diff为所述两个新的特征图之差，L_triplet表示经过池化层池化后所述两个新的特征图之差，L_cls表示经过全连接层处理后所述两个新的特征图之差。

可选的，所述f(·)为以下任意一种函数：点积函数、拼接函数、高斯函数、嵌入高斯函数。

相应地，本发明还提出一种装置，该装置包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时，实现所述的遮挡下行人重识别模型训练方法。

另外，本发明还提出一种遮挡下行人重识别方法，包括步骤：

(1)采用所述遮挡下行人重识别模型训练方法，训练出遮挡下行人重识别模型；

(2)采集任意两幅行人图像，对采集的图像进行预处理，将采集的图像处理成所述遮挡下行人重识别模型输入层所规定的格式；

(3)将经过预处理的两幅行人图像输入至所述遮挡下行人重识别模型，所述遮挡下行人重识别模型的全连接层输出所述两幅行人图像中的行人是否为同一人的判决结果。

针对所述遮挡下行人重识别方法，本发明还提出一种装置，所述装置包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时，实现所述的遮挡下行人重识别方法。

有益效果：与现有技术相比，本发明具有以下优势：

本发明没有引入额外的第三方监督信息，如姿态估计和语义分割，而是从图像的遮挡区域与其他区域深层特征之间的关系出发，通过训练神经网络模型来减小由于存在遮挡区域而偏离真实值的特征所带来的影响，从而提升模型的精度，使之在遮挡情况下匹配到正确的行人。相较于姿态估计和语义分割的方法，本发明实施步骤更为简单，且行人重识别的准确度更高。

附图说明

图1为实施例1所述遮挡下行人重识别模型训练方法的流程图；

图2为实施例1涉及的遮挡下行人重识别模型的结构图。

具体实施方式

本发明旨在摆脱对第三方监督信息的依赖，从对图像中遮挡区域与图像深层特征之间的关系出发，通过训练模型来减小由于遮挡区域的存在而偏离真实值的特征所带来的影响，从而提升模型的精度，使之在遮挡情况下匹配到正确的行人。

有鉴于此，本发明提出了一种遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置。

下面将结合附图和具体实施例对本发明作更进一步的说明。但应当理解的是，本发明可以以各种形式实施，以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例，并不意图将本发明限制于所说明的具体实施例。

实施例1：

本实施例提出一种遮挡下行人重识别模型训练方法，其流程如图1所示，包括以下步骤：

S1：搭建遮挡下行人重识别模型。

S2：将同一行人的无遮挡图像和有遮挡图像作为一对图像对，收集多个图像对构成训练样本集；

S3：对每一对图像对，通过所述特征提取网络分别提取两幅图像的特征图像，对两个特征图像求差，得到差异特征图像；

S4：通过所述自注意力生成器对所述差异特征图像进行权重分配；

S5：用所述两个特征图像分别与自注意力生成器输出的差异特征图像做差，得到两个新的特征图；

S6：将所述两个新的特征图依次送入池化层、全连接层，通过损失函数进行模型的训练，直至损失函数的值满足预设的阈值要求。

所述步骤S1中，遮挡下行人重识别模型如图2所示，本实施例中提出了一种新的框架-差分定位孪生网络，主要用于挖掘遮挡区域与其深层特征之间的关系，差分定位孪生网络后连接的则是现有的池化层、BN层、全连接层。

差分定位孪生网络包括第一特征提取网络、第二特征提取网络、自注意力生成器；第一、第二特征提取网络的结构相同且参数共享，其中，第一特征提取网络用于提取无遮挡图像的特征图像，第二特征提取网络用于提取有遮挡图像的特征图像。第一、第二特征提取网络采用卷积神经网络实现，本实施例中优选采用ResNet50网络结构。

本实施例中采用上述设计的原理是：

网络输入一对同一个行人经过随机遮挡与未遮挡的图片，之后通过骨干网(第一、第二特征提取网络)提取特征，由于两幅图片唯一的区别在于有无遮挡区域，而我们骨干网采用孪生网络的设计思想，其网络结构参数是共享的，因此经过骨干网提取特征后，两幅特征图的差异必然是因为遮挡区域而造成的。那么我们对两幅特征图做差，就可定位到遮挡区域所对应的深层特征。

自注意力模块-由于经过许多的卷积操作，遮挡区域的深层特征不仅仅只包含了遮挡区域的特征，也包含有遮挡区域附近未遮挡区域的特征，贸然将其置为0，反而会丢失掉许多信息。因此在差分定位机制后设计了自注意力模块，用来为差异特征进行合适的权重分配，对模型精度影响较大的特征分配更高的权重。之后再从原特征图中把分配好的特征给减去，保留较多的非遮挡区域，这样就能减小原特征图中差异特征所带来的影响，使得网络能够更好地学到视觉线索。

所述步骤S2中，构建训练样本集的具体方法为：利用随机擦除构建输入图像对，得到遮挡与未遮挡的行人图片，计算过程如下：随机选择一张行人图像A，随机选择一个矩形区域I_e,用随机值代替I_e里面的像素值。假设输入图片的大小为W×H，则图片的面积大小为S＝W×H，随机初始化擦除区域的面积大小为S_e，并且S_e和S的比值满足：

s_l和s_h均为预设的小于1的常数。擦除区域的纵横比为r_e。所以，我们可以得到擦除矩形区域的高和擦除区域的宽：

之后随机在图像A中选择一个点p(x_e,y_e)，如果x_e+W_e≤W,y_e+H_e≤H，则随机选择的矩形区域为A_e＝(x_e,y_e,x_e+W_e,y_e+H_e)，区域内的像素值我们用0值去代替。

所述步骤S3中，得到差异特征图像的具体步骤为：将图像对送入骨干网ResNet50(特征提取网络)中提取特征，得到两幅特征图f₁∈R^B×C×H×W,f₂∈R^B×C×H×W，其中f₁∈R^B×C×H×W为数据集中的行人特征图，f₂∈R^B×C×H×W为经过随机擦除后的行人特征图，B为输入批次数量，C为通道维度大小，H为特征图的高，W为特征图的宽。特征图得到之后，将其送入差分定位模块，对两幅特征图做差得到差异特征：

f_{_}＝|f₁-f₂| (3)

所述步骤S4中，通过所述自注意力生成器对所述差异特征图像进行权重分配。具体来说，得到差异特征之后，我们需要将其送入自注意力生成器，自注意力生成器的运算表达式如下所示：

其中，x为输入自注意力生成器的差异特征图像，y为自注意力生成器输出的差异特征图像，大小与x保持一致；i和j表示图像中的位置索引；g(·)为一个实现卷积功能的转换函数；C(x)为归一化因子；f(·)为相似度函数，用于计算任意两个位置之间的相似度，可以使用点积、拼接、高斯函数、嵌入高斯函数来实现。

在本实施中，我们采用嵌入高斯函数作为相似度函数f(·)，表达式为：

其中，θ(x_i)＝W_θx_i、φ(x_j)＝W_φx_j，g(x_j)＝W_gx_j，W_θ、W_φ和W_g采用1x1的卷积去实现，此外设置归一化因子：

所以最后得到的注意力模块的运算表达式为：

用ε_θ(·)来表示自注意力生成器的作用，则经过注意力模块后的差异特征为：

f_- ¹＝ε_θ(f_-) (8)

所述步骤S5中，进行以下处理：我们再从原特征图f₁和f₂中把分配好权重的差异特征给减掉,保留下来的为尽可能多的非遮挡区域特征，则两个分支新的特征图为：

f₁ ¹＝f₁-f_- ¹ (9)

f₂ ¹＝f₂-f_- ¹ (10)

f₁ ¹和f₂ ¹即为我们最终得到的特征图。

所述步骤S6中，具体来说，在得到f₁ ¹和f₂ ¹之后，我们对这部分特征进行广义池化后，还要在全连接层进行回归和分类判决。

在本步骤中，我们提出了一种新的差异损失，主要是为了最小化行人特征图与遮挡行人特征图之间的像素差异，拉近其距离，具体的差异损失函数如下所示：

L_diff＝||f₁ ¹-f₂ ¹||₁ (11)

其中||·||₁代表L1距离，差异损失和标签平滑正则化的交叉熵损失可以帮助掩码生成器识别由于遮挡而偏离真实值的特征元素。

其次还使用了难样本三元组损失函数和标签平滑正则化交叉熵损失函数。

难样本三元组损失函数相对于三元组损失引入了硬样本挖掘策略：将距离最大的正样本对定义为硬正样本对；具有最小距离的负样本对定义为硬负样本对。在一个batch里面，随机采样n个身份，每个身份有k个样本，总共有n×k个样本，之后随机挑选出一个anchor并找出其硬正样本对和硬负样本对，构成硬样本三元组，损失函数为：

L_triplet＝[d_p-d_n+m]₊ (12)

其中，d_p硬正样本对特征距离，d_n为硬负样本对特征距离，m为阈值参数。

原始的交叉熵损失函数为：

其中p为行人的真实ID，q为行人预测的ID。采用标签平滑正则化来减轻过拟合。

其中γ为平滑因子，c为类别数。

所以总的损失函数为：

Loss＝αL_triplet+βL_cls+λL_diff (15)

其中α、β和λ为平衡参数，用于使L_triplet、L_cls和L_diff处于同一个数量级。

为了验证所述遮挡下行人重识别模型的精度，下面通过具体实验数据加以说明。

首先，我们将本实施例提出的遮挡下行人重识别模型训练方法在Market1501、DukeMTMC-reID和Occluded_DukeMTMC数据集上进行训练和测试。其中Market1501从6个摄像机收集了1501个行人的32668幅图像。数据集被划分为训练集和测试集，训练集包含751个行人的12936幅图像。测试集包括750个行人ID的19732幅图像，在测视阶段，来自750个行人ID的3368幅图像构成查询集，测试集剩下的图像作为图库。DukeMTMC-reID从8个摄像头视角收集了1404个行人ID的36411幅图像，训练集由702个行人ID的16522幅图像构成。query由702个行人ID的2228幅图像，gallery由702个行人ID的17661幅图像构成。Occluded_DukeMTMC在DukeMTMC的数据集上进行调整得到的，训练集有15618幅图片，查询集有2210幅遮挡图片，测试集有17661幅行人图片。评价准则：我们采用了大多数行人重识别使用的两个标准指标，即累积匹配曲线(CMC)和平均精度(mAP)。CMC-k：在排名前k的检索结果中出现正确匹配的概率。mAP：AP衡量的是对给定的测试数据集，分类器正确分类的样本数与总样本之比的值。而mAP则是对所有类别的AP求平均值。两个指标都是越高代表效果越好。

实验结果如表1和表2所示。

表1不同算法在Market1501和DukeMTMC-reID数据集的效果对比

表2不同算法在Occluded-DukeMTMC数据集的效果对比

将实施例1所述方法与目前主流的行人重识别方法在Market1501和DukeMTMC-reID数据集上进行比较，主要比较mAP和Rank-1，具体结果如表1所示。我们可以得到我们的方法在Market1501数据集上取得了mAP＝87.7％，Rank-1＝95.0％，在DukeMTMC-reID数据集上取得了mAP＝78.6％，Rank-1＝88.0％。与CVPR2020年的HOReID相比，我们的框架在Market1501比其mAP高出2个点，Rank-1高出0.8个点，在DukeMTMC-reID数据集上，比其mAP高出3个点，Rank-1高出1个点，优于目前大多数现有的算法。

接下来我们将实施例1所述方法与目前主流的行人重识别方法在遮挡数据集上进行训练和测试，Occlude_Duke数据集是目前来说相对较大的一个遮挡数据集，其训练和测试都是在同一个数据集中进行。我们将实施例1所述方法与目前主流的遮挡行人重识别方法进行对比，主要比较mAP、Rank-1、Rank-5、Rank-10，具体结果如表2所示。我们所提出的方法在Occlude_Duke数据集上取得了mAP＝52.7％，Rank-1＝61.4％，Rank-5＝77.8，Rank-10＝83.7％。与CVPR2020年的HOReID相比，我们的mAP提高了9个点，Rank-1提高了6个点，与2020年的SORN相比mAP提升了6个点，Rank-1提升了4个点，优于目前大多数遮挡行人重识别方法。

对比表1和表2的数据，可以明显得到实施例1所述方法不论是针对于无遮挡的数据集还是遮挡数据集都能取得好的效果，并且优于目前大多数的算法。

实施例2：

针对实施例1所提出的方法，本实施例提出一种装置，该装置包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时，实现实施例1所述的遮挡下行人重识别模型训练方法。

实施例3：

本实施例提出一种遮挡下行人重识别方法，包括步骤：

(1)采用实施例1所述遮挡下行人重识别模型训练方法，训练出遮挡下行人重识别模型；

实施例4：

针对实施例3提出的遮挡下行人重识别方法，本实施例提出一种装置，所述装置包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时，实现实施例3所述的遮挡下行人重识别方法。

应当理解的是，在技术上可行的情况下，以上针对不同实施例所列举的技术特征可以相互组合，从而形成本发明范围内的另外的实施例。此外，本发明所述的特定示例和实施例是非限制性的，并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。

Claims

1.一种遮挡下行人重识别模型训练方法，其特征在于，包括以下步骤：

(3)对每一对图像对，通过所述特征提取网络分别提取两幅图像的特征图像f₁和f₂，对两个特征图像求差，得到差异特征图像f_-＝|f₁-f₂|；

用ε_θ(·)来表示自注意力生成器的作用，则经过注意力模块后的差异特征为：f_{_} ¹＝ε_θ(f_-)；

(5)从原特征图f₁和f₂中把分配好权重的差异特征图像给减掉，保留下来的为非遮挡区域特征，则两个分支新的特征图为：f₁ ¹＝f₁-f_- ¹，f₂ ¹＝f₂-f_- ¹；

(6)将所述两个新的特征图依次送入池化层、全连接层，最后将所述两个新的特征图的相似度计算函数作为损失函数，通过损失函数进行模型的训练，直至损失函数的值满足预设的阈值要求；

所述损失函数的表达式为：

Loss＝αL_triplet+βL_cls+λL_diff

其中，α、β、λ为平衡参数，用于使L_tiplet、L_cls和L_diff处于同一个数量级，L_diff为所述两个新的特征图之差，L_triplet表示经过池化层池化后所述两个新的特征图之差，L_cls表示经过全连接层处理后所述两个新的特征图之差。

2.根据权利要求1所述的遮挡下行人重识别模型训练方法，其特征在于，所述特征提取网络包括第一特征提取网络和第二特征提取网络，第一、第二特征提取网络的结构相同且参数共享；其中，第一特征提取网络用于提取无遮挡图像的特征图像，第二特征提取网络用于提取有遮挡图像的特征图像。

3.根据权利要求2所述的遮挡下行人重识别模型训练方法，其特征在于，所述第一、第二特征提取网络采用ResNet网络结构。

4.根据权利要求1所述的遮挡下行人重识别模型训练方法，其特征在于，所述池化层和所述全连接层之间还设置有BN层。

5.根据权利要求1所述的遮挡下行人重识别模型训练方法，其特征在于，所述f(·)为以下任意一种函数：点积函数、拼接函数、高斯函数、嵌入高斯函数。

6.一种遮挡下行人重识别方法，其特征在于，包括步骤：

(1)采用权利要求1至5任意一项所述方法训练出遮挡下行人重识别模型；

7.一种装置，其特征在于，所述装置包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至5任意一项所述的遮挡下行人重识别模型训练方法。

8.一种装置，其特征在于，所述装置包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求6所述的遮挡下行人重识别方法。