CN112396036A

CN112396036A - 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法

Info

Publication number: CN112396036A
Application number: CN202011426322.4A
Authority: CN
Inventors: 郑伟诗; 张镓伟
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-02-23
Anticipated expiration: 2040-12-09
Also published as: CN112396036B

Abstract

本发明公开了一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，包括下述步骤：用模拟遮挡生成器构建有遮挡的行人图片集；将原始图片与有遮挡的行人图片组成数据集并输入到空间变换网络中进行空间变换纠正；通过卷积神经网络和空间金字塔池化层对纠正后的图进行多尺度特征提取并合并为定长一维特征向量；将定长一维特征向量通过全连接层得到一个包含K个元素的一维特征向量并进行身份分类训练，得到训练好的网络；用训练好的网络提取待查询的行人图像的特征并进行相似度匹配。本发明进行多尺度特征提取，通过结合不同尺度的特征图，使得模型更具鲁棒性；还引入了空间变换网络，可直接嵌入到任意深度网络模型中进行端到端的训练。

Description

一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法

技术领域

本发明属于深度学习和计算机视觉的技术领域，具体涉及一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法。

背景技术

行人重识别被认为是一个图像检索的子问题，其希望利用计算机视觉技术进行跨摄像头的追踪，具体为给出某一张摄像头下的待查询行人图像，从其他非重叠摄像头拍摄得到的图像库中检索出具有相同身份的行人图像。该技术被广泛应用于视频监控、智能安保等公共安全领域。在过去的几年中，行人重识别问题得到了广泛的研究，但它们通常假设图像库和待查询图像是完整的行人图像，而实际场景中我们的行人总会不可避免被各种障碍物遮挡、比如车辆、墙壁、其他行人等，这就是有遮挡的行人重识别问题。

针对遮挡行人重识别问题，一些研究者提出了自己的解决方案，概括地说主要有以下几种：

1)增强训练样本，在训练样本加入随机遮挡样本来提升深度神经网络对于遮挡行人图像的识别能力，但是仅仅只是这样做也会不可避免地由于遮挡而引入了噪声特征。

2)成对训练学习，选取一张完整行人图像和一张被遮挡的行人图像组成一对输入数据，分别送入相同/不同的网络去提取特征，最后根据拉近相同身份的人的特征，拉远不同身份的人的特征这个原则来指导网络学习。这种方法能够有效地区分不同行人的身份，但是它对训练样本的组成敏感，训练样本的数量不同或者一对输入数据的两张图片选择不同，可能会很大地影响模型效果。

3)引入人体关键点估计模型。通过识别一张图上人的关键点(骨架点)，让模型能够只关注人的区域，最后通过提高人的区域的特征权重，大幅降低或去掉非人部分的特征权重，能够有效地提升识别效果，减轻遮挡因素的干扰。但是这种方法取决于要事先训练出一个效果优秀的人体关键点估计模型，训练成本稍大。

4)采用图网络和人体关键点估计结合的方法。先使用人体关键点估计模型来学习关键点，提取对应关键点的语义信息，然后将学到的语义特征作为图的节点，通过一个方向自适应图卷积层来学习和传递边缘特征，最后学习两张图(两个人)的节点间的对应关系。这个方法能够大大提高识别的正确率，但由于同时有图网络和人体关键点估计、模型较复杂，训练成本较高。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，能够以较简单的模型、较低的训练成本取得较好的识别效果。

为了达到上述目的，本发明采用以下技术方案：

本发明提供了一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，包括下述步骤：

S1、利用模拟遮挡生成器在一个行人数据集上构建有遮挡的行人图片；

S2、将原始行人图片与新生成的有遮挡的行人图片组成新的数据集，并将新的数据集输入到空间变换网络中进行空间变换纠正；所述空间变换网络用于对新的数据集中的图片进行自动裁剪、平移、缩放，使图片只保留人的部分，得到纠正后的图片；

S3、利用卷积神经网络和空间金字塔池化层对所述纠正后的图片进行多尺度特征提取并合成定长一维特征向量；

S4、将所述定长一维特征向量通过全连接层得到一个包含K个元素的一维特征向量，再进行行人图像的身份分类训练，得到训练好的网络；

S5、利用所述训练好的网络提取待查询的行人图像的特征并进行相似度匹配。

作为优选的方案，步骤S1中，所述模拟遮挡生成器在一个行人数据集上构建有遮挡的行人图片的具体步骤为：

S1.1、设原始行人图片img的大小为w*h，提取img的四个顶点的像素值img[0,0],img[0,h-1]，img[w-1,0]以及img[w-1,h-1]，求出所述四个顶点的平均像素值C，计算公式如下：

C＝(img[0,0]+img[0,h-1]+img[w-1,0]+img[w-1,h-1])/4；

S1.2、随机选取一个矩形局域：

AREA＝[X_random,Y_random,X_random+w′,Y_random+h′]；

其中X_random,Y_random表示矩形左上角坐标，X_random+w′,Y_random+h′表示矩形右下角坐标，满足w′＝min(w,50),h′＝min(h,50)且矩形区域不超出原图的范围；

S1.3、使用C替换该矩形区域的像素值，得到一张有遮挡的行人图片。

作为优选的方案，步骤S2中，所述空间变换网络包括：定位网络、坐标生成器和采样器；

所述定位网络利用一个小卷积神经网络提取图片特征，并将所述图片特征通过全连接回归层得到6个变换参数；

所述坐标生成器用于根据所述变换参数构建采样网络，即得到一种映射关系T_θ，具体为：

其中

表示输入空间变换网络中的图片U的第i个像素点的坐标，

表示目标图像V的第i个像素点的坐标,θ为定位网络得到的6个变换参数；

所述采样器用于根据采样网络所得的映射关系对输入空间变换网络中的图片U进行像素级采样复制得到目标图像V；所述采样器采用双线性采样，计算公式如下：

其中，H、W、C分别为输入空间变换网络中的图片U的高、宽和通道数，

为输入空间变换网络中的图片U的第c个通道中坐标为(n,m)的像素点的值，H′、W′分别表示目标图像V的高和宽，

表示目标图像V第c个通道中第i个像素点的值。

作为优选的方案，步骤S3中，所述卷积神经网络采用调整后的ResNet50，具体为：采用原始ResNet50的第一层卷积层到第五层卷积层结构并对最后一层卷积层结构执行放大操作，得到比原输出的特征图大一倍的特征图表示；所述的放大操作为将第五层卷积层结构的卷积核步长由原始的2改为1。

作为优选的方案，步骤S3中，所述空间金字塔池化层用于将任意大小的输入图片输出成多个不同固定大小的特征图，并将所述多个不同固定大小的特征图各自展开成一维特征向量并通过concat操作合并成一个定长一维特征向量；所述的将任意大小的输入图片输出成多个不同固定大小的特征图的方法为：

设输入图片的大小为h*w，输出的特征图大小为ha*wb，则有：

最后采用卷积核为(h_window,w_window),步长为(h_stride,w_stride)的最大池化层对输入图片进行下采样操作得到固定大小为a*b的特征图输出。

作为优选的方案，步骤S4中，所述全连接层的输出为：

其中x表示空间金字塔池化层得到的定长一维特征向量输入，K表示训练数据种类数，y_k表示输出的一维特征向量中的第k个元素，

和b_k分别为对应的权重和偏置项。

作为优选的方案，步骤S4中，所述行人图像的身份分类训练采用的损失函数为标签平滑后的交叉熵，具体形式如下式：

其中p(k|x)表示样本x属于类别k的概率，y_k为全连接层输出的一维特征向量中的第k个元素，q(k)为训练数据属于种类k的真实概率，q′(k)为标签平滑后的q(k)，Loss为最终的损失函数，α为超参数，默认值为0.1。

作为优选的方案，步骤S5中，所述利用训练好的网络提取待查询的行人图像的特征并进行相似度匹配具体为：

将所述待查询的行人图像顺序经过训练好的网络的空间变换网络、卷积神经网络以及空间金字塔池化层，提取定长一维特征向量，并利用KNN算法计算待查询的行人图像的定长一维特征向量与数据库中所有图片的特征向量之间的欧几里得距离，距离最短的认为两者最大概率为同一个人，距离次短的认为两者第二大概率为同一个人，以此类推。

本发明与现有技术相比，具有如下优点和有益效果：

1、在训练数据增强上，现有技术通常为随机生成一个黑框来模拟遮挡，这样做使得遮挡物单一且与人物周围环境不符。本发明的遮挡框为提取原图的像素构成，遮挡物与周围环境类似且不同样本之间的遮挡物不同，以此提高训练样本的多样性，从而帮助模型提高识别准确率。

2、引入空间变换网络进行图片自动裁剪、缩放、平移，帮助模型更专注于图片中人的部分。相比于大多数现有方法需要额外训练一个姿态估计模型去识别人的部分，空间变换网络不需要额外训练，可以直接嵌入到任意深度网络模型中进行端到端的训练，模型会更简单但却有效。

3、针对行人图像可能会存在不同尺度的问题，本发明进行多尺度特征提取，通过结合不同尺度的特征图，使得模型更具鲁棒性。而多尺度特征提取采用空间金字塔池化可以对任意输入产生固定大小的输出，也提高了图像的尺度不变性。

4、现有最优方法大多需要额外单独训练某个模型或者网络结构再用它们来辅助训练最终的模型，这样的方法训练起来较麻烦，而本发明的各个结构可以整体一起训练，没有需要单独训练的部分，是一种端到端的模型，训练容易，效果也不差于现有最优方法。

附图说明

图1为本发明实施例的整体框架图；

图2为本发明实施例的空间变换网络结构图；

图3为本发明实施例的卷积神经网络结构图；

图4为本发明实施例的空间金字塔池化层结构图。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方案和具体操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，本实施例提供了一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，包括以下步骤：

S1、构建行人图像训练集。具体地，在本实施例中，采用Market1501为原始行人图片数据集，首先将Market1501所有训练集图片resize成384*128的大小并输入到模拟遮挡生成器，得到对应的有遮挡的行人图片集，然后将原始图片数据集和新生成的有遮挡的行人图片集合并成一个新数据集，具体包括：

S1.1、利用模拟遮挡生成器生成遮挡，具体方法为：设原始行人图片img的大小为w*h，提取img的四个顶点的像素值img[0,0],img[0,h-1]，img[w-1,0]以及img[w-1,h-1]，求出所述四个顶点的平均像素值C，计算公式如下：

C＝(img[0,0]+img[0,h-1]+img[w-1,0]+img[w-1,h-1])/4；

S1.2、随机选取一个矩形区域：

AREA＝[X_random,Y_random,X_random+w′,Y_random+h′]；

S1.3、使用C替换该矩形区域的像素值，得到一张新生成的有遮挡的行人图片，将所述原始图片与新生成的有遮挡图片组成新的数据集；

S2、将S1.3中得到的新的数据集输入到空间变换网络中进行空间变化纠正；所述空间变换网络用于对图片进行自动平移、裁剪、缩放，得到尽可能只保留人的部分的纠正后的图片；如图2所示，所述空间变换网络包括定位网络、坐标生成器以及采样器三个部分；所述定位网络包括小卷积神经网络部分和全连接层部分；

S2.1、所述定位网络的小卷积神经网络部分采用两组卷积层，其中，第一组卷积层的卷积核为3*3，步长为1，填充宽度为1，输出通道为8，最大池化的卷积核为2*2，步长为2，最后采用ReLU作为激活函数。第二组卷积层的卷积核为3*3，步长为1，填充宽度为1，输出通道为16，最大池化的卷积核为1，步长为2，最后采用ReLU作为激活函数；

S2.2、所述定位网络的全连接层部分采用了两个全连接层，其中，第一个全连接层输出512维特征向量，第二个全连接层输出6维特征向量；

S2.3、所述坐标生成器使用步骤S2.2所得的6维特征向量作为变换参数构建采样网络，即得到一种映射关系T_θ，具体为：

其中

表示原始图片中某一像素点的坐标，

表示目标图像某一像素点的坐标,θ为定位网络得到的6个变换参数；

S2.4、所述采样器用于根据所述采样网络所得的映射关系对输入空间变换网络中的图片U进行像素级采样复制得到目标图像V，所述采样器采用双线性采样，计算公式如下：

为表示输入空间变换网络中的图片U的第c个通道中坐标为(n,m)的像素点的值，H′、W′分别表示目标图像V的高和宽，

表示图片v第c个通道中第i个像素点的值；特别地，在本实施例中，输入空间变换网络中的图片U和目标图像V的高、宽以及通道数都是相等的。

S3、将步骤S2.4所得目标图像V输入到卷积神经网络中提取特征，然后将提取到的特征图再输入到空间金字塔池化层进行多尺度特征提取：

S3.1、所述卷积神经网络采用调整后的ResNet50，其结构如图3所示；采用原始ResNet50的第一层卷积层到第五层卷积层结构(conv1～conv5)，其中conv1～conv4的结构不变，conv5的步长由2改为1，即最后一层卷积层conv5的结构执行放大操作，用于得到比原输出的特征图大一倍的特征图表示；

S3.2、空间金字塔池化层结构如图4所示，所述空间金字塔池化层用于将任意大小的输入图片输出成多个不同固定大小的特征图，再将所述多个不同固定大小的特征图各自展开成一维特征向量并通过concat操作合并成一个定长一维特征向量，具体方法为：

设输入图片的大小为h*w，输出的特征图大小为ha*wb，则有：

最后采用卷积核为(h_window,w_window),步长为(h_stride,w_stride)的最大池化层进行对输入图片进行下采样操作就能得到固定大小为a*b的特征图输出；进一步地，本发明实施例中的空间金字塔池化层输出为一个4*4大小的特征图和一个1*1大小的特征图；

S4、如图1所示，将所述定长一维特征向量通过全连接层得到一个包含K个元素的一维特征向量，再进行行人图像的身份分类训练，得到训练好的网络，具体为：

S4.1、将步骤S3.2所得的定长一维特征向量输入到全连接层，所述全连接层输出为包含K个元素的一维特征向量，具体为：

和b_k分别为对应的权重和偏置项；

S4.2、进行行人身份分类训练；所述行人身份分类训练采用的损失函数为标签平滑后的交叉熵，具体形式如下式：

其中p(k|x)表示样本x属于类别k的概率，y_k为全连接层的输出的一维特征向量中的第k个元素，q(k)为训练数据属于种类k的真实概率，q′(k)为标签平滑后的q(k)，Loss为最终的损失函数，α为超参数，默认值为0.1。

S5、如图1所示，将所述待查询的行人图像顺序经过训练好的网络的空间变换网络、卷积神经网络以及空间金字塔池化层，得到所述待查询行人图片的最终一维特征向量；用所述最终一维特征向量与图像库里的行人图像进行相似度匹配；

具体地，在本实施例中，相似度匹配算法采用KNN算法，所述KNN算法计算待查询图像特征向量与数据库中所有图片的特征向量之间的欧几里得距离，距离最短的可认为两者最大概率为同一个人，距离次短可以认为两者第二大概率为同一个人，以此类推。

在本实施例中采用端到端的模型在partial-reid遮挡行人重识别数据集上依然取得了不弱于现有技术的结果，具体如表1所示：

方法	Rank-1	Rank-3	mAP
				AMC+SWM	34.27	46.00	31.33
DSR	50.70	70.00	68.07
				SFR	56.90	78.50	/
resnet50	53.80	69.50	65.70
				PCB	56.30	/	54.70
Teacher-S	55.00	/	59.80
				VPM	64.30	81.90	/
PGFA	68.00	80.00	/
				our	64.30	82.30	74.39

表1

特别地，本发明的所有参数除指明取值的超参数外，均为深度网络参数，由随机梯度下降法进行自主学习优化。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，包括下述步骤：

利用模拟遮挡生成器在一个行人数据集上构建有遮挡的行人图片；

将原始行人图片与新生成的有遮挡的行人图片组成新的数据集，并将新的数据集输入到空间变换网络中进行空间变换纠正；所述空间变换网络用于对新的数据集中的图片进行自动裁剪、平移、缩放，使图片只保留人的部分，得到纠正后的图片；

利用卷积神经网络和空间金字塔池化层对所述纠正后的图片进行多尺度特征提取并合成定长一维特征向量；

将所述定长一维特征向量通过全连接层得到一个包含K个元素的一维特征向量，再进行行人图像的身份分类训练，得到训练好的网络；

利用所述训练好的网络提取待查询的行人图像的特征并进行相似度匹配。

2.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，所述模拟遮挡生成器在一个行人数据集上构建有遮挡的行人图片的具体步骤为：

设原始行人图片img的大小为w*h，提取img的四个顶点的像素值img[0,0],img[0,h-1]，img[w-1,0]以及img[w-1,h-1]，求出所述四个顶点的平均像素值C，计算公式如下：

C＝(img[0,0]+img[0,h-1]+img[w-1,0]+img[w-1,h-1])/4；

随机选取一个矩形局域：

AREA＝[X_random,Y_random,X_random+w′,Y_random+h′]；

使用C替换该矩形区域的像素值，得到一张有遮挡的行人图片。

3.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，所述空间变换网络包括：定位网络、坐标生成器和采样器；

其中

表示输入空间变换网络中的图片U的第i个像素点的坐标，

表示目标图像V第c个通道中第i个像素点的值。

4.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，所述卷积神经网络采用调整后的ResNet50，具体为：采用原始ResNet50的第一层卷积层到第五层卷积层结构并对最后一层卷积层结构执行放大操作，得到比原输出的特征图大一倍的特征图表示。

5.根据权利要求4所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，所述的放大操作为将第五层卷积层结构的卷积核步长由原始的2改为1。

6.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，所述空间金字塔池化层用于将任意大小的输入图片输出成多个不同固定大小的特征图，并将所述多个不同固定大小的特征图各自展开成一维特征向量并通过concat操作合并成一个定长一维特征向量。

7.根据权利要求6所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，所述的将任意大小的输入图片输出成多个不同固定大小的特征图的方法为：

设输入图片的大小为h*w，输出的特征图大小为ha*wb，则有：

8.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，所述全连接层的输出为：

和b_k分别为对应的权重和偏置项。

9.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，所述行人图像的身份分类训练采用的损失函数为标签平滑后的交叉熵，具体形式如下式：

10.根据权利要求1所述的一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法，其特征在于，所述利用训练好的网络提取待查询的行人图像的特征并进行相似度匹配具体为：

将所述待查询的行人图像顺序经过训练好的网络的空间变换网络、卷积神经网络以及空间金字塔池化层，提取最终的定长一维特征向量，并利用KNN算法计算待查询的行人图像最终的定长一维特征向量与数据库中所有图片的特征向量之间的欧几里得距离，距离最短的认为两者最大概率为同一个人，距离次短的认为两者第二大概率为同一个人，以此类推。