CN110097032B

CN110097032B - 一种基于深度学习的行人重识别方法

Info

Publication number: CN110097032B
Application number: CN201910400697.4A
Authority: CN
Inventors: 曹宗杰; 李亦山
Original assignee: Chengdu Dianke Zhida Technology Co ltd
Current assignee: Chengdu Dianke Zhida Technology Co ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2023-09-08
Anticipated expiration: 2039-05-15
Also published as: CN110097032A

Abstract

本发明属于行人重识别技术领域，涉及一种基于深度学习的行人重识别方法。本发明的方法为：将去除背景的行人轮廓黑白图片作为另一通道加载在输入图片上，同时在检测图片相似度时，计算对应两个特征图上特征值周围5个邻域内的特征值差异，然后将每一个小像素连同其周围8个像素点组成一个“九宫格”，一同减去另一张图的“九宫格”。其中第一个“九宫格”的九个像素点全部是其中间像素点的值。在此基础上比较不同图片的相似度，进一步提高了识别率。同时通过将剔除背景的黑白轮廓图片作为除RGB以外的第四个通道输入，最大程度消除背景对行人的影响。训练时引入CAM能在一定程度上消除行人与摄像头距离、角度不同而产生的误差。

Description

一种基于深度学习的行人重识别方法

技术领域

本发明属于行人重识别技术领域，涉及一种基于深度学习的行人重识别方法。

背景技术

行人重识别(Person re-identification,Re-ID)起源于多摄像头跟踪,用于判断非重叠视域中拍摄到的不同图像中的行人是否属于同一个人。行人重识别涉及计算机视觉、机器学习、模式识别等多个学科,可以广泛应用于智能视频监控、安保等领域。近年来，行人重识别技术引起了学术界和业界的广泛关注，已经成为计算机视觉领域的一个研究热点。而行人兼具刚性和柔性物体的特性,外观易受穿着、姿态和视角变化以及光照、遮挡、环境等各种复杂因素的影响,这使得行人再识别面临着巨大的技术挑战。在行人重识别问题上，过去一直是由人力解决人员查找等问题，然而，随着现在监控摄像头的指数型增加，监控视频也随着海量增长，再依靠人工进行人员的识别已经变得十分困难，需要通过电脑软件解决行人重识别问题。

监控视频最显著的特点就是，摄像头采用俯视角拍摄行人，随着摄像头距离变化，俯视的角度也跟着发生变化，行人姿态明显不同。解决基于监控视频的行人重识别问题，将有效帮助寻找丢失人员等任务，降低人力消耗，提高办案效率。

现有的技术手短主要是针对已知的公开数据集来展开的，而已有的公开数据集中，行人均是正视角拍摄得到。在实际工程问题中，背景会比数据集中的数据更加复杂，监控摄像头拍摄到的行人画面都是以俯视角的样子出现的。在俯视角中，行人的身体形态会发生很大变化。

以走廊的监控摄像头为例。随着行人的走动，行人的身体形态结构在监控之中会发生很大的变化，在这种情况下，现有的技术手段很难对行人进行有效的识别。

同时，当行人处于背景复杂，多变的环境时，行人的识别将会很大程度上受到背景的影响与制约，达不到良好的识别效果。

发明内容

本发明的目的是针对上述问题，为了克服传统机器学习行人重识别方法无法处理背景复杂、行人角度变化的问题，提出一种基于深度学习的行人重识别方法。

本发明的技术方案是，如图1所示，本发明的方法包括：

步骤一：为了尽可能减少背景对行人识别的影响，将需对比的图片扣除背景，只留下行人轮廓的黑白图片作为额外的一个通道加载在对应原图片上，见图2；

步骤二：将两张图片输入深度学习网络进行比较。

设有两张目标识别图片，将两张含有待识别目标的图片分别送入特征提取层中提取特征，输出两张提取到的特征图，特征提取层由两层卷积层，两层池化层组成，记着一层产生的两个输出为f_i,g_i∈R^12×37；

而之后的一层为差异提取层，这一层对前层(特征提取层)输出的两张特征图计算对应两个特征图上特征值周围5个邻域内的特征值差异，产生25个近邻差异图，具体为将第一张图处理为多个相邻的3×3的九宫格，九宫格每一个点的值均为此九宫格中心点的值，再讲第一张图减去第二张图，这一层会产生25个近邻差异图K_i∈R^12×37×5×5,(1≤i≤25)，每个K_i(x,y)∈R^5×5K_i(x,y)∈R^5×5,即是5×5的矩阵，(1≤x≤12，1≤y≤37)；

差异提取层的下一层为特征总结层，对差异提取层输出的每个5×5的块求和得到整体的差异，即K∈R^{12×37×5×5×25}-->L∈R^12×37×25，K′-->L′同理，这一步对K,K′分别用25个5×5×25，步长为5的卷积核完成；

下一层为Across-Patch层，对特征总结层的输出分别用25个3×3×5，步长为1的卷积核学习之前得到的距离的空间关系，再接上两个2×2的最大池化；

最后通过全连接层得到高层次的关系，输出为500维向量，经过线性整流函数，再通过一层带有两个归一化指数函数节点的全连接层得到最终输出，此时经全连接层后可以得到特征图在全连接层中各部分的比重值。

同时：为了提高识别时身形改变引发的问题，在训练时引入CAM(classactivation maps)，训练时，行人的上半身具有更高的权重，从而降低摄像头俯视角下的行人下半身长度变化问题其具体步骤为：

1、对输入384×128行人图放入ResNet50网络中提取深度特征，把最后一个块的下采样层丢弃掉，得到空间大小24*8的张量T；

2、按照水平方向分成均匀分成6个部分，即6个空间大小4*8张量，然后各自进行平均池化，得到6个列向量；

3、使用1×1卷积对g降维通道数，得到6个张量h，然后接6个FC层(权值不共享)，Softmax进行分类；

4、训练时等于有6个损失；测试时则将6个张量h合并在一起，再算相似度。

CAM与之前的工作联合，就是在CAM第2步中，将6个张量，各个平均池化改为向量的加权和，而权值即为之前的工作中全连接层得到的比重值。

得到的效果见图3。

本发明的有益效果为，本方法在传统机器学习方法的基础上，提出了一种利用深度学习的识别方法：将去除背景的行人轮廓黑白图片作为另一通道加载在输入图片上，同时在检测图片相似度时，计算对应两个特征图上特征值周围5个邻域内的特征值差异，然后将每一个小像素连同其周围8个像素点组成一个“九宫格”，一同减去另一张图的“九宫格”。其中第一个“九宫格”的九个像素点全部是其中间像素点的值。在此基础上比较不同图片的相似度，进一步提高了识别率。同时通过将剔除背景的黑白轮廓图片作为除RGB以外的第四个通道输入，最大程度消除背景对行人的影响。训练时引入CAM能在一定程度上消除行人与摄像头距离、角度不同而产生的误差。

附图说明

图1为本发明行人图片识别流程；

图2为将行人图片扣除背景信息，只留轮廓信息后的黑白图片对比；

图3为训练时增加的CAM(class activation maps)效果举例。

具体实施方式

发明内容部分的方案，即是本发明的最佳实施方案，在此不再赘述。

Claims

1.一种基于深度学习的行人重识别方法，其特征在于，包括以下步骤：

S1、输入待识别的行人图片，并进行预处理获得目标识别图片；所述预处理为将图片的背景去除，只留下行人轮廓的黑白图片，并将黑白图片作为另外一个通道加载在对应的原图片上；

S2、采用卷积神经网络，对目标识别图片进行比较，

将两张含有待识别目标的图片分别送入特征提取层中提取特征，输出两张提取到的特征图，特征提取层由两层卷积层，两层池化层组成，记特征提取层的两个特征图为f_i,g_i∈R^12×37；

将特征图送入差异提取层，对两张特征图计算图上特征值周围5个邻域内的特征值差异，产生25个近邻差异图，具体为：将第一张图处理为多个相邻的3×3的九宫格，九宫格每一个点的值均为此九宫格中心点的值，再将第一张图减去第二张图，产生25个近邻差异图K_i∈R^12×37×5×5,1≤i≤25，每个K_i(x,y)∈R^5×5,即是5×5的矩阵，1≤x≤12，1≤y≤37；

将差异提取层输出的每个5×5的矩阵送入特征总结层，通过求和得到整体的差异，即K∈R^{12×37×5×5×25}-->L∈R^12×37×25，将特征图大小映射回12*37*25，采用25个5×5×25，步长为5的卷积核完成；

将L输入Across-Patch层，采用25个3×3×5，步长为1的卷积核学习，得到邻域差值的空间联系，再接上两个2×2的最大池化，得到最终特征图；

最后通过全连接层得到高层次的关系，输出为500维向量，经过线性整流函数，再通过一层带有两个归一化指数函数节点的全连接层进行分类，获得识别结果；

S3，采用CAM训练用于降低摄像头俯视角下的行人下半身长度变化，具体为：

S31、将目标识别图片放入ResNet50网络中提取深度特征，把最后一个块的下采样层丢弃掉，得到空间大小24*8的张量T；

S32、按照水平方向均匀分成6个部分，即6个空间大小4*8张量，以步骤S2中全连接层得到的比重值为权值，进行向量的加权和，得到6个列向量；

S33、使用1×1卷积降维通道数，得到6个张量h，然后接6个FC层，通过Softmax进行分类。