CN111666843A

CN111666843A - 一种基于全局特征和局部特征拼接的行人重识别方法

Info

Publication number: CN111666843A
Application number: CN202010451903.7A
Authority: CN
Inventors: 熊炜; 熊子婕; 熊子庆; 杨荻椿; 李敏; 李利荣
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-15
Anticipated expiration: 2040-05-25
Also published as: CN111666843B

Abstract

本发明公开了一种基于全局特征和局部特征拼接的行人重识别方法，首先构建行人重识别网络；然后采用多损失函数策略对行人重识别网络分支有针对性的进行分开约束；接着采用多损失函数策略对行人重识别网络进行训练，通过对行人重识别网络结构的参数进行优化训练，得到训练好的行人重识别模型；最后在行人查询集中随机选取某个指定对象，将该对象的图像输入至训练好的行人重识别模型中，计算该指定对象和候选集中的每个对象的欧式距离，接着对计算得到的距离进行升序排序，从而获得行人重识别结果。本发明采用多损失函数策略对模型进行约束，通过对损失函数针对性的选择以提高模型的泛化能力。

Description

一种基于全局特征和局部特征拼接的行人重识别方法

技术领域

本发明属于数字图像处理、计算机视觉、人工智能技术领域，涉及一种行人重识别方法，特别是涉及一种基于全局特征与局部特征拼接的行人重识别方法。

背景技术

经济的快速发展带来了不同地域、不同城市间人员的频繁流动，近年来我国安装的监控视频设备呈爆炸式增长，随之而来的公共安全隐患让有关部门耗费了不少精力。随着计算机科学技术的不断进步，作为世界三大尖端技术之一的人工智能技术得到了迅速的发展。因此，为了保障人民生命财产安全，同时促进人工智能在公共安全领域的深度应用，利用人工智能建设和完善智能监控技术就显得非常必要。智能监控技术不仅能够减少监控视频数据后期处理中人员的时间和精力消耗，而且能够达到实时分析与实时反馈的效果。

行人是视频监控中的主体，而行人重识别技术主要是解决跨摄像头跨场景下行人的识别与检索问题。然而，与传统的图像识别与检索任务相比，行人重识别技术依然面临着很多挑战，例如：相机拍摄角度差异较大、行人姿态随时间和空间的变化会产生非常显著的变化、场景杂乱且有遮挡、白天晚上光照差异较大和行人更换服装配饰等。现有的行人重识别技术依然无法非常有效地解决上述挑战，所以对该项技术进行深入研究，提出更有效的方法解决上述挑战对行人重识别技术具有重大意义。同时，行人重识别技术的研究能够帮助我们解决在已建立的智慧社区、智慧医院和智慧校园等项目中存在的公共安全问题。

近年来，随着人工智能技术的发展，行人重识别技术研究得到了快速发展。目前行人重识别的研究主要分为两部分：基于特征表示的方法和基于度量学习的方法。由于真实的监控视频画面十分复杂，实际场景下的行人重识别研究存在挑战：设计一个良好的外观特征，使算法可以做到在不同视角下的不同监控图像中重新识别出同一个身份的行人。而一个好的外观特征应该对视角和照明的变化具有鲁棒性，并且在遮挡和检测器定位有误差的情况下也能具有良好的性能。最为成功的方法是一些基于有监督学习的深度卷积神经网络方法。通过设计合适的网络结构与使用合适的损失函数最终可以获得具有判别力的外观特征。

但目前行人重识别技术在实际场景中的应用还存在着一些差距，行人重识别技术仍然存在巨大的挑战，主要表现在以下几个方面：

(1)人物的姿势变化、视角变化导致提取特征的变化；

(2)混乱的背景和光照变化对特征提取造成干扰；

(3)在人口密集的区域或者由于物体遮挡，采集的行人图像部分缺失。

发明内容

为了解决上述技术问题，本发明提供了一种基于全局特征与局部特征拼接的行人重识别方法，重点在于设计了鲁棒性强的行人图像特征表达方法，即模型提取的行人特征能够很好的区分不同行人，同时所提取的行人特征受光照和视角变化影响小。

本发明所采用的技术方案是：一种基于全局特征和局部特征拼接的行人重识别方法，其特征在于，包括以下步骤：

步骤1：构建行人重识别网络；

将行人图像训练集输入至ResNet50-IBN-a网络，提取行人图像训练集中行人图像的全局特征和行人图像训练集中行人图像的局部特征，并融合行人全局特征与局部特征为最终图像特征；其中，ResNet50-IBN-a网络将实例归一化和批量归一化操作联合在一起应用于ResNet50网络中；

步骤2：采用多损失函数策略对行人重识别网络分支有针对性的进行分开约束；其中，针对全局特征采用排序表损失函数和标签平滑损失函数，对局部特征仅采用softmaxloss损失函数；

步骤3：采用步骤2中所述多损失函数策略对步骤1中所述的行人重识别网络进行训练，通过对行人重识别网络结构的参数进行优化训练，得到训练好的行人重识别模型；

步骤4：在行人查询集中随机选取某个指定对象，将该对象的图像输入至步骤3训练好的行人重识别模型中，计算该指定对象和候选集中的每个对象的欧式距离，接着对计算得到的距离进行升序排序，从而获得行人重识别结果。

相对于现有技术，本发明的有益效果是：

(1)由于行人图像数据集中大多数行人图像很相似且个体差异较小，为提取更具判别性的行人图像特征，本发明利用ResNet50-IBN-a网络提取行人图像特征，首先采用多次提取网络多层特征并进行拼接获取行人图像的全局特征；其次分为两个分支分别对简单处理后的行人特征进行水平切割提取行人局部特征；最终将全局与局部特征拼接作为行人图像的特征属性。

(2)由于不同的损失函数具有不同的特点，学习到的特征重点也会有差异，如果对不同的行人图像特征使用相同的损失函数，会让模型学到无用的特征，降低模型的准确率。本发明在损失函数的使用过程中，采用多损失函数策略对模型进行约束，对全局特征采用排序表损失函数和标签平滑损失函数，对局部特征仅采用softmax loss损失函数，通过对损失函数针对性的选择以提高模型的泛化能力。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的行人重识别网络结构图；

图3为本发明实施例的ResNet50-IBN-a内部结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于全局特征和局部特征拼接的行人重识别方法，包括以下步骤：

步骤1：构建行人重识别网络；

请见图2，为本实施例提出的基于全局特征与局部特征拼接的行人重识别网络框架，首先利用卷积层和池化层多次提取网络多层特征，使用拼接后的多层特征作为行人图像的全局特征属性；其次，将网络分两个分支分别对行人图像的特征进行水平切割提取更细粒度的行人局部特征属性，补充学习行人图像中不显著的特征；最后将全局与局部特征拼接作为行人图像的特征属性。采用多损失函数策略对网络分支有针对性的进行分开约束，针对全局特征采用排序表损失函数和标签平滑损失函数，对局部特征仅采用softmaxloss损失函数。

本实施例将行人图像训练集输入至ResNet50-IBN-a网络，其网络内部结构如图3所示，提取行人图像训练集中行人图像的全局特征和行人图像训练集中行人图像的局部特征，并融合行人全局特征与局部特征为最终图像特征；其中，ResNet50-IBN-a网络将实例归一化和批量归一化操作联合在一起应用于ResNet50网络中；

本实施例中，提取行人图像训练集中行人图像的全局特征，具体实现包括以下子步骤：

步骤1.1.1：在ResNet50-IBN-a网络的每个卷积块的残差学习单元块中，将1×1卷积得到的通道数为64的特征分为两半，其中一半32通道的特征进行实例归一化操作，另外32通道的特征仍然进行批量归一化操作，这样不仅保留了图像的风格和内容信息，而且没有增加模型的参数和计算量，本发明将运用ResNet50-IBN-a网络提取行人图像的特征属性。

步骤1.1.2：将ResNet50-IBN-a网络的conv3_x、conv4_x和conv5_x卷积块输出的行人全局特征映射：f₁、f₂和f提取出来，获得图像多层次的全局特征属性表示，conv3_x和conv4_x卷积块提取的两个中间层全局特征f₁、f₂的维度分别为512和1024，对这两个不同尺度的中间层特征分别采用平均池化方法，获得2048维的中间层全局特征f₁、f₂；

步骤1.1.3：将步骤1.2获得的两个2048维的中间层全局特征f₁、f₂与网络conv5_x卷积块输出平均池化操作后的2048维的全局特征f拼接为最终的行人图像全局特征f_g＝[f,f₁,f₂]。

本实施例中，提取行人图像训练集中行人图像的局部特征，具体实现包括以下子步骤：

步骤1.2.1：在提取图像的局部特征时，为保证水平分割后每个子区域有更充分的行人信息，本实施例首先对conv5_x卷积块输出的特征进行1×1卷积处理，将其尺度扩充为[16,8,2048]，同时conv4_x输出行人特征映射也进行平均池化处理增加维度，其尺度也变为[16,8,2048]，然后将卷积处理后尺度相同的conv4_x的行人特征映射与conv5_x的行人特征映射拼接得到全局特征f_c，其尺度大小为[16,8,2048]，后续对全局特征f_c特征进行水平分块操作获取行人图像的局部特征；

步骤1.2.2：根据人体生态学结构的构成，本实施例将将拼接得到的行人全局特征映射f_c按照头、上半身和下半身三部分进行水平分割，按照2:7:7的比例将f_c水平分割成3个子区域，3个子区域局部特征的尺寸大小分别为[2,8,2048]、[7,8,2048]和[7,8,2048]；对3个子区域分别进行最大池化处理，得到尺寸均为[1,1,2048]的3个子区域；最终将3个子区域的行人局部特征拼接在一起，得到局部特征f_p-2，其尺寸大小为[1,1,2048]；

步骤1.2.3：为获得更细粒度的行人特征信息，本实施例将将拼接得到的行人全局特征f_c水平分割成6个子区域，首先将f_c进行卷积处理得到尺寸大小为[6,8,2048]的行人全局特征，然后其水平分割成6个尺寸大小为[1,8,2048]的子区域，接着分别进行最大池化处理，得到尺寸均为[1,1,2048]的6个子区域；最终将6个子区域的行人局部特征映射拼接在一起，得到局部特征映射f_p-3，其尺寸大小为[1,1,2048]。

本实施例中，融合行人全局特征与局部特征为最终图像特征，是将f_g、f_p-2和f_p-3进行最后的拼接，得到最后的行人图像特征f_fu＝[f_g,f_p-2,f_p-3]。

本实施例中，排序表损失通过约束目标样本与类内样本的特征距离和类间样本的特征距离来提高性能，将类内样本与类间样本的特征距离以m间隔开，类内样本的特征距离允许存在α-m的分布误差，最终类内样本全部集中于以α-m为半径的球体内，类内样本与类间样本的特征距离为m。

假设目标样本为

为使类内样本集P距离越小，并与负样本集N的类间距离存在着m的间隔，同时类内样本集的类内边界为α。故排序表损失函数中类内样本的损失函数如式(1)所示，

其中，

为行人类别c中的第i个行人图像的特征，f为行人图像的特征。

排序表损失函数中正样本的损失函数如式(2)所示，由于负样本数量较大，故对负样本采用加权方式。

其中，N为负样本集；w_ij为权值，w_ij＝exp(T·(α-d_ij))，d_ij为

和

之间的距离，T是温度因子，当T＝0时所有负样本都是一样的，即无难样本挖掘，当T＝+∞时为难样本挖掘。

最终，排序表损失函数为式(3)所示：

本实施例中，行人训练样本通常会存在少量的错误标签，这些错误标签可能会影响预测结果，标签平滑损失函数被用来防止模型在训练过程中过度依赖标签。当输入行人图像i时，y_i为图像中行人的标签，若y_i为类别i其值为1，否则为0。本发明对行人标签进行了平滑处理，在每次训练过程中，给标签设置一个错误率ε，则实际标注的行人标签y′_i如式(4)所示：

q_i是网络预测实际标注的行人标签y_i′为类别i的概率，如式(5)所示：

其中，M为数据集中的行人个数，由交叉熵损失函数可得标签平滑损失如式(6)所示：

其中，q_i是网络预测实际标注的行人标签y_i′为类别i的概率；p_i为网络预测标签y_i为类别i的概率，K为行人类别的数量；

本实施例中，softmax是由sigmoid扩展而来，主要用来处理多分类问题。softmax一般为分类任务中卷积神经网络的输出层，函数输出为类别选择的概率，假设要将样本分成M类，softmax根据样本大小输出类别的选择概率。假如有一个样本集N，N_i表示样本集N中的第i个样本，则这个样本的softmax值为

j为类别数。为使算法在计算过程中更稳定，softmax和交叉熵损失组合在一起称为softmax loss函数，如式(7)所示：

其中，f(x_i)表示输出样本x的第i个值，即这个样本属于j类的概率。

本实施例中，采用多损失函数策略。由于不同的损失函数具有不同的特点，学习到的特征重点也会有差异。针对不同分支，本发明提出了多损失函数策略，使用不同的损失函数融合的方法，训练出性能更好的网络。

针对全局特征分支，采用排序表损失函数与标签平滑损失函数联合，全局特征的损失函数为：L_g＝L_Rll+L_id。

针对局部特征，仅采用softmax loss损失函数进行约束，局部特征的损失函数为：L_p＝L_sl。

最终，本发明所提的针对全局特征与局部特征的多损失函数为：L＝L_g+L_p。

步骤3：采用步骤2中多损失函数策略对步骤1中的行人重识别网络进行训练，通过对行人重识别网络结构的参数进行优化训练，得到训练好的行人重识别模型；

应当理解的是，本说明书未详细阐述的部分均属于现有技术；上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于全局特征和局部特征拼接的行人重识别方法，其特征在于，包括以下步骤：

步骤1：构建行人重识别网络；

2.根据权利要求1中所述的基于全局特征和局部特征拼接的行人重识别方法，其特征在于，步骤1中所述提取行人图像训练集中行人图像的全局特征，具体实现包括以下子步骤：

步骤1.1.1：在ResNet50-IBN-a网络的每个卷积块的残差学习单元块中，将1×1卷积得到的通道数为64的特征分为两半，其中一半32通道的特征进行实例归一化操作，另外32通道的特征仍然进行批量归一化操作；

3.根据权利要求2中所述的基于全局特征和局部特征拼接的行人重识别方法，其特征在于，步骤1中所述提取行人图像训练集中行人图像的局部特征，具体实现包括以下子步骤：

步骤1.2.1：首先对conv5_x卷积块输出的特征进行1×1卷积处理，将其尺度扩充为[16,8,2048]，同时conv4_x输出行人特征映射也进行平均池化处理增加维度，其尺度也变为[16,8,2048]，然后将卷积处理后尺度相同的conv4_x的行人特征映射与conv5_x的行人特征映射拼接得到全局特征f_c，其尺度大小为[16,8,2048]，后续对全局特征f_c特征进行水平分块操作获取行人图像的局部特征；

步骤1.2.2：将拼接得到的行人全局特征映射f_c按照头、上半身和下半身三部分进行水平分割，按照2:7:7的比例将f_c水平分割成3个子区域，3个子区域局部特征的尺寸大小分别为[2,8,2048]、[7,8,2048]和[7,8,2048]；对3个子区域分别进行最大池化处理，得到尺寸均为[1,1,2048]的3个子区域；最终将3个子区域的行人局部特征拼接在一起，得到局部特征f_p-2，其尺寸大小为[1,1,2048]；

步骤1.2.3：将拼接得到的行人全局特征f_c水平分割成6个子区域，首先将f_c进行卷积处理得到尺寸大小为[6,8,2048]的行人全局特征，然后其水平分割成6个尺寸大小为[1,8,2048]的子区域，接着分别进行最大池化处理，得到尺寸均为[1,1,2048]的6个子区域；最终将6个子区域的行人局部特征映射拼接在一起，得到局部特征映射f_p-3，其尺寸大小为[1,1,2048]。

4.根据权利要求3中所述的基于全局特征和局部特征拼接的行人重识别方法，其特征在于，步骤1中所述融合行人全局特征与局部特征为最终图像特征，是将f_g、f_p-2和f_p-3进行最后的拼接，得到最后的行人图像特征f_fu＝[f_g,f_p-2,f_p-3]。

5.根据权利要求1中所述的基于全局特征和局部特征拼接的行人重识别方法，其特征在于，步骤2中所述排序表损失函数为：

其中，

为排序表损失函数中类内样本的损失函数，

为排序表损失函数中正样本的损失函数；

为行人类别c中的第i个行人图像的特征，f为行人图像的特征；

排序表损失通过约束目标样本与类内样本的特征距离和类间样本的特征距离来提高性能，将类内样本与类间样本的特征距离以m间隔开，类内样本的特征距离允许存在α-m的分布误差，最终类内样本全部集中于以α-m为半径的球体内，类内样本与类间样本的特征距离为m；

假设目标样本为

为使类内样本集P距离越小，并与负样本集N的类间距离存在着m的间隔，同时类内样本集的类内边界为α；

则排序表损失函数中类内样本的损失函数为：

排序表损失函数中正样本的损失函数为：

其中，N为负样本集；w_ij为权值，w_ij＝exp(T·(α-d_ij))，d_ij为

和

6.根据权利要求1中所述的基于全局特征和局部特征拼接的行人重识别方法，其特征在于，步骤2中所述标签平滑损失函数为：

当输入行人图像i时，y_i为图像中行人的标签，若y_i为类别i其值为1，否则为0；对行人标签进行了平滑处理，在每次训练过程中，给标签设置一个错误率ε，则实际标注的行人标签y′_i为：

则q_i为：

其中，M为数据集中的行人个数。

7.根据权利要求1中所述的基于全局特征和局部特征拼接的行人重识别方法，其特征在于，步骤2中所述softmaxloss损失函数为：

其中，f(x_i)表示输出样本x的第i个值，即这个样本属于j类的概率；

假设将样本分成M类，softmax根据样本大小输出类别的选择概率；假如有一个样本集N，N_i表示样本集N中的第i个样本，则这个样本的softmax值为

j为类别数；softmax和交叉熵损失组合在一起称为softmax loss函数。

8.根据权利要求1中所述的基于全局特征和局部特征拼接的行人重识别方法，其特征在于：步骤2中针对全局特征分支，采用排序表损失函数L_Rll与标签平滑损失函数L_id联合，全局特征的损失函数为：L_g＝L_Rll+L_id；针对局部特，仅采用softmax loss损失函数L_sl进行约束，局部特征的损失函数为：L_p＝L_sl；针对全局特征与局部特征的多损失函数为：L＝L_g+L_p。