CN113516012B

CN113516012B - 一种基于多层级特征融合的行人重识别方法及系统

Info

Publication number: CN113516012B
Application number: CN202110381418.1A
Authority: CN
Inventors: 熊炜; 乐玲; 周蕾; 张开; 李敏; 李利荣
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-04-15
Anticipated expiration: 2041-04-09
Also published as: CN113516012A

Abstract

本发明公开了一种基于多层级特征融合的行人重识别方法及系统，通过构建行人重识别网络，包括骨干网络、分支网络和聚合模块；训练行人重识别网络，获得训练好的行人重识别网络；最后从视频中抽取图像帧，预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取，同时利用分支网络通过卷积核的多尺度和多深度，提取不同尺度的细节信息；然后通过相加的方式将主干网络和各层级分支网络进行特征融合，输出行人重识别结果；本发明在显著提升了行人重识别效果的同时，不会带来过多的计算量，同时能够解决图像遮挡、拍摄角度变化、分辨率不高等现象所带来的行人重识别研究算法精度不高的问题。

Description

一种基于多层级特征融合的行人重识别方法及系统

技术领域

本发明属于数字图像处理、计算机视觉技术领域，涉及一种行人重识别方法及系统，特别是涉及一种基于全局特征表征的多层级特征融合的行人重识别方法及系统。

背景技术

行人重识别问题是跨摄像头的图像检索问题，旨在利用查询图在图像库中检索出属于同一身份的行人图像。首先从多个摄像头中提取原始行人视频图像，依次通过特征提取、相似度度量确认该行人其他图像。当前，由于摄像头角度、天气等因素的影响，获得的原始视频图像质量不高。遮挡、模糊的图像会严重影响行人重识别的精度，因此在低质量图像上学习出高精度行人重识别模型成为研究重点。

根据损失类型，行人重识别分为表征学习和度量学习。表征学习将行人重识别问题当作图像分类和验证问题，度量学习将图像特征映射到高维特征空间，通过距离度量出两张图像相似度。2014年以来，通过卷积神经网络提取的更具鲁棒性的特征，利用更简单的距离度量公式查找更准确的行人图像，大大增强了行人重识别模型的精度与泛化能力。在本研究方向上大量学者提出更高质量算法，行人重识别研究迎来了爆发式增长。

注意力机制可以使神经网络专注于特定的区域特征，从大量的特征信息中筛选出重要的信息。当前行人重识别可分别在空间、通道上引入注意力机制，强调空间和通道两个维度上的重点信息，削弱非重点信息，同时将全局特征与局部特征融合，增强模型的表征能力，达到较高的识别率。然而这些研究鲁棒性较差，模型的泛化能力不强，模型复杂度也较高。

发明内容

为了解决上述技术问题，本发明提出了一种基于全局特征表征的多层级特征融合的行人重识别方法及系统，在显著提升了行人重识别效果的同时，不会带来过多的计算量，同时能够解决图像遮挡、拍摄角度变化、分辨率不高等现象所带来的行人重识别研究算法精度不高的问题。

本发明的方法所采用的技术方案是：一种基于多层级特征融合的行人重识别方法，包括以下步骤：

步骤1：构建行人重识别网络，包括骨干网络、分支网络和聚合模块；

所述骨干网络分成5层，其中第1层不加分裂模型，第2、3、4、5层分别添加分裂模型，该分裂模型的每层输入均不相同，若分裂模型输入图像通道数为 c，沿通道维度平均分成k个基块组，在每个基块组内沿通道维度上继续分裂成r 个分裂组，其中r、k为设置的超参数，c＝k×r，r个分裂组先分别进行特征提取，k个基块组后通过通道数融合后与原始输入特征相加；

所述分支网络为采用金字塔卷积结构，卷积核的大小设置成3×3、5×5、7×7、 9×9，卷积核递增的同时卷积核深度逐渐递减，同时每个金字塔卷积内通过分组卷积来降低计算量；金字塔卷积分别被应用在骨干网络的不同层，每层的卷积核尺度和深度各不相同，第2层卷积核尺度分别为3、5、7、9，深度均为64，第 3层卷积核尺度为3、5、7，深度分别为128、128、256，第4层卷积尺度均为 512，第5层卷积核尺度为3，深度为2048；

所述聚合模块，引入广义均值池化代替最后一层的平均池化；假设输入向量为χ，池化后的输出为f，最大池化公式：

其中，f^(m)是输出f的第m个特征向量，

是f^(m)的第k个特征值，共有 K个特征值，

是输入向量χ中属于第k个特征值邻域内特征值的最大值；

平均池化公式：

广义均值池化公式：

公式(1)和公式(2)都是公式(3)特殊形式，p_k是引入的超参数，通过反向传播可以自动学习到最优解，当p_k＝1时，公式(2)就是平均池化；当p_k→∞时，公式(1)就是最大池化；

步骤2：训练行人重识别网络，获得训练好的行人重识别网络；

从公开数据源中获取训练数据并预处理，将预处理后的图像数据分为训练集和测试集，将训练集送入行人重识别网络进行训练，获得训练后的行人重识别网络；通过测试集测试训练后的行人重识别网络，若满足预设要求，则停止训练，获得训练好的行人重识别网络，否则继续执行训练过程；

步骤3：从视频中抽取图像帧，预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取，同时利用分支网络通过卷积核的多尺度和多深度，提取不同尺度的细节信息；然后通过相加的方式将主干网络和各层级分支网络进行特征融合；最后通过表征学习和度量学习，找到该行人图像在图像库中的其他图像，根据与原图像的相似度输出排名前N的行人图像。

本发明的系统所采用的技术方案是：一种基于多层级特征融合的行人重识别系统，包括以下模块：

模块一，用于构建行人重识别网络，包括骨干网络、分支网络和聚合模块；

其中，f^(m)是输出f的第m个特征向量，

是f^(m)的第k个特征值，共有 K个特征值，

是输入向量χ中属于第k个特征值邻域内特征值的最大值；

平均池化公式：

广义均值池化公式：

模块二，用于训练行人重识别网络，获得训练好的行人重识别网络；

模块三，用于从视频中抽取图像帧，预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取，同时利用分支网络通过卷积核的多尺度和多深度，提取不同尺度的细节信息；然后通过相加的方式将主干网络和各层级分支网络进行特征融合；最后通过表征学习和度量学习，找到该行人图像在图像库中的其他图像，根据与原图像的相似度输出排名前N的行人图像。

本发明与现有方法相比，其显著优点在于：

(1)本发明提出了一种基于多层级特征融合的行人重识别算法，从空间维度提升网络性能。首先将ResNeSt-50网络作为骨干网络提取行人图像的全局特征；然后与金字塔卷积分支网络提取到的细节特征相融合，达到提取多粒度特征的目的。

(2)本发明采用广义均值池化作为聚合模块，该池化介于最大池化和均值池化之间，通过一种统一池化类型，能更好的捕捉特征差异性。

(3)本发明的识别效果在DukeMTMC-ReID数据集上，Rank-1、mAP两个评价指标分别达到了90.9％和89.8％，达到了目前较高的识别率。

附图说明

图1为本发明实施例的行人重识别网络框架图；

图2为本发明实施例的金字塔卷积示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明的目的在于提供一种基于多层级特征融合的行人重识别方法及系统。使用ResNeSt-50作为基础的特征提取网络，通过多尺度特征信息的融合，提取更丰富的特征信息的同时，不会带来过多的计算。使用金字塔卷积分支提取更多细节特征，并通过多层级信息的融合，带来更加丰富的语义信息。距离度量使用带有难例样本挖掘(Hard Mining)的三元组损失函数(Triplet Loss)，分类阶段使用交叉熵损失函数(Cross Entropy Loss)。最后一层池化阶段使用广义均值池化 (Generalized Mean Pooling，GeM)。测试阶段使用基于k近邻编码(k-reciprocal Encoding)的Reranking，以及图像查询(Query Expansion，QE)。

请见图1和图2，本发明提供的一种基于多层级特征融合的行人重识别方法，包括以下步骤：

本实施例的骨干网络基于Resnet分成5层，其中第1层不加分裂模型，第2、 3、4、5层分别添加分裂模型，该分裂模型的每层输入均不相同，若分裂模型输入图像通道数为c，沿通道维度平均分成k个基块组(Cardinal Groups)，在每个基块组内沿通道维度上继续分裂成r个分裂组(Split Groups)，其中r、k为设置的超参数，c＝k×r，r个分裂组(SplitGroups)先分别进行特征提取，k个基块组后通过通道数融合后与原始输入特征相加。本方法通过对特征图进行压缩得到通道级的全局特征，再对全局特征进行共享尺度，相加获得融合特征，在基块组内使用跨空间维度的全局平均池化(Global Average Pooling)收集全局上下文信息，随后通过逐通道(Channel-wise)的软注意力(Soft Attention)聚合得到突出重点区域、弱化非重点区域的特征信息图。

本实施例的分支网络为采用金字塔卷积结构，如图2所示为金字塔卷积结构，卷积核的大小设置成3×3、5×5、7×7、9×9，卷积核递增的同时卷积核深度逐渐递减，同时每个金字塔卷积内通过分组卷积(Group Convolution)来降低计算量。为了更好地提取细粒度特征信息，金字塔卷积分别被应用在骨干网络的不同层，每层的卷积核尺度和深度各不相同，第2层卷积核尺度分别为3、5、7、9，深度均为64，第3层卷积核尺度为3、5、7，深度分别为128、128、256，第4层卷积尺度均为512，第5层卷积核尺度为3，深度为2048，最后通过相加的方式将主干网络和各层级分支网络进行特征融合。

传统平均池化(Mean Pooling)和最大池化(Max Pooling)都过于极端，容易忽略某些区域的特征差异性，因此，本实施例的聚合模块，引入在图像检索领域常用的广义均值池化代替最后一层的平均池化。

假设输入向量为χ，池化后的输出为f，最大池化公式：

其中，f^(m)是输出f的第m个特征向量，

是f^(m)的第k个特征值，共有 K个特征值，

是输入向量χ中属于第k个特征值邻域内特征值的最大值；

平均池化公式：

广义均值池化公式：

公式(1)和公式(2)都是公式(3)特殊形式，p_k是引入的超参数，通过反向传播可以自动学习到最优解，当p_k＝1时，公式(2)就是平均池化；当p_k→∞时，公式(1)就是最大池化；广义均值池化是介于平均池化和最大池化之间的一种统一形式的池化，能更好的捕捉图像的特征差异性。

本实施例中，数据来源于几个公开数据集，如Market1501、DukeMTMC-Reid、MSMT17。从数据集中提取的图像通过水平翻转、随机擦除等预处理方法进行预处理。

本实施例中，借助目标检测技术将图像裁剪成大小为256×128，通道数为3，之后使用随机擦除、图像翻转等方法对输入图像进行预处理。

本实施例采用损失函数衡量深度学习模型的预测能力，使用损失函数监督模型训练过程，从而缩小真实值与预测值差距的目的。

(1)交叉熵损失函数

行人重识别的分类问题，就是区分某一张图像上的行人是否属于某一 ID(Identification)的问题。神经网络会输出一个当前真实值的预测概率，预测值概率与标签真实概率通过一个交叉熵损失函数计算损失函数值，在训练中最小化该损失函数值，得到最优的预测概率分布。

其中，N是批次数，H表示行人数，f_i是图像i的特征向量，其真实标签为y_i， W为权重，b是偏置；

是第k个行人的权重向量的转置，b_k是第k个行人的偏置向量；

(2)三元组损失函数

行人重识别的度量学习，就是通过将行人图像通过聚合模块后得到的特征向量与图库内图像特征向量通过欧氏距离公式计算出距离大小，找到距离最小的即相似度最高的图像。三元组损失函数(Triplet Loss)选取锚点an、正样本pos、负样本neg构成三元组，损失函数的最小化，就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化。但三元组损失仅对正负样本距离在阈值内的样本进行优化，难以顾及阈值外的样本，因此改用难例样本挖掘三元组损失函数 (Triplet Loss with Batch Hard Mining，TriHard)进行训练，训练时在每个批次中挑选出P个行人，每个行人挑选出K张图像，三元组均来自于该P×K张图像，通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失，如公式(5)所示，其中mar为设置的超参数，d_an,pos是锚点与正样本的距离，d_an,neg是锚点与负样本的距离。

其中，A、B表示该P×K张图像中不同的样本集，A、B分别表示正样本 pos和负样本neg分别来源于不同的样本集，正样本和负样本不重合。

(3)联合损失函数

本发明通过交叉熵损失函数和难例样本挖掘三元组损失函数的联合训练来优化训练过程，避免模型的过拟合，最终的损失函数如公式(6)所示：

L_total＝L_Softmax+L_{tri_hard} (6)

本实施例针对训练后模型的测试，会输出该图像的t张同一ID图像。本发明对输出结果先后采用两种重排序方式，图像查询和k近邻编码。如公式(7)所示，图像查询通过一个查询图f_q，图库中t个相似的特征图f_g，通过计算返回的前t个结果，包括查询图本身，求取平均值得到新的查询特征图。新的特征图被用作k 近邻编码重排序，通过计算马氏距离和杰卡德距离，在图库中找到查询图的排序列表。

通过该重排序方法，将更多相似度高且互相关联的图像往前排，得到更精确的行人重识别排序结果。

步骤3：从视频中抽取图像帧，借助目标检测技术将图像裁剪成大小为256 ×128，通道数为3，之后使用随机擦除、图像翻转等方法对输入图像进行预处理。随后将图像送入训练好的行人重识别网络的骨干网络进行特征提取。

本实施例在骨干网络特征提取的同时，利用分支网络通过卷积核的多尺度和多深度，提取不同尺度的细节信息。采用金字塔卷积进行分支网络的特征提取，相比于标准卷积，金字塔卷积在提取更加丰富语义信息的同时并不会带来过多的计算量和参数量。

本实施例通过相加的方式将主干网络和各层级分支网络进行特征融合。

本实施例的图像经过骨干网络和分支网络进行特征提取后，得到的特征信息送入聚合模块，最后通过表征学习和度量学习，找到该行人图像在图像库中的其他图像，根据与原图像的相似度输出排名前10的行人图像。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多层级特征融合的行人重识别方法，其特征在于，包括以下步骤：

所述骨干网络基于ResNeSt-50网络，分成5层，其中第1层不加分裂模型，第2、3、4、5层分别添加分裂模型，该分裂模型的每层输入均不相同，若分裂模型输入图像通道数为c，沿通道维度平均分成k个基块组，在每个基块组内沿通道维度上继续分裂成r个分裂组，其中r、k为设置的超参数，c＝k×r，r个分裂组先分别进行特征提取，k个基块组后通过通道数融合后与原始输入特征相加；

所述分支网络为采用金字塔卷积结构，卷积核的大小设置成3×3、5×5、7×7、9×9，卷积核递增的同时卷积核深度逐渐递减，同时每个金字塔卷积内通过分组卷积来降低计算量；金字塔卷积分别被应用在骨干网络的不同层，每层的卷积核尺度和深度各不相同，第2层卷积核尺度分别为3、5、7、9，深度均为64，第3层卷积核尺度为3、5、7，深度分别为128、128、256，第4层卷积尺度均为512，第5层卷积核尺度为3，深度为2048；

其中，f^(m)是输出f的第m个特征向量，

是f^(m)的第k个特征值，共有K个特征值，

是输入向量χ中属于第k个特征值邻域内特征值的最大值；

平均池化公式：

广义均值池化公式：

步骤3：从视频中抽取图像帧，预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取，同时利用分支网络通过卷积核的多尺度和多深度，提取不同尺度的细节信息；然后通过相加的方式将主干网络和各层级分支网络进行特征融合；图像经过骨干网络和分支网络进行特征提取后，得到的特征信息送入聚合模块，最后通过表征学习和度量学习，找到行人图像在图像库中的其他图像，根据与原图像的相似度输出排名前N的行人图像。

2.根据权利要求1所述的基于多层级特征融合的行人重识别方法，其特征在于：步骤2中，使用损失函数监督行人重识别网络训练过程，从而缩小真实值与预测值差距；

通过交叉熵损失函数L_Softmax和难例样本挖掘三元组损失函数L_{tri_hard}的联合训练来优化训练过程，避免行人重识别网络的过拟合，损失函数如公式(4)所示：

L_total＝L_Softmax+L_{tri_hard} (4)

其中，N是批次数，H表示行人数，f_i是图像i的特征向量，其真实标签为y_i，W为权重，b是偏置；W_k ^T是第k个行人的权重向量的转置，b_k是第k个行人的偏置向量；

采用难例样本挖掘三元组损失函数进行训练，三元组损失函数选取锚点an、正样本pos、负样本neg构成三元组，训练时在每个批次中挑选出P个行人，每个行人挑选出K张图像，三元组均来自于P×K张图像，通过计算欧氏距离找到离锚点距离最远的正样本、最近的负样本来计算三元组损失，如公式(6)所示，其中mar为设置的超参数，d_an,pos是锚点与正样本的距离，d_an,neg是锚点与负样本的距离，A、B表示该P×K张图像中不同的样本集，即所选正样本和负样本不重合；

损失函数的最小化，就是锚点与负样本之间的距离最大化、锚点与正样之间的距离最小化。

3.根据权利要求1所述的基于多层级特征融合的行人重识别方法，其特征在于：步骤2中，针对训练后行人重识别网络的测试，会输出该图像的t张同一ID图像；对输出结果先后采用两种重排序方式，图像查询和k近邻编码；图像查询通过一个查询图f_q，图库中t个相似的特征图f_g，通过计算返回的前t个结果，包括查询图本身，求取平均值得到新的查询特征图

新的查询特征图

被用作k近邻编码重排序，通过计算马氏距离和杰卡德距离，在图库中找到查询图的排序列表；

4.根据权利要求1-3任意一项所述的基于多层级特征融合的行人重识别方法，其特征在于：步骤2和步骤3中，借助目标检测技术将图像裁剪成大小为256×128，通道数为3，之后使用随机擦除、图像翻转对输入图像进行预处理。

5.一种基于多层级特征融合的行人重识别系统，其特征在于，包括以下模块：

其中，f^(m)是输出f的第m个特征向量，

是f^(m)的第k个特征值，共有K个特征值，

是输入向量χ中属于第k个特征值邻域内特征值的最大值；

平均池化公式：

广义均值池化公式：

模块三，用于从视频中抽取图像帧，预处理后将图像送入训练好的行人重识别网络的骨干网络进行特征提取，同时利用分支网络通过卷积核的多尺度和多深度，提取不同尺度的细节信息；然后通过相加的方式将主干网络和各层级分支网络进行特征融合；最后通过表征学习和度量学习，找到行人图像在图像库中的其他图像，根据与原图像的相似度输出排名前N的行人图像。