CN113283320A

CN113283320A - 一种基于通道特征聚合的行人重识别方法

Info

Publication number: CN113283320A
Application number: CN202110524584.2A
Authority: CN
Inventors: 徐增敏; 陆光建; 蒙儒省; 丁勇
Original assignee: Guilin Anview Technology Co ltd; Guilin University of Electronic Technology
Current assignee: Guilin Anview Technology Co ltd; Guilin University of Electronic Technology
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-20

Abstract

本发明公开了一种基于通道特征聚合的行人重识别方法，主要创新点有：一是在残差块的末尾再接一个SE Block结构，提高了网络对通道特征的提取能力；二是结合ReLU和权重偏置项提出了2个新的激活函数WReLU和LWReLU，有效提高神经网络对全局特征的表征能力；三是在Split‑Attention和SE Block中应用LWReLU，提高了Split‑Attention计算各组特征图的权重能力和SE Block对通道特征的提取能力，四是应用了新型的损失函数Circle Loss，使得模型能更为灵活的优化，能更为明确的收敛目标，进而提高模型的性能。

Description

一种基于通道特征聚合的行人重识别方法

技术领域

本发明涉及神经网络技术领域，尤其涉及一种基于通道特征聚合的行人重识别方法。

背景技术

国内外现有的一些研究方向是以捕捉局部特征去识别行人，就实用性来说，此类方法可以适应一些场景，然而准确性却得不到保证，往往不能达到较高的识别准确率，那么就会造成很大的影响。其局限性还包括使用的场景较少，因为提取的特征比较少，在实验条件下的数据可能会比较优异，而在进行不同的实地场景实验时，由于光线、天气、风级等客观因素会扰乱既定的捕捉特征。宽泛地讲，由于特征较少，尽管有一定的准确率，但是不可能大规模应用在实际生活里面。

传统的基于深度学习的行人重识别算法，大多通过简单的堆叠网络的层数或是大量增加数据的量以提高准确率。但如此做的同时，不可避免的会使神经网络的体积变得臃肿，而且会出现梯度弥散或梯度爆炸等问题。并且，目前深度学习中监督学习大多适用于图像数据，而行人数据由于光线、遮挡等因素，特征提取较难，导致模型性能降低。

发明内容

本发明的目的在于提供一种基于通道特征聚合的行人重识别方法，提高模型性能。

为实现上述目的，本发明提供了一种基于通道特征聚合的行人重识别方法，包括以下步骤：

对原始残差网络进行分割和加权组合，并结合注意力机制，构建行人重识别模型；

对获取的图像进行随机的数据增强，并将划分出的多个数据集分别输入所述行人重识别模型中进行训练和验证，得到对应的置信度分数；

对所述置信度分数进行归一化处理，并采用正则化策略进行过拟合抑制，得到预测概率值。

其中，对原始残差网络进行分割和加权组合，并结合注意力机制，构建行人重识别模型，包括：

利用1x1卷积分离通道，并将输入数据分成多个小组，以及将每个所述小组划分为多个小块；

将所有所述小组和所述小块进行分组融合，并结合注意力机制，构建行人重识别模型。

其中，将所有所述小组和所述小块进行分组融合，并结合注意力机制，构建行人重识别模型，包括：

将每个所述小组中的所有所述小块通过1x1卷积分离通道和3x3卷积融合；

将融合后的所有所述小组进行聚合输出，并经过1x1卷积操作后，结合注意力机制，构建行人重识别模型。

其中，对获取的图像进行随机的数据增强，并将划分出的多个数据集分别输入所述行人重识别模型中进行训练和验证，得到对应的置信度分数，包括：

对获取的图像进行随机的裁剪、擦除和水平翻转；

采用交叉验证法将增强数据后的所述图像划分为训练集、查询图像和检索库图像；

基于Mini-Batch梯度下降算法和余弦退火法，利用所述训练集对所述行人重识别模型进行训练，并利用所述查询图像和所述检索库图像对训练后的所述行人重识别模型进行测试，得到对应的多个置信度分数。

其中，对获取的图像进行随机的裁剪、擦除和水平翻转，包括：

对获取的图像中的多个类别主要特征中随机的插入背景因子，基于信息增益或权重的比值，删除对应的所述背景因子，完成对所述图像的裁剪；

获取所述图像的原始宽高和面积、随机擦除区域的宽高和面积；

获取所述图像中的任一像素点，并当所述像素点满足擦除要求时，将所述随机擦除区域内所有点的像素值改为(0,255)中任意一个随机数，完成对所述图像的裁剪；

基于Auto Augmentation法对所述图像进行随机的水平翻转。

其中，对原始残差网络进行分割和加权组合，并结合注意力机制，构建行人重识别模型之后，所述方法还包括：

基于ReLU激活函数，将所述ReLU激活函数的正区间取值修改为权重偏置项与特征图矩阵元素之和，得到修改后的WReLU激活函数。

基于ReLU激活函数，将所述ReLU激活函数的负区间取值修改为权重偏置项，得到修改后的LWReLU激活函数。

其中，对原始残差网络进行分割和加权组合，并结合注意力机制，构建行人重识别模型，所述方法还包括：

在原始残差网络和注意力机制中，根据结构比重情况，对应选择WReLU激活函数提取正区间特征信息或者使用LWReLU激活函数提取负区间特征信息。

其中，对所述置信度分数进行归一化处理，并采用正则化策略进行过拟合抑制，得到预测概率值，包括：

对所述置信度分数进行归一化处理，并计算出对应的损失函数；

基于正则化策略引入超参数对所述损失函数进行改进，得到最终的最佳预测概率值。

其中，对所述置信度分数进行归一化处理，并计算出对应的损失函数，包括：

对所述置信度分数进行归一化处理，并分别计算出CrossEntropyLoss和Circleloss两种损失函数的值；

将所述CrossEntropyLoss和所述Circle loss两种损失函数的值进行求和，得到对应的损失函数值。

本发明的一种基于通道特征聚合的行人重识别方法，在原有神经网络的基础上，提高了Split-Attention计算各组特征图的权重能力，引入了能更好学习通道特征的SEBlock，较好地增强了网络的性能。同时，本发明提出的激活函数WReLU和LWReLU具有更好的全局表征能力，Circle loss和CrossEntropyLoss的结合使用能使模型得到更好的优化。最后，本发明对激活函数ReLu和WReLU的使用进行对比实验，结果发现在神经网络中全部使用WReLU的效果比全部使用ReLu的效果要好。而为解决因WReLU的Dead ReLU现象而导致可能出现丢失关键特征的问题，本发明在对特征聚合部分的重要位置使用LWReLU，得到了比网络全部使用WReLU更好的结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于通道特征聚合的行人重识别方法的步骤示意图。

图2是本发明提供的行人重识别模型的结构示意图。

图3是本发明提供的改进后的split-attention的网络结构图。

图4是本发明提供的WReLU变换前(左)VS变换后(右)对比图。

图5是本发明提供的WReLU图像(左)VS ReLU图像(右)。

图6是本发明提供的LWReLU变换前(左)VS变换后(右)对比图。

图7是本发明提供的LWReLU图像(左)VS LeakyReLU图像(右)。

图8是本发明提供的SE Block结构图。

图9是本发明提供的随机擦除前(左)VS随机擦除后(右)对比图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1，本发明提供一种基于通道特征聚合的行人重识别方法，包括以下步骤：

S101、对原始残差网络进行分割和加权组合，并结合注意力机制，构建行人重识别模型。

具体的，利用1x1卷积分离通道，并将输入数据分成多个小组，以及将每个所述小组划分为多个小块；将每个所述小组中的所有所述小块通过1x1卷积分离通道和3x3卷积融合；将融合后的所有所述小组进行聚合输出，并经过1x1卷积操作后，结合注意力机制，构建行人重识别模型(ResNest)，具体流程为：

ResNeSt是对ResNet的改进，在单个网络内合并了特征图的拆分注意力。即把每个块的特征图沿通道维度分成几组和更细粒度的子组或分割。其中，每个组的特征表示由其分割表示的加权组合确定。这个单元就是模块化的Split-Attention，通过叠加几个Split-Attention块，搭建一个行人重识别模型。

ResNest使用1x1卷积分离通道(channel)，将输入数据分成k个小组(Cardinal)，每个Cardinal又分成r个小块(Split)。每个Cardinal中的r个Split通过1x1卷积分离通道和3x3卷积，通过Split-Attention块连接，最后聚合所有小组的输出并于原始输入x相加。在k个Cardinal和r个Split中按比例切分通道数，然后在通道维度拼接，可以更好的聚合通道信息。

ResNeSt的Split-Attention模块

ResNeSt的Split-Attention模块首先将各分组做融合，然后接一个注意力机制(SENet)结构，即全局池化(Global pooling)+两个全连接层(Fc1+Fc2)，SENet主要是学习了channel之间的相关性，筛选出了针对通道的注意力，只增加了一点计算量，但能是网络的效果更好，改进后的结构如图2所示，其中两个全连接层都用1×1卷积代替。Globalpooling的公式如下所示：

其中：

U^k∈R^H×W×C,k∈1,2,...K

其中，S：全局池化；c：输入特征图的通道数；H：输出特征图的高；W：输出特征图的宽；U^k：表示第k个基数组(cardinal group)；k：k＝1,2,3……K(K为基数组的数量)；

对第c维上的第k个输入特征图做全局池化；

第c维上的第k个基数组。

H，W，C分别是ResNeSt block之前输入特征的高度、宽度、通道数。全局池化主要用于收集上下文信息。输入特征图(feature map)的每一个通道(channel)单独拿出来都是一个H×W的矩阵，对这个矩形所有元素加和求平均就得到第C个通道的

对

进行rsoftmax(即按分组来做softmax)，得到各组的权重其中rsoftmax的公式如下：

其中，a：权重；

c：输入特征图的通道数；

i：表示split小块，i＝1,2,3……R；

k：k＝1,2,3……K(K为基数组的数量)；

R：超参数，表示基数组(cardinal group)内的split数目；

G：注意力机制方程，通过两个全连接层实现；

s^k：对第k个输入特征图做全局池化；

第c维上的第k个基数组中的第i个小块的权重；

在第c维上的第i个小块用注意力机制方程对s^k做映射。

是基于全局上下文信息的s^k来决定每一个分组的第C个通道的权重。接着按权重融合各组特征，得到的输出feature map(特征图)为V^k，V^k中第C个通道的融合计算公式如下：

在传统的池化操作过程中，默认特征图的每个通道是价值相等的，但是实际应用中的特征图，在不同通道的重要性存在一定差异。而注意力机制可以减少无关信息对提取主要特征而造成的干扰，从而提高网络对特征的提取能力。SE Block即为在通道维度上添加的注意力机制，其只需要少量的计算便可以自动学习通道特征的重要性。SE Block的实现过程如图8所示，其主要包含Squeeze和Excitation两个操作。

Squeeze操作本质上是一种特征压缩的方式，其主要通过对特征图进行全局池化实现，计算公式如下：

其中H和W为特征图的高和宽，U_c表示特征图U中的第c个二维矩阵，c表示对应的通道。

Excitation操作通过两个1×1×c的全连接层对通道间的相关性进行建模，输出特征值对应的权重。其计算公式如下所示：

E_c＝F_ex(Z_c,W)＝σ(W₂δ(W₁Z_c))

其中W₁Z_c表示第一个全连接，σ表示Sigmoid函数，δ表示ReLU激活函数，W₂δ即表示第二个全连接操作。

假设输入的是一个h×w×c的特征图，首先对它进行一个global averagepooling，由全局池化(池化大小为h×w)的操作可以得到一个1×1×c的特征图，这个特征图可以理解为具有全局感受野。然后接两个全连接层，第一个全连接层的神经元个数为c/16以达到降维的目的，第二个全连接层又升维到了C个神经元个数，这样做的好处是增加了更多的非线性处理过程，可以拟合通道之间复杂的相关性。然后再接一个sigmod层，得到1×1×c的特征图，最后接一个原始的h×w×c和1×1×c的特征图全乘的操作，可以得到不同通道重要性不一样的特征图。

SE Block主要是学习通道之间的相关性，筛选出不同通道的注意力，本发明将SEBlock嵌入ResNeSt Block末尾，以提高网络对通道特征的提取能力。

ReLU函数代表的是“修正线性单元”，它是带有卷积图像的输入x的最大函数(x,0)。ReLU函数将矩阵x内所有负值都设为零，其余的值不变。其公式如下：

ReLU的计算效率高，能使网络快速收敛。当x＞0时，函数值保持不变，这样可以使得特征延续到下一层网络。但不同特征的重要程度不同。

WReLU激活函数为提高激活函数的表征能力，本发明提出在ReLU基础上应用权重偏置项得到WReLU。与ReLU相比，WReLU在梯度正向的取值为权重偏置项与x之和，其公式如下所示：

其中S×x为权重偏置项，S由如下公式给出：

其中，

表示第c个通道上特征图矩阵中第i,j个元素的值，i，j＝0，1，2，3……，H，W为特征矩阵的宽和高；c为通道数，k＝1,2,3……K(K为基数组的数量)。计算得到的S表示x的权重。因为S由x与全部通道特征图元素绝对值之和的比重决定，所以加入了权重偏置项的激活函数对全局特征有更好的表达能力。

WReLU对特征图的变换如图4所示。设输入特征图为3×3×1，以左上角的值1为例，先计算出特征图对应的特征矩阵中绝对值之和为45，接着计算S＝1/45，则f(1)＝1+1/45×1＝1.022；而-2<0，所以置为0。重复以上操作可以即得到图4右图。

当自变量x∈[0，1]时，WReLU和ReLU的图像如图5所示。当x＞0时，S＞0，所以x+S×x＞x；当x＝1时，f_SReLU＞1，而f_ReLU＝1。可见x的权重S越大，WReLU和ReLU之间的差异就会越大。

LWReLU激活函数

虽然WReLU继承了ReLU能稀疏矩阵和加速收敛的优点，但WReLU也继承了ReLU的缺点。ReLU在负数区域被kill的现象叫做Dead ReLU。ReLU在训练的时很“脆弱”。在x<0时，梯度为0。这个神经元及之后的神经元梯度永远为0，不再对任何数据有所响应，导致相应参数永远不会被更新。从而可能导致遗失部分重要特征的问题。为了解决这个问题，传统LeakyReLU用一个极小值来初始化网络的神经元，以此来让ReLU在负数区域部分更偏向于激活而不是消失。其数学表达式：

y＝max(0,x)+Leaky×min(0,x)

其中，Leaky是一个很小的常数。这样加入Leaky后，LeakyReLU保留了一些负轴的值，使得负轴的信息不会全部丢失。

借鉴LeakyReLU激活函数的思路，将S应用于x轴负向，使LWReLU在x轴正向保持值不变，而在x轴负向用一个系数与特征值相乘。不同的是，LeakyReLU的系数Leaky为极小固定值，而LWReLU的系数S由特征值和特征图所有特征值之和的比值动态决定。因此，LWReLU不仅没有Dead ReLU问题，而且还有更好的全局表征能力。其公式如下：

LWReLU对特征图的变换如图6所示。

设输入特征图为3×3×1，以左上角的值1为例，先计算出特征图对应的特征矩阵中绝对值之和为45，接着计算S＝1/45，因为1>0，所以f(1)＝1；而-2<0，所以

重复以上操作即得到图6右图。

当自变量x∈[0，1]时，LWReLU和LeakyReLU的图像如图7所示：从图7可知，LeakyReLU在x轴负方向的取值为固定值，而LWReLU的负方向取值为动态变化值。在x轴负方向上，x越小，S就越大，LWReLU和LeakyReLU之间的差异便会越大。

结构比重大的地方，例如有3个Cardinal和n个Split的位置，使用所述WReLU激活函数提取正区间特征信息；而网络结构比重小的地方，例如只有1个Split-Attenton和1个SE Block的位置，使用所述LWReLU激活函数提取负区间特征信息。

S102、对获取的图像进行随机的数据增强，并将划分出的多个数据集分别输入所述行人重识别模型中进行训练和验证，得到对应的置信度分数。

具体的，对获取的图像进行随机的裁剪、擦除和水平翻转，以提高提高模型的准确率和提升模型的泛化能力，包括：

对获取的图像中的多个类别主要特征中随机的插入背景因子，基于信息增益或权重的比值，删除对应的所述背景因子，完成对所述图像的裁剪，具体为：

对数据进行随机裁剪在增加数据的同时，也是一个弱化数据噪声与增加模型稳定性的方法。比如假设二类分类问题(如何区分人脸与猫脸)。G₁类别主要特征为{E₁,F₁,G₁}，G₂类别主要特征为{E₂,F₂,G₂}，这里的特征可能是非离散的。为增加数据的真实性，增加背景数据噪音，即G₁和G₂中随机加入N₁,N₂,N₃，这里可以表示为非人脸或非猫脸的背景区域。这个时候随机剪裁可以得到图片，这里为了方便，未考虑组合特征对类别的相关关系，即多个局部特征可以组合为全局特征，这时全局特征有关于类别的关联关系，这个关系和其包含的局部特征不同，如：

I₁＝{E₁,F₁,G₁}

I₂＝{E₁,G₁,N₁}

I₃＝{E₁,F₁,N₂}

因为N₁,N₂,N₃是随机的，而E₁,F₁,G₁总能高概率的产生E₁,F₁,G₁→G₁的映射，这意味着{E₁,F₁,G₁}中的任意因子相比于N₁,N₂,N₃有更高的信息增益或者权重。即：

P(C₁|x∈{E₁,F₁,G₁})＞＞P(C₁|x∈{N₁,N₂,N₃})

若N₁,N₂,N₃在G₂中也存在，则意味着N₁,N₂,N₃对分类的信息增益接近于零。假设模型未见过数据I_x＝{E₁,G₁,N₁}，那通过上式我们可以看到E₁,F₁的权重远高于其他特征，即使其他未见过的噪声加入，E₁,F₁因子的权重仍然起主要作用，而个别的因子特征缺失并不会大幅影响模型的预测结果，这个和深度学习中的dropout原理相同，区别是两者的使用方式及dropout更加随机，所以综上模型有更高的稳定性。

而随机裁剪相当于建立每个因子特征与相应类别的权重关系，减弱背景(或噪音)因子的权重，且使模型面对缺失值不敏感，也就可以产生更好的学习效果，增加模型稳定性。

获取所述图像的原始宽高和面积、随机擦除区域的宽高和面积；获取所述图像中的任一像素点，并当所述像素点满足擦除要求时，将所述随机擦除区域内的所有点的像素值改为(0,255)中的任一个随机数，完成对所述图像的裁剪，具体为：

如图9所示，在生活中，遮挡是很常见的。但在没有遮挡的数据集中，即所有的目标都清晰可见，训练的神经网络可能会得到一个较高的准确率，但是它的泛化能力是有限的，对于那些被遮挡的对象可能无法识别。随机擦除便是为了解决遮挡问题。

假设输入原始图片I的宽高为W×H，面积S＝W×H。随机擦除的区域为I_e，宽高为W_e×H_e，面积S_e＝W_e×H_e，纵横比：

其中，r_e：擦除区域的高宽比

r₁：r_e的下阈值

r₂：r_e的上阈值

H_e：擦除区域的高

W_e：擦除区域的宽

I和I_e的面积比为：

其中，S：原始图片的面积

S_e：擦除区域的面积

S_l：S和S_e比值的下阈值

S_h：S和S_e比值的上阈值

设置进行随机擦除的概率为p，即保持原图不变的概率为1-p。当需要随机擦除操作时：首先在原始图片I上随机找一个像素点P(x_e,y_e)，若满足下式：

则将I_e内的所有点的像素值改为(0,255)中的一个随机数。

基于自动增强(Auto Augmentation)法对所述图像进行随机的水平翻转，具体为：

图像有许多对称性，这些对称性不会改变图像中存在的信息。例如，狗的镜面反射仍然是狗。虽然其中一些“不变性”对人类来说显而易见，但有许多却并非如此。例如，mixup方法通过在训练期间将图像彼此叠加来增强数据，从而产生可改善神经网络性能的数据。

Auto Augmentation是为计算机视觉数据集设计自定义数据增强策略的一种自动方式，例如，可指导基本图像变换操作的选择，如水平/垂直翻转图像、旋转图像和更改图像颜色等。AutoAugment不仅可以预测要组合的图像变换，还可以预测每个图像使用变换的概率和数量，以便确保图像操作并不局限于一种方式。Auto Augmentation能够从具有2.9×1032种图像变换可能性的搜索空间中选出最佳策略。

Auto Augmentation根据所运行的数据集学习不同的变换。例如，对于包含数字自然场景图像的门牌号街景(SVHN)图像，Auto Augmentation侧重于剪切和平移等几何变换，这些操作表示在该数据集中通常观察到的失真。此外，考虑到世界上不同楼号和门牌号材料的多样性，Auto Augmentation已经学会完全颠倒原始SVHN数据集中自然出现的颜色。

采用交叉验证法将增强数据后的所述图像划分为训练集、查询图像和检索库图像；基于小批量(Mini-Batch)梯度下降算法和余弦退火法，利用所述训练集对所述行人重识别模型进行训练，并利用所述查询图像和所述检索库图像对训练后的所述行人重识别模型进行测试，得到对应的多个置信度分数。

Mini-Batch是机器学习中SGD算法的一个概念。在机器学习发展的早期，由于数据集通常非常小，人们往往会把整个数据集过一遍，求得一个梯度向量并做相应的参数更新。到了21世纪，由于数据采集和标注的成本持续下降，数据量呈现了指数级爆发增长的趋势，传统的梯度下降算法不再适用，人们往往会随机采样一个mini-batch，并计算该mini-batch的梯度来更新参数。现有的图像分类模型的mini-batch相对较大，例如128、256、乃至最新的32K张图片。较大的mini-batch不仅能加快训练速度，也能对数据的整体分布拥有一个较好的近似，使得参数更新更有效率。

当我们使用梯度下降算法来优化目标函数的时候，当越来越接近Loss值的全局最小值时，学习率应该变得更小来使得模型尽可能接近这一点，而余弦退火(Cosineannealing)可以通过余弦函数来降低学习率。余弦函数中随着x的增加余弦值首先缓慢下降，然后加速下降，再次缓慢下降。这种下降模式能和学习率配合，以一种十分有效的计算方式来产生很好的效果。

S103、对所述置信度分数进行归一化处理，并采用正则化策略进行过拟合抑制，得到预测概率值。

具体的，对所述置信度分数进行归一化处理，并计算出对应的损失函数；基于正则化策略引入超参数对所述损失函数进行改进，得到最终的最佳预测概率值，提高识别精度，具体为：

特征学习有2种基本范式，分类学习和样本对学习。当进行分类学习时，通常需要用到像CrossEntropyLoss等的分类损失函数以优化样本和权重向量之间的相似度。当进行样本对学习时，通常需要用像triplet loss等的度量损失函数。但这两种特征学习的优化缺乏灵活性，且收敛状态不明确。为解决上述问题，Yifan Sun等人提出统一了两种特征学习范式的Circle loss。其公式如下：

其中，s_p表示类内相似度，s_n表示类间相似度，K表示与给定特征空间中单个样本相关的类内相似度分数的总数，L表示与给定特征空间中单个样本相关的类间相似度分数的总数。

而CrossEntropyLoss作为常用的损失函数，同样有着能凸优化函数，便于利用梯度下降方法找到最优解的优点。CrossEntropyLoss的公式如下：

H(p，q)＝-∑_x(p(x)logq(x)

其中概率分布p为期望的输出，概率分布q为实际的输出。

为结合CrossEntropyLoss和Circle loss和优点，本发明对两者的输出进行简单的相加，得到本发明所用的损失函数：

对原ReId算法和引入了SENet的ReId算法，以及改进了Split-Attention的ReId算法进行了多次实验，对比网络模型性能；对数据进行随机擦除，模型训练前进行warm-up，学习率衰减等策略。

本发明实验在Market1501、DukeMTMC-ReID和CUHK03-NP这三个主流的公开数据集上进行模型的训练和验证。如表1所示。

表1数据集简介

Market1501数据集用了6个摄像机拍摄了1501个行人数据、包含32668张图像数据并手工标注。其中训练集包含751个行人对象、12936张图像数据；测试集包含750个行人对象、19732张图像数据；DukeMTMC-ReID数据集用了8个摄像机，拍摄了1404个行人对象并手工标注、包含了36411张行人图像数据。其中训练集包含702个行人对象、16522张图像数据；测试集包含702个行人对象、17661张图像数据；CUHK03-NP数据集用了5对摄像机拍摄了1467个行人对象并手工标注、包含13164张行人图像数据。CUHK03-NP数据集根据标注方式的不同，分为detected和labeled两部分。每部分均有独立的训练集和测试集。其中detected部分的数据的行人框由机器标注，labeled部分的数据的行人框由人工标注。本发明在CUHK03-NP数据集上，采用了2017年的评估协议。

本发明实验在NVIDIATITAN XP GPU上进行，使用Pytorch为算法框架，骨干网为ResNest50。输入图像在进入网络前先进行随机剪裁、水平翻转和随机擦除等数据增强操作并调整图像大小为256×128后，进行归一化输入神经网络。初始学习率lr设置为0.02，每经过一个epoch，学习率衰减为lr×0.晦65。实验的批大小设置为8，总共训练90个epoch。预训练模型使用ResNeSt50在ImageNet数据集上训练好的分类模型。本发明所有实验都采用单一查询，即每个行人在每个摄像机下，只随机选用一张图像进行查询，用Rank-1和均值平均精度(mAp)评估行人重识别算法的性能。

实验训练策略

1.Large Mini-batch。Mini-Batch是机器学习中SGD算法的一个概念。在机器学习发展的早期，由于数据集通常非常小，人们往往会把整个数据集过一遍，求得一个梯度向量并做相应的参数更新。到了21世纪，由于数据采集和标注的成本持续下降，数据量呈现了指数级爆发增长的趋势，传统的梯度下降算法不再适用，人们往往会随机采样一个mini-batch，并计算该mini-batch的梯度来更新参数。现有的图像分类模型的mini-batch相对较大，例如128、256、乃至最新的32K张图片。较大的mini-batch不仅能加快训练速度，也能对数据的整体分布拥有一个较好的近似，使得参数更新更有效率。

label smoothing(标签平滑)是一种在分类问题中，防止过拟合的方法，在多分类任务中，神经网络会输出一个当前数据对应于各个类别的置信度分数，将这些分数通过softmax进行归一化处理，最终会得到当前数据属于每个类别的概率q_i。q_i的计算公式如下：

其中，q_i：每个类别的概率，即预测值；K：类别总数

i：多类别中的某一类

Z_i：预测概率分布

然后计算交叉熵损失函数Loss：

其中，Loss：交叉熵损失；K：类别总数

i：多类别中的某一类

q_i：每个类别的概率，即预测值

p_i：每个类别的真实值

i：多类别中的某一类

j：预测的类别

K为类别总数，i表示多类别中的某一类。训练神经网络时，最小化预测概率和标签真实概率之间的交叉熵，从而得到最优的预测概率分布。最优的预测概率分布是：

神经网络会促使自身往正确标签和错误标签差值最大的方向学习，在训练数据较少，不足以表征所有的样本特征的情况下，会导致网络过拟合。

label smoothing则可以解决上述问题，这是一种正则化策略，主要是通过softone-hot来加入噪声，减少了真实样本标签的类别在计算损失函数时的权重，最终起到抑制过拟合的效果。增加label smoothing后真实的概率分布有如下改变：

ε是一个较小的超参数。相应的交叉熵损失函数的改变如下：

最终的最优预测概率分布如下：

这里的ε是任意实数，最终模型通过抑制正负样本输出差值，使得网络有更强的泛化能力。

实验数据和结果分析

本发明将改进后的模型分别在Market1501、DukeMTMC-ReID和CUHK03-NP上进行训练和测试，并用mAp和Rank-1性能评价指标对改进后的行人重识别算法模型进行性能评估。其中，由Zheng等人提出的mAp用来测试多摄像机下的行人检索性能。Rank-k表示算法检索后返回的有序列表中，前k位为正确检索目标的命中率，如Rank-1表示检索的首位即为检索目标。

嵌入SE Block实验

表2嵌入SE Block后的性能对比

嵌入SE Block后的模型在三大数据集上的性能如表2所示。由表2可以看出，改进后模型在三个大数据集上的性能均有提升，其中在DukeMTMC-ReID数据集上的提升较为显著，这可能与数据集的拍摄环境等因素有关。在DukeMTMC-ReID数据集上Rank-1提升了1.22％，mAp提升了2.23％；在Market1501数据集上Rank-1提升了0.54％，mAp提升了0.49％。

WReLU激活函数实验

表3为在网络中全部单独应用了WReLU的实验结果。实验发现，在应用了WReLU激活函数后的模型性能在三大数据集上均有明显提升。其中在CUHK03-NP数据集上提升尤为显著，实验数据取三次重复实验的均值。在DukeMTMC-ReID数据集上Rank-1提升了1.53％，mAp提升了1.56％；在Market1501数据集上Rank-1提升了0.54％，mAp提升了1.42％。

表3应用WReLU后的性能对比

LWReLU激活函数实验

由表4可以看出，在网络中全部应用LWReLU后的整体性能在三大数据集上的提升并没有WReLU明显。而LWReLU和WReLU的主要区别在于，前者在负数区域的值为一个权重偏置项而后者为0，由此亦说明了LWReLU并不适合全局使用，同时间接说明了WReLU在负数区域“丢弃”的大多为不影响网络性能的特征。实验在DukeMTMC-ReID数据集上Rank-1提升了0.77％，mAp提升了2.08％；在Market1501数据集上Rank-1提升了0.33％，mAp提升了1.31％。

表4应用LWReLU后的性能对比

模型消融实验

为验证改进后模型各部件的有效性，本发明在3个数据集上进行了消融实验，采用单一查询模式并用Rank-1和mAp作为评价指标。其中SE表示嵌入SE Block，WReLU表示应用WReLU激活函数，LWReLU表示应用LWReLU激活函数。实验结果如表5所示。

与现有方法对比

如表5所示，在ResNeSt50网络中嵌入SE Block后，模型的Rank-1和mAp指标均有一定的提高，再进一步加入新提出的激活函数和应用改进后的损失函数后，模型的两项指标进一步提高。在Market1501数据集中，应用了改进后的算法比没有应用改进前，Rank-1提升了0.98％，mAp提升了2.11％。在DukeMTMC数据集上，应用了改进后的算法比没有应用改进前，Rank-1提升了2.02％，mAp提升了2.56％。

表5本发明所提方法的消融实验

表6不同算法模型的性能对比

如表6所示，改进后的模型在Market1501、DukeMTMC和CUHK03-NP数据集上均有明显的提升，说明改进后的模型具有较好的鲁棒性，同时也说明了改进后的模型在特征提取阶段能更有效地提取特征。

从表6可以看出，与其他的ReID方法，应用了本文所有改进后的ResNeSt50网络在三大数据集上均有提升。对比2017年的ICCV论文SVDnet，本文所提方法在Market1501数据集上的Rank-1和mAp分别提高了11.04％和20.20。对比2018年CVPR论文AACN，本文在Market1501数据集上的Rank-1和mAp分别提高了7.44％和15.43％。其中ACCN所提方法在CUHK03-NP数据集上的效果最好，本文分析ACCN在CUHK03-NP数据集上的网络参数调整较好，且ACCN所使用的骨干网为ACCN，而本文所使用的骨干网为ResNeSt。若将本文所提创新点用于ACCN，应能取得更好效果。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于通道特征聚合的行人重识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于通道特征聚合的行人重识别方法，其特征在于，对原始残差网络进行分割和加权组合，并结合注意力机制，构建行人重识别模型，包括：

3.如权利要求2所述的基于通道特征聚合的行人重识别方法，其特征在于，将所有所述小组和所述小块进行分组融合，并结合注意力机制，构建行人重识别模型，包括：

4.如权利要求1所述的基于通道特征聚合的行人重识别方法，其特征在于，对获取的图像进行随机的数据增强，并将划分出的多个数据集分别输入所述行人重识别模型中进行训练和验证，得到对应的置信度分数，包括：

对获取的图像进行随机的裁剪、擦除和水平翻转；

5.如权利要求4所述的基于通道特征聚合的行人重识别方法，其特征在于，对获取的图像进行随机的裁剪、擦除和水平翻转，包括：

基于Auto Augmentation法对所述图像进行随机的水平翻转。

6.如权利要求1所述的基于通道特征聚合的行人重识别方法，其特征在于，对原始残差网络进行分割和加权组合，并结合注意力机制，构建行人重识别模型之后，所述方法还包括：

7.如权利要求6所述的基于通道特征聚合的行人重识别方法，其特征在于，对原始残差网络进行分割和加权组合，并结合注意力机制，构建行人重识别模型之后，所述方法还包括：

8.如权利要求7所述的基于通道特征聚合的行人重识别方法，其特征在于，对原始残差网络进行分割和加权组合，并结合注意力机制，构建行人重识别模型，所述方法还包括：

9.如权利要求1所述的基于通道特征聚合的行人重识别方法，其特征在于，对所述置信度分数进行归一化处理，并采用正则化策略进行过拟合抑制，得到预测概率值，包括：

10.如权利要求9所述的基于通道特征聚合的行人重识别方法，其特征在于，对所述置信度分数进行归一化处理，并计算出对应的损失函数，包括：

对所述置信度分数进行归一化处理，并分别计算出CrossEntropyLoss和Circle loss两种损失函数的值；