CN116092127A

CN116092127A - 基于并联式特征融合网络人体动作识别的行人重识别方法

Info

Publication number: CN116092127A
Application number: CN202310179132.4A
Authority: CN
Inventors: 陈尧; 王世伟; 钟代笛; 黄智勇; 仲元红; 李祥臣; 周庆; 李勇明; 谢芳; 黄灏飞; 罗玲
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-09

Abstract

一种基于并联式特征融合网络人体动作识别的行人重识别方法，包括以下步骤：1)建立并联式特征融合网络：设置并联式特征融合网络的骨干网络，用于从输入图像中提取多尺度特征，并在该骨干网络的每一层均设置一分支网络，该分支网络用于提高本层图像语义信息的特征表达能力，并累积到骨干网络下一层的分支网络；骨干网络第一层的输出特征作为第一层分支网络的输入特征，从骨干网络第二层开始，骨干网络当前层的输出特征与上一层分支网络的输出特征融合后作为当前层分支网络的输入特征；2)利用并联式特征融合网络提取待检索行人图像的语义信息，将提取的语义信息与候选行人库中所有图像的语义信息一一对比，筛选出候选行人库中与待检索行人图像相似度最高的图像。

Description

基于并联式特征融合网络人体动作识别的行人重识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于并联式特征融合网络人体动作识别的行人重识别方法。

背景技术

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

ReID，也就是Re-identification，其定义是一种利用算法，使计算机能够自主在图像库中找到要搜索的目标的技术，所以它是属于计算机视觉中图像检索的一个子问题。

而行人重识别(Person Re-identification)则是ReID的子领域之一，旨在利用计算机视觉技术判断不同摄像机所捕获的视频库或图库中是否存在特定行人，并将检索出的行人图像根据相似度的高低建立一个排名列表(Rank List)。行人重识别任务的基本流程如下：

给定一张待检索的行人图像(Query/Probe)，通过特定技术提取行人的特征描述符，将这种特征与候选行人库(Gallery)中的图像特征一一对比。在候选行人库中，与待检索的行人图像相似度高的图像排列在排名列表的前面，与待检索的行人图像相似度低的行人图像排列在排名列表的后面。

但是目前的行人重识别技术仍然会受到以下诸多原因的影响：

①图像分辨率低：

摄像机捕获的图像分辨率较低，图像分辨率会直接影响计算机对行人细节属性的观察，难以利用行人的面部特征识别特定的行人；

②行人姿态多变：

行人在不同的时间或地点具有不同的姿态，会加剧行人重识别的难度；

③环境多样化：

同一个行人在不同的时间段，其所处的环境差异比较大，环境的多样化势必会降低行人重识别的识别精度以及识别效率；

④目标被遮挡：

行人的身体可能会被建筑物、汽车、雨伞等遮挡，极易导致行人的语义信息丢失，从而大大降低行人重识别的识别精度以及识别效率。

如何克服上述诸多问题，大大提高行人重识别的识别效率和识别精准度，一直是计算机视觉领域亟待解决的问题。

发明内容

本发明的目的是针对现有技术对应的不足，提供一种基于并联式特征融合网络人体动作识别的行人重识别方法，在并联式特征融合网络中利用分组融合注意力层，从骨干网络不断向分支网络传递单层次特征，使分支网络不断累积图像的多层次语义信息，使整个并联式特征融合网络具有远大于基准网络的检索精度，更好的表达图像中行人的语义信息。

本发明的目的是采用下述方案实现的，一种基于并联式特征融合网络人体动作识别的行人重识别方法，包括以下步骤：

1)建立并联式特征融合网络：

设置并联式特征融合网络的骨干网络，用于从输入图像中提取多尺度特征，并在该骨干网络的每一层均设置一分支网络，该分支网络用于提高本层图像语义信息的特征表达能力，并累积到骨干网络下一层的分支网络；

骨干网络第一层的输出特征作为第一层分支网络的输入特征，从骨干网络第二层开始，骨干网络当前层的输出特征与上一层分支网络的输出特征融合后作为当前层分支网络的输入特征；

2)利用并联式特征融合网络提取待检索行人图像的语义信息，将提取的语义信息与候选行人库中所有图像的语义信息一一对比，筛选出候选行人库中与待检索行人图像相似度最高的图像。

优选地，所述并联式特征融合网络的骨干网络为深度残差神经网络。

优选地，所述分支网络包括一区域引导型Transformer层，用于获得具有全局上下文依赖性的语义信息，所述分支网络的输出特征为该区域引导型Transformer层的输出特征。

优选地，所述区域引导型Transformer层包括一个区域引导注意力单元和一个Transformer编码器，所述区域引导注意力单元包括两个全连接层以及一个sigmoid激活函数模块，用于获取每个局部区域特征的通道权重作为Transformer编码器的输入，所有通道的权重均由一中心偏差损失函数进行约束，所述中心偏差损失函数如下列公式所示：

式中,L_BM为基于权重分布的中心偏差损失函数，δ为权重间隔，w_L-σ为低于平均权重的权重，w_H-σ为高于平均权重的权重，W_σ为平均权重，即所有通道的权重的平均值；

N为一个批次里图像的数目，N₁为低于平均权重的图像数目，N₂为高于平均权重的图像数目，w_i为低于平均权重的所有图像中的第i个图像的权重，w_j为高于平均权重的所有图像中的第j个图像的权重，w_k为一个批次里的所有图像中第k个图像的权重。

优选地，所述分支网络包括一分组融合注意力层，用于捕捉不同尺度的语义信息，该分组融合注意力层设置在区域引导型Transformer层与骨干网络之间。

优选地，所述分组融合注意力层包括通道分组单元、第一通道、第二通道，所述第一通道由全局最大池化单元、第一全连接层、第二全连接层组成，所述第二通道由全局平均池化单元、第一全连接层、第二全连接层组成，所述第一通道的第一全连接层输出特征由ReLU激活函数处理后作为第一通道的第二全连接层输入特征，所述第二通道的第一全连接层输出特征由ReLU激活函数处理后作为第二通道的第二全连接层输入特征，所述第一通道的第二全连接层、第二通道的第二全连接层的输出特征由Sigmoid激活函数处理后，进行通道拼接再输出，所述分组融合注意力层的数学表达式如下所示：

式中，Group(X_i)的定义为将分组融合注意力层的输入特征X_i通过通道分组单元按通道维度分成G_s组，即G_s为通道分组的总数量，且

C_s为通道分组后该层语义信息的通道数，s为骨干网络的层数；

f_k(h,w,c)为通道分组后第k组通道关于宽、高以及通道数的语义特征，h为语义特征的高，w为语义特征的宽，c为通道分组前该层语义信息的通道数；

f_o为输出特征；

表示第一通道经过全局最大池化后的特征；

表示第二通道经过全局平均池化后的特征；

ψ₃表示3×3的卷积层；

Maxp(·)表示全局最大池化函数；

Avgp(·)表示全局平均池化函数；

Cat(·)为按通道维度拼接特征块的函数，W_S是第一全连接层的二维矩阵，GAP(F)为全局平均池化，W_E为第二全连接层的二维矩阵，ReLU(·)为ReLU激活函数，BN(·)为批次归一化函数，softmax(·)为归一化指数函数。

优选地，所述分支网络包括一联合池化层，用于获取统一尺寸的压缩语义信息，该联合池化层设置在区域引导型Transformer层与分组融合注意力层之间。

优选地，所述联合池化层包括最大池化层和平均池化层，所述分组融合注意力层的输出特征分别经过最大池化层、平均池化层进行自适应最大池化、自适应平均池化，再对最大池化层和平均池化层的输出结果求平均，最后将求平均的结果输出到区域引导型Transformer层。

优选地，所述骨干网络每一层的输出特征采用损失函数进行特征约束，所述骨干网络每一层分支网络的输出特征与该层分支网络的输入特征融合后，采用损失函数进行特征约束。

优选地，所述损失函数包括基于相对角度的互相关惩罚三元组损失函数以及交叉熵损失函数，所述基于相对角度的互相关惩罚三元组损失函数的数学表达式如下：

θ_d＝|max(θ(a,p))-min(θ(a,n))|

式中，L_cr-Angle为基于相对角度的互相关惩罚三元组损失函数，P为随机选择的人数，K为针对每个人随机挑选的图像数量，a为锚样本，p为正样本，n为负样本，θ(a,p)是正样本对之间的距离，θ(a,n)是负样本对之间的距离，

为难样本的第一惩罚因子，

为难样本的第二惩罚因子，T_a为设定的角度差异阈值，θ_d是角度差异，π为圆周率，m_cr-angle为基于相对角度的互相关惩罚三元组损失函数的角度阈值；

所述交叉熵损失函数的数学表达式如下：

式中，T为行人的身份数，q_j为第j个图像是否属于该身份的真值标签，p_j为预测概率。

本发明的优点在于以下三点：

①本发明设置在骨干网络每一层的分支网络能够不断累积图像的多层次语义信息，使整个并联式特征融合网络具有远大于基准网络的检索精度，更好的表达图像中行人的语义信息。

②针对Transformer编码器输入特征的通道语义信息不足的问题，在传统的Transformer编码器前增加了一个区域引导注意力单元，用于获取每个局部区域特征的通道权重作为传统Transformer编码器的输入特征，并利用一种中心偏差损失函数，以协助Transformer更好地捕获上下文信息。

③针对传统的三元组损失函数只能依靠固定的梯度引导网络训练的问题，对传统的难样本挖掘三元组损失函数进行了改进，利用“惩罚”的概念加强正负样本对的约束，并将样本之间的分布信息融合到惩罚因子中，依靠动态梯度引导并联式特征融合网络的训练。

附图说明

图1为本发明所述并联式特征融合网络的示意图；

图2为本发明所述分组融合注意力层的示意图。

具体实施方式

如图1至2所示，一种基于并联式特征融合网络人体动作识别的行人重识别方法，包括以下步骤：

1)建立并联式特征融合网络：

本实施例中，骨干网络当前层的输出特征与上一层分支网络的输出特征融合的方式是将骨干网络当前层的输出特征与上一层分支网络的输出特征加权平均，具体公式如下所示：

式中，X_f为融合后的语义特征，

为骨干网络当前层的输出特征，且

为骨干网络上一层的分支网络输出特征，且

为骨干网络当前层的输出特征的权重，

为骨干网络上一层的分支网络输出特征的权重，

与

均为经验值。

值得注意的是，在本实施例中，上述两个特征在融合之前，需进行尺寸重塑。

所述并联式特征融合网络的骨干网络为深度残差神经网络，所述深度残差神经网络为残差网络Resnet50，也可以采用ResNet34、ResNet101、ResNet152等作为并联式特征融合网络的骨干网络，残差神经网络的层数越多，其对语义的表达能力就越强，残差神经网络通过恒等映射可以有效解决网络层数较多时梯度消失的问题，同时残差神经网络也降低了网络训练的时间开销。

当然，一般来说，由于骨干网络的的低级语义信息，如颜色、纹理、轨迹等，对行人重识别帮助不大，第一层就开始设置分支网络的性价比不高，整个并联式特征融合网络的性能不但没有很大的提升，反而会导致整个并联式特征融合网络的计算量变大，所以，一般骨干网络的第一层不设置分支网络，从骨干网络的第二层开始，每一次均设置一个分支网络，即将骨干网络第一层的输出特征作为第一层分支网络的输入特征，骨干网络第二层的输出特征作为第二层分支网络的输入特征，从骨干网络第三层开始，骨干网络当前层的输出特征与上一层分支网络的输出特征融合后作为当前层分支网络的输入特征；

本实施例中，所述分支网络包括一区域引导型Transformer层，用于获得具有全局上下文依赖性的语义信息，所述分支网络的输出特征为该区域引导型Transformer层的输出特征。所述区域引导型Transformer层包括一个区域引导注意力单元和一个Transformer编码器，所述区域引导注意力单元包括两个全连接层以及一个sigmoid激活函数模块，用于获取每个局部区域特征的通道权重作为Transformer编码器的输入，图像的局部区域特征通过两个全连接层，先压缩通道数，降低参数，再扩张到原来的通道数目，最后经sigmoid激活函数后获取每个局部区域特征的通道权重，为Transformer提供更鲁棒的局部区域特征，使Transformer更容易探寻这些区域特征之间的关联。

而过于均匀的权重分布会导致网络的辨别能力有所退化，差异性较大的权重分配会使分组注意力模块的输出特征更细腻化，故所有通道的权重均由一中心偏差损失函数进行约束，中心偏差损失函数可以尽可能地缓解语义模糊问题，引导区域引导注意力单元学习鲁棒性更强的特征，为探寻特征的上下文联系提供有效的局部区域信息，基于权重分布的中心偏差损失函数如下列公式所示：

N为一个批次里图像的数目，N₁为低于平均权重的图像数目，N₂为高于平均权重的图像数目，w_i为低于平均权重的所有图像中的第i个图像的权重，w_j为高于平均权重的所有图像中的第j个图像的权重，w_k为一个批次里的所有图像中第k个图像的权重；

本实施例中，所述分支网络包括一分组融合注意力层，用于捕捉不同尺度的语义信息，该分组融合注意力层设置在区域引导型Transformer层与骨干网络之间。

为了获取统一尺寸的压缩语义信息，所述分支网络包括一联合池化层，用于获取统一尺寸的压缩语义信息，该联合池化层设置在区域引导型Transformer层与分组融合注意力层之间。所述联合池化层包括最大池化层和平均池化层，所述分组融合注意力层的输出特征分别经过最大池化层、平均池化层进行自适应最大池化、自适应平均池化，再对最大池化层和平均池化层的输出结果求平均，最后将求平均的结果输出到区域引导型Transformer层。本实施例中，需将联合池化层的输出特征展平后，再输出到区域引导型Transformer层。

分组融合注意力层的输出特征经过联合池化层后被送入区域引导型Transformer层，利用分组融合注意力层的结构提取多尺度的语义特征，增强相关通道的语义表达，抑制无关的通道语义信息。

在本实施例的并联式特征融合网络中，分组融合注意力层的输出特征被送入联合池化层，而联合池化层的输出特征经展开后，被送入到区域引导注意力单元中，获得每个局部区域特征的重要细微线索。然后，将增强的局部区域特征送入Transformer编码器中，让Transformer编码器探寻特征的上下文信息，从而形成全局信息更加紧密的输出特征，与骨干网络下一层的高层语义特征递归融合，实现语义累积效果，从而丰富骨干网络每一层的特征表达。

由于待检索的行人图像在骨干网络低层的语义特征的通道数量相对较少，在骨干网络高层的语义特征的通道数量相对较多，即低层语义特征对全局通道的依赖性相对较强，高层语义特征对局部区域通道的依赖性相对较强。高层语义特征中相邻通道间的联系更紧密。通道分组单元在强化组内特征交互的同时，也能减少网络的参数量。因此，在ResNet50各阶段的分组融合注意力层，采用不同的通道分组方式，有效的学习适当的组内通道权重，以不同尺度的通道信息来捕获图像的语义信息，不仅能够减少网络的训练时间，同时也为下游网络提供了良好的通道语义特征。

由于ResNet50的第二层更倾向于捕获低级语义信息(颜色和纹理等)，这些低级语义特征具有更紧凑的全局通道联系，所以对骨干网络第二层的特征全分组。

随着ResNet50不同阶段的深入，高层语义信息逐渐受到关注，网络的分组方式理应遵循一定的原理。由于ResNet50各层输出特征的通道数都是2的幂次方，则最简便的分组方式可以为：

式中，a＝2，b＝0，C_s为通道分组后该层语义信息的通道数，G_s为通道的分组总数。

故本实施例中，所述分组融合注意力层包括通道分组单元、第一通道、第二通道，所述第一通道由全局最大池化单元、第一全连接层、第二全连接层组成，所述第二通道由全局平均池化单元、第一全连接层、第二全连接层组成，所述全局最大池化单元、全局平均池化单元的输入特征先要经过3×3的卷积层进行处理，所述第一通道的第一全连接层输出特征由ReLU激活函数处理后作为第一通道的第二全连接层输入特征，所述第二通道的第一全连接层输出特征由ReLU激活函数处理后作为第二通道的第二全连接层输入特征，所述第一通道的第二全连接层、第二通道的第二全连接层的输出特征由Sigmoid激活函数处理后，进行通道拼接再输出，所述分组融合注意力层的数学表达式如下所示：

f_o为输出特征；

表示第一通道经过全局最大池化后的特征；

表示第二通道经过全局平均池化后的特征；

ψ₃表示3×3的卷积层；

Maxp(·)表示全局最大池化函数；

Avgp(·)表示全局平均池化函数；

本实施例中，所述骨干网络每一层的输出特征采用损失函数进行特征约束，所述骨干网络每一层分支网络的输出特征与该层分支网络的输入特征融合后，采用损失函数进行特征约束。所述损失函数包括基于相对角度的互相关惩罚三元组损失函数以及交叉熵损失函数，即本发明的分类损失采用了softmax损失，即ID损失。给定一幅行人图像，从全连通层中提取一个固定维度的输出向量，该维度等于身份数。然后根据真值标签和预测概率计算softmax损失。

所述基于相对角度的互相关惩罚三元组损失函数的数学表达式如下：

θ_d＝|max(θ(a,p))-min(θ(a,n))|

为难样本的第一惩罚因子，

为难样本的第二惩罚因子，T_a为设定的角度差异阈值，θ_d是角度差异，π为圆周率，m_cr-angle为基于相对角度的互相关惩罚三元组损失函数的角度阈值，该角度阈值为标定值；

所述交叉熵损失函数的数学表达式如下：

式中，T为行人的身份数，q_j为第j个图像是否属于该身份的真值标签，是则为1，否为0，p_j为预测概率。

如上述实施例所述，整个并联式特征融合网络以ResNet50作为骨干网络，将ResNet50各层的语义特征送入各层对应的分支网络中的分组融合注意力层中，以增强骨干网络每一层的通道语义特征。增强后的特征经过联合池化层后，被送入区域引导型Transformer层中，以获得上下文联系比较紧密的特征。接着，这种强语义性的图像特征传递给ResNet50下一层的网络，并与下一层的网络输出特征进行融合。最后，将原始语义信息与区域引导型Transformer层的输出融合，并通过损失函数约束。

采用Market1501、DukeMTMC、MSMT17、CUHK03、Occluded-Duke以及Partial-iLIDS作为训练集对本实施例的并联式特征融合网络进行训练后，再利用并联式特征融合网络提取待检索行人图像的语义信息，使高层网络在能够关注本层的特征同时，也能感知低层网络的累积语义特征，从而捕获更多层次化的特征，本发明所述的并联特征融合网络与其他经典的行人重识别网络相比较，本发明在Market1501、DukeMTMC、MSMT17、CUHK03数据集上的mAP和Rank-1指标都相对于其他行人重识别网络更高，具有更好的性能，即本发明具有极好的学习性能和泛化性能。

表1

表1中，mAP即平均精度mean average precision，而rank-1是搜索结果中最靠前的一张图是正确结果的概率。

以上所述仅为本发明的优选实施例，并不用于限制本发明，本领域的技术人员在不脱离本发明的精神的前提下，对本发明进行的改动均落入本发明的保护范围。

Claims

1.一种基于并联式特征融合网络人体动作识别的行人重识别方法，其特征在于，包括以下步骤：

1)建立并联式特征融合网络：

2.根据权利要求1所述基于并联式特征融合网络人体动作识别的行人重识别方法，其特征在于，所述并联式特征融合网络的骨干网络为深度残差神经网络。

3.根据权利要求1所述基于并联式特征融合网络人体动作识别的行人重识别方法，其特征在于，所述分支网络包括一区域引导型Transformer层，用于获得具有全局上下文依赖性的语义信息，所述分支网络的输出特征为该区域引导型Transformer层的输出特征。

4.根据权利要求3所述基于并联式特征融合网络人体动作识别的行人重识别方法，其特征在于，所述区域引导型Transformer层包括一个区域引导注意力单元和一个Transformer编码器，所述区域引导注意力单元包括两个全连接层以及一个sigmoid激活函数模块，用于获取每个局部区域特征的通道权重作为Transformer编码器的输入，所有通道的权重均由一中心偏差损失函数进行约束，所述中心偏差损失函数如下列公式所示：

5.根据权利要求3所述基于并联式特征融合网络人体动作识别的行人重识别方法，其特征在于，所述分支网络包括一分组融合注意力层，用于捕捉不同尺度的语义信息，该分组融合注意力层设置在区域引导型Transformer层与骨干网络之间。

6.根据权利要求5所述基于并联式特征融合网络人体动作识别的行人重识别方法，其特征在于，所述分组融合注意力层包括通道分组单元、第一通道、第二通道，所述第一通道由全局最大池化单元、第一全连接层、第二全连接层组成，所述第二通道由全局平均池化单元、第一全连接层、第二全连接层组成，所述第一通道的第一全连接层输出特征由ReLU激活函数处理后作为第一通道的第二全连接层输入特征，所述第二通道的第一全连接层输出特征由ReLU激活函数处理后作为第二通道的第二全连接层输入特征，所述第一通道的第二全连接层、第二通道的第二全连接层的输出特征由Sigmoid激活函数处理后，进行通道拼接再输出，所述分组融合注意力层的数学表达式如下所示：

f_o为输出特征；

表示第一通道经过全局最大池化后的特征；

表示第二通道经过全局平均池化后的特征；

ψ₃表示3×3的卷积层；

Maxp(·)表示全局最大池化函数；

Avgp(·)表示全局平均池化函数；

Cat(·)为按通道维度拼接特征块的函数，W_S是第一全连接层的二维矩阵，GAP(·)为全局平均池化，W_E为第二全连接层的二维矩阵，ReLU(·)为ReLU激活函数，BN(·)为批次归一化函数，softmax(·)为归一化指数函数。

7.根据权利要求5所述基于并联式特征融合网络的行人重识别方法，其特征在于，所述分支网络包括一联合池化层，用于获取统一尺寸的压缩语义信息，该联合池化层设置在区域引导型Transformer层与分组融合注意力层之间。

8.根据权利要求7所述基于并联式特征融合网络人体动作识别的行人重识别方法，其特征在于，所述联合池化层包括最大池化层和平均池化层，所述分组融合注意力层的输出特征分别经过最大池化层、平均池化层进行自适应最大池化、自适应平均池化，再对最大池化层和平均池化层的输出结果求平均，最后将求平均的结果输出到区域引导型Transformer层。

9.根据权利要求1所述基于并联式特征融合网络的行人重识别方法，其特征在于，所述骨干网络每一层的输出特征采用损失函数进行特征约束，所述骨干网络每一层分支网络的输出特征与该层分支网络的输入特征融合后，采用损失函数进行特征约束。

10.根据权利要求9所述基于并联式特征融合网络人体动作识别的行人重识别方法，其特征在于，所述损失函数包括基于相对角度的互相关惩罚三元组损失函数以及交叉熵损失函数，所述基于相对角度的互相关惩罚三元组损失函数的数学表达式如下：

θ_d＝|max(θ(a,p))-min(θ(a,n))|

为难样本的第一惩罚因子，

所述交叉熵损失函数的数学表达式如下：