CN113221686B

CN113221686B - 一种基于时空通道注意力的目标重识别方法

Info

Publication number: CN113221686B
Application number: CN202110462460.6A
Authority: CN
Inventors: 苏雨; 福辉; 张科; 王靖宇; 谭明虎
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2024-01-09
Anticipated expiration: 2041-04-27
Also published as: CN113221686A

Abstract

本发明涉及一种基于时空通道注意力的目标重识别方法，采用帧间通道维的重组和分组卷积的方法来提取视频目标特征，利用通道维的冗余性来建立帧间信息关系，同时为了增强空间信息挖掘能力，对在骨干网络中加入了空间非局部注意力机制，使网络能够充分建立时空特征，提高了检索准确度。在此基础上，引入平均池化操作生成全局特征表示，并利用加权平均策略完成了全局特征与时空特征的融合，提高了特征表示的鲁棒性和网络对目标的表征能力，从而实现对视频目标的准确检索。

Description

一种基于时空通道注意力的目标重识别方法

技术领域

本发明属于图像处理技术领域，涉及一种基于时空通道注意力的目标重识别方法。

背景技术

目标重识别是图像处理和机器视觉领域的重要研究课题，近年来因其实用性得到了越来越多的关注。目标重识别技术是在查询数据库中找出待检索数据对应的同一目标的过程，其中目标特征的提取是关键一步。基于视频数据相较于图像数据具有更丰富的时空信息，从中能够提取出更具分辨力和鲁棒性的特征，因此，基于视频数据的目标重识别技术成为当下重识别领域的研究热点之一。

陈莉，王洪元，等(《联合均等采样随机擦除和全局时间特征池化的视频行人重识别方法》，计算机应用，2021,41(1):164-169)中针对目标行人被干扰或部分遮挡的情况，采用了均等采样随机擦除的数据增强方法来有效地缓解遮挡，提高模型的泛化能力，更准确地匹配行人；其次为了进一步提高视频行人重识别的精度，学习更有判别力的特征表示，使用三维卷积神经网络取时空特征，并在网络输出行人特征表示前加上全局时间特征池化层，但是三维卷积在提取时空特征的同时无法去除通道间的冗余信息，加之三维卷积神经网络参数量巨大，给训练和推理都造成困难。

目前已有的视频目标重识别图像方法，大多只关注时空信息，而忽略了通道维的冗余性。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于时空通道注意力的目标重识别方法，不但建立了视频目标时空关系，还考虑到了通道维的相互作用，实现了对视频目标的准确检索。

技术方案

一种基于时空通道注意力的目标重识别方法，其特征在于步骤如下：

步骤1、建立骨干网络作为基础的特征提取网络：骨干网络包括深度残差网络ResNet-50和空间非局部网络Spatial Non Local Network，其中，ResNet-50由五个卷积模块组成，在ResNet-50的五个卷积模块之间插入三个非局部网络；

步骤2：以骨干网络对帧数为n的视频I_i中的每帧图像分别提取特征,得到每帧图像对应的特征向量其中，i＝1,2,…,n，C、H和W分别为特征向量的通道数、高度数和宽度数；

步骤3：将f_i分别输入三维平均池化3DAP模块和帧间通道维重组与分组卷积网络CSGC中，分别得到该视频的全局特征表示和/>

三维平均池化3DAP操作为：

其中，T为输入的视频帧数；

步骤4：利用加权融合方法对f_g和f_CSGS进行融合表示，得到视频的最终特征表示f_final；

加权融合方法为：

f_final＝(1-λ)f_g+λf_CSGS

其中，λ为控制两者重要程度的超参数；

步骤5：重复步骤1到步骤4，对待检索数和查询库数据进行特征提取，并计算两者特征之间的欧式距离。最终，对所得的欧氏距离按照由远及近进行排序，产生识别结果。

有益效果

本发明提出的一种基于时空通道注意力的目标重识别方法，采用帧间通道维的重组和分组卷积的方法来提取视频目标特征，利用通道维的冗余性来建立帧间信息关系，同时为了增强空间信息挖掘能力，对在骨干网络中加入了空间非局部注意力机制，使网络能够充分建立时空特征，提高了检索准确度。在此基础上，引入平均池化操作生成全局特征表示，并利用加权平均策略完成了全局特征与时空特征的融合，提高了特征表示的鲁棒性和网络对目标的表征能力，从而实现对视频目标的准确检索。

采用本发明的方法有益效果主要包括：

(1)通过发明步骤(1)提升了骨干网络的空间信息挖掘能力，步骤(3)中的CSGS网络来共同处理时间和通道关系，既建立时空关系，又可以去除通道冗余。

(2)步骤(4)将平均池化产生的全局特征与GSCS的输出进行融合，增强了方法的鲁棒性。

(3)在DukeMTMC-VideoReID和MARS数据集上进行了综合实验。实验结果表明，所提出的方法可以有效地提高视频目标重识别的性能。

附图说明

图1是方法流程图

图2是方法的网络结构图

图3是方法搜索结果图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明基于时空通道注意力的目标重识别方法基本流程如图1所示，具体实施方式包括以下步骤：

步骤一、首先如图1中的骨干网络部分所示，建立骨干网络作为基础的特征提取网络，骨干网络由深度残差网络(ResNet-50)和空间非局部模块组成，其中，ResNet-50由五个卷积模块组成，如图1所示。在ResNet-50的每个模块之间插入非局部网络，组成具有较强空间注意力的骨干网络。空间非局部注意力模块可以表示为：

其中，X_i为模块输入特征，Z_i为模块输出特征，θ、φ和g为特征嵌入空间，通过卷积核为1×1的卷积实现。i是要计算其响应的输出位置的索引，j是枚举所有位置的索引。

步骤二、利用骨干网络对帧数为T的视频I_t(t＝1,2,…,T)中的每帧图像分别提取特征,得到每帧图像对应的特征向量C、H和W分别为特征的通道数和空间维度，并利用3DAP操作得到该视频的全局特征表示/>该操作通过下式进行，

步骤三、将输入帧间通道维重组和分组卷积网络(CSGC)中，CSGC能够在捕捉时空关系的同时去除通道冗余，得到的特征记为f_CSGS。

假设T为4，那么，CSGC模块具体分为以下过程：

(1)将第一帧特征按通道维等分为两个单独的特征，分别为和/>

(2)将f₁₂和f₂进行通道维拼接，并通过分组卷积建立帧间特征关系，得到特征注意，此过程f₁₁没有进行处理。拼接过程如下式所示，

(3)接着将按通道维等分为两个单独的特征，重复过程(2)，直到处理完T 帧数据；

(4)将得到的特征和前几个过程没有处理的特征进行通道维拼合,然后利用全局平均池化(Global Average Pooling,GAP)和全连接层(Fully Connected layer,FC)对特征进行降维，即/>GAP过程如下，

则

步骤四、考虑到单一特征表示无法保证可靠的稳定性，本发明利用加权融合方法对f_g和f_CSGS进行融合表示，得到视频的最终特征表示f_final，加权融合方法如下式所示：

f_final＝(1-λ)f_g+λf_CSGS

其中，λ为控制两者重要程度的超参数。

步骤五、利用所设计的网络结构对待检索数和查询库数据进行特征提取，并计算两者特征之间的欧式距离。最终，对所得的相似度高到底排序，产生识别结果。

Claims

1.一种基于时空通道注意力的目标重识别方法，其特征在于步骤如下：

步骤1、建立骨干网络作为基础的特征提取网络：骨干网络包括深度残差网络ResNet-50和空间非局部网络Spatial Non Local Network，其中，ResNet-50由五个卷积模块组成，在ResNet-50的五个卷积模块之间插入三个非局部网络；空间非局部网络表示为：

其中，X_i为模块输入特征，Z_i为模块输出特征，θ、φ和g为特征嵌入空间，通过卷积核为1×1的卷积实现；i是要计算其响应的输出位置的索引，j是枚举所有位置的索引；

步骤2：以骨干网络对帧数为T的视频I_t中的每帧图像分别提取特征,得到每帧图像对应的特征向量C、H和W分别为特征向量的通道数、高度数和宽度数；

步骤3：将f_t分别输入三维平均池化3DAP模块和帧间通道维重组与分组卷积网络CSGC中，分别得到该视频的全局特征表示和/>

三维平均池化3DAP操作为：

其中，T为输入的视频帧数；

假设T为4，CSGC模块具体分为以下过程：步骤(31)、将第一帧特征按通道维等分为两个单独的特征，分别为/>和/>步骤(32)、将f₁₂和f₂进行通道维拼接，并通过分组卷积建立帧间特征关系，得到特征/>拼接公式为：

步骤(33)、将按通道维等分为两个单独的特征，重复过程(32)，直到处理完T帧数据；

步骤(34)、将得到的特征和前几个过程没有处理的特征进行通道维拼合，然后利用全局平均池化和全连接层对特征进行降维，即/>

其中，

则

加权融合方法为：

f_final＝(1-λ)f_g+λf_CSGS

其中，λ为控制两者重要程度的超参数；

步骤5：重复步骤1到步骤4，对待检索数和查询库数据进行特征提取，并计算两者特征之间的欧式距离；最终，对所得的欧氏距离按照由远及近进行排序，产生识别结果。