CN111639564B

CN111639564B - 一种基于多注意力异构网络的视频行人重识别方法

Info

Publication number: CN111639564B
Application number: CN202010420705.4A
Authority: CN
Inventors: 韩守东; 罗善益; 刘东海生; 张宏亮
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2022-05-27
Anticipated expiration: 2040-05-18
Also published as: CN111639564A

Abstract

本发明公开了一种基于多注意力异构网络的视频行人重识别方法，属于图像处理领域。方法包括：构造并训练多注意力异构网络；利用训练好的网络对已知行人ID的视频和待定行人ID的视频进行特征提取，根据两个特征之间的余弦距离判定行人ID。本发明在OSNet网络中引入了Soft注意力和非局部注意力，利用Soft注意力关注图像中的行人区域特征，利用非局部注意力对视频序列中时空特征的学习能力，改进视频序列的特征表示，提取出更加鲁棒和更具判别性的特征，提高识别的准确率。同时选取了特定帧的特征作为局部特征学习网络分支，在学习视频序列中行人全局特征的同时，加强了行人局部特征的学习，提升了网络在视频行人重识别上的性能。

Description

一种基于多注意力异构网络的视频行人重识别方法

技术领域

本发明属于图像处理和机器视觉中的行人重识别研究领域，更具体地，涉及一种基于多注意力异构网络的视频行人重识别方法。

背景技术

行人重识别是自动视频监控中的一项基本任务，也是近年来的研究热点。基于视频的行人重识别旨在匹配行人在视角非重叠相机上的视频序列。为了实现基于视频的行人重识别，典型的方法是需要学习一个映射函数来将视频序列投影到一个低维特征空间中，然后通过比较样本之间的距离，判定行人ID。

大量的研究已经证明，卷积神经网络作为一个映射函数已经超越了传统的手工特征，然后通过平均池化或最大池化聚合图像特征来获得序列的特征。然而这种方式不能处理视频序列中的遮挡或空间错位，因为它以同等重要的权重分布处理所有图像。为了利用视频序列之间的时空信息，一些研究中将递归神经网络集成到了基于视频的行人重识别算法中，采用端到端训练的方式学习其时空信息。虽然这些方法成功地捕获了视频序列的空间和时间特征，但它们只探索了用于行人特征表示的高级特征聚合，这对于视频行人重识别这类的细粒度分类任务可能不够鲁棒。

近年来，注意力模型越来越多的应用到了计算机视觉的各个领域中，注意力模型能着重学习输入信号中信息最丰富的部分，能有效的改善网络对于行人特征的学习能力，但现有的算法往往都只使用单一的注意力，忽略了不同注意力网络的异构特性和互补作用，使得提取到的行人序列特征判别性相对较低，对于视频行人重识别准确度较低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于多注意力异构网络的视频行人重识别方法，其目的在通过Soft注意力模块和非局部注意力模块，在加强网络对视频帧中行人区域特征学习的同时，加强视频序列间时空信息的学习，提取出更加鲁棒和更具判别性的特征，提高行人重识别的准确率。

为实现上述目的，本发明提供了一种基于多注意力异构网络的视频行人重识别方法，包括：

S1.构建多注意力异构网络；

所述多注意力异构网络包括多个并列的OSNet子网络、Soft模块、非局部注意力模块、局部特征学习分支和特征聚合模块；每个OSNet子网络中第二卷积层conv2、第三卷积层conv3和第四卷积层conv4后分别嵌入Soft模块；每一列并列的Soft模块整体嵌入非局部注意力模块；

并列的OSNet子网络，用于对输入的视频序列逐帧进行特征提取；Soft模块，用于对输入的特征图进行空间注意力和通道注意力学习；非局部注意力模块，用于对输入的特征序列时空信息的学习；局部特征学习分支，用于将视频序列中设定的帧图像对应的特征图进行分割，作为视频序列局部特征；特征聚合模块，用于将视频序列剩余帧图像对应的特征采用时间注意力的方式进行聚合，作为视频序列全局特征；视频序列局部特征与全局特征连接起来作为视频序列的行人特征；

S2.使用Mars数据集训练数据集训练所述多注意力异构网络参数，利用SGD算法对网络中的参数进行优化；

S3.利用训练好的多注意力异构网络对已知行人ID的视频和待定行人ID的视频进行特征提取，计算两个特征之间的余弦距离，根据距离的远近判定行人ID。

进一步地，输入的视频序列长度为8。

进一步地，Soft模块包括空间注意力子模块和通道注意力子模块；空间注意力子模块，用于输入的特征图进行空间注意力学习；通道注意力特征图，用于对输入的特征图进行通道注意力学习。

进一步地，空间注意力子模块由依次连接的全局跨通道平均池化层、步幅为2的3*3卷积层、上采样层和缩放卷积层组成。

进一步地，通道注意力子模块由一个跨通道全局平均池化层和两个卷积层组成。

进一步地，非局部注意力模块包括以下处理：

(1)将特征序列分别输入至三个1*1*1的卷积模块中；

(2)任选两个卷积模块的输出相乘，所得结果经过一个softmax分类模块，与第三个卷积模块的输出相乘；

(3)将所得结果经过一个1*1*1的卷积模块后与输入的特征序列相乘，得到最终的特征。

进一步地，训练多注意力异构网络采用的损失函数L为：

L＝L_triplet+L_softmax

L_triplet表示三元组损失函数，L_softmax表示Softmax损失函数。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

(1)本发明在OSNet特征提取网络中引入了Soft注意力和非局部注意力两种不同类型的注意力模块，利用Soft注意力关注图像中的行人区域特征，利用非局部注意力对视频序列中时空特征的学习能力，改进视频序列的特征表示，可以提取出更加鲁棒和更具判别性的特征，能有效提高基于视频的行人重识别的准确率。

(2)本发明选取了特定帧的特征作为局部特征学习网络分支，在学习视频序列中行人全局特征的同时，加强了对视频序列中行人局部特征的学习，提升了网络在视频行人重识别上的性能。

附图说明

图1为本发明提供的多注意力异构网络结构图；

图2为本发明提供的Soft注意力模块结构图；

图3为本发明提供的非局部注意力模块结构图；

图4为本发明提供的时间注意力特征聚合示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提供了一种基于多注意力异构网络的视频行人重识别方法，包括：

S1.构建多注意力异构网络；

如图1所示，多注意力异构网络包括多个并列的OSNet(Omni-Scale Network，全尺度网络)子网络、Soft注意力模块SAB(Soft Attention Block，软注意力模块)、非局部注意力模块non-local、局部特征学习分支和特征聚合模块；每个OSNet子网络中第二卷积层conv2、第三卷积层conv3和第四卷积层conv4后分别嵌入Soft模块；每一列并列的Soft模块整体嵌入非局部注意力模块；

并列的OSNet子网络，用于对输入的视频序列逐帧进行特征提取；Soft模块，用于对输入的特征图进行空间注意力和通道注意力学习；如图2所示，Soft模块包括空间注意力子模块和通道注意力子模块；空间注意力子模块，用于输入的特征图进行空间注意力学习；通道注意力特征图，用于对输入的特征图进行通道注意力学习。空间注意力模块由全局跨通道平均池化层(cross-chanel pooling)、步幅为2的3*3卷积层、上采样层(upsample)和缩放卷积层组成。通道注意力模块由一个跨通道全局平均池化层(global pooling)和两个卷积层组成。为了方便空间注意力与通道注意力的结合，在张量相乘后加入一个卷积操作，最后添加一个sigmoid操作，将注意力权重正则化为0.5到1之间。

非局部注意力模块，用于对输入的特征序列时空信息的学习；如图3所示，非局部注意力模块包括以下处理：将特征序列分别输入至三个1*1*1的卷积模块中；任选两个卷积模块的输出相乘，所得结果经过一个softmax分类模块，与第三个卷积模块的输出相乘；将所得结果经过一个1*1*1的卷积模块后与输入的特征序列相乘，得到最终的特征。

局部特征学习分支，用于将视频序列中设定的帧图像对应的特征图进行分割，作为视频序列局部特征；特征聚合模块，用于将视频序列剩余帧图像对应的特征采用时间注意力的方式进行聚合，作为视频序列全局特征；视频序列局部特征与全局特征连接起来作为视频序列的行人特征；

本发明实施例输入的视频序列长度为8，选取视频序列中第一帧图像提取到的特征进行分割，具体为，将第一帧图像在conv5层之后的输出特征水平分割为4份，对这4个特征进行全局池化，然后经过4个1*1的卷积降维，得到4个局部特征；将其余七帧图像提取得到的特征经过特征聚合之后作为全局特征，特征聚合方法采用时间注意力的形式，时间注意力聚合特征示意图如图4所示。最后将全局特征与4个局部特征连接起来，作为视频序列的行人特征表示。

时间注意力的公式为：

其中，

为给定序列的注意力权重，T代表序列长度，设置T＝8，f_c代表特征，t代表时间。

本发明实施例总共训练350个Epoch，初始学习率设置为0.065，在训练150、225和300个Epoch时，学习率衰减为原来的1/10。SGD(Stochatic Gradient Descent，随机梯度下降)算法公式为：

v_t＝αv_t-1-εg_t

其中g_t为梯度，v代表速度，α为动量参数，设置为0.9。ε代表学习率，θ为中间参数，与梯度计算相关。

局部特征学习分支采用了Softmax损失函数，特征聚合模块，即全局特征提取分支同时采用了Softmax损失函数和三元组损失函数，最终的损失函数为：

L＝L_triplet+L_softmax

Softmax分类损失函数公式为：

其中，x_i∈R^d表示第i个样本的维度是d特征向量，且x_i属于第y_i个类别的行人；W_j∈Rⁿ表示分类层第j列的权重，

表示x_i样本对应的权重，b_j表示第j列的偏置参数，

表示x_i样本对应的偏执参数；m和n分别表示批训练中的样本个数以及类别数。

随机从数据集中抽取一个三元组{I_a,I_p,I_n}作为样，I_a为固定样本，I_p为正样本，I_n为负样本，对应的特征分别为f_a、f_p和f_n，三元组损失函数公式为：

其中，[·]₊＝max(·,0)，d₁表示边距，N_T＝P×K表示一个批量图片数量，P表示每个批量中随机选取的P个身份，K表示每个身份随机抽取K张图片，d(·,·)表示欧几里得距离。

余弦距离计算公式为：

其中,q，p表示两个图像的特征，q_i和p_i分别表示特征向量q、p中的元素，n表示特征向量q、p的维度。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多注意力异构网络的视频行人重识别方法，其特征在于，包括：

S1.构建多注意力异构网络；

所述多注意力异构网络包括多个并列的OSNet子网络、多个并列的Soft模块、非局部注意力模块、局部特征学习分支和特征聚合模块；每个OSNet子网络中第二卷积层conv2、第三卷积层conv3和第四卷积层conv4后分别嵌入Soft模块；每一列并列的Soft模块整体嵌入非局部注意力模块；

多个并列的OSNet子网络，用于对输入的视频序列逐帧进行特征提取；多个并列的Soft模块，用于对输入的特征图进行空间注意力特征和通道注意力特征的学习；非局部注意力模块，用于对输入的特征序列时空信息的学习；非局部注意力模块包括以下处理：

(1)将特征序列分别输入至三个1*1*1的卷积模块中；

(3)将所得结果经过一个1*1*1的卷积模块后与输入的特征序列相乘，得到最终的特征；局部特征学习分支，用于将视频序列中设定的帧图像对应的第五卷积层conv5计算的特征图进行分割，作为视频序列局部特征；特征聚合模块，用于将视频序列剩余帧图像对应的第五卷积层conv5计算的特征采用时间注意力的方式进行聚合，作为视频序列全局特征；视频序列局部特征与全局特征连接起来作为视频序列的行人特征；

2.根据权利要求1所述的一种基于多注意力异构网络的视频行人重识别方法，其特征在于，输入的视频序列长度为8。

3.根据权利要求1或2所述的一种基于多注意力异构网络的视频行人重识别方法，其特征在于，Soft模块包括空间注意力子模块和通道注意力子模块；空间注意力子模块，用于输入的特征图进行空间注意力学习；通道注意力特征图，用于对输入的特征图进行通道注意力学习。

4.根据权利要求3所述的一种基于多注意力异构网络的视频行人重识别方法，其特征在于，空间注意力子模块由依次连接的全局跨通道平均池化层、步幅为2的3*3卷积层、上采样层和缩放卷积层组成。

5.根据权利要求3所述的一种基于多注意力异构网络的视频行人重识别方法，其特征在于，通道注意力子模块由一个跨通道全局平均池化层和两个卷积层组成。

6.根据权利要求1所述的一种基于多注意力异构网络的视频行人重识别方法，其特征在于，训练多注意力异构网络采用的损失函数L为：

L＝L_triplet+L_softmax

L_triplet表示三元组损失函数，L_softmax表示Softmax损失函数。