CN111160295B

CN111160295B - 基于区域引导和时空注意力的视频行人重识别方法

Info

Publication number: CN111160295B
Application number: CN201911416933.8A
Authority: CN
Inventors: 汪壮雄; 周智恒; 彭永坚; 张昱晟; 彭明; 朱湘军
Original assignee: Guangzhou Video Star Intelligent Co ltd; GUANGZHOU VIDEO-STAR ELECTRONICS CO LTD; South China University of Technology SCUT
Current assignee: Guangzhou Video Star Intelligent Co ltd; GUANGZHOU VIDEO-STAR ELECTRONICS CO LTD; South China University of Technology SCUT
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-05-12
Anticipated expiration: 2039-12-31
Also published as: CN111160295A

Abstract

本发明公开一种基于区域引导和时空注意力的视频行人重识别方法，该方法先构建全局特征，基于时间注意力模型来计算视频流中每一帧所提取的全局特征，聚合得到全局特征向量；构建区域特征，将提取的行人深度特征图水平划分为四块，经由关键帧生成层生成四个区域各自的引导帧去提取对应的区域特征，结合时空注意力模型计算获得区域特征向量；待识别行人视频流的特征向量由全局特征向量和区域特征向量结合获得，与选定地理区域的视频图像的行人的特征向量对比，得到距离最小的行人目标视频流并输出最终重识别匹配结果。本发明能够解决行人视频图像成像质量差，细节损失严重，行人部位缺失而特征提取困难导致的视频行人重识别准确率不高的问题。

Description

基于区域引导和时空注意力的视频行人重识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于区域引导和时空注意力的视频行人重识别方法。

背景技术

随着人工智能领域、计算机视觉和硬件技术的不断发展，视频图像处理技术已经广泛应用于智慧城市系统、公安安防系统中。

行人重识别技术(Person Re-identification)也称行人再检索，简称为Re-ID。这是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。一般地，在监控摄像头所拍摄的监控视频中，由于摄像头分辨率通常较低，很难得到高质量清晰的人脸图片。这时人脸识别可能会失效，那么Re-ID就成为了一个非常重要的替代品技术。由于不同摄像头所拍摄的角度、光照、色差等条件会不同，因此，如何跨摄像头检索出同一行人图片就成为了Re-ID的关键。

大多已有的视频行人重识别问题算法是把视频流每一帧编码成一个向量，然后聚合所有的帧向量提取时间信息得到整个视频流的特征嵌入。但是在实践中，检测到的行人可能会被部分遮挡或者部位没有对齐，导致提取的特征表达力不强。

发明内容

本发明提出一种基于区域引导和时空注意力的视频行人重识别方法，能够使用视频流中各个区域中的关键帧引导提取特征向量，解决实际过程中行人视频图像成像质量差，细节损失严重，能够很好地对抗部位遮挡和不对齐，利用时空注意力机制有效提取视频序列中的时间和空间信息，很好地提高在复杂条件下的重识别准确率，并提高系统的鲁棒性。

为了解决上述技术问题，本发明实施例提供了一种基于区域引导和时空注意力的视频行人重识别方法，包括：

S1、使用ResNet50结构构造主干网络，作为视频流的特征图提取器；

S2、构建全局特征提取分支，基于时间注意力模型来计算视频流中每一帧所提取的全局特征的聚合表示，得到全局特征特征向量；

S3、构建区域特征提取分支，将主干网络ResNet50提取的行人深度特征图水平划分为四块，经由关键帧生成层生成四个区域各自的关键帧并将其作为引导帧去提取对应的区域特征，拼接后结合时空注意力模型计算区域特征的聚合表示，得到区域特征向量；

S4、根据步骤S2和S3获取待识别行人视频流的全局特征向量和区域特征向量，拼接后作为将待识别行人视频流的特征向量，与选定地理区域范围内的视频图像的行人的特征向量对比，比较得到距离最小的行人目标视频流并输出最终重识别匹配结果。

优选地，所述S1中视频流输入格式为：

视频流由有序的一组采样帧表示Iⁿ(n＝1...N)，其中每一帧图像检测的都是同一个行人，图像为256*128(长*宽)的RGB图像。

优选地，所述主干网络ResNet50具体结构如下：

原始ResNet50结构截去通道数为2048的卷积块以及最后的全连接层，具体为：

从输入层至输出层依次连接为：卷积层conv1、池化层max_pooling1、卷积层conv2_1(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv2_2(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv2_3(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、ReLU激活层conv2_relu、卷积层conv3_1(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv3_2(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv3_3(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv3_4(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、ReLU激活层conv3_relu、卷积层conv4_1(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv4_2(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv4_3(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv4_4(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv4_5(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv4_6(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、ReLU激活层conv4_relu、卷积层conv5_1(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv5_2(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)、卷积层conv5_3(1×1卷积，BN层，3×3卷积，BN层，1×1卷积)。

优选地，所述步骤S2包括：

S2.1、对步骤S1中主干网络输出的特征图M_n(n＝1,…,N),特征图尺寸为2048*8*4，做平均池化后得到N个全局特征向量Fⁿ(n＝1,…,N)；

S2.2、由空间注意力模型与全局特征向量计算全局特征的聚合表示f′_g，这里的空间注意力模型是使用2D卷积在空间维度上做聚合；

S2.3、全局特征的聚合表示f′_g经过1×1卷积做通道压缩与融合得到全局特征的最终表示f_g；

S2.4、由行人重识别损失函数l_id，l_triplet、反向传播训练该分支，两个损失函数具体公式分别如下：

其中

是视频流每一帧的全局特征向量，y_n是全连接层预测的身份分类结果；

其中

和

分别是当前输入视频流的全局特征，与当前输入视频流同属一个行人的全局特征以及与当前输入视频流属不同行人的全局特征；

为取正函数，即输入小于0时置零，输入大于等于0时不变，m为裕量，取值影响所学特征向量距离是否拉得足够远。

优选地，所述步骤S3包括：

S3.1、对步骤S1中主干网络输出的特征图M_n(n＝1,…,N)，按高度切分成四块以后得到切块后的特征图，每一块的尺寸为2048*2*4，做平均池化后得到N*4个区域特征向量F_l,i ⁿ(n＝1,…,N；i＝1,2,3,4)；

S3.2、对N*4个区域特征向量F_l,i ⁿ(n＝1,…,N；i＝1,2,3,4)，通过关键帧生成层生成所切分的四个区域各自的关键帧特征向量

这里的关键帧生成层是在时间维度N上的最大池化层；

S3.3、对4个关键帧特征向量

通过1×1卷积做通道融合后，由S2.4中提到的行人重识别损失函数l_id、l_triplet反向传播训练；

S3.4、用4个关键帧特征向量

与主干网络输出的特征图M_n(n＝1,…,N)做互相关(组卷积)以后得到N*4个特征图M_n,i，随后再做平均池化得到N*4个由关键帧引导而来的区域特征向量F_l,i ⁿ(n＝1,…,N；i＝1,2,3,4)；

S3.5、对这N*4个由关键帧引导而来的区域特征向量，通过时间注意力模型在时间维度上做聚合，时间注意力模型具体指对做互相关操作以后的特征图M_n,i进行单位化：

其中，h和w是指特征图的每一个像素点坐标；

时间维度聚合后的特征F_k,l,i为：

其中，

为哈达玛积运算；

S3.6、对时间维度聚合后的特征F_k,l,i，通过空间注意力模型在空间上做聚合，空间注意力模型具体指利用一维卷积计算每一个区域的注意力权重，再将该权重与对应区域特征向量F_k,l,i相乘以后求和，通道融合后得到最终区域特征向量f_l；

S3.7、对最终区域特征向量f_l，由S2.4中提到的行人重识别损失函数l_id、l_triplet反向传播训练。

优选地，所述步骤S4包括：

S4.1、将S2.3中提到的f_g以及S3.6中提到的f_l连接成最终的特征向量

；

S4.2、通过公式

计算特征距离。

相应地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行任意一项所述基于区域引导和时空注意力的视频行人重识别方法。

本发明提出的基于区域引导和时空注意力的视频行人重识别方法，能够使用视频流中各个区域中的关键帧引导提取特征向量，解决实际过程中行人视频图像成像质量差，细节损失严重，能够很好地对抗部位遮挡和不对齐，利用时空注意力机制有效提取视频序列中的时间和空间信息，很好地提高在复杂条件下的重识别准确率，并提高系统的鲁棒性。

附图说明

图1是本发明中双分支网络示意图；

图2是本发明中关键帧引导产生特征图的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例公开了一种基于区域引导和时空注意力的视频行人重识别方法，具体包括下列步骤：

S1.1、S1所述视频流输入格式为：

S1.2、S1所述主干网络ResNet50具体结构如下：

S2、构建全局特征提取分支，基于时间注意力模型来计算视频流中每一帧所提取的全局特征的聚合表示，得到特征向量f_g；

S2.2、由空间注意力模型与全局特征向量计算全局特征的聚合表示f′_g，这里的空间注意力模型是使用2D卷积聚合空间维度；

S2.4、由行人重识别损失函数l_id、l_triplet反向传播训练该分支，两个损失函数具体公式分别如下：

其中

是视频流每一帧的全局特征向量，y_n是全连接层预测的身份分类结果。

其中

和

取正函数，即小于0置零，大于等于0不变。

S3、构建区域特征提取分支，将主干网络ResNet50提取的行人深度特征图水平划分为四块，经由关键帧(key frame)生成层生成四个区域各自的关键帧并将其作为引导帧(guide frame)去提取对应的区域特征，拼接后结合空间注意力模型计算区域特征的聚合表示，得到特征向量f_l；

这里的关键帧生成层是在时间维度N上的最大池化层；

S3.3、对4个关键帧特征向量

S3.4、用4个关键帧特征向量

S3.5、对这N*4个由关键帧引导而来的区域特征向量，通过时间注意力模型在时间维度上做聚合，时间注意力模型具体指对做互相关操作以后的特征图M_n,i进行单位化:

其中，h和w是指特征图的每一个像素点坐标。

时间维度聚合后的特征F_k,l,i为：

其中，

为哈达玛积运算；

S4、根据步骤S2和S3获取待识别行人视频流的全局特征向量f_g和区域特征向量f_l，拼接后作为将待识别行人视频流的特征向量f_c，与选定地理区域范围内的视频图像的行人的特征向量对比，比较得到距离最小的行人目标视频流并输出最终重识别匹配结果。

；

S4.2、通过公式

计算特征距离。

第二实施例

本方发明第二实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一实施例中任意一项所述的基于区域引导和时空注意力的视频行人重识别方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于区域引导和时空注意力的视频行人重识别方法，其特征在于，包括：

步骤S1、使用ResNet50结构构造主干网络，作为视频流的特征图提取器；

步骤S2、构建全局特征提取分支，基于时间注意力模型来计算视频流中每一帧所提取的全局特征的聚合表示，得到全局特征特征向量；

所述步骤S2包括：

其中

其中

和

为取正函数，即输入小于0时置零，输入大于等于0时不变，m为裕量，取值影响所学特征向量距离是否拉得足够远；

步骤S3、构建区域特征提取分支，将主干网络ResNet50提取的行人深度特征图水平划分为四块，经由关键帧生成层生成四个区域各自的关键帧并将其作为引导帧去提取对应的区域特征，拼接后结合时空注意力模型计算区域特征的聚合表示，得到区域特征向量；

所述步骤S3包括：

这里的关键帧生成层是在时间维度N上的最大池化层；

S3.3、对4个关键帧特征向量

S3.4、用4个关键帧特征向量

与主干网络输出的特征图M_n(n＝1,…,N)做互相关以后得到N*4个特征图M_n,i，随后再做平均池化得到N*4个由关键帧引导而来的区域特征向量F_l,i ⁿ(n＝1,…,N；i＝1,2,3,4)；

其中，h和w是指特征图的每一个像素点坐标；

时间维度聚合后的特征F_k,l,i为：

其中，

为哈达玛积运算；

S3.7、对最终区域特征向量f_l，由S2.4中提到的行人重识别损失函数l_id、l_triplet反向传播训练；

步骤S4、根据步骤S2和S3获取待识别行人视频流的全局特征向量和区域特征向量，拼接后作为将待识别行人视频流的特征向量，与选定地理区域范围内的视频图像的行人的特征向量对比，比较得到距离最小的行人目标视频流并输出最终重识别匹配结果。

2.根据权利要求1所述基于区域引导和时空注意力的视频行人重识别方法，其特征在于，所述S1中视频流输入格式为：

3.根据权利要求1所述基于区域引导和时空注意力的视频行人重识别方法，其特征在于，所述主干网络为：

原始ResNet50结构截去通道数为2048的卷积块以及最后的全连接层。

4.根据权利要求1所述基于区域引导和时空注意力的视频行人重识别方法，其特征在于，所述步骤S4包括：

S4.2、通过公式

计算特征距离。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述基于区域引导和时空注意力的视频行人重识别方法。