CN115294655A

CN115294655A - 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备

Info

Publication number: CN115294655A
Application number: CN202210990512.1A
Authority: CN
Inventors: 陈岸明; 温峻峰; 林群雄; 洪小龙; 孙全忠; 李萍; 罗海涛
Original assignee: Zhongke Tianwang Guangdong Technology Co ltd
Current assignee: Zhongke Tianwang Guangdong Technology Co ltd
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-04

Abstract

本发明公开了一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备，方法步骤：利用网络模型中特征编码模块的外观编码和结构编码子模块实现对不同行人图像外观特征和结构特征的分别提取；所述网络模型中特征解码模块的解码器实现对外观特征和结构特征的融合并生成新的行人图像，实现对所输入行人图像的恒等映射和不同行人图像间的交叉映射；所述对抗性判别模块提取行人图像的多尺度特征，实现对生成图像的对抗性判别；将生成的恒等映射图像与交叉映射图像均输入基于ResNet‑50与非局部注意力机制的行人辨别模块；根据不同学习目标对各网络进行联合训练直至损失函数收敛，最终将行人辨别模块所提取的特征用于实现行人再识别。

Description

一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备。

背景技术

行人再识别源于跨摄像头多目标跟踪问题，用于从不同摄像机视域获取的图像或视频序列中识别出目标行人、车辆等。当代社会，能够利用行人再识别技术通过摄像头拍摄图像及视频寻找犯罪人员、寻找走失儿童、进行车辆追踪等，对维系社会稳定，构建平安城市、智慧城市有重要意义。因为相机的分辨率、拍摄角度及复杂的现实情境等缘故，使用监控摄像头往往无法得到高质量的人脸照片。与人脸识别相比，行人再识别对镜头分辨率和拍摄角度的限制较低，可识别的有效信息范围更多，因此，行人再识别是人脸识别失效时一个非常重要的替代方法。此外，在当前大数据时代，面对海量的视频、图片监控数据，行人再识别解决了人工检索费时费力且准确率低的问题。近年来，Re-ID在刑侦、城市安防、智能零售等领域拥有了越来越广泛地应用。

为实现高效、准确地识别，使用大量、丰富的数据对模型进行训练是必要的。但是，当前主流的几个数据库如Market1501、DuckMTMC-ReID、CUHK03，平均每个行人分别有17.2、9.6、23.5张图片，这对于训练一个较好的模型是不够的。现有的基于姿态引导的生成对抗性网络虽然也实现了在行人再识别方向的应用，但其实现需要姿态信息的辅助，前期工作繁琐且训练结果受人工标记的影响。

发明内容

为了解决上述现有技术的不足，本发明提供了一种多级模块特征的对抗生成行人再识别方法，该方法构建的网络模型包括特征编码模块、特征解码模块、对抗性判别模块以及行人辨别模块，所述特征编码模块含有外观编码和结构编码两个子模块，实现对行人图像外观特征和结构特征的分别提取；所述特征解码模块通过对同一或不同行人的外观特征和结构特征进行融合解码，实现对所输入行人图像的恒等映射或不同行人图像间的交叉映射生成不同姿态、衣着的行人图像；所述对抗性判别模块提取所输入图像的多尺度特征，实现对生成图像与真实图像的判别；所述行人辨别模块利用基于ResNet50与非局部注意力机制的神经网络实现对所生成图像特征的提取与分类，最终在联合训练完成后将所述行人辨别模块所提取的特征用于行人再识别任务的行人图像查询。

进一步的，在生成对抗网络中引入所述结构编码模块学习行人的姿势等特征，控制图片生成的内容，保证了图片的生成质量的同时增加了数据的多样性，与基于姿态引导的生成相比，此算法不使用任何额外的姿态信息辅助，更加简单易行，不会受人工标记影响；

进一步的，在外观编码中引入非局部注意力机制，充分学习了网络长距离卷积计算中的空间依赖关系，学习到了图像不同空间区域的关联信息，更有利于实现对不同行人图像的区分。

进一步的，所述特征编码模块含有外观编码和结构编码两个子模块，所述外观编码子模块用于对输入图像提取外观信息和身份信息，生成外观特征编码，其网络以Resnet-50网络为主干，并在主干网络中间引入非局部注意力模块，捕获空间域中不同局部感受野间的长距离依赖关系，进一步增强网络特征提取能力；其中结构编码子模块用于提取输入图像结构信息，输出结构特征编码，它由五个卷积层、三个两层残差块及空间池化金字塔层组成，此外，每个卷积层后都有归一化层和ReLu激活层。

进一步的，所述引入的非局部注意力模块对输入的特征图用三个1×1卷积块进行映射分别获得Query、Key和Value三条支路特征图，接着对Query和每个Key进行点乘计算并通过Softmax函数得到Value支路的权重，将Value支路乘以权重并通过Softmax函数获得最终的自注意力系数，将此系数与原始输入特征相乘得到非局部注意力模块的输出；根据下式实现非局部注意力模块的输出：

z_i＝W_z×φ(x_i)+x_i

其中，W_z是要学习的权重矩阵，φ(x_i)表示非局部运算和输入x_i形成的残差；

所述空间池化金字塔层采用了不同稀疏程度的空洞卷积，获得多粒度的特征，最后将多粒度特征拼接成结构编码模块的输出特征。

进一步的，所述特征解码模块能够将输入的结构编码和外观编码进行解码从而生成图像；它由五个残差块、两个上采样模块及三个卷积层组成；每个残差块中插入了自适应实例归一化层(AdaIN)，其计算公式为：

其中，x和y分别是输入和输出的特征图，μ(x)为输入特征图在某一通道的均值，σ(x)为该通道标准差，最后将外观编码集成为AdaIN的动态权重和偏置。

进一步的，所述对抗性判别模块用于判断输入图像是否为真实图像，由六个卷积层和四个残差块组成，且每个卷积层后采用负斜率为0.2的LReLu激活；判别器采用了多尺度的PathGAN思想，将256×128大小的输入图像调整为了三种不同尺寸的图片；分别将大小为64×32,128×64和256×128的图像作为辨别器输入，让辨别器对三个不同尺度的图像进行真伪判别，计算三者总损失作为输出结果。

进一步的，所述行人辨别模块与外观编码模块具有相同的特征提取层，行人辨别模块只在特征提取层的最后一层缩小全局平均池化层的输出，并使用全连接层实现特征的最终分类。

进一步的，要上述各模块实现所述的功能，需在训练阶段对不同模块使用适当的损失函数来实现各模块的学习目标，所述特征解码模块当目标是实现对所输入行人图像的恒等映射时，为保证解码器具有重建能力，用下式作为恒等映射生成过程的损失函数：

其中，x_i为原始图像，a_i和s_i分别为原始图像的外观编码和结构编码，G(·)为所述解码器，||·||₁为L1范数度量形式；此外，解码器还能够根据同一行人的不同姿态进行生成，将来自原始图像x_i的结构与来自另一图像x_t的外观组合，生成图像

其损失函数如下所示：

其中，x_i为原始图像，a_t和s_i分别为另一图像的外观编码和原始图像的结构编码，G(·)为所述解码器，||·||₁为L1范数度量形式，这种生成同一身份、同一外观、不同姿态的生成图像有利于网络更好的学习行人的外观特征；所述对抗性判别模块的学习目标是使网络能够对生成图像与原始的真实图像实现区分，在此采用的是基于WGAN的对抗损失函数：

L_adv＝E[D(x_i)-D(G(a_i,s_j))]

其中，x_i为原始图像，a_i和s_j分别为原始图像的外观编码和另一图像的结构编码，G(·)为所述解码器，D(·)为所述判别器；所述行人辨别模块的学习目标是尽可能对不同行人进行区分，因此采用三元组损失函数和交叉熵损失函数分别对行人特征和行人身份信息进行约束，其中三元组损失函数如下所示：

L_tri＝(d_a,p-d_a,n+α)₊

其中，d_a,p为正样本对间的距离，d_a,n为负样本间的距离，α为人为设置的阈值，(z)₊表示max(z,0)，交叉熵损失函数如下所示：

其中，y_i为原始图像x_i的真实类别，

为含有x_i外观编码的生成图像，

为计算

属于类别y_i的预测概率；最终总的损失函数如下：

其中，

不同的λ权重值用于平衡不同的损失在训练过程中所起到的作用。

本发明相对于现有技术具有如下的有益效果：

1、本发明直接在网络中引入结构编码模块学习行人的姿势等特征，实现了端到端的不同姿态图像的生成，无需任何额外的姿态信息辅助，更加简单易行，降低了人力成本。

2、本发明通过特征编码、解码、对抗性判别等模块构成的对抗生成网络实现了同一行人的恒等映射和不同行人间的交叉映射，控制图片生成的内容，保证了图片的生成质量的同时增加了数据的多样性，将扩充的数据集用于行人再识别任务可以有效提升行人再识别模型的泛化能力。

3、本发明的行人再识别主干网络与外观编码模块共用同一种具有非局部注意力模块的残差网络，关注了行人图像在网络传播中的长距离依赖信息，有效的提升了模型克服遮挡、光照、姿态变化带来的辨别困难问题的能力，提高了模型对不同行人图像的区分能力。

附图说明

图1为本发明实施例的多级模块特征的对抗生成行人再识别方法的流程图；

图2为本发明实施例的外观编码子模块以及行人辨别模块特征提取层的结构图；

图3为本发明实施例的结构编码子模块的结构图；

图4为本发明实施例的特征解码模块的结构图；

图5为本发明实施例的对抗性判别模块的结构图；

图6为本发明实施例的多级模块特征的对抗生成行人再识别方法总的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。应当理解，描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1-6所示，本实施例提供一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备，主要包括以下步骤：

S101、利用网络模型中特征编码模块的外观编码和结构编码子模块实现对不同行人图像外观特征和结构特征的分别提取；

具体的，以Resnet-50网络为主干搭建特征编码模块中的外观编码子模块，原始Resnet-50网络包含四个大的Block结构，每个Block均由多个Bottleneck结构连接而成，在本方法的外观编码子模块中在主干网络中引入非局部注意力模块，具体的非局部注意力模块分别加在第2个和第3个Block结构的最后2个和最后3个Bottleneck结构之后，共5个非局部注意力模块加在了原始的Resnet-50主干网络内部，并将原始Resnet-50主干网络全局平均池化层的单通道输出由1*1改为4*1，以及将最后的全连接层删除，最终构成外观编码子模块，如图2所示；结构编码子模块则由五个卷积层、三个两层残差块及空间池化金字塔层组成，空间池化金字塔ASPP层采用四种不同采样率的空洞卷积，如图3所示；最后将外观编码和结构编码子模块的输出作为行人的外观特征和结构特征；

S102、利用网络模型中特征解码模块的解码器实现对外观特征和结构特征的融合并生成新的行人图像，实现对所输入行人图像的恒等映射和不同行人图像间的交叉映射；

具体的，特征解码模块由五个残差块、两个上采样模块及三个卷积层组成；每个残差块中插入了自适应实例归一化层(AdaIN)，将外观编码集成为AdaIN的动态权重和偏置；解码器的输入为外观编码和结构编码，经过两个上采样模块扩大特征图后最终输出大小为3*256*128的特征图，也就是原始输入图像的大小，其结构如图4所示；最后输入的外观编码和结构编码的不同搭配生成同一行人图像的恒等映射或不同行人图像间的交叉映射；

S103、利用对抗性判别模块提取行人图像的多尺度特征，实现对生成图像的对抗性判别；

具体的，对抗性判别模块由六个卷积层和四个残差块组成，且每个卷积层后采用负斜率为0.2的LReLu激活；将三种不同尺度64×32,128×64和256×128的生成图像或原始真实图像输入网络中生成多尺度判别特征，最终综合所有特征进行真假图像的预测，网络结构如图5所示；

S104、将生成的恒等映射图像与交叉映射图像均输入基于ResNet-50与非局部注意力机制的行人辨别模块；

具体的，行人辨别模块的特征提取层与外观编码子模块相同，只有最后的全局平均池化层的输出修改为单通道输出为1*1，然后在特征提取层之后接上一个全连接层进行行人身份的分类；

S105、根据不同学习目标对各网络进行联合训练直至损失函数收敛，最终将行人辨别模块所提取的特征用于实现行人再识别；

具体的，所述总的网络模型结构如图6所示，首先将所有输入的行人图像尺寸设置为256*128大小，并对其进行数据归一化处理和数据增强处理；接着对本方法网络中的特征编码模块的外观编码子模块和结构编码子模块进行参数初始化，外观编码子模块使用了Resnet-50主干网络，因此可以使用在ImageNet上预训练的模型参数对其对应层进行初始化，其他层和结构编码子模块则使用Kaiming初始化随机产生权重；接着通过SGD对外观编码子模块进行训练，学习率设置为0.002，动量为0.9，采用Adam优化结构编码子模块，学习率设置为0.0001，(β₁，β₂)＝(0,0.999)，该模型共训练100000个迭代周期；

基于不同的学习目标选用特定的损失函数，对于特征解码模块需要生成原始输入图像的恒等映射图像或者不同行人图像的交叉映射图像，因此采用L1损失来对图像的所有像素进行重建，对于原始图像的恒等映射，其损失函数为：

其中，x_i为原始图像，a_i和s_i分别为原始图像的外观编码和结构编码，G(·)为所述解码器，||·||₁为L1范数度量形式；解码器还能够根据同一行人的不同姿态进行生成，将来自原始图像x_i的结构与来自另一图像x_t的外观组合，生成图像

实现对于不同图像间的交叉映射，其损失函数如下所示：

其中，x_i为原始图像，a_t和s_i分别为另一图像的外观编码和原始图像的结构编码，G(·)为所述解码器，||·||₁为L1范数度量形式，这种生成同一身份、同一外观、不同姿态的生成图像有利于网络更好的学习行人的外观特征；对抗性判别模块的学习目标是使网络能够对生成图像与原始的真实图像实现区分，在此采用的是基于WGAN的对抗损失函数：

L_adv＝E[D(x_i)-D(G(a_i,s_j))]

其中，x_i为原始图像，a_i和s_j分别为原始图像的外观编码和另一图像的结构编码，G(·)为所述解码器，D(·)为所述判别器；行人辨别模块的学习目标是尽可能对不同行人进行区分，因此采用三元组损失函数和交叉熵损失函数分别对行人特征和行人身份信息进行约束，其中三元组损失函数如下所示：

L_tri＝(d_a,p-d_a,n+α)₊

其中，y_i为原始图像x_i的真实类别，

为含有x_i外观编码的生成图像，

为计算

属于类别y_i的预测概率；最终总的损失函数如下：

其中，

不同的λ权重值用于平衡不同的损失在训练过程中所起到的作用，具体的λ权重值为λ₁＝0.2,λ₂＝1,λ₃＝2；

利用上述行人辨别模块的特征提取层提取待查询图像和图库中的图像的特征，计算所有待查询图像与图库图像特征之间的欧氏距离并归一化为余弦距离，将距离最近的图库图像视为待查询图像的目标图像。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，该方法构建的网络模型包括特征编码模块、特征解码模块、对抗性判别模块以及行人辨别模块，其特征在于，所述特征编码模块含有外观编码和结构编码两个子模块，实现对行人图像外观特征和结构特征的分别提取；所述特征解码模块通过对同一或不同行人的外观特征和结构特征进行融合解码，实现对所输入行人图像的恒等映射或不同行人图像间的交叉映射生成不同姿态、衣着的行人图像；所述对抗性判别模块提取所输入图像的多尺度特征，实现对生成图像与真实图像的判别；所述行人辨别模块利用基于ResNet50与非局部注意力机制的神经网络实现对所生成图像特征的提取与分类，最终在联合训练完成后将所述行人辨别模块所提取的特征用于行人再识别任务的行人图像查询。

2.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：在生成对抗网络中引入所述结构编码模块学习行人的姿势等特征，控制图片生成的内容，保证了图片的生成质量的同时增加了数据的多样性，与基于姿态引导的生成相比，此算法不使用任何额外的姿态信息辅助，更加简单易行，不会受人工标记影响。

3.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：在生成对抗网络中引入所述结构编码模块学习行人的姿势等特征，控制图片生成进一步的，在外观编码中引入非局部注意力机制，充分学习了网络长距离卷积计算中的空间依赖关系，学习到了图像不同空间区域的关联信息，更有利于实现对不同行人图像的区分。

4.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述特征编码模块含有外观编码和结构编码两个子模块，所述外观编码子模块用于对输入图像提取外观信息和身份信息，生成外观特征编码，其网络以Resnet-50网络为主干，并在主干网络中间引入非局部注意力模块，捕获空间域中不同局部感受野间的长距离依赖关系，进一步增强网络特征提取能力；其中结构编码子模块用于提取输入图像结构信息，输出结构特征编码，它由五个卷积层、三个两层残差块及空间池化金字塔层组成，此外，每个卷积层后都有归一化层和ReLu激活层。

5.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述引入的非局部注意力模块对输入的特征图用三个1×1卷积块进行映射分别获得Query、Key和Value三条支路特征图，接着对Query和每个Key进行点乘计算并通过Softmax函数得到Value支路的权重，将Value支路乘以权重并通过Softmax函数获得最终的自注意力系数，将此系数与原始输入特征相乘得到非局部注意力模块的输出；根据下式实现非局部注意力模块的输出：

z_i＝W_z×φ(x_i)+x_i

6.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述特征解码模块能够将输入的结构编码和外观编码进行解码从而生成图像；它由五个残差块、两个上采样模块及三个卷积层组成；每个残差块中插入了自适应实例归一化层(AdaIN)，其计算公式为：

7.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述对抗性判别模块用于判断输入图像是否为真实图像，由六个卷积层和四个残差块组成，且每个卷积层后采用负斜率为0.2的LReLu激活；判别器采用了多尺度的PathGAN思想，将256×128大小的输入图像调整为了三种不同尺寸的图片；分别将大小为64×32,128×64和256×128的图像作为辨别器输入，让辨别器对三个不同尺度的图像进行真伪判别，计算三者总损失作为输出结果。

8.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：所述行人辨别模块与外观编码模块具有相同的特征提取层，行人辨别模块只在特征提取层的最后一层缩小全局平均池化层的输出，并使用全连接层实现特征的最终分类。

9.根据权利要求1-8所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法，其特征在于：要上述各模块实现所述的功能，需在训练阶段对不同模块使用适当的损失函数来实现各模块的学习目标，所述特征解码模块当目标是实现对所输入行人图像的恒等映射时，为保证解码器具有重建能力，用下式作为恒等映射生成过程的损失函数：

其损失函数如下所示：

L_adv＝E[D(x_i)-D(G(a_i,s_j))]

L_tri＝(d_a,p-d_a,n+α)₊

其中，y_i为原始图像x_i的真实类别，

为含有x_i外观编码的生成图像，

为计算

属于类别y_i的预测概率；最终总的损失函数如下：

其中，