CN115565048A

CN115565048A - 用于遮挡行人重识别的结合卷积神经网络优化ViT的方法

Info

Publication number: CN115565048A
Application number: CN202211104302.4A
Authority: CN
Inventors: 周书仁; 资帅; 朱俣健
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2023-01-03

Abstract

本发明公开了一种用于用于遮挡行人重识别的结合卷积神经网络优化ViT的方法，结合了卷积神经网络优化了Vision Transformer的网络结构，将CNN与Transformer的优点结合起来。本发明设计了CNN与Transformer双分支的网络结构，使图片提取的特征既有Transform的优点，又能吸收CNN的优点，这样既通过Transformer获取了tokens之间全局关系，又通过CNN获取了tokens的局部信息,最后融合了局部信息与全局信息，获得了具有鲁棒性的特征。最后结合三元组损失和交叉熵损失，对模型进行迭代优化，将模型最终损失减少到最小值，提升特征的准确性以及模型的性能。这样有效解决了遮挡情况下的行人重识别问题，为遮挡行人重识别在实际应用中提供了一种更为高效的框架。

Description

用于遮挡行人重识别的结合卷积神经网络优化ViT的方法

本发明涉及计算机视觉技术领域，尤其是一种用于行人重识别的卷积神经网络优化Vision Transformer(ViT)的方法。

背景技术

行人重识别是一项十分具有挑战性的任务，属于在复杂视频环境下的图像处理和分析范畴。行人重识别的目的即是在多个非重叠摄像头中搜寻一位目标行人。由于监控摄像头数量不断增加以及人们对于公共安全的迫切需求，行人重识别在智能监控系统，自动驾驶，智能安防，刑事侦查等领域能发挥巨大的作用，具有重大的研究意义和现实意义。

近年来，卷积神经网络的普遍成功在计算机视觉领域已经使人不再惊奇。卷积神经网络广泛应用于许多特定问题的挑战，例如目标行人被其他行人以及物品遮挡或者行人未对齐，身体部位不完整，以及伴随背景干扰或者视角的变化等等问题。由于上述问题的影响，目前单纯简单地利用卷积神经网络主干进行特征提取不会提升太多的行人重识别性能。

Transformer是一种基于自注意力机制的深度神经网络，最早应用于自然语言处理这一领域。由于其表现能力十分强大，研究人员将其迁移到计算机视觉这一领域，其中最著名的当属ViT(Vision Transformer)，ViT实现了与传统卷积神经网络相当的性能。虽然现在也有应用到行人重识别的ViT模型如Transreid，但是其不足之处是训练时需要大量的行人数据以及较强的显卡性能支持。

发明内容

针对上述现有技术的不足，本发明提供了一种用于遮挡行人重识别的结合卷积神经网络优化ViT的方法。其目的在于解决由于遮挡导致行人特征有噪声或者无法对齐的问题，即提取局部特征以及全局特征，结合卷积神经网络与ViT两者的优势提取更具鲁棒性以及辨别性的特征。

为了实现上述目的，本发明提供了一种用于遮挡行人重识别的结合卷积神经网络优化ViT的方法，包括以下步骤；

S1、构建网络框架，该网络由CNN及ViT两部分组成；

S2、在用CNN网络提取局部特征的同时也使用ViT网络提取全局特征信息；

S3、融合经过线性投影的局部特征以及拉伸转置操作之后的全局特征；

S4、使用优化后的transformer架构加强特征内部之间的联系，将S3得到的特征送入transformer的自注意力模块；

S5、最后根据输出的特征计算交叉熵损失以及三元组损失，并根据损失持续优化模型。

本发明提供了一种用于遮挡行人重识别的结合卷积神经网络优化ViT的方法。与现有技术相比，具备以下有益效果：

本发明对遮挡导致的行人特征具有噪声以及行人特征未对齐这一问题进行研究，利用卷积神经网络对现有的Vision Transformer模型进行优化，由于Vision Transformer具有自注意力模块，能够使模型更加关注具有全局的特征，忽略被遮挡的部分特征。因此结合卷积神经网络与Vision Transformer两者的优势，能够有效解决遮挡导致的行人特征具有噪声这一问题，提升遮挡行人重识别特征的鲁棒性以及识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明专利中用于遮挡行人重识别的结合卷积神经网络优化ViT的方法的总的网络结构图。

图2是本发明专利中卷积神经网络优化模块的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

下面结合说明书附图以及具体的实施方式对本发明作详细说明。一种用于遮挡行人重识别的的Vision Transformer包含步骤S1～S5：

S1、构建网络框架，该网络由CNN及ViT两部分组成；

S5、最后根据输出的特征计算交叉熵损失以及三元组合损失，并根据损失持续优化模型。

下面对各个步骤进行详细描述。

在步骤S1中，构建网络架构，如图1所示，该网络由由CNN及ViT两部分组成。其步骤具体为：

S101、构建一个CNN与ViT并存的框架，由两个分支组成；

S102、将行人图像送入CNN分支，同时铺平送入ViT分支提取特征。

在步骤S2中，在用CNN网络提取局部特征的同时也使用ViT网络提取全局特征信息，其步骤具体为：

S201、ViT分支的特征提取部分采用传统的ViT结构，表达如下：

Y＝[y¹,y²,···,yⁱ,···,yⁿ],yi＝Conv2d(Xⁱ),1≤i≤n (1)

其中，Xⁱ表示将图像分为n部分后的第i部分，yⁱ代表第i部分的词嵌入，Conv2d代表一个卷积层，Y表示Xⁱ通过卷积层之后的形成的yⁱ的集合；

Y′＝transpose(flatten(Y)) (2)

随后将Y先拉平再转置得到Y′，其中transpose表示矩阵转置操作，flatten表示矩阵铺平操作，Y′表示经过铺平转置操作之后的结果；

其中，C_T表示分类用的一个token，

表示矩阵相加操作，T_trans表示最终通过此分支得到的特征，即Y′与C_T的和；

S202、同时将行人图像输入到CNN中提取局部特征；

X′＝CNN_tokensblock(X),X∈R^B,C,H,W,X′∈R^{B,C′,H′,W′} (4)

其中X表示行人图像，R表示图像的维度，B指行人图像的批次，即每一次输入图像的数量，C表示图像的通道数，H表示图像的高度，W表示图像的宽度，CNN_tokensblock表示卷积神经网络优化模块，X′表示经过CNN_tokensblock处理后的图像，B、C′、H′及W′分别表示处理后的批次，通道数，图像高度及图像宽度；

其中，T_cnn表示经过卷积网络优化模块之后提取的局部特征，C_T与上一分支相同，同样是一个分类用的token，conv1以及conv2分别是卷积神经网络层，FC表示全连接层。

在步骤S3中，需要融合经过线性投影的局部特征以及拉伸转置操作之后的全局特征。

S301、首先将步骤S2中两分支得到的特征融合，采用的是直接将两个特征相加的形式，

T＝T_CNN+T_trans (6)

其中，T表示最终结合了CNN分支特征与ViT分支特征的融合特征。

在步骤S4中，使用优化后的transformer架构加强特征内部之间的联系。将S3得到的特征送入transformer的自注意力模块。

S401、将步骤S3得到的融合特征再加上位置嵌入PE。

其中

表示已经加上位置嵌入后的特征，

S402、使用transformer的自注意力模块来增强特征内部之间的联系，捕捉全局信息，模块的输出结果是通过输入结果两两运算得出权重之后再对输入进行加权求和得到的；

其中，Q,K,V是对输入的矩阵

进行不同的线性变换得到的结果，Attention表示自注意力模块，softmax表示激活函数，K^T表示对K矩阵进行转置的结果，d表示Q和K的维度。

S403、将S402得到的结果加上

本身，再经过一层MLP得到

之后再加上其本身得到

经过多层transformer层后得到最终结果

其中，L表示有L层transformer层，

表示经过i层之后的结果，LN表示LayerNomal层，MLP表示多层感知机，MSA表示多头自注意力模块。

在步骤S5中，根据输出的特征计算交叉熵损失以及三元组损失，并根据损失持续优化模型

S501、该网络结构模型的损失函数包括交叉熵损失以及三元组损失。将每一个行人视作一个类别，用于分类的交叉熵函数L_CE定义如下：

其中，y′_i表示预测为第i类的概率，y_i表示真实值，C的含义是总的类别，交叉熵损失使得预测值与真实值无限接近，除此之外还使用了三元组损失用以减少类内距离和增加类间距离，其定义如下：

其中，L_tri的含义是三元组损失，

表示负样本对的距离，即目标图像与最不相似的图像的距离，

表示正样本对的距离，即目标图像与最相似的图像的距离，m表示必要参数margin，N表示样本个数；

最终损失Loss为三元组损失与交叉熵损失之和：

Loss＝L_CE+L_tri (12)

S502、网络模型的训练过程是一个通过减少损失不断优化迭代的过程，即训练一轮后，将本轮获得的损失反馈到模型当中，继续进行下一轮的训练，经过多次这样的反复迭代以降低损失，从而获取更具鲁棒性的特征。

本发明专利结合了卷积神经网络优化了Vision Transformer的网络结构,该网络具有以下优势：将CNN与ViT的优点结合起来。由于CNN具有平移不变性，而Transformer更注重整体，于是本发明设计了CNN与ViT双分支的网络结构，使图片提取的特征既有Transform的优点，又能吸收CNN的优点，这样既通过Transformer获取了tokens之间全局关系，又通过CNN获取了tokens的局部信息,最后融合了局部信息与全局信息，获得了具有鲁棒性的特征。同时这样有效解决了遮挡情况下的行人重识别问题，构建了一种新的有效应用于遮挡行人重识别的方法，为遮挡行人重识别在实际应用中提供了一种更为高效的框架。

本发明还提出一种用于遮挡行人重识别的结合卷积神经网络优化ViT的方法，包括：

构建网络框架，该网络由CNN及ViT两部分组成；

将给定行人图像输入到CNN网络中提取局部特征，同时将行人图像铺平为序列后输入到ViT网络提取全局特征信息；

融合经过线性投影的局部特征以及拉伸转置操作之后的全局特征；

使用优化后的transformer架构加强特征内部之间的联系，将上一步得到的特征送入transformer的自注意力模块；

最后根据输出的特征计算交叉熵损失以及三元组合损失，并根据损失持续优化模型。

本发明还提出一种计算机设备，包括存储器和处理器，所述存储器有存储计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。