CN112381017B

CN112381017B - 一种基于感知级联上下文的车辆重识别方法

Info

Publication number: CN112381017B
Application number: CN202011302398.6A
Authority: CN
Inventors: 吕建明; 莫晚成
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-04-22
Anticipated expiration: 2040-11-19
Also published as: CN112381017A

Abstract

本发明公开了一种基于感知级联上下文的车辆重识别方法，包括以下步骤：构造车辆图像的特征提取模型，基础网络使用预训练的ResNet‑50分类网络；将基于感知级联上下文的注意力增强模块嵌入到特征提取模型中；输入车辆图像数据集，对构建好的特征提取模型进行训练；采用已训练的特征提取模型进行车辆重识别任务。本发明通过在车辆图像的特征提取模型中嵌入基于感知级联上下文的注意力增强模块，能够提取出车辆图像中更丰富、更具区分度的特征信息，从而提高了重识别任务的准确率；并且仅仅需要车辆ID一项标签信息作为监督信号进行模型训练，不依赖于任何细粒度的标签信息(如车牌、车型、颜色等)。

Description

一种基于感知级联上下文的车辆重识别方法

技术领域

本发明涉及智能交通监控技术领域，具体涉及一种基于感知级联上下文的车辆重识别方法。

背景技术

车辆重识别目前在科研领域中属于目标重识别范畴，是计算机视觉下的子领域任务。在深度学习技术兴起前，传统的车辆重识别只能通过不断抓拍车辆图像，并以车牌作为车辆身份的唯一ID进行识别。不幸的是，这种技术过度依赖于对车牌的识别精度。在许多的违法犯罪事件中，牌照常常被遮挡、移除甚至伪造。在这种情况下，公安人员只能通过人眼排查视频中车辆出现的时间地点以及车辆特征进行侦查。

目前主流的基于深度学习车辆重识别算法，几乎都需要使用许多细粒度的标签信息进行特征提取模型的训练，随后在推理过程中通过目标检测方法中同时提取车辆整体特征和区域特征，对多种特征进行融合后通过欧氏距离或余弦距离等距离函数对车辆相似度进行排序，最后得出重识别结果。但是，这样的方法却有着先天性的不足：首先，要获取更细粒度的标签信息可能会需要更高清的拍摄设备，更大的图像尺寸会导致整个模型推理效率的下降；其次，需要花费更多的人力物力去对细粒度区域进行标签的标注。

针对上述方法的不足，目前亟待提出一种基于感知级联上下文的车辆重识别方法。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于感知级联上下文的车辆重识别方法。该方法通过在特征提取模型中嵌入基于级联上下文的注意力增强模块，高效地提取出车辆图像中更丰富、更具区分度的特征信息。该方法不依赖于任何细粒度的标签信息(如车牌、车型、颜色等)辅助训练，仅需要车辆ID一项标签信息作为监督信号进行模型训练。

本发明的目的可以通过采取如下技术方案达到：

一种基于感知级联上下文的车辆重识别方法，所述的车辆重识别方法包含以下步骤：

S1、构造车辆图像的特征提取模型，所述的特征提取模型包括依次连接的主干网络和分类网络；

S2、将基于感知级联上下文的注意力增强模块嵌入到特征提取模型中；

S3、输入车辆图像数据集，对构建的特征提取模型进行训练；

S4、采用经过训练的特征提取模型进行车辆重识别任务。

进一步地，所述的主干网络结构如下：

从输入层至输出层依次连接为：卷积层Conv2d-1、BN层BatchNorm2d-2、ReLU层ReLU-3、池化层MaxPool2d-4、卷积层Conv2d-5、BN层BatchNorm2d-6、ReLU层ReLU-7、卷积层Conv2d-8、BN层BatchNorm2d-9、ReLU层ReLU-10、卷积层Conv2d-11、BN层BatchNorm2d-12、卷积层Conv2d-13、BN层BatchNorm2d-14、ReLU层ReLU-15、Bottleneck层Bottleneck-16、卷积层Conv2d-17、BN层BatchNorm2d-18、ReLU层ReLU-19、卷积层Conv2d-20、BN层BatchNorm2d-21、ReLU层ReLU-22、卷积层Conv2d-23、BN层BatchNorm2d-24、ReLU层ReLU-25、Bottleneck层Bottleneck-26、卷积层Conv2d-27、BN层BatchNorm2d-28、ReLU层ReLU-29、卷积层Conv2d-30、BN层BatchNorm2d-31、ReLU层ReLU-32、卷积层Conv2d-33、BN层BatchNorm2d-34、ReLU层ReLU-35、Bottleneck层Bottleneck-36、卷积层Conv2d-37、BN层BatchNorm2d-38、ReLU层ReLU-39、卷积层Conv2d-40、BN层BatchNorm2d-41、ReLU层ReLU-42、卷积层Conv2d-43、BN层BatchNorm2d-44、卷积层Conv2d-45、BN层BatchNorm2d-46、ReLU层ReLU-47、Bottleneck层Bottleneck-48、卷积层Conv2d-49、BN层BatchNorm2d-50、ReLU层ReLU-51、卷积层Conv2d-52、BN层BatchNorm2d-53、ReLU层ReLU-54、卷积层Conv2d-55、BN层BatchNorm2d-56、ReLU层ReLU-57、Bottleneck层Bottleneck-58、卷积层Conv2d-59、BN层BatchNorm2d-60、ReLU层ReLU-61、卷积层Conv2d-62、BN层BatchNorm2d-63、ReLU层ReLU-64、卷积层Conv2d-65、BN层BatchNorm2d-66、ReLU层ReLU-67、Bottleneck层Bottleneck-68、卷积层Conv2d-69、BN层BatchNorm2d-70、ReLU层ReLU-71、卷积层Conv2d-72、BN层BatchNorm2d-73、ReLU层ReLU-74、卷积层Conv2d-75、BN层BatchNorm2d-76、ReLU层ReLU-77、Bottleneck层Bottleneck-78、卷积层Conv2d-79、BN层BatchNorm2d-80、ReLU层ReLU-81、卷积层Conv2d-82、BN层BatchNorm2d-83、ReLU层ReLU-84、卷积层Conv2d-85、BN层BatchNorm2d-86、卷积层Conv2d-87、BN层BatchNorm2d-88、ReLU层ReLU-89、Bottleneck层Bottleneck-90、卷积层Conv2d-91、BN层BatchNorm2d-92、ReLU层ReLU-93、卷积层Conv2d-94、BN层BatchNorm2d-95、ReLU层ReLU-96、卷积层Conv2d-97、BN层BatchNorm2d-98、ReLU层ReLU-99、Bottleneck层Bottleneck-100、卷积层Conv2d-101、BN层BatchNorm2d-102、ReLU层ReLU-103、卷积层Conv2d-104、BN层BatchNorm2d-105、ReLU层ReLU-106、卷积层Conv2d-107、BN层BatchNorm2d-108、ReLU层ReLU-109、Bottleneck层Bottleneck-110、卷积层Conv2d-111、BN层BatchNorm2d-112、ReLU层ReLU-113、卷积层Conv2d-114、BN层BatchNorm2d-115、ReLU层ReLU-116、卷积层Conv2d-117、BN层BatchNorm2d-118、ReLU层ReLU-119、Bottleneck层Bottleneck-120、卷积层Conv2d-121、BN层BatchNorm2d-122、ReLU层ReLU-123、卷积层Conv2d-124、BN层BatchNorm2d-125、ReLU层ReLU-126、卷积层Conv2d-127、BN层BatchNorm2d-128、ReLU层ReLU-129、Bottleneck层Bottleneck-130、卷积层Conv2d-131、BN层BatchNorm2d-132、ReLU层ReLU-133、卷积层Conv2d-134、BN层BatchNorm2d-135、ReLU层ReLU-136、卷积层Conv2d-137、BN层BatchNorm2d-138、ReLU层ReLU-139、Bottleneck层Bottleneck-140、卷积层Conv2d-141、BN层BatchNorm2d-142、ReLU层ReLU-143、卷积层Conv2d-144、BN层BatchNorm2d-145、ReLU层ReLU-146、卷积层Conv2d-147、BN层BatchNorm2d-148、卷积层Conv2d-149、BN层BatchNorm2d-150、ReLU层ReLU-151、Bottleneck层Bottleneck-152、卷积层Conv2d-153、BN层BatchNorm2d-154、ReLU层ReLU-155、卷积层Conv2d-156、BN层BatchNorm2d-157、ReLU层ReLU-158、卷积层Conv2d-159、BN层BatchNorm2d-160、ReLU层ReLU-161、Bottleneck层Bottleneck-162、卷积层Conv2d-163、BN层BatchNorm2d-164、ReLU层ReLU-165、卷积层Conv2d-166、BN层BatchNorm2d-167、ReLU层ReLU-168、卷积层Conv2d-169、BN层BatchNorm2d-170、ReLU层ReLU-171、Bottleneck层Bottleneck-172、批次难样本三元组损失函数层triplet_loss。

进一步地，所述的分类网络结构如下：

从输入层至输出层依次连接为：

全局池化层AdaptiveAvgPool2d-173、BN层BatchNorm2d-174、FC层Linear-175、交叉熵损失函数层xent_loss。

进一步地，所述的步骤S2中构造基于感知级联上下文的注意力增强模块的过程如下：

S21、对于输入到注意力增强模块的图像特征图

其中C、H、W分别代表该特征图的通道数、特征图高度、特征图宽度，为了减少注意力增强模块的计算量，通过一个状态转换矩阵W_in将特征图X的通道数压缩为C′，得到特征图

其中W_in的具体实现方式为一个1x1的卷积核，公式表达为：

X′＝W_in(X)；

S22、对步骤S21得到的特征图X′，输入到下采样层P_i进行下采样以获得多尺度的上下文特征图

其中N_i为特征图下采样后的尺度大小，公式表达为：

X_i＝P_i(X′)

其中，X_i，i＝1，2，…，N为一系列隐含了不同尺度特征信息的上下文特征图X₁,X₂,…,X_N；

S23、对于步骤S22得到的多尺度的上下文特征图X_i，在每两个相邻尺度的上下文特征图之间进行注意力加权计算。假设存在n个下采样层，则需要进行n次注意力加权计算以获得最终的注意力加权特征图

与W_in相对应，最终的注意力加权特征图

经过一个状态转换矩阵W_out将通道数恢复为与原特征图

一致，状态转换矩阵W_out的实现方式为一个1x1的卷积核，最后使用残差连接将最终的注意力加权特征图

与原特征图X进行融合，得到注意力加权结果特征图Y，公式表达为：

S24、将构造的注意力增强模块嵌入到特征提取模型的主干网络中，具体位置分别为Bottleneck层Bottleneck-48、Bottleneck层Bottleneck-90、Bottleneck层Bottleneck-152、Bottleneck层Bottleneck-172之后，将上述层的输出特征图输入到注意力增强模块中。

进一步地，所述的步骤S23中对多尺度的上下文特征图X_i在每两个相邻尺度的上下文特征图之间进行注意力加权计算，设

为尺度为N_i+1的特征图，

为尺度为N_i的已经过注意力加权计算的特征图，计算过程如下

S231、对两个特征图进行维度重塑，得到

和

并进行矩阵乘法得到注意力关系矩阵

S232、对矩阵M_i的行进行softmax归一化，得到统一注意力关系矩阵

公式表达为：

其中，统一注意力关系矩阵

的每个元素值代表两个不同尺度的上下文特征图之间的注意力权重；

S233、将统一注意力关系矩阵

与较小尺度的特征图

进行矩阵乘法，得到经过注意力加权的特征图

公式如下：

进一步地，所述的步骤S23中

将会参与到下一次的注意力加权计算过程中。

进一步地，所述的步骤S3过程如下：

S31、构造车辆重识别数据集，使用PK采样法对数据集进行批次采样，即对每个输入到特征提取模型的图像批次，在数据集中随机采样P类车辆，每类车辆选取K张图像，然后将车辆图像按批次输入到特征提取模型得到卷积特征；

S32、对步骤S31得到的卷积特征，计算批次难样本三元组损失函数，在一个批次中，对于每个图像而言，它自身称为锚点图像，与锚点图像属于同一个车辆ID的其他图像称为正样本，反之则称为负样本；

批次难样本三元组损失函数定义如下：

L_triplet(a,p,n)＝max(0,α+max(D_ap)-min(D_an))

其中，α代表距离裕度，用于控制各个分类平面之间的距离，取值区间为0.25-0.35，D_ap与D_an代表锚点图像与所有正/负样本之间的距离；

S33、对步骤S31得到的卷积特征，输入分类网络中，计算交叉熵损失函数，其定义为：

其中，y代表图像的真实标签，y_i代表图像关于第i类ID的真实标签，

代表特征提取模型对图像标签的估计值，

代表图像关于第i类ID的估计值，L代表图像数据集的种类个数，对y_i采用标签平滑技术进行改写，具体如下：

其中，ε为用于降低特征提取模型对于训练数据集的自信能力和防止过拟合的常量值，取值区间为0.005-0.015；

S34、将批次难样本三元组损失函数与交叉熵损失函数相加得到总的损失函数值：

其中λ为用于平衡两个损失函数值之间相对大小的超参数。

进一步地，所述的步骤S4过程如下：

将需要进行重识别排序的数据集输入到已经训练收敛的特征提取模型中，得到图像特征，每个图像特征两两之间使用距离度量函数计算距离，将计算结果从小到大按序排列即可得到重识别结果。

进一步地，所述的距离度量函数采用欧式距离函数或余弦距离函数。

相对于已有的基于更多细粒度区域特征的车辆重识别方法，本发明具有如下的优点及效果：

(1)本发明仅使用车辆ID一项标签信息作为监督信号进行特征提取模型的训练。相对于主流的使用多种细粒度标签的方法，本发明不仅在同分辨率下可以获得更高的准确率，而且还避免了在标注细粒度标签上的大量人力物力消耗。

(2)本发明通过嵌入基于级联上下文的注意力增强模块到特征提取模型中，对多个尺度的特征上下文进行注意力加权计算，从而使得特征提取模型可以挖掘出图像中更具区分度的特征信息。

附图说明

图1是本发明实施例中公开的一种基于感知级联上下文的车辆重识别方法的流程图；

图2是本发明实施例中注意力增强模块的算法流程图；

图3是本发明实施例中注意力增强模块中的注意力加权计算过程的详细流程图；

图4是本发明实施例方法与通用图像特征提取模型的可视化结果比较示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例通过如图1所示的流程进行实现，如图所示，一种基于感知级联上下文的车辆重识别方法包括以下步骤：

步骤S1、构造车辆图像的特征提取模型，所述的特征提取模型包括依次连接的主干网络和分类网络，具体如下：

所述的主干网络具体结构如下：

所述的分类网络具体结构如下：

从输入层至输出层依次连接为：全局池化层AdaptiveAvgPool2d-173、BN层BatchNorm2d-174、FC层Linear-175、交叉熵损失函数层xent_loss。

步骤S2、构造基于感知级联上下文的注意力增强模块，具体过程如下：

S21、对于输入到注意力增强模块的图像特征图

其中W_in的具体实现方式为一个1x1的卷积核，公式表达为：

X′＝W_in(X)；

其中N_i为特征图下采样后的尺度大小，公式表达为：

X_i＝P_i(X′)

其中，X_i，i＝1,2，…,N为一系列隐含了不同尺度特征信息的上下文特征图X₁,X₂,…,X_N；

与W_in相对应，最终的注意力加权特征图

经过一个状态转换矩阵W_out将通道数恢复为与原特征图

一致，状态转换矩阵W_out的具体实现方式同样为一个1x1的卷积核，最后使用残差连接将最终的注意力加权特征图

所述的步骤S23中对多尺度的上下文特征图X_i在每两个相邻尺度的上下文特征图之间进行注意力加权计算，设

为尺度为N_i+1的特征图，

为尺度为N_i的已经过注意力加权计算的特征图，计算过程如下：

S231、对两个特征图进行维度重塑，得到

和

并进行矩阵乘法得到注意力关系矩阵

公式表达为：

其中，统一注意力关系矩阵

S233、将统一注意力关系矩阵

与较小尺度的特征图

进行矩阵乘法，得到经过注意力加权的特征图

公式如下：

步骤S3、输入车辆图像数据集，对构建的特征提取模型进行训练，具体如下：

批次难样本三元组损失函数定义如下：

L_triplet(a,p,n)＝max(0,α+max(D_ap)-min(D_an))

其中，y代表图像的真实标签，y_i代表第i张图像的真实标签，

代表特征提取模型对图像标签的估计值，L代表图像数据集的种类个数，对y_i采用标签平滑技术进行改写，具体如下：

其中λ为用于平衡两个损失函数值之间相对大小的超参数。

步骤S4、采用已训练的特征提取模型进行车辆重识别任务，将需要进行重识别排序的数据集输入到已经训练收敛的特征提取模型中，得到图像特征，每个图像特征两两之间使用距离度量函数(欧式距离函数或余弦距离函数)计算距离，将计算结果从小到大按序排列即可得到重识别结果

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于感知级联上下文的车辆重识别方法，其特征在于，所述的车辆重识别方法包含以下步骤：

S4、采用经过训练的特征提取模型进行车辆重识别任务；

其中，所述的主干网络结构如下：

从输入层至输出层依次连接为：卷积层Conv2d-1、BN层BatchNorm2d-2、ReLU层ReLU-3、池化层MaxPool2d-4、卷积层Conv2d-5、BN层BatchNorm2d-6、ReLU层ReLU-7、卷积层Conv2d-8、BN层BatchNorm2d-9、ReLU层ReLU-10、卷积层Conv2d-11、BN层BatchNorm2d-12、卷积层Conv2d-13、BN层BatchNorm2d-14、ReLU层ReLU-15、Bottleneck层Bottleneck-16、卷积层Conv2d-17、BN层BatchNorm2d-18、ReLU层ReLU-19、卷积层Conv2d-20、BN层BatchNorm2d-21、ReLU层ReLU-22、卷积层Conv2d-23、BN层BatchNorm2d-24、ReLU层ReLU-25、Bottleneck层Bottleneck-26、卷积层Conv2d-27、BN层BatchNorm2d-28、ReLU层ReLU-29、卷积层Conv2d-30、BN层BatchNorm2d-31、ReLU层ReLU-32、卷积层Conv2d-33、BN层BatchNorm2d-34、ReLU层ReLU-35、Bottleneck层Bottleneck-36、卷积层Conv2d-37、BN层BatchNorm2d-38、ReLU层ReLU-39、卷积层Conv2d-40、BN层BatchNorm2d-41、ReLU层ReLU-42、卷积层Conv2d-43、BN层BatchNorm2d-44、卷积层Conv2d-45、BN层BatchNorm2d-46、ReLU层ReLU-47、Bottleneck层Bottleneck-48、卷积层Conv2d-49、BN层BatchNorm2d-50、ReLU层ReLU-51、卷积层Conv2d-52、BN层BatchNorm2d-53、ReLU层ReLU-54、卷积层Conv2d-55、BN层BatchNorm2d-56、ReLU层ReLU-57、Bottleneck层Bottleneck-58、卷积层Conv2d-59、BN层BatchNorm2d-60、ReLU层ReLU-61、卷积层Conv2d-62、BN层BatchNorm2d-63、ReLU层ReLU-64、卷积层Conv2d-65、BN层BatchNorm2d-66、ReLU层ReLU-67、Bottleneck层Bottleneck-68、卷积层Conv2d-69、BN层BatchNorm2d-70、ReLU层ReLU-71、卷积层Conv2d-72、BN层BatchNorm2d-73、ReLU层ReLU-74、卷积层Conv2d-75、BN层BatchNorm2d-76、ReLU层ReLU-77、Bottleneck层Bottleneck-78、卷积层Conv2d-79、BN层BatchNorm2d-80、ReLU层ReLU-81、卷积层Conv2d-82、BN层BatchNorm2d-83、ReLU层ReLU-84、卷积层Conv2d-85、BN层BatchNorm2d-86、卷积层Conv2d-87、BN层BatchNorm2d-88、ReLU层ReLU-89、Bottleneck层Bottleneck-90、卷积层Conv2d-91、BN层BatchNorm2d-92、ReLU层ReLU-93、卷积层Conv2d-94、BN层BatchNorm2d-95、ReLU层ReLU-96、卷积层Conv2d-97、BN层BatchNorm2d-98、ReLU层ReLU-99、Bottleneck层Bottleneck-100、卷积层Conv2d-101、BN层BatchNorm2d-102、ReLU层ReLU-103、卷积层Conv2d-104、BN层BatchNorm2d-105、ReLU层ReLU-106、卷积层Conv2d-107、BN层BatchNorm2d-108、ReLU层ReLU-109、Bottleneck层Bottleneck-110、卷积层Conv2d-111、BN层BatchNorm2d-112、ReLU层ReLU-113、卷积层Conv2d-114、BN层BatchNorm2d-115、ReLU层ReLU-116、卷积层Conv2d-117、BN层BatchNorm2d-118、ReLU层ReLU-119、Bottleneck层Bottleneck-120、卷积层Conv2d-121、BN层BatchNorm2d-122、ReLU层ReLU-123、卷积层Conv2d-124、BN层BatchNorm2d-125、ReLU层ReLU-126、卷积层Conv2d-127、BN层BatchNorm2d-128、ReLU层ReLU-129、Bottleneck层Bottleneck-130、卷积层Conv2d-131、BN层BatchNorm2d-132、ReLU层ReLU-133、卷积层Conv2d-134、BN层BatchNorm2d-135、ReLU层ReLU-136、卷积层Conv2d-137、BN层BatchNorm2d-138、ReLU层ReLU-139、Bottleneck层Bottleneck-140、卷积层Conv2d-141、BN层BatchNorm2d-142、ReLU层ReLU-143、卷积层Conv2d-144、BN层BatchNorm2d-145、ReLU层ReLU-146、卷积层Conv2d-147、BN层BatchNorm2d-148、卷积层Conv2d-149、BN层BatchNorm2d-150、ReLU层ReLU-151、Bottleneck层Bottleneck-152、卷积层Conv2d-153、BN层BatchNorm2d-154、ReLU层ReLU-155、卷积层Conv2d-156、BN层BatchNorm2d-157、ReLU层ReLU-158、卷积层Conv2d-159、BN层BatchNorm2d-160、ReLU层ReLU-161、Bottleneck层Bottleneck-162、卷积层Conv2d-163、BN层BatchNorm2d-164、ReLU层ReLU-165、卷积层Conv2d-166、BN层BatchNorm2d-167、ReLU层ReLU-168、卷积层Conv2d-169、BN层BatchNorm2d-170、ReLU层ReLU-171、Bottleneck层Bottleneck-172、批次难样本三元组损失函数层triplet_loss；

其中，所述的步骤S2中构造基于感知级联上下文的注意力增强模块的过程如下：

S21、对于输入到注意力增强模块的图像特征图