CN116311105B

CN116311105B - 一种基于样本间上下文指导网络的车辆重识别方法

Info

Publication number: CN116311105B
Application number: CN202310542157.6A
Authority: CN
Inventors: 李曦; 庞希愚; 郑美凤; 周厚仁; 孙珂; 田佳琛; 周晓颖; 王成
Original assignee: Shandong Jiaotong University
Current assignee: Shandong Jiaotong University
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-09-19
Anticipated expiration: 2043-05-15
Also published as: CN116311105A

Abstract

本发明涉及车辆识别技术领域，具体地涉及一种基于样本间上下文指导网络的车辆重识别方法，提出了一种样本间上下文指导的自注意力机制，该机制让一个样本与样本间上下文交互来强调具有鉴别性的元素并指导该样本内语义信息的聚集，该机制首先捕获样本内的自身上下文来聚集图像中车辆的语义信息并抑制背景的干扰，然后让样本与样本间上下文交互来强调鉴别性的语义信息；样本间上下文指导的自注意力机制将自身上下文的学习和交互限制在局部范围内并通过跨局部连接聚集全局上感兴趣的信息，这样不仅有助于挖掘细微的鉴别性信息还能够降低计算量，大大提高了区分相似车辆的能力及识别效率。

Description

一种基于样本间上下文指导网络的车辆重识别方法

技术领域

本发明涉及车辆识别技术领域，具体地涉及一种基于样本间上下文指导网络的车辆重识别方法。

背景技术

车辆重识别旨在从图像库中检索出由非重叠摄像头拍摄的同一车辆的图像。该技术在智能交通、无人驾驶汽车和城市安全监控等领域有着巨大的应用前景。随着深度神经网络的兴起，一些基于卷积神经网络(Convolutional Neural Network，CNN)的车辆重识别方法陆续被提出并显著地提升了该任务的性能。但属于同一厂家和车型的不同车辆在整体外观上看起来可能非常相似，这种类间差异较小的问题使得车辆重识别仍然是一个非常具有挑战性的任务。从车辆的局部区域中提取细微的鉴别性信息对于区分外观相似的车辆至关重要。

自注意力机制通过用跨元素的成对自亲和性捕获样本内自身的上下文，能够有效地抑制背景的干扰并突出目标主体的语义信息。自注意力的工作原理是根据元素间的成对自亲和性聚合单个样本中所有元素的特征，来细化每个元素的表示。它可以聚集语义相关的特征，从而让网络能够关注图像中目标主体的信息来较好地刻画和表征样本的特性，并抑制复杂的背景信息。但自注意力在学习单个样本内自身上下文信息时忽略了与其它样本之间的潜在的相关信息，这限制了它区分相似车辆的能力。

发明内容

本发明的目的在于克服现有技术存在的缺点，提出设计一种基于样本间上下文指导网络的车辆重识别方法，结合样本内的自身上下文信息和样本间潜在的相关信息来挖掘更多有用的鉴别性线索，提高了区分相似车辆的能力。

本发明解决其技术问题所采取的技术方案是：

如图1所示，一种基于样本间上下文指导网络的车辆重识别方法，包括：

步骤1、将车辆图像作为输入，将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络(ICGNet)的骨干网络，在res_conv4_1块之后，ResNet50的后续部分被划分为三个独立的分支：Part-1、Global_Spatial、Global_Channel，来提取多样化的特征，每个分支的res_conv5_1块设置为不采用下采样操作，用于保留丰富的细节信息；

步骤2、在Global_Spatial、Global_Channel分支的res_conv5层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块，从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息，从而实现车辆重识别。

进一步的，为了提取更多的局部区域内的细微线索，所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分，每个分支均采用全局平均池化操作和降维操作来学习紧凑的特征表示。

进一步的，所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量；降维操作进一步地将2048维的特征向量降维到256维；网络训练阶段，在每个256维特征向量上应用一个三元组损失，并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失；在网络的测试阶段，三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。

进一步的，所述样本间上下文指导的空间注意力模块，旨在利用样本内的自身空间上下文信息和样本之间的潜在的相关信息来增强空间注意力建模的有效性，其结构为：

设样本的特征图X∈R^H×W×C为空间模块的输入张量，其中H、W、C分别表示张量的高度、宽度和通道数；为了细化局部特征的表示，将张量X沿空间维度划分为多个规则的非重叠窗口，每个窗口Xⁱ的维度为h×w×C，窗口的总数为P＝N/hw，其中i＝1，2，...，P，N＝HW，h和w分别代表窗口的高度和宽度；在每个窗口内独立实施自注意力计算来捕获局部空间上下文；对于第i个窗口，首先通过三个参数不共享的1×1卷积层对Xⁱ进行线性变换并变形为位置查询矩阵Qⁱ∈R^hw×C，位置键矩阵Kⁱ∈R^hw×C，位置值矩阵Vⁱ∈R^hw×C，这三个矩阵中的第m行分别是窗口中位置m的查询向量、键向量和值向量；位置m和n之间的亲和性计算为：

其中，·表示向量的内积，度量了窗口的特征图中位置m和n的特征表示之间的相似性；

表示所有位置间的成对亲和性的矩阵Aⁱ∈R^hw×hw可以通过将矩阵Qⁱ和Kⁱ的转置相乘，并对结果执行softmax操作来得到：

其中，表示矩阵乘法，Aⁱ的每一行中的元素之和为1；然后，用位置间的亲和性加权求和所有位置的特征来精细化位置的特征表示，位置m处的精细化过程可以表示为：

其中，m＝1，2，...，hw；窗口中所有位置的细化可以定义为：

编码了局部空间上下文信息的矩阵Dⁱ∈R^hw×c通过相关语义的聚集突出了样本图像中车辆主体的语义信息所对应的位置，抑制了复杂背景所在的区域；

引入一个大小为C×M的空间方面的样本间上下文存储器U，它通过与所有样本进行交互来学习对整个数据集最具有鉴别性的空间方面的信息，一个样本与存储器U的交互的公式如下：

其中，Bⁱ∈R^hw×M，矩阵Bⁱ的第i行表示窗口的特征图中的第i个位置与样本间的上下文信息的亲和性；将矩阵的形状压缩为hw×1，并使用一个L1_Norm函数来得到样本间上下文指导的窗口空间注意力图Tⁱ，公式如下：

Tⁱ＝L1_Norm(Avg(Bⁱ))，

其中，Avg表示沿通道方向的平均池化；矩阵Tⁱ中的值反应了相应位置对辨别样本的身份的重要性，Y中的参数是在训练阶段从数据集所有样本的信息中学习到的，每一列可以视为车辆图像中的一个具有鉴别性的部位(区域)的信息；

在得到每个窗口的空间注意力图Tⁱ后，将它们的形状都重塑为h×w；然后合并所有的窗口空间注意力图，并实施跨窗口交互操作得到样本的空间注意力图T∈R^H×W×C：

通过softmax操作实现的跨窗口交互，强调了全局上重要的位置；这些位置上的信息不仅包含主体语义中的鉴别性信息，还包含部件级的鉴别性信息。与在全局范围下学习样本自身上下文并借助存储器Y推断哪些位置是重要的这一方式相比，先局部后全局的方式不仅可以减少计算量，同时能够挖掘丰富的细微的鉴别性线索。最后，将T广播为与输入特征图X相同的形状后，再与X逐元素相乘和相加，得到样本间上下文指导的空间注意力模块的输出特征图S∈R^H×W×C，该过程可以表示为：

其中，表示矩阵点乘，/>表示矩阵加法。

进一步的，所述样本间上下文指导的通道注意力模块，旨在利用样本内的自身通道上下文信息和样本间上下文信息来增强通道注意力建模的有效性，其结构为：

沿通道方向将输入特征图X∈R^H×W×C均匀地划分为多个子特征图X^g∈R^H×W×(C/G)，g＝1，2，…，G，其中，H、W、C分别表示特征图的高度、宽度和通道数，G表示分组数；每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的；由于自注意力计算需要1维序列作为输入，将X^g重塑为二维张量后送入到三个线性投影层中，再经过转置操作得到三个形状相同的矩阵：通道查询矩阵Q^g∈R^(C/G)×N、通道键矩阵K^g∈R^(C/G)×N和通道值矩阵V^g∈R^(C ^/G)×N，其中N＝H×W；第g个组中通道m和n之间的亲和性的计算过程可以被表示为：

其中，矩阵Q^g中的第m行矩阵K^g中的第n行/>分别表示第g个组中通道m和n的查询向量、键向量；/>度量了通道m和n在图像的所有区域上提取的特征间的相似性；通道m和n提取的特征在语义上越相关，那么它们的亲和性越大；反之，它们的亲和性越小；通过把查询矩阵Q^g和键矩阵K^g的转置相乘并执行soft max操作，得到第g个组的表示所有通道间的成对亲和性的矩阵A^g∈R^(C/G)×(C/G)：

其中，A^g的每一行中的元素之和为1；然后，用通道间的亲和性加权求和所有的通道来精细化每个通道的特征表示；通道m的精细化过程可以表示为：

其中，m＝1，2，...，C/G，是矩阵V^g中的第j行，表示第g个通道组中通道j的值向量；该过程捕获了通道m的局部上下文，强调了在语义上与通道m相关性大的通道，抑制了相关性小的通道；第g个组中所有通道的细化可以定义为：

编码了局部通道上下文信息的矩阵D^g∈R^HW×(C/G)通过相关语义的聚集强调了表示样本图像中车辆主体语义信息的通道；

引入一个形状为K×M的通道方面的样本间上下文存储器I，它通过与所有样本进行交互捕获样本间的通道方面上下文来指导样本显式地推断哪些通道对辨别样本身份是重要的；将一个样本内每一个通道的邻域信息投影到存储器I上来实现这个样本与I的交互；首先，将矩阵D^g沿着第0个轴压缩得到向量d^g∈R^C/G，然后通过一个unflod操作提取d^g中每一个元素的K个邻居的信息，形成矩阵U^g∈R^(C/G)×K：

U^g＝unflod(d^g)＝unflod(Avg(D^g))，

其中，Avg表示行方向上的平均池化，U^g中的第i行为第i个通道的K个邻居的信息；一个样本与存储器I的交互用公式表示为：

其中，B^g∈R^(C/G)×M；矩阵B^g的第i行表示第g个组中第i个通道与样本间上下文信息的亲和性；对矩阵进行压缩并使用一个L1_Norm函数来得到样本间上下文指导的组内通道注意力图T^g∈R^C/G，公式如下：

T^g＝L1_Norm(Avg(B^g))，

其中，Avg表示沿列方向的平均池化，T^g中的值表示了每个通道对辨别样本身份的重要性，Y中的参数是通过与所有样本的交互学习到的，可以让样本的通道表示的精细化侧重于与样本身份相关的重要的通道上。为了减少参数量，所有通道组共享同一个存储器I。

在得到每个组的通道注意力图T^g后，将它们连接起来并实施跨组交互得到样本的通道注意力图T∈R^C，

T＝sorftmax(connect(T¹，T²，...，T^G))；

通过softmax操作实现的跨组交互，强调了全局上重要的通道；先局部后全局的方式能够挖掘丰富的细粒度的重要语义特征；最后，将T的形状广播为H×W×(C/G)与子特征图X^g逐元素相乘后，再与输入特征图X逐元素相加，得到样本间上下文指导的通道注意力模块的输出特征图S∈R^H×W×C，该过程可以表示为：

进一步的，本发明采用两种常用的损失函数，分别是交叉熵损失函数和三元组损失函数。除了使用这两种常用的损失函数外，还采用了注意力监督约束来使注意力的学习聚焦在关键区域，来进一步提高车辆重识别的准确度。

进一步的，从训练数据集中随机选取P个身份和K个实例组成一个批量，三元组损失函数的公式如下：

其中，表示从锚点提取的特征，/>表示从正样本中提取的特征，/>表示从负样本中提取的特征，α是margin参数，用于拉大锚点与正样本对和锚点与负样本对之间的差距，[·]₊代表的是max(·，0)。

进一步的，所述交叉熵损失函数为：

其中，D是训练集中车辆的类别数，x是输入到网络中车辆图像的真实身份标签，P_m表示第m类的ID预测概率。

进一步的，所述注意力监督约束定义如下：

L_ASC＝ASC(x)＝exp(p′(x)-p(x))，

其中，p′(x)和p(x)分别表示不使用注意力模块和使用注意力模块时网络关于输入图像x的真实标签的预测概率。

进一步的，所述样本间上下文指导网络总的损失计算公式如下：

L_total＝L_triplet+L_id+L_ASC，

其中，L_triplet为三元组损失函数，L_id为交叉熵损失函数，L_ASC为注意力监督约束。

本发明的技术效果：

与现有技术相比，本发明的一种基于样本间上下文指导网络的车辆重识别方法，具有以下优点：

(1)为了有效地区分外观差异较小的车辆，本发明提出了一种样本间上下文指导的自注意力机制，该机制首先捕获样本内的自身上下文来聚集图像中车辆的语义信息并抑制背景的干扰，然后让样本与样本间上下文交互来强调鉴别性的语义信息；样本间上下文指导的自注意力机制将自身上下文的学习和交互限制在局部范围内并通过跨局部连接聚集全局上感兴趣的信息，这样不仅有助于挖掘细微的鉴别性信息还能够降低计算量，大大提高了区分相似车辆的能力及识别效率；

(2)本发明提出了一个样本间上下文指导的网络(ICGNet)，该网络同时包含样本间上下文指导的空间注意力模块(ICG-S)和样本间上下文指导的通道注意力模块(ICG-C)，从不同的维度学习鉴别性的主体语义信息和细粒度的语义信息；此外，还提出了一个注意力监督约束来进一步提升注意力学习的效果。

附图说明

图1为本发明车辆重识别方法的网络框架图；

图2为本发明样本间上下文指导的空间注意力模块结构图；

图3为本发明样本间上下文指导的通道注意力模块结构图；

图4为本发明特征图与车辆图像的对应关系图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面结合说明书附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例1：

如图1所示，本实施例涉及的一种基于样本间上下文指导网络的车辆重识别方法，包括：

步骤1、将车辆图像作为输入，采用网络架构简洁且表征能力强大的ResNet50作为特征提取的基础，并移除掉自带的全连接层，将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络(ICGNet)的骨干网络，在res_conv4_1块之后，ResNet50的后续部分被划分为三个独立的分支：Part-1、Global_Spatial、Global_Channel，来提取多样化的特征，每个分支的res_conv5_1块设置为不采用下采样操作，用于保留丰富的细节信息；

为了提取更多的局部区域内的细微线索，所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分，每个分支的后续部分具有相似的结构，它们都采用全局平均池化操作和降维操作来学习紧凑的特征表示。所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量；降维操作进一步地将2048维的特征向量降维到256维；在网络的训练阶段，本发明在每个256维特征向量上应用一个三元组损失，并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失；在网络的测试阶段，三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。其中，所述全局平均池化操作由一个逐点卷积、一个BN层和一个ReLU激活函数构成，BN层位于卷积层之后，ReLU激活函数之前。

为了从空间维度提取细微的鉴别性信息来增强网络区分相似车辆的能力，本发明设计了样本间上下文指导的空间注意力模块，该模块旨在利用样本内的自身空间上下文信息和样本之间的潜在的相关信息来增强空间注意力建模的有效性，其结构如图2所示：

设样本的特征图X∈R^H×W×C为空间模块的输入张量,其中H、W、C分别表示张量的高度、宽度和通道数；为了细化局部特征的表示，将张量X沿空间维度划分为多个规则的非重叠窗口，每个窗口Xⁱ的维度为h×w×C，窗口的总数为P＝N/hw，其中i＝1，2，...，P，N＝HW，h和w分别代表窗口的高度和宽度；在每个窗口内独立实施自注意力计算来捕获局部空间上下文；对于第i个窗口，首先通过三个参数不共享的1×1卷积层对Xⁱ进行线性变换并变形为位置查询矩阵Qⁱ∈R^hw×C，位置键矩阵Kⁱ∈R^hw×C，位置值矩阵Vⁱ∈R^hw×C，这三个矩阵中的第m行分别是窗口中位置m的查询向量、键向量和值向量；位置m和n之间的亲和性计算为：

其中，·表示向量的内积，度量了窗口的特征图中位置m和n的特征表示之间的相似性。

如图4所示，为特征图与车辆图像的对应关系图，特征图与车辆图像的对应关系，在车辆图像中，车辆引擎盖的两个区域用m、n表示，车灯所在的区域用u表示，它们分别对应特征图中的位置m、n和u。引擎盖上的两个区域在语义上的关联要高于它们和车灯区域在语义上的关联。特征图中一个位置的特征表示编码了图像中一个对应区域的语义信息。因此，车辆图像中的区域在语义上越相关，那么它们在特征图中所对应的位置的特征表示之间的亲和性越大。如图3所示，车辆的引擎盖中的区域间的亲和性大于这些区域与车灯所在区域之间的亲和性。表示所有位置间的成对亲和性的矩阵Aⁱ∈R^hw×hw可以通过将矩阵Qⁱ和Kⁱ的转置相乘，并对结果执行softmax操作来得到：

其中，m＝1，2，...，hw；该过程捕获了位置m的局部空间上下文，强调了在语义上与位置m相关性大的位置，抑制了相关性小的位置；窗口中所有位置的细化可以定义为：

利用跨位置交互捕获每个窗口的自身上下文并细化特征表示的过程，可以根据特征图位置间的亲和性也就是图像中区域的相似性过滤掉背景等噪声的干扰并建立相似区域间的依赖。但是，该过程没有显式的指明哪些位置的信息对辨别样本身份是重要的，同时，由于车灯、年检标志等小部件与其它部件在语义上的关联较小，因此这些部件的对区分相似样本身份非常关键的语义特征在整体上被赋予了较小的权重。显然，捕获样本之间的相关信息有利于判断特征图上哪些位置对辨别样本身份是重要的。为此，本发明引入一个大小为C×M的空间方面的样本间上下文存储器Y，它通过与所有样本进行交互来学习对整个数据集最具有鉴别性的空间方面的信息，一个样本与存储器Y的交互的公式如下：

Tⁱ＝l1_Norm(Avg(Bⁱ))，

其中，Avg表示沿通道方向的平均池化；矩阵Tⁱ中的值反应了相应位置对辨别样本的身份的重要性，Y中的参数是在训练阶段从数据集所有样本的信息中学习到的，每一列可以视为车辆图像中的一个具有鉴别性的部位(区域)的信息；为了使空间注意力模块对图像具有翻转、平移等不变性，所有窗口共享同一个存储器Y。在以端到端的方式进行反向传播优化模块的过程中，跨样本交互得到的Y中的信息会使得样本内自身上下文的学习集中在对区分样本身份有用的位置上。

在得到每个窗口的空间注意力图Tⁱ后，将它们的形状都重塑为h×w；然后合并所有的窗口空间注意力图，并实施跨窗口交互操作得到样本的空间注意力图T∈^R×W×C，

通过softmax操作实现的跨窗口交互，强调了全局上重要的位置；这些位置上的信息不仅包含主体语义中的鉴别性信息，还包含部件级的鉴别性信息。与在全局范围下学习样本自身上下文并借助存储器Y推断哪些位置是重要的这一方式相比，先局部后全局的方式不仅可以减少计算量，同时能够挖掘丰富的细微的鉴别性线索。最后，将T广播为与输入特征图X相同的形状后，再与X逐元素相乘和相加，得到样本间上下文指导的空间注意力模块的输出特征图S∈R^H×W×C；该过程可以表示为：

其中，表示矩阵点乘，/>表示矩阵加法。

为了从通道维度提取丰富的细粒度的与样本身份相关的语义特征来区分相似的车辆样本，本发明设计了样本间上下文指导的通道注意力模块，该模块旨在利用样本内的自身通道上下文信息和样本间上下文信息来增强通道注意力建模的有效性，其结构如图3所示：沿通道方向将输入特征图X∈R^H×W×C均匀地划分为多个子特征图X^g∈R^H×W×(C/G)，g＝1，2，…，G，其中，H、W、C分别表示特征图的高度、宽度和通道数，G表示分组数。每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的。由于自注意力计算需要1维序列作为输入，本发明把X^g重塑为二维张量后送入到三个线性投影层中，再经过转置操作得到三个形状相同的矩阵：通道查询矩阵Q^g∈R^(C/G)×N、通道键矩阵K^g∈R^(C/G)×N和通道值矩阵V^g∈^R(C/G)×N，其中N＝H×W。第g个组中通道m和n之间的亲和性的计算过程可以被表示为：

其中，矩阵Q^g中的第m行矩阵K^g中的第n行/>分别表示第g个组中通道m和n的查询向量、键向量；/>度量了通道m和n在图像的所有区域上提取的特征间的相似性；通道m和n提取的特征在语义上越相关，那么它们的亲和性越大；反之，它们的亲和性越小；通过把查询矩阵Q^g和键矩阵K^g的转置相乘并执行softmax操作，得到第g个组的表示所有通道间的成对亲和性的矩阵A^g∈R^(C/G)×(C/G)：

编码了局部通道上下文信息的矩阵D^g∈R^HW×(C/G)通过相关语义的聚集强调了表示样本图像中车辆主体语义信息的通道。

自身通道上下文捕获的车辆的主体语义信息有利于区分外观差异较大的样本，但难以区分外观差异较小的样本。样本间的差异信息可以从所有样本的交互中学习到。为此，本发明引入了一个形状为K×M的通道方面的样本间上下文存储器I，它通过与所有样本进行交互捕获样本间的通道方面上下文来指导样本显式地推断哪些通道对辨别样本身份是重要的；将一个样本内每一个通道的邻域信息投影到存储器I上来实现这个样本与I的交互；首先，将矩阵D^g沿着第0个轴压缩得到向量d^g∈R^C/G，然后通过一个unflod操作提取d^g中每一个元素的K个邻居的信息，形成矩阵U^g∈R^(C/G)×K，

U^g＝unflod(d^g)＝unflod(Avg(D^g))，

T^g＝L1_Norm(Avg(B^g))，

在得到每个组的通道注意力图T^g后，将它们连接起来并实施跨组交互得到样本的通道注意力图T∈R^C：

T＝sorftmax(connect(T¹，T²，...，T^G))；

在本发明所提出的样本间上下文指导网络(ICGNet)的训练过程中，本发明采用了两种常用的损失函数，分别是交叉熵损失函数和三元组损失函数。除了使用这两种常用的损失函数外，本发明还采用了注意力监督约束来使注意力的学习聚焦在关键区域，进一步提高车辆重识别的准确度。如图1所示，实线表示三元组损失的计算，虚线表示经过全连接层(FC)后交叉熵损失的计算。

所述三元组损失的目标是使具有相同标签的样本在嵌入空间中尽可能地接近，而具有不同标签的样本则尽可能地保持距离。为了满足三元组损失的计算要求，本发明从训练数据集中随机选取P个身份和K个实例组成一个批量，三元组损失函数的公式如下：

所述交叉熵损失函数可以衡量同一随机变量中两个不同概率分布之间的差异程度。它通常用于衡量模型的预测分布与真实分布之间的差异。当模型的预测分布与真实分布越接近，交叉熵损失函数的值就越小，反之亦然。

所述交叉熵损失函数为：

为了进一步提升注意力学习的效果，本发明提出了一种新颖的注意力监督约束，该约束强制带有注意力模块的网络的性能高于不带注意力模块的网络的性能，定义如下：

L_ASC＝ASC(x)＝exp(p′(x)-p(x))，

其中，p′(x)和p(x)分别表示不使用注意力模块和使用注意力模块时网络关于输入图像x的真实标签的预测概率。由于exp(·)的梯度是单调递增函数，因此，注意力模块的性能越低，该约束对网络的优化力度越大；反之，该约束对网络的优化力度越小。

所述样本间上下文指导网络ICGNet总的损失计算公式如下：

L_total＝L_triplet+L_id+L_ASC。

为了验证本发明所提出的样本间上下文指导的自注意力机制和样本间上下文指导网络的有效性，本发明在两个公开数据集Veri776和VehicleID上使用mAP、Rank-1和Rank-5精度等评估指标进行了大量的实验，实验结果如表1和表2所示，表明了本发明所提出的方法的达到了先进的水平。表1展示了本发明的方法在Veri776数据集上与现有方法的性能对比结果，可以看出，本发明的方法在mAP和Rank-1精度上分别达到了82.7％和96.3％，超过现有方法。表2通过在VehicleID数据集上使用Rank-1和Rank-5精度作为评估指标进行实验，进一步验证了ICGNet对于车辆重识别任务的高效性。具体来说，本发明的方法在大型集上Rank-1和Rank-5精度分别达到了73.2％、90.4％；在中型集上Rank-1和Rank-5精度分别达到了78.5％、93.3％；在小型集上Rank-1和Rank-5精度分别达到了81.6％、96.0％。

表1本发明的方法与现有的方法在Veri776上结果对比

方法	mAP(％)	Rank-1(％)
			GMSI	0.756	0.941
VARID	0.793	0.960
			SN++	0.757	0.951
MAM	0.785	0.943
			PVEN	0.795	0.956
PRN	0.743	0.943
			MUSP	0.780	0.956
LCDNet	0.760	0.941
			SPAN	0.689	0.940
TCPM	0.746	0.940
			RAM	0.615	0.886
AAVER	0.612	0.890
			VSCR	0.755	0.941
本发明	0.827	0.963

表2本发明的方法与现有的方法在VehicleID上结果对比(％)

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于样本间上下文指导网络的车辆重识别方法，其特征在于，包括：

步骤1、将车辆图像作为输入，将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络的骨干网络，在res_conv4_1块之后，ResNet50的后续部分被划分为三个独立的分支：Part-1、Global_Spatial、Global_Channel，来提取多样化的特征；

步骤2、在Global_Spatial、Global_Channel分支的res_conv5层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块，从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息，从而实现车辆重识别；

所述样本间上下文指导的空间注意力模块，结构为：

表示所有位置间的成对亲和性的矩阵Aⁱ∈R^hw×hw通过将矩阵Qⁱ和Kⁱ的转置相乘，并对结果执行softmax操作来得到：

其中，表示矩阵乘法，Aⁱ的每一行中的元素之和为1；然后，用位置间的亲和性加权求和所有位置的特征来精细化位置的特征表示，位置m处的精细化过程表示为：

其中，m＝1，2，...，hw；窗口中所有位置的细化定义为：

引入一个大小为C×M的空间方面的样本间上下文存储器Y，一个样本与存储器Y的交互的公式如下：

Tⁱ＝L1_Norm(Avg(Bⁱ))，

其中，Avg表示沿通道方向的平均池化；矩阵Tⁱ中的值反应了相应位置对辨别样本的身份的重要性；

将T广播为与输入特征图X相同的形状后，再与X逐元素相乘和相加，得到样本间上下文指导的空间注意力模块的输出特征图S∈R^H×W×C，该过程表示为：

其中，⊙表示矩阵点乘，表示矩阵加法；

所述样本间上下文指导的通道注意力模块，结构为：

沿通道方向将输入特征图X∈R^H×W×C均匀地划分为多个子特征图X^g∈R^H×W×(C/G)，g＝1，2，…，G，其中，H、W、C分别表示特征图的高度、宽度和通道数，G表示分组数；每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的；将X^g重塑为二维张量后送入到三个线性投影层中，再经过转置操作得到三个形状相同的矩阵：通道查询矩阵Q^g∈R^(C/G)×N、通道键矩阵K^g∈R^(C/G)×N和通道值矩阵V^g∈R^(C/G)×N，其中N＝H×W；第g个组中通道m和n之间的亲和性的计算过程被表示为：

其中，矩阵Q^g中的第m行矩阵K^g中的第n行/>分别表示第g个组中通道m和n的查询向量、键向量；/>度量了通道m和n在图像的所有区域上提取的特征间的相似性；通过把查询矩阵Q^g和键矩阵K^g的转置相乘并执行softmax操作，得到第g个组的表示所有通道间的成对亲和性的矩阵A^g∈R^(C/G)×(C/G)：

其中，A^g的每一行中的元素之和为1；通道m的精细化过程表示为：

其中，m＝1，2，...，C/G，是矩阵V^g中的第j行，表示第g个通道组中通道j的值向量；第g个组中所有通道的细化定义为：

引入一个形状为K×M的通道方面的样本间上下文存储器I；将一个样本内每一个通道的邻域信息投影到存储器I上来实现这个样本与I的交互；首先，将矩阵D^g沿着第0个轴压缩得到向量d^g∈R^C/G，然后通过一个unflod操作提取d^g中每一个元素的K个邻居的信息，形成矩阵U^g∈R^(C/G)×K：

U^g＝unflod(d^g)＝unflod(Avg(D^g))，

T^g＝L1_Norm(Avg(B^g))，

其中，Avg表示沿列方向的平均池化，T^g中的值表示了每个通道对辨别样本身份的重要性；

T＝softmax(connect(T¹，T²，...，T^G))；

最后，将T的形状广播为H×W×(C/G)与子特征图X^g逐元素相乘后，再与输入特征图X逐元素相加，得到样本间上下文指导的通道注意力模块的输出特征图S∈R^H×W×C，该过程表示为：

2.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法，其特征在于，所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分，每个分支均采用全局平均池化操作和降维操作来学习紧凑的特征表示。

3.根据权利要求2所述的基于样本间上下文指导网络的车辆重识别方法，其特征在于，所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量；降维操作将2048维的特征向量降维到256维；网络训练阶段，在每个256维特征向量上应用一个三元组损失，并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失；在网络的测试阶段，三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。

4.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法，其特征在于，采用两种损失函数，分别是交叉熵损失函数和三元组损失函数，还采用了注意力监督约束来进一步提高车辆重识别的准确率。

5.根据权利要求4所述的基于样本间上下文指导网络的车辆重识别方法，其特征在于，从训练数据集中随机选取P个身份和K个实例组成一个批量，三元组损失函数的公式如下：

其中，表示从锚点提取的特征，/>表示从正样本中提取的特征，/>表示从负样本中提取的特征，α是margin参数，[·]₊代表的是max(·，0)。

6.根据权利要求4所述的基于样本间上下文指导网络的车辆重识别方法，其特征在于，所述交叉熵损失函数为：

7.根据权利要求4所述的基于样本间上下文指导网络的车辆重识别方法，其特征在于，所述注意力监督约束定义如下：

L_ASC＝ASC(x)＝exp(p′(x)-p(x))，

8.根据权利要求4-7任一项所述的基于样本间上下文指导网络的车辆重识别方法，其特征在于，所述样本间上下文指导网络总的损失计算公式如下：

L_total＝L_triplet+L_id+L_ASC，