CN116665019A - 一种用于车辆重识别的多轴交互多维度注意力网络 - Google Patents
一种用于车辆重识别的多轴交互多维度注意力网络 Download PDFInfo
- Publication number
- CN116665019A CN116665019A CN202310942626.3A CN202310942626A CN116665019A CN 116665019 A CN116665019 A CN 116665019A CN 202310942626 A CN202310942626 A CN 202310942626A CN 116665019 A CN116665019 A CN 116665019A
- Authority
- CN
- China
- Prior art keywords
- channel
- attention
- window
- vehicle
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 67
- 230000002452 interceptive effect Effects 0.000 claims abstract description 21
- 230000002776 aggregation Effects 0.000 claims abstract description 7
- 238000004220 aggregation Methods 0.000 claims abstract description 7
- 238000012512 characterization method Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 101100379080 Emericella variicolor andB gene Proteins 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 6
- 230000000295 complement effect Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及车辆重识别技术领域,具体地涉及一种用于车辆重识别的多轴交互多维度注意力网络,所述网络使信息在多轴上交互,从多个维度校准特征的权重分布,以学习车辆部位(区域)中的细微的鉴别性信息。多轴交互多维度注意力网络中的窗口‑通道注意力模块通过先跨位置交互后跨通道交互促进了通道注意力的学习,而通道组‑空间注意力模块通过先跨通道交互后跨位置交互促进了空间注意力的学习。这两个模块分别通过窗口划分以先验的方式和通过通道语义聚集以自适应的方式提取部位中的鉴别性语义特征,这两种方式互相补充,提升了网络的特征表征能力。
Description
技术领域
本发明涉及车辆重识别技术领域,具体地涉及一种用于车辆重识别的多轴交互多维度注意力网络。
背景技术
车辆重识别是从多个摄像头拍摄的不同视角的车辆图像中识别出相同身份的车辆。它是智能化城市中智能监控系统的关键技术,对智能交通系统至关重要。然而,多种外部或内部的因素,给网络模型精确识别目标车辆造成了极大的挑战。具体而言,车辆的外观因视角、照明、遮挡、分辨率等因素可能呈现巨大的变化,这意味着同一身份的车辆图像的差异可能较大。此外,来自同一制造商的车辆的车型、颜色差异较小,也会造成车辆重识别的难度。捕获局部区域的细微线索(如车内饰品、年检标志等)对于解决这些挑战至关重要。
注意力机制可以通过权重的自适应调整来提取图像中目标的鉴别性信息。注意力机制主要在两个维度上对图像进行关注:空间维度和通道维度。在空间维度上,注意力机制可以学习哪些位置是重要的,而在通道维度上,则可以学习哪些特征是重要的。通常来说,语义不同的部位一般分布在空间维度上的不同区域,需要用通道维度上的不同语义特征来表征。因此,为了捕获细微的鉴别性语义特征,注意力机制需要从不同的维度同时选择性强调“什么”和“哪里”。具体来说,一方面,语义不同的空间区域应有不同的通道注意力。因为图像中的不同区域一般对应着语义不同的部位,所以对于不同的区域,注意力机制需要在通道维度上强调不同的特征,以充分表示各个部位。另一方面,语义信息不同的通道组应有不同的空间注意力。一个通道可以被视为一个语义特征提取器,所以将语义相关的通道聚集在一起可以表征一个部位。由于不同的部件分散在空间的不同的位置上,因此对于表征不同部位的通道组,注意力机制需要在空间上强调不同的位置。为此,本发明设计一种用于车辆重识别的多轴交互多维度注意力网络,能够有效捕获细微的鉴别性语义特征,以提升网络的特征表征能力。
发明内容
本发明的目的在于克服现有技术存在的缺点,提出设计一种用于车辆重识别的多轴交互多维度注意力网络,能够利用信息的多轴交互来促进注意力机制更有效地学习以及捕获局部区域中重要的细节信息,提升了网络的特征表征能力。
本发明解决其技术问题所采取的技术方案是:
一种用于车辆重识别的多轴交互多维度注意力网络,将ResNet-50网络的res_conv4_2块之前的残差层作为多轴交互多维度注意力网络的骨干,并将res_conv4_2及其后面的块划分为三个独立的分支:B G ,B W ,B C ;B G 分支用于提取车辆图像的全局特征;在B W 分支的res_conv5层之后添加窗口-通道注意力模块,为不同的窗口提供不同的通道注意,以先验的方式学习部位级特征;在B C 分支的res_conv5层之后添加通道组-空间注意力模块,通过语义相关通道的聚集和部件空间位置的重校准来自适应地发现部位并学习部位特征;
所述窗口-通道注意力模块通过跨位置交互和跨通道交互来建模每个窗口的通道注意力,并通过跨窗口交互来增大不同区域间通道注意力的差异;所述窗口-通道注意力模块的结构为:
输入特征图,在H、W方向被均匀地分割为多个非重叠的窗口;其中H、W、C分别是特征图X的高度、宽度和通道数目,h、w分别是单个窗口的高度和宽度,/>是窗口数目;在每个窗口内,通过计算自注意力让信息在空间轴上进行跨位置地交互并捕获窗口空间上下文;
所述通道组-空间注意力模块将特征图的通道聚集为多个组,并为每个通道组配置空间注意力,来分别强调相应部位在空间维度上所处的位置;所述通道组-空间注意力模块的结构为:
为了自动聚集语义相关的通道,对输入特征图实施1×1卷积操作,沿通道方向将其划分为G组,得到/>,其中G表示分组数,/>是每组的通道数。在每个通道组内,通过计算自注意力使信息在通道轴上进行跨通道地交互并捕获通道上下文。
上述技术方案结合了B G 分支提取的车辆的全局信息和B C 、B W 分支提取的部位级的细微的信息来为车辆重识别提供丰富的鉴别性信息,提升了网络的特征表征能力。
进一步的,对于窗口-通道注意力模块,由于自注意力需要1维序列作为输入,首先将的空间维度扁平化为一维得到一个张量/>;每个窗口的自注意力操作可以表示如下:
,
其中,编码了第i个窗口的空间上下文,Q i 、K i 、V i ∈R N×C分别是对N w 个N×C的张量实施线性映射得到的查询矩阵、键矩阵和值矩阵,/>是缩放因子;
然后,将F i 变形为张量,并通过全局平均池化操作来得到通道方面的空间上下文/>;
通过局部跨通道交互学习窗口的通道注意力,所述窗口的第m个通道的权重是通过仅考虑S m 与它的相邻的k个邻居之间的交互计算的,具体的表达形式如下:
,
其中,表示S m 的k个相邻元素的集合,并且所有通道的权重使用相同的参数来学习。卷积核大小为k的1D卷积可以有效地实现通道注意力学习的局部跨通道交互操作。这里,k确定局部跨信道交互的覆盖范围。多个窗口的局部跨通道交互操作可以采用一维可分离卷积来同时实现,
,
其中,SC1D k 指的是参数共享的1D可分离卷积。窗口内空间轴上的跨位置交互可以捕获部件在空间上的语义信息来抑制无关位置,而通道轴上的跨通道交互能够强调部件的重要特征,所以信息的多轴交互有利于注意力的学习。
进一步的,为了进一步增强对部件的重要细微信息的关注,本发明在各个窗口的通道注意力之间引入跨窗口连接,来得到每个窗口最终的通道注意力图,公式如下:
,
其中,Softmax沿着窗口方向计算。然后,本发明将每个通道注意力图与其所对应的窗口特征图相乘:
X i "=A i X i ,
其中,表示逐元素乘法。最后,将这/>个子特征图沿窗口方向合并后,再与原始特征图X相加,得到最终的输出特征图/>,
。
进一步的,与窗口-通道注意力模块类似,对于通道组-空间注意力模块,将的空间维度扁平化为一维,记为/>,M=H×W;每个通道组的自注意力计算可以表示如下:
,
其中,编码了第j个通道组的通道上下文,Q j 、K j 、/>分别是对/>实施线性映射并变形得到的查询矩阵、键矩阵和值矩阵,/>是缩放因子。该过程对一个通道组使用通过跨通道的成对相似性捕获的上下文,来细化通道的表示,实现了语义特征的自动聚集并突出了该通道组所表征的部件的主体语义。然后,将/>变形得到。
本发明利用池化算子来压缩每组的通道上下文信息。具体来说,对于第j个通道组,本发明在通道轴上分别使用平均池化和最大池化操作,得到两个空间方面的通道上下文:和/>。接着,将这两个空间方面的通道上下文连接为F j "∈R H×W×2,并对其实施局部的跨位置交互。G个组的跨位置交互可以通过一个分组卷积来同时实现:
,
其中,G个组的通道上下文被依次拼接成一个形状为H×W×2G的张量,然后对该张量实施卷积核大小为k×k的分组卷积操作。通过设置/>的分组数为G,得到G个大小为H×W×1的张量/>。M j 是由通道上下文F j "在空间轴上局部地跨位置地交互得到的第j个通道组的空间注意力张量。局部跨位置交互范围为k×k。每个通道组内的跨通道交互聚集了某个部件的语义特征,而空间轴上的跨位置交互强调了该部件在空间上的重要位置。信息的多轴交互实现了同时关注“什么”和“哪里”。
进一步的,为了让不同通道组关注不同语义的部件,本发明在各个组的空间注意力之间引入跨组连接,来得到每个组最终的空间注意力图,
,
其中,Softmax沿着组方向计算,减少通道组所关注区域之间的重叠。然后,将每个空间注意力图与其所对应的通道组相乘,
X j "=A j X j ,
其中,表示逐元素乘法。最后,将这G个通道组拼接起来,再与原始特征图相加,得到最终的通道组-空间注意力模块输出特征图/>,
。
进一步的,所述B G 分支在res_conv5_1块中采用stride=2的下采样,并对最终输出的特征图执行全局平均池化操作,然后使用带有批归一化和ReLu的1×1卷积将平均池化得到的特征G1的维度由2048维降至256维,从而得到降维后的特征R1,以提供紧凑的特征表示;所述B W 分支和B C 分支中的res_conv5_1块均不采用下采样操作,这为它们的注意力模块提供更大的感受野,以便学习细微的重要信息;对所述窗口-通道注意力模块和通道组-空间注意力模块的输出特征图进行全局平均池化和降维操作,以生成这两个分支的特征表征。
进一步的,本发明采用了交叉熵损失函数和三元组损失函数,以达到最优的学习效果。
进一步的,所述交叉熵损失函数为:
,
其中,N表示数据集中车辆身份的数量,y是输入到网络的图像的真实身份标签,p j 是输入图像属于第j辆车的预测概率。
进一步的,所述三元组损失函数为:
,
其中,a为特定身份的锚点,、/>、/>分别是从锚点、正样本和负样本提取的特征,这里的正样本和负样本分别是指作为锚点的身份相同和身份不同的车辆;m是边缘超参数,用于控制距离内和距离间的差异;P和K是随机抽取的P个身份和K个实例来满足三元组损失的要求。
进一步的,总损失函数为:
,
其中,α和β为比例系数,M∈(1,2,3,4)为使用损失函数数目。
本发明的技术效果:
与现有技术相比,本发明的一种用于车辆重识别的多轴交互多维度注意力网络,利用信息的多轴交互来促进注意力学习的有效性。具体的,所述网络使信息在多轴上交互,从多个维度校准特征的权重分布,以学习车辆部位(区域)中的细微的鉴别性信息。多轴交互多维度注意力网络中的窗口-通道注意力模块通过先跨位置交互后跨通道交互促进了通道注意力的学习,而通道组-空间注意力模块通过先跨通道交互后跨位置交互促进了空间注意力的学习。这两个模块分别通过窗口划分以先验的方式和通过通道语义聚集以自适应的方式提取部位中的鉴别性语义特征。这两种方式互相补充,来提升网络的特征表征能力。
附图说明
图1为本发明用于车辆重识别的多轴交互多维度注意力网络构架图;
图2为本发明窗口-通道注意力模块构架图;
图3为本发明通道组-空间注意力模块构架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合说明书附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例1:
如图1所示,本实施例涉及的一种用于车辆重识别的多轴交互多维度注意力网络,将ResNet-50网络的res_conv4_2块之前的残差层作为多轴交互多维度注意力网络的骨干,并将res_conv4_2及其后面的块划分为三个独立的分支:B G ,B W ,B C ;B G 分支用于提取车辆图像的全局特征;在B W 分支的res_conv5层之后添加窗口-通道注意力模块,所述窗口-通道注意力模块为不同的窗口提供不同的通道注意,以先验的方式学习部位级特征;在B C 分支的res_conv5层之后添加通道组-空间注意力模块,所述通道组-空间注意力模块通过语义相关通道的聚集和部件空间位置的重校准来自适应地发现部位并学习部位特征。
所述B G 分支在res_conv5_1块中采用stride=2的下采样,并对最终输出的特征图执行全局平均池化操作,然后使用带有批归一化和ReLu的1×1卷积将平均池化得到的特征G1的维度由2048维降至256维,从而得到降维后的特征R1,以提供紧凑的特征表示;所述B W 分支和B C 分支中的res_conv5_1块均不采用下采样操作,这为它们的注意力模块提供更大的感受野,以便学习细微的重要信息。对所述窗口-通道注意力模块和通道组-空间注意力模块的输出特征图进行全局平均池化和降维操作,以生成这两个分支的特征表征。
1.1 窗口-通道注意力模块
一张图像中,不同的区域有不同的语义信息,这使得不同区域所需要强调的通道特征有差异,它们在同一通道上的激活也有差异。为了提取局部的细微的特征,本发明提出了窗口-通道注意力模块,如图2所示,所述窗口-通道注意力模块通过跨位置交互和跨通道交互来建模每个窗口的通道注意力,并通过跨窗口交互来增大不同区域间通道注意力的差异。所述窗口-通道注意力模块的结构为:
输入特征图,在H、W方向被均匀地分割为多个非重叠的窗口;其中H、W、C分别是特征图X的高度、宽度和通道数目,h、w分别是单个窗口的高度和宽度,/>是窗口数目;在每个窗口内,通过计算自注意力让信息在空间轴上进行跨位置地交互并捕获窗口空间上下文。由于自注意力需要1维序列作为输入,所以首先将/>的空间维度扁平化为一维得到一个张量/>;每个窗口的自注意力操作可以表示如下:
,
其中,编码了第i个窗口的空间上下文,Q i 、K i 、V i ∈R N×C分别是对N w 个N×C的张量实施线性映射得到的查询矩阵、键矩阵和值矩阵,/>是缩放因子。由于该过程使用跨位置的成对依赖关系聚合语义相关的空间像素,所以它可以过滤图像中的背景噪声并捕获部件级语义的空间上下文。然后,将F i 变形为张量/>,并通过全局平均池化操作来得到通道方面的空间上下文/>。
与全局的跨通道交互相比,局部的跨通道交互既能降低注意力建模的复杂度又能提高注意力学习的效果。因此在得到某一个窗口的通道方面的空间上下文S(为了便于理解,此处省略下标)后,本发明通过局部跨通道交互学习窗口的通道注意力。这个窗口的第m个通道的权重是通过仅考虑S m 与它的相邻的k个邻居之间的交互计算的,具体的表达形式如下:
,
其中,表示S m 的k个相邻元素的集合,并且所有通道的权重使用相同的参数来学习。卷积核大小为k(k=3)的1D卷积可以有效地实现通道注意力学习的局部跨通道交互操作。这里,k确定局部跨信道交互的覆盖范围。多个窗口的局部跨通道交互操作可以采用一维可分离卷积来同时实现。
,
其中,SC1D k 指的是参数共享的1D可分离卷积。之所以所有窗口采用相同的参数来学习通道注意力,是为了使模型对图像具有翻转、平移的不变性。窗口内空间轴上的跨位置交互可以捕获部件在空间上的语义信息来抑制无关位置,而通道轴上的跨通道交互能够强调部件的重要特征,所以信息的多轴交互有利于注意力的学习。
由于一个通道可以被视为一个语义特征提取器,并且不同区域的语义信息一般不同,所以不同区域对同一通道是否激活也有差异。为了进一步增强对部件的重要细微信息的关注,本发明在各个窗口的通道注意力之间引入跨窗口连接,来得到每个窗口最终的通道注意力图,公式如下:
,
其中,Softmax沿着窗口方向计算。然后,本发明将每个通道注意力图与其所对应的窗口特征图相乘:
X i "=A i X i ,
其中,表示逐元素乘法。最后,将这N w 个子特征图沿窗口方向合并后,再与原始特征图X相加,得到最终的输出特征图/>,
。
1.2 通道组-空间注意力模块
一组语义相关的特征可以表征一个部位,而语义不同的部位一般分散在空间维度的不同位置上,因此表征不同部位的通道组之间应具有不同的空间注意力。为了自适应地提取部位特征,本发明提出通道组-空间注意力模块,如图3所示,所述通道组-空间注意力模块将特征图的通道聚集为多个组,并为每个通道组配置独特的空间注意力,来分别强调相应部位在空间维度上所处的位置。
所述通道组-空间注意力模块的结构为:
为了自动聚集语义相关的通道,对输入特征图实施1×1卷积操作之后,再沿通道方向将其划分为G组,得到/>,其中G表示分组数,/>是每组的通道数。在每个通道组内,通过计算自注意力让信息在通道轴上进行跨通道地交互并捕获通道上下文。与窗口-通道注意力模块类似,本发明将/>的空间维度扁平化为一维,记为/>,M=H×W。每个通道组的自注意力计算可以表示如下:
,
其中,编码了第j个通道组的通道上下文,Q j 、K j 、/>分别是对/>实施线性映射并变形得到的查询矩阵、键矩阵和值矩阵,/>是缩放因子。该过程对一个通道组使用通过跨通道的成对相似性捕获的上下文,来细化通道的表示,实现了语义特征的自动聚集并突出了该通道组所表征的部件的主体语义。然后,将/>变形得到。
本发明利用池化算子来压缩每组的通道上下文信息。具体来说,对于第j个通道组,本发明在通道轴上分别使用平均池化和最大池化操作,得到两个空间方面的通道上下文:和/>。接着,将这两个空间方面的通道上下文连接为F j "∈R H×W×2,并对其实施局部的跨位置交互。G个组的跨位置交互可以通过一个分组卷积来同时实现:
,
其中,G个组的通道上下文被依次拼接成一个形状为H×W×2G的张量,然后对该张量实施卷积核大小为k×k的分组卷积操作。通过设置/>的分组数为G,得到G个大小为H×W×1的张量/>。M j 是由通道上下文F j "在空间轴上局部地跨位置地交互得到的第j个通道组的空间注意力张量。局部跨位置交互范围为k×k,在实验中被设置为5×5。每个通道组内的跨通道交互聚集了某个部件的语义特征,而空间轴上的跨位置交互强调了该部件在空间上的重要位置。信息的多轴交互实现了同时关注“什么”和“哪里”。
为了让不同通道组关注不同语义的部件,本发明在各个组的空间注意力之间引入跨组连接,来得到每个组最终的空间注意力图。
,
其中,Softmax沿着组方向计算,减少通道组所关注区域之间的重叠。然后,将每个空间注意力图与其所对应的通道组相乘,
X j "=A j X j ,
其中,表示逐元素乘法。最后,将这G个通道组拼接起来,再与原始特征图相加,得到最终的通道组-空间注意力模块输出特征图/>,
。
本发明所述网络结合了B G 分支提取的车辆的全局信息和B C 、B W 分支提取的部位级的细微的信息来为车辆重识别提供丰富的鉴别性信息。
1.3 损失函数
损失函数反映了预测值与真实值之间的差异,是衡量网络模型性能的重要指标。选择适当的损失函数有助于模型学习更好的特征表示。为了让模型能够更好地学习到关键特征,本发明采用了交叉熵损失函数和三元组损失函数,以达到最优的学习效果。
交叉熵损失函数用于神经网络中的分类任务,比如图像分类或文本分类,该损失函数可以评估模型的预测值与真实标签之间的差异,并通过反向传播算法来优化模型参数。交叉熵损失函数的目标是最小化模型预测值和真实标签之间的交叉熵,这个值越小,模型预测的准确性就越高。所述交叉熵损失函数为:
,
其中,N表示数据集中车辆身份的数量,y是输入到网络的图像的真实身份标签,p j 是输入图像属于第j辆车的预测概率。
对于每个样本,选择两个同类样本和一个不同类样本,计算它们在特征空间中的距离。然后,使用一个较小的距离来度量同类样本之间的相似度,而使用一个较大的距离来度量不同类样本之间的差异性。具体而言,对于每个样本i,可以做如下计算,即所述三元组损失函数为:
,
其中,a为特定身份的锚点,、/>、/>分别是从锚点、正样本和负样本提取的特征,这里的正样本和负样本分别是指作为锚点的身份相同和身份不同的车辆;m是边缘超参数,用于控制距离内和距离间的差异;P和K是每个小批量随机抽取的P个身份和K个实例来满足三元组损失的要求。
本发明采用三元组损失和交叉熵损失作为损失函数,网络中每个支路都有这两个损失,总损失函数为:
,
其中,α和β为比例系数,M∈(1,2,3,4)为使用损失函数数目。
本发明提出了多轴交互多维度注意力网络,该网络中的窗口-通道注意力模块和通道组-空间注意力模块通过信息的多轴交互来校准特征在多个维度上的权重分布。在窗口-通道注意力模块中,特征图在空间维度上被划分成多个窗口。对于任意一个窗口,通过自注意力在空间轴上实施跨位置的交互捕获空间上下文,在对捕获的空间上下文进行压缩后,让其进行局部跨通道交互,来生成通道注意力。最后,进行跨窗口交互,以增大各窗口通道注意力之间的差异。用跨位置的成对依赖关系捕获空间上下文的过程抑制了与部件语义无关的位置,为后续用跨通道交互细化部件的特征表示提供了有利条件。在通道组-空间注意力模块中,特征图的通道被聚集为多个组。对于任意一个组,通过自注意力实施跨通道交互来捕获通道上下文。然后,在空间轴上执行被压缩通道上下文的局部跨位置交互,来生成它的空间注意力。最后,本发明采用跨组交互来确保不同的组聚集不同的语义信息,用跨通道的成对相似性捕获一个通道组的通道上下文的过程,不仅实现了某个部件的语义特征的自动聚集,并抑制了无关通道特征的干扰,这有利于该部件的空间注意力的学习。这两个模块在网络中是互补的,窗口-通道注意力模块以先验的方式来提取部件中的鉴别性特征,而通道组-空间注意力模块对语义自动分组并以自适应的方式来提取部位级鉴别性的语义特征,它们互相补充来提升网络的特征表征能力。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应落入本发明的专利保护范围。
Claims (10)
1.一种用于车辆重识别的多轴交互多维度注意力网络,其特征在于:将ResNet-50网络的res_conv4_2块之前的残差层作为多轴交互多维度注意力网络的骨干,并将res_conv4_2及其后面的块划分为三个独立的分支:B G ,B W ,B C ;B G 分支用于提取车辆图像的全局特征;在B W 分支的res_conv5层之后添加窗口-通道注意力模块,为不同的窗口提供不同的通道注意,以先验的方式学习部位级特征;在B C 分支的res_conv5层之后添加通道组-空间注意力模块,通过语义相关通道的聚集和部件空间位置的重校准来自适应地发现部位并学习部位特征;
所述窗口-通道注意力模块通过跨位置交互和跨通道交互来建模每个窗口的通道注意力,并通过跨窗口交互来增大不同区域间通道注意力的差异;所述窗口-通道注意力模块的结构为:
输入特征图,在H、W方向被均匀地分割为多个非重叠的窗口;其中H、W、C分别是特征图X的高度、宽度和通道数目,h、w分别是单个窗口的高度和宽度,/>是窗口数目;在每个窗口内,通过计算自注意力让信息在空间轴上进行跨位置地交互并捕获窗口空间上下文;
所述通道组-空间注意力模块将特征图的通道聚集为多个组,并为每个通道组配置空间注意力,来分别强调相应部位在空间维度上所处的位置;所述通道组-空间注意力模块的结构为:
对输入特征图实施1×1卷积操作,沿通道方向将其划分为G组,得到,其中G表示分组数,/>是每组的通道数;在每个通道组内,通过计算自注意力使信息在通道轴上进行跨通道地交互并捕获通道上下文。
2.根据权利要求1所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:对于窗口-通道注意力模块,由于自注意力需要1维序列作为输入,首先将的空间维度扁平化为一维得到一个张量/>;每个窗口的自注意力操作表示如下:
,
其中,编码了第i个窗口的空间上下文,Q i 、K i 、V i ∈R N×C分别是对N w 个N×C的张量实施线性映射得到的查询矩阵、键矩阵和值矩阵,/>是缩放因子;
然后,将F i 变形为张量,并通过全局平均池化操作来得到通道方面的空间上下文/>;
通过局部跨通道交互学习窗口的通道注意力,所述窗口的第m个通道的权重是通过仅考虑S m 与它的相邻的k个邻居之间的交互计算的,具体的表达形式如下:
,
其中,表示S m 的k个相邻元素的集合;多个窗口的局部跨通道交互操作采用一维可分离卷积来同时实现,
,
其中,SC1D k 指的是参数共享的1D可分离卷积。
3.根据权利要求2所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:在各个窗口的通道注意力之间引入跨窗口连接,来得到每个窗口最终的通道注意力图,公式如下:
,
其中,Softmax沿着窗口方向计算;然后,将每个通道注意力图与其所对应的窗口特征图相乘:
X i "=A i X i ,
其中,表示逐元素乘法;最后,将N w 个子特征图沿窗口方向合并后,再与原始特征图X相加,得到最终的输出特征图/>,
。
4.根据权利要求1所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:对于通道组-空间注意力模块,将的空间维度扁平化为一维,记为,M=H×W;每个通道组的自注意力计算表示如下:
,
其中,编码了第j个通道组的通道上下文,Q j 、K j 、/>分别是对/>实施线性映射并变形得到的查询矩阵、键矩阵和值矩阵,/>是缩放因子;然后,将变形得到/>;
对于第j个通道组,在通道轴上分别使用平均池化和最大池化操作,得到两个空间方面的通道上下文:和/>;将这两个空间方面的通道上下文连接为F j "∈R H×W×2,并对其实施局部的跨位置交互;G个组的跨位置交互通过一个分组卷积来同时实现:
,
其中,G个组的通道上下文被依次拼接成一个形状为H×W×2G的张量;然后对所述张量实施卷积核大小为k×k的分组卷积操作,得到G个大小为H×W×1的张量;M j 是由通道上下文F j "在空间轴上局部地跨位置地交互得到的第j个通道组的空间注意力张量,局部跨位置交互范围为k×k。
5.根据权利要求4所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:在各个组的空间注意力之间引入跨组连接,来得到每个组最终的空间注意力图,
,
将每个空间注意力图与其所对应的通道组相乘,
X j "=A j X j ,
其中,表示逐元素乘法;将G个通道组拼接起来,再与原始特征图/>相加,得到最终的通道组-空间注意力模块输出特征图/>,
。
6.根据权利要求1所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:所述B G 分支在res_conv5_1块中采用stride=2的下采样,并对最终输出的特征图执行全局平均池化操作,然后使用带有批归一化和ReLu的1×1卷积将平均池化得到的特征G1的维度由2048维降至256维;所述B W 分支和B C 分支中的res_conv5_1块均不采用下采样操作,对所述窗口-通道注意力模块和通道组-空间注意力模块的输出特征图进行全局平均池化和降维操作,以生成这两个分支的特征表征。
7.根据权利要求1-6任一项所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:采用交叉熵损失函数和三元组损失函数。
8.根据权利要求7所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:所述交叉熵损失函数为:
,
其中,N表示数据集中车辆身份的数量,y是输入到网络的图像的真实身份标签,p j 是输入图像属于第j辆车的预测概率。
9.根据权利要求8所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:所述三元组损失函数为:
,
其中,a为特定身份的锚点,、/>、/>分别是从锚点、正样本和负样本提取的特征;m是边缘超参数;P和K是随机抽取的P个身份和K个实例。
10.根据权利要求9所述的用于车辆重识别的多轴交互多维度注意力网络,其特征在于:总损失函数为:
,
其中,α和β为比例系数,M∈(1,2,3,4)为使用损失函数数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310942626.3A CN116665019B (zh) | 2023-07-31 | 2023-07-31 | 一种用于车辆重识别的多轴交互多维度注意力网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310942626.3A CN116665019B (zh) | 2023-07-31 | 2023-07-31 | 一种用于车辆重识别的多轴交互多维度注意力网络 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665019A true CN116665019A (zh) | 2023-08-29 |
CN116665019B CN116665019B (zh) | 2023-09-29 |
Family
ID=87710063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310942626.3A Active CN116665019B (zh) | 2023-07-31 | 2023-07-31 | 一种用于车辆重识别的多轴交互多维度注意力网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665019B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2411993A1 (en) * | 1997-04-24 | 1998-10-29 | Ntt Mobile Communications Network Inc. | Method and system for mobile communications |
US20170132526A1 (en) * | 2015-11-11 | 2017-05-11 | Adobe Systems Incorporated | Structured Knowledge Modeling and Extraction from Images |
CN110298226A (zh) * | 2019-04-03 | 2019-10-01 | 复旦大学 | 一种毫米波图像人体携带物的级联检测方法 |
CN111627012A (zh) * | 2020-05-28 | 2020-09-04 | 华北电力大学(保定) | 一种基于特征融合的深度神经网络表面缺陷检测方法 |
US20210295093A1 (en) * | 2020-03-23 | 2021-09-23 | Toyota Research Institute, Inc. | Spatio-temporal graph for video captioning with knowledge distillation |
US20210390338A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Deep network lung texture recogniton method combined with multi-scale attention |
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
CN113947814A (zh) * | 2021-10-28 | 2022-01-18 | 山东大学 | 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法 |
CN114005096A (zh) * | 2021-11-09 | 2022-02-01 | 河北工业大学 | 基于特征增强的车辆重识别方法 |
CN114663861A (zh) * | 2022-05-17 | 2022-06-24 | 山东交通学院 | 一种基于维度解耦和非局部关系的车辆重识别方法 |
CN114821249A (zh) * | 2022-07-04 | 2022-07-29 | 山东交通学院 | 一种基于分组聚合注意力和局部关系的车辆重识别方法 |
US20220292394A1 (en) * | 2021-03-11 | 2022-09-15 | Tongji University | Multi-scale deep supervision based reverse attention model |
US20220358334A1 (en) * | 2021-05-10 | 2022-11-10 | Qingdao Technological University | Assembly body change detection method, device and medium based on attention mechanism |
WO2023272995A1 (zh) * | 2021-06-29 | 2023-01-05 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及可读存储介质 |
CN115830531A (zh) * | 2022-11-24 | 2023-03-21 | 沈阳化工大学 | 一种基于残差多通道注意力多特征融合的行人重识别方法 |
CN116051948A (zh) * | 2023-03-08 | 2023-05-02 | 中国海洋大学 | 基于注意力交互及反事实注意力的细粒度图像识别方法 |
WO2023098018A1 (zh) * | 2021-12-02 | 2023-06-08 | 之江实验室 | 一种基于多帧点云的运动目标检测系统和方法 |
CN116311105A (zh) * | 2023-05-15 | 2023-06-23 | 山东交通学院 | 一种基于样本间上下文指导网络的车辆重识别方法 |
-
2023
- 2023-07-31 CN CN202310942626.3A patent/CN116665019B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2411993A1 (en) * | 1997-04-24 | 1998-10-29 | Ntt Mobile Communications Network Inc. | Method and system for mobile communications |
US20170132526A1 (en) * | 2015-11-11 | 2017-05-11 | Adobe Systems Incorporated | Structured Knowledge Modeling and Extraction from Images |
CN110298226A (zh) * | 2019-04-03 | 2019-10-01 | 复旦大学 | 一种毫米波图像人体携带物的级联检测方法 |
US20210295093A1 (en) * | 2020-03-23 | 2021-09-23 | Toyota Research Institute, Inc. | Spatio-temporal graph for video captioning with knowledge distillation |
CN111627012A (zh) * | 2020-05-28 | 2020-09-04 | 华北电力大学(保定) | 一种基于特征融合的深度神经网络表面缺陷检测方法 |
US20210390338A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Deep network lung texture recogniton method combined with multi-scale attention |
US20220292394A1 (en) * | 2021-03-11 | 2022-09-15 | Tongji University | Multi-scale deep supervision based reverse attention model |
US20220358334A1 (en) * | 2021-05-10 | 2022-11-10 | Qingdao Technological University | Assembly body change detection method, device and medium based on attention mechanism |
WO2023272995A1 (zh) * | 2021-06-29 | 2023-01-05 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及可读存储介质 |
CN113947814A (zh) * | 2021-10-28 | 2022-01-18 | 山东大学 | 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法 |
CN114005096A (zh) * | 2021-11-09 | 2022-02-01 | 河北工业大学 | 基于特征增强的车辆重识别方法 |
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
WO2023098018A1 (zh) * | 2021-12-02 | 2023-06-08 | 之江实验室 | 一种基于多帧点云的运动目标检测系统和方法 |
CN114663861A (zh) * | 2022-05-17 | 2022-06-24 | 山东交通学院 | 一种基于维度解耦和非局部关系的车辆重识别方法 |
CN114821249A (zh) * | 2022-07-04 | 2022-07-29 | 山东交通学院 | 一种基于分组聚合注意力和局部关系的车辆重识别方法 |
CN115830531A (zh) * | 2022-11-24 | 2023-03-21 | 沈阳化工大学 | 一种基于残差多通道注意力多特征融合的行人重识别方法 |
CN116051948A (zh) * | 2023-03-08 | 2023-05-02 | 中国海洋大学 | 基于注意力交互及反事实注意力的细粒度图像识别方法 |
CN116311105A (zh) * | 2023-05-15 | 2023-06-23 | 山东交通学院 | 一种基于样本间上下文指导网络的车辆重识别方法 |
Non-Patent Citations (3)
Title |
---|
XIN TIAN: "Vehicle Re-Identification Based on Global Relational Attention and Multi-Granularity Feature Learning", 《 IEEE ACCESS》 * |
刘紫燕;万培佩;: "基于注意力机制的行人重识别特征提取方法", 计算机应用, no. 03 * |
朱宽堂: "基于全局特征和多种局部特征的行人重识别", 《微电子学与计算机》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116665019B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | Fire smoke detection algorithm based on motion characteristic and convolutional neural networks | |
Mou et al. | A relation-augmented fully convolutional network for semantic segmentation in aerial scenes | |
CN107273800B (zh) | 一种基于注意机制的卷积递归神经网络的动作识别方法 | |
WO2020216227A9 (zh) | 图像分类方法、数据处理方法和装置 | |
CN108182441B (zh) | 平行多通道卷积神经网络、构建方法及图像特征提取方法 | |
WO2021155792A1 (zh) | 一种处理装置、方法及存储介质 | |
CN104517103A (zh) | 一种基于深度神经网络的交通标志分类方法 | |
CN109902806A (zh) | 基于卷积神经网络的噪声图像目标边界框确定方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN108830254B (zh) | 一种基于数据均衡策略和密集注意网络的细粒度车型检测与识别方法 | |
CN112418032B (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
Cun et al. | Image splicing localization via semi-global network and fully connected conditional random fields | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
Wang et al. | Hand-drawn electronic component recognition using deep learning algorithm | |
CN111832592A (zh) | Rgbd显著性检测方法以及相关装置 | |
CN117649610B (zh) | 一种基于YOLOv5的害虫检测方法及系统 | |
Grigorev et al. | Depth estimation from single monocular images using deep hybrid network | |
CN109165698A (zh) | 一种面向智慧交通的图像分类识别方法及其存储介质 | |
CN116311105B (zh) | 一种基于样本间上下文指导网络的车辆重识别方法 | |
Khellal et al. | Pedestrian classification and detection in far infrared images | |
CN113536970A (zh) | 一种视频分类模型的训练方法及相关装置 | |
CN115131503A (zh) | 一种虹膜三维识别的健康监测方法及其系统 | |
Barodi et al. | An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
Wu et al. | Small target recognition method on weak features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |