CN116311105A - 一种基于样本间上下文指导网络的车辆重识别方法 - Google Patents
一种基于样本间上下文指导网络的车辆重识别方法 Download PDFInfo
- Publication number
- CN116311105A CN116311105A CN202310542157.6A CN202310542157A CN116311105A CN 116311105 A CN116311105 A CN 116311105A CN 202310542157 A CN202310542157 A CN 202310542157A CN 116311105 A CN116311105 A CN 116311105A
- Authority
- CN
- China
- Prior art keywords
- sample
- channel
- matrix
- inter
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000003993 interaction Effects 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 7
- 230000002776 aggregation Effects 0.000 abstract description 5
- 238000004220 aggregation Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000005065 mining Methods 0.000 abstract description 2
- 102100040160 Rabankyrin-5 Human genes 0.000 description 5
- 101710086049 Rabankyrin-5 Proteins 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Navigation (AREA)
Abstract
本发明涉及车辆识别技术领域,具体地涉及一种基于样本间上下文指导网络的车辆重识别方法,提出了一种样本间上下文指导的自注意力机制,该机制让一个样本与样本间上下文交互来强调具有鉴别性的元素并指导该样本内语义信息的聚集,该机制首先捕获样本内的自身上下文来聚集图像中车辆的语义信息并抑制背景的干扰,然后让样本与样本间上下文交互来强调鉴别性的语义信息;样本间上下文指导的自注意力机制将自身上下文的学习和交互限制在局部范围内并通过跨局部连接聚集全局上感兴趣的信息,这样不仅有助于挖掘细微的鉴别性信息还能够降低计算量,大大提高了区分相似车辆的能力及识别效率。
Description
技术领域
本发明涉及车辆识别技术领域,具体地涉及一种基于样本间上下文指导网络的车辆重识别方法。
背景技术
车辆重识别旨在从图像库中检索出由非重叠摄像头拍摄的同一车辆的图像。该技术在智能交通、无人驾驶汽车和城市安全监控等领域有着巨大的应用前景。随着深度神经网络的兴起,一些基于卷积神经网络(Convolutional Neural Network,CNN)的车辆重识别方法陆续被提出并显著地提升了该任务的性能。但属于同一厂家和车型的不同车辆在整体外观上看起来可能非常相似,这种类间差异较小的问题使得车辆重识别仍然是一个非常具有挑战性的任务。从车辆的局部区域中提取细微的鉴别性信息对于区分外观相似的车辆至关重要。
自注意力机制通过用跨元素的成对自亲和性捕获样本内自身的上下文,能够有效地抑制背景的干扰并突出目标主体的语义信息。自注意力的工作原理是根据元素间的成对自亲和性聚合单个样本中所有元素的特征,来细化每个元素的表示。它可以聚集语义相关的特征,从而让网络能够关注图像中目标主体的信息来较好地刻画和表征样本的特性,并抑制复杂的背景信息。但自注意力在学习单个样本内自身上下文信息时忽略了与其它样本之间的潜在的相关信息,这限制了它区分相似车辆的能力。
发明内容
本发明的目的在于克服现有技术存在的缺点,提出设计一种基于样本间上下文指导网络的车辆重识别方法,结合样本内的自身上下文信息和样本间潜在的相关信息来挖掘更多有用的鉴别性线索,提高了区分相似车辆的能力。
本发明解决其技术问题所采取的技术方案是:
如图1所示,一种基于样本间上下文指导网络的车辆重识别方法,包括:
步骤1、将车辆图像作为输入,将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络(ICGNet)的骨干网络,在res_conv4_1块之后,ResNet50的后续部分被划分为三个独立的分支:Part-1、Global_Spatial、Global_Channel,来提取多样化的特征,每个分支的res_conv5_1 块设置为不采用下采样操作,用于保留丰富的细节信息;
步骤2、在Global_Spatial、Global_Channel分支的res_conv5 层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块,从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息,从而实现车辆重识别。
进一步的,为了提取更多的局部区域内的细微线索,所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分,每个分支均采用全局平均池化操作和降维操作来学习紧凑的特征表示。
进一步的,所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量;降维操作进一步地将2048维的特征向量降维到256维;网络训练阶段,在每个256维特征向量上应用一个三元组损失,并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失;在网络的测试阶段,三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。
进一步的,所述样本间上下文指导的空间注意力模块,旨在利用样本内的自身空间上下文信息和样本之间的潜在的相关信息来增强空间注意力建模的有效性,其结构为:
设样本的特征图为空间模块的输入张量,其中、、分别表示张量的高度、宽度和通道数;为了细化局部特征的表示,将张量沿空间维度划分为多个规则的非重叠窗口,每个窗口的维度为,窗口的总数为,其中,,和分别代表窗口的高度和宽度;在每个窗口内独立实施自注意力计算来捕获局部空间上下文;对于第个窗口,首先通过三个参数不共享的1×1卷积层对进行线性变换并变形为位置查询矩阵,位置键矩阵,位置值矩阵,这三个矩阵中的第行、、分别是窗口中位置的查询向量、键向量和值向量;位置和之间的亲和性计算为:
通过操作实现的跨窗口交互,强调了全局上重要的位置;这些位置上的信息不仅包含主体语义中的鉴别性信息,还包含部件级的鉴别性信息。与在全局范围下学习样本自身上下文并借助存储器推断哪些位置是重要的这一方式相比,先局部后全局的方式不仅可以减少计算量,同时能够挖掘丰富的细微的鉴别性线索。最后,将广播为与输入特征图相同的形状后,再与逐元素相乘和相加,得到样本间上下文指导的空间注意力模块的输出特征图,该过程可以表示为:
进一步的,所述样本间上下文指导的通道注意力模块,旨在利用样本内的自身通道上下文信息和样本间上下文信息来增强通道注意力建模的有效性,其结构为:
沿通道方向将输入特征图均匀地划分为多个子特征图,,其中,、、分别表示特征图的高度、宽度和通道数,表示分组数;每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的;由于自注意力计算需要1维序列作为输入,将重塑为二维张量后送入到三个线性投影层中,再经过转置操作得到三个形状相同的矩阵:通道查询矩阵、通道键矩阵和通道值矩阵,其中;第个组中通道和之间的亲和性的计算过程可以被表示为:
其中,矩阵中的第行、矩阵中的第行,分别表示第个组中通道和的查询向量、键向量;度量了通道和在图像的所有区域上提取的特征间的相似性;通道和提取的特征在语义上越相关,那么它们的亲和性越大;反之,它们的亲和性越小;通过把查询矩阵和键矩阵的转置相乘并执行操作,得到第个组的表示所有通道间的成对亲和性的矩阵:
引入一个形状为的通道方面的样本间上下文存储器,它通过与所有样本进行交互捕获样本间的通道方面上下文来指导样本显式地推断哪些通道对辨别样本身份是重要的;将一个样本内每一个通道的邻域信息投影到存储器上来实现这个样本与的交互;首先,将矩阵沿着第0个轴压缩得到向量,然后通过一个操作提取中每一个元素的个邻居的信息,形成矩阵:
其中,表示沿列方向的平均池化,中的值表示了每个通道对辨别样本身份的重要性,中的参数是通过与所有样本的交互学习到的,可以让样本的通道表示的精细化侧重于与样本身份相关的重要的通道上。为了减少参数量,所有通道组共享同一个存储器。
通过操作实现的跨组交互,强调了全局上重要的通道;先局部后全局的方式能够挖掘丰富的细粒度的重要语义特征;最后,将的形状广播为与子特征图逐元素相乘后,再与输入特征图逐元素相加,得到样本间上下文指导的通道注意力模块的输出特征图,该过程可以表示为:
进一步的,本发明采用两种常用的损失函数,分别是交叉熵损失函数和三元组损失函数。除了使用这两种常用的损失函数外,还采用了注意力监督约束来使注意力的学习聚焦在关键区域,来进一步提高车辆重识别的准确度。
进一步的,所述交叉熵损失函数为:
进一步的,所述注意力监督约束定义如下:
进一步的,所述样本间上下文指导网络总的损失计算公式如下:
本发明的技术效果:
与现有技术相比,本发明的一种基于样本间上下文指导网络的车辆重识别方法,具有以下优点:
(1)为了有效地区分外观差异较小的车辆,本发明提出了一种样本间上下文指导的自注意力机制,该机制首先捕获样本内的自身上下文来聚集图像中车辆的语义信息并抑制背景的干扰,然后让样本与样本间上下文交互来强调鉴别性的语义信息;样本间上下文指导的自注意力机制将自身上下文的学习和交互限制在局部范围内并通过跨局部连接聚集全局上感兴趣的信息,这样不仅有助于挖掘细微的鉴别性信息还能够降低计算量,大大提高了区分相似车辆的能力及识别效率;
(2)本发明提出了一个样本间上下文指导的网络(ICGNet),该网络同时包含样本间上下文指导的空间注意力模块(ICG-S)和样本间上下文指导的通道注意力模块(ICG-C),从不同的维度学习鉴别性的主体语义信息和细粒度的语义信息;此外,还提出了一个注意力监督约束来进一步提升注意力学习的效果。
附图说明
图1为本发明车辆重识别方法的网络框架图;
图2为本发明样本间上下文指导的空间注意力模块结构图;
图3为本发明样本间上下文指导的通道注意力模块结构图;
图4为本发明特征图与车辆图像的对应关系图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合说明书附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例1:
如图1所示,本实施例涉及的一种基于样本间上下文指导网络的车辆重识别方法,包括:
步骤1、将车辆图像作为输入,采用网络架构简洁且表征能力强大的ResNet50作为特征提取的基础,并移除掉自带的全连接层,将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络(ICGNet)的骨干网络,在res_conv4_1块之后,ResNet50的后续部分被划分为三个独立的分支:Part-1、Global_Spatial、Global_Channel,来提取多样化的特征,每个分支的res_conv5_1 块设置为不采用下采样操作,用于保留丰富的细节信息;
步骤2、在Global_Spatial、Global_Channel分支的res_conv5 层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块,从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息,从而实现车辆重识别。
为了提取更多的局部区域内的细微线索,所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分,每个分支的后续部分具有相似的结构,它们都采用全局平均池化操作和降维操作来学习紧凑的特征表示。所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量;降维操作进一步地将2048维的特征向量降维到256维;在网络的训练阶段,本发明在每个256维特征向量上应用一个三元组损失,并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失;在网络的测试阶段,三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。其中,所述全局平均池化操作由一个逐点卷积、一个BN层和一个ReLU激活函数构成,BN层位于卷积层之后,ReLU激活函数之前。
为了从空间维度提取细微的鉴别性信息来增强网络区分相似车辆的能力,本发明设计了样本间上下文指导的空间注意力模块,该模块旨在利用样本内的自身空间上下文信息和样本之间的潜在的相关信息来增强空间注意力建模的有效性,其结构如图2所示:
设样本的特征图为空间模块的输入张量,其中、、分别表示张量的高度、宽度和通道数;为了细化局部特征的表示,将张量沿空间维度划分为多个规则的非重叠窗口,每个窗口的维度为,窗口的总数为,其中,,和分别代表窗口的高度和宽度;在每个窗口内独立实施自注意力计算来捕获局部空间上下文;对于第个窗口,首先通过三个参数不共享的1×1卷积层对进行线性变换并变形为位置查询矩阵,位置键矩阵,位置值矩阵,这三个矩阵中的第行、、分别是窗口中位置的查询向量、键向量和值向量;位置和之间的亲和性计算为:
如图4所示,为特征图与车辆图像的对应关系图,特征图与车辆图像的对应关系,在车辆图像中,车辆引擎盖的两个区域用m、n表示,车灯所在的区域用u表示,它们分别对应特征图中的位置、和。引擎盖上的两个区域在语义上的关联要高于它们和车灯区域在语义上的关联。特征图中一个位置的特征表示编码了图像中一个对应区域的语义信息。因此,车辆图像中的区域在语义上越相关,那么它们在特征图中所对应的位置的特征表示之间的亲和性越大。如图3所示,车辆的引擎盖中的区域间的亲和性大于这些区域与车灯所在区域之间的亲和性。表示所有位置间的成对亲和性的矩阵可以通过将矩阵和的转置相乘,并对结果执行操作来得到:
利用跨位置交互捕获每个窗口的自身上下文并细化特征表示的过程,可以根据特征图位置间的亲和性也就是图像中区域的相似性过滤掉背景等噪声的干扰并建立相似区域间的依赖。但是,该过程没有显式的指明哪些位置的信息对辨别样本身份是重要的,同时,由于车灯、年检标志等小部件与其它部件在语义上的关联较小,因此这些部件的对区分相似样本身份非常关键的语义特征在整体上被赋予了较小的权重。显然,捕获样本之间的相关信息有利于判断特征图上哪些位置对辨别样本身份是重要的。为此,本发明引入一个大小为的空间方面的样本间上下文存储器,它通过与所有样本进行交互来学习对整个数据集最具有鉴别性的空间方面的信息,一个样本与存储器的交互的公式如下:
其中,表示沿通道方向的平均池化;矩阵中的值反应了相应位置对辨别样本的身份的重要性,中的参数是在训练阶段从数据集所有样本的信息中学习到的,每一列可以视为车辆图像中的一个具有鉴别性的部位(区域)的信息;为了使空间注意力模块对图像具有翻转、平移等不变性,所有窗口共享同一个存储器。在以端到端的方式进行反向传播优化模块的过程中,跨样本交互得到的中的信息会使得样本内自身上下文的学习集中在对区分样本身份有用的位置上。
通过操作实现的跨窗口交互,强调了全局上重要的位置;这些位置上的信息不仅包含主体语义中的鉴别性信息,还包含部件级的鉴别性信息。与在全局范围下学习样本自身上下文并借助存储器推断哪些位置是重要的这一方式相比,先局部后全局的方式不仅可以减少计算量,同时能够挖掘丰富的细微的鉴别性线索。最后,将广播为与输入特征图相同的形状后,再与逐元素相乘和相加,得到样本间上下文指导的空间注意力模块的输出特征图;该过程可以表示为:
为了从通道维度提取丰富的细粒度的与样本身份相关的语义特征来区分相似的车辆样本,本发明设计了样本间上下文指导的通道注意力模块,该模块旨在利用样本内的自身通道上下文信息和样本间上下文信息来增强通道注意力建模的有效性,其结构如图3所示:
沿通道方向将输入特征图均匀地划分为多个子特征图,,其中,、、分别表示特征图的高度、宽度和通道数,表示分组数。每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的。由于自注意力计算需要1维序列作为输入,本发明把重塑为二维张量后送入到三个线性投影层中,再经过转置操作得到三个形状相同的矩阵:通道查询矩阵、通道键矩阵和通道值矩阵,其中。第个组中通道和之间的亲和性的计算过程可以被表示为:
其中,矩阵中的第行、矩阵中的第行,分别表示第个组中通道和的查询向量、键向量;度量了通道和在图像的所有区域上提取的特征间的相似性;通道和提取的特征在语义上越相关,那么它们的亲和性越大;反之,它们的亲和性越小;通过把查询矩阵和键矩阵的转置相乘并执行操作,得到第个组的表示所有通道间的成对亲和性的矩阵:
自身通道上下文捕获的车辆的主体语义信息有利于区分外观差异较大的样本,但难以区分外观差异较小的样本。样本间的差异信息可以从所有样本的交互中学习到。为此,本发明引入了一个形状为的通道方面的样本间上下文存储器,它通过与所有样本进行交互捕获样本间的通道方面上下文来指导样本显式地推断哪些通道对辨别样本身份是重要的;将一个样本内每一个通道的邻域信息投影到存储器上来实现这个样本与的交互;首先,将矩阵沿着第0个轴压缩得到向量,然后通过一个操作提取中每一个元素的个邻居的信息,形成矩阵,
其中,表示沿列方向的平均池化,中的值表示了每个通道对辨别样本身份的重要性,中的参数是通过与所有样本的交互学习到的,可以让样本的通道表示的精细化侧重于与样本身份相关的重要的通道上。为了减少参数量,所有通道组共享同一个存储器。
通过操作实现的跨组交互,强调了全局上重要的通道;先局部后全局的方式能够挖掘丰富的细粒度的重要语义特征;最后,将的形状广播为与子特征图逐元素相乘后,再与输入特征图逐元素相加,得到样本间上下文指导的通道注意力模块的输出特征图,该过程可以表示为:
在本发明所提出的样本间上下文指导网络(ICGNet)的训练过程中,本发明采用了两种常用的损失函数,分别是交叉熵损失函数和三元组损失函数。除了使用这两种常用的损失函数外,本发明还采用了注意力监督约束来使注意力的学习聚焦在关键区域,进一步提高车辆重识别的准确度。如图1所示,实线表示三元组损失的计算,虚线表示经过全连接层(FC)后交叉熵损失的计算。
所述三元组损失的目标是使具有相同标签的样本在嵌入空间中尽可能地接近,而具有不同标签的样本则尽可能地保持距离。为了满足三元组损失的计算要求,本发明从训练数据集中随机选取个身份和个实例组成一个批量,三元组损失函数的公式如下:
所述交叉熵损失函数可以衡量同一随机变量中两个不同概率分布之间的差异程度。它通常用于衡量模型的预测分布与真实分布之间的差异。当模型的预测分布与真实分布越接近,交叉熵损失函数的值就越小,反之亦然。
所述交叉熵损失函数为:
为了进一步提升注意力学习的效果,本发明提出了一种新颖的注意力监督约束,该约束强制带有注意力模块的网络的性能高于不带注意力模块的网络的性能,定义如下:
其中,和分别表示不使用注意力模块和使用注意力模块时网络关于输入图像的真实标签的预测概率。由于exp(·)的梯度是单调递增函数,因此,注意力模块的性能越低,该约束对网络的优化力度越大;反之,该约束对网络的优化力度越小。
所述样本间上下文指导网络ICGNet总的损失计算公式如下:
为了验证本发明所提出的样本间上下文指导的自注意力机制和样本间上下文指导网络的有效性,本发明在两个公开数据集Veri776和VehicleID上使用mAP、Rank-1和Rank-5精度等评估指标进行了大量的实验,实验结果如表1和表2所示,表明了本发明所提出的方法的达到了先进的水平。表1展示了本发明的方法在Veri776数据集上与现有方法的性能对比结果,可以看出,本发明的方法在mAP和Rank-1精度上分别达到了82.7%和96.3%,超过现有方法。表2通过在VehicleID数据集上使用Rank-1和Rank-5精度作为评估指标进行实验,进一步验证了ICGNet对于车辆重识别任务的高效性。具体来说,本发明的方法在大型集上Rank-1和Rank-5精度分别达到了73.2%、90.4%;在中型集上Rank-1和Rank-5精度分别达到了78.5%、93.3%;在小型集上Rank-1和Rank-5精度分别达到了81.6%、96.0%。
表1 本发明的方法与现有的方法在Veri776上结果对比
表2 本发明的方法与现有的方法在VehicleID上结果对比(%)
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应落入本发明的专利保护范围。
Claims (10)
1.一种基于样本间上下文指导网络的车辆重识别方法,其特征在于,包括:
步骤1、将车辆图像作为输入,将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络的骨干网络,在res_conv4_1块之后,ResNet50的后续部分被划分为三个独立的分支:Part-1、Global_Spatial、Global_Channel,来提取多样化的特征;
步骤2、在Global_Spatial、Global_Channel分支的res_conv5层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块,从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息,从而实现车辆重识别。
2.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分,每个分支均采用全局平均池化操作和降维操作来学习紧凑的特征表示。
3.根据权利要求2所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量;降维操作将2048维的特征向量降维到256维;网络训练阶段,在每个256维特征向量上应用一个三元组损失,并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失;在网络的测试阶段,三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。
4.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述样本间上下文指导的空间注意力模块,结构为:
设样本的特征图为空间模块的输入张量,其中、、分别表示张量的高度、宽度和通道数;为了细化局部特征的表示,将张量沿空间维度划分为多个规则的非重叠窗口,每个窗口的维度为,窗口的总数为,其中,,和分别代表窗口的高度和宽度;在每个窗口内独立实施自注意力计算来捕获局部空间上下文;对于第个窗口,首先通过三个参数不共享的1×1卷积层对进行线性变换并变形为位置查询矩阵,位置键矩阵,位置值矩阵,这三个矩阵中的第行、 、分别是窗口中位置的查询向量、键向量和值向量;位置和之间的亲和性计算为:
5.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述样本间上下文指导的通道注意力模块,结构为:
沿通道方向将输入特征图均匀地划分为多个子特征图,,其中,、、分别表示特征图的高度、宽度和通道数,表示分组数;每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的;将重塑为二维张量后送入到三个线性投影层中,再经过转置操作得到三个形状相同的矩阵:通道查询矩阵、通道键矩阵和通道值矩阵,其中;第个组中通道和之间的亲和性的计算过程被表示为:
其中,矩阵中的第行、矩阵中的第行,分别表示第个组中通道和的查询向量、键向量;度量了通道和在图像的所有区域上提取的特征间的相似性;通过把查询矩阵和键矩阵的转置相乘并执行操作,得到第个组的表示所有通道间的成对亲和性的矩阵:
引入一个形状为的通道方面的样本间上下文存储器;将一个样本内每一个通道的邻域信息投影到存储器上来实现这个样本与的交互;首先,将矩阵沿着第0个轴压缩得到向量,然后通过一个操作提取中每一个元素的个邻居的信息,形成矩阵:
6.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,采用两种损失函数,分别是交叉熵损失函数和三元组损失函数,还采用了注意力监督约束来进一步提高车辆重识别的准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310542157.6A CN116311105B (zh) | 2023-05-15 | 2023-05-15 | 一种基于样本间上下文指导网络的车辆重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310542157.6A CN116311105B (zh) | 2023-05-15 | 2023-05-15 | 一种基于样本间上下文指导网络的车辆重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116311105A true CN116311105A (zh) | 2023-06-23 |
CN116311105B CN116311105B (zh) | 2023-09-19 |
Family
ID=86832718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310542157.6A Active CN116311105B (zh) | 2023-05-15 | 2023-05-15 | 一种基于样本间上下文指导网络的车辆重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311105B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665019A (zh) * | 2023-07-31 | 2023-08-29 | 山东交通学院 | 一种用于车辆重识别的多轴交互多维度注意力网络 |
CN116704453A (zh) * | 2023-08-08 | 2023-09-05 | 山东交通学院 | 用于车辆重识别的自适应划分和先验强化部位学习网络 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
CN111898431A (zh) * | 2020-06-24 | 2020-11-06 | 南京邮电大学 | 一种基于注意力机制部件遮挡的行人再识别方法 |
CN113420742A (zh) * | 2021-08-25 | 2021-09-21 | 山东交通学院 | 一种用于车辆重识别的全局注意力网络模型 |
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
CN114005078A (zh) * | 2021-12-31 | 2022-02-01 | 山东交通学院 | 一种基于双关系注意力机制的车辆重识别方法 |
WO2022041830A1 (zh) * | 2020-08-25 | 2022-03-03 | 北京京东尚科信息技术有限公司 | 行人重识别方法和装置 |
CN114241218A (zh) * | 2021-12-15 | 2022-03-25 | 杭州电子科技大学 | 一种基于逐级注意力机制的目标显著性检测方法 |
CN114758383A (zh) * | 2022-03-29 | 2022-07-15 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN114782977A (zh) * | 2021-04-28 | 2022-07-22 | 河南大学 | 一种基于拓扑信息和亲和度信息引导行人重识别方法 |
CN114821249A (zh) * | 2022-07-04 | 2022-07-29 | 山东交通学院 | 一种基于分组聚合注意力和局部关系的车辆重识别方法 |
CN115170638A (zh) * | 2022-07-13 | 2022-10-11 | 东北林业大学 | 一种双目视觉立体匹配网络系统及其构建方法 |
CN115393788A (zh) * | 2022-08-03 | 2022-11-25 | 华中农业大学 | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN115797884A (zh) * | 2023-02-09 | 2023-03-14 | 松立控股集团股份有限公司 | 一种基于类人视觉注意力加权的车辆重识别方法 |
CN115965789A (zh) * | 2023-01-21 | 2023-04-14 | 浙江大学 | 一种基于场景感知类注意力的遥感图像语义分割方法 |
-
2023
- 2023-05-15 CN CN202310542157.6A patent/CN116311105B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
CN111898431A (zh) * | 2020-06-24 | 2020-11-06 | 南京邮电大学 | 一种基于注意力机制部件遮挡的行人再识别方法 |
WO2022041830A1 (zh) * | 2020-08-25 | 2022-03-03 | 北京京东尚科信息技术有限公司 | 行人重识别方法和装置 |
CN114782977A (zh) * | 2021-04-28 | 2022-07-22 | 河南大学 | 一种基于拓扑信息和亲和度信息引导行人重识别方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN113420742A (zh) * | 2021-08-25 | 2021-09-21 | 山东交通学院 | 一种用于车辆重识别的全局注意力网络模型 |
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
CN114241218A (zh) * | 2021-12-15 | 2022-03-25 | 杭州电子科技大学 | 一种基于逐级注意力机制的目标显著性检测方法 |
CN114005078A (zh) * | 2021-12-31 | 2022-02-01 | 山东交通学院 | 一种基于双关系注意力机制的车辆重识别方法 |
CN114758383A (zh) * | 2022-03-29 | 2022-07-15 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN114821249A (zh) * | 2022-07-04 | 2022-07-29 | 山东交通学院 | 一种基于分组聚合注意力和局部关系的车辆重识别方法 |
CN115170638A (zh) * | 2022-07-13 | 2022-10-11 | 东北林业大学 | 一种双目视觉立体匹配网络系统及其构建方法 |
CN115393788A (zh) * | 2022-08-03 | 2022-11-25 | 华中农业大学 | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 |
CN115965789A (zh) * | 2023-01-21 | 2023-04-14 | 浙江大学 | 一种基于场景感知类注意力的遥感图像语义分割方法 |
CN115797884A (zh) * | 2023-02-09 | 2023-03-14 | 松立控股集团股份有限公司 | 一种基于类人视觉注意力加权的车辆重识别方法 |
Non-Patent Citations (5)
Title |
---|
XIN TIAN等: "Vehicle Re-Identification Based on Global Relational Attention and Multi-Granularity Feature Learning", IEEE ACCESS, vol. 10, pages 2169 - 3536 * |
YINGXIN ZHU等: "Multi-Branch Context-Aware Network for Person Re-Identification", 2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), pages 712 - 717 * |
任凤雷等: "基于改进 BiSeNet的实时图像语义分割", 光学精密工程, vol. 31, no. 8, pages 1217 - 1227 * |
綦金玮;彭宇新;袁玉鑫;: "面向跨媒体检索的层级循环注意力网络模型", 中国图象图形学报, no. 11, pages 139 - 146 * |
胡文俊;马秀丽;: "基于上下文的多路径空间编码图像语义分割方法", 工业控制计算机, no. 08, pages 83 - 85 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665019A (zh) * | 2023-07-31 | 2023-08-29 | 山东交通学院 | 一种用于车辆重识别的多轴交互多维度注意力网络 |
CN116665019B (zh) * | 2023-07-31 | 2023-09-29 | 山东交通学院 | 一种用于车辆重识别的多轴交互多维度注意力网络 |
CN116704453A (zh) * | 2023-08-08 | 2023-09-05 | 山东交通学院 | 用于车辆重识别的自适应划分和先验强化部位学习网络 |
CN116704453B (zh) * | 2023-08-08 | 2023-11-28 | 山东交通学院 | 一种采用自适应划分和先验强化部位学习网络进行车辆重识别的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116311105B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Unsupervised learning of edges | |
CN116311105A (zh) | 一种基于样本间上下文指导网络的车辆重识别方法 | |
Li et al. | Temporal bilinear networks for video action recognition | |
Yang et al. | Diffusion model as representation learner | |
CN111582225A (zh) | 一种遥感图像场景分类方法及装置 | |
CN109165612B (zh) | 基于深度特征和双向knn排序优化的行人再识别方法 | |
CN115222994A (zh) | 一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法 | |
CN112580480B (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN112836637B (zh) | 一种基于空间逆向注意网络的行人重识别方法 | |
CN113221680B (zh) | 基于文本动态引导视觉特征提炼的文本行人检索方法 | |
CN116030495A (zh) | 基于倍率学习的低分辨率行人重识别算法 | |
Hou et al. | M-YOLO: an object detector based on global context information for infrared images | |
Wei et al. | Learning two groups of discriminative features for micro-expression recognition | |
CN116844126A (zh) | 一种基于YOLOv7改进的复杂道路场景目标检测方法 | |
CN116863223A (zh) | 语义注意力特征嵌入Swin Transformer网络的遥感图像场景分类的方法 | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
Huo et al. | Multi‐source heterogeneous iris segmentation method based on lightweight convolutional neural network | |
Liu et al. | Image forgery localization based on fully convolutional network with noise feature | |
Obeso et al. | Introduction of explicit visual saliency in training of deep cnns: Application to architectural styles classification | |
CN117152072A (zh) | 一种基于两阶段特征金字塔网络的遥感图像变化检测方法 | |
CN116229580A (zh) | 一种基于多粒度金字塔交叉网络的行人重识别方法 | |
Wang et al. | SAST: Learning semantic action-aware spatial-temporal features for efficient action recognition | |
Deng et al. | Multi-modal information fusion for action unit detection in the wild | |
CN116071645A (zh) | 高分辨率遥感影像建筑物变化检测方法、装置及电子设备 | |
Rao et al. | Learning general feature descriptor for visual measurement with hierarchical view consistency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |