CN116311105B - 一种基于样本间上下文指导网络的车辆重识别方法 - Google Patents
一种基于样本间上下文指导网络的车辆重识别方法 Download PDFInfo
- Publication number
- CN116311105B CN116311105B CN202310542157.6A CN202310542157A CN116311105B CN 116311105 B CN116311105 B CN 116311105B CN 202310542157 A CN202310542157 A CN 202310542157A CN 116311105 B CN116311105 B CN 116311105B
- Authority
- CN
- China
- Prior art keywords
- sample
- channel
- matrix
- context
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000003993 interaction Effects 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 72
- 239000013598 vector Substances 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 7
- 230000002776 aggregation Effects 0.000 abstract description 5
- 238000004220 aggregation Methods 0.000 abstract description 5
- 238000005065 mining Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 102100040160 Rabankyrin-5 Human genes 0.000 description 5
- 101710086049 Rabankyrin-5 Proteins 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及车辆识别技术领域,具体地涉及一种基于样本间上下文指导网络的车辆重识别方法,提出了一种样本间上下文指导的自注意力机制,该机制让一个样本与样本间上下文交互来强调具有鉴别性的元素并指导该样本内语义信息的聚集,该机制首先捕获样本内的自身上下文来聚集图像中车辆的语义信息并抑制背景的干扰,然后让样本与样本间上下文交互来强调鉴别性的语义信息;样本间上下文指导的自注意力机制将自身上下文的学习和交互限制在局部范围内并通过跨局部连接聚集全局上感兴趣的信息,这样不仅有助于挖掘细微的鉴别性信息还能够降低计算量,大大提高了区分相似车辆的能力及识别效率。
Description
技术领域
本发明涉及车辆识别技术领域,具体地涉及一种基于样本间上下文指导网络的车辆重识别方法。
背景技术
车辆重识别旨在从图像库中检索出由非重叠摄像头拍摄的同一车辆的图像。该技术在智能交通、无人驾驶汽车和城市安全监控等领域有着巨大的应用前景。随着深度神经网络的兴起,一些基于卷积神经网络(Convolutional Neural Network,CNN)的车辆重识别方法陆续被提出并显著地提升了该任务的性能。但属于同一厂家和车型的不同车辆在整体外观上看起来可能非常相似,这种类间差异较小的问题使得车辆重识别仍然是一个非常具有挑战性的任务。从车辆的局部区域中提取细微的鉴别性信息对于区分外观相似的车辆至关重要。
自注意力机制通过用跨元素的成对自亲和性捕获样本内自身的上下文,能够有效地抑制背景的干扰并突出目标主体的语义信息。自注意力的工作原理是根据元素间的成对自亲和性聚合单个样本中所有元素的特征,来细化每个元素的表示。它可以聚集语义相关的特征,从而让网络能够关注图像中目标主体的信息来较好地刻画和表征样本的特性,并抑制复杂的背景信息。但自注意力在学习单个样本内自身上下文信息时忽略了与其它样本之间的潜在的相关信息,这限制了它区分相似车辆的能力。
发明内容
本发明的目的在于克服现有技术存在的缺点,提出设计一种基于样本间上下文指导网络的车辆重识别方法,结合样本内的自身上下文信息和样本间潜在的相关信息来挖掘更多有用的鉴别性线索,提高了区分相似车辆的能力。
本发明解决其技术问题所采取的技术方案是:
如图1所示,一种基于样本间上下文指导网络的车辆重识别方法,包括:
步骤1、将车辆图像作为输入,将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络(ICGNet)的骨干网络,在res_conv4_1块之后,ResNet50的后续部分被划分为三个独立的分支:Part-1、Global_Spatial、Global_Channel,来提取多样化的特征,每个分支的res_conv5_1块设置为不采用下采样操作,用于保留丰富的细节信息;
步骤2、在Global_Spatial、Global_Channel分支的res_conv5层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块,从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息,从而实现车辆重识别。
进一步的,为了提取更多的局部区域内的细微线索,所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分,每个分支均采用全局平均池化操作和降维操作来学习紧凑的特征表示。
进一步的,所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量;降维操作进一步地将2048维的特征向量降维到256维;网络训练阶段,在每个256维特征向量上应用一个三元组损失,并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失;在网络的测试阶段,三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。
进一步的,所述样本间上下文指导的空间注意力模块,旨在利用样本内的自身空间上下文信息和样本之间的潜在的相关信息来增强空间注意力建模的有效性,其结构为:
设样本的特征图X∈RH×W×C为空间模块的输入张量,其中H、W、C分别表示张量的高度、宽度和通道数;为了细化局部特征的表示,将张量X沿空间维度划分为多个规则的非重叠窗口,每个窗口Xi的维度为h×w×C,窗口的总数为P=N/hw,其中i=1,2,...,P,N=HW,h和w分别代表窗口的高度和宽度;在每个窗口内独立实施自注意力计算来捕获局部空间上下文;对于第i个窗口,首先通过三个参数不共享的1×1卷积层对Xi进行线性变换并变形为位置查询矩阵Qi∈Rhw×C,位置键矩阵Ki∈Rhw×C,位置值矩阵Vi∈Rhw×C,这三个矩阵中的第m行分别是窗口中位置m的查询向量、键向量和值向量;位置m和n之间的亲和性计算为:
其中,·表示向量的内积,度量了窗口的特征图中位置m和n的特征表示之间的相似性;
表示所有位置间的成对亲和性的矩阵Ai∈Rhw×hw可以通过将矩阵Qi和Ki的转置相乘,并对结果执行softmax操作来得到:
其中,表示矩阵乘法,Ai的每一行中的元素之和为1;然后,用位置间的亲和性加权求和所有位置的特征来精细化位置的特征表示,位置m处的精细化过程可以表示为:
其中,m=1,2,...,hw;窗口中所有位置的细化可以定义为:
编码了局部空间上下文信息的矩阵Di∈Rhw×c通过相关语义的聚集突出了样本图像中车辆主体的语义信息所对应的位置,抑制了复杂背景所在的区域;
引入一个大小为C×M的空间方面的样本间上下文存储器U,它通过与所有样本进行交互来学习对整个数据集最具有鉴别性的空间方面的信息,一个样本与存储器U的交互的公式如下:
其中,Bi∈Rhw×M,矩阵Bi的第i行表示窗口的特征图中的第i个位置与样本间的上下文信息的亲和性;将矩阵的形状压缩为hw×1,并使用一个L1_Norm函数来得到样本间上下文指导的窗口空间注意力图Ti,公式如下:
Ti=L1_Norm(Avg(Bi)),
其中,Avg表示沿通道方向的平均池化;矩阵Ti中的值反应了相应位置对辨别样本的身份的重要性,Y中的参数是在训练阶段从数据集所有样本的信息中学习到的,每一列可以视为车辆图像中的一个具有鉴别性的部位(区域)的信息;
在得到每个窗口的空间注意力图Ti后,将它们的形状都重塑为h×w;然后合并所有的窗口空间注意力图,并实施跨窗口交互操作得到样本的空间注意力图T∈RH×W×C:
通过softmax操作实现的跨窗口交互,强调了全局上重要的位置;这些位置上的信息不仅包含主体语义中的鉴别性信息,还包含部件级的鉴别性信息。与在全局范围下学习样本自身上下文并借助存储器Y推断哪些位置是重要的这一方式相比,先局部后全局的方式不仅可以减少计算量,同时能够挖掘丰富的细微的鉴别性线索。最后,将T广播为与输入特征图X相同的形状后,再与X逐元素相乘和相加,得到样本间上下文指导的空间注意力模块的输出特征图S∈RH×W×C,该过程可以表示为:
其中,表示矩阵点乘,/>表示矩阵加法。
进一步的,所述样本间上下文指导的通道注意力模块,旨在利用样本内的自身通道上下文信息和样本间上下文信息来增强通道注意力建模的有效性,其结构为:
沿通道方向将输入特征图X∈RH×W×C均匀地划分为多个子特征图Xg∈RH×W×(C/G),g=1,2,…,G,其中,H、W、C分别表示特征图的高度、宽度和通道数,G表示分组数;每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的;由于自注意力计算需要1维序列作为输入,将Xg重塑为二维张量后送入到三个线性投影层中,再经过转置操作得到三个形状相同的矩阵:通道查询矩阵Qg∈R(C/G)×N、通道键矩阵Kg∈R(C/G)×N和通道值矩阵Vg∈R(C /G)×N,其中N=H×W;第g个组中通道m和n之间的亲和性的计算过程可以被表示为:
其中,矩阵Qg中的第m行矩阵Kg中的第n行/>分别表示第g个组中通道m和n的查询向量、键向量;/>度量了通道m和n在图像的所有区域上提取的特征间的相似性;通道m和n提取的特征在语义上越相关,那么它们的亲和性越大;反之,它们的亲和性越小;通过把查询矩阵Qg和键矩阵Kg的转置相乘并执行soft max操作,得到第g个组的表示所有通道间的成对亲和性的矩阵Ag∈R(C/G)×(C/G):
其中,Ag的每一行中的元素之和为1;然后,用通道间的亲和性加权求和所有的通道来精细化每个通道的特征表示;通道m的精细化过程可以表示为:
其中,m=1,2,...,C/G,是矩阵Vg中的第j行,表示第g个通道组中通道j的值向量;该过程捕获了通道m的局部上下文,强调了在语义上与通道m相关性大的通道,抑制了相关性小的通道;第g个组中所有通道的细化可以定义为:
编码了局部通道上下文信息的矩阵Dg∈RHW×(C/G)通过相关语义的聚集强调了表示样本图像中车辆主体语义信息的通道;
引入一个形状为K×M的通道方面的样本间上下文存储器I,它通过与所有样本进行交互捕获样本间的通道方面上下文来指导样本显式地推断哪些通道对辨别样本身份是重要的;将一个样本内每一个通道的邻域信息投影到存储器I上来实现这个样本与I的交互;首先,将矩阵Dg沿着第0个轴压缩得到向量dg∈RC/G,然后通过一个unflod操作提取dg中每一个元素的K个邻居的信息,形成矩阵Ug∈R(C/G)×K:
Ug=unflod(dg)=unflod(Avg(Dg)),
其中,Avg表示行方向上的平均池化,Ug中的第i行为第i个通道的K个邻居的信息;一个样本与存储器I的交互用公式表示为:
其中,Bg∈R(C/G)×M;矩阵Bg的第i行表示第g个组中第i个通道与样本间上下文信息的亲和性;对矩阵进行压缩并使用一个L1_Norm函数来得到样本间上下文指导的组内通道注意力图Tg∈RC/G,公式如下:
Tg=L1_Norm(Avg(Bg)),
其中,Avg表示沿列方向的平均池化,Tg中的值表示了每个通道对辨别样本身份的重要性,Y中的参数是通过与所有样本的交互学习到的,可以让样本的通道表示的精细化侧重于与样本身份相关的重要的通道上。为了减少参数量,所有通道组共享同一个存储器I。
在得到每个组的通道注意力图Tg后,将它们连接起来并实施跨组交互得到样本的通道注意力图T∈RC,
T=sorftmax(connect(T1,T2,...,TG));
通过softmax操作实现的跨组交互,强调了全局上重要的通道;先局部后全局的方式能够挖掘丰富的细粒度的重要语义特征;最后,将T的形状广播为H×W×(C/G)与子特征图Xg逐元素相乘后,再与输入特征图X逐元素相加,得到样本间上下文指导的通道注意力模块的输出特征图S∈RH×W×C,该过程可以表示为:
进一步的,本发明采用两种常用的损失函数,分别是交叉熵损失函数和三元组损失函数。除了使用这两种常用的损失函数外,还采用了注意力监督约束来使注意力的学习聚焦在关键区域,来进一步提高车辆重识别的准确度。
进一步的,从训练数据集中随机选取P个身份和K个实例组成一个批量,三元组损失函数的公式如下:
其中,表示从锚点提取的特征,/>表示从正样本中提取的特征,/>表示从负样本中提取的特征,α是margin参数,用于拉大锚点与正样本对和锚点与负样本对之间的差距,[·]+代表的是max(·,0)。
进一步的,所述交叉熵损失函数为:
其中,D是训练集中车辆的类别数,x是输入到网络中车辆图像的真实身份标签,Pm表示第m类的ID预测概率。
进一步的,所述注意力监督约束定义如下:
LASC=ASC(x)=exp(p′(x)-p(x)),
其中,p′(x)和p(x)分别表示不使用注意力模块和使用注意力模块时网络关于输入图像x的真实标签的预测概率。
进一步的,所述样本间上下文指导网络总的损失计算公式如下:
Ltotal=Ltriplet+Lid+LASC,
其中,Ltriplet为三元组损失函数,Lid为交叉熵损失函数,LASC为注意力监督约束。
本发明的技术效果:
与现有技术相比,本发明的一种基于样本间上下文指导网络的车辆重识别方法,具有以下优点:
(1)为了有效地区分外观差异较小的车辆,本发明提出了一种样本间上下文指导的自注意力机制,该机制首先捕获样本内的自身上下文来聚集图像中车辆的语义信息并抑制背景的干扰,然后让样本与样本间上下文交互来强调鉴别性的语义信息;样本间上下文指导的自注意力机制将自身上下文的学习和交互限制在局部范围内并通过跨局部连接聚集全局上感兴趣的信息,这样不仅有助于挖掘细微的鉴别性信息还能够降低计算量,大大提高了区分相似车辆的能力及识别效率;
(2)本发明提出了一个样本间上下文指导的网络(ICGNet),该网络同时包含样本间上下文指导的空间注意力模块(ICG-S)和样本间上下文指导的通道注意力模块(ICG-C),从不同的维度学习鉴别性的主体语义信息和细粒度的语义信息;此外,还提出了一个注意力监督约束来进一步提升注意力学习的效果。
附图说明
图1为本发明车辆重识别方法的网络框架图;
图2为本发明样本间上下文指导的空间注意力模块结构图;
图3为本发明样本间上下文指导的通道注意力模块结构图;
图4为本发明特征图与车辆图像的对应关系图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合说明书附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例1:
如图1所示,本实施例涉及的一种基于样本间上下文指导网络的车辆重识别方法,包括:
步骤1、将车辆图像作为输入,采用网络架构简洁且表征能力强大的ResNet50作为特征提取的基础,并移除掉自带的全连接层,将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络(ICGNet)的骨干网络,在res_conv4_1块之后,ResNet50的后续部分被划分为三个独立的分支:Part-1、Global_Spatial、Global_Channel,来提取多样化的特征,每个分支的res_conv5_1块设置为不采用下采样操作,用于保留丰富的细节信息;
步骤2、在Global_Spatial、Global_Channel分支的res_conv5层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块,从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息,从而实现车辆重识别。
为了提取更多的局部区域内的细微线索,所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分,每个分支的后续部分具有相似的结构,它们都采用全局平均池化操作和降维操作来学习紧凑的特征表示。所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量;降维操作进一步地将2048维的特征向量降维到256维;在网络的训练阶段,本发明在每个256维特征向量上应用一个三元组损失,并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失;在网络的测试阶段,三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。其中,所述全局平均池化操作由一个逐点卷积、一个BN层和一个ReLU激活函数构成,BN层位于卷积层之后,ReLU激活函数之前。
为了从空间维度提取细微的鉴别性信息来增强网络区分相似车辆的能力,本发明设计了样本间上下文指导的空间注意力模块,该模块旨在利用样本内的自身空间上下文信息和样本之间的潜在的相关信息来增强空间注意力建模的有效性,其结构如图2所示:
设样本的特征图X∈RH×W×C为空间模块的输入张量,其中H、W、C分别表示张量的高度、宽度和通道数;为了细化局部特征的表示,将张量X沿空间维度划分为多个规则的非重叠窗口,每个窗口Xi的维度为h×w×C,窗口的总数为P=N/hw,其中i=1,2,...,P,N=HW,h和w分别代表窗口的高度和宽度;在每个窗口内独立实施自注意力计算来捕获局部空间上下文;对于第i个窗口,首先通过三个参数不共享的1×1卷积层对Xi进行线性变换并变形为位置查询矩阵Qi∈Rhw×C,位置键矩阵Ki∈Rhw×C,位置值矩阵Vi∈Rhw×C,这三个矩阵中的第m行分别是窗口中位置m的查询向量、键向量和值向量;位置m和n之间的亲和性计算为:
其中,·表示向量的内积,度量了窗口的特征图中位置m和n的特征表示之间的相似性。
如图4所示,为特征图与车辆图像的对应关系图,特征图与车辆图像的对应关系,在车辆图像中,车辆引擎盖的两个区域用m、n表示,车灯所在的区域用u表示,它们分别对应特征图中的位置m、n和u。引擎盖上的两个区域在语义上的关联要高于它们和车灯区域在语义上的关联。特征图中一个位置的特征表示编码了图像中一个对应区域的语义信息。因此,车辆图像中的区域在语义上越相关,那么它们在特征图中所对应的位置的特征表示之间的亲和性越大。如图3所示,车辆的引擎盖中的区域间的亲和性大于这些区域与车灯所在区域之间的亲和性。表示所有位置间的成对亲和性的矩阵Ai∈Rhw×hw可以通过将矩阵Qi和Ki的转置相乘,并对结果执行softmax操作来得到:
其中,表示矩阵乘法,Ai的每一行中的元素之和为1;然后,用位置间的亲和性加权求和所有位置的特征来精细化位置的特征表示,位置m处的精细化过程可以表示为:
其中,m=1,2,...,hw;该过程捕获了位置m的局部空间上下文,强调了在语义上与位置m相关性大的位置,抑制了相关性小的位置;窗口中所有位置的细化可以定义为:
编码了局部空间上下文信息的矩阵Di∈Rhw×C通过相关语义的聚集突出了样本图像中车辆主体的语义信息所对应的位置,抑制了复杂背景所在的区域;
利用跨位置交互捕获每个窗口的自身上下文并细化特征表示的过程,可以根据特征图位置间的亲和性也就是图像中区域的相似性过滤掉背景等噪声的干扰并建立相似区域间的依赖。但是,该过程没有显式的指明哪些位置的信息对辨别样本身份是重要的,同时,由于车灯、年检标志等小部件与其它部件在语义上的关联较小,因此这些部件的对区分相似样本身份非常关键的语义特征在整体上被赋予了较小的权重。显然,捕获样本之间的相关信息有利于判断特征图上哪些位置对辨别样本身份是重要的。为此,本发明引入一个大小为C×M的空间方面的样本间上下文存储器Y,它通过与所有样本进行交互来学习对整个数据集最具有鉴别性的空间方面的信息,一个样本与存储器Y的交互的公式如下:
其中,Bi∈Rhw×M,矩阵Bi的第i行表示窗口的特征图中的第i个位置与样本间的上下文信息的亲和性;将矩阵的形状压缩为hw×1,并使用一个L1_Norm函数来得到样本间上下文指导的窗口空间注意力图Ti,公式如下:
Ti=l1_Norm(Avg(Bi)),
其中,Avg表示沿通道方向的平均池化;矩阵Ti中的值反应了相应位置对辨别样本的身份的重要性,Y中的参数是在训练阶段从数据集所有样本的信息中学习到的,每一列可以视为车辆图像中的一个具有鉴别性的部位(区域)的信息;为了使空间注意力模块对图像具有翻转、平移等不变性,所有窗口共享同一个存储器Y。在以端到端的方式进行反向传播优化模块的过程中,跨样本交互得到的Y中的信息会使得样本内自身上下文的学习集中在对区分样本身份有用的位置上。
在得到每个窗口的空间注意力图Ti后,将它们的形状都重塑为h×w;然后合并所有的窗口空间注意力图,并实施跨窗口交互操作得到样本的空间注意力图T∈R×W×C,
通过softmax操作实现的跨窗口交互,强调了全局上重要的位置;这些位置上的信息不仅包含主体语义中的鉴别性信息,还包含部件级的鉴别性信息。与在全局范围下学习样本自身上下文并借助存储器Y推断哪些位置是重要的这一方式相比,先局部后全局的方式不仅可以减少计算量,同时能够挖掘丰富的细微的鉴别性线索。最后,将T广播为与输入特征图X相同的形状后,再与X逐元素相乘和相加,得到样本间上下文指导的空间注意力模块的输出特征图S∈RH×W×C;该过程可以表示为:
其中,表示矩阵点乘,/>表示矩阵加法。
为了从通道维度提取丰富的细粒度的与样本身份相关的语义特征来区分相似的车辆样本,本发明设计了样本间上下文指导的通道注意力模块,该模块旨在利用样本内的自身通道上下文信息和样本间上下文信息来增强通道注意力建模的有效性,其结构如图3所示:沿通道方向将输入特征图X∈RH×W×C均匀地划分为多个子特征图Xg∈RH×W×(C/G),g=1,2,…,G,其中,H、W、C分别表示特征图的高度、宽度和通道数,G表示分组数。每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的。由于自注意力计算需要1维序列作为输入,本发明把Xg重塑为二维张量后送入到三个线性投影层中,再经过转置操作得到三个形状相同的矩阵:通道查询矩阵Qg∈R(C/G)×N、通道键矩阵Kg∈R(C/G)×N和通道值矩阵Vg∈R(C/G)×N,其中N=H×W。第g个组中通道m和n之间的亲和性的计算过程可以被表示为:
其中,矩阵Qg中的第m行矩阵Kg中的第n行/>分别表示第g个组中通道m和n的查询向量、键向量;/>度量了通道m和n在图像的所有区域上提取的特征间的相似性;通道m和n提取的特征在语义上越相关,那么它们的亲和性越大;反之,它们的亲和性越小;通过把查询矩阵Qg和键矩阵Kg的转置相乘并执行softmax操作,得到第g个组的表示所有通道间的成对亲和性的矩阵Ag∈R(C/G)×(C/G):
其中,Ag的每一行中的元素之和为1;然后,用通道间的亲和性加权求和所有的通道来精细化每个通道的特征表示;通道m的精细化过程可以表示为:
其中,m=1,2,...,C/G,是矩阵Vg中的第j行,表示第g个通道组中通道j的值向量;该过程捕获了通道m的局部上下文,强调了在语义上与通道m相关性大的通道,抑制了相关性小的通道;第g个组中所有通道的细化可以定义为:
编码了局部通道上下文信息的矩阵Dg∈RHW×(C/G)通过相关语义的聚集强调了表示样本图像中车辆主体语义信息的通道。
自身通道上下文捕获的车辆的主体语义信息有利于区分外观差异较大的样本,但难以区分外观差异较小的样本。样本间的差异信息可以从所有样本的交互中学习到。为此,本发明引入了一个形状为K×M的通道方面的样本间上下文存储器I,它通过与所有样本进行交互捕获样本间的通道方面上下文来指导样本显式地推断哪些通道对辨别样本身份是重要的;将一个样本内每一个通道的邻域信息投影到存储器I上来实现这个样本与I的交互;首先,将矩阵Dg沿着第0个轴压缩得到向量dg∈RC/G,然后通过一个unflod操作提取dg中每一个元素的K个邻居的信息,形成矩阵Ug∈R(C/G)×K,
Ug=unflod(dg)=unflod(Avg(Dg)),
其中,Avg表示行方向上的平均池化,Ug中的第i行为第i个通道的K个邻居的信息;一个样本与存储器I的交互用公式表示为:
其中,Bg∈R(C/G)×M;矩阵Bg的第i行表示第g个组中第i个通道与样本间上下文信息的亲和性;对矩阵进行压缩并使用一个L1_Norm函数来得到样本间上下文指导的组内通道注意力图Tg∈RC/G,公式如下:
Tg=L1_Norm(Avg(Bg)),
其中,Avg表示沿列方向的平均池化,Tg中的值表示了每个通道对辨别样本身份的重要性,Y中的参数是通过与所有样本的交互学习到的,可以让样本的通道表示的精细化侧重于与样本身份相关的重要的通道上。为了减少参数量,所有通道组共享同一个存储器I。
在得到每个组的通道注意力图Tg后,将它们连接起来并实施跨组交互得到样本的通道注意力图T∈RC:
T=sorftmax(connect(T1,T2,...,TG));
通过softmax操作实现的跨组交互,强调了全局上重要的通道;先局部后全局的方式能够挖掘丰富的细粒度的重要语义特征;最后,将T的形状广播为H×W×(C/G)与子特征图Xg逐元素相乘后,再与输入特征图X逐元素相加,得到样本间上下文指导的通道注意力模块的输出特征图S∈RH×W×C,该过程可以表示为:
在本发明所提出的样本间上下文指导网络(ICGNet)的训练过程中,本发明采用了两种常用的损失函数,分别是交叉熵损失函数和三元组损失函数。除了使用这两种常用的损失函数外,本发明还采用了注意力监督约束来使注意力的学习聚焦在关键区域,进一步提高车辆重识别的准确度。如图1所示,实线表示三元组损失的计算,虚线表示经过全连接层(FC)后交叉熵损失的计算。
所述三元组损失的目标是使具有相同标签的样本在嵌入空间中尽可能地接近,而具有不同标签的样本则尽可能地保持距离。为了满足三元组损失的计算要求,本发明从训练数据集中随机选取P个身份和K个实例组成一个批量,三元组损失函数的公式如下:
其中,表示从锚点提取的特征,/>表示从正样本中提取的特征,/>表示从负样本中提取的特征,α是margin参数,用于拉大锚点与正样本对和锚点与负样本对之间的差距,[·]+代表的是max(·,0)。
所述交叉熵损失函数可以衡量同一随机变量中两个不同概率分布之间的差异程度。它通常用于衡量模型的预测分布与真实分布之间的差异。当模型的预测分布与真实分布越接近,交叉熵损失函数的值就越小,反之亦然。
所述交叉熵损失函数为:
其中,D是训练集中车辆的类别数,x是输入到网络中车辆图像的真实身份标签,Pm表示第m类的ID预测概率。
为了进一步提升注意力学习的效果,本发明提出了一种新颖的注意力监督约束,该约束强制带有注意力模块的网络的性能高于不带注意力模块的网络的性能,定义如下:
LASC=ASC(x)=exp(p′(x)-p(x)),
其中,p′(x)和p(x)分别表示不使用注意力模块和使用注意力模块时网络关于输入图像x的真实标签的预测概率。由于exp(·)的梯度是单调递增函数,因此,注意力模块的性能越低,该约束对网络的优化力度越大;反之,该约束对网络的优化力度越小。
所述样本间上下文指导网络ICGNet总的损失计算公式如下:
Ltotal=Ltriplet+Lid+LASC。
为了验证本发明所提出的样本间上下文指导的自注意力机制和样本间上下文指导网络的有效性,本发明在两个公开数据集Veri776和VehicleID上使用mAP、Rank-1和Rank-5精度等评估指标进行了大量的实验,实验结果如表1和表2所示,表明了本发明所提出的方法的达到了先进的水平。表1展示了本发明的方法在Veri776数据集上与现有方法的性能对比结果,可以看出,本发明的方法在mAP和Rank-1精度上分别达到了82.7%和96.3%,超过现有方法。表2通过在VehicleID数据集上使用Rank-1和Rank-5精度作为评估指标进行实验,进一步验证了ICGNet对于车辆重识别任务的高效性。具体来说,本发明的方法在大型集上Rank-1和Rank-5精度分别达到了73.2%、90.4%;在中型集上Rank-1和Rank-5精度分别达到了78.5%、93.3%;在小型集上Rank-1和Rank-5精度分别达到了81.6%、96.0%。
表1本发明的方法与现有的方法在Veri776上结果对比
方法 | mAP(%) | Rank-1(%) |
GMSI | 0.756 | 0.941 |
VARID | 0.793 | 0.960 |
SN++ | 0.757 | 0.951 |
MAM | 0.785 | 0.943 |
PVEN | 0.795 | 0.956 |
PRN | 0.743 | 0.943 |
MUSP | 0.780 | 0.956 |
LCDNet | 0.760 | 0.941 |
SPAN | 0.689 | 0.940 |
TCPM | 0.746 | 0.940 |
RAM | 0.615 | 0.886 |
AAVER | 0.612 | 0.890 |
VSCR | 0.755 | 0.941 |
本发明 | 0.827 | 0.963 |
表2本发明的方法与现有的方法在VehicleID上结果对比(%)
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应落入本发明的专利保护范围。
Claims (8)
1.一种基于样本间上下文指导网络的车辆重识别方法,其特征在于,包括:
步骤1、将车辆图像作为输入,将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络的骨干网络,在res_conv4_1块之后,ResNet50的后续部分被划分为三个独立的分支:Part-1、Global_Spatial、Global_Channel,来提取多样化的特征;
步骤2、在Global_Spatial、Global_Channel分支的res_conv5层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块,从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息,从而实现车辆重识别;
所述样本间上下文指导的空间注意力模块,结构为:
设样本的特征图X∈RH×W×C为空间模块的输入张量,其中H、W、C分别表示张量的高度、宽度和通道数;为了细化局部特征的表示,将张量X沿空间维度划分为多个规则的非重叠窗口,每个窗口Xi的维度为h×w×C,窗口的总数为P=N/hw,其中i=1,2,...,P,N=HW,h和w分别代表窗口的高度和宽度;在每个窗口内独立实施自注意力计算来捕获局部空间上下文;对于第i个窗口,首先通过三个参数不共享的1×1卷积层对Xi进行线性变换并变形为位置查询矩阵Qi∈Rhw×C,位置键矩阵Ki∈Rhw×C,位置值矩阵Vi∈Rhw×C,这三个矩阵中的第m行分别是窗口中位置m的查询向量、键向量和值向量;位置m和n之间的亲和性计算为:
其中,·表示向量的内积,度量了窗口的特征图中位置m和n的特征表示之间的相似性;
表示所有位置间的成对亲和性的矩阵Ai∈Rhw×hw通过将矩阵Qi和Ki的转置相乘,并对结果执行softmax操作来得到:
其中,表示矩阵乘法,Ai的每一行中的元素之和为1;然后,用位置间的亲和性加权求和所有位置的特征来精细化位置的特征表示,位置m处的精细化过程表示为:
其中,m=1,2,...,hw;窗口中所有位置的细化定义为:
引入一个大小为C×M的空间方面的样本间上下文存储器Y,一个样本与存储器Y的交互的公式如下:
其中,Bi∈Rhw×M,矩阵Bi的第i行表示窗口的特征图中的第i个位置与样本间的上下文信息的亲和性;将矩阵的形状压缩为hw×1,并使用一个L1_Norm函数来得到样本间上下文指导的窗口空间注意力图Ti,公式如下:
Ti=L1_Norm(Avg(Bi)),
其中,Avg表示沿通道方向的平均池化;矩阵Ti中的值反应了相应位置对辨别样本的身份的重要性;
在得到每个窗口的空间注意力图Ti后,将它们的形状都重塑为h×w;然后合并所有的窗口空间注意力图,并实施跨窗口交互操作得到样本的空间注意力图T∈RH×W×C:
将T广播为与输入特征图X相同的形状后,再与X逐元素相乘和相加,得到样本间上下文指导的空间注意力模块的输出特征图S∈RH×W×C,该过程表示为:
其中,⊙表示矩阵点乘,表示矩阵加法;
所述样本间上下文指导的通道注意力模块,结构为:
沿通道方向将输入特征图X∈RH×W×C均匀地划分为多个子特征图Xg∈RH×W×(C/G),g=1,2,…,G,其中,H、W、C分别表示特征图的高度、宽度和通道数,G表示分组数;每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的;将Xg重塑为二维张量后送入到三个线性投影层中,再经过转置操作得到三个形状相同的矩阵:通道查询矩阵Qg∈R(C/G)×N、通道键矩阵Kg∈R(C/G)×N和通道值矩阵Vg∈R(C/G)×N,其中N=H×W;第g个组中通道m和n之间的亲和性的计算过程被表示为:
其中,矩阵Qg中的第m行矩阵Kg中的第n行/>分别表示第g个组中通道m和n的查询向量、键向量;/>度量了通道m和n在图像的所有区域上提取的特征间的相似性;通过把查询矩阵Qg和键矩阵Kg的转置相乘并执行softmax操作,得到第g个组的表示所有通道间的成对亲和性的矩阵Ag∈R(C/G)×(C/G):
其中,Ag的每一行中的元素之和为1;通道m的精细化过程表示为:
其中,m=1,2,...,C/G,是矩阵Vg中的第j行,表示第g个通道组中通道j的值向量;第g个组中所有通道的细化定义为:
引入一个形状为K×M的通道方面的样本间上下文存储器I;将一个样本内每一个通道的邻域信息投影到存储器I上来实现这个样本与I的交互;首先,将矩阵Dg沿着第0个轴压缩得到向量dg∈RC/G,然后通过一个unflod操作提取dg中每一个元素的K个邻居的信息,形成矩阵Ug∈R(C/G)×K:
Ug=unflod(dg)=unflod(Avg(Dg)),
其中,Avg表示行方向上的平均池化,Ug中的第i行为第i个通道的K个邻居的信息;一个样本与存储器I的交互用公式表示为:
其中,Bg∈R(C/G)×M;矩阵Bg的第i行表示第g个组中第i个通道与样本间上下文信息的亲和性;对矩阵进行压缩并使用一个L1_Norm函数来得到样本间上下文指导的组内通道注意力图Tg∈RC/G,公式如下:
Tg=L1_Norm(Avg(Bg)),
其中,Avg表示沿列方向的平均池化,Tg中的值表示了每个通道对辨别样本身份的重要性;
在得到每个组的通道注意力图Tg后,将它们连接起来并实施跨组交互得到样本的通道注意力图T∈RC:
T=softmax(connect(T1,T2,...,TG));
最后,将T的形状广播为H×W×(C/G)与子特征图Xg逐元素相乘后,再与输入特征图X逐元素相加,得到样本间上下文指导的通道注意力模块的输出特征图S∈RH×W×C,该过程表示为:
2.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分,每个分支均采用全局平均池化操作和降维操作来学习紧凑的特征表示。
3.根据权利要求2所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量;降维操作将2048维的特征向量降维到256维;网络训练阶段,在每个256维特征向量上应用一个三元组损失,并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失;在网络的测试阶段,三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。
4.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,采用两种损失函数,分别是交叉熵损失函数和三元组损失函数,还采用了注意力监督约束来进一步提高车辆重识别的准确率。
5.根据权利要求4所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,从训练数据集中随机选取P个身份和K个实例组成一个批量,三元组损失函数的公式如下:
其中,表示从锚点提取的特征,/>表示从正样本中提取的特征,/>表示从负样本中提取的特征,α是margin参数,[·]+代表的是max(·,0)。
6.根据权利要求4所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述交叉熵损失函数为:
其中,D是训练集中车辆的类别数,x是输入到网络中车辆图像的真实身份标签,Pm表示第m类的ID预测概率。
7.根据权利要求4所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述注意力监督约束定义如下:
LASC=ASC(x)=exp(p′(x)-p(x)),
其中,p′(x)和p(x)分别表示不使用注意力模块和使用注意力模块时网络关于输入图像x的真实标签的预测概率。
8.根据权利要求4-7任一项所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述样本间上下文指导网络总的损失计算公式如下:
Ltotal=Ltriplet+Lid+LASC,
其中,Ltriplet为三元组损失函数,Lid为交叉熵损失函数,LASC为注意力监督约束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310542157.6A CN116311105B (zh) | 2023-05-15 | 2023-05-15 | 一种基于样本间上下文指导网络的车辆重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310542157.6A CN116311105B (zh) | 2023-05-15 | 2023-05-15 | 一种基于样本间上下文指导网络的车辆重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116311105A CN116311105A (zh) | 2023-06-23 |
CN116311105B true CN116311105B (zh) | 2023-09-19 |
Family
ID=86832718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310542157.6A Active CN116311105B (zh) | 2023-05-15 | 2023-05-15 | 一种基于样本间上下文指导网络的车辆重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311105B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665019B (zh) * | 2023-07-31 | 2023-09-29 | 山东交通学院 | 一种用于车辆重识别的多轴交互多维度注意力网络 |
CN116704453B (zh) * | 2023-08-08 | 2023-11-28 | 山东交通学院 | 一种采用自适应划分和先验强化部位学习网络进行车辆重识别的方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
CN111898431A (zh) * | 2020-06-24 | 2020-11-06 | 南京邮电大学 | 一种基于注意力机制部件遮挡的行人再识别方法 |
CN113420742A (zh) * | 2021-08-25 | 2021-09-21 | 山东交通学院 | 一种用于车辆重识别的全局注意力网络模型 |
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
CN114005078A (zh) * | 2021-12-31 | 2022-02-01 | 山东交通学院 | 一种基于双关系注意力机制的车辆重识别方法 |
WO2022041830A1 (zh) * | 2020-08-25 | 2022-03-03 | 北京京东尚科信息技术有限公司 | 行人重识别方法和装置 |
CN114241218A (zh) * | 2021-12-15 | 2022-03-25 | 杭州电子科技大学 | 一种基于逐级注意力机制的目标显著性检测方法 |
CN114758383A (zh) * | 2022-03-29 | 2022-07-15 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN114782977A (zh) * | 2021-04-28 | 2022-07-22 | 河南大学 | 一种基于拓扑信息和亲和度信息引导行人重识别方法 |
CN114821249A (zh) * | 2022-07-04 | 2022-07-29 | 山东交通学院 | 一种基于分组聚合注意力和局部关系的车辆重识别方法 |
CN115170638A (zh) * | 2022-07-13 | 2022-10-11 | 东北林业大学 | 一种双目视觉立体匹配网络系统及其构建方法 |
CN115393788A (zh) * | 2022-08-03 | 2022-11-25 | 华中农业大学 | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN115797884A (zh) * | 2023-02-09 | 2023-03-14 | 松立控股集团股份有限公司 | 一种基于类人视觉注意力加权的车辆重识别方法 |
CN115965789A (zh) * | 2023-01-21 | 2023-04-14 | 浙江大学 | 一种基于场景感知类注意力的遥感图像语义分割方法 |
-
2023
- 2023-05-15 CN CN202310542157.6A patent/CN116311105B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
CN111898431A (zh) * | 2020-06-24 | 2020-11-06 | 南京邮电大学 | 一种基于注意力机制部件遮挡的行人再识别方法 |
WO2022041830A1 (zh) * | 2020-08-25 | 2022-03-03 | 北京京东尚科信息技术有限公司 | 行人重识别方法和装置 |
CN114782977A (zh) * | 2021-04-28 | 2022-07-22 | 河南大学 | 一种基于拓扑信息和亲和度信息引导行人重识别方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN113420742A (zh) * | 2021-08-25 | 2021-09-21 | 山东交通学院 | 一种用于车辆重识别的全局注意力网络模型 |
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
CN114241218A (zh) * | 2021-12-15 | 2022-03-25 | 杭州电子科技大学 | 一种基于逐级注意力机制的目标显著性检测方法 |
CN114005078A (zh) * | 2021-12-31 | 2022-02-01 | 山东交通学院 | 一种基于双关系注意力机制的车辆重识别方法 |
CN114758383A (zh) * | 2022-03-29 | 2022-07-15 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN114821249A (zh) * | 2022-07-04 | 2022-07-29 | 山东交通学院 | 一种基于分组聚合注意力和局部关系的车辆重识别方法 |
CN115170638A (zh) * | 2022-07-13 | 2022-10-11 | 东北林业大学 | 一种双目视觉立体匹配网络系统及其构建方法 |
CN115393788A (zh) * | 2022-08-03 | 2022-11-25 | 华中农业大学 | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 |
CN115965789A (zh) * | 2023-01-21 | 2023-04-14 | 浙江大学 | 一种基于场景感知类注意力的遥感图像语义分割方法 |
CN115797884A (zh) * | 2023-02-09 | 2023-03-14 | 松立控股集团股份有限公司 | 一种基于类人视觉注意力加权的车辆重识别方法 |
Non-Patent Citations (5)
Title |
---|
Multi-Branch Context-Aware Network for Person Re-Identification;Yingxin Zhu等;2019 IEEE International Conference on Multimedia and Expo (ICME);712-717 * |
Vehicle Re-Identification Based on Global Relational Attention and Multi-Granularity Feature Learning;XIN TIAN等;IEEE ACCess;第10卷;2169-3536 * |
基于上下文的多路径空间编码图像语义分割方法;胡文俊;马秀丽;;工业控制计算机(08);83-85 * |
基于改进 BiSeNet的实时图像语义分割;任凤雷等;光学精密工程;第31卷(第8期);1217-1227 * |
面向跨媒体检索的层级循环注意力网络模型;綦金玮;彭宇新;袁玉鑫;;中国图象图形学报(11);139-146 * |
Also Published As
Publication number | Publication date |
---|---|
CN116311105A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116311105B (zh) | 一种基于样本间上下文指导网络的车辆重识别方法 | |
Chen et al. | Partition and reunion: A two-branch neural network for vehicle re-identification. | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN110728263A (zh) | 一种基于距离选择的强判别特征学习的行人重识别方法 | |
CN111738143B (zh) | 一种基于期望最大化的行人重识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN111582178B (zh) | 基于多方位信息和多分支神经网络车辆重识别方法及系统 | |
CN114170516B (zh) | 一种基于路侧感知的车辆重识别方法、装置及电子设备 | |
CN110765841A (zh) | 基于混合注意力机制的群组行人重识别系统及终端 | |
CN115171165A (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN114005078B (zh) | 一种基于双关系注意力机制的车辆重识别方法 | |
CN116844126A (zh) | 一种基于YOLOv7改进的复杂道路场景目标检测方法 | |
CN114926796A (zh) | 一种基于新式混合注意力模块的弯道检测方法 | |
Tang et al. | A Siamese network-based tracking framework for hyperspectral video | |
Huang et al. | Pedestrian detection using RetinaNet with multi-branch structure and double pooling attention mechanism | |
CN117218382A (zh) | 一种无人系统大跨度穿梭多摄像头轨迹跟踪识别方法 | |
Hou et al. | M-YOLO: an object detector based on global context information for infrared images | |
CN113939827A (zh) | 用于图像到视频重识别的系统和方法 | |
CN115393788B (zh) | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 | |
CN116229580A (zh) | 一种基于多粒度金字塔交叉网络的行人重识别方法 | |
CN113343810B (zh) | 基于时序多样性与相关性的行人重识别模型训练和识别方法与装置 | |
CN116030495A (zh) | 基于倍率学习的低分辨率行人重识别算法 | |
CN116665019B (zh) | 一种用于车辆重识别的多轴交互多维度注意力网络 | |
CN114005096B (zh) | 基于特征增强的车辆重识别方法 | |
CN112966569B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |