CN116311105A - 一种基于样本间上下文指导网络的车辆重识别方法 - Google Patents

一种基于样本间上下文指导网络的车辆重识别方法 Download PDF

Info

Publication number
CN116311105A
CN116311105A CN202310542157.6A CN202310542157A CN116311105A CN 116311105 A CN116311105 A CN 116311105A CN 202310542157 A CN202310542157 A CN 202310542157A CN 116311105 A CN116311105 A CN 116311105A
Authority
CN
China
Prior art keywords
sample
channel
matrix
inter
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310542157.6A
Other languages
English (en)
Other versions
CN116311105B (zh
Inventor
李曦
庞希愚
郑美凤
周厚仁
孙珂
田佳琛
周晓颖
王成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jiaotong University
Original Assignee
Shandong Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jiaotong University filed Critical Shandong Jiaotong University
Priority to CN202310542157.6A priority Critical patent/CN116311105B/zh
Publication of CN116311105A publication Critical patent/CN116311105A/zh
Application granted granted Critical
Publication of CN116311105B publication Critical patent/CN116311105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)

Abstract

本发明涉及车辆识别技术领域,具体地涉及一种基于样本间上下文指导网络的车辆重识别方法,提出了一种样本间上下文指导的自注意力机制,该机制让一个样本与样本间上下文交互来强调具有鉴别性的元素并指导该样本内语义信息的聚集,该机制首先捕获样本内的自身上下文来聚集图像中车辆的语义信息并抑制背景的干扰,然后让样本与样本间上下文交互来强调鉴别性的语义信息;样本间上下文指导的自注意力机制将自身上下文的学习和交互限制在局部范围内并通过跨局部连接聚集全局上感兴趣的信息,这样不仅有助于挖掘细微的鉴别性信息还能够降低计算量,大大提高了区分相似车辆的能力及识别效率。

Description

一种基于样本间上下文指导网络的车辆重识别方法
技术领域
本发明涉及车辆识别技术领域,具体地涉及一种基于样本间上下文指导网络的车辆重识别方法。
背景技术
车辆重识别旨在从图像库中检索出由非重叠摄像头拍摄的同一车辆的图像。该技术在智能交通、无人驾驶汽车和城市安全监控等领域有着巨大的应用前景。随着深度神经网络的兴起,一些基于卷积神经网络(Convolutional Neural Network,CNN)的车辆重识别方法陆续被提出并显著地提升了该任务的性能。但属于同一厂家和车型的不同车辆在整体外观上看起来可能非常相似,这种类间差异较小的问题使得车辆重识别仍然是一个非常具有挑战性的任务。从车辆的局部区域中提取细微的鉴别性信息对于区分外观相似的车辆至关重要。
自注意力机制通过用跨元素的成对自亲和性捕获样本内自身的上下文,能够有效地抑制背景的干扰并突出目标主体的语义信息。自注意力的工作原理是根据元素间的成对自亲和性聚合单个样本中所有元素的特征,来细化每个元素的表示。它可以聚集语义相关的特征,从而让网络能够关注图像中目标主体的信息来较好地刻画和表征样本的特性,并抑制复杂的背景信息。但自注意力在学习单个样本内自身上下文信息时忽略了与其它样本之间的潜在的相关信息,这限制了它区分相似车辆的能力。
发明内容
本发明的目的在于克服现有技术存在的缺点,提出设计一种基于样本间上下文指导网络的车辆重识别方法,结合样本内的自身上下文信息和样本间潜在的相关信息来挖掘更多有用的鉴别性线索,提高了区分相似车辆的能力。
本发明解决其技术问题所采取的技术方案是:
如图1所示,一种基于样本间上下文指导网络的车辆重识别方法,包括:
步骤1、将车辆图像作为输入,将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络(ICGNet)的骨干网络,在res_conv4_1块之后,ResNet50的后续部分被划分为三个独立的分支:Part-1、Global_Spatial、Global_Channel,来提取多样化的特征,每个分支的res_conv5_1 块设置为不采用下采样操作,用于保留丰富的细节信息;
步骤2、在Global_Spatial、Global_Channel分支的res_conv5 层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块,从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息,从而实现车辆重识别。
进一步的,为了提取更多的局部区域内的细微线索,所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分,每个分支均采用全局平均池化操作和降维操作来学习紧凑的特征表示。
进一步的,所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量;降维操作进一步地将2048维的特征向量降维到256维;网络训练阶段,在每个256维特征向量上应用一个三元组损失,并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失;在网络的测试阶段,三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。
进一步的,所述样本间上下文指导的空间注意力模块,旨在利用样本内的自身空间上下文信息和样本之间的潜在的相关信息来增强空间注意力建模的有效性,其结构为:
设样本的特征图
Figure SMS_3
为空间模块的输入张量,其中
Figure SMS_12
Figure SMS_19
Figure SMS_2
分别表示张量的高度、宽度和通道数;为了细化局部特征的表示,将张量
Figure SMS_13
沿空间维度划分为多个规则的非重叠窗口,每个窗口
Figure SMS_20
的维度为
Figure SMS_25
,窗口的总数为
Figure SMS_4
,其中
Figure SMS_9
Figure SMS_18
Figure SMS_24
Figure SMS_5
分别代表窗口的高度和宽度;在每个窗口内独立实施自注意力计算来捕获局部空间上下文;对于第
Figure SMS_8
个窗口,首先通过三个参数不共享的1×1卷积层对
Figure SMS_15
进行线性变换并变形为位置查询矩阵
Figure SMS_21
,位置键矩阵
Figure SMS_7
,位置值矩阵
Figure SMS_11
,这三个矩阵中的第
Figure SMS_16
Figure SMS_22
Figure SMS_1
Figure SMS_10
分别是窗口中位置
Figure SMS_17
的查询向量、键向量和值向量;位置
Figure SMS_23
Figure SMS_6
之间的亲和性
Figure SMS_14
计算为:
Figure SMS_26
其中,
Figure SMS_27
表示向量的内积,
Figure SMS_28
度量了窗口的特征图中位置
Figure SMS_29
Figure SMS_30
的特征表示之间的相似性;
表示所有位置间的成对亲和性的矩阵
Figure SMS_31
可以通过将矩阵
Figure SMS_32
Figure SMS_33
的转置相乘,并对结果执行
Figure SMS_34
操作来得到:
Figure SMS_35
其中,
Figure SMS_36
表示矩阵乘法,
Figure SMS_37
的每一行中的元素之和为1;然后,用位置间的亲和性加权求和所有位置的特征来精细化位置的特征表示,位置
Figure SMS_38
处的精细化过程可以表示为:
Figure SMS_39
其中,
Figure SMS_40
;窗口中所有位置的细化可以定义为:
Figure SMS_41
编码了局部空间上下文信息的矩阵
Figure SMS_42
通过相关语义的聚集突出了样本图像中车辆主体的语义信息所对应的位置,抑制了复杂背景所在的区域;
引入一个大小为
Figure SMS_43
的空间方面的样本间上下文存储器
Figure SMS_44
,它通过与所有样本进行交互来学习对整个数据集最具有鉴别性的空间方面的信息,一个样本与存储器
Figure SMS_45
的交互的公式如下:
Figure SMS_46
其中,
Figure SMS_47
,矩阵
Figure SMS_48
的第
Figure SMS_49
行表示窗口的特征图中的第
Figure SMS_50
个位置与样本间的上下文信息的亲和性;将矩阵的形状压缩为
Figure SMS_51
,并使用一个
Figure SMS_52
函数来得到样本间上下文指导的窗口空间注意力图
Figure SMS_53
,公式如下:
Figure SMS_54
其中,
Figure SMS_55
表示沿通道方向的平均池化;矩阵
Figure SMS_56
中的值反应了相应位置对辨别样本的身份的重要性,
Figure SMS_57
中的参数是在训练阶段从数据集所有样本的信息中学习到的,每一列可以视为车辆图像中的一个具有鉴别性的部位(区域)的信息;
在得到每个窗口的空间注意力图
Figure SMS_58
后,将它们的形状都重塑为
Figure SMS_59
;然后合并所有的窗口空间注意力图,并实施跨窗口交互操作得到样本的空间注意力图
Figure SMS_60
Figure SMS_61
通过
Figure SMS_62
操作实现的跨窗口交互,强调了全局上重要的位置;这些位置上的信息不仅包含主体语义中的鉴别性信息,还包含部件级的鉴别性信息。与在全局范围下学习样本自身上下文并借助存储器
Figure SMS_63
推断哪些位置是重要的这一方式相比,先局部后全局的方式不仅可以减少计算量,同时能够挖掘丰富的细微的鉴别性线索。最后,将
Figure SMS_64
广播为与输入特征图
Figure SMS_65
相同的形状后,再与
Figure SMS_66
逐元素相乘和相加,得到样本间上下文指导的空间注意力模块的输出特征图
Figure SMS_67
,该过程可以表示为:
Figure SMS_68
其中,
Figure SMS_69
表示矩阵点乘,
Figure SMS_70
表示矩阵加法。
进一步的,所述样本间上下文指导的通道注意力模块,旨在利用样本内的自身通道上下文信息和样本间上下文信息来增强通道注意力建模的有效性,其结构为:
沿通道方向将输入特征图
Figure SMS_73
均匀地划分为多个子特征图
Figure SMS_72
Figure SMS_82
,其中,
Figure SMS_71
Figure SMS_80
Figure SMS_76
分别表示特征图的高度、宽度和通道数,
Figure SMS_86
表示分组数;每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的;由于自注意力计算需要1维序列作为输入,将
Figure SMS_77
重塑为二维张量后送入到三个线性投影层中,再经过转置操作得到三个形状相同的矩阵:通道查询矩阵
Figure SMS_84
、通道键矩阵
Figure SMS_79
和通道值矩阵
Figure SMS_85
,其中
Figure SMS_75
;第
Figure SMS_81
个组中通道
Figure SMS_78
Figure SMS_83
之间的亲和性
Figure SMS_74
的计算过程可以被表示为:
Figure SMS_87
其中,矩阵
Figure SMS_93
中的第
Figure SMS_90
Figure SMS_99
、矩阵
Figure SMS_97
中的第
Figure SMS_105
Figure SMS_94
,分别表示第
Figure SMS_102
个组中通道
Figure SMS_92
Figure SMS_98
的查询向量、键向量;
Figure SMS_88
度量了通道
Figure SMS_100
Figure SMS_91
在图像的所有区域上提取的特征间的相似性;通道
Figure SMS_106
Figure SMS_95
提取的特征在语义上越相关,那么它们的亲和性越大;反之,它们的亲和性越小;通过把查询矩阵
Figure SMS_103
和键矩阵
Figure SMS_89
的转置相乘并执行
Figure SMS_101
操作,得到第
Figure SMS_96
个组的表示所有通道间的成对亲和性的矩阵
Figure SMS_104
Figure SMS_107
其中,
Figure SMS_108
的每一行中的元素之和为1;然后,用通道间的亲和性加权求和所有的通道来精细化每个通道的特征表示;通道
Figure SMS_109
的精细化过程可以表示为:
Figure SMS_110
其中,
Figure SMS_112
Figure SMS_116
是矩阵
Figure SMS_118
中的第
Figure SMS_113
行,表示第
Figure SMS_115
个通道组中通道
Figure SMS_117
的值向量;该过程捕获了通道
Figure SMS_119
的局部上下文,强调了在语义上与通道
Figure SMS_111
相关性大的通道,抑制了相关性小的通道;第
Figure SMS_114
个组中所有通道的细化可以定义为:
Figure SMS_120
编码了局部通道上下文信息的矩阵
Figure SMS_121
通过相关语义的聚集强调了表示样本图像中车辆主体语义信息的通道;
引入一个形状为
Figure SMS_124
的通道方面的样本间上下文存储器
Figure SMS_127
,它通过与所有样本进行交互捕获样本间的通道方面上下文来指导样本显式地推断哪些通道对辨别样本身份是重要的;将一个样本内每一个通道的邻域信息投影到存储器
Figure SMS_130
上来实现这个样本与
Figure SMS_123
的交互;首先,将矩阵
Figure SMS_126
沿着第0个轴压缩得到向量
Figure SMS_129
,然后通过一个
Figure SMS_131
操作提取
Figure SMS_122
中每一个元素的
Figure SMS_125
个邻居的信息,形成矩阵
Figure SMS_128
Figure SMS_132
其中,
Figure SMS_133
表示行方向上的平均池化,
Figure SMS_134
中的第
Figure SMS_135
行为第
Figure SMS_136
个通道的
Figure SMS_137
个邻居的信息;一个样本与存储器
Figure SMS_138
的交互用公式表示为:
Figure SMS_139
其中,
Figure SMS_140
;矩阵
Figure SMS_141
的第
Figure SMS_142
行表示第
Figure SMS_143
个组中第
Figure SMS_144
个通道与样本间上下文信息的亲和性;对矩阵进行压缩并使用一个
Figure SMS_145
函数来得到样本间上下文指导的组内通道注意力图
Figure SMS_146
,公式如下:
Figure SMS_147
其中,
Figure SMS_148
表示沿列方向的平均池化,
Figure SMS_149
中的值表示了每个通道对辨别样本身份的重要性,
Figure SMS_150
中的参数是通过与所有样本的交互学习到的,可以让样本的通道表示的精细化侧重于与样本身份相关的重要的通道上。为了减少参数量,所有通道组共享同一个存储器
Figure SMS_151
在得到每个组的通道注意力图
Figure SMS_152
后,将它们连接起来并实施跨组交互得到样本的通道注意力图
Figure SMS_153
Figure SMS_154
通过
Figure SMS_155
操作实现的跨组交互,强调了全局上重要的通道;先局部后全局的方式能够挖掘丰富的细粒度的重要语义特征;最后,将
Figure SMS_156
的形状广播为
Figure SMS_157
与子特征图
Figure SMS_158
逐元素相乘后,再与输入特征图
Figure SMS_159
逐元素相加,得到样本间上下文指导的通道注意力模块的输出特征图
Figure SMS_160
,该过程可以表示为:
Figure SMS_161
进一步的,本发明采用两种常用的损失函数,分别是交叉熵损失函数和三元组损失函数。除了使用这两种常用的损失函数外,还采用了注意力监督约束来使注意力的学习聚焦在关键区域,来进一步提高车辆重识别的准确度。
进一步的,从训练数据集中随机选取
Figure SMS_162
个身份和
Figure SMS_163
个实例组成一个批量,三元组损失函数的公式如下:
Figure SMS_164
其中,
Figure SMS_165
表示从锚点提取的特征,
Figure SMS_166
表示从正样本中提取的特征,
Figure SMS_167
表示从负样本中提取的特征,
Figure SMS_168
是margin参数,用于拉大锚点与正样本对和锚点与负样本对之间的差距,
Figure SMS_169
代表的是
Figure SMS_170
进一步的,所述交叉熵损失函数为:
Figure SMS_171
其中,
Figure SMS_172
是训练集中车辆的类别数,
Figure SMS_173
是输入到网络中车辆图像的真实身份标签,
Figure SMS_174
表示第
Figure SMS_175
类的ID预测概率。
进一步的,所述注意力监督约束定义如下:
Figure SMS_176
其中,
Figure SMS_177
Figure SMS_178
分别表示不使用注意力模块和使用注意力模块时网络关于输入图像
Figure SMS_179
的真实标签的预测概率。
进一步的,所述样本间上下文指导网络总的损失计算公式如下:
Figure SMS_180
其中,
Figure SMS_181
为三元组损失函数,
Figure SMS_182
为交叉熵损失函数,
Figure SMS_183
为注意力监督约束。
本发明的技术效果:
与现有技术相比,本发明的一种基于样本间上下文指导网络的车辆重识别方法,具有以下优点:
(1)为了有效地区分外观差异较小的车辆,本发明提出了一种样本间上下文指导的自注意力机制,该机制首先捕获样本内的自身上下文来聚集图像中车辆的语义信息并抑制背景的干扰,然后让样本与样本间上下文交互来强调鉴别性的语义信息;样本间上下文指导的自注意力机制将自身上下文的学习和交互限制在局部范围内并通过跨局部连接聚集全局上感兴趣的信息,这样不仅有助于挖掘细微的鉴别性信息还能够降低计算量,大大提高了区分相似车辆的能力及识别效率;
(2)本发明提出了一个样本间上下文指导的网络(ICGNet),该网络同时包含样本间上下文指导的空间注意力模块(ICG-S)和样本间上下文指导的通道注意力模块(ICG-C),从不同的维度学习鉴别性的主体语义信息和细粒度的语义信息;此外,还提出了一个注意力监督约束来进一步提升注意力学习的效果。
附图说明
图1为本发明车辆重识别方法的网络框架图;
图2为本发明样本间上下文指导的空间注意力模块结构图;
图3为本发明样本间上下文指导的通道注意力模块结构图;
图4为本发明特征图与车辆图像的对应关系图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合说明书附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例1:
如图1所示,本实施例涉及的一种基于样本间上下文指导网络的车辆重识别方法,包括:
步骤1、将车辆图像作为输入,采用网络架构简洁且表征能力强大的ResNet50作为特征提取的基础,并移除掉自带的全连接层,将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络(ICGNet)的骨干网络,在res_conv4_1块之后,ResNet50的后续部分被划分为三个独立的分支:Part-1、Global_Spatial、Global_Channel,来提取多样化的特征,每个分支的res_conv5_1 块设置为不采用下采样操作,用于保留丰富的细节信息;
步骤2、在Global_Spatial、Global_Channel分支的res_conv5 层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块,从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息,从而实现车辆重识别。
为了提取更多的局部区域内的细微线索,所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分,每个分支的后续部分具有相似的结构,它们都采用全局平均池化操作和降维操作来学习紧凑的特征表示。所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量;降维操作进一步地将2048维的特征向量降维到256维;在网络的训练阶段,本发明在每个256维特征向量上应用一个三元组损失,并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失;在网络的测试阶段,三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。其中,所述全局平均池化操作由一个逐点卷积、一个BN层和一个ReLU激活函数构成,BN层位于卷积层之后,ReLU激活函数之前。
为了从空间维度提取细微的鉴别性信息来增强网络区分相似车辆的能力,本发明设计了样本间上下文指导的空间注意力模块,该模块旨在利用样本内的自身空间上下文信息和样本之间的潜在的相关信息来增强空间注意力建模的有效性,其结构如图2所示:
设样本的特征图
Figure SMS_186
为空间模块的输入张量,其中
Figure SMS_196
Figure SMS_202
Figure SMS_185
分别表示张量的高度、宽度和通道数;为了细化局部特征的表示,将张量
Figure SMS_195
沿空间维度划分为多个规则的非重叠窗口,每个窗口
Figure SMS_201
的维度为
Figure SMS_207
,窗口的总数为
Figure SMS_187
,其中
Figure SMS_197
Figure SMS_203
Figure SMS_208
Figure SMS_190
分别代表窗口的高度和宽度;在每个窗口内独立实施自注意力计算来捕获局部空间上下文;对于第
Figure SMS_194
个窗口,首先通过三个参数不共享的1×1卷积层对
Figure SMS_200
进行线性变换并变形为位置查询矩阵
Figure SMS_206
,位置键矩阵
Figure SMS_188
,位置值矩阵
Figure SMS_193
,这三个矩阵中的第
Figure SMS_199
Figure SMS_205
Figure SMS_184
Figure SMS_191
分别是窗口中位置
Figure SMS_198
的查询向量、键向量和值向量;位置
Figure SMS_204
Figure SMS_189
之间的亲和性
Figure SMS_192
计算为:
Figure SMS_209
其中,
Figure SMS_210
表示向量的内积,
Figure SMS_211
度量了窗口的特征图中位置
Figure SMS_212
Figure SMS_213
的特征表示之间的相似性。
如图4所示,为特征图与车辆图像的对应关系图,特征图与车辆图像的对应关系,在车辆图像中,车辆引擎盖的两个区域用m、n表示,车灯所在的区域用u表示,它们分别对应特征图中的位置
Figure SMS_214
Figure SMS_215
Figure SMS_216
。引擎盖上的两个区域在语义上的关联要高于它们和车灯区域在语义上的关联。特征图中一个位置的特征表示编码了图像中一个对应区域的语义信息。因此,车辆图像中的区域在语义上越相关,那么它们在特征图中所对应的位置的特征表示之间的亲和性越大。如图3所示,车辆的引擎盖中的区域间的亲和性大于这些区域与车灯所在区域之间的亲和性。表示所有位置间的成对亲和性的矩阵
Figure SMS_217
可以通过将矩阵
Figure SMS_218
Figure SMS_219
的转置相乘,并对结果执行
Figure SMS_220
操作来得到:
Figure SMS_221
其中,
Figure SMS_222
表示矩阵乘法,
Figure SMS_223
的每一行中的元素之和为1;然后,用位置间的亲和性加权求和所有位置的特征来精细化位置的特征表示,位置
Figure SMS_224
处的精细化过程可以表示为:
Figure SMS_225
其中,
Figure SMS_226
;该过程捕获了位置
Figure SMS_227
的局部空间上下文,强调了在语义上与位置
Figure SMS_228
相关性大的位置,抑制了相关性小的位置;窗口中所有位置的细化可以定义为:
Figure SMS_229
编码了局部空间上下文信息的矩阵
Figure SMS_230
通过相关语义的聚集突出了样本图像中车辆主体的语义信息所对应的位置,抑制了复杂背景所在的区域;
利用跨位置交互捕获每个窗口的自身上下文并细化特征表示的过程,可以根据特征图位置间的亲和性也就是图像中区域的相似性过滤掉背景等噪声的干扰并建立相似区域间的依赖。但是,该过程没有显式的指明哪些位置的信息对辨别样本身份是重要的,同时,由于车灯、年检标志等小部件与其它部件在语义上的关联较小,因此这些部件的对区分相似样本身份非常关键的语义特征在整体上被赋予了较小的权重。显然,捕获样本之间的相关信息有利于判断特征图上哪些位置对辨别样本身份是重要的。为此,本发明引入一个大小为
Figure SMS_231
的空间方面的样本间上下文存储器
Figure SMS_232
,它通过与所有样本进行交互来学习对整个数据集最具有鉴别性的空间方面的信息,一个样本与存储器
Figure SMS_233
的交互的公式如下:
Figure SMS_234
其中,
Figure SMS_235
,矩阵
Figure SMS_236
的第
Figure SMS_237
行表示窗口的特征图中的第
Figure SMS_238
个位置与样本间的上下文信息的亲和性;将矩阵的形状压缩为
Figure SMS_239
,并使用一个
Figure SMS_240
函数来得到样本间上下文指导的窗口空间注意力图
Figure SMS_241
,公式如下:
Figure SMS_242
其中,
Figure SMS_243
表示沿通道方向的平均池化;矩阵
Figure SMS_244
中的值反应了相应位置对辨别样本的身份的重要性,
Figure SMS_245
中的参数是在训练阶段从数据集所有样本的信息中学习到的,每一列可以视为车辆图像中的一个具有鉴别性的部位(区域)的信息;为了使空间注意力模块对图像具有翻转、平移等不变性,所有窗口共享同一个存储器
Figure SMS_246
。在以端到端的方式进行反向传播优化模块的过程中,跨样本交互得到的
Figure SMS_247
中的信息会使得样本内自身上下文的学习集中在对区分样本身份有用的位置上。
在得到每个窗口的空间注意力图
Figure SMS_248
后,将它们的形状都重塑为
Figure SMS_249
;然后合并所有的窗口空间注意力图,并实施跨窗口交互操作得到样本的空间注意力图
Figure SMS_250
Figure SMS_251
通过
Figure SMS_252
操作实现的跨窗口交互,强调了全局上重要的位置;这些位置上的信息不仅包含主体语义中的鉴别性信息,还包含部件级的鉴别性信息。与在全局范围下学习样本自身上下文并借助存储器
Figure SMS_253
推断哪些位置是重要的这一方式相比,先局部后全局的方式不仅可以减少计算量,同时能够挖掘丰富的细微的鉴别性线索。最后,将
Figure SMS_254
广播为与输入特征图
Figure SMS_255
相同的形状后,再与
Figure SMS_256
逐元素相乘和相加,得到样本间上下文指导的空间注意力模块的输出特征图
Figure SMS_257
;该过程可以表示为:
Figure SMS_258
其中,
Figure SMS_259
表示矩阵点乘,
Figure SMS_260
表示矩阵加法。
为了从通道维度提取丰富的细粒度的与样本身份相关的语义特征来区分相似的车辆样本,本发明设计了样本间上下文指导的通道注意力模块,该模块旨在利用样本内的自身通道上下文信息和样本间上下文信息来增强通道注意力建模的有效性,其结构如图3所示:
沿通道方向将输入特征图
Figure SMS_262
均匀地划分为多个子特征图
Figure SMS_268
Figure SMS_272
,其中,
Figure SMS_264
Figure SMS_273
Figure SMS_265
分别表示特征图的高度、宽度和通道数,
Figure SMS_275
表示分组数。每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的。由于自注意力计算需要1维序列作为输入,本发明把
Figure SMS_269
重塑为二维张量后送入到三个线性投影层中,再经过转置操作得到三个形状相同的矩阵:通道查询矩阵
Figure SMS_276
、通道键矩阵
Figure SMS_261
和通道值矩阵
Figure SMS_271
,其中
Figure SMS_266
。第
Figure SMS_274
个组中通道
Figure SMS_267
Figure SMS_270
之间的亲和性
Figure SMS_263
的计算过程可以被表示为:
Figure SMS_277
其中,矩阵
Figure SMS_279
中的第
Figure SMS_285
Figure SMS_292
、矩阵
Figure SMS_283
中的第
Figure SMS_291
Figure SMS_282
,分别表示第
Figure SMS_290
个组中通道
Figure SMS_284
Figure SMS_289
的查询向量、键向量;
Figure SMS_278
度量了通道
Figure SMS_294
Figure SMS_281
在图像的所有区域上提取的特征间的相似性;通道
Figure SMS_296
Figure SMS_287
提取的特征在语义上越相关,那么它们的亲和性越大;反之,它们的亲和性越小;通过把查询矩阵
Figure SMS_295
和键矩阵
Figure SMS_280
的转置相乘并执行
Figure SMS_288
操作,得到第
Figure SMS_286
个组的表示所有通道间的成对亲和性的矩阵
Figure SMS_293
Figure SMS_297
其中,
Figure SMS_298
的每一行中的元素之和为1;然后,用通道间的亲和性加权求和所有的通道来精细化每个通道的特征表示;通道
Figure SMS_299
的精细化过程可以表示为:
Figure SMS_300
其中,
Figure SMS_302
Figure SMS_306
是矩阵
Figure SMS_308
中的第
Figure SMS_303
行,表示第
Figure SMS_305
个通道组中通道
Figure SMS_307
的值向量;该过程捕获了通道
Figure SMS_309
的局部上下文,强调了在语义上与通道
Figure SMS_301
相关性大的通道,抑制了相关性小的通道;第
Figure SMS_304
个组中所有通道的细化可以定义为:
Figure SMS_310
编码了局部通道上下文信息的矩阵
Figure SMS_311
通过相关语义的聚集强调了表示样本图像中车辆主体语义信息的通道。
自身通道上下文捕获的车辆的主体语义信息有利于区分外观差异较大的样本,但难以区分外观差异较小的样本。样本间的差异信息可以从所有样本的交互中学习到。为此,本发明引入了一个形状为
Figure SMS_313
的通道方面的样本间上下文存储器
Figure SMS_317
,它通过与所有样本进行交互捕获样本间的通道方面上下文来指导样本显式地推断哪些通道对辨别样本身份是重要的;将一个样本内每一个通道的邻域信息投影到存储器
Figure SMS_320
上来实现这个样本与
Figure SMS_314
的交互;首先,将矩阵
Figure SMS_316
沿着第0个轴压缩得到向量
Figure SMS_319
,然后通过一个
Figure SMS_321
操作提取
Figure SMS_312
中每一个元素的
Figure SMS_315
个邻居的信息,形成矩阵
Figure SMS_318
Figure SMS_322
其中,
Figure SMS_323
表示行方向上的平均池化,
Figure SMS_324
中的第
Figure SMS_325
行为第
Figure SMS_326
个通道的
Figure SMS_327
个邻居的信息;一个样本与存储器
Figure SMS_328
的交互用公式表示为:
Figure SMS_329
其中,
Figure SMS_330
;矩阵
Figure SMS_331
的第
Figure SMS_332
行表示第
Figure SMS_333
个组中第
Figure SMS_334
个通道与样本间上下文信息的亲和性;对矩阵进行压缩并使用一个
Figure SMS_335
函数来得到样本间上下文指导的组内通道注意力图
Figure SMS_336
,公式如下:
Figure SMS_337
其中,
Figure SMS_338
表示沿列方向的平均池化,
Figure SMS_339
中的值表示了每个通道对辨别样本身份的重要性,
Figure SMS_340
中的参数是通过与所有样本的交互学习到的,可以让样本的通道表示的精细化侧重于与样本身份相关的重要的通道上。为了减少参数量,所有通道组共享同一个存储器
Figure SMS_341
在得到每个组的通道注意力图
Figure SMS_342
后,将它们连接起来并实施跨组交互得到样本的通道注意力图
Figure SMS_343
Figure SMS_344
通过
Figure SMS_345
操作实现的跨组交互,强调了全局上重要的通道;先局部后全局的方式能够挖掘丰富的细粒度的重要语义特征;最后,将
Figure SMS_346
的形状广播为
Figure SMS_347
与子特征图
Figure SMS_348
逐元素相乘后,再与输入特征图
Figure SMS_349
逐元素相加,得到样本间上下文指导的通道注意力模块的输出特征图
Figure SMS_350
,该过程可以表示为:
Figure SMS_351
在本发明所提出的样本间上下文指导网络(ICGNet)的训练过程中,本发明采用了两种常用的损失函数,分别是交叉熵损失函数和三元组损失函数。除了使用这两种常用的损失函数外,本发明还采用了注意力监督约束来使注意力的学习聚焦在关键区域,进一步提高车辆重识别的准确度。如图1所示,实线表示三元组损失的计算,虚线表示经过全连接层(FC)后交叉熵损失的计算。
所述三元组损失的目标是使具有相同标签的样本在嵌入空间中尽可能地接近,而具有不同标签的样本则尽可能地保持距离。为了满足三元组损失的计算要求,本发明从训练数据集中随机选取
Figure SMS_352
个身份和
Figure SMS_353
个实例组成一个批量,三元组损失函数的公式如下:
Figure SMS_354
其中,
Figure SMS_355
表示从锚点提取的特征,
Figure SMS_356
表示从正样本中提取的特征,
Figure SMS_357
表示从负样本中提取的特征,
Figure SMS_358
是margin参数,用于拉大锚点与正样本对和锚点与负样本对之间的差距,
Figure SMS_359
代表的是
Figure SMS_360
所述交叉熵损失函数可以衡量同一随机变量中两个不同概率分布之间的差异程度。它通常用于衡量模型的预测分布与真实分布之间的差异。当模型的预测分布与真实分布越接近,交叉熵损失函数的值就越小,反之亦然。
所述交叉熵损失函数为:
Figure SMS_361
其中,
Figure SMS_362
是训练集中车辆的类别数,
Figure SMS_363
是输入到网络中车辆图像的真实身份标签,
Figure SMS_364
表示第
Figure SMS_365
类的ID预测概率。
为了进一步提升注意力学习的效果,本发明提出了一种新颖的注意力监督约束,该约束强制带有注意力模块的网络的性能高于不带注意力模块的网络的性能,定义如下:
Figure SMS_366
其中,
Figure SMS_367
Figure SMS_368
分别表示不使用注意力模块和使用注意力模块时网络关于输入图像
Figure SMS_369
的真实标签的预测概率。由于exp(·)的梯度是单调递增函数,因此,注意力模块的性能越低,该约束对网络的优化力度越大;反之,该约束对网络的优化力度越小。
所述样本间上下文指导网络ICGNet总的损失计算公式如下:
Figure SMS_370
为了验证本发明所提出的样本间上下文指导的自注意力机制和样本间上下文指导网络的有效性,本发明在两个公开数据集Veri776和VehicleID上使用mAP、Rank-1和Rank-5精度等评估指标进行了大量的实验,实验结果如表1和表2所示,表明了本发明所提出的方法的达到了先进的水平。表1展示了本发明的方法在Veri776数据集上与现有方法的性能对比结果,可以看出,本发明的方法在mAP和Rank-1精度上分别达到了82.7%和96.3%,超过现有方法。表2通过在VehicleID数据集上使用Rank-1和Rank-5精度作为评估指标进行实验,进一步验证了ICGNet对于车辆重识别任务的高效性。具体来说,本发明的方法在大型集上Rank-1和Rank-5精度分别达到了73.2%、90.4%;在中型集上Rank-1和Rank-5精度分别达到了78.5%、93.3%;在小型集上Rank-1和Rank-5精度分别达到了81.6%、96.0%。
表1 本发明的方法与现有的方法在Veri776上结果对比
Figure SMS_371
表2 本发明的方法与现有的方法在VehicleID上结果对比(%)
Figure SMS_372
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应落入本发明的专利保护范围。

Claims (10)

1.一种基于样本间上下文指导网络的车辆重识别方法,其特征在于,包括:
步骤1、将车辆图像作为输入,将ResNet50网络的res_conv4_1块之前的残差层作为样本间上下文指导网络的骨干网络,在res_conv4_1块之后,ResNet50的后续部分被划分为三个独立的分支:Part-1、Global_Spatial、Global_Channel,来提取多样化的特征;
步骤2、在Global_Spatial、Global_Channel分支的res_conv5层之后分别追加一个带有注意力监督约束的样本间上下文指导的空间注意力模块、样本间上下文指导的通道注意力模块,从空间维度和通道维度学习与车辆身份相关的鉴别性的主体语义信息和鉴别性的细粒度信息,从而实现车辆重识别。
2.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述Part-1分支的res_conv5层输出的特征图沿水平方向刚性地划分为两部分,每个分支均采用全局平均池化操作和降维操作来学习紧凑的特征表示。
3.根据权利要求2所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述全局平均池化操作将Part-1分支的两个局部特征图和Global_Spatial分支、Global_Channel分支的最终输出的特征图压缩为2048维的特征向量;降维操作将2048维的特征向量降维到256维;网络训练阶段,在每个256维特征向量上应用一个三元组损失,并使用全连接层把特征向量的维数转换为车辆的数目用于计算交叉熵损失;在网络的测试阶段,三个分支输出的四个256维的特征向量被连接起来作为最终的特征嵌入。
4.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述样本间上下文指导的空间注意力模块,结构为:
设样本的特征图
Figure QLYQS_6
为空间模块的输入张量,其中
Figure QLYQS_13
Figure QLYQS_20
Figure QLYQS_5
分别表示张量的高度、宽度和通道数;为了细化局部特征的表示,将张量
Figure QLYQS_11
沿空间维度划分为多个规则的非重叠窗口,每个窗口
Figure QLYQS_18
的维度为
Figure QLYQS_24
,窗口的总数为
Figure QLYQS_2
,其中
Figure QLYQS_12
Figure QLYQS_19
Figure QLYQS_25
Figure QLYQS_4
分别代表窗口的高度和宽度;在每个窗口内独立实施自注意力计算来捕获局部空间上下文;对于第
Figure QLYQS_10
个窗口,首先通过三个参数不共享的1×1卷积层对
Figure QLYQS_17
进行线性变换并变形为位置查询矩阵
Figure QLYQS_23
,位置键矩阵
Figure QLYQS_7
,位置值矩阵
Figure QLYQS_8
,这三个矩阵中的第
Figure QLYQS_15
Figure QLYQS_21
Figure QLYQS_1
Figure QLYQS_9
分别是窗口中位置
Figure QLYQS_16
的查询向量、键向量和值向量;位置
Figure QLYQS_22
Figure QLYQS_3
之间的亲和性
Figure QLYQS_14
计算为:
Figure QLYQS_26
其中,
Figure QLYQS_27
表示向量的内积,
Figure QLYQS_28
度量了窗口的特征图中位置
Figure QLYQS_29
Figure QLYQS_30
的特征表示之间的相似性;
表示所有位置间的成对亲和性的矩阵
Figure QLYQS_31
通过将矩阵
Figure QLYQS_32
Figure QLYQS_33
的转置相乘,并对结果执行
Figure QLYQS_34
操作来得到:
Figure QLYQS_35
其中,
Figure QLYQS_36
表示矩阵乘法,
Figure QLYQS_37
的每一行中的元素之和为1;然后,用位置间的亲和性加权求和所有位置的特征来精细化位置的特征表示,位置
Figure QLYQS_38
处的精细化过程表示为:
Figure QLYQS_39
其中,
Figure QLYQS_40
;窗口中所有位置的细化定义为:
Figure QLYQS_41
引入一个大小为
Figure QLYQS_42
的空间方面的样本间上下文存储器
Figure QLYQS_43
,一个样本与存储器
Figure QLYQS_44
的交互的公式如下:
Figure QLYQS_45
其中,
Figure QLYQS_46
,矩阵
Figure QLYQS_47
的第
Figure QLYQS_48
行表示窗口的特征图中的第
Figure QLYQS_49
个位置与样本间的上下文信息的亲和性;将矩阵的形状压缩为
Figure QLYQS_50
,并使用一个
Figure QLYQS_51
函数来得到样本间上下文指导的窗口空间注意力图
Figure QLYQS_52
,公式如下:
Figure QLYQS_53
其中,
Figure QLYQS_54
表示沿通道方向的平均池化;矩阵
Figure QLYQS_55
中的值反应了相应位置对辨别样本的身份的重要性;
在得到每个窗口的空间注意力图
Figure QLYQS_56
后,将它们的形状都重塑为
Figure QLYQS_57
;然后合并所有的窗口空间注意力图,并实施跨窗口交互操作得到样本的空间注意力图
Figure QLYQS_58
Figure QLYQS_59
Figure QLYQS_60
广播为与输入特征图
Figure QLYQS_61
相同的形状后,再与
Figure QLYQS_62
逐元素相乘和相加,得到样本间上下文指导的空间注意力模块的输出特征图
Figure QLYQS_63
,该过程表示为:
Figure QLYQS_64
其中,
Figure QLYQS_65
表示矩阵点乘,
Figure QLYQS_66
表示矩阵加法。
5.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述样本间上下文指导的通道注意力模块,结构为:
沿通道方向将输入特征图
Figure QLYQS_67
均匀地划分为多个子特征图
Figure QLYQS_69
Figure QLYQS_76
,其中,
Figure QLYQS_72
Figure QLYQS_81
Figure QLYQS_73
分别表示特征图的高度、宽度和通道数,
Figure QLYQS_78
表示分组数;每个组的自身局部通道上下文是通过独立执行自注意力计算来捕获到的;将
Figure QLYQS_74
重塑为二维张量后送入到三个线性投影层中,再经过转置操作得到三个形状相同的矩阵:通道查询矩阵
Figure QLYQS_82
、通道键矩阵
Figure QLYQS_75
和通道值矩阵
Figure QLYQS_79
,其中
Figure QLYQS_68
;第
Figure QLYQS_77
个组中通道
Figure QLYQS_70
Figure QLYQS_80
之间的亲和性
Figure QLYQS_71
的计算过程被表示为:
Figure QLYQS_83
其中,矩阵
Figure QLYQS_87
中的第
Figure QLYQS_85
Figure QLYQS_97
、矩阵
Figure QLYQS_89
中的第
Figure QLYQS_95
Figure QLYQS_91
,分别表示第
Figure QLYQS_100
个组中通道
Figure QLYQS_90
Figure QLYQS_96
的查询向量、键向量;
Figure QLYQS_84
度量了通道
Figure QLYQS_93
Figure QLYQS_86
在图像的所有区域上提取的特征间的相似性;通过把查询矩阵
Figure QLYQS_94
和键矩阵
Figure QLYQS_92
的转置相乘并执行
Figure QLYQS_99
操作,得到第
Figure QLYQS_88
个组的表示所有通道间的成对亲和性的矩阵
Figure QLYQS_98
Figure QLYQS_101
其中,
Figure QLYQS_102
的每一行中的元素之和为1;通道
Figure QLYQS_103
的精细化过程表示为:
Figure QLYQS_104
其中,
Figure QLYQS_105
Figure QLYQS_106
是矩阵
Figure QLYQS_107
中的第
Figure QLYQS_108
行,表示第
Figure QLYQS_109
个通道组中通道
Figure QLYQS_110
的值向量;第
Figure QLYQS_111
个组中所有通道的细化定义为:
Figure QLYQS_112
引入一个形状为
Figure QLYQS_113
的通道方面的样本间上下文存储器
Figure QLYQS_117
;将一个样本内每一个通道的邻域信息投影到存储器
Figure QLYQS_120
上来实现这个样本与
Figure QLYQS_115
的交互;首先,将矩阵
Figure QLYQS_118
沿着第0个轴压缩得到向量
Figure QLYQS_121
,然后通过一个
Figure QLYQS_122
操作提取
Figure QLYQS_114
中每一个元素的
Figure QLYQS_116
个邻居的信息,形成矩阵
Figure QLYQS_119
Figure QLYQS_123
其中,
Figure QLYQS_124
表示行方向上的平均池化,
Figure QLYQS_125
中的第
Figure QLYQS_126
行为第
Figure QLYQS_127
个通道的
Figure QLYQS_128
个邻居的信息;一个样本与存储器
Figure QLYQS_129
的交互用公式表示为:
Figure QLYQS_130
其中,
Figure QLYQS_131
;矩阵
Figure QLYQS_132
的第
Figure QLYQS_133
行表示第
Figure QLYQS_134
个组中第
Figure QLYQS_135
个通道与样本间上下文信息的亲和性;对矩阵进行压缩并使用一个
Figure QLYQS_136
函数来得到样本间上下文指导的组内通道注意力图
Figure QLYQS_137
,公式如下:
Figure QLYQS_138
其中,
Figure QLYQS_139
表示沿列方向的平均池化,
Figure QLYQS_140
中的值表示了每个通道对辨别样本身份的重要性;
在得到每个组的通道注意力图
Figure QLYQS_141
后,将它们连接起来并实施跨组交互得到样本的通道注意力图
Figure QLYQS_142
Figure QLYQS_143
最后,将
Figure QLYQS_144
的形状广播为
Figure QLYQS_145
与子特征图
Figure QLYQS_146
逐元素相乘后,再与输入特征图
Figure QLYQS_147
逐元素相加,得到样本间上下文指导的通道注意力模块的输出特征图
Figure QLYQS_148
,该过程表示为:
Figure QLYQS_149
6.根据权利要求1所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,采用两种损失函数,分别是交叉熵损失函数和三元组损失函数,还采用了注意力监督约束来进一步提高车辆重识别的准确率。
7.根据权利要求6所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,从训练数据集中随机选取
Figure QLYQS_150
个身份和
Figure QLYQS_151
个实例组成一个批量,三元组损失函数的公式如下:
Figure QLYQS_152
其中,
Figure QLYQS_153
表示从锚点提取的特征,
Figure QLYQS_154
表示从正样本中提取的特征,
Figure QLYQS_155
表示从负样本中提取的特征,
Figure QLYQS_156
是margin参数,
Figure QLYQS_157
代表的是
Figure QLYQS_158
8.根据权利要求6所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述交叉熵损失函数为:
Figure QLYQS_159
其中,
Figure QLYQS_160
是训练集中车辆的类别数,
Figure QLYQS_161
是输入到网络中车辆图像的真实身份标签,
Figure QLYQS_162
表示第
Figure QLYQS_163
类的ID预测概率。
9.根据权利要求6所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述注意力监督约束定义如下:
Figure QLYQS_164
其中,
Figure QLYQS_165
Figure QLYQS_166
分别表示不使用注意力模块和使用注意力模块时网络关于输入图像
Figure QLYQS_167
的真实标签的预测概率。
10.根据权利要求6-9任一项所述的基于样本间上下文指导网络的车辆重识别方法,其特征在于,所述样本间上下文指导网络总的损失计算公式如下:
Figure QLYQS_168
其中,
Figure QLYQS_169
为三元组损失函数,
Figure QLYQS_170
为交叉熵损失函数,
Figure QLYQS_171
为注意力监督约束。
CN202310542157.6A 2023-05-15 2023-05-15 一种基于样本间上下文指导网络的车辆重识别方法 Active CN116311105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310542157.6A CN116311105B (zh) 2023-05-15 2023-05-15 一种基于样本间上下文指导网络的车辆重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310542157.6A CN116311105B (zh) 2023-05-15 2023-05-15 一种基于样本间上下文指导网络的车辆重识别方法

Publications (2)

Publication Number Publication Date
CN116311105A true CN116311105A (zh) 2023-06-23
CN116311105B CN116311105B (zh) 2023-09-19

Family

ID=86832718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310542157.6A Active CN116311105B (zh) 2023-05-15 2023-05-15 一种基于样本间上下文指导网络的车辆重识别方法

Country Status (1)

Country Link
CN (1) CN116311105B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665019A (zh) * 2023-07-31 2023-08-29 山东交通学院 一种用于车辆重识别的多轴交互多维度注意力网络
CN116704453A (zh) * 2023-08-08 2023-09-05 山东交通学院 用于车辆重识别的自适应划分和先验强化部位学习网络

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN111626300A (zh) * 2020-05-07 2020-09-04 南京邮电大学 基于上下文感知的图像语义分割模型及建模方法
CN111898431A (zh) * 2020-06-24 2020-11-06 南京邮电大学 一种基于注意力机制部件遮挡的行人再识别方法
CN113420742A (zh) * 2021-08-25 2021-09-21 山东交通学院 一种用于车辆重识别的全局注意力网络模型
CN113822246A (zh) * 2021-11-22 2021-12-21 山东交通学院 一种基于全局参考注意力机制的车辆重识别方法
CN114005078A (zh) * 2021-12-31 2022-02-01 山东交通学院 一种基于双关系注意力机制的车辆重识别方法
WO2022041830A1 (zh) * 2020-08-25 2022-03-03 北京京东尚科信息技术有限公司 行人重识别方法和装置
CN114241218A (zh) * 2021-12-15 2022-03-25 杭州电子科技大学 一种基于逐级注意力机制的目标显著性检测方法
CN114758383A (zh) * 2022-03-29 2022-07-15 河南工业大学 基于注意力调制上下文空间信息的表情识别方法
CN114782977A (zh) * 2021-04-28 2022-07-22 河南大学 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN114821249A (zh) * 2022-07-04 2022-07-29 山东交通学院 一种基于分组聚合注意力和局部关系的车辆重识别方法
CN115170638A (zh) * 2022-07-13 2022-10-11 东北林业大学 一种双目视觉立体匹配网络系统及其构建方法
CN115393788A (zh) * 2022-08-03 2022-11-25 华中农业大学 一种基于增强全局信息注意力的多尺度监控行人重识别方法
WO2023273290A1 (zh) * 2021-06-29 2023-01-05 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN115797884A (zh) * 2023-02-09 2023-03-14 松立控股集团股份有限公司 一种基于类人视觉注意力加权的车辆重识别方法
CN115965789A (zh) * 2023-01-21 2023-04-14 浙江大学 一种基于场景感知类注意力的遥感图像语义分割方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN111626300A (zh) * 2020-05-07 2020-09-04 南京邮电大学 基于上下文感知的图像语义分割模型及建模方法
CN111898431A (zh) * 2020-06-24 2020-11-06 南京邮电大学 一种基于注意力机制部件遮挡的行人再识别方法
WO2022041830A1 (zh) * 2020-08-25 2022-03-03 北京京东尚科信息技术有限公司 行人重识别方法和装置
CN114782977A (zh) * 2021-04-28 2022-07-22 河南大学 一种基于拓扑信息和亲和度信息引导行人重识别方法
WO2023273290A1 (zh) * 2021-06-29 2023-01-05 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN113420742A (zh) * 2021-08-25 2021-09-21 山东交通学院 一种用于车辆重识别的全局注意力网络模型
CN113822246A (zh) * 2021-11-22 2021-12-21 山东交通学院 一种基于全局参考注意力机制的车辆重识别方法
CN114241218A (zh) * 2021-12-15 2022-03-25 杭州电子科技大学 一种基于逐级注意力机制的目标显著性检测方法
CN114005078A (zh) * 2021-12-31 2022-02-01 山东交通学院 一种基于双关系注意力机制的车辆重识别方法
CN114758383A (zh) * 2022-03-29 2022-07-15 河南工业大学 基于注意力调制上下文空间信息的表情识别方法
CN114821249A (zh) * 2022-07-04 2022-07-29 山东交通学院 一种基于分组聚合注意力和局部关系的车辆重识别方法
CN115170638A (zh) * 2022-07-13 2022-10-11 东北林业大学 一种双目视觉立体匹配网络系统及其构建方法
CN115393788A (zh) * 2022-08-03 2022-11-25 华中农业大学 一种基于增强全局信息注意力的多尺度监控行人重识别方法
CN115965789A (zh) * 2023-01-21 2023-04-14 浙江大学 一种基于场景感知类注意力的遥感图像语义分割方法
CN115797884A (zh) * 2023-02-09 2023-03-14 松立控股集团股份有限公司 一种基于类人视觉注意力加权的车辆重识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIN TIAN等: "Vehicle Re-Identification Based on Global Relational Attention and Multi-Granularity Feature Learning", IEEE ACCESS, vol. 10, pages 2169 - 3536 *
YINGXIN ZHU等: "Multi-Branch Context-Aware Network for Person Re-Identification", 2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), pages 712 - 717 *
任凤雷等: "基于改进 BiSeNet的实时图像语义分割", 光学精密工程, vol. 31, no. 8, pages 1217 - 1227 *
綦金玮;彭宇新;袁玉鑫;: "面向跨媒体检索的层级循环注意力网络模型", 中国图象图形学报, no. 11, pages 139 - 146 *
胡文俊;马秀丽;: "基于上下文的多路径空间编码图像语义分割方法", 工业控制计算机, no. 08, pages 83 - 85 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665019A (zh) * 2023-07-31 2023-08-29 山东交通学院 一种用于车辆重识别的多轴交互多维度注意力网络
CN116665019B (zh) * 2023-07-31 2023-09-29 山东交通学院 一种用于车辆重识别的多轴交互多维度注意力网络
CN116704453A (zh) * 2023-08-08 2023-09-05 山东交通学院 用于车辆重识别的自适应划分和先验强化部位学习网络
CN116704453B (zh) * 2023-08-08 2023-11-28 山东交通学院 一种采用自适应划分和先验强化部位学习网络进行车辆重识别的方法

Also Published As

Publication number Publication date
CN116311105B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
Li et al. Unsupervised learning of edges
CN116311105A (zh) 一种基于样本间上下文指导网络的车辆重识别方法
Li et al. Temporal bilinear networks for video action recognition
Yang et al. Diffusion model as representation learner
CN111582225A (zh) 一种遥感图像场景分类方法及装置
CN109165612B (zh) 基于深度特征和双向knn排序优化的行人再识别方法
CN115222994A (zh) 一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法
CN112580480B (zh) 一种高光谱遥感影像分类方法及装置
CN112836637B (zh) 一种基于空间逆向注意网络的行人重识别方法
CN113221680B (zh) 基于文本动态引导视觉特征提炼的文本行人检索方法
CN116030495A (zh) 基于倍率学习的低分辨率行人重识别算法
Hou et al. M-YOLO: an object detector based on global context information for infrared images
Wei et al. Learning two groups of discriminative features for micro-expression recognition
CN116844126A (zh) 一种基于YOLOv7改进的复杂道路场景目标检测方法
CN116863223A (zh) 语义注意力特征嵌入Swin Transformer网络的遥感图像场景分类的方法
CN114333062A (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
Huo et al. Multi‐source heterogeneous iris segmentation method based on lightweight convolutional neural network
Liu et al. Image forgery localization based on fully convolutional network with noise feature
Obeso et al. Introduction of explicit visual saliency in training of deep cnns: Application to architectural styles classification
CN117152072A (zh) 一种基于两阶段特征金字塔网络的遥感图像变化检测方法
CN116229580A (zh) 一种基于多粒度金字塔交叉网络的行人重识别方法
Wang et al. SAST: Learning semantic action-aware spatial-temporal features for efficient action recognition
Deng et al. Multi-modal information fusion for action unit detection in the wild
CN116071645A (zh) 高分辨率遥感影像建筑物变化检测方法、装置及电子设备
Rao et al. Learning general feature descriptor for visual measurement with hierarchical view consistency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant