CN116704453A - 用于车辆重识别的自适应划分和先验强化部位学习网络 - Google Patents
用于车辆重识别的自适应划分和先验强化部位学习网络 Download PDFInfo
- Publication number
- CN116704453A CN116704453A CN202310987423.6A CN202310987423A CN116704453A CN 116704453 A CN116704453 A CN 116704453A CN 202310987423 A CN202310987423 A CN 202310987423A CN 116704453 A CN116704453 A CN 116704453A
- Authority
- CN
- China
- Prior art keywords
- component
- matrix
- feature
- adaptive
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 34
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 28
- 238000000638 solvent extraction Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 63
- 230000008447 perception Effects 0.000 claims description 33
- 238000010586 diagram Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005728 strengthening Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000004513 sizing Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 abstract description 6
- 238000004220 aggregation Methods 0.000 abstract description 6
- 238000012512 characterization method Methods 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0409—Adaptive resonance theory [ART] networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及车辆重识别技术领域,具体地涉及一种用于车辆重识别的自适应划分和先验强化部位学习网络,提出了一个自适应划分部件学习模块,能够根据多头自注意力的语义聚集过程生成空间上不重叠的多样性部件掩码来解耦部件的学习,让一个头仅关注一个部件的语义聚集;还提出了一个先验强化部件学习模块,它通过自注意力建立刚性划分的一个部位与所有部位间的联系来生成语义上连续的部位,这一过程同时从全局角度强调了部件内重要的细节信息来有效地抑制噪声的干扰,基于以上两个模块,构建了一个自适应划分和先验增强部位学习网络,以自适应的方式和先验的方式,有助于区分相似车辆的细粒度语义信息,提高了网络的特征表征能力。
Description
技术领域
本发明涉及车辆重识别技术领域,具体地涉及一种用于车辆重识别的自适应划分和先验强化部位学习网络。
背景技术
车辆重识别旨在从不同摄像机拍摄到的大量的车辆图像中识别出属于同一车辆的图像。学习部件中细微的鉴别性信息是应对车辆重识别中类间差异小这一挑战的关键。使用额外模型和标注的方法可以精确地定位部件的位置来学习部件级特征,但需要更多的计算成本和人力成本。刚性划分策略是将图像/特征图在空间维度上均匀划分为多个区域来学习部件级特征,因为每个区域能够直观的对应着目标中的语义部件,因此能够充分利用先验信息来学习可解释性强的部件特征,然而将一幅图像刚性地划分成多个区域会破坏部件语义的连续性,同时使得背景、遮挡等噪声的干扰变大,这限制了细微的鉴别性信息的有效学习。
发明内容
本发明的目的在于克服现有技术存在的缺点,提出设计一种用于车辆重识别的自适应划分和先验强化部位学习网络,能够有效学习图像细微的鉴别性信息,提高了网络的特征表征能力。
本发明解决其技术问题所采取的技术方案是:
一种用于车辆重识别的自适应划分和先验强化部位学习网络,将ResNet-50网络的res_conv4_2之前的块作为主干网络,将ResNet-50网络的res_conv4_2及之后的剩余块划分为三个分支:Global,Local-1,Local-2;Global分支用于学习车辆的全局特征;在Local-1分支嵌入自适应划分部件学习模块,在Local-2分支嵌入先验强化部件学习模块;所述自适应划分部件学习模块包括部件感知子模块和多样性掩码生成子模块;
所述部件感知子模块用多个注意力头将输入特征图中车辆的整体语义信息分解到多个部件感知特征图中,每个头生成的部件感知特征图通过自注意力计算捕获特定部件的上下文,并聚集相关语义;
所述多样性掩码生成子模块推断出所述注意力头所关注的部件的空间位置,然后通过竞争机制来为每个头生成空间上不重叠的部件掩码;将部件多样性掩码分别引入到每个头的自注意力计算过程中,来只聚集相应掩码所指示的部件信息,使一个注意力头仅关注一个部件;
所述先验强化部件学习模块将车辆特征图水平地划分为多个均匀的局部特征图(部件),然后以所有部件的像素为查询矩阵,单个部件的像素为键矩阵和值矩阵来独立的对每个部件实施自注意力计算,建立一个部件与所有部件在语义上的关联,可以从全局角度强化部件内重要的细节信息,从而有效地缓解因分割导致的噪声干扰变大的缺陷。此外,用所有的部件查询一个部件进行自注意力计算,不仅编码了该部件的语义信息,还编码了与该部件联系紧密的其他部件的部分语义信息,从而保证了部件语义的连续性。
上述技术方案,通过Global分支学习车辆的全局特征,以学习最显著的外观线索来表征不同车辆的身份;通过Local-1分支和Local-2分支分别来以自适应的方式和以先验的方式学习,有助于区分相似车辆的细粒度语义信息,它们互相促进和补充,提高了网络的特征表征能力。
进一步的,所述自适应划分部件学习模块的结构为:
部件感知子模块
设模块的输入特征图为,其中H和W分别表示特征图X的高度和宽度,C表示通道维度;为了使用自注意力机制捕获部件的上下文信息并生成部件感知特征图,将输入特征图X的二维空间(H,W)展平形成一个一维的序列/>,并把序列通过线性映射转换成查询矩阵/>、键矩阵/>、值矩阵/>,公式为:
,/>,/>,
其中,是线性映射的权重矩阵,矩阵Q、K、V中的第i行Q i 、K i 、V i 分别表示第i个位置(像素)的查询向量、键向量和值向量;
使用G个注意力“头”来分别聚集不同部件的语义信息,即对输入特征图X并行施加G个自注意力计算得到一组成对亲和性矩阵和一组部件感知特征图/>,以分解多个部件的语义特征;成对亲和性矩阵/>和部件感知特征图/>的公式为:
,
,
其中,i=1,2,...,G,,/>,/>,每个头生成的部件感知特征图F i 的特征维度为C,增大特征维度可以捕获每个部件内丰富的细节信息;
多样性掩码生成子模块
多样性掩码生成子模块对矩阵A i 沿着行轴方向求和来生成空间注意力矩阵。中的第k个元素/>越大,则第i个头对位置k处的部件的关注度越高,/>表明了第i个头所关注的部件在图像中的位置;
为了减少不同的头所关注的区域间的重叠面积,多样性掩码生成子模块在所有的头产生的G个空间注意力矩阵之间施加一个竞争机制,从而使得每个头关注不同的部件:
,
其中Softmax函数沿的通道方向实施。部件多样性掩码/>在相同的空间位置仅有一个最大的响应值;
将部件多样性掩码的大小都重塑为HW×1,并分别引入到每个头的感知特征图F i 的公式中,得到部件感知强化的特征图:
,
其中,表示矩阵逐元素相乘,该过程使得每个头关注不同的部件,减少部件感知特征图所编码的部件信息之间的冗余。
进一步的,所述部件多样性掩码还用于解耦输入特征图中的多个部件的信息,部件感知特征图和从原始特征图中解耦得到的部件信息对应融合成每个部件的最终特征表示。具体的,将部件多样性掩码的大小都重塑为H×W后分别与输入特征图X相乘来对原始特征图中部件的语义信息进行分解,得到解耦的部件语义特征:
,
在将每个头所产生的的大小重塑为H×W×C后,将它们拼接起来得到一个大小为H×W×GC的张量,并将其与G个/>拼接在一起形成的张量逐元素相加,得到自适应划分部件学习模块的最终输出特征图/>:
。
进一步的,所述成对亲和性矩阵的计算过程为:
将第i个位置的查询Q i ,与所有位置的键进行点积计算后再应用Softmax函数,得到第i个位置与其他位置间的成对亲和性向量:
,
其中,表示矩阵乘法,/>是为了提供适当的规范化。A i 中的第j个元素A i,j 表示第i个位置和第j个位置间的相似性。本发明应用Softmax函数来得到所有空间位置之间的成对亲和性矩阵/>:
,
其中,Softmax函数沿着矩阵的列方向应用。成对亲和性矩阵A计算了所有位置之间的相似性得分,A中的第i行第j列的元素A i,j 建模了第i个位置和第j个位置之间的关系。
进一步的,所述部件感知特征图的计算过程为:
用第i个位置与其他位置之间的成对亲和性对值向量V 1到V HW 进行加权求和,来得到重构后的第i个位置的特征向量,
,
F i 聚集了与第i个像素语义相关的空间像素。本发明将A与所有位置组成的值矩阵V相乘,来得到部件感知特征图:
,
F中的每个像素都聚集了与它自身语义相关的像素。因为同一部件内的像素比不同部件间的像素具有更高的相似性,所以F捕获了部件内的空间上下文,并通过聚集部件内语义信息细化了每个部件的表示。
进一步的,所述先验强化部件学习模块的结构为:
设一个特征图为语义引导部件划分模块的输入,其中H和W分别为特征图的高度和宽度,C表示通道维度;沿H维度对输入特征图进行均匀地划分,并通过重塑操作来得到n个部件(局部特征图)的特征表示/>,其中,/>,/>;接着,对X i 进行线性转换得到第i个部件的键矩阵/>和值矩阵/>,同时对原始特征图X进行重塑并通过线性映射得到所有部件的查询矩阵/>:
,
其中,是进行线性映射的权重矩阵,/>是由所有部件的像素的查询组成的,Q i 对应着第i个部件的查询矩阵;
为了通过建立部件间的信息交互来抑制部件内的背景、遮挡等噪声的干扰,对于第i个部件,不仅计算它内部像素间的成对亲和性,而且计算它与其他部件的像素间的成对亲和性,得到第i个部件的全局成对亲和性矩阵:
,
其中,Softmax函数沿A i 的列方向应用。A i 的第0行至第M-1行计算了第0个部件与第i个部件的像素之间的成对亲和性,强调了第i个部件中与第0个部件联系紧密的像素。第j×M至(j+1)M-1行(j≠i),建立了第i个部件与第j个部件之间的信息交互,强调了第i个部件中与第j个部件联系紧密的像素。第i×M至(i+1)M-1行,建立了部件内语义间的联系。本发明可以用A i 来聚集第i个部件的在全局上重要的细节信息得到:
,
建立一个部件与其它部件在语义上的联系比仅考虑部件内语义间的关联,可以更有效地缓解因分割导致的部件内背景、遮挡等噪声的干扰变大的缺陷。
对语义强化的特征表示与原始特征表示/>应用池化操作后再对应相加来得到模块为每个部件输出的特征嵌入/>:
。
进一步的,所述Global、Local-1和Local-2三个分支的res_conv5_1块中均不进行下采样操作,能够保留较大的感受野并能更准确地定位重要的细节性信息。
进一步的,所述Global分支中,采用全局平均池化将res_conv5层输出的特征图压缩成一个2048维的特征向量。为了减少参数量,本发明采用降维操作,使用一个1*1卷积、批处理归一化和GELU(Gaussian Error Linear Unit)将2048维特征向量的维度降到256。
进一步的,在Local-1分支中,所述自适应划分部件学习模块将自适应学习到的部件的特征图拼接后输出,采用平均池化将输出特征图压缩成一个2048维的特征向量,然后采用降维操作将维度降到256,以生成Local-1分支的特征表征;在Local-2分支中,所述先验强化部件学习模块直接输出多个部件的特征嵌入,每个部件的特征嵌入的维度为2048,然后采用降维操作将维度降到256,以生成Local-2分支的特征表征。
进一步的,所述Global、Local-1和Local-2三个分支降维后(256维)的特征嵌入用于三元组损失的训练,并经过全连接层的转换后用于交叉熵损失的训练。在测试阶段,这三个分支的256维的特征嵌入被拼接起来,作为输入图像的最终特征表示。
本发明的技术效果:
与现有技术相比,本发明的一种用于车辆重识别的自适应划分和先验强化部位学习网络,具有以下优点:
(1)采用多分支结构设计,不仅可以学习车辆的全局特征,还可以借助自适应划分部位学习模块和先验强化部位学习模块以自适应的方式和以先验的方式学习有助于区分相似车辆的细粒度特征;全局特征和细粒度特征的结合可以保证网络对车辆身份的有效判别;
(2)自适应划分部件学习模块包括部件感知子模块和多样性掩码生成子模块;部件感知子模块通过多头自注意力计算来聚集部件的语义信息;多样性掩码生成子模块基于语义聚集过程生成空间上不重叠的部件掩码,用来解耦部件感知子模块中部件的学习;自适应划分部件学习模块不需要借助额外的标注或部件定位模型能够自适应地学习车辆的部件级鉴别性特征;
(3)先验强化部件学习模块通过自注意力建立刚性分割得到的一个部位和所有部位间的联系,来从全局角度强化部位内重要的细节信息,从而缓解因分割导致的噪声变大的问题,这一过程可以同时保证部件内语义的连续性。
附图说明
图1为本发明用于车辆重识别的自适应划分和先验强化部位学习网络结构图;
图2为本发明自适应划分部件学习模块结构图;
图3为本发明先验强化部件学习模块结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面结合说明书附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例1:
如图1所示,本实施例涉及的一种用于车辆重识别的自适应划分和先验强化部位学习网络,将ResNet-50网络的res_conv4_2之前的块作为主干网络,将ResNet-50网络的res_conv4_2及之后的剩余块划分为三个分支:Global,Local-1,Local-2;为了保留较大的感受野并能更准确地定位重要的细节性信息,在所述Global、Local-1和Local-2三个分支的res_conv5_1块中均不进行下采样操作。
所述Global分支用于学习车辆的全局特征;在所述Global分支中,采用全局平均池化(GAP)将res_conv5层输出的特征图压缩成一个2048维的特征向量。为了减少参数量,本发明采用降维操作,使用一个1*1卷积、批处理归一化和GELU(Gaussian Error LinearUnit)将2048维特征向量的维度降到256。
在Local-1分支嵌入自适应划分部件学习模块,根据多头自注意力的语义聚集过程生成空间上不重叠的部件多样性掩码来解耦部件的学习;在Local-2分支嵌入先验强化部件学习模块,通过自注意力建立刚性划分的一个部位与所有部位间的联系来生成语义上连续的部位。在Local-1分支中,所述自适应划分部件学习模块将自适应学习到的G个部件的特征图拼接后输出一个大小为H×W×GC的特征图,采用平均池化将输出特征图压缩成一个2048维的特征向量,然后采用降维操作将维度降到256,以生成Local-1分支的特征表征;在Local-2分支中,所述先验强化部件学习模块直接输出多个部件的特征嵌入,每个部件的特征嵌入的维度为2048,然后采用降维操作将维度降到256,以生成Local-2分支的特征表征。所述Global、Local-1和Local-2三个分支的256维的特征嵌入用于三元组损失的训练,并经过全连接层(FC)的转换后用于交叉熵损失的训练。在测试阶段,这三个分支的256维的特征嵌入被拼接起来,作为输入图像的最终特征表示。
所述自适应划分部件学习模块能够充分利用自注意力机制的语义聚集能力将车辆划分成多个部件来学习细微的鉴别性信息,无需借助额外的标注和部件定位模型。所述自适应划分部件学习模块包括部件感知子模块和多样性掩码生成子模块,如图2所示,其结构为:
部件感知子模块
设模块的输入特征图为,其中H和W分别表示特征图X的高度和宽度,C表示通道维度;为了使用自注意力机制捕获部件的上下文信息并生成部件感知特征图,将输入特征图X的二维空间(H,W)展平形成一个一维的序列/>,并把序列通过线性映射转换成查询矩阵/>、键矩阵/>、值矩阵/>,公式为:
,/>,/>,
其中,是线性映射的权重矩阵,矩阵Q、K、V中的第i行Q i 、K i 、V i 分别表示第i个位置(像素)的查询向量、键向量和值向量;
将第i个位置的查询Q i ,与所有位置的键进行点积计算后再应用Softmax函数,得到第i个位置与其他位置间的成对亲和性向量:
,
其中,表示矩阵乘法,/>是为了提供适当的规范化。A i 中的第j个元素A i,j 表示第i个位置和第j个位置间的相似性。本发明应用Softmax函数来得到所有空间位置之间的成对亲和性矩阵/>:
,
其中,Softmax函数沿着矩阵的列方向应用。成对亲和性矩阵A计算了所有位置之间的相似性得分,A中的第i行第j列的元素A i,j 建模了第i个位置和第j个位置之间的关系。
用第i个位置与其他位置之间的成对亲和性对值向量V 1到V HW 进行加权求和,来得到重构后的第i个位置的特征向量,
,
F i 聚集了与第i个像素语义相关的空间像素。本发明将A与所有位置组成的值矩阵V相乘,来得到部件感知特征图:
,
F中的每个像素都聚集了与它自身语义相关的像素。因为同一部件内的像素比不同部件间的像素具有更高的相似性,所以F捕获了部件内的空间上下文,并通过聚集部件内语义信息细化了每个部件的表示。
为了分解多个部件的语义特征,使用G个注意力“头”来分别聚集不同部件的语义信息,即对输入特征图X并行施加G个自注意力计算得到一组成对亲和性矩阵和一组部件感知特征图/>;成对亲和性矩阵/>和部件感知特征图/>,
,
,
其中,i=1,2,...,G,,/>,/>,每个头生成的部件感知特征图F i 的特征维度为C,增大特征维度可以捕获每个部件内丰富的细节信息。此外,每个头使用单独的线性映射矩阵来生成查询矩阵、键矩阵、值矩阵,以避免生成的G个部件感知特征图只能关注相同的部件。
多样性掩码生成子模块
由于亲和性矩阵A i 中的第j行的成对亲和性指示了重建第j个像素时每个位置的贡献,所以A i 中的所有位置间的成对亲和性蕴含了F i 中每个位置的重要性。为了得到F i 中位置间的相对重要性,多样性掩码生成子模块对矩阵A i 沿着行轴方向求和来生成空间注意力矩阵,/>中的第k个元素/>越大,则第i个头对位置k处的部件的关注度越高,/>表明了第i个头所关注的部件在图像中的位置。为了减少不同的头所关注的区域间的重叠面积,多样性掩码生成子模块在所有的头产生的G个空间注意力矩阵/>之间施加一个竞争机制,从而使得每个头关注不同的部件:
,
其中,Softmax函数沿的通道方向实施。部件多样性掩码/>在相同的空间位置仅有一个最大的响应值,这表示仅有一个掩码去响应一个位置;
将部件多样性掩码的大小都重塑为HW×1,并分别引入到每个头的感知特征图F i 的公式中,得到部件感知强化的特征图:
,
其中,表示矩阵逐元素相乘,该过程使得每个头关注不同的部件,减少部件感知特征图所编码的部件信息之间的冗余。同时将部件多样性掩码/>的大小都重塑为H×W后分别与输入特征图X相乘来对原始特征图中部件的语义信息进行分解,得到解耦的部件语义特征/>:
,
在将每个头所产生的的大小重塑为H×W×C后,将它们拼接起来得到一个大小为H×W×GC的张量,并将其与G个/>拼接在一起形成的张量逐元素相加,得到自适应划分部件学习模块的最终输出特征图/>:
。
所述先验强化部件学习模块以所有部件的像素为查询,每个部件的像素为键和值进行self-attention的计算,来建立部件之间的联系,从而从全局的角度强调局部特征图内的重要特征。所述先验强化部件学习模块的结构如图3所示:
设一个特征图为语义引导部件划分模块的输入,其中H和W分别为特征图的高度和宽度,C表示通道维度;沿H维度对输入特征图进行均匀地划分,并通过重塑操作来得到n个部件(局部特征图)的特征表示/>,其中,/>,/>;接着,对X i 进行线性转换得到第i个部件的键矩阵/>和值矩阵/>,同时对原始特征图X进行重塑并通过线性映射得到所有部件的查询矩阵/>:
,
其中,是进行线性映射的权重矩阵,/>是由所有部件的像素的查询组成的,Q i 对应着第i个部件的查询矩阵;
为了通过建立部件间的信息交互来抑制部件内的背景、遮挡等噪声的干扰,对于第i个部件,不仅计算它内部像素间的成对亲和性,而且计算它与其他部件的像素间的成对亲和性,得到第i个部件的全局成对亲和性矩阵:
,
其中,Softmax函数沿A i 的列方向应用。A i 的第0行至第M-1行计算了第0个部件与第i个部件的像素之间的成对亲和性,强调了第i个部件中与第0个部件联系紧密的像素。第j×M至(j+1)M-1行(j≠i),建立了第i个部件与第j个部件之间的信息交互,强调了第i个部件中与第j个部件联系紧密的像素。第至i×M至(i+1)M-1行,建立了部件内语义间的联系。本发明可以用A i 来聚集第i个部件的在全局上重要的细节信息得到:
,
建立一个部件与其它部件在语义上的联系比仅考虑部件内语义间的关联,可以更有效地缓解因分割导致的部件内背景、遮挡等噪声的干扰变大的缺陷。用所有部件查询一个部件得到的特征表示,除了主要编码了该部件的语义信息,还编码了与该部件联系紧密的其他部件的部分语义信息,从而保证了部件语义的连续性。
对语义强化的特征表示与原始特征表示/>应用池化操作后再对应相加来得到模块为每个部件输出的特征嵌入/>:
。
本发明所述交叉熵损失的计算公式为:
,
其中,n表示训练集中分类的数量,y是ID的真值标签,p i 是类i的ID预测对数。
为了有效地优化模型的性能,在网络中引入三元组损失,能够增强度量学习的鲁棒性,并且提高了车辆重识别模型的性能。所述三元组损失的计算公式为:
,
其中,、/>、/>分别为从锚点、正样本和负样本中提取的特征,α为边缘超参数,用来控制距离内和距离间的差异。正样本和负样本分别是指与作为锚点车辆的身份相同和身份不同的车辆。
本发明提出了一个自适应划分部件学习模块,它不需要借助额外的标注、模型,能够自适应的聚集语义相关的信息将车辆划分为多个部件来学习细粒度特征。自适应划分部件学习模块包括部件感知子模块和多样性掩码生成子模块。部件感知子模块用多个注意力头将输入特征图中车辆的整体语义信息分解到多个部件感知特征图中,每个头生成的部件感知特征图通过自注意力计算捕获了特定部件的上下文,并聚集了相关语义。为了减少不同部件感知特征图所编码的部件信息之间的冗余,自适应划分部件学习模块使用多样性掩码生成子模块来引导一个注意力头只关注一个部件信息的学习。一个头用于生成部件感知特征图的位置间的亲和性矩阵反映了语义聚集过程中每个像素的贡献度。多样性掩码生成子模块首先据此推断出这个注意力头所关注的部件的空间位置,然后通过竞争机制来为每个头生成空间上不重叠的部件掩码。进一步的,将部件多样性掩码分别引入到每个头的自注意力计算过程中,来只聚集相应掩码所指示的部件信息,从而让一个注意力头仅关注一个部件。此外,部件多样性掩码也被直接用来解耦输入特征图中的多个部件的信息。部件感知特征图和从原始特征图中解耦得到的部件信息对应融合成每个部件的最终特征表示。
本发明出了一个先验强化部件学习模块来充分利用先验语义信息,它和自适应划分部件学习模块以先验的方式和自适应的方式来学习丰富的鉴别性的部件级特征。它先将车辆特征图水平地划分为几个均匀的局部特征图(部件),然后以所有部件的像素为查询矩阵,单个部件的像素为键矩阵和值矩阵来独立的对每个部件实施自注意力计算。建立一个部件与所有部件在语义上的关联可以从全局角度强化部件内重要的细节信息,从而有效地缓解因分割导致的噪声干扰变大的缺陷。此外,用所有的部件查询一个部件进行自注意力计算,不仅编码了该部件的语义信息,还编码了与该部件联系紧密的其他部件的部分语义信息,从而保证了部件语义的连续性。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应落入本发明的专利保护范围。
Claims (10)
1.用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:将ResNet-50网络的res_conv4_2之前的块作为主干网络,将ResNet-50网络的res_conv4_2及之后的剩余块划分为三个分支:Global,Local-1,Local-2;Global分支用于学习车辆的全局特征;在Local-1分支嵌入自适应划分部件学习模块,在Local-2分支嵌入先验强化部件学习模块;所述自适应划分部件学习模块包括部件感知子模块和多样性掩码生成子模块;
所述部件感知子模块用多个注意力头将输入特征图中车辆的整体语义信息分解到多个部件感知特征图中,每个头生成的部件感知特征图通过自注意力计算捕获部件的上下文,并聚集相关语义;
所述多样性掩码生成子模块推断出所述注意力头所关注的部件的空间位置,然后通过竞争机制来为每个头生成空间上不重叠的部件掩码;将部件多样性掩码分别引入到每个头的自注意力计算过程中,使一个注意力头仅关注一个部件;
所述先验强化部件学习模块将车辆特征图水平地划分为多个均匀的局部特征图,然后以所有部件的像素为查询矩阵,单个部件的像素为键矩阵和值矩阵来独立的对每个部件实施自注意力计算,建立一个部件与所有部件在语义上的关联。
2.根据权利要求1所述的用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:所述自适应划分部件学习模块的结构为:
部件感知子模块
设模块的输入特征图为,其中H和W分别表示特征图X的高度和宽度,C表示通道维度;将输入特征图X的二维空间展平形成一个一维的序列/>,并把序列通过线性映射转换成查询矩阵/>、键矩阵/>、值矩阵/>,公式为:
,/>,/>,
其中,是线性映射的权重矩阵,矩阵Q、K、V中的第i行Q i 、K i 、V i 分别表示第i个位置的查询向量、键向量和值向量;
对输入特征图X并行施加G个自注意力计算得到一组成对亲和性矩阵和一组部件感知特征图/>;成对亲和性矩阵/>和部件感知特征图/>公式为:
,
,
其中,i=1,2,...,G,,/>,/>,每个头生成的部件感知特征图F i 的特征维度为C;
多样性掩码生成子模块
多样性掩码生成子模块对矩阵A i 沿着行轴方向求和来生成空间注意力矩阵,表明了第i个头所关注的部件在图像中的位置;
多样性掩码生成子模块在所有的头产生的G个空间注意力矩阵之间施加一个竞争机制:
,
其中,Softmax函数沿的通道方向实施,部件多样性掩码/>在相同的空间位置仅有一个最大的响应值;
将部件多样性掩码的大小都重塑为HW×1,并分别引入到每个头的感知特征图F i 的公式中,得到部件感知强化的特征图:
,
其中,表示矩阵逐元素相乘。
3.根据权利要求2所述的用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:所述部件多样性掩码还用于解耦输入特征图中的多个部件的信息,部件感知特征图和从原始特征图中解耦得到的部件信息对应融合成每个部件的最终特征表示;具体的,将部件多样性掩码的大小都重塑为H×W后分别与输入特征图X相乘来对原始特征图中部件的语义信息进行分解,得到解耦的部件语义特征/>:
,
在将每个头所产生的的大小重塑为H×W×C后,进行拼接起来得到一个大小为H×W×GC的张量,然后与G个/>拼接在一起形成的张量逐元素相加,得到自适应划分部件学习模块的最终输出特征图/>:
。
4.根据权利要求2所述的用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:所述成对亲和性矩阵的计算过程为:
将第i个位置的查询Q i ,与所有位置的键进行点积计算后再应用Softmax函数,得到第i个位置与其他位置间的成对亲和性向量:
,
其中,表示矩阵乘法;A i 中的第j个元素A i,j 表示第i个位置和第j个位置间的相似性;应用Softmax函数来得到所有空间位置之间的成对亲和性矩阵/>:
,
其中,Softmax函数沿着矩阵的列方向应用。
5.根据权利要求4所述的用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:所述部件感知特征图的计算过程为:
用第i个位置与其他位置之间的成对亲和性对值向量V 1到V HW 进行加权求和,来得到重构后的第i个位置的特征向量,
,
F i 聚集了与第i个像素语义相关的空间像素;将A与所有位置组成的值矩阵V相乘,来得到部件感知特征图:
。
6.根据权利要求1所述的用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:所述先验强化部件学习模块的结构为:
设一个特征图为语义引导部件划分模块的输入,其中H和W分别为特征图的高度和宽度,C表示通道维度;沿H维度对输入特征图进行均匀地划分,并通过重塑操作来得到n个部件的特征表示/>,其中,/>,/>;接着,对X i 进行线性转换得到第i个部件的键矩阵/>和值矩阵/>,同时对原始特征图X进行重塑并通过线性映射得到所有部件的查询矩阵/>:
,
其中,是进行线性映射的权重矩阵,/>是由所有部件的像素的查询组成的,Q i 对应着第i个部件的查询矩阵;第i个部件的全局成对亲和性矩阵/>:
,
其中,Softmax函数沿A i 的列方向应用;用A i 来聚集第i个部件的在全局上重要的细节信息得到:
;
对语义强化的特征表示与原始特征表示/>应用池化操作后再对应相加来得到模块为每个部件输出的特征嵌入/>:
。
7.根据权利要求1所述的用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:所述Global、Local-1和Local-2三个分支的res_conv5_1块中均不进行下采样操作。
8.根据权利要求1所述的用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:所述Global分支中,采用全局平均池化将res_conv5层输出的特征图压缩成一个2048维的特征向量;采用降维操作,使用一个1*1卷积、批处理归一化和GELU将2048维特征向量的维度降到256。
9.根据权利要求1所述的用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:在Local-1分支中,所述自适应划分部件学习模块将自适应学习到的部件的特征图拼接后输出,采用平均池化将输出特征图压缩成一个2048维的特征向量,然后采用降维操作将维度降到256,以生成Local-1分支的特征表征;在Local-2分支中,所述先验强化部件学习模块直接输出多个部件的特征嵌入,每个部件的特征嵌入的维度为2048,然后采用降维操作将维度降到256,以生成Local-2分支的特征表征。
10.根据权利要求1-9任一项所述的用于车辆重识别的自适应划分和先验强化部位学习网络,其特征在于:所述Global、Local-1和Local-2三个分支降维后的特征嵌入用于三元组损失的训练,并经过全连接层的转换后用于交叉熵损失的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310987423.6A CN116704453B (zh) | 2023-08-08 | 2023-08-08 | 一种采用自适应划分和先验强化部位学习网络进行车辆重识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310987423.6A CN116704453B (zh) | 2023-08-08 | 2023-08-08 | 一种采用自适应划分和先验强化部位学习网络进行车辆重识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116704453A true CN116704453A (zh) | 2023-09-05 |
CN116704453B CN116704453B (zh) | 2023-11-28 |
Family
ID=87834287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310987423.6A Active CN116704453B (zh) | 2023-08-08 | 2023-08-08 | 一种采用自适应划分和先验强化部位学习网络进行车辆重识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704453B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368815A (zh) * | 2020-05-28 | 2020-07-03 | 之江实验室 | 一种基于多部件自注意力机制的行人重识别方法 |
CN111898736A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于属性感知的高效行人重识别方法 |
CN112836677A (zh) * | 2021-03-02 | 2021-05-25 | 西安建筑科技大学 | 一种利用深度学习的弱监督车辆重识别方法 |
CN113420742A (zh) * | 2021-08-25 | 2021-09-21 | 山东交通学院 | 一种用于车辆重识别的全局注意力网络模型 |
CN113591928A (zh) * | 2021-07-05 | 2021-11-02 | 武汉工程大学 | 基于多视角和卷积注意力模块的车辆重识别方法和系统 |
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
CN114005078A (zh) * | 2021-12-31 | 2022-02-01 | 山东交通学院 | 一种基于双关系注意力机制的车辆重识别方法 |
CN114005096A (zh) * | 2021-11-09 | 2022-02-01 | 河北工业大学 | 基于特征增强的车辆重识别方法 |
CN114782977A (zh) * | 2021-04-28 | 2022-07-22 | 河南大学 | 一种基于拓扑信息和亲和度信息引导行人重识别方法 |
CN114821249A (zh) * | 2022-07-04 | 2022-07-29 | 山东交通学院 | 一种基于分组聚合注意力和局部关系的车辆重识别方法 |
US20220415027A1 (en) * | 2021-06-29 | 2022-12-29 | Shandong Jianzhu University | Method for re-recognizing object image based on multi-feature information capture and correlation analysis |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN116152792A (zh) * | 2023-04-23 | 2023-05-23 | 山东交通学院 | 基于跨上下文和特征响应注意力机制的车辆重识别方法 |
CN116152858A (zh) * | 2023-02-28 | 2023-05-23 | 常州大学 | 一种基于双重交叉注意力机制的无监督行人重识别方法 |
CN116311105A (zh) * | 2023-05-15 | 2023-06-23 | 山东交通学院 | 一种基于样本间上下文指导网络的车辆重识别方法 |
CN116386079A (zh) * | 2023-02-09 | 2023-07-04 | 内蒙古科技大学 | 基于元-图感知的领域泛化行人重识别方法及系统 |
-
2023
- 2023-08-08 CN CN202310987423.6A patent/CN116704453B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368815A (zh) * | 2020-05-28 | 2020-07-03 | 之江实验室 | 一种基于多部件自注意力机制的行人重识别方法 |
CN111898736A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于属性感知的高效行人重识别方法 |
CN112836677A (zh) * | 2021-03-02 | 2021-05-25 | 西安建筑科技大学 | 一种利用深度学习的弱监督车辆重识别方法 |
CN114782977A (zh) * | 2021-04-28 | 2022-07-22 | 河南大学 | 一种基于拓扑信息和亲和度信息引导行人重识别方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
US20220415027A1 (en) * | 2021-06-29 | 2022-12-29 | Shandong Jianzhu University | Method for re-recognizing object image based on multi-feature information capture and correlation analysis |
CN113591928A (zh) * | 2021-07-05 | 2021-11-02 | 武汉工程大学 | 基于多视角和卷积注意力模块的车辆重识别方法和系统 |
CN113420742A (zh) * | 2021-08-25 | 2021-09-21 | 山东交通学院 | 一种用于车辆重识别的全局注意力网络模型 |
CN114005096A (zh) * | 2021-11-09 | 2022-02-01 | 河北工业大学 | 基于特征增强的车辆重识别方法 |
CN113822246A (zh) * | 2021-11-22 | 2021-12-21 | 山东交通学院 | 一种基于全局参考注意力机制的车辆重识别方法 |
CN114005078A (zh) * | 2021-12-31 | 2022-02-01 | 山东交通学院 | 一种基于双关系注意力机制的车辆重识别方法 |
CN114821249A (zh) * | 2022-07-04 | 2022-07-29 | 山东交通学院 | 一种基于分组聚合注意力和局部关系的车辆重识别方法 |
CN116386079A (zh) * | 2023-02-09 | 2023-07-04 | 内蒙古科技大学 | 基于元-图感知的领域泛化行人重识别方法及系统 |
CN116152858A (zh) * | 2023-02-28 | 2023-05-23 | 常州大学 | 一种基于双重交叉注意力机制的无监督行人重识别方法 |
CN116152792A (zh) * | 2023-04-23 | 2023-05-23 | 山东交通学院 | 基于跨上下文和特征响应注意力机制的车辆重识别方法 |
CN116311105A (zh) * | 2023-05-15 | 2023-06-23 | 山东交通学院 | 一种基于样本间上下文指导网络的车辆重识别方法 |
Non-Patent Citations (9)
Title |
---|
GANGWU JIANG ET AL.: "Global reference attention network for vehicle re-identification", 《APPLIED INTELLIGENCE》, pages 11328 * |
SHANG GAO ET AL.: "Pose-guided Visible Part Matching for Occluded Person ReID", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 11741 - 11749 * |
XIN TIAN ET AL.: "Vehicle Re-Identification Based on Global Relational Attention and Multi-Granularity Feature Learning", 《DIGITAL OBJECT IDENTIFIER》, pages 17674 - 17682 * |
XIYU PANG ET AL.: "Multi-Receptive Field Soft Attention Part Learning for Vehicle Re-Identification", 《ENTROPY》, pages 1 - 15 * |
YANLI ZHENG ET AL.: "Dual-relational attention network for vehicle re-identification", 《APPLIED INTELLIGENCE (2023) 》, pages 7776 - 7787 * |
孟庆兰: "基于深度学习的车辆重识别研究", 《中国优秀硕士学位论文全文数据库》, pages 1 - 68 * |
张磊: "面向行人重识别的多分支协作深度神经网络设计及优化", 《中国优秀硕士学位论文全文数据库》, pages 1 - 70 * |
陈波: "基于注意力机制和特征融合的行人重识别方法研究", 《万方学位论文数据库》, pages 1 - 85 * |
雪洋洋: "复杂环境下车辆重识别算法研究", 《中国优秀硕士学位论文全文数据库》, pages 1 - 70 * |
Also Published As
Publication number | Publication date |
---|---|
CN116704453B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Fully deep blind image quality predictor | |
CN114220061B (zh) | 一种基于深度学习的多目标跟踪方法 | |
Prabhakar et al. | Labeled from unlabeled: Exploiting unlabeled data for few-shot deep hdr deghosting | |
Lu et al. | Rethinking prior-guided face super-resolution: A new paradigm with facial component prior | |
CN113065586B (zh) | 一种非局域的图像分类装置、方法和存储介质 | |
CN116563355A (zh) | 一种基于时空交互注意力机制的目标跟踪方法 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
CN112308128A (zh) | 一种基于注意力机制神经网络的图像匹配方法 | |
CN113033276A (zh) | 一种基于转换模块的行为识别方法 | |
Huang et al. | Region-based non-local operation for video classification | |
CN113763417B (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN117011342A (zh) | 一种注意力增强的时空Transformer视觉单目标跟踪方法 | |
CN116704453A (zh) | 用于车辆重识别的自适应划分和先验强化部位学习网络 | |
CN113239771A (zh) | 一种姿态估计方法、系统及其应用 | |
Liu et al. | CCH-YOLOX: Improved YOLOX for Challenging Vehicle Detection from UAV Images | |
CN113343772B (zh) | 一种基于隐式引导与显式教导策略的视频显著性目标检测方法 | |
Peng et al. | RAUNE-Net: A Residual and Attention-Driven Underwater Image Enhancement Method | |
Liu et al. | Bilinear CNNs for blind quality assessment of fine-grained images | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
Jothi Lakshmi et al. | TA-DNN—two stage attention-based deep neural network for single image rain removal | |
Yang et al. | Innovating Real Fisheye Image Correction with Dual Diffusion Architecture | |
Guo et al. | Stochastic Channel Decorrelation Network and Its Application to Visual Tracking | |
Mathai et al. | A Lightweight Model with Separable CNN and LSTM for Video Prediction | |
Zhou et al. | Deep Blind Image Quality Assessment Using Dynamic Neural Model with Dual-order Statistics | |
Gao et al. | Contrastive Pedestrian Attentive and Correlation Learning Network for Occluded Person Re-Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |