CN114581864B - 基于transformer的动态密集对齐车辆重识别技术 - Google Patents

基于transformer的动态密集对齐车辆重识别技术 Download PDF

Info

Publication number
CN114581864B
CN114581864B CN202210213377.XA CN202210213377A CN114581864B CN 114581864 B CN114581864 B CN 114581864B CN 202210213377 A CN202210213377 A CN 202210213377A CN 114581864 B CN114581864 B CN 114581864B
Authority
CN
China
Prior art keywords
vehicle
feature
module
vehicle image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210213377.XA
Other languages
English (en)
Other versions
CN114581864A (zh
Inventor
董宇欣
耿士卿
张立国
杨东梅
刘杰
吴丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202210213377.XA priority Critical patent/CN114581864B/zh
Publication of CN114581864A publication Critical patent/CN114581864A/zh
Application granted granted Critical
Publication of CN114581864B publication Critical patent/CN114581864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

基于transformer的动态密集对齐车辆重识别技术,本发明涉及车辆重识别方法。本发明的目的是为了解决现有方法对车辆重识别准确率低的问题。具体过程为:一、采集不同视角的车辆图像数据集,分为训练集和测试集;二、建立主干网络,将训练集输入主干网络进行训练,直至收敛,得到训练好的主干网络;所述主干网络包括CNN网络模块、扁平化处理模块、可学习嵌入模块、车辆关键点检测模型、动态密集嵌入模块、Transformer编码器模块、BN、监督学习模块、ID损失、三元组损失;三、将测试集输入练好的主干网络,进行分类结果预测。本发明用于计算机视觉技术领域。

Description

基于transformer的动态密集对齐车辆重识别技术
技术领域
本发明涉及一种车辆重识别方法,属于计算机视觉技术领域。
背景技术
车辆重识别技术的目的是从一个大型图像数据库中检索一个给定的查询车辆的所有图像。近年来,由于监控和交通流量分析等实际应用,这项任务引起了越来越多的关注。车辆ReID有两个主要挑战。第一个挑战是,从不同视角捕获的车辆通常具有显著不同的视觉外观,这将导致特征空间无法对齐。第二个挑战是相同颜色的不同车辆和车型很可能会有非常相似的外观。为了解决这些挑战,一些研究人员如车辆类型、颜色、视角和时空来提高全局特征的表示能力。然而,这些方法缺乏强调车辆局部区域的差异,以及解决特征空间无法对齐的明确机制。因此,近年来的研究越来越关注于提供稳定识别线索的车辆的局部区域。然而,在局部区域级别上的特征对齐仍然过于粗糙,无法获得令人满意的结果。因此,设计一个密集的空间对齐体系结构对于促进车辆ReID的紧密对齐特征的有效学习至关重要,ReID为重识别。
近年来,一些方法应用了transformer进入计算机视觉任务,并取得优异的性能。其成功主要归因于变压器的自注意机制。此外,与CNN模型相比,多头自注意在捕捉远程依赖关系和驱动模型前往不同的车辆局部区域方面表现得更好。尽管如上所述,变压器具有巨大的优势,但它仍然需要专门为车辆ReID设计,以解决独特的挑战,如遮挡和视角变化问题。
发明内容
本发明的目的是为了解决现有方法对车辆重识别准确率低的问题,而提出基于transformer的动态密集对齐车辆重识别技术。
基于transformer的动态密集对齐车辆重新别技术具体过程为:
步骤一、采集不同视角的车辆图像数据集,分为训练集和测试集;
步骤二、建立主干网络,将采集不同视角的车辆图像数据集中的训练集输入主干网络进行训练,直至收敛,得到训练好的主干网络;
所述主干网络包括CNN网络模块、扁平化处理模块、可学习嵌入模块、车辆关键点检测模型、动态密集嵌入模块、Transformer编码器模块、BN、监督学习模块、ID损失、三元组损失;
步骤三、将不同视角的车辆图像数据集中的测试集输入练好的主干网络,进行分类结果预测。
本发明的有益效果为:
本发明提出了一种基于变压器的动态密集对齐网络(TDDA),该网络获得了具有完全空间对齐的车辆的细粒度表示。首先,利用transformer编码器来提取具有全局上下文的扰动不变的鲁棒特征。其次,为了捕获对于视觉变化鲁棒的特征,提出了一个动态位置编码模块(DPE),通过有效集成车辆关键点信息来提高空间对齐能力。与transformer的原始位置嵌入不同,DPE是针对不同的车辆姿态动态生成的。第三,关键点的嵌入只在稀疏水平上对齐特征。因此,本发明引入了一种基于最近邻插值(DEM)的密集嵌入方法。每个位置的嵌入由其加权的最近邻关键点的嵌入来定义,这可以通过生成密集对齐的特征来增强细粒度学习,提高了车辆重识别准确率。
本发明提出了一种基于变压器的动态密集对齐网络,该网络在像素级对齐特征,并为车辆重识别技术提取更具代表性和鲁棒的特征。
本发明提出了一种动态位置编码模块(DPE),通过集成关键点信息来提高空间对齐能力。本发明进一步引入了一种基于最近邻插值(DEM)的密集嵌入方法来实现完整的空间对齐。这不仅缩短了实例间之间的距离,而且扩大了实例间的差异。
为了证明本发明的方法的有效性,本发明在三个车辆重识别技术基准上全面评估了本发明的方法。大量的实验结果表明,本发明方法优于目前先进的方法。
附图说明
图1为本发明流程图;
图2a为采集不同视角的车辆1图像带来的特征空间无法对齐示意图;
图2b为采集不同视角的车辆2图像带来的特征空间无法对齐示意图;
图3为主干网络整体结构图,CNN为卷积神经网络,Feature Map为特征图,FlattenFeature为扁平化特征,Position Embedding为原始位置嵌入,*为可学习嵌入标记,0、1、2、3、n为位置嵌入标记,1右边为扁平特征,扁平特征右边为具有缓解视角变换车辆重识别特征,2右边为扁平特征,扁平特征右边为具有缓解视角变换车辆重识别特征,3右边为扁平特征,扁平特征右边为具有缓解视角变换车辆重识别特征,n右边为扁平特征,扁平特征右边为具有缓解视角变换车辆重识别特征;Transformer Layer为Transformer编码器,m-1为m-1层,ID Loss为ID损失,Triplet Loss为三元组损失,Extra learnable[cls]embedding为可学习的嵌入标记和位置嵌入,Keypoints Detector为关键点检测器,Dynamic denseembedding为动态密集嵌入模块;
图4a为原始图像;
图4b为原始图像经DPM处理后的图像,DPM为动态位置编码模块;
图4c为原始图像经Interpolation process处理后的图像,Interpolationprocess为插值过程;
图4d为原始图像经DEM处理后的图像,DEM为动态密集嵌入模块;
图5a为采集的不同视角的车辆1原始图像和经DEM处理后的图像对比图;
图5b为采集的不同视角的车辆2原始图像和经DEM处理后的图像对比图,图5a、5b不仅关键点区域在粗级对齐,而且特征空间也在像素级对齐,动态密集嵌入后,相同位置的颜色在不同的视角是相同的,表明车辆在不同视角下其位置编码相同。
具体实施方式
具体实施方式一:本实施方式基于transformer的动态密集对齐车辆重新别技术具体过程为:
步骤一、采集不同视角的车辆图像数据集,分为训练集和测试集;
步骤二、建立主干网络,将采集不同视角的车辆图像数据集中的训练集输入主干网络进行训练,直至收敛,得到训练好的主干网络;
所述主干网络包括CNN网络模块、扁平化处理模块、可学习嵌入模块、车辆关键点检测模型、动态密集嵌入模块(DEM)、Transformer编码器模块、BN、监督学习模块、ID损失、三元组损失;
步骤三、将不同视角的车辆图像数据集中的测试集输入练好的主干网络,进行分类结果预测。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤二中建立主干网络,将采集不同视角的车辆图像数据集中的训练集输入主干网络进行训练,直至收敛,得到训练好的主干网络;具体过程为:
将采集的不同视角的车辆图像数据集中的训练集分别输入主干网络中的CNN网络模块和车辆关键点检测模型;
CNN网络模块对采集的不同视角的车辆图像数据集中的训练集进行处理,输出车辆图像的特征,车辆图像的特征输入扁平化处理模块,扁平化处理模块对车辆图像的特征进行扁平化处理,得到扁平特征;
车辆关键点检测模型对采集的不同视角的车辆图像数据集中的训练集进行处理,得到车辆图像的关键点;
车辆图像的关键点输入动态密集嵌入模块,动态密集嵌入模块对车辆图像的关键点进行处理,输出具有缓解视角变换车辆重识别特征;
可学习嵌入模块提供可学习的嵌入标记(xcls,图3里的*)和位置嵌入(Epos,图3里的0、1、2、3、n);
将可学习的嵌入标记、位置嵌入、扁平特征、具有缓解视角变换车辆重识别特征输入Transformer编码器;
将Transformer编码器输出的具有动态位置编码的特征分别进行监督学习;
监督学习由三元组损失和交叉熵损失组成;
其中进行交叉熵损失的特征需要先通过BN;
(Transformer编码器输出的具有动态位置编码的特征进行三元组损失;
Transformer编码器输出的具有动态位置编码的特征通过BN后在进行交叉熵损失;)
所述CNN网络模块
Transformer编码器:编码器层建立在标准的transformer结构上,具有多头自注意模块(MSA)和前馈网络(FFN)。由于相同车辆部件的像素具有较高的相似性,不同于背景像素,因此捕获具有图像上下文信息的特征图相对于背景更加鲁棒。我们首先使用一个扁平化算子将空间维度构造位为一维。然后,得到了一个新的形状为N×D的特征图,其中N=HW为输入特征的长度。空间维数的转换很重要,因为transformer编码器需要一个一维序列作为输入,因此特征映射可以表示为扁平化特征X=[xi]。
监督学习:在训练阶段,输出标记表示输入图像的全局特征。我们通过构造全局特征的ID损失和三元组损失来优化网络。共同减少ID损失和三元组损失。ID损失LID是指交叉熵损失。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述扁平化处理模块对车辆图像的特征进行扁平化处理,得到扁平特征;具体过程为:
使用一个扁平化算子将二维的车辆图像的特征转为一维的车辆图像的特征,得到尺寸为N×D的扁平特征X=[x1,x2,…,xN];
其中N为二维的车辆图像的特征的长度,N=H×W,D为二维的车辆图像的特征通道维度,H为二维的车辆图像的特征的长,W为二维的车辆图像的特征的宽。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述三元组损失函数表示为:
Ltriplet=[dp-dn+α]+
其中,dp为特征空间中正样本对,特征空间中正样本对为同一ID车辆的特征距离;dn为特征空间中负样本对,特征空间中负样本对为不同ID车辆的特征距离;dp-dn为特征空间中正样本对和负样本对的距离,α为三元组损失的边缘;[dp-dn+α]+为使dp-dn+α大于0。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述车辆图像的关键点输入动态密集嵌入模块,动态密集嵌入模块对车辆图像的关键点进行处理,输出具有缓解视角变换车辆重识别特征;
具体过程为:
动态位置编码:虽然基于transformer的网络在车辆ReID中可以取得令人印象深刻的性能,但由于特征空间无法对齐,训练后的模型很容易无法从不同的角度区分同一物体,因此,提出了一种动态位置编码(DPE)模块,将关键点信息集成到嵌入表示中,以提高特征对齐能力。在这项工作中,我们训练了一个沙漏模型(车辆关键点检测模型的典型模型)来检测所有数据集的车辆关键点,车辆关键点位于车辆的前、左、右、上和背面。
受可学习位置嵌入的启发,我们插入可学习的20-D嵌入来保留关键点信息。DPE与扁平化特征和原始位置嵌入一起插入到transformer编码器中。与不同图像在相同位置上不变的原始位置嵌入不同,DPE是针对不同的车辆姿态动态生成的。
每辆车有20个关键点,初始化一个20×20的对角矩阵,Vk为对角矩阵的行,k取值为1-20,k表示为关键点索引;
引入映射网络f,将Vk映射到中间隐含空间Lk∈R1×D,该空间隐含表示关键点信息;
映射网络f依次包括全连接层1、ReLU激活层、全连接层2;
具体的地,我们初始化的动态位置编码如下:
Figure BDA0003532641730000051
其中,qk为条件变量,
Figure BDA0003532641730000061
fk为第k个关键点输入映射网络f对应的输出;
DPE为动态位置编码,
Figure BDA0003532641730000062
为扁平特征xi的坐标;
基于初始化的动态位置编码得到结合了动态位置编码的特征;表达式为:
Z′0=Z0+λDPE
Z0=[xcls,x1,x2,…,xN]+Epos,Epos∈R(N+1)×D
其中Z0表示输入特征,xcls为可学习的嵌入标记,Epos为位置嵌入,x1,x2,…,xN为扁平特征;R表示实数,λ是平衡DPE重量的超参数;Z′0表示结合了动态位置编码的特征;
将结合了动态位置编码的特征Z′0输入transformer,得到具有缓解视角变换车辆重识别特征。
密集嵌入方法:虽然获得动态位置编码可以缓解视角变化问题,但由于关键点数量有限,DPE没有足够的空间位置信息。换句话说,我们只在稀疏级别上对齐特征。但是,更细粒度的部件仍然是错位的,如年检标志和车辆装饰,这对ReID也很重要。
为了解决上述挑战,我们提出了一种基于最近邻插值的密集嵌入方法(DEM)。每个特征像素的嵌入都是由最近邻的关键点来定义的。没有进行关键点嵌入,我们通过其最近邻的关键点嵌入来定义它。这样,具有不同视点和姿态的车辆图像就可以很好地密集地对齐。我们认为,在计算每个特征像素的位置信息时,不仅要考虑距离,还要考虑空间方向。
将关键点分配给四个象限
Figure BDA0003532641730000063
其中
Figure BDA0003532641730000064
是第j象限中关键点k的坐标,j=1,2,3,4;
计算每个象限中的
Figure BDA0003532641730000065
与扁平特征xi的坐标
Figure BDA0003532641730000066
之间的欧氏距离;
同时,关键点对扁平特征xi的坐标
Figure BDA0003532641730000067
的影响与距离成反比。
最后,选择每个象限中具有代表性的关键点,嵌入的加权求和作为局部位置嵌入;
Figure BDA0003532641730000068
Figure BDA0003532641730000071
Figure BDA0003532641730000072
Lk=fk(Vk)
其中,
Figure BDA0003532641730000073
为权重,
Figure BDA0003532641730000074
为与扁平特征xi的坐标
Figure BDA0003532641730000075
距离最近的
Figure BDA0003532641730000076
(具有代表性的关键点),
Figure BDA0003532641730000077
为密集的位置编码;fk为第k个关键点输入映射网络f对应的输出;
每辆车有k个关键点,初始化一个k×k的对角矩阵,Vk为对角矩阵的行,k取值为1-20,k表示为关键点索引;Lk为关键点信息,Lk∈R1×D
每辆车有k个关键点,初始化一个k×k的对角矩阵,Vk为对角矩阵的行,k取值为1-20,k表示为关键点索引;
Figure BDA0003532641730000078
Figure BDA0003532641730000079
与中心之间的最短距离。与仅嵌入稀疏关键点的DPE不同,DEM在基于三维曲面的车身规范表示之间建立了密集的位置对应关系
Figure BDA00035326417300000710
其中Z0表示输入特征,λ是平衡DPE重量的超参数;Z′0表示结合了动态位置编码的特征;
将结合了动态位置编码的特征Z′0输入transformer,得到具有缓解视角变换车辆重识别特征。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述映射网络f依次包括全连接层1、ReLU激活层、全连接层2。
映射网络f,将Vk映射到中间隐含空间
Figure BDA00035326417300000711
该空间隐含表示关键点信息。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述输入特征Z0表示为:
Z0=[xcls,x1,x2,…,xN]+Epos,Epos∈R(N+1)×D
其中Z0表示输入特征,xcls为可学习的嵌入标记,Epos为位置嵌入,x1,x2,…,xN为扁平特征;R表示实数。
其它步骤及参数与具体实施方式一至六之一相同。
上述过程的部分代码如下:
Figure BDA0003532641730000081
采用以下实施例验证本发明的有益效果:
实施例一:
通过实现堆叠沙漏网络来训练车辆关键点检测器。使用Adam优化器,用20个迭代来训练网络。学习速率设置为0.00035。
在车辆ReID网络的训练过程中,固定了车辆关键点检测模块的参数。所有的车辆图像都被调整到大小为256x256,然后增加数据增强有随机水平翻转、填充、随机裁剪和随机擦除。批处理大小设置为56,每个ID有4张图像。采用SGD优化器,动量为0.9,权重衰减为5e-4。学习率初始化为0.02,余弦学习率逐渐衰减。Transformer层数为6层。此外,在全局特征之后添加了一个批处理归一化层。添加一个完全连接的层,将全局特征映射到ID分类得分。在推理阶段,选择BNNeck层之前的特征作为最终的特征表示。
本发明在三个大规模的车辆ReID数据集上评估了本发明的模型,包括VERI-Wild和Vehicle-ID和VeRi-776。
VERI-Wild:是最大的车辆ReID数据集,创建在更具挑战性的环境。它包含了174个摄像头在不同天气和时间条件下收集的40,671辆汽车id的416,314张图像。测试图像被分为3个不同大小的部分。
Vehicle-ID:数据集包含了由40台相机捕获的26,267辆汽车的221,763辆图像。这些数据集的图像在正面或背面的视点下被捕获。测试集还分为3个不同尺寸(小、中、大)的子测试集。在推理阶段,随机选择每个车辆的一个图像形成图库集,留下剩下的图像形成查询集。
VeRi-776:车辆ReID任务的第一个基准测试。它包含大约50,000张图像,其中包括由20台相机捕获的776张车辆识别图像。训练集包含576辆车,而测试集包含其他200辆车。
评测方法:在我们的实验中,我们使用CMC@1和平均平均精度(mAP)作为评价标准。
基于transformer的动态密集对齐模型(TDDA)在三个数据集上进行比较。本发明使用了ResNet50作为本发明的baseline。
表1展示了在VERI-Wild数据集上的结果。可以发现,我们的方法的性能优于其他网络。与ResNet50相比,小、中、大数据集的变压器性能mAP分别提高了2.8%、4.8%和5.0%。这是因为transformer的自注意机制可以很好地捕获特征上下文信息。同时,与baseline(transformer)相比,TDDA的性能有了显著的改善,分别提高了1.6%、1.8%和1.9%。与SOTA的现有方法PVEN相比,SOTA的性能分别提高了2.3%、3.1%和3.3%
表1.VERI-Wild数据集上的结果
Figure BDA0003532641730000091
表2中展示了在Vehicle-ID数据集上的结果。比较了这个数据集上的CMC@1和CMC@5的分数,因为每个查询车辆只有一个地面真相。表5显示了三个不同大小的测试数据集的比较结果。在车辆中,几乎所有的车辆图像都是从正面和背面拍摄的。对于不同视野下的车辆图像,其共同面积非常小。我们的方法在这个数据集上的作用是非常有限的。然而,与baseline(transformer)相比,TDDA在所有指标上都取得了性能改进,三个测试集的CMC@1和CMC@5分别提高了2.6%和1.2%,1.7%和2.0%,1.7%和3.2%
表2.Vehicle-ID数据集上的结果
Figure BDA0003532641730000092
Figure BDA0003532641730000101
表3中展示了在VeRi-776数据集上的结果。其中采用了两个测量指标,包括mAP,CMC@1。具体来说,TDDA比baseline(transformer)提高了2.8%mAP和1.5%CMC@1。
表3.VeRi-776数据集上的结果
Figure BDA0003532641730000102
在本发明的框架中有三个重要的组件:transformer、DPE和DEM。在最具挑战性的数据集VERI-Wild上,当添加DPE时,+0.6%的mAP提高了性能。这表明DPE可以提高特征对齐能力。当同时加入DPE和DEM时,+性能显著提高了1.6%,达到84.8%的mAP,表示密集嵌入可以实现完全的空间对齐。
本发明分析了DEM模块的权重λ对性能的影响。随着λ的增加,mAP被提高到84.8%的mAP(λ=0.5)。随着λ的持续增加,由于原始特征的权重减弱,性能下降,这也不利于学习。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.基于transformer的动态密集对齐车辆重识别方法,其特征在于:所述方法具体过程为:
步骤一、采集不同视角的车辆图像数据集,分为训练集和测试集;
步骤二、建立主干网络,将采集不同视角的车辆图像数据集中的训练集输入主干网络进行训练,直至收敛,得到训练好的主干网络;
所述主干网络包括CNN网络模块、扁平化处理模块、可学习嵌入模块、车辆关键点检测模型、动态密集嵌入模块、Transformer编码器模块、BN、监督学习模块、ID损失、三元组损失;
步骤三、将不同视角的车辆图像数据集中的测试集输入练好的主干网络,进行分类结果预测;
所述步骤二中建立主干网络,将采集不同视角的车辆图像数据集中的训练集输入主干网络进行训练,直至收敛,得到训练好的主干网络;具体过程为:
将采集的不同视角的车辆图像数据集中的训练集分别输入主干网络中的CNN网络模块和车辆关键点检测模型;
CNN网络模块对采集的不同视角的车辆图像数据集中的训练集进行处理,输出车辆图像的特征,车辆图像的特征输入扁平化处理模块,扁平化处理模块对车辆图像的特征进行扁平化处理,得到扁平特征;
车辆关键点检测模型对采集的不同视角的车辆图像数据集中的训练集进行处理,得到车辆图像的关键点;
车辆图像的关键点输入动态密集嵌入模块,动态密集嵌入模块对车辆图像的关键点进行处理,输出具有缓解视角变换车辆重识别特征;
可学习嵌入模块提供可学习的嵌入标记和位置嵌入;
将可学习的嵌入标记、位置嵌入、扁平特征、具有缓解视角变换车辆重识别特征输入Transformer编码器;
将Transformer编码器输出的具有动态位置编码的特征分别进行监督学习;
监督学习由三元组损失和交叉熵损失组成;
其中进行交叉熵损失的特征需要先通过BN;
所述车辆图像的关键点输入动态密集嵌入模块,动态密集嵌入模块对车辆图像的关键点进行处理,输出具有缓解视角变换车辆重识别特征;具体过程为:
将关键点分配给四个象限
Figure FDA0004097468680000011
其中
Figure FDA00040974686800000211
是第j象限中关键点k的坐标,j=1,2,3,4;
Figure FDA0004097468680000021
Figure FDA0004097468680000022
Figure FDA0004097468680000023
Lk=fk(Vk)
其中,
Figure FDA0004097468680000024
为权重,
Figure FDA0004097468680000025
为与扁平特征xi的坐标
Figure FDA0004097468680000026
距离最近的
Figure FDA0004097468680000027
Figure FDA0004097468680000028
为密集的位置编码;fk为第k个关键点输入映射网络f对应的输出;
Figure FDA0004097468680000029
为扁平特征xi的坐标;
每辆车有k个关键点,初始化一个k×k的对角矩阵,Vk为对角矩阵的行,k表示为关键点索引;Lk为关键点信息,Lk∈R1×D
Figure FDA00040974686800000210
其中Z0表示输入特征,λ是平衡DPE重量的超参数;Z′0表示结合了动态位置编码的特征;D为二维的车辆图像的特征通道维度;
将结合了动态位置编码的特征Z′0输入transformer,得到具有缓解视角变换车辆重识别特征。
2.根据权利要求1所述基于transformer的动态密集对齐车辆重识别方法,其特征在于:所述扁平化处理模块对车辆图像的特征进行扁平化处理,得到扁平特征;具体过程为:
使用一个扁平化算子将二维的车辆图像的特征转为一维的车辆图像的特征,得到尺寸为N×D的扁平特征X=[x1,x2,…,xN];
其中N为二维的车辆图像的特征的长度,N=H×W,D为二维的车辆图像的特征通道维度,H为二维的车辆图像的特征的长,W为二维的车辆图像的特征的宽。
3.根据权利要求2所述基于transformer的动态密集对齐车辆重识别方法,其特征在于:所述三元组损失函数表示为:
Ltriplet=[dp-dn+α]+
其中,dp为特征空间中正样本对,特征空间中正样本对为同一ID车辆的特征距离;dn为特征空间中负样本对,特征空间中负样本对为不同ID车辆的特征距离;dp-dn为特征空间中正样本对和负样本对的距离,α为三元组损失的边缘;[dp-dn+α]+为使dp-dn+α大于0。
4.根据权利要求3所述基于transformer的动态密集对齐车辆重识别方法,其特征在于:所述映射网络f依次包括全连接层1、ReLU激活层、全连接层2。
5.根据权利要求4所述基于transformer的动态密集对齐车辆重识别方法,其特征在于:所述输入特征Z0表示为:
Z0=[xcls,x1,x2,…,xN]+Epos,Epos∈R(N+1)×D
其中Z0表示输入特征,xcls为可学习的嵌入标记,Epos为位置嵌入,x1,x2,…,xN为扁平特征;R表示实数。
CN202210213377.XA 2022-03-04 2022-03-04 基于transformer的动态密集对齐车辆重识别技术 Active CN114581864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210213377.XA CN114581864B (zh) 2022-03-04 2022-03-04 基于transformer的动态密集对齐车辆重识别技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210213377.XA CN114581864B (zh) 2022-03-04 2022-03-04 基于transformer的动态密集对齐车辆重识别技术

Publications (2)

Publication Number Publication Date
CN114581864A CN114581864A (zh) 2022-06-03
CN114581864B true CN114581864B (zh) 2023-04-18

Family

ID=81773379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210213377.XA Active CN114581864B (zh) 2022-03-04 2022-03-04 基于transformer的动态密集对齐车辆重识别技术

Country Status (1)

Country Link
CN (1) CN114581864B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274823B (zh) * 2023-11-21 2024-01-26 成都理工大学 基于DEM特征增强的视觉Transformer滑坡识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837940A (zh) * 2021-09-03 2021-12-24 山东师范大学 基于密集残差网络的图像超分辨率重建方法及系统
CN114091510A (zh) * 2021-09-17 2022-02-25 南京信息工程大学 基于领域自适应的跨域车辆重识别方法
CN114091548A (zh) * 2021-09-23 2022-02-25 昆明理工大学 一种基于关键点和图匹配的车辆跨域重识别方法
CN114120363A (zh) * 2021-11-23 2022-03-01 上海市刑事科学技术研究院 基于背景及姿态归一化的行人跨镜重识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008842A (zh) * 2019-03-09 2019-07-12 同济大学 一种基于深度多损失融合模型的行人重识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837940A (zh) * 2021-09-03 2021-12-24 山东师范大学 基于密集残差网络的图像超分辨率重建方法及系统
CN114091510A (zh) * 2021-09-17 2022-02-25 南京信息工程大学 基于领域自适应的跨域车辆重识别方法
CN114091548A (zh) * 2021-09-23 2022-02-25 昆明理工大学 一种基于关键点和图匹配的车辆跨域重识别方法
CN114120363A (zh) * 2021-11-23 2022-03-01 上海市刑事科学技术研究院 基于背景及姿态归一化的行人跨镜重识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jiawei Liu et al..CA3 Net: Contextual-Attentional Attribute-Appearance Network for Person Re-Identification.《arXiv:1811.07544v1》.2018,第1-9页. *
李东原.基于深度学习的车辆重识别算法研究.《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》.2022,C034-719. *

Also Published As

Publication number Publication date
CN114581864A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
US20220415027A1 (en) Method for re-recognizing object image based on multi-feature information capture and correlation analysis
CN1157674C (zh) 形状描述符抽取方法
Berg et al. Shape matching and object recognition using low distortion correspondences
CN106845341B (zh) 一种基于虚拟号牌的无牌车辆识别方法
CN108491430B (zh) 一种基于对特征方向进行聚类的无监督哈希检索方法
CN105224937B (zh) 基于人体部件位置约束的细粒度语义色彩行人重识别方法
CN111666434B (zh) 基于深度全局特征的街景图片检索方法
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN102663380A (zh) 一种钢铁板坯编码图像中的字符识别方法
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN112365462A (zh) 一种基于图像的变化检测方法
CN114581864B (zh) 基于transformer的动态密集对齐车辆重识别技术
CN115830637B (zh) 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN112183325B (zh) 基于图像对比的公路车辆检测方法
Wu et al. Contrastive learning-based robust object detection under smoky conditions
CN112734818B (zh) 基于残差网络和sift的多源高分辨率遥感图像自动配准方法
CN107291813B (zh) 基于语义分割场景的示例搜索方法
CN112668662A (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN105224619B (zh) 一种适用于视频/图像局部特征的空间关系匹配方法及系统
CN109740405B (zh) 一种非对齐相似车辆前窗差异信息检测方法
CN109064403B (zh) 基于分类耦合字典稀疏表示的指纹图像超分辨率方法
CN110766655A (zh) 一种基于丰度的高光谱图像显著性分析方法
CN109858353A (zh) 基于迹变换与lbp的人脸图像特征提取方法
CN111160433B (zh) 一种高分辨率图像特征点的高速匹配方法及系统
Kanji Local map descriptor for compressive change retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant