CN113221911B - 一种基于双重注意力机制的车辆重识别方法及系统 - Google Patents

一种基于双重注意力机制的车辆重识别方法及系统 Download PDF

Info

Publication number
CN113221911B
CN113221911B CN202110381441.0A CN202110381441A CN113221911B CN 113221911 B CN113221911 B CN 113221911B CN 202110381441 A CN202110381441 A CN 202110381441A CN 113221911 B CN113221911 B CN 113221911B
Authority
CN
China
Prior art keywords
neural network
image
convolutional neural
batch
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110381441.0A
Other languages
English (en)
Other versions
CN113221911A (zh
Inventor
胡永健
甘豪
刘琲贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110381441.0A priority Critical patent/CN113221911B/zh
Publication of CN113221911A publication Critical patent/CN113221911A/zh
Application granted granted Critical
Publication of CN113221911B publication Critical patent/CN113221911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles
    • G08G1/0175Detecting movement of traffic to be counted or controlled identifying vehicles by photographing vehicles, e.g. when violating traffic rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双重注意力机制的车辆重识别方法及系统,该方法包括下述步骤:构建用于车辆特征提取的卷积神经网络;构建用于关注不同通道的通道注意力部件;构建用于关注特征适合粒度的粒度注意力部件;在每个训练批次中随机选择多类车辆,在每类车辆中随机选择多张图像构建成批次图像;将批次图像进行实时数据增强后输入卷积神经网络;构建批量标签平滑正则化后的交叉熵损失函数和三元组损失函数,两者相加后得到整体的损失函数;将训练后的卷积神经网络进行特征提取,计算特征之间的欧几里得距离,对距离重排序得到车辆重识别结果。本发明能够更好地获取车辆图像的细粒度特征,提高模型的精度和稳定性。

Description

一种基于双重注意力机制的车辆重识别方法及系统
技术领域
本发明涉及车辆重识别技术领域,具体涉及一种基于双重注意力机制的车辆重识别方法及系统。
背景技术
车辆重识别是一种车辆搜索方法,是指输入一个查询车辆图像,在数据库中搜索与查询车辆身份相同的车辆。车辆重识别一般应用于大规模城市视频监控网络中,能帮助交通管理部门快速、准确、便捷地在海量交通监控数据中发现、定位、跟踪目标车辆。但无约束的城市交通场景给车辆重识别技术带来了很多难题,如环境光照的多变性、拍摄角度的任意性、拍摄背景的复杂性、前景物体的遮挡等,以车牌识别技术进行搜索车辆已不能满足时代需求。
相关研究中,为充分利用车内装饰、年检标等小区域特征来重识别车辆, Liu等人在《Group-Group Loss-Based Global-Regional Feature Learning for Vehicle Re-Identification》中提出了全局-局部特征学习(Global-Regional Feature Learning,GRF),并提出了组组损失(Group-Group Loss,GGL)来加快该学习过程。其中,GRF是通过两个子网络学习特征,一个学习全局特征,另一个分割特征图来学习局部特征。这两部分特征后续通过GGL计算损失,采用L2距离计算公式,增大类间距离,减小类内距离,以提高模型性能。Pirazh Khorramshahi等人从关键点和车辆方向这两方面入手,在《A Dual-Path ModelWith Adaptive Attention For Vehicle Re-Identification》中提出了自适应注意力(Adaptive Attention)。整个模型同样分为两条支路,一条支路学习全局特征,另一条在检测关键点和预测车辆方向后进行局部特征提取。全局特征和局部特征再经过连接操作和全连接层后,计算L2损失,反向传播梯度更新模型。
上述方法从不同方向对局部特征进行了研究和提取,在一定程度上增强了特征的区分能力,提高了车辆重识别的性能,但是在提取局部特征时都单独使用了一个子网络,增加了计算资源,且对特定的数据容易出现过拟合问题,降低了实用性。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于双重注意力机制的车辆重识别方法及系统。本发明提出融合通道和粒度两方面注意力机制的方法,通道注意力机制对神经网络隐藏层的不同通道分配不同权重,使重要通道特征得到加强,无效通道特征得到抑制;粒度注意力机制对神经网络输出的特征图进行全局提取,其中的可学习参数能在全局提取时确保关注到合适的粒度,两种注意力机制的引入使得神经网络的收敛更加快速,提取的细粒度特征更加实用。
为解决神经网络训练过程中的过拟合问题,本发明采用了基于带有标签平滑正则化的交叉熵损失和批量三元组损失一同作为损失函数,融合了多种图像增强方法和训练技巧;同时,本发明在充分考虑原排序上下文信息的基础上,提出一种新的重排序方法,具体利用查询图像与近似图像聚类中心的距离来修正查询图像与该聚类中图像的距离,该方法能有效减少异常结果的出现,进一步提高模型的精度和稳定性,并且计算简单快捷,具有通用性。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于双重注意力机制的车辆重识别方法,包括下述步骤:
构建用于车辆特征提取的卷积神经网络;
构建用于关注不同通道的通道注意力部件;
构建用于关注特征适应粒度的粒度注意力部件;
在每个训练批次中随机选择多类车辆,在每类车辆中随机选择多张图像构建成批次图像;
将批次图像进行实时数据增强后输入所述卷积神经网络;
构建批量标签平滑正则化后的交叉熵损失函数Lce和三元组损失函数Ltr,交叉熵损失函数Lce和三元组损失函数Ltr相加后得到整体的损失函数:
训练卷积神经网络,根据损失函数的梯度值更新卷积神经网络权重,训练完成后保存当前卷积神经网络的权重;
将更新权重后的卷积神经网络进行特征提取,计算特征之间的欧几里得距离,对距离重排序后输出车辆重识别结果。
作为优选的技术方案,所述卷积神经网络采用神经网络ResNet-50作为基础卷积神经网络。
作为优选的技术方案,所述通道注意力部件包括:全局平均池化层、第一卷积层、修正线性单元激活函数、第二卷积层和S型激活函数,所述通道注意力部件用于插入所述卷积神经网络中的所有残差块中。
作为优选的技术方案,所述粒度注意力部件采用广义平均池化层,具体表示为:
Figure BDA0003013132130000031
其中,X为卷积神经网络提取的特征图,|X|表示特征图的像素点总数,x为特征图X上的各点,p为可学习参数。
作为优选的技术方案,所述将批次图像进行实时数据增强后输入所述卷积神经网络,所述实时数据增强包括调整图像大小、零值填充、随机裁剪、随机亮度变化、随机旋转、标准化和随机擦除步骤;
所述调整图像大小步骤将图像统一缩放到固定大小,缩放方法采用双线性插值;
所述零值填充步骤采用灰度级为0的像素填充图像的四边,每边填充固定个数的像素;
所述随机裁剪步骤采用固定尺寸的裁剪框在图像的指定范围进行随机裁剪;
所述随机亮度变化步骤采用随机因子调整车辆图像的亮度;
所述随机旋转步骤将图像在设定角度阈值内进行随机角度旋转,旋转填充使用零值填充;
所述标准化步骤将图像的红绿蓝通道分别减去指定的平均值,然后除以指定的标准差;
所述随机擦除步骤设置擦除块对图像各个位置进行随机擦除。
作为优选的技术方案,所述交叉熵损失函数Lce具体表示为:
Figure BDA0003013132130000041
Figure BDA0003013132130000042
其中,B表示每批次图像的数量,M表示车辆训练集的类别总数,
Figure BDA0003013132130000043
表示每批次中第i张图像关于第c类类别的经过标签平滑正则化后的概率,pic表示每批次中第i张图像关于第c类类别的预测概率,yic表示每批次中第i张图像关于第c类类别的真实概率,ε表示一个常数;
所述三元组损失函数具体表示为:
Figure BDA0003013132130000044
其中,P表示每批次中车辆的类别数,K表示每批次中每类车辆的图像数,
Figure BDA0003013132130000045
表示第y类车辆的第x张图像的特征,下标a、p、n分别表示三元组的锚点、正样本点和负样本点,m表示正样本对和负样本对间的最小间隔,D表示距离度量函数。
作为优选的技术方案,所述训练卷积神经网络,具体采用Adam优化器作为训练优化器,学习率采用渐进的预热策略,具体设置为:
Figure BDA0003013132130000051
其中,lr(t)表示学习率,t表示迭代轮次。
作为优选的技术方案,所述对距离重排序后输出车辆重识别结果,所述对距离重排序的具体计算公式表示为:
Figure BDA0003013132130000052
Figure BDA0003013132130000053
E(Fi,Fj)=||Fi-Fj||2
其中,D(Fi,Fj)表示特征Fi和特征Fj的新距离度量函数,μ表示一个常数, E(Fi,Fj)表示特征Fi和特征Fj的欧几里得距离函数,||·||2表示取向量的二范数,N表示测试集的图像数,argminn(.)表示给定表达式取最小的n个值时对应的参数集合。
本发明还提供一种基于双重注意力机制的车辆重识别系统,包括:卷积神经网络构建模块、通道注意力部件构建模块、粒度注意力部件构建模块、批次图像构建模块、实时数据增强模块、损失函数构建模块、卷积神经网络训练模块和重排序模块;
所述卷积神经网络构建模块用于构建卷积神经网络,所述卷积神经网络用于车辆特征提取;
所述通道注意力部件构建模块用于构建通道注意力部件,分配不同通道不同权重;
所述粒度注意力部件构建模块用于构建粒度注意力部件,关注特征的最适合粒度表示;
所述批次图像构建模块用于在每个训练批次中随机选择多类车辆,在每类车辆中随机选择多张图像构建成批次图像;
所述实时数据增强模块用于将所述批次图像进行实时数据增强后输入所述卷积神经网络;
所述损失函数构建模块用于构建批量三元组损失函数Ltr以及构建标签平滑正则化后的交叉熵损失函数Lce,将交叉熵损失函数Lce和三元组损失函数Ltr相加后得到整体损失函数L;
所述卷积神经网络训练模块用于训练卷积神经网络训练模块,训练完成后保存当前卷积神经网络的权重;
所述重排序模块用于将更新权重后的卷积神经网络提取的特征,计算特征之间的欧几里得距离,对距离重排序后输出车辆重识别结果。
作为优选的技术方案,所述实时数据增强模块包括调整图像大小单元、零值填充单元、随机裁剪单元、随机亮度变化单元、随机旋转单元、标准化单元和随机擦除单元;
所述调整图像大小单元将图像统一缩放到固定大小,缩放方法采用双线性插值;
所述零值填充单元采用灰度级为0的像素填充图像的四边,每边填充固定个数的像素;
所述随机裁剪单元采用固定尺寸的裁剪框在图像的指定范围进行随机裁剪;
所述随机亮度变化单元采用随机因子调整车辆图像的亮度;
所述随机旋转单元将图像在设定角度阈值内进行随机角度旋转,旋转填充使用零值填充;
所述标准化单元将图像的红绿蓝通道分别减去指定的平均值,然后除以指定的标准差;
所述随机擦除单元设置擦除块对图像各个位置进行随机擦除。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明提出融合通道和粒度两方面注意力机制的方法,通道注意力机制对神经网络隐藏层的不同通道分配不同权重,使重要通道特征得到加强,无效通道特征得到抑制,解决了神经网络部分参数停止学习或学习冗余特征的问题,使得神经网络整体参数更侧重于有用特征的学习,从而增强神经网络的提取特征能力;粒度注意力机制对神经网络输出的特征图进行全局提取,其中的可学习参数能在全局提取时确保关注到合适的粒度,解决了最大池化关注粒度小、平均池化关注粒度大的问题,同时兼容最大池化和平均池化的功能,使得神经网络提取的细粒度特征更加鲁棒,且两种注意力机制的引入使得神经网络的学习更有针对性,收敛更加快速。
(2)本发明采用了基于带有标签平滑正则化的交叉熵损失和批量三元组损失一同作为损失函数,批采样器使用了难例挖掘方法,解决了特征类内距离大、类间距离小的问题,使得特征更具区分力;同时,本发明采用了多种图像增强方法和训练技巧,较好地解决了神经网络的过拟合、样本不均衡和收敛速度慢的问题,达到了既加速模型训练又提高模型泛化性的效果。
(3)本发明提出了一种简单高效的重排序方法,通过对每个查询结果进行合适图像数的聚类,得到的每个查询结果聚类中心与查询图像进行距离计算,利用该距离来更新对应查询结果和查询图像的原距离,使得两者之间的距离关系更加可靠,从而减少非匹配查询结果的出现,进一步提高模型的精度和鲁棒性,并且该方法避免了现有技术所需的大量逻辑判断运算,计算简单高效,能运用于多种重识别和搜索系统中,具有通用性和实时性。
附图说明
图1为本实施例基于双重注意力机制的车辆重识别方法的训练流程图;
图2为本实施例插入注意力部件后的神经网络结构示意图;
图3(a)为本实施例数据增强前的原始图像示意图;
图3(b)为本实施例数据增强时加入调整大小和零值填充后的图像示意图;
图3(c)为本实施例数据增强时加入随机裁剪后的图像示意图;
图3(d)为本实施例数据增强时加入随机亮度变化后的图像示意图;
图3(e)为本实施例数据增强时加入随机旋转后的图像示意图;
图3(f)为本实施例数据增强时加入随机擦除后的图像示意图;
图4为本实施例基于双重注意力机制的车辆重识别方法的模型整体结构示意图;
图5为本实施例基于双重注意力机制的车辆重识别方法的测试流程图;
图6为本实施例重排序方法的流程示意图;
图7为本实施例重排序方法在不同参数下的排序结果mAP曲线示意图;
图8为本实施例重排序方法在不同参数下的排序结果CMC Top1曲线示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例的数据及采用Veri-776数据集,数据集中图像来源于城市监控视频,20个摄像头覆盖了一平方公里的范围,监控时长为24小时。该数据集中有 776辆车,总图像数为49357,其中训练图像数为37778,查询图像数为1678,测试图像数为11579。数据集的详细信息如下表1所示,本实施例主要基于框架 Pytorch1.5.1来实现,实验所用显卡为GEFORCERTX 2080Ti,系统为Ubuntu 20.04,CUDA版本为10.2,cudnn版本为8.0.1。
表1车辆重识别数据集的详细信息表
Figure BDA0003013132130000091
如图1所示,本实施例提供一种基于双重注意力机制的车辆重识别方法,包括下述步骤:
S1、构建用于车辆特征提取的卷积神经网络N;
在本实施例中,卷积神经网络N为ResNet-50,最后一层全连接层有579个通道数;
S2、构建用于关注不同通道的通道注意力部件AC;
如图2所示,在本实施例中,通道注意力部件AC由全局平均池化层、1×1 卷积层、修正线性单元(ReLU)激活函数、1×1卷积层和S型(Sigmoid)激活函数组成,在每个残差块中都插入该部件;
其中,全局平均池化层从特征图中提取一个权重,接着1×1卷积层压缩通道数,减少参数,本实施例中将通道数压缩成原来的
Figure BDA0003013132130000092
修正线性单元(ReLU) 引入非线性变化,增强该部件的学习能力,后接1×1卷积层将通道数扩大16 倍,两个1×1卷积层形成瓶颈结构,有效降低参数量。再接S型函数(Sigmoid) 将权重归一化,得到各通道的权重,最后与残差块的输出相乘,各个通道对应一个权重,关键通道的权重在训练过程中逐渐增大,起到通道注意力机制的作用。
S3、构建用于关注特征适合粒度的粒度注意力部件AG;
如图2所示,在本实施例中,关注特征适合粒度的粒度注意力部件AG,接在卷积神经网络部件N的最后一个卷积层后,采用广义平均池化层(Generalized Mean PoolingLayer),具体公式为:
Figure BDA0003013132130000101
其中,X为卷积神经网络提取的特征图,|X|表示特征图的像素点总数,x为特征图X上的各点,p为可学习参数。当p→∞时,该池化层为最大池化层;当 p=1时,该池化层为平均池化层。p越大,关注的粒度越小。在本实施例中,p的初始值设为3。
S4、卷积神经网络N在训练阶段初始预先加载在ImageNet数据集训练的网络权重;对于训练阶段的每个批次,构建采样模块,每次随机选择P类车辆,每类车辆随机挑选K张图像构成B=P×K的批次图像,对批次图像进行实时数据增强,并将实时增强后的车辆图像作为卷积神经网络N的输入,本实施例P取16, K取4,B取64;
如图3(a)-图3(f)所示,训练阶段的实时数据增强技术包括调整图像大小、零值填充、随机裁剪、随机亮度变化、随机旋转、标准化和随机擦除。首先,统一调整图像大小为256×256,然后图像四边都用10个灰度级为0的像素填充,填充后图像大小为276×276,然后用256×256的裁剪框对图像进行随机裁剪,然后用0.2的亮度差异因子对图像进行随机亮度变化,然后用20度的角度差异因子对图像进行随机旋转,然后对图像红绿蓝三通道分别进行归一化,并用平均值分别为0.485、0.456、0.406和标准差分别为0.229、0.224、0.225的参数来分别标准化红绿蓝三通道图像,最后针对车辆会被遮挡的实际情况,使用随机擦除,擦除几率为0.5,擦除区域出现在图像的各个位置,擦除区域与图像的比例在0.02-0.33之间,擦除区域的长宽比例在0.3-3.3之间,擦除区域用灰度级为 0的像素点填充。这些数据增强技术降低了模型的过拟合程度,增强了模型的泛化性;
S5、如图4所示,训练阶段,卷积神经网络N的输出各类别预测概率pic,用于构建标签平滑正则化后的交叉熵损失函数Lce,具体公式为:
Figure BDA0003013132130000111
Figure BDA0003013132130000112
其中,B表示每批次图像的数量,在本实施例中为64,M表示车辆训练集的类别总数,在本实施例中为579,
Figure BDA0003013132130000113
表示每批次中第i张图像关于第c类类别的经过标签平滑正则化后的概率,pic表示每批次中第i张图像关于第c类类别的预测概率,yic表示每批次中第i张图像关于第c类类别的真实概率,ε表示一个常数,用于减小模型对标签的置信度和降低模型的过拟合程度,在本实施例中取0.1。
粒度注意力部件输出特征F,将特征F用于计算批量三元组损失函数Ltr,具体公式为:
Figure BDA0003013132130000114
其中,P表示每批次中车辆的类别数,在本实施例中为16,K表示每批次中每类车辆的图像数,在本实施例中为4,
Figure BDA0003013132130000115
表示第y类车辆的第x张图像的特征,下标a、p、n分别表示三元组的锚点、正样本点和负样本点,m表示正样本对和负样本对间的最小间隔,在本实施例中取0.3,D表示距离度量函数,在本实施例中采用欧几里得距离函数;
将Lce和Ltr相加即得系统整体的损失函数为L=Lce+Ltr,以损失函数L最小化为目标,采用梯度下降的方法来训练模型,利用卷积神经网络的反向传播机制,根据损失值更新网络权重,当训练次数达到指定训练次数e时停止训练,保存当前神经网络的权重;
在本实施例中,将训练次数设为e=100,采用Adam优化器作为训练优化器,学习率采用渐进的预热策略,初始学习率设为3.5×10-3,学习率lr(t)设置为:
Figure BDA0003013132130000121
其中,t表示迭代轮次;
S6、推断阶段,如图5所示,使用已加载上述保存权重的卷积神经网络N 来提取样本的特征F,并通过特征间的欧几里得距离来衡量样本间的距离;
如图6所示,本重排序方法是将查询图像集和参考图像集作为输入,提取两个图像集中所有图像的特征,根据特征计算两两图像之间的欧几里得距离,利用欧几里得距离重排序,重排序时的新距离函数具体为:
Figure BDA0003013132130000122
Figure BDA0003013132130000123
E(Fi,Fj)=||Fi-Fj||2
其中,D(Fi,Fj)表示特征Fi和特征Fj的新距离度量函数,μ表示一个常数,在本实施例中取0.1,E(Fi,Fj)表示特征Fi和特征Fj的欧几里得距离函数,||·||2表示取向量的二范数,N表示参考集的图像数,在本实施例中为11579,n表示一个常数,在本实施例中取27,函数argminn(.)表示给定表达式取最小的n个值时对应的参数集合。
由查询图像集和参考图像集的特征可计算得到一个距离矩阵,根据距离矩阵和相关标签计算模型关于查询图像集和参考图像集的累积匹配曲线 (Cumulative MatchCharacteristic curve,CMC)和平均精度均值(mean Average Precision,mAP)。
本实施例通过融合通道注意力机制和粒度注意力机制,使神经网络能加大重要通道的权重,能在提取全局特征时找到合适的粒度,加快了收敛速度和增强了提取特征的能力。同时,本实施例采用了基于带有标签平滑正则化的交叉熵损失和批量三元组损失一同作为损失函数,融合了多种图像增强方法和训练技巧,较好地解决神经网络训练过程中的过拟合问题和样本不均衡问题。最后,本实施例提出了一种应用于重排序中的新的距离度量函数,能够提高模型的鲁棒性。
本实施例在Veri-776数据集上进行测试,使用累积匹配曲线和平均精度均值来评价模型性能。累积匹配曲线和平均精度均值越大,说明模型性能越好,车辆重识别算法效果越好。
为了证明本实施例的有效性,本实施例对注意力部件和重排序算法进行了消融实验,实验结果如下表2所示。结果显示,本实施例的通道注意力部件、粒度注意力部件和重排序算法均对神经网络性能有显著提升,证明本实施例能有效提取车辆的细粒度特征。
表2消融实验结果
Figure BDA0003013132130000141
为进一步证明本实施例中重排序方法的有效性,本实施例对重排序方法的相关参数进行了实验,对n和μ进行不同取值,结果如图7、图8所示,实验结果表明mAP和CMC Top1在合适的n和μ取值下能取得最大值,且本重排序方法对排序性能有较大且稳定的提升。
实施例2
本实施例提供一种基于双重注意力机制的车辆重识别系统,包括:卷积神经网络构建模块、通道注意力机制部件构建模块、粒度注意力机制部件构建模块、批次图像构建模块、实时数据增强模块、损失函数构建模块、卷积神经网络训练模块和重排序模块;
卷积神经网络构建模块用于构建卷积神经网络,卷积神经网络用于车辆特征提取;通道注意力部件构建模块用于构建通道注意力部件,分配不同通道不同权重;粒度注意力部件构建模块用于构建粒度注意力部件,关注特征的最适合粒度表示;批次图像构建模块用于在每个训练批次中随机选择多类车辆,在每类车辆中随机选择多张图像构建成批次图像;实时数据增强模块用于将所述批次图像进行实时数据增强后输入所述卷积神经网络;损失函数构建模块用于构建批量三元组损失函数Ltr以及构建标签平滑正则化后的交叉熵损失函数Lce,得到整体损失函数L;卷积神经网络训练模块用于训练卷积神经网络训练模块,训练完成后保存当前卷积神经网络的权重;重排序模块用于将更新权重后的卷积神经网络提取的特征,计算特征之间的欧几里得距离,对距离重排序后输出车辆重识别结果。
在本实施例中,实时数据增强模块包括调整图像大小单元、零值填充单元、随机裁剪单元、随机亮度变化单元、随机旋转单元、标准化单元和随机擦除单元;
在本实施例中,调整图像大小单元将图像统一缩放到固定大小,缩放方法采用双线性插值;零值填充单元采用灰度级为0的像素填充图像的四边,每边填充固定个数的像素;随机裁剪单元采用固定尺寸的裁剪框在图像的指定范围进行随机裁剪;随机亮度变化单元采用随机因子调整车辆图像的亮度;随机旋转单元将图像在设定角度阈值内进行随机角度旋转,旋转填充使用零值填充;标准化单元将图像的红绿蓝通道分别减去指定的平均值,然后除以指定的标准差;随机擦除单元设置擦除块对图像各个位置进行随机擦除。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于双重注意力机制的车辆重识别方法,其特征在于,包括下述步骤:
构建用于车辆特征提取的卷积神经网络;
构建用于关注不同通道的通道注意力部件,所述通道注意力部件包括:全局平均池化层、第一卷积层、修正线性单元激活函数、第二卷积层和S型激活函数,所述通道注意力部件用于插入所述卷积神经网络中的所有残差块中,对神经网络隐藏层的不同通道分配不同权重;
构建用于关注特征适应粒度的粒度注意力部件,粒度注意力部件接在卷积神经网络的最后一个卷积层后,采用广义平均池化层;
在每个训练批次中随机选择多类车辆,在每类车辆中随机选择多张图像构建成批次图像;
将批次图像进行实时数据增强后输入所述卷积神经网络;
构建批量标签平滑正则化后的交叉熵损失函数Lce和三元组损失函数Ltr,交叉熵损失函数Lce和三元组损失函数Ltr相加后得到整体的损失函数:
训练卷积神经网络,根据损失函数的梯度值更新卷积神经网络权重,训练完成后保存当前卷积神经网络的权重;
将更新权重后的卷积神经网络进行特征提取,计算特征之间的欧几里得距离,对距离重排序后输出车辆重识别结果;
所述对距离重排序后输出车辆重识别结果,所述对距离重排序的具体计算公式表示为:
Figure FDA0003951933210000011
Figure FDA0003951933210000012
E(Fi,Fj)=||Fi-Fj||2
其中,D(Fi,Fj)表示特征Fi和特征Fj的新距离度量函数,μ表示一个常数,E(Fi,Fj)表示特征Fi和特征Fj的欧几里得距离函数,||·||2表示取向量的二范数,N表示测试集的图像数,argminn(.)表示给定表达式取最小的n个值时对应的参数集合。
2.根据权利要求1所述的基于双重注意力机制的车辆重识别方法,其特征在于,所述卷积神经网络采用神经网络ResNet-50作为基础卷积神经网络。
3.根据权利要求1所述的基于双重注意力机制的车辆重识别方法,其特征在于,所述粒度注意力部件采用广义平均池化层,具体表示为:
Figure FDA0003951933210000021
其中,X为卷积神经网络提取的特征图,|X|表示特征图的像素点总数,x为特征图X上的各点,p为可学习参数。
4.根据权利要求1所述的基于双重注意力机制的车辆重识别方法,其特征在于,所述将批次图像进行实时数据增强后输入所述卷积神经网络,所述实时数据增强包括调整图像大小、零值填充、随机裁剪、随机亮度变化、随机旋转、标准化和随机擦除步骤;
所述调整图像大小步骤将图像统一缩放到固定大小,缩放方法采用双线性插值;
所述零值填充步骤采用灰度级为0的像素填充图像的四边,每边填充固定个数的像素;
所述随机裁剪步骤采用固定尺寸的裁剪框在图像的指定范围进行随机裁剪;
所述随机亮度变化步骤采用随机因子调整车辆图像的亮度;
所述随机旋转步骤将图像在设定角度阈值内进行随机角度旋转,旋转填充使用零值填充;
所述标准化步骤将图像的红绿蓝通道分别减去指定的平均值,然后除以指定的标准差;
所述随机擦除步骤设置擦除块对图像各个位置进行随机擦除。
5.根据权利要求1所述的基于双重注意力机制的车辆重识别方法,其特征在于,所述交叉熵损失函数Lce具体表示为:
Figure FDA0003951933210000031
Figure FDA0003951933210000032
其中,B表示每批次图像的数量,M表示车辆训练集的类别总数,
Figure FDA0003951933210000033
表示每批次中第i张图像关于第c类类别的经过标签平滑正则化后的概率,pic表示每批次中第i张图像关于第c类类别的预测概率,yic表示每批次中第i张图像关于第c类类别的真实概率,ε表示一个常数;
所述三元组损失函数具体表示为:
Figure FDA0003951933210000034
其中,P表示每批次中车辆的类别数,K表示每批次中每类车辆的图像数,
Figure FDA0003951933210000035
表示第y类车辆的第x张图像的特征,下标a、p、n分别表示三元组的锚点、正样本点和负样本点,m表示正样本对和负样本对间的最小间隔,D表示距离度量函数。
6.根据权利要求1所述的基于双重注意力机制的车辆重识别方法,其特征在于,所述训练卷积神经网络,具体采用Adam优化器作为训练优化器,学习率采用渐进的预热策略,具体设置为:
Figure FDA0003951933210000041
其中,lr(t)表示学习率,t表示迭代轮次。
7.一种基于双重注意力机制的车辆重识别系统,其特征在于,包括:卷积神经网络构建模块、通道注意力部件构建模块、粒度注意力部件构建模块、批次图像构建模块、实时数据增强模块、损失函数构建模块、卷积神经网络训练模块和重排序模块;
所述卷积神经网络构建模块用于构建卷积神经网络,所述卷积神经网络用于车辆特征提取;
所述通道注意力部件构建模块用于构建通道注意力部件,分配不同通道不同权重,所述通道注意力部件包括:全局平均池化层、第一卷积层、修正线性单元激活函数、第二卷积层和S型激活函数,所述通道注意力部件用于插入所述卷积神经网络中的所有残差块中;
所述粒度注意力部件构建模块用于构建粒度注意力部件,关注特征的最适合粒度表示,粒度注意力部件接在卷积神经网络的最后一个卷积层后,采用广义平均池化层;
所述批次图像构建模块用于在每个训练批次中随机选择多类车辆,在每类车辆中随机选择多张图像构建成批次图像;
所述实时数据增强模块用于将所述批次图像进行实时数据增强后输入所述卷积神经网络;
所述损失函数构建模块用于构建批量三元组损失函数Ltr以及构建标签平滑正则化后的交叉熵损失函数Lce,将交叉熵损失函数Lce和三元组损失函数Ltr相加后得到整体损失函数L;
所述卷积神经网络训练模块用于训练卷积神经网络训练模块,训练完成后保存当前卷积神经网络的权重;
所述重排序模块用于将更新权重后的卷积神经网络提取的特征,计算特征之间的欧几里得距离,对距离重排序后输出车辆重识别结果;
所述对距离重排序后输出车辆重识别结果,所述对距离重排序的具体计算公式表示为:
Figure FDA0003951933210000051
Figure FDA0003951933210000052
E(Fi,Fj)=||Fi-Fj||2
其中,D(Fi,Fj)表示特征Fi和特征Fj的新距离度量函数,μ表示一个常数,E(Fi,Fj)表示特征Fi和特征Fj的欧几里得距离函数,||·||2表示取向量的二范数,N表示测试集的图像数,argminn(.)表示给定表达式取最小的n个值时对应的参数集合。
8.根据权利要求7所述的基于双重注意力机制的车辆重识别系统,其特征在于,所述实时数据增强模块包括调整图像大小单元、零值填充单元、随机裁剪单元、随机亮度变化单元、随机旋转单元、标准化单元和随机擦除单元;
所述调整图像大小单元将图像统一缩放到固定大小,缩放方法采用双线性插值;
所述零值填充单元采用灰度级为0的像素填充图像的四边,每边填充固定个数的像素;
所述随机裁剪单元采用固定尺寸的裁剪框在图像的指定范围进行随机裁剪;
所述随机亮度变化单元采用随机因子调整车辆图像的亮度;
所述随机旋转单元将图像在设定角度阈值内进行随机角度旋转,旋转填充使用零值填充;
所述标准化单元将图像的红绿蓝通道分别减去指定的平均值,然后除以指定的标准差;
所述随机擦除单元设置擦除块对图像各个位置进行随机擦除。
CN202110381441.0A 2021-04-09 2021-04-09 一种基于双重注意力机制的车辆重识别方法及系统 Active CN113221911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110381441.0A CN113221911B (zh) 2021-04-09 2021-04-09 一种基于双重注意力机制的车辆重识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110381441.0A CN113221911B (zh) 2021-04-09 2021-04-09 一种基于双重注意力机制的车辆重识别方法及系统

Publications (2)

Publication Number Publication Date
CN113221911A CN113221911A (zh) 2021-08-06
CN113221911B true CN113221911B (zh) 2023-03-21

Family

ID=77086791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110381441.0A Active CN113221911B (zh) 2021-04-09 2021-04-09 一种基于双重注意力机制的车辆重识别方法及系统

Country Status (1)

Country Link
CN (1) CN113221911B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610164B (zh) * 2021-08-10 2023-12-22 北京邮电大学 一种基于注意力平衡的细粒度图像识别方法及其系统
CN113792686B (zh) * 2021-09-17 2023-12-08 中南大学 基于视觉表征跨传感器不变性的车辆重识别方法
CN113837048B (zh) * 2021-09-17 2023-08-01 南京信息工程大学 基于少样本注意力的车辆重识别方法
CN114005096B (zh) * 2021-11-09 2024-05-10 河北工业大学 基于特征增强的车辆重识别方法
CN113822246B (zh) * 2021-11-22 2022-02-18 山东交通学院 一种基于全局参考注意力机制的车辆重识别方法
CN114495027A (zh) * 2022-01-11 2022-05-13 北京科技大学 一种基于网络数据的车型细粒度识别方法及装置
CN117726574B (zh) * 2023-09-13 2024-04-26 东莞市言科新能源有限公司 聚合物锂离子电池生产用封装系统及其方法
CN117576521A (zh) * 2024-01-16 2024-02-20 广州市易鸿智能装备股份有限公司 一种提高工业图像检测模型准确率的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492583A (zh) * 2018-11-09 2019-03-19 安徽大学 一种基于深度学习的车辆重识别方法
CN110008842A (zh) * 2019-03-09 2019-07-12 同济大学 一种基于深度多损失融合模型的行人重识别方法
CN111460915B (zh) * 2020-03-13 2023-04-18 华南理工大学 一种基于轻量神经网络的指静脉验证方法及系统
CN111553205B (zh) * 2020-04-12 2022-11-15 西安电子科技大学 无车牌信息车辆重识别方法、系统、介质、视频监控系统
CN112381017B (zh) * 2020-11-19 2022-04-22 华南理工大学 一种基于感知级联上下文的车辆重识别方法

Also Published As

Publication number Publication date
CN113221911A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113221911B (zh) 一种基于双重注意力机制的车辆重识别方法及系统
CN109993082B (zh) 卷积神经网络道路场景分类与道路分割方法
CN108197326B (zh) 一种车辆检索方法及装置、电子设备、存储介质
CN108537264B (zh) 基于深度学习的异源图像匹配方法
CN110796168A (zh) 一种基于改进YOLOv3的车辆检测方法
CN110619059B (zh) 一种基于迁移学习的建筑物标定方法
CN111460968A (zh) 基于视频的无人机识别与跟踪方法及装置
CN111612017A (zh) 一种基于信息增强的目标检测方法
CN113361645B (zh) 基于元学习及知识记忆的目标检测模型构建方法及系统
CN110659601B (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN112613375A (zh) 一种轮胎受损检测识别方法和设备
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN112364791A (zh) 一种基于生成对抗网络的行人重识别方法和系统
CN115049841A (zh) 基于深度无监督多步对抗域自适应的高分辨sar图像地物要素提取方法
CN115830531A (zh) 一种基于残差多通道注意力多特征融合的行人重识别方法
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN116092134A (zh) 一种基于深度学习和特征融合的指纹活体检测方法
CN117152503A (zh) 一种基于伪标签不确定性感知的遥感图像跨域小样本分类方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN117636298A (zh) 基于多尺度特征学习的车辆重识别方法、系统及存储介质
CN117593623A (zh) 基于改进YOLOv8n模型的轻量化车辆检测方法
CN117557922A (zh) 改进YOLOv8的无人机航拍目标检测方法
CN111160282A (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN115546474A (zh) 一种基于学习者集成策略的少样本语义分割方法
CN115761667A (zh) 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant