CN117935299A - 基于多阶特征分支和局部注意力的行人重识别模型 - Google Patents
基于多阶特征分支和局部注意力的行人重识别模型 Download PDFInfo
- Publication number
- CN117935299A CN117935299A CN202311670083.0A CN202311670083A CN117935299A CN 117935299 A CN117935299 A CN 117935299A CN 202311670083 A CN202311670083 A CN 202311670083A CN 117935299 A CN117935299 A CN 117935299A
- Authority
- CN
- China
- Prior art keywords
- feature
- pedestrian
- image
- local
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 74
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000011176 pooling Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000002776 aggregation Effects 0.000 claims description 16
- 238000004220 aggregation Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 4
- 238000005065 mining Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000011166 aliquoting Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多阶特征分支和局部注意力的行人重识别模型,涉及图像识别技术领域,包括以下步骤,对训练集中的行人图像进行数据增强预处理操作,输出行人特征图;经过广义平均池化操作计算对应的特征向量,得到多阶特征分支;全局特征向量与加权聚合的局部特征共同得到最终特征向量;使用难样本三元组损失函数、交叉熵损失函数和改进的中心损失函数来训练特征提取网络;计算待查询行人特征和测试集中所有行人特征的欧氏距离,得到查询行人的近邻列表,完成行人重识别。本发明采用上述步骤,通过可变的注意力参数引导融合图像不同区域之后的特征作为最终的特征向量对图像进行表示,有利于自适应的挖掘行人各身体部位之间的上下文信息。
Description
技术领域
本发明涉及图像识别技术领域,特别是涉及基于多阶特征分支和局部注意力的行人重识别模型。
背景技术
行人重识别也称为行人再识别,是图像检索领域的一个子问题。行人重识别旨在从跨摄像头领域中实现对特定目标行人的识别和跟踪,即给定一个监控视频或视频序列中特定的行人图像,利用计算机视觉相关技术,在不同监控设备下的其他图像或者视频中寻找该行人,判定在图像库或者视频序列中该行人是否存在。行人重识别技术在智能安防、公共安全以及智能商业等领域具有重要的积极意义。
然而,在实际场景中,行人重识别技术的识别效果常常受到外界环境的影响。例如行人姿态变换,光照变换和遮挡等因素都会影响模型提取显著性特征信息,进而造成提取信息不充分,识别率低的问题。因此,如何设计一个能够充分提取行人图像特性信息的行人重识别模型成为主要问题。
目前,在计算机视觉领域涌现出大量的特征融合模型来解决特征提取不充分的问题。不过大多数的特征融合方式仅使用不同层级的特征进行对应元素的相加操作或者在仅在通道维度上进行拼接,并不能对图像的特征进行充分表达。
发明内容
本发明的目的是提供基于多阶特征分支和局部注意力的行人重识别模型,为了减少不同摄像设备下拍摄到的图像由于背景杂波影响造成提取细节特征不充分的问题。
为实现上述目的,本发明提供了基于多阶特征分支和局部注意力的行人重识别模型,包括以下步骤,
S1、对数据集中的行人图像进行数据增强预处理操作,提取特征后得到中间特征图,对图像像素进行维度的变换,再对行人图像进行增强后输入特征提取网络中,输出行人特征图;
S2、将S1中得到的行人特征图中的特征在空间维度上分为全局特征、二阶局部特征以及三阶局部特征,经过广义平均池化操作计算得到P个对应的特征向量,得到多阶特征分支;
S3、将S2中的多阶特征分支经过线性变换后输入由注意力机制引导的加权聚合模块中,得到注意力增强的局部特征向量,将其与初始化的动态权值矩阵相乘后得到加权聚合的局部特征,全局特征向量与加权聚合的局部特征共同得到最终特征向量;
S4、将S3中的最终特征向量使用难样本三元组损失函数、交叉熵损失函数和改进的中心损失函数来训练特征提取网络,计算特征提取网络中参数的梯度,反向更新特征提取网络中的参数,完成特征提取网络的训练;
S5、测试阶段时,在S4中的特征提取网络中输入待查询的行人图像和测试集中的所有行人图像,得到测试集中所有行人特征,计算待查询行人特征和图库中所有行人特征的欧氏距离,按照距离的大小递增排序,得到查询行人的近邻列表,完成行人重识别。
优选的,S1中,S11、数据增强预处理
在行人重识别数据集上对训练图像进行数据增强,输入训练集行人图片到特征提取网络,得到大小为H*W*C的中间特征图,其中,H、W、C分别代表其高度、宽度、通道数;
对图像像素进行维度变换,特征提取网络的最后一个模块不进行下采样,对图像进行归一化操作;
S12、提取行人特征
通过对图像采取随机裁剪、水平翻转和随机擦除操作对图像进行数据增强处理,将增强后的图像输入特征提取网络中,训练特征提取网络。
优选的,S2中,S21、行人图像整体特征
从全局特征提取图像整体特征,进行广义平均池化操作后,得到对行人图像整体的特征表示;
S22、构建局部特征分支
将经过特征提取网络得到的图像特征在空间维度上分别进行二等分与三等分操作,得到二阶局部特征和三阶局部特征,经过广义平均池化计算得到对应的二阶局部特征向量和三阶局部特征向量,构建图像的局部特征分支。
优选的,S3中,S31、卷积操作特征向量并计算注意力权重
将S2中的P个特征向量送入三个不同的卷积层,得到的局部特征向量为FP,
经过卷积操作后的x(fi P)、y(fi P)和z(fi P),将x(fi P)和y(fi P)相乘后得到大小为P*P的矩阵,使用归一化操作计算矩阵中每一个块的注意力权重值;
S32、计算加权聚合的局部特征
将S31中的矩阵与z(fi P)做点乘运算,得到注意力增强的局部特征,随机初始化一个可学习权重,经过激活函数与注意力增强的局部特征做矩阵相乘,得到加权聚合的局部特征;
S33、计算全局特征向量
将原始行人图像输入特征提取网络输出的特征向量做广义平均池化操作后的特征向量经过BN层做归一化操作,得到全局特征向量;
S34、计算最终特征向量
将S33中的全局特征向量与S32中加权聚合的局部特征相加,得到最终特征向量。
优选的,S4中,S41、难样本三元组损失函数LTriplet:
其中,为目标图片,/>为正样本图片,/>为负样本图片,N为同一批训练批次中不同身份的行人图像个数,K为同一批训练数据中同一身份行人的实例数,α为正样本和负样本之间的间隔距离;
S42、含有标签平滑的交叉熵损失函数LCE
其中,N为每批次行人的图像个数,H表示每个身份的行人个数,fi为图像的最终特征向量,yi为fi对应的真实标签,W为权重向量,ε为标签平滑参数;
S43、基于难样本挖掘的改进的中心损失函数LCenter
其中,为标签yi的行人图像平均特征值,/>为同一身份行人与其对应身份的平均特征的最大欧几里得距离,/>为不同身份的行人类内平均特征的最小欧几里得距离,fj″为最终特征向量;
S44、联合难样本三元组损失函数LTriplet、交叉熵损失函数LCE和改进的中心损失函数LCenter的总体损失函数L对特征提取网络进行训练,
L=LTriplet+LCE+LCenter。
优选的,S5中,S51、将行人图像输入网络模型中提取行人全局特征,对数据集中的行人图像裁剪后与图像库中所有行人图像特征做距离度量;
S52、根据已经得到的欧式距离大小进行递增排序,取前排行人样本作为查询行人的近邻列表,输出最终结果。
因此,本发明采用上述步骤,其有益效果为:
1、本发明设计的加权聚合特征模块使模型在训练和测试时具有很高的计算效率,对背景杂波有较强的鲁棒性,对加权聚合后的最终特征表示中自适应地关注行人局部特征,提高模型的识别能力;
2、本发明使用特征提取网络ResNet50提取不同粒度的图像特征。粗粒度特征稳定性和鲁棒性较强,细粒度局部特征消除背景杂波的影响,联合全局特征、二阶局部特征和三阶局部特征对行人图像表示,不仅更全面的对行人图像进行特征表达,而且很好地弥补局部特征分割导致的语义信息的丢失,在特征提取网络ResNet50的启发下,经过归一化操作的全局特征残差连接结构的表现优于直接连接全局特征,增强了模型对存在大量噪声下的行人的表征能力;
3、本发明联合难样本三元组损失函数、交叉熵损失函数和改进中心损失函数三种损失函数优化空间中的差异,引入难样本三元组损失中使得类内之间特征距离更加紧凑,类间特征距离更加远离,通过最小化网络损失,找到一个可以将图像特征向量映射到最优特征空间的深度卷积模型;
4、交叉熵损失函数将行人重识别当做分类问题来解决,将最终得到的特征向量映射到与训练集中行人身份类别个数同等维度的高维空间上,对每个行人身份预测一个相应的概率,根据概率得到相应的损失;
5、改进的中心损失在关注类内距离的同时也关注类间距离,在三元组损失函数建立样本之间距离关系的基础上,调节不同身份类别特征之间的关系,增强同一身份行人的特征聚簇能力;
6、本发明通过可变的注意力参数引导融合图像不同部位之后的特征作为最终的特征向量对图像进行表示,当注意力机制与多分支图像特征相结合,有利于自适应的挖掘身体各部位之间的上下文信息。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是本发明基于多阶特征分支和局部注意力的行人重识别模型的结构图;
图2是本发明中多阶特征分支模块示意图;
图3是本发明中局部加权注意力聚合模块示意图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
通过下面的实施例可以更详细的解释本发明,公开本发明的目的旨在保护本发明范围内的一切变化和改进,本发明并不局限于下面的实施例。
实施例1
S1、对数据集中的行人图像进行数据增强预处理操作,提取特征后得到中间特征图,对图像像素进行维度的变换,再对行人图像进行增强后输入特征提取网络中,输出行人特征图。
S1中,S11、数据增强预处理
如图1所示,在行人重识别数据集Market-1501上对训练图像进行数据增强,输入训练集行人图片到特征提取网络ResNet50,得到大小为H*W*C的中间特征图,其中,H、W、C分别代表其高度、宽度、通道数。
对图像像素进行维度变换,输出后图像的长宽分别为384和128。在特征提取网络ResNet50的最后一个模块不进行下采样,对图像进行均值为[0.5,0.5,0.5],标准差为[0.5,0.5,0.5]的归一化操作。
S12、提取行人特征
通过对图像进行概率为0.5的随机裁剪和水平翻转操作。设定0.5的擦除比率,执行随机擦除操作后,通过在图像上生成一个黑色矩形框形成的图像的遮挡,缓解了网络模型训练过程中出现的过拟合现象。将增强后的图像输入特征提取网络ResNet50中,训练特征提取网络ResNet50。
S2、将S1中得到的行人特征图中的特征在空间维度上分割为全局特征、二阶局部特征以及三阶局部特征,经过广义平均池化操作计算对应的特征向量,得到多阶特征分支。
S2中,S21、行人图像整体特征
如图2所示,从全局特征提取行人图像整体特征,进行广义平均池化GeM操作后,得到对行人图像整体的特征表示。
S22、构建局部特征分支
为了增强对图像中更细节特征的提取,将经过特征提取网络ResNet50得到的图像特征在空间维度上分别进行二等分与三等分操作,得到二阶局部特征和三阶局部特征,经过广义平均池化GeM计算得到对应的二阶局部特征向量和三阶局部特征向量,构建图像的局部特征分支。
S3、将S2中的多阶特征分支经过线性变换后输入由注意力机制引导的加权聚合模块中,得到注意力增强的局部特征向量,将其与初始化的动态权值矩阵相乘后得到加权聚合的局部特征,全局特征向量与加权聚合的局部特征共同得到最终特征向量。
S3中,S31、卷积操作特征向量并计算注意力权重
如图3所示,将特征图fi P通过两种等分操作在空间维度上水平分割,局部特征向量和全局特征向量共形成P个水平特征向量,特征向量通道维度为2048,通过使用广义平均池化GeM用于提取P个特征向量。将得到的P个局部特征向量和全局特征向量送入三个不同的卷积层,得到局部特征向量为FP,
经过卷积操作后的x(fi P)、y(fi P)和z(fi P),将x(fi P)和y(fi P)相乘后得到大小为P*P的矩阵,softmax归一化操作后计算矩阵中每一个块的注意力权重值;
x(fi P)=Wxfi P
y(fi P)=Wyfi P
z(fi P)=Wzfi P
其中,为fi P和/>局部特征之间的关系,/>为局部注意力权重。
为了增大局部特征之间的差异,通过指数函数映射计算,其计算公式如下:
其中,为第j个局部特征,/>为将经过卷积操作的特征向量做转置操作。
S32、计算加权聚合的局部特征
将S31中的矩阵与z(fi P)做点乘运算,得到注意力增强的局部特征,
其中,为局部注意力权重值。
随机初始化一个可学习权重,经过Softmax激活函数与注意力增强的局部特征做矩阵相乘,得到加权聚合的局部特征,
其中,表示处理身体不同部位的一个可学习权重向量。
S33、计算全局特征向量
将原始行人图像输入特征提取网络ResNet50输出的特征向量做广义平均池化GeM操作后的特征向量fO经过BN层做归一化操作,得到全局特征向量。
S34、计算最终特征向量
将S33中的全局特征向量看成残差模块与S32中加权聚合的局部特征相加,得到最终特征向量f″。
f″=BN(fO)+f′
其中,f′为加权聚合的局部特征。
S4、将S3中的最终特征向量使用难样本三元组损失函数、交叉熵损失函数和改进的中心损失函数来训练特征提取网络,计算特征提取网络中参数的梯度,反向更新特征提取网络中的参数,完成特征提取网络的训练;
S4中,S41、难样本三元组损失函数LTriplet:使用与fa距离最远的fP以及与fa距离最近的fn作为训练数据。
其中,为目标图片,/>为正样本图片,/>为负样本图片,N为同一批训练批次中不同身份的行人图像个数,K为同一批训练数据中同一身份行人的实例数,α为正样本和负样本之间的间隔距离。
S42、含有标签平滑的交叉熵损失函数LC
其中,N为每批次行人的图像个数,H表示每个身份的行人个数,fi为图像的最终特征向量,yi为fi对应的真实标签,W为权重向量,ε为标签平滑参数。
三元组损失和交叉熵损失在计算的过程中,没有考虑同一类内之间的绝对距离,对于相同身份行人在高维空间中的特征向量之间的距离约束力较弱。为了增加同一身份图像内特征的内聚性,联合改进的中心损失、交叉熵损失和难样本三元组损失共同对模型进行优化,改进中心损失在三元组建立样本之间距离关系的基础上,调节了不同身份类特征之间的关系。
S43、基于难样本挖掘的改进的中心损失函数LCenter,为了使特征提取网络ResNet50在训练的过程中更快的收敛,提出了难样本挖掘降低计算的复杂度,在训练过程中只需考虑最难样本,减少收敛过程中需要迭代计算的次数。
其中,为标签yi的行人图像平均特征值,/>为同一身份行人与其对应身份的平均特征的最大欧几里得距离,/>为不同身份的行人类内平均特征的最小欧几里得距离,fj″为最终特征向量,P表示同一批数据中的行人身份总数。
S44、联合难样本三元组损失函数LTriplet、交叉熵损失函数LCE和改进的中心损失函数LCenter的总体损失函数L对特征提取网络进行训练,
L=LTriplet+LCE+LCenter。
联合难样本三元组损失函数、交叉熵损失函数和改进的中心损失函数对特征提取网络ResNet50进行训练,计算各网络参数的梯度,使用反向传播梯度下降的方法更新局部加权注意力聚合模块的参数,当损失函数收敛到一定程度时,完成对特征提取网络ResNet50的训练。
S5、测试阶段时,在S4中的特征提取网络中输入待查询的行人图像和数据集中的所有行人图像,得到数据集中所有行人特征,计算待查询行人特征和图库中所有行人特征的欧氏距离,按照距离的大小递增排序,得到查询行人的近邻列表,完成行人重识别。
S5中,S51、已经训练完成的特征提取网络ResNet50,固定其参数保持不变,对现公开数据集Market-1501的行人图像进行裁剪,尺寸大小长为384,宽为128,将行人图像输入网络模型中提取行人全局特征,对行人图像裁剪后与图像库中所有行人图像特征做距离度量。
S52、在距离度量时,使用常见的欧式距离进行距离的测量。根据已经得到的欧式距离大小进行递增排序,取前10个行人样本作为查询行人的近邻列表,输出最终结果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (6)
1.基于多阶特征分支和局部注意力的行人重识别模型,其特征在于:包括以下步骤,
S1、对数据集中的行人图像进行数据增强预处理操作,提取特征后得到中间特征图,对图像像素进行维度的变换,再对行人图像进行增强后输入特征提取网络中,输出行人特征图;
S2、将S1中得到的行人特征图中的特征在空间维度上分为全局特征、二阶局部特征以及三阶局部特征,经过广义平均池化操作计算得到P个对应的特征向量,得到多阶特征分支;
S3、将S2中的多阶特征分支经过线性变换后输入由注意力机制引导的加权聚合模块中,得到注意力增强的局部特征向量,将其与初始化的动态权值矩阵相乘后得到加权聚合的局部特征,全局特征向量与加权聚合的局部特征共同得到最终特征向量;
S4、将S3中的最终特征向量使用难样本三元组损失函数、交叉熵损失函数和改进的中心损失函数来训练特征提取网络,计算特征提取网络中参数的梯度,反向更新特征提取网络中的参数,完成特征提取网络的训练;
S5、测试阶段时,在S4中的特征提取网络中输入待查询的行人图像和测试集中的所有行人图像,得到测试集中所有行人特征,计算待查询行人特征和图库中所有行人特征的欧氏距离,按照距离的大小递增排序,得到查询行人的近邻列表,完成行人重识别。
2.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型,其特征在于:S1中,S11、数据增强预处理
在行人重识别数据集上对训练图像进行数据增强,输入训练集行人图片到特征提取网络,得到大小为H*W*C的中间特征图,其中,H、W、C分别代表其高度、宽度、通道数;
对图像像素进行维度变换,特征提取网络的最后一个模块不进行下采样,对图像进行归一化操作;
S12、提取行人特征
通过对图像采取随机裁剪、水平翻转和随机擦除操作对图像进行数据增强处理,将增强后的图像输入特征提取网络中,训练特征提取网络。
3.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型,其特征在于:S2中,S21、行人图像整体特征
从全局特征提取图像整体特征,进行广义平均池化操作后,得到对行人图像整体的特征表示;
S22、构建局部特征分支
将经过特征提取网络得到的图像特征在空间维度上分别进行二等分与三等分操作,得到二阶局部特征和三阶局部特征,经过广义平均池化计算得到对应的二阶局部特征向量和三阶局部特征向量,构建图像的局部特征分支。
4.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型,其特征在于:S3中,S31、卷积操作特征向量并计算注意力权重
将S2中的P个特征向量送入三个不同的卷积层,得到的局部特征向量为FP,
经过卷积操作后的x(fi P)、y(fi P)和z(fi P),将x(fi P)和y(fi P)相乘后得到大小为P*P的矩阵,使用归一化操作计算矩阵中每一个块的注意力权重值;
S32、计算加权聚合的局部特征
将S31中的矩阵与z(fi P)做点乘运算,得到注意力增强的局部特征,随机初始化一个可学习权重,经过激活函数与注意力增强的局部特征做矩阵相乘,得到加权聚合的局部特征;
S33、计算全局特征向量
将原始行人图像输入特征提取网络输出的特征向量做广义平均池化操作后的特征向量经过BN层做归一化操作,得到全局特征向量;
S34、计算最终特征向量
将S33中的全局特征向量与S32中加权聚合的局部特征相加,得到最终特征向量。
5.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型,其特征在于:S4中,S41、难样本三元组损失函数LTriplet
其中,为目标图片,/>为正样本图片,/>为负样本图片,N为同一批训练批次中不同身份的行人图像个数,K为同一批训练数据中同一身份行人的实例数,α为正样本和负样本之间的间隔距离;
S42、含有标签平滑的交叉熵损失函数LCE
其中,N为每批次行人的图像个数,H表示每个身份的行人个数,fi为图像的最终特征向量,yi为fi对应的真实标签,W为权重向量,ε为标签平滑参数;
S43、基于难样本挖掘的改进的中心损失函数LCenter
其中,为标签yi的行人图像平均特征值,/>为同一身份行人与其对应身份的平均特征的最大欧几里得距离,/>为不同身份的行人类内平均特征的最小欧几里得距离,fj″为最终特征向量;
S44、联合难样本三元组损失函数LTriplet、交叉熵损失函数LCE和改进的中心损失函数LCenter的总体损失函数L对特征提取网络进行训练,
L=LTriplet+LCE+LCenter。
6.根据权利要求1所述的基于多阶特征分支和局部注意力的行人重识别模型,其特征在于:S5中,S51、将行人图像输入网络模型中提取行人全局特征,对数据集中的行人图像裁剪后与图像库中所有行人图像特征做距离度量;
S52、根据已经得到的欧式距离大小进行递增排序,取前排行人样本作为查询行人的近邻列表,输出最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311670083.0A CN117935299A (zh) | 2023-12-07 | 2023-12-07 | 基于多阶特征分支和局部注意力的行人重识别模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311670083.0A CN117935299A (zh) | 2023-12-07 | 2023-12-07 | 基于多阶特征分支和局部注意力的行人重识别模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117935299A true CN117935299A (zh) | 2024-04-26 |
Family
ID=90763717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311670083.0A Pending CN117935299A (zh) | 2023-12-07 | 2023-12-07 | 基于多阶特征分支和局部注意力的行人重识别模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935299A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118196840A (zh) * | 2024-05-16 | 2024-06-14 | 华侨大学 | 一种基于语义偏好挖掘的行人再辨识方法 |
CN118470752A (zh) * | 2024-07-10 | 2024-08-09 | 之江实验室 | 基于注意力机制和特征融合策略的行人重识别方法和装置 |
-
2023
- 2023-12-07 CN CN202311670083.0A patent/CN117935299A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118196840A (zh) * | 2024-05-16 | 2024-06-14 | 华侨大学 | 一种基于语义偏好挖掘的行人再辨识方法 |
CN118470752A (zh) * | 2024-07-10 | 2024-08-09 | 之江实验室 | 基于注意力机制和特征融合策略的行人重识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427921A (zh) | 一种基于卷积神经网络的人脸识别方法 | |
CN113378632A (zh) | 一种基于伪标签优化的无监督域适应行人重识别算法 | |
CN112396027A (zh) | 基于图卷积神经网络的车辆重识别方法 | |
CN111460980B (zh) | 基于多语义特征融合的小目标行人的多尺度检测方法 | |
CN117935299A (zh) | 基于多阶特征分支和局部注意力的行人重识别模型 | |
US20240257423A1 (en) | Image processing method and apparatus, and computer readable storage medium | |
CN113408492A (zh) | 一种基于全局-局部特征动态对齐的行人重识别方法 | |
Zhang et al. | Cost-sensitive dictionary learning for face recognition | |
CN112949740B (zh) | 一种基于多级度量的小样本图像分类方法 | |
Jiang et al. | Patch‐based principal component analysis for face recognition | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN111598167B (zh) | 基于图学习的小样本图像识别方法及系统 | |
An et al. | Weather classification using convolutional neural networks | |
Fan et al. | A hierarchical Dirichlet process mixture of generalized Dirichlet distributions for feature selection | |
CN112464775A (zh) | 一种基于多分支网络的视频目标重识别方法 | |
Budiarsa et al. | Face recognition for occluded face with mask region convolutional neural network and fully convolutional network: a literature review | |
Du et al. | Block dictionary learning-driven convolutional neural networks for fewshot face recognition | |
CN110781817B (zh) | 一种解决部件不对齐的行人再识别方法 | |
CN117150069A (zh) | 基于全局与局部语义对比学习的跨模态检索方法及系统 | |
CN114911967B (zh) | 一种基于自适应域增强的三维模型草图检索方法 | |
Zare et al. | A Novel multiple kernel-based dictionary learning for distributive and collective sparse representation based classifiers | |
Turtinen et al. | Contextual analysis of textured scene images. | |
CN115496966A (zh) | 一种跨模态生成视频对抗样本的方法和系统 | |
Liu et al. | Combined with the residual and multi-scale method for Chinese thermal power system record text recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |