CN114782997A - 基于多损失注意力自适应网络的行人重识别方法及系统 - Google Patents
基于多损失注意力自适应网络的行人重识别方法及系统 Download PDFInfo
- Publication number
- CN114782997A CN114782997A CN202210517995.3A CN202210517995A CN114782997A CN 114782997 A CN114782997 A CN 114782997A CN 202210517995 A CN202210517995 A CN 202210517995A CN 114782997 A CN114782997 A CN 114782997A
- Authority
- CN
- China
- Prior art keywords
- network
- pedestrian
- loss
- image
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 40
- 239000000284 extract Substances 0.000 claims abstract description 6
- 239000000523 sample Substances 0.000 claims description 85
- 230000006870 function Effects 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002401 inhibitory effect Effects 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004148 unit process Methods 0.000 claims description 3
- 238000013434 data augmentation Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 238000006386 neutralization reaction Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 241000695274 Processa Species 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多损失注意力自适应网络的行人重识别方法及系统。该方法以多损失注意力自适应网络为框架,首先采用行人重识别数据集来训练网络的权重。在完成训练后,将待检测的图像输入到该网络中,与图像库中的行人进行比对,检索出正确的行人图像。与传统的方法相比,本发明利用多损失注意力自适应网络,通过多层非线性变化网络,对图像进行特征提取,同时通过优化损失函数,更新网络参数。本发明可以完成行人图像的检索功能,具有识别准确率高的优点。
Description
技术领域
本发明属于图像处理、计算机视觉、深度学习技术领域,尤其涉及基于多损失注意力自适应网络的行人重识别方法及系统。
背景技术
行人重识别也叫行人再识别,是一个从多台摄像机拍摄的行人图像中,对特定行人进行相似度匹配的过程。换而言之,在给定一个监控行人图像后,行人重识别系统要检索出其它摄像头中存在的该行人图像。行人重识别是计算机视觉的经典问题之一,在智能安防、视频监控、刑事侦查等实际领域中有很大的应用场景。行人重识别的难度在于不同行人图像之间可能高度相似,而相同行人图像可能会在姿态、分辨率、光线上存在不同,导致难以分辨出来。传统的行人重识别方法集中在如何手工提取更优的视觉特征上,但是传统行人重识别方法特征提取的过程非常耗费精力,面对海量数据时往往难以求解。基于深度学习的行人重识别方法弥补了传统方法上的不足,它能够自动学习鲁棒性特征。当前,迫切需要一种能够有效提升识别准确率的行人重识别网络。
发明内容
本发明目的在于提供一种基于多损失注意力自适应网络的行人重识别方法及系统,以解决行人重识别的准确率不高的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于多损失注意力自适应网络的行人重识别方法,该方法包括以下步骤:
步骤1、数据预处理步骤;将训练数据集中的图像进行数据预处理,便于后面的特征提取;
步骤2、基于多损失注意力自适应网络构建损失函数,包括如下子步骤:
步骤2.1、设计多损失注意力自适应网络的网络结构;
步骤2.2、经数据预处理后的训练样本输入到多损失注意力自适应网络中;
步骤2.3、设计损失函数进行反向传播,不断优化网络的参数,直至网络收敛,网络训练完成;
步骤3、进行行人重识别:基于已经训练完成的网络,将待检测的行人图像输入进多损失注意力自适应网络中,提取图像特征,与检索库中的行人图像进行比对,得到最终的检索结果。
进一步的,步骤1中数据预处理步骤具体如下:
将数据集中的图像统一裁剪为256×128像素大小,同时进行数据增广,将图像随机翻折、旋转,扩充数据集。
进一步的,步骤2.1设计多损失注意力自适应的网络结构,具体为:
步骤201、主干网络基于ResNet50网络,包含卷积模块Conv1、卷积模块Conv2、卷积模块Conv3、卷积模块Conv4四个部分;
步骤202、在ResNet50网络中添加注意力自适应模块,用于学习图像特征中的通道相关性、空间相关性,鼓励模型自适应地关注图像的特定区域,抑制住无用信息,筛选出有价值的信息;
步骤203、在主干网络后添加强力批归一化模块,进行特征的进一步提取。
进一步的,步骤2.2经数据预处理后的训练样本输入到多损失注意力自适应网络中,具体为:
首先,在ResNet50的Conv2层后添加空间注意力模块SAM,空间注意力模块SAM在对主干网络的特征图进行建模后,得到一张注意力图AM;T指的是主干网络的输出特征图;将注意力图AM与主干网络的输出特征图T进行融合,获取局部加权的特征;空间注意力模块SAM中还包含了1×1大小的卷积核,可以用于降低输入图像的通道数量,从而突出网络中的有效部分,降低计算复杂度,抑制背景的干扰;
其次,在Conv3层后添加通道注意力模块CAM,通道注意力模块CAM旨在压缩每个通道的权重为特征向量,将具有相同语义信息的通道进行组合,并与原始特征进行融合,鼓励网络结构学习关键通道的特征。
进一步的,根据权利要求3所述的基于多损失注意力自适应网络的行人重识别方法,其特征在于,所述步骤2.1添加强力批归一化模块,具体为:
首先,图像在经过ResNet50主干网络后,还要经过全局平均池化层从而得到特征f1,所述步骤2.3中设计的损失函数包括度量学习损失函数和身份损失函数,度量学习损失函数用于优化特征f1;随后,经过批归一化层的归一化操作后,得到特征f2;
其次,特征f2在经过全连接层时,身份损失函数用于优化特征f2。
进一步的,步骤2.3所设计的损失函数进行反向传播,不断优化网络的参数,直至网络收敛。具体为:
在优化特征f1时使用两种度量学习损失函数,包括Triplet Loss和TriHardLoss。Triplet Loss是将正样本图像P、负样本图像N、固定图像A组成三元组,其中图像P和图像A是一对正样本对,图像N和图像A是一对负样本对;定义两张图片x_1和x_2,f_(x_1)、f_(x_2)分别表示图片x_1和x_2的特征向量,其在特征空间上的距离为欧氏距离d(x_1,x_2),可表示如下:
定义da,p是固定图像A和正样本图像P之间的欧氏距离,da,n是固定图像A与负样本图像N之间的欧氏距离,参数α是手动设置的阈值,可控制实际正样本对和负样本对之间的距离,(·)+是指max(0,·)函数。Triplet Loss旨在让da,p尽可能小,da,n尽可能大。
Triplet Loss定义为:
Lt=(da,p-da,n+α)+
TriHard Loss是另外一种度量学习损失函数,在训练样本中,选择特征向量距离最大的正样本对和特征向量距离最小的负样本对组成三元组样本对,进行网络训练;选取P个行人的K张图片组成一个训练批次,针对锚点图a,正样本集合为P(a),负样本集合为N(a),TriHard Loss表示如下:
将特征向量距离最大的正样本对权重wp和特征向量距离最小的负样本对权重wn都设置为1,除此之外的正样本和负样本权重都为0;这样使得样本对都是最不易识别的样本;同时,保证网络不仅能够在特征空间中扩大正负样本之间的距离,同时也能够拉近正样本对之间的距离;
在优化特征f2时使用表征学习损失函数,在神经网络训练过程中,将不同行人图片的身份ID标签当作监督的分类标签;设置行人重识别的数据集中有KID个行人的n张图片x,图片x输入到训练网络f中,经过神经网络的最末端全连接层,输出图片x的ID预测向量输入的图片x为第k个行人ID概率是:
图片x的分类损失为:
其中,q(k)通过图片x的ID标签得到,如果输入图片x的身份标签为m,则q(k)=1,m=k,对于任何的m≠k,q(k)=0。
进一步的,步骤3进行行人重识别具体如下:
步骤301、在检索阶段,待检测的行人图像输入进已经训练完成的网络中,进行特征的提取,得到特征向量;
步骤302、将待检测的行人图像特征向量与已在检索库中的行人图像特征向量进行相似度比对,从中检索出与此人最相似的前十张图像,并按可能性降序对它们进行排序;
步骤303、实验采用的评价指标为识别准确率和均值平均精度;Query表示测试数据集中的待检索库,图片有Nq张,记作Gallery表示测试数据集中的搜索库,图片有Ng张,记作Probe表示Query中的某张待检索图片,记为qj,j∈[1,Nq];在测试阶段,需要将Gallery中和Probe为同一个身份的行人图像都检索出来;
Rank-k表示第m个识别数即为正确样本的概率;Rank-1表示识别结果排在第一位的即为正确样本的概率;
mAP反映着系统的检索功能,数值越大,说明检索系统的鲁棒性越强;mAP值的区间为[0,1];当网络检索出所有的正样本时,mAP的值为1;当网络没有检索出任何的正样本时,mAP的值为0。
进一步的,mAP的计算步骤为:
A、定义准确率P,对于Query中的某张Probe图片qj,返回Gallery的排序结果,设前n个查询结果中与Probe图像是同一个行人ID的数目为m,即:
B、定义平均准确率AP,对于Query的Probe图片qj,记录排序结果中所有M个正样本排序结果的集合{i1,i2,……,iM},计算平均Precision,即平均精度:
C、定义平均准确率,Average Precision也称为平均精度,对于所有Nq张Probe图片的Average Precision的平均值,即:
本发明还提供了一种基于多损失注意力自适应网络的行人重识别系统,行人重识别系统包括数据预处理单元、多损失注意力自适应网络训练单元和行人重识别单元;
所述数据预处理单元,将训练数据集中的图像都处理为256×128像素大小的图像,便于后面的特征提取;
所述多损失注意力自适应网络训练单元,用于基于多损失注意力自适应网络构建损失函数,训练网络,被配置以执行以下步骤:
第一步、设计多损失注意力自适应网络的网络结构;
第二步、训练样本输入到多损失注意力自适应网络中;
第三步、设计损失函数进行反向传播,不断优化网络的参数,直至网络收敛;
所述行人重识别单元,被配置以执行以下动作:基于已经训练完成的网络,将待检测的行人图像输入进多损失注意力自适应网络中,提取图像特征,与检索库中的行人图像进行比对,得到最终的检索结果。
本发明的基于多损失注意力自适应网络的行人重识别方法及系统,具有以下优点:
本发明可以用于对摄像头中的行人进行再识别,在图像库中检索出与之相同的行人。与传统的方法相比,本发明利用训练好的多损失注意力自适应网络,可以充分提取图像特征,有效进行行人重识别。同时,本发明对传统方法进行改进,增加的强力批归一化模块可以有效结合两类损失函数的优点,共同优化网络。注意力自适应模块可以抑制无用信息,筛选更有价值的信息,提升信息提取的精度,保证行人重识别的准确度。
附图说明
图1为本发明所提出的基于多损失注意力自适应网络的行人重识别方法示意图;
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于多损失注意力自适应网络的行人重识别方法及系统做进一步详细的描述。
如图1所示,本发明一种基于多损失注意力自适应网络的行人重识别方法包括以下步骤:
步骤1、数据预处理步骤;将训练数据集中的图像进行预处理,便于后面的特征提取;
数据预处理步骤具体如下:
将数据集中的图像统一裁剪为256×128像素大小,同时进行数据增广,将图像随机翻折、旋转,扩充数据集。
步骤2、基于多损失注意力自适应网络构建损失函数,包括如下子步骤:
步骤2.1、设计多损失注意力自适应网络的网络结构,具体为:
步骤201、主干网络基于ResNet50网络,包含卷积模块Conv1、卷积模块Conv2、卷积模块Conv3、卷积模块Conv4四个部分;
步骤202、在ResNet50网络中添加注意力自适应模块,用于学习图像特征中的通道相关性、空间相关性,鼓励模型自适应地关注图像的特定区域,抑制住无用信息,筛选出有价值的信息;
步骤203、在主干网络后添加强力批归一化模块,进行特征的进一步提取。
步骤2.2、所述步骤2.2经数据预处理后的训练样本输入到多损失注意力自适应网络中,具体为:
首先,在ResNet50的Conv2层后添加空间注意力模块SAM,SAM在对主干网络的特征图进行建模后,得到一张注意力图,简称AM。T指的是主干网络的输出特征图。将AM与T进行融合,获取局部加权的特征。空间注意力模块SAM中还包含了1×1大小的卷积核,可以用于降低输入图像的通道数量,从而突出网络中的有效部分,降低计算复杂度,抑制背景的干扰;
其次,在Conv3层后添加通道注意力模块CAM,CAM旨在压缩每个通道的权重为特征向量,将具有相同语义信息的通道进行组合,并与原始特征进行融合,鼓励网络结构学习关键通道的特征。
步骤2.3、设计损失函数进行反向传播,不断优化网络的参数,直至网络收敛;
步骤2.1添加强力批归一化模块,具体为:
首先,图像在经过ResNet50主干网络后,还要经过全局平均池化层从而得到特征f1,所述步骤2.3中设计的损失函数包括度量学习损失函数和身份损失函数,度量学习损失函数用于优化特征f1;随后,经过批归一化层的归一化操作后,得到特征f2;
其次,特征f2在经过全连接层时,身份损失函数用于优化特征f2。
步骤2.3所设计的损失函数进行反向传播,不断优化网络的参数,直至网络收敛。具体为:
在优化特征f1时使用两种度量学习损失函数,包括Triplet Loss和TriHardLoss。Triplet Loss是将正样本图像P、负样本图像N、固定图像A组成三元组,其中图像P和图像A是一对正样本对,图像N和图像A是一对负样本对。定义两张图片x1和x2,分别表示图片x1和x2的特征向量,其在特征空间上的距离为欧氏距离d(x1,x2),可表示如下:
定义da,p是固定图像A和正样本图像P之间的欧氏距离,da,n是固定图像A与负样本图像N之间的欧氏距离,参数α是手动设置的阈值,可控制实际正样本对和负样本对之间的距离,(·)+是指max(0,·)函数。Triplet Loss旨在让da,p尽可能小,da,n尽可能大。
Triplet Loss定义为:
Lt=(da,p-da,n+α)+
TriHard Loss是另外一种度量学习损失函数,在训练样本中,选择特征向量距离很大的正样本对和特征向量距离很小的负样本对组成三元组样本对,进行网络训练;选取P个行人的K张图片组成一个训练批次,针对锚点图a,正样本集合为P(a),负样本集合为N(a),TriHard Loss表示如下:
将特征向量距离最大的正样本对权重wp和特征向量距离最小的负样本对权重wn都设置为1,除此之外的正样本和负样本权重都为0;这样使得样本对都是最不易识别的样本;同时,保证网络不仅能够在特征空间中扩大正负样本之间的距离,同时也能够拉近正样本对之间的距离;
在优化特征f2时使用表征学习损失函数,在神经网络训练过程中,将不同行人图片的身份ID标签当作监督的分类标签;设置行人重识别的数据集中有KID个行人的n张图片x,图片x输入到训练网络f中,经过神经网络的最末端全连接层,输出图片x的ID预测向量输入的图片x为第k个行人ID的概率是:
图片x的分类损失为:
其中,q(k)通过图片x的ID标签得到,如果输入图片x的身份标签为m,则q(k)=1,m=k,对于任何的m≠k,q(k)=0。
步骤3、进行行人重识别:基于已经训练完成的多损失注意力自适应网络,将待检测的行人图像输入进多损失注意力自适应网络中,提取图像特征,与检索库中的行人图像进行比对,得到最终的检索结果。
步骤3进行行人重识别具体如下:
步骤301、在检索阶段,待检测的行人图像输入进已经训练完成的网络中,进行特征的提取,得到特征向量;
步骤302、将待检测的行人图像特征向量与已在检索库中的行人图像特征向量进行相似度比对,从中检索出与此人最相似的前十张图像,并按可能性降序对它们进行排序;
步骤303、实验采用的评价指标为识别准确率和均值平均精度;Query表示测试数据集中的待检索库,图片有Nq张,记作Gallery表示测试数据集中的搜索库,图片有Ng张,记作Probe表示Query中的某张待检索图片,记为qj,j∈[1,Nq];在测试阶段,需要将Gallery中和Probe为同一个身份的行人图像都检索出来;
Rank-k表示第m个识别数即为正确样本的概率;Rank-1表示识别结果排在第一位的即为正确样本的概率;
mAP反映着系统的检索功能,数值越大,说明检索系统的鲁棒性越强;mAP值的区间为[0,1];当网络检索出所有的正样本时,mAP的值为1;当网络没有检索出任何的正样本时,mAP的值为0。
mAP的计算步骤为:
A、定义准确率P,对于Query中的某张Probe图片qj,返回Gallery的排序结果,设前n个查询结果中与Probe图像是同一个行人ID的数目为m,即:
B、定义平均准确率AP,对于Query的Probe图片qj,记录排序结果中所有M个正样本排序结果的集合{i1,i2,……,iM},计算平均Precision,即:
C、定义平均准确率,对于所有Nq张Probe图片的Average Precision的平均值,即:
本发明还提供了一种基于多损失注意力自适应网络的行人重识别系统,行人重识别系统包括数据预处理单元、多损失注意力自适应网络训练单元和行人重识别单元;
所述数据预处理单元,将训练数据集中的图像都处理为256×128像素大小的图像,便于后面的特征提取;
所述多损失注意力自适应网络训练单元,用于基于多损失注意力自适应网络构建损失函数,训练网络,被配置以执行以下步骤:
第一步、设计多损失注意力自适应网络的网络结构;
第二步、训练样本输入到多损失注意力自适应网络中;
第三步、设计损失函数进行反向传播,不断优化网络的参数,直至网络收敛;
所述行人重识别单元,被配置以执行以下动作:基于已经训练完成的网络,将待检测的行人图像输入进多损失注意力自适应网络中,提取图像特征,与检索库中的行人图像进行比对,得到最终的检索结果。
本技术领域技术人员可以理解的是,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。
本技术领域技术人员可以理解的是,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (9)
1.一种基于多损失注意力自适应网络的行人重识别方法,其特征在于,该方法包括以下步骤:
步骤1、数据预处理步骤;将训练数据集中的图像进行预处理,便于后面的特征提取;
步骤2、基于多损失注意力自适应网络构建损失函数,包括如下子步骤:
步骤2.1、设计多损失注意力自适应网络的网络结构;
步骤2.2、经数据预处理后的训练样本输入到多损失注意力自适应网络中;
步骤2.3、设计损失函数进行反向传播,不断优化网络的参数,直至网络收敛,网络训练完成;
步骤3、进行行人重识别:基于已经训练完成的网络,将待检测的行人图像输入进多损失注意力自适应网络中,提取图像特征,与检索库中的行人图像进行比对,得到最终的检索结果。
2.根据权利要求1所述的基于多损失注意力自适应网络的行人重识别方法,其特征在于,所述步骤1中数据预处理步骤具体如下:
将数据集中的图像统一裁剪为256×128像素大小,同时进行数据增广,将图像随机翻折、旋转,扩充数据集。
3.根据权利要求1所述的基于多损失注意力自适应网络的行人重识别方法,其特征在于,所述步骤2.1设计多损失注意力自适应的网络结构,具体为:
步骤201、主干网络基于ResNet50网络,包含卷积模块Conv1、卷积模块Conv2、卷积模块Conv3、卷积模块Conv4四个部分;
步骤202、在ResNet50中添加注意力自适应模块,用于学习图像特征中的通道相关性、空间相关性,鼓励模型自适应地关注图像的特定区域,抑制住无用信息,筛选出有价值的信息;
步骤203、在主干网络后添加强力批归一化模块,进行特征的进一步提取。
4.根据权利要求3所述的基于多损失注意力自适应网络的行人重识别方法,其特征在于,所述步骤2.2经数据预处理后的训练样本输入到多损失注意力自适应网络中,具体为:
首先,在ResNet50的Conv2层后添加空间注意力模块SAM,SAM在对主干网络的特征图进行建模后,得到一张注意力图,简称AM;T指的是主干网络的输出特征图;将AM与T进行融合,获取局部加权的特征;空间注意力模块SAM中还包含了1×1大小的卷积核,可以用于降低输入图像的通道数量,从而突出网络中的有效部分,降低计算复杂度,抑制背景的干扰;
其次,在Conv3层后添加通道注意力模块CAM,CAM旨在压缩每个通道的权重为特征向量,将具有相同语义信息的通道进行组合,并与原始特征进行融合,鼓励网络结构学习关键通道的特征。
5.根据权利要求3所述的基于多损失注意力自适应网络的行人重识别方法,其特征在于,所述步骤2.1添加强力批归一化模块,具体为:
首先,图像在经过ResNet50主干网络后,还要经过全局平均池化层从而得到特征f1,所述步骤2.3中设计的损失函数包括度量学习损失函数和身份损失函数,其中度量学习损失函数用于优化特征f1;随后,经过批归一化层的归一化操作后,得到特征f2;
其次,特征f2在经过全连接层时,身份损失函数用于优化特征f2。
6.根据权利要求5所述的方法,其特征在于,步骤2.3所设计的损失函数进行反向传播,不断优化网络的参数,直至网络收敛,具体为:
在优化特征f1时使用两种度量学习损失函数,包括Triplet Loss和TriHard Loss;Triplet Loss是将正样本图像P、负样本图像N、固定图像A组成三元组,其中正样本图像P和固定图像A是一对正样本对,负样本图像N和固定图像A是一对负样本对;定义两张图片x1和x2,分别表示图片x1和x2的特征向量,其在特征空间上的距离为欧氏距离d(x1,x2),可表示如下:
定义da,p是固定图像A和正样本图像P之间的欧氏距离,da,n是固定图像A与负样本图像N之间的欧氏距离,参数α是手动设置的阈值,可控制实际正样本对和负样本对之间的距离,(·)+是指max(0,·)函数。TripletLoss旨在让da,p尽可能小,da,n尽可能大;
Triplet Loss定义为:
Lt=(da,p-da,n+α)+
TriHard Loss是另外一种度量学习损失函数,在训练样本中,选择特征向量距离最大的正样本对和特征向量距离最小的负样本对组成三元组样本对,进行网络训练;选取P个行人的K张图片组成一个训练批次,针对锚点图a,正样本集合为P(a),负样本集合为N(a),TriHard Loss表示如下:
将特征向量距离最大的正样本对权重wp和特征向量距离最小的负样本对权重wn都设置为1,除此之外的正样本和负样本权重都为0;这样使得样本对都是最不易识别的样本;同时,保证网络不仅能够在特征空间中扩大正负样本之间的距离,同时也能够拉近正样本对之间的距离;
在优化特征f2时使用表征学习损失函数,在神经网络训练过程中,将不同行人图片的身份ID标签当作监督的分类标签;设置行人重识别的数据集中有KID个行人的n张图片,图片x输入到训练网络f中,经过神经网络的最末端全连接层,输出图片x的ID预测向量输入的图片x为第k个行人ID的概率是:
图片x的分类损失为:
其中,q(k)通过图片x的ID标签得到,若输入图片x的身份标签为m,则q(k)=1,m=k,对于任何的m≠k,q(k)=0。
7.根据权利要求1所述的基于多损失注意力自适应网络的行人重识别方法,其特征在于,步骤3所述进行行人重识别具体如下:
步骤301、在检索阶段,待检测的行人图像输入进已经训练完成的网络中,进行特征的提取,得到特征向量;
步骤302、将待检测的行人图像特征向量与已在检索库中的行人图像特征向量进行相似度比对,从中检索出与此人最相似的前十张图像,并按可能性降序对它们进行排序;
步骤303、实验采用的评价指标为识别准确率和均值平均精度。Query表示测试数据集中的待检索库,图片有Nq张,记作Gallery表示测试数据集中的搜索库,图片有Ng张,记作Probe表示Query中的某一张待检索图片,记为qj,j∈[1,Nq]。在测试阶段,需要将Gallery中和Probe为同一个身份的行人图像全部都检索出来;
Rank-k表示第m个识别数即为正确样本的概率;Rank-1表示识别结果排在第一位的即为正确样本的概率;
mAP反映着系统的检索功能,数值越大,说明检索系统的鲁棒性越强;mAP值的区间为[0,1];当网络检索出所有的正样本时,mAP的值为1;当网络没有检索出任何的正样本时,mAP的值为0。
9.根据权利要求1-8任一项所述的一种基于多损失注意力自适应网络的行人重识别系统,其特征在于,行人重识别系统包括数据预处理单元、多损失注意力自适应网络训练单元和行人重识别单元;
所述数据预处理单元,将训练数据集中的图像都处理为256×128像素大小的图像,便于后面的特征提取;
多损失注意力自适应网络训练单元,用于基于多损失注意力自适应网络构建损失函数,训练网络,被配置以执行以下步骤:
第一步、设计多损失注意力自适应网络的网络结构;
第二步、训练样本输入到多损失注意力自适应网络中;
第三步、设计损失函数进行反向传播,不断优化网络的参数,直至网络收敛;
行人重识别单元,被配置以执行以下动作:基于已经训练完成的网络,将待检测的行人图像输入进多损失注意力自适应网络中,提取图像特征,与检索库中的行人图像进行比对,得到最终的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210517995.3A CN114782997B (zh) | 2022-05-12 | 2022-05-12 | 基于多损失注意力自适应网络的行人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210517995.3A CN114782997B (zh) | 2022-05-12 | 2022-05-12 | 基于多损失注意力自适应网络的行人重识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114782997A true CN114782997A (zh) | 2022-07-22 |
CN114782997B CN114782997B (zh) | 2024-06-14 |
Family
ID=82437145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210517995.3A Active CN114782997B (zh) | 2022-05-12 | 2022-05-12 | 基于多损失注意力自适应网络的行人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782997B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690920A (zh) * | 2023-01-03 | 2023-02-03 | 智慧眼科技股份有限公司 | 医疗身份认证的可信活体检测方法及相关设备 |
CN117612201A (zh) * | 2023-10-20 | 2024-02-27 | 南通大学 | 一种基于特征压缩的单样本行人重识别方法 |
CN118038497A (zh) * | 2024-04-10 | 2024-05-14 | 四川大学 | 一种基于sam的文本信息驱动的行人检索方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
CN111931624A (zh) * | 2020-08-03 | 2020-11-13 | 重庆邮电大学 | 基于注意力机制的轻量级多分支行人重识别方法及系统 |
US20210232813A1 (en) * | 2020-01-23 | 2021-07-29 | Tongji University | Person re-identification method combining reverse attention and multi-scale deep supervision |
-
2022
- 2022-05-12 CN CN202210517995.3A patent/CN114782997B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210232813A1 (en) * | 2020-01-23 | 2021-07-29 | Tongji University | Person re-identification method combining reverse attention and multi-scale deep supervision |
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
CN111931624A (zh) * | 2020-08-03 | 2020-11-13 | 重庆邮电大学 | 基于注意力机制的轻量级多分支行人重识别方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690920A (zh) * | 2023-01-03 | 2023-02-03 | 智慧眼科技股份有限公司 | 医疗身份认证的可信活体检测方法及相关设备 |
CN117612201A (zh) * | 2023-10-20 | 2024-02-27 | 南通大学 | 一种基于特征压缩的单样本行人重识别方法 |
CN117612201B (zh) * | 2023-10-20 | 2024-05-28 | 南通大学 | 一种基于特征压缩的单样本行人重识别方法 |
CN118038497A (zh) * | 2024-04-10 | 2024-05-14 | 四川大学 | 一种基于sam的文本信息驱动的行人检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114782997B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN114782997B (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN109472191B (zh) | 一种基于时空上下文的行人重识别与追踪方法 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
US20210019872A1 (en) | Detecting near-duplicate image | |
CN113011357B (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN109829467A (zh) | 图像标注方法、电子装置及非暂态电脑可读取储存媒体 | |
CN112396027A (zh) | 基于图卷积神经网络的车辆重识别方法 | |
CN113673510B (zh) | 一种结合特征点和锚框共同预测和回归的目标检测方法 | |
CN112150450B (zh) | 一种基于双通道U-Net模型的图像篡改检测方法及装置 | |
CN111738090A (zh) | 行人重识别模型训练方法、装置及行人重识别方法、装置 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN111382690B (zh) | 基于多损失融合模型的车辆再识别方法 | |
CN106557728B (zh) | 查询图像处理和图像检索方法和装置以及监视系统 | |
CN111814705B (zh) | 一种基于批次分块遮挡网络的行人再辨识方法 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
CN112434599A (zh) | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 | |
CN110852292B (zh) | 一种基于跨模态多任务深度度量学习的草图人脸识别方法 | |
CN112613474B (zh) | 一种行人重识别的方法和装置 | |
CN111191587B (zh) | 一种行人重识别方法及系统 | |
CN115393788B (zh) | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 | |
Wu et al. | Salient object detection based on global to local visual search guidance | |
CN111832351A (zh) | 一种事件检测方法、装置和计算机设备 | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |