CN114495010A - 一种基于多特征学习的跨模态行人重识别方法及系统 - Google Patents
一种基于多特征学习的跨模态行人重识别方法及系统 Download PDFInfo
- Publication number
- CN114495010A CN114495010A CN202210135424.3A CN202210135424A CN114495010A CN 114495010 A CN114495010 A CN 114495010A CN 202210135424 A CN202210135424 A CN 202210135424A CN 114495010 A CN114495010 A CN 114495010A
- Authority
- CN
- China
- Prior art keywords
- image
- visible light
- pedestrian
- global
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 38
- 238000012360 testing method Methods 0.000 claims description 37
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提出一种基于多特征学习的跨模态行人重识别方法及系统,包括:获取若干批次的可见光图像和红外图像,并输入包括双流网络的跨模态行人重识别模型中,模型输出可见光图像和红外图像的全局特征和局部特征。根据全局特征和局部特征,计算困难五元组损失、全局身份损失和特定身份损失以构建模型的整体损失函数。根据整体损失函数对模型进行参数优化;将待测试的行人的可见光图像、红外图像以及待识别的目标图像输入优化后的模型中,模型输出行人重识别结果。本发明考虑了两种模态图像的全局特征以及局部特征,弥补了仅使用一种特征来进行行人重识别造成的不足,增强了模型特征的辨别性和鲁棒性,提高了跨模态行人重识别的识别精度。
Description
技术领域
本发明涉及图像识别领域,更具体地,涉及一种基于多特征学习的跨模态行人重识别方法及系统。
背景技术
行人重识别是指给定一幅待识别行人的图片,在不同摄像头采集的不同图像中通过人员匹配找出具有相同身份的人员。可见光-红外图像跨模态行人重识别方法,可以使得两种模态的行人图像能够相互匹配,充分利用可见光和红外摄像头拍摄到的监控数据,达到24小时监控的目的。
现有一种基于双流卷积神经网络的跨模态行人重识别方法和系统,其通过使用两个卷积神经网络中的特征提取部分,并采用交叉熵损失函数、跨模态三元组损失函数、相对熵损失函数和随机调换策略对两个卷积神经网络在跨模态数据集上进行训练,分别提取两个模态图像的特征,再将两个模态的特征进行欧氏距离度量得到特征匹配结果,实现跨模态行人重识别。
然而,可见光图像和红外图像不仅模态间有区别,而且即使在同一模态内,由于行人姿态、监控视角和光照强度的变化,也会使得同一模态中同一身份的图像之间产生诸多差异。上述方法仅使用两个模态图像的全局特征来进行行人重识别,仅使用单一特征信息的方法使得模型对图像的信息提取不够充分,可能导致模型对一些信息过分依赖,影响模型从图像库中检测目标行人的准确性。
发明内容
本发明为克服现有技术中存在的仅使用图像的全局特征或局部特征来进行跨模态行人重识别,导致识别准确性低的缺陷,提供一种基于多特征学习的跨模态行人重识别方法及系统。
为解决上述技术问题,本发明的技术方案如下:
第一个方面,本发明提出一种基于多特征学习的跨模态行人重识别方法,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型;
S2:随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失;
S5:根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,根据所述整体损失函数对跨模态行人重识别模型进行参数优化;
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
优选地,S3中,随机获取若干批次行人的可见光图像和红外图像,每一批次包括N类行人的P张可见光图像和P张红外图像,共2NP张图像。
对可见光图像和红外图像的三维张量进行全局平均池化,得到可见光图像和红外图像的全局特征。
将可见光图像和红外图像的三维张量水平分割为K个水平部分张量,对所述K个水平部分张量进行全局平均池化,得到K个列向量;采用卷积层对所述K个列向量进行降维,得到可见光图像和红外图像的局部特征。
优选地,S4中,根据可见光图像和红外图像的全局特征计算困难五元组损失LHP,其计算公式如下所示:
其中,N表示行人的类别数,P表示可见光图像或红外图像的数量,Lhgt表示困难全局三元组损失,Lhct表示困难跨模态三元组损失;
所述困难全局三元组损失Lhgt的计算公式如下所示:
其中,p=1…2P,a=1…2P,p≠a,n=1…2P,i=1…N,j=1…N,j≠i,α表示图像之间最大欧式距离和最小欧式距离之差;fi a表示行人类别为i的第a张图像的全局特征,fi p表示行人类别为i的第p张图像的全局特征,表示行人类别为j的第n张图像的全局特征;表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离,表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离;函数[*]+中,若*大于0,[*]+输出*,若*小于或等于0,[*]+输出为0;
所述困难跨模态三元组损失Lhct的计算公式如下所示:
其中,fi cp表示行人类别为i且与fi a不属于同一模态图像的全局特征,表示行人类别为j且与fi a不属于同一模态图像的全局特征;表示行人类别为i的第a张图像与另一个模态中行人类别为j的图像中的最小欧式距离,maxd(fi a,fi cp)表示行人类别为i的第a张图像与另一个模态中行人类别为i的图像的最大欧式距离。
优选地,S4中,使用全局分类器,对所述全局特征进行身份分类,计算交叉熵损失作为全局身份损失Lid,其计算公式如下所示:
优选地,S4中,使用可见光分类器对可见光图像的局部特征进行身份分类,使用红外分类器对红外图像对应的局部特征进行身份分类,计算交叉熵损失作为特定身份损失Lsid,其计算公式如下所示:
则根据困难五元组损失LHP、全局身份损失Lid和特定身份损失Lsid构建跨模态行人重识别模型的整体损失函数L,其表达式如下所示:
L=Lid+LHP+λLsid
其中,λ为损失函数的权重参数。
优选地,S1中,所述双流网络包括可见光模态网络和红外模态网络;
所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器;所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接,所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接;所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接,所述第六卷积模块的输出端与所述可见光分类器的输入端连接;所述第一池化层的输出端与所述第一全局分类器的输入端连接;
所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器;所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接,所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接;所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接,所述第十二卷积模块的输出端与所述红外分类器的输入端连接;所述第二池化层的输出端与所述第二全局分类器的输入端连接;
所述第三卷积模块与所述第九卷积模块的参数共享;所述第四卷积模块与所述第十卷积模块的参数共享;所述第五卷积模块与所述第十一卷积模块的参数共享;所述第二卷积模块与所述第八卷积模块的参数共享;
所述第一全局分类器和所述第二全局分类器的参数共享。
优选地,所述可见光模态网络和红外模态网络采用BotNet作为骨干网络。
优选地,所述可见光分类器、第一全局分类器、红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。
第二个方面,本发明还提出一种基于多特征学习的跨模态行人重识别系统,应用于上述任一方案所述的基于多特征学习的跨模态行人重识别方法中,包括:
数据获取模块,用于随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
跨模态行人重识别模型,包括双流网络,用于根据获取的可见光图像和红外图像,输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;并计算待识别的目标图像与测试集中的图像之间的相似度输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果;
优化模块,用于根据所述可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征,计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数,并根据所述损失函数对跨模态行人重识别模型进行参数优化。
与现有技术相比,本发明技术方案的有益效果是:本发明利用双流网络提取每个批次的可见光图像和红外图像的全局特征和局部特征,并根据全局特征计算出困难五元组损失,针对全局特征以及每一个局部特征进行身份分类,得到全局身份损失和特定身份损失;根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,并根据整体损失函数对跨模态行人重识别模型进行参数优化。其中,特定身份损失使得跨模态行人重识别模型能够注意到不同行人类别图像之间的细微差别,有利于提取出特定身份的辨别性特征。本发明考虑了可见光图像和红外图像的全局特征以及局部特征,以全局特征和局部特征结合的方式增强特征提取的信息容量,弥补了仅使用一种特征来进行行人重识别造成的不足,增强了模型特征的辨别性,提高了跨模态行人重识别的识别精度。
附图说明
图1为基于多特征学习的跨模态行人重识别方法的流程图。
图2为实施例2中双流网络的原理图。
图3为基于多特征学习的跨模态行人重识别系统的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
请参阅图1,本实施例提出一种基于多特征学习的跨模态行人重识别方法,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型;
S2:随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失;
S5:根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,根据所述整体损失函数对跨模态行人重识别模型进行参数优化;
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
在具体实施过程中,按批次将可见光图像和红外图像输入跨模态行人重识别模型中,跨模态行人重识别模型中双流网络输出可见光图像和红外图像的三维张量。一方面,对可见光图像和红外图像的三维张量进行全局平均池化,可以得到可见光图像和红外图像的全局特征;另一方面,对可见光图像和红外图像的三维张量进行水平分割,得到相应的水平部分张量,并对所述水平部分张量进行全局平均池化,得到相应的列向量,然后再利用卷积层对所述列向量进行降维,可以得到可见光图像和红外图像的局部特征。
根据可见光图像和红外图像的全局特征计算出困难五元组损失,并针对可见光图像和红外图像的全局特征以及每一个局部特征进行身份分类,得到全局身份损失和特定身份损失,以构建跨模态行人重识别模型的整体损失函数,并根据整体损失函数对跨模态行人重识别模型进行参数优化。最后将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前20张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
可见光图像和红外图像不仅模态间有区别,而且即使在同一模态内,由于行人姿态、监控视角和光照强度的变化,也会使得同一模态中同一身份的图像之间产生诸多差异。
本发明考虑了可见光图像和红外图像的全局特征以及局部特征,以全局特征和局部特征结合的方式增强特征提取的信息容量,弥补了仅使用一种特征来进行行人重识别造成的不足,增强了模型特征的辨别性和鲁棒性,提高了跨模态行人重识别的识别精度。
实施例2
本实施例提出一种基于多特征学习的跨模态行人重识别方法,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型。
S2:随机获取若干批次行人的可见光图像和红外图像,每一批次包括N类行人的P张可见光图像和P张红外图像,共2NP张图像以构建训练集和测试集。
本实施例中,从SYSU-MM01数据集中随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集,其中测试集中选用红外图像作为待检索图像集,可见光图像作为检索图库;将测试集中的图像重置为288*144尺寸,在训练集中的图像边缘填充10个像素,之后随机裁剪得到尺寸为288*144图像,并以0.5概率对图像进行水平翻转操作。
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征。
本实施例中,每一批次行人的可见光图像和红外图像中选取8个行人类别,每个行人类别选取4个可见光图像和红外图像,即N=8,P=4。分别将训练集中每个批次的可见光图像和红外图像输入跨模态行人重识别模型中。
本实施例中,所述双流网络包括可见光模态网络和红外模态网络。如图2所示,图2为本实施提出的双流网络的原理图。
所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器;所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接,所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接;所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接,所述第六卷积模块的输出端与所述可见光分类器的输入端连接;所述第一池化层的输出端与所述第一全局分类器的输入端连接。
所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器;所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接,所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接;所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接,所述第十二卷积模块的输出端与所述红外分类器的输入端连接;所述第二池化层的输出端与所述第二全局分类器的输入端连接。
所述第一卷积模块与所述第五卷积模块参数不共享,以及所述第一卷积层和所述第三卷积层参数不共享,用于分别提取可见光和红外模态的特定特征。
所述第三卷积模块与所述第九卷积模块的参数共享;所述第四卷积模块与所述第十卷积模块的参数共享;所述第五卷积模块与所述第十一卷积模块的参数共享;所述第二卷积模块与所述第八卷积模块的参数共享,所述第一全局分类器和所述第二全局分类器的参数共享,用于提取可见光和红外两种模态之间的共同特征。
所述第一卷积模块与所述第七卷积模块参数不共享,以及所述第六卷积层和所述第十二卷积层参数不共享,用于分别提取可见光和红外模态的特定特征。
所述可见光分类器和所述红外分类器参数不共享,用于针对不同模态的特定局部特征进行分类。
本实施例中,可见光模态网络和红外模态网络采用在ImageNet预训练的BotNet作为骨干网络。本实施例将基于注意力思想的BoTNet作为骨干网络的双流网络提取全局特征,第五卷积模块和第十一卷积模块将卷积核为3×3的卷积层更换为多头自注意力层(MHSA),减少了网络参数并增强了网络架构的全局信息聚合能力。
本实施例中,所述可见光分类器、第一全局分类器红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。
本实施例中,将所述可见光图像输入跨模态行人重识别模型中,可见光图像先经过第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块,第五卷积模块输出可见光图像的三维张量T1。一方面,可见光图像的三维张量T1经过第一池化层进行全局平均池化,得到可见光图像的全局特征;另一方面,可见光图像的三维张量T1经过第一水平分割模块,水平分割为6个水平部分张量,对所述6个水平部分张量进行全局平均池化,得到6个列向量;采用第六卷积模块对所述6个列向量进行降维,得到可见光图像的局部特征。
将所述红外图像输入跨模态行人重识别模型中,红外图像先经过第七卷积层、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块,第十一卷积模块输出红外图像的三维张量T2。一方面,红外图像的三维张量T2经过第二池化层进行全局平均池化,得到红外图像的全局特征;另一方面,红外图像的三维张量T2经过第一水平分割模块,水平分割为6个水平部分张量,对所述6个水平部分张量进行全局平均池化,得到6个列向量;采用第十二卷积模块对所述6个列向量进行降维,得到红外图像的局部特征。
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失。
本实施例中,联合每个批次中可见光图像和红外图像的全局特征,计算困难五元组损失LHP,困难五元组损失LHP由困难全局三元组损失Lhgt和困难跨模态三元组损失Lhct组成。
困难全局三元组损失Lhgt的计算公式如下所示:
其中,p=1…2P,a=1…2P,p≠a,n=1…2P,i=1…N,j=1…N,j≠i,α表示图像之间最大欧式距离和最小欧式距离之差,α的取值为0.9;fi a表示行人类别为i的第a张图像的全局特征,fi p表示行人类别为i的第p张图像的全局特征,表示行人类别为j的第n张图像的全局特征;表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离,表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离;函数[*]+中,若*大于0,[*]+输出*,若*小于或等于0,[*]+输出为0;
困难跨模态三元组损失Lhct的计算公式如下所示:
其中,fi cp表示行人类别为i且与fi a不属于同一模态图像的全局特征,表示行人类别为j且与fi a不属于同一模态图像的全局特征;表示行人类别为i的第a张图像与另一个模态中行人类别为j的图像中的最小欧式距离,maxd(fi a,fi cp)表示行人类别为i的第a张图像与另一个模态中行人类别为i的图像的最大欧式距离。
因此,困难五元组损失LHP的计算公式如下所示:
根据可见光图像和红外图像的全局特征计算困难五元组损失LHP,其计算公式如下所示:
其中,N表示行人的类别数,P表示可见光图像或红外图像的数量,Lhgt表示困难全局三元组损失,Lhct表示困难跨模态三元组损失。
本实施例中,使用第一全局分类器和第二全局分类器分别对可见光图像和红外图像的全局特征进行身份分类,计算交叉熵损失作为全局身份损失Lid,其计算公式如下所示:
本实施例中,使用可见光分类器对可见光图像的局部特征进行身份分类,使用红外分类器对红外图像对应的局部特征进行身份分类,计算交叉熵损失作为特定身份损失Lsid,其计算公式如下所示:
S5:根据困难五元组损失LHP、全局身份损失Lid和特定身份损失Lsid构建跨模态行人重识别模型的整体损失函数L,其表达式如下所示:
L=Lid+LHP+λLsid
其中,λ为损失函数的权重参数,λ的取值为0.9。
根据所述整体损失函数,使用动量优化器对跨模态行人重识别模型的参数进行优化,将动量设置为0.9,初始学习率为0.01。设置模型训练次数为50,每10次衰减一次学习速率,衰减速率为0.1。,最小化整体损失函数。
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前20张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
本实施例中,将测试集的待检索图像和检索图库中的图像输入优化后的跨模态行人重识别模型,采用经过第一池化层和第二池化层后的可见光图像和红外图像的全局特征计算特征相似度,输出测试集中前20张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
实施例3
请参阅图3,本实施例提出一种基于多特征学习的跨模态行人重识别系统,包括数据获取模块、跨模态行人重识别模型和优化模块。
在具体实施过程中,数据获取模块随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集,其中测试集中选用红外图像作为待检索图像集,可见光图像作为检索图库;并分别将训练集中每个批次的可见光图像和红外图像输入跨模态行人重识别模型中。
跨模态行人重识别模型包括双流网络,所述双流网络包括可见光模态网络和红外模态网络。可见光图像输入到可见光模态网络中,首先得到可见光图像的三维张量。一方面,可见光图像的三维张量在可见光模态网络中进行全局平均池化,得到可见光图像的全局特征;另一方面,可见光图像的三维张量在可见光模态网络中进行水平分割,得到若干个水平部分张量,所述水平部分张量经过全局平均池化,得到相应的列向量;采用卷积层对所述列向量进行降维,得到可见光图像的局部特征。
红外图像输入到红外模态网络中,首先得到红外图像的三维张量。一方面,红外图像的三维张量在红外模态网络中进行全局平均池化,得到红外图像的全局特征;另一方面,红外图像的三维张量在红外模态网络中进行水平分割,得到若干个水平部分张量,所述水平部分张量经过全局平均池化,得到相应的列向量;采用卷积层对所述列向量进行降维,得到红外图像的局部特征。根据获取的可见光图像和红外图像,输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征。
优化模块根据所述可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征,计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数,并根据所述损失函数对跨模态行人重识别模型进行参数优化。
最后将测试集的待检索图像和检索图库中的图像输入优化后的跨模态行人重识别模型,采用经过第一池化层和第二池化层后的可见光图像和红外图像的全局特征计算特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于多特征学习的跨模态行人重识别方法,其特征在于,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型;
S2:随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失;
S5:根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,根据所述整体损失函数对跨模态行人重识别模型进行参数优化;
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
2.根据权利要求1所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S3中,将所述可见光图像和红外图像分别输入跨模态行人重识别模型中,分别得到可见光图像和红外图像的三维张量;
对可见光图像和红外图像的三维张量进行全局平均池化,得到可见光图像和红外图像的全局特征;
将可见光图像和红外图像的三维张量水平分割为K个水平部分张量,对所述K个水平部分张量进行全局平均池化,得到K个列向量;采用卷积层对所述k个列向量进行降维,得到可见光图像和红外图像的局部特征。
3.根据权利要求1所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S2中,随机获取若干批次行人的可见光图像和红外图像,每一批次包括N类行人的P张可见光图像和P张红外图像,共2NP张图像。
4.根据权利要求3所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S4中,根据可见光图像和红外图像的全局特征计算困难五元组损失LHP,其计算公式如下所示:
其中,N表示行人的类别数,P表示可见光图像或红外图像的数量,Lhgt表示困难全局三元组损失,Lhct表示困难跨模态三元组损失;
所述困难全局三元组损失Lhgt的计算公式如下所示:
其中,p=1...2P,a=1...2P,p≠a,n=1...2P,i=1...N,j=1...N,j≠i,α表示图像之间最大欧式距离和最小欧式距离之差;fi a表示行人类别为i的第a张图像的全局特征,fi p表示行人类别为i的第p张图像的全局特征,fj n表示行人类别为j的第n张图像的全局特征;max d(fi a,fi p)表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离,min d(fi a,fj n)表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离;函数[*]+中,若*大于0,[*]+输出*,若*小于或等于0,[*]+输出为0;
所述困难跨模态三元组损失Lhct的计算公式如下所示:
7.根据权利要求1-6任一项所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S1中,所述双流网络包括可见光模态网络和红外模态网络;
所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器;所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接,所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接;所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接,所述第六卷积模块的输出端与所述可见光分类器的输入端连接;所述第一池化层的输出端与所述第一全局分类器的输入端连接;
所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器;所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接,所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接;所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接,所述第十二卷积模块的输出端与所述红外分类器的输入端连接;所述第二池化层的输出端与所述第二全局分类器的输入端连接;
所述第三卷积模块与所述第九卷积模块的参数共享;所述第四卷积模块与所述第十卷积模块的参数共享;所述第五卷积模块与所述第十一卷积模块的参数共享;所述第二卷积模块与所述第八卷积模块的参数共享;
所述第一全局分类器和所述第二全局分类器的参数共享。
8.根据权利要求7所述的基于多特征学习的跨模态行人重识别方法,其特征在于,所述可见光模态网络和红外模态网络采用BotNet作为骨干网络。
9.根据权利要求7所述的基于多特征学习的跨模态行人重识别方法,其特征在于,所述可见光分类器、第一全局分类器、红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。
10.一种基于多特征学习的跨模态行人重识别系统,其特征在于,包括:
数据获取模块,用于随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
跨模态行人重识别模型,包括双流网络,用于根据获取的可见光图像和红外图像,输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;并计算待识别的目标图像与测试集中的图像之间的相似度输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果;
优化模块,用于根据所述可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征,计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数,并根据所述损失函数对跨模态行人重识别模型进行参数优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135424.3A CN114495010B (zh) | 2022-02-14 | 2022-02-14 | 一种基于多特征学习的跨模态行人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135424.3A CN114495010B (zh) | 2022-02-14 | 2022-02-14 | 一种基于多特征学习的跨模态行人重识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114495010A true CN114495010A (zh) | 2022-05-13 |
CN114495010B CN114495010B (zh) | 2024-12-17 |
Family
ID=81480574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210135424.3A Active CN114495010B (zh) | 2022-02-14 | 2022-02-14 | 一种基于多特征学习的跨模态行人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495010B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292533A (zh) * | 2022-08-17 | 2022-11-04 | 苏州大学 | 视觉定位驱动的跨模态行人检索方法 |
CN115757857A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种水下三维跨模态联合检索方法、存储介质和电子设备 |
CN116012873A (zh) * | 2022-12-05 | 2023-04-25 | 北京数原数字化城市研究中心 | 一种行人重识别方法、装置、电子设备及存储介质 |
CN116311387A (zh) * | 2023-05-25 | 2023-06-23 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
CN117475474A (zh) * | 2023-10-30 | 2024-01-30 | 中国矿业大学 | 一种用于智能安防的跨模态行人重识别系统及方法 |
CN118799661A (zh) * | 2024-09-14 | 2024-10-18 | 南京信息工程大学 | 一种自适应特征融合和跨模态的行人重识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597876A (zh) * | 2020-04-01 | 2020-08-28 | 浙江工业大学 | 一种基于困难五元组的跨模态行人重识别方法 |
CN112651262A (zh) * | 2019-10-09 | 2021-04-13 | 四川大学 | 一种基于自适应行人对齐的跨模态行人重识别方法 |
CN113569639A (zh) * | 2021-06-25 | 2021-10-29 | 湖南大学 | 一种基于样本中心损失函数的跨模态行人重识别方法 |
CN113723236A (zh) * | 2021-08-17 | 2021-11-30 | 广东工业大学 | 一种结合局部阈值二值化图像的跨模态行人重识别方法 |
-
2022
- 2022-02-14 CN CN202210135424.3A patent/CN114495010B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651262A (zh) * | 2019-10-09 | 2021-04-13 | 四川大学 | 一种基于自适应行人对齐的跨模态行人重识别方法 |
CN111597876A (zh) * | 2020-04-01 | 2020-08-28 | 浙江工业大学 | 一种基于困难五元组的跨模态行人重识别方法 |
CN113569639A (zh) * | 2021-06-25 | 2021-10-29 | 湖南大学 | 一种基于样本中心损失函数的跨模态行人重识别方法 |
CN113723236A (zh) * | 2021-08-17 | 2021-11-30 | 广东工业大学 | 一种结合局部阈值二值化图像的跨模态行人重识别方法 |
Non-Patent Citations (1)
Title |
---|
李灏;唐敏;林建武;赵云波;: "基于改进困难三元组损失的跨模态行人重识别框架", 计算机科学, no. 10, 15 October 2020 (2020-10-15) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292533A (zh) * | 2022-08-17 | 2022-11-04 | 苏州大学 | 视觉定位驱动的跨模态行人检索方法 |
CN115292533B (zh) * | 2022-08-17 | 2023-06-27 | 苏州大学 | 视觉定位驱动的跨模态行人检索方法 |
CN116012873A (zh) * | 2022-12-05 | 2023-04-25 | 北京数原数字化城市研究中心 | 一种行人重识别方法、装置、电子设备及存储介质 |
CN116012873B (zh) * | 2022-12-05 | 2024-01-26 | 北京数原数字化城市研究中心 | 一种行人重识别方法、装置、电子设备及存储介质 |
CN115757857A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种水下三维跨模态联合检索方法、存储介质和电子设备 |
CN116311387A (zh) * | 2023-05-25 | 2023-06-23 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
CN116311387B (zh) * | 2023-05-25 | 2023-09-01 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
CN117475474A (zh) * | 2023-10-30 | 2024-01-30 | 中国矿业大学 | 一种用于智能安防的跨模态行人重识别系统及方法 |
CN118799661A (zh) * | 2024-09-14 | 2024-10-18 | 南京信息工程大学 | 一种自适应特征融合和跨模态的行人重识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114495010B (zh) | 2024-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114495010A (zh) | 一种基于多特征学习的跨模态行人重识别方法及系统 | |
Wang et al. | Depth pooling based large-scale 3-d action recognition with convolutional neural networks | |
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN105975941B (zh) | 一种基于深度学习的多方向车型检测识别系统 | |
JP5517858B2 (ja) | 画像処理装置、撮像装置、画像処理方法 | |
JP4743823B2 (ja) | 画像処理装置、撮像装置、画像処理方法 | |
CN108038476A (zh) | 一种基于边缘检测与sift的人脸表情识别特征提取方法 | |
CN108549926A (zh) | 一种用于精细化识别车辆属性的深度神经网络及训练方法 | |
CN104866829A (zh) | 一种基于特征学习的跨年龄人脸验证方法 | |
CN108520226A (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN105139004A (zh) | 基于视频序列的人脸表情识别方法 | |
Ahamed et al. | HOG-CNN based real time face recognition | |
JP2022521038A (ja) | 顔認識方法、ニューラルネットワークのトレーニング方法、装置及び電子機器 | |
CN108764096B (zh) | 一种行人重识别系统和方法 | |
CN111625675A (zh) | 基于注意力机制下特征金字塔的深度哈希图像检索方法 | |
CN113269224B (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN111539351B (zh) | 一种多任务级联的人脸选帧比对方法 | |
CN112418041A (zh) | 一种基于人脸正面化的多姿态人脸识别方法 | |
Parde et al. | Deep convolutional neural network features and the original image | |
Huang et al. | Whole-body detection, recognition and identification at altitude and range | |
CN111797704B (zh) | 一种基于相关物体感知的动作识别方法 | |
Rehman et al. | Kinship verification using deep neural network models | |
CN116229511A (zh) | 基于金丝猴躯干特征提取的身份重识别方法 | |
Bekhouche et al. | Kinship verification from gait? | |
CN115546862A (zh) | 基于跨尺度局部差异深度子空间特征的表情识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |