CN114495010A - 一种基于多特征学习的跨模态行人重识别方法及系统 - Google Patents
一种基于多特征学习的跨模态行人重识别方法及系统 Download PDFInfo
- Publication number
- CN114495010A CN114495010A CN202210135424.3A CN202210135424A CN114495010A CN 114495010 A CN114495010 A CN 114495010A CN 202210135424 A CN202210135424 A CN 202210135424A CN 114495010 A CN114495010 A CN 114495010A
- Authority
- CN
- China
- Prior art keywords
- image
- visible light
- pedestrian
- global
- infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims description 38
- 238000012360 testing method Methods 0.000 claims description 34
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提出一种基于多特征学习的跨模态行人重识别方法及系统,包括:获取若干批次的可见光图像和红外图像,并输入包括双流网络的跨模态行人重识别模型中,模型输出可见光图像和红外图像的全局特征和局部特征。根据全局特征和局部特征,计算困难五元组损失、全局身份损失和特定身份损失以构建模型的整体损失函数。根据整体损失函数对模型进行参数优化;将待测试的行人的可见光图像、红外图像以及待识别的目标图像输入优化后的模型中,模型输出行人重识别结果。本发明考虑了两种模态图像的全局特征以及局部特征,弥补了仅使用一种特征来进行行人重识别造成的不足,增强了模型特征的辨别性和鲁棒性,提高了跨模态行人重识别的识别精度。
Description
技术领域
本发明涉及图像识别领域,更具体地,涉及一种基于多特征学习的跨模态行人重识别方法及系统。
背景技术
行人重识别是指给定一幅待识别行人的图片,在不同摄像头采集的不同图像中通过人员匹配找出具有相同身份的人员。可见光-红外图像跨模态行人重识别方法,可以使得两种模态的行人图像能够相互匹配,充分利用可见光和红外摄像头拍摄到的监控数据,达到24小时监控的目的。
现有一种基于双流卷积神经网络的跨模态行人重识别方法和系统,其通过使用两个卷积神经网络中的特征提取部分,并采用交叉熵损失函数、跨模态三元组损失函数、相对熵损失函数和随机调换策略对两个卷积神经网络在跨模态数据集上进行训练,分别提取两个模态图像的特征,再将两个模态的特征进行欧氏距离度量得到特征匹配结果,实现跨模态行人重识别。
然而,可见光图像和红外图像不仅模态间有区别,而且即使在同一模态内,由于行人姿态、监控视角和光照强度的变化,也会使得同一模态中同一身份的图像之间产生诸多差异。上述方法仅使用两个模态图像的全局特征来进行行人重识别,仅使用单一特征信息的方法使得模型对图像的信息提取不够充分,可能导致模型对一些信息过分依赖,影响模型从图像库中检测目标行人的准确性。
发明内容
本发明为克服现有技术中存在的仅使用图像的全局特征或局部特征来进行跨模态行人重识别,导致识别准确性低的缺陷,提供一种基于多特征学习的跨模态行人重识别方法及系统。
为解决上述技术问题,本发明的技术方案如下:
第一个方面,本发明提出一种基于多特征学习的跨模态行人重识别方法,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型;
S2:随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失;
S5:根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,根据所述整体损失函数对跨模态行人重识别模型进行参数优化;
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
优选地,S3中,随机获取若干批次行人的可见光图像和红外图像,每一批次包括N类行人的P张可见光图像和P张红外图像,共2NP张图像。
对可见光图像和红外图像的三维张量进行全局平均池化,得到可见光图像和红外图像的全局特征。
将可见光图像和红外图像的三维张量水平分割为K个水平部分张量,对所述K个水平部分张量进行全局平均池化,得到K个列向量;采用卷积层对所述K个列向量进行降维,得到可见光图像和红外图像的局部特征。
优选地,S4中,根据可见光图像和红外图像的全局特征计算困难五元组损失LHP,其计算公式如下所示:
其中,N表示行人的类别数,P表示可见光图像或红外图像的数量,Lhgt表示困难全局三元组损失,Lhct表示困难跨模态三元组损失;
所述困难全局三元组损失Lhgt的计算公式如下所示:
其中,p=1…2P,a=1…2P,p≠a,n=1…2P,i=1…N,j=1…N,j≠i,α表示图像之间最大欧式距离和最小欧式距离之差;fi a表示行人类别为i的第a张图像的全局特征,fi p表示行人类别为i的第p张图像的全局特征,表示行人类别为j的第n张图像的全局特征;表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离,表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离;函数[*]+中,若*大于0,[*]+输出*,若*小于或等于0,[*]+输出为0;
所述困难跨模态三元组损失Lhct的计算公式如下所示:
其中,fi cp表示行人类别为i且与fi a不属于同一模态图像的全局特征,表示行人类别为j且与fi a不属于同一模态图像的全局特征;表示行人类别为i的第a张图像与另一个模态中行人类别为j的图像中的最小欧式距离,maxd(fi a,fi cp)表示行人类别为i的第a张图像与另一个模态中行人类别为i的图像的最大欧式距离。
优选地,S4中,使用全局分类器,对所述全局特征进行身份分类,计算交叉熵损失作为全局身份损失Lid,其计算公式如下所示:
优选地,S4中,使用可见光分类器对可见光图像的局部特征进行身份分类,使用红外分类器对红外图像对应的局部特征进行身份分类,计算交叉熵损失作为特定身份损失Lsid,其计算公式如下所示:
则根据困难五元组损失LHP、全局身份损失Lid和特定身份损失Lsid构建跨模态行人重识别模型的整体损失函数L,其表达式如下所示:
L=Lid+LHP+λLsid
其中,λ为损失函数的权重参数。
优选地,S1中,所述双流网络包括可见光模态网络和红外模态网络;
所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器;所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接,所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接;所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接,所述第六卷积模块的输出端与所述可见光分类器的输入端连接;所述第一池化层的输出端与所述第一全局分类器的输入端连接;
所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器;所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接,所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接;所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接,所述第十二卷积模块的输出端与所述红外分类器的输入端连接;所述第二池化层的输出端与所述第二全局分类器的输入端连接;
所述第三卷积模块与所述第九卷积模块的参数共享;所述第四卷积模块与所述第十卷积模块的参数共享;所述第五卷积模块与所述第十一卷积模块的参数共享;所述第二卷积模块与所述第八卷积模块的参数共享;
所述第一全局分类器和所述第二全局分类器的参数共享。
优选地,所述可见光模态网络和红外模态网络采用BotNet作为骨干网络。
优选地,所述可见光分类器、第一全局分类器、红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。
第二个方面,本发明还提出一种基于多特征学习的跨模态行人重识别系统,应用于上述任一方案所述的基于多特征学习的跨模态行人重识别方法中,包括:
数据获取模块,用于随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
跨模态行人重识别模型,包括双流网络,用于根据获取的可见光图像和红外图像,输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;并计算待识别的目标图像与测试集中的图像之间的相似度输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果;
优化模块,用于根据所述可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征,计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数,并根据所述损失函数对跨模态行人重识别模型进行参数优化。
与现有技术相比,本发明技术方案的有益效果是:本发明利用双流网络提取每个批次的可见光图像和红外图像的全局特征和局部特征,并根据全局特征计算出困难五元组损失,针对全局特征以及每一个局部特征进行身份分类,得到全局身份损失和特定身份损失;根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,并根据整体损失函数对跨模态行人重识别模型进行参数优化。其中,特定身份损失使得跨模态行人重识别模型能够注意到不同行人类别图像之间的细微差别,有利于提取出特定身份的辨别性特征。本发明考虑了可见光图像和红外图像的全局特征以及局部特征,以全局特征和局部特征结合的方式增强特征提取的信息容量,弥补了仅使用一种特征来进行行人重识别造成的不足,增强了模型特征的辨别性,提高了跨模态行人重识别的识别精度。
附图说明
图1为基于多特征学习的跨模态行人重识别方法的流程图。
图2为实施例2中双流网络的原理图。
图3为基于多特征学习的跨模态行人重识别系统的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
请参阅图1,本实施例提出一种基于多特征学习的跨模态行人重识别方法,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型;
S2:随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失;
S5:根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,根据所述整体损失函数对跨模态行人重识别模型进行参数优化;
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
在具体实施过程中,按批次将可见光图像和红外图像输入跨模态行人重识别模型中,跨模态行人重识别模型中双流网络输出可见光图像和红外图像的三维张量。一方面,对可见光图像和红外图像的三维张量进行全局平均池化,可以得到可见光图像和红外图像的全局特征;另一方面,对可见光图像和红外图像的三维张量进行水平分割,得到相应的水平部分张量,并对所述水平部分张量进行全局平均池化,得到相应的列向量,然后再利用卷积层对所述列向量进行降维,可以得到可见光图像和红外图像的局部特征。
根据可见光图像和红外图像的全局特征计算出困难五元组损失,并针对可见光图像和红外图像的全局特征以及每一个局部特征进行身份分类,得到全局身份损失和特定身份损失,以构建跨模态行人重识别模型的整体损失函数,并根据整体损失函数对跨模态行人重识别模型进行参数优化。最后将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前20张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
可见光图像和红外图像不仅模态间有区别,而且即使在同一模态内,由于行人姿态、监控视角和光照强度的变化,也会使得同一模态中同一身份的图像之间产生诸多差异。
本发明考虑了可见光图像和红外图像的全局特征以及局部特征,以全局特征和局部特征结合的方式增强特征提取的信息容量,弥补了仅使用一种特征来进行行人重识别造成的不足,增强了模型特征的辨别性和鲁棒性,提高了跨模态行人重识别的识别精度。
实施例2
本实施例提出一种基于多特征学习的跨模态行人重识别方法,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型。
S2:随机获取若干批次行人的可见光图像和红外图像,每一批次包括N类行人的P张可见光图像和P张红外图像,共2NP张图像以构建训练集和测试集。
本实施例中,从SYSU-MM01数据集中随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集,其中测试集中选用红外图像作为待检索图像集,可见光图像作为检索图库;将测试集中的图像重置为288*144尺寸,在训练集中的图像边缘填充10个像素,之后随机裁剪得到尺寸为288*144图像,并以0.5概率对图像进行水平翻转操作。
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征。
本实施例中,每一批次行人的可见光图像和红外图像中选取8个行人类别,每个行人类别选取4个可见光图像和红外图像,即N=8,P=4。分别将训练集中每个批次的可见光图像和红外图像输入跨模态行人重识别模型中。
本实施例中,所述双流网络包括可见光模态网络和红外模态网络。如图2所示,图2为本实施提出的双流网络的原理图。
所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器;所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接,所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接;所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接,所述第六卷积模块的输出端与所述可见光分类器的输入端连接;所述第一池化层的输出端与所述第一全局分类器的输入端连接。
所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器;所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接,所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接;所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接,所述第十二卷积模块的输出端与所述红外分类器的输入端连接;所述第二池化层的输出端与所述第二全局分类器的输入端连接。
所述第一卷积模块与所述第五卷积模块参数不共享,以及所述第一卷积层和所述第三卷积层参数不共享,用于分别提取可见光和红外模态的特定特征。
所述第三卷积模块与所述第九卷积模块的参数共享;所述第四卷积模块与所述第十卷积模块的参数共享;所述第五卷积模块与所述第十一卷积模块的参数共享;所述第二卷积模块与所述第八卷积模块的参数共享,所述第一全局分类器和所述第二全局分类器的参数共享,用于提取可见光和红外两种模态之间的共同特征。
所述第一卷积模块与所述第七卷积模块参数不共享,以及所述第六卷积层和所述第十二卷积层参数不共享,用于分别提取可见光和红外模态的特定特征。
所述可见光分类器和所述红外分类器参数不共享,用于针对不同模态的特定局部特征进行分类。
本实施例中,可见光模态网络和红外模态网络采用在ImageNet预训练的BotNet作为骨干网络。本实施例将基于注意力思想的BoTNet作为骨干网络的双流网络提取全局特征,第五卷积模块和第十一卷积模块将卷积核为3×3的卷积层更换为多头自注意力层(MHSA),减少了网络参数并增强了网络架构的全局信息聚合能力。
本实施例中,所述可见光分类器、第一全局分类器红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。
本实施例中,将所述可见光图像输入跨模态行人重识别模型中,可见光图像先经过第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块,第五卷积模块输出可见光图像的三维张量T1。一方面,可见光图像的三维张量T1经过第一池化层进行全局平均池化,得到可见光图像的全局特征;另一方面,可见光图像的三维张量T1经过第一水平分割模块,水平分割为6个水平部分张量,对所述6个水平部分张量进行全局平均池化,得到6个列向量;采用第六卷积模块对所述6个列向量进行降维,得到可见光图像的局部特征。
将所述红外图像输入跨模态行人重识别模型中,红外图像先经过第七卷积层、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块,第十一卷积模块输出红外图像的三维张量T2。一方面,红外图像的三维张量T2经过第二池化层进行全局平均池化,得到红外图像的全局特征;另一方面,红外图像的三维张量T2经过第一水平分割模块,水平分割为6个水平部分张量,对所述6个水平部分张量进行全局平均池化,得到6个列向量;采用第十二卷积模块对所述6个列向量进行降维,得到红外图像的局部特征。
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失。
本实施例中,联合每个批次中可见光图像和红外图像的全局特征,计算困难五元组损失LHP,困难五元组损失LHP由困难全局三元组损失Lhgt和困难跨模态三元组损失Lhct组成。
困难全局三元组损失Lhgt的计算公式如下所示:
其中,p=1…2P,a=1…2P,p≠a,n=1…2P,i=1…N,j=1…N,j≠i,α表示图像之间最大欧式距离和最小欧式距离之差,α的取值为0.9;fi a表示行人类别为i的第a张图像的全局特征,fi p表示行人类别为i的第p张图像的全局特征,表示行人类别为j的第n张图像的全局特征;表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离,表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离;函数[*]+中,若*大于0,[*]+输出*,若*小于或等于0,[*]+输出为0;
困难跨模态三元组损失Lhct的计算公式如下所示:
其中,fi cp表示行人类别为i且与fi a不属于同一模态图像的全局特征,表示行人类别为j且与fi a不属于同一模态图像的全局特征;表示行人类别为i的第a张图像与另一个模态中行人类别为j的图像中的最小欧式距离,maxd(fi a,fi cp)表示行人类别为i的第a张图像与另一个模态中行人类别为i的图像的最大欧式距离。
因此,困难五元组损失LHP的计算公式如下所示:
根据可见光图像和红外图像的全局特征计算困难五元组损失LHP,其计算公式如下所示:
其中,N表示行人的类别数,P表示可见光图像或红外图像的数量,Lhgt表示困难全局三元组损失,Lhct表示困难跨模态三元组损失。
本实施例中,使用第一全局分类器和第二全局分类器分别对可见光图像和红外图像的全局特征进行身份分类,计算交叉熵损失作为全局身份损失Lid,其计算公式如下所示:
本实施例中,使用可见光分类器对可见光图像的局部特征进行身份分类,使用红外分类器对红外图像对应的局部特征进行身份分类,计算交叉熵损失作为特定身份损失Lsid,其计算公式如下所示:
S5:根据困难五元组损失LHP、全局身份损失Lid和特定身份损失Lsid构建跨模态行人重识别模型的整体损失函数L,其表达式如下所示:
L=Lid+LHP+λLsid
其中,λ为损失函数的权重参数,λ的取值为0.9。
根据所述整体损失函数,使用动量优化器对跨模态行人重识别模型的参数进行优化,将动量设置为0.9,初始学习率为0.01。设置模型训练次数为50,每10次衰减一次学习速率,衰减速率为0.1。,最小化整体损失函数。
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前20张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
本实施例中,将测试集的待检索图像和检索图库中的图像输入优化后的跨模态行人重识别模型,采用经过第一池化层和第二池化层后的可见光图像和红外图像的全局特征计算特征相似度,输出测试集中前20张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
实施例3
请参阅图3,本实施例提出一种基于多特征学习的跨模态行人重识别系统,包括数据获取模块、跨模态行人重识别模型和优化模块。
在具体实施过程中,数据获取模块随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集,其中测试集中选用红外图像作为待检索图像集,可见光图像作为检索图库;并分别将训练集中每个批次的可见光图像和红外图像输入跨模态行人重识别模型中。
跨模态行人重识别模型包括双流网络,所述双流网络包括可见光模态网络和红外模态网络。可见光图像输入到可见光模态网络中,首先得到可见光图像的三维张量。一方面,可见光图像的三维张量在可见光模态网络中进行全局平均池化,得到可见光图像的全局特征;另一方面,可见光图像的三维张量在可见光模态网络中进行水平分割,得到若干个水平部分张量,所述水平部分张量经过全局平均池化,得到相应的列向量;采用卷积层对所述列向量进行降维,得到可见光图像的局部特征。
红外图像输入到红外模态网络中,首先得到红外图像的三维张量。一方面,红外图像的三维张量在红外模态网络中进行全局平均池化,得到红外图像的全局特征;另一方面,红外图像的三维张量在红外模态网络中进行水平分割,得到若干个水平部分张量,所述水平部分张量经过全局平均池化,得到相应的列向量;采用卷积层对所述列向量进行降维,得到红外图像的局部特征。根据获取的可见光图像和红外图像,输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征。
优化模块根据所述可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征,计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数,并根据所述损失函数对跨模态行人重识别模型进行参数优化。
最后将测试集的待检索图像和检索图库中的图像输入优化后的跨模态行人重识别模型,采用经过第一池化层和第二池化层后的可见光图像和红外图像的全局特征计算特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于多特征学习的跨模态行人重识别方法,其特征在于,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型;
S2:随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失;
S5:根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,根据所述整体损失函数对跨模态行人重识别模型进行参数优化;
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
2.根据权利要求1所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S3中,将所述可见光图像和红外图像分别输入跨模态行人重识别模型中,分别得到可见光图像和红外图像的三维张量;
对可见光图像和红外图像的三维张量进行全局平均池化,得到可见光图像和红外图像的全局特征;
将可见光图像和红外图像的三维张量水平分割为K个水平部分张量,对所述K个水平部分张量进行全局平均池化,得到K个列向量;采用卷积层对所述k个列向量进行降维,得到可见光图像和红外图像的局部特征。
3.根据权利要求1所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S2中,随机获取若干批次行人的可见光图像和红外图像,每一批次包括N类行人的P张可见光图像和P张红外图像,共2NP张图像。
4.根据权利要求3所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S4中,根据可见光图像和红外图像的全局特征计算困难五元组损失LHP,其计算公式如下所示:
其中,N表示行人的类别数,P表示可见光图像或红外图像的数量,Lhgt表示困难全局三元组损失,Lhct表示困难跨模态三元组损失;
所述困难全局三元组损失Lhgt的计算公式如下所示:
其中,p=1...2P,a=1...2P,p≠a,n=1...2P,i=1...N,j=1...N,j≠i,α表示图像之间最大欧式距离和最小欧式距离之差;fi a表示行人类别为i的第a张图像的全局特征,fi p表示行人类别为i的第p张图像的全局特征,fj n表示行人类别为j的第n张图像的全局特征;max d(fi a,fi p)表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离,min d(fi a,fj n)表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离;函数[*]+中,若*大于0,[*]+输出*,若*小于或等于0,[*]+输出为0;
所述困难跨模态三元组损失Lhct的计算公式如下所示:
7.根据权利要求1-6任一项所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S1中,所述双流网络包括可见光模态网络和红外模态网络;
所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器;所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接,所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接;所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接,所述第六卷积模块的输出端与所述可见光分类器的输入端连接;所述第一池化层的输出端与所述第一全局分类器的输入端连接;
所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器;所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接,所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接;所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接,所述第十二卷积模块的输出端与所述红外分类器的输入端连接;所述第二池化层的输出端与所述第二全局分类器的输入端连接;
所述第三卷积模块与所述第九卷积模块的参数共享;所述第四卷积模块与所述第十卷积模块的参数共享;所述第五卷积模块与所述第十一卷积模块的参数共享;所述第二卷积模块与所述第八卷积模块的参数共享;
所述第一全局分类器和所述第二全局分类器的参数共享。
8.根据权利要求7所述的基于多特征学习的跨模态行人重识别方法,其特征在于,所述可见光模态网络和红外模态网络采用BotNet作为骨干网络。
9.根据权利要求7所述的基于多特征学习的跨模态行人重识别方法,其特征在于,所述可见光分类器、第一全局分类器、红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。
10.一种基于多特征学习的跨模态行人重识别系统,其特征在于,包括:
数据获取模块,用于随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
跨模态行人重识别模型,包括双流网络,用于根据获取的可见光图像和红外图像,输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;并计算待识别的目标图像与测试集中的图像之间的相似度输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果;
优化模块,用于根据所述可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征,计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数,并根据所述损失函数对跨模态行人重识别模型进行参数优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135424.3A CN114495010A (zh) | 2022-02-14 | 2022-02-14 | 一种基于多特征学习的跨模态行人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135424.3A CN114495010A (zh) | 2022-02-14 | 2022-02-14 | 一种基于多特征学习的跨模态行人重识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114495010A true CN114495010A (zh) | 2022-05-13 |
Family
ID=81480574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210135424.3A Pending CN114495010A (zh) | 2022-02-14 | 2022-02-14 | 一种基于多特征学习的跨模态行人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495010A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292533A (zh) * | 2022-08-17 | 2022-11-04 | 苏州大学 | 视觉定位驱动的跨模态行人检索方法 |
CN115757857A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种水下三维跨模态联合检索方法、存储介质和电子设备 |
CN116012873A (zh) * | 2022-12-05 | 2023-04-25 | 北京数原数字化城市研究中心 | 一种行人重识别方法、装置、电子设备及存储介质 |
CN116311387A (zh) * | 2023-05-25 | 2023-06-23 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
CN117475474A (zh) * | 2023-10-30 | 2024-01-30 | 中国矿业大学 | 一种用于智能安防的跨模态行人重识别系统及方法 |
-
2022
- 2022-02-14 CN CN202210135424.3A patent/CN114495010A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115292533A (zh) * | 2022-08-17 | 2022-11-04 | 苏州大学 | 视觉定位驱动的跨模态行人检索方法 |
CN115292533B (zh) * | 2022-08-17 | 2023-06-27 | 苏州大学 | 视觉定位驱动的跨模态行人检索方法 |
CN116012873A (zh) * | 2022-12-05 | 2023-04-25 | 北京数原数字化城市研究中心 | 一种行人重识别方法、装置、电子设备及存储介质 |
CN116012873B (zh) * | 2022-12-05 | 2024-01-26 | 北京数原数字化城市研究中心 | 一种行人重识别方法、装置、电子设备及存储介质 |
CN115757857A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种水下三维跨模态联合检索方法、存储介质和电子设备 |
CN116311387A (zh) * | 2023-05-25 | 2023-06-23 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
CN116311387B (zh) * | 2023-05-25 | 2023-09-01 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
CN117475474A (zh) * | 2023-10-30 | 2024-01-30 | 中国矿业大学 | 一种用于智能安防的跨模态行人重识别系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767882B (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN111259850B (zh) | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 | |
CN112861720B (zh) | 基于原型卷积神经网络的遥感图像小样本目标检测方法 | |
CN114495010A (zh) | 一种基于多特征学习的跨模态行人重识别方法及系统 | |
CN111325115B (zh) | 带有三重约束损失的对抗跨模态行人重识别方法和系统 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN108197326B (zh) | 一种车辆检索方法及装置、电子设备、存储介质 | |
CN111951212A (zh) | 对铁路的接触网图像进行缺陷识别的方法 | |
CN108073898B (zh) | 人头区域识别方法、装置及设备 | |
CN110097029B (zh) | 基于Highway网络多视角步态识别的身份认证方法 | |
CN111539351B (zh) | 一种多任务级联的人脸选帧比对方法 | |
JP2022521038A (ja) | 顔認識方法、ニューラルネットワークのトレーニング方法、装置及び電子機器 | |
CN112861635A (zh) | 一种基于深度学习的火灾及烟雾实时检测方法 | |
CN106529494A (zh) | 一种基于多摄像头机型的人脸识别方法 | |
CN113205002B (zh) | 非受限视频监控的低清人脸识别方法、装置、设备及介质 | |
CN114119586A (zh) | 一种基于机器视觉的飞机蒙皮缺陷智能检测方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN111401113A (zh) | 一种基于人体姿态估计的行人重识别方法 | |
CN116052212A (zh) | 一种基于双重自监督学习的半监督跨模态行人重识别方法 | |
CN109919223A (zh) | 基于深度神经网络的目标检测方法及装置 | |
CN109165636A (zh) | 一种基于部件级多特征融合的珍稀鸟类稀疏识别方法 | |
CN117333948A (zh) | 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法 | |
Barodi et al. | An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement | |
CN114782979A (zh) | 一种行人重识别模型的训练方法、装置、存储介质及终端 | |
CN112347967B (zh) | 一种复杂场景下融合运动信息的行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |