CN114495010A - 一种基于多特征学习的跨模态行人重识别方法及系统 - Google Patents

一种基于多特征学习的跨模态行人重识别方法及系统 Download PDF

Info

Publication number
CN114495010A
CN114495010A CN202210135424.3A CN202210135424A CN114495010A CN 114495010 A CN114495010 A CN 114495010A CN 202210135424 A CN202210135424 A CN 202210135424A CN 114495010 A CN114495010 A CN 114495010A
Authority
CN
China
Prior art keywords
image
visible light
pedestrian
global
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210135424.3A
Other languages
English (en)
Other versions
CN114495010B (zh
Inventor
郭思琦
谭台哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heyuan Bay District Digital Economy And Technology Innovation Center
Guangdong University of Technology
Original Assignee
Heyuan Bay District Digital Economy And Technology Innovation Center
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heyuan Bay District Digital Economy And Technology Innovation Center, Guangdong University of Technology filed Critical Heyuan Bay District Digital Economy And Technology Innovation Center
Priority to CN202210135424.3A priority Critical patent/CN114495010B/zh
Publication of CN114495010A publication Critical patent/CN114495010A/zh
Application granted granted Critical
Publication of CN114495010B publication Critical patent/CN114495010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提出一种基于多特征学习的跨模态行人重识别方法及系统,包括:获取若干批次的可见光图像和红外图像,并输入包括双流网络的跨模态行人重识别模型中,模型输出可见光图像和红外图像的全局特征和局部特征。根据全局特征和局部特征,计算困难五元组损失、全局身份损失和特定身份损失以构建模型的整体损失函数。根据整体损失函数对模型进行参数优化;将待测试的行人的可见光图像、红外图像以及待识别的目标图像输入优化后的模型中,模型输出行人重识别结果。本发明考虑了两种模态图像的全局特征以及局部特征,弥补了仅使用一种特征来进行行人重识别造成的不足,增强了模型特征的辨别性和鲁棒性,提高了跨模态行人重识别的识别精度。

Description

一种基于多特征学习的跨模态行人重识别方法及系统
技术领域
本发明涉及图像识别领域,更具体地,涉及一种基于多特征学习的跨模态行人重识别方法及系统。
背景技术
行人重识别是指给定一幅待识别行人的图片,在不同摄像头采集的不同图像中通过人员匹配找出具有相同身份的人员。可见光-红外图像跨模态行人重识别方法,可以使得两种模态的行人图像能够相互匹配,充分利用可见光和红外摄像头拍摄到的监控数据,达到24小时监控的目的。
现有一种基于双流卷积神经网络的跨模态行人重识别方法和系统,其通过使用两个卷积神经网络中的特征提取部分,并采用交叉熵损失函数、跨模态三元组损失函数、相对熵损失函数和随机调换策略对两个卷积神经网络在跨模态数据集上进行训练,分别提取两个模态图像的特征,再将两个模态的特征进行欧氏距离度量得到特征匹配结果,实现跨模态行人重识别。
然而,可见光图像和红外图像不仅模态间有区别,而且即使在同一模态内,由于行人姿态、监控视角和光照强度的变化,也会使得同一模态中同一身份的图像之间产生诸多差异。上述方法仅使用两个模态图像的全局特征来进行行人重识别,仅使用单一特征信息的方法使得模型对图像的信息提取不够充分,可能导致模型对一些信息过分依赖,影响模型从图像库中检测目标行人的准确性。
发明内容
本发明为克服现有技术中存在的仅使用图像的全局特征或局部特征来进行跨模态行人重识别,导致识别准确性低的缺陷,提供一种基于多特征学习的跨模态行人重识别方法及系统。
为解决上述技术问题,本发明的技术方案如下:
第一个方面,本发明提出一种基于多特征学习的跨模态行人重识别方法,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型;
S2:随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失;
S5:根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,根据所述整体损失函数对跨模态行人重识别模型进行参数优化;
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
优选地,S3中,随机获取若干批次行人的可见光图像和红外图像,每一批次包括N类行人的P张可见光图像和P张红外图像,共2NP张图像。
对可见光图像和红外图像的三维张量进行全局平均池化,得到可见光图像和红外图像的全局特征。
将可见光图像和红外图像的三维张量水平分割为K个水平部分张量,对所述K个水平部分张量进行全局平均池化,得到K个列向量;采用卷积层对所述K个列向量进行降维,得到可见光图像和红外图像的局部特征。
优选地,S4中,根据可见光图像和红外图像的全局特征计算困难五元组损失LHP,其计算公式如下所示:
Figure BDA0003504376970000021
其中,N表示行人的类别数,P表示可见光图像或红外图像的数量,Lhgt表示困难全局三元组损失,Lhct表示困难跨模态三元组损失;
所述困难全局三元组损失Lhgt的计算公式如下所示:
Figure BDA0003504376970000022
其中,p=1…2P,a=1…2P,p≠a,n=1…2P,i=1…N,j=1…N,j≠i,α表示图像之间最大欧式距离和最小欧式距离之差;fi a表示行人类别为i的第a张图像的全局特征,fi p表示行人类别为i的第p张图像的全局特征,
Figure BDA0003504376970000023
表示行人类别为j的第n张图像的全局特征;表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离,
Figure BDA0003504376970000031
表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离;函数[*]+中,若*大于0,[*]+输出*,若*小于或等于0,[*]+输出为0;
所述困难跨模态三元组损失Lhct的计算公式如下所示:
Figure BDA0003504376970000032
其中,fi cp表示行人类别为i且与fi a不属于同一模态图像的全局特征,
Figure BDA0003504376970000033
表示行人类别为j且与fi a不属于同一模态图像的全局特征;
Figure BDA0003504376970000034
表示行人类别为i的第a张图像与另一个模态中行人类别为j的图像中的最小欧式距离,maxd(fi a,fi cp)表示行人类别为i的第a张图像与另一个模态中行人类别为i的图像的最大欧式距离。
优选地,S4中,使用全局分类器,对所述全局特征进行身份分类,计算交叉熵损失作为全局身份损失Lid,其计算公式如下所示:
Figure BDA0003504376970000035
其中,
Figure BDA0003504376970000036
表示第i张可见光图像的标签,V表示可见光图像,
Figure BDA0003504376970000037
表示全局分类器对第i张可见光图像进行分类的概率结果;
Figure BDA0003504376970000038
为第i张红外图像的标签,I表示红外图像,
Figure BDA0003504376970000039
表示全局分类器对第i张红外图像进行分类的概率结果。
优选地,S4中,使用可见光分类器对可见光图像的局部特征进行身份分类,使用红外分类器对红外图像对应的局部特征进行身份分类,计算交叉熵损失作为特定身份损失Lsid,其计算公式如下所示:
Figure BDA00035043769700000310
其中,
Figure BDA00035043769700000311
表示可见光分类器对第i张可见光图像的第j个局部特征进行分类的概率结果,
Figure BDA00035043769700000312
表示红外分类器对第i张红外图像的第j个局部特征进行分类的概率结果。
则根据困难五元组损失LHP、全局身份损失Lid和特定身份损失Lsid构建跨模态行人重识别模型的整体损失函数L,其表达式如下所示:
L=Lid+LHP+λLsid
其中,λ为损失函数的权重参数。
优选地,S1中,所述双流网络包括可见光模态网络和红外模态网络;
所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器;所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接,所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接;所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接,所述第六卷积模块的输出端与所述可见光分类器的输入端连接;所述第一池化层的输出端与所述第一全局分类器的输入端连接;
所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器;所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接,所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接;所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接,所述第十二卷积模块的输出端与所述红外分类器的输入端连接;所述第二池化层的输出端与所述第二全局分类器的输入端连接;
所述第三卷积模块与所述第九卷积模块的参数共享;所述第四卷积模块与所述第十卷积模块的参数共享;所述第五卷积模块与所述第十一卷积模块的参数共享;所述第二卷积模块与所述第八卷积模块的参数共享;
所述第一全局分类器和所述第二全局分类器的参数共享。
优选地,所述可见光模态网络和红外模态网络采用BotNet作为骨干网络。
优选地,所述可见光分类器、第一全局分类器、红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。
第二个方面,本发明还提出一种基于多特征学习的跨模态行人重识别系统,应用于上述任一方案所述的基于多特征学习的跨模态行人重识别方法中,包括:
数据获取模块,用于随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
跨模态行人重识别模型,包括双流网络,用于根据获取的可见光图像和红外图像,输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;并计算待识别的目标图像与测试集中的图像之间的相似度输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果;
优化模块,用于根据所述可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征,计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数,并根据所述损失函数对跨模态行人重识别模型进行参数优化。
与现有技术相比,本发明技术方案的有益效果是:本发明利用双流网络提取每个批次的可见光图像和红外图像的全局特征和局部特征,并根据全局特征计算出困难五元组损失,针对全局特征以及每一个局部特征进行身份分类,得到全局身份损失和特定身份损失;根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,并根据整体损失函数对跨模态行人重识别模型进行参数优化。其中,特定身份损失使得跨模态行人重识别模型能够注意到不同行人类别图像之间的细微差别,有利于提取出特定身份的辨别性特征。本发明考虑了可见光图像和红外图像的全局特征以及局部特征,以全局特征和局部特征结合的方式增强特征提取的信息容量,弥补了仅使用一种特征来进行行人重识别造成的不足,增强了模型特征的辨别性,提高了跨模态行人重识别的识别精度。
附图说明
图1为基于多特征学习的跨模态行人重识别方法的流程图。
图2为实施例2中双流网络的原理图。
图3为基于多特征学习的跨模态行人重识别系统的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
请参阅图1,本实施例提出一种基于多特征学习的跨模态行人重识别方法,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型;
S2:随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失;
S5:根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,根据所述整体损失函数对跨模态行人重识别模型进行参数优化;
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
在具体实施过程中,按批次将可见光图像和红外图像输入跨模态行人重识别模型中,跨模态行人重识别模型中双流网络输出可见光图像和红外图像的三维张量。一方面,对可见光图像和红外图像的三维张量进行全局平均池化,可以得到可见光图像和红外图像的全局特征;另一方面,对可见光图像和红外图像的三维张量进行水平分割,得到相应的水平部分张量,并对所述水平部分张量进行全局平均池化,得到相应的列向量,然后再利用卷积层对所述列向量进行降维,可以得到可见光图像和红外图像的局部特征。
根据可见光图像和红外图像的全局特征计算出困难五元组损失,并针对可见光图像和红外图像的全局特征以及每一个局部特征进行身份分类,得到全局身份损失和特定身份损失,以构建跨模态行人重识别模型的整体损失函数,并根据整体损失函数对跨模态行人重识别模型进行参数优化。最后将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前20张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
可见光图像和红外图像不仅模态间有区别,而且即使在同一模态内,由于行人姿态、监控视角和光照强度的变化,也会使得同一模态中同一身份的图像之间产生诸多差异。
本发明考虑了可见光图像和红外图像的全局特征以及局部特征,以全局特征和局部特征结合的方式增强特征提取的信息容量,弥补了仅使用一种特征来进行行人重识别造成的不足,增强了模型特征的辨别性和鲁棒性,提高了跨模态行人重识别的识别精度。
实施例2
本实施例提出一种基于多特征学习的跨模态行人重识别方法,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型。
S2:随机获取若干批次行人的可见光图像和红外图像,每一批次包括N类行人的P张可见光图像和P张红外图像,共2NP张图像以构建训练集和测试集。
本实施例中,从SYSU-MM01数据集中随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集,其中测试集中选用红外图像作为待检索图像集,可见光图像作为检索图库;将测试集中的图像重置为288*144尺寸,在训练集中的图像边缘填充10个像素,之后随机裁剪得到尺寸为288*144图像,并以0.5概率对图像进行水平翻转操作。
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征。
本实施例中,每一批次行人的可见光图像和红外图像中选取8个行人类别,每个行人类别选取4个可见光图像和红外图像,即N=8,P=4。分别将训练集中每个批次的可见光图像和红外图像输入跨模态行人重识别模型中。
本实施例中,所述双流网络包括可见光模态网络和红外模态网络。如图2所示,图2为本实施提出的双流网络的原理图。
所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器;所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接,所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接;所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接,所述第六卷积模块的输出端与所述可见光分类器的输入端连接;所述第一池化层的输出端与所述第一全局分类器的输入端连接。
所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器;所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接,所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接;所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接,所述第十二卷积模块的输出端与所述红外分类器的输入端连接;所述第二池化层的输出端与所述第二全局分类器的输入端连接。
所述第一卷积模块与所述第五卷积模块参数不共享,以及所述第一卷积层和所述第三卷积层参数不共享,用于分别提取可见光和红外模态的特定特征。
所述第三卷积模块与所述第九卷积模块的参数共享;所述第四卷积模块与所述第十卷积模块的参数共享;所述第五卷积模块与所述第十一卷积模块的参数共享;所述第二卷积模块与所述第八卷积模块的参数共享,所述第一全局分类器和所述第二全局分类器的参数共享,用于提取可见光和红外两种模态之间的共同特征。
所述第一卷积模块与所述第七卷积模块参数不共享,以及所述第六卷积层和所述第十二卷积层参数不共享,用于分别提取可见光和红外模态的特定特征。
所述可见光分类器和所述红外分类器参数不共享,用于针对不同模态的特定局部特征进行分类。
本实施例中,可见光模态网络和红外模态网络采用在ImageNet预训练的BotNet作为骨干网络。本实施例将基于注意力思想的BoTNet作为骨干网络的双流网络提取全局特征,第五卷积模块和第十一卷积模块将卷积核为3×3的卷积层更换为多头自注意力层(MHSA),减少了网络参数并增强了网络架构的全局信息聚合能力。
本实施例中,所述可见光分类器、第一全局分类器红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。
本实施例中,将所述可见光图像输入跨模态行人重识别模型中,可见光图像先经过第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块,第五卷积模块输出可见光图像的三维张量T1。一方面,可见光图像的三维张量T1经过第一池化层进行全局平均池化,得到可见光图像的全局特征;另一方面,可见光图像的三维张量T1经过第一水平分割模块,水平分割为6个水平部分张量,对所述6个水平部分张量进行全局平均池化,得到6个列向量;采用第六卷积模块对所述6个列向量进行降维,得到可见光图像的局部特征。
将所述红外图像输入跨模态行人重识别模型中,红外图像先经过第七卷积层、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块,第十一卷积模块输出红外图像的三维张量T2。一方面,红外图像的三维张量T2经过第二池化层进行全局平均池化,得到红外图像的全局特征;另一方面,红外图像的三维张量T2经过第一水平分割模块,水平分割为6个水平部分张量,对所述6个水平部分张量进行全局平均池化,得到6个列向量;采用第十二卷积模块对所述6个列向量进行降维,得到红外图像的局部特征。
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失。
本实施例中,联合每个批次中可见光图像和红外图像的全局特征,计算困难五元组损失LHP,困难五元组损失LHP由困难全局三元组损失Lhgt和困难跨模态三元组损失Lhct组成。
困难全局三元组损失Lhgt的计算公式如下所示:
Figure BDA0003504376970000091
其中,p=1…2P,a=1…2P,p≠a,n=1…2P,i=1…N,j=1…N,j≠i,α表示图像之间最大欧式距离和最小欧式距离之差,α的取值为0.9;fi a表示行人类别为i的第a张图像的全局特征,fi p表示行人类别为i的第p张图像的全局特征,
Figure BDA0003504376970000092
表示行人类别为j的第n张图像的全局特征;表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离,
Figure BDA0003504376970000093
表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离;函数[*]+中,若*大于0,[*]+输出*,若*小于或等于0,[*]+输出为0;
困难跨模态三元组损失Lhct的计算公式如下所示:
Figure BDA0003504376970000094
其中,fi cp表示行人类别为i且与fi a不属于同一模态图像的全局特征,
Figure BDA0003504376970000095
表示行人类别为j且与fi a不属于同一模态图像的全局特征;
Figure BDA0003504376970000096
表示行人类别为i的第a张图像与另一个模态中行人类别为j的图像中的最小欧式距离,maxd(fi a,fi cp)表示行人类别为i的第a张图像与另一个模态中行人类别为i的图像的最大欧式距离。
因此,困难五元组损失LHP的计算公式如下所示:
根据可见光图像和红外图像的全局特征计算困难五元组损失LHP,其计算公式如下所示:
Figure BDA0003504376970000101
其中,N表示行人的类别数,P表示可见光图像或红外图像的数量,Lhgt表示困难全局三元组损失,Lhct表示困难跨模态三元组损失。
本实施例中,使用第一全局分类器和第二全局分类器分别对可见光图像和红外图像的全局特征进行身份分类,计算交叉熵损失作为全局身份损失Lid,其计算公式如下所示:
Figure BDA0003504376970000102
其中,
Figure BDA0003504376970000103
表示第i张可见光图像的标签,V表示可见光图像,
Figure BDA0003504376970000104
表示全局分类器对第i张可见光图像进行分类的概率结果;
Figure BDA0003504376970000105
为第i张红外图像的标签,I表示红外图像,
Figure BDA0003504376970000106
表示全局分类器对第i张红外图像进行分类的概率结果。
本实施例中,使用可见光分类器对可见光图像的局部特征进行身份分类,使用红外分类器对红外图像对应的局部特征进行身份分类,计算交叉熵损失作为特定身份损失Lsid,其计算公式如下所示:
Figure BDA0003504376970000107
其中,
Figure BDA0003504376970000108
表示可见光分类器对第i张可见光图像的第j个局部特征进行分类的概率结果,
Figure BDA0003504376970000109
表示红外分类器对第i张红外图像的第j个局部特征进行分类的概率结果。
S5:根据困难五元组损失LHP、全局身份损失Lid和特定身份损失Lsid构建跨模态行人重识别模型的整体损失函数L,其表达式如下所示:
L=Lid+LHP+λLsid
其中,λ为损失函数的权重参数,λ的取值为0.9。
根据所述整体损失函数,使用动量优化器对跨模态行人重识别模型的参数进行优化,将动量设置为0.9,初始学习率为0.01。设置模型训练次数为50,每10次衰减一次学习速率,衰减速率为0.1。,最小化整体损失函数。
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前20张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
本实施例中,将测试集的待检索图像和检索图库中的图像输入优化后的跨模态行人重识别模型,采用经过第一池化层和第二池化层后的可见光图像和红外图像的全局特征计算特征相似度,输出测试集中前20张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
实施例3
请参阅图3,本实施例提出一种基于多特征学习的跨模态行人重识别系统,包括数据获取模块、跨模态行人重识别模型和优化模块。
在具体实施过程中,数据获取模块随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集,其中测试集中选用红外图像作为待检索图像集,可见光图像作为检索图库;并分别将训练集中每个批次的可见光图像和红外图像输入跨模态行人重识别模型中。
跨模态行人重识别模型包括双流网络,所述双流网络包括可见光模态网络和红外模态网络。可见光图像输入到可见光模态网络中,首先得到可见光图像的三维张量。一方面,可见光图像的三维张量在可见光模态网络中进行全局平均池化,得到可见光图像的全局特征;另一方面,可见光图像的三维张量在可见光模态网络中进行水平分割,得到若干个水平部分张量,所述水平部分张量经过全局平均池化,得到相应的列向量;采用卷积层对所述列向量进行降维,得到可见光图像的局部特征。
红外图像输入到红外模态网络中,首先得到红外图像的三维张量。一方面,红外图像的三维张量在红外模态网络中进行全局平均池化,得到红外图像的全局特征;另一方面,红外图像的三维张量在红外模态网络中进行水平分割,得到若干个水平部分张量,所述水平部分张量经过全局平均池化,得到相应的列向量;采用卷积层对所述列向量进行降维,得到红外图像的局部特征。根据获取的可见光图像和红外图像,输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征。
优化模块根据所述可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征,计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数,并根据所述损失函数对跨模态行人重识别模型进行参数优化。
最后将测试集的待检索图像和检索图库中的图像输入优化后的跨模态行人重识别模型,采用经过第一池化层和第二池化层后的可见光图像和红外图像的全局特征计算特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于多特征学习的跨模态行人重识别方法,其特征在于,包括以下步骤:
S1:构建包括双流网络的跨模态行人重识别模型;
S2:随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
S3:按批次将所述可见光图像和所述红外图像分别输入跨模态行人重识别模型中,跨模态行人重识别模型输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;
S4:根据所述全局特征计算困难五元组损失和全局身份损失,根据所述局部特征计算特定身份损失;
S5:根据困难五元组损失、全局身份损失和特定身份损失构建跨模态行人重识别模型的整体损失函数,根据所述整体损失函数对跨模态行人重识别模型进行参数优化;
S6:将测试集中的图像和待识别的目标图像输入优化后的跨模态行人重识别模型,计算待识别的目标图像与测试集中的图像之间的特征相似度,输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果。
2.根据权利要求1所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S3中,将所述可见光图像和红外图像分别输入跨模态行人重识别模型中,分别得到可见光图像和红外图像的三维张量;
对可见光图像和红外图像的三维张量进行全局平均池化,得到可见光图像和红外图像的全局特征;
将可见光图像和红外图像的三维张量水平分割为K个水平部分张量,对所述K个水平部分张量进行全局平均池化,得到K个列向量;采用卷积层对所述k个列向量进行降维,得到可见光图像和红外图像的局部特征。
3.根据权利要求1所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S2中,随机获取若干批次行人的可见光图像和红外图像,每一批次包括N类行人的P张可见光图像和P张红外图像,共2NP张图像。
4.根据权利要求3所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S4中,根据可见光图像和红外图像的全局特征计算困难五元组损失LHP,其计算公式如下所示:
Figure FDA0003504376960000021
其中,N表示行人的类别数,P表示可见光图像或红外图像的数量,Lhgt表示困难全局三元组损失,Lhct表示困难跨模态三元组损失;
所述困难全局三元组损失Lhgt的计算公式如下所示:
Figure FDA0003504376960000022
其中,p=1...2P,a=1...2P,p≠a,n=1...2P,i=1...N,j=1...N,j≠i,α表示图像之间最大欧式距离和最小欧式距离之差;fi a表示行人类别为i的第a张图像的全局特征,fi p表示行人类别为i的第p张图像的全局特征,fj n表示行人类别为j的第n张图像的全局特征;max d(fi a,fi p)表示行人类别为i的第a张图像与行人类别为i的第n张图像的最大欧式距离,min d(fi a,fj n)表示行人类别为i的第a张图像与行人类别为j的第n张图像的最小欧式距离;函数[*]+中,若*大于0,[*]+输出*,若*小于或等于0,[*]+输出为0;
所述困难跨模态三元组损失Lhct的计算公式如下所示:
Figure FDA0003504376960000023
其中,fi cp表示行人类别为i且与fi a不属于同一模态图像的全局特征,
Figure FDA0003504376960000024
表示行人类别为j且与fi a不属于同一模态图像的全局特征;
Figure FDA0003504376960000025
表示行人类别为i的第a张图像与另一个模态中行人类别为j的图像中的最小欧式距离,maxd(fi a,fi cp)表示行人类别为i的第a张图像与另一个模态中行人类别为i的图像的最大欧式距离。
5.根据权利要求4所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S4中,使用全局分类器,对所述全局特征进行身份分类,计算交叉熵损失作为全局身份损失Lid,其计算公式如下所示:
Figure FDA0003504376960000026
其中,
Figure FDA0003504376960000027
表示第i张可见光图像的标签,V表示可见光图像,
Figure FDA0003504376960000028
表示全局分类器对第i张可见光图像进行分类的概率结果;
Figure FDA0003504376960000029
为第i张红外图像的标签,I表示红外图像,
Figure FDA00035043769600000210
表示全局分类器对第i张红外图像进行分类的概率结果。
6.根据权利要求5所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S4中,使用可见光分类器对可见光图像的局部特征进行身份分类,使用红外分类器对红外图像对应的局部特征进行身份分类,计算交叉熵损失作为特定身份损失Lsid,其计算公式如下所示:
Figure FDA0003504376960000031
其中,
Figure FDA0003504376960000032
表示可见光分类器对第i张可见光图像的第j个局部特征进行分类的概率结果,
Figure FDA0003504376960000033
表示红外分类器对第i张红外图像的第j个局部特征进行分类的概率结果;
则根据困难五元组损失LHP、全局身份损失Lid和特定身份损失Lsid构建跨模态行人重识别模型的整体损失函数L,其表达式如下所示:
L=Lid+LHP+λLsid
其中,λ为损失函数的权重参数。
7.根据权利要求1-6任一项所述的基于多特征学习的跨模态行人重识别方法,其特征在于,S1中,所述双流网络包括可见光模态网络和红外模态网络;
所述可见光模态网络包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第一水平分割模块、第一池化层、可见光分类器和第一全局分类器;所述第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块依次连接,所述第五卷积模块的输出端分别与第一水平分割模块和第一池化层的输入端连接;所述第一水平分割模块的输出端与所述第六卷积模块的输入端连接,所述第六卷积模块的输出端与所述可见光分类器的输入端连接;所述第一池化层的输出端与所述第一全局分类器的输入端连接;
所述红外模态网络包括第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第二水平分割模块、第二池化层、红外分类器和第二全局分类器;所述第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块和第十一卷积模块依次连接,所述第十一卷积模块的输出端分别与第二水平分割模块和第二池化层的输入端连接;所述第二水平分割模块的输出端与所述第十二卷积模块的输入端连接,所述第十二卷积模块的输出端与所述红外分类器的输入端连接;所述第二池化层的输出端与所述第二全局分类器的输入端连接;
所述第三卷积模块与所述第九卷积模块的参数共享;所述第四卷积模块与所述第十卷积模块的参数共享;所述第五卷积模块与所述第十一卷积模块的参数共享;所述第二卷积模块与所述第八卷积模块的参数共享;
所述第一全局分类器和所述第二全局分类器的参数共享。
8.根据权利要求7所述的基于多特征学习的跨模态行人重识别方法,其特征在于,所述可见光模态网络和红外模态网络采用BotNet作为骨干网络。
9.根据权利要求7所述的基于多特征学习的跨模态行人重识别方法,其特征在于,所述可见光分类器、第一全局分类器、红外分类器和第二全局分类器均包括一个全连接层和一个归一化层。
10.一种基于多特征学习的跨模态行人重识别系统,其特征在于,包括:
数据获取模块,用于随机获取若干批次行人的可见光图像和红外图像,构建训练集和测试集;
跨模态行人重识别模型,包括双流网络,用于根据获取的可见光图像和红外图像,输出可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征;并计算待识别的目标图像与测试集中的图像之间的相似度输出测试集中前M张与待识别的目标图像特征相似度最高的图像,作为行人重识别结果;
优化模块,用于根据所述可见光图像和红外图像的全局特征,以及可见光图像和红外图像局部特征,计算包括困难五元组损失、全局身份损失和局部特征计算特定身份损失的跨模态行人重识别模型的损失函数,并根据所述损失函数对跨模态行人重识别模型进行参数优化。
CN202210135424.3A 2022-02-14 2022-02-14 一种基于多特征学习的跨模态行人重识别方法及系统 Active CN114495010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210135424.3A CN114495010B (zh) 2022-02-14 2022-02-14 一种基于多特征学习的跨模态行人重识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210135424.3A CN114495010B (zh) 2022-02-14 2022-02-14 一种基于多特征学习的跨模态行人重识别方法及系统

Publications (2)

Publication Number Publication Date
CN114495010A true CN114495010A (zh) 2022-05-13
CN114495010B CN114495010B (zh) 2024-12-17

Family

ID=81480574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210135424.3A Active CN114495010B (zh) 2022-02-14 2022-02-14 一种基于多特征学习的跨模态行人重识别方法及系统

Country Status (1)

Country Link
CN (1) CN114495010B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292533A (zh) * 2022-08-17 2022-11-04 苏州大学 视觉定位驱动的跨模态行人检索方法
CN115757857A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下三维跨模态联合检索方法、存储介质和电子设备
CN116012873A (zh) * 2022-12-05 2023-04-25 北京数原数字化城市研究中心 一种行人重识别方法、装置、电子设备及存储介质
CN116311387A (zh) * 2023-05-25 2023-06-23 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN117475474A (zh) * 2023-10-30 2024-01-30 中国矿业大学 一种用于智能安防的跨模态行人重识别系统及方法
CN118799661A (zh) * 2024-09-14 2024-10-18 南京信息工程大学 一种自适应特征融合和跨模态的行人重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597876A (zh) * 2020-04-01 2020-08-28 浙江工业大学 一种基于困难五元组的跨模态行人重识别方法
CN112651262A (zh) * 2019-10-09 2021-04-13 四川大学 一种基于自适应行人对齐的跨模态行人重识别方法
CN113569639A (zh) * 2021-06-25 2021-10-29 湖南大学 一种基于样本中心损失函数的跨模态行人重识别方法
CN113723236A (zh) * 2021-08-17 2021-11-30 广东工业大学 一种结合局部阈值二值化图像的跨模态行人重识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651262A (zh) * 2019-10-09 2021-04-13 四川大学 一种基于自适应行人对齐的跨模态行人重识别方法
CN111597876A (zh) * 2020-04-01 2020-08-28 浙江工业大学 一种基于困难五元组的跨模态行人重识别方法
CN113569639A (zh) * 2021-06-25 2021-10-29 湖南大学 一种基于样本中心损失函数的跨模态行人重识别方法
CN113723236A (zh) * 2021-08-17 2021-11-30 广东工业大学 一种结合局部阈值二值化图像的跨模态行人重识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李灏;唐敏;林建武;赵云波;: "基于改进困难三元组损失的跨模态行人重识别框架", 计算机科学, no. 10, 15 October 2020 (2020-10-15) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292533A (zh) * 2022-08-17 2022-11-04 苏州大学 视觉定位驱动的跨模态行人检索方法
CN115292533B (zh) * 2022-08-17 2023-06-27 苏州大学 视觉定位驱动的跨模态行人检索方法
CN116012873A (zh) * 2022-12-05 2023-04-25 北京数原数字化城市研究中心 一种行人重识别方法、装置、电子设备及存储介质
CN116012873B (zh) * 2022-12-05 2024-01-26 北京数原数字化城市研究中心 一种行人重识别方法、装置、电子设备及存储介质
CN115757857A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下三维跨模态联合检索方法、存储介质和电子设备
CN116311387A (zh) * 2023-05-25 2023-06-23 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN116311387B (zh) * 2023-05-25 2023-09-01 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN117475474A (zh) * 2023-10-30 2024-01-30 中国矿业大学 一种用于智能安防的跨模态行人重识别系统及方法
CN118799661A (zh) * 2024-09-14 2024-10-18 南京信息工程大学 一种自适应特征融合和跨模态的行人重识别方法

Also Published As

Publication number Publication date
CN114495010B (zh) 2024-12-17

Similar Documents

Publication Publication Date Title
CN114495010A (zh) 一种基于多特征学习的跨模态行人重识别方法及系统
Wang et al. Depth pooling based large-scale 3-d action recognition with convolutional neural networks
CN108520535B (zh) 基于深度恢复信息的物体分类方法
CN105975941B (zh) 一种基于深度学习的多方向车型检测识别系统
JP5517858B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP4743823B2 (ja) 画像処理装置、撮像装置、画像処理方法
CN108038476A (zh) 一种基于边缘检测与sift的人脸表情识别特征提取方法
CN108549926A (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN104866829A (zh) 一种基于特征学习的跨年龄人脸验证方法
CN108520226A (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN105139004A (zh) 基于视频序列的人脸表情识别方法
Ahamed et al. HOG-CNN based real time face recognition
JP2022521038A (ja) 顔認識方法、ニューラルネットワークのトレーニング方法、装置及び電子機器
CN108764096B (zh) 一种行人重识别系统和方法
CN111625675A (zh) 基于注意力机制下特征金字塔的深度哈希图像检索方法
CN113269224B (zh) 一种场景图像分类方法、系统及存储介质
CN111539351B (zh) 一种多任务级联的人脸选帧比对方法
CN112418041A (zh) 一种基于人脸正面化的多姿态人脸识别方法
Parde et al. Deep convolutional neural network features and the original image
Huang et al. Whole-body detection, recognition and identification at altitude and range
CN111797704B (zh) 一种基于相关物体感知的动作识别方法
Rehman et al. Kinship verification using deep neural network models
CN116229511A (zh) 基于金丝猴躯干特征提取的身份重识别方法
Bekhouche et al. Kinship verification from gait?
CN115546862A (zh) 基于跨尺度局部差异深度子空间特征的表情识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant