CN112115805B - 带双模态难挖掘三元-中心损失的行人重识别方法及系统 - Google Patents
带双模态难挖掘三元-中心损失的行人重识别方法及系统 Download PDFInfo
- Publication number
- CN112115805B CN112115805B CN202010877730.5A CN202010877730A CN112115805B CN 112115805 B CN112115805 B CN 112115805B CN 202010877730 A CN202010877730 A CN 202010877730A CN 112115805 B CN112115805 B CN 112115805B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- local
- visible light
- feature representation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002902 bimodal effect Effects 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012935 Averaging Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Image Processing (AREA)
Abstract
本申请公开了带双模态难挖掘三元‑中心损失的行人重识别方法及系统,将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;将得到的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间使用带双模态难挖掘三元‑中心损失函数进行优化;计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的距离,将距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。
Description
技术领域
本申请涉及可视-红外行人重识别领域和深度学习技术领域,特别是涉及带双模态难挖掘三元-中心损失的行人重识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
行人重识别是跨不同的摄像机视点来检索目标行人,是计算机视觉社区的一个热门研究方向。它可以作为人脸识别技术的重要补充,并在视频监控系统中发挥重要作用。在过去的几年里,学者们对行人重识别的研究主要集中在可视领域,其中行人图像是由可视光相机拍摄的。但在现实生活中,当光线较暗时,可视光相机却无法捕捉到包含有效信息的行人图片。因此,能够在光线昏暗时捕捉有效行人图像的红外摄像机得到了广泛的应用。可视-红外行人重识别问题也就应运而生。
可视-红外行人重识别就是根据给定的检索目标的可见光(红外)图像,从由红外(可视光)图像构成的画廊中搜索目标行人。它与可视-可视行人重识别最大的区别在于,本申请需要跨异质模态搜索行人图像。因为可见光摄像机和红外摄像机的反射光谱存在差异,所以捕获的可视图片和红外图片的信息容量和表示形式完全不同。此外,发明人还发现,不同数据集的红外模态图片也不尽相同。SYSU-MM01数据集包含近红外图像,它们具有相对清晰的轮廓并保留了一些细节信息。但RegDB数据集包含的是远红外图像,它们仅具有模糊的轮廓。此外,可视-红外行人重识别还遭受着传统的可视-可视行人重识别中存在的问题,例如摄像机视角变化,行人姿势变化和遮挡等,现有技术中对行人重识别的精准度有待提升。
发明内容
为了解决现有技术的不足,本申请提供了带双模态难挖掘三元-中心损失的行人重识别方法及系统;
第一方面,本申请提供了带双模态难挖掘三元-中心损失的行人重识别方法;
带双模态难挖掘三元-中心损失的行人重识别方法,包括:
将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;
将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;
计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。
第二方面,本申请提供了带双模态难挖掘三元-中心损失的行人重识别系统;
带双模态难挖掘三元-中心损失的行人重识别系统,包括:
局部特征提取模块,其被配置为:将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;
投影模块,其被配置为:将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;
行人重识别模块,其被配置为:计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本申请的有益效果是:
本申请设计了一个新颖的双模态难挖掘三元-中心损失(DTCL)。它可以有效地继承三元组损失和中心损失的优点,即有效地在减小类内距离的同时增加类间距离,并挖掘难三元组,减少计算开销。双模态难挖掘三元-中心损失分别为每个类计算两个模态中心。它约束了样本与同类的异质/同质模态中心的距离小于样本与不同类的异质/同质模态中心的最小距离。
本申请还设计了一种双路径的基于局部的特征学习网络(DPFLN)来提取局部特征,以解决可视-红外行人重识别的模态差异问题。该模型分为可视支路和红外支路,它们分别用来处理两种模态下的异质图像。
本申请采用Resnet-50作为各支路的主干网络,然后使用卷积平均池化层将每一条支路的骨干网络输出的特征图从上到下均匀地划分为若干水平条。随后,两个分支中对应位置的水平条被输入到权重共享的全连通层中,它将特定模态映射到一个共同的特征表示空间中。
本申请结合三元组损失和中心损失的优点,提出了一种新型的双模态难挖掘三元-中心(DTCL)。它可以优化类内距离和类间距离,使得相同身份行人的特征表示相互靠近,将不同身份行人的特征表示推远。它还能挖掘难样本并减少计算代价。
本申请还提出了一种简单但有效的双路径基于局部的特征学习网络(DPFLN),能够从两种不同的模态中提取具有鉴别性的行人的局部特征。本申请联合使用DTCL和交叉熵损失来监督DPFLN的训练过程。本申请在两个公开数据集上进行了实验,结果表明本申请的方法对可视-红外行人重识别任务的有效性。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的网络架构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了带双模态难挖掘三元-中心损失的行人重识别方法;
如图1所示,带双模态难挖掘三元-中心损失的行人重识别方法,包括:
S101:将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;
S102:将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;
S103:计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。
作为一个或多个实施例,所述方法还包括:
S100:获取目标行人图像和待查询的图像集合;所述目标行人图像,包括:目标行人可视光图像和目标行人红外图像;所述待查询的图像集合,包括:若干个待查询行人可视光图像和对应的红外图像。
作为一个或多个实施例,所述S101中,如图2所示,双路径基于局部的特征学习网络(DPFLN,dual-path part-based feature learning network);网络结构包括:
并列的可视光支路和红外支路;
所述可视光支路,采用第一改进的Resnet-50网络结构来实现;所述第一改进的Resnet-50网络结构后面依次连接第一平均池化层、第一全连接层和第一批归一化层;所述可视光支路的输入值为可视光图像,第一平均池化层输出可视光图像的局部特征;可视光图像的局部特征通过第一全连接层和第一批归一化层处理后,映射到公共特征表示空间中;
所述红外支路,也采用第二改进的Resnet-50网络结构来实现;所述第二改进的Resnet-50网络结构后面也依次连接第二平均池化层、第二全连接层和第二批归一化层;所述红外支路的输入值为红外图像,第二平均池化层输出红外图像的局部特征;红外图像的局部特征通过第二全连接层和第二批归一化层处理后,也映射到公共特征表示空间中;
公共特征表示空间将可视光图像的局部特征和红外图像的局部特征进行拼接,得到融合后的特征;
所述第一改进的Resnet-50网络结构,与所述第二改进的Resnet-50网络结构,是一样的;所述第一改进的Resnet-50网络结构,是指在Resnet-50网络结构的基础上,去掉最后一个平均池化层及其后续结构;
所述第一全连接层与第二全连接层是共享权重的。
进一步地,所述第一改进的Resnet-50网络结构,与所述第二改进的Resnet-50网络结构,均是预先训练好的网络结构。
进一步地,所述公共特征表示空间采用双模态难挖掘三元-中心损失函数(DTCL,dual-modality hard mining triplet-center loss)和交叉熵损失函数来进行优化。
进一步地,所述双模态难挖掘三元-中心损失函数,包括:跨模态难挖掘三元-中心损失函数和模态内难挖掘三元-中心损失函数。
跨模态难挖掘三元-中心损失。除了可视相机和红外相机成像原理不同造成的模态差异外,可视-红外行人重识别也存在着类内差异。为了解决跨模态的类内变化问题,即属于同一类的两个不同模态的样本之间的距离可能大于属于不同类的两个不同模态的样本之间的距离,本申请提出了一个跨模态难挖掘三元-中心损失。本申请对每个类别分别计算2个模态的类中心,然后为每一张图片分别选择同类的不同模态的中心和离该张图片特征距离最近的不同类的不同模态的中心一起形成新的三元组。与中心损失类似,在使用小批量图像训练模型的过程中,类中心不断更新。
跨模态难挖掘三元-中心损失的定义为:
其中,和/>分别表示DPFLN提取的可视图像和红外图像的特征嵌入,C1i和c2i分别表示来自可视模态和红外模态的第i个类别的特征分布的中心,yi是第i个样本的类别身份标签,α是边缘距离,N是训练小批量数据的大小,[x]+=max(0,x),D(·)是欧式距离度量。
模态内难挖掘三元-中心损失。除了跨模态的类内变化,可视红外行人重识别还受到了模态内的类内变化的影响。为了解决这一问题,本申请设计了模态内难挖掘三元-中心损失。与跨模态难挖掘三元-中心损失不同,本申请在可见光和红外模态分别选择了新的三元组,公式如下:
其中,和/>分别表示DPFLN提取的可视图像和红外图像的特征嵌入,c1i和c2i分别表示来自可视模态和红外模态的第i个类别的特征分布的中心,yi是第i个样本的类别身份标签,β是边缘距离,N是训练小批量数据的大小,[x]+=max(0,x),D(·)是距离度量,本申请用的是欧氏距离。
双模态难挖掘三元-中心损失约束公式为:
Ldtcl=Lc_tcl+Li_tcl; (3)
交叉熵损失约束。将公共表示空间中的模态共享特征输入到一个的全连接层中,得到概率函数,根据行人的真实标签和得到的概率函数计算行人身份的交叉熵损失,公式为:
表示概率函数,yi是第i个样本的类别身份标签,N表示训练过程中一个块中的图片数。
得到网络模型的最终优化目标函数为:
Lall=Ldtcl+λLid; (5)
其中,Ldtcl表示双模态难挖掘三元-中心损失,Lid表示行人身份损失,λ是权衡两种损失的权重超参数。
利用随机梯度下降法对总的损失函数进行优化,直到模型收敛,得到最终的共同空间。
示例性的,所述双路径基于局部的特征学习网络(DPFLN)由可视支路和红外支路组成,分别对两种不同模态的小批量图像进行处理。每条路径使用稍作修改的预训练好的Resnet-50作为主干网络,即去掉Resnet-50的最后一个平均池层及其后续结构。之后跟着一个平均池化层,一个全连接层和一个批归一化层。
示例性的,所述两个模态的局部特征是通过结构相同但参数独立的可视支路和红外支路提取的。两条支路结构相同,但参数相互独立。在每个支路中,上述的Resnet-50网络从输入的小批量图像中提取出特征图,然后通过平均池化层的作用,将提取出来的特征图从上到下均匀地分割为p条水平条,得到特定模态的局部特征。
将提取的局部特征投影至公共表示空间即将上一步得到的特定模态的局部特征通过一个共享权重的全连接层和一个批归一化层映射到一个公共表示空间中。
作为一个或多个实施例,所述S101中,双路径基于局部的特征学习网络;训练步骤包括:
构建数据集;所述数据集,包括已知目标行人的可视光图像、已知目标行人的红外图像、已知重识别结果的可视光图像集合和已知重识别结果的红外图像集合;将数据集按比例划分为训练集和测试集;
将训练集,输入到双路径基于局部的特征学习网络中,对双路径基于局部的特征学习网络进行训练,当总的损失函数达到最小值时,停止训练,得到训练好的双路径基于局部的特征学习网络;
利用测试集对训练好的双路径基于局部的特征学习网络进行测试,得到最终的双路径基于局部的特征学习网络。
应理解的,训练集和测试集中的行人身份没有交集,每一个行人都被可视光相机和红外相机捕获,具有两个模态的不同视角的多张图片。每一张图片都被重新调整大小为288×144,并且进行随机水平翻转。
示例性的,所述运用测试集进行可视-红外行人重识别就是将测试集中的可视光图片和红外图片输入训练好的网络模型中,将得到可视光图片和热感图片的局部特征表示进行拼接得到行人的最终的特征描述符。然后求得查询图片和画廊中的图片特征之间的欧式距离,并将该距离从小到大排序,距离越小的代表与查询图片越匹配。
作为一个或多个实施例,所述S102中,同理,得到每个待查询行人的最终特征描述符;具体步骤包括:
将每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到每个待查询行人的最终特征描述符。
在训练过程中,本申请使用新的抽样策略选择每一个小批量数据,即本申请从训练集中随机选择P个行人身份,然后为每个身份随机选择K张可见光图像和K张红外图像。本申请使用提出的DPFLN将选取的2N张图像(N=P×K)组成训练的小批数据嵌入到d维特征向量中。
本实施例公开了一种带有双模态难挖掘三元-中心损失的可视-红外行人重识别方法,下面以SYSU-MM01数据集为例,对该方法进行清楚、完整的描述。
SYSU-MM01包括由6台摄像机拍摄的491人的287628张可见光图像和15792张红外图像。6个摄像头中,4个是可见光摄像头,2个是近红外摄像头。它们分别安装在室内和室外环境中,因此SYSU-MM01具有极大的挑战性。数据集原先被分为三个固定的部分,包括296人的训练集、99人的验证集和96人的测试集。本申请将原始的训练集和验证集结合起来作为训练集,其中可见光图像22258张,红外图像11909张,共395人,剩余的96人进行测试。在测试阶段,本申请使用3803张红外图像作为查询集,然后使用挑选出的301张可见图像组成画廊。
本申请的具体步骤如下:
步骤1:将数据集划分为训练集与测试集,并进行预处理。
表示数据集中的可视图片集,/>表示红外图片集,Nx和Nz分别表示可视图片集合和红外图片集合中的图片数量。在实际操作中,本申请使用来自训练集和验证集的395个行人22258张可视光图片和11909张红外图片作为训练集,原来测试集中的数据作为测试集。为了进行数据增强,本申请把输入数据的大小调整为288×144,然后进行水平随机翻转。
步骤2:构建双路径基于局部的特征学习网络(DPFLN)。
双路径基于局部的特征学习网络(DPFLN)由可视支路和红外支路组成,分别对两种不同模态的小批量图像进行处理。每条路径使用稍作修改的预训练好的Resnet-50作为主干网络,即去掉Resnet-50的最后一个平均池化层及其后续结构。之后跟着一个平均池化层,一个全连接层和一个批归一化层。
步骤3:将训练集中的可视光图像和红外图像分别输入到DPFLN的可视支路和红外支路中,提取两个模态的局部特征。
可视光Xi和红外图像Zi分别输入DPFLN的两个支路中,上述的Resnet-50输出的特征经过平均池化层被从上到下切分成6个水平条,得到特定模态的局部特征。
步骤4:将提取的局部特征投影到公共的特征表示空间中。
将上述局部特征通过一个共享权重的全连接层和一个批归一化层,映射到公共表示空间,其局部特征维度为512维。
步骤5:同时使用双模态难挖掘三元-中心损失(DTCL)和交叉熵损失优化公共表示空间。
双模态难挖掘三元-中心损失约束:
双模态难挖掘三元-中心损失约束包括跨模态难挖掘三元-中心损失和模态内难挖掘三元-中心损失两个部分。在训练过程中,本申请使用新的抽样策略选择每一个小批量数据,即本申请从训练集中随机选择P个行人身份,然后为每个身份随机选择K张可见光图像和K张红外图像。本申请使用提出的DPFLN将选取的2N张图像(N=P×K)组成训练的小批数据嵌入到d维特征向量中。
跨模态难挖掘三元-中心损失。除了可视相机和红外相机成像原理不同造成的模态差异外,可视-红外行人重识别也存在着类内差异。为了解决跨模态的类内变化问题,即属于同一类的两个不同模态的样本之间的距离可能大于属于不同类的两个不同模态的样本之间的距离,本申请提出了一个跨模态难挖掘三元-中心损失。本申请对每个类别分别计算2个模态的类中心,然后为每一张图片分别选择同类的不同模态的中心和离该张图片特征距离最近的不同类的不同模态的中心一起形成新的三元组。与中心损失类似,在使用小批量图像训练模型的过程中,类中心不断更新。本申请将跨模态难挖掘三元-中心损失定义为:
和/>分别表示DPFLN提取的可视图像和红外图像的特征嵌入,c1i和c2i分别表示来自可视模态和红外模态的第i个类别的特征分布的中心,yi是第i个样本的类别身份标签,α是边缘距离,N是训练小批量数据的大小,[x]+=max(0,x),D(·)是距离度量,本申请用的是欧氏距离。
模态内难挖掘三元-中心损失。除了跨模态的类内变化,可视红外行人重识别还受到了模态内的类内变化的影响。为了解决这一问题,本申请设计了模态内难挖掘三元-中心损失。与跨模态难挖掘三元-中心损失不同,本申请在可见光和红外模态分别选择了新的三元组,公式如下:
β是边缘距离,其它符号的含义与公式(1)中的相同。
双模态难挖掘三元-中心损失约束公式为:
Ldtcl=Lc_tcl+Li_tcl; (8)
交叉熵损失约束:
将公共表示空间中的模态共享特征输入到一个的全连接层中,得到概率函数,根据行人的真实标签和得到的概率函数计算行人身份的交叉熵损失,公式为:
表示概率函数,N表示训练过程中一个块中的图片数。
得到网络模型的最终优化目标函数为:
Lall=Ldtcl+λLid; (10)
其中,λ表示超参数。
经过多次实验,最终确定在第90代时模型收敛,得到最终的网络模型。
步骤6:运用测试集进行可视-红外行人重识别。
表1 RegDB数据集上single-shot all-search设置下的所有方法的效果
在测试阶段,本申请把可视光图像的测试样本和红外图像的测试样本输入到DPFLN,将提取的每张行人图片的6个局部特征在高度维度进行拼接,作为行人最终的特征描述符。本申请可以求得查询样本和画廊中的样本两两之间的欧式距离,并将该距离从小到大排序,距离越小的代表与查询样本越匹配。对比查询样本的标签和检索到的样本标签,计算Rank-1准确率、累积匹配特征曲线(CMC)以及平均均值精度(mAP)。表1和表2是本申请提出的方法与一些先进的专门为跨模态行人重识别设计的方法以及一些并非专门为跨模态行人重识别任务设计的方法(手工提取特征的方法、度量学习方法)在2个常用的跨模态行人重识别数据集上比较的效果。本申请可以得出结论:本申请提出的方法有效提高了跨模态行人重识别的效果。
表2 SYSU-MM01数据集上single-shot all-search设置下的所有方法的效果
实施例二
本实施例提供了带双模态难挖掘三元-中心损失的行人重识别系统;
带双模态难挖掘三元-中心损失的行人重识别系统,包括:
局部特征提取模块,其被配置为:将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;
投影模块,其被配置为:将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;
行人重识别模块,其被配置为:计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。
此处需要说明的是,上述局部特征提取模块、投影模块和行人重识别模块对应于实施例一中的步骤S101至S103,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.带双模态难挖掘三元-中心损失的行人重识别方法,其特征是,包括:
将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;
将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;
计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出;
其中,双路径基于局部的特征学习网络,网络结构包括:并列的可视光支路和红外支路;所述可视光支路,采用第一改进的Resnet-50网络结构来实现;所述第一改进的Resnet-50网络结构后面依次连接第一平均池化层、第一全连接层和第一批归一化层;所述可视光支路的输入值为可视光图像,第一平均池化层输出可视光图像的局部特征;可视光图像的局部特征通过第一全连接层和第一批归一化层处理后,映射到公共特征表示空间中;所述红外支路,也采用第二改进的Resnet-50网络结构来实现;所述第二改进的Resnet-50网络结构后面也依次连接第二平均池化层、第二全连接层和第二批归一化层;所述红外支路的输入值为红外图像,第二平均池化层输出红外图像的局部特征;红外图像的局部特征通过第二全连接层和第二批归一化层处理后,也映射到公共特征表示空间中;公共特征表示空间将可视光图像的局部特征和红外图像的局部特征进行拼接,得到融合后的特征;所述第一改进的Resnet-50网络结构,与所述第二改进的Resnet-50网络结构,是一样的;所述第一改进的Resnet-50网络结构,是指在Resnet-50网络结构的基础上,去掉最后一个平均池化层及其后续结构,所述第一全连接层与第二全连接层是共享权重的;
所述双模态难挖掘三元-中心损失函数,包括:跨模态难挖掘三元-中心损失函数和模态内难挖掘三元-中心损失函数;
其中,跨模态难挖掘三元-中心损失的定义为:
其中,和/>分别表示双路径基于局部的特征学习网络提取的可视图像和红外图像的特征嵌入,c1i和c2i分别表示来自可视模态和红外模态的第i个类别的特征分布的中心,yi是第i个样本的类别身份标签,α是边缘距离,N是训练小批量数据的大小,[x]+=max(0,x),D(·)是欧式距离度量;
模态内难挖掘三元-中心损失,公式如下:
其中,和/>分别表示双路径基于局部的特征学习网络提取的可视图像和红外图像的特征嵌入,c1i和c2i分别表示来自可视模态和红外模态的第i个类别的特征分布的中心,yi是第i个样本的类别身份标签,β是边缘距离,N是训练小批量数据的大小,[x]+=max(0,x),D(·)是距离度量,距离度量用的是欧氏距离;
双模态难挖掘三元-中心损失约束公式为:Ldtcl=Lc_tcl+Li_tcl。
2.如权利要求1所述的方法,其特征是,所述第一改进的Resnet-50网络结构,与所述第二改进的Resnet-50网络结构,均是预先训练好的网络结构。
3.如权利要求1所述的方法,其特征是,所述公共特征表示空间采用双模态难挖掘三元-中心损失函数和交叉熵损失函数来进行优化。
4.如权利要求1所述的方法,其特征是,双路径基于局部的特征学习网络;训练步骤包括:
构建数据集;所述数据集,包括已知目标行人的可视光图像、已知目标行人的红外图像、已知重识别结果的可视光图像集合和已知重识别结果的红外图像集合;将数据集按比例划分为训练集和测试集;
将训练集,输入到双路径基于局部的特征学习网络中,对双路径基于局部的特征学习网络进行训练,当总的损失函数达到最小值时,停止训练,得到训练好的双路径基于局部的特征学习网络;
利用测试集对训练好的双路径基于局部的特征学习网络进行测试,得到最终的双路径基于局部的特征学习网络。
5.如权利要求1所述的方法,其特征是,得到每个待查询行人的最终特征描述符;具体步骤包括:
将每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到每个待查询行人的最终特征描述符。
6.采用如权利要求1所述的带双模态难挖掘三元-中心损失的行人重识别方法的带双模态难挖掘三元-中心损失的行人重识别系统,其特征是,包括:
局部特征提取模块,其被配置为:将目标行人可视光图像和目标行人红外图像,输入到双路径基于局部的特征学习网络中,输出目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示;同理,得到每个待查询行人的可视光图像的局部特征表示和红外图像的局部特征表示;
投影模块,其被配置为:将目标行人可视光图像的局部特征表示和目标行人红外图像的局部特征表示,投影到公共特征表示空间中,在公共特征表示空间中进行拼接处理,得到目标行人的最终特征描述符;同理,得到每个待查询行人的最终特征描述符;公共特征表示空间,使用带双模态难挖掘三元-中心损失函数进行优化;
行人重识别模块,其被配置为:计算目标行人的最终特征描述符与每个待查询行人的最终特征描述符之间的欧式距离,将欧式距离小于设定阈值所对应的待查询行人图像作为行人重识别结果输出。
7.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010877730.5A CN112115805B (zh) | 2020-08-27 | 2020-08-27 | 带双模态难挖掘三元-中心损失的行人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010877730.5A CN112115805B (zh) | 2020-08-27 | 2020-08-27 | 带双模态难挖掘三元-中心损失的行人重识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115805A CN112115805A (zh) | 2020-12-22 |
CN112115805B true CN112115805B (zh) | 2024-06-11 |
Family
ID=73805523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010877730.5A Active CN112115805B (zh) | 2020-08-27 | 2020-08-27 | 带双模态难挖掘三元-中心损失的行人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115805B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569639B (zh) * | 2021-06-25 | 2023-07-25 | 湖南大学 | 一种基于样本中心损失函数的跨模态行人重识别方法 |
CN113408472B (zh) * | 2021-07-06 | 2023-09-26 | 京东科技信息技术有限公司 | 目标重识别模型的训练方法、目标重识别方法及装置 |
CN113723236B (zh) * | 2021-08-17 | 2023-02-28 | 广东工业大学 | 一种结合局部阈值二值化图像的跨模态行人重识别方法 |
CN113989851B (zh) * | 2021-11-10 | 2023-04-07 | 合肥工业大学 | 一种基于异构融合图卷积网络的跨模态行人重识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635695A (zh) * | 2018-11-28 | 2019-04-16 | 西安理工大学 | 基于三元组卷积神经网络的行人再识别方法 |
CN110728263A (zh) * | 2019-10-24 | 2020-01-24 | 中国石油大学(华东) | 一种基于距离选择的强判别特征学习的行人重识别方法 |
WO2020098158A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 行人重识别方法、装置及计算机可读存储介质 |
CN111325115A (zh) * | 2020-02-05 | 2020-06-23 | 山东师范大学 | 带有三重约束损失的对抗跨模态行人重识别方法和系统 |
-
2020
- 2020-08-27 CN CN202010877730.5A patent/CN112115805B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020098158A1 (zh) * | 2018-11-14 | 2020-05-22 | 平安科技(深圳)有限公司 | 行人重识别方法、装置及计算机可读存储介质 |
CN109635695A (zh) * | 2018-11-28 | 2019-04-16 | 西安理工大学 | 基于三元组卷积神经网络的行人再识别方法 |
CN110728263A (zh) * | 2019-10-24 | 2020-01-24 | 中国石油大学(华东) | 一种基于距离选择的强判别特征学习的行人重识别方法 |
CN111325115A (zh) * | 2020-02-05 | 2020-06-23 | 山东师范大学 | 带有三重约束损失的对抗跨模态行人重识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112115805A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
Yang et al. | Where is my mirror? | |
CN112115805B (zh) | 带双模态难挖掘三元-中心损失的行人重识别方法及系统 | |
JP7058669B2 (ja) | 車両外観特徴識別及び車両検索方法、装置、記憶媒体、電子デバイス | |
Cao et al. | Graph-based discriminative learning for location recognition | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
US10558844B2 (en) | Lightweight 3D vision camera with intelligent segmentation engine for machine vision and auto identification | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
Lee et al. | Place recognition using straight lines for vision-based SLAM | |
CN109871821B (zh) | 自适应网络的行人重识别方法、装置、设备及存储介质 | |
CN110765860A (zh) | 摔倒判定方法、装置、计算机设备及存储介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
Peng et al. | Model and context‐driven building extraction in dense urban aerial images | |
US12073567B2 (en) | Analysing objects in a set of frames | |
Son et al. | A multi-vision sensor-based fast localization system with image matching for challenging outdoor environments | |
Fond et al. | Facade proposals for urban augmented reality | |
Wang et al. | Combining semantic scene priors and haze removal for single image depth estimation | |
Buenaposada et al. | Improving multi-class Boosting-based object detection | |
CN115984093A (zh) | 基于红外图像的深度估计方法、电子设备以及存储介质 | |
CN115049833A (zh) | 一种基于局部特征增强和相似性度量的点云部件分割方法 | |
CN111368865B (zh) | 遥感影像储油罐检测方法、装置、可读存储介质及设备 | |
CN118115947A (zh) | 基于随机颜色转换和多尺度特征融合的跨模态行人重识别方法 | |
CN116994332A (zh) | 基于轮廓图引导的跨模态行人重识别方法及系统 | |
Fanfani et al. | Addressing Domain Shift in Pedestrian Detection from Thermal Cameras without Fine-Tuning or Transfer Learning | |
CN115841605A (zh) | 目标检测网络训练与目标检测方法、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |