CN114998925B - 一种面向孪生噪声标签的鲁棒跨模态行人重识别方法 - Google Patents
一种面向孪生噪声标签的鲁棒跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN114998925B CN114998925B CN202210431917.1A CN202210431917A CN114998925B CN 114998925 B CN114998925 B CN 114998925B CN 202210431917 A CN202210431917 A CN 202210431917A CN 114998925 B CN114998925 B CN 114998925B
- Authority
- CN
- China
- Prior art keywords
- image data
- triples
- pedestrian
- mode
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013528 artificial neural network Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 38
- 239000000203 mixture Substances 0.000 claims abstract description 23
- 230000009977 dual effect Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 21
- 238000012360 testing method Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003446 memory effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向孪生噪声标签的鲁棒跨模态行人重识别方法,包括以下步骤:S1、采集行人的图像数据,将其输入第一神经网络进行预热,得到每个图像数据的损失值;S2、基于每个图像数据的损失值,通过高斯混合模型建模得到每个图像数据的置信度;S3、依据每个图像数据的置信度,将所有图像数据划分成若干三元组,并修改三元组的关联得到修正后三元组的关联;S4、基于每个图像数据的置信度和修正后三元组的关联,通过双重鲁棒网络训练方法进行第一神经网络的训练;S5、重复S2~S4直至第一神经网络收敛,得到鲁棒的跨模态行人重识别模型,根据训练好的第一神经网络完成行人识别。
Description
技术领域
本发明属于行人识别技术领域,具体涉及一种面向孪生噪声标签的鲁棒跨模态行人重识别方法。
背景技术
大多数跨模态行人重识别方法都是基于深度学习的,旨在利用神经网络学习到一个公共空间,在这个空间内,同一行人的不同模态照片(即正样本)彼此靠近,不同行人的照片(即负样本)彼此远离。比如,专利基于对比相关的跨模态行人重识别方法中设计了一种基于对比相关的跨模态行人重识别方法。该方法主要包括两部分,即保持空间信息的双路网络和对比相关网络。前者用来提取两个模态独特的信息,并且保持空间特征。基于此,后者进一步考虑两个输入的行人图片的语义差异,进而判断跨模态的行人图片是否属于同一个行人;在文献YE M,WANG Z,LAN X,et al.Visible thermal person re-identificationvia dual-constrained top-ranking[C]中,提出了一种双向排序损失,将不同模态下属于同一个体的样本图像距离拉近,同时融合传统的交叉熵损失,从而达到将不同模态特征进行融合的目的;在文献ZHAO Y B,LIN J W,XUAN Q,etal.HPILN:a feature learningframework for cross-modality person re-identification[J].IET ImageProcessing,2020,13(14):2897-2904.中,设计了一种难五联损失函数,有效地缩小了模态间的语义鸿沟和模态内不同行人的变化。在文献Ye M,Ruan W,Du B,et al.ChannelAugmented Joint Learning for Visible-Infrared Recognition[C]//ICCV.2021:13567-13576中,设计了一种特殊的数据增广方式和增强的平方损失函数,最终大幅提高了跨模态重识别模型的准确性。在得到该神经网络模型后,输入任一模态的任一行人照片,即可根据相似性的排序检索得到同一行人的另一模态照片。
发明内容
针对现有技术中的上述不足,本发明提供的一种面向孪生噪声标签的鲁棒跨模态行人重识别方法解决了不能消除跨模态行人重识别训练数据中存在的噪声带来的消极影响的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种面向孪生噪声标签的鲁棒跨模态行人重识别方法,包括以下步骤:
S1、采集行人的图像数据,将其输入第一神经网络进行预热,得到每个图像数据的损失值;
S2、基于每个图像数据的损失值,通过高斯混合模型建模得到每个图像数据的置信度;
S3、依据每个图像数据的置信度,将所有图像数据划分成若干三元组,并修正三元组的关联得到修正后三元组的关联;
S4、基于每个图像数据的置信度和修正后三元组的关联,通过双重鲁棒网络训练方法进行第一神经网络的训练;
S5、重复S2~S4直至第一神经网络收敛,得到鲁棒的跨模态行人重识别模型,根据训练好的第一神经网络完成行人识别。
进一步地:所述步骤S1中,图像数据包括可见光图像数据和红外光图像数据;
可见光图像数据具体为标签含噪的可见光输入数据红外光图像数据具体为标签含噪的红外光输入数据/>其中,x为行人图像样本,y为其对应的标签,i为图像数据对应的索引,v为可见光模态,r为红外模态,Nv和Nr分别为相应图像数据的数据量;/>为红外模态行人图像样本的图像数据,/>为红外模态行人图像样本的标签,/>为可见光模态行人图像样本的图像数据,/>为可见光模态行人图像样本的标签;
所述步骤S1包括以下分步骤:
S11、采集行人的可见光图像数据和红外光图像数据,将其输入第一神经网络进行初始训练,得到每个图像数据的交叉熵损失值;
S12、通过每个图像数据交叉熵损失值进行训练得到每个图像数据的损失值。
进一步地:所述步骤S11中,第一神经网络采用交叉熵损失函数进行初始训练,所述交叉熵损失函数的表达式具体为:
式中,为图像数据的交叉熵损失值,P(·)为第一概率函数,模态t∈{v,r},Ft为模态t对应的特征提取网络,Ct为模态t对应的分类器,/>为模态t的行人图像样本的图像数据,/>为模态t的行人图像样本的标签;
所述步骤S12中,训练得到图像数据的损失值的表达式具体为:
式中,模态t∈{v,r},Nt为t模态对应图像数据的数据量。
进一步地:所述步骤S2包括以下分步骤:
S21、通过高斯混合模型将每个图像数据的损失值进行拟合,得到每个图像数据的属于高斯混合模型中成分的后验概率;
S22、将每个图像数据的属于最小成分的后验概率作为其对应的置信度。
进一步地:所述步骤S21中,计算每个图像数据的属于高斯混合模型中成分的后验概率的表达式具体为:
式中,γδ为混合系数,K为高斯混合模型中成分的总数,p(·)为第二概率函数,为高斯混合模型中第δ个成分的概率密度函数;
所述步骤S22中,图像数据的置信度wi的表达式具体为:
式中,i为图像数据对应的索引,h为高斯混合模型中均值最小的成分。
进一步地:所述步骤S3包括以下分步骤:
S31、根据每个图像数据的置信度将样本对划分为若干三元组,并确定三元组的组合类型;
S32、根据三元组的组合类型修正三元组的关联,得到修正后三元组的关联。
进一步地:所述步骤S31中,三元组具体为其中,下标l、j和k均为图像数据对应的索引序号,模态t∈{v,r},/>为跨模态的正样本对,/>为跨模态的负样本对;
所述三元组的组合类型包括真阳性-真阴性组合、真阳性-假阴性组合、假阳性-真阴性组合和假阳性-假阴性组合;确定所述三元组的组合类型的方法具体为:
设置阈值η,根据三元组中图像样本对应的置信度wl、wj和wk与阈值η的大小确定三元组的组合类型;
当wl>η,wj>η,wk>η时,三元组的组合类型为真阳性-真阴性组合;
当wl>η,wj>η,wk≤η时,三元组的组合类型为真阳性-假阴性组合;
当wl>η,wj≤η,wk>η时,三元组的组合类型为假阳性-真阴性组合;
当wl>η,wj≤η,wk≤η时,三元组的组合类型为假阳性-假阴性组合。进一步地:所述步骤S32中,三元组的关联具体为跨模态的正样本对关联和负样本对的关联/>修正后三元组的关联具体为正样本对的修正后关联/>和负样本对的修正后关联/>
所述步骤S32具体为:
根据修正的三元组的组合类型修正所述三元组的关联;
当所述三元组的组合类型为真阳性-真阴性组合时,将所述三元组的关联修正为阳性-阴性组合,则修正后三元组的关联
当所述三元组的组合类型为真阳性-假阴性组合时,通过可见光模态和红外模态的分类器的判断跨模态的负样本对是否属于负样本;
若是,则将所述三元组的关联修正为阳性-阴性,则修正后三元组的关联若否,则将所述三元组的关联修正为阳性-阳性组合,则修正后三元组的关联/>
当所述三元组的组合类型为假阳性-真阴性组合时,将所述三元组的关联修正为阴性-阴性组合,则修正后三元组的关联
当所述三元组的组合类型为假阳性-假阴性组合时,通过可见光模态和红外模态的分类器的判断跨模态的负样本对是否属于负样本;
若是,则将所述三元组的关联修正为阴性-阴性,则修正后三元组的关联若否,则将所述三元组的关联修正为阴性-阳性组合,则修正后三元组的关联/>
其中,所述可见光模态和红外模态的分类器的表达式具体为:
式中,上标t1为图像样本xl对应的模态,上标t3为图像样本xk对应的模态,F(·)为模态对应的特征提取网络,C(·)为模态对应的分类器;
当时,则/>和/>属于负样本;当/>时,则/>和/>不属于负样本。
上述进一步方案的有益效果为:通过处理图像样本的含噪标签及其所导致的错误关联,能很好地消除噪声样本的影响,提高建立模型的鲁棒性。
进一步地:所述步骤S4中,双重鲁棒网络训练方法具体为:
通过噪声标签的损失函数和和对噪声关联鲁棒的损失函数优化第一神经网络;
其中,所述噪声标签的损失函数的表达式具体为:
所述对噪声关联鲁棒的损失函数的表达式具体为:
式中,m为损失函数的边界值,为异或运算,⊙为同或运算,dlj和dlk分别为正样本对/>和负样本对/>在第一神经网络学到的联合子空间中的距离,dlj和dlk的表达式具体为:
式中,为模态t1的索引序号l行人图像样本的图像数据,/>为模态t2的索引序号j行人图像样本的图像数据,/>为模态t1的索引序号k行人图像样本的图像数据。
进一步地:所述步骤S5具体为:
重复S2~S4直至第一神经网络收敛,得到鲁棒的跨模态行人重识别模型,将需要识别的图像输入鲁棒的跨模态行人重识别模型,生成所述图像对应的数据表示,根据所述数据表查询设置的数据库中相似性最高的数据,得到行人识别结果,完成行人识别。
本发明的有益效果为:本发明通过模型预热、计算图像数据置信度、样本对划分、关联修正和双重鲁棒网络训练方法得到鲁棒的跨模态行人重识别模型,提高了模型的鲁棒性,同时兼顾行人重识别的有效性,根据鲁棒的跨模态行人重识别模型跨模态行人重识别可以消除跨模态行人重识别训练数据中存在的噪声标注以及其进一步导致的孪生噪声带来的消极影响。
附图说明
图1为本发明的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,
在本发明的一个实施例中,一种面向孪生噪声标签的鲁棒跨模态行人重识别方法,包括以下步骤:
S1、采集行人的图像数据,将其输入第一神经网络进行预热,得到每个图像数据的损失值;
S2、基于每个图像数据的损失值,通过高斯混合模型建模得到每个图像数据的置信度;
S3、依据每个图像数据的置信度,将所有图像数据划分成若干三元组,并修正三元组的关联得到修正后三元组的关联;
S4、基于每个图像数据的置信度和修正后三元组的关联,通过双重鲁棒网络进行第一神经网络的训练;
S5、重复S2~S4直至第一神经网络收敛,得到鲁棒的跨模态行人重识别模型,根据训练好的第一神经网络完成行人识别。
所述步骤S1中,图像数据包括可见光图像数据和红外光图像数据;
可见光图像数据具体为标签含噪的可见光输入数据红外光图像数据具体为标签含噪的红外光输入数据/>其中,x为行人图像样本,y为其对应的标签,i为图像数据对应的索引,v为可见光模态,r为红外模态,Nv和Nr分别为相应图像数据的数据量;/>为红外模态行人图像样本的图像数据,/>为红外模态行人图像样本的标签,/>为可见光模态行人图像样本的图像数据,/>为可见光模态行人图像样本的标签;
在本实施例中,将不同模态下同一行人(即相同标签)的图像数据作为正样本对,不同行人(即不同标签)的图像数据作为负样本对。
所述步骤S1包括以下分步骤:
S11、采集行人的可见光图像数据和红外光图像数据,将其输入第一神经网络进行初始训练,得到每个图像数据的交叉熵损失值;
S12、通过每个图像数据交叉熵损失值进行训练得到每个图像数据的损失值。
所述步骤S11中,第一神经网络采用交叉熵损失函数进行初始训练,所述交叉熵损失函数的表达式具体为:
式中,为图像数据的交叉熵损失值,P(·)为第一概率函数,模态t∈{v,r},Ft为模态t对应的特征提取网络,Ct为模态t对应的分类器,/>为模态t的行人图像样本的图像数据,/>为模态t的行人图像样本的标签;
在本实施例中,第一神经网络进行初始训练是基于神经网络的记忆效应,即神经网络在拟合复杂的噪声样本之前倾向于优先拟合简单的干净数据样本,根据神经网络的记忆效应,在第一神经网络训练的初始第一个epoch利用进行模型训练,得到每个图像数据的损失值。
第一神经网络包含特征提取网络和分类器,特征提取器具体为ResNet50网络,可以将行人的可见光和红外光图片数据投影到一个2048维的公共空间中,得到数据的表示。分类器由一层全连接网络构成,用于将数据表示投影到和设置的数据库中类别数一致的空间中。
所述步骤S12中,训练得到图像数据的损失值的表达式具体为:
式中,模态t∈{v,r},Nt为t模态对应图像数据的数据量。
所述步骤S2包括以下分步骤:
S21、通过高斯混合模型将每个图像数据的损失值进行拟合,得到每个图像数据的属于高斯混合模型中成分的后验概率;
S22、将每个图像数据的属于最小成分的后验概率作为其对应的置信度。
所述步骤S21中,计算每个图像数据的属于高斯混合模型中成分的后验概率的表达式具体为:
式中,γδ为混合系数,K为高斯混合模型中成分的总数,p(·)为第二概率函数,为高斯混合模型中第δ个成分的概率密度函数;
所述步骤S22中,图像数据的置信度wi的表达式具体为:
式中,i为图像数据对应的索引,h为高斯混合模型中均值最小的成分。
所述步骤S3包括以下分步骤:
S31、根据每个图像数据的置信度将样本对划分为若干三元组,并确定三元组的组合类型;
S32、根据三元组的组合类型修正三元组的关联,得到修正后三元组的关联。
所述步骤S31中,三元组具体为其中,下标l、j和k均为图像数据对应的索引序号,模态t∈{v,r},/>为跨模态的正样本对,/>为跨模态的负样本对;
所述三元组的组合类型包括真阳性-真阴性组合、真阳性-假阴性组合、假阳性-真阴性组合和假阳性-假阴性组合;确定所述三元组的组合类型的方法具体为:
设置阈值η,根据三元组中图像样本对应的置信度wl、wj和wk与阈值η的大小确定三元组的组合类型;
当wl>η,wj>η,wk>η时,三元组的组合类型为真阳性-真阴性组合;
当wl>η,wj>η,wk≤η时,三元组的组合类型为真阳性-假阴性组合;
当wl>η,wj≤η,wk>η时,三元组的组合类型为假阳性-真阴性组合;
当wl>η,wj≤η,wk≤η时,三元组的组合类型为假阳性-假阴性组合。
所述步骤S32中,三元组的关联具体为跨模态的正样本对关联和负样本对的关联/>修正后三元组的关联具体为正样本对的修正后关联/>和负样本对的修正后关联
在本实施例中,三元组的关联用于表示正样本对或负样本对,当关联值为0时,则所述样本对为负样本对;当关联值为1时,则所述样本对为正样本对。
所述步骤S32具体为:
根据修正的三元组的组合类型修正所述三元组的关联;
当所述三元组的组合类型为真阳性-真阴性组合时,将所述三元组的关联修正为阳性-阴性组合,则修正后三元组的关联
当所述三元组的组合类型为真阳性-假阴性组合时,通过可见光模态和红外模态的分类器的判断跨模态的负样本对是否属于负样本;
若是,则将所述三元组的关联修正为阳性-阴性,则修正后三元组的关联若否,则将所述三元组的关联修正为阳性-阳性组合,则修正后三元组的关联/>
当所述三元组的组合类型为假阳性-真阴性组合时,将所述三元组的关联修正为阴性-阴性组合,则修正后三元组的关联
当所述三元组的组合类型为假阳性-假阴性组合时,通过可见光模态和红外模态的分类器的判断跨模态的负样本对是否属于负样本;
若是,则将所述三元组的关联修正为阴性-阴性,则修正后三元组的关联若否,则将所述三元组的关联修正为阴性-阳性组合,则修正后三元组的关联/>
其中,所述可见光模态和红外模态的分类器的表达式具体为:
式中,上标t1为图像样本xl对应的模态,上标t3为图像样本xk对应的模态,F(·)为模态对应的特征提取网络,C(·)为模态对应的分类器;
当时,则/>和/>属于负样本;当/>时,则/>和/>不属于负样本。
所述步骤S4中,双重鲁棒网络训练方法具体为:
通过噪声标签的损失函数和和对噪声关联鲁棒的损失函数优化第一神经网络;
其中,所述噪声标签的损失函数的表达式具体为:
所述对噪声关联鲁棒的损失函数的表达式具体为:
式中,m为损失函数的边界值,为异或运算,⊙为同或运算,dlj和dlk分别为正样本对/>和负样本对/>在第一神经网络学到的联合子空间中的距离,dlj和dlk的表达式具体为:
式中,为模态t1的索引序号l行人图像样本的图像数据,/>为模态t2的索引序号j行人图像样本的图像数据,/>为模态t1的索引序号k行人图像样本的图像数据。
m为损失函数的边界值,旨在使正样本对距离dlj和负样本对/>距离dlk之间的差距逼近m。
所述步骤S5具体为:
重复S2~S4直至第一神经网络收敛,得到鲁棒的跨模态行人重识别模型,将需要识别的图像输入鲁棒的跨模态行人重识别模型,生成所述图像对应的数据表示,根据第一神经网络所学得数据表示查询数据库中相似性最高的数据的表示,得到行人识别结果,完成行人识别。
本发明的方法实施过程具体为:将标签含噪的可见光输入数据和标签含噪的红外光输入数据输入第一神经网络进行预热,得到每个输入数据的损失值;通过高斯混合模型对第一神经网络预热后得到的所有输入数据的损失值进行拟合,得到每个输入数据的置信度;将所有输入数据根据置信度划分成若干三元组,并修改三元组的关联得到修正后三元组的关联,以此改正三元组中的错误关联,基于每个图像数据的置信度和修正后三元组的关联,通过双重鲁棒网络进行第一神经网络的训练,训练第一神经网络至收敛,最终训练得到鲁棒的跨模态行人重识别模型,将需要识别的图像输入鲁棒的跨模态行人重识别模型,得到行人识别结果,完成行人识别。
实施例2:
本实施例针对验证行人识别的有效性和鲁棒性的第一实验。
在本实施例中,使用SYSU-MM01数据集作为行人的图像数据进行第一神经网络的训练。该数据集是一个流行的跨模态行人重识别数据集,其中包括来自4个可见光摄像机和2个红外摄像机的491个行人。训练集包含19,659幅可见图像和395人的12,792幅红外图像,测试集包含96人。有两种测试模式,即全搜索模式和室内搜索模式。对于全搜索模式,将使用所有图像。对于室内搜索模式,仅使用来自第一、第二、第三和第六个摄像机的室内图像。对于这两种模式,均采用单张和多张设置,其中随机选择1或10个人的图像以形成数据库。两种模式都将红外图像用作查询,将可见图像用作数据库。为了测试本方法对噪声的鲁棒性,随机打乱一部分训练数据的标签,比例为0%(无噪声),20%(20%噪声),50%(50%噪声),并采用采用R@1,R@10,R@20作为衡量指标。R@K定义为检索数据中前K个样本中返回正确样本的百分比,值越大说明检索准确度越高,效果越好。试验结果如下:
从表格中的试验结果可以看到,针对不同比例的噪声,本发明的方法在两种测试模式下相比其他方法在三个指标上均有比较大的提升,尽管在完全没噪声时,本发明的方法也能取得很不错的效果,意味着在实际应用中,即使不确定噪声比例情况下,本发明的方法也能很好地消除噪声样本的影响,提高了模型的鲁棒性,同时兼顾行人重识别的有效性。
实施例3:
本实施例针对验证行人识别的有效性和鲁棒性的第二实验。
在本实施例中,使用RegDB数据集作为行人的图像数据进行第一神经网络的训练。该数据集是一个流行的跨模态行人重识别数据集,共有412个行人,每个人均有10个可见光图像和相应的10个热力图像,因为这些图像是在人们移动时拍摄的,所以每个人的10张图像在身体姿势、捕捉距离和光照条件上都存在差异。然而,在同一人的10幅图像中,相机的天气状况、视角和拍摄视角(前后视角)都是相同的。因此,数据库包含4120个可见光图像和4120个对应的热力图像。为了测试本发明的方法对噪声的鲁棒性,随机打乱一部分训练数据的标签,比例为0%(无噪声),20%(20%噪声),50%(50%噪声)。试验结果如下:
从表格中的试验结果可以看到,针对不同比例的噪声,本发明的方法在两种测试模式下相比其他方法在三个指标上均有比较大的提升;在完全没噪声时,本方法的效果也能取得接近目前专门为理想无噪声环境设计的方法,意味着在实际应用中,即使不确定噪声比例情况下,本发明的方法也能很好地消除噪声样本的影响,提高了模型的鲁棒性,同时兼顾行人重识别的有效性。
本发明的有益效果为:本发明通过模型预热、计算图像数据置信度、样本对划分、关联修正和双重鲁棒网络训练方法得到鲁棒的跨模态行人重识别模型,提高了模型的鲁棒性,同时兼顾行人重识别的有效性,根据鲁棒的跨模态行人重识别模型跨模态行人重识别可以消除跨模态行人重识别训练数据中存在的噪声标注以及其进一步导致的孪生噪声带来的消极影响。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
Claims (9)
1.一种面向孪生噪声标签的鲁棒跨模态行人重识别方法,其特征在于,包括以下步骤:
S1、采集行人的图像数据,将其输入第一神经网络进行预热,得到每个图像数据的损失值;
S2、基于每个图像数据的损失值,通过高斯混合模型建模得到每个图像数据的置信度;
S3、依据每个图像数据的置信度,将所有图像数据划分成若干三元组,并修正三元组的关联得到修正后三元组的关联;
S4、基于每个图像数据的置信度和修正后三元组的关联,通过双重鲁棒网络训练方法进行第一神经网络的训练;
S5、重复S2~S4直至第一神经网络收敛,得到鲁棒的跨模态行人重识别模型,根据训练好的第一神经网络完成行人识别;
所述步骤S4中,双重鲁棒网络训练方法具体为:
通过噪声标签的损失函数和和对噪声关联鲁棒的损失函数优化第一神经网络;
其中,所述噪声标签的损失函数的表达式具体为:
式中,wi为图像数据的置信度,P(·)为第一概率函数,为模态t的行人图像样本的标签,Ct(·)为模态t对应的分类器,Ft(·)为模态t对应的特征提取网络,/>为模态t的行人图像样本的图像数据;
所述对噪声关联鲁棒的损失函数的表达式具体为:
式中,为正样本对的修正后关联,/>为负样本对的修正后关联,m为损失函数的边界值,/>为异或运算,⊙为同或运算,dlj和dlk分别为正样本对/>和负样本对在第一神经网络学到的联合子空间中的距离,dlj和dlk的表达式具体为:
式中,上标t1为图像样本xl对应的模态,上标t3为图像样本xk对应的模态,F(·)为模态对应的特征提取网络,为模态t1的索引序号l行人图像样本的图像数据,/>为模态t2的索引序号j行人图像样本的图像数据,/>为模态t1的索引序号k行人图像样本的图像数据。
2.根据权利要求1所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法,其特征在于,所述步骤S1中,图像数据包括可见光图像数据和红外光图像数据;
可见光图像数据具体为标签含噪的可见光输入数据红外光图像数据具体为标签含噪的红外光输入数据/>其中,x为行人图像样本,y为其对应的标签,i为图像数据对应的索引,v为可见光模态,r为红外模态,Nv和Nr分别为相应图像数据的数据量;/>为红外模态行人图像样本的图像数据,/>为红外模态行人图像样本的标签,/>为可见光模态行人图像样本的图像数据,/>为可见光模态行人图像样本的标签;
所述步骤S1包括以下分步骤:
S11、采集行人的可见光图像数据和红外光图像数据,将其输入第一神经网络进行初始训练,得到每个图像数据的交叉熵损失值;
S12、通过每个图像数据交叉熵损失值进行训练得到每个图像数据的损失值。
3.根据权利要求2所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法,其特征在于,所述步骤S11中,第一神经网络采用交叉熵损失函数进行初始训练,所述交叉熵损失函数的表达式具体为:
式中,为图像数据的交叉熵损失值,P(·)为第一概率函数,模态t∈{v,r},Ft(·)为模态t对应的特征提取网络,Ct(·)为模态t对应的分类器,/>为模态t的行人图像样本的图像数据,/>为模态t的行人图像样本的标签;
所述步骤S12中,训练得到图像数据的损失值的表达式具体为:
式中,模态t∈{v,r},Nt为t模态对应图像数据的数据量。
4.根据权利要求3所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法,其特征在于,所述步骤S2包括以下分步骤:
S21、通过高斯混合模型将每个图像数据的损失值进行拟合,得到每个图像数据的属于高斯混合模型中成分的后验概率;
S22、将每个图像数据的属于最小成分的后验概率作为其对应的置信度。
5.根据权利要求4所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法,其特征在于,所述步骤S21中,计算每个图像数据的属于高斯混合模型中成分的后验概率的表达式具体为:
式中,γδ为混合系数,K为高斯混合模型中成分的总数,p(·)为第二概率函数,为高斯混合模型中第δ个成分的概率密度函数;
所述步骤S22中,图像数据的置信度wi的表达式具体为:
式中,i为图像数据对应的索引,h为高斯混合模型中均值最小的成分。
6.根据权利要求5所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法,其特征在于,所述步骤S3包括以下分步骤:
S31、根据每个图像数据的置信度将样本对划分为若干三元组,并确定三元组的组合类型;
S32、根据三元组的组合类型修正三元组的关联,得到修正后三元组的关联。
7.根据权利要求6所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法,其特征在于,所述步骤S31中,三元组具体为其中,下标l、j和k均为图像数据对应的索引序号,模态t∈{v,r},/>为跨模态的正样本对,/>为跨模态的负样本对;
所述三元组的组合类型包括真阳性-真阴性组合、真阳性-假阴性组合、假阳性-真阴性组合和假阳性-假阴性组合;确定所述三元组的组合类型的方法具体为:
设置阈值η,根据三元组中图像样本对应的置信度wl、wj和wk与阈值η的大小确定三元组的组合类型;
当wl>η,wj>η,wk>η时,三元组的组合类型为真阳性-真阴性组合;
当wl>η,wk>η,wk≤η时,三元组的组合类型为真阳性-假阴性组合;
当wl>η,wj≤η,wk>η时,三元组的组合类型为假阳性-真阴性组合;
当wl>η,wj≤η,wk≤η时,三元组的组合类型为假阳性-假阴性组合。
8.根据权利要求7所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法,其特征在于,所述步骤S32中,三元组的关联具体为跨模态的正样本对关联和负样本对的关联/>修正后三元组的关联具体为正样本对的修正后关联/>和负样本对的修正后关联/>
所述步骤S32具体为:
根据修正的三元组的组合类型修正所述三元组的关联;
当所述三元组的组合类型为真阳性-真阴性组合时,将所述三元组的关联修正为阳性-阴性组合,则修正后三元组的关联
当所述三元组的组合类型为真阳性-假阴性组合时,通过可见光模态和红外模态的分类器的判断跨模态的负样本对是否属于负样本;
若是,则将所述三元组的关联修正为阳性-阴性,则修正后三元组的关联若否,则将所述三元组的关联修正为阳性-阳性组合,则修正后三元组的关联/>
当所述三元组的组合类型为假阳性-真阴性组合时,将所述三元组的关联修正为阴性-阴性组合,则修正后三元组的关联
当所述三元组的组合类型为假阳性-假阴性组合时,通过可见光模态和红外模态的分类器的判断跨模态的负样本对是否属于负样本;
若是,则将所述三元组的关联修正为阴性-阴性,则修正后三元组的关联若否,则将所述三元组的关联修正为阴性-阳性组合,则修正后三元组的关联/>
其中,所述可见光模态和红外模态的分类器的表达式具体为:
式中,上标t1为图像样本xl对应的模态,上标t3为图像样本xk对应的模态,F(·)为模态对应的特征提取网络,C(·)为模态对应的分类器;
当时,则/>和/>属于负样本;当/>时,则/>和/>不属于负样本。
9.根据权利要求1所述的面向孪生噪声标签的鲁棒跨模态行人重识别方法,其特征在于,所述步骤S5具体为:
重复S2~S4直至第一神经网络收敛,得到鲁棒的跨模态行人重识别模型,将需要识别的图像输入鲁棒的跨模态行人重识别模型,生成所述图像对应的数据表示,根据第一神经网络所学得数据表示查询数据库中相似性最高的数据的表示,得到行人识别结果,完成行人识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210431917.1A CN114998925B (zh) | 2022-04-22 | 2022-04-22 | 一种面向孪生噪声标签的鲁棒跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210431917.1A CN114998925B (zh) | 2022-04-22 | 2022-04-22 | 一种面向孪生噪声标签的鲁棒跨模态行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114998925A CN114998925A (zh) | 2022-09-02 |
CN114998925B true CN114998925B (zh) | 2024-04-02 |
Family
ID=83024649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210431917.1A Active CN114998925B (zh) | 2022-04-22 | 2022-04-22 | 一种面向孪生噪声标签的鲁棒跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998925B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929679A (zh) * | 2019-12-05 | 2020-03-27 | 杭州电子科技大学 | 一种基于gan的无监督自适应行人重识别方法 |
CN112232422A (zh) * | 2020-10-20 | 2021-01-15 | 北京大学 | 一种目标行人的重识别方法、装置、电子设备和存储介质 |
CN112766218A (zh) * | 2021-01-30 | 2021-05-07 | 上海工程技术大学 | 基于非对称联合教学网络的跨域行人重识别方法和装置 |
CN112906605A (zh) * | 2021-03-05 | 2021-06-04 | 南京航空航天大学 | 一种高准确率的跨模态行人重识别方法 |
CN113408492A (zh) * | 2021-07-23 | 2021-09-17 | 四川大学 | 一种基于全局-局部特征动态对齐的行人重识别方法 |
CN114022904A (zh) * | 2021-11-05 | 2022-02-08 | 湖南大学 | 一种基于两阶段的噪声鲁棒行人重识别方法 |
WO2022027986A1 (zh) * | 2020-08-04 | 2022-02-10 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN114067233A (zh) * | 2021-09-26 | 2022-02-18 | 四川大学 | 一种跨模态匹配方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238300B2 (en) * | 2019-09-10 | 2022-02-01 | Microsoft Technology Licensing, Llc | Depth-based object re-identification |
-
2022
- 2022-04-22 CN CN202210431917.1A patent/CN114998925B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929679A (zh) * | 2019-12-05 | 2020-03-27 | 杭州电子科技大学 | 一种基于gan的无监督自适应行人重识别方法 |
WO2022027986A1 (zh) * | 2020-08-04 | 2022-02-10 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN112232422A (zh) * | 2020-10-20 | 2021-01-15 | 北京大学 | 一种目标行人的重识别方法、装置、电子设备和存储介质 |
CN112766218A (zh) * | 2021-01-30 | 2021-05-07 | 上海工程技术大学 | 基于非对称联合教学网络的跨域行人重识别方法和装置 |
CN112906605A (zh) * | 2021-03-05 | 2021-06-04 | 南京航空航天大学 | 一种高准确率的跨模态行人重识别方法 |
CN113408492A (zh) * | 2021-07-23 | 2021-09-17 | 四川大学 | 一种基于全局-局部特征动态对齐的行人重识别方法 |
CN114067233A (zh) * | 2021-09-26 | 2022-02-18 | 四川大学 | 一种跨模态匹配方法及系统 |
CN114022904A (zh) * | 2021-11-05 | 2022-02-08 | 湖南大学 | 一种基于两阶段的噪声鲁棒行人重识别方法 |
Non-Patent Citations (4)
Title |
---|
Learning With Twin Noisy Labels for Visible-Infrared Person Re-Identification;Mouxing Yang等;《2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20220927;全文 * |
Visible-Infrared Person Re-Identification via Homogeneous Augmented Tri-Modal Learning;Mang Ye等;《Visible-Infrared Person Re-Identification via Homogeneous Augmented Tri-Modal Learning》;20200611;全文 * |
基于改进困难三元组损失的跨模态行人重识别框架;李灏;唐敏;林建武;赵云波;;计算机科学;20201015(10);全文 * |
跨模态行人重识别研究与展望;陈丹;李永忠;于沛泽;邵长斌;;计算机系统应用;20201013(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114998925A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446898B (zh) | 一种基于迁移学习和特征融合的行人重识别方法 | |
CN108537136B (zh) | 基于姿态归一化图像生成的行人重识别方法 | |
CN107220611B (zh) | 一种基于深度神经网络的空时特征提取方法 | |
CN110941594B (zh) | 一种视频文件的拆分方法、装置、电子设备及存储介质 | |
CN109359541A (zh) | 一种基于深度迁移学习的素描人脸识别方法 | |
AU2010322173B2 (en) | Automatically mining person models of celebrities for visual search applications | |
CN109558821B (zh) | 一种视频中特定人物的服装件数计算方法 | |
CN109190446A (zh) | 基于三元组聚焦损失函数的行人再识别方法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN106529414A (zh) | 一种通过图像比对实现结果认证的方法 | |
CN111797696B (zh) | 一种现场自主学习的人脸识别系统和方法 | |
CN104462550B (zh) | 基于相似性和不相似性融合排序优化的行人重识别方法 | |
CN104504362A (zh) | 基于卷积神经网络的人脸检测方法 | |
CN110852152B (zh) | 一种基于数据增强的深度哈希行人重识别方法 | |
CN110443174B (zh) | 一种基于解耦自适应判别性特征学习的行人重识别方法 | |
CN112434654B (zh) | 一种基于对称卷积神经网络的跨模态行人重识别方法 | |
CN111738048A (zh) | 一种行人再识别的方法 | |
CN115050048B (zh) | 一种基于局部细节特征的跨模态行人重识别方法 | |
Wang et al. | Body part-level domain alignment for domain-adaptive person re-identification with transformer framework | |
CN110852292A (zh) | 一种基于跨模态多任务深度度量学习的草图人脸识别方法 | |
CN114998925B (zh) | 一种面向孪生噪声标签的鲁棒跨模态行人重识别方法 | |
CN112836605B (zh) | 一种基于模态增广的近红外与可见光跨模态人脸识别方法 | |
CN111160115B (zh) | 一种基于孪生双流3d卷积神经网络的视频行人再识别方法 | |
CN112418067A (zh) | 一种基于深度学习模型的简便人脸识别在线学习方法 | |
Wu et al. | Person re-identification by ranking ensemble representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |