CN113449676A - 一种基于双路互促进解纠缠学习的行人重识别方法 - Google Patents
一种基于双路互促进解纠缠学习的行人重识别方法 Download PDFInfo
- Publication number
- CN113449676A CN113449676A CN202110792515.XA CN202110792515A CN113449676A CN 113449676 A CN113449676 A CN 113449676A CN 202110792515 A CN202110792515 A CN 202110792515A CN 113449676 A CN113449676 A CN 113449676A
- Authority
- CN
- China
- Prior art keywords
- encoder
- camera
- training
- content
- optimization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012549 training Methods 0.000 claims abstract description 171
- 238000012360 testing method Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 81
- 238000005457 optimization Methods 0.000 claims description 73
- 230000014509 gene expression Effects 0.000 claims description 15
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 12
- 230000000116 mitigating effect Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 102100040160 Rabankyrin-5 Human genes 0.000 description 1
- 101710086049 Rabankyrin-5 Proteins 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于双路互促进解纠缠学习的行人重识别方法,属于计算机视觉领域。该方法包括通过训练流程得到具有提取域不变特征的内容编码器,在测试流程中利用该内容编码器对目标域测试样本中的行人进行重识别。相比于传统的用于行人重识别的方法,本发明的方法简单有效且更具实用价值。在不同的数据集上均表现出了更优异的性能。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于双路互促进解纠缠学习的行人重识别方法。
背景技术
行人重识别是判断跨视角相机拍摄到的行人图像是否为同一行人的技术。该技术是智能监控中的重要构成部分,在追踪罪犯嫌疑人,失踪人口查找等方面有着重要的应用,引起了众多研究者的关注。随着深度学习的快速发展,行人重识别近年来取得了显著的研究进展,并获得了优异的识别性能。然而,这些成绩一般是在同一数据集上进行有监督地训练,并在该数据集上进行测试得到的。如果把这些方法直接部署到现实场景中,识别性能会因训练数据与测试数据之间的域偏移而出现急剧下降。为解决该问题,无监督域自适应的行人重识别方法受到了越来越多的关注和重视。
现有的无监督域自适应的行人再识别方法可粗略地划分成三类:基于聚类伪标签预测的方法,基于额外模型辅助的方法,基于域不变特征提取的方法。基于伪标签预测的方法虽然在数据集上有较高的性能表现,但这一优异性能通常是在参与训练的每一个目标样本都有正样本的情况才取得的。这一潜在的要求,显然与实际应用场景不符。如果将其直接部署到正样本对极少的实际场景中,性能会出现急剧下降。基于额外模型辅助的方法虽然也能获得较为优异的识别性能,但由于需要额外模型的辅助,极大地影响了re-ID模型的识别效率。基于域不变特征提取的方法因未借助伪标签来更新模型,也未受到额外模型的辅助,同时此类算法更容易部署到现实场景中,但在公开的数据集上识别性能相对较低。
综上所述,现有的行人重识别技术存在以下问题:
1、训练方法采用有监督的训练,直接部署到现实场景时,识别性能会因训练数据与测试数据之间的域偏移而出现急剧下降。
2、基于伪标签预测的方法,需要参与训练的每一个目标样本都有正样本,与实际应用场景不符,如果将其直接部署到正样本对极少的实际场景中,性能会出现急剧下降。
3、基于额外模型辅助的方法,需要额外模型的辅助,极大地影响了re-ID模型的识别效率。
4、传统的基于域不变特征提取的方法,在公开的数据集上识别性能相对较低。
发明内容
针对现有技术的不足,本发明提出了一种基于双路互促进解纠缠学习的行人重识别方法,解决上述现有技术中存在的问题。具体地,本发明方法主要由内容编码分支和相机风格编码分支组成。其中,前者提取与行人身份相关的特征,后者提取与相机风格相关的特征。在解纠缠过程中,我们提出通过两个路径之间的对抗学习来达到互惠互利的目的,同时实现行人域不变身份特征与域信息的提取。在此过程中,我们充分利用了图像自带的相机标签信息来辅助域不变特征的学习,而域不变特征的学习通过交叉分类,反过来协助相机风格特征的提取,通过这种合作共赢机制来达到相机信息和判别性特征解纠缠的目的。与传统方法相比,本发明的方法是一种无监督训练,泛化能力会更好;不需要额外模型辅助,不会影响re-ID模型的识别效率;在公开的数据集和现实场景中都有很好的识别效果。
为达上述目的,本发明提供了一种基于双路互促进解纠缠学习的行人重识别方法,包括通过训练流程得到具有提取域不变特征的内容编码器E1、在测试流程中利用该内容编码器E1对目标域测试样本中的行人进行重识别;所述训练流程包括内容编码分支和相机风格编码分支,所述内容编码分支包括内容编码器E1和身份分类器W1,所述相机风格编码分支包括风格编码器E2和相机分类器W2,具体包括以下步骤:
步骤1,采样及训练样本的选择
采样行人重识别数据集Duke中的Ms个身份的Ns张图片,组成源域训练样本Xs;采样行人重识别数据集Market1501中的Nt张图片,将其作为目标域训练样本Xt,其表达式分别为:
其中,i表示源域训练样本的序号,表示第i个源域训练样本,Ns表示源域训练样本数量;令第i个源域训练样本对应的身份标签为 Ms表示源域训练样本行人类别总数;令第i个源域训练样本对应的相机标签为 Cs表示源域训练样本相机类别总数;
步骤2,内容编码分支的训练流程
步骤2.1,分别将源域训练样本Xs和目标域训练样本Xt输入内容编码器E1,提取与行人身份相关的信息,得到源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt);
步骤2.2,将源域训练样本内容编码器特征E1(Xs),输入到身份分类器W1,利用将源域训练样本内容编码器特征E1(Xs)分类到正确的身份的过程,对内容编码器E1和身份分类器W1进行一次优化,并将优化结果分别记为一次优化后的内容编码器E′1和一次优化后的身份分类器为W′1;
步骤3,风格编码分支的训练流程
步骤3.1,分别将源域训练样本Xs和目标域训练样本Xt输入到风格编码器E2,提取相机的风格信息,得到源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt);
步骤3.2,将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt),输入到相机分类器W2,利用将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)分类到正确的相机的过程,对风格编码器E2和相机分类器W2进行一次优化,并将优化结果分别记为一次优化后的相机风格编码器E′2和一次优化后的相机分类器W′2;
步骤4,对抗学习训练
固定一次优化后的身份分类器W′1的参数和一次优化后的相机分类器W′2的参数;
将源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt)输入到一次优化后的相机分类器W′2,对内容编码器E1进行二次优化,并将优化结果记为二次优化后的内容编码器E″1;同时将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)输入到一次优化后的身份分类器W′1,对风格编码器E2进行二次优化,并将优化结果记为二次优化后的相机风格编码器E″2;
通过以上对抗学习的方式,使二次优化后的内容编码器E″1具有提取域不变特征的能力;
步骤5,测试流程,具体步骤如下:
步骤5.1,采样行人重识别数据集Market1501中的Mo个身份的No张图片,组成目标域测试样本X0;
其中,l表示目标域测试样本序号,表示第l个目标域测试样本,No表示目标域测试样本数量,令第l个目标域测试样本对应的身份标签为 Mo表示目标域测试样本行人类别总数;令第l个目标域测试样本对应的相机标签为 Co表示目标域测试样本相机类别总数;
优选地,步骤2中对内容编码器E1和身份分类器W1进行一次优化的方式如下:
通过ADAM优化器最小化损失函数1,损失函数1的值小于x或epochs超过M时,停止优化,内容编码器E1和身份分类器W1完成一次优化,其中,x表示最小化损失函数1阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数1的表达式如下:
其中,Lid(E1,W1)表示关于内容编码器E1和身份分类器W1的损失函数,E1,a表示由神经网络a构成的内容编码器,记为a内容编码器,E1,b表示由神经网络b构成的内容编码器,记为b内容编码器,nb表示batchsize,p(·)表示第i个源域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,与指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
优选地,步骤3中对风格编码器E2和相机分类器W2进行一次优化的方式如下:
通过ADAM优化器最小化损失函数2,损失函数2的值小于x或epochs超过M时,停止优化,相机风格编码器E2和相机分类器W2完成一次优化,其中,x表示最小化损失函数2阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数2的表达式如下:
其中,Lcam_id(E2,W2)表示关于相机风格编码器E2和相机分类器W2的损失函数,p(·)表示第i个源域训练样本属于第c个身份的概率输出或第j个目标域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,I为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
优选地,步骤4中对内容编码器E1进行二次优化的方式如下:
通过ADAM优化器最小化损失函数3,损失函数3的值小于x或epochs超过M时,停止优化,内容编码器E1完成二次优化,其中,x表示最小化损失函数3阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数3的表达式如下:
其中,Lcam1(E1)表示关于内容编码器E1的损失函数,nb表示batchsize,p(·)表示第i个源域训练样本属于第c个身份的概率输出或第j个目标域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,I,为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
优选地,步骤4中对相机风格编码器E2进行二次优化的方式如下:
通过ADAM优化器最小化损失函数4,损失函数4的值小于x或epochs超过M时,停止优化,对相机风格编码器E2进行二次优化,其中,x表示最小化损失函数4阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数4的表达式如下:
其中,Lid1(E2)表示关于相机风格编码器E2的损失函数,nb表示batchsize,p(·)表示第i个源域训练样本属于第c个身份的概率输出或第j个目标域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
与传统方法相比,本发明方法的优势体现在以下三个方面:
1、提出一种双路径互惠解纠缠域不变特征学习方法。该方法不再将行人图像分解成身份相关的信息和身份无关的信息,而是采用互利互惠的学习机制,直接从行人图像中提取相机风格信息以及域不变的行人特征信息。
2、提出充分利用行人图像自带的相机标签信息来辅助域不变特征的学习,以此避免因引入行人图像的生成而给特征提取模型带来极大负担,以及特征的过度冗余和身份无关信息的混入。
3、为防止显著性判别特征的丢失,本发明在技术框架中加入了全局最大池化与全局平均池化的融合操作。本发明方法简单有效且更具实用价值。在不同的数据集上均表现出了更优异的性能。
附图说明
图1是本发明实例中的一种基于双路互促进解纠缠学习的行人重识别方法的流程图。
具体实施方式
下面将结合附图和具体的实施方式对本发明的技术方案进行清楚、完整的描述。
图1是本发明实例中的一种基于双路互促进解纠缠学习的行人重识别方法的流程图。由图1可见,本发明一种基于双路互促进解纠缠学习的行人重识别方法,包括通过训练流程得到具有提取域不变特征的内容编码器E1、在测试流程中利用该内容编码器E1对目标域测试样本中的行人进行重识别。所述训练流程包括内容编码分支和相机风格编码分支,所述内容编码分支包括内容编码器E1和身份分类器W1,所述相机风格编码分支包括风格编码器E2和相机分类器W2,具体包括以下步骤:
步骤1,采样及训练样本的选择
采样行人重识别数据集Duke中的Ms个身份的Ns张图片,组成源域训练样本Xs;采样行人重识别数据集Market1501中的Nt张图片,将其作为目标域训练样本Xt,其表达式分别为:
其中,i表示源域训练样本的序号,表示第i个源域训练样本,Ns表示源域训练样本数量;令第i个源域训练样本对应的身份标签为 Ms表示源域训练样本行人类别总数;令第i个源域训练样本对应的相机标签为 Cs表示源域训练样本相机类别总数;
本实例中,行人重识别数据集Duke是由8个摄像机拍摄的1404个行人的36411张图像构成,取Ms=702,Ns=16522,Cs=8。
在本实施例中,行人重识别数据集Market1501是由6个摄像机拍摄的1501个行人的32670张图像构成,其中751个身份的12937张图片用于训练,其余750个身份的19733张图片用于测试。即取Nt=12937,Ct=6。
步骤2,内容编码分支的训练流程
步骤2.1,分别将源域训练样本Xs和目标域训练样本Xt输入内容编码器E1,提取与行人身份相关的信息,得到源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt);
步骤2.2,将源域训练样本内容编码器特征E1(Xs),输入到身份分类器W1,利用将源域训练样本内容编码器特征E1(Xs)分类到正确的身份的过程,对内容编码器E1和身份分类器W1进行一次优化,并将优化结果分别记为一次优化后的内容编码器E′1和一次优化后的身份分类器为W′1。
步骤3,风格编码分支的训练流程
步骤3.1,分别将源域训练样本Xs和目标域训练样本Xt输入到风格编码器E2,提取相机的风格信息,得到源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt);
步骤3.2,将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt),输入到相机分类器W2,利用将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)分类到正确的相机的过程,对风格编码器E2和相机分类器W2进行一次优化,并将优化结果分别记为一次优化后的相机风格编码器E′2和一次优化后的相机分类器W′2。
步骤4,对抗学习训练
固定一次优化后的身份分类器W′1的参数和一次优化后的相机分类器W′2的参数;
将源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt)输入到一次优化后的相机分类器W′2,对内容编码器E1进行二次优化,并将优化结果记为二次优化后的内容编码器E″1;同时将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)输入到一次优化后的身份分类器W′1,对风格编码器E2进行二次优化,并将优化结果记为二次优化后的相机风格编码器E″2;
通过以上对抗学习的方式,使二次优化后的内容编码器E″1具有提取域不变特征的能力。
步骤5,测试流程,具体步骤如下:
步骤5.1,采样行人重识别数据集Market1501中的Mo个身份的No张图片,组成目标域测试样本X0;
其中,l表示目标域测试样本序号,表示第l个目标域测试样本,No表示目标域测试样本数量,令第l个目标域测试样本对应的身份标签为 Mo表示目标域测试样本行人类别总数;令第l个目标域测试样本对应的相机标签为 Co表示目标域测试样本相机类别总数;
在本实例中,行人重识别数据集Market1501是由6个摄像机拍摄的1501个行人的32670张图像构成,其中750个身份的19733张图片用于测试。具体的,取No=19733,Mo=800,Co=6。
在以上步骤中,步骤2中对内容编码器E1和身份分类器W1进行一次优化的方式如下:
通过ADAM优化器最小化损失函数1,损失函数1的值小于x或epochs超过M时,停止优化,内容编码器E1和身份分类器W1完成一次优化,其中,x表示最小化损失函数1阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数1的表达式如下:
其中,Lid(E1,W1)表示关于内容编码器E1和身份分类器W1的损失函数,E1,a表示由神经网络a构成的内容编码器,记为a内容编码器,E1,b表示由神经网络b构成的内容编码器,记为b内容编码器,nb表示batchsize,p(·)表示第i个源域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
在以上步骤中,步骤3中对风格编码器E2和相机分类器W2进行一次优化的方式如下:
通过ADAM优化器最小化损失函数2,损失函数2的值小于x或epochs超过M时,停止优化,相机风格编码器E2和相机分类器W2完成一次优化,其中,x表示最小化损失函数2阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数2的表达式如下:
其中,Lcam_id(E2,W2)表示关于相机风格编码器E2和相机分类器W2的损失函数,p(·)表示第i个源域训练样本属于第c个身份的概率输出或第j个目标域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,I为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
在以上步骤中,步骤4中对内容编码器E1进行二次优化的方式如下:
通过ADAM优化器最小化损失函数3,损失函数3的值小于x或epochs超过M时,停止优化,内容编码器E1完成二次优化,其中,x表示最小化损失函数3阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数3的表达式如下:
其中,Lcam1(E1)表示关于内容编码器E1的损失函数,nb表示batchsize,p(·)表示第i个源域训练样本属于第c个身份的概率输出或第j个目标域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,I,为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
在以上步骤中,步骤4中对相机风格编码器E2进行二次优化的方式如下:
通过ADAM优化器最小化损失函数4,损失函数4的值小于x或epochs超过M时,停止优化,相机风格编码器E2完成二次优化,其中,x表示最小化损失函数4阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数4的表达式如下:
其中,Lid1(E2)表示关于相机风格编码器E2的损失函数,nb表示batchsize,p(·)表示第i个源域训练样本属于第c个身份的概率输出或第j个目标域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
在本实例中,x取0.05,M取100,ε值取0.1;
为了佐证本发明的效果,为验证提出方法的有效性,我们在三个大规模行人重识别数据集Market1501[1]、DukeMTMC-reID(Duke)[2][3]、MSMT17[4]上以及携带了干扰图像的数据集GRID[5]和PRID2011[6]对算法性能进行评估。针对数据集进行介绍的文献如表1所示。表1共涉及29个参考文献,除对数据集进行介绍的文献,其它文献中提出的典型方法,如MMT方法,也被用于与本专利方法效果进行对比验证。
表1对比试验所用参考文献
首先在Duke→Market1501和Market1501→Duke两种任务上,对提出的方法与其它方法进行了比较,对比结果如表1所示。其中,A→B表示数据集A和B分别作为源域和目标域,如Duke→Market1501任务中,Duke为源域,Market1501为目标域。Rank-1、Rank-5、Rank-10、mAP是通用的基于概率统计的识别准确率评价指标,此处用于计算行人重识别准确率。此外,表2中“-”表示该文献中未用这种评价标准。
表2不同算法在Duke→Market1501和Market1501→Duke上的实验对比
在表2中可以发现,该实验中,对比方法可以分为三类:(a)基于聚类伪标签预测的方法;(b)基于额外模型辅助的方法(c)基于域不变特征学习的方法。其中,与域不变特征学习的算法相比,本文提出的方法在Duke→Market1501和Market1501→Duke上,rank1/mAP的精度分别达到了72.7%/38.2%和65.3%/42.9%,以较大的幅度超过了同类的对比方法。这证明了本专利方法的有效性。同时,在rank1的识别精度上超过了最优的两种基于额外模型辅助的识别方法ECN[16]和PDA-Net[17]。
基于聚类伪标签预测的方法取在公开的数据集上,表现出了优异的识别性能。例如MMT方法[11],在Duke→Market1501和Market1501→Duke上的Rank-1/mAP的识别率分别达到了87.7%/71.2%和78.0%/65.1%,这是因为在目标域中,参与训练的每一个行人都含有正样本,这为正确预测伪标签提供了帮助。但在实际场景中,正样本极为稀少,这就为伪标签预测带来了极大的挑战。如果将这类算法直接部署到干扰图像较多的现实场景中,这类算法性能可能会急剧下降。与这类方法相比,本专利方法不需要预测伪标签,因此识别性能对正样本数量没有依赖性。为进一步验证本文算法相对于基于聚类伪标签预测方法的优势,我们把携带了干扰图像的GRID和PRID2011作为目标数据集,Market1501和Duke分别作为源域。实验结果如表3所示。
表3本文方法与聚类伪标签预测的方法在GRID和PRID2011上的实验结果对比
从表3可以看出,基于伪标签预测的UDAP[10],ACT[29],MMT[11]在有干扰行人图像的数据集上Rank1的识别精度没有超过30%,而本专利的方法最低性能也达到了39.9%。具体地,当源域为Duke时,提出的方法在GRID和PRID2011上的Rank1/mAP识别率分别是39.9%/64.8%和52.4%/63.2%,这比MMT提高了19.1%/35.9%和27.4%/29.3%。当源域为Market1501,提出的方法在GRID和PRID2011上的Rank1/mAP识别率分别是47.2%/70.8%,46.2%/67.5%,同样比MMT提高了很多。以上实验说明我们的方法在有干扰图像的数据集上同样是有效的,而基于聚类伪标签预测的方法在有干扰图像的情况下,性能出现了显著下降。
此外,由表2中的对比结果可以看出,基于额外模型辅助方法同样也表现出了较强的竞争性尤其是ECN和PDA-Net。但这类算法的性能极大地依赖于额外模型的辅助,降低了模型的实际应用效率。为了证明这一点,我们以ECN为例,在Market1501→Duke和Market1501→Duke两个任务上,本专利方法与其在时间成本上进行了对比。如表4所示,在Market1501→Duke任务上,本专利的方法训练Re-id模型大约需要9小时,而ECN大约花费90小时,这是因为ECN通过Camstyle进行图像风格迁移花费了大量时间,当迁移的目标数据集规模更大,例如MSMT17,那么花费的时间也就更多。这显然降低了模型在实际场景中的可适用性。相对来说,本文算法在训练效率和识别性能均有更好的表现。
表4提出的方法与ECN在模型训练上的效率对比
Claims (5)
1.一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,包括通过训练流程得到具有提取域不变特征的内容编码器E1、在测试流程中利用该内容编码器E1对目标域测试样本中的行人进行重识别;所述训练流程包括内容编码分支和相机风格编码分支,所述内容编码分支包括内容编码器E1和身份分类器W1,所述相机风格编码分支包括风格编码器E2和相机分类器W2,具体包括以下步骤:
步骤1,采样及训练样本的选择
采样行人重识别数据集Duke中的Ms个身份的Ns张图片,组成源域训练样本Xs;采样行人重识别数据集Market1501中的Nt张图片,将其作为目标域训练样本Xt,其表达式分别为:
其中,i表示源域训练样本的序号,表示第i个源域训练样本,Ns表示源域训练样本数量;令第f个源域训练样本对应的身份标签为 Ms表示源域训练样本行人类别总数;令第i个源域训练样本对应的相机标签为 Cs表示源域训练样本相机类别总数;
步骤2,内容编码分支的训练流程
步骤2.1,分别将源域训练样本Xs和目标域训练样本Xt输入内容编码器E1,提取与行人身份相关的信息,得到源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt);
步骤2.2,将源域训练样本内容编码器特征E1(Xs),输入到身份分类器W1,利用将源域训练样本内容编码器特征E1(Xs)分类到正确的身份的过程,对内容编码器E1和身份分类器W1进行一次优化,并将优化结果分别记为一次优化后的内容编码器E′1和一次优化后的身份分类器为W′1;
步骤3,风格编码分支的训练流程
步骤3.1,分别将源域训练样本Xs和目标域训练样本Xt输入到风格编码器E2,提取相机的风格信息,得到源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt);
步骤3.2,将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt),输入到相机分类器W2,利用将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)分类到正确的相机的过程,对风格编码器E2和相机分类器W2进行一次优化,并将优化结果分别记为一次优化后的相机风格编码器E′2和一次优化后的相机分类器W′2;
步骤4,对抗学习训练
固定一次优化后的身份分类器W′1的参数和一次优化后的相机分类器W′2的参数;
将源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt)输入到一次优化后的相机分类器W′2,对内容编码器E1进行二次优化,并将优化结果记为二次优化后的内容编码器E″1;同时将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)输入到一次优化后的身份分类器W′1,对风格编码器E2进行二次优化,并将优化结果记为二次优化后的相机风格编码器E″2;
通过以上对抗学习的方式,使二次优化后的内容编码器E″1具有提取域不变特征的能力;
步骤5,测试流程,具体步骤如下:
步骤5.1,采样行人重识别数据集Market1501中的Mo个身份的No张图片,组成目标域测试样本X0;
其中,l表示目标域测试样本序号,表示第l个目标域测试样本,No表示目标域测试样本数量,令第l个目标域测试样本对应的身份标签为 Mo表示目标域测试样本行人类别总数;令第l个目标域测试样本对应的相机标签为 Co表示目标域测试样本相机类别总数;
2.根据权利要求1所述的一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,步骤2中对内容编码器E1和身份分类器W1进行一次优化的方式如下:
通过ADAM优化器最小化损失函数1,损失函数1值小于x或epochs超过M时,停止优化,内容编码器E1和身份分类器W1完成一次优化,其中,x表示最小化损失函数1阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数1的表达式如下:
其中,Lid(E1,W1)表示关于内容编码器E1和身份分类器W1的损失函数,E1,a表示由神经网络a构成的内容编码器,记为a内容编码器,E1,b表示由神经网络b构成的内容编码器,记为b内容编码器,nb表示batch size,p(·)表示第i个源域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
3.根据权利要求1所述的一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,步骤3中对风格编码器E2和相机分类器W2进行一次优化的方式如下:
通过ADAM优化器最小化损失函数2,损失函数2的值小于x或epochs超过M时,停止优化,相机风格编码器E2和相机分类器W2一次优化完成,其中,x表示最小化损失函数2阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数2的表达式如下:
其中,Lcam_id(E2,W2)表示关于相机风格编码器E2和相机分类器W2的损失函数,p(·)表示第i个源域训练样本属于第c个身份的概率输出或第j个目标域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,I为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
4.根据权利要求1所述的一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,步骤4中对内容编码器E1进行二次优化的方式如下:
通过ADAM优化器最小化损失函数3,损失函数3的值小于x或epochs超过M时,停止优化,内容编码器E1进行二次优化完成,其中,x表示最小化损失函数3阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数3的表达式如下:
其中,Lcam1(E1)表示关于内容编码器E1的损失函数,nb表示batch size,p(·)表示第i个源域训练样本属于第c个身份的概率输出或第j个目标域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,I,为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
5.根据权利要求1所述的一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,步骤4中对相机风格编码器E2进行二次优化的方式如下:
通过ADAM优化器最小化损失函数4,损失函数4的值小于x或epochs超过M时,停止优化,相机风格编码器E2二次优化完成,其中,x表示最小化损失函数4阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数4的表达式如下:
其中,Lid1(E2)表示关于相机风格编码器E2的损失函数,nb表示batch size,p(·)表示第i个源域训练样本属于第c个身份的概率输出或第j个目标域训练样本属于第c个身份的概率输出,log表示以10为底数的对数函数,为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
其中,ε为趋于0的常数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110792515.XA CN113449676B (zh) | 2021-07-13 | 2021-07-13 | 一种基于双路互促进解纠缠学习的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110792515.XA CN113449676B (zh) | 2021-07-13 | 2021-07-13 | 一种基于双路互促进解纠缠学习的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449676A true CN113449676A (zh) | 2021-09-28 |
CN113449676B CN113449676B (zh) | 2024-05-10 |
Family
ID=77816162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110792515.XA Active CN113449676B (zh) | 2021-07-13 | 2021-07-13 | 一种基于双路互促进解纠缠学习的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449676B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822236A (zh) * | 2021-11-22 | 2021-12-21 | 杭州云栖智慧视通科技有限公司 | 一种基于人体语义部件的上衣颜色替换方法 |
CN115731097A (zh) * | 2022-12-05 | 2023-03-03 | 东北林业大学 | 一种基于解纠缠表示的多风格迁移方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150363636A1 (en) * | 2014-06-12 | 2015-12-17 | Canon Kabushiki Kaisha | Image recognition system, image recognition apparatus, image recognition method, and computer program |
CN110069972A (zh) * | 2017-12-11 | 2019-07-30 | 赫克斯冈技术中心 | 自动探测真实世界物体 |
CN110189278A (zh) * | 2019-06-06 | 2019-08-30 | 上海大学 | 一种基于生成对抗网络的双目场景图像修复方法 |
CN111783521A (zh) * | 2020-05-19 | 2020-10-16 | 昆明理工大学 | 基于低秩先验引导的域不变信息分离的行人重识别方法 |
CN112069940A (zh) * | 2020-08-24 | 2020-12-11 | 武汉大学 | 一种基于分阶段特征学习的跨域行人重识别方法 |
CN112766217A (zh) * | 2021-01-30 | 2021-05-07 | 上海工程技术大学 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
CN112819158A (zh) * | 2021-02-05 | 2021-05-18 | 凌坤(南通)智能科技有限公司 | 一种基于优化的bp神经网络的气体辨识方法 |
-
2021
- 2021-07-13 CN CN202110792515.XA patent/CN113449676B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150363636A1 (en) * | 2014-06-12 | 2015-12-17 | Canon Kabushiki Kaisha | Image recognition system, image recognition apparatus, image recognition method, and computer program |
CN110069972A (zh) * | 2017-12-11 | 2019-07-30 | 赫克斯冈技术中心 | 自动探测真实世界物体 |
CN110189278A (zh) * | 2019-06-06 | 2019-08-30 | 上海大学 | 一种基于生成对抗网络的双目场景图像修复方法 |
CN111783521A (zh) * | 2020-05-19 | 2020-10-16 | 昆明理工大学 | 基于低秩先验引导的域不变信息分离的行人重识别方法 |
CN112069940A (zh) * | 2020-08-24 | 2020-12-11 | 武汉大学 | 一种基于分阶段特征学习的跨域行人重识别方法 |
CN112766217A (zh) * | 2021-01-30 | 2021-05-07 | 上海工程技术大学 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
CN112819158A (zh) * | 2021-02-05 | 2021-05-18 | 凌坤(南通)智能科技有限公司 | 一种基于优化的bp神经网络的气体辨识方法 |
Non-Patent Citations (1)
Title |
---|
黄伟: "协同目标分割与识别的研究", 《中国博士学位论文全文数据库》, no. 01, 15 January 2021 (2021-01-15), pages 138 - 110 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822236A (zh) * | 2021-11-22 | 2021-12-21 | 杭州云栖智慧视通科技有限公司 | 一种基于人体语义部件的上衣颜色替换方法 |
CN115731097A (zh) * | 2022-12-05 | 2023-03-03 | 东北林业大学 | 一种基于解纠缠表示的多风格迁移方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113449676B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN104751136B (zh) | 一种基于人脸识别的多相机视频事件回溯追踪方法 | |
CN108230291B (zh) | 物体识别系统训练方法、物体识别方法、装置和电子设备 | |
CN109101602A (zh) | 图像检索模型训练方法、图像检索方法、设备及存储介质 | |
CN108549895A (zh) | 一种基于对抗网络的半监督语义分割方法 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN112861695B (zh) | 行人身份再识别方法、装置、电子设备及存储介质 | |
CN113449676A (zh) | 一种基于双路互促进解纠缠学习的行人重识别方法 | |
CN117292338B (zh) | 基于视频流解析的车辆事故识别和分析方法 | |
CN109376736A (zh) | 一种基于深度卷积神经网络的视频小目标检测方法 | |
CN116363712B (zh) | 一种基于模态信息度评估策略的掌纹掌静脉识别方法 | |
Huang et al. | Semi-supervised domain adaptation via adaptive and progressive feature alignment | |
CN112613474B (zh) | 一种行人重识别的方法和装置 | |
Hrkac et al. | Tattoo detection for soft biometric de-identification based on convolutional neural networks | |
CN117351514A (zh) | 一种基于前景分割的跨模态行人重识别方法 | |
CN113920573B (zh) | 基于对抗学习的人脸变化解耦的亲属关系验证方法 | |
Campos et al. | Global localization with non-quantized local image features | |
CN110110598A (zh) | 一种基于视觉特征与时空约束的行人再识别方法及系统 | |
CN112418078B (zh) | 分数调制方法、人脸识别方法、装置及介质 | |
CN114821722A (zh) | 一种基于马氏距离改进的人脸识别系统及方法 | |
Liu et al. | Adversarial Domain Generalization for Surveillance Face Anti-Spoofing | |
CN113761987A (zh) | 一种行人重识别的方法、装置、计算机设备和存储介质 | |
Jain et al. | Stochastic Binary Network for Universal Domain Adaptation | |
CN112699846B (zh) | 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置 | |
Xu et al. | Meta-transfer learning for person re-identification in aerial imagery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |