CN113449676A - 一种基于双路互促进解纠缠学习的行人重识别方法 - Google Patents

一种基于双路互促进解纠缠学习的行人重识别方法 Download PDF

Info

Publication number
CN113449676A
CN113449676A CN202110792515.XA CN202110792515A CN113449676A CN 113449676 A CN113449676 A CN 113449676A CN 202110792515 A CN202110792515 A CN 202110792515A CN 113449676 A CN113449676 A CN 113449676A
Authority
CN
China
Prior art keywords
encoder
camera
training
content
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110792515.XA
Other languages
English (en)
Other versions
CN113449676B (zh
Inventor
陶松兵
李华锋
徐开熊
李锦兴
马宏莉
何启航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingkun Nantong Intelligent Technology Co ltd
Original Assignee
Lingkun Nantong Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lingkun Nantong Intelligent Technology Co ltd filed Critical Lingkun Nantong Intelligent Technology Co ltd
Priority to CN202110792515.XA priority Critical patent/CN113449676B/zh
Publication of CN113449676A publication Critical patent/CN113449676A/zh
Application granted granted Critical
Publication of CN113449676B publication Critical patent/CN113449676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于双路互促进解纠缠学习的行人重识别方法,属于计算机视觉领域。该方法包括通过训练流程得到具有提取域不变特征的内容编码器,在测试流程中利用该内容编码器对目标域测试样本中的行人进行重识别。相比于传统的用于行人重识别的方法,本发明的方法简单有效且更具实用价值。在不同的数据集上均表现出了更优异的性能。

Description

一种基于双路互促进解纠缠学习的行人重识别方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于双路互促进解纠缠学习的行人重识别方法。
背景技术
行人重识别是判断跨视角相机拍摄到的行人图像是否为同一行人的技术。该技术是智能监控中的重要构成部分,在追踪罪犯嫌疑人,失踪人口查找等方面有着重要的应用,引起了众多研究者的关注。随着深度学习的快速发展,行人重识别近年来取得了显著的研究进展,并获得了优异的识别性能。然而,这些成绩一般是在同一数据集上进行有监督地训练,并在该数据集上进行测试得到的。如果把这些方法直接部署到现实场景中,识别性能会因训练数据与测试数据之间的域偏移而出现急剧下降。为解决该问题,无监督域自适应的行人重识别方法受到了越来越多的关注和重视。
现有的无监督域自适应的行人再识别方法可粗略地划分成三类:基于聚类伪标签预测的方法,基于额外模型辅助的方法,基于域不变特征提取的方法。基于伪标签预测的方法虽然在数据集上有较高的性能表现,但这一优异性能通常是在参与训练的每一个目标样本都有正样本的情况才取得的。这一潜在的要求,显然与实际应用场景不符。如果将其直接部署到正样本对极少的实际场景中,性能会出现急剧下降。基于额外模型辅助的方法虽然也能获得较为优异的识别性能,但由于需要额外模型的辅助,极大地影响了re-ID模型的识别效率。基于域不变特征提取的方法因未借助伪标签来更新模型,也未受到额外模型的辅助,同时此类算法更容易部署到现实场景中,但在公开的数据集上识别性能相对较低。
综上所述,现有的行人重识别技术存在以下问题:
1、训练方法采用有监督的训练,直接部署到现实场景时,识别性能会因训练数据与测试数据之间的域偏移而出现急剧下降。
2、基于伪标签预测的方法,需要参与训练的每一个目标样本都有正样本,与实际应用场景不符,如果将其直接部署到正样本对极少的实际场景中,性能会出现急剧下降。
3、基于额外模型辅助的方法,需要额外模型的辅助,极大地影响了re-ID模型的识别效率。
4、传统的基于域不变特征提取的方法,在公开的数据集上识别性能相对较低。
发明内容
针对现有技术的不足,本发明提出了一种基于双路互促进解纠缠学习的行人重识别方法,解决上述现有技术中存在的问题。具体地,本发明方法主要由内容编码分支和相机风格编码分支组成。其中,前者提取与行人身份相关的特征,后者提取与相机风格相关的特征。在解纠缠过程中,我们提出通过两个路径之间的对抗学习来达到互惠互利的目的,同时实现行人域不变身份特征与域信息的提取。在此过程中,我们充分利用了图像自带的相机标签信息来辅助域不变特征的学习,而域不变特征的学习通过交叉分类,反过来协助相机风格特征的提取,通过这种合作共赢机制来达到相机信息和判别性特征解纠缠的目的。与传统方法相比,本发明的方法是一种无监督训练,泛化能力会更好;不需要额外模型辅助,不会影响re-ID模型的识别效率;在公开的数据集和现实场景中都有很好的识别效果。
为达上述目的,本发明提供了一种基于双路互促进解纠缠学习的行人重识别方法,包括通过训练流程得到具有提取域不变特征的内容编码器E1、在测试流程中利用该内容编码器E1对目标域测试样本中的行人进行重识别;所述训练流程包括内容编码分支和相机风格编码分支,所述内容编码分支包括内容编码器E1和身份分类器W1,所述相机风格编码分支包括风格编码器E2和相机分类器W2,具体包括以下步骤:
步骤1,采样及训练样本的选择
采样行人重识别数据集Duke中的Ms个身份的Ns张图片,组成源域训练样本Xs;采样行人重识别数据集Market1501中的Nt张图片,将其作为目标域训练样本Xt,其表达式分别为:
Figure BDA0003160094880000031
其中,i表示源域训练样本的序号,
Figure BDA0003160094880000032
表示第i个源域训练样本,Ns表示源域训练样本数量;令第i个源域训练样本
Figure BDA0003160094880000033
对应的身份标签为
Figure BDA0003160094880000037
Figure BDA0003160094880000034
Ms表示源域训练样本行人类别总数;令第i个源域训练样本
Figure BDA0003160094880000035
对应的相机标签为
Figure BDA0003160094880000038
Figure BDA0003160094880000036
Cs表示源域训练样本相机类别总数;
Figure BDA0003160094880000041
Figure BDA0003160094880000042
表示第j个目标域训练样本,Nt表示目标域训练样本数量,j表示目标域训练样本序号,第j个目标域训练样本
Figure BDA0003160094880000043
对应的相机标签为
Figure BDA0003160094880000044
Figure BDA0003160094880000045
Ct表示目标域训练样本相机类别总数,目标域训练样本Xt的身份标签未知;
步骤2,内容编码分支的训练流程
步骤2.1,分别将源域训练样本Xs和目标域训练样本Xt输入内容编码器E1,提取与行人身份相关的信息,得到源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt);
步骤2.2,将源域训练样本内容编码器特征E1(Xs),输入到身份分类器W1,利用将源域训练样本内容编码器特征E1(Xs)分类到正确的身份的过程,对内容编码器E1和身份分类器W1进行一次优化,并将优化结果分别记为一次优化后的内容编码器E′1和一次优化后的身份分类器为W′1
步骤3,风格编码分支的训练流程
步骤3.1,分别将源域训练样本Xs和目标域训练样本Xt输入到风格编码器E2,提取相机的风格信息,得到源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt);
步骤3.2,将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt),输入到相机分类器W2,利用将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)分类到正确的相机的过程,对风格编码器E2和相机分类器W2进行一次优化,并将优化结果分别记为一次优化后的相机风格编码器E′2和一次优化后的相机分类器W′2
步骤4,对抗学习训练
固定一次优化后的身份分类器W′1的参数和一次优化后的相机分类器W′2的参数;
将源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt)输入到一次优化后的相机分类器W′2,对内容编码器E1进行二次优化,并将优化结果记为二次优化后的内容编码器E″1;同时将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)输入到一次优化后的身份分类器W′1,对风格编码器E2进行二次优化,并将优化结果记为二次优化后的相机风格编码器E″2
通过以上对抗学习的方式,使二次优化后的内容编码器E″1具有提取域不变特征的能力;
步骤5,测试流程,具体步骤如下:
步骤5.1,采样行人重识别数据集Market1501中的Mo个身份的No张图片,组成目标域测试样本X0
Figure BDA0003160094880000051
其中,l表示目标域测试样本序号,
Figure BDA0003160094880000052
表示第l个目标域测试样本,No表示目标域测试样本数量,令第l个目标域测试样本
Figure BDA0003160094880000053
对应的身份标签为
Figure BDA0003160094880000057
Figure BDA0003160094880000054
Mo表示目标域测试样本行人类别总数;令第l个目标域测试样本
Figure BDA0003160094880000055
对应的相机标签为
Figure BDA0003160094880000058
Figure BDA0003160094880000056
Co表示目标域测试样本相机类别总数;
步骤5.2,将目标域测试样本Xo输入到步骤4得到的二次优化后的内容编码器E〞1,得到目标域测试样本内容编码器特征E〞1(Xo),计算目标域测试样本X0与其对应的身份标签
Figure BDA0003160094880000064
之间的准确率。
优选地,步骤2中对内容编码器E1和身份分类器W1进行一次优化的方式如下:
通过ADAM优化器最小化损失函数1,损失函数1的值小于x或epochs超过M时,停止优化,内容编码器E1和身份分类器W1完成一次优化,其中,x表示最小化损失函数1阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数1的表达式如下:
Figure BDA0003160094880000061
其中,Lid(E1,W1)表示关于内容编码器E1和身份分类器W1的损失函数,E1,a表示由神经网络a构成的内容编码器,记为a内容编码器,E1,b表示由神经网络b构成的内容编码器,记为b内容编码器,nb表示batchsize,p(·)表示第i个源域训练样本
Figure BDA0003160094880000062
属于第c个身份的概率输出,log表示以10为底数的对数函数,
Figure BDA0003160094880000063
与指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure BDA0003160094880000071
其中,ε为趋于0的常数。
优选地,步骤3中对风格编码器E2和相机分类器W2进行一次优化的方式如下:
通过ADAM优化器最小化损失函数2,损失函数2的值小于x或epochs超过M时,停止优化,相机风格编码器E2和相机分类器W2完成一次优化,其中,x表示最小化损失函数2阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数2的表达式如下:
Figure BDA0003160094880000072
其中,Lcam_id(E2,W2)表示关于相机风格编码器E2和相机分类器W2的损失函数,p(·)表示第i个源域训练样本
Figure BDA0003160094880000074
属于第c个身份的概率输出或第j个目标域训练样本
Figure BDA0003160094880000075
属于第c个身份的概率输出,log表示以10为底数的对数函数,I为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure BDA0003160094880000073
Figure BDA0003160094880000081
其中,ε为趋于0的常数。
优选地,步骤4中对内容编码器E1进行二次优化的方式如下:
通过ADAM优化器最小化损失函数3,损失函数3的值小于x或epochs超过M时,停止优化,内容编码器E1完成二次优化,其中,x表示最小化损失函数3阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数3的表达式如下:
Figure BDA0003160094880000082
其中,Lcam1(E1)表示关于内容编码器E1的损失函数,nb表示batchsize,p(·)表示第i个源域训练样本
Figure BDA0003160094880000083
属于第c个身份的概率输出或第j个目标域训练样本
Figure BDA0003160094880000084
属于第c个身份的概率输出,log表示以10为底数的对数函数,I,
Figure BDA0003160094880000085
为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure BDA0003160094880000086
Figure BDA0003160094880000087
Figure BDA0003160094880000091
其中,ε为趋于0的常数。
优选地,步骤4中对相机风格编码器E2进行二次优化的方式如下:
通过ADAM优化器最小化损失函数4,损失函数4的值小于x或epochs超过M时,停止优化,对相机风格编码器E2进行二次优化,其中,x表示最小化损失函数4阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数4的表达式如下:
Figure BDA0003160094880000092
其中,Lid1(E2)表示关于相机风格编码器E2的损失函数,nb表示batchsize,p(·)表示第i个源域训练样本
Figure BDA0003160094880000093
属于第c个身份的概率输出或第j个目标域训练样本
Figure BDA0003160094880000094
属于第c个身份的概率输出,log表示以10为底数的对数函数,
Figure BDA0003160094880000095
为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure BDA0003160094880000096
Figure BDA0003160094880000097
其中,ε为趋于0的常数。
与传统方法相比,本发明方法的优势体现在以下三个方面:
1、提出一种双路径互惠解纠缠域不变特征学习方法。该方法不再将行人图像分解成身份相关的信息和身份无关的信息,而是采用互利互惠的学习机制,直接从行人图像中提取相机风格信息以及域不变的行人特征信息。
2、提出充分利用行人图像自带的相机标签信息来辅助域不变特征的学习,以此避免因引入行人图像的生成而给特征提取模型带来极大负担,以及特征的过度冗余和身份无关信息的混入。
3、为防止显著性判别特征的丢失,本发明在技术框架中加入了全局最大池化与全局平均池化的融合操作。本发明方法简单有效且更具实用价值。在不同的数据集上均表现出了更优异的性能。
附图说明
图1是本发明实例中的一种基于双路互促进解纠缠学习的行人重识别方法的流程图。
具体实施方式
下面将结合附图和具体的实施方式对本发明的技术方案进行清楚、完整的描述。
图1是本发明实例中的一种基于双路互促进解纠缠学习的行人重识别方法的流程图。由图1可见,本发明一种基于双路互促进解纠缠学习的行人重识别方法,包括通过训练流程得到具有提取域不变特征的内容编码器E1、在测试流程中利用该内容编码器E1对目标域测试样本中的行人进行重识别。所述训练流程包括内容编码分支和相机风格编码分支,所述内容编码分支包括内容编码器E1和身份分类器W1,所述相机风格编码分支包括风格编码器E2和相机分类器W2,具体包括以下步骤:
步骤1,采样及训练样本的选择
采样行人重识别数据集Duke中的Ms个身份的Ns张图片,组成源域训练样本Xs;采样行人重识别数据集Market1501中的Nt张图片,将其作为目标域训练样本Xt,其表达式分别为:
Figure BDA0003160094880000111
其中,i表示源域训练样本的序号,
Figure BDA0003160094880000112
表示第i个源域训练样本,Ns表示源域训练样本数量;令第i个源域训练样本
Figure BDA0003160094880000113
对应的身份标签为
Figure BDA00031600948800001113
Figure BDA0003160094880000114
Ms表示源域训练样本行人类别总数;令第i个源域训练样本
Figure BDA0003160094880000115
对应的相机标签为
Figure BDA00031600948800001112
Figure BDA0003160094880000116
Cs表示源域训练样本相机类别总数;
Figure BDA0003160094880000117
Figure BDA0003160094880000118
表示第j个目标域训练样本,Nt表示目标域训练样本数量,j表示目标域训练样本序号,第j个目标域训练样本
Figure BDA0003160094880000119
对应的相机标签为
Figure BDA00031600948800001110
Figure BDA00031600948800001111
Ct表示目标域训练样本相机类别总数,目标域训练样本Xt的身份标签未知。
本实例中,行人重识别数据集Duke是由8个摄像机拍摄的1404个行人的36411张图像构成,取Ms=702,Ns=16522,Cs=8。
在本实施例中,行人重识别数据集Market1501是由6个摄像机拍摄的1501个行人的32670张图像构成,其中751个身份的12937张图片用于训练,其余750个身份的19733张图片用于测试。即取Nt=12937,Ct=6。
步骤2,内容编码分支的训练流程
步骤2.1,分别将源域训练样本Xs和目标域训练样本Xt输入内容编码器E1,提取与行人身份相关的信息,得到源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt);
步骤2.2,将源域训练样本内容编码器特征E1(Xs),输入到身份分类器W1,利用将源域训练样本内容编码器特征E1(Xs)分类到正确的身份的过程,对内容编码器E1和身份分类器W1进行一次优化,并将优化结果分别记为一次优化后的内容编码器E′1和一次优化后的身份分类器为W′1
步骤3,风格编码分支的训练流程
步骤3.1,分别将源域训练样本Xs和目标域训练样本Xt输入到风格编码器E2,提取相机的风格信息,得到源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt);
步骤3.2,将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt),输入到相机分类器W2,利用将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)分类到正确的相机的过程,对风格编码器E2和相机分类器W2进行一次优化,并将优化结果分别记为一次优化后的相机风格编码器E′2和一次优化后的相机分类器W′2
步骤4,对抗学习训练
固定一次优化后的身份分类器W′1的参数和一次优化后的相机分类器W′2的参数;
将源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt)输入到一次优化后的相机分类器W′2,对内容编码器E1进行二次优化,并将优化结果记为二次优化后的内容编码器E″1;同时将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)输入到一次优化后的身份分类器W′1,对风格编码器E2进行二次优化,并将优化结果记为二次优化后的相机风格编码器E″2
通过以上对抗学习的方式,使二次优化后的内容编码器E″1具有提取域不变特征的能力。
步骤5,测试流程,具体步骤如下:
步骤5.1,采样行人重识别数据集Market1501中的Mo个身份的No张图片,组成目标域测试样本X0
Figure BDA0003160094880000131
其中,l表示目标域测试样本序号,
Figure BDA0003160094880000132
表示第l个目标域测试样本,No表示目标域测试样本数量,令第l个目标域测试样本
Figure BDA0003160094880000133
对应的身份标签为
Figure BDA0003160094880000137
Figure BDA0003160094880000134
Mo表示目标域测试样本行人类别总数;令第l个目标域测试样本
Figure BDA0003160094880000135
对应的相机标签为
Figure BDA0003160094880000138
Figure BDA0003160094880000136
Co表示目标域测试样本相机类别总数;
步骤5.2,将目标域测试样本Xo输入到步骤4得到的二次优化后的内容编码器E″1,得到目标域测试样本内容编码器特征E″1(Xo),计算目标域测试样本X0与其对应的身份标签
Figure BDA0003160094880000144
之间的准确率。
在本实例中,行人重识别数据集Market1501是由6个摄像机拍摄的1501个行人的32670张图像构成,其中750个身份的19733张图片用于测试。具体的,取No=19733,Mo=800,Co=6。
在以上步骤中,步骤2中对内容编码器E1和身份分类器W1进行一次优化的方式如下:
通过ADAM优化器最小化损失函数1,损失函数1的值小于x或epochs超过M时,停止优化,内容编码器E1和身份分类器W1完成一次优化,其中,x表示最小化损失函数1阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数1的表达式如下:
Figure BDA0003160094880000141
其中,Lid(E1,W1)表示关于内容编码器E1和身份分类器W1的损失函数,E1,a表示由神经网络a构成的内容编码器,记为a内容编码器,E1,b表示由神经网络b构成的内容编码器,记为b内容编码器,nb表示batchsize,p(·)表示第i个源域训练样本
Figure BDA0003160094880000142
属于第c个身份的概率输出,log表示以10为底数的对数函数,
Figure BDA0003160094880000143
为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure BDA0003160094880000151
在以上步骤中,步骤3中对风格编码器E2和相机分类器W2进行一次优化的方式如下:
通过ADAM优化器最小化损失函数2,损失函数2的值小于x或epochs超过M时,停止优化,相机风格编码器E2和相机分类器W2完成一次优化,其中,x表示最小化损失函数2阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数2的表达式如下:
Figure BDA0003160094880000152
其中,Lcam_id(E2,W2)表示关于相机风格编码器E2和相机分类器W2的损失函数,p(·)表示第i个源域训练样本
Figure BDA0003160094880000153
属于第c个身份的概率输出或第j个目标域训练样本
Figure BDA0003160094880000154
属于第c个身份的概率输出,log表示以10为底数的对数函数,I为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure BDA0003160094880000155
Figure BDA0003160094880000156
其中,ε为趋于0的常数。
在以上步骤中,步骤4中对内容编码器E1进行二次优化的方式如下:
通过ADAM优化器最小化损失函数3,损失函数3的值小于x或epochs超过M时,停止优化,内容编码器E1完成二次优化,其中,x表示最小化损失函数3阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数3的表达式如下:
Figure BDA0003160094880000161
其中,Lcam1(E1)表示关于内容编码器E1的损失函数,nb表示batchsize,p(·)表示第i个源域训练样本
Figure BDA0003160094880000162
属于第c个身份的概率输出或第j个目标域训练样本
Figure BDA0003160094880000163
属于第c个身份的概率输出,log表示以10为底数的对数函数,I,
Figure BDA0003160094880000164
为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure BDA0003160094880000165
Figure BDA0003160094880000166
Figure BDA0003160094880000167
其中,ε为趋于0的常数。
在以上步骤中,步骤4中对相机风格编码器E2进行二次优化的方式如下:
通过ADAM优化器最小化损失函数4,损失函数4的值小于x或epochs超过M时,停止优化,相机风格编码器E2完成二次优化,其中,x表示最小化损失函数4阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数4的表达式如下:
Figure BDA0003160094880000171
其中,Lid1(E2)表示关于相机风格编码器E2的损失函数,nb表示batchsize,p(·)表示第i个源域训练样本
Figure BDA0003160094880000172
属于第c个身份的概率输出或第j个目标域训练样本
Figure BDA0003160094880000173
属于第c个身份的概率输出,log表示以10为底数的对数函数,
Figure BDA0003160094880000174
为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure BDA0003160094880000175
Figure BDA0003160094880000176
其中,ε为趋于0的常数。
在本实例中,x取0.05,M取100,ε值取0.1;
为了佐证本发明的效果,为验证提出方法的有效性,我们在三个大规模行人重识别数据集Market1501[1]、DukeMTMC-reID(Duke)[2][3]、MSMT17[4]上以及携带了干扰图像的数据集GRID[5]和PRID2011[6]对算法性能进行评估。针对数据集进行介绍的文献如表1所示。表1共涉及29个参考文献,除对数据集进行介绍的文献,其它文献中提出的典型方法,如MMT方法,也被用于与本专利方法效果进行对比验证。
表1对比试验所用参考文献
Figure BDA0003160094880000181
Figure BDA0003160094880000191
Figure BDA0003160094880000201
首先在Duke→Market1501和Market1501→Duke两种任务上,对提出的方法与其它方法进行了比较,对比结果如表1所示。其中,A→B表示数据集A和B分别作为源域和目标域,如Duke→Market1501任务中,Duke为源域,Market1501为目标域。Rank-1、Rank-5、Rank-10、mAP是通用的基于概率统计的识别准确率评价指标,此处用于计算行人重识别准确率。此外,表2中“-”表示该文献中未用这种评价标准。
表2不同算法在Duke→Market1501和Market1501→Duke上的实验对比
Figure BDA0003160094880000202
Figure BDA0003160094880000211
在表2中可以发现,该实验中,对比方法可以分为三类:(a)基于聚类伪标签预测的方法;(b)基于额外模型辅助的方法(c)基于域不变特征学习的方法。其中,与域不变特征学习的算法相比,本文提出的方法在Duke→Market1501和Market1501→Duke上,rank1/mAP的精度分别达到了72.7%/38.2%和65.3%/42.9%,以较大的幅度超过了同类的对比方法。这证明了本专利方法的有效性。同时,在rank1的识别精度上超过了最优的两种基于额外模型辅助的识别方法ECN[16]和PDA-Net[17]。
基于聚类伪标签预测的方法取在公开的数据集上,表现出了优异的识别性能。例如MMT方法[11],在Duke→Market1501和Market1501→Duke上的Rank-1/mAP的识别率分别达到了87.7%/71.2%和78.0%/65.1%,这是因为在目标域中,参与训练的每一个行人都含有正样本,这为正确预测伪标签提供了帮助。但在实际场景中,正样本极为稀少,这就为伪标签预测带来了极大的挑战。如果将这类算法直接部署到干扰图像较多的现实场景中,这类算法性能可能会急剧下降。与这类方法相比,本专利方法不需要预测伪标签,因此识别性能对正样本数量没有依赖性。为进一步验证本文算法相对于基于聚类伪标签预测方法的优势,我们把携带了干扰图像的GRID和PRID2011作为目标数据集,Market1501和Duke分别作为源域。实验结果如表3所示。
表3本文方法与聚类伪标签预测的方法在GRID和PRID2011上的实验结果对比
Figure BDA0003160094880000221
从表3可以看出,基于伪标签预测的UDAP[10],ACT[29],MMT[11]在有干扰行人图像的数据集上Rank1的识别精度没有超过30%,而本专利的方法最低性能也达到了39.9%。具体地,当源域为Duke时,提出的方法在GRID和PRID2011上的Rank1/mAP识别率分别是39.9%/64.8%和52.4%/63.2%,这比MMT提高了19.1%/35.9%和27.4%/29.3%。当源域为Market1501,提出的方法在GRID和PRID2011上的Rank1/mAP识别率分别是47.2%/70.8%,46.2%/67.5%,同样比MMT提高了很多。以上实验说明我们的方法在有干扰图像的数据集上同样是有效的,而基于聚类伪标签预测的方法在有干扰图像的情况下,性能出现了显著下降。
此外,由表2中的对比结果可以看出,基于额外模型辅助方法同样也表现出了较强的竞争性尤其是ECN和PDA-Net。但这类算法的性能极大地依赖于额外模型的辅助,降低了模型的实际应用效率。为了证明这一点,我们以ECN为例,在Market1501→Duke和Market1501→Duke两个任务上,本专利方法与其在时间成本上进行了对比。如表4所示,在Market1501→Duke任务上,本专利的方法训练Re-id模型大约需要9小时,而ECN大约花费90小时,这是因为ECN通过Camstyle进行图像风格迁移花费了大量时间,当迁移的目标数据集规模更大,例如MSMT17,那么花费的时间也就更多。这显然降低了模型在实际场景中的可适用性。相对来说,本文算法在训练效率和识别性能均有更好的表现。
表4提出的方法与ECN在模型训练上的效率对比
Figure BDA0003160094880000222
Figure BDA0003160094880000231

Claims (5)

1.一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,包括通过训练流程得到具有提取域不变特征的内容编码器E1、在测试流程中利用该内容编码器E1对目标域测试样本中的行人进行重识别;所述训练流程包括内容编码分支和相机风格编码分支,所述内容编码分支包括内容编码器E1和身份分类器W1,所述相机风格编码分支包括风格编码器E2和相机分类器W2,具体包括以下步骤:
步骤1,采样及训练样本的选择
采样行人重识别数据集Duke中的Ms个身份的Ns张图片,组成源域训练样本Xs;采样行人重识别数据集Market1501中的Nt张图片,将其作为目标域训练样本Xt,其表达式分别为:
Figure FDA0003160094870000011
其中,i表示源域训练样本的序号,
Figure FDA0003160094870000012
表示第i个源域训练样本,Ns表示源域训练样本数量;令第f个源域训练样本
Figure FDA0003160094870000013
对应的身份标签为
Figure FDA0003160094870000014
Figure FDA0003160094870000015
Ms表示源域训练样本行人类别总数;令第i个源域训练样本
Figure FDA0003160094870000016
对应的相机标签为
Figure FDA0003160094870000017
Figure FDA0003160094870000018
Cs表示源域训练样本相机类别总数;
Figure FDA0003160094870000019
Figure FDA00031600948700000110
表示第j个目标域训练样本,Nt表示目标域训练样本数量,j表示目标域训练样本序号,第j个目标域训练样本
Figure FDA00031600948700000111
对应的相机标签为
Figure FDA00031600948700000112
Figure FDA00031600948700000113
Ct表示目标域训练样本相机类别总数,目标域训练样本Xt的身份标签未知;
步骤2,内容编码分支的训练流程
步骤2.1,分别将源域训练样本Xs和目标域训练样本Xt输入内容编码器E1,提取与行人身份相关的信息,得到源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt);
步骤2.2,将源域训练样本内容编码器特征E1(Xs),输入到身份分类器W1,利用将源域训练样本内容编码器特征E1(Xs)分类到正确的身份的过程,对内容编码器E1和身份分类器W1进行一次优化,并将优化结果分别记为一次优化后的内容编码器E′1和一次优化后的身份分类器为W′1
步骤3,风格编码分支的训练流程
步骤3.1,分别将源域训练样本Xs和目标域训练样本Xt输入到风格编码器E2,提取相机的风格信息,得到源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt);
步骤3.2,将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt),输入到相机分类器W2,利用将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)分类到正确的相机的过程,对风格编码器E2和相机分类器W2进行一次优化,并将优化结果分别记为一次优化后的相机风格编码器E′2和一次优化后的相机分类器W′2
步骤4,对抗学习训练
固定一次优化后的身份分类器W′1的参数和一次优化后的相机分类器W′2的参数;
将源域训练样本内容编码器特征E1(Xs)和目标域训练样本内容编码器特征E1(Xt)输入到一次优化后的相机分类器W′2,对内容编码器E1进行二次优化,并将优化结果记为二次优化后的内容编码器E″1;同时将源域训练样本相机编码器特征E2(Xs)和目标域训练样本相机风格编码器特征E2(Xt)输入到一次优化后的身份分类器W′1,对风格编码器E2进行二次优化,并将优化结果记为二次优化后的相机风格编码器E″2
通过以上对抗学习的方式,使二次优化后的内容编码器E″1具有提取域不变特征的能力;
步骤5,测试流程,具体步骤如下:
步骤5.1,采样行人重识别数据集Market1501中的Mo个身份的No张图片,组成目标域测试样本X0
Figure FDA0003160094870000031
其中,l表示目标域测试样本序号,
Figure FDA0003160094870000032
表示第l个目标域测试样本,No表示目标域测试样本数量,令第l个目标域测试样本
Figure FDA0003160094870000033
对应的身份标签为
Figure FDA0003160094870000034
Figure FDA0003160094870000035
Mo表示目标域测试样本行人类别总数;令第l个目标域测试样本
Figure FDA0003160094870000036
对应的相机标签为
Figure FDA0003160094870000037
Figure FDA0003160094870000038
Co表示目标域测试样本相机类别总数;
步骤5.2,将目标域测试样本Xo输入到步骤4得到的二次优化后的内容编码器E″1,得到目标域测试样本内容编码器特征E″1(Xo),计算目标域测试样本X0与其对应的身份标签
Figure FDA0003160094870000039
之间的准确率。
2.根据权利要求1所述的一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,步骤2中对内容编码器E1和身份分类器W1进行一次优化的方式如下:
通过ADAM优化器最小化损失函数1,损失函数1值小于x或epochs超过M时,停止优化,内容编码器E1和身份分类器W1完成一次优化,其中,x表示最小化损失函数1阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数1的表达式如下:
Figure FDA0003160094870000041
其中,Lid(E1,W1)表示关于内容编码器E1和身份分类器W1的损失函数,E1,a表示由神经网络a构成的内容编码器,记为a内容编码器,E1,b表示由神经网络b构成的内容编码器,记为b内容编码器,nb表示batch size,p(·)表示第i个源域训练样本
Figure FDA0003160094870000042
属于第c个身份的概率输出,log表示以10为底数的对数函数,
Figure FDA0003160094870000043
为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure FDA0003160094870000044
其中,ε为趋于0的常数。
3.根据权利要求1所述的一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,步骤3中对风格编码器E2和相机分类器W2进行一次优化的方式如下:
通过ADAM优化器最小化损失函数2,损失函数2的值小于x或epochs超过M时,停止优化,相机风格编码器E2和相机分类器W2一次优化完成,其中,x表示最小化损失函数2阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数2的表达式如下:
Figure FDA0003160094870000051
其中,Lcam_id(E2,W2)表示关于相机风格编码器E2和相机分类器W2的损失函数,p(·)表示第i个源域训练样本
Figure FDA0003160094870000052
属于第c个身份的概率输出或第j个目标域训练样本
Figure FDA0003160094870000053
属于第c个身份的概率输出,log表示以10为底数的对数函数,I为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure FDA0003160094870000054
Figure FDA0003160094870000055
其中,ε为趋于0的常数。
4.根据权利要求1所述的一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,步骤4中对内容编码器E1进行二次优化的方式如下:
通过ADAM优化器最小化损失函数3,损失函数3的值小于x或epochs超过M时,停止优化,内容编码器E1进行二次优化完成,其中,x表示最小化损失函数3阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数3的表达式如下:
Figure FDA0003160094870000061
其中,Lcam1(E1)表示关于内容编码器E1的损失函数,nb表示batch size,p(·)表示第i个源域训练样本
Figure FDA0003160094870000062
属于第c个身份的概率输出或第j个目标域训练样本
Figure FDA0003160094870000063
属于第c个身份的概率输出,log表示以10为底数的对数函数,I,
Figure FDA0003160094870000064
为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure FDA0003160094870000065
Figure FDA0003160094870000066
Figure FDA0003160094870000067
其中,ε为趋于0的常数。
5.根据权利要求1所述的一种基于双路互促进解纠缠学习的行人重识别方法,其特征在于,步骤4中对相机风格编码器E2进行二次优化的方式如下:
通过ADAM优化器最小化损失函数4,损失函数4的值小于x或epochs超过M时,停止优化,相机风格编码器E2二次优化完成,其中,x表示最小化损失函数4阈值,epochs表示训练的轮数,M表示训练轮数的值,损失函数4的表达式如下:
Figure FDA0003160094870000071
其中,Lid1(E2)表示关于相机风格编码器E2的损失函数,nb表示batch size,p(·)表示第i个源域训练样本
Figure FDA0003160094870000072
属于第c个身份的概率输出或第j个目标域训练样本
Figure FDA0003160094870000073
属于第c个身份的概率输出,log表示以10为底数的对数函数,
Figure FDA0003160094870000074
为指示函数,是标签平滑策略,缓解模型在目标域过拟合,定义如下:
Figure FDA0003160094870000075
Figure FDA0003160094870000076
其中,ε为趋于0的常数。
CN202110792515.XA 2021-07-13 2021-07-13 一种基于双路互促进解纠缠学习的行人重识别方法 Active CN113449676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110792515.XA CN113449676B (zh) 2021-07-13 2021-07-13 一种基于双路互促进解纠缠学习的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110792515.XA CN113449676B (zh) 2021-07-13 2021-07-13 一种基于双路互促进解纠缠学习的行人重识别方法

Publications (2)

Publication Number Publication Date
CN113449676A true CN113449676A (zh) 2021-09-28
CN113449676B CN113449676B (zh) 2024-05-10

Family

ID=77816162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110792515.XA Active CN113449676B (zh) 2021-07-13 2021-07-13 一种基于双路互促进解纠缠学习的行人重识别方法

Country Status (1)

Country Link
CN (1) CN113449676B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822236A (zh) * 2021-11-22 2021-12-21 杭州云栖智慧视通科技有限公司 一种基于人体语义部件的上衣颜色替换方法
CN115731097A (zh) * 2022-12-05 2023-03-03 东北林业大学 一种基于解纠缠表示的多风格迁移方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150363636A1 (en) * 2014-06-12 2015-12-17 Canon Kabushiki Kaisha Image recognition system, image recognition apparatus, image recognition method, and computer program
CN110069972A (zh) * 2017-12-11 2019-07-30 赫克斯冈技术中心 自动探测真实世界物体
CN110189278A (zh) * 2019-06-06 2019-08-30 上海大学 一种基于生成对抗网络的双目场景图像修复方法
CN111783521A (zh) * 2020-05-19 2020-10-16 昆明理工大学 基于低秩先验引导的域不变信息分离的行人重识别方法
CN112069940A (zh) * 2020-08-24 2020-12-11 武汉大学 一种基于分阶段特征学习的跨域行人重识别方法
CN112766217A (zh) * 2021-01-30 2021-05-07 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN112819158A (zh) * 2021-02-05 2021-05-18 凌坤(南通)智能科技有限公司 一种基于优化的bp神经网络的气体辨识方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150363636A1 (en) * 2014-06-12 2015-12-17 Canon Kabushiki Kaisha Image recognition system, image recognition apparatus, image recognition method, and computer program
CN110069972A (zh) * 2017-12-11 2019-07-30 赫克斯冈技术中心 自动探测真实世界物体
CN110189278A (zh) * 2019-06-06 2019-08-30 上海大学 一种基于生成对抗网络的双目场景图像修复方法
CN111783521A (zh) * 2020-05-19 2020-10-16 昆明理工大学 基于低秩先验引导的域不变信息分离的行人重识别方法
CN112069940A (zh) * 2020-08-24 2020-12-11 武汉大学 一种基于分阶段特征学习的跨域行人重识别方法
CN112766217A (zh) * 2021-01-30 2021-05-07 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN112819158A (zh) * 2021-02-05 2021-05-18 凌坤(南通)智能科技有限公司 一种基于优化的bp神经网络的气体辨识方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄伟: "协同目标分割与识别的研究", 《中国博士学位论文全文数据库》, no. 01, 15 January 2021 (2021-01-15), pages 138 - 110 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822236A (zh) * 2021-11-22 2021-12-21 杭州云栖智慧视通科技有限公司 一种基于人体语义部件的上衣颜色替换方法
CN115731097A (zh) * 2022-12-05 2023-03-03 东北林业大学 一种基于解纠缠表示的多风格迁移方法

Also Published As

Publication number Publication date
CN113449676B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN104751136B (zh) 一种基于人脸识别的多相机视频事件回溯追踪方法
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN109101602A (zh) 图像检索模型训练方法、图像检索方法、设备及存储介质
CN108549895A (zh) 一种基于对抗网络的半监督语义分割方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN112861695B (zh) 行人身份再识别方法、装置、电子设备及存储介质
CN113449676A (zh) 一种基于双路互促进解纠缠学习的行人重识别方法
CN117292338B (zh) 基于视频流解析的车辆事故识别和分析方法
CN109376736A (zh) 一种基于深度卷积神经网络的视频小目标检测方法
CN116363712B (zh) 一种基于模态信息度评估策略的掌纹掌静脉识别方法
Huang et al. Semi-supervised domain adaptation via adaptive and progressive feature alignment
CN112613474B (zh) 一种行人重识别的方法和装置
Hrkac et al. Tattoo detection for soft biometric de-identification based on convolutional neural networks
CN117351514A (zh) 一种基于前景分割的跨模态行人重识别方法
CN113920573B (zh) 基于对抗学习的人脸变化解耦的亲属关系验证方法
Campos et al. Global localization with non-quantized local image features
CN110110598A (zh) 一种基于视觉特征与时空约束的行人再识别方法及系统
CN112418078B (zh) 分数调制方法、人脸识别方法、装置及介质
CN114821722A (zh) 一种基于马氏距离改进的人脸识别系统及方法
Liu et al. Adversarial Domain Generalization for Surveillance Face Anti-Spoofing
CN113761987A (zh) 一种行人重识别的方法、装置、计算机设备和存储介质
Jain et al. Stochastic Binary Network for Universal Domain Adaptation
CN112699846B (zh) 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置
Xu et al. Meta-transfer learning for person re-identification in aerial imagery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant