CN113723345A

CN113723345A - 基于风格转换和联合学习网络的域自适应行人再识别方法

Info

Publication number: CN113723345A
Application number: CN202111053962.XA
Authority: CN
Inventors: 郭迎春; 冯放; 阎刚; 朱叶; 于洋; 师硕; 刘依; 吕华; 郝小可; 于明
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-11-30
Anticipated expiration: 2041-09-09
Also published as: CN113723345B

Abstract

本发明为一种基于风格转换和联合学习网络的域自适应行人再识别方法，包括一、利用源域数据集对神经网络模型进行预训练；二、对目标域数据集中的行人图像进行风格转换；三、对每张行人图像进行预处理；四、将同一张行人图像采用两种预处理方式得到的图像输入到两个神经网络模型中提取特征，将两个高阶特征保存至两个存储器中；两个高阶特征进行聚类，得到伪标签；将同一张行人图像的两个高阶特征进行融合，融合后的高阶特征存储在联合存储器中；五、基于伪标签训练两个神经网络模型，基于联合存储器同步训练两个神经网络模型；六、重复第四、五步并在训练过程中计算两个神经网络模型的识别精度，将识别精度最佳的神经网络模型用于行人再识别。

Description

基于风格转换和联合学习网络的域自适应行人再识别方法

技术领域

本发明属于计算机视觉中的图像数据处理技术领域，具体地说是一种基于风格转换和联合学习网络的域自适应行人再识别方法。

背景技术

行人再识别是一项判断在跨时空的不同摄像头之间是否存在特定行人的技术，此项技术对于行人特征的挖掘更倾向于整体一致性，而不局限行人打扮是否一致、脸部是否有遮挡等具有代表性的细节特征。目前，该技术在智能安防、无人超市、人机交互等多个领域有着广泛应用，行人再识别无论在学术界还是工业界都有着重要的研究价值和研究需求，如何准确匹配不同相机下的同一行人身份是行人再识别技术的重要内容。

现有的行人再识别主要分为有监督、无监督和域自适应三种方式，有监督的行人再识别虽然可以达到很高的准确率，但是需要完整的带标签的数据集进行训练且泛化能力差。相比之下，无监督的方式无需数据集的标签，但是它的准确率比较低，往往不能达到工业要求的标准。而域自适应的方式结合了前两种的优点，它将数据集分为有标签的源域数据集和无标签的目标域数据集，然后将在源域数据集上训练模型得到的先验知识迁移到目标域数据集上利用，从而在不利用目标域数据集标签的情况下达到期望的准确率。

域自适应的行人再识别方法按照不同的模型构建思路可以分为基于域分布对齐的域自适应方法、基于域风格转换的域自适应方法、基于聚类的域自适应方法这三类。基于域分布对齐的域自适应方法通常需要利用额外的属性信息或是单独设计损失函数，目的是拉近目标域和源域的数据分布，从而使目标域可以更好适用源域的先验知识。由于域分布对齐往往需要考虑更多的因素，所以应用在跨域行人再识别方向的效果往往差强人意。基于域风格转换的域自适应方法，GAN(Generative Adversarial Networks)为数据集的扩充提供了一种新的思路，域风格转换的方法就是利用GAN生成不同风格的行人图像，将这些图像作为目标域数据集的一部分同等加入到训练集中，由于该方法过度依赖于生成图像的质量，导致准确性普遍低于有监督的行人再识别。基于聚类的域自适应方法，通过网络提取图像特征并利用聚类算法打上伪标签，并将这些伪标签视为数据集的标签加入到网络中进行训练。这种方法可以有效地解决目标域缺乏标签的问题，在大量实验中被证明具有良好的效果。但是它的缺陷是模型的准确性过度依赖于聚类产生的伪标签的质量，而且随着模型的迭代，伪标签的噪声会越来越大。

Zhong等人在文献《Invariance Matters:Exemplar Memory for DomainAdaptive Person Re-identification》中提出ECN模型(Exemplar Camera Neighborhoodinvariance)，该模型将源域和目标域一同输入到网络中进行训练，相当于将限制条件进行了放大，偏离实际情况。Yu等人在文献《Unsupervised Person Re-identification bySoft Multilabel Learning》中提出MAR模型(deep soft multilabel referencelearning)，该模型选用MSMT17数据集作为辅助数据集建立坐标系，使模型的准确率过于依赖辅助数据集的应用。Yang等人在文献《Asymmetric Co-Teaching for UnsupervisedCross-Domain Person Re-Identification》中提出ACT(Asymmetric Co-Teaching)模型，该模型使用非对称的教学网络捕捉到更多的离群点信息，但该方法在减小聚类算法为噪声方面仍存在不足。Yang等人在文献《Self-similarity grouping:A simple unsupervisedcross domain adaptation approach for person reidentification》中提出SSG(Self-similarity Grouping)模型，该模型使用统一格式划分特征图，得到行人的局部特征，并没有充分考虑每个特征图的独立性。公开号为CN112084881A的中国专利公开了一种基于存储介质的不同地域行人图像风格转换方法，该方法的预设条件过于严苛，只考虑到了数据集的转换而没有相配套的适应性训练方法。公开号为CN111898665A的中国专利公开了一种基于邻居样本信息引导的域自适应行人再识别方法，该方法利用图卷积神经网络整合邻居样本信息，并将这种能力通过知识迁移的方法由源域过渡到目标域，由于模型过度依赖邻居信息对聚类的影响，会造成聚类噪声随着训练逐渐扩大。公开号为CN111695531A的中国专利公开了一种基于异构卷积的域自适应行人再识别方法，分别利用源域模型和图卷积神经网路构建了两次行人图像特征，该方法忽略了域间隙的差异性会随着迭代逐渐放大。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于风格转换和联合学习网络的域自适应行人再识别方法。

本发明解决所述技术问题所采用的技术方案是：

一种基于风格转换和联合学习网络的域自适应行人再识别方法，其特征在于，该方法的具体步骤如下：

第一步、利用源域数据集对神经网络模型进行预训练，得到预训练参数；

第二步、获取目标域数据集，并对目标域数据集中的行人图像进行风格转换，得到新的目标域数据集；

第三步、将预训练参数分别作为两个神经网络模型的初始参数进行初始化，得到神经网络模型R1和R2，这两个神经网络模型构成联合学习网络；将新的目标域数据集中的每张行人图像进行预处理；

第四步、将同一张行人图像采用两种预处理方式得到的预处理后的图像分别输入到神经网络模型R1和R2中进行特征提取，得到两个高阶特征，并将两个高阶特征分别保存至存储器F₁和F₂中；同时将这两个高阶特征分别进行聚类处理，得到两个伪标签；

将存储器F₁和F₂中属于同一张行人图像的两个高阶特征进行加权融合，得到融合后的高阶特征，并将融合后的高阶特征存储在联合存储器F中；

第五步、基于伪标签训练神经网络模型R1和R2，并利用目标域分类损失函数和目标域三元组损失函数计算训练损失；利用联合存储器F中融合后的高阶特征对神经网络模型R1和R2进行同步训练，并利用联合分类损失函数和联合三元组损失函数计算训练损失；利用式(14)计算两个神经网络模型R1和R2总的训练损失；

L_all＝λL_t,id+γL_t,tri+(1-λ)L_uid+(1-γ)L_utri (14)

式(14)中，λ和γ均为权重参数，L_t,id为神经网络模型R1和R2总的目标域分类损失，L_t,tri为神经网络模型R1和R2总的目标域三元组损失，L_uid为神经网络模型R1和R2总的联合分类损失，L_utri为神经网络模型R1和R2总的联合三元组损失；

第六步、重复第四、五步对神经网络模型R1和R2进行训练，直到训练完成；计算神经网络模型R1和R2的识别精度，将识别精度最佳的神经网络模型用于行人再识别。

第五步中，目标域分类损失函数

的表达式为：

式(5)中，N_t为目标域数据集中行人图像的数量；

表示利用神经网络模型k进行训练时将第i张行人图像

预测为身份

的概率，k取R1表示神经网络模型R1对应的目标域分类损失函数，k取R2表示神经网络模型R2对应的目标域分类损失函数；

神经网络模型R1和R2总的目标域分类损失为：

目标域三元组损失函数

的表达式为：

式(7)中，

分别表示利用神经网络模型k进行训练时第i张行人图像

的难正样本和难负样本，

分别表示难正样本

和难负样本

对应的特征，

表示利用神经网络模型k提取的高阶特征；

神经网络模型R1和R2总的目标域三元组损失为：

联合分类损失函数

的表达式为：

式(9)中，

分别表示利用联合存储器F中融合后的高阶特征和利用存储器F_e中的高阶特征对神经网络模型R1和R2进行训练时第i张行人图像

在第q个聚类类别下的预测概率；e取1表示存储器F₁，e取2表示存储器F₂；

神经网络模型R1和R2总的联合分类损失为：

联合三元组损失函数

的表达式为：

式(11)中，

的表达式为：

神经网络模型R1和R2总的联合三元组损失如式(13)所示。

第四步中，每张行人图像每次训练提取出的高阶特征均通过式(15)的更新策略加入到存储器F1和F2中；

f_e(x_t,i)＝af_e(x_t,i)+(1-a)f(x_t,i) (15)

其中，f(x_t,i)、f_e(x_t,i)分别表示第i张行人图像x_t,i更新前和更新后保存在存储器中的高阶特征，a为动量更新因子。

所述神经网络模型为ResNet50或IBN-Resnet50。

当λ＝0.6,γ＝0.8时，神经网络模型的识别精度好。

与现有技术相比，本发明的有益效果是：

1.本发明将同一张行人图像经过两种预处理方式得到的两张预处理后的图像分别通过两个相同的神经网络模型提取特征，并将提取的特征存储在两个存储器中，同时对提取的特征进行聚类处理得到伪标签；将两个存储器中属于同一行人图像的特征进行融合，并将融合后的特征存储在联合存储器中，利用伪标签和联合存储器中融合后的特征对联合学习网络的两个神经网络模型进行同步训练，利用两个相同的神经网络模型合并监督联合学习网络的训练，得到识别精度最佳的神经网络模型，可以有效减少聚类算法产生的伪标签的噪声对结果的影响。

2.通过StarGAN对目标域数据集中行人图像进行相机间的风格转换，从而缩小了不同相机间样本的分布差距，同时也对样本数量进行了扩充，用该数据集进行模型训练更具有鲁棒性；StarGAN相比于cycleGAN等其他的GAN网络更适用于多领域的图像转换。

3.利用存储器结构保存每次迭代经过神经网络模型提取到的特征，并利用更新策略将新的特征和以前的特征进行融合，这样得到的存储器特征更能真实反映行人的整体特征。

4.针对联合学习网络的两个神经网络模型分别设计了训练损失函数，其中联合分类损失函数和联合三元组损失函数是为了缩小基于联合存储器中的融合后的高阶特征预测的概率值与基于两个存储器中高阶特征对应的伪标签预测的概率值之间的差距。本发明利用的存储器结构在极少增加运算时间的情况下，有效地提升了识别的准确度，在实际应用上有良好的前景。

5.本发明的联合学习网络具有以下优点：与ECN相比，更接近于实际情况的应用；与MAR相比，不依赖于辅助数据集，可以极大减少计算量；与ACT相比，不用将过多的注意力放在处理信息量更少的离群点上，对聚类噪声地控制更稳定；与SSG相比，具有地优点是直接对特征图进行处理，避免分割特征图后计算量成倍增加。本发明方法与CN112084881A相比，具有的优点是更简洁的风格转换方法，并利用联合学习网络模型配合相机的风格转换，有效地减小了域间隙。本发明方法与CN111898665A相比，具有的优点是利用聚类算法产生的伪标签进行训练的同时，还利用联合存储器结构构造损失一同训练网络，有效地控制了聚类噪声扩大。本发明方法与CN111695531A相比，具有的优点是利用了存储器结构保存了每次迭代的特征，这样的特征对于模型的训练更具有鲁棒性。

附图说明

图1是本发明的整体流程图；

图2是本发明的联合学习网络的模型图。

具体实施方式

下面结合具体实施例和附图对本发明的技术方案作进一步详细描述，但并不以此限定本申请的保护范围。

本发明为一种基于风格转换和联合学习网络的域自适应行人再识别方法(简称方法，参见图1-2)，具体步骤如下：

本实施例选取DukeMTMC-ReID数据集作为源域数据集，将源域数据集中的每张行人图像都经过神经网络模型提取特征，并最终输出行人图像的身份预测；采用源域交叉熵损失函数和源域三元组损失函数来优化神经网络模型的预训练参数；

其中，源域交叉熵损失函数L_s,id的表达式为：

式(1)中，p(y_s,i|x_s,i)表示将第i张行人图像x_s,i预测为身份y_s,i的概率，s表示源域数据集，N_s为源域数据集中行人图像的数量，在本实施例中N_s＝16552；

源域三元组损失函数L_s,tri的表达式为：

式(2)中，f(x_s,i)为从第i张行人图像x_s,i上提取的特征，m为边距参数，x_s,i+、x_s,i-分别为第i张行人图像x_s,i的难正样本和难负样本，f(x_s,i+)、f(x_s,i-)分别为难正样本x_s,i+和难负样本x_s,i-对应的特征，|| ||表示欧式距离；

本实施例选取Market1501数据集作为目标域数据集，利用StarGAN算法对目标域数据集中的所有行人图像进行风格转换；Market1501数据集由6个不同相机拍摄的行人图像组成，因此利用StarGAN算法训练6个转换器，每个相机对应一个转换器；对于第j个相机下的行人图像，分别利用除第j个相机对应的转换器外的其余5个转换器进行风格转换，并将转换后的行人图像加入到第j个相机对应的行人图像集合中，得到如公式(3)所示的目标域数据集中第j个相机下的行人图像集合

式(3)中，

表示利用StarGAN算法进行风格转换后的行人图像，n表示相机数量，在本实施例中n取6，t表示目标域数据集；

每张行人图像都通过前述方式进行风格转换，并将转换后的行人图像加入到各自相机对应的行人图像集合中，得到新的目标域数据集；

第三步、将第一步中得到预训练参数分别作为两个完全相同的神经网络模型的初始参数进行初始化，得到神经网络模型R1和R2，这两个神经网络模型构成联合学习网络；将新的目标域数据集中的每张行人图像分别采用随机旋转、随机擦除、随机裁剪等方式进行预处理，同一张行人图像得到多张预处理后的图像；

第四步、将新的目标域数据集中同一张行人图像采用两种预处理方式得到的预处理后的图像分别输入到神经网络模型R1和R2中进行特征提取，得到两个高阶特征，并将两个高阶特征分别保存至存储器F₁和F₂中；同时将这两个高阶特征分别进行Mini-Batch k-means聚类处理，得到两个伪标签；新的目标域数据集中的每张行人图像都经过此操作，每张行人图像均得到两个伪标签；

本实施例中聚类类别数C＝500，每个类别对应一个伪标签，根据每个类别的特征，得到每张行人图像对应的伪标签；

利用式(4)将两个存储器F₁和F₂中属于同一张行人图像的两个高阶特征进行加权融合，得到融合后的高阶特征，并将融合后的高阶特征存储在联合存储器F中；

F＝(F₁+F₂)/2 (4)

第五步、基于伪标签训练神经网络模型R1和R2，并利用目标域分类损失函数和目标域三元组损失函数计算训练损失；利用联合存储器F中融合后的高阶特征对神经网络模型R1和R2进行同步训练，并利用联合分类损失函数和联合三元组损失函数计算训练损失；

基于伪标签构建目标域分类损失函数和目标域三元组损失函数，目标域分类损失函数

的表达式为：

式(5)中，N_t为目标域数据集中行人图像的数量，在本实施例中N_t的取值为12936；

表示利用神经网络模型k进行训练时将第i张行人图像

预测为身份

的概率，当k取R1时，表示神经网络模型R1对应的目标域分类损失函数；当k取R2时，表示神经网络模型R2对应的目标域分类损失函数；

神经网络模型R1和R2总的目标域分类损失为：

目标域三元组损失函数

的表达式为：

式(7)中，

分别表示利用神经网络模型k进行训练时第i张行人图像

的难正样本和难负样本，

分别表示难正样本

和难负样本

对应的特征，

表示利用神经网络模型k提取的高阶特征；

神经网络模型R1和R2总的目标域三元组损失为：

将联合存储器F中融合后的高阶特征作为联合学习网络的监督信号，构建联合分类损失函数和联合三元组损失函数；其中，联合分类损失函数

的表达式为：

式(9)中，

在第q个聚类类别下的预测概率；当e取1时，表示存储器F₁；当e取2时，表示存储器F₂；

神经网络模型R1和R2总的联合分类损失为：

联合三元组损失函数

的表达式为：

式(11)中，

的表达式为：

神经网络模型R1和R2总的联合三元组损失为：

式(9)、(11)的联合分类损失函数和联合三元组损失函数不同于式(5)、(7)基于伪标签构建的目标域分类损失函数和目标域三元组损失函数，联合分类损失函数和联合三元组损失函数是为了缩小基于联合存储器中的融合后的高阶特征预测的概率值与基于存储器F1和F2中高阶特征预测的概率值之间的差距；

利用式(14)计算两个神经网络模型R1和R2总的训练损失；

L_all＝λL_t,id+γL_t,tri+(1-λ)L_uid+(1-γ)L_utri (14)

式(14)中，λ和γ均为权重参数，当λ＝0.6,γ＝0.8时mAP和Rank-1指标最佳；

第六步、利用新的目标域数据集重复第四、五步，对神经网络模型R1和R2进行迭代训练，直到神经网络模型R1和R2的迭代训练完成；计算神经网络模型R1和R2的识别精度，将识别精度最佳的神经网络模型用于行人再识别。

每张行人图像每次训练提取出的高阶特征均通过式(15)所示的更新策略加入到存储器F1和F2中；

f_e(x_t,i)＝af_e(x_t,i)+(1-a)f(x_t,i) (15)

式(15)中，f(x_t,i)、f_e(x_t,i)分别表示第i张行人图像x_t,i更新前和更新后保存在存储器中的高阶特征，a为动量更新因子，在本实施例中a＝0.99。

所述神经网络模型可以为ResNet50、IBN-Resnet50。

选择mAP(Mean Average Precision，平均精度均值)和Rank-1(匹配正确率)作为神经网络模型识别精度的量化指标；以Duke-MTMC数据集为源域数据集，Market1501数据集为目标域数据集，分别ECN、MAR、UDAP、SSG和本发明方法进行实验验证，得到表1所示的实验对比结果。

表1不同方法的实验对比结果

实验结果表明，本发明方法的平均精度均值和匹配正确率均高于其他方法，这是由于本发明的联合学习网络通过两个神经网络模型的相互监督，有效地减少聚类产生的噪声。同时，本发明选择利用存储器结构保存高阶特征，在每次迭代之后存储器都会利用更新策略将新的特征与初始的特征进行融合，真实的反映行人的整体特征。本发明利用starGAN进行风格转换，在拉近每个相机之间的分布的同时也达到了扩充数据集的目的，使神经网络模型的训练更具有鲁棒性。

上述实施例是本发明应用的一种，但本发明的实施方案不限于此。其他任何不脱离本发明的原理和精神的情况下的技术改变，都包含在本发明的保护范围之内。本发明未述及之处适用于现有技术。