CN113033410B

CN113033410B - 基于自动数据增强的域泛化行人重识别方法、系统及介质

Info

Publication number: CN113033410B
Application number: CN202110325663.0A
Authority: CN
Inventors: 黄伟浩; 郑伟诗; 庞景龙
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-06-06
Anticipated expiration: 2041-03-26
Also published as: CN113033410A

Abstract

本发明公开了一种基于自动数据增强的域泛化行人重识别方法、系统及介质，该方法包括：定义数据增强策略，并构建数据增强策略算法以得到最终输出的数据增强策略

在源域训练集上应用

重新训练行人重识别模型；应用训练好的行人重识别模型进行行人匹配。本发明采用了一种针对域泛化行人重识别问题的数据增强策略搜索算法搜索出一组复杂的数据增强策略，多样性强，可提升行人重识别模型在未知场景下的稳定性和鲁棒性，有利于推进行人重识别技术落地。另外，本发明在数据增强策略搜索过程中采用了TPE算法调优数据增强策略，相比普通数据增强操作进一步提升模型的泛化能力，策略搜索时不需要重复训练行人重识别模型，提升了搜索效率。

Description

基于自动数据增强的域泛化行人重识别方法、系统及介质

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种基于自动数据增强的域泛化行人重识别方法、系统及介质。

背景技术

行人重识别技术(person re-ID，person re-identification)，又称行人检索(person retrieval)，是智能视频分析的重要组成部分。行人重识别旨在使用给定查询图像(queryimage)在一个图像数据库(galleryset)中检索与其匹配的图像，也可以看作是一种针对行人的图像检索任务。

绝大部分行人重识别数据集是由有限个摄像机的图像集组成，训练集的行人身份(person ID)集合与测试集的行人身份(person ID)集合是不相交的，但两者的摄像机集合是一致的。大部分工作都关注有监督场景下的行人重识别问题(有监督单域：训练集有标签)，性能较好，上升空间小。近年，出现了基于深度学习的无监督行人重识别工作，主要分为以下三类：

(1)纯无监督(单域)：训练集无标签；

(2)域适应(跨域)：源域数据有标签，目标域数据无标签且可用于训练；

(3)域泛化(跨域)；源域数据有标签，目标域数据不可用于训练；

纯无监督方法与域适应方法的相关研究工作已比较成熟，而域泛化工作还处于起步阶段。纯无监督与域适应这两者相比于域泛化的优点是可利用目标域数据来缩小源域与目标域之间的域间差距(domain gap)。域间差距主要体现在摄像头角度、行人穿着、光照以及天气等场景因素的不同。

数据增强是增强深度学习模型泛化能力的一项重要技术。本专利仅研究图像增强操作，包括几何变换，颜色空间增强，混合图像(mixing)，随机擦除(randomerasing)等操作。数据增强在行人重识别领域中被广泛利用，除普通的增强操作外，部分行人重识别技术还使用生成对抗网络合成样本以扩充数据集。近年，自动数据增强成为该领域的研究热点，该技术旨在从数据集中自动搜索增强策略(policy，由一组数据增强方法组成)，并使用该策略进行训练以增强模型的泛化能力。

上述行人重识别技术主要有以下缺点：

(1)有监督场景下的行人重识别方法可能对域内场景过拟合。此类方法主要通过难样本挖掘(hard example mining)，局部特征(localfeature)设计等方法学习具有判别性的特征。即使能够提升域内的重识别性能，部分方法使模型对域内场景过拟合，在其他域场景下性能低下，例如，模型在陌生视角场景下的识别性能较差。

(2)纯无监督方法与域适应方法训练过程使用目标域数据能够缩小源域与目标域的域间差距，但真实场景下，难以先让模型适应目标域场景再应用，比如在火车站内的大型监控系统检索失踪儿童，域适应的成本十分高昂，一旦监控系统被修改，如增添摄像机，可能需要重新域适应。以上原因说明这两类方法落地成本高，并不适用真实场景下的大规模行人重识别。

(3)使用生成对抗网络合成样本的行人重识别技术，合成样本过程的时间花费大，而且有可能合成样本是噪声，因为生成对抗网络本身存在一定局限性，其次，行人重识别数据集存在部分低质量的样本，由这些样本合成的新样本变成噪声的概率更高。

(4)数据集的样本数量以及样本多样性是模型泛化能力的重要影响因素。上述行人重识别方法简单地使用了一部分数据增强操作，但是并没有最大限度地发挥数据增强的作用。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于自动数据增强的域泛化行人重识别方法、系统及介质，旨在进一步增强数据集的样本数量以及样本多样性以增强模型在陌生场景下的鲁棒性，解决域泛化行人重识别问题中，行人重识别模型在陌生场景下性能较差的问题。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面公开了一种基于自动数据增强的域泛化行人重识别方法，包括下述步骤：

定义数据增强策略，并构建数据增强策略算法以得到最终输出的数据增强策略

具体为：采样子数据集；令最终输出的数据增强策略/>

为空；在每个子数据集内通过数据增强策略算法搜索数据增强策略，并将搜索到的数据增强策略补充至/>

在源域训练集上应用

重新训练行人重识别模型，具体为：对源域训练集进行采样；应用/>

生成输入数据并输入行人重识别模型；使用损失函数优化行人重识别模型；所述行人重识别模型以残差网络ResNet50为主干网络，主干网络输出一个高维向量作为判别特征，训练网络时，判别特征输入到分类器以计算损失函数和通过反向传播更新参数，实际应用时，判别特征用于计算行人图片间的相似度；

应用训练好的行人重识别模型，以行人图像判别特征间的欧氏距离作为相似度进行行人匹配。

作为优选的技术方案，所述数据增强策略包括多个子策略，每个子策略均包含两个数据增强操作，且数据增强操作有调用次序；所述数据增强操作包括两个超参数：应用该操作的概率和增强幅度；所述数据增强策略的应用过程为：首先随机选取一个子策略，然后根据次序调用数据增强操作并按照操作对应的概率和增强幅度对输入数据应用数据增强操作。

作为优选的技术方案，所述采样子数据集具体为：

从源域训练数据集D_train采样成K个子数据集

每个子数据集/>

内部划分成训练集/>

和验证集/>

其中，子数据集/>

内部的训练集摄像机集合/>

和验证集摄像机集合/>

的交集为空。

作为优选的技术方案，所述在每个子数据集内通过数据增强策略算法搜索数据增强策略，并将搜索到的数据增强策略补充至

具体为：

令子数据集

内搜索的数据增强策略/>

为空；

使用子数据集

的训练集/>

训练行人重识别模型θ；

重复以下步骤T次：通过贝叶斯优化方法搜索一组候选数据增强策略，令为

从这一组候选数据增强策略选取验证集上损失最小的n个数据增强策略，并将这些数据增强策略的子策略添加到/>

将

的子策略加入到最终输出的数据增强策略/>

作为优选的技术方案，所述通过贝叶斯优化方法搜索一组候选数据增强策略具体为，重复以下步骤B次具体为：

采样一组子策略构造成一个候选数据增强策略

为子策略数量；

将对应的调用概率

和对应的增强幅度/>

设置为行人重识别模型θ的数据增强策略超参数；

在验证集

上，使用TPE算法对所述数据增强策略超参数进行优化，最小化行人重识别模型θ在验证集/>

上的损失/>

以搜索一组使损失最小的数据增强策略，其中，优化时只需用行人重识别模型θ计算损失，不涉及训练过程。

作为优选的技术方案，所述行人重识别模型θ以去除最后一个全连接层的残差网络作为骨干网络，紧接一个全连接层进并使用交叉熵损失作为损失函数监督网络训练。

作为优选的技术方案，所述在源域训练集上应用输出的数据增强策略重新训练行人重识别模型具体为：

从源域训练集D_train随机采样若干张行人图片；

应用数据增强策略

生成输入数据：从数据增强策略/>

中随机选取一个子策略，依序在采样的样本上应用子策略中的数据增强操作，生成训练网络的输入数据，并输入至行人重识别模型θ；

计算损失并使用随机梯度下降法更新模型参数；

重复上述步骤，直到损失收敛，得到训练好的行人重识别模型θ。

作为优选的技术方案，所述应用训练好的行人重识别模型，以行人图像判别特征间的欧氏距离作为相似度进行行人匹配具体为：

使用行人重识别模型θ对给定查询行人图像和数据库的图像输出每张图对应的判别特征；所述判别特征是行人重识别模型θ骨干网络输出的高维特征；

计算查询行人图像与数据库的每张行人图像之间的相似度，其中，两张行人图片相似度定义为两张行人图片判别特征之间的欧氏距离；

与查询行人图像相似度最高的行人图像即为匹配结果。

本发明的另一方面提供了一种基于自动数据增强的域泛化行人重识别系统，其特征在于，应用于所述的基于自动数据增强的域泛化行人重识别方法，包括数据增强策略搜索模块、模型训练模块和行人匹配模块；

所述数据增强策略搜索模块，用于定义数据增强策略，并构建数据增强策略算法以得到最终输出的数据增强策略

具体为：采样子数据集；令最终输出的数据增强策略/>

所述模型训练模块，用于在源域训练集上应用

所述行人匹配模块，用于应用训练好的行人重识别模型，以行人图像判别特征间的欧氏距离作为相似度进行行人匹配。

本发明的又一方面提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于自动数据增强的域泛化行人重识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用了一种针对域泛化行人重识别问题的数据增强策略搜索算法，在源域内模拟域泛化的设定，搜索出一组复杂的数据增强策略，增强了数据集样本多样性，以提升行人重识别模型在未知场景下的稳定性和鲁棒性，有利于推进行人重识别技术落地。同类技术只应用一种或多种数据增强操作，未能较好地发挥数据增强的作用，落地成本高，没有考虑样本多样性较弱所带来的模型过拟合源域的问题。

(2)本发明在数据增强策略搜索过程中采用了TPE算法调优数据增强策略，策略搜索时不需要重复训练行人重识别模型，提升了搜索效率。部分行人重识别技术使用生成对抗网络合成样本以提升样本多样性，时间花费较大，而且低质量的合成样本可能变成噪声。

(3)本发明采用的数据增强策略相比普通数据增强操作进一步提升模型的泛化能力，使数据增强策略搜索在域泛化行人重识别问题上更有效。现有的行人重识别技术仅简单地使用一种或几种数据增强操作，例如色彩增强，随机水平翻转等，对数据集样本多样性的增强有限，而且部分数据增强操作的超参数是手动调整的，或者是参考其他工作的数据增强操作超参数。另外，在域泛化行人重识别问题直接应用现有的自动数据增强算法并不能有很好地效果，因为训练集与验证集是同域的，模型训练过程保留了部分源域特征信息，可以辅助模型对行人的匹配，但搜索策略过程计算的损失会带来一定偏差，不利于搜索有效的数据增强策略。

附图说明

图1是本发明实施例基于自动数据增强的域泛化行人重识别方法的流程图；

图2是本发明实施例基于自动数据增强的域泛化行人重识别系统的结构示意图；

图3是本发明实施例的存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1所示，本实施例提供了一种基于自动数据增强的域泛化行人重识别方法，包括以下步骤：

S1、定义数据增强策略，并构建数据增强策略算法以得到最终输出的数据增强策略

在本实施例中，对数据增强策略作如下定义：一个策略(policy)是由多个子策略(sub-policy)组成的集合，每个子策略包含两个数据增强操作，且有调用先后的次序。每个数据增强操作与两个超参数(hyperparameter)相关联：1)应用该操作的概率；2)增强幅度(magnitude)。数据增强策略应用过程如下：首先，随机选取一个子策略；其次，根据次序调用数据增强操作，并按照操作对应的概率和增强幅度对输入数据(小批量数据，mini-batch)应用数据增强操作。例如，[[(TranslateX,0.5,50),(Rotate,0.8,10)],...]是一个数据增强策略，其中，[(TranslateX,0.5,50),(Rotate,0.8,10)]是一个子策略。

本发明应用的数据增强操作如表1所示：

表1、数据增强操作

更为具体的，步骤S1包括以下操作：

S1.1、采样子数据集。从源域训练数据集D_train采样成K个子数据集

每个子数据集/>

内部划分成训练集/>

和验证集/>

要求子数据集/>

内部的训练集摄像机集合/>

和验证集摄像机集合/>

的交集为空，目的是模拟域适应的设定，使基于数据增强策略训练的模型在未知场景更具鲁棒性。

S1.2、令最终输出的数据增强策略

为空。

S1.3、在每个子数据集

内搜索策略。对于每个子数据集/>

搜索步骤如下：

S1.3.1、令子数据集

内搜索的数据增强策略/>

为空。

S1.3.2、使用子数据集

的训练集/>

训练行人重识别模型θ。

S1.3.3、重复以下步骤T(在本实施例中，设置为2)次：

S1.3.3(1)、通过贝叶斯优化方法搜索B(在本实施例中，设置为200)个候选数据增强策略

该方法重复以下步骤B次：采样一组子策略构造成一个候选数据增强策略/>

(/>

是子策略数量，在本实施例中，设置为5)，将对应的调用概率

和对应的增强幅度/>

(每个增强操作的增强幅度范围映射到区间[0,1]，则λ的取值范围为[0,1])设置为行人重识别模型θ的数据增强策略超参数，在验证集

上，使用TPE算法对这些超参数进行调优(TPE，Tree-structured Parzen Estimator是一种基于序列模型优化的方法，该方法根据历史指标数据(即模型使用数据增强策略对验证集数据处理后，在验证集上的行人重识别损失)来按顺序对概率模型P(x|y)和P(y)进行建模，其中x表示超参数，y表示相关的评估指标，以估算算法的性能，随后基于概率模型来选择新的超参数)，最小化行人重识别模型θ在验证集/>

上的损失/>

以搜索一组使损失最小的数据增强策略，优化时只需要用行人重识别模型θ计算损失，而不涉及训练过程。

S1.3.3(2)、从B个候选数据增强策略

选取验证集上损失最小的10个数据增强策略并将这些数据增强策略的子策略添加到/>

S1.3.4、将

的子策略加入到最终输出的数据增强策略/>

S2、在源域训练集D_train上使用最终输出的数据增强策略

重新训练行人重识别模型θ。模型θ以残差网络(ResNet50，去除最后一个全连接层)作为骨干网络，紧接一个全连接层进并使用交叉熵损失(cross entropy loss)作为损失函数监督网络训练，所述行人重识别模型以残差网络ResNet50为主干网络，主干网络输出一个维度为2048的高维向量作为判别特征，训练网络时，判别特征输入到分类器以计算损失函数和通过反向传播更新参数，实际应用时，判别特征用于计算行人图片间的相似度；

损失函数监督网络训练步骤如下：

S2.1、从源域训练集D_train随机采样64张行人图片；

S2.2、应用数据增强策略

生成输入数据。从数据增强策略/>

中随机选取一个子策略，依序在步骤S2.1上采样的样本上应用子策略中的数据增强操作，生成训练网络的输入数据；

S2.3、以步骤S2.2生成的数据作为输入，计算损失并使用随机梯度下降法更新模型参数；

S2.4、重复步骤S2.1、S2.2、S2.3，直到损失收敛，得到训练好的行人重识别模型θ。

S3、应用行人重识别模型θ解决行人匹配问题。本技术使用行人图像判别特征之间的欧氏距离作为相似度，匹配过程如下：

S3.1、使用行人重识别模型θ对给定查询行人图像(queryimage)和数据库(galleryset)的图像输出每张图对应的判别特征。判别特征是行人重识别模型θ骨干网络输出的高维特征；

S3.2、计算查询行人图像与数据库的每张行人图像之间的相似度(匹配程度)，两张行人图片相似度是两张行人图片判别特征之间的欧氏距离；

S3.3、与查询行人图像相似度最高的行人图像即为匹配结果。

特别的，在步骤S3中，可以使用目标域中的测试集对训练好的行人重识别模型θ进行性能评估。

如图2所示，在本申请的另一个实施例中，提供了一种基于自动数据增强的域泛化行人重识别系统，该系统包括数据增强策略搜索模块、模型训练模块和行人匹配模块；

具体为：采样子数据集；令最终输出的数据增强策略/>

所述模型训练模块，用于在源域训练集上应用

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，该系统是应用于上述实施例的基于自动数据增强的域泛化行人重识别方法。

如图3所示，在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现基于自动数据增强的域泛化行人重识别方法，具体为：

具体为：采样子数据集；令最终输出的数据增强策略/>

在源域训练集上应用

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于自动数据增强的域泛化行人重识别方法，其特征在于，包括下述步骤：

，具体为：采样子数据集，所述采样子数据集具体为：从源域训练数据集/>

采样成/>

个子数据集/>

，每个子数据集/>

内部划分成训练集/>

和验证集/>

，/>

；其中，子数据集/>

内部的训练集摄像机集合/>

和验证集摄像机集合/>

的交集为空，/>

=1、2…/>

；令初始输出的数据增强策略/>

；

所述在每个子数据集内通过数据增强策略算法搜索数据增强策略，并将搜索到的数据增强策略补充至

具体为：

令子数据集

内搜索的数据增强策略/>

为空；

使用子数据集

的训练集/>

训练行人重识别模型/>

；

重复本步骤

次：通过贝叶斯优化方法搜索一组候选数据增强策略/>

，令/>

；从这一组候选数据增强策略选取验证集上损失最小的n个数据增强策略，并将这些数据增强策略的子策略添加到/>

，/>

为预设次数；

将

的子策略加入到最终输出的数据增强策略/>

中；

所述通过贝叶斯优化方法搜索一组候选数据增强策略具体为：采样一组子策略构造成一个候选数据增强策略

，/>

为子策略数量，将对应的调用概率/>

和对应的增强幅度/>

设置为行人重识别模型/>

的数据增强策略超参数，在验证集/>

上，使用TPE算法对所述数据增强策略超参数进行优化，最小化行人重识别模型/>

在验证集/>

上的损失/>

，以搜索一组使损失最小的数据增强策略，其中，优化时只需用行人重识别模型/>

计算损失，不涉及训练过程；重复上述通过贝叶斯优化方法搜索一组候选数据增强策略所包括的具体步骤B次，B为预设次数；

在源域训练集上应用

生成输入数据并输入行人重识别模型；使用损失函数优化行人重识别模型；所述行人重识别模型以残差网络ResNet50为主干网络，主干网络输出一个高维向量作为判别特征，训练网络时，判别特征输入到分类器以计算损失函数并通过反向传播更新参数，实际应用时，判别特征用于计算行人图片间的相似度；在源域训练集上应用输出的数据增强策略重新训练行人重识别模型具体为：

从源域训练集

随机采样若干张行人图片；

应用数据增强策略

生成输入数据：从数据增强策略/>

中随机选取一个子策略，依序在采样的样本上应用子策略中的数据增强操作，生成训练网络的输入数据，并输入至行人重识别模型/>

；

计算损失并使用随机梯度下降法更新模型参数；

重复上述在源域训练集上应用输出的数据增强策略重新训练行人重识别模型所包括的具体步骤，直到损失收敛，得到训练好的行人重识别模型

；

2.根据权利要求1所述基于自动数据增强的域泛化行人重识别方法，其特征在于，所述数据增强策略包括多个子策略，每个子策略均包含两个数据增强操作，且数据增强操作有调用次序；所述数据增强操作包括两个超参数：应用该操作的概率和增强幅度；所述数据增强策略的应用过程为：首先随机选取一个子策略，然后根据次序调用数据增强操作并按照操作对应的概率和增强幅度对输入数据应用数据增强操作。

3.根据权利要求1所述基于自动数据增强的域泛化行人重识别方法，其特征在于，所述行人重识别模型

以去除最后一个全连接层的残差网络作为骨干网络，连接一个全连接层并使用交叉熵损失作为损失函数监督网络训练。

4.基于自动数据增强的域泛化行人重识别系统，其特征在于，应用于权利要求1-3中任一项所述的基于自动数据增强的域泛化行人重识别方法，包括数据增强策略搜索模块、模型训练模块和行人匹配模块；

，具体为：采样子数据集；令初始输出的数据增强策略/>

；

所述模型训练模块，用于在源域训练集上应用

生成输入数据并输入行人重识别模型；使用损失函数优化行人重识别模型；所述行人重识别模型以残差网络ResNet50为主干网络，主干网络输出一个高维向量作为判别特征，训练网络时，判别特征输入到分类器以计算损失函数并通过反向传播更新参数，实际应用时，判别特征用于计算行人图片间的相似度；

5.一种存储介质，存储有程序，其特征在于：所述程序被处理器执行时，实现权利要求1-3任一项所述的基于自动数据增强的域泛化行人重识别方法。