CN113449601A

CN113449601A - 基于渐进性平滑损失的行人重识别模型训练和识别方法与装置

Info

Publication number: CN113449601A
Application number: CN202110591209.XA
Authority: CN
Inventors: 陈志鹏; 张旭; 刘春阳; 王鹏; 唐胜; 巩力铜; 曹娟
Original assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-28
Anticipated expiration: 2041-05-28
Also published as: CN113449601B

Abstract

本发明提出一种基于渐进性平滑损失的行人重识别模型训练方法，包括：获取训练样本数据；其中，所述训练样本数据包括多个包含行人的视频；将所述训练样本数据输入至初始模型中，得到对应各所述包含行人的视频的帧级别特征和视频级别特征；分别基于所述帧级别特征和所述视频级别特征计算第一损失和第二损失；基于所述第一损失和所述第二损失对所述初始模型的模型参数进行优化，得到行人重识别模型。

Description

基于渐进性平滑损失的行人重识别模型训练和识别方法与装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于渐进性平滑损失的行人重识别模型训练和识别方法与装置。

背景技术

近些年，人工智能领域发展迅速，基于深度学习与机器学习的技术正在潜移默化地影响人类的工作与生活。其中，卷积神经网络(Convolutional Neural Network,CNNs)在大规模计算机视觉任务中逐渐显现其优势，并取得了高速发展。行人重识别是计算机视觉中的基础任务，在视频监控、安防等领域有着广泛的应用，然而，由于光照变化、视角变化、行人遮挡、行人图像不对齐等因素，行人重识别技术仍然面临着巨大的挑战。早期，研究者们着重研究基于图像的行人重识别技术，近年来取得了不错的发展，但是由于图像本身表达信息能力有限，如行人的步态、行人行走习惯等无法充分表现，这使得在实际应用中无法取得理想的效果。相比于图像，基于视频的行人重识别可以利用视频序列中的时序信息，可以更加全面地表达行人完整的特征，在实际应用中往往效果更佳。

视频行人重识别领域的巨大进展主要是由人工简历的大规模行人重识别数据集推动，如MARS和DukeMTMC-VideoReID等。现有的基于视频的行人重识别技术无法充分利用时序线索信息，在没有帧级别损失函数监督的情况下，会导致模型提取特征无法捕捉到帧内的细节信息，这使得提取到的行人特征区分力不足，特征表达能力有限。同时，在标签含有干扰的情况下，传统方法在训练过程中无法稳定收敛，导致模型泛化能力交叉。

发明内容

针对现有技术的不足，本发明的主要目的在于提出一种基于渐进性平滑损失的行人重识别模型训练和识别方法与装置，能够提取到具备区分力和鲁棒性的特征，实现行人的快速准确检索。

为了实现上述目的，本发明提出一种基于渐进性平滑损失的行人重识别模型训练方法，包括以下步骤：获取训练样本数据，其中，所述训练样本数据包括多个包含行人的视频；将所述训练样本数据输入至初始模型中，得到对应各所述包含行人的视频的帧级别特征和视频级别特征；分别基于所述帧级别特征和所述视频级别特征计算第一损失和第二损失；基于所述第一损失和所述第二损失对所述初始模型的模型参数进行优化，得到行人重识别模型。

上述的行人重识别模型训练方法，其中，在所述获取训练样本数据的步骤中还包括：对各所述包含行人的视频分别采样多帧视频；对所述多帧视频进行数据增强，包括随机水平翻转或随机擦除。

上述的行人重识别模型训练方法，其中，所述初始模型的最后一层的分类层之前的输出作为所述帧级别的特征；对所述视频的所述帧级别特征进行平均处理，得到所述视频级别特征。

上述的行人重识别模型训练方法，其中，所述第一损失利用第一损失函数计算得到，所述第一损失函数为：

其中，f_ik表示第i个视频的第k帧的特征，f_ik+表示与第i个视频第k帧互为正样本对的特征，f_ik-表示与第i个视频第k帧互为负样本对的特征，L_ce表示交叉熵损失函数，L_triplet表示三元组损失函数。

上述的行人重识别模型的训练方法，其中，所述第二损失利用第二损失函数计算得到，所述第二损失函数为：

其中，f_i表示第i个视频的特征，f_i+表示与第i个视频互为正样本对的特征，f_i-表示与第i个视频互为负样本对的特征，L_ce表示交叉熵损失函数，L_triplet表示三元组损失函数。

上述的行人重识别模型训练方法，其中，还包括利用联合损失函数对所述初始模型的模型参数进行优化，所述联合损失函数为：

其中，γ和λ分别为L_f和L_ps的权重，L_ps为渐进性平滑损失函数，其公式表示如下：

其中，p(·)表示视频标签中真实标签的预测概率，m为定义间距，|·|₊为与ReLU函数类似的函数。

为了实现上述目的，本发明还提出一种基于渐进性平滑损失的行人重识别模型训练装置，包括：

训练样本获取模块，用于获取训练样本数据；其中，所述训练样本数据包括多个包含行人的视频；

训练样本处理模块，用于将所述训练样本数据输入至初始模型中，得到对应各所述包含行人的视频的帧级别特征和视频级别特征；

损失计算模块，用于分别基于所述帧级别特征和所述视频级别特征计算第一损失和第二损失；

模型生成模块，用于基于所述第一损失和所述第二损失对所述初始模型的模型参数进行优化，得到行人重识别模型。

上述的行人重识别模型的训练装置，其中，所述训练样本获取模块包括：

采样子模块，用于对各所述包含行人的视频分别采样多帧视频；

预处理子模块，用于对所述多帧视频进行数据增强，包括随机水平翻转或随机擦除。

上述的行人重识别模型的训练装置，其中，所述初始模型的最后一层的分类层之前的输出作为所述帧级别的特征；对所述视频的所述帧级别特征进行平均处理，得到所述视频级别特征。

上述的行人重识别模型训练装置，其中，所述第一损失利用第一损失函数计算得到，所述第一损失函数为：

上述的行人重识别模型训练装置，其中，所述第二损失利用第二损失函数计算得到，所述第二损失函数为：

上述的行人重识别模型训练装置，其中，还包括利用联合损失函数对所述初始模型的模型参数进行优化，所述联合损失函数为：

为了实现上述目的，本发明还提出一种基于渐进性平滑损失的行人重识别方法，包括以下步骤：

获取包含目标行人的目标视频；将所述目标视频输入至通过如权利要求1所述的训练方法得到的行人重识别模型中，得到所述目标视频的视频级别特征；计算所述目标视频的视频级别特征与视频库中已存视频的视频级别特征的相似度；输出所述相似度大于等于预设阈值的所述已存视频。

为了实现上述目的，本发明还提出一种基于渐进性平滑损失的行人重识别装置，包括：

目标视频获取模块，用于获取包含目标行人的目标视频；

特征提取模块，用于将所述目标视频输入至通过如权利要求1所述的训练方法得到的行人重识别模型中，得到所述目标视频的视频级别特征；

相似度计算模块，用于计算所述目标视频的视频级别特征与视频库中已存视频的视频级别特征的相似度；

结果输出模块，用于输出所述相似度大于等于预设阈值的所述已存视频。

由以上方案可知，本发明的优点在于：使用视频级别的损失使模型关注到时序的显著性区域，使用帧级别的损失挖掘每一帧的细节信息以得到更具区分力和鲁棒性的特征；同时，设计渐进性平滑损失来缓解噪声对优化的影响及进一步提升模型最后的多帧特征聚合能力，并且允许容忍一定的错误标签，以提升模型的泛化能力，进一步学习视频级别特征和帧级别特征，以一定间距对二者进行同时优化，以提升模型在有噪声情况下重识别准确率。

附图说明

图1为本发明一实施例的基于渐进性平滑损失的行人重识别模型训练方法的流程图。

图2为歧义性身份问题的说明示意图。

图3为渐进性平滑损失的说明示意图。

图4为本发明一实施例的行人重识别模型与基线模型的收敛速度示意图。

图5为本发明一实施例的基于渐进性平滑损失的行人重识别模型训练装置的模块图。

图6为本发明一实施例的基于渐进性平滑损失的行人重识别方法的流程图。

图7为本发明一实施例的基于渐进性平滑损失的行人重识别装置的模块图。

图8为间距对模型影响的实验结果示意图。

图9为歧义性身份问题下原图、基线模型与本发明的行人重识别模型的特征可视化对比示意图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

参见图1所示，本发明的实施例提出一种基于渐进性平滑损失的行人重识别模型训练方法，包括：步骤10-步骤40。

步骤10：获取训练样本数据。

其中，训练样本数据包括多个包含行人的视频；该多个包含行人的视频例如来源于多个摄像头所拍摄下的包含行人的视频，需要说明的是，本发明实施例所训练的行人重识别模型是用于对同一行人的识别，所以多个视频中需要包含同一个行人，例如训练样本数据可以包括3个行人，每个行人对应6个视频，而每个行人的6个视频分别来由不同的摄像头所拍摄。另外，以上获取训练数据样本的方式仅为示例性，本发明的实施例还可采取从现有的一些数据集(如ImageNet)来获取训练数据样本。可选地，在本实施例中，对构成训练样本数据的多个包含行人的视频分别进行采样，例如每个视频采样多帧，并且对采样后的多帧视频帧进行例如随机水平翻转、随机擦除等数据增强策略；具体的，例如以步长为8随机采样4帧对于每一个视频作为输入。

步骤20：将训练样本数据输入至初始模型中，得到对应各包含行人的视频的帧级别特征和视频级别特征。

其中，为了便于理解模型的训练过程，在具体实现方式上，本发明的实施例选择在ImageNet数据集上预训练的ResNet50作为骨架网络并且作为baseline(基线模型)构建初始模型。具体的，骨架网络的最后一层步长设置为1，以进一步提升初始模型的感受野；另外，初始模型的整个网络的训练使用Adam优化器，例如总共训练150轮次、初始学习率设置为0.0003。然而，ResNet50作为初始模型仅为示例性，本发明对初始模型的具体类型不作限定，其他卷积神经网络模型也可适用于本发明。

将以上得到的多帧视频输入到初始模型中，其中初始模型的最后一层的分类层之前的输出作为对应视频的帧级别特征；得到帧级别特征之后，对每个视频对应的帧级别特征进行平均处理，得到视频级别特征。

步骤30：分别基于帧级别特征和视频级别特征计算第一损失和第二损失。

其中，视频级别特征的交叉熵损失和批次三元组损失被广泛使用，其中交叉熵损失被用于计算行人的分类误差，批次三元组损失被使用为了增大类间的距离和减小类内的特征距离，其配合PK采样策略，可以更快地收敛。针对监督视频级别特征的表示，本发明的实施例提出视频级别的损失函数对模型进行监督训练，所述视频级别的损失函数为：

其中，f_i表示第i个视频的特征，f_i+表示与第i个视频互为正样本对的特征，f_i-表示与第i个视频互为负样本对的特征；L_CE表示交叉熵损失函数，受行人ID的监督；L_triplet表示三元组损失函数，使得同一行人的特征在特征空间中尽可能靠近，不同行人的特征在特征空间内尽可能远离；L_v的作用为对视频级别特征进行学习。

然而，仅使用视频级别的损失会使模型仅关注到时序的显著性区域，导致模型学习效率下降，这使最后提取到的特征不够鲁棒。因此，本发明的实施例添加了帧级别特征的损失，来尽可能挖掘每一帧的每一个细节信息，得到更具区分力和鲁棒性的特征。针对帧级别特征的表示，本发明的实施例提出帧级别的损失函数对模型进行监督训练，所述帧级别的损失函数为：

其中，f_ik表示第i个视频的第k帧的特征，f_ik+表示与第i个视频第k帧互为正样本对的特征，f_ik-表示与第i个视频第k帧互为负样本对的特征；L_ce表示交叉熵损失函数，受行人ID的监督；L_triplet表示三元组损失函数，使得同一行人的特征在特征空间中尽可能靠近，不同行人的特征在特征空间内尽可能远离；L_f的作用为对视频中帧级别特征进行学习。在使用了帧级别损失的情况下，模型可以关注到每一帧内更加细节的具备区分力和鲁棒性的特征，具有更加全面的特征表达能力。

然而，由于个别帧存在遮挡等噪声问题，如此情况下使用视频级别的标签表示帧级别的标签会对模型训练产生干扰，无法使模型的性能发挥出来。为此本发明的实施例提出了渐进性平滑损失来缓解噪声对优化的影响，同时进一步提升网络最后的多帧特征聚合能力。所述渐进性平滑损失函数的公式表示如下：

其中，p(·)表示给定视频标签中真实标签的预测概率，m为定义合适的间距；|·|₊为与ReLU函数类似的函数。因此，通过设定视频级别特征与帧级别特征预测概率的间距，在歧义性身份问题下(如图2所示)，网络不会朝错误的方向优化下去，而是允许容忍一定的错误标签，一定程度上可以提升模型的泛化能力。参见图3、图4所示，L_ps会进一步学习视频级别特征和视频帧级别特征，以一定间距m对二者进行同时优化，会提升模型在有噪声情况下重识别准确率。

综上，本发明的实施例构造联合损失函数对初始模型的模型参数进行优化，所述联合损失函数的表示如下：

其中，γ和λ分别为L_f和L_ps的权重。

步骤40：基于第一损失和第二损失对初始模型的模型参数进行优化，得到行人重识别模型。

其中，基于上述步骤的处理，例如可将得到的帧级别特征和视频级别特征输入至上述的联合损失函数中，并且执行梯度反传，以对初始模型的参数进行优化和更新，从而最终得到行人重识别模型。

参见图5所示，基于相同的发明构思，本发明的实施例还提出一种基于渐进性平滑损失的行人重识别模型训练装置100，包括：训练样本获取模块110、训练样本处理模块120、损失计算模块130以及模型生成模块140。

训练样本获取模块110，用于获取训练样本数据；其中，训练样本数据包括多个包含行人的视频。

训练样本处理模块120，用于将训练样本数据输入至初始模型中，得到对应各包含行人的视频的帧级别特征和视频级别特征。

损失计算模块130，用于分别基于帧级别特征和视频级别特征计算第一损失和第二损失。

模型生成模块140，用于基于第一损失和第二损失对初始模型的模型参数进行优化，得到行人重识别模型。

于一实施例中，训练样本获取模块110包括：采样子模块111，用于对各包含行人的视频分别采样多帧视频；以及预处理子模块112，用于对多帧视频进行数据增强，包括随机水平翻转或随机擦除。

于一实施例中，初始模型的最后一层的分类层之前的输出作为帧级别的特征；对视频的帧级别特征进行平均处理，得到视频级别特征。

于一实施例中，第一损失利用第一损失函数计算得到，第一损失函数为：

于一实施例中，第二损失利用第二损失函数计算得到，第二损失函数为：

于一实施例中，还包括利用联合损失函数对初始模型的模型参数进行优化，联合损失函数为：

通过上述方式完成了对行人重识别模型的训练，下面对所述模型的应用进行说明。参见图6所示，本发明的实施例提出一种基于渐进性平滑损失的行人重识别方法。所述方法包括：步骤50：获取包含目标行人的目标视频；步骤60：将目标视频输入至通过上述的行人重识别模型训练方法得到的行人重识别模型中，得到目标视频的视频级别特征；步骤70：计算目标视频的视频级别特征与视频库中已存视频的视频级别特征的相似度；步骤80：输出相似度大于等于预设阈值的已存视频。

在对获得的行人重识别模型的实际应用或测试中，首先要获取包含目标行人的目标视频，例如其可通过道路侧的摄像头所采集；然后将其输入至通过上述实施例训练方法训练得到的行人重识别模型之中，从而得到所述目标视频的视频级别特征；接着，将目标视频的视频级别特征与视频库已存视频的视频级别特征作相似度的比对；最后，基于视频级别特征的相似度比对结果，输出相似度大于等于预设阈值的视频库中的已存视频，亦即可通过特征的相似度比对，检索并返回视频库中与目标视频的视频级别特征最相似的前几个已存视频，具体的距离度量方式例如为欧氏距离，距离越近，则表明该目标视频与已存视频越相似，即相似度越大。

参见图7所示，基于相同的发明构思，本发明的实施例还提出一种基于渐进性平滑损失的行人重识别装置200，包括：目标视频获取模块210、特征提取模块220、相似度计算模块230及结果输出模块240。

目标视频获取模块210，用于获取包含目标行人的目标视频。

特征提取模块220，用于将目标视频输入至通过上述的行人重识别模型训练方法得到的行人重识别模型中，得到目标视频的视频级别特征。

相似度计算模块230，用于计算目标视频的视频级别特征与视频库中已存视频的视频级别特征的相似度。

结果输出模块240，用于输出相似度大于等于预设阈值的已存视频。

需要说明的是，所属领域的技术人员可以清楚地了解，为描述的方便和简洁，上述描述的方法、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上，为了验证本发明的实施例提出的方法的有效性，在公开的大规模行人重识别数据集MARS和DuckMTMC-VideoReID上进行实验验证。其中，MARS数据集是基于视频的行人重识别领域最大规模的数据集之一，该数据集共包含1261个行人，采用6个非重叠摄像头采样20715个视频序列，同时所有视频序列中，每个行人至少出现在两个摄像头中，以保证行人视频片段的多样性和全面性。另外，该数据集划分为训练集和测试集，分别包含625个行人和636和行人。DuckMTMC-VideoReID是大规模目标跟踪数据集DukeMTMC的子集，共包含1812个行人和来自8个摄像头的4832个视频片段，也划分训练集与测试集，分别包含2196个视频片段与2636个视频片段。总体上，每段视频有168帧图像。所有数据集的评判准则均为Rank-1准确率与mAP(平均准确率)。

表1

由上表1所示，基线模型仅使用了视频级别的损失函数，在MARS数据集上取得了88.6％的Rank-1准确率和83.4％的mAP准确率。在此基线模型的基础上，使用帧级别的损失函数，可以提升0.6％的Rank-1准确率和1.2％的mAP准确率，这说明帧级别的损失函数可以监督模型学习到更加具备区分力的特征，例如行人的鞋子与头发等细节信息。而如果模型仅仅使用提出的渐进性平滑损失函数，可以看出，模型效果提升有限，而这也说明渐进性平滑技巧在单独使用时作用不太明显，同时使用帧级别损失与渐进性平滑损失，相比于基线模型，可以提高1.0％的Rank-1准确率和2.0％的mAP准确率。最后，本发明测试了在使用更佳的时序建模方法时，配合所提出的渐进性平滑损失，最终可以实现90.6％的Rank-1的准确率和87.0％的准确率。

为了验证平滑间距m的影响，本发明对不同的m值做了对比实验。参见图8所示，不同的m值对模型性能有微弱的影响，这可以说明所提出方法对超参数并不太敏感，具备一定的鲁棒性。可以看出，当m＝0.1时，模型取得了最好的效果。

从以上实验结果来看，本发明的实施例提出的基于渐进性平滑损失的行人重识别方法取得了优于交叉熵损失的效果。同时，参见图9所示，从特征图可视化来看，该方法可以在遮挡等干扰情境下仍然捕获到待识别的目标行人的特征，表现出了很好的泛化能力。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于渐进性平滑损失的行人重识别模型训练方法，其特征在于，包括：

获取训练样本数据；其中，所述训练样本数据包括多个包含行人的视频；

将所述训练样本数据输入至初始模型中，得到对应各所述包含行人的视频的帧级别特征和视频级别特征；

分别基于所述帧级别特征和所述视频级别特征计算第一损失和第二损失；

基于所述第一损失和所述第二损失对所述初始模型的模型参数进行优化，得到行人重识别模型。

2.如权利要求1所述的行人重识别模型训练方法，其特征在于，在所述获取训练样本数据的步骤中还包括：对各所述包含行人的视频分别采样多帧视频；对所述多帧视频进行数据增强，包括随机水平翻转或随机擦除。

3.如权利要求1所述的行人重识别模型训练方法，其特征在于，所述初始模型的最后一层的分类层之前的输出作为所述帧级别的特征；对所述视频的所述帧级别特征进行平均处理，得到所述视频级别特征。

4.如权利要求1所述的行人重识别模型训练方法，其特征在于，所述第一损失利用第一损失函数计算得到，所述第一损失函数为：

5.如权利要求4所述的行人重识别模型的训练方法，其特征在于，所述第二损失利用第二损失函数计算得到，所述第二损失函数为：

6.如权利要求5所述的行人重识别模型训练方法，其特征在于，还包括利用联合损失函数对所述初始模型的模型参数进行优化，所述联合损失函数为：

7.一种基于渐进性平滑损失的行人重识别模型训练装置，其特征在于，包括：

8.如权利要求7所述的行人重识别模型训练装置，其特征在于，所述训练样本获取模块包括：

9.如权利要求7所述的行人重识别模型训练装置，其特征在于，所述初始模型的最后一层的分类层之前的输出作为所述帧级别的特征；对所述视频的所述帧级别特征进行平均处理，得到所述视频级别特征。

10.如权利要求7所述的行人重识别模型的训练装置，其特征在于，所述第一损失利用第一损失函数计算得到，所述第一损失函数为：

11.如权利要求10所述的行人重识别模型的训练装置，其特征在于，所述第二损失利用第二损失函数计算得到，所述第二损失函数为：

12.如权利要求11所述的行人重识别模型的训练装置，其特征在于，还包括利用联合损失函数对所述初始模型的模型参数进行优化，所述联合损失函数为：

13.一种基于渐进性平滑损失的行人重识别方法，其特征在于，包括：

获取包含目标行人的目标视频；

将所述目标视频输入至通过如权利要求1所述的模型训练方法得到的行人重识别模型中，得到所述目标视频的视频级别特征；

计算所述目标视频的视频级别特征与视频库中已存视频的视频级别特征的相似度；

输出所述相似度大于等于预设阈值的所述已存视频。

14.一种基于渐进性平滑损失的行人重识别装置，其特征在于，包括：

目标视频获取模块，用于获取包含目标行人的目标视频；

特征提取模块，用于将所述目标视频输入至通过如权利要求1所述的模型训练方法得到的行人重识别模型中，得到所述目标视频的视频级别特征；