CN110555390A

CN110555390A - 基于半监督训练方式的行人重识别方法、装置及介质

Info

Publication number: CN110555390A
Application number: CN201910735333.1A
Authority: CN
Inventors: 林修明; 吴鸿伟; 王国威; 陈志飞; 林淑强; 杜新胜
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-12-10
Anticipated expiration: 2039-08-09
Also published as: CN110555390B

Abstract

本发明提供了一种基于半监督训练方式的行人重识别方法、装置及存储介质，该方法包括：基于半监督训练方式使用采集的目标域样本集和开源数据集构建训练样本集，使用所述训练样本集对深度残差网络进行训练得到训练后的深度残差网络模型，对采集的行人图像使用训练后的深度残差网络模型进行识别，得到行人图像的特征值，再根据特征值之间的余弦距离来确定是否为同一个人。本发明生成了虚拟样本，且在生成虚拟样本时构建了平滑函数，使得构建的虚拟样本更加逼真，同时使用DBSCAN聚类算法为虚拟样本添加伪标签，深度神经网络中使用了局部特征和全局特征，采用不同权重组合的联合损失函数，使得训练后的深度神经网络识别准确更加可靠。

Description

基于半监督训练方式的行人重识别方法、装置及介质

技术领域

本发明涉及人工智能技术领域，特别是一种基于半监督训练方式的行人重识别方法、装置及存储介质。

背景技术

随着社会和科技的进步，人脸识别越来越成为一项可依赖的安防技术。但是对于现今大部分摄像头而言，其分辨率往往不能达到人脸识别系统的要求，故可以应用于现有监控系统的行人重识别技术是极有必要的。行人重识别(Person re-identification)是利用图像处理技术来判定某一摄像头下的行人是否出现在其他摄像头中，从而可以描绘行人的活动路径，实现跨镜头追踪的目的。现阶段行人重识别常用方法主要有表征学习、度量学习、基于局部特征或视频序列等方法。

行人和人脸一样具有结构，但是不同于人脸，行人的结构往往更加复杂。在实际应用场景中可能存在无正脸、配饰不一、姿态变化及遮挡、摄像头的拍摄角度、室内外环境的变化、白天与黑夜的光线差异、季节穿搭(冬天进入室内可能会脱掉外套)等等不利条件和干扰因素。与此同时，不同于人脸可以到互联网直接爬取名人的图片，行人重识别由于其任务的特殊性，其训练数据集采集标记难度更高，现有的数据集往往只能达到几万的级别，这也阻碍了行人重识别技术进一步走向实用化。

目前的行人重识别中，由于特征选择的单一，即识别存在一定的局限性，影响了识别准确率。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种基于半监督训练方式的行人重识别方法，该方法包括：

训练样本集生成步骤，基于半监督训练方式使用采集的目标域样本集和开源数据集构建训练样本集，所述训练样本集包括虚拟样本集、目标域样本集和开源数据样本集；

深度残差网络训练步骤，使用所述训练样本集对深度残差网络进行训练得到训练后的深度残差网络模型；

行人重识别步骤，对采集的行人图像使用训练后的深度残差网络模型进行识别，得到行人图像的特征值。

更进一步地，训练样本集生成步骤包括：

采集子步骤，采集目标域中的行人图像并进行标记得到目标域样本集；

虚拟样本集生成子步骤，使用对抗网络基于目标域样本集生成初始虚拟样本集，并借助聚类子单元为初始虚拟样本集中的虚拟样本添加伪标签；

聚类子步骤，使用预训练好的分类模型提取初始虚拟样本集中虚拟样本的高维特征，根据所述高维特征将初始虚拟样本集中的虚拟样本使用DBSCAN聚类算法进行分类，根据聚类算法结果为虚拟样本添加伪标签得到虚拟样本集。

更进一步地，所述虚拟样本的图像大小是384*384的行人图像。

更进一步地，所述对抗神经网络采用PG-GAN，在生成虚拟样本时，平滑函数为：X＝X_16pixel*(1-α)+X_32pixel*α，其中α为平滑参数。

更进一步地，所述深度残差网络的层数为50层，包括四个顺次相连的处理阶段，每个处理阶段包括一次下采样处理和两次残差处理。

更进一步地，所述深度残差网络训练步骤包括：

初始处理子步骤，使用深度残差网络对训练样本集进行前三个处理阶段的处理得到处理后的训练样本集；

处理子步骤，将处理后的训练样本集不进行下采样操作后进行第四阶段的处理得到再次处理后的训练样本集；

全局特征训练子步骤，将再次处理后的训练样本集使用全局平均池化层进行池化操作后再进行卷积操作输出至损失函数层；

局部特征训练子步骤，将再次处理后的训练样本集使用瓶颈处理层进行进行降维处理添加人工掩膜再进行卷积操作输出至损失函数层；

优化子步骤，使用Adam算法在优化前期实现更快的收敛速度，而优化后期使用sgd算法对深度残差网络的训练过程进行优化，得到优化的深度残差网络。

更进一步地，所述损失函数层包括难样本采样三元组损失函数、分类SoftMax损失函数和SLSR损失函数。

本发明还提出了一种基于半监督训练方式的行人重识别装置，该装置包括：

训练样本集生成单元，基于半监督训练方式使用采集的目标域样本集和开源数据集构建训练样本集，所述训练样本集包括虚拟样本集、目标域样本集和开源数据样本集；

深度残差网络训练单元，使用所述训练样本集对深度残差网络进行训练得到训练后的深度残差网络模型；

行人重识别单元，对采集的行人图像使用训练后的深度残差网络模型进行识别，得到行人图像的特征值。

更进一步地，训练样本集生成单元包括：

采集子单元，采集目标域中的行人图像并进行标记得到目标域样本集；

虚拟样本集生成子单元，使用对抗网络基于目标域样本集生成初始虚拟样本集，并借助聚类子单元为初始虚拟样本集中的虚拟样本添加伪标签；

聚类子单元，使用预训练好的分类模型提取初始虚拟样本集中虚拟样本的高维特征，根据所述高维特征将初始虚拟样本集中的虚拟样本使用DBSCAN聚类算法进行分类，根据聚类算法结果为虚拟样本添加伪标签得到虚拟样本集。

更进一步地，所述虚拟样本的图像大小是384*384的行人图像。

更进一步地，所述深度残差网络训练单元包括：

初始处理子单元，使用深度残差网络对训练样本集进行前三个处理阶段的处理得到处理后的训练样本集；

处理子单元，将处理后的训练样本集不进行下采样操作后进行第四阶段的处理得到再次处理后的训练样本集；

全局特征训练子单元，将再次处理后的训练样本集使用全局平均池化层进行池化操作后再进行卷积操作输出至损失函数层；

局部特征训练子单元，将再次处理后的训练样本集使用瓶颈处理层进行进行降维处理添加人工掩膜再进行卷积操作输出至损失函数层；

优化子单元，使用Adam算法在优化前期实现更快的收敛速度，而优化后期使用sgd算法对深度残差网络的训练过程进行优化，得到优化的深度残差网络。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：

本发明基于半监督训练方式使用采集的目标域样本集和开源数据集构建训练样本集，所述训练样本集包括虚拟样本集、目标域样本集和开源数据样本集，扩充了训练样本的数量，并对扩充的虚拟样本借助聚类算法添加伪标签，且在生成虚拟样本时构建了平滑函数，使得构建的虚拟样本更加逼真。

使用训练样本集中的多种样本对深度神经网络进行训练，且深度神经网络中使用了局部特征和全局特征，使得训练后的深度神经网络识别准确更加可靠。

深度神经网络中的损失函数层中采用三种损失函数，可以针对不同的图像自适应采用不同权重组合的联合损失函数，提高识别准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于半监督训练方式的行人重识别方法的流程图。

图2是训练样本集生成步骤的流程图。

图3是深度残差网络训练步骤的流程图。

图4是根据本发明的实施例的一种基于半监督训练方式的行人重识别装置的结构图。

图5是训练样本集生成单元的结构图。

图6是深度残差网络训练步骤的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于半监督训练方式的行人重识别方法，该方法包括：

训练样本集生成步骤S101，基于半监督训练方式使用采集的目标域样本集和开源数据集构建训练样本集，所述训练样本集包括虚拟样本集、目标域样本集和开源数据样本集。目标域为实际布控的环境，即对需要识别行人的区域，样本的采集可以使用摄像头进行采集，采集的方式可以是一张张的拍摄图像，或者采集视频，从视频中提取图像，采集后需要进行标记才可以使用。

深度残差网络训练步骤S102，使用所述训练样本集对深度残差网络进行训练得到训练后的深度残差网络模型。

行人重识别步骤S103，对采集的行人图像使用训练后的深度残差网络模型进行识别，得到行人图像的特征值。进一步地，根据深度残差网络模型计算出的两张图片的特征值，再计算特征值之间的余弦距离，以判断是否为同一个行人。

如图2所示，训练样本集生成步骤S101包括以下步骤。

采集子步骤S201，采集目标域中的行人图像并进行标记得到目标域样本集。

虚拟样本集生成子步骤S202，使用对抗网络基于目标域样本集生成初始虚拟样本集，并借助聚类子单元为初始虚拟样本集中的虚拟样本添加伪标签。由于计算机虚构而来的生成样本无法对应到现有的行人id，因此，需要给虚拟样本添加伪标签，本发明中生成的所述虚拟样本的图像大小是384*384的行人图像。

聚类子步骤S203，使用预训练好的分类模型提取初始虚拟样本集中虚拟样本的高维特征，根据所述高维特征将初始虚拟样本集中的虚拟样本使用DBSCAN聚类算法进行分类，根据聚类算法结果为虚拟样本添加伪标签得到虚拟样本集。对任一聚类而言，以其中心点构建正态分布曲线，随机采样曲线上的点作为该聚类内部各个样本的伪标签，得到虚拟样本集。DBSCAN算法相比于传统的K-Means算法而言，不需要提前指定聚类类别数，从而避免引入人工偏见，使虚拟样本集效果更佳。

在一个实施例中，所述对抗神经网络采用PG-GAN，在生成虚拟样本时，平滑函数为：X＝X_16pixel*(1-α)+X_32pixel*α，其中α为平滑参数。

本发明基于半监督训练方式使用采集的目标域样本集和开源数据集构建训练样本集，所述训练样本集包括虚拟样本集、目标域样本集和开源数据样本集，扩充了训练样本的数量，并对扩充的虚拟样本借助聚类算法添加伪标签，且在生成虚拟样本时构建了平滑函数，使得构建的虚拟样本更加逼真，这是本发明的一个重要发明点之一。

在一个实施例中，所述深度残差网络的层数为50层，包括四个顺次相连的处理阶段，每个处理阶段包括一次下采样处理和两次残差处理。

如图3所示，所述深度残差网络训练步骤S102包括以下步骤。

初始处理子步骤S301，使用深度残差网络对训练样本集进行前三个处理阶段的处理得到处理后的训练样本集。

处理子步骤S302，将处理后的训练样本集不进行下采样操作后进行第四阶段的处理得到再次处理后的训练样本集。

全局特征训练子步骤S303，将再次处理后的训练样本集使用全局平均池化层进行池化操作后再进行卷积操作输出至损失函数层。

局部特征训练子步骤S304，将再次处理后的训练样本集使用瓶颈处理层进行进行降维处理添加人工掩膜再进行卷积操作输出至损失函数层。

优化子步骤S305，使用Adam算法在优化前期实现更快的收敛速度，而优化后期使用sgd算法对深度残差网络的训练过程进行优化，得到优化的深度残差网络。

由于整个训练数据集来自于不同的数据集合，其采集方式、采集环境、采集条件不一，因此，采用全局特征和局部特征相结合的训练方式得到深度残差网络，以提高深度残差网络的识别准确率，且在局部特征训练分支加入随机的人工掩膜以在训练的时候可以随机遮蔽样本的一部分，增强整体网络的泛化性能，使得训练后的深度神经网络识别准确更加可靠，这是本发明的另一个重要发明点。

在一个实施例中，所述损失函数层包括难样本采样三元组损失函数(Tripletloss with batch hard mining,TriHard loss)、分类SoftMax损失函数和SLSR损失函数，即深度神经网络中的损失函数层中采用三种损失函数，可以针对不同的图像自适应采用不同权重组合的联合损失函数，提高识别准确率，这是本发明的重要发明点之另一，具体可参加下面的优选实施例。

在一个优选的实施例中，针对虚拟样本采用SLSR损失函数。在一个优选的实施例中，针对目标域样本采用添加权重的TriHard损失函数和分类SoftMax损失函数的联合损失函数，即A*(TriHard loss+SoftMax loss)，A为所添加的权重系数。

在一个优选的实施例中，针对开源数据样本，采用不添加权重的TriHard损失函数和分类SoftMax损失函数的联合损失函数。

进一步参考图4，作为对上述图1所示方法的实现，本申请提供了一种基于半监督训练方式的行人重识别装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以包含于各种电子设备或通过网络连接的多个电子设备中。

图4示出了本发明的图1示出了本发明的一种基于半监督训练方式的行人重识别装置，该装置包括：

训练样本集生成单元401，基于半监督训练方式使用采集的目标域样本集和开源数据集构建训练样本集，所述训练样本集包括虚拟样本集、目标域样本集和开源数据样本集。目标域为实际布控的环境，即对需要识别行人的区域，样本的采集可以使用摄像头进行采集，采集的方式可以是一张张的拍摄图像，或者采集视频，从视频中提取图像，采集后需要进行标记才可以使用。

深度残差网络训练单元402，使用所述训练样本集对深度残差网络进行训练得到训练后的深度残差网络模型。

行人重识别单元403，对采集的行人图像使用训练后的深度残差网络模型进行识别，得到行人图像的特征值。进一步地，根据深度残差网络模型计算出的两张图片的特征值，再计算特征值之间的余弦距离，以判断是否为同一个行人。

如图5所示，训练样本集生成单元401包括以下子单元。

采集子单元501，采集目标域中的行人图像并进行标记得到目标域样本集。

虚拟样本集生成子单元502，使用对抗网络基于目标域样本集生成初始虚拟样本集，并借助聚类子单元为初始虚拟样本集中的虚拟样本添加伪标签。由于计算机虚构而来的生成样本无法对应到现有的行人id，因此，需要给虚拟样本添加伪标签，本发明中生成的所述虚拟样本的图像大小是384*384的行人图像。

聚类子单元503，使用预训练好的分类模型提取初始虚拟样本集中虚拟样本的高维特征，根据所述高维特征将初始虚拟样本集中的虚拟样本使用DBSCAN聚类算法进行分类，根据聚类算法结果为虚拟样本添加伪标签得到虚拟样本集。对任一聚类而言，以其中心点构建正态分布曲线，随机采样曲线上的点作为该聚类内部各个样本的伪标签，得到虚拟样本集。DBSCAN算法相比于传统的K-Means算法而言，不需要提前指定聚类类别数，从而避免引入人工偏见，使虚拟样本集效果更佳。

如图6所示，所述深度残差网络训练单元302包括以下子单元。

初始处理子单元601，使用深度残差网络对训练样本集进行前三个处理阶段的处理得到处理后的训练样本集。

处理子单元602，将处理后的训练样本集不进行下采样操作后进行第四阶段的处理得到再次处理后的训练样本集。

全局特征训练子单元603，将再次处理后的训练样本集使用全局平均池化层进行池化操作后再进行卷积操作输出至损失函数层。

局部特征训练子单元604，将再次处理后的训练样本集使用瓶颈处理层进行进行降维处理添加人工掩膜再进行卷积操作输出至损失函数层。

优化子单元605，使用Adam算法在优化前期实现更快的收敛速度，而优化后期使用sgd算法对深度残差网络的训练过程进行优化，得到优化的深度残差网络。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于半监督训练方式的行人重识别方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，训练样本集生成步骤包括：

聚类子步骤，使用预训练好的分类模型提取初始虚拟样本集中虚拟样本的高维特征，根据所述高维特征将初始虚拟样本集中的虚拟样本使用DBSCAN聚类算法进行分类，根据聚类算法结果为虚拟样本添加伪标签，得到虚拟样本集。

3.根据权利要求2所述的方法，其特征在于，所述虚拟样本的图像大小是384*384的行人图像。

4.根据权利要求3所述的方法，其特征在于，所述对抗神经网络采用PG-GAN，在生成虚拟样本时，平滑函数为：X＝X_16pixel*(1-α)+X_32pixel*α，其中α为平滑参数。

5.根据权利要求1所述的方法，其特征在于，所述深度残差网络的层数为50层，包括四个顺次相连的处理阶段，每个处理阶段包括一次下采样处理和两次残差处理。

6.根据权利要求1所述的方法，其特征在于，所述深度残差网络训练步骤包括：

7.根据权利要求6所述的方法，其特征在于，所述损失函数层包括难样本采样三元组损失函数、分类SoftMax损失函数和SLSR损失函数。

8.一种基于半监督训练方式的行人重识别装置，其特征在于，该装置包括：

9.根据权利要求8所述的装置，其特征在于，训练样本集生成单元包括：

10.根据权利要求9所述的装置，其特征在于，所述虚拟样本的图像大小是384*384的行人图像。

11.根据权利要求10所述的装置，其特征在于，所述对抗神经网络采用PG-GAN，在生成虚拟样本时，平滑函数为：X＝X_16pixel*(1-α)+X_32pixel*α，其中α为平滑参数。

12.根据权利要求11所述的装置，其特征在于，所述深度残差网络的层数为50层，包括四个顺次相连的处理阶段，每个处理阶段包括一次下采样处理和两次残差处理。

13.根据权利要求8所述的装置，其特征在于，所述深度残差网络训练单元包括：

14.根据权利要求13所述的装置，其特征在于，所述损失函数层包括难样本采样三元组损失函数、分类SoftMax损失函数和SLSR损失函数。

15.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-7之任一的方法。