CN110765960B

CN110765960B - 一种自适应多任务深度学习的行人再识别方法

Info

Publication number: CN110765960B
Application number: CN201911037649.XA
Authority: CN
Inventors: 侯丽; 刘琦; 陈珍海; 汪伟; 曹俊呈
Original assignee: Huangshan University
Current assignee: Huangshan University
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2022-03-04
Anticipated expiration: 2039-10-29
Also published as: CN110765960A

Abstract

本发明公开了一种自适应多任务深度学习的行人再识别方法，涉及机器学习与模式识别技术领域，能够提升行人再识别的性能，包括以下步骤：1)以行人再识别数据集和服装属性数据集构建训练样本，用于行人身份和行人服装属性联合学习；2)CNN基模型采用去除最后一层全连接层的VGG‑19网络，其模型初始值采用大规模ImageNet图像集上已经训练好的VGG‑19模型参数；3)初始化后的VGG‑19网络，通过自顶向下逐层网络扩宽算法，将CNN基模型进行多轮扩宽；4)以固定的VGG‑19扩宽网络作为多任务深度网络，经过多任务损失函数监督网络的训练，经过多次迭代不断地优化网络模型参数，从而获取用于行人再识别的优选模型。

Description

一种自适应多任务深度学习的行人再识别方法

技术领域

本发明涉及机器学习与模式识别技术领域，具体涉及一种自适应多任务深度学习的行人再识别方法。

背景技术

行人再识别属于一种智能视频分析技术，对行人目标的跨摄像头跟踪以及行人行为分析等具有重要的研究意义。行人再识别技术，是指让计算机去判断不同摄像头拍摄的行人图像是否具有相同身份，通过行人的外观去匹配不同摄像头拍摄的行人图像。因监控场景的多变性和行人外观变化的复杂性，对行人再识别的研究极具挑战性，其主要原因是由于人体自身结构具有刚性和可变性的特点，当行人姿态发生改变，所呈现的视觉特征会发生改变。同时，在不同摄像头下，由于光照、视角、其他目标的遮挡以及过于复杂的背景等情况，都会导致同一行人在不同场景中的外观发生显著变化。

从原始行人图像/视频数据中提取具有辨识力、鲁棒的特征表示，已成为行人再识别的重要任务之一。近年来，深度学习技术的发展为辨识特征提取带来了新的研究思路，已成为行人再识别技术研究的主流。深度学习主要是利用多层次的神经网络结构，从大量数据中自动学习更高层次、更加抽象的特征表示。卷积神经网络(CNN)作为深度学习研究的典型模型，采用了卷积层、池化层以及全连接层，并且利用反向传播算法计算误差用于调整网络参数。然而，深度学习技术需要大量的样本标注，才能学习到优选特征模型。然而，基于有限的行人样本标注的行人再识别数据集，难于学习到一个具有辨识力和鲁棒性的特征模型，以应对跨摄像头复杂的场景变化。

发明内容

本发明的目的在于克服上述现有技术的缺陷，将深度学习和多任务学习相结合，提出一种自适应多任务深度学习的行人再识别方法。此方法能够在有限样本标注条件下，获取更具辨识力和鲁棒性的优选特征模型，更好地克服了跨摄像头复杂的场景变化给行人外观带来的影响，具有较优的行人再识别性能。

按照本发明所采用的技术方案，所述自适应多任务深度学习的行人再识别方法包括以下步骤：

步骤1，从行人再识别基准数据集中选择用于行人身份信息识别的训练样本，从具有多种服装类别标注的服装属性数据集中选择用于行人服装属性分类的训练样本，一起用于行人身份和行人服装属性特征的联合学习；

步骤2，CNN基模型采用去除最后一层全连接层的VGG-19网络，其模型初始值采用大规模ImageNet图像集上已经训练好的VGG-19模型参数；

步骤3，初始化后的VGG-19网络，通过自顶向下逐层网络扩宽算法，将CNN基模型进行多轮扩宽；

步骤4，使用步骤1的训练样本，以固定的VGG-19扩宽网络作为多任务深度网络，应用多任务损失函数监督网络的训练，经过多次迭代不断地优化网络模型参数，从而获取用于行人再识别的优选模型，利用该模型进行行人再识别；所述多任务损失函数由行人身份学习的损失函数和行人服装属性学习的损失函数组成，共同监督指导行人特征在网络中的学习。

具体的，步骤2中，VGG-19网路结构由5组卷积层和2层全连接层组成，共18层。

具体包括：

第1组卷积层由2个卷积层组成，每个卷积层输出64个特征平面；

第2组卷积层由2个卷积层组成，每个卷积层输出128个特征平面；

第3组卷积层由4个卷积层组成，每个卷积层输出256个特征平面；

第4组卷积层由4个卷积层组成，每个卷积层输出512个特征平面；

第5组卷积层由4个卷积层组成，每个卷积层输出512个特征平面；

第1个全连接层输出4096维特征向量；

第2个全连接层输出4096维特征向量。

具体的，所述步骤3中，从初始化后的VGG-19网络顶层开始，执行自顶向下逐层网络扩宽，直到不再创建分支时，网络结构固定；

当VGG-19网络包含两轮扩宽时，扩宽VGG-19网络的第m层的方法如下，m代表1～18的自然数：

步骤3.1，执行VGG-19网络的第一轮扩宽：以VGG-19网络的第m层作为连接点，在连接点处进行网络扩宽，即在连接点处将网络分裂成不低于2个分支的独立子网络；设VGG-19网络的第m层包含k个分支输出；

步骤3.2，执行VGG-19网络的第二轮扩宽：设VGG-19网络的第m层输出的k个分支通过聚类算法聚成n组，2≤n≤k，这样VGG-19网络将在第m层扩宽为n个分支，促使VGG-19网络的第m-1层作为新的连接点，并在VGG-19网络的第m-1层产生n个分支的输出；

步骤3.3，构建VGG-19扩宽网络的损失函数：VGG-19扩宽网路的第m层分支数决定网络宽度，联合VGG-19扩宽网络的第m层的网络复杂度和各分支任务的分离度来构建VGG-19扩宽网络的损失函数，以获取VGG-19扩宽网络的第m层最佳的分支子网络；

当VGG-19网络包含两轮以上扩宽时，按照上述步骤3.1～3.3的两轮扩宽第m层的方法，进一步在第m-1层以及第m-1层以下若干层进行网络扩宽，直到在网络的某一层不再创建分支时为止，VGG-19扩宽网络结构固定。

具体的，步骤4中，所述多任务损失函数L的公式为：

L＝L_Id+L_Attr，

其中

表示行人身份信息学习的交叉熵损失函数，

表示行人服装属性学习的交叉熵损失函数，N₁表示行人的身份类别数，N₂表示行人的服装属性类别数，y_i表示真实的类别，

表示预测的类别输出。

本发明能够取得以下有益效果：

1、本发明结合深度学习和多任务学习，在有限样本标注条件下，能够提取行人图像更具辨识力和鲁棒性的特征描述子，该特征描述子包含了更高层次的语义信息；

2、本发明采用自顶向下的分支方式构建多任务深度学习网络，该网络更具灵活性和扩展性。

附图说明

图1是本发明的自适应多任务深度学习模型原理图。

图2是本发明所述VGG-19网络结构示意图。

图3是本发明所述自顶向下逐层模型扩宽示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图和实施例对本发明进行进一步详细说明。

本发明的基本思路在于，提出一种自适应多任务深度学习的行人再识别方法，提升行人再识别的性能，其采用的自适应多任务深度学习模型如图1所示。

本发明提供的自适应多任务深度学习的行人再识别方法包括以下步骤：

步骤1，以行人再识别数据集和服装属性数据集构建训练样本，用于行人身份和行人服装属性联合学习。

训练样本的构建包含以下步骤：

从具有代表性的行人再识别基准数据集中选择用于行人身份信息识别的训练样本。所使用的行人再识别数据集包括：CUHK03，Market-1501和DukeMTMC-reID。

从具有充足的服装类别标注的服装属性数据集中选择用于行人服装属性分类的训练样本。所使用的服装属性数据集为Deepfashion。

步骤2，CNN基模型采用去除最后一层全连接层的VGG-19网络，其模型初始值采用大规模ImageNet图像集上已经训练好的VGG-19模型参数。VGG-19网路结构如图2所示，包括第1组卷积层1、第2组卷积层2、第3组卷积层3、第4组卷积层4、第5组卷积层5、第1个全连接层6、第2个全连接层7，共18层，具体如下：

第1个全连接层输出4096维特征向量；

第2个全连接层输出4096维特征向量。

步骤3，初始化后的VGG-19网络，通过自顶向下逐层网络扩宽算法，将CNN基模型进行多轮扩宽。从初始化后VGG-19网络的顶层开始，执行自顶向下逐层网络扩宽，直到不再创建分支时，网络结构固定。

当VGG-19网络包含两轮扩宽时，如图3所示，扩宽VGG-19网络的第m层的方法如下，m代表1～18的自然数：

步骤3.1，执行VGG-19网络第一轮扩宽。以VGG-19网络的第m层作为连接点，在连接点处进行网络扩宽，即在连接点处将网络分裂成不低于2个分支的独立子网络。设VGG-19网络的第m层包含k个分支输出，即

在图3中，我们假设k＝5。如果第m层是VGG-19网络的输出层，则k的大小由多任务学习所设定的任务数来决定。经过第一轮扩宽，在VGG-19网络的第m层，其k个分支输出

和输入x^m的关系可用如下公式表示：

其中

表示网络的第m层输入x^m到第j个输出

的线性变换矩阵。σ^m(·)表示网络的第m层对应的非线性变换关系；

步骤3.2，执行VGG-19网络第二轮扩宽。设VGG-19网络的第m层输出的k个分支通过聚类算法聚成n组，其取值范围为2≤n≤k。在图3中，假设n＝2。这样VGG-19网络将在第m层扩宽为n个分支，促使VGG-19网络的第m-1层作为新的连接点，并在VGG-19网络的第m-1层产生n个分支的输出

即是VGG-19网络的第m层输入

g^m(·)为VGG-19网络第m层的分组函数，实现第m层分支数k到分支数n的映射。经过第二轮扩宽，在VGG-19网络的第m层，其n个分支输出

和输入

的关系可进一步用如下公式表示：

其中

表示网络的第m-1层输入x^m-1到n个分支输出

的线性变换矩阵。σ^m-1(·)表示网络的第m-1层对应的非线性变换关系。为了加快网络收敛，所有新创建的线性变换矩阵

的初始参数采用扩宽前的线性变换矩阵W^m-1的初始参数。

步骤3.3，构建VGG-19扩宽网络的损失函数。VGG-19扩宽网路的第m层分支数决定网络宽度。联合网络的复杂度和网络各分支任务的分离度来构建扩宽网络的损失函数，以获取各层网络最佳的分支子网络。VGG-19扩宽网络的第m层的损失函数L^m用如下公式表示：

其中L_b表示VGG-19扩宽网络第m层分支数的损失函数，与该层第一轮扩宽时的分支数以及创建分支的单位代价成正比。L_s表示VGG-19扩宽网络第m层不同分支任务分离度的损失函数，与该层各分支间的任务间的相关度成反比。λ为分支因子，其值越大，表示在网络第m层创建的分支数越多。

可见，根据上述步骤3.1～步骤3.3的两轮扩宽方法，实现了VGG-19网络的第m层扩宽为不低于2个分支的独立子网络。

当VGG-19网络包含两轮以上扩宽时，按照上述步骤3.1～步骤3.3的两轮扩宽第m层的方法，进一步在第m-1层以及第m-1层以下若干层进行网络扩宽，直到在网络的某一层不再创建分支时为止，VGG-19扩宽网络结构固定。

步骤4，以固定的VGG-19扩宽网络作为多任务深度网络，经过多任务损失函数监督网络的训练，经过多次迭代不断地优化网络模型参数，从而获取用于行人再识别的优选模型。多任务损失函数由行人身份学习的损失函数和行人服装属性学习的损失函数两部分组成，共同监督指导行人特征在网络中的学习。多任务损失函数L用如下公式表示：

L＝L_Id+L_Attr

其中L_Id表示行人身份信息学习的损失函数，L_Attr表示行人服装属性学习的损失函数。本发明中，L_Id、L_Attr均采用交叉熵损失函数，分别用如下公式表示：

其中N₁表示行人的身份类别数，N₂表示行人的服装属性类别数。y_i表示真实的类别，

表示预测的类别输出。

以上得到了用于行人再识别的优选模型，使用该模型进行行人再识别，能够提升行人再识别的性能。

本发明利用已有训练样本，基于CNN基模型结构，采用自顶向下逐层模型扩宽的方法，学习多任务分支子网络。应用多任务损失函数，监督指导行人特征在网络中的学习，获取更具辨识力和鲁棒性的行人特征，提高行人再识别的辨识力和鲁棒性。

Claims

1.一种自适应多任务深度学习的行人再识别方法，其特征在于，包括以下步骤：

步骤4，使用步骤1的训练样本，以固定的VGG-19扩宽网络作为多任务深度网络，应用多任务损失函数监督网络的训练，经过多次迭代不断地优化网络模型参数，从而获取用于行人再识别的优选模型，利用该模型进行行人再识别；所述多任务损失函数由行人身份学习的损失函数和行人服装属性学习的损失函数组成，共同监督指导行人特征在网络中的学习；

步骤3中，从初始化后的VGG-19网络顶层开始，执行自顶向下逐层网络扩宽，直到不再创建分支时，网络结构固定；

2.根据权利要求1所述的自适应多任务深度学习的行人再识别方法，其特征在于，所述步骤2中，VGG-19网路结构由5组卷积层和2层全连接层组成，共18层，具体包括：

第1个全连接层输出4096维特征向量；

第2个全连接层输出4096维特征向量。

3.根据权利要求1所述的自适应多任务深度学习的行人再识别方法，其特征在于，步骤4中，所述多任务损失函数L的公式为：

L＝L_Id+L_Attr，

其中

表示行人身份信息学习的交叉熵损失函数，

表示预测的类别输出。