CN110728216A

CN110728216A - 一种基于行人属性自适应学习的无监督行人再识别方法

Info

Publication number: CN110728216A
Application number: CN201910927014.0A
Authority: CN
Inventors: 张顺; 万帅
Original assignee: Northwest University of Technology
Current assignee: Northwestern Polytechnical University; Northwest University of Technology
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-24

Abstract

本发明提供了一种基于行人属性自适应学习的无监督行人再识别方法。首先，利用带标注的源视频集预训练调整过的ResNet50网络，得到预训练行人属性CNN模型；然后，在无任何标记的目标视频集上充分利用目标视频集的时空约束信息在线生成训练样本；接着，将生成的训练样本输入到Triplet网络，对预训练的行人CNN模型进行参数微调，得到更具判别性的行人特征；最后，利用已经训练好的网络进行行人特征提取和相似性度量，实现行人再识别。本发明方法所学到的特征具有更强的鲁棒性和判别性，能显著提升行人再识别的准确率，扩展行人再识别的应用范围。

Description

一种基于行人属性自适应学习的无监督行人再识别方法

技术领域

本发明属计算机视觉与模式识别技术领域，具体涉及一种基于行人属性自适应学习的无监督行人再识别方法。

背景技术

近些年来，随着社会对暴恐事件防范、刑事犯罪侦察等安全防范的日益重视，摄像机网络被广泛应用于地铁、机场、校园、超市等公共场所中，由此带来与城市公共安全相关的监控视频数据呈现爆炸式增长。无重叠视野摄像机监控技术不仅可以有效地扩大监控的视野，同时也能对运动目标在多个不同监控区域内的行为有更加清晰地把握，现已成为监控分析领域的研究热点。对于大部分监控场景来说，行人是智能监控的重要分析对象，基于视觉的行人再识别技术是智能监控的重要研究内容，是实现跨摄像头检索和跟踪的基础。

根据行人再识别采用的数据源不同，行人再识别方法可分为基于图像的行人再识别和基于视频的行人再识别。相比于基于图像的行人再识别方法仅考虑一帧图像的信息，视频数据包含更为丰富的时间信息，因此，基于视频的行人再识别方法可以获得更优的性能。当前绝大多数基于视频的行人再识别方法使用的是监督式训练方式，使用从网络公开的、已手动标定的行人视频数据集(即源视频集)进行监督式学习，将训练好的CNN模型作为特征提取器，对与源视频集行人特征分布一致的目标视频集提取行人特征并进行行人再识别。然而，这种方法需要大量人力和物力对源视频集进行标记，而对现有海量的监控视频数据进行标注显然是不现实的。另外，由于目标视频集中的行人特征分布与源视频集中的行人特征分布通常存在很大差异，使用在源视频集上学习得到的CNN模型判别目标视频中的行人目标，往往达不到最佳性能。

发明内容

为了克服现有技术的不足，本发明提供一种基于行人属性自适应学习的无监督行人再识别方法。利用目标视频集的时空约束信息在线生成训练样本，对经过源视频集预训练得到的行人CNN模型进行参数微调，得到更具判别性的行人特征。本发明方法实用性强、可明显提高行人再识别准确率。

一种基于行人属性自适应学习的无监督行人再识别方法，其特征在于步骤如下：

步骤1，行人属性CNN预训练：

设行人再识别源视频集共包含N张行人图片，每个行人含有m个行人属性，使用调整过的ResNet50模型对数据集中的行人图片同时预测m个行人属性的类别，并与真实属性类别计算二值交叉熵损失函数；

所述的调整过的ResNet50模型是指将ResNet50模型中含有1000神经元的全连接层换成含有m个神经元的全连接层，且使用ImageNet数据集预训练过的ResNet50模型；

步骤2，基于视频上下文时空约束收集样本数据集：

应用公开的行人检测器对目标视频中的每一帧图像进行行人检测，得到行人检测响应集X＝{x₁,…,x_R}，其中，x_i为第i个行人检测响应，i＝1,…,R，R为检测响应总数；对所有行人检测响应进行数据关联进行数据关联，得到高置信度轨迹片段集合T＝{T¹,…,T^M}，

为长度为n_j的第j个行人轨迹片段，j＝1,…,M，M为高置信度轨迹片段的数目；

根据属于同一类别的上下文时空约束信息，得到正样本集P+：

其中，

为第j个行人轨迹片段中的第k个检测响应；

为第j个行人轨迹片段中的第l个检测响应；

根据属于不同类别的上下文时空约束信息，得到负样本集N-：

其中，

为第p个行人轨迹片段中的第m个检测响应；H_j,p＝1表示两个轨迹片段T^j和T^p在某一帧图像中同时出现；

步骤3，行人属性的自适应学习：

以正样本集和负样本集中的样本构建得到训练集

利用训练集S对Triplet网络进行训练，Triplet网络由结构相同且共享权值的三个卷积神经网络组成，每个卷积神经网络的架构与步骤1中预训练的ResNet50神经网络架构相同，并设定网络损失函数为：

其中，

为类间约束项，

为类内约束项，ζ为权重系数，取值为0.2，△为语义属性约束项，其表达式分别为：

其中，f(A)表示A行人属性特征向量，

表示利用步骤1得到的网络对样本处理得到的A行人预测属性特征向量，D(f(A),f(B))表示A行人属性特征向量和B行人属性特征向量之间的欧式平方距离，

表示A行人属性特征向量和其预测属性特征向量之间的欧式平方距离，α为原始Triplet损失函数中的阈值参数，取值为1，

为新阈值参数，取值为0.1；这里，A和B分别代指

或

步骤4，行人再识别：

利用步骤3得到的网络分别对目标视频集的待检索行人图片和测试图片提取行人特征，然后对得到的待检索图片与测试图片的行人特征之间做相似性度量，距离最小的测试图片中的特征对应的标记行人即为待测行人，或者距离小于阈值的所有特征根据标签进行投票，票数最多的特征对应的标记行人即为待测行人；所述的相似性度量包括计算欧式距离、余弦距离、曼哈顿距离或巴氏距离；所述的阈值由实验确定，取值范围在0.1～0.3之间。

本发明的有益效果是：由于充分利用目标视频集的时空约束信息在线生成训练样本，对经过源视频集预训练得到的网络模型进行参数微调，得到更具判别性的行人特征，大幅提高了行人再识别的准确率。由于所使用的源视频集可以是网络公开的、已标注的行人再识别视频数据，是唯一需要标注的，而目标视频集可以和源视频集具有不同的行人特征分布，并且不需要任何标注，极大的扩展了行人再识别的应用范围，提高了行人再识别的性能。本发明方法所学到的特征具有更强的鲁棒性和判别性，能显著提升行人再识别的准确率，扩展行人再识别的应用范围。

附图说明

图1为本发明的一种基于行人属性自适应学习的无监督行人再识别方法流程图

图2是原始Triplet损失函数与本发明的改进Triplet损失函数在行人属性空间的特征学习比较示意图

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于行人属性自适应学习的无监督行人再识别方法，其实现过程如下：

1、在源视频集上预训练行人属性CNN模型

行人再识别源视频集表示为

共包含N张行人图片I_i，每张行人图片标记有行人语义属性标签a₁＝[a_i,1,…,a_i,m]，每个行人含有m个行人属性，如年龄、性别、头发长度、上衣长度、背包、手提包、裤子颜色、鞋子颜色等。所使用源视频集通常是在现实场景中由多个无重叠视野的摄像机拍摄的视频，经过行人检测器检测或手工标定出行人的位置，属性标签都由手工标定。常用的公开行人再识别数据集有Market-1501、DukeMTMC-reID等。

本发明采用的深度卷积神经网络主体框架为50层的深度残差网络模型——ResNet50模型。深度残差网络模型借鉴了highway网络的思想，在构造网络时增加了捷径连接，使后续层的输出不是传统神经网络中输入的映射，而是输入的映射和输入的叠加，从而解决了深度神经网络训练的梯度消失或爆炸以及特征分布不均匀等问题。同时，神经网络深度的增加使网络具有学习到更多隐含判别性特征的能力。ResNet50模型包含大量的卷积层和池化层，最后一个隐含层经过全局平均池化操作后，会接一个含有1000神经元的全连接层，用于预测ImageNet数据集的图片类别。本发明使用在ImageNet预训练过的ResNet50模型架构和参数，只将最后含有1000神经元的全连接层换成含有m个神经元的全连接层，对应待识别图像的m个行人属性类别。

行人属性CNN预训练是使用ResNet50模型对训练集中行人图片I_i同时预测m个行人属性的类别，并与真实属性类别计算二值交叉熵损失函数。对批量处理的n_bs张行人图片，二值交叉熵损失函数L_att计算如下：

式中，a_i,j是第i张行人图片第j个真实属性类别，p_att(I_i,a_i,j)是预测行人图片I_i的属性类别为a_i,_j的概率。

2、基于视频上下文时空约束收集样本数据集

视频上下文时空约束是考虑行人目标在摄像机视频中出现的空间关系和时间关系，并把这两种关系作为目标匹配时的上下文知识。针对目标视频集中的多个跨摄像机视频，应用公开的行人检测器对视频每一帧图像进行行人检测，生成行人检测响应集X＝{x₁,…,x_R}，其中，R是生成所有检测响应的数目。本发明首先对目标视频中检测响应进行数据关联，生成高置信度轨迹片段集合T＝{T¹,…,T^M}，其中，

为长度为n_j的第j个行人轨迹片段，j＝1,…,M，M为高置信度轨迹片段的数目。数据关联是对相邻帧的检测响应计算位置、大小、方向、外观等特征的相似性，相似度高于某个阈值就关联，反之不关联。

虽然应用以上方法生成的每个轨迹片段的目标身份未知，但可以从中挖掘出两种时空约束信息：(1)属于同一类别的约束信息：同一个轨迹片段上的所有检测响应可以认为是属于同一个类别，行人属性差异很小；(2)属于不同类别的约束信息：当两个轨迹片段在某一帧图像上同时出现，这两个轨迹片段各自的检测响应属于不同类别，行人属性差异较大。

因此，根据从目标视频集中挖掘的时空约束信息，可以在线生成大量的行人正负训练样本。定义矩阵

如果两个轨迹片段Tj和Tp在某一时刻同时出现，矩阵的元素H_j,p＝1取值为1，否则的话H_j,p＝0。根据属于同一类别的约束信息，可以收集正样本集P+：

其中，

为第j个行人轨迹片段中的第k个检测响应；

为第j个行人轨迹片段中的第l个检测响应。

根据属于不同类别的约束信息，可以收集负样本集N-：

其中，

为第p个行人轨迹片段中的第m个检测响应。

3、行人属性的自适应学习

由于预训练神经网络模型使用源视频集进行学习，目标视频集与源视频集的行人属性分布可能存在较大差异，因此需要在目标视频集上利用在线收集的训练样本对深度神经网络的参数进行在线调整。对于样本集P⁺和N^-的一对训练图像x₁和x₂，自适应特征学习算法的主要目标是优化学习行人属性特征向量f(·)，使输入图像对x₁和x₂的相似性直接使用CNN行人属性空间上的欧式平方距离D(f(x₁),f(x₂))度量：

图像对x₁和x₂的相似性越大，行人属性f(x₁)和f(x₂)的欧式平方距离D(f(x₁),f(x₂))值则越小。

收集的训练样本可以三元组的方式输入给Triplet网络，以自适应调整预训练CNN模型的权重参数，得到针对目标视频集更具有判别性的行人属性表示。所生成的Triplet训练集表示如下：

Triplet网络由结构相同且共享权值的三个卷积神经网络组成，每个卷积神经网络的架构与预训练的ResNet50神经网络架构一样。原始Triplet损失函数可以直接优化输入图像在语义属性特征空间上的欧式平方距离，公式如下：

损失函数L₀是优化输入图像对在CNN特征空间上的欧式平方距离D(·)，使负样本

与正样本

的距离比正样本对

之间的距离大于一个阈值α。然而，原始Triplet损失函数只考虑使负样本

远离其中一个正样本

也没有约束正样本对之间的距离。针对上述问题，本发明提出了改进的Triplet损失函数L_S：

其中，

为类间约束项，

其中，

和

是步骤1预训练CNN在自适应学习前对三元组样本图像的属性预测。

由公式(11)-(14)可以看出，类间约束项

是使负样本

同时远离正样本对

并与正样本对的平均距离大于阈值α；类内约束项

是拉近正样本

和

的距离直到小于阈值

语义属性约束项△是避免行人属性特征f(·)在CNN参数微调过程中变化过大。改进的损失函数L_S是优化输入图像对在CNN特征空间上的欧式平方距离D(·)，使负样本

同时远离正样本对

并且约束正样本对

的距离小于一定阈值，如图2所示。本发明中阈值α取值为1，阈值取值为0.1。

4、行人再识别

使用已经训练好的深度卷积神经网络分别对目标视频集的待检索行人图片和测试图片提取行人特征，然后使用欧式距离、余弦距离或其他距离度量方法，对待检索图片与测试图片的行人特征之间做相似性度量，距离越小表示两张行人图片特征越相似，更有可能为同一行人目标，相似度达到预设值即有可能为同一行人。由于特征库中可能有多个高于阈值的特征，确定方法可采用二种策略：1)距离最小的特征库中的特征对应的标记行人即为待测行人；2)距离小于阈值的所有特征根据标签进行投票确定待测行人的类别。所述的阈值由具体数据实验确定，一般可设在0.1～0.3之间。