CN111339849A

CN111339849A - 一种融合行人属性的行人重识别的方法

Info

Publication number: CN111339849A
Application number: CN202010092608.7A
Authority: CN
Inventors: 陈双叶; 张洪路
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2020-06-26

Abstract

本发明公开了一种融合行人属性的行人重识别方法，首先对视频中的行人检测，将检测到的行人输入的本发明设计的行人重识别网络，通过行人属性预测分支获得行人属性的特征向量，然后将该向量融合到行人识别分支，最后行人识别分支输出包含有行人属性的行人特征向量。本方法设计了一个端到端的网络结构，通过预测行人属性获得行人属性的特征向量，将行人属性的特征向量融合到行人识别分支，帮助完成行人重识别的任务，提高了行人重识别的精度，模型有更好的鲁棒性和泛化能力；同时在一次前向推理过程完成两个任务，速度基本上不受影响；本发明提出的融合行人属性的行人重识别方法对行人重识别在安防领域的应用有深远的意义。

Description

一种融合行人属性的行人重识别的方法

技术领域

本发明涉及一种行人重识别方法，尤其涉及一种融合人体属性的行人重识别方法，属于机器视觉领域。

背景技术

行人重识别也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是图像检索的子问题，目的是在给定一个监控行人图像，检索跨设备下的该行人图像。

在监控视频中，由于相机分辨率和摄像机角度的缘故，通常无法得到质量非常高的人脸图像，此时人脸识别模型无法识别一个人的身份。当人脸识别失效的情况下，行人重识别技术就成为了跨不同设备寻找行人的另一个非常重要的手段。行人重识别有一个非常重要的特性就是跨摄像机，行人重识别已经在学术界有很多年，但直到最近几年随着深度学习的发展，才取得了非常巨大的突破。

在近几年，超过30多个关于行人重识别的数据集被公开，比如较小的数据集VIPeR，GRID；以及较大数据集MSMT17等。可是最大的行人重识别数据集相比于ImageNet数据集也是很小的。这主要是由于在不相交的相机视图中收集具有成对label的人物图像有较大的难度和昂贵的成本。因此当前的学术界主要把研究重点集中在基于当前有限的数据集上设计性能更优的算法。

发明内容

本发明提供了一种融合行人属性的行人重识别方法。本发明通过对行人属性的识别，将行人属性的特征融合到行人识别中，提出了一种融合行人属性的行人重识别方法，其特征在于设计了一种融合行人属的行人重识别网络结构。

步骤1：数据准备

基于Market-1501和DukeMTMC-reID数据集。该数据集标注了行人属性和行人的身份这两种标签，行人属于标签包括：young,old,bag,handbag gender等，该标签用于行人属性识别；其次行人身份ID用于行人重识别的任务。

步骤2：行人特征提取网络

行人特征的提取采用DenseNet的思想，DenseNet的整体结构主要包含稠密块(Dense Blocks)和过渡块(transition layers)。

Dense Blocks内部必须特征图大小一致，每层的输入是concat连接，而不是ResNet的element-wise连接，内部的每一个节点代表BN+ReLU，每个卷积层都是33k的filter，其中k被称为growth rate。Transition layers中包含的Pooling层会改变特征图的大小。若每个Dense Block有12层，输入到该block的feature map数为16，k＝12，则第一个Dense Block所有输出的concat起来的feature map数是16+1212＝160，transitionlayer节点由BN-Conv-Pool组成，卷积由11构成，num_out数保持和输入一致，第二、三个的输出feature map数量分别是160+1212＝304，304+1212＝448。

前向传播过程表示如下：

x_i＝H_i([x₀，x₁,...,x_i-1]) 1-1

第i层得到了之前所有层的特征映射，x₀，x₁,...,x_i-1作为输入，[x₀，x₁,...,x_i-1]表示特征映射的级联；

DenseNet优点：缓解梯度消失问题，加强特征传播，鼓励特征复用，减少计算量。

步骤3：融合行人属性的行人重识别模型的设计及实现

根据步骤2，采用DenseNet的思想，设计了backbone提取行人特征，详细如5所示。在网络的输出部分，本发明设计了具有预测行人属性和判断行人身份的多任务网络结构；行人属性分支考虑了行人更多细粒度的特征，可以识别行人发型，性别，穿衣风格等等；通过把行人属性的特征融合到行人身份识别的分支中，使得行人识别过程中可以考虑到一个行人的属性特征，提高了行人重识别的精度。

模型设计细节如下：

行人属性分支：该分支的作用是预测行人的30种属性，包括：发型，肤色，性别，穿衣风格等；设计了一个多任务网络，行人属性分支的网络结构如图6所示，共30个分支，采用分类的方法预测与30中行人的属性。从图2可以看出，本发明的行人属性预测分支从2个不同尺度的feature map预测行人属性；这样设计网络的目的考虑到对于由于卷积神经网络而言，不同深度对应不同层次的语义特征，渐层网络分辨率较高，学的更多细节特征，深层网络分辨率低，学的更多是语义特征。本发明通过对不同尺度的feature map做行人属性预测，尺度较大的分辨率高，对于肤色，发型等细小的细节有更好的响应，从大尺度特征图预测行人属性，对行人的发型，肤色等细小特征的预测精度更高，从而属性特征向量对细小的特征向量的表达更好。尺度较小的分辨率低，对于穿衣风格这种需要考虑全身的粗粒度的特征有更好的响应，同理，从小尺度特征图预测行人属性，使得该分支的行人属性特征向量对粗粒度的特征有更好的表达。本发明通过综合多尺度的特征，能同时兼顾对行人不同属性的预测，提高了预测精度，使得属性特征向量对属性特征有了更好的特征表达，从而更好的帮助行人识别分支。

此外，本发明在损失函数上也做了改进，单个属性的预测损失函数公式如下：

其中y表示负样本的预测值，

表示正样本的预测值整个分支的损失函数为各个分支损失函数之和，考虑到每个属性对行人识别的重要程度存在差异，所以本发明对每个属性的损失值乘了权重w，其中w的大小表示该属性对行人识别的贡献。整个分支的损失函数公式如下：

其中m＝30,w_i∈[0,1],L_i表示第i个分支的损失值

行人属性融合到行人识别分支：首先两个属性分支的特征向量融合，使用乘积的方式完成两个属性分支特征向量的融合，公式如下：

其次，行人属性融合到行人识别分支过程中，本发明提供了两种不同的融合方法，两种方法各有优势，具体如下：

方法1：行人属性分支会得到预测行人属性的30个概率值，本发明尝试了把30个概率值看做行人属性的特征表达融合到行人识别分支，采用直接拼接的方式，具体如图3，公式如下：

方法2：本方法不使用行人的属性分支的预测值，而是使用输出预测值前一层512维的特征向量，用拼接的方式连接到行人身份识别分支，公式如1-5，具体可参考图4。

方法1不如方法2对行人重识别的精度高，由于方法1是把预测值作为属性的特征向量，而预测值是存在误差的，不如直接把属性的特征向量直接赋给行人识别分支，让行人识别分支去学习属性向量其中的特征。但是属性特征向量的是512维的，相对于30维的较大，所以在前向推理过程中，方法2的速度不如方法1的速度快。本发明提供的两种方式可以根据实际业务场景进行取舍选取。

行人识别分支：由图2及上文分析可知，行人识别分支通过公式1-4融合了行人属性分支，然后连接一个全连接层，输出一个512个神经元的特征向量。本发明行人重识别分支使用triplet loss作为损失函数约束该分支，数据要求输入是三元组的形式，即<a,p,n>

●a:anchor

●p:positive,与a是同一类别的样本

●n:negative,与a是不同类别的样本

triplet loss的公式如下：

L_reg＝max(d(a,p)-d(a,n)+margin,0) 1-5

最终优化的目标是拉近a，p的距离，拉远a，n的距离

为了对提高模型的泛化能力，本发明在数据准备阶段，对数据进行了难列挖掘，即要求negative尽可能的和anchor相似，比如不同的人，但是穿着相似的衣服，这样训练出来的网络有更好的泛化能力，减少对外表相似的不同身份行人的误伤率。

训练过程：

为了使得网络能更好的收敛训练集的数据，本发明设计的网络结构，采用分步训练的方式完成。

第一步：单独训练属性分支

●使用随机梯度下降算法(SGD)

●初始学习率：learning rate＝0.1

●在第20个epoch，learning rate除以10,同理learning rate在第60个epoch和第90个epoch也分除以10，在第110个epoch停止训练。

第二步：属性分支和行人识别分支综合训练

●损失函数为两个分支损失函数之和，如下所示：

L＝L_attr+L_reg 1-6

其中L_attr是属性分支的loss，L_reg是行人识别分支

●使用随机梯度下降算法(SGD)

●初始学习率：learning rate＝0.1

●学习率的变化同第一步训练属性分支的学习率变化

有益效果：

与现有的技术相比，本发明提出的融合行人属性的行人重识别方法，通过在不同尺度上预测行人属性提高了行人属性预测的精度，然后每个属性分支通过w映射其对行人识别的重要度；最后行人属性融合到行人识别分支帮助完成行人重识别的工作。该方法通过对行人属性的识别，考虑了行人更多细粒度的特征，减少了行人误识别率，使得模型有更好的泛化能力，提高了行人重识别的精度。

附图说明

图1行人重识别整体流程示意图；

图2行人重识别模型结构图。

图3属性特征向量融合示意图。

图4预测值作为特征融合示意图。

图5基础网络DenseNet结构图；

图6行人属性识别分支；

图7行人检测网络结构。

具体实施方式

1、行人检测

在实际应用场景，需要先检测到视频中的行人，由于视频中行人检测的准确度会影响行人识别的精度，本发明考虑到速度和精度两者需同时兼顾，采用了RetianNet网络结构，Focal Loss作为损失函数。首先RetianNet采用了金字塔网络，对高层的特征通过反卷积操作，融合到浅层，这样使得浅层的特征图也具有了高层特征图的特征表达能力，网络结构如图7所示。Focal Loss主要是为了解决one-stage目标检测中正负样本严重不平衡问题，该损失函数降低了大量简单负样本在训练中所占的权重，具体公式如下：

FL(p_t)＝-α(1-p_t)^γlog(p_t) 1-7

对于简单样本，pt会比较大，所以权重自然减小了。针对hard example，pt比较小，则权重比较大，让网络更倾向于这样的样本进行参数更新

2、行人属性识别

DenseNet作为基础网络。由于卷积神经网络而言，不同深度对应不同层次的语义特征，在两个不同尺度预测行人的属性。考虑到不同属性对行人识别的重要程度不同，本发明提出每个分支损失函数乘以权重w用于约束不同的属性的贡献，w大小表示不同属性的贡献度，网络细节如图6所示。此分支完成了行人属性识别，我们将输出前的行人属性的特征向量融合到行人重识别分支帮助完成行人重识别工作。

3、行人重识别

通过公式1-4将行人属性融合到行人识别分支，输出1*512的特征向量。此时一张行人图像通过本发明设计的网络结构被编码成1*512维的特征向量，而该向量是考虑了该行人的属性特征，使得该向量有细粒度的表达能力。然后就可以完成跨摄像头的行人重识别任务了，对不同摄像头视频中的行人，通过行人检测模型，将检测的行人输入本发明设计的行人重识别网络，得到该行人的1*512维的特征向量；求两个向量的相似度，欧氏距离或者余弦距离，满足预先设定的阈值认为是同一个人，不满足则不是同一个人，具体流程如图1所示。

Claims

1.一种融合行人属性的行人重识别的方法，其特征在于：多尺度预测行人属性和行人属性特征融合到行人重识别分支，本方法包括如下步骤：

步骤1：行人属性预测

预测行人的发型、肤色、性别、穿衣风格属性；行人属性预测从2个不同尺度的featuremap预测行人属性；通过综合多尺度的特征，能同时兼顾对行人不同属性的预测，帮助行人识别分支；

在损失函数上也做改进，整个分支的损失函数为各个分支损失函数之和，考虑到每个属性对行人识别的重要程度存在差异，所以对每个属性的损失值乘了权重w，其中w的大小表示该属性对行人识别的贡献；

步骤2：行人属性融合到行人识别分支

首先两个属性分支的特征向量融合，使用乘积的方式完成两个属性分支特征向量的融合，公式如下：

其次，行人属性融合到行人识别分支过程中，提供两种不同的融合方法；

步骤3：行人重识别

行人重识别使用tripletloss作为损失函数约束，数据要求输入是三元组的形式，即<a,p,n>

tripletloss的公式如下：

L_reg＝max(d(a,p)-d(a,n)+margin,0)

最终优化的目标是拉近a，p的距离，拉远a，n的距离；在数据准备阶段，对数据进行难列挖掘，即要求negative和anchor相似。

2.根据权利要求1所述的一种融合行人属性的行人重识别的方法，其特征在于：步骤2的两种方法具体如下：

方法1：行人属性分支会得到预测行人属性的30个概率值，把30个概率值看做行人属性的特征表达融合到行人识别分支，采用直接拼接的方式，公式如下：

方法2：不使用行人的属性分支的预测值，而是使用输出预测值前一层512维的特征向量，用拼接的方式连接到行人身份识别分支，公式如1-2。