CN110110755A

CN110110755A - 基于ptgan区域差距与多重分支的行人重识别检测算法及装置

Info

Publication number: CN110110755A
Application number: CN201910272907.6A
Authority: CN
Inventors: 张斯尧; 谢喜林; 王思远; 黄晋; 蒋杰; 张�诚
Original assignee: Changsha Qianshitong Intelligent Technology Co Ltd
Current assignee: Hunan qianshitong Information Technology Co.,Ltd.
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-09
Anticipated expiration: 2039-04-04
Also published as: CN110110755B

Abstract

本发明公开了一种基于PTGAN区域差距与多重分支相结合的行人重识别检测算法及装置，该算法具体步骤如下：首先将普通视频图像进行PTGAN处理，实现行人前景不变的前提下实现背景差异区域的迁移；再基于PTGAN算法进行背景差异区域迁移处理后的图像采用全局和多个分支联合训练；最后根将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像并输出最终重识别系统模型。本发明算法可提高复杂条件下的重识别准确率、提高系统的鲁棒性以及降低视频图像在复杂条件下标注新的训练样本的昂贵代价。

Description

基于PTGAN区域差距与多重分支的行人重识别检测算法及装置

技术领域

本发明涉及计算机视觉和智慧城市领域，具体涉及一种基于PTGAN区域差距与多重分支相结合的行人重识别检测算法及装置。

背景技术

随着人工智能、计算机视觉和硬件技术的不断发展，视频图像处理技术已经广泛应用于智能城市系统中。

行人重识别(Person Re-identification)也称行人再识别，简称为Re-ID。是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。在监控视频中，由于相机分辨率和拍摄角度的缘故，通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下，Re-ID就成为了一个非常重要的替代品技术。Re-ID有一个非常重要的特性就是跨摄像头，所以检索出不同摄像头下的相同行人图片就成为了Re-ID的关键。

虽然行人重识别的检测能力已经显著提升，但是在实际场合中很多具有挑战性的问题还没被完全解决：比如在复杂的场景，光线差异，视角和姿势的改变，大量的行人在一个监控摄像头网络中等情况。在这些情况下，跨摄像头的检索通常难度会很大，同时前期进行视频图像样本训练时的标注工作代价昂贵，需要耗费大量的人力，并且往往现有算法通常无法达到预期效果，重识别准确率较低。

发明内容

本发明的主要目的是提供一种基于PTGAN区域差距与多重分支相结合的行人重识别检测算法及装置，旨在解决在实际复杂的场景中，跨摄像头的检索通常难度会很大，同时前期进行视频图像样本训练时的标注工作代价昂贵，需要耗费大量的人力，并且往往现有算法通常无法达到预期效果，重识别准确率较低的问题。

为实现上述目的，本发明提供一种基于PTGAN区域差距与多重分支相结合的行人重识别检测算法，具体步骤如下：

S1、将普通视频图像进行PTGAN处理，得到待识别的图像，所述待识别的图像为行人前景不变且背景差异区域迁移的图像；

S2、将所述待识别的图像采用多个分支联合训练，具体的步骤如下：

S2.1将所述待识别的图像输入训练模型，获取多个分支对应的特征向量，具体如下：给定输入的处理过后的行人图像，RAM则生成一组功能向量，具体为五个共享卷积层生成特征映射M，然后，M被馈送到四个分支以生成不同的特征，四个分支包括全局分支、BN分支、属性分支和局部区域分支；

S2.2局部特征提取，使用局部区域分支来生成区域特征，具体如下：局部区域分支将特征映射M从上到下均匀地划分为K个重叠的局部区域，同时使用重叠区域来增强学习特征对可能的未对准或视点变化的鲁棒性，在每个区域之后嵌入池化层后应用FC层以从它们中的每一个生成区域特征，使用具有行人身份信息ID标签的分类任务来监督每个区域特征学习；

S2.3属性特征提取，属性分支将全局分支中第一个FC层的输出作为输入，然后由FC层生成属性特征，最后，在属性分类任务中学习属性特征；

S2.4特征向量模型训练，将行人正面和背面特征当成两个不同类别训练，重复上述S2.1、S2.2和S2.3训练过程并形成特征向量；RAM的每个分支都通过具有softmax损失的单独分类任务进行训练，并且通过逐次添加全局分支、BN分支、属性分支和局部区域分支进行模型训练，以训练出满足需要的特征向量模型；

S3、将待识别的图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，利用相似度计算公式，搜索出相似度最高的行人目标图像，并输出最终重识别系统模型。

优选地，在进行所述步骤S1中的PTGAN处理时采用的损失函数为：

L_PTGAN＝L_Style+λ₁L_ID

其中，L_Style代表生成的风格损失或区域差异domain损失，λ₁L_ID代表生成图像的身份损失，λ₁是平衡风格损失和身份损失的权重。

优选地，所述L_Style的具体公式为：

其中，A，B为两帧做GAN处理的图像，令G为图像A到B风格映射功能函数，为B到A的风格映射功能函数，λ₂为分割损失和身份损失的权重。

优选地，所述步骤S1中，还用PSPNet对视频图像进行前景分割，得到面具层区域，所述λ₁L_ID的具体公式为：

其中，G(a)是图像a中转移的行人图像，是图像b中转移的行人图像，IE_a～pdata(a)为图像A的数据分布，IE_b～pdata(b)为B的数据分布，M(a)和M(b)是两个分割出来的面具层区域。

优选地，所述步骤S2.1中，生成的特征为：f_c、f_b、f_a、f_rt、f_rm和f_rb，其中f_c来自全局分支，f_b来自BN分支，f_a来自属性分支，f_rt、f_rm和f_rb分别来自行人头部，上半身和下半身的局部区域分支；全局和BN分支分别从整个特征映射生成全局特征f_c和f_b；BN分支向全局分支添加批量标准化操作以学习互补的全局特征；局部区域分支首先将要素图划分为三个重叠区域，分别表示为：顶部Rt，中部Rm，底部Rb，然后使用三组完全连接的层来从相应的区域生成区域特征f_rt，f_rm和f_rb。

优选地，所述全局分支提取相应特征的方法如下：全局分支首先将特征映射M汇集到6×6×512，然后使用两个完全连接层来生成特征f_c；f_c在分类任务中使用行人身份信息ID进行训练。

优选地，所述BN分支提取相应特征的方法如下：在特征映射M和池化层之间嵌入BN层，生成新的特征映射M_b，然后使用两个完全连接层来生成特征f_b。

优选地，所述步骤S2.4中，RAM在多个分类任务中采用的整体目标函数为：

L(Θ)＝l_conv+λ₃l_BN+λ₄l_re+λ₅l_att

其中Θ表示深层模型中的参数；l_conv，l_BN，l_re和l_att分别表示全局、BN、局部区域和属性分支中的分类损失；λ₃，λ₄，λ₅表示相应损失的权重；所述l_re由不同区域的三个等权重分类损失组成。

优选地，所述步骤S3中，相似度计算公式如下：

为实现上述目的，本发明提供一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述任一项所述的基于PTGAN区域差距与多重分支相结合的行人重识别检测算法的步骤。

本发明提出的基于PTGAN区域差距的行人重识别检测算法，通过先将普通视频图像进行PTGAN处理，实现行人前景不变的前提下实现背景差异区域的迁移；再基于PTGAN算法进行背景差异区域迁移处理后的图像采用全局和多个分支联合训练；最后根将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像并输出最终重识别系统模型；整个算法可提高复杂条件下的重识别准确率、提高系统的鲁棒性以及降低视频图像在复杂条件下标注新的训练样本的昂贵代价。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明的整体算法流程图。

图2为本发明的实时转换效果对比图。

图3为本发明的多分支结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，为本发明基于PTGAN区域差距的行人重识别检测算法的一实施例，所述基于PTGAN区域差距的行人重识别检测算法，本发明算法网络结构如下(具体见图1)：

在进行所述步骤S1中的PTGAN处理时采用的损失函数为：

L_PTGAN＝L_Style+λ₁L_ID

其中，L_Style代表生成的风格损失或区域差异domain损失，就是生成的图像是否像新的数据集风格；λ₁L_ID代表生成图像的身份损失，就是验证生成的图像是否和原始图像是同一个人；λ₁是平衡风格损失和身份损失的权重；

所述风格损失L_Style的具体公式为：

以上几部分都是PTGAN正常的的损失，目的是为了保证生成的图片和期望的数据集的差异区域(domain)是一样的；

其次，为了保证图片迁移过程中前景不变，先用PSPNet对视频图像进行了前景分割，得到mask面具层区域；

通常来说，传统的生成对抗网络如CycleGAN等并不是用于Re-ID任务，因此也不需要保证前景物体的身份信息不变，这样的结果就是前景可能模糊之类的质量很差，更糟糕的现象是行人的外观可能改变；

为了解决这个问题，本发明提出λ₁L_ID损失，用PSPNet对视频图像进行前景分割，得到面具层区域，所述λ₁L_ID的具体公式为：

其中，G(a)是图像a中转移的行人图像，是图像b中转移的行人图像，IE_a～pdata(a)为图像A的数据分布，IE_b～pdata(b)为B的数据分布，M(a)和M(b)是两个分割出来的面具层区域，身份信息损失函数(Loss)将会约束行人前景在迁移过程中尽可能的保持不变；

最后转换的效果如图2所示，可以看出，本发明算法直观上和传统的环形生成对抗网络等(CycleGAN)相比能够更好的保证行人的身份信息；

S2、将基于PTGAN算法进行背景差异区域迁移处理后的视频行人图像采用多个分支联合训练，为了有效结合行人的全局和局部信息，得到更准确的身份信息；

多重分支结构的整体结构图如图3所示，算法具体步骤如下：

S2.1、将处理过后待识别的图像输入训练模型，获取其全局特征向量，具体如下：

给定输入的处理过后的行人图像，RAM则生成一组功能向量，具体为五个共享卷积层生成特征映射M，然后，M被馈送到四个分支以生成不同的特征，四个分支包括全局分支、BN分支、属性分支和局部区域分支；然后，被馈送到四个分支以生成不同的特征，f_c来自全局分支，f_b来自BN分支，f_a来自属性分支，f_rtf_rm和f_rb分别来自行人头部，上半身和下半身的局部区域分支；全局和BN分支分别从整个特征映射生成全局特征f_c和f_b；BN分支向全局分支添加批量标准化操作以学习互补的全局特征；区域分支首先将要素图划分为三个重叠区域，分别表示为：顶部Rt，中部Rm，底部Rb，然后使用三组完全连接的层来从相应的区域生成区域特征f_rt，f_rm和f_rb；

所述全局分支提取相应特征的方法如下：全局分支首先将特征映射M汇集到6×6×512，然后使用两个完全连接层(FC)层来生成特征f_c；f_c在分类任务中使用行人身份信息ID进行训练；该网络结构和培训策略鼓励网络定位并关注在目标行人分类中具有辨别力的一些区域，即定位有效地最小化分类损失的局部区域；全局分支学习的相应特征图M将显示这些更高区域的激活值；高度活化的区域覆盖行人ID图像上的不同区域对于行人信息分类至关重要；

除了在M上突出显示的区域之外，其他区域也可用于行人的重识别Re-ID；为了使模型专注于更多和更大的上下文区域，本发明同时设计了一个BN分支，具体分支结构如图3总体结构中所示；

所述BN分支提取相应特征的方法如下：在M和池化层之间嵌入BN层以生成新的特征映射M_b，然后使用两个层来生成特征f_b；类似地，基于行人的身份信息的分类任务最终用于训练BN分支；

BN操作倾向于抑制特征图上的高度激活的局部区域并增加其他区域的可见性；这使得BN分支除了由全局分支捕获的那些之外还描绘额外的上下文提示；很明显，Mb描绘了更大的上下文区域，可以产生互补的全局特征；

S2.2、局部特征提取

通常类似行人身份之间的差异可能存在于某些局部区域，因此，本发明设计了一个局部区域分支来生成区域特征，具体如下：

首先，局部区域分支将特征映射M从上到下均匀地划分为K个重叠的局部区域，这些局部区域表示为：Rt表示头部，Rm表示上半身，Rb表示下半身，这些区域中的每一个仅对应于整个行人的一部分；

同时使用重叠区域来增强学习特征对可能的未对准或视点变化的鲁棒性，在每个区域之后嵌入池化层后应用FC层以从它们中的每一个生成区域特征，即Rt属于的f_rt，来自Rm的f_rm和来自Rb的f_rb；

最后，使用具有行人身份信息ID标签的分类任务来监督每个区域特征学习；在每个分支的训练期间，更新FC层以仅识别具有一部分特征图作为输入的行人图像；

在此过程中，强制网络提取每个区域中的判别细节，很明显，可以识别比全局分支的特征图更多的区别性局部区域；

S2.3属性特征提取

衣着，颜色等行人属性可视为行人的中级描述，与视觉特征相比，属性特征对于由视点，照明，背景等的变化引起的外观变化具有更强的鲁棒性；因此，属性特征是可以在全局和局部图像上提取的视觉特征互补的，所以，本发明使用属性来学习行人重识别Re-ID的特征；

通常来说，属性预测可以被认为是比细粒度行人识别更容易的识别方式，本发明从行人Re-ID的属性分支中学习属性特征，属性分支将全局分支中第一个FC层的输出作为输入；然后由FC层生成属性特征f_a；最后，在属性分类任务中学习属性特征；与直接学习输入图像的属性特征相比，该策略引入的参数更少，使训练过程更容易；

S2.4特征向量模型训练

为了更快速的精准识别行人身份信息，将行人正面和背面当成两个不同类别训练，重复上述训练过程并形成特征向量；

本发明算法中，RAM的每个分支都通过具有softmax损失的单独分类任务进行训练，RAM在多个分类任务中进行了优化，整体目标函数可以表示为：

L(Θ)＝l_conv+λ₃l_BN+λ₄l_re+λ₅l_att

其中Θ表示深层模型中的参数；l_conv，l_BN，l_re和l_att分别表示全局、BN、局部和属性分支中的分类损失；λ₃，λ₄，λ₅表示相应损失的权重；其中，l_re由不同区域的三个等权重分类损失组成；

通常一开始训练四个分支通常来说可能很难收敛，所以，本发明算法采取一步一步地训练模型；我们首先训练一个只有全局分支的模型，其他分支，即BN，局部和属性分支有序地添加，卷积层将由不同的分支共享，并在多个分类任务中进行微调，如上所示，最终训练出满足需要的特征向量模型；

S3、将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人图像。

相似度计算通常采用余弦距离计算，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小；相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上，公式如下：

计算得到的数值越小，则相似度越高，最后结合输出最终重识别系统模型；

将本发明中提出的方法实际上可嵌入FPGA实现，运用于具有实时的行人重识别的系统中。

本发明还提供一种计算机装置，在一实施例中，该计算机装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例中的基于PTGAN区域差距与多重分支相结合的行人重识别检测算法的步骤。可以理解，该计算机装置可以为电视、IPAD、PC、手机等。

在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于PTGAN区域差距与多重分支的行人重识别检测算法，其特征在于，具体步骤如下：

S2.1 将所述待识别的图像输入训练模型，获取多个分支对应的特征向量，具体如下：给定输入的处理过后的行人图像，RAM则生成一组功能向量，具体为五个共享卷积层生成特征映射M，然后，M被馈送到四个分支以生成不同的特征，四个分支包括全局分支、BN分支、属性分支和局部区域分支；

S2.2 局部特征提取，使用局部区域分支来生成区域特征，具体如下：局部区域分支将特征映射M从上到下均匀地划分为K个重叠的局部区域，同时使用重叠区域来增强学习特征对可能的未对准或视点变化的鲁棒性，在每个区域之后嵌入池化层后应用FC层以从它们中的每一个生成区域特征，使用具有行人身份信息ID标签的分类任务来监督每个区域特征学习；

S2.3 属性特征提取，属性分支将全局分支中第一个FC层的输出作为输入，然后由FC层生成属性特征，最后，在属性分类任务中学习属性特征；

S2.4 特征向量模型训练，将行人正面和背面特征当成两个不同类别训练，重复上述S2.1、S2.2和S2.3训练过程并形成特征向量；RAM的每个分支都通过具有softmax损失的单独分类任务进行训练，并且通过逐次添加全局分支、BN分支、属性分支和局部区域分支进行模型训练，以训练出满足需要的特征向量模型；

2.如权利要求1所述的基于PTGAN区域差距与多重分支的行人重识别检测算法，其特征在于，在进行所述步骤S1中的PTGAN处理时采用的损失函数为：

L_PTGAN＝L_Style+λ₁L_ID

3.如权利要求2所述的基于PTGAN区域差距与多重分支的行人重识别检测算法，其特征在于，所述L_Style的具体公式为：

4.如权利要求2所述的基于PTGAN区域差距与多重分支的行人重识别检测算法，其特征在于，所述步骤S1中，还用PSPNet对视频图像进行前景分割，得到面具层区域，所述λ₁L_ID的具体公式为：

5.如权利要求1所述的基于PTGAN区域差距与多重分支的行人重识别检测算法，其特征在于，所述步骤S2.1中，生成的特征为：f_c、f_b、f_a、f_rt、f_rm和f_rb，其中f_c来自全局分支，f_b来自BN分支，f_a来自属性分支，f_rt、f_rm和f_rb分别来自行人头部，上半身和下半身的局部区域分支；全局和BN分支分别从整个特征映射生成全局特征f_c和f_b；BN分支向全局分支添加批量标准化操作以学习互补的全局特征；局部区域分支首先将要素图划分为三个重叠区域，分别表示为：顶部Rt，中部Rm，底部Rb，然后使用三组完全连接的层来从相应的区域生成区域特征f_rt，f_rm和f_rb。

6.如权利要求5所述的基于PTGAN区域差距与多重分支的行人重识别检测算法，其特征在于，所述全局分支提取相应特征的方法如下：全局分支首先将特征映射M汇集到6×6×512，然后使用两个完全连接层来生成特征f_c；f_c在分类任务中使用行人身份信息ID进行训练。

7.如权利要求6所述的基于PTGAN区域差距与多重分支的行人重识别检测算法，其特征在于，所述BN分支提取相应特征的方法如下：在特征映射M和池化层之间嵌入BN层，生成新的特征映射M_b，然后使用两个FC层来生成特征f_b。

8.如权利要求7所述的基于PTGAN区域差距与多重分支的行人重识别检测算法，其特征在于，所述步骤S2.4中，RAM在多个分类任务中采用的整体目标函数为：

L(Θ)＝l_conv+λ₃l_BN+λ₄l_re+λ₅l_att

9.如权利要求1所述的基于PTGAN区域差距与多重分支的行人重识别检测算法，其特征在于，所述步骤S3中，相似度计算公式如下：

10.一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的基于PTGAN区域差距与多重分支的行人重识别检测算法的步骤。