CN111291612A

CN111291612A - 一种基于多人多摄像头跟踪的行人重识别方法及装置

Info

Publication number: CN111291612A
Application number: CN201911326183.5A
Authority: CN
Inventors: 李宁; 张斯尧; 罗茜; 王思远; 蒋杰; 张�诚; 李乾; 谢喜林; 黄晋
Original assignee: Shenzhen Jiuling Software Technology Co ltd
Current assignee: Shenzhen Jiuling Software Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-06-16

Abstract

本发明公开了一种基于多人多摄像头跟踪的行人重识别方法及装置，所述方法包括：获取连续帧图像；将连续帧图像进行PTGAN处理；将进行PTGAN处理后的连续帧图像进行多维度特征提取并确定推理线索模型；使用推理算法对推理线索模型进行调整并确定最后的推理线索模型；根据最后的推理线索模型将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像。本发明解决了现有技术中的行人重识别方法跨摄像头的检索难度大，重识别准确率低的问题。

Description

一种基于多人多摄像头跟踪的行人重识别方法及装置

技术领域

本发明涉及行人重识别技术领域，具体涉及一种基于多人多摄像头跟踪的行人重识别方法、装置、终端设备及计算机可读介质。

背景技术

随着人工智能、计算机视觉和硬件技术的不断发展，视频图像处理技术已经广泛应用于智能城市系统中。

行人重识别(Person Re-identification)也称行人再识别，简称为Re-ID。是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。由于不同摄像设备之间的差异，同时行人兼具刚性和柔性的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。

目前来说，虽然行人重识别的检测能力已经显著提升，但是在实际场合中很多具有挑战性的问题还没被完全解决：比如在复杂的场景，光线差异，视角和姿势的改变，大量的行人在一个监控摄像头网络中等情况。在这些情况下，跨摄像头的检索通常难度会很大，同时前期进行视频图像样本训练时的标注工作代价昂贵，需要耗费大量的人力，并且往往现有算法通常无法达到预期效果，重识别准确率较低。

发明内容

有鉴于此，本发明的目的在于提供一种基于多人多摄像头跟踪的行人重识别方法、装置、终端设备及计算机可读介质，能够提高不同摄像头下行人重识别的准确率，解决了现有技术中的行人重识别方法跨摄像头的检索难度大，重识别准确率低的问题。

本发明实施例的第一方面提供了一种基于多人多摄像头跟踪的行人重识别方法，包括：

获取连续帧图像，所述连续帧图像为通过多个不同位置和角度的摄像头采集的一段时间内行人目标的移动视频图像；

将所述连续帧图像进行PTGAN处理，实现行人前景不变的前提下实现背景差异区域的迁移；

将进行PTGAN处理后的连续帧图像进行多维度特征提取并确定推理线索模型；

使用推理算法对所述推理线索模型进行调整并确定最后的推理线索模型；

根据最后的推理线索模型将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像。

进一步地，将进行PTGAN处理后的连续帧图像进行多维度特征提取并确定推理线索模型，包括：

提取行人的外观特征；

提取行人的面部特征；

根据行人在不同视频头的时间和定位特征构建定位分支Markov链，根据定位分支Markov链训练推理线索模型。

进一步地，将所述连续帧图像进行PTGAN处理步骤中，所述PTGAN的损失函数表达示如下：

式中L_Style代表生成的风格损失或区域差异，L_ID代表生成图像的身份损失。λ₁是平衡 L_Style和L_ID的权重。

进一步地，在将所述连续帧图像进行PTGAN处理之前，所述方法还包括：

使用PSPNet对所述连续帧图像进行前景分割得到面具层区域，所述身份损失L_ID的表达示为：

其中，G(a)是图像a中转移的行人图像，

是图像b中转移的行人图像，IE_a～pdata(a)为图像a的数据分布，IE_b～pdata(b)为b的数据分布，M(a)和M(b)是两个分割出来的面具层区域。

本发明实施例的第二方面提供了一种基于多人多摄像头跟踪的行人重识别装置，其特征在于，包括：

获取模块，用于获取连续帧图像，所述连续帧图像为通过多个不同位置和角度的摄像头采集的一段时间内行人目标的移动视频图像；

PTGAN模块，用于将所述连续帧图像进行PTGAN处理，实现行人前景不变的前提下实现背景差异区域的迁移；

推理线索模块，用于将进行PTGAN处理后的连续帧图像进行多维度特征提取并确定推理线索模型；

调整模块，用于使用推理算法对所述推理线索模型进行调整并确定最后的推理线索模型；

识别模块，用于根据最后的推理线索模型将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像。

进一步地，所述推理线索模块包括：

外观提取模块，用于提取行人的外观特征；

面部提取模块，用于提取行人的面部特征；

定位分支模块，用于根据行人在不同视频头的时间和定位特征构建定位分支Markov链，根据定位分支Markov链训练推理线索模型。

进一步地，所述PTGAN的损失函数表达示如下：

进一步地，所述装置还包括：

前景分割模块，用于使用PSPNet对所述连续帧图像进行前景分割得到面具层区域，所述身份损失L_ID的表达示为：

其中，G(a)是图像a中转移的行人图像，

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于多人多摄像头跟踪的行人重识别方法的步骤。

本发明实施例的第四方面提供了一种计算机可读介质，所述计算机可读介质存储有计算机程序，所述计算机程序被处理执行时实现上述基于多人多摄像头跟踪的行人重识别方法的步骤。

在本发明实施例中，通过将连续帧图像进行PTGAN处理，将进行PTGAN处理后的连续帧图像进行多维度特征提取并确定推理线索模型，以及使用推理算法对所述推理线索模型进行调整，提高了复杂条件下跨镜头追踪的行人重识别的准确率、提高了系统的鲁棒性。解决了现有技术中的行人重识别方法跨摄像头的检索难度大，重识别准确率低的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于多人多摄像头跟踪的行人重识别方法的流程图；

图2是本发明实施例提供的不同行人重识别方法实时转换效果对比图；

图3是本发明实施例所述的推理算法在关联矩阵上的工作原理图；

图4是本发明实施例提供的一种基于多人多摄像头跟踪的行人重识别装置的结构示意图；

图5是本发明实施例提供的推理线索模块的细化结构图；

图6是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

请参阅图1，图1是本发明实施例提供的基于多人多摄像头跟踪的行人重识别方法的流程图。如图1所示，本实施例的基于多人多摄像头跟踪的行人重识别方法包括以下步骤：

步骤S102，获取连续帧图像，连续帧图像为通过多个不同位置和角度的摄像头采集的一段时间内行人目标的移动视频图像；

步骤S104，将连续帧图像进行PTGAN处理，实现行人前景不变的前提下实现背景差异区域的迁移；

PTGAN(Person Transfer GAN)是一个针对于重识别Re-ID问题的生成对抗网络。本发明中，PTGAN最大的特点就是在尽可能保证行人前景不变的前提下实现背景区域差异的迁移。首先PTGAN网路的损失函数包括两部分：

其中L_Style代表生成的风格损失，或者说区域差异domain损失，就是生成的图像是否像新的数据集风格。L_ID代表生成图像的身份损失，就是验证生成的图像是否和原始图像是同一个人。该处的λ₁是平衡两个损失的权重。这两个损失定义如下：

首先，本发明所说PTGAN的损失函数(Loss)分为两部分；第一部分是L_Style，其具体公式如下：

其中，

代表标准对抗性损失，L_Cyc代表周期一致性损失,A、B为两帧做GAN处理的图像，令G为图像A到B风格映射功能函数，

为B到A的风格映射功能函数，λ2 为分割损失和身份损失的权重。

以上几部分都是正常的PTGAN的损失，目的是为了保证生成的图片和期望的数据集的差异区域(domain)是一样的。

其次，为了保证图片迁移过程中前景不变，先用PSPNet对视频图像进行了一个前景分割，得到一个mask(面具层)区域。通常来说，传统的生成对抗网络如CycleGAN等并不是用于Re-ID任务，因此也不需要保证前景物体的身份信息不变，这样的结果就是前景可能模糊之类的质量很差，更糟糕的现象是行人的外观可能改变。为了解决这个问题，本发明提出L_ID损失，用PSPNet提取的前景，这个前景就是一个面具层mask，最后身份信息损失为：

其中M(a)和M(b)是两个分割出来的前景面具层，身份信息损失函数(Loss)将会约束行人前景在迁移过程中尽可能的保持不变。

其中，G(a)是图像a中转移的行人图像，

图2显示了不同行人重识别方法实时转换效果对比图，其中，第一行图片为待转换的图片，第四行显示了PTGAN转换的结果，可以看出，与使用Cycle-GAN转换结果的第三行图片相比，PTGAN生成的图像质量更高的。例如，人的外观保持不变，风格被有效地转移到另一个摄像头上。自动生成阴影，道路标记和背景，与另一个摄像头拍摄的效果相似。同时，PTGAN可以很好地处理由PSPNet产生的噪声分割结果。可以看出，本发明算法直观上和传统的环形生成对抗网络等(CycleGAN)相比能够更好的保证行人的身份信息。

步骤S106，将进行PTGAN处理后的连续帧图像进行多维度特征提取并确定推理线索模型。

本发明使用外观、面部和可能的目的地线索，每个时间戳的特征都是单独提取的，用于跨摄像头的所有检测。

首先从人的检测中提取基于外观的属性，它们以外观的形式捕捉个体的特质和特征。图像表现的共同点是卷积神经网络(CNN)。本发明使用在ImageNet上预先训练过的AlexNet 模型作为外观特征的提取器。这是通过移除顶部输出层并使用最后一个完全连接层的激活作为特征(长度4096)来完成的。AlexNet体系结构包括五个卷几层、三个完全连接层和三个紧跟第一、第二和第五卷积层的最大池层。第一卷积层有96个大小为11×11的滤波器，第二层有256个大小为5×5的滤波器，第三、第四和第五层彼此连接而不存在任何干涉池，并且分别具有384/384和256个大小为3×3的滤波器。完全连接层L学习非线性函数

其中

W和b是输入数据Xi的隐含观测量，分别有各自的权重与偏差，而f是激活隐藏层的校正线性单元。基于上述步骤，对每个时间戳的连续帧视频图像中的行人进行外观特征提取。

其次，提取面部特征，人脸生物识别是一种用于身份识别和验证的已建立的生物识别技术。人脸形态可以用于重识别因为它本质上是一种非接触生物特征，且是可以远程提取的。本发明使用ImageNet上预先训练的VGG-16模型从面部边界框中提取面部特征。这是通过移除顶部的输出层并使用最后一个完全连接层的激活作为面部特征(长度4096)来完成的。VGG-16是一种卷积神经网络，其结构由13个卷积层和3个完全连接层组成，过滤器尺寸为3×3。池将运用于具有2×2像素窗口的卷积层之间，步幅为2。训练集的平均减法用作预处理步骤。

同时，本发明描述了位置约束，它本质上是线性的，并且预测了摄像机内部和穿过摄像机之间的最可能路径。对于多个摄像头中的重识别和跟踪，有关可能目的地的知识被当做某个人出现在另一个摄像头视野中的先验判断。通常，通过学习摄像机网络中出现的重复模式来模拟过渡概率分布。从特定网格空间退出摄像机视图的个人很可能会从另一个特定网格空间进入另一个摄像机视图。本发明将状态转移概率分布建模为Markov链，每个摄像机视图被分为n个状态，假设有k个摄像机，则状态的总数N＝n×k。一个Markov链被描述为一个n×n的转移概率矩阵p，每个条目在区间[0,1]内，每一行的条目之和加起来为1。

因此，利用Markov性质，将状态S_i和S_j之间转换的概率分布估计为：

进行上述多尺度特征提取后，训练出推理线索模型。

步骤S108，使用推理算法对推理线索模型进行调整并确定最后的推理线索模型；

在每个时间步长中，重识别的问题都可以用关联矩阵来表示，其中每一行表示一个以前看到的实体，列包含当前活动的实体。根据相关实体的特征或属性，将每行与列之间进行最佳关联的任务可以表示为一个线性规划问题，如下所示：

其中p是关联矩阵或概率矩阵，用于存储被关联实体的匹配概率，w是要优化的权重矩阵。图3描述了建议的推理算法是如何在关联矩阵P上工作的。关联矩阵中的匹配概率是使用预训练Alexnet和VGG-16模型分别计算的每个中层属性和面特征的余弦距离，或者是位置分数，即实体之间可能移动模式的转换概率模型。

约束w1＝1的作用是规范列与列之间的匹配概率，并强制它们对每个先前的实体求和为 1。从这个约束的表达式来看，很明显，对于每个先前实体的关联概率集只有一个极大值。这意味着每个以前的实体最多只能与一个当前实体关联。因此，选择权重矩阵w的值本质上减少为最佳关联分配1的值，因此，计算最佳可能关联等价于按顺序选择最大匹配概率的贪婪方法。最后，结合各特征提取的约束条件，确定最后的推理线索模型。

整体目标函数可以表示为：

其中Θ表示推理模型中的参数。L₁，L₂和L₃分别表示面部，外观，定位分支中的分类损失。λ₁，λ₂，λ₃表示相应损失的权重。

步骤S110，根据最后的推理线索模型将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像。

采用余弦距离计算相似度，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。公式如下：

其中，X表示待识别图像的特征向量,Y表示有效地理区域范围内的视频图像的行人的特征向量。

计算得到的数值越小，则相似度越高。最后结合输出最终重识别系统模型。

按照上述方法，搜索出top1、top5、top100的行人重识别图像，将最终重识别的结果输出。

请参阅图4，图4是本发明实施例提供的一种基于多人多摄像头跟踪的行人重识别装置的结构框图。如图4所示，本实施例的基于多人多摄像头跟踪的行人重识别20包括获取模块202、PTGAN模块204、推理线索模块206、调整模块208和识别模块210。获取模块202、PTGAN模块204、推理线索模块206、调整模块208和识别模块210分别用于执行图1中的S102、S104、S106、S108、S110中的具体方法，详情可参见图1的相关介绍，在此仅作简单描述：

获取模块202，用于获取连续帧图像，所述连续帧图像为通过多个不同位置和角度的摄像头采集的一段时间内行人目标的移动视频图像；

PTGAN模块204，用于将所述连续帧图像进行PTGAN处理，实现行人前景不变的前提下实现背景差异区域的迁移；

推理线索模块206，用于将进行PTGAN处理后的连续帧图像进行多维度特征提取并确定推理线索模型；

调整模块208，用于使用推理算法对所述推理线索模型进行调整并确定最后的推理线索模型；

识别模块210，用于根据最后的推理线索模型将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像。

进一步地，可参见图5，所述推理线索模块206包括：

外观提取模块2061，用于提取行人的外观特征；

面部提取模块2062，用于提取行人的面部特征；

定位分支模块2063，用于根据行人在不同视频头的时间和定位特征构建定位分支Markov链，根据定位分支Markov链训练推理线索模型。

进一步地，所述PTGAN的损失函数表达示如下：

进一步地，所述装置还包括：

其中，G(a)是图像a中转移的行人图像，

在本发明实施例中，通过PTGAN模块204将连续帧图像进行PTGAN处理，通过推理线索模块206将进行PTGAN处理后的连续帧图像进行多维度特征提取并确定推理线索模型，以及使用推理算法对所述推理线索模型进行调整，提高了复杂条件下跨镜头追踪的行人重识别的准确率、提高了系统的鲁棒性。解决了现有技术中的行人重识别方法跨摄像头的检索难度大，重识别准确率低的问题。

图6是本发明一实施例提供的终端设备的示意图。如图6所示，该实施例的终端设备 10包括：处理器100、存储器101以及存储在所述存储器101中并可在所述处理器100上运行的计算机程序102，例如进行基于多人多摄像头跟踪的行人重识别的程序。所述处理器100执行所述计算机程序102时实现上述方法实施例中的步骤，例如，图1所示的S102、S104、S106、S108、S110的步骤。或者，所述处理器100执行所述计算机程序102时实现上述各装置实施例中各模块/单元的功能，例如图6所示的获取模块202、PTGAN模块204、推理线索模块206、调整模块208和识别模块210的功能。

示例性的，所述计算机程序102可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器101中，并由所述处理器100执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序102在终端设备10中的执行过程。例如，所述计算机程序102可以被分割成获取模块202、PTGAN模块204、推理线索模块206、调整模块208和识别模块210。(虚拟装置中的模块)，各模块具体功能如下：

所述终端设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备10可包括，但不仅限于，处理器100、存储器101。本领域技术人员可以理解，图6仅仅是终端设备10的示例，并不构成对终端设备10的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器100可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器101可以是终端设备10的内部存储单元，例如终端设备10的硬盘或内存。所述存储器101也可以是终端设备10的外部存储设备，例如所述终端设备10上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器101还可以既包括终端设备10的内部存储单元也包括外部存储设备。所述存储器101用于存储所述计算机程序以及终端设备10所需的其他程序和数据。所述存储器101还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器 (RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。