CN112200106A

CN112200106A - 跨相机行人重识别与跟踪方法

Info

Publication number: CN112200106A
Application number: CN202011106376.2A
Authority: CN
Inventors: 陆慧娟; 王雷奇
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-08

Abstract

本发明公开了一种跨相机行人重识别与跟踪方法，包括如下步骤：1)图像预处理：从视频序列中选择出行人图像以供行人重识别使用，通过输入多张低分辨率行人图像，输出一张清晰的行人图像供行人重识别使用；2)跨相机协同识别：进行行人图像的特征提取，进行相机间行人图像特征匹配；3)盲区轨迹还原与跟踪：a、采用目标检测方法首先对行人进行检测，然后利用视域内的摄像头采集到的行人的图像输入到GAN网络进行还原，从而实现对目标轨迹进行持续跟踪；b、通过地理信息系统将相机捕捉到的图像与真实坐标进行标定，得到目标起点和重点的位置，再通过算法进行集成，得到目标可能的轨迹。本发明实现跨相机重识别和轨迹恢复和跟踪，提升效率，从而提高准确度。

Description

跨相机行人重识别与跟踪方法

技术领域

本发明属于人体识别技术领域，具体涉及一种跨相机行人重识别与跟踪方法。

背景技术

20世纪末以来，随着监控摄像机网络大范围应用，开放环境下跨相机目标识别作为一项重要技术越来越受到学术界的重视，准确的识别技术可为城市监控和安防系统提供有力的帮助。随着公共安全越来越受到重视，行人重识别、跨相机目标跟踪等也成为了热门研究领域。

据报道，2018年中国有超过1000万的城市监控与报警系统，每人一天被摄像头拍到的次数超过300次。海量的数据潜在巨大的信息，利用这些信息可以在发生危害公众安全的事件时实现实时报警和事后查询，事发前预警。当使用人力对监控画面进行监测时，不仅需要很大的人力物力投入，而且据美国圣地亚国家实验室的一项研究表明，人在盯着视频画面22min之后便会忽视视频画面里95％以上的活动。基于深度学习的智能化系统可有效的避免人工疲劳和噪声干扰等因素，跟踪技术作为盲区走向判断工具为监管者提供有力技术支持，从而快速准确找到需要追踪的人物，省去大部分人力财力。但由于开放环境的天气因素变化和行人个人因素变化，常常带来一些识别上的困难，对数据的有效处理是非常重要的，而且近来识别算法不断涌现，需要探索出针对人体特征提取良好的网络，从而保证识别的精度，更好地辅助安防事业。

由于开放环境下行人识别与跟踪问题的研究具有重要的应用价值，国内外的学者对该问题进行了大量研究。现有技术对于行人检测、识别和跟踪的技术主要包括以下部分：

(1)行人检测

在行人检测部分的重点是对于复杂环境因素的处理，通过减少环境因素对行人图像的影响，进而提高检测效率。在复杂环境的处理问题上，通过对原始图像进行增强，减少光照变化所带来的影响，从而提高识别效率。使用空间变换网络层解决行人图像背景的问题。有人提出了改进型嵌套池化三元组卷积神经网络，能克服视角变化、部分遮挡、旋转和尺度变化等对行人重识别性能的影响。基于GAN网络提出了一个完成多场景下的冬夏季节服装变化的解决方案。这些研究分别对光照、角度、背景变化等进行了考虑，但未考虑雨雪、大风天气等带来的影响。

(2)行人识别

在检测出行人图像之后，如何提取以及匹配特征是行人识别的主要研究内容。行人特征的描述方式有三种。一是颜色、梯度和纹理等基本的图像特征，主要有方向梯度直方图、局部二值模式和空间成对统计信息。二是基于学习的特征指的是通过机器学习的方法，从大量的行人样本中学习到的行人特征表示，主要有小边特征、边缘模板和自适应轮廓特征。三是混合特征，指的是多种底层特征的融合,或者是底层特征的高阶统计特征，主要有协方差特征、积分通道特征和粒度可调梯度分区。对于行人特征的提取和匹配，有人提出一种自动选择特征匹配方式的机器学习算法。针对特征提取的问题，将人体分为头部、躯干和身体三部分，分别在不同色域下提取特征并进行集成。以上研究中充分考虑了行人的各种视觉特征和匹配方法，但行人具有主观能动性，当温度等外界环境发生改变时会有增减衣物等动作，则会严重识别效果。

(3)行人跟踪

通过行人的检测与识别，能够得到行人在监控相机视域内的活动轨迹，联合多个相机的位置信息便能够得到行人在地图上的活动轨迹。盲区包含在单相机视域内被遮挡的情况和相机间视域盲区的情况。关于盲区轨迹还原与跟踪，有人针对行人被遮挡而产生的轨迹断裂和误匹配问题,分析了基于检测的在线多人跟踪算法框架,研究了一种基于轨迹置信度的在线双层关联的多人跟踪算法。还有人提出了一种基于运动外形信息融合的多目标行人跟踪方法和利用双输入生成式对抗网络修复受遮挡行人的方法，并提出了利用骨骼预测模型优化去遮挡模型的方案。但是关于将相机视域内的盲区和相机视域外的盲区一同考虑的轨迹跟踪研究较少，不利于行人跟踪。

开放环境下跨相机行人识别与跟踪技术的研究已经有很大进展，但随着研究的不断深入，涌现出了一些新的挑战，具体如下：

1、考虑到开放环境的复杂性，采集到的图像会受到环境的影响，第一个挑战便是如何设计算法减少环境对图像的影响。

2、考虑到行人特征的易变性，如增减衣物、打伞等，会影响行人的识别效率，第二个挑战便是如何设计行人特征的提取和匹配算法提高行人识别效率。

3、考虑到监控相机视域覆盖范围有限存在大量盲区，行人的运动轨迹是不能完全被监测到的，第三个挑战便是如何设计预测算法，合理还原或猜测出行人完整的运动轨迹。

4、考虑到需要处理的图像或视频数据量很大，一个城市的监控相机一天采集的数据会达到PB级别，服务器运算压力较大，第四个挑战便是如何合理设计系统结构减轻服务器运算压力。

发明内容

有鉴于此，为了解决上述现有技术问题，本发明提出了一种实现开放环境下行人识别和跟踪的跨相机行人重识别与跟踪方法，识别准确度和效率高。

本发明的技术解决方案是，提供了一种跨相机行人重识别与跟踪方法，包括以下步骤：

1)图像预处理：从视频序列中选择出行人图像以供行人重识别使用，通过输入多张低分辨率行人图像，输出一张清晰的行人图像供行人重识别使用；

2)跨相机协同识别：建立统一时空基准下的开放环境GIS数据模型，在开放环境下利用地理信息系统对相机在标准测绘坐标系上进行标注定位，确定相机视域在地图上的范围，并确定各个相机间的相对位置和视域重合情况；进行行人图像的特征提取，进行相机间行人图像特征匹配；

3)盲区轨迹还原与跟踪：

a、采用目标检测方法首先对行人进行检测，然后利用视域内的摄像头采集到的行人的图像输入到GAN网络进行还原，从而实现对目标轨迹进行持续跟踪；

b、通过地理信息系统将相机捕捉到的图像与真实坐标进行标定，得到目标起点和终点的位置，再通过算法进行集成，得到目标可能的轨迹。

可选的，基于跨相机行人重识别平台，所述跨相机行人重识别平台包括云端服务器、若干边缘服务器和摄像头，所述云端服务器连接每台边缘服务器，所述边缘服务器与各地区的终端摄像头相连接。

可选的，给云端服务器输入待检索目标信息，云端服务器经过特征识别给出一个特征集；云端服务器将特征集打包下发到各个边缘服务器，边缘服务器对监控视频进行实时演算，提取行人特征集；将提取的行人特征集与云端服务器下发的特征集作比对；若经比对判定其为目标，则将实时目标特征和目标最终出现位置上传至云端服务器，云端服务器记录目标位置然后绘制目标移动轨迹图，并对目标实时特征集进行分析，依此对初始特征集进行更新，以实现目标的识别和跟踪。

可选的，若是多个摄像头视域中都出现了目标，则采用多相机协同识别，若是摄像头在同一边缘服务器下，则在边缘服务器中就可以做到多相机协同识别，若摄像头不在同一边缘服务器中，则需将数据上传到云端服务器，在云端服务器中运行多相机协同识别。

可选的，在步骤1)中，采用GAN网络对低分辨率图像进行重建生成器采用多层ResNet变体实现重建图像，判别器采用重建的图像以及真实低分辨率图像作为输入，用以区分真实图像以及重建的图像，设计基于多种类型的GAN网络模型的损失函数并集成，最终实现能够输入多张低分辨率行人图像，输出一张较为清晰的行人图像供行人重识别使用。

可选的，在步骤2)中，具体采用如步骤：①建立统一时空基准下的开放环境GIS数据模型；②建模与相机定位实时协同的开放环境下的建模方法；③利用多源数据支持的地图变化发现与更新；④以跨相机视觉定位过程中实时获取的三维场景为输入，对于相机协同定位的场景进行语义识别和认知。

本发明与现有技术相比，具有如下优点：本发明基于跨相机行人重识别平台，实现跨相机重识别和轨迹恢复和跟踪，引入边缘服务器能够减少云计算服务器的负载，通过分布式的架构提升效率，从而提高准确度。

附图说明

图1是跨相机行人重识别平台的结构示意图；

图2是跨相机协同识别实施流程图；

图3是Social-GAN网络结构图；

图4是FastR-CNN的网络结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行详细描述，但本发明并不仅仅限于这些实施例。本发明涵盖任何在本发明的精神和范围上做的替代、修改、等效方法以及方案。

为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。

如图1和2所示，本发明的跨相机行人重识别与跟踪方法，其特征在于：包括如下步骤：

3)盲区轨迹还原与跟踪：

b、通过地理信息系统将相机捕捉到的图像与真实坐标进行标定，得到目标起点和重点的位置，再通过算法进行集成，得到目标可能的轨迹。

基于跨相机行人重识别平台，所述跨相机行人重识别平台包括云端服务器、若干边缘服务器和摄像头，所述云端服务器连接每台边缘服务器，所述边缘服务器与各地区的终端摄像头相连接。

给云端服务器输入待检索目标信息，云端服务器经过特征识别给出一个特征集；云端服务器将特征集打包下发到各个边缘服务器，边缘服务器对监控视频进行实时演算，提取行人特征集；将提取的行人特征集与云端服务器下发的特征集作比对；若经比对判定其为目标，则将实时目标特征和目标最终出现位置上传至云端服务器，云端服务器记录目标位置然后绘制目标移动轨迹图，并对目标实时特征集进行分析，依此对初始特征集进行更新，以实现目标的识别和跟踪。。

若是多个摄像头视域中都出现了目标，则采用多相机协同识别，若是摄像头在同一边缘服务器下，则在边缘服务器中就可以做到多相机协同识别，若摄像头不在同一边缘服务器中，则需将数据上传到云端服务器，在云端服务器中运行多相机协同识别。

在步骤1)中，采用GAN网络对低分辨率图像进行重建生成器采用多层Resnet变体或者多层VGG变体实现重建图像，判别器采用重建的图像以及真实低分辨率图像作为输入，用以区分真实图像以及重建的图像，设计基于多种类型的GAN网络模型的损失函数并集成，最终实现能够输入多张低分辨率行人图像，输出一张较为清晰的行人图像供行人重识别使用。

在步骤2)中，具体采用如步骤：①建立统一时空基准下的开放环境地理信息系统数据模型；②建模与相机定位实时协同的开放环境下的建模方法；③利用众源数据支持的地图变化发现与更新；④以跨相机视觉定位过程中实时获取的三维场景为输入，对于相机协同定位的场景进行语义识别和认知。

对本发明更具体的方法和步骤作进一步说明如下：

图像预处理：

图像分析中，图像质量的好坏直接影响识别算法的设计与效果的精度，因此在图像分析(特征提取、行人重识别、目标跟踪等)前，需要进行预处理。图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、行人重识别、目标跟踪的可靠性。传统的预处理方法主要包括图像灰度化、几何变换和图像增强(空间域法和频率域法)等。针对本项目，课题组欲采用如下方法进行图像预处理。

(1)复杂环境下的图像处理

使用图像处理算法，针对不同天气情况下、不同时间情况下的图像进行处理，削弱环境变化对行人图像的影响，并从视频序列中选择出较为清晰的行人图像以供行人重识别使用。

(2)图像低分辨率重建

拟采用生成对抗网络(Generative Adversarial Networks,GAN)对低分辨率图像进行重建生成器采用多层Resnet变体或者多层VGG变体以及用来重建图像，判别器采用重建的图像以及真实低分辨率图像作为输入，用以区分真实图像以及重建的图像，设计基于多种类型的GAN网络模型的损失函数并集成，以达到更好的图像增强效果。最终实现能够输入多张低分辨率行人图像，输出一张较为清晰的行人图像供行人重识别使用。

跨相机协同识别：

跨相机协同识别的研究方案主要分两步，地理信息系统(GeographicInformation System,GIS)相机的相对定位、行人重识别。

(1)GIS与相机的相对定位

GIS系统为开放环境下的相机定位提供地图、特征采集、建模、管理和可视化等基础支持。然而，GIS系统在开放环境下不能精确地采集相机设备的位置数据，在建模和定位过程中，存在位置偏移及精度偏差等问题。因此，本项目中需要建立高精度的开放环境下GIS与相机的相对定位系统，需要使用如下关键技术：①建立统一时空基准下的开放环境GIS数据模型；②建模与相机定位实时协同的开放环境下的建模方法；③利用众源数据支持的地图变化发现与更新；④以跨相机视觉定位过程中实时获取的三维场景为输入，对于相机协同定位的场景进行语义识别和认知。因此，在开放环境下利用GIS系统与相机在标准测绘坐标系上进行标注定位，确定相机视域在地图上的范围，并确定各个相机间的相对位置和视域重合情况，可以显著提高后续步骤的处理效率。

(2)行人重识别

进行行人图像的特征提取，设计特征提取算法，提取出稳定的特征，并根据整个视频的图像序列提取出更多的特征。根据不同的情况设计高效的匹配算法，利用深度学习进行匹配，通过大量数据的训练得到高效率的模型。

盲区轨迹还原与跟踪：

盲区轨迹还原与跟踪的研究方案主要分三步，视域内的盲区轨迹跟踪、视域外的盲区轨迹还原。

(1)视域内的盲区轨迹跟踪

视域内的盲区主要由于摄像机的角度、行人被遮挡、光照强度和背景干扰等因素造成的。本研究方案主要解决行人被遮挡时的盲区问题，拟采用联合目标检测和行人重识别方法进行行人检索，并针对研究问题进行相应改进。考虑到行人可能只在视频的部分帧中被遮挡，拟采用目标检测方法首先对行人进行检测，然后利用视域内的摄像头采集到的行人的图像输入到GAN网络进行还原，从而实现对目标轨迹进行持续跟踪。

(2)视域外的盲区轨迹还原

通过GIS地理信息系统将摄像机捕捉到的图像与真实坐标进行标定，得到目标起点和重点的位置，再通过Dijkstra算法和A*算法等进行集成，得到目标可能的轨迹。

边缘计算：

边缘计算主要研究算力分配和算法优化两部分。

(1)算力分配

利用边缘服务器的优势在于不必要将视频源文件传输到云端服务器上进行处理，降低了云端服务器的运算压力，并且传输的数据为特征集数据，亦减轻了网络传输的压力。多台边缘服务器并行运算，提高了运算的速率。

(2)算法优化

对提取特征集算法和特征匹配算法进行改进，使其在提取特征集中的内容的同时进行目标特征匹配的算法。并优化算法，平衡其在边缘服务器上的计算分配。

虽然以上将实施例分开说明和阐述，但涉及部分共通之技术，在本领域普通技术人员看来，可以在实施例之间进行替换和整合，涉及其中一个实施例未明确记载的内容，则可参考有记载的另一个实施例。

GIS数据模型是一个基于地理空间整体论、完全以面向对象方式组织的数据模型。这种数据模型是以单个空间地理实体为数据组织和存储的基本单位的。

在步骤3)a中，目标检测算法采用Faster R-CNN目标检测方法首先对行人进行检测。FastR-CNN的网络结构如图4所示：FastR-CNN的输入由两部分组成：一是待处理的整张图像；二是候选区域(region proposal)。FastR-CNN处理的第一步是对图像进行多次卷积核池化处理来获取卷积特征图。由于存在多个候选区域，系统会有一个甄别，判断出感兴趣区域，也就是Region of Interest,RoI。RoI池化层是SSP(Spatial Pyramid Pooling)层的特殊情况，它可以从特征图中提取一个固定长度的特征向量。每个特征向量，都会被输送到全连接(FC)层序列中，这个FC分支成两个同级输出层。其中一层的功能是进行分类，对目标关于K个对象类(包括全部”背景background”类)输出每一个RoI的概率分布，也就是产生softmax概率估计；另一层是为了输出K个对象中每一个类的四个实数值(bboxregression)。每4个值编码K个类中的每个类的精确边界框(bounding-box)位置。整个结构是使用多任务损失的端到端训练(trained end-to-end with a multi-task loss)(除去Region Proposal提取阶段)。

在步骤3)b中，生成对抗网络，即GAN网络，采用基于Social-GAN的相机视域内盲区行人轨迹还原算法，如图3所示，Social-GAN网络又由三个主要成分组成：生成器(GENERATOR)，池化模块(Polling Module)和判别器(DISCRIMINATOR)，行人之前的轨迹输入生成器中被编码(Encoder)然后输入到池化模块，输出每个人的轨迹向量。解码器(Decoder)生成行人将要行走的轨迹。判别器将行人轨迹作为输入，并将它们归类为可接受(Real)或不接受(Fake)。再通过A*算法进行算法集成，得到目标可能的轨迹。A*算法，A*(A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法，也是解决许多搜索问题的有效算法。算法中的距离估算值与实际值越接近，最终搜索速度越快。

云端服务器经过特征识别给出的特征集中包含人体步态数据、人体体态数据、肤色、穿着等数据。

在步骤1)中，采用GAN网络对低分辨率图像进行重建生成器多层ResNet变体或者多层VGG变体实现重建图像。ResNets是由残差块(Residual block)构建的，使用残差块能够训练更深的神经网络。所以构建一个ResNet网络就是通过将很多这样的残差块堆积在一起，形成一个很深神经网络。使用ResNet即使网络再深，训练的表现却不错，比如说训练误差减少。这种方式有助于让我们在训练更深网络的同时，又能保证良好的性能。

在步骤2)中，②建模与相机定位实时协同的开放环境下的建模方法。需要建立高精度的开放环境下GIS与相机的相对定位系统，实时反馈开放环境下GIS与相机信息，在两者之间建立空间关系建立相机GIS之间空间的模型。④以跨相机视觉定位过程中实时获取的三维场景为输入，对于相机协同定位的场景进行语义识别和认知。语义识别与认知通过算法自动识别目标特征，进行语义匹配。本发明中涉及摄像头和相机，二者均视为本发明名称中的相机。

以上所述的实施方式，并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等，均应包含在该技术方案的保护范围之内。

Claims

1.一种跨相机行人重识别与跟踪方法，其特征在于：包括如下步骤：

3)盲区轨迹还原与跟踪：

2.根据权利要求1所述的跨相机行人重识别与跟踪方法，其特征在于：基于跨相机行人重识别平台，所述跨相机行人重识别平台包括云端服务器、若干边缘服务器和摄像头，所述云端服务器连接每台边缘服务器，所述边缘服务器与各地区的终端摄像头相连接。

3.根据权利要求1或2所述的跨相机行人重识别与跟踪方法，其特征在于：给云端服务器输入待检索目标信息，云端服务器经过特征识别给出一个特征集；云端服务器将特征集打包下发到各个边缘服务器，边缘服务器对监控视频进行实时演算，提取行人特征集；将提取的行人特征集与云端服务器下发的特征集作比对；若经比对判定其为目标，则将实时目标特征和目标最终出现位置上传至云端服务器，云端服务器记录目标位置然后绘制目标移动轨迹图，并对目标实时特征集进行分析，依此对初始特征集进行更新，以实现目标的识别和跟踪。。

4.根据权利要求3所述的跨相机行人重识别与跟踪方法，其特征在于：若是多个摄像头视域中都出现了目标，则采用多相机协同识别，若是摄像头在同一边缘服务器下，则在边缘服务器中就可以做到多相机协同识别，若摄像头不在同一边缘服务器中，则需将数据上传到云端服务器，在云端服务器中运行多相机协同识别。

5.根据权利要求1所述的跨相机行人重识别与跟踪方法，其特征在于：在步骤1)中，采用生成对抗网络对低分辨率图像进行重建生成器采用多层Resnet变体或者多层VGG变体实现重建图像，判别器采用重建的图像以及真实低分辨率图像作为输入，用以区分真实图像以及重建的图像，设计基于多种类型的生成对抗网络模型的损失函数并集成，最终实现能够输入多张低分辨率行人图像，输出一张较为清晰的行人图像供行人重识别使用。

6.根据权利要求1所述的跨相机行人重识别与跟踪方法，其特征在于：在步骤2)中，具体采用如步骤：①建立统一时空基准下的开放环境地理信息系统数据模型；②建模与相机定位实时协同的开放环境下的建模方法；③利用众源数据支持的地图变化发现与更新；④以跨相机视觉定位过程中实时获取的三维场景为输入，对于相机协同定位的场景进行语义识别和认知。