CN111310728A

CN111310728A - 基于监控相机和无线定位的行人重识别系统

Info

Publication number: CN111310728A
Application number: CN202010180502.2A
Authority: CN
Inventors: 李厚强; 周文罡; 刘一衡
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-06-19
Anticipated expiration: 2040-03-16
Also published as: CN111310728B

Abstract

本发明公开了一种基于监控相机和无线定位的行人重识别系统，通过对相机拍摄的场景进行经纬度标注，将无线定位与行人重识别结合起来，构成新的行人重识别系统，系统中利用循环亲和度传播单元，视觉信息与无线定位信息不断传播融合，互相提升，系统不仅能提升传统行人重识别的准确率，同时能匹配行人的无线信号以进一步得到其具体的身份信息；此外，在得到行人的无线信息身份后，便可直接在其无线信号路径上进行搜索，极大地降低了搜索的复杂度。

Description

基于监控相机和无线定位的行人重识别系统

技术领域

本发明涉及行人重识别技术领域，尤其涉及一种基于监控相机和无线定位的行人重识别系统。

背景技术

行人重识别旨在匹配不同相机下的行人。随着经济的发展，监控摄像机的覆盖范围越来越大，行人重识别的应用价值也越来越突出。借助行人重识别，我们可以寻找丢失的儿童，追踪嫌犯，安防布控等等。受此影响，近些年中，行人重识别也受到了越来越多研究者的关注。

因为摄像机架设的位置不同，相机的拍摄视角是不同的，即使拍到的是同一个人，但是其背景，光照，行人的姿势和角度都会有很大的差异。这些问题都给行人重识别算法带来了很多的困难。根据识别对象的来源分类，现有的行人重识别算法主要有两大类，一类是基于图像的，另一类是基于视频的。基于图像的行人重识别是给定一张行人的图片，算法需要在其他相机拍摄到的图片中找到相应的行人的图像。基于视频的行人重识别则是给定一个行人的视频序列，算法需找出其他相机下该行人的视频序列。单张图片所含有的信息量是有限的，容易受到遮挡、模糊和姿态变化的影响，而视频序列中，帧之间的信息是相互补充的，某一帧缺失的信息可以借助相邻帧中的信息恢复。所以相较于基于图片的行人重识别，基于视频的行人重识别有更多的信息可以利用，更有优势。

行人重识别算法主要包含两部分，一部分是特征的提取，另一部分是相似性的度量。不同行人之间可能会有相似的姿势甚至衣着，而相同的行人因视角不同可能会有很大的姿势差距，有区分性的、鲁棒的特征对解决这些问题至关重要。给定两张图片或者两个视频的特征表达之后，用有效的方法度量特征之间的相似性也是一个重要的研究内容。好的相似性度量方法能更充分地利用特征的区分性，提升匹配的准确率。

基于图片的行人重识别常用卷积神经网络(Convolutional Neural Network)来提取特征，而基于视频的行人重识别，在提取到视频帧的特征之后，还需要对帧特征进行融合以得到视频序列的特征表达。现有的融合视频帧特征的方法主要有循环神经网络(Recurrent Neural Network)，估计帧质量并用质量值加权求和，利用3D卷积神经网络同时整合时空信息，利用局部显著性值加权融合等等。

现有的行人重识别方案主要存在如下缺陷：1)现有的行人重识别算法容易受到遮挡、模糊和姿态变化的影响。当行人被一些物体遮挡住部分身体，或者监控相机分辨率较低以至于无法看清细节，或者因姿势变化而导致类内差异增大时，都会干扰算法的匹配精度。2)现有的行人重识别算法只能给定一个行人的图像或者视频，寻找其在其他相机下的数据，但是很多情况下，因相机分辨率较低以及角度问题，无法识别面部，故不能有效的知道行人的具体身份。3)现有的行人重识别算法的计算复杂度较高，而现在的城市监控网络中，监控视频数据量十分庞大，在这么多视频数据中直接搜寻行人需要大量的计算资源。

发明内容

本发明的目的是提供一种基于监控相机和无线定位的行人重识别系统，不仅能提升传统行人重识别的准确率，同时能匹配行人的无线信号以进一步得到其具体的身份信息。

本发明的目的是通过以下技术方案实现的：

一种基于监控相机和无线定位的行人重识别系统，包括：

定位标注单元，用于对监控区域内的场景进行经纬度标注；

行人视频序列与视觉轨迹提取单元，用于从摄像机拍摄的监控区域内的视频中提取出行人视频序列，并根据视频序列中标注的经纬度，提取相应的视觉轨迹；

无线定位轨迹获取单元，用于记录监控区域内移动终端的运动轨迹，获得对应的无线定位轨迹；

视频特征提取器，用于从行人视频序列中提取出视频特征；

循环亲和度传播单元，用于利用视频特征计算待查询的行人视频序列与数据库中每一行人视频序列之间的视觉亲和度，以及利用待查询的行人视频序列对应的视觉轨迹与每一无线定位轨迹的距离计算对应的轨迹亲和度，并通过融合两种亲和度实现两种亲和度的循环更新；

行人重识别单元，利用最终更新得到的视觉亲和度与轨迹亲和度进行行人重识别。

由上述本发明提供的技术方案可以看出，通过对相机拍摄的场景进行经纬度标注，将无线定位与行人重识别结合起来，构成新的行人重识别系统，系统中利用循环亲和度传播单元，视觉信息与无线定位信息不断传播融合，互相提升，系统不仅能提升传统行人重识别的准确率，同时能匹配行人的无线信号以进一步得到其具体的身份信息；此外，在得到行人的无线信息身份后，便可直接在其无线信号路径上进行搜索，极大地降低了搜索的复杂度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于监控相机和无线定位的行人重识别系统的示意图；

图2为本发明实施例提供的监控区域内摄像机架设位置示意图；

图3为本发明实施例提供的6个摄像机实际拍摄范围的示意图；

图4为本发明实施例提供的视觉轨迹与无线定位轨迹图；

图5为本发明实施例提供的视频特征提取器的模型框图；

图6为本发明实施例提供的视觉亲和度更新单元中的信息传播图；

图7为本发明实施例提供的轨迹亲和度更新单元中的信息传播图；

图8为本发明实施例提供的循环亲和度更新单元的结构图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于监控相机和无线定位的行人重识别系统，在寻找行人时，将多模态的信息相互融合，利用无线定位信息纠正一些因为遮挡、模糊和姿态变化引起的误匹配，同时又能获取行人的具体身份。在得到行人的无线信息身份后，便可直接在其无线信号路径上进行搜索，极大地降低了搜索的复杂度。

如图1所示为基于监控相机和无线定位的行人重识别系统的示意图，其主要包括：

1、定位标注单元，用于对监控区域内的场景进行经纬度标注。

本发明实施例中，所述定位标注单元，利用GPS定位仪器监控区域内的场景进行网格定位，从而获得每一视频帧中网格点对应像素的经纬度坐标，再通过近邻差值计算出每个像素点的经纬度，完成经纬度标注。

如图2所示，为监控区域内摄像机架设位置示意图，图中数字为摄像机编号，对应的区域为相应摄像机的拍摄范围。

如图3所示，为每个摄像机实际拍摄范围的示意图，图中的黑点即为经纬度标记的网格点，基于这些网格点可以差值得到整个图每个像素点的经纬度坐标。

2、行人视频序列与视觉轨迹提取单元，用于从摄像机拍摄的监控区域内的视频中提取出行人视频序列，并根据视频序列中标注的经纬度，提取相应的视觉轨迹。

本发明实施例中，所述行人视频序列与视觉轨迹提取单元，利用跟踪算法(可通过现有算法实现)从摄像机拍摄的监控区域内的视频中提取出行人视频序列V；对于一个视频帧中的行人边界框，通过边界框底部中心位置所对应的像素点的经纬度来得到行人在物理世界中的位置，这样，对于一个行人视频序列V，能够得到相应的经纬度轨迹，再经过卡尔曼滤波降低噪声的影响，得到最终的视觉轨迹T^v。，每一个视觉轨迹是由一系列经纬度坐标点构成的集合，记录了行人的位置随时间的变化。

后文所涉及的待查询的行人视频序列、以及数据库中每一行人视频序列都采用上述方式获得，同时，也会提取对应的视觉轨迹。

3、无线定位轨迹获取单元，用于记录监控区域内移动终端的运动轨迹，获得对应的无线定位轨迹。

本发明实施例中，所述无线定位轨迹获取单元，通过基站定位、GPS定位、或者wifi定位方式记录每一个移动终端的运动轨迹；得到M个基于无线定位的经纬度轨迹

其中

是第m个行人的无线定位轨迹。

图4为视觉轨迹与无线定位轨迹图。视觉轨迹为较短的虚线线段，无线定位轨迹为较长的实线线段。

4、视频特征提取器，用于从行人视频序列中提取出视频特征。

通常情况下，提取出行人视频序列下，可以从中随机选择T个连续视频帧组成一个视频短序列，对于一个批次的数据，会随机选择P个行人，每个行人挑选K个视频短序列。

如图5所示，为视频特征提取器的模型框图，其输入为一系列的视频帧。对于第p个行人的第k个视频中的第t帧图片V_r,k,t，将其送入2维卷积神经网络(CNN)，再经过一个全局平均池化(Pooling)后得到特征表达x_r,k,t。对于行人视频序列，其帧特征的平均特征作为视频的特征表达：

其中，x_p,k,t表示第p个行人的第k个视频中的第t帧图片V_r,k,t的特征表达，T表示行人视频序列中视频帧数目。

所述视频特征提取器需要预先训练，训练数据集包含了P个行人的视频序列集，每一个行人的视频序列集包含了K个视频序列。

训练阶段，对于第p个行人，将第k个视频中的第t帧图片V_r,k,t的特征表达x_p,k,t，以及视频的特征表达f_p,k经过同一个批归一化(Batch Normalization,BN)、不同的全连接层(Fully Connected Layer,FC)后得到

和

其中，FC_x为处理视频帧特征表达x_p,k,t时用到的全连接层，FC_f为处理视频的特征表达f_p,k时用到的全连接层，BN为共享的批归一化层；

视频特征提取器整体的优化目标是：

L＝L_x+L_f×(1-λ)+λ×L_kl+L_t

其中，λ为设定的比例参数，L_x、L_f对应为

的交叉熵损失函数，L_t为视频的特征表达f_p,k的三元组损失函数；损失函数L_kl为：

其中，τ为退火参数，KL(.)为KL散度函数。

5、循环亲和度传播单元，用于利用视频特征计算待查询的行人视频序列与数据库中每一行人视频序列之间的视觉亲和度，以及利用待查询的行人视频序列对应的视觉轨迹与每一无线定位轨迹的距离计算对应的轨迹亲和度，并通过融合两种亲和度实现两种亲和度的循环更新。

所述循环亲和度传播单元主要包括：1)视觉亲和度更新单元，利用视频特征计算待查询的行人视频序列与数据库中每一行人视频序列之间的视觉亲和度，并利用待查询的行人视频序列的视觉轨迹与无线定位轨迹之间的距离，来更新相应视频序列之间的视觉亲和度。2)轨迹亲和度更新单元，用于根据待查询的行人视频序列的视觉轨迹与无线定位轨迹之间距离计算轨迹亲和度，并根据待查询的行人视频序列与其他行人视频序列的视觉亲和度，来更新待查询的行人视频序列的视觉轨迹与无线定位轨迹之间距离，进而更新轨迹亲和度。

两种亲和度的计算方式如下：

1)计算视觉亲和度。

假设数据集中共有N个视频(与前文训练数据集的形式相同，包含了多个行人的视频序列集，每一个行人的视频序列集包含了多个视频序列)，会分别得到其视频特征表达，并计算待查询的行人视频序列与数据库中每一行人视频序列的视频特征表达之间的余弦相似度作为其亲和度，得到亲和度矩阵S。亲和度矩阵S中的元素S_i,j表示待查询的行人视频序列V_i与数据库中行人视频序列V_j的视觉亲和度，计算公式为：

S_i,j＝Cos(f_i,f_j)

其中，Cos(.)为余弦相似度函数；f_i、f_j对应的表示待查询的行人视频序列V_i、数据库中行人视频序列V_j的视觉特征。

2)计算轨迹亲和度。

首先，计算待查询的行人视频序列V_i对应的视觉轨迹

与无线定位轨迹的距离，得到距离矩阵D，其中的元素D_i,m是指行人视频序列V_i对应的视觉轨迹

与第m个行人的无线定位轨迹

的距离，计算公式为：

其中，d(.)为欧氏距离函数。

对于两个轨迹，计算时间戳相同的点之间的欧氏距离，以这些点的欧氏距离的均值作为两个轨迹之间的距离；当两个轨迹没有时间戳相同的点时，距离定义为无穷大；

然后，根据轨迹距离计算两个轨迹的亲和度为：

亲和度越高，表示两个轨迹越匹配。

两种亲和度的更新方式如下：

1)更新视觉亲和度。

计算待查询的行人视频序列V_i的视觉轨迹

与M个无线定位轨迹

的距离D_i＝D_i,1,…,D_i,M，数据库中行人视频序列V_j的视觉轨迹

与M个无线定位轨迹

的距离D_j＝D_j,1,…,D_j,M；

如果

小于更新阈值σ，则将行人视频序列对(V_i,V_j)加入视觉亲和度可更新组Ψ中；其中，[·]_min指求矩阵的最小值，l-1表示第l-1次更新得到的相应数据；

借由轨迹距离更新两个行人视频序列的视觉亲和度：

其中，

为第l次更新之后得到的视觉亲和度，

表示初始时刻计算得到的两个行人视频序列的视觉亲和度。

如图6所示，为视觉亲和度更新单元中的信息传播图，原始的视觉亲和度会借助轨迹信息进行更新。

2)更新轨迹亲和度。

对于待查询的行人视频序列V_i对应的视觉轨迹

与第m个行人的无线定位轨迹

之间的距离D_i,m，采用如下方式进行更新：

其中，

表示初始时刻计算得到的待查询的行人视频序列V_i对应的视觉轨迹

与第m个行人的无线定位轨迹

之间的距离，

为第l次更新后的距离；Φ_i为与待查询的行人视频序列V_i视觉亲和度最高的前R个行人视频序列，但若这R个视频序列中有与无线轨迹

距离为无穷大的，则其会被移除，此情况下

表示初始时刻计算得到的行人视频序列V_k对应的视觉轨迹

与第m个行人的无线定位轨迹

之间的距离，

表示第l次更新之后得到行人视频序列V_k与V_i的视觉亲和度；

根据更新得到的

得到更新后的轨迹亲和度：

如图7所示，为轨迹亲和度更新单元中的信息传播图。原始的轨迹亲和度会借助视觉信息进行更新。

如图8所示，为循环亲和度更新单元的结构图。图6～图8中，符号“/”表示倒数运算，符号“×”表示乘法运算，符号“+”表示加法运算，S与Q之间曲线箭头指向横线箭头表示信息融合。

6、行人重识别单元，利用最终更新得到的视觉亲和度与轨迹亲和度进行行人重识别。

给定一个待查询的行人视频序列V_i，经过循环亲和度更新单元更新L次后(L的具体数值可根据情况自行设定)，获得更新结果

和

N为数据库中行人视频序列数目，M为行人数目；这样

便度量了待查询的行人视频序列V_i与数据库中各个行人视频序列的相似性，会对其

进行降序排序，排名第一对应的行人视频序列与待查询的行人视频序列V_i属于同一个行人的概率最高；同理，对

进行降序排序，并设定参数μ(具体数值可根据情况自行设定)，如果排名第一的轨迹亲密度小于μ，则认为待查询的行人视频序列V_i没有对应的无线定位轨迹，否则，排名第一对应的无线定位轨迹即为待查询的行人视频序列V_i对应的轨迹。

至此，给定一个待查询的行人视频序列V_i后，便能在数据库中的找到对应的视频序列和其对应的无线定位轨迹。根据无线定位轨迹对应的身份信息，我们便可以了解到此人的身份。在后续的跟踪检索时，我们便可以直接由此无线定位轨迹附近的摄像机拍摄的视频构建数据库并通过我们的算法检索视频。这种策略会更加节省计算开销，避免了搜索整个城市范围的监控数据。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于监控相机和无线定位的行人重识别系统，其特征在于，包括：

定位标注单元，用于对监控区域内的场景进行经纬度标注；

视频特征提取器，用于从行人视频序列中提取出视频特征；

2.根据权利要求1所述的一种基于监控相机和无线定位的行人重识别系统，其特征在于，所述定位标注单元，利用GPS定位仪器监控区域内的场景进行网格定位，从而获得每一视频帧中网格点对应像素的经纬度坐标，再通过近邻差值计算出每个像素点的经纬度，完成经纬度标注；

所述无线定位轨迹获取单元，通过基站定位、GPS定位、或者wifi定位方式记录每一个移动终端的运动轨迹；得到M个基于无线定位的经纬度轨迹

其中

是第m个行人的无线定位轨迹。

3.根据权利要求1所述的一种基于监控相机和无线定位的行人重识别系统，其特征在于，所述行人视频序列与视觉轨迹提取单元，利用跟踪算法从摄像机拍摄的监控区域内的视频中提取出行人视频序列V；对于一个视频帧中的行人边界框，通过边界框底部中心位置所对应的像素点的经纬度来得到行人在物理世界中的位置，这样，对于一个行人视频序列V，能够得到相应的经纬度轨迹，再经过卡尔曼滤波降低噪声的影响，得到最终的视觉轨迹T^v。

4.根据权利要求1所述的一种基于监控相机和无线定位的行人重识别系统，其特征在于，从行人视频序列中提取出视频特征包括：

将每一行人视频序列中的视频帧依次输入至2维卷积神经网络，再经过一个全局平均池化后得到每一视频帧的特征表达；对于行人视频序列，其帧特征的平均特征作为视频的特征表达：

其中，x_p，k，t表示第p个行人的第k个视频中的第t帧图片V_r，k，t的特征表达，T表示行人视频序列中视频帧数目。

5.根据权利要求4所述的一种基于监控相机和无线定位的行人重识别系统，其特征在于，所述视频特征提取器需要预先训练，训练数据集包含了P个行人的视频序列集，每一个行人的视频序列集包含了K个视频序列；

训练阶段，对于第p个行人，将第k个视频中的第t帧图片V_r，k，t的特征表达x_p，k，t，以及视频的特征表达f_p，k同一个批归一化、不同的全连接层后得到

和

其中，FC_x为处理视频帧特征表达x_p，k，t时用到的全连接层，FC_f为处理视频的特征表达f_p，k时用到的全连接层，BN为共享的批归一化层；

视频特征提取器整体的优化目标是：

L＝L_x+L_f×(1-λ)+λ×L_kl+L_t

其中，λ为设定的比例参数，L_x、L_f对应为

的交叉熵损失函数，L_t为视频的特征表达f_p，k的三元组损失函数；损失函数L_kl为：

其中，τ为退火参数，KL(·)为KL散度函数。

6.根据权利要求1所述的一种基于监控相机和无线定位的行人重识别系统，其特征在于，所述循环亲和度传播单元包括：

视觉亲和度更新单元，利用视频特征计算待查询的行人视频序列与数据库中每一行人视频序列之间的视觉亲和度，并利用待查询的行人视频序列的视觉轨迹与无线定位轨迹之间的距离，来更新相应视频序列之间的视觉亲和度；

轨迹亲和度更新单元，用于根据待查询的行人视频序列的视觉轨迹与无线定位轨迹之间距离计算轨迹亲和度，并根据待查询的行人视频序列与其他行人视频序列的视觉亲和度，来更新待查询的行人视频序列的视觉轨迹与无线定位轨迹之间距离，进而更新轨迹亲和度。

7.根据权利要求1或6所述的一种基于监控相机和无线定位的行人重识别系统，其特征在于，

视觉亲和度的计算公式为：

S_i，j＝Cos(f_i，f_j)

其中，S_i，j表示待查询的行人视频序列V_i与数据库中行人视频序列V_j的视觉亲和度；Cos(·)为余弦相似度函数；f_i、f_j对应的表示待查询的行人视频序列V_i、数据库中行人视频序列V_j的视觉特征；

轨迹亲和度的计算方式为：

首先，计算待查询的行人视频序列对应的视觉轨迹与无线定位轨迹的距离：

其中，d(·)为欧氏距离函数，

分别为行人视频序列V_i对应的视觉轨迹、第m个行人的无线定位轨迹；

然后，根据轨迹距离计算两个轨迹的亲和度为：

8.根据权利要求1或6所述的一种基于监控相机和无线定位的行人重识别系统，其特征在于，更新的视觉亲和度的方式包括：

计算待查询的行人视频序列V_i的视觉轨迹

与M个无线定位轨迹

的距离D_i＝D_i，1，…，D_i，M，数据库中行人视频序列V_j的视觉轨迹

与M个无线定位轨迹

的距离D_j＝D_j，1，...，D_j，M；

如果

小于更新阈值σ，则将行人视频序列对(V_i，V_j)加入视觉亲和度可更新组Ψ中；其中，[·]_min指求矩阵的最小值，l-1表示第l-1次更新得到的相应数据；

借由轨迹距离更新两个行人视频序列的视觉亲和度：

其中，

为第l次更新之后得到的视觉亲和度，

表示初始时刻计算得到的两个行人视频序列的视觉亲和度。

9.根据权利要求6所述的一种基于监控相机和无线定位的行人重识别系统，其特征在于，

对于待查询的行人视频序列V_i对应的视觉轨迹

与第m个行人的无线定位轨迹

之间的距离D_i，m，采用如下方式进行更新：

其中，

与第m个行人的无线定位轨迹

之间的距离，

距离为无穷大的，则其会被移除，此情况下

表示初始时刻计算得到的行人视频序列V_k对应的视觉轨迹

与第m个行人的无线定位轨迹

之间的距离，

表示第l次更新之后得到行人视频序列V_k与V_i的视觉亲和度；

根据更新得到的

得到更新后的轨迹亲和度：

10.根据权利要求1所述的一种基于监控相机和无线定位的行人重识别系统，其特征在于，最终更新的到的视觉亲和度与轨迹亲和度进行行人重识别包括：

对于待查询的行人视频序列V_i，经过循环亲和度更新单元更新L次后，获得视觉亲和度与轨迹亲和度更新结果

和

N为数据库中行人视频序列数目，M为行人数目；对

进行降序排序，排名第一对应的行人视频序列与待查询的行人视频序列V_i属于同一个行人的概率最高；对

进行降序排序，并设定参数μ，如果排名第一的轨迹亲密度小于μ，则认为待查询的行人视频序列V_i没有对应的无线定位轨迹，否则，排名第一对应的无线定位轨迹即为待查询的行人视频序列V_i对应的轨迹；

之后，还能够通过查找到的无线定位轨迹，确定行人的身份信息；同时，直接根据无线定位轨迹调用相应摄像机拍摄的视频，进行后续跟踪。