CN108198200B

CN108198200B - 跨摄像头场景下指定行人在线跟踪方法

Info

Publication number: CN108198200B
Application number: CN201810076414.0A
Authority: CN
Inventors: 余春艳; 钟诗俊
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2022-03-08
Anticipated expiration: 2038-01-26
Also published as: CN108198200A

Abstract

本发明涉及一种跨摄像头场景下指定行人在线跟踪方法，通过在任一摄像头视野区域内标定出感兴趣的行人，根据获得的基本信息创建并初始化跟踪器；当指定行人离开当前摄像头视野区域后，将行人状态设置为挂起检测，等待下一步行人数据关联操作；当跟踪视野区域内有新行人进入时，则将挂起状态的行人和新目标行人进行通过关联算法判断是否属于同一个行人；根据基于深度学习的数据关联算法得到两个目标行人的相似值，当相似值大于阈值，则更新对应的跟踪器，进而得到感兴趣目标行人在整个摄像头网络中的完整运动轨迹。本发明提出的一种跨摄像头场景下指定行人在线跟踪方法，提高了多摄像头场景下非重叠视野区域目标跟踪的实用性和准确度。

Description

跨摄像头场景下指定行人在线跟踪方法

技术领域

本发明涉及智能安防领域，特别是一种跨摄像头场景下指定行人在线跟踪方法。

背景技术

随着经济的不断发展，人们对安全的需求与日俱增。因此，安防领域中的智能监控视频的应用范围在不断的扩大，类似于行人跟踪、检索等相关视频智能处理技术开始成为当前研究的热点。其研究范畴从传统技术只针对在单摄像头应用场景开始延展到多摄像头应用场景，研究对象从以前的只对单个行人发展到需要同时对多个行人进行处理。目前，单摄像头下的行人跟踪技术已经相对成熟，但多摄像头，尤其是非重叠视野区域情形下由于盲区的存在使得目标的时空信息变得不再可靠，从而给不同时刻不同空间下不同摄像头中同一目标的识别跟踪和检索造成了很大的困扰。所以，跨摄像头行人跟踪所需要解决的技术难点远比单摄像头场景下得复杂。因此，与之相关的一系列研究正在逐渐兴起。

跨摄像头行人跟踪主要是以行人为研究对象，关注非重叠视野区域的多摄像头多目标跟踪问题。这一问题，目前常见的解决机制是分为两个步骤：首先，使用检测和跟踪算法获得目标在单摄像头下得运行轨迹。其次，使用关联算法将摄像头间独立的行人运行轨迹进行关联整合，从而获得每个目标完整的运动轨迹。上述机制的局限在于只能处理离线的数据，本质上适用于检索场景，无法支持在线跟踪。究其原因在于，目标行人离开当前摄像头视域后，由于盲区的存在目标在进入下一摄像头视域时，时空信息均缺失，增加了将目标行人从上一个摄像头正确移交给下一个摄像头的难度。这种机制还产生了副效应:使得跨摄像头行人跟踪的结果严重依赖单摄像头下得行人跟踪效果。

实现行人跨摄像头在线跟踪的关键在于将不同视域内的同一目标行人正确关联。针对目前大部分跨摄像头行人跟踪算法中对于行人特征学习能力有限，并不能学习到较为鲁棒的行人特征。因此，最终影响到了后面的行人相似性度量的精度，最终造成了并不理想的数据关联结果。所以很难适应于跨摄像头行人跟踪的复杂环境。

尽管现有的跨摄像头指定行人跟踪相关的研究可以比较有效地解决一些对于离线数据的行人跟踪，但是并不能满足对于需要即时在线跟踪的要求，并且也不能在未知行人进出区域的时候进行有效的跟踪。

发明内容

本发明的目的在于提供一种跨摄像头场景下指定行人在线跟踪方法，以克服现有技术中存在的缺陷。

为实现上述目的，本发明的技术方案是：一种跨摄像头场景下指定行人在线跟踪方法，，按照如下步骤实现：

步骤S1：记N个视野区域非重叠的摄像头为C₁,C₂,...,C_N；在第k帧，记摄像机C_i捕捉到m个行人，为

其中，

表示捕捉到的目标行人的信息；在第k帧标定

为感兴趣目标行人，创建并初始化一跟踪器，保存该目标行人的信息作为后期数据关联的模板；

步骤S2：将单摄像头视野区域划分为外围区域和内围区域；当目标行人从当前单摄像头视野外围区域离开时，将该目标行人设置为挂起状态，并等待进行下一步的数据关联操作；

步骤S3：通过采用深度卷积孪生网络在线提取新进入的目标行人的特征，对新进入的行人与等待关联的目标行人进行相似性度量；将相似性值作为权值，建立带权值匹配图；对带权值匹配图求解最大权值匹配的解，获取新进入的行人与等待关联的目标行人间的数据关联的解，进而实现对目标行人在线追踪。

在本发明一实施例中，在所述步骤S1中，所述捕捉到的目标行人的信息包括：行人特征

所处位置

和时间信息

且表示为：

在本发明一实施例中，在所述步骤S2中，还包括如下步骤：

步骤S21：将所述外围区域的上、下、左、右区域相对于整个单摄像头的视野区域所占的比例分别为0.2、0.2、0.2以及0.2；

步骤S22：当所述跟踪器判断当前的目标行人已经无法继续跟踪时，且经一检测器检测到该目标行人位于所述外围区域时，将该目标行人设置为挂起状态，并等待下一步的数据关联操作；否则，则判定该目标行人为跟踪失败，并且结束对该目标行人的跟踪。

在本发明一实施例中，在所述步骤S22中，当所述跟踪器的置信度值小于阈值0.25时，记为所述跟踪器判断当前目标行人已经无法继续跟踪。

在本发明一实施例中，在所述步骤S3中，记

为现实世界中的同一行人不同时刻出现在i,j两个摄像头下，并记

为一次关联；通过求解一个关联集合

当且仅当

是现实世界中的同一行人在不同时刻出现于摄像头i,j下，实现对新进入的行人与等待关联的目标行人间的数据关联的求解。

在本发明一实施例中，在所述步骤S3中，还包括如下步骤：

步骤S31：通过采用用深度卷积孪生网络在线提取新目标行人的特征，构建深度卷积孪生神经基础网络模块R-ResNet；

步骤S32：将两个完全相同的R-ResNet通过权重共享的方式，作为深度卷积孪生网络的基础网络；在两个R-ResNet的最后层分别添加一层卷积层，使用2个卷积核，尺寸大小为(1，1，4096)，并将该卷积层获得的特征分别标记为f₁和f₂；将要计算输入的一对行人的相似性值，转化成对f₁和f₂特征的相似性比较；

步骤S33：引入一个无参数层Square层来对f₁和f₂特征求解平方差，作为f₁和f₂相似性比较层，并记该Square层为：f_s＝(f₁-f₂)²；将f_s作为两个核大小为1×1×4096的卷积层的输入值，将softmax作为输出函数，输出一个二维向量(q₁,q₂)，表示输入两个对象属于现实世界中同一个人的概率值；

步骤S34：根据所述步骤S33中获得的一对行人间的相似性概率值作为图的权值，将新进入的行人和待关联的目标行人分别作为两个不同的顶点集合，建立所述带权值匹配图；通过求解最大权值匹配图问题的解，获得新进入的行人与等待关联的目标行人间的数据关联的解。

在本发明一实施例中，在所述步骤S31中，所述深度卷积孪生神经基础网络模块R-ResNet的结构如下：

第一层为卷积层：卷积核大小为(7，7，64)，max-pooling为(3,3)，滑动步长为2；

第二层到第四层都为卷积层：卷积核大小分别为(1,1,64)、(3,3,64)、(1,1,256)，激活函数都采用ReLu函数；该三层卷积层和激活函数组成一个卷积块；将该卷积块的输入值既作为所述第一层卷积层的输入值，也作为第三层激活函数的输入值；第五层到第七层以及第八层到十层都采用了与第二层到第四层相同的卷积块，卷积核大小以及结构与第二层到第四层完全相同；

第十一层到第十三层为卷积层：卷积核大小分别为(1，1，128)、(3，3，128)、(1，1，512)，激活函数都采用ReLu函数；该三层卷积层和激活函数组成一个卷积块；将该卷积块的输入值既作为第一层卷积层的输入值，也作为第三层激活函数的输入值；第十四层到第十六层、第十七层到第十九层以及第二十层到二十二层的结构与第十一层到第十三层完全相同；

第二十三层到第二十五层为卷积层：卷积核大小分别为(1，1，256)、(3，3，256)、(1，1，1024)，激活函数都采用ReLu函数；该三层卷积层和激活函数组成一个卷积块；将该卷积块的输入值既作为第一层卷积层的输入值，也作为第三层激活函数的输入值；第二十六层到第二十八层、第二十九层到三十一层、第三十二层到第三十四层、第三十五层到三十七层、第三十八层到第四十层的结构与第二十三层到二十五层完全相同；

第四十一层到第四十三层为卷积层：卷积核大小分别为(1，1，512)、(3，3，512)、(1，1，2048)，激活函数都采用ReLu函数；该三层卷积层和激活函数组成一个卷积块；第四十四层到第四十六层、第四十七层到四十九层也为卷积层，且与第四十一层到第四十二层采用相同的卷积块；

在第四十九层卷积层后增加三个并行的卷积层，每个卷积层，使用2048个卷积核，尺寸大小分别为(3,3,1024)、(5,5,1024)和(7,7,1024)，通过一个连接层将这三个并行的卷积层的通道进行合并，其后的max-pooling为(4,4)；

R-ResNet的最后一层是使用1024个卷积核，且尺寸大小为(2,2,2048)的卷积层。

在本发明一实施例中，步骤S341：记：

为目标行人

离开摄像头C_a后进入到摄像头C_b中，且与摄像头C_b中目标行人

是现实世界中同一个行人的概率值；

其中,

表示目标行人

和

的外观相似度；

当且仅当目标行人

和

离开或者进入的位置都是位于外围区域时，

否则,

当且仅当目标行人

和

的离开和出现的时间差不超过提前设定的等待时间阈值时，

否则,

将A_ij作为图的权值，

和

作为顶点建立所述带权匹配图；

步骤S342：通过匈牙利算法获得最大权值匹配问题的解，将最大权值匹配边对应着新进入的行人和等待关联的目标行人间的一组最优关联。

相较于现有技术，本发明具有以下有益效果：本发明提出的一种跨摄像头场景下指定行人在线跟踪方法，使用者标定某个感兴趣的目标行人，保存初始化信息作为当目标行人离开当前摄像头区域后，算法进行匹配关联的模板。将两个完全相同的R-ResNet网络，通过权重共享的方式作为深度卷积孪生网络的基础网络，在行人重识别数据集上对深度卷积孪生模型进行训练，使其能够满足在跨摄像头复杂环境下。通过采用本发明的深度卷积孪生网络，将等待关联的目标行人保存的模板和新目标新人的信息作为输入，仅通过单帧匹配的方式就可以进行相似性度量，实现了目标行人间的即时在线关联，解决了传统大部分算法只能处理离线数据的局限性。将每个单摄像头跟踪区域划分为内围和外围区域的方法，只对在外围区域被检测到的的新老目标进行数据关联，不仅消除了需要提前设定行人进出区域的局限而且还提升了本发明方法的效率，进一步提高了实用性。

附图说明

图1为本发明中跨摄像头场景下指定行人在线跟踪方法的流程示意图。

图2为本发明一实施例中R-ResNet的结构图。

图3为本发明一实施例中深度卷积孪生网络的结构图。

图4为本发明一实施例中一个卷积块的结构图。

图5为本发明一实施例中在单摄像头下指定多个行人的实际运行效果图。

图6是为本发明一实施例中通过采用跨摄像头场景下指定行人在线跟踪方法后的实际运行效果图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明针对目前跨摄像头存在以上的常见限制，提出了一种使用孪生神经网络来解决行人特征在线提取并完成对一对目标行人的相似性度量。基于上述对现有技术的分析，训练深度卷积孪生网络，通过孪生网络实现对行人特征的在线提取和目标行人间的关联匹配；将摄像头区域划分为内围和外围的方法解决了需要预设定行人进出区域的难题。

本发明提出的一种跨摄像头场景下指定行人在线跟踪方法，如图1所示，包括如下步骤：

步骤S1：将N个视野区域非重叠的摄像头记为C₁,C₂,...,C_N。在第k帧,将摄像机C_i捕捉到m个行人,记为

其中,

表示捕捉到的行人的信息，由行人的特征

所处位置

和时间信息

三部分组成。在第k帧标定

为感兴趣目标行人，创建并初始化跟踪器，并保存该行人的信息作为后期数据关联的模板；

步骤S2：将单摄像头视野区域划分为外围和内围,当目标行人从摄像头视野外围区域离开时，将该目标行人设置为挂起状态，并等待进行下一步的数据关联操作；

步骤S3：令

表示现实世界中的同一行人不同时刻出现在i,j两个摄像头下,记为

则为一次关联。求解一个关联集合

当且仅当

是现实世界中的同一行人在不同时刻出现于摄像头i,j下。使用深度卷积孪生网络在线提取新目标行人的特征，对每对新进入的目标行人与等待关联的行人进行相似性度量，将相似性值作为权值建立带权值匹配图。对带权值匹配图求解最大权值匹配的解，来获得原始问题目标行人间的数据关联的解。

进一步的，在本实施例中，步骤S1具体包括以下步骤：

步骤S11：根据使用者圈出的感兴趣行人，获取指定行人包括位置、时间和初始框等基本信息。

步骤S12：根据步骤S11获取到的基本信息创建并初始化一个跟踪器。

步骤S13:使用数据结构保存使用者圈出的感兴趣行人，作为后期行人数据关联的匹配模板。

进一步的，在本实施例中，步骤S2具体包括以下步骤：

步骤S21：将单摄像头下得跟踪视野区域划分为内围和外围区域。并将外围区域的上下左右区域相对于整个跟踪视野区域所占的比例分别设定为(0.2,0.2,0.2,0.2)。

步骤S22：根据步骤S21的区域划分方法，当跟踪器判断目标行人离开了当前跟踪视野区域且该行人位于外围区域的时候，则将该目标设置为挂起状态并等待下一步的数据关联操作；若跟踪器判断目标行人离开了当前跟踪视野区域，且目标的离开位置位于内围区域，则判定该目标行人为跟踪失败并且结束该目标的跟踪。

进一步的，在本实施例中，步骤S3具体包括以下步骤：

步骤S31：使用深度卷积孪生网络在线提取新目标行人的特征。如图3所示，按照如下结构构建深度卷积孪生神经基础网络模块R-ResNet：

第一层为卷积层：卷积核大小为(7，7，64)，max-pooling为(3,3)，滑动步长为2。

第二层到第四层都为卷积层：卷积核大小分别为(1,1,64)、(3,3,64)、(1,1,256)，激活函数都采用ReLu函数，如图2所示，这三层卷积层和激活函数组成一个卷积块，在三层的卷积块中的输入值不仅作为第一层卷积层的输入值，还作为第三层激活函数ReLu的输入值；第五层到第七层和第八层到十层都采用了相同的卷积块，卷积核大小和结构与第二层到第四层完全相同。

第十一层到第十三层为卷积层：卷积核大小分别为(1，1，128)、(3，3，128)、(1，1，512)，激活函数都采用ReLu函数，这三层卷积层和激活函数组成一个卷积块，在三层的卷积块中的输入值不仅作为第一层卷积层的输入值，还作为第三层激活函数ReLu的输入值；其中，第十四层到十六层、第十七层到第十九层和第二十层到二十二层的结构与第十一层到第十三层完全相同。

第二十三层到第二十五层为卷积层：卷积核大小分别为(1，1，256)、(3，3，256)、(1，1，1024)，激活函数都采用ReLu函数，这三层卷积层和激活函数组成一个卷积块，在三层的卷积块中的输入值不仅作为第一层卷积层的输入值，还作为第三层激活函数ReLu的输入值；第二十六层到第二十八层、第二十九层到三十一层、第三十二层到第三十四层、第三十五层到三十七层、第三十八层到第四十层的结构与第二十三层到二十五层完全相同。

第四十一层到第四十三层为卷积层：卷积核大小分别为(1，1,512)、(3,3,512)、(1,1,2048)，激活函数都采用ReLu函数，这三层卷积层和激活函数组成一个卷积块；第四十四层到第四十六层、第四十七层到四十九层也为卷积层，且结构与第四十一层到第四十二层完全相同。

在第四十九层卷积层后增加三个并行的卷积层。每个卷积层，使用2048个卷积核，尺寸大小分别为(3,3,1024)、(5,5,1024)和(7,7,1024)，通过一个连接层将这三个并行的卷积层的通道进行合并，其后的max-pooling为(4,4)。R-ResNet的最后一层是使用1024个卷积核，尺寸大小为(2,2,2048)的卷积层。

步骤S32：如图4所示，将两个完全相同的R-ResNet通过权重共享的方式，作为深度卷积孪生网络的基础网络。在两个R-ResNet网络最后层分别添加一层卷积层，使用2个卷积核，尺寸大小为(1,1,4096)。将该卷积层获得的特征分别标记为f₁和f₂。将要计算输入的一对行人的相似性值，转化成对f₁和f₂特征的相似性比较。

步骤S33：引入一个无参数层Square层来对f₁和f₂特征求解平方差作为f₁和f₂相似性比较层,Square层定义为f_s＝(f₁-f₂)²。之后将f_s作为两个核大小为1×1×4096的卷积层的输入值,由softmax作为输出函数,结果输出一个二维向量(q₁,q₂)，表示输入两个对象属于现实世界中同一个人的概率值。

步骤S34：根据步骤S33中获得的一对行人间的相似性概率值作为图的权值，将新进入的行人和待关联的行人分别作为两个不同的顶点集合，建立一个带权匹配图。通过求解最大权值匹配图问题的解，获得原始问题目标行人间的数据关联的解。

进一步的，记

表示目标行人

离开摄像头C_a后进入到摄像头C_b中，且摄像头C_b中目标行人

是现实世界中同一个行人的概率值。

其中,

表示目标行人

和

的外观相似度。当且仅当目标行人

和

离开或者进入的位置都是位于外围区域时,

否则,

当且仅当目标行人

和

的离开和出现的时间差不超过提前设定的等待时间阈值时,

否则,

将A_ij作为图的权值，

和

作为顶点建立带权匹配图。通过匈牙利算法获得最大权值匹配问题的解，该问题的解所对应的匹配边就是行人间的关联关系。

图5为本实施例中在单摄像头下指定多个行人的实际运行效果图。

图6是为本实施例中通过采用跨摄像头场景下指定行人在线跟踪方法后的实际运行效果图。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种跨摄像头场景下指定行人在线跟踪方法，其特征在于，按照如下步骤实现：

步骤S1：记N个视野区域非重叠的摄像头为C₁,C₂,...,C_N；在第k帧，记摄像头C_i捕捉到m个行人，为O_i＝{O_i ¹,...,O_i ^m}；其中，O_i ^a表示捕捉到的目标行人的信息；在第k帧标定

步骤S3：通过采用深度卷积孪生网络在线提取新进入的目标行人的特征，对新进入的行人与等待关联的目标行人进行相似性度量；将相似性值作为权值，建立带权值匹配图；对带权值匹配图求解最大权值匹配的解，获取新进入的行人与等待关联的目标行人间的数据关联的解，进而实现对目标行人在线追踪；

在所述步骤S3中，还包括如下步骤：

步骤S31：通过采用深度卷积孪生网络在线提取新目标行人的特征，构建深度卷积孪生神经基础网络模块R-ResNet；

步骤S34：根据所述步骤S33中获得的一对行人间的相似性概率值作为图的权值，将新进入的行人和待关联的目标行人分别作为两个不同的顶点集合，建立所述带权值匹配图；通过求解最大权值匹配图问题的解，获得新进入的行人与等待关联的目标行人间的数据关联的解；

步骤S341：记：

为目标行人

离开摄像头C_i后进入到摄像头C_j中，且与摄像头C_j中目标行人

是现实世界中同一个行人的概率值；

其中,

表示目标行人

和

的外观相似度；

当且仅当目标行人

和

离开或者进入的位置都是位于外围区域时，

否则,

当且仅当目标行人

和

的离开和出现的时间差不超过提前设定的等待时间阈值时，

否则,

将A_ij作为图的权值，

和

作为顶点建立带权匹配图；

2.根据权利要求1所述的跨摄像头场景下指定行人在线跟踪方法，其特征在于，在所述步骤S1中，所述捕捉到的目标行人的信息包括：行人特征f_i ^a、所处位置

和时间信息

且表示为：

3.根据权利要求1所述的跨摄像头场景下指定行人在线跟踪方法，其特征在于，在所述步骤S2中，还包括如下步骤：

4.根据权利要求3所述的跨摄像头场景下指定行人在线跟踪方法，其特征在于，在所述步骤S22中，当所述跟踪器的置信度值小于阈值0.25时，记为所述跟踪器判断当前目标行人已经无法继续跟踪。

5.根据权利要求1所述的跨摄像头场景下指定行人在线跟踪方法，其特征在于，在所述步骤S3中，记

为现实世界中的同一行人不同时刻出现在C_i，C_j两个摄像头下，并记

为一次关联；通过求解一个关联集合

当且仅当

是现实世界中的同一行人在不同时刻出现于摄像头C_i，C_j下，实现对新进入的行人与等待关联的目标行人间的数据关联的求解。

6.根据权利要求1所述的跨摄像头场景下指定行人在线跟踪方法，其特征在于，在所述步骤S31中，所述深度卷积孪生神经基础网络模块R-ResNet的结构如下：

第二层到第四层都为卷积层：卷积核大小分别为(1,1,64)、(3,3,64)、(1,1,256)，激活函数都采用ReLu函数；该三层卷积层和激活函数组成一个卷积块；将该卷积块的输入值既作为卷积块中第一层卷积层的输入值，也作为卷积块中激活函数的输入值；第五层到第七层以及第八层到十层都采用了与第二层到第四层相同的卷积块，卷积核大小以及结构与第二层到第四层完全相同；

第十一层到第十三层为卷积层：卷积核大小分别为(1，1，128)、(3，3，128)、(1，1，512)，激活函数都采用ReLu函数；该三层卷积层和激活函数组成一个卷积块；将该卷积块的输入值既作为卷积块中第一层卷积层的输入值，也作为卷积块中激活函数的输入值；第十四层到第十六层、第十七层到第十九层以及第二十层到二十二层的结构与第十一层到第十三层完全相同；

第二十三层到第二十五层为卷积层：卷积核大小分别为(1，1，256)、(3，3，256)、(1，1，1024)，激活函数都采用ReLu函数；该三层卷积层和激活函数组成一个卷积块；将该卷积块的输入值既作为卷积块中第一层卷积层的输入值，也作为卷积块中激活函数的输入值；第二十六层到第二十八层、第二十九层到三十一层、第三十二层到第三十四层、第三十五层到三十七层、第三十八层到第四十层的结构与第二十三层到二十五层完全相同；

第四十一层到第四十三层为卷积层：卷积核大小分别为(1，1，512)、(3，3，512)、(1，1，2048)，激活函数都采用ReLu函数；该三层卷积层和激活函数组成一个卷积块；第四十四层到第四十六层、第四十七层到四十九层也为卷积层，且结构与第四十一层到第四十二层完全相同；