CN110619657A

CN110619657A - 一种面向智慧社区的多摄像机联动多目标追踪方法及系统

Info

Publication number: CN110619657A
Application number: CN201910755690.4A
Authority: CN
Inventors: 管洪清; 管延成; 肖常升; 王伟; 张元杰
Original assignee: QINGDAO WINDAKA TECHNOLOGY Co Ltd
Current assignee: QINGDAO WINDAKA TECHNOLOGY Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-27
Anticipated expiration: 2039-08-15
Also published as: CN110619657B

Abstract

本发明涉及社区安防领域，具体是一种面向智慧社区的多摄像机联动多目标追踪方法及系统。本发明利用卷积神经网络提取人体特征及人脸特征，并与卡尔曼滤波估计结合。利用马氏距离计算距离，使用余弦距离度量特征的相似度，再对两种度量进行加权计算，人脸识别结果辅助判断最终结果。本发明能够适应社区环境复杂的场景，具备多摄像机联动目标追踪且一定程度上降低了目标追踪轨迹标识因为遮挡等变化的概率，对于社区管理及公安刑侦等具有重要意义。

Description

一种面向智慧社区的多摄像机联动多目标追踪方法及系统

技术领域

本发明涉及社区安防领域，具体是一种面向智慧社区的多摄像机联动多目标追踪方法及系统。

背景技术

在智慧社区中，人脸识别技术是社区安全布控的重要手段，不但可以帮助社区管理者及时发现非法分子并对陌生人轨迹进行掌握，也可以协助政府相关部门有针对性的搜索嫌疑人。

但在监控视频中，由于相机拍摄角度、分辨率低、面部遮挡等因素导致难以获得符合标准的高质量人脸图片，无法完成人脸识别。在人脸识别失效的情况下，目标追踪就成了比人脸识别更重要的社区安全技术。

传统的目标追踪方法多使用卡尔曼滤波对目标轨迹进行预判，再根据前后帧的位置进行判断，可达到目标追踪的目的。但目标追踪中常常因为追踪目标被遮挡，摄像机颤动等原因导致追踪轨迹标识频繁变化。并且目前大多数目标追踪方法是单摄像机多目标追踪，缺少多摄像机联动的多目标追踪方法。

因此，针对以上现状，迫切需要开发一种面向智慧社区的多摄像机联动多目标追踪方法及系统，以克服当前实际应用中的不足。

发明内容

本发明实施例的目的在于提供一种面向智慧社区的多摄像机联动多目标追踪方法及系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明实施例提供如下技术方案：

一种面向智慧社区的多摄像机联动多目标追踪方法，包括如下步骤：

步骤(1)：获取当前监控摄像机图像；

步骤(2)：将图像输入到人体检测模型；

步骤(3)：当获取到人体检测框及人体特征，则跳转到步骤(4)；当获取到人脸特征，则将人体检测图像中检测到的人脸输入到人脸识别模型，并跳转步骤(5)；

步骤(4)：对于已确认状态的目标追踪轨迹，计算当前视频帧每个人体的特征与所有目标追踪轨迹中保存的特征的相似度，并计算卡尔曼滤波估计的位置与当前视频帧中检测到的人体位置的马氏距离；

步骤(5)：获取人脸识别特征与人脸库特征对比的相似度；若与人脸库匹配成功则获取人脸标识；

步骤(6)：将人体检测相似度、马氏距离结合，人脸标识辅助判断，再利用匈牙利算法对目标追踪轨迹和当前视频帧检测框进行匹配；

步骤(7)：45帧为一个匹配周期，若连续45帧没有匹配成功则认为该目标追踪轨迹已经失效，得到初步的结果，得到匹配、目标追踪轨迹未匹配和当前人体检测未匹配三种状态；

步骤(8)：对于未确认状态及未成功匹配的目标追踪轨迹保存的检测框与当前视频帧中未匹配的人体检测框计算重叠率；再利用匈牙利算法对目标追踪轨迹和当前视频帧中检测到的人体进行匹配；

步骤(9)：得到最终的匹配、目标追踪轨迹未匹配和当前视频帧中人体检测未匹配三种状态，并对数据进行更新，终止一直未匹配的目标追踪轨迹；

步骤(10)：对于因未匹配判断未离开当前摄像机的目标追踪轨迹，根据目标最后一次出现的位置判断即将出现在其他摄像机的ID，并预测该目标在其他摄像机第一次出现的位置区域，在对相关摄像机视频帧处理时将获取该信息，继承目标追踪轨迹标识，重复步骤(2)～(9)；

作为本发明进一步的方案：在步骤(1)中，通过RTSP拉取监控摄像机的实时视频帧；

在步骤(2)中，人体检测模型使用卷积神经网络进行训练，具体方法如下：将自行采集的大量的监控摄像机下的行人图片及网络上的人体图片作为数据集，使用Mask rcnn进行训练，首先使用默认参数进行训练，根据训练期间的结果，对初始权值、训练速度和迭代次数进行调整，直到网络达到预期的识别效果；

在步骤(3)中，人脸识别模型使用MTCNN进行人脸检测，使用Mxnet训练大量自行采集和公开数据集的人脸图片，得到人脸识别模型。

作为本发明进一步的方案：在步骤(4)中，采用最小余弦距离计算特征相似度，计算公式为：r_j为当前视频帧目标的特征，r_k为第i个目标追踪轨迹中第k个特征；卡尔曼滤波估计的位置与当前视频帧中检测到的人体位置的马氏距离的计算公式为：第i个目标追踪轨迹与第j个当前帧的目标的匹配度，S_i是第i个目标追踪轨迹由卡尔曼滤波器预测得到的在当前视频帧的协方差矩阵，y_i是目标追踪轨迹在当前视频帧的预测值，d_j是第j个目标的实际位置；

在步骤(5)中，利用余弦距离计算人脸特征的相似度，计算公式为：x，y分别代表需要对比的人脸特征，n代表了特征维度，i代表了维度；

在步骤(6)中，人体检测相似度、马氏距离结合的加权公式为：c_i,j＝λd⁽²⁾(i,j)+(1-λ)d⁽¹⁾(i,j)，λ代表超参数，用于调整不同项的权重。

作为本发明进一步的方案：在步骤(7)中，目标追踪轨迹记录当前帧距离上一次匹配成功的帧数，如果匹配成功，则重新从0开始计数；如果连续45帧都没有匹配成功，则认为该目标追踪轨迹已经离开当前摄像机的画面。

作为本发明进一步的方案：在步骤(8)中，重叠率计算公式为： D_i代表第i个未确认状态及未成功匹配的目标追踪轨迹的检测框，D_j代表第j个未匹配的目标人体检测框。

一种面向智慧社区的多摄像机联动多目标追踪系统，包括：

人体及人脸特征提取模块，用于提取摄像机捕获的视频帧中的人体及人脸特征，并获取人体检测框；

计算匹配模块，用于根据人体及人脸特征提取模块提供的数据，进行人脸特征对比、人体特征对比及人体检测框与卡尔曼滤波估计的马氏距离计算，综合形成目标追踪轨迹匹配结果；

目标追踪轨迹处理模块，用于根据计算匹配模块处理得到的计算匹配结果进行目标追踪轨迹状态的更新处理，更新轨迹的最新状态，删除离开监控摄像机的轨迹，及时增加新增轨迹；

数据处理模块，用于针对多摄像机联动的处理，保证同一目标在不同摄像机下的切换而轨迹标识始终不变，直至该目标完全消失在社区监控范围。

作为本发明进一步的方案：所述人体及人脸特征提取模块搭载了人体检测模型及人脸识别模型，且人体检测模型及人脸识别模型均由卷积神经网络训练得到，具体为：首先利用人体检测模型检测视频帧中的人体，提取人体特征并获取人体检测框；再检测人体检测框中的人脸，提取人脸特征，与人脸库中的人脸进行对比，如果超过阈值得到人脸ID。

作为本发明进一步的方案：所述计算匹配模块进行的人脸特征对比采用余弦距离评价特征的相似度，人体特征对比采用最小余弦距离评价目标追踪轨迹和当前帧人体检测的相似度，使用马氏距离评价人体检测框与卡尔曼滤波估计的匹配度。

作为本发明进一步的方案：所述目标追踪轨迹处理模块的关键功能在于删除和新增，即删除离开当前监控摄像机的目标追踪轨迹和加新进入当前监控摄像机的目标。对于连续45帧未匹配的目标追踪轨迹，判定为离开当前监控摄像机的画面，将该目标追踪轨迹删除。对于新增的目标建立新的目标追踪轨迹，在目标出现后连续三帧中，目标追踪轨迹需要全部匹配，确定为新目标追踪轨迹，若大于等于一帧未匹配，则删除新建立的目标追踪轨迹。目标追踪轨迹与当前帧的人体检测完成匹配的，更新最新的目标位置、下一帧的卡尔曼滤波估计、增添最新的人体特征以及删除最早的人体特征。

作为本发明进一步的方案：所述数据处理模块主要针对所有被判定为离开监控摄像机画面的目标追踪轨迹，在被删除的目标追踪轨迹中增添被删除前摄像机标识。社区中每一个监控摄像机提前设立摄像机关联知识库，即当前摄像机周边所有不超过阈值的摄像机的位置信息，且包含了摄像机与当前摄像机的相对朝向等信息。根据被删除的目标追踪轨迹记录的最新位置信息和摄像机关联知识库判断目标追踪轨迹对应的目标即将出现的一个或多个摄像机标识。当被预测摄像机画面出现新目标时首先会与被判定为离开监控摄像机画面的目标追踪轨迹依次进行人体及人脸特征提取模块、计算匹配模块、目标追踪轨迹处理模块和数据处理模块处理，若匹配则继承目标追踪轨迹标识。

与现有技术相比，本发明实施例的有益效果是：

本发明利用卷积神经网络提取人体特征及人脸特征，并与卡尔曼滤波估计结合。利用马氏距离计算距离，使用余弦距离度量特征的相似度，再对两种度量进行加权计算，人脸识别结果辅助判断最终结果。

本发明能够适应社区环境复杂的场景，具备多摄像机联动目标追踪且大幅度降低了目标追踪轨迹标识因为遮挡等变化的概率，对于社区管理及公安刑侦等具有重要意义。

附图说明

图1为本发明实施例的面向智慧社区的多摄像机联动多目标追踪方法的流程图。

图2为本发明实施例的面向智慧社区的多摄像机联动多目标追踪系统的结构框图。

图中：10-人体及人脸特征提取模块，20-计算匹配模块，30-目标追踪轨迹处理模块，40-数据处理模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，本发明实施例中，一种面向智慧社区的多摄像机联动多目标追踪方法，包括如下步骤：

步骤(1)：获取当前监控摄像机图像；

具体实现中，通过RTSP拉取监控摄像机的实时视频帧。

步骤(2)：将图像输入到人体检测模型；

具体实现中，人体检测模型使用卷积神经网络进行训练；将自行采集的大量的监控摄像机下的行人图片及网络上的人体图片作为数据集，使用Mask rcnn进行训练，首先使用默认参数进行训练，根据训练期间的结果，对初始权值、训练速度和迭代次数进行调整，直到网络达到预期的识别效果。

具体实现中，人脸识别模型使用MTCNN进行人脸检测，使用Mxnet训练大量自行采集和公开数据集的人脸图片，得到人脸识别模型。

具体实现中，采用最小余弦距离计算特征相似度，计算公式为： r_j为当前视频帧目标的特征，r_k为第i个目标追踪轨迹中第k个特征。

卡尔曼滤波估计的位置与当前视频帧中检测到的人体位置的马氏距离的计算公式为：第i个目标追踪轨迹与第j个当前帧的目标的匹配度，S_i是第i个目标追踪轨迹由卡尔曼滤波器预测得到的在当前视频帧的协方差矩阵，y_i是目标追踪轨迹在当前视频帧的预测值，d_j是第j个目标的实际位置。

具体实现中，利用余弦距离计算人脸特征的相似度，计算公式为： x，y分别代表需要对比的人脸特征，n代表了特征维度，i代表了维度。

具体实现中，人体检测相似度、马氏距离结合的加权公式为：c_i,_j＝λd⁽²⁾(i,j)+(1-λ)d⁽¹⁾(i,j)，λ代表超参数，用于调整不同项的权重。

具体实现中，目标追踪轨迹记录当前帧距离上一次匹配成功的帧数，如果匹配成功，则重新从0开始计数；如果连续45帧都没有匹配成功，则认为该目标追踪轨迹已经离开当前摄像机的画面。

步骤(8)：对于未确认状态及未成功匹配的目标追踪轨迹保存的检测框与当前视频帧中未匹配的人体检测框计算重叠率，计算公式为：D_i代表第i个未确认状态及未成功匹配的目标追踪轨迹的检测框，D_j代表第j个未匹配的目标人体检测框；再利用匈牙利算法对目标追踪轨迹和当前视频帧中检测到的人体进行匹配；

实施例2

请参阅图2，结合实施例1的面向智慧社区的多摄像机联动多目标追踪方法，提供一种面向智慧社区的多摄像机联动多目标追踪系统，包括人体及人脸特征提取模块10、计算匹配模块20、目标追踪轨迹处理模块30和数据处理模块40。下面对面向智慧社区的多摄像机联动多目标追踪系统进行详细说明：

人体及人脸特征提取模块10，用于提取摄像机捕获的视频帧中的人体及人脸特征，并获取人体检测框。

具体实现中，人体及人脸特征提取模块10搭载了人体检测模型及人脸识别模型。人体检测模型及人脸识别模型皆由卷积神经网络训练得到。首先利用人体检测模型检测视频帧中的人体，提取人体特征并获取人体检测框。再检测人体检测框中的人脸，提取人脸特征，与人脸库中的人脸进行对比，如果超过阈值得到人脸ID。

计算匹配模块20，用于根据人体及人脸特征提取模块10提供的数据，进行人脸特征对比、人体特征对比及人体检测框与卡尔曼滤波估计的马氏距离计算，综合形成目标追踪轨迹匹配结果。

具体实现中，人脸特征对比采用余弦距离评价特征的相似度，人体特征对比采用最小余弦距离评价目标追踪轨迹和当前帧人体检测的相似度，使用马氏距离评价人体检测框与卡尔曼滤波估计的匹配度。

目标追踪轨迹处理模块30，用于根据计算匹配模块20处理得到的计算匹配结果进行目标追踪轨迹状态的更新处理，更新轨迹的最新状态，删除离开监控摄像机的轨迹，及时增加新增轨迹。

具体实现中，模块的关键功能在于删除和新增，即删除离开当前监控摄像机的目标追踪轨迹和加新进入当前监控摄像机的目标。对于连续45帧未匹配的目标追踪轨迹，判定为离开当前监控摄像机的画面，将该目标追踪轨迹删除。对于新增的目标建立新的目标追踪轨迹，在目标出现后连续三帧中，目标追踪轨迹需要全部匹配，确定为新目标追踪轨迹，若大于等于一帧未匹配，则删除新建立的目标追踪轨迹。目标追踪轨迹与当前帧的人体检测完成匹配的，更新最新的目标位置、下一帧的卡尔曼滤波估计、增添最新的人体特征以及删除最早的人体特征。

数据处理模块40，用于针对多摄像机联动的处理，保证同一目标在不同摄像机下的切换而轨迹标识始终不变，直至该目标完全消失在社区监控范围。

具体实现中，数据处理模块40主要针对所有被判定为离开监控摄像机画面的目标追踪轨迹，在被删除的目标追踪轨迹中增添被删除前摄像机标识。社区中每一个监控摄像机提前设立摄像机关联知识库，即当前摄像机周边所有不超过阈值的摄像机的位置信息，且包含了摄像机与当前摄像机的相对朝向等信息。根据被删除的目标追踪轨迹记录的最新位置信息和摄像机关联知识库判断目标追踪轨迹对应的目标即将出现的一个或多个摄像机标识。当被预测摄像机画面出现新目标时首先会与被判定为离开监控摄像机画面的目标追踪轨迹依次进行人体及人脸特征提取模块10、计算匹配模块20、目标追踪轨迹处理模块30和数据处理模块40处理，若匹配则继承目标追踪轨迹标识。

本发明提出了一种面向智慧社区的多摄像机联动多目标追踪方法及系统，该方法包括：获取当前视频帧中的人体检测位置，利用人体检测模型提取人体的特征，同时对检测到的人体中的人脸进行识别，获取人脸特征，若与人脸库匹配成功则获取人脸标识；使用卡尔曼滤波根据目标追踪轨迹估计该目标在当前视频帧的方位；对于确认了状态的目标追踪轨迹，计算当前视频帧每个人体的特征与所有目标追踪轨迹中保存的特征的相似度；计算卡尔曼滤波估计的位置与当前视频帧人体检测位置的马氏距离；将相似度与马氏距离结合，再利用匈牙利算法对目标追踪轨迹和当前视频帧检测到的人体进行匹配；循环检测45帧，得到初步的结果，匹配、目标追踪轨迹未匹配和当前视频帧人体检测未匹配三种状态；对于未确认状态及未成功匹配的目标追踪轨迹保存的检测框与当前视频帧中未匹配的人体检测框计算重叠率，再利用匈牙利算法对目标追踪轨迹和当前视频帧中检测到的人体进行匹配；得到最终的匹配、目标追踪轨迹未匹配和当前视频帧中人体检测未匹配三种状态，并对数据进行更新，终止一直未匹配的目标追踪轨迹；对于因未匹配判断为离开当前摄像机的目标追踪轨迹，根据目标最后出现的位置判断即将出现在其他摄像机的ID，并预测该目标在其他摄像机第一次出现的位置区域，相关摄像机将获取该信息，重复前面的计算，继承目标追踪轨迹标识。

本发明能够适应社区环境复杂的场景，具备多摄像机联动目标追踪且一定程度上降低了目标追踪轨迹标识因为遮挡等变化的概率，对于社区管理及公安刑侦等具有重要意义。

以上的仅是本发明的优选实施方式，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。

Claims

1.一种面向智慧社区的多摄像机联动多目标追踪方法，其特征在于，包括如下步骤：

步骤(1)：获取当前监控摄像机图像；

步骤(2)：将图像输入到人体检测模型；

步骤(10)：对于因未匹配判断未离开当前摄像机的目标追踪轨迹，根据目标最后一次出现的位置判断即将出现在其他摄像机的ID，并预测该目标在其他摄像机第一次出现的位置区域，在对相关摄像机视频帧处理时将获取该信息，继承目标追踪轨迹标识，重复步骤(2)～(9)。

2.根据权利要求1所述的面向智慧社区的多摄像机联动多目标追踪方法，其特征在于，在步骤(1)中，通过RTSP拉取监控摄像机的实时视频帧；

3.根据权利要求2所述的面向智慧社区的多摄像机联动多目标追踪方法，其特征在于，在步骤(4)中，采用最小余弦距离计算特征相似度，计算公式为：r_j为当前视频帧目标的特征，r_k为第i个目标追踪轨迹中第k个特征；卡尔曼滤波估计的位置与当前视频帧中检测到的人体位置的马氏距离的计算公式为：第i个目标追踪轨迹与第j个当前帧的目标的匹配度，S_i是第i个目标追踪轨迹由卡尔曼滤波器预测得到的在当前视频帧的协方差矩阵，y_i是目标追踪轨迹在当前视频帧的预测值，d_j是第j个目标的实际位置；

在步骤(5)中，利用余弦距离计算人脸特征的相似度，计算公式为：x，y分别代表需要对比的人脸特征，n代表特征维度，i代表维度；

在步骤(6)中，人体检测相似度、马氏距离结合的加权公式为：c_i,j＝λd⁽²⁾(i,j)+(1-λ)d⁽¹⁾(i,j)，λ代表用于调整不同项的权重的超参数。

4.根据权利要求3所述的面向智慧社区的多摄像机联动多目标追踪方法，其特征在于，在步骤(7)中，目标追踪轨迹记录当前帧距离上一次匹配成功的帧数，如果匹配成功，则重新从0开始计数；如果连续45帧都没有匹配成功，则认为该目标追踪轨迹已经离开当前摄像机的画面。

5.根据权利要求4所述的面向智慧社区的多摄像机联动多目标追踪方法，其特征在于，在步骤(8)中，重叠率计算公式为：D_i代表第i个未确认状态及未成功匹配的目标追踪轨迹的检测框，D_j代表第j个未匹配的目标人体检测框。

6.一种面向智慧社区的多摄像机联动多目标追踪系统，其特征在于，包括：

人体及人脸特征提取模块(10)，用于提取摄像机捕获的视频帧中的人体及人脸特征，并获取人体检测框；

计算匹配模块(20)，用于根据人体及人脸特征提取模块(10)提供的数据，进行人脸特征对比、人体特征对比及人体检测框与卡尔曼滤波估计的马氏距离计算，综合形成目标追踪轨迹匹配结果；

目标追踪轨迹处理模块(30)，用于根据计算匹配模块(20)处理得到的计算匹配结果进行目标追踪轨迹状态的更新处理，更新轨迹的最新状态，删除离开监控摄像机的轨迹，及时增加新增轨迹；

数据处理模块(40)，用于针对多摄像机联动的处理，保证同一目标在不同摄像机下的切换而轨迹标识始终不变，直至该目标完全消失在社区监控范围。

7.根据权利要求6所述的面向智慧社区的多摄像机联动多目标追踪系统，其特征在于，所述人体及人脸特征提取模块(10)搭载了人体检测模型及人脸识别模型，且人体检测模型及人脸识别模型均由卷积神经网络训练得到，具体为：

首先利用人体检测模型检测视频帧中的人体，提取人体特征并获取人体检测框；

再检测人体检测框中的人脸，提取人脸特征，与人脸库中的人脸进行对比，如果超过阈值得到人脸ID。

8.根据权利要求7所述的面向智慧社区的多摄像机联动多目标追踪系统，其特征在于，所述计算匹配模块(20)进行的人脸特征对比采用余弦距离评价特征的相似度，人体特征对比采用最小余弦距离评价目标追踪轨迹和当前帧人体检测的相似度，使用马氏距离评价人体检测框与卡尔曼滤波估计的匹配度。

9.根据权利要求8所述的面向智慧社区的多摄像机联动多目标追踪系统，其特征在于，所述目标追踪轨迹处理模块(30)用于删除离开当前监控摄像机的目标追踪轨迹和加新进入当前监控摄像机的目标；

对于连续45帧未匹配的目标追踪轨迹，判定为离开当前监控摄像机的画面，将该目标追踪轨迹删除；

对于新增的目标建立新的目标追踪轨迹，在目标出现后连续三帧中，目标追踪轨迹需要全部匹配，确定为新目标追踪轨迹，若大于等于一帧未匹配，则删除新建立的目标追踪轨迹；

目标追踪轨迹与当前帧的人体检测完成匹配的，更新最新的目标位置、下一帧的卡尔曼滤波估计、增添最新的人体特征以及删除最早的人体特征。

10.根据权利要求9所述的面向智慧社区的多摄像机联动多目标追踪系统，其特征在于，所述数据处理模块(40)用于针对所有被判定为离开监控摄像机画面的目标追踪轨迹，在被删除的目标追踪轨迹中增添被删除前摄像机标识；

社区中每一个监控摄像机提前设立摄像机关联知识库，即当前摄像机周边所有不超过阈值的摄像机的位置信息，且包含了摄像机与当前摄像机的相对朝向信息；

根据被删除的目标追踪轨迹记录的最新位置信息和摄像机关联知识库判断目标追踪轨迹对应的目标即将出现的一个或多个摄像机标识。