CN109447121B

CN109447121B - 一种视觉传感器网络多目标跟踪方法、装置及系统

Info

Publication number: CN109447121B
Application number: CN201811133197.0A
Authority: CN
Inventors: 王雪; 戴鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-11-06
Anticipated expiration: 2038-09-27
Also published as: CN109447121A

Abstract

本发明实施例公开了一种视觉传感器网络多目标跟踪方法、装置及系统，方法包括：边缘计算节点接收视觉传感器节点对获取图像进行行人目标检测后得到的行人目标数据；根据行人目标数据构建行人目标亲密度模型，通过行人目标亲密度模型对属于同一行人目标的检测响应进行关联后形成目标轨迹；对目标轨迹对应的行人目标进行跟踪，得到跟踪结果，并将跟踪结果发送至云计算中心。有效减少背景像素污染，同时分割出邻近目标间边界，大大降低数据传输量；通过边缘计算节点构建行人目标亲密度模型形成目标轨迹，对目标轨迹对应的行人目标进行跟踪，并将跟踪结果发送至云计算中心，可以有效减少搜索空间，提高数据关联准确性，同时保护用户的个人隐私。

Description

一种视觉传感器网络多目标跟踪方法、装置及系统

技术领域

本发明实施例涉及图像处理技术领域，具体涉及一种视觉传感器网络多目标跟踪方法、装置及系统。

背景技术

智能安防已经在国际和国内学术界、产业界引起了广泛关注。2006年，美国芝加哥市推出虚拟防范计划，该系统联结了芝加哥上万台公共摄像机，实施全天候24小时广泛监控。2014年3月中共中央、国务院发布《国家新型城镇化规划(2014-2020年)》，明确“推进智慧城市建设”，正式将智慧城市纳入国家级战略规划，而智能安防是智慧城市建成的前提。视觉传感器网络(Visual Sensor Networks，VSN)综合图像传感、无线通信、分布式信息处理及嵌入式计算等技术，具有信息感知丰富、协作计算能力强、安装布置便捷等特点。视觉传感器网络除了具有传统视觉监控系统拥有的海量图像信息感知功能，更重要的是通过视觉传感节点之间协作信息处理可以完成多目标跟踪、身份识别等智能监控任务，并且减少信息分析的人力、时间成本。视觉传感器网络多目标跟踪指对网络中多个运动目标动态检测结果进行分析，实现对这些目标位置及轨迹的实时预测和修正，是智能安防中的重要研究内容。

视觉传感器网络多目标跟踪方法目前主要关注如何融合多个视觉传感器节点的测量数据，提高复杂环境下的跟踪精度。目前视觉传感器网络多目标跟踪方法多采用中心化云计算模式：所有视觉传感器节点将采集到的原始视频数据(或进行了多目标检测预处理)上传至云计算中心进行集中计算、存储。随着网络规模扩大，需要上传至云端的原始图像数据爆炸式增长，易造成长网络延迟，该中心化计算架构难以满足实时应用需求。此外，该计算架构需要直接将原始图像数据进行上传，显著提高了个人隐私泄露的风险。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种视觉传感器网络多目标跟踪方法、装置及系统。

第一方面，本发明实施例提出一种视觉传感器网络多目标跟踪方法，包括：

边缘计算节点接收视觉传感器节点对获取图像进行行人目标检测后得到的行人目标数据；

根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型对属于同一行人目标的检测响应进行关联后形成目标轨迹；

对所述目标轨迹对应的行人目标进行跟踪，得到跟踪结果，并将所述跟踪结果发送至云计算中心；

其中，所述边缘计算节点部署在所述视觉传感器节点的预设范围内。

可选地，所述根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型对属于同一行人目标的检测响应进行关联后形成目标轨迹，具体包括：

根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型对属于同一行人目标的检测响应进行关联，并对关联后的行人目标的特征向量进行分布式压缩感知后形成目标轨迹。

可选地，所述行人目标亲密度模型包括：外观模型与运动模型；

所述外观模型采用在COCO数据集中训练好的Mask RCNN基于目标的卷积神经网络模型提取4096维深度特征，采用欧式距离表征不同目标间外观相似度测度；

所述运动模型采用线性运动模型和Forward-Backward DeviationError前向后向偏差表征运动模型。

根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型采用双阈值对属于同一行人目标的检测响应进行关联后形成目标轨迹；

其中，所述双阈值包括仅接受高亲和力数据关联的阈值和避免具有可比较亲和力的竞争对手的数据关联的阈值。

第二方面，本发明实施例还提出一种视觉传感器网络多目标跟踪装置，包括：

目标检测模块，用于接收视觉传感器节点对获取图像进行行人目标检测后得到的行人目标数据；

数据关联模块，用于根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型对属于同一行人目标的检测响应进行关联后形成目标轨迹；

目标跟踪模块，用于对所述目标轨迹对应的行人目标进行跟踪，得到跟踪结果，并将所述跟踪结果发送至云计算中心；

第三方面，本发明实施例还提出一种视觉传感器网络多目标跟踪系统，包括：视觉传感器节点、边缘计算节点和云计算中心；

所述视觉传感器节点用于对获取图像进行行人目标检测，得到行人目标数据，并将所述行人目标数据发送给所述边缘计算节点；

所述边缘计算节点用于执行上述视觉传感器网络多目标跟踪方法；

所述云计算中心用于对多个边缘计算节点发送的跟踪结果进行融合，实现多视角行人目标数据关联。

可选地，所述视觉传感器节点包含网络图像传感器和本地嵌入式处理单元；

所述网络图像传感器用于监测预设区域内的原始图像并将采集的原始图像发送给所述本地嵌入式处理单元；

所述本地嵌入式处理单元用于对原始图像进行行人目标检测，得到行人目标数据。

可选地，所述云计算中心还用于对行人目标进行多视角行人目标特征匹配；

其中，所述特征包括：运动方向、运动速度、是否戴眼镜、是否背包、衣服、是否戴帽子、行为特征、姿势特征和性别的任意组合。

第四方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第五方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过视觉传感器节点进行行人目标检测后得到的行人目标数据，有效减少背景像素污染，同时分割出邻近目标间边界，且大大降低数据传输量；通过部署在视觉传感器节点附近的边缘计算节点对行人目标数据进行处理后，构建行人目标亲密度模型形成目标轨迹，对目标轨迹对应的行人目标进行跟踪，并将跟踪结果发送至云计算中心，可以有效减少搜索空间，提高数据关联准确性，同时保护用户的个人隐私。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种视觉传感器网络多目标跟踪方法的流程示意图；

图2为本发明一实施例提供的一种视觉传感器网络多目标跟踪系统的分层结构示意图；

图3(A)(B)(C)(D)分别为本发明一实施例提供的不同行人目标检测的示意图；

图4为本发明一实施例提供的一种视觉传感器网络多目标跟踪系统中各部分的交互流程示意图；

图5为本发明一实施例提供的单视角在线数据关联流程示意图；

图6为本发明一实施例提供的外观模型在线学习的原理示意图；

图7为本发明一实施例提供的一种视觉传感器网络多目标跟踪装置的结构示意图；

图8为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种视觉传感器网络多目标跟踪方法的流程示意图，包括：

S101、边缘计算节点接收视觉传感器节点对获取图像进行行人目标检测后得到的行人目标数据。

S102、根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型对属于同一行人目标的检测响应进行关联后形成目标轨迹。

S103、对所述目标轨迹对应的行人目标进行跟踪，得到跟踪结果，并将所述跟踪结果发送至云计算中心；

具体地，参见图2，为本实施例提供的视觉传感器网络多目标跟踪系统，包括：视觉传感器节点、边缘计算节点和云计算中心。所述视觉传感器节点用于对获取图像进行行人目标检测，得到行人目标数据，并将所述行人目标数据发送给所述边缘计算节点。所述边缘计算节点用于执行上述视觉传感器网络多目标跟踪方法。所述云计算中心用于对多个边缘计算节点发送的跟踪结果进行融合，实现多视角行人目标数据关联。

视觉传感器节点在多行人目标跟踪系统中负责原始图像数据采集、数据初步筛选和处理的任务；边缘计算节点部署在靠近数据端，负责基于单视角的多行人目标跟踪，并将跟踪结果上传至云计算中心；云计算中心对多个边缘计算节点跟踪结果进行融合，实现多视角行人目标数据关联，提高复杂环境下多目标跟踪精度。

所述云计算中心还用于对行人目标进行多视角行人目标特征匹配；所述特征包括：运动方向、运动速度、是否戴眼镜、是否背包、衣服、是否戴帽子、行为特征、姿势特征和性别的任意组合。

具体来说，对于视觉传感器节点，在视觉传感器网络多目标跟踪系统中负责原始图像数据采集、数据初步筛选和处理的任务。视觉传感器节点包含网络图像传感器与本地嵌入式处理单元，图像传感器实现监测区域原始图像数据采集，本地嵌入式处理单元则负责行人目标检测任务。本实施例推荐使用静态图像传感器与PTZ图像传感器相结合的模式。静态图像传感器用于检测、跟踪多个行人目标，PTZ图像传感器用于获取感兴趣目标的更高清晰度、更高分辨率的图像信息。

对于边缘计算节点，靠近数据端执行多目标跟踪计算任务，显著减少网络带宽负载，提高应用实时性。对本发明而言，边缘计算节点主要包含三个模块：行人目标亲密度模型构建、单视角在线数据关联、行人目标特征向量分布式压缩感知。采用基于检测的多目标跟踪方法，该方法将多目标跟踪问题看成是一个时间连续的数据关联问题，通过构建行人目标亲密度模型(本实施例中包含外观与运动参数)，将属于同一目标的检测响应关联起来形成目标轨迹。在多目标跟踪中，行人亲密度模型是跟踪的主要依据。一般来说提取目标外观特征不足以克服目标姿态变化、光照变化、动态背景等因素带来的负面影响，通过在线学习可以获得更加鲁棒的外观模型。同时，融合运动模型可以有效减少搜索空间，提高数据关联准确性。数据关联技术是基于检测的多目标跟踪技术的关键。本发明采用一种混合式在线数据关联方法，提高对误检、漏检、不准确检测等因素的鲁棒性。边缘计算节点需要将跟踪结果传输至云计算中心，进而实现多视角数据关联，提高跟踪精度。通常行人目标外观模型的特征维度达到了数千维，为了避免网络拥塞问题，采用分布式压缩感知方法对行人目标特征向量进行压缩。

对于云计算中心，主要关注如何进行多视觉传感节点的数据融合。首先通过行人目标特征向量重构技术恢复压缩之前的特征信号。然后通过外观特征和时空信息对多视角跟踪结果进行匹配，实现多视角多行人目标跟踪目的。此外，云计算中心会根据历史跟踪数据对各个边缘计算节点中的外观在线学习模型参数进行更新，其目标函数应使同一轨迹目标的外观距离尽可能小，使不同轨迹目标的外观距离尽可能大。云计算中心将更新后的外观模型参数发送给各边缘计算节点。

本实施例通过视觉传感器节点进行行人目标检测后得到的行人目标数据，有效减少背景像素污染，同时分割出邻近目标间边界，且大大降低数据传输量；通过部署在视觉传感器节点附近的边缘计算节点对行人目标数据进行处理后，构建行人目标亲密度模型形成目标轨迹，对目标轨迹对应的行人目标进行跟踪，并将跟踪结果发送至云计算中心，可以有效减少搜索空间，提高数据关联准确性，同时保护用户的个人隐私。

进一步地，在上述方法实施例的基础上，S102具体包括：

其中，所述行人目标亲密度模型包括：外观模型与运动模型。

所述外观模型采用在COCO数据集中训练好的Mask RCNN基于目标的卷积神经网络模型提取4096维深度特征，采用欧式距离表征不同目标间外观相似度测度；所述运动模型采用线性运动模型和Forward-Backward Deviation Error前向后向偏差表征运动模型，能够得到更好的关联效果。

具体地，行人目标检测时，目前常用行人检测算法(如FRCNN、SDP、DPM)，均采用矩形框对目标进行定位，易引入背景像素干扰，降低外观特征的分辨力，进而产生轨道漂移和ID切换等问题。针对上述问题，本实施例使用Mask RCNN实例分割算法获取每帧图像中行人目标的Mask。该算法能够有效减少背景像素污染，同时分割出邻近目标间边界，避免在对象间频繁遮挡的复杂场景中产生轨道漂移和ID切换等问题。图3是FRCNN(对应图3中(A)和(C))与Mask RCNN(对应图3中(B)和(D))检测结果对比图。

进一步地，在上述方法实施例的基础上，S102具体包括：

根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型采用双阈值对属于同一行人目标的检测响应进行关联后形成目标轨迹。

具体地，图4为本实施例提供的视觉传感器网络多目标跟踪系统中各部分的交互流程示意图，视觉传感器节点进行图像获取和行人目标检测后，将检测后的行人目标数据发送至边缘计算节点，边缘计算节点构建行人目标亲密度模型，并进行单视角在线数据关联和行人目标特征向量分布式压缩感知，并由云计算中心进行行人目标特征向量重构、多视角行人目标特征匹配、多视角数据关联和外观模型在线更新。

举例来说，视觉传感器节点的图像传感器采用AxisCommunication公司生产的AXIS P5532-E PTZ、AXIS 214PTZ和AXIS M1011-w网络图像传感器。视觉传感器节点的本地嵌入式处理单元推荐采用国家仪器公司的图像处理平台EVS-1464RT。边缘计算节点采用个人台式电脑，硬件环境为Intel Core i5-4590CPU@3.30GHz处理器，12GB内存、NVIDIAGeForce GTX 650显卡。云计算中心推荐采用高性能服务器，硬件环境为E5-2609V4志强8核CPU@1700MHz，32G内存、NVIDIA K80显卡。

边缘计算节点中单视角在线数据关联主要分为三个步骤：local detection-detection association(Local DD-Association)、local trajectory-trackletassociation(Local TT-Association)、Global TT-Association。Local DD-Association是为了在时间窗内形成可靠的tracklets，本实施例采用双阈值策略：

其中，θ₁是仅接受高亲和力数据关联的阈值，θ₂是避免具有可比较亲和力的竞争对手的数据关联的门槛。

基于时间连续性和亲和力模型，建立现有trajectories和tracklets之间的置信矩阵。对于具有高置信度值的trajectory-tracklet对，采用匈牙利算法进行局部关联获取mid-level tracklets。最后，将mid-leveltracklets的全局关联建模成一个maximuma-posteriori(MAP)问题，采用网络流算法进行求解，图5为单视角在线数据关联流程图。

由于提取的行人目标特征向量维度较高(4096维)，传输需要较大的带宽资源，影响多行人目标跟踪实时性。本发明采用分布式压缩感知方法进行联合稀疏和重构。首先通过预先构建的冗余字典D＝[d₁,d₂,…,d_n]，各视角的行人特征向量都可以通过D进行稀疏化。

式中c＝[c₁,c₂,…,c_n]为稀疏表示的系数，称为稀疏特征向量。实际中，通过稀疏表示的线性组合很难完全准确地表示当前的特征，因此采用逼近原理得到最近似的线性组合：

式中||·||₁是1范数，表示为向量中全部元素绝对值的和，ε是设定的逼近阈值。

特征稀疏化后可以得到行人目标的特征直方图，采用JSM-2(Joint SparseModel，JSM)模型对特征直方图进行压缩测量，测量值y由以下公式得到：

式中，Φ为测量矩阵，m为测量值的数量。根据压缩感知理论，m应当满足：

式中，k为信号的稀疏度，C为常数，n为冗余字典中包含的元素数量。

行人目标特征向量重构：云计算中心在得到各视角特征直方图的压缩测量值后，需要重构特征直方图，才能进行目标的特征匹配与再辨识。本实施例采用NCoSaMP(nonnegative compressive sampling matching pursuit)算法，提高重构速度和效率。

多视角行人目标特征匹配：本发明推荐学习具有语意信息的属性特征，实现跨视角的特征匹配。具体的属性特征如下表所示：

此外，本实施例利用时空信息提高特征匹配精度。采用一种自适应标定算法对视觉传感器网络进行标定，获取视觉传感器节点2D图像平面与3D世界坐标系的对应关系，即投影矩阵。通过投影矩阵即可将跟踪目标投影到地平面对应的视觉坐标系中。本实施例中多视角数据关联采用网络流优化算法实现多视角数据关联。

对于外观模型的在线更新，离线训练好的深度模型难已克服在线跟踪目标姿态变化、光照变化、动态背景等因素带来的负面影响，可以通过在线学习获得更加鲁棒的外观模型。在Mask RCNN模型后增加一层全连接层，进行在线特征学习。该全连接层采用tanh-like激活函数，其目标函数如下：

为语意相似度矩阵，其中S_ij＝1表示测量值d_i与d_j来自相同的tracklets，反之若S_ij＝-1表示测量值d_i与d_j来自不同的tracklets。考虑到边缘计算节点的计算能力有限，该在线学习计算在云计算中心完成，云计算中心将学习好的模型传输给各边缘计算节点。外观模型在线学习原理图如图6所示。

图7示出了本实施例提供的一种视觉传感器网络多目标跟踪装置的结构示意图，所述装置包括：目标检测模块701、数据关联模块702和目标跟踪模块703，其中：

所述目标检测模块701用于接收视觉传感器节点对获取图像进行行人目标检测后得到的行人目标数据；

所述数据关联模块702用于根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型对属于同一行人目标的检测响应进行关联后形成目标轨迹；

所述目标跟踪模块703用于对所述目标轨迹对应的行人目标进行跟踪，得到跟踪结果，并将所述跟踪结果发送至云计算中心；

具体地，所述目标检测模块701接收视觉传感器节点对获取图像进行行人目标检测后得到的行人目标数据；所述数据关联模块702根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型对属于同一行人目标的检测响应进行关联后形成目标轨迹；所述目标跟踪模块703对所述目标轨迹对应的行人目标进行跟踪，得到跟踪结果，并将所述跟踪结果发送至云计算中心。

本实施例所述的视觉传感器网络多目标跟踪装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图8，所述电子设备，包括：处理器(processor)801、存储器(memory)802和总线803；

其中，

所述处理器801和存储器802通过所述总线803完成相互间的通信；

所述处理器801用于调用所述存储器802中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视觉传感器网络多目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型对属于同一行人目标的检测响应进行关联后形成目标轨迹，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述行人目标亲密度模型包括：外观模型与运动模型；

所述运动模型采用线性运动模型和Forward-Backward Deviation Error前向后向偏差表征运动模型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述行人目标数据构建行人目标亲密度模型，通过所述行人目标亲密度模型对属于同一行人目标的检测响应进行关联后形成目标轨迹，具体包括：

5.一种视觉传感器网络多目标跟踪装置，其特征在于，包括：

目标检测模块，用于通过边缘计算节点接收视觉传感器节点对获取图像进行行人目标检测后得到的行人目标数据；

6.一种视觉传感器网络多目标跟踪系统，其特征在于，包括：视觉传感器节点、边缘计算节点和云计算中心；

所述边缘计算节点用于执行如权利要求1-4任一项所述的视觉传感器网络多目标跟踪方法；

7.根据权利要求6所述的系统，其特征在于，所述视觉传感器节点包含网络图像传感器和本地嵌入式处理单元；

8.根据权利要求6所述的系统，其特征在于，所述云计算中心还用于对行人目标进行多视角行人目标特征匹配；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至4任一所述的方法。