CN113674321B

CN113674321B - 一种基于云端的监控视频下多目标跟踪的方法

Info

Publication number: CN113674321B
Application number: CN202110980862.5A
Authority: CN
Inventors: 张立国; 杨红光; 金梅; 申前; 耿星硕; 王磊; 李佳庆; 黄文汉; 张升
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2024-05-17
Anticipated expiration: 2041-08-25
Also published as: CN113674321A

Abstract

本发明公开了一种基于云端的监控视频下多目标跟踪的方法，属于目标识别跟踪技术领域，包括安装监控相机到指定场合；搭建云端和客户端平台；使用改进后的centernet检测模型对接收的视频帧进行目标检测；使用改进后的deepsort模型对检测到的多目标进行跟踪；在客户端对多目标跟踪输出的视频进行保存、删除以及更新。本发明从智能视频监控出发，对病房看护场景中患者进行轨迹跟踪，并对跟踪算法进行深入研究及改进，实现了高效多目标检测与跟踪监控系统。

Description

一种基于云端的监控视频下多目标跟踪的方法

技术领域

本发明涉及目标识别跟踪技术领域，尤其是一种基于云端的监控视频下多目标跟踪的方法。

背景技术

现阶段，病房看护仍是人们关注的地方，因出现精神病患者、老年痴呆、传染性疾病等原因出走后丢失，心系每一位家人和医院的神经，如何在患者离开病房后及时寻回，防止出现因走失引起的各类问题呢？对于携带式传感器跟踪而言，极有可能出现忘记携带的问题，且携带式传感器无法判断与患者接触人群信息，如果是传染性疾病的话，会引起更多的困扰。随着深度学习技术及相关算法的发展，通过深度学习实现多目标跟踪成为一种新方法，在一定空间范围内通过智能监控相机搭建一套病房看护场景中患者跟踪分析系统，能够对患者进行实时跟踪，从而在病人离开病房后，家人和医生能够及时将患者寻回，对于身具传染性疾病的患者，还可以分析患者曾接触人群，以防病例无意传染。

但目前跟踪算法对检测和跟踪病人这种特征多变、运动方向不定的对象而言，准确性和稳定性难以满足现阶段监控系统对精度和响应速度的实际需求。

基于深度学习的目标检测方法有YOLOV,SSD,Centernet,Faster-R-CNN等,其中YOLOV,SSD等属于one-stage目标检测，通过一遍网络得出目标的位置和类别信息，预测速度较快；Faster-R-CNN属于Two-stage目标检测，会先生成一些候选区域，这些区域有可能会包含一个待检测目标，紧接着再采取一些后续措施来区分每个候选区域里具体包含了那些目标；Centernet属于轻量级模型，网络简单优雅，适用于在算力较小的平台上部署。

基于检测的多目标的跟踪主要分为两大类，一类是根据目标检测的结果提取特征作数据关联，进而实现多目标跟踪，所以往往具有较高的精度，即SDE。另一类则是根据现有的检测模型，嵌入关联结构，直接得到多目标跟踪的结果，即JDE，但是往往因为特征提取网络的共享参数不能同时适应检测和重识别所需特征，所以跟踪的精度不佳。

基于上述方法存在的不足，有必要研发一种基于云端的监控视频下多目标跟踪的方法。

发明内容

本发明需要解决的技术问题是提供一种基于云端的监控视频下多目标跟踪的方法，提升了检测网络的鲁棒性，保证了检测精度，可以减少人群检测过程中出现的目标漏检、错误匹配的问题，进而赋予每个目标一个具体的身份信息，形成不同身份的轨迹信息，实现对监控中多目标的实时跟踪。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于云端的监控视频下多目标跟踪的方法，在系统层次，首先搭建一套云端和本地客户端平台，将监控相机采集的视频经过本地压缩处理后上传到服务器，然后通过服务器搭建的基于检测的多目标跟踪算法对图像进行实时推理，最后在本地客户端读取显示多目标跟踪结果；

在算法层次，一方面，针对检测网络CenterNet，在原模型基础上应用了可变性卷积，并改进了高斯核的分布形式，提升了检测网络的鲁棒性，保证了检测精度；另一方面，通过卡尔曼滤波提取运动特征，使用一种注意力结构来提取外观特征，基于DeepSORT算法对运动特征、外观特征进行加权融合并进行数据关联，综合计算目标与轨迹的匹配程度，进而赋予每个目标一个具体的身份信息，形成不同身份的轨迹信息，实现对监控中多目标的实时跟踪。

本发明技术方案的进一步改进在于：包括以下步骤：

S1、在指定位置搭建能够采集视频数据并包含联网装置的监控相机；在监控相机端对采集的视频数据进行预处理，然后上传至云端，实现监控画面实时传输；

S2、搭建云端和客户端平台；具体为：

S21、在服务器端对接收视频数据进行解码、处理和判断数据的有效性，并根据客户端需求传送相应的结果；

S22、在本地客户端接收监控视频跟踪结果，实现数据可视化功能；

S3、通过监控相机、服务器端、客户端以及各设备之间的数据通信协同实现视频监控的结果存储、降低数据冗余、可视化分析功能；

S4、对步骤S21处理后的有效视频图像进行目标识别检测；

S5、在检测的基础上进行数据关联，对多目标进行跟踪；

S6、在客户端对多目标跟踪输出的视频进行保存、删除以及更新。

本发明技术方案的进一步改进在于：步骤4中，具体的步骤包括：

S41、对centernet检测网络进行优化，搭建检测网络模型；

S42、对输入视频帧进行特征处理，将得到的特征图送入头部网络，提取到定位物体的中心点位置、偏移量以及检测框大小。

本发明技术方案的进一步改进在于：步骤S41中，检测网络具体包括以下优化；

S411、基于centernet检测模型，将可变行卷积DCN应用到不同特征提取层；

S412、基于centernet检测模型，改进原模型中的高斯核分布形式。

本发明技术方案的进一步改进在于：步骤S411中，将可变行卷积DCN应用到CenterNet网络不同特征提取层，所述具体方法如下：

选用Centernet主干特征网络为restnet34，在对病房患者进行检测过程中，高层特征会包含较多的语义信息，所以在主干网络末端添加可变性卷积以便提取到更多的特征信息，同时由于头部网络的作用不同，在头部网络三个分支的前端分别使用可变形卷积，可以得到更加精确的回归特征信息。

本发明技术方案的进一步改进在于：步骤S412中，改进CenterNet模型中的高斯核分布形式，具体改进方法为：

对训练过程中的高斯核分布按对应的宽高比进行调整，将headMAP分支中的标准差按照宽高比进行修正，调整后的二维高斯分布具体形式为：

式中，分别表示高斯核在x、y方向上的分量，标准差σ_x、σ_y应满足与输入原图像中标注框的宽高比呈正相关，设/>为一常数，则σ_x、σ_y的对应关系为：

式中，g_h、g_w分别对应标注框的宽、高信息；

按照患者宽高比例设定的方差绘制的高斯分布能够将相近患者明显的区分，从而能在预测过程中有效避免漏检的情况，提高检测精度。

本发明技术方案的进一步改进在于：步骤5中，具体包括以下步骤：

S51、通过卡尔曼滤波提取运动特征，预测未来帧对应目标的具体位置；使用一种注意力结构来提取外观特征，改善目标检测框位置不固定带来外观相似度不匹配问题；

S52、基于DeepSORT算法，将外观特征、运动特征动态加权融合对数据进行关联,综合计算目标与轨迹的匹配；

S53、判断轨迹是否匹配，无误后对轨迹进行更新，完成多目标跟踪。

本发明技术方案的进一步改进在于：步骤S51中，使用一种注意力结构提取外观特征中使用一种注意力机制对外观特征进行提取，其网络模型为SE-resNet Module结构，网络结构具体形式为：

首先将输入特征图x_in经过一Residual结构，得到蕴含高层语义特征的特征图，然后将其进行全局平均池化得到c×1×1的单维特征结构，再通过两个全连接层形成先降维再升维的空间注意力提取结构，经过sigmoid激活函数得到不同通道的权值占比，即每层对应的归一化权重，最后将这些归一化权重加到经过Residual提取到的特征图对应通道上，即赋予了不同的特征层以不同的占比，为了防止模型退化，参照ResNet基本结构，将x_in与经过加权后的特征相加生成输出特征图x_out。

由于采用了上述技术方案，本发明取得的技术进步是：

1、本发明在一定空间范围内，搭建了一套监控相机、云端与本地结合的视频监控下的病人检测跟踪系统，能够在客户端实现对目标的远程跟踪，从而在患者走出病房后可以及时寻回，避免对家人和医生带来麻烦。

2、本发明针对检测网络CenterNet，在原模型基础上应用了可变性卷积，并改进了高斯核的分布形式，提升了检测网络的鲁棒性，保证了检测精度，

3、本发明通过卡尔曼滤波提取运动特征，使用一种注意力结构来提取外观特征，基于DeepSORT算法对运动特征、外观特征进行加权融合并进行数据关联，综合计算目标与轨迹的匹配程度，此方法可以减少人群检测过程中出现的目标漏检、错误匹配的问题，进而赋予每个目标一个具体的身份信息，形成不同身份的轨迹信息，实现对监控中多目标的实时跟踪。

4、本发明对检测网络进行改进，能够应对检测中出现的局部遮挡问题，提高检测网络的鲁棒性。

5、本发明在跟踪算法部分引入注意力机制来提取外观特征，并将运动特征，外观特征进行加权融合，能够降低误检、漏检概率，实现目标的持续跟踪。

附图说明

图1是本发明中监控系统的整体网络拓扑结构图；

图2是本发明中视频解码，图像预处理过程流程图；

图3是本发明中数据采集和算法处理子线程间的数据通信流程图；

图4是本发明中centernet网络结构示意图；

图5是本发明中检测模型中骨干提取网络RestNet34结构图；

图6是本发明中可变形卷积在原检测网络分布图；

图7是本发明中高斯核分布形式效果图；

图8是本发明中多目标跟踪算法整体设计流程图；

图9是本发明中SE-ResNet Module结构图。

具体实施方式

本发明提出和优化的算法紧紧围绕如何使病人在视频监控场景下避免一些不利因素带来的影响，从而保证检测精度，同时研究了在多目标跟踪这一具体的应用背景下，如何在一段较长的跟踪视频中减少错误匹配、漏报、误报等问题，并通过算法的改进、优化及监控系统的设计实现解决数据冗余问题，构建视频监控下的病人轨迹跟踪分析系统。

下面结合附图对本发明做进一步详细说明：

如图～3所示，一种基于云端的监控视频下多目标跟踪的方法，在系统层次，首先搭建一套云端和本地客户端平台，将监控相机采集的视频经过本地压缩处理后上传到服务器，然后通过服务器平台上搭建的基于检测的多目标跟踪算法对视频图像进行实时推理，最后在本地客户端读取并显示多目标跟踪结果。在算法层次，做出了以下改进，一方面，针对检测网络CenterNet，在原模型基础上应用了可变性卷积，并改进了高斯核的分布形式，提升了检测网络的鲁棒性，保证了检测精度，另一方面，通过卡尔曼滤波提取运动特征，使用一种注意力结构来提取外观特征，基于DeepSORT算法对运动特征、外观特征进行加权融合并进行数据关联，综合计算目标与轨迹的匹配程度，此方法可以减少人群检测过程中出现的目标漏检、错误匹配的问题，进而赋予每个目标一个具体的身份信息，形成不同身份的轨迹信息，实现对监控中多目标的实时跟踪。

基于云端的监控视频下多目标跟踪系统的具体实施步骤如下：

S1、在指定位置搭建监控相机，为了方便监控相机数据上传云端，所用监控相机包含联网装置；

S11、通过相机采集视频数据；

S12、在相机端对视频数据进行预处理上传至云端，实现监控画面实时传输；

S2、搭建云端和客户端平台；

S21、在服务器平台对接收视频进行解码、处理和判断数据的有效性，并根据客户端需求传输相应的结果；

S211、相机数据的拉取、解码、数据格式转换流程图如图2所示，首先进行初始化操作，注册所有容器和编解码器，接着通过rtsp协议从相机拉取数据流，然后对相机采集到的数据进行解复用，根据上下文信息查找流中的视频信息，接着根据视频信息查找本地对应的视频解码器，并先给解码过程中会用到的解码上下文信息、packet数据包、解码后的YUV数据分配相应的内存，然后按照读取packet数据包进行解码，判断解码是否成功，如果解码不成功则释放当前packet重新读取下面的数据包对压缩数据进行解码，如果解码成功则判断当前是否为成功解码的第一帧数据，如果是则设置解码转换格式及与模型输入所对应的大小的默认信息，如果不是则直接按照初始设定的默认输出信息进行转换，转换完成之后将图像放入上述线程一和线程二的共享数据，并以try lock的形式进行加锁，保证数据读取的实时性，然后继续读取数据包生成共享数据。

S212、数据采集和算法处理部分如图3所示，其主要分为三个线程进行，第一个线程负责读取视频的解复用、解码及数据格式转换后的RGB图像数据内容，第二个线程负责算法实例的运行，对数据进行模型推理，第三个线程负责有效数据的时间范围判定及视频的裁剪及推送。

S22、在本地客户端接收监控视频中多目标跟踪信息，并进行结果的显示。用户可以通过客户端面板设定数据的查询、视频显示的形式及对既有数据的进一步编辑操作；

S3、通过相机、服务端、客户端以及各设备之间的数据通信协同实现视频监控的结果存储、降低数据冗余、可视化分析功能；

S4、对步骤S21处理后的视频图像进行目标识别检测；

S41、搭建CenterNet检测网络模型，具体网络结构如下：

如图4表示的是使用的基于CenterNet的网络结构，输入图像是一宽为W高为H的三通道RGB图像I∈R^W×H×3，将图像送入骨干网络进行高维特征提取，其中骨干网络使用ResNet34，以便能够实现较高的检测速度，具体结构如图4所示，首先经过一个标准的CBR模块(卷积Conv，标准化层BN，激活层Relu)，其中卷积采用7×7的卷积核大小，stride设为2，padding设为3，进行原图下采样，然后使用最大池化继续对经过激活层之后的特征图进行下采样以获得更大的感受野，再然后经过16个标准的BasicBlock结构，经过四次下采样得到(W/32)×(H/32)大小的特征图。

经过骨干网络的下采样后会得到下采样的特征图，将得到的特征图送入头部网络，其中头部网络包括三个分支，HeatMap分支、Scale分支和Offset分支。

HeatMap分支通过关键点在不同特征层的响应来定位物体的中心点位置和类别，其具体操作是将上一步得到的特征图经过该分支的全卷积网络，得到

的HeatMap，单层的HeatMap表示只有患者这一个类别，由此在推理过程中即可根据最终特征图上“最强响应”极值点所在的层和对应层的位置初步得到检测物体的类别和中心点的位置。

Scale分支通过回归得到检测框的大小，将骨干网络提取得到的特征图经过全卷积网络得到大小的特征图，共有两层，在推理过程中分别预测HeatMap分支检测到的物体中心点对应的检测框的宽和高。

Offset分支对中心点偏移量进行校正，经过全卷积网络同样得到一两层特征图两层分别对应中心点的两个方向的偏移量，经过以上校正后就能进一步提高检测的准确度。

S411、基于centernet检测模型，将可变行卷积DCN应用到不同特征提取层，其具体应用方法如下：

在对病房内患者进行检测的实际应用过程中，由于高层特征会包含更多的语义信息，所以可变形卷积的位置放到骨干网络的末端，以从高维的信息中提取目标的较多特征信息，同时在头部网络几个分支的前端分别使用可变形卷积，得到更加精确的回归特征信息，系统的来看，可变形卷积的使用位于骨干网络的末端和头部网络的前端，改进后的可变形卷积在原模型的位置示意图如图6所示。骨干网络中的可变形卷积，是为了从骨干网络中提取的高级语义信息以强化特征信息的局部响应，通过从骨干网络提取的特征图中进行运算，削弱因CNN固定的几何结构在特征图上带来的偏差。而头部网络中各分支对应的可变形卷积结构分别对应着不同分支的预测结果，分支1为HeatMap分支，该分支中可变形卷积根据输入特征图进行变形卷积计算，以改善目标特征的分布结果，使后面的分支结构能更加准确的定位中心点位置。分支2、分支3分别对应Offset分支和Scale分支，这两个分支最终都是通过回归形成2层的结果特征图，在分支初始输入处经过可变形卷积对不同的特征点加不同的权值运算，从而差异化特征图上不同区域特征点对最终的回归结果的贡献值，使校正值和尺度回归的精度得到提高。

S412、基于centernet监测模型，改进原模型中的高斯核分布形式，其具体改进方法如下：

为了减少目标中心点重合的情况，依据目标数据的特征，对训练过程中的高斯核分布按对应的宽高比进行调整，将HeadMap分支对应的二维高斯核按照宽高比进行修正，调整后的二维高斯分布具体形式为：

式中，g_h、g_w分别对应标注框的宽、高信息，改进前后的效果如图7所示，在训练过程中，当按照原始高斯分布围绕中心点进行绘制时，如果原始图像中的目标距离较近，则会出现相互遮挡的现象，如图7(a)，从而造成模型预测过程中距离相近检测目标经最大池化后处理操作后仅保留部分检测目标，最后造成部分目标漏检，相对而言，如图7(b)按照目标宽高比比例设定的方差绘制的高斯分布能够将相近目标明显的区分，从而能在预测过程中有效避免漏检的情况，提高检测精度。

S42、对输入视频帧进行特征处理，将得到的特征图送入头部网络，提取到定位物体的中心点位置、偏移量以及检测框大小；

S5、在检测的基础上进行数据关联，实现对多目标的实时跟踪，具体跟踪过程如下：

整体跟踪过程如图8所示，首先由检测模型对当前视频帧进行前向推理，从当前帧中预测出目标的具体位置，得到检测结果，然后基于检测结果和不同特征的定义方式分别提取出运动特征、外观特征，根据不同特征的度量方式计算关联代价，再然后结合当前状态通过不同的权值将这些特征进行加和，计算既有轨迹与不同目标之间的总体代价。根据总体代价的阈值即可确定目标是否可以关联，如果可以关联，则将上一帧中对应患者的身份信息赋值给其在当前帧关联匹配到的患者，如果不可以关联则根据现有信息判断是否有新的轨迹生成，如果可以确定生成新的轨迹，则将该轨迹赋值给一与之前所有患者身份信息不同的特定身份信息作为新的轨迹编号，如果没有新的轨迹生成，则初步判定为当前帧匹配不到的轨迹存在消失的可能，所以将该轨迹的已有信息暂时放置到备选列表，在读取下一帧视频时进行隔帧匹配，如果连续匹配不到的帧数超过一定大小，则认为该轨迹消失，将其轨迹信息删除。经过以上更新身份信息的步骤之后，进一步判断视频是否已经结束，如果视频并未结束或经过判断之后不停止读取视频数据，则继续读取下一帧视频进行下一帧的数据关联即可。

对已经采集完成的相机视频或由系统将具有时序顺序的帧序列合并成的新视频，在身份信息关联之后判断是否需要进行轨迹衔接，如果需要则将现有轨迹按照一定的时序区间由特征信息生成轨迹之间的代价，度量其可衔接程度，如果满足衔接要求，则进行轨迹衔接，在时序上将后一条轨迹的身份信息用前一条轨迹的身份信息来代替。

S51、通过卡尔曼滤波提取运动特征，预测未来帧对应目标的具体位置；使用一种注意力结构来提取外观特征，改善目标检测框位置不固定带来外观相似度不匹配问题，其中注意力结构提取外观特征的具体步骤如下：

通过一种注意力结构进行特征提取，其中通道注意力结构如图9所示，表示SE-ResNet Module结构，首先将输入特征图x_in经过一Residual结构，得到蕴含高层语义特征的特征图，然后将其进行全局平均池化得到c×1×1的单维特征结构，再通过两个全连接层形成先降维再升维的空间注意力提取结构，经过Sigmoid激活函数得到不同通道的权值占比，即每层对应的归一化权重，最后将这些归一化权重加到经过Residual提取到的特征图对应通道上，即赋予了不同的特征层以不同的占比，为了防止模型退化，参照ResNet基本结构，将x_in与经过加权后的特征相加生成输出特征图。

S52、基于DeepSORT算法，将外观特征、运动特征动态加权融合对数据进行关联,综合计算目标与轨迹的匹配，最终在整个视频中形成多条轨迹。

S53、判断轨迹是否匹配，无误后对轨迹进行更新，完成多目标跟踪；

综上所述，本发明在一定空间范围内，搭建了一套监控相机、云端与本地结合的视频监控下的病人检测跟踪系统，能够在客户端实现对目标的远程跟踪，从而在患者走出病房后可以及时寻回，避免对家人和医生带来麻烦。

以上所述的实例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明技术方案做出的各种变形和改进，均应落入权利要求书确定的保护范围内。

Claims

1.一种基于云端的监控视频下多目标跟踪的方法，其特征在于：在系统层次，首先搭建一套云端和本地客户端平台，将监控相机采集的视频经过本地压缩处理后上传到服务器，然后通过服务器搭建的基于检测的多目标跟踪算法对图像进行实时推理，最后在本地客户端读取显示多目标跟踪结果；

在算法层次，一方面，针对检测网络CenterNet，在原模型基础上应用了可变性卷积，并改进了高斯核的分布形式，提升了检测网络的鲁棒性，保证了检测精度；另一方面，通过卡尔曼滤波提取运动特征，使用一种注意力结构来提取外观特征，基于DeepSORT算法对运动特征、外观特征进行加权融合并进行数据关联，综合计算目标与轨迹的匹配程度，进而赋予每个目标一个具体的身份信息，形成不同身份的轨迹信息，实现对监控中多目标的实时跟踪；

包括以下步骤：

S2、搭建云端和客户端平台；具体为：

S4、对步骤S21处理后的有效视频图像进行目标识别检测；

具体的步骤包括：

S41、对centernet检测网络进行优化，搭建检测网络模型；

检测网络具体包括以下优化：

S411、基于centernet检测模型，将可变行卷积DCN应用到不同特征提取层；所述具体方法如下：

选用Centernet主干特征网络为restnet34，在对病房患者进行检测过程中，高层特征会包含较多的语义信息，所以在主干网络末端添加可变性卷积以便提取到更多的特征信息，同时由于头部网络的作用不同，在头部网络三个分支的前端分别使用可变形卷积，可以得到更加精确的回归特征信息；

S412、基于centernet检测模型，改进原模型中的高斯核分布形式；

具体改进方法为：

式中，g_h、g_w分别对应标注框的宽、高信息；

按照患者宽高比例设定的方差绘制的高斯分布能够将相近患者明显的区分，从而能在预测过程中有效避免漏检的情况，提高检测精度；

S5、在检测的基础上进行数据关联，对多目标进行跟踪；

2.根据权利要求1所述的一种基于云端的监控视频下多目标跟踪的方法，其特征在于：步骤S5中，具体包括以下步骤：

S52、基于DeepSORT算法，将外观特征、运动特征动态加权融合对数据进行关联，综合计算目标与轨迹的匹配；

3.根据权利要求2所述的一种基于云端的监控视频下多目标跟踪的方法，其特征在于：步骤S51中，使用一种注意力结构提取外观特征中使用一种注意力机制对外观特征进行提取，其网络模型为SE-resNet Module结构，网络结构具体形式为：