CN108121945A

CN108121945A - 一种多目标检测跟踪方法、电子设备及存储介质

Info

Publication number: CN108121945A
Application number: CN201711123145.0A
Authority: CN
Inventors: 田强; 徐鹏飞; 赵瑞
Original assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Current assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-06-05

Abstract

本发明公开了一种多目标跟踪方法，包括：获取待跟踪的每个目标对象；基于GPU的并行处理，采用核化相关滤波方法对每个目标对象进行跟踪以更新每个目标对象的位置；基于ResNet的深度学习卷积神经网络和Faster‑RCNN的检测模型检测每个目标对象；将检测的目标对象和对应的跟踪的目标对象进行匹配。本发明还公开了一种电子设备及存储介质，本发明提供的多目标跟踪方法、电子设备及存储介质，基于GPU的并行处理，采用核化相关滤波方法对每个目标对象进行跟踪，基于ResNet的深度学习卷积神经网络和Faster‑RCNN的检测模型检测每个目标对象，从而实现高性能的目标跟踪和检测，提高跟踪和检测的稳定性。

Description

一种多目标检测跟踪方法、电子设备及存储介质

技术领域

本发明涉及目标检测和跟踪领域，尤其涉及一种多目标检测跟踪方法、电子设备及存储介质。

背景技术

目前，基于视频的实时监控系统，通常布置在人流量密集的公共区域或敏感区域，如广场、车站、体育馆、厂区等，对于国家安全、公共安全、国防建设和人民的财产具有重要的意义；基于视频的监控系统具有非接触、成本低、长时间运行等特点，通过自动化的监控软件可以解放大量的人力物力。传统的监控系统部署方式一般为通过集中式的高性能服务器提供对接入视频流的视频分析服务，这种方式对于相对封闭的区域比较适合，比如大型超市等，但它有部署不灵活、成本较高等不足；如何能够在性能相对不高、价格相对低廉的嵌入式上进行分布式的部署，从而能够实现智能分析能力移向前端设备，扩大部署数量和范围是目前研究的热点话题。不论是部署在高性能服务器还是部署在嵌入式上的基于视频的实时监控系统，一般来讲都需要能够实现定位出目标并能够持续对各个目标进行监视，而实现这一系统包含两个关键技术：目标检测和多目标跟踪。

目标检测的任务是通过视频图像，自动定位出感兴趣的物体，如行人、车辆。目标检测追求的是能够减少误检(将非目标错误的判断为目标)和漏检(有些目标没有在视频帧图像中定位出来)，通过深度学习方法在图像领域里最近几年的快速发展，目前使用的最好的目标检测技术是基于faster-rcnn的深度学习检测技术，该技术通过深度神经网络训练大量的数据样本，能够准确学习到待检测目标的复杂特征，从而可以在图片中准确定位到待检测目标。该类方法在学术上可以达到了99％以上的准确率，但同时该方法存在速度较慢这一明显的不足。

目标跟踪的任务是对检测到的目标进行持续的跟踪，为下一步分析行人的运动轨迹、分析行人的行为、公共区域突发事件的预防，如聚集、踩踏等信息提供了重要的基础。目前被广泛研究和应用的目标跟踪方法主要有两类：基于深度学习的跟踪方法和基于相关滤波的跟踪方法。基于深度学习的跟踪方法，主要思想是借鉴深度学习方法在分类任务上取得巨大成功的经验，即使用深度神经网络提取跟踪目标的特征，从而远远超过了传统手工设计特征的方法，但是该类方法存在速度缓慢的不足，目前的进展远不能达到实时的目的，同时该方法对计算所需要的硬件条件要求很高，所以一直停留在学术界，难以在工业界实际应用。而基于相关滤波的跟踪自2010年在学术界问世时就以高速稳定的性能而受到广泛认可。相关滤波的方法在实现思想上借鉴了信号处理领域的方法，即在信号处理中通常使用相关性来描述两个信号之间的联系，而相关滤波将相关性引入到跟踪领域中，通过计算相关性来衡量两个目标之间的相似程度的大小。自相关滤波方法提出以来，已经在相关滤波基础上衍生出了很多分支的跟踪方法，而最本质的进化应当属于2014年问世的核化相关滤波。该方法从机器学习的角度引入核技巧，并通过循环矩阵改进了相关滤波的跟踪，是现在最新研究方向的基础。通过实验测试，在服务器上(Titanx显卡)相关滤波方法的运行速度可以达到单个目标500fps左右，而核化相关滤波的跟踪方法的运行速度可以达到一个目标200fps左右，另外在嵌入式平台(jetson Tx1)，核化相关滤波耗时大概10多毫秒，可以达到实时的要求，但是离多路(4路)实时还是有所差距。

现有的多目标跟踪技术都是基于大中型服务器CPU的串行算法，其缺点是在多目标情况下速度下降显著，无法达到实时效果，并且大中型服务器硬件和维护成本都比较高。且基于深度学习的目标检测方法难以应用在计算能力、功耗有限的嵌入式设备上。现有的多目标跟踪方法未能将检测与跟踪两个模块统一进行优化处理，跟踪和检测目标不稳定。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种多目标检测跟踪方法，以解决现有多目标跟踪方法跟踪和检测目标不稳的的问题。

本发明的目的之二在于提供一种电子设备，以解决现有多目标跟踪方法跟踪和检测目标不稳的的问题。

本发明的目的之一采用如下技术方案实现：

一种多目标跟踪方法，包括：

获取待跟踪的每个目标对象；

基于GPU的并行处理，采用核化相关滤波方法对每个所述目标对象进行跟踪以更新每个所述目标对象的位置；

基于ResNet的深度学习卷积神经网络和Faster-RCNN的检测模型检测所述每个目标对象；

将检测的目标对象和对应的跟踪的目标对象进行匹配。

进一步地，所述基于GPU的并行处理，采用核化相关滤波方法对每个所述目标对象进行跟踪以更新每个所述目标对象的位置包括基于GPU的并行处理执行以下步骤：

提取当前帧图像中每个目标对象的目标框的第一图像特征；

将所述第一图像特征进行二维傅里叶变换转换为第一频域信号；

对所述第一频域信号取自相关以得到第一共轭信号；

对所述第一共轭信号进行傅里叶反变换计算第一高斯核函数，其中，所述第一高斯核函数的计算过程中采用与特征长度相关的估计值替代高斯核的平方和；

建立训练数据集，通过第一高斯核函数对所述训练数据集进行岭回归训练以得到频域模型；

根据所述频域模型更新每个所述目标对象的位置。

进一步地，所述根据所述频域模型更新每个所述目标对象的位置包括：

提取下一帧图像中每个目标对象的目标框的第二图像特征；

将所述第二图像特征进行二维傅里叶变换转换为第二频域信号；

将所述第一频域信号和所述第二频域信号取自相关以得到第二共轭信号；

对所述第二共轭信号进行傅里叶反变换计算第二高斯核函数，其中，所述第二高斯核函数的计算过程中采用与特征长度相关的估计值替代高斯核的平方和；

将所述第二高速核函数导入所述频域模型计算出响应值；

根据所述响应值更新每个所述目标对象的位置。

进一步地，所述根据所述响应值更新每个所述目标对象的位置包括：

将所述响应值进行傅里叶反变换以得到响应矩阵；

获取所述响应矩阵的最大值的位置；

根据所述响应矩阵的最大值的位置和当前帧图像中每个目标对象的位置计算下一帧图像中每个所述目标对象的位置。

进一步地，所述获取所述响应矩阵的最大值的位置包括：

采用并行二叉树算法计算所述响应矩阵的最大值的位置。

进一步地，所述建立训练数据集包括：

采用循环移位的方法在目标对象周围区域采集正负样本。

进一步地，所述将检测的目标对象和对应的跟踪的目标对象进行匹配包括：

采用匈牙利算法将检测的目标对象和对应的跟踪的目标对象进行匹配。

进一步地，所述基于ResNet的深度学习卷积神经网络和Faster-RCNN的检测模型是采用tensorRT架构部署在嵌入式平台上的。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行上述的方法。

本发明还涉及一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述的方法。

相比现有技术，本发明的有益效果在于：基于GPU的并行处理，采用核化相关滤波方法对每个目标对象进行跟踪，基于ResNet的深度学习卷积神经网络和Faster-RCNN的检测模型检测每个目标对象，从而实现高性能的目标跟踪和检测，提高跟踪和检测的稳定性。

附图说明

图1为本发明实施例提供的多目标跟踪方法流程图；

图2为本发明实施例提供的采用核化相关滤波方法对每个所述目标对象进行跟踪的流程图；

图3为本发明实施例提供的根据频域模型更新每个目标对象的流程图；

图4为本发明实施例提供的电子设备的示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1所示，本发明实施例提供的多目标跟踪方法，包括：

步骤S101：获取待跟踪的每个目标对象。

具体的，从监控视频流中获取各帧图像，根据目标检测方法可以得到前一帧图像中目标对象的位置和大小，这些目标对象即是当前待跟踪的目标对象。

步骤S102：基于GPU的并行处理，采用核化相关滤波方法对每个所述目标对象进行跟踪以更新每个所述目标对象的位置。

具体的，提取目标对象的目标框，在GPU显存中对当前帧图像的目标框和下一帧图像的目标框进行操作，从而得到下一帧图像中目标对象的位置。

如图2所示，本发明实施例提供的采用核化相关滤波方法对每个所述目标对象跟踪的方法，包括基于GPU的并行处理执行以下步骤：

步骤S201：提取当前帧图像中每个目标对象的目标框的第一图像特征。

具体的，当前帧图像加载到计算机内存中后，利用了CUDA L1 Cache一级缓存机制，将加载到CPU中的图像复制到GPU显存中，提高数据传输速度。首先对所有目标对象的目标框进行缩放，缩放到同一大小，便于GPU进行批量处理，然后GPU并行提取所有待跟踪目标对象的目标框的第一图像特征。提取的第一图像特征可以是灰度特征或者HOG特征，本实施例中以灰度特征进行说明，对每个线程块使用32x32个线程来并行提取特征，每个线程处理一个像素点，当使用灰度特征的时候，该线程的操作就是根据像素点位置的rgb值计算求得相应的灰度值。

步骤S202：将所述第一图像特征进行二维傅里叶变换转换为第一频域信号。

具体的，本实施例中是对所有目标对象的第一图像特征并行完成转换的，进行二维傅里叶计算前，先将多个目标对象的第一图像特征批量进行二维傅里叶变换所需要的内存和计算资源统一配置好并保存配置信息，从而使处理器在计算过程中达到最佳的性能，且在多次调用时节省计算时间；在进行二维傅里叶变换时，基于实数信号傅里叶变换的共轭对称特性，采用频域信号对称压缩的方法，使得在不影响跟踪结果的情况下，整个流程的计算量和存储操作数量都少了一半，这样进一步加速了算法速度同时节省了内存。使用傅里叶变换将时域内的矩阵卷积操作转换到频域内的乘法操作，大大提高了计算速度。

步骤S203：对所述第一频域信号取自相关以得到第一共轭信号。

具体的，利用共轭对称的自相关也具有共轭对称性的特性，本实施例中只对一半的信号进行自相关运算，从而减少计算量，且和原算法等效。GPU并行处理图像特征在复数域的内积的过程中，每个线程块处理一个目标对象的第一共轭信号，从而保证一个线程只处理两个复数之间的一次内积运算，提高计算效率。

步骤S204：对所述第一共轭信号进行傅里叶反变换计算第一高斯核函数，其中，所述第一高斯核函数的计算过程中采用与特征长度相关的估计值替代高斯核的平方和。

因为目标跟踪中根据训练样本生成的检测模型在大多数情况下所要解决的都是非线性问题，所以更合理的设计是将求解方法拓展到非线性问题上，核化相关滤波方法中通过引入“核”来将问题扩展到非线性空间。核技巧是在机器学习方法中常用的一种方法，它可以把低维空间的计算映射到高维的核空间上，从而在低维空间上不可分的情况到高维空间之后变得线性可分了，这样用一个简单的核函数直接做映射就可以很好的完成这个工作，所以核函数的主要目的就是把一个线性问题映射到一个非线性核空间上。实际中常用的核函数为高斯核，在本实施例中同样使用高斯核函数，高斯核函数通常定义为空间中任一点x到某一中心x_c之间欧氏距离的单调函数，记作k(||x-x_c||)，形式为：

从公式可以看出，计算过程中需要计算平方和一项，同样，由共轭信号计算高斯核函数的过程中，需要计算高斯核的平方和这一项，本实施例中使用一个和特征长度相关的估计值来替代平方和，根据核函数的大小选择估计值，从而提高了计算速度，且跟踪结果与原算法基本完全吻合。计算过程中的每个步骤都是GPU并行实现的，这样能够进一步将多个步骤的操作融合到一个核函数里，能够充分利用GPU的计算能力。

步骤S205：建立训练数据集，通过第一高斯核函数对所述训练数据集进行岭回归训练以得到频域模型。

核化相关滤波跟踪方法是一种鉴别式的跟踪方法，所以需要在跟踪的过程中在线的训练出一个目标检测器，该目标检测器的目的就是在跟踪的过程中能够判断哪些样本是跟踪目标、哪些样本不是跟踪目标，而通过岭回归这一步骤就可以得到跟踪算法所需要的目标检测器。目标检测器实质上是一个两个类别的分类器，而通过机器学习的方法训练分类器需要提供正样本和负样本，而且样本数量越多训练出来的分类器可能越好。在目标跟踪的应用中由于正样本就是跟踪目标本身，而负样本比较少，但负样本对训练一个分类器比较重要，本实施例中建立训练数据集的方法为：采用循环移位的方法在目标对象周围区域采集正负样本。相较于传统的稠密采样方法，该方法通过循环矩阵在傅里叶空间可对角化的性质将矩阵的运算转化为向量元素的点乘，从而在不增加计算负担的情况下生成了大量的训练样本。

岭回归训练的过程是将线性空间的岭回归通过核函数映射到非线性空间，在非线性空间通过求解一个对偶问题和某些常见的约束来得到解，本实施例中利用循环矩阵的特性，在频域通过第一高斯核函数对训练集进行岭回归计算，通过这样的过程能够省略生成循环矩阵所需要的大量移位操作和保存中间结果所需要的内存资源，极大的减少了计算量和内存占用，计算的结果即为频域模型。

步骤S206：根据所述频域模型更新每个所述目标对象的位置。

具体的，将下一帧图像的目标对象的目标框的图像特征经过变换后导入频域模型计算出下一帧图像中目标对象的位置。

如图3所示，本发明实施例提供的根据所述频域模型更新每个所述目标对象的位置的方法，包括：

步骤S301：提取下一帧图像中每个目标对象的目标框的第二图像特征；计算过程同步骤S201。

步骤S302：将所述第二图像特征进行二维傅里叶变换转换为第二频域信号；计算过程同步骤S202。

步骤S303：将所述第一频域信号和所述第二频域信号取自相关以得到第二共轭信号；计算过程同步骤S203。

步骤S304：对所述第二共轭信号进行傅里叶反变换计算第二高斯核函数，其中，所述第二高斯核函数的计算过程中采用与特征长度相关的估计值替代高斯核的平方和；计算过程同步骤S204。

步骤S305：将所述第二高速核函数导入所述频域模型计算出响应值。

目标跟踪的目的是在下一帧图像中检测到目标对象，目标检测使用目标检测器，本实施例中的频域模型即是目标检测过程中的目标检测器，将第二高斯核函数导入频域模型，就会得到一系列响应值。

步骤S306：根据所述响应值更新每个所述目标对象的位置。

具体的，该步骤包括：

将响应值进行傅里叶反变换以得到响应矩阵，该响应矩阵在真实目标位置的数值最大，因此，获取响应矩阵的最大值的位置，该最大值位置的坐标就是跟踪目标对象在空间上的位移。优选的，采用并行二叉树算法计算所述响应矩阵的最大值的位置，提高计算效率。根据所述响应矩阵的最大值的位置和当前帧图像中每个目标对象的位置计算下一帧图像中每个所述目标对象的位置。

步骤S103：基于ResNet的深度学习卷积神经网络和Faster-RCNN的检测模型检测所述每个目标对象。

为了提高目标跟踪的稳定性，本实施例采用每隔10～20帧进行一次人体检测，并且将检测结果与正在跟踪的目标对象的目标框进行匹配，用来矫正偏移。

具体的，基于ResNet(残差网络)的深度学习卷积神经网络和Faster-RCNN的检测模型是采用TensorRT架构部署在嵌入式平台上的。基于ResNet的深度学习卷积神经网络引入了残差网络结构，通过残差网络，可以把网络层设计的很深，网络分类效果更好。Faster-RCNN检测模型在于能够在保证足够高的精度的情况下，可以达到比较好的运行效率。但将ResNet和Faster-RCNN结合部署在嵌入式平台上时，由于计算能力和内存、显存的限制，必须对算法的功耗进行控制，本实施例采用TensorRT架构对ResNet、Faster-RCNN在嵌入式平台上的进行部署，TensorRT是NVIDIA公司推出的一款针对人工智能应用生产部署的高性能优化编译器和运行时引擎，它可以用在生产环境中部署深度学习程序，从而提高了计算速度。另外应用TensorRT可以确保高精度的INT8网络执行，在网络层的计算中将FP16的a、b数值乘法转换到INT8数值乘法，结果为INT8类型的Res，经过转换，一方面因为以INT8存储的数据本身所在的内存空间减少，另一方面因为在同一个指令集的情况下改用INT8，每个指令能够计算的数据个数增加，从而使得计算速度更快。

步骤S104：将检测的目标对象和对应的跟踪的目标对象进行匹配。

具体的，采用匈牙利算法将检测的目标对象和对应的跟踪的目标对象进行匹配。匈牙利算法是根据损失或相似度进行多对多任务分配的经典算法，在检测跟踪算法里，可以根据检测框与当前跟踪框的相似度，对两个集合进行匹配。本实施例中使用匈牙利算法，通过计算检测的目标框和当前跟踪的目标框之间的相对位置来计算相似度，当相似度超过预设值时，根据检测对象的位置重新进行目标跟踪，从而对跟踪目标起到矫正作用，实现多个目标长时间稳定的跟踪结果。

本实施例将目标检测模块与跟踪模块相结合，组成完整的目标检测跟踪系统。目标跟踪过程中，每一个计算过程都加入了GPU的并行优化，具体来说包括：在CPU-GPU数据传输过程中，利用了CUDA L1Cache一级缓存机制，提高了数据传输的速度；在提取目标图像特征的过程中，使用批量同时处理多个目标并利用GPU具有大量计算单元的条件，将计算任务划分到计算单元上进行并行加速；在傅里叶变换和反傅里叶变换的计算过程中，充分利用CUFFT提供的内存和计算资源预先配置的机制，并进一步根据实数信号傅里叶变换的共轭对称特性，在实际应用中采用频域信号对称压缩的方法将计算速度大幅提升；在计算频域信号的自相关过程中，充分利用GPU的并行计算优势将大量的重复运算通过并行方式一次完成；由共轭信号求高斯核函数的计算中，采用估计值替换的方式，提高运算速度；通过查找响应矩阵最大值来确定跟踪目标位置的过程中，使用了二叉树查找的方法，提高计算速度。目标检测过程中，结合TensorRT架构对ResNet、Faster-RCNN在嵌入式平台上进行部署，提高目标检测的精度和速度，从而提高目标跟踪和检测的稳定性。

如图4所示，本发明实施例提供的电子设备，包括：处理器11；

存储器12；以及程序，其中程序被存储在存储器12中，并且被配置成由处理器11执行，程序包括用于执行上述的方法。

本实施例中的电子设备与前述实施例中的方法是基于同一发明构思下的两个方面，在前面已经对方法实施过程作了详细的描述，所以本领域技术人员可根据前述描述清楚地了解本实施例中的电子设备的实施过程，为了说明书的简洁，在此就不再赘述。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来。本发明还涉及一种计算机可读存储介质，如ROM/RAM、磁碟、光盘等，其上存储有计算机程序，计算机程序被处理器执行上述的方法。

本发明提供的多目标跟踪方法、电子设备及存储介质，基于GPU的并行处理，采用核化相关滤波方法对每个目标对象进行跟踪，基于ResNet的深度学习卷积神经网络和Faster-RCNN的检测模型检测每个目标对象，从而实现高性能的目标跟踪和检测，提高跟踪和检测的稳定性。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种多目标跟踪方法，其特征在于，包括：

获取待跟踪的每个目标对象；

将检测的目标对象和对应的跟踪的目标对象进行匹配。

2.根据权利要求1所述的多目标跟踪方法，其特征在于，所述基于GPU的并行处理，采用核化相关滤波方法对每个所述目标对象进行跟踪以更新每个所述目标对象的位置包括基于GPU的并行处理执行以下步骤：

提取当前帧图像中每个目标对象的目标框的第一图像特征；

对所述第一频域信号取自相关以得到第一共轭信号；

根据所述频域模型更新每个所述目标对象的位置。

3.根据权利要求2所述的多目标跟踪方法，其特征在于，所述根据所述频域模型更新每个所述目标对象的位置包括：

提取下一帧图像中每个目标对象的目标框的第二图像特征；

将所述第二高速核函数导入所述频域模型计算出响应值；

根据所述响应值更新每个所述目标对象的位置。

4.根据权利要求3所述的多目标跟踪方法，其特征在于，所述根据所述响应值更新每个所述目标对象的位置包括：

将所述响应值进行傅里叶反变换以得到响应矩阵；

获取所述响应矩阵的最大值的位置；

5.根据权利要4所述的多目标跟踪方法，其特征在于，所述获取所述响应矩阵的最大值的位置包括：

采用并行二叉树算法计算所述响应矩阵的最大值的位置。

6.根据权利要求2所述的多目标跟踪算法，其特征在于，所述建立训练数据集包括：

采用循环移位的方法在目标对象周围区域采集正负样本。

7.根据权利要求1所述的多目标跟踪算法，其特征在于，所述将检测的目标对象和对应的跟踪的目标对象进行匹配包括：

8.根据权利要求1所述的多目标跟踪算法，其特征在于，所述基于ResNet的深度学习卷积神经网络和Faster-RCNN的检测模型是采用tensorRT架构部署在嵌入式平台上的。

9.一种电子设备，其特征在于，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-8任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-8任意一项所述的方法。