CN111784750A

CN111784750A - 视频图像中移动物体追踪方法、装置、设备以及存储介质

Info

Publication number: CN111784750A
Application number: CN202010573961.7A
Authority: CN
Inventors: 胡志鹏; 孙丘伟
Original assignee: Shenzhen Sunsea Iot Technology Co ltd
Current assignee: Shenzhen Sunsea Iot Technology Co ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-16

Abstract

本发明属于视频图像技术领域，提供了一种视频图像中移动物体追踪方法、装置、设备以及存储介质，方法包括：获取视频中每一帧的视频图像，获取视频图像中所有移动物体检测框以及对应的移动物体图像；计算移动物体图像的哈希特征，将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配，得到第一追踪结果；预测当前视频图像中的所有移动物体检测框出现的位置，以得到所有预测的移动物体检测框，将当前视频图像中所有预测的移动物体检测框与当前视频图像中实际移动物体检测框进行匹配，得到第二追踪结果，将第一追踪结果与第二追踪结果设置为移动追踪物体并输出，从而提高移动物体的追踪成功率。

Description

视频图像中移动物体追踪方法、装置、设备以及存储介质

技术领域

本发明属于视频图像处理技术领域，尤其涉及一种视频图像中移动物体追踪方法、装置、设备以及存储介质。

背景技术

众所周知，视频监控的主要目的是监控运动目标，其核心内容主要包括运动检测、目标分类、目标追踪、行为分析和理解。其中移动物体的追踪则更是重中之重，对移动物体追踪的意义在于对移动物体的行动进行理解和描述，从而对移动物体的一些危险行为做出正确的判断。

现有的移动物体追踪方法包括传统的非深度学习移动物体追踪方法、基于深度学习的移动物体追踪方法以及基于移动物体检测的移动物体追踪方法。其中，传统的非深度学习移动物体追踪方法以SIFT(Scale-invariant Feature Transform，尺度不变特征转换)、颜色等作为特征，通过均MeanShift(过均值漂移)、Kalman(卡尔曼滤波)、Filter(过滤器)等算法进行追踪，但该传统的非深度学习移动物体追踪方法存在追踪出错率高且对于高速移动的移动物体容易出现追踪失败的问题；基于深度学习的移动物体追踪方法则是首先对视频帧进行移动物体检测，当检测到移动物体图像时，将检测到的移动物体图像对应的视频帧使用基于深度学习的追踪方法获取移动物体特征，做特征匹配并形成追踪结果，但该基于深度学习的移动物体追踪方法需要运行深度学习神经网络，而使得整个追踪过程比较消耗内存资源和算力资源，且设计复杂；基于检测的移动物体追踪方法则是首先在视频帧执行移动物体检测获取该移动物体的检测框，然后通过基于检测框的追踪算法，例如SORT(Simple Online And Realtime Tracking，简单的在线和实时追踪)、DEEPSORT(Simple Online And Realtime Tracking With A Deep Association Metric，具有深度关联度量的简单在线实时追踪)两种追踪方法，做检测框匹配并形成追踪结果，但该基于检测的移动物体追踪方法也存在对于高速移动移动物体追踪失败率高、比较消耗内存资源和算力资源的问题。

发明内容

本发明的目的是提供一种视频图像中移动物体追踪方法、装置、设备以及存储介质，旨在解决由于现有视频图像中移动物体追踪方法存在算法设计复杂、硬件资源消耗大、追踪失败率高的问题。

一方面，本发明提供了一种视频图像中移动物体追踪方法，所述方法包括下述步骤：

获取视频中每一帧的视频图像，通过移动物体检测算法获取所述视频图像中所有移动物体检测框以及对应的移动物体图像；

通过图像哈希算法计算所述移动物体图像的哈希特征，将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配，得到第一追踪结果；

根据历史记录中保存的所有移动物体通过卡尔曼滤波算法预测当前视频图像中的所有移动物体检测框出现的位置，以得到当前视频图像中的所有预测的移动物体检测框，将当前视频图像中的所有预测的移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配，得到第二追踪结果；

将所述第一追踪结果与所述第二追踪结果设置为移动追踪物体并输出。

优选地，通过移动物体检测算法获取所述视频图像中所有移动物体检测框以及对应的移动物体图像的步骤，包括：

通过目标检测算法获取所述视频图像中所有移动物体检测框以及对应的移动物体图像。

优选地，将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配的步骤，包括：

计算当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征的汉明距离，得到相似度矩阵；

根据所述相似度矩阵通过匈牙利算法将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配。

优选地，将当前视频图像中的所有预测移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配的步骤，包括：

计算当前视频图像中的所有预测移动物体检测框与当前视频图像中的所有实际移动物体检测框的IoU(Intersection Over Union，交并比)值，得到IoU矩阵；

根据IoU矩阵通过匈牙利算法将当前视频图像中所有预测移动物体检测框与当前视频图像中的所有实际移动物体检测框进行匹配。

另一方面，本发明还提供了一种视频图像中移动物体追踪装置，所述装置包括：

第一数据获取单元，用于获取视频中每一帧的视频图像，通过移动物体检测算法获取所述视频图像中所有移动物体检测框以及对应的移动物体图像；

第一结果追踪单元，用于通过图像哈希算法计算所述移动物体图像的哈希特征，将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配，得到第一追踪结果；

第二结果追踪单元，用于根据历史记录中保存的所有移动物体通过卡尔曼滤波算法预测当前视频图像中的所有移动物体检测框出现的位置，以得到当前视频图像中的所有预测的移动物体检测框，将当前视频图像中的所有预测的移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配，得到第二追踪结果；

追踪结果输出单元，用于将所述第一追踪结果与所述第二追踪结果作为移动追踪物体并输出。

优选地，第一数据获取单元包括：

第二数据获取单元，用于通过目标检测算法获取所述视频图像中所有移动物体检测框以及对应的移动物体图像。

优选地，所述第一结果输出单元包括：

相似度矩阵获取单元，用于计算当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征的汉明距离，得到相似度矩阵；

哈希特征匹配单元，用于根据所述相似度矩阵通过匈牙利算法将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配。

优选地，所述第二结果输出单元包括：

IoU矩阵获取单元，用于计算当前视频图像中的预测所有移动物体检测框与当前视频图像中的实际所有移动物体检测框的IoU值，得到IoU矩阵；

检测框匹配单元，用于根据IoU矩阵通过匈牙利算法将当前视频图像中预测所有移动物体检测框与当前视频图像中的实际所有移动物体检测框进行匹配。

另一方面，本发明还提供了一种视频图像中移动物体追踪设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。

本发明通过获取视频中每一帧的视频图像，通过移动物体检测算法获取所述视频图像中所有移动物体检测框以及对应的移动物体图像，通过图像哈希算法计算移动物体图像的哈希特征，将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配，得到第一追踪结果，根据历史记录中保存的所有移动物体通过卡尔曼滤波算法预测当前视频图像中的所有移动物体检测框出现的位置，以得到当前视频图像中的所有预测的移动物体检测框，将当前视频图像中的所有预测的移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配，得到第二追踪结果，将第一追踪结果与第二追踪结果设置为移动追踪物体并输出，从而减少硬件资源的消耗，同时提高移动物体追踪的成功率。

附图说明

图1是本发明实施例一提供的视频图像中移动物体追踪方法的实现流程图；

图2是本发明实施例二提供的视频图像中移动物体追踪装置的结构示意图；以及

图3是本发明实施例三提供的视频图像中移动物体追踪设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的视频图像中移动物体追踪方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，获取视频中每一帧的视频图像，通过移动物体检测算法获取视频图像中所有移动物体检测框以及对应的移动物体图像。

本发明实施例适用于移动物体追踪设备、视频处理设备或具有视频处理能力的视频拍摄设备，以方便用户通过该视频处理设备获取或追踪视频中用户感兴趣的事物。在本发明实施例中，当获取视频中每一帧的视频图像时，优选地，视频拍摄设备接收用户的视频拍摄请求，根据用户的视频拍摄请求获取当前视频拍摄设备拍摄视频中的每一帧的视频图像，以确保实时获取当前视频拍摄设备拍摄的每一帧视频图像，另一优选地，当前视频处理设备通过外部网络(例如WiFi、4G、3G等)获取远端的视频拍摄设备(例如，网络摄像头)的视频流，从视频流中获取每一帧的视频图像，以实现从远程获取用户感兴趣的视频图像。

在通过移动物体检测算法获取视频图像中所有移动物体检测框以及对应的移动物体图像之前，优选地，对获取视频中每一帧的视频图像进行预处理，例如，对每一帧的视频图像进行模糊程度判断，若该视频图像的模糊程度达到预设的阈值，则对该帧视频图像进行删除或替换，以减少视频图像噪音，提高视频图像中移动物体追踪成功的概率，又如，对每一帧的视频图像进行静态背景(如光照阴影)判断，若该帧视频图像中静态背景干扰比较大，则可通过GMM(Gaussian Mixed Model，高斯混合模型)算法对该静态背景进行消除，以减少对视频图像中移动物体的误检。当通过移动物体检测算法获取视频图像中所有移动物体检测框以及对应的移动物体图像时，优选地，通过移动物体检测算法获取当前视频图像和前一帧或前m帧的视频图像中的所有移动物体检测框以及对应的移动物体图像，从而减少获取视频图像中所有移动物体检测框以及对应的移动物体图像时视频帧的处理数量，进而提高移动物体追踪成功的概率。进一步优选地，通过目标检测算法获取视频图像中所有移动物体检测框以及对应的移动物体图像，以提高获取视频图像中所有移动物体检测框以及对应的移动物体图像的效率，例如，通过NMS(Non Maximum Suppression，非极大抑制)或Soft-NMS(Soft Non Maximum Suppression，优化的非极大抑制)算法获取视频图像中所有移动物体检测框以及对应的移动物体图像。

在步骤S102中，通过图像哈希算法计算移动物体图像的哈希特征，将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配，得到第一追踪结果。

在本发明实施例中，当通过图像哈希算法计算移动物体图像的哈希特征时，优选地，通过aHash(平均哈希算法)、pHash(感知哈希算法)以及dHash(差异哈希算法)中的一种或几种相结合计算移动物体图像的哈希特征，从而使得获取到的移动物体图像的哈希特征更加准确。历史记录中的所有移动物体图像可以是所有视频帧对应视频图像中追踪到的所有移动物体图像，也可以是当前视频图像的前一帧或前m帧的视频图像中追踪到的所有移动物体图像，这些移动物体图像即可作为基于哈希特征追踪的移动物体追踪目标。

当将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配时，优选地，计算当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征的汉明距离，得到相似度矩阵，根据相似度矩阵通过匈牙利算法将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配，该匹配结果即为基于移动物体图像哈希特征追踪的追踪结果，在这里记为第一追踪结果，该第一追踪结果包括追踪到的移动物体。

作为示例地，为历史记录中的所有移动物体图像设置一个基于哈希特征的追踪id，将当前视频图像中所有移动物体图像的哈希特征与历史记录中的所有移动物体图像的哈希特征进行匹配，若当前视频图像中某一个移动物体图像(例如移动物体a)与历史记录中的某一个移动物体图像(例如移动物体a1)匹配成功(移动物体a与移动物体a1的汉明距离最短)，则为当前视频图像中移动物体图像a设置一个与历史记录中的移动物体图像a1相同的追踪id，从而根据移动物体图像的追踪id快速确认移动物体图像的追踪状态。

在获取到第一追踪结果之后，根据第一追踪结果更新历史记录中的所有移动物体图像，优选地，将历史记录中的移动物体图像替换成当前视频图像中追踪成功的移动物体图像，以作为下一次移动物体追踪的追踪目标。

在步骤S103中，根据历史记录中保存的所有移动物体通过卡尔曼滤波算法预测当前视频图像中的所有移动物体检测框出现的位置，以得到当前视频图像中的所有预测的移动物体检测框，将当前视频图像中的所有预测的移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配，得到第二追踪结果。

在本发明实施例中，在根据历史记录中保存的所有移动物体通过卡尔曼滤波算法预测当前视频图像中的所有移动物体检测框出现的位置时，优选地，获取历史记录中的所有移动物体的状态信息，例如移动物体在视频图像中的位置、速度以及对应的移动物体检测框，根据历史记录中的所有移动物体的状态信息通过卡尔曼滤波算法预测当前视频图像中的所有移动物体检测框出现的位置，以得到与实际移动物体检测框位置相近的移动物体检测框。

在将当前视频图像中的所有预测的移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配时，优选地，计算当前视频图像中的所有预测移动物体检测框与当前视频图像中的所有实际移动物体检测框的IoU值，得到IoU矩阵，根据IoU矩阵通过匈牙利算法将当前视频图像中所有预测移动物体检测框与当前视频图像中的所有实际移动物体检测框进行匹配，该匹配结果即为基于移动物体检测框追踪的追踪结果，在这里记为第二追踪结果，该第二追踪结果包括追踪到的移动物体。

作为示例地，为历史记录中的所有移动物体设置一个基于检测框的追踪id，将当前视频图像中所有预测移动物体检测框与当前视频图像中的所有实际移动物体检测框进行匹配，若当前视频图像中某一预测移动物体检测框(例如移动物体a1对应的检测框)与当前视频图像中某一实际移动物体检测框(例如移动物体a对应的检测框)匹配成功(移动物体a与移动物体a1的IoU值最大)，则为当前视频图像中移动物体a设置一个与历史记录中的移动物体a1相同的追踪id，从而根据移动物体的追踪id快速确认移动物体的追踪状态。

在获取到第二追踪结果之后，根据第二追踪结果更新历史记录中的所有移动物体，优选地，将历史记录中的移动物体替换成当前视频图像中追踪成功的移动物体，以作为下一次移动物体追踪的追踪目标。

在步骤S104中，将第一追踪结果与第二追踪结果设置为移动追踪物体并输出。

在本发明实施例中，在将第一追踪结果与第二追踪结果设置为移动追踪物体并输出时，具体地，获取第一追踪结果与第二追踪结果的并集，将该并集设置为移动追踪物体并输出。作为示例地，如果当前视频中移动物体1在第一追踪结果中匹配到历史记录中的移动物体1，在第二追踪结果中也匹配到历史记录中的移动物体1，则表明当前视频图像中通过哈希特征与通过检测框都追踪到移动物体1，将第一追踪结果或第二追踪结果中的移动物体1作为移动追踪物体结果进行输出，如果当前视频帧中移动物体1在第一追踪结果中匹配到历史记录中的移动物体1，在第二追踪结果中没有匹配到历史记录中的移动物体1时，则表明当前视频图像中通过哈希特征追踪到移动物体1，而通过检测框没有追踪到移动物体1，将第一追踪结果中的移动物体1作为移动追踪物体结果进行输出，如果当前视频帧中移动物体1在第一追踪结果中没有匹配到历史记录中的移动物体1，在第二追踪结果中匹配到移动物体1时，则表明当前视频图像中通过哈希特征没有追踪到移动物体1，而通过检测框追踪到移动物体1，将第二追踪结果中的移动物体1作为移动追踪物体结果进行输出，从而快速获取追踪结果，提高追踪的成功率。

优选地，若第一追踪结果与第二追踪结果出现冲突，例如当前视频图像中移动物体1在第一追踪结果中匹配到历史记录中的移动物体a，而第二追踪结果中匹配到历史记录中的移动物体b，获取该移动物体1在第一追踪结果与第二追踪结果中的匹配度，若该移动物体1在第一追踪结果中的匹配度高于第二追踪结果中的匹配度，则将第一追踪结果中的移动物体1作为移动追踪物体结果进行输出，若该移动物体1在第二追踪结果中的匹配度高于第一追踪结果中的匹配度，则将第二追踪结果中的移动物体1作为移动追踪物体结果进行输出，从而获取匹配度高的移动物体进行输出，从而提高移动物体的追踪成功概率。在这里可分别预先设置一个基于哈希特征跟踪的阈值和一个基于检测框跟踪的阈值，对应记为第一阈值和第二阈值，以用于判断当前移动物体分别在第一追踪结果和第二追踪结果中的匹配程度。进一步优选地，获取该移动物体1的汉明距离值和IoU值，计算该移动物体1的汉明距离值与第一阈值的差值，以及计算该移动物体1的IoU值与第二阈值的差值，若该移动物体1的汉明距离值与第一阈值的差值小于该移动物体1的IoU值与第二阈值的差值，则将第一追踪结果中的移动物体1作为移动追踪物体结果进行输出，若该移动物体1的汉明距离值与第一阈值的差值大于该移动物体1的IoU值与第二阈值的差值，则将第二追踪结果中的移动物体1作为移动追踪物体结果进行输出，从而快速获取匹配度高的追踪结果并进行输出。

在本发明实施例中，通过图像哈希算法计算移动物体图像的哈希特征，将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配，得到第一追踪结果，根据历史记录中保存的所有移动物体通过卡尔曼滤波算法预测当前视频图像中的所有移动物体检测框出现的位置，以得到当前视频图像中的所有预测的移动物体检测框，将当前视频图像中的所有预测的移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配，得到第二追踪结果，将第一追踪结果与第二追踪结果设置为移动追踪物体并输出，从而减少硬件资源的大量消耗，同时提高移动物体的追踪成功率。

实施例二：

图2示出了本发明实施例二提供的视频图像中移动物体追踪装置的结构示意，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

第一数据获取单元21，用于获取视频中每一帧的视频图像，通过移动物体检测算法获取视频图像中所有移动物体检测框以及对应的移动物体图像。

在通过移动物体检测算法获取视频图像中所有移动物体检测框以及对应的移动物体图像之前，优选地，对获取视频中每一帧的视频图像进行预处理，例如，对每一帧的视频图像进行模糊程度判断，若该视频图像的模糊程度达到预设的阈值，则对该帧视频图像进行删除或替换，以减少视频图像噪音，提高视频图像中移动物体追踪成功的概率，又如，对每一帧的视频图像进行静态背景(如光照阴影)判断，若该帧视频图像中静态背景干扰比较大，则可通过GMM(Gaussian Mixed Model，高斯混合模型)算法对该静态背景进行消除，以减少对视频图像中移动物体的误检。当通过移动物体检测算法获取视频图像中所有移动物体检测框以及对应的移动物体图像时，优选地，通过移动物体检测算法获取当前视频图像和前一帧或前m帧的视频图像中的所有移动物体检测框以及对应的移动物体图像，从而减少获取视频图像中所有移动物体检测框以及对应的移动物体图像时视频帧的处理数量，进而提高移动物体追踪成功的概率。进一步优选地，通过目标检测算法获取视频图像中所有移动物体检测框以及对应的移动物体图像，以提高获取视频图像中所有移动物体检测框以及对应的移动物体图像的效率。

第一结果追踪单元22，用于通过图像哈希算法计算移动物体图像的哈希特征，将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配，得到第一追踪结果。

第二结果追踪单元23，用于根据历史记录中保存的所有移动物体通过卡尔曼滤波算法预测当前视频图像中的所有移动物体检测框出现的位置，以得到当前视频图像中的所有预测的移动物体检测框，将当前视频图像中的所有预测的移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配，得到第二追踪结果。

在将当前视频图像中的所有预测的移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配时，优选地，计算当前视频图像中的所有预测移动物体检测框与当前视频图像中的所有实际移动物体检测框的IoU值，得到IoU矩阵，根据IoU矩阵通过匈牙利算法将当前视频图像中所有预测移动物体检测框与当前视频图像中的所有实际移动物体检测框进行匹配，该匹配结果即为基于移动物体检测框追踪的追踪结果，在这里记为第二追踪结果，该第二追踪结果包括了追踪到的移动物体。

追踪结果输出单元24，用于将第一追踪结果与第二追踪结果作为移动追踪物体并输出。

在本发明实施例中，视频图像中移动物体追踪装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例三：

图3示出了本发明实施例三提供的视频图像中移动物体追踪设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

图3示出了本发明实施例三提供的移动物体追踪设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

本发明实施例的移动物体追踪设备3包括处理器30、存储器31以及存储在存储器31中并可在处理器30上运行的计算机程序32。该处理30执行计算机程序32时实现上述移动物体追踪方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，处理器30执行计算机程32时实现上述各装置实施例中各单元的功能，例如图2所示单元21至24的功能。

实施例四：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤，例如，图1所示的步骤S101至S104。或者，该计算机程序被处理器执行时实现上述装置实施例中各单元的功能，例如图2所示单元21至24的功能。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频图像中移动物体追踪方法，其特征在于，所述方法包括下述步骤：

2.根据权利要求1所述移动物体追踪方法，其特征在于，通过移动物体检测算法获取所述视频图像中所有移动物体检测框以及对应的移动物体图像的步骤，包括：

3.根据权利要求1所述移动物体追踪方法，其特征在于，将当前视频图像中所有移动物体图像的哈希特征与历史记录中保存的所有移动物体图像的哈希特征进行匹配的步骤，包括：

4.根据权利要求1所述移动物体追踪方法，其特征在于，将当前视频图像中的所有预测移动物体检测框与当前视频图像中的实际移动物体检测框进行匹配的步骤，包括：

计算当前视频图像中的所有预测移动物体检测框与当前视频图像中的所有实际移动物体检测框的IoU值，得到IoU矩阵；

5.一种视频图像中移动物体追踪装置，其特征在于，所述装置包括：

6.如权利要求5所述移动物体追踪装置，其特征在于，第一数据获取单元包括：

7.如权利要求5所述移动物体追踪装置，其特征在于，所述第一结果输出单元包括：

8.如权利要求5所述移动物体追踪装置，其特征在于，所述第二结果输出单元包括：

9.一种视频图像中移动物体追踪设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。