CN117456407B

CN117456407B - 一种多目标图像跟踪方法及装置

Info

Publication number: CN117456407B
Application number: CN202311315471.7A
Authority: CN
Inventors: 张求星; 杨芳华; 李沛; 李峰; 鲁延京; 赵子涵; 靳聪; 谢英江
Original assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Current assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2024-04-19
Anticipated expiration: 2043-10-11
Also published as: CN117456407A

Abstract

本发明公开了一种多目标图像跟踪方法及装置，该方法包括：获取待识别图像信息；利用目标识别模型对待识别图像信息进行多目标识别处理，得到识别框信息；对识别框信息进行匹配处理，得到目标轨迹框信息。可见，本发明有利于提高多目标行人检测与跟踪的准确率和效率，进而为无人车辆提供准确、高效的行人位置和身份信息以保障车辆行驶安全。

Description

一种多目标图像跟踪方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种多目标图像跟踪方法及装置。

背景技术

多目标跟踪技术是计算机视觉和机器学习领域中的一个重要研究方向，其主要目的是在图像或视频中准确地检测和跟踪行人的位置和运动轨迹。在自动驾驶领域，行人跟踪技术可以用于检测道路上的行人并跟踪他们的位置和运动，这对于自动驾驶车辆的安全性和效率性都至关重要。例如，当行人突然从车辆的侧面或后方出现时，行人跟踪技术可以及时发现并警示车辆，从而避免潜在的交通事故。因此，行人跟踪技术的发展对于实现更加安全和高效的自动驾驶具有重要的意义。但目前现有的跟踪策略容易产生目标漏检和轨迹丢失的问题。因此，提供一种多目标图像跟踪方法及装置，以提高多目标行人检测与跟踪的准确率和效率，进而为无人车辆提供准确、高效的行人位置和身份信息以保障车辆行驶安全。

发明内容

本发明所要解决的技术问题在于，提供一种多目标图像跟踪方法及装置有利于提高多目标行人检测与跟踪的准确率和效率，进而为无人车辆提供准确、高效的行人位置和身份信息以保障车辆行驶安全。

为了解决上述技术问题，本发明实施例第一方面公开了一种多目标图像跟踪方法，所述方法包括：

获取待识别图像信息；

利用目标识别模型对所述待识别图像信息进行多目标识别处理，得到识别框信息；

对所述识别框信息进行匹配处理，得到目标轨迹框信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述目标识别模型包括8个互不相连的组件模块、至少4个互不相连的跨阶段局部网络、至少4个互不相连的卷积模块、至少4个互不相连的残差注意力模块。

作为一种可选的实施方式，在本发明实施例第一方面中，所述组件模块包括第一组件模块、第二组件模块、第三组件模块、第四组件模块、第五组件模块、第六组件模块、第七组件模块、第八组件模块；

所述跨阶段局部网络包括第一跨阶段局部网络、第二跨阶段局部网络、第三跨阶段局部网络、第四跨阶段局部网络；

所述卷积模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块；

所述残差注意力模块包括第一残差注意力模块、第二残差注意力模块、第三残差注意力模块、第四残差注意力模块；

所述目标识别模型还包括焦点模块、第一上采样单元、第二上采样单元、池化模块；其中，

所述焦点模块的输入端为所述目标识别模型的模型输入，所述焦点模块的输出端连接所述第一组件模块的输入端；所述第一组件模块的输出端连接所述第一残差注意力模块的输入端；所述第一残差注意力模块的输出端连接所述第二残差注意力模块的输入端；所述第二残差注意力模块的输出端分别连接所述第一卷积模块的输入端和所述第三组件模块的输入端；所述第一卷积模块的输入端分别还连接所述第二上采样单元的输出端，所述第一卷积模块的输出端连接所述第一跨阶段局部网络的输入端；所述第一跨阶段局部网络的输出端分别连接所述目标识别模型的第一模型输出和所述第七组件模块的输入端；所述第三组件模块的输出端连接所述第三残差注意力模块的输入端；所述第三残差注意力模块的输出端分别连接所述第二卷积模块的输入端和所述第四组件模块的输入端；所述第二卷积模块的输入端还连接所述第一上采样单元的输出端，所述第二卷积模块的输出端连接所述第二跨阶段局部网络的输入端；所述第二跨阶段局部网络的输出端连接所述第六组件模块的输入端；所述第六组件模块的输出端分别连接所述第四卷积模块的输入端和所述第二上采样单元的输入端；所述第四卷积模块的输入端还连接所述第七组件模块的输出端，所述第四卷积模块的输出端连接所述第三跨阶段局部网络的输出端输入端；所述第三跨阶段局部网络的输出端分别连接所述目标识别模型的第二模型输出和所述第八组件模块的输入端；所述第四组件模块的输出端连接所述池化模块的输入端；所述池化模块的输出端连接所述第四残差注意力模块的输入端；所述第四残差注意力模块的输出端连接所述第五组件模块的输入端；所述第五组件模块的输出端分别连接所述第一上采样单元的输入端和所述第三卷积模块的输入端；所述第三卷积模块的输入端还连接所述第八组件模块的输出端，第三卷积模块的输出端连接所述第四跨阶段局部网络的输入端；所述第四跨阶段局部网络的输出端连接所述目标识别模型的第三模型输出。

作为一种可选的实施方式，在本发明实施例第一方面中，所述残差注意力模块包括第五跨阶段局部网络、残差网络、坐标注意力模块、第六跨阶段局部网络、第五卷积模块、第七跨阶段局部网络；其中，

所述第五跨阶段局部网络连接所述残差注意力模块的模块输入，所述第五跨阶段局部网络连接所述残差网络的输入端；所述残差网络的输出端连接所述坐标注意力模块的输入端；所述坐标注意力模块的输出端分别连接所述第六跨阶段局部网络的输入端和所述第五卷积模块的输入端；所述第六跨阶段局部网络的输入端还连接所述残差注意力模块的模块输入，所述第六跨阶段局部网络的输出端连接所述第五卷积模块的输入端，所述第五卷积模块的输出端连接所述第七跨阶段局部网络的输入端；所述第七跨阶段局部网络的输出端连接所述残差注意力模块的模块输出。

作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述识别框信息进行匹配处理，得到目标轨迹框信息，包括：

对所述识别框信息进行分类，得到第一分框信息和第二分框信息；所述第一分框信息包括若干个第一分框；所述第二分框信息包括若干个第二分框；

依次对所述第一分框信息和所述第二分框信息进行匹配处理，得到目标轨迹框信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述依次对所述第一分框信息和所述第二分框信息进行匹配处理，得到目标轨迹框信息，包括：

获取历史轨迹框信息；

利用距离计算模型对所述历史轨迹框信息和所述第一分框信息进行处理，得到第一轨迹框信息和第一待分框信息；所述第一待分框信息包括至少一个第一待分框；

其中，所述距离计算模型为：

L＝I-IoU(B₁,B₂)；

式中，L为框相似度矩阵；B₁为所述历史轨迹框信息中的历史轨迹框对应的矩阵；B₂为所述第一分框信息中的第一分框对应的矩阵；I为单位矩阵；

对所述第一待分框信息和所述第二分框信息进行匹配，得到第二轨迹框信息；所述第二轨迹框信息包括若干个第二轨迹框；

确定所述第一轨迹框信息和所述第二轨迹框信息为目标轨迹框信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述第一待分框信息和所述第二分框信息进行匹配，得到第二轨迹框信息，包括：

对于任一所述第二分框，判断所述第一待分框信息中是否存在与该第二分框相匹配的第一待分框，得到第一匹配判断结果；

当所述第一匹配判断结果为否时，确定该第二分框为一个待匹配分框；

当所述第一匹配判断结果为是时，确定该第二分框和该第二分框对应的第一待分框为第二轨迹框；

获取检测框信息；所述检测框信息包括若干个检测框；

对于任一所述待匹配分框，判断所述检测框信息中是否存在与该待匹配分框相匹配的检测框，得到第二匹配判断结果；

当所述第二匹配判断结果为否时，丢弃该待匹配分框；

当所述第二匹配判断结果为是时，确定该待匹配分框为一个第二轨迹框。

本发明实施例第二方面公开了一种多目标图像跟踪装置，装置包括：

获取模块，用于获取待识别图像信息；

第一处理模块，用于利用目标识别模型对所述待识别图像信息进行多目标识别处理，得到识别框信息；

第二处理模块，用于对所述识别框信息进行匹配处理，得到目标轨迹框信息。

本发明第三方面公开了另一种多目标图像跟踪装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的多目标图像跟踪方法中的部分或全部步骤。

本发明第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明实施例第一方面公开的多目标图像跟踪方法中的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取待识别图像信息；利用目标识别模型对待识别图像信息进行多目标识别处理，得到识别框信息；对识别框信息进行匹配处理，得到目标轨迹框信息。可见，本发明有利于提高多目标行人检测与跟踪的准确率和效率，进而为无人车辆提供准确、高效的行人位置和身份信息以保障车辆行驶安全。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种多目标图像跟踪方法的流程示意图；

图2是本发明实施例公开的一种多目标图像跟踪装置的结构示意图；

图3是本发明实施例公开的另一种多目标图像跟踪装置的结构示意图；

图4是本发明实施例公开的一种目标识别模型的结构示意图；

图5是本发明实施例公开的一种残差注意力模块的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种多目标图像跟踪方法及装置有利于提高多目标行人检测与跟踪的准确率和效率，进而为无人车辆提供准确、高效的行人位置和身份信息以保障车辆行驶安全。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种多目标图像跟踪方法的流程示意图。其中，图1所描述的多目标图像跟踪方法应用于多目标图像跟踪系统中，如用于多目标图像跟踪管理的本地服务器或云端服务器等，本发明实施例不做限定。如图1所示，该多目标图像跟踪方法可以包括以下操作：

101、获取待识别图像信息。

102、利用目标识别模型对待识别图像信息进行多目标识别处理，得到识别框信息。

103、对识别框信息进行匹配处理，得到目标轨迹框信息。

需要说明的是，目标轨迹信息用于对目标位置变化的跟踪。进一步的，上述目标为待识别图像中的对象，其可以为人，也可以为其他实体，本发明实施例不做限定。进一步的，上述目标轨迹框是目标在不同位置的表示。

需要说明的是，本申请的多目标图像跟踪方法与使用行人外观特征的DeepSORT和MOTDT算法相比，IDF1分别提升了3.1和4.1个百分点。由于检测器性能的提升，仅使用运动特征进行目标的轨迹匹配可以满足跟踪的准确度和实时性要求。在复杂的目标跟踪任务中表现出更高的准确率,具备良好的跟踪精度和实时效果，可以更好地应用于端侧多目标行人跟踪任务。

可见，实施本发明实施例所描述的多目标图像跟踪方法有利于提高多目标行人检测与跟踪的准确率和效率，进而为无人车辆提供准确、高效的行人位置和身份信息以保障车辆行驶安全。

在一个可选的实施例中，如图4所示，上述目标识别模型包括8个互不相连的组件模块、至少4个互不相连的跨阶段局部网络、至少4个互不相连的卷积模块、至少4个互不相连的残差注意力模块。

需要说明的是，上述跨阶段局部网络为CSPNet网络。

需要说明的是，上述卷积模块为卷积层。

如图5所示，需要说明的是，上述残差注意力模块包括CSPNet网络的跨阶段局部网络(第五跨阶段局部网络、第六跨阶段局部网络、第七跨阶段局部网络)和卷积模块(第五卷积模块)。

需要说明的是，上述目标识别模型是基于以下损失函数FL(p,y)训练的：

其中，y为真实标签，p为预测概率，α和β是调制因子，属于超参数。

需要说明的是，α控制正样本损失相对负样本损失的重要程度，协调正负样本之间的平衡，α越大，正样本损失越重要；β降低简单样本的权重，使损失函数更关注困难样本，β越大，困难样本损失越重要。α取值为0.75,β取值为2。

在另一个可选的实施例中，组件模块包括第一组件模块、第二组件模块、第三组件模块、第四组件模块、第五组件模块、第六组件模块、第七组件模块、第八组件模块；

跨阶段局部网络包括第一跨阶段局部网络、第二跨阶段局部网络、第三跨阶段局部网络、第四跨阶段局部网络；

卷积模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块；

残差注意力模块包括第一残差注意力模块、第二残差注意力模块、第三残差注意力模块、第四残差注意力模块；

目标识别模型还包括焦点模块、第一上采样单元、第二上采样单元、池化模块；其中，

焦点模块的输入端为目标识别模型的模型输入，焦点模块的输出端连接第一组件模块的输入端；第一组件模块的输出端连接第一残差注意力模块的输入端；第一残差注意力模块的输出端连接第二残差注意力模块的输入端；第二残差注意力模块的输出端分别连接第一卷积模块的输入端和第三组件模块的输入端；第一卷积模块的输入端分别还连接第二上采样单元的输出端，第一卷积模块的输出端连接第一跨阶段局部网络的输入端；第一跨阶段局部网络的输出端分别连接目标识别模型的第一模型输出和第七组件模块的输入端；第三组件模块的输出端连接第三残差注意力模块的输入端；第三残差注意力模块的输出端分别连接第二卷积模块的输入端和第四组件模块的输入端；第二卷积模块的输入端还连接第一上采样单元的输出端，第二卷积模块的输出端连接第二跨阶段局部网络的输入端；第二跨阶段局部网络的输出端连接第六组件模块的输入端；第六组件模块的输出端分别连接第四卷积模块的输入端和第二上采样单元的输入端；第四卷积模块的输入端还连接第七组件模块的输出端，第四卷积模块的输出端连接第三跨阶段局部网络的输出端输入端；第三跨阶段局部网络的输出端分别连接目标识别模型的第二模型输出和第八组件模块的输入端；第四组件模块的输出端连接池化模块的输入端；池化模块的输出端连接第四残差注意力模块的输入端；第四残差注意力模块的输出端连接第五组件模块的输入端；第五组件模块的输出端分别连接第一上采样单元的输入端和第三卷积模块的输入端；第三卷积模块的输入端还连接第八组件模块的输出端，第三卷积模块的输出端连接第四跨阶段局部网络的输入端；第四跨阶段局部网络的输出端连接目标识别模型的第三模型输出。

需要说明的是，上述焦点模块为FOCUS模块，其输入规格为3*640*640，堆叠数为1。

需要说明的是，上述组件模块为Component-Based Servicing组件，其输入规格包括12*320*320、64*320*320、128*160*160、256*80*80和512*40*40，堆叠数均为1。

需要说明的是，上述池化模块为池化层。

需要说明的是，上述第一上采样单元和第二上采样单元均为上采样单元。

在又一个可选的实施例中，如图5所示，残差注意力模块包括第五跨阶段局部网络、残差网络、坐标注意力模块、第六跨阶段局部网络、第五卷积模块、第七跨阶段局部网络；其中，

第五跨阶段局部网络连接残差注意力模块的模块输入，第五跨阶段局部网络连接残差网络的输入端；残差网络的输出端连接坐标注意力模块的输入端；坐标注意力模块的输出端分别连接第六跨阶段局部网络的输入端和第五卷积模块的输入端；第六跨阶段局部网络的输入端还连接残差注意力模块的模块输入，第六跨阶段局部网络的输出端连接第五卷积模块的输入端，第五卷积模块的输出端连接第七跨阶段局部网络的输入端；第七跨阶段局部网络的输出端连接残差注意力模块的模块输出。

需要说明的是，上述残差注意力模块的输入规格依次为128*160*160、256*80*80、512*40*40和1024*20*20，其堆叠数依次为3、9、9和3。

需要说明的是，上述残差网络可以为现有神经网络或深度学习中任一残差模块。

需要说明的是，上述坐标注意力模块是一种轻量级的注意力机制，可以在通道和空间维度对图像特征进行处理。

在又一个可选的实施例中，对识别框信息进行匹配处理，得到目标轨迹框信息，包括：

对识别框信息进行分类，得到第一分框信息和第二分框信息；第一分框信息包括若干个第一分框；第二分框信息包括若干个第二分框；

依次对第一分框信息和第二分框信息进行匹配处理，得到目标轨迹框信息。

需要说明的是，上述识别框信息包括若干个识别框。进一步的，每个识别框表征对图像中的对象的识别位置信息。

在该可选的实施例中，作为一种可选的实施方式，上述对识别框信息进行分类，得到第一分框信息和第二分框信息，包括：

对于任一识别框，计算该识别框的置信度，得到该识别框对应的框置信度值；

判断框置信度值是否大于等于第一置信度阈值，得到第一置信度判断结果；

当第一置信度判断结果为是时，确定该识别框为第一分框；

当第一置信度判断结果为否时，确定该识别框为第二分框。

优选的，上述第一置信度阈值为0.5。

需要说明的是，上述置信度的计算可以是基于深度学习模型，也可是基于支持向量机实现的，本发明实施例不做限定。

在一个可选的实施例中，上述依次对第一分框信息和第二分框信息进行匹配处理，得到目标轨迹框信息，包括：

获取历史轨迹框信息；

利用距离计算模型对历史轨迹框信息和第一分框信息进行处理，得到第一轨迹框信息和第一待分框信息；第一待分框信息包括至少一个第一待分框；

其中，距离计算模型为：

L＝I-IoU(B₁,B₂)；

式中，L为框相似度矩阵；B₁为历史轨迹框信息中的历史轨迹框对应的矩阵；B₂为第一分框信息中的第一分框对应的矩阵；I为单位矩阵；

对第一待分框信息和第二分框信息进行匹配，得到第二轨迹框信息；第二轨迹框信息包括若干个第二轨迹框；

确定第一轨迹框信息和第二轨迹框信息为目标轨迹框信息。

需要说明的是，上述历史轨迹框信息包括若干个历史轨迹框。进一步的，上述历史轨迹框是待识别图像信息上一帧识别的目标轨迹框。

需要说明的是，上述第一轨迹框信息和第二轨迹框信息确定为目标轨迹框前要用卡尔曼滤波算法进行处理。

需要说明的是，上述第一轨迹框信息包括若干个第一轨迹框。

在该可选的实施例中，作为一种可选的实施方式，上述利用距离计算模型对历史轨迹框信息和第一分框信息进行处理，得到第一轨迹框信息和第一待分框信息，包括：

对于任一第一分框，利用距离计算模型对该第一分框与历史轨迹框信息进行计算处理，得到该第一分框对应的框相似度矩阵信息；框相似度矩阵信息包括若干个框相似度矩阵；每个框相似度矩阵对应于一个历史轨迹框；

基于匈牙利算法，对框相似度矩阵信息、该第一分框与历史轨迹框信息进行匹配处理，得到相似度匹配结果；

当相似度匹配结果为是时，确定该第一分框和该第一分框相匹配的历史轨迹框为第一轨迹框；

将该第一分框相匹配的历史轨迹框从历史轨迹框信息中删除；

当相似度匹配结果为否时，判断该第一分框对应的框置信度值是否大于第二置信度阈值，得到第二置信度判断结果；

当第一置信度判断结果为是时，确定该第一分框为第一轨迹框；

当第一置信度判断结果为否时，丢弃该第一分框；

确定历史轨迹框信息中剩余的历史轨迹框为第一待分框。

需要说明的是，上述相似度匹配结果为是表征历史轨迹框信息中存在与第一分框相匹配的历史轨迹框，否则为不存在。

优选的，上述第二置信度阈值为0.6。

在另一个可选的实施例中，对第一待分框信息和第二分框信息进行匹配，得到第二轨迹框信息，包括：

对于任一第二分框，判断第一待分框信息中是否存在与该第二分框相匹配的第一待分框，得到第一匹配判断结果；

当第一匹配判断结果为否时，确定该第二分框为一个待匹配分框；

当第一匹配判断结果为是时，确定该第二分框和该第二分框对应的第一待分框为第二轨迹框；

获取检测框信息；检测框信息包括若干个检测框；

对于任一待匹配分框，判断检测框信息中是否存在与该待匹配分框相匹配的检测框，得到第二匹配判断结果；

当第二匹配判断结果为否时，丢弃该待匹配分框；

当第二匹配判断结果为是时，确定该待匹配分框为一个第二轨迹框。

需要说明的是，上述检测框信息中的检测框是在待识别图像信息之后30帧图像识别到的图像框。进一步的，上述图像框是由目标识别模型识别的识别框。

需要说明的是，上述对第二分框和待匹配分框的匹配是基于匈牙利算法实现的，本发明实施例不做限定。

实施例二

请参阅图2，图2是本发明实施例公开的一种多目标图像跟踪装置的结构示意图。其中，图2所描述的装置能够应用于多目标图像跟踪系统中，如用于多目标图像跟踪管理的本地服务器或云端服务器等，本发明实施例不做限定。如图2所示，该装置可以包括：

获取模块201，用于获取待识别图像信息；

第一处理模块202，用于利用目标识别模型对待识别图像信息进行多目标识别处理，得到识别框信息；

第二处理模块203，用于对识别框信息进行匹配处理，得到目标轨迹框信息。

可见，实施图2所描述的多目标图像跟踪装置有利于提高多目标行人检测与跟踪的准确率和效率，进而为无人车辆提供准确、高效的行人位置和身份信息以保障车辆行驶安全。

在另一个可选的实施例中，如图2所示，目标识别模型包括8个互不相连的组件模块、至少4个互不相连的跨阶段局部网络、至少4个互不相连的卷积模块、至少4个互不相连的残差注意力模块。

在又一个可选的实施例中，如图2所示，组件模块包括第一组件模块、第二组件模块、第三组件模块、第四组件模块、第五组件模块、第六组件模块、第七组件模块、第八组件模块；

在又一个可选的实施例中，如图2所示，残差注意力模块包括第五跨阶段局部网络、残差网络、坐标注意力模块、第六跨阶段局部网络、第五卷积模块、第七跨阶段局部网络；其中，

在又一个可选的实施例中，如图2所示，第二处理模块203对识别框信息进行匹配处理，得到目标轨迹框信息，包括：

在又一个可选的实施例中，如图2所示，第二处理模块203依次对第一分框信息和第二分框信息进行匹配处理，得到目标轨迹框信息，包括：

获取历史轨迹框信息；

其中，距离计算模型为：

L＝I-IoU(B₁,B₂)；

确定第一轨迹框信息和第二轨迹框信息为目标轨迹框信息。

在又一个可选的实施例中，如图2所示，第二处理模块203对第一待分框信息和第二分框信息进行匹配，得到第二轨迹框信息，包括：

获取检测框信息；检测框信息包括若干个检测框；

当第二匹配判断结果为否时，丢弃该待匹配分框；

实施例三

请参阅图3，图3是本发明实施例公开的又一种多目标图像跟踪装置的结构示意图。其中，图3所描述的装置能够应用于多目标图像跟踪系统中，如用于多目标图像跟踪管理的本地服务器或云端服务器等，本发明实施例不做限定。如图3所示，该装置可以包括：

存储有可执行程序代码的存储器301；

与存储器301耦合的处理器302；

处理器302调用存储器301中存储的可执行程序代码，用于执行实施例一所描述的多目标图像跟踪方法中的步骤。

实施例四

本发明实施例公开了一种计算机可读读存储介质，其存储用于电子数据交换的计算机程序，其中，该计算机程序使得计算机执行实施例一所描述的多目标图像跟踪方法中的步骤。

实施例五

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一所描述的多目标图像跟踪方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种多目标图像跟踪方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种多目标图像跟踪方法，其特征在于，所述方法包括：

获取待识别图像信息；

利用目标识别模型对所述待识别图像信息进行多目标识别处理，得到识别框信息；所述目标识别模型包括8个互不相连的组件模块、至少4个互不相连的跨阶段局部网络、至少4个互不相连的卷积模块、至少4个互不相连的残差注意力模块；所述组件模块包括第一组件模块、第二组件模块、第三组件模块、第四组件模块、第五组件模块、第六组件模块、第七组件模块、第八组件模块；

所述焦点模块的输入端为所述目标识别模型的模型输入，所述焦点模块的输出端连接所述第一组件模块的输入端；所述第一组件模块的输出端连接所述第一残差注意力模块的输入端；所述第一残差注意力模块的输出端连接所述第二组件模块的输入端；所述第二组件模块的输出端连接所述第二残差注意力模块的输入端；所述第二残差注意力模块的输出端分别连接所述第一卷积模块的输入端和所述第三组件模块的输入端；所述第一卷积模块的输入端分别还连接所述第二上采样单元的输出端，所述第一卷积模块的输出端连接所述第一跨阶段局部网络的输入端；所述第一跨阶段局部网络的输出端分别连接所述目标识别模型的第一模型输出和所述第七组件模块的输入端；所述第三组件模块的输出端连接所述第三残差注意力模块的输入端；所述第三残差注意力模块的输出端分别连接所述第二卷积模块的输入端和所述第四组件模块的输入端；所述第二卷积模块的输入端还连接所述第一上采样单元的输出端，所述第二卷积模块的输出端连接所述第二跨阶段局部网络的输入端；所述第二跨阶段局部网络的输出端连接所述第六组件模块的输入端；所述第六组件模块的输出端分别连接所述第四卷积模块的输入端和所述第二上采样单元的输入端；所述第四卷积模块的输入端还连接所述第七组件模块的输出端，所述第四卷积模块的输出端连接所述第三跨阶段局部网络的输出端输入端；所述第三跨阶段局部网络的输出端分别连接所述目标识别模型的第二模型输出和所述第八组件模块的输入端；所述第四组件模块的输出端连接所述池化模块的输入端；所述池化模块的输出端连接所述第四残差注意力模块的输入端；所述第四残差注意力模块的输出端连接所述第五组件模块的输入端；所述第五组件模块的输出端分别连接所述第一上采样单元的输入端和所述第三卷积模块的输入端；所述第三卷积模块的输入端还连接所述第八组件模块的输出端，第三卷积模块的输出端连接所述第四跨阶段局部网络的输入端；所述第四跨阶段局部网络的输出端连接所述目标识别模型的第三模型输出；

对所述识别框信息进行匹配处理，得到目标轨迹框信息；所述目标轨迹信息用于对目标位置变化的跟踪。

2.根据权利要求1所述的多目标图像跟踪方法，其特征在于，所述残差注意力模块包括第五跨阶段局部网络、残差网络、坐标注意力模块、第六跨阶段局部网络、第五卷积模块、第七跨阶段局部网络；其中，

3.根据权利要求1所述的多目标图像跟踪方法，其特征在于，所述对所述识别框信息进行匹配处理，得到目标轨迹框信息，包括：

4.根据权利要求3所述的多目标图像跟踪方法，其特征在于，所述依次对所述第一分框信息和所述第二分框信息进行匹配处理，得到目标轨迹框信息，包括：

获取历史轨迹框信息；

其中，所述距离计算模型为：

L＝I-IoU(B₁,B₂)；

5.根据权利要求4所述的多目标图像跟踪方法，其特征在于，所述对所述第一待分框信息和所述第二分框信息进行匹配，得到第二轨迹框信息，包括：

获取检测框信息；所述检测框信息包括若干个检测框；

当所述第二匹配判断结果为否时，丢弃该待匹配分框；

当所述第二匹配判断结果为是时，确定该待匹配分框为一个所述第二轨迹框。

6.一种多目标图像跟踪装置，其特征在于，所述装置包括：

获取模块，用于获取待识别图像信息；

第一处理模块，用于利用目标识别模型对所述待识别图像信息进行多目标识别处理，得到识别框信息；所述目标识别模型包括8个互不相连的组件模块、至少4个互不相连的跨阶段局部网络、至少4个互不相连的卷积模块、至少4个互不相连的残差注意力模块；所述组件模块包括第一组件模块、第二组件模块、第三组件模块、第四组件模块、第五组件模块、第六组件模块、第七组件模块、第八组件模块；

7.一种多目标图像跟踪装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-5任一项所述的多目标图像跟踪方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-5任一项所述的多目标图像跟踪方法。