CN113470078A

CN113470078A - 一种目标跟踪方法、装置及系统

Info

Publication number: CN113470078A
Application number: CN202110801174.8A
Authority: CN
Inventors: 张学涵
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-01
Anticipated expiration: 2041-07-15
Also published as: CN113470078B

Abstract

本发明提供一种目标跟踪方法、装置及系统，用于解决现有的多模态跟踪方法存在的针对海量图像，传统的多模态特征的表达能力并不能和现有的深度特征相媲美，以及由于无法每次都获取到成对的配准的多模态图像，导致目标跟踪的成本较高，效率较低的问题，所述方法包括：根据生成对抗网络模型，生成第一图像序列对应的第二图像序列；根据预训练目标跟踪模型，确定两个第一预测目标框；若两个第一预测目标框的置信分数大于第一预设阈值，则对两个第一预测目标框进行调整，确定两个第二预测目标框；将两个第二预测目标框中置信分数最大的第二预测目标框作为第一图像序列中的待处理图像上的预测目标框。

Description

一种目标跟踪方法、装置及系统

技术领域

本发明涉及目标跟踪技术领域，尤其涉及一种目标跟踪方法、装置及系统。

背景技术

目标跟踪技术就是在视频序列中预测被跟踪目标的位置，并获得该目标完整的移动踪迹，在给定该目标在第一帧中的位置之后，目标跟踪技术需要预测出该目标在后续帧中的位置。目标跟踪是计算机视觉一个非常重要的研究领域，在工业界有着广泛的应用，如安防监控、自动驾驶、行为分析等。

目前，很多目标跟踪方法都是基于单种模态，如可见光，红外等，由于基于可见光图像的目标跟踪方法会因为环境光照变化、目标形变、遮挡等失效，基于红外图像的目标跟踪方法会因为相似目标的干扰失效，所以，也存在同时利用两种模态的方法。然而现有的多模态跟踪方法虽然都利用了可见光和红外两种模态辅助跟踪，但是要么是分别计算两种模态下前向后向跟踪的误差，选择可信度较高的模态作为跟踪结果，仅是利用多模态增加参考维度，并未利用多模态特征，要么是在可见光图像中提取方向梯度直方图特征和颜色特征，在红外图像中提取方向梯度直方图特征和灰度特征，再将这四组特征向量进行级联以形成融合后新的特征向量，虽然利用了多模态特征，但是提取的特征是传统特征，针对海量图像，传统的多模态特征的表达能力并不能和现有的深度特征相媲美。并且现有的多模态跟踪方法也并未说明如何获取多模态图像，如果是通过双相机获取，不仅成本高，还存在多模态图像配准的问题，同时，在实际应用中，由于获取红外图像和可见光图像所需要的感知器不一样，不可能每次都能获取到成对的红外图像和可见光图像，如果进行目标跟踪时每次都需要提前准备成对的红外图像和可见光图像，不仅成本高，效率也低。

由此可见，现有的多模态跟踪方法存在针对海量图像，传统的多模态特征的表达能力并不能和现有的深度特征相媲美，以及由于无法每次都获取到成对的配准的多模态图像，导致目标跟踪的成本较高，效率较低的问题。

发明内容

本申请实施例提供一种目标跟踪方法、装置及系统，用于解决现有的多模态跟踪方法存在的针对海量图像，传统的多模态特征的表达能力并不能和现有的深度特征相媲美，以及由于无法每次都获取到成对的配准的多模态图像，导致目标跟踪的成本较高，效率较低的技术问题。

第一方面，为解决上述技术问题，本申请实施例提供一种目标跟踪方法，包括：

获取第一图像序列，根据生成对抗网络模型，生成所述第一图像序列对应的第二图像序列，其中，所述第一图像序列中的图像和所述第二图像序列中的图像是基于不同成像原理生成的；

在所述第一图像序列和所述第二图像序列中的第一帧图像上标定真实目标框，确定所述第一图像序列和所述第二图像序列分别对应的目标框回归模型，其中，所述目标框回归模型用于确定并调整预测目标框与所述真实目标框之间的距离；

根据预训练目标跟踪模型，确定两个第一预测目标框，其中，所述两个第一预测目标框分别为所述第一图像序列和所述第二图像序列中的同一帧待处理图像上的坐标值最大的候选目标框，所述待处理图像包括第一帧图像之后的任一帧图像；

若所述两个第一预测目标框的置信分数大于第一预设阈值，则根据所述第一图像序列和所述第二图像序列分别对应的目标框回归模型对所述两个第一预测目标框进行调整，确定两个第二预测目标框，其中，所述置信分数为所述第一预测目标框中的目标是前景目标的概率；

将所述两个第二预测目标框中置信分数最大的第二预测目标框作为所述第一图像序列中的所述待处理图像上的预测目标框。

在本申请实施例中，可以在获取第一图像序列之后，根据生成对抗网络模型，生成第一图像序列对应的第二图像序列，其中，第一图像序列中的图像和第二图像序列中的图像是基于不同成像原理生成的；在第一图像序列和第二图像序列中的第一帧图像上标定真实目标框，确定第一图像序列和第二图像序列分别对应的目标框回归模型，其中，目标框回归模型用于确定并调整预测目标框与真实目标框之间的距离；根据预训练目标跟踪模型，确定两个第一预测目标框，其中，两个第一预测目标框分别为第一图像序列和第二图像序列中的同一帧待处理图像上的坐标值最大的候选目标框，待处理图像包括第一帧图像之后的任一帧图像；若两个第一预测目标框的置信分数大于第一预设阈值，则根据第一图像序列和第二图像序列分别对应的目标框回归模型对两个第一预测目标框进行调整，确定两个第二预测目标框，其中，置信分数为第一预测目标框中的目标是前景目标的概率；将两个第二预测目标框中置信分数最大的第二预测目标框作为第一图像序列中的待处理图像上的预测目标框。首先通过生成对抗网络模型，自动生成第一图像序列对应的第二图像序列，其中，第一图像序列中的图像和第二图像序列中的图像是基于不同成像原理生成的，使得每次对任一帧图像进行目标跟踪时都能获取到成对的配准的多模态图像，从而降低目标跟踪的成本，提高目标跟踪的效率，再利用预训练目标跟踪模型将第一图像序列中的图像的信息和第二图像序列中的图像的信息相结合，确定第一图像序列中的图像上的预测目标框，不仅自动融合多模态特征，而且融合的多模态特征为深度的多模态特征，提高特征的表达能力，实现了复杂环境下的目标跟踪。

一种可选实施方式中，在所述第一图像序列和所述第二图像序列中的第一帧图像上标定真实目标框之后，包括：

对所述第一图像序列和所述第二图像序列中的图像进行尺度归一化处理。

一种可选实施方式中，所述预训练目标跟踪模型包括共享层、连接层以及特定域层，其中，所述共享层包括三个卷积层和两个全连接层，所述共享层用于提取图像特征，所述连接层用于拼接所述图像特征，所述特定域层用于解码所述拼接后的图像特征并根据所述拼接后的图像特征输出预测目标框。

一种可选实施方式中，根据预训练目标跟踪模型，确定两个第一预测目标框，包括：

将所述预训练目标跟踪模型中的特定域层的多个分支替换为单一分支；

根据所述第一图像序列和所述第二图像序列分别对应的目标框回归模型以及正候选目标框，更新所述预训练目标跟踪模型中的两个全连接层和特定域层的参数，以使所述更新后的预训练目标跟踪模型输出的预测目标框与所述真实目标框之间的距离小于第二预设阈值以及包含目标的概率大于第三预设阈值，其中，所述正候选目标框为包含目标的候选目标框；

根据所述更新后的预训练目标跟踪模型，确定所述两个第一预测目标框。

一种可选实施方式中，根据正候选目标框，更新所述预训练目标跟踪模型中的两个全连接层和特定域层的参数，包括：

根据所述第一图像序列和所述第二图像序列中的多帧待处理图像上的正候选目标框，更新所述预训练目标跟踪模型中的两个全连接层和特定域层的参数，以使所述更新后的预训练目标跟踪模型输出的预测目标框包含目标的概率大于所述第三预设阈值；或者，

在根据预训练目标跟踪模型确定所述第一图像序列和所述第二图像序列中的同一帧待处理图像上的坐标值最大的候选目标框时，确定所述待处理图像上的目标的预测分数是否小于第四预设阈值，其中，所述预测分数为所述待处理图像上的目标是所述第一帧图像上的目标的概率；

若小于，则根据所述待处理图像上的正候选目标框，更新所述预训练目标跟踪模型中的两个全连接层和特定域层的参数，以使所述更新后的预训练目标跟踪模型输出的预测目标框包含目标的概率大于所述第三预设阈值。

一种可选实施方式中，将所述两个第二预测目标框中置信分数最大的第二预测目标框作为所述第一图像序列中的所述待处理图像上的预测目标框，包括：

若所述两个第二预测目标框的置信分数大于或等于第五预设阈值，则将所述两个第二预测目标框中置信分数最大的第二预测目标框作为所述第一图像序列中的所述待处理图像上的预测目标框；

若所述两个第二预测目标框的置信分数小于第五预设阈值，则根据所述待处理图像上的正候选目标框，更新所述预训练目标跟踪模型中的两个全连接层和特定域层的参数，以使所述更新后的预训练目标跟踪模型输出的预测目标框包含目标的概率大于所述第三预设阈值；

根据所述更新后的预训练目标跟踪模型，重新确定所述两个第二预测目标框，直到所述两个第二预测目标框的置信分数大于或等于第五预设阈值。

第二方面，本申请实施例还提供一种目标跟踪装置，包括：

生成模块，用于获取第一图像序列，根据生成对抗网络模型，生成所述第一图像序列对应的第二图像序列，其中，所述第一图像序列中的图像和所述第二图像序列中的图像是基于不同成像原理生成的；

第一确定模块，用于在所述第一图像序列和所述第二图像序列中的第一帧图像上标定真实目标框，确定所述第一图像序列和所述第二图像序列分别对应的目标框回归模型，其中，所述目标框回归模型用于确定并调整预测目标框与所述真实目标框之间的距离；

第二确定模块，用于根据预训练目标跟踪模型，确定两个第一预测目标框，其中，所述两个第一预测目标框分别为所述第一图像序列和所述第二图像序列中的同一帧待处理图像上的坐标值最大的候选目标框，所述待处理图像包括第一帧图像之后的任一帧图像；

第三确定模块，用于若所述两个第一预测目标框的置信分数大于第一预设阈值，则根据所述第一图像序列和所述第二图像序列分别对应的目标框回归模型对所述两个第一预测目标框进行调整，确定两个第二预测目标框，其中，所述置信分数为所述第一预测目标框中的目标是前景目标的概率；

第一处理模块，用于将所述两个第二预测目标框中置信分数最大的第二预测目标框作为所述第一图像序列中的所述待处理图像上的预测目标框。

一种可选实施方式中，所述装置还包括第二处理模块，用于：

一种可选实施方式中，所述第二确定模块，具体用于：

一种可选实施方式中，所述第一处理模块，具体用于：

第三方面，本申请实施例还提供一种目标跟踪系统，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中的任一种实施方式包括的步骤。

第四方面，本申请实施例还提供一种存储介质，该存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面中的任一种实施方式包括的步骤。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1为本申请实施例中的一种目标跟踪系统的结构示意图；

图2为本申请实施例中的一种目标跟踪方法的流程示意图；

图3为本申请实施例中的一种目标跟踪装置的结构示意图；

图4为本申请实施例中的一种目标跟踪系统的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，能够以不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中，“至少一个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

目前，很多目标跟踪方法都是基于单种模态，如可见光，红外等，由于基于可见光图像的目标跟踪方法会因为环境光照变化、目标形变、遮挡等失效，基于红外图像的目标跟踪方法会因为相似目标的干扰失效，所以，也存在同时利用两种模态的方法。然而现有的多模态跟踪方法虽然都利用了可见光和红外两种模态辅助跟踪，但是要么是分别计算两种模态下前向后向跟踪的误差，选择可信度较高的模态作为跟踪结果，仅是利用多模态增加参考维度，并未利用多模态特征，要么是在可见光图像中提取方向梯度直方图特征和颜色特征，在红外图像中提取方向梯度直方图特征和灰度特征，再将这四组特征向量进行级联以形成融合后新的特征向量，虽然利用了多模态特征，但是提取的特征是传统特征，针对海量图像，传统的多模态特征的表达能力并不能和现有的深度特征相媲美。并且现有的多模态跟踪方法也并未说明如何获取多模态图像，如果是通过双相机获取，不仅成本高，还存在多模态图像配准的问题，同时，在实际应用中，由于获取红外图像和可见光图像所需要的感知器不一样，不可能每次都能获取到成对的红外图像和可见光图像，如果进行目标跟踪时每次都需要提前准备成对的红外图像和可见光图像，不仅成本高，效率也低。由此可见，现有的多模态跟踪方法存在针对海量图像，传统的多模态特征的表达能力并不能和现有的深度特征相媲美，以及由于无法每次都获取到成对的配准的多模态图像，导致目标跟踪的成本较高，效率较低的问题。

鉴于此，本申请实施例提供一种目标跟踪方法，该方法可以在获取第一图像序列之后，根据生成对抗网络模型，生成第一图像序列对应的第二图像序列，其中，第一图像序列中的图像和第二图像序列中的图像是基于不同成像原理生成的；在第一图像序列和第二图像序列中的第一帧图像上标定真实目标框，确定第一图像序列和第二图像序列分别对应的目标框回归模型，其中，目标框回归模型用于确定并调整预测目标框与真实目标框之间的距离；根据预训练目标跟踪模型，确定两个第一预测目标框，其中，两个第一预测目标框分别为第一图像序列和第二图像序列中的同一帧待处理图像上的坐标值最大的候选目标框，待处理图像包括第一帧图像之后的任一帧图像；若两个第一预测目标框的置信分数大于第一预设阈值，则根据第一图像序列和第二图像序列分别对应的目标框回归模型对两个第一预测目标框进行调整，确定两个第二预测目标框，其中，置信分数为第一预测目标框中的目标是前景目标的概率；将两个第二预测目标框中置信分数最大的第二预测目标框作为第一图像序列中的待处理图像上的预测目标框。首先通过生成对抗网络模型，自动生成第一图像序列对应的第二图像序列，其中，第一图像序列中的图像和第二图像序列中的图像是基于不同成像原理生成的，使得每次都能获取到成对的配准的多模态图像，从而降低目标跟踪的成本，提高目标跟踪的效率，再利用预训练目标跟踪模型将第一图像序列中的图像的信息和第二图像序列中的图像的信息相结合，确定第一图像序列中的图像上的预测目标框，不仅自动融合多模态特征，而且融合的多模态特征为深度的多模态特征，提高特征的表达能力，实现了复杂环境下的目标跟踪。

为了更好的理解上述技术方案，下面通过说明书附图以及具体实施例对本申请技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

图1为本申请实施例所提供方法可适用的一种目标跟踪系统的结构示意图，当然本申请实施例所提供的方法可以适用到多种目标跟踪系统上，应当理解图1所示的目标跟踪系统是对可适用本申请实施例所提供方法的目标跟踪系统的简单说明，而不是对可适用本申请实施例所提供方法的目标跟踪系统的限定。

图1所示的目标跟踪系统包括存储器101、处理器102、总线接口103。存储器101以及处理器101通过总线接口103连接。存储器101用于存储程序指令。处理器102用于调用存储器101中存储的程序指令，按照获得的程序指令执行目标跟踪方法中包括的所有步骤。

请参见图2，为本申请实施例提供的一种目标跟踪方法的流程示意图，该方法可以由前述图1所示的目标跟踪系统执行。该方法的具体流程描述如下。

步骤201：获取第一图像序列，根据生成对抗网络模型，生成第一图像序列对应的第二图像序列。

在本申请实施例中，可以先获取第一图像序列，再根据生成对抗网络模型，自动生成第一图像序列对应的第二图像序列，其中，第一图像序列中的图像和第二图像序列中的图像是基于不同成像原理生成的，即第一图像序列中的图像和第二图像序列中的图像为不同模态的图像，例如，若第一图像序列中的图像为可见光图像，则第二图像序列中的图像将为红外图像，若第一图像序列中的图像为红外图像，则第二图像序列中的图像将为可见光图像，使得每次对任一帧图像进行目标跟踪时都能获取到成对的配准的多模态图像，从而降低目标跟踪的成本，提高目标跟踪的效率。

需要说明的是，在本申请实施例中，生成对抗网络模型包括两个生成器(generator，G)：Ga、Gb和两个鉴别器(Discriminator，D)：Da、Db。假设有两个图像域，分别为可见光图像域X和红外图像域Y，则Ga用于将X中的可见光图像伪造成红外图像并把伪造的红外图像藏在真实的红外图像中，Da用于鉴别Y中的图像是伪造的红外图像还是真实的红外图像，在对生成对抗网络模型进行训练之后，Ga的伪造技术和Da的鉴别技术都将越来越厉害，直到Da再也分不出Y中的图像是伪造的红外图像还是真实的红外图像，Ga和Da的对抗过程才达到一个动态的平衡。同理，Gb用于将Y中的红外图像伪造成可见光图像并把伪造的可见光图像藏在真实的可见光图像中，Db用于鉴别X中的图像是伪造的可见光图像还是真实的可见光图像，在对生成对抗网络模型进行训练之后，Gb的伪造技术和Db的鉴别技术都将越来越厉害，直到Db再也分不出X中的图像是伪造的可见光图像还是真实的可见光图像，Gb和Db的对抗过程才达到一个动态的平衡。

步骤202：在第一图像序列和第二图像序列中的第一帧图像上标定真实目标框，确定第一图像序列和第二图像序列分别对应的目标框回归模型。

在本申请实施例中，生成第一图像序列对应的第二图像序列之后，可以在第一图像序列和第二图像序列中的第一帧图像上标定真实目标框，根据第一图像序列和第二图像序列中的第一帧图像上标定的真实目标框，确定第一图像序列和第二图像序列分别对应的目标框回归模型，其中，目标框回归模型用于确定并调整预测目标框与真实目标框之间的距离。

需要说明的是，在本申请实施例中，在第一图像序列和第二图像序列中的第一帧图像上标定真实目标框之后，还可以对第一图像序列和第二图像序列中的图像进行尺度归一化处理，例如，将第一图像序列和第二图像序列中的图像的尺度都等比例归一化到720*420，从而使得第一图像序列和第二图像序列中的图像的尺度相同，提高目标跟踪的效率。

步骤203：根据预训练目标跟踪模型，确定两个第一预测目标框。

在本申请实施例中，在确定第一图像序列和第二图像序列分别对应的目标框回归模型之后，可以根据预训练目标跟踪模型，确定两个第一预测目标框，其中，两个第一预测目标框分别为第一图像序列和第二图像序列中的同一帧待处理图像上的坐标值最大的候选目标框，待处理图像包括第一帧图像之后的任一帧图像，例如，第一图像序列和第二图像序列中的同一帧待处理图像上分别有256个候选目标框，根据公式

确定256个候选目标框中坐标值最大的候选目标框，其中，

表示坐标值最大的候选目标框，

中的i表示第几个候选目标框，m＝{r,t}则表示待处理图像的两个模态。

需要说明的是，在本申请实施例中，预训练目标跟踪模型包括共享层、连接层以及特定域层，其中，共享层包括三个卷积层和两个全连接层，共享层用于提取图像特征，连接层用于拼接图像特征，特定域层用于解码拼接后的图像特征并根据拼接后的图像特征输出预测目标框。

具体的，首先将预训练目标跟踪模型中的特定域层的多个分支替换为单一分支，并随机初始化该特定域层的参数。然后根据第一图像序列和第二图像序列分别对应的目标框回归模型以及正候选目标框，更新预训练目标跟踪模型中的两个全连接层和特定域层的参数，以使更新后的预训练目标跟踪模型输出的预测目标框与真实目标框之间的距离小于第二预设阈值以及包含目标的概率大于第三预设阈值，其中，正候选目标框为包含目标的候选目标框，例如，若第一图像序列和第二图像序列分别对应的目标框回归模型为BB_r和BB_t，根据BB_r和BB_t更新预训练目标跟踪模型中的两个全连接层和特定域层的参数

以使更新后的预训练目标跟踪模型输出的预测目标框与真实目标框之间的距离小于第二预设阈值，其中，参数

可以为两个全连接层和特定域层的权值。再根据更新后的预训练目标跟踪模型，确定第一图像序列和第二图像序列中的同一帧待处理图像分别对应的两个第一预测目标框。

需要说明的是，在本申请实施例中，在根据正候选目标框，更新预训练目标跟踪模型中的两个全连接层和特定域层的参数时，可以长期更新，也可以短期更新。其中，长期更新是指根据第一图像序列和第二图像序列中的多帧待处理图像上的正候选目标框，更新预训练目标跟踪模型中的两个全连接层和特定域层的参数，以使更新后的预训练目标跟踪模型输出的预测目标框包含目标的概率大于第三预设阈值。短期更新是指在根据预训练目标跟踪模型确定第一图像序列和第二图像序列中的同一帧待处理图像上的坐标值最大的候选目标框时，确定待处理图像上的目标的预测分数是否小于第四预设阈值，其中，预测分数为待处理图像上的目标是第一帧图像上的目标的概率，若小于，则根据待处理图像上的正候选目标框，更新预训练目标跟踪模型中的两个全连接层和特定域层的参数，以使更新后的预训练目标跟踪模型输出的预测目标框包含目标的概率大于第三预设阈值，例如，待处理图像上的目标的预测分数为0.3，第四预设阈值为0.5，则根据待处理图像上的所有的正候选目标框，更新预训练目标跟踪模型中的两个全连接层和特定域层的参数

以使更新后的预训练目标跟踪模型输出的预测目标框包含目标的概率大于第三预设阈值，其中，参数

可以为两个全连接层和特定域层的权值。

步骤204：若两个第一预测目标框的置信分数大于第一预设阈值，则根据第一图像序列和第二图像序列分别对应的目标框回归模型对两个第一预测目标框进行调整，确定两个第二预测目标框。

在本申请实施例中，在根据预训练目标跟踪模型，确定两个第一预测目标框之后，可以判断两个第一预测目标框的置信分数是否大于第一预设阈值，其中，置信分数为第一预测目标框中的目标是前景目标的概率，若两个第一预测目标框的置信分数大于第一预设阈值，则根据第一图像序列和第二图像序列分别对应的目标框回归模型对两个第一预测目标框进行调整，确定两个第二预测目标框。

步骤205：将两个第二预测目标框中置信分数最大的第二预测目标框作为第一图像序列中的待处理图像上的预测目标框。

在本申请实施例中，在根据第一图像序列和第二图像序列分别对应的目标框回归模型对两个第一预测目标框进行调整，确定两个第二预测目标框之后，可以将两个第二预测目标框中置信分数最大的第二预测目标框作为第一图像序列中的待处理图像上的预测目标框。

具体的，若两个第二预测目标框的置信分数大于或等于第五预设阈值，则将两个第二预测目标框中置信分数最大的第二预测目标框作为第一图像序列中的待处理图像上的预测目标框。若两个第二预测目标框的置信分数小于第五预设阈值，则先根据待处理图像上的正候选目标框，更新预训练目标跟踪模型中的两个全连接层和特定域层的参数，以使更新后的预训练目标跟踪模型输出的预测目标框包含目标的概率大于第三预设阈值，然后根据更新后的预训练目标跟踪模型，重新确定两个第二预测目标框，直到重新确定的两个第二预测目标框的置信分数大于或等于第五预设阈值，再将重新确定的两个第二预测目标框中置信分数最大的第二预测目标框作为第一图像序列中的待处理图像上的预测目标框。

上述方案，首先通过生成对抗网络模型，自动生成第一图像序列对应的第二图像序列，其中，第一图像序列中的图像和第二图像序列中的图像是基于不同成像原理生成的，即第一图像序列中的图像和第二图像序列中的图像为不同模态的图像，使得每次对任一帧图像进行目标跟踪时都能获取到成对的配准的多模态图像，从而降低目标跟踪的成本，提高目标跟踪的效率，再利用预训练目标跟踪模型将第一图像序列中的图像的信息和第二图像序列中的图像的信息相结合，确定第一图像序列中的图像上的预测目标框，不仅自动融合多模态特征，而且融合的多模态特征为深度的多模态特征，提高特征的表达能力，实现了复杂环境下的目标跟踪。

基于同一发明构思，本申请实施例还提供一种目标跟踪装置，该目标跟踪装置可以应用于前述图1所示的目标跟踪系统。该目标跟踪装置可以实现前述的目标跟踪方法对应的功能。该目标跟踪装置可以是硬件结构、软件模块、或硬件结构加软件模块。该目标跟踪装置可以由芯片系统实现，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。请参见图3，为本申请实施例提供的一种目标跟踪装置的结构示意图，该目标跟踪装置包括生成模块301、第一确定模块302、第二确定模块303、第三确定模块304、第一处理模块305，其中：

生成模块301，用于获取第一图像序列，根据生成对抗网络模型，生成所述第一图像序列对应的第二图像序列，其中，所述第一图像序列中的图像和所述第二图像序列中的图像是基于不同成像原理生成的；

第一确定模块302，用于在所述第一图像序列和所述第二图像序列中的第一帧图像上标定真实目标框，确定所述第一图像序列和所述第二图像序列分别对应的目标框回归模型，其中，所述目标框回归模型用于确定并调整预测目标框与所述真实目标框之间的距离；

第二确定模块303，用于根据预训练目标跟踪模型，确定两个第一预测目标框，其中，所述两个第一预测目标框分别为所述第一图像序列和所述第二图像序列中的同一帧待处理图像上的坐标值最大的候选目标框，所述待处理图像包括第一帧图像之后的任一帧图像；

第三确定模块304，用于若所述两个第一预测目标框的置信分数大于第一预设阈值，则根据所述第一图像序列和所述第二图像序列分别对应的目标框回归模型对所述两个第一预测目标框进行调整，确定两个第二预测目标框，其中，所述置信分数为所述第一预测目标框中的目标是前景目标的概率；

第一处理模块305，用于将所述两个第二预测目标框中置信分数最大的第二预测目标框作为所述第一图像序列中的所述待处理图像上的预测目标框。

一种可选实施方式中，所述第二确定模块303，具体用于：

一种可选实施方式中，所述第一处理模块305，具体用于：

基于同一发明构思，本申请实施例还提供一种目标跟踪系统，请参见图4，为本申请实施例提供的一种目标跟踪系统的结构示意图，该目标跟踪系统包括至少一个处理器402，以及与至少一个处理器连接的存储器401，本申请实施例中不限定处理器402与存储器401之间的具体连接介质，图4是以处理器402和存储器401之间通过总线400连接为例，总线400在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不以此为限。总线400可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，存储器401存储有可被至少一个处理器402执行的指令，至少一个处理器402通过调用存储器401存储的指令，可以执行前述的目标跟踪方法中所包括的步骤。其中，处理器402是目标跟踪系统的控制中心，可以利用各种接口和线路连接整个目标跟踪系统的各个部分，通过执行存储在存储器401内的指令，从而实现目标跟踪系统的各种功能。可选的，处理器402可包括一个或多个处理单元，处理器402可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器402中。在一些实施例中，处理器402和存储器401可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器401作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器401可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器401是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器401还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

在本申请实施例中，处理器402可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的目标跟踪方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

通过对处理器402进行设计编程，可以将前述实施例中介绍的目标跟踪方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行前述的目标跟踪方法的步骤，如何对处理器402进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的目标跟踪方法的步骤。

在一些可能的实施方式中，本申请提供的目标跟踪方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在目标跟踪系统上运行时，程序代码用于使该目标跟踪系统执行本说明书上述描述的根据本申请各种示例性实施方式的目标跟踪方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种目标跟踪方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在所述第一图像序列和所述第二图像序列中的第一帧图像上标定真实目标框之后，包括：

3.如权利要求1或2所述的方法，其特征在于，所述预训练目标跟踪模型包括共享层、连接层以及特定域层，其中，所述共享层包括三个卷积层和两个全连接层，所述共享层用于提取图像特征，所述连接层用于拼接所述图像特征，所述特定域层用于解码所述拼接后的图像特征并根据所述拼接后的图像特征输出预测目标框。

4.如权利要求3所述的方法，其特征在于，根据预训练目标跟踪模型，确定两个第一预测目标框，包括：

5.如权利要求4所述的方法，其特征在于，根据正候选目标框，更新所述预训练目标跟踪模型中的两个全连接层和特定域层的参数，包括：

6.如权利要求1或5所述的方法，其特征在于，将所述两个第二预测目标框中置信分数最大的第二预测目标框作为所述第一图像序列中的所述待处理图像上的预测目标框，包括：

7.一种目标跟踪装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述装置还包括第二处理模块，用于：

9.一种目标跟踪系统，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-6任一项所述的方法包括的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1-6任一项所述的方法包括的步骤。