CN114155278A

CN114155278A - 目标跟踪及相关模型的训练方法和相关装置、设备、介质

Info

Publication number: CN114155278A
Application number: CN202111424075.9A
Authority: CN
Inventors: 章国锋; 鲍虎军; 叶伟才; 兰馨悦
Original assignee: Zhejiang Shangtang Technology Development Co Ltd
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-08
Also published as: WO2023093086A1

Abstract

本申请公开了一种目标跟踪及相关模型的训练方法和相关装置、设备、介质，其中，目标跟踪方法包括：分别对第一图像和第二图像进行目标分割，得到第一图像中第一对象的第一掩膜图像和第二图像中第二对象的第二掩膜图像；基于第一掩膜图像和第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，并基于第一掩膜图像和第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息；融合第一匹配信息和第二匹配信息，得到跟踪信息；其中，跟踪信息包括第一对象与第二对象是否为同一对象。上述方案，能够提升目标跟踪精度。

Description

目标跟踪及相关模型的训练方法和相关装置、设备、介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标跟踪及相关模型的训练方法和相关装置、设备、介质。

背景技术

目标跟踪技术广泛使用于众多应用场景中。以视频全景分割(Video PanopticSegmentation，VPS)为例，不仅要求生成帧间一致的全景分割，还要求对所有像素实现帧间跟踪，从而提升自动驾驶、视频监控、视频编辑等诸多技术的实现效果。

目前，现有的目标跟踪方式在跟踪精度方面仍面临着不少问题，如跟踪丢失等，从而在目标跟踪应用于上述自动驾驶、视频监控、视频剪辑等技术时严重影响其实现效果。有鉴于此，如何提升目标跟踪精度成为亟待解决的问题。

发明内容

本申请提供一种目标跟踪及相关模型的训练方法和相关装置、设备、介质。

本申请第一方面提供了一种目标跟踪方法，包括：分别对第一图像和第二图像进行目标分割，得到第一图像中第一对象的第一掩膜图像和第二图像中第二对象的第二掩膜图像；基于第一掩膜图像和第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，并基于第一掩膜图像和第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息；融合第一匹配信息和第二匹配信息，得到跟踪信息；其中，跟踪信息包括第一对象与第二对象是否为同一对象。

因此，分别对第一图像和第二图像进行目标分割，得到第一图像中第一对象的第一掩膜图像和第二图像中第二对象的第二掩膜图像，并基于第一掩膜图像和第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，以及基于第一掩膜图像和第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息，在此基础上，再融合第一匹配信息和第二匹配信息，得到跟踪信息，且跟踪信息包括第一对象和对象是否为同一对象，即在目标跟踪过程中，一方面在特征维度在图像之间进行对象匹配，能够有利于确保对大尺寸对象的跟踪效果，另一方面在空间维度在图像之间进行对象匹配，能够有利于确保对小尺寸对象的跟踪效果，并基于此融合两种匹配方式所得到的匹配信息得到跟踪信息，故能够同时兼顾大尺寸对象和小尺寸对象，有利于提升目标跟踪精度。

其中，基于第一掩膜图像和第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，包括：分别基于各第一对象的第一掩膜图像，提取得到各第一对象的第一特征表示，并分别基于各第二对象的第二掩膜图像，提取得到各第二对象的第二特征表示；利用第一特征表示和第二特征表示，得到各第一对象与各第二对象之间的特征相似度；基于各第一对象与各第二对象之间的特征相似度，得到第一匹配信息。

因此，分别基于各第一对象的第一掩膜图像，提取得到各第一对象的第一特征表示，并分别基于各第二对象的第二掩膜图像，提取得到各第二对象的第二特征表示，基于此再利用第一特征表示和第二特征表示，得到各第一对象与各第二对象之间的特征相似度，并基于各第一对象与各第二对象之间的特征相似度，得到第一匹配信息，即在特征维度在图像之间进行对象匹配过程中，仅需对各对象的掩膜图像进行特征提取，再度量特征相似度即可，能够降低在特征维度在图像之间进行对象匹配的复杂度，有利于提升跟踪速度。

其中，第一特征表示或第二特征表示的提取步骤包括：基于掩膜图像中各个像素点的像素值，确定对象边界；其中，对象边界为掩膜图像所属对象的边界；沿对象边界从掩膜图像中裁剪出区域图像；基于区域图像进行特征提取，得到所属对象的特征表示；其中，在掩膜图像为第一掩膜图像的情况下，所属对象为第一对象，特征表示为第一特征表示，在掩膜图像为第二掩膜图像的情况下，所属对象为第二对象，特征表示为第二特征表示。

因此，基于掩膜图像中各像素点的像素值，确定对象边界，且对象边界为掩膜图像所属对象的边界，并沿对象边界从掩膜图像中裁剪出区域图像，以及基于区域图像进行特征提取，得到所属对象的特征表示，且在掩膜图像为第一掩膜图像的情况下，所属对象为第一对象，特征表示为第一特征表示，在掩膜图像为第二掩膜图像的情况下，所属对象为第二对象，特征表示为第二特征表示，故能够在特征提取过程中，排除与掩膜图像所属对象无关像素的干扰，有利于提升特征表示的准确性。

其中，基于第一掩膜图像和第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息，包括：利用第二图像对第一图像行光流预测，得到第一图像的光流图像；基于光流图像，对第一对象的第一掩膜图像进行逐像素偏移，得到第一对象在第二图像的拍摄时刻的预测掩膜图像；基于各个第一对象的预测掩膜图像分别与各个第二对象的第二掩膜图像之间的重合度，得到第二匹配信息。

因此，利用第二图像对第一图像进行光流预测，得到第一图像的光流图像，并基于光流图像，对第一对象的第一掩膜图像进行逐像素偏移，得到第一对象在第二图像的拍摄时刻的预测掩膜图像，以及基于各第一对象的预测掩膜图像分别与各第二对象的第二掩膜图像之间的重合度，得到第二匹配信息，即在空间维度在图像之间进行对象匹配过程中，一方面能够基于像素级匹配实现对象匹配，有利于大大提升跟踪效果，特别是小尺寸对象的跟踪效果，另一方面在基于光流图像进行逐像素偏移之后仅需度量图像重合度即可得到匹配信息，也能够降低在空间维度在图像之间进行对象匹配的复杂度，有利于提升跟踪速度。

其中，基于光流图像，对第一对象的第一掩膜图像进行逐像素偏移，得到第一对象在第二图像的拍摄时刻的预测掩膜图像，包括：将光流图像和第一掩膜图像进行逐像素相乘，得到第一掩膜图像中像素点的偏移值；将第一掩膜图像中像素点的第一像素坐标与偏移值相加，得到像素点在拍摄时刻的第二像素坐标；基于第一掩膜图像中像素点的第二像素坐标，得到预测掩膜图像。

因此，将光流图像和第一掩膜图像进行逐像素相称，得到第一掩膜图像中像素点的偏移值，并将第一掩膜图像中像素点的第一像素坐标和偏移值相加，得到像素点在拍摄时刻的第二像素坐标，以及基于第一掩膜图像中像素点的第二像素坐标，得到预测掩膜图像，即在逐像素偏移过程中，仅需像素相乘、相加等简单运算即可，故能够大大降低像素偏移的复杂度，有利于进一步提升跟踪速度。

其中，第一匹配信息包括第一对象与第二对象之间的第一匹配度，第二匹配信息包括第一对象与第二对象之间的第二匹配度，融合第一匹配信息和第二匹配信息，得到跟踪信息，包括：对第一匹配信息中第一匹配度进行自适应加权，得到第一加权匹配信息，并对第二匹配信息中第二匹配度进行自适应加权，得到第二加权匹配信息；其中，第一加权匹配信息包括第一对象与第二对象之间的第一加权匹配度，第二加权匹配信息包括第一对象与第二对象之间的第二加权匹配度；将第一加权匹配信息和第二加权匹配信息进行融合，得到最终匹配信息；其中，最终匹配信息包括第一对象与第二对象之间的最终匹配度；基于最终匹配信息进行分析，得到跟踪信息。

因此，第一匹配信息包括第一对象与第二对象之间的第一匹配度，第二匹配信息包括第一对象与第二对象之间的第二匹配度，并对第一匹配信息中第一匹配度进行自适应加权，得到第一加权匹配信息，并对第二匹配信息中第二匹配度进行自适应加权，得到第二加权匹配信息，且第一加权匹配信息包括第一对象与第二对象之间的第一加权匹配度，第二加权匹配信息包括第一对象与第二对象之间的第二加权匹配度，基于此再将第一加权匹配信息和第二加权匹配信息进行融合，得到最终匹配信息，且最终匹配信息包括第一对象与第二对象之间的最终匹配度，并基于最终匹配信息进行分析，得到跟踪信息，故在匹配信息的融合过程中，通过对第一匹配信息、第二匹配信息分别进行自适应加权，能够根据实际情况自适应地分别度量两者的重要程度，在此基础上再进行融合，有利于大大提升跟踪准确性。

其中，跟踪信息是利用目标跟踪模型对第一图像和第二图像进行检测得到的，目标跟踪模型包括信息融合网络，信息融合网络包括第一加权子网络和第二加权子网络，第一加权子网络用于对第一匹配信息进行自适应加权，第二加权子网络用于对第二匹配信息进行自适应加权。

因此，跟踪信息是利用目标跟踪模型对第一图像和第二图像进行检测得到的，且目标跟踪模型包括信息融合网络，而信息融合网络包括第一加权子网络和第二加权子网络，第一加权子网络用于对第一匹配信息进行自适应加权，第二加权子网络用于第二匹配信息进行自适应加权，故能够通过神经网络根据实际情况获悉特征维度和空间维度两方面分别对目标跟踪的重要程度，有利于提升自适应加权的效率和精度。

其中，基于最终匹配信息进行分析，得到跟踪信息，包括：将各个第一对象与各个第二对象的两两组合，分别作为当前对象组；基于当前对象组的第一参考信息和/或第二参考信息，确定当前第一对象和当前第二对象是否为同一对象；其中，当前第一对象为当前对象组中的第一对象，当前第二对象为当前对象组中的第二对象，第一参考信息包括：当前第一对象分别与各个第二对象之间的最终匹配度，第二参考信息包括：当前第二对象分别与各个第一对象之间的最终匹配度。

因此，将各个第一对象和各个第二对象的两两组合，分别作为当前对象组，并基于当前对象组的第一参考信息和/或第二参考信息，确定当前第一对象和当前第二对象是否为同一对象，且当前第一对象为当前对象组中的第一对象，当前第二对象为当前对象组中的第二对象，第一参考信息包括：当前第一对象分别与各个第二对象之间的最终匹配度，第二参考信息包括：当前第二对象分别与各个第一对象之间的最终匹配度，故一方面能够确定每一对象组中的两个对象是否为同一对象，从而能够尽可能地避免遗漏，有利于提升跟踪精度，另一方面在确定过程中结合第一参考信息、第二参考信息中至少一者，也有利于提升确定的准确性。

其中，在基于当前对象组的第一参考信息和/或第二参考信息，确定当前第一对象和当前第二对象是否为同一对象之前，方法还包括：将当前第一对象与当前第二对象之间的最终匹配度，作为待分析匹配度；基于当前对象组的第一参考信息和/或第二参考信息，确定当前第一对象和当前第二对象是否为同一对象，包括以下任一者：响应于待分析匹配度为第一参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象；响应于待分析匹配度为第二参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象；响应于待分析匹配度为第一参考信息和第二参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象。

因此，在确定之前先将当前第一对象和当前第二对象之间的最终匹配度，作为待分析匹配度，在此之后，响应于待分析匹配度为第一参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象，或响应于待分析匹配度为第二参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象，或者，响应于待分析匹配度为第一参考信息和第二参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象，一方面通过前两者确定方式仅需搜索第一参考信息或第二参考信息中的最大值，即可完成确定操作，有利于降低确定复杂度，并提升确定速度，另一方面通过最后一种确定方式同时搜索第一参考信息和第二参考信息中的最大值来完成确定操作，能够在第一参考信息和第二参考信息基础上实现协同校验，有利于降低确定复杂度，并提升确定精度。

其中，在融合第一匹配信息和第二匹配信息，得到跟踪信息之后，方法还包括：响应于跟踪信息满足预设条件，将跟踪信息作为第一跟踪信息，并获取第三图像；其中，第三图像、第一图像和第二图像分别是先后拍摄得到的；基于第三图像和第二图像进行目标跟踪，得到第二跟踪信息，其中，第二跟踪信息包括第二对象与第三图像中的第三对象是否为同一对象；基于第一跟踪信息和第二跟踪信息进行一致性校验，得到校验结果。

因此，在得到跟踪信息之后，进一步响应于跟踪信息满足预设条件，将跟踪信息作为第一跟踪信息，并获取第三图像，且第三图像、第一图像和第二图像分别是先后拍摄得到的，并基于第三图像和第二图像进行目标跟踪，得到第二跟踪信息，且第二跟踪信息包括第二对象与第三图像中的第三对象是否为同一对象，在此基础上，再基于第一跟踪信息和第二跟踪信息进行一致性校验，得到校验结果，故能够大大减少目标跟踪在时序上出现不一致的情况，有利于进一步提升跟踪精度。

其中，预设条件包括：第二图像中存在目标对象；其中，目标对象与任一第一对象均不是同一对象。

因此，将预设条件设置为第二图像中不存在目标对象，且目标对象与任一第一对象均不是同一对象，故能够通过时序一致性校验，大大缓解对象消失、遮挡等情况对跟踪精度的影响，有利于提升跟踪精度。

其中，不同图像中相同对象具有相同对象标识，基于第一跟踪信息和第二跟踪信息进行一致性校验，得到校验结果，包括：基于第二跟踪信息对目标对象进行分析，得到分析结果；响应于分析结果包括目标对象与参考对象为同一对象，将参考对象的对象标识作为目标对象的对象标识；其中，参考对象为其中一个第三对象；响应于分析结果包括目标对象与第三图像中任一第三对象均不是同一对象，为目标对象标记新的对象标识。

因此，将不同图像中相同对象具有相同对象标识，并基于第二跟踪信息对目标对象进行分析，得到分析结果，以及响应于分析结果包括目标对象与参考对象为同一对象，将参考对象的对象标识作为目标对象的对象标识，且参考对象为其中一个第三对象，并响应于分析结果包括目标对象与第三图像中任一对象均不是同一对象，为目标对象标记新的对象标识，故能够通过时序一致性校验处理由于对象遮挡、对象变形等原因造成对象消失后重新出现的复杂情况，并根据实际情况进行校验，有利于提升目标跟踪在复杂情况下的跟踪效果。

本申请第二方面提供了一种目标跟踪模型的训练方法，包括：获取第一样本图像中第一样本对象的第一样本掩膜图像、第二样本图像中第二样本对象的第二样本掩膜图像和样本跟踪信息；其中，样本跟踪信息包括第一样本对象与第二样本对象是否实际为同一对象；基于目标跟踪模型的第一匹配网络将第一样本掩膜图像和第二样本掩膜图像在特征维度进行对象匹配，得到第一预测匹配信息，并基于目标跟踪模型的第二匹配网络将第一样本掩膜图像和第二样本掩膜图像在空间维度进行对象匹配，得到第二预测匹配信息；利用目标跟踪模型的信息融合网络融合第一预测匹配信息和第二预测匹配信息，得到预测跟踪信息；其中，预测跟踪信息包括第一样本对象与第二样本对象是否预测为同一对象；基于样本跟踪信息与预测跟踪信息之间的差异，调整目标跟踪模型的网络参数。

因此，一方面在特征维度在图像之间进行对象匹配，能够有利于确保对大尺寸对象的跟踪效果，另一方面在空间维度在图像之间进行对象匹配，能够有利于确保对小尺寸对象的跟踪效果，并基于此融合两种匹配方式所得到的匹配信息得到跟踪信息，故能够同时兼顾大尺寸对象和小尺寸对象，有利于提升目标跟踪模型的精度。

其中，第一匹配网络在整体训练目标跟踪模型之前已完成训练，且第一匹配网络的训练步骤包括：基于第一匹配网络的第一提取子网络对第一样本对象的第一样本掩膜图像进行特征提取，得到第一样本对象的第一样本特征表示，并基于第一匹配网络的第二提取子网络对第二样本对象的第二样本掩膜图像进行特征提取，得到第二样本对象的第二样本特征表示；对于各个第一样本对象，基于第一样本对象的第一样本特征表示分别与各个第二样本特征表示之间的特征相似度，得到第一样本对象分别与各个第二样本对象预测为同一对象的预测概率值，并基于各个预测概率值的期望值，得到第一样本对象的预测匹配对象，以及基于预测匹配对象与第一样本对象的实际匹配对象之间的差异，得到第一样本对象对应的子损失；其中，预测匹配对象为与第一样本对象预测为同一对象的第二样本对象，实际匹配对象为与第一样本对象实际为同一对象的第二样本对象，实际匹配对象是基于样本跟踪信息确定的；统计各个第一样本对象对应的子损失，得到第一匹配网络的总损失值；基于总损失值，调整第一匹配网络的网络参数。

因此，第一匹配网络在整体训练目标跟踪模型之前已完成训练，且在第一匹配网络的训练过程中，基于第一匹配网络的第一提取子网络对第一样本对象的第一样本掩膜图像进行特征提取，得到第一样本对象的第一样本特征表示，并基于第一匹配网络的第二提取子网络对第二样本对象的第二样本掩膜图像进行特征提取，得到第二样本对象的第二样本特征表示，在此基础上，对于各个第一样本对象，基于第一样本对象的第一样本特征表示分别与各个第二样本特征表示之间的特征相似度，得到第一样本对象分别与各个第二样本对象预测为同一对象的预测概率值，并基于各个预测概率值的期望值，得到第一样本对象的预测匹配对象，以及基于预测匹配对象与第一样本对象的实际匹配对象之间的差异，得到第一样本对象对应的子损失，且预测匹配对象为与第一样本对象预测为同一对象的第二样本对象，实际匹配对象为与第一样本对象实际为同一对象的第二样本对象，实际匹配对象是基于样本跟踪信息确定的，再统计各个第一样本对象对应的子损失，得到第一匹配网络的总损失值，以及基于总损失值，调整第一匹配网络的网络参数，一方面在整体训练目标跟踪模型先对第一匹配网络进行训练，有利于提升目标跟踪模型的训练效率，另一方面通过度量特征相似度等操作确定预测匹配对象，在此基础上再计算损失，能够通过可微分匹配使第一匹配网络在训练过程中学习特征表示。

其中，基于第一样本对象的第一样本特征表示分别与各个第二样本特征表示之间的特征相似度，得到第一样本对象分别与各个第二样本对象预测为同一对象的预测概率值，包括：将特征相似度进行归一化，得到预测概率值；和/或，各个第二样本对象分别标记有序号值，基于各个预测概率值的期望值，得到第一样本对象的预测匹配对象，包括：基于第二样本对象的序号值和第二样本对象对应的预测概率值，得到期望值；将期望值上取整之后的数值，作为目标序号值；将目标序号值所属的第二样本对象，作为第一样本对象的预测匹配对象。

因此，通过将特征相似度进行归一化操作得到预测概率值，能够有利于降低获取预测概率值的复杂度，而基于第二样本对象的序号值和第二样本对象对应的预测概率值，得到期望值，并将期望值上取整之后的数值，作为目标序号值，再将目标序号值所属的第二样本对象，作为第一样本对象的预测匹配对象，能够通过数学期望、上取整等简单运算确定预测匹配对象，有利于大大降低确定预测匹配对象的复杂度。

其中，目标跟踪模型还包括目标分割网络，第一样本掩膜图像、第二样本掩膜图像是利用目标分割网络分别对第一样本图像、第二样本图像进行目标分割得到的，且目标分割网络在训练第一匹配网络之前已完成训练；和/或，第二匹配网络包括光流预测网络，用于利用第二样本图像对第一样本图像进行光流预测，得到第一样本图像的样本光流图像，且第二样本匹配信息是基于样本光流图像得到的。

因此，目标跟踪模型还包括目标分割网络，第一样本掩膜图像、第二样本掩膜图像是利用目标分割网络分别对第一样本图像、第二样本图像进行目标分割得到的，且目标分割网络在训练第一匹配网络之前已完成训练，故通过分阶段地先训练目标分割网络，能够循序渐进地训练目标跟踪模型，有利于提升训练效率和效果；而第二匹配网络包括光流预测网络，用于利用第二样本图像对第一样本图像进行光流预测，得到第一样本图像的样本光流图像，且第二样本匹配信息是基于样本光流图像得到的，有利于提升光流预测的准确性和效率。

本申请第三方面提供了一种目标跟踪装置，包括：目标分割模块、对象匹配模块和信息融合模块，目标分割模块，用于分别对第一图像和第二图像进行目标分割，得到第一图像中第一对象的第一掩膜图像和第二图像中第二对象的第二掩膜图像；对象匹配模块，用于基于第一掩膜图像和第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，并基于第一掩膜图像和第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息；信息融合模块，用于融合第一匹配信息和第二匹配信息，得到跟踪信息；其中，跟踪信息包括第一对象与第二对象是否为同一对象。

本申请第四方面提供了一种目标跟踪模型的训练装置，包括：样本获取模块、样本匹配模块、样本融合模块和参数调整模块，样本获取模块，用于获取第一样本图像中第一样本对象的第一样本掩膜图像、第二样本图像中第二样本对象的第二样本掩膜图像和样本跟踪信息；其中，样本跟踪信息包括第一样本对象与第二样本对象是否实际为同一对象；样本匹配模块，用于基于目标跟踪模型的第一匹配网络将第一样本掩膜图像和第二样本掩膜图像在特征维度进行对象匹配，得到第一预测匹配信息，并基于目标跟踪模型的第二匹配网络将第一样本掩膜图像和第二样本掩膜图像在空间维度进行对象匹配，得到第二预测匹配信息；样本融合模块，用于利用目标跟踪模型的信息融合网络融合第一预测匹配信息和第二预测匹配信息，得到预测跟踪信息；其中，预测跟踪信息包括第一样本对象与第二样本对象是否预测为同一对象；参数调整模块，用于基于样本跟踪信息与预测跟踪信息之间的差异，调整目标跟踪模型的网络参数。

本申请第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的目标跟踪方法，或实现上述第二方面中的目标跟踪模型的训练方法。

本申请第六方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的目标跟踪方法，或实现上述第二方面中的目标跟踪模型的训练方法。

上述方案，分别对第一图像和第二图像进行目标分割，得到第一图像中第一对象的第一掩膜图像和第二图像中第二对象的第二掩膜图像，并基于第一掩膜图像和第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，以及基于第一掩膜图像和第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息，在此基础上，再融合第一匹配信息和第二匹配信息，得到跟踪信息，且跟踪信息包括第一对象和对象是否为同一对象，即在目标跟踪过程中，一方面在特征维度在图像之间进行对象匹配，能够有利于确保对大尺寸对象的跟踪效果，另一方面在空间维度在图像之间进行对象匹配，能够有利于确保对小尺寸对象的跟踪效果，并基于此融合两种匹配方式所得到的匹配信息得到跟踪信息，故能够同时兼顾大尺寸对象和小尺寸对象，有利于提升目标跟踪精度。

附图说明

图1是本申请目标跟踪方法一实施例的流程示意图；

图2是目标跟踪模型一实施例的框架示意图；

图3是信息融合过程一实施例的过程示意图；

图4是全景分割图像一实施例的示意图；

图5是在特征维度进行对象匹配一实施例的流程示意图；

图6是在特征维度进行对象匹配一实施例的过程示意图；

图7是在空间维度进行对象匹配一实施例的流程示意图；

图8是在空间维度进行对象匹配一实施例的过程示意图；

图9是本申请目标跟踪方法另一实施例的流程示意图；

图10是时间一致性约束一实施例的示意图；

图11是本申请目标跟踪模型的训练方法一实施例的流程示意图；

图12是本申请目标跟踪装置一实施例的框架示意图；

图13是本申请目标跟踪模型的训练装置一实施例的框架示意图；

图14是本申请电子设备一实施例的框架示意图；

图15是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请目标跟踪方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：分别对第一图像和第二图像进行目标分割，得到第一图像中第一对象的第一掩膜图像和第二图像中第二对象的第二掩膜图像。

在一个实施场景中，第一图像和第二图像可以是拍摄到的视频数据中连续两帧图像；或者，第一图像和第二图像在视频数据中也可以间隔若干帧图像，在此不做限定。需要说明的是，第一图像可以先于第二图像拍摄得到。为了便于描述，可以将第一图像记为t-δ，将第二图像记为t，其中，在第一图像和第二图像为相邻两帧图像的情况下，δ为1，在第一图像和第二图像间隔一帧图像的情况下，δ为2，以此类推，在此不再一一举例。

在一个实施场景中，在实际应用过程中，第一图像和第二图像可以是由诸如智能手机、自动驾驶设备等集成有摄像头的电子设备拍摄得到的，则可以结合摄像头的帧率以及移动速率，来确定第一图像和第二图像之间所间隔的图像帧数。示例性地，移动速率越快，相邻图像之间的变化越大，间隔的图像帧数可以越少，反之移动速率越慢，相邻的图像之间的变化越小，间隔的图像帧数可以越多；或者，帧率越大，相邻图像之间的变化越小，间隔的图像帧数可以越多，反之帧率越小，相邻图像之间的变化越大，间隔的图像帧数可以越少。

在一个实施场景中，第一图像中第一对象可以不限于一个，如可以包括一个第一对象、两个第一对象、三个第一对象等等，在此不做限定；类似地，第二图像中第二对象可以不限于一个，如可以包括一个第二对象、两个第二对象、三个第二对象等等，在此不做限定。此外，上述对象可以包括但不限于：行人、车辆、路牌等对象。需要说明的是，本公开实施例中，多个同类对象不可计为同一对象，也就是说，即使多个对象为同类对象也需计为多个对象。示例性地，图像中可以含有两个行人，如分别记为行人甲、行人乙，则行人甲和行人乙可以计为两个对象，或者，图像中可以含有三个车辆，如车辆A、车辆B和车辆C，则车辆A、车辆B和车辆C可以计为三个对象，以此类推，在此不再一一举例。

在一个实施场景中，上述第一对象和第二对象分别为第一图像和第二图像中的前景对象，如前述行人、车辆、路牌等。除此之外，图像中还可以含有背景对象，如可以包括但不限于：道路、天空、建筑物等。为了实现视频全景分割，在分别对第一图像和第二图像进行目标分割之后，还可以得到第一图像中第一背景对象的掩膜图像和第二图像中第二背景对象的掩膜图像，以便后续结合掩膜图像和跟踪信息在图像上对各个前景对象、背景对象进行标记。例如，可以将不同图像中属于同一对象(如，同一前景对象、同一背景对象)的像素区域标记为同一种颜色等。示例性地，可以在第一图像中将行人甲的像素区域标记为红色，并在第二图像中将行人甲的像素区域也标记为红色。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，每一第一掩膜图像均和第一图像具有相同尺寸，类似地，每一第二掩膜图像均和第二图像具有相同尺寸。进一步地，对于每一第一对象的第一掩膜图像而言，其所含像素点的像素值表示第一图像中与该像素点位置对应的像素点属于该第一对象的可能性，示例性地，可能性越大，像素值也越大，反之，可能性越小，像素值也越小；类似地，对于每一第二对象的第二掩膜图像而言，其所含像素点的像素值表示第二图像中与该像素点位置对应的像素点属于该第二对象的可能性，示例性地，可能性越大，像素值也越大，反之，可能性越小，像素值也越小。

在一个具体的实施场景中，上述位置对应的含义具体可以为具有相同像素坐标。例如，第一掩膜图像中位于像素坐标(i，j)处的像素点与第一图像中位于像素坐标(i，j)处的像素点相对应；或者，第二掩膜图像中位于像素坐标(m，n)处的像素点与第二图像中位于像素坐标(m，n)处的像素点相对应。

在一个具体的实施场景中，对于每一第一对象的第一掩膜图像而言，在其所含像素点的像素值高于预设阈值的情况下，可以认为第一图像中与该像素点位置对应的像素点属于该第一对象，类似地，对于每一第二对象的第二掩膜图像而言，在其所含像素点的像素值高于预设阈值的情况下，可以认为第二图像中与该像素点位置对应的像素点属于该第二对象。需要说明的是，预设阈值可以根据实际情况设置，如在像素值已经归一化至0至1范围内情况下，预设阈值可以设置为0.5、0.6等，在此不做限定。

在一个具体的实施场景中，如前所述，在像素值高于预设阈值的情况下，可以认为像素点属于对象，在此基础上，可以进一步将像素值重置为第一数值(如，1)，反之，在像素值不高于预设阈值的情况下，可以认为像素点不属于对象，在此基础上，可以进一步将像素值重置为第二数值(如，0)。示例性地，对于每一第一对象的第一掩膜图像而言，可以检查其所含像素点的像素值是否高于预设阈值，若是则可以将像素值重置为第一数值，否则可以重置为第二数值，以更新各个第一对象的第一掩膜图像；类似地，对于每一第二对象的第二掩膜图像而言，可以检查其所含像素点的像素点是否高于预设阈值，若是则可以将像素值重置为第一数值，否则可以重置为第二数值，以更新各个第二对象的第二掩膜图像。

在一个实施场景中，为了提升目标分割效率，可以预先训练一个目标跟踪模型，请结合参阅图2，图2是目标跟踪模型一实施例的框架示意图。如图2所示，目标跟踪模型可以包括目标分割网络，则第一图像和第二图像可以分别输入目标分割模型，得到各个第一对象的第一掩膜图像和各个第二对象的第二掩膜图像。具体地，可以预先收集若干样本图像，并获取样本图像中各个样本对象的样本掩膜图像，再利用目标分割网络对样本图像进行目标分割，得到各个样本对象的预测掩膜图像，从而可以基于同一对象的样本掩膜图像和预测掩膜图像之间的差异，调整目标分割网络的网络参数。

在一个具体的实施场景中，示例性地，可以分别采用诸如dice segmentationloss和position loss等损失函数来度量属于基于同一对象的样本掩膜图像和预测掩膜图像之间的差异，得到目标分割网络的损失值，并采用诸如梯度下降等优化方式对目标分割网络的网络参数进行调整。差异的具体度量过程，可以参阅诸如dice segmentation loss和position loss等损失函数的技术细节，参数的具体调整过程，可以参阅诸如梯度下降等优化方式的技术细节，在此不再赘述。

在一个具体的实施场景中，为了获取诸如第一对象、第二对象等前景对象的掩膜图像，目标分割网络可以包括但不限于诸如Mask R-CNN、PointRend、Instance-sensitiveFCN等实例分割网络，在此对目标分割网络的网络结构不做限定。

在一个具体的实施场景中，为了同时获取诸如第一对象、第二对象等前景对象的掩膜图像和诸如前述道路、天空、建筑物等背景对象的掩膜图像，目标分割网络可以包括但不限于诸如PanopticFCN等全景分割网络，在此对目标分割网络的网络结构不做限定。

步骤S12：基于第一掩膜图像和第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，并基于第一掩膜图像和第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息。

在一个实施场景中，对于在特征维度进行对象匹配，可以分别基于各第一对象的第一掩膜图像，提取得到各第一对象的第一特征表示，并分别基于各第二对象的第二掩膜图像，提取得到各第二对象的第二特征表示，在此基础上，再利用第一特征表示和第二特征表示，得到各第一对象与各第二对象之间的特征相似度，并基于各第一对象与各第二对象之间的特征相似度，得到第一匹配信息。特征提取以及特征匹配的具体过程，可以参阅下述相关公开实施例，在此暂不赘述，上述方式，仅需对各对象的掩膜图像进行特征提取，再度量特征相似度即可，能够降低在特征维度在图像之间进行对象匹配的复杂度，有利于提升跟踪速度。

在一个实施场景中，区别于上述将特征提取、特征匹配等分阶段执行的方式，为了提升在特征维度进行对象匹配的效率，作为一种实际应用过程中可选择的实施方式，也可以预先训练一个目标跟踪模型，且目标跟踪模型包括第一匹配网络。具体地，第一匹配网络可以包括若干特征提取层(如，卷积层、全连接层等)以及多层感知机，各第一对象的第一掩膜图像和各第二对象的第二掩膜图像经预处理之后，可以输入第一匹配网络进行处理。预处理的相关过程，可以参阅下述公开实施例中相关描述，在此暂不赘述。为了便于描述，上述各第一对象和各第二对象可以统称为N个对象，上述各第一对象的第一掩膜图像和各第二对象的第二掩膜图像可以统称为N个掩膜图像。在此过程中，上述N个掩膜图像经若干特征提取层处理之后，可以得到N个特征表示，并进一步由多层感知机继续处理，输出得到一个N*N的矩阵，矩阵每一行代表N个对象其中一个对象，矩阵每一列代表N个对象其中一个对象，矩阵中位于第i行第j列的元素，代表N个对象中第i个对象与N个对象中第j个对象之间的匹配度，则可以从矩阵中提取出各第一对象与各第二对象之间的匹配度，得到第一匹配信息。当然，在实际应用过程中，为了尽可能地将模型轻量化，以便于训练以及部署，可以选择上述将特征提取、特征匹配等分阶段执行的方式，且为了提升效率，第一特征表示以及第二特征表示可以由第一匹配网络执行，此时第一匹配网络可以仅包括少量诸如卷积层、全连接层等网络层，从而可以大大减少参数量，具体可以参阅下述相关公开实施例，在此暂不赘述。

在一个实施场景中，对于在空间维度进行对象匹配，可以利用第二图像对第一图像进行光流预测，得到第一图像的光流图像，并基于光流图像，对第一对象的第一掩膜图像进行逐像素偏移，得到第一对象在第二图像的拍摄时刻的预测掩膜图像，以及基于各个第一对象的预测掩膜图像分别与各第二对象的第二掩膜图像之间的重合度，得到第二匹配信息。上述光流预测、像素偏移以及重合度度量的具体过程，可以参阅下述公开实施例中相关描述，在此暂不赘述。上述方式，一方面能够基于像素级匹配实现对象匹配，有利于大大提升跟踪效果，特别是小尺寸对象的跟踪效果，另一方面在基于光流图像进行逐像素偏移之后仅需度量图像重合度即可得到匹配信息，也能够降低在空间维度在图像之间进行对象匹配的复杂度，有利于提升跟踪速度。

在一个实施场景中，区别于上述方式，作为一种实际应用过程中可选择的实施方式，也可以先获取各第一对象的第一掩膜图像与各第二对象的第二掩膜图像之间的第一最优位移向量，需要说明的是，第一掩膜图像在经该第一最优位移向量逐像素偏移之后，与第二掩膜图像具有最大重合度，并记录各第一对象的第一掩膜图像与各第二对象的第二掩膜图像之间的第一最优位移向量以及对应的最大重合度。与此同时，可以获取第一图像与第二图像之间的第二最优位移向量，类似地，第一图像在经该第二最优位移向量逐像素偏移之后，与第二图像具有最大重合度。在此基础上，可以度量各个第一最优位移向量分别与第二最优位移向量之间的向量相似度，需要说明的是，第一最优位移向量与第二最优位移向量越接近，向量相似度越大，反之，第一最优位移向量与第二最优位移向量越远离，向量相似度越小。基于此，对于各第一对象与各第二对象而言，可以将其对应的向量相似度与最大重合度进行加权处理，得到两者之间的匹配度，即可得到第二匹配信息。

步骤S13：融合第一匹配信息和第二匹配信息，得到跟踪信息。

在一个实施场景中，如前所述，第一匹配信息可以包括各第一对象与各第二对象之间的匹配度，为了便于区分，可以称之为第一匹配度；类似地，第二匹配信息可以包括各第一对象与各第二对象之间的匹配度，为了便于区分，可以称之为第二匹配度。在此基础上，可以利用第一预设权重、第二预设权重分别对第一匹配信息中第一匹配度、第二匹配信息中第二匹配度进行加权，得到第一加权匹配信息和第二加权匹配信息，且第一加权匹配信息包括第一对象与第二对象之间的第一加权匹配度，第二加权匹配信息包括第一对象与第二对象之间的第二加权匹配度。基于此，可以将第一加权匹配信息和第二加权匹配信息进行融合，得到最终匹配信息，且最终匹配信息包括第一对象与第二对象之间的最终匹配度。也就是说，在融合过程中，可以直接利用预设权重对匹配度进行加权融合。

在一个实施场景中，为了提升融合准确性，区别于前述方式，可以对第一匹配信息中第一匹配度进行自适应加权，得到第一加权匹配信息，并对第二匹配信息中第二匹配度进行自适应加权，得到第二加权匹配信息，基于此再将第一加权匹配信息和第二加权匹配信息进行融合，得到最终匹配信息，并基于最终匹配信息进行分析，得到跟踪信息。上述方式，在匹配信息的融合过程中，通过对第一匹配信息、第二匹配信息分别进行自适应加权，能够根据实际情况自适应地分别度量两者的重要程度，在此基础上再进行融合，有利于大大提升跟踪准确性。

在一个具体的实施场景中，如前所述，为了提升目标跟踪的效率，可以预先训练一个目标跟踪模型，以通过目标跟踪模型处理第一图像和第二图像，得到跟踪信息，且目标跟踪模型可以包括信息融合网络。请结合参阅图3，图3是信息融合过程一实施例的过程示意图。如图3所示，信息融合网络可以进一步包括第一加权子网络和第二加权子网络，第一加权子网络用于对第一匹配信息进行自适应加权，第二加权子网络用于对第二匹配信息进行自适应加权。具体地，为了尽可能地使目标跟踪模型轻量化，第一加权子网络可以包括但不限于1*1卷积层，第二加权子网络可以包括但不限于1*1卷积层。上述方式，能够通过神经网络根据实际情况获悉特征维度和空间维度两方面分别对目标跟踪的重要程度，有利于提升自适应加权的效率和精度。

在一个具体的实施场景中，如图2和图3所示，第一匹配信息和第二匹配信息均可以采用矩阵表示。以第一图像中存在M个第一对象且第二图像中存在N个第二对象为例，第一匹配信息和第二匹配信息均可以采用M*N的矩阵来表示，且对于第一匹配信息来说，矩阵中第i行第j列元素表示第i个第一对象与第j个第二对象之间的第一匹配度，而对于第二匹配信息来说，矩阵中第i行第j列元素表示第i个第一对象与第j个第二对象之间的第二匹配度。在此基础上，第一匹配信息经自适应加权之后所得到的第一加权匹配信息也可以采用M*N的矩阵来表示，第二匹配信息经自适应加权之后所得到的第二加权匹配信息也可以采用M*N的矩阵来表示，矩阵中每个元素所代表的含义可以参阅前述相关描述，在此不再赘述。

在一个具体的实施场景中，在将第一加权匹配信息和第二加权匹配信息进行融合过程中，可以将代表第一加权匹配信息的矩阵中第i行第j列元素与代表第二加权匹配信息的矩阵中第i行第j列元素直接相加，得到代表最终匹配信息的矩阵。也就是说，对于每一组第一对象和第二对象而言，可以将其第一加权匹配度和第二加权匹配度直接相加，得到其最终匹配度。示例性地，第一图像可以包含第一对象甲和第一对象乙共两个第一对象，且第二图像可以包含第二对象A和第二对象B共两个第二对象，则最终匹配信息可以采用2*2的矩阵来表示，该矩阵第一行代表第一对象甲分别与第二对象A、第二对象B之间的最终匹配度，该矩阵第二行代表第一对象乙分别与第二对象A、第二对象B之间的最终匹配度，该矩阵第一列代表第二对象A分别与第一对象甲、第一对象乙之间的最终匹配度，该矩阵第二列代表第二对象B分别与第一对象甲、第一对象乙之间的最终匹配度。

在一个具体的实施场景中，需要说明的是，跟踪信息具体可以包括第一对象与第二对象是否为同一对象。在此基础上，可以将各个第一对象与各个第二对象的两个组合，分别作为当前对象组，并基于当前对象组的第一参考信息和/或第二参考信息，确定当前第一对象和当前第二对象是否为同一对象，且当前第一对象为当前对象组中的第一对象，当前第二对象为当前对象组中的第二对象，第一参考信息包括：当前第一对象分别与各个第二对象之间的最终匹配度，第二参考信息包括：当前第二对象分别与各个第一对象之间的最终匹配度。如前所述，最终匹配度也可以采用矩阵来表示，则第一参考信息可以包含矩阵中代表第一当前对象的矩阵行所有元素，类似地，第二参考信息可以包含矩阵中代表第二当前对象的矩阵列所有元素。上述方式，能够尽可能地避免遗漏，有利于提升跟踪精度，另一方面在确定过程中结合第一参考信息、第二参考信息中至少一者，也有利于提升确定的准确性。

具体地，在仅结合第一参考信息的情况下，可以将当前第一对象与当前第二对象之间的最终匹配度，作为待分析匹配度，并响应于待分析匹配度为第一参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象。以前述最终匹配信息采用2*2的矩阵来表示为例，在当前第一对象为第一对象甲且当前第二对象为第二对象A的情况下，若矩阵中第1行第1列元素为矩阵第一行中最大值，则可以确定第一对象甲和第二对象A为同一对象。其他情况可以以此类推，在此不再一一举例。上述方式，仅需搜索第一参考信息中的最大值，即可完成确定操作，有利于降低确定复杂度，并提升确定速度。

具体地，在仅结合第二参考信息的情况下，可以将当前第一对象与当前第二对象之间的最终匹配度，作为待分析匹配度，并响应于待分析匹配度为第二参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象。以前述最终匹配信息采用2*2的矩阵来表示为例，在当前第一对象为第一对象甲且当前第二对象为第二对象A的情况下，若矩阵中第1行第1列元素为矩阵第一列中最大值，则可以确定第一对象甲和第二对象A为同一对象。其他情况可以以此类推，在此不再一一举例。上述方式，仅需搜索第二参考信息中的最大值，即可完成确定操作，有利于降低确定复杂度，并提升确定速度。

具体地，在同时结合第一参考信息和第二参考信息的情况下，可以将当前第一对象与当前第二对象之间的最终匹配度，作为待分析匹配度，并响应于待分析匹配度为第一参考信息和第二参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象。以前述最终匹配信息采用2*2的矩阵来表示为例，在当前第一对象为第一对象甲且当前第二对象为第二对象A的情况下，若矩阵中第1行第1列元素同时为矩阵第一行中最大值以及第一列中最大，则可以确定第一对象甲和第二对象A为同一对象。其他情况可以以此类推，在此不再一一举例。上述方式，通过同时搜索第一参考信息和第二参考信息中的最大值来完成确定操作，能够在第一参考信息和第二参考信息基础上实现协同校验，以实现对象之间一对一的匹配约束，有利于降低确定复杂度，并提升确定精度。

此外，需要说明的是，为了进一步提高目标跟踪准确性和鲁棒性，在上述过程中，若确定待分析匹配为最大值，还可以进一步检测待分配匹配度是否高于预设阈值，若是则可以确定当前第一对象和当前第二对象为同一对象，否则当前第一对象和当前第二对象可以认为并非同一对象。

在一个实施场景中，在对跟踪准确性要求相对宽松的情况下，也可以在特征维度进行对象匹配过程中，在提取得到各第一对象的第一特征表示以及各第二对象的第二特征表示之后，直接基于这些特征表示进行分析，得到跟踪信息。具体而言，对于各个第一对象而言，可以基于其第一特征表示分别与各个第二对象的第二特征表示之间的特征相似度，得到其与各个第二对象预测为同一对象的概率值，并基于各个概率值，得到与该第一对象为同一对象的第二对象。上述方式，直接基于第一对象的第一特征表示和第二对象的第二特征表示之间的特征相似度，分析得到跟踪信息，有利于降低跟踪复杂度。

在一个具体的实施场景中，可以将第一特征表示分别与各个第二对象的第二特征表示之间的特征相似度进行归一化操作，得到第一对象分别与各个第二对象预测为同一对象的概率值。仍以第一图像中包含M个第一对象且第二图像中包含N个第二对象为例，在对M个第一对象中第i个第一对象进行对象匹配时，可以将该第一对象的第一特征表示记为M(i)，相应地第j个第二对象的第二特征表示可以记为N(j)，以通过softmax实现归一化操作为例，第i个第一对象分别与各个第二对象预测为同一对象的概率值可以表示为：

上述公式(1)中，x∈t表示属于第二图像中各个第二对象，上标T表示转置。

在一个具体的实施场景中，各个第二对象分别标记有序号值，如第一个第二对象可以标记有序号值“1”，第二个第二对象可以标记有序号值“2”，以此类推，在此不再一一举例。在此基础上，可以基于第二对象的序号值和第二对象对应的概率值，得到期望值，并将期望值上取整之后的数值，作为目标序号值，以及将目标序号值所属的第二对象，视为与第一对象为同一对象。为了便于表述，可以将目标序号值记为

则目标序号值可以表示为：

上述公式(2)中，t-δ→t表示第一图像t-δ中第一对象匹配至第二图像t中第二对象。需要说明的是，上述公式(2)中未表示出上取整操作，在实际应用过程中，由于期望值可能是小数，则为了确定目标序号值，可以直接对期望值进行上取整操作。

在一个实施场景中，如前所述，在得到跟踪信息之后，可以将不同图像中属于同一对象(如，同一前景对象、同一背景对象)的像素区域标记为同一种颜色。请结合参阅图4，图4是全景分割图像一实施例的示意图。如图4所示，图4中上图表示图2中第一图像对应的全景分割图像，图4中下图表示图2中第二图像对应的全景分割图像，图4上下两幅图像中对应于同一对象的像素区域可以以相同灰度予以表示。

请参阅图5，图5是在特征维度进行对象匹配一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S51：分别基于各第一对象的第一掩膜图像，提取得到各第一对象的第一特征表示，并分别基于各第二对象的第二掩膜图像，提取得到各第二对象的第二特征表示。

具体地，可以基于掩膜图像中各个像素点的像素值，确定对象边界，且对象边界为掩膜图像所属对象的边界，并沿对象边界从掩膜图像中裁剪出区域图像，以及基于区域图像进行特征提取，得到所属对象的特征表示，且在掩膜图像为第一掩膜图像的情况下，所属对象为第一对象，特征表示为第一特征表示，在掩膜图像为第二掩膜图像的情况下，所属对象为第二对象，特征表示为第二特征表示。上述方式，能够在特征提取过程中，排除与掩膜图像所属对象无关像素的干扰，有利于提升特征表示的准确性。

在一个实施场景中，如前所述公开实施例所述，对于每一对象的掩膜图像而言，属于该对象的像素点其像素值高于预设阈值(如，0.5、0.6等)，或者其像素值直接设置为第一数值(如，1)，则可以将像素值高于预设阈值(或者像素值为第一数值)的像素点作为目标像素点，并将包围目标像素点的矩形框，作为其对象边界。

在一个实施场景中，请结合参阅图6，图6是在特征维度进行对象匹配一实施例的过程示意图。如图6所示，仍以第一图像中包含M个第一对象且第二图像中包含N个第二对象为例，第一掩膜图像的尺寸可以表示为M*H*W，且第二掩膜图像的尺寸可以表示为N*H*W，需要说明的是，H为掩膜图像的高度，W为掩膜图像的宽度。经上述裁剪之后，可以进一步通过诸如双线性插值等插值算法调整为预设尺寸(如，256*512)，并将空白区域填充为0，以得到区域图像。

在一个实施场景中，如前所述，为了提升目标跟踪效率，可以预先训练一个目标跟踪模型，且目标跟踪模型包括第一匹配网络，第一匹配网络具体可以包括第一提取子网络和第二提取子网络，且第一提取子网络用于提取第一特征表示，第二提取子网络用于提取第二特征表示。为了进一步尽可能地轻量化网络模型，第一提取子网络和第二提取子网络均可以包括若干全连接层(Fully Connection layer，FC)，如图6所示，可以包含两层全连接层(即图6中2*FC)，得到1024维的第一特征表示和1024维的第二特征表示。需要说明是的，在实际应用过程中，并不限于第一提取子网络和第二提取子网络的网络结构，可以根据实际情况进行设置，如还可以包括卷积层等，在此不做限定。

步骤S52：利用第一特征表示和第二特征表示，得到各第一对象与各第二对象之间的特征相似度。

具体地，对于任一第一对象和任一第二对象而言，可以将第一对象的第一特征表示和第二对象的第二特征表示相乘，得到两者之间的特征相似度。以第一特征表示为1024维特征向量且第二特征表示也为1024维特征向量为例，可以将两者对应位置处元素相乘之后进行累加，得到特征相似度。

步骤S53：基于各第一对象与各第二对象之间的特征相似度，得到第一匹配信息。

具体地，在得到特征相似度之后，可以对计算得到的特征相似度进行归一化操作，得到第一匹配度。在得到任一第一对象与任一第二对象之间的第一匹配度之后，即可将这些第一匹配度视为第一匹配信息。此外，请结合参阅图6，仍以第一图像中包含M个第一对象，第二图像中包含N个第二对象为例，第一匹配信息最终可以表示为M*N的矩阵，且矩阵中第i行第j列元素表示第i个第一对象与第j个第二对象之间的第一匹配度。

上述方案，分别基于各第一对象的第一掩膜图像，提取得到各第一对象的第一特征表示，并分别基于各第二对象的第二掩膜图像，提取得到各第二对象的第二特征表示，基于此再利用第一特征表示和第二特征表示，得到各第一对象与各第二对象之间的特征相似度，并基于各第一对象与各第二对象之间的特征相似度，得到第一匹配信息，即在特征维度在图像之间进行对象匹配过程中，仅需对各对象的掩膜图像进行特征提取，再度量特征相似度即可，能够降低在特征维度在图像之间进行对象匹配的复杂度，有利于提升跟踪速度。

请参阅图7，图7是在空间维度进行对象匹配一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S71：利用第二图像对第一图像行光流预测，得到第一图像的光流图像。

在一个实施场景中，请结合参阅图8，图8是在空间维度进行对象匹配一实施例的过程示意图。如图8所示，光流图像可以为二通道图像，其中一个通道图像包括第一图像中各个像素点在横向方向的偏移值，另一个通道图像包括第一图像中各个像素点在纵向方向的偏移值。需要说明的是，在光流预测准确无误的情况下，第一图像中像素点在横向方向和纵向方向分别按照偏移值进行偏移之后可以得到一个像素位置，且第二图像中位于该像素位置的像素点理论上仍为其本身。示例性地，第一图像中第一对象甲最顶端的像素点在横向方向和纵向方向分别按照偏移值进行偏移之后可以得到一个像素位置，且按照该像素位置在第二图像中所找到的像素点仍为第一对象甲最顶端的像素点。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，如前所述，为了提升目标跟踪效率，可以预先训练一个目标跟踪模型，且目标跟踪模型可以包括光流预测网络，光流预测网络可以包括但不限于RAFT(即Recurrent All-Pairs Field Transforms for Optical Flow)等，在此对光流预测网络的网络结构不做限定。在此基础上，可以将第一图像和第二图像输入光流预测网络，得到光流图像。需要说明的是，光流预测网络的工作原理，可以参阅诸如RAFT等光流预测网络的技术细节，在此不再赘述。

步骤S72：基于光流图像，对第一对象的第一掩膜图像进行逐像素偏移，得到第一对象在第二图像的拍摄时刻的预测掩膜图像。

具体地，可以将光流图像和第一掩膜图像进行逐像素相乘，得到第一掩膜图像中像素点的偏移值，并将第一掩膜图像中像素点的第一像素坐标与偏移值相加，得到像素点在第二图像的拍摄时刻的第二像素坐标(即在上述拍摄时刻的预测像素坐标)，并基于第一掩膜图像中像素点的第二像素坐标，得到预测掩膜图像。上述方式，在逐像素偏移过程中，仅需像素相乘、相加等简单运算即可，故能够大大降低像素偏移的复杂度，有利于进一步提升跟踪速度。

在一个实施场景中，具体可以将第一掩膜图像中各个像素点的像素值与光流图像中对应位置处像素点的像素值相乘，得到第一掩膜图像中像素点的偏移值。关于对应位置的具体含义，可以参阅前述公开实施例中相关描述，在此不再赘述。请结合参阅图8中掩膜图像示例，掩膜图像中各个栅格分别代表各个像素点，为了便于描述，第一掩膜图像中采用灰度填充的栅格其像素值为1，则第一掩膜图像可以采用矩阵表示为：

此外，横向方向通道的光流图像中各像素点的像素值可以均为0，而纵向方向通道的光流图像中各像素点的像素值可以均为1，则上述第一掩膜图像分别与横向方向通道的光流图像相乘之后，可以得到第一掩膜图像中各像素点在横向方向的偏移值：

类似地，上述第一掩膜图像分别与纵向方向通道的光流图像相乘之后，可以得到第一掩膜图像中各像素点在纵向方向的偏移值：

故此，结合上述矩阵(5)和矩阵(6)，可以得到第一掩膜图像中各个像素点分别在横向方向和纵向方向上的偏移值，再加上像素点在第一掩膜图像中的第一像素坐标，即可得到像素点在拍摄时刻的第二像素坐标。示例性地，对于第一掩膜图像中第一像素坐标(1,1)处像素点而言，由于其在横向方向和纵向方向的偏移值均为0，故其在拍摄时刻的第二像素坐标仍为(1,1)；或者，对于第一掩膜图像中第一像素坐标(1,2)为例，由于其在横向方向的偏移值为0且纵向方向的偏移值为1，故其在拍摄时刻的第二像素坐标为(1,3)，其他像素点可以以此类推，在此不再一一举例。在对第一掩膜图像中所有像素点均执行像素偏移操作之后，即可得到如图8中掩膜图像示例处的预测掩膜图像。

步骤S73：基于各个第一对象的预测掩膜图像分别与各个第二对象的第二掩膜图像之间的重合度，得到第二匹配信息。

具体地，可以采用dice系数来计算第一对象的预测掩膜图像与第二对象的第二掩膜图像之间的重合度，并将该重合度作为第一对象与第二对象之间的第二匹配度，在得到任一第一对象与任一第二对象之间的第二匹配度之后，即可视为得到第二匹配信息。

在一个实施场景中，为例便于描述，可以将预测掩膜图像中像素点总数记为N，则第二掩膜图像中像素点总数也可以记为N，且预测掩膜图像中第i个像素点的像素值可以记为p_i，第二掩膜图像中第i个像素点的像素值可以记为g_i，则预测掩膜图像和第二掩膜图像之间的重合度可以表示为：

上述公式(7)中，sim_pos表示重合度，以图8所示的预测掩膜图像和第二掩膜图像为例，两者之间的重合度经上述公式(7)计算为3/8，即两个掩膜图像之间的交并比(Intersection over Union，IoU)。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，如前所述公开实施例所述，第二匹配信息也可以采用矩阵来表示。请结合参阅图8，以第一图像中存在M个第一对象且第二图像中存在N个第二对象为例，第二匹配信息可以采用M*N的矩阵来表示，且矩阵中第i行第j列元素表示第i个第一对象与第j个第二对象之间的第二匹配度。

上述方案，利用第二图像对第一图像进行光流预测，得到第一图像的光流图像，并基于光流图像，对第一对象的第一掩膜图像进行逐像素偏移，得到第一对象在第二图像的拍摄时刻的预测掩膜图像，以及基于各第一对象的预测掩膜图像分别与各第二对象的第二掩膜图像之间的重合度，得到第二匹配信息，即在空间维度在图像之间进行对象匹配过程中，一方面能够基于像素级匹配实现对象匹配，有利于大大提升跟踪效果，特别是小尺寸对象的跟踪效果，另一方面在基于光流图像进行逐像素偏移之后仅需度量图像重合度即可得到匹配信息，也能够降低在空间维度在图像之间进行对象匹配的复杂度，有利于提升跟踪速度。

请参阅图9，图9是本申请目标跟踪方法另一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S91：分别对第一图像和第二图像进行目标分割，得到第一图像中第一对象的第一掩膜图像和第二图像中第二对象的第二掩膜图像。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S92：基于第一掩膜图像和第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，并基于第一掩膜图像和第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S93：融合第一匹配信息和第二匹配信息，得到跟踪信息。

本公开实施例中，跟踪信息包括第一对象与第二对象是否为同一对象，具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S94：响应于跟踪信息满足预设条件，将跟踪信息作为第一跟踪信息，并获取第三图像。

本公开实施例中，第三图像、第一图像和第二图像分别是先后拍摄得到的，示例性地，可以将第三图像记为t-δ，第一图像可以记为t，第二图像可以记为t+δ。

在一个实施场景中，预设条件可以包括：第二图像中存在目标对象。需要说明的是，目标对象与任一第一对象均不是同一对象，此时目标对象有可能是在第二图像中新出现的对象，也有可能在第一图像中由于被遮挡且在第二图像中遮挡消失，使得在对第二图像中第一对象进行匹配时无法匹配得到，从而可以通过下述校验过程来进行进一步校验。上述方式，能够通过时序一致性校验，大大缓解对象消失、遮挡等情况对跟踪精度的影响，有利于提升跟踪精度。

在一个实施场景中，区别于前述将预设条件设置为第二图像中存在目标对象的方式，仅在第二图像出现未成功匹配的第二对象才触发后续校验，作为实际应用过程中另一种可能的实施方式，预设条件也可以设置为空，即对于触发校验不设置任何附加条件，只要得到跟踪信息就触发后续校验。

步骤S95：基于第三图像和第二图像进行目标跟踪，得到第二跟踪信息。

本公开实施例中，第二跟踪信息包括第二对象与第三图像中的第三对象是否为同一对象，目标跟踪的具体过程，可以参阅前述任一目标跟踪方法实施例，在此不再赘述。

步骤S96：基于第一跟踪信息和第二跟踪信息进行一致性校验，得到校验结果。

具体地，不同图像中相同对象可以具有相同对象标识，可以基于第二跟踪信息对目标对象进行分析，得到分析结果，响应于分析结果包括目标对象与参考对象为同一对象，将参考对象的对象标识作为目标对象的对象标识，且参考对象为其中一个第三对象，也就是说，在第二图像中存在未匹配成功的目标对象的情况下，若在第三图像中成功匹配到一个第三对象，则该第三对象即可视为参考对象，并将参考对象的对象标识作为目标对象的对象标识，即将目标对象和参考对象确定为同一对象；此外，还可以响应于分析结果包括目标对象与第三图像中任一第三对象均不是同一对象，则可以为目标对象标记新的对象标识，也就是说，在第二图像中存在未匹配成功的目标对象的情况下，若在第三图像中也匹配不到与该目标对象为同一对象的第三对象，则可以认为目标对象为在第二图像中新出现的，故可以为其标记一个新的对象标识。上述方式，能够通过时序一致性校验处理由于对象遮挡、对象变形等原因造成对象消失后重新出现的复杂情况，并根据实际情况进行校验，有利于提升目标跟踪在复杂情况下的跟踪效果。

在一个实施场景中，上述校验操作可用于约束多帧图像之间的跟踪一致性，具体而言，可以用

表示可微分操作

其中，s和t表示时间步，上述可微分操作

用于度量时间步s的图像x_s中某一对象p(即

)与时间步t的图像x_t中某一对象p(即

)之间的相似度。如前所述，在实际应用过程中，可以由图像t-δ至图像t，由图像t至图像t+δ实施可微分操作

由此可以建立如下时序一致性：

在一个实施场景中，请结合参阅图10，图10是时间一致性约束一实施例的示意图。如图10所示，由于遮挡，第一图像t中虚线框内的汽车被行人遮挡，而被误分割为行人，导致其真正分割缺失。故在基于第三图像t-δ和第一图像t，或第一图像t和第二图像t+δ进行跟踪时，会导致对汽车这一对象跟踪失败。在此情况下，可以通过基于第三图像t-δ和第二图像t+δ之间关系传导来解决这一限制。由于第二图像t+δ中汽车未在第一图像t中成功匹配，通过第二图像t+δ和第三图像t-δ进行跟踪，可以得到匹配信息，即第二图像t+δ中各个对象与第三图像t-δ中各个对象之间的匹配度，在此基础上，如果第二图像t中汽车与第三图像t-δ中某一对象之间的匹配度高于预设阈值，则可以认为第二图像t中汽车与第三图像t-δ中该对象为同一对象，并为第二图像t中汽车标记上第三图像t-δ中该对象的对象标识，反之，可以为第二图像t中汽车标记上新的对象标识。

上述方案，在得到跟踪信息之后，进一步响应于跟踪信息满足预设条件，将跟踪信息作为第一跟踪信息，并获取第三图像，且第三图像、第一图像和第二图像分别是先后拍摄得到的，并基于第三图像和第二图像进行目标跟踪，得到第二跟踪信息，且第二跟踪信息包括第二对象与第三图像中的第三对象是否为同一对象，在此基础上，再基于第一跟踪信息和第二跟踪信息进行一致性校验，得到校验结果，故能够大大减少目标跟踪在时序上出现不一致的情况，有利于进一步提升跟踪精度。

请参阅图11，图11是本申请目标跟踪模型的训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S111：获取第一样本图像中第一样本对象的第一样本掩膜图像、第二样本图像中第二样本对象的第二样本掩膜图像和样本跟踪信息。

本公开实施例中，样本跟踪信息包括第一样本对象与第二样本对象是否实际为同一对象，示例性地，在第一样本对象与第二样本对象实际为同一对象的情况下，可以标记为第一数值(如，1)，反之，在第一样本对象与第二样本对象实际不为同一对象的情况下，可以标记为第二数值(如，0)。此外，关于第一样本掩膜图像、第二样本掩膜图像的具体含义，可以参阅前述公开实施例中关于第一掩膜图像、第二掩膜图像的相关描述，在此不再赘述。

在一个实施场景中，如前所述公开实施例中，为了提升获取掩膜图像的效率，目标跟踪模型可以包括目标分割网络，其具体网络结构可以参阅前述公开实施例中相关描述，在此不再赘述。在此基础上，可以利用目标分割模型分别对第一样本图像、第二样本图像进行目标分割，得到第一样本掩膜图像、第二样本掩膜图像。具体可以参阅前述公开实施例中关于目标分割的相关描述，在此不再赘述。

在一个实施场景中，在整体训练目标跟踪网络之前，可以先将目标分割网络训练收敛，目标分割网络的训练过程，可以参阅诸如Mask R-CNN、PointRend、Instance-sensitive FCN等分割网络的技术细节，在此不再赘述。

步骤S112：基于目标跟踪模型的第一匹配网络将第一样本掩膜图像和第二样本掩膜图像在特征维度进行对象匹配，得到第一预测匹配信息，并基于目标跟踪模型的第二匹配网络将第一样本掩膜图像和第二样本掩膜图像在空间维度进行对象匹配，得到第二预测匹配信息。

具体可以参阅前述公开实施例中关于在特征维度进行对象匹配的相关描述，以及关于在空间维度进行对象匹配的相关描述，在此不再赘述。

在一个实施场景中，在整体训练目标跟踪模型之前，可以先训练第一匹配网络至收敛，即第一匹配网络在整体训练目标跟踪模型之前已完成训练。需要说明的是，在此情况下，前述目标分割网络在训练第一匹配网络之前已完成训练。

在一个实施场景中，在第一匹配网络的训练过程中，可以基于第一匹配网络的第一提取子网络对第一样本对象的第一样本掩膜图像进行特征提取，得到第一样本对象的第一样本特征表示，并基于第一匹配网络的第二提取子网络对第二样本对象的第二样本掩膜图像进行特征提取，得到第二样本对象的第二样本特征表示，在此基础上，对于各个第一样本对象，基于第一样本对象的第一样本特征表示分别与各个第二样本特征表示之间的特征相似度，得到第一样本对象分别与各个第二样本对象预测为同一对象的预测概率值，并基于各个预测概率值的期望值，得到第一样本对象的预测匹配对象，以及基于预测匹配对象与第一样本对象的实际匹配对象之间的差异，得到第一样本对象对应的子损失，且预测匹配对象为与第一样本对象预测为同一对象的第二样本对象，实际匹配对象为与第一样本对象实际为同一对象的第二样本对象，实际匹配对象是基于样本跟踪信息确定的，从而统计各个第一样本对象对应的子损失，得到第一匹配网络的总损失值，进而基于总损失值，调整第一匹配网络的网络参数。上述方式，一方面在整体训练目标跟踪模型先对第一匹配网络进行训练，有利于提升目标跟踪模型的训练效率，另一方面通过度量特征相似度等操作确定预测匹配对象，在此基础上再计算损失，能够通过可微分匹配使第一匹配网络在训练过程中学习特征表示。

在一个具体的实施场景中，特征提取的具体过程，可以参阅前述公开实施例中相关描述，在此不再赘述。

在一个具体的实施场景中，可以将特征相似度进行归一化，得到预测概率值，归一化操作具体可以通过softmax实现。进一步地，可以基于第二样本对象的序号值和第二样本对象对应的预测概率值，得到期望值，并将期望值上取整之后的数值，作为目标序号值，以及将目标序号值所属的第二样本对象，作为第一样本对象的预测匹配对象。此外，预测概率值的具体计算过程，以及预测匹配对象的具体确定过程，可以参阅前述公开实施例中关于“基于其第一特征表示分别与各个第二对象的第二特征表示之间的特征相似度，得到其与各个第二对象预测为同一对象的概率值”，以及关于“基于各个概率值，得到与该第一对象为同一对象的第二对象”的相关描述。

在一个具体的实施场景中，可以采用诸如交叉熵等损失函数计算得到子损失。具体而言，子损失可以表示为：

上述公式(9)中，y用于标记预测匹配对象与第一样本对象的实际匹配对象是否为相同，在相同的情况下，y可以设置为1，在不相同的情况下，y可以设置为0，此外，p表示前述预测匹配对象对应的预测概率值。进一步地，以第一样本图像中包含M个第一样本对象为例，可以对这M个第一样本对象对应的子损失进行取平均，得到第一匹配网络的总损失

在一个具体的实施场景中，在计算得到第一匹配网络的总损失之后，可以采用诸如梯度下降等优化方式对第一匹配网络的网络参数进行调整，具体过程可以参阅诸如梯度下降等优化方式的技术细节，在此不再赘述。

在一个实施场景中，第二匹配网络可以包括光流预测网络，用于利用第二样本图像对第一样本图像进行光流预测，得到第一样本图像的样本光流图像，且第二样本匹配信息是基于样本光流图像得到的，具体可以参阅前述公开实施例中关于光流图像、第二匹配信息等相关描述，在此不再赘述。

步骤S113：利用目标跟踪模型的信息融合网络融合第一预测匹配信息和第二预测匹配信息，得到预测跟踪信息。

本公开实施例中，预测跟踪信息包括第一样本对象与第二样本对象是否预测为同一对象，信息融合的具体过程，可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S114：基于样本跟踪信息与预测跟踪信息之间的差异，调整目标跟踪模型的网络参数。

具体地，可以采用诸如交叉熵等损失函数处理样本跟踪信息与预测跟踪信息之间的差异，得到目标跟踪模型的总损失，再基于诸如梯度下降等优化方式调整目标跟踪模型的网络参数。需要说明的是，损失的具体计算过程，可以参阅诸如交叉熵等损失函数的技术细节，参数的具体调整过程，可以参阅诸如梯度下降等优化方式的技术细节，在此不再赘述。此外，如前所述，在整体训练目标跟踪模型之前，上述目标分割网络、第一匹配网络、第二匹配网络均已训练收敛，故在调整目标跟踪模型的网络参数过程中，可以固定前述目标分割网络、第一匹配网络、第二匹配网络的网络参数，仅调整信息融合网络的网络参数，当然，也可以同时调整各个网络的网络参数，在此不做限定。

上述方案，一方面在特征维度在图像之间进行对象匹配，能够有利于确保对大尺寸对象的跟踪效果，另一方面在空间维度在图像之间进行对象匹配，能够有利于确保对小尺寸对象的跟踪效果，并基于此融合两种匹配方式所得到的匹配信息得到跟踪信息，故能够同时兼顾大尺寸对象和小尺寸对象，有利于提升目标跟踪模型的精度。

请参阅图12，图12是目标跟踪装置120一实施例的框架示意图。目标跟踪装置120包括：目标分割模块121、对象匹配模块122和信息融合模块123，目标分割模块121，用于分别对第一图像和第二图像进行目标分割，得到第一图像中第一对象的第一掩膜图像和第二图像中第二对象的第二掩膜图像；对象匹配模块122，用于基于第一掩膜图像和第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，并基于第一掩膜图像和第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息；信息融合模块123，用于融合第一匹配信息和第二匹配信息，得到跟踪信息；其中，跟踪信息包括第一对象与第二对象是否为同一对象。

上述方案，一方面在特征维度在图像之间进行对象匹配，能够有利于确保对大尺寸对象的跟踪效果，另一方面在空间维度在图像之间进行对象匹配，能够有利于确保对小尺寸对象的跟踪效果，并基于此融合两种匹配方式所得到的匹配信息得到跟踪信息，故能够同时兼顾大尺寸对象和小尺寸对象，有利于提升目标跟踪精度。

在一些公开实施例中，对象匹配模块122包括特征提取子模块，用于分别基于各第一对象的第一掩膜图像，提取得到各第一对象的第一特征表示，并分别基于各第二对象的第二掩膜图像，提取得到各第二对象的第二特征表示；对象匹配模块122包括相似度量子模块，用于利用第一特征表示和第二特征表示，得到各第一对象与各第二对象之间的特征相似度；对象匹配模块122包括第一匹配子模块，用于基于各第一对象与各第二对象之间的特征相似度，得到第一匹配信息。

因此，在特征维度在图像之间进行对象匹配过程中，仅需对各对象的掩膜图像进行特征提取，再度量特征相似度即可，能够降低在特征维度在图像之间进行对象匹配的复杂度，有利于提升跟踪速度。

在一些公开实施例中，特征提取子模块包括边界确定单元，用于基于掩膜图像中各个像素点的像素值，确定对象边界；其中，对象边界为掩膜图像所属对象的边界；特征提取子模块包括图像裁剪单元，用于沿对象边界从掩膜图像中裁剪出区域图像；特征提取子模块包括表示提取单元，用于基于区域图像进行特征提取，得到所属对象的特征表示；其中，在掩膜图像为第一掩膜图像的情况下，所属对象为第一对象，特征表示为第一特征表示，在掩膜图像为第二掩膜图像的情况下，所属对象为第二对象，特征表示为第二特征表示。

因此，能够在特征提取过程中，排除与掩膜图像所属对象无关像素的干扰，有利于提升特征表示的准确性。

在一些公开实施例中，对象匹配模块122包括光流预测子模块，用于利用第二图像对第一图像行光流预测，得到第一图像的光流图像；对象匹配模块122包括像素偏移子模块，用于基于光流图像，对第一对象的第一掩膜图像进行逐像素偏移，得到第一对象在第二图像的拍摄时刻的预测掩膜图像；对象匹配模块122包括第二匹配子模块，用于基于各个第一对象的预测掩膜图像分别与各个第二对象的第二掩膜图像之间的重合度，得到第二匹配信息。

因此，在空间维度在图像之间进行对象匹配过程中，一方面能够基于像素级匹配实现对象匹配，有利于大大提升跟踪效果，特别是小尺寸对象的跟踪效果，另一方面在基于光流图像进行逐像素偏移之后仅需度量图像重合度即可得到匹配信息，也能够降低在空间维度在图像之间进行对象匹配的复杂度，有利于提升跟踪速度。

在一些公开实施例中，像素偏移子模块包括像素相乘单元，用于将光流图像和第一掩膜图像进行逐像素相乘，得到第一掩膜图像中像素点的偏移值；像素偏移子模块包括像素相加单元，用于将第一掩膜图像中像素点的第一像素坐标与偏移值相加，得到像素点在拍摄时刻的第二像素坐标；像素偏移子模块包括图像获取单元，用于基于第一掩膜图像中像素点的第二像素坐标，得到预测掩膜图像。

因此，在逐像素偏移过程中，仅需像素相乘、相加等简单运算即可，故能够大大降低像素偏移的复杂度，有利于进一步提升跟踪速度。

在一些公开实施例中，第一匹配信息包括第一对象与第二对象之间的第一匹配度，第二匹配信息包括第一对象与第二对象之间的第二匹配度，信息融合模块123包括加权子模块，用于对第一匹配信息中第一匹配度进行自适应加权，得到第一加权匹配信息，并对第二匹配信息中第二匹配度进行自适应性加权，得到第二加权匹配信息；其中，第一加权匹配信息包括第一对象与第二对象之间的第一加权匹配度，第二加权匹配信息包括第一对象与第二对象之间的第二加权匹配度；信息融合模块123包括融合子模块，用于将第一加权匹配信息和第二加权匹配信息进行融合，得到最终匹配信息；其中，最终匹配信息包括第一对象与第二对象之间的最终匹配度；信息融合模块123包括分析子模块，用于基于最终匹配信息进行分析，得到跟踪信息。

因此，在匹配信息的融合过程中，通过对第一匹配信息、第二匹配信息分别进行自适应加权，能够根据实际情况自适应地分别度量两者的重要程度，在此基础上再进行融合，有利于大大提升跟踪准确性。

在一些公开实施例中，跟踪信息是利用目标跟踪模型对第一图像和第二图像进行检测得到的，目标跟踪模型包括信息融合网络，信息融合网络包括第一加权子网络和第二加权子网络，第一加权子网络用于对第一匹配信息进行自适应性加权，第二加权子网络用于对第二匹配信息进行自适应性加权。

因此，能够通过神经网络根据实际情况获悉特征维度和空间维度两方面分别对目标跟踪的重要程度，有利于提升自适应加权的效率和精度。

在一些公开实施例中，分析子模块包括组合单元，用于将各个第一对象与各个第二对象的两两组合，分别作为当前对象组；分析子模块包括确定单元，用于基于当前对象组的第一参考信息和/或第二参考信息，确定当前第一对象和当前第二对象是否为同一对象；其中，当前第一对象为当前对象组中的第一对象，当前第二对象为当前对象组中的第二对象，第一参考信息包括：当前第一对象分别与各个第二对象之间的最终匹配度，第二参考信息包括：当前第二对象分别与各个第一对象之间的最终匹配度。

因此，一方面能够确定每一对象组中的两个对象是否为同一对象，从而能够尽可能地避免遗漏，有利于提升跟踪精度，另一方面在确定过程中结合第一参考信息、第二参考信息中至少一者，也有利于提升确定的准确性。

在一些公开实施例中，分析子模块包括选择单元，用于将当前第一对象与当前第二对象之间的最终匹配度，作为待分析匹配度；确定单元具体用于执行以下任一者：响应于待分析匹配度为第一参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象；响应于待分析匹配度为第二参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象；响应于待分析匹配度为第一参考信息和第二参考信息中的最大值，确定当前第一对象和当前第二对象为同一对象。

因此，一方面通过前两者确定方式仅需搜索第一参考信息或第二参考信息中的最大值，即可完成确定操作，有利于降低确定复杂度，并提升确定速度，另一方面通过最后一种确定方式同时搜索第一参考信息和第二参考信息中的最大值来完成确定操作，能够在第一参考信息和第二参考信息基础上实现协同校验，有利于降低确定复杂度，并提升确定精度。

在一些公开实施例中，目标跟踪装置120还包括条件响应模块，用于响应于跟踪信息满足预设条件，将跟踪信息作为第一跟踪信息，并获取第三图像；其中，第三图像、第一图像和第二图像分别是先后拍摄得到的；目标跟踪装置120还包括重复跟踪模块，用于基于第三图像和第二图像进行目标跟踪，得到第二跟踪信息，其中，第二跟踪信息包括第二对象与第三图像中的第三对象是否为同一对象；目标跟踪装置120还包括信息校验模块，用于基于第一跟踪信息和第二跟踪信息进行一致性校验，得到校验结果。

因此，能够大大减少目标跟踪在时序上出现不一致的情况，有利于进一步提升跟踪精度。

在一些公开实施例中，预设条件包括：第二图像中存在目标对象；其中，目标对象与任一第一对象均不是同一对象。

在一些公开实施例中，不同图像中相同对象具有相同对象标识，信息校验模块包括信息分析子模块，用于基于第二跟踪信息对目标对象进行分析，得到分析结果；信息校验模块包括第一响应子模块，用于响应于分析结果包括目标对象与参考对象为同一对象，将参考对象的对象标识作为目标对象的对象标识；其中，参考对象为其中一个第三对象；信息校验模块包括第二响应子模块，用于响应于分析结果包括目标对象与第三图像中任一第三对象均不是同一对象，为目标对象标记新的对象标识。

因此，能够通过时序一致性校验处理由于对象遮挡、对象变形等原因造成对象消失后重新出现的复杂情况，并根据实际情况进行校验，有利于提升目标跟踪在复杂情况下的跟踪效果。

请查阅图13，图13是本申请目标跟踪模型的训练装置130一实施例的框架示意图。目标跟踪模型的训练装置130包括：样本获取模块131、样本匹配模块132、样本融合模块133和参数调整模块134，样本获取模块131，用于获取第一样本图像中第一样本对象的第一样本掩膜图像、第二样本图像中第二样本对象的第二样本掩膜图像和样本跟踪信息；其中，样本跟踪信息包括第一样本对象与第二样本对象是否实际为同一对象；样本匹配模块132，用于基于目标跟踪模型的第一匹配网络将第一样本掩膜图像和第二样本掩膜图像在特征维度进行对象匹配，得到第一预测匹配信息，并基于目标跟踪模型的第二匹配网络将第一样本掩膜图像和第二样本掩膜图像在空间维度进行对象匹配，得到第二预测匹配信息；样本融合模块133，用于利用目标跟踪模型的信息融合网络融合第一预测匹配信息和第二预测匹配信息，得到预测跟踪信息；其中，预测跟踪信息包括第一样本对象与第二样本对象是否预测为同一对象；参数调整模块134，用于基于样本跟踪信息与预测跟踪信息之间的差异，调整目标跟踪模型的网络参数。

在一些公开实施例中，第一匹配网络在整体训练目标跟踪模型之前已完成训练，目标跟踪模型的训练装置130还包括样本特征提取模块，用于基于第一匹配网络的第一提取子网络对第一样本对象的第一样本掩膜图像进行特征提取，得到第一样本对象的第一样本特征表示，并基于第一匹配网络的第二提取子网络对第二样本对象的第二样本掩膜图像进行特征提取，得到第二样本对象的第二样本特征表示；目标跟踪模型的训练装置130还包括子损失计算模块，用于对于各个第一样本对象，基于第一样本对象的第一样本特征表示分别与各个第二样本特征表示之间的特征相似度，得到第一样本对象分别与各个第二样本对象预测为同一对象的预测概率值，并基于各个预测概率值的期望值，得到第一样本对象的预测匹配对象，以及基于预测匹配对象与第一样本对象的实际匹配对象之间的差异，得到第一样本对象对应的子损失；其中，预测匹配对象为与第一样本对象预测为同一对象的第二样本对象，实际匹配对象为与第一样本对象实际为同一对象的第二样本对象，实际匹配对象是基于样本跟踪信息确定的；目标跟踪模型的训练装置130还包括总损失计算模块，用于统计各个第一样本对象对应的子损失，得到第一匹配网络的总损失值；目标跟踪模型的训练装置130还包括网络优化模块，用于基于总损失值，调整第一匹配网络的网络参数。

因此，一方面在整体训练目标跟踪模型先对第一匹配网络进行训练，有利于提升目标跟踪模型的训练效率，另一方面通过度量特征相似度等操作确定预测匹配对象，在此基础上再计算损失，能够通过可微分匹配使第一匹配网络在训练过程中学习特征表示。

在一些公开实施例中，子损失计算模块包括归一化子模块，用于将特征相似度进行归一化，得到预测概率值；和/或，子损失计算模块包括期望计算子模块，用于基于第二样本对象的序号值和第二样本对象对应的预测概率值，得到期望值；子损失计算模块包括序号确定子模块，用于将期望值上取整之后的数值，作为目标序号值；子损失计算模块包括对象预测子模块，用于将目标序号值所属的第二样本对象，作为第一样本对象的预测匹配对象。

在一些公开实施例中，目标跟踪模型还包括目标分割网络，第一样本掩膜图像、第二样本掩膜图像是利用目标分割网络分别对第一样本图像、第二样本图像进行目标分割得到的，且目标分割网络在训练第一匹配网络之前已完成训练；和/或，第二匹配网络包括光流预测网络，用于利用第二样本图像对第一样本图像进行光流预测，得到第一样本图像的样本光流图像，且第二样本匹配信息是基于样本光流图像得到的。

请参阅图14，图14是本申请电子设备140一实施例的框架示意图。电子设备140包括相互耦接的存储器141和处理器142，处理器142用于执行存储器141中存储的程序指令，以实现上述任一目标跟踪方法实施例的步骤，或实现上述任一目标跟踪模型的训练方法实施例的步骤。在一个具体的实施场景中，电子设备140可以包括但不限于：微型计算机、服务器，此外，电子设备140还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器142用于控制其自身以及存储器141以实现上述任一目标跟踪方法实施例的步骤，或实现上述任一目标跟踪模型的训练方法实施例的步骤。处理器142还可以称为CPU(Central Processing Unit，中央处理单元)。处理器142可能是一种集成电路芯片，具有信号的处理能力。处理器142还可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器142可以由集成电路芯片共同实现。

请参阅图15，图15为本申请计算机可读存储介质150一实施例的框架示意图。计算机可读存储介质150存储有能够被处理器运行的程序指令151，程序指令151用于实现上述任一目标跟踪方法实施例的步骤，或实现上述任一目标跟踪模型的训练方法实施例的步骤。

本公开涉及增强现实领域，通过获取现实环境中的目标对象的图像信息，进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理，从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的，目标对象可涉及与人体相关的脸部、肢体、手势、动作等，或者与物体相关的标识物、标志物，或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景，还可以涉及与人相关的特效处理，比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。

可通过卷积神经网络，实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种目标跟踪方法，其特征在于，包括：

分别对第一图像和第二图像进行目标分割，得到所述第一图像中第一对象的第一掩膜图像和所述第二图像中第二对象的第二掩膜图像；

基于所述第一掩膜图像和所述第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，并基于所述第一掩膜图像和所述第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息；

融合所述第一匹配信息和所述第二匹配信息，得到跟踪信息；其中，所述跟踪信息包括所述第一对象与所述第二对象是否为同一对象。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一掩膜图像和所述第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，包括：

分别基于各所述第一对象的所述第一掩膜图像，提取得到各所述第一对象的第一特征表示，并分别基于各所述第二对象的所述第二掩膜图像，提取得到各所述第二对象的第二特征表示；

利用所述第一特征表示和所述第二特征表示，得到各所述第一对象与各所述第二对象之间的特征相似度；

基于各所述第一对象与各所述第二对象之间的特征相似度，得到所述第一匹配信息。

3.根据权利要求2所述的方法，其特征在于，所述第一特征表示或所述第二特征表示的提取步骤包括：

基于掩膜图像中各个像素点的像素值，确定对象边界；其中，所述对象边界为所述掩膜图像所属对象的边界；

沿所述对象边界从所述掩膜图像中裁剪出区域图像；

基于所述区域图像进行特征提取，得到所述所属对象的特征表示；

其中，在所述掩膜图像为所述第一掩膜图像的情况下，所述所属对象为所述第一对象，所述特征表示为所述第一特征表示，在所述掩膜图像为所述第二掩膜图像的情况下，所述所属对象为所述第二对象，所述特征表示为所述第二特征表示。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于所述第一掩膜图像和所述第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息，包括：

利用所述第二图像对所述第一图像行光流预测，得到所述第一图像的光流图像；

基于所述光流图像，对所述第一对象的第一掩膜图像进行逐像素偏移，得到所述第一对象在所述第二图像的拍摄时刻的预测掩膜图像；

基于各个所述第一对象的预测掩膜图像分别与各个所述第二对象的第二掩膜图像之间的重合度，得到所述第二匹配信息。

5.根据权利要求4所述的方法，其特征在于，所述基于所述光流图像，对所述第一对象的第一掩膜图像进行逐像素偏移，得到所述第一对象在所述第二图像的拍摄时刻的预测掩膜图像，包括：

将所述光流图像和所述第一掩膜图像进行逐像素相乘，得到所述第一掩膜图像中像素点的偏移值；

将所述第一掩膜图像中所述像素点的第一像素坐标与所述偏移值相加，得到所述像素点在所述拍摄时刻的第二像素坐标；

基于所述第一掩膜图像中所述像素点的第二像素坐标，得到所述预测掩膜图像。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述第一匹配信息包括所述第一对象与所述第二对象之间的第一匹配度，所述第二匹配信息包括所述第一对象与所述第二对象之间的第二匹配度，所述融合所述第一匹配信息和所述第二匹配信息，得到跟踪信息，包括：

对所述第一匹配信息中所述第一匹配度进行自适应加权，得到第一加权匹配信息，并对所述第二匹配信息中所述第二匹配度进行自适应加权，得到第二加权匹配信息；其中，所述第一加权匹配信息包括所述第一对象与所述第二对象之间的第一加权匹配度，所述第二加权匹配信息包括所述第一对象与所述第二对象之间的第二加权匹配度；

将所述第一加权匹配信息和所述第二加权匹配信息进行融合，得到最终匹配信息；其中，所述最终匹配信息包括所述第一对象与所述第二对象之间的最终匹配度；

基于所述最终匹配信息进行分析，得到所述跟踪信息。

7.根据权利要求6所述的方法，其特征在于，所述跟踪信息是利用目标跟踪模型对所述第一图像和所述第二图像进行检测得到的，所述目标跟踪模型包括信息融合网络，所述信息融合网络包括第一加权子网络和第二加权子网络，所述第一加权子网络用于对所述第一匹配信息进行自适应加权，所述第二加权子网络用于对所述第二匹配信息进行自适应加权。

8.根据权利要求6所述的方法，其特征在于，所述基于所述最终匹配信息进行分析，得到所述跟踪信息，包括：

将各个所述第一对象与各个所述第二对象的两两组合，分别作为当前对象组；

基于所述当前对象组的第一参考信息和/或第二参考信息，确定当前第一对象和当前第二对象是否为同一对象；

其中，所述当前第一对象为所述当前对象组中的第一对象，所述当前第二对象为所述当前对象组中的第二对象，所述第一参考信息包括：所述当前第一对象分别与各个所述第二对象之间的最终匹配度，所述第二参考信息包括：所述当前第二对象分别与各个所述第一对象之间的最终匹配度。

9.根据权利要求8所述的方法，其特征在于，在所述基于所述当前对象组的第一参考信息和/或第二参考信息，确定当前第一对象和当前第二对象是否为同一对象之前，所述方法还包括：

将所述当前第一对象与所述当前第二对象之间的最终匹配度，作为待分析匹配度；

所述基于所述当前对象组的第一参考信息和/或第二参考信息，确定当前第一对象和当前第二对象是否为同一对象，包括以下任一者：

响应于所述待分析匹配度为所述第一参考信息中的最大值，确定所述当前第一对象和所述当前第二对象为同一对象；

响应于所述待分析匹配度为所述第二参考信息中的最大值，确定所述当前第一对象和所述当前第二对象为同一对象；

响应于所述待分析匹配度为所述第一参考信息和所述第二参考信息中的最大值，确定所述当前第一对象和所述当前第二对象为同一对象。

10.根据权利要求1至9任一项所述的方法，其特征在于，在所述融合所述第一匹配信息和所述第二匹配信息，得到跟踪信息之后，所述方法还包括：

响应于所述跟踪信息满足预设条件，将所述跟踪信息作为第一跟踪信息，并获取第三图像；其中，所述第三图像、所述第一图像和所述第二图像分别是先后拍摄得到的；

基于所述第三图像和所述第二图像进行目标跟踪，得到第二跟踪信息，其中，所述第二跟踪信息包括所述第二对象与所述第三图像中的第三对象是否为同一对象；

基于所述第一跟踪信息和所述第二跟踪信息进行一致性校验，得到校验结果。

11.根据权利要求10所述的方法，其特征在于，所述预设条件包括：所述第二图像中存在目标对象；其中，所述目标对象与任一所述第一对象均不是同一对象。

12.根据权利要求11所述的方法，其特征在于，不同图像中相同对象具有相同对象标识，所述基于所述第一跟踪信息和所述第二跟踪信息进行一致性校验，得到校验结果，包括：

基于所述第二跟踪信息对所述目标对象进行分析，得到分析结果；

响应于所述分析结果包括所述目标对象与参考对象为同一对象，将所述参考对象的对象标识作为所述目标对象的对象标识；其中，所述参考对象为其中一个所述第三对象；

响应于所述分析结果包括所述目标对象与所述第三图像中任一所述第三对象均不是同一对象，为所述目标对象标记新的对象标识。

13.一种目标跟踪模型的训练方法，其特征在于，包括：

获取第一样本图像中第一样本对象的第一样本掩膜图像、第二样本图像中第二样本对象的第二样本掩膜图像和样本跟踪信息；其中，所述样本跟踪信息包括所述第一样本对象与所述第二样本对象是否实际为同一对象；

基于所述目标跟踪模型的第一匹配网络将所述第一样本掩膜图像和所述第二样本掩膜图像在特征维度进行对象匹配，得到第一预测匹配信息，并基于所述目标跟踪模型的第二匹配网络将所述第一样本掩膜图像和所述第二样本掩膜图像在空间维度进行对象匹配，得到第二预测匹配信息；

利用所述目标跟踪模型的信息融合网络融合所述第一预测匹配信息和所述第二预测匹配信息，得到预测跟踪信息；其中，所述预测跟踪信息包括所述第一样本对象与所述第二样本对象是否预测为同一对象；

基于所述样本跟踪信息与所述预测跟踪信息之间的差异，调整所述目标跟踪模型的网络参数。

14.根据权利要求13所述的方法，其特征在于，所述第一匹配网络在整体训练所述目标跟踪模型之前已完成训练，且所述第一匹配网络的训练步骤包括：

基于所述第一匹配网络的第一提取子网络对所述第一样本对象的第一样本掩膜图像进行特征提取，得到所述第一样本对象的第一样本特征表示，并基于所述第一匹配网络的第二提取子网络对所述第二样本对象的第二样本掩膜图像进行特征提取，得到所述第二样本对象的第二样本特征表示；

对于各个所述第一样本对象，基于所述第一样本对象的第一样本特征表示分别与各个所述第二样本特征表示之间的特征相似度，得到所述第一样本对象分别与各个所述第二样本对象预测为同一对象的预测概率值，并基于各个所述预测概率值的期望值，得到所述第一样本对象的预测匹配对象，以及基于所述预测匹配对象与所述第一样本对象的实际匹配对象之间的差异，得到所述第一样本对象对应的子损失；其中，所述预测匹配对象为与所述第一样本对象预测为同一对象的第二样本对象，所述实际匹配对象为与所述第一样本对象实际为同一对象的第二样本对象，所述实际匹配对象是基于所述样本跟踪信息确定的；

统计各个所述第一样本对象对应的子损失，得到所述第一匹配网络的总损失值；

基于所述总损失值，调整所述第一匹配网络的网络参数。

15.根据权利要求14所述的方法，其特征在于，所述基于所述第一样本对象的第一样本特征表示分别与各个所述第二样本特征表示之间的特征相似度，得到所述第一样本对象分别与各个所述第二样本对象预测为同一对象的预测概率值，包括：

将所述特征相似度进行归一化，得到所述预测概率值；

和/或，各个所述第二样本对象分别标记有序号值，所述基于各个所述预测概率值的期望值，得到所述第一样本对象的预测匹配对象，包括：

基于所述第二样本对象的序号值和所述第二样本对象对应的预测概率值，得到所述期望值；

将所述期望值上取整之后的数值，作为目标序号值；

将所述目标序号值所属的第二样本对象，作为所述第一样本对象的预测匹配对象。

16.根据权利要求13至15任一项所述的方法，其特征在于，所述目标跟踪模型还包括目标分割网络，所述第一样本掩膜图像、所述第二样本掩膜图像是利用所述目标分割网络分别对所述第一样本图像、所述第二样本图像进行目标分割得到的，且所述目标分割网络在训练所述第一匹配网络之前已完成训练；

和/或，所述第二匹配网络包括光流预测网络，用于利用所述第二样本图像对所述第一样本图像进行光流预测，得到所述第一样本图像的样本光流图像，且所述第二样本匹配信息是基于所述样本光流图像得到的。

17.一种目标跟踪装置，其特征在于，包括：

目标分割模块，用于分别对第一图像和第二图像进行目标分割，得到所述第一图像中第一对象的第一掩膜图像和所述第二图像中第二对象的第二掩膜图像；

对象匹配模块，用于基于所述第一掩膜图像和所述第二掩膜图像在特征维度进行对象匹配，得到第一匹配信息，并基于所述第一掩膜图像和所述第二掩膜图像在空间维度进行对象匹配，得到第二匹配信息；

信息融合模块，用于融合所述第一匹配信息和所述第二匹配信息，得到跟踪信息；其中，所述跟踪信息包括所述第一对象与所述第二对象是否为同一对象。

18.一种目标跟踪模型的训练装置，其特征在于，包括：

样本获取模块，用于获取第一样本图像中第一样本对象的第一样本掩膜图像、第二样本图像中第二样本对象的第二样本掩膜图像和样本跟踪信息；其中，所述样本跟踪信息包括所述第一样本对象与所述第二样本对象是否实际为同一对象；

样本匹配模块，用于基于所述目标跟踪模型的第一匹配网络将所述第一样本掩膜图像和所述第二样本掩膜图像在特征维度进行对象匹配，得到第一预测匹配信息，并基于所述目标跟踪模型的第二匹配网络将所述第一样本掩膜图像和所述第二样本掩膜图像在空间维度进行对象匹配，得到第二预测匹配信息；

样本融合模块，用于利用所述目标跟踪模型的信息融合网络融合所述第一预测匹配信息和所述第二预测匹配信息，得到预测跟踪信息；其中，所述预测跟踪信息包括所述第一样本对象与所述第二样本对象是否预测为同一对象；

参数调整模块，用于基于所述样本跟踪信息与所述预测跟踪信息之间的差异，调整所述目标跟踪模型的网络参数。

19.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至12任一项所述的目标跟踪方法，或实现权利要求13至16任一项所述的目标跟踪模型的训练方法。

20.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至12任一项所述的目标跟踪方法，或实现权利要求13至16任一项所述的目标跟踪模型的训练方法。