CN116977905A

CN116977905A - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN116977905A
Application number: CN202311225770.1A
Authority: CN
Inventors: 姚震; 陆金刚; 王为; 方伟
Original assignee: Shanghai Astatine Technology Co ltd; Hangzhou Aixin Yuanzhi Technology Co ltd
Current assignee: Shanghai Astatine Technology Co ltd; Hangzhou Aixin Yuanzhi Technology Co ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-10-31
Anticipated expiration: 2043-09-22
Also published as: CN116977905B

Abstract

本申请提供目标跟踪方法、装置、电子设备及存储介质，涉及目标跟踪技术领域。所述方法使用目标检测网络和分类网络分别从视频序列帧中提取第一分类信息和第二分类信息。基于第一分类信息中的检测类别和第二分类信息中的分类类别，对背景类目标进行过滤，并得到映射分类信息。基于映射分类信息计算第二特征图，以与第二分类信息中的第一特征图进行匹配，以确定用于表征跟踪目标的检测目标框。根据检测目标框执行目标跟踪。所述方法在计算映射分类信息和第二特征图时，均可以对背景类目标进行过滤，以缓解因背景误检导致的跟踪目标误检率高的问题。

Description

目标跟踪方法、装置、电子设备及存储介质

技术领域

本申请涉及目标跟踪技术领域，尤其涉及一种目标跟踪方法、装置、电子设备及存储介质。

背景技术

目标跟踪可以应用于体育赛事转播、安防监控、无人机等多个领域。通过利用视频序列或图像序列的上下文信息，对跟踪目标的外观和运动信息进行建模，进而对跟踪目标的运动状态进行预测以及位置标定。

目标跟踪需要基于检测的方式标定跟踪目标，并对跟踪目标执行预测、跟踪等操作。预测、跟踪等操作容易受跟踪目标的检测结果影响，在跟踪目标为背景类目标时，导致误检现象增加。

在检测跟踪目标时，可以通过将检测结果分组，并将检测结果与预测结果进行多次匹配，以降低跟踪目标的误检率。但在检测过程中出现持续性背景误检时，仍会将背景类目标视为跟踪目标，导致跟踪目标误检率提高。

发明内容

本申请提供一种目标跟踪方法、装置、电子设备及存储介质，以解决因将背景类目标视为跟踪目标，导致跟踪目标误检的问题。

第一方面，本申请提供一种目标跟踪方法，包括：

使用目标检测网络从视频序列帧中提取跟踪目标的第一分类信息，以及使用分类网络从所述视频序列帧中提取所述跟踪目标的第二分类信息；

基于第一分类信息中的检测类别和第二分类信息中的分类类别，修正所述跟踪目标的第一分类信息，得到映射分类信息；

根据所述映射分类信息中的检测目标框计算得到第二特征图；

匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的检测目标框；

基于匹配成功的检测目标框，执行目标跟踪。

在一些可行的实施例中，第一分类信息包括检测目标框、检测类别、检测置信度；第二分类信息包括分类类别、分类置信度、第一特征图；基于第一分类信息中的检测类别和第二分类信息中的分类类别，修正所述跟踪目标的第一分类信息，得到映射分类信息时，包括：

若所述检测类别与所述分类类别相同，且所述检测类别的检测置信度大于所述分类类别的分类置信度，则标记所述检测置信度为所述检测目标框的置信度；

若所述检测类别与所述分类类别不同，且所述检测类别的检测置信度大于所述分类类别的分类置信度，则根据所述检测类别标记所述跟踪目标，以及标记所述检测置信度为所述检测目标框的置信度。

在一些可行的实施例中，基于第一分类信息中的检测类别和第二分类信息中的分类类别，修正所述跟踪目标的第一分类信息，得到映射分类信息之后，包括：

基于所述映射分类信息，若所述跟踪目标的检测类别为背景，且所述跟踪目标的类别的置信度大于置信度阈值，则标记所述跟踪目标为背景；以及停止跟踪所述跟踪目标；

若所述跟踪目标的类别为非背景，且所述跟踪目标的类别的置信度大于置信度阈值，则执行根据所述映射分类信息中的检测目标框计算得到第二特征图的步骤。

在一些可行的实施例中，根据所述映射分类信息中的检测目标框计算得到第二特征图时，包括：

根据所述跟踪目标的检测置信度和分类置信度，建立自适应噪声模型；

基于所述自适应噪声模型，对所述跟踪目标的检测目标框执行无迹卡尔曼滤波，得到所述检测目标框的预测区域；

使用分类网络对所述预测区域执行特征计算，得到第二特征图。

在一些可行的实施例中，根据所述跟踪目标的检测置信度和分类置信度，建立自适应噪声模型时，包括：

获取所述跟踪目标的检测置信度和分类置信度；

根据所述跟踪目标归属的视频序列帧的灰度图计算噪声协方差矩阵，所述噪声协方差矩阵归属于所述自适应噪声模型；

基于所述检测置信度和分类置信度，自适应更新所述噪声协方差矩阵。

在一些可行的实施例中，匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的检测目标框之前，包括：

计算所述第一特征图与所述第二特征图的相似度；

若所述相似度大于或等于相似度阈值，则将与所述第二特征图关联的检测目标框划分至高分框组；

若所述相似度小于相似度阈值，则将与所述第二特征图关联的检测目标框划分至低分框组。

在一些可行的实施例中，匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的目标框时，包括：

基于所述高分框组，对与所述第二特征图关联的检测目标框与第一特征图关联的检测目标框执行匹配；

若高分框组中，所述第二特征图关联的检测目标框与所述第一特征图关联的检测目标框匹配成功，则根据所述第二特征图更新所述第一特征图，以及输出匹配成功的检测目标框；

若高分框组中，所述第二特征图关联的检测目标框与所述第一特征图关联的检测目标框匹配失败，则将匹配失败的高分框组中的检测目标框划分至高分未匹配集合。

在一些可行的实施例中，基于所述高分框组，对与所述第二特征图关联的检测目标框与第一特征图执行匹配之后，包括：

基于低分框组，对与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框执行匹配；

若低分框组中，与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框匹配成功，则输出匹配成功的检测目标框；

若低分框组中，与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框匹配失败，则删除低分框组中匹配失败的检测目标框。

根据当前视频序列帧的前一帧输出的第一目标检测框，以及根据当前视频序列帧的后一帧输出的第二目标检测框，计算以及输出所述当前视频序列帧的预测目标框；所述第一目标检测框与所述第二目标检测框表征的跟踪目标相同。

第二方面，本申请提供一种目标跟踪装置，包括：提取模块、运算模块、执行模块；

所述提取模块用于使用目标检测网络从视频序列帧中提取跟踪目标的第一分类信息，以及使用分类网络从所述视频序列帧中提取所述跟踪目标的第二分类信息；

所述运算模块用于基于第一分类信息中的检测类别和第二分类信息中的分类类别，修正所述跟踪目标的第一分类信息，得到映射分类信息；

所述运算模块还用于根据所述映射分类信息中的检测目标框计算得到第二特征图；

所述执行模块用于匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的检测目标框；

所述执行模块还用于基于匹配成功的检测目标框，执行目标跟踪。

第三方面，本申请提供一种电子设备，包括：

处理器，以及与所述处理器通信连接的存储器；

其中，所述存储器存储有可被所述处理器执行的指令，以使所述处理器执行如第一方面中任一项所述的方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，包括：

所述计算机可读存储介质中包括至少一个计算机指令，所述至少一个计算机指令用于使计算机执行如第一方面中任一项所述的方法的步骤。

由上述技术内容可知，本申请提供一种目标跟踪方法、装置、电子设备及存储介质。所述方法使用目标检测网络和分类网络分别从视频序列帧中提取第一分类信息和第二分类信息。基于第一分类信息中的检测类别和第二分类信息中的分类类别，对背景类目标进行过滤，并得到映射分类信息。基于映射分类信息计算第二特征图，以与第二分类信息中的第一特征图进行匹配，以确定用于表征跟踪目标的检测目标框。根据检测目标框执行目标跟踪。所述方法在计算映射分类信息和第二特征图时，均可以对背景类目标进行过滤，以缓解因背景误检导致的跟踪目标误检率高的问题。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为融合分类特征的目标跟踪方法流程示意图；

图2为重新映射得到映射分类信息流程示意图；

图3为根据映射分类信息过滤背景目标示意图；

图4为自适应噪声模型更新示意图；

图5为检测目标框划分示意图；

图6为根据高分框组与第一特征图的匹配示意图；

图7为根据低分框组与高分未匹配集合的匹配示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

目标跟踪需要基于检测的方式标定跟踪目标，并对跟踪目标执行预测、跟踪等操作。相关技术中可以采用目标检测网络检测跟踪目标，基于检测目标框表征跟踪目标。因此，目标跟踪的过程及结果依赖于检测结果的准确度。在目标检测网络性能有限时，容易将背景误检为跟踪目标，导致跟踪误检目标，提高误检率，影响目标跟踪效果。

鉴于上述问题，如图1所示，本申请提供一种目标跟踪方法，所述方法包括：

S100：使用目标检测网络从视频序列帧中提取跟踪目标的第一分类信息，以及使用分类网络从所述视频序列帧中提取所述跟踪目标的第二分类信息；

在一些实施例中，目标检测网络包括特征提取网络模块和特征解码检测头模块。其中，特征提取网络模块包括特征提取层和下采样层。特征提取层可以采用C3（Concentrated-Comprehensive Convolution Block，集中-综合卷积块）结构，利用C3结构的残差连接形式可以从视频序列帧中充分提取目标的特征信息。下采样层可以采用Conv（卷积）层，以匹配特征信息的维度。

特征解码检测头模块包括特征融合层和特征解码层，特征融合层可以对经过下采样层处理的特征信息进行上采样以进一步提取特征信息。特征解码层可以采用Conv层，用于预测视频序列帧中目标的类别、置信度、位置信息。

基于所述目标检测网络可以得到包括目标检测框、检测类别、检测置信度的第一分类信息。其中，目标检测框用于表征跟踪目标以及跟踪目标的位置信息，检测类别用于标记跟踪目标的类型，检测置信度用于表征第一分类信息的真实性。

分类网络包括特征提取单元、尺度调整单元和非线性分类单元。其中，特征提取单元可以包括多个特征提取块和Maxpool层（最大池化层），特征提取块由基本卷积块以类似残差跳跃连接的方式组合，以保证提取目标的局部信息。Maxpool层用于增大感受野，同时减少运算参数以及计算量。尺度调整单元由基本卷积层组成，用于将大尺度的特征块下采样至1，以将分类网络从视频序列帧中提取的图片信息进一步聚合以便于对图片信息中的目标进行分类。

非线性分类单元由全连接层和softmax分类器组成，在实施例中，可以采用1*1的卷积代替全连接层以缓解全连接层参数冗余的问题。1*1的卷积层的通道数对应于分类网络可检测的类别的数量，通过softmax分类器可以将卷积层输出的离散值归一化，以选取最大值对应的类别为分类结果。

需要说明的是，相比于目标检测网络的检测类别，分类网络得到的分类类别还包括背景类别，以缓解目标跟踪过程中的背景误检导致跟踪目标误检的问题。例如，目标检测网络在检测类别中可以将视频序列帧中的目标划分为汽车、行人，则分类网络可以在分类类别中将视频序列帧中的目标划分为汽车、行人、背景。检测类别以及分类类别的设置可以结合单类目标识别准确率以及背景误检概率进行动态调整，以防止因类别选择过多导致单类目标类别识别准确率低、或因类别选择过少提高背景误检的情况。

可以理解的是，目标检测网络中的检测类别和分类网络中的分类类别均是对视频序列帧中目标类型的划分，基于目标检测网络和分类网络以及第一分类信息和第二分类信息，以及第二分类信息中包含背景的分类类别，可以有效缓解背景误检的问题。

S200：基于第一分类信息中的检测类别和第二分类信息中的分类类别，修正所述跟踪目标的第一分类信息，得到映射分类信息；

第一分类信息中的检测目标框用于表征跟踪目标，因此可以基于检测目标框对检测目标框表征的跟踪目标的类型、置信度进行重新映射，以缓解背景误检的情况。即修正跟踪目标的第一分类信息指的是，基于第一分类信息中的检测类别和第二分类信息中的分类类别以及置信度对检测目标框对应的检测类别、检测置信度重新映射。

如图2所示，基于第一分类信息中的检测类别和第二分类信息中的分类类别，修正所述跟踪目标的第一分类信息，得到映射分类信息时，其步骤包括：

在一些实施例中，目标检测网络输出的检测类别和分类网络输出的分类类别一致时，则视为当前分类类别为跟踪目标的类型识别结果。而检测类别和分类类别均有对应的置信度以表征类别识别结果的准确性、真实性。因此在检测类别和分类类别一致时，可以选用较高的置信度作为映射分类信息中检测目标框的置信度。例如，检测置信度高于分类置信度，则选用检测置信度作为映射分类信息中检测目标框的置信度。反之，则选用分类置信度作为映射分类信息中检测目标框的置信度。

在另一些实施例中，目标检测网络输出的检测类别和分类网络输出的分类类别不同，则需要根据置信度的数值为映射分类信息中的检测目标框选择目标类别。例如，检测类别为摩托车、分类类别为自行车时，摩托车的检测置信度大于自行车的分类置信度，则在映射分类信息中将检测目标框的类别标记为摩托车，且采用摩托车的检测置信度作为置信度。

需要说明的是，基于重新映射得到映射分类信息的步骤，可以提高跟踪目标类型识别的准确率，也可以根据映射分类信息对背景目标进行过滤。即根据映射分类信息中的检测目标框对应的目标类别、置信度判断检测目标框表征的目标类型是否为背景。

可以理解的是，在上述实施例执行重新映射的过程中，分类网络输出的背景分类结果以及置信度也可以作为映射分类信息中检测目标框的分类结果以及分类结果对应的置信度。因此，如图3所示，基于第一分类信息中的检测类别和第二分类信息中的分类类别，修正所述跟踪目标的第一分类信息，得到映射分类信息之后，包括：

基于所述映射分类信息，若所述跟踪目标的类别为背景，且所述跟踪目标的类别的置信度大于置信度阈值，则标记所述跟踪目标为背景；以及停止跟踪所述跟踪目标；

若所述跟踪目标的类别为非背景，且所述类别的置信度大于置信度阈值，则执行根据所述映射分类信息中的检测目标框计算得到第二特征图的步骤。

可以理解的是，对于重新映射得到的映射分类信息中的置信度可以设置置信度阈值，以对映射分类信息进行筛选，以减少冗余计算量，提高目标跟踪效率。即当映射分类信息的中的类别为背景，且置信度超过置信度阈值，则表示映射分类信息中当前检测目标框的类别为背景，属于目标误检，无需继续对当前检测目标框进行跟踪。设置置信度阈值配合重新映射的步骤可以减少误检背景的情况，进而减少无效计算量，提高跟踪目标检测的准确率以及效率。

需要说明的是，因检测目标框归属于第一分类信息，且映射分类信息中包括检测目标框，因此在映射分类信息中沿用检测目标框的类别、置信度的说法。映射分类信息中检测目标框的类别、置信度为基于第一分类信息中的检测类别和第二分类信息中的分类类别进行重新映射得到。

在另一些实施例中，跟踪目标的类别为非背景，且跟踪目标的置信度高于置信度阈值，则可以对跟踪目标执行如S300中的处理步骤，以执行目标跟踪。可以理解的是，当跟踪目标的类别为非背景，但检测置信度低于置信度阈值时，对跟踪目标对应的检测目标框也可执行删除处理，以节省算力，提高目标跟踪效率。

S300：根据所述映射分类信息中的检测目标框计算得到第二特征图；

检测目标框可以为矩形框，用坐标表示为（x，y，w，h），其中，x，y为检测目标框的中心坐标，w，h为检测目标框的宽、高。根据所述坐标，可以采用两个坐标结合的形式表示检测目标框（x1，y1，x2，y2）。其中，x1，y1为检测目标框的左上角顶点坐标，x2，y2为检测目标框的右下角顶点坐标。第二特征图为使用分类网络对检测目标框进行特征计算得到，可以与第二分类信息中的第一特征图进行匹配，以对检测目标框进行筛选，进而确定跟踪目标以执行目标跟踪。

其中，根据所述映射分类信息中的检测目标框计算得到第二特征图时，包括：

在一些实施例中，跟踪目标具有快速移动的特点，因此在对检测目标框进行运动建模时，可以采用无迹卡尔曼滤波的滤波方式以适应于跟踪目标快速移动的特点，进而提升运动建模的鲁棒性。无迹卡尔曼滤波可以基于当前检测目标框对下一帧的目标框位置进行预测，并由分类网络根据预测区域执行特征计算得到第二特征图，可以在连续检测的情况下，形成检测目标框的行动轨迹并用于目标跟踪。

在使用无迹卡尔曼滤波对目标框的位置进行预测时，可以通过建立自适应噪声模型对噪声引起的抖动进行修正。

如图4所示，根据所述跟踪目标的检测置信度和分类置信度，建立自适应噪声模型时，包括：

获取所述跟踪目标的检测置信度和分类置信度；

在一些实施例中，根据跟踪目标的检测置信度、分类置信度建立自适应噪声模型，可以理解的是跟踪目标为非背景类目标。基于如下公式可以建立帧间灰度值差异矩阵M：

；

其中，为当前帧/>的灰度值，/>为当前帧/>的前一帧/>的灰度值，k表示第k帧。

基于帧间灰度值差异矩阵M，可以得到噪声协方差矩阵Rk：

；

其中，I为单位矩阵，L为灰度级数（灰度级数取决于视频序列帧对应的图像中每个像素对应的刷新存储单元的位数和显示设备的性能，与图像层次正关联，即灰度级数越多，图像层次越清晰）。

噪声协方差矩阵表示当前帧的噪声水平，当噪声较大时，表示不确定性较高，因此需要以较小的步幅进行迭代更新。例如，在使用目标检测网络和分类网络从视频序列帧中提取跟踪目标的外观特征时，噪声较大则表明检测结果/分类结果的置信度较低，因此可以根据检测置信度和分类置信度的情况自适应更新噪声协方差矩阵，其公式如下：

；

其中，为检测置信度，/>为分类置信度，/>为自适应更新后的噪声协方差矩阵。

在上述实施例中，基于融合自适应噪声模型的无迹卡尔曼滤波预测当前检测目标框下一帧的位置，可以根据检测置信度、分类置信度的情况自适应更新噪声协方差矩阵，以降低噪声对检测目标框关联的运算的影响，有利于提高外观特征的提取效果，即提高第二特征图的准确率，进而提高目标跟踪的准确率。

此外，噪声协方差矩阵的自适应更新有利于提高对应用场景以及应用场景中待跟踪目标的适应能力。

第二特征图为使用分类网络对滤波后的检测目标框（预测区域）进行特征计算得到，即通过分类网络的特征提取单元提取滤波后的检测目标框包含的特征。基于第二特征图和第二分类信息中的第一特征图，可以对检测目标框进行筛选，以得到可用于表征跟踪目标的检测目标框，以便于执行目标跟踪。其中，第一特征图为基于分类网络的特征提取单元从视频序列帧中提取，包含了视频序列帧中的目标最原始的特征信息。因此，基于第一特征图与第二特征图进行匹配，可以对检测目标框进行筛选。

S400：匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的检测目标框；

匹配第一特征图与第二特征图指的是匹配第二特征图关联的目标检测框与第一特征图关联的目标检测框，以基于第二特征图的外观特征更新第一特征图，以确定当前目标检测框以及跟踪目标。在一些实施例中，基于匈牙利算法匹配第二特征图关联的目标检测框与第一特征图关联的目标检测框，可以计算第一特征图与第二特征图的相似度将目标检测框划分为高分框组和低分框组，以通过两次匹配的方式筛选目标检测框。如图5所示，根据所述映射分类信息中的检测目标框计算得到第二特征图之后，包括：

计算所述第一特征图与所述第二特征图的相似度；

在上述实施例中，可以计算第一特征图与第二特征图的余弦相似度以表征第一特征图与第二特征图的相似性。可以理解的是，可以设置相似度阈值以将第二特征图关联的目标检测框划分至高分框组和低分框组。即第一特征图与第二特征图的相似度分数大于或等于相似度阈值时，将第二特征图关联的检测目标框划分至高分框组；相似度分数小于相似度阈值时，则将第二特征图关联的检测目标狂划分至低分框组。

通过相似度分数作为划分检测目标框的依据，可以在当前视频序列帧、当前视频序列帧的前序视频序列帧以及后序视频序列帧的检测置信度/分类置信度均较低的情况下，仍能通过特征相似这一指标执行第二特征图关联的检测目标框与第一特征图关联的检测目标框匹配的过程，进而减少因置信度较低导致的跟踪丢失现象。此外，通过相似度分数划分检测目标框的过程，容易受到背景误检的影响，因此结合上述实施例中重新映射得到映射分类信息的步骤，可以降低根据相似度分数划分检测目标框的过程中，背景误检对划分结果以及后续匹配结果的影响。

对第二特征图关联的检测目标框进行划分后，可以基于高分框组与低分框组中的检测目标框与第一特征图关联的检测目标框进行匹配。即匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的目标框时，如图6所示，所述方法包括：

若高分框组中，所述第二特征图的检测目标框与所述第一特征图关联的检测目标框匹配成功，则根据所述第二特征图更新所述第一特征图，以及输出匹配成功的检测目标框；

若高分框组中，所述第二特征图的检测目标框与所述第一特征图关联的检测目标框匹配失败，则将匹配失败的高分框组中的检测目标框划分至高分未匹配集合。

可以理解的是，高分框组中的检测目标框可用于表征跟踪目标，以及作为跟踪目标的依据的可能性更高。因此，在第一次匹配中，先对高分框组中的检测目标框与第一特征图关联的检测目标框执行匹配。在一些实施例中，高分框组中的检测目标框与第一特征图关联的检测目标框匹配成功，则表示第一特征图与第二特征图表征的目标为同一跟踪目标。由于第二特征图为根据滤波后的检测目标框计算得到，因此还可以基于第二特征图更新第一特征图，即根据第二特征图中更为清晰准确的外观特征更新第一特征图。

在基于第二特征图更新第一特征图时，可以采用如下公式：

；

其中，为对当前帧（第k帧）的第i个目标执行更新后的第一特征图，/>为平滑系数，/>为前一帧（k-1帧）第i个目标的第一特征图，/>为前一帧第i个目标无迹卡尔曼滤波后，经分类网络特征计算得到的第二特征图。

由公式可知，第一特征图在更新时包含了前一帧与当前帧的特征，有利于提高检测目标框以及第一特征图的连续性，进而获得更好的跟踪效果。

高分框组中的检测目标框存在匹配失败的情况，但由于其相似度评分较高，可能存在匹配方法失效的情况，因此将匹配失败的检测目标框划分至高分未匹配集合，以用于执行第二次匹配。进而有利于缓解跟踪失效的情况。

如图7所示，基于所述高分框组，对与所述第二特征图关联的检测目标框与第一特征图关联的检测目标框执行匹配之后，所述方法包括：

在第二次匹配中，将低分框组中检测目标框与高分未匹配集合中的检测目标框进行匹配，以缓解跟踪失效的情况。需要说明的是，高分未匹配集合中不仅包括与当前帧关联的高分检测目标框，还包括前一帧或前几帧关联的高分检测目标框。因此，当前帧关联的低分框组中的目标检测框，存在与高分未匹配集合中的目标检测框表征同一目标的可能。通过执行第二次匹配，在提高低分检测目标框利用率的基础上，也可以有效缓解跟踪失效的情况。

可以理解的是，执行第二次匹配的过程中，需要删除未匹配到高分检测目标框的低分检测目标框，以减少运算量，并避免低分误检的情况。对于仍未匹配成功的高分目标框，可视为匹配方法失效、前后帧中包括相似度较高目标等情况，因此可以继续保留至高分未匹配集合以用于后续匹配。出于内存分配等考虑，高分未匹配集合中的高分检测目标框保留的时间可以与帧数关联，例如保留5帧的处理时间，即在处理5帧视频序列帧之后，删除仍未匹配成功的高分检测目标框，以避免内存占用过多影响跟踪效率以及目标跟踪的相关设备的运行状态。

S500：基于匹配成功的检测目标框，执行目标跟踪。

匹配成功的检测目标框可以标记为跟踪结果，并可以基于跟踪结果执行目标跟踪。未匹配成功的高分检测目标框由于其高相似度的特征，也可以视作为跟踪结果，并作为执行目标跟踪的依据。

此外，基于高分未匹配集合的可以保留高分检测目标框设置，还可以提供一种补帧策略，即匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的目标框时，包括：

根据当前视频序列帧的前一帧输出的第一目标检测框，以及根据当前序列帧的后一帧输出的第二目标检测框，计算以及输出当前视频序列帧的预测目标框；所述第一目标检测框与所述第二目标检测框表征的跟踪目标相同。

跟踪目标的过程为连续的过程，在根据视频序列帧检测跟踪目标时，会出现短暂丢失跟踪目标的情况，为了保证跟踪的连续性，可以根据视频序列帧相邻的帧执行补帧策略。其中，第二目标检测框用于确认是否执行补帧策略，例如，在当前视频序列帧的前一帧中包括跟踪目标-自行车，在当前视频序列帧的后一帧中也包括跟踪目标-自行车，且当前视频序列帧中未检测到跟踪目标的目标检测框，则可以对当前视频序列帧执行补帧策略。

在一些实施例中，通过无迹卡尔曼滤波根据当前视频序列帧的前一帧输出的第一检测目标框进行预测，以输出预测检测目标框作为当前序列帧中的跟踪结果，进而有利于提升跟踪连续性。需要说明的是，在执行补帧策略时，为了保证跟踪连续性，不考虑目标检测框匹配分数、相似度等因素，仅以无迹卡尔曼滤波的预测结果输出跟踪目标（检测目标框）。

本申请还提供一种目标跟踪装置，所述装置包括：提取模块、运算模块、执行模块；

本申请还提供一种电子设备，所述电子设备包括：处理器，以及与所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，以使所述处理器执行如第一方面中任一项所述的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中包括至少一个计算机指令，所述至少一个计算机指令用于使计算机执行如上述实施例中所述的方法的步骤。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种目标跟踪方法，其特征在于，包括：

基于匹配成功的检测目标框，执行目标跟踪。

2.根据权利要求1所述的目标跟踪方法，其特征在于，第一分类信息包括检测目标框、检测类别、检测置信度；第二分类信息包括分类类别、分类置信度、第一特征图；基于第一分类信息中的检测类别和第二分类信息中的分类类别，修正所述跟踪目标的第一分类信息，得到映射分类信息时，包括：

3.根据权利要求1所述的目标跟踪方法，其特征在于，基于第一分类信息中的检测类别和第二分类信息中的分类类别，修正所述跟踪目标的第一分类信息，得到映射分类信息之后，包括：

4.根据权利要求1所述的目标跟踪方法，其特征在于，根据所述映射分类信息中的检测目标框计算得到第二特征图时，包括：

5.根据权利要求4所述的目标跟踪方法，其特征在于，根据所述跟踪目标的检测置信度和分类置信度，建立自适应噪声模型时，包括：

获取所述跟踪目标的检测置信度和分类置信度；

6.根据权利要求1所述的目标跟踪方法，其特征在于，匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的检测目标框之前，还包括：

计算所述第一特征图与所述第二特征图的相似度；

7.根据权利要求6所述的目标跟踪方法，其特征在于，匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的目标框时，包括：

8.根据权利要求7所述的目标跟踪方法，其特征在于，基于所述高分框组，对与所述第二特征图关联的检测目标框与第一特征图执行匹配之后，包括：

9.根据权利要求1所述的目标跟踪方法，其特征在于，匹配所述第二分类信息中的第一特征图与所述第二特征图，输出匹配成功的目标框时，包括：

10.一种目标跟踪装置，其特征在于，包括：提取模块、运算模块、执行模块；

11.一种电子设备，其特征在于，包括：

处理器，以及与所述处理器通信连接的存储器；

其中，所述存储器存储有可被所述处理器执行的指令，以使所述处理器执行如权利要求1-9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其特征在于，包括：

所述计算机可读存储介质中包括至少一个计算机指令，所述至少一个计算机指令用于使计算机执行如权利要求1-9中任一项所述的方法的步骤。