CN115222771B

CN115222771B - 一种目标跟踪方法及装置

Info

Publication number: CN115222771B
Application number: CN202210782006.3A
Authority: CN
Inventors: 周庆辉; 刘浩世; 张晨龙; 谢贻东; 王方
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2023-07-21
Anticipated expiration: 2042-07-05
Also published as: CN115222771A

Abstract

本发明实施例公开一种目标跟踪方法及装置，该方法包括：获取模板图像和当前检测图像；根据上一帧检测图像的目标位置信息，利用目标运动模型，获得当前检测图像的预估目标位置信息；将当前检测图像和模板图像输入SiamRPN模型，针对当前检测图像中的每一像素点，获得多个第一响应值和多个第一位置信息；根据当前检测图像的预估目标位置信息、第一响应值及第一位置信息，确定当前检测图像的目标位置信息，且根据图像帧数、目标变形量及当前检测图像的目标位置信息判断是否更新模板图像。本公开将SiamRPN和卡尔曼滤波器进行了紧耦合，实现了对目标的精准跟踪。

Description

一种目标跟踪方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种目标跟踪方法及装置。

背景技术

目标跟踪是计算机视觉中一个重要研究分支，旨在给定连续视频序列中某一帧图像里的目标位置与尺寸信息的情况下，预测后续视频序列中目标的位置尺寸变化。使用孪生网络执行目标跟踪任务是常用的目标跟踪方法之一，孪生网络可通过深度特征度量输入量间相似性，在执行目标跟踪问题时可兼具效率与精度。孪生网络方法使用深度卷积特征，具备一定的抵抗环境变化的能力，但由于仅将对模板的最高响应区域作为预测的目标，而未考虑目标运动的连续性，在存在相似干扰物及遮挡问题时容易跟踪失败。

另外，在现有技术中，还可以利用卡尔曼滤波器和神经网络实现目标跟踪，例如，使用神经网络进行人脸识别，在检测到遮挡时使用卡尔曼波器进行跟踪，又如根据卡尔曼滤波器预测的目标轨迹信息，对搜索区域进行裁剪，并对网络跟踪结果进行修正。但上述方法均为卡尔曼滤波与神经网络的松耦合连接，该类方法在长期运行时会由于误差累积过大而跟踪失败。

发明内容

本发明提供了一种目标跟踪方法及装置，实现了目标的精准跟踪。具体的技术方案如下：

第一方面，本发明实施例提供了一种目标跟踪方法，方法包括：

获取模板图像和当前检测图像，其中，模板图像具有目标边界框信息和目标中心点位置信息，当前检测图像为待测视频中逐帧提取的图像；

根据上一帧检测图像的目标位置信息，利用目标运动模型，获得当前检测图像的预估目标位置信息，其中，目标运动模型利用卡尔曼滤波器，根据目标加速度和目标边界框形变构建；

将当前检测图像和模板图像输入SiamRPN模型，针对当前检测图像中的每一像素点，获得多个第一响应值和多个第一位置信息，其中，每一第一响应值对应一个锚框，每一锚框以相应像素点为中心对应当前检测图像中某一局部区域，第一响应值用于表示相应锚框内图像与模板图像的相似性，每一第一位置信息对应一个锚框，第一位置信息用于表示根据模板图像微调相应锚框后的位置信息；

根据当前检测图像的预估目标位置信息、第一响应值及第一位置信息，确定当前检测图像的目标位置信息，且根据图像帧数、目标变形量及当前检测图像的目标位置信息判断是否更新模板图像，其中，

当第一响应值小于第一预设阈值时，将上一帧检测图像的目标位置信息与当前检测图像的预估目标位置信息的均值作为当前检测图像的目标位置信息；

当第一响应值大于或等于第一预设阈值时，根据第二响应值获得当前检测图像的目标位置信息，第二响应值用于排除当前检测图像中与目标相似的干扰物或提高目标位置的置信度。

可选的，目标运动模型公式：

式中，k表示第k帧检测图像，X为目标状态向量，定义为， x、y分别为目标中心点的横坐标、纵坐标，w、h分别为目标边界框的宽度、高度，/>为目标中心点在x轴方向上的速度，/>为目标中心点在y轴方向上的速度，T为矩阵转置，A为状态转移矩阵，/>，/>为相邻两帧检测图像之间的时间间隔，/>为系统噪声，系统噪声协方差公式：/>，a由连续4帧检测图像中目标中心点的加速度确定，，/>，/>为目标边界框宽度和高度的方差，。

可选的，当第一响应值大于或等于第一预设阈值时，根据第二响应值获得当前检测图像的目标位置信息包括：

针对每一锚框确定相应第二响应值，第二响应值公式：

式中，是坐标为/>像素点的第/>个锚框/>对应的第一响应值，/>是坐标为/>像素点的第个锚框/>对应的第二响应值，/>用于抑制与预估目标边界框交并比低的锚框，/>，/>表示预估目标中心点位置的概率分布，，预估目标位置信息包括预估目标边界框和预估目标中心点位置，预估目标边界框为/>，预估目标中心点坐标为/>，预估目标位置信息对应的协方差矩阵/>的标准差为/>；

确定当前检测图像中的最大第二响应值；

将最大第二响应值对应的SiamRPN模型中的回归分支输出数据作为当前检测图像中的目标位置信息。

可选的，方法还包括：

根据当前检测图像目标位置信息，确定当前检测图像的状态向量，将当前检测图像的状态向量作为目标运动模型的输入，获得下一帧检测图像的预估目标位置信息，其中，当前检测图像的状态向量的协方差矩阵公式：

式中，。

可选的，根据图像帧数、目标变形量及当前检测图像的目标位置信息判断是否更新模板图像包括：

获取初始模板和当前检测图像的目标位置信息；

根据初始模板和当前检测图像的目标位置信息，确定第三响应值，第三响应值用于表示当前检测图像的目标位置信息对应的边界框内图像与初始模板图像的相似性；

若图像帧数大于第二预设阈值或目标变形量大于第三预设阈值，且第三响应值大于第四预设阈值时，更新模板图像，其中，目标变形量，为初始模板中目标边界框的高度，/>为初始模板中目标边界框的宽度。

第二方面，本发明实施例提供了一种目标跟踪装置，装置包括；

第一获取模块，用于获取模板图像和当前检测图像，其中，模板图像具有目标边界框信息和目标中心点位置信息，当前检测图像为待测视频中逐帧提取的图像；

第一获得模块，用于根据上一帧检测图像的目标位置信息，利用目标运动模型，获得当前检测图像的预估目标位置信息，其中，目标运动模型利用卡尔曼滤波器，根据目标加速度和目标边界框形变构建；

第二获得模块，用于将当前检测图像和模板图像输入SiamRPN模型，针对当前检测图像中的每一像素点，获得多个第一响应值和多个第一位置信息，其中，每一第一响应值对应一个锚框，每一锚框以相应像素点为中心对应当前检测图像中某一局部区域，第一响应值用于表示相应锚框内图像与模板图像的相似性，每一第一位置信息对应一个锚框，第一位置信息用于表示根据模板图像微调相应锚框后的位置信息；

第一确定模块，用于根据根据当前检测图像的预估目标位置信息、第一响应值及第一位置信息，确定当前检测图像的目标位置信息，且根据图像帧数、目标变形量及当前检测图像的目标位置信息判断是否更新模板图像，其中，

可选的，目标运动模型公式：

可选的，当第一响应值大于或等于第一预设阈值时，根据第二响应值获得当前检测图像的目标位置信息包括：针对每一锚框确定相应第二响应值，第二响应值公式：

式中，是坐标为/>像素点的第/>个锚框/>对应的第一响应值，/>是坐标为/>像素点的第/>个锚框/>对应的第二响应值，/>用于抑制与预估目标边界框交并比低的锚框，/>，/>表示预估目标中心点位置的概率分布，，预估目标位置信息包括预估目标边界框和预估目标中心点位置，预估目标边界框为/>，预估目标中心点坐标为/>，预估目标位置信息对应的协方差矩阵的标准差为/>；

确定当前检测图像中的最大第二响应值；

可选的，装置还包括：

第二确定模块，用于根据当前检测图像目标位置信息，确定当前检测图像的状态向量，将当前检测图像的状态向量作为目标运动模型的输入，获得下一帧检测图像的预估目标位置信息，其中，当前检测图像的状态向量的协方差矩阵公式：

式中，。

获取初始模板和当前检测图像的目标位置信息；

若图像帧数大于第二预设阈值或目标变形量大于第三预设阈值，且第三响应值大于第四预设阈值时，更新模板图像，其中，目标变形量，/>为初始模板中目标边界框的高度，/>为初始模板中目标边界框的宽度。

由上述内容可知，本发明实施例提供的一种目标跟踪方法及装置，获取模板图像和当前检测图像，其中，模板图像具有目标边界框信息和目标中心点位置信息，当前检测图像为待测视频中逐帧提取的图像；根据上一帧检测图像的目标位置信息，利用目标运动模型，获得当前检测图像的预估目标位置信息，其中，目标运动模型利用卡尔曼滤波器，根据目标加速度和目标边界框形变构建；将当前检测图像和模板图像输入SiamRPN模型，针对当前检测图像中的每一像素点，获得多个第一响应值和多个第一位置信息，其中，每一第一响应值对应一个锚框，每一锚框以相应像素点为中心对应当前检测图像中某一局部区域，第一响应值用于表示相应锚框内图像与模板图像的相似性，每一第一位置信息对应一个锚框，第一位置信息用于表示根据模板图像微调相应锚框后的位置信息；根据当前检测图像的预估目标位置信息、第一响应值及第一位置信息，确定当前检测图像的目标位置信息，且根据图像帧数、目标变形量及当前检测图像的目标位置信息判断是否更新模板图像，其中，当第一响应值小于第一预设阈值时，将上一帧检测图像的目标位置信息与当前检测图像的预估目标位置信息的均值作为当前检测图像的目标位置信息；当第一响应值大于或等于第一预设阈值时，根据第二响应值获得当前检测图像的目标位置信息，第二响应值用于排除当前检测图像中与目标相似的干扰物或提高目标位置的置信度。

应用本发明实施例，可以避免检测图像中目标相似物的干扰，并且也不会由于目标被遮挡而导致目标跟踪失败，实现了目标的精准跟踪。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本发明实施例的技术效果包括：

1、本发明实施例将卡尔曼波器与SiamRPN进行了紧耦合，具体为利用目标运动模型，优化了SiamRPN模型中锚框的响应值，当检测图像中不存在目标相似物的干扰或者目标被遮挡较少时，利用优化后的响应值，即第二响应值，确定当前检测图像中的目标位置，当目标被遮挡较多时，可以根据目标运动模型获得的目标估计值，确定最终当前检测图像中的目标位置。应用本发明实施例，可以避免检测图像中目标相似物的干扰，并且也不会由于目标被遮挡而导致目标跟踪失败，实现了目标的精准跟踪。

2、由于随着对视频序列中的目标进行跟踪，目标物体的形状会随目标的自身运动和相机与目标的相对运动而发生改变，其光影也会随环境发生变化，上述差异有可能跟踪失败。因此在每次输出当前检测图像的目标位置信息后，还可以判断是否更新模板。并且本发明实施例中，以上次模板更新后继续跟踪的图片帧数及目标变形量为第一条件，再通过判断最大第三响应值的大小，判断是否进行模板更新，以减小频繁进行模板更新导致的模板信息漂移。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的目标跟踪方法的一种流程示意图；

图2为本发明实施例提供的孪生网络流程的一种示意图；

图3为本发明实施例提供的目标跟踪方法的另一种流程示意图；

图4为本发明实施例提供的目标跟踪方法的又一种流程示意图；

图5为本发明实施例提供的目标跟踪装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明提供了一种目标跟踪方法及装置。下面对本发明实施例进行详细说明。

图1为本发明实施例提供的目标跟踪方法的一种流程示意图。该方法可以包括如下步骤：

S101：获取模板图像和当前检测图像，其中，所述模板图像具有目标边界框信息和目标中心点位置信息，所述当前检测图像为待测视频中逐帧提取的图像。

SiamRPN（Siamese region proposal network孪生候选区域生成网络）模型中有两条共享参数的孪生网络分支，模板图像和当前检测图像分别为这两条孪生网络分支的输入。在初次输入SiamRPN模型时，需要人工选取一张含有目标的图像作为初始模板图像，并且需要在初始模板图像中标定相应的目标边界框及确定目标中心点位置，需要说明的是目标边界框的中心点即为目标中心点位置。SiamRPN模型最终会输出目标在整幅当前检测图像中的确切位置信息，记为，其中，x、y分别为目标边界框中心点在图像坐标系下的横、纵坐标，w、h分别为目标边界框的宽度和高度，上标k表示第k帧检测图像，T为矩阵转置。本发明实施例应用于视频中，当前检测图像从待测视频中一帧一帧连续提取。本发明实施例可应用于人脸识别、无人驾驶视觉技术、跟踪拍摄等多个计算机视觉领域，在此不做特殊限定。

S102：根据上一帧检测图像的目标位置信息，利用目标运动模型，获得当前检测图像的预估目标位置信息，其中，所述目标运动模型利用卡尔曼滤波器，根据目标加速度和目标边界框形变构建。

本发明实施例在对目标进行跟踪之前，先要构建目标运动模型，目标运动模型基于卡尔曼滤波器构建，利用目标运动模型的输出数据，优化SiamRPN模型中的参数，实现精准的目标跟踪。目标运动模型噪声协方差根据目标加速度及其边界框形变确定。

在一个可选的实施例中，所述目标运动模型公式：

式中，k表示第k帧检测图像，X为目标状态向量，定义为， x、y分别为目标中心点的横坐标、纵坐标，w、h分别为目标边界框的宽度、高度，/>为目标中心点在x轴方向上的速度，/>为目标中心点在y轴方向上的速度，T为矩阵转置，A为状态转移矩阵，/>，/>为相邻两帧检测图像之间的时间间隔，/>为系统噪声，系统噪声协方差公式：，a由连续4帧检测图像中目标中心点的加速度确定，/>，/>，/>为目标边界框宽度和高度的方差，/>。

目标在检测图像中的运动可以由相机的运动和目标自身的运动组成，该运动通过相机从三维世界投影到二维图像上，运动规律较为复杂，但由于相机对图像的采集频率较高，因此两帧图像之间目标的位置变化较小，在一定的范围内可视为匀速运动，目标边界框在短时间内也可认为大小不变。则可将图像中目标状态向量表示为：

（1）

其中，x、y分别为目标中心点的横坐标、纵坐标，w、h分别为目标边界框的宽度、高度，为目标中心点在x轴方向上的速度，可以定义/>，即/>为目标中心点从上一帧到当前帧在横坐标方向上偏移的像素个数，f为采集频率，/>为目标中心点在y轴方向上的速度，可以定义/>，即/>为目标中心点从上一帧到当前帧在纵坐标方向上偏移的像素个数，T为矩阵转置。

目标运动模型建模公式如下：

（2）

其中，k表示第k帧检测图像，为第k帧检测图像的目标状态向量，A为状态转移矩阵，A用于描述目标从上一帧检测图像到当前帧检测图像的运动变化，/>为系统噪声，服从零均值高斯分布，系统噪声协方差矩阵为Q。

由于本发明实施例中的A与检测图像采集频率有关，所以令相邻两帧检测图像时间间隔为，则状态转移矩阵A可以定义为：

（3）

本发明实施例考虑了目标加速度及目标边界框形变对目标状态向量的影响，假设目标中心点的加速度服从方差为a的零均值高斯分布，则系统噪声协方差Q可以为：

（4）

其中，参数由连续4帧检测图像中目标中心点的加速度确定，目标边界框宽度和高度的方差为，所以Q随着参数a和/>的变化而变化。可以分别定义a和/>公式如下：，/>（5）

（6）

其中，k为第k帧检测图像，需要说明的是，从目标跟踪开始，前4帧检测图像对应的参数a为固定值，可以为10，w为检测图像中目标边界框的宽度，h为检测图像中目标边界框的高度。

应用本发明实施例中的目标运动模型，可对下一帧检测图像中的目标进行预测，即目标模型可以输出下一帧检测图像的预估目标位置信息，具体公式如下：

（7）

（8）

式中，表示第k+1帧检测图像的预估目标状态向量，/>表示根据第k帧检测图像的目标位置信息计算得到的第k帧检测图像的目标状态向量。SiamRPN模型输出的最终目标位置/>，另外/>，/>，所以可以获得/>，（根据本发明实施例中输出的当前帧检测图像目标位置信息，计算下一帧检测图像的预估目标位置信息），/>为目标状态向量的协方差矩阵，由上述/>对应的公式（3）、（4）计算可得。

S103：将所述当前检测图像和所述模板图像输入SiamRPN模型，针对所述当前检测图像中的每一像素点，获得多个第一响应值和多个第一位置信息，其中，每一第一响应值对应一个锚框，每一锚框以相应像素点为中心对应所述当前检测图像中某一局部区域，所述第一响应值用于表示相应锚框内图像与所述模板图像的相似性，每一第一位置信息对应一个锚框，所述第一位置信息用于表示根据所述模板图像微调相应锚框后的位置信息。

当前检测图像和模板图像在输入SiamRPN模型后，会针对当前检测图像中的每一个像素点生成h个锚框，每一个锚框对应一个第一响应值，第一响应值用于表示对应的锚框里的图像与模板图像中目标边界框里的图像的相似性，两者图像越相似，第一响应值越大，反之亦然。另外根据模板图像和第一响应值，针对每一个锚框会生成一个第一位置信息，第一位置信息是对相应锚框进行微调后，得到的微调后的锚框的具体位置信息，包括微调后锚框的中心点位置信息和边框信息，目的是为了得到与目标图像中的目标位置信息更接近的锚框，若当前检测图像中有j个像素，则最终会得到j*h个第一位置信息，若目标没有被遮挡，或者遮挡较少时，可以在j*h个第一位置信息中选择一个与模板图像的目标位置信息（目标边界框信息和目标中心点位置信息）最相近的第一位置信息作为本发明实施例中最终的目标位置输出。

在一个可实现的方式中，将当前检测图像和模板图像分别输入孪生网络的两条共享参数分支中，从输入的两图像中分别提取卷积特征和/>，其中/>对应模板图像和/>对应当前检测图像。SiamRPN以特征图/>上的每个像素点为中心，按照一组预设的尺度与长宽比将一矩形区域缩放成不同大小的矩形框，即锚框，每张特征图共生成h个锚框，每个锚框都对应原图一定区域。将/>和/>各分为两个特征图，分别作为分类分支和回归分支的输入，如图2所示，其中分类分支用于输出各个锚框内图像与目标模板的相似性，该相似性由锚框内图像特征与目标模板特征的卷积响应值度量，该卷积响应值即第一响应值；回归分支将锚框在当前检测图像中的位置信息进一步细化，得到第一位置信息。最后可根据多个第一位置信息输出目标在整幅图像的确切位置信息。

S104：根据所述当前检测图像的预估目标位置信息、所述第一响应值及所述第一位置信息，确定当前检测图像的目标位置信息，且根据图像帧数、目标变形量及所述当前检测图像的目标位置信息判断是否更新模板图像。

其中，当第一响应值小于第一预设阈值时，将上一帧检测图像的目标位置信息与所述当前检测图像的预估目标位置信息的均值作为所述当前检测图像的目标位置信息。

当第一响应值大于或等于第一预设阈值时，根据第二响应值获得所述当前检测图像的目标位置信息，所述第二响应值用于排除所述当前检测图像中与目标相似的干扰物或提高目标位置的置信度。

传统的SiamRPN模型将最大第一响应值对应的第一位置信息作为最终输出的目标位置信息，如果存在目标被遮挡，或者当前检测图像中存在与目标相似的干扰物时，则很有可能最大第一响应值对应的第一位置信息并不是与真实目标位置最接近的第一位置信息，从而导致跟踪失败。本发明实施例中的SiamRPN模型可以重新确定输出的目标位置信息，本发明实施例中将SiamRPN模型和卡尔曼滤波器（目标运行模型）进行了紧耦合。测量值即SiamRPN模型所得的目标位置信息，其目标边界框的概率分布难以计算，但SiamRPN的分类分支输出的各锚框对模板的卷积响应可很好的表示“目标在该锚框内”的不确定性。但传统的SiamRPN模型所得的目标位置信息仅简单的对应了最大第一响应值，忽略了相似物干扰和目标遮挡问题。因此在本发明实施例中可由运动模型确定目标位置在当前检测图像中的概率分布，将该概率分布叠加到SiamRPN分类分支输出的响应值上，即得到第二响应值，再由SiamRPN的回归分支进行目标位置的微调，最终输出确切的目标位置信息。另外如果目标遮挡较多时，可以直接通过上一帧检测图像目标位置信息和预估当前帧检测图像位置来确定当前帧的目标位置信息。第一阈值可以为0.85。

在一个可选的实施例中，如图3所示，所述当第一响应值大于或等于第一预设阈值时，根据第二响应值获得所述当前检测图像的目标位置信息包括：

S201：针对每一锚框确定相应第二响应值，第二响应值公式：

式中，是坐标为/>像素点的第/>个锚框/>对应的第一响应值，/>是坐标为/>像素点的第/>个锚框/>对应的第二响应值，/>用于抑制与预估目标边界框交并比低的锚框，/>，/>表示预估目标中心点位置的概率分布，，预估目标位置信息包括预估目标边界框和预估目标中心点位置，预估目标边界框为/>，预估目标中心点坐标为/>，预估目标位置信息对应的协方差矩阵/>的标准差为/>。

当目标被遮挡较少或无遮挡时，若当前检测图像中存在与目标相似的干扰物，SiamRPN分类分支的输出中会有多个锚框对应的第一响应值较大，此时使用目标运动模型抑制不确定性较大的锚框，若无相似干扰，则目标运动模型仅用于提高目标位置的置信度。可以重新计算每个锚框的响应即，可针对每一锚框获得第二响应值，第二响应值公式如下：（9）

其中，是坐标为/>像素点的第/>个锚框/>对应的第一响应值，/>是坐标为/>像素点的第/>个锚框/>对应的第二响应值。

目标运动模型预估的目标位置信息对应的目标边界框为、中心点坐标为、协方差矩阵的标准差为/>。

利用目标运动模型的输出结果，干预SiamRPN的各锚框响应，已达到抑制SiamRPN中不确定性较大的锚框，可实现目标的精准跟踪。所以可以定义为第i个锚框与运动模型预测的边界框的交并比，/>为目标运动模型预估的目标中心点位置的概率分布，/>和/>的公式分别如下：

（10）

（11）

其中，可抑制与预估目标边界框交并比低的锚框，/>可抑制远离运动模型估计位置的锚框。

S202：确定当前检测图像中的最大第二响应值。

在获得多个第二响应值后，根据数值大小，筛选出数值最大的第二响应值，即最大第二响应值。需要说明的是，该最大第二响应值是整幅当前检测图对应的最大第二响应值。

S203：将所述最大第二响应值对应的SiamRPN模型中的回归分支输出数据作为当前检测图像中的目标位置信息。

SiamRPN模型中的回归分支会针对每一个锚框，输出一个微调后的锚框位置信息，即第一位置信息，此时的微调是根据第二响应值和模板图像进行的微调，选择与最大第二响应值对应的第一位置信息作为最终确定的当前检测图像的目标位置信息。

另外，当目标被遮挡较多或完全遮挡时，SiamRPN的锚框响应值普遍较低，此时使用上一帧检测图像的目标位置信息与所述当前检测图像的预估目标位置信息的均值可作为本次输出，公式如下：

（12）

其中，是目标模型对第K帧检测图像的估计值，由公式（7）、（8）计算可得。

在一个可选的实施例中，在上述实施例的基础上，所述方法还可以包括：

根据当前检测图像目标位置信息，确定当前检测图像的状态向量，将所述当前检测图像的状态向量作为所述目标运动模型的输入，获得下一帧检测图像的预估目标位置信息，其中，当前检测图像的状态向量的协方差矩阵公式：

式中，。

本发明实施例中SiamRPN模型输出当前检测图像的目标位置信息后，还可以确定当前检测图像的状态向量（假设当前检测图像为第k帧检测图像），通过/>利用公式（7）（8）可计算得到下一帧检测图像的预估目标位置信息。

其中，当前检测图像目标位置，又因，/>，所以可以获得。另外，令/>，/>对应的协方差矩阵/>公式如下：

（13）

在一个可选的实施例中，如图4所示，在上述实施例的基础上，所述根据图像帧数、目标变形量及所述当前检测图像的目标位置信息判断是否更新模板图像包括：

S301：获取初始模板和所述当前检测图像的目标位置信息。

随着对视频序列中的目标进行跟踪，目标物体的形状会随目标的自身运动和相机与目标的相对运动而发生改变，其光影也会随环境发生变化，这些差异将会导致算法不稳定，甚至跟踪失败。因此在每次输出当前检测图像的目标位置信息后，还可以判断是否更新模板。在一种可实现的方式中，可以在每次输出当前检测图像的目标位置信息后，获取初始模板和当前检测图像的目标位置信息，用于判断是否更新模板。

S302：根据所述初始模板和所述当前检测图像的目标位置信息，确定第三响应值，所述第三响应值用于表示所述当前检测图像的目标位置信息对应的边界框内图像与所述初始模板图像的相似性。

第三响应值用于判断初始模板中的边界框信息和中心点位置信息，和当前检测图像的目标位置信息的相似度，若相似度过小则表明当前检测图像的目标与初始模板的目标相差较大，则不需要更新模板。

S303：若图像帧数大于第二预设阈值或目标变形量大于第三预设阈值，且第三响应值大于第四预设阈值时，更新模板图像，其中，目标变形量，/>为初始模板中目标边界框的高度，/>为初始模板中目标边界框的宽度。

本发明实施例中可以以上次模板更新后算法继续跟踪的图片帧数及目标变形量/>为第一条件，再通过判断最大第三响应值的大小，判断是否进行模板更新，以减小频繁进行模板更新导致的模板信息漂移。

在一个可实现的方式中，若图片帧数大于第二预设阈值50或目标变形量大于第三预设阈值0.15，且最大第三响应值大于第四预设阈值0.98，进行模板更新。目标变形量/>可定义如下：

（14）

式中，为初始模板中目标边界框的高度，/>为初始模板中目标边界框的宽度。

本发明实施例将卡尔曼波器与SiamRPN进行了紧耦合，具体为利用目标运动模型，优化了SiamRPN模型中锚框的响应值，当检测图像中没有目标相似物的干扰或者目标被遮挡较少时，利用优化后的响应值，即第二响应值，确定当前检测图像中的目标位置，当目标被遮挡较多时，可以根据目标运动模型获得的目标估计值，确定最终当前检测图像中的目标位置。应用本发明实施例，可以避免检测图像中目标相似物的干扰，并且也不会由于目标被遮挡而导致目标跟踪失败，实现了目标的精准跟踪。

相应于上述方法实施例，本发明实施例提供了一种目标跟踪装置，如图5所示，该装置可以包括：

第一获取模块501，用于获取模板图像和当前检测图像，其中，所述模板图像具有目标边界框信息和目标中心点位置信息，所述当前检测图像为待测视频中逐帧提取的图像。

第一获得模块502，用于根据上一帧检测图像的目标位置信息，利用目标运动模型，获得当前检测图像的预估目标位置信息，其中，所述目标运动模型利用卡尔曼滤波器，根据目标加速度和目标边界框形变构建。

第二获得模块503，用于将所述当前检测图像和所述模板图像输入SiamRPN模型，针对所述当前检测图像中的每一像素点，获得多个第一响应值和多个第一位置信息，其中，每一第一响应值对应一个锚框，每一锚框以相应像素点为中心对应所述当前检测图像中某一局部区域，所述第一响应值用于表示相应锚框内图像与所述模板图像的相似性，每一第一位置信息对应一个锚框，所述第一位置信息用于表示根据所述模板图像微调相应锚框后的位置信息。

第一确定模块504，用于根据根据所述当前检测图像的预估目标位置信息、所述第一响应值及所述第一位置信息，确定当前检测图像的目标位置信息，且根据图像帧数、目标变形量及所述当前检测图像的目标位置信息判断是否更新模板图像。

在一个可选的实施例中，所述目标运动模型公式：

式中，k表示第k帧检测图像，X为目标状态向量，定义为， x、y分别为目标中心点的横坐标、纵坐标，w、h分别为目标边界框的宽度、高度，/>为目标中心点在x轴方向上的速度，/>为目标中心点在y轴方向上的速度，T为矩阵转置，A为状态转移矩阵，/>，/>为相邻两帧检测图像之间的时间间隔，/>为系统噪声，系统噪声协方差公式：，a由连续4帧检测图像中目标中心点的加速度确定，，/> ，/>为目标边界框宽度和高度的方差，。

在一个可选的实施例中，在上述实施例的基础上，所述当第一响应值大于或等于第一预设阈值时，根据第二响应值获得所述当前检测图像的目标位置信息包括：

针对每一锚框确定相应第二响应值，第二响应值公式：

式中，是坐标为/>像素点的第/>个锚框/>对应的第一响应值，/>是坐标为/>像素点的第/>个锚框/>对应的第二响应值， />用于抑制与预估目标边界框交并比低的锚框，/>，/>表示预估目标中心点位置的概率分布，，预估目标位置信息包括预估目标边界框和预估目标中心点位置，预估目标边界框为/>，预估目标中心点坐标为/>，预估目标位置信息对应的协方差矩阵的标准差为/>。

确定当前检测图像中的最大第二响应值。

将所述最大第二响应值对应的SiamRPN模型中的回归分支输出数据作为当前检测图像中的目标位置信息。

在一个可选的实施例中，所述装置还包括：

第二确定模块，用于根据当前检测图像目标位置信息，确定当前检测图像的状态向量，将所述当前检测图像的状态向量作为所述目标运动模型的输入，获得下一帧检测图像的预估目标位置信息，其中，当前检测图像的状态向量的协方差矩阵公式：

式中，。

在一个可选的实施例中，基于上述实施例的基础上，所述根据图像帧数、目标变形量及所述当前检测图像的目标位置信息判断是否更新模板图像包括：

获取初始模板和所述当前检测图像的目标位置信息。

根据所述初始模板和所述当前检测图像的目标位置信息，确定第三响应值，所述第三响应值用于表示所述当前检测图像的目标位置信息对应的边界框内图像与所述初始模板图像的相似性。

上述系统、装置实施例与系统实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

获取模板图像和当前检测图像，其中，所述模板图像具有目标边界框信息和目标中心点位置信息，所述当前检测图像为待测视频中逐帧提取的图像；

根据上一帧检测图像的目标位置信息，利用目标运动模型，获得当前检测图像的预估目标位置信息，其中，所述目标运动模型利用卡尔曼滤波器，根据目标加速度和目标边界框形变构建；

将所述当前检测图像和所述模板图像输入SiamRPN模型，针对所述当前检测图像中的每一像素点，获得多个第一响应值和多个第一位置信息，其中，每一第一响应值对应一个锚框，每一锚框以相应像素点为中心对应所述当前检测图像中某一局部区域，所述第一响应值用于表示相应锚框内图像与所述模板图像的相似性，每一第一位置信息对应一个锚框，所述第一位置信息用于表示根据所述模板图像微调相应锚框后的位置信息；

根据所述当前检测图像的预估目标位置信息、所述第一响应值及所述第一位置信息，确定当前检测图像的目标位置信息，且根据图像帧数、目标变形量及所述当前检测图像的目标位置信息判断是否更新模板图像，其中，

当第一响应值小于第一预设阈值时，将上一帧检测图像的目标位置信息与所述当前检测图像的预估目标位置信息的均值作为所述当前检测图像的目标位置信息；

当第一响应值大于或等于第一预设阈值时，根据第二响应值获得所述当前检测图像的目标位置信息，所述第二响应值用于排除所述当前检测图像中与目标相似的干扰物或提高目标位置的置信度；

在对目标进行跟踪之前，先要构建目标运动模型，目标运动模型基于卡尔曼滤波器构建，利用目标运动模型的输出数据，优化SiamRPN模型中的参数，实现精准的目标跟踪；目标运动模型噪声协方差根据目标加速度及其边界框形变确定；

目标在检测图像中的运动由相机的运动和目标自身的运动组成，该运动通过相机从三维世界投影到二维图像上，运动规律较为复杂，但由于相机对图像的采集频率较高，因此两帧图像之间目标的位置变化较小，在一定的范围内视为匀速运动，目标边界框在短时间内也认为大小不变；则将图像中目标状态向量表示为：

其中，x、y分别为目标中心点的横坐标、纵坐标，w、h分别为目标边界框的宽度、高度，v^x为目标中心点在x轴方向上的速度，定义v_k ^x＝f·(x_k-x_k-1)，即v_k ^x为目标中心点从上一帧到当前帧在横坐标方向上偏移的像素个数，f为采集频率，v^y为目标中心点在y轴方向上的速度，定义v_k ^y＝f·(y_k-y_k-1)，即v_k ^y为目标中心点从上一帧到当前帧在纵坐标方向上偏移的像素个数，T为矩阵转置；

目标运动模型建模公式如下：

X_k＝AX_k-1+ω_k-1(2)

其中，k表示第k帧检测图像，X_k为第k帧检测图像的目标状态向量，A为状态转移矩阵，A用于描述目标从上一帧检测图像到当前帧检测图像的运动变化，ω为系统噪声，服从零均值高斯分布，系统噪声协方差矩阵为Q；

由于A与检测图像采集频率有关，所以令相邻两帧检测图像时间间隔为Δt，则状态转移矩阵A定义为：

考虑目标加速度及目标边界框形变对目标状态向量的影响，假设目标中心点的加速度服从方差为a的零均值高斯分布，则系统噪声协方差Q为：

其中，参数a由连续4帧检测图像中目标中心点的加速度确定，目标边界框宽度和高度的方差为σ_B，所以Q随着参数a和σ_B的变化而变化；分别定义a和σ_B公式如下：

其中，k为第k帧检测图像，需要说明的是，从目标跟踪开始，前4帧检测图像对应的参数a为固定值，为10，w为检测图像中目标边界框的宽度，h为检测图像中目标边界框的高度；

应用目标运动模型，对下一帧检测图像中的目标进行预测，即目标模型输出下一帧检测图像的预估目标位置信息，具体公式如下：

P_k+1|k＝AP_k|kA^T+Q_k+1(8)

式中，表示第k+1帧检测图像的预估目标状态向量，/>表示根据第k帧检测图像的目标位置信息计算得到的第k帧检测图像的目标状态向量；SiamRPN模型输出的最终目标位置Z_k＝[x_k,y_k,w_k,h_k]^T，另外v_k ^x＝f·(x_k-x_k-1)，v_k ^y＝f·(y_k-y_k-1)，所以获得根据输出的当前帧检测图像目标位置信息，计算下一帧检测图像的预估目标位置信息，P_k+1|k为目标状态向量/>的协方差矩阵，由上述A、Q对应的公式(3)、(4)计算得到；

当前检测图像和模板图像在输入SiamRPN模型后，会针对当前检测图像中的每一个像素点生成h个锚框，每一个锚框对应一个第一响应值，第一响应值用于表示对应的锚框里的图像与模板图像中目标边界框里的图像的相似性，两者图像越相似，第一响应值越大，反之亦然；另外根据模板图像和第一响应值，针对每一个锚框会生成一个第一位置信息，第一位置信息是对相应锚框进行微调后，得到的微调后的锚框的具体位置信息，包括微调后锚框的中心点位置信息和边框信息，目的是为了得到与目标图像中的目标位置信息更接近的锚框，若当前检测图像中有j个像素，则最终会得到j*h个第一位置信息，若目标没有被遮挡，或者遮挡较少时，在j*h个第一位置信息中选择一个与模板图像的目标位置信息即目标边界框信息和目标中心点位置信息最相近的第一位置信息作为最终的目标位置输出；

将当前检测图像和模板图像分别输入孪生网络的两条共享参数分支中，从输入的两图像中分别提取卷积特征和/>其中/>对应模板图像和/>对应当前检测图像；SiamRPN以特征图/>上的每个像素点为中心，按照一组预设的尺度与长宽比将一矩形区域缩放成不同大小的矩形框，即锚框，每张特征图共生成h个锚框，每个锚框都对应原图一定区域；将/>和/>各分为两个特征图，分别作为分类分支和回归分支的输入，其中分类分支用于输出各个锚框内图像与目标模板的相似性，该相似性由锚框内图像特征与目标模板特征的卷积响应值度量，该卷积响应值即第一响应值；回归分支将锚框在当前检测图像中的位置信息进一步细化，得到第一位置信息；最后根据多个第一位置信息输出目标在整幅图像的确切位置信息Z_k＝[x_k,y_k,w_k,h_k]^T；

所述当第一响应值大于或等于第一预设阈值时，根据第二响应值获得所述当前检测图像的目标位置信息包括：

S201：当目标被遮挡较少或无遮挡时，若当前检测图像中存在与目标相似的干扰物，SiamRPN分类分支的输出中会有多个锚框对应的第一响应值较大，此时使用目标运动模型抑制不确定性较大的锚框，若无相似干扰，则目标运动模型仅用于提高目标位置的置信度；重新计算每个锚框的响应即，针对每一锚框获得第二响应值，第二响应值公式如下：

其中，是坐标为(c,d)像素点的第i个锚框/>对应的第一响应值，/>是坐标为(c,d)像素点的第i个锚框/>对应的第二响应值；

目标运动模型预估的目标位置信息对应的目标边界框为B_M、中心点坐标为(c_M，d_M)、协方差矩阵P的标准差为(σ_c，σ_d)；

利用目标运动模型的输出结果，干预SiamRPN的各锚框响应，以达到抑制SiamRPN中不确定性较大的锚框，实现目标的精准跟踪；所以定义为第i个锚框与运动模型预测的边界框的交并比，/>为目标运动模型预估的目标中心点位置的概率分布，/>和/>的公式分别如下：

其中，抑制与预估目标边界框交并比低的锚框，/>抑制远离运动模型估计位置的锚框；

S202：确定当前检测图像中的最大第二响应值；

在获得多个第二响应值后，根据数值大小，筛选出数值最大的第二响应值，即最大第二响应值；需要说明的是，该最大第二响应值是整幅当前检测图对应的最大第二响应值；

S203：将所述最大第二响应值对应的SiamRPN模型中的回归分支输出数据作为当前检测图像中的目标位置信息；

SiamRPN模型中的回归分支会针对每一个锚框，输出一个微调后的锚框位置信息，即第一位置信息，此时的微调是根据第二响应值和模板图像进行的微调，选择与最大第二响应值对应的第一位置信息作为最终确定的当前检测图像的目标位置信息Z_k＝[x_k,y_k,w_k,h_k]^T；

另外，当目标被遮挡较多或完全遮挡时，SiamRPN的锚框响应值普遍较低，此时使用上一帧检测图像的目标位置信息与所述当前检测图像的预估目标位置信息的均值作为本次输出，公式如下：

其中，是目标模型对第K帧检测图像的估计值，由公式(7)、(8)计算得到；

所述方法还包括：

SiamRPN模型输出当前检测图像的目标位置信息后，还确定当前检测图像的状态向量假设当前检测图像为第k帧检测图像，通过/>利用公式(7)(8)计算得到下一帧检测图像的预估目标位置信息；

其中，令对应的协方差矩阵P_k|k公式如下：

所述根据图像帧数、目标变形量及所述当前检测图像的目标位置信息判断是否更新模板图像包括：

获取初始模板和所述当前检测图像的目标位置信息；

根据所述初始模板和所述当前检测图像的目标位置信息，确定第三响应值，所述第三响应值用于表示所述当前检测图像的目标位置信息对应的边界框内图像与初始模板图像的相似性；

若图像帧数大于第二预设阈值或目标变形量大于第三预设阈值，且最大第三响应值大于第四预设阈值时，更新模板图像，其中，目标变形量δ定义如下：

h_t为初始模板中目标边界框的高度，w_t为初始模板中目标边界框的宽度。