CN113379794B

CN113379794B - 基于注意力-关键点预测模型的单目标跟踪系统及方法

Info

Publication number: CN113379794B
Application number: CN202110547260.0A
Authority: CN
Inventors: 孙开伟; 王支浩; 郭豪; 邓名新; 刘期烈
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2023-07-25
Anticipated expiration: 2041-05-19
Also published as: CN113379794A

Abstract

本发明请求保护一种基于注意力‑关键点预测模型的单目标跟踪系统及方法，包括：目标状态估计和目标定位两个模块，在目标定位模块，通过进行两个关键点的预测来确定目标位置，关键点指的是bounding_box左上角和右下角两个角点。在目标状态估计模块，添加注意力机制来提高模型的判别能力和鲁棒性，并且用bounding_box来明确标出目标的完全状态。

Description

基于注意力-关键点预测模型的单目标跟踪系统及方法

技术领域

本发明属于深度学习、图像处理，目标跟踪技术领域，尤其是将关键角点的检测和注意力机制分别加入到目标定位和目标状态估计模块，增强了模型的判别能力和鲁棒性。

背景技术

在单目标跟踪的背景下，通常有必要将目标定位和目标状态估计区分为两个独立但相关的子任务。目标定位基本上是为了确定待跟踪目标位于图像中某个位置。但是，目标定位模块只能获取位置信息，即目标在图像中的坐标状态，目标状态估计的目的是找到完全状态。近几年来，国外很多著名的研究学者在目标定位的任务中，通过在线训练强大的分类器成功解决了这一问题，特别地，基于相关滤波跟踪器已经得到广泛应用。然而，相关滤波跟踪器对目标的很多方面都不敏感，例如当目标发生大幅度形变时，无法精确估计目标的完整状态，这主要是因为，基于相关滤波的算法没有将目标定位和目标状态估计任务分离。研究者们认为对于边界框的精确估计是复杂的任务，需要高水平的先验知识。不能将其建模为简单的图像变换(例如均匀图像缩放)。

由于存在遮挡、光照变化、尺度变化等一系列问题，单目标跟踪的实际落地应用一直都存在较大的挑战。过去两年中，商汤智能视频团队在孪生网络上做了一系列工作，包括将检测引入跟踪后实现第一个高性能孪生网络跟踪算法的SiamRPN，更好地利用训练数据增强判别能力的DaSiamRPN，以及最新的解决跟踪无法利用到深网络问题的SiamRPN++。其中SiamRPN++在多个数据集上都完成了10％以上的超越。

大多数的跟踪算法把跟踪考虑成定位问题，但它和检测问题也比较类似，在定位的同时也需要对目标边界框进行预测。为此，SiamRPN将跟踪问题抽象成单样本检测问题，即需要设计一个算法，使其能够通过第一帧的信息来初始化的一个局部检测器。为此，SiamRPN结合了跟踪中的孪生网络和检测中的区域推荐网络：孪生网络实现对跟踪目标的适应，让算法可以利用被跟踪目标的信息，完成检测器的初始化；区域推荐网络可以让算法可以对目标位置进行更精准的预测。经过两者的结合，SiamRPN可以进行端到端的训练。目前的跟踪算法已经能够做到在无干扰的情况下进行精确定位，但是如果周围有很多相似目标，跟踪器会受到较大影响，导致关键点定位到一个相似的目标上。其次，目前的跟踪算法不能够适应目标的大尺度变化，当目标发生大尺度形变或者不可逆转的形变时，跟踪器无法继续跟踪目标。本发明就这两个问题逐一解决，训练出一个具有较强鲁棒性和判别能力的跟踪器。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于注意力-关键点预测模型的单目标跟踪系统及方法。本发明的技术方案如下：

一种基于注意力-关键点预测模型的单目标跟踪系统，其包括目标状态估计模块和目标定位模块，将注意力机制加入到单目标跟踪的目标状态估计模块，将关键点检测加入到目标定位模块，目标状态估计模块用于通过添加注意力机制，并且用bounding_box来明确标出目标的完全状态，目标定位模块用于通过进行两个关键点的预测来确定目标位置，bounding_box指的是目标的矩形边界框，关键点指的是bounding_box左上角和右下角两个角点。

进一步的，所述目标定位模块通过进行两个关键点的预测来确定目标位置，关键点指的是bounding_box左上角和右下角两个角点，具体包括：首先找到第一帧bounding_box中的左上角和右下角两个点，并且以这两个点为中心，以r为半径画圆，生成2个峰值为1的的高斯分布区域，图像的其余像素区域规定为0，生成target_map。

进一步的，所述目标定位模块还包括：将视频流的第一帧做数据增强处理，将数据增强后的图像输入到一个双层卷积神经网络中，并且以第一步中的target_map作为目标来进行更新，此时一共更新m次，m<＝5，使用共轭梯度下降法进行更新：经过第一帧的学习，模型已经能够学习到了两个关键点，接着将后续帧依次输入到模型中，得到后续每一帧的target_map，找到图中的两个最大值作为预测的角点。

进一步的，共轭梯度下降法进行更新的过程中采用的损失函数为focal loss，角点区域类似于正样本，其余区域类似于负样本，基于视频中的连续两帧之间满足时空连续性和平滑性，在计算损失的时，使用上一帧的target_map和当前预测帧的target_map进行计算，在线更新机制是在某几帧之后才进行更新，而不是每一帧都进行更新，更新的次数不大于n次，n<＝5，损失也只是在需要更新的时候计算；最后每一帧以预测好的两个关键点区域形成q个bounding_box，q<＝15。

进一步的，所述目标状态估计模块用bounding_box来明确标出目标的完全状态，具体包括：通过一个IOU预测网络预测每一个框的IOU，即“预测的边框”和“真实的边框”的交集和并集的比值；

进一步的，所述IOU预测网络包括特征提取模块、注意力机制模块及合并输出模块，特征提取模块用于提取图片信息，注意力机制模块用于提取图片中的目标信息和图片的背景信息，及合并输出模块用于输出最后的结果。

进一步的，所述目标状态估计模块还包括训练步骤，具体包括：训练数据集使用的是GOT-10k，LaSOT两个数据集，损失函数使用的是MSE，优化器则选用的是Adam优化器，训练时间约10个小时；

训练完成后只保留模型的合并输出模块，将目标定位模块的q(q<＝15)个bounding_box输入模型，对其中IOU预测的x个最大值求平均得到最后预测的bounding_box，x<＝3。

一种所述系统的单目标跟踪方法，其包括以下步骤：将注意力机制加入到单目标跟踪的目标状态估计模块，将关键点检测加入到目标定位模块，目标定位模块通过进行两个关键点的预测来确定目标位置，bounding_box指的是目标的矩形边界框，关键点指的是bounding_box左上角和右下角两个角点。目标状态估计模块通过添加注意力机制，并且用bounding_box来明确标出目标的完全状态。

进一步的，所述目标定位模块通过进行两个关键点的预测来确定目标位置，具体包括：

首先找到第一帧bounding_box中的左上角和右下角两个点，并且以这两个点为中心，以r为半径画圆，生成2个峰值为1的的高斯分布区域，图像的其余像素区域规定为0，生成target_map；

将视频流的第一帧做数据增强处理，将数据增强后的图像输入到一个双层卷积神经网络中，并且以第一步中的target_map作为目标来进行更新，此时一共更新m次，使用共轭梯度下降法来进行更新；

经过第一帧的学习，模型已经能够学习到了两个关键点，接着将后续帧依次输入到模型中，得到后续每一帧的target_map，找到图中的两个最大值作为预测的角点。

损失函数选用focal loss，角点区域类似于正样本，其余区域类似于负样本，基于视频中的连续两帧之间满足时空连续性和平滑性，在计算损失的时，使用上一帧的target_map和当前预测帧的target_map进行计算；

在线更新机制是在某几帧之后才进行更新，而不是每一帧都进行更新，更新的次数不大于n次，损失也只是在需要更新的时候计算；

最后每一帧以预测好的两个关键点区域形成q个bounding_box。

进一步的，所述目标状态估计模块用bounding_box来明确标出目标的完全状态，具体包括：通过一个IOU预测网络预测每一个框的IOU，即“预测的边框”和“真实的边框”的交集和并集的比值；所述IOU预测网络包括特征提取模块、注意力机制模块及合并输出模块，特征提取模块用于提取图片信息，注意力机制模块用于提取图片中的目标信息和图片的背景信息，及合并输出模块用于输出最后的结果。

训练步骤，具体包括：训练数据集使用的是GOT-10k，LaSOT两个数据集，损失函数使用的是MSE，优化器则选用的是Adam优化器，训练时间约10个小时；训练完成后只保留模型的合并输出模块，将目标定位模块的q(q<＝15)个bounding_box输入模型，对其中IOU预测的x个最大值求平均得到最后预测的bounding_box，x<＝3。

本发明的优点及有益效果如下：

(1)基于anchor-free的方法在单目标跟踪领域还不是很成熟，但在目标检测领域已经有了较大的发展，根据关键点的定位方法对于单目标跟踪依旧有较大的研究意义，本发明的第一个创新点是利用两个关键点进行单目标跟踪的定位，定位点不再是中心点，而是左上角和右下角的两个角点，并且bounding_box都是由两个角点生成的，增强了跟踪器的抗干扰能力，将周围相似目标对跟踪器的影响降低到最小。

(2)注意力机制目前在深度学习领域有着广泛的应用，在单目标跟踪中，添加注意力机制能够提高模型的鲁棒性，使得模型对跟踪目标和周围相似目标能够做出准确的判断，具体来讲则是提取目标众多信息中最关键的信息，这种机制带来了持续的性能上的提升，本发明对目标状态估计网络添加注意力机制，采用图像分割的方法，将池化后的bounding_box区域进行分割，初始化分割出来的每一张图像的权重，并且在训练中对权重进行更新，这样可以保证跟踪器捕捉到目标的关键信息，从而进行准确的状态估计。

附图说明

图1是本发明提供优选实施例基于注意力-关键点预测模型的单目标跟踪示意图；

图2是本发明提供优选实施例目标状态估计模块工作流程图；

图3是本发明提供优选实施例在线跟踪工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

在单目标跟踪的背景下，通常有必要将目标定位和目标状态估计区分为两个独立但相关的子任务。目标定位基本上是为了确定待跟踪目标位于图像中某个位置。但是，目标定位模块只能获取位置信息，即目标在图像中的坐标状态，目标状态估计的目的是找到目标的完全状态。目标完全状态在跟踪中简化为2D位置和目标框的长宽，尺度。本发明旨在解决以上现有单目标跟踪技术的问题。提出了一种基于注意力和关键点预测模型的单目标跟踪方法，此方法将注意力机制和关键点检测分别加入到单目标跟踪的两个模块：目标状态估计模块，目标定位模块，在保证跟踪速度时，增强了跟踪器的抗干扰能力。本发明的技术方案如下：

本发明分为目标状态估计和目标定位两个模块，目标状态估计需要耗费大量的时间来进行离线训练，离线训练是传统深度学习训练的方法，需要大量的数据和精细的网络架构。目标定位模块则是用到了在线更新机制，所谓在线更新就是指视频流中的目标和背景信息是一直在变化的，定位模型的参数不能保持不变，而要在某几帧之后更新参数，从而保证跟踪器能够准确跟踪到目标。

一、目标定位模块：

1.首先找到第一帧bounding_box中的左上角和右下角两个点，并且以这两个点为中心，以r为半径画圆，生成2个峰值为1的的高斯分布区域，图像的其余像素区域规定为0，生成target_map。

2.将视频流的第一帧做数据增强处理，将数据增强后的图像输入到一个双层卷积神经网络中，并且以第一步中的target_map作为目标来进行更新，此时一共更新m(m<＝5)次，用到的更新算法不再是类似传统深度学习的Adam，SGD这样类似的更新算法，因为这些传统的更新算法不能满足目标跟踪算法的实时性要求，所以需要使用速度更快的更新算法：共轭梯度下降法。

3.经过第一帧的学习，模型已经能够学习到了两个关键点，接着将后续帧依次输入到模型中，得到后续每一帧的target_map，找到图中的两个最大值作为预测的角点。

4.损失函数的选择我们选用focal loss，角点区域类似于正样本，其余区域类似于负样本，正负样本分布不平衡，所以采用focal loss损失函数来解决这个问题。并且，基于视频中的连续两帧之间满足时空连续性和平滑性，在计算损失的时，使用上一帧的target_map和当前预测帧的target_map进行计算。

5.在线更新机制是在某几帧之后才进行更新，而不是每一帧都进行更新，更新的次数不大于n(n<＝5)次，损失也只是在需要更新的时候计算。

6.最后每一帧以预测好的两个关键点区域形成q(q<＝15)个bounding_box。

二、目标状态估计模块：

1、首先目标状态估计模块预测的是每一个框的IOU(“预测的边框”和“真实的边框”的交集和并集的比值)。

2、IOU预测网络的设计：网络分为特征提取模块，注意力机制模块，合并输出模块，其中注意力机制模块是这项发明的第二个创新点(见图1)

3、开始训练：训练数据集使用的是GOT-10k，LaSOT两个数据集，这两个是目标跟踪领域比较著名的两个大型数据集。损失函数使用的是MSE，优化器则选用的是Adam优化器，训练时间约10个小时。

4、训练完成后只保留模型的合并输出模块，将目标定位模块的q(q<＝15)个bounding_box输入模型，对其中IOU预测的x(x<＝3)个最大值求平均得到最后预测的bounding_box。

第二实施例：

一、目标定位模块：

1、标签处理：对于第一帧图像，将bounding_box的左上角和右下角两个关键点做高斯处理，以关键点为中心，以r为半径的圆做为关键点候选区域，除了这两个关键点区域，图片上的其他区域统一标为0。

2、数据增广处理：将第一帧图像做数据增广处理，将生成的图像输入到双层卷积神经网络中进行训练，使用共轭梯度下降算法，进行m(m<＝5)次更新操作，

3、对下一帧进行预测：将下一帧图片输入模型中，输出一张score_map，接着将score_map上最大的两个点作为关键点，在进行了p(p<＝10)帧之后，再次用共轭梯度算法进行更新，直到最后一帧结束。

二、目标状态估计模块：

1、数据处理：首先对所有视频的每一帧进行裁剪，裁剪成512*512的图像，接着构造数据集，从GOT-10k，LaSOT的每个视频流中随机选出2张图像，这两张图像的间隔不超过50帧，将选出的两张图像作为一个图像对。

2、图像对的第一张图像做为模板图像，第二张图像做为搜索图像，并且将两张图像做数据增强处理

3、特征提取：特征提取用到了Resnet-18网络，提取block3和block4两层的特征，主要目的是为了通过提取不同层次的特征来提高模型的泛化能力，因为背景会有相似目标遮挡。

4、Prpooling池化层：池化层选用的是prpooling池化方法，它能够自动提取bounding_box中的目标特征，并减小背景信息对于目标的干扰。

5、注意力机制模块：为了增强模型的判别能力，加入了注意力机制，采用图像分割的方法，初始化分割出来的每一张图像的权重，并且在更新过程中进行权重的更新，这样既可以保证跟踪器注意到目标的关键部分，又可以使得跟踪器能够辨别目标和周围的相似目标。

6、经过全连接层和特征通道加权后，可以预测出搜索图像上bounding_box的IOU值，损失则是每个预测的IOU值和真实的IOU值的差。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于注意力-关键点预测模型的单目标跟踪系统，其特征在于，包括目标状态估计模块和目标定位模块，将注意力机制加入到单目标跟踪的目标状态估计模块，将关键点检测加入到目标定位模块，目标状态估计模块用于通过添加注意力机制，并且用bounding_box来明确标出目标的完全状态，目标定位模块用于通过进行两个关键点的预测来确定目标位置，bounding_box指的是目标的矩形边界框，关键点指的是bounding_box左上角和右下角两个角点；

所述目标定位模块通过进行两个关键点的预测来确定目标位置，关键点指的是bounding_box左上角和右下角两个角点，具体包括：

所述目标定位模块还包括：将视频流的第一帧做数据增强处理，将数据增强后的图像输入到一个双层卷积神经网络中，并且以第一步中的target_map作为目标来进行更新，此时一共更新m次，m<＝5，使用共轭梯度下降法进行更新：经过第一帧的学习，模型已经能够学习到了两个关键点，接着将后续帧依次输入到模型中，得到后续每一帧的target_map，找到图中的两个最大值作为预测的角点；

共轭梯度下降法进行更新的过程中采用的损失函数为focal loss，角点区域类似于正样本，其余区域类似于负样本，基于视频中的连续两帧之间满足时空连续性和平滑性，在计算损失的时，使用上一帧的target_map和当前预测帧的target_map进行计算，在线更新机制是在某几帧之后才进行更新，而不是每一帧都进行更新，更新的次数不大于n次，n<＝5，损失也只是在需要更新的时候计算；最后每一帧以预测好的两个关键点区域形成q个bounding_box，q<＝15；

所述目标状态估计模块用bounding_box来明确标出目标的完全状态，具体包括：通过一个IOU预测网络预测每一个框的IOU，即“预测的边框”和“真实的边框”的交集和并集的比值；

所述IOU预测网络包括特征提取模块、注意力机制模块及合并输出模块，特征提取模块用于提取图片信息，注意力机制模块用于提取图片中的目标信息和图片的背景信息，及合并输出模块用于输出最后的结果。

2.根据权利要求1所述的一种基于注意力-关键点预测模型的单目标跟踪方法，其特征在于，所述目标状态估计模块还包括训练步骤，具体包括：训练数据集使用的是GOT-10k，LaSOT两个数据集，损失函数使用的是MSE，优化器则选用的是Adam优化器，训练时间约10个小时；

3.一种权利要求1-2任一项所述系统的单目标跟踪方法，其特征在于，包括以下步骤：将注意力机制加入到单目标跟踪的目标状态估计模块，将关键点检测加入到目标定位模块，目标定位模块通过进行两个关键点的预测来确定目标位置，关键点指的是bounding_box左上角和右下角两个角点，bounding_box指的是目标的矩形边界框，目标状态估计模块通过添加注意力机制，并且用bounding_box来明确标出目标的完全状态；

所述目标定位模块通过进行两个关键点的预测来确定目标位置，具体包括：1、首先找到第一帧bounding_box中的左上角和右下角两个点，并且以这两个点为中心，以r为半径画圆，生成2个峰值为1的的高斯分布区域，图像的其余像素区域规定为0，生成target_map；

2、将视频流的第一帧做数据增强处理，将数据增强后的图像输入到一个双层卷积神经网络中，并且以第一步中的target_map作为目标来进行更新，此时一共更新m次，使用共轭梯度下降法来进行更新；

3、经过第一帧的学习，模型已经能够学习到了两个关键点，接着将后续帧依次输入到模型中，得到后续每一帧的target_map，找到图中的两个最大值作为预测的角点。

4、损失函数选用focal loss，角点区域类似于正样本，其余区域类似于负样本，基于视频中的连续两帧之间满足时空连续性和平滑性，在计算损失的时，使用上一帧的target_map和当前预测帧的target_map进行计算；

5、在线更新机制是在某几帧之后才进行更新，而不是每一帧都进行更新，更新的次数不大于n次，损失也只是在需要更新的时候计算；

6、最后每一帧以预测好的两个关键点区域形成q个bounding_box。

4.根据权利要求3所述的单目标跟踪方法，其特征在于，所述目标状态估计模块用bounding_box来明确标出目标的完全状态，具体包括：通过一个IOU预测网络预测每一个框的IOU，即“预测的边框”和“真实的边框”的交集和并集的比值；所述IOU预测网络包括特征提取模块、注意力机制模块及合并输出模块，特征提取模块用于提取图片信息，注意力机制模块用于提取图片中的目标信息和图片的背景信息，及合并输出模块用于输出最后的结果。