CN114119970A

CN114119970A - 目标跟踪方法及装置

Info

Publication number: CN114119970A
Application number: CN202210109933.9A
Authority: CN
Inventors: 王金桥; 赵朝阳; 于斌
Original assignee: Objecteye Beijing Technology Co Ltd
Current assignee: Objecteye Beijing Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-03-01
Anticipated expiration: 2042-01-29
Also published as: CN114119970B

Abstract

本发明提供一种目标跟踪方法及装置，该目标跟踪方法包括：获取待检测图像和多个已标注图像；基于多个所述已标注图像，确定动态降维矩阵；基于所述已标注图像和所述动态降维矩阵，确定岭回归解析值；基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值，确定目标定位结果。本发明提供的目标跟踪方法及装置，通过基于已标注图像确定动态降维矩阵，利用动态降维矩阵来优化岭回归算法的处理过程，从而能够提高利用岭回归算法的判别能力和泛化能力，提高目标跟踪的精度和鲁棒性。

Description

目标跟踪方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种目标跟踪方法及装置。

背景技术

随着计算机视觉技术的发展，利用图像识别技术进行目标跟踪和目标检测已经在各种场景下得到应用，目标跟踪是在给定初始图像帧和目标的边框信息的情况下，获得后续图像帧中目标的位置和边框信息。由于在线训练样本的有限性，目标外观的剧烈变化和复杂的背景干扰等因素，目标跟踪技术仍面临许多挑战。

目前存在采用神经网络技术进行目标跟踪的方法，但是现有的方法判别能力和泛化能力较低，得到的跟踪结果精度较低。

发明内容

本发明提供一种目标跟踪方法及装置，用以解决现有技术中判别能力和泛化能力较低，得到的跟踪结果精度较低的缺陷，实现提高利用岭回归算法的判别能力和泛化能力，提高目标跟踪的精度和鲁棒性。

本发明提供一种目标跟踪方法，该目标跟踪方法包括：

获取待检测图像和多个已标注图像；

基于多个所述已标注图像，确定动态降维矩阵；

基于所述已标注图像和所述动态降维矩阵，确定岭回归解析值；

基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值，确定目标定位结果。

根据本发明提供的目标跟踪方法，所述基于多个所述已标注图像，确定动态降维矩阵，包括：

将多个所述已标注图像输入至动态降维模型中，得到所述动态降维矩阵；

其中，所述动态降维模型为以多组样本图像为样本，以与所述样本图像所对应的降维矩阵样本数据为样本标签进行训练得到的。

根据本发明提供的目标跟踪方法，所述将多个所述已标注图像输入至动态降维模型中，得到所述动态降维矩阵，包括：

将多个所述已标注图像输入至所述动态降维模型的特征提取层中，提取到多个参考特征；

将多个所述参考特征输入至所述动态降维模型的卷积层中，得到融合特征；

将所述融合特征输入至所述动态降维模型的反卷积层中，得到低层次正交基矩阵和高层次正交基矩阵；

对所述低层次正交基矩阵和所述高层次正交基矩阵进行重组，得到所述动态降维矩阵。

根据本发明提供的目标跟踪方法，所述基于所述已标注图像和所述动态降维矩阵，确定岭回归解析值，包括：

将所述已标注图像和所述动态降维矩阵输入至岭回归模型中，得到所述岭回归模型输出的岭回归解析值；

其中，所述岭回归模型为样本图像和样本降维矩阵为样本，以与所述样本图像和所述样本降维矩阵所对应的岭回归解析值样本数据为样本标签进行训练得到的。

根据本发明提供的目标跟踪方法，所述将所述已标注图像和所述动态降维矩阵输入至岭回归模型中，得到所述岭回归模型输出的岭回归解析值，包括：

将所述已标注图像输入至所述动态降维模型的特征提取层中，提取到待降维特征；

将所述待降维特征输入至所述动态降维模型的降维层中，将所述动态降维矩阵作为所述降维层的权重，得到岭回归解析值。

根据本发明提供的目标跟踪方法，所述基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值，确定目标定位结果，包括：

提取所述待检测图像的检测特征；

基于公式：

；

确定目标定位结果，其中，

表示所述目标定位结果，

表示所述待检测图像的检测特征，

表示所述检测特征的转置运算，

表示所述动态降维矩阵，

表示所述岭回归解析值。

根据本发明提供的目标跟踪方法，所述多个已标注图像为在间隔目标帧数后，基于初始标注图像和所述目标定位结果进行更新得到的。

本发明还提供一种目标跟踪装置，该目标跟踪装置包括：

获取模块，用于获取待检测图像和多个已标注图像；

第一确定模块，用于基于多个所述已标注图像，确定动态降维矩阵；

第二确定模块，用于基于所述已标注图像和所述动态降维矩阵，确定岭回归解析值；

第三确定模块，用于基于所述待检测图像、所述动态降维矩阵以及所述岭回归解析值，确定目标定位结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标跟踪方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标跟踪方法的步骤。

本发明提供的目标跟踪方法及装置，通过基于已标注图像确定动态降维矩阵，利用动态降维矩阵来优化岭回归算法的处理过程，从而能够提高利用岭回归算法的判别能力和泛化能力，提高目标跟踪的精度和鲁棒性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的目标跟踪方法的流程示意图；

图2是本发明提供的目标跟踪方法的原理示意图；

图3是本发明提供的目标跟踪装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图4描述本发明的目标跟踪方法及装置。

该目标跟踪方法可以用于对连续帧图像中的目标进行跟踪，连续帧图像可以为视频数据，比如可以用边框的形式在待检测图像中标识出目标所处区域，当多个待检测图像以连续帧图像的形式连续出现时，就能够通过目标跟踪方法对连续帧图像中的目标所处的区域进行定位跟踪。

如图1所示，本发明提供一种目标跟踪方法，包括如下步骤110至步骤140。

步骤110、获取待检测图像和多个已标注图像。

可以理解的是，待检测图像是需要进行目标定位的当前图像，可以是从视频数据中截取出的某一帧当前图像，多个已标注图像可以是已经对图像中的目标用边框的形式标注出来目标位置的图像，此处已标注图像的数量可以为3张或者3张以上，3张已标注图像可以完全相同，当已标注图像为3张以上时，其中3张已标注图像可以完全相同。

步骤120、基于多个已标注图像，确定动态降维矩阵。

可以理解的是，动态降维矩阵为从多个已标注图像中提取出来，比如可以从3张相同的已标注图像中提取出来，动态降维矩阵用于降低从已标注图像中提取出来的高维特征的纬度，找到合适的特征纬度，从而解决图像识别过程中的过拟合风险以及泛化性能低的问题，实现获得较强的判别能力和泛化能力。

此处可以使用神经网络模型的形式来实现对多个已标注图像的动态降维处理，当然可以使用特征提取的其他非机器学习算法来实现，此处不对具体的动态降维过程进行限定。

如图2所示，在一些实施例中，上述步骤120、基于多个已标注图像，确定动态降维矩阵，包括：将多个已标注图像输入至动态降维模型中，得到动态降维矩阵；其中，动态降维模型为以多组样本图像为样本，以与样本图像所对应的降维矩阵样本数据为样本标签进行训练得到的。

可以理解的是，动态降维模型可以通过大量的多组样本图像以及预先标记的降维矩阵样本数据来进行训练，可以通过有监督学习的方式确保动态降维模型的训练准确度。

动态降维模型所使用的深度学习神经网络能够对输入的多组样本图像中的特征进行挑拣，将每个特征用于得到一个输出结果，将每个输出结果都和样本标签进行比对，经过比对符合要求的特征可以保留下来，而经过比对不符合要求的特征通过Loss参数进行忽略，经过对输入的大量多组样本图像的不断迭代训练，可以最终学会那些需要记忆的核心特征，并将不同的核心特征进行分类，最终可以根据这些核心特征来对新输入的已标注图像进行判别。

在对动态降维模型进行训练之前，深度学习神经网络的卷积层的滤波器是完全随机的，其不会对任何特征激活，也就是不能检测到任何特征，在训练的过程中，对空白的滤波器修改权重以使其能够检测特定的场景，这正是一种有监督学习方式，基于这种有监督学习方式，深度学习神经网络能够自行学习需要出核心特征，以根据这些核心特征来对新输入的已标注图像进行判别。

如图2所示，在一些实施例中，将多个已标注图像输入至动态降维模型中，得到动态降维矩阵，包括：将多个已标注图像输入至动态降维模型的特征提取层中，提取到多个参考特征；将多个参考特征输入至动态降维模型的卷积层中，得到融合特征；将融合特征输入至动态降维模型的反卷积层中，得到低层次正交基矩阵和高层次正交基矩阵；对低层次正交基矩阵和高层次正交基矩阵进行重组，得到动态降维矩阵。

该动态降维模型用于学习生成合适的正交降维矩阵，即：

；

其中

代表该动态降维模型，

为输入的已标注图像的参考特征，

为动态降维模型在训练过程中需要学习的常量，参考特征

被用来端到端地训练

，训练目标为最小化正交限制的回归损失，这样可用于获得有强泛化能力的模型，动态降维模型的优化问题可以设计为：

其中，

，Z表示已标注图像，

包含了N个D维度的特征，并且：

，

在利用大规模已标注图像训练完后，最优解

将拥有较好的泛化性能且能通过子网络和解析公式高效获得，

表示动态降维矩阵。

为了高效获取足够数量的动态降维矩阵，可以通过动态降维矩阵在特征的每一个空间位置预测一个动态降维矩阵。该动态降维矩阵的投影头网络部分仅包含必要的卷积和反卷积层。来自三个已标注图像的参考特征首先通过卷积层进行特征融合，再通过反卷积层增加特征分辨率以获得足够的动态降维矩阵，最后将低层次正交基矩阵

和高层次正交基矩阵

重组构成最终的投影矩阵，即

；

其中：

，

为全零矩阵，通过投影矩阵P，动态降维模型的参数量将从1024降低到370维。

动态降维模型的训练损失采用正交损失和回归损失，其中正交损失为：

；

可以同时对动态降维模型中的特征提取层进行训练，形式为：

；

其中

，

。

得到动态降维模型的最终损失为：

；

其中，

为平衡损失的超参数。

步骤130、基于已标注图像和动态降维矩阵，确定岭回归解析值。

可以理解的是，岭回归算法能够在给定任意正交基向量的情况下得到解析值，此处动态降维矩阵就是一种正交基向量，可以利用动态降维矩阵结合岭回归算法对已标注图像进行处理，得到岭回归解析值，岭回归解析值能够用于对待检测图像的目标位置进行定位。

如图2所示，在一些实施例中，上述步骤130、基于已标注图像和动态降维矩阵，确定岭回归解析值，包括：将已标注图像和动态降维矩阵输入至岭回归模型中，得到岭回归模型输出的岭回归解析值；其中，岭回归模型为样本图像和样本降维矩阵为样本，以与样本图像和样本降维矩阵所对应的岭回归解析值样本数据为样本标签进行训练得到的。

可以理解的是，岭回归模型可以通过大量的样本图像以及预先标记的样本降维矩阵来进行训练，可以通过有监督学习的方式确保岭回归模型的训练准确度。

岭回归模型所使用的深度学习神经网络能够对输入的样本图像中的特征进行挑拣，将每个特征用于得到一个输出结果，将每个输出结果都和样本标签进行比对，经过比对符合要求的特征可以保留下来，而经过比对不符合要求的特征通过Loss参数进行忽略，经过对输入的大量样本图像的不断迭代训练，可以最终学会那些需要记忆的核心特征，并将不同的核心特征进行分类，最终可以根据这些核心特征来对新输入的已标注图像和动态降维矩阵进行判别。

在对岭回归模型进行训练之前，深度学习神经网络的卷积层的滤波器是完全随机的，其不会对任何特征激活，也就是不能检测到任何特征，在训练的过程中，对空白的滤波器修改权重以使其能够检测特定的场景，这正是一种有监督学习方式，基于这种有监督学习方式，深度学习神经网络能够自行学习需要出核心特征，以根据这些核心特征来对新输入的已标注图像和动态降维矩阵进行判别。

如图2所示，在一些实施例中，将已标注图像和动态降维矩阵输入至岭回归模型中，得到岭回归模型输出的岭回归解析值，包括：将已标注图像输入至动态降维模型的特征提取层中，提取到待降维特征；将待降维特征输入至动态降维模型的降维层中，将动态降维矩阵作为降维层的权重，得到岭回归解析值。

可以理解的是，岭回归优化问题为：

；

其中，

，

由N个D维的训练样本构成，

为高斯标签，

为正则化参数。

可以推导出，若

，该优化问题得到的岭回归模型将会过拟合且造成泛化力下降。

为了找到相比原空间更低维度的子空间来提升泛化能力，该方法构造正交约束的岭回归模型如下，

令

，其中动态降维矩阵

，且

，

。此时，新的优化问题构造为：

其中，

是一个单位矩阵，若

，则训练样本的特征维度通过P 矩阵的投影从D维降到了M维，P约束为列正交。这样，通过一个合适维度的岭回归解析值

可以保持岭回归模型充足的判别力并且减少岭回归模型过拟合的风险。

为了求解新的优化问题的解

可以构造该问题的拉格朗日形式为：

；

因此，拉格朗日问题的KKT条件为：

也就是：

其中，

为单位阵，假设

足够大，可以从上式推导出：

；

容易看出，正交约束优化问题的最小值可以通过将上式带入KKT条件中获得，这是因为

是原优化问题的最优解，且

。

另外，

可以通过用

代替KKT条件中的

获得。

因此，KKT条件是正交约束的优化问题的充分必要条件，给定任意的动态降维矩阵

，根据KKT条件对于一个足够大的

，可以推导出：

；

那么，

即为正交约束岭回归优化问题的最优解。

然而，不同的

不意味着岭回归模型有相同的泛化能力，因此需要获得一个合适的

和对应的

来获得跟踪任务中强的泛化能力，即通过该方法提供的动态降维模型来获得合适的动态降维矩阵。

可以先将单帧的岭回归优化问题拓展到多帧上，具体形式为

其中T为历史帧个数，也就是已标注图像的数量，

为第t帧的已标注图像特征矩阵，提取出参考特征U，岭回归解析值可以通过下式和动态降维模型获得：

；

其中，

表示岭回归解析值，

表示动态降维矩阵。

步骤140、基于待检测图像、动态降维矩阵以及岭回归解析值，确定目标定位结果。

可以理解的是，在确定了动态降维矩阵和岭回归解析值，就可以利用动态降维矩阵和岭回归解析值对待检测图像进行处理，从而能够从待检测图像中标注出目标定位结果，目标定位结果可以是以边框的形式从待检测图像中标注出目标位置。

如图2所示，在一些实施例中，基于待检测图像、动态降维矩阵以及岭回归解析值，确定目标定位结果，包括：

提取待检测图像的检测特征；

基于公式：

；

确定目标定位结果，其中，

表示目标定位结果，

表示待检测图像的检测特征，

表示检测特征的转置运算，

表示动态降维矩阵，

表示岭回归解析值。

本发明提供的目标跟踪方法，通过基于已标注图像确定动态降维矩阵，利用动态降维矩阵来优化岭回归算法的处理过程，从而能够提高利用岭回归算法的判别能力和泛化能力，提高目标跟踪的精度和鲁棒性。

在一些实施例中，多个已标注图像为在间隔目标帧数后，基于初始标注图像和目标定位结果进行更新得到的。

当预测得到的目标定位结果的置信度较低时，将基于目标定位结果得到的已标注图像作为训练样本加入动态降维模型和岭回归模型的训练集中，岭回归模型的训练集，容量可以为50帧，当根据目标定位结果得到的已标注图像超过容量则舍弃最早的训练样本。

当然，也可以对动态降维模型训练集进行更新，方式如下，

其中，

，

为加权参数。

此时，用于训练动态降维模型的三张已标注图像是相同的，可以设置目标帧数为10帧，这样就能够在每间隔10帧已标注图像时更新一次动态降维模型。

对动态降维模型和岭回归模型进行训练的过程可以为：从训练数据集GOT-10k，LaSOT和TrackingNet中提取随机视频序列；从提取视频序列中随机选取五帧图像，以目标为中心裁剪出4×4倍目标区域大小的图像，也就是进行标注过程，其中三帧作为基图像用于提取参考特征，另一帧作为训练图像，剩下一帧作为测试图像，对其中的训练图像进行颜色抖动，位置抖动和尺度抖动以扩增数据降低过拟合，将训练图像和测试图像尺度归一化到256×256大小以作为特征提取层的输入，特征提取网络采用ResNet50作为主干网络，提取主干网络的block3和block4特征后对再对训练和测试图像均匀提取N=961个RoI，每个RoI特征通过一个池化层和一个全连接层获得，分别得到512维的特征向量，将特征向量串联得到1024维度的RoI特征，这些将构成训练样本特征和测试样本特征。

参考特征提取和动态降维矩阵的获得：通过对三帧基图像提取主干网络特征，对每一帧图像获得block3特征和block4特征，再利用目标RoI和一个池化层获得4×4×256和8×8×512的特征，将三帧图像的参考特征串联，再通过一个卷积层得到4×4×512和8×8×512的特征，再分别通过一个反卷积层得到9×9×256和17×17×512的特征，特征维度重组得到512×81和512×289维的两个投影矩阵，通过前述方式重组得到1024×370的动态降维矩阵。

岭回归模型的训练过程可以为：将解析求解过程嵌入到网络前向和反向操作中，降维层即为一个动态全连接层，权重即为动态降维矩阵。利用降维层对训练样本和测试样本降维，最后计算出在测试样本上的响应图，根据响应图计算训练损失，更新网络参数。

可以采用随机梯度下降法训练，每个minibatch包含32组基图像训练图像和测试图像，训练迭代次数为50，训练学习率设为0.005，每15次迭代后学习率衰减为原来的20%。

在本实施例中，在线测试阶段的具体步骤详述如下：初始化判别性跟踪模型：提取训练样本特征和目标特征，计算初始回归模型；目标位置和边框预测：给定新的测试图像，提取测试样本特征，利用回归模型计算出响应图。根据响应图选择最大的位置作为最终的目标定位结果；边框回归与模型更新：根据定位结果利用ATOM方法获得目标边框，模型的更新如前述，其中的更新参数γ设为0.01。

下面对本发明提供的目标跟踪装置进行描述，下文描述的目标跟踪装置与上文描述的目标跟踪方法可相互对应参照。

如图3所示，本发明还提供一种目标跟踪装置，该目标跟踪装置包括：获取模块310、第一确定模块320、第二确定模块330和第三确定模块340。

获取模块310，用于获取待检测图像和多个已标注图像。

第一确定模块320，用于基于多个已标注图像，确定动态降维矩阵。

第二确定模块330，用于基于已标注图像和动态降维矩阵，确定岭回归解析值。

第三确定模块340，用于基于待检测图像、动态降维矩阵以及岭回归解析值，确定目标定位结果。

本发明提供的目标跟踪装置，通过基于已标注图像确定动态降维矩阵，利用动态降维矩阵来优化岭回归算法的处理过程，从而能够提高利用岭回归算法的判别能力和泛化能力，提高目标跟踪的精度和鲁棒性。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行目标跟踪方法，该方法包括：获取待检测图像和多个已标注图像；基于多个已标注图像，确定动态降维矩阵；基于已标注图像和动态降维矩阵，确定岭回归解析值；基于待检测图像、动态降维矩阵以及岭回归解析值，确定目标定位结果。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的目标跟踪方法，该方法包括：获取待检测图像和多个已标注图像；基于多个已标注图像，确定动态降维矩阵；基于已标注图像和动态降维矩阵，确定岭回归解析值；基于待检测图像、动态降维矩阵以及岭回归解析值，确定目标定位结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的目标跟踪方法，该方法包括：获取待检测图像和多个已标注图像；基于多个已标注图像，确定动态降维矩阵；基于已标注图像和动态降维矩阵，确定岭回归解析值；基于待检测图像、动态降维矩阵以及岭回归解析值，确定目标定位结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。