CN113256685B

CN113256685B - 基于卷积神经网络字典对学习的目标跟踪方法与系统

Info

Publication number: CN113256685B
Application number: CN202110707429.4A
Authority: CN
Inventors: 王军; 孟晨晨; 邓承志; 王员云; 章利民; 张珮芸; 祝文狄; 王涵
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-24
Anticipated expiration: 2041-06-25
Also published as: CN113256685A

Abstract

本发明提出一种基于卷积神经网络字典对学习的目标跟踪方法及系统，该方法包括：在第一帧目标图像进行采样处理以生成正候选样本，根据正候选样本训练得到边界框回归模型；在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本，对卷积神经网络模型的全连接参数进行微调；基于空间距离机制以及卷积神经网络模型获得训练样本的深度特征，基于训练样本的深度特征进行字典对模型学习以获得初始字典对；基于训练样本的特征并进行联合字典对模型学习；通过联合字典对中的原子的线性组合表示候选目标图像样本，以实现目标图像定位跟踪。本发明提出的目标跟踪方法，具有很好的鲁棒性与精确度，可以更好地处理目标外观变化，实现目标跟踪。

Description

基于卷积神经网络字典对学习的目标跟踪方法与系统

技术领域

本发明涉及计算机视觉与图像处理技术领域，特别涉及一种基于卷积神经网络字典对学习的目标跟踪方法与系统。

背景技术

视觉跟踪是计算机视觉中的一个重要研究课题，在现实世界中有着诸多的应用。具体的，视觉跟踪技术已广泛应用于智能视频监控、交通车辆监控、自动驾驶、人机交互、医疗以及军事等领域。因此，提高视频跟踪算法的准确度、时效性以及鲁棒性有利于促进在相关领域的推广与深入应用，有利于推动智能机器帮助人类完成单调繁琐且危险的工作。

实际上，视频跟踪应用场景广泛且复杂，在具有复杂背景的视频跟踪上经常会发生变形，并且由于受到运动模糊以及遮挡等因素的影响，使得其仍然面临着很大的挑战。一般来说，视觉跟踪算法可以分为两类：包括判别式算法以及生成式算法。（1）、基于判别模型的算法可看作是一种二分类问题，它可以有效地将被跟踪的目标与周围的背景区分开；（2）、基于生成模型的算法使用学习的相似性函数来比较给定搜索区域中的目标候选块和目标模板。与此同时，判别跟踪器也通常分为回归模型和分类模型。特别是，判别相关滤波器由于运算速度快，已经成功地应用于视觉跟踪。

目前，基于深度学习的跟踪算法主要是利用卷积神经网络具有强大的特征提取与表达能力，可用于提取目标特征并对前景背景进行区分以识别跟踪目标。此外，基于深度学习的视频跟踪算法可以与传统算法相结合，代替传统低级手工提取特征的方式，并能够实现权重共享以及减少训练参数。

然而，现有技术中的部分视觉跟踪算法的表观模型，鲁棒性与精确度均不是很理想，且无法很好地处理运动模糊、光照变化以及尺度变化等外观变化所带来的影响。

发明内容

鉴于上述状况，有必要解决现有技术中的部分视觉跟踪算法的表观模型，鲁棒性与精确度均不是很理想，且无法很好地处理运动模糊、光照变化以及尺度变化等外观变化所带来的影响的问题。

本发明实施例提供了一种基于卷积神经网络字典对学习的目标跟踪方法，其中，所述方法包括如下步骤：

步骤一：在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本，并根据所述正候选样本训练得到边界框回归模型；

步骤二：在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本，根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调，以确定所述给第一帧目标框内的目标图像的最佳位置；

步骤三：基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征，并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对，其中，所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本，所述候选目标图像样本即为所述正负候选样本；

步骤四：根据所述初始字典对，并基于卷积神经网络模型提取得到训练样本的特征，然后根据所述训练样本的特征进行联合字典对模型学习；

步骤五：利用进行过联合字典对模型学习的字典对，对所述训练样本进行编码，通过联合字典对中的原子的线性组合表示所述候选目标图像样本，以实现目标图像定位跟踪，其中字典对包括合成字典D以及分析字典P。

本发明提出的基于卷积神经网络字典对学习的目标跟踪方法，在粒子滤波框架下，联合卷积神经网络模型和字典对学习模型，可更准确地表示视频中的目标；此外，通过使用轻量级的卷积神经网络模型对训练样本进行特征提取，利用在线学习字典对来表示候选目标图像样本。本发明所设计的目标跟踪方法，具有很好的鲁棒性与精确度，可更好地处理外观变化，包括运动模糊、光照变化以及尺度变化等，以实现良好的目标图像的跟踪效果。

所述基于卷积神经网络字典对学习的目标跟踪方法，其中，所述步骤一具体包括：

设定第一帧的所述初始目标图像的初始位置，在所述初始目标图像的初始位置的邻域内采样得到正候选样本；

利用预训练网络模型提取所述正候选样本对应的特征，并根据所述正候选样本对应的特征进行边界框回归模型的训练。

所述基于卷积神经网络字典对学习的目标跟踪方法，其中，在所述步骤五中，合成字典D与分析字典P之间存在如下关系：

其中，

表示字典对学习模型学习后获取的分析字典与合成字典，

，

为合成字典，

为分析字典，

为训练样本，

表示判别条件，用于利用分析字典P通过线性投影生成编码系数，

为Frobenius范数。

所述基于卷积神经网络字典对学习的目标跟踪方法，其中，在所述步骤四中，进行联合字典对模型学习过程中，对应的字典对模型最佳值表示为：

其中，

表示字典对模型最佳值，

均为平衡因子，

为额外约束项，

是一个学习过的合成字典D的编码系数，W为在字典对学习过程中引入的对角重要性权重矩阵。

所述基于卷积神经网络字典对学习的目标跟踪方法，其中，在所述步骤四中，根据所述训练样本的特征进行联合字典对模型学习的方法包括如下步骤：

通过范数矩阵对合成字典以及分析字典进行随机矩阵初始化，然后对所述初始字典对模型进行学习，并进行迭代更新优化计算以分别得到优化后的合成字典以及优化后的分析字典。

所述基于卷积神经网络字典对学习的目标跟踪方法，其中，进行迭代更新优化计算的方法包括如下步骤：

首先固定合成字典D、分析字典P以及训练样本Z，以对编码系数

进行更新，对应的表达式为：

当编码系数

更新后，固定编码系数

、合成字典D以及训练样本Z，以对分析字典P进行更新，对应的表达式为：

当分析字典P更新后，固定编码系数

、分析字典P以及训练样本Z，以对合成字典D进行更新，对应的表达式为：

其中，

是合成字典D的编码系数最小优化值，

是分析字典的最小优化值，

是合成字典的最小优化值。

所述基于卷积神经网络字典对学习的目标跟踪方法，其中，在所述步骤五中，所述通过联合字典对中的原子的线性组合表示所述候选目标图像样本的方法包括如下步骤：

根据所述候选目标图像样本与所述字典对学习模型之间的重构误差计算得到所述候选目标图像样本对应的观测概率；

根据所述候选目标图像样本对应的最大观测概率，以定位所述候选目标图像样本中与第一帧目标框内的目标图像观测概率最大的样本的位置。

所述基于卷积神经网络字典对学习的目标跟踪方法，其中，所述候选目标图像样本对应的观测概率表示为：

其中，

为候选目标图像样本对应的观测概率，

为预测量，

为状态量，

为归一化因子，

为正数，

为候选目标图像样本在合成字典D上的重构误差；

重构误差的表达式为：

。

本发明提出一种基于卷积神经网络字典对学习的目标跟踪系统，其中，所述系统包括：

第一采样模块，用于在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本，并根据所述正候选样本训练得到边界框回归模型；

第二采样模块，用于在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本，根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调，以确定所述第一帧目标框内的目标图像的最佳位置；

第一学习模块，用于基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征，并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对，其中，所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本，所述候选目标图像样本即为所述正负候选样本；

第二学习模块，用于根据所述初始字典对，并基于卷积神经网络模型提取得到训练样本的特征，然后根据所述训练样本的特征进行联合字典对模型学习；

定位跟踪模块，用于利用进行过联合字典对模型学习的字典对，对所述训练样本进行编码，通过联合字典对中的原子的线性组合表示所述候选目标图像样本，以实现目标图像定位跟踪，其中字典对包括合成字典D以及分析字典P。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明中边界框回归模型的应用示意图；

图2为本发明提出的基于卷积神经网络字典对学习的目标跟踪方法的流程图；

图3为本发明提出的基于卷积神经网络字典对学习的目标跟踪系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

现有技术中的部分视觉跟踪算法的表观模型，鲁棒性与精确度均不是很理想，且无法很好地处理运动模糊、光照变化以及尺度变化等外观变化所带来的影响，导致无法很好地对目标图像实现跟踪。

为了解决这一技术问题，本发明提出一种基于卷积神经网络字典对学习的目标跟踪方法，请参阅图1至图2，所述方法包括如下步骤：

S101，在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本，并根据所述正候选样本训练得到边界框回归模型。

所述步骤一具体包括：

S1011，设定第一帧的所述初始目标图像的初始位置，在所述初始目标图像的初始位置的邻域内采样得到正候选样本。

在第一帧目标框内采样得到多个正候选样本，为了使得预训练的网络更加精确地定位到包含目标图像的边界框，在本实施例中利用边界框回归技术。

具体的，在第一帧的初始目标图像中，设定初始目标图像的初始位置，然后在初始目标图像的初始位置周围较小邻域内采样得到正候选样本。

S1012，利用预训练网络模型提取所述正候选样本对应的特征，并根据所述正候选样本对应的特征进行边界框回归模型的训练。

进一步的，在获得了正候选样本之后，使用预训练网络模型VGG-M提取上述正候选样本相应的conv3特征，并基于提取得到的正候选样本相应的conv3特征进行边界框回归模型的训练。

在此需要说明的是，除第一帧的初始目标图像之外，在后续帧中，如果被选取的样本框与真实框（Ground Truth）之间的IoU分数（交并比 Intersection over Union）值超过阈值0.6，边界框回归模型将调整被选择的样本框至目标位置。由于在线更新时间较长，计算量复杂度较大，只在第一帧中进行边界框回归模型的训练。作为补充的，IoU 计算的是“预测的边框”和“真实的边框” 的交集和并集的比值。

作为补充的，对于上述的边界框回归模型，对应使用的是边界框回归技术。具体的，如图1所示，框1表示Ground Truth（真实数据），框2表示Selective Search（选择性搜索）提取的Region Proposal（候选框）。那么即便框2被分类器识别为飞机，但由于框2定位不准(IoU<0.6)，那么此张图相当于没有正确地检测出飞机。若能对框2进行微调，使得经过微调后的窗口跟Ground Truth 更接近，将定位更准确。

S102，在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本，根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调，以确定所述第一帧目标框内的目标图像的最佳位置。

在此需要说明的是，步骤S102与步骤S101中的采样方式相同，区别仅在于采样样本数量不同。其中，在步骤S101中，采样正候选样本时，先生成10000个回归样本，选出IoU（重叠率）＞0.6的样本，随机从中选择1000个作为正样本，目的是为了训练Bounding-boxregression（边界回归框模型）。

在步骤S102中，在采样正负候选样本时，生成1000个正样本，选出IoU（重叠率）＞0.6的样本，最多选择500个作为正样本。此外，生成10000个负样本，选出IoU（重叠率）＜0.5的样本，随机从中选择最多5000个作为负样本。需要说明的是，步骤S102的目的是为了调节卷积神经网络模型(CNN)的全连接参数。

在此需要补充说明的是，对于上述卷积神经网络模型(CNN)，该卷积神经网络模型(CNN)包括三个卷积层以及两个全连接层。可以理解的，卷积神经网络模型(CNN)参数都需要有一个初始值。然而，通过运行该初始值进行模型训练可能效果不佳。为了解决这一问题，一般通过观察输出，观察loss函数或调整参数让模型训练得更好，从而提高整个网络的训练准确度。

具体的，调参的数据一般指的是超参数。在本实施例中，利用在线更新的方法，通过一组大小为"107×107" 的正负训练样本对全连接参数进行微调。

S103，基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征，并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对。

在本步骤中，需要指出的是，上述的训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本。其中，候选目标图像样本即为上述的正负候选样本。具体的，训练样本的生成方法为：在每一帧候选目标图像中，选择跟踪目标位置附近一个小邻域内的一组图像候选框（又称为图像Patch）作为训练样本输入。

在确定了训练样本之后，利用卷积神经网络模型(CNN)获得训练样本的深度特征，以用于学习一组初始字典对D1和P1。其中，字典对包括一个合成字典和一个分析字典。字典对学习在第一帧候选目标图像中进行初始化，并在后续跟踪中进行更新。

S104，根据所述初始字典对，并基于卷积神经网络模型提取得到训练样本的特征，然后根据所述训练样本的特征进行联合字典对模型学习。

在本步骤中，利用训练样本学习联合字典对，即合成字典D以及分析字典P。其中，合成字典D的编码系数

可以通过对分析字典P进行线性投影得到。

具体的，合成字典D与分析字典P之间存在如下关系式：

（1）

其中，

表示字典对模型学习后获取的分析字典与合成字典，

，

为合成字典，

为分析字典，

为训练样本，

表示判别条件，用于利用分析字典P通过线性投影生成编码系数。需要说明的是，使用卷积神经网络模型(CNN)提取深度特征后，使用合成字典D重建候选目标图像。

与此同时，需要指出的是，在进行联合字典对模型学习过程中，不同的训练样本发挥不同的重要性，因此在字典对学习过程中引入了对角重要性权重矩阵W。如此，具有较高权重的训练样本将对字典具有较低的重构残差。

具体的，对应的字典对模型最佳值表示为：

（2）

其中，

表示字典对模型最佳值，

均为平衡因子，

为额外约束项，以避免解决方案P=0，

是一个学习过的合成字典D的编码系数，W为在字典对学习过程中引入的对角重要性权重矩阵，

为Frobenius范数。

在本实施例中，根据训练样本的特征进行联合字典对模型学习的方法包括如下步骤：

通过Frobenius范数矩阵对合成字典D以及分析字典P进行随机矩阵初始化，然后对初始字典对模型进行学习，并进行迭代更新优化计算以分别得到优化后的合成字典以及优化后的分析字典。

具体的，进行迭代更新优化计算的方法包括如下步骤：

进行更新，对应的表达式为：

（3）

当编码系数

更新后，固定编码系数

（4）

当分析字典P更新后，固定编码系数

（5）

其中，

是合成字典D的编码系数最小优化值，

是分析字典的最小优化值，

是合成字典的最小优化值。

当相邻迭代之间的差值小于预定参数值或达到最大迭代次数时，停止迭代。迭代更新完成后，得到字典对，即包括合成字典D以及分析字典P。利用分析字典P通过线性投影生成编码系数

，使用合成字典D对卷积神经网络模型(CNN)提取深度特征后的候选目标图像进行重构。

S105，利用进行过联合字典对模型学习的字典对，对所述训练样本进行编码，通过联合字典对中的原子的线性组合表示所述候选目标图像样本，以实现目标图像定位跟踪。

在本步骤中，通过联合字典对中的原子的线性组合表示所述候选目标图像样本的方法包括如下步骤：

S1051，根据候选目标图像样本与字典对学习模型之间的重构误差计算得到候选目标图像样本对应的观测概率。

候选目标图像样本对应的观测概率表示为：

（6）

其中，

为候选目标图像样本对应的观测概率，

为预测量，

为状态量，

为归一化因子，

为正数，

为候选目标图像样本在合成字典D上的重构误差；

重构误差的表达式为：

（7）

在此需要指出的是，

在公式（6）中的表述为一般表述方式。当具体应用在跟踪场景中时，在观测概率

的表述中，其中，

和

是分别表示在时间t中的预测量和状态量，

到

是从通用到具体的推演。

在此需要特别指出的，公式（6）中的

和表

示的是向量，不是变量。观测概率的作用是为了选出最大概率估计的目标候选样本，从而去定位第t帧预测到的目标图像的位置，以达到跟踪的目的。

为了适应复杂的表观变量，利用观测似然值更新粒子

的重要权值

：

（8）

其中，

和

是分别表示在时间t中的预测量和状态量，更新后的候选目标图像样本的权重与

成正比。在t时的状态被计算为：

（9）

在本实施例中，观测概率

按照上述公式（6）进行计算。

S1052，根据候选目标图像样本对应的最大观测概率，以定位所述候选目标图像样本中与第一帧目标框内的目标图像观测概率最大的样本的位置。

需要补充说明的是，在本发明中，对于上述在线更新卷积神经网络模型(CNN)，由于频繁更新卷积神经网络模型(CNN)和字典学习可能会造成误差的累积，并逐渐导致漂移和跟踪失败，特别是在发生遮挡时。为了有效处理上述问题，在进行在线更新时，卷积神经网络模型(CNN)采用短期和长期交替更新方法，分别设定为每20帧和100帧。在获得当前的跟踪结果后，一组训练样本被收集来重新学习具有深层特征的字典对。此外，每一帧都将重新学习一个新的字典对。

本发明提出的基于卷积神经网络字典对学习的目标跟踪方法，在粒子滤波框架下，联合卷积神经网络模型和字典对学习模型，可更准确地表示视频中的目标；此外，通过使用轻量级的卷积神经网络模型对训练样本进行特征提取，利用在线学习字典对来表示候选目标图像样本。本发明所设计的目标跟踪方法，具有很好的鲁棒性与精确度，可更好地处理外观变化，包括运动模糊、光照变化以及尺度变化等，以实现良好的目标图像跟踪效果。

请参阅图3，本发明提出一种基于卷积神经网络字典对学习的目标跟踪系统，其中，所述系统包括依次连接的第一采样模块11、第二采样模块12、第一学习模块13、第二学习模块14以及定位跟踪模块15；

其中所述第一采样模块11具体用于：

在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本，并根据所述正候选样本训练得到边界框回归模型；

所述第二采样模块12具体用于：

在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本，根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调，以确定所述第一帧目标框内的目标图像的最佳位置；

所述第一学习模块13具体用于：

基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征，并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对，其中，所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本，所述候选目标图像样本即为所述正负候选样本；

所述第二学习模块14具体用于：

根据所述初始字典对，并基于卷积神经网络模型提取得到训练样本的特征，然后根据所述训练样本的特征进行联合字典对模型学习；

所述定位跟踪模块15具体用于：

利用进行过联合字典对模型学习的字典对，对所述训练样本进行编码，通过联合字典对中的原子的线性组合表示所述候选目标图像样本，以实现目标图像定位跟踪。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于卷积神经网络字典对学习的目标跟踪方法，其特征在于，所述方法包括：

步骤二：在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本，根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调，以确定所述第一帧目标框内的目标图像的最佳位置；

步骤五：利用进行过联合字典对模型学习的字典对，对所述训练样本进行编码，通过联合字典对中的原子的线性组合表示所述候选目标图像样本，利用所述候选目标图像样本的线性表示和字典对学习模型之间的重构误差来计算候选目标图像样本的观测概率，根据所得到的观测概率中的最大值所对应的候选目标图像样本的位置进行目标图像定位跟踪，其中字典对包括合成字典D以及分析字典P，且合成字典D与分析字典P之间存在如下关系：

其中，

表示字典对模型学习后获取的分析字典与合成字典，

，

为合成字典，

为分析字典，

为训练样本，

为Frobenius范数。

2.根据权利要求1所述的基于卷积神经网络字典对学习的目标跟踪方法，其特征在于，所述步骤一具体包括：

3.根据权利要求2所述的基于卷积神经网络字典对学习的目标跟踪方法，其特征在于，在所述步骤四中，进行联合字典对模型学习过程中，对应的字典对模型最佳值表示为：

其中，

表示字典对模型最佳值，

均为平衡因子，

为额外约束项，

4.根据权利要求3所述的基于卷积神经网络字典对学习的目标跟踪方法，其特征在于，在所述步骤四中，根据所述训练样本的特征进行联合字典对模型学习的方法包括如下步骤：

5.根据权利要求4所述的基于卷积神经网络字典对学习的目标跟踪方法，其特征在于，进行迭代更新优化计算的方法包括如下步骤：

首先固定合成字典D、分析字典P以及训练样本Z，以对编码系数进行更新，对应的表达式为：

当编码系数

更新后，固定编码系数

当分析字典P更新后，固定编码系数

其中，

是合成字典D的编码系数最小优化值，

是分析字典的最小优化值，

是合成字典的最小优化值。

6.根据权利要求5所述的基于卷积神经网络字典对学习的目标跟踪方法，其特征在于，在所述步骤五中，所述通过联合字典对中的原子的线性组合表示所述候选目标图像样本的方法包括如下步骤：

7.根据权利要求6所述的基于卷积神经网络字典对学习的目标跟踪方法，其特征在于，所述候选目标图像样本对应的观测概率表示为：

其中，

为候选目标图像样本对应的观测概率，

为预测量，

为状态量，

为归一化因子，

为正数，

为候选目标图像样本在合成字典D上的重构误差；

重构误差的表达式为：

。

8.一种基于卷积神经网络字典对学习的目标跟踪系统，其特征在于，所述系统包括：

定位跟踪模块，用于利用进行过联合字典对模型学习的字典对，对所述训练样本进行编码，通过联合字典对中的原子的线性组合表示所述候选目标图像样本，利用所述候选目标图像样本的线性表示和字典对学习模型之间的重构误差来计算候选目标图像样本的观测概率，根据所得到的观测概率中的最大值所对应的候选目标图像样本的位置进行目标图像定位跟踪，其中字典对包括合成字典D以及分析字典P，且合成字典D与分析字典P之间存在如下关系：

其中，

表示字典对模型学习后获取的分析字典与合成字典，

，

为合成字典，

为分析字典，

为训练样本，

为Frobenius范数。