CN111462184A

CN111462184A - 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法

Info

Publication number: CN111462184A
Application number: CN202010256256.4A
Authority: CN
Inventors: 纪元法; 尹盼; 孙希延; 付文涛; 严素清
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-28
Anticipated expiration: 2040-04-02
Also published as: CN111462184B

Abstract

本发明公开了一种基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，包括基于图像混合方法将不同图片进行线性叠加，得到复杂背景图片；通过在线稀疏原型跟踪在外观模型上建模，利用正交子空间基向量和琐碎模板组成的原型来稀疏地线性表示被跟踪目标；基于观测模型和观测似然函数输出遮挡跟踪结果。实现通过数据增广方法将不同图片进行线性叠加，利用有限的训练集生成了带有语义信息的复杂背景图片，增强了SiamRPN对不同物体的判别能力，解决了背景杂乱的问题，在线稀疏原型的目标表示模型与改进的SiamRPN相结合，考虑了目标遮挡情况，利用观测似然函数和更新机制制作的鲁棒跟踪器，提高了被跟踪目标的定位精度，从而提升了整体跟踪性能。

Description

基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法。

背景技术

计算机视觉是计算机模仿人眼视觉对外界事物的观察理解从图像和视频中获取感知信息，视觉跟踪是计算机视觉领域中一直研究的重点，视觉跟踪通过对运动目标进行图像检测、提取、识别和分析来获得运动目标的位置和运动轨迹等特征，它包括目标检测、目标特征提取和目标跟踪三部分。其中目标跟踪是根据目标初始状态和特征提取到的视觉特征对目标的时空状态进行估计。这一过程需要计算机视觉中的相关算法来对获取的图像、视频数据进行处理分析，以实现对运动目标的行为理解。在利用算法解决问题的同时要考虑到跟踪系统的实时性以及跟踪算法的鲁棒性和准确性。但这些要求在实际运用中很难同时满足，通常各有所短，如相关滤波类的方法跟踪速度快但精度低，而近年来最新发展的以卷积神经网络为代表的深度学习类方法精度高且学习能力强大，能够更好提取目标的特征且具有获取高级语义信息的能力，但卷积神经网络跟踪速度相对耗时。孪生神经网络SiamFC算法完全满足实时性的要求并具有较高的鲁棒性，但在遮挡和背景混乱情形下百分百跟丢，导致目标跟踪准确率低。

发明内容

本发明的目的在于提供一种基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，以深度孪生网络为基础，与目标重检测中的区域建议网络实现准确快速的目标跟踪算法，针对分类回归孪生网络跟踪算法SiamRPN的缺点分别在离线阶段和在线跟踪过程对该算法提出改进，实现了具有实时性、高准确率的目标跟踪算法。

为实现上述目的，本发明提供了一种基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，包括：

在离线跟踪阶段，基于图像混合方法将不同图片进行线性叠加，得到第一数量个带有语义信息的复杂背景图片；

在在线跟踪阶段，通过在线稀疏原型跟踪在外观模型上建模，利用正交子空间基向量和琐碎模板组成的原型来稀疏地线性表示被跟踪目标；

基于观测模型和观测似然函数输出遮挡跟踪结果。

在一实施方式中，在离线跟踪阶段，基于图像混合方法将不同图片进行线性叠加，得到第一数量个带有语义信息的复杂背景图片，具体包括：

获取模板图像帧、当前图像帧和预设的加权系数进行线性叠加和图像融合，得到带有语义信息的复杂背景图片。

在一实施方式中，通过在线稀疏原型跟踪在外观模型上建模，具体包括：

标记目标的初始区域，提取相关特征，建立初始的外观模型；

根据上一帧目标的位置预测当前帧目标出现区域的运动模型；

利用所述外观模型验证所述运动模型预测区域是被跟踪目标的区域，得到目标图像区域；

在获取当前帧的目标区域后，提取目标区域和背景区域的图像特征，并基于模型更新算法在线更新所述外观模型。

在一实施方式中，利用正交子空间基向量和琐碎模板组成的原型来稀疏地线性表示被跟踪目标，具体包括：

基于迭代算法对目标函数进行有效迭代求解，直至满足终止准则，输出结果，所述终止准则为两次迭代目标含糊变化小于目标阈值或达到预设的目标迭代次数。

在一实施方式中，基于观测模型和观测似然函数输出遮挡跟踪结果，具体包括：

利用仿射参数采样机制作为运动模型建立观测模型；

利用稀疏原型表示跟踪的目标和惩罚稀疏噪声项建立基于重构误差准则的观测似然函数；

根据观测似然函数并采用增量主成分分析法更新观测模型，输出跟踪结果。

在一实施方式中，根据观测似然函数并采用增量主成分分析法更新观测模型，输出跟踪结果，具体包括：

获取稀疏误差项，判断稀疏误差项是否等于零；

判断遮挡率指标是否小于第一阈值；

若遮挡率指标小于第一阈值，则目标未被遮挡，直接存储观测图像样本更新模型；

若遮挡率指标大于或等于第一阈值，则判断遮挡率指标是否小于第二阈值。

在一实施方式中，获取稀疏误差项，判断稀疏误差项是否等于零，具体包括：

若稀疏误差项等于零，则指示向量为1；

若稀疏误差项不等于零，则指示向量为0。

在一实施方式中，判断遮挡率指标是否小于第二阈值，具体包括：

若遮挡率指标小于第二阈值，则目标受到严重遮挡，不更新模型；

若遮挡率指标大于或等于第二阈值，则目标受到部分遮挡，获取观测样本中被遮挡的像素利用均值向量对应的像素进行替换存储更新模型。

本发明的一种基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，通过在离线跟踪阶段，基于图像混合方法将不同图片进行线性叠加，得到第一数量个带有语义信息的复杂背景图片；在在线跟踪阶段，通过在线稀疏原型跟踪在外观模型上建模，利用正交子空间基向量和琐碎模板组成的原型来稀疏地线性表示被跟踪目标；基于观测模型和观测似然函数输出遮挡跟踪结果。实现在离线训练过程中用一种图像混合的方法，缓解了简单背景和复杂背景数据不均衡问题，同时增加了利用小规模数据集训练的网络泛化能力，在线跟踪阶段通过在线稀疏原型跟踪在外观模型上建模，利用正交子空间基向量和琐碎模板组成的原型来稀疏地线性表示被跟踪目标，同时利用正交子空间对目标变化的建模能力和稀疏表示对遮挡异常噪声的处理能力。另外建立观测似然函数和观测模型不仅能精确定位被跟踪目标还能避免不适当更新引起的观测模型退化和跟踪漂移的问题，从而提高了目标在遮挡和背景混乱情形下的跟踪准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供一种基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法的流程示意图；

图2是本发明提供的数据增广流程示意图；

图3是本发明提供的更新观测模型的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，图1是本发明实施例提供一种基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法的流程示意图，具体的，所述基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法可以包括以下步骤：

S101、在离线跟踪阶段，基于图像混合方法将不同图片进行线性叠加，得到第一数量个带有语义信息的复杂背景图片；

本发明实施例中，深度神经网络在许多计算机视觉的任务中都表现了优异的成绩，但由于训练集规模不足时深度神经网络容易出现过拟合的问题，这主要由于训练过程中基于经验风险最小化，只要网络容量足够大，均能拟合或记忆训练数据集，但不能保证网络在测试时的泛化能力。对训练集进行数据增广是一种常见的减少过拟合方法，但大部分数据增广的方法只在单个样本或同一类样本之间进行，Mixup提出通过不同类别样本之间的线性组合，构造虚拟的训练样本，用于训练分类网络，构造方法如下：

其中x_i和y_j表示两个不同的输入图片，y_i和y_j为对应图片的类别标签，λ∈(0,1)满足β(α,α)概率分布。Mixup约束了对于样本的领域样本数据，网络输出应该具有满足线性关系以减小网络过拟合的风险。本发明将Mixup引入目标检测中，与分类任务不同，调整β分布，使得不同输入图片上的物体在视觉上能够同时看到，对于不同图片进行加权叠加，能够模拟目标被遮挡的情况。并且叠加之后能够生成更多带有语义的背景而不是简单的背景。通过将Mixup引入目标跟踪之中，通过叠加生成的样本中的背景，通常具有较强的语义信息即背景中包含除目标之外的其他物体，促使网络学习到更有判别力的特征。不同于目标检测，单目标跟踪只关注单个目标物体。因此，对于存在两个输入即模板图像和当前搜索图像的孪生网络在叠加时；请参阅图2，图2是本发明的数据增广流程示意图，本发明采取了保留模板图像不变，将不同视频的搜索图像进行叠加即获取模板图像帧、当前图像帧和预设的加权系数进行线性叠加和图像融合，得到带有语义信息的复杂背景图片。为了能够使得混合之后的图中仍能视觉上看到待跟踪的目标，实验选取系数λ满足范围为[0.3,1.0]的均匀分布。在图像混合过程中，除了输入进行叠加之外，相应的标注概率也进行叠加，但是在本实验中发现对标注概率进行叠加的训练结果较差，这可能归因于目标跟踪任务与目标分类、目标检测任务之间的差异性造成。在目标分类和目标检测任务中，单个物体的类别始终是固定的。而单目标跟踪是目标与背景的二分类问题，单个物体是正样本还是负样本由具体的跟踪的视频决定。因此在实验中保持物体的标注概率不变，更优化的物体标注概率融合的方法有待进一步研究。通过数据增广方法将不同图片进行线性叠加，利用有限的训练集生成了大量带有语义信息的复杂背景图片，增强了SiamRPN对不同物体的判别能力，解决了SiamRPN不能较好区分目标和其他物体的问题，即能提高在背景混乱的情形下跟踪目标的准确性。

S102、在在线跟踪阶段，通过在线稀疏原型跟踪在外观模型上建模，利用正交子空间基向量和琐碎模板组成的原型来稀疏地线性表示被跟踪目标；

本发明实施例中，标记目标的初始区域，提取相关特征，建立初始的外观模型；根据上一帧目标的位置预测当前帧目标出现区域的运动模型；利用所述外观模型验证所述运动模型预测区域是被跟踪目标的区域，得到目标图像区域；在获取当前帧的目标区域后，提取目标区域和背景区域的图像特征，并基于模型更新算法在线更新所述外观模型。基于正交基向量和l₁正则化的目标表示模型，这里提出一种迭代算法来求解基于稀疏原型的目标表示模型，即对于目标函数

求解下优化问题：

其中，y∈R^d×1表示一个观测向量，U∈R^d×k表示正交的基矩阵(每一列代表一个基向量)，e∈R^d×1代表稀疏噪声项，λ代表哦正则化常数，I∈R^k×k代表单位矩阵(d代表观测向量维数，k代表基向量个数)。虽然该模型可以利用稀疏表示算法来求解但是考虑到该模型的特殊性，即基向量间的正交性和稀疏噪声向量的可分离性。本发明基于迭代算法对目标函数进行有效迭代求解，直至满足终止准则，输出结果，所述终止准则为两次迭代目标含糊变化小于目标阈值或达到预设的目标迭代次数。具体为提出一个简单有效的迭代算法来求解该模型。

定理1给定最优的

求解最优的

可以由简单的投影操作获得：

定理2给定最优的

最优的

可以由软阈值操作获得：

即

其中S_λ(x)＝max(|x|-λ,0)sgn(x)被称为软阈值函数。

根据以上两个定理，可以运用算法对目标函数进行有效迭代求解，迭代算法每一次将参数x或e其中的一个进行固定，对另一个参数进行优化，反复迭代直到收敛。表1给出了在线稀疏原型跟踪OSPT算法的基本迭代流程，但满足一定的终止准则时，算法停止迭代并输出计算的结果。迭代终止准则为两次迭代目标含糊变化小于某一固定的阈值或者达到预先设定的最大迭代次数。将基于稀疏原型的目标表示模型嵌入到递归贝叶斯滤波框架，设计一个基于稀疏原型的在线视觉跟踪算法。

表1计算最优的

和

的迭代算法

S103、基于观测模型和观测似然函数输出遮挡跟踪结果。

本发明实施例中，利用仿射参数采样机制作为运动模型建立观测模型；运动模型：利用仿射参数采样机制作为运动模型，

又因为基矩阵U的列向量间正交U^TU＝1，所以

观测模型：在被跟踪目标的图像特征没有遭遇遮挡或异常噪声损毁情况下，观测图像向量y_t可以假设能够由均值为μ基矩阵为U的PCA子空间生产。但是，目标遭遇部分遮挡或者异常噪声损毁时这一假设不成立。因此假设中心化的被跟踪目标的图像向量

可以表示为PCA基向量U以及少量单位阵I(琐碎模板)元素的线性组合，即

(x_t为在PCA基向量上的投影系数，e_t为琐碎模板上的系数)。由于PCA的基向量集U之间是正交的，所以系数x_t是密集而非稀疏的。e_t用来建模遮挡或者异常的噪声点，所以它应该呈现出稀疏的特性。观测模型的主要作用是在每一帧中评估每一个采样粒子是目标的可能性，即计算采样粒子z_t ⁱ对应的图像向量服从目标观测模型的概率p(y_t ⁱ|z_t ⁱ)，其中i代表采样粒子的索引号，t代表帧索引号。首先，对于每一个粒子zⁱ对应的观测图像向量yⁱ，都可利用迭代算法来求解如下优化问题:

其中，

和

对应第i个粒子的投影系数和稀疏噪声向量。当获得

和

之后，就可以利用在基向量上的重构误差来设计观测似然函数。

即利用

范数来衡量原始观测图像向量yⁱ和重构后图像向量

之间的差异

差异越小，说明重构后的图像向量与原始观测图像向量越相似，那么对应的观测似然函数就应该越大。反之差异越大，说明重构后的图像向量与原始观测图像向量越不相似，那么对应的观测似然就应该越小。

利用稀疏原型表示跟踪的目标和惩罚稀疏噪声项建立基于重构误差准则的观测似然函数；利用稀疏原型表示被跟踪的目标并设计了基于重构误差准侧的观测似然函数，然而公式

没有考虑稀疏噪声项的求解结果对粒子状态选择的影响。这里通过实验观察在无遮挡情况和有遮挡情况下好的和差的候选状态的稀疏噪声项分布来对公式

的似然函数进行改进，惩罚稀疏噪声项e的稀疏性有利于精确定位好的候选粒子，因此将观测似然函数设计为：

其中

是一个指示向量，它指示

的0元素(如果

的第j个元素

那么对应的wⁱ _j＝1；否则wⁱ _j＝0为Hadamard乘积即对应元素的乘积，参数β是一个惩罚系数)在上述公式中，指数操作内部的第一项考虑目标为遮挡部分的重构误差(即认为对于遮挡部分或者异常噪声点部分计算重构误差没有意义)，第二项是对琐碎模板上的系数稀疏性的惩罚，这一惩罚项有利于精确定位和选择好的候选。

根据观测似然函数并采用增量主成分分析法更新观测模型，输出跟踪结果。在目标跟踪过程中，由于光照和姿态的变化，目标自身的外观可能在不断的变化，如果不能及时更新观测模型就会导致跟踪失败。一般来说，可以直接利用新观测图像本来更新观测模型来适应目标外观的变化。但是当目标遭遇遮挡时，直接利用新观测样本更新观测模型的方式会将遮挡区域更新到观测模型中从而使得模型退化，进而导致跟踪漂移。本发明设计一个在遮挡情况下更新观测模型的方式。请参阅图3，图3是本发明提供的更新观测模型的流程示意图，具体为：获取稀疏误差项，判断稀疏误差项是否等于零；若稀疏误差项等于零，则指示向量为1；若稀疏误差项不等于零，则指示向量为0。判断遮挡率指标是否小于第一阈值；若遮挡率指标小于第一阈值，则目标未被遮挡，直接存储观测图像样本更新模型；若遮挡率指标大于或等于第一阈值，则判断遮挡率指标是否小于第二阈值。若遮挡率指标小于第二阈值，则目标受到严重遮挡，不更新模型；若遮挡率指标大于或等于第二阈值，则目标受到部分遮挡，获取观测样本中被遮挡的像素利用均值向量对应的像素进行替换存储更新模型。其中稀疏误差项e反映目标被遮挡的位置和程度，同时设定第一阈值tr1＝0.1和第二阈值tr2＝0.6来界定更新的模式。遮挡率指标Occ反映该样本被遮挡的比例。引入简单高效的在线稀疏原型的目标表示模型与改进的SiamRPN相结合，考虑了目标外观的变化和遮挡等异常噪声的情况，该算法比类似的稀疏表示算法的时间复杂度低很多，并且利用观测似然函数和更新机制设计的一个鲁棒的跟踪器，提高了被跟踪目标的定位精度，避免了由于不适当更新的观测模型退化和跟踪漂移，从而提升了整体跟踪性能。

本发明提供的一种基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，以深度孪生网络为基础，与目标重检测中的区域建议网络实现准确快速的目标跟踪算法，针对分类回归孪生网络跟踪算法SiamRPN的缺点分别在离线阶段和在线跟踪过程对该算法提出改进，具体为在离线训练过程中用一种图像混合的方法，缓解了简单背景和复杂背景数据不均衡问题，同时增加了利用小规模数据集训练的网络泛化能力，在线跟踪阶段通过在线稀疏原型跟踪在外观模型上建模，利用正交子空间基向量和琐碎模板组成的原型来稀疏地线性表示被跟踪目标，同时利用正交子空间对目标变化的建模能力和稀疏表示对遮挡等异常噪声的处理能力。另外建立观测似然函数和观测模型不仅能精确定位被跟踪目标还能避免不适当更新引起的观测模型退化和跟踪漂移的问题，提高了目标在遮挡和背景混乱情形下的跟踪准确率，从而实现了具有实时性、高准确率的目标跟踪算法。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，其特征在于，包括：

基于观测模型和观测似然函数输出遮挡跟踪结果。

2.如权利要求1所述的基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，其特征在于，在离线跟踪阶段，基于图像混合方法将不同图片进行线性叠加，得到第一数量个带有语义信息的复杂背景图片，具体包括：

3.如权利要求1所述的基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，其特征在于，通过在线稀疏原型跟踪在外观模型上建模，具体包括：

4.如权利要求1所述的基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，其特征在于，利用正交子空间基向量和琐碎模板组成的原型来稀疏地线性表示被跟踪目标，具体包括：

5.如权利要求1所述的基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，其特征在于，基于观测模型和观测似然函数输出遮挡跟踪结果，具体包括：

利用仿射参数采样机制作为运动模型建立观测模型；

6.如权利要求5所述的基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，其特征在于，根据观测似然函数并采用增量主成分分析法更新观测模型，输出跟踪结果，具体包括：

获取稀疏误差项，判断稀疏误差项是否等于零；

判断遮挡率指标是否小于第一阈值；

7.如权利要求6所述的基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，其特征在于，获取稀疏误差项，判断稀疏误差项是否等于零，具体包括：

若稀疏误差项等于零，则指示向量为1；

若稀疏误差项不等于零，则指示向量为0。

8.如权利要求6所述的基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法，其特征在于，判断遮挡率指标是否小于第二阈值，具体包括：