CN113256685B - 基于卷积神经网络字典对学习的目标跟踪方法与系统 - Google Patents
基于卷积神经网络字典对学习的目标跟踪方法与系统 Download PDFInfo
- Publication number
- CN113256685B CN113256685B CN202110707429.4A CN202110707429A CN113256685B CN 113256685 B CN113256685 B CN 113256685B CN 202110707429 A CN202110707429 A CN 202110707429A CN 113256685 B CN113256685 B CN 113256685B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- target image
- learning
- samples
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明提出一种基于卷积神经网络字典对学习的目标跟踪方法及系统,该方法包括:在第一帧目标图像进行采样处理以生成正候选样本,根据正候选样本训练得到边界框回归模型;在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,对卷积神经网络模型的全连接参数进行微调;基于空间距离机制以及卷积神经网络模型获得训练样本的深度特征,基于训练样本的深度特征进行字典对模型学习以获得初始字典对;基于训练样本的特征并进行联合字典对模型学习;通过联合字典对中的原子的线性组合表示候选目标图像样本,以实现目标图像定位跟踪。本发明提出的目标跟踪方法,具有很好的鲁棒性与精确度,可以更好地处理目标外观变化,实现目标跟踪。
Description
技术领域
本发明涉及计算机视觉与图像处理技术领域,特别涉及一种基于卷积神经网络字典对学习的目标跟踪方法与系统。
背景技术
视觉跟踪是计算机视觉中的一个重要研究课题,在现实世界中有着诸多的应用。具体的,视觉跟踪技术已广泛应用于智能视频监控、交通车辆监控、自动驾驶、人机交互、医疗以及军事等领域。因此,提高视频跟踪算法的准确度、时效性以及鲁棒性有利于促进在相关领域的推广与深入应用,有利于推动智能机器帮助人类完成单调繁琐且危险的工作。
实际上,视频跟踪应用场景广泛且复杂,在具有复杂背景的视频跟踪上经常会发生变形,并且由于受到运动模糊以及遮挡等因素的影响,使得其仍然面临着很大的挑战。一般来说,视觉跟踪算法可以分为两类:包括判别式算法以及生成式算法。(1)、基于判别模型的算法可看作是一种二分类问题,它可以有效地将被跟踪的目标与周围的背景区分开;(2)、基于生成模型的算法使用学习的相似性函数来比较给定搜索区域中的目标候选块和目标模板。与此同时,判别跟踪器也通常分为回归模型和分类模型。特别是,判别相关滤波器由于运算速度快,已经成功地应用于视觉跟踪。
目前,基于深度学习的跟踪算法主要是利用卷积神经网络具有强大的特征提取与表达能力,可用于提取目标特征并对前景背景进行区分以识别跟踪目标。此外,基于深度学习的视频跟踪算法可以与传统算法相结合,代替传统低级手工提取特征的方式,并能够实现权重共享以及减少训练参数。
然而,现有技术中的部分视觉跟踪算法的表观模型,鲁棒性与精确度均不是很理想,且无法很好地处理运动模糊、光照变化以及尺度变化等外观变化所带来的影响。
发明内容
鉴于上述状况,有必要解决现有技术中的部分视觉跟踪算法的表观模型,鲁棒性与精确度均不是很理想,且无法很好地处理运动模糊、光照变化以及尺度变化等外观变化所带来的影响的问题。
本发明实施例提供了一种基于卷积神经网络字典对学习的目标跟踪方法,其中,所述方法包括如下步骤:
步骤一:在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
步骤二:在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述给第一帧目标框内的目标图像的最佳位置;
步骤三:基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
步骤四:根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
步骤五:利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,以实现目标图像定位跟踪,其中字典对包括合成字典D以及分析字典P。
本发明提出的基于卷积神经网络字典对学习的目标跟踪方法,在粒子滤波框架下,联合卷积神经网络模型和字典对学习模型,可更准确地表示视频中的目标;此外,通过使用轻量级的卷积神经网络模型对训练样本进行特征提取,利用在线学习字典对来表示候选目标图像样本。本发明所设计的目标跟踪方法,具有很好的鲁棒性与精确度,可更好地处理外观变化,包括运动模糊、光照变化以及尺度变化等,以实现良好的目标图像的跟踪效果。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,所述步骤一具体包括:
设定第一帧的所述初始目标图像的初始位置,在所述初始目标图像的初始位置的邻域内采样得到正候选样本;
利用预训练网络模型提取所述正候选样本对应的特征,并根据所述正候选样本对应的特征进行边界框回归模型的训练。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,在所述步骤五中,合成字典D与分析字典P之间存在如下关系:
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,在所述步骤四中,进行联合字典对模型学习过程中,对应的字典对模型最佳值表示为:
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,在所述步骤四中,根据所述训练样本的特征进行联合字典对模型学习的方法包括如下步骤:
通过范数矩阵对合成字典以及分析字典进行随机矩阵初始化,然后对所述初始字典对模型进行学习,并进行迭代更新优化计算以分别得到优化后的合成字典以及优化后的分析字典。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,进行迭代更新优化计算的方法包括如下步骤:
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,在所述步骤五中,所述通过联合字典对中的原子的线性组合表示所述候选目标图像样本的方法包括如下步骤:
根据所述候选目标图像样本与所述字典对学习模型之间的重构误差计算得到所述候选目标图像样本对应的观测概率;
根据所述候选目标图像样本对应的最大观测概率,以定位所述候选目标图像样本中与第一帧目标框内的目标图像观测概率最大的样本的位置。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,所述候选目标图像样本对应的观测概率表示为:
重构误差的表达式为:
本发明提出一种基于卷积神经网络字典对学习的目标跟踪系统,其中,所述系统包括:
第一采样模块,用于在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
第二采样模块,用于在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置;
第一学习模块,用于基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
第二学习模块,用于根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
定位跟踪模块,用于利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,以实现目标图像定位跟踪,其中字典对包括合成字典D以及分析字典P。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明中边界框回归模型的应用示意图;
图2为本发明提出的基于卷积神经网络字典对学习的目标跟踪方法的流程图;
图3为本发明提出的基于卷积神经网络字典对学习的目标跟踪系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有技术中的部分视觉跟踪算法的表观模型,鲁棒性与精确度均不是很理想,且无法很好地处理运动模糊、光照变化以及尺度变化等外观变化所带来的影响,导致无法很好地对目标图像实现跟踪。
为了解决这一技术问题,本发明提出一种基于卷积神经网络字典对学习的目标跟踪方法,请参阅图1至图2,所述方法包括如下步骤:
S101,在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型。
所述步骤一具体包括:
S1011,设定第一帧的所述初始目标图像的初始位置,在所述初始目标图像的初始位置的邻域内采样得到正候选样本。
在第一帧目标框内采样得到多个正候选样本,为了使得预训练的网络更加精确地定位到包含目标图像的边界框,在本实施例中利用边界框回归技术。
具体的,在第一帧的初始目标图像中,设定初始目标图像的初始位置,然后在初始目标图像的初始位置周围较小邻域内采样得到正候选样本。
S1012,利用预训练网络模型提取所述正候选样本对应的特征,并根据所述正候选样本对应的特征进行边界框回归模型的训练。
进一步的,在获得了正候选样本之后,使用预训练网络模型VGG-M提取上述正候选样本相应的conv3特征,并基于提取得到的正候选样本相应的conv3特征进行边界框回归模型的训练。
在此需要说明的是,除第一帧的初始目标图像之外,在后续帧中,如果被选取的样本框与真实框(Ground Truth)之间的IoU分数(交并比 Intersection over Union)值超过阈值0.6,边界框回归模型将调整被选择的样本框至目标位置。由于在线更新时间较长,计算量复杂度较大,只在第一帧中进行边界框回归模型的训练。作为补充的,IoU 计算的是“预测的边框”和“真实的边框” 的交集和并集的比值。
作为补充的,对于上述的边界框回归模型,对应使用的是边界框回归技术。具体的,如图1所示,框1表示Ground Truth(真实数据),框2表示Selective Search(选择性搜索)提取的Region Proposal(候选框)。那么即便框2被分类器识别为飞机,但由于框2定位不准(IoU<0.6),那么此张图相当于没有正确地检测出飞机。若能对框2进行微调,使得经过微调后的窗口跟Ground Truth 更接近,将定位更准确。
S102,在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置。
在此需要说明的是,步骤S102与步骤S101中的采样方式相同,区别仅在于采样样本数量不同。其中,在步骤S101中,采样正候选样本时,先生成10000个回归样本,选出IoU(重叠率)>0.6的样本,随机从中选择1000个作为正样本,目的是为了训练Bounding-boxregression(边界回归框模型)。
在步骤S102中,在采样正负候选样本时,生成1000个正样本,选出IoU(重叠率)>0.6的样本,最多选择500个作为正样本。此外,生成10000个负样本,选出IoU(重叠率)<0.5的样本,随机从中选择最多5000个作为负样本。需要说明的是,步骤S102的目的是为了调节卷积神经网络模型(CNN)的全连接参数。
在此需要补充说明的是,对于上述卷积神经网络模型(CNN),该卷积神经网络模型(CNN)包括三个卷积层以及两个全连接层。可以理解的,卷积神经网络模型(CNN)参数都需要有一个初始值。然而,通过运行该初始值进行模型训练可能效果不佳。为了解决这一问题,一般通过观察输出,观察loss函数或调整参数让模型训练得更好,从而提高整个网络的训练准确度。
具体的,调参的数据一般指的是超参数。在本实施例中,利用在线更新的方法,通过一组大小为"107×107" 的正负训练样本对全连接参数进行微调。
S103,基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对。
在本步骤中,需要指出的是,上述的训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本。其中,候选目标图像样本即为上述的正负候选样本。具体的,训练样本的生成方法为:在每一帧候选目标图像中,选择跟踪目标位置附近一个小邻域内的一组图像候选框(又称为图像Patch)作为训练样本输入。
在确定了训练样本之后,利用卷积神经网络模型(CNN)获得训练样本的深度特征,以用于学习一组初始字典对D1和P1。其中,字典对包括一个合成字典和一个分析字典。字典对学习在第一帧候选目标图像中进行初始化,并在后续跟踪中进行更新。
S104,根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习。
具体的,合成字典D与分析字典P之间存在如下关系式:
其中,表示字典对模型学习后获取的分析字典与合成字典,,为合成字典,为分析字典,为训练样本,表示判别条件,用于利用分析字典P通过线性投影生成编码系数。需要说明的是,使用卷积神经网络模型(CNN)提取深度特征后,使用合成字典D重建候选目标图像。
与此同时,需要指出的是,在进行联合字典对模型学习过程中,不同的训练样本发挥不同的重要性,因此在字典对学习过程中引入了对角重要性权重矩阵W。如此,具有较高权重的训练样本将对字典具有较低的重构残差。
具体的,对应的字典对模型最佳值表示为:
在本实施例中,根据训练样本的特征进行联合字典对模型学习的方法包括如下步骤:
通过Frobenius范数矩阵对合成字典D以及分析字典P进行随机矩阵初始化,然后对初始字典对模型进行学习,并进行迭代更新优化计算以分别得到优化后的合成字典以及优化后的分析字典。
具体的,进行迭代更新优化计算的方法包括如下步骤:
当相邻迭代之间的差值小于预定参数值或达到最大迭代次数时,停止迭代。迭代更新完成后,得到字典对,即包括合成字典D以及分析字典P。利用分析字典P通过线性投影生成编码系数,使用合成字典D对卷积神经网络模型(CNN)提取深度特征后的候选目标图像进行重构。
S105,利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,以实现目标图像定位跟踪。
在本步骤中,通过联合字典对中的原子的线性组合表示所述候选目标图像样本的方法包括如下步骤:
S1051,根据候选目标图像样本与字典对学习模型之间的重构误差计算得到候选目标图像样本对应的观测概率。
候选目标图像样本对应的观测概率表示为:
重构误差的表达式为:
S1052,根据候选目标图像样本对应的最大观测概率,以定位所述候选目标图像样本中与第一帧目标框内的目标图像观测概率最大的样本的位置。
需要补充说明的是,在本发明中,对于上述在线更新卷积神经网络模型(CNN),由于频繁更新卷积神经网络模型(CNN)和字典学习可能会造成误差的累积,并逐渐导致漂移和跟踪失败,特别是在发生遮挡时。为了有效处理上述问题,在进行在线更新时,卷积神经网络模型(CNN)采用短期和长期交替更新方法,分别设定为每20帧和100帧。在获得当前的跟踪结果后,一组训练样本被收集来重新学习具有深层特征的字典对。此外,每一帧都将重新学习一个新的字典对。
本发明提出的基于卷积神经网络字典对学习的目标跟踪方法,在粒子滤波框架下,联合卷积神经网络模型和字典对学习模型,可更准确地表示视频中的目标;此外,通过使用轻量级的卷积神经网络模型对训练样本进行特征提取,利用在线学习字典对来表示候选目标图像样本。本发明所设计的目标跟踪方法,具有很好的鲁棒性与精确度,可更好地处理外观变化,包括运动模糊、光照变化以及尺度变化等,以实现良好的目标图像跟踪效果。
请参阅图3,本发明提出一种基于卷积神经网络字典对学习的目标跟踪系统,其中,所述系统包括依次连接的第一采样模块11、第二采样模块12、第一学习模块13、第二学习模块14以及定位跟踪模块15;
其中所述第一采样模块11具体用于:
在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
所述第二采样模块12具体用于:
在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置;
所述第一学习模块13具体用于:
基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
所述第二学习模块14具体用于:
根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
所述定位跟踪模块15具体用于:
利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,以实现目标图像定位跟踪。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,所述方法包括:
步骤一:在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
步骤二:在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置;
步骤三:基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
步骤四:根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
步骤五:利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,利用所述候选目标图像样本的线性表示和字典对学习模型之间的重构误差来计算候选目标图像样本的观测概率,根据所得到的观测概率中的最大值所对应的候选目标图像样本的位置进行目标图像定位跟踪,其中字典对包括合成字典D以及分析字典P,且合成字典D与分析字典P之间存在如下关系:
2.根据权利要求1所述的基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,所述步骤一具体包括:
设定第一帧的所述初始目标图像的初始位置,在所述初始目标图像的初始位置的邻域内采样得到正候选样本;
利用预训练网络模型提取所述正候选样本对应的特征,并根据所述正候选样本对应的特征进行边界框回归模型的训练。
4.根据权利要求3所述的基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,在所述步骤四中,根据所述训练样本的特征进行联合字典对模型学习的方法包括如下步骤:
通过范数矩阵对合成字典以及分析字典进行随机矩阵初始化,然后对所述初始字典对模型进行学习,并进行迭代更新优化计算以分别得到优化后的合成字典以及优化后的分析字典。
6.根据权利要求5所述的基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,在所述步骤五中,所述通过联合字典对中的原子的线性组合表示所述候选目标图像样本的方法包括如下步骤:
根据所述候选目标图像样本与所述字典对学习模型之间的重构误差计算得到所述候选目标图像样本对应的观测概率;
根据所述候选目标图像样本对应的最大观测概率,以定位所述候选目标图像样本中与第一帧目标框内的目标图像观测概率最大的样本的位置。
8.一种基于卷积神经网络字典对学习的目标跟踪系统,其特征在于,所述系统包括:
第一采样模块,用于在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
第二采样模块,用于在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置;
第一学习模块,用于基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
第二学习模块,用于根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
定位跟踪模块,用于利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,利用所述候选目标图像样本的线性表示和字典对学习模型之间的重构误差来计算候选目标图像样本的观测概率,根据所得到的观测概率中的最大值所对应的候选目标图像样本的位置进行目标图像定位跟踪,其中字典对包括合成字典D以及分析字典P,且合成字典D与分析字典P之间存在如下关系:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707429.4A CN113256685B (zh) | 2021-06-25 | 2021-06-25 | 基于卷积神经网络字典对学习的目标跟踪方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707429.4A CN113256685B (zh) | 2021-06-25 | 2021-06-25 | 基于卷积神经网络字典对学习的目标跟踪方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113256685A CN113256685A (zh) | 2021-08-13 |
CN113256685B true CN113256685B (zh) | 2021-09-24 |
Family
ID=77189573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110707429.4A Active CN113256685B (zh) | 2021-06-25 | 2021-06-25 | 基于卷积神经网络字典对学习的目标跟踪方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113256685B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056628A (zh) * | 2016-05-30 | 2016-10-26 | 中国科学院计算技术研究所 | 基于深度卷积神经网络特征融合的目标跟踪方法及系统 |
CN106952228A (zh) * | 2017-03-10 | 2017-07-14 | 北京工业大学 | 基于图像非局部自相似性的单幅图像的超分辨率重建方法 |
CN109241981A (zh) * | 2018-09-03 | 2019-01-18 | 哈尔滨工业大学 | 一种基于稀疏编码的特征检测方法 |
CN109685045A (zh) * | 2018-06-25 | 2019-04-26 | 鲁东大学 | 一种运动目标视频跟踪方法及系统 |
CN109711354A (zh) * | 2018-12-28 | 2019-05-03 | 哈尔滨工业大学(威海) | 一种基于视频属性表示学习的目标跟踪方法 |
CN112288779A (zh) * | 2020-11-03 | 2021-01-29 | 南昌工程学院 | 一种目标跟踪方法及装置 |
WO2021046681A1 (zh) * | 2019-09-09 | 2021-03-18 | 深圳市迪米欧科技有限公司 | 面向复杂场景的多源目标跟踪方法 |
-
2021
- 2021-06-25 CN CN202110707429.4A patent/CN113256685B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056628A (zh) * | 2016-05-30 | 2016-10-26 | 中国科学院计算技术研究所 | 基于深度卷积神经网络特征融合的目标跟踪方法及系统 |
CN106952228A (zh) * | 2017-03-10 | 2017-07-14 | 北京工业大学 | 基于图像非局部自相似性的单幅图像的超分辨率重建方法 |
CN109685045A (zh) * | 2018-06-25 | 2019-04-26 | 鲁东大学 | 一种运动目标视频跟踪方法及系统 |
CN109241981A (zh) * | 2018-09-03 | 2019-01-18 | 哈尔滨工业大学 | 一种基于稀疏编码的特征检测方法 |
CN109711354A (zh) * | 2018-12-28 | 2019-05-03 | 哈尔滨工业大学(威海) | 一种基于视频属性表示学习的目标跟踪方法 |
WO2021046681A1 (zh) * | 2019-09-09 | 2021-03-18 | 深圳市迪米欧科技有限公司 | 面向复杂场景的多源目标跟踪方法 |
CN112288779A (zh) * | 2020-11-03 | 2021-01-29 | 南昌工程学院 | 一种目标跟踪方法及装置 |
Non-Patent Citations (4)
Title |
---|
A New Approach to Track Multiple Vehicles With the Combination of Robust Detection and Two Classifiers;Weidong M.等;《IEEE Transactions on Intelligent Transportation Systems》;20171225;第174-186页 * |
Sparse Affine Hull for Visual Tracking;Jun W.等;《2016 6th International Conference on Digital Home (ICDH)》;20170918;第85-88页 * |
基于稀疏表示的视觉跟踪方法;邱贺磊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815;第I138-1016页 * |
融合视觉先验与背景信息的视频目标跟踪方法;管皓 等;《小型微型计算机系统》;20160930(第9期);第2074-2078页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113256685A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960086B (zh) | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 | |
CN107784293B (zh) | 一种基于全局特征和稀疏表示分类的人体行为识别方法 | |
CN112507990A (zh) | 视频时空特征学习、抽取方法、装置、设备及存储介质 | |
CN110263666B (zh) | 一种基于非对称多流的动作检测方法 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN110827265B (zh) | 基于深度学习的图片异常检测方法 | |
CN107945210B (zh) | 基于深度学习和环境自适应的目标跟踪方法 | |
CN112801019B (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
CN107203747B (zh) | 基于自适应选择机制的稀疏联合模型目标跟踪方法 | |
CN113139468A (zh) | 融合局部目标特征与全局特征的视频摘要生成方法 | |
Seyedhosseini et al. | Fast adaboost training using weighted novelty selection | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN111178427A (zh) | 一种基于Sliced-Wasserstein距离的深度自编码嵌入聚类的方法 | |
CN114399661A (zh) | 一种实例感知主干网络训练方法 | |
CN114283326A (zh) | 一种结合局部感知和高阶特征重构的水下目标重识别方法 | |
Zheng et al. | Action recognition based on the modified twostream CNN | |
CN111062291B (zh) | 一种机器人视觉跟踪方法及系统 | |
Liu | Real-Time Object Detection for Autonomous Driving Based on Deep Learning | |
CN113256685B (zh) | 基于卷积神经网络字典对学习的目标跟踪方法与系统 | |
Lin et al. | Ml-capsnet meets vb-di-d: A novel distortion-tolerant baseline for perturbed object recognition | |
CN113033283A (zh) | 一种改进的视频分类系统 | |
Kavitha et al. | An extreme learning machine and action recognition algorithm for generalized maximum clique problem in video event recognition | |
Li et al. | STD-TR: End-to-End Spatio-Temporal Action Detection with Transformers | |
Cai et al. | Explicit invariant feature induced cross-domain crowd counting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |