CN113256685B - 基于卷积神经网络字典对学习的目标跟踪方法与系统 - Google Patents

基于卷积神经网络字典对学习的目标跟踪方法与系统 Download PDF

Info

Publication number
CN113256685B
CN113256685B CN202110707429.4A CN202110707429A CN113256685B CN 113256685 B CN113256685 B CN 113256685B CN 202110707429 A CN202110707429 A CN 202110707429A CN 113256685 B CN113256685 B CN 113256685B
Authority
CN
China
Prior art keywords
dictionary
target image
learning
samples
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110707429.4A
Other languages
English (en)
Other versions
CN113256685A (zh
Inventor
王军
孟晨晨
邓承志
王员云
章利民
张珮芸
祝文狄
王涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Institute of Technology
Original Assignee
Nanchang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Institute of Technology filed Critical Nanchang Institute of Technology
Priority to CN202110707429.4A priority Critical patent/CN113256685B/zh
Publication of CN113256685A publication Critical patent/CN113256685A/zh
Application granted granted Critical
Publication of CN113256685B publication Critical patent/CN113256685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明提出一种基于卷积神经网络字典对学习的目标跟踪方法及系统,该方法包括:在第一帧目标图像进行采样处理以生成正候选样本,根据正候选样本训练得到边界框回归模型;在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,对卷积神经网络模型的全连接参数进行微调;基于空间距离机制以及卷积神经网络模型获得训练样本的深度特征,基于训练样本的深度特征进行字典对模型学习以获得初始字典对;基于训练样本的特征并进行联合字典对模型学习;通过联合字典对中的原子的线性组合表示候选目标图像样本,以实现目标图像定位跟踪。本发明提出的目标跟踪方法,具有很好的鲁棒性与精确度,可以更好地处理目标外观变化,实现目标跟踪。

Description

基于卷积神经网络字典对学习的目标跟踪方法与系统
技术领域
本发明涉及计算机视觉与图像处理技术领域,特别涉及一种基于卷积神经网络字典对学习的目标跟踪方法与系统。
背景技术
视觉跟踪是计算机视觉中的一个重要研究课题,在现实世界中有着诸多的应用。具体的,视觉跟踪技术已广泛应用于智能视频监控、交通车辆监控、自动驾驶、人机交互、医疗以及军事等领域。因此,提高视频跟踪算法的准确度、时效性以及鲁棒性有利于促进在相关领域的推广与深入应用,有利于推动智能机器帮助人类完成单调繁琐且危险的工作。
实际上,视频跟踪应用场景广泛且复杂,在具有复杂背景的视频跟踪上经常会发生变形,并且由于受到运动模糊以及遮挡等因素的影响,使得其仍然面临着很大的挑战。一般来说,视觉跟踪算法可以分为两类:包括判别式算法以及生成式算法。(1)、基于判别模型的算法可看作是一种二分类问题,它可以有效地将被跟踪的目标与周围的背景区分开;(2)、基于生成模型的算法使用学习的相似性函数来比较给定搜索区域中的目标候选块和目标模板。与此同时,判别跟踪器也通常分为回归模型和分类模型。特别是,判别相关滤波器由于运算速度快,已经成功地应用于视觉跟踪。
目前,基于深度学习的跟踪算法主要是利用卷积神经网络具有强大的特征提取与表达能力,可用于提取目标特征并对前景背景进行区分以识别跟踪目标。此外,基于深度学习的视频跟踪算法可以与传统算法相结合,代替传统低级手工提取特征的方式,并能够实现权重共享以及减少训练参数。
然而,现有技术中的部分视觉跟踪算法的表观模型,鲁棒性与精确度均不是很理想,且无法很好地处理运动模糊、光照变化以及尺度变化等外观变化所带来的影响。
发明内容
鉴于上述状况,有必要解决现有技术中的部分视觉跟踪算法的表观模型,鲁棒性与精确度均不是很理想,且无法很好地处理运动模糊、光照变化以及尺度变化等外观变化所带来的影响的问题。
本发明实施例提供了一种基于卷积神经网络字典对学习的目标跟踪方法,其中,所述方法包括如下步骤:
步骤一:在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
步骤二:在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述给第一帧目标框内的目标图像的最佳位置;
步骤三:基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
步骤四:根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
步骤五:利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,以实现目标图像定位跟踪,其中字典对包括合成字典D以及分析字典P。
本发明提出的基于卷积神经网络字典对学习的目标跟踪方法,在粒子滤波框架下,联合卷积神经网络模型和字典对学习模型,可更准确地表示视频中的目标;此外,通过使用轻量级的卷积神经网络模型对训练样本进行特征提取,利用在线学习字典对来表示候选目标图像样本。本发明所设计的目标跟踪方法,具有很好的鲁棒性与精确度,可更好地处理外观变化,包括运动模糊、光照变化以及尺度变化等,以实现良好的目标图像的跟踪效果。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,所述步骤一具体包括:
设定第一帧的所述初始目标图像的初始位置,在所述初始目标图像的初始位置的邻域内采样得到正候选样本;
利用预训练网络模型提取所述正候选样本对应的特征,并根据所述正候选样本对应的特征进行边界框回归模型的训练。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,在所述步骤五中,合成字典D与分析字典P之间存在如下关系:
Figure 786000DEST_PATH_IMAGE001
其中,
Figure 652325DEST_PATH_IMAGE002
表示字典对学习模型学习后获取的分析字典与合成字典,
Figure 912405DEST_PATH_IMAGE003
Figure 256799DEST_PATH_IMAGE004
为合成字典,
Figure 285935DEST_PATH_IMAGE005
为分析字典,
Figure 57582DEST_PATH_IMAGE006
为训练样本,
Figure 804958DEST_PATH_IMAGE007
表示判别条件,用于利用分析字典P通过线性投影生成编码系数,
Figure 218622DEST_PATH_IMAGE008
为Frobenius范数。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,在所述步骤四中,进行联合字典对模型学习过程中,对应的字典对模型最佳值表示为:
Figure 836685DEST_PATH_IMAGE009
其中,
Figure 44812DEST_PATH_IMAGE010
表示字典对模型最佳值,
Figure 13905DEST_PATH_IMAGE011
均为平衡因子,
Figure 700102DEST_PATH_IMAGE012
为额外约束项,
Figure 703830DEST_PATH_IMAGE013
是一个学习过的合成字典D的编码系数,W为在字典对学习过程中引入的对角重要性权重矩阵。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,在所述步骤四中,根据所述训练样本的特征进行联合字典对模型学习的方法包括如下步骤:
通过范数矩阵对合成字典以及分析字典进行随机矩阵初始化,然后对所述初始字典对模型进行学习,并进行迭代更新优化计算以分别得到优化后的合成字典以及优化后的分析字典。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,进行迭代更新优化计算的方法包括如下步骤:
首先固定合成字典D、分析字典P以及训练样本Z,以对编码系数
Figure 82858DEST_PATH_IMAGE014
进行更新,对应的表达式为:
Figure 273668DEST_PATH_IMAGE015
当编码系数
Figure 29135DEST_PATH_IMAGE014
更新后,固定编码系数
Figure 621790DEST_PATH_IMAGE014
、合成字典D以及训练样本Z,以对分析字典P进行更新,对应的表达式为:
Figure 437299DEST_PATH_IMAGE016
当分析字典P更新后,固定编码系数
Figure 115405DEST_PATH_IMAGE014
、分析字典P以及训练样本Z,以对合成字典D进行更新,对应的表达式为:
Figure 408983DEST_PATH_IMAGE017
其中,
Figure 121725DEST_PATH_IMAGE018
是合成字典D的编码系数最小优化值,
Figure 842556DEST_PATH_IMAGE019
是分析字典的最小优化值,
Figure 273537DEST_PATH_IMAGE020
是合成字典的最小优化值。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,在所述步骤五中,所述通过联合字典对中的原子的线性组合表示所述候选目标图像样本的方法包括如下步骤:
根据所述候选目标图像样本与所述字典对学习模型之间的重构误差计算得到所述候选目标图像样本对应的观测概率;
根据所述候选目标图像样本对应的最大观测概率,以定位所述候选目标图像样本中与第一帧目标框内的目标图像观测概率最大的样本的位置。
所述基于卷积神经网络字典对学习的目标跟踪方法,其中,所述候选目标图像样本对应的观测概率表示为:
Figure 105227DEST_PATH_IMAGE021
其中,
Figure 672475DEST_PATH_IMAGE022
为候选目标图像样本对应的观测概率,
Figure 564207DEST_PATH_IMAGE023
为预测量,
Figure 482485DEST_PATH_IMAGE024
为状态量,
Figure 852286DEST_PATH_IMAGE025
为归一化因子,
Figure 539619DEST_PATH_IMAGE026
为正数,
Figure 602253DEST_PATH_IMAGE027
为候选目标图像样本在合成字典D上的重构误差;
重构误差的表达式为:
Figure 742248DEST_PATH_IMAGE028
本发明提出一种基于卷积神经网络字典对学习的目标跟踪系统,其中,所述系统包括:
第一采样模块,用于在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
第二采样模块,用于在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置;
第一学习模块,用于基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
第二学习模块,用于根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
定位跟踪模块,用于利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,以实现目标图像定位跟踪,其中字典对包括合成字典D以及分析字典P。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明中边界框回归模型的应用示意图;
图2为本发明提出的基于卷积神经网络字典对学习的目标跟踪方法的流程图;
图3为本发明提出的基于卷积神经网络字典对学习的目标跟踪系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有技术中的部分视觉跟踪算法的表观模型,鲁棒性与精确度均不是很理想,且无法很好地处理运动模糊、光照变化以及尺度变化等外观变化所带来的影响,导致无法很好地对目标图像实现跟踪。
为了解决这一技术问题,本发明提出一种基于卷积神经网络字典对学习的目标跟踪方法,请参阅图1至图2,所述方法包括如下步骤:
S101,在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型。
所述步骤一具体包括:
S1011,设定第一帧的所述初始目标图像的初始位置,在所述初始目标图像的初始位置的邻域内采样得到正候选样本。
在第一帧目标框内采样得到多个正候选样本,为了使得预训练的网络更加精确地定位到包含目标图像的边界框,在本实施例中利用边界框回归技术。
具体的,在第一帧的初始目标图像中,设定初始目标图像的初始位置,然后在初始目标图像的初始位置周围较小邻域内采样得到正候选样本。
S1012,利用预训练网络模型提取所述正候选样本对应的特征,并根据所述正候选样本对应的特征进行边界框回归模型的训练。
进一步的,在获得了正候选样本之后,使用预训练网络模型VGG-M提取上述正候选样本相应的conv3特征,并基于提取得到的正候选样本相应的conv3特征进行边界框回归模型的训练。
在此需要说明的是,除第一帧的初始目标图像之外,在后续帧中,如果被选取的样本框与真实框(Ground Truth)之间的IoU分数(交并比 Intersection over Union)值超过阈值0.6,边界框回归模型将调整被选择的样本框至目标位置。由于在线更新时间较长,计算量复杂度较大,只在第一帧中进行边界框回归模型的训练。作为补充的,IoU 计算的是“预测的边框”和“真实的边框” 的交集和并集的比值。
作为补充的,对于上述的边界框回归模型,对应使用的是边界框回归技术。具体的,如图1所示,框1表示Ground Truth(真实数据),框2表示Selective Search(选择性搜索)提取的Region Proposal(候选框)。那么即便框2被分类器识别为飞机,但由于框2定位不准(IoU<0.6),那么此张图相当于没有正确地检测出飞机。若能对框2进行微调,使得经过微调后的窗口跟Ground Truth 更接近,将定位更准确。
S102,在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置。
在此需要说明的是,步骤S102与步骤S101中的采样方式相同,区别仅在于采样样本数量不同。其中,在步骤S101中,采样正候选样本时,先生成10000个回归样本,选出IoU(重叠率)>0.6的样本,随机从中选择1000个作为正样本,目的是为了训练Bounding-boxregression(边界回归框模型)。
在步骤S102中,在采样正负候选样本时,生成1000个正样本,选出IoU(重叠率)>0.6的样本,最多选择500个作为正样本。此外,生成10000个负样本,选出IoU(重叠率)<0.5的样本,随机从中选择最多5000个作为负样本。需要说明的是,步骤S102的目的是为了调节卷积神经网络模型(CNN)的全连接参数。
在此需要补充说明的是,对于上述卷积神经网络模型(CNN),该卷积神经网络模型(CNN)包括三个卷积层以及两个全连接层。可以理解的,卷积神经网络模型(CNN)参数都需要有一个初始值。然而,通过运行该初始值进行模型训练可能效果不佳。为了解决这一问题,一般通过观察输出,观察loss函数或调整参数让模型训练得更好,从而提高整个网络的训练准确度。
具体的,调参的数据一般指的是超参数。在本实施例中,利用在线更新的方法,通过一组大小为"107×107" 的正负训练样本对全连接参数进行微调。
S103,基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对。
在本步骤中,需要指出的是,上述的训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本。其中,候选目标图像样本即为上述的正负候选样本。具体的,训练样本的生成方法为:在每一帧候选目标图像中,选择跟踪目标位置附近一个小邻域内的一组图像候选框(又称为图像Patch)作为训练样本输入。
在确定了训练样本之后,利用卷积神经网络模型(CNN)获得训练样本的深度特征,以用于学习一组初始字典对D1和P1。其中,字典对包括一个合成字典和一个分析字典。字典对学习在第一帧候选目标图像中进行初始化,并在后续跟踪中进行更新。
S104,根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习。
在本步骤中,利用训练样本学习联合字典对,即合成字典D以及分析字典P。其中,合成字典D的编码系数
Figure 181319DEST_PATH_IMAGE014
可以通过对分析字典P进行线性投影得到。
具体的,合成字典D与分析字典P之间存在如下关系式:
Figure 723159DEST_PATH_IMAGE001
(1)
其中,
Figure 956694DEST_PATH_IMAGE002
表示字典对模型学习后获取的分析字典与合成字典,
Figure 583985DEST_PATH_IMAGE003
Figure 295589DEST_PATH_IMAGE029
为合成字典,
Figure 957514DEST_PATH_IMAGE005
为分析字典,
Figure 361951DEST_PATH_IMAGE030
为训练样本,
Figure 476537DEST_PATH_IMAGE007
表示判别条件,用于利用分析字典P通过线性投影生成编码系数。需要说明的是,使用卷积神经网络模型(CNN)提取深度特征后,使用合成字典D重建候选目标图像。
与此同时,需要指出的是,在进行联合字典对模型学习过程中,不同的训练样本发挥不同的重要性,因此在字典对学习过程中引入了对角重要性权重矩阵W。如此,具有较高权重的训练样本将对字典具有较低的重构残差。
具体的,对应的字典对模型最佳值表示为:
Figure 991832DEST_PATH_IMAGE009
(2)
其中,
Figure 508264DEST_PATH_IMAGE010
表示字典对模型最佳值,
Figure 83602DEST_PATH_IMAGE011
均为平衡因子,
Figure 685485DEST_PATH_IMAGE012
为额外约束项,以避免解决方案P=0,
Figure 4471DEST_PATH_IMAGE031
是一个学习过的合成字典D的编码系数,W为在字典对学习过程中引入的对角重要性权重矩阵,
Figure 375409DEST_PATH_IMAGE008
为Frobenius范数。
在本实施例中,根据训练样本的特征进行联合字典对模型学习的方法包括如下步骤:
通过Frobenius范数矩阵对合成字典D以及分析字典P进行随机矩阵初始化,然后对初始字典对模型进行学习,并进行迭代更新优化计算以分别得到优化后的合成字典以及优化后的分析字典。
具体的,进行迭代更新优化计算的方法包括如下步骤:
首先固定合成字典D、分析字典P以及训练样本Z,以对编码系数
Figure 387227DEST_PATH_IMAGE014
进行更新,对应的表达式为:
Figure 945248DEST_PATH_IMAGE015
(3)
当编码系数
Figure 333504DEST_PATH_IMAGE014
更新后,固定编码系数
Figure 293369DEST_PATH_IMAGE014
、合成字典D以及训练样本Z,以对分析字典P进行更新,对应的表达式为:
Figure 476089DEST_PATH_IMAGE032
(4)
当分析字典P更新后,固定编码系数
Figure 786985DEST_PATH_IMAGE014
、分析字典P以及训练样本Z,以对合成字典D进行更新,对应的表达式为:
Figure 713352DEST_PATH_IMAGE033
(5)
其中,
Figure 527725DEST_PATH_IMAGE034
是合成字典D的编码系数最小优化值,
Figure 146925DEST_PATH_IMAGE035
是分析字典的最小优化值,
Figure 679537DEST_PATH_IMAGE036
是合成字典的最小优化值。
当相邻迭代之间的差值小于预定参数值或达到最大迭代次数时,停止迭代。迭代更新完成后,得到字典对,即包括合成字典D以及分析字典P。利用分析字典P通过线性投影生成编码系数
Figure 144017DEST_PATH_IMAGE014
,使用合成字典D对卷积神经网络模型(CNN)提取深度特征后的候选目标图像进行重构。
S105,利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,以实现目标图像定位跟踪。
在本步骤中,通过联合字典对中的原子的线性组合表示所述候选目标图像样本的方法包括如下步骤:
S1051,根据候选目标图像样本与字典对学习模型之间的重构误差计算得到候选目标图像样本对应的观测概率。
候选目标图像样本对应的观测概率表示为:
Figure 78475DEST_PATH_IMAGE021
(6)
其中,
Figure 868576DEST_PATH_IMAGE022
为候选目标图像样本对应的观测概率,
Figure 622906DEST_PATH_IMAGE023
为预测量,
Figure 156655DEST_PATH_IMAGE024
为状态量,
Figure 945620DEST_PATH_IMAGE025
为归一化因子,
Figure 641043DEST_PATH_IMAGE026
为正数,
Figure 148248DEST_PATH_IMAGE027
为候选目标图像样本在合成字典D上的重构误差;
重构误差的表达式为:
Figure 220109DEST_PATH_IMAGE028
(7)
在此需要指出的是,
Figure 863580DEST_PATH_IMAGE037
在公式(6)中的表述为一般表述方式。当具体应用在跟踪场景中时,在观测概率
Figure 995484DEST_PATH_IMAGE038
的表述中,其中,
Figure 724406DEST_PATH_IMAGE039
Figure 599958DEST_PATH_IMAGE040
是分别表示在时间t中的预测量和状态量,
Figure 363514DEST_PATH_IMAGE041
Figure 400741DEST_PATH_IMAGE042
是从通用到具体的推演。
在此需要特别指出的,公式(6)中的
Figure 882537DEST_PATH_IMAGE023
和表
Figure 296201DEST_PATH_IMAGE024
示的是向量,不是变量。观测概率的作用是为了选出最大概率估计的目标候选样本,从而去定位第t帧预测到的目标图像的位置,以达到跟踪的目的。
为了适应复杂的表观变量,利用观测似然值更新粒子
Figure 179844DEST_PATH_IMAGE043
的重要权值
Figure 122392DEST_PATH_IMAGE044
Figure 91485DEST_PATH_IMAGE045
(8)
其中,
Figure 43260DEST_PATH_IMAGE039
Figure 781409DEST_PATH_IMAGE040
是分别表示在时间t中的预测量和状态量,更新后的候选目标图像样本的权重与
Figure 160438DEST_PATH_IMAGE046
成正比。在t时的状态被计算为:
Figure 616827DEST_PATH_IMAGE047
(9)
在本实施例中,观测概率
Figure 106714DEST_PATH_IMAGE048
按照上述公式(6)进行计算。
S1052,根据候选目标图像样本对应的最大观测概率,以定位所述候选目标图像样本中与第一帧目标框内的目标图像观测概率最大的样本的位置。
需要补充说明的是,在本发明中,对于上述在线更新卷积神经网络模型(CNN),由于频繁更新卷积神经网络模型(CNN)和字典学习可能会造成误差的累积,并逐渐导致漂移和跟踪失败,特别是在发生遮挡时。为了有效处理上述问题,在进行在线更新时,卷积神经网络模型(CNN)采用短期和长期交替更新方法,分别设定为每20帧和100帧。在获得当前的跟踪结果后,一组训练样本被收集来重新学习具有深层特征的字典对。此外,每一帧都将重新学习一个新的字典对。
本发明提出的基于卷积神经网络字典对学习的目标跟踪方法,在粒子滤波框架下,联合卷积神经网络模型和字典对学习模型,可更准确地表示视频中的目标;此外,通过使用轻量级的卷积神经网络模型对训练样本进行特征提取,利用在线学习字典对来表示候选目标图像样本。本发明所设计的目标跟踪方法,具有很好的鲁棒性与精确度,可更好地处理外观变化,包括运动模糊、光照变化以及尺度变化等,以实现良好的目标图像跟踪效果。
请参阅图3,本发明提出一种基于卷积神经网络字典对学习的目标跟踪系统,其中,所述系统包括依次连接的第一采样模块11、第二采样模块12、第一学习模块13、第二学习模块14以及定位跟踪模块15;
其中所述第一采样模块11具体用于:
在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
所述第二采样模块12具体用于:
在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置;
所述第一学习模块13具体用于:
基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
所述第二学习模块14具体用于:
根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
所述定位跟踪模块15具体用于:
利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,以实现目标图像定位跟踪。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,所述方法包括:
步骤一:在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
步骤二:在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置;
步骤三:基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
步骤四:根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
步骤五:利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,利用所述候选目标图像样本的线性表示和字典对学习模型之间的重构误差来计算候选目标图像样本的观测概率,根据所得到的观测概率中的最大值所对应的候选目标图像样本的位置进行目标图像定位跟踪,其中字典对包括合成字典D以及分析字典P,且合成字典D与分析字典P之间存在如下关系:
Figure 885227DEST_PATH_IMAGE001
其中,
Figure 153397DEST_PATH_IMAGE002
表示字典对模型学习后获取的分析字典与合成字典,
Figure 207941DEST_PATH_IMAGE003
Figure 903365DEST_PATH_IMAGE004
为合成字典,
Figure 676148DEST_PATH_IMAGE005
为分析字典,
Figure 482430DEST_PATH_IMAGE006
为训练样本,
Figure 657060DEST_PATH_IMAGE007
表示判别条件,用于利用分析字典P通过线性投影生成编码系数,
Figure 523385DEST_PATH_IMAGE008
为Frobenius范数。
2.根据权利要求1所述的基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,所述步骤一具体包括:
设定第一帧的所述初始目标图像的初始位置,在所述初始目标图像的初始位置的邻域内采样得到正候选样本;
利用预训练网络模型提取所述正候选样本对应的特征,并根据所述正候选样本对应的特征进行边界框回归模型的训练。
3.根据权利要求2所述的基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,在所述步骤四中,进行联合字典对模型学习过程中,对应的字典对模型最佳值表示为:
Figure 517886DEST_PATH_IMAGE009
其中,
Figure 127858DEST_PATH_IMAGE010
表示字典对模型最佳值,
Figure 156994DEST_PATH_IMAGE011
均为平衡因子,
Figure 462729DEST_PATH_IMAGE012
为额外约束项,
Figure 678947DEST_PATH_IMAGE013
是一个学习过的合成字典D的编码系数,W为在字典对学习过程中引入的对角重要性权重矩阵。
4.根据权利要求3所述的基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,在所述步骤四中,根据所述训练样本的特征进行联合字典对模型学习的方法包括如下步骤:
通过范数矩阵对合成字典以及分析字典进行随机矩阵初始化,然后对所述初始字典对模型进行学习,并进行迭代更新优化计算以分别得到优化后的合成字典以及优化后的分析字典。
5.根据权利要求4所述的基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,进行迭代更新优化计算的方法包括如下步骤:
首先固定合成字典D、分析字典P以及训练样本Z,以对编码系数进行更新,对应的表达式为:
Figure 92611DEST_PATH_IMAGE014
当编码系数
Figure 976253DEST_PATH_IMAGE015
更新后,固定编码系数
Figure 449960DEST_PATH_IMAGE015
、合成字典D以及训练样本Z,以对分析字典P进行更新,对应的表达式为:
Figure 153474DEST_PATH_IMAGE016
当分析字典P更新后,固定编码系数
Figure 105249DEST_PATH_IMAGE015
、分析字典P以及训练样本Z,以对合成字典D进行更新,对应的表达式为:
Figure 108977DEST_PATH_IMAGE017
其中,
Figure 753585DEST_PATH_IMAGE018
是合成字典D的编码系数最小优化值,
Figure 944395DEST_PATH_IMAGE019
是分析字典的最小优化值,
Figure 699862DEST_PATH_IMAGE020
是合成字典的最小优化值。
6.根据权利要求5所述的基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,在所述步骤五中,所述通过联合字典对中的原子的线性组合表示所述候选目标图像样本的方法包括如下步骤:
根据所述候选目标图像样本与所述字典对学习模型之间的重构误差计算得到所述候选目标图像样本对应的观测概率;
根据所述候选目标图像样本对应的最大观测概率,以定位所述候选目标图像样本中与第一帧目标框内的目标图像观测概率最大的样本的位置。
7.根据权利要求6所述的基于卷积神经网络字典对学习的目标跟踪方法,其特征在于,所述候选目标图像样本对应的观测概率表示为:
Figure 292517DEST_PATH_IMAGE021
其中,
Figure 842447DEST_PATH_IMAGE022
为候选目标图像样本对应的观测概率,
Figure 786132DEST_PATH_IMAGE023
为预测量,
Figure 345289DEST_PATH_IMAGE024
为状态量,
Figure 58031DEST_PATH_IMAGE025
为归一化因子,
Figure 513283DEST_PATH_IMAGE026
为正数,
Figure 944264DEST_PATH_IMAGE027
为候选目标图像样本在合成字典D上的重构误差;
重构误差的表达式为:
Figure 32744DEST_PATH_IMAGE028
8.一种基于卷积神经网络字典对学习的目标跟踪系统,其特征在于,所述系统包括:
第一采样模块,用于在第一帧目标框内的初始目标图像进行采样处理以生成正候选样本,并根据所述正候选样本训练得到边界框回归模型;
第二采样模块,用于在后续帧目标框内的目标图像的邻域内重新进行采样以生成正负候选样本,根据所述正负候选样本对卷积神经网络模型的全连接参数进行微调,以确定所述第一帧目标框内的目标图像的最佳位置;
第一学习模块,用于基于空间距离机制以及所述卷积神经网络模型获得训练样本的深度特征,并基于所述训练样本的深度特征进行字典对模型学习以获得初始字典对,其中,所述训练样本为基于空间距离机制在目标图像邻域内采样得到的候选目标图像样本,所述候选目标图像样本即为所述正负候选样本;
第二学习模块,用于根据所述初始字典对,并基于卷积神经网络模型提取得到训练样本的特征,然后根据所述训练样本的特征进行联合字典对模型学习;
定位跟踪模块,用于利用进行过联合字典对模型学习的字典对,对所述训练样本进行编码,通过联合字典对中的原子的线性组合表示所述候选目标图像样本,利用所述候选目标图像样本的线性表示和字典对学习模型之间的重构误差来计算候选目标图像样本的观测概率,根据所得到的观测概率中的最大值所对应的候选目标图像样本的位置进行目标图像定位跟踪,其中字典对包括合成字典D以及分析字典P,且合成字典D与分析字典P之间存在如下关系:
Figure 865571DEST_PATH_IMAGE001
其中,
Figure 491724DEST_PATH_IMAGE002
表示字典对模型学习后获取的分析字典与合成字典,
Figure 410002DEST_PATH_IMAGE003
Figure 310961DEST_PATH_IMAGE004
为合成字典,
Figure 467136DEST_PATH_IMAGE005
为分析字典,
Figure 795349DEST_PATH_IMAGE006
为训练样本,
Figure 935344DEST_PATH_IMAGE007
表示判别条件,用于利用分析字典P通过线性投影生成编码系数,
Figure 639995DEST_PATH_IMAGE008
为Frobenius范数。
CN202110707429.4A 2021-06-25 2021-06-25 基于卷积神经网络字典对学习的目标跟踪方法与系统 Active CN113256685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110707429.4A CN113256685B (zh) 2021-06-25 2021-06-25 基于卷积神经网络字典对学习的目标跟踪方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110707429.4A CN113256685B (zh) 2021-06-25 2021-06-25 基于卷积神经网络字典对学习的目标跟踪方法与系统

Publications (2)

Publication Number Publication Date
CN113256685A CN113256685A (zh) 2021-08-13
CN113256685B true CN113256685B (zh) 2021-09-24

Family

ID=77189573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110707429.4A Active CN113256685B (zh) 2021-06-25 2021-06-25 基于卷积神经网络字典对学习的目标跟踪方法与系统

Country Status (1)

Country Link
CN (1) CN113256685B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056628A (zh) * 2016-05-30 2016-10-26 中国科学院计算技术研究所 基于深度卷积神经网络特征融合的目标跟踪方法及系统
CN106952228A (zh) * 2017-03-10 2017-07-14 北京工业大学 基于图像非局部自相似性的单幅图像的超分辨率重建方法
CN109241981A (zh) * 2018-09-03 2019-01-18 哈尔滨工业大学 一种基于稀疏编码的特征检测方法
CN109685045A (zh) * 2018-06-25 2019-04-26 鲁东大学 一种运动目标视频跟踪方法及系统
CN109711354A (zh) * 2018-12-28 2019-05-03 哈尔滨工业大学(威海) 一种基于视频属性表示学习的目标跟踪方法
CN112288779A (zh) * 2020-11-03 2021-01-29 南昌工程学院 一种目标跟踪方法及装置
WO2021046681A1 (zh) * 2019-09-09 2021-03-18 深圳市迪米欧科技有限公司 面向复杂场景的多源目标跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056628A (zh) * 2016-05-30 2016-10-26 中国科学院计算技术研究所 基于深度卷积神经网络特征融合的目标跟踪方法及系统
CN106952228A (zh) * 2017-03-10 2017-07-14 北京工业大学 基于图像非局部自相似性的单幅图像的超分辨率重建方法
CN109685045A (zh) * 2018-06-25 2019-04-26 鲁东大学 一种运动目标视频跟踪方法及系统
CN109241981A (zh) * 2018-09-03 2019-01-18 哈尔滨工业大学 一种基于稀疏编码的特征检测方法
CN109711354A (zh) * 2018-12-28 2019-05-03 哈尔滨工业大学(威海) 一种基于视频属性表示学习的目标跟踪方法
WO2021046681A1 (zh) * 2019-09-09 2021-03-18 深圳市迪米欧科技有限公司 面向复杂场景的多源目标跟踪方法
CN112288779A (zh) * 2020-11-03 2021-01-29 南昌工程学院 一种目标跟踪方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A New Approach to Track Multiple Vehicles With the Combination of Robust Detection and Two Classifiers;Weidong M.等;《IEEE Transactions on Intelligent Transportation Systems》;20171225;第174-186页 *
Sparse Affine Hull for Visual Tracking;Jun W.等;《2016 6th International Conference on Digital Home (ICDH)》;20170918;第85-88页 *
基于稀疏表示的视觉跟踪方法;邱贺磊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815;第I138-1016页 *
融合视觉先验与背景信息的视频目标跟踪方法;管皓 等;《小型微型计算机系统》;20160930(第9期);第2074-2078页 *

Also Published As

Publication number Publication date
CN113256685A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN108960086B (zh) 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法
CN107784293B (zh) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN112507990A (zh) 视频时空特征学习、抽取方法、装置、设备及存储介质
CN110263666B (zh) 一种基于非对称多流的动作检测方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN112801019B (zh) 基于合成数据消除无监督车辆再识别偏差的方法及系统
CN107203747B (zh) 基于自适应选择机制的稀疏联合模型目标跟踪方法
CN113139468A (zh) 融合局部目标特征与全局特征的视频摘要生成方法
Seyedhosseini et al. Fast adaboost training using weighted novelty selection
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN111178427A (zh) 一种基于Sliced-Wasserstein距离的深度自编码嵌入聚类的方法
CN114399661A (zh) 一种实例感知主干网络训练方法
CN114283326A (zh) 一种结合局部感知和高阶特征重构的水下目标重识别方法
Zheng et al. Action recognition based on the modified twostream CNN
CN111062291B (zh) 一种机器人视觉跟踪方法及系统
Liu Real-Time Object Detection for Autonomous Driving Based on Deep Learning
CN113256685B (zh) 基于卷积神经网络字典对学习的目标跟踪方法与系统
Lin et al. Ml-capsnet meets vb-di-d: A novel distortion-tolerant baseline for perturbed object recognition
CN113033283A (zh) 一种改进的视频分类系统
Kavitha et al. An extreme learning machine and action recognition algorithm for generalized maximum clique problem in video event recognition
Li et al. STD-TR: End-to-End Spatio-Temporal Action Detection with Transformers
Cai et al. Explicit invariant feature induced cross-domain crowd counting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant