CN106327516A - 一种基于外观模型的学习型视觉追踪方法 - Google Patents

一种基于外观模型的学习型视觉追踪方法 Download PDF

Info

Publication number
CN106327516A
CN106327516A CN201510367183.5A CN201510367183A CN106327516A CN 106327516 A CN106327516 A CN 106327516A CN 201510367183 A CN201510367183 A CN 201510367183A CN 106327516 A CN106327516 A CN 106327516A
Authority
CN
China
Prior art keywords
super
pixel
collection
bag
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510367183.5A
Other languages
English (en)
Other versions
CN106327516B (zh
Inventor
周瑜
明安龙
廖鸿宇
孙放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING QINGCHEN CREATIVE DIGITAL TECHNOLOGY Co.,Ltd.
Original Assignee
Beijing Thunderous Yun He Intellectual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Thunderous Yun He Intellectual Technology Co Ltd filed Critical Beijing Thunderous Yun He Intellectual Technology Co Ltd
Priority to CN201510367183.5A priority Critical patent/CN106327516B/zh
Publication of CN106327516A publication Critical patent/CN106327516A/zh
Application granted granted Critical
Publication of CN106327516B publication Critical patent/CN106327516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于外观模型的学习型视觉追踪方法,该方法首先把图像帧划分成若干超像素区域,然后把分割后的超像素区域聚为正包集和负包集,正包集和负包集可以解释为准确的前景和背景划分;最后使用一个贪心搜索算法来学习每个包的分布,每个包的权重取决于显著性的大小。与现有的基于超像素的建模方法相比,本发明的建模方法在学习过程中没有使用迭代,而是通过一种多示例的学习任务对外观模型进行了建模,克服了基于边界框建模方法自身的局限性,提高了计算效率,能够适用于实时的目标追踪应用;此外,提出了一个两步的过程来进行置信度的划分,保证了置信度划分的有效性,从而大大提高了目标追踪的准确性。

Description

一种基于外观模型的学习型视觉追踪方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于外观模型的学习型视觉追踪方法。
背景技术
视觉追踪的应用很广,包括视频监控和人机交互。因为存在大的非刚性形变、目标外观变化、严重遮挡以及未知的相机运动,如何进行准确高效的视觉追踪还是一个有挑战的问题。视觉追踪分为两类:有区分度的识别和生成识别。有区分度的识别,是把追踪任务当成一种划分前景、背景的二元分类问题,根据当前帧来学习分类器并对之后的帧进行分类。生成识别方法根据之前的目标学习目标外观模型,当有新的帧到来的时候,选择最接近目标模型的候选样本作为真实目标。近年来,提出了一些新的目标建模方法,例如基于子空间的目标表示和基于稀疏表示的外观模型。
在视觉追踪研究领域中,建立可靠的目标外观模型相当重要。因为通常使用矩形边界框对目标进行定位,所以传统的建模方法通常把边界框中的图像区域当成真实目标。然而,在实际应用中,边界框内部不可避免地存在一些背景噪声,对于非刚性的目标而言尤其严重,影响结果的准确性。本发明的视觉追踪方法通过把前景划分的过程精细化,即假设前景区域包含一些可以解释为可靠的目标区域的正包集,利用可靠的目标区域来构建目标模型,克服上述缺陷。
本发明对多实例学习(MIL)范式的一般假设进行了推广。MIL的基本假设是:如果包中至少有一个实例是正的,该包就是正的;如果所有的实例都是负的,该包就是负的。通过把图像帧分为一些互不重叠的超像素区域,直观发现在目标框内至少有一个超像素区域是正的,边界框外的所有的超像素区域都是负的。因此,这种情况符合MIL的假设。
发明内容
本发明的目的在于针对上述技术存在的缺陷,提供了一种基于外观模型的学习型视觉追踪方法,该方法首先把图像帧划分成若干超像素区域,然后把分割后的超像素区域聚为正包集和负包集;最后使用一个贪心搜索算法来学习每个包的分布。本发明的建模方法在学习过程中没有使用迭代,而是通过一种多示例的学习任务对外观模型进行了建模,克服了基于边界框建模方法自身的局限性,提高了计算效率,能够适用于实时的目标追踪应用;此外,提出了一个两步的过程来进行置信度的划分,保证了置信度划分的有效性,从而大大提高了目标追踪的准确性。
本发明是通过如下技术方案实现的,一种基于外观模型的学习型视觉追踪方法,其特征在于:该方法包括以下步骤:
步骤1:学习前景背景集:对训练中的帧进行过分割,整个过程符合(MIL)范式,使用正包来对边界框内部的目标进行建模,同时用负包集来表示背景;采用净化后的包来学习目标中的每一块,使得外观模型获得更准确的前景划分结果;
步骤2:学习包集分布:采用贪心搜索算法获取正包集和负包集的数目,并分别对获取到的每个正包集和负包集进行学习;
步骤3:学习每个包集的权重:给更有辨识度的块分配更大的权重,使正包集和负包集的边缘得到最大化;
步骤4:对后续的帧进行判断:
步骤4.1:对于一个新的帧,首先获取搜索区域并抽取出搜索区域内的N个超像素;
步骤4.2:然后为上述每个超像素分配一个超像素值,进而获得每个超像素的置信度;
步骤4.3:根据公式生成一些候选的目标状态,已知,目标状态与目标区域相对应,把候选的目标区域归一化成相同的尺寸;
步骤4.4:当对该新的帧追踪完之后,把追踪完的该新的帧的信息加到训练集中,去掉最老的信息;每U帧更新一次外观模型。
其中,所述步骤2中的贪心搜索算法过程为:首先,进行初始化,把训练集第一帧目标区域中的每一个像素当成一个独立的包;然后,把后续帧中的超像素划分给最近的包;接着,对含有冗余信息的多余的包集进行合并、优化;最后,得到正包集的高斯分布和负包集的分布。
所述步骤4.2中为每个超像素分配一个超像素值得过程为:首先为每个超像素分配二进制类标签,然后对二进制类标签进行定义,使得每一个超像素被分配了正标签或负标签。
本发明有益效果是:
1、本发明提出了一种基外观模型的学习型新颖的目标建模方法,把已知图像分解成一些互相不遮挡的超像素区域之后,把边界框内部的超像素标定为正包,把边界外部的超像素标定为负包,克服了基于边界框建模方法自身的局限性。
2、通过在模板学习的过程中寻找一种贪心算法舍弃迭代,适用于实时目标追踪应用,提高了计算效率。
3、提出了一个两步的过程来进行置信度的划分,避免了不可靠的划分,提高了追踪的性能,从而达到比之前的方法计算起来更快,而且实验效果优于平均水平的效果,大大提高了目标追踪的准确性。
附图说明
图1是本发明所述方法的流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于外观模型的学习型视觉追踪方法,其特征在于,该方法包括以下步骤:
步骤1:学习前景背景集:对训练中的帧进行过分割,整个过程符合(MIL)范式,使用正包来对边界框内部的目标进行建模,同时用负包集来表示背景;通过正负包的信息,可以估计目标的位置;
假设正的包集跟负的包集是独立的,置信度的划分可以用下面的方法来判定:
C(ri)=p(l(ri)=1|B+)p(l(ri)=1|B-),其中,B+和B-代表正包集和负包集;
为了去掉边界框中的负超像素集,需要计算边界框中的超像素是背景的可能性,超像素对之间的距离可以定义如下:其中,代表边界框内的第i个超像素的特征向量,代表边界框外的第j个超像素的特征向量;
使用一个预先定义的阈值λd,特征之间的距离可以被量化为一个二值问题,公式如下: ind i j = 1 D i j < &lambda; d 0 D i j &GreaterEqual; &lambda; d , 其中,1代表着两个超像素很相似;
根据下面的公式来判定当前的超像素是否因为从正样本中移除:其中,Ni代表与边界框内部的超像素相似的数目,No代表与边界框外部的超像素相似的数目;当ρr大于λr的时候,当前的超像素就会被移除,进入负包集中;
最后,采用净化后的包来学习目标中的每一块,使得外观模型获得更准确的前景划分结果。
步骤2:学习包集分布:采用贪心搜索算法获取正/负包集的数目并对给定的正/负包集B+/B-进行学习,具体过程为:首先,进行初始化,把训练集第一帧目标区域中的每一个像素当成一个独立的包,然后,把后续帧中的超像素划分给最近的包,计算公式如下:其中,indi代表第i个超像素属于的包,代表第一帧中的的第j个超像素,这样就可以获得正包集和负包集接着,计算正包集中的第i个元素bi的平均值和个数其中代表平均值;
假设两帧之间没有突变,则可以确定每一个包集都含有一定成分的目标或背景,然而,因为第一帧的超像素跟别的帧的超像素在特征空间中是相似的,所以包集存在冗余信息,这会导致目标区域被划分成到几个包集中,因此,需要对多余的包进行合并,矩阵M+用来代表两个包合并的可能性,公式如下:
M + = { m i j + } , m i j + = 1 || &mu; i + - &mu; j + || 2 &le; &lambda; d 0 || &mu; i + - &mu; j + || 2 > &lambda; d
其中,1代表这两个帧可以合并,0代表不可以;在合并之前,初始的正包集是其中是初始集中的第i个正包;我们试图找到的子集来覆盖所有的包,该子集定义为其中包含中的一个或多个包,指代M+,根据变量y来进行该优化过程,公式如下:
y j = 1 s j + &Subset; B o + 0 o t h e r w i s e
最优解满足如下的约束条件:
min &Sigma; j = 1 m y j
s . t . &Sigma; j : b k + &Element; s j + y j &GreaterEqual; 1 , k = 1 , 2 , ... , n
该约束条件能够确保每个包至少能包括的一个子集,上面的公式是典型的集和覆盖问题,存在多项式难度。因此,为了寻找一个可行解,采用了一种集覆盖贪心算法来求解,该贪心算法的计算复杂度是O(lnn+1),其中n是原始集中的包数;
最后,获得了正包集的高斯分布和负包集的分布,参数(μ,σ)可以在每个集合中进行更新。
步骤3:学习每个包集的权重:给更有辨识度的块分配更大的权重,使正包集和负包集的边缘得到最大化;计算包的区分度公式如下:
B S ( f i + , f j - ) = 1 4 ( u i + - u j - ) &sigma; i + 2 + &sigma; j - 2 + 1 2 ln ( &sigma; i + 2 + &sigma; j - 2 2 &sigma; i + &sigma; j - )
使用来表示特征和所有的负特征的最小聚类,并利用下面的公式来分配权重:
&omega; i + = exp ( BS m i n ( f i + ) ) &Sigma; j = 1 n + exp ( BS m i n ( f j + ) )
类似地,负包的权重可以用下面的公式获得:
该权重的分配过程能够最大化正包和负包的边缘。
步骤4:对后续的帧进行判断:
步骤4.1:对于一个新的帧It+1,首先获取搜索区域Rt+1={ct+1,lt+1},其中,ct+1=(xt,yt),lt+1=λlmax(ht,wt),(ht,wt)表示帧It中目标的高和宽;然后抽取出Rt+1内的N个超像素
步骤4.2:为上述每个超像素分配一个超像素值,首先为每个超像素分配二进制类标签,获得正包集B+和负包集B-,定义这意味着和B+的距离;类似地,定义
然后,对二进制类标签进行定义,公式为: l ( r t + 1 n ) = 1 i f min ( a + ) &le; min ( a - ) 0 i f min ( a + ) > min ( a - ) , 基于该公式,每一个超像素被分配了正标签或负标签;
最后,求取每个超像素的置信度,置信度公式如下: C ^ ( r t + 1 n ) = &Sigma; i = 1 n + &omega; i + exp ( - | | f t + 1 n - &mu; i + | | 2 &sigma; i + 2 ) i f l ( r t + 1 n ) = 1 &Sigma; i = 1 n - &omega; i - exp ( - | | f t + 1 n - &mu; i - | | 2 &sigma; i - 2 ) i f l ( r t + 1 n ) = 0 ; 其中,n,wi,μi和σi是正特征分布或是负特征分布的参数,因为超像素之间是互不遮挡的,可以获得搜索区域Rt+1中的置信度图并且让ct+1(i,j)代表位置(i,j)的置信度,本实施例中,假设搜索区域外的置信度是-1;
步骤4.3:根据公式高斯分布的运动模型,生成一些候选的目标状态已知,其中状态与候选图像区域对应,把候选的目标区域归一化成相同的尺寸;
状态的置信度公式为:为了处理尺度变换,对Ck进行加权,可以获得其中,代表候选区域的尺寸;
状态可以通过如下公式计算:最大化该公式,可以获得最优解;
步骤4.4:当对该新的帧It+1追踪完之后,把追踪完的该新的帧的信息加到训练集中,去掉最老的信息;每U帧更新一次外观模型,本实施例中训练集的长度是L。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内的所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于外观模型的学习型视觉追踪方法,其特征在于,该方法包括以下步骤:
步骤1:学习前景背景集:对训练中的帧进行过分割,整个过程符合(MIL)范式,使用正包来对边界框内部的目标进行建模,同时用负包集来表示背景;采用净化后的包来学习目标中的每一块,使得外观模型获得更准确的前景划分结果;
步骤2:学习包集分布:采用贪心搜索算法获取正包集和负包集的数目,并分别对获取到的每个正包集和负包集进行学习;
步骤3:学习每个包集的权重:给更有辨识度的块分配更大的权重,使正包集和负包集的边缘得到最大化;
步骤4:对后续的帧进行判断:
步骤4.1:对于一个新的帧,首先获取搜索区域并抽取出搜索区域内的N个超像素;
步骤4.2:为上述每个超像素分配一个超像素值,进而获得每个超像素的置信度;
步骤4.3:根据公式生成一些候选的目标状态,已知,目标状态与目标区域相对应,把候选的目标区域归一化成相同的尺寸;
步骤4.4:当对该新的帧追踪完之后,把追踪完的该新的帧的信息加到训练集中,去掉最老的信息;每U帧更新一次外观模型。
2.根据权利要求1所述的视觉追踪方法,其特征在于:所述步骤2中的贪心搜索算法过程为:首先,进行初始化,把训练集第一帧目标区域中的每一个像素当成一个独立的包;然后,把后续帧中的超像素划分给最近的包;接着,对含有冗余信息的多余的包集进行合并、优化;最后,得到正包集的高斯分布和负包集的分布。
3.根据权利要求1所述的视觉追踪方法,其特征在于:所述步骤4.2中为每个超像素分配一个超像素值得过程为:首先为每个超像素分配二进制类标签,然后对二进制类标签进行定义,使得每一个超像素被分配了正标签或负标签。
CN201510367183.5A 2015-06-29 2015-06-29 一种基于外观模型的学习型视觉追踪方法 Active CN106327516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510367183.5A CN106327516B (zh) 2015-06-29 2015-06-29 一种基于外观模型的学习型视觉追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510367183.5A CN106327516B (zh) 2015-06-29 2015-06-29 一种基于外观模型的学习型视觉追踪方法

Publications (2)

Publication Number Publication Date
CN106327516A true CN106327516A (zh) 2017-01-11
CN106327516B CN106327516B (zh) 2018-12-18

Family

ID=57722319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510367183.5A Active CN106327516B (zh) 2015-06-29 2015-06-29 一种基于外观模型的学习型视觉追踪方法

Country Status (1)

Country Link
CN (1) CN106327516B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833239A (zh) * 2017-10-26 2018-03-23 辽宁工程技术大学 一种基于加权模型约束的寻优匹配目标跟踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130329987A1 (en) * 2012-06-11 2013-12-12 Genesis Group Inc. Video segmentation method
CN104091038A (zh) * 2013-04-01 2014-10-08 太原理工大学 基于大间隔分类准则的多示例学习特征加权方法
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
CN104298968A (zh) * 2014-09-25 2015-01-21 电子科技大学 一种基于超像素的复杂场景下的目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130329987A1 (en) * 2012-06-11 2013-12-12 Genesis Group Inc. Video segmentation method
CN104091038A (zh) * 2013-04-01 2014-10-08 太原理工大学 基于大间隔分类准则的多示例学习特征加权方法
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
CN104298968A (zh) * 2014-09-25 2015-01-21 电子科技大学 一种基于超像素的复杂场景下的目标跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833239A (zh) * 2017-10-26 2018-03-23 辽宁工程技术大学 一种基于加权模型约束的寻优匹配目标跟踪方法
CN107833239B (zh) * 2017-10-26 2021-05-18 辽宁工程技术大学 一种基于加权模型约束的寻优匹配目标跟踪方法

Also Published As

Publication number Publication date
CN106327516B (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN110111340B (zh) 基于多路割的弱监督实例分割方法
Jin et al. Spatio-temporal graph neural networks for predictive learning in urban computing: A survey
Adarsh et al. YOLO v3-Tiny: Object Detection and Recognition using one stage improved model
CN111275688B (zh) 基于注意力机制的上下文特征融合筛选的小目标检测方法
Jana et al. YOLO based Detection and Classification of Objects in video records
Liang et al. Fine-grained vessel traffic flow prediction with a spatio-temporal multigraph convolutional network
CN102663409B (zh) 一种基于hog-lbp描述的行人跟踪方法
Mutis et al. Real-time space occupancy sensing and human motion analysis using deep learning for indoor air quality control
Li et al. Adaptive deep convolutional neural networks for scene-specific object detection
CN108304798A (zh) 基于深度学习及运动一致性的街面秩序事件视频检测方法
Karim et al. A dynamic spatial-temporal attention network for early anticipation of traffic accidents
CN104217225A (zh) 一种视觉目标检测与标注方法
CN104484890B (zh) 基于复合稀疏模型的视频目标跟踪方法
CN103942535B (zh) 多目标跟踪方法及装置
CN105654139A (zh) 一种采用时间动态表观模型的实时在线多目标跟踪方法
CN105184772A (zh) 一种基于超像素的自适应彩色图像分割方法
CN110334584B (zh) 一种基于区域全卷积网络的手势识别方法
CN110032952B (zh) 一种基于深度学习的道路边界点检测方法
CN110956158A (zh) 一种基于教师学生学习框架的遮挡行人再标识方法
Neogi et al. Context based pedestrian intention prediction using factored latent dynamic conditional random fields
Zauss et al. Keypoint communities
Rafique et al. Weakly supervised building segmentation from aerial images
Pham et al. Pencilnet: Zero-shot sim-to-real transfer learning for robust gate perception in autonomous drone racing
CN103268617B (zh) 一种基于蚁群系统的多细胞多参数的联合估计与精确跟踪系统
CN113673540A (zh) 一种基于定位信息引导的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200907

Address after: 221000 Qianlou Village, Huangji Town, Tongshan District, Xuzhou City, Jiangsu Province, Team 121

Patentee after: Zhuo Houqiao

Address before: 100876, building 88, No. 1, Nongda South Road, Beijing, Haidian District, B1-317

Patentee before: BEIJING ROBOTLEO INTELLIGENT TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201030

Address after: Room 218, No.1, Xiankun Road, Jianye District, Nanjing City, Jiangsu Province, 210000

Patentee after: NANJING QINGCHEN CREATIVE DIGITAL TECHNOLOGY Co.,Ltd.

Address before: 221000 Qianlou Village, Huangji Town, Tongshan District, Xuzhou City, Jiangsu Province, Team 121

Patentee before: Zhuo Houqiao