CN104298968A - 一种基于超像素的复杂场景下的目标跟踪方法 - Google Patents

一种基于超像素的复杂场景下的目标跟踪方法 Download PDF

Info

Publication number
CN104298968A
CN104298968A CN201410499730.0A CN201410499730A CN104298968A CN 104298968 A CN104298968 A CN 104298968A CN 201410499730 A CN201410499730 A CN 201410499730A CN 104298968 A CN104298968 A CN 104298968A
Authority
CN
China
Prior art keywords
pixel
super
target
training set
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410499730.0A
Other languages
English (en)
Other versions
CN104298968B (zh
Inventor
蒲晓蓉
陈雷霆
张思远
邱航
蔡洪斌
崔金钟
卢光辉
曹跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201410499730.0A priority Critical patent/CN104298968B/zh
Publication of CN104298968A publication Critical patent/CN104298968A/zh
Application granted granted Critical
Publication of CN104298968B publication Critical patent/CN104298968B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于超像素的复杂场景下的目标跟踪方法,包括以下步骤:(1)初始化参数,取视频流中的前帧图像作为训练集,取3-6;(2)找到上一帧的目标区域,重复上述步骤,采用超像素进行分割,提取超像素特征;(3)计算超像素的置信图;(4)通过上一帧得到的置信图,取

Description

一种基于超像素的复杂场景下的目标跟踪方法
技术领域
本发明涉及一种基于超像素的复杂场景下的目标跟踪方法。
背景技术
视频中的目标跟踪技术属于视频图像处理的关键技术。它涉及到计算机视觉、模式识别以及人工智能等领域,具有重要的理论意义。现实生活中的场景大多数会发生变化,而现有很多目标跟踪算法无法满足现实复杂场景中的目标跟踪。基于复杂场景的目标跟踪,需要综合考虑视频序列中,所要跟踪的目标周围环境以及付目标本身的一系列复杂变化,包括目标挡、目标丢失、光照变化、目标快速运动、目标姿态变化、目标尺度变化等一系列复杂因素。
跟踪失效是复杂场景中目标跟踪面临的主要问题。例如,基于纹理特征的跟踪,如LBP、Haar特征等,可以区分背景和目标,但是却对目标丢失和快速移动时的处理能力有限,而基于颜色特征的跟踪虽然可以使用局部直方图解决部分问题,但是却对尺度变化和姿态变化有较低的抵抗力。
使用基于纹理特征与颜色特征相融合的方式可以在一定程度上缓解单独使用时的缺陷,但是,在复杂场景下,这两种特征并不能完全区分背景和目标,导致了在目标运动速度较快或模糊情况下,依然无法精确跟踪。
超像素是一种新的像素表示方法。它将图像中那些相近相似的像素点聚集起来,分别用一个集合来表示。超像素对图像的边界有较高的附着率,在图像分割中有较广泛的应用。
由上海大学的寇超、白琮、陈泉林、王华红、王少波发明的《复杂场景中单个人脸的实时跟踪方法》2008年9月24日向中国国家知识产权局申请专利并获得批准,于2009年3月4日公开,公开号为:CN101377813。该技术方案涉及人机交互界面以及视频监控领域,特别是对复杂场景中单个人脸的实时追踪。该方案以人脸检测的二值化结果表征图像中像素类肤色的概率,并以此为特征对人脸进行跟踪,可以在具有较低计算量的同时对复杂场景中人脸的旋转、倾斜等成功实现跟踪,当失败后也能自动重新进行,且对诸如手部类区域的干扰不明显。该专利在使用均值偏移方法进行人脸跟踪时,考虑到了其对于肤色不敏感的缺陷,首先通过人脸检测检测到人脸,然后消除人脸的类肤色特征,保证高效率的同时又可以对颜色相似的背景免疫。但是,该算法过于依赖人脸检测的结果,若检测的结果并不理想,则整个算法也基本失效;其次,复杂场景下,可能包括光照、尺度、目标动作的变化等,该方法只考虑到了目标动作的变化,并未涉及到其他因素;此外,该算法使用均值偏移作为跟踪算法,并未解决均值偏移在目标运动速度过快时跟踪失败的情况,难以应用于复杂场景的跟踪。
由湖南大学的王耀南、万琴、王磊发明的《一种复杂场景中的运动目标检测与跟踪方法》2007年8月28日向中国国家知识产权局申请专利并获得批准,于2008年3月12日公开,公开号为:CN101141633。该发明采用“匹配矩阵”的方法来确定目标的运动状态,并根据目标不同运动情况采取相应跟踪策略,同时可以针对多目标互相遮挡问题,通过概率推理方法“恢复”目标信息,在多目标跟踪下游较好的效果。但是,若按单个目标来处理的话,该发明并没有过多的考虑除遮挡意外的情况,如光照、尺度变化等。
在视频中进行目标跟踪时,图像特征的选择一般有两种:1)纹理特征;2)颜色特征。基于纹理特征的跟踪可以区分目标和背景,但是对于严重的遮挡和边缘混乱的处理能力有限。基于颜色特征的跟踪可以使用局部直方图来解决部分遮挡问题,却无法解决尺度变化、形状变化很大或目标与背景相近的情况。因此,复杂场景中的目标跟踪最好融合两种特征。JifengNing、LeiZhang等人在《RobustObjectTrackingUsingJointColor-TextureHistogram》中提出,在由局部直方图标记出目标后,在目标中使用局部二值模式技术来再次提取特征。与常规方法不同的是,该方法在目标区域的边缘处提取特征,可以更好的表示目标,将两种特征融合后采用均值偏移的方法进行跟踪,具有很强的鲁棒性。该方法采用颜色特征与纹理特征相融合的方式对目标进行跟踪,很大程度上解决了目标与背景相似情况下的跟踪问题。但是,由于局部二值模式不能完全将目标与背景分开,在目标运动速度较快,或目标模糊的情况下,容易发生跟丢现象。同时,标准的局部二值模式很难处理光照变化情况。
发明内容
鉴于上述不足之处,本方案发明目的在于:提出一种基于超像素的复杂场景下的目标跟踪方法。在目标跟踪时,由于超像素作为图像分割的常用方法,使得每一块超像素都可以很好的附着在对象上(即将图像按边界分割出很多块),同时又保留了颜色特征,克服了上述纹理特征与颜色特征融合时的缺陷,使纹理特征和颜色特征更好的融合在一起
为了达到上述目的,本发明采用了以下技术方案:
步骤1:初始化参数,取视频流中的前m帧图像作为训练集,m可取3-6:
步骤1.1:选择目标所在区域,对该区域进行超像素分割:
步骤1.1.1:在目标区域中随机选择k个点作为超像素的中心点,也叫超像素的聚类中心CK
CK=[lk,ak,bk,xk,yk]T
在每个大小规则的方框S中取样像素,lk、ak、bk是CIELAB颜色空间中的参数,此颜色空间最为接近人类的视觉,它的lk分量即亮度。可以修改ak(红绿值)和bk(蓝黄值)分量的输出色阶来做精确的颜色平衡,与RGB空间相比在精确度更高。xk、yk表示点的坐标。S可以取其中N为超像素的个数。k的值可以由用户根据跟踪的效果自行选择,一般为300-500之间。
步骤1.1.2:将CK移动到3×3的相邻像素中梯度值最低的位置,以防选择的聚类中心点落在图像的边缘,影响聚类效果;
步骤1.1.3:对图像中的每一个像素设置标记label(i)为-1,与相近的聚类中心的欧式距离d(i)为无穷大,为了提高运算效率,节省时间,对于围绕在每一个聚类中心CK的2S×2S区域内的像素i,重复1.1.4-1.1.5步骤:
步骤1.1.4:计算像素i与聚类中心CK的欧式距离D;
步骤1.1.5:若D<d(i)置d(i)为D,label(i)为k;表示每一个像素对自身周围的聚类中心求欧式距离,取欧式距离最小的那个聚类中心为自己的类别;
步骤1.1.6:重复1.1.2,选择新的聚类中心并计算残留误差E,残留误差表示为同一个超像素的聚类中心,经过两次迭代后的欧氏距离,E小于一定的阈值,即提取完全部超像素。取所有超像素残留误差的最大值,这个最大值小于一定阈值即可停止。
步骤1.2:提取超像素特征作为训练集:
步骤1.2.1:每一个超像素可以表示为:
sp(t,r)表示在t帧时第r个超像素,可用ft r表示。
步骤1.2.2:取m张图片构成训练集,m一般可取3-5。用一个特征向量F={ft r|t=1,...,m,r=1,...,Nt},来表示一个这个训练集所有的超像素;在特征空间中,设每个超像素的聚类中心为fc(i),半径为rc(i),则有{ft r|ft r∈C(k)}。
步骤1.2.3:假设训练集中的每一个聚类中心对应一个图像区域S(i),可以设S+(i)为第i个超像素在目标区域内的大小,S-(i)为第i个超像素在目标区域外的大小,此大小即为像素的数量。若S+(i)/S-(i)的值越大,则说明该超像素属于目标的可能性就越大。计算通过以下公式即可得到一个超像素的聚类中心处于背景或目标的可能性大小:
C i c = S + ( i ) - S - ( i ) S + ( i ) + S - ( i ) , ∀ i = 1 , . . . , n
聚类中心fc(i)、半径rc(i)和每一个超像素的像素成员{ft r|ft r∈C(k)}构成基于超像素的外观模型,即目标的表示方法。
步骤2:由贝叶斯理论可得知,由于两帧图像之间相互独立,设Xt为t时刻的状态,Y1:t为从第一帧到最后一帧的状态,有
p(Xt|Y1:t)=αp(Yt|Xt)∫p(Xt|Xt-1)p(Xt-t|Y1:t-1)dXt-1
其中表示t时刻目标的位置,表示t时刻目标的尺度。根据贝叶斯跟踪公式可知,关键是要得到观察模型(即当前帧目标的概率p(Xt|Yt))和动作模型(即上一帧目标的概率p(Xt|Xt-1)),从m+1帧开始直到最后一帧做如下步骤:
步骤2.1:找到上一帧的目标区域,重复上述步骤,采用超像素进行分割,提取超像素特征;
步骤2.2:计算超像素的置信图。置信图是由每个超像素的置信值构成。超像素的置信值表示每个超像素属于目标的可能性大小,置信值越大,超像素属于目标的可能性就越大:
步骤2.2.1:每一个超像素的置信值可以由两个因素确定:1)超像素的聚类中心属于背景还是目标;2)当前超像素与训练集的特征空间中超像素的聚类中心的距离。若当前超像素是训练集的特征空间中的超像素,那么就认为它与训练集中超像素相同。换句话说,若训练集中的超像素属于背景,则当前的超像素也属于背景。若当前超像素不是训练集的特征空间的超像素,那么引入一个权重系数,表示若该超像素的聚类中心离特征空间中的聚类中心越远,则与特征空间中的超像素的归属越不同的可能性越大。超像素的置信值计算如下:
w ( r , i ) = exp ( - λ d × | | f t r - f c ( i ) | | 2 r c ( i ) ) ∀ r = 1 , . . . , N t , i = 1 , . . . , n
C r s = w ( r , i ) × C i c , ∀ r = 1 , . . . , N t
其中,w(r,i)表示权重系数,-λd是一个常数,可取2。为t帧时的第r个超像素的置信值。
步骤2.3:通过上一帧得到的置信图,取N个区域作为目标的候选区域:
步骤2.3.1:在目标区域中截取4个同样大小的窗口找到窗口内所有置信值之和最高与最低的各2个超像素样本。
步骤2.3.2:假设动作模型服从高斯分布,计算动作模型:
p(Xt|Xt-1)=N(Xt;Xt-1,ψ)
其中,ψ是一个对角线协方差矩阵,其中的元素为目标的位置和尺度的标准差。
步骤2.3.3:为了适应图像的尺度变化,为每一个超像素的置信值加入一个权重系数:
C ^ l = C l × [ S ( X t ( l ) ) / S ( X t - 1 ) ] , ∀ l = 1 , . . . , N
其中,S(Xt)表示Xt区域中,跟踪目标的区域大小。
步骤2.3.4:将所有最终的进行归一化处理。
步骤2.4:基于贝叶斯理论,可以得到当前帧目标所在区域的概率:
步骤2.4.1:计算观察模型:
p ( Y t | X t l ) = C ‾ ^ l , ∀ l = 1 , . . . , N
其中,表示每一个样本的标准化置信值。
步骤2.4.2:有了动作模型和观察模型以后,计算目标最可能存在的区域:
X ^ t = arg max p ( X t ( l ) | Y 1 : t ) ∀ l = 1 , . . . , N .
步骤2.5:更新训练集和外观模型:
步骤2.5.1:每播放U帧图像以后,将训练集中最老的一帧图像丢弃,将新的一帧加入到训练集中,U通常可为10;
步骤2.5.2:为了抵御小幅度遮挡、丢失或模糊现象,采用如下计算公式:
μ c - max ( { C l } l = 1 N ) S ( X t ( l ) ) × 2 > θ o
其中,μc是训练集中的目标区域内所有超像素置信值的平均值。公式中的分子表示当前推测出的目标区域与平均置信值之间的差别,分母表示了一个标准化的区域,值为[-1,1]。若推测出的最大置信值远比训练集中保存的置信值平均值小,则出现了严重的遮挡和丢失现象。为了防止这种情况的发生,上一帧图像得到的Xt-1,同时保留训练集中的图像不动,直到再次寻找到目标。
步骤2.5.3:解决模糊帧跟踪丢失现象:
由于目标区域是被分割成了多个超像素块,由步骤2.1可知,通过训练集即观察模型即可将背景和目标区分开来,当模糊帧出现时,通过置信图来获取目标的位置,即可稳定的对对象进行跟踪。
步骤2.6:重复步骤2.1至2.5,直到处理完所有视频序列。
本发明的有益效果在于:
(1)使用k-means聚类超像素,缩小需要计算的图像区域,减少计算量。
(2)超像素的聚类算法得到的超像素大小十分平均,且边界附着率较高。
(3)步骤2.5.3解决了在视频序列中存在模糊帧的情况下,跟踪失败的情况。
本发明采用超像素的提取方法,可以快速提取出高质量的超像素,同时本发明基于超像素特征进行跟踪,首次提出了可以对在视频中的模糊帧进行跟踪,更适用于复杂场景下精度要求较高的目标跟踪,不仅可以抵御多种复杂环境,如光照变化、目标姿态变化、尺度变化、目标遮挡等,而且当视频序列中有模糊帧时,仍然能精确跟踪。
具体实施方式
一种基于超像素的复杂场景下的目标跟踪方法,包括以下步骤:
步骤1:初始化参数,取视频流中的前m帧图像作为训练集,m取3-6:
步骤1.1:选择目标所在区域,对该区域进行超像素分割:
步骤1.1.1:在目标区域中随机选择k个点作为超像素的中心点,也叫超像素的聚类中心CK
CK=[lk,ak,bk,xk,yk]T
在每个大小规则的方框S中取样像素,lk、ak、bk是CIELAB颜色空间中的参数,此颜色空间最为接近人类的视觉,它的lk分量即亮度。可以修改ak(红绿值)和bk(蓝黄值)分量的输出色阶来做精确的颜色平衡,与RGB空间相比在精确度更高。xk、yk表示点的坐标。S可以取其中N为超像素的个数。k的值可以由用户根据跟踪的效果自行选择,一般为300-500之间。
步骤1.1.2:将CK移动到3×3的相邻像素中梯度值最低的位置,以防选择的聚类中心点落在图像的边缘,影响聚类效果;
步骤1.1.3:对图像中的每一个像素设置标记label(i)为-1,与相近的聚类中心的欧式距离d(i)为无穷大,为了提高运算效率,节省时间,对于围绕在每一个聚类中心CK的2S×2S区域内的像素i,重复1.1.4-1.1.5步骤:
步骤1.1.4:计算像素i与聚类中心CK的欧式距离D;
步骤1.1.5:若D<d(i)置d(i)为D,label(i)为k;表示每一个像素对自身周围的聚类中心求欧式距离,取欧式距离最小的那个聚类中心为自己的类别;
步骤1.1.6:重复1.1.2,选择新的聚类中心并计算残留误差E,残留误差表示为同一个超像素的聚类中心,经过两次迭代后的欧氏距离,E小于一定的阈值,即提取完全部超像素。取所有超像素残留误差的最大值,这个最大值小于一定阈值即可停止。
步骤1.2:提取超像素特征作为训练集:
步骤1.2.1:每一个超像素可以表示为:
sp(t,r)表示在t帧时第r个超像素,可用ft r表示。
步骤1.2.2:取m张图片构成训练集,m一般可取3-5。用一个特征向量F={ft r|t=1,...,m,r=1,...,Nt},来表示一个这个训练集所有的超像素;在特征空间中,设每个超像素的聚类中心为fc(i),半径为rc(i),则有{ft r|ft r∈C(k)}。
步骤1.2.3:假设训练集中的每一个聚类中心对应一个图像区域S(i),可以设S+(i)为第i个超像素在目标区域内的大小,S-(i)为第i个超像素在目标区域外的大小,此大小即为像素的数量。若S+(i)/S-(i)的值越大,则说明该超像素属于目标的可能性就越大。计算通过以下公式即可得到一个超像素的聚类中心处于背景或目标的可能性大小:
C i c = S + ( i ) - S - ( i ) S + ( i ) + S - ( i ) , ∀ i = 1 , . . . , n
聚类中心fc(i)、半径rc(i)和每一个超像素的像素成员{ft r|ft r∈C(k)}构成基于超像素的外观模型,即目标的表示方法。
步骤2:由贝叶斯理论可得知,由于两帧图像之间相互独立,设Xt为t时刻的状态,Y1:t为从第一帧到最后一帧的状态,有
p(Xt|Y1:t)=αp(Yt|Xt)∫p(Xt|Xt-1)p(Xt-t|Y1:t-1)dXt-1
其中表示t时刻目标的位置,表示t时刻目标的尺度。根据贝叶斯跟踪公式可知,关键是要得到观察模型(即当前帧目标的概率p(Xt|Yt))和动作模型(即上一帧目标的概率p(Xt|Xt-1)),从m+1帧开始直到最后一帧做如下步骤:
步骤2.1:找到上一帧的目标区域,重复上述步骤,采用超像素进行分割,提取超像素特征;
步骤2.2:计算超像素的置信图。置信图是由每个超像素的置信值构成。超像素的置信值表示每个超像素属于目标的可能性大小,置信值越大,超像素属于目标的可能性就越大:
步骤2.2.1:每一个超像素的置信值可以由两个因素确定:1)超像素的聚类中心属于背景还是目标;2)当前超像素与训练集的特征空间中超像素的聚类中心的距离。若当前超像素是训练集的特征空间中的超像素,那么就认为它与训练集中超像素相同。换句话说,若训练集中的超像素属于背景,则当前的超像素也属于背景。若当前超像素不是训练集的特征空间的超像素,那么引入一个权重系数,表示若该超像素的聚类中心离特征空间中的聚类中心越远,则与特征空间中的超像素的归属越不同的可能性越大。超像素的置信值计算如下:
w ( r , i ) = exp ( - λ d × | | f t r - f c ( i ) | | 2 r c ( i ) ) ∀ r = 1 , . . . , N t , i = 1 , . . . , n
C r s = w ( r , i ) × C i c , ∀ r = 1 , . . . , N t
其中,w(r,i)表示权重系数,-λd是一个常数,可取2。为t帧时的第r个超像素的置信值。
步骤2.3:通过上一帧得到的置信图,取N个区域作为目标的候选区域:
步骤2.3.1:在目标区域中截取4个同样大小的窗口找到窗口内所有置信值之和最高与最低的各2个超像素样本。
步骤2.3.2:假设动作模型服从高斯分布,计算动作模型:
p(Xt|Xt-1)=N(Xt;Xt-1,ψ)
其中,ψ是一个对角线协方差矩阵,其中的元素为目标的位置和尺度的标准差。
步骤2.3.3:为了适应图像的尺度变化,为每一个超像素的置信值加入一个权重系数:
C ^ l = C l × [ S ( X t ( l ) ) / S ( X t - 1 ) ] , ∀ l = 1 , . . . , N
其中,S(Xt)表示Xt区域中,跟踪目标的区域大小。
步骤2.3.4:将所有最终的进行归一化处理。
步骤2.4:基于贝叶斯理论,可以得到当前帧目标所在区域的概率:
步骤2.4.1:计算观察模型:
p ( Y t | X t l ) = C ‾ ^ l , ∀ l = 1 , . . . , N
其中,表示每一个样本的标准化置信值。
步骤2.4.2:有了动作模型和观察模型以后,计算目标最可能存在的区域:
X ^ t = arg max p ( X t ( l ) | Y 1 : t ) ∀ l = 1 , . . . , N .
步骤2.5:更新训练集和外观模型:
步骤2.5.1:每播放U帧图像以后,将训练集中最老的一帧图像丢弃,将新的一帧加入到训练集中,U通常可为10;
步骤2.5.2:为了抵御小幅度遮挡、丢失或模糊现象,采用如下计算公式:
μ c - max ( { C l } l = 1 N ) S ( X t ( l ) ) × 2 > θ o
其中,μc是训练集中的目标区域内所有超像素置信值的平均值。公式中的分子表示当前推测出的目标区域与平均置信值之间的差别,分母表示了一个标准化的区域,值为[-1,1]。若推测出的最大置信值远比训练集中保存的置信值平均值小,则出现了严重的遮挡和丢失现象。为了防止这种情况的发生,上一帧图像得到的Xt-1,同时保留训练集中的图像不动,直到再次寻找到目标。
步骤2.5.3:解决模糊帧跟踪丢失现象:
由于目标区域是被分割成了多个超像素块,由步骤2.1可知,通过训练集即观察模型即可将背景和目标区分开来,当模糊帧出现时,通过置信图来获取目标的位置,即可稳定的对对象进行跟踪。
步骤2.6:重复步骤2.1至2.5,直到处理完所有视频序列。

Claims (7)

1.一种基于超像素的复杂场景下的目标跟踪方法,包括以下步骤:
步骤1:初始化参数,取视频流中的前m帧图像作为训练集,m取3-6;
步骤1.1:选择目标所在区域,对该区域进行超像素分割;
步骤1.2:提取超像素特征作为训练集;
步骤2:由贝叶斯理论可得知,由于两帧图像之间相互独立,设Xt为t时刻的状态,Y1:t为从第一帧到最后一帧的状态,有
p(Xt|Y1:t)=αp(Yt|Xt)∫p(Xt|Xt-1)p(Xt-t|Y1:t-1)dXt-1
其中表示t时刻目标的位置,表示t时刻目标的尺度,根据贝叶斯跟踪公式可知,关键是要得到观察模型和动作模型,从m+1帧开始直到最后一帧做如下步骤:
步骤2.1:找到上一帧的目标区域,重复上述步骤,采用超像素进行分割,提取超像素特征;
步骤2.2:计算超像素的置信图;
步骤2.3:通过上一帧得到的置信图,取N个区域作为目标的候选区域;
步骤2.4:基于贝叶斯理论,可以得到当前帧目标所在区域的概率;
步骤2.5:更新训练集和外观模型;
步骤2.6:重复步骤2.1至2.5,直到处理完所有视频序列。
2.根据权利要求1所述的一种基于超像素的复杂场景下的目标跟踪方法,其特征在于:所述步骤1.1选择目标所在区域,对该区域进行超像素分割的方法为:
步骤1.1.1:在目标区域中随机选择k个点作为超像素的中心点,也叫超像素的聚类中心CK
CK=[lk,ak,bk,xk,yk]T
在每个大小规则的方框S中取样像素,lk、ak、bk是CIELAB颜色空间中的参数,此颜色空间最为接近人类的视觉,它的lk分量即亮度,xkyk表示点的坐标,S取其中N为超像素的个数,k的值由用户根据跟踪的效果自行选择,为300-500之间;
步骤1.1.2:将CK移动到3×3的相邻像素中梯度值最低的位置;
步骤1.1.3:对图像中的每一个像素设置标记label(i)为-1,与相近的聚类中心的欧式距离d(i)为无穷大,对于围绕在每一个聚类中心CK的2S×2S区域内的像素i,重复1.1.4-1.1.5步骤:
步骤1.1.4:计算像素i与聚类中心CK的欧式距离D;
步骤1.1.5:若D<d(i)置d(i)为D,label(i)为k;表示每一个像素对自身周围的聚类中心求欧式距离,取欧式距离最小的那个聚类中心为自己的类别;
步骤1.1.6:重复1.1.2,选择新的聚类中心并计算残留误差E,残留误差表示为同一个超像素的聚类中心,经过两次迭代后的欧氏距离,E小于一定的阈值,即提取完全部超像素。
3.根据权利要求1所述的一种基于超像素的复杂场景下的目标跟踪方法,其特征在于:所述步骤1.2提取超像素特征作为训练集的方法为:
步骤1.2.1:每一个超像素表示为:
sp(t,r)表示在t帧时第r个超像素,用表示;
步骤1.2.2:取m张图片构成训练集,m取3-5;用一个特征向量F={ft r|t=1,...,m,r=1,...,Nt},来表示一个这个训练集所有的超像素;在特征空间中,设每个超像素的聚类中心为fc(i),半径为rc(i),则有{ft r|ft r∈C(k)}。
步骤1.2.3:假设训练集中的每一个聚类中心对应一个图像区域S(i),设S+(i)为第i个超像素在目标区域内的大小,S-(i)为第i个超像素在目标区域外的大小,此大小即为像素的数量;若S+(i)/S-(i)的值越大,则说明该超像素属于目标的可能性就越大;计算通过以下公式即可得到一个超像素的聚类中心处于背景或目标的可能性大小:
C i c = S + ( i ) - S - ( i ) S + ( i ) + S - ( i ) , ∀ i = 1 , . . . , n
聚类中心fc(i)、半径rc(i)和每一个超像素的像素成员{ft r|ft r∈C(k)}构成基于超像素的外观模型,即目标的表示方法。
4.根据权利要求1所述的一种基于超像素的复杂场景下的目标跟踪方法,其特征在于:
所述步骤2.2:计算超像素的置信图的方法为:
置信图是由每个超像素的置信值构成,超像素的置信值表示每个超像素属于目标的可能性大小,置信值越大,超像素属于目标的可能性就越大;
步骤2.2.1:每一个超像素的置信值可以由两个因素确定:1)超像素的聚类中心属于背景还是目标;2)当前超像素与训练集的特征空间中超像素的聚类中心的距离,若当前超像素是训练集的特征空间中的超像素,那么就认为它与训练集中超像素相同,换句话说,若训练集中的超像素属于背景,则当前的超像素也属于背景。若当前超像素不是训练集的特征空间的超像素,那么引入一个权重系数,表示若该超像素的聚类中心离特征空间中的聚类中心越远,则与特征空间中的超像素的归属越不同的可能性越大,超像素的置信值计算如下:
w ( r , i ) = exp ( - λ d × | | f t r - f c ( i ) | | 2 r c ( i ) ) ∀ r = 1 , . . . , N t , i = 1 , . . . , n
C r s = w ( r , i ) × C i c , ∀ r = 1 , . . . , N t
其中,w(r,i)表示权重系数,-λd是一个常数,取2,为t帧时的第r个超像素的置信值。
5.根据权利要求1所述的一种基于超像素的复杂场景下的目标跟踪方法,其特征在于:
所述步骤2.3通过上一帧得到的置信图,取N个区域作为目标的候选区域的方法为:
步骤2.3.1:在目标区域中截取4个同样大小的窗口找到窗口内所有置信值之和最高与最低的各2个超像素样本;
步骤2.3.2:假设动作模型服从高斯分布,计算动作模型:
p(Xt|Xt-1)=N(Xt;Xt-1,ψ)
其中,ψ是一个对角线协方差矩阵,其中的元素为目标的位置和尺度的标准差;
步骤2.3.3:为了适应图像的尺度变化,为每一个超像素的置信值加入一个权重系数:
C ^ l = C l × [ S ( X t ( l ) ) / S ( X t - 1 ) ] , ∀ l = 1 , . . . , N
其中,S(Xt)表示Xt区域中,跟踪目标的区域大小;
步骤2.3.4:将所有最终的进行归一化处理。
6.根据权利要求1所述的一种基于超像素的复杂场景下的目标跟踪方法,其特征在于:所述步骤2.4基于贝叶斯理论,得到当前帧目标所在区域的概率的方法为:
步骤2.4.1:计算观察模型:
p ( Y t | X t l ) = C ‾ ^ l , ∀ l = 1 , . . . , N
其中,表示每一个样本的标准化置信值;
步骤2.4.2:有了动作模型和观察模型以后,计算目标最可能存在的区域:
X ^ t = arg max p ( X t ( l ) | Y 1 : t ) ∀ l = 1 , . . . , N .
7.根据权利要求1所述的一种基于超像素的复杂场景下的目标跟踪方法,其特征在于:所述步骤2.5更新训练集和外观模型的方法为:
步骤2.5.1:每播放U帧图像以后,将训练集中最老的一帧图像丢弃,将新的一帧加入到训练集中,U为10;
步骤2.5.2:为了抵御小幅度遮挡、丢失或模糊现象,采用如下计算公式:
μ c - max ( { C l } l = 1 N ) S ( X t ( l ) ) × 2 > θ o
其中,μc是训练集中的目标区域内所有超像素置信值的平均值,公式中的分子表示当前推测出的目标区域与平均置信值之间的差别,分母表示了一个标准化的区域,值为[-1,1];若推测出的最大置信值远比训练集中保存的置信值平均值小,则出现了严重的遮挡和丢失现象,为了防止这种情况的发生,上一帧图像得到的Xt-1,同时保留训练集中的图像不动,直到再次寻找到目标。
步骤2.5.3:解决模糊帧跟踪丢失现象:
由于目标区域是被分割成了多个超像素块,由步骤2.1可知,通过训练集即观察模型即可将背景和目标区分开来,当模糊帧出现时,通过置信图来获取目标的位置,即可稳定的对对象进行跟踪。
CN201410499730.0A 2014-09-25 2014-09-25 一种基于超像素的复杂场景下的目标跟踪方法 Expired - Fee Related CN104298968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410499730.0A CN104298968B (zh) 2014-09-25 2014-09-25 一种基于超像素的复杂场景下的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410499730.0A CN104298968B (zh) 2014-09-25 2014-09-25 一种基于超像素的复杂场景下的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN104298968A true CN104298968A (zh) 2015-01-21
CN104298968B CN104298968B (zh) 2017-10-31

Family

ID=52318689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410499730.0A Expired - Fee Related CN104298968B (zh) 2014-09-25 2014-09-25 一种基于超像素的复杂场景下的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN104298968B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654505A (zh) * 2015-12-18 2016-06-08 中山大学 一种基于超像素的协同跟踪算法和系统
CN106127807A (zh) * 2016-06-21 2016-11-16 中国石油大学(华东) 一种实时的视频多类多目标跟踪方法
CN106327516A (zh) * 2015-06-29 2017-01-11 北京雷动云合智能技术有限公司 一种基于外观模型的学习型视觉追踪方法
CN106340020A (zh) * 2015-07-10 2017-01-18 阿里巴巴集团控股有限公司 超像素分割方法和装置
CN106570486A (zh) * 2016-11-09 2017-04-19 华南理工大学 基于特征融合和贝叶斯分类的核相关滤波目标跟踪方法
CN106991676A (zh) * 2017-04-06 2017-07-28 哈尔滨理工大学 一种局部相关的超像素融合方法
CN106997597A (zh) * 2017-03-22 2017-08-01 南京大学 一种基于有监督显著性检测的目标跟踪方法
CN107230219A (zh) * 2017-05-04 2017-10-03 复旦大学 一种单目机器人上的目标人发现与跟随方法
CN107301651A (zh) * 2016-04-13 2017-10-27 索尼公司 对象跟踪装置和方法
CN109711445A (zh) * 2018-12-18 2019-05-03 绍兴文理学院 目标跟踪分类器在线训练样本的超像素中智相似加权方法
CN112308156A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于对抗学习的两阶段图像变化检测方法
CN113362341A (zh) * 2021-06-10 2021-09-07 中国人民解放军火箭军工程大学 基于超像素结构约束的空地红外目标跟踪数据集标注方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070098239A1 (en) * 2005-08-31 2007-05-03 Siemens Corporate Research Inc Method for characterizing shape, appearance and motion of an object that is being tracked
US20090092282A1 (en) * 2007-10-03 2009-04-09 Shmuel Avidan System and Method for Tracking Objects with a Synthetic Aperture
CN103413323A (zh) * 2013-07-25 2013-11-27 华南农业大学 基于部件级表观模型的物体跟踪方法
CN103413120A (zh) * 2013-07-25 2013-11-27 华南农业大学 基于物体整体性和局部性识别的跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070098239A1 (en) * 2005-08-31 2007-05-03 Siemens Corporate Research Inc Method for characterizing shape, appearance and motion of an object that is being tracked
US20090092282A1 (en) * 2007-10-03 2009-04-09 Shmuel Avidan System and Method for Tracking Objects with a Synthetic Aperture
CN103413323A (zh) * 2013-07-25 2013-11-27 华南农业大学 基于部件级表观模型的物体跟踪方法
CN103413120A (zh) * 2013-07-25 2013-11-27 华南农业大学 基于物体整体性和局部性识别的跟踪方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327516A (zh) * 2015-06-29 2017-01-11 北京雷动云合智能技术有限公司 一种基于外观模型的学习型视觉追踪方法
CN106327516B (zh) * 2015-06-29 2018-12-18 北京雷动云合智能技术有限公司 一种基于外观模型的学习型视觉追踪方法
CN106340020A (zh) * 2015-07-10 2017-01-18 阿里巴巴集团控股有限公司 超像素分割方法和装置
CN105654505A (zh) * 2015-12-18 2016-06-08 中山大学 一种基于超像素的协同跟踪算法和系统
CN105654505B (zh) * 2015-12-18 2018-06-26 中山大学 一种基于超像素的协同跟踪算法和系统
CN107301651A (zh) * 2016-04-13 2017-10-27 索尼公司 对象跟踪装置和方法
CN106127807A (zh) * 2016-06-21 2016-11-16 中国石油大学(华东) 一种实时的视频多类多目标跟踪方法
CN106570486A (zh) * 2016-11-09 2017-04-19 华南理工大学 基于特征融合和贝叶斯分类的核相关滤波目标跟踪方法
CN106570486B (zh) * 2016-11-09 2019-05-14 华南理工大学 基于特征融合和贝叶斯分类的核相关滤波目标跟踪方法
CN106997597A (zh) * 2017-03-22 2017-08-01 南京大学 一种基于有监督显著性检测的目标跟踪方法
CN106997597B (zh) * 2017-03-22 2019-06-25 南京大学 一种基于有监督显著性检测的目标跟踪方法
CN106991676A (zh) * 2017-04-06 2017-07-28 哈尔滨理工大学 一种局部相关的超像素融合方法
CN106991676B (zh) * 2017-04-06 2019-09-24 哈尔滨理工大学 一种局部相关的超像素融合方法
CN107230219A (zh) * 2017-05-04 2017-10-03 复旦大学 一种单目机器人上的目标人发现与跟随方法
CN109711445A (zh) * 2018-12-18 2019-05-03 绍兴文理学院 目标跟踪分类器在线训练样本的超像素中智相似加权方法
CN112308156A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于对抗学习的两阶段图像变化检测方法
CN112308156B (zh) * 2020-11-05 2022-05-03 电子科技大学 一种基于对抗学习的两阶段图像变化检测方法
CN113362341A (zh) * 2021-06-10 2021-09-07 中国人民解放军火箭军工程大学 基于超像素结构约束的空地红外目标跟踪数据集标注方法
CN113362341B (zh) * 2021-06-10 2024-02-27 中国人民解放军火箭军工程大学 基于超像素结构约束的空地红外目标跟踪数据集标注方法

Also Published As

Publication number Publication date
CN104298968B (zh) 2017-10-31

Similar Documents

Publication Publication Date Title
CN104298968A (zh) 一种基于超像素的复杂场景下的目标跟踪方法
Wang et al. Saliency-aware geodesic video object segmentation
Baysal et al. Sentioscope: a soccer player tracking system using model field particles
CN106055091B (zh) 一种基于深度信息和校正方式的手部姿态估计方法
Ramanan et al. Tracking people by learning their appearance
Ma et al. Action recognition and localization by hierarchical space-time segments
CN103413120B (zh) 基于物体整体性和局部性识别的跟踪方法
Li et al. Model-based segmentation and recognition of dynamic gestures in continuous video streams
CN106097391A (zh) 一种基于深度神经网络的识别辅助的多目标跟踪方法
Žemgulys et al. Recognition of basketball referee signals from real-time videos
CN109285179A (zh) 一种基于多特征融合的运动目标跟踪方法
US20200226786A1 (en) Detecting pose using floating keypoint(s)
CN108182447A (zh) 一种基于深度学习的自适应粒子滤波目标跟踪方法
Sha et al. Swimmer localization from a moving camera
CN111105443A (zh) 一种基于特征关联的视频群体人物运动轨迹跟踪方法
CN104866853A (zh) 一种足球比赛视频中的多运动员的行为特征提取方法
Batool et al. Telemonitoring of daily activities based on multi-sensors data fusion
CN105261038A (zh) 基于双向光流和感知哈希的指尖跟踪方法
Ding et al. Machine learning model for feature recognition of sports competition based on improved TLD algorithm
CN106529434B (zh) 基于视觉注意力模型的鱼群个体目标跟踪方法
Pang et al. Analysis of computer vision applied in martial arts
Rituerto et al. Label propagation in videos indoors with an incremental non-parametric model update
Wang et al. Real-time tracking combined with object segmentation
Sağun et al. A novel approach for people counting and tracking from crowd video
Wang et al. Object tracking with shallow convolution feature

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171031

Termination date: 20190925