CN111445497A - 一种基于尺度上下文回归的目标追踪与跟随方法 - Google Patents

一种基于尺度上下文回归的目标追踪与跟随方法 Download PDF

Info

Publication number
CN111445497A
CN111445497A CN202010117523.XA CN202010117523A CN111445497A CN 111445497 A CN111445497 A CN 111445497A CN 202010117523 A CN202010117523 A CN 202010117523A CN 111445497 A CN111445497 A CN 111445497A
Authority
CN
China
Prior art keywords
target
regression
scale
tracking
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010117523.XA
Other languages
English (en)
Other versions
CN111445497B (zh
Inventor
周瑜
白翔
朱盈盈
宋德嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010117523.XA priority Critical patent/CN111445497B/zh
Publication of CN111445497A publication Critical patent/CN111445497A/zh
Application granted granted Critical
Publication of CN111445497B publication Critical patent/CN111445497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于尺度上下文回归的目标追踪与跟随方法,包括:通过单目摄像机采集图片,用户通过在待跟随目标上设置一个标识物体所在图像区域的矩形包围盒来初始化追踪过程;使用尺度上下文回归模型进行目标追踪,获取目标位置和尺度;使用基于局部块的追踪目标质量评估方法,判断是否发生目标丢失并及时的进行重检测;建立跟随者自身与待跟随目标的相对位置关系,同时基于此相对位置关系调整跟随者自身位姿。本发明在目标跟随过程中,增强系统判别与待跟随目标具有相似语义干扰物的能力,通过后处理使系统能够判断目标是否丢失并及时进行重检测,建立自身与目标的相对位置关系,最后调整自身位姿进行跟随。

Description

一种基于尺度上下文回归的目标追踪与跟随方法
技术领域
本发明属于计算机视觉和机器人领域,更具体地,涉及一种基于尺度上下文回归的目标追踪与跟随方法。
背景技术
一直以来,目标跟随在人机交互领域中是一个重要的任务。目标跟随要求移动机器人能在连续的视频序列中先进行快速且准确的目标追踪,建立移动机器人自身与待跟随目标的相对位置关系,同时基于此关系调整移动机器人自身位姿,最终能够跟随到待跟随目标。其子任务目标追踪在整个跟随系统中起着定位目标的关键性作用,除在目标跟随系统中的应用外还有着广泛的用途,比如交通监控系统中的车辆追踪,智能交互系统中的手势追踪等等。由于实际场景的复杂多变,例如尺度变换、快速运动和遮挡等,该项任务仍然具有很高的挑战性,与此同时它也限制了目标跟随系统的稳定性。经典目标跟随方法往往不能高效的判断是否存在与追踪目标相似语义的干扰物,也无法自主的判断目标是否丢失并在目标丢失时及时进行重检测。
常用的目标跟随方法包含:基于激光的方法,基于深度相机的方法和基于单目相机的方法。基于激光的方法需要输入激光测距数据,由于忽略了大量的目标表观信息,该类方法无法区分两个相似的物体。同时,当目标丢失时,也无法利用激光测距数据进行重检测。基于深度相机的方法由于深度相机的视场角往往比较窄,有最小距离要求,并且在室外场景下往往表现不佳,导致其应用范围有限。基于单目相机的方法最近取得了不错的结果,但是仍然有其局限性。它往往由单目相机采集图片,利用目标追踪算法定位目标,然后进行快速的后处理建立目标与移动机器人的相对位置关系,最后基于此调整机器人位姿。
直接使用传统的目标跟踪算法,往往不能高效的判断是否存在与追踪目标相似语义的干扰物。一次误判将导致整个系统的跟随对象改变,这种情况在人群密集的场景中尤为常见。与此同时,在跟随过程中若出现遮挡情况时,目标将发生丢失。在以往的目标跟随系统中,采用的后处理方式不能自主的判断目标丢失是否已发生,并在该情况下进行及时的重检测。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于尺度上下文回归的视觉目标追踪和跟随系统,其目的在于在目标跟随过程中,增强系统判别与待跟随目标具有相似语义干扰物的能力,通过后处理使系统能够判断目标是否丢失并及时进行重检测,建立移动机器人自身与目标的相对位置关系,最后调整移动机器人自身位姿进行跟随。
为了实现上述目的,本发明提供了一种基于尺度上下文回归的目标追踪与跟随方法,包括如下步骤:
(1)在机器人上安装单目摄像机,通过单目摄像机采集图片,用户在采集到的图片上,设置一个矩形包围盒B1来指定待跟随的目标物体,初始化追踪过程;
(2)使用尺度上下文回归模型进行目标追踪,获取目标位置和尺度,包含以下子步骤:
(2.1)通过在追踪过程中存储历史帧I={I1,I2,…,It},并利用每帧对应的预测目标包围盒B={B1,B2,…,Bt}作为标注信息,在线训练一个基于尺度上下文回归的分类器模型;包括:
(2.1.1)在已知历史帧I={I1,I2,…,It}和追踪目标矩形包围盒B= {B1,B2,…,Bt}的条件下,对每张图片Ii选取一个包含目标矩形包围盒Bi的搜索区域Rt,然后将Rt缩放至多种不同尺度
Figure BDA0002391954730000031
i= 1…t,t为历史帧的数量,S指尺度数目,对每种尺度的搜索区域
Figure BDA0002391954730000032
使用超像素经典算法(例如SLIC)进行超像素分割,将所有像素聚合成预设数目的超像素
Figure BDA0002391954730000033
N为超像素数目;
(2.1.2)对每种尺度的搜索区域
Figure BDA0002391954730000034
将包含在物体包围盒
Figure BDA0002391954730000035
中的超像素视作正样本
Figure BDA0002391954730000036
否则为视作负样本
Figure BDA0002391954730000037
对每一个正样本
Figure BDA0002391954730000038
遍历除自身以外的全部超像素样本,计算两者间特征距离,若低于相似度阈值λd,则投正样本数NO一票,类似地计算其与另一负样本
Figure BDA0002391954730000039
Figure BDA00023919547300000310
之间的特征距离,若低于相似度阈值λd,则投负样本数NB一票,遍历完所有样本后,计算其为负样本的概率,ρ=NB/(NO+NB);若该超像素为负样本的概率ρ大于预设的超参数λs,将其从正样本中移除,最终整个超像素样本集合被划分为正样本集合
Figure BDA00023919547300000311
和负样本集合
Figure BDA00023919547300000312
分别为每个正样本标注为1,每个负样本则标注为-1,最终尺度为s的搜索区域按照超像素顺序标注为集合Ls∈RN×1
(2.1.3)使用回归系数ws和超像素对应的特征表达
Figure BDA00023919547300000313
预测对应超像素的类别
Figure BDA00023919547300000314
将每个超像素预测类别与训练标签
Figure 1
对应计算分类损失并求和
Figure BDA00023919547300000316
添加一个正则项|ws|2以避免过拟合,并设计一个正则项权重λ来控制正则化函数,得目标函数为:
Figure BDA00023919547300000317
Figure BDA00023919547300000318
优化目标是找到一组参数使得Loss最小,通过Loss对ws求导,并根据极值点导数为0的条件,推导出:2(Fs)T(Ls- fsws)-2γws=0,Fs指代在尺度s下的所有超像素的特征矩阵,Ls指代在尺度s下的所有超像素的标签值矩阵,获得脊回归的闭式解:ws= ((Fs)TFs+γI)-1(Fs)TLs;由此构建一个基于尺度上下文回归的模型。
(2.2)在待追踪的图片It+1上使用(2.1)中训练的基于尺度上下文回归的模型定位目标;包括:
(2.2.1)利用Bt在待追踪的图片It+1上获得搜索区域Rt+1,根据基础目标追踪算法Staple获得目标在Rt+1上的响应图Cstaple
(2.2.2)将Rt+1被缩放至多种不同尺度
Figure BDA0002391954730000041
S指尺度数目,对每种尺度的搜索区域
Figure BDA0002391954730000042
使用超像素分割算法SLIC将所有像素聚合成预设数目的超像素
Figure BDA0002391954730000043
对于每个超像素
Figure BDA0002391954730000044
提取特征距离并利用(2.1)中训练的基于尺度上下文回归的模型对每一个超像素分配一个分数,每个超像素里的所有像素具有相同的分数:
Figure BDA0002391954730000045
其中
Figure BDA0002391954730000046
表示在尺度为s时该超像素属于目标的概率,获得目标在Rt+1上的响应图Cs;将所有尺度的响应图缩放至同样大小,通过线性加权将各个尺度的响应图融合至同一响应图:
Figure BDA0002391954730000047
Figure BDA0002391954730000048
(2.2.3)使用通过(2.2.1)得到的响应图Cstaple和通过(2.2.2)得到的响应图Csp,通过线性加权得到C,取C中的峰值位置作为目标的位置 (cx,cy),再通过DSST方法获得目标的宽高(w,h),至此完成It+1的目标追踪过程:Bt+1=(cx,cy,w,h)。
(3)使用基于局部块的追踪目标质量评估方法,判断是否发生目标丢失并及时的进行重检测;包括:
(3.1)将追踪得到的物体矩形包围盒Bt+1按照左上、右上、左下、右下均匀的分解为四块矩形局部块,判断各个局部块是否发生了遮挡;具体为:
将追踪得到的物体矩形包围盒Bt+1按照左上、右上、左下、右下均匀的分解为四块矩形局部块,记作O1,O2,O3,O4,根据基于超像素分数的响应图Csp得到每个像素对应的分数,根据每个像素(i,j)对应的分数Csp(i,j) 及预设阈值构建一个二值图Mk
Figure BDA0002391954730000049
对于每个局部块Ok,计算Mk(i,j)为0的比例,若该比例高于预设阈值
Figure BDA00023919547300000515
则认为局部块Ok发生了遮挡,k=1…4。
(3.2)若四个局部块全部是遮挡状态,则认为目标是完全遮挡;
(3.3)若目标处于完全遮挡状态,此时启动重检测过程,包括:
(3.3.1)利用历史帧I={I1,I2,…,It}和追踪目标矩形包围盒,B= {B1,B2,…,Bt},训练一个推荐框回归模型;包括:
(3.3.1.1)根据时空关系产生一组与目标包围盒Bt相关的推荐框
Figure BDA0002391954730000051
Figure BDA0002391954730000052
他们共同组成目标相关推荐框集合
Figure BDA0002391954730000053
其中Bt标记为+1,其余推荐框标记为-1;
(3.3.1.2)初始化回归系数h并作用于推荐框
Figure BDA0002391954730000054
对应的HOG特征
Figure BDA0002391954730000055
回归损失定义为
Figure BDA0002391954730000056
根据极值点处的导函数为0的条件计算出最优解,其中λ是正则化系数。
(3.3.2)在待追踪帧上从全局范围提取一组推荐框集合
Figure BDA0002391954730000057
Figure BDA0002391954730000058
利用(3.3.1)中的推荐框回归模型对每个推荐框打分:
Figure BDA0002391954730000059
Figure BDA00023919547300000510
并根据
Figure BDA00023919547300000511
排序获得最高分s,若s<θ,则停止移动,否则记录此推荐框用作下一次训练,θ为预设阈值。
(4)建立跟随者(本发明实施例中以移动机器人为例)自身与待跟随目标的相对位置关系,同时基于此相对位置关系调整跟随者自身位姿;包括:
(4.1)设置运动参考坐标系系统,以距图片顶端预设距离Hm的水平轴为X轴,以图片的中轴线为Y轴,图片坐标与运动参考坐标系的转换关系为: xm=x-W/2,ym=Hm-y,其中,(x,y)指某像素在图片坐标系中的坐标,(xm,ym)指其在运动参考坐标系中的坐标,将目标包围盒Bt+1的底边中点
Figure BDA00023919547300000512
视为运动控制点,把其图片坐标
Figure BDA00023919547300000513
转换为基于运动参考坐标系的坐标
Figure BDA00023919547300000514
(4.2)首先将XY坐标轴设定一定范围的容忍区域,基于Y轴的容忍区域称之为旋转容忍区域,其与It+1具有相同的高度,宽度为2τc,整个区域以Y轴为垂直中轴线,基于X轴的容忍区域称之为转换容忍区域,其与It+1具有相同的宽度,高度为2τz,整个区域以X轴为水平中轴线;
(4.3)基于运动控制点坐标与容忍范围,计算角速度与线性速度;
基于
Figure BDA0002391954730000061
的横坐标,角速度定义为:
Figure BDA0002391954730000062
其中
Figure BDA0002391954730000063
是基础的角速度,ξ指一种从距离差到角速度变换的变换系数,若
Figure BDA0002391954730000064
为正则意味着机器人应该向右调整视角,否则应该向左调整视角;
基于
Figure BDA0002391954730000065
的纵坐标,线性速度定义为:
Figure BDA0002391954730000066
其中vb指基础线性速度,若vt+1为正值,表明机器人需要向目标前进,反之表明机器人距离目标过近,需要后退来保持合理间距。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)准确度高:该发明可以通过保护目标边缘提高对虚警区域的判别力,通过超像素的方式进行目标表示,增强模型的准确性。
(2)通用性强:本发明可以在追踪失败时启动重检测并继续追踪,适用于多种场景多种目标的追踪,而不针对某一类特定物体进行专门设计。
附图说明
图1是本发明提供的基于尺度上下文回归的目标追踪与跟随方法的流程示意图;
图2是利用本发明方法在自然场景中的跟踪效果图;
图3是利用本发明方法在自然场景中的跟踪效果图;
图4是利用本发明方法在自然场景中的跟踪效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
首先对本发明中所使用的专业术语或相关技术进行解释或说明:
HOG特征(Histogram of Oriented Gradient):方向梯度直方图特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。
Staple:Staple是一种基于多种特征融合的目标追踪算法。HOG特征对形变和运动模糊比较敏感,但是对颜色变化能够达到很好的跟踪效果。颜色特征对颜色比较敏感,但是对形变和运动模糊能够有很好的跟踪效果。因此两种特征可以通过融合的方式互补,达到提高追踪稳定性的作用。
DSST:DSST(Discriminatiive Scale Space Tracker)提出了一种快速的尺度空间跟踪方法。通过设置多种尺度因子,使用相关滤波去估计目标在图片中的尺度,最终选择响应值最大的尺度因子,从而实现对目标尺度的估计。
岭回归(英文名:ridge regression,Tikhonov regularization):是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
如图1所示,本发明设计了一种基于尺度上下文回归的目标追踪与跟随方法,包括以下步骤:
(1)通过单目摄像机采集图片I1,用户通过在待跟随目标上设置一个实例级别的物体包围盒B1来初始化追踪过程,待跟随目标可以为任意种类。物体包围盒为目标的最小外接矩形。
本步骤中,首先准备硬件平台,并为机器人指定待跟随的目标,具体地,准备一个低功耗的智能机器人(TurtleBot2移动机器人平台),用户可以在一台平板电脑上方便的控制其行为。在距地预设距离(例如220mm)的位置,该机器人平台上挂载一个单目摄像机。
(2)使用尺度上下文回归模型进行目标追踪,获取目标位置和尺度,包含以下子步骤:
(2.1)通过在追踪过程中存储历史帧I={I1,I2,…,It},并利用每帧对应的预测目标包围盒B={B1,B2,…,Bt}作为标注信息,在线训练一个基于尺度上下文回归的分类器,具体步骤如下:
(2.1.1)在已知历史帧I={I1,I2,…,It}和追踪目标矩形包围盒, B={B1,B2,…,Bt},的条件下,t为历史帧的数量,对于每张图片Ii,选取一个包含目标矩形包围盒Bi的搜索区域Rt。然后Rt被缩放至多种不同尺度
Figure BDA0002391954730000081
对应包围盒则为
Figure BDA0002391954730000082
S指尺度数目。对每种尺度的搜索区域
Figure BDA0002391954730000083
使用超像素经典算法(Simple Linear Iterative Clustering,SLIC)进行超像素分割,将所有像素聚合成一定数目的超像素
Figure BDA0002391954730000084
本发明实施例中,考虑到计算负担和目标跟随系统的运行效率,我们对于超像素数目N设置一个合适的上限。
(2.1.2)对于每种尺度的搜索区域
Figure BDA0002391954730000085
将包含在物体包围盒
Figure BDA0002391954730000086
中的超像素视作正样本
Figure BDA0002391954730000087
否则为视作负样本
Figure BDA0002391954730000088
考虑到超像素正样本中可能存在虚警超像素,例如背景等,因此将采取一种简单有效的方法去除虚警超像素。对每一个正样本
Figure BDA0002391954730000089
遍历除自身以外的全部超像素样本,计算两者特征距离。例如计算与另一正样本
Figure BDA0002391954730000091
之间的HOG特征距离
Figure BDA0002391954730000092
其中f函数表示HOG特征的提取过程,若低于相似度阈值λd,则投正样本数 NO一票。类似的,计算其与另一负样本
Figure BDA0002391954730000093
之间的 HOG特征距离
Figure BDA0002391954730000094
若低于相似度阈值λd,则投负样本数NB一票。遍历完所有样本后,计算其为负样本的概率
ρ=NB/(NO+NB)
若该超像素为负样本的概率ρ大于预设的超参数λs,将其从正样本中移除。最终,整个超像素样本集合被划分为正样本集合
Figure BDA0002391954730000095
和负样本集合
Figure BDA0002391954730000096
分别为每个正样本标注为1,每个负样本则标注为-1,最终尺度为 s的搜索区域按照超像素顺序标注为集合Ls∈RN×1
(2.1.3)使用回归系数ws和超像素对应的特征表达
Figure BDA0002391954730000097
预测对应超像素的类别
Figure BDA0002391954730000098
将每个超像素预测类别与训练标签
Figure BDA0002391954730000099
对应计算分类损失并求和
Figure BDA00023919547300000910
为了避免过拟合,我们为此损失添加一个正则项|ws|2,并设计一个正则项权重λ来控制正则函数。最终目标函数可以构造为:
Figure BDA00023919547300000911
优化目标是找到一组参数使得Loss最小。通过Loss对ws求导,并根据极值点导数为0的条件,可以推导出:
2(Fs)T(Ls-fsws)-2γws=0
这里Fs指代在尺度s下的所有超像素的特征矩阵,Ls指代在尺度s下的所有超像素的标签值矩阵。因此,我们可以获得岭回归的闭式解:
ws=((Fs)TFs+γI)-1(Fs)TLs
由此,我们构建了一个基于尺度上下文回归的模型。
(2.2)在待追踪的图片It+1上使用(2.1)中训练的基于尺度上下文回归的模型定位目标,具体步骤如下:
(2.2.1)利用Bt在待追踪的图片It+1上获得搜索区域Rt+1,根据基础目标追踪算法Staple获得目标在Rt+1上的响应图Cstaple
(2.2.2)然后Rt+1被缩放至多种不同尺度
Figure BDA0002391954730000101
S指尺度数目。对每种尺度的搜索区域
Figure BDA0002391954730000102
使用超像素分割算法 SLIC,将所有像素聚合成一定数目的超像素
Figure BDA0002391954730000103
对于每个超像素
Figure BDA0002391954730000104
我们提取HOG特征
Figure BDA0002391954730000105
然后我们利用(2.1)中训练的基于尺度上下文回归的模型对每一个超像素分配一个分数,每个超像素里的所有像素具有相同的分数:
Figure BDA0002391954730000106
这里
Figure BDA0002391954730000107
表示在尺度为s时该超像素属于目标的概率,将全部超像素还原回原图即可获得响应图Cs。将所有尺度的响应图缩放至同样大小,通过线性加权将各个尺度的响应图融合至同一响应图:
Figure BDA0002391954730000108
(2.2.3)使用通过(2.2.1)得到的响应图Cstaple和通过(2.2.2)得到的响应图Csp,通过线性加权得到C。取C中的峰值位置作为目标的位置(cx,cy),再通过DSST方法获得目标的宽高(w,h),至此完成It+1的目标追踪过程:
Bt+1=(cx,cy,w,h)。
(3)使用基于局部块的追踪目标质量评估方法,判断是否发生目标丢失并及时的进行重检测,流程包括:
(3.1)将追踪得到的物体矩形包围盒Bt+1按照左上、右上、左下、右下均匀的分解为四块矩形局部块,记作O1,O2,O3,O4,判断每个局部块是否发生遮挡。
具体地,根据基于超像素分数的响应图Csp得到每个像素对应的分数。根据每个像素(i,j)对应的分数Csp(i,j)及预设阈值构建一个二值图Mk
Figure BDA0002391954730000111
对于每个局部块Ok,计算Mk(i,j)为0的比例,若该比例高于预设阈值
Figure BDA00023919547300001112
则认为局部块Ok发生了遮挡,k=1…4。
(3.2)若所有局部块未发生遮挡,目标被认为处于正常状态。若至少一个局部块且至多三个局部块存在遮挡,则认为目标是局部遮挡。若四个局部块全部是遮挡状态,则认为目标是完全遮挡。
(3.3)若目标处于完全遮挡状态,此时启动重检测过程,包括:
(3.3.1)利用历史帧I={I1,I2,…,It}和追踪目标矩形包围盒,B= {B1,B2,…,Bt},的训练一个推荐框回归模型,步骤如下:
(3.3.1.1)根据时空关系产生一组与目标包围盒Bt相关的推荐框
Figure BDA0002391954730000112
Figure BDA0002391954730000113
他们共同组成目标相关推荐框集合
Figure BDA0002391954730000114
其中Bt标记为+1,其余推荐框标记为-1。
(3.3.1.2)初始化回归系数h并作用于推荐框
Figure BDA0002391954730000115
对应的HOG特征
Figure BDA0002391954730000116
回归损失可以定义为:
Figure BDA0002391954730000117
其中,λ是正则化系数,i指推荐框对应的缩放尺度。类似(2.1.3),我们可以根据极值点处的导函数为0的条件计算出最优解。
(3.3.2)在待追踪帧上从全局范围提取一组推荐框集合
Figure BDA0002391954730000118
Figure BDA0002391954730000119
利用(3.3.1)中的推荐框回归模型对每个推荐框打分:
Figure BDA00023919547300001110
并根据
Figure BDA00023919547300001111
排序获得最高分s。若s<θ,这意味着机器人丢失目标,停止移动,否则说明此推荐框具有高置信度,并记录此推荐框用作下一次训练。根据经验,我们设置θ为0.5。
(4)建立跟随者自身与待跟随目标的相对位置关系,同时基于此关系调整自身位姿,具体流程如下:
(4.1)设置运动参考坐标系系统,以距图片顶端一固定距离Hm的水平轴为X轴,以图片的中轴线为Y轴。图片坐标与运动参考坐标系的转换关系为:
xm=x-W/2
ym=Hm-y
其中,(x,y)指某像素在图片坐标系中的坐标,(xm,ym)指其在运动参考坐标系中的坐标。与此同时,将目标包围盒Bt+1的底边中点
Figure BDA0002391954730000121
视为运动控制点。我们把其图片坐标
Figure BDA0002391954730000122
转换为基于运动参考坐标系的坐标
Figure BDA0002391954730000123
(4.2)为了避免机器人的剧烈摇晃,我们不能将运动控制点基于运动参考坐标系的坐标
Figure BDA0002391954730000124
直接向(0,0)移动。我们首先将XY坐标轴设定一定范围的容忍区域。基于Y轴的容忍区域称之为旋转容忍区域,其与It+1具有相同的高度,宽度为2τc,整个区域以Y轴为垂直中轴线。基于X轴的容忍区域称之为转换容忍区域,其与It+1具有相同的宽度,高度为2τz,整个区域以X轴为水平中轴线。
(4.3)基于运动控制点坐标与容忍范围,计算角速度与线性速度。
基于
Figure BDA0002391954730000125
的横坐标,角速度定义为:
Figure BDA0002391954730000126
其中
Figure BDA0002391954730000127
是基础的角速度,ξ指一种从距离差到角速度变换的变换系数。若
Figure BDA0002391954730000128
为正则意味着机器人应该向右调整视角,否则应该向左调整视角。
基于
Figure BDA0002391954730000129
的纵坐标,线性速度定义为:
Figure BDA0002391954730000131
其中vb指基础线性速度。若vt+1为正值,表明机器人需要向目标前进,反之表明机器人距离目标过近,需要后退来保持合理间距。
图2至图4是利用本发明方法在自然场景中的跟踪效果图。通过实验证明,本发明方法具有很好的目标追踪与跟随效果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于尺度上下文回归的目标追踪与跟随方法,其特征在于,包括如下步骤:
(1)通过单目摄像机采集图片,用户通过在待跟随目标上设置一个标识物体所在图像区域的矩形包围盒来初始化追踪过程;
(2)使用尺度上下文回归模型进行目标追踪,获取目标位置和尺度,包含以下子步骤:
(2.1)通过在追踪过程中存储历史帧,并利用每帧对应的预测目标包围盒作为标注信息,在线训练一个基于尺度上下文回归的分类器模型;
(2.2)在待追踪的图片上使用(2.1)中训练的基于尺度上下文回归的模型定位目标;
(3)使用基于局部块的追踪目标质量评估方法,判断是否发生目标丢失并及时的进行重检测;
(4)建立跟随者自身与待跟随目标的相对位置关系,同时基于此相对位置关系调整跟随者自身位姿。
2.如权利要求1所述的基于尺度上下文回归的目标追踪与跟随方法,其特征在于,所述步骤(2.1)包括:
(2.1.1)在已知历史帧I={I1,I2,…,It}和追踪目标矩形包围盒B={B1,B2,…,Bt}的条件下,对每张图片Ii选取一个包含目标矩形包围盒Bi的搜索区域Rt,然后将Rt缩放至多种不同尺度
Figure FDA0002391954720000011
Figure FDA0002391954720000012
t为历史帧的数量,S指尺度数目,对每种尺度的搜索区域
Figure FDA0002391954720000013
使用超像素经典算法进行超像素分割,将所有像素聚合成预设数目的超像素
Figure FDA0002391954720000014
N为超像素数目;
(2.1.2)对每种尺度的搜索区域
Figure FDA0002391954720000015
将包含在物体包围盒
Figure FDA0002391954720000016
中的超像素视作正样本
Figure FDA0002391954720000017
否则为视作负样本
Figure FDA0002391954720000018
对每一个正样本
Figure FDA0002391954720000019
遍历除自身以外的全部超像素样本,计算两者间特征距离,若低于相似度阈值λd,则投正样本数NO一票,类似地计算其与另一负样本
Figure FDA0002391954720000021
Figure FDA0002391954720000022
之间的特征距离,若低于相似度阈值λd,则投负样本数NB一票,遍历完所有样本后,计算其为负样本的概率,ρ=NB/(NO+NB);若该超像素为负样本的概率ρ大于预设的超参数λs,将其从正样本中移除,最终整个超像素样本集合被划分为正样本集合
Figure FDA0002391954720000023
和负样本集合
Figure FDA0002391954720000024
分别为每个正样本标注为1,每个负样本则标注为-1,最终尺度为s的搜索区域按照超像素顺序标注为集合Ls∈RN×1
(2.1.3)使用回归系数ws和超像素对应的特征表达
Figure FDA0002391954720000025
预测对应超像素的类别
Figure FDA0002391954720000026
将每个超像素预测类别与训练标签
Figure FDA0002391954720000027
对应计算分类损失并求和
Figure FDA0002391954720000028
添加一个正则项|ws|2以避免过拟合,并设计一个正则项权重λ来控制正则化函数,得目标函数为:
Figure FDA0002391954720000029
Figure FDA00023919547200000210
优化目标是找到一组参数使得Loss最小,通过Loss对ws求导,并根据极值点导数为0的条件,推导出:2(Fs)T(Ls-fsws)-2γws=0,Fs指代在尺度s下的所有超像素的特征矩阵,Ls指代在尺度s下的所有超像素的标签值矩阵,获得脊回归的闭式解:ws=((Fs)TFs+γI)-1(Fs)TLs;由此构建一个基于尺度上下文回归的模型。
3.如权利要求1或2所述的基于尺度上下文回归的目标追踪与跟随方法,其特征在于,所述步骤(2.2)包括:
(2.2.1)利用Bt在待追踪的图片It+1上获得搜索区域Rt+1,根据基础目标追踪算法Staple获得目标在Rt+1上的响应图Cstaple
(2.2.2)将Rt+1被缩放至多种不同尺度
Figure FDA00023919547200000211
S指尺度数目,对每种尺度的搜索区域
Figure FDA00023919547200000212
使用超像素分割算法SLIC将所有像素聚合成预设数目的超像素
Figure FDA00023919547200000213
对于每个超像素
Figure FDA00023919547200000214
提取特征距离并利用(2.1)中训练的基于尺度上下文回归的模型对每一个超像素分配一个分数,每个超像素里的所有像素具有相同的分数:
Figure FDA0002391954720000031
其中
Figure FDA0002391954720000032
表示在尺度为s时该超像素属于目标的概率,获得目标在Rt+1上的响应图Cs;将所有尺度的响应图缩放至同样大小,通过线性加权将各个尺度的响应图融合至同一响应图:
Figure FDA0002391954720000033
Figure FDA0002391954720000034
(2.2.3)使用通过(2.2.1)得到的响应图Cstaple和通过(2.2.2)得到的响应图Csp,通过线性加权得到C,取C中的峰值位置作为目标的位置(cx,cy),再通过DSST方法获得目标的宽高(w,h),至此完成It+1的目标追踪过程:Bt+1=(cx,cy,w,h)。
4.如权利要求1或2所述的基于尺度上下文回归的目标追踪与跟随方法,其特征在于,所述步骤(3)包括:
(3.1)将追踪得到的物体矩形包围盒Bt+1按照左上、右上、左下、右下均匀的分解为四块矩形局部块,判断各个局部块是否发生了遮挡;
(3.2)若四个局部块全部是遮挡状态,则认为目标是完全遮挡;
(3.3)若目标处于完全遮挡状态,此时启动重检测过程。
5.如权利要求4所述的基于尺度上下文回归的目标追踪与跟随方法,其特征在于,所述步骤(3.1)具体为:
将追踪得到的物体矩形包围盒Bt+1按照左上、右上、左下、右下均匀的分解为四块矩形局部块,记作O1,O2,O3,O4,根据基于超像素分数的响应图Csp得到每个像素对应的分数,根据每个像素(i,j)对应的分数Csp(i,j)及预设阈值构建一个二值图Mk
Figure FDA0002391954720000035
对于每个局部块Ok,计算Mk(i,j)为0的比例,若该比例高于预设阈值
Figure FDA0002391954720000036
则认为局部块Ok发生了遮挡,k=1…4。
6.如权利要求4所述的基于尺度上下文回归的目标追踪与跟随方法,其特征在于,所述步骤(3.3)包括:
(3.3.1)利用历史帧I={I1,I2,…,It}和追踪目标矩形包围盒B={B1,B2,…,Bt}训练一个推荐框回归模型;
(3.3.2)在待追踪帧上从全局范围提取一组推荐框集合
Figure FDA0002391954720000041
Figure FDA0002391954720000042
利用(3.3.1)中的推荐框回归模型对每个推荐框打分:
Figure FDA0002391954720000043
Figure FDA0002391954720000044
并根据
Figure FDA0002391954720000045
排序获得最高分s,若s<θ,则停止移动,否则记录此推荐框用作下一次训练,θ为预设阈值。
7.如权利要求6所述的基于尺度上下文回归的目标追踪与跟随方法,其特征在于,所述步骤(3.3.1)包括:
(3.3.1.1)根据时空关系产生一组与目标包围盒Bt相关的推荐框
Figure FDA0002391954720000046
Figure FDA0002391954720000047
他们共同组成目标相关推荐框集合
Figure FDA0002391954720000048
其中Bt标记为+1,其余推荐框标记为-1;
(3.3.1.2)初始化回归系数h并作用于推荐框
Figure FDA0002391954720000049
对应的HOG特征
Figure FDA00023919547200000410
回归损失定义为
Figure FDA00023919547200000411
根据极值点处的导函数为0的条件计算出最优解,其中λ是正则化系数,i指推荐框对应的缩放尺度。
8.如权利要求1或2所述的基于尺度上下文回归的目标追踪与跟随方法,其特征在于,所述步骤(4)包括:
(4.1)设置运动参考坐标系系统,以距图片顶端预设距离Hm的水平轴为X轴,以图片的中轴线为Y轴,图片坐标与运动参考坐标系的转换关系为:xm=x-W/2,ym=Hm-y,其中,(x,y)指某像素在图片坐标系中的坐标,(xm,ym)指其在运动参考坐标系中的坐标,将目标包围盒Bt+1的底边中点
Figure FDA00023919547200000412
视为运动控制点,把其图片坐标
Figure FDA00023919547200000413
转换为基于运动参考坐标系的坐标
Figure FDA00023919547200000414
(4.2)首先将XY坐标轴设定一定范围的容忍区域,基于Y轴的容忍区域称之为旋转容忍区域,其与It+1具有相同的高度,宽度为2τc,整个区域以Y轴为垂直中轴线,基于X轴的容忍区域称之为转换容忍区域,其与It+1具有相同的宽度,高度为2τz,整个区域以X轴为水平中轴线;
(4.3)基于运动控制点坐标与容忍范围,计算角速度与线性速度;
基于
Figure FDA0002391954720000051
的横坐标,角速度定义为:
Figure FDA0002391954720000052
其中
Figure FDA0002391954720000053
是基础的角速度,ξ指一种从距离差到角速度变换的变换系数,若
Figure FDA0002391954720000054
为正则意味着机器人应该向右调整视角,否则应该向左调整视角;
基于
Figure FDA0002391954720000055
的纵坐标,线性速度定义为:
Figure FDA0002391954720000056
其中vb指基础线性速度,若vt+1为正值,表明机器人需要向目标前进,反之表明机器人距离目标过近,需要后退来保持合理间距。
9.如权利要求2所述的基于尺度上下文回归的目标追踪与跟随方法,其特征在于,所述特征距离为HOG特征距离
Figure FDA0002391954720000057
其中f函数表示HOG特征的提取过程。
10.如权利要求1或2所述的基于尺度上下文回归的目标追踪与跟随方法,其特征在于,步骤(1)中通过单目摄像机采集图片,具体为:
使用移动机器人平台,在距地预设距离的位置,该机器人平台上挂载一个单目摄像机用于采集图片。
CN202010117523.XA 2020-02-25 2020-02-25 一种基于尺度上下文回归的目标追踪与跟随方法 Active CN111445497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010117523.XA CN111445497B (zh) 2020-02-25 2020-02-25 一种基于尺度上下文回归的目标追踪与跟随方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010117523.XA CN111445497B (zh) 2020-02-25 2020-02-25 一种基于尺度上下文回归的目标追踪与跟随方法

Publications (2)

Publication Number Publication Date
CN111445497A true CN111445497A (zh) 2020-07-24
CN111445497B CN111445497B (zh) 2021-03-30

Family

ID=71653919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010117523.XA Active CN111445497B (zh) 2020-02-25 2020-02-25 一种基于尺度上下文回归的目标追踪与跟随方法

Country Status (1)

Country Link
CN (1) CN111445497B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435223A (zh) * 2020-11-11 2021-03-02 马鞍山市瀚海云星科技有限责任公司 目标检测方法、装置及存储介质
CN112581507A (zh) * 2020-12-31 2021-03-30 北京澎思科技有限公司 目标跟踪方法、系统及计算机可读存储介质
CN112991395A (zh) * 2021-04-28 2021-06-18 山东工商学院 一种基于前景条件概率优化尺度和角度的视觉跟踪方法
CN113435266A (zh) * 2021-06-09 2021-09-24 东莞理工学院 基于极值点特征增强的fcos智能目标检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050280711A1 (en) * 2004-06-03 2005-12-22 Mie Ishii Camera system, camera, and camera control method
CN103149939A (zh) * 2013-02-26 2013-06-12 北京航空航天大学 一种基于视觉的无人机动态目标跟踪与定位方法
CN105469397A (zh) * 2015-11-23 2016-04-06 山东科技大学 一种基于系数矩阵分析的目标遮挡检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050280711A1 (en) * 2004-06-03 2005-12-22 Mie Ishii Camera system, camera, and camera control method
CN103149939A (zh) * 2013-02-26 2013-06-12 北京航空航天大学 一种基于视觉的无人机动态目标跟踪与定位方法
CN105469397A (zh) * 2015-11-23 2016-04-06 山东科技大学 一种基于系数矩阵分析的目标遮挡检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435223A (zh) * 2020-11-11 2021-03-02 马鞍山市瀚海云星科技有限责任公司 目标检测方法、装置及存储介质
CN112581507A (zh) * 2020-12-31 2021-03-30 北京澎思科技有限公司 目标跟踪方法、系统及计算机可读存储介质
CN112991395A (zh) * 2021-04-28 2021-06-18 山东工商学院 一种基于前景条件概率优化尺度和角度的视觉跟踪方法
CN113435266A (zh) * 2021-06-09 2021-09-24 东莞理工学院 基于极值点特征增强的fcos智能目标检测方法
CN113435266B (zh) * 2021-06-09 2023-09-01 东莞理工学院 基于极值点特征增强的fcos智能目标检测方法

Also Published As

Publication number Publication date
CN111445497B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN111445497B (zh) 一种基于尺度上下文回归的目标追踪与跟随方法
CN108304798B (zh) 基于深度学习及运动一致性的街面秩序事件视频检测方法
Gurghian et al. Deeplanes: End-to-end lane position estimation using deep neural networksa
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
Choi et al. A general framework for tracking multiple people from a moving camera
Wojek et al. Monocular visual scene understanding: Understanding multi-object traffic scenes
Lai et al. RGB-D object recognition: Features, algorithms, and a large scale benchmark
Zhou et al. Self‐supervised learning to visually detect terrain surfaces for autonomous robots operating in forested terrain
Chen et al. Asynchronous tracking-by-detection on adaptive time surfaces for event-based object tracking
Yang et al. MGC-VSLAM: A meshing-based and geometric constraint VSLAM for dynamic indoor environments
CN115619826A (zh) 一种基于重投影误差和深度估计的动态slam方法
CN111127519A (zh) 一种双模型融合的目标跟踪控制系统及其方法
CN112364865A (zh) 一种复杂场景中运动小目标的检测方法
CN113449606A (zh) 一种目标对象识别方法、装置、计算机设备及存储介质
Wang et al. Detection of small aerial object using random projection feature with region clustering
Spinello et al. Multimodal People Detection and Tracking in Crowded Scenes.
Yin et al. Removing dynamic 3D objects from point clouds of a moving RGB-D camera
CN117496401A (zh) 一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法
Herbst et al. Object segmentation from motion with dense feature matching
Rituerto et al. Label propagation in videos indoors with an incremental non-parametric model update
Dadgostar et al. Gesture-based human–machine interfaces: a novel approach for robust hand and face tracking
Tang et al. An improved algorithm for road markings detection with SVM and ROI restriction: comparison with a rule-based model
Xiao et al. Fast unstructured road detection and tracking from monocular video
Duanmu et al. A multi-view pedestrian tracking framework based on graph matching
Bhuvaneswari et al. TRACKING MANUALLY SELECTED OBJECT IN VIDEOS USING COLOR HISTOGRAM MATCHING.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant