CN112700469A

CN112700469A - 一种基于eco算法和目标检测的视觉目标跟踪方法及装置

Info

Publication number: CN112700469A
Application number: CN202011607826.6A
Authority: CN
Inventors: 吴林春; 鹿璇; 黄炎
Original assignee: Wuhan Zmvision Technology Co ltd
Current assignee: Wuhan Zmvision Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-23

Abstract

一种基于ECO算法和目标检测的视觉目标跟踪方法及装置，方法包括读取视频或图像序列的第一帧图像，确定跟踪目标；将跟踪目标送入检测网络，确定目标类别；将当前帧跟踪目标作为样本放入ECO算法训练相关滤波器；读取下一帧图像，利用训练好的相关滤波器卷积图像候选区域获取目标位置；每割一定帧数用检测算法在追踪到的目标位置处检测同类物体，计算检测框与跟踪框的IOU，取最大的检测框为样本框，计算此框的置信度，若大于阈值则提取此框内的特征作为样本替换ECO算法产生的样本；使用样本融合更新策略，更新ECO算法的样本集；利用获取的样本集训练ECO算法，更新相关滤波器，利用相关滤波器卷积图像候选区域获取目标位置；循环执行上述步骤。

Description

一种基于ECO算法和目标检测的视觉目标跟踪方法及装置

技术领域

本发明涉及计算机视觉应用目标跟踪领域，具体涉及一种基于ECO算法和目标检测的视觉目标跟踪方法及装置。

背景技术

视觉目标跟踪是计算机视觉中一个重要研究方向，在军事无人飞行器、精确制导以及空中预警和民用视频监控，人机交互和无人驾驶等众多领域有着极其广泛的应用。

视觉跟踪技术是类别无关的人工智能技术。不同于检测或分割领域里确定的目标信息，跟踪主体可能是车，人，动物，甚至电影里虚构的形象，因此跟踪框架对目标外观特征和判别性特征尤其敏感，前者主要用于模板匹配，后者帮助跟踪器将目标从背景和相似目标中区分出来。然而在实时跟踪的场景中，经过长时间的变化，当前目标和模板会有非常大的不同，即使对于加了更新机制的跟踪器，模板在迭代过程中，引入的噪声通常也会引起跟踪框漂移甚至丢失的问题。

发明内容

鉴于现有技术中存在的技术缺陷和技术弊端，本发明实施例提供克服上述问题或者至少部分地解决上述问题的一种基于ECO算法和目标检测的视觉目标跟踪方法，旨在为跟踪加入语义信息辅助判断，检测部分对目标类别和形态更为敏感，能有效的应对目标形变，增加跟踪器的鲁棒性，基于检测框架精度高，而传统跟踪器速度高的特点，我们结合二者，利用传统跟踪器短时跟踪，并隔一定帧数用检测器修正跟踪框和跟踪样本集，达到速度和精度的完美平衡，具体方案如下：

作为本发明的第一方面，提供一种基于ECO算法和目标检测的视觉目标跟踪方法，其特征在于，所述方法包括：

步骤1，读取视频或图像序列的第一帧图像，确定该帧图像中的跟踪目标，将跟踪目标送入检测网络，确定目标类别，获取对应的检测框；

步骤2，将第一帧图像中的跟踪目标检测框中的特征作为样本放入ECO算法训练相关滤波器；

步骤3，读取下一帧图像，利用训练好的相关滤波器卷积当前帧图像候选区域对应的特征，获取当前帧图像候选区域的置信度图，置信度图概率最大位置对应当前帧图像的目标位置及其置信度概率；

重复执行步骤3，直至当前视频或图像序列处理完。

进一步地，所述检测网络为检测网络yolo3，将跟踪目标送入检测网络yolo3，确定目标类别，获取对应的检测框具体为：

步骤1.1，对跟踪目标的目标框bbox1[x,y,w,h]进行切片；

步骤1.2，将切片缩放后送入检测网络yolo3进行类别检测；

步骤1.3，经过检测网络yolo3类别检测后，输出y1、y2和y3三种大小等级的网格，每个网格预测3个anchor；

步骤1.4每个anchor需要有x、y、w、h和confidence五个基本参数以及80个类别的概率，3anchor*(5+80)＝255，即每个等级的输出通道为255；

步骤1.5，使用logistic回归对每个anchor包围的内容进行了一个目标性评分，根据目标性评分来选择anchor prior进行predict，即基于目标性评分从多个anchor中进行选择，选取评分最好的几个anchor来进行预测；

步骤1.6，由于输入是以目标为中心将目标切片缩放过，因此，最终将Y3在(52*52)的中心位置(26，26)的输出[1*1*255]的anchor prior中取anchor[373,326]对应的80个类别里最大的一个类别，作为确定的目标类别，即获取对应的检测框。

进一步地，其特征在于，所述方法还包括：

步骤4，每间隔k帧图像在与步骤3同样的候选区域用检测网络yolo3检测同类目标，并获取对应的一系列候选检测框；

步骤5，计算得到的多个候选检测框的交并比，得到最大交并比对应的候选检测框，对于该候选检测框，计算与步骤S3中的候选区域同位置处的置信度，若该置信度大于预设阈值，取该候选检测框内特征作为新样本；

步骤6，基于获取的新样本，使用样本融合更新策略，更新ECO算法的样本集，将获取的新样本集放入ECO算法训练相关滤波器，更新相关滤波器，利用更新后的相关滤波器卷积图像候选区域对应的特征，获取图像候选区域的置信度图，置信度图概率最大位置对应当前帧图像的目标位置及其置信度概率。

进一步地，步骤4中，每间隔k帧图像在与步骤3同样的候选区域用检测网络yolo3检测同类目标，并获取对应的一系列候选检测框具体为：

步骤4.1，已知第t帧的跟踪结果bboxt[x,y,w,h](x,y为左上角角点)与候选区域boxt[x-w/2,y-h/2,2w,2h]；

步骤4.2，对候选区域boxt[x-w/2,y-h/2,2w,2h]进行切片；

步骤4.3，将切片缩放后送入yolo3进行类别检测；

步骤4.4，经过检测网络yolo3类别检测后，输出y1、y2和y3三种大小等级的网格，每个网格预测3个anchor；

步骤4.5，每个anchor需要有x、y、w、h和confidence五个基本参数以及80个类别的概率，3anchor*(5+80)＝255，即每个等级的输出通道为255；

步骤4.6，使用logistic回归对每个anchor包围的内容进行了一个目标性评分，根据目标性评分来选择anchor prior进行predict；

步骤4.7，由于此时目标预估为切片区域的1/4大小，且由于目标跟踪的不确定性，考虑Y1、Y2和Y3网格中所有的输出，并取步骤4.7的anchor prior中分类为与S1同类的anchor，从而得到一系列候选检测框{bbox1...bboxn}。

进一步地，步骤5具体为：

步骤5.1，从候选检测框序列里按顺序取检测框bboxi；

步骤5.2，计算

步骤5.3，将计算的值压入堆栈；

重复步骤5.1-步骤5.3，直到取完候选检测框序列里面所有的候选检测框，取最大交并比对应的候选检测框，基于该候选检测框，计算与步骤S3中的候选区域同位置处的置信度，若该置信度大于预设阈值，取该候选检测框内特征作为新样本。

作为本发明的第二方面，提供一种基于ECO算法和目标检测的视觉目标跟踪装置，所述装置包括：跟踪目标确定模块、目标类别确定模块、ECO训练模块、目标位置计算模块；

所述跟踪目标确定模块用于读取视频或图像序列的第一帧图像，确定该帧图像中的跟踪目标；所述目标类别确定模块用于将跟踪目标送入检测网络，确定目标类别，获取对应的检测框；

所述ECO训练模块用于将第一帧图像中的跟踪目标检测框中的特征作为样本放入ECO算法训练相关滤波器；

所述目标位置计算模块用于读取下一帧图像，利用训练好的相关滤波器卷积当前帧图像候选区域对应的特征，获取当前帧图像候选区域的置信度图，置信度图概率最大位置对应当前帧图像的目标位置及其置信度概率；以此将当前视频或图像序列处理完。

进一步地，所述检测网络为检测网络yolo3，所述目标类别确定模块将跟踪目标送入检测网络yolo3，确定目标类别，获取对应的检测框具体为：

步骤1.1，对跟踪目标的目标框bbox1[x,y,w,h]进行切片；

步骤1.2，将切片缩放后送入检测网络yolo3进行类别检测；

步骤1.5，使用logistic回归对每个anchor包围的内容进行了一个目标性评分，根据目标性评分来选择anchor prior进行predict；

进一步地，所述装置还包括样本集更新模块，所述样本集更新模块具体用于：

每间隔k帧图像在与目标位置计算模块中的当前帧候图像相同的候选区域用检测网络yolo3检测同类目标，并获取对应的一系列候选检测框；

计算得到的多个候选检测框的交并比，得到最大交并比对应的候选检测框，对于该候选检测框，计算与目标位置计算模块中的当前帧候选区域同位置处的置信度，若该置信度大于预设阈值，取该候选检测框内特征作为新样本；

基于获取的新样本，使用样本融合更新策略，更新ECO算法的样本集，将获取的新样本集放入ECO算法训练相关滤波器，更新相关滤波器，利用更新后的相关滤波器卷积图像候选区域对应的特征，获取图像候选区域的置信度图，置信度图概率最大位置对应当前帧图像的目标位置及其置信度概率。

进一步地，每间隔k帧在与目标位置计算模块中的当前帧候图像相同的候选区域用检测网络yolo3检测同类目标，并获取对应的一系列候选检测框具体为：

已知第t帧的跟踪结果bboxt[x,y,w,h](x,y为左上角角点)与候选区域boxt[x-w/2,y-h/2,2w,2h]；

对候选区域boxt[x-w/2,y-h/2,2w,2h]进行切片；

将切片缩放后送入yolo3进行类别检测；

经过检测网络yolo3类别检测后，输出y1、y2和y3三种大小等级的网格，每个网格预测3个anchor；

每个anchor需要有x、y、w、h和confidence五个基本参数以及80个类别的概率，3anchor*(5+80)＝255，即每个等级的输出通道为255；

使用logistic回归对每个anchor包围的内容进行了一个目标性评分，根据目标性评分来选择anchor prior进行predict；

由于此时目标预估为切片区域的1/4大小，且由于目标跟踪的不确定性，考虑Y1、Y2和Y3网格中所有的输出，并取选取的anchor prior中分类为与第一帧图像同类的anchor，从而得到一系列候选检测框{bbox1...bboxn}；

进一步地，计算得到的多个候选检测框的交并比，得到最大交并比对应的候选检测框，对于该候选检测框，计算与目标位置计算模块中的当前帧候选区域同位置处的置信度，若该置信度大于预设阈值，取该候选检测框内特征作为新样本具体为：

A，从候选检测框序列里按顺序取检测框bboxi；

B，计算

C，将计算的值压入堆栈；

重复执行A-C，直到取完候选检测框序列里面所有的候选检测框，得到最大交并比对应的候选检测框，基于该候选检测框，计算与目标位置计算模块中的当前帧候选区域同位置处的置信度，若该置信度大于预设阈值，取该候选检测框内特征作为新样本。

本发明具有以下有益效果：

本发明的提供的这种基于ECO算法和目标检测的视觉目标跟踪方法及装置，算法主体采用ECO目标跟踪算法，同时加入目标检测YOLO3算法，观察到在遮挡或形变或时，ECO算法框中的目标易出现偏离，导致之后不再遮挡或形变时目标跟踪会受影响，于是对于目标出现遮挡或形变时，结合目标检测得到形状轮廓更为完整的目标样本，并隔一定帧数用检测器修正跟踪框和跟踪样本集，提升训练效果，达到速度和精度的完美平衡。

附图说明

图1为本发明实施例提供的基于ECO算法和目标检测的视觉目标跟踪方法的流程图。

图2为本发明实施例提供的将第一帧图像中的跟踪目标切片送入检测网络YOLO3的示意图；

图3为本发明实施例提供的将第t帧图像中的跟踪目标切片送入检测网络YOLO3的示意图；

图4为本发明实施例提供的多个候选检测框的交并比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，作为本发明的第一实施例，提供一种基于ECO算法和目标检测的视觉目标跟踪方法，包括以下步骤：

S1、读取视频或图像序列的第一帧图像，人为设定或通过目标检测算法确定跟踪目标。

S2，将跟踪目标切片送入检测网络YOLO3确定类别：具体包括：

1)对目标框bbox1[x,y,w,h]进行切片

2)将切片放缩后送入检测网络yolo3进行类别检测

3)Yolo3经过如下图2的网络，输出y1,y2,y3三种大小等级，共9组anchor的输出，每个网格单元预测3个即anchor,对应关系如下表1：

	Anchor1	Anchor2	Anchor3
				Y1(13*13)	[10,13]	[16,30]	[33,23]
Y2(26*26)	[30,61]	[62,45]	[59,119]
				Y3(52*52)	[116,90]	[156,198]	[373,326]

表1

4)每个anchor需要有(x,y,w,h,confidence)五个基本参数，然后还要有80个类别的概率，所以3anchor*(5+80)＝255，即每个等级的输出通道为255

5)使用logistic回归来对每个anchor包围的内容进行了一个目标性评分(objectness score)。根据目标性评分来选择anchor prior进行predict，即不是所有anchor prior都会有输出。

由于输入是一目标为中心将目标切片缩放到416*416，因而最终只需要看Y3在(52*52)的中心位置(26，26)的输出[1*1*255]的anchor prior中取box[373,326]对应的80个类别里最大的那个，即为确定的目标类别。

S3、将当前帧跟踪目标作为样本放入ECO算法训练相关滤波器；具体包括：

先对跟踪目标所在候选区域z提取多尺度特征x，包括hog特征以及颜色cn特征，将提取的特征进行pca降维，然后通过傅里叶变换由时域转为频域，傅里叶转化公式如下：

其中X(n,m)为降维后的离散特征，N、M对应二维离散特征的行数和列数；进一步将傅里叶变换之后的特征值插到连续域，公式如下：

其中X_d是第d层特征，N_d为每层特征的行数，b_d为事先计算的权重，T为连续区间的右侧，随后将各个特征图和相关滤波器进行卷积操作，公式如下：

其中，f^d对应的是第d层特征通道对应相关滤波器，J_d{x^d}为第d层特征通道的连续域特征图，χ为所有特征通道，S_f{x}为样本x的得分置信度；

求解相关滤波器则通过最小化损失函数来实现，公式如下：

其中y_j为label，即由当前训练样本对应生成且服从高斯向分布，α_j为训练样本x_j对应的权重，w为正则化因子。

S4、读取下一帧图像，利用训练好的相关滤波器卷积图像候选区域对应的特征，获取图像候选区域的置信度图，置信度图概率最大位置对应当前帧图像的目标位置及其置信度概率。

S5、每隔一定帧数在同样的候选区域检测同类目标；

1)已知第t帧的跟踪结果bboxt[x,y,w,h](x,y为左上角角点)与候选区域boxt[x-w/2,y-h/2,2w,2h]，

2)对候选区域boxt[x-w/2,y-h/2,2w,2h]进行切片

3)将切片放缩送入yolo3进行类别检测

4)Yolo3经过如下图网络，输出y1,y2,y3三种大小等级，共9组anchor)的输出，每个网格单元预测3个box(即anchor),对应关系如下表2：

表2

5)每个box需要有(x,y,w,h,confidence)五个基本参数，然后还要有80个类别的概率，所以3anchor*(5+80)＝255，即每个等级的输出通道为255

6)使用logistic回归来对每个anchor包围的内容进行了一个目标性评分(objectness score)，根据目标性评分来选择anchor prior进行predict，即不是所有anchor prior都会有输出，如图3所示。

7)由于此时目标预估为切片区域的1/4大小，且由于目标跟踪的不确定性，考虑Y1,Y2,Y3所有的输出，并取(6)的anchor prior中分类为S2同类的anchor，得到一系列候选目标框{bbox1...bboxn}。

S6、计算得到的数个检测框与跟踪框的交并比，得到最大交并比检测框，对应回S4中置信图，若置信度大于阈值返回狂内特征为新样本；

(1)从检测框序列里按顺序取框bboxi；

(2)计算

如图4所示；

(1)将计算的值压入堆栈；

(4)当序列仍未读完时返回步骤1；

(5)重复步骤(1)～(4)直到取完，并得到IOU最大的检测框。

(6)由此框对应到S4步骤的置信图，若置信度大于阈值则返回框内新样本。

S7、使用样本融合更新策略，更新ECO算法的样本集；样本融合更新策略具体为：

设定样本集中最大样本数量，则若：

(1)样本集未满，将新样本放到空余处；

(2)样本集已满，且样本集中有低于预设阈值权重的样本，此时用新样本替换旧样本；

(3)样本集已满，且新样本与所有现有样本的距离中的最小值小于现有样本距离间的最小值，此时将新样本与最近样本融合；

(4)样本集已满，且新样本与所有现有样本的距离中的最小值大于现有样本距离间的最小值，此时将两个最近的现有样本融合，并将新样本放在融合后样本集空缺处。

S8、利用获取的样本集训练ECO算法，更新相关滤波器，利用相关滤波器卷积图像候选区域对应的特征，获取图像候选区域的置信度图，置信度图概率最大位置对应当前帧图像的目标位置及其置信度概率。

S9、循环执行步骤S4～S8，直至当前视频或图像序列处理完。

基于同一发明构思，本发明实施例还提供一种基于ECO算法和目标检测的视觉目标跟踪装置，由于该装置解决技术问题的原理与上述方法实施例相似，故该装置的实施可以参照上述方法的实施，重复之处不再赘述。

综上所述，本发明实施例提供的这种基于ECO算法和目标检测YOLO3的视觉目标跟踪方法及装置，算法主体采用ECO目标跟踪算法，同时加入目标检测算法，观察到在遮挡或形变时，ECO算法框中的目标易出现偏离，导致之后不再遮挡或形变时目标跟踪会受影响，于是对于目标出现遮挡或形变时，结合目标检测得到形状轮廓更为完整的目标样本，并隔一定帧数用检测器修正跟踪框和跟踪样本集，提升训练效果，达到速度和精度的完美平衡。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于ECO算法和目标检测的视觉目标跟踪方法，其特征在于，所述方法包括：

重复执行步骤3，直至当前视频或图像序列处理完。

2.根据权利要求2所述的基于ECO算法和目标检测的视觉目标跟踪方法，所述检测网络为检测网络yolo3，将跟踪目标送入检测网络yolo3，确定目标类别，获取对应的检测框具体为：

步骤1.1，对跟踪目标的目标框bbox1[x,y,w,h]进行切片；

步骤1.2，将切片缩放后送入检测网络yolo3进行类别检测；

步骤1.5，使用logistic回归对每个anchor包围的内容进行了一个目标性评分，根据目标性评分来选择anchorprior进行predict；

3.根据权利要求1所述的基于ECO算法和目标检测的视觉目标跟踪方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的基于ECO算法和目标检测的视觉目标跟踪方法，其特征在于，步骤4中，每间隔k帧图像在与步骤3同样的候选区域用检测网络yolo3检测同类目标，并获取对应的一系列候选检测框具体为：

步骤4.2，对候选区域boxt[x-w/2,y-h/2,2w,2h]进行切片；

步骤4.3，将切片缩放后送入yolo3进行类别检测；

步骤4.6，使用logistic回归对每个anchor包围的内容进行了一个目标性评分，根据目标性评分来选择anchorprior进行predict；

步骤4.7，由于此时目标预估为切片区域的1/4大小，且由于目标跟踪的不确定性，考虑Y1、Y2和Y3网格中所有的输出，并取步骤4.7的anchorprior中分类为与S1同类的anchor，从而得到一系列候选检测框{bbox1...bboxn}。

5.根据权利要求4所述的基于ECO算法和目标检测的视觉目标跟踪方法，其特征在于，步骤5具体为：

步骤5.1，从候选检测框序列里按顺序取检测框bboxi；

步骤5.2，计算

步骤5.3，将计算的值压入堆栈；

6.一种基于ECO算法和目标检测的视觉目标跟踪装置，其特征在于，所述装置包括：跟踪目标确定模块、目标类别确定模块、ECO训练模块、目标位置计算模块；

7.根据权利要求6所述的基于ECO算法和目标检测的视觉目标跟踪装置，其特征在于，所述检测网络为检测网络yolo3，所述目标类别确定模块将跟踪目标送入检测网络yolo3，确定目标类别，获取对应的检测框具体为：

步骤1.1，对跟踪目标的目标框bbox1[x,y,w,h]进行切片；

步骤1.2，将切片缩放后送入检测网络yolo3进行类别检测；

8.根据权利要求6所述的基于ECO算法和目标检测的视觉目标跟踪装置，其特征在于，所述装置还包括样本集更新模块，所述样本集更新模块具体用于：

9.根据权利要求8所述的基于ECO算法和目标检测的视觉目标跟踪装置，其特征在于，每间隔k帧在与目标位置计算模块中的当前帧候图像相同的候选区域用检测网络yolo3检测同类目标，并获取对应的一系列候选检测框具体为：

对候选区域boxt[x-w/2,y-h/2,2w,2h]进行切片；

将切片缩放后送入yolo3进行类别检测；

使用logistic回归对每个anchor包围的内容进行了一个目标性评分，根据目标性评分来选择anchorprior进行predict；

由于此时目标预估为切片区域的1/4大小，且由于目标跟踪的不确定性，考虑Y1、Y2和Y3网格中所有的输出，并取选取的anchorprior中分类为与第一帧图像同类的anchor，从而得到一系列候选检测框{bbox1...bboxn}。

10.根据权利要求9所述的基于ECO算法和目标检测的视觉目标跟踪装置，其特征在于，计算得到的多个候选检测框的交并比，得到最大交并比对应的候选检测框，对于该候选检测框，计算与目标位置计算模块中的当前帧候选区域同位置处的置信度，若该置信度大于预设阈值，取该候选检测框内特征作为新样本具体为：

A，从候选检测框序列里按顺序取检测框bboxi；

B，计算

C，将计算的值压入堆栈；