CN109345559A

CN109345559A - 基于样本扩充和深度分类网络的运动目标跟踪方法

Info

Publication number: CN109345559A
Application number: CN201811005680.0A
Authority: CN
Inventors: 田小林; 荀亮; 李芳�; 李帅; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-02-15
Anticipated expiration: 2038-08-30
Also published as: CN109345559B

Abstract

本发明公开了一种基于样本扩充和深度分类网络的运动目标跟踪方法。本发明实现的步骤如下：(1)搭建深度分类网络模型；(2)生成正样本集；(3)生成负样本集；(4)训练深度分类网络模型；(5)提取目标特征网络模型；(6)预测下一帧图像的目标位置；(7)判断当前帧图像是否为待跟踪视频序列的最后一帧视频图像，若是，则执行步骤(8)，否则，执行步骤(6)；(8)结束对运动待跟踪目标的跟踪。本发明使用扩充的样本集训练深度分类网络，利用特征响应值确定待跟踪目标的位置，解决了当目标发生外观形变、遮挡时导致跟踪不准确的问题。

Description

基于样本扩充和深度分类网络的运动目标跟踪方法

技术领域

本发明属于图像处理技术领域，更进一步涉及计算机视觉领域中的一种基于样本扩充和深度分类网络的运动目标跟踪方法。本发明可用于对视频监控、机器人导航、无人驾驶机获取的视频序列等复杂场景中的运动目标进行跟踪。

背景技术

运动目标跟踪的主要任务是从连续的视频图像序列中检测出运动目标，进而在每一帧图像中确定出运动目标的位置。随着人们对计算机视觉领域的不断深入认识，运动目标跟踪在该领域得到广泛应用和发展，目前深度学习方法也逐渐被应用到目标跟踪领域。相较于传统跟踪方法中过于依赖设计者的先验知识的手动提取特征方法，深度学习方法可以利用大数据的优势，通过大量数据的训练，神经网络能够自动学习特征。在训练数据足够大的情况下，深度学习得到的特征提取要远远优于手工方法提取的特征。但深度学习方法应用于目标跟踪领域时主要问题在于训练数据的缺失：深度模型的优势之一来自于对大量标注训练数据的有效学习，而目标跟踪仅仅提供第一帧的bounding-box作为训练数据。

中山大学在其申请的专利文献“一种基于卷积神经网络的特征提取与目标跟踪方法”(专利申请号201711262806.8，公开号105678338A)中公开一种利用深度卷积网络对运动目标的跟踪方法。该方法实现的具体步骤是，(1)构建并预训练网络模型；(2)根据视频序列，将视频第一帧图像输入重构后的网络中反复迭代，线上训练网络模型；(3)输入视频序列，计算跟踪结果；(4)对视频序列中上一帧的跟踪结果进行评估，选取正样本结果放入网络中迭代以更新网络参数。该方法存在的不足之处是，使用预训练的网络模型对视频第一帧图像进行线上训练时，将该图像输入重构后的网络中反复迭代，容易过拟合，当后续视频帧中的目标产生较大程度形变时，易产生漂移，无法实现长期准确地跟踪。

华南农业大学在其申请的专利文献“基于局部特征学习的目标跟踪方法”(专利申请号201610024953.0，公开号108038435A)中公开一种利用局部特征学习对运动目标的跟踪方法。该方法实现的具体步骤是，(1)将目标区域和背景区域分解成大量局部单元，采用深度学习的方式训练、构建表观模型；(2)计算下一帧图像每个局部区域属于目标的置信度，得到用于目标定位的置信度图；(3)设定阀值T_pos和T_neg，将阀值大于T_pos的局部区域加入目标样本集，将阀值小于T_neg的局部区域加入背景样本集，更新表观模型。该方法存在的不足之处是，由于该方法需要通过设定阀值判断图像各个局部区域的样本类型，当待跟踪目标产生较大程度遮挡时，会将目标样本或背景样本错分，导致更新后的模型无法继续准确跟踪目标。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种基于样本扩充和深度分类网络的运动目标跟踪方法，以实现当目标产生形变、尺度变化或遮挡时对目标进行准确、有效的跟踪。

实现本发明目的的思路是，首先，针对训练样本不足的问题，利用样本扩充的方法生成包含大量图像的正负样本集。其次，对深度残差网络ResNet50进行改进，得到深度分类网络模型，进而提取出目标特征网络模型。最后，将候选区域内截取的图像序列输入到目标特征网络模型，根据特征响应值得到待跟踪目标的具体位置。

本发明的具体步骤如下：

(1)构建深度分类网络模型：

(1a)搭建一个3层的全连接网络，该网络第一层为输入层，第二层为隐藏层，第三层为输出层；

(1b)设置全连接网络中各层的参数如下：将第一层的神经元的个数设置为1024，激活函数设置为修正线性单元ReLU函数；将第二层的神经元个数设置为2；将第三层的神经元的个数设置为2，激活函数设置为Sigmoid函数；

(1c)将深度残差网络ResNet50的输出作为全连接网络的输入，得到一个深度分类网络模型；

(2)生成正样本集：

(2a)输入含有待跟踪目标的视频图像序列中的第一帧图像，以待跟踪目标初始位置的中心为中心、待跟踪目标的长宽为长宽确定一个矩形框；

(2b)从矩形框中截取3000幅大小相同的矩形目标图像，组成正样本集；

(2c)从正样本集中任取一幅矩形目标图像，以3等分均匀切割成3×3幅小矩形图像，舍弃不满3等分的部分，将分割后的9幅小矩形图像，随机组合拼接成4000幅与矩形目标图像大小相同的重组图像，组成重组图像集；

(2d)在视频第一帧图像中，以单像素步进方式，获取尺度变化图像集；

(2e)将重组图像集和尺度变化图像集加入正样本集，组成扩充的正样本集；

(3)生成负样本集：

(3a)在视频第一帧图像中，以待跟踪目标的初始位置为中心，确定5个大矩形框，每个大矩形框的长宽分别是待跟踪目标长宽的1.5、1.6、1.7、1.8、1.9倍；

(3b)选取一个与待跟踪目标大小相同的矩形滑框；

(3c)使用矩形滑框在每个大矩形框内滑动，截取每一次平移后矩形滑框中的图像，将所有截取的图像组成扩充的负样本集；

(4)训练深度分类网络模型：

(4a)将正样本集和负样本集输入到深度分类网络模型；

(4b)使用随机梯度下降法，更新深度分类网络模型中每一个节点的权值，得到训练好的深度分类网络模型；

(5)提取目标特征网络模型：

删除训练好的深度分类网络模型中全连接网络的输出层，将全连接网络的隐藏层作为目标特征网络的输出层，提取目标特征网络模型；

(6)预测当前帧图像的目标位置：

(6a)载入待跟踪视频序列中的下一帧图像，作为当前帧图像，在当前帧图像中，以载入的上一帧图像待跟踪目标的位置为中心，用待跟踪目标长宽的1.5倍的尺寸建立一个矩形区域，将该矩形区域作为待跟踪目标候选区域；

(6b)用步长变化的滑动方式，在待跟踪目标候选区域内截取矩形图像，将截取的所有矩形图像组成候选图像序列；

(6c)将候选图像序列输入到目标特征网络模型，输出每幅候选图像对应的特征响应值序列，从特征响应值序列中选出最大特征响应值；

(6d)在当前帧图像中，将最大特征响应值对应的候选图像的位置作为跟踪目标的位置；

(7)判断当前帧视频图像是否为待跟踪视频图像序列的最后一帧视频图像，若是，则执行步骤(8)，否则，执行步骤(6)；

(8)结束对运动待跟踪目标的跟踪。

本发明与现有的技术相比具有以下优点：

第一，由于本发明生成了扩充的正负样本集，克服了现有技术中在训练网络时使用第一帧图像反复迭代，容易过拟合，当待跟踪目标产生较大程度形变时，导致跟踪不准确的问题，使得本发明能够在待跟踪目标产生较大形变时，更准确地跟踪目标。

第二，由于本发明构建了目标的特征网络模型，使用目标特征响应值判断待跟踪目标的位置，克服了现有技术中当待跟踪目标产生较大程度遮挡时，易将正负样本错分，导致更新后的模型无法继续准确跟踪目标的问题，使得本发明能够在待跟踪目标产生较大程度遮挡时，更准确地跟踪目标。

附图说明

图1为本发明的流程图；

图2为本发明的仿真图。

具体实施方式

下面结合附图对本发明做进一步的描述。

结合附图1中，对本发明的具体步骤进一步的描述。

步骤1，构建深度分类网络模型。

搭建一个3层的全连接网络，该网络第一层为输入层，第二层为隐藏层，第三层为输出层。

设置全连接网络中各层的参数如下：将第一层的神经元的个数设置为1024，激活函数设置为修正线性单元ReLU函数；将第二层的神经元个数设置为2；将第三层的神经元的个数设置为2，激活函数设置为Sigmoid函数。

将深度残差网络ResNet50的输出作为全连接网络的输入，得到一个深度分类网络模型。

步骤2，生成正样本集。

输入含有待跟踪目标的视频图像序列中的第一帧图像，以待跟踪目标初始位置的中心为中心、待跟踪目标的长宽为长宽确定一个矩形框。

从矩形框中截取3000幅大小相同的矩形目标图像，组成正样本集。

从正样本集中任取一幅矩形目标图像，以3等分均匀切割成3×3幅小矩形图像，舍弃不满3等分的部分，将分割后的9幅小矩形图像，随机组合拼接成4000幅与矩形目标图像大小相同的重组图像，组成重组图像集。

在视频第一帧图像中，以单像素步进方式，获取尺度变化图像集。

所述的单像素步进方式的具体步骤如下：

第1步，以待跟踪目标初始位置的中心和初始位置的0.5倍长度和宽度构成一个小矩形框。

第2步，保持小矩形框的中心不变，将小矩形框的宽度增加1个像素，将小矩形框长宽比与增加后的宽度的乘积作为长度，构成一个临时矩形框。

第3步，判断临时矩形框的宽度是否大于等于小矩形框宽度的3倍，若是，则执行第四步，否则，执行第二步。

第4步，截取每个尺度变化的临时矩形框中的矩形图像，将所有截取的图像组成尺度变化图像集。

将重组图像集和尺度变化图像集加入正样本集，组成扩充的正样本集。

步骤3，生成负样本集。

在视频第一帧图像中，以待跟踪目标的初始位置为中心，确定5个大矩形框，每个大矩形框的长宽分别是待跟踪目标长宽的1.5、1.6、1.7、1.8、1.9倍。

选取一个与待跟踪目标大小相同的矩形滑框。

使用矩形滑框在每个大矩形框内滑动，截取每一次平移后矩形滑框中的图像，将所有截取的图像组成扩充的负样本集。

所述矩形滑框在每个大矩形框内滑动的方式为：以每个大矩形框的左上角为起点，以1个像素为步长，依次将矩形滑框平移到大矩形框的右上角、右下角、左下角，最后平移回左上角。

步骤4，训练深度分类网络模型。

将正样本集和负样本集输入到深度分类网络模型。

使用随机梯度下降法，更新深度分类网络模型中每一个节点的权值，得到训练好的深度分类网络模型。

所述随机梯度下降法的具体步骤如下：

第1步，在(0,0.1)范围内随机选一个数，用该数作为深度分类网络模型中每个节点的初始权值。

第2步，将每个节点的初始权值作为第一次迭代过程中深度分类网络模型中每个节点的当前权值。

第3步，从正负样本集中随机选取2ⁿ个样本图像在深度分类网络模型中正向传播，其中3≤n≤7，深度分类网络模型的输出层输出2ⁿ个样本图像的分类结果。

第4步，按照下式，计算分类结果的平均对数损失值：

其中，L表示分类结果的平均对数损失值，N表示随机选取的样本图像的总数，∑表示求和操作，i表示输入样本图像的序号，y_i表示第i个输入样本图像的类别，正类样本的y_i值取1，负类样本的y_i值取0，log表示求以10为底的对数操作，p_i表示分类结果中第i个样本图像的深度分类网络模型输出值。

第5步，用平均对数损失值对深度分类网络中每一个节点的当前权值求偏导，得到深度分类网络模型中每个节点当前权值的梯度值。

第6步，按照下式，计算深度分类网络模型中每个节点更新后的权值：

其中，表示深度分类网络模型第k个节点更新后的权值，w_k表示深度分类网络模型第k个节点的当前权值，α表示学习率，其取值范围为(0,1)，Δw_k表示深度分类网络模型中第k个节点的当前权值的梯度值。

第7步，判断训练样本集中的样本图像是否全部选用，若是，则得到训练好的深度分类网络模型，否则，将每个节点更新后的权值作为当前权值后执行第3步。

步骤5，提取目标特征网络模型。

删除训练好的深度分类网络模型中全连接网络的输出层，将全连接网络的隐藏层作为目标特征网络的输出层，提取目标特征网络模型。

步骤6，预测当前帧图像的目标位置。

载入待跟踪视频序列中的下一帧图像，作为当前帧图像，在当前帧图像中，以载入的上一帧图像待跟踪目标的位置为中心，用待跟踪目标长宽的1.5倍的尺寸建立一个矩形区域，将该矩形区域作为待跟踪目标候选区域。

用步长变化的滑动方式，在待跟踪目标候选区域内截取矩形图像，将截取的所有矩形图像组成候选图像序列。

所述步长变化的滑动方式的具体步骤如下：

第1步，选取一个与待跟踪目标大小相同的矩形滑框，分别设置x轴与y轴方向的最大滑动步长和最小滑动步长。

第2步，将矩形滑框放置在待跟踪目标候选区域左上角。

第3步，按照下式，计算x轴正方向的滑动步长。

其中，S_x表示x轴正方向的滑动步长，S_x1表示x轴方向的最大滑动步长，S_x2表示x轴方向的最小滑动步长，w表示待跟踪目标的宽度，u′表示矩形滑框中心点的横坐标，u表示待跟踪目标候选区域中心点的横坐标。

第4步，用矩形滑框以x轴正方向的滑动步长滑动，截取框出的图像。

第5步，判断矩形滑框是否超出待跟踪目标候选区域，若是，则将矩形滑框沿x轴负方向平移到待跟踪目标候选区域最左侧后执行第6步，否则，执行第3步。

第6步，按照下式，计算y轴正方向的滑动步长：

其中，S_y表示y轴正方向的滑动步长，S_y1表示y轴方向的最大滑动步长，S_y2表示y轴方向的最小滑动步长，h表示待跟踪目标的长度，v′表示矩形框当前位置中心点的纵坐标，v表示待跟踪目标候选区域中心点的纵坐标。

第7步，用矩形滑框以y轴正方向的滑动步长滑动，截取框出的图像。

第8步，判断矩形滑框是否超出待跟踪目标候选区域，若是，则执行第九步，否则，执行第三步。

第9步，将所有截取的图像组成候选图像序列。

将候选图像序列输入到目标特征网络模型，输出每幅候选图像对应的特征响应值序列，从特征响应值序列中选出最大特征响应值。

在当前帧图像中，将最大特征响应值对应的候选图像的位置作为跟踪目标的位置。

步骤7，判断当前帧视频图像是否为待跟踪视频图像序列的最后一帧视频图像，若是，则执行步骤8，否则，执行步骤6。

步骤8，结束对运动待跟踪目标的跟踪。

下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件：

本发明仿真实验的硬件测试平台是：CPU为intel Core i5-6500，主频为3.2GHz，内存8GB，GPU为NVIDIA TITAN Xp；软件平台是：Ubuntu 16.04 LTS，64位操作系统，python3.6.5。

2.仿真内容仿真结果分析：

本发明的仿真实验是使用本发明的方法，对从Object tracking benchmark 2015数据库中的一段一名男子在道路上走动的视频图像序列进行仿真实验，该视频图像序列共有252帧视频图像，本发明的仿真实验的结果如图(2)所示。

图2(a)为本发明仿真实验所输入的视频图像序列的第1帧图像，图2(a)中实线矩形框的位置表示待跟踪目标的初始位置。

图2(b)为本发明仿真实验中输入的待跟踪目标产生遮挡时的一帧视频图像的跟踪结果示意图。该视频图像中的男子为待跟踪目标，待跟踪目标产生了遮挡。从该视频图像中确定待跟踪目标的候选区域，将候选区域内截取的候选图像序列输入到目标特征网络，得到每幅候选图像对应的特征响应值序列，将最大特征响应值对应的候选图像在当前帧图像中的位置作为待跟踪目标的位置。图2(b)中实线矩形框标注的是待跟踪目标的位置。

图2(c)为本发明仿真实验中输入的待跟踪目标产生形变时的一帧视频图像的跟踪结果示意图。该视频图像中的男子为待跟踪目标，待跟踪目标产生了形变。从该视频图像中确定待跟踪目标的候选区域，将候选区域内截取的候选图像序列输入到目标特征网络，得到每幅候选图像对应的特征响应值序列，将最大特征响应值对应的候选图像在当前帧图像中的位置作为待跟踪目标的位置。图2(c)中实线矩形框标注的是待跟踪目标的位置。

由图2(b)和图2(c)可以看出，图中的实线矩形框框出的目标与图2(a)中实线矩形框框出的目标一致，说明本发明能够在视频图像中待跟踪目标产生形变、遮挡时，准确、有效地跟踪目标。

Claims

1.一种基于样本扩充和深度分类网络的运动目标跟踪方法，其特征在于，构建深度分类网络模型，生成正负样本集，训练深度分类网络模型，提取目标特征网络模型；该方法的具体步骤包括如下：

(1)构建深度分类网络模型：

(2)生成正样本集：

(3)生成负样本集：

(3b)选取一个与待跟踪目标大小相同的矩形滑框；

(4)训练深度分类网络模型：

(4a)将正样本集和负样本集输入到深度分类网络模型；

(5)提取目标特征网络模型：

(6)预测当前帧图像的目标位置：

(8)结束对运动待跟踪目标的跟踪。

2.根据权利要求1所述的基于样本扩充和深度分类网络的运动目标跟踪方法，其特征在于，步骤(2d)中所述单像素步进方式的具体步骤如下：

第一步，以待跟踪目标初始位置的中心和初始位置的0.5倍长度和宽度构成一个小矩形框；

第二步，保持小矩形框的中心不变，将小矩形框的宽度增加1个像素，将小矩形框长宽比与增加后的宽度的乘积作为长度，构成一个临时矩形框；

第三步，判断临时矩形框的宽度是否大于等于小矩形框宽度的3倍，若是，则执行第四步，否则，执行第二步；

第四步，截取每个尺度变化的临时矩形框中的矩形图像，将所有截取的图像组成尺度变化图像集。

3.根据权利要求1所述的基于样本扩充和深度分类网络的运动目标跟踪方法，其特征在于，步骤(3c)中所述矩形滑框在每个大矩形框内滑动的方式为：以每个大矩形框的左上角为起点，以1个像素为步长，依次将矩形滑框平移到大矩形框的右上角、右下角、左下角，最后平移回左上角。

4.根据权利要求1所述的基于样本扩充和深度分类网络的运动目标跟踪方法，其特征在于，步骤(4b)中所述随机梯度下降法的具体步骤如下：

第一步，在(0,0.1)范围内随机选一个数，用该数作为深度分类网络模型中每个节点的初始权值；

第二步，将每个节点的初始权值作为第一次迭代过程中深度分类网络模型中每个节点的当前权值；

第三步，从正负样本集中随机选取2ⁿ个样本图像在深度分类网络模型中正向传播，其中3≤n≤7，深度分类网络模型的输出层输出2ⁿ个样本图像的分类结果；

第四步，按照下式，计算分类结果的平均对数损失值：

其中，L表示分类结果的平均对数损失值，N表示随机选取的样本图像的总数，∑表示求和操作，i表示输入样本图像的序号，y_i表示第i个输入样本图像的类别，正类样本的y_i值取1，负类样本的y_i值取0，log表示求以10为底的对数操作，p_i表示分类结果中第i个样本图像的深度分类网络模型输出值；

第五步，用平均对数损失值对深度分类网络中每一个节点的当前权值求偏导，得到深度分类网络模型中每个节点当前权值的梯度值；

第六步，按照下式，计算深度分类网络模型中每个节点更新后的权值：

其中，表示深度分类网络模型第k个节点更新后的权值，w_k表示深度分类网络模型第k个节点的当前权值，α表示学习率，其取值范围为(0,1)，Δw_k表示深度分类网络模型中第k个节点的当前权值的梯度值；

第七步，判断训练样本集中的样本图像是否全部选用，若是，则得到训练好的深度分类网络模型，否则，将每个节点更新后的权值作为当前权值后执行第三步。

5.根据权利要求1所述的基于样本扩充和深度分类网络的运动目标跟踪方法，其特征在于，步骤(6b)中所述步长变化的滑动方式的具体步骤如下：

第一步，选取一个与待跟踪目标大小相同的矩形滑框，分别设置x轴与y轴方向的最大滑动步长和最小滑动步长；

第二步，将矩形滑框放置在待跟踪目标候选区域左上角；

第三步，按照下式，计算x轴正方向的滑动步长：

其中，S_x表示x轴正方向的滑动步长，S_x1表示x轴方向的最大滑动步长，S_x2表示x轴方向的最小滑动步长，w表示待跟踪目标的宽度，u′表示矩形滑框中心点的横坐标，u表示待跟踪目标候选区域中心点的横坐标；

第四步，用矩形滑框以x轴正方向的滑动步长滑动，截取框出的图像；

第五步，判断矩形滑框是否超出待跟踪目标候选区域，若是，则将矩形滑框沿x轴负方向平移到待跟踪目标候选区域最左侧后执行第六步，否则，执行第三步；

第六步，按照下式，计算y轴正方向的滑动步长：

其中，S_y表示y轴正方向的滑动步长，S_y1表示y轴方向的最大滑动步长，S_y2表示y轴方向的最小滑动步长，h表示待跟踪目标的长度，v′表示矩形框当前位置中心点的纵坐标，v表示待跟踪目标候选区域中心点的纵坐标；

第七步，用矩形滑框以y轴正方向的滑动步长滑动，截取框出的图像；

第八步，判断矩形滑框是否超出待跟踪目标候选区域，若是，则执行第九步，否则，执行第三步；

第九步，将所有截取的图像组成候选图像序列。