CN109685823A

CN109685823A - 一种基于深度森林的目标跟踪方法

Info

Publication number: CN109685823A
Application number: CN201811580315.2A
Authority: CN
Inventors: 朱周; 刘英舜; 胡启洲; 郭唐仪; 周竹萍
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-04-26
Anticipated expiration: 2038-12-24
Also published as: CN109685823B

Abstract

本发明公开了一种基于深度森林的目标跟踪方法。该方法为：将目标图像与待匹配图像在水平方向上进行串联以组成样本图像，建立正负样本集；定义多粒度扫描层和级联森林层，将两者串联构建深度森林模型；对多粒度扫描层和级联森林层分别进行训练，在训练过程中，以测试准确性的增加值小于阈值作为训练停止条件来确定级联森林层的层数；以上一帧图像中的目标位置为基础定义局部搜索范围，按照离散尺度间隔提取候选图像并归一化，将第一帧目标图像与候选图像进行串联并输入深度森林模型，对深度森林模型输出的概率进行比较，以最高概率所对应的位置作为目标当前位置，从而实现目标跟踪。本发明提高了复杂环境下目标跟踪的稳定性，并具有较好的实时性。

Description

一种基于深度森林的目标跟踪方法

技术领域

本发明属于计算机视觉技术领域，特别是一种基于深度森林的目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域中的重要研究方向，得到了学术界和工业界的广泛关注。它的目的是在序列图像中对运动的目标物体进行定位，从而获得其相关参数，如位置、速度、尺度、轨迹等，这些参数可被进一步用于目标物体的行为理解，或者完成更高一级的任务。随着计算机性能提高和摄像终端增多，目标跟踪的需求不断增加，具有良好的发展前景，其典型应用已包括：安全监控、交通监控、人机交互、机器人、军事领域和医学应用等许多方面。

目标跟踪中存在着诸多影响因素，比如环境光照的变化、目标尺寸及外观的变化、目标与环境之间的遮挡、阴影现象等，都会影响目标跟踪的准确性和鲁棒性。深度神经网络能够从大量数据中自动学习深度特征，相比人工设计的图像特征更为稳定，近年来在目标跟踪中得到了普遍应用，同时它也存在着一些局限性，如对样本数量和计算量要求大，超参数较多，训练过程中的经验性较强。

发明内容

本发明的目的在于提供一种在复杂环境下稳定性高、实时性好的基于深度森林的目标跟踪方法，在保证目标跟踪性能的同时减少对样本数量、超参数的依赖性。

实现本发明目的的技术解决方案为：一种基于深度森林的目标跟踪方法，包括以下步骤：

步骤1：建立目标跟踪视频集，将视频集中的目标图像与待匹配图像进行归一化，并在水平方向上合并以组成样本图像，建立正负样本集，然后将该样本集划分为训练集和测试集两部分；

步骤2：定义多粒度扫描层和级联森林层并将两者串联，以样本图像作为多粒度扫描层的输入，以多粒度扫描层的输出作为级联森林层的输入，构建深度森林模型；

步骤3：在训练集中，首先对多粒度扫描层进行训练，然后以训练之后多粒度扫描层输出的特征向量作为样本，对级联森林层进行训练；在训练过程中，以深度森林模型测试准确性的增加值小于阈值作为训练停止条件，来确定级联森林层的层数；

步骤4：读入跟踪视频，确定目标初始位置、尺寸，提取目标模板图像并归一化，在任意时刻以上一帧图像中的目标位置为中心定义局部搜索范围，对该搜索范围中的每一个候选位置，按照离散尺度间隔提取候选图像并归一化，将归一化后的目标模板图像与候选图像在水平方向上合并，并输入深度森林模型，对深度森林模型输出的概率进行比较，以最高概率所对应的位置作为目标当前位置，从而实现目标跟踪。

进一步地，步骤1中所述的建立正负样本集，具体如下：

步骤1.1：设定目标图像和待匹配图像为I₁和I₂，按尺寸[S_x,S_y]对I₁和I₂进行归一化，得到归一化后的目标图像和待匹配图像为I₁'和I₂'，计算两者之间的重叠率定义阈值t₁和t₂，其中t₁＞t₂；

步骤1.2：如果重叠率IOU大于等于阈值t₁，则将归一化后的目标图像I₁'和待匹配图像I₂'在水平方向上合并为样本图像I'，并加入正样本集；

步骤1.3：如果重叠率IOU小于等于阈值t₂，则将归一化后的目标图像I₁'和待匹配图像I₂'在水平方向上合并为样本图像I'，并加入负样本集，如果重叠率IOU大于阈值t₂小于阈值t₁，则丢弃目标图像I₁'和待匹配图像I₂'。

进一步地，步骤2中所述的定义多粒度扫描层和级联森林层并将两者串联，以样本图像作为多粒度扫描层的输入，以多粒度扫描层的输出作为级联森林层的输入，构建深度森林模型，具体如下：

步骤2.1：多粒度扫描层中包括N₁种扫描窗口，每一种扫描窗口对应一个随机森林和一个完全随机树森林，每个随机森林和完全随机树森林各包括N₂棵决策树，最终将N₁个随机森林和N₁个完全随机树森林的输出相并联，构成特征向量作为级联森林层的输入，其中N₁的取值范围为[1，5]，N₂的取值范围为[500，1000]；

步骤2.2：级联森林层中包含N₃个随机森林和N₃个完全随机树森林，每个随机森林和完全随机树森林各包括N₄棵决策树，对N₃个随机森林和N₃个完全随机树森林的输出进行平均，最终输出样本属于目标的概率向量，其中N₃的取值范围为[1，5]，N₄的取值范围为[500，1000]。

进一步地，步骤3中所述的在训练过程中，以深度森林模型测试准确性的增加值小于阈值作为训练停止条件，来确定级联森林层的层数，具体如下：

步骤3.1：设定级联森林层的层数为n情况下的测试准确性为q_n，当n＝1时以多粒度扫描层输出的特征向量作为样本对第1层级联森林层进行训练，并计算测试准确性q₁；

步骤3.2：令n＝n+1，增加新的级联森林层，以多粒度扫描层输出的特征向量和上一次级联森林层输出的概率向量共同作为样本，对新的级联森林层进行训练，计算新的测试准确性q_n，如果q_n-q_n-1<t₃，其中t₃为阈值，取值范围为[0.01，0.05])，则转到步骤3.3，否则重复步骤3.2；

步骤3.3：结束训练，级联森林层的最终层数为n。

进一步地，步骤4中所述的读入跟踪视频，确定目标初始位置、尺寸，提取目标模板图像并归一化，在任意时刻以上一帧图像中的目标位置为中心定义局部搜索范围，对该搜索范围中的每一个候选位置，按照离散尺度间隔提取候选图像并归一化，将归一化后的目标模板图像与候选图像在水平方向上合并，并输入深度森林模型，对深度森林模型输出的概率进行比较，以最高概率所对应的位置作为目标当前位置，从而实现目标跟踪，具体如下：

步骤4.1：设定第m帧中的目标图像为P_i，目标左上角位置为[x_i,y_i]，目标尺寸为[sx_i,sy_i]，当m＝1时确定目标初始位置[x₁,y₁]和初始尺寸[sx₁,sy₁]，并按尺寸[S_x,S_y]对目标初始图像P₁进行归一化，得到目标模板图像P₁'；

步骤4.2：设定新的一帧为m＝m+1，定义第m帧中目标候选位置的搜索范围为{[x_m,y_m]||x_m-x_m-1|≤R,|y_m-y_m-1|≤R}，R为搜索范围的半径，在该搜索范围中共有(2R+1)²个目标候选位置，每一个目标候选位置对应2N₅+1个候选尺寸因子[1-N₅δ,1-(N₅-1)δ,...,1,...,1+(N₅-1)δ,1+N₅δ]，其中N₅的取值范围为[1，5]，δ是尺寸变化间隔，共有(2N₅+1)(2R+1)²个目标候选图像，将它们按尺寸[S_x,S_y]进行归一化，得到目标候选图像集Z；

步骤4.3：分别将目标模板图像P₁'与目标候选图像集Z中的每一个目标候选图像在水平方向上进行合并，并输入深度森林模型，得到(2N₅+1)(2R+1)²个概率，计算最大概率所对应的位置和尺寸作为目标在当前帧的位置[x_m,y_m]和尺寸[sx_m,sy_m]；

步骤4.4：设定视频中的总帧数为m_max，如果m＝m_max则跟踪结束，否则转至步骤4.2。

本发明与现有技术相比，其显著优点为：(1)采用多粒度窗口进行扫描以提取图像原始特征，能够提取像素点之间的上下文联系，更好地对目标进行描述；(2)在特征学习中对样本数量的要求较低，减少了目标跟踪中特征学习所需的样本数量，提高了小样本情况下目标跟踪的准确性和稳定性；(3)在特征学习中能够自动确定级联森林层的层数，而不需要人工选择，从而对跟踪环境和跟踪对象的变化具有更好的适应性，并具有较好的实时性。

附图说明

图1是本发明基于深度森林的目标跟踪方法的基本流程图。

图2是本发明中样本图像的合并流程图。

图3是本发明中细粒度扫描层的流程图。

图4是本发明中级联森林层的流程图。

图5是本发明中目标候选图像生成的流程图。

图6是本发明中确定当前目标位置的流程图。

具体实施方式

本发明基于深度森林的目标跟踪方法，包括以下步骤：

进一步地，步骤1中所述的建立正负样本集，具体如下：

步骤3.3：结束训练，级联森林层的最终层数为n。

下面结合附图及具体实施例对本发明作进一步详细说明。

实施例

结合图1，本发明基于深度森林的目标跟踪方法，包括以下步骤：

步骤1：如图2所示，建立目标跟踪视频集，将视频集中的目标图像与待匹配图像进行归一化，并在水平方向上合并以组成样本图像，建立包含50000个正样本和50000个负样本的样本集合，并将该集合以5:5的比例划分为训练集和测试集两部分，具体如下：

步骤1.1：设定目标图像和待匹配图像为I₁和I₂，按尺寸[32,32]对I₁和I₂进行归一化，得到归一化后的目标图像和待匹配图像为I₁'和I₂'，计算两者之间的重叠率

步骤1.2：如果重叠率IOU大于阈值0.8，则将归一化后的目标图像I₁'和待匹配图像I₂'在水平方向上合并为样本图像I'，并加入正样本集；

步骤1.3：如果重叠率IOU小于阈值0.3，则将归一化后的目标图像I₁'和待匹配图像I₂'在水平方向上合并为样本图像I'，并加入负样本集。

步骤2：定义多粒度扫描层和级联森林层并将两者串联，以样本图像作为多粒度扫描层的输入，以多粒度扫描层的输出作为级联森林层的输入，构建深度森林模型，具体如下：

步骤2.1：如图3所示，多粒度扫描层中包括3种扫描窗口：7×7、9×9和11×11，，每一种扫描窗口对应一个随机森林和一个完全随机树森林，每个随机森林和完全随机树森林各包括500棵决策树，最终将3个随机森林和3个完全随机树森林的输出相并联，构成特征向量作为级联森林层的输入；

步骤2.2：级联森林层中包括4个随机森林和4个完全随机树森林，每个随机森林和完全随机树森林各包括500棵决策树，对500个随机森林和500个完全随机树森林的输出进行平均，最终输出样本属于目标的概率向量。

步骤3：如图4所示，在训练集中，首先对多粒度扫描层进行训练，然后以训练之后多粒度扫描层输出的特征向量作为样本，对级联森林层进行训练；在训练过程中以深度森林模型测试准确性的增加值小于阈值作为训练停止条件，来确定级联森林层的层数，具体如下；

步骤3.2：令n＝n+1，增加新的级联森林层，以多粒度扫描层输出的特征向量和上一次级联森林层输出的概率向量共同作为样本，对新的级联森林层进行训练，计算新的测试准确性q_n，如果q_n-q_n-1＜0.02则转到步骤3.3，否则重复步骤3.2；

步骤3.3：结束训练，级联森林层的最终层数为n。

步骤4：读入跟踪视频，确定目标初始位置、尺寸，提取目标模板图像并归一化，在任意时刻以上一帧图像中的目标位置为中心定义局部搜索范围，对该搜索范围中的每一个候选位置，按照离散尺度间隔提取候选图像并归一化，将归一化后的目标模板图像与候选图像在水平方向上合并，并输入深度森林模型，对深度森林模型输出的概率进行比较，以最高概率所对应的位置作为目标当前位置，从而实现目标跟踪，具体如下：

步骤4.2：如图5所示，设定新的一帧为m＝m+1，定义第m帧中目标候选位置的搜索范围为{[x_m,y_m]||x_m-x_m-1|≤10,|y_m-y_m-1|≤10}，在该搜索范围中共有441个目标候选位置，每一个目标候选位置对应5个候选尺寸因子[0.9,0.95,1,1.05,1.1]，共有2205个目标候选图像，将它们按尺寸[32,32]进行归一化，得到目标候选图像集Z；

步骤4.3：如图6所示，分别将目标模板图像P₁'与目标候选图像集Z中的每一个目标候选图像在水平方向上进行合并，并输入深度森林模型，得到2205个概率，计算最大概率所对应的位置和尺寸作为目标在当前帧的位置[x_m,y_m]和尺寸[sx_m,sy_m]；

综上所述，本发明采用多粒度窗口进行扫描以提取图像原始特征，能够提取像素点之间的上下文联系，更好地对目标进行描述；在特征学习中对样本数量的要求较低，减少了目标跟踪中特征学习所需的样本数量，提高了小样本情况下目标跟踪的准确性和稳定性；并且在特征学习中能够自动确定级联森林层的层数，而不需要人工选择，从而对跟踪环境和跟踪对象的变化具有更好的适应性，并具有较好的实时性。

Claims

1.一种基于深度森林的目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度森林的目标跟踪方法，其特征在于，步骤1中所述的建立正负样本集，具体如下：

3.根据权利要求1所述的基于深度森林的目标跟踪方法，其特征在于，步骤2中所述的定义多粒度扫描层和级联森林层并将两者串联，以样本图像作为多粒度扫描层的输入，以多粒度扫描层的输出作为级联森林层的输入，构建深度森林模型，具体如下：

4.根据权利要求1所述的基于深度森林的目标跟踪方法，其特征在于，步骤3中所述的在训练过程中，以深度森林模型测试准确性的增加值小于阈值作为训练停止条件，来确定级联森林层的层数，具体如下：

步骤3.3：结束训练，级联森林层的最终层数为n。

5.根据权利要求1所述的基于深度森林的目标跟踪方法，其特征在于，步骤4中所述的读入跟踪视频，确定目标初始位置、尺寸，提取目标模板图像并归一化，在任意时刻以上一帧图像中的目标位置为中心定义局部搜索范围，对该搜索范围中的每一个候选位置，按照离散尺度间隔提取候选图像并归一化，将归一化后的目标模板图像与候选图像在水平方向上合并，并输入深度森林模型，对深度森林模型输出的概率进行比较，以最高概率所对应的位置作为目标当前位置，从而实现目标跟踪，具体如下：