CN109493371A

CN109493371A - 一种基于视觉的四旋翼无人机行人跟踪方法

Info

Publication number: CN109493371A
Application number: CN201811439663.8A
Authority: CN
Inventors: 郑恩辉; 刘宇皓
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-03-19

Abstract

本发明公开了一种基于机器视觉的四旋翼无人机行人跟踪方法，步骤包括：S1.运动物体检测，运动物体检测是指在视频中检测出运动的物体，计算机利用相邻帧之间的关联性，检测视频中运动的物体；S2.行人检测，通过运动物体检测后，得到运动区域，但这个物体有可能是车辆或其他，因此需要对检测的运动物体分类，当分类结果为行人时，再进行下一步的跟踪；S3.行人跟踪，在视频的每帧图像中都能检测出人体在图像中的具体位置，并以此得到感兴趣人体的运动轨迹。本发明能够基于视觉实现四旋翼无人机对行人目标跟踪，本发明不仅能够降低在行人目标追踪中的人力物力，还提高了追踪效率。

Description

一种基于视觉的四旋翼无人机行人跟踪方法

技术领域

本发明涉及一种具有自动跟踪能力的无人机系统，特别涉及一种基于机器视觉的四旋翼无人机行人跟踪方法。

背景技术

人体检测技术在很多领域都有着普遍的应用，是计算机视觉领域研究的热点，人体检测包括了运动人体的提取、检测、识别和跟踪等方面的内容，由于人体检测技术应用场景的不同和环境的复杂度不同，并且由于运动人体的随意性、姿态的多样性、人体服饰的差异性，加之可能存在的遮挡等问题，使人体检测存在着一定的难度和挑战，现实生活中常用的人体检测场景是固定摄像头的监控系统，对进入目标区域的人体进行检测和跟踪，当人体离开目标区域后，就无法对目标继续进行跟踪，所以借助无人机载体，可实现对行人目标进行持续跟踪。

在人体跟踪方面，采用CamShift算法对人体进行跟踪，当人体被完全遮挡时，CamShift算法就容易出现在跟踪过程中丢失目标的情况，针对这种情况，本论文采用算法结合粒子滤波算法来提高算法的跟踪效果。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供了一种基于视觉的四旋翼无人机人体跟踪方法，本发明不需要高额的成本和复杂的操作，只需要将多旋翼无人机悬停在人群上方，获取人体运动的视频，然后通过视频图像处理获得视频中人体影像区域，分析人体影像区域以及人体走向关系来跟踪人体，实现对人体的跟踪，是一种直接、便捷、适用性强的人体跟踪方法。

解决上述技术问题，本发明提出的技术方案为：

S1.运动物体检测：运动物体检测是指在视频中检测出运动的物体，计算机利用相邻帧之间的关联性，检测视频中运动的物体。

S2.行人检测：通过运动物体检测后，得到运动区域，但这个物体有可能是车辆或其他，因此需要对检测的运动物体分类，当分类结果为行人时，再进行下一步的跟踪。

S3.行人跟踪：在视频的每帧图像中都能检测出人体在图像中的具体位置，并以此得到感兴趣人体的运动轨迹。

作为本发明的进一步改进，所述步骤S1运动物体检测具体步骤为：

S11.本发明使用背景建模法，对视频中的运动物体进行检测，在背景建模法中，对于一幅待检测图像，在检测结果中，运动物体位置处的像素点成为运动点，其像素值为255，显示为白色，静止背景位置处的像素点为背景点，其像素值为0，显示为黑色，因此在检测结果中，白色区域表示运动物体的位置，黑色区域表示静止背景区域，但是在检测过程中，会存在噪声干扰，如树叶的扰动，导致得到的检测背景会有较多小白点，因此需要对检测到的运动区域进行噪声抑制处理，除去这些背景小噪声点，此外通过背景建模法检测的运动区域中会有黑色小空洞，导致检测的运动物体轮廓不够完整，需要对图像进行形态分析，来改善轮廓的边缘完整程度；

S12.中值滤波在噪声抑制中应用比较广泛，其原理是查找模板中像素点的中值，使用该中值作为滤波结果，属于非线性滤波，本发明滤波器的模板大小是3*3，滤波过程是找到模板中9个像素值的中间值；

S13.对于运动区域存在的小空洞及区域不完整、目标边缘断裂等问题，使用图像形态学操作后使得运动区域的轮廓更加完整，提取的物体特征更完全，对后面的行人检测十分重要，腐蚀将图像中的小边界点除去，能够消除目标之间的细微连接，膨胀处理能够扩张与目标区域连接的背景点，使该背景点包含到目标区域中，本发明使用闭运算，闭运算处理是将膨胀和腐蚀结合使用。

作为本发明的进一步改进，所述步骤S2运动行人识别具体步骤为：

S21.人眼能直接识别视频中运动的行人而计算机是需要利用相邻帧之间的关联性，检测视频中运动的物体，然后利用机器学习的方法，对运动物体进行分类，识别其中的运动行人；

S22.计算机自行对物体分类，需要用到机器学习的方法，基于机器学习的计算机分类原理简单，给机器大量样本，通过HOG算法提取特征，告诉机器具有某种特征的是行人，具有其他特征的不是行人，这样机器通过分类算法建立分类器，然后用没参与训练的图片来检验机器的学习效果，测试模型否能将图片准确分类，分类准确说明训练效果好，分类错误则继续训练；

S23.本发明在训练分类器时，正样本为行人，从INRIA行人检测训练数据库中获得，该样本库是目前比较全的样本库，样本库中有大量可以用来训练分类器的样本，本文从该样本库中挑选正样本，正样本包括各种姿态、各种场合的行人图片，由于在运动物体检测时，通常检测到的物体不是行人就是车辆，因此负样本采用车辆图片，负样本主要来源于斯坦福大学以及麻省理工学院的车辆样本数据库，其中大量负样本图片为各种颜色、型号以及大小的车辆。在校园、马路上拍摄汽车图片，并对其进行剪裁，只保留车辆区域，做成负样本图片，在本文中，正样本的标签为1，负样本的标签为0，在分类器的训练过程中，输入一张训练样本，当样本为行人时，标签为1，当样本为车辆时，标签为0；

S24.本发明使用支持向量机训练分类器，每个cell的大小是8x8，每个block的大小是16x16，窗口的大小是64x64，块的滑动增量是8x8，每个cell中有9个直方图通道，核函数选择线性核函数，计算速度快，分类准确率在接受范围之内，训练过程中，在读取训练样本时，先是将所有样本的路径存储在一个TXT文件中，TXT文件路径格式为一行样本路径，一行样本标签，分类器在训练时，分别读取样本和样本标签，提取所有训练样本的HOG特征和训练标签，然后将其存储起来送入SVM中进行训练。

作为本发明的进一步改进，所述步骤S3行人跟踪具体步骤为：

CamShift算法在对目标人体进行跟踪的过程中，它首先将目标人体的颜色空间从RGB空间转变到HSV空间，CamShift算法将H分量从S分量和V分量中分离出来，得到H的一维色调通道的直方图，CamShift算法在搜索过程中的搜索窗口是能够自动调整的，并且该搜索窗口的宽度和高度是根据其零阶矩动态决定的，CamShift算法的搜索窗相比较Mean-Shift算法的跟踪窗口而言能够动态的调整大小以适应人体尺度的变化。

粒子滤波算法中粒子代表着描述目标运动状态的点，粒子滤波简单来讲就是通过从后验概率中提取出来的随机粒子来近似地表达目标出现在某个位置的概率，其中描述目标位置的随机粒子越多，越能够准确地描述目标的位置信息，当描述目标位置信息的随机粒子数量趋于无穷时可以逼近任何形式的概率密度分布，但这也正是粒子滤波算法的缺点所在，如何想要很好的逼近系统的后验概率密度函数就需要大量的样本粒子，而样本粒子数目越多，则算法的复杂度就越高，因此如何使用较少的粒子数量很好地描述系统的后验概率密度是该算法的研究重点。

根据无人机和动态行人目标的运动状态通过逆变换利用虚拟控制量计算出无人机期望的飞行速度和姿态，当无人机按照该位姿和速度飞行时，不仅可以与动态目标保持预期的相对位姿，同时还可以确保无人机在相对安全的模式下跟踪目标飞行，在设计飞行控制器时，采用了经典PID控制方法使无人机按照期望的位姿和速度飞行。

与现有技术相比，本发明的优点在于：

(1)对于运动物体检测方法的研究，常用的运动目标检测方法有连续帧间差分法、光流场法、背景建模法，相比其他方法，本发明运用背景建模方法，本发明运用ViBe建模方法，ViBe建模方法检测的轮廓完整性较好，且背景噪声少，检测效果好，因而本发明选择ViBe建模方法作为检测算法。

(2)因为本发明研究的是行人检测，因此运动物体检测以后，需要对检测的物体进行分类，因此训练分类器，对检测的目标分类，确定运动物体是行人还是车辆或其他，本发明选择HOG特征作为图像的分类特征，选择SVM算法作为分类算法，采用大量的训练样本，训练行人分类器，训练得到的分类器准确率为0.947，能达到基本分类要求。

(3)人体跟踪部分，采用了一种基于CamShift算法和粒子滤波算法相结合的跟踪算法，CamShift算法具有计算量小，实时性好的优点，但是CamShift算法是一种基于颜色特征的算法，对人体的背景很敏感，并且当人体完全被遮挡时很容易跟丢目标，将CamShift算法和粒子滤波算法结合起来就可以通过少量的相关粒子提高对人体跟踪的效果和实时性。

附图说明

图1是本发明提供的方法的流程示意图。

图2是本发明行人检测系统流程示意图。

图3是本发明基于HOG特征的SVM分类器训练示意图。

图4是本发明基于HOG特征的SVM分类器识别示意图。

具体实施方式

以下将参照附图，对本发明的优选实例进行详细的描述，应当理解，优先权实施例权为了说明本发明，而不是为了限制本发明的保护范围。

如图1表示，本发明一种基于视觉的四旋翼无人机人体跟踪方法，步骤包括：

S1.运动物体检测：运动物体检测是指在视频中检测出运动的物体，计算机利用相邻帧之间的关联性，检测视频中运动的物体；

S2.行人检测：通过运动物体检测后，得到运动区域，但这个物体有可能是车辆或其他，因此需要对检测的运动物体分类，当分类结果为行人时，再进行下一步的跟踪；

本发明通过输入视频序列，我们使用HOG结合SVM算法对视频序列中的人体进行检测，识别出人体目标，然后我们对选定的目标人体进行粒子集的初始化操作，通过对人体运动状态的预测获取描述人体运动的采样粒子集，我们对获取到的采样粒子集再使用CamShift算法进行漂移运算从而得到收敛的粒子集，最后我们通过对粒子集进行重新采样，动态保留最能描述人体运动的粒子，通过保留下来的粒子来估计人体运动的状态。

如图2所示，在具体实施中，步骤S1运动物体检测具体步骤为：

本发明使用背景建模法，对视频中的运动物体进行检测，在背景建模法中，对于一幅待检测图像，在检测结果中，运动物体位置处的像素点成为运动点，其像素值为255，显示为白色，静止背景位置处的像素点为背景点，其像素值为0，显示为黑色，因此在检测结果中，白色区域表示运动物体的位置，黑色区域表示静止背景区域，但是在检测过程中，会存在噪声干扰，如树叶的扰动，导致得到的检测背景会有较多小白点，因此需要对检测到的运动区域进行噪声抑制处理，除去这些背景小噪声点，此外通过背景建模法检测的运动区域中会有黑色小空洞，导致检测的运动物体轮廓不够完整，需要对图像进行形态分析，来改善轮廓的边缘完整程度。

S12.中值滤波在噪声抑制中应用比较广泛，其原理是查找模板中像素点的中值，使用该中值作为滤波结果，属于非线性滤波,本发明滤波器的模板大小是3*3,滤波过程是找到模板中9个像素值的中间值。

S13.对于运动区域存在的小空洞及区域不完整、目标边缘断裂等问题，使用图像形态学操作后使得运动区域的轮廓更加完整，提取的物体特征更完全，对后面的行人检测十分重要,腐蚀将图像中的小边界点除去，能够消除目标之间的细微连接,膨胀处理能够扩张与目标区域连接的背景点，使该背景点包含到目标区域中,本发明使用闭运算，闭运算处理是将膨胀和腐蚀结合使用。

背景建模法，利用初始多帧图像建立一个背景图像模型，背景图像中每个位置的像素都是由模型函数表示,采用背景建模法检测运动物体时，就是对当前图像中每一个位置的像素进行分类，判定它是背景像素还是前景像素,因此背景建模法检测运动物体时，关键之处在于背景模型的建立，以及新像素的分类。

在具体实施中，背景建模采用VIBe背景建模法,该算法利用图像序列的第一帧图像建立模型，因此能够快速建立背景模型来检测运动物体,该算法将物体检测看作分类问题，对于当前帧图像中每个像素，判断一个像素是前景像素或背景像素，主要根据该像素与样本集的交集个数,在背景模型初始化及背景更新时，主要采用随机机制，随机选择样本构建背景模型。

背景模型初始化，ViBe算法利用视频首帧图像进行背景模型初始化，在建立背景模型时，首先建立n帧空样本集，该样本集尺寸与原视频图像一致，从首帧图像每个像素点的八邻域，随机选择像素保存到样本集中，在图像中x位置的像素值，用ν(x)来表示，v_i表示第i个样本,在x位置处n个背景样本集表示为M(x)＝{ν₁,ν₂,...,ν_n}。

像素分类，定义S_R(v(x))表示以v(x)为中心，半径为阈值R的球体，计算v(x)与M(x)中n个样本的欧式距离，若v(x)与M(x)的交集满足设定的个数，判定v(x)是背景像素，否则认为v(x)是前景像素。

背景模型更新，在更新背景模型时，当像素v(x)被判定为背景像素时，随机选择样本M(x)中的一个样本值，将该样本值用v(x)替换,为了保持像素领域空间一致性，在对v(x)的背景样本更新时，用同样方法对v(x)领域像素的背景样本进行更新。

如图3及图4所示，在具体实施中，作为本发明的进一步改进，所述步骤S2运动行人识别具体步骤为：

S22.计算机自行对物体分类，需要用到机器学习的方法，基于机器学习的计算机分类原理简单，给机器大量样本，通过HOG算法提取特征，告诉机器具有某种特征的是行人，具有其他特征的不是行人，这样机器通过分类算法建立分类器，然后用没参与训练的图片来检验机器的学习效果，测试模型否能将图片准确分类，分类准确说明训练效果好，分类错误则继续训练。

S23.本发明在训练分类器时，正样本为行人，从INRIA行人检测训练数据库中获得，该样本库是目前比较全的样本库，样本库中有大量可以用来训练分类器的样本，本文从该样本库中挑选正样本，正样本包括各种姿态、各种场合的行人图片，由于在运动物体检测时，通常检测到的物体不是行人就是车辆，因此负样本采用车辆图片，负样本主要来源于斯坦福大学以及麻省理工学院的车辆样本数据库，其中大量负样本图片为各种颜色、型号以及大小的车辆，在校园、马路上拍摄汽车图片，并对其进行剪裁，只保留车辆区域，做成负样本图片，在本文中，正样本的标签为1，负样本的标签为0，在分类器的训练过程中，输入一张训练样本，当样本为行人时，标签为1，当样本为车辆时，标签为0。

在具体实施中，所述步骤S3行人跟踪具体步骤为：

S31.CamShift算法在对目标人体进行跟踪的过程中，它首先将目标人体的颜色空间从RGB空间转变到HSV空间，CamShift算法将H分量从S分量和V分量中分离出来，得到H的一维色调通道的直方图，CamShift算法在搜索过程中的搜索窗口是能够自动调整的，并且该搜索窗口的宽度和高度是根据其零阶矩动态决定的，CamShift算法的搜索窗相比较Mean-Shift算法的跟踪窗口而言能够动态的调整大小以适应人体尺度的变化。

S32.粒子滤波算法中粒子代表着描述目标运动状态的点，粒子滤波简单来讲就是通过从后验概率中提取出来的随机粒子来近似地表达目标出现在某个位置的概率，其中描述目标位置的随机粒子越多，越能够准确地描述目标的位置信息，当描述目标位置信息的随机粒子数量趋于无穷时可以逼近任何形式的概率密度分布，但这也正是粒子滤波算法的缺点所在，如何想要很好的逼近系统的后验概率密度函数就需要大量的样本粒子，而样本粒子数目越多，则算法的复杂度就越高，因此如何使用较少的粒子数量很好地描述系统的后验概率密度是该算法的研究重点。

将行人检测和人体跟踪部分结合起来组成一个行人检测跟踪的系统，该系统可以对静态图片和视频序列中的人体进行自动检测和跟踪，这种自动检测和跟踪的方式能够有效的解决传统的手动画框跟踪带来的跟踪框画不准等人为问题。

Claims

1.一种基于视觉的四旋翼无人机行人跟踪方法，其特征在于，步骤包括：

2.根据权利要求1所述的一种基于视觉的四旋翼无人机行人跟踪方法，其特征在于所述步骤S1运动物体检测具体步骤为：

3.根据权利要求2所述的一种基于视觉的四旋翼无人机行人跟踪方法，其特征在于，所述步骤S11中噪声抑制具体步骤为：中值滤波应用比较广泛，其原理是查找模板中像素点的中值，使用该中值作为滤波结果，属于非线性滤波，本发明滤波器的模板大小是3*3，滤波过程是找到模板中9个像素值的中间值。

4.根据权利要求2所述的一种基于视觉的四旋翼无人机行人跟踪方法，其特征在于，所述步骤S11中形态学分析具体步骤为：对于运动区域存在的小空洞及区域不完整、目标边缘断裂等问题，使用图像形态学操作后使得运动区域的轮廓更加完整，提取的物体特征更完全，对后面的行人检测十分重要，腐蚀将图像中的小边界点除去，能够消除目标之间的细微连接，膨胀处理能够扩张与目标区域连接的背景点，使该背景点包含到目标区域中，本发明使用闭运算，闭运算处理是将膨胀和腐蚀结合使用。

5.根据权利要求1所述的一种基于视觉的四旋翼无人机行人跟踪方法，其特征在于所述步骤S2运动行人识别具体步骤为：

6.根据权利要求5所述的一种基于视觉的四旋翼无人机行人跟踪方法，其特征在于，所述步骤S22中样本选择具体步骤为：本发明在训练分类器时，正样本为行人，从INRIA行人检测训练数据库中获得，该样本库是目前比较全的样本库，样本库中有大量可以用来训练分类器的样本，本文从该样本库中挑选正样本，正样本包括各种姿态、各种场合的行人图片，由于在运动物体检测时，通常检测到的物体不是行人就是车辆，因此负样本采用车辆图片，负样本主要来源于斯坦福大学以及麻省理工学院的车辆样本数据库，其中大量负样本图片为各种颜色、型号以及大小的车辆，在校园、马路上拍摄汽车图片，并对其进行剪裁，只保留车辆区域，做成负样本图片，在本文中，正样本的标签为1，负样本的标签为0，在分类器的训练过程中，输入一张训练样本，当样本为行人时，标签为1，当样本为车辆时，标签为0。

7.根据权利要求5所述的一种基于视觉的四旋翼无人机行人跟踪方法，其特征在于，所述步骤S22中训练分类器具体步骤为：本发明使用支持向量机训练分类器，每个cell的大小是8x8，每个block的大小是16x16，窗口的大小是64x64，块的滑动增量是8x8，每个cell中有9个直方图通道，核函数选择线性核函数，计算速度快，分类准确率在接受范围之内，训练过程中，在读取训练样本时，先是将所有样本的路径存储在一个TXT文件中，TXT文件路径格式为一行样本路径，一行样本标签，分类器在训练时，分别读取样本和样本标签，提取所有训练样本的HOG特征和训练标签，然后将其存储起来送入SVM中进行训练。

8.根据权利要求1所述的一种基于视觉的四旋翼无人机行人跟踪方法，其特征在于所述步骤S3所述行人跟踪具体采用以下方式：

S31.CamShift算法在对目标人体进行跟踪的过程中，它首先将目标人体的颜色空间从RGB空间转变到HSV空间，CamShift算法将H分量从S分量和V分量中分离出来，得到H的一维色调通道的直方图，CamShift算法在搜索过程中的搜索窗口是能够自动调整的，并且该搜索窗口的宽度和高度是根据其零阶矩动态决定的，CamShift算法的搜索窗相比较Mean-Shift算法的跟踪窗口而言能够动态的调整大小以适应人体尺度的变化；

9.根据权利要求8所述的一种基于视觉的四旋翼无人机行人跟踪方法，其特征在于，所述步骤S3后，还包括据无人机和动态行人目标的运动状态通过逆变换利用虚拟控制量计算出无人机期望的飞行速度和姿态，当无人机按照该位姿和速度飞行时，不仅可以与动态目标保持预期的相对位姿，同时还可以确保无人机在相对安全的模式下跟踪目标飞行。在设计飞行控制器时，采用了经典PID控制方法使无人机按照期望的位姿和速度飞行。