CN112731918B

CN112731918B - 一种基于深度学习检测跟踪的地面无人平台自主跟随系统

Info

Publication number: CN112731918B
Application number: CN202011378759.5A
Authority: CN
Inventors: 王建中; 王洪枫; 孙庸; 其他发明人请求不公开姓名
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-02-11
Anticipated expiration: 2040-11-30
Also published as: CN112731918A

Abstract

本发明公开了一种基于深度学习检测跟踪的地面无人平台自主跟随系统，包括地面无人平台、三轴自稳定云台、深度相机、数据处理模块和电源模块；本发明能够从多个候选目标中自主选定待跟踪目标，实现长时间稳定精准跟随。

Description

一种基于深度学习检测跟踪的地面无人平台自主跟随系统

技术领域

本发明属于地面无人平台自主跟随系统的技术领域，具体涉及一种基于深度学习检测跟踪的地面无人平台自主跟随系统。

背景技术

地面无人平台自主跟随系统能够自主获取待跟踪目标位置信息，并跟随待跟踪目标运动。地面无人平台自主跟随使用者运动，提升了人机交互能力，可以大幅减少使用者的操控负担，减少操控失误；解放使用者双手，使用者可从事其它工作。本发明可用于军事领域，例如无人武器装备伴随机动、转运伤员、运输物资等；可用于商业领域，例如伴随服务、货物运输等；可用于医疗及服务领域，例如病患转运、看护陪伴等；可用于科考领域，例如科研设备伴随运输、试验过程记录等；以及其它领域，具有十分广泛的应用。

目前地面无人平台跟随人员目标主要有操控和自主两种方式。人工操控方式智能化和人机交互能力较低，操作人员需要携带额外的操作终端，通过手动操作的方式指挥地面无人平台的移动，操作量较大。自主方式包括基于激光雷达自主跟随、基于点云地图自主跟随、基于视觉图像自主跟随等。其中基于激光雷达自主跟随、基于点云地图自主跟随存在硬件成本高、跟踪精度有限、需辅助人员手动指定目标等问题。基于视觉图像自主跟随目前多利用目标位置连续性、目标颜色特征、目标检测网络等方式，具有目标定位精度高、跟踪精度高、系统鲁棒性好等优势，但仍存在一些亟待解决的问题：启动跟踪前需辅助人员手动指定目标；目标丢失后难以重新捕获指定目标，需要辅助人员重新指定目标；利用目标位置连续性、目标颜色特征的自主跟随，跟踪过程中易受目标被遮挡、同类目标干扰等影响，难以长时间稳定地自主跟随；利用目标检测网络的自主跟随，其网络结构多针对多类目标检测设计，结构复杂，实时性有限。

目前大多数地面无人平台用于自主跟随的深度相机等传感器均固连于地面平台，即深度相机等传感器感受范围完全由地面平台决定。地面平台受所处地形影响较大，在复杂地形下往往难以运动到理论位姿，导致被跟踪目标可能移出传感器视场而丢失。

发明内容

有鉴于此，本发明提供了一种基于深度学习检测跟踪的地面无人平台自主跟随系统，能够从多个候选目标中自主选定待跟踪目标，实现长时间稳定精准跟随。

实现本发明的技术方案如下：

一种基于深度学习检测跟踪的地面无人平台自主跟随系统，包括地面无人平台、三轴自稳定云台、深度相机、数据处理模块和电源模块；

所述地面无人平台用于承载三轴自稳定云台、深度相机、数据处理模块和电源模块；并根据数据处理模块发送的控制量向待跟踪目标运动或保持原位置；

所述三轴自稳定云台用于承载深度相机，并根据数据处理模块发送的控制量控制自身的运动，确保待跟踪目标在深度相机视场内；并滤除地面无人平台行驶过程中产生的抖动，保持深度相机稳定；

深度相机包括1个白光相机、1个阵列射灯、1对红外相机和内置处理器；白光相机提供RGB彩色图像，阵列射灯、红外相机提供深度图像；深度相机的内置处理器提供RGB彩色图像与深度图像的位置映射关系，即在RGB彩色图像中定位目标后，在深度图像中获取目标距离；RGB彩色图像用于目标检测与跟踪，深度图像用于测量地面无人平台所处位置与待跟踪目标距离；

所述数据处理模块用于对深度相机数据进行处理，确定跟踪目标、进行目标跟踪、控制地面无人平台和三轴自稳定云台运动；所述数据处理模块利用YOLO-S目标检测算法对RGB彩色图像进行目标检测，得到一个或多个候选目标；利用目标筛选器对一个或多个候选目标图像进行姿态识别，选取设定姿态的候选目标作为待跟踪目标；利用TripleRPN目标跟踪算法实时跟踪目标，得到目标在场景图像中的像素坐标；利用像素-角公式计算待跟踪目标与地面无人平台的相对角度关系，利用深度图像获取待跟踪目标与地面无人平台距离，计算地面无人平台的控制量，使得地面无人平台转向待跟踪目标，计算三轴自稳定云台的控制量，使得三轴自稳定云台保持待跟踪目标在深度相机视场内；

所述电源模块为三轴自稳定云台、深度相机和数据处理模块供电。

进一步地，所述地面无人平台包括底盘、行驶机构、摆臂、内置运动控制板和内置电源，内置运动控制板控制地面无人平台转向待跟踪目标，内置电源为地面无人平台供电。

进一步地，所述三轴自稳定云台包括底座、方位轴框架、方位轴电机、滚转轴框架、滚转轴电机、俯仰轴框架、俯仰轴电机、惯性传感器和云台驱动器。

进一步地，YOLO-S目标检测算法的网络结构包含特征提取网络、检测网络，特征提取网络依次由2个卷积层、1个残差模块、1个卷积层、2个残差模块、1个卷积层、4个残差模块、1个卷积层、4个残差模块、1个卷积层、4个残差模块组成，检测网络由3个卷积层、YOLO层组成；提取特征提取网络中第7个、第11个、第15个残差模块输出的特征图作为其最终输出，输入检测网络进行检测。

进一步地，目标筛选器使用CPM进行人体姿态识别，根据设定人体姿态下关节点的位置关系，选取设定姿态的候选目标作为待跟踪目标。

进一步的，TripleRPN目标跟踪算法的网络结构包括输入层、特征提取网络和区域候选网络；特征提取网络由三个具有相同网络结构、参数、权重的网络I、II、III组成，网络I输出初始帧模板特征图，即初始帧待跟踪目标图像经网络I处理后得到的特征图；网络II输出待检测帧特征图，即场景图像经网络II处理后得到的特征图；网络III输出更新帧模板特征图，即更新帧待跟踪目标图像经网络III处理得到的特征图；启动跟踪时，更新帧待跟踪目标图像与初始帧待跟踪目标图像相同，然后采用TAA策略进行更新。

进一步地，使用分布式跟踪策略进行目标跟踪，在复杂地形环境下进行目标跟踪时，对目标的跟踪运动由地面无人平台运动、三轴自稳定云台运动共同实现：在地面无人平台难以到达理想位姿时，利用三轴自稳定云台运动完成目标跟踪；在下次跟踪运动时，地面无人平台完成跟踪运动，三轴自稳定云台恢复镜头主轴与无人平台中轴共面状态。

有益效果：

1、相较于基于激光雷达自主跟随技术、基于点云地图自主跟随技术，本发明自主跟随技术目标定位精度高、跟踪精度高、硬件成本低、无需辅助人员手动指定跟踪目标。

2、相较于采用利用目标位置连续性、目标颜色特征等方式基于视觉图像自主跟随技术，本发明的自主跟随技术无需辅助人员手动指定待跟踪目标，受目标被遮挡、同类目标等干扰影响小，能够长时间稳定准确跟踪。

3、相较于采用目标检测网络等方式基于视觉图像自主跟随技术，本发明的自主跟随技术无需辅助人员手动指定待跟踪目标，本发明的YOLO-S网络结构针对单类目标检测精简优化，保证准确性前提下具有更高实时性。

4、相较于深度相机等传感器固连于地面无人平台的传统自主跟随系统，本发明自主跟随系统深度相机通过安装于地面无人平台的三轴自稳定云台，排除地形影响，能够在复杂地形环境下跟随目标，且大幅降低地面无人平台行驶过程中带来的相机抖动，提高相机画面清晰度，保证较高的目标定位精度、跟踪精度。

附图说明

图1为本发明中地面无人平台自主跟随系统整体示意图。

图2为本发明中地面无人平台结构示意图。

图3为本发明中三轴自稳定云台结构示意图。

图4为本发明中自主跟随系统控制策略图。

图5为本发明中YOLO-S网络结构图。

图6为本发明中目标筛选器工作流程图。

图7为本发明中CPM网络结构图。

图8为本发明中人体关节点图。

图9为本发明中TripleRPN网络结构图。

图10为本发明中TAA策略流程图。

图11为本发明中水平方向像素-角关系图。

图12为本发明中地面无人平台、三轴自稳定云台分布式控制策略图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

参见附图1，一种基于深度学习检测跟踪的地面无人平台自主跟随系统，包括：地面无人平台、三轴自稳定云台、深度相机、数据处理模块、电源模块。

参见附图2，地面无人平台采用履带式行驶机构，在沙地、土壤、碎石、水泥地面等复杂环境下具有良好的通过性。前主动轮外安装有角度可调的摆臂，使平台具有一定越障能力，可适应楼梯、陡坡、坑道等多种复杂场景。

参见附图3，三轴自稳定云台由底座、方位轴框架、方位轴电机、滚转轴框架、滚转轴电机、俯仰轴框架、俯仰轴电机、惯性传感器和云台驱动器组成。方位轴框架、方位轴电机实现云台方位运动，滚转轴框架、滚转轴电机实现云台滚转运动，俯仰轴框架、俯仰轴电机实现云台俯仰运动。惯性传感器安装于俯仰轴框架底部，获取云台当前姿态，传输至云台驱动器，实现云台自稳定。

参见附图4，三轴自稳定云台上深度相机采集包含目标的实时RGB图像作为场景图像，发送至数据处理模块。数据处理模块利用YOLO-S目标检测算法进行目标检测，得到一个或多个候选目标，并提取候选目标图像；利用目标筛选器对候选目标图像进行姿态识别，筛选出特定姿态的目标，将其作为待跟踪目标；利用像素-角公式计算待跟踪目标与地面无人平台相对角度关系，计算地面无人平台和三轴自稳定云台控制量，控制其运动，实现对目标的自主跟随。

参见附图5，YOLOv3算法具有处理速度快、实时性高等特点，但其针对多类目标进行检测，对于单一类别目标检测网络结构较为复杂。YOLO-S是本发明对YOLOv3网络结构进一步精简优化，针对行人目标进行检测，在保证精度前提下进一步提高了处理速度和实时性。YOLO-S网络结构包含特征提取网络、检测网络，特征提取网络依次由2个卷积层、1个残差模块、1个卷积层、2个残差模块、1个卷积层、4个残差模块、1个卷积层、4个残差模块、1个卷积层、4个残差模块组成，检测网络由3个卷积层、YOLO层组成；提取特征提取网络中第7个、第11个、第15个残差模块输出的特征图作为其最终输出，输入检测网络进行检测。

YOLO-S对图像进行目标检测时，首先将其放缩至416*416标准尺寸大小，然后输入网络进行特征提取。特征提取网络在13*13、26*26、52*52三个尺度上进行特征提取，同时保证了大目标和小目标的敏感性。特征提取网络输出尺寸为S×S×[A×(5+1)]的特征图，其中S为特征图尺寸，A为锚点框数量。分类回归阶段，选用二分类交叉熵损失函数作为分类损失函数。位置回归阶段，YOLO-S先遍历特征图，通过非极大值抑制筛选出置信度达到阈值的单元格，然后利用logistic分类器进行边界框预测，对于第i个单元格如式(1)所示。

式中，

为边界框坐标和宽高，t_xi、t_yi、t_wi、t_hi为边界框坐标和长宽的预测参数，c_xi、c_yi为当前单元格偏移量，p_wi、p_hi为预设锚点框的宽高。

损失函数如式(2)所示。

式中，λ_coor、λ_noobj为权重系数；

在第i单元格第j锚点框负责检测目标时为1，其余为0；

在第i单元格第j锚点框无检测目标时为1，其余为0；x_i、y_i、w_i、h_i为第i单元格目标的坐标和宽高真实值；

为第i单元格目标的坐标和宽高预测值；c_i在第i单元格包含目标概率真实值，

为第i单元格包含目标概率预测值；p_i(c)为第i单元格目标为类别c概率真实值，

第i单元格目标为类别c概率预测值。

参见附图6，目标筛选器采用自上而下的姿态识别算法，检测并定位待检测图像中所有人形目标，然后依次在每个人形目标区域检测人体关节点，从而实现姿态识别。通过YOLO-S检测场景图像获取候选目标后，裁剪得到一个或多个候选目标图像，每个候选目标图像中包含一个人形目标；对候选目标图像依次采用CPM(Convolutional Pose Machine)进行姿态检测，选取特定姿态的候选目标作为跟随目标。

参见附图7，CPM网络将候选目标图像转化为不同尺度特征图，通过同一特征提取网络获得不同尺度下目标关节点响应情况；然后对特征图进行叠加，得到最终响应结果；遍历特征图，各个关节点对应的最高相应区域即为该关节的关键点。CPM网络将浅层网络特征图与深层网络特征图进行融合，使最终特征图保留了目标的纹理特征、空间特征，提高了准确度。

参见附图8，选取高举双手的候选目标作为待跟踪目标，通过CPM可以检测得到人体关节点坐标，第i个关节点坐标用[x_i,y_i]表示，其中右臂肩关节i＝1、右臂肘关节i＝2、右臂腕关节i＝3、左臂肩关节i＝4、左臂肘关节i＝5、左臂腕关节i＝6。根据人体关节点相对关系可知，高举双手的候选目标其关节点坐标存在如式(3)所示关系，利用式(3)即可筛选得到高举双手姿态的待跟踪目标，确定待跟踪目标图像。跟踪过程中如果出现目标丢失，则利用目标筛选器重新选择目标进行跟踪；跟踪过程中可同时执行目标检测、目标筛选，有新的待跟踪目标产生时，对新的待跟踪目标进行跟踪。

参见附图9，利用本发明提出的TripleRPN(Triple region proposal network，三联区域候选网络)进行目标跟踪，TripleRPN主要有输入层(Input)、特征提取网络(Triplenet)和区域候选网络(RPN)组成。

三轴自稳定云台上的深度相机采集的场景图像经输入层裁剪边长为S_z的正方形区域，S_z如式(4)所示。

式中，w为场景图像宽度，h为场景图像高度。若原图像尺寸偏小，则以各通道平均像素值填充空白区域，对裁剪后图像进行放缩，最终得到尺寸统一的输入图像。

特征提取网络由三个具有相同网络结构、参数、权重的网络I、II、III组成，其结构如表(1)所示。网络I输出初始帧模板特征图，即初始帧待跟踪目标图像经网络I处理后得到的特征图；网络II输出待检测帧特征图，即场景图像经网络II处理后得到的特征图；网络III输出更新帧模板特征图，即更新帧待跟踪目标图像经网络III处理得到的特征图。启动跟踪时，更新帧待跟踪目标图像与初始帧待跟踪目标图像相同，然后采用TAA策略进行更新。

表(1)Feature extractor网络结构

区域候选网络包括分类分支(Classification branch)和回归分支(RegressionBranch)。对于分类分支，“初始帧模板特征图-待检测帧特征图”、“更新帧模板特征图-待检测帧特征图”作为两组输入，分别经过一个卷积层(Conv2d)，然后两组输入分别进行互相关(Cross correlation)，得到两个分类得分图

对两个分类得分图进行如式(5)所示的加权平均，得到最终的分类得分图

对于回归分支，进行上述操作可得坐标特征图

式中，m、n为权重系数，

为回归分支中“初始帧模板特征图-待检测帧特征图”、“更新帧模板特征图-待检测帧特征图”两组输入经互相关后的两个坐标特征图。根据分类得分图

选取得分最高处和对应的坐标特征图

中边界框信息作为计算结果，得到待跟踪目标在场景图像中的坐标。

参见附图10，输入网络3的更新帧模板采用跟踪区域自适应(Tracking areaadaption，以下简称TAA)策略进行更新。以分类得分图

中最大处的值(Classificationbranch score，以下简称为CB Score)为更新帧模板是否更新的依据。“初始帧模板特征图-待检测帧特征图-更新帧模板特征图”经分类分支处理后得到CB Score，记作Cls1。当Cls1小于给定阈值t1时，启动更新帧模板更新测试：根据上一次目标跟踪得到的目标信息，裁剪上一次图像得到临时模板，“初始帧模板特征图-待检测帧特征图-临时模板特征图”经分类分支处理后得到CB Score，记作Cls2；若Cls2大于给定阈值t2，则将更新帧模板替换完临时模板，得到新的更新帧模板；否则更新帧模板不进行替换。

参见附图11，利用像素-角公式，可以由场景图像中待跟踪目标坐标(x_t,y_t)得到待跟踪目标与地面无人平台的相对角度关系(α_t,β_t)，从而实现对待跟踪目标的随动。水平方向上，w为场景图像中场景的实际宽度，w_t为场景中待跟踪目标与相机主轴的水平距离；α_t为待跟踪目标与相机主轴的水平方向夹角，α为相机水平方向视场角；w_pixel为相机水平方向分辨率；d为待跟踪目标所在平面与相机镜头平面距离。可得方程组如式(6)。

解得

由相机成像基本原理可得

代入α_t可得如式(7)，同理可得β_t如式(8)。

其中β_t为待跟踪目标与相机主轴的竖直方向夹角，β为相机竖直方向视场角，h_pixel为相机竖直方向分辨率。

参见附图12，使用分布式跟踪策略进行目标跟踪。在复杂地形环境下进行目标跟踪时，对目标的跟踪运动由地面无人平台运动、三轴自稳定云台运动共同实现：在地面无人平台难以到达理想位姿时，利用三轴自稳定云台运动完成目标跟踪；在下次跟踪运动时，地面无人平台完成跟踪运动，三轴自稳定云台恢复镜头主轴与无人平台中轴共面状态。

分别利用方位控制量α_t、俯仰控制量β_t驱动地面无人平台、三轴自稳定云台运动。地面无人平台接收方位控制量α_t、目标距离，然后进行方向调整，使其转向待跟踪目标，当其可以正对待跟踪目标时，进入下一步比较目标距离与给定阈值；当其受阻碍不能正对待跟踪目标时，将未完成转动的方位角作为方位纠正量发送至三轴自稳定云台和数据处理模块，进入下一步比较目标距离与给定阈值。地面无人平台比较当前位置目标距离与给定阈值，当目标距离大于给定阈值，则向前行驶，否则保持静止。

三轴自稳定云台接收俯仰控制量β_t、方位纠正量，俯仰运动使待跟踪目标位于场景图像竖直方向中心附近，方位运动保证待跟踪目标在场景图像内，防止丢失待跟踪目标。数据处理模块接收方位纠正量后，在下次运动时对地面无人平台的方位控制量叠加上述方位纠正量，并控制三轴自稳定云台转回上述方位纠正量，从而恢复地面无人平台中轴线与三轴自稳定云台相机镜头主轴位于同一竖直平面内，对准待跟踪目标。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习检测跟踪的地面无人平台自主跟随系统，其特征在于，包括地面无人平台、三轴自稳定云台、深度相机、数据处理模块和电源模块；

2.如权利要求1所述的一种基于深度学习检测跟踪的地面无人平台自主跟随系统，其特征在于，所述地面无人平台包括底盘、行驶机构、摆臂、内置运动控制板和内置电源，内置运动控制板控制地面无人平台转向待跟踪目标，内置电源为地面无人平台供电。

3.如权利要求1所述的一种基于深度学习检测跟踪的地面无人平台自主跟随系统，其特征在于，所述三轴自稳定云台包括底座、方位轴框架、方位轴电机、滚转轴框架、滚转轴电机、俯仰轴框架、俯仰轴电机、惯性传感器和云台驱动器。

4.如权利要求1所述的一种基于深度学习检测跟踪的地面无人平台自主跟随系统，其特征在于，YOLO-S目标检测算法的网络结构包含特征提取网络、检测网络，特征提取网络依次由2个卷积层、1个残差模块、1个卷积层、2个残差模块、1个卷积层、4个残差模块、1个卷积层、4个残差模块、1个卷积层、4个残差模块组成，检测网络由3个卷积层、YOLO层组成；提取特征提取网络中第7个、第11个、第15个残差模块输出的特征图作为其最终输出，输入检测网络进行检测。

5.如权利要求1所述的一种基于深度学习检测跟踪的地面无人平台自主跟随系统，其特征在于，目标筛选器使用卷积姿态网络进行人体姿态识别，根据设定人体姿态下关节点的位置关系，选取设定姿态的候选目标作为待跟踪目标。

6.如权利要求1所述的一种基于深度学习检测跟踪的地面无人平台自主跟随系统，其特征在于，TripleRPN目标跟踪算法的网络结构包括输入层、特征提取网络和区域候选网络；特征提取网络由三个具有相同网络结构、参数、权重的网络I、II、III组成，网络I输出初始帧模板特征图，即初始帧待跟踪目标图像经网络I处理后得到的特征图；网络II输出待检测帧特征图，即场景图像经网络II处理后得到的特征图；网络III输出更新帧模板特征图，即更新帧待跟踪目标图像经网络III处理得到的特征图；启动跟踪时，更新帧待跟踪目标图像与初始帧待跟踪目标图像相同，然后采用跟踪区域自适应策略进行更新。

7.如权利要求1所述的一种基于深度学习检测跟踪的地面无人平台自主跟随系统，其特征在于，使用分布式跟踪策略进行目标跟踪，在复杂地形环境下进行目标跟踪时，对目标的跟踪运动由地面无人平台运动、三轴自稳定云台运动共同实现：在地面无人平台难以到达理想位姿时，利用三轴自稳定云台运动完成目标跟踪；在下次跟踪运动时，地面无人平台完成跟踪运动，三轴自稳定云台恢复镜头主轴与无人平台中轴共面状态。