CN113723432A

CN113723432A - 一种基于深度学习的智能识别、定位追踪的方法及系统

Info

Publication number: CN113723432A
Application number: CN202111251181.1A
Authority: CN
Inventors: 曲亮; 许杏; 王岽; 赵杰岩; 刘朋; 欧阳斌; 谢国荣; 姜辉; 李诚诚; 孙学君
Original assignee: Shenzhen Fire Eyes Intelligence Co ltd
Current assignee: Shenzhen Fire Eyes Intelligence Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2021-11-30
Anticipated expiration: 2041-10-27
Also published as: CN113723432B

Abstract

本发明提供的一种基于深度学习的智能识别、定位追踪的方法，包括通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变利用矫正后的双目摄像机获取图像；将获取的图像输入训练好的改进的YOLO‑Lite网络进行目标检测，确定目标框，实现目标的识别和定位；将目标框的的图像由RGB空间转换到HSV空间，计算颜色概率分布图；选择初始化搜索窗口，并计算搜索窗口的质心位置，根据质心位置调整搜索窗口的大小，直至满足迭代终止条件时，以上一帧搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口，并自适应调整窗口大小，实现目标跟踪。本发明提供的方法能够在复杂背景、光照变化等因素存在的情况下实现准确的目标识别定位，进行有效跟踪，并保证实时性。

Description

一种基于深度学习的智能识别、定位追踪的方法及系统

技术领域

本发明无人机领域，特别是指一种基于深度学习的智能识别、定位追踪的方法及系统。

背景技术

近年来小型无人机向自主化、智能化的方向迅速发展，应用范围越来越广，尤其是在无卫星导航条件下的使用需求日渐强烈。目标监控是无人机的重要应用之一，采用立体视觉方法可实现无人机在复杂环境中的目标跟踪与定位。通过搭建双目视觉平台，采用适当的目标跟踪算法可以有效地获取目标的距离和位置，目标的运动方向、轨迹，大小等信息。但目前，对于目标追踪还不能做到在复杂背景、光照变化、类似颜色物体、遮挡物等因素存在的情况下抓住目标的特点，进行有效跟踪，并保证实时性。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于深度学习的智能识别、定位追踪的方法，能够在复杂背景、光照变化、类似颜色物体、遮挡物等因素存在的情况下实现准确的目标识别和定位，进行有效跟踪，并保证实时性。

本发明实施例提供一种基于深度学习的智能识别、定位追踪的方法，包括如下步骤：

首先通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变，利用矫正后的双目摄像机获取图像；

将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测，确定目标框，实现目标的识别和定位；

将目标框的图像由RGB空间转换到HSV空间，初始化搜索区域，并将搜索区域内的图像生成颜色直方图，并计算颜色概率分布图；

选择初始化搜索窗口，并计算搜索窗口的质心位置，将搜索窗口中心移动到质心位置，并根据质心位置调整搜索窗口的大小，直至满足迭代终止条件时，记录搜索窗口的大小和中心位置；

以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口，并自适应调整窗口大小，实现目标跟踪。

具体地，所述改进的YOLO-Lite网络，具体包括：

在YOLO-Lite骨干网络中增设有残差块和并行连接结构；

残差块包括1个1×1卷积层和1个3×3卷积层；

并行连接结构包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层。

具体地，将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测，具体为：

采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取；

利用改进的YOLO-Lite网络中残差块和并行连接结构，将YOLO-Lite骨干网络得到深层特征和浅层特征进行融合，以输出不同尺度特征的特征图；

将得到的不同尺度的特征图进行融合，并在不同尺度特征图均生成对应的预测结果。

具体地，选择初始化搜索窗口，并计算搜索窗口的质心位置，将搜索窗口中心移动到质心位置，并根据质心位置调整搜索窗口的大小具体为：

计算搜索窗口的零次距：

计算搜索窗口一次距：

；

；

计算搜索窗的质心：

；

；

调整搜索窗大小：

宽度W为:

；

长度S为：S=1.2W；

其中，x,y为搜索窗口的横、纵坐标，I(x,y)为 (x,y)位置处的像素值。

具体地，还包括：

若目标点对连续三次位置变化中方向和运动速度均不变，用近两次的目标点对的位置信息估计下一次目标点对的位置。

本发明实施例还提供一种基于深度学习的智能识别、定位追踪系统，包括：

摄像机标定单元：通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变，利用矫正后的双目摄像机获取图像；

目标识别定位单元：将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测，确定目标框，实现目标的识别和定位；

颜色概率分布图计算单元：将目标框的图像由RGB空间转换到HSV空间，初始化搜索区域，并将搜索区域内的图像生成颜色直方图，并计算颜色概率分布图；

搜索单元：选择初始化搜索窗口，并计算搜索窗口的质心位置，将搜索窗口中心移动到质心位置，并根据质心位置调整搜索窗口的大小，直至满足迭代终止条件时，记录搜索窗口的大小和中心位置；

目标跟踪单元：以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口，并自适应调整窗口大小，实现目标跟踪。

具体地，所述改进的YOLO-Lite网络，具体包括：

在YOLO-Lite骨干网络中增设有残差块和并行连接结构；

残差块包括1个1×1卷积层和1个3×3卷积层；

采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取；

本发明再一实施例提供一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置由所述处理执行的计算机程序，所述处理器执行所述计算机程序时实现上述的一种基于深度学习的智能识别、定位追踪的方法。

本发明又一实施例一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述的一种基于深度学习的智能识别、定位追踪的方法。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明提供的一种基于深度学习的智能识别、定位追踪的方法通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变利用矫正后的双目摄像机获取图像；将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测，确定目标框，实现目标的识别和定位；将目标框的图像由RGB空间转换到HSV空间，初始化搜索区域，并将搜索区域内的图像生成颜色直方图，并计算颜色概率分布图；选择初始化搜索窗口，并计算搜索窗口的质心位置，将搜索窗口中心移动到质心位置，并根据质心位置调整搜索窗口的大小，直至满足迭代终止条件时，记录搜索窗口的大小和中心位置；以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口，并自适应调整窗口大小，实现目标跟踪。本发明提供的方法能够在复杂背景、光照变化、类似颜色物体、遮挡物等因素存在的情况下实现准确的目标识别和定位，进行有效跟踪，并保证实时性。

附图说明

图1为本发明实施例提出的一种基于深度学习的智能识别、定位追踪的方法流程图；

图2是本发明实施例采用的残差块的结构示意图；

图3为本发明实施例提供的并行连接结构示意图；

图4为本发明实施例提供一种基于深度学习的智能识别、定位追踪系统结构图；

图5为本发明实施例提供的目标追踪的示例图；

图6为本发明实施例提供的一种电子设备的实施例示意图；

图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

本发明提供的一种基于深度学习的智能识别、定位追踪的方法能够在复杂背景、光照变化、类似颜色物体、遮挡物等因素存在的情况下实现目标的识别和定位，进行有效跟踪，并保证实时性。

如图1为本发明实施例提供的一种基于深度学习的智能识别、定位追踪的方法流程图，具体包括如下步骤：

S101：通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变，利用矫正后的双目摄像机获取图像；

双目摄像机的准确标定是计算机视觉准确实现的基础和前提。目前摄像机标定方法有很多种，主要可分为摄像机传统标定方法和自标定方法。本发明采用具有较好的鲁棒性和实用性的张氏标定法进行摄像机标定。标定的主要目的是建立相机成像几何模型并矫正透镜畸变；

计算机视觉的首要任务就是要通过拍摄到的图像信息获取到物体在真实三维世界里相对应的信息，于是，建立物体从三维世界映射到相机成像平面这一过程中的几何模型尤为重要，这一几何模型即为相机成像几何模型。

矫正透镜畸变是为了确保像素点落在理论计算该落在的位置上。

S102：将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测，确定目标框，实现目标的识别和定位；

所述改进的YOLO-Lite网络，具体包括：在YOLO-Lite骨干网络中增设有残差块和并行连接结构；

残差块包括1个1×1卷积层和1个3×3卷积层；如图2为本发明实施例采用的残差块的结构示意图，与YOLOv3中的残差结构一致，其中Relu为激活函数。通过在网络中添加“捷径(shortcut)”，以解决VGG网络中层数增加到一定程度，模型准确度不升反降的问题。

并行连接结构包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层；如图3所示，图中虚线框部分为并行连接结构，本发明中的并行连接是将三个不同尺度的特征图进行分辨率重建和融合，再进行目标检测，能够有效提高网络的检测准确率。

将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测，具体为：

采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取；

S103：将目标框的图像由RGB空间转换到HSV空间，初始化搜索区域，并将搜索区域内的图像生成颜色直方图，并计算颜色概率分布图；

RGB颜色空间对光照亮度变化较为敏感，为了减少此变化对跟踪效果的影响，首先将图像从RGB空间转换到HSV空间；

然后对其中的H分量作直方图，在直方图中代表了不同H分量值出现的概率或者像素个数，就是说可以查找出H分量大小为h的概率或者像素个数，即得到了颜色概率查找表；将图像中每个像素的值用其颜色出现的概率对替换，就得到了颜色概率分布图。这个过程就叫反向投影，颜色概率分布图是一个灰度图像；

值得注意的是：试验所用网络摄像头自带真彩处理功能，且右摄像头拍摄的图像对比度比左摄像头的高。因此，提高左摄像头图像的对比度并分析目标在两幅图像的 HSV下 H分量的直方图，选取最大值作为阈值。

S104：选择初始化搜索窗口，并计算搜索窗口的质心位置，将搜索窗口中心移动到质心位置，并根据质心位置调整搜索窗口的大小，直至满足迭代终止条件时，记录搜索窗口的大小和中心位置；

计算搜索窗口的零次距：

计算搜索窗口一次距：

；

；

计算搜索窗的质心：

；

；

调整搜索窗大小：

宽度W为:

；

长度S为：S=1.2W；

其中，x,y为搜索窗口的横、纵坐标，I(x,y)为 (x,y)位置处的像素值。S105：以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口，并自适应调整窗口大小，实现目标跟踪。

以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口；

并再一次计算搜索窗口的质心位置，将搜索窗口中心移动到质心位置，并根据质心位置调整搜索窗口的大小，直至满足迭代终止条件时，记录再一次搜索窗口的大小和中心位置；然后继续下一帧的搜索，实现目标跟踪。

此外，若目标点对连续三次位置变化中方向和运动速度均不变，用近两次的目标点对的位置信息估计下一次目标点对的位置；这也是本发明的另一改进点，可在一定程度上可滤除视野中与目标颜色一致的静止干扰物。

如图4为本发明实施例提供的一种基于深度学习的智能识别、定位追踪系统结构图，具体包括：

摄像机标定单元401：通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变，利用矫正后的双目摄像机获取图像；

双目摄像机的准确标定是计算机视觉准确实现的基础和前提。目前摄像机标定方法有很多种，主要可分为摄像机传统标定方法和自标定方法。本文采用具有较好的鲁棒性和实用性的张氏标定法进行摄像机标定。标定的主要目的是建立相机成像几何模型并矫正透镜畸变；

目标识别定位单元402：将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测，确定目标框，实现目标的识别和定位；

采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取；

颜色概率分布图计算单元403：将目标框的图像由RGB空间转换到HSV空间，初始化搜索区域，并将搜索区域内的图像生成颜色直方图，并计算颜色概率分布图；

搜索单元404：选择初始化搜索窗口，并计算搜索窗口的质心位置，将搜索窗口中心移动到质心位置，并根据质心位置调整搜索窗口的大小，直至满足迭代终止条件时，记录搜索窗口的大小和中心位置；

计算搜索窗口的零次距：

计算搜索窗口一次距：

；

；

计算搜索窗的质心：

；

；

调整搜索窗大小：

宽度W为:

；

长度S为：S=1.2W；

其中，x,y为搜索窗口的横、纵坐标，I(x,y)为 (x,y)位置处的像素值。目标跟踪单元405：以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口，并自适应调整窗口大小，实现目标跟踪。

如图5，从左到右、从上到下分别选取了第 9 帧、第 13 帧、第 25 帧、第 33 帧、第40 帧、第 54 帧、第 70 帧、第 75 帧、第 80 帧、第 84 帧、第 108 帧、第 135 帧的左摄像机拍到的图像，追踪效果良好，而且即便是地面机器人从视野中消失，只要能重回视野，依然能追踪得上。

如图6所示，本发明实施例提供了一种电子设备600，包括存储器610、处理器620及存储在存储器620上并可在处理器520上运行的计算机程序611，处理器620执行计算机程序611时实现本发明实施例提供的一种基于深度学习的智能识别、定位追踪的方法。

在具体实施过程中，处理器620执行计算机程序611时，可以实现图1对应的实施例中任一实施方式。

由于本实施例所介绍的电子设备为实施本发明实施例中一种数据处理装置所采用的设备，故而基于本发明实施例中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍，只要本领域所属技术人员实施本发明实施例中的方法所采用的设备，都属于本发明所欲保护的范围。

请参阅图7，图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

如图7所示，本实施例提供了一种计算机可读存储介质700，其上存储有计算机程序711，该计算机程序711被处理器执行时实现本发明实施例提供的一种基于深度学习的智能识别、定位追踪的方法；

在具体实施过程中，该计算机程序711被处理器执行时可以实现图1对应的实施例中任一实施方式。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围行为。