CN113723432A - 一种基于深度学习的智能识别、定位追踪的方法及系统 - Google Patents

一种基于深度学习的智能识别、定位追踪的方法及系统 Download PDF

Info

Publication number
CN113723432A
CN113723432A CN202111251181.1A CN202111251181A CN113723432A CN 113723432 A CN113723432 A CN 113723432A CN 202111251181 A CN202111251181 A CN 202111251181A CN 113723432 A CN113723432 A CN 113723432A
Authority
CN
China
Prior art keywords
search window
target
image
lite
yolo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111251181.1A
Other languages
English (en)
Other versions
CN113723432B (zh
Inventor
曲亮
许杏
王岽
赵杰岩
刘朋
欧阳斌
谢国荣
姜辉
李诚诚
孙学君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Fire Eyes Intelligence Co ltd
Original Assignee
Shenzhen Fire Eyes Intelligence Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Fire Eyes Intelligence Co ltd filed Critical Shenzhen Fire Eyes Intelligence Co ltd
Priority to CN202111251181.1A priority Critical patent/CN113723432B/zh
Publication of CN113723432A publication Critical patent/CN113723432A/zh
Application granted granted Critical
Publication of CN113723432B publication Critical patent/CN113723432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的一种基于深度学习的智能识别、定位追踪的方法,包括通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变利用矫正后的双目摄像机获取图像;将获取的图像输入训练好的改进的YOLO‑Lite网络进行目标检测,确定目标框,实现目标的识别和定位;将目标框的的图像由RGB空间转换到HSV空间,计算颜色概率分布图;选择初始化搜索窗口,并计算搜索窗口的质心位置,根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,以上一帧搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口,并自适应调整窗口大小,实现目标跟踪。本发明提供的方法能够在复杂背景、光照变化等因素存在的情况下实现准确的目标识别定位,进行有效跟踪,并保证实时性。

Description

一种基于深度学习的智能识别、定位追踪的方法及系统
技术领域
本发明无人机领域,特别是指一种基于深度学习的智能识别、定位追踪的方法及系统。
背景技术
近年来小型无人机向自主化、智能化的方向迅速发展,应用范围越来越广,尤其是在无卫星导航条件下的使用需求日渐强烈。目标监控是无人机的重要应用之一,采用立体视觉方法可实现无人机在复杂环境中的目标跟踪与定位。通过搭建双目视觉平台,采用适当的目标跟踪算法可以有效地获取目标的距离和位置,目标的运动方向、轨迹,大小等信息。但目前,对于目标追踪还不能做到在复杂背景、光照变化、类似颜色物体、遮挡物等因素存在的情况下抓住目标的特点,进行有效跟踪,并保证实时性。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于深度学习的智能识别、定位追踪的方法,能够在复杂背景、光照变化、类似颜色物体、遮挡物等因素存在的情况下实现准确的目标识别和定位,进行有效跟踪,并保证实时性。
本发明实施例提供一种基于深度学习的智能识别、定位追踪的方法,包括如下步骤:
首先通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变,利用矫正后的双目摄像机获取图像;
将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,确定目标框,实现目标的识别和定位;
将目标框的图像由RGB空间转换到HSV空间,初始化搜索区域,并将搜索区域内的图像生成颜色直方图,并计算颜色概率分布图;
选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录搜索窗口的大小和中心位置;
以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口,并自适应调整窗口大小,实现目标跟踪。
具体地,所述改进的YOLO-Lite网络,具体包括:
在YOLO-Lite骨干网络中增设有残差块和并行连接结构;
残差块包括1个1×1卷积层和1个3×3卷积层;
并行连接结构包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层。
具体地,将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,具体为:
采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取;
利用改进的YOLO-Lite网络中残差块和并行连接结构,将YOLO-Lite骨干网络得到深层特征和浅层特征进行融合,以输出不同尺度特征的特征图;
将得到的不同尺度的特征图进行融合,并在不同尺度特征图均生成对应的预测结果。
具体地,选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小具体为:
计算搜索窗口的零次距:
Figure 743540DEST_PATH_IMAGE001
计算搜索窗口一次距:
Figure 907805DEST_PATH_IMAGE002
Figure 742906DEST_PATH_IMAGE003
计算搜索窗的质心:
Figure 486871DEST_PATH_IMAGE004
Figure 474549DEST_PATH_IMAGE005
调整搜索窗大小:
宽度W为:
Figure 278557DEST_PATH_IMAGE006
长度S为:S=1.2W;
其中,x,y为搜索窗口的横、纵坐标,I(x,y)为 (x,y)位置处的像素值。
具体地,还包括:
若目标点对连续三次位置变化中方向和运动速度均不变,用近两次的目标点对的位置信息估计下一次目标点对的位置。
本发明实施例还提供一种基于深度学习的智能识别、定位追踪系统,包括:
摄像机标定单元:通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变,利用矫正后的双目摄像机获取图像;
目标识别定位单元:将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,确定目标框,实现目标的识别和定位;
颜色概率分布图计算单元:将目标框的图像由RGB空间转换到HSV空间,初始化搜索区域,并将搜索区域内的图像生成颜色直方图,并计算颜色概率分布图;
搜索单元:选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录搜索窗口的大小和中心位置;
目标跟踪单元:以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口,并自适应调整窗口大小,实现目标跟踪。
具体地,所述改进的YOLO-Lite网络,具体包括:
在YOLO-Lite骨干网络中增设有残差块和并行连接结构;
残差块包括1个1×1卷积层和1个3×3卷积层;
并行连接结构包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层。
具体地,将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,具体为:
采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取;
利用改进的YOLO-Lite网络中残差块和并行连接结构,将YOLO-Lite骨干网络得到深层特征和浅层特征进行融合,以输出不同尺度特征的特征图;
将得到的不同尺度的特征图进行融合,并在不同尺度特征图均生成对应的预测结果。
本发明再一实施例提供一种电子设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理执行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于深度学习的智能识别、定位追踪的方法。
本发明又一实施例一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述的一种基于深度学习的智能识别、定位追踪的方法。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明提供的一种基于深度学习的智能识别、定位追踪的方法通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变利用矫正后的双目摄像机获取图像;将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,确定目标框,实现目标的识别和定位;将目标框的图像由RGB空间转换到HSV空间,初始化搜索区域,并将搜索区域内的图像生成颜色直方图,并计算颜色概率分布图;选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录搜索窗口的大小和中心位置;以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口,并自适应调整窗口大小,实现目标跟踪。本发明提供的方法能够在复杂背景、光照变化、类似颜色物体、遮挡物等因素存在的情况下实现准确的目标识别和定位,进行有效跟踪,并保证实时性。
附图说明
图1为本发明实施例提出的一种基于深度学习的智能识别、定位追踪的方法流程图;
图2是本发明实施例采用的残差块的结构示意图;
图3为本发明实施例提供的并行连接结构示意图;
图4为本发明实施例提供一种基于深度学习的智能识别、定位追踪系统结构图;
图5为本发明实施例提供的目标追踪的示例图;
图6为本发明实施例提供的一种电子设备的实施例示意图;
图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
本发明提供的一种基于深度学习的智能识别、定位追踪的方法能够在复杂背景、光照变化、类似颜色物体、遮挡物等因素存在的情况下实现目标的识别和定位,进行有效跟踪,并保证实时性。
如图1为本发明实施例提供的一种基于深度学习的智能识别、定位追踪的方法流程图,具体包括如下步骤:
S101:通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变,利用矫正后的双目摄像机获取图像;
双目摄像机的准确标定是计算机视觉准确实现的基础和前提。目前摄像机标定方法有很多种,主要可分为摄像机传统标定方法和自标定方法。本发明采用具有较好的鲁棒性和实用性的张氏标定法进行摄像机标定。标定的主要目的是建立相机成像几何模型并矫正透镜畸变;
计算机视觉的首要任务就是要通过拍摄到的图像信息获取到物体在真实三维世界里相对应的信息,于是,建立物体从三维世界映射到相机成像平面这一过程中的几何模型尤为重要,这一几何模型即为相机成像几何模型。
矫正透镜畸变是为了确保像素点落在理论计算该落在的位置上。
S102:将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,确定目标框,实现目标的识别和定位;
所述改进的YOLO-Lite网络,具体包括:在YOLO-Lite骨干网络中增设有残差块和并行连接结构;
残差块包括1个1×1卷积层和1个3×3卷积层;如图2为本发明实施例采用的残差块的结构示意图,与YOLOv3中的残差结构一致,其中Relu为激活函数。通过在网络中添加“捷径(shortcut)”,以解决VGG网络中层数增加到一定程度,模型准确度不升反降的问题。
并行连接结构包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层;如图3所示,图中虚线框部分为并行连接结构,本发明中的并行连接是将三个不同尺度的特征图进行分辨率重建和融合,再进行目标检测,能够有效提高网络的检测准确率。
将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,具体为:
采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取;
利用改进的YOLO-Lite网络中残差块和并行连接结构,将YOLO-Lite骨干网络得到深层特征和浅层特征进行融合,以输出不同尺度特征的特征图;
将得到的不同尺度的特征图进行融合,并在不同尺度特征图均生成对应的预测结果。
S103:将目标框的图像由RGB空间转换到HSV空间,初始化搜索区域,并将搜索区域内的图像生成颜色直方图,并计算颜色概率分布图;
RGB颜色空间对光照亮度变化较为敏感,为了减少此变化对跟踪效果的影响,首先将图像从RGB空间转换到HSV空间;
然后对其中的H分量作直方图,在直方图中代表了不同H分量值出现的概率或者像素个数,就是说可以查找出H分量大小为h的概率或者像素个数,即得到了颜色概率查找表;将图像中每个像素的值用其颜色出现的概率对替换,就得到了颜色概率分布图。这个过程就叫反向投影,颜色概率分布图是一个灰度图像;
值得注意的是:试验所用网络摄像头自带真彩处理功能,且右摄像头拍摄的图像对比度比左摄像头的高。因此,提高左摄像头图像的对比度并分析目标在两幅图像的 HSV下 H分量的直方图,选取最大值作为阈值。
S104:选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录搜索窗口的大小和中心位置;
计算搜索窗口的零次距:
Figure 600954DEST_PATH_IMAGE001
计算搜索窗口一次距:
Figure 148610DEST_PATH_IMAGE002
Figure 990796DEST_PATH_IMAGE003
计算搜索窗的质心:
Figure 231284DEST_PATH_IMAGE004
Figure 775398DEST_PATH_IMAGE005
调整搜索窗大小:
宽度W为:
Figure 126745DEST_PATH_IMAGE006
长度S为:S=1.2W;
其中,x,y为搜索窗口的横、纵坐标,I(x,y)为 (x,y)位置处的像素值。S105:以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口,并自适应调整窗口大小,实现目标跟踪。
以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口;
并再一次计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录再一次搜索窗口的大小和中心位置;然后继续下一帧的搜索,实现目标跟踪。
此外,若目标点对连续三次位置变化中方向和运动速度均不变,用近两次的目标点对的位置信息估计下一次目标点对的位置;这也是本发明的另一改进点,可在一定程度上可滤除视野中与目标颜色一致的静止干扰物。
如图4为本发明实施例提供的一种基于深度学习的智能识别、定位追踪系统结构图,具体包括:
摄像机标定单元401:通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变,利用矫正后的双目摄像机获取图像;
双目摄像机的准确标定是计算机视觉准确实现的基础和前提。目前摄像机标定方法有很多种,主要可分为摄像机传统标定方法和自标定方法。本文采用具有较好的鲁棒性和实用性的张氏标定法进行摄像机标定。标定的主要目的是建立相机成像几何模型并矫正透镜畸变;
计算机视觉的首要任务就是要通过拍摄到的图像信息获取到物体在真实三维世界里相对应的信息,于是,建立物体从三维世界映射到相机成像平面这一过程中的几何模型尤为重要,这一几何模型即为相机成像几何模型。
矫正透镜畸变是为了确保像素点落在理论计算该落在的位置上。
目标识别定位单元402:将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,确定目标框,实现目标的识别和定位;
所述改进的YOLO-Lite网络,具体包括:在YOLO-Lite骨干网络中增设有残差块和并行连接结构;
残差块包括1个1×1卷积层和1个3×3卷积层;如图2为本发明实施例采用的残差块的结构示意图,与YOLOv3中的残差结构一致,其中Relu为激活函数。通过在网络中添加“捷径(shortcut)”,以解决VGG网络中层数增加到一定程度,模型准确度不升反降的问题。
并行连接结构包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层;如图3所示,图中虚线框部分为并行连接结构,本发明中的并行连接是将三个不同尺度的特征图进行分辨率重建和融合,再进行目标检测,能够有效提高网络的检测准确率。
将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,具体为:
采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取;
利用改进的YOLO-Lite网络中残差块和并行连接结构,将YOLO-Lite骨干网络得到深层特征和浅层特征进行融合,以输出不同尺度特征的特征图;
将得到的不同尺度的特征图进行融合,并在不同尺度特征图均生成对应的预测结果。
颜色概率分布图计算单元403:将目标框的图像由RGB空间转换到HSV空间,初始化搜索区域,并将搜索区域内的图像生成颜色直方图,并计算颜色概率分布图;
RGB颜色空间对光照亮度变化较为敏感,为了减少此变化对跟踪效果的影响,首先将图像从RGB空间转换到HSV空间;
然后对其中的H分量作直方图,在直方图中代表了不同H分量值出现的概率或者像素个数,就是说可以查找出H分量大小为h的概率或者像素个数,即得到了颜色概率查找表;将图像中每个像素的值用其颜色出现的概率对替换,就得到了颜色概率分布图。这个过程就叫反向投影,颜色概率分布图是一个灰度图像;
值得注意的是:试验所用网络摄像头自带真彩处理功能,且右摄像头拍摄的图像对比度比左摄像头的高。因此,提高左摄像头图像的对比度并分析目标在两幅图像的 HSV下 H分量的直方图,选取最大值作为阈值。
搜索单元404:选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录搜索窗口的大小和中心位置;
计算搜索窗口的零次距:
Figure 823436DEST_PATH_IMAGE001
计算搜索窗口一次距:
Figure 234826DEST_PATH_IMAGE002
Figure 266236DEST_PATH_IMAGE003
计算搜索窗的质心:
Figure 155695DEST_PATH_IMAGE004
Figure 972472DEST_PATH_IMAGE005
调整搜索窗大小:
宽度W为:
Figure 554763DEST_PATH_IMAGE006
长度S为:S=1.2W;
其中,x,y为搜索窗口的横、纵坐标,I(x,y)为 (x,y)位置处的像素值。目标跟踪单元405:以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口,并自适应调整窗口大小,实现目标跟踪。
以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口;
并再一次计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录再一次搜索窗口的大小和中心位置;然后继续下一帧的搜索,实现目标跟踪。
此外, 若目标点对连续三次位置变化中方向和运动速度均不变,用近两次的目标点对的位置信息估计下一次目标点对的位置;这也是本发明的另一改进点,可在一定程度上可滤除视野中与目标颜色一致的静止干扰物。
如图5,从左到右、从上到下分别选取了第 9 帧、第 13 帧、第 25 帧、第 33 帧、第40 帧、第 54 帧、第 70 帧、第 75 帧、第 80 帧、第 84 帧、第 108 帧、第 135 帧的左摄像机拍到的图像,追踪效果良好,而且即便是地面机器人从视野中消失,只要能重回视野,依然能追踪得上。
如图6所示,本发明实施例提供了一种电子设备600,包括存储器610、处理器620及存储在存储器620上并可在处理器520上运行的计算机程序611,处理器620执行计算机程序611时实现本发明实施例提供的一种基于深度学习的智能识别、定位追踪的方法。
在具体实施过程中,处理器620执行计算机程序611时,可以实现图1对应的实施例中任一实施方式。
由于本实施例所介绍的电子设备为实施本发明实施例中一种数据处理装置所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
请参阅图7,图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图7所示,本实施例提供了一种计算机可读存储介质700,其上存储有计算机程序711,该计算机程序711被处理器执行时实现本发明实施例提供的一种基于深度学习的智能识别、定位追踪的方法;
在具体实施过程中,该计算机程序711被处理器执行时可以实现图1对应的实施例中任一实施方式。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明提供的一种基于深度学习的智能识别、定位追踪的方法通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变利用矫正后的双目摄像机获取图像;将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,确定目标框,实现目标的识别和定位;将目标框的图像由RGB空间转换到HSV空间,初始化搜索区域,并将搜索区域内的图像生成颜色直方图,并计算颜色概率分布图;选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录搜索窗口的大小和中心位置;以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口,并自适应调整窗口大小,实现目标跟踪。本发明提供的方法能够在复杂背景、光照变化、类似颜色物体、遮挡物等因素存在的情况下实现准确的目标识别和定位,进行有效跟踪,并保证实时性。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围行为。

Claims (10)

1.一种基于深度学习的智能识别、定位追踪的方法,其特征在于,包括如下步骤:
首先通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变,利用矫正后的双目摄像机获取图像;
将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,确定目标框,实现目标的识别和定位;
将目标框的图像由RGB空间转换到HSV空间,初始化搜索区域,并将搜索区域内的图像生成颜色直方图,并计算颜色概率分布图;
选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录搜索窗口的大小和中心位置;
以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口,并自适应调整窗口大小,实现目标跟踪。
2.根据权利要求1所述的一种基于深度学习的智能识别、定位追踪的方法,其特征在于,所述改进的YOLO-Lite网络,具体包括:
在YOLO-Lite骨干网络中增设有残差块和并行连接结构;
残差块包括1个1×1卷积层和1个3×3卷积层;
并行连接结构包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层。
3.根据权利要求2所述的一种基于深度学习的智能识别、定位追踪的方法,其特征在于,将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,具体为:
采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取;
利用改进的YOLO-Lite网络中残差块和并行连接结构,将YOLO-Lite骨干网络得到深层特征和浅层特征进行融合,以输出不同尺度特征的特征图;
将得到的不同尺度的特征图进行融合,并在不同尺度特征图均生成对应的预测结果。
4.根据权利要求1所述的一种基于深度学习的智能识别、定位追踪的方法,其特征在于,选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小具体为:
计算搜索窗口的零次距:
Figure 303568DEST_PATH_IMAGE001
计算搜索窗口一次距:
Figure 49939DEST_PATH_IMAGE002
Figure 312293DEST_PATH_IMAGE003
计算搜索窗的质心:
Figure 40077DEST_PATH_IMAGE004
Figure 138614DEST_PATH_IMAGE005
调整搜索窗大小:
宽度W为:
Figure 344468DEST_PATH_IMAGE006
长度S为:S=1.2W;
其中,x,y为搜索窗口的横、纵坐标,I(x,y)为 (x,y)位置处的像素值。
5.根据权利要求1所述的一种基于深度学习的智能识别、定位追踪的方法,其特征在于,还包括:
若目标点对连续三次位置变化中方向和运动速度均不变,用近两次的目标点对的位置信息估计下一次目标点对的位置。
6.一种基于深度学习的智能识别、定位追踪系统,其特征在于,包括:
摄像机标定单元:通过双目摄像机的标定建立相机成像几何模型并矫正透镜畸变,利用矫正后的双目摄像机获取图像;
目标识别定位单元:将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,确定目标框,实现目标的识别和定位;
颜色概率分布图计算单元:将目标框的图像由RGB空间转换到HSV空间,初始化搜索区域,并将搜索区域内的图像生成颜色直方图,并计算颜色概率分布图;
搜索单元:选择初始化搜索窗口,并计算搜索窗口的质心位置,将搜索窗口中心移动到质心位置,并根据质心位置调整搜索窗口的大小,直至满足迭代终止条件时,记录搜索窗口的大小和中心位置;
目标跟踪单元:以记录的搜索窗口的大小和中心位置作为下一帧图像的初始搜索窗口,并自适应调整窗口大小,实现目标跟踪。
7.根据权利要求6所述的一种基于深度学习的智能识别、定位追踪系统,其特征在于,所述改进的YOLO-Lite网络,具体包括:
在YOLO-Lite骨干网络中增设有残差块和并行连接结构;
残差块包括1个1×1卷积层和1个3×3卷积层;
并行连接结构包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层。
8.根据权利要求7所述的一种基于深度学习的智能识别、定位追踪系统,其特征在于,将获取的图像输入训练好的改进的YOLO-Lite网络进行目标检测,具体为:
采用改进的YOLO-Lite网络中的YOLO-Lite骨干网络实现特征提取;
利用改进的YOLO-Lite网络中残差块和并行连接结构,将YOLO-Lite骨干网络得到深层特征和浅层特征进行融合,以输出不同尺度特征的特征图;
将得到的不同尺度的特征图进行融合,并在不同尺度特征图均生成对应的预测结果。
9.一种电子设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的一种基于深度学习的智能识别、定位追踪的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的一种基于深度学习的智能识别、定位追踪的方法。
CN202111251181.1A 2021-10-27 2021-10-27 一种基于深度学习的智能识别、定位追踪的方法及系统 Active CN113723432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111251181.1A CN113723432B (zh) 2021-10-27 2021-10-27 一种基于深度学习的智能识别、定位追踪的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111251181.1A CN113723432B (zh) 2021-10-27 2021-10-27 一种基于深度学习的智能识别、定位追踪的方法及系统

Publications (2)

Publication Number Publication Date
CN113723432A true CN113723432A (zh) 2021-11-30
CN113723432B CN113723432B (zh) 2022-02-22

Family

ID=78686121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111251181.1A Active CN113723432B (zh) 2021-10-27 2021-10-27 一种基于深度学习的智能识别、定位追踪的方法及系统

Country Status (1)

Country Link
CN (1) CN113723432B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205914A (zh) * 2023-04-28 2023-06-02 山东中胜涂料有限公司 一种防水涂料生产智能监测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730536A (zh) * 2017-09-15 2018-02-23 北京飞搜科技有限公司 一种基于深度特征的高速相关滤波物体追踪方法
CN111246623A (zh) * 2020-01-17 2020-06-05 哈尔滨拓博科技有限公司 一种基于嵌入式双目智能镜前灯的手势控制方法及控制系统
CN111709968A (zh) * 2020-05-08 2020-09-25 中国人民解放军空军工程大学 一种基于图像处理的低空目标探测跟踪方法
CN113408321A (zh) * 2020-03-16 2021-09-17 中国人民解放军战略支援部队信息工程大学 一种轻量级图像、视频数据的实时目标检测方法及装置
CN113424079A (zh) * 2019-12-30 2021-09-21 深圳元戎启行科技有限公司 障碍物检测方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730536A (zh) * 2017-09-15 2018-02-23 北京飞搜科技有限公司 一种基于深度特征的高速相关滤波物体追踪方法
CN113424079A (zh) * 2019-12-30 2021-09-21 深圳元戎启行科技有限公司 障碍物检测方法、装置、计算机设备和存储介质
CN111246623A (zh) * 2020-01-17 2020-06-05 哈尔滨拓博科技有限公司 一种基于嵌入式双目智能镜前灯的手势控制方法及控制系统
CN113408321A (zh) * 2020-03-16 2021-09-17 中国人民解放军战略支援部队信息工程大学 一种轻量级图像、视频数据的实时目标检测方法及装置
CN111709968A (zh) * 2020-05-08 2020-09-25 中国人民解放军空军工程大学 一种基于图像处理的低空目标探测跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨磊 著: "《网络视频监控技术》", 30 September 2017, 北京:中国传媒大学出版社 *
韩鹏 等: "联合YOLO 和Camshift 的目标跟踪算法研究", 《计算机系统应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205914A (zh) * 2023-04-28 2023-06-02 山东中胜涂料有限公司 一种防水涂料生产智能监测系统

Also Published As

Publication number Publication date
CN113723432B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN110569704B (zh) 一种基于立体视觉的多策略自适应车道线检测方法
CN106940704B (zh) 一种基于栅格地图的定位方法及装置
CN110222787B (zh) 多尺度目标检测方法、装置、计算机设备及存储介质
US11003939B2 (en) Information processing apparatus, information processing method, and storage medium
CN101527046B (zh) 一种运动检测方法、装置和系统
JP3868876B2 (ja) 障害物検出装置及び方法
US8467596B2 (en) Method and apparatus for object pose estimation
JP5178875B2 (ja) 対応点探索のための画像処理方法
CN109961417B (zh) 图像处理方法、装置及移动装置控制方法
CN109472820B (zh) 单目rgb-d相机实时人脸重建方法及装置
CN109961506A (zh) 一种融合改进Census图的局部场景三维重建方法
KR20140027468A (ko) 깊이 측정치 품질 향상
Correal et al. Automatic expert system for 3D terrain reconstruction based on stereo vision and histogram matching
CN105374019A (zh) 一种多深度图融合方法及装置
CN111144207B (zh) 一种基于多模态信息感知的人体检测和跟踪方法
CN113850865A (zh) 一种基于双目视觉的人体姿态定位方法、系统和存储介质
CN102982334B (zh) 基于目标边缘特征与灰度相似性的稀疏视差获取方法
CN105279771B (zh) 一种视频中基于在线动态背景建模的运动目标检测方法
WO2012049098A1 (en) Range image pixel matching method
CN111998862B (zh) 一种基于bnn的稠密双目slam方法
CN113744315B (zh) 一种基于双目视觉的半直接视觉里程计
KR20150053438A (ko) 스테레오 매칭 시스템과 이를 이용한 시차 맵 생성 방법
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
CN113723432B (zh) 一种基于深度学习的智能识别、定位追踪的方法及系统
JP2011232965A (ja) 平面領域検出装置及びステレオカメラシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant