CN111814726A - 一种探测机器人视觉目标检测方法 - Google Patents

一种探测机器人视觉目标检测方法 Download PDF

Info

Publication number
CN111814726A
CN111814726A CN202010701702.8A CN202010701702A CN111814726A CN 111814726 A CN111814726 A CN 111814726A CN 202010701702 A CN202010701702 A CN 202010701702A CN 111814726 A CN111814726 A CN 111814726A
Authority
CN
China
Prior art keywords
target
network
attention
training
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010701702.8A
Other languages
English (en)
Other versions
CN111814726B (zh
Inventor
钱夔
田磊
刘义亭
路红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN202010701702.8A priority Critical patent/CN111814726B/zh
Publication of CN111814726A publication Critical patent/CN111814726A/zh
Application granted granted Critical
Publication of CN111814726B publication Critical patent/CN111814726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种探测机器人视觉目标检测方法,包括构建混合注意力自适应感知网络;训练所述混合注意力自适应感知网络;使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测。所述混合注意力自适应感知网络包括全局注意力层次网络,目标空间定位网络、自适应局部注意力感知网络、目标分类识别网络,使用本发明能够在统一框架下完成目标定位与识别任务,且骨干网络均基于全局注意力机制下权重共享,能够综合two‑stage与one‑stage优点,在高实时的同时具备高准确率与低漏检率,适用于探测机器人高要求工作条件。

Description

一种探测机器人视觉目标检测方法
技术领域
本发明属于机器人视觉检测技术领域,具体涉及一种探测机器人视觉目标检测方法。
背景技术
探测机器人是用于特定区域执行特殊探测任务的地面移动平台,其自主侦察技术一直是国内外研究重点。随着深度学习技术的发展,视觉智能化感知能力也得到前所未有的进步。不同于传统机器视觉中的图像处理、模式识别等方法,如今机器人视觉目标检测大多基于卷积神经网络(Convolution Neural Network,CNN)架构,利用深度学习提取图像特征,实现从经验驱动的人造特征范式到数据驱动的表示学习范式转变。
传统基于CNN的视觉目标检测多使用滑动窗法,依次提取目标区域深度特征,然后采用分类器识别,所占内存大、耗时长。近期区域卷积神经网络(Region CNN,RCNN)及Faster RCNN等系列改进方法采用区域候选网络实现目标定位与识别,有效提升了识别正确率,但仍存在速度慢和训练困难等问题,未能满足实时需求。这些模型均属于two-stage类型,即将物体识别和物体定位分为两个步骤,分别完成,识别错误率低,漏识别率也较低,但流程复杂,存在速度慢和训练困难的问题,不能满足实时检测场景。
为了解决这一问题,另一类方式出现了,称为one-stage,典型代表是SSD、Yolo系列等。Yolo系列算法将目标识别和定位统一在同一框架下,共享神经网络权重,识别速度快,基本满足实时性要求;SSD算法结合Yolo中的回归思想和Faster-RCNN中的多尺度机制,利用多边框检测技术进一步提升识别速度与准确率。one-stage主要思路是均匀地在图片的不同位置进行密集抽样,然后利用CNN提取特征后直接进行分类与回归,整个过程只需要一步,所以其优势是速度快,但模型准确度稍低。
探测机器人视觉系统需实时且准确进行目标检测,完成探测任务。如果采用one-stage方式该机器人视觉系统丢失重要目标或者目标识别错误的概率较大,如果采用two-stage方式机器人能够较好完成检测任务,但是无法满足实时性。围绕机器人实时检测方向,综合两类检测方法优点,结合视觉混合注意力机制,并自适应目标尺度感知方法还未见及。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种探测机器人视觉目标检测方法,使得探测机器人快速且准确地进行视觉目标检测,并具有多尺度目标自适应感知平衡能力。
为实现上述技术目的,本发明采取的技术方案为:
一种探测机器人视觉目标检测方法,包括:
步骤1:构建混合注意力自适应感知网络;
步骤2:训练所述混合注意力自适应感知网络;
步骤3:使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤1构建的混合注意力自适应感知网络包括:全局注意力层次网络,目标空间定位网络、自适应局部注意力感知网络、目标分类识别网络;
所述全局注意力层次网络,用于提取不同尺度下深度特征;
所述目标空间定位网络,用于利用融合深度特征进行目标预测框定位;
所述自适应局部注意力感知网络,用于根据目标预测框大小自适应调节空间金字塔池化参数,生成不同尺度目标统一的深度特征;
所述目标分类识别网络,用于针对不同尺度目标统一的深度特征使用相应尺度分类识别器进行目标识别。
上述的全局注意力层次网络,利用CNN搭建全局注意力网络模型,提取不同尺度下深度特征,以用于目标定位与识别;
图像经过第一卷积层、第二卷积层、第三卷积层得到深度特征FS_1,FS_1经第四卷积层得到深度特征FM_1,FM_1经第五卷积层得到深度特征FB_1,FB_1经全局平均池化层得到全局注意力特征GA;
全局注意力特征GA经过第一乘法器与FB_1联合编码,并经第七卷积层、第八卷积层得到FB_3,FB_3最终经第九卷积层得到适于大目标检测的特征图FM_B。
全局注意力特征GA经过第二乘法器与FM_1联合编码,并经第十卷积层、第十一卷积层得到FM_3;FB_3经第一上采样层与FM_3在第一融合层作用下,经第十二卷积层得到适于中目标检测的特征图FM_M;
全局注意力特征GA经过第三乘法器与FS_1联合编码,并经第十三卷积层、第十四卷积层得到FS_3;第十二卷积层输入特征经第二上采样层,与FS_3在第二融合层作用下,最终经第十五卷积层得到适于小目标检测的特征图FM_S。
上述的目标空间定位网络,利用Yolo-v3框架分别在FM_B、FM_M、FM_S上进行目标定位检测,每一中心点有三个预测框,预测框选择根据Anchor Box宽高比来确定,AnchorBox宽高比包括1:1,1:2以及2:1三种比例,每一中心点对应预测框维度为3×5,最后一维分别代表目标存在置信度与定位边框坐标信息。
上述的自适应局部注意力感知网络,根据目标预测框获取对应图像深度特征,并且根据目标预测框大小自适应调节空间金字塔池化参数,使得不同尺度目标特征送入相应尺度分类识别器;
针对目标区域面积小于32×32尺度下的小目标,基于FM_S提取小尺度目标特征,空间金字塔池化尺度为1,则最终任意形状的小目标特征统一为FC_Small,其维度为1-d,d为FM_S通道维度;
针对目标区域面积大于32×32、小于96×96尺度下的中目标,基于FM_M提取中尺度目标特征,空间金字塔池化尺度为[1,2],则最终任意形状的中目标特征统一为FC_Middle,其维度为[1-d,4-d],d为FM_M通道维度;
针对目标区域面积大于96×96尺度下的大目标,基于FM_B提取大尺度目标特征,空间金字塔池化尺度为[1,2,4],则最终任意形状的小目标特征统一为FC_Big,其维度为[1-d,4-d,16-d],d为FM_B通道维度。
上述的目标分类识别网络,预测框与目标框IOU大于0.7为正样本,预测框与目标框IOU小于0.4为负样本,将FC_Big、FC_Middle、FC_Small特征分别送入全连接神经网络,从而完成不同尺度的目标分类识别,不同尺度下目标识别结果最终通过非极大值抑制(non-maximum suppression)算法完成目标检测。
上述的步骤2所述训练所述混合注意力自适应感知网络,包括:
步骤(TR01),训练准备,包括训练多尺度变换和数据增强预处理;
步骤(TR02),冻结目标分类识别网络训练参数,同时允许全局注意力层次网络训练;
步骤(TR03),目标预测框定位训练;
步骤(TR04),冻结全局注意力层次网络训练参数,同时允许目标分类识别网络训练;
步骤(TR05),自适应局部注意力感知,提取不同尺度目标下统一分类特征;
步骤(TR06),预测框目标分类识别训练;
步骤(TR07),判断迭代次数或模型误差是否到达阈值,判断是否完成训练,如到达停止条件,完成训练,如未到达则继续步骤(TR01)-步骤(TR06)进行训练;
步骤(TR08),结束训练。
上述的步骤3所述使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测,包括:
步骤(TS01),开始预测,加载训练模型参数,全局注意力层次网络,提取不同尺度下深度特征;
步骤(TS02),目标空间定位网络进行目标预测框定位;
步骤(TS03),自适应局部注意力感知网络根据目标预测框置信度与边框位置信息,进行局部注意力感知特征提取;
步骤(TS04),将不同尺度下的识别结果送入目标分类识别网络中相应尺度分类识别器进行非极大值抑制;
步骤(TS05),探测机器人获得最终目标检测结果,结束预测。
本发明具有以下有益效果:
1、本发明综合two-stage与one-stage优点,在高实时的同时具备高准确率与低漏检率,适用于探测机器人高要求工作条件。
2、本发明使用混合注意力模型,符合人类对目标认知的一般规律。目标定位与识别尽管分步进行,但其骨干网络均基于全局注意力机制下权重共享,图像卷积操作仅一次。在目标定位阶段,使用方法与Yolo系列算法一致,在不同尺度目标上均具有高定位准确性,分类识别是基于快速边框定位的局部注意力感知,既避免了过多的内存占用、密集采样的耗时,又充分利用高维语义特征进行分类识别,进一步提升准确性与实时性。
3、不同层级网络对目标检测效果具有一定影响,更深次网络能够提取更高维语义特征,适于大尺度目标检测,但同时丢失一定细节信息,因此对小尺度目标检测效果欠佳;较浅层网络保留较多细节信息,适于小尺度目标检测,但由于没有充分提取高维语义信息,其对大尺度分类识别效果一般。本发明提出的自适应局部注意力感知网络,能够根据预测框大小自动提取相应统一尺度的深度特征,分层级预测框内容的分类识别,在模型层面提升预测准确率,有效减少错误识别率。
4、Yolo系列算法中anchors box边框大小通过目标位置k-means算法聚类得到,且训练过程中检测框通过基于面积的IOU算法进行选择,但如果在同一中心点上具有相同面积但形状不一的目标,则会出现目标训练错误的情况。本发明anchors box是根据特征图像大小与该层检测目标大小共同确定,且训练过程中检测框通过anchors box宽高比来选择,有效提升目标形状鲁棒性。
5、使用本发明能够在高实时性下有效降低系统漏检率与识别错误率。高实时性一方面体现在利用Yolo系列思想快速筛选出有效目标候选框,避免了传统two-stage大量遍历式筛选,另一方面其识别网络基于混合注意力机制下自适应感知网络,其特征提取是基于骨干网络,无需再次提取特征。高识别正确率在于合理利用不同层级深度特征用于不同尺度目标的分类识别,相比one-stage方式有效提高正确率。而低漏检率在于定位网络高准确率的目标候选框,通过识别每一个目标候选框提高目标召回率。
附图说明
图1是本发明的网络总体框架图。
图2是本发明的全局注意力层次网络结构图。
图3是本发明的目标空间定位网络中不同形状Anchor Box示意图。
图4是本发明的自适应局部注意力感知网络特征提取示意图。
图5是本发明的训练与预测流程图。
其中的附图标记为:01:全局注意力层次网络、02:目标空间定位网络、03:自适应局部注意力感知网络、04:目标分类识别网络;
C01:第一卷积层、C02:第二卷积层、C03:第三卷积层、C04:第四卷积层、C05:第五卷积层、C06:全局平均池化层、C07:第七卷积层、C08:第八卷积层、C09:第九卷积层、C10:第十卷积层、C11:第十一卷积层、C12:第十二卷积层、C13:第十三卷积层、C14:第十四卷积层、C15:第十五卷积层;
P01:第一乘法器、P02:第二乘法器、P03:第三乘法器;
U01:第一上采样层、U02:第二上采样层、S01:第一融合层、S02:第二融合层。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
本发明的一种探测机器人视觉目标检测方法,包括:
步骤1:构建混合注意力自适应感知网络;
步骤2:训练所述混合注意力自适应感知网络;
步骤3:使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测。
实施例中,如图1所示,所述步骤1构建的混合注意力自适应感知网络包括:全局注意力层次网络01,目标空间定位网络02、自适应局部注意力感知网络03、目标分类识别网络04;
所述全局注意力层次网络01,用于提取不同尺度下深度特征;
所述目标空间定位网络02,用于利用融合深度特征进行目标预测框定位;
所述自适应局部注意力感知网络03,用于根据目标预测框大小自适应调节空间金字塔池化参数,生成不同尺度目标统一的深度特征;
所述目标分类识别网络04,用于针对不同尺度目标统一的深度特征使用相应尺度分类识别器进行目标识别。
所述全局注意力层次网络01,如图2所示,利用CNN搭建全局注意力网络模型,提取不同尺度下深度特征,以用于目标定位与识别;
图像经过第一卷积层C01、第二卷积层C02、第三卷积层C03得到深度特征FS_1,FS_1经第四卷积层C04得到深度特征FM_1,FM_1经第五卷积层C05得到深度特征FB_1,FB_1经全局平均池化层C06得到全局注意力特征GA;
全局注意力特征GA经过第一乘法器P01与FB_1联合编码,并经第七卷积层C07、第八卷积层C08得到FB_3,FB_3最终经第九卷积层C09得到适于大目标检测的特征图FM_B。
全局注意力特征GA经过第二乘法器P02与FM_1联合编码,并经第十卷积层C10、第十一卷积层C11得到FM_3;FB_3经第一上采样层U01与FM_3在第一融合层S01作用下,经第十二卷积层C12得到适于中目标检测的特征图FM_M;
全局注意力特征GA经过第三乘法器P03与FS_1联合编码,并经第十三卷积层C13、第十四卷积层C14得到FS_3;第十二卷积层C12输入特征经第二上采样层U02,与FS_3在第二融合层S02作用下,最终经第十五卷积层C15得到适于小目标检测的特征图FM_S。
上述卷积层均根据需要选择相应的卷积滑动参数,以实现图像下采样。本发明中C01-C05卷积参数通过一定的设置,使得图像均以二倍数下采样。
所述目标空间定位网络02,利用Yolo-v3框架分别在FM_B、FM_M、FM_S上进行目标定位检测,如图3所示,每一中心点有三个预测框,预测框选择根据Anchor Box宽高比来确定,Anchor Box宽高比包括1:1,1:2以及2:1三种比例,每一中心点对应预测框维度为3×5,最后一维分别代表目标存在置信度与定位边框坐标信息。
所述自适应局部注意力感知网络03,根据目标预测框获取对应图像深度特征,并且根据目标预测框大小自适应调节空间金字塔池化参数,使得不同尺度目标特征送入相应尺度分类识别器;
如图4所示,针对目标区域面积小于32×32尺度下的小目标,基于FM_S提取小尺度目标特征,空间金字塔池化尺度为1,则最终任意形状的小目标特征统一为FC_Small,其维度为1-d,d为FM_S通道维度;
针对目标区域面积大于32×32、小于96×96尺度下的中目标,基于FM_M提取中尺度目标特征,空间金字塔池化尺度为[1,2],则最终任意形状的中目标特征统一为FC_Middle,其维度为[1-d,4-d],d为FM_M通道维度;
针对目标区域面积大于96×96尺度下的大目标,基于FM_B提取大尺度目标特征,空间金字塔池化尺度为[1,2,4],则最终任意形状的小目标特征统一为FC_Big,其维度为[1-d,4-d,16-d],d为FM_B通道维度。
实施例中,所述目标分类识别网络04,预测框与目标框IOU大于0.7为正样本,预测框与目标框IOU小于0.4为负样本,将FC_Big、FC_Middle、FC_Small特征分别送入全连接神经网络,从而完成不同尺度的目标分类识别,不同尺度下目标识别结果最终通过非极大值抑制算法完成目标检测。
实施例中,步骤2所述训练所述混合注意力自适应感知网络,包括:
步骤(TR01),训练准备,包括训练多尺度变换和数据增强等预处理;
步骤(TR02),冻结目标分类识别网络04训练参数,同时允许全局注意力层次网络01训练;
步骤(TR03),目标预测框定位训练;
步骤(TR04),冻结全局注意力层次网络01训练参数,同时允许目标分类识别网络04训练;
步骤(TR05),自适应局部注意力感知,提取不同尺度目标下统一分类特征;
步骤(TR06),预测框目标分类识别训练;
步骤(TR07),判断迭代次数或模型误差是否到达阈值,判断是否完成训练,如到达停止条件,完成训练,如未到达则继续步骤(TR01)-步骤(TR06)进行训练;
步骤(TR08),结束训练。
实施例中,步骤3所述使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测,包括:
步骤(TS01),开始预测,加载训练模型参数,全局注意力层次网络01,提取不同尺度下深度特征;
步骤(TS02),目标空间定位网络02进行目标预测框定位;
步骤(TS03),自适应局部注意力感知网络03根据目标预测框置信度与边框位置信息,进行局部注意力感知特征提取;
步骤(TS04),将不同尺度下的识别结果送入目标分类识别网络04中相应尺度分类识别器进行非极大值抑制;
步骤(TS05),探测机器人获得最终目标检测结果,结束预测。
使用本发明能够在统一框架下完成目标定位与识别任务,且骨干网络均基于全局注意力机制下权重共享,能够综合two-stage与one-stage优点,在高实时的同时具备高准确率与低漏检率,适用于探测机器人高要求工作条件。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种探测机器人视觉目标检测方法,其特征在于,包括:
步骤1:构建混合注意力自适应感知网络;
步骤2:训练所述混合注意力自适应感知网络;
步骤3:使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测。
2.根据权利要求1所述的一种探测机器人视觉目标检测方法,其特征在于,所述步骤1构建的混合注意力自适应感知网络包括全局注意力层次网络(01),目标空间定位网络(02)、自适应局部注意力感知网络(03)和目标分类识别网络(04);
所述全局注意力层次网络(01),用于提取不同尺度下深度特征;
所述目标空间定位网络(02),用于利用融合深度特征进行目标预测框定位;
所述自适应局部注意力感知网络(03),用于根据目标预测框大小自适应调节空间金字塔池化参数,生成不同尺度目标统一的深度特征;
所述目标分类识别网络(04),用于针对不同尺度目标统一的深度特征使用相应尺度分类识别器进行目标识别。
3.根据权利要求2所述的一种探测机器人视觉目标检测方法,其特征在于,所述全局注意力层次网络(01),利用CNN搭建全局注意力网络模型,提取不同尺度下深度特征,以用于目标定位与识别;
图像经过第一卷积层(C01)、第二卷积层(C02)、第三卷积层(C03)得到深度特征FS_1,FS_1经第四卷积层(C04)得到深度特征FM_1,FM_1经第五卷积层(C05)得到深度特征FB_1,FB_1经全局平均池化层(C06)得到全局注意力特征GA;
全局注意力特征GA经过第一乘法器(P01)与FB_1联合编码,并经第七卷积层(C07)、第八卷积层(C08)得到FB_3,FB_3最终经第九卷积层(C09)得到适于大目标检测的特征图FM_B;
全局注意力特征GA经过第二乘法器(P02)与FM_1联合编码,并经第十卷积层(C10)、第十一卷积层(C11)得到FM_3;FB_3经第一上采样层(U01)与FM_3在第一融合层(S01)作用下,经第十二卷积层(C12)得到适于中目标检测的特征图FM_M;
全局注意力特征GA经过第三乘法器(P03)与FS_1联合编码,并经第十三卷积层(C13)、第十四卷积层(C14)得到FS_3;第十二卷积层(C12)输入特征经第二上采样层(U02),与FS_3在第二融合层(S02)作用下,最终经第十五卷积层(C15)得到适于小目标检测的特征图FM_S。
4.根据权利要求3所述的一种探测机器人视觉目标检测方法,其特征在于,所述目标空间定位网络(02),利用Yolo-v3框架分别在FM_B、FM_M、FM_S上进行目标定位检测,每一中心点有三个预测框,预测框选择根据Anchor Box宽高比来确定,Anchor Box宽高比包括1:1,1:2以及2:1三种比例,每一中心点对应预测框维度为3×5,最后一维分别代表目标存在置信度与定位边框坐标信息。
5.根据权利要求4所述的一种探测机器人视觉目标检测方法,其特征在于,所述自适应局部注意力感知网络(03),根据目标预测框获取对应图像深度特征,并且根据目标预测框大小自适应调节空间金字塔池化参数,使得不同尺度目标特征送入相应尺度分类识别器;
针对目标区域面积小于32×32尺度下的小目标,基于FM_S提取小尺度目标特征,空间金字塔池化尺度为1,则最终任意形状的小目标特征统一为FC_Small,其维度为1-d,d为FM_S通道维度;
针对目标区域面积大于32×32、小于96×96尺度下的中目标,基于FM_M提取中尺度目标特征,空间金字塔池化尺度为[1,2],则最终任意形状的中目标特征统一为FC_Middle,其维度为[1-d,4-d],d为FM_M通道维度;
针对目标区域面积大于96×96尺度下的大目标,基于FM_B提取大尺度目标特征,空间金字塔池化尺度为[1,2,4],则最终任意形状的小目标特征统一为FC_Big,其维度为[1-d,4-d,16-d],d为FM_B通道维度。
6.根据权利要求5所述的一种探测机器人视觉目标检测方法,其特征在于,所述目标分类识别网络(04),预测框与目标框IOU大于0.7为正样本,预测框与目标框IOU小于0.4为负样本,将FC_Big、FC_Middle、FC_Small特征分别送入全连接神经网络,从而完成不同尺度的目标分类识别,不同尺度下目标识别结果最终通过非极大值抑制算法完成目标检测。
7.根据权利要求1所述的一种探测机器人视觉目标检测方法,其特征在于,步骤2所述训练所述混合注意力自适应感知网络,包括:
步骤(TR01),训练准备,包括训练多尺度变换和数据增强预处理;
步骤(TR02),冻结目标分类识别网络(04)训练参数,同时允许全局注意力层次网络(01)训练;
步骤(TR03),目标预测框定位训练;
步骤(TR04),冻结全局注意力层次网络(01)训练参数,同时允许目标分类识别网络(04)训练;
步骤(TR05),自适应局部注意力感知,提取不同尺度目标下统一分类特征;
步骤(TR06),预测框目标分类识别训练;
步骤(TR07),判断迭代次数或模型误差是否到达阈值,判断是否完成训练,如到达停止条件,完成训练,如未到达则继续步骤(TR01)-步骤(TR06)进行训练;
步骤(TR08),结束训练。
8.根据权利要求1所述的一种探测机器人视觉目标检测方法,其特征在于,步骤3所述使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测,包括:
步骤(TS01),开始预测,加载训练模型参数,全局注意力层次网络(01),提取不同尺度下深度特征;
步骤(TS02),目标空间定位网络(02)进行目标预测框定位;
步骤(TS03),自适应局部注意力感知网络(03)根据目标预测框置信度与边框位置信息,进行局部注意力感知特征提取;
步骤(TS04),将不同尺度下的识别结果送入目标分类识别网络(04)中相应尺度分类识别器进行非极大值抑制;
步骤(TS05),探测机器人获得最终目标检测结果,结束预测。
CN202010701702.8A 2020-07-20 2020-07-20 一种探测机器人视觉目标检测方法 Active CN111814726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010701702.8A CN111814726B (zh) 2020-07-20 2020-07-20 一种探测机器人视觉目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010701702.8A CN111814726B (zh) 2020-07-20 2020-07-20 一种探测机器人视觉目标检测方法

Publications (2)

Publication Number Publication Date
CN111814726A true CN111814726A (zh) 2020-10-23
CN111814726B CN111814726B (zh) 2023-09-22

Family

ID=72866554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010701702.8A Active CN111814726B (zh) 2020-07-20 2020-07-20 一种探测机器人视觉目标检测方法

Country Status (1)

Country Link
CN (1) CN111814726B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256678A (zh) * 2021-04-26 2021-08-13 中国人民解放军32802部队 基于自注意力变换网络的目标跟踪方法
CN114332849A (zh) * 2022-03-16 2022-04-12 科大天工智能装备技术(天津)有限公司 一种农作物生长状态联合监测方法、装置及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011281A1 (en) * 2015-07-09 2017-01-12 Qualcomm Incorporated Context-based priors for object detection in images
CN107515895A (zh) * 2017-07-14 2017-12-26 中国科学院计算技术研究所 一种基于目标检测的视觉目标检索方法与系统
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
WO2019245597A1 (en) * 2018-06-18 2019-12-26 Google Llc Method and system for improving cancer detection using deep learning
CN110689043A (zh) * 2019-08-22 2020-01-14 长沙千视通智能科技有限公司 一种基于多重注意力机制的车辆细粒度识别方法及装置
CN110853656A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于改进神经网络的音频篡改识别算法
CN111079604A (zh) * 2019-12-06 2020-04-28 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) 面向大尺度遥感图像的微小目标快速检测方法
WO2020097461A1 (en) * 2018-11-08 2020-05-14 Siemens Aktiengesellschaft Convolutional neural networks with reduced attention overlap
CN111179217A (zh) * 2019-12-04 2020-05-19 天津大学 一种基于注意力机制的遥感图像多尺度目标检测方法
CN111259930A (zh) * 2020-01-09 2020-06-09 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111275637A (zh) * 2020-01-15 2020-06-12 北京工业大学 一种基于注意力模型的非均匀运动模糊图像自适应复原方法
CN111311518A (zh) * 2020-03-04 2020-06-19 清华大学深圳国际研究生院 基于多尺度混合注意力残差网络的图像去噪方法及装置
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011281A1 (en) * 2015-07-09 2017-01-12 Qualcomm Incorporated Context-based priors for object detection in images
CN107515895A (zh) * 2017-07-14 2017-12-26 中国科学院计算技术研究所 一种基于目标检测的视觉目标检索方法与系统
WO2019245597A1 (en) * 2018-06-18 2019-12-26 Google Llc Method and system for improving cancer detection using deep learning
WO2020097461A1 (en) * 2018-11-08 2020-05-14 Siemens Aktiengesellschaft Convolutional neural networks with reduced attention overlap
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110689043A (zh) * 2019-08-22 2020-01-14 长沙千视通智能科技有限公司 一种基于多重注意力机制的车辆细粒度识别方法及装置
CN110853656A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于改进神经网络的音频篡改识别算法
CN111179217A (zh) * 2019-12-04 2020-05-19 天津大学 一种基于注意力机制的遥感图像多尺度目标检测方法
CN111079604A (zh) * 2019-12-06 2020-04-28 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) 面向大尺度遥感图像的微小目标快速检测方法
CN111259930A (zh) * 2020-01-09 2020-06-09 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111275637A (zh) * 2020-01-15 2020-06-12 北京工业大学 一种基于注意力模型的非均匀运动模糊图像自适应复原方法
CN111311518A (zh) * 2020-03-04 2020-06-19 清华大学深圳国际研究生院 基于多尺度混合注意力残差网络的图像去噪方法及装置
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIANG YING 等: "Multi-Attention Object Detection Model in Remote Sensing Images Based on Multi-Scale", 《IEEE ACCESS》, vol. 7, pages 94508, XP011736832, DOI: 10.1109/ACCESS.2019.2928522 *
钱夔 等: "一种改进型机器人仿生认知神经网络", 《电子学报》, vol. 43, no. 6, pages 1084 - 1089 *
高明柯 等: "基于注意力机制和特征融合的手势识别方法", 《计算机应用与软件》, vol. 37, no. 6, pages 199 - 203 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256678A (zh) * 2021-04-26 2021-08-13 中国人民解放军32802部队 基于自注意力变换网络的目标跟踪方法
CN113256678B (zh) * 2021-04-26 2022-02-18 中国人民解放军32802部队 基于自注意力变换网络的目标跟踪方法
CN114332849A (zh) * 2022-03-16 2022-04-12 科大天工智能装备技术(天津)有限公司 一种农作物生长状态联合监测方法、装置及存储介质
CN114332849B (zh) * 2022-03-16 2022-08-16 科大天工智能装备技术(天津)有限公司 一种农作物生长状态联合监测方法、装置及存储介质

Also Published As

Publication number Publication date
CN111814726B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN112418117B (zh) 一种基于无人机图像的小目标检测方法
CN111899172A (zh) 一种面向遥感应用场景的车辆目标检测方法
CN110163069B (zh) 用于辅助驾驶的车道线检测方法
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
Wei et al. Hotspots Infrared detection of photovoltaic modules based on Hough line transformation and Faster-RCNN approach
CN111814726A (zh) 一种探测机器人视觉目标检测方法
CN113284144B (zh) 一种基于无人机的隧道检测方法及装置
CN115439458A (zh) 基于深度图注意力的工业图像缺陷目标检测算法
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN113128476A (zh) 一种基于计算机视觉目标检测的低功耗实时头盔检测方法
CN110516527B (zh) 一种基于实例分割的视觉slam回环检测改进方法
Liao et al. Lr-cnn: Local-aware region cnn for vehicle detection in aerial imagery
CN113259883B (zh) 一种面向手机用户的多源信息融合的室内定位方法
CN113971775A (zh) 一种基于优化yolov4算法的违章行为识别方法及系统
CN110348311B (zh) 一种基于深度学习的道路交叉口识别系统及方法
CN111950476A (zh) 基于深度学习的复杂环境下河道船舶自动识别方法
CN117115498A (zh) 用于识别气象图的方法和电子设备
CN110889418A (zh) 一种气体轮廓识别方法
Tan et al. Automobile Component Recognition Based on Deep Learning Network with Coarse‐Fine‐Grained Feature Fusion
CN115909110A (zh) 一种基于Siamese网络的轻量级红外无人机目标跟踪方法
CN111666953B (zh) 一种基于语义分割的潮汐带测绘方法及设备
CN113569849A (zh) 基于计算机视觉的汽车充电桩界面检测智能交互系统
Wang et al. Detection of transmission towers and insulators in remote sensing images with deep learning
CN111353459A (zh) 一种资源受限条件下的舰船目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant