CN111814726A

CN111814726A - 一种探测机器人视觉目标检测方法

Info

Publication number: CN111814726A
Application number: CN202010701702.8A
Authority: CN
Inventors: 钱夔; 田磊; 刘义亭; 路红
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-10-23
Anticipated expiration: 2040-07-20
Also published as: CN111814726B

Abstract

本发明公开了一种探测机器人视觉目标检测方法，包括构建混合注意力自适应感知网络；训练所述混合注意力自适应感知网络；使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测。所述混合注意力自适应感知网络包括全局注意力层次网络，目标空间定位网络、自适应局部注意力感知网络、目标分类识别网络，使用本发明能够在统一框架下完成目标定位与识别任务，且骨干网络均基于全局注意力机制下权重共享，能够综合two‑stage与one‑stage优点，在高实时的同时具备高准确率与低漏检率，适用于探测机器人高要求工作条件。

Description

一种探测机器人视觉目标检测方法

技术领域

本发明属于机器人视觉检测技术领域，具体涉及一种探测机器人视觉目标检测方法。

背景技术

探测机器人是用于特定区域执行特殊探测任务的地面移动平台,其自主侦察技术一直是国内外研究重点。随着深度学习技术的发展，视觉智能化感知能力也得到前所未有的进步。不同于传统机器视觉中的图像处理、模式识别等方法，如今机器人视觉目标检测大多基于卷积神经网络(Convolution Neural Network，CNN)架构，利用深度学习提取图像特征，实现从经验驱动的人造特征范式到数据驱动的表示学习范式转变。

传统基于CNN的视觉目标检测多使用滑动窗法，依次提取目标区域深度特征，然后采用分类器识别，所占内存大、耗时长。近期区域卷积神经网络(Region CNN,RCNN)及Faster RCNN等系列改进方法采用区域候选网络实现目标定位与识别，有效提升了识别正确率，但仍存在速度慢和训练困难等问题，未能满足实时需求。这些模型均属于two-stage类型，即将物体识别和物体定位分为两个步骤，分别完成，识别错误率低，漏识别率也较低，但流程复杂，存在速度慢和训练困难的问题，不能满足实时检测场景。

为了解决这一问题，另一类方式出现了，称为one-stage,典型代表是SSD、Yolo系列等。Yolo系列算法将目标识别和定位统一在同一框架下，共享神经网络权重，识别速度快，基本满足实时性要求；SSD算法结合Yolo中的回归思想和Faster-RCNN中的多尺度机制，利用多边框检测技术进一步提升识别速度与准确率。one-stage主要思路是均匀地在图片的不同位置进行密集抽样，然后利用CNN提取特征后直接进行分类与回归，整个过程只需要一步，所以其优势是速度快，但模型准确度稍低。

探测机器人视觉系统需实时且准确进行目标检测，完成探测任务。如果采用one-stage方式该机器人视觉系统丢失重要目标或者目标识别错误的概率较大,如果采用two-stage方式机器人能够较好完成检测任务，但是无法满足实时性。围绕机器人实时检测方向，综合两类检测方法优点，结合视觉混合注意力机制，并自适应目标尺度感知方法还未见及。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种探测机器人视觉目标检测方法，使得探测机器人快速且准确地进行视觉目标检测，并具有多尺度目标自适应感知平衡能力。

为实现上述技术目的，本发明采取的技术方案为：

一种探测机器人视觉目标检测方法，包括：

步骤1：构建混合注意力自适应感知网络；

步骤2：训练所述混合注意力自适应感知网络；

步骤3：使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1构建的混合注意力自适应感知网络包括：全局注意力层次网络，目标空间定位网络、自适应局部注意力感知网络、目标分类识别网络；

所述全局注意力层次网络，用于提取不同尺度下深度特征；

所述目标空间定位网络，用于利用融合深度特征进行目标预测框定位；

所述自适应局部注意力感知网络，用于根据目标预测框大小自适应调节空间金字塔池化参数，生成不同尺度目标统一的深度特征；

所述目标分类识别网络，用于针对不同尺度目标统一的深度特征使用相应尺度分类识别器进行目标识别。

上述的全局注意力层次网络，利用CNN搭建全局注意力网络模型，提取不同尺度下深度特征，以用于目标定位与识别；

图像经过第一卷积层、第二卷积层、第三卷积层得到深度特征FS_1，FS_1经第四卷积层得到深度特征FM_1，FM_1经第五卷积层得到深度特征FB_1，FB_1经全局平均池化层得到全局注意力特征GA；

全局注意力特征GA经过第一乘法器与FB_1联合编码，并经第七卷积层、第八卷积层得到FB_3，FB_3最终经第九卷积层得到适于大目标检测的特征图FM_B。

全局注意力特征GA经过第二乘法器与FM_1联合编码，并经第十卷积层、第十一卷积层得到FM_3；FB_3经第一上采样层与FM_3在第一融合层作用下，经第十二卷积层得到适于中目标检测的特征图FM_M；

全局注意力特征GA经过第三乘法器与FS_1联合编码，并经第十三卷积层、第十四卷积层得到FS_3；第十二卷积层输入特征经第二上采样层，与FS_3在第二融合层作用下，最终经第十五卷积层得到适于小目标检测的特征图FM_S。

上述的目标空间定位网络，利用Yolo-v3框架分别在FM_B、FM_M、FM_S上进行目标定位检测，每一中心点有三个预测框，预测框选择根据Anchor Box宽高比来确定，AnchorBox宽高比包括1:1,1:2以及2:1三种比例，每一中心点对应预测框维度为3×5，最后一维分别代表目标存在置信度与定位边框坐标信息。

上述的自适应局部注意力感知网络，根据目标预测框获取对应图像深度特征，并且根据目标预测框大小自适应调节空间金字塔池化参数，使得不同尺度目标特征送入相应尺度分类识别器；

针对目标区域面积小于32×32尺度下的小目标，基于FM_S提取小尺度目标特征，空间金字塔池化尺度为1，则最终任意形状的小目标特征统一为FC_Small,其维度为1-d，d为FM_S通道维度；

针对目标区域面积大于32×32、小于96×96尺度下的中目标，基于FM_M提取中尺度目标特征，空间金字塔池化尺度为[1,2]，则最终任意形状的中目标特征统一为FC_Middle，其维度为[1-d,4-d]，d为FM_M通道维度；

针对目标区域面积大于96×96尺度下的大目标，基于FM_B提取大尺度目标特征，空间金字塔池化尺度为[1,2,4]，则最终任意形状的小目标特征统一为FC_Big，其维度为[1-d,4-d,16-d]，d为FM_B通道维度。

上述的目标分类识别网络，预测框与目标框IOU大于0.7为正样本，预测框与目标框IOU小于0.4为负样本，将FC_Big、FC_Middle、FC_Small特征分别送入全连接神经网络，从而完成不同尺度的目标分类识别，不同尺度下目标识别结果最终通过非极大值抑制(non-maximum suppression)算法完成目标检测。

上述的步骤2所述训练所述混合注意力自适应感知网络，包括：

步骤(TR01)，训练准备，包括训练多尺度变换和数据增强预处理；

步骤(TR02)，冻结目标分类识别网络训练参数，同时允许全局注意力层次网络训练；

步骤(TR03)，目标预测框定位训练；

步骤(TR04)，冻结全局注意力层次网络训练参数，同时允许目标分类识别网络训练；

步骤(TR05)，自适应局部注意力感知，提取不同尺度目标下统一分类特征；

步骤(TR06)，预测框目标分类识别训练；

步骤(TR07)，判断迭代次数或模型误差是否到达阈值，判断是否完成训练，如到达停止条件，完成训练，如未到达则继续步骤(TR01)-步骤(TR06)进行训练；

步骤(TR08)，结束训练。

上述的步骤3所述使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测，包括：

步骤(TS01)，开始预测，加载训练模型参数，全局注意力层次网络，提取不同尺度下深度特征；

步骤(TS02)，目标空间定位网络进行目标预测框定位；

步骤(TS03)，自适应局部注意力感知网络根据目标预测框置信度与边框位置信息，进行局部注意力感知特征提取；

步骤(TS04)，将不同尺度下的识别结果送入目标分类识别网络中相应尺度分类识别器进行非极大值抑制；

步骤(TS05)，探测机器人获得最终目标检测结果，结束预测。

本发明具有以下有益效果：

1、本发明综合two-stage与one-stage优点，在高实时的同时具备高准确率与低漏检率，适用于探测机器人高要求工作条件。

2、本发明使用混合注意力模型，符合人类对目标认知的一般规律。目标定位与识别尽管分步进行，但其骨干网络均基于全局注意力机制下权重共享，图像卷积操作仅一次。在目标定位阶段，使用方法与Yolo系列算法一致，在不同尺度目标上均具有高定位准确性，分类识别是基于快速边框定位的局部注意力感知，既避免了过多的内存占用、密集采样的耗时，又充分利用高维语义特征进行分类识别，进一步提升准确性与实时性。

3、不同层级网络对目标检测效果具有一定影响，更深次网络能够提取更高维语义特征，适于大尺度目标检测，但同时丢失一定细节信息，因此对小尺度目标检测效果欠佳；较浅层网络保留较多细节信息，适于小尺度目标检测，但由于没有充分提取高维语义信息，其对大尺度分类识别效果一般。本发明提出的自适应局部注意力感知网络，能够根据预测框大小自动提取相应统一尺度的深度特征，分层级预测框内容的分类识别，在模型层面提升预测准确率，有效减少错误识别率。

4、Yolo系列算法中anchors box边框大小通过目标位置k-means算法聚类得到，且训练过程中检测框通过基于面积的IOU算法进行选择，但如果在同一中心点上具有相同面积但形状不一的目标，则会出现目标训练错误的情况。本发明anchors box是根据特征图像大小与该层检测目标大小共同确定，且训练过程中检测框通过anchors box宽高比来选择，有效提升目标形状鲁棒性。

5、使用本发明能够在高实时性下有效降低系统漏检率与识别错误率。高实时性一方面体现在利用Yolo系列思想快速筛选出有效目标候选框，避免了传统two-stage大量遍历式筛选，另一方面其识别网络基于混合注意力机制下自适应感知网络，其特征提取是基于骨干网络，无需再次提取特征。高识别正确率在于合理利用不同层级深度特征用于不同尺度目标的分类识别，相比one-stage方式有效提高正确率。而低漏检率在于定位网络高准确率的目标候选框，通过识别每一个目标候选框提高目标召回率。

附图说明

图1是本发明的网络总体框架图。

图2是本发明的全局注意力层次网络结构图。

图3是本发明的目标空间定位网络中不同形状Anchor Box示意图。

图4是本发明的自适应局部注意力感知网络特征提取示意图。

图5是本发明的训练与预测流程图。

其中的附图标记为：01：全局注意力层次网络、02：目标空间定位网络、03：自适应局部注意力感知网络、04：目标分类识别网络；

C01：第一卷积层、C02：第二卷积层、C03：第三卷积层、C04：第四卷积层、C05：第五卷积层、C06：全局平均池化层、C07：第七卷积层、C08：第八卷积层、C09：第九卷积层、C10：第十卷积层、C11：第十一卷积层、C12：第十二卷积层、C13：第十三卷积层、C14：第十四卷积层、C15：第十五卷积层；

P01：第一乘法器、P02：第二乘法器、P03：第三乘法器；

U01：第一上采样层、U02：第二上采样层、S01：第一融合层、S02：第二融合层。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

本发明的一种探测机器人视觉目标检测方法，包括：

步骤1：构建混合注意力自适应感知网络；

步骤2：训练所述混合注意力自适应感知网络；

实施例中，如图1所示，所述步骤1构建的混合注意力自适应感知网络包括：全局注意力层次网络01，目标空间定位网络02、自适应局部注意力感知网络03、目标分类识别网络04；

所述全局注意力层次网络01，用于提取不同尺度下深度特征；

所述目标空间定位网络02，用于利用融合深度特征进行目标预测框定位；

所述自适应局部注意力感知网络03，用于根据目标预测框大小自适应调节空间金字塔池化参数，生成不同尺度目标统一的深度特征；

所述目标分类识别网络04，用于针对不同尺度目标统一的深度特征使用相应尺度分类识别器进行目标识别。

所述全局注意力层次网络01，如图2所示，利用CNN搭建全局注意力网络模型，提取不同尺度下深度特征，以用于目标定位与识别；

图像经过第一卷积层C01、第二卷积层C02、第三卷积层C03得到深度特征FS_1，FS_1经第四卷积层C04得到深度特征FM_1，FM_1经第五卷积层C05得到深度特征FB_1，FB_1经全局平均池化层C06得到全局注意力特征GA；

全局注意力特征GA经过第一乘法器P01与FB_1联合编码，并经第七卷积层C07、第八卷积层C08得到FB_3，FB_3最终经第九卷积层C09得到适于大目标检测的特征图FM_B。

全局注意力特征GA经过第二乘法器P02与FM_1联合编码，并经第十卷积层C10、第十一卷积层C11得到FM_3；FB_3经第一上采样层U01与FM_3在第一融合层S01作用下，经第十二卷积层C12得到适于中目标检测的特征图FM_M；

全局注意力特征GA经过第三乘法器P03与FS_1联合编码，并经第十三卷积层C13、第十四卷积层C14得到FS_3；第十二卷积层C12输入特征经第二上采样层U02，与FS_3在第二融合层S02作用下，最终经第十五卷积层C15得到适于小目标检测的特征图FM_S。

上述卷积层均根据需要选择相应的卷积滑动参数，以实现图像下采样。本发明中C01-C05卷积参数通过一定的设置，使得图像均以二倍数下采样。

所述目标空间定位网络02，利用Yolo-v3框架分别在FM_B、FM_M、FM_S上进行目标定位检测，如图3所示，每一中心点有三个预测框，预测框选择根据Anchor Box宽高比来确定，Anchor Box宽高比包括1:1,1:2以及2:1三种比例，每一中心点对应预测框维度为3×5，最后一维分别代表目标存在置信度与定位边框坐标信息。

所述自适应局部注意力感知网络03，根据目标预测框获取对应图像深度特征，并且根据目标预测框大小自适应调节空间金字塔池化参数，使得不同尺度目标特征送入相应尺度分类识别器；

如图4所示，针对目标区域面积小于32×32尺度下的小目标，基于FM_S提取小尺度目标特征，空间金字塔池化尺度为1，则最终任意形状的小目标特征统一为FC_Small,其维度为1-d，d为FM_S通道维度；

实施例中，所述目标分类识别网络04，预测框与目标框IOU大于0.7为正样本，预测框与目标框IOU小于0.4为负样本，将FC_Big、FC_Middle、FC_Small特征分别送入全连接神经网络，从而完成不同尺度的目标分类识别，不同尺度下目标识别结果最终通过非极大值抑制算法完成目标检测。

实施例中，步骤2所述训练所述混合注意力自适应感知网络，包括：

步骤(TR01)，训练准备，包括训练多尺度变换和数据增强等预处理；

步骤(TR02)，冻结目标分类识别网络04训练参数，同时允许全局注意力层次网络01训练；

步骤(TR03)，目标预测框定位训练；

步骤(TR04)，冻结全局注意力层次网络01训练参数，同时允许目标分类识别网络04训练；

步骤(TR06)，预测框目标分类识别训练；

步骤(TR08)，结束训练。

实施例中，步骤3所述使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测，包括：

步骤(TS01)，开始预测，加载训练模型参数，全局注意力层次网络01，提取不同尺度下深度特征；

步骤(TS02)，目标空间定位网络02进行目标预测框定位；

步骤(TS03)，自适应局部注意力感知网络03根据目标预测框置信度与边框位置信息，进行局部注意力感知特征提取；

步骤(TS04)，将不同尺度下的识别结果送入目标分类识别网络04中相应尺度分类识别器进行非极大值抑制；

步骤(TS05)，探测机器人获得最终目标检测结果，结束预测。

使用本发明能够在统一框架下完成目标定位与识别任务，且骨干网络均基于全局注意力机制下权重共享，能够综合two-stage与one-stage优点，在高实时的同时具备高准确率与低漏检率，适用于探测机器人高要求工作条件。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种探测机器人视觉目标检测方法，其特征在于，包括：

步骤1：构建混合注意力自适应感知网络；

步骤2：训练所述混合注意力自适应感知网络；

2.根据权利要求1所述的一种探测机器人视觉目标检测方法，其特征在于，所述步骤1构建的混合注意力自适应感知网络包括全局注意力层次网络(01)，目标空间定位网络(02)、自适应局部注意力感知网络(03)和目标分类识别网络(04)；

所述全局注意力层次网络(01)，用于提取不同尺度下深度特征；

所述目标空间定位网络(02)，用于利用融合深度特征进行目标预测框定位；

所述自适应局部注意力感知网络(03)，用于根据目标预测框大小自适应调节空间金字塔池化参数，生成不同尺度目标统一的深度特征；

所述目标分类识别网络(04)，用于针对不同尺度目标统一的深度特征使用相应尺度分类识别器进行目标识别。

3.根据权利要求2所述的一种探测机器人视觉目标检测方法，其特征在于，所述全局注意力层次网络(01)，利用CNN搭建全局注意力网络模型，提取不同尺度下深度特征，以用于目标定位与识别；

图像经过第一卷积层(C01)、第二卷积层(C02)、第三卷积层(C03)得到深度特征FS_1，FS_1经第四卷积层(C04)得到深度特征FM_1，FM_1经第五卷积层(C05)得到深度特征FB_1，FB_1经全局平均池化层(C06)得到全局注意力特征GA；

全局注意力特征GA经过第一乘法器(P01)与FB_1联合编码，并经第七卷积层(C07)、第八卷积层(C08)得到FB_3，FB_3最终经第九卷积层(C09)得到适于大目标检测的特征图FM_B；

全局注意力特征GA经过第二乘法器(P02)与FM_1联合编码，并经第十卷积层(C10)、第十一卷积层(C11)得到FM_3；FB_3经第一上采样层(U01)与FM_3在第一融合层(S01)作用下，经第十二卷积层(C12)得到适于中目标检测的特征图FM_M；

全局注意力特征GA经过第三乘法器(P03)与FS_1联合编码，并经第十三卷积层(C13)、第十四卷积层(C14)得到FS_3；第十二卷积层(C12)输入特征经第二上采样层(U02)，与FS_3在第二融合层(S02)作用下，最终经第十五卷积层(C15)得到适于小目标检测的特征图FM_S。

4.根据权利要求3所述的一种探测机器人视觉目标检测方法，其特征在于，所述目标空间定位网络(02)，利用Yolo-v3框架分别在FM_B、FM_M、FM_S上进行目标定位检测，每一中心点有三个预测框，预测框选择根据Anchor Box宽高比来确定，Anchor Box宽高比包括1:1,1:2以及2:1三种比例，每一中心点对应预测框维度为3×5，最后一维分别代表目标存在置信度与定位边框坐标信息。

5.根据权利要求4所述的一种探测机器人视觉目标检测方法，其特征在于，所述自适应局部注意力感知网络(03)，根据目标预测框获取对应图像深度特征，并且根据目标预测框大小自适应调节空间金字塔池化参数，使得不同尺度目标特征送入相应尺度分类识别器；

6.根据权利要求5所述的一种探测机器人视觉目标检测方法，其特征在于，所述目标分类识别网络(04)，预测框与目标框IOU大于0.7为正样本，预测框与目标框IOU小于0.4为负样本，将FC_Big、FC_Middle、FC_Small特征分别送入全连接神经网络，从而完成不同尺度的目标分类识别，不同尺度下目标识别结果最终通过非极大值抑制算法完成目标检测。

7.根据权利要求1所述的一种探测机器人视觉目标检测方法，其特征在于，步骤2所述训练所述混合注意力自适应感知网络，包括：

步骤(TR02)，冻结目标分类识别网络(04)训练参数，同时允许全局注意力层次网络(01)训练；

步骤(TR03)，目标预测框定位训练；

步骤(TR04)，冻结全局注意力层次网络(01)训练参数，同时允许目标分类识别网络(04)训练；

步骤(TR06)，预测框目标分类识别训练；

步骤(TR08)，结束训练。

8.根据权利要求1所述的一种探测机器人视觉目标检测方法，其特征在于，步骤3所述使用训练后的混合注意力自适应感知网络进行探测机器人视觉目标检测，包括：

步骤(TS01)，开始预测，加载训练模型参数，全局注意力层次网络(01)，提取不同尺度下深度特征；

步骤(TS02)，目标空间定位网络(02)进行目标预测框定位；

步骤(TS03)，自适应局部注意力感知网络(03)根据目标预测框置信度与边框位置信息，进行局部注意力感知特征提取；

步骤(TS04)，将不同尺度下的识别结果送入目标分类识别网络(04)中相应尺度分类识别器进行非极大值抑制；

步骤(TS05)，探测机器人获得最终目标检测结果，结束预测。