CN111913435A - 一种基于堆积沙漏网络的单/多目标关键点定位方法 - Google Patents

一种基于堆积沙漏网络的单/多目标关键点定位方法 Download PDF

Info

Publication number
CN111913435A
CN111913435A CN202010751643.5A CN202010751643A CN111913435A CN 111913435 A CN111913435 A CN 111913435A CN 202010751643 A CN202010751643 A CN 202010751643A CN 111913435 A CN111913435 A CN 111913435A
Authority
CN
China
Prior art keywords
key point
target
heat map
hourglass
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010751643.5A
Other languages
English (en)
Other versions
CN111913435B (zh
Inventor
周乐
戴世请
曾银雪
侯北平
刘薇
张淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010751643.5A priority Critical patent/CN111913435B/zh
Publication of CN111913435A publication Critical patent/CN111913435A/zh
Application granted granted Critical
Publication of CN111913435B publication Critical patent/CN111913435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/19Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/35Nc in input of data, input till input file format
    • G05B2219/35349Display part, programmed locus and tool path, traject, dynamic locus

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于堆积沙漏网络的单/多目标关键点定位方法,包括:(1)采集训练样本集;(2)生成训练样本集对应的热度图标签数据集;(3)利用训练样本集以及对应热度图标签数据集构建堆积沙漏残差网络模型;(4)获取待定位单/多控制目标的原始图像,输入至训练得到的堆积沙漏残差网络模型,获得单/多待定位控制目标的关键点坐标;(5)实现对单/多控制目标的定位和抓取。方法对机器人控制目标特征提取既可以充分利用物体特征信息,又充分考虑到外界干扰的影响,同时避免了普通深度神经网络对位置,姿态信息难以标定的问题,从而对机器人控制目标姿态检测技术实现了提升。

Description

一种基于堆积沙漏网络的单/多目标关键点定位方法
技术领域
本发明属于机器人控制目标定位技术领域,具体是涉及一种基于堆积沙漏网络的单/多目标关键点定位方法。
背景技术
在现代工业生产过程中,随着工业机器人在工业领域的广泛应用,一些不适合于人工作业的危险工作环境或简单而重复的大批量工业生产操作已经逐步被机器作业替代。在工业制造现场,工业机器人能够实现对产品实行高效的抓取、分拣操作,但是机器操作精度受机器视觉系统对产品识别定位,姿态估计等各方面检测精度限制而较难满足于工业生产应用,从而限制了工业机器人的普及应用,对于满足工业生产的视觉检测方法的研究是一种挑战。
同时,随着基于物体特征的机器视觉技术和图像处理算法的不断进步,具有优越性能的机器视觉系统在工业生产领域得到广泛应用。其中,基于提取颜色特征的算法简单且具有缩放旋转以及平移不变性,但颜色信息不足之处在于忽略了图像中的空间位置关系,并且颜色特征受外界光照因素干扰大。基于纹理特征物体检测方法能够很好的获取物体结构和空间信息,但对于某些工业产品其表面纹理特征不明显,基于纹理特征的检测方法适用性不高。而基于卷积神经网络的分类方法具有自适应性,能够自学习的提取分类所需的特征,但是该方法需要大量标注数据,且存在人工难以对位置和姿态等信息准确标定的问题。
因此,需要提出一种既可以充分利用待检测目标特征,又能直观而准确表示机器人控制目标位姿信息的检测技术。
发明内容
本发明目的在于满足工业生产过程机器人获取控制目标位姿信息的需求,提供一种基于堆积沙漏残差网络的单/多目标关键点定位方法。利用先进的深度学习技术,采用深度卷积神经网络-堆积沙漏残差网络,避免了手工设计特征的复杂过程,并且能够克服目标图像形变、光照变化等影响,对机器人控制目标关键特征点(简称:关键点)进行学习定位,根据获取的关键点通过双目三维反求技术可对机器人控制目标位姿估计和定位,进而实现对目标的准确抓取。
一种基于堆积沙漏网络的单/多目标关键点定位方法,包括如下步骤:
(1)采集正常运行过程机器人单/多控制目标不同位姿的图像数据,组成训练样本集;
(2)对训练样本集进行预处理,通过控制目标的关键点坐标,生成训练样本集对应的热度图标签数据集;
(3)利用预处理后的训练样本集以及对应热度图标签数据集对构建的堆积沙漏残差网络模型进行训练,获取得到所述堆积沙漏残差网络模型的最优参数;
(4)利用双目摄像机获取待定位单/多控制目标的原始图像,并对该图像进行预处理,然后输入至训练得到的堆积沙漏残差网络模型,获得单/多待定位控制目标的关键点坐标;
(5)利用得到的控制目标的关键点坐标信息,实现对单/多控制目标的定位和抓取。
步骤(1)主要是实现训练样本获取。一般直接利用机器视觉(一般为双目摄像机)系统采集各种工业生产场景下,正常运行过程中机器人控制目标不同位姿的图像数据,组成数据建模用的训练样本集。该步骤中,可以根据实际需要检测的目标组成对训练样本集进行针对性的选择,比如对于单目标控制的情况,可以直接采用单控制目标对应的图像数据,构建所述的训练样本集;对于多目标控制的情况,可以采用更多多控制目标对应的图像数据,构建所述的训练样本集。当然,对于即需要对单目标控制进行检测,又需要对多控制目标进行检测的情况,可以选择同时采集单控制目标对应的图像数据和多控制目标对应的图像数据构建所述的训练样本集。
步骤(2)中,主要实现对训练数据预处理以及标签数据集的构建。
首先对得到的数据集进行裁剪处理,使得各个样本图像大小均为H×W。其中,H表示图像长度;W为图像宽度。该预处理过程同样适用于实际检测过程(步骤(4)中)。
随后对数据集进行标签,标签采为热度图的形式,热度图是一个大小为h×w×k1的三维矩阵,其中k1为热度图标签通道数。一个关键点生成一个大小为h×w×1热度图,多个(k1个)关键点的热度图堆叠生成h×w×k1的热度图数据集,作为对应图像数据的标签数据,替换原来的像素坐标标签。
针对每个关键点,生成对应的能够反映关键点概率的热度图标签数据的公式如下:
Figure BDA0002610235230000031
其中:(x0,y0)表示关键点坐标,(x,y)热度图上像素点的坐标,σ为影响生成热点的大小常数;Y表示目标热度图上对应热度值,(x,y)距离关键点(x0,y0)越近,数值越接近1,反之越接近0。
热度图通过对图像中每个像素位置赋予概率值解决了特征空间到像素坐标(x,y)的映射难以学习的问题,每个像素位置都能提供监督信息,使网络能较快的收敛,同时对每一个像素位置进行预测能够为点回归提供有效的指导,提高关键点的定位精度。
该步骤中,根据控制目标特点,确定关键点坐标和关键点数量;针对每个关键点,生成对应的能够反映关键点概率的热度图标签数据;在应对多瓶体关键点检测时,通过在各个瓶体关键点通道之间再加入一层隔离通道,能有效隔离不同瓶体关键点检测时的扰动,有助于后续将各个关键点归类所属瓶体。
在相邻控制目标热度图标签数据之间增加隔离通道的方法如下:我们定义其中,k为热度图标签通道数,n为最大检测瓶体目标数,p为瓶体关键点数。
(I)将当前的控制目标对应的热度图进行融合,形成融合热度图,其中融合热度图中每一个点的值取为当前的控制目标对应的所有热度图对应点处的热度值的最大值;
gi,j(x)=max(xi,j,1,xi,j,2,…,xi,j,p),i=1,2,…,h;j=1,2,…,w;
其中,h为热度图的高,w为热度图的宽,p为瓶体关键点数,xi,j,p表示第p个关键点对应的热度图中第i,j处的热度值,gi,j(x)表示目标关键点融合热度图中,第i,j处的热度值;
(II)对融合热度图的每一个点的热度值取反,即得到所述的隔离通道。该步骤中,融合热度图上某一像素坐标的取值表征含义为当前像素坐标位置存在关键点的概率,取值范围为0-1。隔离通道通过对应位置互补概率实现信息隔离过滤生成公式如下:
f(x)=100%-g(x)。
其中,g(x)表示关键点融合热度图,由gi,j(x)构成,f(x)表示目标隔离通道。
步骤(3)中,首先完成模型的构建。,所述堆积沙漏残差网络模型主要由四阶沙漏模块组成,所述沙漏模块主要由残差模块组成,所述残差模块具有两个支路,分为卷积支路和跳级支路。
本发明采用堆积沙漏残差网络从图像中搜索到全部的控制目标关键点。在多控制目标关键点检测问题中,控制目标与相机的距离不同导致图像上瓶体呈现的大小也不同,堆积沙漏残差网络充分提取图像多尺度特征,定位多尺度、复杂位姿的物体关键点。
堆积沙漏残差网络的搭建体现了模块化的设计思想,初级模块堆叠组成基本网络,连接基本网络得到完整网络。
搭建沙漏网络的初级模块是残差模块,残差模块有两个支路,分为卷积支路和跳级支路,卷积支路由三个不同尺度的卷积层和BN+ReLU层串联而成,用于提取高层次的特征;跳级支路为一个1×1卷积核的卷积层,通过跳跃连接保留原层次特征。残差模块不改变数据尺寸,只改变数据深度,可以将残差模块看做一个保持尺寸不变的高级“卷积”层。
卷积支路通过三层卷积,使得通道数通过第一层先减小到输入通道的1/2,再通过第三层通道还原至输入尺寸大小,使得图像在经过输入与输出的尺寸不变,同时减少了整个卷积提取特征过程的参数计算,提高了计算效率;跳级支路通过跳跃连接的方式,使得有益于损失收敛,提升网络精度的信息尽可能的传递到下一层级。
沙漏模块是堆积沙漏网络的主要组成部分,由残差模块组成。沙漏网络是一个递归的结构,通过递归的层数可以定义网络阶数。一阶沙漏模块同样具有两个分支路线,卷积支路一般由一个下采样层、三个残差模块和一个上采样层组成;跳级支路由一个残差模块组成。
本发明采用的堆积沙漏残差网络所采用的沙漏模块为四阶沙漏模块,四阶沙漏可以看作四个一阶沙漏模块嵌套而成,通过四次的下采样将图像变换至不同的尺寸,在每次下次样之后通过残差模块提取图像特征,这样的设计能提取多尺度图像特征,有助于充分提取图片信息。随后再通过四次上采样将图像还原至输入尺寸,因此,四阶沙漏模块也不改变数据尺寸,只改变数据深度。
本发明采用的堆积沙漏残差网络以一个N阶沙漏模块为中心,根据检测对象的难易程度选择沙漏模块的阶数,检测对象特征越复杂,应选择高阶沙漏模块。本发明以检测光面瓶体为例,由于光面瓶体具有复杂的表面特征,本发明采用的堆积沙漏残差网络所采用的沙漏模块为四阶沙漏模块。
该步骤中,构建网络模型后,进行模型训练。构建完堆积沙漏残差网络后,选取RMSE为损失函数。根据人工经验选择设置合适的超参数,如迭代次数、批次大小、学习率等,不同的检测对象有各自的适用超参数设置。模型训练首先初始化普通参数并输入标注数据集(目标图像与对应热度图标签),然后通过Adma优化器更新模型普通参数,观察损失函数(RMSE)表现调整超参数设置,获取具有较优性能的堆积沙漏残差网络模型。
模型输出为预测的热度图,难以直观反应预测的精度,因此,可以通过将热度图透明化与原始图像叠加显示。作为优选,步骤(4)完成后,利用如下步骤,可以实现用户的在线显示:
第一步:是将堆积沙漏残差网络模型得到的多张热度图进行融合操作,得到包含多个关键点信息的融合热度图;
第二步:将融合热度图半透明化;
第三步:将半透明化的热度图与原始图像叠加,实现用户的在线显示。
网络输出的预测热度图上某一像素坐标的取值表征含义为当前像素坐标位置预测存在关键点的概率,取值范围为0-1。预测值越接近1,表明该像素坐标为关键点坐标的概率越大,即关键点置信度越高;反之,预测值越接近0,表明该像素坐标为关键点坐标的概率越小,即该位置关键点置信度低。
步骤(5)中,对于单瓶体情况来说,图像中唯一存在一个瓶体,直接获取其关键点坐标,实现对控制目标的定位和抓取,即为优先抓取瓶体。针对多瓶体情况,需要判别确定检测置信度最高的瓶体为优先抓取瓶体,网络检测出多个瓶体的全部关键点后,优先抓取瓶体的判别方法如下:获取多个控制目标的关键点信息,比较各个控制目标的关键点中置信度最低的关键点集合,取关键点集合中置信度最大的关键点所对应控制目标为优先抓取目标,按照相同方法对剩余控制目标进行判断,得到多个控制目标优先抓取顺序。
双目摄像机所拍摄到的左右图像中同一特征点的左右两个二维像素坐标唯一对应着世界坐标下一个空间点。这样的对应关系是由摄像机成像的几何模型所决定的,这样的几何模型就是摄像机的参数,参数主要分为内部参数和外部参数,获得这些参数的过程就是摄像机标定。确定好优先抓取顺序后,对所述双目摄像机进行摄像机标定,获取摄像机参数;
然后,结合获取摄像机参数,对于当前优先抓取目标的关键点坐标转化至双目摄像机坐标系,然后进行旋转平移变换,将当前优先抓取目标的关键点坐标映射至机器人控制坐标系,进而实现机器人控制坐标系下控制目标的关键点信息获取、定位和抓取。
实际操作时,根据获得的优先抓取目标若干个关键点坐标(像素坐标),结合得到的双目摄像机标定矩阵,通过三维反求技术可获得关键点的空间坐标,随后进行旋转平移变换,映射至机器人控制坐标系,以此可以重构机器人控制坐标系下控制目标的关键点信息进而估计目标位姿,精确的位姿估计所需的关键点数目取决于机器人控制目标的几何外形复杂程度。
与现有技术相比,本发明的有益效果体现在:
本发明提供一种基于堆积沙漏网络的多目标关键点定位方法。1)在充分考虑到工业生产过程中光照、背景等干扰因素影响的情况下,以复杂工况下机器人控制目标不同位姿图片为样本;2)图像标签采用热度图标签,常规的关键点检测问题通过点坐标回归的方式输出预测点,回归损失仅考虑欧式距离,即预测点和真实点之间的欧式距离。但是长距离的回归较难,在训练过程中两点欧式距离所能提供的监督信息较少,导致网络收敛速度慢,误差也较大。本发明图像标签设置为热图标签,即根据图像中每个像素位置与关键点的距离生成0~1之间的概率,从而生成概率分布图。每个像素位置都提供了监督信息,为输出预测提供更加可靠的指导。根据多目标检测的特点,在多个瓶体图像的标签热度图各目标关键点之间加入隔离通道,减少不同目标之间关键点检测的干扰,使得多个目标的关键点检测更为准确,更具鲁棒性;3)网络采用模块化构建的堆积沙漏残差卷积神经网络,该网络通过多次上采样和下采样能够自适应,自学习提取物体多尺度特征。对于关键点检测问题,不同关键点所需的最优预测特征往往位于不同卷积层,堆积沙漏残差网络的堆积沙漏结构能够寻找最优的检测尺度,残差结构能够使得最优的预测信息传递至网络输出层,根据所检测的关键点提取到的特征信息实现用于机器人控制目标若干个关键点的学习,并在卷积神经网络模型学习到目标特征点像素坐标的基础上,采用双目三维反求技术,实现对关键点空间坐标的确定。然后根据若干个关键点空间坐标信息映射至实际位姿信息。该方法对机器人控制目标特征提取既可以充分利用物体特征信息,又充分考虑到外界干扰的影响,同时避免了普通深度神经网络对位置,姿态信息难以标定的问题,从而对机器人控制目标姿态检测技术实现了提升。
附图说明
图1为热度图示意图;
图2为关键点热度图示例;
图3为含隔离通道的热度图;
图4为关键点融合热度图;
图5为隔离通道图;
图6为残差模块构成示意图;
图7为一阶沙漏模块构成示意图;
图8为四阶沙漏模块;
图9为本发明构建的堆积沙漏残差网络模型图;
图10为预测热度图可视化流程图;
图11为预测热度图可视化结果;
图12为优先抓取瓶体关键点检测结果。
具体实施方式
以瓶体对象的检测过程为例,对本发明做进一步说明:
一种基于堆积沙漏网络的多目标关键点定位方法,包括以下步骤:
第一步:训练样本获取。利用机器视觉系统采集各种工业生产场景下,正常运行过程中机器人控制目标不同位姿的图像数据,组成数据建模用的训练样本集。
第二步:训练数据预处理。对数据集进行裁剪处理,使得各个样本图像大小均为H×W。其中,H表示图像长度;W为图像宽度。
随后对数据集进行标签,标签采为热度图的形式,热度图是一个大小为h×w×k1的三维矩阵,其中k1为热图标签通道数。一个关键点生成大小为h×w×1热度图,k1个关键点的热度图堆叠生成h×w×k1的热度图,作为标签替换原来的像素坐标标签,如图1所示。
单个热度图的生成方法是在图片对应关键点所在位置生成一个固定方差的二维高斯分布,生成公式见下式。
Figure BDA0002610235230000081
其中,(x0,y0)表示关键点坐标,(x,y)热度图上像素点的坐标,Y表示目标热度图。(x,y)离关键点越近,数值越接近1,(x,y)离关键点越远,数值越接近0,σ取常数,人为经验设定,影响生成热点的大小。生成效果如图2所示。
热度图通过对图像中每个像素位置赋予概率值解决了特征空间到像素坐标(x,y)的映射难以学习的问题,每个像素位置都能提供监督信息,使网络能较快的收敛,同时对每一个像素位置进行预测能够为点回归提供有效的指导,提高关键点的定位精度。
在应对多瓶体关键点检测时,通过在各个瓶体关键点通道之间再加入一层隔离通道,能有效隔离不同瓶体关键点检测时的扰动,有助于后续将各个关键点归类所属瓶体。如图3所示。其中,k为热度图标签通道数,n为最大检测瓶体目标数,p为瓶体关键点数。
隔离通道生步骤如下:
1)将同一瓶体的多个关键点通道信息融合到同一热度图上,融合热度图方式为:
gi,j(x)=max(xi,j,1,xi,j,2,…,xi,j,p),i=1,2,…,h;j=1,2,…,w;
其中,h为热度图的高,w为热度图的宽,p为瓶体关键点数,xi,j,p表示第p个关键点对应的热度图第i行,第j列对应点的热度值,g(x)i,j表示目标融合热度图g(x)第i行,第j列对应点的热度值,g(x)表示目标关键点融合热度图,生成效果如图4所示。
2)融合热度图上某一像素坐标的取值表征含义为当前像素坐标位置存在关键点的概率,取值范围为0-1。隔离通道通过对应位置互补概率实现信息隔离过滤生成公式如下:
f(x)=1-g(x)
其中,g(x)表示关键点融合热度图,f(x)表示目标隔离通道,生成效果如图5所示。
第三步:模型构建。本发明采用堆积沙漏残差网络从图像中搜索到全部的瓶体关键点。在多瓶体关键点检测问题中,瓶体与相机的距离不同导致图像上瓶体呈现的大小也不同,堆积沙漏残差网络充分提取图像多尺度特征,定位多尺度、复杂位姿的物体关键点。
堆积沙漏残差网络的搭建体现了模块化的设计思想,初级模块堆叠组成基本网络,连接基本网络得到完整网络。
搭建沙漏网络的初级模块是残差模块,结构如图6所示,残差模块有两个支路,分为卷积支路和跳级支路,残差模块不改变数据尺寸,只改变数据深度,可以将残差模块看做一个保持尺寸不变的高级“卷积”层。
其中卷积支路由三个不同尺度的卷积层和BN+ReLU层串联而成,提取高层次的特征;跳级支路为一个1×1卷积核的卷积层,通过跳跃连接保留原层次特征。
卷积支路包含三层卷积,通道数为NumIn的特征图通过第一层卷积其通道数减小到输入时的1/2,第二层卷积保持通道数不变,再通过第三层卷积将通道数还原至输入尺寸大小,即NumIn=NumOut,使得图像在经过卷积支路后输入与输出的尺寸保持不变,同时减少了整个卷积提取特征过程的参数计算,提高了计算效率;跳级支路通过跳跃连接的方式,使得有益于损失收敛,提升网络精度的信息尽可能的传递到下一层级。
其中,卷积层对输入的图像进行卷积操作操作,提取数据特征,得到特征图,“(·)”表示卷积过程输入特征图通道数、和人工设置的输出通道数,K表示卷积核大小。在每个卷积层前需进行BN+ReLU组合操作,BN表示批归一化层,对输入的图像进行批归一化(BN)操作,使数据分布规范化,ReLU表示非线性激活层,提升模型非线性能,组合BN+Relu的操作,能有效加速收敛,提升模型精度),NumIn表示模块输入维度,NumOut表示模块输出维度。
沙漏模块是堆积沙漏网络的主要组成部分,由残差模块组成。沙漏网络是一个递归的结构,通过递归的层数可以定义网络阶数。一阶沙漏模块如图7所示:
一阶沙漏模块具有两个分支路线,卷积支路一般由一个下采样层、三个残差模块和一个上采样层组成,下采样层和上采样层的组合使得输入特征图与输出特征图的尺寸保持不变,同时减少了整个卷积提取特征过程的参数计算,提高了计算效率,三个残差模块用于提取特征图的层次特征;跳级支路由一个残差模块组成,使得输入到输出所需流经的最小卷积层数为三层,保证有效特征信息的完整性和流通性。
其中,Max pool代表下采样,池化窗口为2×2,步长s为2,Max pool对输入进行数据降维,将原始图片尺寸缩小一半,减少后续操作的计算数据,提高计算效率;Res为残差模块,<256>表示输入、输出通道数,每个残差模块包含三个卷积层,主要用于特征图的特征提取;Up Sample代表上采样,使用最近邻插值将下采样图片还原至原始尺寸,保证输入特征图与输出特征图的尺寸不变。
本发明采用的堆积沙漏残差网络所采用的沙漏模块为四阶沙漏模块,四阶沙漏可以看做四个一阶沙漏模块嵌套而成,通过四次的下采样将图像变换至不同的尺寸,在每次下次样之后通过残差模块提取图像特征,这样的设计能提取多尺度图像特征,有助于充分提取图片信息。随后再通过四次上采样将图像还原至输入尺寸,因此,四阶沙漏模块也不改变数据尺寸,只改变数据深度。
本发明采用的堆积沙漏网络如图9所示,其中卷积层内部形如7×7,1×1为卷积核尺寸大小,s为卷积步长。网络以一个N阶沙漏模块为中心,根据检测对象的难易程度选择沙漏模块的阶数,检测对象特征越复杂,应选择高阶沙漏模块。本发明以检测光面瓶体为例,由于光面瓶体具有复杂的表面特征,本发明采用的堆积沙漏残差网络所采用的沙漏模块为四阶沙漏模块。
如图9所示,Input为输入图像,通常为RGB三通道彩色图像;因此第一卷积层(Conv<3>7×7s=2<64>)的输入通道数为3,输出通道数为人工设置的64,卷积核尺寸大小为7×7,步长s为2,第一层卷积主要作用是将三通道输入图像映射至多通道特征图,以供网络进行特征提取;第一BN+RuLU联组合层操作使得特征图数据分布规范化和非线性化,数据分布规范化操作能有效提升训练效率和梯度传播,减少网络梯度消失或梯度爆炸的风险,非线性化用于提升网络的非线性拟合能力;第一残差模块(Res<64><128>)的输入通道数为前一级网络输出特征图的通道数64,输出通道数为人工设置的128,获取更深层的特征图;下采样层(Max Pool2×2s=2)的池化窗口大小为2×2,步长s为2,下采样操作对数据进行降维,将特征图尺寸大小缩小至原尺寸一半,减少后续操作的计算数据,提高计算效率;三个第二残差模块(Res<128><128>;Res<128><128>;Res<128><256>)功能基本同第一残差模块,提取特征的同时将特征图映射获得更高层次的特征图;N阶沙漏模块中包含多次的上采样和下采样的操作,用于提取数据的多尺度特征;第二卷积层(Conv<512>1×1s=1<512>)、第三卷积层(Conv<512>1×1s=1<256>)和BN+RuLU联组合层操作,在提取数据特征的同时将特征图通道数从512降低至256;随后通过两次上采样(Up Sample×2)和卷积层(Conv<256>1×1<dim>)的操作,由两次上采样层逐步还原特征图尺寸等于输入图像的尺寸,两次卷积层(Conv<dim>1×1<dim>)通过1×1卷积将特征图通道数映射至dim,与网路检测关键点数相匹配;其后的卷积层(Conv<dim>1×1<dim>)为1×1,输入通道数等于输出通道数的等价映射,多一级的等价映射能有效提升最终预测的准确性;sigmoid层将输出数据映射至0-1的区间,表征热度图像素位置关键点概率;最终,Output为输出的预测热度图。进而得到待检测图像的关键点坐标。
堆积沙漏网络可以从彩色图像预测dim个关键点特征图。整个网络输入图片的分辨率为256×256,在最开始经过一个7×7的步长为2的卷积层,之后再经过一个残差块和Max pooling层使得分辨率降至64×64,因此,数据在沙漏模块中的最大分辨率为64×64。沙漏模块内部经过多次的下采样和上采样从而提取图像多尺度特征,其中的跳跃连接能保证提取的多尺度特征尽可能完整的传递到模块输出,输出结果经过多次1×1的卷积映射和2次上采样,映射还原至输入尺寸相同的大小,随后通过设置卷积层输出通道数为dim,从而最终得到dim个关键点特征图。
第四步:模型训练。构建完堆积沙漏残差网络后,选取RMSE为损失函数。根据人工经验选择设置合适的超参数,如迭代次数、批次大小、学习率等,不同的检测对象有各自的适用超参数设置。模型训练首先初始化普通参数并输入标注数据集(目标图像与对应热度图标签),然后通过Adma优化器更新模型普通参数,观察损失函数(RMSE)表现调整超参数设置,获取具有较优性能的堆积沙漏残差网络模型。
第五步:关键点学习。模型输出为预测的热度图,难以直观反应预测的精度,因此,通过将热度图透明化与原始图像叠加显示。具体操作如图10所示。
第一步:是将堆积沙漏残差网络模型得到的多张热度图进行融合操作,得到包含多个关键点信息的融合热度图;
第二步:将融合热度图半透明化;
第三步:将半透明化的热度图与原始图像叠加,实现用户的在线显示。
利用视觉平台采集新的图像样本,通过训练好的堆积沙漏残差网络和相应模型参数对新图像进行关键特征点点学习,输出预测热度图结果通过图10流程操作,可得预测结果如图11所示。
网络输出的预测热度图上某一像素坐标的取值表征含义为当前像素坐标位置预测存在关键点的概率,取值范围为0-1。预测值越接近1,在图像中的颜色越深(红),表明该像素坐标为关键点坐标的概率越大,即关键点置信度越高;反之,预测值越接近0,在图像中的颜色越浅(蓝),表明该像素坐标为关键点坐标的概率越小,即该位置关键点置信度低。
第六步:优先抓取目标判定。对于单瓶体情况来说,图像中唯一存在一个瓶体,即为优先抓取瓶体。针对多瓶体情况,需要判别确定检测置信度最高的瓶体为优先抓取瓶体,网络检测出多个瓶体的全部关键点后,优先抓取瓶体的判别方法如下:
(1)关键点归类:假设检测对象为三个瓶体,每个瓶体定义四个关键点,根据网络输出获取其每一通道对应的关键点信息,每四个通道可确定为一个瓶体的四个关键点,即s1-s4,s5-s8,s9-s12分别为Bottle_1,Bottle_2,Bottle_3瓶体的4个关键点;
(2)优先抓取判断:比较各个瓶体四个关键点中置信度最低的关键点,取其中最大的关键点所属瓶体为优先抓取瓶体,记录该瓶体四个关键点坐标;如图12所示。
第七步:双目摄像机标定。双目摄像机所拍摄到的左右图像中同一特征点的左右两个二维像素坐标唯一对应着世界坐标下一个空间点。这样的对应关系是由摄像机成像的几何模型所决定的,这样的几何模型就是摄像机的参数,参数主要分为内部参数和外部参数,获得这些参数的过程就是摄像机标定。
第八步:位姿估计。根据第六步获得的优先抓取目标若干个关键点坐标(像素坐标),结合第七步得到的双目摄像机标定矩阵,通过三维反求技术可获得关键点的空间坐标,随后进行旋转平移变换,映射至机器人控制坐标系,以此可以重构机器人控制坐标系下控制目标的关键点信息进而估计目标位姿,精确的位姿估计所需的关键点数目取决于机器人控制目标的几何外形复杂程度。

Claims (8)

1.一种基于堆积沙漏网络的单/多目标关键点定位方法,其特征在于,包括如下步骤:
(1)采集正常运行过程的机器人单/多控制目标不同位姿的图像数据,组成训练样本集;
(2)对训练样本集进行预处理,根据控制目标的关键点坐标,生成训练样本集对应的热度图标签数据集;
(3)利用预处理后的训练样本集以及对应热度图标签数据集对构建的堆积沙漏残差网络模型进行训练,获取得到所述堆积沙漏残差网络模型的最优参数;
(4)利用获取待定位单/多控制目标的原始图像,并对该图像进行预处理,然后输入至训练得到的堆积沙漏残差网络模型,获得单/多待定位控制目标的关键点坐标;
(5)利用得到的控制目标的关键点坐标信息,实现对单/多控制目标的定位和抓取。
2.根据权利要求1所述的基于堆积沙漏网络的单/多目标关键点定位方法,其特征在于:步骤(5)中,对于单个控制目标的情况,直接获取其关键点坐标,实现对控制目标的定位和抓取;对于多个控制目标的情况,进行优先抓取目标判定:获取多个控制目标的关键点信息,比较各个控制目标的关键点中置信度最低的关键点集合,取关键点集合中置信度最大的关键点所对应控制目标为优先抓取目标,按照相同方法对剩余控制目标进行判断,得到多个控制目标优先抓取顺序。
3.根据权利要求1所述的基于堆积沙漏网络的单/多目标关键点定位方法,其特征在于:步骤(2)中,通过控制目标的关键点坐标,生成训练样本集对应的热度图标签数据集的方法如下:
根据控制目标特点,确定关键点坐标和关键点数量;针对每个关键点,生成对应的能够反映关键点概率的热度图标签数据;
对于多控制目标,在相邻控制目标热度图标签数据之间增加隔离通道。
4.根据权利要求3所述的基于堆积沙漏网络的单/多目标关键点定位方法,其特征在于:
针对每个关键点,生成对应的能够反映关键点概率的热度图标签数据的公式如下:
Figure FDA0002610235220000021
其中:(x0,y0)表示关键点坐标,(x,y)热度图上像素点的坐标,σ为影响生成热点的大小常数;Y表示目标热度图上对应热度值,(x,y)距离关键点(x0,y0)越近,数值越接近1,反之越接近0。
5.根据权利要求3所述的基于堆积沙漏网络的单/多目标关键点定位方法,其特征在于:在相邻控制目标热度图标签数据之间增加隔离通道的方法如下:
将当前的控制目标对应的热度图进行融合,形成融合热度图,其中融合热度图中每一个点的值取为当前的控制目标对应的所有热度图对应点处的热度值的最大值;
对融合热度图的每一个点的热度值取反,即得到所述的隔离通道。
6.根据权利要求1所述的基于堆积沙漏网络的单/多目标关键点定位方法,其特征在于:步骤(4)完成后,利用如下步骤,同时实现用户的在线显示:
第一步:是将堆积沙漏残差网络模型得到的多张热度图进行融合操作,得到包含多个关键点信息的融合热度图;
第二步:将融合热度图半透明化;
第三步:将半透明化的热度图与原始图像叠加,实现用户的在线显示。
7.根据权利要求2所述的基于堆积沙漏网络的单/多目标关键点定位方法,其特征在于:步骤(4)中利用获取待定位单/多控制目标的原始图像;确定好优先抓取顺序后,对所述双目摄像机进行摄像机标定,获取摄像机参数;
结合获取摄像机参数,将当前优先抓取目标的关键点坐标转化至双目摄像机坐标系,然后进行旋转平移变换,将当前优先抓取目标的关键点坐标映射至机器人控制坐标系,进而实现机器人控制坐标系下控制目标的关键点信息获取、定位和抓取。
8.根据权利要求1所述的基于堆积沙漏网络的单/多目标关键点定位方法,其特征在于,所述堆积沙漏残差网络模型主要由四阶沙漏模块组成,所述沙漏模块主要由残差模块组成,所述残差模块具有两个支路,分为卷积支路和跳级支路。
CN202010751643.5A 2020-07-30 2020-07-30 一种基于堆积沙漏网络的单/多目标关键点定位方法 Active CN111913435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010751643.5A CN111913435B (zh) 2020-07-30 2020-07-30 一种基于堆积沙漏网络的单/多目标关键点定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010751643.5A CN111913435B (zh) 2020-07-30 2020-07-30 一种基于堆积沙漏网络的单/多目标关键点定位方法

Publications (2)

Publication Number Publication Date
CN111913435A true CN111913435A (zh) 2020-11-10
CN111913435B CN111913435B (zh) 2021-10-22

Family

ID=73287739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010751643.5A Active CN111913435B (zh) 2020-07-30 2020-07-30 一种基于堆积沙漏网络的单/多目标关键点定位方法

Country Status (1)

Country Link
CN (1) CN111913435B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348883A (zh) * 2020-11-24 2021-02-09 中国科学院自动化研究所 血管介入手术中介入器械端点实时定位系统、方法、装置
CN112801988A (zh) * 2021-02-02 2021-05-14 上海交通大学 基于rgbd和深度神经网络的物体抓取位姿检测方法
CN112906675A (zh) * 2021-04-27 2021-06-04 南京大学 一种固定场景中的无监督人体关键点检测方法及系统
CN113822277A (zh) * 2021-11-19 2021-12-21 万商云集(成都)科技股份有限公司 基于深度学习目标检测的违规广告图片检测方法及系统
CN115115540A (zh) * 2022-06-08 2022-09-27 大连海事大学 基于光照信息引导的无监督低光图像增强方法及装置
CN115797966A (zh) * 2022-10-27 2023-03-14 杭州智诺科技股份有限公司 一种采集和识别情绪数据的方法、系统、装置和介质
CN116673962A (zh) * 2023-07-12 2023-09-01 安徽大学 一种基于FasterR-CNN和GRCNN的机械臂智能抓取方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012141663A1 (en) * 2011-04-13 2012-10-18 Alptekin Temizel A method for individual tracking of multiple objects
CN109344882A (zh) * 2018-09-12 2019-02-15 浙江科技学院 基于卷积神经网络的机器人控制目标位姿识别方法
CN109766887A (zh) * 2019-01-16 2019-05-17 中国科学院光电技术研究所 一种基于级联沙漏神经网络的多目标检测方法
CN110084221A (zh) * 2019-05-08 2019-08-02 南京云智控产业技术研究院有限公司 一种基于深度学习的带中继监督的序列化人脸关键点检测方法
CN110348358A (zh) * 2019-07-03 2019-10-18 网易(杭州)网络有限公司 一种肤色检测系统、方法、介质和计算设备
CN110415256A (zh) * 2019-07-10 2019-11-05 沈阳城市学院 基于视觉的快速多目标识别方法及系统
CN111126412A (zh) * 2019-11-22 2020-05-08 复旦大学 基于特征金字塔网络的图像关键点检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012141663A1 (en) * 2011-04-13 2012-10-18 Alptekin Temizel A method for individual tracking of multiple objects
CN109344882A (zh) * 2018-09-12 2019-02-15 浙江科技学院 基于卷积神经网络的机器人控制目标位姿识别方法
CN109766887A (zh) * 2019-01-16 2019-05-17 中国科学院光电技术研究所 一种基于级联沙漏神经网络的多目标检测方法
CN110084221A (zh) * 2019-05-08 2019-08-02 南京云智控产业技术研究院有限公司 一种基于深度学习的带中继监督的序列化人脸关键点检测方法
CN110348358A (zh) * 2019-07-03 2019-10-18 网易(杭州)网络有限公司 一种肤色检测系统、方法、介质和计算设备
CN110415256A (zh) * 2019-07-10 2019-11-05 沈阳城市学院 基于视觉的快速多目标识别方法及系统
CN111126412A (zh) * 2019-11-22 2020-05-08 复旦大学 基于特征金字塔网络的图像关键点检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴涛: "基于级联堆积沙漏模型的人脸关键点检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348883A (zh) * 2020-11-24 2021-02-09 中国科学院自动化研究所 血管介入手术中介入器械端点实时定位系统、方法、装置
CN112348883B (zh) * 2020-11-24 2021-06-29 中国科学院自动化研究所 血管介入手术中介入器械端点实时定位系统、方法、装置
CN112801988A (zh) * 2021-02-02 2021-05-14 上海交通大学 基于rgbd和深度神经网络的物体抓取位姿检测方法
CN112801988B (zh) * 2021-02-02 2023-04-18 上海交通大学 基于rgbd和深度神经网络的物体抓取位姿检测方法
CN112906675A (zh) * 2021-04-27 2021-06-04 南京大学 一种固定场景中的无监督人体关键点检测方法及系统
CN112906675B (zh) * 2021-04-27 2024-03-22 南京大学 一种固定场景中的无监督人体关键点检测方法及系统
CN113822277A (zh) * 2021-11-19 2021-12-21 万商云集(成都)科技股份有限公司 基于深度学习目标检测的违规广告图片检测方法及系统
CN113822277B (zh) * 2021-11-19 2022-02-18 万商云集(成都)科技股份有限公司 基于深度学习目标检测的违规广告图片检测方法及系统
CN115115540A (zh) * 2022-06-08 2022-09-27 大连海事大学 基于光照信息引导的无监督低光图像增强方法及装置
CN115797966A (zh) * 2022-10-27 2023-03-14 杭州智诺科技股份有限公司 一种采集和识别情绪数据的方法、系统、装置和介质
CN116673962A (zh) * 2023-07-12 2023-09-01 安徽大学 一种基于FasterR-CNN和GRCNN的机械臂智能抓取方法及系统
CN116673962B (zh) * 2023-07-12 2024-03-19 安徽大学 一种基于Faster R-CNN和GRCNN的机械臂智能抓取方法及系统

Also Published As

Publication number Publication date
CN111913435B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN111913435B (zh) 一种基于堆积沙漏网络的单/多目标关键点定位方法
CN108280856B (zh) 基于混合信息输入网络模型的未知物体抓取位姿估计方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN112085735B (zh) 一种基于自适应锚框的铝材质图像缺陷检测方法
CN109934864B (zh) 面向机械臂抓取位姿估计的残差网络深度学习方法
CN109344882B (zh) 基于卷积神经网络的机器人控制目标位姿识别方法
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
CN113221647B (zh) 一种融合点云局部特征的6d位姿估计方法
CN108573221A (zh) 一种基于视觉的机器人目标零件显著性检测方法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN114663502A (zh) 物体姿态估计、图像处理方法及相关设备
CN114757904A (zh) 一种基于ai深度学习算法的表面缺陷检测方法
CN112949452A (zh) 一种基于多任务共享网络的机器人弱光环境抓取检测方法
CN115238758A (zh) 一种基于点云特征增强的多任务三维目标检测方法
Zunjani et al. Intent-based object grasping by a robot using deep learning
Duan et al. A semantic robotic grasping framework based on multi-task learning in stacking scenes
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN117011380A (zh) 一种目标物体的6d位姿估计方法
CN112288809A (zh) 一种用于多物体复杂场景的机器人抓取检测方法
CN117351078A (zh) 基于形状先验的目标尺寸与6d姿态估计方法
CN114998573B (zh) 一种基于rgb-d特征深度融合的抓取位姿检测方法
CN111582058B (zh) 一种使用对抗式3d分层网络进行手部姿态估计的方法
Lee et al. MasKGrasp: Mask-based Grasping for Scenes with Multiple General Real-world Objects
Lei et al. Multi-stage 3d pose estimation method of robot arm based on RGB image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 310023 No. 318 stay Road, Xihu District, Zhejiang, Hangzhou

Patentee after: ZHEJIANG University OF SCIENCE AND TECHNOLOGY

Address before: 310023 No. 318, Ho Ho Road, Hangzhou, Zhejiang

Patentee before: ZHEJIANG University OF SCIENCE AND TECHNOLOGY

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Wei

Inventor after: Zhou Le

Inventor after: Dai Shiqing

Inventor after: Zeng Yinxue

Inventor after: Hou Beiping

Inventor after: Zhang Miao

Inventor before: Zhou Le

Inventor before: Dai Shiqing

Inventor before: Zeng Yinxue

Inventor before: Hou Beiping

Inventor before: Liu Wei

Inventor before: Zhang Miao