CN113799124A - 一种非结构化环境的机器人灵活抓取检测方法 - Google Patents
一种非结构化环境的机器人灵活抓取检测方法 Download PDFInfo
- Publication number
- CN113799124A CN113799124A CN202111005769.9A CN202111005769A CN113799124A CN 113799124 A CN113799124 A CN 113799124A CN 202111005769 A CN202111005769 A CN 202111005769A CN 113799124 A CN113799124 A CN 113799124A
- Authority
- CN
- China
- Prior art keywords
- grabbing
- target
- detection
- robot
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000004519 manufacturing process Methods 0.000 claims abstract description 5
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000001737 promoting effect Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 239000002994 raw material Substances 0.000 claims 1
- 238000011176 pooling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000012636 effector Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 240000007185 Albizia julibrissin Species 0.000 description 1
- 235000011468 Albizia julibrissin Nutrition 0.000 description 1
- 206010061274 Malocclusion Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1612—Programme controls characterised by the hand, wrist, grip control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1669—Programme controls characterised by programming, planning systems for manipulators characterised by special application, e.g. multi-arm co-operation, assembly, grasping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Orthopedic Medicine & Surgery (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种非结构化环境的机器人灵活抓取检测方法,包括,利用Kinect x1相机采集抓取场景中的彩色图,并制作目标检测数据集,通过目标检测网络架构识别出场景中的各个目标;根据识别出的所述各个目标,结合多目标抓取姿态生成网络生成各目标的抓取位姿;以目标检测结果中的对象区域和抓取检测结果中的位姿信息为基准,筛选最优的抓取位姿,控制机械臂完成抓取任务。本发明提高了目标物体最优抓取区域的检测精度,并避免了机械臂抓取时对其他目标的干扰,最终增强了机械臂在抓取任务中对非结构化场景下多目标物体抓取的鲁棒性和适应性。
Description
技术领域
本发明涉及机械臂灵活抓取的技术领域,尤其涉及一种非结构化环境的机器人灵活抓取检测方法。
背景技术
基于点云的抓取姿态估计算法(PointNet-grasp pose detection,PointNer-GPD),使用3D神经网络PointNet进行抓取姿态估计,这种方法依赖于物体的点云信息,相比之下,基于Faster RCNN(faster region based convolutional neural networks)网络的多物体抓取模型,就有较好的泛化能力和检测精度;Asif等从图像的不同层级来预测抓取区域,克服了只能从单个层级预测图像抓取区域的局限性,就准确度而言,该方法优于Cornell抓取数据集上的最新方法。陈丹等通过两日目标检测框与物体的最小包围矩形,计算出目标物体的抓取区域。金欢利用目标检测算法识别目标物体,将原始图像分割为多个仅包含单个物体的小块,再利用基于深度学习的抓取检测网络完成抓取任务。
现有的技术在实际应用中容易因为目标物体密集造成的抓取碰撞影响;并且没有考虑物体的最优抓取区域,对于不规则物体的抓取有一定的局限性;对物体的抓取准确率较低;无法高效准确的识别高分辨下的小物体。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:一、容易因为目标物体密集造成的抓取碰撞影响,且没有考虑物体的最优抓取区域;二、对于不规则物体的抓取有一定的局限性;三、对物体的抓取准确率较低,无法高效准确的识别高分辨下的小物体。
为解决上述技术问题,本发明提供如下技术方案:包括,利用Kinect x1相机采集抓取场景中的彩色图,并制作目标检测数据集,通过目标检测网络架构识别出场景中的各个目标;根据识别出的所述各个目标,结合多目标抓取姿态生成网络生成各目标的抓取位姿;以目标检测结果中的对象区域和抓取检测结果中的位姿信息为基准,筛选最优的抓取位姿,控制机械臂完成抓取任务。
作为本发明所述的非结构化环境的机器人灵活抓取检测方法的一种优选方案,其中:机器人抓取检测问题不仅需要预测出待抓取目标的回归边界,同时还需要筛选出机械臂最优的抓取姿态,为了对图像信息中抓取目标的最优抓取姿态进行预测,定义一种机械臂5D抓取姿态表示方法,包括,
A=f(x,y,h,w,θ)
其中,A表示输入图像中的最优抓取区域,(x,y)表示图像抓取矩形左上角点坐标;(h,w)表示抓取矩形的高度和宽度;θ表示抓取矩形框相对于图像水平方向的夹角,利用三维成像模型确定矩形对应的机器人最优抓取姿态。
作为本发明所述的非结构化环境的机器人灵活抓取检测方法的一种优选方案,其中:包括,数据增强、多尺度特征融合、区域特征聚集和连级检测头。
作为本发明所述的非结构化环境的机器人灵活抓取检测方法的一种优选方案,其中:所述数据增强包括,像素混合增光策略、基于自动机器学习的图像数据增光方法和图像信息删除策略。
作为本发明所述的非结构化环境的机器人灵活抓取检测方法的一种优选方案,其中:所述多尺度特征融合包括,将特征图集输入一个1X1的卷积层,以减少特征图的数量,生成低分辨率特征映射C5;通过嵌入式高斯函数对得到的平衡后的特征图进行非局部操作,得到进一步细化和提炼后的特征图;将得到的平衡语义特征图使用相同但是相反的方法重新缩放,获得新的特征图集{P2,P3,P4,P5},以增强原始特征;将特征图集{P2,P3,P4,P5}输入目标检测网络RCNN进行类别与位置预测。
作为本发明所述的非结构化环境的机器人灵活抓取检测方法的一种优选方案,其中:所述区域特征聚集包括,在区域内均匀的选取N个点,找到特征图上距离每个点最近的4个点;通过双线性插值的方式,得到点的输出值;对N个点取平均值得到区域的输出。
作为本发明所述的非结构化环境的机器人灵活抓取检测方法的一种优选方案,其中:所述联级检测头采用一种联级回归的网络框架,以实现IOU阈值的动态选取,包括,
其中,T表示总共使用的联级个数,fT表示每次回归的结果,初始分布{b1}随着每次回归的优化,最终达到相应阶段的样本分布{bt}。
作为本发明所述的非结构化环境的机器人灵活抓取检测方法的一种优选方案,其中:抓取最优位姿区域预测包括,选用ResNet50作为特征提取的骨干网络,并在残差结构中添加SE模块;通过Squeeze和Excitation这两个关键操作以学习的方式自动获取到每个特征通道的重要程度;依照所述重要程度提升有用的特征并抑制对当前任务用处不大的特征。
作为本发明所述的非结构化环境的机器人灵活抓取检测方法的一种优选方案,其中:在非结构化抓取检测任务中,利用目标检测识别出待抓取目标,通过抓取检测生成目标物体的可行抓取区域,结合多目标IOU混合区域姿态评估算法筛选出目标物体可行抓取区域中的最优抓取姿态。
本发明的有益效果:本发明方法在非结构化环境下,以多目标物体识别边界信息为参考,对图像中生成的多个可行抓取区域进行筛选,得出最优抓取位姿,提高了目标物体最优抓取区域的检测精度,并避免了机械臂抓取时对其他目标的干扰,最终增强了机械臂在抓取任务中对非结构化场景下多目标物体抓取的鲁棒性和适应性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的总体框架示意图;
图2为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的多尺度特征融合示意图;
图3为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的联级结构示意图;
图4为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的SENet示意图;
图5为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的多目标抓取姿态生成网络结构示意图;
图6为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的多目标IOU区域评估算法示意图;
图7为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的目标检测实验对比示意图;
图8为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的抓取姿态生成结果示意图;
图9为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的多目标IOU区域评估算法对比示意图;
图10为本发明一个实施例所述的非结构化环境的机器人灵活抓取检测方法的抓取实验平台示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1~图6,为本发明的第一个实施例,提供了一种非结构化环境的机器人灵活抓取检测方法,具体包括:
S1:利用Kinect x1相机采集抓取场景中的彩色图,制作目标检测数据集,通过目标检测网络架构识别出场景中的各个目标。
S2:根据识别出的各个目标,结合多目标抓取姿态生成网络生成各目标的抓取位姿。
S3:以目标检测结果中的对象区域和抓取检测结果中的位姿信息为基准,筛选最优的抓取位姿,控制机械臂完成抓取任务。
不难理解的是,与常规目标检测问题中需要预测的回归边界任务不同,机器人抓取检测问题不仅需要预测出待抓取目标的回归边界,同时还需要筛选出机械臂最优的抓取姿态,为了对图像信息中抓取目标的最优抓取姿态进行预测,本实施例定义了一种机械臂5D抓取姿态表示方法:
A=f(x,y,h,w,θ)
其中,A表示输入图像中的最优抓取区域,(x,y)表示图像抓取矩形左上角点坐标;(h,w)表示抓取矩形的高度和宽度;θ表示抓取矩形框相对于图像水平方向的夹角,利用三维成像模型确定矩形对应的机器人最优抓取姿态。
进一步的,本实施例还需要详细说明的是,利用改进的Faster RCNN目标检测网络模型技术实现,传统Faster RCNN网络使用由13个卷积层、13个激活层和4个池化层构成的VGG16网络架构作为其特征提取网络;由于经过多层池化后输入图像的像素变成原始图像的1/256,导致原始图中的小目标物体的特征信息在多次特征提取的过程中丢失,因此Faster RCNN对小目标物件的检测率较差;本实施例针对Faster RCNN的四个部分做出相应的改进,以提升网络对多尺度目标进行检测时的精准性。
(1)数据增强
数据集的好坏直接影响特征提取的质量、模型的检测精度和泛化能力,因此本实施例在特征提取网络前添加了一个数据预处理模块,通过MixupImage、AutoAugmentImage和GirdMask三种数据增强的手段,提高输入数据集的质量。
MixupImage是一种数据增强的像素混合增广策略,该策略基于经验风险和临近风险最小化原则,通过将传统图像标签的单热向量编码加权得到多热向量编码,具体操作是将任意两个样本及对应的语义标签通过权重参数λ进行加权相加,公式如下:
AutoAugmentImage是一种基于自动机器学习的图像数据增广方法,其工作流程如下:首先预设图像增广策略集合通过搜索算法从增广策略集合S中产生一个子策略Si,Si∈S;使用递归神经网络作为控制器,根据Si策略增广的训练集获得的模型,在测试集的模型性能作为反馈进行更新搜索策略。
GirdMaskImage是一种图像信息删除策略,通过随机在图像上丢弃一块区域如图,相当于在网络上增加一个正则项,可以避免网络过拟合,GirdMask对应(r,d,αx,αy)四个参数,其中r表示保留原图像信息的比例;d表示一个丢弃区域的大小;αx,αy表示第一块完整区域与图像边界之间的距离。
(2)多尺度特征融合
参照图2,传统Faster RCNN网络仅使用特征提取网络的最后一层特征图作为RPN模块的输入,但是由于深层特征图的语义信息较为丰富,导致大量细节特征被忽略,检测小目标的能力较差,因此本实施例使用一种基于相同深度整合的平衡语义特征来识别多层次的语义特征,以提高模型检测小目标物件的能力。
具体的,该模块由规模调整、整合、细化和加强四个步骤组成,将特征提取网络结构中不同层级l的特征图为定义为Fl,多层级特征图的数量定义为L,对于最高层级和最低层级的索引定义为lmax和lmin,由骨干网络可得特征图集{F2,F3,F4,F5},多尺度特征融合过程如下:
将F5输入一个1X1的卷积层,以减少特征图的数量,生成低分辨率特征映射C5,再对C5做2倍最近领上采样,同时将P5输入1x1的卷积层提取低分辨率特征映射,两者拥有相同的尺度,逐元素相加融合特这份,生成所需要的融合特征图C4;以此类推,得到新的多尺度融合特征图集{C2,C3,C4,C5}。
为了整合多层级特征并同时保留原有语义特征,通过双线性插值和最大池化的方法重新调整各层级特征图{C2,C3,C4,C5}的大小为与C4相同的大小,来对各层级特征图的特征进行缩放,最后通过下列公式来获得平衡的语义特征图。
通过嵌入式高斯函数对得到的平衡后的特征图进行非局部操作得到进一步细化和提炼后的特征图,具体操作公式如下:
将得到的平衡语义特征图使用相同但是相反的方法重新缩放获得新的特征图集{P2,P3,P4,P5},以增强原始特征;每个层级的特征图不仅可以聚合从低层到高层的特征,同时还能从其他层级中获得等量的语义信息。
将特征图集{P2,P3,P4,P5}输入目标检测网络RCNN进行类别与位置预测,RCNN网络结构中对多尺度的候选区域选择不同尺度的特征图Pk作为ROI池化层的输入,系数k的定义为
其中,参数224表示的是输入数据的尺寸大小;k0默认为特征图P5;w,h分别表示候选区域的长度和宽度。
本实施例采用的多尺度融合特征图包含由底层至顶层不同程度的语义信息与细节特征,具有较强的泛化性,在保留深层语义的基础上,提取了较多的浅层特征,有助于对小目标的识别。
(3)ROI Align
传统Faster RCNN通过ROI Pooling来使RPN产生的候选框共享特征图特征,并保持输出大小一致在,但RoI Pooling在进行候选框的位置取整和提取特征时取整这两个步骤时会做近似处理,导致检测信息和提取的特征不匹配,并最终影响对小目标的检测,因此本实施例采用ROI Align方法来替换ROI Pooling。
RoiAlign采用一种区域特征聚集的方式,在区域内均匀的选取N个点,找到特征图上距离每个点最近的4个点,再通过双线性插值的方式,得到点的输出值,最后对N个点取平均值得到区域的输出,公式如下:
其中,d(.)表示两点之间的距离,Δh和Δw表示i与i*(r,j)横纵坐标的差值。
(4)联级检测头
本实施例针对单一回归架构无法有效的解决多尺度目标的ROI选取问题,采用一种联级回归的网络框架,以实现IoU阈值的动态选取,具体公式如下:
其中,T表示总共使用的联级个数,fT表示每次回归的结果,初始分布{b1}随着每次回归的优化,最终达到相应阶段的样本分布{bt},在本实施例的目标检测框架中,使用三个连级结构如图3所示:
其中,B0表示RPN网络中生成的候选区域,Conv表示卷积神经网络,具体流程如下:
将B0输入RoIPooling中得到感兴趣区域的特征信息;
将得到的特征信息输入全连接层H1,再将H1输出的特征分别输入分类器C1进行分类以及边框回归函数B1中进行微调定位;
将微调后的候选框作为新的输入,输入下一个联级结构;
重复上述步骤,直到输出结果。
通过上述方法,候选框的质量得到逐步提升,能显著提高边界框的定位精准度。
优选地,本实施例还需要再一次说明的是,将抓取检测任务划分为抓取角度分类与抓取框的回归,通过使用卷积神经网络,利用大型卷积的泛化能力对输入图形进行全局的抓取预测。
参照图4,为了提高检测结果的准确性,基于区域提取的抓取检测网络结构设计了更加精准的抓取检测模型,首先选用ResNet50作为特征提取的骨干网络,并在残差结构中添加SE模块,通过Squeeze和Excitation这两个关键操作以学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。
具体的,SE模块主要包括Squeeze和Excitation两个操作,可以适用于任何映射:假定卷积核为V=[v1,v2,…,vC],其中vc表示第c个卷积核,定义输出U=[u1,u2,…,uc]:
在特征提取网络后添加FPN层网络,用于混合多尺度特征图信息,RPN在生成的特征图上预测获选区域位姿(锚框),并将生成的特征向量(锚框参数)分别送入到两个全连接层中,即分类层与回归层,添加cascade联级结构用于得到每个锚框的评价得分与回归坐标。
锚框的评价得分和回归坐标由S表示
S=(α,β,x,y,w,h)
其中,(α,β)为用于判断锚框是否为抓取区域的两个分数;(x,y,w,h)为锚框回归坐标的4个物理值,x,y表示锚框的中心点坐标,w,h表示锚框的宽高,在对输出图像中可能产生的预测信息时,引入损失函数如下:
其中,Lgp_cls表示交叉熵函数,用于判断是否包含抓取区域;Lgp_reg表示回归损失函数,用于预测回归坐标;λ表示权重;k表示在小批样本候选区域的索引,表示锚框k包含抓取区域,为正样本;表示锚框k不包含抓取区域,为负样本;tk表示锚框的参数;表示正样本锚框k映射到图像中的坐标向量;将得到的锚框与ResNet提取出的特征图输入ROI Align层通过双线性插值的方法对输入特征进行特征归一化处理。
通过公式定义的抓取区域预测损失函数,对输入的锚框信息进行抓取框角度的分类和坐标位置的回归。
其中,I表示角度的类别个数;ρl表示锚框为抓取矩形角度l的类别概率;βl为ρl对应的抓取边界框;Lgcr_cls表示用于预测抓取角度所属类别的交叉熵损失函数;Lgcr_reg表示用于调整锚框坐标的抓取框回归损失函数;λ2表示权重,用来均衡两个损失函数的大小;表示网络候选推荐框真值。由此可得总损失函数如公式
Ltotal=Lgpn+Lgcr
参照图5,借鉴区域提取二阶目标检测算法的思想,首先判断RPN候选区域生成网络推荐的各个抓取矩形框是否包含可抓取物体;其次,通过预测抓取框所属于的角度类别确定最终的抓取角度并调整预测框的边界参数。
优选的是,在非结构化抓取检测任务中,多抓取目标之间存在互相干扰的情形,抓取目标区域是目标识别背景的子集,其是包含关系,因此只有以目标物体为背景计算出的抓取区域,通过分析各目标背景及抓取区域之间的区域关系,才能最终确定多目标场景下的最优抓取姿态。
综上,本实施例提出了一种多阶段网络架构的机器人最优抓取姿态检测算法,该算法首先通过目标检测识别出待抓取目标,再通过抓取检测生成目标物体的可行抓取区域,最后通过多目标IoU混合区域姿态评估算法筛选出目标物体可行抓取区域中的最优抓取姿态。
参照图6,使用改进的Faster RCNN对图像中的目标物件进行识别和定位,并生成定位矩形,通过抓取检测模型生成抓取矩形,获取图像中的抓取区域,以图像中识别出的各目标检测边界框为背景,计算生成抓取矩形与目标边界框的IOU,筛选出候选抓取区域,再计算候选抓取区域与其他目标边界框的IOU,最终得出目标物体的最优抓取姿态。
计算待抓取目标的所有抓取区域与抓取目标边界的IOU,当IOU>0.7或时,将At Gi视为At i的候选抓取区域,计算候选抓取区域At Gi与其他目标边界Bt i、Ct i的IOU,当IOU<0.1或IOU=0时,设置At Gi为可抓取区域;以该抓取矩形为基准,利用矩形中心像素值计算机器人末端执行器的三维抓取点,并以抓取矩形相对于图像中X轴的夹角作为机器人末端执行器的旋转角度,即可实现机器人的最优抓取姿态获取。
实施例2
参照图7~图10,为本发明的第二个实施例,提供了一种非结构化环境的机器人灵活抓取检测方法的实验对比测试,具体包括:
(1)改进的Faster Rcnn目标检测实验
进行改进的Faster rcnn网络模型训练时,设置动量momentum=0.9,迭代次数为max_iter=10000,初始学习率base_lr=0.00125,学习率采用LinearWa mup的更新方式。
在训练开始时,调低学习率从非常小的数值线性增加到预设值之后,然后再线性减小。
本实施例所制作的数据集取材于实验室抓取情景,采集了乒乓球拍、订书机、眼镜、螺丝刀、剪刀和洗面奶共计6种物体做目标数据集,共计1000张图片。
在GTX2080ti上对模型进行训练,并将改进后的Faster rcnn与原网络进行对比,采集多张4096x3072像素大小的图片进行测试,部分实验结果对比如图7所示。
图7中的(a)、(b)、(c)、(d)为原Faster rcnn模型。图7中的(e)、(f)、(d)、(h)为改进后的Faster rcnn模型,经过分析可得,虽然改进后的Faster rcnn少量增加了模型的计算量,但是通过对特征提取网络进行扩充,使该模型能够更有效的捕获图像细节信息,从而使网络在处理高分辨率图像中识别小目标物体的结果更加精确。具体结果如表1所示。
表1:目标检测网络性能对比表。
网络 | P(精度)/% | R<sub>IOU</sub>/% | FPS |
Faster rcnn | 96.1 | 0.78 | 12.7 |
Ours | 98.9 | 0.86 | 17.5 |
由表1可得,本实施例改进后的Faster rcnn模型相比较原Faster rcnn模型,精度与交并比有显著提升。
(2)多目标抓取检测实验
本实施例在训练过程中所采用的数据集是专门为机器人抓取设计的康奈尔抓取数据集,该数据集共有240个不同样本的885图像,每个图像都有多个抓取矩形标签,标记为抓取区域预测的正负样本,训练前,将康奈尔数据集的图像随机划分,划分比例为5:1:1。
本实施例采用矩形抓取度量作为网络精度评估的方法,并与其他抓取检测模型作对比,矩形度量用抓取矩形作为抓取评价指标,如果同时满足以下两点,则认为该抓取矩形可用于抓取物体;1、预测框的抓取角度与真值标签的角度相差小于30°;2、预测的Jacard相似系数大于25%;Jaccard相似系数预测抓取区域与真值标签之间的相似性定义为:
其中,Gp为预测抓取矩形区域;Gt为真值的抓取矩形区域,网络训练的硬件配置时nvidia GTX2080ti,训练参数为:batch_size=128,lr=0.0001,衰减系数为0.1变化步数为20000,总步数为100000。
将本实施例改进的模型与其他抓取检测模型进行比较,从Cornell抓取数据集中与真实物理场景中挑选6种不同类型的物体对模型进行评测,在Cornell抓取数据集与真实物理场景的测试结果如表2所示:
表1:抓取检测网络对比实验表。
实验结果表明,本实施例所设计的抓取检测模型在保证模型运算时间的同时,能大幅度提高模型的抓取精度,满足机器人抓取的精准性。
参照图8,为本发明的多目标抓取检测算法输出结果,可以看出在多目标抓取检测场景下,模型预测出的抓取区域表现优异。
参照图9,本实施例所提的机器人最优抓起指套生成算法以目标物体的检测边界框为基准,以可抓取区域与各目标物体的混合IOU为判定,生成该目标物体的最优抓取姿态,将本实施例算法与目标检测抓取检测直接输出的记过作对比。
图9中的左侧是无多目标IOU混合区域评估算法的抓取检测与目标检测结果,抓取检测不能以抓取目标确认抓取位姿,且抓取检测会受到目标检测框的干扰。
图9中的右侧是基于多目标IOU混合区域评估算法的结果,通过对比可知,本发明提出的多目标IOU混合区域评估算法能有效实现多目标场景下的最优抓取姿态生成,并能有效避免了背景对抓取检测的干扰,适用于非结构化场景。
(3)机器人最优抓取实验
参照图10,配有双臂协作式机器人baxter和kinect x1深度相机,抓取对象包括6种常见的生活物品洗面奶、眼镜、订书机、剪刀、乒乓球拍和螺丝刀。
实验中,首先使用Kinect x1采集图像,将采集到的深度图像配准到彩色图像,逐像素获取深度值,其次,将融合后的图像利用本文提出的多目标IOU区域评估算法在图像中筛选出最优抓取矩形,最后计算出抓取矩形中心点对应的机器人坐标系下空间点的三维坐标值,即为机器人的最优抓取点,并以抓取矩形相对于图像中轴的夹角作为机器人末端执行器的旋转角,最终得到最优抓取姿态。
将物体按照不同的摆放方式分别配置并在抓取成功率与检测速度上进行对比如表3所示。
表2:最优抓取姿态检测与抓取实验结果。
参照表3,能够直观的看出本发明所提出的机器人最优抓取姿态检测算法抓具有较高的抓取成功率和准确率,可满足多目标抓取任务的实际需求,原因在于抓取检测算法融合了图像中多目标物体的目标检测结果和姿态生成结果,生成最优的抓取姿态,极大地避免了对其中一个物体进行抓取时对其他目标可能造成的影响,极大地降低了抓取失败的概率。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种非结构化环境的机器人灵活抓取检测方法,其特征在于:包括,
利用Kinect x1相机采集抓取场景中的彩色图,并制作目标检测数据集,通过目标检测网络架构识别出场景中的各个目标;
根据识别出的所述各个目标,结合多目标抓取姿态生成网络生成各目标的抓取位姿;
以目标检测结果中的对象区域和抓取检测结果中的位姿信息为基准,筛选最优的抓取位姿,控制机械臂完成抓取任务。
2.根据权利要求1所述的非结构化环境的机器人灵活抓取检测方法,其特征在于:机器人抓取检测问题不仅需要预测出待抓取目标的回归边界,同时还需要筛选出机械臂最优的抓取姿态,为了对图像信息中抓取目标的最优抓取姿态进行预测,定义一种机械臂5D抓取姿态表示方法,包括,
A=f(x,y,h,w,θ)
其中,A表示输入图像中的最优抓取区域,(x,y)表示图像抓取矩形左上角点坐标;(h,w)表示抓取矩形的高度和宽度;θ表示抓取矩形框相对于图像水平方向的夹角,利用三维成像模型确定矩形对应的机器人最优抓取姿态。
3.根据权利要求1或2所述的非结构化环境的机器人灵活抓取检测方法,其特征在于:包括,数据增强、多尺度特征融合、区域特征聚集和联级测头。
4.根据权利要求3所述的非结构化环境的机器人灵活抓取检测方法,其特征在于:所述数据增强包括,像素混合增光策略、基于自动机器学习的图像数据增光方法和图像信息删除策略。
5.根据权利要求4所述的非结构化环境的机器人灵活抓取检测方法,其特征在于:所述多尺度特征融合包括,
将特征图集输入一个1X1的卷积层,以减少特征图的数量,生成低分辨率特征映射C5;
通过嵌入式高斯函数对得到的平衡后的特征图进行非局部操作,得到进一步细化和提炼后的特征图;
将得到的平衡语义特征图使用相同但是相反的方法重新缩放,获得新的特征图集{P2,P3,P4,P5},以增强原始特征;
将特征图集{P2,P3,P4,P5}输入目标检测网络RCNN进行类别与位置预测。
6.根据权利要求5所述的非结构化环境的机器人灵活抓取检测方法,其特征在于:所述区域特征聚集包括,
在区域内均匀的选取N个点,找到特征图上距离每个点最近的4个点;
通过双线性插值的方式,得到点的输出值;
对N个点取平均值得到区域的输出。
8.根据权利要求7所述的非结构化环境的机器人灵活抓取检测方法,其特征在于:抓取最优位姿区域预测包括,
选用ResNet50作为特征提取的骨干网络,并在残差结构中添加SE模块;
通过Squeeze和Excitation这两个关键操作以学习的方式自动获取到每个特征通道的重要程度;
依照所述重要程度提升有用的特征并抑制对当前任务用处不大的特征。
9.根据权利要求8所述的非结构化环境的机器人灵活抓取检测方法,其特征在于:在非结构化抓取检测任务中,利用目标检测识别出待抓取目标,通过抓取检测生成目标物体的可行抓取区域,结合多目标IoU混合区域姿态评估算法筛选出目标物体可行抓取区域中的最优抓取姿态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005769.9A CN113799124B (zh) | 2021-08-30 | 2021-08-30 | 一种非结构化环境的机器人灵活抓取检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005769.9A CN113799124B (zh) | 2021-08-30 | 2021-08-30 | 一种非结构化环境的机器人灵活抓取检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113799124A true CN113799124A (zh) | 2021-12-17 |
CN113799124B CN113799124B (zh) | 2022-07-15 |
Family
ID=78941888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111005769.9A Active CN113799124B (zh) | 2021-08-30 | 2021-08-30 | 一种非结构化环境的机器人灵活抓取检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113799124B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114407022A (zh) * | 2022-03-07 | 2022-04-29 | 哈尔滨工业大学 | 一种基于模型参数误差观测器的机械臂碰撞检测方法 |
CN114788455A (zh) * | 2022-04-12 | 2022-07-26 | 苏州大学 | 一种基于目标检测的串番茄单粒采摘方法及系统 |
CN114926527A (zh) * | 2022-06-08 | 2022-08-19 | 哈尔滨理工大学 | 一种复杂背景下的机械臂抓取位姿检测方法 |
WO2024021104A1 (zh) * | 2022-07-29 | 2024-02-01 | 西门子股份公司 | 机械臂控制方法、装置、系统、电子设备和存储介质 |
CN117656083A (zh) * | 2024-01-31 | 2024-03-08 | 厦门理工学院 | 七自由度抓取姿态生成方法、装置、介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006028219A1 (de) * | 2006-06-14 | 2007-12-20 | Schunk Gmbh & Co. Kg Spann- Und Greiftechnik | Verfahren zum Ansteuern eines Endeffektors, insbesondere einer Greifeinrichtung, und System hierfür |
CN107443384A (zh) * | 2017-09-15 | 2017-12-08 | 深圳市唯特视科技有限公司 | 一种转换仿真结果到真实世界的视觉运动控制方法 |
CN108536287A (zh) * | 2018-03-26 | 2018-09-14 | 深圳市深晓科技有限公司 | 一种根据用户指示读书的方法及装置 |
CN109159113A (zh) * | 2018-08-14 | 2019-01-08 | 西安交通大学 | 一种基于视觉推理的机器人作业方法 |
CN111444865A (zh) * | 2020-03-31 | 2020-07-24 | 盐城禅图智能科技有限公司 | 一种基于逐步求精的多尺度目标检测方法 |
CN111695562A (zh) * | 2020-05-26 | 2020-09-22 | 浙江工业大学 | 一种基于卷积神经网络的机器人自主抓取方法 |
-
2021
- 2021-08-30 CN CN202111005769.9A patent/CN113799124B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006028219A1 (de) * | 2006-06-14 | 2007-12-20 | Schunk Gmbh & Co. Kg Spann- Und Greiftechnik | Verfahren zum Ansteuern eines Endeffektors, insbesondere einer Greifeinrichtung, und System hierfür |
CN107443384A (zh) * | 2017-09-15 | 2017-12-08 | 深圳市唯特视科技有限公司 | 一种转换仿真结果到真实世界的视觉运动控制方法 |
CN108536287A (zh) * | 2018-03-26 | 2018-09-14 | 深圳市深晓科技有限公司 | 一种根据用户指示读书的方法及装置 |
CN109159113A (zh) * | 2018-08-14 | 2019-01-08 | 西安交通大学 | 一种基于视觉推理的机器人作业方法 |
CN111444865A (zh) * | 2020-03-31 | 2020-07-24 | 盐城禅图智能科技有限公司 | 一种基于逐步求精的多尺度目标检测方法 |
CN111695562A (zh) * | 2020-05-26 | 2020-09-22 | 浙江工业大学 | 一种基于卷积神经网络的机器人自主抓取方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114407022A (zh) * | 2022-03-07 | 2022-04-29 | 哈尔滨工业大学 | 一种基于模型参数误差观测器的机械臂碰撞检测方法 |
CN114407022B (zh) * | 2022-03-07 | 2022-09-09 | 哈尔滨工业大学 | 一种基于模型参数误差观测器的机械臂碰撞检测方法 |
CN114788455A (zh) * | 2022-04-12 | 2022-07-26 | 苏州大学 | 一种基于目标检测的串番茄单粒采摘方法及系统 |
CN114788455B (zh) * | 2022-04-12 | 2023-08-25 | 苏州大学 | 一种基于目标检测的串番茄单粒采摘方法及系统 |
CN114926527A (zh) * | 2022-06-08 | 2022-08-19 | 哈尔滨理工大学 | 一种复杂背景下的机械臂抓取位姿检测方法 |
WO2024021104A1 (zh) * | 2022-07-29 | 2024-02-01 | 西门子股份公司 | 机械臂控制方法、装置、系统、电子设备和存储介质 |
CN117656083A (zh) * | 2024-01-31 | 2024-03-08 | 厦门理工学院 | 七自由度抓取姿态生成方法、装置、介质及设备 |
CN117656083B (zh) * | 2024-01-31 | 2024-04-30 | 厦门理工学院 | 七自由度抓取姿态生成方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113799124B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113799124B (zh) | 一种非结构化环境的机器人灵活抓取检测方法 | |
CN109360226B (zh) | 一种基于时间序列多特征融合的多目标跟踪方法 | |
CN107229904B (zh) | 一种基于深度学习的目标检测与识别方法 | |
CN108985186B (zh) | 一种基于改进YOLOv2的无人驾驶中行人检测方法 | |
CN106682598B (zh) | 一种基于级联回归的多姿态的人脸特征点检测方法 | |
CN110909800B (zh) | 一种基于Faster R-CNN改进算法的车辆检测方法 | |
CN108268838B (zh) | 人脸表情识别方法及人脸表情识别系统 | |
CN110688987A (zh) | 一种行人位置检测与跟踪方法及系统 | |
CN111444767B (zh) | 一种基于激光雷达的行人检测和追踪方法 | |
CN104680559B (zh) | 基于运动行为模式的多视角室内行人跟踪方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN106023257A (zh) | 一种基于旋翼无人机平台的目标跟踪方法 | |
CN114693661A (zh) | 一种基于深度学习的快速分拣方法 | |
CN109255386B (zh) | 基于毫米波雷达和视觉融合的道路行人快速检测方法 | |
CN109801305B (zh) | 基于深度胶囊网络的sar图像变化检测方法 | |
Zheng et al. | Improvement of grayscale image 2D maximum entropy threshold segmentation method | |
CN111860587A (zh) | 一种用于图片小目标的检测方法 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN110599463A (zh) | 一种基于轻量级联神经网络的舌像检测及定位算法 | |
CN106250878B (zh) | 一种结合可见光和红外图像的多模态目标跟踪方法 | |
CN106650773A (zh) | 一种基于SVM‑AdaBoost算法的行人检测方法 | |
CN113838099A (zh) | 一种基于孪生神经网络的单目标跟踪方法 | |
CN113327269A (zh) | 一种无标记颈椎运动检测方法 | |
Wangli et al. | Foxtail Millet ear detection approach based on YOLOv4 and adaptive anchor box adjustment | |
CN108985216B (zh) | 一种基于多元logistic回归特征融合的行人头部检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |