CN116787432A - 一种机器人视觉引导抓取方法 - Google Patents

一种机器人视觉引导抓取方法 Download PDF

Info

Publication number
CN116787432A
CN116787432A CN202310704172.6A CN202310704172A CN116787432A CN 116787432 A CN116787432 A CN 116787432A CN 202310704172 A CN202310704172 A CN 202310704172A CN 116787432 A CN116787432 A CN 116787432A
Authority
CN
China
Prior art keywords
workpiece
robot
loss function
vision
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310704172.6A
Other languages
English (en)
Inventor
万国扬
赵继兴
刘丙友
张健
周星源
陈金城
陶秀文
黄志远
何琴
汪倩倩
柏受军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Polytechnic University
Huaneng Chaohu Power Generation Co Ltd
Original Assignee
Anhui Polytechnic University
Huaneng Chaohu Power Generation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Polytechnic University, Huaneng Chaohu Power Generation Co Ltd filed Critical Anhui Polytechnic University
Priority to CN202310704172.6A priority Critical patent/CN116787432A/zh
Publication of CN116787432A publication Critical patent/CN116787432A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Manipulator (AREA)

Abstract

本发明涉及一种机器人视觉引导抓取方法,输入待抓取工件图样,通过虚拟引擎生成工件的虚拟图片;将视觉系统采集的图像裁剪拼接,并配合随机算法,生成工件在不同位置下的均匀分布图像;利用cycleGAN网络对图像进行优化,并引入梯度损失函数和多通道混合注意力机制以提升提高检测模型的图像的清晰度及提高学习效率与生成效果;利用yolov7算法预测工件表面关键点检测,通过提出的GeIOU函数作为损失函数提高预测准确度;利用EPnP算法将工件表面关键点转换为位资关键点,同时通过6DOF位姿计算完成抓取位置计算。本发明通过梯度损失函数和多通道混合注意力机制提高网络的学习效率与生成效果,同时在保证生成图像清晰度的前提下,消除拼接图像中工件与背景的灰度差。

Description

一种机器人视觉引导抓取方法
技术领域
本发明涉及高端装备的智能制造领域,具体的说是一种机器人视觉引导抓取方法。
背景技术
机器视觉技术是人工智能的核心,基于机器视觉的的机器人视觉引导技术在与机器人相关的集成与应用中正发挥着越来越重要的作用。工业领域现有的6DOF机器人视觉引导定位方法主要是基于立体视觉或结构光的视觉系统,此类方法普遍存在测量速度慢,测量面积小及使用成本高的问题。而已有的单目视觉6DOF机器人视觉引导与位姿测量方法又存在定位精度低、易受外界环境光干扰等问题。
本文针对工业环境下,机器人抓取对象时面临的6DOF位姿测量成本高,测量鲁棒性差的问题,提出了一种基于单目视觉的机器人视觉引导测略,实现了对目标工件6DOF位姿的高精度鲁棒测量。所提方法主要包含一种基于虚拟现实技术的图像数据增强算法和一种结合多关键点检测模型与Epnp算法的6DOF位姿测量算法两部分。前者通过图像增强技术实现了对小样本工业对象的数据增强,解决了工业对象因图像采集成本高,采集周期长导致检测模型鲁棒性差的问题。后者通过单幅图象完成了对目标工件的6DOF位姿测量,实现了依靠单目相机对目标工件的低成本6DOF位姿测量。
发明内容
现为了解决上述技术问题,本发明提出了一种机器人视觉引导抓取方法。本发明所要解决的技术问题采用以下技术方案来实现:
一种机器人视觉引导抓取方法,该方法包括以下步骤:
第一步:输入待抓取工件图样,通过虚拟引擎生成工件在不同背景、不同环境和不同数量的虚拟图片;
第二步:将视觉系统采集的图像裁剪拼接,并配合随机算法,生成工件在不同位置下的均匀分布图像;
第三步:利用cycleGAN网络对第二步生成的图像进行优化,并引入梯度损失函数和多通道混合注意力机制以提升图像的清晰度及提高检测模型的学习效率与生成效果;
第四步:利用yolov7算法预测工件表面关键点检测,并通过提出的GeIOU函数作为损失函数提高预测准确度;
第五步:利用EPnP算法将工件表面关键点转换为位资关键点,同时通过6DOF位姿计算完成抓取位置计算。
第三步中梯度损失函数公式为:LossT=|Grad(X)-Grad(Y)|×α;
其中X为输入图像,Y为网络生成的输出图像,α为LossT的权重系数。
改进后的cycleGAN网络损失函数为Loss=Losscycle+LossT;
其中Losscycle为原cycleGAN网络的损失函数。
第四步中预测关键点计算公式如下:
其中,IOU为关键点真值面积与预测面积的交并比,ρ2(A,B)为预测值与真值中心点坐标的欧式距离,c为包住它们的最小方框的对角线距离。
第五步中抓取位置计算利用通过以下步骤进行:
第一步:当工业机器人抓取工件时,利用公式进行计算,其中/>为工业机器人抓取位姿。而TTP为工件在机器人抓手坐标系下的位姿;
工业机器人对工件拍照时,利用公式进行计算,其中,/>为视觉系统获取图片时的机器人位姿。CTTC已在手眼标定中得到。CTP为工件相对于视觉系统的位姿,由视觉系统直接获取;
第二步:将第一步中公式联立可得
第三步:通过第二步中公式可得,当工业机器人对不同位置的工件进行拍照时利用公式进行计算,其中/>与/>为视觉系统所检测工件的坐标,而/>即为目标工件在机器人坐标系下的抓取位姿。
本发明的有益效果是:本发明通过梯度损失函数和多通道混合注意力机制提高网络的学习效率与生成效果,同时在保证生成图像清晰度的前提下,消除拼接图像中工件与背景的灰度差。本发明中通过在yolov7的损失函数中加入了GeIOU提升网络的关键点检测的精度。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明的工作流程示意图;
图2为本发明的传统yolov7网络结构示意图;
图3为本发明的改进后yolov7网络结构示意图。
具体实施方式
为了使本领域的技术人员更好的理解本发明的技术方案,下面将结合实施例中的附图,对本发明进行更清楚、更完整的阐述,当然所描述的实施例只是本发明的一部分而非全部,基于本实施例,本领域技术人员在不付出创造性劳动性的前提下所获得的其他的实施例,均在本发明的保护范围内。
如图1至图3所示,一种机器人视觉引导抓取方法,该方法包括以下步骤:
第一步:输入待抓取工件图样,通过虚拟引擎生成工件在不同背景、不同环境和不同数量的虚拟图片;使用虚拟引擎直接创建目标工件的小样本图像,配合虚拟引擎的渲染功能,可获得工件在不同背景与光照环境下的图像;
第二步:将视觉系统采集的图像裁剪拼接,并配合随机算法,生成工件在不同位置下的均匀分布图像;通过图像裁剪、图像拼接技术,配合随机分配算法,生成工件在不同位置下的均匀分布图像。在丰富图像数据的同时,减小了深度神经网络训练中陷入局部极小值的概率;
第三步:利用cycleGAN网络对第二步生成的图像进行优化,并引入梯度损失函数和多通道混合注意力机制以提升检测模型的图像的清晰度及提高学习效率与生成效果;拼接图像的梯度图中存在明显的矩形方框。针对这种情况,本发明设计了图像梯度损失函数,通过梯度损失函数,在保证生成图像清晰度的前提下,消除拼接图像中工件与背景的灰度差;通过多通道混合注意力机制与cycleGAN网络结合提高网络的学习效率与生成效果;通过改进后的cycleGAN图像生成技术,解决拼接算法背景不一致的问题,进而提升后续目标检测网络对工业小样本对象的检测鲁棒性与稳定性;
第四步:利用yolov7算法预测工件表面关键点检测,并通过提出的GeIOU函数作为损失函数提高预测准确度;如图2至图3所示使用swin-transformer、PConv和GAM三种模块yolov7网络进行改进;swin-transformer将具有很强建模能力的Transformer结构和重要的视觉信号结合起来。与传统的卷积神经网络方法相比,swin-transformer在训练效率方面表现出较明显的优势;并且transformer架构可以单独使用,也可以与常规卷积网络混合使用,具有良好的扩展性。利用一个swin-transformer模块替换了原网络输入部分的第一个CBS模块,有利于提高模型对于目标识别的泛化性能。并且,swin-transformer包含的划窗操作,将注意力限制在一个窗口中,一方面能引入常规CNN卷积操作的局部性,另一方面能节省计算量。通过融合部分卷积模块(PConv)和全局注意力机制模块(GAM),提出一种改进的ELAN计算模块。改良后的ELAN模块被命名为GC-ELAN。其中,PConv有着快速且高效的优点,同时PConv有着极少的运算量,因此能大幅提升模型在训练和推理过程中的速度,而全局注意力模块兼顾了通道注意力和空间注意力的特点。相对于大部分的注意力机制,GAM能保留大部分的特征图细节信息,对尺寸更小的检测目标提取到信息更完整,在模型中能够有效提升精度。5个GC-ELAN模块被用于替换原YOLOv7网络主干部分的ELAN-1模块。替换后的网络将拥有更好的精度表现,而且不会引入太多的无用参数。另外,为更好的检测关键点,本发明在yolov7的输出头上加入了6个关检点检测的分支,在检测目标对象的同时,预测工件表面的多个关键点;图2至图3中所示:ELAN-1表示原YOLOv7中的堆叠多个卷积的计算模块;SPPCSPC表示特征金字塔结构;cat表示特征融合操作;ELAN-GAM表示在原ELAN-1的基础上融入了GAM注意力机制;ELAN-Sim表示在原ELAN-1的基础上融入了SimAM注意力机制。
第五步:利用EPnP算法将工件表面关键点转换为位资关键点,同时通过6DOF位姿计算完成抓取位置计算。
第三步中梯度损失函数公式为:LossT=|Grad(X)-Grad(Y)|×α;
其中X为输入图像,Y为网络生成的输出图像,α为LossT的权重系数。
改进后的cycleGAN网络损失函数为Loss=Losscycle+LossT;
其中Losscycle为原cycleGAN网络的损失函数。
第四步中预测关键点计算公式如下:
其中,IOU为关键点真值面积与预测面积的交并比,ρ2(A,B)为预测值与真值中心点坐标的欧式距离,c为包住它们的最小方框的对角线距离;IoU为预测框和真值框的交并比,本发明在yolov7的损失函数中加入了几何交并比GeIOU进一步提升网络的关键点检测的精度,GeIOU分别计算真值和预测关键点组成形状的最小外接多边形,并由此计算IOU。配合DIOU函数,进而计算出Ge-IOU,公式即为:
第五步中抓取位置计算利用通过以下步骤进行:
第一步:当工业机器人抓取工件时,利用公式进行计算,其中/>为工业机器人抓取位姿。而TTP为工件在机器人抓手坐标系下的位姿;
工业机器人对工件拍照时,利用公式进行计算,其中,/>为视觉系统获取图片时的机器人位姿。CTTC已在手眼标定中得到。CTP为工件相对于视觉系统的位姿,由视觉系统直接获取;
第二步:将第一步中公式联立可得
第三步:通过第二步中公式可得,当工业机器人对不同位置的工件进行拍照时利用公式进行计算,其中/>与/>为视觉系统所检测工件的坐标,而/>即为目标工件在机器人坐标系下的抓取位姿。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种机器人视觉引导抓取方法,其特征在于:该方法包括以下步骤:
第一步:输入待抓取工件图样,通过虚拟引擎生成工件在不同背景、不同环境和不同数量的虚拟图片;
第二步:将视觉系统采集的图像裁剪拼接,并配合随机算法,生成工件在不同位置下的均匀分布图像;
第三步:利用cycleGAN网络对第二步生成的图像进行优化,并引入梯度损失函数和多通道混合注意力机制以提升图像的清晰度及提高检测模型的学习效率与生成效果;
第四步:利用yolov7算法预测工件表面关键点检测,并通过提出的GeIOU函数作为损失函数提高预测准确度;
第五步:利用EPnP算法将工件表面关键点转换为位资关键点,同时通过6DOF位姿计算完成抓取位置计算。
2.根据权利要求1所述的一种机器人视觉引导抓取方法,其特征在于:第三步中梯度损失函数公式为:LossT=|Grad(X)-Grad(Y)|×α;
其中X为输入图像,Y为网络生成的输出图像,α为LossT的权重系数。
3.根据权利要求2所述的一种机器人视觉引导抓取方法,其特征在于:改进后的cycleGAN网络损失函数为Loss=Losscycle+LossT;
其中Losscycle为原cycleGAN网络的损失函数。
4.根据权利要求1所述的一种机器人视觉引导抓取方法,其特征在于:第四步中预测关键点计算公式如下:
其中,IOU为关键点真值面积与预测面积的交并比,ρ2(A,B)为预测值与真值中心点坐标的欧式距离,c为包住它们的最小方框的对角线距离。
5.根据权利要求1所述的一种机器人视觉引导抓取方法,其特征在于:第五步中抓取位置计算利用通过以下步骤进行:
第一步:当工业机器人抓取工件时,利用公式进行计算,其中/>为工业机器人抓取位姿。而TTP为工件在机器人抓手坐标系下的位姿;
工业机器人对工件拍照时,利用公式进行计算,其中,/>
为视觉系统获取图片时的机器人位姿。CTTC已在手眼标定中得到。CTP为工件相对于视觉系统的位姿,由视觉系统直接获取;
第二步:将第一步中公式联立可得
第三步:通过第二步中公式可得,当工业机器人对不同位置的工件进行拍照时利用公式进行计算,其中/>与/>为视觉系统所检测工件的坐标,而即为目标工件在机器人坐标系下的抓取位姿。
CN202310704172.6A 2023-06-14 2023-06-14 一种机器人视觉引导抓取方法 Pending CN116787432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310704172.6A CN116787432A (zh) 2023-06-14 2023-06-14 一种机器人视觉引导抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310704172.6A CN116787432A (zh) 2023-06-14 2023-06-14 一种机器人视觉引导抓取方法

Publications (1)

Publication Number Publication Date
CN116787432A true CN116787432A (zh) 2023-09-22

Family

ID=88047445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310704172.6A Pending CN116787432A (zh) 2023-06-14 2023-06-14 一种机器人视觉引导抓取方法

Country Status (1)

Country Link
CN (1) CN116787432A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315934A (zh) * 2023-09-25 2023-12-29 阜阳交通能源投资有限公司 基于无人机的高速公路车流量实时监测及拥堵预测系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315934A (zh) * 2023-09-25 2023-12-29 阜阳交通能源投资有限公司 基于无人机的高速公路车流量实时监测及拥堵预测系统

Similar Documents

Publication Publication Date Title
CN111340797A (zh) 一种激光雷达与双目相机数据融合检测方法及系统
CN112270249A (zh) 一种融合rgb-d视觉特征的目标位姿估计方法
CN113705521A (zh) 一种结合YOLO-MobilenetV3人脸检测的头部姿态估计方法
CN111462135A (zh) 基于视觉slam与二维语义分割的语义建图方法
CN113888631B (zh) 一种基于目标裁剪区域的指定物体抓取方法
CN111127540B (zh) 一种三维虚拟空间自动测距方法及系统
CN112509065B (zh) 一种应用于深海机械臂作业的视觉引导的方法
CN116787432A (zh) 一种机器人视觉引导抓取方法
CN112767478B (zh) 一种基于表观指导的六自由度位姿估计方法
CN111998862A (zh) 一种基于bnn的稠密双目slam方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN110610650A (zh) 一种基于深度学习和深度相机的点云语义地图的构建方法
CN116630608A (zh) 一种用于复杂场景下的多模态目标检测方法
CN112418171A (zh) 一种基于深度学习的斑马鱼空间姿态与心脏位置估计方法
CN109202911B (zh) 一种基于全景视觉的集群两栖机器人三维定位方法
CN114693744A (zh) 一种基于改进循环生成对抗网络的光流无监督估计方法
Zhang et al. A visual-inertial dynamic object tracking SLAM tightly coupled system
CN117011380A (zh) 一种目标物体的6d位姿估计方法
CN116840258A (zh) 基于多功能水下机器人和立体视觉的桥墩病害检测方法
CN113034590B (zh) 基于视觉融合的auv动态对接定位方法
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN115205654A (zh) 一种新型基于关键点约束的单目视觉3d目标检测方法
CN115294433A (zh) 一种适用于恶劣环境的物体六维位姿估计方法和系统
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN115100237A (zh) 一种巡检机器人视觉里程计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination