CN110889460B - 一种基于协同注意力机制的机械臂指定物体抓取方法 - Google Patents

一种基于协同注意力机制的机械臂指定物体抓取方法 Download PDF

Info

Publication number
CN110889460B
CN110889460B CN201911244669.4A CN201911244669A CN110889460B CN 110889460 B CN110889460 B CN 110889460B CN 201911244669 A CN201911244669 A CN 201911244669A CN 110889460 B CN110889460 B CN 110889460B
Authority
CN
China
Prior art keywords
grabbing
picture
working space
target object
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911244669.4A
Other languages
English (en)
Other versions
CN110889460A (zh
Inventor
陶雪锋
蔡俊浩
成慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911244669.4A priority Critical patent/CN110889460B/zh
Publication of CN110889460A publication Critical patent/CN110889460A/zh
Application granted granted Critical
Publication of CN110889460B publication Critical patent/CN110889460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于协同注意力机制的机械臂指定物体抓取方法,包括以下步骤:步骤一:将目标物体放入工作空间中,通过拍摄获得检索数据;将目标物体和其他物体一起放入工作空间中,通过拍摄获得工作空间数据;步骤二:将检索数据和工作空间数据输入深度神经网络,进行深度神经网络训练,深度神经网络为带约束的协同注意力网络;步骤三:将完成训练的深度神经网络模型应用于真实的物体抓取环境中。通过同时输入检索图片和工作空间图片,方法能够实时,有效,快速地根据检索图片信息从工作空间图片中输出目标物体的抓取功能图。即使是全新的,模型未见过的物体,模型同样能够做到输出正确的物体的抓取功能图,并且具有较高的抓取准确率。

Description

一种基于协同注意力机制的机械臂指定物体抓取方法
技术领域
本发明涉及机械臂学习领域,更具体地,涉及一种基于协同注意力机制的机械臂指定物体抓取方法。
背景技术
解决机械臂抓取问题的方法主要分为分析方法和经验方法两种。分析方法是利用物体属性进行规则分析从而获得抓取策略。经验方法则是深度学习即数据驱动方法,通过提取物体的特征得到最优的抓取策略。
当前大多数经验方法应用的任务都是全局抓取任务即从工作空间中随机地抓取一个物体,侧重于抓取的成功与否。指定物体抓取任务是从杂乱的场景中抓取特定的物体,对于抓取的成功率与物体的正确性均要考虑。
现有的指定物体抓取任务的方法有两种,一种是用目标检测来定位物体,这意味着如果目标物体是一种全新的、模型未见过的物体则算法无法将该物体检测出来。因此该方法无法用于新物体,泛用性比较低;另一种方法可以泛化到抓取新的物体,但该没有充分利用目标物品的检索信息与工作空间中目标物体之间的关系,仅仅是简单地将它们融合一起再进行预测,因此无法知道工作空间图像的哪个特征与目标检索信息是高度相关的,导致抓取目标的正确率较低。
发明内容
本发明为克服上述现有技术中机械臂抓取指定物体的正确率低和不能抓取到的问题,提供一种基于协同注意力机制的机械臂指定物体抓取方法,该方法训练一个端到端的对工作空间进行像素级别抓取预测的深度神经网络,能够使工作任务应用在全新、模型未见过的物体上。并通过使用协同注意力机制,使得神经网络高效地从工作空间中提取检索信息的特征并忽视其余不相干信息的特征。
为解决上述技术问题,本发明采用的技术方案是:提供一种基于协同注意力机制的机械臂指定物体抓取方法,包括以下步骤:
步骤一:将目标物体放入工作空间中,通过拍摄获得检索数据,包括检索图片和生成目标物体的掩膜;将目标物体和其他物体一起放入工作空间中,通过拍摄获得工作空间数据,包括工作空间图片、目标物体掩膜和其他物体的掩膜;
步骤二:将检索数据和工作空间数据输入深度神经网络,进行深度神经网络训练,深度神经网络为带约束的协同注意力网络;
步骤三:将完成训练的深度神经网络模型应用于真实的物体抓取环境中。
该方法主要用于垂直平面抓取,给定仅包含目标物体的检索图片与包含目标物体在内的许多物体的工作空间图片,模型能够输出工作空间图片的目标物体的像素级别抓取功能图。抓取功能可以分为可抓取、不可抓取和背景三种。为了降低学习过程的复杂性,需要对旋转角度进行离散,因此一张输入的工作空间图片可以获得16个抓取角度的抓取功能图。所以整个抓取功能图可以表示为:
Figure BDA0002307204900000021
其中/>
Figure BDA0002307204900000022
为给定第i个角度下图像的抓取功能图。最优的抓取点可以通过求解下面的式子获得:
i*,h*,w*=argmaxi,h,wG(i,h,w)
其中G(i,h,w)表示旋转角度和图像位置下可抓取功能的置信度。(h*,w*)为图像空间机械臂终端要到达的位置,i*表示终端转动
Figure BDA0002307204900000023
后再执行抓取。
优选的,所述协同注意力网络是一个参数化的模型包括感知模块和协同注意力机制模块和损失函数模块,所述协同注意力网络的输出对应工作空间图片的预测的抓取功能图,训练目标函数为:
Figure BDA0002307204900000024
其中,Θ*为;
Figure BDA0002307204900000027
为损失函数;G为抓取功能图;Y为抓取标签图。
输入为两张从单目摄像头拍摄的彩色图像分别是检索图片和工作空间图片。首先使用Resnet18作为检索图片和工作空间图片的特征提取器也就是感知模块,两个输入的特征提取器共享相同的权重。检索图片和工作空间图片提取出来的特征分别用
Figure BDA0002307204900000025
和/>
Figure BDA0002307204900000026
来表示,然后将两个特征展开传入到协同注意力模块获得由检索特征重组而成的工作空间图特征,其中目标物体的特征具有高响应。为了保留物体的原始信息将该重组好的特征与原始工作空间图特征连接。最后再使用双线性插值加卷积的上采样模块,得到与输入工作空间图片同尺度的抓取功能图。
优选的,所述协同注意力网络的训练步骤为:
S1:所述感知模块提取检索图片和工作空间图片的特征,得到检索图片的特征图
Figure BDA0002307204900000031
和工作空间图片的特征图/>
Figure BDA0002307204900000032
S2:协同注意力机制模块将检索图片特征和工作空间图片特征映射到另一个特征空间从而得到
Figure BDA0002307204900000033
和/>
Figure BDA0002307204900000034
对两个图片特征中的特征进行点积操作得到互相关图:
Figure BDA0002307204900000035
通过对互相关图的每一列进行softmax操作,得到了注意力图,注意力图的值可以由下面的式子算出:
Figure BDA0002307204900000036
其中,
Figure BDA0002307204900000037
A的每一列代表着检索图片与工作空间图片特征之间的相似度的概率密度;Ai,j表示第i行第j列的检索图片与工作空间图片特征之间的相似度的概率密度;Ci,j表示互相关图第i行第j列的元素;Ck,j表示互相关图第k行第j列的元素;因此重组后的特征图由下面定义:
Figure BDA0002307204900000038
/>
其中
Figure BDA0002307204900000039
以及/>
Figure BDA00023072049000000310
具有和φe(Iw)一样的大小;
S3:通过小化损失函数,对协同注意力网络进行优化。
优选的,采样工作空间中物体的掩膜Mt和Mo得到
Figure BDA00023072049000000311
与/>
Figure BDA00023072049000000312
同样的,对于检索图片的物体掩膜Mq我们可以得到/>
Figure BDA00023072049000000313
对于每个在工作空间中目标物体区域的特征,理应与检索图片目标物体区域中的特征的点积结果响应更高。使得检索图片中属于物体的那部分区域的特征能够拥有更高的权重去重构工作空间的目标物体区域特征,响应的加权和结果能够恰好是工作空间中目标物体的那部分区域,因此使用了交叉熵/>
Figure BDA00023072049000000314
Figure BDA00023072049000000315
的计算公式为:
Figure BDA0002307204900000041
其中,
Figure BDA0002307204900000042
表示检索图片中目标物体区域的概率的加权和;Mdt为对工作空间的目标物体掩膜的下采样结果;
通过最小化负信息熵作为目标物体的特征概率密度的训练目标,点积之后的高响应能够集中在检索信息的区域,也就是最小化负信息熵
Figure BDA0002307204900000043
计算公式具体为:
Figure BDA0002307204900000044
其中,Ai,j表示第i行第j列的检索图片与工作空间图片特征之间的相似度的概率密度;Mdt为对工作空间的目标物体掩膜的下采样结果;
对于其他物体的区域则是相反,点积之后的响应在其他物体区域能够尽可能的小且分散,因此要最大化负信息熵
Figure BDA0002307204900000045
具体的计算公式为:
Figure BDA0002307204900000046
其中,Ith为设置的阈值,
Figure BDA0002307204900000047
为工作空间的其他物体的掩膜的负信息熵;
对于背景区域来说,其目的与目标区域类似。每个在工作空间中背景区域的特征,能够与检索图片背景区域中的特征的点积结果响应更高。故使用交叉熵
Figure BDA0002307204900000048
具体的计算公式为:
Figure BDA0002307204900000049
其中,
Figure BDA00023072049000000410
表示检索图片中目标物体区域的概率的加权和;Mdb=1-Mdt-Mdo,表示背景区域的掩膜;
结合标签掩膜来计算损失函数,其中属于目标物体但不属于抓取区域的像素,标签掩膜对应位置上的像素的值设为
Figure BDA00023072049000000411
对于其他的像素,标签掩膜对应的位置的值设为/>
Figure BDA00023072049000000412
Figure BDA00023072049000000413
为网络最后输出的抓取功能图,损失函数/>
Figure BDA00023072049000000414
的计算公式如下:
Figure BDA0002307204900000051
其中,Yijk表示第i行第j列第k个通道的抓取标签;Mijk第i行第j列第k个通道的权重;Gijl表示第i行第j列第k个通道的抓取功能图;H为高;W为宽;
协同注意力网络最终的损失函数的公式为:
Figure BDA0002307204900000052
其中,
Figure BDA0002307204900000053
为检索图片的交叉熵;/>
Figure BDA0002307204900000054
为工作空间的目标物体的掩膜的负信息熵;/>
Figure BDA0002307204900000055
为包含其他物体负信息熵的子损失函数;/>
Figure BDA0002307204900000056
为背景区域的交叉熵;/>
Figure BDA0002307204900000057
为签标掩膜的损失函数;α、β、γ、δ和∈为权重因子。
通过使用协同注意力机制,能够从工作空间中寻找到和检索图片中目标物体区域特征高度相关的特征,从而使得两个图片中对应区域的特征进行互相关操作有较高的响应值。利用交叉熵的特点,让互相关的两个特征的点积通过softmax操作后得到高的概率值。而对于工作空间中其他物体在检索图片中没有出现的情况,使用信息熵使得其特征的权重尽可能地平均分布在检索图片中的每一个区域。通过这样的训练,模型可以知道工作空间图像的哪个特征与检索信息是高度相关的。
优选的,所述检索图片的特征图和所述工作空间图片的特征图的大小较原图小。特征图为原图的八分之一,可以减少特征提取和协同注意力机制模块的计算量。
优选的,在步骤一中,数据获取完成后进行试错抓取,没有成功抓取目标物体,记录抓取点对应的像素位置、抓取角度和抓取失败标签;成功抓取目标物体,将抓取点对应的像素位置、抓取角度和抓取标签与步骤一中的数据一起保存。
优选的,在进行步骤二前,对工作空间数据进行预处理,根据目标物体掩膜、其他物体掩膜和抓取标签生成标签掩膜;对工作空间图片旋转若干个角度,对应的标签和标签掩膜进行相应的旋转,通过抓取角度,只保留旋转之后平行于水平抓取方向的数据。
优选的,在所述步骤三中,在真实的物体抓取环境中进行物体抓取的步骤为:
S1:存储目标物体的检索图片;
S2:拍摄工作空间的彩色图和深度图,并选择要抓取的目标物体,挑选出存储好的目标物体的检索数据;
S3:将检索图片和彩色图进行归一化处理,并且彩色图需要旋转若干个角度传入模型,得到若干个抓取功能图;
S4:根据抓取功能图中对应抓取通道的最大值,获得图像像素中响应最高的位置以及抓取角度;
S5:动学求解机械臂六轴执行角度,到达物体正上方,再根据深度信息确定高度,执行抓取。
与现有技术相比,本发明的有益效果是:通过同时输入检索图片和工作空间图片,方法能够实时,有效,快速地根据检索图片信息从工作空间图片中输出目标物体的抓取功能图。即使是全新的,模型未见过的物体,模型同样能够做到输出正确的物体的抓取功能图,并且具有较高的抓取准确率。
附图说明
图1是本发明的一种基于协同注意力机制的机械臂指定物体抓取方法的流程图;
图2是本发明的一种基于协同注意力机制的机械臂指定物体抓取方法的协同注意力网络训练样本示意图;
图3是本发明的一种基于协同注意力机制的机械臂指定物体抓取方法的网络结构示意图;
图4是本发明的一种基于协同注意力机制的机械臂指定物体抓取方法的注意力机制模块计算示意图;
图5是本发明的一种基于协同注意力机制的机械臂指定物体抓取方法的物体抓取过程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例1
如图1-5所示为一种基于协同注意力机制的机械臂指定物体抓取方法的实施例,包括以下步骤:
步骤一:在仿真环境中设置工作空间,分别需要放置一块背景纹理,摄像头,带二指夹持器的机械臂。
将目标物体放入工作空间中,如图2所示,通过拍摄获得检索数据,包括检索图片Iq和生成目标物体的掩膜Mq;将目标物体和其他物体一起放入工作空间中,通过拍摄获得工作空间数据,包括工作空间图片Iw、目标物体掩膜Mt和其他物体的掩膜Mo;数据获取完成后进行试错抓取,没有成功抓取目标物体,记录抓取点对应的像素位置、抓取角度和抓取失败标签;成功抓取目标物体,将抓取点对应的像素位置、抓取角度和抓取标签与步骤一中的数据一起保存。
对工作空间数据进行预处理,根据目标物体掩膜、其他物体掩膜和抓取标签生成标签掩膜;对工作空间图片旋转16个角度,对应的标签和标签掩膜进行相应的旋转,通过抓取角度,只保留旋转之后平行于水平抓取方向的数据。
步骤二:将检索数据和工作空间数据输入深度神经网络,进行深度神经网络训练,深度神经网络如图3所示为带约束的协同注意力网络,是一个参数化的模型,包括感知模块和协同注意力机制模块和损失函数模块,所述协同注意力网络的输出对应工作空间图片的预测的抓取功能图,训练目标函数为:
Figure BDA0002307204900000071
其中,Θ*为;
Figure BDA0002307204900000072
为损失函数;G为抓取功能图;Y为抓取标签图。/>
具体的训练步骤为:
S1:所述感知模块提取检索图片和工作空间图片的特征,得到检索图片的特征图
Figure BDA0002307204900000073
和工作空间图片的特征图/>
Figure BDA0002307204900000074
S2:协同注意力机制模块将检索图片特征和工作空间图片特征映射到另一个特征空间从而得到
Figure BDA0002307204900000075
和/>
Figure BDA0002307204900000076
对两个图片特征中的特征进行点积操作得到互相关图:
Figure BDA0002307204900000077
通过对互相关图的每一列进行softmax操作,得到了注意力图,注意力图的值可以由下面的式子算出:
Figure BDA0002307204900000081
其中,
Figure BDA0002307204900000082
A的每一列代表着检索图片与工作空间图片特征之间的相似度的概率密度;Ai,j表示第i行第j列的检索图片与工作空间图片特征之间的相似度的概率密度;Ci,j表示互相关图第i行第j列的元素;Ck,j表示互相关图第k行第j列的元素;因此重组后的特征图由下面定义:
Figure BDA0002307204900000083
其中
Figure BDA0002307204900000084
以及/>
Figure BDA0002307204900000085
具有和φe(Iw)一样的大小;
S3:通过小化损失函数,对协同注意力网络进行优化。
如图4所示,损失函数的具体的计算流程,采样工作空间中物体的掩膜Mt和Mo得到
Figure BDA0002307204900000086
与/>
Figure BDA0002307204900000087
同样的,对于检索图片的物体掩膜Mq我们可以得到
Figure BDA0002307204900000088
对于每个在工作空间中目标物体区域的特征,理应与检索图片目标物体区域中的特征的点积结果响应更高。使得检索图片中属于物体的那部分区域的特征能够拥有更高的权重去重构工作空间的目标物体区域特征,响应的加权和结果能够恰好是工作空间中目标物体的那部分区域,因此使用了交叉熵/>
Figure BDA0002307204900000089
Figure BDA00023072049000000810
的计算公式为:
Figure BDA00023072049000000811
其中,
Figure BDA00023072049000000812
表示检索图片中目标物体区域的概率的加权和;Mdt为对工作空间的目标物体掩膜的下采样结果;
通过最小化负信息熵作为目标物体的特征概率密度的训练目标,点积之后的高响应能够集中在检索信息的区域,也就是最小化
Figure BDA00023072049000000813
的计算公式,具体为:/>
Figure BDA00023072049000000814
其中,Ai,j表示第i行第j列的检索图片与工作空间图片特征之间的相似度的概率密度;Mdt为对工作空间的目标物体掩膜的下采样结果;
对于其他物体的区域则是相反,点积之后的响应在其他物体区域能够尽可能的小且分散,因此要最大化负信息熵
Figure BDA0002307204900000091
具体的计算公式为:
Figure BDA0002307204900000092
其中,Ith为设置的阈值,
Figure BDA0002307204900000093
为工作空间的其他物体的掩膜的负信息熵;
对于背景区域来说,其目的与目标区域类似。每个在工作空间中背景区域的特征,能够与检索图片背景区域中的特征的点积结果响应更高。故使用交叉熵
Figure BDA0002307204900000094
具体的计算公式为:
Figure BDA0002307204900000095
其中,
Figure BDA0002307204900000096
表示检索图片中目标物体区域的概率的加权和;Mdb=1-Mdt-Mdo,表示背景区域的掩膜;
结合标签掩膜来计算损失函数,其中属于目标物体但不属于抓取区域的像素,标签掩膜对应位置上的像素的值设为
Figure BDA0002307204900000097
对于其他的像素,标签掩膜对应的位置的值设为/>
Figure BDA0002307204900000098
Figure BDA0002307204900000099
为网络最后输出的抓取功能图,损失函数/>
Figure BDA00023072049000000910
的计算公式如下:
Figure BDA00023072049000000911
其中,Yijk表示第i行第j列第k个通道的抓取标签;Mijk第i行第j列第k个通道的权重;Gijl表示第i行第j列第k个通道的抓取功能图;H为高;W为宽;
协同注意力网络最终的损失函数的公式为:
Figure BDA00023072049000000912
其中,
Figure BDA00023072049000000913
为检索图片的交叉熵;/>
Figure BDA00023072049000000914
为工作空间的目标物体的掩膜的负信息熵;/>
Figure BDA00023072049000000915
为包含其他物体负信息熵的子损失函数;/>
Figure BDA00023072049000000916
为背景区域的交叉熵;/>
Figure BDA00023072049000000917
为签标掩膜的损失函数;α、β、γ、δ和∈为权重因子。
步骤三:如图4所示,将完成训练的深度神经网络模型应用于真实的物体抓取环境中,具体包括以下步骤:
S1:存储目标物体的检索图片;
S2:拍摄工作空间的彩色图和深度图,并选择要抓取的目标物体,挑选出存储好的目标物体的检索数据;
S3:将检索图片和彩色图进行归一化处理,并且彩色图需要旋转16个角度传入模型,得到16个抓取功能图;
S4:根据抓取功能图中对应抓取通道的最大值,获得图像像素中响应最高的位置以及抓取角度;
S5:动学求解机械臂六轴执行角度,到达物体正上方,再根据深度信息确定高度,执行抓取。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于协同注意力机制的机械臂指定物体抓取方法,其特征在于,包括以下步骤:
步骤一:将目标物体放入工作空间中,通过拍摄获得检索数据,包括检索图片和生成目标物体的掩膜;将目标物体和其他物体一起放入工作空间中,通过拍摄获得工作空间数据,包括工作空间图片、目标物体掩膜和其他物体的掩膜;
步骤二:将检索数据和工作空间数据输入深度神经网络,进行深度神经网络训练,深度神经网络为带约束的协同注意力网络;所述协同注意力网络包括感知模块和协同注意力机制模块和损失函数模块,所述协同注意力网络的输出对应工作空间图片的预测的抓取功能图,训练目标函数为:
Figure QLYQS_1
其中,
Figure QLYQS_2
为损失函数;G为抓取功能图;Y为抓取标签图;
所述协同注意力网络的训练步骤为:
S1:所述感知模块提取检索图片和工作空间图片的特征,得到检索图片的特征图
Figure QLYQS_3
和工作空间图片的特征图/>
Figure QLYQS_4
,/>
Figure QLYQS_5
为检索图片;/>
Figure QLYQS_6
为工作空间图片;
S2:协同注意力机制模块将检索图片特征和工作空间图片特征映射到另一个特征空间从而得到
Figure QLYQS_7
和/>
Figure QLYQS_8
,对两个图片特征中的特征进行点积操作得到互相关图:
Figure QLYQS_9
通过对互相关图的每一列进行softmax操作,得到了注意力图,注意力图的值可以由下面的式子算出:
Figure QLYQS_10
其中,
Figure QLYQS_11
;/>
Figure QLYQS_12
的每一列代表着检索图片与工作空间图片特征之间的相似度的概率密度;/>
Figure QLYQS_13
表示第i行第j列的检索图片与工作空间图片特征之间的相似度的概率密度;
Figure QLYQS_14
表示互相关图第i行第j列的元素;/>
Figure QLYQS_15
表示互相关图第k行第j列的元素;
因此重组后的特征图由下面定义:
Figure QLYQS_16
其中,
Figure QLYQS_17
,以及/>
Figure QLYQS_18
具有和/>
Figure QLYQS_19
一样的大小;
S3:通过小化损失函数,对协同注意力网络进行优化,损失函数的公式为:
Figure QLYQS_20
其中,
Figure QLYQS_21
为检索图片的交叉熵;/>
Figure QLYQS_22
为工作空间的目标物体的掩膜的负信息熵;/>
Figure QLYQS_23
为包含其他物体负信息熵的子损失函数;/>
Figure QLYQS_24
为背景区域的交叉熵;/>
Figure QLYQS_25
为签标掩膜的损失函数;/>
Figure QLYQS_26
和/>
Figure QLYQS_27
为权重因子;
步骤三:将完成训练的深度神经网络模型应用于真实的物体抓取环境中。
2.根据权利要求1所述的一种基于协同注意力机制的机械臂指定物体抓取方法,其特征在于,所述检索图片的特征图和所述工作空间图片的特征图的大小较原图小。
3.根据权利要求1所述的一种基于协同注意力机制的机械臂指定物体抓取方法,其特征在于,
Figure QLYQS_28
的计算公式为:
Figure QLYQS_29
其中,
Figure QLYQS_30
,表示检索图片中目标物体区域的概率的加权和;/>
Figure QLYQS_31
为对工作空间的目标物体掩膜的下采样结果;
Figure QLYQS_32
的计算公式为:
Figure QLYQS_33
其中,
Figure QLYQS_34
表示第i行第j列的检索图片与工作空间图片特征之间的相似度的概率密度;
Figure QLYQS_35
为对工作空间的目标物体掩膜的下采样结果;
Figure QLYQS_36
的计算公式为:
Figure QLYQS_37
其中,其中
Figure QLYQS_38
为设置的阈值,/>
Figure QLYQS_39
为工作空间的其他物体的掩膜的负信息熵;
Figure QLYQS_40
的计算公式为:
Figure QLYQS_41
其中,
Figure QLYQS_42
,表示检索图片中目标物体区域的概率的加权和;
Figure QLYQS_43
,表示背景区域的掩膜;
Figure QLYQS_44
的计算公式为:
Figure QLYQS_45
其中,
Figure QLYQS_46
表示第i行第j列第k个通道的抓取标签;/>
Figure QLYQS_47
第i行第j列第k个通道的权重;/>
Figure QLYQS_48
表示第i行第j列第k个通道的抓取功能图;H为高;W为宽。
4.根据权利要求1所述的一种基于协同注意力机制的机械臂指定物体抓取方法,其特征在于,在步骤一中,数据获取完成后进行试错抓取,没有成功抓取目标物体,记录抓取点对应的像素位置、抓取角度和抓取失败标签;成功抓取目标物体,将抓取点对应的像素位置、抓取角度和抓取标签与步骤一中的数据一起保存。
5.根据权利要求3所述的一种基于协同注意力机制的机械臂指定物体抓取方法,在进行步骤二前,对工作空间数据进行预处理,根据目标物体掩膜、其他物体掩膜和抓取标签生成标签掩膜;对工作空间图片旋转若干个角度,对应的标签和标签掩膜进行相应的旋转,通过抓取角度,只保留旋转之后平行于水平抓取方向的数据。
6.根据权利要求1所述的一种基于协同注意力机制的机械臂指定物体抓取方法,其特征在于,在所述步骤三中,在真实的物体抓取环境中进行物体抓取的步骤为:
S1:存储目标物体的检索图片;
S2:拍摄工作空间的彩色图和深度图,并选择要抓取的目标物体,挑选出存储好的目标物体的检索数据;
S3:将检索图片和彩色图进行归一化处理,并且彩色图需要旋转若干个角度传入模型,得到若干个抓取功能图;
S4:根据抓取功能图中对应抓取通道的最大值,获得图像像素中响应最高的位置以及抓取角度;
S5:动学求解机械臂六轴执行角度,到达物体正上方,再根据深度信息确定高度,执行抓取。
CN201911244669.4A 2019-12-06 2019-12-06 一种基于协同注意力机制的机械臂指定物体抓取方法 Active CN110889460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911244669.4A CN110889460B (zh) 2019-12-06 2019-12-06 一种基于协同注意力机制的机械臂指定物体抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911244669.4A CN110889460B (zh) 2019-12-06 2019-12-06 一种基于协同注意力机制的机械臂指定物体抓取方法

Publications (2)

Publication Number Publication Date
CN110889460A CN110889460A (zh) 2020-03-17
CN110889460B true CN110889460B (zh) 2023-05-23

Family

ID=69750925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911244669.4A Active CN110889460B (zh) 2019-12-06 2019-12-06 一种基于协同注意力机制的机械臂指定物体抓取方法

Country Status (1)

Country Link
CN (1) CN110889460B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113001552B (zh) * 2021-03-16 2022-07-15 中国科学院自动化研究所 面向杂质性目标的机器人操作协同抓取方法、系统及设备
WO2023083273A1 (zh) * 2021-11-10 2023-05-19 梅卡曼德(北京)机器人科技有限公司 抓取点信息获取方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN110125930A (zh) * 2019-04-18 2019-08-16 华中科技大学 一种基于机器视觉和深度学习的机械臂抓取控制方法
CN110238840A (zh) * 2019-04-24 2019-09-17 中山大学 一种基于视觉的机械臂自主抓取方法
CN110314854A (zh) * 2019-06-06 2019-10-11 苏州市职业大学 一种基于视觉机器人的工件检测分拣的装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN110125930A (zh) * 2019-04-18 2019-08-16 华中科技大学 一种基于机器视觉和深度学习的机械臂抓取控制方法
CN110238840A (zh) * 2019-04-24 2019-09-17 中山大学 一种基于视觉的机械臂自主抓取方法
CN110314854A (zh) * 2019-06-06 2019-10-11 苏州市职业大学 一种基于视觉机器人的工件检测分拣的装置及方法

Also Published As

Publication number Publication date
CN110889460A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
CN111259850A (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN111080693A (zh) 一种基于YOLOv3的机器人自主分类抓取方法
CN111553949B (zh) 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法
CN111814661A (zh) 基于残差-循环神经网络的人体行为识别方法
CN110238840B (zh) 一种基于视觉的机械臂自主抓取方法
CN110889460B (zh) 一种基于协同注意力机制的机械臂指定物体抓取方法
CN115019103A (zh) 基于坐标注意力群组优化的小样本目标检测方法
CN116703919A (zh) 一种基于最优传输距离损失模型的表面杂质检测方法
CN113643329B (zh) 一种基于孪生注意力网络的在线更新目标跟踪方法和系统
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN116758419A (zh) 针对遥感图像的多尺度目标检测方法、装置和设备
CN113771029A (zh) 一种基于视频增量学习的机器人操作系统及方法
CN115205793A (zh) 基于深度学习二次确认的电力机房烟雾检测方法及装置
CN114782360A (zh) 基于DCT-YOLOv5模型的实时番茄姿态检测方法
CN114882214A (zh) 一种基于深度学习从图像预测物体抓取顺序的方法
CN111783537A (zh) 一种基于目标检测特征的两阶段快速抓取检测方法
CN116740795B (zh) 基于注意力机制的表情识别方法、模型及模型训练方法
CN117132914B (zh) 通用电力设备识别大模型方法及系统
CN117218606B (zh) 一种逃生门检测方法、装置、存储介质及电子设备
CN116386089B (zh) 运动场景下人体姿态估计方法、装置、设备及存储介质
CN112818965B (zh) 多尺度影像目标检测方法、系统、电子设备及存储介质
Sathya et al. A Novel approach for Sign Language Interpretation based on Convolutional Neural Networks
CN116079711A (zh) 一种用于提高机器人抓取成功率的检测方法
CN116823883A (zh) 一种基于CA-SiamFC的变电站危险区域人员安全监视方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant