CN113392703B - 基于注意力机制和非合理动作抑制的机械臂自主抓取方法 - Google Patents
基于注意力机制和非合理动作抑制的机械臂自主抓取方法 Download PDFInfo
- Publication number
- CN113392703B CN113392703B CN202110510867.1A CN202110510867A CN113392703B CN 113392703 B CN113392703 B CN 113392703B CN 202110510867 A CN202110510867 A CN 202110510867A CN 113392703 B CN113392703 B CN 113392703B
- Authority
- CN
- China
- Prior art keywords
- grabbing
- action
- layer
- network
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 230000005764 inhibitory process Effects 0.000 title claims abstract description 10
- 230000002787 reinforcement Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims abstract description 9
- 238000004088 simulation Methods 0.000 claims abstract description 5
- 230000001629 suppression Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于注意力机制和非合理动作抑制的机械臂自主抓取方法。采用深度强化学习方法通过奖励函数指导智能体进行物体的自主抓取技能的学习。利用注意力机制使得网络在试错中持续关注能够提升抓取成功率的抓取位置区域;设计的非合理动作抑制策略,能够有效解决强化学习方法从仿真迁移到真实环境中存在状态差异的问题。本发明具有很高的环境适应性和抓取成功率,能够在复杂环境下实现对物体的高效自主抓取。
Description
技术领域
本发明属于智能控制领域,具体涉及基于注意力机制和非合理动作抑制的机械臂自主抓取方法。
背景技术
机械臂抓取任务是机器人任务中的一项基本任务,具有广泛的应用场景。基于强化学习的机械臂自主抓取是该领域的一个研究热点,强化学习方法通过奖励函数来指导智能体自主学习高效有用的抓取策略,能够实现在无结构复杂环境下的自主抓取。本发明在机械臂抓取强化学习网络中引入注意力机制使网络能够关注有效的物体抓取区域,同时设计非合理动作抑制策略来抑制不合理的抓取动作,大大提升了复杂环境中物体抓取的成功率,具有重要的理论价值和实际意义。
发明内容
本发明针对现有技术的不足,提供了一种基于注意力机制和非合理动作抑制的机械臂自主抓取方法。
本发明一种基于注意力机制和非合理动作抑制的机械臂自主抓取方法,该方法具体包括以下步骤:
步骤(1):利用RGB-D相机采集目标区域的深度图Idepth和彩色图Icolor,尺寸为H×W,将彩色图Icolor和深度图Idepth以ΔΘ为旋转间隔逆时针旋转d次,得到d组具有不同旋转方向的彩色图和深度图/>记为状态st,其中t表示当前时刻;
步骤(2):构建深度强化学习网络,网络由特征提取层、注意力机制层、上采样层和非合理动作抑制层组成;
(a)特征提取层:
将d组彩色图和深度图/>输入网络,对每一组进行特征提取;以第di组为例,和/>各自通过一个经过ImageNet预训练的ResNet-50网络的卷积层部分进行特征提取操作得到颜色特征图/>和深度特征图/>
(b)注意力机制层:
将颜色和深度特征图进行通道拼接操作得到融合特征图然后将/>经过一个注意力机制模块,让网络持续关注杂乱物体中较好的抓取位置区域,得到/>
注意力机制的操作步骤如下:
注意力机制模块中首先将特征图沿着空间维度进行全局平均池化操作得到将/>通过一个全连接层L1和Rectified Linear Unit激活层,对每个通道的特征信息进行特征融合;接着再经过一个全连接层L2和Sigmod激活层得到注意力机制模块的权重/>的维度与输入特征图/>通道维度一致;将/>和/>进行乘法操作得到最终的输出/>
其中AvgPool(·)表示空间全局平均池化操作,L1(·)和L2(·)表示全连接层,σ(·)表示Rectified Linear Unit激活层,Sigmod(·)表示Sigmod激活层,bn(·)表示Batch Normalization操作;
(c)上采样层:
将注意力特征图经过一个卷积核大小为1×1的卷积层、Batch Normalization层和Rectified Linear Unit激活层得到特征图/>实现通道降维;然后,将特征图/>进行顺时针旋转,使其回到与彩色图Icolor一样的角度方向,再进行上采样操作得到尺寸为H×W的上采样图/>d组颜色状态图/>和深度状态图/>获得d组上采样图/>进行通道拼接操作得到d维尺寸为H×W的像素级别的动作预测Q(st,a;θ);
其中,θ为网络参数,a表示抓取动作的动作空间,该动作空间由机械臂的执行位置(xw,yw,zw)和夹爪旋转角度Θ组成;
(d)非合理动作抑制层:
根据Q(st,a;θ)得到每个通道维度下的最大动作预测值,即最佳抓取位置(xw,yw,zw)和夹爪旋转角度Θ,共获得d维最佳动作预测;
在每个维度中,沿着各自的最佳动作方向,经过不同的偏移后,得到不同掩码区域k表示不同的掩码区域,d表示维度;具体的,掩码区域/>是以该维度下的最佳抓取位置沿着抓取方向偏移不同像素后的像素点为中心,尺寸为(hg,wg)的长方形区域;掩码区域的长边wg与抓取方向垂直;
表示在掩码区域/>内属于物体区域的概率,对同一个动作方向不同偏移值下的/>进行求均值操作得到该动作方向上最终的概率Pd;
其中,K表示每个动作方向上的掩码区域数量;
Pd越小表示成功抓取物体的概率越大,碰撞的概率越小;因此,非合理动作抑制策略π(st)为:
π(st)=1-Pd (6)
将d维的非合理动作抑制策略π(st)与d维的最大动作预测值Q(st,a;θ)进行通道相乘操作,最终获得时刻t下的最佳动作at;
步骤(3):设计奖励函数,训练强化学习网络;
①奖励函数设计:
抓取奖励rg定义如下:
rg=G-λΔΨ (7)
ΔΨ=|ΕΘ-ΟΘ|∈[0°,90°] (8)
其中,G表示抓取的结果,如果抓取成功G=1.5,如果抓取失败G=0;ΔΨ表示抓取角度的偏差,由夹爪实际旋转角度ΕΘ与该物体实际角度ΟΘ的绝对差计算得到,λ表示该角度偏差对于抓取奖励的影响程度;
②采用时间差分的双重Q学习更新方式对网络进行训练;
在时间t,采集机械臂工作区间的RGB-D图像得到状态st,将st输入当前网络得到最佳执行动作at(xw,yw,zw,Θ);执行该动作at后,再次采集RGB-D图像得到下一个状态st+1,根据物体是否抓取成功,给动作at的一个奖励rg;采用时间差分法来最小化当前状态下执行动作的动作预测值Q(st,at;θ)与带有未来期望奖励的目标值之间的时间差分误差;该目标值yt采用双重Q学习方法定义:
其中,参数θtarget表示动作价值目标网络,该参数来自于Δt时刻前的网络参数;γ表示衰减因子;
步骤(4):完成步骤(3)的训练后,将训练好的网络参数直接从仿真环境迁移到真实环境中,通过RealSense-435i相机对机械臂工作区间环境进行图像采集,进而得到状态st;将状态st输入网络得到最佳执行动作at(xw,yw,zw,Θ),通过ROS MoveIt运动规划库对机械臂抓取的路径进行规划与控制。
作为优选,为了防止机械臂与物体之间的碰撞,本发明设置抓取控制时的最低安全高度zsafe,保证抓取过程的安全性。首先,根据最佳动作位置(xw,yw),将其沿着夹爪旋转角度Θ方向进行像素偏移操作(偏移的像素值根据夹爪的初始打开宽度获得),得到两个表示夹爪末端位置的区域。其次,将该区域的最大高度值与工作空间桌面高度的绝对差值作为系统的最低安全高度zsafe。在抓取过程中,抓取高度zw为:
zw=zw+zsafe (10)。
本发明具有以下有益的效果:
本发明采用深度强化学习方法通过奖励函数指导智能体进行物体的自主抓取技能的学习。利用注意力机制使得网络在试错中持续关注能够提升抓取成功率的抓取位置区域;设计的非合理动作抑制策略,能够有效解决强化学习方法从仿真迁移到真实环境中存在状态差异的问题,保证物体的抓取过程安全高效,具有很高的环境适应性及抓取成功率。通过学习后,该方法能够在复杂环境下完成物体的自主抓取任务。
附图说明
图1为基于注意力机制和非合理动作抑制的机械臂自主抓取流程图。
具体实施方式
本发明专利提供了基于注意力机制和非合理动作抑制的机械臂自主抓取方法,包括以下步骤:
步骤(1):利用RGB-D相机采集目标区域的深度图像Idepth和颜色图像Icolor,尺寸大小为320×320,将上述颜色图Icolor和深度图Idepth以ΔΘ=22.5°为旋转间隔逆时针旋转d=16次,得到d组具有不同旋转方向的颜色状态图和深度状态图/>记为状态st,其中t表示当前时刻。
步骤(2):构建深度强化学习网络,网络(见附图1)由特征提取层、注意力机制层、上采样层和非合理动作抑制层组成。
(a)特征提取层:
将d组颜色状态图和深度状态图/>输入抓取网络,以第di组为例,/>和各自通过一个经过ImageNet预训练的ResNet-50网络的卷积层部分进行特征提取操作得到颜色特征图/>和深度特征图/>
(b)注意力机制层:
将颜色和深度特征图进行通道拼接操作得到融合特征图然后将/>经过一个注意力机制模块,让网络持续关注杂乱物体中较好的抓取位置区域,得到/>
注意力机制的操作步骤如下:
注意力机制模块中首先将特征图沿着空间维度进行全局平均池化操作得到将/>通过一个全连接层L1和Rectified Linear Unit激活层,对每个通道的特征信息进行特征融合。接着再经过一个全连接层L2和Sigmod激活层得到注意力机制模块的权重/>的维度与输入特征图/>通道维度一致。将/>和/>进行乘法操作得到最终的输出/>
其中AvgPool(·)表示空间全局平均池化操作,L1(·)和L2(·)表示全连接层,σ(·)表示Rectified Linear Unit激活层,Sigmod(·)表示Sigmod激活层,bn(·)表示Batch Normalization操作。
(c)上采样层:
首先,将注意力特征图经过一个卷积核大小为1×1的卷积层、BatchNormalization层和Rectified Linear Unit激活层得到特征图/>实现通道降维。然后,将特征图/>进行顺时针旋转,使其回到与彩色图Icolor一样的角度方向,再进行上采样操作得到尺寸为320×320的上采样图/>最终,d组颜色状态图/>和深度状态图/>获得d组上采样图/>进行通道拼接操作得到d维尺寸为320×320的像素级别的动作预测值Q(st,a;θ)。
其中,θ为网络参数,a表示抓取动作的动作空间,该动作空间由机械臂的执行位置(xw,yw,zw)和夹爪旋转角度Θ组成。
(d)非合理动作抑制层:
根据Q(st,a;θ)得到每个通道维度下最大动作预测值和对应的最佳抓取位置(xw,yw,zw)和夹爪旋转角度Θ,共可获得d维最佳动作。
在每个维度中,沿着他们各自的动作方向,经过不同的偏移值S∈[11,13,15]之后,得到掩码区域具体的,掩码区域/>是以最大动作预测值对应的抓取位置沿着抓取方向Θ偏移S∈[11,13,15]像素后的像素点为中心,与抓取方向Θ垂直且尺寸为(hg,wg)=(8,15)的长方形区域。其中k=3表示该方向上的偏移值数量,d表示维度。将/>定义为在掩码区域/>内属于物体区域的概率,对同一个动作方向上的不同偏移值下的/>进行求均值操作得到该动作方向上最终的概率Pd。
其中,K=6表示在每一个动作方向上掩码区域数量。
Pd越小表示成功抓取物体的概率越大,碰撞的概率越小。因此,我们的非合理动作抑制策略π(st)为:
π(st)=1-Pd (6)
将d维的非合理动作抑制策略与d维的最大动作预测值进行通道相乘操作,最终获得时刻t下的最佳动作at。
步骤(3):设计奖励函数,训练强化学习网络。
①励函数设计:
抓取奖励rg定义如下:
rg=G-λΔΨ (7)
ΔΨ=|ΕΘ-ΟΘ|∈[0°,90°] (8)
其中,G表示抓取的结果,如果抓取成功G=1.5,如果抓取失败G=0。ΔΨ表示抓取角度的偏差,由夹爪实际旋转角度ΕΘ与该物体实际角度ΟΘ的绝对差计算得到,λ=0.02表示该角度偏差对于抓取奖励的影响程度。
②用时间差分的双重Q学习更新方式对网络进行训练。
在时间t,采集机械臂工作区间的RGB-D图像得到状态st,将st输入当前策略(即网络)得到最佳执行动作at(xw,yw,zw,Θ)。执行该动作at后,再次采集RGB-D图像得到下一个状态st+1,根据物体是否抓取成功,给动作at的一个奖励rg。采用时间差分法来最小化当前状态下执行动作的动作预测值Q(st,at;θ)与带有未来期望奖励的目标值之间的时间差分误差。该目标值yt采用双重Q学习方法定义:
其中,参数θtarget表示动作价值目标网络,该参数来自于Δt=200时刻前的网络参数;γ表示衰减因子。在实验中,设置γ=0.5。
步骤(4):完成步骤(3)的训练后,将训练好的网络参数直接从仿真环境迁移到真实环境中,通过RealSense-435i相机对机械臂工作区间环境进行图像采集,进而得到状态st。将状态st输入网络得到最佳执行动作at(xw,yw,zw,Θ),通过ROS MoveIt运动规划库对机械臂抓取的路径进行规划与控制。
为了防止机械臂与物体之间的碰撞,本发明设置抓取控制时的最低安全高度zsafe,保证抓取过程的安全性。首先,根据最佳动作位置(xw,yw),将其沿着夹爪旋转角度Θ方向进行像素偏移操作(偏移的像素值根据夹爪的初始打开宽度获得),得到两个表示夹爪末端位置的区域。其次,将该区域的最大高度值与工作空间桌面高度的绝对差值作为系统的最低安全高度zsafe。在抓取过程中,抓取高度zw为:
zw=zw+zsafe (10)。
Claims (2)
1.基于注意力机制和非合理动作抑制的机械臂自主抓取方法,其特征在于,该方法的具体步骤是:
步骤(1):利用RGB-D相机采集目标区域的深度图Idepth和彩色图Icolor,尺寸为H×W,将彩色图Icolor和深度图Idepth以ΔΘ为旋转间隔逆时针旋转d次,得到d组具有不同旋转方向的彩色图和深度图/>记为状态st,其中t表示当前时刻;
步骤(2):构建深度强化学习网络,网络由特征提取层、注意力机制层、上采样层和非合理动作抑制层组成;
(a)特征提取层:
将d组彩色图和深度图/>输入网络,对每一组进行特征提取;以第di组为例,/>和/>各自通过一个经过ImageNet预训练的ResNet-50网络的卷积层部分进行特征提取操作得到颜色特征图/>和深度特征图/>
(b)注意力机制层:
将颜色和深度特征图进行通道拼接操作得到融合特征图然后将/>经过一个注意力机制模块,让网络持续关注杂乱物体中较好的抓取位置区域,得到/>
注意力机制的操作步骤如下:
注意力机制模块中首先将特征图沿着空间维度进行全局平均池化操作得到将/>通过一个全连接层L1和Rectified Linear Unit激活层,对每个通道的特征信息进行特征融合;接着再经过一个全连接层L2和Sigmod激活层得到注意力机制模块的权重/>的维度与输入特征图/>通道维度一致;将/>和/>进行乘法操作得到最终的输出/>
其中AvgPool(·)表示空间全局平均池化操作,L1(·)和L2(·)表示全连接层,σ(·)表示Rectified Linear Unit激活层,Sigmod(·)表示Sigmod激活层,bn(·)表示BatchNormalization操作;
(c)上采样层:
将注意力特征图经过一个卷积核大小为1×1的卷积层、Batch Normalization层和Rectified Linear Unit激活层得到特征图/>实现通道降维;然后,将特征图/>进行顺时针旋转,使其回到与彩色图Icolor一样的角度方向,再进行上采样操作得到尺寸为H×W的上采样图/>d组颜色状态图/>和深度状态图/>获得d组上采样图/>进行通道拼接操作得到d维尺寸为H×W的像素级别的动作预测Q(st,a;θ);
其中,θ为网络参数,a表示抓取动作的动作空间,该动作空间由机械臂的执行位置(xw,yw,zw)和夹爪旋转角度Θ组成;
(d)非合理动作抑制层:
根据Q(st,a;θ)得到每个通道维度下的最大动作预测值,即最佳抓取位置(xw,yw,zw)和夹爪旋转角度Θ,共获得d维最佳动作预测;
在每个维度中,沿着各自的最佳动作方向,经过不同的偏移后,得到不同掩码区域k表示不同的掩码区域,d表示维度;具体的,掩码区域/>是以该维度下的最佳抓取位置沿着抓取方向偏移不同像素后的像素点为中心,尺寸为(hg,wg)的长方形区域;掩码区域的长边wg与抓取方向垂直;
表示在掩码区域/>内属于物体区域的概率,对同一个动作方向不同偏移值下的/>进行求均值操作得到该动作方向上最终的概率Pd;
其中,K表示每个动作方向上的掩码区域数量;
Pd越小表示成功抓取物体的概率越大,碰撞的概率越小;因此,非合理动作抑制策略π(st)为:
π(st)=1-Pd (6)
将d维的非合理动作抑制策略π(st)与d维的最大动作预测值Q(st,a;θ)进行通道相乘操作,最终获得时刻t下的最佳动作at;
步骤(3):设计奖励函数,训练强化学习网络;
①奖励函数设计:
抓取奖励rg定义如下:
rg=G-λΔΨ (7)
ΔΨ=|ΕΘ-ΟΘ|∈[0°,90°] (8)
其中,G表示抓取的结果,如果抓取成功G=1.5,如果抓取失败G=0;ΔΨ表示抓取角度的偏差,由夹爪实际旋转角度ΕΘ与该物体实际角度ΟΘ的绝对差计算得到,λ表示该角度偏差对于抓取奖励的影响程度;
②采用时间差分的双重Q学习更新方式对网络进行训练;
在时间t,采集机械臂工作区间的RGB-D图像得到状态st,将st输入当前网络得到最佳执行动作at(xw,yw,zw,Θ);执行该动作at后,再次采集RGB-D图像得到下一个状态st+1,根据物体是否抓取成功,给动作at的一个奖励rg;采用时间差分法来最小化当前状态下执行动作的动作预测值Q(st,at;θ)与带有未来期望奖励的目标值之间的时间差分误差;该目标值yt采用双重Q学习方法定义:
其中,参数θtarget表示动作价值目标网络,该参数来自于Δt时刻前的网络参数;γ表示衰减因子;
步骤(4):完成步骤(3)的训练后,将训练好的网络参数直接从仿真环境迁移到真实环境中,通过相机对机械臂工作区间环境进行图像采集,进而得到状态st;将状态st输入网络得到最佳执行动作at(xw,yw,zw,Θ),通过ROS MoveIt运动规划库对机械臂抓取的路径进行规划与控制。
2.根据权利要求1所述的基于注意力机制和非合理动作抑制的机械臂自主抓取方法,其特征在于:为了防止机械臂与物体之间的碰撞,设置抓取控制时的最低安全高度zsafe,保证抓取过程的安全性;首先,根据最佳动作位置(xw,yw),将其沿着夹爪旋转角度Θ方向进行像素偏移操作,其中偏移的像素值根据夹爪的初始打开宽度获得,得到两个表示夹爪末端位置的区域;其次,将该区域的最大高度值与工作空间桌面高度的绝对差值作为系统的最低安全高度zsafe;在抓取过程中,抓取高度zw为:
zw=zw+zsafe (10)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110510867.1A CN113392703B (zh) | 2021-05-11 | 2021-05-11 | 基于注意力机制和非合理动作抑制的机械臂自主抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110510867.1A CN113392703B (zh) | 2021-05-11 | 2021-05-11 | 基于注意力机制和非合理动作抑制的机械臂自主抓取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392703A CN113392703A (zh) | 2021-09-14 |
CN113392703B true CN113392703B (zh) | 2024-02-02 |
Family
ID=77616903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110510867.1A Active CN113392703B (zh) | 2021-05-11 | 2021-05-11 | 基于注意力机制和非合理动作抑制的机械臂自主抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392703B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
CN112643668A (zh) * | 2020-12-01 | 2021-04-13 | 浙江工业大学 | 一种适用于密集环境下的机械臂推抓协同方法 |
-
2021
- 2021-05-11 CN CN202110510867.1A patent/CN113392703B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
CN112643668A (zh) * | 2020-12-01 | 2021-04-13 | 浙江工业大学 | 一种适用于密集环境下的机械臂推抓协同方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113392703A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102168003B1 (ko) | 오브젝트(들)를 캡처하는 이미지(들)에 기초하는 그리고 환경에서의 미래 로봇 움직임에 대한 파라미터(들)에 기초하여 로봇 환경에서의 오브젝트(들)의 모션(들)을 예측하는 것과 관련된 머신 학습 방법들 및 장치 | |
CN110039542B (zh) | 具有速度方向控制的视觉伺服跟踪控制方法及机器人系统 | |
CN109800864B (zh) | 一种基于图像输入的机器人主动学习方法 | |
US9346167B2 (en) | Trainable convolutional network apparatus and methods for operating a robotic vehicle | |
CN112605983B (zh) | 一种适用于密集环境下的机械臂推抓系统 | |
CN114912287B (zh) | 基于目标6d位姿估计的机器人自主抓取仿真系统及方法 | |
CN109397285B (zh) | 一种装配方法、装配装置及装配设备 | |
CN110238840B (zh) | 一种基于视觉的机械臂自主抓取方法 | |
CN111251294A (zh) | 一种基于视觉位姿感知和深度强化学习的机器人抓取方法 | |
CN111331607B (zh) | 一种基于机械臂的自主抓取与码垛方法及系统 | |
CN112347900B (zh) | 基于距离估计的单目视觉水下目标自动抓取方法 | |
DE102020214633A1 (de) | Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung | |
CN114851201A (zh) | 一种基于tsdf三维重建的机械臂六自由度视觉闭环抓取方法 | |
CN110171001A (zh) | 一种基于CornerNet的智能分拣机械臂系统和抓取控制方法 | |
CN116852353A (zh) | 一种基于深度强化学习的密集场景机械臂抓取多目标物体的方法 | |
CN112975977A (zh) | 一种高效的机械臂抓取深度强化学习奖励训练方法及系统 | |
CN117549307B (zh) | 一种非结构化环境下的机器人视觉抓取方法及系统 | |
CN114131603B (zh) | 基于感知增强和场景迁移的深度强化学习机器人抓取方法 | |
CN115256377A (zh) | 一种基于多源信息融合的机器人抓取方法和装置 | |
CN113392703B (zh) | 基于注意力机制和非合理动作抑制的机械臂自主抓取方法 | |
CN115890744B (zh) | 一种基于td3的机械手臂6-dof物体操纵训练方法及系统 | |
CN116664843B (zh) | 一种基于rgbd图像和语义分割的残差拟合抓取检测网络 | |
CN117037062A (zh) | 一种目标物体抓取方法、系统、电子设备及存储介质 | |
CN114998573A (zh) | 一种基于rgb-d特征深度融合的抓取位姿检测方法 | |
DE102021212494B4 (de) | Vorrichtung und Verfahren zur Steuerung einer Robotervorrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |