CN110238855A - 一种基于深度逆向强化学习的机器人乱序工件抓取方法 - Google Patents
一种基于深度逆向强化学习的机器人乱序工件抓取方法 Download PDFInfo
- Publication number
- CN110238855A CN110238855A CN201910550243.5A CN201910550243A CN110238855A CN 110238855 A CN110238855 A CN 110238855A CN 201910550243 A CN201910550243 A CN 201910550243A CN 110238855 A CN110238855 A CN 110238855A
- Authority
- CN
- China
- Prior art keywords
- network
- point cloud
- robot
- workpiece
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于深度逆向强化学习的机器人乱序工件抓取方法。视觉传感器拍摄待抓取的工件图像信息,并传输给信息处理单元;信息处理单元将拍摄的图像生成提取目标工件的三维点云;处理后的三维点云数据输入到深度逆向强化学习处理中,计算机器人运动路径;机器人根据计算获得的运动路径进行工件的抓取。本发明可满足工业生产的需求,只需示教较少的专家演示数据,即可快速实现对特定工件的抓取编程,解决了深度强化学习方法策略适用性不强、抓取能力有限、训练周期长、效率低等缺点。
Description
技术领域
本发明涉及属于人工智能的一种机器人工件抓取方法,尤其涉及一种基于深度逆向强化学习的机器人乱序工件抓取方法。
背景技术
中国作为全球五大工业机器人消费国之一,在2018年安装量全球占比提升至36.0%,共计安装了138000台工业机器人,同比增长了59%,消费体量已经超过了欧洲和美国的总和。智能制造是中国制造2025的主攻方向,智能化的工业机器人需求量巨大。搬运及上下料的机器人应用占比超过三分之二,对其进行智能化升级所带来的附加价值明显。
随着人工智能深度学习的发展,已开始研究基于人工智能技术深度学习工件视觉,利用预先训练过的深度强化学习网络对照片进行数据降维特征提取;根据特征提取结果得出机器人的控制策略,机器人利用控制策略来控制运动路径和机械手臂的位姿,从而实现目标的自适应抓取。
现有的基于人工智能算法的机器人自适应抓取方法往往是采用深度强化学习方法来实现的。然而,传统强化学习方法在求解高维度状态和动作空间问题时,有较大的局限性,在有限样本和计算单元条件下对复杂函数的表示能力有限,实际应用中的表现往往不是很理想。同时,传统深度强化学习算法需要提供大量的数据进行训练,在训练过程中,机器人需要不断抓取试错,才有可能可以获得稳定的抓取能力。这种训练方法周期长、效率低,在实际训练过程中有安全隐患,往往无法满足工业生产应用的需求。而且,在实际的多步强化学习过程中,回报函数的设计非常困难。
发明内容
为克服现有技术的不足,本发明提供一种基于深度逆向强化学习的机器人乱序工件抓取方法。
本发明采用的技术方案如下:
步骤一,机器人末端侧方固定的视觉传感器拍摄工件平台上的工件,获得待抓取的工件图像,并传输给信息处理单元;
步骤二,信息处理单元将拍摄的图像生成三维点云数据,并采用聚类算法提取目标工件的三维点云作为点云信息;
步骤三,将点云信息输入到深度逆向强化学习处理中,计算机器人运动路径,计算获得的机器人运动路径输出给机器人控制器,控制机器人实施工件抓取。
本发明技术方案中,工件保持固定乱序放置,机器人末端运动对工件进行抓取。
所述步骤三中的深度逆向强化学习处理,具体包括:
包括有生成网络和判别网络的两部分;
A)所述的生成网络主要由第一点云处理单元和路径生成单元串联而成,第一点云处理单元用以处理输入的点云信息输入到路径生成单元,路径生成单元根据输入的点云信息产生机器人运动路径;
第一点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第一子网络结构,但两个第一子网络结构的网络参数/训练不同,具体包括依次连接的随机采样层、感知层和池化层,感知层是由多个多层感知器并联组成,同一感知层中各个多层感知器共享/具有相同的参数,随机采样的数据组和多层感知器的个数相同;随机采样层接收输入的点云信息并进行随机采样,然后将随机采样的各组数据分别输入到各个多层感知器,所有多层感知器处理输出到同一池化层中,池化层的输出到对应的路径生成单元各自的一个多层感知器中,输出获得位置信息/姿态信息;
路径生成单元有两个多层感知器和一个路径生成模块,两个多层感知器分别接收点云处理单元中两个第一子网络结构的池化层的输出信息,然后分别生成输出机器人末端的位置信息和姿态信息,最后传输给路径生成模块生成机器人的运动路径;
B)所述的判别网络主要由第二点云处理单元和路径处理单元以及联合处理单元组成,第二点云处理单元和路径处理单元并联连接到联合处理单元的输入端,点云处理单元用以处理输入的点云信息,路径处理单元用以处理输入的运动路径,联合处理单元接收点云处理单元和路径处理单元的输出信息,处理预测出分类判别值;
第二点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第二子网络结构,但两个第二子网络结构的网络参数/训练不同,具体包括依次连接的随机采样层、感知层和池化层,感知层是由多个多层感知器并联组成,同一感知层中各个多层感知器共享/具有相同的参数,随机采样的数据组和多层感知器的个数相同;随机采样层接收输入的点云信息并进行随机采样,然后将随机采样的各组数据分别输入到各个多层感知器,所有多层感知器处理输出到同一池化层中,池化层的输出到对应的路径处理单元各自的一个多层感知器中,输出获得位置信息/姿态信息;
联合处理单元由三个多层感知器组成,其中两个多层感知器分别接收点云处理单元中两个池化层的输出,另一个多层感知器接收前两个多层感知器以及路径处理单元中的多层感知器的输出信息,最后输出判别值,此处的判别值为示教数据还是自主生成数据的分类判别值。
路径处理单元由一个多层感知器组成,接收生成网络的路径生成单元生成的机器人运动路径信息,并输出到联合处理单元的另一个多层感知器中。
所述步骤三的深度逆向强化学习处理中,生成网络和判别网络采用以下方式建立示教数据和自主生成数据进行训练:
S1,视觉传感器拍摄工件的图像作为工件图像,将工件图像转换成三维点云;
S2,示教机器人进行抓取工件,记录机器人抓取的姿态信息;
S3,将S1和S2的数据进行匹配对应组成一组示教数据;
S4,重复S1~S3若干次,获得若干组示教数据;
S5,将S1获得的三维点云数据导入到最新的生成网络中生成机器人运动路径;
S6,将S1和S5的数据进行匹配对应组成一组自主生成数据;
S7,重复S5~S6若干次,获得若干组自主生成数据;
S8,将示教数据和自主生成数据输入到最新的判别网络,采用梯度下降的方法仅对判别网络进行训练,对判别网络的参数进行优化,获得训练后的判别网络,固定判别网络的参数;
S9,将S1获得的三维点云输入到生成网络,固定保持判别网络的参数,对判别网络和生成网络采用梯度上升的方法一起进行训练,对生成网络的参数进行优化,使得判别网络最终输出的判别值接近示教数据的判别值,获得训练后的生成网络;
S10,利用S9获得的训练后的生成网络更新重复S5中的生成网络,重复S5~S9若干次进行迭代处理,不断迭代优化判别网络和生成网络的网络参数,直至满足收敛条件结束。
具体实施中,对判别网络的输出建立两个判别值,取较高的判别值作为示教数据的判别值,取较低的判别值作为自主生成数据的判别值。
以满足收敛条件结束后获得的生成网络作为最终的深度逆向强化学习处理模块,将工件的三维点云信息导入到该生成网络后,输出生成准确的机器人运动路径。
工业产线的上下料环节中,往往存在很多乱序堆放的工件,需要机器人实现自动化的分拣或上下料。本发明适用于工业上下料环节中的零件自动化分拣或上下料,采用深度逆向强化学习的方法,使得神经网络在不断迭代过程中逐渐学会并掌握示教机器人实现乱序工件抓取的能力。
本发明的有益效果是:
1、本发明采用深度逆向强化学习算法进行机器人乱序工件抓取,算法中的回报函数是从示教数据中学习,解决了强化学习算法在有限样本和计算单元条件下对复杂函数的表示能力有限、策略适用性不强等缺点。
2、传统深度强化学习算法需要提供大量的数据进行训练,在训练过程中,机器人需要不断抓取试错,才有可能可以获得稳定的抓取能力。这种训练方法周期长、效率低,在实际训练过程中有安全隐患,往往无法满足工业生产应用的需求。本发明的训练方法无需大量试错训练,只需较少的专家演示数据,即可快速实现对特定工件的抓取编程,可满足工业生产的需要。
附图说明
图1为本发明的实施流程图;
图2为本发明的深度逆向强化学习算法结构示意图;
图3为本发明的深度逆向强化学习算法中生成网络结构示意图;
图4为本发明的深度逆向强化学习算法中判别网络结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如附图1所示,本发明的具体实施例及其实施过程如下:
深度相机采用双目视觉传感器,设置在待抓取物体正上方,可拍摄待抓取物体,并输出点云数据。机器人选用六轴工业机器人,设置在水平面上。本发明所述的方法需先对点云分类网络、位置生成网络和姿态生成网络进行训练,网络训练完成之后才能实施抓取位姿估计。
在本方法中,设置机器人的工具中心点为末端执行器的装夹中点,工具中心点的x轴方向为末端执行器的前进方向,z轴方向为上升方向,y轴方向根据右手法则计算得出。待抓取物体设置在水平面上,实施抓取时,末端执行器总是与水平面垂直。
步骤一,通过机器人末端侧方布置的视觉传感器从上往下拍摄工件平台上的工件,获得待抓取的工件图像,并传输给信息处理单元;
步骤二,信息处理单元内设置有图像处理软件,图像处理软件将拍摄的图像生成三维点云数据,并进行滤波、下采样等前处理操作,再进行点云平面分割去除数据中的平面背景,并采用聚类算法提取目标工件的三维点云作为点云信息;
步骤三,将点云信息输入到深度逆向强化学习处理模块中,深度逆向强化学习处理模块采用以下方式获得:
首先,如附图2所示,建立包含有生成网络和判别网络的两部分的网络模型:
A)如附图3所示,生成网络主要由第一点云处理单元和路径生成单元串联而成,第一点云处理单元用以处理输入的点云信息输入到路径生成单元,路径生成单元根据输入的点云信息产生机器人运动路径;
第一点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第一子网络结构,具体包括依次连接的随机采样层、感知层和池化层,感知层是由多个多层感知器并联组成,同一感知层中各个多层感知器共享/具有相同的参数;随机采样层接收输入的点云信息并进行随机采样,然后将随机采样的各组数据分别输入到各个多层感知器,所有多层感知器处理输出到同一池化层中,池化层的输出到对应的路径生成单元各自的一个多层感知器中;
路径生成单元有两个多层感知器和一个路径生成模块,两个多层感知器分别接收点云处理单元中两个第一子网络结构的池化层的输出信息,然后分别生成输出机器人末端的位置信息和姿态信息,最后传输给路径生成模块生成机器人的运动路径;
B)如附图4所示,判别网络主要由第二点云处理单元和路径处理单元以及联合处理单元组成,第二点云处理单元和路径处理单元并联连接到联合处理单元的输入端,点云处理单元用以处理输入的点云信息,路径处理单元用以处理输入的运动路径,联合处理单元接收点云处理单元和路径处理单元的输出信息,处理预测出分类判别值。具体实施中,对判别网络的输出建立两个判别值,取较高的判别值作为示教数据的判别值,取较低的判别值作为自主生成数据的判别值。
第二点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第二子网络结构,具体包括依次连接的随机采样层、感知层和池化层,感知层是由多个多层感知器并联组成,同一感知层中各个多层感知器共享/具有相同的参数;随机采样层接收输入的点云信息并进行随机采样,然后将随机采样的各组数据分别输入到各个多层感知器,所有多层感知器处理输出到同一池化层中,池化层的输出到对应的路径处理单元各自的一个多层感知器中;
联合处理单元由三个多层感知器组成,其中两个多层感知器分别接收点云处理单元中两个池化层的输出,另一个多层感知器接收前两个多层感知器以及路径处理单元中的多层感知器的输出信息,最后输出判别值。
路径处理单元由一个多层感知器组成,接收生成网络的路径生成单元生成的机器人运动路径信息,并输出到联合处理单元的另一个多层感知器中。
接着,如附图2所示的数据传输逻辑,建立示教数据和自主生成数据对网络模型进行训练获得最后的生成网络:
S1,视觉传感器拍摄工件的图像作为工件图像,将工件图像转换成三维点云;
S2,示教机器人进行抓取工件,记录机器人抓取的姿态信息;
S3,将S1和S2的数据进行匹配对应组成一组示教数据;
S4,重复S1~S3若干次,获得若干组示教数据;
S5,将S1获得的三维点云数据导入到最新的生成网络中生成机器人运动路径;
S6,将S1和S5的数据进行匹配对应组成一组自主生成数据;
S7,重复S5~S6若干次,获得若干组自主生成数据;
S8,将示教数据和自主生成数据输入到最新的判别网络,采用梯度下降的方法仅对判别网络进行训练,获得训练后的判别网络;
S9,将S1获得的三维点云输入到生成网络,固定保持判别网络的参数,对判别网络和生成网络采用梯度上升的方法一起进行训练,使得判别网络最终输出的判别值接近示教数据的判别值,获得训练后的生成网络;
S10,利用S9获得的训练后的生成网络更新重复S5中的生成网络,重复S5~S9若干次进行迭代处理,不断迭代优化判别网络和生成网络的网络参数,直至满足收敛条件结束。
再以满足收敛条件结束后获得的生成网络作为最终的深度逆向强化学习处理模块,将工件的三维点云信息导入到该生成网络后,输出生成准确的机器人运动路径。
最后,机器人运动路径输出给机器人控制器,控制机器人实施工件抓取。
由此实施可见,本发明可满足工业生产的需求,只需示教较少的专家演示数据,即可快速实现对特定工件的抓取编程,解决了深度强化学习方法策略适用性不强、抓取能力有限、训练周期长、效率低等缺点。
Claims (5)
1.一种基于深度逆向强化学习的机器人乱序工件抓取方法,其特征在于,包括如下步骤:
步骤一,机器人末端侧方固定的视觉传感器拍摄工件平台上的工件,获得待抓取的工件图像,并传输给信息处理单元;
步骤二,信息处理单元将拍摄的图像生成三维点云数据,并采用聚类算法提取目标工件的三维点云作为点云信息;
步骤三,将点云信息输入到深度逆向强化学习处理中,计算机器人运动路径,计算获得的机器人运动路径输出给机器人控制器,控制机器人实施工件抓取。
2.根据权利要求1所述的一种基于深度逆向强化学习的机器人乱序工件抓取方法,其特征在于:所述步骤三中的深度逆向强化学习处理,具体包括:
包括有生成网络和判别网络的两部分;
A)所述的生成网络主要由第一点云处理单元和路径生成单元串联而成,第一点云处理单元用以处理输入的点云信息输入到路径生成单元,路径生成单元根据输入的点云信息产生机器人运动路径;
第一点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第一子网络结构,具体包括依次连接的随机采样层、感知层和池化层,感知层是由多个多层感知器并联组成,同一感知层中各个多层感知器共享/具有相同的参数;随机采样层接收输入的点云信息并进行随机采样,然后将随机采样的各组数据分别输入到各个多层感知器,所有多层感知器处理输出到同一池化层中,池化层的输出到对应的路径生成单元各自的一个多层感知器中;
路径生成单元有两个多层感知器和一个路径生成模块,两个多层感知器分别接收点云处理单元中两个第一子网络结构的池化层的输出信息,然后分别生成输出机器人末端的位置信息和姿态信息,最后传输给路径生成模块生成机器人的运动路径;
B)所述的判别网络主要由第二点云处理单元和路径处理单元以及联合处理单元组成,第二点云处理单元和路径处理单元并联连接到联合处理单元的输入端,点云处理单元用以处理输入的点云信息,路径处理单元用以处理输入的运动路径,联合处理单元接收点云处理单元和路径处理单元的输出信息,处理预测出分类判别值;
第二点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第二子网络结构,具体包括依次连接的随机采样层、感知层和池化层,感知层是由多个多层感知器并联组成,同一感知层中各个多层感知器共享/具有相同的参数;随机采样层接收输入的点云信息并进行随机采样,然后将随机采样的各组数据分别输入到各个多层感知器,所有多层感知器处理输出到同一池化层中,池化层的输出到对应的路径处理单元各自的一个多层感知器中;
联合处理单元由三个多层感知器组成,其中两个多层感知器分别接收点云处理单元中两个池化层的输出,另一个多层感知器接收前两个多层感知器以及路径处理单元中的多层感知器的输出信息,最后输出判别值。
路径处理单元由一个多层感知器组成,接收生成网络的路径生成单元生成的机器人运动路径信息,并输出到联合处理单元的另一个多层感知器中。
3.根据权利要求2所述的一种基于深度逆向强化学习的机器人乱序工件抓取方法,其特征在于:所述步骤三的深度逆向强化学习处理中,生成网络和判别网络采用以下方式建立示教数据和自主生成数据进行训练:
S1,视觉传感器拍摄工件的图像作为工件图像,将工件图像转换成三维点云;
S2,示教机器人进行抓取工件,记录机器人抓取的姿态信息;
S3,将S1和S2的数据进行匹配对应组成一组示教数据;
S4,重复S1~S3若干次,获得若干组示教数据;
S5,将S1获得的三维点云数据导入到生成网络中生成机器人运动路径;
S6,将S1和S5的数据进行匹配对应组成一组自主生成数据;
S7,重复S5~S6若干次,获得若干组自主生成数据;
S8,将示教数据和自主生成数据输入到判别网络,采用梯度下降的方法仅对判别网络进行训练,获得训练后的判别网络;
S9,将S1获得的三维点云输入到生成网络,固定保持判别网络的参数,对判别网络和生成网络采用梯度上升的方法一起进行训练,使得判别网络最终输出的判别值接近示教的判别值,获得训练后的生成网络;
S10,利用S9获得的训练后的生成网络更新重复S5中的生成网络,重复S5~S9若干次进行迭代处理,不断迭代优化判别网络和生成网络的网络参数,直至满足收敛条件结束。
4.根据权利要求3所述的一种基于深度逆向强化学习的机器人乱序工件抓取方法,其特征在于:具体实施中,对判别网络的输出建立两个判别值,取较高的判别值作为示教数据的判别值,取较低的判别值作为自主生成数据的判别值。
5.根据权利要求3所述的一种基于深度逆向强化学习的机器人乱序工件抓取方法,其特征在于:以满足收敛条件结束后获得的生成网络作为最终的深度逆向强化学习处理模块,将工件的三维点云信息导入到该生成网络后,输出生成准确的机器人运动路径。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910550243.5A CN110238855B (zh) | 2019-06-24 | 2019-06-24 | 一种基于深度逆向强化学习的机器人乱序工件抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910550243.5A CN110238855B (zh) | 2019-06-24 | 2019-06-24 | 一种基于深度逆向强化学习的机器人乱序工件抓取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110238855A true CN110238855A (zh) | 2019-09-17 |
CN110238855B CN110238855B (zh) | 2020-10-16 |
Family
ID=67889203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910550243.5A Active CN110238855B (zh) | 2019-06-24 | 2019-06-24 | 一种基于深度逆向强化学习的机器人乱序工件抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110238855B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909644A (zh) * | 2019-11-14 | 2020-03-24 | 南京理工大学 | 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统 |
CN110969660A (zh) * | 2019-12-17 | 2020-04-07 | 浙江大学 | 一种基于三维立体视觉和点云深度学习的机器人上料系统 |
CN112734759A (zh) * | 2021-03-30 | 2021-04-30 | 常州微亿智造科技有限公司 | 飞拍拍摄触发点的确定方法和装置 |
CN112802106A (zh) * | 2021-02-05 | 2021-05-14 | 梅卡曼德(北京)机器人科技有限公司 | 对象抓取方法及装置 |
CN112824061A (zh) * | 2019-11-20 | 2021-05-21 | 辉达公司 | 引导不确定性-意识策略优化:结合无模型和基于模型的策略用于有效采样学习 |
WO2022012265A1 (en) * | 2020-07-13 | 2022-01-20 | Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences | Robot learning from demonstration via meta-imitation learning |
CN114918918A (zh) * | 2022-05-26 | 2022-08-19 | 东南大学 | 一种含领域自适应的机器人乱序目标推抓方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106575382A (zh) * | 2014-08-07 | 2017-04-19 | 学校法人冲绳科学技术大学院大学学园 | 通过密度比率估计的逆向强化学习 |
CN107544516A (zh) * | 2017-10-11 | 2018-01-05 | 苏州大学 | 基于相对熵深度逆强化学习的自动驾驶系统及方法 |
US20180032868A1 (en) * | 2016-07-26 | 2018-02-01 | University Of Connecticut | Early prediction of an intention of a user's actions |
CN108202327A (zh) * | 2016-12-16 | 2018-06-26 | 发那科株式会社 | 机器学习装置、机器人系统以及机器学习方法 |
CN108714914A (zh) * | 2018-03-19 | 2018-10-30 | 山东超越数控电子股份有限公司 | 一种机械臂视觉系统 |
CN108942921A (zh) * | 2018-06-11 | 2018-12-07 | 江苏楚门机器人科技有限公司 | 一种基于深度学习物体识别的散乱抓取装置 |
-
2019
- 2019-06-24 CN CN201910550243.5A patent/CN110238855B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106575382A (zh) * | 2014-08-07 | 2017-04-19 | 学校法人冲绳科学技术大学院大学学园 | 通过密度比率估计的逆向强化学习 |
US20180032868A1 (en) * | 2016-07-26 | 2018-02-01 | University Of Connecticut | Early prediction of an intention of a user's actions |
CN108202327A (zh) * | 2016-12-16 | 2018-06-26 | 发那科株式会社 | 机器学习装置、机器人系统以及机器学习方法 |
CN107544516A (zh) * | 2017-10-11 | 2018-01-05 | 苏州大学 | 基于相对熵深度逆强化学习的自动驾驶系统及方法 |
CN108714914A (zh) * | 2018-03-19 | 2018-10-30 | 山东超越数控电子股份有限公司 | 一种机械臂视觉系统 |
CN108942921A (zh) * | 2018-06-11 | 2018-12-07 | 江苏楚门机器人科技有限公司 | 一种基于深度学习物体识别的散乱抓取装置 |
Non-Patent Citations (1)
Title |
---|
陈希亮: "深度逆向强化学习研究综述", 《计算机工程与应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909644A (zh) * | 2019-11-14 | 2020-03-24 | 南京理工大学 | 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统 |
CN112824061A (zh) * | 2019-11-20 | 2021-05-21 | 辉达公司 | 引导不确定性-意识策略优化:结合无模型和基于模型的策略用于有效采样学习 |
CN112824061B (zh) * | 2019-11-20 | 2024-09-03 | 辉达公司 | 引导不确定性-意识策略优化:结合无模型和基于模型的策略用于有效采样学习 |
CN110969660A (zh) * | 2019-12-17 | 2020-04-07 | 浙江大学 | 一种基于三维立体视觉和点云深度学习的机器人上料系统 |
CN110969660B (zh) * | 2019-12-17 | 2023-09-22 | 浙江大学 | 一种基于三维立体视觉和点云深度学习的机器人上料系统 |
WO2022012265A1 (en) * | 2020-07-13 | 2022-01-20 | Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences | Robot learning from demonstration via meta-imitation learning |
CN112802106A (zh) * | 2021-02-05 | 2021-05-14 | 梅卡曼德(北京)机器人科技有限公司 | 对象抓取方法及装置 |
CN112734759A (zh) * | 2021-03-30 | 2021-04-30 | 常州微亿智造科技有限公司 | 飞拍拍摄触发点的确定方法和装置 |
CN114918918A (zh) * | 2022-05-26 | 2022-08-19 | 东南大学 | 一种含领域自适应的机器人乱序目标推抓方法 |
CN114918918B (zh) * | 2022-05-26 | 2023-07-25 | 东南大学 | 一种含领域自适应的机器人乱序目标推抓方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110238855B (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110238855A (zh) | 一种基于深度逆向强化学习的机器人乱序工件抓取方法 | |
CN112297013B (zh) | 一种基于数字孪生和深度神经网络的机器人智能抓取方法 | |
CN112102405B (zh) | 基于深度强化学习的机器人搅动-抓取组合方法 | |
CN111046948B (zh) | 点云仿真和深度学习的工件位姿识别及机器人上料方法 | |
CN106737673B (zh) | 一种基于深度学习的端到端的机械臂控制的方法 | |
CN108196453A (zh) | 一种机械臂运动规划群体智能计算方法 | |
CN110298886B (zh) | 一种基于四级卷积神经网络的灵巧手抓取规划方法 | |
CN110428464B (zh) | 基于深度学习的多类别乱序工件机器人抓取位姿估计方法 | |
CN109483573A (zh) | 机器学习装置、机器人系统以及机器学习方法 | |
CN110125930A (zh) | 一种基于机器视觉和深度学习的机械臂抓取控制方法 | |
CN110969660B (zh) | 一种基于三维立体视觉和点云深度学习的机器人上料系统 | |
CN108247637A (zh) | 一种工业机器人手臂视觉防撞操控方法 | |
CN111602517A (zh) | 一种串型水果分布式视觉主动感知方法及其应用 | |
CN110202583A (zh) | 一种基于深度学习的仿人机械手控制系统及其控制方法 | |
CN105772407A (zh) | 一种基于图像识别技术的垃圾分类机器人 | |
CN113172629B (zh) | 一种基于时序触觉数据处理的物体抓取方法 | |
CN110400345A (zh) | 基于深度强化学习的放射性废物推抓协同分拣方法 | |
CN107414830B (zh) | 一种运载机器人手臂操控多层映射智能控制方法及系统 | |
CN111223141B (zh) | 基于强化学习的自动化流水线作业效率优化系统及方法 | |
CN111152227A (zh) | 一种基于引导式dqn控制的机械臂控制方法 | |
CN113664828A (zh) | 一种基于深度强化学习的机器人抓取-抛掷方法 | |
CN110216671A (zh) | 一种基于计算机仿真的机械抓手训练方法及系统 | |
CN113752255A (zh) | 一种基于深度强化学习的机械臂六自由度实时抓取方法 | |
CN116500901B (zh) | 数字孪生驱动的用户意图不明下人机协作任务规划方法 | |
CN116673963A (zh) | 面向无序断路器零件的双机械臂协作柔性装配系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |