CN111079561A - 一种基于虚拟训练的机器人智能抓取方法 - Google Patents
一种基于虚拟训练的机器人智能抓取方法 Download PDFInfo
- Publication number
- CN111079561A CN111079561A CN201911177239.5A CN201911177239A CN111079561A CN 111079561 A CN111079561 A CN 111079561A CN 201911177239 A CN201911177239 A CN 201911177239A CN 111079561 A CN111079561 A CN 111079561A
- Authority
- CN
- China
- Prior art keywords
- robot
- conv
- true
- depth
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 230000002787 reinforcement Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000007613 environmental effect Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 230000000007 visual effect Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000004888 barrier function Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000011217 control strategy Methods 0.000 description 5
- 230000004438 eyesight Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J15/00—Gripping heads and other end effectors
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/02—Sensing devices
- B25J19/021—Optical sensing devices
- B25J19/023—Optical sensing devices including video camera means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Manipulator (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于虚拟训练的机器人智能抓取方法。所述方法包括:搭建机器人虚拟操作平台并对其采用域随机化算法进行随机化,获取机器人的状态与所处的环境信息并经过预处理作为机器人操作的输入;搭建深度特征提取网络;基于搭建的深度特征提取网络,构建深度强化学习模型;对构建的深度强化学习模型进行训练,得到训练好的深度强化学习模型;将现实世界中的机器人关节角状态与环境信息输入训练好的深度强化学习模型,生成抓取控制的输出,统计并返回成功抓取次数与总次数的比值作为结果指标。本发明克服了传统方法手工制作与数据清洗的繁重问题,避免了特征提取和轨迹规划的人为处理,提高了机器人抓取的可伸缩性与泛化性能。
Description
技术领域
本发明属于机器人智能抓取与人工智能技术领域,特别涉及一种基于虚拟训练的机器人智能抓取方法。
背景技术
近年来,信息技术、智能硬件和自动化系统得到了迅猛发展,经过了国内外数十年的研究,机器人相关技术已经取得了一系列的重大进展,机器人正逐渐被广泛应用到工业、军事与生活服务的各个场景中。特别是随着以深度学习为主的人工智能的发展,对机器人产业的数字化与智能化发展提出了新的需求。其中抓取任务是机器人操作技能最常规与最重要的子集之一,为了使机器人获得更多的通用功能,抓握是一个必须掌握的技能。机器手臂视觉抓取在传统的机器人技术和控制理论的基础上,将计算机视觉理论、深度学习、人工智能等学科相结合,如何实现机器人的智能抓取,无论在理论研究还是在商业应用中,都具有重大的价值。
作为任务型机器人的必备技能,适应环境变化的能力起着极为重要的作用,被认为是通往通用人工智能的重要一步。抓取描述了机器人在不确定的环境中,其末端执行器如何安全地抓住一个物体并成功地举起它而不发生滑动,通用型机器人可以利用它们的感知能力来直观地识别给定对象的抓握点。目前的机器人视觉抓取方法主要分为传统的基于专家知识的手工特征方法,以及基于深度学习的深度特征提取方法。传统的视觉抓取需要人类的专业知识来分析形成特定任务的算法,但这是一种费时费力的方法,加之该类算法在表达环境多样性上的局限,基于手工特征的传统的视觉抓取往往优势不足。在鲁棒性和稳定性方面,基于深度神经网络的方法提取得到的特征表现出了更优秀的性能,对训练集中未曾出现的新物体具有更好泛化性和适应性。在过去的五年里,随着深度学习的发展,特别是深度卷积神经网络的出现,使得模型的表征能力大大提升,得益于此,机器人视觉、自然语言处理和自动驾驶应用程序取得了显著的进步,这些方法的成功促使机器人研究人员探索深度学习方法在机器人领域中的应用。
以往的机械臂视觉抓取算法,通过基于深度神经网络视觉实现对多目标物体的识别与定位。这种方法往往通过采集并构建大量的目标图像并标注制作成标准的训练集与验证集,然后使用前述的目标识别算法在训练集上进行离线训练,最后把训练生成的模型应用到具体任务上实现在线预测与识别。RCNN:Regions with Convolutional NeuralNetwork Features系列论文作为目标检测的经典开山之作是主流的融合深度神经网络的机器人视觉目标检测算法,然而由于存在训练步骤繁琐,特征提取区域冗杂等于原因,在运行速度上远不满足实时性的需求。而强化学习的出现,打破了原本监督学习与无监督学习的范式,成功建模了连续或离散环境输入与动作序列输出的关系。强化学习作为机器学习中的一个子领域,与机器人有着密切的联系,在机器人控制中已得到了广泛的研究与探索。其模型概述为,在某一特定任务场景下,智能体通过与环境进行交互,并根据环境的反馈,以极大化整体收益为目标对智能体的策略进行优化,最终达到完成指定任务的指标。近年来,借助于深度学习对图像等视觉感知任务的理解能力与强化学习强大的推理决策能力,两者的产物,深度强化学习实现了相关任务的端到端训练与学习,减少了不同阶段之间误差的级联传播,从而能够解决实际生活中越来越多的复杂问题。
然而之前的这类方法存在手工制作和图像清洗的繁重任务,难以覆盖足够的环境状态信息和把控数据集的分布规律,大大降低了该方法的实用性和泛化能力。由于具有可伸缩,快速且低成本的数据收集优势,在模拟环境中学习端到端的控制策略是一种有吸引力的替代方法。但是,如果无法将其成功迁移到现实世界中,那么这些模拟方法将无济于事。在现实世界中,通过学习类似于简单整理任务的长跨度多阶段任务来演示这一点,涉及到定位一个立方体,到达,抓紧并放置一个篮子以将立方体放入其中。在笛卡尔空间中通过逆运动学构造的路径,以构建可用于训练表示神经网络控制策略的数据集,该控制器连续接受环境状态下的图像输入并输出机器人关节角和运动速度。
现有技术文献如J.Schulman,F.Wolski,P.Dhariwal,A.Radford,andO.Klimov.Proximal policy optimizationalgorithms和A.A.Rusu,M.Vecerik,T.N.Heess,R.Pascanu,and R.Hadsell.Sim-to-real robotlearning from pixelswith progressive nets。该技术通过对给定数量的步骤和固定数量的域训练一个策略,在面对新环境时往往表现很差。本发明通过使用域随机化方法,在训练过程中逐步增加域的数量,通过大量的环境外观变化,使得模型可以推广到现实环境中,实现虚拟与现实的转移与过渡,使机器人能够从随机的源域学习控制策略,并可以直接泛化到未知的目标域进行抓取操作。
发明内容
本发明的目的是为了解决上述现有技术存在的缺陷,并提供一种结合域随机化算法和深度强化学习的机器人智能视觉抓取方法,提高环境状态输入视觉图像特征与机器人动作序列控制的契合度。通过使用域随机化方法,通过大量的外观变化,使得模型可以推广到现实环境中,实现虚拟与现实的转移与过渡。该方法具有可伸缩,快速且低成本的数据收集优势,能够调整不同环境外观的比重从而把握数据集的分布,在模拟环境中学习端到端的控制策略。通过不断的场景变化与抓取探索,机器人可以主动地根据与环境交互产生的视觉图像进行特征提取,并经过优化控制策略直接应用于机器人的抓取动作,完成了机器人抓取的闭环控制。
本发明的目的至少通过如下技术方案之一实现。
一种基于虚拟训练的机器人智能抓取方法,包括以下步骤:
S1、搭建机器人虚拟操作平台并对其采用域随机化算法进行随机化,获取机器人的状态与所处的环境信息并经过预处理作为机器人操作的输入,构建训练机器人抓取操作的输入数据;
S2、搭建基于全卷积神经网络(Fully Convolutional Networks)框架的深度特征提取网络主干,将输出的特征与机器人的关节角状态信息进行融合,得到深度特征提取网络;
S3、基于步骤S2搭建的深度特征提取网络,结合基于马尔可夫决策过程的Q学习算法构建深度强化学习模型;
S4、对步骤S3中构建的深度强化学习模型进行训练,得到训练好的深度强化学习模型;
S5、将现实世界中的机器人关节角状态与环境信息输入步骤S4中训练好的深度强化学习模型,生成抓取控制的输出,统计并返回成功抓取次数与总次数的比值作为结果指标。
进一步地,所述步骤S1具体包括以下步骤:
S1.1、搭建机器人虚拟操作平台并对其采用域随机化算法进行随机化,其目的是为了在训练时提供足够的模拟场景样本空间可变性,以便在测试时该模型能够推广到真实世界的数据中;
S1.2、将步骤S1.1中随机化采样的平均值设置为接近真实世界的估计值;在时刻t通过相机获取操作台上的图像数据,对图像数据进行筛选,去除其中不包括操作台在内的图片,并记录机器人的关节角信息,得到数据Dt={xt,qt},其中,xt表示时刻t的获取的4通道图像融合数据,包括一个三通道的RGB彩色图与单通道的高度图像,qt={qt1,qt2,qt3,…,qtm}为当前时刻t机器人的关节角度信息,范围在(-π,π)之间并且受到特定机器人活动范围的限制,m表示关节数量,qtm是表示t时刻第m个关节的角度;
S1.3、对步骤S1.2所述图像融合数据进行预处理,将数据集中的图像大小重置为H×W像素,并进行去均值以及像素值归一化操作;在深度图像预处理方面,为了避免当前区域背景中的其他非相关物体形成对深度信息的干扰,在每次预处理中,将当前场景的深度信息减去背景图像的深度信息,并结合物体的几何尺寸特征,将深度信息中的极端深度数据归零,以除去深度信息中由于深度相机误差导致的极端噪声值,所述极端深度数据指深度数值小于参考平面即操作台和大于操作对象尺寸2.5倍处深度信息的数据;由于采用的深度相机所获取的深度信息存在稀疏的异常值,利用异常值的稀疏性,采用中值滤波对深度信息进行平滑处理,完成训练机器人抓取操作的输入数据的构建。
进一步地,步骤S1.1中,在训练过程中使用的域随机化包括以下方面:
(1)、操作台即桌子上放置的物体的数量和形状;
(2)、操作台上物体放置的位置与物体的纹理特征;
(3)、操作台、机器人、灯光、相机以及周围屏障如地板的纹理;
(4)、相机的位置、方向与视野;
(5)、场景中灯光的位置、方向与灯光色调;
(6)、添加到图像场景中的随机噪声的数量和类型;
域随机化采样服从正太分布或均值分布。
进一步地,步骤S1.2中,所述通过相机获取操作台上的图像数据包括对操作台即桌子上放置的物体的数量和形状、操作台上物体放置的位置与物体的纹理特征、操作台、机器人、灯光、相机以及周围屏障如地板的纹理采用标准正态分布进行抽样,对相机的位置、方向与视野、场景中灯光的位置、方向采用均匀分布进行抽样,对添加到场景中的随机噪声采用高斯白噪声。
进一步地,步骤S2中,所述基于全卷积神经网络(Fully ConvolutionalNetworks)框架的深度特征提取网络主干如下:
Input(H*W)->Conv_Block1->Conv_Block2->Conv_Block3->Conv_Block4->
Conv_Block5->Conv_Block6->Conv_Block7;
其中,Input(H*W)表示高为H,宽为W像素的输入图像,H和W的取值范围为112~672,其中Conv_Block1~Conv_Block7分别为一系列搭建深度特征提取网络主干的卷积操作的集合,即卷积块,具体如下:
Conv_Block1:Conv2d(4,64,3,padding=1)->ReLU(inplace=True)->Conv2d(64,64,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block2:Conv2d(64,128,3,padding=1)->ReLU(inplace=True)->Conv2d(128,128,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block3:Conv2d(128,256,3,padding=1)->ReLU(inplace=True)->Conv2d(256,256,3,padding=1)->ReLU(inplace=True)->Conv2d(256,256,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block4:Conv2d(256,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block5:Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block6:Conv2d(512,4096,3)->ReLU(inplace=True)->Dropout2d();
Conv_Block7:Conv2d(4096,256,1)->ReLU(inplace=True)->Dropout2d();
其中,Conv2d(in_channels,out_channels,kernel_size,padding)表示输入通道数为in_channels,输出通道数为out_channels,卷积核大小为kernel_size,边缘填充值为padding的二维卷积操作;ReLU(inplace=True)表示允许原地置换操作的激活函数;MaxPool2d(kernel_size,stride,ceil_mode=True)表示池化窗口大小为kernel_size,步长大小为stride,采取上取整模式ceil_mode的二维极大值池化操作;Dropout2d(p)表示概率为1-p使得权重参数为0的dropout层操作p是属于0~1之间的任意实数;符号->表示上述各个操作之间的前后顺序关系;
所述深度特征提取网络主干的各层输入输出信息描述如下:
由于Conv_Block1~Conv_Block5中存在步长大小为2的最大值池化操作,因此每次输入特征图大小为输出的尺寸的1/2,所以卷积块Conv_Block5输出的特征图大小为输入图像尺寸的1/32,即512个7*7图像块;卷积块Conv_Block5输出的特征图进入卷积块Conv_Block6后的输出为4096个5*5的图像块,进一步经过卷积块Conv_Block7后的输出为256个5*5的图像块;由于输入的图像融合数据的通道数为4,因此Conv_Block1中第一个二维卷积操作输入通道in_channels为4。
进一步地,步骤S2中,所述深度特征提取网络是将深度特征提取网络主干的输出展开之后与机器人的状态信息相融合;深度特征提取网络主干表示为Convs(inputt;θt),其输出记为It∈Rb*c*h*w,即It=Convs(inputt;θt);其中,inputt代表时刻t的输入图像,θt代表深度特征提取网络的可训练参数,Rb*c*h*w代表深度特征提取网络的输出It属于的空间维度,进一步的,b表示机器人抓取过程的分阶段数,c表示卷积神经网络输出的特征图的通道数,h和w分别是输出的特征图的高和宽;构造深度特征提取网络包括如下步骤:
S2.1、ft=Flatten(It),表示将得到的二维特征图输出It展开为一维特征向量ft∈R1*A,其中A=c*h*w;
S2.2、ct=Concat(ft,qt),表示拼接融合特征向量ft与机器人当前状态向量qt,得到ct=R1*(A+m);
S2.3、ht=LSTM(ct,ht-1|θt),表示将一维特征向量ct输入长短时记忆网络,其中,在任意一个训练阶段的起始,记忆网络的初始状态都为标准正态分布。
进一步地,步骤S3具体包括以下步骤:
S3.1、将步骤S2.3所述递归长短时记忆网络的输出记为Oτ,通过归一化指数函数Softmax()和前连接线性变换将输出Oτ映射成为机械臂对不同动作的选择概率pt和对应动作下机器人的状态表示st,即
st=Fully_Linear(Oτ);
其中,i=1,…,τ,τ为对机械臂输出动作预测的数量,完成对输入视觉信息与机器人状态信息的编码;
S3.2、对步骤S3.1中得到的机器人的状态表示st,结合基于马尔可夫过程的Q学习算法,将其建模为在时间t下,全卷积网络对RGB彩色图像和深度图像的特征提取以及长短时记忆网络对机器人关节角状态与图像特征的序列模型,最后通过全连接编码形成智能体的状态表示,其中彩色图像与深度图像经过步骤S1.3所述的预处理;
S3.3、采用Smooth L1损失函数作为模型整体的目标损失函数,目标损失函数的公式如下:
其中ρ为正的实常数,是一个可以调整的阈值,至此完成深度强化学习模型的构建。
进一步地,步骤S3.2,结合介于马尔可夫过程的Q学习算法将机器人的状态表示st建模为在时间t下,全卷积网络对RGB彩色图像和深度图像的特征提取以及长短时记忆网络对机器人关节角状态与图像特征的序列模型,包括如下步骤:
定义累计收益的期望如下:
E(s)=E[Gt|St=s];
进一步得:
E(s)=E[Gt|St=s]
=E[Rt+1+γRt+2+…+γkRt+k+1+…|St=s]
=E[Rt+1+γ(Rt+2+…+γk-1Rt+k+1+…)|St=s]
=E[Rt+1+γGt+1|St=s];
其中,k表示对累计收益的求和序号,s代指当前的状态;
上述公式为贝尔曼方程,表示了当前状态的价值的期望与当前的反馈和下一时刻状态的关系;
S3.2.2、使用离线的Q学习方法训练一个贪婪的决策策略πt,该策略通过最大化动作-价值函数即Q函数选择相应的动作at;通过迭代计算来降低Q函数Q(st,at)和gt之间的误差:
et=|Q(st,at)|-gt;
其中gt为Q函数Q(st,at)的目标值:
进一步地,步骤S4具体如下:
对所述深度强化学习模型采用随机梯度下降进行权重更新,设定初始学习率为lr0,学习率变化的底数为μ,学习率变化的间隔数为stepsize,最大训练迭代次数为itermax,学习速率的更新方式为梯度递减,利用以下公式进行更新:
lr=lr0*μ(iter-stepsize);
其中lr表示当前学习率,iter表示当前迭代步数;所述权重更新如下:
其中θ和L分别为深度强化学习模型的所有可训练参数和步骤S3.4中的目标损失函数,←运算符表示参数的权值更新操作,当迭代步数iter=itermax时,终止迭代,完成深度强化学习模型的训练过程。
进一步地,步骤S5包括以下步骤:
S5.1、将现实世界中的机器人与操作台、相机、操作对象按与步骤S1中搭建的机器人虚拟操作平台相似的相对关系摆放;
S5.2、在真实场景下对步骤S4中的训练好的深度强化学习模型进行测试,评估该模型对操作对象的视觉定位与抓取效果;
S5.3、分别统计并返回成功抓取次数n1与总次数n2的比值Ratio=n1/n2作为结果指标。
与现有技术相比,本发明具有以下优势:
(1)本发明克服了传统方法手工制作与数据清洗的繁重问题。
(2)本发明避免了特征提取和运动轨迹规划的人为处理。
(3)本发明提高了机器人抓取的可伸缩性与泛化性能。
附图说明
图1为本发明一种基于虚拟训练的机器人智能抓取方法的流程图;
图2为本发明实施例中深度学习特征提取网络结构图。
具体实施方式
下面结合实例和附图对本发明的具体实施做进一步的说明,但本发明的实施方式不限于此。
一种基于虚拟训练的机器人智能抓取方法,如图1所示,包括以下步骤:
S1、搭建机器人虚拟操作平台并对其采用域随机化算法进行随机化,获取机器人的状态与所处的环境信息并经过预处理作为机器人操作的输入,构建训练机器人抓取操作的输入数据;包括以下步骤:
S1.1、搭建机器人虚拟操作平台并对其采用域随机化算法进行随机化,其目的是为了在训练时提供足够的模拟场景样本空间可变性,以便在测试时该模型能够推广到真实世界的数据中;在训练过程中使用的域随机化包括以下方面:
(1)、操作台即桌子上放置的物体的数量和形状;
(2)、操作台上物体放置的位置与物体的纹理特征;
(3)、操作台、机器人、灯光、相机以及周围屏障如地板的纹理;
(4)、相机的位置、方向与视野;
(5)、场景中灯光的位置、方向与灯光色调;
(6)、添加到图像场景中的随机噪声的数量和类型;
域随机化采样服从正太分布或均值分布。
S1.2、将步骤S1.1中随机化采样的平均值设置为接近真实世界的估计值;在时刻t通过相机获取操作台上的图像数据,对图像数据进行筛选,去除其中不包括操作台在内的图片,并记录机器人的关节角信息,得到数据Dt={xt,qt},其中,xt表示时刻t的获取的4通道图像融合数据,包括一个三通道的RGB彩色图与单通道的高度图像,qt={qt1,qt2,qt3,…,qtm}为当前时刻t机器人的关节角度信息,范围在(-π,π)之间并且受到特定机器人活动范围的限制,m表示关节数量,qtm是表示t时刻第m个关节的角度;
所述通过相机获取操作台上的图像数据包括对操作台即桌子上放置的物体的数量和形状、操作台上物体放置的位置与物体的纹理特征、操作台、机器人、灯光、相机以及周围屏障如地板的纹理采用标准正态分布进行抽样,对相机的位置、方向与视野、场景中灯光的位置、方向采用均匀分布进行抽样,对添加到场景中的随机噪声采用高斯白噪声。
S1.3、对步骤S1.2所述图像融合数据进行预处理,将数据集中的图像大小重置为H×W像素,并进行去均值以及像素值归一化操作;在深度图像预处理方面,为了避免当前区域背景中的其他非相关物体形成对深度信息的干扰,在每次预处理中,将当前场景的深度信息减去背景图像的深度信息,并结合物体的几何尺寸特征,将深度信息中的极端深度数据归零,以除去深度信息中由于深度相机误差导致的极端噪声值,所述极端深度数据指深度数值小于参考平面即操作台和大于操作对象尺寸2.5倍处深度信息的数据;由于采用的深度相机所获取的深度信息存在稀疏的异常值,利用异常值的稀疏性,采用中值滤波对深度信息进行平滑处理,完成训练机器人抓取操作的输入数据的构建。
S2、搭建基于全卷积神经网络(Fully Convolutional Networks)框架的深度特征提取网络主干,将输出的特征与机器人的关节角状态信息进行融合,得到深度特征提取网络;
如图2所示,所述基于全卷积神经网络(Fully Convolutional Networks)框架的深度特征提取网络主干如下:
Input(H*W)->Conv_Block1->Conv_Block2->Conv_Block3->Conv_Block4->Conv_Block5->Conv_Block6->Conv_Block7;
其中,Input(H*W)表示高为H,宽为W像素的输入图像,H和W的取值范围为112~672,本实施例中,H=W=224,其中Conv_Block1~Conv_Block7分别为一系列搭建深度特征提取网络主干的卷积操作的集合,即卷积块,具体如下:
Conv_Block1:Conv2d(4,64,3,padding=1)->ReLU(inplace=True)->Conv2d(64,64,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block2:Conv2d(64,128,3,padding=1)->ReLU(inplace=True)->Conv2d(128,128,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block3:Conv2d(128,256,3,padding=1)->ReLU(inplace=True)->Conv2d(256,256,3,padding=1)->ReLU(inplace=True)->Conv2d(256,256,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block4:Conv2d(256,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block5:Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block6:Conv2d(512,4096,3)->ReLU(inplace=True)->Dropout2d();
Conv_Block7:Conv2d(4096,256,1)->ReLU(inplace=True)->Dropout2d();
其中,Conv2d(in_channels,out_channels,kernel_size,padding)表示输入通道数为in_channels,输出通道数为out_channels,卷积核大小为kernel_size,边缘填充值为padding的二维卷积操作;ReLU(inplace=True)表示允许原地置换操作的激活函数;MaxPool2d(kernel_size,stride,ceil_mode=True)表示池化窗口大小为kernel_size,步长大小为stride,采取上取整模式ceil_mode的二维极大值池化操作;Dropout2d(p)表示概率为1-p使得权重参数为0的dropout层操作,本实施例中,默认为p=0.5;符号->表示上述各个操作之间的前后顺序关系;
所述深度特征提取网络主干的各层输入输出信息描述如下:
由于Conv_Block1~Conv_Block5中存在步长大小为2的最大值池化操作,因此每次输入特征图大小为输出的尺寸的1/2,所以卷积块Conv_Block5输出的特征图大小为输入图像尺寸的1/32,即512个7*7图像块;卷积块Conv_Block5输出的特征图进入卷积块Conv_Block6后的输出为4096个5*5的图像块,进一步经过卷积块Conv_Block7后的输出为256个5*5的图像块;由于输入的图像融合数据的通道数为4,因此Conv_Block1中第一个二维卷积操作输入通道in_channels为4。
所述深度特征提取网络是将深度特征提取网络主干的输出展开之后与机器人的状态信息相融合;深度特征提取网络主干表示为Convs(inputt;θt),其输出记为It∈Rb *c*h*w,即It=Convs(inputt;θt);其中,inputt代表时刻t的输入图像,θt代表深度特征提取网络的可训练参数,Rb*c*h*w代表深度特征提取网络的输出It属于的空间维度,进一步的,b表示机器人抓取过程的分阶段数,c表示卷积神经网络输出的特征图的通道数,h和w分别是输出的特征图的高和宽;构造深度特征提取网络包括如下步骤:
S2.1、ft=Flatten(It),表示将得到的二维特征图输出It展开为一维特征向量ft∈R1*A,其中A=c*h*w;
S2.2、ct=Concat(ft,qt),表示拼接融合特征向量ft与机器人当前状态向量qt,得到ct=R1*(A+m);
S2.3、ht=LSTM(ct,ht-1|θt),表示将一维特征向量ct输入长短时记忆网络,所述长短时记忆网络出自Sepp:Hochreiter的《LONG SHORT-TERM MEMORY》,其中,在任意一个训练阶段的起始,记忆网络的初始状态都为标准正态分布。
S3、基于步骤S2搭建的深度特征提取网络,结合基于马尔可夫决策过程的Q学习算法构建深度强化学习模型;如图2所示,具体包括以下步骤:
S3.1、将步骤S2.3所述递归长短时记忆网络的输出记为Oτ,通过归一化指数函数Softmax()和前连接线性变换将输出Oτ映射成为机械臂对不同动作的选择概率pt和对应动作下机器人的状态表示st,即
st=Fully_Linear(Oτ);
其中,i=1,…,τ,τ为对机械臂输出动作预测的数量,到此为止,通过卷积神经网络与长短时记忆网络完成了对输入视觉信息与机器人状态信息的编码;
S3.2、对步骤S3.1中得到的机器人的状态表示st,结合基于马尔可夫过程的Q学习算法,将其建模为在时间t下,全卷积网络对RGB彩色图像和深度图像的特征提取以及长短时记忆网络对机器人关节角状态与图像特征的序列模型,最后通过全连接编码形成智能体的状态表示,其中彩色图像与深度图像经过步骤S1.3所述的预处理;
结合介于马尔可夫过程的Q学习算法将机器人的状态表示st建模为在时间t下,全卷积网络对RGB彩色图像和深度图像的特征提取以及长短时记忆网络对机器人关节角状态与图像特征的序列模型,包括如下步骤:
定义累计收益的期望如下:
E(s)=E[Gt|St=s];
进一步得:
E(s)=E[Gt|St=s]
=E[Rt+1+γRt+2+…+γkRt+k+1+…|St=s]
=E[Rt+1+γ(Rt+2+…+γk-1Rt+k+1+…)|St=s]
=E[Rt+1+γGt+1|St=s];
其中,k表示对累计收益的求和序号,s代指当前的状态;
上述公式为贝尔曼方程,表示了当前状态的价值的期望与当前的反馈和下一时刻状态的关系;
S3.2.2、使用离线的Q学习方法训练一个贪婪的决策策略πt,该策略通过最大化动作-价值函数即Q函数选择相应的动作at;通过迭代计算来降低Q函数Q(st,at)和gt之间的误差:
et=|Q(st,at)|-gt;
其中gt为Q函数Q(st,at)的目标值:
S3.3、采用Smooth L1损失函数作为模型整体的目标损失函数,目标损失函数的公式如下:
其中ρ为正的实常数,是一个可以调整的阈值,至此完成深度强化学习模型的构建。
S4、对步骤S3中构建的深度强化学习模型进行训练,得到训练好的深度强化学习模型;具体如下:
对所述深度强化学习模型采用随机梯度下降进行权重更新,设定初始学习率为lr0,学习率变化的底数为μ,学习率变化的间隔数为stepsize,最大训练迭代次数为itermax,学习速率的更新方式为梯度递减,利用以下公式进行更新:
lr=lr0*μ(iter-stepsize);
其中lr表示当前学习率,iter表示当前迭代步数;所述权重更新如下:
其中θ和L分别为深度强化学习模型的所有可训练参数和步骤S3.4中的目标损失函数,←运算符表示参数的权值更新操作,当迭代步数iter=itermax时,终止迭代,完成深度强化学习模型的训练过程。
S5、将现实世界中的机器人关节角状态与环境信息输入步骤S4中训练好的深度强化学习模型,生成抓取控制的输出,统计并返回成功抓取次数与总次数的比值作为结果指标;包括以下步骤:
S5.1、将现实世界中的机器人与操作台、相机、操作对象按与步骤S1中搭建的机器人虚拟操作平台相似的相对关系摆放;
S5.2、在真实场景下对步骤S4中的训练好的深度强化学习模型进行测试,评估该模型对操作对象的视觉定位与抓取效果;
S5.3、分别统计并返回成功抓取次数n1与总次数n2的比值Ratio=n1/n2作为结果指标。
本发明的实施方式并不受上述实施例的限制,其他任何未背离发明精神实质与原理下所做的改变,修饰,替代,组合,简化均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于虚拟训练的机器人智能抓取方法,其特征在于,包括以下步骤:
S1、搭建机器人虚拟操作平台并对其采用域随机化算法进行随机化,获取机器人的状态与所处的环境信息并经过预处理作为机器人操作的输入,构建训练机器人抓取操作的输入数据;
S2、搭建基于全卷积神经网络(Fully Convolutional Networks)框架的深度特征提取网络主干,将输出的特征与机器人的关节角状态信息进行融合,得到深度特征提取网络;
S3、基于步骤S2搭建的深度特征提取网络,结合基于马尔可夫决策过程的Q学习算法构建深度强化学习模型;
S4、对步骤S3中构建的深度强化学习模型进行训练,得到训练好的深度强化学习模型;
S5、将现实世界中的机器人关节角状态与环境信息输入步骤S4中训练好的深度强化学习模型,生成抓取控制的输出,统计并返回成功抓取次数与总次数的比值作为结果指标。
2.根据权利要求1所述的一种基于虚拟训练的机器人智能抓取方法,其特征在于,所述步骤S1具体包括以下步骤:
S1.1、搭建机器人虚拟操作平台并对其采用域随机化算法进行随机化;
S1.2、将步骤S1.1中随机化采样的平均值设置为接近真实世界的估计值;在时刻t通过相机获取操作台上的图像数据,对图像数据进行筛选,去除其中不包括操作台在内的图片,并记录机器人的关节角信息,得到数据Dt={xt,qt},其中,xt表示时刻t的获取的4通道图像融合数据,包括一个三通道的RGB彩色图与单通道的高度图像,qt={qt1,qt2,qt3,…,qtm}为当前时刻t机器人的关节角度信息,范围在(-π,π)之间并且受到特定机器人活动范围的限制,m表示关节数量,qtm是表示t时刻第m个关节的角度;
S1.3、对步骤S1.2所述图像融合数据进行预处理,将数据集中的图像大小重置为H×W像素,并进行去均值以及像素值归一化操作;在深度图像预处理方面,为了避免当前区域背景中的其他非相关物体形成对深度信息的干扰,在每次预处理中,将当前场景的深度信息减去背景图像的深度信息,并结合物体的几何尺寸特征,将深度信息中的极端深度数据归零,以除去深度信息中由于深度相机误差导致的极端噪声值,所述极端深度数据指深度数值小于参考平面即操作台和大于操作对象尺寸2.5倍处深度信息的数据;由于采用的深度相机所获取的深度信息存在稀疏的异常值,利用异常值的稀疏性,采用中值滤波对深度信息进行平滑处理,完成训练机器人抓取操作的输入数据的构建。
3.根据权利要求2所述的一种基于虚拟训练的机器人智能抓取方法,其特征在于,步骤S1.1中,域随机化包括以下方面:
(1)、操作台即桌子上放置的物体的数量和形状;
(2)、操作台上物体放置的位置与物体的纹理特征;
(3)、操作台、机器人、灯光、相机以及周围屏障如地板的纹理;
(4)、相机的位置、方向与视野;
(5)、场景中灯光的位置、方向与灯光色调;
(6)、添加到图像场景中的随机噪声的数量和类型;
域随机化采样服从正太分布或均值分布。
4.根据权利要求2所述的一种基于虚拟训练的机器人智能抓取方法,其特征在于,步骤S1.2中,所述通过相机获取操作台上的图像数据包括对操作台即桌子上放置的物体的数量和形状、操作台上物体放置的位置与物体的纹理特征、操作台、机器人、灯光、相机以及周围屏障如地板的纹理采用标准正态分布进行抽样,对相机的位置、方向与视野、场景中灯光的位置、方向采用均匀分布进行抽样,对添加到场景中的随机噪声采用高斯白噪声。
5.根据权利要求1所述的一种基于虚拟训练的机器人智能抓取方法,其特征在于,步骤S2中,所述基于全卷积神经网络(Fully Convolutional Networks)框架的深度特征提取网络主干如下:
Input(H*W)->Conv_Block1->Conv_Block2->Conv_Block3->Conv_Block4->Conv_Block5->Conv_Block6->Conv_Block7;
其中,Input(H*W)表示高为H,宽为W像素的输入图像,H和W的取值范围为112~672,其中Conv_Block1~Conv_Block7分别为一系列搭建深度特征提取网络主干的卷积操作的集合,即卷积块,具体如下:
Conv_Block1:Conv2d(4,64,3,padding=1)->ReLU(inplace=True)->Conv2d(64,64,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block2:Conv2d(64,128,3,padding=1)->ReLU(inplace=True)->Conv2d(128,128,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block3:Conv2d(128,256,3,padding=1)->ReLU(inplace=True)->Conv2d(256,256,3,padding=1)->ReLU(inplace=True)->Conv2d(256,256,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block4:Conv2d(256,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block5:Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->Conv2d(512,512,3,padding=1)->ReLU(inplace=True)->MaxPool2d(2,stride=2,ceil_mode=True);
Conv_Block6:Conv2d(512,4096,3)->ReLU(inplace=True)->Dropout2d();
Conv_Block7:Conv2d(4096,256,1)->ReLU(inplace=True)->Dropout2d();
其中,Conv2d(in_channels,out_channels,kernel_size,padding)表示输入通道数为in_channels,输出通道数为out_channels,卷积核大小为kernel_size,边缘填充值为padding的二维卷积操作;ReLU(inplace=True)表示允许原地置换操作的激活函数;MaxPool2d(kernel_size,stride,ceil_mode=True)表示池化窗口大小为kernel_size,步长大小为stride,采取上取整模式ceil_mode的二维极大值池化操作;Dropout2d(p)表示概率为1-p使得权重参数为0的dropout层操作p是属于0~1之间的任意实数;符号->表示上述各个操作之间的前后顺序关系;
所述深度特征提取网络主干的各层输入输出信息描述如下:
由于Conv_Block1~Conv_Block5中存在步长大小为2的最大值池化操作,因此每次输入特征图大小为输出的尺寸的1/2,所以卷积块Conv_Block5输出的特征图大小为输入图像尺寸的1/32,即512个7*7图像块;卷积块Conv_Block5输出的特征图进入卷积块Conv_Block6后的输出为4096个5*5的图像块,进一步经过卷积块Conv_Block7后的输出为256个5*5的图像块;由于输入的图像融合数据的通道数为4,因此Conv_Block1中第一个二维卷积操作输入通道in_channels为4。
6.根据权利要求1所述的一种基于虚拟训练的机器人智能抓取方法,其特征在于,步骤S2中,所述深度特征提取网络是将深度特征提取网络主干的输出展开之后与机器人的状态信息相融合;深度特征提取网络主干表示为Convs(inputt;θt),其输出记为It∈Rb*c*h*w,即It=Convs(inputt;θt);其中,inputt代表时刻t的输入图像,θt代表深度特征提取网络的可训练参数,Rb*c*h*w代表深度特征提取网络的输出It属于的空间维度,进一步的,b表示机器人抓取过程的分阶段数,c表示卷积神经网络输出的特征图的通道数,h和w分别是输出的特征图的高和宽;构造深度特征提取网络包括如下步骤:
S2.1、ft=Flatten(It),表示将得到的二维特征图输出It展开为一维特征向量ft∈R1*A,其中A=c*h*w;
S2.2、ct=Concat(ft,qt),表示拼接融合特征向量ft与机器人当前状态向量qt,得到ct=R1*(A+m);
S2.3、ht=LSTM(cy,ht-1|θt),表示将一维特征向量ct输入长短时记忆网络,其中,在任意一个训练阶段的起始,记忆网络的初始状态都为标准正态分布。
7.根据权利要求1所述的一种基于虚拟训练的机器人智能抓取方法,其特征在于,步骤S3具体包括以下步骤:
S3.1、将步骤S2.3所述递归长短时记忆网络的输出记为Oτ,通过归一化指数函数Softmax()和前连接线性变换将输出Oτ映射成为机械臂对不同动作的选择概率pt和对应动作下机器人的状态表示st,即
st=Fully_Linear(Oτ);
其中,i=1,…,τ,τ为对机械臂输出动作预测的数量,完成对输入视觉信息与机器人状态信息的编码;
S3.2、对步骤S3.1中得到的机器人的状态表示st,结合基于马尔可夫过程的Q学习算法,将其建模为在时间t下,全卷积网络对RGB彩色图像和深度图像的特征提取以及长短时记忆网络对机器人关节角状态与图像特征的序列模型,最后通过全连接编码形成智能体的状态表示,其中彩色图像与深度图像经过步骤S1.3所述的预处理;
S3.3、采用Smooth L1损失函数作为模型整体的目标损失函数,目标损失函数的公式如下:
其中ρ为正的实常数,是一个可以调整的阈值,至此完成深度强化学习模型的构建。
8.根据权利要求7所述的一种基于虚拟训练的机器人智能抓取方法,其特征在于,步骤S3.2,结合介于马尔可夫过程的Q学习算法将机器人的状态表示st建模为在时间t下,全卷积网络对RGB彩色图像和深度图像的特征提取以及长短时记忆网络对机器人关节角状态与图像特征的序列模型,包括如下步骤:
定义累计收益的期望如下:
E(s)=E[Gt|St=s];
进一步得:
E(s)=E[Gt|St=s]
=E[Rt+1+γRt+2+…+γkRt+k+1+…|St=s]
=E[Rt+1+γ(Rt+2+…+γk-1Rt+k+1+…)|St=s]
=E[Rt+1+γGt+1|St=s];
其中,k表示对累计收益的求和序号,s代指当前的状态;
上述公式为贝尔曼方程,表示了当前状态的价值的期望与当前的反馈和下一时刻状态的关系;
S3.2.2、使用离线的Q学习方法训练一个贪婪的决策策略πt,该策略通过最大化动作-价值函数即Q函数选择相应的动作at;通过迭代计算来降低Q函数Q(st,at)和gt之间的误差:
et=|Q(st,at)|-gt;
其中gt为Q函数Q(st,at)的目标值:
9.根据权利要求1所述的一种基于虚拟训练的机器人智能抓取方法,其特征在于,步骤S4具体如下:
对所述深度强化学习模型采用随机梯度下降进行权重更新,设定初始学习率为lr0,学习率变化的底数为μ,学习率变化的间隔数为stepsize,最大训练迭代次数为itermax,学习速率的更新方式为梯度递减,利用以下公式进行更新:
lr=lr0*μ(iter-stepsize);
其中lr表示当前学习率,iter表示当前迭代步数;所述权重更新如下:
其中θ和L分别为深度强化学习模型的所有可训练参数和步骤S3.4中的目标损失函数,←运算符表示参数的权值更新操作,当迭代步数iter=itermax时,终止迭代,完成深度强化学习模型的训练过程。
10.根据权利要求1所述的一种基于虚拟训练的机器人智能抓取方法,其特征在于,步骤S5包括以下步骤:
S5.1、将现实世界中的机器人与操作台、相机、操作对象按与步骤S1中搭建的机器人虚拟操作平台相似的相对关系摆放;
S5.2、在真实场景下对步骤S4中的训练好的深度强化学习模型进行测试,评估该模型对操作对象的视觉定位与抓取效果;
S5.3、分别统计并返回成功抓取次数n1与总次数n2的比值Ratio=n1/n2作为结果指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177239.5A CN111079561B (zh) | 2019-11-26 | 2019-11-26 | 一种基于虚拟训练的机器人智能抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177239.5A CN111079561B (zh) | 2019-11-26 | 2019-11-26 | 一种基于虚拟训练的机器人智能抓取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079561A true CN111079561A (zh) | 2020-04-28 |
CN111079561B CN111079561B (zh) | 2023-05-26 |
Family
ID=70311788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911177239.5A Active CN111079561B (zh) | 2019-11-26 | 2019-11-26 | 一种基于虚拟训练的机器人智能抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079561B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111844034A (zh) * | 2020-07-17 | 2020-10-30 | 北京控制工程研究所 | 基于深度强化学习的端到端在轨自主加注控制系统及方法 |
CN111898671A (zh) * | 2020-07-27 | 2020-11-06 | 中国船舶工业综合技术经济研究院 | 激光成像仪和彩色相机编码融合目标识别方法及系统 |
CN111890336A (zh) * | 2020-06-15 | 2020-11-06 | 成都飞机工业(集团)有限责任公司 | 一种机器人多目标点示教方法、系统 |
CN111966740A (zh) * | 2020-08-24 | 2020-11-20 | 安徽思环科技有限公司 | 一种基于深度学习的水质荧光数据特征提取方法 |
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
CN112613478A (zh) * | 2021-01-04 | 2021-04-06 | 大连理工大学 | 一种面向机器人抓取的数据主动式选择方法 |
CN112605983A (zh) * | 2020-12-01 | 2021-04-06 | 浙江工业大学 | 一种适用于密集环境下的机械臂推抓系统 |
CN112631131A (zh) * | 2020-12-19 | 2021-04-09 | 北京化工大学 | 一种四足机器人运动控制自生成和实物迁移方法 |
CN112643668A (zh) * | 2020-12-01 | 2021-04-13 | 浙江工业大学 | 一种适用于密集环境下的机械臂推抓协同方法 |
CN113128411A (zh) * | 2021-04-22 | 2021-07-16 | 深圳市格灵精睿视觉有限公司 | 跨域抓取识别方法、装置、电子设备及存储介质 |
CN113341706A (zh) * | 2021-05-06 | 2021-09-03 | 东华大学 | 基于深度强化学习的人机协作流水线系统 |
CN113771081A (zh) * | 2021-07-06 | 2021-12-10 | 清华大学 | 一种基于物理的虚拟人手自动抓取方法及装置 |
CN113807230A (zh) * | 2021-09-14 | 2021-12-17 | 中国人民解放军国防科技大学 | 基于主动强化学习的装备目标识别方法及人机智能体 |
CN113829358A (zh) * | 2021-11-01 | 2021-12-24 | 江苏昱博自动化设备有限公司 | 一种基于深度强化学习的机器人抓取多目标物的训练方法 |
CN114012722A (zh) * | 2021-11-01 | 2022-02-08 | 苏州科德软体电路板有限公司 | 一种基于深度学习和边缘检测的机械臂抓取目标方法 |
CN114131603A (zh) * | 2021-12-02 | 2022-03-04 | 复旦大学 | 基于感知增强和场景迁移的深度强化学习机器人抓取方法 |
TWI757999B (zh) * | 2020-12-04 | 2022-03-11 | 國立陽明交通大學 | 即時避障系統、即時避障方法及具有即時避障功能的無人載具 |
CN114454160A (zh) * | 2021-12-31 | 2022-05-10 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
CN114474060A (zh) * | 2022-02-16 | 2022-05-13 | 华南理工大学 | 一种工业机器人的控制方法、装置和存储介质 |
CN114800530A (zh) * | 2022-06-09 | 2022-07-29 | 中国科学技术大学 | 基于视觉的机器人的控制方法、设备及存储介质 |
CN115070753A (zh) * | 2022-04-28 | 2022-09-20 | 同济大学 | 一种基于无监督图像编辑的多目标强化学习方法 |
CN115070753B (zh) * | 2022-04-28 | 2024-11-08 | 同济大学 | 一种基于无监督图像编辑的多目标强化学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188227A (zh) * | 2019-05-05 | 2019-08-30 | 华南理工大学 | 一种基于深度学习与低秩矩阵优化的哈希图像检索方法 |
CN110450153A (zh) * | 2019-07-08 | 2019-11-15 | 清华大学 | 一种基于深度强化学习的机械臂物品主动拾取方法 |
-
2019
- 2019-11-26 CN CN201911177239.5A patent/CN111079561B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188227A (zh) * | 2019-05-05 | 2019-08-30 | 华南理工大学 | 一种基于深度学习与低秩矩阵优化的哈希图像检索方法 |
CN110450153A (zh) * | 2019-07-08 | 2019-11-15 | 清华大学 | 一种基于深度强化学习的机械臂物品主动拾取方法 |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111890336A (zh) * | 2020-06-15 | 2020-11-06 | 成都飞机工业(集团)有限责任公司 | 一种机器人多目标点示教方法、系统 |
CN111890336B (zh) * | 2020-06-15 | 2022-05-10 | 成都飞机工业(集团)有限责任公司 | 一种机器人多目标点示教方法、系统 |
CN111844034A (zh) * | 2020-07-17 | 2020-10-30 | 北京控制工程研究所 | 基于深度强化学习的端到端在轨自主加注控制系统及方法 |
CN111844034B (zh) * | 2020-07-17 | 2022-03-04 | 北京控制工程研究所 | 基于深度强化学习的端到端在轨自主加注控制系统及方法 |
CN111898671A (zh) * | 2020-07-27 | 2020-11-06 | 中国船舶工业综合技术经济研究院 | 激光成像仪和彩色相机编码融合目标识别方法及系统 |
CN111898671B (zh) * | 2020-07-27 | 2022-05-24 | 中国船舶工业综合技术经济研究院 | 激光成像仪和彩色相机编码融合目标识别方法及系统 |
CN111966740A (zh) * | 2020-08-24 | 2020-11-20 | 安徽思环科技有限公司 | 一种基于深度学习的水质荧光数据特征提取方法 |
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
CN112643668A (zh) * | 2020-12-01 | 2021-04-13 | 浙江工业大学 | 一种适用于密集环境下的机械臂推抓协同方法 |
CN112643668B (zh) * | 2020-12-01 | 2022-05-24 | 浙江工业大学 | 一种适用于密集环境下的机械臂推抓协同方法 |
CN112605983A (zh) * | 2020-12-01 | 2021-04-06 | 浙江工业大学 | 一种适用于密集环境下的机械臂推抓系统 |
CN112605983B (zh) * | 2020-12-01 | 2022-04-19 | 浙江工业大学 | 一种适用于密集环境下的机械臂推抓系统 |
TWI757999B (zh) * | 2020-12-04 | 2022-03-11 | 國立陽明交通大學 | 即時避障系統、即時避障方法及具有即時避障功能的無人載具 |
CN112631131A (zh) * | 2020-12-19 | 2021-04-09 | 北京化工大学 | 一种四足机器人运动控制自生成和实物迁移方法 |
CN112613478B (zh) * | 2021-01-04 | 2022-08-09 | 大连理工大学 | 一种面向机器人抓取的数据主动式选择方法 |
CN112613478A (zh) * | 2021-01-04 | 2021-04-06 | 大连理工大学 | 一种面向机器人抓取的数据主动式选择方法 |
CN113128411A (zh) * | 2021-04-22 | 2021-07-16 | 深圳市格灵精睿视觉有限公司 | 跨域抓取识别方法、装置、电子设备及存储介质 |
CN113341706A (zh) * | 2021-05-06 | 2021-09-03 | 东华大学 | 基于深度强化学习的人机协作流水线系统 |
CN113341706B (zh) * | 2021-05-06 | 2022-12-06 | 东华大学 | 基于深度强化学习的人机协作流水线系统 |
CN113771081A (zh) * | 2021-07-06 | 2021-12-10 | 清华大学 | 一种基于物理的虚拟人手自动抓取方法及装置 |
CN113771081B (zh) * | 2021-07-06 | 2024-04-30 | 清华大学 | 一种基于物理的虚拟人手自动抓取方法及装置 |
CN113807230A (zh) * | 2021-09-14 | 2021-12-17 | 中国人民解放军国防科技大学 | 基于主动强化学习的装备目标识别方法及人机智能体 |
CN113807230B (zh) * | 2021-09-14 | 2023-11-03 | 中国人民解放军国防科技大学 | 基于主动强化学习的装备目标识别方法及装置 |
CN113829358B (zh) * | 2021-11-01 | 2022-12-27 | 江苏昱博自动化设备有限公司 | 一种基于深度强化学习的机器人抓取多目标物的训练方法 |
CN114012722A (zh) * | 2021-11-01 | 2022-02-08 | 苏州科德软体电路板有限公司 | 一种基于深度学习和边缘检测的机械臂抓取目标方法 |
CN113829358A (zh) * | 2021-11-01 | 2021-12-24 | 江苏昱博自动化设备有限公司 | 一种基于深度强化学习的机器人抓取多目标物的训练方法 |
CN114131603B (zh) * | 2021-12-02 | 2023-09-12 | 复旦大学 | 基于感知增强和场景迁移的深度强化学习机器人抓取方法 |
CN114131603A (zh) * | 2021-12-02 | 2022-03-04 | 复旦大学 | 基于感知增强和场景迁移的深度强化学习机器人抓取方法 |
CN114454160A (zh) * | 2021-12-31 | 2022-05-10 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
CN114454160B (zh) * | 2021-12-31 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
CN114474060A (zh) * | 2022-02-16 | 2022-05-13 | 华南理工大学 | 一种工业机器人的控制方法、装置和存储介质 |
CN114474060B (zh) * | 2022-02-16 | 2023-06-16 | 华南理工大学 | 一种工业机器人的控制方法、装置和存储介质 |
CN115070753A (zh) * | 2022-04-28 | 2022-09-20 | 同济大学 | 一种基于无监督图像编辑的多目标强化学习方法 |
CN115070753B (zh) * | 2022-04-28 | 2024-11-08 | 同济大学 | 一种基于无监督图像编辑的多目标强化学习方法 |
CN114800530B (zh) * | 2022-06-09 | 2023-11-28 | 中国科学技术大学 | 基于视觉的机器人的控制方法、设备及存储介质 |
CN114800530A (zh) * | 2022-06-09 | 2022-07-29 | 中国科学技术大学 | 基于视觉的机器人的控制方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111079561B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079561B (zh) | 一种基于虚拟训练的机器人智能抓取方法 | |
CN107403426B (zh) | 一种目标物体检测方法及设备 | |
CN111203878B (zh) | 一种基于视觉模仿的机器人序列任务学习方法 | |
CN109446970A (zh) | 一种基于深度学习的变电站巡检机器人道路场景识别方法 | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN113469356A (zh) | 一种基于迁移学习的改进vgg16网络猪的身份识别方法 | |
CN110782015A (zh) | 神经网络的网络结构优化器的训练方法、装置及存储介质 | |
CN108791302B (zh) | 驾驶员行为建模系统 | |
TW201732739A (zh) | 集中於物件的有效三維重構 | |
CN107636691A (zh) | 用于识别图像中的文本的方法和设备 | |
CN111260026B (zh) | 一种基于元强化学习的导航迁移方法 | |
CN110238840B (zh) | 一种基于视觉的机械臂自主抓取方法 | |
CN108920805B (zh) | 具有状态特征提取功能的驾驶员行为建模系统 | |
CN107146237A (zh) | 一种基于在线状态学习与估计的目标跟踪方法 | |
CN110281949B (zh) | 一种自动驾驶统一分层决策方法 | |
CN112651360B (zh) | 一种小样本下骨架动作识别方法 | |
CN109002837A (zh) | 一种图像语义分类方法、介质、装置和计算设备 | |
CN113609935A (zh) | 一种基于深度学习面部识别的轻量级走神判别方法 | |
CN111368759A (zh) | 基于单目视觉的移动机器人语义地图构建系统 | |
CN114548253A (zh) | 一种基于图像识别及动态匹配的数字孪生模型构建系统 | |
Ye et al. | A novel active object detection network based on historical scenes and movements | |
CN115376103A (zh) | 一种基于时空图注意力网络的行人轨迹预测方法 | |
CN108944940B (zh) | 基于神经网络的驾驶员行为建模方法 | |
CN111160170A (zh) | 一种自学习的人体行为识别与异常检测方法 | |
CN112045680B (zh) | 一种基于行为克隆的布料码垛机器人控制系统及控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |