CN116276973A

CN116276973A - 基于深度学习的视觉感知抓取训练方法

Info

Publication number: CN116276973A
Application number: CN202310094438.XA
Authority: CN
Inventors: 王兆广; 孙嘉彬; 王卫军; 祝鲁宁; 何春来
Original assignee: China Electronics Technology Robot Co ltd
Current assignee: China Electronics Technology Robot Co ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-06-23

Abstract

一种基于深度学习的视觉感知抓取训练方法，该抓取训练方法包括：步骤一、通过三维数据生成方式生成满足实际应用场景概率分布的虚拟三维物体数据；步骤二、通过所述虚拟三维物体数据对基于深度学习的物体抓取方式评估模型进行多任务训练。本发明利用三维数据的生成方法，快速生成大量虚拟件烟箱三维数据用于训练，利用三维数据重建技术快速生成大量有效的、满足机器人装卸货实际场景概率分布的虚拟烟箱，并通过模拟渲染的方式生成大量标注数据；本发明采用的虚拟物体抓取方式学习技术，能够快速评估当前输入图片下不同候选抓取方式对于抓取效果的综合评分，根据该抓取效果综合评分向量，选取最适合当前场景决策依据的效果最优的抓取方式。

Description

基于深度学习的视觉感知抓取训练方法

技术领域

本发明属于智能物流相关技术领域，更具体地说，特别涉及一种基于深度学习的视觉感知抓取训练方法。

背景技术

物体抓取是指在给定目标物体和环境限制的可达性约束前提下，能够获得最佳成功率的抓取方式选择。针对目标物体选取合适的抓取方式是机器人应用中一项常见的基础任务。比如，对于一项基础的物体搬运任务，机器人需要具备正确识别物体的能力，并能够在适当的时机采取最佳的抓取方式，以顺利完成后续的搬动动作。

例如，在烟草行业机器人装卸货的应用场景中，由于烟箱存在形状、姿态、表面材质属性等一系列不确定因素，且在厢车内部，机器人的作业环境受限于内部环境光线、视角等情况的影响，往往对机器人的正确观测并执行抓取行为添加了较大的挑战。如何正确地识别目标三维物体，并克服环境限制，在给定的抓取方式范围中选取最适合当前场景的方案或配置选项，成为了机器人领域富有挑战又亟待解决的研究问题之一。

近期一些研究结果表明，在大规模物体抓取方式标注数据集上训练获得的模型能够鲁棒地适应复杂的应用场景，但这些数据的收集往往需要繁琐的人工标注或枯燥反复的实验重复。传统方法通常会基于物理学理论的分析结论来规划抓取的方向、力度、速度等信息，但这些方法都隐含假定视觉感知系统获取到的信息是理想条件下完美无差错的，这一条件在实际的机器人装卸货的场景中很难满足。装载烟箱的厢车存在尺寸多变的情况，且不可预知的卸货月台的使用场景往往会使这类基于规则分析判断的抓取规划出错误。因此，通过物理原理分析的抓取规划往往不具备实际操作的可行性，而通过经验学习得到的相关参数很可能遇到跨域效果降低的影响。这些挑战导致装卸货机器人在实际应用中无法有效地选择正确的烟箱抓取方式，导致机器人行为操作的成功率降低。

随着深度学习技术的发展，许多计算机视觉问题可以使用网络模型完成，比如三维物体的形状、深度和姿态估计都可以通过深度模型实现。机器人进行物体抓取的主要决策来源于视觉信号输入源，因此可以通过构建虚拟三维烟箱的方式，模拟装卸货机器人可能遇到的实际场景，并生成大量与实际月台卸货场景紧密关联的训练数据，用于对抓取方式的训练。针对不同抓取方式的评估，可以构建基于卷积神经网络的抓取质量评估模型，综合计算各类环境因素联合分布下的抓取成功概率，为最终的抓取方式决策输出有效的依据和支撑。

然而，现有的相关方法在获取训练数据时往往需要付出较大的代价，且训练数据的质量和对模型优化的贡献很难保证。同时，相关方法通常只使用抓取成功率一项指标对整体行为进行评估，没有考虑抓取行为的时间开销，抓取行为路径轨迹中的相关依赖，在实际应用过程中难以根据实际需求进行变化。

(一)技术问题

综上所述，如何解决现有技术中物体抓取训练由于评估指标单一而存在的训练结果难以根据实际需求进行变化的问题，成为了本领域技术人员亟待解决的问题。

(二)技术方案

为解决上述问题，本发明提供了一种基于深度学习的视觉感知抓取训练方法，在该基于深度学习的视觉感知抓取训练方法中，本发明包括如下步骤：

步骤一、通过三维数据生成方式生成满足实际应用场景概率分布的虚拟三维物体数据；

步骤二、通过所述虚拟三维物体数据对基于深度学习的物体抓取方式评估模型进行多任务训练。

优选地，在本发明所提供的基于深度学习的视觉感知抓取训练方法中，在所述步骤一中，在生成虚拟三维物体数据的过程中采用概率采样，用于获取的训练数据集满足实际应用场景下待抓取物品的概率分布。

优选地，在本发明所提供的基于深度学习的视觉感知抓取训练方法中，在所述步骤二中，在物体抓取方式评估模型中使用多任务并行训练的方式，用于选择抓取方式的快速分析和决策。

优选地，在本发明所提供的基于深度学习的视觉感知抓取训练方法中，在所述步骤一中，使用引擎渲染、图像三维重建的多角度复合方式，通过实验采样生成符合实际装卸货应用场景概率分布的虚拟三维物体数据。

优选地，在本发明所提供的基于深度学习的视觉感知抓取训练方法中，在所述步骤二中，基于抓取质量评估卷积神经网络，构建多任务评价指标，同时针对不同的候选抓取方式进行抓取质量等度量方案的评估，最终用于决策信息的生成。

优选地，在本发明所提供的基于深度学习的视觉感知抓取训练方法中，在所述步骤一中，包括有：

步骤一a、根据使用场景设置目标物体类别范围，选定待训练的目标物体集合；

步骤一b、通过图像信号感知模块，获取与实际场景相似的图像数据，作为采样候选集；

步骤一c、使用渲染引擎或三维重建方法构建物体的三维数据，并将所述三维数据导出为可用于渲染的格式；

步骤一d、在三维数据渲染过程中加入概率采样，并使生成的训练数据满足实际场景下待抓取物品的概率分布。

优选地，在本发明所提供的基于深度学习的视觉感知抓取训练方法中，在所述步骤二中，包括有：

步骤二a1、准备训练数据；

准备足量的训练数据用于训练抓取方式网络模型，所述抓取方式网络模型基于给定目标三维物体的相关信息、候选抓取方式、每种抓取方式的评估值以及实际应用中各项因素的影响因子作为决策依据，其中所述给定目标三维物体的相关信息包括给定目标三维物体的形状、给定目标三维物体的姿态、给定目标三维物体的位置信息；

步骤二a2、构建点云信息；

所述给定目标三维物体的相关信息为点云信息，所述点云信息根据具有深度信息的图像数据构建而得，并通过深度估计方法基于输入的深度图片构建目标物体的点云信息并作为网络模型后续的输入参数；

步骤二a3、特征抽取；

在进行模型训练前，获取所述给定目标三维物体的图片的特征信息，所述特征信息的抽取是将所述给定目标三维物体的图片进行预处理操作，并输入卷积神经网络模型，使用网络的前向传播方法抽取特征信息，并通过各个候选区块分支的卷积核计算出初始的有效目标数值；

步骤二a4、目标函数定义；

所述目标函数用于所述训练模型获得抓取成功率的分数评估；

在所述目标函数中，设抓取方式μ∈Φ是所有候选抓取方式中的一种，μ为一种抓取方式，Φ为所有候选抓取方式的合集，假定在烟箱抓取目标场景中已知μ的几何特性以及固定位置的摄像机信息，使用X表示摄像机和目标物体的相对状态：X＝(P₀,P_C)；

其中P₀表示目标物体的姿态，P_C表示摄像机的姿态，根据摄像机获取到的目标物体点云信息通过y表示；

使用M(μ，X)∈{0,1}表示使用抓取方式μ在综合状态X情况下是否抓取成功的标签，使用P(M，μ，x，y)表示针对上述因素的联合分布，在上述分布情况下，Q(μ，y)为使用抓取方式μ在点云信息y情况下抓取成功的成功率估计值；

步骤二a5、更新模型；

采用交叉熵损失函数对抓取方式评估模型的参数进行更新，参数更新的过程就是对深度卷积神经网络中各层的权重和偏置值进行更新；

所述网络模型使用开源的深度学习框架TensorFlow，模型结构的定义和损失函数的计算使用TensorFlow内置的相关方法实现；

步骤二a6、学习速率更新；

在每轮迭代过后，所述训练模型根据实验参数配置和当前模型的收敛情况更新学习速率，并根据学习速率更新权重信息。

步骤二b1、获取输入图像数据；

基于输入的深度图像构建点云信息，通过标准的预处理操作，封装成模型可以接受的输入数据，同时读取当前场景下候选抓取方式，作为模型输入的一部分输入；

步骤二b2、前向传播获取；

将所述步骤二b1得到的输入数据输入预处理结果传递到训练阶段得到的抓取方式评估网络模型中，执行网络模型的前向传播操作，并获取不同抓取方式在当前评价方式下的成功率评估值；

步骤二b3、选取最优方案；

在烟箱抓取方式决策时，依据网络模型前向传播获得的评价值，选取使其满足评价值最大的抓取方式π_θ(y)，π_θ(y)＝argmax_μ∈CQ_θ(μ，y)，抓取方式π_θ(y)采用argmax函数，其中集合C表示所有可能的候选抓取方式集合，每一个抓取方式μ都会能通过网络模型的前向传播获得针对当前物体y的对应评价值Q_θ(μ，y)，其中评分值Q_θ(μ，y)为一个多维向量，其中包含了各种影响因素的评分，所述影响因素包括抓取成功率、行为速度以及冲突发生概率；

抓取方式决策的过程为选取实际应用场景设置相关权重信息，计算其综合评分，获取分值最大的那一个抓取方式。

(三)有益效果

本发明提供了一种基于深度学习的视觉感知抓取训练方法，应用在装卸机器人对烟箱的抓取场景中。本发明所提供的基于深度学习的视觉感知抓取训练方法利用三维数据的生成方法，快速生成大量虚拟件烟箱三维数据用于训练。在生成数据的过程中使用了概率采样方案，保证获取的训练数据满足装卸机器人在厢车内对烟箱抓取时实际情况的概率分布。同时，结合基础的物体抓取方式深度学习模型，提出基于深度学习的烟箱抓取方式评估模型的解决方案，在评估模型中使用多任务并行训练的方式，对多个抓取评估效果同时评估，能够实现对装卸机器人装卸烟箱场景中，选择抓取方式的快速分析和有效决策。相比于传统的基于物体分析或经验学习的方案，本发明能够应对实际场景中可能出现的烟箱掉箱的情况；同时减少对数据进行手工标注的工作量，在物体抓取方式的应用过程中达到较优的效果。

本发明的有益效果如下：

1、利用三维数据重建技术快速生成大量有效的、满足机器人装卸货实际场景概率分布的虚拟烟箱，并通过模拟渲染的方式生成大量标注数据。

2、本发明利用虚拟物体抓取方式学习技术，能够快速评估当前输入图片下不同候选抓取方式对于抓取效果的综合评分，根据该抓取效果综合评分向量，选取最适合当前场景决策依据的效果最优的抓取方式。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。其中：

图1为本发明实施例中基于深度学习的视觉感知抓取训练方法的使用流程图；

图2a至图2e为本发明中基于深度学习的视觉感知抓取训练方法实际操作图示。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

另外，在本发明的描述中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作，因此不能理解为对本发明的限制。本发明中使用的术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接；可以是直接相连，也可以通过中间部件间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参考图1和图2，其中，图1为本发明实施例中基于深度学习的视觉感知抓取训练方法的使用流程图；图2a至图2e为本发明中基于深度学习的视觉感知抓取训练方法实际操作图示。

针对特定物品选取抓取方式时，现有的抓取训练方式所生成的策略不够鲁棒的问题，本发明利用三维数据生成方案(该生成方案如下：首先生成多个单个的模型，然后再根据每一种模型可能出现的概率再进行排布形成“堆”，最后再进行训练。)生成满足实际应用场景概率分布的大量虚拟三维物体数据，并对基于深度学习的物体抓取方式评估模型进行多任务训练，以优化实际应用中智能主体针对目标物体的抓取方式选取策略。

在本发明中，利用三维数据的生成方法，快速生成大量虚拟件(烟箱)三维数据用于训练。在生成数据的过程中使用了概率采样方案，保证获取的训练数据集满足装卸机器人在厢车内对烟箱抓取时实际情况的概率分布。同时，结合基础的物体抓取方式深度学习模型，提出基于深度学习的烟箱抓取方式评估模型的解决方案，在评估模型中使用多任务并行训练的方式(现有技术中采用实际场景，训练只能够一次一次的单次进行，效率低。而本申请采用数字化训练，可以多任务并行训练，效率高)，对多个抓取评估效果同时评估，能够实现对装卸机器人装卸烟箱场景中，选择抓取方式的快速分析和有效决策。

本发明主要包括三个核心环节：1、虚拟件烟箱数据获取和生成；2、抓取方式评估网络模型的训练；3、最终烟箱抓取方式的决策。实验结果表明，通过这种方式相比于传统的基于物体分析或经验学习的方案，能够更加鲁棒地应对机器人装卸货场景中可能出现的情况，同时减少对数据进行手工标注的工作量，在烟箱抓取方式的应用过程中达到较优的效果。

本发明所提出的基于深度学习的虚拟烟箱概率采样抓取方法，构建针对抓取方式有效性进行评估的网络模型，并通过虚拟烟箱的生成方式提供大量、满足实际使用场景分布的训练数据，促进模型的训练和多任务优化。最终获得一个能够适应复杂机器人装卸货环境、适配不同物体的多任务抓取方式决策模型，辅助提供机器人抓取方式的决策依据。

本发明提出的基于深度学习的视觉感知抓取训练方法，主要包含两个模块。首先是虚拟烟箱的生成方案，使用引擎渲染、图像三维重建的多角度复合方式，通过实验采样生成大量符合实际装卸货应用场景概率分布的虚拟烟箱。其次，对于抓取方式网络模型，基于抓取质量评估卷积神经网络，构建多任务评价指标，同时针对不同的候选抓取方式进行抓取质量等度量方案的评估，最终用于决策信息的生成。

在现有技术中，常规训练方法很难产生有效的、对模型训练有增益效果的训练数据，为了解决该问题，本发明使用了概率分布采样的方式尽可能减少实验场景与机器人装卸货应用场景的差异，确保最终产出模型的鲁棒性。在三维重建领域采纳了引擎渲染、深度估计等方法的基础上，实现海量虚拟训练数据的生成和准备。此外，基于深度学习领域卷积神经网络对于图像的强大特征抽取能力，构建抓取质量评估网络模型，针对各类抓取方式和输入烟箱的当前特征，进行多任务的分析和学习，确保最终的抓取方式决策过程可以依据不同的使用场景进行判定。从最终的实验结果来看，本发明所提出的基于深度学习的虚拟烟箱概率采样抓取方式多任务学习技术(基于深度学习的视觉感知抓取训练方法)，有效解决了在物体抓取方式研究问题中高质量训练数据不足的问题，并利用深度学习方法进行了合理的参数学习，最终的方法具有评估效果好、准确度高、成功率高、鲁棒性强等特点，也具备较强的实际应用前景。

本发明提出的基于深度学习的视觉感知抓取训练方法主要包含虚拟物体密度采样构建、抓取方式模型多任务学习两个模块。

在本发明中，对于虚拟物体构建，其具体实施方式如下：

1、根据使用场景设置目标物体类别范围，选定待训练的目标物体集合；

2、通过图像信号感知模块，获取与实际场景相似的图像数据，作为采样候选集；

3、使用渲染引擎或三维重建方法构建物体的三维数据，将该三维数据导出为特定的可用于渲染的格式；

4、在三维数据渲染过程中加入概率采样环节，使生成的训练数据能够满足相关条件概率分布，尽可能使其与真实场景遇到的图像集有较少的差异。

在本发明中，对于抓取方式多任务学习，包含训练和使用两个阶段。

第一训练阶段，具体实施方式如下。

1、准备训练数据。

首先需要准备足量数据来训练抓取方式网络模型。抓取方式网络模型的目标是在给定目标三维物体(烟箱)的相关信息以及候选抓取方式的情况下，根据评估方式计算每种抓取方式的多任务评估值，并根据实际应用中各项因素的影响因子作为决策依据。目标烟箱的相关信息包括了多个方面，如烟箱的形状、烟箱的姿态、烟箱的位置信息。同一烟箱在不同姿态、不同位置条件下，往往需要匹配不同的抓取方式。在训练阶段，需要根据给定的三维物体点云信息，通过概率采样生成尽可能覆盖可能出现的复杂情况的组合场景，确保模型在后续的训练过程中能够学习到相对鲁棒的经验参数。

2、构建点云信息。

网络模型输入的是目标物体的点云信息，这部分数据需要根据具有深度信息的图像数据构建而得，通过现有的深度估计方法基于输入的深度图片构建目标物体的点云信息，作为网络模型后续的输入参数。

3、特征抽取。

在进行模型训练前，首先需要获取输入图片的特征信息。特征抽取只需要将输入图片进行预处理操作，并输入卷积神经网络模型，使用网络的前向传播方法抽取特征信息，并通过各个候选区块分支的卷积核计算出初始的有效目标数值。

4、目标函数定义。

模型的总体目标是给定深度图像和候选抓取方式作为输入的情况下，输出抓取成功率的分数评估。设抓取方式μ∈Φ是所有候选抓取方式中的一种，假定在烟箱抓取目标场景中已知μ的几何特性及固定位置的摄像机信息，可以用X表示摄像机和目标物体的相对状态：X＝(P₀,P_C)。其中P₀表示目标物体的姿态，P_C表示摄像机的姿态，而根据摄像机获取到的目标物体点云信息可以用y表示。在此基础上，使用M(μ，X)∈{0,1}表示使用抓取方式μ在综合状态X情况下是否抓取成功的标签。

基于上述定义，可以使用P(M，μ，x，y)表示针对上述因素的联合分布，在上述分布情况下，可以用Q(μ，y)使用抓取方式μ在点云信息y情况下抓取成功的成功率估计值。而抓取方式评估网络模型的目标，就是使这个估计值与真实的标签值尽可能接近。

5、更新模型。

采用交叉熵损失函数对抓取方式评估模型的参数进行更新。参数更新的过程就是对深度卷积神经网络中各层的权重和偏置值进行更新，使最终的损失函数值最小化。网络模型使用了开源的深度学习框架TensorFlow，模型结构的定义和损失函数的计算使用TensorFlow内置的相关方法实现。具体来说，本发明描述的抓取方式评估模型使用随机梯度下降的方式进行优化，每个批次的输入样本和标签都将产生损失函数值，并生成梯度信息，通过反向传播和自动更新操作实现模型参数的优化，在迭代训练的过程中降低损失函数值。

6、学习速率更新。

随机梯度下降方法对于梯度更新的程度比较敏感，通常整个流程是一个迭代进行的过程。在训练刚开始时，通常会选取合适的学习速度使模型快速寻找到参数优化的最优方向。当训练进展到一定程度后，会考虑逐步减少学习速率进行更加精细的学习，避免参数波动过大导致无法收敛。因此，在每轮迭代过后，模型会根据实验参数配置和当前模型的收敛情况更新学习速率，并根据学习速率更新权重信息。

第二使用阶段，抓取方式评估模型的具体实施方式如下。

1、获取输入图像数据。

基于输入的深度图像构建点云信息，通过标准的预处理操作，封装成模型可以接受的输入数据，同时读取当前场景下候选抓取方式，作为模型输入的一部分输入。

2、前向传播获取。

将上一步得到的输入数据输入预处理结果传递到训练阶段得到的抓取方式评估网络模型中，执行网络模型的前向传播操作，获取不同抓取方式在当前评价方式下的成功率评估值。

3、选取最优方案。

具体的烟箱抓取方式决策时，依据网络模型前向传播获得的评价值，选取使其满足评价值最大的抓取方式：π_θ(y)＝argmax_μ∈CQ_θ(μ，y)，抓取方式π_θ(y)采用argmax函数，在该函数中，集合C表示所有可能的候选抓取方式集合，每一个抓取方式μ都会能通过网络模型的前向传播获得针对当前物体y的对应评价值为Q_θ(μ，y)。这里的评分值Q_θ(μ，y)是一个多维向量，其中包含了各种影响因素(如抓取成功率、行为速度、冲突发生概率等)的评分，抓取方式决策的过程，就是选取实际应用场景设置相关权重信息，计算其综合评分，获取分值最大的那一个抓取方式。

本发明提供了一种基于深度学习的视觉感知抓取训练方法，应用在装卸机器人对烟箱的抓取场景中。本发明所提供的基于深度学习的视觉感知抓取训练方法利用三维数据的生成方法，快速生成大量虚拟件烟箱三维数据用于训练。在生成数据的过程中使用了概率采样方案，保证获取的训练数据满足装卸机器人在厢车内对烟箱抓取时实际情况的概率分布。同时，结合基础的物体抓取方式深度学习模型，提出基于深度学习的烟箱抓取方式评估模型的解决方案，在评估模型中使用多任务并行训练的方式，对多个抓取评估效果同时评估，能够实现对装卸机器人装卸烟箱场景中，选择抓取方式的快速分析和有效决策。相比于传统的基于物体分析或经验学习的方案，本发明能够应对实际场景中可能出现的烟箱掉箱情况；同时减少对数据进行手工标注的工作量，在物体抓取方式的应用过程中达到较优的效果。

本发明的有益效果如下：

2、虚拟物体抓取方式学习技术，能够快速评估当前输入图片下不同候选抓取方式对于抓取效果的综合评分，根据该抓取效果综合评分向量，选取最适合当前场景决策依据的效果最优的抓取方式。

由技术常识可知，本发明可以通过其它的不脱离其实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种基于深度学习的视觉感知抓取训练方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的视觉感知抓取训练方法，其特征在于，

在所述步骤一中，在生成虚拟三维物体数据的过程中采用概率采样，用于获取的训练数据集满足实际应用场景下待抓取物品的概率分布。

3.根据权利要求1所述的基于深度学习的视觉感知抓取训练方法，其特征在于，

在所述步骤二中，在物体抓取方式评估模型中使用多任务并行训练的方式，用于选择抓取方式的快速分析和决策。

4.根据权利要求1所述的基于深度学习的视觉感知抓取训练方法，其特征在于，

在所述步骤一中，使用引擎渲染、图像三维重建的多角度复合方式，通过实验采样生成符合实际装卸货应用场景概率分布的虚拟三维物体数据。

5.根据权利要求1所述的基于深度学习的视觉感知抓取训练方法，其特征在于，

在所述步骤二中，基于抓取质量评估卷积神经网络，构建多任务评价指标，同时针对不同的候选抓取方式进行抓取质量等度量方案的评估，最终用于决策信息的生成。

6.根据权利要求1所述的基于深度学习的视觉感知抓取训练方法，其特征在于，

在所述步骤一中，包括有：

7.根据权利要求1所述的基于深度学习的视觉感知抓取训练方法，其特征在于，

在所述步骤二中，包括有：