CN115249333B

CN115249333B - 抓取网络训练方法、系统、电子设备及存储介质

Info

Publication number: CN115249333B
Application number: CN202110729650.XA
Authority: CN
Inventors: 彭飞; 孟祥宇; 马世奎
Original assignee: Cloudminds Beijing Technologies Co Ltd
Current assignee: Cloudminds Beijing Technologies Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2023-07-11
Anticipated expiration: 2041-06-29
Also published as: CN115249333A; WO2023273179A1

Abstract

本发明实施例涉及机器人技术领域，公开了一种抓取网络训练方法、系统、电子设备及存储介质。抓取网络训练方法包括：获取包含目标物体的深度图和所述目标物体的抓取点信息；将所述深度图和所述抓取点信息输入预设的抓取网络，获取所述目标物体的抓取路径；将所述抓取路径发送至预设的用于模拟所述抓取路径的虚幻引擎，并接收所述虚幻引擎模拟所述抓取路径返回的所述目标物体的抓取结果；根据所述抓取结果修改所述抓取网络的网络参数，对所述抓取网络进行训练。可以通过使用虚拟引擎模拟抓取网络生成的抓取路径所返回的抓取结果来对抓取网络进行训练，使得本发明可以在降低抓取网络训练成本的同时提高训练效率。

Description

抓取网络训练方法、系统、电子设备及存储介质

技术领域

本发明实施例涉及机器人技术领域，特别涉及一种抓取网络训练方法、系统、电子设备及存储介质。

背景技术

随着人工智能与硬件设备的飞速发展，大大的推进了工业化进程与机器人科学的发展。机器人的抓取功能是机器人最基本的功能，用来在任务中执行诸如分拣、拾取等基本的任务操作。在工业生产环境或者物流分拣任务下，机器人抓取应用十分常见。但是在很多情况下，需要完成抓取的物体场景比较复杂，比如包含多种物体并存在堆叠现象，加之机器人事先对该环境并没有认知，这就导致机械臂在真正完成抓取任务时会遇到较大的阻碍。目前大多都采用网络训练的方法，使用训练好的抓取网络可以从视觉的原始输入中直接给机器人做出抓取决策。

然而，由于机器人的抓取操作是需要与现实物理世界进行互动，抓取网络所需要的训练数据都是基于已经完成的抓取运动的，训练数据的获取方式受到较大的限制，而在训练数据过少时会导致抓取网络的训练效果低下；同时抓取网络训练的过程中，若抓取网络做出的抓取决策出错会导致抓取设备损坏，使得抓取网络训练的成本高。

发明内容

本发明实施例的目的在于提供一种抓取网络训练方法、系统、电子设备及存储介质，能够通过使用虚拟引擎模拟抓取网络生成的抓取路径所返回的抓取结果来对抓取网络进行训练，使得可以在降低抓取网络训练成本的同时提高训练效率。

本发明的实施方式提供了一种抓取网络训练方法，所述方法包括：获取包含目标物体的深度图和所述目标物体的抓取点信息；将所述深度图和所述抓取点信息输入预设的抓取网络，获取所述目标物体的抓取路径；将所述抓取路径发送至预设的用于模拟所述抓取路径的虚幻引擎，并接收所述虚幻引擎模拟所述抓取路径返回的所述目标物体的抓取结果；根据所述抓取结果修改所述抓取网络的网络参数，对所述抓取网络进行训练。

本发明的实施方式还提供了一种抓取网络训练方法，应用在虚幻引擎上，所述方法包括：接收抓取网络返回的抓取路径，其中，所述抓取路径是所述抓取网络根据包含目标物体的深度图和所述目标物体的抓取点信息获取的；根据所述抓取路径控制预设的抓取器抓取所述目标物体，获取所述抓取器的移动信息和障碍信息；根据所述移动信息和所述障碍信息获取所述目标物体的抓取结果，并将所述抓取结果发送至所述抓取网络，以供所述抓取网络根据所述抓取结果修改所述抓取网络的网络参数，对所述抓取网络进行训练。

本发明的实施方式还提供了一种抓取网络训练系统，包括：

获取模块，获取包含目标物体的深度图和所述目标物体的抓取点信息；

输入模块，将所述深度图和所述抓取点信息输入预设的抓取网络，获取所述目标物体的抓取路径；

接收模块，将所述抓取路径发送至预设的用于模拟所述抓取路径的虚幻引擎，并接收所述虚幻引擎模拟所述抓取路径返回的所述目标物体的抓取结果；

训练模块，根据所述抓取结果修改所述抓取网络的网络参数，对所述抓取网络进行训练。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以上所述的抓取网络训练方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以上所述的抓取网络训练方法。

本发明实施例，在对抓取网络训练的过程中，将获取的包含目标物体的深度图和目标物体的抓取点信息输入到抓取网络，获取目标物体的抓取路径，将抓取路径发送至用于模拟抓取路径的虚幻引擎，接收虚幻引擎模拟抓取路径返回的目标物体的抓取结果，根据抓取结果修改抓取网络的网络参数，对所述抓取网络进行训练，从而通过使用虚拟引擎模拟抓取网络生成的抓取路径所返回的抓取结果来对抓取网络进行训练，使得本发明可以在降低抓取网络训练成本的同时提高训练效率，解决了现有技术中抓取网络的训练依赖于现实物理世界而导致的网络训练成本高、效率低的技术问题。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明实施例的抓取网络训练方法的流程图一；

图2是根据本发明实施例的抓取网络训练方法的流程图二；

图3是根据本发明实施例的抓取网络训练方法的流程图三；

图4是根据本发明实施例的抓取网络训练方法的流程图四；

图5是根据本发明实施例的抓取网络训练方法的流程图五；

图6是根据本发明实施例的抓取网络训练方法的流程图六；

图7是根据本发明实施例的抓取网络训练方法的流程图七；

图8是根据本发明实施例的抓取网络训练系统的结构图。

图9是根据本发明实施例的电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本发明而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本发明所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明实施例涉及一种抓取网络训练方法，如图1所示，具体包括：

步骤101，获取包含目标物体的深度图和目标物体的抓取点信息。

具体的说，深度图是通过设置在机械臂(抓取器)上的3D相机拍摄的，3D相机在拍摄目标物体时，还需要拍摄目标物体所处的环境，也就是说，3D相机所获取的深度图并不只是目标物体的深度图，而是3D相机所拍摄的深度图中包含有目标物体，在获取到包含目标物体的深度图之后，可以先对深度图进行图像识别以及定位，图像识别的目的是为了在深度图上识别到目标物体，进而可以知道目标物体的类型(如目标物体是个水杯、箱子等)，而在进行图像识别的过程中，还需要对目标物体进行定位，获取到该目标物体在深度图中的位置坐标，也可以在深度上采用目标框的方式将目标物体标注出来；在获取到目标物体的位置坐标之后，可以根据目标物体的位置坐标对深度图中的目标物体进行三维分割，获取到目标物体的所有三维分割点信息，之后再从所有的三维分割点中选择一个合适的三维分割点信息来作为目标物体的抓取点信息。

此处需要注意的是，所获取的深度图是三维图像，所获取的抓取点信息也是三维的，而抓取点信息在获取的过程中，还可以根据目标物体的类型来获取，如：当目标物体是杯子时，则将杯子的杯把处的三维分割点信息作为抓取点信息。

步骤102，将深度图和抓取点信息输入预设的抓取网络，获取目标物体的抓取路径。

具体的说，抓取网络是一个可以根据起点位置、终点位置和环境信息来进行路径规划的神经网络，且抓取网络基于强化学习建立的神经网络，将深度图和抓取点信息输入到抓取网络中，抓取网络会先对深度图进行分析，来获取目标物体的环境信息(即目标物体周围的各种障碍物的位置、高度等)，实际上抓取点信息是既包含有抓取位置信息也包含有抓取方向信息，抓取位置信息用于明确机械臂(抓取器)所要到达的位置，抓取点方向信息用于明确机械臂(抓取器)所达到的方向；在获取到目标物体所处的环境信息之后，首先根据抓取点位置信息和抓取点方向信息再环境信息中确定终点位置，之后再根据起点位置(已知量，可以由用户自行设定，也可以跟随深度图一同发送，也可以由机械臂告知)和环境信息来进行路径规划，路径规划中要保证机械臂(抓取器)能够顺利的抵到并成功抓取到目标物体，避免机械臂(抓取器)与其他障碍物发生碰到，抓取网络的输出就是机械臂(抓取器)抓取目标物体的抓取路径。

步骤103，将抓取路径发送至预设的用于模拟抓取路径的虚幻引擎，并接收虚幻引擎模拟抓取路径返回的目标物体的抓取结果。

具体的说，虚幻引擎中有搭建好的抓取设备(一个3D相机和一个机械臂(抓取器))，以及各种虚拟的障碍物和目标物体，虚幻引擎在接收到抓取路径之后，便会开始控制机械臂(抓取器)跟着抓取路径所指示的运动轨迹进行移动，在移动的过程中，机械臂还会判断自身是否与其他障碍物发生碰撞和自身有没有超出规定的限位，在达到抓取路径所是指示的终点时，机械臂判断是否有抓取到目标物体，在完成抓取路径所示的运动轨迹之后，便会根据自身是否与其他障碍物发生碰撞、自身有没有超出规定的限位以及是否抓取到目标物体来生成抓取结果，只有在抓取到目标物体且没有与其他障碍物发生碰撞且没有超出规定的限位的时候，才会将抓取成功作为所生成的抓取结果，在三个条件任一不满足的情况下，表明机械臂(抓取器)对目标物体的抓取结果是抓取失败。

此处需要注意的是，虚幻引擎中的所搭建的环境，必须和步骤101里所获取的包含目标物体的深度图的环境信息一致，实际上，本发明的虚幻引擎也可以在接收抓取路径的时候，同时获取到包含有目标物体的深度图，根据该深度图进行环境建模，在虚幻引擎中还原目标物体的环境信息，但由于环境建模所需要消耗的时间过于长，因此，本发明也可以现在虚幻引擎中搭建包含有抓取设备(一个3D相机和一个抓取臂)，以及各种虚拟的障碍物和目标物体的虚拟环境，由虚幻引擎获取步骤101所提及的包含目标物体的深度图。

步骤104，根据抓取结果修改抓取网络的网络参数，对抓取网络进行训练。

具体的说，所使用的抓取网络是基于强化学习建立的神经网络，抓取网络中包含有很多进行路径规划的方案，实际上抓取网络所输出的抓取路径还可以包含有路径规划方案的标识，当所输出的抓取路径的抓取结果是成功时，则会增加该抓取路径所对应的路径规划方案的所占据的权重，当所输出的抓取路径的抓取结果是失败时，则会降低该抓取路径所对应的路径规划方案的所占据的权重，以此来完成对抓取网络的网络参数的修改，实际上抓取网络没进行一次参数修改就相当于完成了一次训练。

本发明实施例涉及一种抓取网络训练方法，如图2所示，具体包括：

步骤201，获取包含目标物体的深度图。

具体的说，本步骤与本发明实施例中的步骤101中提及的包含目标物体的深度图的获取方式大致相同，此处不一一赘述。

步骤202，使用预设的定位网络对深度图进行处理获取目标物体的位置信息。

具体的说，定位网络是基于深度学习建立的神经网络，定位网络检测到有深度图输入时，由于所获取的深度图除了目标物体之外还有其他的一些障碍物，因此，首先会对深度图进行图像识别，在深度图上识别出目标物体(也可以识别出目标物体的所属的物品分类)，在识别出目标物体之后，就可以确定出目标物体在深度图中的位置信息，由于本发明所获取的深度图是三维的，因此所获取的目标物体的位置信息同样也是三维的；本发明也可以在使用定位网络对深度图进行处理时，在深度上用目标框的方式表示目标物体的位置信息，也可以将目标物体的位置信息作为深度图的标签来表示等等。

步骤203，使用预设的抓取点检测网络对深度图和位置信息进行处理获取目标物体的抓取点信息。

具体的说，抓取点检测网络也是基于深度学习建立的神经网络，抓取点检测网络在监测到有深度图和位置信息输入时，会执行的操作流程如图3所示：

步骤301，使用抓取点检测网络根据位置信息对深度图中的目标物体进行三维分割处理，获取目标物体的多个三维点信息。

具体的说，会根据目标物体的位置信息对深度图上的目标物体进行三维分割处理，来获取到该目标物体的所有三维点信息，本发明并不对进行三维分割处理时所采用的三维分割算法进行限定，任意一种可以对深度图进行三维分割的算法都可以使用。

步骤302，使用抓取点检测网络根据预设的选取规则从目标物体的多个三维点信息中选取一个三维点信息作为抓取点信息。

具体的说，预设的选取规则可以是选择目标去提的中心位置，也可以是根据目标物体的物品分类来选择(如杯子类选择杯把，帽子类选择帽檐处等等)，在目标物体的所有的三维点信息都获取到之后，可以根据选取规定的规则从所有的三维点信息中选择一个最合适的三维点信息，同时会根据该三维点信息在该目标物体的位置信息来生成抓取点信息，抓取点信息实际上包含抓取点位置信息和抓取点方向信息两种，抓取点位置信息实际上就是所选取的三维点信息的位置信息，而抓取点方向信息是根据该三维点信息在该目标物体的位置信息来获取的，如：三维点信息在该目标物体的背面，则抓取方向为从背后抓取，三维点信息在该目标物体的侧面，则抓取方向为从侧面抓取，抓取点方向信息可以是抓取的角度等任意一种可以表明方向的信息。

步骤204，将深度图和抓取点信息输入预设的抓取网络，获取目标物体的抓取路径。

具体的说，本步骤与本发明实施例中的步骤102大致相同，此处不一一赘述。

步骤205，将抓取路径发送至预设的用于模拟抓取路径的虚幻引擎，并接收虚幻引擎模拟抓取路径返回的目标物体的抓取结果。

步骤206，根据抓取结果修改抓取网络的网络参数，对抓取网络进行训练。

具体的说，本步骤与本发明实施例中的步骤104大致相同，此处不一一赘述。

本发明实施例，在其他实施例所带来的有益效果的基础之上，还可以可以通过深度学习的方法来获取目标物体的抓取点信息，使得本申请可以提高抓取点信息的生成速度，且在获取目标物体的抓取点信息时，只会对深度图中的目标物体进行三维分割，避免对整幅深度图都进行三维分割所带来的资源浪费和时间消耗，以此来提升抓取网络的训练速度。

本发明实施例涉及一种抓取网络训练方法，如图4所示，具体包括：

步骤401，获取训练数据集，其中，训练数据集包括包含训练物体的深度图、训练物体的实际位置信息和训练物体的实际抓取点信息。

具体的说，训练数据集中包含有多组训练数据，每一组训练数据是由训练物体的深度图、训练物体的实际位置信息和训练物体的实际抓取点信息组成的，一张深度图中可以包含有多个训练物体，以此来丰富训练样本数量，采用一组训练数据就可以完成多次训练。

步骤402，将包含训练物体的深度图输入预设的定位网络，获取训练物体的预测位置信息。

具体的说，本步骤获取训练物体的预测位置信息的方法与步骤202提及的获取目标物体的位置信息的方法大致相同，此处不一一赘述。

步骤403，根据预测位置信息、预测位置信息和预设的定位损失函数训练定位网络。

具体的说，定位损失函数的表达式为：定位损失＝预测位置信息-实际位置信息；根据预测位置信息和实际位置信息的偏差来训练定位网络，而当定位损失函数收敛(位置信息偏差在毫米级别时)时，就说明定位网络的准确度已达到使用要求，可以投入使用。

步骤404，将包含训练物体的深度图、预测位置信息输入预设的抓取点检测网络获取训练物体的预测抓取点信息。

具体的说，本步骤获取训练物体的预测抓取点信息的方法与步骤203提及的获取目标物体的抓取点信息的方法大致相同，此处不一一赘述。

步骤405，根据预测抓取点信息、实际抓取点信息和预设的检测损失函数训练抓取点检测网络。

具体的说，检测损失函数的表达式为：检测损失＝预测抓取点信息-实际抓取点信息；根据预测抓取点信息和实际抓取点信息的偏差来训练抓取点检测网络，而当检测损失函数收敛(抓取点信息偏差在毫米级别时)时，就说明抓取点检测网络的准确度已达到使用要求，可以投入使用

步骤406，获取包含目标物体的深度图。

步骤407，使用定位网络对深度图进行处理获取目标物体的位置信息。

步骤408，使用抓取点检测网络对深度图和位置信息进行处理获取目标物体的抓取点信息。

具体的说，本步骤与本发明实施例中的步骤203大致相同，此处不一一赘述。

步骤409，将深度图和抓取点信息输入预设的抓取网络，获取目标物体的抓取路径。

步骤410，将抓取路径发送至预设的用于模拟抓取路径的虚幻引擎，并接收虚幻引擎模拟抓取路径返回的目标物体的抓取结果。

步骤411，根据抓取结果修改抓取网络的网络参数，对抓取网络进行训练。

本发明实施例，在其他实施例所带来的有益效果的基础之上，还可以利用现有的数据来完成对定位网络和抓取点检测网络的训练，提高所获取的位置信息和抓取点信息的准确性，进而提高本申请所规划的抓取路径准确性。

本发明实施例涉及一种抓取网络训练方法，如图5所示，具体包括：

步骤501，获取包含目标物体的深度图和目标物体的抓取点信息。

具体的说，本步骤与本发明实施例中的步骤101大致相同，此处不一一赘述。

步骤502，将深度图和抓取点信息输入预设的抓取网络，获取目标物体的抓取路径。

步骤503，将抓取路径发送至预设的用于模拟抓取路径的虚幻引擎，并接收虚幻引擎模拟抓取路径返回的目标物体的抓取结果。

具体的说，本步骤与本发明实施例中的步骤103大致相同，此处不一一赘述。

步骤504，根据抓取结果修改抓取网络的网络参数，对抓取网络进行训练。

步骤505，获取训练之后的抓取网络的损失函数。

具体的说，在抓取网络每进行一次训练之后，抓取网络的损失函数就会由于抓取网络的网络参数的改变而发生变化，而损失函数又是抓取网络是都达到收敛的判断依据，因此，在每次对抓取网络进行训练之后，都需要获取抓取网络的损失函数，而损失函数的公式是由所采用的强化学习的模型决定的，此处并不进行限制。

步骤506，当损失函数收敛时，停止对抓取网络进行训练。

具体的说，当损失函数的值满足一定条件(如抓取成功的概率达到95％以上时)时，就说明损失函数已经收敛，此时的抓取网络所输出的抓取路径的准确性已经很高，不需要再进行训练，可以投入使用。

本发明实施例，在其他实施例所带来的有益效果的基础之上，还可以自动判断抓取网络的训练是否已经完成，提高本发明的抓取网络训练方法的自动化程度。

本发明实施例涉及一种抓取网络训练方法，应用在虚幻引擎上，如图6所示，具体包括：

步骤601，接收抓取网络返回的抓取路径，其中，抓取路径是抓取网络根据包含目标物体的深度图和目标物体的抓取点信息获取的。

具体的说，虚幻引擎是用于根据抓取路径来模拟机械臂抓取目标物体的，在训练过程中，可以在虚幻引擎中设置多个机械臂和目标物体，虚幻引擎可以同时接收抓取网络发送的多个路径结果，来同时进行模拟，可以提升抓取路径的响应速度。

步骤602，根据抓取路径控制预设的抓取器抓取目标物体，获取抓取器的移动信息和障碍信息。

具体的说，虚幻引擎在接收到抓取路径之后，便会开始控制机械臂(抓取器)跟着抓取路径所指示的运动轨迹进行移动，在移动的过程中，机械臂(抓取器)所产生的位移信息就是抓取器的移动信息；还会判断自身是否与其他障碍物发生碰撞和自身有没有超出规定的限位，抓取器的障碍信息就是有无发生碰撞和有无超出规定的限位。

步骤603，根据移动信息和障碍信息获取目标物体的抓取结果，并将抓取结果发送至抓取网络，以供抓取网络根据抓取结果修改抓取网络的网络参数，对抓取网络进行训练。

具体的说，首先根据移动信息判断，机械臂(抓取器)是否抵达目标物体，抵达目标物体则认为有接触到目标物体，抵达目标物体则认为没有接触到目标物体；而通过障碍信息判断机械臂(抓取器)是否由遇到障碍情况(发生碰撞和或超出限位)，只有在抓取到目标物体且没有与其他障碍物发生碰撞且没有超出规定的限位的时候，才会将抓取成功作为所生成的抓取结果，否则抓取结果就是抓取失败，在抓取结果生成之后，便会将其发送至抓取网络，由抓取网络对抓取结果进行处理，来完成自身的训练。

本发明实施例，在其他实施例所带来的有益效果的基础之上，还可以通过使用虚幻引擎来模拟抓取网络所生成的抓取路径，获取所生成的抓取路径是否能够准确的抓取到目标物体，且获取在抓取过程中的障碍信息，避免了使用现实物理世界来验证所生成的抓取路径所带来的经济损失，降级了抓取网络训练的成本。

本发明实施例涉及一种抓取网络训练方法，如图7所示，具体包括：

步骤701，接收抓取网络返回的抓取路径，其中，抓取路径是抓取网络根据包含目标物体的深度图和目标物体的抓取点信息获取的。

具体的说，本步骤与本发明实施例中的步骤601大致相同，此处不一一赘述。

步骤702，根据抓取路径控制预设的抓取器抓取目标物体，获取抓取器的移动信息和障碍信息。

具体的说，本步骤与本发明实施例中的步骤602大致相同，此处不一一赘述。

步骤703，根据移动信息判断抓取器是否抓取到目标物体。

具体的说，根据移动信息判断，机械臂(抓取器)是否抵达目标物体，抵达目标物体则认为有接触到目标物体，抵达目标物体则认为没有接触到目标物体。

步骤704，根据障碍信息判断抓取器是否遇到障碍。

具体的说，障碍信息中包含有两种信息，一种是碰撞信息，一种是超出限位信息，而在障碍信息不包含这两种信息时，认为机械臂(抓取器)未遇到障碍，而在障碍信息包含这两种信息中的任意一个或全部时，认为机械臂(抓取器)未遇到障碍。

步骤705，若抓取器抓取到目标物体且抓取器未遇到障碍，则将抓取成功作为抓取结果，否则，将抓取失败作为抓取结果。

具体的说，只有在抓取到目标物体且没有与其他障碍物发生碰撞且没有超出规定的限位的时候，才会将抓取成功作为所生成的抓取结果，其余情况都认定为目标物体的抓取结果是失败的。

步骤706，将抓取结果发送至抓取网络，以供抓取网络根据抓取结果修改抓取网络的网络参数，对抓取网络进行训练。

具体的说，本步骤的与本发明实施例中的步骤603提交的发送抓取结果的方法大致相同，此处不一一赘述。

本发明实施例，在其他实施例所带来的有益效果的基础之上，还可以通过是否抓取到目标物体和抓取过程中是否碰到障碍两个方面综合考虑抓取结果，可以提高本申请所获取的抓取结果的准确性。

本发明实施例涉及一种抓取网络训练系统，如图8所示，具体包括：

获取模块801，获取包含目标物体的深度图和目标物体的抓取点信息；

输入模块802，将深度图和抓取点信息输入预设的抓取网络，获取目标物体的抓取路径；

接收模块803，将抓取路径发送至预设的用于模拟抓取路径的虚幻引擎，并接收虚幻引擎模拟抓取路径返回的目标物体的抓取结果；

训练模块804，根据抓取结果修改抓取网络的网络参数，对抓取网络进行训练。

值得一提的是，本申请的实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明实施例涉及一种电子设备，如图9所示，包括：

至少一个处理器901；以及，

与所述至少一个处理器901通信连接的存储器902；其中，

所述存储器902存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器901执行，以使所述至少一个处理器901能够执行本发明以上任一所述的抓取网络训练方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种抓取网络训练方法，其特征在于，所述方法包括：

获取包含目标物体的深度图和所述目标物体的抓取点信息；

将所述深度图和所述抓取点信息输入预设的抓取网络，获取所述目标物体的抓取路径；

将所述抓取路径发送至预设的用于模拟所述抓取路径的虚幻引擎，并接收所述虚幻引擎模拟所述抓取路径返回的所述目标物体的抓取结果；

根据所述抓取结果修改所述抓取网络的网络参数，对所述抓取网络进行训练；

其中，获取所述目标物体的抓取点信息包括：

获取所述目标物体的类型，并使用预设的定位网络对所述深度图进行处理获取所述目标物体的位置信息；

使用预设的抓取点检测网络对所述深度图、所述类型和所述位置信息进行处理获取所述目标物体的抓取点信息。

2.根据权利要求1所述的抓取网络训练方法，其特征在于，所述使用预设的抓取点检测网络对所述深度图、所述类型和所述位置信息进行处理获取所述目标物体的抓取点信息，包括：

使用所述抓取点检测网络根据所述位置信息对所述深度图中的所述目标物体进行三维分割处理，获取所述目标物体的多个三维点信息；

使用所述抓取点检测网络根据预设的选取规则和所述类型从所述目标物体的多个三维点信息中选取一个三维点信息作为所述抓取点信息。

3.根据权利要求1所述的抓取网络训练方法，其特征在于，所述获取所述目标物体的抓取点信息之前，还包括：

获取训练数据集，其中，所述训练数据集包括包含训练物体的深度图、所述训练物体的实际位置信息和所述训练物体的实际抓取点信息；

将所述包含训练物体的深度图输入所述定位网络，获取所述训练物体的预测位置信息；

根据所述预测位置信息、所述实际位置信息和预设的定位损失函数训练所述定位网络；

将所述包含训练物体的深度图、所述预测位置信息输入所述抓取点检测网络获取所述训练物体的预测抓取点信息；

根据所述预测抓取点信息、所述实际抓取点信息和预设的检测损失函数训练所述抓取点检测网络。

4.根据权利要求1所述的抓取网络训练方法，其特征在于，所述根据所述抓取结果修改所述抓取网络的网络参数，对所述抓取网络进行训练之后还包括：

获取进行训练之后的所述抓取网络的损失函数；

当所述损失函数收敛时，停止对所述抓取网络进行训练。

5.一种抓取网络训练方法，其特征在于，应用在虚幻引擎上，所述方法包括：

接收抓取网络返回的抓取路径，其中，所述抓取路径是所述抓取网络根据包含目标物体的深度图和所述目标物体的抓取点信息获取的；

根据所述抓取路径控制预设的抓取器抓取所述目标物体，获取所述抓取器的移动信息和障碍信息；

根据所述移动信息和所述障碍信息获取所述目标物体的抓取结果，并将所述抓取结果发送至所述抓取网络，以供所述抓取网络根据所述抓取结果修改所述抓取网络的网络参数，对所述抓取网络进行训练；

其中，获取所述目标物体的抓取点信息，包括：

6.根据权利要求5所述的抓取网络训练方法，其特征在于，所述根据所述移动信息和所述障碍信息获取所述目标物体的抓取结果，包括：

根据所述移动信息判断所述抓取器是否抓取到所述目标物体；

根据所述障碍信息判断所述抓取器是否遇到障碍；

若所述抓取器抓取到所述目标物体且所述抓取器未遇到障碍，则将抓取成功作为所述抓取结果，否则，将抓取失败作为所述抓取结果。

7.一种抓取网络训练系统，其特征在于，所述系统包括：

训练模块，根据所述抓取结果修改所述抓取网络的网络参数，对所述抓取网络进行训练；

其中，获取所述目标物体的抓取点信息包括：

8.一种电子设备，其特征在于，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至权利要求4中任一所述的抓取网络训练方法，或权利要求5至权利要求6中任一所述的抓取网络训练方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一所述的抓取网络训练方法，或权利要求5至权利要求6中任一所述的抓取网络训练方法。