CN116097315A

CN116097315A - 电子设备及其控制方法

Info

Publication number: CN116097315A
Application number: CN202180051471.3A
Authority: CN
Inventors: 韩兴宇; 姜诚玟
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-10-20
Filing date: 2021-10-20
Publication date: 2023-05-09
Also published as: EP4044125A4; WO2022086157A1; EP4044125A1; US20220270198A1

Abstract

一种电子设备包括：相机；抓取器，配置为对抓取目标对象进行抓取；存储器，被配置为存储神经网络模型；以及处理器，被配置为：通过将由相机捕获的至少一个图像输入到神经网络模型来获得抓取器的移动信息和旋转信息，以及基于移动信息和旋转信息来控制抓取器。所述至少一个图像包括抓取器的至少部分和抓取目标对象的至少部分，并且神经网络模型被配置为基于所述至少一个图像输出用于将抓取器定位到接近抓取目标对象的移动信息和旋转信息，移动信息包括抓取器的第一方向移动、第二方向移动或移动停止中的一个，并且旋转信息包括抓取器的第一方向旋转、第二方向旋转或不旋转中的一个。

Description

电子设备及其控制方法

技术领域

与本公开一致的设备和方法涉及一种电子设备及其控制方法，更具体地，涉及一种包括抓取器的电子设备及其控制方法。

背景技术

根据近年来电子技术的发展，已经开发和分发了各种类型的电子设备。

特别地，用于各种目的的机器人已经被部署在工厂和家庭中。这样的机器人可执行抓取外部对象并将外部对象从一个位置移动或运输到另一位置的操作。

作为示例，在工厂中部署的工业机器人可抓取人难以抓取的对象并将对象运输到特定位置，或者可执行组装。作为另一示例，家中的机器人可执行室内清洁(诸如运送异物)，或者可将人难以抓取的对象或危险对象移动到特定位置。

然而，相关技术的机器人可仅在其正确地识别对象时(诸如，例如当其准确地识别到对象的距离、对象的形状等时)抓取对象。准确地识别到对象的距离或对象的形状是非常困难的，并且存在准确地识别到对象的距离或对象的形状所需的计算量大的问题。

因此，需要一种不需要准确地识别到对象的距离、对象的形状等而通过高效地将抓取器定位到接近对象来抓取对象的技术。

发明内容

技术问题

提供了一种通过有效地控制抓取器来抓取外部对象的电子设备及其控制方法。

技术方案

根据本公开的一方面，一种电子设备可包括：相机；抓取器，被配置为对抓取目标对象进行抓取；存储器，被配置为存储神经网络模型；以及处理器，被配置为：通过将相机捕获的至少一个图像输入到神经网络模型中，从神经网络模型获取抓取器的移动信息和旋转信息，并基于移动信息和旋转信息控制抓取器，其中，所述至少一个图像包括抓取器的至少部分和抓取目标对象的至少部分，神经网络模型被配置为基于所述至少一个图像输出用于将抓取器定位到接近抓取目标对象的移动信息和旋转信息，移动信息包括抓取器的第一方向移动、第二方向移动或移动停止中的一个，并且旋转信息包括抓取器的第一方向旋转、第二方向旋转或不旋转中的一个。

包括抓取器的这种电子设备的优点在于，其允许利用分类模型来识别和朝向将被抓取的抓取目标对象的移动，该分类模型使用预测抓取目标对象的相对位置的神经网络模型，使得可仅利用低成本传感器作为相机而不需要抓取目标对象的准确3D位置信息来准确地执行对抓取目标对象的抓取。换句话说，本文提出的电子设备不需要昂贵的单独传感器(例如IR深度传感器、立体传感器或另一复杂图像传感器)，而仅需要简单的低成本传感器(例如简单的相机)，从而显著降低电子设备的总成本，同时保持在水平/垂直和旋转方向上的高精度移动。此外，这种电子设备提供了提高的抓取精度。

处理器可基于与移动停止对应的移动信息和与不旋转对应的旋转信息来控制抓取器对抓取目标对象进行抓取。在这样的实施例中，不需要向抓取器给出单独的抓取指令，因为一旦移动信息与移动停止信息对应并且旋转信息与不旋转信息对应，抓取器就可抓取到抓取目标对象。因此，一旦抓取器相对于抓取目标对象的位置和方位被正确地定位，抓取操作就可自动地被执行。从神经网络模型输出的移动信息可包括x轴移动信息、y轴移动信息和z轴移动信息，x轴移动信息可包括抓取器在x轴方向上的第一方向移动、抓取器在x轴方向上的第二方向移动或抓取器在x轴方向上的移动停止中的一个，y轴移动信息可包括抓取器在y轴方向上的第一方向移动、抓取器在y轴方向上的第二方向移动或抓取器在y轴方向上的移动停止中的一个，并且z轴移动信息可包括抓取器在z轴方向上的第一方向移动、抓取器在z轴方向上的第二方向移动或抓取器在z轴方向上的移动停止中的一个。在这样的实施例中，有利地，通过神经网络模型针对x、y和z轴中的每个精确地确定抓取器是否应被移动/将被移动，并且如果是，则在哪个线性方向上抓取器应被移动/将被移动(向前或向后)，以(进一步)接近抓取目标对象和/或将抓取器的位置和/或方位调整到将被抓取的目标对象的位置和/或方位。

从神经网络模型输出的旋转信息可包括x轴旋转信息、y轴旋转信息和z轴旋转信息，x轴旋转信息可包括抓取器围绕x轴的顺时针旋转、抓取器围绕x轴的逆时针旋转或抓取器围绕x轴的不旋转中的一个，y轴旋转信息可包括抓取器围绕y轴的顺时针旋转、抓取器围绕y轴的逆时针旋转或抓取器围绕y轴的不旋转中的一个，并且z轴旋转信息可包括抓取器围绕z轴的顺时针旋转、抓取器围绕z轴的逆时针旋转或抓取器围绕z轴的不旋转中的一个。在这样的实施例中，有利地，通过神经网络模型针对x、y和z轴中的每个精确地确定抓取器是否被移动/将被旋转，并且如果是，则在哪个旋转方向上抓取器应被移动/将被旋转(顺时针或逆时针)，以(进一步)接近抓取目标对象和/或将抓取器的位置和/或方位调整到将被抓取的目标对象的位置和/或方位。

处理器可被配置为：基于识别出抓取器根据移动信息迭代预定操作，控制抓取器对抓取目标对象进行抓取。在这样的实施例中，抓取指令与基于获得的移动信息的预定操作模式的识别相关联，使得有利地不需要执行抓取目标对象的额外的位置识别，并且不需要接收额外的抓取指令。

至少一个图像可包括第一图像和第二图像。处理器可被配置为：通过将第一图像和第二图像输入到神经网络模型来获得第一移动信息和第一旋转信息，基于第一移动信息和第一旋转信息控制抓取器，基于由相机捕获到第三图像和第四图像，通过将第三图像和第四图像输入到神经网络模型来获得第二移动信息和第二旋转信息，其中，第三图像和第四图像是基于抓取器根据第一移动信息和第一旋转信息被控制而被捕获的，以及基于第二移动信息和第二旋转信息控制抓取器。在这样的实施例中，抓取器可有利地以流畅且(成本)有效的方式被移动。换句话说，在这样的实施例中，处理器可基于由神经网络模型实时或以预定时间间隔输出的移动信息和旋转信息来移动和旋转抓取器，以将抓取器定位到接近抓取目标对象。因此，当基于第一移动信息和第一旋转信息执行抓取器的第一移动时，抓取器的移动可(在移动中)被调整，执行基于第二移动信息和第二旋转信息的第二移动。

优选地，第一图像和第二图像包括可从其获得深度值的信息，其中，处理器不基于第一图像和第二图像获得深度值，而是通过仅使用第一图像和第二图像作为神经网络模型的输入训练的神经网络在考虑深度信息的情况下获得移动信息和旋转信息。

在另外的优选实施例中，基于第一移动信息和第一旋转信息的抓取器的移动被执行预定时间和/或直到达到预定距离。

进一步优选地，执行基于第一移动信息和第一旋转信息的抓取器的移动，直到触发/发起基于接收的第二移动信息和第二旋转信息的抓取器的移动。神经网络模型可被配置为：基于至少一个图像获得深度图，并基于深度图输出移动信息和旋转信息。使用这种神经网络模型，可仅使用由简单的低成本相机捕获的至少一个图像来接近抓取器的操作区域/空间内的抓取目标对象的深度位置。因此，这样的神经网络模型使得能够在抓取器的操作区域/空间内非常成本有效并且仍然精确地定位抓取目标对象。

神经网络模型可被训练为基于包括在多个训练图像中的每个训练图像中的抓取器的至少部分与外部对象的至少部分之间的距离信息，输出用于将抓取器定位到接近外部对象的移动信息和旋转信息。在这样的实施例中，神经网络模型有利地不需要用回归模型预测连续数值来确定抓取目标对象的绝对和准确位置/距离，而是可使用分类模型，遵循确定若干选择之一的方案，仅将到抓取目标对象的相对距离分类为例如接近、远离或相同。利用这种分类模型，神经网络的学习变得容易，并且更容易确保神经网络模型的性能。

相机可包括多个相机，并且多个相机可被彼此间隔开，并且可被配置为以不同的角度拍摄抓取目标对象。在这样的实施例中，电子设备有利地使用立体视觉，允许使用从不同角度从多个相机捕获的图像更精确地进行上述分类。

进一步优选地，相机是立体视觉相机。

根据本公开的一方面，一种包括神经网络模型的电子设备的控制方法可包括：通过将至少一个图像输入到神经网络模型来从神经网络模型获得抓取器的移动信息和旋转信息；以及基于移动信息和旋转信息控制抓取器，其中，所述至少一个图像包括抓取器的至少部分和抓取目标对象的至少部分，神经网络模型基于所述至少一个图像输出用于将抓取器定位到接近抓取目标对象的移动信息和旋转信息。

移动信息包括抓取器的第一方向移动、第二方向移动或移动停止中的一个，并且旋转信息包括抓取器的第一方向旋转、第二方向旋转或不旋转中的一个。这种方法受益于上述针对电子设备的优点。

控制方法可包括：基于与移动停止对应的移动信息和与不旋转对应的旋转信息，控制抓取器对抓取目标对象进行抓取。利用这种方法，不需要向抓取器给出单独的抓取指令，因为一旦移动信息与移动停止信息对应并且旋转信息与不旋转信息对应，抓取器就可抓取到抓取目标对象。因此，一旦抓取器相对于抓取目标对象的位置和方位被正确地定位，抓取操作就可自动地被执行。

从神经网络模型输出的移动信息可以包括x轴移动信息、y轴移动信息和z轴移动信息，x轴移动信息可包括抓取器在x轴方向上的第一方向移动、抓取器在x轴方向上的第二方向移动或抓取器在x轴方向上的移动停止中的一个，y轴移动信息可包括抓取器在y轴方向上的第一方向移动、抓取器在y轴方向上的第二方向移动或抓取器在y轴方向上的移动停止中的一个，并且z轴移动信息可包括抓取器在z轴方向上的第一方向移动、抓取器在z轴方向上的第二方向移动或抓取器在z轴方向上的移动停止中的一个。在该方法的这种实施例中，有利地，通过神经网络模型针对x、y和z轴中的每个精确地确定抓取器是否应被移动/将被移动，并且如果是，则在哪个线性方向(向前或向后)上抓取器应被移动/将被移动，以(进一步)接近抓取目标对象和/或将抓取器的位置和/或方位调整到将被抓取的目标对象的位置和/或方位。

从神经网络模型输出的旋转信息可包括x轴旋转信息、y轴旋转信息和z轴旋转信息。x轴旋转信息可包括抓取器围绕x轴的顺时针旋转、抓取器围绕x轴的逆时针旋转或抓取器围绕x轴的不旋转中的一个，y轴旋转信息可包括抓取器围绕y轴的顺时针旋转、抓取器围绕y轴的逆时针旋转或抓取器围绕y轴的不旋转中的一个，并且z轴旋转信息可包括抓取器围绕z轴的顺时针旋转、抓取器围绕z轴的逆时针旋转或抓取器围绕z轴的不旋转中的一个。在该方法的这种实施例中，有利地，通过神经网络模型针对x、y和z轴中的每个精确地确定抓取器是否应被旋转/将被旋转，并且如果是，则在哪个旋转方向(顺时针或逆时针)上抓取器应被旋转/将被旋转，以(进一步)接近抓取目标对象和/或将抓取器的位置和/或方位调整到将被抓取的目标对象的位置和/或方位。

所述方法可包括：基于识别出抓取器根据移动信息迭代预定操作，控制抓取器对抓取目标对象进行抓取。在该方法的这种实施例中，抓取指令与基于获得的移动信息的预定操作模式的识别相关联，使得有利地不需要执行抓取目标对象的额外的位置识别，并且不需要接收额外的抓取指令。

至少一个图像可包括第一图像和第二图像。获得移动信息和旋转信息可包括：通过将第一图像和第二图像输入到神经网络模型来获得第一移动信息和第一旋转信息。控制抓取器可包括基于第一移动信息和第一旋转信息控制抓取器。所述控制方法可以包括：基于由相机捕获到第三图像和第四图像，通过将第三图像和第四图像输入到神经网络模型来获得第二移动信息和第二旋转信息，其中，第三图像和第四图像是基于抓取器根据第一移动信息和第一旋转信息被控制而被捕获的；以及基于第二移动信息和第二旋转信息控制抓取器。在该方法的这种实施例中，抓取器可有利地以流畅且(成本)有效的方式被移动，而不需要昂贵的传感器。

优选地，仅使用由神经网络模型输出的移动信息和旋转信息来控制抓取器。特别优选地，电子设备除了相机之外不包括用于获得神经网络模型的输入数据的任何另外的传感器。

在进一步优选的实施例中，由神经网络模型输出的移动信息仅包括关于是否在第一方向或第二方向上移动抓取器或是否停止抓取器的移动或是否将抓取器保持在当前位置的信息。

优选地，神经网络模型输出的移动信息不包括将抓取器移动多少(也就是，移动距离)的信息。

优选地，神经网络模型分别计算沿着特定轴在第一方向上的移动的概率、沿着所述特定轴在第二方向上的移动的概率、以及沿着所述特定轴的移动停止的概率(即，分别针对x轴、y轴或z轴的三个概率)，所述概率指示沿着所述轴的各自移动或移动停止将使得移动抓取器更接近抓取目标对象的各自概率有多高。

进一步优选地，由神经网络模型输出最高概率作为所述特定轴的移动信息。

同样根据优选实施例，神经网络模型分别计算围绕特定轴在第一方向上的旋转、围绕所述特定轴在第二方向上的旋转以及围绕所述特定轴的旋转停止的概率(即，分别针对x轴、y轴或z轴的三个概率)，所述概率指示围绕所述轴的各自旋转或旋转停止将使得移动抓取器更接近抓取目标对象的各自概率有多高。

进一步优选地，由神经网络模型输出最高概率作为所述特定轴的旋转信息。

优选地，神经网络模型输出用于将抓取器定位到接近抓取目标对象的移动信息和旋转信息，移动信息包括抓取器的第一方向移动、第二方向移动或移动停止中的一个，旋转信息包括抓取器的第一方向旋转、第二方向旋转或不旋转中的一个。

发明效果

根据本公开的各种实施例，机器人可通过在移动抓取器以抓取外部对象时消耗尽可能少地时间和尽可能少地移动来被定位到接近外部对象。

附图说明

图1是示出根据本公开的实施例的电子设备的组件的框图；

图2是用于示意性地描述根据本公开的实施例的抓取器的移动和旋转的视图；

图3是用于描述根据本公开的实施例的神经网络模型的视图；

图4是用于描述根据本公开的实施例的移动信息和旋转信息的视图；

图5是用于描述根据本公开的实施例的神经网络模型的训练的视图；以及

图6是用于描述根据本公开的实施例的电子设备的控制方法的流程图。

图7是用于描述根据实施例的电子设备的控制方法的流程图；以及

图8是示出根据实施例的电子设备的组件的框图。

具体实施方式

在示意性地描述说明书中使用的术语之后，将详细描述本公开。

考虑到本公开中的功能，当前广泛使用的一般术语被选择作为本公开的实施例中使用的术语，但是可根据本领域技术人员的意图或司法先例、新技术的出现等被改变。此外，在特定情况下，可能存在申请人任意选择的术语。在这种情况下，这些术语的含义将在本公开的相应描述部分中被详细提及。因此，在本公开的实施例中使用的术语将基于术语的含义和贯穿本公开的内容而不是术语的简单名称来被定义。

因为本公开可被各种修改并且具有若干实施例，所以本公开的特定实施例将在附图中被示出并且在具体实施方式中被详细描述。然而，应当理解，本公开不限于特定实施例，而是包括在不脱离本公开的范围和精神的情况下的所有修改、等同物和替换。当决定对与本公开相关的已知技术的详细描述可能模糊本公开的主旨时，将省略该详细描述。

术语“第一”、“第二”等可被用于描述各种组件，但是组件不应被解释为受这些术语的限制。这些术语仅被用于将一个组件与另一组件区分开。

除非上下文另有明确指示，否则单数形式旨在包括复数形式。应当理解，说明书中使用的术语“包括”或“由……形成”指定说明书中提及的特征、数字、步骤、操作、组件、部件或其组合的存在，但不排除一个或更多个其他特征、数字、步骤、操作、组件、部件或其组合的存在或添加。

在本公开中，“模块”或“部件”可执行至少一个功能或操作，并且被实现为硬件或软件，或者被实现为硬件和软件的组合。另外，除了需要被实现为特定硬件的“模块”或“部件”之外，多个“模块”或多个“部件”可被集成在至少一个模块中并且被实现为至少一个处理器(未示出)。

在下文中，将参照附图详细描述本公开的实施例，使得本公开所属领域的技术人员可容易地实践本公开。然而，本公开可以以各种不同的形式被修改，并且不限于本文描述的实施例。另外，在附图中，将省略与描述无关的部分以明显地描述本公开，并且在整个说明书中将使用类似的附图标记来描述类似的部分。

图1是示出根据本公开的实施例的电子设备的组件的框图。

如图1所示，根据本公开的实施例的电子设备100可被实现为各种类型的装置，诸如用户设备、显示装置、机顶盒、平板个人计算机(PC)、智能电话、电子书阅读器、台式PC、膝上型PC、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器和自助服务终端。然而，这是示例，并且电子设备100可被实现为各种类型的电子设备，诸如与配件型装置(例如，手表、戒指、手镯、脚链、项链、眼镜、隐形眼镜或头戴式装置(HMD))或纺织品或服装整体型装置(例如，电子服装)中的至少一个对应的可穿戴装置，包括驱动器的机器人、投影仪和服务器。

根据本公开的实施例的电子设备100可被实现为机器人。这里，机器人可指具有自身执行功能的能力的各种类型的机器。作为示例，机器人可指除了简单的重复功能之外，基于传感器、相机等实时感测周围环境、收集信息并自主操作的智能机器。

根据本公开的实施例的电子设备100可指机器人设备。这里，机器人设备可指具有自身执行功能的能力的各种类型的机器。作为示例，机器人设备可指除了简单的重复功能之外，基于传感器、相机110等实时感测周围环境、收集信息并自主操作的智能机器。

电子设备100包括能够抓取或移动外部对象的抓取器120(诸如，人的手指)。同时，抓取器120也可被称为机器人手，它是关节型机器人的末端部分，但是为了便于说明，在下文中将被统称为抓取器120。

同时，电子设备100可根据其使用领域或其可执行的功能被划分为工业机器人、医疗机器人、家庭机器人、军事机器人和探索机器人。根据实施例，工业机器人可被细分为在工厂中的产品制造过程中使用的机器人，在商店、餐馆等中执行客户接待、订单接收和服务的机器人等。例如，根据本公开的实施例的电子设备100可被实现为机器人，该机器人可在各种地方(诸如，工厂、酒店、集市、医院和服装店)控制设置在主体中的抓取器120以抓取外部对象，然后将外部对象运输到特定位置。然而，这仅是示例，并且机器人可根据利用领域、功能和使用目的被各种分类，并且不限于上述示例。

传统机器人基于包括外部对象的图像的深度图来计算外部对象与抓取器之间的距离作为特定数值，基于计算的距离移动抓取器，然后抓取外部对象。例如，传统机器人可仅在获得外部对象的位置信息(或外部对象与抓取器之间的距离信息)时将抓取器定位到接近外部对象，并且可控制抓取器抓取外部对象。这样的抓取方法存在如下问题：仅当外部对象与抓取器之间的距离被大致准确地计算在误差范围内时，机器人才能顺利地抓取外部对象，当计算的距离在误差范围外时，机器人会无法顺利地抓握外部对象，或者在经历多次反复试验后抓取外部对象。这里，反复试验是指，当机器人无法抓取外部对象时，机器人重新计算外部对象与抓取器之间的距离，基于重新计算的距离移动抓取器，然后抓取外部对象。同时，在下文中，为了便于说明，由电子设备100通过抓取器120抓取的外部对象将被统称为抓取目标对象。

传统机器人使用神经网络模型计算抓取目标对象与抓取器之间的距离，然后基于计算的距离将抓取器定位到接近抓取目标对象，而根据本公开实施例的电子设备100可在不计算抓取器120与抓取目标对象之间的距离的情况下将抓取器120的移动和旋转分类为至少三个类别中的任何一个。然后，电子设备100可基于分类的类别移动抓取器120或旋转抓取器120以将抓取器120定位到接近抓取目标对象。在下文中，将描述根据本公开的各种实施例的通过电子设备100获得抓取器120的移动和旋转中的每个的任何一个类别的方法，以及通过电子设备100将抓取器120定位到接近抓取目标对象的方法。

如图1所示，电子设备100包括相机110、抓取器120、存储器130和处理器140。

相机110是用于捕获静止图像或移动图像的组件。相机110可在特定时间点捕获静止图像，但是也可连续地捕获静止图像。根据本公开的实施例的相机110可将获得的图像提供给处理器140。根据本公开的实施例，可实现多个相机110。

抓取器120可以是在电子设备的臂的端部处的装置，并且可被构造用于抓取对象。例如，抓取器120可以是冲击式抓取器、摄取式抓取器、收缩式抓取器、邻接式抓取器等。

存储器130可被实现为包括在处理器140中的内部存储器，诸如只读存储器(ROM)(例如，电可擦除可编程只读存储器(EEPROM))、随机存取存储器(RAM)等，或者被实现为与处理器140分离的存储器。在这种情况下，取决于数据存储目的，存储器130可以以嵌入在电子设备100中的存储器的形式或者可附接到电子设备100并且从电子设备100可拆卸的存储器的形式来实现。例如，用于驱动电子设备100的数据可被存储在嵌入在电子设备100中的存储器中，并且用于电子设备100的扩展功能的数据可被存储在可附接到电子设备100并且从电子设备100可拆卸的存储器中。同时，嵌入在电子设备100中的存储器可被实现为易失性存储器(例如，动态RAM(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)等)或非易失性存储器(例如，一次性可编程ROM(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩模ROM、闪存ROM、闪存(例如，NAND闪存、NOR闪存等)、硬盘驱动器、或固态硬盘(SSD))中的至少一个，并且可附接到电子设备100并且从电子设备100可拆卸的存储器可以以存储卡(例如，紧凑型闪存(CF)、安全数字(SD)、micro-SD、mini-SD、极限数字(xD)、多媒体卡(MMC)等)、可连接到USB端口的外部存储器(例如，通用串行总线(USB)存储器)等的形式来实现。

具体地，存储器130存储神经网络模型10。

处理器140控制电子设备100的一般操作。

根据实施例，处理器140可被实现为处理数字视频信号的数字信号处理器(DSP)、微处理器、人工智能(AI)处理器或定时控制器(T-CON)。然而，处理器140不限于此，并且可包括中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、通信处理器(CP)和ARM处理器中的一个或更多个，或者可由这些术语定义。另外，处理器140可被实现为嵌入有处理算法的片上系统(SoC)或大规模集成(LSI)，或者可以以现场可编程门阵列(FPGA)的形式被实现。

通过处理器140和存储器130来操作根据本公开的与人工智能相关的功能。处理器140可包括一个或更多个处理器。在这种情况下，一个或更多个处理器可以是通用处理器(诸如中央处理单元(CPU)、应用处理器(AP)和数字信号处理器(DSP))、图形专用处理器(诸如图形处理单元(GPU)和视觉处理单元(VPU))、或者人工智能专用处理器(诸如神经处理单元(NPU))。一个或更多个处理器执行控制以根据存储在存储器130中的预定义的操作规则或人工智能模型来处理输入数据。可选地，当一个或更多个处理器是人工智能专用处理器时，可以以专用于处理特定人工智能模型的硬件结构来设计人工智能专用处理器。

具体地，处理器140通过将通过相机110接收的至少一个图像输入到存储在存储器130中的神经网络模型10来获得抓取器120的移动信息。例如，处理器140可通过将第一图像和第二图像输入到神经网络模型10来获得抓取器120的移动信息。

这里，第一图像和第二图像中的每个可以是包括抓取目标对象的至少部分的不同图像。例如，第一图像和第二图像可以是通过分别不同地拍摄相同的抓取目标对象而获得的图像。根据实施例，当相机110被实现为立体视觉相机时，立体视觉相机可通过基于相同原理不同地拍摄相同的抓取目标对象来获得左眼图像和右眼图像，该相同原理是当与相同对象间隔开约6.5cm的人的双眼看着相同对象时在左眼和右眼上形成不同的图像。这里，左眼图像和右眼图像可分别是第一图像和第二图像。

作为示例，第一图像和第二图像可以是通过分别以不同角度(或视点)和不同比率拍摄相同抓取目标对象而获得的图像。作为另一示例，第一图像和第二图像可以是通过分别在不同时间拍摄相同抓取目标对象而获得的图像。

另外，除了抓取目标对象之外，第一图像和第二图像还可分别包括抓取器120的至少部分。

根据本公开的实施例的处理器140可通过将第一图像和第二图像输入到神经网络模型10来获得用于将抓取器120定位到接近抓取目标对象的移动信息和旋转信息。

然而，这是示例，并且本公开不限于此。处理器140可如上所述将第一图像和第二图像输入到神经网络模型10，并且神经网络模型10可输出深度信息以及抓取器120的移动信息和旋转信息，或者处理器140可基于第一图像和第二图像获得深度信息，并通过将获得的深度信息输入到神经网络模型10来获得抓取器120的移动信息和旋转信息。

图2是用于描述根据本公开的实施例的神经网络模型10的视图。

下面将参照图2更详细地描述第一图像1和第二图像2。根据实施例，相机110可包括至少两个相机。例如，相机110可被实现为立体视觉相机，并且处理器140可使用第一图像1和第二图像2来获得抓取目标对象的深度，在第一图像1和第二图像2中反映了通过立体视觉相机不同地拍摄一个抓取目标对象的双眼视差特性。因此，第一图像1和第二图像2可包括可从其获得深度值的信息，并且根据本公开的实施例，处理器140不基于第一图像1和第二图像2显式地获得深度值，并且可通过仅使用第一图像1和第二图像2作为神经网络模型10的输入训练的神经网络模型10，在考虑深度信息的情况下获得移动信息和旋转信息。

可仅使用第一图像1和第二图像2而不是深度信息作为输入来训练根据本公开实施例的神经网络模型10。在这种情况下，神经网络模型10可获得包括在第一图像1和第二图像2中的信息(例如，深度信息)，并且基于这样的信息调整与配置神经网络模型10的多个层中的每个层对应的权重，使得当输出多个层的概率值时可考虑深度信息。稍后将描述其详细内容，也就是，神经网络模型10的训练过程。

同时，立体视觉相机可指基于至少两个不同图像(例如，第一图像和第二图像)来获得抓取目标对象的深度信息(或距离信息)的相机110，这些图像是通过使用与人使用他/她的左眼与右眼之间的视差三维地看着外部对象的原理相同的原理以不同角度拍摄抓取目标对象而获得。

立体视觉相机可包括在电子设备100上被设置为彼此间隔开的多个相机，但不限于此。例如，可以以通过以第一角度拍摄抓取目标对象然后以第二角度拍摄抓取目标对象来顺序地获得第一图像1和第二图像2的方式来实现设置在电子设备100中的一个相机110。

根据实施例，处理器140可通过将第一图像1和第二图像2输入到神经网络模型10来获得用于移动抓取器120的移动信息和用于旋转抓取器120的旋转信息。

处理器140可基于移动信息在第一方向上移动抓取器120，在第二方向上移动抓取器120，或者停止抓取器120的移动。

另外，处理器140可基于旋转信息在第一方向上旋转抓取器120，在第二方向上旋转抓取器120，或者不旋转抓取器120。

将参照图3提供根据实施例的由神经网络模型10基于输入到神经网络模型10的第一图像1和第二图像2输出移动信息和旋转信息的详细描述。

图3是用于示意性地描述根据本公开的实施例的抓取器120的移动和旋转的视图。

神经网络模型10可基于第一图像1和第二图像2输出用于将抓取器120定位到接近抓取目标对象的移动信息，该移动信息包括抓取器120的第一方向移动、第二方向移动或移动停止中的一个。

例如，移动信息可包括x轴移动信息、y轴移动信息和z轴移动信息。

根据实施例的x轴移动信息指抓取器120的水平移动信息。具体地，x轴移动信息可包括x轴方向上的第一方向移动(+)、第二方向移动(-)或移动停止中的一个。这里，x轴方向上的第一方向移动可指抓取器120的向左移动，x轴方向上的第二方向移动可指抓取器120的向右移动，并且移动停止可指将抓取器120相对于x轴保持在当前位置。

根据实施例的y轴移动信息指抓取器120的垂直移动信息。具体地，y轴移动信息可包括抓取器120在y轴方向上的第一方向移动(+)、第二方向移动(-)或移动停止中的一个。这里，y轴方向上的第一方向移动可指抓取器120的向上移动，y轴方向上的第二方向移动可指抓取器120的向下移动，并且移动停止可指将抓取器120相对于y轴保持在当前位置。

根据实施例的z轴移动信息指抓取器120的向前和向后移动信息。具体地，z轴移动信息可包括抓取器120在z轴方向上的第一方向移动(+)、第二方向移动(-)或移动停止中的一个。这里，z轴方向上的第一方向移动可指抓取器120的向前移动，z轴方向上的第二方向移动可指抓取器120的向后移动，并且移动停止可指将抓取器120相对于z轴保持在当前位置。

也就是说，第二方向可指与第一方向正好相反的方向。

另外，神经网络模型10可基于第一图像和第二图像输出用于将抓取器120定位到接近抓取目标对象的旋转信息，该旋转信息包括抓取器120的顺时针旋转(顺时针(+))、逆时针旋转(逆时针(-))或不旋转中的一个。根据实施例的旋转信息可包括抓取器120的x轴旋转信息、y轴旋转信息和z轴旋转信息。

这里，x轴旋转信息可包括抓取器120围绕x轴的顺时针旋转(顺时针(+))、抓取器120围绕x轴的逆时针旋转(逆时针(-))、或抓取器120围绕x轴的不旋转中的一个。

y轴旋转信息可包括抓取器120围绕y轴的顺时针旋转(顺时针(+))、抓取器120围绕y轴的逆时针旋转(逆时针(-))、或抓取器120围绕y轴的不旋转中的一个。

z轴旋转信息可包括抓取器120围绕z轴的顺时针旋转(顺时针(+))、抓取器120围绕z轴的逆时针旋转(逆时针(-))、或抓取器120围绕z轴的不旋转中的一个。

也就是说，神经网络模型10不输出抓取器120在特定方向上的具体移动距离(移动量)作为移动信息，而是可针对三个轴中的每个轴将抓取器120的移动分类为至少三个类别，并且输出分类的类别作为移动信息。这里，至少三个类别可分别与第一方向移动(+)、第二方向移动(-)和移动停止对应。

也就是说，神经网络模型10不输出抓取器120围绕特定轴的旋转角度(旋转量)作为旋转信息，而是可针对三个轴中的每个轴将抓取器120的旋转分类为至少三个类别，并且输出分类的类别作为旋转信息。这里，至少三个类别可分别与顺时针旋转(顺时针(+))、逆时针旋转(逆时针(-))和不旋转对应。

在电子设备100的该实施例中，抓取器120可在三个维度上移动，表示它沿着x轴、y轴和z轴可移动并且围绕x轴、y轴和z轴可旋转。

然而，电子设备100的其他实施例也可被实现，在其他实施例中，抓取器120仅在两个维度上或甚至仅在一个维度上可移动，表示它仅沿着x轴和y轴、x轴和z轴或者y轴和z轴可移动和/或围绕x轴和y轴、x轴和z轴或者y轴和z轴可旋转，或者甚至仅沿着x轴、y轴或z轴可移动和/或围绕x轴、y轴或z轴可旋转。此外，在该实施例中，对于每个轴，抓取器120的移动和/或旋转被神经网络模型10分类为三个类别，并作为移动/旋转信息被输出。

然而，如上所述，在电子设备的其他实施例中，对于每个轴，抓取器120的移动和/或旋转也可被神经网络模型10分类为多于三个类别并且作为移动/旋转信息被输出，例如，分类为四个、五个、六个、七个、八个、九个、十个或甚至多于十个类别。图4是用于描述根据本公开的实施例的移动信息和旋转信息的视图。

图4是用于描述根据实施例的移动信息和旋转信息的视图。

参照图4，当输入包括抓取器120的至少部分和抓取目标对象的至少部分的第一图像1和第二图像2中的每个时，神经网络模型10可计算概率，该概率指示当执行第一方向移动(+)、第二方向移动(-)或移动停止(0)中的哪一个以将抓取器120定位到接近抓取目标对象时，抓取器120可到达用于对抓取目标对象进行抓取的位置。

作为示例，基于通过以不同角度拍摄抓取器120的至少部分和抓取目标对象的至少部分而获得的第一图像1和第二图像2，神经网络模型10可获得以下中的每个：在第一方向移动时抓取器120将被定位到更接近抓取目标对象的第一概率、在第二方向移动时抓取器120将被定位到更接近抓取目标对象的第二概率、以及指示在当前位置处抓取器120是否被定位到接近抓取目标对象的第三概率。

这里，第一概率至第三概率的总和可以是1。同时，抓取器120被定位到接近抓取目标对象的含义可以是抓取器120被定位在执行抓取操作时抓取器120可抓取到抓取目标对象的距离处。

然后，神经网络模型10可输出与第一概率至第三概率中的最大值对应的移动(或移动停止)作为移动信息。例如，当第一概率是最大值时，神经网络模型10可输出与第一概率对应的第一方向移动(+)作为移动信息。

同时，如上所述，由神经网络模型10输出的移动信息可仅包括关于是否在第一方向或第二方向上移动抓取器120或者是否停止抓取器120的移动(或者是否将抓取器120保持在当前位置)的信息，并且可不包括关于将抓取器120移动多少的信息，也就是，移动距离。

另外，当输入抓取器120的第一图像和第二图像中的每个时，神经网络模型10可计算概率，该概率指示应当执行围绕特定轴的顺时针旋转(顺时针(+))、逆时针旋转(逆时针(-))或不旋转中的哪一个以将抓取器120定位到接近抓取目标对象。作为示例，神经网络模型10可获得以下中的每个：在围绕x轴顺时针(顺时针(+))旋转时抓取器120将被定位到更接近抓取目标对象的第一概率、在围绕x轴逆时针(逆时针(-))旋转时抓取器120将被定位到更接近抓取目标对象的第二概率、以及指示抓取器120相对于x轴的角度被定位到接近抓取目标对象并且不需要抓取器120的顺时针或逆时针旋转的第三概率。这里，第一概率至第三概率的总和可以是1。同时，抓取器120被定位到接近抓取目标对象的含义可以是抓取器120被定位到在执行抓取操作时抓取器120可抓取到抓取目标对象的距离处。

然后，神经网络模型10可输出与第一概率至第三概率的最大值对应的旋转(或不旋转)作为旋转信息。例如，当第二概率是最大值时，神经网络模型10可输出与第二概率对应的逆时针旋转(逆时针(-))作为旋转信息。

然后，处理器140可基于移动信息和旋转信息中的每个来移动(或停止移动)抓取器120并且旋转(或不旋转)抓取器120。参照图4，当移动信息包括x轴方向上的第一方向移动、y轴方向上的第二方向移动和z轴方向上的移动停止时，处理器140可基于移动信息相对于x轴在第一方向(例如，向左方向)上移动抓取器120，相对于y轴在第二方向(例如，向上方向)上移动抓取器120，并且相对于z轴停止抓取器120的移动。

另外，参照图4，当旋转信息包括围绕x轴的顺时针旋转、围绕y轴的逆时针旋转和围绕z轴的不旋转时，处理器140可基于旋转信息围绕x轴顺时针旋转抓取器120，围绕y轴逆时针旋转抓取器120，并且围绕z轴不旋转抓取器120。

同时，图4中的特定概率数字仅是为了便于说明的示例，并且神经网络模型10可基于第一图像1和第二图像2输出彼此各种组合的移动信息和旋转信息。在下文中，为了便于说明，第一方向和顺时针方向将由(+)表示，第二方向和逆时针方向将由(-)表示，并且移动停止和不旋转将由(0)表示。

根据本公开的实施例，处理器140可基于移动信息和旋转信息来移动和旋转抓取器120。然后，处理器140可通过相机110实时地或以预定时间间隔接收图像，并且通过将接收的图像输入到神经网络模型来获得抓取器120的下一移动信息和旋转信息。

具体地，处理器140可通过将第一图像1和第二图像2输入到神经网络模型10来获得第一移动信息和第一旋转信息。例如，如图4所示，第一移动信息可包括x轴方向上的(+)、y轴方向上的(-)和z轴方向上的(0)，并且第一旋转信息可包括围绕x轴的(+)、围绕y轴的(-)、围绕z轴的(0)。

然后，处理器140可通过将通过相机110接收的第三图像和第四图像输入到神经网络模型10来获得第二移动信息和第二旋转信息。这里，第三图像和第四图像可以是通过在从第一图像和第二图像开始的预定时间之后拍摄抓取目标对象和抓取器120而获得的图像。也就是说，第三图像和第四图像中的每个可包括与根据第一移动信息和第一旋转信息控制(例如，移动和旋转)的抓取器120的当前位置对应的抓取器120的至少部分。

具体地，当在处理器140基于第一移动信息将抓取器120的移动控制为x轴方向上的(+)、y轴方向上的(-)和z轴方向上的(0)，并且将抓取器120的旋转控制为围绕x轴的(+)、围绕y轴的(-)和z轴上的(0)的同时，从相机110接收到第三图像和第四图像时，处理器140可通过将第三图像和第四图像输入到神经网络模型10来获得第二移动信息和第二旋转信息。

作为另一示例，处理器140可基于第一移动信息将抓取器120在x轴方向上的(+)、在y轴方向上的(-)和在z轴方向上的(0)移动预定时间，并且基于第一旋转信息将抓取器120围绕x轴的(+)、围绕y轴的(-)、在z轴上的(0)旋转预定时间。然后，当随着预定时间流逝的在与第一移动信息对应的抓取器120的移动和与第一旋转信息对应的抓取器120的旋转结束之后，接收到包括与抓取器120的当前位置对应的抓取器120的至少部分的第三图像和第四图像时，处理器140可通过将第三图像和第四图像输入到神经网络模型10来获得第二移动信息和第二旋转信息。

这里，第三图像和第四图像可以是在自相机110捕获第一图像1和第二图像2起经过预定时间之后，通过分别以不同角度捕获抓取器120的至少部分和抓取目标对象的至少部分而获得的图像。例如，相机110可以以0.05秒的时间间隔获得一对图像(例如，第三图像和第四图像)，并将该对图像发送到处理器140。

作为示例，当相机110被实现为立体视觉相机时，一对图像可包括通过使用彼此被间隔设置的多个相机中的任何一个相机拍摄抓取器120的至少部分和抓取目标对象的至少部分而获得的图像，以及通过使用多个相机中的另一相机拍摄抓取器120的至少部分和抓取目标对象的至少部分而获得的图像。

同时，0.05秒仅是示例，并且相机110可在相对短于0.05秒的时间间隔或相对长于0.05秒的时间间隔获得一对图像。例如，在其他实施例中，时间间隔可以是0.01秒、0.02秒、0.03秒、0.04秒、0.06秒、0.07秒、0.08秒、0.09秒或0.1秒。然而，在其他实施例中，时间间隔甚至可相对短于0.1秒或相对长于0.1秒。

根据实施例，当处理器140分别基于第一移动信息和第一旋转信息移动和旋转抓取器120时，在从获得第一图像1的时间点经过预定时间之后获得的第三图像中包括的抓取器120的位置可与第一图像中包括的抓取器120的位置不同。

例如，当处理器140基于第一移动信息将抓取器120移动0.05秒时，第三图像中包括的抓取器120的位置将与第一图像中包括的抓取器120的位置相差“0.05(s)*抓取器120的移动速度(m/s)”。

第四图像中包括的抓取器120的位置与第二图像2中包括的抓取器120的位置相差“0.05(s)*抓取器120的移动速度(m/s)”。

因此，神经网络模型10基于抓取器120的当前位置输出下一移动信息，并且由神经网络模型10输出的对应于第三图像和第四图像的第二移动信息因此可与对应于第一图像1和第二图像2的第一移动信息相同或不同。

例如，与第一图像1和第二图像2对应的第一移动信息可以是x轴方向上的(+)、y轴方向上的(-)和z轴方向上的(0)，并且与第三图像和第四图像对应的第二移动信息可以是x轴方向上的(0)、y轴方向上的(+)和z轴方向上的(0)。

另外，当处理器140基于第一旋转信息将抓取器120旋转0.05秒时，第三图像中包括的抓取器120与抓取目标对象之间相对于特定轴的角度差可不同于第一图像1中包括的抓取器120与抓取目标对象之间相对于特定轴的角度差。第四图像中包括的抓取器120与抓取目标对象之间相对于特定轴的角度差也可不同于第二图像2中包括的抓取器120与抓取目标对象之间相对于特定轴的角度差。

因此，神经网络模型10基于抓取器120的当前位置输出下一(或新的)旋转信息，并且对应于第三图像和第四图像的第二旋转信息可与对应于第一图像1和第二图像2的第一旋转信息相同或不同。

例如，与第一图像1和第二图像2对应的第一旋转信息可以是围绕x轴的(+)、围绕y轴的(-)和围绕z轴的(0)，并且与第三图像和第四图像对应的第二旋转信息可以是围绕x轴的(+)、围绕y轴的(0)和围绕z轴的(0)。

也就是说，神经网络模型10可基于实时或以预定时间间隔接收的图像来实时或以预定时间间隔输出用于将抓取器120定位到接近抓取目标对象的移动信息和旋转信息。

神经网络模型10不输出与抓取器120的移动距离、旋转角度等对应的特定数值，而是可实时或以预定时间间隔输出与抓取器120的当前位置对应的移动信息和旋转信息。因此，处理器140可基于由神经网络模型10实时或以预定时间间隔输出的移动信息和旋转信息来移动和旋转抓取器120，以将抓取器120定位到接近抓取目标对象。

图5是用于描述根据本公开的实施例的神经网络模型10的训练的视图。

<神经网络模型的训练>

通过训练来创建根据本公开的实施例的神经网络模型10，以输出用于将抓取器120定位到接近多个训练图像中的每个训练图像中包括的外部对象的移动信息和旋转信息。

这里，通过训练的创建是指，通过训练算法使用多个训练数据对基本人工智能模型进行训练，创建被设置为执行期望的特性(或目的)的预先定义的操作规则或人工智能模型。这样的训练可在执行根据本公开的人工智能的设备本身中被执行，或者可通过单独的服务器和/或系统被执行。训练算法的示例包括监督训练、无监督训练、半监督训练或强化训练，但不限于此。

将描述根据实施例的由监督训练算法训练的神经网络模型。首先，将参照图5描述获得神经网络模型的训练数据的方法。

<获得神经网络模型的训练数据的方法>

首先，训练数据生成模块(未示出)可在传统的基于规则的机器人或包括神经网络模型的传统机器人控制抓取器抓取外部对象时，通过拍摄抓取器的移动来获得立体视觉图像。这里，立体视觉图像可以是包括设置在传统机器人中的抓取器的至少部分和外部对象的至少部分并且通过拍摄抓取器移动而获得的图像，直到抓取器移动和旋转以被定位到接近外部对象，然后抓取外部对象。另外，配置立体视觉图像的多个帧可分别包括不同的图像对。例如，多个帧中的每个可包括通过同时且以不同角度拍摄抓取器的至少部分和外部对象的至少部分而获得的一对图像。这里，图像对中的每对图像可包括抓取器的部分。抓取器的至少部分可指作为抓取器的组件的与抓取目标对象接触的夹爪或手指部分。同时，训练数据生成模块可指处理器140的一个功能，或者可指在外部设备中提供的生成训练数据的处理器。

另外，训练数据生成模块可获得传统机器人输出的控制信号以移动抓取器。

作为示例，训练数据生成模块可获得i)用于抓取器相对于x轴、y轴和z轴中的每个的移动方向的控制信号，或者ii)用于抓取器围绕x轴、y轴和z轴中的每个的旋转方向的控制信号，这些控制信号由传统的基于规则的机器人输出以将抓取器移动到接近外部对象。

作为另一示例，训练数据生成模块可获得i)用于抓取器相对于x轴、y轴和z轴中的每个的移动方向的控制信号，或者ii)用于抓取器围绕x轴、y轴和z轴中的每个的旋转方向的控制信号，这些控制信号由包括神经网络模型的传统机器人输出以将抓取器移动到接近外部对象。可选地，训练数据生成模块可获得抓取器的移动坐标值(以及映射到每个移动坐标值的抓取器围绕每个轴的旋转角度)。

训练数据生成模块可获得所获得的控制信号或者抓取器的移动坐标值和映射到每个移动坐标值的每个轴的旋转角度，并且可从传感器的感测数据获得抓取器在空间中的移动坐标值和映射到每个移动坐标值的每个轴的旋转角度。

训练数据生成模块可将多个获得的移动坐标值和映射到每个移动坐标值的每个轴的旋转角度配置为抓取器轨迹数据，并且抓取器轨迹数据可被用作训练用于抓取的抓取器的移动的训练数据。同时，抓取器轨迹数据可仅包括空间中的移动坐标值，或者可进一步包括映射到每个移动坐标值的每个轴的旋转角度。

这里，传统机器人中包括的神经网络模型可以是计算抓取器与外部对象之间的距离的模型，并且传统机器人可以是基于计算的距离移动抓取器以接近外部对象的机器人。

然后，训练数据生成模块可以以帧为单位划分从传统机器人获得的立体视觉图像，并且基于抓取器轨迹数据将映射到第n-1个图像帧的抓取器轨迹数据(抓取器在空间中的坐标值或每个轴的旋转角度)与映射到第n个图像帧的抓取器轨迹数据进行比较，以确定抓取器已经在哪个方向上相对移动，从而将抓取器相对于x轴的移动方向与第一方向移动、第二方向移动或移动停止中的任何一个匹配，将抓取器相对于所述y轴的移动方向与第一方向移动、第二方向移动或移动停止中的任何一个匹配，并且将抓取器相对于z轴的移动方向与第一方向移动、第二方向移动或移动停止中的任何一个匹配。

训练数据生成模块可使用与多个帧中的每个帧对应的抓取器相对于x轴、y轴和z轴中的每个的移动方向作为基础事实来生成训练数据。

作为示例，参照图5，基于用于抓取器相对于x轴、y轴和z轴中的每个的移动方向的控制信号，当i)第一帧中抓取器相对于x轴的移动方向是第一方向，第一帧中抓取器相对于y轴的移动方向是第二方向，在第一帧中抓取器相对于z轴的移动方向是移动停止时，训练数据生成模块可使用“x轴的(+)、y轴的(-)、z轴的(0)”作为第一帧中抓取器的移动方向的基础事实来生成训练数据。这里，第一帧可包括不同的图像(例如，以不同角度捕获的图像)，不同的图像包括如图5所示的抓取器的至少部分和抓取目标对象的至少部分。

另外，训练数据生成模块可基于抓取器轨迹数据将映射到第n-1个图像帧的抓取器轨迹数据(抓取器在空间中的坐标值或每个轴的旋转角度)与映射到第n个图像帧的抓取器轨迹数据进行比较，以确定抓取器已经在哪个方向上相对旋转，从而将抓取器围绕x轴的旋转方向与第一方向旋转、第二方向旋转或不旋转中的任何一个匹配，将抓取器围绕y轴的旋转方向与第一方向旋转、第二方向旋转或不旋转中的任何一个匹配，并且将抓取器围绕z轴的旋转方向与第一方向旋转、第二方向旋转或不旋转中的任何一个匹配。

训练数据生成模块可使用与多个帧中的每个对应的抓取器相对于x轴、y轴和z轴中的每个的旋转方向作为基础事实来生成训练数据。

作为示例，参照图5，基于用于抓取器围绕x轴、y轴和z轴中的每个的旋转方向的控制信号，当ii)第一帧中抓取器围绕x轴的旋转方向是第二方向，第一帧中抓取器围绕y轴的旋转方向是不旋转，第一帧中抓取器围绕z轴的旋转方向是不旋转时，训练数据生成模块可使用“x轴的(-)、y轴的(0)、z轴的(0)”作为第一帧中抓取器的旋转方向的基础事实来生成训练数据。同时，为了便于说明，上面已经描述了第一方向已由(+)表示，第二方向已由(-)表示，并且移动停止或不旋转已由(0)表示。

同时，在上文中，假设并描述了在现有的机器人将抓取器定位到接近外部对象时基于通过拍摄抓取器的移动而得到的图像来生成训练数据的例子，但不限于此。

例如，训练数据生成模块可获得通过将传感器附接在人的手臂或手上并拍摄手的至少部分和外部对象的至少部分而获得的图像。然后，训练数据生成模块可基于从传感器接收的感测数据来识别i)人手的x轴、y轴和z轴中的每个的移动方向，以及ii)人手的x轴、y轴和z轴中的每个的旋转方向。然后，训练数据生成模块可通过将捕获图像与i)x轴、y轴和z轴中的每个的移动方向以及ii)x轴、y轴和z轴中的每个的旋转方向匹配来生成训练数据。

<训练神经网络模型的方法>

参照图5，当传统的基于规则的机器人或包括神经网络模型的传统机器人控制抓取器抓取外部对象时，通过拍摄抓取器的移动而获得的配置立体视觉图像的多个帧中的每个可以是神经网络模型的输入训练数据。

作为示例，配置立体视觉图像的多个帧中的第一帧可包括一对图像(例如，第一图像1和第二图像2)。

根据实施例，神经网络模型10训练模块可将一对图像(例如，第一图像1和第二图像2)输入到神经网络模型10，并且神经网络模型10可基于输入的一对图像中的每个图像中包括的外部对象的至少部分和抓取器120的至少部分，输出用于将抓取器120定位到接近抓取目标对象的移动信息和旋转信息，移动信息包括抓取器120的第一方向移动、第二方向移动或移动停止中的一个，旋转信息包括抓取器120的第一方向旋转、第二方向旋转或不旋转中的一个。

参照图5，神经网络模型10可基于一对图像，获得以下中的每个：相对于x轴在第一方向移动时抓取器120将被定位到更接近抓取目标对象的第一概率、相对于x轴在第二方向移动时抓取器120将被定位到更接近抓取目标对象的第二概率以及指示在当前位置处抓取器120是否被定位到接近抓取目标对象的第三概率。同时，第一概率至第三概率的总和可以不是1。

这里，神经网络模型10可基于第一概率至第三概率中的每个与基础事实之间的误差来获得误差值。这里，根据基础事实，与该对图像对应的抓取器120的移动方向可具有值1(参见图5的GT标签)，其余移动方向可具有值0，并且由神经网络模型10基于该对图像输出的第一概率至第三概率(参见图5的网络输出)中的每个可具有值0至1。因此，误差值(参见图5的误差)可具有-1至1的值。也就是说，参照图5，误差值可指与GT标签对应的值1和与网络输出对应的概率值之间的差。

根据实施例的神经网络模型10训练模块可调整配置神经网络模型10的隐藏层的权重和参数以最小化误差值。

此外，除了移动方向之外，还针对旋转方向，神经网络模型训练模块可通过与上述方法相同的方法基于第一概率至第三概率中的每个与基础事实之间的误差来获得误差值，并且训练神经网络模型10以最小化误差值。例如，神经网络模型训练模块可基于随机梯度下降来搜索最佳权重，并且可基于最佳权重来调整每个隐藏层的权重。

同时，参照图5，神经网络模型10可输出与抓取器120的x轴、y轴和z轴移动方向中的每个对应的第一概率至第三概率，以及与抓取器120的x轴、y轴和z轴旋转方向中的每个对应的第一概率至第三概率，也就是说，总共18个概率。并且神经网络模型训练模块可基于总共18个概率中的每个与对应于总共18个概率中的每个的基础事实之间的误差来获得总共18个误差值。

在下文中，将描述根据另一实施例的由强化训练算法训练的神经网络模型10。

强化训练算法是训练神经网络模型10以在当前状态下执行最优动作并且每当动作被执行时对该动作给予奖励的算法。具体地，神经网络模型训练模块可训练神经网络模型10以最大化奖励。

根据本公开的实施例，神经网络模型10可输出包括抓取器120的第一方向移动、第二方向移动或移动停止中的一个的移动信息和包括抓取器120的第一方向旋转、第二方向旋转或不旋转中的一个的旋转信息，以将抓取器120定位到接近外部对象。

在这种情况下，强化训练算法可根据由神经网络模型10输出的移动信息和旋转信息将抓取器120被定位到比之前更接近外部对象的情况设置为奖励。根据实施例，神经网络模型训练模块可根据神经网络模型10输出的移动信息和旋转信息来训练神经网络模型，使得抓取器120尽可能地接近外部对象作为抓取器120的移动的结果，也就是说，奖励变得最大。

另外，强化训练算法可将抓取器120抓取外部对象并将外部对象移动预定距离的情况设置为奖励。在这种情况下，神经网络模型训练模块可训练神经网络模型10，使得抓取器120被定位在其可抓取外部对象的距离内，并且使得抓取器120被定位在其可稳定地抓取外部对象的距离内，以根据由神经网络模型10输出的移动信息和旋转信息将外部对象移动预定距离或更多。

根据实施例，当由于抓取器120根据神经网络模型10输出的移动信息和旋转信息的移动和旋转，抓取器120变得更远离外部对象或者未能抓取外部对象时，强化训练算法可不提供奖励。

此外，抓取器120可执行相对于x轴的第一方向移动、第二方向移动或移动停止中的任何一个，相对于y轴的第一方向移动、第二方向移动或移动停止中的任何一个，相对于z轴的第一方向移动、第二方向移动或移动停止中的任何一个。

另外，抓取器120可执行围绕x轴第一方向旋转、第二方向旋转、不旋转中的任何一个，执行围绕y轴第一方向旋转、第二方向旋转、不旋转中的任何一个，以及执行围绕z轴第一方向旋转、第二方向旋转、不旋转中的任何一个。也就是说，抓取器120移动的情况的总数可以是729(3⁶)。

根据本公开的另一实施例的神经网络模型训练模块可基于抓取器120的当前状态(例如，抓取器120当前与抓取目标对象间隔开的水平)，使用深度Q网络，考虑到直到抓取器120被定位在其可抓取外部对象的距离内最终需要的移动的预期次数以及当抓取器120被定位到接近外部对象时抓取器120的移动总共729种情况的数量，训练神经网络模型10以输出移动信息和旋转信息。

同时，人工智能模型可包括多个神经网络层。多个神经网络层中的每个具有多个权重值，并且通过前一层的运算结果与多个权重之间的运算来执行神经网络运算。可通过人工智能模型的训练结果来优化多个神经网络层的多个权重。例如，可更新多个权重，使得在训练过程期间从人工智能模型获得的损失值或成本值减小或最小化。人工神经网络可包括深度神经网络(DNN)，并且可包括例如卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、深度Q网络等，并且不限于上述示例。

传统的基于规则的机器人或包括神经网络模型的传统机器人基于相机捕获的图像计算抓取器与抓取目标对象之间的距离，然后基于计算的距离移动抓取器。在这种情况下，存在以下限制：机器人很难在误差范围内识别抓取器与抓取目标对象之间的距离，并且仅当识别出抓取器与抓取目标对象之间的距离在误差范围内时(或者仅当计算的距离的可靠性高时)，机器人才可顺利地对抓取目标对象进行抓取。

另一方面，根据本公开的实施例的神经网络模型10针对抓取器120相对于每个轴的移动方向推导与三个类别(例如，第一方向移动、第二方向移动和移动停止)中的每个对应的概率值(较高的概率值表示它对应于在抓取器120的当前状态下将被选择以对抓取目标对象进行抓取的最适当的项)，并选择具有最高概率值的类别作为移动方向。另外，神经网络模型10针对抓取器120围绕每个轴的旋转方向推导与三个类别(例如，第一方向旋转、第二方向旋转和不旋转)中的每个对应的概率值(较高的概率值表示它对应于在抓取器120的当前状态下将被选择以对抓取目标对象进行抓取的最适当的项)，并选择具有最高概率值的类别作为旋转方向。

然后，处理器140基于移动方向和旋转信息来移动和旋转抓取器120，因此，不需要计算距抓取目标对象的误差范围内的距离(例如，移动距离或旋转角度)，并且可以以较少的反复试验将抓取器120定位到接近抓取目标对象。

图6是用于描述根据本公开的实施例的电子设备100的控制方法的流程图。

首先，电子设备100通过将至少一个图像输入到神经网络模型10来获得抓取器120的移动信息和旋转信息(S610)。这里，上面已经描述了至少一个图像可以是包括通过立体视觉相机(时间点t)获得的抓取器120的至少部分和抓取器120的至少部分的一对图像。

然后，电子设备100基于获得的移动信息和旋转信息来移动和旋转抓取器120(S620)。例如，电子设备100可基于移动信息在第一方向或第二方向中的任何一个上移动抓取器120或者停止抓取器120的移动(例如，将抓取器120固定在当前位置)。

另外，电子设备100可基于旋转信息在第一方向或第二方向中的任何一个上旋转抓取器120或者不旋转抓取器120(例如，当抓取器120旋转时，停止抓取器120的旋转)。这里，上面已经描述了第一方向可以是顺时针方向，并且第二方向可以是逆时针方向。

然后，电子设备100可获得至少一个图像，该至少一个图像包括其位置基于移动信息和旋转信息被改变的抓取器的至少部分以及抓取目标对象的至少部分(时间点t+1)。例如，电子设备100可通过相机110实时地或以预定时间间隔获得图像，并且获得的图像可包括在处理器140的控制下移动或旋转以具有改变的位置的抓取器120的当前状态。

电子设备100可通过将至少一个图像输入到神经网络模型来获得抓取器120的下一(或新的)移动信息和旋转信息(S630)。这里，因为在S620中抓取器120已移动或旋转，所以下一移动信息和旋转信息可指与其位置被改变的抓取器120的当前状态对应的移动信息和旋转信息。

然后，当在S630中获得的移动信息包括移动停止(0)并且在S630中获得的旋转信息包括不旋转(0)时(S640：是)，电子设备100可停止抓取器120的移动和旋转。作为示例，当所有轴(x、y和z轴)上的移动信息包括移动停止(0)并且所有轴(x、y和z轴)上的旋转信息包括不旋转(0)时，这表示抓取器120被定位到其可抓取到抓取目标对象的距离内，并且电子设备100因此可停止抓取器120的移动和旋转并控制抓取器120对抓取目标对象进行抓取。

作为另一示例，当在S630中获得的移动信息和旋转信息(例如，与x、y和z轴中的每个对应的六个移动和旋转方向信息)中的指示抓取器120的移动和旋转的至少一个信息被获得时(S640：否)，电子设备100可基于在S630中获得的与三个轴对应的移动信息和旋转信息来移动和旋转抓取器120(S650)。例如，当移动信息不包括移动停止(0)或者旋转信息不包括不旋转(0)时，这表示抓取器120没有被定位在其可抓取到抓取目标对象的距离内，并且电子设备100因此可移动和旋转抓取器120以将抓取器120定位在抓取器120可抓取到抓取目标对象的距离内。

同时，在S650之后，可迭代地执行S630和S640。

<迭代1>

作为示例，电子设备100可获得包括根据从在时间点t+1(t+2)获得的图像获得的移动信息和旋转信息而移动和旋转的抓取器120的当前状态的至少一个图像，并且通过将至少一个图像输入到神经网络模型10来获得移动信息和旋转信息(S630)。然后，当在迭代1中获得的移动信息包括移动停止(0)并且在迭代1中获得的旋转信息包括不旋转(0)时(S640：是)，电子设备100可停止抓取器120的移动并对抓取目标对象进行抓取。

作为另一示例，当在迭代1中获得的移动信息和旋转信息(例如，与x、y和z轴中的每个对应的六个移动和旋转方向信息)中的指示抓取器120的移动和旋转的至少一个信息被获得时(S640：否)，电子设备100可基于在迭代1中获得的移动信息和旋转信息(即，基于在时间点t+2获得的至少一个图像获得的移动信息和旋转信息)来移动和旋转抓取器120。

然后，电子设备100可迭代地执行<迭代2>，也就是说，S630和S640。

同时，当识别出抓取器120基于移动信息和旋转信息迭代预定操作时，根据本公开实施例的电子设备100还可控制抓取器120对抓取目标对象执行抓取操作。作为示例，识别出在抓取器120接近抓取目标对象的状态下，抓取器120基于在迭代1和迭代2中的每个中获得的移动信息，交替地仅执行垂直移动、水平移动或向前和向后移动，电子设备100可确定抓取器120被定位在其可抓取到抓取目标对象的距离处，并且控制抓取器120对抓取目标对象进行抓取。

作为另一示例，识别出在抓取器120接近抓取目标对象的状态下，抓取器120基于在迭代1和迭代2中的每个中获得的旋转信息，交替地仅执行围绕x轴的顺时针和逆时针旋转、围绕y轴的顺时针和逆时针旋转以及围绕z轴的顺时针和逆时针旋转，电子设备100可确定抓取器120被定位在其可抓取到抓取目标对象的距离处，并且控制抓取器120对抓取目标对象进行抓取。

该控制方法还可包括：基于移动信息和旋转信息，控制抓取器120对抓取目标对象执行抓取操作，其中，移动信息与移动停止对应，旋转信息与不旋转对应。

另外，从神经网络模型10输出的移动信息可包括x轴移动信息、y轴移动信息和z轴移动信息，x轴移动信息可包括抓取器120在x轴方向上的第一方向移动、第二方向移动或移动停止中的一个，y轴移动信息可包括抓取器120在y轴方向上的第一方向移动、第二方向移动或移动停止中的一个，并且z轴移动信息可包括抓取器120在z轴方向上的第一方向移动、第二方向移动或移动停止中的一个。

另外，从神经网络模型10输出的旋转信息可包括x轴旋转信息、y轴旋转信息和z轴旋转信息，x轴旋转信息可包括抓取器120围绕x轴的顺时针旋转、抓取器120围绕x轴的逆时针旋转或抓取器120围绕x轴的不旋转中的一个，y轴旋转信息可包括抓取器120围绕y轴的顺时针旋转、抓取器120围绕y轴的逆时针旋转或抓取器120围绕y轴的不旋转中的一个，并且z轴旋转信息可包括抓取器120围绕z轴的顺时针旋转、抓取器120围绕z轴的逆时针旋转或抓取器120围绕z轴的不旋转中的一个。

该控制方法还可包括：当识别出抓取器120基于获得的移动信息迭代预定操作时，控制抓取器120对抓取目标对象执行抓取操作。

另外，至少一个图像可包括第一图像1和第二图像2，移动信息和旋转信息的获得可包括通过将第一图像1和第二图像2输入到神经网络模型10来获得第一移动信息和第一旋转信息，抓取器120的控制可包括基于第一移动信息和第一旋转信息来控制抓取器120。并且控制方法还可包括：当在基于第一移动信息和第一旋转信息控制抓取器120的同时从相机110接收到第三图像和第四图像时，通过将第三图像和第四图像输入到神经网络模型10来获得第二移动信息和第二旋转信息；以及基于第二移动信息和第二旋转信息控制抓取器120。

另外，神经网络模型10可基于至少一个图像获得深度图，并且可基于获得的深度图输出移动信息和旋转信息。

另外，神经网络模型10可以是被训练为基于多个训练图像中的每个训练图像中包括的抓取器120的至少部分与外部对象的至少部分之间的距离信息来输出用于将抓取器120定位到接近外部对象的移动信息和旋转信息的模型。

另外，电子设备10可包括多个相机，多个相机被设置为彼此间隔开以在不同角度拍摄抓取目标对象。

图7是用于描述根据实施例的电子设备的控制方法的流程图。

如图7所示，电子设备100可基于将至少一个图像输入到神经网络模型来获得抓取器的移动信息和旋转信息(操作S710)。电子设备100可以以与上面关于图6的操作S610描述的基本类似的方式获得移动信息和旋转信息。

电子设备100可获得与n个方向对应的移动信息。例如，电子设备100可获得第一方向(例如，x轴方向)、第二方向(例如，y轴方向)和第三方向(例如，z轴方向)上的移动信息。作为另一示例，电子设备100可获得不同数量的方向(例如，仅x轴方向、仅y轴方向、x轴方向和z轴方向等)的移动信息。此外，电子设备100可获得与m个方向对应的旋转信息。例如，电子设备100可获得与第一轴(例如，x轴)、第二轴(例如，y轴)和第三轴(例如，z轴)对应的旋转信息。作为另一示例，电子设备100可获得与不同数量的方向(例如，仅x轴方向、仅y轴方向、x轴方向和z轴方向等)对应的旋转信息。

如图7中进一步所示，电子设备100可基于获得的移动信息和获得的旋转信息以预定方式移动或旋转抓取器(操作S720)。

电子设备100可通过将抓取器120移动预定量或将抓取器120旋转预定量来以预定方式移动抓取器120或旋转抓取器120。作为示例，预定量可以是预定线性距离值或预定角距离值。

移动信息可被映射到一个或多个预定量。例如，可将识别抓取器120将在第一方向上被移动的移动信息映射到第一方向上的第一预定量，可将识别抓取器120将在第二方向上被移动的移动信息映射到第二方向上的第二预定量，并且可将识别抓取器120将在第三方向上被移动的移动信息映射到第三方向上的第三预定量。作为另一示例，可将识别抓取器120将在第一方向上被旋转的移动信息映射到第一方向上的第一预定量，可将识别抓取器120将在第二方向上被旋转的移动信息映射到第二方向上的第二预定量，并且可将识别抓取器120将在第三方向上被旋转的移动信息映射到第三方向上的第三预定量。

第一预定量、第二预定量和第三预定量可以是相同的量。可选地，第一预定量、第二预定量和第三预定量可以是不同的量。可选地，第一预定量、第二预定量和第三预定量中的至少一个可相对于第一预定量、第二预定量和第三预定量中的另一个量不同。

电子设备100可通过在预定时间帧内移动抓取器120或在预定时间帧内旋转抓取器120来以预定方式移动抓取器120或旋转抓取器120。作为示例，预定时间帧可以是预定时间值。

移动信息可被映射到预定的一个或多个时间帧。例如，可将识别抓取器120将在第一方向上被移动的移动信息映射到第一方向上的第一预定时间帧，可将识别抓取器120将在第二方向上被移动的移动信息映射到第二方向上的第二预定时间帧，并且可将识别抓取器120将在第三方向上被移动的移动信息映射到第三方向上的第三预定时间帧。作为另一示例，可将识别抓取器120将在第一方向上被旋转的移动信息映射到第一方向上的第一预定时间帧，可将识别抓取器120将在第二方向上被旋转的移动信息映射到第二方向上的第二预定时间帧，并且可将识别抓取器120将在第三方向上被旋转的移动信息映射到第三方向上的第三预定时间帧。

第一预定时间帧、第二预定时间帧和第三预定时间帧可以是相同的时间帧。可选地，第一预定时间帧、第二预定时间帧和第三预定时间帧可以是不同的时间帧。可选地，第一预定的时间帧、第二预定的时间帧和第三预定的时间帧中的至少一个可相对于第一预定的时间帧、第二预定的时间帧和第三预定的时间帧中的另一个时间帧不同。

以这种方式，电子设备100(例如，处理器140)基于获得的移动信息和旋转信息以预定方式移动和/或旋转抓取器120。因此，本公开的示例实施例减轻了计算到抓取目标对象的特定距离(或多个特定距离)的需要，从而允许抓取器120以与相关技术系统相比消耗较少计算资源和/或需要较少准确和/或鲁棒的硬件的方式移动和/或旋转。

如上所述，移动信息可识别移动方向，并且可被映射到预定量或预定时间帧。此外，如上所述，旋转信息可识别旋转方向，并且可被映射到预定量或预定时间帧。

然而，在另一示例中，移动信息可识别移动方向和移动权重。此外，移动权重可被映射到预定量。例如，第一值(例如，低)的第一移动权重可被映射到第一量(例如，低量)，第二值(例如，中等)的移动权重可被映射到第二量(例如，大于低量的中等量)等。类似地，旋转信息可识别旋转方向和旋转权重。此外，旋转权重可被映射到预定量。例如，第一值(例如，低)的第一旋转权重可被映射到第一量(例如，低量)，第二值(例如，中等)的旋转权重可被映射到第二量(例如，大于低量的中等量)等。应当理解，权重可不指定到抓取目标对象的实际特定距离。以这种方式，与电子设备100在不利用权重的情况下移动或旋转抓取器120的情况相比，电子设备100可使用获得移动信息和旋转信息以及移动或旋转抓取器120的较少迭代来将抓取器120定位到接近抓取目标对象。

图8是示出根据实施例的电子设备的组件的框图，如图8所示，电子设备800可包括传感器810、端部执行器820、存储器830和处理器840。

传感器810可以是被配置为感测对象的装置。例如，传感器810可包括相机、毫米波传感器、激光传感器、光检测和测距(LIDAR)传感器、超声传感器、热传感器、光传感器等。传感器810可被配置为感测对象。

端部执行器820可以是允许电子设备800与对象交互的装置。例如，端部执行器820可以是抓取器、力-扭矩传感器、材料去除工具、焊炬、碰撞传感器、工具更换器、传感器等。

存储器830可以是被配置为存储指令的存储器装置。例如，存储器830可以是如关于图1的存储器130所提及的类似装置。

处理器840是被配置为控制电子设备800的一般操作的装置。例如，处理器840可以是如关于图1的处理器840所提及的类似装置。

处理器840可从传感器810获得传感器信息，并且基于传感器信息获得如本文所述的移动信息和/或旋转信息。此外，如本文所述，处理器840可基于获得的移动信息和/或旋转信息以预定方式移动或旋转端部执行器820，使得端部执行器820接近对象。

上述示例实施例可使用软件、硬件(例如，处理器)或软件和硬件的组合在计算机或类似于计算机的设备中被实现。在一些情况下，本公开中描述的实施例可被实现为处理器本身。根据软件实现，实施例(诸如说明书中描述的过程和功能)可被实现为单独的软件模块。每个软件模块可执行本公开中描述的一个或更多个功能和操作。

用于执行根据上述示例实施例的电子设备100的处理操作的计算机指令可被存储在非暂时性计算机可读介质中。存储在非暂时性计算机可读介质中的计算机指令在它们由特定设备的处理器执行时允许特定设备执行根据上述示例实施例的电子设备100中的处理操作。

非暂时性计算机可读介质可指半永久地存储数据并且可由装置读取的介质。非暂时性计算机可读介质的特定示例可包括压缩盘(CD)、数字通用盘(DVD)、硬盘、蓝光盘、USB、存储卡、只读存储器(ROM)等。

尽管上文已经示出和描述了实施例，但是本公开不限于上述特定实施例，而是实施例可由本公开所属领域的技术人员在不脱离如所附权利要求中公开的本公开的主旨的情况下进行各种修改。这些修改也应被理解为落入本公开的范围和精神内。

Claims

1.一种电子设备，包括：

相机；

抓取器，被配置为对抓取目标对象进行抓取；

存储器，其中存储神经网络模型；以及

处理器，被配置为：

通过将由相机捕获的至少一个图像输入到神经网络模型，从神经网络模型获得抓取器的移动信息和旋转信息，以及

基于移动信息和旋转信息控制抓取器，

其中，所述至少一个图像包括抓取器的至少部分和抓取目标对象的至少部分，

其中，神经网络模型被配置为基于所述至少一个图像输出用于将抓取器定位到接近抓取目标对象的移动信息和旋转信息，

其中，移动信息包括抓取器的第一方向移动、第二方向移动或移动停止中的一个，并且

其中，旋转信息包括抓取器的第一方向旋转、第二方向旋转或不旋转中的一个。

2.如权利要求1所述的电子设备，其中，所述处理器还被配置为：基于与移动停止对应的移动信息和与不旋转对应的旋转信息来控制抓取器对抓取目标对象进行抓取。

3.如权利要求1所述的电子设备，其中，从神经网络模型输出的移动信息包括x轴移动信息、y轴移动信息和z轴移动信息，

其中，所述x轴移动信息包括抓取器在x轴方向上的第一方向移动、抓取器在x轴方向上的第二方向移动或抓取器在x轴方向上的移动停止中的一个，

其中，所述y轴移动信息包括抓取器在y轴方向上的第一方向移动、抓取器在y轴方向上的第二方向移动或抓取器在y轴方向上的移动停止中的一个，并且

其中，所述z轴移动信息包括抓取器在z轴方向上的第一方向移动、抓取器在z轴方向上的第二方向移动或抓取器在z轴方向上的移动停止中的一个。

4.如权利要求1所述的电子设备，其中，从神经网络模型输出的旋转信息包括x轴旋转信息、y轴旋转信息和z轴旋转信息，

其中，所述x轴旋转信息包括抓取器围绕x轴的顺时针旋转、抓取器围绕x轴的逆时针旋转或抓取器围绕x轴的不旋转中的一个，

其中，所述y轴旋转信息包括抓取器围绕y轴的顺时针旋转、抓取器围绕y轴的逆时针旋转或抓取器围绕y轴的不旋转中的一个，并且

其中，所述z轴旋转信息包括抓取器围绕z轴的顺时针旋转、抓取器围绕z轴的逆时针旋转或抓取器围绕z轴的不旋转中的一个。

5.如权利要求1所述的电子设备，其中，所述处理器还被配置为：基于识别出抓取器根据移动信息迭代预定操作，控制抓取器对抓取目标对象进行抓取。

6.如权利要求1所述的电子设备，其中，所述至少一个图像包括第一图像和第二图像，并且

其中，所述处理器还被配置为：

通过将第一图像和第二图像输入到神经网络模型，从神经网络模型获得第一移动信息和第一旋转信息，

基于第一移动信息和第一旋转信息控制抓取器，

基于在根据第一移动信息和第一旋转信息控制抓取器的同时由相机捕获到第三图像和第四图像，通过将第三图像和第四图像输入到神经网络模型，从神经网络模型获得第二移动信息和第二旋转信息，以及

基于第二移动信息和第二旋转信息控制抓取器。

7.如权利要求1所述的电子设备，其中，神经网络模型还被配置为：

基于所述至少一个图像获得深度图，以及

基于所述深度图输出移动信息和旋转信息。

8.如权利要求1所述的电子设备，其中，神经网络模型被训练为基于包括在多个训练图像中的每个训练图像中的抓取器的至少部分与外部对象的至少部分之间的距离信息，输出用于将抓取器定位到接近外部对象的移动信息和旋转信息。

9.如权利要求1所述的电子设备，其中，所述相机包括多个相机，并且

其中，所述多个相机被彼此间隔开，并且被配置为以不同的角度拍摄抓取目标对象。

10.一种包括神经网络模型的电子设备的控制方法，所述控制方法包括：

通过将至少一个输入图像神经网络模型，从神经网络模型获得抓取器的移动信息和旋转信息；以及

基于移动信息和旋转信息控制抓取器，

其中，神经网络模型基于所述至少一个图像输出用于将抓取器定位到接近抓取目标对象的移动信息和旋转信息，

11.如权利要求10所述的控制方法，还包括：基于与移动停止对应的移动信息和与不旋转对应的旋转信息来控制抓取器对抓取目标对象进行抓取。

12.如权利要求10所述的控制方法，其中，从神经网络模型输出的移动信息包括x轴移动信息、y轴移动信息和z轴移动信息，

13.如权利要求10所述的控制方法，其中，从神经网络模型输出的旋转信息包括x轴旋转信息、y轴旋转信息和z轴旋转信息，

14.如权利要求10所述的控制方法，还包括：基于识别出抓取器根据移动信息迭代预定操作，控制抓取器对抓取目标对象进行抓取。

15.如权利要求10所述的控制方法，其中，所述至少一个图像包括第一图像和第二图像，

其中，获得移动信息和旋转信息包括：通过将第一图像和第二图像输入到神经网络模型，从神经网络模型获得第一移动信息和第一旋转信息，

其中，控制抓取器包括：基于第一移动信息和第一旋转信息来控制抓取器，并且

其中，所述控制方法还包括：

基于在根据第一移动信息和第一旋转信息控制抓取器的同时由相机捕获到第三图像和第四图像，通过将第三图像和第四图像输入到神经网络模型，从神经网络模型获得第二移动信息和第二旋转信息；以及

基于第二移动信息和第二旋转信息控制抓取器。