CN111694423A

CN111694423A - 定位、抓取、数据处理与用于增强现实的显示方法及设备

Info

Publication number: CN111694423A
Application number: CN201910183614.0A
Authority: CN
Inventors: 伊威; 李名杨; 古鉴; 邵柏韬
Original assignee: Alibaba Group Holding Ltd
Current assignee: Wuzhou Online E Commerce Beijing Co ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2020-09-22
Anticipated expiration: 2039-03-12
Also published as: CN111694423B

Abstract

本申请实施例提供一种定位、抓取、数据处理与用于增强现实的显示方法及设备。其中，方法包括如下的步骤：获取目标物的待定位图像；根据即时定位与地图构建算法基于待定位图像预测出的目标物周围的参考物的第一预测位姿以及目标物与参考物之间的位姿转换关系，对目标物进行定位。本申请实施例提供的技术方案能够对旋转对称物体进行有效地定位，提高了定位准确率以及定位成功率。

Description

定位、抓取、数据处理与用于增强现实的显示方法及设备

技术领域

本申请涉及电子技术领域，尤其涉及一种定位、抓取、数据处理与用于增强现实的显示方法及设备。

背景技术

目前，在机器人以及增强现实等技术领域，需要对物体进行位姿估计。例如：机器人在与物体进行交互时，需要对物体进行位姿估计，从而确定交互方式；再例如：增强现实设备需要确定现实中实物的位姿信息，从而确定如何渲染虚拟物体。

现有的物体定位方式中，通常采用即时定位与地图构建算法从待定位的物体上提取特征点并进行特征点的匹配，以实现物体位姿估计。一旦难以从待定位的物体上提取特征点，例如：旋转对称性的物体，物体位姿估计准确度就会降低，甚至无法进行该物体的位姿估计。

发明内容

鉴于上述问题，提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的定位、抓取、数据处理与用于增强现实的显示方法及设备。

于是，在本申请的一个实施例中，提供了一种物体定位方法。该方法包括：

获取目标物的待定位图像；

根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位。

在本申请的另一实施例中，提供了一种物体抓取方法。该方法包括：

获取目标物的待定位图像；

根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位；

根据定位结果，确定抓取所述目标物的方式。

在本申请的又一实施例中，提供了一种用于增强现实的显示方法。该方法，包括：

获取目标实物的待定位图像；

根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考实物的第一预测位姿以及所述目标实物与所述参考实物之间的位姿转换关系，对所述目标实物进行定位；

根据定位结果，确定与所述目标实物相关联的虚拟物体的显示画面；。

在本申请的又一实施例中，提供了一种训练数据采集系统。该系统，包括：

多个相机，所述多个相机分布在以样本物体为球心的球面上，且朝向所述样本物体设置；

与所述多个相机连接的控制器，用于控制所述多个相机的拍摄；

与所述相机连接的处理器，用于根据所述相机在拍摄样本图像的拍摄时刻的相机位姿信息以及所述样本物体在所述拍摄时刻相对于世界坐标系的第一位姿信息，确定所述样本物体在所述拍摄时刻相对于所述相机的第二位姿信息；并关联所述样本图像与所述第二位姿信息，以作为一组训练数据。

在本申请的又一实施例中，提供了一种数据处理方法。该方法，包括：

获取包含有旋转对称物体的样本图像及所述旋转对称物体对应的参考位姿；

将所述样本图像作为训练模型的输入，执行所述训练模型得到计算位姿；

在基于所述参考位姿及所述计算位姿判定满足收敛条件的情况下，所述训练模型完成训练得到用于与即时定位与地图构建算法结合使用以对具有旋转对称性的物体进行位姿估计的计算模型。

在本申请的又一实施例中，提供了一种电子设备。该电子设备，包括：

存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

获取目标物的待定位图像；

在本申请的又一实施例中，提供了一种机器人。该机器人，包括：

存储器、处理器和通信组件，其中，

所述存储器，用于存储程序；

获取目标物的待定位图像；

根据定位结果，确定抓取所述目标物的方式。

在本申请的又一实施例中，提供了一种增强现实设备。该增强现实设备，包括：

存储器和处理器，其中，

所述存储器，用于存储程序；

获取目标实物的待定位图像；

根据定位结果，确定与所述目标实物相关联的虚拟物体的显示画面。

存储器和处理器，其中，

所述存储器，用于存储程序；

本申请实施例提供的技术方案中，在对目标物进行定位时，选取目标物周围的参考物；根据定位出参考物的第一预测位姿以及目标物与所述参考物之间的位姿转换关系，即可对目标物进行准确定位。采用本申请实施例提供的技术方案，能够有效抑制旋转对称物体的迷惑性，从而实现了对旋转对称物体的位姿的准确定位，以提高物体定位的准确率以及成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的物体定位方法的流程示意图；

图2为本申请又一实施例提供的物体抓取方法的流程示意图；

图3为本申请又一实施例提供的显示方法的流程示意图；

图4为本发明一实施例提供的数据采集系统的结构框图；

图5为本申请又一实施例提供的物体定位方法的流程示意图；

图6为本发明一实施例提供的物体定位装置的结构框图；

图7为本发明一实施例提供的设备结构框图；

图8为本申请又一实施例提供的数据处理方法的流程示意图；

图9为本发明一实施例提供的数据处理装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

在实际应用场景中，经常会出现一些具有旋转对称性的物体，这些旋转对称物体在绕着某一直线(称为旋转对称轴)旋转一定角度(这个角度不等于360度的整数倍)后，与该旋转对称物体的初始状态重合。也就是说，这些旋转对称物体具有一定的迷惑性，很难从这些旋转对称物体上提取到有效的特征点对旋转对称物进行姿态角的估计，这导致定位准确率较低，甚至无法定位。

发明人通过分析发现：在实际应用场景中，待定位的目标物周围会存在一些与目标物相对静止的参考物，这些与目标物相对静止的参考物不可能都是旋转对称物体。因此，可借助这些参考物来对目标物进行定位，以提高物体定位准确度以及成功率。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本申请一实施例提供的物体定位方法的流程示意图。本实施例提供的物体定位方法的执行主体为定位设备，例如：机器人或增强现实设备。如图1所示，该方法，包括：

101、获取目标物的待定位图像。

102、根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位。

上述101中，定位设备上通常会设置有相机，该相机可以为单目彩色相机、带有深度的RGBD或者双目相机。可通过该相机朝向目标物进行拍摄得到待定位图像。通常，定位设备需要对目标物进行实时地定位，故该相机可对目标物进行实时地拍照，上述待定位图像指的可以是当前拍摄的图像，这样即可对目标物进行当前定位。

在实际应用中，定位设备可根据用户输入的任务指令或事先设置的任务配置确定待定位的目标物，其中，任务指令和任务配置中均携带有待定位的目标物的物体类别。具体地，相机对周围环境进行拍照得到图像，对图像进行图像识别，在图像中识别出任务指令或任务配置中携带的物体类别对应的物体，将该物体类别对应的物体确定为目标物，例如：可借助卷积神经网络(Convolutional Neural Networks，CNN)对图像中的物体进行物体类别的识别。物体类别可理解为：一些外观相同的物体的统称。

以定位设备为机器人为例：用户向机器人输入任务指令：请将玻璃杯端来。任务指令中“玻璃杯”即是携带的物体类别。以定位设备为增强现实设备为例：事先设置的任务配置为：将虚拟人物设置在玻璃球上。任务配置中“玻璃球”即是携带的物体类别。

上述102中，目标物周围的其他物体很多，可从这些其他物体中选取相对目标物静止的非旋转对称物体作为参考物。

由于参考物为非旋转对称物体，可采用即时定位与地图构建(simultaneouslocalization and mapping，SLAM)算法对参考物进行位姿预测。采用SLAM算法对待定位图像进行预测，得到参考物的第一预测位姿。基于SLAM算法来确定参考物的第一预测位姿的具体实现可参见现有技术。例如：通过SLAM算法从具有视差的待定位图像以及第二图像(其中，第二图像的拍摄时间早于待定位图像的拍摄时间)中提取参考物的特征点，并进行匹配，从而进行三维空间点重建，根据三维空间点重建结果来确定参考物的第一预测位姿。

下面将简要说明SLAM算法构建地图的过程：SLAM算法分为跟踪、局部建图、闭环检测三个线程同步操作；跟踪线程负责特征点提取，通过具有视差的两张图上的特征点匹配，初始化相机的位姿信息。通过跟踪局部地图，选定关键帧给到局部建图线程；局部建图线程会通过给到的关键帧调整所有的局部地图点的位置，并选取最佳的关键帧给到闭环检测；闭环检测线程负责将候选的地图点进行合并，相似变换空间求解，最终优化全部地图点的坐标，从而得到地图。

其中，目标物与参考物之间的位姿转换关系可事先计算得到。

在第一种可实现的方案中，根据卷积神经网络CNN基于第一图像预测出的目标物的第二预测位姿以及卷积神经网络CNN基于所述第一图像预测出的所述参考物的第三预测位姿确定所述位姿转换关系。

在第二种可实现的方案中，根据卷积神经网络CNN基于第一图像预测出的目标物的第二预测位姿以及所述即时定位与地图构建算法SLAM基于所述第一图像预测出的所述参考物的第三预测位姿确定所述位姿转换关系。

其中，第一图像的拍摄时刻早于待定位图像的拍摄时刻，第一图像可为相机首次朝向目标物拍摄得到的图像。

若参考物的物体类别是卷积神经网络训练过的物体类别，则可采用第一种可实现的方案来计算位姿转换关系。若参考物的物体类别不是卷积神经网络训练过的物体类别，则卷积神经网络则无法预测参考物的第三预测位姿，此时，可采用第二种可实现的方案来计算位姿转换关系。

可将第一图像作为CNN的输入，执行CNN得到目标物的第二预测位姿。下面将简要介绍CNN预测目标物的第二预测位姿的具体步骤：从相机拍摄的视频流中取出第一图像；按照CNN输入要求对图像进行图像大小调整，将调整后的图像输入至CNN，以由CNN进行向前(Forward)计算以得到最终预测结果并输出；从CNN输出的最终预测结果中可提取出目标物的第二预测位姿。此外，还可从最终预测结果中提取出目标物的物体类别以及二维绑定框信息。CNN的向前计算具体可包括：通过CNN的卷积层对第一图像进行特征提取，得到第一特征图；根据第一特征图，由CNN的全连接层对目标物进行位姿预测，以得到目标物的第二预测位姿。

上述CNN可提前训练得到。在训练阶段之前，还包括数据采集阶段。在数据采集阶段，为了能够同时学习到应用场景中每一类物体在不同位置和不同角度的位姿信息，针对每一类物体使用了多个机器人和多个相机的组合模式。将物体摆放在一个球形或半球形的球心位置，机器人组合排列以使固定在机器人上面的相机，均分分布在球面不同纬度的圆上，且各相机的光轴指向球心的位置，如图4所示，样本物体位于半球形的球心位置，第一相机4011(401)、第二相机4012(401)、第三相机4013(401)、第四相机4014(401)、第五相机4015(401)以及第六相机4016(401)进行分布在半球同一维度的圆上。同时为了减少机器人和相机的使用数量，处于球心位置的物体也可以在固定位置以不同角度旋转。这样保证了同一时刻能够采集覆盖足够多角度的训练数据，另外为了保证背景数据的足够丰富，将各位姿下的物体对应的3D模型，投影到不同的2D背景图上，从而制作各类不同的背景负样本。在训练阶段，将数据采集阶段收集的所有不同物体类别的图片(即背景负样本)、位姿信息和二维目标绑定框2Dbbox、语义标签semantic label送入神经网络进行训练。在神经网络的网络层，为了对网络进行加速，可使用MobileNet-SSD的基础网络架构；为了解决不同尺度目标的问题，可同时使用3x3和1x1的卷积核；为了解决旋转对称目标的问题，可在最后的Loss层计算加入了ShapeMatch-Loss以避免无法收敛的问题。可同时使用分类和回归损失函数最小化神经网络对图像预测的结果与图像的真值之间的差异，并最小化该差异，从而更新网络参数，训练网络达到最终收敛，以得到训练好的神经网络。

在一种可实现的方案中，上述CNN的训练过程如下：获取包含有旋转对称物体的样本图像及所述旋转对称物体对应的参考位姿；将所述样本图像作为训练模型的输入，执行所述训练模型得到计算位姿；在基于所述参考位姿及所述计算位姿判定满足收敛条件的情况下，所述训练模型完成训练得到所述卷积神经网络。在基于所述参考位姿及计算位姿判定不满足收敛条件的情况下，可调整所述训练模型中的模型参数，并对调整后的训练模型继续进行训练。

需要说明的是，数据采集过程以及训练过程将在下述实施例中详细介绍。

将第一图像作为SLAM算法的输入，执行SLAM算法得到参考物的第三预测位姿。SLAM算法预测参考物的第三预测位姿的具体过程可参照SLAM算法预测参考物的第一预测位姿的过程，在此不再赘述。分别通过CNN和SLAM算法得目标物在第一图像的拍摄时刻时的位姿信息(即第二预测位姿)和参考物在第一图像的拍摄时刻时的位姿信息(即第三预测位姿)后，即可根据第二预测位姿和第三预测位姿计算得到两者之间的位姿转换关系。其中，位姿变换关系包括：旋转矩阵和平移向量。

由于参考物与目标物相对静止，后续参考物与目标物之间的位姿转换关系都会保持不变，这样，后续定位出参考物的位姿，即可定位出目标物的位姿。

本申请实施例提供的技术方案中，在对目标物进行定位时，选取目标物周围的参考物；根据参考物的第一预设位姿以及所述目标物与所述参考物之间的位姿转换关系，即可对所述目标物进行定位。采用本申请实施例提供的技术方案，能够有效抑制旋转对称物体的迷惑性，从而实现了对旋转对称物体的位姿的准确定位，以提高物体定位的准确率以及成功率。

进一步的，上述方法，还可包括：

103、确定所述目标物是否为旋转对称性的物体。

具体实施时，可采用如下方式中的一种或多种来实现：

方法一、根据目标物的物体类别来判断目标物是否为旋转对称物体。

具体地，用户可事先根据实际情况建立物体类别与外观属性之间的对应关系，外观属性包括：旋转对称物体和非旋转对称物体。例如：玻璃杯为旋转对称物体，则建立玻璃杯与旋转对称物体的对应关系；再例如：勺子为非旋转对称物体，则建立勺子与非旋转对称物体的对应关系。这样，后续根据目标物的物体类别以及物体类别与外观属性之间的对应关系，即可确定出目标物是否为旋转对称物体。

方法二、根据在多个不同角度对目标物进行拍照得到的多个图像，来判断目标物是否为旋转对称物体。

具体地，在多个不同角度对目标物进行拍照得到的多个图像中目标物的影像相同，则可判定目标物为旋转对称物体。)

方法三、根据所述卷积神经网络基于拍摄时间位于预设时间段内的多帧图像对所述目标物进行多次位姿预测的结果，确定所述目标物是否为旋转对称性的物体。具体地，可计算所述结果中所述目标物的多个预测姿态之间的第一差异；所述第一差异大于或等于第一预设阈值时，判定所述目标物为旋转对称性的物体。

目标物的每个预测位姿用(x，y，z，pitch，yaw，roll)来表示，其中，(x，y，z)是用来表示目标物的预测位置，(pitch，raw，roll)是用来表示目标物的预测姿态，pitch为俯仰角，raw为偏航角，roll为翻滚角。

多个预测姿态中任两个预测姿态之间均存在三个差异，例如：任两个预测姿态分别为(pitch1，raw1，roll1)和(pitch2，raw2，roll2)，对应的三个差异分别为C1＝|pitch1-pitch2|、C2＝|raw1-raw2|以及C3＝|roll 1-roll 2|。可将多个预测姿态之间的多个差异中差异值最大的差异作为上述第一差异。由于多帧图像的拍摄时间是位于预设时间段内的，该预设时间段很短，例如：预设时间段小于1s。在一个较短时间段内，目标物相对于相机的姿态不可能发生较大的变化，也就是说目标物的多个预测姿态之间的第一差异应该小于第一预设阈值。但若第一差异大于或等于第一预设阈值，可说明卷积神经网络的预测结果显示目标物在大角度打转，也就表明了目标物为旋转对称物体。

进一步的，上述102中“根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位”，具体为：

所述目标物为旋转对称性的物体时，根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位。

当目标物为非旋转对称性的物体时，可直接根据CNN对待定位图像进行预测得到的目标物的预测位姿对目标物进行定位，无需借助参考物进行定位。CNN直接预测目标物的位姿更加快速，节省预测时间，保证定位的实时性。

需要补充的是：由于目标物为旋转对称物体，若采用卷积神经网络直接对目标物进行预测得到的预测结果中会显示目标物一直在打转。通过本申请提供的方法，可有效抑制预测结果中目标物旋转的问题。

在选取参考物时，选取那些相对参考坐标系静止的物体。例如：在酒店房间中，可选取房间地面或墙壁作为参考物。这样，只需判断目标物相对参考坐标系静止，即可判断出目标物与参考物相对静止。具体地，上述方法还可包括：

104、根据所述结果中所述目标物的多个预测位置，判断所述目标物是否相对于所述世界坐标系发生平移。

105、所述目标物相对于所述参考坐标系未发生平移时，判定所述目标物与所述参考物相对静止。

其中，位姿信息包括：空间位置(x,y,z)和姿态(pitch，yaw，roll)。卷积神经网络在预测目标物的位姿信息时，只有旋转对称轴对应的姿态会存在异常，其他信息都是准确的。因此，可将卷积神经网络预测出的目标物在上述多帧图像的拍摄时刻的预测位姿中的空间位置转换到参考坐标系下，得到目标物在上述多帧图像的拍摄时刻相对参考坐标系的空间位置信息。若目标物在上述多帧图像的拍摄时刻相对参考坐标系的空间位置信息相同，则可判断目标物相对于参考坐标系未发生平移，否则，判定目标物相对于参考坐标系发生了平移。所述目标物相对于所述参考坐标系未发生平移时，判定所述目标物相对所述参考坐标系静止。

需要说明的是：本申请中CNN和SLAM预测出的参考物和目标物的预测位姿均为相机坐标系下的预测位姿。

需要补充的是：现实中目标物若绕非旋转对称轴旋转，其空间位置信息会发生变化；现实中目标物若仅绕旋转对称轴旋转，其空间位置信息不会发生变化。在实际应用场景中，目标物绕其旋转对称轴旋转的几率非常小，故可忽略这一情况。

目前，基于SLAM算法在进行位姿估计时，其估计出的位姿信息中的空间位置信息与真实的空间位置信息相差一个因子，该因子即为深度尺度比例。在上述各实施例中，若参考物的位姿信息是通过SLAM算法确定的，则上述方法，还可包括：

105、获取空间尺度比例。

106、采用所述空间尺度比例修正对所述目标物的定位结果。

上述106中，目标物的定位结果中目标物的位姿为(x3，y3，z3，pitch3，yaw3，roll3)，空间尺度比例为k，则修正后的目标物的位姿为：(k*x3，k*y3，k*z3，pitch3，yaw3，roll3)。

可采用如下方式来确定空间尺度比例的大小。具体地，所述待定位图像由相机采集得到；上述105中“获取空间尺度比例”，具体采用如下步骤来实现：

107、利用所述即时定位与地图构建算法，确定所述相机在第一时刻和第二时刻之间的第一位移量。

108、利用卷积神经网络，确定所述相机在所述第一时刻和所述第二时刻之间的第二位移量。

109、将所述第二位移量与所述第一位移量的比值作为所述空间尺度比例。

上述107中，获取相机在第一时刻拍摄的第二图像和相机在第二时刻拍摄的第三图像。利用即时定位与地图构建算法，根据第二图像和第三图像即可确定出相机在第一时刻和第二时刻之间的第一位姿变化信息，根据第一位姿变化信息中的第一平移向量即可确定出第一位移量。

上述108中，利用卷积神经网络，根据上述第二图像和第三图像即可确定出相机在第一时刻和第二时刻之间的第二位姿变化信息，根据第一位姿变化信息中的第二平移向量即可确定出第二位移量。利用卷积神经网络来确定相机的第二位姿变化信息的具体实现可参见现有技术，在此不再详述。

上述109中，将所述第二位移量与所述第一位移量的比值作为所述空间尺度比例。卷积神经网络预测出来的第二位移量是准确的空间尺寸，因此，第二位移量与第一位移量的比值即是上述提及的因子。

此外，由于目标物和参考物均相对参考坐标系静止，故相机在第一时刻和第二时刻之间的位移量其实也即是目标物在第一时刻和第二时刻之间相对相机的位移量或者参考物在第一时刻和第二时刻之间相对相机的位移量。

因此，在计算第一位移量时，可利用即时定位与地图构建算法来计算参考物在第一时刻相对相机的位姿信息以及参考物在第二时刻相对相机的位姿信息；根据参考物在第一时刻相对相机的位姿信息和在第二时刻相对相机的位姿信息来计算参考物相对相机的位移量，即第一位移量。在计算第二位移量时，可利用神经网络来计算目标物在第一时刻相对相机的位姿信息以及目标物在第二时刻相对相机的位姿信息；根据目标物在第一时刻相对相机的位姿信息和在第二时刻相对相机的位姿信息来计算目标物相对相机的位移量，即第二位移量。

下面将结合图5对本申请实施例提供的技术方案进行详细介绍：

501、开启相机，由相机进行连续拍照得到图像。

502、通过SLAM预测参考物的位姿信息以及相机的位姿信息。

503、通过CNN预测目标物的物体类别、位姿信息以及2Dbbox。

504a、获取SLAM预测得到的参考物的位姿信息

504b、获取CNN预测得到的目标物的位姿信息。

505、根据上述步骤504a和504b中获取的同一历史时刻参考物的位姿信息和目标物的位姿信息，计算目标物与参考物之间的位姿转换关系，以备用。

506、计算空间尺度比例，以备用。计算空间尺度比例的步骤可参见上述各实施例中相应内容，在此不再赘述。

507、根据CNN预测得到的目标物在所述拍摄时间位于预设时间段内多帧图像的拍摄时刻的位姿信息，来判断所述目标物是否相对于所述参考坐标系静止。

508、目标物相对于参考坐标系静止时，根据CNN预测得到的目标物在所述拍摄时间位于预设时间段内的多帧图像的拍摄时刻的位姿信息，来判断所述目标物是否为旋转对称物体，即判断目标物的姿态角的变化量是否大于预设阈值。

509、目标物相对参考坐标系静止且目标物为旋转对称物体时，结合SLAM预测得到的参考物的位姿信息、位姿转换关系以及空间尺度比例计算得到目标物的位姿信息。

510、目标物相对参考物非静止或目标物为非旋转对称物体，则由CNN直接预测得到目标物的位姿信息。

综上所述，本申请实施例提供的技术方案能够对旋转对称性的物体进行有效定位，提高了定位设备的定位准确率以及定位成功率。

图2示出了本申请又一实施例提供的物体抓取方法的流程示意图。本实施例提供的方法的执行主体可以为机器人。如图2所示，该方法包括：

201、获取目标物的待定位图像。

202、根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位。

203、根据定位结果，确定抓取所述目标物的方式。

上述201和202的具体实现可参见上述各实施例中相应内容，在此不再赘述。

上述203中，定位结果中可包括：目标物的位姿信息。可实现建立目标物的位姿信息与抓取方式之间的对应关系；后续根据目标物的位姿信息以及该对应关系，即可确定抓取目标物的方式。

本申请实施例提供的技术方案中，在对目标物进行定位时，选取目标物周围的参考物；根据参考物的第一预测位姿以及参考物与目标物之间的位姿转换关系，即可对目标物进行准确定位。采用本申请实施例提供的技术方案，能够有效抑制旋转对称物体的迷惑性，从而实现了对旋转对称物体的位姿的准确定位，以提高物体定位的准确率以及成功率，进而可提高抓取方式的合理性，避免了抓取方式的不合理导致抓取失败，甚至损坏目标物等问题。

进一步的，上述方法，还可包括：

204、根据卷积神经网络基于第一图像预测出的目标物的第二预测位姿以及所述即时定位与地图构建算法基于所述第一图像预测出的所述参考物的第三预测位姿确定所述位姿转换关系。

上述204的具体实现可参见上述各实施例中相应内容，在此不再赘述。

进一步的，上述方法，还可包括：

205、根据所述卷积神经网络基于拍摄时间位于预设时间段内的多帧图像对所述目标物进行多次位姿预测的结果，确定所述目标物是否为旋转对称性的物体。

上述205的具体实现可参见上述实施例中相应内容，在此不再赘述。

进一步的，上述202中“根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位”，具体为：所述目标物为旋转对称性的物体时，根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位。

这里需要说明的是：本申请实施例提供的方法中各步骤的具体实现过程可参见上述各实施例中相应内容，在此不再赘述。此外，本申请实施例提供的所述方法除了包含上述各步骤外，还可包含上述各实施例中的全部或部分步骤，具体可参见上述实施例中的相应内容，此处不再赘述。

图3示出了本申请又一实施例提供的用于增强现实的显示方法的流程示意图。本实施例提供的方法的执行主体为增强现实设备。增强现实设备可以为VR(AugmentedReality，增强现实)眼镜。如图3所示，该方法包括：

301、获取目标实物的待定位图像。

302、根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考实物的第一预测位姿以及所述目标实物与所述参考实物之间的位姿转换关系，对所述目标实物进行定位。

303、根据定位结果，确定与所述目标实物相关联的虚拟物体的显示画面。

在本实施例中的目标实物对应于上述各实施例中的目标物；本实施例中的参考实物对应于上述各实施例中的参考物。

上述301和302的具体实现可参见上述各实施例中相应内容，在此不再赘述。

上述303中，定位结果中可包括：目标实物的位姿信息。可实现建立目标实物位姿信息与虚拟物体的显示画面之间的对应关系；后续根据目标实物的位姿信息以及该对应关系，即可确定虚拟物体的显示画面。

本申请实施例提供的技术方案中，在对目标物进行定位时，选取目标物周围的参考物；根据参考物的第二预测位姿和目标物与参考物之间的位姿转换关系即可对目标物进行准确定位。采用本申请实施例提供的技术方案，能够有效抑制旋转对称物体的迷惑性，从而实现了对旋转对称物体的位姿的准确定位，以提高物体定位的准确率以及成功率，进而可提高虚拟物体与真实场景结合的真实度，增强用户的沉浸感。

进一步的，上述方法，还可包括：

304、根据卷积神经网络基于第一图像预测出的目标实物的第二预测位姿以及所述即时定位与地图构建算法基于所述第一图像预测出的所述参考实物的第三预测位姿确定所述位姿转换关系。

上述304的具体实现可参见上述各实施例中相应内容，在此不再赘述。

由于参考物与目标物相对静止，后续参考物与目标物之间的位姿转换关系都会保持不变，这样，后续定位出参考物的位姿，即可定位出目标物的位姿。进一步的，上述方法，还可包括：

305、根据所述卷积神经网络基于拍摄时间位于预设时间段内的多帧图像对所述目标实物进行多次位姿预测的结果，确定所述目标实物是否为旋转对称性的物体。

上述305的具体实现可参见现有技术，在此不再赘述。

进一步的，上述302中“根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标实物周围的参考实物的第一预测位姿以及所述目标实物与所述参考实物之间的位姿转换关系，对所述目标实物进行定位”，具体为：所述目标实物为旋转对称性的物体时，根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标实物周围的参考实物的第一预测位姿以及所述目标实物与所述参考实物之间的位姿转换关系，对所述目标实物进行定位。

图4示出了本申请一实施例提供的训练数据采集系统的结构示意图。如图4所示，该系统包括：

多个相机401，所述多个相机401分布在以样本物体为球心的球面上，且朝向所述样本物体设置；

与所述多个相机401连接的控制器，用于控制所述多个相机的拍摄；

与所述相机401连接的处理器，用于根据所述相机401在拍摄样本图像的拍摄时刻的相机位姿信息以及所述样本物体在所述拍摄时刻相对于世界坐标系的第一位姿信息，确定所述样本物体在所述拍摄时刻相对于所述相机401的第二位姿信息；并关联所述样本图像与所述第二位姿信息，以作为一组训练数据。

本申请实施例提供的技术方案中，通过多个相机可快速获取到较多数量的训练数据，并且多个相机均位于以样本物体为球心的球面上，即多个相机距离样本物体的距离都是相同的，这样方便新增更多不同距离下所有视角的训练数据，便于定量扩增。

为了方便控制相机的分布以及相机的拍摄，可采用多个机器人来实现。具体地，上述系统，还可包括：多个机器人(图中未示出)；所述多个相机401一一对应设置在所述多个机器人上(通常，每个机器人本身就设置有相机，可直接复用机器人上的相机)；所述控制器与所述多个机器人连接，用于控制所述多个机器人分布，以使所述多个相机401分布在以所述样本物体为球心的球面上；还用于向所述多个机器人发送控制指令，以使所述多个机器人根据所述控制指令控制各自对应的相机401的拍摄。

具体实施时，机器人可通过调整自己的位置以及自己的高度，使其上的相机分布在指定球心的指定球面上。

为了减少相机的使用数量，处于球心位置的样本物体也可以在固定位置(即球心位置)以不同角度旋转，样本物体每旋转一次后，控制器控制多个相机拍摄一次。具体地，上述系统，还可包括：旋转机构(未图示)。所述样本物体设置在所述旋转机构上；所述旋转机构，分别与所述控制器连接，在所述控制器的控制下，旋转所述样本物体；所述控制器在控制所述旋转机构每旋转一次后，控制所述多个相机401拍摄一次；所述控制器与所述处理器连接，用于向所述处理器提供所述第一位姿信息。

具体实施时，用户或机器人需要将样本物体放置在旋转机构上，可将此刻的样本物体的位姿作为起始位姿。控制器可自定义每一个样本物体的起始位姿的具体值。控制器可根据样本物体的位姿以及旋转机构的旋转情况来确定样本物体在每一个拍摄时刻相对于世界坐标系的第一位姿信息。

图8示出了本申请又一实施例提供的数据处理方法的流程示意图。如图8所示，该方法包括：

901、获取包含有旋转对称物体的样本图像及所述旋转对称物体对应的参考位姿。

902、将所述样本图像作为训练模型的输入，执行所述训练模型得到计算位姿。

903、在基于所述参考位姿及所述计算位姿判定满足收敛条件的情况下，所述训练模型完成训练得到用于与即时定位与地图构建算法结合使用以对具有旋转对称性的物体进行位姿估计的计算模型。

上述901中，包含有旋转对称物体的样本图像及所述旋转对称物体对应的参考位姿可采用如图4所示的采集方法来获得。本申请实施例中的参考位姿相当于如图4所示的采集方法中第二位姿信息。

上述902中，将所述样本图像作为训练模型的输入，执行所述训练模型得到计算位姿。训练模型可以为卷积神经网络CNN。

上述903中，在基于参考位姿及计算位姿判定满足收敛条件的情况下，所述训练模型完成训练得到用于与即时定位与地图构建算法结合使用以对具有旋转对称性的物体进行位姿估计的计算模型。

在基于所述参考位姿及所述计算位姿判定不满足收敛条件的情况下，调整所述训练模型中的模型参数，并对调整后的所述训练模型进行训练。在对调整后的训练模型进行训练时，所采用的样本图像可以为一新的样本图像，例如：可以为一没有训练过的样本图像。

本申请实施例提供的技术方案中，将旋转对称物体的样本图像作为训练样本，训练训练模型，最终得到的计算模型在与SLAM算法结合时，能够对具有旋转对称性的物体进行位姿估计。可见，本申请实施例提供的技术方案能够对具有旋转对称性物体进行位姿估计，避免了因旋转对称的迷惑性导致的定位准确率低以及定位成功率低等问题。

为了解决对称性目标导致的无法收敛的问题，可在计算损失值时采用ShapeMatch-Loss损失函数。上述方法，还可包括：

904、将所述参考位姿及所述计算位姿作为ShapeMatch-Loss损失函数的输入，执行所述ShapeMatch-Loss损失函数得到第一损失值。

905、所述第一损失值小于或等于第一预设阈值时，判定满足所述收敛条件。

其中，ShapeMatch-Loss损失函数的具体公式可参见现有技术，在此不作具体介绍。

进一步的，上述方法，还可包括：

906、获取所述旋转对称物体对应的参考语义标签。

907、将所述样本图像作为训练模型的输入，执行所述训练模型得到计算语义标签。

908、根据所述参考语义标签与所述计算语义标签，计算第二损失值。

训练模型基于样本图像训练得到计算语义标签的具体实现可参见现有技术，在此不做具体介绍。具体实施时，可采用现有技术中用于计算语义标签的损失值的损失函数来计算第二损失值。

上述905中“所述第一损失值小于或等于第一预设阈值时，判定满足所述收敛条件”，具体为：所述第一损失值小于或等于第一预设阈值且所述第二损失值小于或等于第二预设阈值时，判定满足所述收敛条件。

也就是说，位姿和语义标签这两个分支同时收敛时，训练模型才训练完成。这样，有利于提高最终得到的计算模型的预测准确率。

进一步的，上述方法，还可包括：

909、获取所述旋转对称物体对应的参考物体类别。

910、将所述样本图像作为训练模型的输入，执行所述训练模型得到计算物体类别。

911、根据所述参考物体类别与所述计算物体类别，计算第三损失值。

训练模型基于样本图像训练得到计算物体类别的具体实现可参见现有技术，在此不再详述。具体实施时，可采用现有技术中用于计算物体类别的损失值的损失函数来计算第三损失值。

进一步的，上述“所述第一损失值小于或等于第一预设阈值且所述第二损失值小于或等于第二预设阈值时，判定满足所述收敛条件”，具体为：

所述第一损失值小于或等于第一预设阈值、所述第二损失值小于或等于第二预设阈值且所述第三损失值小于或等于第三预设阈值时，判定满足所述收敛条件。

也就是说，只有位姿、语义标签以及物体类别这三个分支同时收敛时，训练模型才训练完成。进一步提高了最终得到的计算模型的预测准确率。

为了对网络进行加速，所述训练模型为基于MobileNet-SSD基础网络架构的卷积神经网络。

为了解决不同尺度目标的问题，所述卷积神经网络的卷积层包含有3x3卷积核和1x1卷积核。

图6示出了本申请一实施例提供的物体定位装置的结构框图。如图6所示，该装置包括：第一获取模块601和第一定位模块602；其中，

第一获取模块601，用于获取目标物的待定位图像；

第一定位模块602，用于根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位。

进一步的，上述装置，还可包括：

第一确定模块，用于根据卷积神经网络基于第一图像预测出的目标物的第二预测位姿以及所述即时定位与地图构建算法基于所述第一图像预测出的所述参考物的第三预测位姿确定所述位姿转换关系。

其中，所述目标物与所述参考物相对静止。

进一步的，所述

第一确定模块，还用于根据所述卷积神经网络基于拍摄时间位于预设时间段内的多帧图像对所述目标物进行多次位姿预测的结果，确定所述目标物是否为旋转对称性的物体；

上述第一定位模块602，具体用于：

上述第一确定模块，具体用于：

计算所述结果中所述目标物的多个预测姿态之间的第一差异；

所述第一差异大于或等于第一预设阈值时，判定所述目标物为旋转对称性的物体。

进一步的，所述参考物相对世界坐标系静止；

上述装置，还包括：

第一判断模块，用于根据所述结果中所述目标物的多个预测位置，判断所述目标物是否相对于所述世界坐标系发生平移；

第一判定模块，用于所述目标物相对于所述参考坐标系未发生平移时，判定所述目标物与所述参考物相对静止。

进一步的，上述装置，还包括：

第一提取模块，用于通过所述卷积神经网络的卷积层对所述第一图像进行特征提取，得到第一特征图；

第一预测模块，用于根据所述第一特征图，由所述卷积神经网络的全连接层对所述目标物进行位姿预测，以得到所述目标物的第二预测位姿。

进一步的，所述卷积神经网络的训练过程如下：

第二获取模块，用于获取包含有旋转对称物体的样本图像及所述旋转对称物体对应的参考位姿；

第一执行模块，用于将所述样本图像作为训练模型的输入，执行所述训练模型得到计算位姿；在基于所述参考位姿及所述计算位姿判定满足收敛条件的情况下，所述训练模型完成训练得到所述卷积神经网络。

进一步的，上述装置，还包括：

第三获取模块，用于获取空间尺度比例；

第一修正模块，用于采用所述空间尺度比例修正对所述目标物的定位结果。

进一步的，所述待定位图像由相机采集得到；

第三获取模块，具体用于：

利用所述即时定位与地图构建算法，确定所述相机在第一时刻和第二时刻之间的第一位移量；

利用卷积神经网络，确定所述相机在所述第一时刻和所述第二时刻之间的第二位移量；

将所述第二位移量与所述第一位移量的比值作为所述空间尺度比例。

这里需要说明的是：上述实施例提供的物体定位装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图6示出了本申请又一实施例提供的物体抓取装置的结构框图。如图6所示，该装置，包括：第一获取模块601和第一定位模块602、第二确定模块。其中，

第一获取模块601，用于获取目标物的待定位图像；

第一定位模块602，用于根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位；

第二确定模块，用于根据定位结果，确定抓取所述目标物的方式。

进一步的，上述装置，还可包括：

第一确定模块，用于根据卷积神经网络基于第一图像预测出的目标物的第二预测位姿以及所述即时定位与地图构建算法基于所述第一图像预测出的所述参考物的第三预测位姿确定所述位姿转换关系；

其中，所述目标物与所述参考物相对静止。

进一步的，第一确定模块，还用于根据所述卷积神经网络基于拍摄时间位于预设时间段内的多帧图像对所述目标物进行多次位姿预测的结果，确定所述目标物是否为旋转对称性的物体；

第一定位模块602，具体用于：

这里需要说明的是：上述实施例提供的物体抓取装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图6示出了本申请又一实施例提供的用于增强现实的显示装置的结构框图。如图6所示，该装置，包括：第一获取模块601、第一定位模块602和第二确定模块(未图示)。其中，

第一获取模块601，用于获取目标实物的待定位图像；

第一定位模块602，用于根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考实物的第一预测位姿以及所述目标实物与所述参考实物之间的位姿转换关系，对所述目标实物进行定位；

第二确定模块，用于根据定位结果，确定与所述目标实物相关联的虚拟物体的显示画面。

进一步的，上述装置，还可包括：

第一确定模块，用于根据卷积神经网络基于第一图像预测出的目标实物的第二预测位姿以及所述即时定位与地图构建算法基于所述第一图像预测出的所述参考实物的第三预测位姿确定所述位姿转换关系；

所述目标实物与所述参考实物相对静止。

进一步的，第一确定模块，还用于根据所述卷积神经网络基于拍摄时间位于预设时间段内的多帧图像对所述目标实物进行多次位姿预测的结果，确定所述目标实物是否为旋转对称性的物体；

第一定位模块，具体用于：

所述目标实物为旋转对称性的物体时，根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标实物周围的参考实物的第一预测位姿以及所述目标实物与所述参考实物之间的位姿转换关系，对所述目标实物进行定位。

这里需要说明的是：上述实施例提供的显示装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图9示出了本申请又一实施例提供的数据处理装置的结构框图。如图9所示，该装置包括：第二获取模块701和第一执行模块702。其中，

第二获取模块701，用于获取包含有旋转对称物体的样本图像及所述旋转对称物体对应的参考位姿；

第一执行模块702，用于将所述样本图像作为训练模型的输入，执行所述训练模型得到计算位姿；在基于所述参考位姿及所述计算位姿判定满足收敛条件的情况下，所述训练模型完成训练得到用于与即时定位与地图构建算法结合使用以对具有旋转对称性的物体进行位姿估计的计算模型。

进一步的，上述装置，还包括：

第二执行模块，用于将所述参考位姿及所述计算位姿作为ShapeMatch-Loss损失函数的输入，执行所述ShapeMatch-Loss损失函数得到第一损失值；

第二判定模块，用于所述第一损失值小于或等于第一预设阈值时，判定满足所述收敛条件。

进一步的，所述第二获取模块701，还用于获取所述旋转对称物体对应的参考语义标签；

所述第一执行模块702，还用于将所述样本图像作为训练模型的输入，执行所述训练模型得到计算语义标签；

上述装置，还包括：

第一计算模块，用于根据所述参考语义标签与所述计算语义标签，计算第二损失值；

所述第二判定模块，具体用于：

所述第一损失值小于或等于第一预设阈值且所述第二损失值小于或等于第二预设阈值时，判定满足所述收敛条件。

进一步，所述第二获取模块701，还用于获取所述旋转对称物体对应的参考物体类别；

所述第一执行模块702，还用于将所述样本图像作为训练模型的输入，执行所述训练模型得到计算物体类别；

第二计算模块，用于根据所述参考物体类别与所述计算物体类别，计算第三损失值；

所述第二判定模块，具体用于：所述第一损失值小于或等于第一预设阈值、所述第二损失值小于或等于第二预设阈值且所述第三损失值小于或等于第三预设阈值时，判定满足所述收敛条件。

进一步的，上述装置，还可包括：

调整模块，用于在基于所述参考位姿及所述计算位姿判定不满足收敛条件的情况下，调整所述训练模型中的模型参数，并对调整后的所述训练模型进行训练。

进一步的，所述训练模型为基于MobileNet-SSD基础网络架构的卷积神经网络。

进一步的，所述卷积神经网络的卷积层包含有3x3卷积核和1x1卷积核。

这里需要说明的是：上述实施例提供的数据处理装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图7为本申请一实施例提供的电子设备的结构示意图。该电子设备包括：存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1101中存储的所述程序，以用于：

获取目标物的待定位图像；

其中，处理器1102在执行存储器1101中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。

进一步，如图7所示，电子设备还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图7中仅示意性给出部分组件，并不意味着电子设备只包括图7所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的物体定位方法的步骤或功能。

图7示出了本申请一实施例提供的机器人的结构示意图。如图所示，所述机器人包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在机器人上的操作。这些数据的示例包括用于在机器人上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

获取目标物的待定位图像；

根据定位结果，确定抓取所述目标物的方式。

进一步，如图7所示，机器人还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图7中仅示意性给出部分组件，并不意味着机器人只包括图7所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的物体抓取方法步骤或功能。

图7示出了本申请一实施例提供的增强现实设备的结构示意图。如图所示，所述增强现实设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在增强现实设备上的操作。这些数据的示例包括用于在增强现实设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1301中存储的所述程序，以用于：

获取目标实物的待定位图像；

进一步，如图7所示，增强现实设备还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图7中仅示意性给出部分组件，并不意味着增强现实设备只包括图7所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的显示方法步骤或功能。

图7示出了本申请一实施例提供的电子设备的结构示意图。如图所示，所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种物体定位方法，其特征在于，包括：

获取目标物的待定位图像；

2.根据权利要求1所述的方法，其特征在于，还包括：

根据卷积神经网络基于第一图像预测出的目标物的第二预测位姿以及所述即时定位与地图构建算法基于所述第一图像预测出的所述参考物的第三预测位姿确定所述位姿转换关系；

所述目标物与所述参考物相对静止。

3.根据权利要求2所述的方法，其特征在于，还包括：

根据所述卷积神经网络基于拍摄时间位于预设时间段内的多帧图像对所述目标物进行多次位姿预测的结果，确定所述目标物是否为旋转对称性的物体；

根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标物周围的参考物的第一预测位姿以及所述目标物与所述参考物之间的位姿转换关系，对所述目标物进行定位，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述卷积神经网络基于拍摄时间位于预设时间段内的多帧图像对目标物进行多次位姿预测的结果，确定所述目标物是否为旋转对称性的物体，包括：

5.根据权利要求3所述的方法，其特征在于，所述参考物相对世界坐标系静止；

上述方法，还包括：

根据所述结果中所述目标物的多个预测位置，判断所述目标物是否相对于所述世界坐标系发生平移；

所述目标物相对于所述参考坐标系未发生平移时，判定所述目标物与所述参考物相对静止。

6.根据权利要求1至5中任一项所述的方法，其特征在于，还包括：

通过所述卷积神经网络的卷积层对所述第一图像进行特征提取，得到第一特征图；

根据所述第一特征图，由所述卷积神经网络的全连接层对所述目标物进行位姿预测，以得到所述目标物的第二预测位姿。

7.根据权利要求1至5所述的方法，其特征在于，所述卷积神经网络的训练过程如下：

在基于所述参考位姿及所述计算位姿判定满足收敛条件的情况下，所述训练模型完成训练得到所述卷积神经网络。

8.根据权利要求1至5中任一项所述的方法，其特征在于，还包括：

获取空间尺度比例；

采用所述空间尺度比例修正对所述目标物的定位结果。

9.根据权利要求8所述的方法，其特征在于，所述待定位图像由相机采集得到；

获取空间尺度比例，包括：

10.一种物体抓取方法，其特征在于，包括：

获取目标物的待定位图像；

根据定位结果，确定抓取所述目标物的方式。

11.根据权利要求10所述的方法，其特征在于，还包括：

所述目标物与所述参考物相对静止。

12.根据权利要求11所述的方法，其特征在于，还包括：

13.一种用于增强现实的显示方法，其特征在于，包括：

获取目标实物的待定位图像；

14.根据权利要求13所述的方法，其特征在于，还包括：

根据卷积神经网络基于第一图像预测出的目标实物的第二预测位姿以及所述即时定位与地图构建算法基于所述第一图像预测出的所述参考实物的第三预测位姿确定所述位姿转换关系；

所述目标实物与所述参考实物相对静止。

15.根据权利要求14所述的方法，其特征在于，还包括：

根据所述卷积神经网络基于拍摄时间位于预设时间段内的多帧图像对所述目标实物进行多次位姿预测的结果，确定所述目标实物是否为旋转对称性的物体；

根据即时定位与地图构建算法基于所述待定位图像预测出的所述目标实物周围的参考实物的第一预测位姿以及所述目标实物与所述参考实物之间的位姿转换关系，对所述目标实物进行定位，包括：

16.一种训练数据采集系统，其特征在于，包括：

17.根据权利要求16所述的系统，其特征在于，还包括：多个机器人；

所述多个相机一一对应设置在所述多个机器人上；

所述控制器与所述多个机器人连接，用于控制所述多个机器人分布，以使所述多个相机分布在以所述样本物体为球心的球面上；还用于向所述多个机器人发送控制指令，以使所述多个机器人根据所述控制指令控制各自对应的相机的拍摄。

18.根据权利要求16或17所述的系统，其特征在于，还包括：旋转机构；

所述旋转机构，分别与所述控制器连接，在所述控制器的控制下，旋转所述样本物体；

所述控制器在控制所述旋转机构每旋转一次后，控制所述多个相机拍摄一次；

所述控制器与所述处理器连接，用于向所述处理器提供所述第一位姿信息。

19.一种数据处理方法，其特征在于，包括：

20.根据权利要求19所述的方法，其特征在于，还包括：

将所述参考位姿及所述计算位姿作为ShapeMatch-Loss损失函数的输入，执行所述ShapeMatch-Loss损失函数得到第一损失值；

所述第一损失值小于或等于第一预设阈值时，判定满足所述收敛条件。

21.根据权利要求20所述的方法，其特征在于，还包括：

获取所述旋转对称物体对应的参考语义标签；

将所述样本图像作为训练模型的输入，执行所述训练模型得到计算语义标签；

根据所述参考语义标签与所述计算语义标签，计算第二损失值；

所述第一损失值小于或等于第一预设阈值时，判定满足所述收敛条件，包括：

22.根据权利要求21所述的方法，其特征在于，还包括：

获取所述旋转对称物体对应的参考物体类别；

将所述样本图像作为训练模型的输入，执行所述训练模型得到计算物体类别；

根据所述参考物体类别与所述计算物体类别，计算第三损失值；

所述第一损失值小于或等于第一预设阈值且所述第二损失值小于或等于第二预设阈值时，判定满足所述收敛条件，包括：

23.根据权利要求19至22中任一项所述的方法，其特征在于，还包括：

在基于所述参考位姿及所述计算位姿判定不满足收敛条件的情况下，调整所述训练模型中的模型参数，并对调整后的所述训练模型进行训练。

24.根据权利要求19至22中任一项所述的方法，其特征在于，所述训练模型为基于MobileNet-SSD基础网络架构的卷积神经网络。

25.根据权利要求19至22中所述的方法，其特征在于，所述卷积神经网络的卷积层包含有3x3卷积核和1x1卷积核。

26.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

获取目标物的待定位图像；

27.一种机器人，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

获取目标物的待定位图像；

根据定位结果，确定抓取所述目标物的方式。

28.一种增强现实设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

获取目标实物的待定位图像；

29.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；