CN111325796B

CN111325796B - 用于确定视觉设备的位姿的方法和装置

Info

Publication number: CN111325796B
Application number: CN202010128386.XA
Authority: CN
Inventors: 李照虎
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-08-18
Anticipated expiration: 2040-02-28
Also published as: CN111325796A

Abstract

本公开涉及人工智能领域。本公开的实施例公开了用于确定视觉设备的位姿的方法和装置。该方法包括：获取视觉设备采集的图像作为位姿查询图像，检索出与位姿查询图像匹配的点云子图；基于位姿查询图像与点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息；从位姿查询图像中提取出二维线段，从三维点云地图中提取出对应的三维线段；基于各候选位姿信息将与二维线段对应的三维线段投影至二维平面分别得到各候选位姿信息对应的二维投影直线，针对各候选位姿信息，确定二维线段与对应的二维投影直线之间的第一偏差；基于各候选位姿信息对应的第一偏差，从候选位姿信息中确定出视觉设备的位姿信息。该方法提升了视觉定位的准确性。

Description

用于确定视觉设备的位姿的方法和装置

技术领域

本公开的实施例涉及人工智能领域，具体涉及视觉定位技术领域，尤其涉及用于确定视觉设备的位姿的方法和装置。

背景技术

视觉定位技术，是基于场景的三维点云计算采集图像的视觉设备在该点云中的位置和方向的技术。视觉定位技术能够提供准确的位置服务，是无人驾驶、室内外导航、增强现实等人工智能场景中的关键技术。

视觉定位技术一般是基于离线点云地图与二维图像的特征点匹配来估算图像采集设备的位姿。为了满足系统的实时性要求，通常提取部分特征点来进行匹配，这种方式获得的位姿信息在一些复杂场景下往往可能是错误的，如果这时候系统感知不到，则对系统的决策行为将会造成严重的影响。

发明内容

本公开的实施例提出了用于确定视觉设备的位姿的方法和装置、电子设备和计算机可读介质。

第一方面，本公开的实施例提供了一种用于确定视觉设备的位姿的方法，包括：获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与位姿查询图像匹配的点云子图；基于位姿查询图像与点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息；从位姿查询图像中提取出二维线段，并从三维点云地图中提取出二维线段对应的三维线段，其中，三维点云地图包括对应场景中的三维线段的位置信息；基于各候选位姿信息以及三维线段的位置信息将与二维线段对应的三维线段投影至二维平面分别得到各候选位姿信息对应的二维投影直线，并针对各候选位姿信息，分别确定二维线段与对应的二维投影直线之间的第一偏差；基于各候选位姿信息对应的第一偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息。

在一些实施例中，上述三维点云地图按照如下方式构建：对预设场景的三维点云进行直线检测，确定预设场景的三维点云中的三维线段的位置信息。

在一些实施例中，上述从三维点云地图中提取出二维线段对应的三维线段，包括：从与位姿查询图像匹配的点云子图中提取出至少一个三维线段，基于二维线段与提取出的至少一个三维线段进行匹配，根据匹配结果确定与二维线段对应的三维线段。

在一些实施例中，上述预先构建的三维点云地图还包括对应场景中的对象的三维位置信息；以及上述方法还包括：响应于在位姿查询图像中检测到的二维线段不满足预设的条件，对位姿查询图像进行对象检测，得到位姿查询图像中的目标对象的二维位置信息；根据预先构建的三维点云地图，确定目标对象的三维位置信息；基于各候选位姿信息将目标对象的三维位置信息投影至二维平面分别得到各候选位姿信息对应的目标对象的二维投影位置信息，并针对各候选位姿信息，分别确定目标对象的二维投影位置信息与目标对象的二维位置信息之间的第二偏差；基于各候选位姿信息对应的第二偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息。

在一些实施例中，上述三维点云地图按照如下方式构建：对预设场景的点云地图进行对象检测，确定检测出的对象的三维边界位置信息作为检测出的对象的三维位置信息。

在一些实施例中，上述对象的三维边界位置信息包括对象的最小外接椭球的边界位置信息，或者对象的最大内切椭球的边界位置信息。

第二方面，本公开的实施例提供了一种用于确定视觉设备的位姿的装置，包括：检索单元，被配置为获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与位姿查询图像匹配的点云子图；估计单元，被配置为基于位姿查询图像与点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息；提取单元，被配置为从位姿查询图像中提取出二维线段，并从三维点云地图中提取出二维线段对应的三维线段，其中，三维点云地图包括对应场景中的三维线段的位置信息；第一投影单元，被配置为基于各候选位姿信息以及三维线段的位置信息将与二维线段对应的三维线段投影至二维平面分别得到各候选位姿信息对应的二维投影直线，并针对各候选位姿信息，分别确定二维线段与对应的二维投影直线之间的第一偏差；第一确定单元，被配置为基于各候选位姿信息对应的第一偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息。

在一些实施例中，上述提取单元，被配置为按照如下方式从三维点云地图中提取出二维线段对应的三维线段：从与位姿查询图像匹配的点云子图中提取出至少一个三维线段，基于二维线段与提取出的至少一个三维线段进行匹配，根据匹配结果确定与二维线段对应的三维线段。

在一些实施例中，上述预先构建的三维点云地图还包括对应场景中的对象的三维位置信息；以及上述装置还包括：检测单元，被配置为响应于在位姿查询图像中检测到的二维线段不满足预设的条件，对位姿查询图像进行对象检测，得到位姿查询图像中的目标对象的二维位置信息；匹配单元，被配置为根据预先构建的三维点云地图，确定目标对象的三维位置信息；第二投影单元，被配置为基于各候选位姿信息将目标对象的三维位置信息投影至二维平面分别得到各候选位姿信息对应的目标对象的二维投影位置信息，并针对各候选位姿信息，分别确定目标对象的二维投影位置信息与目标对象的二维位置信息之间的第二偏差；第二确定单元，被配置为基于各候选位姿信息对应的第二偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息。

第三方面，本公开的实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面提供的用于确定视觉设备的位姿的方法。

第四方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现第一方面提供的用于确定视觉设备的位姿的方法。

本公开的上述实施例的用于确定视觉设备的位姿的方法和装置，通过获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与位姿查询图像匹配的点云子图，而后基于位姿查询图像与点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息，然后从位姿查询图像中提取出二维线段，并从三维点云地图中提取出二维线段对应的三维线段，其中，三维点云地图包括对应场景中的三维线段的位置信息，之后基于各候选位姿信息以及三维线段的位置信息将与二维线段对应的三维线段投影至二维平面分别得到各候选位姿信息对应的二维投影直线，并针对各候选位姿信息，分别确定二维线段与对应的二维投影直线之间的第一偏差，最后基于各候选位姿信息对应的第一偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息，实现了快速、准确的视觉定位。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于确定视觉设备的位姿的方法的一个实施例的流程图；

图3是从位姿查询图像中提取出二维线段的效果示意图；

图4是根据本公开的用于确定视觉设备的位姿的方法的另一个实施例的流程图；

图5是将三维点云地图中的对象的椭球边界框投影至对应的位姿查询图像中的示意图；

图6是本公开的用于确定视觉设备的位姿的装置的一个实施例的结构示意图；

图7是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的用于训练超网络的方法或用于训练超网络的装置的示例性系统架构100。

如图1所示，系统架构100可以包括视觉设备101、102、103，网络104和服务器105。网络104用以在视觉设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

视觉设备101、102、103可以是具有图像采集功能的硬件设备。具体地，视觉设备101、102、103可以是用户设备，例如用户随身携带的具有图像采集功能的手机、平板电脑、智能手表等各种可移动电子设备；也可以是安装有图像采集设备的自动驾驶车辆、机器人等其他可移动设备。或者，视觉设备101、102、103也可以仅指用于图像采集的独立成像器件，如摄像机、红外相机等等。视觉设备101、102、103也可以是软件，例如可以是安装在上述可移动设备的处理部件中的图像采集应用程序，其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

视觉设备101、102、103可以通过网络104与服务器105交互，以接收或发送消息等。具体地，在本公开的实施例的应用场景中，视觉设备101、102、103可以采集实际场景图像，并将采集到的图像发送至服务器105。

服务器105可以是运行视觉定位服务的服务器。服务器105接收视觉设备101、102、103发送的场景图像，基于场景的点云地图进行匹配，根据匹配结果估算视觉设备在点云地图中的位置和姿态信息，得到视觉设备101、102、103的定位结果。

上述服务器105可以为硬件，也可以为软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开的实施例所提供的用于确定视觉设备的位姿的方法可以由服务器105或视觉设备101、102、103执行，相应地，用于确定视觉设备的位姿的装置可以设置于服务器105或视觉设备101、102、103中。

在一些场景中，视觉设备101、102、103可以包含数据处理部件，其可以在本地保存点云地图，基于采集到的图像数据进行视觉定位。这时，示例性的架构中可以不包含网络104和服务器105。

应该理解，图1中的视觉设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本公开的用于确定视觉设备的位姿的方法的一个实施例的流程200。如图2所示，本实施例的用于确定视觉设备的位姿的方法的流程200，包括以下步骤：

步骤201，获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与位姿查询图像匹配的点云子图。

在本实施例中，用于确定视觉设备的位姿的方法的执行主体可以获取视觉设备采集的图像，作为位姿查询图像。位姿查询图像是用于查询采集该图像的视觉设备的图像。

视觉设备可以在移动过程中采集场景的图像，上述执行主体可以基于该图像查询视觉设备的位姿，实现视觉设备的定位。在实际场景中，视觉设备可以是摄像器件，可以安装在自动驾驶车辆、机器人、手机等可移动的设备上。当视觉设备随可移动的设备发生移动时，其位置和姿态实时地变化，需要实时地根据视觉设备采集的场景图像估计其位姿，进而根据实时的位姿进行基于图像的目标检测、目标跟踪等任务。

视觉设备采集到图像后可以主动传送至服务器进行处理，也可以在本地进行处理。

获取到位姿查询图像之后，可以采用图像检索技术，从预先构建的三维点云地图中检索出与位置查询图像匹配的点云子图。

具体地，预先构建的三维点云地图包括位姿查询图像中的场景的点云。在本实施例中，可以预先采用SLAM(simultaneous localization and mapping，即时定位与地图构建)技术构建视觉设备所处场景的三维点云地图。可以采用双目相机或激光雷达采集场景信息，并基于采集的场景信息构建三维点、面数据来形成三维点云地图。

在本实施例中，上述执行主体可以通过提取位姿查询图像中的特征，基于位姿查询图像的特征与三维点云地图中的特征进行匹配来检索出与位姿查询图像匹配的点云子图，具体可以提取位姿查询图像的目标对象的形状、纹理、颜色等特征，与三维点云地图中包含的对象的特征进行匹配。在这里，点云子图可以是三维点云地图中的一部分，与位姿查询图像匹配的点云子图包括：位姿查询图像所包含的场景的三维点云。

可选地，可以根据位姿查询图像的边界特征，例如图像边界的纹理、颜色等特征或者位于图像边界处的物体的特征，然后在三维点云地图中通过这些特征匹配到相应的纹理、颜色或者物体，从而确定位姿查询图像对应的点云子图的边界，进而获取与位姿查询图像对应的点云子图。

步骤202，基于位姿查询图像与点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息。

在本实施例中，可以进一步对位姿查询图像进行二维特征点提取，对上述点云子图进行三维特征点提取，对二维特征点和三维特征点进行匹配。然后基于二维特征点的图像坐标与匹配的三维特征点的空间位置坐标，对位姿查询图像相对于点云子图的空间旋转参数和空间平移参数进行计算。或者，可以采用拟合的方式，基于各二维特征点的图像坐标和三维特征点的空间位置坐标拟合出位姿查询图像相对于点云子图的空间旋转参数和空间平移参数。

在这里，可以基于位姿查询图像的二维特征点估计出多个候选位姿信息。例如，可以将提取出的二维特征点划分为多个二维特征点集合，将提取出的三维特征点划分为多个三维特征点集合，基于每个二维特征点集合与对应的三维特征点集合分别确定出一个候选位置信息，这样可以得到多个候选位姿信息。

在本实施例中，基于位姿查询图像与点云子图的匹配点对视觉设备的位姿进行初步估计获得候选位姿信息之后，还可以通过进一步的核准流程(包括以下步骤203、步骤204、步骤205)来获得精确的位姿估计结果。

步骤203，从位姿查询图像中提取出二维线段，并从三维点云地图中提取出二维线段对应的三维线段。

三维点云地图包括对应场景中的三维线段的位置信息。三维线段的位置信息可以用直线方程表示，该直线方程可以基于位于该三维线段上的三维点的坐标，通过直线拟合的方式获得。三维点云地图中的三维线段可以是人工标注出的。

可选地，上述三维点云地图可以按照如下方式预先构建：对预设场景的三维点云进行直线检测，确定预设场景的三维点云中的三维线段的位置信息。在这里，预设场景包含位姿查询图像中的场景。在通过SLAM等方式构建出场景的三维点云之后，可以采用Hough变换检测直线，或者可以采用神经网络模型检测其中的直线。检测出直线后根据直线上的三维点的坐标得出该直线的方程作为该三维点云地图中的三维线段的位置信息。

上述执行主体可以从位姿查询图像中提取二维线段，具体可以采用二维图像中的直线检测方法，如Hough变换等检测出二维线段，获得二维线段的端点的坐标。

图3示出了从一个示例性的场景的位姿查询图像中提取出的二维线段，其中，二维线段在空间中对应物体的直线边沿、墙线、地线等。

然后，可以基于提取出的二维线段在上述点云子图中匹配出对应的三维线段。具体的匹配方式可以为将二维线段按照候选位姿信息投影至三维空间，找到与投影线段最接近的三维线段作为该二维线段对应的三维线段。从三维点云地图中提取出该三维线段的位置信息。

可选地，可以按照如下方式从三维点云地图中提取出与二维线段对应的三维线段：从与位姿查询图像匹配的点云子图中提取出至少一个三维线段，基于二维线段与提取出的至少一个三维线段进行匹配，根据匹配结果确定与二维线段对应的三维线段。

其中，在对二维线段和三维线段进行匹配时，可以基于各候选位姿分别将各个三维线段投影至二维平面，对每一条三维线段，可以得到对应于多个候选位姿的投影线段集合，对每个投影线段集合中的线段计算其方向角后取平均值得到该投影线段集合的平均方向角，将该平均方向角与上述二维线段的方向角之间的差异作为二维线段与该投影线段集合对应的三维线段之间的差异。然后确定与二维线段的方向角的差异最小的平均方向角对应的三维线段为与二维线段匹配的三维线段。

或者，还可以将二维线段按照候选位姿信息投影至三维空间，然后找到与二维线段的投影线段相交且夹角最小的三维线段、或找到与二维线段的距离最小的三维线段，即得到二维线段对应的三维线段。

步骤204，基于各候选位姿信息以及三维线段的位置信息将与二维线段对应的三维线段投影至二维平面分别得到各候选位姿信息对应的二维投影直线，并针对各候选位姿信息，分别确定二维线段与对应的二维投影直线之间的第一偏差。

针对每一个候选位姿信息，可以按照三维点云地图中表征三维线段的直线方程和该候选位姿信息，将与上述二维线段对应的三维线段投影至二维图像坐标系下，得到二维投影直线。然后，计算上述位姿查询图像中的二维线段与对应的二维投影直线之间的最小距离或夹角作为该二维线段与对应的二维投影直线之间的第一偏差。

可选地，可以分别计算上述位姿查询图像中的二维线段的两个端点与对应的二维投影直线之间的距离，将二者的距离之和作为上述二维线段与对应的二维投影直线之间的第一偏差。

步骤205，基于各候选位姿信息对应的第一偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息。

可以选择第一偏差满足预设条件的候选位姿信息作为视觉设备的位姿信息，得到视觉设备的定位结果。该预设条件可以是第一偏差最小，或者第一偏差的值不大于预设的值。

本公开的上述实施例的用于确定视觉设备的位姿的方法，通过获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与位姿查询图像匹配的点云子图，而后基于位姿查询图像与点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息，然后从位姿查询图像中提取出二维线段，并从三维点云地图中提取出与二维线段对应的三维线段，其中，三维点云地图包括对应场景中的三维线段的位置信息，之后基于各候选位姿信息以及三维线段的位置信息将与二维线段对应的三维线段投影至二维平面分别得到各候选位姿信息对应的二维投影直线，并针对各候选位姿信息，分别确定二维线段与对应的二维投影直线之间的第一偏差，最后基于各候选位姿信息对应的第一偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息，能够准确测算出视觉设备的位姿信息。并且，由于在确定候选位姿信息之后，通过提取直线特征，计算直线投影的偏差来表征各候选位姿的偏差，计算的速度较快，能够快速地实现位姿信息的核准，提升了视觉定位的速度，从而可以提升使用视觉定位方法的系统的实时性。

继续参考图4，其示出了根据本公开的用于确定视觉设备的位姿的方法的另一个实施例的流程图。如图4所示，本实施例的用于确定视觉设备的位姿的方法的流程400，包括以下步骤：

步骤401，获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与位姿查询图像匹配的点云子图。

步骤402，基于位姿查询图像与点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息。

步骤403，从位姿查询图像中提取出二维线段，并从三维点云地图中提取出二维线段对应的三维线段，其中，三维点云地图包括对应场景中的三维线段的位置信息。

步骤404，基于各候选位姿信息以及三维线段的位置信息将与二维线段对应的三维线段投影至二维平面分别得到各候选位姿信息对应的二维投影直线，并针对各候选位姿信息，分别确定二维线段与对应的二维投影直线之间的第一偏差.

步骤405，基于各候选位姿信息对应的第一偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息。

本实施例的步骤401、步骤402、步骤403、步骤404、步骤405分别与前述实施例的步骤201、步骤202、步骤203、步骤204、步骤205一致，步骤401、步骤402、步骤403、步骤404、步骤405的具体实现方式可以参考前述实施例中对应步骤的描述，此处不再赘述。

步骤406，响应于在位姿查询图像中检测到的二维线段不满足预设的条件，对位姿查询图像进行对象检测，得到位姿查询图像中的目标对象的二维位置信息。

在本实施例中，上述执行主体还可以判断在位姿查询图像中检测到的二维线段是否满足预设的条件。

在一些实际场景中，场景中的线段长度过短，则在对应的位姿查询图像中二维线段的长度达不到预设的长度，这时，基于该二维线段进行位姿估计可能会产生很大的误差，因此可以设置上述预设的条件包括：在位姿查询图像中检测到的二维线段均不超过预设的长度。

在另一些场景中，场景中不存在直线线段，则上述预设的条件可以包括：位姿查询图像中二维线段的数量为0，也即，未在位姿查询图像中检测到二维线段。

这时，可以采用目标检测方法对位姿查询图像进行对象检测，例如可以采用经过训练的神经网络模型来检测位姿查询图像中的目标对象的位置信息，并确定检测出的目标对象的类型。

位姿查询图像中的目标对象的位置可以用其最小外接矩形框或最大内切矩形框的边界来表征。或者，位姿查询图像中的目标对象的位置可以用其最小外接矩形框或最大内切矩形框的边界的位置表征。

步骤407，根据预先构建的三维点云地图，确定目标对象的三维位置信息。

上述预先构建的三维点云地图还包括对应场景中的对象的三维位置信息。在本实施例中，可以基于从位姿查询图像中检测出的目标对象的特征，在三维点云地图中确定出目标对象的特征匹配的点云，作为目标对象的点云，然后基于目标对象的点云确定目标对象的三维位置信息。

在这里，目标对象的点云是由目标对象表面的点形成的。通过特征匹配从三维点云地图中提取出目标对象的点云之后，可以通过曲面拟合得出目标对象的表面方程作为目标对象的位置信息。

在本实施例的一些可选的实现方式中，上述三维点云地图按照如下方式构建：对预设场景的点云地图进行对象检测，确定检测出的对象的三维边界位置信息作为检测出的对象的三维位置信息。

在基于SLAM等技术构建出预设场景的点云地图之后，可以通过三维对象检测方法对点云地图中的对象进行定位。在这里，三维对象检测可以采用三维物体特征模板库匹配的方法，或者基于神经网络模型的方法。三维物体边界的位置信息可以例如是三维长方体包围盒的顶点坐标或三维长方体包围盒的各条边的直线方程。三维对象的检测结果可以包括检测到的三维对象的类型信息。

可选地，对象的三维边界位置信息包括对象的最小外接椭球的边界位置信息，或者对象的最大内切椭球的边界位置信息。椭球的边界位置信息可以包括椭球的中心点坐标以及二次方程。

采用最小外接椭球或最大内切椭球的位置来表征检测出的三维对象的位置，可以仅将尺寸较大的对象应用于核准位姿信息，避免将尺寸较小的对象引入计算视觉设备的位姿中，有助于提升视觉定位方法的鲁棒性。

在这里，上述对象检测结果包含了对象的类型信息，则在基于对象检测结果进行位姿估算时对象类型信息对估算结果产生影响，使得位姿估算结果融合了对象类型特征，能够进一步提升视觉定位方法的鲁棒性。

步骤408，基于各候选位姿信息将目标对象的三维位置信息投影至二维平面分别得到各候选位姿信息对应的目标对象的二维投影位置信息，并针对各候选位姿信息，分别确定目标对象的二维投影位置信息与目标对象的二维位置信息之间的第二偏差。

在本实施例中，针对每一个候选位姿信息，可以将目标对象的三维位置信息按照该候选位姿信息投影至二维平面，得到目标对象在该候选位姿信息下的二维投影位置信息。然后，可以分别计算目标对象在各候选位姿信息下的二维投影位置信息与位姿查询图像中该目标对象的位置信息之间的第二偏差。

请参考图5，其示出了将三维点云地图中的对象的椭球边界框投影至对应的位姿查询图像中的示意图。其中，椭圆框是目标对应的椭球边界框的投影，矩形框是目标对象在位姿查询图像中的边界框。

上述第二偏差可以采用几何体之间的重叠度来计算。具体可以计算目标对象在候选位姿下投影得到的二维投影框与目标对象在位姿查询图像中的位置框之间的重叠度，作为二者的第二偏差。上述第二偏差也可以采用其他方式计算，例如二维投影框的中心点与二维位置框的中心点之间的距离，等等。

步骤409，基于各候选位姿信息对应的第二偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息。

最后，上述执行主体可以选择对应的第二偏差的值最小，或者对应的第二偏差的值小于预设阈值的候选位姿信息，作为视觉设备的位姿信息，得到视觉定位结果。

本实施例的用于确定视觉设备的位姿的方法的流程400，通过检测位姿查询图像中的目标对象，并基于目标对象的位置信息在三维点云地图中匹配，能够在无法基于直线特征准确进行视觉定位的场景或不存在直线特征的场景中实现视觉设备的准确定位，提升了视觉定位方法的鲁棒性。

请参考图6，作为对上述用于确定视觉设备的位姿的方法的实现，本公开提供了一种用于确定视觉设备的位姿的装置的一个实施例，该装置实施例与图2和图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于确定视觉设备的位姿的装置600包括：检索单元601、估计单元602、提取单元603、第一投影单元604以及第一确定单元605。其中，检索单元601被配置为获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与位姿查询图像匹配的点云子图；估计单元602被配置为基于位姿查询图像与点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息；提取单元603被配置为从位姿查询图像中提取出二维线段，并从三维点云地图中提取出二维线段对应的三维线段，其中，三维点云地图包括对应场景中的三维线段的位置信息；第一投影单元604被配置为基于各候选位姿信息以及三维线段的位置信息将与二维线段对应的三维线段投影至二维平面分别得到各候选位姿信息对应的二维投影直线，并针对各候选位姿信息，分别确定二维线段与对应的二维投影直线之间的第一偏差；第一确定单元605被配置为基于各候选位姿信息对应的第一偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息。

在一些实施例中，上述提取单元603，被配置为按照如下方式从三维点云地图中提取出二维线段对应的三维线段：从与位姿查询图像匹配的点云子图中提取出至少一个三维线段，基于二维线段与提取出的至少一个三维线段进行匹配，根据匹配结果确定与二维线段对应的三维线段。

上述装置600中的各单元与参考图2和图4描述的方法中的步骤相对应。由此，上文针对用于确定视觉设备的位姿的方法描述的操作、特征及所能达到的技术效果同样适用于装置600及其中包含的单元，在此不再赘述。

下面参考图7，其示出了适于用来实现本公开的实施例的电子设备(例如图1所示的服务器)700的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与位姿查询图像匹配的点云子图；基于位姿查询图像与点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息；从位姿查询图像中提取出二维线段，并从三维点云地图中提取出二维线段对应的三维线段，其中，三维点云地图包括对应场景中的三维线段的位置信息；基于各候选位姿信息以及三维线段的位置信息将与二维线段对应的三维线段投影至二维平面分别得到各候选位姿信息对应的二维投影直线，并针对各候选位姿信息，分别确定二维线段与对应的二维投影直线之间的第一偏差；基于各候选位姿信息对应的第一偏差，从至少一个候选位姿信息中确定出视觉设备的位姿信息。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括检索单元、估计单元、提取单元、第一投影单元以及第一确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，检索单元还可以被描述为“获取视觉设备采集的图像作为位姿查询图像，并从预先构建的三维点云地图中检索出与位姿查询图像匹配的点云子图的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于确定视觉设备的位姿的方法，包括：

获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与所述位姿查询图像匹配的点云子图；

基于所述位姿查询图像与所述点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息；

从所述位姿查询图像中提取出二维线段，并从所述三维点云地图中提取出所述二维线段对应的三维线段，其中，所述三维点云地图包括对应场景中的三维线段的位置信息；

基于各所述候选位姿信息以及所述三维线段的位置信息将与所述二维线段对应的三维线段投影至二维平面分别得到各所述候选位姿信息对应的二维投影直线，并针对各所述候选位姿信息，分别确定所述二维线段与对应的二维投影直线之间的第一偏差；

基于各所述候选位姿信息对应的所述第一偏差，从至少一个所述候选位姿信息中确定出所述视觉设备的位姿信息包括：选择所述第一偏差满足预设条件的候选位姿信息作为所述视觉设备的位姿信息。

2.根据权利要求1所述的方法，其中，所述三维点云地图按照如下方式构建：

对预设场景的三维点云进行直线检测，确定所述预设场景的三维点云中的三维线段的位置信息。

3.根据权利要求1所述的方法，其中，所述从所述三维点云地图中提取出所述二维线段对应的三维线段，包括：

从所述点云子图中提取出至少一个三维线段，基于所述二维线段与提取出的至少一个三维线段进行匹配，根据匹配结果确定与所述二维线段对应的三维线段。

4.根据权利要求1-3任一项所述的方法，其中，所述预先构建的三维点云地图还包括对应场景中的对象的三维位置信息；以及

所述方法还包括：

响应于在所述位姿查询图像中检测到的二维线段不满足预设的条件，对所述位姿查询图像进行对象检测，得到所述位姿查询图像中的目标对象的二维位置信息；

根据所述预先构建的三维点云地图，确定所述目标对象的三维位置信息；

基于各所述候选位姿信息将所述目标对象的三维位置信息投影至二维平面分别得到各所述候选位姿信息对应的目标对象的二维投影位置信息，并针对各所述候选位姿信息，分别确定所述目标对象的二维投影位置信息与所述目标对象的二维位置信息之间的第二偏差；

基于各所述候选位姿信息对应的所述第二偏差，从至少一个所述候选位姿信息中确定出所述视觉设备的位姿信息。

5.根据权利要求4所述的方法，其中，所述三维点云地图按照如下方式构建：

对预设场景的点云地图进行对象检测，确定检测出的对象的三维边界位置信息作为检测出的对象的三维位置信息。

6.根据权利要求5所述的方法，其中，所述对象的三维边界位置信息包括所述对象的最小外接椭球的边界位置信息，或者所述对象的最大内切椭球的边界位置信息。

7.一种用于确定视觉设备的位姿的装置，包括：

检索单元，被配置为获取视觉设备采集的图像作为位姿查询图像，从预先构建的三维点云地图中检索出与所述位姿查询图像匹配的点云子图；

估计单元，被配置为基于所述位姿查询图像与所述点云子图的匹配特征点进行相对位姿估计，得到至少一个候选位姿信息；

提取单元，被配置为从所述位姿查询图像中提取出二维线段，并从所述三维点云地图中提取出所述二维线段对应的三维线段，其中，所述三维点云地图包括对应场景中的三维线段的位置信息；

第一投影单元，被配置为基于各所述候选位姿信息以及所述三维线段的位置信息将与所述二维线段对应的三维线段投影至二维平面分别得到各所述候选位姿信息对应的二维投影直线，并针对各所述候选位姿信息，分别确定所述二维线段与对应的二维投影直线之间的第一偏差；

第一确定单元，被配置为基于各所述候选位姿信息对应的所述第一偏差，从至少一个所述候选位姿信息中确定出所述视觉设备的位姿信息；所述第一确定单元进一步被配置成选择所述第一偏差满足预设条件的候选位姿信息作为所述视觉设备的位姿信息。

8.根据权利要求7所述的装置，其中，所述三维点云地图按照如下方式构建：

9.根据权利要求7所述的装置，其中，所述提取单元，被配置为按照如下方式从所述三维点云地图中提取出所述二维线段对应的三维线段：

10.根据权利要求7-9任一项所述的装置，其中，所述预先构建的三维点云地图还包括对应场景中的对象的三维位置信息；以及

所述装置还包括：

检测单元，被配置为响应于在所述位姿查询图像中检测到的二维线段不满足预设的条件，对所述位姿查询图像进行对象检测，得到所述位姿查询图像中的目标对象的二维位置信息；

匹配单元，被配置为根据所述预先构建的三维点云地图，确定所述目标对象的三维位置信息；

第二投影单元，被配置为基于各所述候选位姿信息将所述目标对象的三维位置信息投影至二维平面分别得到各所述候选位姿信息对应的目标对象的二维投影位置信息，并针对各所述候选位姿信息，分别确定所述目标对象的二维投影位置信息与所述目标对象的二维位置信息之间的第二偏差；

第二确定单元，被配置为基于各所述候选位姿信息对应的所述第二偏差，从至少一个所述候选位姿信息中确定出所述视觉设备的位姿信息。

11.根据权利要求10所述的装置，其中，所述三维点云地图按照如下方式构建：

12.根据权利要求11所述的装置，其中，所述对象的三维边界位置信息包括所述对象的最小外接椭球的边界位置信息，或者所述对象的最大内切椭球的边界位置信息。

13.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。