CN112001968B

CN112001968B - 相机定位方法及装置、存储介质

Info

Publication number: CN112001968B
Application number: CN201910447759.7A
Authority: CN
Inventors: 鲍虎军; 章国锋; 黄昭阳; 许龑
Original assignee: Zhejiang Shangtang Technology Development Co Ltd
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2022-07-15
Anticipated expiration: 2039-05-27
Also published as: CN112001968A; KR20210095925A; WO2020238790A1; JP2022513868A

Abstract

本公开提供了一种相机定位方法及装置、存储介质，所述方法包括：获取图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值；根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作，得到目标图像；根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿。本公开降低了相机采集图像所在的场景中物体的移动对可移动机器设备上的相机进行定位的结果的影响，提升了相机定位的准确性。

Description

相机定位方法及装置、存储介质

技术领域

本公开涉及计算机视觉领域，具体涉及一种相机定位方法及装置、存储介质。

背景技术

通常地，视觉定位是计算机视觉领域的重要问题之一，有着广泛的应用。在实际应用环境中，物体移动等因素可能影响视觉定位的精确度，甚至直接导致视觉定位失败。

发明内容

本公开提供了一种相机定位方法及装置、存储介质。

根据本公开实施例的第一方面，提供一种相机定位方法，所述方法包括：

获取图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值；

根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作，得到目标图像；

根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿。

在一些可选实施例中，所述获取图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值，包括：

对预定图像集合中的每张图像分别进行像素级语义分割；

根据像素级语义分割的结果确定所述每张图像中属于所述可移动物体的第一像素点和属于背景的第二像素点；

基于所述每张图像中所述第一像素点和所述第二像素点的统计分布，确定与所述预定图像集合中的图像等大的图像模版包括的多个像素点中每个像素点出现所述可移动物体的所述先验概率值。

在一些可选实施例中，所述根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作，得到目标图像，包括：

对所述待处理图像所包括的至少部分像素点对应的所述先验概率值进行至少一次采样，得到每次采样的采样结果；

根据当前采样结果，在所述待处理图像上去除所述先验概率值的采样值大于预设阈值的像素点，得到所述目标图像。

在一些可选实施例中，采样次数为多次时，执行丢弃部分像素点的操作之后得到的多个所述目标图像两两之间存在至少一个不同的像素点。

在一些可选实施例中，所述根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿，包括：

经神经网络提取所述待处理图像中的特征参数，得到特征提取图像；

在所述神经网络预设空间维度和/或预设通道维度上，增加所述特征提取图像中属于背景的第二像素点所对应的权重值；

经权重值调整后的神经网络对所述特征提取图像进行分析，得到所述待处理图像的相机在世界坐标系下的所述绝对位姿。

在一些可选实施例中，所述经权重值调整后的神经网络对所述特征提取图像进行分析，得到所述待处理图像的相机在世界坐标系下的所述绝对位姿之后，所述方法还包括：

根据所述绝对位姿和预先确定的所述待处理图像的所述相机的位姿真值的差异，调整神经网络的网络参数，训练得到目标神经网络。

将所述待处理图像输入所述目标神经网络，得到所述待处理图像的相机在世界坐标系下的所述绝对位姿。

在一些可选实施例中，所述待处理图像包括所述相机采集的时序顺序的至少两帧图像；

所述根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿之后，所述方法还包括：

根据所述至少两帧图像确定所述相机在拍摄所述至少两帧图像时的相对位姿；

根据所述相机的相对位姿和所述绝对位姿，确定所述相机的修正位姿。

在一些可选实施例中，所述根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿之后，所述方法还包括：

确定所述绝对位姿的结果的确定性概率；

所述根据所述相机的相对位姿和所述绝对位姿，确定所述相机的修正位姿，包括：

根据所述确定性概率确定所述相对位姿的第一权重和所述绝对位姿的第二权重；

根据所述相对位姿、所述第一权重、所述绝对位姿和所述第二权重，确定所述相机的修正位姿。

根据本公开实施例的第二方面，提供一种相机定位装置，包括：

获取模块，用于获取图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值；

执行模块，用于根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作，得到目标图像；

定位模块，用于根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿。

在一些可选实施例中，所述获取模块包括：

分割子模块，用于对预定图像集合中的每张图像分别进行像素级语义分割；

第一确定子模块，用于根据像素级语义分割的结果确定所述每张图像中属于所述可移动物体的第一像素点和属于背景的第二像素点；

第二确定子模块，用于基于所述每张图像中所述第一像素点和所述第二像素点的统计分布，确定与所述预定图像集合中的图像等大的图像模版包括的多个像素点中每个像素点出现所述可移动物体的所述先验概率值。

在一些可选实施例中，所述执行模块包括：

采样子模块，用于对所述待处理图像所包括的至少部分像素点对应的所述先验概率值进行至少一次采样，得到每次采样的采样结果；

执行子模块，用于根据当前采样结果，在所述待处理图像上去除所述先验概率值的采样值大于预设阈值的像素点，得到所述目标图像。

在一些可选实施例中，所述定位模块包括：

第一处理子模块，用于经神经网络提取所述待处理图像中的特征参数，得到特征提取图像；

第二处理子模块，用于在所述神经网络预设空间维度和/或预设通道维度上，增加所述特征提取图像中属于背景的第二像素点所对应的权重值；

第一定位子模块，用于经权重值调整后的神经网络对所述特征提取图像进行分析，得到所述待处理图像的相机在世界坐标系下的所述绝对位姿。

在一些可选实施例中，所述装置还包括：

训练模块，用于根据所述绝对位姿和预先确定的所述待处理图像的所述相机的位姿真值的差异，调整神经网络的网络参数，训练得到目标神经网络。

在一些可选实施例中，所述定位模块包括：

第二定位子模块，用于将所述待处理图像输入所述目标神经网络，得到所述待处理图像的相机在世界坐标系下的所述绝对位姿。

所述装置还包括：

第一确定模块，用于根据所述至少两帧图像确定所述相机在拍摄所述至少两帧图像时的相对位姿；

第二确定模块，用于根据所述相机的相对位姿和所述绝对位姿，确定所述相机的修正位姿。

在一些可选实施例中，所述装置还包括：

第三确定模块，用于确定所述绝对位姿的结果的确定性概率；

所述第二确定模块包括：

第三确定子模块，用于根据所述确定性概率确定所述相对位姿的第一权重和所述绝对位姿的第二权重；

第四确定子模块，用于根据所述相对位姿、所述第一权重、所述绝对位姿和所述第二权重，确定所述相机的修正位姿。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面中任一所述的相机定位方法。

根据本公开实施例的第四方面，提供一种相机定位装置，所述装置包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器用于调用所述存储器中存储的可执行指令，实现第一方面中任一项所述的相机定位方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本实施例中，可以先获取图像模版所包括的多个像素点中每个像素点出现可移动物体的先验概率值，基于先验概率值对与图像模版等待的待处理图像执行丢弃部分像素点的操作，根据得到的目标图像确定采集相机在世界坐标系下的绝对位姿。降低了相机采集图像所在的场景中物体的移动对可移动机器设备上的相机进行定位的结果的影响，提升了相机定位的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开根据一示例性实施例示出的一种相机定位方法流程图；

图2是本公开根据一示例性实施例示出的另一种相机定位方法流程图；

图3是本公开根据一示例性实施例示出的一种目标图像的示例图；

图4是本公开根据一示例性实施例示出的另一种相机定位方法流程图；

图5是本公开根据一示例性实施例示出的另一种相机定位方法流程图；

图6是本公开根据一示例性实施例示出的另一种相机定位方法流程图；

图7是本公开根据一示例性实施例示出的一种确定绝对位姿的示例图；

图8是本公开根据一示例性实施例示出的一种确定修正位姿的过程的示意图；

图9是本公开根据一示例性实施例示出的一种位姿图的示例图；

图10是本公开根据一示例性实施例示出的另一种相机定位方法流程图；

图11是本公开根据一示例性实施例示出的另一种相机定位方法流程图；

图12A至12B是本公开根据一示例性实施例示出的自注意力机制示意图；

图13是本公开根据一示例性实施例示出的一种相机定位中调整神经网络权重的示例图；

图14是本公开根据一示例性实施例示出的另一种相机定位方法流程图；

图15是本公开根据一示例性实施例示出的一种目标神经网络框架图；

图16是本公开根据一示例性实施例示出的一种相机定位装置框图；

图17是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图18是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图19是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图20是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图21是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图22是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图23是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图24是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图25是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图26是本公开根据一示例性实施例示出的另一种相机定位装置框图；

图27是本公开根据一示例性实施例示出的一种用于视觉定位装置的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开运行的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中运行的术语“和/或”是指并包含一张或多张相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开实施例提供了一种相机定位方法，可以根据图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值，丢弃与图像模版等大的待处理图像中的部分像素点，再根据得到的目标图像去确定相机的绝对位姿，降低了相机采集图像所在的场景中物体的移动对可移动机器设备上的相机进行定位的结果的影响，提升了相机定位的准确性和精度。

本公开实施例提供的相机定位方法可以应用在可移动机器设备上，对可移动机器设备上设置的相机进行定位。可移动机器设备包括但不限于设置了相机的无人机、无人驾驶车辆、机器人等。

由于可移动电子设备会发生移动，从而会造成设备上设置的相机的位姿随之发生改变。相机定位的准确性可以提高可移动机器设备执行各种任务时的准确度。例如，根据无人驾驶车辆上设置的相机所采集的车辆前向的环境的图像，确定相机当前的定位信息，根据相机的定位信息来定位车辆当前的定位信息，进而对该无人驾驶车辆进行路径规划、轨迹跟踪、碰撞预警等至少一种智能驾驶控制。

例如图1所示，本公开实施例提供的相机定位方法可以包括以下步骤：

在步骤101中，获取图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值。

本公开实施例中，图像模版可以是包括有与当前场景对应的、用于显示与图像模板等大的图像上多个像素点中每个像素点对应出现可移动物体的先验概率值信息的模板。可移动物体包括但不限于各种可以自行移动或受控而移动的物体，例如巴士、小车、人、自行车、卡车、摩托车、动物等。先验概率值是指通过对以往采集的与当前场景相同或相似的图像进行分析后，得到的该图像上每个像素点对应属于可移动物体的概率值。如果某像素点的先验概率值较高，说明针对场景采集的图像中在该像素点出现可移动物体的可能性较高；反之，如果某像素点的先验概率值较低，说明针对场景采集的图像中在该像素点出现可移动物体的可能性较低。通过该图像模板可以反映出所采集的图像中不同像素点出现可移动物体的先验的可能性。

在不同的场景下，可以针对与当前场景相同或相似的图像集合，分析上述图像集合中每张图像上每个像素点出现可移动物体的概率值，将这一概率值作为某场景对应的图像模版上每个像素点出现可移动物体的先验概率值。

例如，当前场景为无人驾驶车辆在城市主要街道行驶时，对无人驾驶车辆上设置的相机进行定位，则与当前场景相同或相似的图像集合可以包括城市主要街道的至少一张图像。

在步骤102中，根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作，得到目标图像。

待处理图像可以是可移动机器设备上设置的相机在电子设备移动过程中所采集到的至少一张图像。可移动机器设备可以按照之前确定的与当前场景对应的图像模板上每个像素点对应的先验概率值，对可移动机器设备上设置的相机所采集的与图像模版等大的至少一张图像，执行丢弃部分像素点的操作，从而得到目标图像。

在本公开实施例中，丢弃部分像素点的操作包括但不限于对相机所采集的与图像模版等大的至少一张图像上先验概率值的采样值大于预设值的像素点进行丢弃或随机部分丢弃的操作。

在步骤103中，根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿。

可移动机器设备可以根据目标图像，通过回归损失函数，确定采集至少一个图像的相机在世界坐标系下的绝对位姿。

其中，回归损失函数可以是均方误差损失函数(例如L2损失函数)、平均绝对误差(例如L1损失函数)、平滑平均绝对误差损失函数(例如Huber损失函数)、对数双曲余弦损失函数和分位数损失函数等。

上述实施例中，可移动机器设备可以结合与当前场景对应的图像模板上多个像素点中每个像素点出现可移动物体的先验概率值，对当前场景下可移动机器设备上设置的相机所采集的至少一张图像进行部分像素点的丢弃，其中，可以丢弃至少一张图像上先验概率值的采样值大于预设值的所有像素点，也可以随机丢弃先验概率值的采样值大于预设值的部分像素点，针对得到的目标图像回归相机的绝对位姿，降低了相机采集图像所在的当前场景中物体的移动对可移动机器设备上的相机进行定位的结果的影响，提升了相机定位的准确性和精度。

对于设置在可移动机器设备上的相机，其位姿由于可移动机器设备的移动和/或相机的位置调整等因素，均需要对相机进行定位。发明人在实现本公开实施例过程中发现，基于计算机视觉进行相机定位的应用中，相机所采集的图像的质量对视觉定位的准确性和精度有重要的影响，如果相机在采集图像的视场中存在有物体的移动，则该物体的移动会造成相机所采集的图像的相应部分的成像质量不佳，例如出现图像模糊、抖动等，这些质量不佳的部分会影响图像的整体特征的质量，进而影响基于图像整体特征的相机定位。然而，视觉定位所基于的图像中，某些不动或固定物体对相机定位反而有用，如果通过减小物体移动对应的像素点的成像质量对图像整体的成像质量的影响，则会提升基于图像的相机定位的准确度和精度。

为此，本公开实施例通过结合先验知识确定图像中不同像素点出现可移动物体的概率(即先验概率值)，来反映场景中不同位置出现可移动物体的可能概率，并通过先验知识来指导部分像素点的丢弃，如丢弃部分出现可移动物体先验概率值较高的像素点，由此减少这些像素点的局部质量对图像整体质量的负面影响，提高基于局部丢弃后的图像的整体质量，进而提高据此进行相机定位的精度。

在一些可选实施例中，步骤101可以由电子设备执行，该电子设备可以是可移动机器设备，也可以是对神经网络进行训练的电子设备，例如云平台等，本公开对此不作限定。例如图2所示，步骤101可以包括：

在步骤101-1中，对预定图像集合中的每张图像分别进行像素级语义分割。

本公开实施例中，电子设备可以通过查找与不同场景相同或相似的预定图像集合中，例如图3所示的与无人驾驶车辆在城市主要街道行驶时场景相似的图像m₁、m₂……m_N中每张图像上存在的内容，获得像素级语义分割的结果。

在步骤101-2中，根据像素级语义分割的结果确定所述每张图像中属于所述可移动物体的第一像素点和属于背景的第二像素点。

电子设备可以根据每张图像上的存在的内容，确定出预定图像集合中每张图像上属于可移动物体的第一像素点和属于背景的第二像素点，可选地，背景是不可移动的物体或者图像中除了确定为可移动物体之外的其他物体，例如天空、建筑物、树木、道路等。

在步骤101-3中，基于所述每张图像中所述第一像素点和所述第二像素点的统计分布，确定与所述预定图像集合中的图像等大的图像模版包括的多个像素点中每个像素点出现所述可移动物体的所述先验概率值。

在本公开实施例中，电子设备基于预定图像集合对每张图像上属于可移动物体的第一像素以及属于背景的第二像素点的统计分布，得到的与所述预定图像集合中的图像等大的图像模版，例如图3中的图像模版M包括的多个像素点中每个像素点出现可移动物体的先验概率值。

本公开实施例中，基于每个像素点对应的统计分布，确定图像模板上每个像素点出现可移动物体的先验概率值，这样每个像素点对应的先验概率值是一个统计分布范围值，而非一个固定值。从而在后续对根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作时，每次可以根据先验概率值的统计分布范围值，丢弃不同的像素点，得到不同的目标图像，最终根据不同的目标图像确定相机的绝对位姿，得到更好的相机定位结果，尤其是在按规模城市交通场景中，提升了相机定位的准确性。

可选地，图像模板上每个像素点出现可移动物体的先验概率值可以符合高斯分布，如公式1所示：

p(M(i,j))～N(σ²(i,j),μ(i,j))，公式1

其中，i是图像模版上第i行的像素点，j是图像模版上第j列的像素点，(i,j)对应像素点坐标，像素点(i,j)的数学期望为μ(i,j)，

其中，N是像素点数目，像素点(i,j)的方差为σ²(i,j)，σ²(i,j)＝μ(i,j)(1-μ(i,j))，p(M(i,j))是像素点(i,j)的先验概率值。

在一些可选实施例中，例如图4所示，步骤102可以包括：

在步骤102-1中，对所述待处理图像所包括的至少部分像素点对应的所述先验概率值进行至少一次采样，得到每次采样的采样结果。

相机采集的至少一个图像与图像模板上每个像素点对应出现可移动物体的先验概率值的分布情况都满足高斯分布。

可移动机器设备可以对至少一个图像所包括的至少部分像素点对应的先验概率值进行至少一次采样，得到每次采样后至少一个图像上的至少部分像素点对应的先验概率值的采样值。

在步骤102-2中，根据当前采样结果，在所述待处理图像上去除所述先验概率值的采样值大于预设阈值的像素点，得到所述目标图像。

在当前采样结果中，如果相机采集的图像a上像素点1的先验概率值的采样值大于预设阈值，那么认为像素点1属于可移动物体，可移动机器设备可以在图像a上去除像素点1，从而得到图像a与当前采样结果对应的目标图像。

可移动机器设备可以对至少一个图像按照上述方式去除先验概率值的采样值大于预设阈值的像素点，或者随机去除先验概率值的采样值大于预设阈值的部分像素点，得到与至少一个样本图像的当前采样结果一一对应的目标图像。

在一些可选实施例中，可移动机器设备如果对至少一个图像上像素点对应的先验概率值进行多次采样，那么可以让同一图像上同一像素点对应的先验概率值的每次采样值不同，使得执行丢弃部分像素点的操作之后得到的多个所述目标图像两两之间存在至少一个不同的像素点。

例如，在第一次采样时，图像a上像素点1对应的先验概率值的采样值为P₁，第二次采样图像a上像素点1对应的先验概率值的采样值为P₂，预设阈值为T。其中，P_1<T<P₂。则在第一次采样之后，图像a保留像素点1，在第二次采样之后，图像a需要去除像素点1。

通过上述过程，可以让可移动机器设备在每次采样之后，丢弃同一图像上的不同像素点，确保了最终得到的相机定位的准确性。

在一些可选实施例中，步骤103可以包括：

可移动机器设备可以将上述步骤102得到的目标图像输入目标神经网络，由目标神经网络直接输出采集至少一个图像的相机在世界坐标系下的绝对位姿。

上述实施例中，可移动机器设备根据图像模板上每个像素点属于可移动物体的先验概率值，丢弃了相机采集的至少一个图像上属于先验概率值大于预设值的至少部分像素点，从而提升了相机定位的准确性。

在一些可选实施例中，如果待处理图像包括所述相机采集的时序顺序的至少两帧图像，则如图5所示，所述方法还包括：

在步骤104中，根据所述至少两帧图像确定所述相机在拍摄所述至少两帧图像时的相对位姿。

本公开实施例中，相机定位设备可以通过视觉里程计方法，确定相机在采集所述至少两帧图像中时序顺序靠后的一帧图像时，相对于采集所述至少两帧图像中时序顺序靠前的一帧图像的相对位姿。

在步骤105中，根据所述相机的相对位姿和所述绝对位姿，确定所述相机的修正位姿。

本公开实施例中，可移动机器设备可以将采集至少两帧图像中时序顺序最靠前的一帧图像的相机在世界坐标系中的绝对位姿作为参照，根据采集时序顺序相邻的后一帧图像的相机的相对位姿以及绝对位姿，最终确定出相机的修正位姿。

后续可移动机器设备可以根据修正位姿调整设置的相机的位姿，从而降低相机采集图像所在的场景中物体的移动对可移动机器设备上的相机进行定位的结果的影响，确保可移动机器设备执行各种任务的准确度。

在一些可选实施例中，如图6所示，在完成步骤103之后，所述方法还包括：

在步骤106中，确定所述绝对位姿的结果的确定性概率。

本公开实施例中，确定性概率是对当前的所述绝对位姿的结果的准确程度的概率。如果确定性概率越高，说明绝对位姿的结果越准确，否则说明绝对位姿的结果越不准确。

可移动机器设备可以采用随机抽样的方法，例如蒙特卡洛法对采集的时序顺序的至少两帧图像对应的先验概率值进行采样，得到多次采样的采样结果。

例如图7所示，对相机采集的当前图像，基于图像模板M上每个像素点的先验概率值，对当前图像进行多次采样，去除采样值大于预设阈值的至少部分像素点，再通过回归损失函数分别确定每次采样后当前图像对应的绝对位姿。其中，回归损失函数可以是均方误差损失函数(例如L2损失函数)、平均绝对误差(例如L1损失函数)、平滑平均绝对误差损失函数(例如Huber损失函数)、对数双曲余弦损失函数和分位数损失函数等。

根据对应当前图像的多个绝对位姿来确定当前图像的绝对位姿的结果的确定性概率。

例如对应当前图像的多个绝对位姿两两之间差异较大，则可以确定当前图像的绝对位姿的结果的确定性概率较低，反之则确定当前图像的绝对位姿的结果的确定性概率较高。

相应地，上述步骤105可以包括：

在步骤105-1中，根据所述确定性概率确定所述相对位姿的第一权重和所述绝对位姿的第二权重。

本公开实施例中，相机定位设备可以根据至少两帧图像中每帧图像对应的确定性概率来确定每帧图像的相对位姿的第一权重，以及每帧图像的绝对位姿的第二权重。

例如，如果当前图像对应的确定性概率较高，则可以提高采集当前图像的相机的绝对位姿的第二权重；如果确定性概率较低，可以提高采集当前图像的相机的相对位姿的第一权重。

在步骤105-2中，根据所述相对位姿、所述第一权重、所述绝对位姿和所述第二权重，确定所述相机的修正位姿。

本公开实施例中，例如图8所示，以至少两帧图像中时序顺序最靠前的一帧图像的绝对位姿为参考，采用滑动窗口的方式依次进行移动，根据前一帧图像的所述相对位姿、所述第一权重、所述绝对位姿和所述第二权重，确定出后一帧图像相对于前一帧图像的修正位姿。

本公开实施例中，如果相对位姿较为准确，则可以提高相对位姿的权重，如果绝对位姿较为准确，可以提高绝对位姿的权重，通过相对位姿和绝对位置各自不同权重来确定修正位姿，使得修正位姿结果更加准确，也就使得相机定位结果更加准确。

通过修正位姿，对最终确定的相机的位姿图进行优化，优化后的位姿图如图9所示，图9中的三角形代表了相机采集每一帧图像时的绝对位姿，带箭头的线段代表相对位姿，圆圈代表滑动窗口。图9中修正后的绝对位姿和相对位姿按照箭头顺序依次对应图8中由左上角到右下角的绝对位姿和相对位姿。

上述实施例中，可以采用VO(Visual Odometry，视觉里程计)方法确定的位姿作为图像的相对位姿，其中，VO方法是通过分析处理上述至少两帧图像来确定相机的位置和姿态。通过对至少两帧图像进行特征匹配等方法估计相机在相邻帧间的运动，从而获得相机在采集后一帧图像时相对于前一帧的相对位姿。

进一步地，在本公开实施例中，结合绝对位姿和相对位姿进行位姿修正，进一步提升了相机定位的精确度。

在一实施例中，本公开提供的相机定位方法还可以用于对神经网络进行训练的电子设备上，例如云平台、神经网络训练平台等。由电子设备采用该方法对神经网络进行训练，得到目标神经网络。后续将图像输入目标神经网络之后，可以得到采集该图像的相机在世界坐标系下的绝对位姿。

例如图10所示，本公开实施例提供的相机定位方法可以包括以下步骤：

在步骤201中，获取图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值。

在预定图像集合中的每张图像上，已知属于可移动物体的像素点。电子设备可以根据上述每张图像，分析得到与每张图像等大的图像模板上在每个像素点会出现可移动物体的概率值，并将这一概率值作为图像模版上每个像素点出现可移动物体的先验概率值。

在步骤202中，根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作，得到目标图像。

待处理图像可以是至少一张样本图像，电子设备可以按照之前确定的图像模板上每个像素点对应的先验概率值，对至少一张样本图像执行丢弃部分像素点的操作，从而得到目标图像。

在本公开实施例中，丢弃部分像素点的操作包括但不限于对至少一张样本图像上先验概率值的采样值大于预设值的像素点进行丢弃或随机部分丢弃的操作。

在步骤203中，根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿。

电子设备可以根据得到的目标图像，通过回归损失函数，确定采集至少一个样本图像的相机在世界坐标系下的绝对位姿。

在一些可选实施例中，步骤201可以由电子设备或神经网络执行，执行过程与图2中步骤101的执行过程一致，在此不再赘述。

在一些可选实施例中，步骤202可以由电子设备或神经网络执行，执行过程与图4中步骤102的执行过程一致，在此也不再赘述。

在一些可选实施例中，步骤203可以由神经网络来执行，例如图11所示，步骤203可以包括：

在步骤203-1中，经神经网络提取所述待处理图像中的特征参数，得到特征提取图像。

神经网络可以从至少一个样本图像中提取出每个样本图像的特征参数，从而得到与每个样本图像对应的特征提取图像。

在步骤203-2中，在所述神经网络预设空间维度和/或预设通道维度上，增加所述特征提取图像中属于背景的第二像素点所对应的权重值。

神经网络可以在预设空间维度和预设通道维度的至少一个维度上，通过自注意力机制增加特征提取图像中属于背景的第二像素点的权重值。

例如图12A所示，神经网络将H(高度)×W(宽度)×C(通道)的某个特征提取图像采用空间自注意力机制变换后，得到同一通道上的图像H×W×1。再例如图12B所示，神经网络将H×W×C的某个特征提取图像采用通道自注意力机制变换后，得到相同高度和宽度的图像1×1×C。

神经网络通过自注意力机制，尽可能忽略属于可移动物体的第一像素点的信息，更加关注属于背景的第二像素点的信息。

例如图13所示，神经网络同时在预设空间维度和预设通道维度上，增加左侧的图像上用实线方框圈出的第二像素点的权重值后，得到右侧的图像。右侧图像中被方框圈出的像素点的灰度值高于右侧图中其他部分的像素点的灰度值。

本公开实施例中，在图13的左侧图像中，用虚线方框圈出的像素点属于可移动物体汽车，神经网络可以通过之前的步骤201获取与左侧图像等大的图像模板中每个像素点出现可移动物体的先验概率值，再通过步骤202丢弃掉左侧图像中先验概率值的采样值大于预设阈值的像素点或部分像素点。

进一步地，通过步骤203-2在两个维度上增加属于不可移动物体的权重值，使得神经网络更关注交通标志、电线杠等这些不可移动或者移动概率较低的物体上，降低了相机采集图像所在的场景中物体的移动对可移动机器设备上的相机进行定位的结果的影响，提升了神经网络对可移动物体上设置的采集图像的相机进行定位的准确性和精度，提升了定位检测结果的鲁棒性。

在步骤203-3中，经权重值调整后的神经网络对所述特征提取图像进行分析，得到所述待处理图像的相机在世界坐标系下的所述绝对位姿。

本公开实施例中，经过上述的权重值调整后的神经网络可以通过回归损失函数，例如均方误差函数、绝对值误差函数等，对特征提取图像进行分析，回归得到采集至少一个样本图像的相机在世界坐标系统下的绝对位姿。

在一些可选实施例中，例如图14所示，在进行神经网络训练的过程中，上述相机定位方法还包括：

在步骤204中，根据所述绝对位姿和预先确定的所述待处理图像的所述相机的位姿真值的差异，调整神经网络的网络参数，训练得到目标神经网络。

本公开实施例中，本步骤可以由电子设备执行。相机在采集与图像模版等大的至少一张样本图像时的位姿真值已知，电子设备可以根据神经网络输出的至少一张样本图像在世界坐标系统中的绝对位姿和已知的位姿真值的差异，调整神经网络的网络参数，让该神经网络的损失函数最小，最终训练得到所需要的目标神经网络。

在一些可选实施例中，本公开实施例基于上述相机定位方法，还提供了一种目标神经网络的框架图，例如图15所示，包括Probabilistic Dropout Module(部分像素点丢弃模块)、Feature Ectractor Module(特征提取模块)、Self-attention Module(自注意力模块)和Regressor Module(回归模块)。

其中，在目标神经网络的训练过程中，可以将至少一个样本图像作为部分像素点丢弃模块的输入值，部分像素点丢弃模块可以由顺序连接的至少五个子网络组成。每个子网络可以采用卷积层、Relu层、池化层等按照预设顺序设置的网络单元单独实现。

第一子网络可以对至少一张样本图像中的每张图像分别进行像素级语义分割；第二子网络可以根据第一子网络进行像素级语义分割的结果，确定每张样本图像中属于所述可移动物体的第一像素点和属于背景的第二像素点；第三子网络可以基于第二子网络确定出的每张样本图像中所述第一像素点和所述第二像素点的统计分布，确定与样本图像等大的图像模版包括的多个像素点中每个像素点出现所述可移动物体的所述先验概率值；第四子网络可以对至少一张样本图像所包括的至少部分像素点对应的由第三子网络确定出的所述先验概率值进行至少一次采样，得到每次采样的采样结果；第五子网络可以根据第四子网络的当前采样结果，在至少一张样本图像去除所述先验概率值的采样值大于预设阈值T的像素点，得到所述目标图像。

特征提取模块可以采用卷积层、Relu层、池化层等按照预设顺序设置的网络单元按照预设的结构堆叠设计而得，提取Probabilistic Dropout Module得到的目标图像中的特征参数，得到特征提取图像。

自注意力模块同样可以采用至少两个单独的第五子网络和第六子网络组成，每个子网络包括卷积层、Relu层、池化层等按照预设顺序设置的网络单元，其中第五子网络可以关注预设空间维度，第六子网络可以关注预设通道维度，经过上述两个子网络后可以调整特征提取图像中属于背景的第二像素点的权重值。本公开实施例不限定第五子网络和第六子网络的先后顺序。

回归模块可以包括第七子网络，第七子网络可以包括卷积层、Relu层、池化层等按照预设顺序设置的网络单元，第七子网络以自注意力模块输出的图像作为输入值，将已知的采集至少一张样本图像的相机的位姿作为输出值，第七子网络对应一回归损失函数。该回归损失函数可以包括均方误差损失函数(例如L2损失函数)、平均绝对误差(例如L1损失函数)、平滑平均绝对误差损失函数(例如Huber损失函数)、对数双曲余弦损失函数和分位数损失函数等。

上述实施例中，最终得到的目标神经网络降低了对样本图像上可移动物体的关注，更多的关注样本图像上属于背景的像素点，即不动或固定物体的信息，通过减小物体移动对应的像素点的成像质量对图像整体的成像质量的影响，提升了目标神经网络的鲁棒性。

与前述方法实施例相对应，本公开还提供了装置的实施例。

本公开实施例还提供了一种相机定位装置，可以用于可移动机器设备，由于可移动电子设备会发生移动，从而会造成设备上设置的相机的位姿随之发生改变。相机定位的准确性可以提高可移动机器设备执行各种任务时的准确度。

如图16所示，图16是本公开根据一示例性实施例示出的一种相机定位装置框图，该装置包括：

获取模块310，用于获取图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值；

执行模块320，用于根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作，得到目标图像；

定位模块330，用于根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿。

在一些实施例中，例如图17所示，所述获取模块310包括：

分割子模块311，用于对预定图像集合中的每张图像分别进行像素级语义分割；

第一确定子模块312，用于根据像素级语义分割的结果确定所述每张图像中属于所述可移动物体的第一像素点和属于背景的第二像素点；

第二确定子模块313，用于基于所述每张图像中所述第一像素点和所述第二像素点的统计分布，确定与所述预定图像集合中的图像等大的图像模版包括的多个像素点中每个像素点出现所述可移动物体的所述先验概率值。

在一些实施例中，例如图18所示，所述执行模块320包括：

采样子模块321，用于对所述待处理图像所包括的至少部分像素点对应的所述先验概率值进行至少一次采样，得到每次采样的采样结果；

执行子模块322，用于根据当前采样结果，在所述待处理图像上去除所述先验概率值的采样值大于预设阈值的像素点，得到所述目标图像。

在一些实施例中，采样次数为多次时，执行丢弃部分像素点的操作之后得到的多个所述目标图像两两之间存在至少一个不同的像素点。

在一些实施例中，例如图19所示，所述定位模块330包括：

第二定位子模块331，用于将所述待处理图像输入所述目标神经网络，得到所述待处理图像的相机在世界坐标系下的所述绝对位姿。

在一些实施例中，所述待处理图像包括所述相机采集的时序顺序的至少两帧图像；

例如图20所示，所述装置还包括：

第一确定模块340，用于根据所述至少两帧图像确定所述相机在拍摄所述至少两帧图像时的相对位姿；

第二确定模块350，用于根据所述相机的相对位姿和所述绝对位姿，确定所述相机的修正位姿。

在一些实施例中，例如图21所示，所述装置还包括：

第三确定模块360，用于确定所述绝对位姿的结果的确定性概率；

所述第二确定模块350包括：

第三确定子模块351，用于根据所述确定性概率确定所述相对位姿的第一权重和所述绝对位姿的第二权重；

第四确定子模块352，用于根据所述相对位姿、所述第一权重、所述绝对位姿和所述第二权重，确定所述相机的修正位姿。

在一些可选实施例中，本公开还提供了一种相机定位装置，可以用于电子设备，该电子设备可以对神经网络进行训练，得到目标神经网络。后续将图像输入目标神经网络之后，可以得到采集该图像的相机在世界坐标系下的绝对位姿。

如图22所示，图22是本公开根据一示例性实施例示出的一种相机定位装置框图，该装置包括：

获取模块410，用于获取图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值；

执行模块420，用于根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作，得到目标图像；

定位模块430，用于根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿。

在一些实施例中，例如图23所示，所述获取模块410包括：

分割子模块411，用于对预定图像集合中的每张图像分别进行像素级语义分割；

第一确定子模块412，用于根据像素级语义分割的结果确定所述每张图像中属于所述可移动物体的第一像素点和属于背景的第二像素点；

第二确定子模块413，用于基于所述每张图像中所述第一像素点和所述第二像素点的统计分布，确定与所述预定图像集合中的图像等大的图像模版包括的多个像素点中每个像素点出现所述可移动物体的所述先验概率值。

在一些实施例中，例如图24所示，所述执行模块420包括：

采样子模块421，用于对所述待处理图像所包括的至少部分像素点对应的所述先验概率值进行至少一次采样，得到每次采样的采样结果；

执行子模块422，用于根据当前采样结果，在所述待处理图像上去除所述先验概率值的采样值大于预设阈值的像素点，得到所述目标图像。

在一些实施例中，例如图25所示，所述定位模块430包括：

第一处理子模块431，用于经神经网络提取所述待处理图像中的特征参数，得到特征提取图像；

第二处理子模块432，用于在所述神经网络预设空间维度和/或预设通道维度上，增加所述特征提取图像中属于背景的第二像素点所对应的权重值；

第一定位子模块433，用于经权重值调整后的神经网络对所述特征提取图像进行分析，得到所述待处理图像的相机在世界坐标系下的所述绝对位姿。

在一些实施例中，例如图26所示，所述装置还包括：

训练模块440，用于根据所述绝对位姿和预先确定的所述待处理图像的所述相机的位姿真值的差异，调整神经网络的网络参数，训练得到目标神经网络。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开实施例还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述任一的视觉定位网络的训练方法。

本公开实施例还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述任一的相机定位方法。

本公开实施例还提供了一种相机定位装置，装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器用于调用存储器中存储的可执行指令，实现任一项的相机定位方法。

本公开实施例中提供的相机定位装置可以实现上述任一个实施例提供的方法。该相机定位装置，可以根据图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值，丢弃与图像模版等大的待处理图像中的部分像素点，再根据得到的目标图像去确定相机的绝对位姿，降低了相机采集图像所在的场景中物体的移动对可移动机器设备上的相机进行定位的结果的影响，提升了相机定位的准确性。

本公开实施例提供的相机定位装置可以应用在可移动机器设备上，对可移动机器设备上设置的相机进行定位。由于可移动电子设备会发生移动，从而会造成设备上设置的相机的位姿随之发生改变。相机定位的准确性可以提高可移动机器设备执行各种任务时的准确度。例如，根据无人驾驶车辆上设置的相机所采集的车辆前向的环境的图像，确定相机当前的定位信息，根据相机的定位信息来定位车辆当前的定位信息，进而对该无人驾驶车辆进行路径规划、轨迹跟踪、碰撞预警等至少一种智能驾驶控制。

本公开提供的相机定位装置还可以用于对神经网络进行训练的电子设备上，例如云平台、神经网络训练平台等。由电子设备采用该方法对神经网络进行训练，得到目标神经网络。后续将图像输入目标神经网络之后，可以得到采集该图像的相机在世界坐标系下的绝对位姿。

如图27所示，图27是根据一示例性实施例示出的一种相机定位装置2700的一结构示意图。该装置可以用于可移动机器设备，或者还可以用于对神经网络进行训练的电子设备上。

参照图27，装置2700包括处理组件2722，其进一步包括一个或多个处理器，以及由存储器2732所代表的存储器资源，用于存储可由处理部件2722的执行的指令，例如应用程序。存储器2732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件2722用于执行指令，以执行上述任一的相机定位方法。

装置2700还可以包括一个电源组件2726用于执行装置2700的电源管理，一个有线或无线网络接口2750用于将装置2700连接到网络，和一个输入输出(I/O)接口2758。装置2700可以操作基于存储在存储器2732的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeB SDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种相机定位方法，其特征在于，包括：

针对预定图像集合中多张图像里的每张图像，获取图像模版包括的所述每张图像的多个像素点中每个像素点出现可移动物体的先验概率值；其中，针对所述多张图像，每个像素点对应的先验概率值是一个统计分布范围值，并非一个固定值；

根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿；

所述根据所述先验概率值针对与所述图像模版等大的待处理图像执行丢弃部分像素点的操作，得到目标图像，包括：

对所述待处理图像所包括的至少部分像素点对应的所述先验概率值进行采样，得到每次采样的采样结果；

根据当前采样结果，在所述待处理图像上去除所述先验概率值的采样值大于预设阈值的像素点，得到所述目标图像；

其中，采样次数为多次时，同一所述待处理图像上同一像素点对应的先验概率值的每次采样值不同，在每次采样之后，根据所述先验概率值的统计分布范围值丢弃同一所述待处理图像上的不同像素点，执行丢弃部分像素点的操作之后得到的多个所述目标图像两两之间存在至少一个不同的像素点，即，得到不同的所述目标图像；

所述根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿，包括：

根据不同的所述目标图像，确定所述相机的所述绝对位姿。

2.根据权利要求1所述的方法，其特征在于，所述获取图像模版包括的多个像素点中每个像素点出现可移动物体的先验概率值，包括：

对预定图像集合中的每张图像分别进行像素级语义分割；

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿，包括：

4.根据权利要求3所述的方法，其特征在于，所述经权重值调整后的神经网络对所述特征提取图像进行分析，得到所述待处理图像的相机在世界坐标系下的所述绝对位姿之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述待处理图像包括所述相机采集的时序顺序的至少两帧图像；

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿之后，所述方法还包括：

确定所述绝对位姿的结果的确定性概率；

8.一种相机定位装置，其特征在于，包括：

获取模块，用于针对预定图像集合中多张图像里的每张图像，获取图像模版包括的所述每张图像的多个像素点中每个像素点出现可移动物体的先验概率值；其中，针对所述多张图像，每个像素点对应的先验概率值是一个统计分布范围值，并非一个固定值；

定位模块，用于根据所述目标图像确定采集所述待处理图像的相机在世界坐标系下的绝对位姿；

所述执行模块包括：

采样子模块，用于对所述待处理图像所包括的至少部分像素点对应的所述先验概率值进行采样，得到每次采样的采样结果；

执行子模块，用于根据当前采样结果，在所述待处理图像上去除所述先验概率值的采样值大于预设阈值的像素点，得到所述目标图像；

所述定位模块还用于：

根据不同的所述目标图像，确定所述相机的所述绝对位姿。

9.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

10.根据权利要求8或9所述的装置，其特征在于，所述定位模块包括：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述定位模块包括：

13.根据权利要求8-12任一项所述的装置，其特征在于，所述待处理图像包括所述相机采集的时序顺序的至少两帧图像；

所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

所述第二确定模块包括：

15.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的相机定位方法。

16.一种相机定位装置，其特征在于，所述装置包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器用于调用所述存储器中存储的可执行指令，实现权利要求1-7中任一项所述的相机定位方法。