CN112330589A

CN112330589A - 估计位姿的方法、装置及计算机可读存储介质

Info

Publication number: CN112330589A
Application number: CN202010989038.1A
Authority: CN
Inventors: 张夏杰; 车广富; 郭景昊
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-02-05

Abstract

本公开提供了一种估计位姿的方法、装置及计算机可读存储介质，涉及计算机技术领域。其中的估计位姿信息的方法包括：利用视觉里程计确定目标在当前图像中的第一位姿信息，当前图像为目标的图像序列中的关键帧；利用预先训练的关键点预测神经网络，确定目标在当前图像中的第二位姿信息；将第一位姿信息和第二位姿信息进行数据融合，获得目标在当前图像中的融合位姿信息。本公开将深度学习技术与视觉里程计技术进行了融合，既能够减小视觉里程计带来的累积估计误差，又能够缓解深度学习技术带来的估计位姿抖动，从而更加准确、稳定的估计目标在图像中的位姿信息。

Description

估计位姿的方法、装置及计算机可读存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种估计位姿的方法、装置及计算机可读存储介质。

背景技术

位姿信息6DOF(6Degree Of Freedom，6自由度)用于描述刚体在三维空间中的位姿，包括位置三维坐标(x、y、z)以及姿态朝向(俯仰角、偏航角、翻滚角)。

目标的位姿估计在虚拟现实和增强现实领域受到广泛的应用。以线上试鞋场景为例，用户将脚放在手机相机的画面中，手机通过算法能够估计出脚的位姿信息，并根据该位姿信息将虚拟鞋模穿到脚上。

发明内容

本公开解决的一个技术问题是，如何更加准确的估计目标在图像中的位姿信息。

根据本公开实施例的一个方面，提供了一种估计位姿信息的方法，包括：利用视觉里程计确定目标在当前图像中的第一位姿信息，当前图像为目标的图像序列中的关键帧；利用预先训练的关键点预测神经网络，确定目标在当前图像中的第二位姿信息；将第一位姿信息和第二位姿信息进行数据融合，获得目标在当前图像中的融合位姿信息。

在一些实施例中，利用视觉里程计确定目标在当前图像中的第一位姿信息包括：利用关键点预测神经网络处理初始图像，获得目标在初始图像中的初始位姿信息；从图像序列中获取目标的前景图像序列；利用视觉里程计对前景图像序列进行处理，获得目标在当前图像与初始图像之间的相对位姿信息；根据初始位姿信息和相对位姿信息，确定目标在当前图像中的第一位姿信息。

在一些实施例中，从图像序列中获取目标的前景图像序列包括：将图像序列中的任一图像输入预先训练的目标预测神经网络，获得目标的边界区域在任一图像中的二维坐标集合；根据二维坐标集合，从任一图像中获取目标的前景图像；根据任一图像中目标的前景图像，确定目标的前景图像序列。

在一些实施例中，该方法还包括：利用视觉里程计处理当前图像，获得目标在当前图像中的特征点坐标，作为第一特征点坐标；利用视觉里程计处理当前图像的上一关键帧，获得目标在上一关键帧中的特征点坐标，作为第二特征点坐标，其中，首个关键帧是所述图像序列中利用视觉里程计处理后获得特征点数量大于预设值的首张图像；在第一特征点坐标与第二特征点坐标之间的欧式距离大于预设值的情况下，确定当前图像为关键帧。

在一些实施例中，该方法还包括：在第一特征点坐标与第二特征点坐标之间的欧式距离不大于预设值的情况下，确定当前图像不为关键帧；将第一位姿信息作为当前图像的位姿信息。

在一些实施例中，将第一位姿信息和第二位姿信息进行数据融合，获得目标在当前图像中的融合位姿信息包括：利用第一位姿信息、第一位姿信息的权重、第二位姿信息、第二位姿信息的权重，加权计算目标在当前图像中的融合位姿信息，第一位姿信息的权重大于第二位姿信息的权重。

在一些实施例中，利用预先训练的关键点预测神经网络，确定目标在当前图像中的第二位姿信息包括：利用关键点预测神经网络处理当前图像，获得目标在当前图像中的关键点坐标；利用透视N点算法处理目标在当前图像中的关键点坐标，获得目标在当前图像中的第二位姿信息。

在一些实施例中，关键点预测神经网络包括下采样子神经网络、全局特征提取子神经网络、特征融合子神经网络、热力图子神经网络以及部分亲和字段子神经网络。

根据本公开实施例的另一个方面，提供了一种估计位姿信息的装置，包括：第一位姿信息确定模块，被配置为利用视觉里程计确定目标在当前图像中的第一位姿信息，当前图像为目标的图像序列中的关键帧；第二位姿信息确定模块，被配置为利用预先训练的关键点预测神经网络，确定目标在当前图像中的第二位姿信息；数据融合模块，被配置为将第一位姿信息和第二位姿信息进行数据融合，获得目标在当前图像中的融合位姿信息。

在一些实施例中，第一位姿信息确定模块被配置为：利用关键点预测神经网络处理初始图像，获得目标在初始图像中的初始位姿信息；从图像序列中获取目标的前景图像序列；利用视觉里程计对前景图像序列进行处理，获得目标在当前图像与初始图像之间的相对位姿信息；根据初始位姿信息和相对位姿信息，确定目标在当前图像中的第一位姿信息。

在一些实施例中，第一位姿信息确定模块被配置为：将图像序列中的任一图像输入预先训练的目标预测神经网络，获得目标的边界区域在任一图像中的二维坐标集合；根据二维坐标集合，从任一图像中获取目标的前景图像；根据任一图像中目标的前景图像，确定目标的前景图像序列。

在一些实施例中，该装置还包括关键帧确定模块，被配置为：利用视觉里程计处理当前图像，获得目标在当前图像中的特征点坐标，作为第一特征点坐标；利用视觉里程计处理当前图像的上一关键帧，获得目标在上一关键帧中的特征点坐标，作为第二特征点坐标，其中，首个关键帧是所述图像序列中利用视觉里程计处理后获得特征点数量大于预设值的首张图像；在第一特征点坐标与第二特征点坐标之间的欧式距离大于预设值的情况下，确定当前图像为关键帧。

在一些实施例中，在第一特征点坐标与第二特征点坐标之间的欧式距离不大于预设值的情况下，关键帧确定模块还被配置为确定当前图像不为关键帧，第一位姿信息确定模块还被配置为将第一位姿信息作为当前图像的位姿信息。

在一些实施例中，数据融合模块被配置为：利用第一位姿信息、第一位姿信息的权重、第二位姿信息、第二位姿信息的权重，加权计算目标在当前图像中的融合位姿信息，第一位姿信息的权重大于第二位姿信息的权重。

在一些实施例中，第二位姿信息确定模块被配置为：利用关键点预测神经网络处理当前图像，获得目标在当前图像中的关键点坐标；利用透视N点算法处理目标在当前图像中的关键点坐标，获得目标在当前图像中的第二位姿信息。

根据本公开实施例的又一个方面，提供了一种估计位姿的装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的估计位姿的方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的估计位姿的方法。

本公开将深度学习技术与视觉里程计技术进行了融合，既能够减小视觉里程计带来的累积估计误差，又能够缓解深度学习技术带来的估计位姿抖动，从而更加准确、稳定的估计目标在图像中的位姿信息。。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开一些实施例的估计位姿的方法的流程示意图。

图2示出了利用视觉里程计确定位姿信息的流程示意图。

图3示出了鞋子上的关键点的示意图。

图4示出了关键点预测神经网络的结构示意图。

图5示出了目标预测神经网络的结构示意图。

图6示出了本公开一些实施例的计位姿的装置的结构示意图。

图7示出了本公开另一些实施例的估计位姿的装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

发明人研究发现，估计刚体目标的位姿信息时所采用的传统方法，主要包括基于深度学习的方法以及基于传统几何的方法。下面仍以线上试鞋场景为例进行举例介绍。

基于深度学习的方法需要提前标注大量穿鞋图像上的2D关键点。深度学习神经网络(为与其他神经网络相区别，在此称为关键点预测神经网络)经过这些穿鞋图像的训练后，能够预测穿鞋图像中的2D关键点，然后通过PNP(perspective-n-point，n点透视)算法计算出图像中鞋的位姿信息。但是，关键点预测神经网络估计出的位姿信息在相邻图像帧之间没有关联。当以实时的帧率运行时，关键点预测的误差就会导致关键点抖动，进而导致虚拟鞋模的抖动现象，降低了用户的线上试鞋体验。

基于传统几何的方法中，VSLAM(Visual Simultaneous Localization AndMapping，基于视觉的同步定位与建图)和VO(Visual Odometry，视觉里程计)都具备估计位姿的功能。由于他们是通过计算相邻图像帧间目标的相对运动实现定位和建图，因此连续图像帧间的稳定性很好。但是，通常VSLAM、VO都是以相机的整个画面作为输入，不关注场景中的物体，因此难以应用到线上试鞋类似的场景中。

下面结合图1描述本公开估计位姿的方法的一些实施例。

图1示出了本公开一些实施例的估计位姿的方法的流程示意图。如图1所示，本实施例包括步骤S101～步骤S103。

在步骤S101中，利用视觉里程计确定目标在当前图像中的第一位姿信息，当前图像为目标的图像序列中的关键帧。

确定当前图像是否为目标的图像序列中的关键帧的具体方法如下。首先，利用视觉里程计中的canny或fast算子处理当前图像，获得目标在当前图像中的特征点坐标，作为第一特征点坐标。然后，利用视觉里程计中的canny或fast算子处理当前图像的上一关键帧，获得目标在上一关键帧中的特征点坐标，作为第二特征点坐标，其中，首个关键帧是图像序列中利用视觉里程计处理后获得特征点数量大于预设值的首张图像。最后，判断第一特征点坐标与第二特征点坐标之间的欧式距离是否大于预设值。在第一特征点坐标与第二特征点坐标之间的欧式距离大于预设值的情况下，确定当前图像为关键帧；在第一特征点坐标与第二特征点坐标之间的欧式距离不大于预设值的情况下，确定当前图像不为关键帧，此时将第一位姿信息作为当前图像的位姿信息。

利用视觉里程计确定目标在图像中的位姿信息的具体实现过程，在后文中进行详细介绍。

在步骤S102中，利用预先训练的关键点预测神经网络，确定目标在当前图像中的第二位姿信息。

利用关键点预测神经网络处理当前图像，可以获得目标在当前图像中的关键点坐标。然后，利用透视N点算法处理目标在当前图像中的关键点坐标，获得目标在当前图像中的第二位姿信息。

在步骤S103中，将第一位姿信息和第二位姿信息进行数据融合，获得目标在当前图像中的融合位姿信息。

例如，可以利用第一位姿信息RT₁、第一位姿信息的权重W₁、第二位姿信息RT₂、第二位姿信息的权重(1-W₁)，加权计算目标在当前图像中的融合位姿信息RT，即：

RT＝W₁*RT₁+(1-W₁)*RT₂

经调试，可以将第一位姿信息的权重W₁设置为大于第二位姿信息的权重(1-W₁)，例如W₁取值0.7时可以使融合位姿信息RT具有较高的准确性。

采用视觉里程计估计出目标的当前姿态信息与采用视觉里程计估计出目标的历史姿态信息相关，因此采用视觉里程计估计出目标的姿态信息存在累积误差；而采用深度学习技术估计出目标的当前姿态信息与采用深度学习技术估计出目标的历史姿态信息相互独立，因此采用深度学习技术估计出目标的姿态信息存在抖动但不存在累积误差。由于采用深度学习技术估计出目标的姿态信息与采用视觉里程计估计出目标的姿态信息之间相互独立，本实施例将深度学习技术与视觉里程计技术进行了融合，既能够减小视觉里程计带来的累积估计误差，又能够缓解深度学习技术带来的估计位姿抖动，从而更加准确、稳定的估计目标在图像中的位姿信息。

同时，本实施例仅在当前图像为关键帧的情况下对估计的位姿信息进行融合，当前图像不为非关键帧的情况下直接采用视觉里程计估计目标的姿态信息，实现了以较低的频率对估计的位姿信息进行纠正，能够在一定程度上保障估计位姿信息的处理速度。

下面结合图2描述如何利用视觉里程计确定位姿信息。

图2示出了利用视觉里程计确定位姿信息的流程示意图。如图2所示，本实施例包括步骤S2011～步骤S2014。

在步骤S2011中，利用关键点预测神经网络处理初始图像，获得目标在初始图像中的初始位姿信息。

关键点预测神经网络可以经过训练得到。训练时，可以采用标注了鞋子上8个关键点的鞋子图像对关键点预测神经网络进行监督学习，使训练后的关键点预测神经网络能够对输入的图像进行处理，输出该图像中鞋子上的8个关键点。图3示出了鞋子上的关键点的示意图。

训练结束后，利用关键点预测神经网络处理初始图像，获得目标在初始图像中的关键点坐标。然后，利用透视N点算法处理目标在初始图像中的关键点坐标，获得目标在初始图像中的初始位姿信息。本领域技术人员能够理解，步骤S2011的实现过程与步骤S102的实现过程相类似。

在一些实施例中，关键点预测神经网络采用Fast-SCNN(Fast SemanticSegmentation Network，快速语义分割网络)框架。图4示出了关键点预测神经网络的结构示意图。如图4所示，在Fast-SCNN的基础上，采用heatmap热力图子神经网络以及PAF(PartAffinity Field，部分亲和字段)子神经网络PAF替代Fast-SCNN的分类层classifier，构建出的关键点预测神经网络包括下采样子神经网络、全局特征提取子神经网络、特征融合子神经网络、热力图子神经网络以及部分亲和字段子神经网络。图4中最左侧的部分表示输入的图像，图4中最右侧的部分表示通道合并后的可视化效果，其中，heatmap输出关键点坐标，PAF输出的关键点之间的连接关系。以鞋子上有8个关键点为例，heatmap的输出包括8个通道，在支持双脚关键点预测的情况下PAF的输出通道是14(计算方法为7乘以2)。

在步骤S2012中，从图像序列中获取目标的前景图像序列。

目标的图像中包含目标的区域为目标的前景图像(例如鞋子部分)，其余部分为背景图像。下面以图像序列中的任一图像为例，介绍如何采用语义分割技术从图像中获取目标的前景图像。

语义分割技术能够判断图像中每个像素的类别。首先将图像序列中的任一图像输入预先训练的目标预测神经网络，获得目标的边界区域在该任一图像中的二维坐标集合。目标预测神经网络可以经过训练得到。训练时，可以在该任一图像中标注鞋子的边界区域在该任一图像中的二维坐标集合，然后采用该二维坐标集合作为训练标签、采用该任一图像作为训练图像，对目标预测神经网络进行训练，训练后的目标预测神经网络能够对输入的图像进行处理，输出该图像中鞋子的边界区域在该图像中的二维坐标集合。图5示出了目标预测神经网络的结构示意图。如图5所示，目标预测神经网络可以采用U-NET(U网络)网络框架，图5最左侧的部分为图像序列中的任一图像，图5最右侧的部分为表示鞋子区域的掩图mask。在掩图中可以看到，目标预测神经网络能够学习到鞋子的区域，鞋子区域的灰度值高亮背景暗黑。掩图中鞋子边界区域的像素点的二维坐标组成上述二维坐标集合。根据上述二维坐标集合，可以从任一图像中获取目标的前景图像，该前景图像为RGB(Red GreenBlue，红绿蓝)图像。根据任一图像中目标的前景图像，可以确定目标的前景图像序列。目标的前景图像序列可以被送往视觉里程计进行目标跟踪。

在步骤S2013中，利用视觉里程计对前景图像序列进行处理，获得目标在当前图像与初始图像之间的相对位姿信息。

视觉里程计可以采用SVO(Semi-Direct Monocular Visual Odometry，半直接单目视觉里程计)算法对前景图像序列进行处理，实时获得鞋子在当前图像与上一帧图像之间的相对位姿信息，从而计算出鞋子在当前图像与初始图像之间的相对位姿信息。SVO算法的输入是连续的多帧图像，在目标灰度不变的假设下去跟踪相同灰度的像素点或像素区域；当匹配上连续两帧图像中相同灰度的像素点时，就可以用这两帧图像中对应像素点的位置计算这两帧图像中目标的相对位姿信息。SVO算法的输出为目标在连续的多帧图像之间的相对位姿信息，该相对位姿信息可以用旋转矩阵R和平移矩阵T来表示。旋转矩阵R是一个3行3列的矩阵，平移矩阵T是一个3行1列的矩阵。本领域技术人员能够理解，平移矩阵T与前文提到的三维坐标相对应，旋转矩阵R与前文提到的俯仰角、偏航角、翻滚角相对应。

在步骤S2014中，根据初始位姿信息和相对位姿信息，确定目标在当前图像中的第一位姿信息。

例如，根据初始位姿信息中的旋转矩阵以及相对位姿信息中的旋转矩阵，可以获得第一位姿信息中的旋转矩阵；根据初始位姿信息中的平移矩阵以及相对位姿信息中的平移矩阵，可以获得第一位姿信息中的平移矩阵。

本实施例通过语义分割技术从图像中提取出目标的前景图像区域，滤除了背景信息，将视觉里程计的计算对象从全局图像聚焦至图像中的目标，实现了将视觉里程计应用到估计刚体目标在图像中的位姿信息的场景，利用基于图像的视觉里程计技术实现图像中物体的位姿估计，克服了基于传统几何的方法应用至在线试鞋等场景的障碍。

本领域技术人员应理解，以上实施例可以基于单目RGB相机来实现。如果采用深度相机，可以得到更准确的深度信息，获得的位姿信息更为准确。但是，实际应用中，单目RGB相机的使用范围更广，因此基于单目RGB相机来实现上述实施例有利于线上试鞋技术的应用和推广。

下面结合图6描述本公开计位姿的装置的一些实施例。

图6示出了本公开一些实施例的计位姿的装置的结构示意图。如图6所示，本实施例中的计位姿的装置60包括：第一位姿信息确定模块601，被配置为利用视觉里程计确定目标在当前图像中的第一位姿信息，当前图像为目标的图像序列中的关键帧；第二位姿信息确定模块602，被配置为利用预先训练的关键点预测神经网络，确定目标在当前图像中的第二位姿信息；数据融合模块603，被配置为将第一位姿信息和第二位姿信息进行数据融合，获得目标在当前图像中的融合位姿信息。

在一些实施例中，该装置60还包括关键帧确定模块600，被配置为：利用视觉里程计处理当前图像，获得目标在当前图像中的特征点坐标，作为第一特征点坐标；利用视觉里程计处理当前图像的上一关键帧，获得目标在上一关键帧中的特征点坐标，作为第二特征点坐标，其中，首个关键帧是所述图像序列中利用视觉里程计处理后获得特征点数量大于预设值的首张图像；在第一特征点坐标与第二特征点坐标之间的欧式距离大于预设值的情况下，确定当前图像为关键帧。

在一些实施例中，在第一特征点坐标与第二特征点坐标之间的欧式距离不大于预设值的情况下，关键帧确定模块600还被配置为确定当前图像不为关键帧，第一位姿信息确定模块601还被配置为在第一特征点坐标与第二特征点坐标之间的欧式距离不大于预设值的情况下，将第一位姿信息作为当前图像的位姿信息。

在一些实施例中，数据融合模块603被配置为：利用第一位姿信息、第一位姿信息的权重、第二位姿信息、第二位姿信息的权重，加权计算目标在当前图像中的融合位姿信息，第一位姿信息的权重大于第二位姿信息的权重。

在一些实施例中，第二位姿信息602确定模块被配置为：利用关键点预测神经网络处理当前图像，获得目标在当前图像中的关键点坐标；利用透视N点算法处理目标在当前图像中的关键点坐标，获得目标在当前图像中的第二位姿信息。

在一些实施例中，第一位姿信息确定模块601被配置为：利用关键点预测神经网络处理初始图像，获得目标在初始图像中的初始位姿信息；从图像序列中获取目标的前景图像序列；利用视觉里程计对前景图像序列进行处理，获得目标在当前图像与初始图像之间的相对位姿信息；根据初始位姿信息和相对位姿信息，确定目标在当前图像中的第一位姿信息。

在一些实施例中，第一位姿信息确定模块601被配置为：将图像序列中的任一图像输入预先训练的目标预测神经网络，获得目标的边界区域在任一图像中的二维坐标集合；根据二维坐标集合，从任一图像中获取目标的前景图像；根据任一图像中目标的前景图像，确定目标的前景图像序列。

下面结合图7描述本公开估计位姿的装置的另一些实施例。

图7示出了本公开另一些实施例的估计位姿的装置的结构示意图。如图7所示，该实施例的估计位姿的装置70包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行前述任意一些实施例中的估计位姿的方法。

其中，存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

估计位姿的装置70还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730、740、750以及存储器710和处理器720之间例如可以通过总线760连接。其中，输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。

本公开还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一些实施例中的估计位姿的方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种估计位姿信息的方法，包括：

利用视觉里程计确定目标在当前图像中的第一位姿信息，当前图像为目标的图像序列中的关键帧；

利用预先训练的关键点预测神经网络，确定目标在当前图像中的第二位姿信息；

将所述第一位姿信息和所述第二位姿信息进行数据融合，获得目标在当前图像中的融合位姿信息。

2.根据权利要求1所述的方法，其中，所述利用视觉里程计确定目标在当前图像中的第一位姿信息包括：

利用所述关键点预测神经网络处理初始图像，获得目标在初始图像中的初始位姿信息；

从所述图像序列中获取目标的前景图像序列；

利用视觉里程计对所述前景图像序列进行处理，获得目标在当前图像与初始图像之间的相对位姿信息；

根据所述初始位姿信息和所述相对位姿信息，确定目标在当前图像中的第一位姿信息。

3.根据权利要求2所述的方法，其中，所述从所述图像序列中获取目标的前景图像序列包括：

将所述图像序列中的任一图像输入预先训练的目标预测神经网络，获得目标的边界区域在所述任一图像中的二维坐标集合；

根据所述二维坐标集合，从所述任一图像中获取目标的前景图像；

根据所述任一图像中目标的前景图像，确定目标的前景图像序列。

4.根据权利要求1所述的方法，还包括：利用视觉里程计处理当前图像，获得目标在当前图像中的特征点坐标，作为第一特征点坐标；

利用视觉里程计处理当前图像的上一关键帧，获得目标在所述上一关键帧中的特征点坐标，作为第二关键点坐标，其中，首个关键帧是所述图像序列中利用视觉里程计处理后获得特征点数量大于预设值的首张图像；

在第一特征点坐标与第二特征点坐标之间的欧式距离大于预设值的情况下，确定当前图像为所述关键帧。

5.根据权利要求4所述的方法，还包括：

在第一特征点坐标与第二特征点坐标之间的欧式距离不大于预设值的情况下，确定当前图像不为所述关键帧；

将所述第一位姿信息作为当前图像的位姿信息。

6.根据权利要求1所述的方法，其中，所述将所述第一位姿信息和所述第二位姿信息进行数据融合，获得目标在当前图像中的融合位姿信息包括：

利用第一位姿信息、第一位姿信息的权重、第二位姿信息、第二位姿信息的权重，加权计算目标在当前图像中的融合位姿信息，第一位姿信息的权重大于第二位姿信息的权重。

7.根据权利要求1所述的方法，其中，所述利用预先训练的关键点预测神经网络，确定目标在当前图像中的第二位姿信息包括：

利用所述关键点预测神经网络处理当前图像，获得目标在当前图像中的关键点坐标；

利用透视N点算法处理目标在当前图像中的关键点坐标，获得目标在当前图像中的第二位姿信息。

8.根据权利要求1至7任一项所述的方法，其中，所述关键点预测神经网络包括下采样子神经网络、全局特征提取子神经网络、特征融合子神经网络、热力图子神经网络以及部分亲和字段子神经网络。

9.一种估计位姿信息的装置，包括：

第一位姿信息确定模块，被配置为利用视觉里程计确定目标在当前图像中的第一位姿信息，当前图像为目标的图像序列中的关键帧；

第二位姿信息确定模块，被配置为利用预先训练的关键点预测神经网络，确定目标在当前图像中的第二位姿信息；

数据融合模块，被配置为将所述第一位姿信息和所述第二位姿信息进行数据融合，获得目标在当前图像中的融合位姿信息。

10.一种估计位姿信息的装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至8中任一项所述的估计位姿信息的方法。

11.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至8中任一项所述的估计位姿信息的方法。