CN109658454B

CN109658454B - 一种位姿信息确定方法、相关装置及存储介质

Info

Publication number: CN109658454B
Application number: CN201811475453.4A
Authority: CN
Inventors: 杜国光; 王恺; 廉士国
Original assignee: Cloudminds Shenzhen Robotics Systems Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2020-11-17
Anticipated expiration: 2038-12-04
Also published as: CN109658454A

Abstract

本发明实施例涉及计算机视觉技术领域，公开了一种位姿信息确定方法、相关装置及存储介质。通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含每个物体各自的矩形框的第二图像，其中，一个矩形框包含一个物体；从第二图像的每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像；通过边缘分割网络对第三图像进行分割，获得仅包含目标物体的第四图像；根据第四图像获得目标物体的位姿信息。使得能够排除图像中背景信息的干扰，准确地获得图像中目标物体的位姿信息。

Description

一种位姿信息确定方法、相关装置及存储介质

技术领域

本发明实施例涉及计算机视觉技术领域，特别涉及一种位姿信息确定方法、相关装置及存储介质。

背景技术

物体姿态估计是指计算出物体在摄像机坐标系下的位姿信息。当前物体的位姿估计方法，主要是寻找当前视角下二维物体图像到已有物体三维模型的映射，进而确定出当前物体的姿态。

发明人发现现有技术中至少存在如下问题：现有技术中的位姿估计方法，一般需要获知三维物体表面的纹理情况，根据传统的二维图像特征匹配的方法，寻找当前物体图像和模板库图像的匹配，进而得到当前物体图像和三维物体之间的匹配关系，计算出当前物体的位姿。而当三维模型没有纹理的情况下，依据图像特征匹配的方法会失败，针对该问题虽然提出了基于深度学习的姿态估计方法，但这种方法只有物体图像和训练集样本相似的情况下，才能得到较准确的姿态估计结果，因此，现有技术中还没有一种有效的方式能够进行通用的姿态估计。

发明内容

本发明实施方式的目的在于提供一种位姿信息确定方法、相关装置及存储介质，使得能够排除图像中背景信息的干扰，准确地获得图像中目标物体的位姿信息。

为解决上述技术问题，本发明的实施方式提供了一种位姿信息确定方法，包括以下步骤：通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含每个物体各自的矩形框的第二图像，其中，一个矩形框包含一个物体；从第二图像的每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像；通过边缘分割网络对第三图像进行分割，获得仅包含目标物体的第四图像；根据第四图像获得目标物体的位姿信息。

本发明的实施方式还提供了一种位姿信息确定装置，包括：第一确定模块、筛选模块、第二确定模块和第三确定模块；第一确定模块，用于通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含每个物体各自的矩形框的第二图像，其中，一个矩形框包含一个物体；筛选模块，用于从第二图像的每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像；第二确定模块，用于通过边缘分割网络对第三图像进行分割，获得仅包含目标物体的第四图像；第三确定模块，用于根据第四图像获得目标物体的位姿信息。

本发明的实施方式还提供了一种服务器，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的位姿信息确定方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现如上所述的位姿信息确定方法。

本发明实施方式相对于现有技术而言，通过物体检测网络对图像中存在的物体进行初步检测，并采用矩形框的形式进行标注，从多个矩形框中筛选出仅包含目标物体的矩形框的图像，从而排除了图像中其余物体的干扰，对筛选出的图像进一步的进行分割，仅保留矩形框中目标物体自身的图像排除背景信息的干扰，并根据最终确定的图像获得目标物体的位姿信息，使所获得的位姿信息更加准确。

另外，通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含每个物体各自的矩形框的第二图像之前，还包括：通过第一类样本图像对物体检测网络进行训练，确定物体检测网络中用于确定物体类别与矩形框位置关系的第一参数，其中，第一类样本图像中标记有物体类别与矩形框位置。该实现中，通过标记有物体类别与矩形框位置的第一类样本图像对物体检测网络进行训练，可以准确的获得物体检测网络中用于确定物体类别与矩形框位置关系的第一参数。

另外，通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含每个物体各自的矩形框的第二图像，具体包括：通过物体检测网络对第一图像中包含的每个物体进行识别，获得第一图像中每个物体的类别；根据每个物体的类别以及第一参数确定每个物体的矩形框位置，获得包含每个物体各自的矩形框的第二图像。该实现中，通过物体检测网络对第一图像进行检测，可以确定第一图像中每个物体矩形框的位置，从而将第一图像中每个物体的大致位置通过矩形框的形式标记出来。

另外，从第二图像的每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像，具体包括：接收用户的指令；根据用户的指令确定第二图像中需要进行位姿信息确定的目标物体，并确定目标物体的类别；根据目标物体的类别从第二图像的每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像。该实现中，由于第二图像中标记了多个物体的矩形框，通过接收用户的指令，将需要进行位姿信息确定的目标物体的矩形框筛选出来，从而排除第二图像中其余物体的干扰。

另外，通过边缘分割网络对第三图像进行分割，获得仅包含目标物体的第四图像之前，还包括：通过第二类样本图像对边缘分割网络进行训练，确定边缘分割网络中用于确定像素值与像素类别关系的第二参数，其中，第二类样本图像中标记有每个像素的像素值与像素类别。该实现中，通过标记有每个像素的像素值与像素类别的第二类样本图像对边缘分割网络进行训练，可以准确的获得边缘分割网络中用于确定像素值与像素类别关系的第二参数。

另外，通过边缘分割网络对第三图像进行分割，获得仅包含目标物体的第四图像，具体包括：提取第三图像中每个像素的像素值；根据第三图像中每个像素的像素值以及第二参数确定每个像素的像素类别，其中，类别包括前景类别和背景类别；将第三图像中类别为背景类别的像素进行删除，获得仅包含目标物体的第四图像。该实现中，通过边缘分割网络对第三图像进行分割，将第三图像中确定出的类别为背景类别的像素进行删除，从而排除第三图像中背景信息的干扰，提高了目标物体的位姿信息确定的准确度。

另外，根据第四图像获得目标物体的位姿信息，具体包括；获取第四图像中目标物体的类别；根据目标物体的类别确定目标物体的三维包围盒；通过姿态回归网络确定目标物体的三维包围盒在第四图像的多个投影点的位置；根据多个投影点的位置获得目标物体的位姿信息。

另外，通过姿态回归网络确定目标物体的三维包围盒在第四图像的多个投影点的位置之前，还包括：通过第三类样本图像对姿态回归网络进行训练，确定姿态回归网络中用于确定三维包围盒在图像中的投影点与图像中物体的三维包围盒的投影关系的第三参数，其中，第三类样本图像中物体的三维包围盒在第三类样本图像中的投影点位置已知。该实现中，通过第三类样本图像对姿态回归网络进行训练，可以准确的获得姿态回归网络中用于确定三维包围盒在图像中的投影点与图像中物体的三维包围盒的投影关系的第三参数。

另外，根据多个投影点的位置获得目标物体的位姿信息，具体包括：获得摄像装置的内参以及尺度因子，其中，摄像装置用于获得第一图像；获得目标物体的三维包围盒中与多个投影点所对应的多个参考点的位置；根据内参、尺度因子、多个投影点的位置和多个参考点的位置，确定目标物体的位姿信息。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请第一实施例中位姿信息确定方法的流程图；

图2是本申请第一实施例中物体检测网络检测结果示意图；

图3是本申请第一实施例中目标物体矩形框筛选结果示意图；

图4是本申请第一实施例中边缘分割网络分割结果示意图；

图5是本申请第二实施例中位姿信息确定方法的流程图；

图6是本申请第一实施例中姿态回归网络确定的投影点示意图；

图7是本申请第三实施例中位姿信息确定装置的方框示意图；

图8是本申请第四实施例中位姿信息确定装置的方框示意图；

图9是本申请第五实施例中服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种位姿信息确定方法，应用于服务器。具体流程如图1所示，包括以下步骤：

步骤101，通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含每个物体各自的矩形框的第二图像。

具体的说，在本实施方式中，第一图像是用户通过摄像装置拍摄所获取到的，并且在使用物体检测网络进行检测之前，需要对物体检测网络进行训练，具体方式是通过第一类样本图像对物体检测网络进行训练，确定物体检测网络中用于确定物体类别与矩形框位置关系的第一参数。本实施方式中的物体检测网络具体可以是：更快的基于区域的卷积神经网络(Faster Region-based Convolutional Neural Network，FR-CNN)、单步多包围盒检测网络(Single Shot MultiBox Detector，SSD)和只看一次神经网络(You Only LookOnce，YOLO)等，本实施方式中并不限定物体检测网络的具体类型，只要能够实现对物体的检测都是在本申请的保护范围内的。

其中，第一样本图像中标记有物体类别与矩形框位置，物体的类别可以根据用户的实际需求进行设定，例如，根据几何形状划分物体的类别包括：长方体类、正方体类、圆柱体类、球体类等。物体检测网络确定物体的预测类别，计算预测类别与样本中已知的物体类别的分类误差值；另外，确定物体的预测类别所对应的预测矩形框的位置，以矩形框左上角像素坐标值、矩形框的宽、矩形框的高等参数值来标定矩形框的预测位置，确定预测位置与样本中已知的矩形框的参数误差，通过将分类误差和参数误差最小化，获得物体类别与矩形框位置关系的第一参数的具体数值。

其中，在本实施方式中，通过物体检测网络对第一图像进行检测，获得包含每个物体各自的矩形框的第二图像，具体方式可以采用：通过物体检测网络对第一图像中包含的每个物体进行识别，获得第一图像中每个物体的类别，根据每个物体的类别以及第一参数确定每个物体的矩形框位置，获得包含每个物体各自的矩形框的第二图像。如图2所示，为第一图像通过物体检测网络后的检测结果示意图，其中，图2中所获得的第二图像中包括3个矩形框分别是矩形框A、矩形框B和矩形框C，并且每个矩形框中分别对应一个类别的物体，矩形框A中的物体的类别是长方体类，矩形框B中的物体的类别是正方体类，矩形框C中的物体的类别是圆柱体类。因此，通过物体检测网络将第一图像中的所有潜在物体都检测出来。

步骤102，从第二图像的每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像。

具体的说，在本实施方式中，因为通过物体检测网络所获得的第二图形中包括多个物体的矩形框，而在实际应用中往往需要针对其中的一个矩形框中的物体进行位姿信息的确定，在这种情况下就要需要确定第二图像中需要确定目标物体的矩形框。

其中，获得包含目标物体的矩形框的第三图像具体采用的方式是，通过接收用户的指令，根据用户的指令确定第二图像中需要进行位姿信息确定的目标物体，并确定目标物体的类别，根据目标物体的类别从第二图像的每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像。在本实施方式中，由于第二图像中标记了多个物体的矩形框，通过接收用户的指令，将需要进行位姿信息确定的目标物体的矩形框筛选出来，从而排除第二图像中其余物体的干扰。

在一个具体应用中，接收到用户的指令为确定目标物体c的位姿信息，服务器中预存了每一个物体与类别的对应关系，所以根据用户的指令确定在第二图像中需要进行位姿信息确定的目标物体为c物体，然后根据预存的物体与类别的对应关系，确定目标物体c的类别为圆柱体，根据目标物体c的类别从第二图像的每个物体各自的矩形框中进行筛选，确定目标物体c的矩形框为矩形框C，从而获得包含目标物体c的矩形框C的第三图像，如图3所示，为目标物体矩形框筛选结果示意图。

步骤103，通过边缘分割网络对第三图像进行分割，获得仅包含目标物体的第四图像。

具体的说，在本实施方式中，在使用边缘分割网络之前，需要对边缘分割网络进行训练，具体方式是通过第二类样本图像对边缘分割网络进行训练，确定边缘分割网络中用于确定像素值与像素类别关系的第二参数。本实施方式中的边缘分割网络具体可以是：全卷积网络(Fully Convolutional Network,FCN)、金字塔场景解析网络(Pyramid SceneParsing Network，PSPNet)、分割网络(SegNet，SN)和图像级联网络(Image CascadeNetwork，ICNet)等，本实施方式中并不限定边缘分割网络的具体类型。并且在第二类样本图像中标记有每个像素的像素值与像素类别，类别包括前景类别和背景类别。

需要说明的是，在本实施方式中，通过边缘分割网络对第三图像进行分割，获得仅包含目标物体的第四图像，具体方式可以采用：提取第三图像中每个像素的像素值，根据第三图像中每个像素的像素值以及第二参数确定每个像素的像素类别，其中，类别包括前景类别和背景类别，将第三图像中类别为背景类别的像素进行删除，获得仅包含目标物体的第四图像。通过边缘分割网络对第三图像进行分割，将第三图像中确定出的类别为背景类别的像素进行删除，从而排除第三图像中背景信息的干扰，提高了目标物体的位姿信息的准确度。

在一个具体应用中，将第三图像输入边缘分割网络，边缘分割网络提取第三图图像中像素x的像素值为a，将像素值a与第二参数进行运算，可以获得像素x属于前景类别的概率为60％，因为像素x属于前景类别的概率大于50％，所以边缘分割网络直接确定像素x的类别为前景类别。同理，可以获得第三图像中其余像素的像素类别，并将类别为背景类别的像素进行删除，获得仅包含目标物体的第四图像，如图4所示为边缘分割网络分割结果示意图。当然，本实施方式中仅是举例进行说明，在实际应用中还可以采用其它的方式对第三图像进行分割，只要能根据第三图像获得仅包含目标物体的第四图像，都是在本申请的保护范围内的。

步骤104，根据第四图像获得目标物体的位姿信息。

具体的说，在本实施方式中，由于第四图像为包含目标物体的图像，所以根据第四图像进行目标物体的位姿信息确定时，避免了背景信息的干扰，因此可以准确的获得目标物体的位姿信息，具体实现方式可以根据第四图像与目标物体三维包围盒的对应关系，获得目标物体的位姿信息。

与现有技术相比，本实施方式提供的位姿信息确定方法，通过物体检测网络对图像中存在的物体进行初步检测，并采用矩形框的形式进行标注，从多个矩形框中筛选出仅包含目标物体的矩形框的图像，从而排除了图像中其余物体的干扰，对筛选出的图像进一步的进行分割，仅保留矩形框中目标物体自身的图像排除背景信息的干扰，并根据最终确定的图像获得目标物体的位姿信息，使所获得的位姿信息更加准确。

本发明的第二实施方式涉及一种位姿信息确定方法。本实施例在第一实施例的基础上做了进一步改进，具体改进之处为：对根据第四图像获得目标物体的位姿信息的方式进行了具体描述。本实施例中的位姿信息确定方法的流程如图5所示。具体的说，在本实施例中，包括步骤201至步骤207，其中步骤201至步骤203与第一实施方式中的步骤101至步骤103大致相同，此处不再赘述，下面主要介绍不同之处，未在本实施方式中详尽描述的技术细节，可参见第一实施例所提供的位姿信息确定方法，此处不再赘述。

步骤201至步骤203之后，执行步骤204。

步骤204，获取第四图像中目标物体的类别。

具体的说，在本实施方式中，在物体检测网络对第一图像中的每一个物体进行识别，获得第一图像中每一个物体的类别时，会将每一个物体的类别进行标记，所以在获取到第四图像后，会根据标记内容直接获取第四图像中目标物体的类别。

步骤205，根据目标物体的类别确定目标物体的三维包围盒。

具体的说，在本实施方式中，由于每一个类别分别对应着一个三维包围盒，并将对应关系保存在数据库中，在数据库中保存了物体类别与三维包围盒类型的匹配关系。所以在获取到目标物体的类别时，通过查询数据库可以获取到与目标物体的类别所对应的三维包围盒。

在步骤206，通过姿态回归网络确定目标物体的三维包围盒在第四图像的多个投影点的位置。

具体的说，在本实施方式中，在使用姿态回归网络之前，需要对姿态回归网络进行训练，确定姿态回归网络中用于确定三维包围盒在图像中的投影点与图像中物体的三维包围盒的投影关系的第三参数。本实施方式中的姿态回归网络具体可以是：姿态卷积神经网络(Pose Convolutional Neural Network，PoseCNN)、八点包围盒网络和深度六自由度姿态网络等，本实施方式中并不限定姿态回归网络的具体类型，只要能够实现目标物体的三维包围盒在第四图像中的多个投影点的位置，都是在本申请的保护范围内的。并在第三类样本图像中物体的三维包围盒在第三类样本图像中的投影点位置已知，在本实施方式中，可以选择三维包围盒的8个顶点和中心点共9个点，并标记9个点在第三类样本图像中所对应的投影点的预测位置。并通过9个点的预测位置以及9个点已知的准确位置，获得姿态回归网络的预测误差，通过将预测误差最小化，获得姿态回归网络中第三参数的具体数值。

具体的说，在本实施方式中，在获取目标物体的类别所对应的三维包围盒之后，根据三维包围盒以及第三参数的具体数值，可以准确的获得目标物体所对应的三维包围盒中所选择的9个参考点在第四图图像中的位置，如图6所示，为姿态回归网络确定的投影点示意图。

在步骤207，根据所述多个投影点的位置获得所述目标物体的位姿信息。

需要说明的是，在本实施方式中，在获得多个投影点的位置之后就可以根据多个投影点的位置获得目标物体的位姿信息。在计算目标物体的位姿信息之前需要首先获得摄像装置的内参以及尺度因子，该摄像装置是本申请中用于获取第一图像的装置，因此其内参等信息都是已知量，同时还需要获得目标物体的三维包围盒中与投影点所对应的多个参考点的位置，多个参考点的位置在目标物体的三维包围盒确定的时候就已经获知，因此也是已知量。根据内参、尺度因子、多个投影点的位置和多个参考点的位置，通过PnP算法就可以确定目标物体的位姿信息。

在一个具体实现中，假设三维包围盒的9个参考点的坐标分别为w₁＝[x₁ y₁ z₁ 1]^T、w₂＝[x₂ y₂ z₂ 1]^T、w₃＝[x₃ y₃ z₃ 1]^T、w₄＝[x₄ y₄ z₄ 1]^T、w₅＝[x₅ y₅ z₅ 1]^T、w₆＝[x₆ y₆ z₆1]^T、w₇＝[x₇ y₇ z₇ 1]^T、w₈＝[x₈ y₈ z₈ 1]^T和w₉＝[x₉ y₉ z₉ 1]^T，同时与该9个参考点相对应的第四图像中的投影点坐标分别是c₁＝[u₁ v₁ 1]、c₂＝[u₂ v₂ 1]、c₃＝[u₃ v₃ 1]、c₄＝[u₄v₄ 1]、c₅＝[u₅ v₅ 1]、c₆＝[u₆ v₆ 1]、c₇＝[u₇ v₇ 1]、c₈＝[u₈ v₈ 1]和c₉＝[u₉ v₉ 1]。则根据PnP算法利用如下公式(1)计算获得目标物体的位姿信息:

其中，s表示尺度因子，

表示内参，并且f_x是摄像装置在x轴上的焦距，f_y是摄像装置在y轴上的焦距，(u₀ v₀)是像主点坐标，[u_i v_i 1]^T是编号为i的投影点的坐标，

[x_i y_i z_i 1]^T是编号为i的参考点的坐标，

是待求解的目标物体的位姿信息，通过将参考点以及与参考点所对应的投影点的坐标分别代入公式(1)中，就可以求得目标物体的位姿信息的具体数值。

与现有技术相比，本实施方式提供的本实施方式提供的位姿信息确定方法，通过物体检测网络对图像中存在的物体进行初步检测，并采用矩形框的形式进行标注，从多个矩形框中筛选出仅包含目标物体的矩形框的图像，从而排除了图像中其余物体的干扰，对筛选出的图像进一步的进行分割，仅保留矩形框中目标物体自身的图像排除背景信息的干扰，并根据最终确定的图像获得目标物体的位姿信息，使所获得的位姿信息更加准确。并且通过确定图像中目标物体的三维包围盒参考点在图像中的投影点位置，进行计算获得目标物体的位姿信息，进一步提高了位姿信息确定的精确度。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种位姿信息确定装置，具体结构如如图7所示。

如图7所示，位姿信息确定装置包括：第一确定模块301、筛选模块302、第二确定模块303和第三确定模块304。

其中，第一确定模块301，用于通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含每个物体各自的矩形框的第二图像。

筛选模块302，用于从第二图像的每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像。

第二确定模块303，用于通过边缘分割网络对第三图像进行分割，获得仅包含目标物体的第四图像。

第三确定模块304，用于根据第四图像获得目标物体的位姿信息。

不难发现，本实施方式为与第一实施方式相对应的装置实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明第四实施方式涉及一种位姿信息确定装置。该实施方式与第三实施方式大致相同，具体结构如图8所示。其中，主要改进之处在于：第四实施方式对第三实施方式中的第三确定模块304的结构进行了具体描述。

第三确定模块304包括：获取子模块3041、三维包围盒确定子模块3042、投影点确定子模块3043和位姿信息获取子模块3044。

其中，获取子模块3041，用于获取第四图像中目标物体的类别。

三维包围盒确定子模块3042，用于根据目标物体的类别确定目标物体的三维包围盒。

投影点确定子模块3043，用于通过姿态回归网络确定目标物体的三维包围盒在第四图像的多个投影点的位置。

位姿信息获取子模块3044，用于根据所述多个投影点的位置获得所述目标物体的位姿信息。

不难发现，本实施方式为与第二实施方式相对应的装置实施例，本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第五实施方式涉及一种服务器，如图9所示，包括至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行上述实施例中的位姿信息确定方法。

本实施例中，处理器501以中央处理器(Central Processing Unit，CPU)为例，存储器502以可读写存储器(Random Access Memory，RAM)为例。处理器501、存储器502可以通过总线或者其他方式连接，图9中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中实现位姿信息确定方法的程序就存储于存储器502中。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述位姿信息确定方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个程序模块存储在存储器502中，当被一个或者多个处理器501执行时，执行上述任意方法实施例中的位姿信息确定方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请的第六实施方式涉及一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时能够实现本发明任意方法实施例中涉及的位姿信息确定方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种位姿信息确定方法，应用于服务器，其特征在于，包括：

通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含所述每个物体各自的矩形框的第二图像，其中，一个所述矩形框包含一个所述物体；

从所述第二图像的所述每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像；

通过边缘分割网络对所述第三图像进行分割，获得仅包含目标物体的第四图像；

根据所述第四图像获得所述目标物体的位姿信息；

其中，所述根据所述第四图像获得所述目标物体的位姿信息，具体包括:获取所述第四图像中目标物体的类别；根据所述目标物体的类别确定所述目标物体的三维包围盒；通过姿态回归网络确定所述目标物体的三维包围盒在所述第四图像的多个投影点的位置；根据所述多个投影点的位置获得所述目标物体的位姿信息；

根据所述多个投影点的位置获得所述目标物体的位姿信息，具体包括：获得摄像装置的内参以及尺度因子，其中，所述摄像装置用于获得所述第一图像；获得所述目标物体的三维包围盒中与所述多个投影点所对应的多个参考点的位置；根据所述内参、所述尺度因子、所述多个投影点的位置和所述多个参考点的位置，确定所述目标物体的位姿信息。

2.根据权利要求1所述的位姿信息确定方法，其特征在于，所述通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含所述每个物体各自的矩形框的第二图像之前，还包括：

通过第一类样本图像对所述物体检测网络进行训练，确定所述物体检测网络中用于确定物体类别与矩形框位置关系的第一参数，其中，所述第一类样本图像中标记有物体类别与矩形框位置。

3.根据权利要求2所述的位姿信息确定方法，其特征在于，所述通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含所述每个物体各自的矩形框的第二图像，具体包括：

通过所述物体检测网络对所述第一图像中包含的每个物体进行识别，获得所述第一图像中每个物体的类别；

根据所述每个物体的类别以及所述第一参数确定所述每个物体的矩形框位置，获得包含所述每个物体各自的矩形框的第二图像。

4.根据权利要求1至3任一项所述的位姿信息确定方法，其特征在于，所述从所述第二图像的所述每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像，具体包括：

接收用户的指令；

根据用户的指令确定所述第二图像中需要进行位姿信息确定的目标物体，并确定所述目标物体的类别；

根据所述目标物体的类别从所述第二图像的所述每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像。

5.根据权利要求1至3任一项所述的位姿信息确定方法，其特征在于，所述通过边缘分割网络对所述第三图像进行分割，获得仅包含目标物体的第四图像之前，还包括：

通过第二类样本图像对所述边缘分割网络进行训练，确定所述边缘分割网络中用于确定像素值与像素类别关系的第二参数，其中，所述第二类样本图像中标记有每个像素的像素值与像素类别。

6.根据权利要求5所述的位姿信息确定方法，其特征在于，所述通过边缘分割网络对所述第三图像进行分割，获得仅包含目标物体的第四图像，具体包括：

提取所述第三图像中每个像素的像素值；

根据所述第三图像中每个像素的像素值以及所述第二参数确定每个像素的像素类别，其中，所述类别包括前景类别和背景类别；

将所述第三图像中类别为所述背景类别的像素进行删除，获得仅包含目标物体的第四图像。

7.根据权利要求1所述的位姿信息确定方法，其特征在于，所述通过姿态回归网络确定所述目标物体的三维包围盒在所述第四图像的多个投影点的位置之前，还包括：

通过第三类样本图像对所述姿态回归网络进行训练，确定所述姿态回归网络中用于确定三维包围盒在图像中的投影点与图像中物体的三维包围盒的投影关系的第三参数，其中，所述第三类样本图像中物体的三维包围盒在所述第三类样本图像中的投影点位置已知。

8.一种位姿信息确定装置，其特征在于，包括：第一确定模块、筛选模块、第二确定模块和第三确定模块；

所述第一确定模块，用于通过物体检测网络对第一图像中包含的每个物体进行检测，获得包含所述每个物体各自的矩形框的第二图像，其中，一个所述矩形框包含一个所述物体；

所述筛选模块，用于从所述第二图像的所述每个物体各自的矩形框中进行筛选，获得包含目标物体的矩形框的第三图像；

所述第二确定模块，用于通过边缘分割网络对所述第三图像进行分割，获得仅包含目标物体的第四图像；

所述第三确定模块，用于根据所述第四图像获得所述目标物体的位姿信息；

9.一种服务器，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7任一项所述的位姿信息确定方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的位姿信息确定方法。