CN113822102B

CN113822102B - 一种姿态估计方法、装置、电子设备及存储介质

Info

Publication number: CN113822102B
Application number: CN202010567738.1A
Authority: CN
Inventors: 王再冉; 郭小燕
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2024-02-20
Anticipated expiration: 2040-06-19
Also published as: CN113822102A

Abstract

本申请实施例提供一种姿态估计方法、装置、电子设备及存储介质，涉及计算机视觉技术领域，可以提高获取姿态信息的准确度和鲁棒性。该方法包括：获取包含目标物体的目标图像；对目标图像进行特征提取，得到目标物体的姿态特征和关键特征，关键特征包括关键点特征和边缘轮廓特征中的至少一个；根据姿态特征和关键特征，得到目标物体的姿态信息。

Description

一种姿态估计方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种姿态估计方法、装置、电子设备及存储介质。

背景技术

物体姿态估计作为计算机视觉领域中的一个非常重要的环节，在机器人领域(例如，机械臂抓取)、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)领域、无人驾驶领域、物体追踪领域和建模领域等也有着重要的影响。物体姿态估计就是指计算目标物体和相机之间的变换矩阵，即姿态信息，目前获取姿态信息的方法主要分为两种，一种是从二维(Two Dimensional，2D)图像中提取局部特征或目标物体区域，该2D图像包括目标物体的图像特征，再结合目标物体的三维(Three Dimensional，3D)空间信息求解姿态信息；另一种是利用彩色图像和其对应的姿态信息来训练神经网络，再用训练后的神经网络从目标物体的彩色图像中获取目标物体的姿态信息。

然而，对于弱纹理目标物体，由于其图像提供的信息有限，无法保证提取出足够有效的局部特征或目标物体区域来求解姿态信息，神经网络也无法准确获取到弱纹理目标的姿态信息，因此可知上述相关方法的准确度和鲁棒性都较差。

发明内容

本申请实施例提供一种姿态估计方法、装置、电子设备及存储介质，可以提高获取姿态信息的准确度和鲁棒性。

为实现上述技术目的，本申请实施例采用如下技术方案：

第一方面，本申请实施例提供了一种姿态估计方法，该方法包括：获取包含目标物体的目标图像；对目标图像进行特征提取，得到目标物体的姿态特征和关键特征，关键特征包括关键点特征和边缘轮廓特征中的至少一个；根据姿态特征和关键特征，得到目标物体的姿态信息。

在一种可能的实施方式中，所述姿态特征为姿态特征图，所述关键特征为关键特征图。所述对目标图像进行特征提取，得到目标物体的姿态特征和关键特征，包括：将目标图像输入特征提取网络，得到目标物体的基础属性；基础属性用于表征目标物体在目标图像中的表面结构信息；将基础属性分别输入姿态特征提取网络和关键特征提取网络，得到姿态特征图、关键特征图。

另一种可能的实施方式中，关键特征图包括关键点特征图和边缘轮廓特征图；关键特征提取网络包括关键点检测网络和边缘轮廓检测网络。所述将基础属性分别输入姿态特征提取网络和关键特征提取网络，得到姿态特征图、关键特征图，包括：将基础属性分别输入姿态特征提取网络、关键点检测网络和边缘轮廓检测网络，得到姿态特征图、关键点特征图和边缘轮廓特征图。

另一种可能的实施方式中，所述根据姿态特征和关键特征，得到目标物体的姿态信息，包括：对姿态特征图和关键特征图进行拼接，得到组合特征图；将组合特征图输入姿态识别网络，得到姿态信息。

另一种可能的实施方式中，在所述对目标图像进行特征提取，得到目标物体的姿态特征和关键特征之前，该方法还包括：获取初始姿态检测模型；再获取样本图像、样本姿态信息和样本关键信息；然后，将样本图像作为输入样本、将样本关键信息和样本姿态信息作为输出样本，对初始姿态检测模型进行训练，得到姿态检测模型；初始姿态检测模型包括初始特征提取网络、初始姿态特征提取网络、初始关键特征提取网络和初始姿态识别网络。其中，样本姿态信息表示样本图像中的样本物体的姿态信息；样本关键信息表示样本图像中的样本物体的关键点位置和边缘轮廓中至少一个；姿态检测模型包括特征提取网络、姿态特征提取网络、关键特征提取网络和姿态识别网络。

另一种可能的实施方式中，所述获取样本图像，包括：获取包含样本物体的原始图像，并对原始图像进行第一预处理，得到样本图像。其中，第一预处理包括光照变换、添加高斯噪声、运动模糊、旋转、平移、剪切、水平翻转和尺寸调整中至少一个。

另一种可能的实施方式中，所述获取包含目标物体的目标图像，包括：获取包含目标物体的目标原始图像，并对目标原始图像进行第二预处理，得到目标图像。其中，第二预处理包括运动模糊的复原、去噪和尺寸调整中至少一个。

另一种可能的实施方式中，样本关键信息包括样本关键点位置和样本边缘轮廓。所述将样本图像作为输入样本、将样本关键信息和样本姿态信息作为输出样本，对初始姿态检测模型进行训练，得到姿态检测模型，包括：将样本图像作为输入样本，将样本关键点位置、样本边缘轮廓和样本姿态信息作为输出样本；利用输入样本和输出样本，对初始姿态检测模型进行训练，得到中间姿态检测模型；将输入样本输入中间姿态检测模型，得到预测姿态信息、预测关键点位置和预测边缘轮廓；利用损失函数，分别计算预测姿态信息和其对应的样本关键信息之间的姿态信息误差、预测关键点位置和其对应的样本关键点位置之间的关键点误差、以及预测边缘轮廓和其对应的样本边缘轮廓之间的边缘轮廓误差；根据姿态信息误差、关键点误差和边缘轮廓误差，利用梯度下降法修改中间姿态检测模型的参数，得到姿态检测模型。

第二方面，本申请实施例还提供了一种姿态估计装置，该装置包括：图像获取模块，用于获取包含目标物体的目标图像；特征提取模块，用于对所述目标图像进行特征提取，得到所述目标物体的姿态特征和关键特征，所述关键特征包括关键点特征和边缘轮廓特征中的至少一个；姿态识别模块，用于根据所述姿态特征和所述关键特征，得到所述目标物体的姿态信息。

在一种可能的实施方式中，姿态特征为姿态特征图，关键特征为关键特征图。特征提取模块，具体用于：将目标图像输入特征提取网络，得到目标物体的基础属性；基础属性用于表征目标物体在目标图像中的表面结构信息；将基础属性分别输入姿态特征提取网络和关键特征提取网络，得到姿态特征图、关键特征图。

另一种可能的实施方式中，关键特征图包括关键点特征图和边缘轮廓特征图；关键特征提取网络包括关键点检测网络和边缘轮廓检测网络。特征提取模块，具体用于将基础属性分别输入姿态特征提取网络、关键点检测网络和边缘轮廓检测网络，得到姿态特征图、关键点特征图和边缘轮廓特征图。

另一种可能的实施方式中，姿态识别模块，具体用于：对姿态特征图和关键特征图进行拼接，得到组合特征图；将组合特征图输入姿态识别网络，得到姿态信息。

另一种可能的实施方式中，该装置还包括：模型获取模块、样本获取模块和模型训练模块。其中，模型获取模块，用于在所述对目标图像进行特征提取，得到目标物体的姿态特征和关键特征之前，获取初始姿态检测模型；初始姿态检测模型包括初始特征提取网络、初始姿态特征提取网络、初始关键特征提取网络和初始姿态识别网络。样本获取模块，用于获取样本图像、样本姿态信息和样本关键信息；样本姿态信息表示样本图像中的样本物体的姿态信息；样本关键信息表示样本图像中的样本物体的关键点位置和边缘轮廓中至少一个。模型训练模块，用于将样本图像作为输入样本、将样本关键信息和样本姿态信息作为输出样本，对初始姿态检测模型进行训练，得到姿态检测模型；姿态检测模型包括特征提取网络、姿态特征提取网络、关键特征提取网络和姿态识别网络。

另一种可能的实施方式中，样本获取模块，具体用于获取包含样本物体的原始图像，并对原始图像进行第一预处理，得到样本图像。其中，第一预处理包括光照变换、添加高斯噪声、运动模糊、旋转、平移、剪切、水平翻转和尺寸调整中至少一个。

另一种可能的实施方式中，图像获取模块，具体用于获取包含目标物体的目标原始图像，并对目标原始图像进行第二预处理，得到目标图像。其中，第二预处理包括运动模糊的复原、去噪和尺寸调整中至少一个。

另一种可能的实施方式中，样本关键信息包括样本关键点位置和样本边缘轮廓。模型训练模块，具体用于：将样本图像作为输入样本，将样本关键点位置、样本边缘轮廓和样本姿态信息作为输出样本；利用输入样本和输出样本，对初始姿态检测模型进行训练，得到中间姿态检测模型；将输入样本输入中间姿态检测模型，得到预测姿态信息、预测关键点位置和预测边缘轮廓；利用损失函数，分别计算预测姿态信息和其对应的样本关键信息之间的姿态信息误差、预测关键点位置和其对应的样本关键点位置之间的关键点误差、以及预测边缘轮廓和其对应的样本边缘轮廓之间的边缘轮廓误差；根据姿态信息误差、关键点误差和边缘轮廓误差，利用梯度下降法，修改中间姿态检测模型的参数，得到姿态检测模型。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器和用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现如第一方面及其任一种可能的实施方式的姿态估计方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机指令，当计算机指令在电子设备上运行时实现如第一方面及其任一种可能的实施方式的姿态估计方法。

第五方面，本申请实施例还提供一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以在电子设备上运行，使得电子设备执行如第一方面及其任一种可能的实施方式的姿态估计方法。

可以理解的是，在获取目标图像后，可以先对目标图像进行特征提取，得到目标物体的姿态特征和关键特征。该关键特征包括关键点特征和边缘轮廓特征中的至少一个。也就是说，上述姿态特征和关键特征都可以用于表征目标物体在目标图像中的姿态。本申请实施例中，可以根据姿态特征和关键特征，得到目标物体的姿态信息。也就是说，在获取目标物体的姿态信息时，不仅参考了姿态特征，还参考了关键特征。其中，获取目标物体的姿态信息时，参考目标图像中目标物体的相关特征越多，得到的目标物体的姿态信息越准确。因此，采用本申请实施例的方法，能够提高获取姿态信息的准确度和鲁棒性。

附图说明

图1是本申请实施例提供的一种姿态估计方法所涉及的实施环境示意图；

图2是本申请实施例提供的一种基于深度图像获取姿态信息的方法流程图；

图3是本申请实施例提供的一种姿态估计方法流程图一；

图4是本申请实施例提供的一种姿态信息的示意图；

图5是本申请实施例提供的一种姿态估计方法流程图二；

图6是本申请实施例提供的一种一种无人驾驶场景的示意图；

图7是本申请实施例提供的一种姿态估计方法流程图三；

图8是本申请实施例提供的一种姿态估计装置的结构示意图；

图9是本申请实施例提供的一种电子设备的结构示意图；

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多张”的含义是两张或两张以上，“多个”的含义是两个或两个以上。

本申请实施例提供一种姿态估计方法，通过该方法可以提高获取目标物体的姿态信息时的准确度和鲁棒性。

下面将结合附图对本申请实施例的实施方式进行详细描述。

请参考图1，其示出本申请实施例提供的一种姿态估计方法所涉及的实施环境示意图。如图1所示，该实施环境可以包括服务器101和终端设备102。

其中，终端设备102可以获取包含目标物体的目标图像，并向服务器101发送该目标图像。然后，服务器101接收到该目标图像后，可以对该目标图像进行处理，得到该目标物体的姿态信息，并向终端设备102发送该姿态信息。或者，终端设备102可以获取该目标图像，并处理该目标图像以得到该目标物体的姿态信息。

进一步地，在终端设备102得到目标物体的姿态信息之后，根据该姿态信息就可以确定目标物体在三维空间中的位置和朝向等信息，进而控制和目标物体之间的交互。

示例性的，本申请实施例中的终端设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、车载设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实设备、虚拟现实设备等，本申请实施例对该终端设备的具体形态不作特殊限制。

需要说明的是，本申请实施例提供的姿态估计方法可以应用于服务器101，也可以应用于终端设备102。该服务器101和终端设备102可以统称为电子设备。本申请实施例提供的姿态估计方法的执行主体可以为姿态估计装置，该姿态估计装置可以为上述电子设备(如服务器101或终端设备102)。该姿态估计装置还可以为安装有可以提供姿态估计功能的应用程序(application，APP)；或者，该姿态估计装置还可以为上述电子设备中的中央处理器(Central Processing Unit，CPU)；或者，该电子设备中的用于执行对姿态信息进行获取的控制模块。

目前，为了获取目标物体的姿态信息，相关技术是从单帧包含目标物体的二维图像中提取局部特征。再将该局部特征和目标物体在三维基准模型中的特征相匹配，以求解姿态信息，姿态信息包括旋转矩阵和平移矩阵。可以看出，上述姿态信息的求解过程对局部特征的依赖性太强。若目标物体为弱纹理目标物体，由于其在二维图像中的纹理不明显，从包含弱纹理目标物体的二维图像中不能获得足够有效的局部特征，进而导致求解姿态信息的准确度和鲁棒性都较差。

其次，如图2所示一种基于深度信息获取姿态信息的方法流程图，相关技术还可以将单帧包含目标物体的彩色图像作为输入，运行语义分割网络，输出目标物体在彩色图像中的目标区域。再根据目标区域和深度图像，对目标物体表面建立平面模型，得到平面中心点和平面法向量，该深度图像包括目标物体的深度信息。最后，根据平面中心点和平面法向量，得到目标物体的姿态信息。同样地，若目标物体为弱纹理目标物体，从包含弱纹理目标物体的彩色图像中不能获取准确有效的目标区域，进而导致求解姿态信息的准确度和鲁棒性较差。并且，上述过程先获取目标区域再来获取姿态信息，计算过程复杂，增加了计算难度。除此之外，上述过程需要用到彩色图像和深度图像，增加了该技术的应用难度，缩小了使用范围。

另外，随着深度学习的发展，相关技术还提出了基于机器学习算法，采用对图像进行回归物体姿态的方式，获取目标物体的姿态信息。具体地，利用三通道彩色(Red GreenBlue，RGB)图像和其对应的姿态信息，对神经网络进行训练，得到训练后的神经网络，该训练后的神经网络具有从彩色图像中提取出姿态信息的能力。然后，输入包含目标物体的目标图像，运行该训练后的神经网络，得到目标物体的姿态信息。但是，若目标物体为弱纹理目标物体，由于包含弱纹理目标物体的目标图像中的纹理不明显，训练后的神经网络从包含弱纹理目标物体的目标图像中能够提取的信息有限，导致获取姿态信息的准确度和鲁棒性较差。

综上可知，相关技术在获取姿态信息的准确度和鲁棒性都较差，无法稳定地获得弱纹理目标物体的正确的姿态信息。对此，本申请实施例提出一种姿态估计方法，可以解决相关技术存在的问题。

请参考图3，为本申请实施例提供的一种姿态估计方法的流程图。如图3所示，该方法可以包括步骤301-步骤303。

步骤301：姿态估计装置获取包含目标物体的目标图像。

姿态估计装置接收用户的图像获取指令，并响应于该图像获取指令，获取一帧目标图像。其中，目标物体可以是弱纹理物体；目标图像可以为RGB图像或灰度图像等。

在一些实施例中，姿态估计装置获取目标图像的方式可以包括：检测到用户的图像上传操作并响应，从默认的文件存储路径、或该图像上传操作所指示的文件存储路径中，获取目标图像；或者，接收到用户的图像采集操作并响应，控制相机对包含目标物体的场景进行拍摄，得到目标图像。

示例性地，当该方法应用于服务器时，用户控制终端设备采集一帧目标图像。然后，在终端设备上对该帧目标图像执行图像上传操作，终端设备响应于图像上传操作，将该帧目标图像发送至服务器。服务器从该帧目标图像中获取姿态信息。

示例性地，在无人驾驶领域中，无人驾驶汽车启动后，向姿态估计装置发出图像采集操作。姿态估计装置响应于该图像采集操作，控制相机对前面的、包含目标物体的景象进行拍摄，获取目标图像。进而从目标图像中得到目标物体的姿态信息，用于控制无人驾驶汽车的行驶。

在一些实施例中，姿态估计装置获取包含目标物体的目标原始图像，并对目标原始图像进行第二预处理，得到目标图像；其中，第二预处理包括运动模糊的复原、去噪和尺寸调整中至少一个。

姿态估计装置获取目标原始图像，对目标原始图像进行第二预处理后得到目标图像。或者，直接将目标原始图像作为目标图像。

需要说明的是，获取目标原始图像的方式，同理于上述获取目标图像的方式，此处不再赘述。

在一些实施例中，尺寸调整的过程可以包括：姿态估计装置根据预设图像尺寸，对目标原始图像进行缩放填充，得到缩放填充后的图像，缩放填充后的图像的尺寸等于预设图像尺寸。其中，预设图像尺寸为在保证图像处理速度和图像处理效果的情况下设置的合适的图像尺寸；预设图像尺寸包括预设图像高度和预设图像宽度。

示例性地，姿态估计装置可以先按照预设图像高度，对目标原始图像进行缩放，以使得缩放后的图像的高度等于预设图像高度。再对缩放后的图像进行宽度上的填充，得到缩放填充后的图像。

可以理解的是，对目标原始图像进行去噪或运动模糊的复原，都可以提高图像质量，进而提高了从目标图像获取姿态信息的准确度。而对目标原始图像进行缩放填充，可以同时保证获取姿态信息的速度和准确度。

步骤302：姿态估计装置对目标图像进行特征提取，得到目标物体的姿态特征和关键特征，关键特征包括关键点特征和边缘轮廓特征中的至少一个。

姿态估计装置得到目标图像后，在从目标图像获取目标物体的姿态信息的过程中可以先提取目标物体的姿态特征和关键特征。

其中，姿态特征可以为姿态特征图。关键特征可以为关键特征图，关键特征图包括关键点特征图和边缘轮廓特征图中的至少一个。

需要说明的是，由于关键点特征表征目标物体在目标图像中的关键点，边缘轮廓特征表征目标物体在目标图像中的边缘轮廓，而关键点和边缘轮廓都是和姿态极其相关的，甚至可以说，当确定了目标物体在目标图像中的姿态时，就可以确定目标物体在目标图像中的关键点和边缘轮廓。进而可以知道，关键点特征图和边缘轮廓特征图都与姿态特征图也是相互关联的，利用关键点特征图和/或边缘轮廓特征图可以辅助姿态特征图来获取姿态信息。因此，从目标图像中不仅提取出姿态特征图，还提取出关键点特征图和/或边缘轮廓特征图。

在一些实施例中，姿态估计装置将目标图像输入特征提取网络，得到目标物体的基础属性；将基础属性分别输入姿态特征提取网络和关键特征提取网络，得到姿态特征图、关键特征图。

其中，特征提取网络用于对目标图像进行初步的特征提取，输出基础属性，以使得姿态特征提取网络和关键特征提取网络都从基础属性中分别提取姿态特征和关键特征。

其中，基础属性可用于表征目标物体在目标图像中的表面结构信息。

姿态估计装置包括特征提取网络、姿态特征提取网络和关键特征提取网络。姿态估计装置将目标图像输入特征提取网络，并运行特征提取网络，输出目标物体的基础属性；再将基础属性分别输入姿态特征提取网络和关键特征提取网络，并运行姿态特征提取网络和关键特征提取网络，得到姿态特征提取网络输出的姿态特征图、得到关键特征提取网络输出的关键特征图。其中，特征提取网络具备从目标图像中提取出基础属性的能力；姿态特征提取网络具备从基础属性中提取出姿态特征图的能力；关键特征提取网络具备从基础属性中提取出关键特征图的能力。

其中，特征提取网络的输出端分别连接姿态特征提取网络的输入端和关键特征提取网络的输入端。姿态估计装置将目标图像输入特征提取网络，同时运行特征提取网络、姿态特征提取网络和关键特征提取网络，输出姿态特征图和关键特征图。

其中，关键特征提取网络具备从基础属性中提取出关键特征图和关键特征的能力，关键特征图为关键特征提取网络从基础属性中提取关键特征的过程中得到的。

具体地，姿态估计装置将基础属性输入关键特征提取网络，在运行关键特征提取网络的过程中，可以将关键特征提取网络中的任意一层输出的特征图(feature map)，作为关键特征图。还可以将关键特征提取网络输出的最后一层特征图，作为关键特征图。

同理，姿态估计装置将基础属性输入姿态特征提取网络，在运行姿态特征提取网络的过程中，可以将姿态特征提取网络中的任意一层输出的特征图，作为姿态特征图。还可以将姿态特征提取网络输出的最后一层特征图，作为姿态特征图。或者，将姿态特征提取网络输出的所有特征图，作为姿态特征图。

在一些实施例中，关键特征图包括关键点特征图和边缘轮廓特征图；关键特征提取网络包括关键点检测网络和边缘轮廓检测网络。姿态估计装置将基础属性分别输入姿态特征提取网络、关键点检测网络和边缘轮廓检测网络，得到姿态特征图、关键点特征图和边缘轮廓特征图。其中，关键点特征图表征目标物体在目标图像中的关键点；边缘轮廓特征图表征目标物体在目标图像中的边缘轮廓。

姿态估计装置将基础属性分别输入姿态特征提取网络、关键点检测网络和边缘轮廓检测网络，并运行姿态特征提取网络、关键点检测网络和边缘轮廓检测网络，得到姿态特征提取网络输出的姿态特征图、关键点检测网络输出的关键点特征图、边缘轮廓检测网络输出的边缘轮廓特征图。

其中，特征提取网络的输出端分别连接姿态特征提取网络的输入端、关键点检测网络的输入端和边缘轮廓检测网络的输入端。关键点检测网络具备从基础属性中提取出关键点特征图和关键点的能力；边缘轮廓检测网络具备从基础属性中提取出边缘轮廓特征图和边缘轮廓的能力。

具体地，姿态估计装置将基础属性输入关键点检测网络，在运行关键点检测网络的过程中，可以将关键点检测网络中的任意一层输出的特征图，作为关键点特征图。还可以将关键点检测网络输出的最后一层特征图，作为关键点特征图。

具体地，姿态估计装置将基础属性输入边缘轮廓检测网络，在运行边缘轮廓检测网络的过程中，可以将边缘轮廓检测网络中的任意一层输出的特征图，作为边缘轮廓特征图。还可以将边缘轮廓检测网络输出的最后一层特征图，作为关键点特征图。

步骤303：姿态估计装置根据姿态特征和关键特征，得到目标物体的姿态信息。

姿态估计装置再对姿态特征和关键特征进行处理，得到目标物体的姿态信息。进而可以利用目标物体的姿态信息，控制和目标物体之间的交互。其中，目标物体的姿态信息可以为目标物体在目标图像中的中心点的姿态信息。

在一些实施例中，姿态特征为姿态特征图，关键特征为关键特征图。姿态估计装置对姿态特征图和关键特征图进行拼接(或融合)，得到组合特征图。将组合特征图作为输入，运行预设姿态识别网络，输出姿态信息；预设姿态识别网络具备从组合特征图中提取出姿态信息的能力。

其中，姿态估计装置对姿态特征图和关键特征图进行前后连接，得到组合特征图。组合特征图中的姿态特征图在关键特征图之前，或者组合特征图中的关键特征图在姿态特征图之前。

具体地，姿态估计装置还包括预设姿态识别网络；姿态特征提取网络的特征图的输出端和关键特征提取网络的特征图的输出端都连接拼接运算(融合运算)的输入端，拼接运算的输出端连接预设姿态识别网络的输入端。姿态估计装置可以将目标图像输入特征提取网络，同时运行特征提取网络、姿态特征提取网络、关键特征提取网络和预设姿态识别网络，由预设姿态识别网络输出姿态信息。

在一些实施例中，关键特征图包括关键点特征图和边缘轮廓特征图。姿态估计装置对姿态特征图、关键点特征图和边缘轮廓特征图进行拼接，得到组合特征图。

其中，姿态估计装置对姿态特征图、关键点特征图和边缘轮廓特征图进行前后连接，得到组合特征图。组合特征图中的姿态特征图、关键点特征图和边缘轮廓特征图的前后顺序不做限制。

具体地，姿态特征提取网络的特征图的输出端、关键点检测网络的特征图的输出端和边缘轮廓检测网络的特征图的输出端都连接拼接运算的输入端，拼接运算的输出端连接预设姿态识别网络的输入端。姿态估计装置可以将目标图像输入特征提取网络，同时运行特征提取网络、姿态特征提取网络、关键点检测网络、边缘轮廓检测网络和预设姿态识别网络，由预设姿态识别网络输出姿态信息。

可以理解的是，对于弱纹理物体，即使从弱纹理物体的目标图像中提取的信息有限，但是除了姿态特征图，还增加了和姿态信息相关联的关键特征图。如此，用更多的和弱纹理物体的姿态相关的特征图，就能够更稳定且准确地获取弱纹理物体的姿态信息。

具体地，每个姿态信息可以包括旋转矩阵R和平移矩阵T。旋转矩阵R表示三个维度上的角度信息，平移矩阵T表示三个维度上的偏移量。旋转矩阵R如下式(1)所示：

平移矩阵T如下式(2)所示：

T＝(t_x,t_y,t_z) (2)

其中，θ为目标物体在三维坐标系中的方位角，为目标物体在三维坐标系中的仰角，ψ为目标物体在三维坐标系中的旋转角。t_x为目标物体在三维坐标系中的x轴上的偏移值，t_y为目标物体在三维坐标系中的y轴上的偏移值，t_z为目标物体在三维坐标系中的z轴上的偏移值；三维坐标系可以是以图像拍摄设备为坐标原点建立的。

示例性地，如图4所示的一种姿态信息的示意图，以图像拍摄设备为坐标原点o、从左到右为x轴正方向、从后到前为y轴正方向、以及从上到下为z轴正方向建立三维坐标系。对包含目标物体A的场景进行拍摄，得到目标图像；对该目标图像进行处理，获取目标物体A在目标图像中的中心点C的姿态信息。其中，中心点C的姿态信息包括旋转矩阵和平移矩阵(t_xC，t_yC，t_zC)；θ_C为中心点C在三维坐标系中的方位角，/>为中心点C在三维坐标系中的仰角，ψ_C为中心点C在三维坐标系中的旋转角，t_xc为中心点C在x轴上的偏移值，t_yc为中心点C在y轴上的偏移值，t_zc为中心点C在z轴上的偏移值。

请参考图5，本申请实施例还提供一种姿态估计方法。如图5所示，该方法包括步骤501和步骤502。

步骤501：姿态估计装置获取包含目标物体目标图像。

需要说明的是，步骤501的实现过程同理于上述步骤301的实现过程，此处不再赘述。

步骤502：姿态估计装置将目标图像作为输入，运行姿态检测模型，输出目标物体的姿态信息；其中，姿态检测模型具备从目标图像中提取出姿态特征图和关键特征图、再从姿态特征图和关键特征图中提取出姿态信息的能力。

姿态估计装置包括姿态检测模型，直接利用姿态检测模型对目标图像进行识别，得到目标物体的姿态信息。其中，姿态检测模型包括特征提取网络、姿态特征提取网络、关键特征提取网络和预设姿态识别网络。特征提取网络、姿态特征提取网络、关键特征提取网络和预设姿态识别网络之间的连接关系可以如前面所述。

可以理解的是，姿态估计装置通过姿态检测模型，直接输出目标物体的姿态信息，相较于先获取目标物体的局部特征或目标区域，再用其结合三维基准模型特征或者深度图像求解姿态信息的方案，计算过程简单，对使用场景没有过多要求，扩大了使用范围。

示例性地，如图6所示的一种无人驾驶场景的示意图。在无人驾驶领域，无人驾驶汽车M包括相机m和姿态估计装置；当无人驾驶汽车M启动后，无人驾驶汽车M在检测到障碍物时，控制相机m对前面的、包含目标物体B的景象进行拍摄，得到目标图像，并将其发送至姿态估计装置。其中，以相机m为坐标原点o、从左到右为x轴正方向、从后到前为y轴正方向、以及从上到下为z轴正方向建立三维坐标系。姿态估计装置将目标图像作为输入，运行姿态检测模型，输出目标物体B在该三维坐标系中的姿态信息。目标物体B的姿态信息可以包括目标物体B在目标图像中的左端点L的姿态信息、右端点R的姿态信息。无人驾驶汽车基于左端点L的姿态信息和右端点R的姿态信息，对目标物体B进行及时地规避。

请参考图7，在步骤502之前，该方法还包括：

步骤701：姿态估计装置获取初始姿态检测模型；初始姿态检测模型包括初始特征提取网络、初始姿态特征网络、初始关键特征提取网络和初始姿态识别网络。

其中，初始特征提取网络、初始姿态特征网络和初始关键特征提取网络均由卷积层、标准化处理层(Batch Normalization)和池化层组合而成，初始特征提取网络、初始姿态特征网络和初始关键特征提取网络的结构不同；初始姿态识别网络由标准化处理层、池化层和全连接层组合而成。

姿态估计装置先分别建立初始特征提取网络、初始姿态特征网络、初始关键特征提取网络和初始姿态识别网络。再将初始特征提取网络的输出端分别连接初始姿态特征网络的输入端和初始关键特征提取网络的输入端，初始姿态特征网络的特征图的输出端和初始关键特征提取网络的特征图的输出端都连接拼接运算的输入端，拼接运算的输出端连接初始姿态识别网络的输入端，得到初始姿态检测模型。

其中，初始特征提取网络、初始姿态特征网络和初始关键特征提取网络均包括多个卷积层。初始特征提取网络的卷积层个数、初始姿态特征网络的卷积层个数和初始关键特征提取网络的卷积层个数可以一样，也可以不一样。

在一些实施例中，初始姿态检测模型为卷积神经网络。

在一些实施例中，初始关键特征提取网络包括初始关键点检测网络和初始边缘轮廓检测网络。初始关键点检测网络和初始边缘轮廓检测网络均由卷积层、标准化处理层和池化层组合而成，初始关键点检测网络和初始边缘轮廓检测网络的结构不同。初始关键点检测网络的卷积层个数和初始边缘轮廓检测网络的卷积层个数可以一样，也可以不一样。

步骤702：姿态估计装置获取样本图像、样本姿态信息和样本关键信息；样本姿态信息表示样本图像中的样本物体的姿态信息；样本关键信息表示样本图像中的样本物体的关键点位置和边缘轮廓中至少一个。

姿态估计装置获取多张包含样本物体的样本图像，并获取每张样本图像对应的样本姿态信息和样本关键特征。其中，每张样本图像包括样本物体的图像特征。

需要说明的是，每个样本物体的姿态信息和目标物体的姿态信息可以都表示相同类型的点的姿态信息。其中，相同类型的点可以为中心点或左端点等。样本物体和目标物体都是真实存在的物体；样本物体和目标物体仅用于表示属于不同图像中的物体，样本物体是指样本图像中的物体，目标物体是指目标图像中的物体。

示例性地，每个样本物体的姿态信息包括样本物体在样本图像中的中心点的姿态信息，相应地，目标物体的姿态信息包括目标物体在目标图像中的中心点的姿态信息。

在一些实施例中，获取样本图像的方式可以包括：检测到用户的图像上传操作并响应；从默认的文件存储路径、该图像上传操作所指示的文件存储路径中，获取多张样本图像。或者，接收用户的图像采集操作并响应，控制相机对包含不同样本物体的各个场景进行拍摄，得到多张样本图像。

在一些实施例中，姿态估计装置获取包含所述样本物体的原始图像，可以对原始图像进行第一预处理，得到样本图像；其中，第一预处理可以包括光照变换、添加高斯噪声、运动模糊、旋转、平移、剪切、水平翻转和尺寸调整中至少一个。

姿态估计装置获取多张包含所述样本物体的原始图像；对每张原始图像进行第一预处理，得到一张样图图像，直至得到多张样本图像。或者，直接将多张原始图像作为多张样本图像。

需要说明的是，获取多张原始图像的方式，同理于上述获取多张样本图像的方式，此处不再赘述。

姿态估计装置对多张原始图像进行不同程度的第一预处理后，得到的多张样本图像的亮度、清晰度、样本物体变形程度等不同，进而提高了多张样本图像的多样性。

示例性地，当第一预处理包括光照变换时，姿态估计装置对多张原始图像进行不同的光照变换，以使得光照变换后的多张原始图像能够表示多种光照场景下采集的图像。也就是说，通过光照变换，提高了样本图像的多样性。

在一些实施例中，第一预处理可以包括尺寸调整。尺寸调整采用的预设图像尺寸取决于初始姿态检测模型对图像尺寸的要求，或者取决于初始姿态识别网络中的全连接层的维度。

需要说明的是，对原始图像进行尺寸调整的过程，与对目标原始图像进行尺寸调整的过程同理，此处不再赘述。

步骤703：将样本图像作为输入样本、将样本关键信息和样本姿态信息作为输出样本，对初始姿态检测模型进行训练，得到姿态检测模型。

姿态估计装置利用输入样本和输出样本，对初始姿态检测模型进行训练、误差计算和参数更新，得到姿态检测模型。其中，姿态检测模型包括特征提取网络、姿态特征提取网络、关键特征提取网络和姿态识别网络。

在一些实施例中，姿态估计装置可以从输入样本中取出训练输入样本和测试输入样本，从输出样本中取出训练输出样本和测试输出样本。训练输入样本和训练输出样本一一对应，测试输入样本和测试输出样本一一对应。利用训练输入样本和训练输出样本，对初始姿态检测模型进行训练，得到中间姿态检测模型。再输入测试输入样本，运行中间姿态检测模型，输出预测信息。可以将预测信息和测试输出样本代入到损失函数，计算得到预测误差。根据预测误差，利用梯度下降法修改中间姿态检测模型的参数。继续输入测试输入样本，运行中间姿态检查模型，直至迭代次数等于预设次数阈值，得到姿态检测模型。

其中，预测误差用于确定中间姿态检测模型的参数的修改幅度。

具体地，样本关键信息可以包括样本关键点位置和样本边缘轮廓；预测信息可以包括预测姿态信息、预测关键点位置和预测边缘轮廓。姿态估计装置将样本图像作为输入样本，将样本关键点位置、样本边缘轮廓和样本姿态信息作为输出样本；再利用输入样本和输出样本，对初始姿态检测模型进行训练，得到中间姿态检测模型；然后，将输入样本输入中间姿态检测模型，得到预测姿态信息、预测关键点位置和预测边缘轮廓；还利用损失函数，分别计算预测姿态信息和其对应的样本关键信息之间的姿态信息误差、预测关键点位置和其对应的样本关键点位置之间的关键点误差、以及预测边缘轮廓和其对应的样本边缘轮廓之间的边缘轮廓误差；根据姿态信息误差、关键点误差和边缘轮廓误差，利用梯度下降法修改中间姿态检测模型的参数，得到姿态检测模型。

其中，姿态估计装置根据姿态信息误差、关键点误差和边缘轮廓误差，利用梯度下降法修改中间姿态检测模型的参数之后，继续将输入样本输入中间姿态检测模型，得到预测姿态信息、预测关键点位置和预测边缘轮廓，直至迭代次数等于预设次数阈值，将当前修改参数得到的中间姿态检测模型，作为姿态检测模型。

其中，初始姿态检测模型包括初始特征提取网络、初始姿态特征提取网络、初始关键点检测网络、初始边缘轮廓检测网络和初始姿态识别网络。中间姿态检测模型包括中间特征提取网络、中间姿态特征提取网络、中间关键点检测网络、中间边缘轮廓检测网络和中间姿态识别网络。姿态信息误差用于确定中间姿态特征提取网络的参数的修改幅度；关键点误差用于确定中间关键点检测网络的参数的修改幅度；边缘轮廓误差用于确定中间边缘轮廓检测网络的参数的修改幅度。

需要说明的是，步骤701至步骤703可以在步骤501之前，也可以在步骤501之后，本申请实施例不做限制。

可以理解的是，为了提高获取姿态信息的准确度和鲁棒性，除了姿态特征图，还增加了和姿态信息相关联的关键特征图。相应地，在训练初始姿态检测模型时，输出样本除了样本姿态信息，还包括样本关键信息。以使得初始姿态检测模型在得到样本关键信息的过程中输出样本关键特征图，并将样本关键特征图用于获取姿态信息的过程中。

可以理解的是，上述方法可以由姿态估计装置实现。姿态估计装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

本申请实施例可以根据上述方法示例对上述姿态估计装置等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图8示出了上述实施例中所涉及的姿态估计装置的一种可能的结构示意图，该姿态估计装置800包括：图像获取模块801，用于获取包含目标物体的目标图像；特征提取模块802，用于对所述目标图像进行特征提取，得到所述目标物体的姿态特征和关键特征，所述关键特征包括关键点特征和边缘轮廓特征中的至少一个；姿态识别模块803，用于根据所述姿态特征和所述关键特征，得到所述目标物体的姿态信息。

在一种可能的实施方式中，姿态特征为姿态特征图，关键特征为关键特征图。特征提取模块802，具体用于：将目标图像输入特征提取网络，得到目标物体的基础属性；基础属性用于表征目标物体在目标图像中的表面结构信息；将基础属性分别输入姿态特征提取网络和关键特征提取网络，得到姿态特征图、关键特征图。

另一种可能的实施方式中，关键特征图包括关键点特征图和边缘轮廓特征图；关键特征提取网络包括关键点检测网络和边缘轮廓检测网络。特征提取模块802，具体用于将基础属性分别输入姿态特征提取网络、关键点检测网络和边缘轮廓检测网络，得到姿态特征图、关键点特征图和边缘轮廓特征图。

另一种可能的实施方式中，姿态识别模块803，具体用于：对姿态特征图和关键特征图进行拼接，得到组合特征图；将组合特征图输入姿态识别网络，得到姿态信息。

另一种可能的实施方式中，该装置还包括：模型获取模块804、样本获取模块805和模型训练模块806。其中，模型获取模块804，用于在所述对目标图像进行特征提取，得到目标物体的姿态特征和关键特征之前，获取初始姿态检测模型；初始姿态检测模型包括初始特征提取网络、初始姿态特征提取网络、初始关键特征提取网络和初始姿态识别网络。样本获取模块805，用于获取样本图像、样本姿态信息和样本关键信息；样本姿态信息表示样本图像中的样本物体的姿态信息；样本关键信息表示样本图像中的样本物体的关键点位置和边缘轮廓中至少一个。模型训练模块806，用于将样本图像作为输入样本、将样本关键信息和样本姿态信息作为输出样本，对初始姿态检测模型进行训练，得到姿态检测模型；姿态检测模型包括特征提取网络、姿态特征提取网络、关键特征提取网络和姿态识别网络。

另一种可能的实施方式中，样本获取模块805，具体用于获取包含样本物体的原始图像，并对原始图像进行第一预处理，得到样本图像。其中，第一预处理包括光照变换、添加高斯噪声、运动模糊、旋转、平移、剪切、水平翻转和尺寸调整中至少一个。

另一种可能的实施方式中，图像获取模块801，具体用于获取包含目标物体的目标原始图像，并对目标原始图像进行第二预处理，得到目标图像。其中，第二预处理包括运动模糊的复原、去噪和尺寸调整中至少一个。

另一种可能的实施方式中，样本关键信息包括样本关键点位置和样本边缘轮廓。模型训练模块806，具体用于：将样本图像作为输入样本，将样本关键点位置、样本边缘轮廓和样本姿态信息作为输出样本；利用输入样本和输出样本，对初始姿态检测模型进行训练，得到中间姿态检测模型；将输入样本输入中间姿态检测模型，得到预测姿态信息、预测关键点位置和预测边缘轮廓；利用损失函数，分别计算预测姿态信息和其对应的样本关键信息之间的姿态信息误差、预测关键点位置和其对应的样本关键点位置之间的关键点误差、以及预测边缘轮廓和其对应的样本边缘轮廓之间的边缘轮廓误差；根据所述姿态信息误差、所述关键点误差和所述边缘轮廓误差，计算预测误差；当预测误差大于预设误差阈值时，利用梯度下降法，修改中间姿态检测模型的参数，得到姿态检测模型。

当然，姿态估计装置800包括但不限于上述所列举的单元模块。例如，姿态估计装置800还可以包括存储模块。该存储模块可以用于保存上述样本图像。并且，上述功能单元的具体所能够实现的功能也包括但不限于上述实例所述的方法步骤对应的功能，姿态估计装置800的其他模块的详细描述可以参考其所对应方法步骤的详细描述，本申请实施例这里不再赘述。

在采用集成的单元的情况下，图9示出了上述实施例中所涉及的电子设备的一种可能的结构示意图。如图9所示，电子设备900包括有处理器901和存储器902。

可以理解，图9所示的电子设备900可以实现上述姿态估计装置800的所有功能。上述姿态估计装置800中各个模块的功能可以在电子设备900的处理器901中实现。例如，上述图像获取模块801、特征提取模块802、姿态识别模块803、模型获取模块804、样本获取模块805和模型训练模块806的功能可以集成在处理器901中实现。姿态估计装置800的存储模块相当于电子设备900的存储器902。

其中，处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请实施例提供的姿态估计方法。

在一些实施例中，电子设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上。在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不予限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或Wi-Fi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置电子设备900的前面板；显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位电子设备900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为电子设备900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器、陀螺仪传感器、压力传感器、指纹传感器、光学传感器以及接近传感器。

加速度传感器可以检测以电子设备900建立的坐标系的三个坐标轴上的加速度大小。陀螺仪传感器可以检测电子设备900的机体方向及转动角度，陀螺仪传感器可以与加速度传感器协同采集用户对电子设备900的3D动作。压力传感器可以设置在电子设备900的侧边框和/或显示屏905的下层。当压力传感器设置在电子设备900的侧边框时，可以检测用户对电子设备900的握持信号。指纹传感器用于采集用户的指纹。光学传感器用于采集环境光强度。接近传感器，也称距离传感器，通常设置在电子设备900的前面板。接近传感器用于采集用户与电子设备900的正面之间的距离。

本领域技术人员可以理解，图9中示出的结构并不构成对电子设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在采用集成的单元的情况下，图10示出了上述实施例中所涉及的服务器101的一种可能的结构示意图。该服务器101可以包括：处理器1001、存储器1002和通信模块1003。处理器1001用于对服务器的动作进行控制管理。存储器1002，用于保存服务器的程序代码和数据，如姿态估计方法，提取姿态特征图和关键特征图的方法等。通信模块1003用于支持服务器与其他网络实体的通信，以实现数据交互等功能，如该通信模块1003支持服务器与终端设备的通信，以实现数据交互功能。

其中，处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以包括AP，调制解调处理器，GPU，ISP，控制器，存储器，视频编解码器，DSP，基带处理器，和/或NPU等。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请实施例提供的姿态估计方法。

本申请实施例还提供一种计算机存储介质，该计算机存储介质包括计算机指令，当计算机指令在上述电子设备上运行时，使得该电子设备执行上述方法实施例中的各个功能或者步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在上述电子设备或上述服务器上运行时，使得上述电子设备或上述服务器执行上述方法实施例中的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种姿态估计方法，其特征在于，所述方法包括：

获取包含目标物体的目标图像；

将所述目标图像输入特征提取网络，得到所述目标物体的基础属性；所述基础属性用于表征所述目标物体在所述目标图像中的表面结构信息；

将所述基础属性分别输入姿态特征提取网络、关键点检测网络和边缘轮廓检测网络，得到姿态特征图、关键点特征图和边缘轮廓特征图；

对所述姿态特征图、所述关键点特征图和所述边缘轮廓特征图进行拼接，得到组合特征图；

将所述组合特征图输入姿态识别网络，得到姿态信息。

2.根据权利要求1所述的方法，其特征在于，在所述将所述目标图像输入特征提取网络，得到所述目标物体的基础属性之前，所述方法还包括：

获取初始姿态检测模型；所述初始姿态检测模型包括初始特征提取网络、初始姿态特征提取网络、初始关键点检测网络、初始边缘轮廓检测网络和初始姿态识别网络；

获取样本图像、样本姿态信息和样本关键信息；所述样本姿态信息表示所述样本图像中的样本物体的姿态信息；所述样本关键信息表示所述样本图像中的样本物体的关键点位置和边缘轮廓中至少一个；

将所述样本图像作为输入样本、将所述样本关键信息和所述样本姿态信息作为输出样本，对所述初始姿态检测模型进行训练，得到姿态检测模型；所述姿态检测模型包括所述特征提取网络、所述姿态特征提取网络、所述关键点检测网络、所述边缘轮廓检测网络和所述姿态识别网络。

3.根据权利要求2所述的方法，其特征在于，所述获取样本图像，包括：

获取包含所述样本物体的原始图像，并对所述原始图像进行第一预处理，得到所述样本图像；

其中，所述第一预处理包括光照变换、添加高斯噪声、运动模糊、旋转、平移、剪切、水平翻转和尺寸调整中至少一个。

4.根据权利要求1所述的方法，其特征在于，所述获取包含目标物体的目标图像，包括：

获取包含所述目标物体的目标原始图像，并对所述目标原始图像进行第二预处理，得到所述目标图像；

其中，所述第二预处理包括运动模糊的复原、去噪和尺寸调整中至少一个。

5.根据权利要求2所述的方法，其特征在于，所述样本关键信息包括样本关键点位置和样本边缘轮廓；所述将所述样本图像作为输入样本、将所述样本关键信息和所述样本姿态信息作为输出样本，对所述初始姿态检测模型进行训练，得到姿态检测模型，包括：

将所述样本图像作为输入样本，将所述样本关键点位置、所述样本边缘轮廓和所述样本姿态信息作为输出样本；

利用所述输入样本和所述输出样本，对所述初始姿态检测模型进行训练，得到中间姿态检测模型；

将所述输入样本输入所述中间姿态检测模型，得到预测姿态信息、预测关键点位置和预测边缘轮廓；

利用损失函数，分别计算所述预测姿态信息和其对应的样本关键信息之间的姿态信息误差、所述预测关键点位置和其对应的样本关键点位置之间的关键点误差、以及所述预测边缘轮廓和其对应的样本边缘轮廓之间的边缘轮廓误差；

根据所述姿态信息误差、所述关键点误差和所述边缘轮廓误差，利用梯度下降法修改所述中间姿态检测模型的参数，得到所述姿态检测模型。

6.一种姿态估计装置，其特征在于，所述装置包括：

图像获取模块，用于获取包含目标物体的目标图像；

特征提取模块，用于将所述目标图像输入特征提取网络，得到所述目标物体的基础属性；所述基础属性用于表征所述目标物体在所述目标图像中的表面结构信息；将所述基础属性分别输入姿态特征提取网络、关键点检测网络和边缘轮廓检测网络，得到姿态特征图、关键点特征图和边缘轮廓特征图；

姿态识别模块，用于对所述姿态特征图、所述关键点特征图和所述边缘轮廓特征图进行拼接，得到组合特征图；将所述组合特征图输入姿态识别网络，得到姿态信息。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

模型获取模块，用于在对所述目标图像进行特征提取，得到所述目标物体的姿态特征和关键特征之前，获取初始姿态检测模型；所述初始姿态检测模型包括初始特征提取网络、初始姿态特征提取网络、初始关键点检测网络、初始边缘轮廓检测网络和初始姿态识别网络；

样本获取模块，用于获取样本图像、样本姿态信息和样本关键信息；所述样本姿态信息表示所述样本图像中的样本物体的姿态信息；所述样本关键信息表示所述样本图像中的样本物体的关键点位置和边缘轮廓中至少一个；

模型训练模块，用于将所述样本图像作为输入样本、将所述样本关键信息和所述样本姿态信息作为输出样本，对所述初始姿态检测模型进行训练，得到姿态检测模型；所述姿态检测模型包括所述特征提取网络、所述姿态特征提取网络、所述关键点检测网络、所述边缘轮廓检测网络和所述姿态识别网络。

8.根据权利要求7所述的装置，其特征在于，

所述样本获取模块，具体用于获取包含所述样本物体的原始图像，并对所述原始图像进行第一预处理，得到所述样本图像；

9.根据权利要求6所述的装置，其特征在于，

所述图像获取模块，具体用于获取包含所述目标物体的目标原始图像，并对所述目标原始图像进行第二预处理，得到所述目标图像；

10.根据权利要求7所述的装置，其特征在于，所述样本关键信息包括样本关键点位置和样本边缘轮廓；

所述模型训练模块，具体用于：

11.一种电子设备，其特征在于，包括：处理器和用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，使得所述电子设备执行如权利要求1-5中任一项所述的姿态估计方法。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令，其特征在于，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-5中任一项所述的姿态估计方法。