CN112927291A

CN112927291A - 三维物体的位姿确定方法、装置及电子设备和存储介质

Info

Publication number: CN112927291A
Application number: CN202110233838.5A
Authority: CN
Inventors: 陈仕创; 陈建冲; 周毅
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-08
Anticipated expiration: 2041-03-03
Also published as: CN112927291B

Abstract

本申请实施例公开了一种三维物体的位姿确定方法、装置及电子设备和存储介质，在获取若干帧待识别图像后，首选从中筛选出至少一帧包含目标三维物体的目标待识别图像，不同的目标待识别图像中目标三维物体具有相同的目标空间信息；然后利用筛选出的至少一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定目标三维物体的位姿；目标图像集中的目标图像通过对目标三维物体的三维数字模型进行采样得到，不同的目标图像中目标三维物体的位姿不同，各帧目标图像中目标三维物体具有上述目标空间信息。既减少用于匹配的目标图像的数量和信息量又减少了与目标图像进行匹配的待识别图像的数量，从而降低了三维物体的位姿确定方法的复杂度。

Description

三维物体的位姿确定方法、装置及电子设备和存储介质

技术领域

本申请涉及信息处理技术领域，更具体地说，涉及一种三维物体的位姿确定方法、装置及电子设备和存储介质。

背景技术

目前，三维物体识别已广泛应用于各行各业，比如，机器人定位，增强现实(Augmented Reality，AR)，虚拟现实(Virtual Reality，VR)，机器人巡检，无人驾驶等等。作为三维物体识别应用的示例，通过识别真实环境中的三维物体可以构建虚拟场景实现对真实场景的模拟。

要模拟真实场景，获得真实场景中的三维物体的位姿是三维物体识别的一个重要方面，目前在确定三维物体的位姿时，主要方式是：预先存储三维物体在各个方向各个距离下的目标图像，当需要对真实环境中的三维物体进行识别时，对真实环境中的三维物体在各个方向分别采集图像，得到若干待识别图像，然后将各帧待识别图像分别与各帧目标图像分别进行匹配，找到与各帧待识别图像中的三维物体匹配的目标图像，将找到的目标图像对应的三维物体的位姿确定为三维物体的位姿。

显然，现有的三维物体的位姿确定方法，用于匹配的目标图像和与目标图像进行匹配的待识别图像的数量均比较多，导致三维物体的位姿确定方法的复杂度较高。

发明内容

本申请的目的是提供一种三维物体的位姿确定方法、装置及电子设备和存储介质，包括如下技术方案：

一种三维物体的位姿确定方法，所述方法包括：

获取若干帧待识别图像；

根据对每一帧待识别图像分别进行区域检测的检测结果，在所述若干帧待识别图像中确定至少一帧目标待识别图像，其中，每一帧目标待识别图像中均包含目标三维物体，不同的目标待识别图像中所述目标三维物体具有相同的目标空间信息；

将每一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定所述目标三维物体的位姿；其中，所述目标图像集中的目标图像通过对所述目标三维物体的三维数字模型进行采样得到，不同的目标图像中所述目标三维物体的位姿不同，各帧目标图像中所述目标三维物体具有所述目标空间信息。

上述方法，优选的，不同的目标待识别图像中所述目标三维物体具有相同的目标空间信息，包括：

不同的目标待识别图像中，所述目标三维物体具有相同的目标深度信息。

上述方法，优选的，所述根据对每一帧待识别图像分别进行区域检测的检测结果，在所述若干帧待识别图像中确定至少一帧目标待识别图像，包括：

对每一帧待识别图像分别进行区域检测，获得每一帧待识别图像对应的检测结果；

将对应的检测结果为检测到所述目标三维物体所在区域的待识别图像确定为候选待识别图像；

根据每一帧候选待识别图像中的所述目标三维物体的深度信息，在所述多帧候选待识别图像中确定至少一帧目标待识别图像；其中，每一帧目标待识别图像中所述目标三维物体具有所述目标深度信息。

上述方法，优选的，所述将每一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定所述目标三维物体的位姿，包括：

对于每一帧目标待识别图像，将该帧目标待识别图像中的所述目标三维物体所在区域分别与每一帧目标图像分别进行匹配，确定与所述目标三维物体所在区域匹配的目标图像；

获得与所述目标三维物体所在区域匹配的目标图像中所述目标三维物体的位姿，作为该帧目标待识别图像中所述目标三维物体的位姿。

上述方法，优选的，所述将该帧目标待识别图像中的所述目标三维物体所在区域分别与每一帧目标图像分别进行匹配，包括：

根据该帧目标待识别图像中所述目标三维物体所在区域的第一梯度特征向量，以及每一帧目标图像的第二梯度特征向量，计算该帧目标待识别图像与每一帧目标图像的匹配度；

根据该帧目标待识别图像与各帧目标图像的匹配度确定与所述目标三维物体所在区域匹配的目标图像。

上述方法，优选的，对每一帧待识别图像进行区域检测的过程，包括：对于每一帧待识别图像，

利用智能图像引擎的卷积模块对该帧待识别图像进行多尺度特征提取，得到多尺度特征图；其中，所述卷积模块中的卷积运算为可分离卷积运算；

利用所述智能图像引擎的融合模块将相邻尺度的特征图进行融合，得到多个融合特征图；

利用所述智能图像引擎的预测模块对每一融合特征图和最小尺度的特征图分别进行区域预测，得到每一融合特征图对应的区域预测结果，以及所述最小尺度的特征图对应的区域预测结果；

利用所述智能图像引擎的输出模块从各融合特征图对应的区域预测结果和最小尺度的特征图对应的区域预测结果中确定该帧待识别图像对应的检测结果。

上述方法，优选的，所述智能图像引擎通过如下方法训练得到：

利用所述智能图像引擎对样本图像进行处理，得到所述样本图像对应的检测结果和所述样本图像的图像分割结果；所述检测结果表征所述样本图像中的目标三维物体的区域，所述图像分割结果表征所述样本图像中的目标三维物体的轮廓；

以所述样本图像对应的检测结果趋近于所述样本图像中标注的三维物体所在的区域，所述样本图像的图像分割结果趋近于所述样本图像对应的真实图像分割结果为目标，对所述智能图像引擎的参数进行更新。

一种三维物体的位姿确定装置，包括：

获取模块，用于获取若干帧待识别图像；

目标待识别图像确定模块，用于根据对每一帧待识别图像分别进行区域检测的检测结果，在所述若干帧待识别图像中确定至少一帧目标待识别图像，其中，每一帧目标待识别图像中均包含目标三维物体，不同的目标待识别图像中所述目标三维物体具有相同的目标空间信息；

位姿确定模块，用于将每一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定所述目标三维物体的位姿；其中，所述目标图像集中的目标图像通过对所述目标三维物体的三维数字模型进行采样得到，不同的目标图像中所述目标三维物体的位姿不同，各帧目标图像中所述目标三维物体具有所述目标空间信息。

一种信息处理设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，实现如上任一项所述的三维物体的位姿确定方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的三维物体的位姿确定方法的各个步骤。

通过以上方案可知，本申请提供的一种三维物体的位姿确定方法、装置及电子设备和存储介质，在获取若干帧待识别图像后，首选从中筛选出至少一帧包含目标三维物体的目标待识别图像，其中，不同的目标待识别图像中目标三维物体具有相同的目标空间信息；然后利用筛选出的至少一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定目标三维物体的位姿；其中，目标图像集中的目标图像通过对目标三维物体的三维数字模型进行采样得到，不同的目标图像中目标三维物体的位姿不同，各帧目标图像中目标三维物体具有上述目标空间信息。

也就是说，本申请中，目标图像集中的目标图像中仅包含目标三维物体，而且，不同的目标图像中的目标三维物体具有相同的目标空间信息，从而减少了用于匹配的目标图像的数量；在获取若干帧待识别图像后，从中筛选出至少一帧目标待识别图像与目标图像集中的目标图像进行匹配，从而既减少了用于匹配的目标图像的数量又减少了与目标图像进行匹配的待识别图像的数量，而且目标图像中不包括环境背景，从而降低了三维物体的位姿确定方法的计算复杂度。另外，由于目标待识别图像和目标图像中的目标三维物体具有相同的目标空间信息，且删除了目标图像中的环境背景，也就避免了计算过程中目标图像中的环境背景的干扰，从而避免了因环境背景而导致的虚警误识别的概率。因而，基于本申请在保证三维物体的位姿确定方法的精度的同时降低了三维物体的位姿确定方法的复杂度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的三维物体的位姿确定方法的一种实现流程图；

图1b为本申请实施例提供的对目标三维物体的三维数字模型在某一个方向上进行渲染得到的目标图像的一种示例图；

图2为本申请实施例提供的根据对每一帧待识别图像分别进行区域检测的检测结果，在若干帧待识别图像中确定至少一帧目标待识别图像的一种实现流程图；

图3a为本申请实施例提供的将每一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定目标三维物体的位姿的一种实现流程图；

图3b为本申请实施例提供的对某一帧目标图像进行梯度提取的示例图；

图4为本申请实施例提供的对于每一帧待识别图像，对该帧待识别图像进行区域检测的一种实现流程图；

图5为本申请实施例提供的三维物体的位姿确定装置的一种结构示意图；

图6为本申请实施例提供的信息处理设备的硬件结构框图的示例图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例，能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更好的了解本申请的方案与已有方案的区别，这里首先对已有方案中的三维物体的位姿确定方法进行详细说明，已有的确定三维物体的位姿的方法包括：

预先存储目标图像集，目标图像集中的图像是针对处于复杂环境中的三维物体(为便于叙述，记为三维物体A)在各个方向各个距离下采集的图像，因此，目标图像集中，不同的目标图像中三维物体A的位姿不同，而且各目标图像中的三维物体A的深度信息不同，各个目标图像中除了包含三维物体A外，还会包含环境背景。目标图像(为便于叙述，记为目标图像P)对应的三维物体A的位姿是指获取目标图像P时三维物体A相对于镜头(即针对三维物体A采集图像的图像采集器的镜头)的位置和姿态。当需要对真实环境中的三维物体A进行识别时，对真实环境中的三维物体A在各个方向分别采集图像，得到若干帧待识别图像，然后将各帧待识别图像分别与各帧目标图像分别进行匹配，找到与各帧待识别图像中的三维物体A匹配的目标图像，将找到的目标图像对应的三维物体A的位姿确定为待识别图像中三维物体A的位姿。

显然，现有的三维物体的位姿确定方法，用于匹配的目标图像和与目标图像进行匹配的待识别图像的数量均比较多，而且每一帧目标图像中包含的信息量较大(包括三维物体的信息和环境背景的信息)，导致三维物体的位姿确定方法的计算复杂度较高。

为了降低三维物体的位姿确定方法的计算复杂度，提出本申请。

本申请实施例提供的三维物体的位姿确定方法的一种实现流程图如图1a所示，可以包括：

步骤S101：获取若干帧待识别图像。

该若干帧待识别图像是针对真实环境中的目标三维物体在各个方向采集的图像，在每一个方向针对目标三维物体进行采集时，镜头相对于目标三维物体的距离不做具体限定。

可选的，在每一个方向上，可以针对目标三维物体采集多帧待识别图像，在同一方向上采集不同的待识别图像时，镜头距离目标三维物体的距离不同。

步骤S102：根据对每一帧待识别图像分别进行区域检测的检测结果，在上述若干帧待识别图像中确定至少一帧目标待识别图像，其中，每一帧目标待识别图像中均包含目标三维物体，不同的目标待识别图像中目标三维物体具有相同的目标空间信息。

对于每帧待识别图像，本申请不是进行目标检测，而是进行区域检测(比如，显著性物体检测)，根据对各帧待识别图像进行区域检测的区域检测结果，在步骤S101获取的若干帧待识别图像中筛选出部分待识别图像作为目标待识别图像。即，上述至少一帧目标待识别图像为上述若干帧待识别图像中的部分待识别图像。所筛选出的每一帧目标待识别图像中，均包含目标三维物体，且不同的目标待识别图像中目标三维物体具有相同的目标空间信息。也就是说，本申请在获取若干帧待识别图像后，不是将各帧待识别图像分别与目标图像集中的各帧目标图像分别进行匹配，而是从若干帧待识别图像中筛选出部分待识别图像，仅将该部分待识别图像与目标图像集中的各帧目标图像分别进行匹配，从而减少了与目标图像匹配的待识别图像的数量。

可选的，目标空间信息可以为目标深度信息，具体的，不同的目标待识别图像中目标三维物体具有相同的目标空间信息可以为：不同的目标待识别图像中目标三维物体的深度信息在同一深度范围内。

当然，本申请中，目标空间信息并不局限于深度信息，也可以为其它空间信息，比如目标大小信息，相应的，不同的目标待识别图像中目标三维物体具有相同的目标空间信息可以为：不同的目标待识别图像中目标三维物体的大小在同一预设范围内。

步骤S103：将每一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定目标三维物体的位姿；其中，目标图像集中的目标图像通过对目标三维物体的三维数字模型进行采样得到，不同的目标图像中目标三维物体的位姿不同，各帧目标图像中所述目标三维物体具有所述目标空间信息。

本申请在获取目标图像集时，是通过对无环境背景的目标三维物体的三维数字模型进行采样得到的，具体可以通过对三维数字模型在不同方向下分别进行渲染，得到目标三维物体在各个方向下的二维图像，每一个方向下的二维图像作为一个目标图像。其中，在每个方向下对三维数字模型进行渲染时，可以先调整三维数字模型的大小(即对三维数字模型进行缩放)，使得三维数字模型的大小与目标空间信息相适应，从而使得渲染得到的目标图像中的三维物体具有目标空间信息。

以目标三维物体为玩具小鸭子为例，如图1b所示，为本申请实施例提供的对目标三维物体的三维数字模型在某一个方向上进行渲染得到的目标图像的一种示例图，显然，该目标图像中，只有目标三维物体，而不包含环境背景，从而降低了目标图像中的信息量，即删除了目标图像中的环境背景信息，也就避免了目标图像中环境背景的干扰。

本申请在获取若干帧待识别图像后，首选从中筛选出至少一帧包含目标三维物体的目标待识别图像，其中，不同的目标待识别图像中目标三维物体具有相同的目标空间信息；然后利用筛选出的至少一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定目标三维物体的位姿；其中，目标图像集中的目标图像通过对目标三维物体的三维数字模型进行采样得到，不同的目标图像中目标三维物体的位姿不同，各帧目标图像中目标三维物体具有上述目标空间信息。

在一可选的实施例中，上述根据对每一帧待识别图像分别进行区域检测的检测结果，在若干帧待识别图像中确定至少一帧目标待识别图像的一种实现流程图如图2所示，可以包括：

步骤S201：对每一帧待识别图像分别进行区域检测，获得每一帧待识别图像对应的检测结果。

可选的，可以利用智能图像引擎对每一帧待识别图像分别进行区域检测。该智能图像引擎可以为轻量级卷积神经网络，从而使得本申请的三维物体的位姿确定方法可以适用于移动端，比如智能手机等。

对于每一帧待识别图像，对该待识别图像进行区域检测具体可以为对该待识别图像进行显著性物体检测。由于显著性物体检测并不关注物体具体是什么，而是关注图像中的视觉显著性区域，因此，智能图像引擎训练好以后，适用范围较广，并不局限于检测某一类或某几类物体，而是可以检测任意类型的物体。

由于在针对真实环境中的目标三维物体在任意一个方向采集图像时，镜头通常是正对目标三维物体所在区域的，因此，待识别图像中的显著性区域通常是目标三维物体所在的区域，但是，由于在任意一个方向上针对三维物体进行采集时，受目标三维物体所处环境(比如遮挡物、光照、阴影)的影响，使得待识别图像中目标三维物体所在区域存在遮挡(全部遮挡或部分遮挡)或目标三维物体所在区域显示异常(即没有正常显示目标三维物体)，此时则无法检测到目标三维物体，也就是无法检测到显著性区域。因此，对于每一帧待识别图像，其对应的检测结果为以下两种情况之一：检测到显著性物体(也就是目标三维物体)，未检测到显著性物体。

当检测到显著性物体时，可以通过矩形框将检测到的显著性物体进行标记，该矩形框是能够包围检测到的显著性物体的最小矩形框。

步骤S202：将对应的检测结果为检测到目标三维物体所在区域的待识别图像确定为候选待识别图像。

本申请中，在对各待识别图像进行区域检测后，根据检测结果筛选出候选待识别图像，候选待识别图像即为检测结果为检测到显著性物体(即目标三维物体)所在区域的待识别图像。

步骤S203：根据每一帧候选待识别图像中的目标三维物体的深度信息，在多帧候选待识别图像中确定至少一帧目标待识别图像；其中，每一帧目标待识别图像中目标三维物体具有目标深度信息。

可选的，待识别图像中目标三维物体的深度信息可以通过双目测距原理实现，基于此，在针对真实环境中的目标三维物体采集图像时，可以采用双目摄像头进行采集，这样可以根据两个摄像头在同一时间采集的两帧待识别图像计算出待识别图像中目标三维物体的深度信息。其中，步骤S101中获取的若干帧待识别图像为同一摄像头采集的待识别图像。

获取确定的候选待识别图像后，根据候选待识别图像中的显著性区域(也就是目标三维物体所在的区域)的深度信息，确定目标待识别图像，具体为：将显著性区域的深度信息为目标深度信息的候选待识别图像确定为目标待识别图像。

在一可选的实施例中，可以通过滑窗的方法将每一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定目标三维物体的位姿，具体实现方式可以为：

对于每一帧目标待识别图像，将预设大小的矩形窗口在目标待识别图像上滑动，每滑动到一个位置，分别计算该矩形窗口覆盖区域与目标图像集中的各帧目标图像的匹配度，在计算完目标待识别图像中每一个矩形窗口覆盖区域与目标图像集中的各帧目标图像的匹配度后，确定最大匹配度对应的矩形窗口覆盖区域和目标图像，将最大匹配度对应的目标图像对应的目标三维物体的位姿确定为该帧目标待识别图像中目标三维物体的位姿。

上述实施例在计算目标待识别图像与目标图像的匹配度时，每一个滑动窗口所在位置均需要计算与目标图像的匹配度，这种实现方式一方面计算复杂度高，另一方面，由于目标待识别图像中环境背景的影响，容易出现一定数量的虚警误识别。为了进一步降低计算复杂度和虚警误识别的概率，

在一可选的实施例中，上述将每一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定目标三维物体的位姿的一种实现流程图如图3a所示，可以包括：

步骤S301：对于每一帧目标待识别图像，将该帧目标待识别图像中的目标三维物体所在区域分别与每一帧目标图像分别进行匹配，确定与目标三维物体所在区域匹配的目标图像。

步骤S302：获得与目标三维物体所在区域匹配的目标图像对应的目标三维物体的位姿，作为该帧目标待识别图像中目标三维物体的位姿。

本实施例中，不再利用滑动窗口进行匹配，而是直接用检测到的显著性物体所在区域，也就是只用目标三维物体所在区域与各帧目标图像分别进行匹配，从而减少了目标待识别图像中与目标图像匹配的区域的数量，从而减少了计算复杂度，另外，由于目标三维物体所在区域中，环境背景信息较少，因而，减少了待识别图像中环境背景的干扰，从而进一步降低了虚警误识别的概率。

在一可选的实施例中，上述将该帧目标待识别图像中的目标三维物体所在区域分别与每一帧目标图像分别进行匹配的一种实现方式可以为：

根据该帧目标待识别图像中目标三维物体所在区域的梯度特征向量(为便于叙述，记为第一梯度特征向量)，以及每一帧目标图像的梯度特征向量(为便于叙述，记为第二梯度特征向量)，计算该帧目标待识别图像与每一帧目标图像的匹配度。

本申请实施例中，提取目标待识别图像中目标三维物体所在区域的梯度作为目标待识别图像的特征向量，即第一梯度特征向量；对于每一帧目标图像，提取该帧目标图像的梯度作为目标图像的特征向量，即第二梯度特征向量。如图3b所示，为本申请实施例提供的对某一帧目标图像进行梯度提取的示例图，该示例中的各个箭头表示从目标图像中提取的梯度的方向，r_i表示第i个梯度。

对于每一帧目标图像，可以计算第一梯度特征向量和该帧目标图像的第二梯度特征向量的距离，用计算得到的距离衡量该帧目标待识别图像与该帧目标图像的匹配度。比如，可以计算第一梯度特征向量和该帧目标图像的第二梯度特征向量的欧式距离，以该欧式距离衡量该帧目标待识别图像与该帧目标图像的匹配度，欧式距离越小，该帧目标待识别图像与该帧目标图像的匹配度越高，欧式距离越大，该帧目标待识别图像与该帧目标图像的匹配度越低。

根据该帧目标待识别图像与各帧目标图像的匹配度确定与目标三维物体所在区域匹配的目标图像。

可以将最大匹配度对应的目标图像中目标三维物体对应的位姿确定为该帧目标待识别图像中目标三维物体的位姿。

在一可选的实施例中，对于每一帧待识别图像，对该帧待识别图像进行区域检测的一种实现流程图如图4所示，可以包括：

步骤S401：利用智能图像引擎的卷积模块对该帧待识别图像进行多尺度特征提取，得到多尺度特征图；

其中，卷积模块中的卷积运算为可分离卷积运算。卷积模块可以由多层卷积层构成，不同的卷积层输出不同尺度的特征向量，各个卷积层均为深度可分离卷积层。深度可分离卷积层的结构可以采用已有的深度可分离卷积层的结构，这里不再详述。

步骤S402：利用智能图像引擎的融合模块将相邻尺度的特征图进行融合，得到多个融合特征图。

本申请实施例中，可以将最后三个卷积层输出的三个尺度的特征图中的相邻尺度的特征图进行融合，得到两个融合特征图。可选的，对于两个相邻尺度的特征图，分别记为第一尺度的特征图1和第二尺度的特征图2，其中，第一尺度小于第二尺度，可以先对第一尺度的特征图1进行反卷积，得到第二尺度的特征图1，然后将第二尺度的特征图1和第二尺度的特征图2在深度上进行叠加，得到融合特征图。由于是将第二尺度的特征图1和第二尺度的特征图2在深度上进行叠加，因此，融合特征图的尺度也为第二尺度，但是，融合特征图的深度却是第一尺度的特征图1的深度和第二尺度的特征图2的深度之和。特征图的深度是指特征图的通道数。比如，特征图的尺寸是：H×W×C，其中，H是指特征图的高，W是指特征图的宽，C是指特征图的通道数(即深度)。

步骤S403：利用智能图像引擎的预测模块对每一融合特征图和最小尺度的特征图分别进行区域预测，得到每一融合特征图对应的区域预测结果，以及最小尺度的特征图对应的区域预测结果。

以将最后三个卷积层输出的三个尺度的特征图中的相邻尺度的特征图进行融合，得到两个融合特征图(分别记为第一融合特征图和第二融合特征图)为例，本申请是利用第一融合特征图进行区域预测，得到第一区域预测结果，利用第二融合特征图进行区域预测，得到第二区域预测结果，利用最小尺度的特征图进行区域预测，得到第三区域预测结果。

步骤S404：利用智能图像引擎的输出模块从各融合特征图对应的区域预测结果和最小尺度的特征图对应的区域预测结果中确定该帧待识别图像对应的检测结果。

区域预测结果通常是以概率的形式输出，因此，可以选择概率最高的区域预测结果作为该帧待识别图像对应的检测结果。

大尺度特征的纹理比较丰富，语音信息比较弱，而小尺度特征的语义信息比较丰富，但纹理比较弱，通过将不同尺度特征的融合，可以有效的提高显著性物体的检测精度。

在一可选的实施例中，为了进一步提高显著性物体的检测精度，在对智能图像引擎进行训练时，可以引入图像分割相关的信息，基于此，本申请实施例中，智能图像引擎可以通过如下方法训练得到：

利用智能图像引擎对样本图像进行处理，得到样本图像对应的检测结果和样本图像的图像分割结果；其中，检测结果表征样本图像中的目标三维物体的区域，图像分割结果表征样本图像中的目标三维物体的轮廓。

以样本图像对应的检测结果趋近于样本图像中标注的三维物体所在的区域，样本图像的图像分割结果趋近于样本图像对应的真实图像分割结果为目标，对智能图像引擎的参数进行更新。

可选的，上述利用智能图像引擎对样本图像进行处理，得到样本图像对应的检测结果和样本图像的图像分割结果的一种实现方式可以为：

利用智能图像引擎的卷积模块对样本图像进行多尺度特征提取，得到样本图像的多尺度特征图。

利用智能图像引擎的融合模块将样本图像的相邻尺度的特征图进行融合，得到样本图像的多个融合特征图。

利用智能图像引擎的第一预测模块对样本图像的每一融合特征图和最小尺度的特征图分别进行候选区域预测，得到样本图像的每一融合特征图对应的候选区域预测结果，以及所述最小尺度的特征图对应的候选区域预测结果。

利用智能图像引擎的第二预测模块对样本图像的最大尺度的特征图进行轮廓预测，得到样本图像的图像分割结果；可选的，第一预测模块和第二预测模块可以集成在同一个预测模块中。

利用智能图像引擎的输出模块从样本图像的各融合特征图对应的候选区域预测结果和最小尺度的特征图对应的候选区域预测结果中确定样本图像对应的检测结果并输出；

利用智能图像引擎的输出模块输出上述样本图像对应的图像分割结果。

与方法实施例相对应，本申请实施例还提供一种三维物体的位姿确定装置，本申请实施例提供的三维物体的位姿确定装置的一种结构示意图如图5所示，可以包括：

获取模块501，目标待识别图像确定模块502和位姿确定模块503；其中，

获取模块501用于获取若干帧待识别图像；

目标待识别图像确定模块502用于根据对每一帧待识别图像分别进行区域检测的检测结果，在所述若干帧待识别图像中确定至少一帧目标待识别图像，其中，每一帧目标待识别图像中均包含目标三维物体，不同的目标待识别图像中所述目标三维物体具有相同的目标空间信息；

位姿确定模块503用于将每一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定所述目标三维物体的位姿；其中，所述目标图像集中的目标图像通过对所述目标三维物体的三维数字模型进行采样得到，不同的目标图像中所述目标三维物体的位姿不同，各帧目标图像中所述目标三维物体具有所述目标空间信息。

本申请实施例提供的三维物体的位姿确定装置，在获取若干帧待识别图像后，首选从中筛选出至少一帧包含目标三维物体的目标待识别图像，其中，不同的目标待识别图像中目标三维物体具有相同的目标空间信息；然后利用筛选出的至少一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定目标三维物体的位姿；其中，目标图像集中的目标图像通过对目标三维物体的三维数字模型进行采样得到，不同的目标图像中目标三维物体的位姿不同，各帧目标图像中目标三维物体具有上述目标空间信息。

也就是说，本申请中，目标图像集中的目标图像中仅包含目标三维物体，而且，不同的目标图像中的目标三维物体具有相同的目标空间信息，从而减少了用于匹配的目标图像的数量；在获取若干帧待识别图像后，从中筛选出至少一帧目标待识别图像与目标图像集中的目标图像进行匹配，从而既减少了用于匹配的目标图像的数量又减少了与目标图像进行匹配的待识别图像的数量，而且目标图像中不包含环境背景，从而降低了三维物体的位姿确定方法的计算复杂度。另外，由于目标待识别图像和目标图像中的目标三维物体具有相同的目标空间信息，且删除了目标图像中的环境背景，也就避免了计算过程中目标图像中的环境背景的干扰，从而避免了因环境背景而导致的虚警误识别的概率。因而，基于本申请在保证三维物体的位姿确定方法的精度的同时降低了三维物体的位姿确定方法的复杂度。

在一可选的实施例中，不同的目标待识别图像中所述目标三维物体具有相同的目标空间信息，包括：

在一可选的实施例中，所述目标待识别图像确定模块502，包括：

区域检测单元，用于对每一帧待识别图像分别进行区域检测，获得每一帧待识别图像对应的检测结果；

候选图像确定单元，将对应的检测结果为检测到所述目标三维物体所在区域的待识别图像确定为候选待识别图像；

目标图像确定单元，用于根据每一帧候选待识别图像中的所述目标三维物体的深度信息，在所述多帧候选待识别图像中确定至少一帧目标待识别图像；其中，每一帧目标待识别图像中所述目标三维物体具有所述目标深度信息。

在一可选的实施例中，所述位姿确定模块503，包括：

匹配单元，用于对于每一帧目标待识别图像，将该帧目标待识别图像中的所述目标三维物体所在区域分别与每一帧目标图像分别进行匹配，确定与所述目标三维物体所在区域匹配的目标图像；

确定单元，用于获得与所述目标三维物体所在区域匹配的目标图像中所述目标三维物体的位姿，作为该帧目标待识别图像中所述目标三维物体的位姿。

在一可选的实施例中，所述匹配单元，包括：

计算子单元，用于根据该帧目标待识别图像中所述目标三维物体所在区域的第一梯度特征向量，以及每一帧目标图像的第二梯度特征向量，计算该帧目标待识别图像与每一帧目标图像的匹配度；

确定子单元，用于根据该帧目标待识别图像与各帧目标图像的匹配度确定与所述目标三维物体所在区域匹配的目标图像。

在一可选的实施例中，目标待识别图像确定模块502对每一帧待识别图像进行区域检测时，具体用于：对于每一帧待识别图像，

上述过程可以由区域检测单元来实现。

在一可选的实施例中，所述还包括训练模块，用于：

与方法实施例相对应，本申请还提供一种信息处理设备，如终端、服务器等。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑等移动端，也可以是台式计算机等，但并不局限于此。在一些实施例中，上述终端或服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

本申请实施例提供的信息处理设备的硬件结构框图的示例图如图6所示，可以包括：

处理器1，通信接口2，存储器3和通信总线4；

其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，处理器1具体用于执行存储器3中存储的计算机程序，以执行如下步骤：

获取若干帧待识别图像；

可选的，所述计算机程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该存储介质可存储有适于处理器执行的计算机程序，所述计算机程序用于：

获取若干帧待识别图像；

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种三维物体的位姿确定方法，所述方法包括：

获取若干帧待识别图像；

2.根据权利要求1所述的方法，不同的目标待识别图像中所述目标三维物体具有相同的目标空间信息，包括：

3.根据权利要求2所述的方法，所述根据对每一帧待识别图像分别进行区域检测的检测结果，在所述若干帧待识别图像中确定至少一帧目标待识别图像，包括：

4.根据权利要求1所述的方法，所述将每一帧目标待识别图像与目标图像集中的各帧目标图像分别进行匹配，以确定所述目标三维物体的位姿，包括：

5.根据权利要求4所述的方法，所述将该帧目标待识别图像中的所述目标三维物体所在区域分别与每一帧目标图像分别进行匹配，包括：

6.根据权利要求3所述的方法，对每一帧待识别图像进行区域检测的过程，包括：对于每一帧待识别图像，

7.根据权利要求6所述的方法，所述智能图像引擎通过如下方法训练得到：

8.一种三维物体的位姿确定装置，包括：

获取模块，用于获取若干帧待识别图像；

9.一种信息处理设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，实现如权利要求1-7中任一项所述的三维物体的位姿确定方法的各个步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的三维物体的位姿确定方法的各个步骤。