CN112381879A

CN112381879A - 基于图像和三维模型的物体姿态估计方法、系统及介质

Info

Publication number: CN112381879A
Application number: CN202011278095.5A
Authority: CN
Inventors: 张键驰; 贾奎; 陈轲
Original assignee: South China University of Technology SCUT
Current assignee: Cross Dimension Shenzhen Intelligent Digital Technology Co ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-19
Also published as: WO2022100379A1

Abstract

本发明公开了一种基于图像和三维模型的物体姿态估计方法、系统及介质，其中方法包括以下步骤：获取目标物体的图像数据；对所述图像数据进行特征提取，采用物体姿态估计模型对提取到的特征进行映射，获取相似度最高的特征对应的视角作为估计的目标物体位姿；其中，所述物体姿态估计模型用于将所述目标物体的图像特征映射到相似度最高的三维模型多视角特征的卷积神经网络。本发明无需借助于深度图像，更加充分地利用目标物体的三维模型，可以更好地计算被遮挡的目标物体，修改目标物体时不需要重新训练整个网络，提高了物体位姿估计技术的泛化性、精准度和识别速度，可广泛应用于智能信息处理技术领域。

Description

基于图像和三维模型的物体姿态估计方法、系统及介质

技术领域

本发明涉及智能信息处理技术领域，尤其涉及一种基于图像和三维模型的物体姿态估计方法、系统及介质。

背景技术

物体姿态估计技术可以估计出场景中目标物体的类别、三维位移量和三维朝向。这项技术可以极大地加强VR、汽车和机器人对场景的理解，对于诸如增强现实、自动驾驶和机器人操作等应用非常重要。因此，物体姿态估计技术可以说是制造业由传统模式走向智能模型的一个重要突破口。

尽管深度学习技术的出现让物体姿态估计领域取得了很大的进展，而目前主流的深度网络要么只用到了目标物体三维模型的部分关键点帮助估计，要么只通过反向传播，利用损失函数间接地利用物体的三维模型，并没有充分地利用好三维模型包含的各种信息。这导致了现有方法存在的一些问题：如更换目标模型就需要重新训练整个网络、无法处理好遮挡严重的情况、训练结果和测试结果偏差大等等。而从近些年物体姿态估计方法的发展来看，现有的方法还缺少一种良好的方案，用以提高物体姿态估计技术的泛化性、精准度和识别速度。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于图像和三维模型的物体姿态估计方法、系统及介质。

本发明所采用的技术方案是：

一种基于图像和三维模型的物体姿态估计方法，包括以下步骤：

获取目标物体的图像数据；

对所述图像数据进行特征提取，采用物体姿态估计模型对提取到的特征进行映射，获取相似度最高的特征对应的视角作为估计的目标物体位姿；

其中，所述物体姿态估计模型用于将所述目标物体的图像特征映射到相似度最高的三维模型多视角特征的卷积神经网络。

进一步，所述物体姿态估计方法还包括构建所述物体姿态估计模型的步骤，具体为：

通过标准格式获取目标物体的三维模型；

在多个视角下对所述三维模型进行渲染，获得不同视角下所述三维模型对应的二维图像，构成所述三维模型的多视角图像数据集；

获取训练集，采用所述训练集训练多视角特征提取网络；

采用所述多视角特征提取网络提取并保存所述多视角图像数据集中每一张图像的特征，构成所述三维模型的多视角图像特征数据库；

采用所述多视角特征提取网络提取并保存所述训练集中每一张图像的特征，构成所述训练集图像特征数据库；

采用所述多视角图像特征数据库和所述训练集图像特征数据库训练所述视角特征映射网络，获得物体姿态估计模型。

进一步，所述标准格式包括点云格式、体素格式或网状格式中的其中一种。

进一步，所述多视角图像数据集包括X个三维模型{M₁、M₂、M₃…M_X}、每个所述三维模型对应的Y个视角{V₁、V₂、V₃…V_Y}以及每个所述三维模型在Y个视角下三维模型渲染出的二维图像{I₁、I₂、I₃…I_Y}；

所述多视角图像特征数据库包括X个三维模型{M₁、M₂、M₃…M_X}、每个所述三维模型对应的Y个视角{V₁、V₂、V₃…V_Y}以及所述三维模型每个视角下的二维图像经所述多视角特征提取网络进行特征提取而得到的视角特征{F₁、F₂、F₃…F_Y}，F_i为1024维度的特征向量，1≤i≤Y。

进一步，所述多视角特征提取网络由级联卷积神经网络构成，利用梯度优化算法进行多轮迭代训练获得。

进一步，所述多视角特征提取网络由14层不同类型的深度卷积神经网络级联构成；

其中，第1层为输入层，第2、3、5、6、8、9、11、12层为卷积层，第4、7、10、13层为池化层，第14层为输出层；

所有所述卷积层对应的输出维度等于输入维度，所有所述池化层输出的特征图的宽和高分别为所述池化层输入的特征图的宽/2和高/2。

进一步，所述视角特征映射网络以所述多视角图像特征数据库和目标物体的图像特征作为输入，输出所述图像特征与三维模型多视角图像特征中每一视角图像特征的相似度。

进一步，所述视角特征映射网络以交叉熵函数作为损失函数，且以最小化映射误差为优化目标对所述视角特征映射网络的参数进行优化。

本发明所采用的另一技术方案是：

一种基于图像和三维模型的物体姿态估计系统，包括：

数据采集模块，用于获取目标物体的图像数据；

位姿估计模块，用于对所述图像数据进行特征提取，采用物体姿态估计模型对提取到的特征进行映射，获取相似度最高的特征对应的视角作为估计的目标物体位姿；

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述一种基于图像和三维模型的物体姿态估计方法。

本发明的有益效果是：本发明无需借助于深度图像，更加充分地利用目标物体的三维模型，可以更好地计算被遮挡的目标物体，修改目标物体时不需要重新训练整个网络，提高了物体位姿估计技术的泛化性、精准度和识别速度。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于图片和三维模型的物体姿态估计方法的步骤流程图；

图2是本发明实施例中多视角特征提取网络的结构图；

图3是本发明实施例中视角特征映射网络的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供一种基于图片和三维模型的物体姿态估计方法，包括以下步骤：

S1、三维模型获取与模型渲染：通过标准点云格式，如点云、体素、网状格式，获取到目标物体的三维模型，并在多个视角下对每个所述物体三维模型进行渲染，得到不同视角下每个所述物体三维模型对应的二维图像，构成三维模型多视角图像数据集。

S2、多视角特征提取网络训练：为了使多视角特征提取网络提取出的图像特征能更好地适应物体姿态估计任务，在训练过程中，多视角特征提取网络与特征-图像重建网络级联一起训练，进行参数优化；级联后的整体网络表示为

其中

表示重建后的图像，F_k＝f^θ(I_k)为从图像I_k到特征F_k的映射，θ表示多视角特征提取网络的参数，f^β表示特征-图像重建网络，β表示特征-图像重建网络的参数。

该多视角特征提取网络由14层不同类型的深度网络级联构成，其中，第一层为输入层，第2、3、5、6、8、9、11、12层为卷积层，第4、7、10、13层为池化层，最后一层为输出层；所有卷积层对应的输出维度等于输入维度，所有池化层输出的特征图的宽和高分别为池化层输入特征图的宽/2和高/2；而在测试时，会将输出的32x32特征进行拉伸，得到1024维度的特征，即所述图像特征。

该特征-图像重建网络由14层不同类型的深度网络级联构成，其中，第一次为图像特征输入层，第2、3、5、6、8、9、11、12层为输入于输出维度保持一致的反卷积层，第4、7、10、13层为输出特征的宽和高分别为输入特征的宽×2和高×2的反卷积层，最后一层为输出层。

为了最大化特征差异和最小化重建误差，训练的目标函数为-L(F)+||I_k-f^β(F_k)||₂,其中-L(F)表示特征差异损失函数，||I_k-f^β(F_k)||₂表示特征重建损失函数；训练以adam优化方法为策略，学习率参数初始化为0.01，动量初始化为0.95。

而在测试或实用阶段，多视角特征提取网络的参数不再改变，并且不需要再级联特征-图像重建网络。

S3、特征数据库构建：训练完所述多视角特征提取网络以后，已经具备从图像到特征的映射能力，可以计算并保存所述三维模型多视角图像数据集中每一张图像的特征作为特征模板库，以及所述训练集中每一张图像的特征；具体地，将每张图像大小调整到512x512,经过逐样本均值消减和数据归一化后，输入多视角特征提取网络，计算得到32x32的特征图，并将特征图拉升成1024维度的特征，即为所求的特征。

数据库构建步骤得到的结果为：所述三维模型多视角图像特征数据库，由X个三维模型{M₁、M₂、M₃…M_X}、每个所述三维模型对应的Y个视角{V₁、V₂、V₃…V_Y}和三维模型每个视角下的二维图像经多视角特征提取网络进行特征提取而得到的视角特征{F₁、F₂、F₃…F_Y}构成，其中，F_i为1024维度的特征向量，1≤i≤Y。

S4、视角特征映射网络训练。

从所述多视角特征提取网络中提取出所需要三维模型多视角图像特征数据库后，所述的三维模型多视角图像特征数据库即可作为模板，只需具备根据图像特征从三维模型多视角图像特征数据库找到最相似的视角的能力即可，这样将该视角作为目标物体的位姿即完成了物体姿态估计。

因而视角特征映射网络训练的任务就是训练一个卷积神经网络，输入三维模型多视角图像特征数据库以及需要估计物体姿态的图像经多视角特征提取网络提取提取的特征，输出该物体中包含的所述目标物体的位姿。

所述视角特征映射网络以三维模型多视角图像特征数据库以交叉熵函数作为损失函数，以最小化映射误差为优化目标对视角特征映射网络的参数进行优化。

具体训练步骤为：1)采用xavier初始化方法对网络参数进行初始化；2)输入所述三维模型多视角图像特征数据库和所述图像特征，计算图像特征与数据库中每个视角下的图像特征的相似度；3)根据真实的图像特征相似度，计算网络的交叉熵损失值；4)采用基于adam策略的梯度优化方法，进行反向传播，更新所述视角特征映射网络参数；5)更换训练集中的图像，重复步骤2-4，直到交叉熵损失值低于某一阈值。

所述视角特征映射网络的优点在于：更换三维模型多视角图像特征数据库或更换图像特征并不影响视角特征映射网络的精准度。

S5、利用训练好的网络进行物体姿态估计。

经过前面步骤后，已经训练好多视角特征提取网络训练和视角特征映射网络，所有的网络参数已经固定，可以用于物体姿态估计。

具体的，对于某一需要进行估计的物体，可以根据如下步骤进行姿态估计：1)获取该物体的三维模型，利用前述的三维模型渲染方法在多个视角下进行渲染；2)得到该三维模型的所述多视角特征数据库，用训练好的所述多视角特征提取网络进行特征提取，构建该三维模型的多视角图像特征数据库；3)对相机获取到的图像，用训练好的所述多视角特征提取网络进行特征提取，得到该图像的特征；4)利用训练好的所述视角特征映射网络，将所述该三维模型的多视角图像特征数据库和需要估计的图像特征作为输入，输出多视角图像特征数据库中与该图像特征最相似的特征所对应的视角；5)将上一步计算出的视角作为所述目标物体的位姿。

上述实施例中的多视角特征提取网络的结构图如图2所示，其工作的主要方式为：

在训练阶段，包括步骤A1-A5：

A1、在训练阶段，读取三维模型在某一视角下渲染的图像到内存；

A2、利用所述卷积层和池化层对图像进行特征卷积与池化；

A3、利用反卷积层对视角特征进行反卷积；

A4、根据反卷积得到的特征进行图像重建；

A5、根据重建出的图像进行损失之计算，并更新网络参数。

在测试阶段，包括步骤B1-B2：

B1、则读取三维模型在某一视角下渲染的图像或相机读取到的图像到内存；

B2、利用所述卷积层和池化层对图像进行特征卷积与池化，将输出的特征拉伸为特征向量。

上述实施例中的视角特征映射的结构图如图3所示，其工作的主要步骤为：

C1、读取所述三维模型对应的多视角特征数据库到内存；

C2、读取所述RGB图像经多视角特征提取网络提取的特征到内存；

C3、采用特征拼接的方式对取得到的两种特征进行融合；

C4、对融合后的特征进行卷积计算；

C5、根据卷积得到的结果，计算所述RGB图像特征与所述三维模型对应的多视角特征数据库中每一图像特征的相似度；

C6、找出与所述RGB图像特征相似度最高的多视角特征数据库中的特征对应的视角，将该视角作为所述目标物体的位姿。

本实施例还提供一种基于图像和三维模型的物体姿态估计系统，包括：

数据采集模块，用于获取目标物体的图像数据；

本实施例的一种基于图像和三维模型的物体姿态估计系统，可执行本发明方法实施例所提供的一种基于图像和三维模型的物体姿态估计方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于图像和三维模型的物体姿态估计方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于图像和三维模型的物体姿态估计方法，其特征在于，包括以下步骤：

获取目标物体的图像数据；

2.根据权利要求1所述的一种基于图像和三维模型的物体姿态估计方法，其特征在于，所述物体姿态估计方法还包括构建所述物体姿态估计模型的步骤，具体为：

通过标准格式获取目标物体的三维模型；

获取训练集，采用所述训练集训练多视角特征提取网络；

3.根据权利要求2所述的一种基于图像和三维模型的物体姿态估计方法，其特征在于，所述标准格式包括点云格式、体素格式或网状格式中的其中一种。

4.根据权利要求2所述的一种基于图像和三维模型的物体姿态估计方法，其特征在于，所述多视角图像数据集包括X个三维模型{M₁、M₂、M₃…M_X}、每个所述三维模型对应的Y个视角{V₁、V₂、V₃…V_Y}以及每个所述三维模型在Y个视角下三维模型渲染出的二维图像{I₁、I₂、I₃…I_Y}；

5.根据权利要求2所述的一种基于图像和三维模型的物体姿态估计方法，其特征在于，所述多视角特征提取网络由级联卷积神经网络构成，利用梯度优化算法进行多轮迭代训练获得。

6.根据权利要求5所述的一种基于图像和三维模型的物体姿态估计方法，其特征在于，所述多视角特征提取网络由14层不同类型的深度卷积神经网络级联构成；

7.根据权利要求2所述的一种基于图像和三维模型的物体姿态估计方法，其特征在于，所述视角特征映射网络以所述多视角图像特征数据库和目标物体的图像特征作为输入，输出所述图像特征与三维模型多视角图像特征中每一视角图像特征的相似度。

8.根据权利要求7所述的一种基于图像和三维模型的物体姿态估计方法，其特征在于，所述视角特征映射网络以交叉熵函数作为损失函数，且以最小化映射误差为优化目标对所述视角特征映射网络的参数进行优化。

9.一种基于图像和三维模型的物体姿态估计系统，其特征在于，包括：

数据采集模块，用于获取目标物体的图像数据；

10.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述一种基于图像和三维模型的物体姿态估计方法。