CN115219492A

CN115219492A - 一种三维物体的外观图像采集方法及装置

Info

Publication number: CN115219492A
Application number: CN202210581015.6A
Authority: CN
Inventors: 王少虎; 秦方博
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-10-21
Anticipated expiration: 2042-05-25
Also published as: CN115219492B

Abstract

本发明提供一种三维物体的外观图像采集方法及装置，其中的外观图像采集方法包括：获取示教观测视点集；获取目标三维物体的示教位姿和实际位姿；根据示教位姿和实际位姿，获取位姿变换矩阵；根据位姿变换矩阵，将示教观测视点集转换为实际拍摄视点集；根据实际拍摄视点集，采集目标三维物体的外观图像。该方法只需要进行一次示教便可以实现对目标三维物体的多个部分进行图像采集，并且还可以适应三维物体的摆放位姿不确定性，有效增强了三维物体外观检测的通用性，并降低了人工示教和扫描路径开发的成本。

Description

一种三维物体的外观图像采集方法及装置

技术领域

本发明涉及三维物体外观检测技术领域，尤其涉及一种三维物体的外观图像采集方法及装置。

背景技术

随着机器人技术和智能制造的快速发展，各种工业产品的生产自动化程度得到不断提升，而在其生产过程中，表面外观检测直接影响到了产品的质量及后续生产过程。当前产品的外观检测多是由人工完成，效率低下。因此，迫切需要产品外观检测的自动化解决方案。

自动化外观检测装置，按照质检对象的种类可分为平面对象检测装置和三维对象检测装置。目前的外观检测装置大多为根据质检对象特点进行定制化设计，且二维图像采集装置较多，对于曲线以及三维质检对象的检测较少。

针对三维待检对象，通常需要多个相机分别安装于固定位置，以实现针对三维对象的多角度图像采集成像和检测。此外，也有采取在机械臂末端装配相机等传感器，通过控制机械臂的运动，以实现对象的多视角观测的方案，这种方案的核心在于相机观测轨迹的获取，目前主要包括基于对象CAD图纸的离线轨迹规划方式，但其需要将检测对象放置于固定已知的位置和方向。

定制化检测方案针对不同的检测对象，需要设计特定的检测装置和检测流程，通用性较差，复用性不强，容易造成资源浪费。并且，目前基于末端装配相机的机械臂的检测方案，大都需要提前规划好相机的扫描路径，且对象需要放置于固定的位置方向，无法适应对象位置发生变动的情况，开发难度较大，不利于实际使用和操作。

因此，现有技术中三维物体外观检测通用性差，且不利于实际使用和操作，是三维物体外观检测技术领域亟待解决的重要问题。

发明内容

本发明提供一种三维物体的外观图像采集方法及装置，用以解决现有技术中三维物体外观检测通用性差，且不利于实际使用和操作的缺陷，增强了三维物体外观检测的通用性，并降低了开发成本。

一方面，本发明提供一种三维物体的外观图像采集方法，包括：获取示教观测视点集；获取目标三维物体的示教位姿和实际位姿；根据所述示教位姿和所述实际位姿，获取位姿变换矩阵；根据所述位姿变换矩阵，将所述示教观测视点集转换为实际拍摄视点集；根据所述实际拍摄视点集，采集所述目标三维物体的外观图像。

进一步地，所述获取目标三维物体的示教位姿和实际位姿，包括：获取所述目标三维物体的示教图像和目标图像；将所述示教图像输入至位姿估计模块，得到所述示教位姿；将所述目标图像输入至所述位姿估计模块，得到所述实际位姿。

进一步地，所述根据所述示教位姿和所述实际位姿，获取位姿变换矩阵，包括：根据所述示教位姿和所述实际位姿，得到相对位姿变化量；根据所述相对位姿变化量，获取所述目标三维物体在相机坐标系下的相对位置变化量；所述相机坐标系为以采集所述外观图像所使用相机的光心位置为原点的坐标系；获取所述目标三维物体在相机坐标系下的朝向角度；根据所述相对位置变化量和所述朝向角度，获取所述位姿变换矩阵。

进一步地，所述将所述示教预处理图像输入至位姿估计网络，得到所述示教位姿，之前还包括：通过预设损失函数，迭代计算所述位姿估计模块的损失并进行模型参数优化。第二方面，本发明还提供一种三维物体的外观图像采集装置，包括：示教视点获取模块，用于获取示教观测视点集；位姿获取模块，用于获取目标三维物体的示教位姿和实际位姿；变换矩阵获取模块，用于根据所述示教位姿和所述实际位姿，获取位姿变换矩阵；拍摄视点获取模块，用于根据所述位姿变换矩阵，将所述示教观测视点集转换为实际拍摄视点集；外观图像采集模块，用于根据所述实际拍摄视点集，采集所述目标三维物体的外观图像。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述三维物体的外观图像采集方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述三维物体的外观图像采集方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述三维物体的外观图像采集方法的步骤。

本发明提供的三维物体的外观图像采集方法，通过获取目标三维物体的示教位姿和实际位姿，并根据示教位姿和实际位姿，获取位姿变换矩阵，根据位姿变换矩阵，将获取的示教观测视点集转换为实际拍摄视点集，根据转换得到的实际拍摄视点集，采集目标三维物体的外观图像，该方法只需要进行一次示教便可以实现对目标三维物体的多个部分进行图像采集，同时，还可以适应三维物体的摆放位姿不确定性，有效增强了三维物体外观检测的通用性，并降低了人工示教和扫描路径开发的成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的三维物体的外观图像采集方法的流程示意图；

图2为本发明提供的基于图像标签一致性的半监督训练策略示意图；

图3为本发明提供的位姿估计网络的网络结构示意图；

图4为本发明提供的获取前景掩膜图的中间预处理图像集的示意图；

图5为本发明提供的三维物体的外观图像采集方法的整体流程示意图；

图6为本发明提供的机械臂示教、主动运动以及图像拍摄的示例图；

图7为本发明提供的三维物体的外观图像采集装置的结构示意图；

图8为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在执行三维物体的外观图像采集方法的具体步骤之前，需要搭建相应的硬件系统，具体地，本发明采用的图像采集系统，例如包括一个UR5机械臂、一个台工业相机、一个环形光源和一台工控机。其中，工业相机装配于UR5机械臂末端，工业相机周围安装环形光源。上述硬件的控制、工业相机采集图像的存储及处理均在工控机上实现。

图1示出了本发明所提供的三维物体的外观图像采集方法的流程示意图。如图1所示，该外观图像采集方法包括：

S101，获取示教观测视点集。

在本步骤中，获取示教观测视点集，具体地，人工将目标三维物体放置于载物平台上，将机械臂拖动到合适的拍摄区域，通过机械臂末端的工业相机进行目标三维物体的实时图像采集，实时采集的图像会显示在工控机的显示界面上，通过人工观察工业相机获取到的图像的清晰度、角度以及亮度等信息，反馈得到图像的质量信息，根据反馈的图像质量信息，人工调整机械臂末端位姿，以找到最佳的拍摄位置和角度，并记录下该视点。重复N次，即可得到N个覆盖目标三维物体观测区域的示教观测视点集。

S102，获取目标三维物体的示教位姿和实际位姿。

在本步骤中，目标三维物体是指需要对其外观进行检测的三维物体，也即需要对其外观图像进行采集的三维物体。位姿是指目标三维物体的位置和姿态，位置是指目标三维物体的中心点坐标(x，y)，姿态是指目标三维物体的朝向角度，在三维坐标系中，可以用一个三维向量表示朝向角度。

具体地，在本步骤中，目标三维物体的位姿可以通过(x，y，θ)来表示，x和y分别表示目标三维物体的中心点的横坐标和纵坐标，θ表示目标三维物体与预设方向之间的角度，即朝向角度。

示教位姿是指目标三维物体固定不运动时的位置和姿态，实际位姿是指目标三维物体在运动过程中的位置和姿态。

在一个具体的实施例中，人工将目标三维物体放置于载物平台上，此时目标三维物体的放置位置是已知的，通过前述硬件系统中的工控机发送控制指令，控制机械臂带动工业相机运动至平行于载物平台的特定视点处，以拍摄目标三维物体的平面图像，然后可以将该平面图像输入至专门用于获取位姿的神经网络中，以获取相应的位姿，即示教位姿。

在另外一个具体的实施例中，目标三维物体被放置于载物平台，此时目标三维物体的放置位置是未知的，通过工控机发送控制指令，控制机械臂带动工业相机运动至预先设定好的拍摄视点，获取目标三维物体的平面图像，同样地，将该平面图像输入至专门用于获取位姿的神经网络中，就可以得到相应的位姿，即实际位姿。

需要说明的是，通过“机械臂+神经网络”获取示教位姿和实际位姿时，工业相机拍摄目标三维物体的拍摄视点是相同且固定不变的，不同在于目标三维物体在获取示教位姿和实际位姿的两个场景下的状态不同，在获取示教位姿的场景下，目标三维物体的位置和朝向角度是固定不变化的，而在获取实际位姿的场景下，目标三维物体的位置和/或朝向角度是运动和变化的。

当然，示教位姿和实际位姿除了可以通过前述的“机械臂+神经网络”的方式获取以外，还可以通过位置传感器和陀螺仪获取得到。具体地，可以通过位置传感器获取目标三维物体的位置，通过陀螺仪检测目标三维物体的姿态，从而得到目标三维物体的位姿(x，y，θ)。

S103，根据示教位姿和实际位姿，获取位姿变换矩阵。

在上一步骤获取示教位姿和实际位姿的基础上，可以通过示教位姿和实际位姿得到位姿变换矩阵。

具体地，示教位姿和实际位姿均是在图像坐标系下的元素，根据示教位姿和实际位姿，可以获得图像坐标系下目标三维物体的相对位姿变化量。根据图像坐标系和相机坐标系之间的变换关系，可以得到目标三维物体在相机坐标系下的位置变化量。在示教位姿和实际位姿已知的情况下，可以获取目标三维物体在相机坐标系下与预设方向之间的朝向角度。

其中，图像坐标系以工业相机光轴与成像平面的交点为坐标原点，其为直角坐标系。相机坐标系的坐标原点为工业相机的光心位置，其X轴和Y轴分别平行于图像坐标系的X轴和Y轴，其Z轴为工业相机的光轴。

在得到相机坐标系下目标三维物体的位置变化量和朝向角度的之后，便可以直接得到位姿变换矩阵。

S104，根据位姿变换矩阵，将示教观测视点集转换为实际拍摄视点集。

可以理解的是，在步骤S102获取得到位姿变换矩阵的基础上，根据该位姿变换矩阵，可以将获取得到的示教观测视点集转换为实际拍摄视点，即将示教观测视点集中的每一个示教观测视点，通过位姿变换矩阵，转换为实际拍摄视点集中对应的实际拍摄视点。

S105，根据实际拍摄视点集，采集目标三维物体的外观图像。

在步骤S104将示教观测视点集转换为实际拍摄视点集的基础上，根据实际拍摄视点集中的每一个实际拍摄视点，采集目标三维物体的外观图像。

具体地，实际拍摄视点为相机坐标系下的拍摄视点，在进行外观图像采集之前，需根据相机坐标系和机器人坐标系之间的转换关系，将相机坐标系下的实际拍摄视点转换为机器人坐标系下的拍摄视点，之后，工控机将机器人坐标系下的实际拍摄视点依次发送给机械臂，机械臂主动运动，带动其末端的工业相机依次到达实际拍摄视点，在每个实际拍摄视点处拍摄一张目标三维物体的外观图像，并将图像传回至工控机。

在本实施例中，通过获取目标三维物体的示教位姿和实际位姿，并根据示教位姿和实际位姿，获取位姿变换矩阵，根据位姿变换矩阵，将获取的示教观测视点集转换为实际拍摄视点集，根据转换得到的实际拍摄视点集，采集目标三维物体的外观图像，该方法只需要进行一次示教便可以实现对目标三维物体的多个部分进行图像采集，同时，还可以适应三维物体的摆放位姿不确定性，有效增强了三维物体外观检测的通用性，并降低了人工示教和扫描路径开发的成本。

在上述实施例的基础上，进一步地，获取目标三维物体的示教位姿和实际位姿，包括：获取目标三维物体的示教图像和目标图像；将示教图像输入至位姿估计模块，得到示教位姿；将目标图像输入至位姿估计模块，得到实际位姿。

可以理解的是，获取目标三维物体的示教位姿和实际位姿，具体地，分别获取目标三维物体的示教图像和目标图像，之后可以对示教图像和目标图像进行预处理，分别得到示教预处理图像和目标预处理图像，然后将示教预处理图像和目标预处理图像分别输入至位姿估计模块中，即可得到示教位姿和实际位姿。

获取目标三维物体的示教图像，具体地，人工将目标三维物体放置于载物平台上，通过前述硬件系统中的工控机发送控制指令，控制机械臂带动工业相机运动至平行于载物平台的特定视点处，以拍摄目标三维物体的平面图像，该平面图像即为示教图像。

获取目标三维物体的目标图像，与获取目标三维物体的示教图像的过程是一致的，唯一不同的是，获取示教图像时，目标三维物体的放置位置是固定已知的，而获取目标三维物体的目标图像时，目标三维物体的放置位置是动态变化和未知的，故以示教图像和目标图像相区分。

对示教图像进行预处理，得到示教预处理图像。具体地，获取示教图像的横向归一化坐标图和纵向归一化坐标图，将示教图像分别与横向归一化坐标图和纵向归一化坐标图分别进行相加和点乘处理，可以得到示教图像与横向归一化坐标图分别相加和点乘后的两张图像，以及示教图像与纵向归一化坐标图分别相加和点乘后的两张图像。最后将示教图像，以及示教图像分别与横向归一化坐标图和纵向归一化坐标图进行相加和点乘处理得到的四张图像进行拼接融合，得到示教融合五通道图像，即示教预处理图像。

对目标图像进行预处理，得到目标预处理图像。与获取示教预处理图像的处理过程相同，在此不再赘述。

在得到示教预处理图像和目标预处理图像之后，将示教预处理图像输入至位姿估计模块中，得到目标三维物体的示教位姿；将目标预处理图像输入至位姿估计模块中，得到目标三维物体的实际位姿。

其中，位姿估计模块可以为专门用于测量目标三维物体位姿的神经网络，在正式测量目标三维物体的示教位姿或实际位姿之前，会使用相应的算法计算其损失值，使其呈现最佳的表达效果。

在本实施例中，通过获取得到目标三维物体的示教图像和目标图像并将示教图像和目标图像分别输入至位姿估计模块中，即可得到目标三维物体的示教位姿和实际位姿，可以有效保证目标三维物体的示教位姿和实际位姿的准确性。

在上述实施例的基础上，进一步地，根据示教位姿和实际位姿，获取位姿变换矩阵，包括：根据示教位姿和实际位姿，得到相对位姿变化量；根据相对位姿变化量，获取目标三维物体在相机坐标系下的相对位置变化量；相机坐标系为以采集外观图像所使用相机的光心位置为原点的坐标系；获取目标三维物体在相机坐标系下的朝向角度；根据相对位置变化量和朝向角度，获取位姿变换矩阵。

可以理解的是，根据示教位姿和实际位姿，获取位姿变换矩阵，具体获取过程如下：

对获得的示教位姿(u_T，v_T，θ_T)和实际位姿(u_R，v_R，θ_R)作差运算，得到图像坐标系下目标三维物体的相对位姿变化量(Δu，Δv，Δθ)。

根据相对位姿变化量(Δu，Δv，Δθ)，可以通过仿射变换，得到目标三维物体在相机坐标系下的相对位置变化量，相机坐标系为以采集外观图像所使用相机的光心位置为原点的坐标系，相对位置变化量包括横坐标的相对变化量和纵坐标的相对变化量，具体获取公式如下：

其中，Δx和Δy分别为相机坐标系下目标三维物体的横坐标和纵坐标的相对变化量，k₁₁、k₁₂、k₂₁以及k₂₂为仿射变换参数，Δu和Δv分别为图像坐标系下目标三维物体的横坐标和纵坐标的相对变化量，(u_n,v_n)为图像坐标系下目标三维物体的方向向量，(x_n，y_n)为相机坐标系下目标三维物体的方向向量。

获取目标三维物体在相机坐标系下的朝向角度，朝向角度获取公式如下：

其中，k₁₁、k₁₂、k₂₁和k₂₂位仿射变换参数，u_n和v_n为图像坐标系下目标三维物体的方向向量，θ为图像坐标系下目标三维物体的方向角度。

在得到相机坐标系下目标三维物体的相对位置变化量和朝向角度之后，便可以得到目标三维物体的位姿变换矩阵，位姿变换矩阵分为两部分，旋转变换和平移变换，具体地，位姿变换矩阵的公式如下：

其中，R为旋转变换矩阵，t为平移量，Δα为相机坐标系下目标三维物体的朝向角度变化量，Δx和Δy分别为相机坐标系下目标三维物体的横坐标和纵坐标的相对变化量。

在得到目标三维物体的位姿变换矩阵后，基于该位姿变换矩阵，根据预设变换公式将示教观测视点集转换为实际拍摄视点集，其中，预设变换公式如下：

n_A＝Rn_T

其中，p_A为实际拍摄视点的坐标，p_T为示教观测视点的坐标，R为位姿变换矩阵，(x_R，y_R)为相机坐标系下目标三维物体的示教坐标，(x_T，y_T)为相机坐标系下目标三维物体的实际坐标，Δα为相机坐标系下目标三维物体的朝向角度变化量，n_A为实际拍摄视点下目标三维物体的方向向量，n_T为示教观测视点下目标三维物体的方向向量。

在本实施例中，通过根据示教位姿和实际位姿获取相对位姿变化量，并根据相对位姿变化量获取相机坐标系下目标三维物体的相对位置变化量，根据相对位置变化量和获取的相机坐标系下目标三维物体的朝向角度，得到位姿变换矩阵，从而根据位姿变换矩阵将示教观测视点集转换为实际拍摄视点集，并根据实际拍摄视点集，采集目标三维物体的外观图像，在此过程中，只需要进行一次示教便可以实现对目标三维物体的多个部分进行图像采集，并且还可以适应三维物体的摆放位姿不确定性，有效增强了三维物体外观检测的通用性，并降低了人工示教和扫描路径开发的成本。

在上述实施例的基础上，进一步地，将示教图像输入至位姿估计模块，得到示教位姿，之前还包括：通过预设损失函数，迭代计算所述位姿估计模块的损失并进行模型参数优化，其中，预设损失函数包括监督损失函数、一致性损失函数和综合损失函数。

可以理解的是，以位姿估计模块为位姿估计网络为例，在对位姿估计网络进行训练之前，需要采集训练图像，构建训练数据集，在这过程中，可以将训练数据集按照设定的比例将其划分为监督训练集、半监督训练集和测试集。

例如，将训练数据集按照6:2:2的比例划分监督训练集、半监督训练集和测试集。其中，监督训练集中的图像为目标图像，半监督训练集有目标图像和无标签图像混合而成，测试集中的图像则全为无标签图像，无标签图像为没有经过处理的图像。

位姿估计网络的训练主要包括两个阶段，具体是：

阶段1：监督训练。使用监督训练集训练位姿估计网络，将目标图像输入至位姿估计网络，得到预测位姿、预测前景掩膜图以及预测关键点热力图，与真实标签计算差异得到损失函数，其中，真实标签为三维物体图像中标记出的标准位姿、标准前景掩膜图和标准关键点热力图。具体表示为

L_P＝SmoothL1(u,u_GT)+SmoothL1(v,v_GT)+SmoothL1(θ,θ_GT)

其中，SmoothL1为光滑之后的L1损失函数，L1损失函数是指将目标值和估计值的绝对差值的总和最小化的函数。相较于L1损失函数，SmoothL1函数能让损失值对于离群点更加鲁棒，对异常值不敏感，从而控制梯度的量级，防止训练时过于泛化。

L_P为位姿估计误差，(u,v,θ)为预测位姿，(u_GT,v_GT,θ_GT)为位姿标签即标准位姿，L_S为前景掩膜图分割损失，M_i,j为预测前景掩膜图掩膜，M_GT,i,j为标准前景掩膜图，L_K为关键点热力图预测损失，H_i,j为预测关键点热力图，H_GT,i,j为标准关键点热力图，N为前景掩膜图或关键点热力图中像素点的个数。

在得到位姿估计误差L_P、前景掩膜图分割损失L_S以及关键点热力图预测损失L_K之后，通过监督损失函数得到总的监督损失，具体为，

其中，σ₁,σ₂和σ₃为可学习的参数，上述损失通过反向传播和Adam优化算法对位姿估计网络的参数进行更新。

阶段2：基于半监督学习的网络参数微调。在监督数据集上进行监督训练之后，需要使用包含有标签和无标签图像的半监督数据集对位姿估计网络参数进行微调，此时只有编码器网络和回归支路网络被保留用于微调。

图2示出了本发明所提供的基于图像标签一致性的半监督训练策略示意图。如图2所示，将训练图像随机平移一定的量，之后将平移前和平移后的训练图像分别通过位姿估计网络预测位姿，根据三维物体与图像的相对位置不变性，可以得到位姿估计的一致性损失，一致性损失公式具体如下：

L_C＝SmoothL1(u,u'-Δu)+SmoothL1(v,v'-Δv)+SmoothL1(θ,θ')

其中，L_C是一致性损失，(u，v，θ)和(u'，v'，θ')分别为三维物体平移前和平移后的预测位姿，Δu为横向平移量，Δv为纵向平移量，θ和θ'分别为目标三维物体平移前和平移后与预设方向的夹角。

需要说明的是，对于有标签样本来说，其损失还包括位姿估计的监督损失，因此，总的损失需要通过综合损失函数进行计算，综合损失函数的公式如下：

其中，λ为可调系数。L_C是一致性损失，L_P为位姿估计误差。利用上述得到的损失函数，通过反向传播和Adam优化算法对位姿估计网络的参数进行微调更新。

位姿估计网络训练完成之后，需要利用测试集进行测试，选择最佳的模型参数。测试时位姿估计网络只保留编码器网络和回归支路网络，将标注好的真实测试集输入网络，得到预测位姿，选择预测误差最小的模型参数作为位姿估计网络的最终参数。

在本实施例中，通过根据监督损失函数、一致性损失函数以及综合损失函数计算位姿估计模块的损失，使位姿估计模块在正式预测目标三维物体的示教位姿和实际位姿时，能够更好地表达。

在上述实施例的基础上，进一步地，当位姿估计模块为位姿估计网络时，可以通过预设损失函数对位姿估计网络进行训练，包括：获取训练图像，训练图像包括三维物体图像和不含三维物体的背景图像；对训练图像进行训练预处理，得到训练预处理图像；将训练预处理图像输入至编码器网络，获取训练图像的训练特征图；将训练特征图输入至辅助分支网络，得到训练图像的前景掩膜图和关键点热力图；将训练特征图输入至回归分支网络，得到训练图像的训练位姿。

可以理解的是，在对位姿估计网络进行训练之前，需要采集训练图像，以构成训练图像集。采集的训练图像包括两类：一类是包括三维物体的三维物体图像，另一类则是不包含三维物体的背景图像。

训练图像的采集过程，即使用工业相机在不同的环境条件下拍摄大量的包含三维物体的图像，以及一张无三维物体的背景图像，该过程与前文获取目标三维物体的示教图像和目标图像的过程相同，在此不再赘述。

在采集训练图像完成之后，对采集的训练图像进行预处理，得到训练预处理图像。将训练预处理图像输入至位姿估计网网络中，完成对位姿估计网络的训练。具体地，图3示出了本发明所提供的位姿估计网络的网络结构示意图，进一步展开了位姿估计网络的内部结构。

如图3所示，原始输入为目标图像，该目标图像是通过融合预处理三维物体图像、预处理前景掩膜图和预处理背景图得到的，图中ICF是指对训练图像进行标注、数据样本增广处理以及融合操作的总和。融合输入为训练预处理图像，该训练预处理图像是通过目标图像，以及目标图像分别与横向归一化坐标图和纵向归一化坐标图进行相加和点乘的四张图像融合而得到的。

将训练预处理图像输入至位姿估计网络的编码器网络，在一个具体的实施例中，编码器网络由3×3的卷积网络层、ReLU网络层、归一化网络层以及最大值池化层构成。

将编码器网络输出的训练图像的训练特征图，通过跳连的方式输入至位姿估计网络的辅助分支网络中，在一个具体的实施例中，辅助分支网络由3×3的卷积网络层、ReLU网络层、归一化网络层、上采样网络层以及注意力机制构成。辅助支路网络的输出为训练图像的前景掩膜图和关键点热力图。

将编码器网络输出的训练图像的训练特征图，输入至位姿估计网络的回归支路网络，在一个具体的实施例中，该回归支路网络由注意力机制、3×3的卷积网络层、ReLU网络层、归一化网络层、池化层以及全连接层构成。回归支路网络的输出为训练图像中三维物体的训练位姿，该训练位姿(u，v，θ)包括三维物体的位置坐标(u，v)和朝向角度θ。

也就是说，在对位姿估计网络进行训练时，有三个输出，即训练图像的前景掩膜图、关键点热力图以及训练位姿。

在本实施例中，通过获取训练图像，并对训练图像进行预处理，得到训练预处理图像，将训练预处理图像输入至编码器网络，得到训练图像的训练特征图，将训练特征图输入至辅助分支网络，可得到训练图像的前景掩膜图和关键点热力图，将训练特征图输入到回归分支网络，可得到训练图像的训练位姿，通过前述步骤训练位姿估计网络，能够得到位姿估计网络最佳的模型参数，使位姿估计网络在正式预测目标三维物体的示教位姿和实际位姿时，能够更好地表达。

在上述实施例的基础上，进一步地，对训练图像进行训练预处理，得到训练预处理图像，包括：在三维物体图像中标记出三维物体的标准位姿、标准前景掩膜图和标准关键点热力图；对三维物体图像、标准前景掩膜图、标准关键点热力图以及背景图像进行样本数据增广处理，得到中间预处理图像集；融合中间预处理图像集中的预处理三维物体图像、预处理前景掩膜图和预处理背景图，得到目标图像；获取目标图像的横向归一化坐标图和纵向归一化坐标图；根据目标图像、横向归一化坐标图和纵向归一化坐标图，获取训练预处理图像。

可以理解的是，在采集足够数量的训练图像之后，对训练图像进行预处理，得到训练预处理图像。具体的预处理过程如下：

步骤1：在训练图像中选择一张包括三维物体的三维物体图像进行标注，即使用电脑软件标注出三维物体的标准位姿、标准前景掩膜图以及标准关键点热力图。

步骤2：为了降低数据标注成本，对选取的三维物体图像、标准前景掩膜图、标准关键点热力图以及不含三维物体的背景图像进行样本数据增广处理。具体地，随机生成平移量、以三维物体中心点为旋转中心的旋转量以及缩放倍数，得到前述需要进行样本数据增广处理的图像的变换矩阵。将该变换矩阵应同时作用于三维物体图像、标准前景掩膜图、标准关键点热力图以及背景图像，便可以得到相应变换图像，即中间预处理图像集。

经过变换矩阵作用后，中间预处理图像中三维物体的位姿如下：

u_AS＝u_A+Δu,v_AS＝v_A+Δv,θ_AS＝θ_A+Δθ

其中，Δu、Δv、Δθ分别为横向平移量、纵向平移量和绕中心点的旋转角度，(u_A,v_A,θ_A)和(u_AS,v_AS,θ_AS)分别为变换之前和变换之后的三维物体的三自由度位姿。

步骤3：融合中间预处理图像集中的预处理三维物体图像、预处理前景掩膜图和预处理背景图，以得到目标图像。具体融合公式如下：

I_G＝M_AS⊙I_AS+(1-M_AS)⊙I_BS

其中，⊙为点对点的图像相乘，I_AS为预处理三维物体图，I_BS为预处理背景图，M_AS为预处理前景掩膜图，I_G为融合得到的目标图像。

需要说明的是，在得到目标图像后，可以对该目标图像进行更多的增广操作，以模拟真实环境的变化，比如增加随机噪声、图像模糊、亮度变化、对比度变换以及增加随机掩膜块。

通过步骤1至步骤3的样本数据增广方法，可利用一个标注样本生成大量待标签样本。具体地，以前景掩膜图的样本数据增广处理为例，图4示出了本发明所提供的获取前景掩膜图的中间预处理图像集的示意图，如图4所示，根据三维物体图像，在三维物体图像中标注出前景掩膜图，对前景掩膜图进行样本数据增广处理，得到了前景掩膜图的中间预处理图像。

步骤4：获取目标图像的横向归一化坐标图和纵向归一化坐标图。具体地，横向归一化坐标图和纵向归一化坐标图的获取公式如下：

C_u,i,j为横向归一化坐标图，C_v,i,j为纵向归一化坐标图，(u，v)为目标图像中三维物体的位置坐标，(i，j)为像素位置，W和H分别为目标图像的宽度和长度。

步骤5：根据目标图像、横向归一化坐标图和纵向归一化坐标图，获取训练预处理图像。具体地，将目标图像分别与横向归一化坐标图和纵向归一化坐标图分别进行相加和点乘处理，可以得到目标图像与横向归一化坐标图分别相加和点乘后的两张图像，以及目标图像与纵向归一化坐标图分别相加和点乘后的两张图像。最后将目标图像，以及目标图像分别与横向归一化坐标图和纵向归一化坐标图进行相加和点乘处理得到的四张图像进行拼接融合，得到训练融合五通道图像，即训练预处理图像。

在本实施例中，通过对训练图像进行训练预处理，得到训练预处理图像，将训练预处理图像作为位姿估计网络的输入，对位姿估计网络进行训练，能够有效地消除图像中无关的信息，增强有关信息的可预测性，从而有效提高位姿估计网络进行图像特征提取的可靠性。

图5示出了本发明所提供的三维物体的外观图像采集方法的整体流程示意图，在图1的基础上引入了位姿估计网络的训练和在线预测过程。如图5所示，该方法整体分为图像采集和位姿估计网络的训练、离线示教和示教观测视点的获取、位姿估计网络进行在线位姿估计以及通过在线主动运动实现三维物体外观图像的采集。其中，对于如何图像的采集、位姿估计网络的训练以及三维物体的示教位姿和实际位姿的获取，已通过前述各个实施例展开了详细的描述，在此不再赘述。

另外，图6示出了本发明所提供的机械臂示教、主动运动以及图像拍摄的示例图，如图6所示，具体包括采集的手机和鼠标的外观图像。

图7示出了本发明提供的三维物体的外观图像采集装置的结构示意图。如图7所示，该外观图像采集装置包括：示教视点获取模块701，用于获取示教观测视点集；位姿获取模块702，用于获取目标三维物体的示教位姿和实际位姿；变换矩阵获取模块703，用于根据示教位姿和实际位姿，获取位姿变换矩阵；拍摄视点获取模块704，用于根据位姿变换矩阵，将示教观测视点集转换为实际拍摄视点集；外观图像采集模块705，用于根据实际拍摄视点集，采集目标三维物体的外观图像。

本发明提供的三维物体的外观图像采集装置，上文描述的三维物体的外观图像采集方法可相互对应参照，在此不再赘述。

在本实施例中，通过位姿获取模块702获取目标三维物体的示教位姿和实际位姿，变换矩阵获取模块703根据示教位姿和实际位姿，获取位姿变换矩阵，拍摄视点获取模块704根据位姿变换矩阵，将示教视点获取模块701获取的示教观测视点集转换为实际拍摄视点集，外观图像采集模块705根据转换得到的实际拍摄视点集，采集目标三维物体的外观图像，该装置只需要进行一次示教便可以实现对目标三维物体的多个部分进行图像采集，同时，还可以适应三维物体的摆放位姿不确定性，有效增强了三维物体外观检测的通用性，并降低了人工示教和扫描路径开发的成本。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行三维物体的外观图像采集方法，该方法包括：获取目标三维物体的示教位姿和实际位姿；根据所述示教位姿和所述实际位姿，获取位姿变换矩阵；获取示教观测视点集；根据所述位姿变换矩阵，将所述示教观测视点集转换为实际拍摄视点集；根据所述实际拍摄视点集，采集所述目标三维物体的外观图像。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的三维物体的外观图像采集方法，该方法包括：获取目标三维物体的示教位姿和实际位姿；根据所述示教位姿和所述实际位姿，获取位姿变换矩阵；获取示教观测视点集；根据所述位姿变换矩阵，将所述示教观测视点集转换为实际拍摄视点集；根据所述实际拍摄视点集，采集所述目标三维物体的外观图像。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的三维物体的外观图像采集方法，该方法包括：获取目标三维物体的示教位姿和实际位姿；根据所述示教位姿和所述实际位姿，获取位姿变换矩阵；获取示教观测视点集；根据所述位姿变换矩阵，将所述示教观测视点集转换为实际拍摄视点集；根据所述实际拍摄视点集，采集所述目标三维物体的外观图像。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种三维物体的外观图像采集方法，其特征在于，包括：

获取示教观测视点集；

获取目标三维物体的示教位姿和实际位姿；

根据所述示教位姿和所述实际位姿，获取位姿变换矩阵；

根据所述位姿变换矩阵，将所述示教观测视点集转换为实际拍摄视点集；

根据所述实际拍摄视点集，采集所述目标三维物体的外观图像。

2.根据权利要求1所述的三维物体的外观图像采集方法，其特征在于，所述获取目标三维物体的示教位姿和实际位姿，包括：

获取所述目标三维物体的示教图像和目标图像；

将所述示教图像输入至位姿估计模块，得到所述示教位姿；

将所述目标图像输入至所述位姿估计模块，得到所述实际位姿。

3.根据权利要求1所述的三维物体的外观图像采集方法，其特征在于，所述根据所述示教位姿和所述实际位姿，获取位姿变换矩阵，包括：

根据所述示教位姿和所述实际位姿，得到相对位姿变化量；

根据所述相对位姿变化量，获取所述目标三维物体在相机坐标系下的相对位置变化量；所述相机坐标系为以采集所述外观图像所使用相机的光心位置为原点的坐标系；

获取所述目标三维物体在相机坐标系下的朝向角度；根据所述相对位置变化量和所述朝向角度，获取所述位姿变换矩阵。

4.根据权利要求2所述的三维物体的外观图像采集方法，其特征在于，所述将所述示教图像输入至位姿估计模块，得到所述示教位姿，之前还包括：通过预设损失函数，迭代计算所述位姿估计模块的损失并进行模型参数优化。

5.一种三维物体的外观图像采集装置，其特征在于，包括：

示教视点获取模块，用于获取示教观测视点集；

位姿获取模块，用于获取目标三维物体的示教位姿和实际位姿；

变换矩阵获取模块，用于根据所述示教位姿和所述实际位姿，获取位姿变换矩阵；

拍摄视点获取模块，用于根据所述位姿变换矩阵，将所述示教观测视点集转换为实际拍摄视点集；

外观图像采集模块，用于根据所述实际拍摄视点集，采集所述目标三维物体的外观图像。

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述三维物体的外观图像采集方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述三维物体的外观图像采集方法的步骤。

8.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述三维物体的外观图像采集方法的步骤。