CN114494156A

CN114494156A - 一种物体位姿估计和物理属性协同估计方法

Info

Publication number: CN114494156A
Application number: CN202210000263.7A
Authority: CN
Inventors: 戴玉超; 沈守刚; 邓辉; 刘奇; 何人杰
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-01-03
Filing date: 2022-01-03
Publication date: 2022-05-13
Anticipated expiration: 2042-01-03
Also published as: CN114494156B

Abstract

本发明公开了一种物体位姿估计和物理属性协同估计方法，通过在物体位姿估计的同时，获得物体的物理属性，以获得更多的交互先验信息，提高交互的准确性和稳定性。在进行机器人交互时，使用普通相机和多光谱相机同时拍摄待估计物体，对于物体位姿估计，从单张视觉图像中估计物体六自由度位姿，对于物体的物理属性估计，融合视觉信息和多光谱信息以获得待估计物体的物理属性。本发明可以在物体位姿估计的同时，可以同时获得物体的物理属性，以获得更多的交互先验信息，提高交互的准确性和稳定性。

Description

一种物体位姿估计和物理属性协同估计方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种物体位姿估计和物理属性协同估计方法。

背景技术

基于视觉的物体位姿估计与物理属性协同估计在机器人抓取应用中扮演着非常重要的角色。基于视觉的方法进行物体位姿估计是指从图像中获得目标物体相对于相机的位置和姿态，通常是平移距离和旋转角度。物体的物理属性估计是指估计目标物体的材料或者材质属性，比如塑料、金属、木头、玻璃等。材料的属性会有不同的视觉属性，比如光泽度或者透明度以及物体可能的触觉属性，比如硬度或者粗糙度。物体的物理属性估计在生活中具有广泛的应用前景，可以为人机交互系统提供详细的材质信息，这些在日常生活中的出现的物体的制作材料决定了我们与这些物体进行交互时应注意的问题，比如在清理一个玻璃或者陶瓷水杯时，注意不能掉在地上，否则杯子将会被打碎，玻璃通常时光滑的，当我们操作时，我们应该用合适的方式操作它。

面向机器人交互应用中，比如机器人抓取操作中，首先需要估计待抓取物体的六自由度位姿，然后规划机器臂以及末端执行器进行抓取操作。因此在抓取之前提前知道物体的物理属性非常重要，比如提供先验的抓取力度，提供比较好的先验知识来更加准确和稳定的与物体进行交互。

在抓取物体的同时使用触觉传感器，在抓取的过程中实时采集触觉传感器压力信息，建立起压力和电压的关系，由采集到的电压信号可转换得到物体的抓取力信息，保证抓取的稳定性。对于物体的属性识别，通常可以使用X射线对物体进行照射获得X射线图像，然后使用图像处理方法来判断X射线图像中物体的具体材质。另外可以使用多传感器信息融合的方法进行物体的材质识别，比如红外传感器、雷达传感器、激光传感器等像物体主动发射信号，然后接收反射信号，通过对接收的反射信号进行处理，最终获得物体物理属性。

面向机器人抓取交互的场景中，需要估计待抓取物体的六自由度位姿以及抓取的力度，这样才能保证抓取的准确和稳定。

通常可以用图像传感器获得视觉图像进行物体属性分类，但是对于外观非常相似的物体，有时单纯用视觉图像时无法区分的，比如透明的塑杯和透明的玻璃杯。

现有的获得物体属性的方法通常采用主动传感器，比如雷达、激光、X光等方法来获得物体的信息，然后通过后对返回的信号处理来获得物体的物理属性，这些设备通常是庞大而昂贵的，因此不适合在机器人交互时使用。在获取待抓取物体的抓取力的时候，现有方法使用触觉传感器，在交互的时候获取抓取力，以便稳定的抓取物体，但是这种方法需要在抓取的时候同时获得抓取物体的力度，提前未知抓取力的时候，需要不断的调整，不利于寻找到最合适的抓取力度，降低了抓取时的稳定性。

发明内容

为了克服现有技术的不足，本发明提供了一种物体位姿估计和物理属性协同估计方法，通过在物体位姿估计的同时，获得物体的物理属性，以获得更多的交互先验信息，提高交互的准确性和稳定性。在进行机器人交互时，使用普通相机和多光谱相机同时拍摄待估计物体，对于物体位姿估计，从单张视觉图像中估计物体六自由度位姿，对于物体的物理属性估计，融合视觉信息和多光谱信息以获得待估计物体的物理属性。本发明可以在物体位姿估计的同时，可以同时获得物体的物理属性，以获得更多的交互先验信息，提高交互的准确性和稳定性。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：设定物体的材质种类数量为N；

步骤2：建立多光谱图像特征数据库；

步骤2-1：使用多光谱相机采集所有材质种类的标准多光谱图像，每一种物体材质种类采集t个多光谱图像；多光谱相机采集图像的光谱波长数量为B；

步骤2-2：使用深度学习神经网络对采集到的多光谱图像按照不同的光谱波长分别进行特征提取，获得第i种材质种类的第b个波长光谱图像特征

其中

表示第i种材质种类的第b个波长第t个光谱图像的特征，b＝1,2,…,B，i＝1,2,…,N；

步骤2-3：将物体的材质种类和步骤2-2获取的所有光谱图像特征组成多光谱图像特征数据库，数据库中每一个光谱图像特征对应一个材质种类；

步骤3：使用普通视觉相机和多光谱相机对待估计物体进行拍摄，分别得到待估计物体的RGB图像和多光谱图像；

步骤4：计算待估计物体的多光谱图像材质种类识别概率；

步骤4-1：使用步骤2-2的深度学习神经网络对待估计物体的多光谱图像进行特征提取，获得待估计物体的多光谱图像特征；

步骤4-2：计算待估计物体的第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类第b个波长的t个光谱图像特征间的距离，能够得到t个距离值，取t个距离值的均值表示待估计物体的多光谱图像中第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类的第b个波长的光谱图像特征的平均距离值s_b；

步骤4-3：重复步骤4-2，计算待估计物体的第1个到第B个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类的第1个到第B个波长的光谱图像特征的平均距离值s₁到s_B；

步骤4-4：计算待估计物体与第i种材质种类的相似度：

其中w_b表示不同波长的光谱图像特征的平均距离值权重；

步骤4-5：重复步骤4-2到步骤4-4，计算待估计物体与所有材质种类的相似度S₁,S₂,…,S_N；

步骤4-6：采用softmax操作将相似度分数转换为概率值

p_i表示待估计物体属于第i种材质种类的多光谱图像材质种类识别概率；

步骤5：使用神经网络分类器对待估计物体的RGB图像进行分类，得到待估计物体属于第i种材质种类的视觉图像材质种类识别概率p′_i；

步骤6：采用加权方式获得待估计物体的属于第i种材质种类的概率值：

P_i＝W₁p_i+W₂p′_i

其中W₁和W₂分别表示多光谱图像材质种类识别概率的权重和视觉图像材质种类识别概率的权重；i从1取到N，计算P₁到P_N，选择P₁到P_N中的最大值对应的材质种类作为待估计物体的材质种类；

步骤7：获取待估计物体的位姿；

步骤7-1：使用目标检测方法从待估计物体的RGB图像中定位待估计物体；

步骤7-2：采用从图像中预测稠密三维坐标的方法，构建出RGB图像像素与三维坐标之间的对应关系；

步骤7-3：采用Z-buffer算法通过渲染CAD模型获得RGB图像像素点对应的三维坐标真值；使用鲁棒距离函数衡量预测三维坐标和三维坐标真值之间的误差；

步骤7-4：在预测物体三维坐标的同时预测一个掩模表示待估计物体所在像素位置；在建立RGB图像像素与三维坐标之间的关系时，只构建在掩模内部的RGB图像像素与三维坐标之间的关系，然后采用PnP+RANSAC算法计算出待估计物体的六自由度位姿。

优选地，所述步骤4-2中计算距离的方法为欧式距离或者余弦距离。

优选地，所述步骤7-1中的目标检测方法如下：

采用基于深度学习的实例分割或者语义分割模型来获得待估计物体在图像中的位置，获得物体的分割掩模，从而直接得到物体在图像中的具体位置。

优选地，所述实例分割或者语义分割模型为Mask-RCNN。

优选地，所述步骤7-1中的目标检测方法如下：

采用基于深度学习的方法进行目标检测，目标检测以检测框的形式给出目标检测结果。

优选地，所述基于深度学习的方法为Faster-RCNN或YOLO。

本发明的有益效果如下：

1、本发明提出一种物体位姿估计和物理属性同时估计的方法，在物体位姿估计的同时，可以同时获得物体的物理属性，以获得更多的交互先验信息，提高交互的准确性和稳定性。

2、本发明由普通光学相机获得物体六自由度位姿，保证物体位姿估计的实时性和准确性。

3、本发明在不增加方法复杂性的前提下，使用普通光学相机和多光谱相机的多源信息融合的方式以同时获得物体的物理属性，提高物体物理属性估计的稳定性。

附图说明

图1为本发明方法的总框架图。

图2为本发明多光谱相机拍摄物体获得数据库图像过程示意图。

图3为本发明待估计物体的多光谱图像与某一材质属性的相似度计算过程示意图。

图4为本发明待估计物体的多光谱图像计算材质种类过程示意图。

图5为本发明通过深度学习神经网络直接从多光谱图像获得物体材质种类过程示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明为了解决机器人抓取过程中，交互信息不足以及抓取准确性和稳定性较低的问题，提出一种同时估计待抓取物体位姿与物理属性的方法，在获得物体六自由度位姿后，提供待抓取物体物理属性的先验信息，提高抓取力度的快速获取以及抓取的稳定性。

一种物体位姿估计和物理属性协同估计方法，包括如下步骤：

步骤1：设定物体的材质种类数量为N；

步骤2：建立多光谱图像特征数据库；

其中

步骤4：计算待估计物体的多光谱图像材质种类识别概率；

步骤4-1：对拍摄的多光谱图像进行处理，使其和数据库中的多光谱图像尺寸一致，使用步骤2-2的深度学习神经网络对待估计物体的多光谱图像进行特征提取，获得待估计物体的多光谱图像特征；

步骤4-2：计算待估计物体的第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类第b个波长的t个光谱图像特征间的距离，能够得到t个距离值，取t个距离值的均值表示待估计物体的多光谱图像中第b个波长的多光谱图像特征与多光谱图像特征数据库中第i种材质种类的第b个波长的光谱图像特征的平均距离值s_b；根据距离来判断特征之间的相似程度，距离越大表示相似度越低，可以采用欧式距离或者余弦距离进行特征距离计算；

步骤4-4：计算待估计物体与第i种材质种类的相似度：

其中w_b表示不同波长的光谱图像特征的平均距离值权重；

步骤4-6：采用softmax操作将相似度分数转换为概率值

P_i＝W₁p_i+W₂p′_i

步骤7：获取待估计物体的位姿；

步骤7-2：采用从图像中预测稠密三维坐标的方法，构建出RGB图像像素与三维坐标之间的对应关系；使用以ResNet结构为基础编解码结构的网络来提取图像的特征，假设网络输入维度为(3×H×W)网络输出可以和输入具有相同的维度(3×H×W)，包括三通道的坐标(x,y,z)，也可以使用网络对图像下采样n倍，输出维度为(3×H/n×W/n)。

具体实施例：

物体位姿估计与属性估计过程如图1所示，从RGB图像中获得物体位姿，以及属于某一类别的概率，可以直接从多光谱图像中获得物体属性概率，然后最终的物体属性是由两种方式获得的属性的加权得到。

对于物体位姿估计，首先在图像中定位待位姿估计物体在图像中的位置，然后进一步确定物体的位姿，使用实例分割的方法对待位姿估计和属性估计的物体进行识别与定位。

采用基于深度学习的实例分割或者语义分割模型来获得物体在图像中的位置，例如可以使用Mask-RCNN，可以获得物体的分割掩模，并且得到物体像素级的分割结果，由此可以直接得到物体在图像中的具体位置。

另外也可以使用目标检测的方法对待估计的物体进行识别与定位，采用基于深度学习的方法进行目标检测，使用Faster-RCNN、YOLO的目标检测方法来检测待估计的物体在图像中的位置，目标检测会以检测框的形式给出目标检测结果，然后对检测处理出来的物体进行位姿估计。

通常图像中的物体是非常小的，有必要对包含物体的图像区域进行放大，使网络能够提取到物体上更加细节的特征，得到更好的位姿估计性能。给定一个实例分割结果，从实例分割中获得物体的包围框，或者从目标检测器直接输出目标包围框。该包围框包含位置为C_x,y的目标对象，包围框的高和宽分别为h和w像素。为了保证图像尺寸的一致性，以高和宽中的最大值来确定最终的包围框，即包围框为正方形并且尺寸为S＝max(h,w)，为了防止包围框未能包含物体所有区域，因此将包围框以包围框中心为参考，放大包围框至

然后依据此包围框将物体区域裁剪出来，然后可以将裁剪后的图像缩放至一个固定的尺寸。

采用从图像中预测稠密三维坐标的方法，构建出图像像素—三维坐标之间的对应关系，然后根据PnP算法求解出物体的位姿。使用以ResNet结构为基础编解码结构的网络来提取图像的特征，假设网络输入维度为(3×256×256)网络输出可以和输入具有相同的维度(3×256×256)，包括三通道的坐标(x,y,z)，也可以使用网络对图像下采样4倍，输出维度为(3×64×64)。优化预测的坐标和真实坐标之间的距离，通过渲染CAD模型来获得像素点对应的坐标真值，可以采用Z-buffer算法实现，由于真实的三维坐标可能包含外点，因此使用以下距离函数来提高模型的性能。

其中y,y^*分别表示预测出来的三维坐标和真实的三维坐标。当距离小于阈值λ时采用欧式距离衡量两个坐标之间的误差，当距离大于阈值时采用欧式距离的平方根。因为待估计物体只存在与图像中的一部分，因此当使用目标检测来确定物体在图像中的位置时，需要在预测物体三维坐标的同时预测一个掩模来表示物体所在像素位置。在建立图像像素—三维坐标之间的关系时，只构建在掩模内部的图像像素—三维坐标之间的关系。然后根据建立起的2D-3D关系，采用PnP+RANSAC算法计算出物体位姿。

在输出物体三维坐标和物体掩模的同时，使用神经网络分类器输出物体的纹理特征，用于后续的物体物理属性识别。

进行物体物理属性识别具体过程，包括使用多光谱相机进行标准多光谱图像采集，标准多光谱图像特征提取，标准多光谱图像建库。假设多光谱相机可以采集的波段数量为10，假设物体材质种类为5。分别采集所有物体类别的多光谱图像，每一个物体类别采集多份多光谱图像数据，可以围绕物体拍摄多份数据，一类物体类别共拍摄t＝200份多光谱数据，如图2所示。

然后对采集到的多光谱图像数据进行特征提取，可以使用深度学习方法提取特征，根据光谱波长的不同，将提取的特征按照不同波长分开存储。获得每一类物体的光谱图像特征F^b＝[f_1,b,f_2,b,…,f_t,b]，其中f_t,b表示第b个波长第t张光谱图像的特征，每一个特征都有对应的材质类别标签；F¹⁰＝[f_1,10,f_2,10,…,f_200,10]，表示第10个波长的200个光谱图像的特征。根据此方法建立多光谱图像特征数据库，也即每一种材质都有对应的光谱图像特征，依据光谱图像特征可以获得该光谱图像对应的材质类别。

在进行物体属性识别时，使用普通视觉相机和多光谱相机对物体进行拍摄，对拍摄的多光谱图像进行处理，使其和数据库中的多光谱图像尺寸一致，使用与建立数据库提取特征所用的深度模型进行多光谱图像特征提取，获得多光谱图像特征，每个波长的光谱图像都得到一个特征，然后根据波长计算与数据库中对应的各个波长特征间的距离，来判断特征之间的相似程度，距离越大表示相似度越低，比如采用欧式距离

或者余弦距离进行特征距离1-cos<f_i,f_i ^*>计算，待估计物体的某一个波长和某一个类别属性的比较可以得到t＝200个距离值，取这200个个距离值的均值d表示待估计光谱图像中该波长图像与数据库中某一类别属性的该波长光谱图像特征的距离值。

为了方便表示，使用余弦相似性cos<f_i,f_i ^*>来表示特征向量之间的相似度，对于某一个物体T的多光谱图像，可以得到其与数据库中材质A不同波长的光谱图像特征的相似度：S＝[s₁,s₂,…s₁₀]，具体过程如图3所示。通过将待估计的多光谱图像的每一个波段和材质A对应的每一个波段分别计算相似度，比如对于波长为x₁ nm波段，使用与建库时相同的深度神经网络模型，提取此波段对应的光谱图以获得光谱图特征。然后与材质A对应波段x₁nm的t＝200个特征计算相似度，得到200个相似度，然后将其平均，得到对应于波长为x nm的平均相似度s₁。同样的方法得到物体T与属性A其他波段的相似度。

因为不同波段在识别物体属性的时候具有不同的能力，因此对于不同的波长，采用不同的权重来表示不同波长特征的重要性。最终可以根据每个波段的权重进行相似度加权求和，得到总相似度。

类似的方法，可以计算当前所拍摄的物体和每一种材质多光谱图像之间的相似性来确定当前物体的材质属性。比如，当前物体T多光谱图像和材质A多光谱图像的相似度可以表示为：

其中w_b表示不同波长光谱图像对应的权重。

然后计算当前物体T和所有材质类别的多光谱图像相似度S＝[S₁,S₂,…,S₅]。采用softmax操作将相似度分数转换为概率值

可以使用得分最高的属性类别作为最终的结果。如图4所示。

另外一种方式，可以直接采集物体属性的多光谱图像数据库并且进行属性类别标记，直接设计一种深度神经网络在这些采集的多光谱图像数据上进行训练，对于待估计的多光谱图像，将其看成一个分类问题，深度神经网络可直接输出对应的属性概率，能够比较大的降低建立特征数据库的成本，如图5所示。但是可能会导致训练的复杂度增大，因为当有新的物体属性加加入到数据库中时，可能需要重新对深度神经网络进行训练。

为了增加属性识别的准确性，充分利用视觉图像信息，因此使用从图像中提取的纹理特征来预测该物体物理属性的类别。具体的说，使用深度神经网络从物体纹理特征中直接预测物体物理属性的概率值p′_n。

联合从视觉图像和从多光谱图像的预测结果，可以得到物体最终的物理属性。采用加权的方式获得物体材质属于某一类别的概率值，如P_n＝W₁p_n+W₂p′_n，其中P_n表示物体属性为n的概率值，W₁和W₂表示光谱信息的权重和视觉图像信息的权重，p_n根据光谱信息将物体属性识别为n的概率，p′_n表示根据视觉图像信息将物体属性识别为n的概率，如图1所示。计算出所有材质的概率值，选择最大的概率值对应的材质种类作为当前物体最终的材质种类。