CN115423982B

CN115423982B - 基于图像和深度的桌面冰壶三维检测方法

Info

Publication number: CN115423982B
Application number: CN202211134848.4A
Authority: CN
Inventors: 魏明强; 陈柏安; 陈松灿; 陈涛
Original assignee: Nanjing Juzhong Sports Technology Development Co ltd; Nanjing Sports Medicine Integration Rehabilitation Industry Research Institute Co ltd; Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing Juzhong Sports Technology Development Co ltd; Nanjing Sports Medicine Integration Rehabilitation Industry Research Institute Co ltd; Nanjing University of Aeronautics and Astronautics
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-11-17
Anticipated expiration: 2042-09-19
Also published as: CN115423982A

Abstract

本发明涉及一种基于图像和深度的桌面冰壶三维检测方法，包括：利用深度相机采集桌面冰壶的RGB图像和深度数据；对二维的RGB图像使用成熟的二维目标检测方法进行二维的桌面冰壶检测；通过深度相机参数将深度图转换为三维点云数据；将二维目标检测获得的每个点的语义、纹理和几何信息通过针孔相机模型一一映射到三维点云中的每个点上；基于霍夫投票让每个点通过投票得出其所属物体的中心点；然后以预测的中心点为基础，通过固定半径内所有点的特征生成最终的三维包围盒的参数。本发明的方法采用多模态数据跨层级跨模态互补融合的检测框架，先对二维数据进行检测，二维图像丰富的语义信息与检测结果一起添加到三维点云中进行特征增强，以提高物体中心点投票的准确度，从而获得更为精准的三维检测包围盒。

Description

基于图像和深度的桌面冰壶三维检测方法

技术领域

本发明涉及三维点云模型检测领域，具体而言涉及基于图像和深度的桌面冰壶三维检测方法。

背景技术

三维点云是一种简单高效的三维场景表示形式，其通过一个个三维坐标点可以对场景进行三维建模，直观地描绘出场景中不同物体地形状，包含丰富地语义信息，因此点云广泛地被用于三维视觉方向的研究。但是由于点云具有不规则性和稀疏性等天然的特性，对其进行有效特征提取变得十分困难。尤其在桌面冰壶检测中，相对于桌面，冰壶的体积十分小，反映在点云上，冰壶往往只有很少数量的点，难以被检测出来。相对的，二维图像虽然缺少了深度位置信息，但是其包含了丰富的纹理和语义信息，并且由于其规则排列的特性，很容易进行特征提取。

发明内容

为了解决上述问题，针对二维图像和三维点云具有不同类型的特征信息，本发明从二维图像和三维点云分别进行特征提取，然后用包含丰富语义和纹理信息的图像特征去辅助具有丰富几何信息的点云特征进行检测包围盒的生成。本发明提出根据多模态特性互补的检测框架，将二维的特征融合进三维特征中作为辅助进行三维目标检测。

为实现上述目的，本发明采用如下技术方案：基于图像和深度的桌面冰壶三维检测方法，包括以下步骤：

(1)获取桌面冰壶的二维RGB图像和三维点云数据；

(2)用二维目标检测算法和PointNet++分别对图像和点云进行特征提取，获取图像每个像素的几何、语义和纹理信息和点云特征；

(3)将二维像素的特征与三维点云的特征拼接在一起，基于霍夫投票预测出检测目标的中心点；

(4)对投票后的点云进行采样和聚集操作，生成一个个点云聚类，然后应用自我注意力机制提取上下文信息；

(5)对处理后的聚类特征进行池化操作，然后生成每个包围盒的参数，接着进行非极大值抑制，过滤掉冗余的部分，得到最终精确的结果。

进一步地，步骤(1)包括如下子步骤：

(1.1)使用RGBD相机采集桌面冰壶的RGB图像和深度数据；

(1.2)根据RGBD相机的内部参数将采集的二维深度图中每个像素i坐标为(u，v)的深度值d转换为三维空间中的点坐标为(x，y，z)。

进一步地，步骤(2)包括如下子步骤：

(2.1)对于二维RGB图像，应用成熟的二维目标检测算法来检测图像中的冰壶，并用二维检测框将其包围起来；

(2.2)然后用一个0-1向量来表示每个像素的语义值，在包围框中的像素作为检测出的目标，语义值置为1，包围框外的目标视作背景，语义值置为0；

(2.3)接着为每一个像素分配一个二维的向量来描述每个像素到其所属包围框中心的方位，包围框外的像素置为0，用来表示每个像素的几何信息；

(2.4)每个像素的RGB值则作为该像素的纹理信息；

(2.5)应用PointNet++网络对点云进行特征提取，将原始的点云从三维的坐标通过堆叠的多层感知器MLP提升到更高的一个维度，作为点的初始特征；具体地：将原始的点云特征(N×3)通过多层感知器提升到更高的一个维度(N×C)，作为点的初始特征，原来的每个点只有一个三维的坐标(x，y，z)特征，之后升维到C维度的特征，其中每一维度的特征值由之前的(x，y，z)坐标进行加权求和得出，其中PointNet++就是通过多个多层感知器的堆叠来对场景特征进行非线性的模拟，并且通过最远点采样来减少点的数量以降低计算量，输出最终提取的特征为(K×(3+F))，其中K为采样后点的数量，3为每个点的坐标，F为每个点学习到的特征数量。

进一步地，步骤(3)包括如下子步骤：

(3.1)点云特征和图像特征通过一个自我注意力机制学习一个点层级的上下文信息帮助缓解数据丢失的问题和聚集相似点之间的补充信息；

(3.2)通过一个简单的针孔相机模型，根据RGBD相机的参数，将二维图像上的每一个像素与三维点云中的每一个点都对应起来，以此将二维像素中的几何、语义和纹理信息都添加三维点的特征上来；

(3.3)拼接的特征与点云特征和图像特征并行的执行相同的后续操作共同训练，防止由某一特征主导训练过程而产生的过拟合；

(3.4)经过特征增强后的点云通过霍夫投票算法，每个点投出一票来确定其所属三维物体的中心点，得票数最高者即为预测的中心点。

进一步地，(3.1)中，自我注意力机制是通过三个转换函数α(.)，β(·)，θ(·)将原来的点云特征由(K×F)转换为(K×F/2)，然后通过矩阵间的相乘得到获取上下文信息之后的点云特征：A'＝f((α(A)×β(A))×θ(A))，(α(A)×β(A))得到(K×K)的注意力权重矩阵，然后再与θ(A)相乘得到(K×F/2)的点云特征，最后通过f(·)转换函数将特征维度恢复到F，得到最终点云特征(K×F)。

进一步地，(3.4)中，经过特征增强后的点云通过霍夫投票算法，原先的点云特征P(K×(3+F))通过多层感知器(MLP)输出相同维度的偏移特征P_o(K×(3+F))，表示每个点到其所属物体中心点的坐标和特征的偏移量，然后将预测的偏移量和原先的特征进行数值的相加得到预测的物体中心点的坐标和特征P_c＝P+P_o(K×(3+F))。

进一步地，步骤(4)包括如下子步骤：

(4.1)对投票后的点云进行最远点采样，采样出的N个点，以采样出的每个点作为中心，半径为R画一个球，取球中距离中心点最近的前n个点视为一个聚类，得到的这N个聚类(N×n×(3+F))就是检测物体的雏形；

(4.2)对聚类进行最大池化，使每个聚类中的多个点特征压缩为单一的表示整个聚类的特征；

(4.3)接着对于采样和聚集后每个聚类使用自我注意力机制，使每个聚类可以感知其他聚类的物体层级的上下文特征；

(4.3)最后将点层级和物体层级的上下文特征进行拼接，得到全局层级的上下文特征，然后再与聚类特征相乘用以感知全局的信息。

进一步地，步骤(5)包括如下子步骤：

(5.1)对于获取全局上下文信息的聚类特征(N×F)通过多层感知器MLP进行降维，生成最终的检测结果(N×9)，其中的7个维度表示的是包围盒的参数，分别是包围和的中心坐标(x,y,z)，包围盒的尺寸(w,h,l)，和包围盒在水平方向上的朝向角度(θ)，另外的两个维度表示的是分类和定位置信度，一个维度表示该包围盒中物体属于冰壶的概率，另一维度则是表示该包围盒定位准确的概率；

(5.2)出于鲁棒性思维，采样点数量的选取是留有余量的，最后输出的包围盒肯定是冗余的，所以需要非极大值抑制算法来去除掉多余的包围盒，得到最终的预测结果。

进一步地，(5.2)具体的步骤：第一步先根据分类的置信度去除掉冰壶预测概率低于0.5的包围盒，第二步将那些预测包围盒中心点位置相近的包围盒按照准确的置信度从高到低排序，去除掉那些定位准确概率低0.5的结果，得到最终的预测结果。

有益效果：本发明设计了多模态混合协同检测的三维目标检测算法，实现了桌面冰壶的高效与准确的三维检测。具体是通过：先对二维图像进行检测，为每个像素赋予语义、纹理和几何信息，再将这些特征添加到相应的三维点上，以此来过滤掉大部分背景点的干扰，解决了点云不规则、稀疏而难处理的问题。

附图说明

图1为本发明的基于图像和深度的桌面冰壶三维检测方法的流程图；

图2为本发明桌面冰壶三维检测网络的结构示意图；

图3为本发明的基于图像和深度的桌面冰壶三维检测方法的检测结果图。

具体实施方式

下面结合附图对本发明的基于图像和深度的桌面冰壶三维检测方法作进一步介绍。

如图1所示，基于图像和深度的桌面冰壶三维检测方法，其特征在于，包括以下步骤：

(1)获取桌面冰壶的二维RGB图像和三维点云数据；

步骤(1)具体包括：

(1.1)使用RGBD相机采集桌面冰壶的RGB图像和深度数据；

(2)用二维目标检测算法和PointNet++分别对图像和点云进行特征提取，获取图像每个像素的几何、语义和纹理信息和点云特征。

步骤(2)具体包括：

(2.1)对于二维RGB图像，应用成熟的二维目标检测算法来检测图像中的冰壶，并用二维检测框将检测出的冰壶包围起来；

(2.4)每个像素的RGB值则作为该像素的纹理信息；

(2.5)将原始的点云特征(N×3)通过多层感知器(MLP)提升到更高的一个维度(N×C)，作为点的初始特征，原来的每个点只有一个三维的坐标(x，y，z)特征，之后升维到C维度的特征，其中每一维度的特征值由之前的(x，y，z)坐标进行加权求和得出，PointNet++就是通过多个多层感知器的堆叠来对场景特征进行非线性的模拟，并且通过最远点采样来减少点的数量以降低计算量，输出最终提取的特征为(K×(3+F))，其中K为采样后点的数量，3为每个点的坐标，F为每个点学习到的特征数量；

(3)将二维像素的特征与三维点云的特征拼接在一起，基于霍夫投票预测出检测目标的中心点。

步骤(3)具体包括：

(3.1)自我注意力机制是通过三个转换函数α(·)，β(·)，θ(·)将原来的点云特征由(K×F)转换为(K×F/2)，然后通过矩阵间的相乘得到获取上下文信息之后的点云特征：A'＝f((α(A)×β(A))×θ(A))，(α(A)×β(A))得到(K×K)的注意力权重矩阵，然后再与θ(A)相乘得到(K×F/2)的点云特征，最后通过f(·)转换函数将特征维度恢复到F，得到最终点云特征(K×F)。

(3.2)通过一个简单的针孔相机模型，根据RGBD相机的参数，将二维图像上的每一个像素与三维点云中的每一个点都对应起来，以此将二维像素中的几何、语义和纹理信息(K×(3+F'))都添加三维点云的特征(K×(3+F))上得到拼接后的点云特征(K×(3+F+F'))；

(3.4)经过特征增强后的点云通过霍夫投票算法，原先的点云特征P(K×(3+F))通过多层感知器(MLP)输出相同维度的偏移特征P_o(K×(3+F))，表示每个点到其所属物体中心点的坐标和特征的偏移量，然后将预测的偏移量和原先的特征进行数值的相加得到预测的物体中心点的坐标和特征P_c＝P+P_o(K×(3+F))；

(4)对投票后的点云进行采样和聚集操作，生成一个个点云聚类，然后应用自我注意力机制提取上下文信息。

步骤(4)具体包括：

(4.2)对聚类进行最大池化，使每个聚类中的多个点特征压缩为单一的表示整个聚类的特征(N×(3+F))；

(4.3)接着对于采样和聚集后每个聚类使用自我注意力机制，使每个聚类可以感知其他聚类的物体层级的上下文特征，该操作与点层级上下文信息获取A'＝f((α(A)×β(A))×θ(A))相同，输出相同维度的增强后聚类特征(N×(3+F))；

(4.4)将应用自我注意力机制之前的点层级的特征(K×F_p)和物体层级的特征(N×F_o)进行第一维度的最大池化，分别得到单通道的点层级的特征(1×F_p)和物体层级的特征(1×F_o)，然后拼接在一起得到包含全局信息的全局特征(1×(F_p+F_o))，接着按照第一维度进行特征复制N次，生成特征(N×(F_p+F_o))，再与应用自我注意力机制后物体层级特征拼接在一起得到特征(N×(F_p+F_o+F_o'))，然后使用多层感知器(MLP)进行降维，接着跟着一个Sigmoid函数将特征值归一化到[0,1]之间得到一个全局注意力权重矩阵(N×F)，然后再与聚类特征相乘得到全局层级的上下文特征。

(5)对处理后的聚类特征进行池化操作，然后生成每个包围盒的参数和分类置信度，接着进行非极大值抑制，过滤掉冗余的部分，得到最终精确的结果。

步骤(5)具体包括：

(5.1)对于获取全局上下文信息的聚类特征(N×F)通过多层感知器(MLP)进行降维，生成最终的检测结果(N×9)，其中的7个维度表示的是包围盒的参数，分别是包围和的中心坐标(x,y,z)，包围盒的尺寸(w,h,l)，和包围盒在水平方向上的朝向角度(θ)，另外的两个维度表示的是分类和定位置信度，一个维度表示该包围盒中物体属于冰壶的概率，另一维度则是表示该包围盒定位准确的概率；

(5.2)出于鲁棒性思维的考量，采样点数量的选取是留有余量的，最后输出的包围盒肯定是冗余的，所以需要非极大值抑制算法来去除掉多余的包围盒。这大致分为两步，第一步先根据分类的置信度去除掉冰壶预测概率低于0.5的包围盒，第二步将那些预测包围盒中心点位置相近的包围盒按照准确的置信度从高到低排序，去除掉那些定位准确概率低0.5的结果，得到最终的预测结果。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.基于图像和深度的桌面冰壶三维检测方法，其特征在于，包括以下步骤：

(1)获取桌面冰壶的二维RGB图像和三维点云数据；

(5)对处理后的聚类特征进行池化操作，然后生成每个包围盒的参数，接着进行非极大值抑制，过滤掉冗余的部分，得到最终精确的结果；

其中所述步骤(2)包括：

(2.4)每个像素的RGB值则作为该像素的纹理信息；

2.根据权利要求1所述的基于图像和深度的桌面冰壶三维检测方法，其特征在于，步骤(1)包括：

(1.1)使用RGBD相机采集桌面冰壶的RGB图像和深度数据；

3.根据权利要求1所述的基于图像和深度的桌面冰壶三维检测方法，其特征在于，步骤(3)包括：

4.根据权利要求3所述的基于图像和深度的桌面冰壶三维检测方法，其特征在于，(3.1)中，自我注意力机制是通过三个转换函数α(·)，β(·)，θ(·)将原来的点云特征由(K×F)转换为(K×F/2)，然后通过矩阵间的相乘得到获取上下文信息之后的点云特征：A'＝f((α(A)×β(A))×θ(A))，(α(A)×β(A))得到(K×K)的注意力权重矩阵，然后再与θ(A)相乘得到(K×F/2)的点云特征，最后通过f(·)转换函数将特征维度恢复到F，得到最终点云特征(K×F)。

5.根据权利要求3所述的基于图像和深度的桌面冰壶三维检测方法，其特征在于，(3.4)中，经过特征增强后的点云通过霍夫投票算法，原先的点云特征P(K×(3+F))通过多层感知器(MLP)输出相同维度的偏移特征P_o(K×(3+F))，表示每个点到其所属物体中心点的坐标和特征的偏移量，然后将预测的偏移量和原先的特征进行数值的相加得到预测的物体中心点的坐标和特征P_c＝P+P_o(K×(3+F))。

6.根据权利要求1所述的基于图像和深度的桌面冰壶三维检测方法，其特征在于，步骤(4)包括：

(4.4)最后将点层级和物体层级的上下文特征进行拼接，得到全局层级的上下文特征，然后再与聚类特征相乘用以感知全局的信息。

7.根据权利要求6所述的基于图像和深度的桌面冰壶三维检测方法，其特征在于，(4.4)中，具体步骤为：)将应用自我注意力机制之前的点层级的特征(K×F_p)和物体层级的特征(N×F_o)进行第一维度的最大池化，分别得到单通道的点层级的特征(1×F_p)和物体层级的特征(1×F_o)，然后拼接在一起得到包含全局信息的全局特征(1×(F_p+F_o))，接着按照第一维度进行特征复制N次，生成特征(N×(F_p+F_o))，再与应用自我注意力机制后物体层级特征拼接在一起得到特征(N×(F_p+F_o+F_o'))，然后使用多层感知器MLP进行降维，接着跟着一个Sigmoid函数将特征值归一化到[0,1]之间得到一个全局注意力权重矩阵(N×F)，然后再与聚类特征相乘得到全局层级的上下文特征。

8.根据权利要求1所述的基于图像和深度的桌面冰壶三维检测方法，其特征在于，步骤(5)包括：

(5.2)基于鲁棒性思维，采样点数量的选取是留有余量的，最后输出的包围盒肯定是冗余的，需要采用非极大值抑制算法来去除掉多余的包围盒，得到最终的预测结果。

9.根据权利要求8所述的基于图像和深度的桌面冰壶三维检测方法，其特征在于，(5.2)具体的步骤：第一步先根据分类的置信度去除掉冰壶预测概率低于0.5的包围盒，第二步将那些预测包围盒中心点位置相近的包围盒按照准确的置信度从高到低排序，去除掉那些定位准确概率低0.5的结果，得到最终的预测结果。