CN116912645A

CN116912645A - 融合纹理和几何特征的三维目标检测方法及装置

Info

Publication number: CN116912645A
Application number: CN202310798389.8A
Authority: CN
Inventors: 李书晓; 朱承飞; 刘禹
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-10-20

Abstract

本发明提供一种融合纹理和几何特征的三维目标检测方法及装置，所述方法包括：基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征；基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征；可见光图像和所述深度图像是通过结构光相机获取的；对鸟瞰图可见光特征和鸟瞰图深度特征进行融合，确定目标融合特征；基于目标融合特征，进行三维目标检测。本发明提供的融合纹理和几何特征的三维目标检测方法，通过根据可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征，将鸟瞰图可见光特征和鸟瞰图深度特征进行有效融合得到目标融合特征，并进行三维目标检测，提高了结构光相机的三维目标检测效果。

Description

融合纹理和几何特征的三维目标检测方法及装置

技术领域

本发明涉及视觉感知技术领域，尤其涉及一种融合纹理和几何特征的三维目标检测方法及装置。

背景技术

结构光相机能够同时获得场景的可见光图像和深度图像，且价格低廉，近年来在服务机器人、自主移动机器人、体感游戏设备等领域获得了广泛应用，逐步成为场景视觉感知、即时定位与构图、机械手视觉抓取等技术的主流传感器。

作为场景视觉感知的核心任务，基于结构光相机的目标检测技术已经获得了国内外研究者的大量关注。现有一部分方法首先用深度图像替代可见光图像的一个通道得到合成图像，然后利用视觉图像感知算法获得目标检测结果；另一部分方法将深度图像复制为三通道图像，采用并行的视觉图像感知算法分别处理可见光图像和深度图像，进而基于特征级或决策级融合实现目标检测。

在结构光相机获得的数据中，可见光图像含有丰富的纹理信息，深度图像含有显著的几何信息。现有方法将深度图像看作二维图像进行处理，难以充分利用深度图像中含有的目标几何特征，没有充分挖掘可见光图像和深度图像的互补特性，造成特征融合效果有限，复杂场景下目标检测的性能有待提升。另外，三维目标检测对于提升服务机器人的三维场景理解、动态路径规划和精准操作能力具有重要意义，现有方法主要关注图像坐标系下的二维目标检测方法，很少涉及机器人坐标系下的三维目标检测技术。

总的来说，现有方法在面对基于结构光相机的场景感知问题时，存在融合检测效果有限和难以实现三维目标检测的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种融合纹理和几何特征的三维目标检测方法及装置。

本发明提供一种融合纹理和几何特征的三维目标检测方法，包括：

基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征；

基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征；所述可见光图像和所述深度图像是通过结构光相机获取的；

对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征；

基于所述目标融合特征，进行三维目标检测。

在一些实施例中，所述基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征，包括：

基于所述深度图像，对所述可见光图像特征的空间位置对应的目标区域进行深度分布估计，确定所述空间位置的深度概率分布；

基于所述深度概率分布和所述可见光图像特征，利用矩阵外积进行三维空间特征映射，确定三维椎体空间可见光特征；

对所述三维椎体空间可见光特征进行特征空间坐标变换，确定服务机器人坐标系下的三维空间可见光特征；

对所述服务机器人坐标系下的三维空间可见光特征进行编码，确定所述鸟瞰图可见光特征。

在一些实施例中，所述基于所述深度图像，对所述可见光图像特征的空间位置对应的目标区域进行深度分布估计，确定所述空间位置的深度概率分布，包括：

对所述深度图像进行深度值离散化处理，确定离散深度图像；

基于所述离散深度图像，对所述空间位置对应的目标区域内的离散深度值进行直方图统计，确定所述空间位置的深度直方图；

对所述深度直方图进行置信度估计，确定所述空间位置的深度估计置信度；

对所述深度直方图进行归一化处理，确定所述空间位置的深度估计分布；

基于所述深度估计置信度和所述深度估计分布，确定所述空间位置的深度概率分布。

在一些实施例中，所述基于所述深度估计置信度和所述深度估计分布，确定所述空间位置的深度概率分布，包括：

以所述深度估计置信度为权重，对所述深度估计分布和所述空间位置的先验均匀分布进行加权平均，确定所述空间位置的深度概率分布。

在一些实施例中，所述基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征，包括：

将所述深度图像对应的三维点云投影到鸟瞰图空间；

对投影后的三维点云进行重采样，确定规范化点柱；

对所述规范化点柱进行点柱抽象特征提取，确定所述鸟瞰图深度特征。

在一些实施例中，所述对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征，包括：

对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行对齐，确定增强可见光特征和增强深度特征；

对所述增强可见光特征和所述增强深度特征进行拼接，确定初始融合特征；

基于多头注意力对所述初始融合特征进行空间特征增强，确定所述目标融合特征。

本发明还提供一种融合纹理和几何特征的三维目标检测装置，包括：

第一确定模块，用于基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征；

第二确定模块，用于基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征；所述可见光图像和所述深度图像是通过结构光相机获取的；

融合模块，用于对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征；

检测模块，用于基于所述目标融合特征，进行三维目标检测。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述融合纹理和几何特征的三维目标检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述融合纹理和几何特征的三维目标检测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述融合纹理和几何特征的三维目标检测方法。

本发明提供的融合纹理和几何特征的三维目标检测方法及装置，通过根据可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征，将鸟瞰图可见光特征和鸟瞰图深度特征进行有效融合得到目标融合特征，并进行三维目标检测，提高了结构光相机的三维目标检测效果，提升服务机器人的三维场景理解和精准操作能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的融合纹理和几何特征的三维目标检测方法的流程示意图之一；

图2是本发明实施例提供的融合纹理和几何特征的三维目标检测方法的流程示意图之二；

图3是本发明实施例提供的融合纹理和几何特征的三维目标检测方法的流程示意图之三；

图4是本发明实施例提供的确定鸟瞰图可见光特征的方法的流程示意图；

图5是本发明实施例提供的确定目标融合特征的方法的流程示意图；

图6是本发明实施例提供的融合纹理和几何特征的三维目标检测装置的结构示意图；

图7是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”所区别的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

图1是本发明实施例提供的融合纹理和几何特征的三维目标检测方法的流程示意图之一，如图1所示，本发明实施例提供的融合纹理和几何特征的三维目标检测方法，包括：

步骤101、基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征；

步骤102、基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征；所述可见光图像和所述深度图像是通过结构光相机获取的；

步骤103、对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征；

步骤104、基于所述目标融合特征，进行三维目标检测。

需要说明的是，本发明提供的融合纹理和几何特征的三维目标检测方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本发明不作具体限定。

本发明实施例中的可见光图像和深度图像都是通过结构光相机获取的。结构光相机一般将光栅投射模组按照时间序列依次投射在被测物体表面，基于事先编码规则进行解码和双目视差匹配获得高精度深度信息，服务机器人中最常用的结构光相机为Intel的RealSense系列。

结构光相机通常也被称为RGB-D相机，其输出为同一采样时刻获得的含有RGB色彩信息的可见光图像I^rgb∈R^w×h×3和含有距离信息的深度图像I^d∈R^w×h×1，w和h分别为可见光图像和深度图像的行和列的像素个数。

通过服务机器人上设置的结构光相机传感器，可以获取可见光图像I^rgb和深度图像I^d。

在步骤101中，基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征。

可见光图像特征是指基于图像特征编码网络获取的可见光图像的多通道特征图，可表示为F^rgb∈R^w1×h1×c，w1和h1分别为经过图像特征编码网络中的池化操作后的特征图分辨率，典型取值为w1＝w/8，h1＝h/8，c为特征图的通道数量。

图像特征编码网络为将可见光图像转换为可见光图像特征的神经网络模型，比如常用的ResNet、MobileNet、DenseNet等。

具体地，在获取结构光相机的可见光图像I^rgb后，利用图像特征编码网络f_{Encoder_RGB}进行特征编码，得到可见光图像特征F^rgb，可表示为Frg^b＝f_{Encoder_RGB}(I^rgb)。

为提升训练稳定性，可以在ImageNet数据集上对图像特征编码网络进行预训练，并以获得的预训练参数初始化图像特征编码网络的网络参数。

利用深度图像将可见光图像特征变换到鸟瞰图空间下，可以得到包含纹理信息的鸟瞰图可见光特征。

鸟瞰图空间是指以结构光相机传感器中心点三维坐标为原点、以水平面为坐标平面、以服务机器人前进方向为Y坐标轴的二维平面坐标系，通常将感知范围表示为鸟瞰图空间中大小为w2×h2的离散栅格，w2和h2分别为服务机器人前方区域中行和列的感知栅格数量。

假设栅格分辨率为s2米，则服务机器人的有效感知区域大小为(w2·s2)×(h2·s2)，w2、h2和s2依据服务机器人的感知范围需求、三维目标检测精度需求和可用计算资源约束综合确定。

鸟瞰图可见光特征是指在鸟瞰图空间下获取的可见光图像特征，通常表示为张量B^rgb∈R^w2×h2×c。由于可见光图像含有大量细节信息，鸟瞰图可见光特征含有丰富的纹理信息。

在确定深度图像I^d和可见光图像特征F^rgb后，利用鸟瞰图特征映射网络f_{BEV_RGB}进行特征变换，得到包含纹理信息的鸟瞰图可见光特征B^rgb，可表示为：B^rgb＝f_{BEV_RGB}(I^d，F^rgb)。

鸟瞰图特征映射网络是指将可见光图像特征转换为鸟瞰图可见光特征的神经网络模型，比如常用的LSS算法。本发明提出一种基于深度图像的鸟瞰图特征映射网络，具有精度高和速度快的优点。

在步骤102中，基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征。

三维点云是指将二维深度图像转换到三维机器人坐标系下的感知数据，可表示为N^e为二维深度图像中的有效测量值个数，(x_i，y_i，z_i)为第i个有效测量值在三维机器人坐标系中的三维坐标。

三维机器人坐标系沿用了鸟瞰图空间的X坐标轴和Y坐标轴，Z坐标轴为垂直向上方向。

鸟瞰图深度特征是指在鸟瞰图空间下获取的三维点云特征，通常表示为张量B^d∈R^w2×h2×c。由于三维点云含有显著结构信息，鸟瞰图深度特征含有丰富的几何信息。

在确定深度图像I^d后，利用结构光相机的内外矫正参数确定投影矩阵并进行空间变换，得到三维点云数据P^e。

在得到三维点云数据P^e后，利用点云特征编码网络f_{Encoder_d}进行特征编码，得到包含几何信息的鸟瞰图深度特征B^d＝f_{Encoder_d}(P^e)。

点云特征编码网络为将三维点云数据转换为鸟瞰图深度特征的神经网络模型，比如常用的PointPillars、PointGrid等。

在步骤103中，对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征。

对鸟瞰图可见光特征和所述鸟瞰图深度特征进行数据融合和空间增强，可以得到目标融合特征。

数据融合旨在利用相同目标对象的多个不同观测值实现信息增强，提升场景中不确定信息的感知能力。

空间增强旨在利用特征在不同空间位置的关联实现干扰特征抑制和有效特征增强，提升场景感知的准确率和精度。

在确定鸟瞰图可见光特征B^rgb和鸟瞰图深度特征B^d后，利用数据融合与空间增强网络f_fusion进行特征融合，得到目标融合特征B^fusion，可表示为：B^fusion＝f_fusion(B^rgb，B^d)。

数据融合与空间增强网络是指将鸟瞰图可见光特征和鸟瞰图深度特征进行数据融合的神经网络模型，通常由若干卷积网络单元、注意力机制单元等组成。

该步骤中的数据融合与空间增强网络中含有网络参数，可通过人工标注数据进行端到端训练获得。

在步骤104中，基于所述目标融合特征，进行三维目标检测。

基于目标融合特征，进行类别预测和边框回归，得到三维目标检测结果。

在确定目标融合特征Bf^usion后，利用类别预测和边框回归网络f_det进行目标位置和类别预测，得到三维目标检测结果O^det，可表示为：O^det＝f_det(Bf^usion)。

类别预测和边框回归网络旨在获取典型目标类别概率预测值和包围框回归值，以此为基础得到三维目标检测结果，例如经常使用的1层3×3卷积加1层1×1卷积。

该步骤中的类别预测和边框回归网络含有网络参数，可通过人工标注数据进行端到端训练获得。

本发明提供的融合纹理和几何特征的三维目标检测方法，通过根据可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征，将鸟瞰图可见光特征和鸟瞰图深度特征进行有效融合得到目标融合特征，并进行三维目标检测，提高了结构光相机的三维目标检测效果，提升服务机器人的三维场景理解和精准操作能力。

可见光图像特征的每一个空间位置对应深度图像的一个局部区域，即目标区域，根据深度图像，对每一个空间位置对应的局部区域进行深度分布估计，可以得到每一个空间位置的深度概率分布。

确定深度图像I^d后，利用深度分布估计模块f_dept进行深度分布估计，得到深度概率分布F^d＝f_depth(I^d)。

深度概率分布模块是指将有效深度值离散化为K个典型深度间隔后，根据深度图像计算出每一个空间位置(u_i，v_i)的特征可能属于每一个典型深度间隔d_k的概率值/>所有概率值合并起来组成深度概率分布F^d∈R^w1×h1×K。

三维椎体空间是指以结构光相机的光心为顶点，在顶点与每一个图像特征空间位置的射线方向，利用典型深度间隔建立的整体呈现椎体形状的三维空间。

三维椎体空间坐标可以由(u_i，v_i，d_k)表示，(u_i，v_i)，i∈[1，w1×h1]决定了每一个图像特征空间位置的射线方向，d_k为该射线方向上的第k个典型深度值的位置。

可理解地，三维椎体空间是三维摄像机空间的一种离散栅格化描述。

得到深度概率分布F^d∈R^w1×h1×K和可见光图像特征F^rgb∈R^w1×h1×c后，对每一个图像特征空间位置利用矩阵外积进行三维空间特征映射，得到三维椎体空间可见光特征F^3D1∈R^w1×h1×K×c。

得到三维椎体空间可见光特征F^3D1∈R^w1×h1×K×c后，对三维椎体空间的每一个坐标位置(u_i，v_i，d_k)，利用结构光相机的像元尺寸参数(c_x，c_y)和中心位置参数(u₀，v₀)将其转换为摄像机坐标系下的三维坐标值{(u_i-u₀)·c_x，(v_i-v₀)·c_y，d_k}。

然后基于三维摄像机坐标系到三维机器人坐标系的校正矩阵f^{camera→robot}利用矩阵乘法获取该测量值在三维机器人坐标系中的三维坐标。

对三维椎体空间中的所有空间位置执行上述操作得到服务机器人坐标系下的三维坐标集合及其特征，此即服务机器人坐标系下的三维空间可见光特征F^3D2∈R^w1×h1×K×c。

得到服务机器人坐标系下的三维空间可见光特征F^3D2∈R^w1×h1×K×c后，将每一个空间位置的三维空间可见光特征投影到大小为w2×h2的二维鸟瞰图空间栅格中，对栅格中特征数量大于1的取均值，对栅格数为0的赋值为0，得到空间降维后的初始鸟瞰图可见光特征B^rgb0∈R^w2×h2×c。

基于初始鸟瞰图可见光特征，利用由3×3卷积组成的神经网络模型进行特征编码，得到包含纹理信息的鸟瞰图可见光特征B^rgb∈R^w2×h2×c。

本发明提供的融合纹理和几何特征的三维目标检测方法，通过根据深度图像和可见光图像特征经过图像坐标系至世界坐标系的空间变换得到鸟瞰图可见光特征，有利于获取三维空间的纹理特征，进一步提升了三维目标检测算法的性能。

基于深度图像，利用数值量化进行深度值离散化，得到离散深度图像。

在获取深度图像Id和典型深度间隔后，将每一个空间位置的深度值映射为与其取值最接近的典型深度间隔的标号/>得到离散深度图像I^d1∈Z^w×h×1。

基于离散深度图像，对每一个空间位置对应的局部区域内的离散深度值进行直方图统计，得到每一个空间位置的深度直方图。

可见光图像特征的每一个空间位置对应深度图像的一个局部区域，此处可以选择无重叠区域或有部分重叠区域的图像块，本发明实施例对此不作具体限定。

在获取离散深度图像I^d1后，统计可见光图像特征的每一个空间位置对应的局部区域内的离散深度图像块的直方图，得到可见光图像特征的每一个空间位置的深度直方图，所有深度直方图合并起来可得到深度直方图张量F^hist∈Z^w1×h1×K。

在获取深度直方图张量F^hist后，通过累加运算统计每一个空间位置的有效深度值的数量，得到观测值数量张量Fnum∈Z^w1×h1×1。此处的有效深度值是指结构光相机获得的深度图像中标记为有效的深度值。

可理解地，某空间位置的有效深度值数量越多，该空间位置的深度估计置信度越高；某空间位置的有效深度值数量越少，该空间位置的深度估计置信度越低。

在获取观测值数量张量Fnum后，利用归一化映射函数得到每一个空间位置的深度估计置信度，所有深度估计置信度合并起来得到深度估计置信度张量F^evi∈R^w1×h1×1。

归一化映射函数可以选用指数函数γ为控制归一化程度的阈值，T^max为最大的有效深度值数量，也可以选择线性函数f_weight(x)＝x/T^max，本发明实施例对此不作具体限定。

在获取深度直方图张量F^hist和观测值数量张量F^num后，利用逐点除法运算进行归一化操作，得到每一个空间位置的深度估计分布张量F^pdf∈R^w1×h1×K。

可理解地，某空间位置的深度估计分布的累加和为1。

在获取深度估计分布张量F^pdf和深度估计置信度张量F^evi后，利用加权平均得到深度概率分布F^d，表达式如下：

其中，为所有元素取值均为1/K的K维先验均匀分布向量。

利用先验均匀分布进行加权平均的目的是为了防止深度估计置信度较低时，仅仅利用深度估计分布可能带来的性能不稳定问题。

本发明实施例提供的融合纹理和几何特征的三维目标检测方法，通过利用先验均匀分布进行加权平均，可以防止深度估计置信度较低时，利用深度估计分布可能带来的性能不稳定，提高了空间位置的深度概率分布的准确性。

将所述深度图像对应的三维点云投影到鸟瞰图空间；

对投影后的三维点云进行重采样，确定规范化点柱；

将深度图像转换为三维点云，利用点云网络进行特征编码，可以得到包含几何信息的鸟瞰图深度特征。

利用结构光相机的内外矫正参数确定投影矩阵并将深度图像I^d转换为三维点云数据P^e。对深度图像中的每一个有效像素点(u_i，v_i)及其测量值d_i，利用摄像机像元尺寸参数(c_x，c_y)和中心位置参数(u₀，v₀)将其转换为摄像机坐标系下的三维坐标值{(u_i-u₀)·c_x，(v_i-v₀)·c_y，d_i}。

然后基于三维摄像机坐标系到三维机器人坐标系的校正矩阵T^{camera→robot}利用矩阵乘法获取该测量值在三维机器人坐标系中的三维坐标(x_i，y_i，z_i)。

对深度图像中的所有有效像素点执行上述操作，获得的三维坐标点集合即为所述三维点云数据

将三维点云数据Pe投影到鸟瞰图空间并进行重采样，得到规范化点柱。

具体地，在确定获得三维点云数据P^e后，将每一个观测值投影到对应的鸟瞰图空间离散栅格中，每一个离散栅格中落入了不同数量的点云，通常将其称为点柱。

设点柱中观测值的标准数量为n^pillar，对观测值数量大于n^pillar的点柱进行随机采样，对观测值数量小于n^pillar的点柱进行随机复制，得到栅格化的、观测值数量固定的规范化点柱

基于所述规范化点柱，利用点柱编码网络进行点柱抽象特征提取，得到鸟瞰图深度特征。

具体地，服务器获得规范化点柱F^pillar后，利用点柱编码网络f_pillar得到点柱的几何结构特征，即鸟瞰图深度特征，可表示为：B^d＝f_pillar(F^pillar)∈R^w2×h2×c。

其中，点柱编码网络f_pillar可以使用点云网络PointNet，也可以沿着z坐标轴进一步划分为体素，计算每一个体素的几何特征并拼接，然后利用1×1卷积进行特征聚合和维度调节。

该步骤中的点柱编码网络含有网络参数，可通过人工标注数据进行端到端训练获得。

本发明实施例提供的融合纹理和几何特征的三维目标检测方法，通过将深度图像对应的三维点云投影到鸟瞰图空间，对投影后的三维点云进行重采样，确定规范化点柱，对规范化点柱进行点柱抽象特征提取，能够有效获取三维空间的几何特征。

基于所述鸟瞰图可见光特征和所述鸟瞰图深度特征，利用可变形注意力网络进行局部自适应对齐的纹理和几何特征互相增强，得到增强可见光特征和增强深度特征。

鸟瞰图可见光特征和鸟瞰图深度特征存在局部对齐误差，可变形注意力网络可实现局部自适应特征对齐和互相增强。

可变形注意力网络基于特征相似性实现大感受域的动态特征聚合，通过动态生成少量关键点降低计算复杂度，为跨模态特征交互的有效技术之一。

在得到鸟瞰图可见光特征B^rgb∈R^w2×h2×c和鸟瞰图深度特征B^d∈R^w2×h2×c后，将其在特征维度方向堆叠起来得到拼接特征Bc∈R^w2×h2×(2c)。

获得拼接特征Bc后，利用由1×1卷积和激活层组成的偏差权重估计网络，得到每个位置对应的注意力关键点偏移量Δp以及注意力权重A。

然后，以鸟瞰图可见光特征B^rgb(鸟瞰图深度特征B^d)为Q，以鸟瞰图深度特征B^d(鸟瞰图可见光特征B^rgb)为K和V，建立可变形注意力机制得到增强可见光特征B^rgb2(增强深度特征B^d2)，表达式如下：

其中，z_q和p_q分别为鸟瞰图可见光特征B^rgb(鸟瞰图深度特征B^d)某个位置的特征向量和坐标位置；x^c(·)为双线性插值函数，用于获取某个非整数坐标位置的可见光特征；和W_m分别为第m个可变形注意力头的降维矩阵和升维矩阵；M和K分别为注意力头和关键点采样的数量，A_mqk表示注意力权重，Δp_mpk表示注意力关键点偏移量。

可变形注意力机制不仅可以降低特征聚合复杂度，而且能够依据特征相似度实现存在局部对齐误差情况下的局部自适应特征对齐和互相增强。

基于增强可见光特征和增强深度特征，利用特征拼接和1×1卷积降维进行纹理和几何特征的数据融合，得到初始融合特征。

在得到增强可见光特征B^rgb2∈R^w2×h2×c和增强深度特征B^d2∈R^w2×h2×c后，将其在特征维度方向堆叠起来得到纹理和几何拼接特征B^c2∈R^w2×h2×(2c)。

获得拼接特征B^c2后，利用由1×1卷积组成的数据融合网络进行特征降维和数据融合，得到纹理和几何特征的初始融合特征B^fusion0∈R^w2×h2×c。

基于初始融合特征，利用多头注意力网络进行聚合上下文信息的空间特征增强，得到目标融合特征。

在得到初始融合特征B^fusion0∈R^w2×h2×c后，将每一个空间位置的特征看作基元，利用多头注意力网络进行聚合上下文信息的空间特征增强，得到目标融合特征B^fusion∈R^w2 ^×h2×c。

可理解地，多头注意力网络只是空间特征增强的一种手段，也可以选用卷积神经网络，本发明实施例对此不作具体限定。

本发明实施例提供的融合纹理和几何特征的三维目标检测方法，通过对鸟瞰图可见光特征和鸟瞰图深度特征进行数据融合和空间增强得到目标融合特征，能够实现三维空间的几何特征和纹理特征的高效融合，进一步提升了三维目标检测算法的性能。

图2是本发明实施例提供的融合纹理和几何特征的三维目标检测方法的流程示意图之二，图3是本发明实施例提供的融合纹理和几何特征的三维目标检测方法的流程示意图之三，如图2和图3所示，本发明实施例提供的融合纹理和几何特征的三维目标检测方法，包括：

步骤1、获取结构光相机的可见光图像和深度图像。

步骤2、对所述可见光图像进行特征编码，得到可见光图像特征。

步骤3、利用所述深度图像将所述可见光图像特征变换到鸟瞰图空间下，得到包含纹理信息的鸟瞰图可见光特征。

可选地，图4是本发明实施例提供的确定鸟瞰图可见光特征的方法的流程示意图，如图4所示，步骤3包括以下步骤：

步骤3.1、基于所述深度图像，对每一个空间位置对应的局部区域进行深度分布估计，得到每一个空间位置的深度概率分布。

步骤3.1.1、基于所述深度图像，利用数值量化进行深度值离散化，得到离散深度图像。

步骤3.1.2、基于离散深度图像，对每一个空间位置对应的局部区域内的离散深度值进行直方图统计，得到每一个空间位置的深度直方图。

步骤3.1.3、基于所述每一个空间位置的深度直方图，统计有效深度值数量并进行置信度估计，得到每一个空间位置的深度估计置信度。

步骤3.1.4、对所述每一个空间位置的深度直方图进行归一化操作，得到每一个空间位置的深度估计分布。

步骤3.1.5、以所述每一个空间位置的深度估计置信度为权重，对所述每一个空间位置的深度估计分布和先验均匀分布进行加权平均，得到每一个空间位置的深度概率分布。

步骤3.2、基于所述深度概率分布和所述可见光图像特征，利用矩阵外积进行三维空间特征映射，得到三维椎体空间可见光特征。

步骤3.3、基于所述三维椎体空间可见光特征，利用结构光相机的内外校正参数进行特征空间坐标变换，得到服务机器人坐标系下的三维空间可见光特征。

步骤3.4、基于服务机器人坐标系下的三维空间可见光特征，利用空间降维和卷积网络进行鸟瞰图特征编码，得到包含纹理信息的鸟瞰图可见光特征。

步骤4、将所述深度图像转换为三维点云，利用点云网络进行特征编码，得到包含几何信息的鸟瞰图深度特征。

步骤5、对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行数据融合和空间增强，得到目标融合特征。

可选地，图5是本发明实施例提供的确定目标融合特征的方法的流程示意图，如图5所示，步骤5包括以下步骤：

步骤5.1、基于所述鸟瞰图可见光特征和所述鸟瞰图深度特征，利用可变形注意力网络进行局部自适应对齐的纹理和几何特征互相增强，得到增强可见光特征和增强深度特征，其中，所述鸟瞰图可见光特征和所述鸟瞰图深度特征存在局部对齐误差，可变形注意力网络可实现局部自适应特征对齐和互相增强。

步骤5.2、基于所述增强可见光特征和所述增强深度特征，利用特征拼接和1×1卷积降维进行纹理和几何特征的数据融合，得到初始融合特征。

步骤5.3、基于初始融合特征，利用多头注意力网络进行聚合上下文信息的空间特征增强，得到目标融合特征。

步骤6、基于所述融合特征，进行类别预测和边框回归，得到三维目标检测结果。

步骤2至步骤6中的神经网络的模型参数可以基于结构光相机的可见光图像数据、深度图像数据和三维目标检测标签训练得到。

可以预先收集结构光相机的可见光图像数据、深度图像数据和三维目标检测标签，还可以预先构建初始三维目标检测模型，初始三维目标检测模型可以由步骤2至步骤6中的神经网络组成。

在得到初始三维目标检测模型后，即可以应用预先收集好的结构光相机的可见光图像数据、深度图像数据和三维目标检测标签，对初始三维目标检测模型进行训练：

首先将结构光相机的可见光图像数据和深度图像数据输入至初始三维目标检测模型中，由初始三维目标检测模型输出三维目标检测结果。

在基于初始三维目标检测模型得到三维目标检测结果之后，即可将三维目标检测标签和三维目标检测结果进行比较，根据此两者之间的差异程度计算得到三维目标检测损失L^det，并基于三维目标检测损失将初始三维目标检测模型视为整体进行参数迭代，将完成参数迭代之后的初始三维目标检测模型记为三维目标检测模型。

参数迭代之后的初始三维目标检测模型，与初始三维目标检测模型具备相同的结构。

此处，可以使用交叉熵损失函数(Cross Entropy Loss Function)，也可以使用均方误差损失函数(Mean Squared Error，MSE)，还可以使用随机梯度下降法对初始三维目标检测模型的参数进行更新，本发明实施例对此不作具体限定。

可理解地，预先收集的三维目标检测标签和三维目标检测结果之间的差异程度越大，三维目标检测损失越大；预先收集的三维目标检测标签和三维目标检测结果之间的差异程度越小，三维目标检测损失越小。

本发明实施例提供的融合纹理和几何特征的三维目标检测方法，鸟瞰图可见光特征是基于深度图像和可见光图像特征经过图像坐标系至世界坐标系的空间变换得到的，由此，有利于获取三维空间的纹理特征，提升了三维目标检测算法的性能。另外，融合特征是由鸟瞰图可见光特征和鸟瞰图深度特征进行数据融合和空间增强得到的，且鸟瞰图深度特征是基于点云编码网络得到的，能够获取三维空间的几何特征以及其与纹理特征的高效融合，进一步提升了三维目标检测算法的性能。

本发明实施例提供的融合纹理和几何特征的三维目标检测方法，解决了现有技术中融合检测效果有限和难以实现三维目标检测的缺陷，实现提高了结构光相机三维目标检测性能的效果，为提升服务机器人的三维场景理解和精准操作能力奠定基础。

下面对本发明提供的融合纹理和几何特征的三维目标检测装置进行描述，下文描述的融合纹理和几何特征的三维目标检测装置与上文描述的融合纹理和几何特征的三维目标检测方法可相互对应参照。

图6是本发明实施例提供的融合纹理和几何特征的三维目标检测装置的结构示意图，如图6所示，本发明实施例提供的融合纹理和几何特征的三维目标检测装置，包括：

第一确定模块610，用于基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征；

第二确定模块620，用于基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征；所述可见光图像和所述深度图像是通过结构光相机获取的；

融合模块630，用于对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征；

检测模块640，用于基于所述目标融合特征，进行三维目标检测。

在此需要说明的是，本发明实施例提供的融合纹理和几何特征的三维目标检测装置，能够实现上述融合纹理和几何特征的三维目标检测方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

可选地，所述第一确定模块610，具体用于：

可选地，所述第二确定模块620，具体用于：

将所述深度图像对应的三维点云投影到鸟瞰图空间；

对投影后的三维点云进行重采样，确定规范化点柱；

可选地，所述融合模块630，具体用于：

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行融合纹理和几何特征的三维目标检测方法，该方法包括：基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征；基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征；所述可见光图像和所述深度图像是通过结构光相机获取的；对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征；基于所述目标融合特征，进行三维目标检测。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的融合纹理和几何特征的三维目标检测方法，该方法包括：基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征；基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征；所述可见光图像和所述深度图像是通过结构光相机获取的；对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征；基于所述目标融合特征，进行三维目标检测。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的融合纹理和几何特征的三维目标检测方法，该方法包括：基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征；基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征；所述可见光图像和所述深度图像是通过结构光相机获取的；对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征；基于所述目标融合特征，进行三维目标检测。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种融合纹理和几何特征的三维目标检测方法，其特征在于，包括：

基于所述目标融合特征，进行三维目标检测。

2.根据权利要求1所述的融合纹理和几何特征的三维目标检测方法，其特征在于，所述基于可见光图像对应的可见光图像特征，确定包含纹理信息的鸟瞰图可见光特征，包括：

3.根据权利要求2所述的融合纹理和几何特征的三维目标检测方法，其特征在于，所述基于所述深度图像，对所述可见光图像特征的空间位置对应的目标区域进行深度分布估计，确定所述空间位置的深度概率分布，包括：

4.根据权利要求3所述的融合纹理和几何特征的三维目标检测方法，其特征在于，所述基于所述深度估计置信度和所述深度估计分布，确定所述空间位置的深度概率分布，包括：

5.根据权利要求1所述的融合纹理和几何特征的三维目标检测方法，其特征在于，所述基于深度图像对应的三维点云，确定包含几何信息的鸟瞰图深度特征，包括：

将所述深度图像对应的三维点云投影到鸟瞰图空间；

对投影后的三维点云进行重采样，确定规范化点柱；

6.根据权利要求1所述的融合纹理和几何特征的三维目标检测方法，其特征在于，所述对所述鸟瞰图可见光特征和所述鸟瞰图深度特征进行融合，确定目标融合特征，包括：

7.一种融合纹理和几何特征的三维目标检测装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述融合纹理和几何特征的三维目标检测方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述融合纹理和几何特征的三维目标检测方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述融合纹理和几何特征的三维目标检测方法。