CN114359892A

CN114359892A - 三维目标检测方法、装置及计算机可读存储介质

Info

Publication number: CN114359892A
Application number: CN202111502649.XA
Authority: CN
Inventors: 高伟; 杨丁豪; 李革
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-15

Abstract

本发明公开了一种三维目标检测方法、装置及计算机可读存储介质，所述方法包括：采用目标检测模型的语义提取模块提取待检测图像的图像语义特征；根据所述目标检测模型的检测模块，对所述图像语义特征以及所述待检测图像进行预测，得到所述待检测图像的二维框信息以及中间三维框信息；通过所述检测模块对所述二维框信息以及所述中间三维框信息进行检测，得到三维目标框信息，其中，所述目标检测模型包括依次连接的所述语义提取模块以及所述检测模块。本发明旨在提高检测图像中三维目标的准确性。

Description

三维目标检测方法、装置及计算机可读存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种三维目标检测方法、装置及计算机可读存储介质。

背景技术

单目相机拍摄的图像缺失深度信息。为了检测单目相机图像三维目标，相关技术通过三维目标检测框的监督来训练深度估计分支，并进一步检测三维目标，该方式学习深度信息的效果差，导致检测三维目标的准确性低。

发明内容

本发明的主要目的在于提供一种三维目标检测方法、装置及计算机可读存储介质，旨在解决检测三维目标的准确性低的技术问题。

为实现上述目的，本发明提供一种三维目标检测方法，所述方法包括：

采用目标检测模型的语义提取模块提取待检测图像的图像语义特征；

根据所述目标检测模型的检测模块，对所述图像语义特征以及所述待检测图像进行预测，得到所述待检测图像的二维框信息以及中间三维框信息；

通过所述检测模块对所述二维框信息以及所述中间三维框信息进行检测，得到三维目标框信息，其中，所述目标检测模型包括依次连接的所述语义提取模块以及所述检测模块。

可选地，所述采用目标检测模型的语义提取模块提取待检测图像的图像语义特征的步骤包括：

采用所述语义提取模块的编码器提取所述待检测图像的多尺度特征；

采用所述语义提取模块的解码器对所述多尺度特征进行特征提取，得到所述图像语义特征，所述语义提取模块包括依次连接的所述编码器与所述解码器。

可选地，所述编码器与所述解码器的连接方式为跳跃连接，所述语义提取模块的网络结构为级联金字塔网络结构，所述编码器包括金字塔场景解析网络PSPNet。

可选地，所述根据所述目标检测模型的检测模块，对所述图像语义特征以及所述待检测图像进行预测，得到所述待检测图像对应的二维框信息以及中间三维框信息的步骤包括：

对所述图像语义特征以及所述待检测图像进行拼接处理，得到拼接数据；

通过所述检测模块的主干网络对所述拼接数据进行预测处理，得到所述二维框信息以及所述中间三维框信息；

其中，所述中间三维框信息包括所述待检测图像中每个对象的中间三维框位置、中间三维框尺寸以及第一旋转角。

可选地，所述通过所述检测模块对所述二维框信息以及所述中间三维框信息进行检测，得到三维目标框信息的步骤包括：

采用所述检测模块的特征对齐子模块，对所述二维框信息与所述中间三维框进行特征对齐处理，得到所述三维目标框信息；

其中，所述三维目标框信息包括所述待检测图像中每个所述对象的三维目标框位置、三维目标框尺寸以及第二旋转角，所述特征对齐子模块基于投影矩阵构建得到。

可选地，所述方法还包括：

通过待训练图像数据对待训练模型进行训练，所述待训练模型包括依次连接的待训练语义提取模块以及待训练检测模块，所述待训练语义提取模块的网络为级联金字塔网络，所述待训练检测模块包括预设主干网络，所述待训练图像数据包括单目相机拍摄的图像；

在检测到对所述待训练模型训练完成后，将所述待训练模型保存为所述目标检测模型。

可选地，所述在检测到对所述待训练模型训练完成后，将所述待训练模型保存为所述目标检测模型的步骤之前，还包括：

在所述待训练语义提取模块的第一损失函数收敛，且所述待训练检测模块的第二损失函数收敛时，确定所述待训练模型训练完成。

此外，为实现上述目的，本发明还提供一种三维目标检测装置，所述三维目标检测装置包括：

提取模块，用于采用目标检测模型的语义提取模块提取待检测图像的图像语义特征；

预测模块，用于根据所述目标检测模型的检测模块，对所述图像语义特征以及所述待检测图像进行预测，得到所述待检测图像对应的二维框信息以及中间三维框信息；

三维框检测模块，用于通过所述检测模块对所述二维框信息以及所述中间三维框信息进行检测，得到三维目标框信息，其中，所述目标检测模型包括依次连接的所述语义提取模块以及所述检测模块。

此外，为实现上述目的，本发明还提供一种三维目标检测装置，所述三维目标检测装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三维目标检测程序，所述三维目标检测程序被所述处理器执行时实现上述任一项所述的三维目标检测方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有三维目标检测程序，所述三维目标检测程序被处理器执行时实现上述任一项所述的三维目标检测方法的步骤。

本发明实施例提出的一种三维目标检测方法、装置及计算机可读存储介质，通过采用目标检测模型的语义提取待检测图像的图像语义特征，根据目标检测模型的检测模块，对图像语义特征以及待检测图像进行预测，得到待检测图像的二维框信息以及中间三维框信息，通过检测模块对二维框信息以及中间三维框信息进行检测，得到三维目标框信息，其中，目标检测模型包括依次连接的语义提取模块以及检测模块。采用此方式，通过图像语义特征表征待检测图像中对象的类别，模拟人对物体类别的识别，以向三维空间的构建提供先验信息。进一步地，基于图像语义特征以及待检测图像进行预测，得到二维框信息以及三维框信息之后，检测得到三维框信息，从而图像语义特征这一先验信息能够有效提升后续构建深度信息对应关系的准确性，以进一步提高三维目标检测的准确性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明三维目标检测方法第一实施例的流程示意图；

图3为本发明三维目标检测方法第二实施例的流程示意图；

图4为本发明三维目标检测方法第三实施例的流程示意图；

图5为本发明三维目标检测方法第四实施例的流程示意图；

图6为本发明三维目标检测装置一实施例的结构示意图；

图7为本发明实施例涉及的目标检测模型的模型结构一实施例的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。

如图1所示，该装置可以包括：处理器1001，例如CPU，存储器1002，通信总线1003。其中，通信总线1003用于实现这些组件之间的连接通信。存储器1002可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1002中可以包括三维目标检测程序。

在图1所示的装置中，处理器1001可以用于调用存储器1002中存储的三维目标检测程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1002中存储的三维目标检测程序，还执行以下操作：

参照图2，本发明第一实施例提供一种三维目标检测方法，所述三维目标检测方法包括：

步骤S10，采用目标检测模型的语义提取模块提取待检测图像的图像语义特征；

目标检测模型为预先训练的用于检测三维目标的机器学习模型。语义提取模块是目标检测模型包括的用于提取语义特征的模型结构。图像语义特征可以用于表征待检测图像中对象的类别。对象指图像中包含的物体元素，比如，人、车、树等。图像中不同物体的图像语义特征不同，从而基于图像语义特征能够区分不同物体的类别，并用于模拟人眼视觉中对场景或者环境的类别先验。通过像素级分类任务，提供对人、车辆、骑自行车的人等类别的先验信息。

可选地，待检测图像为单目相机拍摄的图像。

可选地，语义提取模块也可以视作语义分割模块。

在一示例性技术中，在检测单目相机拍摄的图像的三维目标框时，主要从机器视觉的角度进行深度估计。由于训练数据由单目相机拍摄的图像组成，其中没有像素级的深度信息，从而只能通过三维目标检测框的监督来训练深度估计分支，导致二维检测框到三维检测框的生成并不准确。在另一示例性技术中，主要改进方向侧重于如何更好的将二维目标检测算法迁移到三维，如采用可变形卷积，增加二维至三维的对齐过程及优化约束等。上述方式从二维图像学习深度信息的效果较差，导致基于单目相机图像的三维目标检测性能或者准确性低，并且，仅从机器视觉角度考虑特征提取以及检测操作，导致改进方向集中在对齐二维检测框到三维框上，检测性能或者准确性低。

为了避免上述示例性技术存在的问题，本实施例基于人眼视觉成像原理，对基于单目相机的三维目标检测进行建模，解决深度信息预测难以及二维到三维转换不准确的问题。

本实施例主要实现原理如下：本实施例区别于示例性技术的三维目标检测方法从机器视觉建模的方式，而主要基于人眼视觉机理，对单目三维目标检测进行建模。人形成三维视觉的原理主要包括生理感知和心理感知，生理感知比如双目视差、移动视差以及聚焦模糊等，心理感知比如仿射、遮挡、光照阴影、纹理、先验知识五方面的视觉暗示。人通过视觉获取的图像信息结合大脑构建出三维场景感知，基于相似的原理，本实施例基于图像进行三维目标检测时，引入物体类别的先验知识，通过场景理解方法模拟人对物体类别的识别，向三维空间构建提供先验信息，先验信息比如鸟通常在天空飞行、车辆的大小通常大于人。基于此，通过用于场景理解的语义提取模块，对图像提取图像语义特征，以基于该图像语义特征提供像素级类别信息先验，基于深度估计的目标检测头，使用语义特征以及待检测图像的图像特征，预测出二维框信息以及三维框信息，再通过特征对齐模块预测深度信息，结合投影关系实现二维到三维的互相对齐，最终生成三维目标框检测结果。

其中，语义提取模块的输入数据为待检测图像，输出数据为图像语义特征。

步骤S20，根据所述目标检测模型的检测模块，对所述图像语义特征以及所述待检测图像进行预测，得到所述待检测图像的二维框信息以及中间三维框信息；

检测模块是目标检测模型中至少用于检测三维目标框信息的模型结构。检测模块的输入数据为图像语义特征以及待检测图像，输出数据为三维目标检测框。

可选地，检测模型对图像语义特征以及待检测图像进行预测后，还可以得到待检测图像中每个物体或者对象的类型标签，类型标签可以标注在待检测图像的三维框附近。

可选地，中间三维框信息是初步预测得到的初步三维框信息。

步骤S30，通过所述检测模块对所述二维框信息以及所述中间三维框信息进行检测，得到三维目标框信息，其中，所述目标检测模型包括依次连接的所述语义提取模块以及所述检测模块。

可选地，在通过检测模块对二维框信息以及中间三维框信息进行检测时，将二维框信息以及中间三维框信息输入检测模块的特征对齐子模块，利用投影矩阵建立对齐关系，从而得到更准确的三维目标框信息。

在本实施例中，通过采用目标检测模型的语义提取待检测图像的图像语义特征，根据目标检测模型的检测模块，对图像语义特征以及待检测图像进行预测，得到待检测图像的二维框信息以及中间三维框信息，通过检测模块对二维框信息以及中间三维框信息进行检测，得到三维目标框信息，其中，目标检测模型包括依次连接的语义提取模块以及检测模块。采用此方式，通过图像语义特征表征待检测图像中对象的类别，模拟人对物体类别的识别，以向三维空间的构建提供先验信息。进一步地，基于图像语义特征以及待检测图像进行预测，得到二维框信息以及三维框信息之后，进一步检测得到三维框信息，从而图像语义特征这一先验信息能够有效提升后续构建深度信息对应关系的准确性，以进一步提高三维目标检测的准确性。

参照图3，本发明第二实施例提供一种三维目标检测方法，基于上述图2所示的第一实施例，所述步骤S10包括：

步骤S11，采用所述语义提取模块的编码器提取所述待检测图像的多尺度特征；

步骤S12，采用所述语义提取模块的解码器对所述多尺度特征进行特征提取，得到所述图像语义特征，所述语义提取模块包括依次连接的所述编码器与所述解码器。

可选地，所述编码器与所述解码器的连接方式为跳跃连接，所述语义提取模块的网络结构为级联金字塔网络结构，所述编码器包括金字塔场景解析网络(Pyramid SceneParsing Network，PSPNet)。语义提取模块用于实现场景理解。语义提取模块包括编码器结构以及解码器结构，编码器最高维特征使用金字塔场景解析网络提取多尺度特征。

可选地，语义提取模块的最终输出结果为解码器各层输出的拼接。

可选地，使用KITTI的语义分割标注进行监督，取解码器最高层输出的最精确语义特征与待检测图像进行拼接，作为检测模块的输入。

其中，语义提取模块的主要作用为模拟人眼视觉中对场景信息的类别先验，通过像素级分类任务，提供对人、车辆、骑自行车的人等类别的先验信息，便于更准确地构建深度信息对应关系。

在本实施例中，通过采用语义提取模块的编码器提取待检测图像的多尺度特征；采用语义提取模块的解码器对多尺度特征进行特征提取，得到图像语义特征，语义提取模块包括依次连接的编码器与解码器。通过像素级分类任务，提供对人、车辆、骑自行车的人等类别的先验信息，便于更准确地构建深度信息对应关系，从而进一步结合检测模块得到更准确的三维框信息。

参照图4，本发明第三实施例提供一种目标检测方法，基于上述图2所示的第一实施例，所述步骤S20包括：

步骤S21，对所述图像语义特征以及所述待检测图像进行拼接处理，得到拼接数据；

步骤S22，通过所述检测模块的主干网络对所述拼接数据进行预测处理，得到所述二维框信息以及所述中间三维框信息；其中，所述中间三维框信息包括所述待检测图像中每个对象的中间三维框位置、中间三维框尺寸以及第一旋转角。

在一实施例中，所述步骤S30包括：

检测模块的输入数据包括图像语义特征以及待检测图像。其中，可以首先将图像语义特征以及待检测图像拼接后得到的拼接数据输入至检测模块。

参照图7所示，图7为本发明实施例涉及的目标检测模型的模型结构示意图，其中，目标检测模块包括依次连接的语义提取模块以及检测模块。B1、B2以及B3分别为图像中不同对象的三维目标框信息。

语义提取模块基于级联金字塔网络构建，语义提取模块包括依次连接的编码器结构以及解码器结构，编码器结构与解码器结构之间采用跳跃连接进行特征拼接，语义提取模块的最终输出结果为解码器各层输出的拼接。检测模块基于主干网络进行构建，主干网络可以是基于DLA-102的主干网络。

可选地，利用主干网络进一步处理输入特征之后，预测得到二维框信息以及初步三维框信息，初步三维框信息即为中间三维框信息，将二维框信息以及初步三维框信息输入特征对齐子模块，利用投影矩阵建立对齐关系，再通过自适应注意力机制更好的进行特征融合对齐，最终输出三维目标框信息。二维框信息包括待检测图像中每个物体的位置信息。

可选地，中间三维框位置包括初步三维框的第一中心点坐标(x₁，y₁，z₁)，中间三维框尺寸包括初步三维框的第一宽高长(w₁，h₁，l₁)，第一旋转角为初步三维框的旋转角。

可选地，三维目标框位置包括三维目标框的第二中心点坐标(x₂，y₂，z₂)，三维目标框尺寸包括三维目标框的第二宽高长(w₂，h₂，l₂)，第二旋转角为三维目标框的旋转角。

可选地，检测模块利用主干网络进一步处理输入特征后，还可以预测得到类型标签及二维框信息，以对图像中物体的类型以及位置进行初步识别，同时还可以预测得到初步三维框信息。类型标签的作用为在待检测图像上标注三维目标框对应的物体类型，便于辨识待检测图像中目标的物体类型。

在本实施例中，对所述图像语义特征以及所述待检测图像进行拼接处理，得到拼接数据；通过所述检测模块的主干网络对所述拼接数据进行预测处理，得到所述二维框信息以及所述中间三维框信息，采用所述检测模块的特征对齐子模块，对所述二维框信息与所述中间三维框进行特征对齐处理，得到所述三维目标框信息，从而能够结合图像语义特征更准确的识别三维目标，并且通过特征对齐能够进一步提高三维目标的准确性。

参照图5，本发明第四实施例提供一种三维目标检测方法，基于上述图2所示的第一实施例，所述方法还包括：

步骤S40，通过待训练图像数据对待训练模型进行训练，所述待训练模型包括依次连接的待训练语义提取模块以及待训练检测模块，所述待训练语义提取模块的网络为级联金字塔网络，所述待训练检测模块包括预设主干网络，所述待训练图像数据包括单目相机拍摄的图像；

步骤S50，在检测到对所述待训练模型训练完成后，将所述待训练模型保存为所述目标检测模型。

在一实施例中，所述步骤S50之前，还包括：

在本实施例中，使用端到端训练方式，对待训练模型进行训练，即，同时训练语义提取模块和检测模块。待训练模型的模型结构包括依次连接的语义提取模块以及检测模块。

可选地，第一损失函数为：

其中，

代表语义提取模块的损失函数，CE为交叉熵损失函数，IoU为交并比损失函数，i为解码器的每个层，λ为预设权重。

可选地，第二损失函数为：

其中，

表示检测模块的损失函数，

为三维框预测对应的损失函数，

为二维框预测对应的损失函数。

可选地，

为：

其中，cls为分类，reg指边界框回归。

可选地，

为：

其中，rpn为检测网络中的兴趣提出网络(Region Proposal Network，RPN)，rcnn为区域卷积神经网络(RegionConvolutionalNeuralNetworks，RCNN)。

在一实施例中，采用上述方式训练待训练模型，可以将任务训练的周期数(Epoch)设为70，批处理大小(Batch size)设为4，即周期内每一步从训练集读取4个样本进行训练，优化器使用随机梯度下降(Stochastic gradient descent)，动量(Momentum)设为0.9，学习率(Learning rate)初始值为0.004，使用的学习率调节器(Learning rate scheduler)为余弦退火(Cosine annealing)，在推理阶段，NMS的交并比阈值设置为0.4，置信度阈值设置为0.75，训练结束后，得到目标检测模型。通过目标检测模型对测试数据进行测试，测试数据包括单目相机拍摄的待检测图像，采用AP作为评价指标，其中，相对于示例性技术，本实施例采用的目标检测模型检测三维目标的检测性能，即准确性提高。

在本实施例中，通过待训练图像数据对待训练模型进行训练，所述待训练模型包括依次连接的待训练语义提取模块以及待训练检测模块，所述待训练语义提取模块的网络为级联金字塔网络，所述待训练检测模块包括预设主干网络，所述待训练图像数据包括单目相机拍摄的图像；在检测到对所述待训练模型训练完成后，将所述待训练模型保存为所述目标检测模型。从而训练得到目标检测模型，采用该目标检测模型检测待检测图像时，其准确性提高。

参照图6所示，图6为本发明涉及的三维目标检测装置一实施例的架构示意图，所述三维目标检测装置包括：

提取模块10，用于采用目标检测模型的语义提取模块提取待检测图像的图像语义特征；

预测模块20，用于根据所述目标检测模型的检测模块，对所述图像语义特征以及所述待检测图像进行预测，得到所述待检测图像对应的类别信息、二维框信息以及中间三维框信息；

三维框检测模块30，用于通过所述检测模块对所述类别信息、所述二维框信息以及所述中间三维框信息进行检测，得到三维目标框信息，其中，所述目标检测模型包括依次连接的所述语义提取模块以及所述检测模块。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台装置执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种三维目标检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述采用目标检测模型的语义提取模块提取待检测图像的图像语义特征的步骤包括：

3.如权利要求2所述的方法，其特征在于，所述编码器与所述解码器的连接方式为跳跃连接，所述语义提取模块的网络结构为级联金字塔网络结构，所述编码器包括金字塔场景解析网络PSPNet。

4.如权利要求1所述的方法，其特征在于，所述根据所述目标检测模型的检测模块，对所述图像语义特征以及所述待检测图像进行预测，得到所述待检测图像对应的二维框信息以及中间三维框信息的步骤包括：

5.如权利要求4所述的方法，其特征在于，所述通过所述检测模块对所述二维框信息以及所述中间三维框信息进行检测，得到三维目标框信息的步骤包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求6所述的方法，其特征在于，所述在检测到对所述待训练模型训练完成后，将所述待训练模型保存为所述目标检测模型的步骤之前，还包括：

8.一种三维目标检测装置，其特征在于，所述三维目标检测装置包括：

9.一种三维目标检测装置，其特征在于，所述三维目标检测装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三维目标检测程序，所述三维目标检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的三维目标检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有三维目标检测程序，所述三维目标检测程序被处理器执行时实现如权利要求1至7中任一项所述的三维目标检测方法的步骤。