CN116385761A

CN116385761A - 一种融合rgb与红外信息的3d目标检测方法

Info

Publication number: CN116385761A
Application number: CN202310085430.7A
Authority: CN
Inventors: 邓清; 田炜
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-07-04

Abstract

本发明涉及一种融合RGB与红外信息的3D目标检测方法，包括：获取像素对齐的RGB与红外图像样本数据；构建基于深度学习的目标检测网络，利用样本数据进行训练，得到目标检测模型；将实际中同时拍摄且对齐的RGB与红外图像输入该模型，得到目标的3D位姿信息。其中，目标检测网络包括：双模态融合骨干网络(提取双模态特征并进行特征级融合)、语义特征提取模块、深度感知特征增强模块(隐式学习深度感知特征)、深度位置编码模块(生成深度位置编码)、深度感知Transformer模块(全局集成特征图)、检测头(预测物体类别、2D框及3D框)。与现有技术相比，本发明能够有效融合RGB与红外双模态的互补信息，能够提升低光照场景下的目标检测性能，确保检测结果的准确性。

Description

一种融合RGB与红外信息的3D目标检测方法

技术领域

本发明涉及自动驾驶视觉感知技术领域，尤其是涉及一种融合RGB与红外信息的3D目标检测方法。

背景技术

随着以自动驾驶为代表的人工智能研究兴起，基于视觉的感知技术已经成为当前学界与工业界的一个研究热点，而目标检测则是其中的热门课题。目标检测任务主要分为2D目标检测和3D目标检测，2D目标检测一般是在相机拍摄的图像上进行检测，要求识别各目标物体的类别，并生成图像上的2D边界框以准确定位物体实例；而3D目标检测是将定位任务拓展到3D空间中，输出的定位结果是物体在真实世界中的3D边界框及朝向。

由于自动驾驶感知等任务需要提供物体在真实世界中的位姿信息，因此必须采用3D目标检测方法。现有技术大多利用RGB相机进行3D目标检测，尽管RGB相机具有成本低、图像语义及纹理信息丰富等优点，但其缺点在于较容易受自然环境如光照的影响，在光照条件不足的场景(比如夜晚)下存在检测困难的问题；此外，现有技术采用红外相机进行3D目标检测，由于红外相机能够捕捉物的辐射热量，即便在低光照条件下也能反映出较为清晰的物体轮廓，但其缺点是图像纹理特征不如RGB相机丰富，导致最终检测结果准确性较低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种融合RGB与红外信息的3D目标检测方法，通过有效融合RGB与红外双模态的互补信息，能够提升低光照场景下的目标检测性能，确保检测结果的准确性。

本发明的目的可以通过以下技术方案来实现：一种融合RGB与红外信息的3D目标检测方法，包括以下步骤：

S1、获取像素对齐的RGB与红外图像样本数据；

S2、构建基于深度学习的目标检测网络，并利用步骤S1获取的样本数据对目标检测网络进行训练，得到目标检测模型；

S3、将实际中同时拍摄且对齐的RGB与红外图像输入目标检测模型，输出得到目标的3D位姿信息。

进一步地，所述目标检测网络包括双模态融合骨干网络、语义特征提取模块、深度感知特征增强模块、深度位置编码模块、深度感知Transformer模块和检测头，所述双模态融合骨干网络用于从像素对齐的RGB与红外图像中提取双模态特征并进行融合，得到融合特征；

所述语义特征提取模块用于从融合特征中提取出语义特征；

所述深度感知特征增强模块用于从融合特征中预测出深度信息、并挖掘出深度感知特征；

所述深度位置编码模块用于根据深度信息，生成相应的深度位置编码；

所述深度感知Transformer模块基于语义特征、深度感知特征和深度位置编码，通过建立语义特征与深度感知特征之间的全局交互关系，得到集成特征图；

所述检测头基于集成特征图，输出对应检测结果。

进一步地，所述步骤S2中对目标检测网络进行训练具体包括以下步骤：

S21、针对输入的像素对齐的RGB与红外图像，由双模态融合骨干网络提取出双模态特征、并采用多层的特征级融合算法进行融合，得到融合特征；

S22、针对步骤S21得到的融合特征，通过语义特征提取模块提取出语义特征；

S23、对步骤S21得到的融合特征，利用深度感知特征增强模块通过辅助深度监督，以学习物体的深度信息，并在深度信息基础上进一步隐式地学习得到深度感知特征；

S24、深度位置编码模块根据步骤S23预测得到的深度信息，生成对应的深度位置编码；

S25、深度感知Transformer模块基于步骤S22生成的语义特征、步骤S23生成的深度感知特征与步骤S24生成的深度位置编码，利用Transformer的编码器、解码器架构，建立出语义特征与深度感知特征之间的全局交互关系，并得到集成特征图，实现深度信息对3D目标检测的关键引导；

S26、将集成特征图输入基于锚点的2D-3D检测头，分别预测得到物体类别、2D框及3D框，并设计损失函数用于目标检测网络训练。

进一步地，所述步骤S21具体包括以下步骤：

S211、针对输入的像素对齐的RGB与红外图像，由两个卷积神经网络分别独立提取相应特征，得到多个尺度层级上的RGB模态特征与红外模态特征；

S212、在两个卷积神经网络的最后三个网络层上，将相应的RGB模态特征与红外模态特征进行拼接，通过1×1卷积加权融合，得到三个拼接特征；

S213、根据三个拼接特征的网络层高低排序，利用迭代深度聚合(Iterative DeepAggregation，IDA)结构，将三个拼接特征进一步融合，输出得到单一尺度的融合特征。

进一步地，所述步骤S213中迭代深度聚合结构具体是将高层网络的特征通过3×3卷积、反卷积上采样后与低层网络的特征拼接，通过3×3卷积再提取，经过迭代的树状聚合得到单一尺度的融合特征。

进一步地，所述步骤S23具体包括以下步骤：

S231、将深度范围离散化为D个小区间，针对步骤S21输出的融合特征F∈R^C×H×W，通过第一层卷积层得到初始深度感知特征X∈R^C×H×W，再通过第二层卷积层得到特征图上每个像素的深度类别概率D∈R^D×H×W；

S232、对深度类别概率分布D，利用组卷积合并相邻的深度类别，类别个数以r为采样间隔下采样到D′＝D/r，下采样后的类别共享相似的深度线索、降低计算量；

S233、初始深度感知特征X通过卷积层再提取得到X′；

S234、对D′中的每个深度类别，X′的所有像素按照D′对应概率加权后在空间维度上累加，得到每个深度类别的深度原型F_d：

其中，X_i′为X′第i个像素的特征，

为D′第i个像素属于第d个深度类别的概率；

S235、对D′每个像素位置，所有深度类别的深度原型F_d按照D′对应概率加权后累加，得到重构深度感知特征F′，使每个像素从全局角度理解深度类别的表征：

S236、将初始深度感知特征X与重构深度感知特征F′拼接，通过1×1卷积再提取，得到增强的深度感知特征。

进一步地，所述步骤S24具体包括以下步骤：

S241、根据步骤S23引入的每个深度类别，构造出可学习的嵌入编码E_d＝[e₁,e₂,...,e_D]∈R^D×C；

S242、从步骤S23预测的深度概率分布D中，查找每个像素概率最大的深度类别，再从E_d中查找该深度类别对应的嵌入编码e_d，以作为该像素处C个通道的特征，得到初始深度位置编码P∈R^H×W×C；

S243、通过卷积层进一步聚合局部位置线索，残差连接后得到最终的深度位置编码。

进一步地，所述步骤S25具体包括以下步骤：

S251、将步骤S22生成的语义特征在空间维度展平为X_c∈R^N×C，其中，N＝H×W，输入到Transformer编码器中，通过多头自注意力与前馈神经网络得到编码后的键矩阵、值矩阵；

S252、将步骤S23生成的含丰富深度线索的深度感知特征在空间维度展平后，输入到Transformer解码器中，通过多头自注意力得到深度感知的查询矩阵；

S253、Transformer解码器进一步利用自注意力机制，用深度感知的查询矩阵对语义特征编码的键矩阵、值矩阵做交叉查询，得到深度信息引导后的输出特征。

进一步地，所述Transformer编码器和Transformer解码器均基于标准Transformer架构，所述步骤S24生成的深度位置编码作为Transformer架构中的位置编码导入，所述Transformer自注意力层的操作表达式为：

Q∈R^N×C

K∈R^N×C

V∈R^N×C

其中，Q为查询矩阵，K为键矩阵，V为值矩阵，Q、K、V共同作为自注意力层的给定输入。

进一步地，所述步骤S26具体包括以下步骤：

S261、利用2D边界框[x_2d,y_2d,w_2d,h_2d]和3D边界框[x_p,y_p,z,w_3d,h_3d,l_3d,θ]预定义锚点，其中，[x_2d,y_2d]和[x_p,y_p]分别为2D框的中心、3D框中心在图像平面上的投影，[w_2d,h_2d]和[w_3d,h_3d,l_3d]分别为2D框的像素尺寸、3D框的物理尺寸，z为3D框中心的深度，θ为表示物体朝向的观察角度；

S262、由2D-3D检测头为每个锚点预测目标置信度c、分类得分cls以及2D和3D边界框的相对偏移量[t_x,t_y,t_w,t_h]_2d和[t_x,t_y,t_w,t_h,t_l,t_z,t_θ]_3d；

S263、在推理阶段，根据锚点和网络预测的相对偏移量，由以下公式恢复2D框和3D框：

其中，

表示恢复参数，*表示向量对应位置相乘；

S264、在训练阶段，设计由目标置信度损失、分类损失、边界框回归损失、辅助深度监督损失四部分构成的总损失函数L进行训练：

L＝L_conf+L_cls+L_reg+L_dep

其中，L_conf为目标置信度损失，L_cls为分类损失，L_reg为边界框回归损失，L_dep为辅助深度监督损失。

与现有技术相比，本发明具有以下优点：

一、本发明基于深度学习的目标检测网络，结合像素对齐的RGB与红外图像，以训练得到目标检测模型，该目标检测模型包括双模态融合骨干网络、语义特征提取模块、深度感知特征增强模块、深度位置编码模块、深度感知Transformer模块和检测头，利用双模态融合骨干网络从像素对齐的RGB与红外图像中提取双模态特征并进行融合，得到融合特征；利用语义特征提取模块从融合特征中提取出语义特征；利用深度感知特征增强模块从融合特征中预测出深度信息、并挖掘出深度感知特征；利用深度位置编码模块用于根据深度信息，生成相应的深度位置编码；利用深度感知Transformer模块基于语义特征、深度感知特征和深度位置编码，通过建立语义特征与深度感知特征之间的全局交互关系，得到集成特征图；利用检测头基于集成特征图，输出对应检测结果。由此能够有效融合RGB与红外双模态的互补信息，对提升复杂场景尤其是低光照场景下的3D目标检测性能、实现全天候自动驾驶具有重要的理论意义与实际应用价值。

二、本发明针对像素对齐的RGB与红外图像，利用双模态融合骨干网络进行双模态特征提取、并采用多层的特征级融合算法进行融合，能够帮助网络学习在不同语义层次上自适应地融合白天、夜晚不同光照条件下的互补信息，能充分利用RGB图像与红外图像的输入信息，从而对白天、夜晚场景的光照变化具有鲁棒性，尤其能提升低光照场景的目标检测性能。

三、本发明考虑到物体的深度信息对物体3D框定位至关重要同时也是单目图像天然缺失的，故在目标检测模型的深度感知特征增强模块中，通过辅助深度监督，使网络学习物体的深度信息，并在深度信息基础上进一步隐式地学习深度感知特征，能够确保得到准确的深度信息，进而提升后续3D目标检测的准确性，且采用特征级隐式学习的方式，能够大大缓解传统深度估计器显式生成深度图存在的大量噪声和额外计算负担问题。

四、本发明中，目标检测模型的深度感知Transformer模块基于语义特征、步深度感知特征与深度位置编码，利用Transformer的编码器、解码器架构，建立出语义特征与深度感知特征之间的全局交互关系，并得到集成特征图，以实现深度信息对3D目标检测的关键引导。

附图说明

图1为本发明的方法流程示意图；

图2为融合RGB与红外信息的3D目标检测方法的总体架构图；

图3为双模态融合骨干网络示意图；

图4为深度感知特征增强模块示意图；

图5为深度位置编码模块示意图；

图6为深度感知Transformer模块示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种融合RGB与红外信息的3D目标检测方法，包括以下步骤：

S1、获取像素对齐的RGB与红外图像样本数据；

本实施例应用上述技术方案，构建基于深度学习的目标检测网络，如图2所示，包括：

一、双模态融合骨干网络对像素对齐的RGB与红外图像，提取双模态特征，并采用一种多层的特征级融合算法进行融合；

二、针对输出的融合特征，通过语义特征提取模块(本实施例采用卷积层的形式)提取语义特征；

三、针对输出的融合特征，引入深度感知特征增强模块，通过辅助深度监督，使网络学习物体的深度信息，此后在深度信息基础上进一步隐式地学习深度感知特征；

四、深度位置编码模块根据预测的深度信息，生成深度位置编码；

五、深度感知Transformer模块基于生成的语义特征、生成的深度感知特征与生成的深度位置编码，利用Transformer的编码器、解码器架构建立语义特征与深度感知特征之间的全局交互关系，从而实现深度信息对3D目标检测的关键引导；

六、基于锚点的2D-3D检测头分别预测物体类别、2D框及3D框，并设计损失函数用于网络训练。

在上述过程一中，如图3所示：

输入的RGB与红外双模态信息流分别由两个深层聚合网络DLA-102独立提取特征，利用深度为1、3、4、1的分级深度聚合(HDA)结构得到多个尺度层级上的特征；

在两个深层聚合网络的最后三个网络层上，分别将相应的步长分别为8、16、32的双模态特征拼接，通过1×1卷积加权融合；

在不同网络层之间，利用迭代深度聚合(IDA)结构进一步融合，输出步长为8的单一尺度的融合特征，迭代深度聚合(IDA)结构将高层网络特征通过3×3卷积、反卷积上采样后与低层网络特征拼接，通过3×3卷积再提取、经过迭代的树状聚合得到单一尺度的融合特征。

在上述过程三中，如图4所示：

首先将深度范围离散化为D＝96个小区间，之后针对过程一输出的融合特征F∈R^C ^×H×W，通过第一层卷积层得到初始深度感知特征X∈R^C×H×W，再通过第二层卷积层得到特征图上每个像素的深度类别概率D∈R^D×H×W；

之后针对深度类别概率分布D，利用组卷积合并相邻的深度类别，类别个数以r＝4为采样间隔下采样到D′＝D/r，下采样后的类别可以共享相似的深度线索并降低计算量；

初始深度感知特征X通过卷积层再提取得到X′；

再针对D′中的每个深度类别，X′的所有像素按照D′对应概率加权后在空间维度上累加，得到每个深度类别的深度原型F_d：

其中X′_i为X′第i个像素的特征，

为D′第i个像素属于第d个深度类别的概率；

针对D′每个像素位置，所有深度类别的深度原型F_d按照D′对应概率加权后累加，得到重构深度感知特征F′，使每个像素从全局角度理解深度类别的表征：

最后将初始深度感知特征与重构深度感知特征拼接，通过1×1卷积再提取，得到增强的深度感知特征。

需要说明的是，辅助深度监督仅在网络训练阶段使用，需要预先获取训练集图像深度类别概率分布D的真值，由同步采集并完成标定的激光点云生成。具体操作如下：将激光点云按照标定外参、相机内参投影到图像平面上，生成稀疏的真值深度图；再利用线性递增离散化算法(LID)生成深度区间作为类别分类，见下式：

其中i为类别索引，D为类别个数，[d_min,d_max]为深度范围，注意深度范围外的像素记为无效且训练时不参与优化。

在上述过程四中，如图5所示，包括：

首先根据过程三引入的每个深度类别，构造出可学习的嵌入编码：

E_d＝[e₁,e₂,...,e_D]∈R^D×C；

再从过程三预测的深度概率分布D中，查找出每个像素概率最大的深度类别，之后从E_d中查找该深度类别对应的嵌入编码e_d，作为该像素处C个通道的特征，得到初始深度位置编码P∈R^H×W×C；

最后通过卷积层进一步聚合局部位置线索，残差连接后即可得到最终的深度位置编码。

在上述过程五中，如图6所示，包括：

首先将过程二生成的语义特征在空间维度展平为X_c∈R^N×C，其中N＝H×W，输入到Transformer编码器中，通过多头自注意力与前馈神经网络得到编码后的键矩阵、值矩阵；

然后将过程三生成的含丰富深度线索的深度感知特征在空间维度展平后，输入到Transformer解码器中，通过多头自注意力得到深度感知的查询矩阵；

之后，由Transformer解码器进一步利用自注意力机制，用深度感知的查询矩阵对语义特征编码的键矩阵、值矩阵做交叉查询，得到深度信息引导后的输出特征。

其中，Transformer编码器和解码器均基于标准Transformer架构，给定输入为：查询矩阵Q∈R^N×C、键矩阵K∈R^N×C、值矩阵V∈R^N×C，Transformer自注意力层的操作公式为：

需要说明的是，过程四生成的深度位置编码作为Transformer架构中的位置编码导入。

在上述过程六中，具体包括以下内容：

首先利用2D边界框[x_2d,y_2d,w_2d,h_2d]和3D边界框[x_p,y_p,z,w_3d,h_3d,l_3d,θ]预定义锚点，其中[x_2d,y_2d]和[x_p,y_p]分别为2D框的中心、3D框中心在图像平面上的投影，[w_2d,h_2d]和[w_3d,h_3d,l_3d]分别为2D框的像素尺寸、3D框的物理尺寸，z为3D框中心的深度，θ为表示物体朝向的观察角度；

之后，2D-3D检测头参照经典单阶段检测器Yolov3，以为每个锚点预测出目标置信度c、分类得分cls以及2D和3D边界框的相对偏移量[t_x,t_y,t_w,t_h]_2d和[t_x,t_y,t_w,t_h,t_l,t_z,t_θ]_3d；

在推理阶段，根据锚点和网络预测的相对偏移量，由下式恢复2D框和3D框：

其中

表示恢复参数，*表示向量对应位置相乘；

在训练阶段，设计目标置信度损失L_conf、分类损失L_cls、边界框回归损失L_reg、辅助深度监督损失L_dep四部分构成总的损失L：

L＝L_conf+L_cls+L_reg+L_dep

其中L_conf、L_cls、L_dep均采用焦损失函数FL，L_reg采用平滑L1损失函数smooth_L1，N表示样本总数，i表示样本索引，pos为正样本的集合，T为所有回归参数的集合，P为具有有效深度标签的像素集合，D为深度类别概率分布。

本实施例在特征图的每个像素上使用48个锚点，2D框包括16种像素高度按24×2ⁱ ^/4,i＝{0,1,...,15}定义的尺度以及3种宽高比{0.5,1.0,1.5}，3D框参数则根据训练集3D框真值的均值和方差的统计先验生成。训练时将所有3D框真值投影到图像平面上以计算与所有2D锚点的交并比(IoU)，其中IoU大于0.5的锚点被选作正样本。

综上所述，本技术方案提出一种融合RGB与红外信息的3D目标检测方法，能够利用像素对齐的RGB图像与红外图像进行3D目标检测，所设计的基于深度学习的目标检测网络包括：双模态融合骨干网络、语义特征提取模块、深度感知特征增强模块、深度位置编码模块、深度感知Transformer模块、2D-3D检测头。首先，将像素对齐的RGB图像与红外图像输入到双模态融合骨干网络中，提取双模态特征并进行特征级融合。深度感知特征增强模块通过辅助深度监督，学习深度的不确定性分布，进一步隐式地学习深度感知特征；并通过卷积层并行提取语义特征。深度感知Transformer模块利用Transformer编码器、解码器架构全局集成两种特征。深度位置编码模块生成深度位置编码并导入Transformer架构。最后，利用基于锚点的检测头预测物体类别、2D框及3D框。与现有的目标检测方法相比，本发明可通过RGB与红外双模态传感器获取包括白天、夜晚不同光照条件下的互补信息，采用的多层融合策略可以帮助网络学习在不同语义层次上自适应地融合这些互补信息，理论上能充分利用RGB图像与红外图像的输入信息，所以对白天、夜晚场景的光照变化具有鲁棒性，尤其能提升低光照场景的检测性能；

本发明完成的3D目标检测相比于RGB与红外融合领域传统的2D目标检测，能够反映出物体在真实世界中的坐标，适用于自动驾驶、机器人等需要此类信息的任务；

本发明使网络学习对物体3D框定位至关重要而单目图像天然缺失的深度信息，并利用学习到的深度信息对3D目标检测进行关键引导，且采用特征级隐式学习缓解了传统深度估计器显式生成深度图存在的大量噪声和额外计算负担问题；

本发明结合目前先进的卷积神经网络与Transformer架构，具有更高的检测精度和鲁棒性，尤其能提升低光照场景的检测性能，为全天候自动驾驶感知等任务提供新的解决方案。

Claims

1.一种融合RGB与红外信息的3D目标检测方法，其特征在于，包括以下步骤：

S1、获取像素对齐的RGB与红外图像样本数据；

2.根据权利要求1所述的一种融合RGB与红外信息的3D目标检测方法，其特征在于，所述目标检测网络包括双模态融合骨干网络、语义特征提取模块、深度感知特征增强模块、深度位置编码模块、深度感知Transformer模块和检测头，所述双模态融合骨干网络用于从像素对齐的RGB与红外图像中提取双模态特征并进行融合，得到融合特征；

所述语义特征提取模块用于从融合特征中提取出语义特征；

所述检测头基于集成特征图，输出对应检测结果。

3.根据权利要求2所述的一种融合RGB与红外信息的3D目标检测方法，其特征在于，所述步骤S2中对目标检测网络进行训练具体包括以下步骤：

4.根据权利要求3所述的一种融合RGB与红外信息的3D目标检测方法，其特征在于，所述步骤S21具体包括以下步骤：

S213、根据三个拼接特征的网络层高低排序，利用迭代深度聚合结构，将三个拼接特征进一步融合，输出得到单一尺度的融合特征。

5.根据权利要求4所述的一种融合RGB与红外信息的3D目标检测方法，其特征在于，所述步骤S213中迭代深度聚合结构具体是将高层网络的特征通过3×3卷积、反卷积上采样后与低层网络的特征拼接，通过3×3卷积再提取，经过迭代的树状聚合得到单一尺度的融合特征。

6.根据权利要求3所述的一种融合RGB与红外信息的3D目标检测方法，其特征在于，所述步骤S23具体包括以下步骤：

S233、初始深度感知特征X通过卷积层再提取得到X′；

其中，X′_i为X′第i个像素的特征，

为D′第i个像素属于第d个深度类别的概率；

7.根据权利要求6所述的一种融合RGB与红外信息的3D目标检测方法，其特征在于，所述步骤S24具体包括以下步骤：

8.根据权利要求6所述的一种融合RGB与红外信息的3D目标检测方法，其特征在于，所述步骤S25具体包括以下步骤：

9.根据权利要求8所述的一种融合RGB与红外信息的3D目标检测方法，其特征在于，所述Transformer编码器和Transformer解码器均基于标准Transformer架构，所述步骤S24生成的深度位置编码作为Transformer架构中的位置编码导入，所述Transformer自注意力层的操作表达式为：

Q∈R^N×C

K∈R^N×C

V∈R^N×C

10.根据权利要求3～9任一所述的一种融合RGB与红外信息的3D目标检测方法，其特征在于，所述步骤S26具体包括以下步骤：

其中，

表示恢复参数，*表示向量对应位置相乘；

L＝L_conf+L_cls+L_reg+L_dep