CN114429524A

CN114429524A - 单目视觉下的三维目标检测模型的构建方法及检测方法

Info

Publication number: CN114429524A
Application number: CN202210357382.8A
Authority: CN
Inventors: 陈振武; 周勇; 张枭勇; 许建荣; 张炳振; 胡海峰; 刘怡初; 赵竟雯
Original assignee: Sun Yat Sen University; Shenzhen Urban Transport Planning Center Co Ltd
Current assignee: Sun Yat Sen University; Shenzhen Urban Transport Planning Center Co Ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-05-03
Anticipated expiration: 2042-04-07
Also published as: CN114429524B

Abstract

本发明公开了一种单目视觉下的三维目标检测模型的构建方法及检测方法，所述方法包括：获取带标注的训练图像集；将训练图像集作为训练数据，训练获得基于CenterNet网络的三维目标检测模型，其中，三维目标检测模型的特征提取网络包括多个特征提取模块，至少一个特征提取模块包括池化模块、注意模块以及第一融合模块，池化模块包括并列的全局最大池化层、全局平均池化层和随机池化层，注意模块包括分别与全局最大池化层、全局平均池化层和随机池化层的输出侧连接的三个子注意模块，子注意模块包括激活函数层及批处理归一化层，第一融合模块将三个子注意模块的输出融合。本发明可以简化三维目标检测网络结构，降低三维目标检测模型的训练成本。

Description

单目视觉下的三维目标检测模型的构建方法及检测方法

技术领域

本发明涉及深度学习和图像处理技术领域，具体涉及一种单目视觉下的三维目标检测模型的构建方法及检测方法。

背景技术

随着城市化进程的快速发展，城市人口越来越多，城市交通需求量随之增长，城市道路中的各种车辆急剧增加。为了更好地管理城市交通车辆，大场景视频监控系统变得必不可少。智能视频监控系统需要准确地从监控视频中完成行人、车辆等三维目标的检测，从而有效分析道路各种车辆行人运行情况。

现有单目图像的目标检测技术中，常用的策略大多数基于多阶段目标检测方法。首先训练2D目标检测器，根据标注数据中的标注文件裁剪原始图像获得目标图像，缩放后输入3D目标检测器，预测目标的3D尺寸信息、偏转角度信息和置信度，训练3D目标检测器；通过训练完成的2D目标检测器检和3D目标检测器，预测2D框内目标的3D尺寸信息和偏转角度信息。该方法通过深度学习和几何学的方法，利用单目RGB图像训练3D目标检测器，能够检测给定类别目标的3D信息和偏转角度，进而依赖几何学原理，构建物体的3D框。这种多阶段目标检测方法基于学习到的大量2D建议，附加了一个额外的网络分支来学习3D信息或生成伪点云并将其输入点云检测网络，然而，这种多阶段目标检测策略导致了目标检测中网络结构复杂以及成本较大的问题。

发明内容

本发明解决的问题是现有的三维目标检测方法采用多阶段目标检测策略后导致网络结构复杂和成本较大。

本发明提出一种单目视觉下的三维目标检测模型的构建方法，包括：

获取带标注的训练图像集；

将所述训练图像集作为训练数据，训练获得基于CenterNet网络的三维目标检测模型，其中，所述三维目标检测模型的特征提取网络包括多个特征提取模块，至少一个所述特征提取模块包括池化模块、注意模块以及第一融合模块，所述池化模块包括并列的全局最大池化层、全局平均池化层和随机池化层，所述注意模块包括分别与所述全局最大池化层、所述全局平均池化层和所述随机池化层的输出侧连接的三个子注意模块，所述子注意模块包括激活函数层及批处理归一化层，所述第一融合模块将三个所述子注意模块的输出融合。

可选地，所述特征提取网络还包括多个连续的反卷积模块，多个所述反卷积模块设置在所述特征提取模块的输出侧。

可选地，所述三维目标检测模型还包括设置在所述反卷积模块的输出侧的采样输出模块，所述采样输出模块包括热力图输出分支、目标三维中心输出分支、三维尺寸输出分支和方位角输出分支。

可选地，所述三维目标检测模型还包括设置在所述采样输出模块的输出侧的参数回归模块，所述参数回归模块用于合并所述采样输出模块包括的四个输出分支。

可选地，所述三维目标检测模型的特征提取网络为残差网络，所述特征提取模块还包括设置于所述第一融合模块输出侧的激活函数模块和第二融合模块，所述第一融合模块输出的特征经所述激活函数模块处理后，与输入所述特征提取模块的初始特征在所述第二融合模块融合，融合获得的特征图作为所述特征提取模块的输出特征图。

可选地，所述三维目标检测模型采用尺度不变IOU损失函数进行训练，损失函数表达式如下：

，

，

其中，

指损失函数，

指热力图损失，

指交并比损失，

指交并比损失权重，

指

与

相交的部分，

指

与

相并的部分。

可选地，所述训练图像集包括随机水平翻转处理后的图像。

可选地，所述特征提取网络包括五层特征提取模块，所述池化模块、所述注意模块以及所述第一融合模块设置于第四层特征提取模块。

本发明还提出一种单目视觉下的三维目标检测方法，包括：

获取待检测图像；

将所述待检测图像输入至上所述的单目视觉下的三维目标检测模型的构建方法所构建的三维目标检测模型，获得所述三维目标检测模型输出的三维目标。

可选地，所述待检测图像为监控视频图像。

本发明采用基于CenterNet算法框架的三维目标检测模型，预测目标的三维尺寸和偏转角度等信息，可实现不依赖多阶段网络的先验2D框和点云数据就可以预测目标的3D尺寸和偏转角度，计算出目标的3D坐标在图像中的投影，进而构建目标的3D框，进而实现在单目监控图像上通过深度学习的方法预测目标3D尺寸信息和偏转角度，而且，采用CenterNet的端到端结构，可有效提升算法精度，缩短模型训练时间，降低训练成本。此外，本发明通过在骨干网络中加入注意力机制，可对通道的重要性进行区分，并给予更为重要的通道特征更高的权重，使网络更关注特征较大、对正确输出贡献更大的通道，抑制那些对正确输出没有帮助的通道，从而在轻量化网络结构的同时，提高网络的检测性能。

附图说明

图1为本发明实施例单目视觉下的三维目标检测模型的构建方法流程一示意图；

图2为本发明实施例单目视觉下的三维目标检测模型的构建方法中三维目标检测模型整体结构的示意图；

图3为本发明实施例单目视觉下的三维目标检测模型的构建方法中三维目标检测模型注意力机制的结构示意图；

图4为本发明实施例单目视觉下的三维目标检测模型的构建方法三维目标检测模型中采样输出模块结构的示意图；

图5为本发明实施例单目视觉下的三维目标检测模型的构建方法三维目标检测模型注意力机制中池化和降维操作示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

如图1，在本发明一实施例中，所述单目视觉下的三维目标检测模型的构建方法包括：

获取带标注的训练图像集；将所述训练图像集作为训练数据，训练获得基于CenterNet网络的三维目标检测模型。其中，所述三维目标检测模型的特征提取网络包括多个特征提取模块，至少一个所述特征提取模块包括池化模块、注意模块以及第一融合模块，所述池化模块包括并列的全局最大池化层、全局平均池化层和随机池化层，所述注意模块包括分别与所述全局最大池化层、所述全局平均池化层和所述随机池化层的输出侧连接的三个子注意模块，所述子注意模块包括激活函数层及批处理归一化层，所述第一融合模块将三个所述子注意模块的输出融合。

其中，本发明实施例提出的三维目标检测模型以CenterNet算法为框架，CenterNet网络是一种端到端的并且不使用锚机制（anchor-free）目标检测器，比多阶段类检测器有更快的检测速度、更简单的网络结构和更低的训练成本。本发明实施例中三维目标检测模型的骨干网络可采用Resnet18作为特征提取网络。

如图2，在基于CenterNet网络的三维目标检测模型的骨干网络中加入池化模块、注意模块以及第一融合模块，其中，池化模块的全局最大池化层使用输入特征图的最大值作为特征，全局平均池化层使用输入特征图的平均值作为特征，随机池化层根据输入特征图中元素的概率值大小随机选择特征，该三个池化层提取特征时的侧重点不同，在后续第一融合模块将该三个池化层提取的特征进行融合，可得到更丰富的特征信息。注意模块的设置是为了获得不同通道之间的权重，以对网络卷积后的通道进行对比，通过比较不同通道的权重，以识别特征更为重要的通道，权重越大，相应通道的特征越重要，对正确输出贡献越大，权重越小，相应通道的特征重要性越低，对正确输出的贡献越小，通过设置这样的通道间注意机制，使网络关注对正确输出贡献更大的通道特征，抑制那些对正确输出没有帮助的通道特征。最大权重设置为1，最小权重设置为0，注意模块包含三个子注意模块，每个子注意模块均包括激活函数层及批处理归一化层。注意模块中可采用Sigmoid函数作为激活函数，Sigmoid激活函数是一个饱和非线性激活函数，对于任意大或者任意小的特征，激活函数可以映射到0-1这个范围；如图5，因特征图经池化处理后维度会提升，而注意模块中的批处理归一化层通过对经池化处理、激活函数处理后的特征图进行降维处理，使该特征提取模块输出的特征图维度等于输入该特征提取模块时的特征图维度，可以解决训练过程中中间层数据分布不断变化，导致后续层输入特征变化，学习困难的问题。

骨干网络中特征提取网络中有包含池化模块、注意模块以及第一融合模块的特征提取层，也有不包含池化模块、注意模块以及第一融合模块的特征提取层。例如，如图2，示出的是在第四特征提取层设置池化模块、注意模块以及第一融合模块，其他特征提取层不设置该三个模块。对于不包含池化模块、注意模块以及第一融合模块的特征提取层，可设置为残差块。

进一步地，训练图像集所带标注包括：目标类别、三维尺寸信息和偏转角度信息。其中，三维尺寸信息指长宽高信息，偏转角度信息指航向角。

可选地，所述训练图像集包括随机水平翻转处理后的图像。

训练数据集采用KITTI数据集，对KITTI数据集图像进行随机水平翻转，将随机水平翻转后的图像也作为训练图像，一方面，可使训练获得的三维目标检测模型能实时准确检测左行和右行车辆，提高模型检测的泛化性，使检测结果更加全面，另一方面，可使训练获得的三维目标检测模型对更复杂的环境检测结果更加可靠和鲁棒。

可选地，所述特征提取网络还包括多个连续的反卷积模块，多个所述反卷积模块设置在所述特征提取模块的输出侧。具体地，多个反卷积模块设置在所有特征提取模块的输出侧，例如，特征提取网络总共有五个特征提取模块，五个特征提取模块相邻连接，多个反卷积模块设置在第五个特征提取模块之后。

反卷积模块用于对特征提取模块输出的特征图进行上采样处理。如图4给出的示例中，特征提取网络包括三个连续的反卷积层，其中第一反卷积层，用于对特征提取模块输出的32倍下采样特征图进行处理，输出16倍下采样特征图，第二反卷积层，用于对16倍下采样特征图进行处理，输出8倍下采样特征图，第三反卷积层，用于对8倍下采样特征图进行处理，输出4倍下采样特征图。

可选地，如图2，所述三维目标检测模型还包括设置在所述反卷积模块的输出侧的采样输出模块，所述采样输出模块包括热力图输出分支、目标三维中心输出分支、三维尺寸输出分支和方位角输出分支。

其中，热力图用于预测目标关键点，热力图表示各像素位置检测到目标关键点的概率。

以一示例说明上述输出分支的尺寸信息，将预处理后的目标图像缩放输入三维目标检测模型的特征提取网络（ResNet18），图片经过ResNet18提取特征得到特征1-尺寸为1x2048x16x16，feature1经过反卷积模块Deconv，三次上采样得到特征2-尺寸为1x64x128x128，将特征2分别送入各个输出分支进行预测，预测热力图尺寸为1x80x128x128(表示80个类别)，预测长宽尺寸为1x2x128x128(2表示长和宽)，预测中心点偏移量尺寸为1x2x128x128(2表示x, y) ，预测方位角输出1x1x128x128。

通过设置并列的多个输出分支，分别输出热力图、目标三维中心、三维尺寸及方位角等三维信息，供后续模块整合生成三维目标检测结果。

可选地，如图4，所述三维目标检测模型还包括设置在所述采样输出模块的输出侧的参数回归模块，所述参数回归模块用于合并所述采样输出模块包括的四个输出分支，生成检测结果。具体可采用加权的方式合并采样输出模块的四个输出分支，实现候选关键点在不同分辨率特征图上的特征读取、对齐与融合，其中，四个输出分支的加权权重通过训练获得。

可选地，如图4，参数回归模块还包括1x1卷积层。合并采样输出模块的四个输出分支输出各自的特征后进行融合，具体可通过特征向量拼接的方式融合获得融合特征。在获得融合特征后，将融合特征输入到1x1卷积层，通过1x1卷积层从融合特征中得到3D回归框编码向量

（K表示检测目标数量，R表示回归参数数量）。其中，在1x1卷积层，基于融合特征通过回归计算得到3D回归框编码向量，每一个检测目标的回归参数可表示为一个8维向量

：

其中：

表示深度值z的残差；

表示关键点下采样量化过程的偏差；

、

、

表示目标大小维度的残差；

、

表示方位角的正余弦值。

3D回归框编码向量的解码过程：

尺寸/大小：

位置：

方位角：

其中，

、

、

分别为目标长宽高的均值，由数据集标注统计而来，

为常数，为自然对数底数；

、

分别为目标深度值均值和方差，由数据集标注而来，

为目标深度；

K为相机内参，

、

为关键点的像素坐标。

可见，解码获得的3D回归框编码向量包含长

、宽

、高

、位置坐标

、位置坐标

、位置坐标

以及方位角

，在获得3D回归框编码向量后，将其输出至后处理模块，再由后处理模块基于3D回归框编码向量进行可视化处理后，以可视化形式输出最终的三维目标检测结果。

可选地，所述三维目标检测模型的特征提取网络为残差网络，如图2，所述特征提取模块还包括设置于所述第一融合模块输出侧的激活函数模块和第二融合模块，所述第一融合模块输出的特征经所述激活函数模块处理后，与输入所述特征提取模块的初始特征在所述第二融合模块融合，融合获得的特征图作为所述特征提取模块的输出特征图。

其中，三维目标检测模型的提取网络主要用残差网络，具体可采用Resnet18。

例如，如图2，在Conv4设置有池化模块、注意模块以及第一融合模块，则将Conv4的第一融合模块输出的特征经所述激活函数模块处理后，与输入Conv4的初始特征在第二融合模块融合，得到的特征图作为Conv4的输出特征图。

为便于描述，将第一融合模块输出的特征经所述激活函数模块处理得到的特征称为初级融合特征，具体地，对于第二融合模块，如图3，将初始特征与初级融合特征串联拼接后，输出到Softmax，由Softmax回归映射后，得到概率分布结果，再将得到的概率分布结果分别与初始特征和初级融合特征相乘后融合，通过将经注意力机制处理后的初级融合特征与初始特征融合，在保留通道间注意力机制的作用的同时，保留初始输入的原始特征，兼顾高级特征和相对低级的特征，融合得到的特征图蕴含更丰富的信息，使网络的目标检测效果更佳。

，

，

其中，

指损失函数，

指热力图损失，

指交并比损失，

指交并比损失权重，

指

与

相交的部分，

指

与

相并的部分。

交并比损失权重可按照经验设定，可选地，

。

本发明实施例采用IOU损失函数，其弥补了L1损失函数尺度不变性的不足，并将其与最终评估标准IOU相结合，解决了损失函数与最终评估标准不一致的问题。

特征提取网络的前几层通常提取的是低阶的空间特征，后几层提取的是高阶的语义特征，因而将池化模块、注意模块以及第一融合模块等设置于深层的特征提取模块中，更有利于提升特征提取效果。

本发明实施例还提出一种单目视觉下的三维目标检测方法，包括：

获取待检测图像；将所述待检测图像输入至如上所述的单目视觉下的三维目标检测模型的构建方法所构建的三维目标检测模型，获得所述三维目标检测模型输出的三维目标。

其中三维目标检测模型的相关内容已在上文详述，此处不赘述。

待检测图像为单目图像，即单个摄像头拍摄的图像。可选地，所述待检测图像为监控视频图像。进而实现在监控系统中的单目视觉下的三维目标检测。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种单目视觉下的三维目标检测模型的构建方法，其特征在于，包括：

获取带标注的训练图像集；

2.如权利要求1所述的单目视觉下的三维目标检测模型的构建方法，其特征在于，所述特征提取网络还包括多个连续的反卷积模块，多个所述反卷积模块设置在所述特征提取模块的输出侧。

3.如权利要求2所述的单目视觉下的三维目标检测模型的构建方法，其特征在于，所述三维目标检测模型还包括设置在所述反卷积模块的输出侧的采样输出模块，所述采样输出模块包括热力图输出分支、目标三维中心输出分支、三维尺寸输出分支和方位角输出分支。

4.如权利要求3所述的单目视觉下的三维目标检测模型的构建方法，其特征在于，所述三维目标检测模型还包括设置在所述采样输出模块的输出侧的参数回归模块，所述参数回归模块用于合并所述采样输出模块包括的四个输出分支。

5.如权利要求1所述的单目视觉下的三维目标检测模型的构建方法，其特征在于，所述三维目标检测模型的特征提取网络为残差网络，所述特征提取模块还包括设置于所述第一融合模块输出侧的激活函数模块和第二融合模块，所述第一融合模块输出的特征经所述激活函数模块处理后，与输入所述特征提取模块的初始特征在所述第二融合模块融合，融合获得的特征图作为所述特征提取模块的输出特征图。

6.如权利要求1所述的单目视觉下的三维目标检测模型的构建方法，其特征在于，所述三维目标检测模型采用尺度不变IOU损失函数进行训练，损失函数表达式如下：