CN115410181A

CN115410181A - 双头解耦对齐的全场景目标检测方法、系统、装置及介质

Info

Publication number: CN115410181A
Application number: CN202211170474.1A
Authority: CN
Inventors: 陈景龙; 冯勇; 訾艳阳
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-11-29

Abstract

本发明公开了一种双头解耦对齐的全场景目标检测方法、系统、装置及介质，首先获取车载单目相机实时拍摄的原始待检测RGB图像；对所述原始待检测RGB图像进行预处理，得到自适应缩放图像；将所述自适应缩放图像输入预设双头单目目标检测模型中，得到所述预设双头单目目标检测模型输出的冗余目标参数预测值；对所述冗余目标参数预测值进行后处理，得到原始待检测RGB图像的高置信检测结果。本发明能够提高自动驾驶系统的全场景目标识别准确率和可靠性。

Description

双头解耦对齐的全场景目标检测方法、系统、装置及介质

技术领域

本发明涉及自动驾驶和计算机视觉领域，特别涉及一种双头解耦对齐的全场景目标检测方法、系统、装置及介质。

背景技术

随着人工智能和大数据分析等技术的发展，汽车自动驾驶水平不断提高，极大方便了人们的出行，并有望减少疲劳驾驶、醉驾等安全隐患。《汽车驾驶自动化分级》标准指出，从第三级有条件自动化驾驶开始，汽车系统应具有执行全部动态驾驶任务功能，即具备环境感知与决策控制功能。其中，环境感知功能要求系统能利用车载传感器及车联网准确快速地获取道周围车辆位置信息。因此，面向自动驾驶的道路车辆目标检测技术受到广泛关注和研究。

根据所用数据类型，现有自动驾驶目标检测方法可以分为三类：基于雷达点云、基于双目立体图像和基于单目RGB图像的方法。相较于纯视觉方法，利用激光雷达进行目标检测的方法目标定位精度高，深度信息可以直接获取，如中国专利CN109597087B公开了一种基于点云数据的3D目标检测方法，利用深度卷积神经网络提取点云数据与图像数据中感兴趣目标的融合感知与识别；双目方法利用左右相机图像作为模型输入进行目标信息推断，如中国专利CN114332790A公开了一种双目视觉3D目标检测方法，利用立体匹配算法提取左右图像视差信息进行深度估计；单目方法直接以单张RGB图像作为输入，更易实现道路目标的实时检测，如中国专利CN111369617A公开了一种基于卷积神经网络的单目视图的3D目标检测方法。

上述方法中，激光雷达远距离目标分辨率下降、价格高昂、算力需求大等因素限制了点云类方法的应用；纯视觉方法仅使用的双目或单目相机具有传感器性价比高、帧率高等优点，且目标检测算法对单目相机的工艺、安装及标定要求低于双目相机。然而，纯视觉方法的检测精度提升较难，对于单目方法而言更具挑战性。单目图像的深度估计是不适定问题，尤其在物体距相机较远、物体间互相遮挡、物体出现在视野边缘等苛刻场景下，现有单目3D目标检测方法对物体的位姿估计准确率明显下降，从而影响了自动驾驶系统的实用性和可靠性。

发明内容

本发明的目的在于提供一种双头解耦对齐的全场景目标检测方法、系统、装置及介质，以解决现有单目3D目标检测方法在远距离目标、遮挡目标、截断目标等苛刻场景下的漏检问题，本发明能够提高自动驾驶系统的全场景目标识别准确率和可靠性。

为达到上述目的，本发明采用如下技术方案：

双头解耦对齐的全场景目标检测方法，包括以下步骤：

SI：获取车载单目相机实时拍摄的原始待检测RGB图像；

S2：对所述原始待检测RGB图像进行预处理，得到自适应缩放图像；

S3：将所述自适应缩放图像输入预设双头单目目标检测模型中，得到所述预设双头单目目标检测模型输出的冗余目标参数预测值；

S4：对所述冗余目标参数预测值进行后处理，得到原始待检测RGB图像的高置信检测结果。

进一步地，所述S2具体包括：

S2.1：对所述原始待检测RGB图像进行边缘填充，得到高分辨率图像；其中，所述原始待检测RGB图像的分辨率不高于所述高分辨率图像的分辨率；

S2.2：对所述高分辨率图像进行RGB数值归一化处理，得到自适应缩放图像。

进一步地，所述S3中双头单目目标检测模型通过模型结构搭建以及权重离线训练两个步骤进行预先设置；

所述模型结构包括：特征提取网络和双头目标检测网络，其中，所述特征提取网络的主干为DLA-34深层聚合网络，所述DLA-34深层聚合网络采用形变卷积提取感兴趣目标特征；所述双头目标检测网络包含一个特征过渡网络和两个检测头，所述特征过渡网络结合Ghost卷积与形变卷积，所述两个检测头的结构均包括卷积层、批归一化层、激活函数层及卷积层，且所述两个检测头对目标属性参数采用不同的预测方式。

进一步地，所述目标属性参数包括目标深度、目标中心及目标姿态，所述两个检测头对目标属性参数采用不同的预测方式，具体包括：

在目标深度方面，两个检测头分别采用均值方差预测方式和指数预测方式；

在目标中心方面，两个检测头分别采用二维中心预测方式和三维投影中心预测方式；

在目标姿态方面，两个检测头分别采用直接预测方式和MultiBin离散预测方式。

进一步地，所述权重离线训练具体为：

利用历史数据集和公共数据集对所述特征提取网络和所述双头目标检测网络的参数进行联合训练，得到预设双头单目目标检测模型，其中，用于联合训练的损失函数如下所示：

其中，L为联合训练损失，I为自适应缩放图像，i表示所求损失的检测头序号，i＝1，2，L_i，kpt、L_i，3D、L_i，2D分别为第i个检测头预测结果的关键点损失、三维框损失、二维框损失，L_dis为两个检测头输出结果的参数解耦对齐损失，φ_f、φ_i分别为特征提取网络和第i个检测头的可学习参数。

进一步地，所述S3中得到所述预设双头单目目标检测模型输出的冗余目标参数预测值，包括：

所述预设双头单目目标检测模型的两个检测头均输出自适应缩放图像中全场景目标的类别、尺寸、姿态及位置的冗余预测值。

进一步地，所述S4具体包括：

S4.1：利用所用车载单目相机的内部参数，对预设双头单目目标检测模型输出的冗余目标参数预测值进行投影变换，得到原始待检测RGB图像坐标系下全场景目标的类别、尺寸、姿态及位置的冗余预测值；

S4.2：利用改进Soft-NMS函数对原始待检测RGB图像坐标系下全场景目标的尺寸、姿态及位置的冗余预测值进行筛选，滤除置信度低于预设值的冗余目标参数预测值，得到原始待检测RGB图像的高置信检测结果，改进Soft-NMS函数的表达式如下：

其中，s_i为原始待检测RGB图像中第i个全场景目标的检测结果置信分数，B_M、B_i分别为最大置信目标三维投影框和第i个目标三维投影框，z_M、z_i分别为最大置信目标深度和第i个目标深度，τ_z为目标深度阈值，σ、γ均为常数，IoU(·，·)为三维投影框的交并比函数。

双头解耦对齐的全场景目标检测系统，包括：

数据采集模块，用于获取车载单目相机实时拍摄的原始待检测RGB图像；

预处理模块，用于对所述原始待检测RGB图像进行预处理，得到自适应缩放图像；

预测模块，用于将所述自适应缩放图像输入预设双头单目目标检测模型中，得到所述预设双头单目目标检测模型输出的冗余目标参数预测值；

后处理模块，用于对所述冗余目标参数预测值进行后处理，得到原始待检测RGB图像的高质量检测结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述双头解耦对齐的全场景目标检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述双头解耦对齐的全场景目标检测方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

1)使用单目RGB图像作为输入，采用单阶段3D目标检测模型，提升了模型推理速度，提升了自动驾驶系统的实时性；

2)为促进双头单目目标检测模型参数在大数据集上训练时的收敛，使用联合训练损失，对目标参数的二维、三维参数均进行优化，对双检测头输出结果以参数解耦的方式对齐，保证了检测模型优化后的性能；

3)为了克服苛刻场景下目标检测性能下降的问题，采用双检测头的设置，对待检测目标从不同方面进行预测，并利用改进Soft-NMS进行检测结果对齐，大大降低了全场景目标检测的漏检率。

附图说明

说明书附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例提供的双头解耦对齐的全场景目标检测方法的流程示意图；

图2为本发明实施例提供的双头解耦对齐的全场景目标检测方法的双头单目目标检测模型结构图；

图3为本发明实施例提供的双头解耦对齐的全场景目标检测方法的改进Soft-NMS原理图；

图4为本发明实施例提供的全场景目标检测系统的结构示意图；

图5为本发明实施例提供的双头解耦对齐的全场景目标检测方法的检测结果图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下结合附图详细描述本申请实施例的技术方案。

S1：获取车载单目相机实时拍摄的原始待检测RGB图像。

在实际应用中，汽车自动驾驶系统通过车载单目摄像头实时获取车辆周围环境道路上的行人、车辆、障碍物等全场景目标的视觉信息，以输入目标检测模型进行检测，根据目标类型、位置、姿态等参数信息控制汽车行驶状态，达到自动驾驶目的。

S2：对所述原始待检测RGB图像进行预处理，得到自适应缩放图像。

具体步骤为：

该步骤将原始待检测图像的分辨率进行统一调整，同时对RGB数值进行归一化，降低模型对场景变化的敏感程度，同时方便模型批量处理实时道路图像。

S3：将所述自适应缩放图像输入预设双头单目目标检测模型中，得到所述预设双头单目目标检测模型输出的目标参数预测值。

预设双头单目目标检测模型通过模型结构搭建、权重离线训练两个步骤进行预先设置。

如图2所示，步骤S3中所述预设双头单目目标检测模型是单阶段的单目3D目标检测模型，其结构包括：特征提取网络和双头目标检测网络，其中，所述特征提取网络的主干为DLA-34深层聚合网络，所述DLA-34深层聚合网络采用形变卷积提取感兴趣目标特征；所述双头目标检测网络包含一个特征过渡网络和两个检测头，所述特征过渡网络结合Ghost卷积与形变卷积，所述两个检测头结构上均包括卷积层、批归一化层、激活函数层及卷积层，且所述两个检测头对目标深度、目标中心及目标姿态参数采用不同的预测方式，具体包括：在目标深度方面，两个检测头分别采用均值方差预测方式和指数预测方式；在目标中心方面，两个检测头分别采用二维中心预测方式和三维投影中心预测方式；在目标姿态方面，两个检测头分别采用直接预测方式和MultiBin离散预测方式。

所述预设双头单目目标检测模型通过离线训练的方式确定其权重参数，训练方式如下：

利用历史数据集和公共数据集对所述特征提取网络和所述双头目标检测网络参数进行联合训练，得到预设双头单目目标检测模型，其中，用于联合训练的损失函数如下所示：

步骤S3中所述得到所述双头单目目标检测模型输出的冗余目标参数预测值，包括：

步骤S4的具体步骤，包括：

S4.2：利用改进Soft-NMS函数对原始待检测RGB图像坐标系下全场景目标的尺寸、姿态、及位置的冗余预测值进行筛选，滤除置信度低于预设值(0.3)的冗余目标参数预测值，得到原始待检测RGB图像的高质量检测结果，改进Soft-NMS函数的表达式如下：

如图3所示，改进Soff-NMS函数的目的是将双检测头的有效检测结果保留、冗余结果删除、漏检结果互补，即：保留间隔较远目标的检测结果，滤除同一目标的冗余检测结果，保留距离靠近目标的检测结果。

与前述应用功能实现方法实施例相对应，本申请还提供了一种用于自动驾驶的全场景目标检测系统及相应的实施例。

图4为本发明所提供全场景目标检测系统的结构示意图，包括：

后处理模块，用于对所述冗余目标参数预测值进行后处理，得到所述原始待检测RGB图像的高质量检测结果。

关于系统中各个模块具体的执行操作方式已在本发明所提供方法的实施例中进行了详细描述，此处不再作详细说明。

为了进一步展示本发明显著的实质效果，下面结合具体实施例对本发明做进一步详细描述：

在本实施例中，将本发明所提供目标检测方法与典型的单目3D目标检测方法MonoFlex、RTM3D、MonoDIS等进行对比，采用3D目标检测领域广泛使用的KITTI数据集作对方法加以验证，评估指标为3D检测平均准确率AP|3D、位置预测平均准确率AP|BEV，目标检测结果交并比阈值为0.7，检测对象为KITTI数据集所划分三个检测难度(简单、中等、困难)的全景道路车辆目标，结果如表1所示。

表1道路车辆目标检测结果

可以看到，相比于现有方法，本发明提供的方法在三种难度场景下的3D检测平均准确率与位置预测平均准确率均有所提升。另外，图5展示了本发明所提供方法的检测结果图，每一行展示一个检测场景，前两列为单个检测头的结果，经过Soft-NMS对齐后，解决了苛刻场景下存在的漏检、冗余检测、低质量检测等问题，表明了本发明所提供方法在全场景道路车辆目标检测中的有效性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：本领域技术人员阅读本发明后依然可对发明的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在发明待批的权利要求保护范围之内。

Claims

1.双头解耦对齐的全场景目标检测方法，其特征在于，包括以下步骤：

S1：获取车载单目相机实时拍摄的原始待检测RGB图像；

2.根据权利要求1所述的双头解耦对齐的全场景目标检测方法，其特征在于，所述S2具体包括：

3.根据权利要求1所述的双头解耦对齐的全场景目标检测方法，其特征在于，所述S3中双头单目目标检测模型通过模型结构搭建以及权重离线训练两个步骤进行预先设置；

4.根据权利要求3所述的双头解耦对齐的全场景目标检测方法，其特征在于，所述目标属性参数包括目标深度、目标中心及目标姿态，所述两个检测头对目标属性参数采用不同的预测方式，具体包括：

5.根据权利要求3所述的双头解耦对齐的全场景目标检测方法，其特征在于，所述权重离线训练具体为：

6.根据权利要求3所述的双头解耦对齐的全场景目标检测方法，其特征在于，所述S3中得到所述预设双头单目目标检测模型输出的冗余目标参数预测值，包括：

7.根据权利要求6所述的双头解耦对齐的全场景目标检测方法，其特征在于，所述S4具体包括：

S4.2：利用改进Soff-NMS函数对原始待检测RGB图像坐标系下全场景目标的尺寸、姿态及位置的冗余预测值进行筛选，滤除置信度低于预设值的冗余目标参数预测值，得到原始待检测RGB图像的高置信检测结果，改进Soft-NMS函数的表达式如下：

8.双头解耦对齐的全场景目标检测系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述双头解耦对齐的全场景目标检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述双头解耦对齐的全场景目标检测方法的步骤。